JP2017513090A

JP2017513090A - オブジェクト検索方法および装置

Info

Publication number: JP2017513090A
Application number: JP2016550858A
Authority: JP
Inventors: 彦李; 小娟李; 文美 ▲ガオ▼
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2017-05-25
Anticipated expiration: 2034-05-15
Also published as: BR112016017262A2; WO2015172359A1; US10311115B2; EP3001333A4; EP3001333A1; BR112016017262B1; KR20160104054A; CN104854539B; KR101864240B1; US20160147882A1; CN104854539A; JP6316447B2

Abstract

オブジェクト検索方法および装置が提供され、ここで方法は、ユーザの音声入力およびジェスチャー入力を受信するステップと、音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリ決定するステップと、特徴カテゴリの特徴情報をユーザによってジェスチャー入力を用いて選択された画像領域から抽出するステップと、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するステップとを含む。本発明の実施形態において提供される解決策は、より柔軟な検索方法をユーザに提供し、検索時の適用シナリオに対する制限を軽減することができる。

Description

本発明は、コンピュータ技術の分野における検索技術の分野に関連し、具体的には、オブジェクト検索方法および装置に関連している。

現在、ネットワークを使用して検索対象のターゲットオブジェクトを検索する場合、通常、ユーザはターゲットオブジェクトに関する何らかの既知の検索基準を入力または選択してから、その検索基準に従ってターゲットオブジェクトを検索する。例えば、ターゲットオブジェクトの価格範囲に従って検索を実行したり、ターゲットオブジェクトが所属している領域に従って検索を実行することができる。

前述のオブジェクト検索の解決策では、ユーザは、検索で使用される検索基準を明確に記述できることが必要になる。例えば、検索基準を、事前に設定された何らかの基準から選択できたり、直接入力することができる。ただし、実際の適用では、ユーザは、ターゲットオブジェクトを検索する際に、ユーザが期待する検索基準を明確に記述できない場合がある。例えば、ユーザが特定の色のオブジェクトを検索することを期待しているが、既知の色の名前を使用してその色を正確に記述することができない場合や、ユーザが特定の形状のオブジェクトを検索することを期待しているが、その形状が不規則である場合がある。したがって、その場合、ユーザは期待しているターゲットオブジェクトを検索できない。さらに、検索を実行した場合でも、検索基準が正確ではないため、検索結果がユーザの検索目的に一致しない可能性があり、その結果、検索の効果が相対的に低くなる。従来技術におけるオブジェクト検索方法は、より柔軟な検索方法をユーザに提供することができず、適用シナリオによって相対的に大きく制限される。

本発明の実施形態は、より柔軟な検索方法をユーザに提供することができず、適用シナリオに対する制限が相対的に大きい従来技術における問題を解決するために、オブジェクト検索方法および装置を提供する。

第1の態様によれば、オブジェクト検索方法が提供され、オブジェクト検索方法は、
ユーザの音声入力およびジェスチャー入力を受信するステップと、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するステップと、
ユーザによってジェスチャー入力を用いて選択された画像領域から特徴カテゴリの特徴情報を抽出するステップと、
抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するステップとを含む。

第1の態様を参照して、可能な第1の実装方法では、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するステップは、
特徴情報およびターゲットオブジェクトの名前をサーバに送信するステップと、
サーバによって返された検索結果を受信するステップとを特に含み、検索結果は、サーバによって特徴情報に従ってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得される。

第1の態様または第1の態様の可能な第1の実装方法を参照して、可能な第2の実装方法では、ユーザの音声入力およびジェスチャー入力を受信するステップは、
ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するステップ、または
ユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するステップ、または
ユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するステップを特に含む。

第1の態様または第1の態様の可能な第1の実装方法を参照して、可能な第3の実装方法では、ユーザによってジェスチャー入力を用いて選択された画像領域を取得するステップは、
ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するステップ、または
ユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するステップを含む。

第2の態様によれば、オブジェクト検索装置が提供され、オブジェクト検索装置は、
ユーザの音声入力およびジェスチャー入力を受信するように構成された第1の受信ユニットと、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するように構成された第1の決定ユニットと、
ユーザによってジェスチャー入力を用いて選択された画像領域から特徴カテゴリの特徴情報を抽出するように構成された抽出ユニットと、
抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するように構成された第1の検索ユニットとを含む。

第2の態様を参照して、可能な第1の実装方法では、第1の検索ユニットは、特徴情報およびターゲットオブジェクトの名前をサーバに送信し、サーバによって返された検索結果を受信するように特に構成され、検索結果は、サーバによって特徴情報に従ってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得される。

第2の態様または第2の態様の可能な第1の実装方法を参照して、可能な第2の実装方法では、第1の受信ユニットは、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、またはユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するように特に構成されるか、またはユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するように特に構成される。

第2の態様または第2の態様の可能な第1の実装方法を参照して、可能な第3の実装方法では、第1の決定ユニットは、ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成されるか、またはユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成される。

第3の態様によれば、オブジェクト検索方法が提供され、オブジェクト検索方法は、
ユーザの音声入力およびジェスチャー入力を受信するステップと、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するステップと、
特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによってジェスチャー入力を用いて選択された画像領域をサーバに送信するステップと、
サーバによって返された検索結果を受信するステップとを含み、検索結果は、サーバによってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得され、画像領域に関する、カテゴリ情報によって表された特徴カテゴリの特徴が検索基準として使用される。

第3の態様を参照して、可能な第1の実装方法では、ユーザの音声入力およびジェスチャー入力を受信するステップは、
ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するステップ、または
ユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するステップ、または
ユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するステップを特に含む。

第3の態様を参照して、可能な第2の実装方法では、ユーザによってジェスチャー入力を用いて選択された画像領域を取得するステップは、
ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するステップ、または
ユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するステップを含む。

第4の態様によれば、オブジェクト検索装置が提供され、オブジェクト検索装置は、
ユーザの音声入力およびジェスチャー入力を受信するように構成された第2の受信ユニットと、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するように構成された第2の決定ユニットと、
特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによってジェスチャー入力を用いて選択された画像領域をサーバに送信するように構成された送信ユニットと、
サーバによって返された検索結果を受信するように構成された第3の受信ユニットとを含み、検索結果は、サーバによってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得され、画像領域に関する、カテゴリ情報によって表された特徴カテゴリの特徴が検索基準として使用される。

第4の態様を参照して、可能な第1の実装方法では、第2の受信ユニットは、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、またはユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するように特に構成されるか、またはユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するように特に構成される。

第4の態様を参照して、可能な第2の実装方法では、第2の決定ユニットは、ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成されるか、またはユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成される。

本発明の有益な効果は、以下を含む。
本発明の実施形態で提供される前述の解決策において、オブジェクト検索が実行された場合、ユーザの音声入力およびジェスチャー入力が最初に受信され、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリが音声入力に従って決定され、ターゲットオブジェクトが、ユーザによってジェスチャー入力を用いて選択された画像領域の特徴カテゴリの特徴およびターゲットオブジェクトの名前を検索基準として使用して検索される。検索時に、ユーザは、音声を使用して特徴カテゴリおよびターゲットオブジェクトの名前を入力し、ジェスチャー入力を用いて画像領域を選択するだけでよく、特徴カテゴリ、ターゲットオブジェクトの名前、および画像領域を使用して検索基準を表すことができ、検索基準の明確な記述は不要である。したがって、より柔軟な検索方法がユーザに提供され、検索時の適用シナリオに対する制限が軽減される。

本出願のその他の特徴および利点は、以下の明細書によって説明され、その一部は明細書で明らかにされるか、または本出願を実装することによって理解される。目的およびその他の利点は、明細書、特許請求の範囲、および添付の図面で具体的に示された構造を使用して実装および取得できる。

添付の図面は、本発明の深い理解を促すために使用され、本明細書の一部を構成し、本発明を説明するために本発明の実施形態と併せて使用されるが、本発明に対する制限を構成するものではない。

本発明の実施形態によるオブジェクト検索方法のフローチャート1である。本発明の実施形態によるオブジェクト検索方法のフローチャート2である。本発明の実施形態によるオブジェクト検索方法のフローチャート2である。本発明の実施形態によるオブジェクト検索装置の概略構造図1である。本発明の実施形態によるオブジェクト検索装置の概略構造図2である。

より柔軟な検索方法をユーザに提供し、検索時の適用シナリオに対する制限を軽減する実装の解決策を提案するために、本発明の実施形態は、オブジェクト検索方法および装置を提供する。本発明の望ましい実施形態を、本明細書の添付の図面を参照して以下で説明する。本明細書に記載された望ましい実施形態は、本発明を記述および説明するためにのみ使用され、本発明を制限するものではないと理解されるべきである。加えて、本発明の実施形態および実施形態の特徴は、不一致が発生しない限り、互いに組み合わせることができる。

本発明の実施形態は、端末に適用できるオブジェクト検索方法を提供する。図1に示されるように、この方法は以下を含む。

ステップ101では、ユーザの音声入力およびジェスチャー入力を受信する。

ステップ102では、音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定する。

ステップ103では、特徴カテゴリの特徴情報を、ユーザによってジェスチャー入力を用いて選択された画像領域から抽出する。

ステップ104では、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索する。

図1に示された前述の方法において、ステップ103では、端末は特徴カテゴリの特徴情報をユーザによって選択された画像領域から直接抽出できる。端末は、ステップ104を実行するときに、具体的には、端末にローカルに保存されたオブジェクトセットを検索するか、またはインターネットを検索できる。つまり、特徴情報およびターゲットオブジェクトの名前がサーバに送信され、サーバが特徴情報に従ってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索して検索結果を取得した後に、サーバによって返された検索結果が受信され、さらに、検索結果を表示できる。

本発明の実施形態は、図1に示された前述の方法とは異なる、やはり端末に適用できるオブジェクト検索方法をさらに提供する。図2に示されるように、この方法は以下を含む。

ステップ201では、ユーザの音声入力およびジェスチャー入力を受信する。

ステップ202では、音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定する。

ステップ203では、特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによってジェスチャー入力を用いて選択された画像領域をサーバに送信する。

ステップ204では、サーバによって返された検索結果を受信する。ここで、検索結果は、サーバによってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得され、画像領域に関する、カテゴリ情報によって表された特徴カテゴリの特徴が検索基準として使用される。

図2に示された前述の方法において、端末は、ステップ202でユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定した後に、特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによって選択された画像領域をサーバに直接送信し、サーバは受信されたこれらの情報に基づいて検索を実行し、検索結果を端末に返す。

加えて、サーバは、検索を実行するときに、特徴カテゴリの特徴情報を、ユーザによって選択された受信画像領域から抽出し、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索する。

図1および図2に示された前述のオブジェクト検索方法では、ステップ101およびステップ102は、それぞれステップ201およびステップ202と同じである。加えて、前述のステップ101とステップ102およびステップ201とステップ202において、ユーザは特徴カテゴリおよびターゲットオブジェクトの名前を音声入力の方法で入力できる。例えば、入力される特徴カテゴリは、色、形状、価格、ブランド、画像などを含むことができ、入力されるターゲットオブジェクトの名前は、検索されることが期待される品目の品目名にすることができる。

具体的には、ユーザは音声入力の方法で音声情報を入力できる。ここで、音声情報は特徴カテゴリおよびターゲットオブジェクトの名前を伝える。例えば、ユーザは、音声を使用して、「この色の財布を検索する」、「このブランドの靴を検索する」、および「この画像の電話の筐体を検索する」と入力する。

ユーザが音声入力の方法で音声情報を入力すると、ユーザによって入力された音声情報に対して意味解析が実行され、特徴カテゴリおよびターゲットオブジェクトの名前を決定する。テキスト情報を抽出するために音声情報に対して意味解析を実行する方法は、本明細書には詳細に記載されていない従来技術のさまざまな方法を使用できる。

本発明のこの実施形態では、ユーザは、画像領域を選択する操作を実行するときに、指定された画像から画像領域を選択できる。例えば、ユーザは、ジェスチャー操作を用いて、指定された画像を表示するタッチスクリーン上で選択操作を実行し、それに応じて、指定された画像からユーザによって選択された画像領域が取得され、ユーザによって選択された画像領域として使用される。

ユーザは、画像領域を選択する操作を実行するときに、写真撮影モードを開始し、写真撮影操作を実行して画像を取得することもでき、それに応じて、ユーザによって写真撮影で取得された現在の画像が取得され、ユーザによって選択された画像領域として使用される。

本発明のこの実施形態では、ユーザによって画像領域を選択する操作と、特徴カテゴリおよびターゲットオブジェクトの名前を入力する操作との間に、厳密な順序は存在しない。

加えて、ユーザによって画像領域を選択する操作および音声情報を入力する操作は、同時に実行できる。例えば、ユーザは、音声情報を入力するときに、ジェスチャー操作を使用して画像領域を選択できる。

ユーザによって画像領域を選択する操作および音声情報を入力する操作は、順番に実行することもできる。例えば、ユーザによって音声情報が入力されたが、画像領域が選択されていないと判定された場合、ユーザは画像領域を選択する操作を実行するように指示され、ユーザが画像領域を選択する操作を実行した後に、ユーザによって選択された画像領域が決定される。

別の例では、ユーザがジェスチャー入力操作を実行して画像を選択し、音声情報が入力されていないと判定された場合、ユーザは音声情報を入力する操作を実行するように指示される。ユーザが音声情報を入力した後に、入力された音声情報に対して意味解析が実行され、特徴カテゴリおよびターゲットオブジェクトの名前を決定する。

図1および図2に示された前述の方法において、具体的には、特徴カテゴリの特徴情報を、ユーザによってジェスチャー入力を用いて選択された画像領域から抽出することができ、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを、抽出された特徴情報に従って検索できる。

例えば、特徴カテゴリは色であり、ユーザによって選択された画像領域の色特徴情報が抽出される。従来技術におけるさまざまな種類を使用して、色特徴情報を表すことができる。例えば、ユーザによって選択された画像領域の色ヒストグラム(色ヒストグラムは、画像全体に対するさまざまな色の比率を表す)を抽出することができ、色ヒストグラム内で、最大の比率の色、降順の比率を持つ事前に設定された複数の色、または事前に設定された比率よりも高い比率の色が決定され、決定された色のピクセル値が、画像領域の色特徴情報として使用される。色の色名を、色のピクセル値に従ってさらに決定することができ、その色名は、画像領域の色特徴情報として使用される。色ヒストグラム内の複数の色が決定されると、選択するために複数の色をさらにユーザに表示することができ、ユーザによって選択された色の色特徴情報(例えば、ピクセル値または色名)が決定される。

それに応じて、抽出された色特徴情報に従って、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索できる。例えば、色名またはピクセル値に従って、検索が実行される。

別の例では、特徴カテゴリが形状である場合、ユーザによって選択された画像領域の形状特徴情報が抽出される。形状は、規則的形状(例えば、矩形、ひし形、円形、または楕円形)にすることができ、形状名を形状特徴情報として使用できる。形状は、不規則な形状にすることもでき、例えば、ユーザによって選択された画像領域内の物質の輪郭グラフが抽出され、その輪郭グラフが形状特徴情報として使用される。

それに応じて、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを、抽出された形状特徴情報に従って検索できる。例えば、形状名またはグラフに従って、検索が実行される。

別の例では、特徴カテゴリがブランドである場合、ユーザによって選択された画像領域内のブランド識別情報が抽出され、ブランド特徴情報として使用される。ここで、ブランド識別情報は、ブランド名またはブランドロゴにすることができる。

それに応じて、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを、抽出されたブランド特徴情報に従って検索できる。例えば、ブランド名またはブランドロゴに従って検索が実行される。

別の例では、特徴カテゴリが価格である場合、ユーザによって選択された画像領域内の数値情報が抽出され、その数値情報が価格特徴情報として使用される。

それに応じて、抽出された価格特徴情報に従って検索を実行できる。

別の例では、特徴カテゴリが画像である場合、ユーザによって選択された画像領域自体を、画像特徴情報として使用できる。

それに応じて、ユーザによって選択された画像領域に従って、画像検索の方法で、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索できる。

図1および図2に示された前述のオブジェクト検索方法は、組み合わせることができる。つまり、ターゲットオブジェクトの検索は、ローカルに保存されたオブジェクトセットの検索である場合もあれば、インターネット上の検索である場合もある。

具体的には、検索は、端末によって実行するか、またはサーバ(例えば、クラウドサーバ)によって実行することができる。サーバによって検索が実行される場合、ユーザによって入力された特徴カテゴリとターゲットオブジェクトの名前、およびユーザによって選択された画像領域を、端末によってサーバに送信することができ、あるいはそれに対応するステップを、端末とサーバで一緒に実行することができる。

あるいは、端末は、さまざまな特徴カテゴリに応じて、対応するステップを端末またはサーバのいずれで実行するかを決定できる。例えば、一部の特徴カテゴリでは、端末は、特徴カテゴリの特徴情報をユーザによって選択された画像領域から抽出した後に、抽出された特徴情報およびターゲットオブジェクトの名前をサーバに送信することができ、その後サーバは、受信された特徴情報に従って、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索し、検索結果を取得して、その検索結果を端末に返す。

以下では、添付の図面を参照し、特定の実施形態を使用して、本発明で提供される方法について詳細に説明する。

図3は、本発明の実施形態に記載されたオブジェクト検索方法の詳細なフローチャートである。ここで、方法は以下のステップを特に含む。

ステップ301では、ユーザの音声入力およびジェスチャー入力を受信する。

このステップでは、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信できる。

あるいは、ユーザの音声入力を受信することができ、ユーザによってジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、ユーザは画像領域を選択する操作を実行するように指示され、ユーザのジェスチャー入力が受信される。

あるいは、ユーザのジェスチャー入力を受信することができ、ユーザによって音声入力が実行されていないと判定された場合に、ユーザは音声入力操作を実行するように指示され、ユーザの音声入力が受信される。

ステップ302では、端末が、ユーザの音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定する。

このステップでは、特徴カテゴリおよびターゲットオブジェクトの名前を、ユーザによって入力された音声情報に対して意味解析を実行することで決定できる。

本発明のこの実施形態では、ユーザによって入力できる特徴カテゴリは、ターゲットオブジェクトの特徴およびこの解決策の適用シナリオに従って柔軟に設定できる。例えば、品目が検索される場合、特徴カテゴリは、色、形状、価格、ブランド、画像などを含むことができ、入力されるターゲットオブジェクトの名前を、検索されることが期待される品目の品目名にすることができる。

ステップ303では、端末が、ユーザによってジェスチャー入力を用いて選択された画像領域を取得する。

このステップでは、端末は、指定された画像からユーザによって選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用することができる。または、端末は、ユーザによって写真撮影で取得された現在の画像を取得し、その画像をユーザによって選択された画像領域として使用することができる。

前述のステップ302とステップ303との間に、厳密な順序はない。

ステップ304では、端末が、ユーザによって入力された特徴カテゴリが事前に設定された特徴カテゴリであるかどうかを判定する。ユーザによって入力された特徴カテゴリが事前に設定された特徴カテゴリである場合は、ステップ305に移動し、ユーザによって入力された特徴カテゴリが事前に設定された特徴カテゴリでない場合は、ステップ307に移動する。

本発明のこの実施形態では、ユーザによって入力される特徴カテゴリに関して、ユーザによって選択された画像領域の特徴カテゴリの特徴を、端末によって抽出するか、またはサーバによって抽出することができる。あるいは、一部の特徴カテゴリを端末によって抽出し、その他の一部の特徴カテゴリをサーバによって抽出することができる。したがって、端末によって抽出される特徴情報を持つ特徴カテゴリを、事前に設定された特徴カテゴリとして設定することができ、前述の決定がこのステップで実行される。

例えば、前述の色、形状、価格、ブランド、および画像のうち、色が事前に設定された特徴カテゴリとして使用される。

ステップ305では、ユーザによって入力された特徴カテゴリが、事前に設定された特徴カテゴリである場合、端末は、特徴カテゴリの特徴情報を、ユーザによって選択された画像領域から抽出する。

例えば、色の場合、ユーザによって選択された画像領域の色特徴情報が抽出される。詳細については、前述の説明を参照できる。

ステップ306では、端末は、抽出された特徴カテゴリの特徴情報およびユーザによって入力されたターゲットオブジェクトの名前をサーバに送信する。

ステップ307では、端末は、ユーザによって入力された特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによって選択された画像領域をサーバに送信する。

ステップ308では、サーバは、カテゴリ情報、ターゲットオブジェクトの名前、および画像領域を受信した後に、カテゴリ情報で表された特徴カテゴリの特徴情報を、画像領域から抽出する。

例えば、ユーザによって選択された画像領域に関する、色、価格、およびブランドから抽出された対応する特徴情報に関する詳細については、前述の説明を参照できる。

加えて、特徴カテゴリが画像である場合、受信された画像領域を、画像特徴情報として直接使用できる。

ステップ309では、サーバが、特徴カテゴリに含まれる、端末によって送信された特徴情報を受信した後、またはカテゴリ情報によって表された特徴カテゴリの特徴情報を抽出した後に、抽出された特徴情報に従って、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索し、検索結果を取得する。

検索結果は、特徴カテゴリの特徴情報を持つターゲットオブジェクトである。

ステップ310では、サーバが、検索結果を端末に返す。

ステップ311では、端末が、サーバによって返された検索結果を受信した後に、検索結果をユーザに表示する。

本発明の実施形態で提供される前述のオブジェクト検索方法を使用して検索を実行する場合、ユーザは、音声入力およびジェスチャー入力を実行し、特徴カテゴリおよびターゲットオブジェクトの名前を入力し、画像領域を選択するだけでよく、その後、対応する検索基準を、端末またはサーバによって決定することができ、その検索基準に従ってターゲットオブジェクトを検索することができ、ユーザが検索基準を明確に記述する必要がない。このようにして、より柔軟な検索方法がユーザに提供され、検索時の適用シナリオに対する制限が軽減される。

例えば、ユーザが画像内の極めて美しい色に気付き、その色の財布を検索したい場合、その色が非常に特殊であるため、明確な色名を指定できない可能性が極めて高い。その場合、本発明のこの実施形態で提供される前述の方法を使用して、検索を実行できる。

別の例では、ユーザが特定のブランドの靴を検索したいが、ブランド名がわからず、そのブランドのブランドロゴを含む画像のみが存在する場合、本発明のこの実施形態で提供される前述の方法を使用して、ブランドロゴを含む画像領域を画像から選択することができ、その画像領域が、検索を実行するために選択された画像として使用される。

同じ発明の概念に基づき、本発明の前述の実施形態で提供されるオブジェクト検索方法に従い、それに応じて、本発明のこの実施形態は、図4に示された概略構造図を持つオブジェクト検索装置をさらに提供する。装置は、
ユーザの音声入力およびジェスチャー入力を受信するように構成された第1の受信ユニット401と、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するように構成された第1の決定ユニット402と、
特徴カテゴリの特徴情報を、ユーザによってジェスチャー入力を用いて選択された画像領域から抽出するように構成された抽出ユニット403と、
抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するように構成された第1の検索ユニット404とを特に含む。

さらに、第1の検索ユニット404は、特徴情報およびターゲットオブジェクトの名前をサーバに送信し、サーバによって返された検索結果を受信するように特に構成され、検索結果は、サーバによって特徴情報に従ってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得される。

さらに、第1の受信ユニット401は、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、またはユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するよう特に構成されるか、またはユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するように特に構成される。

さらに、第1の決定ユニット402は、ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成されるか、またはユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成される。

前述の図4の各ユニットの機能は、図1または図3に示された手順の対応する処理ステップに一致することができるため、それらの詳細は、本明細書では再び記載されない。

同じ発明の概念に基づき、本発明の前述の実施形態で提供されるオブジェクト検索方法に従い、それに応じて、本発明のこの実施形態は、図5に示された概略構造図を持つオブジェクト検索装置をさらに提供する。装置は、
ユーザの音声入力およびジェスチャー入力を受信するように構成された第2の受信ユニット501と、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するように構成された第2の決定ユニット502と、
特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによってジェスチャー入力を用いて選択された画像領域をサーバに送信するように構成された送信ユニット503と、
サーバによって返された検索結果を受信するように構成された第3の受信ユニット504とを含み、検索結果は、サーバによってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得され、画像領域に関する、カテゴリ情報によって表された特徴カテゴリの特徴が検索基準として使用される。

さらに、第2の受信ユニット501は、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、またはユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するよう特に構成されるか、またはユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するように特に構成される。

さらに、第2の決定ユニット502は、ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成されるか、またはユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成される。

前述の図5の各ユニットの機能は、図2または図3に示された手順の対応する処理ステップに一致することができるため、それらの詳細は、本明細書では再び記載されない。

結論として、本発明の実施形態で提供される解決策は、ユーザの音声入力およびジェスチャー入力を受信するステップと、音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するステップと、特徴カテゴリの特徴情報をユーザによってジェスチャー入力を用いて選択された画像領域から抽出するステップと、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するステップとを含む。本発明の実施形態において提供される解決策は、より柔軟な検索方法をユーザに提供し、検索時の適用シナリオに対する制限を軽減することができる。

当業者は、本発明の実施形態を、方法、システム、またはコンピュータプログラム製品として提供できるということを理解するはずである。したがって、本発明は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアとハードウェアを組み合わせた実施形態の形態を使用できる。さらに、本発明は、コンピュータ使用可能なプログラムコードを含む1つまたは複数のコンピュータ使用可能な記憶媒体(ディスクメモリ、CD-ROM、光メモリなどを含むが、これらに限定されない)上に実装されるコンピュータプログラム製品の形態を使用できる。

本発明は、本発明の実施形態に記載された方法、デバイス(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して説明される。コンピュータプログラム命令を使用して、フローチャートおよび/またはブロック図における各プロセスおよび/または各ブロック、ならびにフローチャートおよび/またはブロック図におけるプロセスおよび/またはブロックの組み合わせを実装できると理解されるべきである。これらのコンピュータプログラム命令は、マシンを生成するために、汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、または任意のその他のプログラム可能データ処理デバイスのプロセッサに提供することができ、コンピュータまたは任意のその他のプログラム可能データ処理デバイスのプロセッサによって実行された命令は、フローチャート内の1つまたは複数のプロセスおよび/またはブロック図内の1つまたは複数のブロックにおける特定の機能を実装するための装置を生成する。

これらのコンピュータプログラム命令は、コンピュータ可読メモリに保存することも可能であり、コンピュータまたは任意のその他のプログラム可能データ処理デバイスに対して、特定の方法で動作するように指示することができ、コンピュータ可読メモリに保存された命令は、命令装置を含む人工物を生成する。命令装置は、フローチャート内の1つまたは複数のプロセスおよび/またはブロック図内の1つまたは複数のブロックにおける特定の機能を実装する。

これらのコンピュータプログラム命令は、コンピュータまたは別のプログラム可能データ処理デバイスに読み込むこともでき、一連の操作およびステップが、コンピュータ上または別のプログラム可能デバイス上で実行されることによって、コンピュータで実装された処理を生成する。したがって、コンピュータ上または別のプログラム可能デバイス上で実行された命令は、フローチャート内の1つまたは複数のプロセスおよび/またはブロック図内の1つまたは複数のブロックにおける特定の機能を実装するためのステップを提供する。

本発明の望ましい一部の実施形態について説明したが、本発明の基本的概念を理解した当業者は、これらの実施形態に対して、変更および修正を行うことができる。したがって、以下の特許請求の範囲は、望ましい実施形態、ならびに本発明の範囲内に含まれるすべての変更および修正を含んでいると解釈されることを意図している。

明らかに、当業者は、本発明の精神および範囲から逸脱することなく、本発明に対するさまざまな変更および変形を行うことができる。それらの変更および変形が以下の特許請求の範囲およびこれらと等価な技術によって定義された保護の範囲に含まれている限り、本発明は、それらの変更および変形を対象にすることを意図している。

401 第1の受信ユニット
402 第1の決定ユニット
403 抽出ユニット
404 検索ユニット
501 第2の受信ユニット
502 第2の決定ユニット
503 送信ユニット
504 第3の受信ユニット

明らかに、当業者は、本発明の範囲から逸脱することなく、本発明に対するさまざまな変更および変形を行うことができる。それらの変更および変形が以下の特許請求の範囲およびこれらと等価な技術によって定義された保護の範囲に含まれている限り、本発明は、それらの変更および変形を対象にすることを意図している。

Claims

ユーザの音声入力およびジェスチャー入力を受信するステップと、
前記音声入力に従って、前記ユーザが検索することを期待するターゲットオブジェクトの名前および前記ターゲットオブジェクトの特徴カテゴリを決定するステップと、
前記ユーザによって前記ジェスチャー入力を用いて選択された画像領域から前記特徴カテゴリの特徴情報を抽出するステップと、
前記抽出された特徴情報および前記ターゲットオブジェクトの前記名前に従って前記ターゲットオブジェクトを検索するステップとを備える、オブジェクト検索方法。
前記抽出された特徴情報および前記ターゲットオブジェクトの前記名前に従って前記ターゲットオブジェクトを検索する前記ステップが、
前記特徴情報および前記ターゲットオブジェクトの前記名前をサーバに送信するステップと、
前記サーバによって返された検索結果を受信するステップとを特に備え、前記検索結果が、サーバによって前記特徴情報に従って前記ターゲットオブジェクトの前記名前で表された前記ターゲットオブジェクトを検索することで取得される、請求項1に記載の方法。
ユーザの音声入力およびジェスチャー入力を受信する前記ステップが、
前記ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するステップ、または
前記ユーザの音声入力を受信し、前記ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するように前記ユーザに指示し、前記ユーザのジェスチャー入力を受信するステップ、または
前記ユーザのジェスチャー入力を受信し、前記ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するように前記ユーザに指示し、前記ユーザの音声入力を受信するステップを特に備える、請求項1または2に記載の方法。
前記ユーザによって前記ジェスチャー入力を用いて選択された前記画像領域を取得するステップが、
前記ユーザによって前記ジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するステップ、または
前記ユーザによって前記ジェスチャー入力を用いて写真撮影で取得された画像を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するステップを備える、請求項1または2に記載の方法。
ユーザの音声入力およびジェスチャー入力を受信するように構成された第1の受信ユニットと、
前記音声入力に従って、前記ユーザが検索することを期待するターゲットオブジェクトの名前および前記ターゲットオブジェクトの特徴カテゴリを決定するように構成された第1の決定ユニットと、
前記ユーザによって前記ジェスチャー入力を用いて選択された画像領域から前記特徴カテゴリの特徴情報を抽出するように構成された抽出ユニットと、
前記抽出された特徴情報および前記ターゲットオブジェクトの前記名前に従って前記ターゲットオブジェクトを検索するように構成された第1の検索ユニットとを備える、オブジェクト検索装置。
前記第1の検索ユニットが、前記特徴情報および前記ターゲットオブジェクトの前記名前をサーバに送信し、前記サーバによって返された検索結果を受信するように特に構成され、前記検索結果が、前記サーバによって前記特徴情報に従って前記ターゲットオブジェクトの前記名前で表された前記ターゲットオブジェクトを検索することで取得される、請求項5に記載の装置。
前記第1の受信ユニットが、前記ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、または前記ユーザの音声入力を受信し、前記ユーザによるジェスチャー入力が実行されておらず、かつ画像が選択されていないと判定された場合に、画像領域を選択する操作を実行するように前記ユーザに指示し、前記ユーザのジェスチャー入力を受信するように特に構成されるか、または前記ユーザのジェスチャー入力を受信し、前記ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するように前記ユーザに指示し、前記ユーザの音声入力を受信するように特に構成される、請求項4または5に記載の装置。
前記第1の決定ユニットが、前記ユーザによって前記ジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するようにさらに構成されるか、または前記ユーザによって前記ジェスチャー入力を用いて写真撮影で取得された画像を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するようにさらに構成される、請求項4または5に記載の装置。
ユーザの音声入力およびジェスチャー入力を受信するステップと、
前記音声入力に従って、前記ユーザが検索することを期待するターゲットオブジェクトの名前および前記ターゲットオブジェクトの特徴カテゴリを決定するステップと、
前記特徴カテゴリのカテゴリ情報、前記ターゲットオブジェクトの前記名前、および前記ユーザによって前記ジェスチャー入力を用いて選択された画像領域をサーバに送信するステップと、
前記サーバによって返された検索結果を受信するステップとを備えるオブジェクト検索方法であって、前記検索結果が、前記サーバによって前記ターゲットオブジェクトの前記名前で表された前記ターゲットオブジェクトを検索することで取得され、前記画像領域に関する、前記カテゴリ情報によって表された前記特徴カテゴリの特徴が検索基準として使用される、方法。
ユーザの音声入力およびジェスチャー入力を受信する前記ステップが、
前記ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するステップ、または
前記ユーザの音声入力を受信し、前記ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するように前記ユーザに指示し、前記ユーザのジェスチャー入力を受信するステップ、または
前記ユーザのジェスチャー入力を受信し、前記ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するように前記ユーザに指示し、前記ユーザの音声入力を受信するステップを特に備える、請求項9に記載の方法。
前記ユーザによって前記ジェスチャー入力を用いて選択された前記画像領域を取得するステップが、
前記ユーザによって前記ジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するステップ、または
前記ユーザによって前記ジェスチャー入力を用いて写真撮影で取得された画像を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するステップを備える、請求項9に記載の方法。
ユーザの音声入力およびジェスチャー入力を受信するように構成された第2の受信ユニットと、
前記音声入力に従って、前記ユーザが検索することを期待するターゲットオブジェクトの名前および前記ターゲットオブジェクトの特徴カテゴリを決定するように構成された第2の決定ユニットと、
前記特徴カテゴリのカテゴリ情報、前記ターゲットオブジェクトの前記名前、および前記ユーザによって前記ジェスチャー入力を用いて選択された画像領域をサーバに送信するように構成された送信ユニットと、
前記サーバによって返された検索結果を受信するように構成された第3の受信ユニットとを備えるオブジェクト検索装置であって、前記検索結果が、前記サーバによって前記ターゲットオブジェクトの前記名前で表された前記ターゲットオブジェクトを検索することで取得され、前記画像領域に関する、前記カテゴリ情報によって表された前記特徴カテゴリの特徴が検索基準として使用される、装置。
前記第2の受信ユニットが、前記ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、または前記ユーザの音声入力を受信し、前記ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するように前記ユーザに指示し、前記ユーザのジェスチャー入力を受信するように特に構成されるか、または前記ユーザのジェスチャー入力を受信し、前記ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するように前記ユーザに指示し、前記ユーザの音声入力を受信するように特に構成される、請求項12に記載の装置。
前記第2の決定ユニットが、前記ユーザによって前記ジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するようにさらに構成されるか、または前記ユーザによって前記ジェスチャー入力を用いて写真撮影で取得された画像を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するようにさらに構成される、請求項12に記載の装置。