JP2017513090A - オブジェクト検索方法および装置 - Google Patents

オブジェクト検索方法および装置 Download PDF

Info

Publication number
JP2017513090A
JP2017513090A JP2016550858A JP2016550858A JP2017513090A JP 2017513090 A JP2017513090 A JP 2017513090A JP 2016550858 A JP2016550858 A JP 2016550858A JP 2016550858 A JP2016550858 A JP 2016550858A JP 2017513090 A JP2017513090 A JP 2017513090A
Authority
JP
Japan
Prior art keywords
user
target object
gesture input
voice input
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016550858A
Other languages
English (en)
Other versions
JP6316447B2 (ja
Inventor
彦 李
彦 李
小娟 李
小娟 李
文美 ▲ガオ▼
文美 ▲ガオ▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017513090A publication Critical patent/JP2017513090A/ja
Application granted granted Critical
Publication of JP6316447B2 publication Critical patent/JP6316447B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2428Query predicate definition using graphical user interfaces, including menus and forms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

オブジェクト検索方法および装置が提供され、ここで方法は、ユーザの音声入力およびジェスチャー入力を受信するステップと、音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリ決定するステップと、特徴カテゴリの特徴情報をユーザによってジェスチャー入力を用いて選択された画像領域から抽出するステップと、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するステップとを含む。本発明の実施形態において提供される解決策は、より柔軟な検索方法をユーザに提供し、検索時の適用シナリオに対する制限を軽減することができる。

Description

本発明は、コンピュータ技術の分野における検索技術の分野に関連し、具体的には、オブジェクト検索方法および装置に関連している。
現在、ネットワークを使用して検索対象のターゲットオブジェクトを検索する場合、通常、ユーザはターゲットオブジェクトに関する何らかの既知の検索基準を入力または選択してから、その検索基準に従ってターゲットオブジェクトを検索する。例えば、ターゲットオブジェクトの価格範囲に従って検索を実行したり、ターゲットオブジェクトが所属している領域に従って検索を実行することができる。
前述のオブジェクト検索の解決策では、ユーザは、検索で使用される検索基準を明確に記述できることが必要になる。例えば、検索基準を、事前に設定された何らかの基準から選択できたり、直接入力することができる。ただし、実際の適用では、ユーザは、ターゲットオブジェクトを検索する際に、ユーザが期待する検索基準を明確に記述できない場合がある。例えば、ユーザが特定の色のオブジェクトを検索することを期待しているが、既知の色の名前を使用してその色を正確に記述することができない場合や、ユーザが特定の形状のオブジェクトを検索することを期待しているが、その形状が不規則である場合がある。したがって、その場合、ユーザは期待しているターゲットオブジェクトを検索できない。さらに、検索を実行した場合でも、検索基準が正確ではないため、検索結果がユーザの検索目的に一致しない可能性があり、その結果、検索の効果が相対的に低くなる。従来技術におけるオブジェクト検索方法は、より柔軟な検索方法をユーザに提供することができず、適用シナリオによって相対的に大きく制限される。
本発明の実施形態は、より柔軟な検索方法をユーザに提供することができず、適用シナリオに対する制限が相対的に大きい従来技術における問題を解決するために、オブジェクト検索方法および装置を提供する。
第1の態様によれば、オブジェクト検索方法が提供され、オブジェクト検索方法は、
ユーザの音声入力およびジェスチャー入力を受信するステップと、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するステップと、
ユーザによってジェスチャー入力を用いて選択された画像領域から特徴カテゴリの特徴情報を抽出するステップと、
抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するステップとを含む。
第1の態様を参照して、可能な第1の実装方法では、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するステップは、
特徴情報およびターゲットオブジェクトの名前をサーバに送信するステップと、
サーバによって返された検索結果を受信するステップとを特に含み、検索結果は、サーバによって特徴情報に従ってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得される。
第1の態様または第1の態様の可能な第1の実装方法を参照して、可能な第2の実装方法では、ユーザの音声入力およびジェスチャー入力を受信するステップは、
ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するステップ、または
ユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するステップ、または
ユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するステップを特に含む。
第1の態様または第1の態様の可能な第1の実装方法を参照して、可能な第3の実装方法では、ユーザによってジェスチャー入力を用いて選択された画像領域を取得するステップは、
ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するステップ、または
ユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するステップを含む。
第2の態様によれば、オブジェクト検索装置が提供され、オブジェクト検索装置は、
ユーザの音声入力およびジェスチャー入力を受信するように構成された第1の受信ユニットと、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するように構成された第1の決定ユニットと、
ユーザによってジェスチャー入力を用いて選択された画像領域から特徴カテゴリの特徴情報を抽出するように構成された抽出ユニットと、
抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するように構成された第1の検索ユニットとを含む。
第2の態様を参照して、可能な第1の実装方法では、第1の検索ユニットは、特徴情報およびターゲットオブジェクトの名前をサーバに送信し、サーバによって返された検索結果を受信するように特に構成され、検索結果は、サーバによって特徴情報に従ってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得される。
第2の態様または第2の態様の可能な第1の実装方法を参照して、可能な第2の実装方法では、第1の受信ユニットは、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、またはユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するように特に構成されるか、またはユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するように特に構成される。
第2の態様または第2の態様の可能な第1の実装方法を参照して、可能な第3の実装方法では、第1の決定ユニットは、ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成されるか、またはユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成される。
第3の態様によれば、オブジェクト検索方法が提供され、オブジェクト検索方法は、
ユーザの音声入力およびジェスチャー入力を受信するステップと、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するステップと、
特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによってジェスチャー入力を用いて選択された画像領域をサーバに送信するステップと、
サーバによって返された検索結果を受信するステップとを含み、検索結果は、サーバによってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得され、画像領域に関する、カテゴリ情報によって表された特徴カテゴリの特徴が検索基準として使用される。
第3の態様を参照して、可能な第1の実装方法では、ユーザの音声入力およびジェスチャー入力を受信するステップは、
ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するステップ、または
ユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するステップ、または
ユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するステップを特に含む。
第3の態様を参照して、可能な第2の実装方法では、ユーザによってジェスチャー入力を用いて選択された画像領域を取得するステップは、
ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するステップ、または
ユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するステップを含む。
第4の態様によれば、オブジェクト検索装置が提供され、オブジェクト検索装置は、
ユーザの音声入力およびジェスチャー入力を受信するように構成された第2の受信ユニットと、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するように構成された第2の決定ユニットと、
特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによってジェスチャー入力を用いて選択された画像領域をサーバに送信するように構成された送信ユニットと、
サーバによって返された検索結果を受信するように構成された第3の受信ユニットとを含み、検索結果は、サーバによってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得され、画像領域に関する、カテゴリ情報によって表された特徴カテゴリの特徴が検索基準として使用される。
第4の態様を参照して、可能な第1の実装方法では、第2の受信ユニットは、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、またはユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するように特に構成されるか、またはユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するように特に構成される。
第4の態様を参照して、可能な第2の実装方法では、第2の決定ユニットは、ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成されるか、またはユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成される。
本発明の有益な効果は、以下を含む。
本発明の実施形態で提供される前述の解決策において、オブジェクト検索が実行された場合、ユーザの音声入力およびジェスチャー入力が最初に受信され、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリが音声入力に従って決定され、ターゲットオブジェクトが、ユーザによってジェスチャー入力を用いて選択された画像領域の特徴カテゴリの特徴およびターゲットオブジェクトの名前を検索基準として使用して検索される。検索時に、ユーザは、音声を使用して特徴カテゴリおよびターゲットオブジェクトの名前を入力し、ジェスチャー入力を用いて画像領域を選択するだけでよく、特徴カテゴリ、ターゲットオブジェクトの名前、および画像領域を使用して検索基準を表すことができ、検索基準の明確な記述は不要である。したがって、より柔軟な検索方法がユーザに提供され、検索時の適用シナリオに対する制限が軽減される。
本出願のその他の特徴および利点は、以下の明細書によって説明され、その一部は明細書で明らかにされるか、または本出願を実装することによって理解される。目的およびその他の利点は、明細書、特許請求の範囲、および添付の図面で具体的に示された構造を使用して実装および取得できる。
添付の図面は、本発明の深い理解を促すために使用され、本明細書の一部を構成し、本発明を説明するために本発明の実施形態と併せて使用されるが、本発明に対する制限を構成するものではない。
本発明の実施形態によるオブジェクト検索方法のフローチャート1である。 本発明の実施形態によるオブジェクト検索方法のフローチャート2である。 本発明の実施形態によるオブジェクト検索方法のフローチャート2である。 本発明の実施形態によるオブジェクト検索装置の概略構造図1である。 本発明の実施形態によるオブジェクト検索装置の概略構造図2である。
より柔軟な検索方法をユーザに提供し、検索時の適用シナリオに対する制限を軽減する実装の解決策を提案するために、本発明の実施形態は、オブジェクト検索方法および装置を提供する。本発明の望ましい実施形態を、本明細書の添付の図面を参照して以下で説明する。本明細書に記載された望ましい実施形態は、本発明を記述および説明するためにのみ使用され、本発明を制限するものではないと理解されるべきである。加えて、本発明の実施形態および実施形態の特徴は、不一致が発生しない限り、互いに組み合わせることができる。
本発明の実施形態は、端末に適用できるオブジェクト検索方法を提供する。図1に示されるように、この方法は以下を含む。
ステップ101では、ユーザの音声入力およびジェスチャー入力を受信する。
ステップ102では、音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定する。
ステップ103では、特徴カテゴリの特徴情報を、ユーザによってジェスチャー入力を用いて選択された画像領域から抽出する。
ステップ104では、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索する。
図1に示された前述の方法において、ステップ103では、端末は特徴カテゴリの特徴情報をユーザによって選択された画像領域から直接抽出できる。端末は、ステップ104を実行するときに、具体的には、端末にローカルに保存されたオブジェクトセットを検索するか、またはインターネットを検索できる。つまり、特徴情報およびターゲットオブジェクトの名前がサーバに送信され、サーバが特徴情報に従ってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索して検索結果を取得した後に、サーバによって返された検索結果が受信され、さらに、検索結果を表示できる。
本発明の実施形態は、図1に示された前述の方法とは異なる、やはり端末に適用できるオブジェクト検索方法をさらに提供する。図2に示されるように、この方法は以下を含む。
ステップ201では、ユーザの音声入力およびジェスチャー入力を受信する。
ステップ202では、音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定する。
ステップ203では、特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによってジェスチャー入力を用いて選択された画像領域をサーバに送信する。
ステップ204では、サーバによって返された検索結果を受信する。ここで、検索結果は、サーバによってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得され、画像領域に関する、カテゴリ情報によって表された特徴カテゴリの特徴が検索基準として使用される。
図2に示された前述の方法において、端末は、ステップ202でユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定した後に、特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによって選択された画像領域をサーバに直接送信し、サーバは受信されたこれらの情報に基づいて検索を実行し、検索結果を端末に返す。
加えて、サーバは、検索を実行するときに、特徴カテゴリの特徴情報を、ユーザによって選択された受信画像領域から抽出し、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索する。
図1および図2に示された前述のオブジェクト検索方法では、ステップ101およびステップ102は、それぞれステップ201およびステップ202と同じである。加えて、前述のステップ101とステップ102およびステップ201とステップ202において、ユーザは特徴カテゴリおよびターゲットオブジェクトの名前を音声入力の方法で入力できる。例えば、入力される特徴カテゴリは、色、形状、価格、ブランド、画像などを含むことができ、入力されるターゲットオブジェクトの名前は、検索されることが期待される品目の品目名にすることができる。
具体的には、ユーザは音声入力の方法で音声情報を入力できる。ここで、音声情報は特徴カテゴリおよびターゲットオブジェクトの名前を伝える。例えば、ユーザは、音声を使用して、「この色の財布を検索する」、「このブランドの靴を検索する」、および「この画像の電話の筐体を検索する」と入力する。
ユーザが音声入力の方法で音声情報を入力すると、ユーザによって入力された音声情報に対して意味解析が実行され、特徴カテゴリおよびターゲットオブジェクトの名前を決定する。テキスト情報を抽出するために音声情報に対して意味解析を実行する方法は、本明細書には詳細に記載されていない従来技術のさまざまな方法を使用できる。
本発明のこの実施形態では、ユーザは、画像領域を選択する操作を実行するときに、指定された画像から画像領域を選択できる。例えば、ユーザは、ジェスチャー操作を用いて、指定された画像を表示するタッチスクリーン上で選択操作を実行し、それに応じて、指定された画像からユーザによって選択された画像領域が取得され、ユーザによって選択された画像領域として使用される。
ユーザは、画像領域を選択する操作を実行するときに、写真撮影モードを開始し、写真撮影操作を実行して画像を取得することもでき、それに応じて、ユーザによって写真撮影で取得された現在の画像が取得され、ユーザによって選択された画像領域として使用される。
本発明のこの実施形態では、ユーザによって画像領域を選択する操作と、特徴カテゴリおよびターゲットオブジェクトの名前を入力する操作との間に、厳密な順序は存在しない。
加えて、ユーザによって画像領域を選択する操作および音声情報を入力する操作は、同時に実行できる。例えば、ユーザは、音声情報を入力するときに、ジェスチャー操作を使用して画像領域を選択できる。
ユーザによって画像領域を選択する操作および音声情報を入力する操作は、順番に実行することもできる。例えば、ユーザによって音声情報が入力されたが、画像領域が選択されていないと判定された場合、ユーザは画像領域を選択する操作を実行するように指示され、ユーザが画像領域を選択する操作を実行した後に、ユーザによって選択された画像領域が決定される。
別の例では、ユーザがジェスチャー入力操作を実行して画像を選択し、音声情報が入力されていないと判定された場合、ユーザは音声情報を入力する操作を実行するように指示される。ユーザが音声情報を入力した後に、入力された音声情報に対して意味解析が実行され、特徴カテゴリおよびターゲットオブジェクトの名前を決定する。
図1および図2に示された前述の方法において、具体的には、特徴カテゴリの特徴情報を、ユーザによってジェスチャー入力を用いて選択された画像領域から抽出することができ、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを、抽出された特徴情報に従って検索できる。
例えば、特徴カテゴリは色であり、ユーザによって選択された画像領域の色特徴情報が抽出される。従来技術におけるさまざまな種類を使用して、色特徴情報を表すことができる。例えば、ユーザによって選択された画像領域の色ヒストグラム(色ヒストグラムは、画像全体に対するさまざまな色の比率を表す)を抽出することができ、色ヒストグラム内で、最大の比率の色、降順の比率を持つ事前に設定された複数の色、または事前に設定された比率よりも高い比率の色が決定され、決定された色のピクセル値が、画像領域の色特徴情報として使用される。色の色名を、色のピクセル値に従ってさらに決定することができ、その色名は、画像領域の色特徴情報として使用される。色ヒストグラム内の複数の色が決定されると、選択するために複数の色をさらにユーザに表示することができ、ユーザによって選択された色の色特徴情報(例えば、ピクセル値または色名)が決定される。
それに応じて、抽出された色特徴情報に従って、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索できる。例えば、色名またはピクセル値に従って、検索が実行される。
別の例では、特徴カテゴリが形状である場合、ユーザによって選択された画像領域の形状特徴情報が抽出される。形状は、規則的形状(例えば、矩形、ひし形、円形、または楕円形)にすることができ、形状名を形状特徴情報として使用できる。形状は、不規則な形状にすることもでき、例えば、ユーザによって選択された画像領域内の物質の輪郭グラフが抽出され、その輪郭グラフが形状特徴情報として使用される。
それに応じて、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを、抽出された形状特徴情報に従って検索できる。例えば、形状名またはグラフに従って、検索が実行される。
別の例では、特徴カテゴリがブランドである場合、ユーザによって選択された画像領域内のブランド識別情報が抽出され、ブランド特徴情報として使用される。ここで、ブランド識別情報は、ブランド名またはブランドロゴにすることができる。
それに応じて、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを、抽出されたブランド特徴情報に従って検索できる。例えば、ブランド名またはブランドロゴに従って検索が実行される。
別の例では、特徴カテゴリが価格である場合、ユーザによって選択された画像領域内の数値情報が抽出され、その数値情報が価格特徴情報として使用される。
それに応じて、抽出された価格特徴情報に従って検索を実行できる。
別の例では、特徴カテゴリが画像である場合、ユーザによって選択された画像領域自体を、画像特徴情報として使用できる。
それに応じて、ユーザによって選択された画像領域に従って、画像検索の方法で、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索できる。
図1および図2に示された前述のオブジェクト検索方法は、組み合わせることができる。つまり、ターゲットオブジェクトの検索は、ローカルに保存されたオブジェクトセットの検索である場合もあれば、インターネット上の検索である場合もある。
具体的には、検索は、端末によって実行するか、またはサーバ(例えば、クラウドサーバ)によって実行することができる。サーバによって検索が実行される場合、ユーザによって入力された特徴カテゴリとターゲットオブジェクトの名前、およびユーザによって選択された画像領域を、端末によってサーバに送信することができ、あるいはそれに対応するステップを、端末とサーバで一緒に実行することができる。
あるいは、端末は、さまざまな特徴カテゴリに応じて、対応するステップを端末またはサーバのいずれで実行するかを決定できる。例えば、一部の特徴カテゴリでは、端末は、特徴カテゴリの特徴情報をユーザによって選択された画像領域から抽出した後に、抽出された特徴情報およびターゲットオブジェクトの名前をサーバに送信することができ、その後サーバは、受信された特徴情報に従って、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索し、検索結果を取得して、その検索結果を端末に返す。
以下では、添付の図面を参照し、特定の実施形態を使用して、本発明で提供される方法について詳細に説明する。
図3は、本発明の実施形態に記載されたオブジェクト検索方法の詳細なフローチャートである。ここで、方法は以下のステップを特に含む。
ステップ301では、ユーザの音声入力およびジェスチャー入力を受信する。
このステップでは、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信できる。
あるいは、ユーザの音声入力を受信することができ、ユーザによってジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、ユーザは画像領域を選択する操作を実行するように指示され、ユーザのジェスチャー入力が受信される。
あるいは、ユーザのジェスチャー入力を受信することができ、ユーザによって音声入力が実行されていないと判定された場合に、ユーザは音声入力操作を実行するように指示され、ユーザの音声入力が受信される。
ステップ302では、端末が、ユーザの音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定する。
このステップでは、特徴カテゴリおよびターゲットオブジェクトの名前を、ユーザによって入力された音声情報に対して意味解析を実行することで決定できる。
本発明のこの実施形態では、ユーザによって入力できる特徴カテゴリは、ターゲットオブジェクトの特徴およびこの解決策の適用シナリオに従って柔軟に設定できる。例えば、品目が検索される場合、特徴カテゴリは、色、形状、価格、ブランド、画像などを含むことができ、入力されるターゲットオブジェクトの名前を、検索されることが期待される品目の品目名にすることができる。
ステップ303では、端末が、ユーザによってジェスチャー入力を用いて選択された画像領域を取得する。
このステップでは、端末は、指定された画像からユーザによって選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用することができる。または、端末は、ユーザによって写真撮影で取得された現在の画像を取得し、その画像をユーザによって選択された画像領域として使用することができる。
前述のステップ302とステップ303との間に、厳密な順序はない。
ステップ304では、端末が、ユーザによって入力された特徴カテゴリが事前に設定された特徴カテゴリであるかどうかを判定する。ユーザによって入力された特徴カテゴリが事前に設定された特徴カテゴリである場合は、ステップ305に移動し、ユーザによって入力された特徴カテゴリが事前に設定された特徴カテゴリでない場合は、ステップ307に移動する。
本発明のこの実施形態では、ユーザによって入力される特徴カテゴリに関して、ユーザによって選択された画像領域の特徴カテゴリの特徴を、端末によって抽出するか、またはサーバによって抽出することができる。あるいは、一部の特徴カテゴリを端末によって抽出し、その他の一部の特徴カテゴリをサーバによって抽出することができる。したがって、端末によって抽出される特徴情報を持つ特徴カテゴリを、事前に設定された特徴カテゴリとして設定することができ、前述の決定がこのステップで実行される。
例えば、前述の色、形状、価格、ブランド、および画像のうち、色が事前に設定された特徴カテゴリとして使用される。
ステップ305では、ユーザによって入力された特徴カテゴリが、事前に設定された特徴カテゴリである場合、端末は、特徴カテゴリの特徴情報を、ユーザによって選択された画像領域から抽出する。
例えば、色の場合、ユーザによって選択された画像領域の色特徴情報が抽出される。詳細については、前述の説明を参照できる。
ステップ306では、端末は、抽出された特徴カテゴリの特徴情報およびユーザによって入力されたターゲットオブジェクトの名前をサーバに送信する。
ステップ307では、端末は、ユーザによって入力された特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによって選択された画像領域をサーバに送信する。
ステップ308では、サーバは、カテゴリ情報、ターゲットオブジェクトの名前、および画像領域を受信した後に、カテゴリ情報で表された特徴カテゴリの特徴情報を、画像領域から抽出する。
例えば、ユーザによって選択された画像領域に関する、色、価格、およびブランドから抽出された対応する特徴情報に関する詳細については、前述の説明を参照できる。
加えて、特徴カテゴリが画像である場合、受信された画像領域を、画像特徴情報として直接使用できる。
ステップ309では、サーバが、特徴カテゴリに含まれる、端末によって送信された特徴情報を受信した後、またはカテゴリ情報によって表された特徴カテゴリの特徴情報を抽出した後に、抽出された特徴情報に従って、ターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索し、検索結果を取得する。
検索結果は、特徴カテゴリの特徴情報を持つターゲットオブジェクトである。
ステップ310では、サーバが、検索結果を端末に返す。
ステップ311では、端末が、サーバによって返された検索結果を受信した後に、検索結果をユーザに表示する。
本発明の実施形態で提供される前述のオブジェクト検索方法を使用して検索を実行する場合、ユーザは、音声入力およびジェスチャー入力を実行し、特徴カテゴリおよびターゲットオブジェクトの名前を入力し、画像領域を選択するだけでよく、その後、対応する検索基準を、端末またはサーバによって決定することができ、その検索基準に従ってターゲットオブジェクトを検索することができ、ユーザが検索基準を明確に記述する必要がない。このようにして、より柔軟な検索方法がユーザに提供され、検索時の適用シナリオに対する制限が軽減される。
例えば、ユーザが画像内の極めて美しい色に気付き、その色の財布を検索したい場合、その色が非常に特殊であるため、明確な色名を指定できない可能性が極めて高い。その場合、本発明のこの実施形態で提供される前述の方法を使用して、検索を実行できる。
別の例では、ユーザが特定のブランドの靴を検索したいが、ブランド名がわからず、そのブランドのブランドロゴを含む画像のみが存在する場合、本発明のこの実施形態で提供される前述の方法を使用して、ブランドロゴを含む画像領域を画像から選択することができ、その画像領域が、検索を実行するために選択された画像として使用される。
同じ発明の概念に基づき、本発明の前述の実施形態で提供されるオブジェクト検索方法に従い、それに応じて、本発明のこの実施形態は、図4に示された概略構造図を持つオブジェクト検索装置をさらに提供する。装置は、
ユーザの音声入力およびジェスチャー入力を受信するように構成された第1の受信ユニット401と、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するように構成された第1の決定ユニット402と、
特徴カテゴリの特徴情報を、ユーザによってジェスチャー入力を用いて選択された画像領域から抽出するように構成された抽出ユニット403と、
抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するように構成された第1の検索ユニット404とを特に含む。
さらに、第1の検索ユニット404は、特徴情報およびターゲットオブジェクトの名前をサーバに送信し、サーバによって返された検索結果を受信するように特に構成され、検索結果は、サーバによって特徴情報に従ってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得される。
さらに、第1の受信ユニット401は、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、またはユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するよう特に構成されるか、またはユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するように特に構成される。
さらに、第1の決定ユニット402は、ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成されるか、またはユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成される。
前述の図4の各ユニットの機能は、図1または図3に示された手順の対応する処理ステップに一致することができるため、それらの詳細は、本明細書では再び記載されない。
同じ発明の概念に基づき、本発明の前述の実施形態で提供されるオブジェクト検索方法に従い、それに応じて、本発明のこの実施形態は、図5に示された概略構造図を持つオブジェクト検索装置をさらに提供する。装置は、
ユーザの音声入力およびジェスチャー入力を受信するように構成された第2の受信ユニット501と、
音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するように構成された第2の決定ユニット502と、
特徴カテゴリのカテゴリ情報、ターゲットオブジェクトの名前、およびユーザによってジェスチャー入力を用いて選択された画像領域をサーバに送信するように構成された送信ユニット503と、
サーバによって返された検索結果を受信するように構成された第3の受信ユニット504とを含み、検索結果は、サーバによってターゲットオブジェクトの名前で表されたターゲットオブジェクトを検索することで取得され、画像領域に関する、カテゴリ情報によって表された特徴カテゴリの特徴が検索基準として使用される。
さらに、第2の受信ユニット501は、ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、またはユーザの音声入力を受信し、ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するようにユーザに指示し、ユーザのジェスチャー入力を受信するよう特に構成されるか、またはユーザのジェスチャー入力を受信し、ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するようにユーザに指示し、ユーザの音声入力を受信するように特に構成される。
さらに、第2の決定ユニット502は、ユーザによってジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成されるか、またはユーザによってジェスチャー入力を用いて写真撮影で取得された画像を取得し、その画像領域をユーザによって選択された画像領域として使用するようにさらに構成される。
前述の図5の各ユニットの機能は、図2または図3に示された手順の対応する処理ステップに一致することができるため、それらの詳細は、本明細書では再び記載されない。
結論として、本発明の実施形態で提供される解決策は、ユーザの音声入力およびジェスチャー入力を受信するステップと、音声入力に従って、ユーザが検索することを期待するターゲットオブジェクトの名前およびターゲットオブジェクトの特徴カテゴリを決定するステップと、特徴カテゴリの特徴情報をユーザによってジェスチャー入力を用いて選択された画像領域から抽出するステップと、抽出された特徴情報およびターゲットオブジェクトの名前に従ってターゲットオブジェクトを検索するステップとを含む。本発明の実施形態において提供される解決策は、より柔軟な検索方法をユーザに提供し、検索時の適用シナリオに対する制限を軽減することができる。
当業者は、本発明の実施形態を、方法、システム、またはコンピュータプログラム製品として提供できるということを理解するはずである。したがって、本発明は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアとハードウェアを組み合わせた実施形態の形態を使用できる。さらに、本発明は、コンピュータ使用可能なプログラムコードを含む1つまたは複数のコンピュータ使用可能な記憶媒体(ディスクメモリ、CD-ROM、光メモリなどを含むが、これらに限定されない)上に実装されるコンピュータプログラム製品の形態を使用できる。
本発明は、本発明の実施形態に記載された方法、デバイス(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して説明される。コンピュータプログラム命令を使用して、フローチャートおよび/またはブロック図における各プロセスおよび/または各ブロック、ならびにフローチャートおよび/またはブロック図におけるプロセスおよび/またはブロックの組み合わせを実装できると理解されるべきである。これらのコンピュータプログラム命令は、マシンを生成するために、汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、または任意のその他のプログラム可能データ処理デバイスのプロセッサに提供することができ、コンピュータまたは任意のその他のプログラム可能データ処理デバイスのプロセッサによって実行された命令は、フローチャート内の1つまたは複数のプロセスおよび/またはブロック図内の1つまたは複数のブロックにおける特定の機能を実装するための装置を生成する。
これらのコンピュータプログラム命令は、コンピュータ可読メモリに保存することも可能であり、コンピュータまたは任意のその他のプログラム可能データ処理デバイスに対して、特定の方法で動作するように指示することができ、コンピュータ可読メモリに保存された命令は、命令装置を含む人工物を生成する。命令装置は、フローチャート内の1つまたは複数のプロセスおよび/またはブロック図内の1つまたは複数のブロックにおける特定の機能を実装する。
これらのコンピュータプログラム命令は、コンピュータまたは別のプログラム可能データ処理デバイスに読み込むこともでき、一連の操作およびステップが、コンピュータ上または別のプログラム可能デバイス上で実行されることによって、コンピュータで実装された処理を生成する。したがって、コンピュータ上または別のプログラム可能デバイス上で実行された命令は、フローチャート内の1つまたは複数のプロセスおよび/またはブロック図内の1つまたは複数のブロックにおける特定の機能を実装するためのステップを提供する。
本発明の望ましい一部の実施形態について説明したが、本発明の基本的概念を理解した当業者は、これらの実施形態に対して、変更および修正を行うことができる。したがって、以下の特許請求の範囲は、望ましい実施形態、ならびに本発明の範囲内に含まれるすべての変更および修正を含んでいると解釈されることを意図している。
明らかに、当業者は、本発明の精神および範囲から逸脱することなく、本発明に対するさまざまな変更および変形を行うことができる。それらの変更および変形が以下の特許請求の範囲およびこれらと等価な技術によって定義された保護の範囲に含まれている限り、本発明は、それらの変更および変形を対象にすることを意図している。
401 第1の受信ユニット
402 第1の決定ユニット
403 抽出ユニット
404 検索ユニット
501 第2の受信ユニット
502 第2の決定ユニット
503 送信ユニット
504 第3の受信ユニット
明らかに、当業者は、本発明の範囲から逸脱することなく、本発明に対するさまざまな変更および変形を行うことができる。それらの変更および変形が以下の特許請求の範囲およびこれらと等価な技術によって定義された保護の範囲に含まれている限り、本発明は、それらの変更および変形を対象にすることを意図している。

Claims (14)

  1. ユーザの音声入力およびジェスチャー入力を受信するステップと、
    前記音声入力に従って、前記ユーザが検索することを期待するターゲットオブジェクトの名前および前記ターゲットオブジェクトの特徴カテゴリを決定するステップと、
    前記ユーザによって前記ジェスチャー入力を用いて選択された画像領域から前記特徴カテゴリの特徴情報を抽出するステップと、
    前記抽出された特徴情報および前記ターゲットオブジェクトの前記名前に従って前記ターゲットオブジェクトを検索するステップとを備える、オブジェクト検索方法。
  2. 前記抽出された特徴情報および前記ターゲットオブジェクトの前記名前に従って前記ターゲットオブジェクトを検索する前記ステップが、
    前記特徴情報および前記ターゲットオブジェクトの前記名前をサーバに送信するステップと、
    前記サーバによって返された検索結果を受信するステップとを特に備え、前記検索結果が、サーバによって前記特徴情報に従って前記ターゲットオブジェクトの前記名前で表された前記ターゲットオブジェクトを検索することで取得される、請求項1に記載の方法。
  3. ユーザの音声入力およびジェスチャー入力を受信する前記ステップが、
    前記ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するステップ、または
    前記ユーザの音声入力を受信し、前記ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するように前記ユーザに指示し、前記ユーザのジェスチャー入力を受信するステップ、または
    前記ユーザのジェスチャー入力を受信し、前記ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するように前記ユーザに指示し、前記ユーザの音声入力を受信するステップを特に備える、請求項1または2に記載の方法。
  4. 前記ユーザによって前記ジェスチャー入力を用いて選択された前記画像領域を取得するステップが、
    前記ユーザによって前記ジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するステップ、または
    前記ユーザによって前記ジェスチャー入力を用いて写真撮影で取得された画像を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するステップを備える、請求項1または2に記載の方法。
  5. ユーザの音声入力およびジェスチャー入力を受信するように構成された第1の受信ユニットと、
    前記音声入力に従って、前記ユーザが検索することを期待するターゲットオブジェクトの名前および前記ターゲットオブジェクトの特徴カテゴリを決定するように構成された第1の決定ユニットと、
    前記ユーザによって前記ジェスチャー入力を用いて選択された画像領域から前記特徴カテゴリの特徴情報を抽出するように構成された抽出ユニットと、
    前記抽出された特徴情報および前記ターゲットオブジェクトの前記名前に従って前記ターゲットオブジェクトを検索するように構成された第1の検索ユニットとを備える、オブジェクト検索装置。
  6. 前記第1の検索ユニットが、前記特徴情報および前記ターゲットオブジェクトの前記名前をサーバに送信し、前記サーバによって返された検索結果を受信するように特に構成され、前記検索結果が、前記サーバによって前記特徴情報に従って前記ターゲットオブジェクトの前記名前で表された前記ターゲットオブジェクトを検索することで取得される、請求項5に記載の装置。
  7. 前記第1の受信ユニットが、前記ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、または前記ユーザの音声入力を受信し、前記ユーザによるジェスチャー入力が実行されておらず、かつ画像が選択されていないと判定された場合に、画像領域を選択する操作を実行するように前記ユーザに指示し、前記ユーザのジェスチャー入力を受信するように特に構成されるか、または前記ユーザのジェスチャー入力を受信し、前記ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するように前記ユーザに指示し、前記ユーザの音声入力を受信するように特に構成される、請求項4または5に記載の装置。
  8. 前記第1の決定ユニットが、前記ユーザによって前記ジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するようにさらに構成されるか、または前記ユーザによって前記ジェスチャー入力を用いて写真撮影で取得された画像を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するようにさらに構成される、請求項4または5に記載の装置。
  9. ユーザの音声入力およびジェスチャー入力を受信するステップと、
    前記音声入力に従って、前記ユーザが検索することを期待するターゲットオブジェクトの名前および前記ターゲットオブジェクトの特徴カテゴリを決定するステップと、
    前記特徴カテゴリのカテゴリ情報、前記ターゲットオブジェクトの前記名前、および前記ユーザによって前記ジェスチャー入力を用いて選択された画像領域をサーバに送信するステップと、
    前記サーバによって返された検索結果を受信するステップとを備えるオブジェクト検索方法であって、前記検索結果が、前記サーバによって前記ターゲットオブジェクトの前記名前で表された前記ターゲットオブジェクトを検索することで取得され、前記画像領域に関する、前記カテゴリ情報によって表された前記特徴カテゴリの特徴が検索基準として使用される、方法。
  10. ユーザの音声入力およびジェスチャー入力を受信する前記ステップが、
    前記ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するステップ、または
    前記ユーザの音声入力を受信し、前記ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するように前記ユーザに指示し、前記ユーザのジェスチャー入力を受信するステップ、または
    前記ユーザのジェスチャー入力を受信し、前記ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するように前記ユーザに指示し、前記ユーザの音声入力を受信するステップを特に備える、請求項9に記載の方法。
  11. 前記ユーザによって前記ジェスチャー入力を用いて選択された前記画像領域を取得するステップが、
    前記ユーザによって前記ジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するステップ、または
    前記ユーザによって前記ジェスチャー入力を用いて写真撮影で取得された画像を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するステップを備える、請求項9に記載の方法。
  12. ユーザの音声入力およびジェスチャー入力を受信するように構成された第2の受信ユニットと、
    前記音声入力に従って、前記ユーザが検索することを期待するターゲットオブジェクトの名前および前記ターゲットオブジェクトの特徴カテゴリを決定するように構成された第2の決定ユニットと、
    前記特徴カテゴリのカテゴリ情報、前記ターゲットオブジェクトの前記名前、および前記ユーザによって前記ジェスチャー入力を用いて選択された画像領域をサーバに送信するように構成された送信ユニットと、
    前記サーバによって返された検索結果を受信するように構成された第3の受信ユニットとを備えるオブジェクト検索装置であって、前記検索結果が、前記サーバによって前記ターゲットオブジェクトの前記名前で表された前記ターゲットオブジェクトを検索することで取得され、前記画像領域に関する、前記カテゴリ情報によって表された前記特徴カテゴリの特徴が検索基準として使用される、装置。
  13. 前記第2の受信ユニットが、前記ユーザによって同時に実行された音声入力およびジェスチャー入力を受信するように特に構成されるか、または前記ユーザの音声入力を受信し、前記ユーザによるジェスチャー入力が実行されておらず、かつ画像領域が選択されていないと判定された場合に、画像領域を選択する操作を実行するように前記ユーザに指示し、前記ユーザのジェスチャー入力を受信するように特に構成されるか、または前記ユーザのジェスチャー入力を受信し、前記ユーザによる音声入力が実行されていないと判定された場合に、音声入力操作を実行するように前記ユーザに指示し、前記ユーザの音声入力を受信するように特に構成される、請求項12に記載の装置。
  14. 前記第2の決定ユニットが、前記ユーザによって前記ジェスチャー入力を用いて指定された画像から選択された画像領域を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するようにさらに構成されるか、または前記ユーザによって前記ジェスチャー入力を用いて写真撮影で取得された画像を取得し、前記画像領域を前記ユーザによって選択された前記画像領域として使用するようにさらに構成される、請求項12に記載の装置。
JP2016550858A 2014-05-15 2014-05-15 オブジェクト検索方法および装置 Active JP6316447B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/077566 WO2015172359A1 (zh) 2014-05-15 2014-05-15 一种对象搜索方法及装置

Publications (2)

Publication Number Publication Date
JP2017513090A true JP2017513090A (ja) 2017-05-25
JP6316447B2 JP6316447B2 (ja) 2018-04-25

Family

ID=53852833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016550858A Active JP6316447B2 (ja) 2014-05-15 2014-05-15 オブジェクト検索方法および装置

Country Status (7)

Country Link
US (1) US10311115B2 (ja)
EP (1) EP3001333A4 (ja)
JP (1) JP6316447B2 (ja)
KR (1) KR101864240B1 (ja)
CN (1) CN104854539B (ja)
BR (1) BR112016017262B1 (ja)
WO (1) WO2015172359A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10788902B2 (en) 2016-06-22 2020-09-29 Sony Corporation Information processing device and information processing method

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101561628B1 (ko) * 2013-12-30 2015-10-20 주식회사 케이티 스마트 글래스의 영상 정보를 제공하는 검색 장치 및 검색 방법
US10444977B2 (en) * 2014-12-05 2019-10-15 Verizon Patent And Licensing Inc. Cellphone manager
KR20170052364A (ko) * 2015-11-04 2017-05-12 삼성전자주식회사 디스플레이장치 및 그 제어방법
CN107515868A (zh) * 2016-06-15 2017-12-26 北京陌上花科技有限公司 搜索方法及装置
KR102055733B1 (ko) * 2017-02-24 2019-12-13 권오민 이미지광고 온라인 제공 방법
KR102469717B1 (ko) * 2017-08-01 2022-11-22 삼성전자주식회사 오브젝트에 대한 검색 결과를 제공하기 위한 전자 장치 및 이의 제어 방법
CN110119461B (zh) * 2018-01-25 2022-01-14 阿里巴巴(中国)有限公司 一种查询信息的处理方法及装置
KR102630662B1 (ko) 2018-04-02 2024-01-30 삼성전자주식회사 어플리케이션 실행 방법 및 이를 지원하는 전자 장치
CN108874910B (zh) * 2018-05-28 2021-08-17 思百达物联网科技(北京)有限公司 基于视觉的小目标识别系统
CN108984730A (zh) * 2018-07-12 2018-12-11 三星电子(中国)研发中心 一种搜索方法和搜索设备
WO2020062392A1 (zh) 2018-09-28 2020-04-02 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
KR20200068416A (ko) 2018-12-05 2020-06-15 제주대학교 산학협력단 감귤 바이오겔을 포함하는 감귤 미숙과 추출물을 유효성분으로 함유하는 화장료 조성물
JP7275795B2 (ja) * 2019-04-15 2023-05-18 コニカミノルタ株式会社 操作受付装置、制御方法、画像形成システム、及び、プログラム
CN110765294B (zh) * 2019-10-25 2021-03-12 深圳追一科技有限公司 图像搜索方法、装置、终端设备及存储介质
CN113093406A (zh) * 2021-04-14 2021-07-09 陈祥炎 智能眼镜
CN116628327A (zh) * 2023-02-16 2023-08-22 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198695A (ja) * 1997-01-13 1998-07-31 Sharp Corp 情報処理装置
JP2003173432A (ja) * 2001-12-07 2003-06-20 Shiga Mec Co Ltd 画像検索システム及び画像検索方法
JP2006107109A (ja) * 2004-10-05 2006-04-20 Canon Inc 情報管理装置及び情報管理方法
JP2007026316A (ja) * 2005-07-20 2007-02-01 Yamaha Motor Co Ltd 画像管理装置、ならびに画像管理用コンピュータプログラムおよびそれを記録した記録媒体
US20110035406A1 (en) * 2009-08-07 2011-02-10 David Petrou User Interface for Presenting Search Results for Multiple Regions of a Visual Query
WO2012058577A1 (en) * 2010-10-28 2012-05-03 Google Inc. Search with joint image-audio queries
JP2013045122A (ja) * 2011-08-22 2013-03-04 Seiko Epson Corp 画像検索装置、画像検索方法、およびプログラム
WO2013075316A1 (en) * 2011-11-24 2013-05-30 Microsoft Corporation Interactive multi-modal image search

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166866A (ja) 1994-10-14 1996-06-25 Hitachi Ltd 対話型インターフェースを具備した編集支援システム
US6513063B1 (en) * 1999-01-05 2003-01-28 Sri International Accessing network-based electronic information through scripted online interfaces using spoken input
US7457825B2 (en) 2005-09-21 2008-11-25 Microsoft Corporation Generating search requests from multimodal queries
CN100414548C (zh) 2006-09-22 2008-08-27 南京搜拍信息技术有限公司 综合利用图像及文字信息的搜索系统及搜索方法
CN101071431A (zh) * 2007-01-31 2007-11-14 腾讯科技(深圳)有限公司 基于关键图形为搜索条件进行图象搜索的方法及系统
CN100578508C (zh) 2008-01-14 2010-01-06 上海博康智能信息技术有限公司 交互式图像搜索系统和方法
US20090287626A1 (en) * 2008-05-14 2009-11-19 Microsoft Corporation Multi-modal query generation
US9978365B2 (en) * 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
US20100281435A1 (en) 2009-04-30 2010-11-04 At&T Intellectual Property I, L.P. System and method for multimodal interaction using robust gesture processing
CN101930457A (zh) * 2010-08-13 2010-12-29 百度在线网络技术(北京)有限公司 一种供用户进行快速选择对象及搜索的方法、设备和系统
US20120155717A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Image search including facial image
US9152376B2 (en) 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
CN103246682A (zh) * 2012-02-13 2013-08-14 联想(北京)有限公司 数据搜索方法和数据搜索装置
CN103020184B (zh) * 2012-11-29 2016-05-25 北京百度网讯科技有限公司 使用拍摄图像获取搜索结果的方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198695A (ja) * 1997-01-13 1998-07-31 Sharp Corp 情報処理装置
JP2003173432A (ja) * 2001-12-07 2003-06-20 Shiga Mec Co Ltd 画像検索システム及び画像検索方法
JP2006107109A (ja) * 2004-10-05 2006-04-20 Canon Inc 情報管理装置及び情報管理方法
JP2007026316A (ja) * 2005-07-20 2007-02-01 Yamaha Motor Co Ltd 画像管理装置、ならびに画像管理用コンピュータプログラムおよびそれを記録した記録媒体
US20110035406A1 (en) * 2009-08-07 2011-02-10 David Petrou User Interface for Presenting Search Results for Multiple Regions of a Visual Query
WO2012058577A1 (en) * 2010-10-28 2012-05-03 Google Inc. Search with joint image-audio queries
JP2013045122A (ja) * 2011-08-22 2013-03-04 Seiko Epson Corp 画像検索装置、画像検索方法、およびプログラム
WO2013075316A1 (en) * 2011-11-24 2013-05-30 Microsoft Corporation Interactive multi-modal image search

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10788902B2 (en) 2016-06-22 2020-09-29 Sony Corporation Information processing device and information processing method

Also Published As

Publication number Publication date
BR112016017262A2 (ja) 2017-08-08
WO2015172359A1 (zh) 2015-11-19
US10311115B2 (en) 2019-06-04
EP3001333A4 (en) 2016-08-24
EP3001333A1 (en) 2016-03-30
BR112016017262B1 (pt) 2022-09-27
KR20160104054A (ko) 2016-09-02
CN104854539B (zh) 2018-08-14
KR101864240B1 (ko) 2018-06-04
US20160147882A1 (en) 2016-05-26
CN104854539A (zh) 2015-08-19
JP6316447B2 (ja) 2018-04-25

Similar Documents

Publication Publication Date Title
JP6316447B2 (ja) オブジェクト検索方法および装置
US10169900B2 (en) Picture processing method and apparatus
WO2016095621A1 (zh) 信息提供方法、装置和计算机设备
CN107368550B (zh) 信息获取方法、装置、介质、电子设备、服务器及系统
US10929600B2 (en) Method and apparatus for identifying type of text information, storage medium, and electronic apparatus
EP3163473A1 (en) Video playing method and device
US10496696B2 (en) Search method and apparatus
US10685256B2 (en) Object recognition state indicators
US20160182816A1 (en) Preventing photographs of unintended subjects
TWI586160B (zh) 利用行動電話及雲端可視化搜尋引擎之即時物體掃描
EP3328041A1 (en) Clothes matching recommendation method and smart terminal
JP2017135519A5 (ja)
WO2015192615A1 (zh) 一种图像文件共享方法、装置和计算机存储介质
US20180336243A1 (en) Image Search Method, Apparatus and Storage Medium
US20170270140A1 (en) Rating and Advising for Selection of Augmented Reality Markers
JP2017228278A5 (ja)
CN111104915A (zh) 一种同行分析方法、装置、设备和介质
US20170277722A1 (en) Search service providing apparatus, system, method, and computer program
CN109033264B (zh) 视频分析方法及装置、电子设备和存储介质
CN106503005B (zh) 一种信息处理方法及终端
CN111125398A (zh) 一种图片信息检索方法、装置、设备和介质
WO2017161476A1 (en) Rating and advising for selection of augmented reality markers
CN110456955B (zh) 暴露服饰检测方法、装置、系统、设备及存储介质
CN111143663B (zh) 信息推送方法和装置
CN107077508B (zh) 专利信息管理的方法和装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180327

R150 Certificate of patent or registration of utility model

Ref document number: 6316447

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250