JP2009540414A - メディア識別 - Google Patents
メディア識別 Download PDFInfo
- Publication number
- JP2009540414A JP2009540414A JP2009513778A JP2009513778A JP2009540414A JP 2009540414 A JP2009540414 A JP 2009540414A JP 2009513778 A JP2009513778 A JP 2009513778A JP 2009513778 A JP2009513778 A JP 2009513778A JP 2009540414 A JP2009540414 A JP 2009540414A
- Authority
- JP
- Japan
- Prior art keywords
- media
- recognition
- video
- face
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 123
- 238000012545 processing Methods 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 24
- 241001465754 Metazoa Species 0.000 claims description 15
- 230000001815 facial effect Effects 0.000 claims description 15
- 239000011435 rock Substances 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 description 41
- 230000008569 process Effects 0.000 description 41
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000283965 Ochotona princeps Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000007096 poisonous effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/02—Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/17—Image acquisition using hand-held instruments
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
方法が、装置においてメディアを取得し、画像/ビデオ認識及びオーディオ認識を介してメディア内のオブジェクトを識別し、このメディアの識別されたオブジェクトに基づいて識別情報を装置上に表示する。
Description
本明細書に記載の実装構成は、一般に装置に関し、特に、メディアに含まれているオブジェクトを識別する装置に関する。
人が(ビデオ、画像、オーディオのような)メディアの中である人物を見たり、聞いたりしていて、その人物が誰であるかを確定できなかったり、その人物を思い出す根拠を確定できなかったりすると苛々するものである。現在、移動通信装置のユーザは移動通信装置によって歌を識別することができる。例えば、Rocket Mobile社から入手可能なSong IDentity(登録商標)などによって、ユーザは移動通信装置を用いて、数秒間歌を記録し、その歌のアーティスト、アルバム、及びタイトルを装置へ提供することによってその歌を識別できるようになっている。しかし残念ながら、このような識別システムは、人物を識別して、上記のような人物に関する情報を提供するためのビデオ、画像、及び(歌以外の)オーディオ用としては欠けている点がある。
顔認識技術は、過去数年で著しく改善し、建物及びコンピュータへのアクセスのために認証を行う有効なツールとなっている。しかし、この顔認識技術は混雑したスタジアムや空港の中で未知の人物を識別するには有効なものではない。さらに、現在の顔認識技術では、ビデオ、画像及びオーディオに含まれているすべてのオブジェクトを識別することはできない。そして、このようなオブジェクトに関する識別情報を提供することはできない。
1つの側面によれば、方法が、装置においてメディアを取得するステップと、画像/ビデオ認識及びオーディオ認識を介してメディア内のオブジェクトの識別を行うステップと、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示するステップとを含んでもよい。
さらに、本方法は装置を介してメディアを受信するステップを含んでもよい。
さらに、本方法は装置を用いてメディアをキャプチャするステップを含んでもよい。
さらに、画像/ビデオ認識が所定の精度レベルの範囲内でメディアのオブジェクトを識別できない場合、オーディオ認識を行ってもよい。
さらに、オーディオ認識が所定の精度レベルの範囲内でメディアのオブジェクトを識別できなければ、画像/ビデオ認識を行ってもよい。
さらに、本方法は、画像/ビデオ認識によってオブジェクトを識別するためにメディアのオブジェクトの顔をマークするステップを含んでもよい。
さらに、本方法は、メディアのオブジェクトを識別するために画像/ビデオ認識の結果を表示するステップを含んでもよい。
さらに、本方法はユーザが選択した画像/ビデオ認識の結果に関連する識別情報を表示するステップを含んでもよい。
さらに、本方法はメディアのオブジェクトを識別するオーディオ認識の結果を表示するステップを含んでもよい。
さらに、本方法はユーザにより選択されたオーディオ認識の結果に関連する識別情報を表示するステップを含んでもよい。
さらに、本方法はメディアのオブジェクトを識別する画像/ビデオ認識及びオーディオ認識の結果を表示するステップを含んでもよい。
さらに、本方法は、ユーザが選択した画像/ビデオ認識及びオーディオ認識の結果に関連する識別情報を表示するステップを含んでもよい。
さらに、メディアは画像ファイル、オーディオファイル、ビデオファイル又はアニメーションファイルのうちの1つのファイルを含んでもよい。
さらに、メディアのオブジェクトは人物、場所又は物体のうちの1つを含んでもよい。
さらに、識別情報は、メディアの識別されたオブジェクトに関する経歴情報と、メディアの識別されたオブジェクトへのリンクと、メディアの識別されたオブジェクトに基づく推奨とのうちの少なくとも1つを含んでもよい。
別の側面によれば、装置が、装置においてメディアを取得する手段と、顔と音声との認識を介してメディア内のオブジェクトの識別を行う手段と、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示する手段とを含んでもよい。
さらに別の側面によれば、装置は装置に関連づけられたメディア情報を取得するためのメディア情報収集部、並びに、処理ロジックを含んでもよい。上記処理ロジックは、顔と音声との認識を介してメディア内のオブジェクトの識別を行い、メディアのオブジェクトを識別する顔と音声との認識結果を表示し、ユーザが選択した顔の認識と音声の認識のうちの一方の認識結果に関連する識別情報を表示してもよい。
さらに、メディア情報収集部は、カメラ、マイク、メディア記憶装置又は通信装置のうちの少なくとも1つを含んでもよい。
さらに、顔の認識によってメディアのオブジェクトを識別する際に、処理ロジックは、メディアのオブジェクト内の顔の位置を判定するように構成してもよい。
さらに、メディアのオブジェクトを顔の認識によって識別する際に、処理ロジックは、メディアのオブジェクト内の顔の位置をユーザ入力に基づいて判定するように構成してもよい。
別の側面によれば、装置は、命令を記憶するためのメモリと、メディアを装置において取得し、メディア内のオブジェクトの識別を顔と音声との認識を介して行い、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示する命令を実行するプロセッサと、を含んでもよい。
さらに別の側面によれば、方法が、装置においてビデオを取得するステップと、ビデオを装置において再生しながら、ビデオ内のオブジェクトの識別を顔の認識又は音声の認識を介して行うステップと、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示するステップとを含んでもよい。
さらに別の側面によれば、方法が、メディアを装置において取得するステップと、メディア上の物体と、物体のデータベースとの比較に基づいてメディア内の物体の識別を行うステップと、メディアの識別された物体に基づいて識別情報を装置上に表示するステップを含んでもよい。
さらに、物体は動物、印刷メディア、植物、樹木、岩又は漫画のキャラクタのうちの少なくとも1つを含んでもよい。
別の側面によれば、方法は、装置においてメディアを取得するステップと、メディア上の場所と場所のデータベースとの比較に基づいてメディア内の場所の識別を行うステップと、メディアの識別された場所に基づいて識別情報を装置上に表示するステップとを含んでもよい。
さらに、場所は、建物、陸標、道路、又は橋のうちの少なくとも1つを含んでもよい。
さらに、本方法は、メディア上の識別された場所の表示を含む地図をメディアの識別された場所の所在位置に基づいて装置上に表示するステップをさらに含んでもよい。
さらなる側面によれば、方法が、装置上でメディアを取得するステップと、オブジェクトの音声の認識及びテキスト認識に基づいてメディア内のオブジェクトの識別を行うステップを提供するステップと、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示するステップとを含んでもよい。
本明細書の一部に組み込まれ、かつ本明細書の一部を構成する添付図面は、本発明の実施形態を例示し、以下の説明と共に本発明を記述するものである。
本発明の原理に従うコンセプト示す例示の線図である。
本発明の原理に従うシステム及び方法を実現してもよい例示の装置の線図である。
図2の例示装置の例示の構成要素の線図である。
本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。
本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。
本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。
本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。
本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。
本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。
本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。
本発明の原理に従う実装構成に従う例示の処理を示すフローチャートである。
本発明の原理に従う実装構成に従う例示の処理を示すフローチャートである。
本発明の原理に従う実装構成に従う例示の処理を示すフローチャートである。
本発明の原理に従う実装構成に従う例示の処理を示すフローチャートである。
本発明の以下の詳細な説明は添付図面を参照するものである。異なる図面内の同じ参照番号は同じ要素又は類似の要素を同定するものとする。また、以下の詳細な説明は本発明を限定するものではない。
本発明の原理に従う実装構成は顔の認識と音声の認識の少なくともいずれかの結果に基づいて行うメディアの識別、並びに、顔の認識と音声の認識の少なくともいずれかの結果に関係する識別情報の表示に関する。(画像とビデオの少なくともいずれかにおいて(単複の)人物を識別する顔認識技術と、映画から得られるサウンドバイトなどのオーディオ部分において(単複の)人物を識別するための音声認識技術との少なくともいずれかの)メディア識別を用いることによって、(単複の)人物を識別してもよく、そして、(単複の)人物に関する情報を装置上に表示してもよい。例えば、装置は、記憶又は(写真撮影によるような)別のメカニズムから(画像のような)メディアを検索してよく、画像に示された顔の選択をユーザに許可してもよい。顔の認識は顔に関して行ってよく、画像に示された(単複の)人物を識別してよい。装置は顔の認識によって識別された(単複の)人物に関する識別情報を提供してもよい。
本願で用いられているように「メディア」という用語は、コンピュータで読取り可能で、かつ、機械に記憶可能な任意の作業生産物、ドキュメント、電子メディアなどを含む広い意味で解釈すべきものである。メディアは、例えば、ドキュメント、電子雑誌、オンライン百科事典、(画像ファイル、オーディオファイル、ビデオファイル、アニメーションファイル、ウェブ配信されるポッドキャストのような)電子メディアなどに含まれる情報を含んでもよい。
本願で用いられているように「ドキュメント」という用語は、コンピュータで読取り可能で、かつ、機械に記憶可能な任意の作業生産物を含む広い意味で解釈すべきものである。ドキュメントは、例えば、電子メール、ウェブサイト、ファイル、ファイルの組み合わせ、別のファイルへの埋込みリンクを含む1以上のファイル、ニュースグループの転記、前述のもののうちのいずれかなどを含んでもよい。インターネットという文脈では共有ドキュメントはウェブページである。ドキュメントにはテキスト情報が含まれている場合が多いが、(メタ情報、画像、ハイパーリンクなどのような)埋め込まれた情報と(JavaScriptなどのような)埋め込まれた命令の少なくともいずれかが含まれている場合もある。
本願で用いられているように「識別情報」という用語は、メディアにおいて識別される任意のオブジェクトに関連する任意の情報を含むものとして広い意味で解釈すべき用語である。例えば、オブジェクトとは、(メディアから識別できる有名人、ミュージシャン、歌手、映画スター、運動選手、友人及び任意の人物のうちの少なくともいずれかのような)人物と、(建物、陸標、道路、橋及びメディアから識別できる任意の場所のうちの少なくともいずれかのような)場所と、(動物、(書籍、雑誌のような)印刷メディア、漫画のキャラクタ、(キングコングのような)映画のキャラクタ、植物、樹木、及びメディアから識別することができる任意の「物体」のうちの少なくともいずれかのような)物体とのうちの少なくともいずれかを含むものであってもよい。
本願で用いられているように「リンク」という用語は、同じコンテンツの別のコンテンツ又は別の一部から/へのコンテンツへ/から任意の参考文献を含むものとして広い意味で解釈すべき用語である。
本願で用いられているように「装置」という用語は、データ処理、ファクシミリ、及びデータ通信機能をセルラ無線電話機に結合した個人通信システム(PCS)端末と、無線電話機、ポケットベル、インターネット/イントラネットアクセス、ウェブブラウザ、電子手帳、カレンダ、及び全地球測位システム(GPS)受信機のうち少なくともいずれかを含むPDAと、(マイクのような)音声録音機と、ドップラー受信機と全地球測位システム(GPS)受信機の少なくともいずれかの受信機と、ラップトップと、GPS装置と、(ビデオカメラと静止画像カメラの少なくともいずれかのような)カメラと、パーソナルコンピュータ、ホーム娯楽システム、テレビなどのようなメディアを表示できる他の任意の計算装置又は通信装置とを含むものとして広い意味で解釈すべき用語である。
図1は本発明の原理に従うコンセプトを示す例示の線図である。図1に示すように、装置のディスプレイ100はユーザによって選択された画像又はビデオ(画像/ビデオ)110を含んでもよい。例えば、1つの実装例では、画像/ビデオ110は、ディスプレイ100に現在表示されている映画又は音楽用ビデオであってもよい。ディスプレイ100は、(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔マーク項目120を含んでもよい。この選択メカニズムによって、ユーザは、選択時に画像/ビデオ110の顔の一部を(カーソル130などで)マークすることが可能としてもよい。顔がカーソル130でマークされた場合、ユーザは、以下さらに詳細に記載のように、ディスプレイ100上に示される(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔認識項目140を選択し、次いで、画像/ビデオ110の顔の認識を行ってもよい。図1にさらに示すように、ディスプレイ100は(アイコン、リンク、ボタン、別の同様の選択メカニズムのうちの少なくともいずれかなどのような)オーディオファイル項目150を含んでもよい。このオーディオファイル項目150は、ユーザがオーディオファイルを聴いているときに表示してもよい。例えば、1つの実装例では、ユーザは(デジタル音楽、MP3、MP4のような)音楽を装置で聴いてもよい。以下さらに詳細に記載のように、ユーザは、ディスプレイ100に示される(アイコン、リンク、ボタン、別の同様の選択メカニズムのうちの少なくともいずれかのような)声(音声)認識項目160を選択し、オーディオファイルの音声認識を行ってもよい。別の実装構成では、ユーザは、音声認識項目160を選択し、次いで、現在ディスプレイ100に表示されている(ビデオ110のような)映画の中の声の音声認識を行ってもよい。さらに別の実装構成では、ユーザは、ディスプレイ100上に現在示されている(ビデオ110のような)メディアにおいて顔の認識と音声の認識の双方を行ってもよい。
<<例示の装置アーキテクチャ>>
図2は本発明の原理に従う実装構成による例示装置200を示す線図である。図2に示すように、装置200は、ハウジング210、スピーカ220、ディスプレイ230、制御ボタン240、キーパッド250、マイク260、及びカメラ270を含んでもよい。ハウジング210はエレメントの外側から装置200の構成要素を保護してもよい。スピーカ220は可聴情報を装置200のユーザに提供してもよい。ディスプレイ230は視覚情報をユーザへ提供してもよい。例えば、ディスプレイ230は着呼又は発呼に関する情報、メディア、ゲーム、電話帳、現在時刻等を提供してもよい。本発明の原理に従う実装構成では、ディスプレイ230は(例えば顔の認識又は音声の認識を介して)メディアの形で識別することができる情報をユーザに提供してもよい。制御ボタン240は、ユーザが装置200と相互に情報の交換を行って、1以上の処理を装置200に実行することができるようにしてもよい。キーパッド250は標準的電話用キーパッドを含んでもよい。マイク260はユーザから可聴情報を受信してもよい。カメラ270は、ユーザがビデオと(写真のような)画像の少なくともいずれかをキャプチャし、これを記憶できるようにしてもよい。
図2は本発明の原理に従う実装構成による例示装置200を示す線図である。図2に示すように、装置200は、ハウジング210、スピーカ220、ディスプレイ230、制御ボタン240、キーパッド250、マイク260、及びカメラ270を含んでもよい。ハウジング210はエレメントの外側から装置200の構成要素を保護してもよい。スピーカ220は可聴情報を装置200のユーザに提供してもよい。ディスプレイ230は視覚情報をユーザへ提供してもよい。例えば、ディスプレイ230は着呼又は発呼に関する情報、メディア、ゲーム、電話帳、現在時刻等を提供してもよい。本発明の原理に従う実装構成では、ディスプレイ230は(例えば顔の認識又は音声の認識を介して)メディアの形で識別することができる情報をユーザに提供してもよい。制御ボタン240は、ユーザが装置200と相互に情報の交換を行って、1以上の処理を装置200に実行することができるようにしてもよい。キーパッド250は標準的電話用キーパッドを含んでもよい。マイク260はユーザから可聴情報を受信してもよい。カメラ270は、ユーザがビデオと(写真のような)画像の少なくともいずれかをキャプチャし、これを記憶できるようにしてもよい。
図3は装置200の例示の構成要素を示す線図である。図3に示すように、装置200は、処理ロジック310、記憶部320、ユーザインタフェース330、通信インタフェース340、アンテナアセンブリ350、及びメディア情報収集部360を含んでもよい。処理ロジック310は、プロセッサ、マイクロプロセッサ、識別用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)等を含んでもよい。処理ロジック310は、装置200及びその構成要素の動作を制御するためのデータ構造又はソフトウェアプログラムを含んでもよい。記憶部320は、処理ロジック310によって用いてもよいデータと命令とを記憶するためのランダムアクセスメモリ(RAM)と、リードオンリメモリ(ROM)と、別のタイプのメモリとのうちの少なくともいずれかのメモリを含んでもよい。
ユーザインタフェース330は、装置200へ情報を入力するメカニズムと、装置200から情報を出力するメカニズムとの少なくともいずれかのメカニズムを含んでもよい。この入出力メカニズムの例は、電気信号を受信し、音声信号を出力する(スピーカ220のような)スピーカと、画像とビデオ信号の少なくともいずれかを受信し、電気信号を出力する(カメラ270のような)カメラと、音声信号を受信し、電気信号を出力する(マイク260のような)マイクと、データと制御コマンドとを装置200へ入力することを可能にするための(ジョイスティックと、制御ボタン240と、キーパッドのキー250とのうちの少なくともいずれかのような)ボタンと、(カメラ270から得られる情報のような)視覚情報を出力する(ディスプレイ230のような)ディスプレイと、装置200を振動させるバイブレータとのうちの少なくともいずれかを含むものであってもよい。
通信インタフェース340は、例えば、処理ロジック310からのベースバンド信号を無線周波数(RF)信号に変換してもよい送信機と、RF信号をベースバンド信号に変換してもよい受信機とのうちの少なくともいずれか等を含んでもよい。上記とは別に、通信インタフェース340は送信機と受信機双方の機能を実行するトランシーバを含んでもよい。通信インタフェース340はRF信号の送受信用アンテナアセンブリ350と接続してもよい。アンテナアセンブリ350はRF信号を無線で送受信する1以上のアンテナをしてもよい。アンテナアセンブリ350は、通信インタフェース340からRF信号を受信し、このRF信号を無線で送信し、RF信号を無線で受信し、該RF信号を通信インタフェース340へ提供してもよい。例えば、1つの実装例では、通信インタフェース340は、(ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、公衆交換電話網(PSTN)のような電話ネットワーク、イントラネット、インターネット、又はこれらのネットワークの組み合わせのような)ネットワークと通信を行ってもよい。
メディア情報収集部360は装置200からメディア情報を取得してもよい。1つの実装例では、メディア情報は、装置200に記憶された、又は(通信インタフェース340のような)装置200によって受信されたメディアに対応してもよい。この場合、メディア情報収集部360は、(記憶部320のような)メディア記憶装置又は(有線通信又は無線通信のような)別のソースからメディアを受信できる(外部のメディア記憶装置との通信インタフェース340のような)通信装置を含んでもよい。別の実装構成では、メディア情報は、装置200によってキャプチャされるか、検索されるメディアに対応してもよい。この場合、メディア情報収集部360は、オーディオ情報を録音してもよい(マイク260のような)マイクと、画像とビデオの少なくともいずれかを録画してもよい(カメラ270のような)カメラとのうちの少なくともいずれかを含むものであってもよい。このキャプチャされたメディアは(記憶部320のような)メディア記憶装置に記憶されたものであってもよいし、そうでなくてもよい。
以下詳細に説明するように、本発明の原理に従う装置200は、メディア情報に基づいて(顔の認識と音声の認識の少なくともいずれかのような)メディア識別に関連する或る処理を実行してもよい。記憶部320のようなコンピュータ可読メディアを含むアプリケーションのソフトウェア命令を実行する処理ロジック310に応答して、装置200は処理を実行してもよい。コンピュータ可読メディアは、物理的又は論理的メモリデバイスか、搬送波かの少なくともいずれかとして定義されるものであってもよい。
通信インタフェース340を介して、別のコンピュータ可読メディアから、又は、別の装置から記憶部320の中へソフトウェア命令を読み込んでもよい。記憶部320に含まれているソフトウェア命令は後程説明する処理を処理ロジック310に実行させてもよい。上記とは別に、ソフトウェア命令の代わりに、又は、ソフトウェア命令と組み合わされた形の有線回路構成を用いて、本発明の原理に従う処理を実現してもよい。したがって、本発明の原理はハードウェアの回路構成とソフトウェアとの識別の組み合わせのいずれにも限定されることはない。
<<例示のメディア識別方法>>
図4A〜図6Bは本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。図4A〜図6Bの方法は(装置200のディスプレイ230のような)装置200の中で伝えてもよい。
図4A〜図6Bは本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。図4A〜図6Bの方法は(装置200のディスプレイ230のような)装置200の中で伝えてもよい。
(画像とビデオの少なくともいずれかの顔認識)
図4Aに示すように、(装置200のディスプレイ230のような)装置のディスプレイ400は画像/ビデオ110を表示してもよい。ディスプレイ400は(アイコン、リンク、ボタン及び別の同様の選択メカニズムとの少なくともいずれかのような)顔マーク項目120を含んでもよい。この選択メカニズムによって、ユーザは、選択時に(例えば1つの実装例ではカーソル130を用いて)画像/ビデオ110の顔の一部をマークしてもよい。カーソル130で顔がマークされた場合、ユーザは、ディスプレイ400に示される(アイコン、リンク、ボタンと他の同様の選択メカニズムとの少なくともいずれかのような)顔認識項目140を選択し、次いで、画像/ビデオ110の顔の認識を行う。1つの実装例では、顔の認識は、(例えば装置200の処理ロジック310及び記憶部320を介して)装置に設けられている顔認識ソフトウェアによって画像/ビデオ110上で行ってもよい。別の実装構成では、顔の認識は、(例えば通信インタフェース340を介して)装置200と通信を行う装置に設けられている顔認識ソフトウェアによって画像/ビデオ110上で行ってもよい。
図4Aに示すように、(装置200のディスプレイ230のような)装置のディスプレイ400は画像/ビデオ110を表示してもよい。ディスプレイ400は(アイコン、リンク、ボタン及び別の同様の選択メカニズムとの少なくともいずれかのような)顔マーク項目120を含んでもよい。この選択メカニズムによって、ユーザは、選択時に(例えば1つの実装例ではカーソル130を用いて)画像/ビデオ110の顔の一部をマークしてもよい。カーソル130で顔がマークされた場合、ユーザは、ディスプレイ400に示される(アイコン、リンク、ボタンと他の同様の選択メカニズムとの少なくともいずれかのような)顔認識項目140を選択し、次いで、画像/ビデオ110の顔の認識を行う。1つの実装例では、顔の認識は、(例えば装置200の処理ロジック310及び記憶部320を介して)装置に設けられている顔認識ソフトウェアによって画像/ビデオ110上で行ってもよい。別の実装構成では、顔の認識は、(例えば通信インタフェース340を介して)装置200と通信を行う装置に設けられている顔認識ソフトウェアによって画像/ビデオ110上で行ってもよい。
顔認識ソフトウェアは利用可能な従来方式の任意の顔認識ソフトウェアを含むものであってもよい。例えば、顔認識ソフトウェアは認証及び識別に用いられる顔認識技術を含むものであってもよい。典型的な認証タスクは、人々が施設への入室やデータへのアクセスが許可される前に、しかるべき人物であることを判別してもよい。このような場合、顔認識ソフトウェアは最新の画像をデータベース内の画像と比較してもよい。合致率は良好なものになり得る。なぜなら、このような顔の画像は(有名人の写真撮影のように)周囲の環境を制御してキャプチャしてもよく、さらに挑戦すべき課題の多い環境下で撮影される写真に比べてより高品質の画像が生み出されるからである。
典型的識別タスクでは、デジタルカメラ又はビデオカメラのようなソースから得られる未知の人物をデータベース内の画像と照合する試みを行ってもよい。識別による照合にはさらに挑戦すべき課題が生じる場合がある。なぜなら、この目的のために取得された画像は、一般的に、(公衆のいる場所での有名人の写真撮影の場合のような)制御された条件下で被写体の協力によって作成されたものではない場合があるからである。
最新の顔認識ソフトウェアは、4つの基本的方法、すなわち、外観ベース、ルールベース、特徴ベース、テクスチャベースの方法のうちの少なくともいずれかの方法のうちの1以上を用いて行ってもよい。外観ベースの方法は、画像から顔の特徴を抽出するのではなく2以上の画像の類似度を測定してもよい。ルール依存による方法は(人間の目、鼻及び口のような)顔の構成要素を分析し、画像間における構成要素の関係を測定してもよい。特徴ベースの方法は(エッジ品質、形状及び肌の色のような)顔立ちの特徴を分析してもよい。テクスチャベースの方法は顔の様々なテクスチャパターンをチェックしてもよい。これらの方法のそれぞれに対して、顔認識ソフトウェアはデータを定義し、記憶するアルゴリズムを用いてテンプレートを生成してもよい。認証又は識別用として画像がキャプチャされると、顔認識ソフトウェアはデータを処理し、このデータをテンプレート情報と比較してもよい。
本発明の原理に従う1つの実装例では、Cognitec Systems社、Neven Vision社、Identix社、Acsys Biometrics’FRS Discovery社から入手可能なソフトウェアから得られるか、これらのソフトウェアと類似しているかの少なくともいずれかの顔認識ソフトウェアを用いて、顔の認識を行うようにしてもよい。
さらに図4に示すように、画像/ビデオ110の顔の認識結果410をディスプレイ400上に示してもよい。結果410は画像/ビデオ110に示されている顔に一致する(単複の)人物のリストを含んでもよい。例えば、1つの実装例では、結果410は、「有名人No1」420及び(人物420が画像/ビデオ110と一致する可能性98%のような)人物420に一致する近似度の表示を含んでもよい。結果410はまた、画像/ビデオ110を人物420の所定の画像と比較するための画像430(この画像430は画像/ビデオ110と同じであってもよいし、そうでなくてもよい)を含んでもよい。結果410は種々の方法で並べてもよい。例えば、1つの実装例では、図4Aに示すように、結果410は、最も近い一致から、(50%のような)所定のパーセントの範囲内で一致する人物までの一致する人物のリストを降順に提示してもよい。ユーザは、結果410から人物を選択して、選択された人物に関する識別情報を表示してもよい。例えば、1つの実装例では、(人物420のような)各人物と個々の画像430との少なくともいずれかは人物に関する識別情報へのリンクを提供してもよい。
ユーザが上記結果から人物を選択した(例えば人物420を選択した)場合、ディスプレイ400は図4Bに示す例示の識別情報を提示してもよい。多岐にわたる識別情報を提供してもよい。例えば、人物が映画スターであれば、ディスプレイ400はメニュー部分440及び識別情報部分450を提示してもよい。メニュー部分440は、例えば、識別情報部分の複数の部分450に関係する、(「経歴」、「映画界での経歴」、「TV界での経歴」、「ウェブサイト」と「リマインダー」のうちの少なくともいずれかのような)選択可能なリンクを含むものであってもよい。実装例において、図4Bに示す、識別情報部分450は、(「経歴」の見出しの下にあるような)当該人物に関する経歴情報、(「映画界での経歴」の見出しの下にあるような)当該人物に関する映画界での経歴情報、(「TV界での経歴」の見出しの下にあるような)当該人物に関するテレビ界での経歴情報、(「ウェブサイト」の見出しの下にあるような)当該人物に関するウェブサイト情報、(「リマインダー」の見出しの下にあるような)リマインダー(注目)情報のうちの少なくともいずれかの情報を含むものであってもよい。リマインダー情報は(アイコン、リンク、ボタン、他の同様の選択メカニズムのうちの少なくともいずれかのような)リマインダー項目460を含むものであってもよい。この選択メカニズムによって、ユーザは、選択時に、この人物が今夜テレビに出演する旨のリマインダー事項を設定してもよい。
図4Aは、本発明の原理に従う1つの実装例において単一の人物の顔をマークする処理を示す図ではあるが、複数の人物、場所又は物体を同様に識別用としてマークしてもよい。したがって、マークされた人物、場所、又は物体のそれぞれに対して識別情報を表示してもよい。さらに、ユーザは画像又はビデオの顔をマークする必要はなく、代わりに、1つの実装例では、顔認識項目140の選択の際に、画像又はビデオの顔を(例えば顔認識ソフトウェアによって)画像又はビデオに自動的に配置してもよい。
図4Bは例示の識別情報を示すものではあるが、識別されたメディアに応じて多少の識別情報を提供してもよい。例えば、識別された人物がミュージシャンである場合、識別情報は、アルバム情報、音楽用ビデオ情報、音楽ダウンロード情報、(ミュージシャンから入手可能な別の歌、ビデオのような)推奨情報などを含んでもよい。図4Bはさらにメニュー部分440を示すものではあるが、ディスプレイ400にはこのようなメニュー部分が含まれずに、(識別情報部分450のような)識別情報を提供する場合もある。
(オーディオ部分の音声認識)
図5Aに示すように、(装置200のディスプレイ230のような)装置のディスプレイ500が(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)オーディオファイル項目150を表示するか、(装置200のような)装置がオーディオファイル項目150に関連づけられたオーディオファイルを再生するかの少なくともいずれかを行ってもよい。ユーザは、ディスプレイ500に提示される(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)音声認識項目160を選択し、次いで、オーディオファイルの音声認識を行ってもよい。1つの実装例では、(例えば装置200の処理ロジック310と記憶部320とを介して)装置に設けられた音声認識ソフトウェアによってオーディオファイルに対する音声認識を行ってもよい。別の実装構成では、(例えば通信インタフェース340を介して)装置200と通信を行う装置に設けられた音声認識ソフトウェアによってオーディオファイルに対する音声認識を行ってもよい。
図5Aに示すように、(装置200のディスプレイ230のような)装置のディスプレイ500が(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)オーディオファイル項目150を表示するか、(装置200のような)装置がオーディオファイル項目150に関連づけられたオーディオファイルを再生するかの少なくともいずれかを行ってもよい。ユーザは、ディスプレイ500に提示される(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)音声認識項目160を選択し、次いで、オーディオファイルの音声認識を行ってもよい。1つの実装例では、(例えば装置200の処理ロジック310と記憶部320とを介して)装置に設けられた音声認識ソフトウェアによってオーディオファイルに対する音声認識を行ってもよい。別の実装構成では、(例えば通信インタフェース340を介して)装置200と通信を行う装置に設けられた音声認識ソフトウェアによってオーディオファイルに対する音声認識を行ってもよい。
音声認識ソフトウェアは利用可能な従来方式の任意の音声認識ソフトウェアを含むものであってもよい。例えば、音声認識ソフトウェアは、人の音声から人を認識することが可能な何らかのソフトウェアを含むものであってもよい。音声認識ソフトウェアは音声から得られる特徴を抽出し、これらの特徴をモデル化し、該特徴を用いてユーザの音声から人物を認識してもよい。音声認識ソフトウェアは、個人によって異なることが知られている音声のオーディオ的特徴を用いてもよい。これらのオーディオパターンは、(喉の大きさ及び形状のような)骨格及び(声のピッチと話し方のような)学習された行動パターンの双方を反映してもよい。(「声紋」のような)音声テンプレートの中へ学習されたパターンを組み込むことにより、音声認識において「行動バイオメトリック」という分類が行われるようになった。音声認識ソフトウェアは、3つのスタイルの音声入力、すなわち文脈依存型入力と、テキストプロンプト型(text-prompted)入力と、文脈非依存型入力とのうちの少なくともいずれかの入力を採用してもよい。文脈依存型入力は、パターン認識技術を用いて話し言葉を有効コードのデータベースの話し言葉に照合する処理に関係してもよい。テキストプロンプト型入力は、システムが用いられる度に新しいキーセンテンスをユーザにプロンプトで示し、そのユーザがプロンプトされた文を反復したことのある登録済みの話者であることがシステムにより判定された場合にのみ入力された発声を受け付ける処理に関係してもよい。文脈非依存型入力は、音声の前処理を行い、特徴を抽出し、パターン認識を用いて、特定の音声の特徴を、データベースに記憶されているテンプレートの音声と照合して、話者の識別を行う処理に関係してもよい。隠れマルコフモデル、パターンマッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、デシジョンツリーのうちの少なくともいずれかを含む種々の技術を用いて、処理を行い、声紋を記憶してもよい。
本発明の原理に従う1つの実装例では、Gold Systems社、PIKA Technologies社、RightNow Technologies社、SearchCRM社、SpeechPhone LLCgold社のうちの少なくともいずれかから入手可能なソフトウェアから得られる音声認識ソフトウェアか、上記各社のソフトウェアと類似している音声認識ソフトウェアかの少なくともいずれかを用いて音声の認識を行ってもよい。
図5はオーディオファイルに対して実行される音声の認識を示す図ではあるが、本発明の原理に従う1つの実装例では、(装置200のような)装置によって表示されているビデオによって生成されるオーディオ部分に対して音声の認識を行ってもよい。例えば、ユーザが装置200で映画を観る場合、ユーザは音声認識項目160を選択して、映画の中の音声に対して音声認識を行ってもよい。
さらに図5に示すように、音声の認識結果510をディスプレイ500上に提示してもよい。結果510はオーディオファイルの音声(又はビデオ内のオーディオ部分)に一致する(単複の)人物のリストを含んでもよい。例えば、1つの実装例では、結果510は、「有名人No1」520及び(人物520の声がオーディオファイル又はビデオ内のオーディオ部分に一致する確度98%のような)人物520の声に一致する近似度の表示を含んでもよい。結果510はまた、オーディオファイル(又はビデオ内のオーディオ部分)に一致してもよい声を持つ人物520の画像530を含んでもよい。結果510は種々の方法で並べてもよい。例えば、1つの実装例では、図5Aに示すように、結果510は、最も近い一致から、(50%のような)所定のパーセントの範囲内で一致する人物までの一致する人物のリストを降順に提示してもよい。ユーザは、結果510から人物を選択して、選択された人物に関する識別情報を表示してもよい。例えば、1つの実装例では、(人物520のような)各人物と個々の画像530との少なくともいずれかによって、人物に関する識別情報へのリンクを提供してもよい。
オーディオファイル(又はビデオ内のオーディオ部分)を種々の方法で人物と照合してもよい。例えば、1つの実装例では、音声認識ソフトウェアはオーディオファイル内の音声から得られる特徴を抽出し、これらの特徴をモデル化し、該特徴を用いてユーザの音声から(単複の)人物を認識してもよい。別の実装構成では、音声認識ソフトウェアは、オーディオファイル内の話された語(又はオーディオファイルによって再生される音楽)を比較し、次いで、これらの話された語(又は音楽)を(映画、音楽ファイルなどから得られる有名な台詞のような)このような語を含むデータベースと比較してもよい。さらに別の実装構成では、音声認識ソフトウェアは前述の技術の組み合わせを用いて、オーディオファイルを人物と照合してもよい。
ユーザが上記結果から人物を選択した(例えば人物520を選択した)場合、ディスプレイ500は図5Bに示す例示の識別情報を提供してもよい。多岐にわたる識別情報を提供するようにしてもよい。例えば、人物が映画スターであれば、ディスプレイ500によってメニュー部分540及び識別情報部分550を提示してもよい。メニュー部分540は、例えば、識別情報部分の複数の部分550に関係する、(「映画の台詞」、「経歴」、「映画界での経歴」、「TV界での経歴」、「ウェブサイト」と「リマインダー」のうちの少なくともいずれかのような)選択可能なリンクを含むものであってもよい。実装例において、図5Bに示す、識別情報部分550は、(「映画の台詞」の見出しの下にあるような)映画の台詞情報560、(「経歴」の見出しの下にあるような)台詞を言った人物に関する経歴情報、(「映画界での経歴」の見出しの下にあるような)人物に関する映画界での経歴情報、(「TV界での経歴」の見出しの下にあるような)人物に関するテレビ界での経歴情報、(「ウェブサイト」の見出しの下にあるような)当該人物に関するウェブサイト情報、(「リマインダー」の見出しの下にあるような)リマインダー情報のうちの少なくともいずれかの情報を含むものであってもよい。映画の台詞情報560は、例えば、映画の題名及び、音声認識ソフトウェアによって認識された映画の台詞を提供してもよい。リマインダー情報は(アイコン、リンク、ボタン、他の同様の選択メカニズムのうちの少なくともいずれかのような)リマインダー項目570を含むものであってもよい。この選択メカニズムによって、ユーザは、選択時に、この人物が今夜テレビに出演する旨のリマインダー事項を設定してもよい。図5Bはさらにメニュー部分540を示すものではあるが、ディスプレイ500がこのようなメニュー部分を含まず、(識別情報部分550のような)識別情報を提示する場合もある。
図5Bは例示の識別情報を示すものではあるが、識別されたメディアに応じて多少の識別情報を提供してもよい。例えば、(人物520のような)人物がミュージシャンである場合、図5Cに示すような1つの実装例では、識別情報はそのミュージシャンに関係する情報を含んでもよい。図5Cに示すように、ディスプレイ500はメニュー部分580と識別情報部分590とを提供してもよい。メニュー部分580は、例えば、識別情報部分の複数部分590とつながる(「ソング名」、「経歴」、「アルバム」、「ビデオダウンロード」、「リマインダー」のうちの少なくともいずれかのような)選択可能なリンクを含んでもよい。図5Cに示す実装例において、識別情報部分590は、(「ソング名」の見出しの下にあるような)ソング名情報、(「経歴」の見出しの下にあるような)ミュージシャンに関する経歴情報)、(「アルバム」の見出しの下にあるような)ミュージシャンに関するアルバム情報)、(「ビデオ」の見出しの下にあるような)ミュージシャンに関するビデオ情報、(「ダウンロード」の見出しの下にあるような)ミュージシャンに関連する入手可能なダウンロード可能な情報、(「リマインダー」の見出しの下にあるような)リマインダー情報のうちの少なくともいずれかを含んでもよい。リマインダー情報は(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)リマインダー項目570を含んでもよい。この選択メカニズムによって、ユーザは、選択時に、この人物が今夜テレビに出演する旨のリマインダー事項を設定してもよい。図5Cはさらにメニュー部分580を示すものではあるが、ディスプレイ500にはこのようなメニュー部分が含まれずに、(識別情報部分590のような)識別情報を提供してもよい。
(装置によってキャプチャされる画像/ビデオ/オーディオの顔の認識と音声の認識の少なくともいずれかの認識)
1つの実装例では、図4A〜図5Cに図示のように、(装置200のような)装置を表示するか、装置200に記憶されている、装置200によってアクセス可能な別の装置に記憶されているか、装置200へダウンロードされるかの少なくともいずれかのメディアを再生するかの少なくともいずれかを行ってもよい。例えば、1つの実装例では、装置200はメディアを記憶部320に記憶し、その後、メディアの再生を行ってもよい。別の実装構成では、装置200は別の装置と接続してもよい(コンピュータはDVDプレーヤと接続し、相手方の装置に記憶されているもう一方のメディアを再生してもよい)。さらに別の実装構成では、装置200は、(例えばインターネットから)メディアをダウンロードし、次いで、装置200上でメディアを再生してもよい。ダウンロードされたメディアは装置200の記憶部320に記憶されてもよいし、そうでなくてもよい。
1つの実装例では、図4A〜図5Cに図示のように、(装置200のような)装置を表示するか、装置200に記憶されている、装置200によってアクセス可能な別の装置に記憶されているか、装置200へダウンロードされるかの少なくともいずれかのメディアを再生するかの少なくともいずれかを行ってもよい。例えば、1つの実装例では、装置200はメディアを記憶部320に記憶し、その後、メディアの再生を行ってもよい。別の実装構成では、装置200は別の装置と接続してもよい(コンピュータはDVDプレーヤと接続し、相手方の装置に記憶されているもう一方のメディアを再生してもよい)。さらに別の実装構成では、装置200は、(例えばインターネットから)メディアをダウンロードし、次いで、装置200上でメディアを再生してもよい。ダウンロードされたメディアは装置200の記憶部320に記憶されてもよいし、そうでなくてもよい。
別の実装構成では、図6A及び6Bに示すように、(装置200のような)装置はメディアをキャプチャし、メディアに関する識別情報の照合結果を表示するためにメディア上の顔と音声の少なくともいずれかの認識を行ってもよい。例えば、図6Aに示すように、(装置200のディスプレイ230のような)装置のディスプレイ600は、写真を撮影するか、ビデオを録画するかの少なくともいずれかを行うための(カメラ270のような)メカニズムを提供してもよい。ディスプレイ600は(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)カメラ項目620を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、(例えば、装置200のカメラ270を介するような)装置200を用いて(写真のような)画像610をキャプチャすることが可能となるようにしてもよい。ディスプレイ600は(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)ビデオ項目630を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、(例えば、装置200のカメラ270を介するような)装置200を用いて(映画のような)ビデオをキャプチャすることが可能となるようにしてもよい。ディスプレイ600はまた、装置200によってキャプチャすることができる画像とビデオの少なくともいずれかをユーザが拡大できるようにしてもよいオプションのメカニズム640を含んでもよい。
図6Aにさらに示すように、ディスプレイ600(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔マーク項目120を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、(例えば1つの実装例ではカーソル130によって)画像610の顔の一部をマークすることが可能となるようにしてもよい。カーソル130で顔をマークする場合、ユーザは、ディスプレイ600上に提示される(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔認識項目140を選択し、図4A及び4Bに関連して上述したように画像610の顔の認識を行ってもよい。
図6Bに示すように、ユーザはビデオ項目630を選択し、(例えば装置200のカメラ270を介して)装置200によってビデオ650をキャプチャしてもよい。ユーザは、(制御ボタン240とキーパッドのキー250の少なくともいずれかのような)装置200の入力メカニズムの選択の際に、(ポーズ(一時停止)テキスト660によって示されるような)ビデオ650のポーズを行ってもよい。ビデオ650がポーズされた場合、ユーザは顔マーク項目120を選択してもよい。この顔マーク項目120によって、ユーザは(例えば、1つの実装例ではボックス670によって)ビデオ650の顔の一部をマークすることができるようになってもよい。ビデオ内のポーズされたフレームをマークするか、マークすべきビデオのフレームの位置を発見するために後方か前方かの少なくともいずれかの方向へユーザがビデオをサーチするかの少なくともいずれかを行ってもよい。顔がボックス670によってマークされた場合、ユーザは、ディスプレイ600上に提示される(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔認識項目140を選択し、次いで、図4A及び図4Bに関連して上述したようにビデオ650の顔の認識を行ってもよい。別の実装例では、ビデオ650をそのまま再生しながら(すなわち、ビデオ650をポーズすることなく)ビデオ650内の人物の顔をマークしてもよい。さらなる態様で、又は、上記とは別の態様での少なくともいずれかの態様で、ビデオ650をそのまま再生しながらユーザは音声認識項目160を選択し、図5A〜5Cに関連して上述したようにビデオ650のオーディオ部分の音声認識を行ってもよい。
さらに別の実装構成では、ユーザは、ビデオ650をそのまま再生しながら(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔/音声の認識項目680を選択し、ビデオ650の顔の認識と、ビデオ650のオーディオ部分の音声認識との少なくともいずれかを実行してもよい。例えば、ビデオ650の顔の認識と音声認識の組み合わせは同時に実行してもよい。上記とは別に、ビデオ650の顔の認識を第1に実行してよいと共に、顔の認識が決定的な一致を提供しなかった場合、ビデオ650のオーディオ部分の音声認識を第2に実行してもよい(例えば、音声認識を行う前に所定の精度レベルを設定するようにしてもよい)。さらに別の例では、ビデオ650のオーディオ部分の音声認識を第1に実行し、次いで、音声認識が決定的な一致を提供しなかった場合、ビデオ650の顔の認識を第2に実行してもよい(例えば、顔の認識を行う前に所定の精度レベルを設定するようにしてもよい)。
図6A及び図6Bは画像とビデオの少なくともいずれかを装置によってキャプチャする処理を示す図ではあるが、この装置はまた、(例えば装置200のマイク260を介して)オーディオ部分をキャプチャしてもよい。キャプチャされたオーディオ部分は装置200に(例えば記憶部320に)記憶してもよいし、しなくてもよい。図5A〜図5Cに関連して上述したキャプチャされたオーディオ部分に対して音声認識を行ってもよい。
1つの実装例では、装置200のユーザはメディアを装置200に表示する方法を制御してもよい。例えば、装置200は(例えば制御ボタン240とキーパッドのキー250との少なくともいずれかのような)ユーザがメディアの任意の部分のズームインとズームアウトを行うことを可能にする、ユーザにより制御されるメディアスケーリングメカニズムを含むものであってもよい。図4A〜図6Bに関連して上述した方法のうちのいずれかの方法を用いてユーザ制御によるズーム機能を利用してもよい。装置200は、(装置200のスピーカ220でのオーディオ再生のような)ユーザによるメディアの開始及び停止を可能にしてもよい(制御ボタン240とキーパッドのキー250との少なくともいずれかのような)ユーザ制御によるメディア制御メカニズムをさらに含むものであってもよい。
図4A〜図6Cに関連して上述した例示のメディア識別方法は様々なシナリオにおいて適用してもよい。以下のシナリオは、本発明の側面を実現するためのいくつかの例示の方法を提供するものである。
(人物の識別)
1つの実装例では、(有名人、ミュージシャン、歌手、映画スター、運動選手、友人、及び、メディアから識別できる任意の人物のうちの少なくともいずれかの)人物を上述の例示のメディア識別方法によって識別してもよい。例えば、映画スターは装置200に表示されている映画に出演しているスターであってもよく、ユーザは、映画スターの名前と、その映画スターが別のどの映画に出演しているかの少なくともいずれかを知りたいと思う場合がある。ユーザは(例えば映画を介して)映画に出ている顔と音の少なくともいずれかの認識を行って、映画スターを識別し、次いで、(この映画スターが出演している別の映画のような)当該映画スターに関する別の識別情報を見つけてもよい。
1つの実装例では、(有名人、ミュージシャン、歌手、映画スター、運動選手、友人、及び、メディアから識別できる任意の人物のうちの少なくともいずれかの)人物を上述の例示のメディア識別方法によって識別してもよい。例えば、映画スターは装置200に表示されている映画に出演しているスターであってもよく、ユーザは、映画スターの名前と、その映画スターが別のどの映画に出演しているかの少なくともいずれかを知りたいと思う場合がある。ユーザは(例えば映画を介して)映画に出ている顔と音の少なくともいずれかの認識を行って、映画スターを識別し、次いで、(この映画スターが出演している別の映画のような)当該映画スターに関する別の識別情報を見つけてもよい。
別の例では、歌手又はミュージシャンが、装置200に表示されている音楽用ビデオと、装置200で再生されている歌との少なくともいずれかに出演していて、ユーザは歌手/ミュージシャンの名前と歌の名称の少なくともいずれかを知りたいと思う場合がある。ユーザは(例えば音楽用ビデオの中の歌手/ミュージシャンの顔に対する)顔の認識と、(例えば音楽用ビデオと歌の少なくともいずれかのオーディオ部分に対する)音声認識との少なくともいずれかの認識を行って、このような識別情報を発見してもよい。
さらに別の例では、ユーザは、映画のライブラリと、音楽用ビデオと、音楽との少なくともいずれかを装置200上に有している場合がある。そして、ユーザが有名人を識別すると、装置200は、有名人を含む可能性があるライブラリ内の映画と、音楽用ビデオと、音楽とのうちの少なくともいずれかへのリンクを提供してもよい。
別の例では、識別情報は(単複の)電話番号と(単複の)住所の少なくともいずれかを含む場合がある。そして、装置200は(ユーザの友人のような)人物の画像を表示してもよい。ユーザが画像のうちの1つを選択すると、装置200はその画像を、画像内の人物の(単複の)電話番号と(単複の)住所との少なくともいずれかと照合し、次いで、このような情報をユーザに対して表示することがきる。装置200は画像内の人物の電話番号に自動的にダイアルするようにプログラムしてもよい。
さらに別の例では、(顔の情報と音声の情報の少なくともいずれかの情報のような)バイオメトリック情報が装置200によって利用できる限り、上述の例示のメディア識別方法は有名人以外の人々に対しても用いてもよい。例えば、人が(犯罪者記録、パスポートなどからの)入手可能な顔の情報を有していて、装置200がこのような情報にアクセスしてもよいならば、装置200は、例示のメディア識別方法を用いてこのような人物を識別してもよい。このような構成装置によって、単に人物の画像をキャプチャすると共に、その画像を利用可能なバイオメトリック情報と比較することによって、犯罪者、テロリストなどを公の場所において識別したいという人々の願いを実現することを可能にしてもよい。これによって、市民による識別がサポートされ、周知の犯罪者、テロリスト、などの捕捉を可能にしてもよい。
(場所の識別)
1つの実装例では、(建物、陸標、道路、橋と任意の場所とのうちの少なくともいずれかとしてメディアから識別できる)場所を上述の例示のメディア識別方法により識別してもよい。例えば、装置200のユーザが都市のあちこちを巡っているとき道順を見つけようとしている場合がある。ユーザは装置200を用いて画像又は建物のビデオをキャプチャしてもよい。そして、装置200は上述の例示のメディア識別方法によって建物を識別してもよい(例えばキャプチャした画像を装置200によってアクセス可能なデータベース内の建物の画像と比較してもよい)。建物の識別によって都市における現在の所在位置がユーザに提供されて、ユーザは都市巡りの際に道順を見つけてもよい。実装例では、装置200によって、識別された建物に基づいて現在の所在位置を示す地図がユーザに表示されるか、(例えば、都市におけるホテルのような)ユーザの行先の画像が提供されるかの少なくともいずれかを行ってもよい。
1つの実装例では、(建物、陸標、道路、橋と任意の場所とのうちの少なくともいずれかとしてメディアから識別できる)場所を上述の例示のメディア識別方法により識別してもよい。例えば、装置200のユーザが都市のあちこちを巡っているとき道順を見つけようとしている場合がある。ユーザは装置200を用いて画像又は建物のビデオをキャプチャしてもよい。そして、装置200は上述の例示のメディア識別方法によって建物を識別してもよい(例えばキャプチャした画像を装置200によってアクセス可能なデータベース内の建物の画像と比較してもよい)。建物の識別によって都市における現在の所在位置がユーザに提供されて、ユーザは都市巡りの際に道順を見つけてもよい。実装例では、装置200によって、識別された建物に基づいて現在の所在位置を示す地図がユーザに表示されるか、(例えば、都市におけるホテルのような)ユーザの行先の画像が提供されるかの少なくともいずれかを行ってもよい。
別の例では、ユーザはエリア内の陸標を識別しようとしている場合がある。ユーザは、装置200を用いて陸標と思われるものの画像又はビデオを取得してよく、そして、装置200は、上述の例示のメディア識別方法によって陸標を識別してよい(例えばキャプチャした画像を装置200によってアクセス可能なデータベース内の陸標の画像と比較してもよい)。装置200はまた、装置200によって現在識別された陸標の近くに所在位置が突き止められた別の陸標への方向を提供してもよい。
さらに別の例では、ユーザは、(葉書などに記された)陸標の画像を装置200によってキャプチャすることによって方向を取得してもよい。そして、装置200は、上述の例示のメディア識別方法によって陸標の所在位置を識別してもよい(例えばキャプチャした画像を装置200によってアクセス可能なデータベース内の陸標の画像と比較してもよい)。
さらに別の例では、ユーザは(単複の)道路標識の画像又はビデオをキャプチャすることによって方向を取得することができてよい。そして、装置200は、上述の例示のメディア識別方法によって道路標識の所在位置を識別してもよい(例えばキャプチャした画像を装置200によってアクセス可能なデータベース内の街路の名称の画像と比較してもよい)。装置200はまた識別された街路を取り囲む街路、建物、陸標などを示す地図を提供してもよい。
場所の識別は、(装置200に設けられているような)GPS装置と組み合わされて機能し、装置200の或る所在位置を提供してもよい。例えば、多数の「ファースト・ストリート」が存在する場合がある。ユーザがどの「ファースト・ストリート」の近くにいるかを判断するために、メディア識別とGPS装置との組み合わせによって、GPS信号に基づいて「ファースト・ストリート」の(町、都市のような)場所をユーザが適切に識別できるようにしてもよい。
このような場所識別技術は、顔の認識の代わりに、「画像/ビデオ認識」を利用してもよい(例えば場所のキャプチャされた画像とビデオの少なくともいずれかを、装置200によってアクセス可能なデータベースに含まれている画像とビデオの少なくともいずれかと比較してもよい)。しかし、本明細書で使用されているように、「顔認識」は「画像/ビデオ認識」のサブセットと見なしてもよい。
(物体の識別)
1つの実装例では、(動物、印刷メディア、漫画のキャラクタ、映画のキャラクタ、植物、樹木、及びメディアから識別することができる任意の「物体」のうちの少なくともいずれかのような)物体を上述した例示のメディア識別方法によって識別してもよい。例えば、装置200のユーザが荒野にいて、ユーザが識別したい思う動物を見かける場合がある。ユーザは動物の画像と、ビデオと、動物の出す声のうちの少なくともいずれかを装置200を用いてキャプチャしてもよい。そして、装置200は上述の例示のメディア識別方法によって動物を識別してもよい(例えばキャプチャされた画像と、ビデオと、動物の出す声のうちの少なくともいずれかを、装置200によってアクセス可能なデータベース内の動物の画像と動物の出す声の少なくともいずれかと比較してもよい)。動物の識別によって、ユーザは危険な動物に近づきすぎないようにするか、(バードウォッチャのような)動物観察者や科学の教師が荒野の未知の動物を識別するのに役立つかの少なくともいずれかを行うことができようにしてもよい。
1つの実装例では、(動物、印刷メディア、漫画のキャラクタ、映画のキャラクタ、植物、樹木、及びメディアから識別することができる任意の「物体」のうちの少なくともいずれかのような)物体を上述した例示のメディア識別方法によって識別してもよい。例えば、装置200のユーザが荒野にいて、ユーザが識別したい思う動物を見かける場合がある。ユーザは動物の画像と、ビデオと、動物の出す声のうちの少なくともいずれかを装置200を用いてキャプチャしてもよい。そして、装置200は上述の例示のメディア識別方法によって動物を識別してもよい(例えばキャプチャされた画像と、ビデオと、動物の出す声のうちの少なくともいずれかを、装置200によってアクセス可能なデータベース内の動物の画像と動物の出す声の少なくともいずれかと比較してもよい)。動物の識別によって、ユーザは危険な動物に近づきすぎないようにするか、(バードウォッチャのような)動物観察者や科学の教師が荒野の未知の動物を識別するのに役立つかの少なくともいずれかを行うことができようにしてもよい。
別の例では、装置200のユーザは、(例えば科学的目的のために、あるいは、教育的目的のために植物がツタウルシであるかどうかの判定を行うような)植物の識別を行いたいと思う場合がある。ユーザは植物の画像とビデオの少なくともいずれかを装置200によってキャプチャしてもよい。そして、装置200は上述の例示のメディア識別方法によってその植物を識別してもよい(例えば画像とビデオの少なくともいずれかを、装置200によってアクセス可能なデータベース内の植物の画像と比較してもよい)。
別の例では、装置200のユーザが漫画を観ていて、漫画のキャラクタを識別したいと思う場合がある。ユーザは(例えば漫画を介して)顔と音声の少なくともいずれかの認識を漫画に対して行って、漫画のキャラクタを識別し、次いで、漫画のキャラクタに関する(キャラクタを含む別の漫画のような)別の識別情報の所在位置を発見してもよい。
このような物体識別技術は、顔の認識の代わりに、(物体のキャプチャ済みの画像とビデオの少なくともいずれかを、装置200によってアクセス可能なデータベースの中に含まれている画像とビデオの少なくともいずれかと比較してもよい)「画像/ビデオ認識」を利用してもよい。しかし、本明細書で使用されているように、「顔認識」は「画像/ビデオ認識」のサブセットと考えてもよい。さらに、このような物体識別技術は、音声の認識の代わりに、「オーディオ認識」を利用してもよい(例えば、物体のキャプチャされたオーディオ部分を、装置200によってアクセス可能なデータベースの中に含まれているオーディオ部分と比較してもよい)。しかし、本明細書で使用されているように、「音声認識」は「オーディオ認識」のサブセットと考えてもよい。
(代替/追加技術)
上述の顔の認識、音声の認識、画像/ビデオ認識、オーディオ認識のうちの少なくともいずれかの認識を別の技術と組み合わせて、メディアの識別を行ってもよい。例えば、1つの実装例では、メディアの再生と表示の少なくともいずれかを行いながら、認識技術のうちのいずれかをバックグラウンドで自動的に実行してもよい。例えば、顔の認識と音声の認識の少なくともいずれかを、映画を再生しながらバックグラウンドで自動的に実行するか、(例えば映画の中の俳優、女優のような)メディアのオブジェクトを識別するかの少なくともいずれかを行ってもよい。これによって、認識技術が、(俳優の最もよい顔のショットのような)顔の認識と音声の認識の少なくともいずれかの認識にとって理想的な選択を映画の中で行うことを可能になり、識別方法の改善を図ることが可能となるようにしてもよい。
上述の顔の認識、音声の認識、画像/ビデオ認識、オーディオ認識のうちの少なくともいずれかの認識を別の技術と組み合わせて、メディアの識別を行ってもよい。例えば、1つの実装例では、メディアの再生と表示の少なくともいずれかを行いながら、認識技術のうちのいずれかをバックグラウンドで自動的に実行してもよい。例えば、顔の認識と音声の認識の少なくともいずれかを、映画を再生しながらバックグラウンドで自動的に実行するか、(例えば映画の中の俳優、女優のような)メディアのオブジェクトを識別するかの少なくともいずれかを行ってもよい。これによって、認識技術が、(俳優の最もよい顔のショットのような)顔の認識と音声の認識の少なくともいずれかの認識にとって理想的な選択を映画の中で行うことを可能になり、識別方法の改善を図ることが可能となるようにしてもよい。
別の実装構成では、(映画、ビデオ、歌などを識別するタグのような)メディアの形で提供される(テーマ又はカテゴリのように機能するキーワードのような)タグを認識技術のうちのいずれかと共に用いてもよい。このようなタグはメディアの識別を探索する対象範囲を狭めるのに役立ててもよい。例えば、テレビの番組ガイドにこのようなタグを提供してよく、メディアの識別を探索する対象範囲を狭めるのに用いてもよい。別の例では、メディアが識別されるとすぐに、メディアに関する識別情報にタグを追加してもよい。
さらに別の実装構成では、画像/ビデオ認識を用いて(例えば、書籍、雑誌のような)印刷メディアのテキストを走査してもよい。キャプチャされた画像とビデオの少なくともいずれかの光学式文字認識(OCR)によって印刷メディアを識別してもよい。例えば、キャプチャされたテキスト画像をOCRによって認識してもよく、テキストデータベースと比較して、キャプチャされたテキストがテキストデータベースの中に現れるかどうかを調べてもよい。
<<例示処理>>
図7A〜図8は本発明の原理に従う実装構成に従う例示処理を示すフローチャートである。図7Aの処理は、一般に、記憶済みメディアの識別処理として記述してもよい。図7Bの処理は、一般に、顔の認識に基づく記憶済みメディアの識別処理として記述してもよい。図7Cの処理は、一般に、音声の認識に基づく記憶済みメディアの識別処理として記述してもよい。図8の処理は、一般に、顔の認識と音声の認識の少なくともいずれかの認識に基づく、キャプチャ済みメディアの識別処理として記述してもよい。
図7A〜図8は本発明の原理に従う実装構成に従う例示処理を示すフローチャートである。図7Aの処理は、一般に、記憶済みメディアの識別処理として記述してもよい。図7Bの処理は、一般に、顔の認識に基づく記憶済みメディアの識別処理として記述してもよい。図7Cの処理は、一般に、音声の認識に基づく記憶済みメディアの識別処理として記述してもよい。図8の処理は、一般に、顔の認識と音声の認識の少なくともいずれかの認識に基づく、キャプチャ済みメディアの識別処理として記述してもよい。
(記憶済みメディアの識別処理)
図7に示すように、処理700はメディア情報を取得してもよい(ブロック705)。例えば、図3に関連して上述した1つの実装例では、メディア情報は装置200に記憶された又は(例えば通信インタフェース340のような)装置200によって受信されたメディアに対応してもよい。この場合、メディア情報収集部360は、(記憶部320のような)メディア記憶装置、又は、別のソースからメディアを受信する能力を備えた(通信インタフェース340のような)通信装置を含むものであってもよい。
図7に示すように、処理700はメディア情報を取得してもよい(ブロック705)。例えば、図3に関連して上述した1つの実装例では、メディア情報は装置200に記憶された又は(例えば通信インタフェース340のような)装置200によって受信されたメディアに対応してもよい。この場合、メディア情報収集部360は、(記憶部320のような)メディア記憶装置、又は、別のソースからメディアを受信する能力を備えた(通信インタフェース340のような)通信装置を含むものであってもよい。
図7に示すように、処理700は画像又はビデオがメディアとして選択されたかどうかの判定を行ってもよい(ブロック710)。画像又はビデオが選択された場合(ブロック710「イエス」)、図7Bのブロックを実行してもよい。例えば、図1に関連して上述した1つの実装例では、装置のディスプレイ100はユーザによって選択された画像/ビデオ110を含んでもよい。例えば、画像/ビデオ110はユーザによって選択され、現在ディスプレイ100に表示されている映画又は音楽用ビデオであってもよい。
画像又はビデオが選択されなければ(ブロック710「ノー」)、処理700はオーディオファイルがメディアとして選択されているかどうかの判定を行ってもよい(ブロック715)。オーディオファイルが選択されていれば(ブロック715「イエス」)、図7Cのブロックを実行してもよい。例えば、図1に関連して上述した1つの実装例では、ディスプレイ100は(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)オーディオファイル項目150を含むものであってもよい。ユーザがオーディオファイルを聴くとき、このオーディオファイル項目150を表示してもよい。例えば、ユーザは(デジタル音楽、MP3、MP4のような)音楽を装置で聴いてもよい。オーディオファイルが選択されていなかった場合、(ブロック715「ノー」)、処理700は終了してもよい。
(顔の認識に基づいて行う記憶済みメディアの識別処理)
図7Bに示すように、処理700は画像又はビデオの顔をマークすべきかどうかの判定を行ってもよい(ブロック720)。例えば、図1及び図4に関連して上述した1つの実装例では、ディスプレイ100は(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔マーク項目120を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、(例えば、カーソル130によって)画像/ビデオ110の顔の一部をマークすることが可能となるようにしてもよい。顔がマークされれば(ブロック720「イエス」)、処理700は選択した画像又はビデオ内の顔をマークしてもよい(ブロック725)。顔がマークされなければ(ブロック720「ノー」)、処理700は図7Cのブロックを実行してもよい。
図7Bに示すように、処理700は画像又はビデオの顔をマークすべきかどうかの判定を行ってもよい(ブロック720)。例えば、図1及び図4に関連して上述した1つの実装例では、ディスプレイ100は(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔マーク項目120を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、(例えば、カーソル130によって)画像/ビデオ110の顔の一部をマークすることが可能となるようにしてもよい。顔がマークされれば(ブロック720「イエス」)、処理700は選択した画像又はビデオ内の顔をマークしてもよい(ブロック725)。顔がマークされなければ(ブロック720「ノー」)、処理700は図7Cのブロックを実行してもよい。
図7Bに示すように、処理700は顔の認識を行うべきかどうかの判定を行ってもよい(ブロック730)。顔の認識を行わないのであれば(ブロック730「ノー」)、処理700は図7Cのブロックを実行してもよい。顔の認識を行うのであれば(ブロック730「イエス」)、処理700は顔認識の結果を受信し、この結果をユーザに対して表示してもよい(ブロック735)。例えば、図4A及び4Bに関連して上述した1つの実装例では、カーソル130によって顔がマークされた場合、ユーザは、ディスプレイ400に提示される(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)顔認識項目140を選択し、次いで、画像/ビデオ110の顔の認識を行ってもよい。1つの実装例では、顔の認識は(例えば装置200の処理ロジック310及び記憶部320を介して)装置に設けられた顔認識ソフトウェアを用いて画像/ビデオ110上で行ってもよい。別の実装構成では、顔の認識は、装置200と通信を行う装置に設けられた顔認識ソフトウェアを用いて画像/ビデオ110上において行ってもよい(例えば装置200はマークされた顔を別の装置へ送信し、この別の装置は顔の認識を行い、次いで、結果を装置200へ返信するようにしてもよい)。画像/ビデオ110の顔の認識結果410はディスプレイ400上に提示してもよい。結果410は画像/ビデオ110に示される顔に一致する(単複の)人物のリストを含んでもよい。
処理700はユーザが選択した顔の認識結果に基づいて識別情報を表示してもよい(ブロック740)。例えば、図4Bに関連して上述した1つの実装例では、ユーザが上記結果から人物を選択した(例えば人物420を選択した)場合、ディスプレイ400は図4Bに示す例示の識別情報を提示してもよい。多岐にわたる識別情報を提供してもよい。例えば、人物が映画スターであれば、ディスプレイ400はメニュー部分440及び識別情報部分450を提示してもよい。メニュー部分440は、例えば、識別情報部分の複数部分450への選択可能なリンクを含んでもよい。図4Bに示す実装例では、識別情報部分450は、人物に関する経歴情報、人物に関する映画界での経歴情報、人物に関するテレビ界での経歴情報、人物に関するウェブサイト情報、リマインダー情報のうちの少なくともいずれかの情報を含んでもよい。
(音声認識に基づく記憶済みメディアの識別処理)
オーディオファイルが選択された場合(ブロック715「イエス」、図7A)、顔がマークされない(ブロック720「ノー」、図7B)か、顔の認識が行われない(ブロック730「ノー」、図7B)かの少なくともいずれかとなり、処理700は図7Cのブロックを実行してもよい。図7Cに示すように、処理は音声の認識を行うべきかどうかの判定を行ってもよい(ブロック745)。例えば、図5A及び5Bに関連して上述した1つの実装例では、ユーザは、ディスプレイ500に提示される(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)音声認識項目160を選択し、次いで、オーディオファイル又はビデオによって生成されたオーディオ部分の音声認識を行ってもよい。1つの実装例では、音声の認識は、装置に設けられた音声認識ソフトウェアを用いて、(例えば装置200の処理ロジック310及び記憶部320を介して)オーディオファイルに対して行ってもよい。別の実装構成では、(例えば通信インタフェース340を介して)装置200と通信を行う装置に設けられた音声認識ソフトウェアを用いてオーディオファイルに対して音声認識を行ってもよい。ディスプレイ500上に音声の認識結果510を提示してもよい。結果510はオーディオファイルの音声(又はビデオ内のオーディオ部分)に一致する(単複の)人物のリストを含んでもよい。
オーディオファイルが選択された場合(ブロック715「イエス」、図7A)、顔がマークされない(ブロック720「ノー」、図7B)か、顔の認識が行われない(ブロック730「ノー」、図7B)かの少なくともいずれかとなり、処理700は図7Cのブロックを実行してもよい。図7Cに示すように、処理は音声の認識を行うべきかどうかの判定を行ってもよい(ブロック745)。例えば、図5A及び5Bに関連して上述した1つの実装例では、ユーザは、ディスプレイ500に提示される(アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような)音声認識項目160を選択し、次いで、オーディオファイル又はビデオによって生成されたオーディオ部分の音声認識を行ってもよい。1つの実装例では、音声の認識は、装置に設けられた音声認識ソフトウェアを用いて、(例えば装置200の処理ロジック310及び記憶部320を介して)オーディオファイルに対して行ってもよい。別の実装構成では、(例えば通信インタフェース340を介して)装置200と通信を行う装置に設けられた音声認識ソフトウェアを用いてオーディオファイルに対して音声認識を行ってもよい。ディスプレイ500上に音声の認識結果510を提示してもよい。結果510はオーディオファイルの音声(又はビデオ内のオーディオ部分)に一致する(単複の)人物のリストを含んでもよい。
音声の認識が行行われない(ブロック745「ノー」)場合、処理700は終了してもよい。音声の認識が行われる(ブロック745「イエス」)場合、処理700は音声の認識結果を受信し、ユーザに対してこの結果を表示してもよい(ブロック750)。
図7Cにさらに示すように、処理700は、ユーザが選択した音声の認識結果に基づいて識別情報を表示してもよい(ブロック755)。例えば、図5Bに関連して上述した1つの実装例では、ユーザが上記結果から人物を選択した(例えば人物520を選択した)場合、ディスプレイ500は図5Bに示す例示の識別情報を提示してもよい。多岐にわたる識別情報を提供してもよい。人物が映画スターであれば、ディスプレイ500は、メニュー部分540及び識別情報部分550を提供してもよい。メニュー部分540は、例えば、識別情報部分の複数の部分550に関係する、選択可能なリンクを含む場合もある。実装例において、図5Bに示す識別情報部分550は、映画の台詞情報560、台詞を言った人物に関する経歴情報、この人物に関する映画界での経歴情報、該人物に関するテレビ界での経歴情報、当該人物に関するウェブサイト情報、リマインダー情報のうちの少なくともいずれかの情報を含むものであってもよい。
(顔の認識と音声の認識の少なくともいずれかの認識に基づいて行うキャプチャ済みメディアの識別処理)
図8に示すように、処理800はメディア情報を取得してもよい(ブロック810)。例えば、図3に関連して上述した1つの実装例では、メディア情報は装置200によって検索されるか、キャプチャされるメディアに対応してもよい。この場合、メディア情報収集部360は、オーディオ情報を録音してもよい(マイク260のような)マイクと、画像とビデオの少なくともいずれかを録画してもよい(カメラ270のような)カメラとの少なくともいずれかを含むものであってもよい。
図8に示すように、処理800はメディア情報を取得してもよい(ブロック810)。例えば、図3に関連して上述した1つの実装例では、メディア情報は装置200によって検索されるか、キャプチャされるメディアに対応してもよい。この場合、メディア情報収集部360は、オーディオ情報を録音してもよい(マイク260のような)マイクと、画像とビデオの少なくともいずれかを録画してもよい(カメラ270のような)カメラとの少なくともいずれかを含むものであってもよい。
顔の認識と音声の認識がキャプチャされたメディアに対して行われた場合(ブロック820「イエス」)、処理800はキャプチャされたメディアに対する顔と音声との認識結果を得てよく、識別情報の照合結果を表示してもよい(ブロック830)。例えば、図6Bに関連して上述した1つの実装例では、ユーザはビデオ項目630を選択し、次いで、(装置200のカメラ270を介して)装置200を用いてビデオ650をキャプチャしてもよい。ビデオ650がポーズされた場合、ユーザは、ユーザが(例えば1つの実装例では、ボックス670によって)ビデオ650の顔の一部をマークすることができるようにする顔マーク項目120を選択してもよい。顔がマークされれば、ユーザはディスプレイ600上に示される顔認識項目140を選択し、ビデオ650の顔の認識を行わせ、図4A及び4Bに関連して上述したように識別情報の照合結果を表示してもよい。別の実装例では、ビデオ650をそのまま再生しながら(すなわち、ビデオ650をポーズすることなく)ビデオ650の人物の顔をマークしてもよい。さらに、ユーザは、ビデオ650をそのまま再生しながら音声認識項目160を選択し、ビデオ650のオーディオ部分の音声認識を行うと共に、図5A〜5Cに関連して上述したように識別情報の照合結果を表示してもよい。さらに別の実装構成では、ユーザは、ビデオ650をそのまま再生しながら顔/音声の認識項目680を選択し、次いで、ビデオ650の顔の認識と、ビデオ650のオーディオ部分の音声認識との少なくともいずれかの認識を行わせてもよい。ビデオ650の顔と音声の認識の組み合わせは、例えば、同時にあるいは順次行ってもよい。(例えば、顔の認識を第1に実行すると共に、顔の認識が決定的な一致を提供しなかった場合、音声の認識を第2に実行する。この逆の操作を行うことも可能である)。
さらに図8に示すように、キャプチャされたメディアに対して顔の認識と音声の認識を行わないのであれば(ブロック820「ノー」)、処理800は、キャプチャされたメディアに対して顔の認識を行うべきかどうかの判定を行ってもよい(ブロック840)。キャプチャされたメディアに対して顔の認識を行うのであれば(ブロック840「イエス」)、処理800はキャプチャされたメディアに対する顔の認識結果を得てもよく、識別情報の照合結果を表示してもよい(ブロック850)。例えば、図6Aに関連して上述した1つの実装例では、ディスプレイ600は(アイコン、リンク、ボタンと別の同様の選択メカニズムとの少なくともいずれかのような)顔マーク項目120を含んでもよい。この選択メカニズムによって、ユーザが、選択時に(例えば、1つの実装例ではカーソル130を用いて)画像630の顔の一部をマークすることが可能となってもよい。カーソル130で顔をマークする場合、ユーザは、ディスプレイ600上に提示された顔認識項目140を選択し、図4A及び4Bに関連して上述したように画像610の顔の認識を行わせると共に、識別情報の照合結果を表示してもよい。
図8に示すように、キャプチャされたメディアに対して顔の認識が行われなければ(ブロック840「ノー」)、処理800はキャプチャされたメディアに対して音声の認識を行うべきかどうかの判定を行ってもよい(ブロック860)。キャプチャされたメディアに対して音声の認識を行うのであれば(ブロック860「イエス」)、処理800はキャプチャされたメディアに関連する音声の認識結果を得てもよく、そして、識別情報の照合結果を表示してもよい(ブロック870)。例えば、図6A及び6Bに関連して上述した1つの実装例では、(例えば装置200のマイク260を介して)装置はオーディオ部分をキャプチャしてもよい。キャプチャされたオーディオ部分は、(記憶部320のような)装置200に記憶してもよいし、装置200に記憶しなくてもよい。音声の認識はキャプチャされたオーディオ部分に対して行ってもよく、図5A〜5Cに関連して上述したように識別情報の照合結果を表示してもよい。
<<まとめ>>
本発明の原理に従う実装構成によって、メディアを対象とする顔の認識と音声の認識の少なくともいずれかの結果に基づいてメディアを識別してよいと共に、顔の認識と音声の認識の少なくともいずれかの結果に基づいて識別情報を表示してもよい。(画像とビデオの少なくともいずれかにおいて(単複の)人物を識別する顔認識技術と、映画から得られるサウンドバイトの形のオーディオ部分において(単複の)人物の識別を行う音声認識技術との少なくともいずれかの)メディア識別処理を用いることによって、(単複の)人物の識別を行ってよく、(単複の)人物に関する情報を装置に表示してもよい。
本発明の原理に従う実装構成によって、メディアを対象とする顔の認識と音声の認識の少なくともいずれかの結果に基づいてメディアを識別してよいと共に、顔の認識と音声の認識の少なくともいずれかの結果に基づいて識別情報を表示してもよい。(画像とビデオの少なくともいずれかにおいて(単複の)人物を識別する顔認識技術と、映画から得られるサウンドバイトの形のオーディオ部分において(単複の)人物の識別を行う音声認識技術との少なくともいずれかの)メディア識別処理を用いることによって、(単複の)人物の識別を行ってよく、(単複の)人物に関する情報を装置に表示してもよい。
本発明の好適な実施形態についての上述の説明は例示と説明を提供するものであるが、上記説明は、本発明を網羅しようとしたり、開示された厳密な形態に限定しようとしたりすることを意図するものではない。上記教示を考慮して修正及び変更を行うことが可能である。あるいは本発明を実施することによって修正及び変更を行うことが可能である。
例として、図7A〜図8を参照しながら一連の動作について説明したが、別の実施構成において、本発明の原理に従ってこれらの動作の順序を変更することも可能である。さらに、非依存型の動作を並行して実行することも可能である。さらに、上述した実装構成は顔及び音声のバイオメトリックの利用について説明したものではあるが、(指紋、人間の目の網膜及び虹彩、手の計測値、筆跡、歩行パターン、タイピングパターンのような)別のバイオメトリック情報を用いてメディアを識別し、照合する識別情報を提供することも可能である。さらに、図は顔と音声との認識結果を示すものではあるが、1つの実装例では、顔の認識と音声の認識の少なくともいずれかが結果を提供しない代わりに、顔の認識と音声の認識の少なくともいずれかによって得られる最も近い照合結果が得られたメディアに関する識別情報を提供してもよい。
本明細書で使用する場合、「備える/備えている(comprises/comprising)」という用語は、言及された特徴、整数、ステップ又は構成の存在を識別するために用いられるが、これら以外の特徴、整数、ステップ、構成、又はこれらのグループの存在又は追加を排除するものではない、という点を強調しておく。
当業者には自明であるように、本発明の側面は、上述したように多くの異なる形のソフトウェア、ファームウェア、ハードウェアにおいて、また、図示の実装構成において実現することが可能である。本発明の原理に従う側面を実現するために用いられる実際のソフトウェアコード又は特化された制御ハードウェアは本発明を限定するものではない。したがって、具体的なソフトウェアコードに言及することなく、上記側面の処理及び振舞いについて説明を行った。本明細書で説明した記載に基づいて上記側面の実現のためにソフトウェアを設計し、ハードウェアを制御することが可能であることは当業者であれば理解できるであろう。
本明細書での説明において用いられる要素、行為及び指示のいずれも、その旨明示されていないかぎり、本発明にとって極めて重要であるか、不可欠であると解釈すべきでない。また、本明細書で使用されているように、不定冠詞「a」は1つ以上の項目又は品目を含むように意図されている。1つだけの品目であることを意図する場合には、「1つの(one)」又は同様の表現が用いられる。さらに、「〜に基づいて」というフレーズは、別途明白に言明されていないかぎり、本明細書で使用されているように、「〜に少なくとも部分的に基づいて」ということを意味するように意図されたフレーズである。
Claims (28)
- 装置においてメディアを取得するステップと、
画像/ビデオ認識及びオーディオ認識を介して前記メディア内のオブジェクトを識別するステップと、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置上に表示するステップと、
を有することを特徴とする方法。 - 前記装置を介して前記メディアを受信するステップをさらに有することを特徴とする請求項1に記載の方法。
- 前記装置を用いて前記メディアをキャプチャするステップをさらに有することを特徴とする請求項1に記載の方法。
- 前記画像/ビデオ認識が所定の精度レベルの範囲内で前記メディアのオブジェクトを識別できない場合に、オーディオ認識を行うことを特徴とする請求項1に記載の方法。
- 前記オーディオ認識が所定の精度レベルの範囲内で前記メディアのオブジェクトを識別できない場合に、画像/ビデオ認識を行うことを特徴とする請求項1に記載の方法。
- 画像/ビデオ認識によって前記オブジェクトを識別するために前記メディアのオブジェクトの顔をマークするステップをさらに有することを特徴とする請求項1に記載の方法。
- 前記メディアのオブジェクトを識別する画像/ビデオ認識の結果を表示するステップをさらに有することを特徴とする請求項1に記載の方法。
- ユーザが選択した画像/ビデオ認識の結果に係る識別情報を表示するステップをさらに有することを特徴とする請求項7に記載の方法。
- 前記メディアのオブジェクトを識別するオーディオ認識の結果を表示するステップをさらに有することを特徴とする請求項8に記載の方法。
- ユーザが選択したオーディオ認識の結果に係る識別情報を表示するステップをさらに有することを特徴とする請求項9に記載の方法。
- 前記メディアのオブジェクトを識別する画像/ビデオ認識及びオーディオ認識の結果を表示するステップをさらに有することを特徴とする請求項1に記載の方法。
- ユーザが選択した画像/ビデオ認識及びオーディオ認識の結果に係る識別情報を表示するステップをさらに有することを特徴とする請求項11に記載の方法。
- 前記メディアには、
画像ファイルと、
オーディオファイルと、
ビデオファイルと、
アニメーションファイルと、
のうちのいずれか1つが含まれることを特徴とする請求項1に記載の方法。 - 前記メディアのオブジェクトには、
人物と、
場所と、
物体と、
のうちのいずれか1つが含まれることを特徴とする請求項1に記載の方法。 - 前記識別情報は、
前記メディアの識別されたオブジェクトに関する経歴情報と、
前記メディアの識別されたオブジェクトに関する情報へのリンクと、
前記メディアの識別されたオブジェクトに基づく推奨と、
のうちの少なくともいずれか1つを有することを特徴とする請求項1に記載の方法。 - 装置においてメディアを取得する手段と、
顔と音声との認識を介して前記メディア内のオブジェクトを識別する手段と、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置において表示する手段と、
を備えることを特徴とする装置。 - 装置であって、
前記装置に関連づけられたメディア情報を取得するためのメディア情報収集手段と、
処理ロジックであって、
顔と音声との認識を介してメディア内のオブジェクトを識別し、
前記メディアのオブジェクトを識別する顔と音声との認識結果を表示し、
ユーザが選択した顔と音声との認識結果の一つに係る識別情報を表示する、
処理ロジックと、
を備えることを特徴とする装置。 - 前記メディア情報収集手段には、
カメラと、
マイクと、
メディア記憶装置と、
通信装置と、
のうちの少なくともいずれか1つが含まれることを特徴とする請求項17に記載の装置。 - 顔の認識によって前記メディアのオブジェクトを識別する場合、前記処理ロジックは、前記メディアのオブジェクト内の顔の位置を判定するように構成されることを特徴とする請求項17に記載の装置。
- 前記メディアのオブジェクトを顔の認識によって識別する場合、前記処理ロジックは、前記メディアのオブジェクト内の顔の位置をユーザ入力に基づいて判定するように構成されることを特徴とする請求項17に記載の装置。
- 装置であって、
命令を記憶するためのメモリと、
前記命令を実行するプロセッサであって、
前記装置においてメディアを取得し、
顔と音声との認識を介して前記メディア内のオブジェクトを識別し、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置上に表示する、
プロセッサと、
を備えることを特徴とする装置。 - 装置においてビデオを取得するステップと、
前記ビデオを前記装置において再生しながら、前記ビデオ内のオブジェクトの識別を顔の認識又は音声の認識を介して行うステップと、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置上に表示するステップと、
を有することを特徴とする方法。 - 装置においてメディアを取得するステップと、
前記メディアの物体と物体のデータベースとの比較に基づいて、前記メディア内の物体を識別するステップと、
前記メディアの識別された物体に基づいて識別情報を前記装置上に表示するステップと、
を有することを特徴とする方法。 - 前記物体には、
動物と、
印刷メディアと、
植物と、
樹木と、
岩と、
漫画のキャラクタと、
のうちの少なくともいずれか1つが含まれることを特徴とする請求項23に記載の方法。 - 装置においてメディアを取得するステップと、
前記メディアの場所と場所のデータベースとの比較に基づいて、前記メディア内の場所を識別するステップと、
前記メディアの識別された場所に基づいて識別情報を前記装置上に表示するステップと、
を有することを特徴とする方法。 - 前記場所には、
建物と、
陸標と、
道路と、
橋と、
のうちの少なくともいずれか1つが含まれることを特徴とする請求項25に記載の方法。 - 前記メディアの識別された場所の表示を含む地図を、前記メディアの識別された場所の所在位置に基づいて前記装置において表示するステップをさらに有することを特徴とする請求項25に記載の方法。
- 装置においてメディアを取得するステップと、
前記メディア内のオブジェクトの識別を前記オブジェクトの音声の認識及びテキスト認識に基づいて行うステップと、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置において表示するステップと、
を有することを特徴とする方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/423,337 | 2006-06-09 | ||
US11/423,337 US7787697B2 (en) | 2006-06-09 | 2006-06-09 | Identification of an object in media and of related media objects |
PCT/IB2006/054723 WO2007144705A1 (en) | 2006-06-09 | 2006-12-08 | Media identification |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009540414A true JP2009540414A (ja) | 2009-11-19 |
Family
ID=38112245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009513778A Pending JP2009540414A (ja) | 2006-06-09 | 2006-12-08 | メディア識別 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7787697B2 (ja) |
EP (1) | EP2027557A1 (ja) |
JP (1) | JP2009540414A (ja) |
KR (1) | KR101010081B1 (ja) |
CN (1) | CN101506828A (ja) |
MX (1) | MX2008015554A (ja) |
RU (1) | RU2408067C2 (ja) |
WO (1) | WO2007144705A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018513991A (ja) * | 2015-03-23 | 2018-05-31 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム |
JP2021170158A (ja) * | 2020-04-14 | 2021-10-28 | 清水建設株式会社 | 情報処理システム |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7787697B2 (en) * | 2006-06-09 | 2010-08-31 | Sony Ericsson Mobile Communications Ab | Identification of an object in media and of related media objects |
US20080144882A1 (en) * | 2006-12-19 | 2008-06-19 | Mind Metrics, Llc | System and method for determining like-mindedness |
US20090222330A1 (en) * | 2006-12-19 | 2009-09-03 | Mind Metrics Llc | System and method for determining like-mindedness |
US20090247219A1 (en) * | 2008-03-25 | 2009-10-01 | Jian-Liang Lin | Method of generating a function output from a photographed image and related mobile computing device |
JP5121681B2 (ja) * | 2008-04-30 | 2013-01-16 | 株式会社日立製作所 | 生体認証システム、認証クライアント端末、及び生体認証方法 |
CN103475837B (zh) | 2008-05-19 | 2017-06-23 | 日立麦克赛尔株式会社 | 记录再现装置及方法 |
JP2010081457A (ja) * | 2008-09-29 | 2010-04-08 | Hitachi Ltd | 情報記録再生装置およびビデオカメラ |
TWI390177B (zh) * | 2008-11-24 | 2013-03-21 | Inst Information Industry | 景點推薦裝置和方法以及儲存媒體 |
US8457366B2 (en) | 2008-12-12 | 2013-06-04 | At&T Intellectual Property I, L.P. | System and method for matching faces |
KR101560184B1 (ko) * | 2008-12-26 | 2015-10-14 | 삼성전자주식회사 | 디지털 촬영 장치 및 그 제어 방법 |
EP4272809A3 (en) * | 2009-07-17 | 2024-01-17 | Implantica Patent Ltd. | Voice control of a medical implant |
US9544379B2 (en) | 2009-08-03 | 2017-01-10 | Wolfram K. Gauglitz | Systems and methods for event networking and media sharing |
US10574614B2 (en) | 2009-08-03 | 2020-02-25 | Picpocket Labs, Inc. | Geofencing of obvious geographic locations and events |
JP5356162B2 (ja) * | 2009-09-07 | 2013-12-04 | 株式会社ザクティ | 物体像探索装置 |
US9521453B2 (en) | 2009-09-14 | 2016-12-13 | Tivo Inc. | Multifunction multimedia device |
US8819172B2 (en) | 2010-11-04 | 2014-08-26 | Digimarc Corporation | Smartphone-based methods and systems |
US8121618B2 (en) | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
US9183580B2 (en) | 2010-11-04 | 2015-11-10 | Digimarc Corporation | Methods and systems for resource management on portable devices |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US8175617B2 (en) | 2009-10-28 | 2012-05-08 | Digimarc Corporation | Sensor-based mobile search, related methods and systems |
US9462318B2 (en) | 2009-11-03 | 2016-10-04 | At&T Intellectual Property I, L.P. | System for media program management |
US8682145B2 (en) | 2009-12-04 | 2014-03-25 | Tivo Inc. | Recording system based on multimedia content fingerprints |
US20110153341A1 (en) * | 2009-12-17 | 2011-06-23 | General Electric Company | Methods and systems for use of augmented reality to improve patient registration in medical practices |
WO2011082332A1 (en) * | 2009-12-31 | 2011-07-07 | Digimarc Corporation | Methods and arrangements employing sensor-equipped smart phones |
CN102934107B (zh) | 2010-02-18 | 2016-09-14 | 株式会社尼康 | 信息处理装置、便携式装置以及信息处理系统 |
US9015139B2 (en) | 2010-05-14 | 2015-04-21 | Rovi Guides, Inc. | Systems and methods for performing a search based on a media content snapshot image |
US8627358B1 (en) * | 2010-08-16 | 2014-01-07 | West Corporation | Location-based movie identification systems and methods |
US9484046B2 (en) | 2010-11-04 | 2016-11-01 | Digimarc Corporation | Smartphone-based methods and systems |
US20120173701A1 (en) * | 2010-12-30 | 2012-07-05 | Arbitron Inc. | Matching techniques for cross-platform monitoring and information |
EP2492852A1 (en) * | 2011-02-25 | 2012-08-29 | Research In Motion Limited | Knowledge base broadcasting |
US8577965B2 (en) * | 2011-02-25 | 2013-11-05 | Blackberry Limited | Knowledge base broadcasting |
US20140208208A1 (en) * | 2011-06-17 | 2014-07-24 | Thomson Licesning | Video navigation through object location |
US20130061147A1 (en) * | 2011-09-07 | 2013-03-07 | Nokia Corporation | Method and apparatus for determining directions and navigating to geo-referenced places within images and videos |
CN103918247B (zh) | 2011-09-23 | 2016-08-24 | 数字标记公司 | 基于背景环境的智能手机传感器逻辑 |
US9280545B2 (en) | 2011-11-09 | 2016-03-08 | Microsoft Technology Licensing, Llc | Generating and updating event-based playback experiences |
US9143601B2 (en) | 2011-11-09 | 2015-09-22 | Microsoft Technology Licensing, Llc | Event-based media grouping, playback, and sharing |
US8634648B2 (en) * | 2011-12-07 | 2014-01-21 | Elwha Llc | Reporting informational data indicative of a possible non-imaged portion of a skin |
CN102752540B (zh) * | 2011-12-30 | 2017-12-29 | 新奥特(北京)视频技术有限公司 | 一种基于人脸识别技术的自动编目方法 |
US10650442B2 (en) | 2012-01-13 | 2020-05-12 | Amro SHIHADAH | Systems and methods for presentation and analysis of media content |
WO2013187900A1 (en) | 2012-06-14 | 2013-12-19 | Empire Technology Developmetn Llc | On-demand information network |
US9836590B2 (en) * | 2012-06-22 | 2017-12-05 | Microsoft Technology Licensing, Llc | Enhanced accuracy of user presence status determination |
US9213888B2 (en) * | 2012-06-27 | 2015-12-15 | Disney Enterprises, Inc. | Electronic devices in local interactions between users |
US20140013193A1 (en) * | 2012-06-29 | 2014-01-09 | Joseph John Selinger | Methods and systems for capturing information-enhanced images |
JP6112823B2 (ja) * | 2012-10-30 | 2017-04-12 | キヤノン株式会社 | 情報処理装置、情報処理方法及びコンピュータにより読み取り可能なプログラム |
WO2014087050A1 (en) | 2012-12-04 | 2014-06-12 | Nokia Corporation | Method and apparatus for validating potential points of interest using user and device characteristics |
US8769557B1 (en) | 2012-12-27 | 2014-07-01 | The Nielsen Company (Us), Llc | Methods and apparatus to determine engagement levels of audience members |
US9305154B2 (en) * | 2013-03-15 | 2016-04-05 | Qualcomm Incorporated | Method and apparatus for requesting and providing access to information associated with an image |
US9294712B2 (en) * | 2013-03-20 | 2016-03-22 | Google Inc. | Interpolated video tagging |
US20140294257A1 (en) * | 2013-03-28 | 2014-10-02 | Kevin Alan Tussy | Methods and Systems for Obtaining Information Based on Facial Identification |
US9269022B2 (en) | 2013-04-11 | 2016-02-23 | Digimarc Corporation | Methods for object recognition and related arrangements |
US9927949B2 (en) * | 2013-05-09 | 2018-03-27 | Amazon Technologies, Inc. | Recognition interfaces for computing devices |
US20150012840A1 (en) * | 2013-07-02 | 2015-01-08 | International Business Machines Corporation | Identification and Sharing of Selections within Streaming Content |
US9354778B2 (en) | 2013-12-06 | 2016-05-31 | Digimarc Corporation | Smartphone-based methods and systems |
US20150185017A1 (en) * | 2013-12-28 | 2015-07-02 | Gregory L. Kreider | Image-based geo-hunt |
US9311639B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods, apparatus and arrangements for device to device communication |
US10078856B2 (en) | 2016-05-09 | 2018-09-18 | Shadecraft, Inc. | Mobile computing device control of shading object, intelligent umbrella and intelligent shading charging system |
US9432702B2 (en) * | 2014-07-07 | 2016-08-30 | TCL Research America Inc. | System and method for video program recognition |
US20160162893A1 (en) * | 2014-12-05 | 2016-06-09 | Mastercard International Incorporated | Open, on-device cardholder verification method for mobile devices |
WO2016098915A1 (ko) * | 2014-12-16 | 2016-06-23 | 한양대학교 에리카산학협력단 | 스마트 디스플레이 및 이를 이용한 광고 방법 |
US10785323B2 (en) | 2015-01-05 | 2020-09-22 | Picpocket Labs, Inc. | Use of a dynamic geofence to control media sharing and aggregation associated with a mobile target |
RU2594456C1 (ru) * | 2015-03-10 | 2016-08-20 | Общество с ограниченной ответственностью "АВТЭКС" | Плавательное средство с информационным дисплеем |
CN104820678B (zh) * | 2015-04-15 | 2018-10-19 | 小米科技有限责任公司 | 音频信息识别方法及装置 |
US9596429B2 (en) * | 2015-05-08 | 2017-03-14 | Echostar Technologies L.L.C. | Apparatus, systems and methods for providing content when loud background noise is present |
CN106295270B (zh) * | 2015-06-25 | 2019-03-29 | 联想(北京)有限公司 | 一种用户识别方法及电子设备 |
CN105117628B (zh) * | 2015-07-30 | 2018-02-02 | 广东欧珀移动通信有限公司 | 一种终端中文件显示的控制方法、装置及相应移动设备 |
US11393108B1 (en) | 2016-02-26 | 2022-07-19 | Amazon Technologies, Inc. | Neighborhood alert mode for triggering multi-device recording, multi-camera locating, and multi-camera event stitching for audio/video recording and communication devices |
US10748414B2 (en) | 2016-02-26 | 2020-08-18 | A9.Com, Inc. | Augmenting and sharing data from audio/video recording and communication devices |
JP6503148B1 (ja) | 2016-02-26 | 2019-04-17 | アマゾン テクノロジーズ インコーポレイテッド | 音声/ビデオ記録通信装置からのビデオ映像のシェアリング関連出願の相互参照 |
US10489453B2 (en) | 2016-02-26 | 2019-11-26 | Amazon Technologies, Inc. | Searching shared video footage from audio/video recording and communication devices |
US10397528B2 (en) | 2016-02-26 | 2019-08-27 | Amazon Technologies, Inc. | Providing status information for secondary devices with video footage from audio/video recording and communication devices |
US10841542B2 (en) | 2016-02-26 | 2020-11-17 | A9.Com, Inc. | Locating a person of interest using shared video footage from audio/video recording and communication devices |
US9965934B2 (en) | 2016-02-26 | 2018-05-08 | Ring Inc. | Sharing video footage from audio/video recording and communication devices for parcel theft deterrence |
KR101827978B1 (ko) * | 2016-06-17 | 2018-02-09 | (주)잼투고 | 퍼포머 객체 기반의 협연 서비스 제공서버 및 제공방법 |
EP3516460A1 (en) | 2016-09-22 | 2019-07-31 | Shadecraft LLC | Mobile computing device control of shading object |
US9900645B1 (en) * | 2016-11-18 | 2018-02-20 | Panasonic Avionics Corporation | Methods and systems for executing functions associated with objects on a transportation vehicle |
US10094138B2 (en) | 2016-12-29 | 2018-10-09 | Shadecraft, Inc. | Control of multiple intelligent umbrellas and/or robotic shading systems |
US9839267B1 (en) | 2016-12-29 | 2017-12-12 | Shadecraft, Inc. | Shading system with artificial intelligence application programming interface |
US10488834B2 (en) * | 2017-05-13 | 2019-11-26 | Shadecraft, Inc. | Intelligent umbrella or robotic shading system having telephonic communication capabilities |
US20180349720A1 (en) * | 2017-05-31 | 2018-12-06 | Dawn Mitchell | Sound and image identifier software system and method |
US10664528B1 (en) * | 2017-06-28 | 2020-05-26 | Wells Fargo Bank, N.A. | Optimizing display of disclosure based on prior interactions |
US10349493B2 (en) | 2017-07-07 | 2019-07-09 | Shadecraft, Inc. | Artificial intelligence (AI) computing device with one or more lighting elements |
CN107748879A (zh) * | 2017-11-16 | 2018-03-02 | 百度在线网络技术(北京)有限公司 | 用于获取人脸信息的方法及装置 |
US10554436B2 (en) | 2017-11-19 | 2020-02-04 | Shadecraft, Inc. | Intelligent umbrella and/or robotic shading system with ultra-low energy transceivers |
CN108322770B (zh) * | 2017-11-22 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 视频节目识别方法、相关装置、设备和系统 |
US10519688B2 (en) | 2018-01-06 | 2019-12-31 | Shadecraft, Inc. | Apparatus and method for identifying operational status of umbrella, parasol or shading system utilizing lighting elements |
CN108337532A (zh) * | 2018-02-13 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 演出片段的标注方法、视频播放方法、装置及系统 |
KR20190142192A (ko) * | 2018-06-15 | 2019-12-26 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN108882033B (zh) * | 2018-07-19 | 2021-12-14 | 上海影谱科技有限公司 | 一种基于视频语音的人物识别方法、装置、设备和介质 |
CN109376603A (zh) * | 2018-09-25 | 2019-02-22 | 北京周同科技有限公司 | 一种视频识别方法、装置、计算机设备及存储介质 |
CN111145758A (zh) * | 2019-12-25 | 2020-05-12 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
US11783207B2 (en) | 2020-02-18 | 2023-10-10 | International Business Machines Corporation | Robotic Toxicodendron weeding |
KR20240132972A (ko) * | 2023-02-27 | 2024-09-04 | 삼성전자주식회사 | 사용자의 위치에 기반하여 미디어 콘텐트를 표시하기 위한 전자 장치, 방법, 및 컴퓨터 판독 가능 저장 매체 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002189724A (ja) * | 2000-12-20 | 2002-07-05 | Victor Co Of Japan Ltd | 画像データ検索装置 |
JP2003281157A (ja) * | 2002-03-19 | 2003-10-03 | Toshiba Corp | 人物検索システム、人物追跡システム、人物検索方法および人物追跡方法 |
JP2004283959A (ja) * | 2003-03-20 | 2004-10-14 | Sony Corp | ロボット装置、その動作制御方法、及びプログラム |
JP2005078590A (ja) * | 2003-09-03 | 2005-03-24 | Nec Corp | 顔照合システム |
JP2005157763A (ja) * | 2003-11-26 | 2005-06-16 | Canon Inc | 検索装置及び検索制御方法 |
JP2005215922A (ja) * | 2004-01-29 | 2005-08-11 | Zeta Bridge Corp | 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム |
JP2006033659A (ja) * | 2004-07-21 | 2006-02-02 | Sony Corp | コンテンツ記録再生装置、コンテンツ記録再生方法及びそのプログラム |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666442A (en) | 1993-05-23 | 1997-09-09 | Infoglide Corporation | Comparison system for identifying the degree of similarity between objects by rendering a numeric measure of closeness, the system including all available information complete with errors and inaccuracies |
US6085112A (en) * | 1995-05-03 | 2000-07-04 | Siemens Aktiengesellschaft | Communication device |
US5682439A (en) * | 1995-08-07 | 1997-10-28 | Apple Computer, Inc. | Boxed input correction system and method for pen based computer systems |
US5991429A (en) * | 1996-12-06 | 1999-11-23 | Coffin; Jeffrey S. | Facial recognition system for security access and identification |
US6985169B1 (en) * | 1998-02-09 | 2006-01-10 | Lenovo (Singapore) Pte. Ltd. | Image capture system for mobile communications |
US6825875B1 (en) * | 1999-01-05 | 2004-11-30 | Interval Research Corporation | Hybrid recording unit including portable video recorder and auxillary device |
US6578017B1 (en) * | 1999-02-26 | 2003-06-10 | Information Decision Technologies, Llc | Method to aid object detection in images by incorporating contextual information |
US6751354B2 (en) * | 1999-03-11 | 2004-06-15 | Fuji Xerox Co., Ltd | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
US6654683B2 (en) * | 1999-09-27 | 2003-11-25 | Jin Haiping | Method and system for real-time navigation using mobile telephones |
US20040095258A1 (en) * | 2000-03-14 | 2004-05-20 | Bosch Johannes Brits | Detecting the presence of a vehicle with a particular vehicle registration number |
US6922488B2 (en) * | 2001-02-16 | 2005-07-26 | International Business Machines Corporation | Method and system for providing application launch by identifying a user via a digital camera, utilizing an edge detection algorithm |
AU2002346107A1 (en) * | 2001-07-12 | 2003-01-29 | Icontrol Transactions, Inc. | Secure network and networked devices using biometrics |
US20030120478A1 (en) * | 2001-12-21 | 2003-06-26 | Robert Palmquist | Network-based translation system |
KR20030059403A (ko) * | 2001-12-29 | 2003-07-10 | 엘지전자 주식회사 | 멀티미디어 검색방법 및 장치 |
US6731239B2 (en) * | 2002-01-18 | 2004-05-04 | Ford Motor Company | System and method for retrieving information using position coordinates |
US20030161507A1 (en) * | 2002-02-28 | 2003-08-28 | Spectra Systems Corporation | Method and apparatus for performing facial recognition with a hand-held imaging device |
US20030164819A1 (en) * | 2002-03-04 | 2003-09-04 | Alex Waibel | Portable object identification and translation system |
US7587318B2 (en) * | 2002-09-12 | 2009-09-08 | Broadcom Corporation | Correlating video images of lip movements with audio signals to improve speech recognition |
GB0222113D0 (en) * | 2002-09-24 | 2002-10-30 | Koninkl Philips Electronics Nv | Image recognition |
GB0222209D0 (en) * | 2002-09-25 | 2002-10-30 | Koninkl Philips Electronics Nv | Capturing a text string |
US7999857B2 (en) * | 2003-07-25 | 2011-08-16 | Stresscam Operations and Systems Ltd. | Voice, lip-reading, face and emotion stress analysis, fuzzy logic intelligent camera system |
US20050119032A1 (en) * | 2003-08-28 | 2005-06-02 | Maija Airas | Optical messaging |
US8723964B2 (en) * | 2003-09-12 | 2014-05-13 | Sony Corporation | Method and device for communication using an optical sensor |
US7003140B2 (en) * | 2003-11-13 | 2006-02-21 | Iq Biometrix | System and method of searching for image data in a storage medium |
US7310605B2 (en) * | 2003-11-25 | 2007-12-18 | International Business Machines Corporation | Method and apparatus to transliterate text using a portable device |
EP1704710A4 (en) | 2003-12-24 | 2007-09-19 | Walker Digital Llc | METHOD AND DEVICE FOR AUTOMATIC COLLECTION AND MANAGEMENT OF IMAGES |
EP1756802A2 (en) | 2004-04-02 | 2007-02-28 | Kurzweil Technologies Inc. | Portable reading device with mode processing |
US7499588B2 (en) * | 2004-05-20 | 2009-03-03 | Microsoft Corporation | Low resolution OCR for camera acquired documents |
US20060015733A1 (en) * | 2004-06-24 | 2006-01-19 | John H. Harland Company | Process and system for the material reduction of counterfeit and identity-maker fraud |
US20060047704A1 (en) * | 2004-08-31 | 2006-03-02 | Kumar Chitra Gopalakrishnan | Method and system for providing information services relevant to visual imagery |
WO2006025797A1 (en) | 2004-09-01 | 2006-03-09 | Creative Technology Ltd | A search system |
US7504942B2 (en) * | 2006-02-06 | 2009-03-17 | Videoiq, Inc. | Local verification systems and methods for security monitoring |
US7787697B2 (en) * | 2006-06-09 | 2010-08-31 | Sony Ericsson Mobile Communications Ab | Identification of an object in media and of related media objects |
US9015029B2 (en) * | 2007-06-04 | 2015-04-21 | Sony Corporation | Camera dictionary based on object recognition |
US8144939B2 (en) * | 2007-11-08 | 2012-03-27 | Sony Ericsson Mobile Communications Ab | Automatic identifying |
-
2006
- 2006-06-09 US US11/423,337 patent/US7787697B2/en active Active
- 2006-12-08 MX MX2008015554A patent/MX2008015554A/es active IP Right Grant
- 2006-12-08 CN CNA2006800555507A patent/CN101506828A/zh active Pending
- 2006-12-08 WO PCT/IB2006/054723 patent/WO2007144705A1/en active Application Filing
- 2006-12-08 EP EP06842433A patent/EP2027557A1/en not_active Ceased
- 2006-12-08 JP JP2009513778A patent/JP2009540414A/ja active Pending
- 2006-12-08 KR KR1020097000242A patent/KR101010081B1/ko active IP Right Grant
- 2006-12-08 RU RU2008152794/08A patent/RU2408067C2/ru not_active IP Right Cessation
-
2010
- 2010-07-22 US US12/841,224 patent/US8165409B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002189724A (ja) * | 2000-12-20 | 2002-07-05 | Victor Co Of Japan Ltd | 画像データ検索装置 |
JP2003281157A (ja) * | 2002-03-19 | 2003-10-03 | Toshiba Corp | 人物検索システム、人物追跡システム、人物検索方法および人物追跡方法 |
JP2004283959A (ja) * | 2003-03-20 | 2004-10-14 | Sony Corp | ロボット装置、その動作制御方法、及びプログラム |
JP2005078590A (ja) * | 2003-09-03 | 2005-03-24 | Nec Corp | 顔照合システム |
JP2005157763A (ja) * | 2003-11-26 | 2005-06-16 | Canon Inc | 検索装置及び検索制御方法 |
JP2005215922A (ja) * | 2004-01-29 | 2005-08-11 | Zeta Bridge Corp | 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム |
JP2006033659A (ja) * | 2004-07-21 | 2006-02-02 | Sony Corp | コンテンツ記録再生装置、コンテンツ記録再生方法及びそのプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018513991A (ja) * | 2015-03-23 | 2018-05-31 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム |
JP2021170158A (ja) * | 2020-04-14 | 2021-10-28 | 清水建設株式会社 | 情報処理システム |
JP7409947B2 (ja) | 2020-04-14 | 2024-01-09 | 清水建設株式会社 | 情報処理システム |
Also Published As
Publication number | Publication date |
---|---|
US20070286463A1 (en) | 2007-12-13 |
KR101010081B1 (ko) | 2011-01-24 |
US20100284617A1 (en) | 2010-11-11 |
US7787697B2 (en) | 2010-08-31 |
MX2008015554A (es) | 2009-01-22 |
KR20090023674A (ko) | 2009-03-05 |
WO2007144705A1 (en) | 2007-12-21 |
RU2008152794A (ru) | 2010-07-20 |
CN101506828A (zh) | 2009-08-12 |
US8165409B2 (en) | 2012-04-24 |
RU2408067C2 (ru) | 2010-12-27 |
EP2027557A1 (en) | 2009-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101010081B1 (ko) | 미디어 식별 | |
US11720238B2 (en) | Selecting an input mode for a virtual assistant | |
JP5866728B2 (ja) | 画像認識システムを備えた知識情報処理サーバシステム | |
CN114556333A (zh) | 由助理系统启用的智能摄像机 | |
US20200126560A1 (en) | Smart speaker and operation method thereof | |
US11317018B2 (en) | Camera operable using natural language commands | |
JP5120777B2 (ja) | 電子データ編集装置、電子データ編集方法及びプログラム | |
WO2006025797A1 (en) | A search system | |
US20150254443A1 (en) | Method and system for enforced biometric authentication | |
US10043069B1 (en) | Item recognition using context data | |
KR20190066537A (ko) | 음성인식 기반의 사진 공유 방법, 장치 및 시스템 | |
EP4127971A1 (en) | Speech-based selection of augmented reality content for detected objects | |
US11983461B2 (en) | Speech-based selection of augmented reality content for detected objects | |
CN115867905A (zh) | 旅行情况下基于增强现实的语音翻译 | |
CN117099158A (zh) | 用于改变声音的特性的神经网络 | |
JP2006018551A (ja) | 情報処理装置および方法、並びにプログラム | |
JP2008198135A (ja) | 情報配信システム、情報配信装置および情報配信方法 | |
JP5320913B2 (ja) | 撮像装置およびキーワード作成プログラム | |
CN115376517A (zh) | 一种会议场景下的说话内容的显示方法和装置 | |
CN111971670B (zh) | 在对话中生成响应 | |
KR20190089335A (ko) | 화자 분석 기술을 이용한 개인화 음성 인식 장치 및 방법, 상기 방법을 수행하기 위한 기록 매체 | |
Vildjiounaite et al. | Requirements and software framework for adaptive multimodal affect recognition | |
JP2008009560A (ja) | 容姿判定装置、容姿判定プログラムおよびそれを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120518 |