JP5739895B2

JP5739895B2 - ビデオセッションの自動ラベリング

Info

Publication number: JP5739895B2
Application number: JP2012535236A
Authority: JP
Inventors: ヘッジ，ラジェシュ・クトパディ; リウ，ジチェン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2009-10-23
Filing date: 2010-10-12
Publication date: 2015-06-24
Anticipated expiration: 2030-10-12
Also published as: KR20120102043A; EP2491533A2; WO2011049783A3; WO2011049783A2; CN102598055A; EP2491533A4; JP2013509094A; US20110096135A1

Description

本発明は、ビデオセッションの自動ラベリングに関する。

[0001]ビデオ会議は、会合、セミナー及び他のそのような活動に参加するための一般的な方法になった。複数の参加者のビデオ会議セッションにおいて、ユーザーは、しばしば、会議ディスプレイ上の遠隔の参加者を見るものの、その参加者が誰であるかが分からないことがある。また、誰かが何者であるかについてユーザーが漠然と知ってはいるが確実に知りたかったり、幾人かの名前を知っているがどの名前がどの人のものであるか分からないことがある。ユーザーは、時折、人の名前だけでなく、その人がどこの会社で働いているかなど、他の情報をも知りたいことがある。互いに知り合いではない比較的多くの人々がいる一対多のテレビ会議において、これはさらに問題である。

[0002]現在、人々が口頭で自己紹介（ビデオを介して遠隔に行うことを含む）をする機会や複数の（しばしば時間を浪費する）自己紹介による場合、又は各人がユーザーが見ることのできるタグ、名札などを有している場合以外に、ユーザーがそのような情報を得る方法はない。口頭の紹介などをする必要なしに、ビデオ会議セッションにおける他人に関する情報をユーザーが有することが望ましい。

[0003]この概要は、詳細な説明において以下にさらに記載される代表的な概念のうち選択されたものを単純化された形式で紹介するために提供される。この概要は、特許請求された主題の重要な特徴又は不可欠な特徴を特定するようには意図されず、特許請求された主題の範囲を限定するように使用されることも意図されない。

[0004]簡潔にいえば、本明細書に記載された主題の様々な態様は、人又は物体などのエンティティがビデオセッションに現れる場合にそのエンティティを識別するのに使用される関連するメタデータとともに、当該エンティティが認識される技術に関する。例えば、ビデオセッションが人の顔又は物体を示す場合、その顔又は物体は、名前及び／又は他の関連情報で（例えば、テキストオーバーレイによって）ラベル付けすることができる。

[0005]１つの態様において、ビデオセッション内に示される顔の画像がとらえられる。認識された顔に関連したメタデータを得るために顔認識が行われる。次いで、認識された顔がビデオセッション中に示されている場合に当該認識された顔に対応する人を識別するなど、ビデオセッションにラベル付けするためにメタデータが使用される。顔認識照合処理は、ビデオセッションに示されている会合に招待された人が誰であるかを示すカレンダー情報などの、他の既知の制限された情報（narrowing information）によって狭められてもよい。

[0006]図面と合わせると他の利点が以下の詳細な説明から明らかになる。
[0007]本発明は例として示されており、同様の参照数字が同様の要素を示す添付の図面において制限されるものではない。

[0008]感知されたエンティティ（例えば、人又は物体）を識別するメタデータによってビデオセッションにラベル付けする例示的な環境を表すブロック図である。 [0009]顔認識に基づいてビデオセッションに現れる顔にラベル付けをすることを表すブロック図である。 [0010]一致を探索することによりエンティティの画像にメタデータを関連付けるための例示的なステップを表すフロー図である。 [0011]本発明の様々な態様が組み入れられ得るコンピューター環境の実例を示す。

[0012]本明細書に記載された技術の様々な態様は、一般に、現在表示画面上にある人又は物体に基づいて、生の又は予め録画された／再生されたビデオ会議セッションへメタデータ（例えば、重ねられたテキスト）を自動的に挿入することに関する。一般に、これは、人又は物体を自動的に識別し、次いで、人の名前及び／又は他のデータなどの関連情報を取り出す（検索する）ためにその識別を使用することにより遂行される。

[0013]本明細書における例のいずれもが限定的でないことが理解されるべきである。実際、顔認識の使用は、人に対する１つの種類の識別機構として本明細書に記載されているが、人々を識別し、無生物の物体などの他のエンティティを識別するように機能する他のセンサー、機構及び／又は方法は等価なものである。そのため、本発明は、本明細書に記載されたいかなる特定の実施例、態様、概念、構造、機能又は例にも限定されない。より正確に言えば、本明細書に記載された実施例、態様、概念、構造、機能又は例のうちのいずれもが限定的でなく、本発明は、一般に計算、データ検索及び／又はビデオラベリングに利益及び利点をもたらす様々な方法で使用されてもよい。

[0014]図１は、認識されるエンティティ１０４（例えば、人又は物体）の識別に基づいてメタデータ１０２を出力する一般の例示的なシステムを示す。ビデオカメラなどの１つ又は複数のセンサー１０６が、顔画像を含むフレーム又はフレームの組などの、そのエンティティ１０４に関して感知されたデータを提供する。代替的なカメラは、静止画像又は静止画像の組をとらえるものであってもよい。狭窄（narrowing）モジュール１０８は、感知されたデータを受信し、例えば、認識の目的のために顔を最もよく表す可能性のある１つのフレームを（既知の方法で）選択してもよい。フレーム選択は、代替的に、認識機構１１０（以下に記載）においてなど、他の場所で行われてもよい。

[0015]狭窄モジュール１０８は、センサー１０６からデータを受信し、認識機構１１０にそれを提供する（代替的な実施例では、１つ又は複数のセンサーがより直接的にそれらのデータを認識機構１１０に提供してもよいことに留意されたい）。一般に、認識機構１１０は、センサーによって提供されるデータに基づいてエンティティ１０４を識別するためにデータストア１１２に問い合わせる。以下に述べられるように、問い合わせ（クエリー）は、狭窄モジュール１０８から受信される狭窄情報（narrowing information）に基づいて検索を狭めるように、編成されてもよいことに留意されたい。

[0016]一致が見つかると仮定すると、認識機構１１０は、認識結果、例えば、感知されたエンティティ１０４のメタデータ１０２、を出力する。このメタデータは、例えば、さらなる検索に役立つ識別子（ＩＤ）、及び／又はテキスト、グラフィック、ビデオ、音声、アニメーションなどの形式の既に検索された結果の組など、任意の適切な形式とすることができる。

[0017]ビデオカメラ（破線のブロック／線によって示されるようなセンサーであってもよい）又はビデオ再生機構などのビデオソース１１４は、ビデオ出力１１６、例えばビデオストリーム、を提供する。エンティティ１０４が示される場合、対応する情報をビデオフィードに関連付けるために、メタデータ１０２はラベル付け機構１１８によって（直接的に又は他のデータにアクセスするために）使用される。図１の例では、結果として得られるビデオフィード１２０は、テキストなどのメタデータ（又はメタデータによって得られる情報）と重ねられるものとして示されるが、これは１つの例にすぎない。

[0018]別の出力例は、おそらくはビデオ画面に伴って、ディスプレイなどをミーティングルーム又は会議室にいる人に見えるようにすることである。話者が演壇の後ろに立っている場合、又は話者の集団の１人が話している場合、その人の名前がディスプレイに現れてもよい。聴衆のうちの質問者は同様に識別され、このように自分の情報を出力させてもよい。

[0019]顔認識について、データストア１１２の検索は時間を浪費するものであって、そのために、他の情報に基づいて検索を狭めることはより効率的となり得る。その目的のために、狭窄モジュール１０８はまた、任意の適切な情報プロバイダー１２２（又は提供者）からエンティティに関連する追加の情報を受信してもよい。例えば、ビデオカメラは会議室において設定されてもよく、誰がその時に会議室へ招待された人であるかを規定するカレンダー情報が、検索を狭めるのを助けるために使用されてもよい。会議参加者は、通常、会議に登録をし、したがって、それらの参加者のリストは検索を狭めるために追加の情報として提供されてもよい。狭窄情報を得る他の方法は、組織情報に基づいて予測をすること、過去の会合に基づいて会合出席パターン（人々は通常、一緒に会合に行く）を学習することなどを含んでもよい。狭窄モジュール１０８は、検索候補を狭めるためにクエリーを編成する（公式化する）際などにおいて認識機構１１０によって使用可能な形式へと、そのような情報を変換することができる。

[0020]顔認識の代わりに、又は顔認識に加えて、様々な他の種類のセンサーが識別及び／又は狭窄化での使用のために実現可能である。例えば、マイクロホンは、話者の声を名前に一致させることができる音声認識技術に結合することができる；カメラが彼らの画像をとらえると、テキストとして認識される名前によって、人は彼らの名前を話すことができる。バッジ及び／又は名札が、テキスト認識によって、又は可視のバーコードもしくはＲＦＩＤ技術など備えることによるなどして、直接的に誰かを識別するために読み取られてもよい。センシングもまた、顔又は音声の認識検索を狭めるために使用されてもよい；例えば、多くの種類のバッジは建物へ入る際に既に検知され、及び／又はＲＦＩＤ技術は誰がミーティングルーム又は会議室に入ったかを決定するのに使用することができる。携帯電話又は他の装置は、例えば、Ｂｌｕｅｔｏｏｔｈ（ブルートゥース、登録商標）技術によって人の身元をブロードキャストしてもよい。

[0021]さらに、データストア１１２は、データプロバイダー１２４によって、検索することができるすべての利用可能なデータより少ないデータを持たされてもよい。例えば、企業従業員データベースは、彼らのＩＤバッジとともに使用されるような従業員の写真を保持してもよい。企業の敷地への訪問者は、入ることを許可されるために、自分の名前を提供するとともに自分の写真を撮影させることを要求され得る。従業員及び現在の訪問者のみのデータストアが構築されて最初に検索されてもよい。大企業については、特定の建物に入る従業員は彼らのバッジによってそうしてもよく、したがって、建物内に現在いる従業員は、通常、バッジ読み取り装置によって知られており、それによって、建物ごとのデータストアが最初に検索されてもよい。

[0022]適切な一致（例えば、十分な確率水準）が検索中に見つからない場合、検索は拡張されてもよい。上記の例のうちの１つを使用すると、１人の従業員が別の従業員とともに建物に入り、入館のための自分のバッジを使用しない場合、建物の既知の入館者の検索は適切な一致を見つけないことになる。そのような状況において、検索は、従業員データベース全体など（例えば、以前の訪問者）へと拡張してもよい。結局、結果が「人が認識されない」などとなり得ることに留意されたい。悪い入力はまた、問題、例えば、暗い照明、狭い視角など）を引き起こし得る。

[0023]物体は、ラベル付けのために同様に認識することができる。例えば、ユーザーは、デジタルカメラなどの装置を持ち上げるか、又は写真を示してもよい。適切なデータストアは、正確なブランド名、モデル、希望小売価格などを見つけるために画像を用いて検索されてもよく、それは次いで画像についてのユーザーの見方（view）にラベル付けするために使用されてもよい。

[0024]図２は、顔認識に基づくより具体的な例を示す。ユーザーは、サービス２２２、例えばウェブサービスによって１つ又は複数の顔がラベル付けされることを要求するためにユーザーインターフェース２２０とインタラクトする。ウェブサービスにおけるデータベースはカメラ２２４によってとらえられる顔の組を用いて更新され、したがって要求を予期して顔を得ること及び／又はラベル付けすることを始めてもよい。顔の自動及び／又は手動のラベル付けもまた、データベースを更新するために行われてもよい。

[0025]ビデオ・キャプチャー・ソース２２６が顔画像２２８を得る場合、画像は顔認識機構２３０に提供され、それは、ラベル（又は他のメタデータ）が顔とともに返されることを要求するウェブサービス（又は所与の顔又はエンティティについてメタデータを提供する他の機構）を呼び出す。ウェブサービスはラベルに反応し、次いで、ラベルは、テキストを画像に重ねるものなどの、顔ラベル付け機構２３２に渡され、それによって、顔についてのラベル付けされた画像２３４が提供される。顔認識機構２３０は、顔が現れる次のときに顔をラベル付けする際の効率化のために、顔／ラベル付け情報をローカルキャッシュ２３６に格納することができる。

[0026]したがって、顔認識は、おそらくは既知の任意の狭窄情報とともに人の顔の画像をサービスへと送信することにより、リモートサービスにおいて行うことができる。次いで、当該サービスは適切な質問（クエリー）形成及び／又は照合を行ってもよい。しかし、認識のうちのいくらか又はすべてはローカルに行われてもよい。例えば、ユーザーのローカルコンピューターが、顔及びユーザーの代表的な特徴の組を抽出し、又はそのような特徴についてリモート・データベースを検索するためにそれらの特徴を送信してもよい。さらにまた、サービスはビデオフィードを受信していてもよい；そうであるならば、顔が現れるフレーム内のフレーム番号及び位置が送信され、それによって、当該サービスが処理のために画像を抽出してもよい。

[0027]さらに、上述のように、メタデータはラベルを含む必要はなく、ラベル及び／又は他の情報が探索され得る識別子なであってもよい。例えば、識別子は、人の名前の同一性、人の会社、人のウェブサイトへのリンク、出版物などの経歴情報、人の電話番号、電子メールアドレス、組織図内の立場などを決定するために使用されてもよい。

[0028]そのような追加情報はユーザーインターフェース２２０とのユーザーのインタラクションに依存し得る。例えば、ユーザーは最初はラベルだけを見るかもしれないが、そのラベルに関して追加情報を拡張させたり壊したりすることができる。ユーザーは、より多くの閲覧の選択肢を得るためにその他の方法でラベルとインタラクトする（例えば、それをクリックする）ことができる。

[0029]図３は、ビデオフレームがとらえられるステップ３０２において開始する、顔認識によってラベル付け情報を得る例示的な処理をまとめたものである。画像はフレームから抽出することができ、又は、ステップ３０４によって表されるように、１つ又は複数のフレーム自体が認識機構へ送信されてもよい。

[0030]ステップ３０６及び３０８は、利用可能な場合の狭窄情報の使用を表す。上述のように、任意の狭窄情報を、少なくとも最初に検索をより効率的にするために使用することができる。会合の出席者のリスト又は会議参加者の登録リストを提供するために使用されるカレンダー情報の上記の例は、検索をはるかに効率的にすることができる。

[0031]ステップ３１０は、人の身元に対して顔を照合させるためにクエリーを作成することを表す。上述のように、クエリーは検索する顔のリストを含んでもよい。ステップ３１０また、利用可能な場合にローカルキャッシュなどを探索することを表すことに留意されたい。

[0032]ステップ３１２は検索の結果を受信することを表す。図３の例では、最初の検索の試みの結果は、同一、又は「一致はない」という結果、又はおそらくは可能性のある候補の一致（candidate matches）の組であってもよい。ステップ３１４は結果を評価することを表す；一致が十分によい場合、ステップ３２２は当該一致についてメタデータを返すことを表す。

[0033]一致が見つからない場合、ステップ３１６は、検索範囲が別の検索の試みについて拡張されてもよいか否かを評価することを表す。例として、招待されなかった人が出席すると決定するような会合について考える。カレンダー情報によって検索を狭めることは、その招かれなかった人についての一致を見つけないことに帰着する。そのような場合、階層的に出席者より上又は出席者より下である、会社内の人々（例えば、出席者が報告をする対象の人々又は出席者に報告をする人々）を捜すためなど、ある方法で検索範囲は拡大されてもよい（ステップ３２０）。検索範囲を拡張するためにクエリーが再作成される（reformulated）必要があり、及び／又は異なるデータストアが探索され得ることに留意されたい。ステップ３１４において一致がいまだ見つからない場合、必要ならば、検索の拡張は従業員データベース又は訪問者データベースの全体などへと続いてもよい。一致が見つからない場合、ステップ３１８はこの認識されていない状態を示すなんらかのものを返すことができる。
例示的な動作環境
[0034]図４は、図１−３の例が実施され得る適切なコンピューティング及びネットワーキング環境４００の例を示す。計算機システム環境４００は適切なコンピューター環境の１つの例にすぎず、本発明の使用又は機能の範囲に関していかなる限定も示唆するようには意図されない。また、コンピューター環境４００は、例示的な動作環境４００に示されたコンポーネントのうちのいかなる１つ又は組み合わせに関連するいかなる依存性も要件も有するものとして解釈されるべきでない。

[0035]本発明は、多数の他の汎用又は専用の計算機システム環境又は構成によって動作可能である。本発明を用いた使用に適し得る周知の計算機システム、環境及び／又は構成の例は、パーソナルコンピューター、サーバコンピューター、ハンドヘルド又はラップトップ装置、タブレットデバイス、マルチプロセッサーシステム、マイクロプロセッサーベースのシステム、セットトップボックス、プログラム可能な家電、ネットワークＰＣ、ミニコンピューター、メインフレームコンピューター、上記のシステム又はデバイスのうちの任意のものを含む分散コンピューティング環境などを含むが、これらに限定されない。

[0036]本発明は、コンピューターによって実行される、プログラムモジュールなどのコンピューター実行可能命令の一般的なコンテキストにおいて述べられてもよい。一般に、プログラムモジュールは、特定のタスクを実行し又は特定の抽象データ型を実施する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、通信網を介してリンクされる遠隔処理装置によってタスクが行われる分散コンピューティング環境において実行されてもよい。分散コンピューティング環境では、プログラムモジュールは、メモリー記憶装置を含むローカル及び／又はリモートコンピューター記憶媒体に配置されてもよい。

[0037]図４に関して、本発明の様々な態様を実施するための例示的なシステムは、汎用計算装置をコンピューター４１０の形で含んでもよい。コンピューター４１０のコンポーネントは、演算処理装置４２０、システムメモリー４３０、及びシステムメモリーを含む様々なシステムコンポーネントを演算処理装置４２０へ結合するシステムバス４２１を含み得るが、これらに限定されない。システムバス４２１は、様々なバスアーキテクチャーのうちの任意のものを使用する、メモリーバス又はメモリーコントローラー、周辺バス、及びローカルバスを含むいくつかの種類のバス構造のうちの任意のものであってもよい。限定ではなく例として、そのようなアーキテクチャーは、業界標準アーキテクチャー（ＩＳＡ）バス、マイクロチャネルアーキテクチャー（ＭＣＡ）バス、エンハンストＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクス標準協会（ＶＥＳＡ）ローカルバス、及びメザニンバスとしても知られる周辺コンポーネント相互接続（ＰＣＩ）バスを含む。

[0038]コンピューター４１０は、通常、様々なコンピューター読み取り可能な媒体を含む。コンピューター読み取り可能な媒体は、コンピューター４１０によってアクセスすることができる任意の利用可能な媒体であってもよく、揮発性及び不揮発性の媒体の両方並びに取り外し可能及び取り外し不能な媒体の両方を含む。限定ではなく例として、コンピューター読み取り可能な媒体はコンピューター記憶媒体及び通信媒体を含んでもよい。コンピューター記憶媒体は、コンピューター読み取り可能な命令、データ構造、プログラムモジュール又は他のデータなどの情報の記憶のために任意の方法又は技術で実施される、揮発性及び不揮発性、取り外し可能な及び取り外し不能な媒体を含む。コンピューター記憶媒体は、所望の情報を格納するために使用することができ、コンピューター４１０によってアクセスすることができる、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリーもしくは他のメモリー技術、ＣＤ−ＲＯＭ、デジタル・バーサタイル・ディスク（ＤＶＤ）もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、又は任意の他の媒体を含むが、これらに限定されない。通信媒体は、通常、搬送波又は他の移送機構などの変調されたデータ信号に、コンピューター読み取り可能な命令、データ構造、プログラムモジュール又は他のデータを具体化し、任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、情報を信号中に符号化するような方法で設定又は変化されたその特徴のうち１つ又は複数の特徴を有する信号を意味する。限定でない例として、通信媒体は、有線ネットワーク又は直接的な有線接続などの有線の媒体、及び音響、ＲＦ、赤外線及び他の無線媒体などの無線媒体を含む。上記のもののうちの任意のものの組み合わせもまた、コンピューター読み取り可能な媒体の範囲内に含まれる。

[0039]システムメモリー４３０は、読み取り専用メモリー（ＲＯＭ）４３１及びランダム・アクセス・メモリー（ＲＡＭ）４３２などの揮発性及び／又は不揮発性メモリーの形式のコンピューター記憶媒体を含む。起動中などに、コンピューター４１０内の要素で情報を転送するのを支援する基本的なルーチンを含む基本入出力システム４３３（ＢＩＯＳ）は、通常、ＲＯＭ４３１に通常格納される。ＲＡＭ４３２は、通常、演算処理装置４２０に直ちにアクセス可能な及び／又は演算処理装置４２０によって現在動作されている、データ及び／又はプログラムモジュールを含む。限定ではなく例として、図４は、オペレーティングシステム４３４、アプリケーションプログラム４３５、他のプログラムモジュール４３６及びプログラムデータ４３７を示す。

[0040]コンピューター４１０はまた、他の取り外し可能／取り外し不能な、揮発性／不揮発性のコンピューター記憶媒体を含んでもよい。単なる例として、図４は、取り外し不能で不揮発性の磁気媒体に対して読み出し又は書き込みをするハードディスクドライブ４４１、取り外し可能で不揮発性の磁気ディスク４５２に対して読み出し又は書き込みをする磁気ディスクドライブ４５１、及びＣＤＲＯＭ又は他の光学媒体などの取り外し可能で不揮発性の光ディスク４５６に対して読み出し又は書き込みをする光ディスクドライブ４５５を示す。例示的な動作環境において使用することができる他の取り外し可能／取り外し不能な、揮発性／不揮発性のコンピューター記憶媒体は、磁気カセットテープ、フラッシュメモリーカード、デジタル・バーサタイル・ディスク、デジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭなどを含むが、これらに限定されない。ハードディスクドライブ４４１は、通常、インターフェース４４０などの取り外し不能なメモリーインターフェースを介してシステムバス４２１に接続され、磁気ディスクドライブ４５１及び光ディスクドライブ４５５は、通常、インターフェース４５０などの取り外し可能なメモリーインターフェースによってシステムバス４２１に接続される。

[0041]上に記載され図４に示されたドライブ及びその関連するコンピューター記憶媒体は、コンピューター４１０のために、コンピューター読み取り可能な命令、データ構造、プログラムモジュール及び他のデータのストレージを提供する。図４では、例えば、ハードディスクドライブ４４１は、オペレーティングシステム４４４、アプリケーションプログラム４４５、他のプログラムモジュール４４６及びプログラムデータ４４７を格納するものとして示される。これらのコンポーネントが、オペレーティングシステム４３４、アプリケーションプログラム４３５、他のプログラムモジュール４３６及びプログラムデータ４３７と同一であっても又は異なっていてもよいことに留意されたい。オペレーティングシステム４４４、アプリケーションプログラム４４５、他のプログラムモジュール４４６及びプログラムデータ４４７は、少なくともそれらが異なるコピーであることを示すために、本明細書においては異なる数字を与えられている。ユーザーは、タブレット又は又は電子デジタイザー６４６、マイクロホン４６３、キーボード４６２、及び一般にマウス、トラックボール又はタッチパッドと呼ばれるポインティングデバイス装置４６１などの入力装置を介してコンピューター４１０へコマンド及び情報を入力することができる。図４に示されない他の入力装置は、ジョイスティック、ゲームパッド、衛星放送アンテナ、スキャナーなどを含み得る。これら及び他の入力装置は、しばしば、システムバスに結合されるユーザー入力インターフェース４６０を介して演算処理装置４２０に接続されるが、パラレルポート、ゲームポート又はユニバーサル・シリアル・バス（ＵＳＢ）などの他のインターフェース及びバス構造によって接続されてもよい。モニター４９１又は他の種類の表示装置もまた、ビデオインターフェース４９０などのインターフェースを介してシステムバス４２１に接続される。モニター４９１はまた、タッチ・スクリーン・パネルなどと統合されてもよい。モニター及び／又はタッチ・スクリーン・パネルは、タブレットタイプのパーソナルコンピューターにおけるなど、計算装置４１０が組み入れられる筐体に物理的に結合することができることに留意されたい。さらに、コンピューター計算装置４１０などのコンピューターはまた、スピーカー４９５及びプリンター４９６などの他の周辺出力装置を含んでもよく、それらは出力周辺インターフェース４９４などを介して接続されてもよい。

[0042]コンピューター４１０は、リモートコンピューター４８０などの１つ又は複数のリモートコンピューターへの論理接続を使用して、ネットワーク化された環境において動作してもよい。リモートコンピューター４８０は、パーソナルコンピューター、サーバー、ルーター、ネットワークＰＣ、ピア装置又は他の共通ネットワークノードであってもよく、通常、コンピューター４１０に関連して上述された要素の多く又はすべてを含むが、メモリー記憶装置４８１のみが図４に示された。図４に描かれた論理接続は、１つ又は複数のローカルエリアネットワーク（ＬＡＮ）４７１及び１つ又は複数の広域ネットワーク（ＷＡＮ）４７３を含むが、さらに他のネットワークを含んでもよい。そのようなネットワーキング環境は、オフィス、企業規模のコンピューターネットワーク、イントラネット及びインターネットにおいてありふれたものである。

[0043]ＬＡＮネットワーキング環境において使用される場合、コンピューター４１０は、ネットワークインターフェース又はアダプター４７０を介してＬＡＮ４７１に接続される。ＷＡＮネットワーキング環境において使用される場合、コンピューター４１０は、通常、インターネットなどのＷＡＮ４７３を介した通信を確立するためのモデム４７２又は他の手段を含む。モデム４７２は、内部にあってもよいし外部にあってもよく、ユーザー入力インターフェース４６０又は他の適切な機構を介してシステムバス４２１に接続されてもよい。インターフェース及びアンテナを含むような無線ネットワーキングコンポーネントは、アクセスポイント又はピアコンピューターなどの適切な装置を介してＷＡＮ又はＬＡＮに結合されてもよい。ネットワーク化された環境では、コンピューター４１０又はその一部に対して描かれたプログラムモジュールは、遠隔メモリー記憶装置に格納されてもよい。限定ではなく例として、図４は、メモリー装置４８１上に存在するものとしてリモートアプリケーションプログラム４８５を示す。示されたネットワーク接続が例示的なものであり、コンピューター間で通信リンクを確立する他の手段が使用されてもよいことが認識される。

[0044]たとえ計算機装置の主要部が低電力状態にあっても、補助サブシステム４９９（例えば、コンテンツの補助的な表示用）を、プログラムコンテンツ、システム状態及びイベント通知などのデータがユーザーに提供されることを可能にするために、ユーザーインターフェース４６０を介して接続することができる。主処理装置４２０が低電力状態にある間、これらのシステム間の通信を可能にするために、補助サブシステム４９９がモデム４７２及び／又はネットワークインターフェース４７０に接続されてもよい。
結論
[0045]本発明は様々な修正及び代替的な構成を受け入れるものであるが、その特定の図示された実施例が図面に示され、詳細に上述されてきた。しかし、本発明を開示された特定の形式に限定する意図はなく、反対に、本発明の趣旨及び範囲内にあるすべての修正、代替的な構成、及び均等物をカバーすることが意図される。

Claims

コンピューター環境において、
少なくとも１つのセンサーを含むセンサーセットからデータを受信し、エンティティに関連する狭窄情報を情報プロバイダーから受信し、前記データ及び前記狭窄情報を送信するように構成される狭窄モジュールと、
受信される前記データに基づいて、認識されるエンティティに関連付けられる認識メタデータを出力するように構成され、前記狭窄モジュールから受信される前記狭窄情報に基づいて作成されるクエリーを用いる狭窄検索の試みに基づいて前記認識メタデータを得るようにさらに構成され、前記狭窄検索の試みが失敗した場合、前記認識メタデータを得るために拡張検索を実行するようにさらに構成される、認識機構と、
前記認識メタデータに対応する情報をそのエンティティを示すビデオ出力に関連付けるように構成される機構と
を備えるシステム。
前記センサーセットが、前記ビデオ出力をさらに提供するビデオカメラを含む請求項１に記載のシステム。
前記認識機構が顔認識を実行し、前記認識機構は顔認識を最適化するために前記ビデオ出力からフレームを選択する請求項２に記載のシステム。
前記認識機構は顔関連データ及び顔関連のデータの各組のメタデータを含むデータストアに結合され、前記認識機構は、前記センサーセットから顔の画像を得て、前記メタデータを得るために顔関連のデータの一致するセットを求めて前記データストアを検索する請求項１に記載のシステム。
前記認識メタデータが、ユーザーが前記エンティティを選択する場合に前記エンティティに対して現れ、前記エンティティが選択されない場合に見えなくなるラベルとして表示される請求項１に記載のシステム。
前記認識メタデータに対応する情報を前記ビデオ出力に関連付ける前記機構が、前記エンティティの名前を用いて前記ビデオ出力にラベル付けする請求項１に記載のシステム。
前記センサーセットが、カメラ、マイクロホン、ＲＦＩＤ読み取り装置、もしくはバッジ読み取り装置、又はカメラ、マイクロホン、ＲＦＩＤ読み取り装置もしくはバッジ読み取り装置のうちの任意の組み合わせを含む請求項１に記載のシステム。
前記認識機構が前記認識メタデータを得るためにウェブサービスと通信する請求項１に記載のシステム。
コンピューター環境において、
人又は物体のデータ表現を受信するステップと、
前記人又は物体に関連する狭窄情報を情報プロバイダーから受信するステップと、
前記人又は物体のデータ表現及び前記狭窄情報を送信するステップと、
前記人又は物体のデータ表現をメタデータに一致させるステップであって、前記人又は物体のデータ表現を前記メタデータに一致させることを試みるために、受信される前記狭窄情報に基づいて作成されるクエリーを用いた狭窄検索を実行するステップ及び前記狭窄検索の試みが失敗した場合に前記メタデータを得るために拡張検索を実行するステップを含む、ステップと、
前記人又は物体がビデオセッション中に現在示されている場合に、前記メタデータに対応する情報を前記ビデオセッションに挿入するステップと
を含む方法。
前記人又は物体のデータ表現を受信するステップが画像を受信するステップを含み、前記人又は物体のデータ表現をメタデータに一致させるステップが、一致する画像を求めてデータストアを検索するステップを含む請求項９に記載の方法。
前記物体の前記メタデータに対応する情報は、前記物体の性質に関する情報をさらに含む請求項９に記載の方法。
前記人又は物体のデータ表現を受信するステップが顔の画像を受信するステップを含み、前記人又は物体のデータ表現をメタデータに一致させるステップは顔認識を実行するステップを含む請求項９に記載の方法。
前記メタデータに対応する情報を挿入するステップは、前記ビデオセッションをテキストと重ねるステップを含む請求項９に記載の方法。
前記メタデータに対応する情報を挿入するステップは、前記人又は物体を名前でラベル付けするステップを含む請求項９に記載の方法。
実行されると、
ビデオセッション内に示される顔の画像をとらえるステップと、
エンティティに関連する狭窄情報を情報プロバイダーから受信するステップと、
前記顔の画像及び前記狭窄情報を送信するステップと、
認識された顔に関連付けられるメタデータを得るために顔認識を実行するステップであって、データをメタデータに一致させることを試みるために受信される前記狭窄情報に基づいて作成されるクエリーを用いた狭窄検索を実行するステップ及び前記狭窄検索の試みが失敗した場合に前記メタデータを得るために拡張検索を実行するステップを含む、ステップと、
前記認識された顔が前記ビデオセッション中に示されている場合に、前記認識された顔に対応する人を識別するために前記メタデータに基づいて前記ビデオセッションにラベル付けするステップと
を行うコンピューター実行可能命令を有する１つ又は複数のコンピューター読み取り可能な記憶媒体。
前記顔認識を実行する場合に検索される候補の顔の数を低減するのに役立つ狭窄情報を使用するステップを含むコンピューター実行可能命令をさらに有し、前記狭窄情報は、カレンダーデータ、感知されたデータ、登録データ、予測されたデータもしくはパターンデータ、又はカレンダーデータ、感知されたデータ、登録データ、予測されたデータもしくはパターンデータのうちの任意の組み合わせに基づく請求項１５に記載の１つ又は複数のコンピューター読み取り可能な記憶媒体。
顔の認識に失敗すると、第１の顔認識の試み中及び第２の顔認識の試みの後に適切な一致が見つからないことを決定した後に認識結果を挿入しないステップを含むコンピューター実行可能命令をさらに有する請求項１５に記載の１つ又は複数のコンピューター読み取り可能な記憶媒体。