JP5739895B2 - ビデオセッションの自動ラベリング - Google Patents

ビデオセッションの自動ラベリング Download PDF

Info

Publication number
JP5739895B2
JP5739895B2 JP2012535236A JP2012535236A JP5739895B2 JP 5739895 B2 JP5739895 B2 JP 5739895B2 JP 2012535236 A JP2012535236 A JP 2012535236A JP 2012535236 A JP2012535236 A JP 2012535236A JP 5739895 B2 JP5739895 B2 JP 5739895B2
Authority
JP
Japan
Prior art keywords
metadata
data
recognition
information
stenosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012535236A
Other languages
English (en)
Other versions
JP2013509094A5 (ja
JP2013509094A (ja
Inventor
ヘッジ,ラジェシュ・クトパディ
リウ,ジチェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2013509094A publication Critical patent/JP2013509094A/ja
Publication of JP2013509094A5 publication Critical patent/JP2013509094A5/ja
Application granted granted Critical
Publication of JP5739895B2 publication Critical patent/JP5739895B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body

Description

本発明は、ビデオセッションの自動ラベリングに関する。
[0001]ビデオ会議は、会合、セミナー及び他のそのような活動に参加するための一般的な方法になった。複数の参加者のビデオ会議セッションにおいて、ユーザーは、しばしば、会議ディスプレイ上の遠隔の参加者を見るものの、その参加者が誰であるかが分からないことがある。また、誰かが何者であるかについてユーザーが漠然と知ってはいるが確実に知りたかったり、幾人かの名前を知っているがどの名前がどの人のものであるか分からないことがある。ユーザーは、時折、人の名前だけでなく、その人がどこの会社で働いているかなど、他の情報をも知りたいことがある。互いに知り合いではない比較的多くの人々がいる一対多のテレビ会議において、これはさらに問題である。
[0002]現在、人々が口頭で自己紹介(ビデオを介して遠隔に行うことを含む)をする機会や複数の(しばしば時間を浪費する)自己紹介による場合、又は各人がユーザーが見ることのできるタグ、名札などを有している場合以外に、ユーザーがそのような情報を得る方法はない。口頭の紹介などをする必要なしに、ビデオ会議セッションにおける他人に関する情報をユーザーが有することが望ましい。
[0003]この概要は、詳細な説明において以下にさらに記載される代表的な概念のうち選択されたものを単純化された形式で紹介するために提供される。この概要は、特許請求された主題の重要な特徴又は不可欠な特徴を特定するようには意図されず、特許請求された主題の範囲を限定するように使用されることも意図されない。
[0004]簡潔にいえば、本明細書に記載された主題の様々な態様は、人又は物体などのエンティティがビデオセッションに現れる場合にそのエンティティを識別するのに使用される関連するメタデータとともに、当該エンティティが認識される技術に関する。例えば、ビデオセッションが人の顔又は物体を示す場合、その顔又は物体は、名前及び/又は他の関連情報で(例えば、テキストオーバーレイによって)ラベル付けすることができる。
[0005]1つの態様において、ビデオセッション内に示される顔の画像がとらえられる。認識された顔に関連したメタデータを得るために顔認識が行われる。次いで、認識された顔がビデオセッション中に示されている場合に当該認識された顔に対応する人を識別するなど、ビデオセッションにラベル付けするためにメタデータが使用される。顔認識照合処理は、ビデオセッションに示されている会合に招待された人が誰であるかを示すカレンダー情報などの、他の既知の制限された情報(narrowing information)によって狭められてもよい。
[0006]図面と合わせると他の利点が以下の詳細な説明から明らかになる。
[0007]本発明は例として示されており、同様の参照数字が同様の要素を示す添付の図面において制限されるものではない。
[0008]感知されたエンティティ(例えば、人又は物体)を識別するメタデータによってビデオセッションにラベル付けする例示的な環境を表すブロック図である。 [0009]顔認識に基づいてビデオセッションに現れる顔にラベル付けをすることを表すブロック図である。 [0010]一致を探索することによりエンティティの画像にメタデータを関連付けるための例示的なステップを表すフロー図である。 [0011]本発明の様々な態様が組み入れられ得るコンピューター環境の実例を示す。
[0012]本明細書に記載された技術の様々な態様は、一般に、現在表示画面上にある人又は物体に基づいて、生の又は予め録画された/再生されたビデオ会議セッションへメタデータ(例えば、重ねられたテキスト)を自動的に挿入することに関する。一般に、これは、人又は物体を自動的に識別し、次いで、人の名前及び/又は他のデータなどの関連情報を取り出す(検索する)ためにその識別を使用することにより遂行される。
[0013]本明細書における例のいずれもが限定的でないことが理解されるべきである。実際、顔認識の使用は、人に対する1つの種類の識別機構として本明細書に記載されているが、人々を識別し、無生物の物体などの他のエンティティを識別するように機能する他のセンサー、機構及び/又は方法は等価なものである。そのため、本発明は、本明細書に記載されたいかなる特定の実施例、態様、概念、構造、機能又は例にも限定されない。より正確に言えば、本明細書に記載された実施例、態様、概念、構造、機能又は例のうちのいずれもが限定的でなく、本発明は、一般に計算、データ検索及び/又はビデオラベリングに利益及び利点をもたらす様々な方法で使用されてもよい。
[0014]図1は、認識されるエンティティ104(例えば、人又は物体)の識別に基づいてメタデータ102を出力する一般の例示的なシステムを示す。ビデオカメラなどの1つ又は複数のセンサー106が、顔画像を含むフレーム又はフレームの組などの、そのエンティティ104に関して感知されたデータを提供する。代替的なカメラは、静止画像又は静止画像の組をとらえるものであってもよい。狭窄(narrowing)モジュール108は、感知されたデータを受信し、例えば、認識の目的のために顔を最もよく表す可能性のある1つのフレームを(既知の方法で)選択してもよい。フレーム選択は、代替的に、認識機構110(以下に記載)においてなど、他の場所で行われてもよい。
[0015]狭窄モジュール108は、センサー106からデータを受信し、認識機構110にそれを提供する(代替的な実施例では、1つ又は複数のセンサーがより直接的にそれらのデータを認識機構110に提供してもよいことに留意されたい)。一般に、認識機構110は、センサーによって提供されるデータに基づいてエンティティ104を識別するためにデータストア112に問い合わせる。以下に述べられるように、問い合わせ(クエリー)は、狭窄モジュール108から受信される狭窄情報(narrowing information)に基づいて検索を狭めるように、編成されてもよいことに留意されたい。
[0016]一致が見つかると仮定すると、認識機構110は、認識結果、例えば、感知されたエンティティ104のメタデータ102、を出力する。このメタデータは、例えば、さらなる検索に役立つ識別子(ID)、及び/又はテキスト、グラフィック、ビデオ、音声、アニメーションなどの形式の既に検索された結果の組など、任意の適切な形式とすることができる。
[0017]ビデオカメラ(破線のブロック/線によって示されるようなセンサーであってもよい)又はビデオ再生機構などのビデオソース114は、ビデオ出力116、例えばビデオストリーム、を提供する。エンティティ104が示される場合、対応する情報をビデオフィードに関連付けるために、メタデータ102はラベル付け機構118によって(直接的に又は他のデータにアクセスするために)使用される。図1の例では、結果として得られるビデオフィード120は、テキストなどのメタデータ(又はメタデータによって得られる情報)と重ねられるものとして示されるが、これは1つの例にすぎない。
[0018]別の出力例は、おそらくはビデオ画面に伴って、ディスプレイなどをミーティングルーム又は会議室にいる人に見えるようにすることである。話者が演壇の後ろに立っている場合、又は話者の集団の1人が話している場合、その人の名前がディスプレイに現れてもよい。聴衆のうちの質問者は同様に識別され、このように自分の情報を出力させてもよい。
[0019]顔認識について、データストア112の検索は時間を浪費するものであって、そのために、他の情報に基づいて検索を狭めることはより効率的となり得る。その目的のために、狭窄モジュール108はまた、任意の適切な情報プロバイダー122(又は提供者)からエンティティに関連する追加の情報を受信してもよい。例えば、ビデオカメラは会議室において設定されてもよく、誰がその時に会議室へ招待された人であるかを規定するカレンダー情報が、検索を狭めるのを助けるために使用されてもよい。会議参加者は、通常、会議に登録をし、したがって、それらの参加者のリストは検索を狭めるために追加の情報として提供されてもよい。狭窄情報を得る他の方法は、組織情報に基づいて予測をすること、過去の会合に基づいて会合出席パターン(人々は通常、一緒に会合に行く)を学習することなどを含んでもよい。狭窄モジュール108は、検索候補を狭めるためにクエリーを編成する(公式化する)際などにおいて認識機構110によって使用可能な形式へと、そのような情報を変換することができる。
[0020]顔認識の代わりに、又は顔認識に加えて、様々な他の種類のセンサーが識別及び/又は狭窄化での使用のために実現可能である。例えば、マイクロホンは、話者の声を名前に一致させることができる音声認識技術に結合することができる;カメラが彼らの画像をとらえると、テキストとして認識される名前によって、人は彼らの名前を話すことができる。バッジ及び/又は名札が、テキスト認識によって、又は可視のバーコードもしくはRFID技術など備えることによるなどして、直接的に誰かを識別するために読み取られてもよい。センシングもまた、顔又は音声の認識検索を狭めるために使用されてもよい;例えば、多くの種類のバッジは建物へ入る際に既に検知され、及び/又はRFID技術は誰がミーティングルーム又は会議室に入ったかを決定するのに使用することができる。携帯電話又は他の装置は、例えば、Bluetooth(ブルートゥース、登録商標)技術によって人の身元をブロードキャストしてもよい。
[0021]さらに、データストア112は、データプロバイダー124によって、検索することができるすべての利用可能なデータより少ないデータを持たされてもよい。例えば、企業従業員データベースは、彼らのIDバッジとともに使用されるような従業員の写真を保持してもよい。企業の敷地への訪問者は、入ることを許可されるために、自分の名前を提供するとともに自分の写真を撮影させることを要求され得る。従業員及び現在の訪問者のみのデータストアが構築されて最初に検索されてもよい。大企業については、特定の建物に入る従業員は彼らのバッジによってそうしてもよく、したがって、建物内に現在いる従業員は、通常、バッジ読み取り装置によって知られており、それによって、建物ごとのデータストアが最初に検索されてもよい。
[0022]適切な一致(例えば、十分な確率水準)が検索中に見つからない場合、検索は拡張されてもよい。上記の例のうちの1つを使用すると、1人の従業員が別の従業員とともに建物に入り、入館のための自分のバッジを使用しない場合、建物の既知の入館者の検索は適切な一致を見つけないことになる。そのような状況において、検索は、従業員データベース全体など(例えば、以前の訪問者)へと拡張してもよい。結局、結果が「人が認識されない」などとなり得ることに留意されたい。悪い入力はまた、問題、例えば、暗い照明、狭い視角など)を引き起こし得る。
[0023]物体は、ラベル付けのために同様に認識することができる。例えば、ユーザーは、デジタルカメラなどの装置を持ち上げるか、又は写真を示してもよい。適切なデータストアは、正確なブランド名、モデル、希望小売価格などを見つけるために画像を用いて検索されてもよく、それは次いで画像についてのユーザーの見方(view)にラベル付けするために使用されてもよい。
[0024]図2は、顔認識に基づくより具体的な例を示す。ユーザーは、サービス222、例えばウェブサービスによって1つ又は複数の顔がラベル付けされることを要求するためにユーザーインターフェース220とインタラクトする。ウェブサービスにおけるデータベースはカメラ224によってとらえられる顔の組を用いて更新され、したがって要求を予期して顔を得ること及び/又はラベル付けすることを始めてもよい。顔の自動及び/又は手動のラベル付けもまた、データベースを更新するために行われてもよい。
[0025]ビデオ・キャプチャー・ソース226が顔画像228を得る場合、画像は顔認識機構230に提供され、それは、ラベル(又は他のメタデータ)が顔とともに返されることを要求するウェブサービス(又は所与の顔又はエンティティについてメタデータを提供する他の機構)を呼び出す。ウェブサービスはラベルに反応し、次いで、ラベルは、テキストを画像に重ねるものなどの、顔ラベル付け機構232に渡され、それによって、顔についてのラベル付けされた画像234が提供される。顔認識機構230は、顔が現れる次のときに顔をラベル付けする際の効率化のために、顔/ラベル付け情報をローカルキャッシュ236に格納することができる。
[0026]したがって、顔認識は、おそらくは既知の任意の狭窄情報とともに人の顔の画像をサービスへと送信することにより、リモートサービスにおいて行うことができる。次いで、当該サービスは適切な質問(クエリー)形成及び/又は照合を行ってもよい。しかし、認識のうちのいくらか又はすべてはローカルに行われてもよい。例えば、ユーザーのローカルコンピューターが、顔及びユーザーの代表的な特徴の組を抽出し、又はそのような特徴についてリモート・データベースを検索するためにそれらの特徴を送信してもよい。さらにまた、サービスはビデオフィードを受信していてもよい;そうであるならば、顔が現れるフレーム内のフレーム番号及び位置が送信され、それによって、当該サービスが処理のために画像を抽出してもよい。
[0027]さらに、上述のように、メタデータはラベルを含む必要はなく、ラベル及び/又は他の情報が探索され得る識別子なであってもよい。例えば、識別子は、人の名前の同一性、人の会社、人のウェブサイトへのリンク、出版物などの経歴情報、人の電話番号、電子メールアドレス、組織図内の立場などを決定するために使用されてもよい。
[0028]そのような追加情報はユーザーインターフェース220とのユーザーのインタラクションに依存し得る。例えば、ユーザーは最初はラベルだけを見るかもしれないが、そのラベルに関して追加情報を拡張させたり壊したりすることができる。ユーザーは、より多くの閲覧の選択肢を得るためにその他の方法でラベルとインタラクトする(例えば、それをクリックする)ことができる。
[0029]図3は、ビデオフレームがとらえられるステップ302において開始する、顔認識によってラベル付け情報を得る例示的な処理をまとめたものである。画像はフレームから抽出することができ、又は、ステップ304によって表されるように、1つ又は複数のフレーム自体が認識機構へ送信されてもよい。
[0030]ステップ306及び308は、利用可能な場合の狭窄情報の使用を表す。上述のように、任意の狭窄情報を、少なくとも最初に検索をより効率的にするために使用することができる。会合の出席者のリスト又は会議参加者の登録リストを提供するために使用されるカレンダー情報の上記の例は、検索をはるかに効率的にすることができる。
[0031]ステップ310は、人の身元に対して顔を照合させるためにクエリーを作成することを表す。上述のように、クエリーは検索する顔のリストを含んでもよい。ステップ310また、利用可能な場合にローカルキャッシュなどを探索することを表すことに留意されたい。
[0032]ステップ312は検索の結果を受信することを表す。図3の例では、最初の検索の試みの結果は、同一、又は「一致はない」という結果、又はおそらくは可能性のある候補の一致(candidate matches)の組であってもよい。ステップ314は結果を評価することを表す;一致が十分によい場合、ステップ322は当該一致についてメタデータを返すことを表す。
[0033]一致が見つからない場合、ステップ316は、検索範囲が別の検索の試みについて拡張されてもよいか否かを評価することを表す。例として、招待されなかった人が出席すると決定するような会合について考える。カレンダー情報によって検索を狭めることは、その招かれなかった人についての一致を見つけないことに帰着する。そのような場合、階層的に出席者より上又は出席者より下である、会社内の人々(例えば、出席者が報告をする対象の人々又は出席者に報告をする人々)を捜すためなど、ある方法で検索範囲は拡大されてもよい(ステップ320)。検索範囲を拡張するためにクエリーが再作成される(reformulated)必要があり、及び/又は異なるデータストアが探索され得ることに留意されたい。ステップ314において一致がいまだ見つからない場合、必要ならば、検索の拡張は従業員データベース又は訪問者データベースの全体などへと続いてもよい。一致が見つからない場合、ステップ318はこの認識されていない状態を示すなんらかのものを返すことができる。
例示的な動作環境
[0034]図4は、図1−3の例が実施され得る適切なコンピューティング及びネットワーキング環境400の例を示す。計算機システム環境400は適切なコンピューター環境の1つの例にすぎず、本発明の使用又は機能の範囲に関していかなる限定も示唆するようには意図されない。また、コンピューター環境400は、例示的な動作環境400に示されたコンポーネントのうちのいかなる1つ又は組み合わせに関連するいかなる依存性も要件も有するものとして解釈されるべきでない。
[0035]本発明は、多数の他の汎用又は専用の計算機システム環境又は構成によって動作可能である。本発明を用いた使用に適し得る周知の計算機システム、環境及び/又は構成の例は、パーソナルコンピューター、サーバコンピューター、ハンドヘルド又はラップトップ装置、タブレットデバイス、マルチプロセッサーシステム、マイクロプロセッサーベースのシステム、セットトップボックス、プログラム可能な家電、ネットワークPC、ミニコンピューター、メインフレームコンピューター、上記のシステム又はデバイスのうちの任意のものを含む分散コンピューティング環境などを含むが、これらに限定されない。
[0036]本発明は、コンピューターによって実行される、プログラムモジュールなどのコンピューター実行可能命令の一般的なコンテキストにおいて述べられてもよい。一般に、プログラムモジュールは、特定のタスクを実行し又は特定の抽象データ型を実施する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、通信網を介してリンクされる遠隔処理装置によってタスクが行われる分散コンピューティング環境において実行されてもよい。分散コンピューティング環境では、プログラムモジュールは、メモリー記憶装置を含むローカル及び/又はリモートコンピューター記憶媒体に配置されてもよい。
[0037]図4に関して、本発明の様々な態様を実施するための例示的なシステムは、汎用計算装置をコンピューター410の形で含んでもよい。コンピューター410のコンポーネントは、演算処理装置420、システムメモリー430、及びシステムメモリーを含む様々なシステムコンポーネントを演算処理装置420へ結合するシステムバス421を含み得るが、これらに限定されない。システムバス421は、様々なバスアーキテクチャーのうちの任意のものを使用する、メモリーバス又はメモリーコントローラー、周辺バス、及びローカルバスを含むいくつかの種類のバス構造のうちの任意のものであってもよい。限定ではなく例として、そのようなアーキテクチャーは、業界標準アーキテクチャー(ISA)バス、マイクロチャネルアーキテクチャー(MCA)バス、エンハンストISA(EISA)バス、ビデオエレクトロニクス標準協会(VESA)ローカルバス、及びメザニンバスとしても知られる周辺コンポーネント相互接続(PCI)バスを含む。
[0038]コンピューター410は、通常、様々なコンピューター読み取り可能な媒体を含む。コンピューター読み取り可能な媒体は、コンピューター410によってアクセスすることができる任意の利用可能な媒体であってもよく、揮発性及び不揮発性の媒体の両方並びに取り外し可能及び取り外し不能な媒体の両方を含む。限定ではなく例として、コンピューター読み取り可能な媒体はコンピューター記憶媒体及び通信媒体を含んでもよい。コンピューター記憶媒体は、コンピューター読み取り可能な命令、データ構造、プログラムモジュール又は他のデータなどの情報の記憶のために任意の方法又は技術で実施される、揮発性及び不揮発性、取り外し可能な及び取り外し不能な媒体を含む。コンピューター記憶媒体は、所望の情報を格納するために使用することができ、コンピューター410によってアクセスすることができる、RAM、ROM、EEPROM、フラッシュメモリーもしくは他のメモリー技術、CD−ROM、デジタル・バーサタイル・ディスク(DVD)もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、又は任意の他の媒体を含むが、これらに限定されない。通信媒体は、通常、搬送波又は他の移送機構などの変調されたデータ信号に、コンピューター読み取り可能な命令、データ構造、プログラムモジュール又は他のデータを具体化し、任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、情報を信号中に符号化するような方法で設定又は変化されたその特徴のうち1つ又は複数の特徴を有する信号を意味する。限定でない例として、通信媒体は、有線ネットワーク又は直接的な有線接続などの有線の媒体、及び音響、RF、赤外線及び他の無線媒体などの無線媒体を含む。上記のもののうちの任意のものの組み合わせもまた、コンピューター読み取り可能な媒体の範囲内に含まれる。
[0039]システムメモリー430は、読み取り専用メモリー(ROM)431及びランダム・アクセス・メモリー(RAM)432などの揮発性及び/又は不揮発性メモリーの形式のコンピューター記憶媒体を含む。起動中などに、コンピューター410内の要素で情報を転送するのを支援する基本的なルーチンを含む基本入出力システム433(BIOS)は、通常、ROM431に通常格納される。RAM432は、通常、演算処理装置420に直ちにアクセス可能な及び/又は演算処理装置420によって現在動作されている、データ及び/又はプログラムモジュールを含む。限定ではなく例として、図4は、オペレーティングシステム434、アプリケーションプログラム435、他のプログラムモジュール436及びプログラムデータ437を示す。
[0040]コンピューター410はまた、他の取り外し可能/取り外し不能な、揮発性/不揮発性のコンピューター記憶媒体を含んでもよい。単なる例として、図4は、取り外し不能で不揮発性の磁気媒体に対して読み出し又は書き込みをするハードディスクドライブ441、取り外し可能で不揮発性の磁気ディスク452に対して読み出し又は書き込みをする磁気ディスクドライブ451、及びCD ROM又は他の光学媒体などの取り外し可能で不揮発性の光ディスク456に対して読み出し又は書き込みをする光ディスクドライブ455を示す。例示的な動作環境において使用することができる他の取り外し可能/取り外し不能な、揮発性/不揮発性のコンピューター記憶媒体は、磁気カセットテープ、フラッシュメモリーカード、デジタル・バーサタイル・ディスク、デジタルビデオテープ、固体RAM、固体ROMなどを含むが、これらに限定されない。ハードディスクドライブ441は、通常、インターフェース440などの取り外し不能なメモリーインターフェースを介してシステムバス421に接続され、磁気ディスクドライブ451及び光ディスクドライブ455は、通常、インターフェース450などの取り外し可能なメモリーインターフェースによってシステムバス421に接続される。
[0041]上に記載され図4に示されたドライブ及びその関連するコンピューター記憶媒体は、コンピューター410のために、コンピューター読み取り可能な命令、データ構造、プログラムモジュール及び他のデータのストレージを提供する。図4では、例えば、ハードディスクドライブ441は、オペレーティングシステム444、アプリケーションプログラム445、他のプログラムモジュール446及びプログラムデータ447を格納するものとして示される。これらのコンポーネントが、オペレーティングシステム434、アプリケーションプログラム435、他のプログラムモジュール436及びプログラムデータ437と同一であっても又は異なっていてもよいことに留意されたい。オペレーティングシステム444、アプリケーションプログラム445、他のプログラムモジュール446及びプログラムデータ447は、少なくともそれらが異なるコピーであることを示すために、本明細書においては異なる数字を与えられている。ユーザーは、タブレット又は又は電子デジタイザー646、マイクロホン463、キーボード462、及び一般にマウス、トラックボール又はタッチパッドと呼ばれるポインティングデバイス装置461などの入力装置を介してコンピューター410へコマンド及び情報を入力することができる。図4に示されない他の入力装置は、ジョイスティック、ゲームパッド、衛星放送アンテナ、スキャナーなどを含み得る。これら及び他の入力装置は、しばしば、システムバスに結合されるユーザー入力インターフェース460を介して演算処理装置420に接続されるが、パラレルポート、ゲームポート又はユニバーサル・シリアル・バス(USB)などの他のインターフェース及びバス構造によって接続されてもよい。モニター491又は他の種類の表示装置もまた、ビデオインターフェース490などのインターフェースを介してシステムバス421に接続される。モニター491はまた、タッチ・スクリーン・パネルなどと統合されてもよい。モニター及び/又はタッチ・スクリーン・パネルは、タブレットタイプのパーソナルコンピューターにおけるなど、計算装置410が組み入れられる筐体に物理的に結合することができることに留意されたい。さらに、コンピューター計算装置410などのコンピューターはまた、スピーカー495及びプリンター496などの他の周辺出力装置を含んでもよく、それらは出力周辺インターフェース494などを介して接続されてもよい。
[0042]コンピューター410は、リモートコンピューター480などの1つ又は複数のリモートコンピューターへの論理接続を使用して、ネットワーク化された環境において動作してもよい。リモートコンピューター480は、パーソナルコンピューター、サーバー、ルーター、ネットワークPC、ピア装置又は他の共通ネットワークノードであってもよく、通常、コンピューター410に関連して上述された要素の多く又はすべてを含むが、メモリー記憶装置481のみが図4に示された。図4に描かれた論理接続は、1つ又は複数のローカルエリアネットワーク(LAN)471及び1つ又は複数の広域ネットワーク(WAN)473を含むが、さらに他のネットワークを含んでもよい。そのようなネットワーキング環境は、オフィス、企業規模のコンピューターネットワーク、イントラネット及びインターネットにおいてありふれたものである。
[0043]LANネットワーキング環境において使用される場合、コンピューター410は、ネットワークインターフェース又はアダプター470を介してLAN471に接続される。WANネットワーキング環境において使用される場合、コンピューター410は、通常、インターネットなどのWAN473を介した通信を確立するためのモデム472又は他の手段を含む。モデム472は、内部にあってもよいし外部にあってもよく、ユーザー入力インターフェース460又は他の適切な機構を介してシステムバス421に接続されてもよい。インターフェース及びアンテナを含むような無線ネットワーキングコンポーネントは、アクセスポイント又はピアコンピューターなどの適切な装置を介してWAN又はLANに結合されてもよい。ネットワーク化された環境では、コンピューター410又はその一部に対して描かれたプログラムモジュールは、遠隔メモリー記憶装置に格納されてもよい。限定ではなく例として、図4は、メモリー装置481上に存在するものとしてリモートアプリケーションプログラム485を示す。示されたネットワーク接続が例示的なものであり、コンピューター間で通信リンクを確立する他の手段が使用されてもよいことが認識される。
[0044]たとえ計算機装置の主要部が低電力状態にあっても、補助サブシステム499(例えば、コンテンツの補助的な表示用)を、プログラムコンテンツ、システム状態及びイベント通知などのデータがユーザーに提供されることを可能にするために、ユーザーインターフェース460を介して接続することができる。主処理装置420が低電力状態にある間、これらのシステム間の通信を可能にするために、補助サブシステム499がモデム472及び/又はネットワークインターフェース470に接続されてもよい。
結論
[0045]本発明は様々な修正及び代替的な構成を受け入れるものであるが、その特定の図示された実施例が図面に示され、詳細に上述されてきた。しかし、本発明を開示された特定の形式に限定する意図はなく、反対に、本発明の趣旨及び範囲内にあるすべての修正、代替的な構成、及び均等物をカバーすることが意図される。

Claims (17)

  1. コンピューター環境において、
    少なくとも1つのセンサーを含むセンサーセットからデータを受信し、エンティティに関連する狭窄情報を情報プロバイダーから受信し、前記データ及び前記狭窄情報を送信するように構成される狭窄モジュールと、
    受信される前記データに基づいて、認識されるエンティティに関連付けられる認識メタデータを出力するように構成され、前記狭窄モジュールから受信される前記狭窄情報に基づいて作成されるクエリーを用いる狭窄検索の試みに基づいて前記認識メタデータを得るようにさらに構成され、前記狭窄検索の試みが失敗した場合、前記認識メタデータを得るために拡張検索を実行するようにさらに構成される、認識機構と、
    前記認識メタデータに対応する情報をそのエンティティを示すビデオ出力に関連付けるように構成される機構と
    を備えるシステム。
  2. 前記センサーセットが、前記ビデオ出力をさらに提供するビデオカメラを含む請求項1に記載のシステム。
  3. 前記認識機構が顔認識を実行し、前記認識機構は顔認識を最適化するために前記ビデオ出力からフレームを選択する請求項2に記載のシステム。
  4. 前記認識機構は顔関連データ及び顔関連のデータの各組のメタデータを含むデータストアに結合され、前記認識機構は、前記センサーセットから顔の画像を得て、前記メタデータを得るために顔関連のデータの一致するセットを求めて前記データストアを検索する請求項1に記載のシステム。
  5. 前記認識メタデータが、ユーザーが前記エンティティを選択する場合に前記エンティティに対して現れ、前記エンティティが選択されない場合に見えなくなるラベルとして表示される請求項1に記載のシステム。
  6. 前記認識メタデータに対応する情報を前記ビデオ出力に関連付ける前記機構が、前記エンティティの名前を用いて前記ビデオ出力にラベル付けする請求項1に記載のシステム。
  7. 前記センサーセットが、カメラ、マイクロホン、RFID読み取り装置、もしくはバッジ読み取り装置、又はカメラ、マイクロホン、RFID読み取り装置もしくはバッジ読み取り装置のうちの任意の組み合わせを含む請求項1に記載のシステム。
  8. 前記認識機構が前記認識メタデータを得るためにウェブサービスと通信する請求項1に記載のシステム。
  9. コンピューター環境において、
    人又は物体のデータ表現を受信するステップと、
    前記人又は物体に関連する狭窄情報を情報プロバイダーから受信するステップと、
    前記人又は物体のデータ表現及び前記狭窄情報を送信するステップと、
    前記人又は物体のデータ表現をメタデータに一致させるステップであって、前記人又は物体のデータ表現を前記メタデータに一致させることを試みるために、受信される前記狭窄情報に基づいて作成されるクエリーを用いた狭窄検索を実行するステップ及び前記狭窄検索の試みが失敗した場合に前記メタデータを得るために拡張検索を実行するステップを含む、ステップと、
    前記人又は物体がビデオセッション中に現在示されている場合に、前記メタデータに対応する情報を前記ビデオセッションに挿入するステップと
    を含む方法。
  10. 前記人又は物体のデータ表現を受信するステップが画像を受信するステップを含み、前記人又は物体のデータ表現をメタデータに一致させるステップが、一致する画像を求めてデータストアを検索するステップを含む請求項9に記載の方法。
  11. 前記物体の前記メタデータに対応する情報は、前記物体の性質に関する情報をさらに含む請求項9に記載の方法。
  12. 前記人又は物体のデータ表現を受信するステップが顔の画像を受信するステップを含み、前記人又は物体のデータ表現をメタデータに一致させるステップは顔認識を実行するステップを含む請求項9に記載の方法。
  13. 前記メタデータに対応する情報を挿入するステップは、前記ビデオセッションをテキストと重ねるステップを含む請求項9に記載の方法。
  14. 前記メタデータに対応する情報を挿入するステップは、前記人又は物体を名前でラベル付けするステップを含む請求項9に記載の方法。
  15. 実行されると、
    ビデオセッション内に示される顔の画像をとらえるステップと、
    エンティティに関連する狭窄情報を情報プロバイダーから受信するステップと、
    前記顔の画像及び前記狭窄情報を送信するステップと、
    認識された顔に関連付けられるメタデータを得るために顔認識を実行するステップであって、データをメタデータに一致させることを試みるために受信される前記狭窄情報に基づいて作成されるクエリーを用いた狭窄検索を実行するステップ及び前記狭窄検索の試みが失敗した場合に前記メタデータを得るために拡張検索を実行するステップを含む、ステップと、
    前記認識された顔が前記ビデオセッション中に示されている場合に、前記認識された顔に対応する人を識別するために前記メタデータに基づいて前記ビデオセッションにラベル付けするステップと
    を行うコンピューター実行可能命令を有する1つ又は複数のコンピューター読み取り可能な記憶媒体。
  16. 前記顔認識を実行する場合に検索される候補の顔の数を低減するのに役立つ狭窄情報を使用するステップを含むコンピューター実行可能命令をさらに有し、前記狭窄情報は、カレンダーデータ、感知されたデータ、登録データ、予測されたデータもしくはパターンデータ、又はカレンダーデータ、感知されたデータ、登録データ、予測されたデータもしくはパターンデータのうちの任意の組み合わせに基づく請求項15に記載の1つ又は複数のコンピューター読み取り可能な記憶媒体。
  17. 顔の認識に失敗すると、第1の顔認識の試み中及び第2の顔認識の試みの後に適切な一致が見つからないことを決定した後に認識結果を挿入しないステップを含むコンピューター実行可能命令をさらに有する請求項15に記載の1つ又は複数のコンピューター読み取り可能な記憶媒体。
JP2012535236A 2009-10-23 2010-10-12 ビデオセッションの自動ラベリング Expired - Fee Related JP5739895B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/604,415 2009-10-23
US12/604,415 US20110096135A1 (en) 2009-10-23 2009-10-23 Automatic labeling of a video session
PCT/US2010/052306 WO2011049783A2 (en) 2009-10-23 2010-10-12 Automatic labeling of a video session

Publications (3)

Publication Number Publication Date
JP2013509094A JP2013509094A (ja) 2013-03-07
JP2013509094A5 JP2013509094A5 (ja) 2013-10-17
JP5739895B2 true JP5739895B2 (ja) 2015-06-24

Family

ID=43898078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012535236A Expired - Fee Related JP5739895B2 (ja) 2009-10-23 2010-10-12 ビデオセッションの自動ラベリング

Country Status (6)

Country Link
US (1) US20110096135A1 (ja)
EP (1) EP2491533A4 (ja)
JP (1) JP5739895B2 (ja)
KR (1) KR20120102043A (ja)
CN (1) CN102598055A (ja)
WO (1) WO2011049783A2 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630854B2 (en) 2010-08-31 2014-01-14 Fujitsu Limited System and method for generating videoconference transcriptions
US8791977B2 (en) * 2010-10-05 2014-07-29 Fujitsu Limited Method and system for presenting metadata during a videoconference
US9277248B1 (en) * 2011-01-26 2016-03-01 Amdocs Software Systems Limited System, method, and computer program for receiving device instructions from one user to be overlaid on an image or video of the device for another user
US20130083151A1 (en) * 2011-09-30 2013-04-04 Lg Electronics Inc. Electronic device and method for controlling electronic device
JP2013161205A (ja) * 2012-02-03 2013-08-19 Sony Corp 情報処理装置、情報処理方法、及びプログラム
US20130215214A1 (en) * 2012-02-22 2013-08-22 Avaya Inc. System and method for managing avatarsaddressing a remote participant in a video conference
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US20140125456A1 (en) * 2012-11-08 2014-05-08 Honeywell International Inc. Providing an identity
US9256860B2 (en) 2012-12-07 2016-02-09 International Business Machines Corporation Tracking participation in a shared media session
US9124765B2 (en) * 2012-12-27 2015-09-01 Futurewei Technologies, Inc. Method and apparatus for performing a video conference
KR20150087034A (ko) 2014-01-21 2015-07-29 한국전자통신연구원 객체-콘텐츠 부가정보 상관관계를 이용한 객체 인식장치 및 그 방법
WO2015133782A1 (ko) 2014-03-03 2015-09-11 삼성전자 주식회사 컨텐츠 분석 방법 및 디바이스
US10079861B1 (en) 2014-12-08 2018-09-18 Conviva Inc. Custom traffic tagging on the control plane backend
US9704020B2 (en) * 2015-06-16 2017-07-11 Microsoft Technology Licensing, Llc Automatic recognition of entities in media-captured events
US10320861B2 (en) * 2015-09-30 2019-06-11 Google Llc System and method for automatic meeting note creation and sharing using a user's context and physical proximity
CA3001480C (en) * 2015-10-16 2019-06-18 Tribune Broadcasting Company, Llc Video-production system with dve feature
US10289966B2 (en) * 2016-03-01 2019-05-14 Fmr Llc Dynamic seating and workspace planning
CN105976828A (zh) * 2016-04-19 2016-09-28 乐视控股(北京)有限公司 一种声音区分方法和终端
JP6161224B1 (ja) * 2016-12-28 2017-07-12 アンバス株式会社 人物情報表示装置、人物情報表示方法及び人物情報表示プログラム
US10754514B1 (en) * 2017-03-01 2020-08-25 Matroid, Inc. Machine learning in video classification with schedule highlighting
CN107317817B (zh) * 2017-07-05 2021-03-16 广州华多网络科技有限公司 生成索引文件的方法、标识用户发言状态的方法和终端
KR101996371B1 (ko) * 2018-02-22 2019-07-03 주식회사 인공지능연구원 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램
US10810457B2 (en) * 2018-05-09 2020-10-20 Fuji Xerox Co., Ltd. System for searching documents and people based on detecting documents and people around a table
US10839104B2 (en) * 2018-06-08 2020-11-17 Microsoft Technology Licensing, Llc Obfuscating information related to personally identifiable information (PII)
CN109034040B (zh) * 2018-07-19 2021-11-23 北京影谱科技股份有限公司 一种基于演员表的人物识别方法、装置、设备和介质
CN108882033B (zh) * 2018-07-19 2021-12-14 上海影谱科技有限公司 一种基于视频语音的人物识别方法、装置、设备和介质
US10999640B2 (en) 2018-11-29 2021-05-04 International Business Machines Corporation Automatic embedding of information associated with video content
US11356488B2 (en) 2019-04-24 2022-06-07 Cisco Technology, Inc. Frame synchronous rendering of remote participant identities
CN111522967B (zh) * 2020-04-27 2023-09-15 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN111930235A (zh) * 2020-08-10 2020-11-13 南京爱奇艺智能科技有限公司 基于vr设备的展示方法、装置以及电子设备

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6894714B2 (en) * 2000-12-05 2005-05-17 Koninklijke Philips Electronics N.V. Method and apparatus for predicting events in video conferencing and other applications
US7203692B2 (en) * 2001-07-16 2007-04-10 Sony Corporation Transcoding between content data and description data
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
JP4055539B2 (ja) * 2002-10-04 2008-03-05 ソニー株式会社 双方向コミュニケーションシステム
US7274822B2 (en) * 2003-06-30 2007-09-25 Microsoft Corporation Face annotation for photo management
US7164410B2 (en) * 2003-07-28 2007-01-16 Sig G. Kupka Manipulating an on-screen object using zones surrounding the object
EP1669890A4 (en) * 2003-09-26 2007-04-04 Nikon Corp METHOD, DEVICE AND SYSTEM FOR CUMULATING ELECTRONIC IMAGES
US7564994B1 (en) * 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
JP2007067972A (ja) * 2005-08-31 2007-03-15 Canon Inc 会議システム及び会議システムの制御方法
US8125509B2 (en) * 2006-01-24 2012-02-28 Lifesize Communications, Inc. Facial recognition for a videoconference
US8125508B2 (en) * 2006-01-24 2012-02-28 Lifesize Communications, Inc. Sharing participant information in a videoconference
JP2007272810A (ja) * 2006-03-31 2007-10-18 Toshiba Corp 人物認識システム、通行制御システム、人物認識システムの監視方法、および、通行制御システムの監視方法
CN101443763B (zh) * 2006-05-09 2012-10-10 皇家飞利浦电子股份有限公司 用于给内容作注解的设备和方法
JP4375570B2 (ja) * 2006-08-04 2009-12-02 日本電気株式会社 顔認識方法およびシステム
US20080043144A1 (en) * 2006-08-21 2008-02-21 International Business Machines Corporation Multimodal identification and tracking of speakers in video
JP4914778B2 (ja) * 2006-09-14 2012-04-11 オリンパスイメージング株式会社 カメラ
US7847815B2 (en) * 2006-10-11 2010-12-07 Cisco Technology, Inc. Interaction based on facial recognition of conference participants
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
JP4835545B2 (ja) * 2007-08-24 2011-12-14 ソニー株式会社 画像再生装置、撮像装置、および画像再生方法、並びにコンピュータ・プログラム
JP5459527B2 (ja) * 2007-10-29 2014-04-02 株式会社Jvcケンウッド 画像処理装置およびその方法
US8144939B2 (en) * 2007-11-08 2012-03-27 Sony Ericsson Mobile Communications Ab Automatic identifying
KR100969298B1 (ko) * 2007-12-31 2010-07-09 인하대학교 산학협력단 얼굴인식을 통한 영상에서의 사람 상호관계 추론 방법
US20090210491A1 (en) * 2008-02-20 2009-08-20 Microsoft Corporation Techniques to automatically identify participants for a multimedia conference event
US20090232417A1 (en) * 2008-03-14 2009-09-17 Sony Ericsson Mobile Communications Ab Method and Apparatus of Annotating Digital Images with Data
US20090319388A1 (en) * 2008-06-20 2009-12-24 Jian Yuan Image Capture for Purchases
US20100085415A1 (en) * 2008-10-02 2010-04-08 Polycom, Inc Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference
NO331287B1 (no) * 2008-12-15 2011-11-14 Cisco Systems Int Sarl Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom
CN101540873A (zh) * 2009-05-07 2009-09-23 深圳华为通信技术有限公司 一种在视讯会议中提示发言人信息的方法、装置及系统

Also Published As

Publication number Publication date
KR20120102043A (ko) 2012-09-17
EP2491533A2 (en) 2012-08-29
WO2011049783A3 (en) 2011-08-18
WO2011049783A2 (en) 2011-04-28
CN102598055A (zh) 2012-07-18
EP2491533A4 (en) 2015-10-21
JP2013509094A (ja) 2013-03-07
US20110096135A1 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
JP5739895B2 (ja) ビデオセッションの自動ラベリング
US7680360B2 (en) Information processing system and information processing method
JP5003125B2 (ja) 議事録作成装置及びプログラム
US20140348394A1 (en) Photograph digitization through the use of video photography and computer vision technology
US20090144056A1 (en) Method and computer program product for generating recognition error correction information
AU2005220252A1 (en) Automatic face extraction for use in recorded meetings timelines
CN103049520A (zh) 利用照片来发起及施行动作
CN102542249A (zh) 视频内容中的脸部识别
US7921074B2 (en) Information processing system and information processing method
US10841115B2 (en) Systems and methods for identifying participants in multimedia data streams
CN101489073A (zh) 信息处理装置以及信息处理方法
CN110431524A (zh) 信息处理系统、信息处理装置、信息处理程序和信息处理方法
US20160034496A1 (en) System And Method For Accessing Electronic Data Via An Image Search Engine
US20130124240A1 (en) System and Method for Student Activity Gathering in a University
JP2019121234A (ja) 画像処理装置
JP4649944B2 (ja) 動画像処理装置、動画像処理方法およびプログラム
US20060257003A1 (en) Method for the automatic identification of entities in a digital image
Hiippala et al. A multimodal approach to physical and virtual linguistic landscapes across different spatial scales
CN109978736A (zh) 一种基于人脸识别的智慧班牌的多点信息提取、反馈方法与系统
US20070043763A1 (en) Information processing system and information processing method
Hilbert et al. Seamless capture and discovery for corporate memory
CN114124864B (zh) 消息处理方法、装置
US20240146781A1 (en) Systems and methods for managing digital notes for collaboration
US11386139B2 (en) System and method for generating analytics for entities depicted in multimedia content
CN115412700A (zh) 一种会议信息展示方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130829

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140516

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140818

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150424

R150 Certificate of patent or registration of utility model

Ref document number: 5739895

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees