JP2011528150A

JP2011528150A - ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム

Info

Publication number: JP2011528150A
Application number: JP2011518715A
Authority: JP
Inventors: ジェイヤグニク，; ミンチャオ，
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2008-07-14
Filing date: 2009-07-14
Publication date: 2011-11-10
Anticipated expiration: 2029-07-14
Also published as: JP5602135B2; JP2014146367A; WO2010008520A1; EP2318979A1; EP2318979B1; KR101640268B1; CN102165464A; KR20110036934A; US8213689B2; US20100008547A1

Abstract

ビデオコンテンツ内の個人の自動注釈のための方法およびシステムを開示する。一実施形態では、ビデオ内の顔を識別する方法は、入力ビデオストリームから顔トラックを生成する段階と、各顔トラックの主要な顔画像を選択する段階と、顔クラスタを生成するように、顔トラックをクラスタ化する段階と、顔クラスタから顔モデルを作成する段階と、顔モデルを顔モデルデータベースに相関させる段階とを含む。別の実施形態では、ビデオ内の顔を識別するためのシステムは、顔モデルおよび対応する名前を伴う顔エントリを有する、顔モデルデータベースと、ビデオ顔識別モジュールとを含む。さらに別の実施形態では、ビデオ内の顔を識別するためのシステムはまた、顔モデルジェネレータも有することができる。

Description

本発明は、ビデオコンテンツ内の個人の認識に関する。

インターネットは、テキスト、画像、およびビデオを含む、異なる種類の膨大な量のコンテンツをホストする。このコンテンツを活用するために、コンテンツは、検索可能であり、かつ整理されている必要がある。画像は、一般に、ユーザによって手動で割り当てられるタグに基づいて検索および整理される。同様に、ビデオコンテンツは、一般に、手動で割り当てられるタグに基づいて検索および整理される。

しかしながら、インターネット上の入手可能な大量のビデオコンテンツにタグを手動で割り当てる時、一貫性を維持することは非現実的である。例えば、各ビデオは、相当な長さである場合があり、ビデオの異なる部分に登場する、多くの個人を含む場合がある。ビデオは、姿勢、表情、照明、オクルージョン、および品質によって様々であり得る。ビデオ内に登場する各個人の名前でビデオに正確にタグを付けるには、相当量の手動労力が要求され得る。コンテンツにタグを付ける手動手法には、インターネット上の入手可能な大量のコンテンツに対する拡張性がない。

一般的なオブジェクト認識への現在の手法は、所与のクエリに関連する画像を見つけ、次に、次いで画像内およびビデオ内のオブジェクト検出／認識に使用される種々のオブジェクトの関連モデルを学習するために、画像検索エンジンを使用するステップを含む。しかしながら、これらの手法は、大きなデータ集合内で一個人の顔によって提示され得る相当な変化に対処せず、同一の個人のものではあるが、年齢、化粧、表情、光条件等を含む側面による相当な変化を有する顔を確実に認識することができない。他の手法は、ニュースアーカイブを使用して、適当なラベルを推測するために、顔の判別座標を自動抽出し、クラスタ化するステップを適用する。しかしながら、顔の判別座標に基づいて直接クラスタ化することは、一連の画像に生じるノイズの問題に対処しない。

したがって、ビデオ内に登場する個人の顔に基づき、ビデオコンテンツに自動で注釈を付ける方法およびシステムが必要とされる。

一実施形態では、ビデオ内の顔を識別する、コンピュータ実装方法は、入力ビデオストリームから１つ以上の顔トラックを生成する段階と、１つ以上の顔トラックのそれぞれの主要な顔画像を選択する段階と、顔クラスタを生成するように、顔トラックをクラスタ化する段階であって、各顔クラスタは、１つ以上の主要な顔画像に関連付けられる、段階と、顔クラスタから顔モデルを作成する段階と、顔モデルを顔モデルデータベースに相関させる段階とを含む。

別の実施形態では、ビデオ内の顔を識別するためのシステムは、顔モデルおよび対応する名前を伴う顔エントリを有する、顔モデルデータベース構成要素と、ビデオ顔識別モジュール構成要素とを含む。ビデオ顔識別モジュールは、入力ビデオストリーム内の顔を検出する、顔検出モジュールと、検出顔を追跡し、顔トラックを生成する、顔追跡モジュールと、トラック内顔クラスタ化モジュールと、トラック間顔クラスタ化モジュールと、検出顔モデル生成モジュールと、検出顔モデルをデータベース内の顔エントリと比較する、モデル比較モジュールとを含むことができる。

さらに別の実施形態では、ビデオ内の顔を識別するためのシステムは、構成要素として、名前リストを生成する、名前生成モジュールと、名前リストに対応する画像の場所を特定する、画像検索モジュールと、顔検出モジュールと、顔モデル生成モジュールと、１つ以上の顔モデルおよび対応する名前を対で記憶する、収集モジュールと、一貫性学習モジュールとを有する、顔モデルジェネレータを含む。検出顔モデルおよび名前の対に加えて、収集モジュールはまた、ユーザ入力から得られる顔モデルおよび名前の対を記憶してもよい。

本発明のさらなる特徴および利点、ならびにその種々の実施形態の構造および動作は、添付の図面を参照して、以下に詳細に記載される。本発明は、本明細書に記載される具体的実施形態に限定されないことが留意される。そのような実施形態は、例示するためだけに本明細書に提示される。追加の実施形態は、本明細書に包含される教示に基づき、関連技術分野に精通する者に明らかとなるであろう。

実施例が添付の図面中に図示され得る、本発明の実施形態が参照される。これらの図面は、制限ではなく、例示であることが意図される。本発明は、概して、これらの実施形態の文脈において記載されるが、本発明の範囲をこれらの特定の実施形態に制限することは意図されないことを理解されたい。

図１は、本発明の一実施形態に係る、システム図である。図２は、本発明の実施形態に係る、顔モデル生成モジュールの構成要素を示す。図３は、本発明の実施形態に係る、ビデオ顔認識モジュールの構成要素を示す。図４は、モデル構築段階およびビデオ顔認識段階を含む、本発明の実施形態を実装するコンピュータ実装方法の高レベルフローチャートを示す。図５は、本発明の実施形態に係る、図４のモデル生成段階のより詳細な動作を示す。図６は、本発明の実施形態に係る、一個人に対応する顔モデルエントリの構造を示す。図７は、本発明の実施形態に係る、図４のビデオ顔認識段階のより詳細な動作を示す。図８は、本発明の実施形態に係る、図７の顔検出および追跡段階の動作の詳細図である。

本発明は、特定の用途の実例的実施形態を参照して本明細書に記載されるが、本発明は、それに限定されないことを理解されたい。本明細書の教示が入手可能な当業者は、その範囲内の追加の修正、用途、および実施形態、ならびに本発明が大いに役立ち得る追加の分野を認識するであろう。

ビデオ記録デバイスの普及およびインターネットによって提供される接続性によって加速されたコンテンツの増殖によって、ますますより大きなビデオのコレクションが入手可能となってきている。相互接続ネットワークおよび共有ビデオコレクションの使用によって、いかなる時点においても、単一のユーザは、世界中に広まった、個人が著した種々の主題上のビデオコンテンツの大きなコレクションへのアクセスを有し得る。これらの大きなコレクションに含まれる情報を活用するために、コレクションは、検索を容易にするように構造化される必要がある。例えば、ビデオ内に登場する個人の名前等の情報で、これらのビデオの大きなコレクションに自動で注釈を付けることができるシステムが有用であり得る。本開示の方法およびシステムは、最小限の手動介入によって、名前と顔を自動で関連付けるため、および次いで、ビデオコンテンツ内の顔の確実な認識に使用される、一式の顔モデルを得るために、例えば、インターネット上の入手可能な大きなテキストおよび画像コーパスを利用する。得られた一式のモデルは、ビデオコンテンツをより検索可能にするためのビデオコンテンツの自動認識および注釈付けに使用することができる。例えば、関連付けを行うのに十分な情報が入手可能な有名人または他の人気のある人々のモデルが作成されてもよい。

（システム構成要素）
図１は、本発明の実施形態に係る、例えば、ビデオ内に登場する人気のある個人の名前等の情報で、ビデオに自動で注釈を付けることができるシステム１００を示す。ビデオプロセッサモジュール１０１は、接続デバイス１３１を用いて、システムインターフェース１３０に連結される。システムインターフェース１３０は、ビデオプロセッサモジュール１０１と同一のコンピューティングプラットフォーム上にある、ユーザインターフェースもしくはアプリケーションプログラミングインターフェース、または例えば、ウェブクライアント等の遠隔ユーザインターフェースであってもよい。したがって、接続デバイス１３１は、例えば、周辺構成要素相互接続（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ：ＰＣＩ）バス、イーサネット（登録商標）、または無線通信標準等の接続方法を使用してもよい。

ビデオプロセッサモジュール１０１はまた、ビデオコーパス１１４、画像コーパス１１２、およびテキストコーパス１１０にアクセスすることもできる。コーパス１１４、１１２、および１１０のいくつかまたは全ては、例えば、インターネットのような広域ネットワーク（ＷＡＮ）、もしくはローカルエリアネットワーク（ＬＡＮ）等のネットワーク１４０を通してアクセス可能であってもよく、またはユーザの所有するシステム上のローカルにあってもよい。コーパス１１４、１１２、および１１０は、それぞれ、同一の場所にある、または分散された、１つ以上のコーパスを含んでもよい。いくつかの実施形態では、コーパス１１４、１１２、および１１０は、一部分または全体が同一の場所にあってもよい。ビデオプロセッサモジュール１０１は、例えば、かつ制限なく、ＰＣＩバス、イーサネット（登録商標）、および無線通信標準を含む、任意の接続１４１を通して、ネットワーク１４０に連結されてもよい。ビデオコーパス１１４は、任意の長さ、ならびに例えば、かつ制限なく、任意のＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）標準、ａｕｄｉｏｖｉｄｅｏｉｎｔｅｒｌｅａｖｅ標準（ＡＶＩ）、ＱｕｉｃｋＴｉｍｅ、およびＷｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＶｉｄｅｏ（ＷＭＶ）を含む、任意のビデオ形式のビデオクリップを含んでもよい。ビデオクリップは、１人以上の個人を有するビデオを含む。画像コーパス１１２は、ＪＰＥＧ、ＴＩＦＦ、およびＰＮＧ等の任意の画像形式の画像を含んでもよい。画像コーパス１１２は、個人の画像を含む。テキストコーパス１１０は、例えば、ローカルで、および／またはインターネット上でアクセス可能なテキストアーカイブを含む。入手可能なテキストアーカイブは、例えば、かつ制限なく、ＡＳＣＩＩテキスト、ＰＤＦテキスト、および他の形態のテキストを含んでもよい。

ビデオプロセッサモジュール１０１はまた、接続１４２で、顔モデルのデータベース１２１および注釈付きビデオのデータベース１２３にも連結される。顔モデルのデータベース１２１は、画像コーパス１１２内の入手可能な画像に少なくとも一部において基づき、ビデオプロセッサモジュール１０１によって生成された、顔モデルを含む。顔モデルのそのような生成は、以下の図５を参照してさらに記載される。データベース１２１は、表される各個人の１つ以上の顔モデルを含んでもよい。これはまた、個人もしくは個人の顔画像に付けられた名前または他のタグ等の追加の情報を含んでもよい。注釈付きビデオのデータベース１２３は、ビデオプロセッサモジュール１０１での処理中に注釈が付けられた、主にビデオコーパス１１４からのビデオを含む。本開示で使用される場合、「データベース」とは、データ要素の任意のコレクション、ならびに関連ストレージおよびアクセス機構を指す。接続１４２は、例えば、ＰＣＩバス、イーサネット（登録商標）、および無線通信標準等の１つ以上の接続方法を使用してもよい。

ビデオプロセッサモジュール１０１は、顔モデル生成モジュール１０２、ビデオ顔認識モジュール１０３、ビデオ注釈付けモジュール１０９、モデル更新モジュール１０７、およびクエリモジュール１０５を含む、いくつかの構成要素を含むことができる。ビデオプロセッサモジュール１０１、ならびにサブモジュール１０２、１０３、１０５、１０７、および１０９のいくつかまたは全ては、ソフトウェア、ハードウェア、またはこれらの任意の組み合わせに実装されてもよい。例えば、モデル生成モジュール１０２は、中央処理演算装置（図１に示されていない）上に、実行可能なコードとして実装されてもよい。別の実施形態では、モデル生成モジュール１０２は、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ等のハードウェア構成要素に実装されてもよい。当業者は、ビデオプロセッサモジュール１０１が、１つ以上のプラットフォームに実装されてもよいことを理解するであろう。

顔モデル生成モジュール１０２は、画像コーパス１１２およびビデオコーパス１１４内の画像から選択される顔のモデルを構築してもよい。モジュール１０２はまた、顔画像がモデル化される、一式の人々を決定してもよい。例えば、実施形態では、テキストコーパス１１０は、最も人気のある個人のリストを得、彼らのそれぞれの顔の１つ以上の画像の場所を特定するために分析される。ニュースアーカイブは、テキストコーパス１１０および画像コーパス１１２の組み合わせであってもよく、ニュースアーカイブ内の個人の名前の出現頻度の分析は、最も頻繁に出現する名前のリストを生成することができる。最も頻繁に出現する名前の多くは、１つ以上のニュース記事内の名前が付けられた個人の顔を有する画像に関連付けられてもよく、したがって、これらの名前が付けられた人々の顔画像のモデルを取得するための開始点として使用することができる。次いで、画像コーパス１１２およびビデオコーパス１１４からのこれらならびに他の一致画像から得られた顔モデルは、顔モデルのデータベース１２１内に記憶することができる。

ビデオ顔認識モジュール１０３は、ビデオコーパス１１４から顔を検出し、認識するために、顔モデルのデータベース１２１からの顔モデルを含む顔モデルを使用する。ビデオストリーム内の顔の認識は、以下の図７および図８を参照してより詳細に説明される。ビデオコーパス１１４のビデオストリーム内の顔が検出され、認識される際、モジュール１０３は、ビデオ注釈付けモジュール１０９と共に、顔が認識される個人に関する既知の情報で、ビデオに注釈を付けることができる。例えば、対応する画像に関連付けられるデータベース１２１内の名前およびタグが、注釈付けに使用されてもよい。次いで、注釈付きビデオ、またはその一部分を、注釈付きビデオのデータベース１２３内に記憶することができる。

本発明のいくつかの実施形態では、モデル更新モジュール１０７は、画像コーパス１１２およびビデオコーパス１１４への新しい追加に基づき、データベース１２１内の顔モデルを更新するために使用することができる。これはまた、ビデオ顔認識モジュール１０３によって認識される顔を追加することによって、データベース１２１内の顔モデルを更新してもよい。増加する数の画像に従って、データベース１２１内の入手可能な顔モデルを更新することによって、様々な姿勢、光条件等を網羅する複数の画像を有する個人の顔認識の信頼性が高められてもよい。また、いくつかの実施形態では、クエリモジュール１０５は、注釈付きビデオデータベース１２３内のビデオ情報を活用するために使用されてもよい。例えば、クエリモジュール１０５は、外部モジュールによるアクセスによって、指定される個人が登場する一式のビデオクリップまたはビデオクリップの部分を検索し、これらのビデオクリップを入手可能にするように、外部モジュールと共働してもよい。このように、例えば、指定される個人が少なくとも１回登場するビデオトラックを提示するように、特定の個人の標準ブラウザ検索を向上することができる。

図２は、顔モデル生成モジュール１０２の構成要素を示す。名前リスト生成モジュール２０１は、顔モデルが生成され、顔モデルのデータベース１２１内に記憶される、個人のリストを取得する。例えば、名前リスト生成モジュール２０１は、最も頻繁に出現する名前のリストを決定するために、外部テキストコーパス、例えば、テキストコーパス１１０にアクセスしてもよい。画像検索モジュール２０３は、少なくとも１つの画像を、モジュール２０１によって生成された名前のリスト内の各名前に関連付ける。例えば、画像コーパス１１２内の１つ以上の画像は、モジュール２０１によって生成された名前のリストにある名前の有名人に関する新聞記事の一部分であってもよい。記事と共に画像を含むことによって、画像検索モジュール２０３によって検出される関連が提供される。着目個人の名前のリストおよびこれらの名前に関連付けられる画像を使用して、顔検出モジュール２０５は、関連付けられる名前に対応する顔を検出するように、各画像を処理する。顔モデル作成モジュール２０７は、単一の名前に対応する、検出された１つ以上の顔から、１つ以上の顔モデルを作成する。モデル収集モジュール２０９は、同一の個人に対応する全ての顔モデルを集める。一貫性学習モジュール２１１は、各関連付けられた名前の１つ以上の顔モデルを選択し、一致が弱いと見なされる顔モデルを除外する。

図１を参照すると、顔モデルデータベース１２１は、データベース内に含まれる一個人当たり１つ以上の顔モデルを包含する。顔認識に複数のモデルを使用することによって、システムの精度が高まる。複数の顔モデルは、同一の個人の異なる風貌、異なる光条件、異なる環境等を表すことができる。画像およびビデオコンテンツの大きなコレクション内の同一の個人の顔について、表情、顔の装飾品、年齢、光条件等の非常に大きな変化が予測され得る。同一の個人の各顔モデル、および／または顔モデルの各グループに、個人の名前を含む、１つ以上のタグを関連付けることができる。

図３には、本発明の実施形態に係る、ビデオ顔認識モジュール１０３の構成要素が示されている。ビデオ顔検出モジュール３０１は、到着ビデオ内の顔を検出する。検出モジュール３０１が顔を検出した後、顔追跡モジュール３０３は、到着ビデオストリーム内の顔を追跡する。顔追跡モジュール３０３は、モジュール３０１によって検出され、次いでモジュール３０３によって追跡される、各顔の１つ以上のトラックを作成することができる。次いで、トラック内クラスタ化モジュール３０５は、各トラックに基づき、顔クラスタを作成するように、生成されたトラックを処理する。例えば、一個人の顔が、表情、サングラス等の顔の装飾品、異なる光条件等によって、風貌が大幅に変化する場合、単一のトラックの持続時間中にさえ、大きく変化するため、顔を正確に捕捉するために、複数の顔モデルが要求されてもよい。トラック内クラスタ化モジュール３０５は、特定の顔において検出される変化のレベルに従って、各ビデオトラック内で追跡される各顔の１つ以上の顔画像を収集する。トラック間クラスタ化モジュール３０７は、顔画像のトラック内クラスタを使用して、クラスタを作成する。トラック間クラスタ化モジュール３０７は、ビデオ内の検出される各個人の１つの一式の顔画像クラスタを作成するように、別個のトラックからの類似するクラスタを組み合わせることができる。

トラック間クラスタ化モジュール３０７によって生成された顔画像クラスタを入力として、ビデオ顔モデル生成モジュール３０９は、各個人の選択された１つ以上の画像に対応する顔モデルを生成する。生成される新しい顔モデルは、例えば、顔モデルのデータベース１２１内に記憶することができる。例えば、種々の表情、光条件等を網羅する複数の顔モデルを有することで、一般に、ビデオまたは画像コーパス内の顔の出現を確実に検出することが容易になる。モデル比較モジュール３１１は、新しく生成された顔モデルを取り出し、追加のモデルを記憶することが有益であり得るかどうかを決定してもよい。モジュール３１１は、新しく生成された顔モデルをデータベース１２１内に記憶された１つ以上のモデルと一致させ、それによって、新しく生成された顔モデルを、場合によっては、個人の名前を含む、データベース１２１内に記憶された１つ以上のタグに関連付ける。新しく検出された顔を、データベース１２１内に以前に記憶された情報に関連付けることによって、モジュール３１１は、注釈モジュール１０９が、関連付けられた個人の名前、および／またはタグ内に包含される他の情報等のデータで、ビデオトラックまたはセグメントに注釈を付けるのを容易にしてもよい。注釈付きビデオは、注釈付きビデオのデータベース１２３内に記憶されてもよい。新しい顔モデルが顔モデルのデータベース１２１に追加される際、顔モデルを作成または更新するために、例えば、一貫性学習アルゴリズム等の検証およびフィルタリングアルゴリズムを使用することができる。

（顔モデルの生成および更新）
図４は、本発明の実施形態に係る、２つの主要な処理段階を示す、フローチャートである。顔モデル生成段階４０１は、データベース１２１等の顔モデルのデータベースを構築し、更新するステップを含む。ビデオ顔認識段階４０２は、ビデオ内の顔を検出し、認識するために、既存の顔モデルデータベースを使用するステップを含む。顔モデル生成段階４０１の実施形態は、図５に示される構成要素段階にさらに分けられる。段階４０１は、図２に示されるものを含む構成要素を使用して実装することができる。ビデオ顔認識段階４０２の実施形態は、図７に示される構成要素段階にさらに分けられる。段階４０２は、図３に示されるものを含む構成要素を使用して実装することができる。

図５は、本発明の実施形態に係る、顔モデルのデータベースの作成における、例示的処理段階を図示する、フローチャートである。段階５０１では、一式の名前が決定され、各名前に対して、段階４０１は、１つ以上の対応する顔モデルを決定し、これらの顔モデルを、顔モデルのデータベース１２１等のデータベース内に記憶することを試みる。名前のリストは、例えば、最新ニュースアーカイブ等のテキストおよび画像コーパス内に最も頻繁に出現する名前等の基準に基づいて決定されてもよい。そのような選択基準は、一般に、例えば、有名人等の最も人気のある名前のリストをもたらしてもよい。名前の自動生成リストは、新しい名前を追加するため、既存の名前を削除するため、もしくは既存の名前を修正するために、手動またはプログラムで編集されてもよい。例えば、一実施形態では、名前のリストにユーザの親友の名前を追加することができる。ソースのコレクション内に最も頻繁に出現する名前を決定するためのテキスト分析方法は、当該技術分野において周知である。

段階５０２では、名前リスト内の名前のそれぞれに関連付けられる複数の画像を集めるために、画像コーパス１１２が検索される。前述されるように、本発明の実施形態は、完全に、または部分的に統合されたテキストおよび画像コーパスで動作してもよい。例えば、画像が埋め込まれている画像キャプションまたは記事は、名前と関連画像との間の実質的に明白な関連を入手するために使用することができる。本発明の実施形態では、同一の記事内に画像が登場するニュース記事内に頻繁に登場する名前の関連等、名前と画像との間の関連を推測することができる。上記のニュース記事内のもの等の名前と画像との間の関連弛緩は、例えば、一般に、弱く、かつノイズの多いテキスト−画像相関データと見なすことができる。画像コーパスのサイズに対する対応するテキストコーパスのサイズが増加するにつれて、名前を画像に確実に相関させることがより困難になる。しかしながら、インターネット上でアクセス可能なもの等のテキストおよび画像コーパスのサイズならびに多様性は、これらの弱く、かつノイズの多い関連を、顔画像対名前の関連の初期推定値として使用することを可能にする。

段階５０３では、段階５０２で見つかった各画像に対して、顔検出が実施される。画像内の顔検出の方法は、当該技術分野において周知である。画像が１つのみ検出顔をもたらす場合、検出顔と対応する名前との間の関連は、明白であってもよい。画像が複数の検出顔をもたらす時、本発明のいくつかの実施形態では、対応する名前と各検出顔との間の関連が推測されてもよい。一個人への関連の解像度は、例えば、段階５０６に任せることができる。いくつかの実施形態では、所定の数より多い検出顔を有する画像は、本発明の目的への使用から除外されてもよい。いくつかの実施形態では、対応する文書内の最も著名な顔画像を最も頻繁に出現する名前に相関させる等の方法が使用されてもよい。当業者は、テキストサンプル内に登場する名前と対応する画像との間に緩い初期の関連を形成する、複数の方法が存在することを理解するであろう。本発明の一実施形態では、ユーザは、個人の顔、および対応する名前またはテキストラベルを含む、１つ以上の画像を提供してもよい。これらのユーザによって提供される画像および名前の対はまた、さらなる処理のために、顔データベースに追加されてもよい。

段階５０３で検出される各顔に対して、段階５０４で、１つ以上の特徴ベクトルが生成される。特徴ベクトルは、対応する特徴ベクトルを使用して、２つの顔画像を比較することができるように、検出顔の特定の特性を説明する。顔画像の特徴ベクトルを生成する方法は、当該技術分野において既知である。例えば、名前がつけられた個人の画像コーパスの検索、および見つかる画像の処理は、名称が「ＩｄｅｎｔｉｆｙｉｎｇＩｍａｇｅｓＵｓｉｎｇＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ」の米国特許出願公開第２００８／０１３０９６０号に記載される。

段階５０５では、特徴ベクトルが、対応する個人の名前と関連して記憶される。例えば、他の関連タグ情報を含む、特徴ベクトルおよび対応する名前の対は、顔画像のデータベース１２１等のデータベース内に記憶することができる。図６は、本発明の一実施形態の顔画像のデータベース１２１内のエントリの実施例を図示する。特定の個人Ａについて、個人の顔画像を表す、全ての特徴ベクトル６０１が、個人Ａに関連付けられる名前を含むテキストラベルまたはタグに関連付けられてもよい。当業者は、データを記憶する他の形態が可能であることを理解するであろう。

段階５０６では、特定の個人の特徴ベクトルは、特定の個人のものであると確実に見なすことができる、一式の顔モデルおよび／または特徴群に減少するように処理される。各個人の保持される顔モデルの数は、様々であり、表情、年齢、顔の装飾品、光条件等の画像の状態の変化に主に依存する。本発明のいくつかの実施形態では、各表される個人の好適な一式の顔モデルを抜き出すために、一貫性学習等のバギング技術が適用される。一貫性学習は、例えば、名称が「ＧｒａｐｈＢａｓｅｄＳａｍｐｌｉｎｇ」の米国特許出願第１１／８４０，１３９号に詳細に記載される。

（ビデオ内の顔の検出および追跡）
図７は、本発明の実施形態に係る、ビデオ顔認識段階４０２をより詳細に図示する。段階７０１では、ビデオが受信される。ビデオは、例えば、かつ制限なく、ローカルで、ネットワーク上で、またはビデオ再生デバイスもしくはビデオ記録デバイス等の外部ソースから受信されてもよい。本開示の教示は、例えば、ＭＰＥＧ、ＡＶＩ、ＱｕｉｃｋＴｉｍｅ、ＷＭＶ等を含む、任意のビデオ形式のビデオに適用する。段階７０２では、到着ビデオストリーム上で、顔検出および追跡が実施される。本発明の一実施形態では、一連のブーストされた分類子の拡張子に基づく正面顔検出が使用される。一連のブーストされた分類子を使用する正面顔検出は、Ｐ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ， ”Ｒｏｂｕｓｔｒｅａｌｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ，” ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩＣＣＶＷｏｒｋｓｈｏｐｏｎＳｔａｔｉｓｔｉｃａｌａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＴｈｅｏｒｉｅｓｏｆＶｉｓｉｏｎ，Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ（Ｊｕｌｙ２００１）に記載される。

本発明のいくつかの実施形態では、顔検出および顔追跡は、各検出顔に対して、交互かつ周期的に使用される。顔検出を周期的に実施し、顔追跡プロセスによって導かれることによって、一般に、顔検出が顔追跡より計算上集中的であるため、計算負荷の低減が助長される。顔追跡の信頼性を改善するために、本発明のいくつかの実施形態は、各顔画像の特徴群から選択される一式の特徴が追跡される、顔の特徴に基づく追跡を使用することができる。顔の特徴に基づく追跡は、顔を追跡することができるかどうかを確実に決定することができる。

図８は、本発明の一実施形態における、段階７０２の詳細な動作の図示である。段階８０２では、ショット境界であるかどうかを決定するように、各到着ビデオフレーム８０１が観測される。ショット境界検出は、異なるショットにわたる追跡を低減するために使用される。ショットは、１つのカメラからの連続する一連のフレームである。ショット間に、例えば、カットおよびフェードを含む、いくつかの異なる種類のショット境界または変わり目が存在する。カットとは、単一のフレーム内に出現する、突然のショット変更である。フェードとは、通常、黒一色のフレームをもたらす、または黒一色のフレームで開始する、輝度の緩やかな変化である。多くの他の種類の緩やかな変わり目が可能である。多くの技術が、ショット境界検出の文献に記載される。フレームがショット境界フレームであると決定される場合、そのフレームは、顔検出段階８０３がそのフレーム内の個人の顔を検出する時に処理される。段階８０３が正常に行われる時、次いで、段階８０６で、新しい顔の特徴トラッカを始動させることができる。顔トラッカは、ビデオが進行する際に、割り当てられた顔を追跡することに主に専念する、別個の処理スレッドとして実装されてもよい。段階８０６で作成されるもの等の顔トラッカは、出力をもたらし、顔モデルのデータベース１２１等のストレージ内に追跡結果を記録する。

ステップ８０２で、現在のビデオフレームはショット境界ではないと決定される時、段階８０８は、ビデオフレーム上で顔検出を実施するかどうかを決定する。顔追跡の使用は、各フレーム上で顔検出を行うことによってもたらされる可能性がある計算負荷を低減するためにするように想定される。顔の特徴に基づく追跡システムは、各フレーム上で追跡を継続することができるかどうかを効率的に決定することができる。段階８０８で、顔検出を使用すると決定される時、段階８０９で顔検出が開始される。段階８０９で顔が検出される場合、段階８１１で、検出顔が現在追跡されているかどうかが決定されなければならない。段階８０９で検出された顔が現在追跡されている場合、段階８１２で、既存の対応するトラッカを再起動する試みが行われる。段階８１３で既存のトラッカを再起動することができないと段階８１３で決定される場合、段階８０６で、新しいトラッカが作成され、起動される。段階８０９で、顔検出が失敗する場合、段階８１４で、既存のトラッカを使用する試みが行われる。段階８１５では、既存のトラッカが段階８１４で使用するのに利用可能であるかどうかが決定される。段階８１５で失格の各既存のトラッカは、段階８１６で終了される。

段階８０８で、現在のビデオフレームの顔検出が不要であると決定される場合、段階８１７で、既存の顔トラッカのそれぞれを再起動する試みが行われる。段階８１８で、トラッカの起動が失敗すると決定される場合、トラッカを検出することができるかどうかを決定するために、段階８１９で、さらなる確認が行われる。段階８１９で検出することができないトラッカは、段階８１６で終了される。そうでなければ、段階８１９で依然として検出することができるトラッカに対して、段階８２０で、新しいトラッカが作成され、起動される。段階８０７で受信される各入力ビデオフレーム８０１の結果は、さらなる処理のために、記録または記憶することができる。

図７に戻ると、顔検出および追跡が実施されたビデオは、段階７０２で、各トラックの一式の代表的な顔画像が選択される。段階７０２での顔検出および追跡の後、顔は、各トラックが、実施形態では、連続するビデオフレーム内の同一の個人の一連の顔である、顔トラックによって表されてもよい。インターネットでアクセス可能なもの等の広く入手可能なビデオコーパスを考えると、ビデオの品質が悪いことがしばしばある。段階７０３で、各ビデオトラック内の主要な顔画像を選択することによって、ビデオコーパス１１４内に含まれる、より低い品質のビデオの影響を大幅に低減することができる。ビデオトラック内の一式の主要な顔画像の選択に、クラスタ化に基づくアルゴリズム、例えば、階層的クラスタ化および／またはｋ平均クラスタ化を使用することができる。顔をクラスタに分割するために、２つの画像間の距離が使用されてもよい。２つの顔画像間の距離は、顔の特徴点から抽出される、選択される局所ガボール特徴に基づいてもよい。クラスタ化の後、各クラスタは、姿勢、オクルージョン、および品質による、同一の個人の異なる顔を含む。ノイズを低減するために、本発明のいくつかの実施形態では、所定の数より少ない顔画像を有するクラスタは、廃棄されてもよい。別の実施形態では、非正面顔画像を有するクラスタまたは顔画像は、非正面顔に基づく認識がそれ程信頼性がないため、廃棄することができる。

同一の個人は、単一のビデオ内に何回か登場する可能性がある。段階７０４では、同一の個人の画像を有するトラックを共に熟考することができるように、トラック間クラスタ化が行われる。トラックのクラスタ化では、距離測定は、段階７０３で選択された、各トラック内の主要な顔の類似点に基づいてもよい。例えば、２つのクラスタ間の距離は、第１のトラックの主要な顔と第２のトラックからの主要な顔との間の最大類似点によって画定されてもよい。階層的クラスタ化アルゴリズムはまた、この段階で、トラックをクラスタ化するために使用することができる。トラック内クラスタがトラック間クラスタにクラスタ化された後、不要または複製画像が廃棄されるように、各トラック間クラスタ内の一式の主要な顔画像に対して、さらなる処理が行われてもよい。

次に、処理段階７０５は、段階７０４で作成されたクラスタのそれぞれの上で顔認識を行う。本発明の実施形態では、各顔画像のアイデンティティを選択するために、多数決アルゴリズムおよび確率的投票アルゴリズムの組み合わせを使用することができる。多数決アルゴリズムでは、最も頻繁に出現するクラスタ内のアイデンティティが選択される。確率的投票アルゴリズムでは、アイデンティティ関連の信頼もまた考慮される。したがって、確率的投票アルゴリズムでは、最も強い信頼スコアを有するアイデンティティが選択される。本発明の一実施形態では、これは、熟考中の一式の顔モデル内に対応する画像を有さない、ある個人を表す、架空個人を導入することによって達成されてもよい。例えば、信頼ｃ（ｆ_ｉ）を伴う個人ｐ（ｆ_ｉ）として、ｋ−最近傍アルゴリズムによって認識される、各主要な顔ｆ_ｉ（顔トラックのクラスタの一式の主要な顔は、ｆ_１，ｆ_２，…、ｆ_Ｎ）を熟考する。その後、全ての認識された個人

内の各個人について、ｐ_ｊとして主要な顔が認識される回数は、Ｎ（ｊ_ｉ）、すなわち、

であり、式中、

は、２つの引数が一致する時に１であり、そうでなければ０である、指標関数である。ｐ_ｊの平均認識信頼は、Ｃ（ｐ_ｊ）、すなわち、

である。

これらのパラメータが所定の閾値を超える値に到達する場合、最大Ｎ（ｐ_ｊ）および

を伴うアイデンティティは、トラックのこのクラスタのアイデンティティとして認識することができる。所定の閾値が到達されない場合、クラスタのアイデンティティは未知である。

段階７０５での個人の顔の識別の後、ビデオに注釈を付けるために、対応する顔の以前に得られた関連を使用することができる。例えば、顔モデルのデータベース１２１は、各記憶されたモデルを、新たに処理されたビデオセグメントに注釈を付けるために使用することができる個人の名前および／または他の情報に関連付けてもよい。例えば、ビデオ注釈モジュール１０９等のモジュールは、注釈を提供するように、ビデオ顔認識モジュール１０３と共働することができる。

注釈付きビデオ、例えば、注釈付きビデオのデータベース１２３内に記憶されたビデオは、クエリ応答に追加の情報を提供するために使用することができる。例えば、本発明の一実施形態では、名前による個人の検索は、個人が登場するビデオの特定のセグメントへのリンク、または完全なビデオ内の登場回数の指標を取り出すことができる。別の実施形態では、記憶された情報は、検索応答に提供される付随リンクにサムネイル画像を提供するために使用することができる。例えば、クエリモジュール１０５は、検索クエリに関連する識別された個人に対応する一致画像クリップまたはビデオクリップを提供することによって、外部検索アプリケーションと共働することができる。

発明の概要および要約の項ではなく、発明を実施するための形態の項は、請求項を解釈するために使用されることを目的とすると理解されたい。発明の概要および要約の項は、本発明者らによって検討されるような、本発明の全てではないが１つ以上の例示的実施形態を説明してもよく、したがって、決して本発明および添付の図面を制限することを目的としない。

特定の機能の実装およびその関係を例証する機能的構成要素を用いて、本発明を上記で説明している。これらの機能的構成要素の境界は、説明の便宜上、本明細書では任意に画定されている。特定の機能およびその関係が適切に実施される限り、代替境界を画定することができる。

具体的実施形態の先述の説明は、本発明の一般概念から逸脱することなく、必要以上の実験を伴わずに、当技術分野内の知識を適用することによって、他者が種々の用途についてそのような具体的実施形態を容易に修正および／または適合させることができる、本発明の一般的性質を完全に明らかにする。したがって、そのような適合および修正は、本明細書で提示される教示および指導に基づいて、開示された実施形態の同等物の意味および範囲内となることを目的とする。本明細書の用語または表現が、教示および指導に照らして当業者によって解釈されるように、本明細書の表現または用語は、限定ではなく説明の目的によるものであると理解されたい。

本発明の外延および範囲は、上記の例示的実施形態のうちのいずれかによって決して制限されるべきではないが、以下の請求項およびそれらの同等物のみに従って定義されるべきである。

Claims

ビデオ内の顔を識別するコンピュータ実装方法であって、
（ａ）少なくとも１つの入力ビデオストリームから、１つ以上の顔トラックを生成するステップと、
（ｂ）前記１つ以上の顔トラックのそれぞれの１つ以上の主要な顔画像を選択するステップと、
（ｃ）１つ以上の顔クラスタを生成するように、前記１つ以上の顔トラックをクラスタ化するステップであって、各顔クラスタは、前記主要な顔画像のうちの少なくとも１つに関連付けられる、ステップと、
（ｄ）前記１つ以上の顔クラスタから、１つ以上の顔モデルを作成するステップと、
（ｅ）前記顔モデルのうちの少なくとも１つを顔モデルデータベースに相関させるステップと
を含む、方法。
１つ以上の顔トラックを生成するステップは、
（ｉ）前記少なくとも１つの入力ビデオストリーム内の顔を検出するステップと、
（ｉｉ）前記少なくとも１つの入力ビデオストリーム内の前記顔を追跡するステップと
を含む、請求項１に記載のコンピュータ実装方法。
前記検出するステップおよび前記追跡するステップは、前記入力ビデオストリームの持続時間の間、間隔を置いて繰り返される、請求項２に記載のコンピュータ実装方法。
（ｆ）前記顔モデルデータベースからのデータを使用して、少なくとも１つの出力ビデオストリームに注釈を付けるステップをさらに含む、請求項１に記載のコンピュータ実装方法。
（ｉ）前記少なくとも１つの出力ビデオストリーム内の少なくとも１つの顔トラックに注釈を付けるステップをさらに含む、請求項４に記載のコンピュータ実装方法。
相関させるステップは、前記１つ以上の顔クラスタを前記顔モデルデータベースに相関させるように、多数決アルゴリズムを使用するステップを含む、請求項１に記載のコンピュータ実装方法。
相関させるステップは、前記１つ以上の顔クラスタを前記顔モデルデータベースに相関させるように、確率的投票アルゴリズムを使用するステップを含む、請求項１に記載のコンピュータ実装方法。
ビデオ内の顔を識別するためのシステムであって、
（ａ）顔モデルおよび対応する名前を備える顔エントリを有する、顔モデルデータベースと、
（ｂ）ビデオ顔識別モジュールであって、
（ｉ）入力ビデオストリーム内の顔を検出し、１つ以上の検出顔を生成する、顔検出モジュールと、
（ｉｉ）前記１つ以上の検出顔のうちの少なくとも１つを追跡し、１つ以上の顔トラックを生成する、顔追跡モジュールと、
（ｉｉｉ）前記１つ以上の顔トラックを使用して、１つ以上のトラック内顔クラスタを生成する、トラック内顔クラスタ化モジュールと、
（ｉｖ）前記１つ以上のトラック内顔クラスタを使用して、１つ以上のトラック間顔クラスタを生成する、トラック間顔クラスタ化モジュールと、
（ｖ）前記１つ以上のトラック間顔クラスタを使用して、前記１つ以上の検出顔の１つ以上の検出顔モデルを生成する、検出顔モデル生成モジュールと、
（ｖｉ）前記１つ以上の検出顔モデルを前記顔エントリと比較する、モデル比較モジュールと
を備える、ビデオ顔識別モジュールと
を備える、システム。
（ｃ）顔モデルジェネレータであって、前記顔モデルジェネレータは、
（ｉ）名前リストを生成する、名前生成モジュールと、
（ｉｉ）前記名前リスト内の１つ以上の対応する名前に関連付けられる、少なくとも１つの顔を有する、１つ以上の画像の場所を特定する、画像検索モジュールと、
（ｉｉｉ）前記１つ以上の画像内の１つ以上の標的顔を検出する、顔検出モジュールと、
（ｉｖ）前記１つ以上の標的顔のうちの少なくとも１つの１つ以上の顔モデルを生成する、顔モデル生成モジュールと、
（ｖ）前記１つ以上の顔モデルおよび前記１つ以上の対応する名前を対で記憶する、収集モジュールと、
（ｖｉ）一貫性学習モジュールであって、１つ以上の代表的な顔モデルは、前記１つ以上の顔モデルから選択され、前記１つ以上の代表的な顔モデルは、前記顔モデルデータベース内に記憶される、一貫性学習モジュールと
を備える、顔モデルジェネレータをさらに備える、請求項８に記載のシステム。
前記名前リストは、１つ以上の遠隔位置でアクセス可能な文書内の名前に基づいて生成される、請求項９に記載のシステム。
文書は、ウェブ文書を含む、請求項１０に記載のシステム。
（ｄ）前記検出顔に基づき、前記顔モデルデータベースを更新する、顔モデル更新モジュールをさらに備える、請求項８に記載のシステム。
前記顔モデルデータベースは、１つ以上の顔画像および１つ以上の対応するテキストラベルを備える、１つ以上のエントリを含み、各エントリは、１つのエンティティを表す、請求項８に記載のシステム。
前記顔モデルデータベースはさらに、１つ以上の顔画像および１つ以上の対応するテキストラベルを備える、ユーザによって直接入力される１つ以上のエントリを含む、請求項１３に記載のシステム。
前記顔追跡モジュールは、顔の特徴に基づく顔トラッカを含む、請求項８に記載のシステム。
前記トラック内クラスタ化は、ノイズクラスタを除去するステップを含む、請求項８に記載のシステム。
前記トラック間クラスタ化は、ノイズクラスタを除去するステップを含む、請求項８に記載のシステム。
前記顔検出モジュールは、周期的に呼び出され、前記顔追跡モジュールは、前記顔検出モジュールによって検出される顔に対して呼び出される、請求項８に記載のシステム。
（ｅ）前記入力ビデオストリームに注釈を付けて、注釈付き出力ビデオストリームを作り出す、ビデオ注釈モジュールをさらに備える、請求項８に記載のシステム。
（ｆ）ユーザクエリを前記顔モデルデータベース内の１つ以上のエントリに関連付ける、クエリモジュールをさらに備える、請求項８に記載のシステム。