JP2011504673A - オブジェクト認識およびデータベース移植 - Google Patents

オブジェクト認識およびデータベース移植 Download PDF

Info

Publication number
JP2011504673A
JP2011504673A JP2010532077A JP2010532077A JP2011504673A JP 2011504673 A JP2011504673 A JP 2011504673A JP 2010532077 A JP2010532077 A JP 2010532077A JP 2010532077 A JP2010532077 A JP 2010532077A JP 2011504673 A JP2011504673 A JP 2011504673A
Authority
JP
Japan
Prior art keywords
cluster
module
frame
video
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010532077A
Other languages
English (en)
Inventor
コフトゥン,イワン
ジューコフ,オレクサンデル
ムサテンコ,ユリー
シュレンジャー,ミハイル
Original Assignee
ビュードル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ビュードル・インコーポレーテッド filed Critical ビュードル・インコーポレーテッド
Publication of JP2011504673A publication Critical patent/JP2011504673A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Abstract

デジタル・メディアを処理する方法を説明する。この方法は、1つの一実施形態で、ビデオ・フレームごとにビデオ・フレーム内のオブジェクトを検出することと、オブジェクトをオブジェクト・クラスタに選択的に関連付けることとによる、ビデオ・ストリーム内のオブジェクトの識別を含む。この方法は、オブジェクト・クラスタ内のオブジェクトを基準オブジェクトと比較することと、比較に基づいて基準オブジェクトのオブジェクト・データをオブジェクト・クラスタ内のすべてのオブジェクトに選択的に関連付けることとをさらに含むことができる。この方法は、基準オブジェクトのオブジェクト・データを、関連付けられた基準オブジェクトを有しないオブジェクト・クラスタ内のすべてのオブジェクトに手動で関連付けることと、オブジェクト・クラスタについて基準オブジェクトを基準データベースに移植することとをさらに含むことができる。

Description

(関連出願)
本願は、その全体が参照によって本明細書に組み込まれている、2007年11月7日に出願した米国特許仮出願第60/986,236号、名称「SYSTEM AND METHOD OF OBJECT RECOGNITION AND DATABASE POPULATION FOR VIDEO INDEXING」および2007年12月3日に出願した米国特許出願第11/949,258号、名称「SYSTEM AND METHOD OF OBJECT RECOGNITION AND DATABASE POPULATION FOR VIDEO INDEXING」に対する米国特許法119(e)条の下での優先権の利益を主張するものである。
(技術分野)
本願は、デジタル・メディアを処理するシステムおよび方法に関する。
ビデオ・コンテンツ内のオブジェクトの検出および認識は、人工知能におけるむずかしいタスクであることがわかっている。
実施形態を、限定ではなく例として添付図面の図に示すが、添付図面では、類似する符号が、類似する要素を示す。
一実施形態による、ビデオ・インデクシングのためのオブジェクト認識およびデータベース移植の方法およびシステムがその中で実施されるアーキテクチャを示すブロック図である。 一実施形態による、ビデオ処理システムを示すブロック図である。 一実施形態による、図2のビデオ処理システムの様々なコンポーネントの間の相互関係を示すブロック図である。 一実施形態による、顔イメージ抽出モジュールを示すブロック図である。 一実施形態による、ビデオ処理の方法を示す流れ図である。 一実施形態による、顔イメージ・クラスタ化モジュールを示すブロック図である。 一実施形態による、顔イメージ・クラスタ化の方法を示す流れ図である。 一実施形態による、顔イメージ・クラスタ化モジュールがその中で実施される環境を示すブロック図である。 本明細書で述べる方法論のうちのいずれか1つまたは複数を実行させる命令のセットを実行されるコンピュータ・システムなるマシンの一例を示す図である。
本明細書で説明する一実施形態は、コンピュータにインストールされたソフトウェア(コンピュータ・プログラム)を含むオペレーティング環境、ハードウェア、またはソフトウェアとハードウェアとの組合せで実施することができる。
本明細書で開示されるのは、最小限の計算コストで、ビデオ・クリップ内のオブジェクトを検出し、クリップ全体を通じて検出されたオブジェクトを識別する効率的な技法である。この技法を利用して、すべてのカテゴリのオブジェクト(例えば、顔イメージ)を検出することができるが、用語「顔イメージ」が、本技法がどのように働くことができるのかのより明瞭な説明を与えるために、この説明全体を通じて使用される。顔イメージの検出は、下で説明する様々なアルゴリズムを使用することができる。検出された顔イメージを、様々な判断基準に従って正規化することができ、これによって、クラスタへの顔イメージの編成が容易になる。各クラスタは、1人の人の顔イメージを含むことができるが、しかし、顔イメージが既存クラスタ内の顔イメージと同一の人に属するか否かを判定するのにこの時点でシステムの信頼度レベルが十分には高くない場合があるので、人1人あたりに作成される複数のクラスタがあってもよい。
顔イメージがクラスタに編成されたならば、それらの顔イメージを、基準顔イメージと比較することができる。基準顔イメージとの比較のために顔イメージの各クラスタからのある代表的な顔イメージを利用することによって、高められた効率が達成される。基準顔イメージには、システムに既知の人の顔イメージを含めることができる。システムが、類似する基準顔イメージがないのでクラスタ内の顔イメージを識別できないと判定する場合に、手動識別を実行することができる。
イメージが、基準顔イメージとの比較によって識別されたならば、識別されたイメージに関するクラスタ・データを、データベースに格納し、顔イメージがそこから抽出されたビデオ・クリップの検索に利用することができる。格納されたデータは、とりわけ、顔イメージに関連する人の名前、ビデオ内の人の出現の時刻、およびビデオ・クリップのビデオ・フレーム内での顔イメージの位置を含むことができる。データベースに格納されるデータを利用して、キーワード(例えば、マドンナ)によって人をビデオ・クリップから検索することができる。データ使用は、ユーザに、よりよいビデオ視聴経験を与える。例えば、そのようなデータ使用は、ユーザが、キーワードに関連する顔イメージが現れるビデオ内の時刻を判定し、また、顔イメージ出現によってビデオを通ってナビゲートすることを可能にする。
図1に、ビデオ・インデクシングのための顔イメージ認識およびデータベース移植(ポピュレート)の方法およびシステムが実施される環境の一例100を示す。図1に示されているように、環境例100は、ユーザ・システム110、ビデオ処理ファシリティ120、ネットワーク130、サード・パーティ・コンテンツ・プロバイダ140、および衛星150を含むことができる。
ユーザ・システム110は、さらに、ビデオ視聴アプリケーション112および衛星パラボラ・アンテナ114を含むことができる。ユーザ・システム110は、汎用コンピュータ、テレビジョン・セット(TV)、携帯情報端末(PDA)、携帯電話機、無線デバイス、ならびに、様々な形で獲得され、格納され、または伝送されるイメージ(テキストを含む)のビジュアル提示が可能なすべての他のデバイスとすることができる。ビデオ視聴アプリケーション112は、ユーザ・システム110を介するビデオの表示を容易にする任意のアプリケーション・ソフトウェアとすることができる。ビデオ視聴アプリケーション112を、ユーザ・システム110、サード・パーティ・コンテンツ・プロバイダ140、およびビデオ処理ファシリティ120で実行し、またはこれらにまたがって分散させることができる。
衛星パラボラ・アンテナ114は、一実施形態で、衛星に信号を送信し、かつ/または衛星から信号を受信するという特定の目的のために設計されたタイプのアンテナである。衛星パラボラ・アンテナ114は、様々なサイズおよび設計を有することができ、任意のタイプのデジタル・データを衛星から受信し、衛星に送信するのに使用することができる。衛星パラボラ・アンテナ114を、ビデオ処理ファシリティ120に配置することができる。衛星パラボラ・アンテナ114が、ネットワーク接続性を提供する多数の手段のうちの1つにすぎず、他のタイプのネットワーク接続性を使用できることに留意されたい。
ビデオ処理ファシリティ120は、衛星パラボラ・アンテナ154およびビデオ処理システム200を含むことができる。衛星パラボラ・アンテナ154は、上で説明した衛星パラボラ・アンテナ114に類似するものとすることができる。ビデオ処理ファシリティ120は、設置された電気配線および電子配線、ケーブリング、ならびに、ユーティリティ、グラウンド・ネットワーク、無線ネットワーク、および電気支持構造などの機器および支持構造を含む、固定構造、モバイル構造、または移動可能な構造を表すことができる。ビデオ処理システム200を、図2を参照して例として説明する。
ビデオ処理システム200は、汎用コンピュータ・プロセッサまたは、特にデジタル・メディアの受信、作成、および分配のために設計されたタイプのプロセッサとすることができる。ビデオ処理システム200は、顔イメージの抽出をもたらす顔イメージ抽出モジュール204、顔イメージをクラスタ化する顔イメージ・クラスタ化モジュール206、および顔イメージを基準データベースに格納された基準顔イメージと比較することによって顔イメージを自動的に識別する連想エンジン208などの様々なモジュールを含むことができる。さらなるモジュールには、顔イメージの手動識別のための手動ラベル付けインターフェース214および検索可能なインデックスを格納するインデックス・データベース(DB)218を含めることができる。様々なモジュールを含む、顔イメージ抽出モジュール204の一実施形態を、下で図4を参照して例として説明する。顔イメージ抽出モジュール204を利用してビデオを処理するのに使用できる方法を、下で図5を参照して例として説明する。
ビデオから抽出された顔イメージをクラスタ化するのに利用される顔イメージ・クラスタ化モジュール206が、ビデオ処理システム200に存在することができる。いくつかの一実施形態で、人1人あたり複数のクラスタを作成することができる。様々なモジュールを含む顔イメージ・クラスタ化モジュール206の一実施形態を、下で図5を参照して例として説明する。顔イメージ・クラスタ化モジュール206でビデオを処理するのに利用できる方法を、下で図8を参照して例として説明する。
サード・パーティ・コンテンツ・プロバイダ140は、デジタル・メディア・コンテンツ・ジェネレータ142および衛星パラボラ・アンテナ184を含むことができる。サード・パーティ・コンテンツ・プロバイダ140は、デジタル・ビデオなどのデジタル・メディア・コンテンツを所有するか、それに対する権利を有する実体とすることができる。例として、サード・パーティ・コンテンツ・プロバイダ140は、デジタル・メディア・ブロードキャスタにレポートを提供するニュース・サービスとすることができる。デジタル・メディア・コンテンツ・ジェネレータ142は、ビデオ・コンテンツを生成し、ビデオ処理ファシリティ120で受信されるために衛星パラボラ・アンテナ184またはネットワーク130を介してビデオ・コンテンツを送信する、ソフトウェア・アプリケーションとすることができる。衛星パラボラ・アンテナ184は、上で説明した衛星パラボラ・アンテナ114に類似するものとすることができる。ネットワーク130は、データ通信のために相互接続されたデータ処理ノードのネットワークとすることができる。
図2に示されているように、ビデオ処理システム200は、ビデオ受取モジュール202、顔イメージ抽出モジュール204、顔イメージ・クラスタ化モジュール206、連想エンジン208、クラスタ・キャッシュ210、バッファード・フレーム・シーケンス・プロセッサ212、手動ラベル付けインターフェース214、および複数のデータベースを含む。データベースは、クラスタ・データベース(DB)216、インデックスDB 218、およびパターンDB 220を含む。
ビデオ受取モジュール202を、一実施形態で、バッファード・フレーム・シーケンス・プロセッサ212からビデオ・フレームを受け取るように構成することができる。いくつかの一実施形態では、受け取る時はその度に特定の個数(例えば15)のフレームを受けるようにしてもよい。いくつかの一実施形態で、ビデオを、タイム・インターバル、例えば1分のインターバル内に受け取ることができる。
顔イメージ抽出モジュール204を、ビデオ・フレームから顔イメージを抽出するように構成することができ、このビデオ・フレームは、ビデオ受取モジュール202によってバッファード・フレーム・シーケンス・プロセッサ212から受け取られる。一部のフレームが、複数の顔イメージを含むか、顔イメージを全く含まない場合がある。顔イメージ抽出モジュール204を、単一のフレームに現れるすべての顔イメージを抽出するように構成することができる。フレームが顔イメージを全く含まない場合には、そのフレームを捨てることができる。顔イメージ抽出モジュール204は、いくつかの一実施形態で、図5に示されているように抽出された顔イメージを正規化することができる。
顔イメージ・クラスタ化モジュール206を、一実施形態で、正規化された顔イメージが顔イメージ抽出モジュール204によって抽出された後に、それらの正規化された顔イメージを保存するように構成することができる。抽出されたイメージをクラスタ化する方法を、図7の方法700を参照して下で例として説明する。
連想エンジン208を、一実施形態で、正規化された顔イメージに、クラスタ内の顔イメージに関連する人の連想アイデンティティでラベル付けをするように、構成できる。クラスタにラベル付けをするために、連想エンジン208は、正規化された顔イメージを基準顔イメージと比較し、その比較に基づいて、顔イメージに関連する人のアイデンティティを連想することができる。クラスタ・キャッシュ210を、一実施形態で、クラスタが連想エンジン208によってラベル付けされるまで、顔イメージ・クラスタ化モジュール206によって作成されたクラスタを格納するように構成することができる。クラスタがクラスタ・キャッシュ210内でラベル付けされたならば、それらのクラスタを、クラスタDB 216に保存することができる。
バッファード・フレーム・シーケンス・プロセッサ212を、一実施形態で、サード・パーティ・コンテンツ・プロバイダ140から受け取られたビデオ・フィードを処理するように構成することができる。一例として、ビデオ・フィードを、ある持続時間のビデオ・クリップまたはある個数のフレームを有するビデオ・クリップに区分することができる。処理されたビデオ・フレームを、顔イメージ抽出モジュール204によって受け取ることができる。顔イメージ抽出モジュール204を、一実施形態で、ビデオ・フレームに含まれる顔イメージを検出するために、バッファード・フレーム・シーケンス・プロセッサ212から受け取られるフレームを処理するように構成することができる。顔イメージ抽出モジュール204は、ビデオ・フレームからテキスト・コンテンツを抽出し、そのテキスト・コンテンツをさらなる処理のために保存することができる。その後、保存されたテキスト・コンテンツを処理して、ビデオに現れる人のアイデンティティを連想するテキストを抽出することができる。
手動ラベル付けインターフェース214は、一実施形態で、同一の人に関連する可能性が高い基準顔イメージのセットと一緒に、クラスタ・キャッシュ210からの顔イメージをオペレータに与えるように構成されたグラフィカル・ユーザ・インターフェースとすることができる。オペレータは、視覚的に比較し、基準顔イメージのセットから、クラスタ・キャッシュ210からの顔イメージと同一の人に関連するとみなされる顔イメージを選択することができる。
クラスタDB 216は、一実施形態で、ビデオ・フィードから抽出された顔イメージのクラスタおよび関連するメタデータを格納するように構成されたデータベースとすることができる。クラスタDB 216に格納されるクラスタ内の顔イメージを、識別された顔イメージとすることができる。クラスタ内の顔イメージに関連するメタデータを、クラスタ内の以前に未知の顔イメージが識別される時に更新することができる。クラスタ・メタデータを、手動ラベル付けインターフェース214を使用してクラスタ・イメージを既知の基準顔イメージと比較することによって手動で更新することもできる。インデックスDB 218は、一実施形態で、識別された顔イメージ、各顔イメージが現れるビデオ・フレーム(1つまたは複数)内のその顔イメージの位置、および顔イメージがビデオに現れる回数のインデクシングされたレコードを移植されるデータベースとすることができる。ビデオ処理システム200の様々なコンポーネントの間の関係を、図3を参照して例として説明する。
図面の図4を参照すると、図2および3を参照して前に述べた顔イメージ抽出モジュール204が、様々なオペレーションを実行するように構成できる複数のコンポーネントを含んで図示されている。顔イメージ抽出モジュール204は、検出モジュール2042、区分けモジュール2044、発見モジュール2046、外挿モジュール2048、制限モジュール2050、評価モジュール2052、識別モジュール2054、保存モジュール2056、および検索モジュール2058を含むことができる。顔イメージ抽出モジュール204のコンポーネントによって実行される様々なオペレーションを、図5の方法500を参照して例として詳細に説明する。
図5は、一実施形態による、顔イメージを抽出する方法500を示す流れ図である。方法500を、ハードウェア、ソフトウェア、またはこの両方の組合せを含む処理論理によって実行することができる。1つの一実施形態で、処理論理は、図2に示された顔イメージ抽出モジュール204に存在する。方法500を、図4に示された顔イメージ抽出モジュール204によって実行することができる。これらのモジュールが、処理論理を含むことができる。
図4および5の両方を参照すると、方法500は、オペレーション502で、バッファリングされたフレームのシーケンスを受け取ることから開始される。いくつかの一実施形態で、オペレーション502でフレームが受け取られる時に、それらのフレームを、区分モジュール2044によってそれぞれ約15フレームのグループに区分することができる。検出モジュール2042は、これらのフレームを分析して、顔イメージが各フレームに存在するかどうかを判定することができる。いくつかの一実施形態で、検出モジュール2042は、フレームの間のシーン変化を検出することによって、各フレームを個別には分析せずにフレームをサンプリングする。下でより詳細に説明するように、いくつかの一実施形態で、フレーム・サブセットの最初のフレームおよび最後のフレームを顔イメージについて分析することができ、中間フレームの分析を、顔イメージが最初のフレームおよび最後のフレームで見つかる場所の近くの区域でのみ実行することができる。
オペレーション504で、既存の顔検出アルゴリズム(例えば、AdaBoost)によって、最初のフレームおよび最後のフレームの顔イメージを検出することができる。いくつかの一実施形態で、これらの非連続フレーム内で検出された顔イメージを、外挿することができる。したがって、オペレーション506で、外挿モジュール2048が、検出されたイメージの間に配置されたフレームにまたがって外挿し、中間フレーム内の顔イメージの位置を近似することができる。そのような外挿は、顔イメージを含む可能性がより高い領域内の顔イメージのありそうな位置を与え、その結果、これらの領域だけが、顔イメージを検出するためにスキャンされるようにすることができる。性能を高めるために、近似に基づいて、顔イメージを含む可能性がより低い領域を、顔スキャンから除外することができる。オペレーション508で、制限モジュール2050が、顔イメージのスキャンを外挿されたフレーム領域に制限することができる。
オペレーション510で、発見モジュール2046が、テキスト・コンテンツの存在について、検出された顔イメージを含むフレームをスキャンすることができる。テキスト・コンテンツは、顔イメージに関連する人の識別に役立つ可能性がある。したがって、テキスト・コンテンツが検出された顔イメージを、光学文字認識(OCR)プロセッサによる処理のためにキューイングすることができる。
オペレーション512で、検出モジュール2042は、顔イメージが検出されたフレーム内での目の検出に進むことができる。目位置の検出は、2ステージで実行することができる。第1ステージでは、目イメージの大きいプールから学習された情報を使用するAdaBoostアルゴリズム(Proc.of IEEE Workshop on Statistical and Computational Theories of Vision、1〜25頁、2001年のP.ViolaおよびM.Jones、「Robust real−time object detection」)によって実行することができる。次に、顔イメージ位置を、目の瞳孔の直接検出を使用する目の瞳孔中心の検出によってより正確に定義することができる。AdaBoost法は、正面方位になるようにまずイメージを正規化する必要なしに使用することができる。より正確なパスに使用される方法は、目の瞳孔の直接検出に基づくものとすることができ、正面方位の顔イメージ内の開かれた目の検出に限定されてもよい。
目の間の距離が所定のしきい距離より大きい場合にフレームを保存するために、判定を行うことができる。例えば、40ピクセル未満の目の間の距離を有する顔は、顔イメージを識別する時に抑制され、使用されないものとすることができる。オペレーション514で、評価モジュール2052は、正規化された顔イメージを評価して、目が明確に検出されるかどうかおよび目の間に十分な距離が存在するかどうかを判定することができる。評価モジュール2052が、目が明確に検出され、目の間に十分な距離が存在すると判定する場合には、顔イメージを保存することができる。その一方で、評価モジュール2052が、目が明確には検出されないまたは目の間に十分な距離が存在しないと判定する場合には、顔イメージを破棄することができる。
オペレーション516で、水平方位で目を位置決めするために顔イメージを正規化することができる。オペレーション518で、光強度によってイメージを正規化することができ、オペレーション520で、顔イメージ内の目中心がお互いからあるピクセル数以内に配置されるようにするために、サイズによってイメージを正規化することができる。正規化中に、すべてのイメージを拡大または縮小することができ、その結果、すべてのイメージが、同一のサイズ(例えば、104×104ピクセル)を有するようになり、したがって、目の間のあるピクセル数が保証される。本明細書で説明する手順は人間の顔に固有であるが、類似する正規化手順を利用して、例えば自動車、建物、動物、およびヘリコプタなどの任意の他のオブジェクト・カテゴリのイメージを正規化できることを当業者が理解するであろうことに留意されたい。さらに、本明細書で説明する顔検出技法を利用して、他のカテゴリのオブジェクトを検出することもできることに留意されたい。
オペレーション522で、類似によるクラスタ化を実現するために顔イメージを処理する。正規化された顔イメージを、クラスタ・キャッシュ210(図3)内でクラスタ化することができる。各顔イメージは、その顔イメージがクラスタ内に既に存在する顔イメージに類似する場合に、既存クラスタに追加される。これは、通常、ある人に関連する顔イメージが1つまたは少数のクラスタに格納されることをもたらす可能性がある。顔イメージが以前に作成されたクラスタに属するかどうかを判定するために、顔イメージと既にクラスタ化されている顔イメージとの間の距離を測定する。この距離が所定のしきい値未満である場合には、顔イメージは、同一クラスタに属すると仮定され、したがって、その顔イメージを同一クラスタに追加することができる。
いくつかの一実施形態で、距離が所定のしきい値未満である場合に、ほとんど同一の顔イメージをクラスタ・キャッシュに保存することに追加の価値がない場合があり、それに対応して、その顔イメージを捨てることができる。その一方で、前に作成されたクラスタ内の顔イメージと新たに正規化された顔イメージとの間の差が、所定のしきい値より大きい場合には、新たに正規化されたイメージは、異なる人に属する可能性があり、したがって、新しいクラスタを開始することができる。いくつかの一実施形態では、単一の人の顔イメージについて作成される複数のクラスタがあってもよい。上で既に述べたように、クラスタのサイズが増える時に、複数のクラスタの顔イメージの間の距離が、所定のしきい値未満に減る場合がある。これは、そのようなクラスタが、同一の人に属すことを示す可能性があり、したがって、そのようなクラスタを、マージ・モジュール2074(図6を参照して下で説明する)を使用して単一のクラスタにマージすることができる。
ここで、図2、3、および5を参照すると、クラスタ・キャッシュ210内の各クラスタに、連想エンジン208によって、クラスタに含まれる顔イメージに基づくありそうな人のアイデンティティのリストを用いてラベル付けをすることができる。各ありそうな人のアイデンティティに対応する信頼度レベルを、クラスタをパターンDB 220と比較することによって、クラスタとクラスタの正規化された顔イメージの識別から生じる顔イメージとに割り当てることができる。正規化された顔イメージの識別は、顔イメージからパターンDB 220内のすべての基準イメージへの距離の計算に基づく。クラスタ・キャッシュ210内のクラスタを、クラスタ内の顔イメージが識別された後に、ラベル、顔サイズ、およびスクリーンショットと一緒にクラスタDB 216に保存することができる。クラスタ・キャッシュ情報を、クラスタの顔イメージがどの人に属するかに関する自動的なまたは手動の意思決定に使用することができる。意思決定が行われた後に、クラスタ・キャッシュを利用して、インデックスを作成し、これをオペレーション524でインデックスDB 218に保存することができる。インデックスdb 218は、インデックス・データベース内で識別される顔イメージをビデオから検索する検索能力をユーザに与えることができる。
図面の図6を参照すると、顔イメージ・クラスタ化モジュール206が、様々なオペレーションを実行するように構成できる複数のコンポーネントを含んで図示されている。顔イメージ・クラスタ化モジュール206は、関連付けモジュール2062、比較モジュール2064、割当てモジュール2066、移植モジュール2068、クライアント・モジュール2070、受取モジュール2072、およびマージ・モジュール2074を含むことができる。顔イメージ・クラスタ化モジュール206によって実行される様々なオペレーションを、図7の方法700を参照して例として説明する。
図7は、1つの一実施形態による、顔イメージをクラスタ化する方法700を示す流れ図である。方法700を、ハードウェア(例えば、専用論理、プログラマブル論理、マイクロコードなど)、ソフトウェア(汎用コンピュータ・システムまたは専用のマシンで実行されるものなど)、またはこの両方の組合せを含むことができる処理論理によって実行することができる。1つの一実施形態で、処理論理は、図2に示されたビデオ処理システム200に存在する。方法700を、図6を参照して上で述べた様々なモジュールによって実行することができる。これらのモジュールが、処理論理を含むことができる。
図6と7との両方を参照すると、方法700は、ビデオ受取モジュール202から次のビデオ・フレームを受け取ることから開始される。すべてのフレームを受け取るまで、クラスタ化プロセスを、顔イメージ・クラスタ化モジュール206内で実行することができる。すべてのフレームが受け取られ、クラスタが形成された時に、連想プロセスを連想エンジン208によって開始することができる。両方のモジュールのオペレーションを、下でより詳細に説明する。したがって、ビデオ・フレームが受け取られる時に、これに、オペレーション702での顔イメージの検出を続けることができる。顔イメージを検出するこの方法は、図5の方法500を参照して上で詳細に説明されている。判断ブロック704では、顔イメージがフレーム内で検出されるか否かを判定することができる。顔イメージがオペレーション702で検出されない場合に、フレームを捨てることができる。逆に、顔イメージが検出される場合には、比較モジュール2064が、オペレーション708で、検出された顔イメージを既存クラスタ内の顔イメージと比較することができる。いくつかの一実施形態で、クラスタを、当初にクラスタ・キャッシュ210に格納することができる。クラスタが形成されたならば、それらのクラスタをクラスタDB 216に保存することができる。クラスタは、イメージの他に、他のメタデータを関連付けられてもよい。例えば、メタデータを、クラスタ内の顔イメージに関連するオーディオから入手されたテキストまたは顔イメージがそこから抽出されたビデオ・フレームのビジュアル・コンテンツから入手されたテキストとすることができる。メタデータに、クラスタ内の顔イメージが抽出された点の近くのビデオおよび他の付随するデジタル・メディアから入手される他の情報を含めることもできる。
判断ブロック710で、比較モジュール2064は、顔イメージをクラスタ・キャッシュ210内の既存クラスタ内の顔イメージと比較し、顔イメージと既存クラスタ内の顔イメージとの間の差が第1の所定のしきい値未満であるかどうかを判定する。差が第1の所定のしきい値未満である(例えば、小さい変化がある)場合には、これが、これらの顔イメージが非常に似ていることと、両方の顔イメージをクラスタ・キャッシュに保存することに利益がないこととを示す可能性がある。したがって、オペレーション712で、顔イメージを捨てることができる。顔イメージと既存クラスタ内の顔イメージとの間の距離が第1の所定のしきい値より大きいが第2のより大きい所定のしきい値未満である場合には、判断ブロック714で、顔イメージが既存クラスタ内の顔イメージと同一の人に関連すること、また、顔イメージと既存クラスタ内の顔イメージとの間の差に起因して顔イメージを既存クラスタに追加することに価値があることの判断を行うことができる。したがって、オペレーション716で、顔イメージを既存クラスタに追加することができる。
顔イメージと既存クラスタ内の顔イメージとの間の距離が、第2のより大きいしきい値を超える(すなわち、大きい変化がある)場合には、その距離は、顔イメージが同一の人に関連しないことを示す可能性がある。したがって、オペレーション718で、新しいクラスタを作成することができる。既存クラスタへの顔イメージの追加中に、顔イメージを複数のクラスタに追加してよいと判定することができる。これは、通常、2つのクラスタが同一の人に属することを示す可能性があり、そのようなクラスタを、マージ・モジュール2074によって単一のクラスタにマージすることができる。顔イメージをクラスタに追加した後に、ビデオ・フレーム内の次に検出される顔イメージを取り出す。ビデオ・フレームに使用可能な顔イメージがもうない場合には、処理のために次のビデオ・フレームを受け取ることができる。
オペレーション704で、使用可能なフレームがもうない場合には、連想プロセスが開始される。したがって、オペレーション720で、比較モジュール2064による荒い比較を実行して、クラスタ内の顔イメージをパターンDB 220内の基準顔イメージと比較することができる。いくつかの一実施形態で、パターンDB 220内の基準顔イメージを、高解像度イメージとすることができる。荒い比較は、可能な基準顔イメージのセットをすばやく識別し、より低速の微細パス識別から可能性の低い基準顔イメージを除外するために実行することができる。したがって、荒い比較は、データベース内の基準顔イメージを事前に選択することを意図されたものである。オペレーション722で、最初の荒い比較で事前選択された基準顔イメージに対する微細な比較を実行することができる。この微細な比較は、事前に選択されたセットからの1つまたは非常に少数の基準顔イメージを、クラスタからの顔イメージと同一の人に関連するものとして識別することを可能にすることができる。
ブロック724で、識別のモードに依存して、方法700の流れは、手動分岐または自動分岐のいずれかに進む。オペレーション736で、自動分岐は、連想モジュールによってなされた連想を利用する。比較モジュール2064は、クラスタ顔イメージからオペレーション722で関連付けられた基準顔イメージへの距離に基づいて、許容できる連想が行われるかどうかを判定することができる。オペレーション736で、比較モジュール2064によって行われた連想が受け入れられるという判断が行われる場合に、方法700は、オペレーション730に進むことができ、メタデータを用いてクラスタにラベルを付け、ある人に関連するものとしてそのクラスタを識別することができる。いくつかの一実施形態で、すべての顔イメージについて生成される所定の個数の連想を含むリストがあってもよい。いくつかの一実施形態で、異なる認識テクノロジに基づいて利用される複数の連想方法があってもよい。例えば、認識を実行する複数の異なるアルゴリズムがあってもよく、各アルゴリズムは、クラスタ内の顔イメージとパターンDB 220内の基準顔イメージとの間の距離を比較モジュール2064に与える。クラスタ・キャッシュ内の顔イメージが識別される精度は、パターンDB 220のサイズに依存する可能性がある。パターンDB 220に格納される基準データが多ければ多いほど、自動認識の結果がよくなる。
逆に、オペレーション724で、方法700の実行が手動分岐に進む場合に、オペレーション726で、オペレータに、手動識別のために顔イメージを与えることができる。例えば、クラスタDB 216が空である場合があり、したがって、生成される連想がないか、あるいは、クラスタDB 216が基準データを部分的にのみ移植されている場合のように、使用可能な連想の信頼度レベルが不十分である場合がある。したがって、オペレータがクラスタを手動で識別しなければならない場合がある。
手動識別を実行するために、オペレータは、クライアント・モジュール2070を利用することができる。オペレータに、顔イメージへの最も近い一致である基準顔イメージを与えることができる。例えば、オペレータに、顔イメージの所定のしきい値以内ではないが、それでも、手動比較のための可能性の高い候補になるのに十分に近い、複数の基準顔イメージを与えることができる。いくつかの一実施形態で、オペレータに、ビデオ・ストリームから抽出された、顔イメージの識別に役立つ可能性がある情報を供給することができる。例えば、OCRを使用してフレームのテキスト・コンテンツから抽出された名前、字幕からの人の名前、音声−テキストを使用して抽出された名前、電子番組ガイド、またはビデオ・ファイルのトランスクリプトを、正しい識別の尤度を高めるためにオペレータに供給することができる。したがって、オペレーション728で、オペレータは、顔イメージを視覚的に識別し、パターンDB 220内に一致する基準顔イメージが存在しないとオペレータが判断する場合に、新しい基準顔イメージを用いてパターンDB 220を更新することができる。
パターンDB 220が新しい基準顔イメージを用いて更新されたならば、オペレータは、識別する情報を用いてクラスタ・キャッシュ210を手動で更新するか、あるいは荒い比較ステップを繰り返すように顔イメージ・クラスタ化モジュール206に指示するかのいずれかを行うことができる。その一方で、オペレータが、データベースからの基準顔イメージとの比較に基づいて顔イメージを識別する場合に、オペレータは、オペレーション730でクラスタに手動でラベルを付けるために進行することができる。クラスタが、識別するデータを用いてラベル付けされた後に、オペレーション732で、クラスタ(現在はクラスタ・キャッシュ210内にある)を、移植モジュール2068によってクラスタDB 216に保存することができる。クラスタDB 216に基づいて、インデックスDB 218内の検索可能な情報を、オペレーション738で作成する。インデックスDB 218に格納されるインデックス情報は、オブジェクト・アイデンティティ、ビデオ・ストリーム内でのオブジェクトの位置、オブジェクトのすべての出現の時刻、およびフレーム内の空間的位置に関連するメタデータを含むことができる。視聴アプリケーションに有用な他の関連情報を、インデックスDB 218に格納することができる。自動ラベル付けの後に、多すぎるクラスタがメタデータを用いてラベル付けされないままになっている場合には、モジュール736で、手動検証を実行することができる。反対に、手動検証を実行する必要がないと判定される場合には、ビデオ・メタデータ抽出は、オペレーション740で完了する。
図面の図8を参照すると、顔イメージ・クラスタ化モジュール環境800が、様々なオペレーションを実行するように構成できる複数のコンポーネントを含んで図示されている。顔イメージ・クラスタ化モジュール環境800は、バッファード・フレーム・シーケンス・プロセッサ212、顔イメージ・クラスタ化モジュール206、およびクラスタDB 216がどのように相互作用できるのかを示す。バッファード・フレーム・シーケンス・プロセッサ212は、ビデオ・フレームを含むことができ、各ビデオ・フレームは、図5の方法例500を参照して上で説明したように、抽出され、顔イメージの存在について分析される。顔イメージ・クラスタ化モジュール206は、上で図6を参照して述べられている。
図9に、本明細書で述べる方法論のうちのいずれか1つまたは複数をマシンに実行させる命令のセットをその中で実行できるコンピュータ・システム900の一例の形でのマシンの図式表現を示す。様々な一実施形態で、このマシンは、独立のデバイスとしてオペレーションし、あるいは、他のマシンに接続され(例えば、ネットワーク化され)得る。ネットワーク化された展開では、このマシンは、サーバ−クライアント・ネットワーク環境内のサーバ・マシンまたはクライアント・マシンの能力で、あるいはピアツーピア(または分散)ネットワーク環境内のピア・マシンとしてオペレーションすることができる。このマシンは、パーソナル・コンピュータ(PC)、タブレットPC、セットトップ・ボックス(STB)、携帯情報端末(PDA)、セル電話機、ポータブル音楽プレイヤ(例えば、MP3プレイヤなどのポータブル・ハード・ドライブ・オーディオ・デバイス)、ウェブ・アプライアンス、ネットワーク・ルータ、スイッチまたはブリッジ、あるいはそのマシンによって行われるアクションを指定する命令のセット(シーケンシャルまたは他の形)を実行できる任意のマシンとすることができる。さらに、単一のマシンだけが図示されているが、用語「マシン」は、本明細書で述べる方法論のうちの任意の1つまたは複数を実行するために命令のセット(1つまたは複数)を個別にまたは協同で実行するマシンの任意の集合を含むとも解釈されなければならない。
コンピュータ・システム900は、プロセッサ902(例えば、中央処理装置(CPU)、グラフィックス処理装置(GPU)、またはその両方)、メイン・メモリ904、およびスタティック・メモリ906を含み、これらは、バス908を介して互いに通信する。コンピュータ・システム900は、さらに、ビデオ・ディスプレイ・ユニット910(例えば、液晶ディスプレイ(LCD)または陰極線管(CRT))を含むことができる。コンピュータ・システム900は、英数字入力デバイス912(例えば、キーボード)、カーソル制御デバイス914(例えば、マウス)、ドライブ・ユニット916、信号生成デバイス918(例えば、スピーカ)、およびネットワーク・インターフェース・デバイス920をも含む。
ドライブ・ユニット916は、マシン可読媒体922を含み、マシン可読媒体922には、本明細書で説明する方法論または機能のうちのいずれか1つまたは複数によって実施されまたは利用される命令およびデータ構造の1つまたは複数のセット(例えば、命令924)が格納される。命令924は、完全にまたは少なくとも部分的に、コンピュータ・システム900によるその命令の実行中に、メイン・メモリ904および/またはプロセッサ902内に存在することもできる。メイン・メモリ904およびプロセッサ902も、マシン可読媒体を構成する。
命令924を、さらに、ネットワーク926上でネットワーク・インターフェース・デバイス920を介して複数の周知の転送プロトコル(例えば、ハイパーテキスト転送プロトコル(HTTP))のうちの任意の1つを利用して送信しまたは受信することができる。
マシン可読媒体922は、一実施形態では、単一の媒体として示されているが、用語「マシン可読媒体」は、命令の1つまたは複数のセットを格納する単一の媒体または複数の媒体(例えば、集中化されたもしくは分散されたデータベース、ならびに/または関連するキャッシュおよびサーバ)を含むと解釈されなければならない。また、用語「マシン可読媒体」は、マシンによる実行のための命令のセットを格納し、符号化し、または担持することができ、かつ、本願の方法論のうちのいずれか1つまたは複数をマシンに実行させ、あるいは、そのような命令のセットによって利用されるかそれに関連するデータ構造を格納し、符号化し、または担持することができる、すべての媒体を含むと解釈されなければならない。したがって、用語「マシン可読媒体」は、ソリッド・ステート・メモリ、光媒体および磁気媒体、ならびに搬送波信号を含むが、これらに限定されないと解釈されなければならない。そのような媒体は、ハード・ディスク、フロッピー(登録商標)・ディスク、フラッシュ・メモリ・カード、デジタル・ビデオ・ディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、および類似物をも、限定なしに含むことができる。
本明細書で説明する一実施形態を、コンピュータ上にインストールされたソフトウェア、ハードウェア、またはソフトウェアおよびハードウェアの組合せを含むオペレーティング環境で実施することができる。
以上、ビデオ・インデクシングのためのオブジェクト認識およびデータベース移植の方法およびシステムを説明した。実施形態を、特定の一実施形態を参照して説明したが、本発明のより広義の趣旨および範囲から逸脱せずに、これらの一実施形態に対して様々な修正および変更を行えることは明白である。したがって、本明細書および図面は、制限的な意味ではなく例示的な意味で解釈されなければならない。
110 ユーザ・システム; 112 デジタル・メディア視聴アプリケーション;
114 衛星パラボラ・アンテナ; 120 デジタル・メディア処理ファシリティ;
130 ネットワーク; 140 サード・パーティ・コンテンツ・プロバイダ;
142 デジタル・メディア・コンテンツ・ジェネレータ; 150 衛星:
154 184 衛星パラボラ・アンテナ;
200 ビデオ処理システム; 202 ビデオ受取モジュール;
204 顔イメージ抽出モジュール; 206 顔イメージ・クラスタ化モジュール;
208 連想エンジン; 210 クラスタ・キャッシュ;
212 バッファード・フレーム・シーケンス・プロセッサ;
214 手動ラベル付けインターフェース; 216 クラスタDB;
218 インデックスDB; 220 パターンDB。

Claims (25)

  1. 複数のビデオ・フレームを含むビデオ・ストリームを処理する方法であって、
    ビデオ・フレームごとに、少なくとも1つのオブジェクトを検出することと、
    前記少なくとも1つのオブジェクトをオブジェクト・クラスタに選択的に関連付けることと、
    前記オブジェクト・クラスタに関連付けられた前記少なくとも1つのオブジェクトを少なくとも1つの基準オブジェクトと比較することと、
    前記比較に基づいて、前記少なくとも1つの基準オブジェクトのオブジェクト・データを前記オブジェクト・クラスタ内のすべてのオブジェクトに選択的に関連付けることと
    を含む方法。
  2. 前記少なくとも1つの基準オブジェクトの前記オブジェクト・データの前記関連付けることが、自動的に実行される、請求項1に記載の方法。
  3. 前記少なくとも1つの基準オブジェクトの前記オブジェクト・データを、関連付けられた基準オブジェクトを有しない前記オブジェクト・クラスタ内のすべてのオブジェクトに手動で関連付けることと、前記オブジェクト・クラスタに関して基準データベースに前記少なくとも1つの基準オブジェクトを移植することとをさらに含む、請求項1に記載の方法。
  4. 前記少なくとも1つのオブジェクトの前記比較することが、基準オブジェクトのデータベースからの少なくとも1つの基準オブジェクトを利用する、請求項2に記載の方法。
  5. 前記少なくとも1つのオブジェクトの前記少なくも1つの基準オブジェクトとの前記比較が、
    前記少なくとも1つのオブジェクトを含むイメージをユーザ・インターフェースに提供することと、
    前記少なくとも1つの基準オブジェクトを前記ユーザ・インターフェースに提供することと、
    前記オブジェクト・データを前記オブジェクト・クラスタに関連付けるためのユーザ入力を受け取ることと
    を含む、請求項1に記載の方法。
  6. 前記少なくとも1つのオブジェクトの前記検出することが、
    前記ビデオ・ストリームを複数のフレーム・グループに区分することと、
    すべてのフレーム・グループの最初のフレームおよび最後のフレーム内の顔イメージを検出することと、
    前記最初のフレームと前記最後のフレームとの間に含まれる1つまたは複数のビデオ・フレームのそれぞれで、前記少なくとも1つのオブジェクトが配置される可能性が高い近似領域を外挿することと、
    前記顔イメージの前記検出を前記近似領域に制限することと
    を含む、請求項1に記載の方法。
  7. 前記少なくとも1つのオブジェクトの少なくとも1つの基準オブジェクトとの前記比較が、
    前記少なくとも1つのオブジェクトを基準オブジェクトのより大きいセットと比較し、前記基準オブジェクトおよび前記少なくとも1つのオブジェクトが同一のオブジェクトであることの高められた尤度を有する基準オブジェクトのより小さいセットを作る、第1アクションを実行することと、
    前記少なくとも1つのオブジェクトを基準オブジェクトの前記より小さいセットと比較する第2アクションを実行することと
    を含む、請求項1に記載の方法。
  8. 前記少なくとも1つの基準オブジェクトが、高解像度顔イメージのコレクションから選択される、請求項1に記載の方法。
  9. 前記少なくとも1つのオブジェクトを表すベクトルと前記オブジェクト・クラスタ内の少なくとも1つの処理されるオブジェクトとの間の距離が第1の所定のしきい値を超えるが第2の所定のしきい値未満である時に、前記オブジェクト・データが、データ・クラスタ内のすべてのオブジェクトに関連付けられる、請求項1に記載の方法。
  10. 前記少なくとも1つのオブジェクトを表すベクトルと前記ビデオ・ストリームからの任意のオブジェクト・クラスタに既に含まれる任意のオブジェクトとの間の距離が所定のしきい値を超える時に、前記オブジェクト・データが、新しいデータ・クラスタに関連付けられる、請求項1に記載の方法。
  11. 前記オブジェクト・クラスタが、オブジェクト・フォルダであり、前記方法が、前記少なくとも1つのオブジェクトおよび前記オブジェクト・データを前記オブジェクト・フォルダ内のファイルに保存することをさらに含む、請求項1に記載の方法。
  12. 前記少なくとも1つのオブジェクトに関連する顔イメージの水平方位を表すために前記顔イメージを正規化すること、照明の強度を正規化すること、前記顔イメージの目の間の距離を正規化すること、または前記顔イメージのサイズを正規化することのうちの1つまたは複数をさらに含む、請求項1に記載の方法。
  13. 前記少なくとも1つのオブジェクトが、顔イメージであり、前記方法が、正規化された顔イメージ内の目の間の距離が40ピクセルを下回らないイメージを選択することをさらに含む、請求項1に記載の方法。
  14. 後続ビデオ・フレーム内のオブジェクトを比較することと、
    別のフレーム内のオブジェクトまたは前記オブジェクトのプロパティを識別するために、あるフレーム内のオブジェクトから導出されるデータを使用することと
    をさらに含む、請求項1に記載の方法。
  15. 前記ビデオ・ストリーム内のすべてのオブジェクト出現について、前記オブジェクト出現の時刻、前記オブジェクト出現の持続時間、および前記ビデオ・ストリーム内の前記オブジェクトの空間的位置のうちの少なくとも1つをインデックス・データベースに保存することと、
    検索されるオブジェクトが前記ビデオ・ストリームに現れる場所から始まる前記ビデオ・ストリームを表示するために、前記インデックス・データベース内でのオブジェクト検索機能を提供することと
    をさらに含む、請求項1に記載の方法。
  16. 複数のビデオ・フレームを含むビデオ・ストリームを処理するシステムであって、
    ビデオ・フレームごとに、少なくとも1つのオブジェクトが前記ビデオ・フレーム内に存在することに応答して、前記少なくとも1つのオブジェクトを検出する検出モジュールと、
    前記少なくとも1つのオブジェクトをオブジェクト・クラスタに選択的に関連付ける関連付けモジュールと、
    オブジェクト・クラスタごとに、前記オブジェクト・クラスタ内の前記少なくとも1つのオブジェクトを少なくとも1つの基準オブジェクトと比較する比較モジュールと、
    前記比較に基づいて、前記少なくとも1つの基準オブジェクトのオブジェクト・データを前記オブジェクト・クラスタ内のすべてのオブジェクトに選択的に割り当てる割当てモジュールと
    を含むシステム。
  17. 関連付けられたオブジェクト・データを有しないすべてのオブジェクト・クラスタについて基準データベースに基準オブジェクトを移植する移植モジュールをさらに含む、請求項16に記載のシステム。
  18. 前記比較モジュールが、前記少なくとも1つのオブジェクトを基準オブジェクトのデータベースからの前記少なくとも1つの基準オブジェクトと比較する、請求項16に記載のシステム。
  19. 前記比較モジュールが、前記少なくとも1つのオブジェクトを前記少なくとも1つの基準オブジェクトと比較し、前記システムが、
    前記少なくとも1つのオブジェクトを含むイメージをユーザ・インターフェースに提供し、少なくとも1つの既知のオブジェクトを前記ユーザ・インターフェースに提供する、クライアント・モジュールと、
    前記オブジェクト・データを前記オブジェクト・クラスタに関連付けるためのユーザ入力を受け取る受取モジュールと
    をさらに含む、請求項16に記載のシステム。
  20. 前記検出モジュールが、前記ビデオ・フレームに関連する前記少なくとも1つのオブジェクトを検出し、前記システムが、
    前記ビデオ・ストリームを複数のフレーム・グループに区分する区分モジュールと、
    前記複数のフレーム・グループのそれぞれの最初のフレームおよび最後のフレーム内で顔イメージを発見する発見モジュールと、
    前記顔イメージが配置される可能性が高い前記最初のフレームと前記最後のフレームとの間の1つまたは複数のビデオ・フレーム内の領域を近似する外挿モジュールと、
    顔イメージの前記検出を近似領域に制限する制限モジュールと
    をさらに含む、請求項16に記載のシステム。
  21. 前記関連付けモジュールが、前記少なくとも1つのオブジェクトを表すベクトルと前記オブジェクト・クラスタ内の少なくとも1つ処理されるオブジェクトとの間の距離が第1の所定のしきい値を超えるが第2の所定のしきい値未満である時に、前記オブジェクト・データを前記オブジェクト・クラスタ内のすべてのオブジェクトに関連付ける、請求項16に記載のシステム。
  22. 後続フレーム内のオブジェクトを評価する評価モジュールと、
    あるフレーム内のオブジェクトまたは別のフレーム内のオブジェクトのプロパティから導出されるデータを使用して、前記あるフレーム内のオブジェクトまたは前記オブジェクトのプロパティを識別する識別モジュールと
    をさらに含む、請求項16に記載のシステム。
  23. 前記ビデオ・ストリーム内のすべてのオブジェクト出現について、前記オブジェクト出現の時刻、前記オブジェクト出現の持続時間、および前記ビデオ・ストリーム内の前記オブジェクトの空間的位置のうちの1つまたは複数をインデックス・データベースに保存する保存モジュールと、
    検索されるオブジェクトがビデオ・ストリームに現れる場所から始まる前記ビデオ・ストリームの表示を容易にするために、前記インデックス・データベース内でのオブジェクト検索機能を提供する検索モジュールと
    をさらに含む、請求項16に記載のシステム。
  24. 複数のビデオ・フレームを含むビデオ・ストリームを処理する方法であって、
    ビデオ・フレームごとに、少なくとも1つのオブジェクトが前記ビデオ・フレームに存在することに応答して前記少なくとも1つのオブジェクトを検出する手段と、
    前記少なくとも1つのオブジェクトをオブジェクト・クラスタに選択的に関連付ける手段と、
    前記オブジェクト・クラスタ内の前記少なくとも1つのオブジェクトを少なくとも1つの基準オブジェクトと比較する手段と、
    前記比較に基づいて、前記少なくとも1つの基準オブジェクトのオブジェクト・データを前記オブジェクト・クラスタ内のすべてのオブジェクトに選択的に関連付ける手段と
    を含む方法。
  25. 1つまたは複数のプロセッサによって実施される時に、
    複数のビデオ・フレームのそれぞれについて、少なくとも1つのオブジェクトが前記ビデオ・フレームに存在することに応答して前記少なくとも1つのオブジェクトを検出するオペレーションと、
    前記少なくとも1つのオブジェクトをオブジェクト・クラスタに選択的に関連付けるオペレーションと、
    前記オブジェクト・クラスタ内の前記少なくとも1つのオブジェクトを少なくとも1つの基準オブジェクトと比較するオペレーションと、
    前記比較に基づいて、前記少なくとも1つの基準オブジェクトのオブジェクト・データを前記オブジェクト・クラスタ内のすべてのオブジェクトに選択的に関連付けるオペレーションと
    を実行する命令を含むコンピュータ可読媒体。
JP2010532077A 2007-11-07 2008-11-06 オブジェクト認識およびデータベース移植 Pending JP2011504673A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US98623607P 2007-11-07 2007-11-07
US11/949,258 US8315430B2 (en) 2007-11-07 2007-12-03 Object recognition and database population for video indexing
PCT/US2008/012502 WO2009061420A1 (en) 2007-11-07 2008-11-06 Object recognition and database population

Publications (1)

Publication Number Publication Date
JP2011504673A true JP2011504673A (ja) 2011-02-10

Family

ID=40626061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010532077A Pending JP2011504673A (ja) 2007-11-07 2008-11-06 オブジェクト認識およびデータベース移植

Country Status (3)

Country Link
US (2) US8315430B2 (ja)
JP (1) JP2011504673A (ja)
WO (1) WO2009061420A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170515A (ja) * 2019-04-02 2020-10-15 三星電子株式会社Samsung Electronics Co.,Ltd. 映像処理装置及びその映像処理方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080187231A1 (en) * 2005-03-10 2008-08-07 Koninklijke Philips Electronics, N.V. Summarization of Audio and/or Visual Data
US8239359B2 (en) * 2008-09-23 2012-08-07 Disney Enterprises, Inc. System and method for visual search in a video media player
JP2010165052A (ja) * 2009-01-13 2010-07-29 Canon Inc 画像処理装置及び画像処理方法
JP5178611B2 (ja) * 2009-04-15 2013-04-10 株式会社東芝 画像処理装置、画像処理方法及びプログラム
US8503739B2 (en) * 2009-09-18 2013-08-06 Adobe Systems Incorporated System and method for using contextual features to improve face recognition in digital images
KR20150008840A (ko) * 2010-02-24 2015-01-23 아이피플렉 홀딩스 코포레이션 시각 장애인들을 지원하는 증강 현실 파노라마
US20130334300A1 (en) 2011-01-03 2013-12-19 Curt Evans Text-synchronized media utilization and manipulation based on an embedded barcode
GB2489675A (en) * 2011-03-29 2012-10-10 Sony Corp Generating and viewing video highlights with field of view (FOV) information
US9225936B2 (en) 2012-05-16 2015-12-29 International Business Machines Corporation Automated collaborative annotation of converged web conference objects
US9946935B2 (en) * 2013-07-17 2018-04-17 Nec Corporation Object tracking device, object tracking method, and object tracking program
US9954909B2 (en) * 2013-08-27 2018-04-24 Cisco Technology, Inc. System and associated methodology for enhancing communication sessions between multiple users
US9842111B2 (en) * 2013-12-22 2017-12-12 Varonis Systems, Ltd. On-demand indexing
US9858679B2 (en) * 2014-11-04 2018-01-02 Hewlett-Packard Development Company, L.P. Dynamic face identification
CN104991906B (zh) * 2015-06-17 2020-06-02 百度在线网络技术(北京)有限公司 信息获取方法、服务器、终端及数据库构建方法、装置
JP6682222B2 (ja) * 2015-09-24 2020-04-15 キヤノン株式会社 検知装置及びその制御方法、コンピュータプログラム
AU2015234329A1 (en) 2015-09-30 2017-04-13 Canon Kabushiki Kaisha Method, system and apparatus for processing an image
US10529380B2 (en) * 2015-11-24 2020-01-07 Nir HAZAN Method and system for creating a comprehensive personal video clip
CN109635775B (zh) * 2018-12-21 2023-05-16 上海创功通讯技术有限公司 一种人脸拓展属性的显示方法、装置及存储介质
CN109743580A (zh) * 2018-12-24 2019-05-10 秒针信息技术有限公司 一种视频处理方法及装置、存储介质和处理器
CN109743579A (zh) * 2018-12-24 2019-05-10 秒针信息技术有限公司 一种视频处理方法及装置、存储介质和处理器

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
EP1247184B1 (en) * 1999-03-25 2018-08-15 Progress Software Corporation Method and apparatus for pointer relocation optimization for virtual memory mapping and transaction management in a database system
US6754389B1 (en) 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
AU2001240100A1 (en) 2000-03-10 2001-09-24 Sensormatic Electronics Corporation Method and apparatus for video surveillance with defined zones
US7035431B2 (en) * 2002-02-22 2006-04-25 Microsoft Corporation System and method for probabilistic exemplar-based pattern tracking
AUPS170902A0 (en) 2002-04-12 2002-05-16 Canon Kabushiki Kaisha Face detection and tracking in a video sequence
US6771303B2 (en) * 2002-04-23 2004-08-03 Microsoft Corporation Video-teleconferencing system with eye-gaze correction
US7515173B2 (en) * 2002-05-23 2009-04-07 Microsoft Corporation Head pose tracking system
US20040223631A1 (en) 2003-05-07 2004-11-11 Roman Waupotitsch Face recognition based on obtaining two dimensional information from three-dimensional face shapes
US7526101B2 (en) 2005-01-24 2009-04-28 Mitsubishi Electric Research Laboratories, Inc. Tracking objects in videos with adaptive classifiers
WO2008068456A2 (en) * 2006-12-06 2008-06-12 Sony United Kingdom Limited A method and an apparatus for generating image content
US20080298643A1 (en) * 2007-05-30 2008-12-04 Lawther Joel S Composite person model from image collection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170515A (ja) * 2019-04-02 2020-10-15 三星電子株式会社Samsung Electronics Co.,Ltd. 映像処理装置及びその映像処理方法

Also Published As

Publication number Publication date
WO2009061420A1 (en) 2009-05-14
US8315430B2 (en) 2012-11-20
US8457368B2 (en) 2013-06-04
US20090141988A1 (en) 2009-06-04
US20130039545A1 (en) 2013-02-14

Similar Documents

Publication Publication Date Title
JP2011504673A (ja) オブジェクト認識およびデータベース移植
US8064641B2 (en) System and method for identifying objects in video
US20200012674A1 (en) System and methods thereof for generation of taxonomies based on an analysis of multimedia content elements
US20190377956A1 (en) Method and apparatus for processing video
US9672217B2 (en) System and methods for generation of a concept based database
US10831814B2 (en) System and method for linking multimedia data elements to web pages
CN106547744B (zh) 一种图像检索方法及系统
US20130148898A1 (en) Clustering objects detected in video
US8346801B2 (en) Context based video finder
CN109325148A (zh) 生成信息的方法和装置
US20080168070A1 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
WO2019080411A1 (zh) 电子装置、人脸图像聚类搜索方法和计算机可读存储介质
US9471675B2 (en) Automatic face discovery and recognition for video content analysis
US10380267B2 (en) System and method for tagging multimedia content elements
KR102258420B1 (ko) 지능정보기술기반 애니메이션 콘텐츠 리소스 서비스 시스템 및 방법
JP2018509664A (ja) モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
CN110704603A (zh) 一种通过资讯发掘当前热点事件的方法和装置
US20180373737A1 (en) Image processing device, image retrieval interface display device, and method for displaying image retrieval interface
US11537636B2 (en) System and method for using multimedia content as search queries
US20130191368A1 (en) System and method for using multimedia content as search queries
US20150373404A1 (en) Information processing device and method, and program
KR20120059935A (ko) 문서분류장치 및 그것의 문서분류방법
JP2014078100A (ja) 配信装置及びコンピュータプログラム
Liu et al. Naming faces in broadcast news video by image google
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20110727