JP5061382B2 - 時系列データの識別装置および動画像への人物メタ情報付与装置 - Google Patents

時系列データの識別装置および動画像への人物メタ情報付与装置 Download PDF

Info

Publication number
JP5061382B2
JP5061382B2 JP2008093028A JP2008093028A JP5061382B2 JP 5061382 B2 JP5061382 B2 JP 5061382B2 JP 2008093028 A JP2008093028 A JP 2008093028A JP 2008093028 A JP2008093028 A JP 2008093028A JP 5061382 B2 JP5061382 B2 JP 5061382B2
Authority
JP
Japan
Prior art keywords
time
series data
face
person
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008093028A
Other languages
English (en)
Other versions
JP2009245314A (ja
Inventor
賢治 松尾
正樹 内藤
一則 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008093028A priority Critical patent/JP5061382B2/ja
Publication of JP2009245314A publication Critical patent/JP2009245314A/ja
Application granted granted Critical
Publication of JP5061382B2 publication Critical patent/JP5061382B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、時系列データの識別装置および動画像への人物メタ情報付与装置に関し、特に、入力された時系列データが登録された人物やその他のオブジェクトのいずれに属するかを識別する時系列データの識別装置およびそれを利用した動画像への人物メタ情報付与装置に関する。
動画像内に登場する人物などのオブジェクト検索を実現するため、オブジェクトに関するメタ情報をフレーム単位で動画像に付与することが要求される。このためには、画像や音声などの時系列データが、どの人物あるいはその他のどのオブジェクトに属するものであるかを識別する必要がある。
非特許文献1には、逐次確率比検定(SPRT:Sequential Probability Ratio Test)により、入力された時系列データが登録されたオブジェクトのいずれに属するかを識別する方法が提案されている。
また、非特許文献2には、特に、SPRTを音声時系列信号に適用し、入力された音声時系列信号が登録された話者の中の誰に属するかを識別する方法が記載されている。
SPRTは、時間軸に沿って仮説検定を逐次的に実行していき、結論が得られた時点で検定を停止する逐次的決定過程(sequential decision process)であり、仮説検定理論における逐次確率比検定の考え方と決定理論の発想を導入したものである。
SPRTは、結論を出すべき時点を予め設定することなく、入力される時系列データの動向を逐次確認しつつ識別でき、少ない費用および労力で効率的に妥当な結論を得ることができるという特徴を有する。
図5は、従来のSPRTの動作説明図である。オブジェクト1,2を規定する仮説H、Hの対数尤度比(LLR:Logarithm of Likelihood Ratio)をそれぞれ、LLR(H)、LLR(H)とすると、まず、時刻tでLLR(H)、LLR(H)をゼロにリセットし、時系列データが入力される時間軸に沿って仮説検定を逐次的に実行して行く。LLR(H)、LLR(H)が共に上限閾値Aを上回っていなければ、いずれの仮説も採択しない。
時刻tN1で、LLR(H)は上限閾値Aを上回っていないが、LLR(H)が上限閾値Aを上回ったとすると、時刻tN1で仮説Hを採択する。これにより、時系列データはオブジェクト1に属すると識別される。その後、LLR(H)、LLR(H)をゼロにリセットして再び逐次的決定過程を繰り返す。
次に、時刻tN2で、LLR(H)は上限閾値Aを上回っていないが、LLR(H)が上限閾値Aを上回ったとすると、時刻tN2で仮説Hを採択する。今度は、時系列データはオブジェクト2に属すると識別される。その後、LLR(H)、LLR(H)をゼロにリセットして逐次的決定過程を繰り返す。
逆に、LLR(H)またはLLR(H)が下限閾値Bを下回った場合、仮説HまたはHを棄却する。棄却した仮説のLLRは、他の仮説が採用される時刻までリセット状態のままとする。
松本 一則、橋本 和夫、"局所定常な2項分布モデルを組み合わせた通信トラヒック監視システム、"電子情報通信学会論文誌D, Vol.J84, No.6, pp.800-808, 2001. 浜崎 武、野田 秀樹、河口 英二、"逐次確率比検定を用いた適応的話者識別、"電子情報通信学会技術研究報告. PRMU, Vol.99, No.710, pp. 9-14, Mar., 2000.
しかしながら、非特許文献1,2に代表される従来のSPRTでは、複数の時系列データが同時に入力される場合について特段の配慮が払われていない。従来のSPRTを単に複数の時系列データが同時に入力される場合に適用すると、各時系列データの識別結果に不整合が生じるという課題がある。
例えば、画像内に同時に存在する複数の顔画像の時系列データが同時に入力され、これらの時系列データに基づいて人物を識別する場合、従来のSPRTを単に適用すると、複数の時系列データを同一人物のものと誤って識別することがある。これは、時系列データに変動が付加されている場合に生じ、特に顔画像では姿勢、照明、表情など様々な変動が付加され易いことに起因している。
以下、従来のSPRTを単に複数の時系列データに適用した場合の問題を具体例をあげて説明する。図6は、TV番組映像の、あるシーンの時刻tにおける1フレームの画像の例を示している。この画像内には2つ顔画像が含まれており、一方の顔画像(a)は正面向きでシーン内では動きが殆どなく安定しており、他方の顔画像(b)はシーン内で比較的動きが激しく不安定であるとする。また、ここでは、TV番組に付随している出演者リストに上がっている3名の人物1,2,3の顔画像が予め登録されており、TV映像からフレーム単位で検出された顔画像(a),(b)が、登録されている3名の人物1,2,3のいずれのものであるかを識別する場合を想定する。
図7は、従来のSPRTでの問題点についての説明図である。ここでは、3名(m=3)の登録人物が予定されているので、人物1,2,3をそれぞれ規定する仮説H,H,Hを用意し、入力される顔画像(a),(b)それぞれについて仮説H,H,HのLLRをそれぞれ算出する。図7(A),(B)はそれぞれ、顔画像(a),(b)について算出された仮説H,H,HのLLRの推移を示し、実線はLLR(H)、破線はLLR(H)、一点鎖線はLLR(H)である。
図7の時間軸に沿いLLRに基づいてSPRTを行うと、下記(1)〜(6)の順番に仮説の採択と棄却が決定付けられる。
(1)時刻t=tで、顔画像(a)についてのLLR(H)が下限閾値Bを下回った(LLR(H)<B)ので、仮説Hを棄却する。時刻t=t以降、顔画像(a)については仮説H,Hの検定のみが引き続き行われる。
(2)時刻t=tで、顔画像(b)についてのLLR(H)が下限閾値Bを下回った(LLR(H)<B)ので、仮説Hが棄却される。時刻t=t以降、顔画像(a)について仮説H,Hの検定のみが引き続き行われる。
(3)時刻t=tで、顔画像(a)についてのLLR(H)が上限閾値Aを上回った(LLR(H)>A)ので、仮説Hが選択される。これにより顔画像(a)は人物1のものと識別される。
(4)上記(3)で顔画像(a)が人物1のものと識別されたので、顔画像(a)についての他の全ての仮説が棄却される。この場合、顔画像(a)についての仮説Hが棄却される。
(5)時刻t=tで、顔画像(b)についてのLLR(H)が上限閾値Aを上回った(LLR(H)>A)ので、仮説Hが採択される。これにより顔画像(b)がオブジェクト1のものと識別される。
(6)上記(5)で顔画像(b)が人物1のものと識別されたので、顔画像(b)についての他の全ての仮説が棄却される。この場合、顔画像(b)についての仮説Hが棄却される。
上記の例の場合、顔画像(a)は時刻t=tで人物1のものと識別され、顔画像(b)も時刻t=tで人物1のものと識別される。すなわち、顔画像(a),(b)とも同一人物のものと識別される。この場合、顔画像(b)は動きが激しく不安定であり、この影響を受けてLLRが閾値を超えるまでに長時間を要し、その上、識別に誤りが生じているものと考えられる。顔画像は、特に、姿勢や表情などの変動要因が多様であり、変動要素による確率比(LLR)に揺らぎが生じ易いので、識別結果に不整合が生じる可能性が高い。しかし、顔画像に限らず、変動要因をもつ時系列データを対象としたSPRTでは、同様に、識別結果に不整合が生じる可能性がある。
このように識別結果に不整合が生じるのは、従来のSPRTではオブジェクト間の排他性を考慮しておらず、複数の時系列データを同一オブジェクトと識別することを許しているためである。
本発明の目的は、上記課題を解決し、入力される時系列データが登録された人物あるいはその他のオブジェクトのいずれに属するかを高精度に識別できる時系列データの識別装置を提供することにある。
また、本発明の他の目的は、その時系列データの識別装置を利用して動画像に人物に関するメタ情報を付与する人物メタ情報付与装置を提供することにある。
上記目的を達成するため、本発明に係る時系列データの識別装置は、入力される複数の時系列データの各々が登録されたオブジェクトのいずれに属するかを個別に識別する複数の識別手段と、前記複数の識別手段のうちの1つ識別手段において、ある時系列データが登録されたあるオブジェクトに属すると識別された場合、他の識別手段において該オブジェクトを識別候補から除外する除外手段を備える点に特徴がある。
また、本発明に係る時系列データの識別装置は、前記識別手段が、時系列データがあるオブジェクトに属することを規定する仮説をオブジェクト別に立て、それぞれの仮説の確率的な確からしさと不確からしさの比を示す尤度比を求め、その大小に基づいて時系列データが登録されたオブジェクトのいずれに属するかを識別する点に特徴がある。
また、本発明に係る時系列データの識別装置は、前記識別手段が、各オブジェクトの特徴量を予め蓄積する登録データベースと、前記登録データベースに蓄積されている各オブジェクトの特徴量と各時系列データの特徴量とを逐次比較し、比較スコアを算出する比較スコア算出手段と、前記比較スコア算出手段により算出された比較スコアを用いて尤度比を求めるLLR測定手段と、前記LLR測定手段により求められた尤度比を閾値と比較する比較手段を備える点に特徴がある。
また、本発明に係る時系列データの識別装置は、前記除外手段が、各仮説が採択・棄却・検定中のいずれであるかの状態を示す状態保持バッファを備え、前記比較スコア算出手段は、検定中の状態にある仮説についてのみ比較スコアを算出する点に特徴がある。
また、本発明に係る時系列データの識別装置は、前記識別手段が、あるオブジェクトについての尤度比が上限域値を上回った場合、時系列データは該オブジェクトに属すると識別し、その仮説の状態を採択に変更する点に特徴がある。
また、本発明に係る時系列データの識別装置は、前記識別手段が、あるオブジェクトについての尤度比が下限閾値を下回った場合、時系列データは該オブジェクトに属さないと識別し、その仮説の状態を棄却に変更する点に特徴がある。
また、本発明に係る時系列データの識別装置は、前時刻の対数尤度比を保持するLLR保持バッファを備え、前記尤度比は対数尤度比であり、前記識別手段は、前記LLR保持バッファに保持された前時刻の尤度比を用いて現時刻の尤度比を再帰的に求める点に特徴がある。
また、本発明に係る時系列データの識別装置は、前記識別手段が、予め学習によりモデル化されたガウス密度関数を用いて尤度比を求める点に特徴がある。
本発明に係る動画像への人物メタ情報付与装置は、時系列データを顔画像の動画像とし、オブジェクトを人物とし、上記のいずれかの時系列データの識別装置と、動画像をフレーム単位で順次に読み込み、同一人物の顔画像とその連続表示期間を対応付けた顔インデックスを構築する顔インデックス構築手段と、人物メタ情報付与手段を備え、前記時系列データの識別装置は、顔画像を識別してその人物識別情報を送出し、前記人物メタ情報付与手段は、前記人物識別情報と前記顔インデックスを人物メタ情報として動画像の対応する各フレームに付与する点に特徴がある。
また、本発明に係る動画像への人物メタ情報付与装置は、前記時系列データの識別装置が、動画像に付随している番組情報から出演者リストを抽出し、該出演者リストに登場する人物を規定する仮説だけに絞って動画像を識別する点に特徴がある
本発明に係る時系列データの識別装置では、時系列データ間の排他性を考慮し、複数の識別手段のうちの1つ識別手段において、ある時系列データが登録されたあるオブジェクトであると識別されたとき、他の識別手段において該オブジェクトを識別候補から除外するので、複数の時系列データを同一オブジェクトと識別することがなくなり、各々の時系列データを高精度に識別できる。
また、本発明に係る動画像への人物メタ情報付与装置では、顔画像に排他性を考慮した時系列データの識別手法を適用し、同一の顔画像とその連続表示期間を対応付けた顔インデックスを構築し、フレーム単位で人物メタ情報を付与するので、目視で確認することなく、動画像に人物名などのメタ情報を高精度に付与でき、また、このメタ情報をクエリとして所望の人物の登場シーンを正確に検索できる。
以下、図面を参照して本発明を説明する。まず、本発明に係る時系列データの識別装置について説明する。時系列データの識別装置は、複数の時系列データを入力とし、それらの各々が予め登録されたオブジェクトのいずれに属するかを識別し、その識別結果を出力するものである。
図1は、本発明に係る時系列データの識別装置の一実施形態を示すブロック図である。本実施形態の時系列データの識別装置10は、比較スコア算出部11、登録データベース(DB)12、状態保持バッファ13、LLR測定部14、LLR保持バッファ15および閾値識別部16を備える。
比較スコア算出部11には複数の時系列データが同時に入力される。複数の時系列データは、比較スコア算出部11、LLR測定部14および閾値識別部16で並列的に処理される。したがって、これらの各部は、入力される時系列データ分用意される。なお、これらの各部はハードウエアでもソフトウエアでも実現できる。
比較スコア算出部11は、時系列データを任意の時間間隔で読み込み、時系列データと登録DB12に予め登録されている各オブジェクトとの類似度を示す比較スコアを算出する。例えば、時系列データが顔画像(動画像)である場合、顔画像のフレームを1枚ずつ読み込み、比較スコアを算出する。
比較スコアの算出では、時系列データとオブジェクトの特徴量を利用することができる。この場合、登録DB12には各オブジェクトの識別情報、各オブジェクトの特徴量と正例および負例のそれぞれに関するスコア分布の密度関数を予め登録しておく。登録DB12に予め登録するデータは、オブジェクトが既知の時系列データを用いて予め学習することにより取得できる。
比較スコア算出部11は、入力される時系列データの特徴量を登録DB12に登録されている各オブジェクトの特徴量と比較することにより比較スコアを算出する。比較スコアは、入力される時系列データがオブジェクトに類似しているほど高い値を示す。以下では、入力される時系列データが動画像(顔画像)であるとして説明する。
状態保持バッファ13は、SPRTでの各仮説が採択・棄却・検定中のいずれであるかを示す状態を保持している。比較スコア算出部11は、状態保持バッファ13に保持されている状態を参照し、検定中の状態にある仮説に関してのみ比較スコアを算出する。各仮説が採択・棄却・検定中のいずれであるかを示す状態は、後述するように、閾値識別部16での識別結果に従って状態保持バッファ13に保持される。
LLR測定部14は、比較スコア算出部11で算出された比較スコアを用いて現時刻におけるLLRを求める。
mクラスの仮説をH(i=1〜m)とし、時刻t(t=t,t,・・・,t,tN+1,・・・)のときのデータzについての仮説Hの確率をP(z)とすると、時刻tにおける仮説Hの対数尤度LLR(H)は、式(1)で求めることができる。なお、確率P(z)は、予め学習を行い、比較スコアに対してガウス密度関数となる値としてモデル化して設定しておく。
Figure 0005061382
また、現時刻におけるLLRは、LLR保持バッファ15に蓄積されている前時刻でのLLRを用い、式(3)を用いて再帰的に求めることができる。式(3)において、LLR(H)は、現時刻t=tにおける仮説Hの対数尤度であり、LLR′(H)は、前時刻t=tN−1における仮説Hの対数尤度である。式(2)の右辺第2および第3項は現時刻t=tでのLLR追加分を表している。
Figure 0005061382
閾値識別部16は、LLR測定部14で求められた現時刻におけるLLR(Hi)を2つの閾値AおよびB(A>B)と比較し、識別結果を出力する。すなわち、複数の時系列データそれぞれに対する仮説検定により得られたLLR(Hi)が上限閾値Aを上回った場合、仮説Hiを採択し、下限閾値Bを下回った場合、仮説Hiを棄却する。なお、LLR(Hi)が上限閾値Aと下限閾値Bの間にある場合には判定を下さない。閾値AおよびBは、RecallおよびPrecisionに代表される精度の観点で統計的に導出できる。
例えば、時系列データfを仮説iで検定しているとすると、LLR(Hi)が上限閾値Aを上回った場合、仮説iを採択し、時系列データfは、仮説iに規定された人物と識別する。同時に仮説iの状態を採択に変更する。
また、LLR(Hi)が下限閾値Bを下回った場合、仮説iを棄却し、仮説iの状態を棄却に変更する。LLR(Hi)が上限閾値Aと下限閾値Bの間にある場合には何もしない。仮説iの状態は未確定のままである。
LLR保持バッファ15は、LLR測定部14で求められたLLRを蓄積し、状態保持バッファ13は、閾値識別部16から送出される各仮説iの状態を保持する。
図2は、図1におけるSPRTの説明図である。ここでも、識別対象の時系列データが動画像であり、オブジェクトがTV番組に出演する人物1,2,3である場合を想定している。
図2(a),(b)はそれぞれ、入力される顔画像(a),(b)(図6)について得られた仮説H,H,HのLLRの推移を示し、実線はLLR(H)、破線はLLR(H)、一点鎖線はLLR(H)である。図2の時間軸に沿いLLRに基づいてSPRTを行うと、下記(1)〜(6)の順番に仮説の採択と棄却が決定付けられる。
(1)時刻t=tで、顔画像(a)についてのLLR(H)が下限閾値Bを下回った(LLR(H)<B)ので、仮説Hを棄却する。時刻t=t以降、顔画像(a)については仮説H,Hの検定のみが引き続き行われる。
(2)時刻t=tで、顔画像(b)についてのLLR(H)が下限閾値Bを下回った(LLR(H)<B)ので、仮説Hを棄却する。時刻t=t以降、顔画像(a)については仮説H,Hの検定のみが引き続き行われる。時刻t=tまでは図7と全く同じである。
(3)時刻t=tで、顔画像(a)についてのLLR(H)が上限閾値Aを上回った(LLR(H)>A)ので、仮説Hを採択する。これにより顔画像(a)は人物1のものと識別される。
(4)上記(3)で顔画像(a)は人物1のものと識別されたので、顔画像(a)についての他の全ての仮説を棄却する。この場合、顔画像(a)についての仮説Hが棄却される。
(5)上記(3)で顔画像(a)に人物が識別され、同じフレーム内に同一人物が出現することはないので、顔画像(b)についての仮説Hを棄却する。時刻t=t以降、顔画像(b)については仮説Hの検定のみが引き続き行われる。
(6)時刻t=tで、顔画像(b)についてのLLR(H)が上限閾値Aを上回った(LLR(H)>A)ので、仮説Hを採択する。これにより顔画像(b)は人物2のものと識別される。
(7)上記上記(6)で顔画像(b)は人物2のものと識別されたので、顔画像(b)についての他の全ての仮説を棄却する。この場合、顔画像(b)について棄却される仮説はない。
以上のように、同一フレーム内に同一人物が出現することはないことを考慮し、ある時系列データをある人物のものと識別したときには、該人物を他の識別での識別候補から除外するので、他の時系列データをそれと同じ人物のものと識別することがない。
次に、本発明に係る人物メタ情報付与装置について説明する。本発明に係る人物メタ情報付与装置は、入力される時系列データを動画像とし、オブジェクトを出演人物とし、上記の時系列データの識別装置を用いて、時系列データ(顔画像)がどの人物のものであるかを識別し、動画像へ人物メタ情報を付与するものである。
また、上記の時系列データの識別装置を用いて再帰的にLLRを求めるためには、入力する時系列データの各々を同一人物の顔画像とする必要がある。例えば、現在視聴中のTV番組で、図6に示すように2人の人物が登場している場合、時刻tと次時刻tN+1の間の同一顔を判定して対応付け、各顔画像を2つの時系列データとして時系列データの識別装置に入力する必要がある。そこで、以下に説明する人物メタ情報付与装置は、時系列データの識別装置の前段に顔画像追跡部などを備えている。
図3は、本発明に係る人物メタ情報付与装置の一実施形態を示すブロック図である。本実施形態の人物メタ情報付与装置は、顔画像を含む動画像を蓄積する動画像蓄積部31、顔画像追跡部32、代表顔決定部33、顔インデックス構築部34、出演者情報抽出部35、顔登録部36、顔DB37、顔識別部38および人物メタ情報付与部39を備える。
顔画像追跡部32、代表顔決定部33および顔インデックス構築部34による機能は、本発明者が先に提案した「動画像の顔インデックス作成装置およびその顔画像追跡方法」(特願2007-88738号)と同じであるので、その概要だけを説明する。
顔画像追跡部32は、動画像蓄積部31から動画像をフレーム単位で順次に読み込み、複数フレームにわたって連続的に登場する同一人物の顔画像を追跡し、その連続表示期間を検出する。代表顔決定部33は、顔画像追跡部32で検出された連続表示期間ごとの代表顔を決定する。顔インデックス構築部34は、各顔画像の連続表示期間と該連続表示期間の代表顔を対応付けた顔インデックスを構築する。1フレームの画像内に複数の顔画像が含まれている場合、顔画像ごとに顔インデックスが構築されることになる。
出演者情報抽出部35は、動画像蓄積部31に蓄積されている動画像中に出てくる出演者の名前などの出演者情報を抽出する。例えば、動画像蓄積部31に蓄積されている動画像がTV番組であり、それに付随してEPG(Electronic Program Guide)情報などの番組情報が蓄積されている場合、それから出演者リストを出演者情報として抽出する。
顔登録部36には、予め多くの人物について名前と顔画像とが対応付けられて登録されている。顔DB37は、図1の登録DBに相当するものであり、顔登録部36に登録されているデータの中から出演者情報抽出部35で抽出された出演者リストに上がっている人物についてのデータ(各人物の名前、各人物の顔画像の特徴量と正例および負例のそれぞれに関するスコア分布の密度関数)を抽出して登録する。
顔識別部38には、顔画像追跡部32で画像内から追跡して検出された顔画像の時系列データが入力される。画像内に複数の顔画像が含まれている場合、各顔画像についての時系列データが生成され、複数の時系列データが同時に顔識別部38に入力される。
顔識別部38は、図1の比較スコア算出部11、状態保持バッファ13、LLR測定部14、LLR保持バッファ15および閾値識別部16に相当する部分であり、顔DB37に登録された人物についてのデータを読み込み、時系列データがどの人物のものであるかの仮説を逐次確率比検定し、人名などの人物識別情報を出力する。
人物メタ情報付与部39は、顔インデックス構築部34から出力される顔インデックス(連続表示期間・代表顔画像)および顔識別部38から出力される人物識別情報を人物メタ情報としてフレーム単位で記述し、動画像蓄積部31の対応する動画像に付与する。
図4は、図3の顔画像追跡部32と顔識別部38を機能的表現したブロック図である。顔画像追跡部32は上記特願2007-88738号で提案したものと同じであり、顔識別部38は図1と同じであるので、その概要だけを説明する。
顔画像追跡部32は、フレーム画像取得部41、今回フレームバッファ42、前回フレームバッファ43、ショットチェンジ識別部44、顔検出部45、今回検出結果バッファ46、前回検出結果バッファ47、顔間距離算出部48、距離依存対応付部49、類似度依存対応付部50を備える。
顔識別部38は、比較スコア算出部51、顔DB52、状態保持バッファ53、LLR測定部54、LLR保持バッファ55および閾値識別部56を備える。
フレーム画像取得部41は、動画像蓄積部31に蓄積されている動画像から1フレーム分の静止画像を任意の時刻間隔で読み込む。今回フレームバッファ42は、今回読み込まれた今回フレームの静止画像を蓄積し、前回フレームバッファ53は、前回読み込まれた前回フレームの静止画像を蓄積する。
ショットチェンジ識別部44は、今回フレームバッファ42と前回フレームバッファ53に蓄積されている静止画像同士を比較し、その類似度に基づいてショット間のカメラ編集点の有無を識別する。
顔検出部45は、今回フレームバッファ42に蓄積された今回フレームの静止画像から顔画像を検出し、検出された顔画像ごとにその表示範囲の位置座標、幅、高さなどの空間的な位置情報を求める。
今回検出結果バッファ46は、顔検出部45で求められた顔画像の位置情報を蓄積する。なお、顔検出部45で検出された直後の顔画像は、未確定の顔候補として取り扱い、次のフレームでも同じ表示位置で顔画像が検出されたときに確定顔として取り扱うこととする。また、前回検出結果バッファ47は、前回フレームで検出された顔候補および確定顔の表示範囲の位置座標、幅、高さなどの空間的な位置情報を蓄積する。
顔間距離算出部48は、顔検出部45で検出され、今回検出結果バッファ46に蓄積された今回フレームの各顔画像の表示位置と前回検出結果バッファ47に蓄積されている前回フレームの各顔画像の表示位置との距離(以下、顔間距離と称す)Δdを算出する。この距離Δdは、例えば、各顔画像の左上座標間の距離を求めることにより算出できる。
距離依存対応付部49は、顔間距離算出部48で算出された顔間距離Δdが所定の閾値Δdrefを下回る顔画像(顔候補および確定顔)の組み合わせに対して、今回フレームで検出された顔候補の状態を今回検出結果バッファ46上で確定顔に更新する。同時に、前回フレームで検出された顔候補の状態を前回検出結果バッファ47上で確定顔に更新し、さらに各顔画像を顔画像シリーズとして相互に対応付ける。ここで、所定の閾値Δdrefは、前回フレームで検出された顔画像の大きさに比例した値に設定するのが好ましい。
類似度依存対応付部50は、前回検出結果バッファ47に蓄積されている前回フレームの確定顔の中で、今回フレームのいずれの顔画像とも対応付けされなかった確定顔をテンプレートとして今回フレームの画像内でテンプレートマッチングを行い、類似度が所定の閾値を超える領域の画像を新たな顔画像(確定顔)として今回検出結果バッファ46に追加し、さらに各顔画像を顔画像シリーズとして相互に対応付ける。
テンプレートマッチングの適用領域は、テンプレートマッチングでの誤検出を低減し、かつ計算量を低減するために、今回フレームの画像全体ではなく、テンプレートとして使用する確定顔の顔前フレームにおける表示位置と対応した位置およびその近傍に限定するのが好ましい。
前回検出結果バッファ47上には確定された顔画像とその領域座標が保持され、これらは代表顔決定部33(図3)および顔特徴量作成部57に送出される。
顔識別部38は、図1の構成と同じであり、確定された顔画像が登録された人物のいずれのものであるか仮説を逐次確率検定し、人物識別情報を出力する。ただし、ここでは、前回検出結果バッファ47と顔識別部38との間に顔特徴量作成部57を介在させている。
顔特徴量作成部57は、前回検出結果バッファ47から出力される確定顔画像それぞれの時系列データから顔識別に適した顔特徴量を作成し、それらを時系列データとして比較スコア算出部51に入力する。顔特徴量は、Eigen face法(固有顔法)、Fisher face法、その他の方法で作成できる。この顔特徴量は、姿勢や照明などの変動にロバストな特徴量とするのが好ましい。また、顔特徴量の作成に際し、顔中の両方の瞳などの器官を抽出し、それを基準にして位置と大きさの正規化を行うことも好ましい。
以上のように、顔画像に基づいて人物を判定するSPRTでは、時系列系列データが登録されている人物のいずれのものであるかを、各人物を規定するそれぞれの仮説を用いて識別する。ここで、従来のSPRTでは複数の時系列データ間の排他性を考慮せずに識別を行うのに対し、本発明では複数の時系列データ間の排他性を考慮した識別を行うので、複数の時系列データを同一人物のものなどと誤識別することがない。したがって、複数の時系列データを高精度に識別でき、また、動画像にフレーム単位で登場人物のメタ情報を正確に付与することができる。
本発明に係る時系列データの識別装置の一実施形態を示すブロック図である。 図1における逐次確率比検定(SPRT)の動作説明図である。 本発明に係る人物メタ情報付与装置の一実施形態を示すブロック図である。 図3の顔画像追跡部と顔識別部を機能的表現したブロック図である。 従来のSPRTの動作説明図である。 TV番組映像の、あるシーンにおける1フレームの画像の例を示す図である。 従来のSPRTにおける問題点の説明図である。
符号の説明
10・・・時系列データの識別装置、11,51・・・比較スコア算出部、12・・・登録データベース(DB)、13,53・・・状態保持バッファ、14,54・・・LLR測定部、15,55・・・LLR保持バッファ、16,56・・・閾値識別部、31・・・動画像蓄積部、32・・・顔画像追跡部、33・・・代表顔決定部、34・・・顔インデックス構築部、35・・・出演者情報抽出部、36・・・顔登録部、37,52・・・顔DB、38・・・顔識別部、39・・・人物メタ情報付与部、41・・・フレーム画像取得部、42・・・今回フレームバッファ、43・・・前回フレームバッファ、44・・・ショットチェンジ識別部、45・・・顔検出部、46・・・今回検出結果バッファ、47・・・前回検出結果バッファ、48・・・顔間距離算出部、49・・・距離依存対応付部、50・・・類似度依存対応付部

Claims (10)

  1. 入力される複数の時系列データの各々が登録されたオブジェクトのいずれに属するかを識別する時系列データの識別装置において、
    入力される複数の時系列データの各々が登録されたオブジェクトのいずれに属するかを個別に識別する複数の識別手段と、
    前記複数の識別手段のうちの1つ識別手段において、ある時系列データが登録されたあるオブジェクトに属すると識別された場合、他の識別手段において該オブジェクトを識別候補から除外する除外手段を備えること特徴とする時系列データの識別装置。
  2. 前記識別手段は、時系列データがあるオブジェクトに属することを規定する仮説をオブジェクト別に立て、それぞれの仮説の確率的な確からしさと不確からしさの比を示す尤度比を求め、その大小に基づいて時系列データが登録されたオブジェクトのいずれに属するかを識別することを特徴とする請求項1に記載の時系列データの識別装置。
  3. 前記識別手段は、各オブジェクトの特徴量を予め蓄積する登録データベースと、前記登録データベースに蓄積されている各オブジェクトの特徴量と各時系列データの特徴量とを逐次比較し、比較スコアを算出する比較スコア算出手段と、前記比較スコア算出手段により算出された比較スコアを用いて尤度比を求めるLLR測定手段と、前記LLR測定手段により求められた尤度比を閾値と比較する比較手段を備えること特徴とする請求項2に記載の時系列データの識別装置。
  4. 前記除外手段は、各仮説が採択・棄却・検定中のいずれであるかの状態を示す状態保持バッファを備え、前記比較スコア算出手段は、検定中の状態にある仮説についてのみ比較スコアを算出することを特徴とする請求項3に記載の時系列データの識別装置。
  5. 前記識別手段は、あるオブジェクトについての尤度比が上限域値を上回った場合、時系列データは該オブジェクトに属すると識別し、その仮説の状態を採択に変更することを特徴とする請求項4に記載の時系列データの識別装置。
  6. 前記識別手段は、あるオブジェクトについての尤度比が下限閾値を下回った場合、時系列データは該オブジェクトに属さないと識別し、その仮説の状態を棄却に変更することを特徴とする請求項4または5に記載の時系列データの識別装置。
  7. 前時刻の対数尤度比を保持するLLR保持バッファを備え、前記尤度比は対数尤度比であり、前記識別手段は、前記LLR保持バッファに保持された前時刻の尤度比を用いて現時刻の尤度比を再帰的に求めることを特徴とする請求項2ないし6のいずれかに記載の時系列データの識別装置。
  8. 前記識別手段は、予め学習によりモデル化されたガウス密度関数を用いて尤度比を求めることを特徴とする請求項2ないし6のいずれかに記載の時系列データの識別装置。
  9. 時系列データを顔画像の動画像とし、オブジェクトを人物とし、
    請求項1ないし8のいずれかの時系列データの識別装置と、
    動画像をフレーム単位で順次に読み込み、同一人物の顔画像とその連続表示期間を対応付けた顔インデックスを構築する顔インデックス構築手段と、
    人物メタ情報付与手段を備え、
    前記時系列データの識別装置は、顔画像を識別してその人物識別情報を送出し、前記人物メタ情報付与手段は、前記人物識別情報と前記顔インデックスを人物メタ情報として動画像の対応する各フレームに付与することを特徴とする動画像への人物メタ情報付与装置。
  10. 前記時系列データの識別装置は、動画像に付随している番組情報から出演者リストを抽出し、該出演者リストに登場する人物を規定する仮説だけに絞って動画像を識別することを特徴とする請求項9に記載の動画像への人物メタ情報付与装置。
JP2008093028A 2008-03-31 2008-03-31 時系列データの識別装置および動画像への人物メタ情報付与装置 Expired - Fee Related JP5061382B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008093028A JP5061382B2 (ja) 2008-03-31 2008-03-31 時系列データの識別装置および動画像への人物メタ情報付与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008093028A JP5061382B2 (ja) 2008-03-31 2008-03-31 時系列データの識別装置および動画像への人物メタ情報付与装置

Publications (2)

Publication Number Publication Date
JP2009245314A JP2009245314A (ja) 2009-10-22
JP5061382B2 true JP5061382B2 (ja) 2012-10-31

Family

ID=41307100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008093028A Expired - Fee Related JP5061382B2 (ja) 2008-03-31 2008-03-31 時系列データの識別装置および動画像への人物メタ情報付与装置

Country Status (1)

Country Link
JP (1) JP5061382B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022049704A1 (ja) 2020-09-03 2022-03-10 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7248102B2 (ja) 2019-03-26 2023-03-29 日本電気株式会社 情報処理装置、個人識別装置、情報処理方法及び記憶媒体
JP6982259B2 (ja) * 2019-09-19 2021-12-17 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
US20220245916A1 (en) * 2020-05-11 2022-08-04 Nec Corporation Determination device, determination method, and recording medium
WO2021229661A1 (ja) * 2020-05-11 2021-11-18 日本電気株式会社 判定装置、判定方法および記録媒体
JP7435755B2 (ja) * 2020-05-11 2024-02-21 日本電気株式会社 判定装置、学習方法およびプログラム
JP7416273B2 (ja) * 2020-09-11 2024-01-17 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータプログラム
WO2022144992A1 (ja) * 2020-12-28 2022-07-07 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータプログラム
EP4354322A4 (en) 2021-06-09 2024-06-12 NEC Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, MEDICAL IMAGE IDENTIFICATION DEVICE, AND NON-TRANSIENT COMPUTER-READABLE MEDIUM IN WHICH A PROGRAM IS STORED
WO2024079854A1 (ja) * 2022-10-13 2024-04-18 日本電気株式会社 情報処理装置、情報処理方法、及び記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4174279B2 (ja) * 2002-09-19 2008-10-29 日本放送協会 映像オブジェクト識別・追跡装置、その方法及びそのプログラム
JP4230870B2 (ja) * 2003-09-25 2009-02-25 富士フイルム株式会社 動画記録装置、動画記録方法、及びプログラム
JP4591215B2 (ja) * 2005-06-07 2010-12-01 株式会社日立製作所 顔画像データベース作成方法及び装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022049704A1 (ja) 2020-09-03 2022-03-10 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム
US12087035B2 (en) 2020-09-03 2024-09-10 Nec Corporation Information processing system, information processing method, and computer program

Also Published As

Publication number Publication date
JP2009245314A (ja) 2009-10-22

Similar Documents

Publication Publication Date Title
JP5061382B2 (ja) 時系列データの識別装置および動画像への人物メタ情報付与装置
US11188783B2 (en) Reverse neural network for object re-identification
CN105975959B (zh) 基于神经网络的人脸特征提取建模、人脸识别方法及装置
KR101434768B1 (ko) 이동 물체 추적 시스템 및 이동 물체 추적 방법
CN112183334B (zh) 一种基于多模态特征融合的视频深度关系分析方法
CN109063611B (zh) 一种基于视频语义的人脸识别结果处理方法和装置
US20100266159A1 (en) Human tracking apparatus, human tracking method, and human tracking processing program
CN110363220B (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
CN104657705A (zh) 图像识别装置及面向图像识别装置的数据登录方法
US20230368351A1 (en) Person verification device and method and non-transitory computer readable media
US11915519B2 (en) Information processing system, method for managing object to be authenticated, and program
CN112307868A (zh) 图像识别方法、电子设备和计算机可读介质
CN110175553B (zh) 基于步态识别与人脸识别建立特征库的方法及装置
CN111428589B (zh) 一种渐变转场的识别方法及系统
CN111401105B (zh) 一种视频表情识别方法、装置及设备
CN113313053A (zh) 图像处理方法、装置、设备、介质及程序产品
CN111709296A (zh) 一种景别识别方法、装置、电子设备及可读存储介质
JP2019117556A (ja) 情報処理装置、情報処理方法及びプログラム
US10755074B2 (en) Latent fingerprint pattern estimation
CN114663796A (zh) 一种目标人物持续跟踪方法、装置及系统
US20090123062A1 (en) Information processing apparatus, information processing method, and program
CN105760854B (zh) 信息处理方法及电子设备
GHAZAL et al. Smart Meeting Attendance Checking Based on A multi-biometric Recognition System.
KR20200124887A (ko) 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치
KR102342495B1 (ko) 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120711

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120718

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees