JP5178611B2

JP5178611B2 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP5178611B2
Application number: JP2009099226A
Authority: JP
Inventors: 智一河原; 智行柴田; 智和若杉
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-04-15
Filing date: 2009-04-15
Publication date: 2013-04-10
Anticipated expiration: 2029-04-15
Also published as: JP2010250556A; US8428312B2; US20100266166A1

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関し、特に、顔画像クラスタリングを行う画像処理装置、画像処理方法及びプログラムに関する。

従来より、人の顔の認識を画像処理により行う技術が種々提案され、近年、デジカメ等の製品において広く実用化されている。
例えば、静止画のデータから人の顔照合を行う場合に、画像の撮影条件が変化しても、高精度に顔照合をするための技術の提案がある（例えば、特許文献１参照）。その提案に係る技術は、撮影条件が悪い場合であっても、撮影条件に応じて類似度と閾値のデータの補正を行うことによって、高精度に顔照合ができるようにするものである。

また、近年は動画像についての顔検出技術の応用も提案されている。その一つの応用として、映像インデクシング技術があり、動画像データを出演者毎の出演シーンを分類する場合に、出演者の顔の向きを考慮して、顔の識別性能を向上する技術の提案がある（例えば、特許文献２参照）。

その提案に係る技術は、上述した撮影条件等の解析をする必要が無い方法であり、顔の向き等によって変化する顔状態を識別し、顔状態毎に分類された画像パターンを用いることによって、識別性能を向上させ、出演シーンの見落としを防ぐものである。

後者の技術では、顔が検出されると、検出された顔画像データをクラスタリングする顔画像クラスタリング処理が行われる。顔画像クラスタリングでは、二つの顔画像A、B間の類似度を計算し、その類似度が所定の閾値を超えていれば、顔画像A、Bを同一人物の顔画像とする処理が行われる。

しかしながら、この所定の閾値を低く設定すれば他人同士が同一グループになってしまい、高く設定すれば同一人物どうしが同じグループになりにくくなるため、最適な設定を行うのが容易ではないという問題がある。これは、様々な人の顔画像パターンには、他人との類似度が高くなりやすい顔（すなわち他人と似易い顔）、他人との類似度が低くなりやすい顔（すなわち他人と似難い顔）が存在することが原因と考えられるからである。

特開２００７−１４０８２３号公報特開２００９−４２８７６号公報

そこで、本発明は、上述した課題に鑑みてなされたもので、顔画像クラスタリングにおける閾値設定の非容易性を緩和し、顔画像クラスタリング性能を向上させた画像処理装置、画像処理方法及びプログラムを提供することを目的とする。

本発明の一態様によれば、動画像データ中の連続した同一人物の顔画像を１つのシーケンスとして複数のシーケンスを作成するシーケンス作成部と、シーケンス毎に作成された複数の顔画像辞書内の各ペアの第１の類似度、及び各顔画像辞書とサンプルとしての複数人の顔画像から生成されて予め用意された複数の外部辞書の各ペアの第２の類似度を計算する類似度計算部と、計算して得られた複数の第１の類似度を、前記第２の類似度が大きい程、小さくし、かつ前記第２の類似度が小さい程、大きくするように補正する類似度補正部と、前記類似度補正部において補正された前記複数の第１の類似度と所定の閾値とを比較して、前記複数の顔画像辞書をクラスタリングする顔クラスタリング部とを有する画像処理装置を提供することができる。

本発明によれば、顔画像クラスタリングにおける閾値設定の非容易性を緩和し、顔画像クラスタリング性能を向上させた画像処理装置、画像処理方法及びプログラムを提供することができる。

本発明の実施の形態に係わる画像処理装置の構成を示す構成図である。本発明の実施の形態に関わる、デコードされたフレームとシーンとの関係を説明するための図である。連続するフレームにおいて、出演者のシーケンスの概念を説明するための図である。顔認識映像インデクシング処理の流れの例を示すフローチャートである。ステップS7の顔画像辞書の作成処理と、ステップS8の顔類似度計算処理の内容を説明するための図である。複数の本人辞書と複数の他人辞書との類似度を計算した場合の類似度分布を模式的に表した図である。図４のステップS8の処理内容の例を示すフローチャートである。平均類似度の計算を説明するための図である。式（２−１）によって類似度の補正をした場合に顔類似度分布を作成した場合の模式図である。類似度の補正を行わない場合における顔認識映像インデクシング処理の結果を表示する画面の例を示す図である。類似度の補正を行った場合における顔認識映像インデクシング処理の結果を表示する画面の例を示す図である。

以下、図面を参照して本発明の実施の形態を説明する。
（ハードウエア構成）
まず図１に基づき、本実施の形態に係わる画像処理装置の構成を説明する。図１は、本実施の形態に係わる画像処理装置の構成を示す構成図である。

図１に示すように、画像処理装置１は、パーソナルコンピュータ（PC）等の情報処理装置である。画像処理装置１は、中央処理装置（CPU）１１、映像インデクシング処理のための画像処理プログラム等が記憶されたROM１２、CPU１１の作業用記憶領域としてのRAM１３、動画像データが記憶された内蔵あるいは外付けのハードディスク装置（以下、HDDという）１４とのインターフェース部（以下、I/Fという）１５、画像及び映像インデクシング処理結果を表示するモニタ１６とのI/F１７、キーボード、マウス等の入力装置とのI/F１８を含んで構成されている。CPU１１、ROM１２、RAM１３、I/F１５，１７，１８は、互いにバス１９により接続されている。
以下、説明する画像処理の例としては、CPU１１が、HDD１４に記憶された動画像データを読み出して、顔認識映像インデクシング処理を実行する例を挙げて説明する。

なお、本実施の形態は、画像処理装置１がPC等の情報処理装置の例で説明するが、画像処理装置は、テレビ放送のストリームデータを記憶するテレビ受像機、テレビ受信機能付きHDDレコーダ等の装置、さらにあるいは、ネットワークを介して配信されるストリームデータ等を記憶する装置等でもよい。

画像処理装置１では、ROM１２に記憶されている顔認識映像インデクシングプログラム（以下、単に映像インデクシングプログラムともいう）がCPU１１により実行され、HDD１４から読み出された動画像のストリームデータに対して顔認識映像インデクシング処理（以下、単に映像インデクシング処理ともいう）を実行する。

なお、映像インデクシング処理のためのプログラムは、HDD１４に記憶されていてもよく、CPU１１がHDD１４に記憶された映像インデクシング処理のためのプログラムを読み出して実行するようにしてもよい。

従って、ユーザが、画像処理装置１に対して、処理対象の動画像データを指定して、映像インデクシングプログラムの実行を指示すると、CPU１１は、ROM１２に記憶された映像インデクシングプログラムを実行する。

なお、映像インデクシング処理とは、テレビ番組等の動画像データ中の特定の出演者の場面だけを視聴するなど、映像コンテンツを効率的に視聴するために、顔認識技術を用い、認識された顔毎に映像にインデックスを付与する処理である。画像処理装置１は、映像インデクシング装置を構成する。
始めに、動画像データにおけるフレーム、シーン及び顔シーケンスについて説明する。

（フレームとシーンの関係）
図２は、デコードされたフレームとシーンとの関係を説明するための図である。動画像データは、連続するフレームデータとして、CPU１１あるいは図示しないデコーダでデコードされる。動画像データは、例えば、MPEG2形式のデータであり、デコードされると、時間経過の順のフレームデータｆが生成される。フレームレートに従ってモニタ１６に出力されることにより、視聴者は、動画像を視ることができる。

まず、シーンについて説明する。動画像には、シーンの変わる部分がある。例えば、動画像においてある被写体を映しているシーンから、別の場面のシーンへ切り換わる場合がある。このようなシーンが切り換わることをシーンカットという。シーンカットとしては、他にも例えばテレビ番組等で別のカメラに切り替わる、番組の途中でコマーシャルが入る、等の原因による場合があり、シーンカットとは、瞬間的に場面が切り換わることである。
よって、動画像は、通常は、複数のシーンからなる。図２は、時刻t1からあるシーン１（SCN1）が始まり、時刻t2でそのシーン１（SCN1）が終了し、その時刻t2以後は、別のシーン（SCN2）が始まり、時刻t3でそのシーン２が終了し、その時刻t3以後は、別のシーンが始まっている例を示している。各シーン内では、被写体が連続して映されているので、フレーム間では被写体の変化は少ない。しかし、シーンカットの前後のフレーム間では、被写体の変化は大きい。

さらに、１つのシーンの中に人の顔が映っているシーンもあれば、顔の映っていないシーンもある。本実施の形態の顔認識映像インデクシングでは、シーン内において、各出演者の顔シーケンスが検出される。

（顔シーケンス）
次に顔シーケンスについて説明する。顔シーケンスとは、時間的及び空間的に連続した一連の顔画像の集合を指し、同一人物の顔のみで構成される。
例えば、シーン１（SCN1）中の連続する複数のフレームの範囲FR1において、出演者Aと出演者Bの登場しているシーンがある場合、顔検出により出演者Aと出演者Bの顔がそれぞれ認識されて、それぞれの顔シーケンスが生成される。図２の場合、複数のフレームの範囲FR1には、出演者Aの顔部分Faがあるフレームｆと、出演者Bの顔部分Fbがあるフレームｆが存在する。

図３は、連続するフレームにおいて、出演者のシーケンスの概念を説明するための図である。図３は、説明を簡単にするために、４枚のフレームf1,f2,f3,f4の例である。図３では、フレームf1からf4の間に、それぞれが矩形で表された７つの顔画像部分が、顔検出処理により検出されている。

フレームf1には、出演者Aの顔が映っている顔画像部分F1aと、出演者Bの顔が映っている顔画像部分F1bを含む。ここで、顔画像部分Fmsにおいて、ｍはフレーム番号を、ｓは、顔シーケンス識別子を指す。次のフレームf2では、出演者AとBのそれぞれの顔画像部分がフレーム内で移動している。よって、フレームf2では、顔画像部分F2aと顔画像部分F2bが、フレームf1と比較して、右へ移動している。次のフレームf3では、顔画像部分F3aと顔画像部分F3bが、フレームf2と比較して、さらに右へ移動している。また、フレームf4では、フレームf4内で出演者AとBの顔は、フレームf3と比較して、さらに右へ移動したため、顔画像部分F4aだけが残り、出演者Bの顔画像部分は、フレームf4には含まれなくなっている。

図３では、時間的及び空間的な連続性の条件により、顔画像部分F1aからF4aが連続したフレームf1からf4の範囲を一つの顔シーケンスａとし、顔画像部分F1bからF3bが連続したフレームf1からf3の範囲を一つの顔シーケンスｂとされる。顔シーケンスａは、４つの顔画像部分[F1a,F2a,F3a,F4a]を含み、顔シーケンスｂは、３つの顔画像部分[F1b,F2b,F3b]を含む。すなわち、１つのシーケンスは、動画像データに含まれる、同一人物の複数の顔画像が連続して存在する複数のフレームからなる。

なお、時間的及び空間的な連続性の条件判断の結果、仮に図３においてフレームf2とf3の間にシーンカットがあれば、顔シーケンスは４つとされる。すなわち、４つのシーケンスは、２つの顔画像部分[F1a,F2a]と、２つの顔画像部分[F3a,F4a] と、２つの顔画像部分[F1b,F2b]と、一つの顔画像部分[F3b]の４つとなる。

時間的及び空間的な連続性の条件は、例えば、次の通りである。本実施の形態では、時間的及び位置的な連続性の条件を以下の（ａ）〜（ｃ）のように定義し、これら３つの条件を全て満たす一連の顔を１つの「顔シーケンス」としている。

（ａ）現在のフレームの顔画像領域とその１つ前のフレームにおける顔画像領域の中心間距離が十分に近い、すなわち、フレーム内において所定の基準距離以下である。
（ｂ）現在のフレームの顔画像領域のサイズと、その１つ前のフレームにおける顔画像領域のサイズとが十分に近い、すなわち、所定の範囲内である。
（ｃ）現在のフレームの顔画像領域と、その１つ前のフレームにおける顔画像領域との間にシーンカットがない。なお、ここでは、連続する２枚のフレーム画像同士の類似度が閾値以下である場合、その２枚のフレームの間にシーンカットがあるとする。

上記の連続性の条件に条件（ｃ）が加えられているのは、次の理由による。テレビ番組、映画等の映像コンテンツでは、ある人物が出演しているシーンが切り替わった直後に、殆ど同じ場所に異なる人物が出演している場合があるからである。その場合、シーンの切り替わり（すなわちシーンカット）を挟んだ２人の人物は同一人物とみなされてしまうという問題がある。この問題を解決するため、シーンカットを検出し、シーンカットを挟む２つのシーケンスが、必ずそこで分割されるようにするためである。

（顔認識映像インデクシング処理）
次に、顔認識映像インデクシング処理について説明する。顔認識映像インデクシング処理は、顔検出、顔シーケンス作成、顔画像特徴量抽出、顔画像辞書作成、顔類似度計算、及び顔クラスタリングの処理を含む。各処理について順番に説明する。

図４は、顔認識映像インデクシング処理の流れの例を示すフローチャートである。顔認識映像インデクシング処理は、CPU１１によって実行される。
まず、指定された映像コンテンツのストリームをHDD１４から読み出してデコードを順次行い、時系列のフレームを生成し、その生成された連続する２つのフレーム間におけるフレーム同士の類似度を計算する処理が行われる（ステップS1）。フレーム同士の類似度データは、RAM１３中のファイルに保存される。ステップS1は、動画像データにおける連続する２つのフレームのフレーム間類似度を計算するフレーム間類似度計算部を構成する。

そして、各フレームに対して顔検出処理を行い、検出された全ての顔画像領域の画像データが、顔アイコンとして生成され、RAM１３中のファイルに保存される（ステップS2）。ステップS2は、動画像データに含まれるフレーム毎に、顔画像を検出する顔画像検出部を構成する。
なお、ステップS2における顔検出アルゴリズムとしては、例えば、文献１（「顔検出に適した共起に基づくJoint Harr-like特徴」，電子情報通信学会論文誌（D），vol. J89-D-II，no. 8，pp. 1791-1801，2006）に記載されている方法が適用可能である。

ステップS1とS2の処理は、処理対象の動画像データの全てのフレームについて行われる。そのため、ステップS2の次には、最後のフレームまでステップS1とS2の処理がされた否かが判定される（ステップS3）。最後のフレームまでその処理が終わっていなければ、ステップS3でNOとなり、処理はステップS1に戻る。

ステップS1とS2の処理が、最後のフレームまで終わると、ステップS3でYESとなり、処理は、顔シーケンス作成処理に移行する（ステップS4）。ステップS4は、検出された複数の顔画像とフレーム間類似度とに基づき、複数のシーケンスを作成するシーケンス作成部を構成する。
ステップS4の顔シーケンス作成処理では、ステップS1とS2において顔検出処理において検出した顔位置とフレーム間類似度を用いて、顔シーケンスの作成が行われる。

顔シーケンスは、図３において説明したように、時間的及び空間的に連続した一連の顔画像の集合を表し、同一人物の顔のみで構成されるものである。上述した時間的及び空間的な連続性の条件判断の下で、顔シーケンスが作成される。このとき、上述したように、シーンカットの有無判定も行われる。得られた隣接する２つのフレーム間の類似度が、所定の閾値未満であれば、二つのフレームの間にはシーンカットが存在するとみなされる。
ステップS4の処理は、ステップS1とS2において得られたデータを参照して実行される。その結果、ステップS4の処理により、図３に示すような１以上の顔シーケンスのデータが作成される。

ステップS4に続いて、CPU１１は、顔特徴点検出処理を実行する（ステップS5）。顔特徴点検出処理は、ステップS2において生成された顔アイコンデータに対して行われる。具体的には、CPU１１は、ステップS2において検出された各顔アイコンデータにおける顔特徴点を検出する。この顔特徴点の検出アルゴリズムは、例えば、文献２（湯浅真由美, 武口智行, 小坂谷達夫, 山口修, 「静止画顔認証のための自動顔特徴点検出」, 電子情報通信学会研究報告, PRMU2006-222, pp. 5-10, Feb. 2007.）に記載されている手法を用いることができる。顔特徴点は、例えば、瞳、眉、目尻、目頭、鼻孔、口端点である。このステップS5の処理は、全ての顔アイコンの画像データに対して実行される。各顔アイコンにつき、各顔特徴点のデータが生成される。

そして、CPU１１は、検出した顔特徴点データに基づいて顔画像特徴量を抽出する(ステップS6)。顔画像特徴量の抽出は、ステップS5において検出した顔特徴点のデータを用いて顔アイコンの画像データを正規化し、その正規化された画像データに基づいて行われる。

なお、顔画像特徴量を抽出する際、ここでは、１４個の顔特徴点から顔の向きを推定し、正面向きに補正した顔画像を作成することにより、後述するステップS9において、顔向きの変動に対して頑健な顔クラスタリングすなわち顔画像クラスタリングを行うことができる。なお、顔向き補正と顔画像特徴量抽出の方法としては、それぞれ文献３（小坂谷達夫, 山口修, "顔認識のための射影変換に基づいた３次元正規化法", PRMU2005-101, pp.49-54, 2005）と文献４（西山正志, 山口修, 物体表面の見え属性分類に基づく Self Quotient Image を用いた顔認識, 信学技報 PRMU 2005-89, pp. 33 - 38, October 2005.）に記載の方法を利用することができる。

次に、顔画像辞書作成の処理が実行される（ステップS7）。
ステップS7では、ステップS6において抽出された顔画像特徴量データを用いて、顔画像辞書（部分空間）の作成が行われる。ステップS6において得られた複数の顔画像特徴量データに対して主成分分析を行うことにより、所定数の主成分特徴量データを抽出し、その抽出された主成分特徴量データだけを有する顔画像辞書データが作成される。

具体的には、顔画像辞書は、顔シーケンス毎に１つ作成される。顔シーケンスは、通常、複数の顔画像特徴量を含み、それらの顔画像特徴量を主成分分析することにより１つの部分空間を作成し、顔画像辞書とする。部分空間の作成の方法の詳細については、文献５（エルッキ・オヤ「パターン認識と部分空間法」（産業図書、1986））に記載されている。

そして、顔類似度の計算処理が実行される（ステップS8）。
ここでは、CPU１１は、顔シーケンス同士の類似度、すなわち複数の顔画像辞書内の各ペアの類似度を計算する。各ペアの顔シーケンスの類似度は、それぞれが有する顔画像辞書（ステップS7で作成された）同士の類似度として計算される。通常は、全ての組み合わせについて類似度を計算するため、顔シーケンスがN個ある場合は、Di（i=1,2,3,・・・N）とDj（j=1,2,3,・・・N）の全てのペアについて類似度が計算される。ここで、i, j は、顔シーケンス番号である。顔シーケンスがN個ある場合は、N＊(N−1)／２回の類似度計算が行われる。

本実施の形態では、顔画像辞書として部分空間を用いるため、類似度の計算には部分空間同士の類似度を計算するための手法である相互部分空間法が用いられる。よって、各ペアの類似度の計算は、相互部分空間法によって行われる。相互部分空間法については、例えば、文献６（「局所的構造を導入したパターンマッチング法」，電子情報通信学会論文誌（D），vol. J68-D，no. 3，pp. 345-352，1985）にその詳細が記載されている。

ステップS8における顔類似度計算においては、類似度の補正処理が行われる。この補正処理の内容については、後述する。

ここで、ステップS7とS8の処理について図５を用いて説明する。図５は、ステップS7の顔画像辞書の作成処理と、ステップS8の顔類似度計算処理の内容を説明するための図である。

図５は、説明を簡単にするために、１つのストリーム内に、４つの顔シーケンスQ1,Q2,Q3,Q4が作成されている場合を示す。ステップS7では、各シーケンスについて１つの顔画像辞書が作成されるので、図５に示すように、シーケンスQ1,Q2,Q3,Q4について、それぞれ顔画像辞書D1,D2,D3,D4が作成される。

そして、ステップS8では、作成された４つの顔画像辞書間の類似度が計算される。図５では、顔画像辞書D1については、他の顔画像辞書D2,D3,D4のそれぞれとの間の類似度が計算され、同様に、顔画像辞書D2,D3,D4についても、同様の他の顔画像辞書のそれぞれのとの間の類似度が計算される。図５の場合、顔シーケンスが４個あるので、６回の類似度計算が行われる。

図４に戻り、ステップS8の後、顔クラスタリング処理が行われる（ステップS9）。
ステップS9の顔クラスタリング処理では、全ての顔シーケンス同士の組み合わせの中で、ステップS8で計算して補正された各類似度が、所定の閾値TH以上である組み合わせを同一人物とする（以下では「結合する」と表現する）ことにより、全てのシーケンスをM個の人物カテゴリに分類する。すなわち、所定の閾値TH以上の類似度の２つの顔シーケンスは、結合されて、同一人物のクラスになる。具体的には、ステップS9では、補正された類似度が所定の閾値TH以上であるときには、そのペアの顔画像辞書は、同一人物の顔画像辞書とし、補正された類似度が所定の閾値TH未満であるときには、そのペアの顔画像辞書は、別の人物の顔画像辞書とするように、複数の顔画像辞書はクラスタリングされる。仮にステップS1からS9の処理が完全に理想的に行われた場合、実際の出演者の人数と人物カテゴリ数Mは一致する。
ステップS9は、ステップS8で補正された複数の類似度と所定の閾値THとを比較して、複数の顔画像辞書Di,Djをクラスタリングする顔クラスタリング部を構成する。

しかしながら、通常は他人どうしが同じ人物カテゴリに入らないように閾値を高めに設定するため、同一人物が複数の人物カテゴリに分割されたままとなっており、人物カテゴリ数Mは実際の出演者数よりも多くなる傾向がある。
しかし、顔クラスタリングの目的は、他人どうしが同一人物カテゴリに混在することなく、人物カテゴリ数Mを正しい人数まで減らすことである。よって、本実施の形態の映像インデクシング処理では、顔類似度の計算処理において、顔類似度の補正を行うことによって、顔クラスタリングの精度の向上を図っている。

（類似度の補正）
ステップS8における顔類似度の計算における類似度の補正処理について説明する。
二つの顔画像辞書 Di、Dj（i, j : 顔シーケンス番号）の類似度Sijは、次の式（１）で表される。
Sij=MSM(Di, Dj) ・・・式（１）
ここで、 MSM(d1, d2)は、部分空間d1,d2の正準角で表される類似度であり、上述した文献６に記載の相互部分空間法によって計算される。

顔クラスタリング処理において、二つの顔シーケンスQi、Qj間の類似度としてSijをそのまま用い、Sijが所定の閾値よりも高ければQiとQjは同一人物とみなされる。
しかしながら、顔には、他人との類似度が高くなり易い顔と、低くなり易いものがあると考えられる。よって、作成された顔画像辞書には、他人との類似度が平均的に高くなるもの、あるいは低くなるものがあるため、その所定の閾値を適切に設定することは通常用意ではない。

ここで、類似度とクラスタリングについて説明する。
図６は、１０人の顔シーケンスS1〜S10について、複数の本人辞書と複数の他人辞書との類似度を計算した場合の類似度分布を模式的に表した図である。
なお、図６では、複数の本人辞書及び複数の他人辞書を仮定し、ステップS8におけるN個の顔シーケンスではなく、別途用意した本人の複数の顔画像部分空間辞書を想定している。図６において、実線は、本人の複数の顔画像部分空間辞書間の類似度の分布幅を示し、破線は、本人の各顔画像空間辞書と複数の他人辞書との類似度の分布幅を示している。図６に示すように、各顔シーケンスの類似度分布の平均値にはばらつきがあるので、顔クラスタリングをするために、類似度についての閾値を適切に設定することは容易ではない。

例えば、図６の場合に、類似度の閾値を閾値SHAに設定した場合、顔シーケンスS1〜S10の他人との類似度（破線）は閾値SHAを超えていないため、同一人物のカテゴリ（すなわち本人辞書）に他人が混在する可能性は低いが、顔シーケンスS4、S5、S6、S9の本人の類似度の全てが、閾値SHA未満であるため、これらの顔シーケンスS4、S5、S6、S9が、同一人物のカテゴリ（すなわち本人辞書）に分類される可能性も低い。

一方、類似度の閾値を下げて閾値SHBに設定した場合、顔シーケンスS4、S6、S9以外の顔シーケンスは、他人との類似度が閾値SHBを超える可能性が十分に高いため、同一人物のカテゴリ（すなわち本人辞書）に他人が混在するケースが多くなる。

上述の問題を解決するために、本実施の形態では、複数人の、できるだけ多人数の、顔画像辞書（以下、外部辞書と呼ぶ）を予め用意しておき、これら複数個の外部辞書とペアの類似度によって式（１）における類似度の補正が行われる。各外部辞書も、顔画像についての複数の特徴量データを含む。そして、複数個の外部辞書と各ペアの類似度の計算は、相互部分空間法によって行われる。

外部辞書のための顔画像は、サンプルとしての顔画像であり、出来るだけ多くの一般的な人の顔を網羅するような顔と数の顔画像であるのが好ましい。これにより、顔シーケンス毎の類似度分布の平均値のばらつきを抑制し、顔クラスタリングの性能を向上させることができる。
例えば、複数の外部辞書は、少なくとも年齢及び性別のそれぞれについて偏りがない複数人の顔画像から生成されている辞書であることが望ましい。年齢及び性別のそれぞれについて偏りがないとは、少なくとも、各年齢層（例えば、１０代、２０代など）の数が略同数でかつ男女の数も略同数であることを意味する。さらに、複数の外部辞書は、人種及び地域性のそれぞれにおいても偏りがない複数人の顔画像から生成されている辞書であれば、より望ましい。

ステップS8において得られる類似度の演算内容について説明する。
本実施の形態における顔シーケンスQi、Qj同士の類似度S’ijは以下の式で表される。

S’ij = Sij × Y／α(i, j) ・・・式（２−１）
ここで、Sijは、式（１）により求められる類似度であり、α(i, j)は、顔シーケンスQi、QjのそれぞれとK個の外部辞書との類似度に基づいて、以下の式により計算して得られた係数である。Yは、類似度の分布の中心、および拡大及び縮小を決定するパラメータであり、通常は多数の顔シーケンス同士の類似度の平均値である。

Ti = Σk ( MSM(Di, Gk) ) / K ・・・式（２−２）
Tj = Σk ( MSM(Dj, Gk) ) / K ・・・式（２−３）
α(i, j) = SQRT(Ti×Tj) ・・・式（２−４）
ここで、Di、Djは、それぞれ顔シーケンスQi、Qjから作成した顔画像辞書であり、Gk（k=1,2,・・・K）は、外部辞書（部分空間）であり、SQRT(a)は、aの平方根を求める関数である。Ti、Tjは、それぞれ顔シーケンスQi、Qjと外部辞書との各ペアの類似度の平均値、すなわち平均類似度である。外部辞書は、複数人（K人）の顔画像に基づいて、上述したステップS5〜S7と同様の方法によって作成した顔画像辞書（部分空間）であり、K個の中に同一人物は含まれないものとする。

次に、以上説明した具体的な補正の計算ステップについて説明する。図７は、図４のステップS8の処理内容の例を示すフローチャートである。
まず、各顔画像辞書Diについて、全ての外部辞書ODk（kは１〜K）との類似度を計算し、得られたK個の類似度から、各顔画像辞書Diについての外部辞書との平均類似度Tiを計算する（ステップS8-1）。ステップS8-1で得られた平均類似度Tiは、上記の式（２−２）の計算により得られた値である。

そして、顔画像辞書のペアDi.Djを選択し（ステップS8-2）、そのペアDi,Djの類似度Sijを計算する（ステップS8-3）。この類似度Sijは、式（１）の計算により得られた値である。ステップS8-2とS8-3は、複数の顔画像辞書Di,Dj内の各ペアの類似度を計算する類似度計算部を構成し、ステップS8-1は、各顔画像辞書Di,Djと複数の外部辞書の各ペアの類似度を計算する類似度計算部を構成する。
そして、その類似度Sijを、平均類似度Ti、Tjにより、補正する（ステップS8-4）。具体的には、ステップS8-4では、上述した式（２−１）による計算が行われる。ステップS8-4は、複数の顔画像辞書Di,Dj内の各ペアの類似度を、各顔画像辞書Di,Djと複数の外部辞書の各ペアの類似度により補正する類似度補正部を構成する。
さらに、最後の辞書のペアか否かの判断が行われる（ステップS8-5）。最後の辞書のペアで無ければ、処理はステップS8-2に戻り、最後の辞書のペアであれば、処理は、終了する。

図８は、平均類似度の計算を説明するための図である。図８に示すように、例えば4つの顔画像辞書D1〜D4がある場合、顔画像辞書D1について、K個の外部辞書OD1〜ODKのそれぞれとの類似度を計算し、求められたK個の類似度について、式（２−２）の式から、顔画像辞書D1についての複数の（ここではＫ個の）外部辞書との平均類似度T1を計算する。同様にして、残りの３つの顔画像辞書D2,D3,D4についても、平均類似度T2,T3,T4が計算して求められる。

図９は、上述した図６の１０人の顔シーケンスS1〜S10について、式（２−１）によって類似度の補正をして同様の顔類似度分布を作成した場合の模式図である。補正を行わない場合の図６と比較して、各顔シーケンスの類似度分布の平均値のばらつきが減少している。式（２−１）において、係数α(i, j)により類似度Sijを除算することによって、顔シーケンス間の類似度分布のばらつきが抑制されるからである。式（２−１）により、類似度の高い顔シーケンスは、類似度の低い顔シーケンスよりも、類似度がより大きく調整されるように、類似度は補正される。具体的には、式（２−１）からわかるように、類似度S’ijは、各顔画像辞書と外部辞書との類似度が大きい程、小さくなり、各顔画像辞書と外部辞書との類似度が小さい程、大きくなる。

すなわち、ステップS8-4では、類似度は、複数の顔画像辞書の類似度間において、一つの類似度が他の類似度よりも大きいときに、その一つの類似度を小さくし、他の類似度を大きくするように、複数の顔画像辞書間の各類似度を、外部辞書との類似度により補正される。言い換えれば、ステップS8-4では、本人や他人との類似度が高くなり易い人物の類似度分布を全体的に低く押し下げ、本人や他人との類似度が低くなり易い人物の類似度分布を全体的に高く押し上げるように、補正が行われる。これにより、本人や他人との類似度が高くなり易い人物も低くなり易い人物も、類似度分布の中心がある一定値に近づくという効果が期待できる。

補正を行わない図６の場合、他人同士が同一人物のカテゴリに入らないように閾値をSHAに設定した場合、顔シーケンスS4、S5、S6、S9の本人の類似度が閾値SHAを超える可能性が殆どない。従って、映像中に顔シーケンスS4、S5、S6、S9と同じ人物の顔シーケンスが複数あったとしても、それらのシーケンスが同一人物のものとして結合されることはない。また、閾値を閾値SHBまで下げると、他人同士が同一人物のカテゴリに混在するケースが増加する。つまり、補正を行わない場合は、閾値をどのように設定しても顔クラスタリングの結果は、不十分なものとなってしまう。

これに対して、本実施の形態の場合では、図９に示すように、図９の閾値SHCのように閾値を設定すれば他人同士が同一人物のカテゴリに入ることはなく、且つ全ての顔シーケンスの本人の類似度分布が部分的に閾値を超えているため、補正を行わない図６の場合より、多くの顔シーケンスが同一人物のカテゴリに分類され得る。

以上のように、本実施の形態によれば、類似度を上述のように補正するので、顔クラスタリングにおける閾値設定の非容易性を緩和し、顔クラスタリング性能を向上させた画像処理装置を提供することができる。

図１０は、４人の人物A、B、C、Dが登場する動画像に、類似度の補正を行わない場合における顔認識映像インデクシング処理の結果を表示する画面の例を示す図である。図１１は、４人の人物A、B、C、Dが登場する動画像に、上述した類似度の補正を行った場合における顔認識映像インデクシング処理の結果を表示する画面の例を示す図である。図１０と図１１の画面は、モニタ１６の画面１６ａ上に表示され、映像インデクシング処理により、出演者毎の出演時間帯が帯形状TRにより示される。図１０と図１１では、横軸が時間軸であり、縦軸は、出演者別を示し、横軸の各時間軸は１つの同一人物カテゴリに相当する。

図１０では、顔画像クラスタリングにより、顔画像辞書は７人のカテゴリにクラスタリングされているが、図１１では、顔画像辞書は４人のカテゴリにクラスタリングされている。なお、図１０と図１１では、説明のために時間軸左端の縦軸に並んだアルファベットＡ，Ｂ，Ｃ，Ｄは、正解人物ラベルを表すが、そのアルファベットの部分には、各人の顔画像のサムネイルが表示される。

映像インデクシング処理では、テレビ番組等の動画像データ中の特定の出演者の場面だけを視聴するなど、映像コンテンツを効率的に視聴するために、顔認識技術を用い、認識された顔毎に映像にインデックスが付与される。その結果、例えば、図１０或いは図１１に示すように、時間軸上の太い線は、各同一人物カテゴリに含まれる顔シーケンスが動画像中のどの時間帯にあるかを示すように、映像インデクシングの処理結果を表示することができる。

視聴者はこの画面１６ａを見て、自分が見たい出演者の場面だけを選択して視聴することが可能となる。しかし、上述した類似度の補正を用いなければ、例えば、図１０に示すように、人物Bが３つ、人物Dが２つに分割されたままのため、視聴者がひと目で登場人物の人数やどこに出演しているかを正しく把握することは難しい。それに対して、図１１の場合、全ての人物がそれぞれ１つのカテゴリに分類されているため、視聴者は登場人物に関する情報をひと目で正確に把握することができる。

すなわち、本実施の形態による類似度の補正を行うことにより、出演者の数が実際の人物の数に等しいあるいは近くなるので、顔クラスタリングの精度が向上し、ひいては映像コンテンツの視聴効率が向上する。

従って、上述した本実施の形態に係る類似度の補正を行う画像処理装置によれば、類似度補正処理と適切な閾値設定を行うことにより、顔認識映像インデクシングの性能を改善し、視聴者の利便性を向上させることが可能となる。

なお、本実施の形態では、類似度の補正処理に、式（２−１）を用いたが、他にも次の式（３−１）の他、様々な計算式あるいは計算方法を用いてもよい。
S’ij = Sij × Y／β(i, j) ・・・式（３−１）
Ti = Σk ( MSM(Di, Gk) )／K ・・・式（３−２）
Tj = Σk ( MSM(Dj, Gk) ) ／K ・・・式（３−３）
β(i, j) = ( Ti + Tj )／2 ・・・式（３−４）
以上のように、上述した本実施の形態の画像処理装置では、２つの顔の類似度を計算する際に、それぞれの“他人との似やすさ”を計算し、その２つの顔間の類似度は、その他人との似やすさにより補正される。
従って、上述した本実施の形態の画像処理装置によれば、顔クラスタリングにおける閾値設定の非容易性が緩和され、顔クラスタリング性能が向上する。
なお、本実施の形態における各手順の各ステップは、その性質に反しない限り、実行順序を変更し、複数同時に実行し、あるいは実行毎に異なった順序で実行してもよい。

さらになお、以上説明した動作を実行するプログラムは、コンピュータプログラム製品として、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬媒体や、ハードディスク等の記憶媒体に、その全体あるいは一部のプログラムコードが記録され、あるいは記憶されている。そのプログラムがコンピュータにより読み取られて、動作の全部あるいは一部が実行される。あるいは、そのプログラムのコードの全体あるいは一部を通信ネットワークを介して流通または提供することができる。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールすることで、容易に本発明の画像処理装置を実現することができる。

本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を変えない範囲において、種々の変更、改変等が可能である。

１画像処理装置、１１ＣＰＵ、１２ＲＯＭ、１３ＲＡＭ、１４ＨＤＤ、１５，１７，１８インターフェース、１６モニタ、１６ａ画面

Claims

動画像データ中の連続した同一人物の顔画像を１つのシーケンスとして複数のシーケンスを作成するシーケンス作成部と、
シーケンス毎に作成された複数の顔画像辞書内の各ペアの第１の類似度、及び各顔画像辞書とサンプルとしての複数人の顔画像から生成されて予め用意された複数の外部辞書の各ペアの第２の類似度を計算する類似度計算部と、
計算して得られた複数の第１の類似度を、前記第２の類似度が大きい程、小さくし、かつ前記第２の類似度が小さい程、大きくするように補正する類似度補正部と、
前記類似度補正部において補正された前記複数の第１の類似度と所定の閾値とを比較して、前記複数の顔画像辞書をクラスタリングする顔クラスタリング部と、
を有することを特徴とする画像処理装置。
前記サンプルとしての複数人の顔画像は、各年齢層の数が略同数でかつ男女の数も略同数である複数人の顔画像であることを特徴とする請求項１に記載の画像処理装置。
動画像データに含まれる複数の顔画像が連続して存在する複数のフレームを１つのシーケンスとしてそれぞれが作成された複数のシーケンスについての複数の顔画像辞書内の各ペアの第１の類似度と、各顔画像辞書とサンプルとしての複数人の顔画像から生成されて予め用意された複数の外部辞書の各ペアの第２の類似度とを計算し、
計算して得られた複数の第１の類似度を、前記第２の類似度が大きい程、小さくし、かつ前記第２の類似度が小さい程、大きくするように補正し、
補正された前記複数の第１の類似度と所定の閾値とを比較して、前記複数の顔画像辞書をクラスタリングすることを特徴とする画像処理方法。
動画像データに含まれるフレーム毎に顔画像の検出を行う顔画像検出部と、
前記動画像データにおける連続する２つのフレームのフレーム間類似度を計算するフレーム間類似度計算部と、
前記顔画像検出部により検出された複数の顔画像と前記フレーム間類似度計算部により計算して得られた前記フレーム間類似度とに基づき、前記動画像データ中の連続した同一人物の顔画像を１つのシーケンスとして、複数のシーケンスを作成するシーケンス作成部と、
シーケンス毎に作成された複数の顔画像辞書内の各ペアの第１の類似度、及び各顔画像辞書とサンプルとしての複数人の顔画像から生成されて予め用意された複数の外部辞書の各ペアの第２の類似度を計算する類似度計算部と、
計算して得られた複数の第１の類似度を、前記第２の類似度が大きい程、小さくし、かつ前記第２の類似度が小さい程、大きくするように補正する類似度補正部と、
前記類似度補正部において補正された前記複数の第１の類似度と所定の閾値とを比較して、前記複数の顔画像辞書をクラスタリングする顔クラスタリング部と、
を有することを特徴とする画像処理装置。
コンピュータに画像処理を実行させるためのプログラムであって、
動画像データ中の連続した同一人物の顔画像を１つのシーケンスとして複数のシーケンスを作成する機能と、
シーケンス毎に作成された複数の顔画像辞書内の各ペアの第１の類似度、及び各顔画像辞書とサンプルとしての複数人の顔画像から生成されて予め用意された複数の外部辞書の各ペアの第２の類似度を計算する機能と、
計算して得られた複数の第１の類似度を、前記第２の類似度が大きい程、小さくし、かつ前記第２の類似度が小さい程、大きくするように補正する機能と、
補正された前記複数の第１の類似度と所定の閾値とを比較して、前記複数の顔画像辞書をクラスタリングする機能とを有する。