JP2008077536A - 画像処理装置および方法、並びにプログラム - Google Patents

画像処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2008077536A
JP2008077536A JP2006258374A JP2006258374A JP2008077536A JP 2008077536 A JP2008077536 A JP 2008077536A JP 2006258374 A JP2006258374 A JP 2006258374A JP 2006258374 A JP2006258374 A JP 2006258374A JP 2008077536 A JP2008077536 A JP 2008077536A
Authority
JP
Japan
Prior art keywords
face
image
class
person
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006258374A
Other languages
English (en)
Other versions
JP4697106B2 (ja
Inventor
Ikoku Go
偉国 呉
Takayuki Ashigahara
隆之 芦ヶ原
Akira Yo
丹 姚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006258374A priority Critical patent/JP4697106B2/ja
Publication of JP2008077536A publication Critical patent/JP2008077536A/ja
Application granted granted Critical
Publication of JP4697106B2 publication Critical patent/JP4697106B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

【課題】より効率よく動画コンテンツを管理し取り扱えるようにする。
【解決手段】顔検出/追跡部11は、動画コンテンツから、人物の顔の時系列画像を1以上検出する。同一人物クラスタリング部12は、1つの時系列画像を同一人物の顔クラスとして生成する。異人物間クラスタリング部13は、異人物として生成された各顔クラスのそれぞれから代表顔を選択し、それぞれの代表顔を1以上の代表顔クラスにクラスタリングする。クラス統合部14は、各顔クラスと各代表顔クラスとからなる各クラスのうち、実世界上では同一人物と判断されるクラス同士を関連付けることで、各クラスを統合して、人物顔データベースを構築する。顔認識部3は、その人物顔データベースを用いて、新たな認識対象顔の認識を行う。本発明は、動画コンテンツを取り扱う分野に適用可能である。
【選択図】図1

Description

本発明は、画像処理装置および方法並びにプログラムに関し、特に、人の直感的な感覚で動画コンテンツを扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できるようになった画像処理装置および方法並びにプログラムに関する。
インターネット技術や、放送、通信、娯楽、医療、教育などの分野におけるデジタル化技術の急速な発展により、膨大なマルチメディア情報から必要な情報だけを簡単かつ高速にアクセスしたいというニーズが高まってきている。そのようなニーズの中でも、特に、ネットワークやホームサーバに蓄積されていた大量な動画コンテンツを効率的に管理して取り扱いたいというニーズから、動画コンテンツの意味抽出と解析のための画像認識技術の研究開発が盛んに行われるようになっていた。
具体的な例としては、例えば、ハードディスク録画やデジタル家電が普及している中、観たいものだけを観る、録画しながら再生を楽しむなど、といった新しいライフスタイルに応じた楽しみ方を可能にするための「類似画像検索技術」などの研究開発や、デジタルカメラ、デジタルビデオカメラ、インターネット等の普及に伴い、様々な静止画像や動画像を簡単に編集し、自分のオリジナルダイジェスト映像を作成し保存するための「ダイジェスト映像作成技術」などの研究開発が行われている(例えば特許文献1,2参照)。
即ち、上述した新しいライフスタイルに応じた楽しみ方を可能にしたり、ダイジェスト映像を作成するといったニーズのひとつとして、動画コンテンツから所望の画像を検索したい、例えば動画コンテンツの中から所望人物を検出したい、といった画像検索のニーズが高まっている。
かかる画像検索のニーズに応えるために、キーワードを用いた画像検索技術の実用化も進められていた。他にも動画コンテンツを自由自在に閲覧することができるようなBrowsing技術やビジュアルコミュニケーションにおける意味的な「映像議事録」作成技術などの研究も行われていた。
特開2002−344872号公報 特開2006−54622号公報
しかしながらキーワードを用いる従来の画像検索技術では、必要なキーワードの付与には手間がかかり、同一キーワードの画像が大量に存在する事態も発生しがちなため、実際に満足な検索結果が得られないのが現状である。また、映像内のメタ情報を自動的に抽出し、それらのメタ情報を元に、欲しい画像コンテンツを見つけ出すといった検索技術や、自動的に「映像議事録」を作成する技術や、Browsing技術なども多く研究されているが、必要なメタ情報を精度良く抽出することが容易ではないので、実際に利用可能な映像検索技術やダイジェスト作成技術やBrowsing技術が確立されていない状況である。
換言すると、上述のようなキーワードによる画像検索などではなく、人の直感的な感覚で動画コンテンツを扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術の実現が要望されているが、かかる要望に十分に応えられていない状況である。
本発明は、このような状況に鑑みてなされたものであり、人の直感的な感覚で動画コンテンツを扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できるようにするものである。
本発明の一側面の画像処理装置は、動画像に対して画像処理を施す画像処理装置であって、前記動画像から、新たな人物の顔を検出したとき、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる1以上の顔画像からなる時系列画像を1以上検出する人物顔検出追跡手段と、前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれから、所定の規則に従って代表顔をそれぞれ選択する代表顔選択手段と、前記代表顔選択手段により選択された前記1以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する代表顔特徴量解析評価手段と、前記代表顔特徴量解析評価手段による前記1以上の顔特徴量の解析と評価の結果に基づいて、前記代表顔選択手段により選択された前記1以上の代表顔を、1以上のクラスにクラスタリングする代表顔クラスタリング手段と、前記代表顔クラスタリング手段によるクラスタリングの結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う顔認識手段とを備える。
前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれについて、異なるクラスを1つずつ生成する同一人物クラス生成手段と、前記同一人物クラス生成手段により生成された前記1以上のクラスと、前記代表顔クラスタリング手段のクラスタリングにより得られた前記1以上のクラスとからなる各クラスうちの、実世界上では同一人物であると判断される1以上のクラスを関連付けることで、前記各クラスの統合を行う統合手段とをさらに備え、前記顔認識手段は、前記統合手段の統合結果に基づいて、前記新たな顔画像のクラスを特定する。
前記同一人物クラス生成手段により生成された所定のクラスに含まれる前記1以上の顔画像のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する同一人物顔特徴量解析評価手段と、前記同一人物顔特徴量解析評価手段による前記1以上の顔特徴量の解析と評価の結果に基づいて、前記同一人物クラス生成手段により生成された前記所定のクラスに含まれる前記1以上の顔画像を、さらに複数のクラスにクラスタリングする同一人物顔クラスタリング手段とをさらに備える。
前記代表顔クラスタリング手段、前記同一人物クラス生成手段、および、前記同一人物顔クラスタリング手段のそれぞれは、さらに、生成またはクラスタリングの結果得られた各クラスのそれぞれに対してラベルを付す。
前記顔認識手段は、前記統合手段により統合された前記各クラスのうちの、前記新たな顔画像の顔特徴量と最も類似する顔特徴量を有する顔画像が属するクラスを、前記新たな顔画像のクラスとして特定する。
前記代表顔選択手段は、前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれを処理対象として、処理対象に含まれる1以上の顔画像のそれぞれについて、顔の構成要素を1以上検出し、1以上の前記構成要素の位置関係に基づいて顔の方向を推定し、その推定結果に基づいて正面顔か否かを判定し、正面顔と判定された顔画像を前記処理対象の前記代表顔として選択する。
前記代表顔特徴量解析評価手段は、所定の顔画像を特徴空間に射影することで得られる特徴ベクトルのうちの、所定の次元を1以上除外した結果得られるベクトルを、前記所定の顔画像に対応する前記顔特徴量として利用する。
本発明の一側面の画像処理方法は、動画像に対して画像処理を施す画像処理装置の画像処理方法であって、前記動画像から、新たな人物の顔を検出したとき、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる1以上の顔画像からなる時系列画像を1以上検出し、検出された前記1以上の時系列画像のそれぞれから、所定の規則に従って代表顔をそれぞれ選択し、選択された前記1以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、その解析と評価の結果に基づいて、選択された前記1以上の代表顔を、1以上のクラスにクラスタリングし、そのクラスタリングの結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行うステップを含む。
本発明の一側面のプログラムは、上述した本発明の一側面の画像処理方法に対応するプログラムである。
本発明の一側面の画像処理装置および方法並びにプログラムにおいては、実世界の1以上の人物が登場する動画像に対して、次のような画像処理が施される。即ち、前記動画像から、前記1以上の人物のうちの所定の人物の顔が検出されたとき、その所定の人物の顔の追跡が行われることで、時間的に連続した追跡範囲に含まれる1以上の顔画像からなる時系列画像が1以上検出される。検出された前記1以上の時系列画像のそれぞれから、所定の規則に従って代表顔がそれぞれ選択され、選択された前記1以上の代表顔のそれぞれについて、対応する顔特徴量がそれぞれ解析されて評価され、その解析と評価の結果に基づいて、選択された前記1以上の代表顔が、1以上のクラスにクラスタリングされる。そして、そのクラスタリングの結果に基づいて、認識対象の新たな顔画像のクラスが特定されることで、前記新たな顔画像の認識が行われる。
以上のごとく、本発明の一側面によれば、映像解析技術を提供できる。特に、人の直感的な感覚で動画コンテンツを扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、発明の詳細な説明に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、発明の詳細な説明に記載されていることを確認するためのものである。従って、発明の詳細な説明中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。
本発明の一側面の画像処理装置(例えば図1の機能的構成の画像処理装置)は、
実世界の1以上の人物が登場する動画像(例えば図1の動画コンテンツ入力部1に入力される動画コンテンツであって、具体的には例えば図2の動画コンテンツ61)に対して、画像処理を施す画像処理装置において、
前記動画像から、前記1以上の人物のうちの所定の人物の顔を検出したとき、その所定の人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる1以上の顔画像からなる時系列画像を1以上検出する人物顔検出追跡手段(例えば図1の顔検出/追跡部11)と、
前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれから、所定の規則に従って代表顔をそれぞれ選択する代表顔選択手段(例えば図1の代表顔選択部31)と、
前記代表顔選択手段により選択された前記1以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する代表顔特徴量解析評価手段(例えば図1の顔特徴量解析/評価部32)と、
前記代表顔特徴量解析評価手段による前記1以上の顔特徴量の解析と評価の結果に基づいて、前記代表顔選択手段により選択された前記1以上の代表顔を、1以上のクラスにクラスタリングする代表顔クラスタリング手段(例えば図1の人物顔クラスタリング部33)と、
前記代表顔クラスタリング手段によるクラスタリングの結果(例えば図1の人物顔データベース部15に構築された人物顔データベース)に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う顔認識手段(例えば図1の顔認識部3)と
を備える。
前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれについて、異なるクラスを1つずつ生成する同一人物クラス生成手段(例えば図1の同一人物顔クラス生成部21)と、
前記同一人物クラス生成手段により生成された前記1以上のクラスと、前記代表顔クラスタリング手段のクラスタリングにより得られた前記1以上のクラスとからなる各クラスうちの、実世界上では同一人物であると判断される1以上のクラスを関連付けることで、前記各クラスの統合を行う統合手段(例えば図1のクラス統合部14)と
をさらに備え、
前記顔認識手段は、前記統合手段の統合結果に基づいて、前記新たな顔画像のクラスを特定する。
前記同一人物クラス生成手段により生成された所定のクラスに含まれる前記1以上の顔画像のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する同一人物顔特徴量解析評価手段(例えば図1の顔特徴量解析/評価部22)と、
前記同一人物顔特徴量解析評価手段による前記1以上の顔特徴量の解析と評価の結果に基づいて、前記同一人物クラス生成手段により生成された前記所定のクラスに含まれる前記1以上の顔画像を、さらに複数のクラスにクラスタリングする同一人物顔クラスタリング手段(例えば図1の人物顔クラスタリング部23)と
をさらに備える。
前記代表顔クラスタリング手段、前記同一人物クラス生成手段、および、前記同一人物顔クラスタリング手段のそれぞれは、さらに、生成またはクラスタリングの結果得られた各クラスのそれぞれに対してラベルを付す(例えば図2の例では、顔クラスにはC01,C02等のラベルが付され、顔方向クラスにはC011,C012,C021,C022等のラベルが付され、代表顔クラスには、C110,C111,C112等のラベルが付されている)。
前記代表顔選択手段は、前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれを処理対象として、処理対象に含まれる1以上の顔画像のそれぞれについて、顔の構成要素を1以上検出し、1以上の前記構成要素の位置関係(例えば図10や図11の顔の構成要素(パーツ)を示す各丸印の位置関係)に基づいて顔の方向を推定し、その推定結果に基づいて正面顔か否かを判定し、正面顔と判定された顔画像を前記処理対象の前記代表顔として選択する(例えば図9の例では、白抜き矢印が付された正面顔が代表顔として選択されている)。
前記代表顔特徴量解析評価手段は、所定の顔画像を特徴空間に射影することで得られる特徴ベクトルのうちの、所定の次元を1以上除外した結果得られるベクトル(例えば図20や図21の結果では、顔特徴ベクトルの最初の3次元を除外した結果得られるベクトルが使用されている)を、前記所定の顔画像に対応する前記顔特徴量として利用する。
本発明の一側面の画像処理方法(例えば図4の人物特定処理)は、
実世界の1以上の人物が被写体として撮影された結果得られる動画像に対して画像処理を施す画像処理装置(例えば図1の機能的構成を有する画像処理装置)の画像処理方法において、
前記動画像から、前記1以上の人物のうちの所定の人物の顔を検出したとき、その所定の人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる1以上の顔画像からなる時系列画像を1以上検出し(例えば図4のステップS1の顔データベース構築処理のうちの、特に図5のステップS11乃至S13)、
検出された前記1以上の時系列画像のそれぞれから、所定の規則に従って代表顔をそれぞれ選択し、
選択された前記1以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、その解析と評価の結果に基づいて、選択された前記1以上の代表顔を、1以上のクラスにクラスタリングし(例えば図4のステップS1の顔データベース構築処理のうちの、特に図5のステップS16)、
そのクラスタリングの結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う(例えば図4のステップS3)
ステップを含む。
本発明の一側面のプログラムは、上述した本発明の一側面の画像処理方法に対応するプログラムであって、例えば図28のコンピュータにより実行される。
このように、様々な側面を持つ本発明では、動画像が対象とされる。この動画像に対する処理単位は、以下の実施の形態では、単位画像であるとする。即ち、以下の実施の形態では、動画像は、複数の単位画像から構成されているとする。ただし、単位画像自体は、特に限定されず、例えば動画像のフォーマットで採用されている単位の画像、具体的には例えば、フレームやフィールド等を採用することができる。換言すると、動画像のフォーマットは、特に限定されず、DV(Digital Video)、MPEG(Moving Picture Experts Group)、連番の時系列画像など様々なフォーマットを採用でき、採用された動画像のフォーマットに応じて単位画像を採用すればよい。ただし、以下、説明の簡略上、動画像に対する各種画像処理はフレーム単位で実行されるとする。
また、より正確には、画像処理の対象は、動画像(画面に表示される映像)そのものではなく、いわゆる動画データ、即ち、動画像が装置によって処理可能な形態とされたもの、例えば電気信号とされたものや、メモリに固定されたもの等であり、さらに、かかる動画データは、音声データ等の別データと共に伝送される場合もある。そこで、以下、動画データ単体、動画データと音声データ等の別データとの集合体をまとめて、動画コンテンツと称する。
また、本発明による様々な画像処理の対象となった画像の具体例が幾つか図面に示されている。しかしながら、著作権保護等の観点から、画像処理の対象となった実際の画像そのものが図面に示されている訳ではなく、適宜、線図化された画像等が図面に示されている。例えば、後述する図2、図9、図10、図11、図23等に示される各顔画像は、画像処理の対象となった実際の画像(撮影画像)ではなく、その実際の画像のうちの顔の輪郭やパーツ(目や鼻等)が線図化されたものである。
図1は、本発明が適用される画像処理装置の機能的構成例を示している。
図1の例の画像処理装置は、動画コンテンツ入力部1、人物顔データベース構築部2、および顔認識部3を含むように構成されている。
動画コンテンツ入力部1は、映画やドラマ等の動画コンテンツをフレーム単位で入力する。
人物顔データベース構築部2は、動画コンテンツ入力部1に入力された動画コンテンツから、登場人物の顔画像を1以上検出して、教師無しで各顔画像をクラスタリングして、そのクラスタリング結果に基づいて各顔画像のデータベース、より正確には、各顔画像の特徴量のデータベースを構築する。なお、以下、このようにして構築されるデータベースを、人物顔データベースと称する。即ち、人物顔データベース構築部2は、動画コンテンツから、教師無しで人物顔データベースを構築する。なお、人物顔データベース構築部2のさらなる詳細については後述する。
顔認識部3は、認識対象顔検出部41乃至人物特定部44を含むように構成されている。
認識対象顔検出部41は、動画コンテンツ入力部1に入力された動画コンテンツから、これから認識を行う人物の顔画像(以下、認識対象顔画像と称する)を検出する。この検出手法は、後述する顔検出/追跡部11に適用されている検出手法と基本的に同様であるので、その説明については、顔検出/追跡部11の説明の際に行うこととして、ここでは省略する。
認識対象顔クラス特定部42は、認識対象顔検出部41により検出された認識対象顔画像のクラスを、人物顔データベース構築部2により構築された人物顔データベースを用いて特定する。
外部情報取得部43は、認識対象顔画像の人物を特定するために利用可能な各種外部情報を、外部から、例えばインターネット等の所定の外部ネットワーク上から取得する。具体的には例えば、外部情報取得部43は、Web上にある認識対象顔画像と同一の顔画像や、その顔画像とリンクしているテキスト情報等を外部情報として取得することができる。
人物特定部44は、認識対象顔クラス特定部42により特定されたクラスや、外部情報取得部43により取得された外部情報に基づいて、認識対象顔画像に対応する人物を特定し、その特定結果、即ち特定された人物に関する情報を出力する。
以下、人物顔データベース構築部2についてさらに詳しく説明する。
人物顔データベース構築部2は、顔検出/追跡部11、同一人物クラスタリング部12、異人物間クラスタリング部13、クラス統合部14、および人物顔データベース部15を含むように構成されている。
顔検出/追跡部11は、動画コンテンツ入力部1に入力された動画コンテンツから人物の顔画像をフレーム単位で検出する検出処理を実行する。そして、その検出処理により新たな人物の顔画像を検出すると、顔検出/追跡部11は、それ以降のフレームを対象として、同一人物の顔を追跡するための追跡処理を実行する。追跡処理とは、例えば、それ以降のフレームに同一人物の顔が含まれているか否かを判定し、含まれていると判定している限り、その同一人物の顔画像の検出を繰り返していく、といった処理いう。即ち、顔検出/追跡部11は、動画コンテンツから、新たな人物の顔画像を検出する毎に、その新たなの人物の顔の追跡を行う追跡処理を繰り返していくことで、時間的に連続した追跡範囲(ここでは、時間的に連続した1以上のフレームからなるフレーム群)に含まれる1以上の顔画像からなる時系列画像(以下、適宜クリップとも称する)を1以上検出する。なお、顔検出/追跡部11の詳細については、図6乃至図8を参照して後述する。
同一人物クラスタリング部12は、同一人物顔クラス生成部21、顔特徴量解析/評価部22、および人物顔クラスタリング部23を含むように構成されている。
同一人物顔クラス生成部21は、顔検出/追跡部11により検出された1つの時系列画像(クリップ)に含まれる1以上の顔画像を同一人物の顔画像とみなして、その時系列画像についてのクラス(以下、顔クラスと称する)を1つ生成する。即ち、同一人物顔クラス生成部21は、顔検出/追跡部11により検出された1以上の時系列画像(クリップ)のそれぞれについて、異なる顔クラスを1つずつ生成する。換言すると、1以上の時系列画像(クリップ)のそれぞれは、それぞれ異なる人物の各顔クラスとして分類される。なお、その際、各顔クラスには、それぞれラベルが付されるとする。
具体的には例えば、図2に示される動画コンテンツ61が動画コンテンツ入力部1に入力されたとする。図2の例では、動画コンテンツ61を構成する複数のフレームのうちの、幾つかのフレームのみが図示されている。図示されている各フレームの下部に示される数値は、フレーム番号を示しており、以下、そのフレーム番号を先頭に付して各フレームを区別して表現するとする。
この場合、顔検出/追跡部11が、1589フレームから顔画像71−1589を検出して追跡処理を開始し、その結果、1589フレームの顔画像71−1589乃至1864フレームの顔画像71−1864までを1つの時系列画像(クリップ)として検出したとする。すると、同一人物顔クラス生成部21は、この時系列画像に対して1つの顔クラスを生成し、それにラベルC01を付す。以下、クラスを生成して、ラベルα(αは任意のラベル値。ここではα=C01)を付すまでの一連の処理を、単に、クラスαを生成すると表現する。
同様に、顔検出/追跡部11が、2498フレームから顔画像71−2498を検出して追跡処理を開始し、その結果、2498フレームの顔画像71−2498乃至3564フレームの顔画像71−3564までを1つの時系列画像(クリップ)として検出したとする。すると、同一人物顔クラス生成部21は、この時系列画像について1つの顔クラスC02を生成する。
図1に戻り、顔特徴量解析/評価部22は、同一人物顔クラス生成部21により生成された1以上の顔クラスのそれぞれを処理対象として、その処理対象に含まれる各顔画像の顔特徴量、例えば本実施の形態では顔特徴ベクトルを解析して評価する。
そして、人物顔クラスタリング部23は、その評価結果に基づいて、各顔クラスのそれぞれを、所定の分類手法に基づいて、さらに複数のクラスに分類する。この分類手法は特に限定されない。ただし、クラス間の重なり(クラス間の分離度)を少なくするような分類手法であるとよい。このような手法として、ここでは例えば、顔の方向に応じて分類する手法が採用されているとする。そこで、以下、かかる分類手法により分類される複数のクラスを、顔方向クラスと称する。この場合、各顔方向クラスのそれぞれに対しても、ラベルが付されるとする。顔方向クラスのラベルとしては、顔クラスのラベルとは独立したラベルでもよいが、顔クラスのラベルと関連するラベルの方が、顔クラスとの対応付けが明確になるので好適である
例えば図2の例では顔クラスC01について、同一人物の正面に近い顔(以下、正面顔と称する)を1つの顔方向クラスC011とし、左側面に近い顔(以下、左側面顔と称する)を別の顔方向クラスC012とし、右側面に近い顔(以下、右側面顔と称する)をさらに別の顔方向クラスC013とした場合、顔画像71−1589乃至顔画像71−1864のそれぞれは、それらの顔特徴ベクトルに基づいて、顔方向クラスC011乃至C013のうちの何れかに分類される。
同様に例えば、顔クラスC02について、同一人物の正面顔を1つの顔方向クラスC021とし、左側面顔を別の顔方向クラスC022とし、右側面顔をさらに別の顔方向クラスC023とした場合、顔画像71−2498乃至顔画像71−3564のそれぞれが、それらの顔特徴ベクトルに基づいて、顔方向クラスC021乃至C023のうちの何れかに分類される。
なお、このように同一人物の顔クラスを、複数のクラス(ここでは顔方向クラス)にさらに分類する理由は、人物顔データベースを構築する上で、より良いクラス分類を行うためである。この理由の詳細については図23乃至図25を参照して後述する。
このような同一人物クラスタリング部12に対して、異人物間クラスタリング部13は、代表顔選択部31、顔特徴量解析/評価部32、および人物顔クラスタリング部33を含むように構成されている。
代表顔選択部31は、同一人物顔クラス生成部21により生成された複数の顔クラスのそれぞれから、所定の選択手法に従って、代表となる顔画像(以下、代表顔と称する)をそれぞれ選択する。或いは、代表顔選択部31は、顔検出/追跡部11により検出された複数の時系列画像(クリップ)のそれぞれから、所定の選択手法に従って、代表顔をそれぞれ選択してもよい。
この場合の代表顔の選択手法は、特に限定されないが、例えば本実施の形態では、所定の顔クラスに含まれる1以上の顔画像のそれぞれについて、顔の構成要素として例えば両目、鼻、口等の1以上のパーツをそれぞれ検出し、1以上の構成要素の位置関係に基づいて顔の方向をそれぞれ推定し、各推定結果に基づいて正面顔か否かをそれぞれ判定し、正面顔と判定された顔画像を、所定の顔クラスの代表顔として選択する、とった手法が採用されているとする。なお、この手法の具体例については、図9乃至図11を参照して後述する。
顔特徴量解析/評価部32は、代表顔選択部31により選択された各代表顔の顔特徴量、例えば本実施の形態では顔特徴ベクトルを解析して評価する。そして、人物顔クラスタリング部33は、その評価結果に基づいて、各代表顔のそれぞれをクラスタリングする。その結果、各代表顔は、1以上のクラス(以下、代表顔クラスと称する)のうちの何れかに分類されることになる。この分類手法は特に限定されない。ただし、クラス間の重なり(クラス間の分離度)を少なくするような分類手法であると好適である。また、各代表顔クラスのそれぞれに対しても、ラベルがそれぞれ付されるとする。
具体的には例えば、図2の例では、顔クラスC01からは顔画像71−1671が代表顔として選択され、また、顔クラスC02からは顔画像71−2498が代表顔として選択されている。従って、この場合、顔画像71−1671,71−2498のそれぞれが、代表顔クラスC110,C111,C112等のうちの何れかに分類されることになる。
このようにして各代表顔がクラスタリングされる理由は次の通りである。即ち、実世界上では同一人物であった者が時間を開けて動画コンテンツ内に登場してきた場合、顔検出/追跡部11は、上述したように、それぞれ異なる複数の時系列画像(クリップ)を検出することになる。この場合、同一人物顔クラス生成部21においては、それらの複数の時系列画像(クリップ)は、それぞれ異なる人物の顔クラスとして生成(分類)されることになる。このように、実世界上では同一人物であっても、同一人物クラスタリング部12では、それぞれ異なる人物の顔クラスとして取り扱われる場合がある。そこで、このような場合であっても、実世界上と同様に同一人物として取り扱うことを可能にすべく、同一人物クラスタリング部12のクラスタリングとは別途に、異人物間クラスタリング部13が、各顔クラスの各代表顔をクラスタリングするのである。
そして、クラス統合部14が、同一人物顔クラス生成部21より生成された1以上の顔クラスと、異人物間クラスタリング部13のクラスタリングにより得られた1以上の代表顔クラスとからなる各クラスうちの、実世界上では同一人物であると判断される1以上のクラスを関連付けることで、各クラスの統合を行う。そして、このような同一人物クラスタリング部12、異人物間クラスタリング部13、およびクラス統合部14によるクラスタリングの結果に基づいて、動画コンテンツから検出された各顔画像(より正確にはそれらの特徴ベクトル)がデータベース化され、その結果、人物顔データベースが人物顔データベース部15に構築されるのである。即ち、実世界上の同一人物と判断される人物毎に、各クラスが関連付けられた人物顔データベースが構築されるのである。
具体的には例えば、図3に示されるように、代表顔クラスや顔クラスが各人物毎に関連付けられた人物顔データベースが、人物顔データベース部15に構築される。即ち、図3の例では、代表顔クラスA.0と顔クラスA.1乃至A.mが関連付けられて、人物Aのクラスが形成されている。同様に、代表顔クラスB.0と顔クラスB.1乃至B.kが関連付けられて、人物Bのクラスが形成されている。代表顔クラスC.0と顔クラスC.1乃至C.nが関連付けられて、人物Cのクラスが形成されている。なお、図3には図示はしていないが、上述したように、各顔クラスA.1乃至A.m,B.1乃至B.k,C.1乃至C.nのそれぞれは、さらに、複数の顔方向クラスに分類されている。
人物顔データベースの構成をより具体的かつ正確にいえば、例えば次のようになる。即ち、顔検出/追跡部11により検出された1以上の時系列画像(クリップ)に含まれる各顔画像の顔特徴ベクトルのそれぞれに対して、同一人物クラスタリング部12により分類された顔クラスと顔方向クラスとをそれぞれ特定可能なラベルがそれぞれ付され、また、そのうちの代表顔についてはさらに、異人物間クラスタリング部13により分類された代表顔クラスを特定可能なラベルが付され、このような各ラベルが付された各顔特徴ベクトルが各人物毎かつ各クラス毎に分類されてデータベース化されることで、人物顔データベースが人物顔データベース部15に構築される。具体的には例えば図2の人物顔データベース部15内に描画されているように、人物顔データベースが構築される。なお、このようなレベルを付す処理は、本実施の形態では上述したように、同一人物顔クラス生成部21、人物顔クラスタリング部23、または人物顔クラスタリング部33のうちの何れかにより実行されるとする。
この場合、図1の顔認識部3は、認識対象顔画像の顔特徴ベクトルに対する、人物顔データベース部15に含まれている各顔特徴ベクトルの類似度計算、例えば本実施の形態では距離計算をそれぞれ行う。そして、顔認識部3は、認識対象顔画像の顔特徴ベクトルと最も類似している(最も距離が近い)と判断できる顔特徴ベクトルを選抜し、選抜された顔特徴ベクトルに付されたラベルにより特定されるクラスを、認識対象顔画像のクラスとして特定する。
例えば図2の例において、認識対象顔画像の顔特徴ベクトルと、顔方向クラスC011のラベルが付された顔特徴ベクトルとが最も類似すると判定された場合、認識対象顔画像はクラスC011であると特定され、その結果、認識対象顔画像は人物Aの顔画像であると特定される。さらに、図2の最下方にあるような外部情報が与えられていれば、顔認識部3は、「人物A=○○○」(○○○は、人物Aを特定する情報、例えば芸名等)といった情報を、最終認識結果としてまたは付帯情報として出力することもできる。
図4は、このような図1の機能的構成を有する画像処理装置が実行する人物特定処理の一例を説明するフローチャートである。
ステップS1において、人物顔データベース構築部2は、顔データベース構築処理を実行することで、上述した人物顔データベースを人物顔データベース部15に構築する。なお、顔データベース構築処理の詳細例については、図5のフローチャートを参照して後述する。
ステップS2において、顔認識部3の認識対象顔検出部41は、動画コンテンツ入力部1に入力された動画コンテンツから、認識対象顔画像を検出する。
ステップS3において、認識対象顔クラス特定部42は、人物顔データベース部15に構築された人物顔データベースを利用して、認識対象顔画像のクラスを特定する。
ステップS4において、人物特定部44は、認識対象顔クラス特定部42により特定されたクラスと、外部情報取得部43により取得された外部情報とを用いて、認識対象顔画像の人物を特定し、その特定結果を出力する。これにより、人物特定処理は終了となる。
次に、図5のフローチャートを参照して、ステップS1の顔データベース構築処理の詳細例について説明する。
ステップS11において、顔検出/追跡部11は、動画コンテンツ入力部1に入力された動画コンテンツから顔画像の検出をフレーム毎に行う。
ステップS12において、顔検出/追跡部11は、新たな人物の顔画像が検出されたか否かを判定する。
ステップS12において、新たな人物の顔画像が検出されていないと判定された場合、処理はステップS11に戻され、それ以降の処理が繰り返される。即ち、新たな人物の顔画像が検出されるまで、ステップS11,S12(NO)のループ処理が繰り返される。そして、新たな人物の顔画像が検出されると、ステップS12の処理でYESであると判定されて、処理はステップS13に進む。
ステップS13において、顔検出/追跡部11は、その新たな人物について追跡処理を実行することで、その新たな人物の時系列画像(クリップ)を得る。即ち、所定のフレームから新たな人物の顔画像が検出されると、その後の時間的に連続する複数のフレームのうちの新たな人物を含む各フレームのそれぞれから、新たな人物の顔画像が順次検出されていき、その結果、新たな人物の顔画像が1以上含まれる時系列画像(クリップ)が得られる。
そこで、ステップS14において、同一人物クラスタリング部12は、その時系列画像(クリップ)を1つの顔クラスとして、その顔クラスに含まれる各顔画像を、複数の顔方向クラスにクラスタリングする。
ステップS15において、顔検出/追跡部11は、顔画像の検出を終了するか否かを判定する。
ステップS15において、顔画像の検出をまだ終了しないと判定された場合、処理はステップS11に戻され、それ以降の処理が繰り返される。即ち、顔画像の検出を終了すると判定されるまでの間、新たな人物(画像処理装置にとっての新たな人物という意味)の顔画像が検出される毎に、新たな時系列画像(クリップ)が1つずつ得られ、それぞれが異なる顔クラスとして分類される。そして、顔画像の検出が終了すると、ステップS15の処理でYESであると判定されて、処理はステップS16に進む。
即ち、ステップS16の処理開始段階においては、異人物の各顔クラスが生成されていることになる。そこで、ステップS16において、異人物間クラスタリング部13は、異人物の各顔クラスから代表顔をそれぞれ選択し、各代表顔を、1以上の代表顔クラスにクラスタリングする。
なお、ここでいう「異人物」とは、上述したように、画像処理装置にとっての異人物という意味である。即ち、実世界上では同一人物の者が、動画コンテンツ内において時間間隔を開けて何回か登場してきたような場合、それぞれの登場シーン(1以上のフレームの集合体)から、時系列画像(クリップ)が1つずつ別々に得られ、それらの各時系列画像(クリップ)から異人物の各顔クラスがそれぞれ生成される。そして、このような異人物の各顔クラスから代表顔がそれぞれ個別に選択される。
ステップS17において、クラス統合部14は、各顔クラスと、各代表顔クラスとを統合して、人物顔データベース部15に人物顔データベースを構築する。なお、統合の仕方の具体例については、図3を参照して説明したとおりである。
これにより、顔データベース構築処理は終了となる。即ち、図4のステップS1の処理は終了し、ステップS2以降の処理が実行される。
次に、図6乃至図8を参照して、図1の顔検出/追跡部11の詳細について説明する。
図6は、顔検出/追跡部11の詳細な機能的構成例を示す機能ブロック図である。
図6の例の顔検出/追跡部11は、顔検出部101乃至現時刻顔追跡結果保存部105から構成されている。このうちの、顔検出部101が、顔検出処理を実行し、顔領域位置予測部102乃至現時刻顔追跡結果保存部105が、追跡処理を実行する。
顔検出部101に適用する顔検出手法は、特に限定されず、例えば図7と図8に示される手法、即ち、「ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習」(第10回画像センシングシンポジウム(SSII 2004)にて発表)により開示された手法を採用することができる。即ち、顔画像からピクセル差分特徴を用いて、AdaBoostによる姿勢毎の顔パターン検出器の学習を、ツリー構造に弱仮説が配置されるように行い、その学習結果を用いて画像内の顔を検出する、という手法を顔検出部101に適用できる。
ここに、ピクセル差分特徴とは、例えば図7に示されるように所定のピクセル(画素)の輝度値をI1として別のピクセルの輝度値をI2とすると、I1−I2の演算結果のことをいう。この場合、学習結果として、例えば図8に示されるように、顔部分(face)と非顔部分(non-face)とのそれぞれのピクセル差分特徴の頻度による分布図が得られ、この分布図から所定の閾値(Threshold)が設定される。この場合、この図8の分布図における閾値(Threshold)を用いて、顔部分(face)と非顔部分(non-face)とをそれぞれ認識していくことで、最終的に顔を検出する、という手法を顔検出部101に適用できる。
換言すると、かかる手法が適用された顔検出部101は、全ての姿勢の顔パターンを識別する弱仮説から次第に各姿勢の顔パターンを識別するように枝分かれ細分化していくツリー構造の識別器を構成するような学習を行っていき、その学習結果を用いた識別手法(例えば図8の分布図を用いた閾値(Threshold)による識別手法)に従って、各フレームから顔画像をそれぞれ検出することができる。
一方、顔の追跡手法としては例えば、図6の顔領域位置予測部102乃至現時刻顔追跡結果保存部105により実現される次のような手法を採用できる。
即ち、顔検出部101によって新たな人物の顔画像が検出されると、その顔画像の顔領域が初期顔領域モデルとして顔検出/追跡部11に保存される。かかる初期顔領域モデルは、顔領域モデル読み込み部115によって読み込まれる。また、処理対象のフレームの時刻を現時刻とすると、現時刻の追跡結果、即ち、現時刻の顔領域の推定位置は、現時刻顔追跡結果保存部105に保存される。
この場合、次のフレームが処理対象となると、顔領域位置予測部102は、次のような処理を実行する。即ち、前時刻追跡結果読み込み部111は、現時刻顔追跡結果保存部105に直前に保存された追跡結果を、前時刻追跡結果として読み込む。すると、現時刻顔領域予測位置計算部113は、この前時刻追跡結果と、顔動き予測モデル読み込み部112によって読み込まれた顔の運動モデル(顔動き予測モデル)とに基づいて、現時刻の顔領域が存在可能な位置を予測し、その予測された各顔領域の位置(仮説)を出力する。
次に、顔領域予測評価部103は、次のような処理を実行する。即ち、予測領域画像分布(HSV分布)算出部114は、顔検出部101から提供される現時刻のフレームのうちの、顔領域位置予測部102により予測された各顔領域の位置(仮説)での色分布(HSV分布)、即ち、色ヒストグラム特性を算出する。そして、予測領域評価部116は、この色ヒストグラム特性を用いて、顔領域モデル読み込み部115によって読み込まれた初期顔領域モデルとの相似性を評価する。なお、予測領域評価部116は、このような処理を実行することから、相似性演算部116であると捉えることもできる。
次に、顔領域追跡結果推定部104は、次のような処理を実行する。即ち、確率演算部117は、顔領域予測評価部103による評価値によって、顔領域位置予測部102により予測された各顔領域の位置(仮説)の確率を算出する。最後に、追跡結果推定部118は、顔領域位置予測部102により予測された各顔領域の位置(仮説)と、その確率とを用いて、現時刻の顔領域の位置を推定し、その顔領域の推定位置を追跡結果として外部に出力する。また、この追跡結果は、現時刻顔追跡結果保存部105に保存され、さらに次のフレームが処理対象となると、上述したように、前時刻追跡結果として利用される。
次に、図9乃至図11を参照して、図1の代表顔選択部31に適用可能な代表顔の選択手法の一例について説明する。
図9は、代表顔として、正面顔の顔画像が選択された場合の一例を示している。なお、正面顔が代表顔として選択される理由は、クラスタリングが行いやすいからである。
図9の例では、フレーム番号がKL(K,Lはそれぞれ独立した任意の整数値)である各フレームから検出された顔画像が、符号TKLの下方に図示されている。そこで、以下、符号TKLの下方に示された顔画像TKLと称する。
図9の例では、同一人部顔クラス生成部21(図1)によって、顔画像T00乃至T12からなる時系列画像(クリップ)が顔クラスS01として分類され、顔画像T20乃至T27からなる時系列画像(クリップ)が顔クラスS02として分類され、また、顔画像T40乃至T44からなる時系列画像(クリップ)が顔クラスS03として分類されている。
この場合、図9の各白抜き矢印で示されるように、代表顔選択部31は、顔クラスS01からは顔画像T00,T09を正面顔として検出し、顔クラスS02からは顔画像T24を正面顔として検出し、かつ、顔クラスS03からは顔画像T40を正面顔として検出することができる。
図10,図11は、このような正面顔を検出するための簡単な手法の一例を示す図である。
図10,図11における各白丸は、顔の各パーツ、具体的には両目、鼻、または口の検出結果を示している。即ち、代表顔検出部31は、各顔画像から、両目、鼻、または口の端を点(白丸)として検出し、それらの各点の距離、即ち、対応する各パーツ間の相対位置(距離)を演算し、その演算結果に基づいて、正面顔であるのか否かを判定することで、正面顔の検出ができる。
このような選択手法が適用された代表顔選択部31によって検出された各正面顔は、選択された代表顔として、上述したように、図1の顔特徴量解析/評価部32と人物顔クラスタリング部33により、自動的にクラスタリングされる。この場合、適切なクラスタリングを行うためには、正面顔の画像特徴を固有空間法によって抽出し、更に照明影響などを低減することが必要であり、そのためには、適切な顔特徴ベクトルを選択する必要があると考えられる。そこで、本発明人は、幾つかの顔データベースを用いて、顔特徴ベクトルの解析と評価を実際に行うことで、クラスタリングに適した顔特徴ベクトルの検討を行った。以下、その検討結果について説明する。
なお、図示はしないが、顔特徴ベクトルの解析と評価を行うために利用された顔データベースとしては、次のような4つのデータベースが使用されたとする。
即ち、第1のデータベースとは、実世界上の1以上の人物をそれぞれ撮影する場合に、様々な表情をしてもらいつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第1のデータベースを、表情変化データベースと称する。
第2のデータベースとは、実世界上の1以上の人物をそれぞれ撮影する場合に、様々な照明設定をそれぞれ行いつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第2のデータベースを、照明変化データベースと称する。
第3のデータベースとは、実世界上の1以上の人物をそれぞれ撮影する場合に、様々なポーズをそれぞれとってもらいつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第3のデータベースを、ポーズ変化データベースと称する。
第4のデータベースとは、実際の映画やドラマ等の動画コンテンツに対して顔検出/追跡部11(図1)の検出処理と追跡処理が施され、その結果得られた1以上の時系列画像(クリップ)が含まれる顔データベースである。以下、第4のデータベースを、実コンテンツデータベースと称する。
本発明人は、先ず、各顔特徴ベクトルを抽出する手法としては、PCA/KPCAの手法が好適であると判断した。その判断理由は、人物顔データベース構築部2は教師なしでクラスタリングを行うことから、教師なしで顔特徴ベクトルを求める必要があり、このためには、PCA/KPCAの手法が好適だからである。
そこで、本発明人は、上述した各種データベースを用いて、PCA/KPCAの手法に従った各顔特徴ベクトルの抽出を実際に行った。
具体的には例えば、図12には、表情変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。
図13には、照明変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。
図14には、ポーズ変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。
図15には、実コンテンツデータベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。
そして、本発明人は、このようにしてPCA/KPCAの手法に従って得られた様々な顔特徴ベクトルを用いて、実際に顔認識を行い、その性能評価を行った。
ここで、性能評価の結果を説明する前に、性能評価の結果を理解するための前提となる技術、即ち、PCA手法による顔認識の技術について、図16を参照してその概要を簡単に説明する。なお、説明の簡略上、動作主体は単に装置と称する。
装置は、データベースまたは顔検出によって得られた複数人物のN枚(Nは1以上の整数値)の顔画像をトレーニングサンプルとして利用する。装置は、それらのトレーニングサンプルの大きさや傾きを整えるように正規化処理を行い、また、平均顔画像μを生成する。そして、装置は、正規化後の各トレーニング顔画像xi(i=1,2,……,N)と平均顔画像μとの差分画像を生成し、さらに、次式(1)に示される共分散行列Sを算出する。
Figure 2008077536
最後に、装置は、この共分散行列Sから、顔の固有ベクトルと固有値を計算し、固有値の大きさの順番付けを行う。
これにより、顔の認識処理を行うための準備が整うことになる。さらに、以下、顔の認識処理例の概略について説明する。
装置は、共分散行列Sから計算された顔の固有ベクトルと固有値とを用いて、顔クラスデータベース等に保持された各人物の顔画像(各人物顔クラス)の顔特徴を固有空間に射影することで、それぞれの人物顔クラスの顔特徴ベクトルを求める。図15の例では、人物顔クラスはL(Lは1以上の整数値)クラス存在し、それゆえL個の顔特徴ベクトルPM1乃至PMLが求められている。
一方、装置は、認識対象顔画像に対して、大きさと傾きについての正規化処理を行い、上述した平均顔画像μとの差分画像を生成し、その差分画像を用いて、認識対象顔画像の顔特徴ベクトルPtestを求める。
そして、装置は、認識対象顔画像の顔特徴ベクトルPtestに対する、各人物顔クラスの顔特徴ベクトルPM1乃至PMLの各距離評価値をそれぞれ演算し、距離評価値が最も小さい顔特徴ベクトルPMK(Kは1乃至Lのうちの何れかの値)を有する人物顔クラスが、認識対象顔画像のクラスであると判定し、その判定結果を認識結果として出力する。
このようなPCA手法と、KPCA手法との違いは次の通りである。即ち、PCA手法とは、上述したように、顔画像を線形射影によって固有顔の特徴空間に射影する手法である。これに対して、KPCA手法は、カーネルトリックを用いて、顔画像を別の空間にマッピングすることによって、非線形空間問題を線形空間問題として取り扱うことができる手法である。換言すると、PCA手法がKPCA手法の特例として考えられる。そこで、以下、PCA手法も含めて、単にKPCA手法として説明していく。
このKPCA手法ではカーネルトリックが必要である。このカーネルトリックとしては、一般的に次式(2)に示されるPoly (polynomial)と、次式(3)に示されるRBF (Gaussian Radial Basis Function Kernel)がよく使われている。
Figure 2008077536
そこで、本発明人は、これら2つのカーネルトリックのそれぞれについて、各式(2),(3)における各パラメータd,σのそれぞれを変化させた場合の顔認識の性能評価を行った。その性能評価の結果が、図17乃至図19のそれぞれに示されている。
図17は、照明変化データベースによる性能評価結果を示している。図18は、表情変化データベースによる性能評価結果を示している。図19は、ポーズ変化データベースによる性能評価結果を示している。
図17乃至図19において、縦軸が顔認識の正解率(%)を示し、横軸のうちの左半分がPolyのパラメータdを示し、横軸のうちの右半分がRBFのパラメータσを示している。
また、L1で示される線は、顔特徴ベクトルの距離評価として絶対距離を使用した場合の性能評価結果を示している。L2で示される線は、顔特徴ベクトルの距離評価として絶対距離の二乗を使用した場合の性能評価結果を示している。Cosで示される線は、顔特徴ベクトルの距離評価としてCosign値(余弦値)を使用した場合の性能評価結果を示している。L1Wで示される線は、顔特徴ベクトルの距離評価として絶対距離を重み付けした値を使用した場合の性能評価結果を示している。CosWで示される線は、顔特徴ベクトルの距離評価としてCosign(余弦値)を重み付けした値を使用した場合の性能評価結果を示している。Mahaで示される線は、顔特徴ベクトルの距離評価としてMaha距離を使用した場合の性能評価結果を示している。
図17乃至図19の性能評価結果からわかるように、PolyやRBFといったカーネルトリックのタイプによっては正解率の違いはそれほど顕著に表れない。また、Polyを用いる場合にはパラメータdとしては、0.4<d<1程度が適切であり、全てのデータベースのテストデータに対して、d=0.8場合には高い正解率、即ち、良い認識結果が得られている。また、RBFを用いる場合には、パラメータσとしては、1.5<σ<10.0程度が適切である。
そこで、本発明人は、パラメータd=0.8のPolyによるKPCA手法を利用して、顔認識の試み、即ち、顔特徴ベクトルの解析と評価を行った。その評価結果が、図20,図21に示されている。即ち、図20には、各条件の顔認識の正解率が示されている。図21には、照明変化データベースを利用して、40次元の顔特徴ベクトルのうちの、全次元を使用した場合(1〜40次元を使用した場合)と、最初の3次元を除外した場合(4〜40次元を使用した場合)とのそれぞれについての顔認識の正解率とiteration(クラスタリング結果)とが示されている。なお、図20,図21のそれぞれとも、顔特徴ベクトルの距離評価として絶対距離の二乗を使用した場合の結果が示されている。
図20,図21から、顔特徴ベクトルのうちの最初の3次元程度を除外して顔認識やクラスタリングを行った方が、良い結果が得られることがわかる。このことは、照明変化データベースを用いた場合に顕著なものとなっている。その理由は、次の通りである。即ち、例えば図13の左上の3つの固有顔が、顔特徴ベクトルのうちの最初の3次元に対応しており、他の固有顔に比較して照明影響を多く受けていることがわかる。このように、顔特徴ベクトルのうちの最初の3次元程度は照明影響を受けやすく安定性がよくないため、これらの最初の3次元程度を除外して顔認識やクラスタリングを行った方が、良い結果が得られるのである。
以上の図17乃至図21を用いて説明した検討結果をまとめると、次のようになる。
即ち、図1の顔特徴量解析/評価部32は、後段の人物顔クラスタリング部33による教師無しのクラスタリングに適した顔特徴ベクトルを抽出する必要がある。かかる抽出手法としては、PCA手法も含めて、KPCA手法が好適である。
また、教師無しのクラスタリングに適した顔特徴ベクトルとしては、KPCA手法によって実際の顔認識を行ったときに認識結果が良い顔特徴ベクトルを適用すればよい。具体的には、図1の顔特徴量解析/評価部32は、上述した検討結果から、次のような顔特徴ベクトルを抽出すれば好適である。即ち、カーネルトリックのタイプとしてはPolyとRBFとの何れを採用してもよいが、前者のPolyを採用する場合にはパラメータdとしては、0.4<d<1程度を採用した顔特徴ベクトルが好適であり、一方、後者のRBFを採用する場合には、パラメータσとしては、1.5<σ<10.0程度を採用した顔特徴ベクトルが好適である。また、抽出後の顔特徴ベクトルの解析や評価、さらには、その評価に基づくクラスタリングを行う場合には、顔特徴ベクトルの全次元を使用するのではなく、最初の2乃至3次元程度を除外して使用すると好適である。
以上の内容、即ち、検討結果をまとめた内容は、図1の同一人物クラスタリング部12の顔特徴量解析/評価部22についても当てはまる。
次に、本発明人は、図1の人物顔クラスタリング部23,33に採用するクラスタリング手法として好適な手法を見つけるべく、4つのクラスタリング手法、即ち、GMM手法、KMeans手法、FCM(Fuzzy C-Means)手法、および、AFCM(Alternative Fuzzy C-Means)手法のそれぞれを実際に用いたクラスタリングを行った。条件としては、10枚の顔画像のそれぞれから、パラメータd=0.8のPolyのKPCA手法により顔特徴ベクトルを抽出し、それらの顔特徴ベクトルのうちの最初の3次元を除外したものを利用して、10クラスにクラスタリングする、という条件が採用された。そのクラスタリングの結果が図22に示されている。
図22の結果から、図1の人物顔クラスタリング部23,33に採用するクラスタリング手法としては、AFCM手法が好適であることがわかる。
そこで、本発明人は、さらに、図23に示されるような異人物の時系列画像(クリップ)のそれぞれを、1つのクラスのみ(顔クラスのみ)に分類した場合のクラスタリングと、3つのクラスに分類した場合(1つの顔クラスをさらに3つの顔方向クラスに分類した場合)のクラスタリングとを、AFCM手法に従ってそれぞれ行った。前者の結果、即ち、1つのクラスのみ(顔クラスのみ)に分類した場合のクラスタリングの結果が、図24に示されている。一方、3つのクラスに分類した場合(1つの顔クラスをさらに3つの顔方向クラスに分類した場合)のクラスタリングの結果が、図25に示されている。
なお、ここでいう「異人物」とは、上述したように、画像処理装置にとって「異人物」と判断されたという意味であり、実世界上では同一人物である場合もある。このことは、以下の図24,図25を用いた説明でも同様とする。同様に、以下の図24,図25を用いた説明でいう「同一人物」とは、上述したように、画像処理装置にとって「同一人物」と判断されたという意味である。
また、以下の説明では、「顔クラス」という語句を使用し、それからさらに分類された3つの顔方向クラスとして、「第1の顔方向クラス」、「第2の顔方向クラス」、および「第3の顔方向クラス」という語句を使用する。
具体的には、図24のグラフは、所定の人物の顔クラスの中心顔(平均顔画像)に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の顔クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の顔クラスに属する顔画像を示している。
また、図25の左のグラフは、所定の人物の第1の顔方向クラスの中心顔(平均顔画像)に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第1の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第1の顔方向クラスに属する顔画像を示している。図25の中央のグラフは、所定の人物の第2の顔方向クラスの中心顔(平均顔画像)に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第2の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第2の顔方向クラスに属する顔画像を示している。図25の右のグラフは、所定の人物の第3の顔方向クラスの中心顔(平均顔画像)に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第3の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第3の顔方向クラスに属する顔画像を示している。
理想を言えば、各グラフの横軸において、点線と実線とが重なる範囲(距離)が無いことが望ましい。また、点線と実線とが重なっていても、その範囲内での実線が示す顔画像数は多くないことが望ましい。換言すると、点線と実線とが重なるということは、その重なった範囲内の距離を有する顔画像としては、所定の人物のクラスに分類されるべき顔画像(点線)も存在するし、その所定の人物とは異なる人物のクラスに分類されるべき顔画像(実線)も存在することを意味する。従って、点線と実線とが重なっていて、その範囲内での実線が示す顔画像数が多いということは、その重なっている範囲内の距離を有する顔画像がクラスタリングの対象となる場合には、クラスタリングの精度が悪くなることを意味している。このような観点からすると、図24の結果より、図25の結果の方が、より良いクラスタリング結果が得られていることになる。より正確に言えば、第3の顔方向クラスを用いたクラスタリング(図25の右のグラフ)が最も良い結果が得られていることになる。
即ち、同一人物の時系列画像(クリップ)を、そのまま1つの顔クラスとしてクラスタリングを行うより、その顔クラスをさらに複数のクラス(ここでは顔方向クラス)に分け、それらの複数のクラスを用いてクラスタリングを行う方が、より良いクラスタリング結果が得られることになる。このことが、図1の同一人物クラスタリング部12が、同一人物顔クラス生成部21のみならず、顔特徴量解析/評価部22と人物顔クラスタリング部23とを有している理由である。
さらに、本発明人は、人物顔データベースを利用した顔認識に対して適用可能な顔認識手法、即ち、図1の顔認識部3に適用可能な顔認識新手法として、好適な手法について検討した。以下、その検討結果について説明する。
具体的には、顔認識手法としては、固有空間法による手法が多く提案されており、本発明人は、そのうちの、KPCA(Kernel Principle Component Analysis)、GDA(Generalized Discriminant Analysis)、FisherFace(PCA+LDA:Linear Discriminant Analysis)、KDDA(Kernel Direct Discriminant Analysis)、DiffPCA(Differential PCA)の各手法に従った、照明変化データベースに含まれる顔画像の顔認識と、ポーズ変化データベースに含まれる顔画像の顔認識とを行った。
前者の結果、即ち、照明変化データベースによる顔認識結果が図26に示されている。また、後者の結果、即ち、ポーズ変化データベースによる顔認識結果が図27に示されている。
図26と図27に示されるように、GDA手法による顔認識結果が最もよいと確認できた。換言すると、人物顔データベースを利用した顔認識に対して適用可能な顔認識手法としては、即ち、図1の顔認識部3に適用可能な顔認識新手法としては、GDA手法が好適であることを確認できた。
そこで、本発明人は、上述した各種手法のうちの、好適であると確認できた各種手法を図1の画像処理装置に適用して、実世界上の14人の人物が登場する実際のリアルデータを動画コンテンツとして用いて、その画像処理装置に図4の人物特定処理を実行させた。具体的には、人物顔データベース構築部2が、この動画コンテンツから、553枚の顔画像を検出し、それらの顔画像から、パラメータd=0.8のPolyのKPCA手法により顔特徴ベクトルを抽出し、それらの顔特徴ベクトルのうちの最初の3次元を除外したものを利用してクラスタリングした結果、553枚の顔画像は、21のクラスにそれぞれ分類された。この分類結果と、発明人の目測による手動クラスタリングの結果とを比較すると、その一致率は、83.1%であった。即ち、後者の手動クラスタリングの結果を正とすると、83.1%の顔画像が正しくクラスタリングされたことになる。そして、このクラス分類結果を人物顔データベースとして人物顔データベース部15に構築させた後、顔認識部3が、GDA手法による顔認識処理を行うと、約88%の認識率が得られることがわかった。
なお、代表顔選択部31の代わりに手動で代表顔を選択してクラス分類を行い、そのクラス分類の結果を人物顔データベースとして人物顔データベース部15に構築させた後、顔認識部3が、GDA手法による顔認識処理を行うと、約90%の認識率が得られることも確認できた。従って、代表顔選択部31の代表顔の選択の精度を向上させ、後段のクラスタリング処理がうまく実行させることで、さらに一段と高い認識率を得ることも可能になる。
以上説明した図1の画像処理装置等で実現される本発明の画像処理装置は、上述したように様々な効果を有している。ここで、これらの効果をまとめると次のようになる。
即ち、顔の検出処理と追跡処理により同一人物の顔クラスが生成され、一方、例えば正面顔が代表顔として選択されて異人物間のクラスタリングが行われて代表顔クラスが生成され、この顔クラスと代表顔クラスとが統合されるので、その結果、教師無しの顔クラス分類が実現できる、という効果を奏することが可能になる。
また、教師無しのクラスタリングにより構築された人物顔データベースを用いることで、動画コンテンツに登場している人物の顔認識が可能となるので、その結果、その人物が出演している別の動画コンテンツを検索したり、推薦する等の応用的な使用が実現できる、という効果を奏することが可能になる。
さらにまた、Webページ上のテキストファイル情報等を外部情報として取得して利用することで、顔認識がなされた(クラスが特定された)顔画像の人物が誰なのかを特定することもできる、という効果を奏することが可能になる。
換言すると、教師無しのクラスタリングを用いて人物の認識や特定ができるということは、データベースとして事前登録されていない映画やドラマ等に出演している人物の認識や特定もできることを意味している。即ち、ユーザにとっては、例えば、映画やドラマ等を視聴している最中に「気になる人物」が登場したタイミングでボタンを押下する等の「人の直感的な感覚」による操作を行うだけで、事前にデータベースが構築されてなくとも、その映画やドラマ等からデータベースが自動的に構築されて、その自動的に構築されたデータベースを用いて「気になる人物」の認識や特定が自動的に行われる。その結果、ユーザは、「気になる人物」の情報を、その映画やドラマ等の視聴中に取得できるようになる。このように、本発明を適用することで、より効率よく動画コンテンツを管理し取り扱えるようになるので、ユーザにとっては、人の直感的な感覚で動画コンテンツを取り扱えるようになる。換言すると、本発明は、人の直感的な感覚で動画コンテンツを取り扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できる、という効果を奏することが可能になる。
なお、教師無しのクラスタリングでは、KPCA手法による顔特徴ベクトルの適用が効果的であることを本発明人が明らかにしたことは、上述した通りである。また、照明影響を除くため、顔特徴ベクトルの最初の2乃至3次元を除いたものを利用することで、より良いクラスタリング結果を得ることが可能になることも、上述した通りである。
ところで、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図28は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。即ち、図1の画像処理装置の全部または一部分、例えば幾つかの機能ブロックを、図28のように構成することもできる。
図28において、CPU(Central Processing Unit)201は、ROM(Read Only Memory)202、または記憶部208に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)203には、CPU201が実行するプログラムやデータなどが適宜記憶される。これらのCPU201、ROM202、およびRAM203は、バス204により相互に接続されている。
CPU201にはまた、バス204を介して入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207が接続されている。CPU201は、入力部206から入力される指令に対応して各種の処理を実行する。そして、CPU201は、処理の結果を出力部207に出力する。
入出力インタフェース205に接続されている記憶部208は、例えばハードディスクからなり、CPU201が実行するプログラムや各種のデータを記憶する。通信部209は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
また、通信部209を介してプログラムを取得し、記憶部208に記憶してもよい。
入出力インタフェース205に接続されているドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部208に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図28に示されるように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211、または、プログラムが一時的もしくは永続的に格納されるROM202や、記憶部208を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部209を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置または回路により構成される装置または回路全体を表すものである。
本発明が適用される画像処理装置の機能的構成例を示す機能ブロック図である。 図1の人物顔データベース構築部の動作例の概略を説明する図である。 図1の人物顔データベース構築部により構築される人物顔データベースの構造例を示す図である。 図1の画像処理装置が実行する人物特定処理例を説明するフローチャートである。 図4のステップS1の顔データベース構築処理の詳細例を説明するフローチャートである。 図1の顔検出/追跡部の詳細な機能的構成例を示す機能ブロック図である。 図6の顔検出部の動作例の概略を説明する図である。 図6の顔検出部の動作例の概略を説明する図である。 図1の代表顔選択部に適用可能な代表顔の選択手法の一例について説明する図である。 図1の代表顔選択部に適用可能な代表顔の選択手法の一例について説明する図である。 図1の代表顔選択部に適用可能な代表顔の選択手法の一例について説明する図である。 表情変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例を示す図である。 照明変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例を示す図である。 ポーズ変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例を示す図である。 実コンテンツデータベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例を示す図である。 PCA手法による顔認識の概要について説明する図である。 KPCA手法で用いられるカーネルトリックであるPolyとRBF のそれぞれについて、照明変化データベースを対象として、パラメータd,σのそれぞれを変化させた場合の顔認識の性能評価結果例を示す図である。 KPCA手法で用いられるカーネルトリックであるPolyとRBF のそれぞれについて、表情変化データベースを対象として、パラメータd,σのそれぞれを変化させた場合の顔認識の性能評価結果例を示す図である。 KPCA手法で用いられるカーネルトリックであるPolyとRBF のそれぞれについて、ポーズ変化データベースを対象として、パラメータd,σのそれぞれを変化させた場合の顔認識の性能評価結果例を示す図である。 パラメータd=0.8のPolyによるKPCA手法を利用した顔特徴ベクトル解析と評価の結果例を示す図である。 パラメータd=0.8のPolyによるKPCA手法を利用した顔特徴ベクトル解析と評価の結果例を示す図である。 図1の人物顔クラスタリング部に採用するクラスタリング手法として好適な手法を見つけるべく、4つのクラスタリング手法、即ち、GMM手法、KMeans手法、FCM手法、および、AFCM手法のそれぞれを実際に用いたクラスタリングを行った結果の一例を示す図である。 AFCM手法のクラスタリングを実際に行なった際に利用した時系列画像の一例を示す図である。 図23に示される異なる時系列画像から検出された同一人物の顔画像について、1つのクラスのみに分けた場合のAFCM手法によるクラスタリングの結果の一例を示す図である。 図23に示される異なる時系列画像から検出された同一人物の顔画像について、3つのクラスに分けた場合のAFCM手法によるクラスタリングの結果の一例を示す図である。 図1の顔認識部に採用する顔認識手法として好適な手法を見つけるべく、5つの手法、即ち、KPCA手法、GDA手法、FisherFace手法、KDDA手法、およびDiffPCA手法のそれぞれを実際に用いて、照明変化データベースに含まれる顔画像の顔認識を行った結果の一例を示している。 図1の顔認識部に採用する顔認識手法として好適な手法を見つけるべく、5つの手法、即ち、KPCA手法、GDA手法、FisherFace手法、KDDA手法、およびDiffPCA手法のそれぞれを実際に用いて、ポーズ変化データベースに含まれる顔画像の顔認識を行った結果の一例を示している。 本発明が適用される画像処理装置としてのパーソナルコンピュータの構成例を示すブロック図である。
符号の説明
1 動画コンテンツ入力部, 2 人物顔データベース構築部, 3 顔認識部, 11 顔検出/追跡部, 12 同一人物クラスタリング部, 13 異人物間クラスタリング部, 14 クラス統合部, 15 人物顔データベース部, 21 同一人物顔クラス生成部, 22 顔特徴量解析/評価部, 23 人物顔クラスタリング部, 31 代表顔選択部, 32 顔特徴量解析/評価部, 33 人物顔クラスタリング部, 41 認識対象顔検出部, 42 認識対象顔クラス特定部, 43 外部情報取得部, 44 人物特定部, 201 CPU, 202 ROM, 208 記憶部, 211 リムーバブルメディア

Claims (9)

  1. 動画像に対して画像処理を施す画像処理装置において、
    前記動画像から、新たな人物の顔を検出する毎に、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる1以上の顔画像からなる時系列画像を1以上検出する人物顔検出追跡手段と、
    前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれから、所定の規則に従って代表顔をそれぞれ選択する代表顔選択手段と、
    前記代表顔選択手段により選択された前記1以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する代表顔特徴量解析評価手段と、
    前記代表顔特徴量解析評価手段による前記1以上の顔特徴量の解析と評価の結果に基づいて、前記代表顔選択手段により選択された前記1以上の代表顔を、1以上のクラスにクラスタリングする代表顔クラスタリング手段と、
    前記代表顔クラスタリング手段によるクラスタリングの結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う顔認識手段と
    を備える画像処理装置。
  2. 前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれについて、異なるクラスを1つずつ生成する同一人物クラス生成手段と、
    前記同一人物クラス生成手段により生成された前記1以上のクラスと、前記代表顔クラスタリング手段のクラスタリングにより得られた前記1以上のクラスとからなる各クラスうちの、実世界上では同一人物であると判断される1以上のクラスを関連付けることで、前記各クラスの統合を行う統合手段と
    をさらに備え、
    前記顔認識手段は、前記統合手段の統合結果に基づいて、前記新たな顔画像のクラスを特定する
    請求項1に記載の画像処理装置。
  3. 前記同一人物クラス生成手段により生成された所定のクラスに含まれる前記1以上の顔画像のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する同一人物顔特徴量解析評価手段と、
    前記同一人物顔特徴量解析評価手段による前記1以上の顔特徴量の解析と評価の結果に基づいて、前記同一人物クラス生成手段により生成された前記所定のクラスに含まれる前記1以上の顔画像を、さらに複数のクラスにクラスタリングする同一人物顔クラスタリング手段と
    をさらに備える請求項2に記載の画像処理装置。
  4. 前記代表顔クラスタリング手段、前記同一人物クラス生成手段、および、前記同一人物顔クラスタリング手段のそれぞれは、さらに、生成またはクラスタリングの結果得られた各クラスのそれぞれに対してラベルを付す
    請求項3に記載の画像処理装置。
  5. 前記顔認識手段は、前記統合手段により統合された前記各クラスのうちの、前記新たな顔画像の顔特徴量と最も類似する顔特徴量を有する顔画像が属するクラスを、前記新たな顔画像のクラスとして特定する
    請求項3に記載の画像処理装置。
  6. 前記代表顔選択手段は、前記人物顔検出追跡手段により検出された前記1以上の時系列画像のそれぞれを処理対象として、処理対象に含まれる1以上の顔画像のそれぞれについて、顔の構成要素を1以上検出し、1以上の前記構成要素の位置関係に基づいて顔の方向を推定し、その推定結果に基づいて正面顔か否かを判定し、正面顔と判定された顔画像を前記処理対象の前記代表顔として選択する
    請求項1に記載の画像処理装置。
  7. 前記代表顔特徴量解析評価手段は、所定の顔画像を特徴空間に射影することで得られる特徴ベクトルのうちの、所定の次元を1以上除外した結果得られるベクトルを、前記所定の顔画像に対応する前記顔特徴量として利用する
    請求項1に記載の画像処理装置。
  8. 動画像に対して画像処理を施す画像処理装置の画像処理方法において、
    前記動画像から、新たな人物の顔を検出する毎に、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる1以上の顔画像からなる時系列画像を1以上検出し、
    検出された前記1以上の時系列画像のそれぞれから、所定の規則に従って代表顔をそれぞれ選択し、
    選択された前記1以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、その解析と評価の結果に基づいて、選択された前記1以上の代表顔を、1以上のクラスにクラスタリングし、
    そのクラスタリングの結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う
    ステップを含む画像処理方法。
  9. 動画像に対する画像処理を制御するコンピュータに実行させるプログラムであって、
    前記動画像から、新たな人物の顔を検出したとき、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる1以上の顔画像からなる時系列画像を1以上検出し、
    検出された前記1以上の時系列画像のそれぞれから、所定の規則に従って代表顔をそれぞれ選択し、
    選択された前記1以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、その解析と評価の結果に基づいて、選択された前記1以上の代表顔を、1以上のクラスにクラスタリングし、
    そのクラスタリングの結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う
    ステップを含むプログラム。
JP2006258374A 2006-09-25 2006-09-25 画像処理装置および方法、並びにプログラム Expired - Fee Related JP4697106B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006258374A JP4697106B2 (ja) 2006-09-25 2006-09-25 画像処理装置および方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006258374A JP4697106B2 (ja) 2006-09-25 2006-09-25 画像処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2008077536A true JP2008077536A (ja) 2008-04-03
JP4697106B2 JP4697106B2 (ja) 2011-06-08

Family

ID=39349500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006258374A Expired - Fee Related JP4697106B2 (ja) 2006-09-25 2006-09-25 画像処理装置および方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP4697106B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003021A (ja) * 2008-06-18 2010-01-07 Sony Corp 画像処理装置、画像処理方法およびプログラム
JP2010009517A (ja) * 2008-06-30 2010-01-14 Canon Inc パターン検出器の学習装置、学習方法及びプログラム
JP2010103765A (ja) * 2008-10-23 2010-05-06 Toshiba Corp 電子機器および映像処理方法
JP2010250556A (ja) * 2009-04-15 2010-11-04 Toshiba Corp 画像処理装置、画像処理方法及びプログラム
KR20110036934A (ko) * 2008-07-14 2011-04-12 구글 인코포레이티드 비디오 컨텐츠 내의 인물들의 자동화된 주석을 위한 방법 및 시스템
JP2014238712A (ja) * 2013-06-07 2014-12-18 三菱電機株式会社 コンテンツ分析装置、コンテンツ分析方法及びコンテンツ分析プログラム
EP2955666A1 (en) 2014-06-12 2015-12-16 Omron Corporation Image recognition device and method for registering feature data in image recognition device
JP2016197371A (ja) * 2015-04-06 2016-11-24 大日本印刷株式会社 識別器生成装置、識別器生成方法、推定装置、推定方法、およびプログラム
JP2017510927A (ja) * 2014-04-11 2017-04-13 ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 基準画像に基づく顔画像検証方法、及び顔画像検証システム
JP2018502340A (ja) * 2015-12-01 2018-01-25 小米科技有限責任公司Xiaomi Inc. ビデオ分類方法および装置
JP2018519573A (ja) * 2015-11-26 2018-07-19 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 人間の顔モデル行列の訓練方法および装置、ならびにストレージ媒体
CN109583354A (zh) * 2018-11-23 2019-04-05 南京极域信息科技有限公司 基于机器学习的学生注意力检测模型
JP2021033664A (ja) * 2019-08-26 2021-03-01 日本放送協会 画像管理装置およびプログラム
CN113486201A (zh) * 2021-06-21 2021-10-08 上海同温层智能科技有限公司 一种卡通人物图像分类处理方法与系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033547A (ja) 2015-08-05 2017-02-09 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2002157592A (ja) * 2000-11-16 2002-05-31 Nippon Telegr & Teleph Corp <Ntt> 人物情報登録方法、装置、人物情報登録プログラムを記録した記録媒体
JP2003346147A (ja) * 2002-05-23 2003-12-05 Nippon Hoso Kyokai <Nhk> 被写体判別方法、被写体判別装置、被写体判別プログラム、及び被写体判別プログラムを記録した記録媒体
JP2005099953A (ja) * 2003-09-22 2005-04-14 Fuji Xerox Co Ltd 画像処理装置、それを備えるオブジェクト追跡システム、画像処理方法及び画像処理プログラム
JP2005148900A (ja) * 2003-11-12 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 画像分類装置、画像分類方法、および、プログラム
JP2006343791A (ja) * 2005-06-07 2006-12-21 Hitachi Ltd 顔画像データベース作成方法
JP2007249588A (ja) * 2006-03-15 2007-09-27 Omron Corp 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2002157592A (ja) * 2000-11-16 2002-05-31 Nippon Telegr & Teleph Corp <Ntt> 人物情報登録方法、装置、人物情報登録プログラムを記録した記録媒体
JP2003346147A (ja) * 2002-05-23 2003-12-05 Nippon Hoso Kyokai <Nhk> 被写体判別方法、被写体判別装置、被写体判別プログラム、及び被写体判別プログラムを記録した記録媒体
JP2005099953A (ja) * 2003-09-22 2005-04-14 Fuji Xerox Co Ltd 画像処理装置、それを備えるオブジェクト追跡システム、画像処理方法及び画像処理プログラム
JP2005148900A (ja) * 2003-11-12 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 画像分類装置、画像分類方法、および、プログラム
JP2006343791A (ja) * 2005-06-07 2006-12-21 Hitachi Ltd 顔画像データベース作成方法
JP2007249588A (ja) * 2006-03-15 2007-09-27 Omron Corp 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027523B2 (en) 2008-06-18 2011-09-27 Sony Corporation Image processing apparatus, image processing method, and program
JP2010003021A (ja) * 2008-06-18 2010-01-07 Sony Corp 画像処理装置、画像処理方法およびプログラム
US8761462B2 (en) 2008-06-18 2014-06-24 Sony Corporation Image processing apparatus, image processing method, and program
JP4577410B2 (ja) * 2008-06-18 2010-11-10 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
US8462998B2 (en) 2008-06-18 2013-06-11 Sony Corporation Image processing apparatus, image processing method, and program
JP2010009517A (ja) * 2008-06-30 2010-01-14 Canon Inc パターン検出器の学習装置、学習方法及びプログラム
KR101640268B1 (ko) * 2008-07-14 2016-07-15 구글 인코포레이티드 비디오 컨텐츠 내의 인물들의 자동화된 주석을 위한 방법 및 시스템
JP2011528150A (ja) * 2008-07-14 2011-11-10 グーグル インコーポレイテッド ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム
KR20110036934A (ko) * 2008-07-14 2011-04-12 구글 인코포레이티드 비디오 컨텐츠 내의 인물들의 자동화된 주석을 위한 방법 및 시스템
JP2010103765A (ja) * 2008-10-23 2010-05-06 Toshiba Corp 電子機器および映像処理方法
US8121349B2 (en) 2008-10-23 2012-02-21 Kabushiki Kaisha Toshiba Electronic apparatus and video processing method
JP4620150B2 (ja) * 2008-10-23 2011-01-26 株式会社東芝 電子機器および映像処理方法
US8428312B2 (en) 2009-04-15 2013-04-23 Kabushiki Kaisha Toshiba Image processing apparatus, image processing method, and storage medium
JP2010250556A (ja) * 2009-04-15 2010-11-04 Toshiba Corp 画像処理装置、画像処理方法及びプログラム
JP2014238712A (ja) * 2013-06-07 2014-12-18 三菱電機株式会社 コンテンツ分析装置、コンテンツ分析方法及びコンテンツ分析プログラム
JP2017510927A (ja) * 2014-04-11 2017-04-13 ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 基準画像に基づく顔画像検証方法、及び顔画像検証システム
US9740934B2 (en) 2014-06-12 2017-08-22 Omron Corporation Image recognition device and method for registering feature data in image recognition device
KR20150143304A (ko) 2014-06-12 2015-12-23 오므론 가부시키가이샤 화상 인식 장치 및 화상 인식 장치에의 특징량 데이터 등록 방법
EP2955666A1 (en) 2014-06-12 2015-12-16 Omron Corporation Image recognition device and method for registering feature data in image recognition device
JP2016197371A (ja) * 2015-04-06 2016-11-24 大日本印刷株式会社 識別器生成装置、識別器生成方法、推定装置、推定方法、およびプログラム
US10395095B2 (en) 2015-11-26 2019-08-27 Tencent Technology (Shenzhen) Company Limited Face model matrix training method and apparatus, and storage medium
US10599913B2 (en) 2015-11-26 2020-03-24 Tencent Technology (Shenzhen) Company Limited Face model matrix training method and apparatus, and storage medium
JP2018519573A (ja) * 2015-11-26 2018-07-19 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 人間の顔モデル行列の訓練方法および装置、ならびにストレージ媒体
JP2018502340A (ja) * 2015-12-01 2018-01-25 小米科技有限責任公司Xiaomi Inc. ビデオ分類方法および装置
KR101952486B1 (ko) * 2015-12-01 2019-02-26 시아오미 아이엔씨. 동영상 분류 방법 및 장치
US10115019B2 (en) 2015-12-01 2018-10-30 Xiaomi Inc. Video categorization method and apparatus, and storage medium
KR20180081637A (ko) * 2015-12-01 2018-07-17 시아오미 아이엔씨. 동영상 분류 방법 및 장치
CN109583354A (zh) * 2018-11-23 2019-04-05 南京极域信息科技有限公司 基于机器学习的学生注意力检测模型
CN109583354B (zh) * 2018-11-23 2023-05-05 南京极域信息科技有限公司 基于机器学习的学生注意力检测系统
JP2021033664A (ja) * 2019-08-26 2021-03-01 日本放送協会 画像管理装置およびプログラム
JP7340992B2 (ja) 2019-08-26 2023-09-08 日本放送協会 画像管理装置およびプログラム
CN113486201A (zh) * 2021-06-21 2021-10-08 上海同温层智能科技有限公司 一种卡通人物图像分类处理方法与系统

Also Published As

Publication number Publication date
JP4697106B2 (ja) 2011-06-08

Similar Documents

Publication Publication Date Title
JP4697106B2 (ja) 画像処理装置および方法、並びにプログラム
AU2022252799B2 (en) System and method for appearance search
Goh et al. Micro-expression recognition: an updated review of current trends, challenges and solutions
Wang et al. A robust and efficient video representation for action recognition
Ejaz et al. Efficient visual attention based framework for extracting key frames from videos
US9176987B1 (en) Automatic face annotation method and system
KR102433393B1 (ko) 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
WO2018192570A1 (zh) 时域动作检测方法和系统、电子设备、计算机存储介质
US20090290791A1 (en) Automatic tracking of people and bodies in video
Shao et al. Transform based spatio-temporal descriptors for human action recognition
Xiang et al. Expression recognition using fuzzy spatio-temporal modeling
Samadiani et al. A multiple feature fusion framework for video emotion recognition in the wild
KR20170082025A (ko) 기계 학습 기반 얼굴 인식을 이용한 저작권을 가진 동영상 식별 장치 및 방법
JP4792471B2 (ja) イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体
Yadav et al. Human Illegal Activity Recognition Based on Deep Learning Techniques
Liu et al. Self-boosted gesture interactive system with ST-Net
e Souza et al. Survey on visual rhythms: A spatio-temporal representation for video sequences
Deotale et al. Optimized hybrid RNN model for human activity recognition in untrimmed video
Dhamecha et al. On frame selection for video face recognition
Chen et al. Soft biometrics integrated multi-target tracking
Ladjailia et al. Encoding human motion for automated activity recognition in surveillance applications
Baran et al. Face recognition for movie character and actor discrimination based on similarity scores
Takahashi et al. An estimator for rating video contents on the basis of a viewer's behavior in typical home environments
Xiang et al. Pose-selective max pooling for measuring similarity
Gagnon et al. Toward an application of content-based video indexing to computer-assisted descriptive video

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110114

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110214

LAPS Cancellation because of no payment of annual fees