JP2011123529A

JP2011123529A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2011123529A
Application number: JP2009278180A
Authority: JP
Inventors: Akifumi Kashiwagi; 暁史柏木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-12-08
Filing date: 2009-12-08
Publication date: 2011-06-23
Also published as: CN102087704A; US20110135152A1

Abstract

【課題】動画像コンテンツの画像上に登場する特定の人物の動きを継続的に追尾する。
【解決手段】顔検出部１３は、フレーム上に存在する人の顔を検出する。顔識別部１４は、検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース１５に照合して、その人物を特定する。人物特定部１６は、顔識別部１４にてその人物を特定できなかった顔について、その顔が検出されたときの音声情報を、人物-音声データベース１７に照合することによって、検出された顔の人物を特定する。人物追尾部１８は、人物が特定された顔の動きを追尾する。音声検出部１９は、顔検出部１３にて顔が検出され、その顔の口が動いているときの音声を抽出する。音声解析部２０は、抽出された音声の周波数分布を算出する。本発明は、人物追尾装置に適用できる。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して追尾できるようにした情報処理装置、情報処理方法、およびプログラムに関する。

従来、動画像上に存在する人などの動体を検出して追尾する動体追尾方法が数多く提案されている。例えば、特許文献１には、動画像上に動体を含む矩形の領域を設け、その矩形の画素値の移動を追尾するようになされている。

また、従来、動画像上に存在する人の顔を検出し、その顔が誰であるのかを特定する顔識別方法が数多く提案されている。具体的には、例えば、検出した顔の特徴量を抽出し、予め用意されている人物とその顔の特徴量が対応付けられたデータベースに照合することにより、検出した顔が誰のものであるのかを特定するようになされている。

上述した動体追尾方法と顔識別方法を組み合わせれば、例えば、動画像コンテンツの画像上に登場する特定の人物の動きを追尾することができる。

特開２００２−２０３２４５号公報

しかしながら、上述した従来の動体追尾方法では、追尾している物体が画像上において物陰に隠れてしまったり、画像が全体的に暗くなったりした場合には追尾している物体を見失ってしまう。よって、このような場合、再び物体を検出して追尾する必要があり、物体を継続的に追尾することができなかった。

また、上述した従来の顔識別方法では、例えば、正面を正視している状態の顔は識別できるものの、同一人物の顔であっても笑い顔、泣き顔などのように表情がついた顔は識別できなかったり、横顔などのように正面以外の方向を向いている顔は識別できなかったりすることがあった。

したがって、上述した動体追尾方法と顔識別方法を組み合わせることにより、動画像コンテンツの画像上に登場する特定の人物の動きを追尾する場合において、同様の問題が生じ得る。

本発明はこのような状況に鑑みてなされたものであり、動画像コンテンツの画像上に登場する顔の人物を特定し、その人物の動きを継続的に追尾できるようにするものである。

本発明の第１の側面である情報処理装置は、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置において、前記動画像コンテンツのフレーム上から人の顔を検出する検出手段と、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第１のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第１の特定手段と、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析手段と、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第１の特定手段によって人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第２のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第２の特定手段とを含む。

本発明の第１の側面である情報処理装置は、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第１の特定手段によって人物が特定された顔に対応する前記音声情報を、特定された人物の人物識別情報に対応付けて前記第２のデータベースに登録する登録手段をさらに含むことができる。

本発明の第１の側面である情報処理装置は、前記動画像コンテンツのフレーム上から検出され、人物が特定された顔の前記フレーム上における位置を追尾する追尾手段をさらに含むことができる。

前記追尾手段は、人の顔が検出されなかった前記フレームに対して、前記顔の位置を推定するようにすることができる。

前記追尾手段は、人の顔が検出されなかった前記フレームに対して、それ以前またはそれ以降の少なくとも一方におけるフレーム上で検出された顔の位置の軌跡に基づいて、前記顔の位置を推定するようにすることができる。

前記追尾手段は、人の顔が検出されなかった前記フレームに対して、その直前のフレーム上で検出された顔に対応する音声情報と、その直後のフレーム上で検出された顔に対応する音声情報との連続性に基づき、前記顔の位置を推定するようにすることができる。

前記音声解析手段は、前記動画像コンテンツのフレーム上から人の顔が検出された期間の前記音声ｖ１を抽出するとともに、前記期間のうちの口が動いている期間の音声ｖ２を抽出し、前記音声ｖ２の前記音声ｖ１に対する差分Ｖをフーリエ変換することによって得られる周波数分布を前記音声情報として生成するようにすることができる。

本発明の第２の側面である情報処理方法は、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の情報処理方法において、前記情報処理装置による、前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第１のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第１の特定ステップと、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第１の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第２のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第２の特定ステップとを含む。

本発明の第１の側面であるプログラムは、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の制御用のプログラムであって、前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第１のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第１の特定ステップと、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第１の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第２のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第２の特定ステップとを含む処理を情報処理装置のコンピュータに実行させる。

本発明の第１の側面においては、動画像コンテンツのフレーム上から人の顔が検出され、検出された顔の特徴量が抽出され、人物識別情報に対応付けて顔の特徴量が登録されている第１のデータベースに照合されることにより、検出された顔に対応する人物が特定される。また、動画像コンテンツのフレーム上から人の顔が検出されたときの音声が解析されて音声情報が生成され、動画像コンテンツのフレーム上から検出された顔のうち、人物が特定されなかった顔に対応する前記音声情報が、人物識別情報に対応付けて音声情報が登録されている第２のデータベースに照合されることにより、検出された顔に対応する人物が特定される。

本発明の一側面によれば、動画像コンテンツの画像上に登場する顔の人物を特定することができる。

本発明を適用した人物追尾装置の構成例を示すブロック図である。人物追尾処理を説明するフローチャートである。音声情報登録処理を説明するフローチャートである。人物-音声データベースの一例を示す図である。音声情報に基づく顔の識別を説明する図である。音声情報の連続性に基づいて人物の位置を推定する処理を説明する図である。音声情報の連続性に基づいてシーンの切れ目を判断する処理を説明する図である。コンピュータの構成例を説明するブロック図である。

以下、発明を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
１．実施の形態
人物追尾装置の構成例
人物追尾装置の動作

＜１．実施の形態＞
［人物追尾装置の構成例］
本発明の実施の形態である人物追尾装置は、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して継続的に追尾するものである。

図１は、本発明の実施の形態である人物追尾装置の構成例を示している。この人物追尾装置１０は、分離部１１、フレームバッファ１２、顔検出部１３、顔識別部１４、人物-顔データベース（ＤＢ）１５、人物特定部１６、人物-音声データベース１７、人物追尾部１８、音声検出部１９、音声解析部２０、および文字情報抽出部２１から構成される。

分離部１１は、人物追尾装置１０に入力される動画像コンテンツ（映像、音声、およびメタデータや字幕等の文字情報を含む）を映像、音声、文字情報に分離する。分離された映像はフレームバッファ１２に、音声は音声検出部１９に、文字情報は文字情報検出部２１に供給される。

フレームバッファ１２は、分離部１１から供給される動画像コンテンツの映像をフレーム単位で一時的に保持する。顔検出部１３は、フレームバッファ１２から映像のフレームを順次取得し、取得したフレーム上に存在する人の顔を検出し、取得したフレームとともに検出結果を顔識別部１４に出力する。また、顔検出部１３は、顔を検出した期間と、その顔の口が動いている（発話している）期間を検出して、検出結果を音声検出部１９に通知する。

顔識別部１４は、フレーム上で検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース１５に照合することにより、検出された顔の人物を特定する（検出された顔がだれのものであるかを識別する）。ただし、顔識別部１４において、識別できない顔があってもよい。

人物-顔データベース１５は、予め機械学習によって作成されたものであり、例えば、テレビジョン番組、映画などの動画像コンテンツに出演し得る芸能人、スポーツ選手、政治家、文化人などの人物識別情報（氏名など）に、その顔の特徴量が対応付けて登録されているものである。

人物特定部１６は、顔検出部１３にて検出され、顔識別部１４にて識別された顔の人物に、その顔が検出されたときの音声情報（音声解析部２０から供給される）を対応付けて人物-音声データベース１７に登録する。さらに、顔識別部１４にて識別された顔の人物に、文字情報抽出部２１にて抽出されたキーワードなども対応付けて人物-音声データベース１７に登録する。

また、人物特定部１６は、顔検出部１３にて検出された顔のうち、顔識別部１４にてその人物を特定できなかった顔について、その顔が検出されたときの音声情報（音声解析部２０から供給される）を、人物-音声データベース１７に照合することによって、検出された顔の人物を特定する。

人物-音声データベース１７は、人物特定部１６からの制御に従い、検出された顔に対して特定された人物の人物識別情報に、音声情報を対応付けて登録する。なお、人物-音声データベース１７の登録内容は、人物特定部１６からの制御に基づくものの他、予め登録しておくようにしてもよいし、さらに外部から登録内容を追加更新できるようにしてもよい。また、この人物-音声データベース１７の登録内容を、他の人物追尾装置１０などに供給できるようにしてもよい。

人物追尾部１８は、各フレームにおいて検出され、人物が特定された顔の動きを追尾する。また、人物追尾部１８は、人の顔が検出されなかったフレームについても、それ以前のフレーム、およびそれ以降のフレームにて検出された顔の位置、および音声情報の連続性に基づいて、検出されなかった顔の位置を推定することにより、顔の追尾を補間する。

音声検出部１９は、分離部１１から供給される動画像コンテンツの音声のうち、顔検出部１３にて顔が検出された期間の音声ｖ１を抽出する。また、音声検出部１９は、顔が検出された期間のうち、その顔の口が動いている期間の音声ｖ２を抽出する。さらに、音声検出部１９は、音声ｖ１に対する音声ｖ２の差分Ｖを演算して音声解析部２０に出力する。

ここで、音声ｖ１は、顔が検出された人物による発話音声が含まれておらず、環境音のみが含まれると考えられる。これに対して、音声ｖ２は、顔が検出された人物による発話音声と環境音とが含まれると考えられる。したがって、これらの差分Ｖは、環境音が除外され、顔が検出された人物による発話音声のみを含むと考えられる。

音声解析部２０は、音声検出部１９から入力された差分Ｖ（＝ｖ２−ｖ１）をフーリエ変換し、その結果得られる差分Ｖ（顔が検出された人物による発話音声）の周波数分布ｆを音声情報として人物特定部１６に出力する。なお、音声解析部２０にて、周波数分布ｆの他、発話音声（差分Ｖ）の抑揚、強度、アクセントなどの変化のパターンを検出するようにし、それらも音声情報に含めて登録するようにしてもよい。

文字情報抽出部２１は、分離部１１から供給される動画像コンテンツの文字情報（動画像コンテンツの概要説明文、字幕、テロップなど）を形態素解析し、その結果から固有名詞を抽出する。この固有名詞には、顔か検出された人物の氏名、役柄名、決まり文句などが含まれると考えられるので、これらをキーワードとして人物特定部１６に供給する。

［人物追尾装置の動作］
次に、人物追尾装置１０による動作に説明する。図２は、人物追尾装置１０による人物追尾処理を説明するフローチャートである。

この人物追尾処理は、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して継続的に追尾するものである。

ステップＳ１において、人物追尾装置１０に動画像コンテンツが入力される。分離部１１は、動画像コンテンツを映像、音声、文字情報に分離し、映像をフレームバッファ１２に、音声を音声検出部１９に、文字情報を文字情報検出部２１に供給する。

ステップＳ２において、顔検出部１３は、フレームバッファ１２から映像のフレームを順次取得し、取得したフレーム上に存在する人の顔を検出し、取得したフレームとともに検出結果を顔識別部１４に出力する。なお、ここでは、正面を正視している顔の他、様々な表情の顔、様々な方向を向いている顔も検出される。なお、ステップＳ２の処理で用いる顔検出技術については、既存の任意のものを採用すればよい。また、顔検出部１３は、顔を検出した期間と、その顔の口が動いている期間を検出して、検出結果を音声検出部１９に通知する。

ステップＳ３において、顔識別部１４は、フレーム上で検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース１５に照合することにより、検出された顔の人物を特定する。

一方、動画像コンテンツの音声については、ステップＳ４において、音声検出部１９が、顔が検出された人物による発話音声に対応する音声を抽出し、音声解析部２０が、抽出された音声に対応する音声情報を取得し、人物特定部１６が、識別された人物に対応付けて音声情報を人物-音声データベース１７に登録する。これにより、例えば、図４に示すように、人物識別情報（Ａさんなどの氏名）に音声情報（周波数分布Ｆ）が対応付けられた人物-音声データベース１７が生成される。

ステップＳ４の処理（以下、音声情報登録処理と称する）に詳述する。図３は、音声情報登録処理を説明するフローチャートである。

ステップＳ２１において、音声検出部１９は、分離部１１から供給される動画像コンテンツの音声のうち、顔検出部１３にて顔が検出された期間の音声ｖ１を抽出する。また、音声検出部１９は、顔が検出された期間のうち、その顔の口が動いている期間の音声ｖ２を抽出する。ステップＳ２２において、音声検出部１９は、音声ｖ１に対する音声ｖ２の差分Ｖを演算して音声解析部２０に出力する。

ステップＳ２３において、音声解析部２０は、音声検出部１９から入力された差分Ｖ（＝ｖ２−ｖ１）をフーリエ変換し、その結果得られる差分Ｖ（顔が検出された人物による発話音声）の周波数分布ｆを音声情報として人物特定部１６に出力する。

ところで、一回の発話音声に対応する周波数分布ｆを、その人物を識別するための音声情報として登録してしまうことは不適切である。そこで、ステップＳ２４において、人物特定部１６は、同一の人物と識別された顔が検出されたときのそれぞれに対応する発話音声（差分Ｖ）の周波数分布ｆを周波数分布群にグループ化し、周波数分布群を平均化するなどして周波数分布Ｆを決定する。そして、ステップＳ２５において、人物特定部１６は、周波数分布Ｆを当該人物の音声情報として人物-音声データベース１５に登録する。

図２に戻り、ステップＳ５において、文字情報抽出部２１は、分離部１１から供給された動画像コンテンツの文字情報を形態素解析して固有名詞を抽出し、キーワードとして人物特定部１６に供給する。人物特定部１６は、入力されたキーワードも、識別された人物に対応付けて人物-音声データベース１７に登録する。

ステップＳ６において、人物特定部１６は、顔検出部１３にて検出された顔のうち、顔識別部１４にてその人物が特定されなかった顔が存在するか否かを判定し、存在すると判定した場合、処理をステップＳ７に進める。ステップＳ７において、人物特定部１６は、顔検出部１３にて検出された顔のうち、その人物が特定されなかった顔について、その顔が検出されたときの音声情報（音声解析部２０から供給される）を、人物-音声データベース１７に照合することによって、検出された顔の人物を特定する。

ここで、ステップＳ６およびＳ７の処理について図５を参照して説明する。

例えば、ステップＳ２にて顔検出部１３により、図５に示す顔２が検出された場合、ステップＳ３にて顔識別部１４により、その顔の特徴量によってその人物がＡさんと識別される。同様に、ステップＳ２にて顔検出部１３により、図５に示す顔４が検出された場合、ステップＳ３にて顔識別部１４により、その顔の特徴量によってその人物がＢさんと識別される。

これに対して、ステップＳ２にて顔検出部１３により、図５に示す顔１が検出された場合、ステップＳ３にて、顔の表情やその向きに起因して、その人物が識別されないことがある。このような場合、ステップＳ７にて、顔１に対応する音声情報が人物-音声データベース１７に照合されて、顔１に対応する音声情報がＢさんの音声情報と類似していれば、顔１の人物がＢさんと識別される。

同様に、ステップＳ２にて顔検出部１３により、図５に示す顔３が検出された場合、ステップＳ３にて、顔の表情や顔の向きに起因して、その人物が識別されないことがある。このような場合、ステップＳ７にて、顔３に対応する音声情報が人物-音声データベース１７に照合されて、顔３に対応する音声情報がＡさんの音声情報と類似していれば、顔３の人物がＡさんと識別される。

なお、当然ながら、検出された顔１の人物がＢさんである識別するためには、Ｂさんの音声情報が予め人物-音声データベース１７に登録されているか、または、その識別を行う前までに、フレーム上で検出された顔がＢさんと識別され、検出されたときの音声情報がＢさんの個人識別情報に対応付けて人物-音声データベース１７に登録されている必要がある。同様に、検出された顔３の人物がＡさんである識別するためには、Ａさんの音声情報が予め人物-音声データベース１７に登録されているか、または、その識別を行う前までに、フレーム上で検出された顔がＡさんと識別され、検出されたときの音声情報がＡさんの個人識別情報に対応付けて人物-音声データベース１７に登録されている必要がある。

図２に戻り、ステップＳ６において、顔検出部１３にて検出された顔のうち、顔識別部１４にてその人物が特定されなかった顔が存在しないと判定された場合、ステップＳ７はスキップされて処理はステップＳ８に進められる。

ステップＳ８において、人物追尾部１８は、ステップＳ２にて各フレームから検出され、ステップＳ３またはステップＳ７にて人物が特定された顔の動きを追尾する。なお、顔だけでなく、認識された顔に連なる身体も含めて追尾するようにしてもよい。

ステップＳ９において、人物追尾部１８は、ステップＳ２にて人の顔が検出されなかったフレームが存在する場合、当該フレームの直前のフレームに対応する音声情報と、当該フレームの直後のフレームに対応する音声情報との類似を判断する。そして、図６に示すように、両者が類似していると判断した場合、当該フレームまでにおいて検出され追尾された顔の軌跡（順方向の軌跡）と、当該フレーム以降において検出され追尾された顔の軌跡（逆方向の軌跡）とをそれぞれ延長し、それらが当該フレーム上において交差する位置を、顔が存在する位置として推定する。

なお、図７に示すように、当該フレームの前後のフレームにそれぞれ対応する音声情報が類似していないと判断された場合、当該フレームを境としたシーンの切れ目（シーンチャンジ）が存在するものと判断する。この場合、当該フレームまでにおいて検出され追尾された顔の軌跡（順方向の軌跡）を当該フレーム上に延長した位置を、顔が存在する位置として推定する。以上で、人物追尾処理は終了される。

以上に説明した人物追尾処理を用いれば、動画像において、特定の人物を追尾することができる。さらに、その特定が画面上において物陰に隠れたりしても、その位置を推定することができる。

すなわち、人物追尾処理を用いれば、画面上における特定の人物の位置を常に把握することができるので、例えば、動画像コンテンツの画面上に登場する人物をカーソルによりクリックすると、その人物の情報が表示されるようなアプリケーションに適用することができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ１００において、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータ１００では、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５およびバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０人物追尾装置，１１分離部, １２フレームバッファ，１３顔検出部，１４顔識別部，１５人物-顔データベース，１６人物特定部，１７人物-音声データベース，１８人物追尾部，１９音声検出部，２０音声解析部，２１文字情報抽出部

Claims

音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置において、
前記動画像コンテンツのフレーム上から人の顔を検出する検出手段と、
検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第１のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第１の特定手段と、
前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析手段と、
前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第１の特定手段によって人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第２のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第２の特定手段と
を含む情報処理装置。
前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第１の特定手段によって人物が特定された顔に対応する前記音声情報を、特定された人物の人物識別情報に対応付けて前記第２のデータベースに登録する登録手段を
さらに含む請求項１に記載の情報処理装置。
前記動画像コンテンツのフレーム上から検出され、人物が特定された顔の前記フレーム上における位置を追尾する追尾手段を
さらに含む請求項１または２に記載の情報処理装置。
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、前記顔の位置を推定する
請求項３に記載の情報処理装置。
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、それ以前またはそれ以降の少なくとも一方におけるフレーム上で検出された顔の位置の軌跡に基づいて、前記顔の位置を推定する
請求項４に記載の情報処理装置。
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、その直前のフレーム上で検出された顔に対応する音声情報と、その直後のフレーム上で検出された顔に対応する音声情報との連続性に基づき、前記顔の位置を推定する
請求項５に記載の情報処理装置。
前記音声解析手段は、前記動画像コンテンツのフレーム上から人の顔が検出された期間の前記音声ｖ１を抽出するとともに、前記期間のうちの口が動いている期間の音声ｖ２を抽出し、前記音声ｖ２の前記音声ｖ１に対する差分Ｖをフーリエ変換することによって得られる周波数分布を前記音声情報として生成する
請求項１乃至６に記載の情報処理装置。
音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の情報処理方法において、
前記情報処理装置による、
前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、
検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第１のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第１の特定ステップと、
前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、
前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第１の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第２のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第２の特定ステップと
を含む情報処理方法。
音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の制御用のプログラムであって、
前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、
検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第１のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第１の特定ステップと、
前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、
前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第１の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第２のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第２の特定ステップと
を含む処理を情報処理装置のコンピュータに実行させるプログラム。