JP2011123529A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2011123529A
JP2011123529A JP2009278180A JP2009278180A JP2011123529A JP 2011123529 A JP2011123529 A JP 2011123529A JP 2009278180 A JP2009278180 A JP 2009278180A JP 2009278180 A JP2009278180 A JP 2009278180A JP 2011123529 A JP2011123529 A JP 2011123529A
Authority
JP
Japan
Prior art keywords
face
person
detected
frame
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009278180A
Other languages
English (en)
Inventor
Akifumi Kashiwagi
暁史 柏木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009278180A priority Critical patent/JP2011123529A/ja
Priority to US12/952,679 priority patent/US20110135152A1/en
Priority to CN2010105781767A priority patent/CN102087704A/zh
Publication of JP2011123529A publication Critical patent/JP2011123529A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

【課題】動画像コンテンツの画像上に登場する特定の人物の動きを継続的に追尾する。
【解決手段】顔検出部13は、フレーム上に存在する人の顔を検出する。顔識別部14は、検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース15に照合して、その人物を特定する。人物特定部16は、顔識別部14にてその人物を特定できなかった顔について、その顔が検出されたときの音声情報を、人物-音声データベース17に照合することによって、検出された顔の人物を特定する。人物追尾部18は、人物が特定された顔の動きを追尾する。音声検出部19は、顔検出部13にて顔が検出され、その顔の口が動いているときの音声を抽出する。音声解析部20は、抽出された音声の周波数分布を算出する。本発明は、人物追尾装置に適用できる。
【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して追尾できるようにした情報処理装置、情報処理方法、およびプログラムに関する。
従来、動画像上に存在する人などの動体を検出して追尾する動体追尾方法が数多く提案されている。例えば、特許文献1には、動画像上に動体を含む矩形の領域を設け、その矩形の画素値の移動を追尾するようになされている。
また、従来、動画像上に存在する人の顔を検出し、その顔が誰であるのかを特定する顔識別方法が数多く提案されている。具体的には、例えば、検出した顔の特徴量を抽出し、予め用意されている人物とその顔の特徴量が対応付けられたデータベースに照合することにより、検出した顔が誰のものであるのかを特定するようになされている。
上述した動体追尾方法と顔識別方法を組み合わせれば、例えば、動画像コンテンツの画像上に登場する特定の人物の動きを追尾することができる。
特開2002−203245号公報
しかしながら、上述した従来の動体追尾方法では、追尾している物体が画像上において物陰に隠れてしまったり、画像が全体的に暗くなったりした場合には追尾している物体を見失ってしまう。よって、このような場合、再び物体を検出して追尾する必要があり、物体を継続的に追尾することができなかった。
また、上述した従来の顔識別方法では、例えば、正面を正視している状態の顔は識別できるものの、同一人物の顔であっても笑い顔、泣き顔などのように表情がついた顔は識別できなかったり、横顔などのように正面以外の方向を向いている顔は識別できなかったりすることがあった。
したがって、上述した動体追尾方法と顔識別方法を組み合わせることにより、動画像コンテンツの画像上に登場する特定の人物の動きを追尾する場合において、同様の問題が生じ得る。
本発明はこのような状況に鑑みてなされたものであり、動画像コンテンツの画像上に登場する顔の人物を特定し、その人物の動きを継続的に追尾できるようにするものである。
本発明の第1の側面である情報処理装置は、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置において、前記動画像コンテンツのフレーム上から人の顔を検出する検出手段と、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定手段と、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析手段と、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定手段によって人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定手段とを含む。
本発明の第1の側面である情報処理装置は、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定手段によって人物が特定された顔に対応する前記音声情報を、特定された人物の人物識別情報に対応付けて前記第2のデータベースに登録する登録手段をさらに含むことができる。
本発明の第1の側面である情報処理装置は、前記動画像コンテンツのフレーム上から検出され、人物が特定された顔の前記フレーム上における位置を追尾する追尾手段をさらに含むことができる。
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、前記顔の位置を推定するようにすることができる。
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、それ以前またはそれ以降の少なくとも一方におけるフレーム上で検出された顔の位置の軌跡に基づいて、前記顔の位置を推定するようにすることができる。
前記追尾手段は、人の顔が検出されなかった前記フレームに対して、その直前のフレーム上で検出された顔に対応する音声情報と、その直後のフレーム上で検出された顔に対応する音声情報との連続性に基づき、前記顔の位置を推定するようにすることができる。
前記音声解析手段は、前記動画像コンテンツのフレーム上から人の顔が検出された期間の前記音声v1を抽出するとともに、前記期間のうちの口が動いている期間の音声v2を抽出し、前記音声v2の前記音声v1に対する差分Vをフーリエ変換することによって得られる周波数分布を前記音声情報として生成するようにすることができる。
本発明の第2の側面である情報処理方法は、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の情報処理方法において、前記情報処理装置による、前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定ステップと、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定ステップとを含む。
本発明の第1の側面であるプログラムは、音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の制御用のプログラムであって、前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定ステップと、前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定ステップとを含む処理を情報処理装置のコンピュータに実行させる。
本発明の第1の側面においては、動画像コンテンツのフレーム上から人の顔が検出され、検出された顔の特徴量が抽出され、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合されることにより、検出された顔に対応する人物が特定される。また、動画像コンテンツのフレーム上から人の顔が検出されたときの音声が解析されて音声情報が生成され、動画像コンテンツのフレーム上から検出された顔のうち、人物が特定されなかった顔に対応する前記音声情報が、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合されることにより、検出された顔に対応する人物が特定される。
本発明の一側面によれば、動画像コンテンツの画像上に登場する顔の人物を特定することができる。
本発明を適用した人物追尾装置の構成例を示すブロック図である。 人物追尾処理を説明するフローチャートである。 音声情報登録処理を説明するフローチャートである。 人物-音声データベースの一例を示す図である。 音声情報に基づく顔の識別を説明する図である。 音声情報の連続性に基づいて人物の位置を推定する処理を説明する図である。 音声情報の連続性に基づいてシーンの切れ目を判断する処理を説明する図である。 コンピュータの構成例を説明するブロック図である。
以下、発明を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
1.実施の形態
人物追尾装置の構成例
人物追尾装置の動作
<1.実施の形態>
[人物追尾装置の構成例]
本発明の実施の形態である人物追尾装置は、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して継続的に追尾するものである。
図1は、本発明の実施の形態である人物追尾装置の構成例を示している。この人物追尾装置10は、分離部11、フレームバッファ12、顔検出部13、顔識別部14、人物-顔データベース(DB)15、人物特定部16、人物-音声データベース17、人物追尾部18、音声検出部19、音声解析部20、および文字情報抽出部21から構成される。
分離部11は、人物追尾装置10に入力される動画像コンテンツ(映像、音声、およびメタデータや字幕等の文字情報を含む)を映像、音声、文字情報に分離する。分離された映像はフレームバッファ12に、音声は音声検出部19に、文字情報は文字情報検出部21に供給される。
フレームバッファ12は、分離部11から供給される動画像コンテンツの映像をフレーム単位で一時的に保持する。顔検出部13は、フレームバッファ12から映像のフレームを順次取得し、取得したフレーム上に存在する人の顔を検出し、取得したフレームとともに検出結果を顔識別部14に出力する。また、顔検出部13は、顔を検出した期間と、その顔の口が動いている(発話している)期間を検出して、検出結果を音声検出部19に通知する。
顔識別部14は、フレーム上で検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース15に照合することにより、検出された顔の人物を特定する(検出された顔がだれのものであるかを識別する)。ただし、顔識別部14において、識別できない顔があってもよい。
人物-顔データベース15は、予め機械学習によって作成されたものであり、例えば、テレビジョン番組、映画などの動画像コンテンツに出演し得る芸能人、スポーツ選手、政治家、文化人などの人物識別情報(氏名など)に、その顔の特徴量が対応付けて登録されているものである。
人物特定部16は、顔検出部13にて検出され、顔識別部14にて識別された顔の人物に、その顔が検出されたときの音声情報(音声解析部20から供給される)を対応付けて人物-音声データベース17に登録する。さらに、顔識別部14にて識別された顔の人物に、文字情報抽出部21にて抽出されたキーワードなども対応付けて人物-音声データベース17に登録する。
また、人物特定部16は、顔検出部13にて検出された顔のうち、顔識別部14にてその人物を特定できなかった顔について、その顔が検出されたときの音声情報(音声解析部20から供給される)を、人物-音声データベース17に照合することによって、検出された顔の人物を特定する。
人物-音声データベース17は、人物特定部16からの制御に従い、検出された顔に対して特定された人物の人物識別情報に、音声情報を対応付けて登録する。なお、人物-音声データベース17の登録内容は、人物特定部16からの制御に基づくものの他、予め登録しておくようにしてもよいし、さらに外部から登録内容を追加更新できるようにしてもよい。また、この人物-音声データベース17の登録内容を、他の人物追尾装置10などに供給できるようにしてもよい。
人物追尾部18は、各フレームにおいて検出され、人物が特定された顔の動きを追尾する。また、人物追尾部18は、人の顔が検出されなかったフレームについても、それ以前のフレーム、およびそれ以降のフレームにて検出された顔の位置、および音声情報の連続性に基づいて、検出されなかった顔の位置を推定することにより、顔の追尾を補間する。
音声検出部19は、分離部11から供給される動画像コンテンツの音声のうち、顔検出部13にて顔が検出された期間の音声v1を抽出する。また、音声検出部19は、顔が検出された期間のうち、その顔の口が動いている期間の音声v2を抽出する。さらに、音声検出部19は、音声v1に対する音声v2の差分Vを演算して音声解析部20に出力する。
ここで、音声v1は、顔が検出された人物による発話音声が含まれておらず、環境音のみが含まれると考えられる。これに対して、音声v2は、顔が検出された人物による発話音声と環境音とが含まれると考えられる。したがって、これらの差分Vは、環境音が除外され、顔が検出された人物による発話音声のみを含むと考えられる。
音声解析部20は、音声検出部19から入力された差分V(=v2−v1)をフーリエ変換し、その結果得られる差分V(顔が検出された人物による発話音声)の周波数分布fを音声情報として人物特定部16に出力する。なお、音声解析部20にて、周波数分布fの他、発話音声(差分V)の抑揚、強度、アクセントなどの変化のパターンを検出するようにし、それらも音声情報に含めて登録するようにしてもよい。
文字情報抽出部21は、分離部11から供給される動画像コンテンツの文字情報(動画像コンテンツの概要説明文、字幕、テロップなど)を形態素解析し、その結果から固有名詞を抽出する。この固有名詞には、顔か検出された人物の氏名、役柄名、決まり文句などが含まれると考えられるので、これらをキーワードとして人物特定部16に供給する。
[人物追尾装置の動作]
次に、人物追尾装置10による動作に説明する。図2は、人物追尾装置10による人物追尾処理を説明するフローチャートである。
この人物追尾処理は、音声を伴う動画像コンテンツの画像上から人の顔を検出し、その人物を識別して継続的に追尾するものである。
ステップS1において、人物追尾装置10に動画像コンテンツが入力される。分離部11は、動画像コンテンツを映像、音声、文字情報に分離し、映像をフレームバッファ12に、音声を音声検出部19に、文字情報を文字情報検出部21に供給する。
ステップS2において、顔検出部13は、フレームバッファ12から映像のフレームを順次取得し、取得したフレーム上に存在する人の顔を検出し、取得したフレームとともに検出結果を顔識別部14に出力する。なお、ここでは、正面を正視している顔の他、様々な表情の顔、様々な方向を向いている顔も検出される。なお、ステップS2の処理で用いる顔検出技術については、既存の任意のものを採用すればよい。また、顔検出部13は、顔を検出した期間と、その顔の口が動いている期間を検出して、検出結果を音声検出部19に通知する。
ステップS3において、顔識別部14は、フレーム上で検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース15に照合することにより、検出された顔の人物を特定する。
一方、動画像コンテンツの音声については、ステップS4において、音声検出部19が、顔が検出された人物による発話音声に対応する音声を抽出し、音声解析部20が、抽出された音声に対応する音声情報を取得し、人物特定部16が、識別された人物に対応付けて音声情報を人物-音声データベース17に登録する。これにより、例えば、図4に示すように、人物識別情報(Aさんなどの氏名)に音声情報(周波数分布F)が対応付けられた人物-音声データベース17が生成される。
ステップS4の処理(以下、音声情報登録処理と称する)に詳述する。図3は、音声情報登録処理を説明するフローチャートである。
ステップS21において、音声検出部19は、分離部11から供給される動画像コンテンツの音声のうち、顔検出部13にて顔が検出された期間の音声v1を抽出する。また、音声検出部19は、顔が検出された期間のうち、その顔の口が動いている期間の音声v2を抽出する。ステップS22において、音声検出部19は、音声v1に対する音声v2の差分Vを演算して音声解析部20に出力する。
ステップS23において、音声解析部20は、音声検出部19から入力された差分V(=v2−v1)をフーリエ変換し、その結果得られる差分V(顔が検出された人物による発話音声)の周波数分布fを音声情報として人物特定部16に出力する。
ところで、一回の発話音声に対応する周波数分布fを、その人物を識別するための音声情報として登録してしまうことは不適切である。そこで、ステップS24において、人物特定部16は、同一の人物と識別された顔が検出されたときのそれぞれに対応する発話音声(差分V)の周波数分布fを周波数分布群にグループ化し、周波数分布群を平均化するなどして周波数分布Fを決定する。そして、ステップS25において、人物特定部16は、周波数分布Fを当該人物の音声情報として人物-音声データベース15に登録する。
図2に戻り、ステップS5において、文字情報抽出部21は、分離部11から供給された動画像コンテンツの文字情報を形態素解析して固有名詞を抽出し、キーワードとして人物特定部16に供給する。人物特定部16は、入力されたキーワードも、識別された人物に対応付けて人物-音声データベース17に登録する。
ステップS6において、人物特定部16は、顔検出部13にて検出された顔のうち、顔識別部14にてその人物が特定されなかった顔が存在するか否かを判定し、存在すると判定した場合、処理をステップS7に進める。ステップS7において、人物特定部16は、顔検出部13にて検出された顔のうち、その人物が特定されなかった顔について、その顔が検出されたときの音声情報(音声解析部20から供給される)を、人物-音声データベース17に照合することによって、検出された顔の人物を特定する。
ここで、ステップS6およびS7の処理について図5を参照して説明する。
例えば、ステップS2にて顔検出部13により、図5に示す顔2が検出された場合、ステップS3にて顔識別部14により、その顔の特徴量によってその人物がAさんと識別される。同様に、ステップS2にて顔検出部13により、図5に示す顔4が検出された場合、ステップS3にて顔識別部14により、その顔の特徴量によってその人物がBさんと識別される。
これに対して、ステップS2にて顔検出部13により、図5に示す顔1が検出された場合、ステップS3にて、顔の表情やその向きに起因して、その人物が識別されないことがある。このような場合、ステップS7にて、顔1に対応する音声情報が人物-音声データベース17に照合されて、顔1に対応する音声情報がBさんの音声情報と類似していれば、顔1の人物がBさんと識別される。
同様に、ステップS2にて顔検出部13により、図5に示す顔3が検出された場合、ステップS3にて、顔の表情や顔の向きに起因して、その人物が識別されないことがある。このような場合、ステップS7にて、顔3に対応する音声情報が人物-音声データベース17に照合されて、顔3に対応する音声情報がAさんの音声情報と類似していれば、顔3の人物がAさんと識別される。
なお、当然ながら、検出された顔1の人物がBさんである識別するためには、Bさんの音声情報が予め人物-音声データベース17に登録されているか、または、その識別を行う前までに、フレーム上で検出された顔がBさんと識別され、検出されたときの音声情報がBさんの個人識別情報に対応付けて人物-音声データベース17に登録されている必要がある。同様に、検出された顔3の人物がAさんである識別するためには、Aさんの音声情報が予め人物-音声データベース17に登録されているか、または、その識別を行う前までに、フレーム上で検出された顔がAさんと識別され、検出されたときの音声情報がAさんの個人識別情報に対応付けて人物-音声データベース17に登録されている必要がある。
図2に戻り、ステップS6において、顔検出部13にて検出された顔のうち、顔識別部14にてその人物が特定されなかった顔が存在しないと判定された場合、ステップS7はスキップされて処理はステップS8に進められる。
ステップS8において、人物追尾部18は、ステップS2にて各フレームから検出され、ステップS3またはステップS7にて人物が特定された顔の動きを追尾する。なお、顔だけでなく、認識された顔に連なる身体も含めて追尾するようにしてもよい。
ステップS9において、人物追尾部18は、ステップS2にて人の顔が検出されなかったフレームが存在する場合、当該フレームの直前のフレームに対応する音声情報と、当該フレームの直後のフレームに対応する音声情報との類似を判断する。そして、図6に示すように、両者が類似していると判断した場合、当該フレームまでにおいて検出され追尾された顔の軌跡(順方向の軌跡)と、当該フレーム以降において検出され追尾された顔の軌跡(逆方向の軌跡)とをそれぞれ延長し、それらが当該フレーム上において交差する位置を、顔が存在する位置として推定する。
なお、図7に示すように、当該フレームの前後のフレームにそれぞれ対応する音声情報が類似していないと判断された場合、当該フレームを境としたシーンの切れ目(シーンチャンジ)が存在するものと判断する。この場合、当該フレームまでにおいて検出され追尾された顔の軌跡(順方向の軌跡)を当該フレーム上に延長した位置を、顔が存在する位置として推定する。以上で、人物追尾処理は終了される。
以上に説明した人物追尾処理を用いれば、動画像において、特定の人物を追尾することができる。さらに、その特定が画面上において物陰に隠れたりしても、その位置を推定することができる。
すなわち、人物追尾処理を用いれば、画面上における特定の人物の位置を常に把握することができるので、例えば、動画像コンテンツの画面上に登場する人物をカーソルによりクリックすると、その人物の情報が表示されるようなアプリケーションに適用することができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
10 人物追尾装置, 11 分離部, 12 フレームバッファ, 13 顔検出部, 14 顔識別部, 15 人物-顔データベース, 16 人物特定部, 17 人物-音声データベース, 18 人物追尾部, 19 音声検出部, 20 音声解析部, 21 文字情報抽出部

Claims (9)

  1. 音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置において、
    前記動画像コンテンツのフレーム上から人の顔を検出する検出手段と、
    検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定手段と、
    前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析手段と、
    前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定手段によって人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定手段と
    を含む情報処理装置。
  2. 前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定手段によって人物が特定された顔に対応する前記音声情報を、特定された人物の人物識別情報に対応付けて前記第2のデータベースに登録する登録手段を
    さらに含む請求項1に記載の情報処理装置。
  3. 前記動画像コンテンツのフレーム上から検出され、人物が特定された顔の前記フレーム上における位置を追尾する追尾手段を
    さらに含む請求項1または2に記載の情報処理装置。
  4. 前記追尾手段は、人の顔が検出されなかった前記フレームに対して、前記顔の位置を推定する
    請求項3に記載の情報処理装置。
  5. 前記追尾手段は、人の顔が検出されなかった前記フレームに対して、それ以前またはそれ以降の少なくとも一方におけるフレーム上で検出された顔の位置の軌跡に基づいて、前記顔の位置を推定する
    請求項4に記載の情報処理装置。
  6. 前記追尾手段は、人の顔が検出されなかった前記フレームに対して、その直前のフレーム上で検出された顔に対応する音声情報と、その直後のフレーム上で検出された顔に対応する音声情報との連続性に基づき、前記顔の位置を推定する
    請求項5に記載の情報処理装置。
  7. 前記音声解析手段は、前記動画像コンテンツのフレーム上から人の顔が検出された期間の前記音声v1を抽出するとともに、前記期間のうちの口が動いている期間の音声v2を抽出し、前記音声v2の前記音声v1に対する差分Vをフーリエ変換することによって得られる周波数分布を前記音声情報として生成する
    請求項1乃至6に記載の情報処理装置。
  8. 音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の情報処理方法において、
    前記情報処理装置による、
    前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、
    検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定ステップと、
    前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、
    前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定ステップと
    を含む情報処理方法。
  9. 音声を伴う動画像コンテンツに登場する人物を識別する情報処理装置の制御用のプログラムであって、
    前記動画像コンテンツのフレーム上から人の顔を検出する検出ステップと、
    検出された前記顔の特徴量を抽出し、抽出した前記特徴量を、人物識別情報に対応付けて顔の特徴量が登録されている第1のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第1の特定ステップと、
    前記動画像コンテンツのフレーム上から人の顔が検出されたときの前記音声を解析して音声情報を生成する音声解析ステップと、
    前記動画像コンテンツのフレーム上から検出された前記顔のうち、前記第1の特定ステップの処理で人物が特定されなかった顔に対応する前記音声情報を、人物識別情報に対応付けて音声情報が登録されている第2のデータベースに照合することにより、検出された前記顔に対応する人物を特定する第2の特定ステップと
    を含む処理を情報処理装置のコンピュータに実行させるプログラム。
JP2009278180A 2009-12-08 2009-12-08 情報処理装置、情報処理方法、およびプログラム Withdrawn JP2011123529A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009278180A JP2011123529A (ja) 2009-12-08 2009-12-08 情報処理装置、情報処理方法、およびプログラム
US12/952,679 US20110135152A1 (en) 2009-12-08 2010-11-23 Information processing apparatus, information processing method, and program
CN2010105781767A CN102087704A (zh) 2009-12-08 2010-12-01 信息处理装置、信息处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009278180A JP2011123529A (ja) 2009-12-08 2009-12-08 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2011123529A true JP2011123529A (ja) 2011-06-23

Family

ID=44082049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009278180A Withdrawn JP2011123529A (ja) 2009-12-08 2009-12-08 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20110135152A1 (ja)
JP (1) JP2011123529A (ja)
CN (1) CN102087704A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111807173A (zh) * 2020-06-18 2020-10-23 浙江大华技术股份有限公司 基于深度学习的电梯控制方法、电子设备及存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779305B2 (en) * 2012-04-05 2017-10-03 Panasonic Intellectual Property Corporation Of America Video analyzing device, video analyzing method, program, and integrated circuit
US9070024B2 (en) * 2012-07-23 2015-06-30 International Business Machines Corporation Intelligent biometric identification of a participant associated with a media recording
US20140125456A1 (en) * 2012-11-08 2014-05-08 Honeywell International Inc. Providing an identity
CN102945366B (zh) * 2012-11-23 2016-12-21 海信集团有限公司 一种人脸识别的方法及装置
JP2015130070A (ja) * 2014-01-07 2015-07-16 富士通株式会社 検出プログラム、検出方法および検出装置
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
US10275671B1 (en) * 2015-07-14 2019-04-30 Wells Fargo Bank, N.A. Validating identity and/or location from video and/or audio
EP3345127A4 (en) * 2015-08-31 2019-08-21 SRI International METHOD AND SYSTEM FOR MONITORING DRIVING BEHAVIORS
CN105260642A (zh) * 2015-10-30 2016-01-20 宁波萨瑞通讯有限公司 一种隐私保护方法及移动终端
WO2017080875A1 (en) 2015-11-10 2017-05-18 Koninklijke Philips N.V. Adaptive light source
CN106874827A (zh) * 2015-12-14 2017-06-20 北京奇虎科技有限公司 视频识别方法和装置
CN106603919A (zh) * 2016-12-21 2017-04-26 捷开通讯(深圳)有限公司 调整拍摄对焦的方法及终端
CN108364663A (zh) * 2018-01-02 2018-08-03 山东浪潮商用系统有限公司 一种自动录制人声的方法及模块
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11188775B2 (en) 2019-12-23 2021-11-30 Motorola Solutions, Inc. Using a sensor hub to generate a tracking profile for tracking an object
CN111432115B (zh) * 2020-03-12 2021-12-10 浙江大华技术股份有限公司 基于声音辅助定位的人脸追踪方法、终端及存储装置
CN113160853A (zh) * 2021-03-31 2021-07-23 深圳鱼亮科技有限公司 一种基于实时人脸辅助的语音端点检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7439847B2 (en) * 2002-08-23 2008-10-21 John C. Pederson Intelligent observation and identification database system
WO2002072317A1 (fr) * 2001-03-09 2002-09-19 Japan Science And Technology Corporation Systeme de robot audiovisuel
US6959099B2 (en) * 2001-12-06 2005-10-25 Koninklijke Philips Electronics N.V. Method and apparatus for automatic face blurring
US20060140445A1 (en) * 2004-03-22 2006-06-29 Cusack Francis J Jr Method and apparatus for capturing digital facial images optimally suited for manual and automated recognition
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
CN101075868B (zh) * 2006-05-19 2010-05-12 华为技术有限公司 一种远程身份认证的系统、终端、服务器和方法
CN101520838A (zh) * 2008-02-27 2009-09-02 中国科学院自动化研究所 自动跟踪和自动变焦的虹膜图像获取方法
US8130282B2 (en) * 2008-03-31 2012-03-06 Panasonic Corporation Image capture device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111807173A (zh) * 2020-06-18 2020-10-23 浙江大华技术股份有限公司 基于深度学习的电梯控制方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN102087704A (zh) 2011-06-08
US20110135152A1 (en) 2011-06-09

Similar Documents

Publication Publication Date Title
JP2011123529A (ja) 情報処理装置、情報処理方法、およびプログラム
US10733230B2 (en) Automatic creation of metadata for video contents by in cooperating video and script data
Chung et al. Out of time: automated lip sync in the wild
US10109277B2 (en) Methods and apparatus for speech recognition using visual information
JP5049117B2 (ja) 音声および映像ソースデータを分離および評価する技術
US7920761B2 (en) Multimodal identification and tracking of speakers in video
US10460732B2 (en) System and method to insert visual subtitles in videos
CN112088402A (zh) 用于说话者识别的联合神经网络
KR20190069920A (ko) 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
JP4697106B2 (ja) 画像処理装置および方法、並びにプログラム
US7046300B2 (en) Assessing consistency between facial motion and speech signals in video
JP2007156493A (ja) 音声区間検出装置及び方法並びに音声認識システム
JP2006500858A (ja) 合成された映像及び音声サインを介した拡張コマーシャル検出
CN103488764A (zh) 个性化视频内容推荐方法和系统
Ponce-López et al. Multi-modal social signal analysis for predicting agreement in conversation settings
WO2017107345A1 (zh) 一种图像处理方法及装置
Kim et al. Look who's talking: Active speaker detection in the wild
US20130218570A1 (en) Apparatus and method for correcting speech, and non-transitory computer readable medium thereof
Friedland et al. Dialocalization: Acoustic speaker diarization and visual localization as joint optimization problem
Tapu et al. DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people
Paul et al. A conditional random field approach for audio-visual people diarization
Friedland et al. Visual speaker localization aided by acoustic models
CN112567416A (zh) 用于处理数字视频的设备及方法
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
KR20150096204A (ko) 멀티미디어 분류, 분석, 그리고 태깅을 위한 대본과 영상 동기화 장치 및 방법

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130305