JP4439523B2

JP4439523B2 - 登場物推定装置及び方法、並びにコンピュータプログラム

Info

Publication number: JP4439523B2
Application number: JP2006535776A
Authority: JP
Inventors: 直人伊藤
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2004-09-09
Filing date: 2005-09-07
Publication date: 2010-03-24
Anticipated expiration: 2025-09-07
Also published as: WO2006028116A1; EP1802115A1; JPWO2006028116A1; CN101015206A; US7974440B2; US20080002064A1

Description

本発明は、登場物推定装置及び方法、並びにコンピュータプログラムの技術分野に関する。

例えば、ドラマや映画などの映像番組を録画して視聴する場合に、所望のシーンのみを再生するための装置が提案されている（例えば、特許文献１参照）。

特許文献１に開示されたインデックス配信装置（以下、「従来の技術」と称する）によれば、録画装置が放送番組を録画すると同時に、その番組中に現れる各シーンの発生時刻や内容を示す情報であるシーンインデックスが作成され、録画装置に配信される。録画装置の利用者は、この配信されたシーンインデックスに基づいて、録画した番組の中から所望のシーンのみを選択的に再生することが可能であるとされている。

特開２００２−２６２２２４号公報

しかしながら、係る従来の技術は、以下に示す問題点を有する。

従来の技術においては、シーンインデックスは、係員が放送番組を視聴しながらシーンインデックス配信装置に然るべきシーンインデックスを入力することによって作成されている。即ち、従来の技術は、放送番組毎に係員によるシーンインデックスの入力を必要とするため、肉体的、精神的、及び経済的に莫大な負荷が生じ、極めて非現実的であるという技術的な問題点を有している。

また、このような莫大な負荷を軽減するために、顔認識技術などを使用して、映像の幾何学的な特徴から人物の顔を識別し、登場人物などを特定することによって、自動的に映像の内容を記録する手法がある。しかしながら、このような顔認識技術では、例えば、顔が横向きに表示される人間は誰であるか特定できないなど、特定精度が著しく低く、映像の登場人物を実用的に特定することは困難である。

更に、映像中に登場人物の姿が現れていない場合で、その登場人物の声のみが流れている場合などは、例え一連のストーリであっても、その登場人物を特定することは著しく困難であると言える。

本発明は、例えば、上述した問題点に鑑みてなされたものであり、映像に登場する登場物の特定精度を向上させ得る登場物推定装置及び方法、並びにコンピュータプログラムを提供することを課題とする。

＜登場物推定装置＞
本発明の登場物推定装置は上記課題を解決するために、記録された映像に登場する登場物を推定するための登場物推定装置であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを取得するデータ取得手段と、前記取得された統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定手段とを具備する。

本発明において、「映像」とは、例えば、ドラマ、映画、スポーツ、アニメ、料理、音楽、又は情報など多様なジャンルに属する地上波放送、衛星放送、又はケーブルテレビ放送などの各種放送に係る番組に関する、アナログ又はデジタル方式の映像を指し、好適には、例えば地上波デジタル放送などのデジタル放送番組に関する映像を指す。或いは、デジタルビデオカメラなどで撮影された個人的な映像又は特定の目的を有する映像を指す。

また、このような映像における「登場物」とは、即ち、このような各種ジャンルの映像に対応した、例えば、ドラマや映画に登場する人物、動物若しくは何らかの物体、スポーツ選手、アニメのキャラクター、料理人、歌手、又はニュースキャスタなどを指し、映像に登場するもの全てを含む概念である。

また、本発明において「登場」とは、例えば、人物を例に取った場合、映像中に登場人物の姿が現れている状態を指すに限らず、映像中に姿が現れていなくとも、その登場人物の声や登場人物から発せられる音などが含まれている状態も含む。即ち、視聴者に対し、登場物の存在を連想させるような場合も含まれる概念である。

このような映像をリアルタイムではなく、予め、例えばＤＶＤ録画装置やＨＤ録画装置などの、比較的映像の編集が容易なデジタル映像記録装置に録画して視聴する際には、例えば、所望する登場物のみを視聴したいという要求が自然と生じ得る。より具体的には、例えば、あるドラマ番組に関し、「俳優○と女優×の二人の場面が観たい」といった要求が生じ得る。この際、例えば、視聴者が映像を逐次確認しつつこれらの映像を所望の形態に編集するのは精神的、肉体的、或いは時間的にみて極めて困難であり、何らかの手法により映像中の登場物を特定する必要が生じる。

ここで特に、画像認識、パターン認識、又は音声認識など公知の認識技術を用いた場合、従来技術として説明した如き、「横向きの顔は特定できない」などの諸問題を含有した比較的低い精度で登場物が特定される。このままでは、視聴者が例えば、「主人公○○が登場する△△のシーンを視聴したい」という要求をもっていても、同一シーン中であるにも拘らず、これら認識技術では登場物を特定できなかった箇所が欠落した、極めて満足度の低い映像が視聴者に提供される可能性が大である。

然るに、本発明の登場物推定装置によれば、以下の如くにして係る欠点を補い得る。即ち、本発明の登場物推定装置によれば、その動作時には、先ず、データ取得手段によって、所定種類の項目について予め設定された、登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、これら登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データが取得される。

本発明において、「統計的性質を有する統計データ」とは、例えば、ある程度の量蓄積された過去の情報から推測又は類推される情報を含むデータを指す。或いは、ある程度の量蓄積された過去の情報から演算、算出、又は特定される情報を含むデータを指す。即ち、「統計的性質を有する統計データ」とは、典型的には、映像に係る、ある事象の発生確率を表す確率データを指す。このような統計的性質を有するデータは、登場物の全てに対し設定されていてもよいし、一部に対し設定されていてもよい。

例えば、統計的データの作成の一例として、映像の一部分（例えば、全体の１０％程度）に対して、顔認識を実行することにより特定された登場物に基づいて統計データが作成されてもよい。この場合、特定できない部分が発生し、連続した登場物データとしては、不完全なものであるが、例えば何（誰）が、どの程度の確率で登場するか、或いは何（誰）と一緒に登場するかなどの基準値を作ることが可能となる。尚、この際、係る映像の一部分は、特定箇所ではなく、映像全体から満遍なく分散して選択されれば好適である。

また、「所定種類の項目」とは、例えば、「登場人物Ａがドラマ番組Ｂの第１回放送分に登場する確率」など、登場物単体に関する項目や、例えば、「登場人物Ａと登場人物Ｂとが一緒に居る確率」などのように登場物相互間の関係を表す項目などを指す。

本発明において、「単位映像」とは、本発明に係る映像を所定種類の基準に従って分割してなる映像であり、例えば、ドラマ番組を例に挙げれば、単一のカメラワークにより得られる映像（本明細書中では適宜「ショット」と称する）、内容的に連続する映像（本明細書中では適宜、ショットの集合である「カット」と称する）、又は、同一空間を撮影した映像（本明細書中では適宜、カットの集合である「シーン」と称する）などを指す。或いは、「単位映像」とは、単に一定の時間間隔で映像が分割されたものであってもよい。即ち、本発明における「所定種類の基準」とは、映像を相互に何らかの関連を有するような単位に分割可能な限りにおいて自由に決定されてよい。

データ取得手段は、このような単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを、データベースの中から取得する。ここで、「予め特定」する態様は、何らの限定を受けずに自由であってよく、例えば、放送番組を制作する製作会社などが、適当な映像単位（例えば、１シーン）毎に、例えば「このシーンには○○と△△と××が登場する」旨を映像情報と同時に、又は適当なタイミングで配信することによって「特定」されていてもよいし、既に述べたような公知の画像認識、パターン認識、又は音声認識技術などを用い、これら認識技術の限界内で単位映像中の登場物が特定されていてもよい。

一方、このような統計データが取得されると、推定手段により、この統計データに基づいて、前記一の単位映像又は前記単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物が推定される。

ここで、「推定する」とは、例えば、データ取得手段によって取得された統計データによって表される定性的な要素（例えば、傾向）や定量的な要素（例えば、確率）などを加味して、最終的に一の単位映像又はそれと相前後する単位映像に、既に特定されている以外の登場物が登場していると判断することを指す。或いは既に特定されている以外の登場物が何（誰）であるかを判断することを指す。従って、必ずしも実際に単位映像中における登場物を正確に特定することを指すものではない。

例えば、このような「推定する」一の態様として、ある一の単位映像（例えば、一ショット）に、登場物Ａが登場することが特定されている場合に、データ取得手段によって、例えば、「登場物Ａは、登場物Ｂと同一ショット中に登場する確率が高い」旨を示すデータや、「登場物Ｂがこの映像中に登場する確率が高い」旨を示す統計データが取得され、このようなデータに基づいた統計的な判断によって、このショット中に登場物Ｂが登場していると推定されてもよい。

更に、このような推定は、この単位映像における登場物のみに限らず、この単位映像と相前後する単位映像中の登場物に対しても適用が可能である。例えば、ドラマなどにおける主要な登場物は、一ショットに限って登場することは稀であり、大抵の場合は複数ショットにわたって登場する。このような性質を定性的或いは定量的に規定する統計的性質のデータが存在するならば、例えば、「一のショットに登場することが特定されていれば次のショットにも登場している」旨の推定は容易に可能である。この場合には、例えば公知の顔認識技術などでは誰の存在も認識されないような単位映像中であっても、登場物の存在を推定することが可能となる。

尚、本発明の登場物推定装置において、取得された統計データに基づいた推定手段による推定の基準は自由に設定されてよい。例えば、これら取得された統計データによって表されるある事象の確率が、所定の閾値を超えた場合には、その事象が発生しているとみなしてもよい。或いは、実験的、経験的、或いはシミュレーションなどの各種手法により、これら取得されたデータからより好適に登場物を推定し得る場合には、そのような手法により推定がなされてもよい。

このように、本発明の登場物推定装置によれば、公知の認識技術では特定不能とされた登場物（例えば、横向きの登場人物）であっても、従来とは全く概念の異なる統計的な手法によってその存在を推定することが可能となり、登場物の特定精度を著しく向上させることが可能となるのである。

例えば、あるカット中に横向きの人物のショット、人物が小さいショット、或いは体の一部しか映らないショットが混在していても、人間の感性では、それが誰であるのか瞬時に判断可能であるのに対し、従来の認識技術では、そのカット中には誰も登場しないか、或いは正体不明の人間が登場しているとしか認識されない。これに対し、本発明の登場物推定装置によれば、そのような感性的な不整合が改善され、極めて人間の感覚と近似した登場物の特定が可能となるのである。

尚、推定手段による登場物の推定結果は、その性質上、複数の態様を採り得る。このように、一単位映像中の登場物が一意に推定されない場合には、視聴者側でその推定結果が任意に選択可能に構成されていてもよい。或いは、得られた複数種類の結果に対し、客観的な信憑性を数値的に規定し得る場合には、それら信憑性に基づいた順番で推定結果が提供されてもよい。

加えて、本発明によれば、推定手段による推定が正しい確率が高い程、有意義であることは言うまでもないが、該確率がさほど高くなくても、当該推定を行わない場合と比較すれば、映像に登場する人物の特定精度を向上させる上で大きく有利である。特に、本発明を、公知の認識技術と組み合わせることも容易であるので、推定手段による推定が正しい確率が、０より大きい正の値である限りにおいて、当該推定を行わない場合と比較して、映像に登場する登場物の特定精度を向上させる上で顕著に有利である。

本発明の登場物推定装置の一の態様では、視聴が所望される登場物に関するデータの入力を促す入力手段を更に具備し、前記データ取得手段は、前記入力がなされた登場物に関するデータに基づいて前記統計データを取得する。

この態様によれば、例えば、視聴者が、自身が視聴を所望する登場物に関するデータを、入力手段を介して入力することが可能となる。ここで、「視聴を所望する登場物に関するデータ」とは、例えば、「俳優○○が見たい」旨を表すデータなどを指す。データ取得手段では、この入力されたデータに基づいて統計データを取得する。従って、映像において、視聴者が所望する登場物が登場する部分、或いは登場すると推定される部分を効率良く抽出することが可能である。

本発明の登場物推定装置の他の態様では、前記一の単位映像における登場物を前記一の単位映像の幾何学的特徴に基づいて特定する特定手段を更に具備する。

このような特定手段とは、即ち前述した、顔認識技術、又はパターン認識技術などを利用して登場物を特定する手段を指す。このような特定手段を備えることにより、その特定限界内においては、比較的に信憑性の高い登場物特定が可能となり、推定手段との間で言わば相補的に登場物の特定を行うことが可能である。従って、最終的に登場物を高い精度で特定することが可能となる。

特定手段を有する本発明の登場物推定装置の一の態様では、前記推定手段は、前記一又は他の単位映像における登場物のうち前記特定手段により特定された登場物については推定せず、前記特定手段により特定されない登場物を推定する。

特定手段を備える場合、例えば特定手段による登場物の特定に係る信憑性が推定手段よりも高いならば、特定手段によって特定された登場物については推定手段による推定を行う必要は余り生じない。この態様によれば、推定手段による登場物推定に係る処理負荷を軽減し得るので効果的である。

本発明の登場物推定装置の他の態様では、前記推定手段による推定結果に基づいて、前記一の単位映像における登場物についての情報が少なくとも記述された所定のメタデータを生成するメタデータ生成手段を更に具備する。

ここで述べられる「メタデータ」とは、あるデータについての内容情報を記述したデータを指す。デジタル映像データには、このようなメタデータを付帯させることが可能であり、このメタデータによって、情報の検索を視聴者の要求に応じて的確に行うことが可能となる。この態様によれば、単位映像中の登場物が推定されると共に、メタデータ生成手段によって、そのような推定結果に基づいたメタデータが生成されるので、映像の編集を好適に実施可能である。尚、「推定結果に基づいて」とは、推定手段によって得られる推定結果についてのみが記載されたメタデータが生成されてもよく、予め登場することが特定されている登場物も併せた最終的に特定される登場物の情報が記載されたメタデータが生成されてもよい趣旨である。

逆に、メタデータが統計データを担持しており、これをデータベースが抽出して格納するように構成することも可能である。

本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記登場物の夫々が前記映像に登場する確率を表す確率データを取得する。

この態様によれば、データ取得手段が、統計データの少なくとも一部として、登場物の夫々が映像に登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。

尚、ここで述べられる「映像」とは、上述したショット、カット、或いはシーンなどの単位映像、一回の放送分に相当する映像、又は数回の放送分を集めた一シリーズ分の映像などの全て、又は少なくとも一部であってもよい。

このような登場物各々に設定されるデータは、映像における登場物の全てに対して設定されていなくともよい。例えば、登場する頻度が比較的に高い登場物についてのみ、映像に登場する確率が設定されていてもよい。

本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が、前記一の登場物が登場する単位映像と相互に連続するＭ個（Ｍ：自然数）の単位映像に連続して登場する確率を表す確率データを取得する。

この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この登場物が、この単位映像と相互に連続するＭ個の単位映像に連続して登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。

尚、ここで変数Ｍの値は、自然数である限り何らの制限を受けるものではなく、映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、Ｍの値を大きくし過ぎても、確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲でＭの値が複数個設定されていてもよい。

本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に前記一の登場物とは異なる他の登場物がＮ個（Ｎ：自然数）登場する確率を表す確率データを取得する。

この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この一の登場物が登場する単位映像に、この一の登場物とは異なる他の登場物がＮ個（人間ならN人）登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。

尚、変数Ｎの値は、自然数である限り何らの制限を受けるものではなく、映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、登場物とみなせる人間が一の単位映像に大量に登場することは稀であり、Ｎの値を大きくし過ぎても確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲でＮの値が複数個設定されていてもよい。

本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に、前記一の登場物を除く前記登場物の夫々が登場する確率を表す確率データを取得する。

この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この一の登場物が登場する単位映像にこの一の登場物を除く登場物の夫々が登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。

本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物と、前記登場物のうち前記一の登場物とは異なる他の登場物とが登場する場合に、前記一の登場物及び他の登場物が、前記一の登場物及び他の登場物が登場する単位映像と相互に連続するＬ個（Ｌ：自然数）の単位映像に連続して登場する確率を表す確率データを取得する。

この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物と、登場物のうち係る一の登場物とは異なる他の登場物とが登場する場合に、この一の登場物及び他の登場物が、係る単位映像と相互に連続するＬ個の単位映像に連続して登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。

尚、ここで変数Ｌの値は、自然数である限り何らの制限を受けるものではなく、映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、Ｌの値を大きくし過ぎても、確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲でＬの値が複数個設定されていてもよい。

本発明の登場物推定装置の他の態様では、前記一の単位映像及び前記他の単位映像の夫々に対応する音声情報を取得する音声情報取得手段と、前記夫々に対応する音声情報を相互に比較する比較手段とを更に具備し、前記データ取得手段は、前記統計データの少なくとも一部として、前記一の単位映像と他の単位映像とが同一状況下における映像である確率を、前記比較手段による比較の結果に対応付けて表してなる確率データを取得する。

ここで述べられる「音声情報」とは、例えば、映像全体の音圧レベルであってもよいし、特定の周波数の音声信号であってもよく、単位映像の音声に関する何らかの物理的又は電気的な数値であって、単位映像の連続性を判別可能な限りにおいてその態様は自由であってよい。

この態様によれば、データ取得手段が、統計データの少なくとも一部として、一の単位映像と他の単位映像とが同一状況下における映像である確率を、比較手段によるこれら音声情報の比較結果に対応付けて表してなる確率データを取得するので、登場物を高い精度で推定することが可能である。

尚、この確率データは、単位映像の連続性を判断するためのデータであり、「一の単位映像に登場することが予め特定された登場物に対応するデータ」とは趣が異なって見えるが、単位映像が連続的であるならば特定された登場物も引き続き登場しているのであり、従って、係る対応するデータの範疇である。

尚、ここで述べられる「同一状況下における映像」とは、即ち、同一カット中の各ショット、同一シーン中の各カットなど、相互に関連性又は連続性の高い映像群を指す。
＜登場物推定方法＞
本発明の登場物推定方法は上記課題を解決するために、記録された映像に登場する登場物を推定するための登場物推定方法であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する一の統計データを取得するデータ取得工程と、前記取得された一の統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定工程とを具備する。

本発明の登場物推定方法によれば、上述した登場物推定装置における各手段と対応する各工程によって、映像中に登場する登場物の特定精度を向上させ得る。
＜コンピュータプログラム＞
本発明のコンピュータプログラムは上記課題を解決するために、コンピュータシステムを上記いずれかの推定手段として機能させる。

本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納するＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク等の記録媒体から、当該コンピュータプログラムをコンピュータシステムに読み込んで実行させれば、或いは、当該コンピュータプログラムを、例えば、通信手段等を介してコンピュータシステムにダウンロードさせた後に実行させれば、上述した本発明の登場物推定装置を比較的簡単に実現可能である。

コンピュータ読取可能な媒体内のコンピュータプログラム製品は上記課題を解決するために、コンピュータにより実行可能なプログラム命令を明白に具現化し、該コンピュータを、上記いずれかの推定手段として機能させる。

本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を格納するＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク等の記録媒体から、当該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウンロードすれば、上述した本発明の登場物推定装置を比較的容易に実施可能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の登場物推定装置として機能させるコンピュータ読取可能なコード（或いはコンピュータ読取可能な命令）から構成されてよい。

尚、上述した本発明の登場物推定装置における各種態様に対応して、本発明のコンピュータプログラムも各種態様を採ることが可能である。

以上説明したように、登場物推定装置は、データ取得手段、及び推定手段を具備するので、登場物の特定精度を向上させ得る。登場物推定方法は、データ取得工程、及び推定工程を具備するので、登場物の特定精度を向上させ得る。コンピュータプログラムは、コンピュータシステムを推定手段として機能させるので、登場物推定装置を比較的簡単に実現可能である。

本発明のこのような作用及び他の利得は次に説明する実施例から明らかにされる。

本発明の実施例に係る登場人物推定装置を含んだ登場人物推定システムのブロック図である。図１の登場人物推定装置の特定部における人物特定の模式図である。図１の登場人物推定システムにおける表示装置に表示される映像の登場人物の相関関係を表す相関テーブルの模式図である。図１の登場人物推定システムにおける表示装置に表示される映像の構造の一部を表す模式図である。図１の登場人物推定装置の第１動作例に係る、登場人物が推定される過程を表す図である。図１の登場人物推定装置の第２動作例に係る、登場人物が推定される過程を表す図である。図１の登場人物推定装置の第３動作例に係る、登場人物が推定される過程を表す図である。

符号の説明

１０…登場人物推定装置、２０…統計ＤＢ、２１…相関テーブル、３０…録画再生装置、３１…記憶部、３２…再生部、４０…表示装置、４１…映像、１００…制御部、１１０…ＣＰＵ、１２０…ＲＯＭ，１３０…ＲＡＭ、２００…特定部、３００…音声解析部、４００…メタデータ生成部、１０００…登場人物推定システム。

以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づいて説明する。

以下、本発明の好適な実施例について図面を参照して説明する。
＜実施例の構成＞
始めに、図１を参照して、本発明の実施例に係る登場人物推定装置の構成について説明する。ここに、図１は、登場人物推定装置１０を含んでなる登場人物推定システム１０００のブロック図である。

図１において、登場人物推定システム１０００は、登場人物推定装置１０、統計データベース（ＤＢ）２０、録画再生装置３０、及び表示装置４０を備える。

登場人物推定装置１０は、制御部１００、特定部２００、音声解析部３００、及びメタデータ生成部４００を備え、表示装置４０に表示される映像中の登場人物（即ち、本発明に係る「登場物」の一例）を特定することが可能に構成された、本発明に係る「登場物推定装置」の一例である。

制御部１００は、ＣＰＵ（Central Processing Unit）１１０、ＲＯＭ（Read Only Memory）１２０、及びＲＡＭ（Random Access Memory）１３０を備える。

ＣＰＵ１１０は、登場人物推定装置１０の動作を制御するユニットである。ＲＯＭ１２０は、読み出し専用のメモリであり、本発明に係る「コンピュータプログラム」の一例たる登場人物推定プログラムが格納されている。ＣＰＵ１１０は、係る登場人物推定プログラムを実行することにより、本発明に係る「データ取得手段」、及び「推定手段」の一例として機能するように、或いは、本発明に係る「データ取得工程」、及び「推定工程」の一例を実行可能なように構成されている。ＲＡＭ１３０は、書き換え可能なメモリであり、ＣＰＵ１１０が登場人物推定プログラムを実行する際に生じる各種データを一時的に格納することが可能に構成されている。

特定部２００は、後述する表示装置４０に表示される映像に登場する人物を、その幾何学的特徴に基づいて特定することが可能に構成された、本発明に係る「特定手段」の一例である。

ここで、図２を参照して、特定部２００による登場人物特定の詳細について説明する。ここに、図２は、特定部２００による人物特定の模式図である。

図２において、特定部２００は、表示装置４０に表示される映像に対し、特定可能枠と認識可能枠とを使用して登場人物の特定を行うように構成されている。

特定部２００は、人間の顔部分が、特定可能枠によって規定される領域以上の面積で表示されている場合には、係る人間の存在の認識、及びその人間が誰であるのかの特定の両方を行うことが可能に構成されている（図２（ａ））。また、特定部２００は、人間の顔部分が、特定可能枠によって規定される領域未満であっても、認識可能枠によって規定される領域以上の面積で表示されている場合には、係る人間の存在を認識することが可能に構成されている（図２（ｂ））。一方、特定部２００は、人間の顔部分が、認識可能枠によって規定される領域未満の面積で表示されている場合には、映像中に人間が存在していることすら認識することができない（図２（ｃ））。また、特定部２００は、ほぼ正面向きの人間の顔のみを特定の対象とする。従って、例えば横向きの顔は、例え特定可能枠によって規定される領域以上の面積で表示されていても、特定することはできない。

図１に戻り、音声解析部３００は、表示装置４０から放音される音声を取得すると共に、取得された音声に基づいて、後述するショットの連続性を判断することが可能に構成された、本発明に係る「音声情報取得手段」、及び「比較手段」の一例である。

メタデータ生成部４００は、ＣＰＵ１１０が登場人物推定プログラムを実行することによって推定される登場人物に関する情報を含んだメタデータを生成することが可能に構成された、本発明に係る「メタデータ生成手段」の一例である。

統計ＤＢ２０は、本発明に係る「統計的性質を有する統計データ」の夫々一例となるデータＰ１、データＰ２、データＰ３、データＰ４、データＰ５、及びデータＰ６を格納するデータベースである。尚、これら各データについては後述する。

録画再生装置３０は、記憶部３１及び再生部３２を備える。

記憶部３１には、映像４１（本発明に係る「映像」の一例である）の映像データが記憶されている。記憶部３１は、例えば、ＨＤなどの磁気記録媒体、或いはＤＶＤなどの光情報記録媒体であり、係る映像４１は、デジタル形式の映像データとして、記憶部３１に記憶されている。

再生部３２は、記憶部３１に記憶された映像データを順次読み出し、表示装置４０に表示させるべき映像信号を適宜生成して、表示装置４０に供給することが可能に構成されている。尚、録画再生装置３０には、記憶部３１に映像４１を録画するための録画手段を有するが、図示は省略されている。

表示装置４０は、例えば、プラズマディスプレイ装置、液晶ディスプレイ装置、有機ＥＬディスプレイ装置、又はＣＲＴ（Cathode Ray Tube）ディスプレイ装置などのディスプレイ装置であり、録画再生装置３０の再生部３１によって供給される映像信号に基づいて、映像４１を表示することが可能に構成されている。また、表示装置４０は、音声情報を視聴者に提供するべきスピーカなどの各種放音装置を備えるが図示は省略されている。

次に、図３を参照して、統計データベース２０に保管される各データの詳細について説明する。ここに、図３は、映像４１に登場する登場人物の相関関係を表す相関テーブル２１の模式図である。

図３において、相関テーブル２１は、登場人物Ｈｍ（ｍ＝０１，０２，・・・，１３）、及び登場人物Ｈｎ（ｎ＝０１，０２，・・・，１３）を夫々マトリクス状に配置してなるテーブルである。ここで、登場人物Ｈｍ及び登場人物Ｈｎは、夫々映像４１における登場人物を表し、「ｍ＝ｎ」である場合には、同一の登場人物を表す。本実施例では、映像４１の登場人物は１３人であるとする。尚、登場人物の人数は、ここに例示する数に限定されず、自由に設定されてよい。また、相関テーブル２１に記述される登場人物は、映像４１に登場する全ての人物である必要はなく、例えば、重要な役割を有する人物のみであってもよい。

相関テーブル２１において、登場人物Ｈｍと登場人物Ｈｎとの交点に相当する要素は、登場人物Ｈｎと登場人物Ｈｍとの相関関係を表す統計データ群「Ｒｍ，ｎ」を表す（但し、ｍ≠ｎ）。統計データ群「Ｒｍ，ｎ」は、下記（１）式によって表される。

Ｒｍ，ｎ＝Ｐ４（Ｈｍ｜Ｈｎ），Ｐ５（Ｓ｜Ｈｍ，Ｈｎ）・・・・・・・・（１）

ここで、Ｐ４（Ｈｍ｜Ｈｎ）とは、登場人物Ｈｎが登場している場合に、登場人物Ｈｍが同一のショットに登場する確率を表すデータであり、統計ＤＢ２０に保管されるデータＰ４に相当する。尚、本実施例においては、ショットに限定されるが、データＰ４は、例えば「シーン」及び「カット」について同様に設定されていても構わない。

また、Ｐ５（Ｓ｜Ｈｍ，Ｈｎ）とは、映像４１において登場人物ＨｎとＨｍとが一のショットに登場した場合に、それがＳ個のショットにわたって連続する確率を表すデータであり、統計ＤＢに保管されるデータＰ５に相当する。

一方、相関テーブル２１において、「ｍ＝ｎ」である場合に限り、登場人物Ｈｍと登場人物Ｈｎとの交点に相当する要素は、登場人物個人に関する統計データ群「Ｉｎ（＝Ｉｍ）」を表す。統計データ群「Ｉｎ」は、下記（２）式によって規定される。

Ｉｎ＝Ｐ１（Ｈｎ），Ｐ２（Ｓ｜Ｈｎ），Ｐ３（Ｎ｜Ｈｎ）・・・・・・・（２）

ここで、Ｐ１（Ｈｎ）とは、登場人物Ｈｎが映像４１に登場する確率を表すデータであり、統計ＤＢ２０に保管されるデータＰ１に相当する。

また、Ｐ２（Ｓ｜Ｈｎ）とは、映像４１の一ショットに登場人物Ｈｎが登場した場合に、それがＳ個のショットにわたって連続する確率を表すデータであり、統計ＤＢ２０に保管されるデータＰ２に相当する。

更に、Ｐ３（Ｎ｜Ｈｎ）とは、映像４１における一のショットに登場人物Ｈｎが登場する場合に、係るショットに登場人物Ｈｎとは異なる登場人物がＮ人（Ｎ：自然数）登場する確率を表すデータであり、統計ＤＢ２０に保管されるデータＰ３に相当する。

尚、統計ＤＢ２０には、テーブル２１では規定されないデータＰ６が保管されている。データＰ６とは、Ｐ６（Ｃ｜Ｓｎ）と表され、ショットＳｎ−ＣからＳｎにかけてのＣ＋１個のショットが同一カット中のショットである確率を音声認識部３００の音声認識結果に対応付けて表したデータである。

即ち、統計ＤＢ２０に格納されるデータＰ１〜Ｐ６は、本発明に係る「確率データ」の夫々一例でもある。
＜実施例の動作＞
続いて、本実施例に係る登場人物推定装置１０の動作について説明する。

始めに、図４を参照して、本実施例の動作に係る映像の詳細について説明する。ここに、図４は、映像４１の構造の一部を表す模式図である。

映像４１は、例えば、ドラマなどのストーリ性の高い映像番組である。図４において、映像４１の一シーンであるシーンＳＣ１は、４個のカットＣ１〜Ｃ４で構成されており、更に、そのうちの一であるカットＣ１は、更に、６個のショットＳＨ１〜ＳＨ６によって構成されている。この各ショットは、夫々本発明に係る「単位映像」の一例であり、ショットＳＨ１が１０秒、ＳＨ２が５秒、ＳＨ３が１０秒、ＳＨ４が５秒、ＳＨ５が１０秒、及びＳＨ６が５秒の時間を有する映像である。従って、カットＣ１は、４５秒の時間を有する映像である。
＜第１動作例＞
次に、図５を参照して、本発明の第１動作例について説明する。ここに、図５は、映像４１のカットＣ１において登場人物が推定される過程を表す図である。尚、係る登場人物の特定は、ＣＰＵ１１０がＲＯＭ１３０に格納される登場人物推定プログラムを実行することによって実現される。

始めに、ＣＰＵ１１０は、録画再生装置３０の再生部３２を制御して、映像４１を表示装置４０に表示させる。この際、再生部３２は、映像４１に関する映像データを記憶部３１より取得すると共に、表示装置４０に表示させるための映像信号を生成して、表示装置４０に供給し表示させる。こうして、図５に示すようにカットＣ１の表示が開始されると、最初にショットＳＨ１が表示装置４０に表示される。

尚、図５において、「映像」の項目には、表示装置４０の表示内容を示し、登場人物は夫々Ｈｘｐ（ｐ＝０，１，２，・・・，Ｐ（但し、Pは通し番号となる自然数））と表すこととする。また、カットＣ１は、ショットＳＨ１〜ＳＨ６により構成され、登場人物Ｈ０１と登場人物Ｈ０２との二人のカットである（図５における「事実」の項目参照）とする。

ＣＰＵ１１０は、映像４１の表示が開始されると、特定部２００、音声解析部３００、及びメタデータ生成部４００を夫々制御し、各部の動作を開始する。

特定部２００は、このＣＰＵ１１０の制御に従って、映像４１における登場人物の特定を開始する。カットＣ１のショットＳＨ１においては、Ｈｘ１及びＨｘ２が、夫々十分に大きい面積で表示されているため、特定部２００は、これら二人を夫々登場人物Ｈ０１及び登場人物Ｈ０２であると特定する。

特定部２００によって登場人物が特定されると、ＣＰＵ１１０は、メタデータ生成部４００を制御して、ショットＳＨ１に関するメタデータを生成する。この際、メタデータ生成部４００は、「ショットＳＨ１には登場人物Ｈ０１とＨ０２とが登場している」旨が記述されたメタデータを生成する。生成されたメタデータは、ショットＳＨ１に係る映像データに対応付けられる形で記憶部３１に記憶される。

尚、特定部２００は、表示装置４０における表示内容の幾何学的な変化量が、所定の範囲内に収まっている場合には、同一のショットであると判断するように構成されている。

ショットＳＨ１の表示開始から１０秒が経過する（以下、「経過時間」とする）と（図５における「時間」の項目参照）、映像はショットＳＨ２に切り替わる。即ち、表示装置４０の表示内容に幾何学的な変化が生じる。ここで、特定部２００は、ショットが切り替わったと判断し、新たに登場人物の特定を開始する。ショットＳＨ２は、登場人物Ｈ０１に焦点が当たったショットであり、登場人物Ｈ０２であるＨｘ４は殆ど表示装置４０の表示領域外となっている。この状態では、特定部２００はＨｘ４の存在を認識することすらできないため、特定部２００によって特定される登場人物はＨｘ３、即ち登場人物Ｈ０１のみとなる。

ここで、ＣＰＵ１１０は、特定部２００による登場人物の特定を補完するために、登場人物の推定を開始する。始めにＣＰＵ１１０は、音声解析部３００による音声解析結果をＲＡＭ１３０に一時的に格納する。この格納された音声解析結果とは、特定部２００がショットの切り替わりであると判断した時刻前後における表示装置４０から取得した音声データの比較結果である。具体的には、音声解析部３００によって演算された、係る時刻前後の音圧レベルの差分、又は含まれる周波数帯域の比較データなどである。

ＣＰＵ１１０は、この音声解析結果に鑑み、統計ＤＢ２０からデータＰ６を取得する。より具体的には、データＰ６の中の、「Ｐ６（Ｃ＝１｜Ｓ２）」を取得する。これは、ショットＳＨ１からショットＳＨ２にかけての連続する２個のショットが同一のカットに属するショットである確率を表すデータである。

ＣＰＵ１１０は、この取得されたデータＰ６と、ＲＡＭ１３０に格納された音声解析結果とを照合する。この照合によれば、音声解析から判断される、係る一連のショットが同一カット内のショットである確率は７０％より大きい。

次に、ＣＰＵ１１０は、ショットＳＨ１において登場人物Ｈ０１と登場人物Ｈ０２とが登場していることから、統計ＤＢ２０よりデータＰ４を取得する。より具体的には、データＰ４の中の、「Ｐ４（Ｈ０２｜Ｈ０１）」を取得する。これは、登場人物Ｈ０１が登場している場合に、登場人物Ｈ０２が同一ショットに登場する確率を表すデータである。この取得されたデータＰ４によれば、この確率は７０％より大きい。

更に、ＣＰＵ１１０は、ショットＳＨ１において登場人物Ｈ０１とＨ０２とが登場していることから、統計ＤＢ２０よりデータＰ５を取得する、より具体的には、データＰ５の中の、「Ｐ５（Ｓ＝２｜Ｈ０２，０１）」を取得する。これは、登場人物Ｈ０１と登場人物Ｈ０２とが一のショットに登場している場合に、それが２ショットにわたって連続する確率を表すデータである。この取得されたデータＰ５によれば、この確率は７０％より大きい。

ＣＰＵ１１０は、これら得られた確率を推定要素とし、最終的にショットＳＨ２にも登場人物Ｈ０２が登場していると推定する。

その推定結果を受けて、メタデータ生成部４００は、「ショットＳＨ２には登場人物Ｈ０１とＨ０２とが登場している」旨が記述されたメタデータを生成する。

経過時間が１５秒になると、映像はショットＳＨ３に切り替わる。ここでも、特定部２００はショットが切り替わったと判断し、新たに登場人物の特定を開始する。ショットＳＨ３は、登場人物Ｈ０２に焦点が当たったショットであり、登場人物Ｈ０１であるＨｘ５は、殆ど表示装置４０の表示領域外となっている。この状態では、特定部２００はＨｘ５の存在を認識することすらできないため、特定部２００によって特定される登場人物はＨｘ６、即ち登場人物Ｈ０２のみである。

ＣＰＵ１１０は、ここでもショットＳＨ２と同様にして登場人物の推定を行う。この際、ＣＰＵ１１０は統計ＤＢ２０から、データＰ６、データＰ４、及びデータＰ５を取得する。より具体的には、データＰ６によって、ショットＳＨ１からショットＳＨ３にかけての一連の３ショットが同一カット中のショットである確率が、データＰ４によって、登場人物Ｈ０１が登場している場合に登場人物Ｈ０２が同一ショットに登場する確率が、更に、データＰ５によって、登場人物Ｈ０１と登場人物Ｈ０２とが一のショットに登場している場合に、それが３ショットにわたって連続する確率が、夫々推定要素として与えられる。ＣＰＵ１１０は、これら推定要素から、ショットＳＨ３にも登場人物Ｈ０１が登場していると推定する。その推定結果を受けて、メタデータ生成部４００は、「ショットＳＨ３には登場人物Ｈ０１とＨ０２とが登場している」旨が記述されたメタデータを生成する。

経過時間が２５秒となり、映像がショットＳＨ４に切り替わると、特定部２００は、登場人物の特定を新たに開始する。この際、ショットＳＨ１と同様にして、登場人物が登場人物Ｈ０１とＨ０２であることが特定される。ここでは、ＣＰＵ１１０は特に登場人物の推定を実行しない。

経過時間が３０秒となり、再びショットが切り替わると、特定部２００は係るショットＳＨ５について登場人物の特定を開始する。しかしながら、ショットＳＨ５においては、Ｈｘ９及びＨｘ１０が夫々特定可能枠によって規定される面積よりも小さい領域に表示されているため、特定部２００は二人の人間が存在することは認識できても、それが誰であるのかを特定することはできない。

ＣＰＵ１１０は、特定部２００によって、ショットＳＨ５に二人の人物が登場していることは既に認識されているので、推定部２００によって係る二人の人物が誰であるかを推定する。即ち、統計ＤＢ２０から、データＰ６、データＰ４、及びデータＰ５を取得する。

先ず、データＰ６により、ショットＳＨ１からショットＳＨ５にかけての一連の５ショットが同一カットである確率が、データＰ４により、登場人物Ｈ０１が登場している場合に登場人物Ｈ０２が同一ショットに登場する確率、及び登場人物Ｈ０２が登場している場合に登場人物Ｈ０１が同一ショットに登場する確率が、そして、データＰ５により、登場人物Ｈ０１とＨ０２とが登場している場合に、それが５ショットにわたって連続する確率が、夫々推定要素として与えられる。ＣＰＵ１１０は、これら推定要素から、ショットＳＨ５における登場人物は、登場人物Ｈ０１とＨ０２であると推定する。その推定結果を受けて、メタデータ生成部４００は、「ショットＳＨ５には登場人物Ｈ０１とＨ０２とが登場している」旨が記述されたメタデータを生成する。

経過時間が４０秒となって、映像がショットＳＨ６に切り替わると、特定部２００は、新たに登場人物の特定を開始する。ここでは、ショットＳＨ１及びショットＳＨ４と同様にして、登場人物が登場人物Ｈ０１と登場人物Ｈ０２であることが特定されて、カットＣ１に係る登場人物の特定が終了する。

ここで、登場人物推定装置１０の効果を、メタデータ生成部４００によって生成されたメタデータに関連付けて説明する。

メタデータ生成部４００は、上述した特定部２００による特定及びＣＰＵ１１０による推定の結果を受けて、カットＣ１に係る全てのショットについて、「登場人物が登場人物Ｈ０１と登場人物Ｈ０２である」旨を示すメタデータを生成している。従って、例えば、後々、視聴者が「登場人物Ｈ０１と登場人物Ｈ０２とが両方登場するカット」を検索する際、このメタデータをインデックスとして、ショットの欠落のない完全なカットＣ１を簡便に抽出することが可能となる。

一方、比較例として、特定部２００による登場人物の特定結果のみに基づいてメタデータが生成された場合（図５の比較例参照）を挙げると、カットＣ１において、登場人物Ｈ０１とＨ０２が両方共登場する旨が記述されたショットは、ショットＳＨ１、ＳＨ４、及びＳＨ６のみであり、メタデータをインデックスとして、同じようにカットＣ１を抽出する場合、ショットＳＨ２、ＳＨ３、及びＳＨ５が欠落した形でカットＣ１が抽出される。これでは、会話も、映像も全てが途切れ途切れとなり、極めて不完全な抽出結果となって、視聴者に不満を抱かせることとなる。

以上説明したように、本実施例に係る登場人物推定装置１０によれば、映像に登場する人物の特定精度を簡便にして向上させることが可能となるのである。

尚、上述した第１動作例において、ショットＳＨ１、ショットＳＨ４及びショットＳＨ６の夫々に対し、ＣＰＵ１１０は特に登場人物の推定を実行しないが、例えば、積極的に何らかの統計データを統計ＤＢ２０から取得して推定が行われる可能性もある。そのような場合には、例えば、存在しない人間を登場人物として推定してしまうことも考えられる。しかしながら、ＣＰＵ１１０は、特定部２００によって特定された登場人物に対しては推定を行わないように設定することも容易に可能であり、従って、既に特定されている登場人物が「存在しない」と推定されることはない。即ち、推定結果が冗長となる可能性はあっても、登場している人物を漏れのないように特定する精度が劣化する可能性はゼロに等しいので有益である。
＜第２動作例＞
次に、図６を参照して、本発明に係る登場人物推定装置１０の第２動作例について説明する。ここに、図６は、映像４１のカットＣ１において登場人物が推定される過程を表す図である。但し、上述の第１動作例とはカットＣ１の内容が異なるものとする。尚、同図において、図５と重複する箇所には同一の符号を付してその説明を省略する。

図６において、カットＣ１は、第１実施例と同様に６個のショットからなる。但し、全てのショットにおいて、登場人物は登場人物Ｈ０１のみであり、他の登場人物は登場しない。

図６のショットＳＨ１、ＳＨ３、及びＳＨ６においては、Ｈｘ１、Ｈｘ３及びＨｘ６は十分に大きい表示面積で表示されており、夫々特定部２００によって容易に登場人物Ｈ０１であると特定される。

一方、ショットＳＨ２において、Ｈｘ２は胴体部分よりも下方が表示されており、特定部２００は、人間が存在していることを認識することができない。

ここで、ＣＰＵ１１０は、ショットＳＨ２に登場人物が存在するか、更にはそれが誰であるのかを推定するために、統計ＤＢ２０から、データＰ６、データＰ１、及びデータＰ２を夫々取得する。具体的には、データＰ６の中の「Ｐ６（Ｃ＝１｜Ｓ２）」、データＰ１の中の「Ｐ１（Ｈ０１）」、及びデータＰ２の中の「Ｐ２（Ｓ２｜Ｈ０１）」を夫々取得する。

これらデータのうち、「Ｐ６（Ｃ＝１｜Ｓ２）」は、第１動作例で既に述べたのと同様、ショットの連続性の判断に使用される。即ち、ショットＳＨ１からショットＳＨ２にかけての一連の２ショットが、同一カット中のショットである確率が推定要素として与えられる。

また、「Ｐ１（Ｈ０１）」からは、登場人物Ｈ０１が映像４１に登場する確率が推定要素として与えられる。そして、「Ｐ２（Ｓ２｜Ｈ０１）」から、登場人物Ｈ０１が一のショットに登場している場合に、それが２ショットにわたって連続する確率が推定要素として与えられる。

ＣＰＵ１１０は、これら３個の推定要素から、ショットＳＨ２が、ショットＳＨ１と同一カット中のショットである確率が高く、登場人物Ｈ０１が登場する確率が高く、登場人物Ｈ０１が２ショットに連続して登場する確率が高いと判断し、ショットＳＨ２に登場人物Ｈ０１が登場していると推定する。

次に、映像がショットＳＨ４に切り替わると、表示装置４０にはＨｘ４が表示されず、Ｈｘ４の所有物である「煙草」のみが表示される。ここで、視聴者は、この煙草からＨｘ４が登場人物Ｈ０１であると容易に想像することが可能であるが、特定部２００は、人間の存在すら認識することができない。

ＣＰＵ１１０は、ここでも、ショットＳＨ２において登場人物Ｈ０１を推定したのと同様の手法により、データＰ６、データＰ１、及びデータＰ２に基づいて登場人物Ｈ０１がショットＳＨ４に登場していることを推定する。

更に、映像がショットＳＨ５に切り替わると、表示装置４０には「コーヒーカップ」が表示される。ここでも、視聴者はこのアイテムによって示唆される登場人物が登場人物Ｈ０１であると容易に想像可能であるが、特定部２００は、人間の存在すら認識することができない。

ここで、ＣＰＵ１１０は、ショットＳＨ２及びＳＨ４において、登場人物Ｈ０１の登場を推定したのと同様の手法により、このショットＳＨ５にも登場人物Ｈ０１が登場していると推定する。

このようなカットＣ１中の一連の推定動作により、結果的にメタデータ生成部４００によって生成されるメタデータには、ショットＳＨ１からＳＨ６にかけての６個のショット全てに登場人物Ｈ０１が登場している旨が記述される。

一方、第１動作例と同様に、比較例と比較すると、カットＣ１において登場人物Ｈ０１が登場しているとされるショットはショットＳＨ１、ＳＨ３、及びＳＨ６のみとなり、「登場人物Ｈ０１が単独で登場するカット」が検索される場合、例えば、これら不連続な３個のショットが抽出されることとなり、極めて不自然な映像が視聴者に提供される。

このように、第２動作例においても、本実施例に係る登場人物推定の効果は存分に発揮され、登場人物の特定精度が著しく向上する。
＜第３動作例＞
次に、図７を参照して、本発明に係る登場人物推定装置１０の第３動作例について説明する。ここに、図７は、映像４１のカットＣ１において登場人物が推定される過程を表す図である。但し、上述の動作例とは、カットＣ１の内容が異なる。尚、同図において、図５と重複する箇所には同一の符号を付してその説明を省略する。

図７において、カットＣ１は単一のショットＳＨ１からなる。ショットＳＨ１では、登場人物Ｈ０１、Ｈ０２、及びＨ０３が登場するが、登場人物Ｈ０１以外の二人は、特定部２００の認識可能枠によって規定される領域よりも小さい面積で表示されている。従って、存在が認識されるのは、特定部２００によって特定される登場人物Ｈ０１のみとなり、他の二人はその存在すら認識されない。ここで、ＣＰＵ１１０は、以下の如くにして登場人物Ｈ０１以外の登場人物を推定する。

先ず、ＣＰＵ１１０は、統計ＤＢ２０から、データＰ４及びデータＰ３を取得する。より具体的には、データＰ４の中の「Ｐ４（Ｈ０２，Ｈ０３｜Ｈ０１）」、及びデータＰ３の中の「Ｐ３（２｜Ｈ０１）」を取得する。

前者は、一のショットに登場人物Ｈ０１が登場している場合に、登場人物Ｈ０２及び登場人物Ｈ０３が同一ショットに登場する確率を表すデータであり、その確率は７０％より大きい。また、後者は、一のショットに登場人物Ｈ０１が登場する場合に、登場人物Ｈ０１を除く二人の登場人物が同一ショットに登場する確率を表すデータであり、その確率は３０％より大きい。

ＣＰＵ１１０は、これらのデータを推定要素とし、登場人物Ｈ０１の他に、登場人物Ｈ０２及び登場人物Ｈ０３が登場していると推定する。従って、メタデータ生成部４００によって生成されるメタデータには、ショットＳＨ１の登場人物は登場人物Ｈ０１、Ｈ０２、及びＨ０３である旨が記述される。

一方、比較例においては、特定部２００による登場人物特定結果しか反映されないため、生成されるメタデータには、ショットＳＨ１の登場人物は登場人物Ｈ０１である旨のみが記述される。従って、例えば「登場人物Ｈ０１、Ｈ０２、及びＨ０３」が登場するカット」を検索する場合には、本実施例によれば、第３動作例に係るカットＣ１を瞬時に検索可能であるのに対し、比較例では、登場人物Ｈ０１が登場する膨大なカットの中から所望のカットを視聴者が検索しなければならなくなり、大変に非効率的である。

尚、統計ＤＢ２０に格納されるデータは、上述したデータＰ１からデータＰ６以外にも、映像中の登場人物を推定可能な限りにおいて自由に設定されてよい。例えば、複数回にわたって放送されるドラマ番組などでは、「第○○回の放送分に登場人物△△が登場する確率」を表すデータが設定されていてもよいし、また、「登場人物△△と登場人物□□が登場した場合にそれ以外の登場人物がＮ人登場する確率」を表すデータが設定されていてもよい。

尚、登場人物推定装置１０は、ユーザによる入力が可能な、キーボード或いはタッチボタンなどの入力手段を備えていてもよい。この入力手段を介して、ユーザが視聴を所望する登場人物のデータを登場人物推定装置１０に指示してもよい。この場合、登場人物推定装置１０は、統計ＤＢ２０の中から、係る入力されたデータに対応する統計データを選択して取得し、係る登場人物が登場するカットやショットなどを検索してもよい。或いは、上述の各実施例において、係る視聴が所望される登場人物が存在するか否かを、係る取得された統計データを参照して積極的に推定してもよい。

尚、本実施例においては、本発明に係る「登場物」の一例である登場人物を特定する態様について延べたが、既に述べたように、本発明において「登場物」とは人物に限定されず、動物、植物、或いは何らかの物体であってもよく、映像に登場するこれらを、本実施例と同様にして特定することも勿論可能である。

本発明は、上述した実施例に限られるものではなく、請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う登場物推定装置及び方法、並びにコンピュータプログラムもまた本発明の技術的範囲に含まれるものである。

本発明に係る登場物推定装置及び方法、並びにコンピュータプログラムは、例えば、映像に登場する登場物の特定精度を向上させ得る登場物推定装置に利用可能である。また、例えば民生用或いは業務用の各種コンピュータ機器に搭載される又は各種コンピュータ機器に接続可能な登場物推定装置等にも利用可能である。

Claims

記録された映像に登場する登場物を推定するための登場物推定装置であって、
所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを取得するデータ取得手段と、
前記取得された統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定手段と
を具備することを特徴とする登場物推定装置。
視聴が所望される登場物に関するデータの入力を促す入力手段を更に具備し、
前記データ取得手段は、前記入力がなされた登場物に関するデータに基づいて前記統計データを取得する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
前記一の単位映像における登場物を前記一の単位映像の幾何学的特徴に基づいて特定する特定手段を更に具備する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
前記推定手段は、前記一又は他の単位映像における登場物のうち前記特定手段により特定された登場物については推定せず、前記特定手段により特定されない登場物を推定する
ことを特徴とする請求の範囲第３項に記載の登場物推定装置。
前記推定手段による推定結果に基づいて、前記一の単位映像における登場物についての情報が少なくとも記述された所定のメタデータを生成するメタデータ生成手段を更に具備する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
前記データ取得手段は、前記統計データの少なくとも一部として、前記登場物の夫々が前記映像に登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が、前記一の登場物が登場する単位映像と相互に連続するＭ個（Ｍ：自然数）の単位映像に連続して登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に前記一の登場物とは異なる他の登場物がＮ個（Ｎ：自然数）登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に、前記一の登場物を除く前記登場物の夫々が登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物と、前記登場物のうち前記一の登場物とは異なる他の登場物とが登場する場合に、前記一の登場物及び他の登場物が、前記一の登場物及び他の登場物が登場する単位映像と相互に連続するＬ個（Ｌ：自然数）の単位映像に連続して登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
前記一の単位映像及び前記他の単位映像の夫々に対応する音声情報を取得する音声情報取得手段と、
前記夫々に対応する音声情報を相互に比較する比較手段と
を更に具備し、
前記データ取得手段は、前記統計データの少なくとも一部として、前記一の単位映像と他の単位映像とが同一状況下における映像である確率を、前記比較手段による比較の結果に対応付けて表してなる確率データを取得する
ことを特徴とする請求の範囲第１項に記載の登場物推定装置。
記録された映像に登場する登場物を推定するための登場物推定方法であって、
所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する一の統計データを取得するデータ取得工程と、
前記取得された一の統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定工程と
を具備することを特徴とする登場物推定方法。
コンピュータシステムを請求の範囲第１項に記載の推定手段として機能させることを特徴とするコンピュータプログラム。