JP4439523B2 - 登場物推定装置及び方法、並びにコンピュータプログラム - Google Patents
登場物推定装置及び方法、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP4439523B2 JP4439523B2 JP2006535776A JP2006535776A JP4439523B2 JP 4439523 B2 JP4439523 B2 JP 4439523B2 JP 2006535776 A JP2006535776 A JP 2006535776A JP 2006535776 A JP2006535776 A JP 2006535776A JP 4439523 B2 JP4439523 B2 JP 4439523B2
- Authority
- JP
- Japan
- Prior art keywords
- appearance
- video
- data
- unit
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/35—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
- H04H60/37—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/35—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
- H04H60/48—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
Description
本発明は、登場物推定装置及び方法、並びにコンピュータプログラムの技術分野に関する。
例えば、ドラマや映画などの映像番組を録画して視聴する場合に、所望のシーンのみを再生するための装置が提案されている(例えば、特許文献1参照)。
特許文献1に開示されたインデックス配信装置(以下、「従来の技術」と称する)によれば、録画装置が放送番組を録画すると同時に、その番組中に現れる各シーンの発生時刻や内容を示す情報であるシーンインデックスが作成され、録画装置に配信される。録画装置の利用者は、この配信されたシーンインデックスに基づいて、録画した番組の中から所望のシーンのみを選択的に再生することが可能であるとされている。
しかしながら、係る従来の技術は、以下に示す問題点を有する。
従来の技術においては、シーンインデックスは、係員が放送番組を視聴しながらシーンインデックス配信装置に然るべきシーンインデックスを入力することによって作成されている。即ち、従来の技術は、放送番組毎に係員によるシーンインデックスの入力を必要とするため、肉体的、精神的、及び経済的に莫大な負荷が生じ、極めて非現実的であるという技術的な問題点を有している。
また、このような莫大な負荷を軽減するために、顔認識技術などを使用して、映像の幾何学的な特徴から人物の顔を識別し、登場人物などを特定することによって、自動的に映像の内容を記録する手法がある。しかしながら、このような顔認識技術では、例えば、顔が横向きに表示される人間は誰であるか特定できないなど、特定精度が著しく低く、映像の登場人物を実用的に特定することは困難である。
更に、映像中に登場人物の姿が現れていない場合で、その登場人物の声のみが流れている場合などは、例え一連のストーリであっても、その登場人物を特定することは著しく困難であると言える。
本発明は、例えば、上述した問題点に鑑みてなされたものであり、映像に登場する登場物の特定精度を向上させ得る登場物推定装置及び方法、並びにコンピュータプログラムを提供することを課題とする。
<登場物推定装置>
本発明の登場物推定装置は上記課題を解決するために、記録された映像に登場する登場物を推定するための登場物推定装置であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを取得するデータ取得手段と、前記取得された統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定手段とを具備する。
本発明の登場物推定装置は上記課題を解決するために、記録された映像に登場する登場物を推定するための登場物推定装置であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを取得するデータ取得手段と、前記取得された統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定手段とを具備する。
本発明において、「映像」とは、例えば、ドラマ、映画、スポーツ、アニメ、料理、音楽、又は情報など多様なジャンルに属する地上波放送、衛星放送、又はケーブルテレビ放送などの各種放送に係る番組に関する、アナログ又はデジタル方式の映像を指し、好適には、例えば地上波デジタル放送などのデジタル放送番組に関する映像を指す。或いは、デジタルビデオカメラなどで撮影された個人的な映像又は特定の目的を有する映像を指す。
また、このような映像における「登場物」とは、即ち、このような各種ジャンルの映像に対応した、例えば、ドラマや映画に登場する人物、動物若しくは何らかの物体、スポーツ選手、アニメのキャラクター、料理人、歌手、又はニュースキャスタなどを指し、映像に登場するもの全てを含む概念である。
また、本発明において「登場」とは、例えば、人物を例に取った場合、映像中に登場人物の姿が現れている状態を指すに限らず、映像中に姿が現れていなくとも、その登場人物の声や登場人物から発せられる音などが含まれている状態も含む。即ち、視聴者に対し、登場物の存在を連想させるような場合も含まれる概念である。
このような映像をリアルタイムではなく、予め、例えばDVD録画装置やHD録画装置などの、比較的映像の編集が容易なデジタル映像記録装置に録画して視聴する際には、例えば、所望する登場物のみを視聴したいという要求が自然と生じ得る。より具体的には、例えば、あるドラマ番組に関し、「俳優○と女優×の二人の場面が観たい」といった要求が生じ得る。この際、例えば、視聴者が映像を逐次確認しつつこれらの映像を所望の形態に編集するのは精神的、肉体的、或いは時間的にみて極めて困難であり、何らかの手法により映像中の登場物を特定する必要が生じる。
ここで特に、画像認識、パターン認識、又は音声認識など公知の認識技術を用いた場合、従来技術として説明した如き、「横向きの顔は特定できない」などの諸問題を含有した比較的低い精度で登場物が特定される。このままでは、視聴者が例えば、「主人公○○が登場する△△のシーンを視聴したい」という要求をもっていても、同一シーン中であるにも拘らず、これら認識技術では登場物を特定できなかった箇所が欠落した、極めて満足度の低い映像が視聴者に提供される可能性が大である。
然るに、本発明の登場物推定装置によれば、以下の如くにして係る欠点を補い得る。即ち、本発明の登場物推定装置によれば、その動作時には、先ず、データ取得手段によって、所定種類の項目について予め設定された、登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、これら登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データが取得される。
本発明において、「統計的性質を有する統計データ」とは、例えば、ある程度の量蓄積された過去の情報から推測又は類推される情報を含むデータを指す。或いは、ある程度の量蓄積された過去の情報から演算、算出、又は特定される情報を含むデータを指す。即ち、「統計的性質を有する統計データ」とは、典型的には、映像に係る、ある事象の発生確率を表す確率データを指す。このような統計的性質を有するデータは、登場物の全てに対し設定されていてもよいし、一部に対し設定されていてもよい。
例えば、統計的データの作成の一例として、映像の一部分(例えば、全体の10%程度)に対して、顔認識を実行することにより特定された登場物に基づいて統計データが作成されてもよい。この場合、特定できない部分が発生し、連続した登場物データとしては、不完全なものであるが、例えば何(誰)が、どの程度の確率で登場するか、或いは何(誰)と一緒に登場するかなどの基準値を作ることが可能となる。尚、この際、係る映像の一部分は、特定箇所ではなく、映像全体から満遍なく分散して選択されれば好適である。
また、「所定種類の項目」とは、例えば、「登場人物Aがドラマ番組Bの第1回放送分に登場する確率」など、登場物単体に関する項目や、例えば、「登場人物Aと登場人物Bとが一緒に居る確率」などのように登場物相互間の関係を表す項目などを指す。
本発明において、「単位映像」とは、本発明に係る映像を所定種類の基準に従って分割してなる映像であり、例えば、ドラマ番組を例に挙げれば、単一のカメラワークにより得られる映像(本明細書中では適宜「ショット」と称する)、内容的に連続する映像(本明細書中では適宜、ショットの集合である「カット」と称する)、又は、同一空間を撮影した映像(本明細書中では適宜、カットの集合である「シーン」と称する)などを指す。或いは、「単位映像」とは、単に一定の時間間隔で映像が分割されたものであってもよい。即ち、本発明における「所定種類の基準」とは、映像を相互に何らかの関連を有するような単位に分割可能な限りにおいて自由に決定されてよい。
データ取得手段は、このような単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを、データベースの中から取得する。ここで、「予め特定」する態様は、何らの限定を受けずに自由であってよく、例えば、放送番組を制作する製作会社などが、適当な映像単位(例えば、1シーン)毎に、例えば「このシーンには○○と△△と××が登場する」旨を映像情報と同時に、又は適当なタイミングで配信することによって「特定」されていてもよいし、既に述べたような公知の画像認識、パターン認識、又は音声認識技術などを用い、これら認識技術の限界内で単位映像中の登場物が特定されていてもよい。
一方、このような統計データが取得されると、推定手段により、この統計データに基づいて、前記一の単位映像又は前記単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物が推定される。
ここで、「推定する」とは、例えば、データ取得手段によって取得された統計データによって表される定性的な要素(例えば、傾向)や定量的な要素(例えば、確率)などを加味して、最終的に一の単位映像又はそれと相前後する単位映像に、既に特定されている以外の登場物が登場していると判断することを指す。或いは既に特定されている以外の登場物が何(誰)であるかを判断することを指す。従って、必ずしも実際に単位映像中における登場物を正確に特定することを指すものではない。
例えば、このような「推定する」一の態様として、ある一の単位映像(例えば、一ショット)に、登場物Aが登場することが特定されている場合に、データ取得手段によって、例えば、「登場物Aは、登場物Bと同一ショット中に登場する確率が高い」旨を示すデータや、「登場物Bがこの映像中に登場する確率が高い」旨を示す統計データが取得され、このようなデータに基づいた統計的な判断によって、このショット中に登場物Bが登場していると推定されてもよい。
更に、このような推定は、この単位映像における登場物のみに限らず、この単位映像と相前後する単位映像中の登場物に対しても適用が可能である。例えば、ドラマなどにおける主要な登場物は、一ショットに限って登場することは稀であり、大抵の場合は複数ショットにわたって登場する。このような性質を定性的或いは定量的に規定する統計的性質のデータが存在するならば、例えば、「一のショットに登場することが特定されていれば次のショットにも登場している」旨の推定は容易に可能である。この場合には、例えば公知の顔認識技術などでは誰の存在も認識されないような単位映像中であっても、登場物の存在を推定することが可能となる。
尚、本発明の登場物推定装置において、取得された統計データに基づいた推定手段による推定の基準は自由に設定されてよい。例えば、これら取得された統計データによって表されるある事象の確率が、所定の閾値を超えた場合には、その事象が発生しているとみなしてもよい。或いは、実験的、経験的、或いはシミュレーションなどの各種手法により、これら取得されたデータからより好適に登場物を推定し得る場合には、そのような手法により推定がなされてもよい。
このように、本発明の登場物推定装置によれば、公知の認識技術では特定不能とされた登場物(例えば、横向きの登場人物)であっても、従来とは全く概念の異なる統計的な手法によってその存在を推定することが可能となり、登場物の特定精度を著しく向上させることが可能となるのである。
例えば、あるカット中に横向きの人物のショット、人物が小さいショット、或いは体の一部しか映らないショットが混在していても、人間の感性では、それが誰であるのか瞬時に判断可能であるのに対し、従来の認識技術では、そのカット中には誰も登場しないか、或いは正体不明の人間が登場しているとしか認識されない。これに対し、本発明の登場物推定装置によれば、そのような感性的な不整合が改善され、極めて人間の感覚と近似した登場物の特定が可能となるのである。
尚、推定手段による登場物の推定結果は、その性質上、複数の態様を採り得る。このように、一単位映像中の登場物が一意に推定されない場合には、視聴者側でその推定結果が任意に選択可能に構成されていてもよい。或いは、得られた複数種類の結果に対し、客観的な信憑性を数値的に規定し得る場合には、それら信憑性に基づいた順番で推定結果が提供されてもよい。
加えて、本発明によれば、推定手段による推定が正しい確率が高い程、有意義であることは言うまでもないが、該確率がさほど高くなくても、当該推定を行わない場合と比較すれば、映像に登場する人物の特定精度を向上させる上で大きく有利である。特に、本発明を、公知の認識技術と組み合わせることも容易であるので、推定手段による推定が正しい確率が、0より大きい正の値である限りにおいて、当該推定を行わない場合と比較して、映像に登場する登場物の特定精度を向上させる上で顕著に有利である。
本発明の登場物推定装置の一の態様では、視聴が所望される登場物に関するデータの入力を促す入力手段を更に具備し、前記データ取得手段は、前記入力がなされた登場物に関するデータに基づいて前記統計データを取得する。
この態様によれば、例えば、視聴者が、自身が視聴を所望する登場物に関するデータを、入力手段を介して入力することが可能となる。ここで、「視聴を所望する登場物に関するデータ」とは、例えば、「俳優○○が見たい」旨を表すデータなどを指す。データ取得手段では、この入力されたデータに基づいて統計データを取得する。従って、映像において、視聴者が所望する登場物が登場する部分、或いは登場すると推定される部分を効率良く抽出することが可能である。
本発明の登場物推定装置の他の態様では、前記一の単位映像における登場物を前記一の単位映像の幾何学的特徴に基づいて特定する特定手段を更に具備する。
このような特定手段とは、即ち前述した、顔認識技術、又はパターン認識技術などを利用して登場物を特定する手段を指す。このような特定手段を備えることにより、その特定限界内においては、比較的に信憑性の高い登場物特定が可能となり、推定手段との間で言わば相補的に登場物の特定を行うことが可能である。従って、最終的に登場物を高い精度で特定することが可能となる。
特定手段を有する本発明の登場物推定装置の一の態様では、前記推定手段は、前記一又は他の単位映像における登場物のうち前記特定手段により特定された登場物については推定せず、前記特定手段により特定されない登場物を推定する。
特定手段を備える場合、例えば特定手段による登場物の特定に係る信憑性が推定手段よりも高いならば、特定手段によって特定された登場物については推定手段による推定を行う必要は余り生じない。この態様によれば、推定手段による登場物推定に係る処理負荷を軽減し得るので効果的である。
本発明の登場物推定装置の他の態様では、前記推定手段による推定結果に基づいて、前記一の単位映像における登場物についての情報が少なくとも記述された所定のメタデータを生成するメタデータ生成手段を更に具備する。
ここで述べられる「メタデータ」とは、あるデータについての内容情報を記述したデータを指す。デジタル映像データには、このようなメタデータを付帯させることが可能であり、このメタデータによって、情報の検索を視聴者の要求に応じて的確に行うことが可能となる。この態様によれば、単位映像中の登場物が推定されると共に、メタデータ生成手段によって、そのような推定結果に基づいたメタデータが生成されるので、映像の編集を好適に実施可能である。尚、「推定結果に基づいて」とは、推定手段によって得られる推定結果についてのみが記載されたメタデータが生成されてもよく、予め登場することが特定されている登場物も併せた最終的に特定される登場物の情報が記載されたメタデータが生成されてもよい趣旨である。
逆に、メタデータが統計データを担持しており、これをデータベースが抽出して格納するように構成することも可能である。
本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記登場物の夫々が前記映像に登場する確率を表す確率データを取得する。
この態様によれば、データ取得手段が、統計データの少なくとも一部として、登場物の夫々が映像に登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。
尚、ここで述べられる「映像」とは、上述したショット、カット、或いはシーンなどの単位映像、一回の放送分に相当する映像、又は数回の放送分を集めた一シリーズ分の映像などの全て、又は少なくとも一部であってもよい。
このような登場物各々に設定されるデータは、映像における登場物の全てに対して設定されていなくともよい。例えば、登場する頻度が比較的に高い登場物についてのみ、映像に登場する確率が設定されていてもよい。
本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が、前記一の登場物が登場する単位映像と相互に連続するM個(M:自然数)の単位映像に連続して登場する確率を表す確率データを取得する。
この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この登場物が、この単位映像と相互に連続するM個の単位映像に連続して登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。
尚、ここで変数Mの値は、自然数である限り何らの制限を受けるものではなく、映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、Mの値を大きくし過ぎても、確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲でMの値が複数個設定されていてもよい。
本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に前記一の登場物とは異なる他の登場物がN個(N:自然数)登場する確率を表す確率データを取得する。
この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この一の登場物が登場する単位映像に、この一の登場物とは異なる他の登場物がN個(人間ならN人)登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。
尚、変数Nの値は、自然数である限り何らの制限を受けるものではなく、映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、登場物とみなせる人間が一の単位映像に大量に登場することは稀であり、Nの値を大きくし過ぎても確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲でNの値が複数個設定されていてもよい。
本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に、前記一の登場物を除く前記登場物の夫々が登場する確率を表す確率データを取得する。
この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この一の登場物が登場する単位映像にこの一の登場物を除く登場物の夫々が登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。
本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物と、前記登場物のうち前記一の登場物とは異なる他の登場物とが登場する場合に、前記一の登場物及び他の登場物が、前記一の登場物及び他の登場物が登場する単位映像と相互に連続するL個(L:自然数)の単位映像に連続して登場する確率を表す確率データを取得する。
この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物と、登場物のうち係る一の登場物とは異なる他の登場物とが登場する場合に、この一の登場物及び他の登場物が、係る単位映像と相互に連続するL個の単位映像に連続して登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。
尚、ここで変数Lの値は、自然数である限り何らの制限を受けるものではなく、映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、Lの値を大きくし過ぎても、確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲でLの値が複数個設定されていてもよい。
本発明の登場物推定装置の他の態様では、前記一の単位映像及び前記他の単位映像の夫々に対応する音声情報を取得する音声情報取得手段と、前記夫々に対応する音声情報を相互に比較する比較手段とを更に具備し、前記データ取得手段は、前記統計データの少なくとも一部として、前記一の単位映像と他の単位映像とが同一状況下における映像である確率を、前記比較手段による比較の結果に対応付けて表してなる確率データを取得する。
ここで述べられる「音声情報」とは、例えば、映像全体の音圧レベルであってもよいし、特定の周波数の音声信号であってもよく、単位映像の音声に関する何らかの物理的又は電気的な数値であって、単位映像の連続性を判別可能な限りにおいてその態様は自由であってよい。
この態様によれば、データ取得手段が、統計データの少なくとも一部として、一の単位映像と他の単位映像とが同一状況下における映像である確率を、比較手段によるこれら音声情報の比較結果に対応付けて表してなる確率データを取得するので、登場物を高い精度で推定することが可能である。
尚、この確率データは、単位映像の連続性を判断するためのデータであり、「一の単位映像に登場することが予め特定された登場物に対応するデータ」とは趣が異なって見えるが、単位映像が連続的であるならば特定された登場物も引き続き登場しているのであり、従って、係る対応するデータの範疇である。
尚、ここで述べられる「同一状況下における映像」とは、即ち、同一カット中の各ショット、同一シーン中の各カットなど、相互に関連性又は連続性の高い映像群を指す。
<登場物推定方法>
本発明の登場物推定方法は上記課題を解決するために、記録された映像に登場する登場物を推定するための登場物推定方法であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する一の統計データを取得するデータ取得工程と、前記取得された一の統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定工程とを具備する。
<登場物推定方法>
本発明の登場物推定方法は上記課題を解決するために、記録された映像に登場する登場物を推定するための登場物推定方法であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する一の統計データを取得するデータ取得工程と、前記取得された一の統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定工程とを具備する。
本発明の登場物推定方法によれば、上述した登場物推定装置における各手段と対応する各工程によって、映像中に登場する登場物の特定精度を向上させ得る。
<コンピュータプログラム>
本発明のコンピュータプログラムは上記課題を解決するために、コンピュータシステムを上記いずれかの推定手段として機能させる。
<コンピュータプログラム>
本発明のコンピュータプログラムは上記課題を解決するために、コンピュータシステムを上記いずれかの推定手段として機能させる。
本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納するROM、CD−ROM、DVD−ROM、ハードディスク等の記録媒体から、当該コンピュータプログラムをコンピュータシステムに読み込んで実行させれば、或いは、当該コンピュータプログラムを、例えば、通信手段等を介してコンピュータシステムにダウンロードさせた後に実行させれば、上述した本発明の登場物推定装置を比較的簡単に実現可能である。
コンピュータ読取可能な媒体内のコンピュータプログラム製品は上記課題を解決するために、コンピュータにより実行可能なプログラム命令を明白に具現化し、該コンピュータを、上記いずれかの推定手段として機能させる。
本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を格納するROM、CD−ROM、DVD−ROM、ハードディスク等の記録媒体から、当該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウンロードすれば、上述した本発明の登場物推定装置を比較的容易に実施可能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の登場物推定装置として機能させるコンピュータ読取可能なコード(或いはコンピュータ読取可能な命令)から構成されてよい。
尚、上述した本発明の登場物推定装置における各種態様に対応して、本発明のコンピュータプログラムも各種態様を採ることが可能である。
以上説明したように、登場物推定装置は、データ取得手段、及び推定手段を具備するので、登場物の特定精度を向上させ得る。登場物推定方法は、データ取得工程、及び推定工程を具備するので、登場物の特定精度を向上させ得る。コンピュータプログラムは、コンピュータシステムを推定手段として機能させるので、登場物推定装置を比較的簡単に実現可能である。
本発明のこのような作用及び他の利得は次に説明する実施例から明らかにされる。
10…登場人物推定装置、20…統計DB、21…相関テーブル、30…録画再生装置、31…記憶部、32…再生部、40…表示装置、41…映像、100…制御部、110…CPU、120…ROM,130…RAM、200…特定部、300…音声解析部、400…メタデータ生成部、1000…登場人物推定システム。
以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づいて説明する。
以下、本発明の好適な実施例について図面を参照して説明する。
<実施例の構成>
始めに、図1を参照して、本発明の実施例に係る登場人物推定装置の構成について説明する。ここに、図1は、登場人物推定装置10を含んでなる登場人物推定システム1000のブロック図である。
<実施例の構成>
始めに、図1を参照して、本発明の実施例に係る登場人物推定装置の構成について説明する。ここに、図1は、登場人物推定装置10を含んでなる登場人物推定システム1000のブロック図である。
図1において、登場人物推定システム1000は、登場人物推定装置10、統計データベース(DB)20、録画再生装置30、及び表示装置40を備える。
登場人物推定装置10は、制御部100、特定部200、音声解析部300、及びメタデータ生成部400を備え、表示装置40に表示される映像中の登場人物(即ち、本発明に係る「登場物」の一例)を特定することが可能に構成された、本発明に係る「登場物推定装置」の一例である。
制御部100は、CPU(Central Processing Unit)110、ROM(Read Only Memory)120、及びRAM(Random Access Memory)130を備える。
CPU110は、登場人物推定装置10の動作を制御するユニットである。ROM120は、読み出し専用のメモリであり、本発明に係る「コンピュータプログラム」の一例たる登場人物推定プログラムが格納されている。CPU110は、係る登場人物推定プログラムを実行することにより、本発明に係る「データ取得手段」、及び「推定手段」の一例として機能するように、或いは、本発明に係る「データ取得工程」、及び「推定工程」の一例を実行可能なように構成されている。RAM130は、書き換え可能なメモリであり、CPU110が登場人物推定プログラムを実行する際に生じる各種データを一時的に格納することが可能に構成されている。
特定部200は、後述する表示装置40に表示される映像に登場する人物を、その幾何学的特徴に基づいて特定することが可能に構成された、本発明に係る「特定手段」の一例である。
ここで、図2を参照して、特定部200による登場人物特定の詳細について説明する。ここに、図2は、特定部200による人物特定の模式図である。
図2において、特定部200は、表示装置40に表示される映像に対し、特定可能枠と認識可能枠とを使用して登場人物の特定を行うように構成されている。
特定部200は、人間の顔部分が、特定可能枠によって規定される領域以上の面積で表示されている場合には、係る人間の存在の認識、及びその人間が誰であるのかの特定の両方を行うことが可能に構成されている(図2(a))。また、特定部200は、人間の顔部分が、特定可能枠によって規定される領域未満であっても、認識可能枠によって規定される領域以上の面積で表示されている場合には、係る人間の存在を認識することが可能に構成されている(図2(b))。一方、特定部200は、人間の顔部分が、認識可能枠によって規定される領域未満の面積で表示されている場合には、映像中に人間が存在していることすら認識することができない(図2(c))。また、特定部200は、ほぼ正面向きの人間の顔のみを特定の対象とする。従って、例えば横向きの顔は、例え特定可能枠によって規定される領域以上の面積で表示されていても、特定することはできない。
図1に戻り、音声解析部300は、表示装置40から放音される音声を取得すると共に、取得された音声に基づいて、後述するショットの連続性を判断することが可能に構成された、本発明に係る「音声情報取得手段」、及び「比較手段」の一例である。
メタデータ生成部400は、CPU110が登場人物推定プログラムを実行することによって推定される登場人物に関する情報を含んだメタデータを生成することが可能に構成された、本発明に係る「メタデータ生成手段」の一例である。
統計DB20は、本発明に係る「統計的性質を有する統計データ」の夫々一例となるデータP1、データP2、データP3、データP4、データP5、及びデータP6を格納するデータベースである。尚、これら各データについては後述する。
録画再生装置30は、記憶部31及び再生部32を備える。
記憶部31には、映像41(本発明に係る「映像」の一例である)の映像データが記憶されている。記憶部31は、例えば、HDなどの磁気記録媒体、或いはDVDなどの光情報記録媒体であり、係る映像41は、デジタル形式の映像データとして、記憶部31に記憶されている。
再生部32は、記憶部31に記憶された映像データを順次読み出し、表示装置40に表示させるべき映像信号を適宜生成して、表示装置40に供給することが可能に構成されている。尚、録画再生装置30には、記憶部31に映像41を録画するための録画手段を有するが、図示は省略されている。
表示装置40は、例えば、プラズマディスプレイ装置、液晶ディスプレイ装置、有機ELディスプレイ装置、又はCRT(Cathode Ray Tube)ディスプレイ装置などのディスプレイ装置であり、録画再生装置30の再生部31によって供給される映像信号に基づいて、映像41を表示することが可能に構成されている。また、表示装置40は、音声情報を視聴者に提供するべきスピーカなどの各種放音装置を備えるが図示は省略されている。
次に、図3を参照して、統計データベース20に保管される各データの詳細について説明する。ここに、図3は、映像41に登場する登場人物の相関関係を表す相関テーブル21の模式図である。
図3において、相関テーブル21は、登場人物Hm(m=01,02,・・・,13)、及び登場人物Hn(n=01,02,・・・,13)を夫々マトリクス状に配置してなるテーブルである。ここで、登場人物Hm及び登場人物Hnは、夫々映像41における登場人物を表し、「m=n」である場合には、同一の登場人物を表す。本実施例では、映像41の登場人物は13人であるとする。尚、登場人物の人数は、ここに例示する数に限定されず、自由に設定されてよい。また、相関テーブル21に記述される登場人物は、映像41に登場する全ての人物である必要はなく、例えば、重要な役割を有する人物のみであってもよい。
相関テーブル21において、登場人物Hmと登場人物Hnとの交点に相当する要素は、登場人物Hnと登場人物Hmとの相関関係を表す統計データ群「Rm,n」を表す(但し、m≠n)。統計データ群「Rm,n」は、下記(1)式によって表される。
Rm,n=P4(Hm|Hn),P5(S|Hm,Hn)・・・・・・・・(1)
ここで、P4(Hm|Hn)とは、登場人物Hnが登場している場合に、登場人物Hmが同一のショットに登場する確率を表すデータであり、統計DB20に保管されるデータP4に相当する。尚、本実施例においては、ショットに限定されるが、データP4は、例えば「シーン」及び「カット」について同様に設定されていても構わない。
ここで、P4(Hm|Hn)とは、登場人物Hnが登場している場合に、登場人物Hmが同一のショットに登場する確率を表すデータであり、統計DB20に保管されるデータP4に相当する。尚、本実施例においては、ショットに限定されるが、データP4は、例えば「シーン」及び「カット」について同様に設定されていても構わない。
また、P5(S|Hm,Hn)とは、映像41において登場人物HnとHmとが一のショットに登場した場合に、それがS個のショットにわたって連続する確率を表すデータであり、統計DBに保管されるデータP5に相当する。
一方、相関テーブル21において、「m=n」である場合に限り、登場人物Hmと登場人物Hnとの交点に相当する要素は、登場人物個人に関する統計データ群「In(=Im)」を表す。統計データ群「In」は、下記(2)式によって規定される。
In=P1(Hn),P2(S|Hn),P3(N|Hn)・・・・・・・(2)
ここで、P1(Hn)とは、登場人物Hnが映像41に登場する確率を表すデータであり、統計DB20に保管されるデータP1に相当する。
ここで、P1(Hn)とは、登場人物Hnが映像41に登場する確率を表すデータであり、統計DB20に保管されるデータP1に相当する。
また、P2(S|Hn)とは、映像41の一ショットに登場人物Hnが登場した場合に、それがS個のショットにわたって連続する確率を表すデータであり、統計DB20に保管されるデータP2に相当する。
更に、P3(N|Hn)とは、映像41における一のショットに登場人物Hnが登場する場合に、係るショットに登場人物Hnとは異なる登場人物がN人(N:自然数)登場する確率を表すデータであり、統計DB20に保管されるデータP3に相当する。
尚、統計DB20には、テーブル21では規定されないデータP6が保管されている。データP6とは、P6(C|Sn)と表され、ショットSn−CからSnにかけてのC+1個のショットが同一カット中のショットである確率を音声認識部300の音声認識結果に対応付けて表したデータである。
即ち、統計DB20に格納されるデータP1〜P6は、本発明に係る「確率データ」の夫々一例でもある。
<実施例の動作>
続いて、本実施例に係る登場人物推定装置10の動作について説明する。
<実施例の動作>
続いて、本実施例に係る登場人物推定装置10の動作について説明する。
始めに、図4を参照して、本実施例の動作に係る映像の詳細について説明する。ここに、図4は、映像41の構造の一部を表す模式図である。
映像41は、例えば、ドラマなどのストーリ性の高い映像番組である。図4において、映像41の一シーンであるシーンSC1は、4個のカットC1〜C4で構成されており、更に、そのうちの一であるカットC1は、更に、6個のショットSH1〜SH6によって構成されている。この各ショットは、夫々本発明に係る「単位映像」の一例であり、ショットSH1が10秒、SH2が5秒、SH3が10秒、SH4が5秒、SH5が10秒、及びSH6が5秒の時間を有する映像である。従って、カットC1は、45秒の時間を有する映像である。
<第1動作例>
次に、図5を参照して、本発明の第1動作例について説明する。ここに、図5は、映像41のカットC1において登場人物が推定される過程を表す図である。尚、係る登場人物の特定は、CPU110がROM130に格納される登場人物推定プログラムを実行することによって実現される。
<第1動作例>
次に、図5を参照して、本発明の第1動作例について説明する。ここに、図5は、映像41のカットC1において登場人物が推定される過程を表す図である。尚、係る登場人物の特定は、CPU110がROM130に格納される登場人物推定プログラムを実行することによって実現される。
始めに、CPU110は、録画再生装置30の再生部32を制御して、映像41を表示装置40に表示させる。この際、再生部32は、映像41に関する映像データを記憶部31より取得すると共に、表示装置40に表示させるための映像信号を生成して、表示装置40に供給し表示させる。こうして、図5に示すようにカットC1の表示が開始されると、最初にショットSH1が表示装置40に表示される。
尚、図5において、「映像」の項目には、表示装置40の表示内容を示し、登場人物は夫々Hxp(p=0,1,2,・・・,P(但し、Pは通し番号となる自然数))と表すこととする。また、カットC1は、ショットSH1〜SH6により構成され、登場人物H01と登場人物H02との二人のカットである(図5における「事実」の項目参照)とする。
CPU110は、映像41の表示が開始されると、特定部200、音声解析部300、及びメタデータ生成部400を夫々制御し、各部の動作を開始する。
特定部200は、このCPU110の制御に従って、映像41における登場人物の特定を開始する。カットC1のショットSH1においては、Hx1及びHx2が、夫々十分に大きい面積で表示されているため、特定部200は、これら二人を夫々登場人物H01及び登場人物H02であると特定する。
特定部200によって登場人物が特定されると、CPU110は、メタデータ生成部400を制御して、ショットSH1に関するメタデータを生成する。この際、メタデータ生成部400は、「ショットSH1には登場人物H01とH02とが登場している」旨が記述されたメタデータを生成する。生成されたメタデータは、ショットSH1に係る映像データに対応付けられる形で記憶部31に記憶される。
尚、特定部200は、表示装置40における表示内容の幾何学的な変化量が、所定の範囲内に収まっている場合には、同一のショットであると判断するように構成されている。
ショットSH1の表示開始から10秒が経過する(以下、「経過時間」とする)と(図5における「時間」の項目参照)、映像はショットSH2に切り替わる。即ち、表示装置40の表示内容に幾何学的な変化が生じる。ここで、特定部200は、ショットが切り替わったと判断し、新たに登場人物の特定を開始する。ショットSH2は、登場人物H01に焦点が当たったショットであり、登場人物H02であるHx4は殆ど表示装置40の表示領域外となっている。この状態では、特定部200はHx4の存在を認識することすらできないため、特定部200によって特定される登場人物はHx3、即ち登場人物H01のみとなる。
ここで、CPU110は、特定部200による登場人物の特定を補完するために、登場人物の推定を開始する。始めにCPU110は、音声解析部300による音声解析結果をRAM130に一時的に格納する。この格納された音声解析結果とは、特定部200がショットの切り替わりであると判断した時刻前後における表示装置40から取得した音声データの比較結果である。具体的には、音声解析部300によって演算された、係る時刻前後の音圧レベルの差分、又は含まれる周波数帯域の比較データなどである。
CPU110は、この音声解析結果に鑑み、統計DB20からデータP6を取得する。より具体的には、データP6の中の、「P6(C=1|S2)」を取得する。これは、ショットSH1からショットSH2にかけての連続する2個のショットが同一のカットに属するショットである確率を表すデータである。
CPU110は、この取得されたデータP6と、RAM130に格納された音声解析結果とを照合する。この照合によれば、音声解析から判断される、係る一連のショットが同一カット内のショットである確率は70%より大きい。
次に、CPU110は、ショットSH1において登場人物H01と登場人物H02とが登場していることから、統計DB20よりデータP4を取得する。より具体的には、データP4の中の、「P4(H02|H01)」を取得する。これは、登場人物H01が登場している場合に、登場人物H02が同一ショットに登場する確率を表すデータである。この取得されたデータP4によれば、この確率は70%より大きい。
更に、CPU110は、ショットSH1において登場人物H01とH02とが登場していることから、統計DB20よりデータP5を取得する、より具体的には、データP5の中の、「P5(S=2|H02,01)」を取得する。これは、登場人物H01と登場人物H02とが一のショットに登場している場合に、それが2ショットにわたって連続する確率を表すデータである。この取得されたデータP5によれば、この確率は70%より大きい。
CPU110は、これら得られた確率を推定要素とし、最終的にショットSH2にも登場人物H02が登場していると推定する。
その推定結果を受けて、メタデータ生成部400は、「ショットSH2には登場人物H01とH02とが登場している」旨が記述されたメタデータを生成する。
経過時間が15秒になると、映像はショットSH3に切り替わる。ここでも、特定部200はショットが切り替わったと判断し、新たに登場人物の特定を開始する。ショットSH3は、登場人物H02に焦点が当たったショットであり、登場人物H01であるHx5は、殆ど表示装置40の表示領域外となっている。この状態では、特定部200はHx5の存在を認識することすらできないため、特定部200によって特定される登場人物はHx6、即ち登場人物H02のみである。
CPU110は、ここでもショットSH2と同様にして登場人物の推定を行う。この際、CPU110は統計DB20から、データP6、データP4、及びデータP5を取得する。より具体的には、データP6によって、ショットSH1からショットSH3にかけての一連の3ショットが同一カット中のショットである確率が、データP4によって、登場人物H01が登場している場合に登場人物H02が同一ショットに登場する確率が、更に、データP5によって、登場人物H01と登場人物H02とが一のショットに登場している場合に、それが3ショットにわたって連続する確率が、夫々推定要素として与えられる。CPU110は、これら推定要素から、ショットSH3にも登場人物H01が登場していると推定する。その推定結果を受けて、メタデータ生成部400は、「ショットSH3には登場人物H01とH02とが登場している」旨が記述されたメタデータを生成する。
経過時間が25秒となり、映像がショットSH4に切り替わると、特定部200は、登場人物の特定を新たに開始する。この際、ショットSH1と同様にして、登場人物が登場人物H01とH02であることが特定される。ここでは、CPU110は特に登場人物の推定を実行しない。
経過時間が30秒となり、再びショットが切り替わると、特定部200は係るショットSH5について登場人物の特定を開始する。しかしながら、ショットSH5においては、Hx9及びHx10が夫々特定可能枠によって規定される面積よりも小さい領域に表示されているため、特定部200は二人の人間が存在することは認識できても、それが誰であるのかを特定することはできない。
CPU110は、特定部200によって、ショットSH5に二人の人物が登場していることは既に認識されているので、推定部200によって係る二人の人物が誰であるかを推定する。即ち、統計DB20から、データP6、データP4、及びデータP5を取得する。
先ず、データP6により、ショットSH1からショットSH5にかけての一連の5ショットが同一カットである確率が、データP4により、登場人物H01が登場している場合に登場人物H02が同一ショットに登場する確率、及び登場人物H02が登場している場合に登場人物H01が同一ショットに登場する確率が、そして、データP5により、登場人物H01とH02とが登場している場合に、それが5ショットにわたって連続する確率が、夫々推定要素として与えられる。CPU110は、これら推定要素から、ショットSH5における登場人物は、登場人物H01とH02であると推定する。その推定結果を受けて、メタデータ生成部400は、「ショットSH5には登場人物H01とH02とが登場している」旨が記述されたメタデータを生成する。
経過時間が40秒となって、映像がショットSH6に切り替わると、特定部200は、新たに登場人物の特定を開始する。ここでは、ショットSH1及びショットSH4と同様にして、登場人物が登場人物H01と登場人物H02であることが特定されて、カットC1に係る登場人物の特定が終了する。
ここで、登場人物推定装置10の効果を、メタデータ生成部400によって生成されたメタデータに関連付けて説明する。
メタデータ生成部400は、上述した特定部200による特定及びCPU110による推定の結果を受けて、カットC1に係る全てのショットについて、「登場人物が登場人物H01と登場人物H02である」旨を示すメタデータを生成している。従って、例えば、後々、視聴者が「登場人物H01と登場人物H02とが両方登場するカット」を検索する際、このメタデータをインデックスとして、ショットの欠落のない完全なカットC1を簡便に抽出することが可能となる。
一方、比較例として、特定部200による登場人物の特定結果のみに基づいてメタデータが生成された場合(図5の比較例参照)を挙げると、カットC1において、登場人物H01とH02が両方共登場する旨が記述されたショットは、ショットSH1、SH4、及びSH6のみであり、メタデータをインデックスとして、同じようにカットC1を抽出する場合、ショットSH2、SH3、及びSH5が欠落した形でカットC1が抽出される。これでは、会話も、映像も全てが途切れ途切れとなり、極めて不完全な抽出結果となって、視聴者に不満を抱かせることとなる。
以上説明したように、本実施例に係る登場人物推定装置10によれば、映像に登場する人物の特定精度を簡便にして向上させることが可能となるのである。
尚、上述した第1動作例において、ショットSH1、ショットSH4及びショットSH6の夫々に対し、CPU110は特に登場人物の推定を実行しないが、例えば、積極的に何らかの統計データを統計DB20から取得して推定が行われる可能性もある。そのような場合には、例えば、存在しない人間を登場人物として推定してしまうことも考えられる。しかしながら、CPU110は、特定部200によって特定された登場人物に対しては推定を行わないように設定することも容易に可能であり、従って、既に特定されている登場人物が「存在しない」と推定されることはない。即ち、推定結果が冗長となる可能性はあっても、登場している人物を漏れのないように特定する精度が劣化する可能性はゼロに等しいので有益である。
<第2動作例>
次に、図6を参照して、本発明に係る登場人物推定装置10の第2動作例について説明する。ここに、図6は、映像41のカットC1において登場人物が推定される過程を表す図である。但し、上述の第1動作例とはカットC1の内容が異なるものとする。尚、同図において、図5と重複する箇所には同一の符号を付してその説明を省略する。
<第2動作例>
次に、図6を参照して、本発明に係る登場人物推定装置10の第2動作例について説明する。ここに、図6は、映像41のカットC1において登場人物が推定される過程を表す図である。但し、上述の第1動作例とはカットC1の内容が異なるものとする。尚、同図において、図5と重複する箇所には同一の符号を付してその説明を省略する。
図6において、カットC1は、第1実施例と同様に6個のショットからなる。但し、全てのショットにおいて、登場人物は登場人物H01のみであり、他の登場人物は登場しない。
図6のショットSH1、SH3、及びSH6においては、Hx1、Hx3及びHx6は十分に大きい表示面積で表示されており、夫々特定部200によって容易に登場人物H01であると特定される。
一方、ショットSH2において、Hx2は胴体部分よりも下方が表示されており、特定部200は、人間が存在していることを認識することができない。
ここで、CPU110は、ショットSH2に登場人物が存在するか、更にはそれが誰であるのかを推定するために、統計DB20から、データP6、データP1、及びデータP2を夫々取得する。具体的には、データP6の中の「P6(C=1|S2)」、データP1の中の「P1(H01)」、及びデータP2の中の「P2(S2|H01)」を夫々取得する。
これらデータのうち、「P6(C=1|S2)」は、第1動作例で既に述べたのと同様、ショットの連続性の判断に使用される。即ち、ショットSH1からショットSH2にかけての一連の2ショットが、同一カット中のショットである確率が推定要素として与えられる。
また、「P1(H01)」からは、登場人物H01が映像41に登場する確率が推定要素として与えられる。そして、「P2(S2|H01)」から、登場人物H01が一のショットに登場している場合に、それが2ショットにわたって連続する確率が推定要素として与えられる。
CPU110は、これら3個の推定要素から、ショットSH2が、ショットSH1と同一カット中のショットである確率が高く、登場人物H01が登場する確率が高く、登場人物H01が2ショットに連続して登場する確率が高いと判断し、ショットSH2に登場人物H01が登場していると推定する。
次に、映像がショットSH4に切り替わると、表示装置40にはHx4が表示されず、Hx4の所有物である「煙草」のみが表示される。ここで、視聴者は、この煙草からHx4が登場人物H01であると容易に想像することが可能であるが、特定部200は、人間の存在すら認識することができない。
CPU110は、ここでも、ショットSH2において登場人物H01を推定したのと同様の手法により、データP6、データP1、及びデータP2に基づいて登場人物H01がショットSH4に登場していることを推定する。
更に、映像がショットSH5に切り替わると、表示装置40には「コーヒーカップ」が表示される。ここでも、視聴者はこのアイテムによって示唆される登場人物が登場人物H01であると容易に想像可能であるが、特定部200は、人間の存在すら認識することができない。
ここで、CPU110は、ショットSH2及びSH4において、登場人物H01の登場を推定したのと同様の手法により、このショットSH5にも登場人物H01が登場していると推定する。
このようなカットC1中の一連の推定動作により、結果的にメタデータ生成部400によって生成されるメタデータには、ショットSH1からSH6にかけての6個のショット全てに登場人物H01が登場している旨が記述される。
一方、第1動作例と同様に、比較例と比較すると、カットC1において登場人物H01が登場しているとされるショットはショットSH1、SH3、及びSH6のみとなり、「登場人物H01が単独で登場するカット」が検索される場合、例えば、これら不連続な3個のショットが抽出されることとなり、極めて不自然な映像が視聴者に提供される。
このように、第2動作例においても、本実施例に係る登場人物推定の効果は存分に発揮され、登場人物の特定精度が著しく向上する。
<第3動作例>
次に、図7を参照して、本発明に係る登場人物推定装置10の第3動作例について説明する。ここに、図7は、映像41のカットC1において登場人物が推定される過程を表す図である。但し、上述の動作例とは、カットC1の内容が異なる。尚、同図において、図5と重複する箇所には同一の符号を付してその説明を省略する。
<第3動作例>
次に、図7を参照して、本発明に係る登場人物推定装置10の第3動作例について説明する。ここに、図7は、映像41のカットC1において登場人物が推定される過程を表す図である。但し、上述の動作例とは、カットC1の内容が異なる。尚、同図において、図5と重複する箇所には同一の符号を付してその説明を省略する。
図7において、カットC1は単一のショットSH1からなる。ショットSH1では、登場人物H01、H02、及びH03が登場するが、登場人物H01以外の二人は、特定部200の認識可能枠によって規定される領域よりも小さい面積で表示されている。従って、存在が認識されるのは、特定部200によって特定される登場人物H01のみとなり、他の二人はその存在すら認識されない。ここで、CPU110は、以下の如くにして登場人物H01以外の登場人物を推定する。
先ず、CPU110は、統計DB20から、データP4及びデータP3を取得する。より具体的には、データP4の中の「P4(H02,H03|H01)」、及びデータP3の中の「P3(2|H01)」を取得する。
前者は、一のショットに登場人物H01が登場している場合に、登場人物H02及び登場人物H03が同一ショットに登場する確率を表すデータであり、その確率は70%より大きい。また、後者は、一のショットに登場人物H01が登場する場合に、登場人物H01を除く二人の登場人物が同一ショットに登場する確率を表すデータであり、その確率は30%より大きい。
CPU110は、これらのデータを推定要素とし、登場人物H01の他に、登場人物H02及び登場人物H03が登場していると推定する。従って、メタデータ生成部400によって生成されるメタデータには、ショットSH1の登場人物は登場人物H01、H02、及びH03である旨が記述される。
一方、比較例においては、特定部200による登場人物特定結果しか反映されないため、生成されるメタデータには、ショットSH1の登場人物は登場人物H01である旨のみが記述される。従って、例えば「登場人物H01、H02、及びH03」が登場するカット」を検索する場合には、本実施例によれば、第3動作例に係るカットC1を瞬時に検索可能であるのに対し、比較例では、登場人物H01が登場する膨大なカットの中から所望のカットを視聴者が検索しなければならなくなり、大変に非効率的である。
尚、統計DB20に格納されるデータは、上述したデータP1からデータP6以外にも、映像中の登場人物を推定可能な限りにおいて自由に設定されてよい。例えば、複数回にわたって放送されるドラマ番組などでは、「第○○回の放送分に登場人物△△が登場する確率」を表すデータが設定されていてもよいし、また、「登場人物△△と登場人物□□が登場した場合にそれ以外の登場人物がN人登場する確率」を表すデータが設定されていてもよい。
尚、登場人物推定装置10は、ユーザによる入力が可能な、キーボード或いはタッチボタンなどの入力手段を備えていてもよい。この入力手段を介して、ユーザが視聴を所望する登場人物のデータを登場人物推定装置10に指示してもよい。この場合、登場人物推定装置10は、統計DB20の中から、係る入力されたデータに対応する統計データを選択して取得し、係る登場人物が登場するカットやショットなどを検索してもよい。或いは、上述の各実施例において、係る視聴が所望される登場人物が存在するか否かを、係る取得された統計データを参照して積極的に推定してもよい。
尚、本実施例においては、本発明に係る「登場物」の一例である登場人物を特定する態様について延べたが、既に述べたように、本発明において「登場物」とは人物に限定されず、動物、植物、或いは何らかの物体であってもよく、映像に登場するこれらを、本実施例と同様にして特定することも勿論可能である。
本発明は、上述した実施例に限られるものではなく、請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う登場物推定装置及び方法、並びにコンピュータプログラムもまた本発明の技術的範囲に含まれるものである。
本発明に係る登場物推定装置及び方法、並びにコンピュータプログラムは、例えば、映像に登場する登場物の特定精度を向上させ得る登場物推定装置に利用可能である。また、例えば民生用或いは業務用の各種コンピュータ機器に搭載される又は各種コンピュータ機器に接続可能な登場物推定装置等にも利用可能である。
Claims (13)
- 記録された映像に登場する登場物を推定するための登場物推定装置であって、
所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを取得するデータ取得手段と、
前記取得された統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定手段と
を具備することを特徴とする登場物推定装置。 - 視聴が所望される登場物に関するデータの入力を促す入力手段を更に具備し、
前記データ取得手段は、前記入力がなされた登場物に関するデータに基づいて前記統計データを取得する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 前記一の単位映像における登場物を前記一の単位映像の幾何学的特徴に基づいて特定する特定手段を更に具備する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 前記推定手段は、前記一又は他の単位映像における登場物のうち前記特定手段により特定された登場物については推定せず、前記特定手段により特定されない登場物を推定する
ことを特徴とする請求の範囲第3項に記載の登場物推定装置。 - 前記推定手段による推定結果に基づいて、前記一の単位映像における登場物についての情報が少なくとも記述された所定のメタデータを生成するメタデータ生成手段を更に具備する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 前記データ取得手段は、前記統計データの少なくとも一部として、前記登場物の夫々が前記映像に登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が、前記一の登場物が登場する単位映像と相互に連続するM個(M:自然数)の単位映像に連続して登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に前記一の登場物とは異なる他の登場物がN個(N:自然数)登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に、前記一の登場物を除く前記登場物の夫々が登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物と、前記登場物のうち前記一の登場物とは異なる他の登場物とが登場する場合に、前記一の登場物及び他の登場物が、前記一の登場物及び他の登場物が登場する単位映像と相互に連続するL個(L:自然数)の単位映像に連続して登場する確率を表す確率データを取得する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 前記一の単位映像及び前記他の単位映像の夫々に対応する音声情報を取得する音声情報取得手段と、
前記夫々に対応する音声情報を相互に比較する比較手段と
を更に具備し、
前記データ取得手段は、前記統計データの少なくとも一部として、前記一の単位映像と他の単位映像とが同一状況下における映像である確率を、前記比較手段による比較の結果に対応付けて表してなる確率データを取得する
ことを特徴とする請求の範囲第1項に記載の登場物推定装置。 - 記録された映像に登場する登場物を推定するための登場物推定方法であって、
所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する一の統計データを取得するデータ取得工程と、
前記取得された一の統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定工程と
を具備することを特徴とする登場物推定方法。 - コンピュータシステムを請求の範囲第1項に記載の推定手段として機能させることを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004262154 | 2004-09-09 | ||
JP2004262154 | 2004-09-09 | ||
PCT/JP2005/016395 WO2006028116A1 (ja) | 2004-09-09 | 2005-09-07 | 登場物推定装置及び方法、並びにコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006028116A1 JPWO2006028116A1 (ja) | 2008-05-08 |
JP4439523B2 true JP4439523B2 (ja) | 2010-03-24 |
Family
ID=36036397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006535776A Expired - Fee Related JP4439523B2 (ja) | 2004-09-09 | 2005-09-07 | 登場物推定装置及び方法、並びにコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US7974440B2 (ja) |
EP (1) | EP1802115A1 (ja) |
JP (1) | JP4439523B2 (ja) |
CN (1) | CN101015206A (ja) |
WO (1) | WO2006028116A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5087867B2 (ja) * | 2006-07-04 | 2012-12-05 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP5371083B2 (ja) * | 2008-09-16 | 2013-12-18 | Kddi株式会社 | 顔識別特徴量登録装置、顔識別特徴量登録方法、顔識別特徴量登録プログラム及び記録媒体 |
JP5483863B2 (ja) * | 2008-11-12 | 2014-05-07 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
US8600118B2 (en) * | 2009-06-30 | 2013-12-03 | Non Typical, Inc. | System for predicting game animal movement and managing game animal images |
WO2011064938A1 (ja) * | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6751354B2 (en) * | 1999-03-11 | 2004-06-15 | Fuji Xerox Co., Ltd | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
US6754389B1 (en) | 1999-12-01 | 2004-06-22 | Koninklijke Philips Electronics N.V. | Program classification using object tracking |
JP4208434B2 (ja) | 2000-05-25 | 2009-01-14 | 富士通株式会社 | 放送受信機,放送制御方法,コンピュータ読み取り可能な記録媒体,及びコンピュータプログラム |
US7013477B2 (en) * | 2000-05-25 | 2006-03-14 | Fujitsu Limited | Broadcast receiver, broadcast control method, and computer readable recording medium |
JP4491979B2 (ja) | 2001-03-01 | 2010-06-30 | ヤマハ株式会社 | インデックス配信方法、インデックス配信装置および番組記録装置 |
FR2852422B1 (fr) * | 2003-03-14 | 2005-05-06 | Eastman Kodak Co | Procede d'identification automatique d'entites dans une image numerique |
EP1566788A3 (en) * | 2004-01-23 | 2017-11-22 | Sony United Kingdom Limited | Display |
-
2005
- 2005-09-07 US US11/662,344 patent/US7974440B2/en not_active Expired - Fee Related
- 2005-09-07 WO PCT/JP2005/016395 patent/WO2006028116A1/ja active Application Filing
- 2005-09-07 CN CNA2005800304311A patent/CN101015206A/zh active Pending
- 2005-09-07 JP JP2006535776A patent/JP4439523B2/ja not_active Expired - Fee Related
- 2005-09-07 EP EP05782070A patent/EP1802115A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
WO2006028116A1 (ja) | 2006-03-16 |
EP1802115A1 (en) | 2007-06-27 |
JPWO2006028116A1 (ja) | 2008-05-08 |
CN101015206A (zh) | 2007-08-08 |
US7974440B2 (en) | 2011-07-05 |
US20080002064A1 (en) | 2008-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101382499B1 (ko) | 영상 태깅 방법 및 이를 사용하는 영상 재생 장치. | |
CN101112090B (zh) | 视频内容回放辅助方法、系统和信息分发服务器 | |
US20080159708A1 (en) | Video Contents Display Apparatus, Video Contents Display Method, and Program Therefor | |
US20040083490A1 (en) | Program recommendation system, program recommendation method and program for realizing the same | |
US20070044122A1 (en) | Program recommendation system | |
US9430115B1 (en) | Storyline presentation of content | |
CN103686344A (zh) | 增强视频系统及方法 | |
US11871060B2 (en) | Systems and methods for media content navigation and filtering | |
JP4439523B2 (ja) | 登場物推定装置及び方法、並びにコンピュータプログラム | |
US20160142773A1 (en) | Information processing apparatus, information processing method, and information processing program | |
KR20120078730A (ko) | 이질적 컨텐트 소스들의 링크 | |
JP2007129531A (ja) | 番組提示システム | |
CN112507163A (zh) | 时长预测模型训练方法、推荐方法、装置、设备及介质 | |
JP2009004994A (ja) | ダイジェスト映像情報作成方法、ダイジェスト映像情報作成プログラム、および、映像装置 | |
US9715509B2 (en) | Method for navigating identifiers placed in areas and receiver implementing the method | |
JP5148325B2 (ja) | コンテンツ処理装置、コンテンツ処理方法、コンテンツ再生装置、プログラム、および記録媒体 | |
Boukadida et al. | Automatically creating adaptive video summaries using constraint satisfaction programming: Application to sport content | |
EP3270600A1 (en) | System and method for supplemental content selection and delivery | |
US10657176B1 (en) | Associating object related keywords with video metadata | |
KR102500735B1 (ko) | 영상에 연관된 광고 정보를 표시하기 위한 영상 스트리밍 서비스 서버 및 그 동작 방법 | |
KR101983244B1 (ko) | 멀티미디어 컨텐트 아이템에 대한 정보를 제공하기 위한 방법 및 장치 | |
JP2007184674A (ja) | ダイジェスト作成装置 | |
KR20200071731A (ko) | 규칙 기반 보조 데이터 | |
CN113542820B (zh) | 一种视频编目方法、系统、电子设备及存储介质 | |
US20230199194A1 (en) | Video processing device, video processing method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100105 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |