JP5218766B2

JP5218766B2 - 権利情報抽出装置、権利情報抽出方法及びプログラム

Info

Publication number: JP5218766B2
Application number: JP2008540979A
Authority: JP
Inventors: 亮磨大網
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-10-26
Filing date: 2007-10-22
Publication date: 2013-06-26
Anticipated expiration: 2027-10-22
Also published as: JPWO2008050718A1; WO2008050718A1

Description

本発明は権利情報抽出装置、権利情報抽出方法及びプログラムに関し、特に、番組等のコンテンツから、著作権や著作隣接権などの権利に関する情報を抽出する権利情報抽出装置、権利情報抽出方法及びプログラムに関する。

従来、コンテンツに付随する著作権などの権利を管理する権利管理システムが、例えば、特許文献１に記載されている。

特許文献１に記載されている権利管理システムは、コンテンツマネジメントサーバで著作権などの権利を一括管理し、契約管理サーバや課金サーバ、認証サーバなどと連携することによって、コンテンツ利用者の要求に応じた自動契約、およびコンテンツのセキュアな流通を実現している。

一方、権利情報は、仲介業者によって人手により登録されることを前提としている。すなわち、権利情報のデータベースの整備は人手に頼っているのが現状であり、過去に制作したコンテンツを、特許文献１に記載されたようなシステムで取り扱えるようにするためには、誰かが権利情報を抽出し、仲介業者等を通じてデータベースに登録する必要がある。

しかしながら、過去のコンテンツの場合、契約情報の詳細などが残っていない場合も多く、まず、誰がコンテンツの権利を有するかを明確にする必要がある。従来、これらの作業は人手で確認しながら登録するようになっており、このプロセスに非常に膨大な工数を費やさねばならないという問題があった。これが、例えば、テレビ放送されたドラマなどの優良コンテンツが二次流通市場に流れない原因ともなっていた。

特開２００２−１０９２５４号公報

第１の問題点は、映像などのコンテンツに関連する権利情報の特定が自動化されていないことである。このため、過去コンテンツの利用に際しては、コンテンツの権利者を特定するために、人手で権利情報を抽出しなければならず、膨大な手間がかかっていた。

第２の問題点は、これをテロップ認識などの技術によって抽出する場合には、精度が十分でないことである。その理由は、通常のテロップ認識では、権利情報に特化していないため、精度が低いという問題があった。また、権利に関係のない情報も多く含まれ、権利情報の特定が困難であるという問題があった。

そこで、本発明は上記課題に鑑みて発明されたものであって、映像などのコンテンツから権利に関する情報を自動抽出できる権利情報抽出装置及び権利情報抽出方法を提供することである。

上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段を有することを特徴とする。

上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、前記クレジット候補情報と、前記対象物識別情報とを統合し、権利情報として出力する統合手段とを有することを特徴とする。

上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する統合手段とを有することを特徴とする。

上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力することを特徴とする権利情報抽出方法である。

上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを有することを特徴とする。

上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを有することを特徴とする。

上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理を情報処理装置に実行させることを特徴とするプログラムである。

上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを情報処理装置に実行させることを特徴とするプログラムである。

上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを情報処理装置に実行させることを特徴とするプログラムである。

本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するようにしているので、コンテンツに関連する権利に関する情報を精度良く、自動抽出することができる。

また、著作権等のコンテンツに関連する権利に関する情報を、コンテンツから抽出する処理の省力化が図れる点である。その理由は、コンテンツから自動的に著作権などの権利情報を抽出することが可能になるためである。

図１はクレジット認識手段１００のブロック図である。図２はクレジット情報重畳区間検出手段４００の構成を示した図である。図３は主題歌検知手段４１０の具体的な構成を示した図である。図４は主題歌検知手段４１０の他の具体的な構成を示した図である。図５は主題歌検知手段４１０の他の具体的な構成を示した図である。図６は主題歌検知手段４１０の他の具体的な構成を示した図である。図７は主題歌検知手段４１０の他の具体的な構成を示した図である。図８は主題歌検知手段４１０の他の具体的な構成を示した図である。図９はクレジット情報重畳区間検出手段４００の他の構成を示した図である。図１０はクレジット情報重畳区間検出手段４００の他の構成を示した図である。図１１はクレジット情報重畳区間検出手段４００の他の具体的な構成を示した図である。図１２はクレジット情報読み取り手段６００の一例を示した図である。図１３はクレジット情報読み取り手段６００の他の構成を示した図である。図１４は主題歌背景映像生成手段６２０の構成を示した図である。図１５はクレジット情報読み取り手段６００の他の構成を示した図である。図１６は本発明の第２の実施の形態の構成を示した図である。図１７は本発明の第３の実施の形態の構成を示した図である。図１８は音楽著作物認識手段１０１の構成例を示した図である。図１９は音楽著作物認識手段１０１の他の構成を示した図である。図２０は音楽著作物照合手段８２２の構成を示した図である。図２１は登場人物認識手段１０２の構成を示した図である。図２２は登場人物認識手段１０２の他の構成を示した図である。図２３は本発明の第３の実施の形態の他の構成を示した図である。図２４は本発明の第３の実施の形態の他の構成を示した図である。

符号の説明

１００クレジット情報認識手段
１０３統合手段
１０５対象物認識手段
１２０統合手段
１３０統合手段
４００クレジット情報重畳区間検出手段
４１０主題歌検知手段
４２０映像切り出し手段
４３０音響特徴量抽出手段
４３１音響特徴量照合手段
４３２主題歌音響特徴量データベース
４３５主題歌音響特徴量データベース
４４０音響特徴量抽出手段
４４１音響特徴量照合手段
４４２視覚特徴量抽出手段
４４３視覚特徴量照合手段
４４５音響特徴量照合手段
４５０連続音響区間抽出手段
４５１主題歌区間判定手段
４５２主題歌候補区間判定手段
４７０連続テロップ検知手段
４８０ロールテロップ検知手段
４８１選択手段
６００クレジット情報読み取り手段
６１０テロップ読み取り手段
６２０主題歌背景映像生成手段
６３０主題歌背景差分映像生成手段
６４０テロップ読み取り手段
６５０テロップ読み取り結果総合判断
７００背景映像生成手段
７１０対応フレーム算出手段
７２０視覚特徴量抽出手段
８００楽曲候補抽情報出手段
８０１候補音響特徴量選択手段
８０２音楽著作物照合手段
８０３楽曲音響特徴量データベース
８２０音楽関連制作情報抽出手段
８２１音楽著作物照合パラメータ選択手段
８２２音楽著作物照合手段
８２３音楽著作物照合パラメータデータベース
９００出演者候補情報抽出手段
９０１候補人物特徴量選択手段
９０２出演者照合手段
９０３人物特徴量データベース
９２０出演者所属団体抽出手段
９２１出演者照合パラメータ選択手段
９２２出演者照合手段
９２３人物照合パラメータデータベース
９５０音声重畳判定手段
９５１音響特徴量照合手段

＜第１の実施の形態＞
第１の実施の形態を説明する。

第１の実施の形態では、コンテンツを解析してクレジット情報を読み取り、クレジット情報の候補となる情報を出力するクレジット情報認識手段１００について説明する。

図１はクレジット認識手段１００のブロック図である。

クレジット情報認識手段１００では、コンテンツ中からクレジット情報が含まれている可能性が高い区間（以後、この区間をクレジット情報重畳区間と呼ぶ）を抽出する。次に、クレジット情報重畳区間に含まれる映像や音声を解析し、コンテンツからクレジット情報としてテロップ情報や音声を読み取る。そして、その結果をクレジット候補情報として出力する。
また、クレジット情報認識手段１００において、クレジット情報を読み取る際には、クレジット情報が重畳されている可能性が高い区間だけではなく低い区間も読み取る様にしても良い。更に、読み取るクレジット情報は、コンテンツの権利に関しないクレジット情報も読取るようにしても良い。

ここで、コンテンツとは、映像、音声等から構成されるものであり、例えば、テレビ番組、ラジオ番組、映画等をいい、かならずしも放送や公開されるものに限られず、ＤＶＤ等の記録媒体に格納されたものも含む。

また、クレジット情報とは、コンテンツの主題歌や最後の部分等に重畳されている、原作者や脚本家、出演者、主題歌、協力団体、提供企業などの情報を記したテロップや、音声である。

また、クレジット情報認識手段１００に入力されるコンテンツは、MPEGなどの圧縮されたフォーマットで入力されてもよいし、既に復号されてから入力されてもよい。圧縮された映像として入力される場合には、クレジット情報認識手段の中で映像を復号しながら解析を行う。なお、番組映像は、ある特定の一回の放送分の映像であってもよいし、あるいは、同じ番組の複数の回の映像（例えば、ドラマの第1話から第10話までなど）を同時に入力する構成になっていてもよい。

更に、クレジット候補情報は、認識された文字列とその時間情報、画像中での位置情報（フレーム内での座標）を含んでいてもよい。また、テロップや音声の認識の確からしさを表す指標を含んでいてもよい。また、クレジット候補情報は、認識された各文字列に対して１つの情報を出力するようになっていてもよいし、複数の候補文字列を出力するようになっていてもよい。また、テロップが読み取れなかった場合には、そのテロップを含む映像中の時空間位置を特定する情報をクレジット候補情報に含んで出力してもよい。さらに、この時空間位置の映像情報自体をクレジット候補情報に含んで出力してもよい。

次に、図１に示されるクレジット情報認識手段１００の各構成について述べる。尚、以下の説明では、コンテンツの例として番組映像を例にして説明する。

図１を参照すると、クレジット情報認識手段１００は、クレジット情報重畳区間検出手段４００とクレジット情報読み取り手段６００とからなる。

クレジット情報重畳区間検出手段４００は、番組映像を入力とし、その出力はクレジット情報読み取り手段６００へ接続される。クレジット情報読み取り手段６００は、クレジット情報重畳区間検出手段４００から出力されるクレジット情報重畳区間映像データを入力とし、クレジット候補情報を出力する。

次に、図１に示すクレジット情報認識手段１００の実施の形態の動作について説明する。

番組映像は、まず、クレジット情報重畳区間検出手段４００へ入力される。クレジット情報重畳区間検出手段４００では、視覚特徴量や音響特徴量、あるいはテロップの出現パターンなどの特徴を用いて、クレジット情報重畳区間を特定する。この方式の詳細については後述する。そして、特定された時間区間の映像データを、クレジット情報重畳区間映像データとして出力する。

クレジット情報重畳区間映像データは、クレジット情報読み取り手段６００へ入力される。クレジット情報読み取り手段６００では、入力される映像、あるいはそれを処理して得られる映像に対してテロップ認識が行われる。そして得られた認識結果をクレジット候補情報として出力する。

このように、本発明のクレジット情報認識手段１００では、クレジット情報が重畳されている箇所を特定し、その区間を重点的に識別することで、映像に対して単純にテロップ認識を適用する場合に比べ、効率的に精度よくクレジット情報を抽出することが可能になる。

＜クレジット情報重畳区間検出手段４００の具体的な構成＞
１．主題歌に着目してクレジット情報重畳区間を検出
クレジット情報重畳区間検出手段４００の具体的な構成について説明する。以下に説明するクレジット情報重畳区間検出手段４００は、コンテンツに含まれる音響のうち主題歌の部分にクレジット情報が重畳されることが多いことを利用した具体例である。尚、音響の一例として主題歌を用いたが、これに類するものであれば、主題歌に限られない。

図２はクレジット情報重畳区間検出手段４００の構成を示した図であり、クレジット情報重畳区間検出手段４００は、主題歌検知手段４１０と映像切り出し手段４２０とからなる。

主題歌検知手段４１０は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段４２０へ接続される。映像切り出し手段４２０は、番組映像と主題歌検知手段４１０から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。

次に、図２に示すクレジット情報重畳区間検出手段４００の動作について述べる。

番組映像は、まず、主題歌検知手段４１０へ入力される。主題歌検知手段４１０では、映像中から主題歌を含む区間を抽出する。これは、ドラマなどの映像では、ほとんどの場合、主題歌の部分にクレジット情報が重畳されるためである。すなわち、主題歌の時間区間は、クレジット情報重畳区間とみなせる。番組映像から主題歌時間区間を抽出する方法の詳細については後述する。抽出された主題歌部分を特定する時刻情報は、区間指定時刻情報として出力される。

区間指定時刻情報は、番組映像とともに、映像切り出し手段４２０へ入力される。映像切り出し手段４２０では、番組映像ののうち、区間指定時刻情報によって指定される映像データを特定し、クレジット情報重畳区間映像データとして出力する。ここで、特定された映像をもとの番組映像から実際に切り出して出力してもよい。あるいは、実際に切り出すことはせず、区間の先頭と最後の位置へジャンプするための情報（例えば番組先頭からのバイト数）を取得し、特定された区間にすぐに頭だしできるようにするだけでもよい。この場合も、すぐに指定区間の先頭にアクセスできるため、実際に切り出した場合と同様に後段の処理が行える。

このように図２に示すクレジット情報重畳区間検出手段では、主題歌を検知することで、精度よくクレジット情報重畳区間を求めることを可能にする。

（１）主題歌検知手段４１０の具体的構成例１
主題歌検知手段４１０の具体的な構成について説明する。

図３を参照すると、主題歌検知手段４１０は、音響特徴量抽出手段４３０と音響特徴量照合手段４３１と主題歌音響特徴量データベース４３２とからなる。音響特徴量抽出手段４３０は、番組映像を入力とし、その出力である音響特徴量は音響特徴量照合手段４３１へ入力される。音響特徴量照合手段４３１は、音響特徴量抽出手段４３０から出力される音響特徴量と主題歌音響特徴量データベース４３２からの音響特徴量を入力とし、区間指定時刻情報を出力する。

次に、図３に示す主題歌検知手段４１０の動作について述べる。

番組映像は、まず、音響特徴量抽出手段４３０へ入力される。音響特徴量抽出手段４３０では、番組映像の音響信号を解析し、音響特徴量を抽出する。抽出された音響特徴量は、音響特徴量照合手段４３１へ出力される。音響特徴量照合手段４３１では、音響特徴量抽出手段４３０から入力される番組映像の音響特徴量と主題歌音響特徴量データベース内の主題歌音響特徴量を照合する。そして、番組音響特徴量中の照合した部分に相当する時間区間を特定する時刻情報（区間の始点、終点、時間長など）を区間指定時刻情報として出力する。

ここで、主題歌音響特徴量は、主題歌から予め抽出した音響特徴量である。これを事前に登録しておき、主題歌検知に用いる。この際、主題歌が予め既知の場合には、その主題歌の音源（ＣＤなど）から音響特徴量を抽出して用いることができる。あるいは、シリーズもののドラマなどの場合には、ある一回の映像で主題歌の区間を特定し、この部分の音響特徴量を用いて他の回のドラマ映像の主題歌検知に用いることができる。

上述した主題歌検知手段４１０は、主題歌音響特徴量データベースに登録されている特徴量を用いて照合を行うため、確実に主題歌の部分を抽出することができる。

（２）主題歌検知手段４１０の具体的構成例２
主題歌検知手段４１０の他の具体的な構成について説明する。

図４を参照すると、主題歌検知手段４１０の他の具体的な構成例が示されており、音響特徴量抽出手段４４０と音響特徴量照合手段４４１とからなる。音響特徴量抽出手段４４０は、番組映像を入力とし、その出力である音響特徴量は音響特徴量照合手段４４１へ入力される。音響特徴量照合手段４４１は、音響特徴量抽出手段４４０から出力される音響特徴量を入力とし、区間指定時刻情報を出力する。

次に、図４に示す主題歌検知手段４１０の動作について述べる。

番組映像は、まず、音響特徴量抽出手段４４０へ入力される。ここで、番組映像は、単一の回の番組映像ではなく、複数回の番組映像をまとめて入力するものとする。例えば、シリーズもののドラマの場合には、数話分のドラマ映像がまとめて入力されるものとする。音響特徴量抽出手段４４０では、この複数回のドラマ映像それぞれに対して音響特徴量の抽出を行う。抽出された各回の音響特徴量は、音響特徴量照合手段４４１へ出力される。

音響特徴量照合手段４４１では、入力される複数回の番組の音響特徴量間で照合を行う。この際、照合は各回の番組全体で行うのではなく、番組から切り出される任意長の区間同士で行う。これにより、各回で音響特徴量が一致する区間が求まる。このようにして求まった区間のうち、一定区間長以上のものは、主題歌に相当する可能性が高いと考えられる。よって、上記で求まった一定区間長以上の区間を指定する時刻情報を区間指定時刻情報として出力する。あるいは、さらに区間の位置情報を用いて判定してもよい。即ち、主題歌は番組の冒頭か最後に流れる場合が多いことを利用して主題歌の区間を特定してもよい。この情報は、各回の番組に対して出力される。

図４に示す主題歌検知手段４１０は、主題歌が何であるかを知っていなくても、複数回の映像を用いて同じ音響のパターンを有するところを見つけることで、主題歌部分を特定できる。すなわち、主題歌特徴量を格納したデータベースが不要となる。

また、はじめの数回で主題歌部分を特定し、主題歌の特徴量を抽出すれば、それ以降の回では、抽出した主題歌の特徴量を用いて図３と同様にして主題歌部分を特定することもできる。これにより、複数回の動画間全体で共通部分を見つける場合に比べ、より少ない演算量で確実に主題歌部分を特定できる。

（３）主題歌検知手段４１０の具体的構成例３
主題歌検知手段４１０の他の具体的な構成について説明する。

図５を参照すると、主題歌検知手段４１０の他の具体的な構成の一例が示されており、連続音響区間抽出手段４５０と主題歌区間判定手段４５１とからなる。連続音響区間抽出手段４５０は、番組映像を入力とし、その出力である連続音響時間情報は主題歌区間判定手段４５１へ入力される。主題歌区間判定手段４５１は、連続音響区間抽出手段４５０から出力される連続音響時間情報を入力とし、区間指定時刻情報を出力する。

次に、図５に示す主題歌検知手段４１０の動作について述べる。

番組映像は、まず、連続音響区間抽出手段４５０へ入力される。ここでは、映像中の音響信号から音響の連続性（持続性）を分析する。そして、連続する音響区間がみつかった場合には、その時刻情報を連続音響時間情報として主題歌区間判定手段４５１へ出力する。

連続音響の分析は、例えば、番組映像の音響信号のパワーから無音区間を見つけ、無音区間で挟まれる区間を連続音響区間とする方式が考えられる。この際、音響特徴量を分析して音響信号の楽曲らしさを判定し、これが高いときのみ、連続音響区間として出力するようにしてもよい。この分析には、音響データに基づいて学習したサポートベクターマシンなどの音響判別器を用いることができる。

主題歌区間判定手段４５１では、入力される連続音響時間情報から主題歌に相当する時間区間を選択し、区間指定時刻情報として出力する。この際、主題歌部分は音響が長く続くこと、および、主題歌は番組のはじめか終わりに近い部分に存在することなどの条件を用いて主題歌区間を判定する。

このように、本説明の主題歌検知手段４１０では、音響が連続して続く場所は主題歌やBGMの部分が多く、特に、主題歌の部分は、音響信号が長く続く（数十秒から数分）ことを利用して主題歌の部分を特定している。これにより、実際に詳細な音響解析を行わなくても簡易に主題歌部分を特定できる。

（４）主題歌検知手段４１０の具体的構成例４
主題歌検知手段４１０の他の具体的な構成について説明する。

図６を参照すると、主題歌検知手段４１０の他の具体的な構成の一例が示されており、視覚特徴量抽出手段４４２と視覚特徴量照合手段４４３とからなる。視覚特徴量抽出手段４４２は、番組映像を入力とし、その出力である番組視覚特徴量は視覚特徴量照合手段４４３へ入力される。視覚特徴量照合手段４４３は、視覚特徴量抽出手段４４２から出力される視覚特徴量を入力とし、区間指定時刻情報を出力する。

次に、図６に示す主題歌検知手段４１０の動作について説明する。

番組映像は、まず、視覚特徴量抽出手段４４２へ入力される。ここで、番組映像は、図４と同様に、複数回の番組映像がまとめて入力されるものとする。視覚特徴量抽出手段４４２では、この複数回の番組映像それぞれに対して視覚特徴量の抽出を行う。抽出された各回の視覚特徴量は、視覚特徴量照合手段４４３へ出力される。

視覚特徴量照合手段４４３では、入力される複数回の番組の視覚特徴量間で照合を行う。この際、照合は各回の番組全体で行うのではなく、番組から切り出される任意長の区間同士で行う。これにより、各回で視覚特徴量が一致する区間が求まる。このようにして求まった区間のうち、一定区間長以上のものは、主題歌に相当する可能性が高いと考えられる。よって上記で求まった一定区間以上の区間を指定する時刻情報を区間指定時刻情報として出力する。この情報は、各回の番組に対して出力される。

図６に示す主題歌検知手段４１０も、図４の場合と同様に、主題歌が何であるかを知っていなくても複数回の映像を用いて同じ視覚パターンを有するところを見つけることで、主題歌部分を特定できる。

なお、視覚特徴量は、画面全体から算出するようになっていてもよいし、画面の一部分のみから抽出するようになっていてもよい。後者の場合には、主題歌背景の一部に本編映像が重ね合わせられるような場合にも対処できるようになる。

さらに、図６の視覚特徴量による照合結果と、図４の音響特徴量による照合結果を組み合わせることも可能である。これにより、より高精度に主題歌区間を検知できるようになる。特に、背景映像は、各回によって出現順が入れ替わる場合もあるが、音響特徴量を組み合わせることで、このような場合であっても、確実に主題歌区間を特定できるようになる。また、本編の音声が主題歌と重なって音響による全区間の特定が困難な場合であっても、視覚特徴量による照合の結果を組み合わせることで、補完することが可能となる。

（５）主題歌検知手段４１０の具体的構成例５
主題歌検知手段４１０の他の具体的な構成について説明する。

図７を参照すると、主題歌検知手段４１０の他の具体的な構成の一例が示されており、音響特徴量抽出手段４４０と音響特徴量照合手段４４５と音響特徴量抽出手段４３０と音響特徴量照合手段４３１と主題歌音響特徴量データベース４３５とからなる。

音響特徴量抽出手段４４０は、番組映像を入力とし、その出力である番組音響特徴量は音響特徴量照合手段４４５へ接続される。音響特徴量照合手段４４５は、音響特徴量抽出手段４４０から出力される番組音響特徴量を入力とし、主題歌音響特徴量を主題歌音響特徴量データベース４３５へ出力するとともに、区間指定時刻情報を出力する。主題歌音響特徴量データベース４３５は、音響特徴量照合手段４４５からの出力される主題歌音響特徴量を入力とし、それを音響特徴量照合手段４３１へ出力する。音響特徴量抽出手段４３０は、番組情報を入力とし、その出力である音響特徴量を音響特徴量照合手段４３１へ出力する。音響特徴量照合手段４３１は、主題歌音響特徴量データベース４３５から出力される主題歌音響特徴量と音響特徴量抽出手段４３０から出力される音響特徴量を入力とし、照合結果を出力する。

次に、図７に示す主題歌検知手段の動作について述べる。

番組映像は、複数の回からなる映像であるとする。音響特徴量抽出手段４４０の動作は図４の場合と同じである。音響特徴量照合手段４４５の動作も、図４の音響特徴量照合手段４４１の動作と同様であるが、さらに、検知された主題歌音響特徴量を主題歌音響特徴量データベース４３５へ出力する。主題歌音響特徴量データベース４３５は、音響特徴量照合手段４４５から出力される主題歌音響特徴量を蓄積しておき、音響特徴量照合手段４３１へ出力する。

音響特徴量抽出手段４３０へは、番組映像のうち、残りの複数回の映像が入力される。音響特徴量抽出手段４３０、音響特徴量照合手段４３１の動作は、図３の場合と同様である。

これにより、複数回の動画間全体で共通部分を見つける場合に比べ、より少ない演算量で確実に主題歌部分を特定できる。また、図７では、音響特徴量を用いた場合の構成について述べたが、視覚特徴量や、音響特徴量と視覚特徴量を用いた場合もまったく同様にして主題歌区間を検知できる。

（６）主題歌検知手段４１０の具体的構成例６
次に、主題歌検知手段４１０の他の具体的な構成について説明する。

図８を参照すると、主題歌検知手段４１０の他の具体的な構成が示されており、連続音響区間抽出手段４５０、主題歌候補区間判定手段４５２、音響特徴量抽出手段４３３、音響特徴量照合手段４３１、主題歌音響特徴量データベース４３２とからなる。連続音響区間抽出手段４５０は番組映像を入力とし、その出力である連続音響時間情報を主題歌候補区間判定手段４５２へ出力する。主題歌候補区間判定手段４５２は、連続音響区間抽出手段４５０から出力される連続音響時間情報を入力とし、その出力である主題歌候補区間時刻情報を音響特徴量抽出手段４３３へ出力する。音響特徴量抽出手段４３３は、番組映像と主題歌候補区間判定手段４５２から出力される主題歌候補区間時刻情報を入力とし、その出力である音響特徴量を音響特徴量照合手段４３１へ出力する。音響特徴量照合手段４３１は、音響特徴量抽出手段４３３から出力される音響特徴量と主題歌音響特徴量データベース４３２から出力される主題歌音響特徴量を入力とし、区間指定時刻情報を出力する。

次に、図８に示す主題歌検知手段４１０の動作について説明する。

番組映像は、連続音響区間抽出手段４５０へ入力される。連続音響区間抽出手段４５０の動作は、図５の場合と同様であり、求まった連続音響時間情報を主題歌候補区間判定手段４５２へ出力する。

主題歌候補区間判定手段４５２の動作も基本的には、図５の主題歌区間判定手段４５１と同様であるが、ここでは、完全に主題歌区間を特定する必要はなく、候補となる区間を抽出するのみでよいため、図５の場合よりもゆるい判定基準を用いてもよい。求まった主題歌候補区間時刻情報は音響特徴量抽出手段４３３へ出力される。

音響特徴量抽出手段４３３へは、番組映像も入力され、音響特徴量を抽出する。ただし、ここでは、主題歌候補区間時刻情報で指定された区間に対してのみ音響特徴量を抽出する。抽出された音響特徴量は、音響特徴量照合手段４３１へ出力される。

音響特徴量照合手段４３１、主題歌音響特徴量データベース４３２の動作は、図３の場合と同様である。

図８に示す主題歌検知手段４１０では、主題歌候補区間に対してのみ音響特徴量を抽出・照合するため、番組全体に対して特徴量抽出を行う場合に比べ、処理量を軽減できる。なお、このような絞込みは、図４、図６、図７などに示す主題歌検知手段４１０に対しても適用可能であり、処理量の低減が図れる。

２．テロップが連続的に出現するという特性に着目してクレジット情報重畳区間を検出
クレジット情報重畳区間検出手段４００の具体的な他の構成について説明する。以下に説明するクレジット情報重畳区間検出手段４００は、コンテンツでは、クレジット情報が重畳されているテロップは連続的に出現するという特性を利用した具体例である。

図９を参照するとクレジット情報重畳区間検出手段４００の実施の形態の一例が示されており、連続テロップ検知手段４７０と映像切り出し手段４２０とからなる。連続テロップ検知手段４７０は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段４２０へ接続される。映像切り出し手段４２０は、番組映像と連続テロップ検知手段４７０から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。

次に、図９に示すクレジット情報重畳区間検出手段４００の動作について述べる。
番組映像は、まず、連続テロップ検知手段４７０へ入力される。連続テロップ検知手段４７０では、テロップが連続して現れる区間を抽出する。これは、ドラマやバラエティ番組などで、クレジット情報がテロップとして重畳される区間では、テロップが連続的に出現するという特性に基づく。そして、この時間区間を区間指定時刻情報として出力する。
具体的には、番組映像に対してテロップ検出を行い、テロップが検出できた場合には、その開始時刻と終了時刻を求める処理を繰り返す。次に、開始時刻と終了時刻を解析し、複数のテロップがほとんど間を空けずに次々と出現する時間区間を求める。あるいは、異なるテロップ間の時間間隔を解析するかわりに、１画面中のテロップ占有面積を求め、ある一定領域以上の占有面積が断続的に続く区間として、区間指定時刻情報を求めてもよい。区間指定時刻情報は、番組映像とともに、映像切り出し手段４２０へ入力される。映像切り出し手段４２０の動作は、図２の場合と同様である。

このように図９に示すクレジット情報重畳区間検出手段は、音響特徴用の解析などの複雑な処理を行わなくても、テロップ出現のパターン情報のみを用いてクレジット情報重畳区間を求めることを可能にする。特に、静止テロップでクレジット情報が表示される番組に対して有効である。

３．ロールテロップ上にクレジット情報が連続的に出現するという特性に着目してクレジット情報重畳区間を検出
図１０を参照するとクレジット情報重畳区間検出手段４００の他の例が示されており、ロールテロップ検知手段４８０と映像切り出し手段４２０とからなる。ロールテロップ検知手段４８０は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段４２０へ接続される。映像切り出し手段４２０は、番組映像とロールテロップ検知手段４８０から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。

次に、図１０に示すクレジット情報重畳区間検出手段４００の動作について述べる。

番組映像は、まず、ロールテロップ検知手段４８０へ入力される。ロールテロップ検知手段４８０では、水平方向、あるいは垂直方向にスクロールするロールテロップを検知し、ロールテロップの存在する区間を区間指定時刻情報として出力する。これは、ドラマやバラエティ番組などで、クレジット情報が水平方向、あるいは垂直方向にスクロールしながら表示される場合が多いことに基づく。

このタイプのクレジットは、たいてい番組の最後であるため、エンドロールと呼ばれることもある。このため、ロールテロップを検知する際、時刻情報も併用し、映像の終わりに近い部分に対してロールテロップ検知を行うようになっていてもよい。これにより、番組映像央全体に対してロールテロップ検知を行う場合に比べ、処理量を大幅に低減できる。

具体的なロールテロップの検知方法としては、フレーム間で動き推定を行い、水平または垂直方向に等速直線運動を行っている領域を探す。そして、この等速直線運動が一定の時間間隔続く場合にロールテロップとして検知する。動き推定には、例えばブロックマッチングや、一般化ハフ変換を用いることができる。

求まった区間指定時刻情報は、番組映像とともに、映像切り出し手段４２０へ入力される。映像切り出し手段４２０の動作は、図２の場合と同様である。

このように、図１０に示すクレジット情報重畳区間検出手段は、ロールテロップを検知することで、音響信号を用いずとも、クレジット重畳区間を検知できる。これは、映画やドラマなど、コンテンツの最後でクレジット情報が縦や横方向にスクロールしていく場合に特に有効である。また、バラエティなど、主題歌がなく、音響情報が使えない場合であっても、ロールテロップを検知することで、クレジット重畳区間を求めることができる。

４．上述した構成の組み合わせによりクレジット情報重畳区間を検出
次に、主題歌検知手段４００の他の具体的な構成について説明する。図１１を参照すると、クレジット情報重畳区間検出手段４００の他の具体的な構成が示されており、主題歌検知手段４１０、ロールテロップ検知手段４８０、連続テロップ検知手段４７０、選択手段４８１、映像切り出し手段４２０とからなる。主題歌検知手段４１０、ロールテロップ検知手段４８０、連続テロップ検知手段４７０は、すべて、番組映像を入力とし、区間指定時刻情報を選択手段４８１へ出力する。選択手段４８１は、主題歌検知手段４１０から出力される区間指定時刻情報と、ロールテロップ検知手段４８０から出力される区間指定時刻情報と、連続テロップ検知手段４７０から出力される区間指定時刻情報とを入力とし、区間指定時刻情報を映像切り出し手段４２０へ出力する。映像切り出し手段４２０は、番組映像と選択手段４８１から出力される区間指定時刻情報とを入力とし、クレジット情報重畳区間映像データを出力する。

次に、図１１に示すクレジット情報重畳区間検出手段４００の動作について説明する。番組映像は、主題歌検知手段４１０、ロールテロップ検知手段４８０、連続テロップ検知手段４７０へ入力される。主題歌検知手段４１０、ロールテロップ検知手段４８０、連続テロップ検知手段４７０の動作は、前述のものと同様である。これらから出力される区間指定時刻情報は選択手段４８１へ入力される。選択手段４８１では、入力される区間指定時刻情報のうち、確からしいものを選択して出力する。もし、入力のうち、どれか1つのみしか区間指定時刻情報が入力されない場合には、その区間指定時刻情報を出力する。一方、複数の区間指定時刻情報が重なる場合（例えば、主題歌中にロールテロップが現れる場合など）には、重複する区間指定時刻情報を出力する。ただし、各検知手段で部分的にしか検知できない場合もあるため、全体のORをとるようにして区間指定時刻情報を求めてもよい。求まった区間指定時刻情報は、映像切り出し手段４２０へ出力される。

映像切り出し手段４２０の動作は、図７の場合と同様である。

図１１のクレジット情報重畳区間検出手段は、様々なクレジットの出現パターンに適応的に対応できるという特長がある。また、複数のソースの利用により、クレジット重畳区間の検出精度を高めることができる。

＜クレジット情報読み取り手段６００の具体的な構成＞
（１）クレジット情報読み取り手段６００の具体的な構成例１
次に、クレジット情報読み取り手段６００の具体的な構成の一例を説明する。

図１２はクレジット情報読み取り手段６００の一例を示した図であり、クレジット情報読み取り手段６００はテロップ読み取り手段６１０からなる。テロップ読み取り手段６１０は、クレジット情報重畳区間映像データを入力とし、クレジット候補情報を出力する。

図１２のクレジット情報読み取り手段６００の動作について述べる。

クレジット情報重畳区間映像データは、テロップ読み取り手段６１０へ入力される。テロップ読み取り手段６１０では、入力される映像に対してテロップ認識を行い、認識結果をクレジット候補情報として出力する。ここで、テロップ認識をクレジット用にカスタマイズすることで、識別率を向上できる。例えば、「脚本」や「主題歌」など、クレジット情報で頻繁に使用される重要単語を重点的に学習した辞書を用いることができる。あるいは、このような特定の単語を事前に登録しておき、その単語が現れたかどうかを判定するようにすることで、より精度よく単語を抽出できるようになる。また、このような特定な単語を複数のフォントに対して学習しておき、文字列が出現したときにフォントを推定し、フォントごとにカスタマイズしたテロップ認識辞書を選択して、他のクレジット情報の読み取りを行うようにしてもよい。また、クレジットに現れる可能性がある人名を、その人の属性（例えば脚本家、俳優といった職業などの情報）別にデータベースに登録しておき、例えば脚本の箇所であれば、脚本家のデータベースから人名を探して識別するようにすることで、人名の識別精度を飛躍的に向上できる。さらに、この人名データベースを用いることで、人名の一部が読み取れなかった場合であっても、効率よく候補を絞り込むことが可能になる。また、クレジット情報の現れる順番やパターンにもある程度の規則性がある（例えば脚本家や原作家の情報は出演者の情報よりも時間的に先に出現しやすい、あるいは、単独で表示されることが多いなど）ため、これらの情報を反映させてテロップを識別することで、さらに精度を向上できる。以後、このようなテロップ認識に用いるパラメータ類をテロップ認識パラメータと呼ぶことにする。

このようなクレジット情報読み取り手段６００は、テロップ読み取り手段のみを用いて構成しているため、簡易に構成することができる。また、クレジット情報読み取り手段６００には、テロップが重畳されているクレジット情報重畳区間映像データが入力されるので、番組全体に対してテロップの読み取りを行う場合に比べると、余分な処理を行わずに、処理を軽減できる。すなわち、番組全体をテロップ読み取りする場合よりも、テロップが重畳された部分だけ、より詳細に効率よく解析し、テロップを読み取ることができる。このため、読み取りアルゴリズムをテロップ読み取りに特化することができ、クレジット情報の読み取り精度を向上できる。

（２）クレジット情報読み取り手段６００の具体的な構成例２
クレジット情報読み取り手段６００の他の具体的な構成の一例を説明する。本例は、コンテンツに含まれる音響のうち主題歌が流れている映像に着目してクレジット情報読み取る例である。

図１３を参照すると、クレジット情報読み取り手段６００の実施の形態の一例が示されており、主題歌背景映像生成手段６２０と主題歌背景差分映像生成手段６３０とテロップ読み取り手段６４０とからなる。

主題歌背景映像生成手段６２０は、クレジット情報重畳区間映像データを入力とし、主題歌背景映像を主題歌背景差分映像生成手段６３０へ出力する。主題歌背景差分映像生成手段６３０は、クレジット情報重畳区間映像データと主題歌背景映像生成手段６２０から出力される主題歌背景映像とを入力とし、主題歌背景差分映像をテロップ読み取り手段６４０へ出力する。テロップ読み取り手段６４０は、主題歌背景差分映像生成手段６３０から出力される主題歌背景差分映像を入力とし、クレジット候補情報を出力する。

次に、図１３のクレジット情報読み取り手段６００の動作について説明する。
まず、クレジット情報重畳区間映像データは、主題歌背景映像生成手段６２０へ入力される。ここで、クレジット情報重畳区間映像データは、複数回の映像を含むものとする。

主題歌背景映像生成手段６２０では、複数回の映像間で背景（クレジット情報以外の部分）が同じであるフレーム同士を対応付ける。対応付けられたフレーム間で画像処理を行って、主題歌の背景映像を作成し、主題歌背景差分映像生成手段６３０へ出力する。画像処理の詳細については後述する。

主題歌背景差分映像生成手段６３０では、入力される主題歌背景映像とクレジット情報重畳区間映像データの差分を求め、この値に基づいて主題歌背景差分映像を生成する。具体的には、差分が大きい画素は原画像をそのまま用いるようにし、そうでない画素は画素値を０にする。これにより、クレジットの部分のみが残る主題歌背景差分映像を生成できる。主題歌背景差分映像は、テロップ読み取り手段６４０へ出力される。

テロップ読み取り手段６４０では、入力される映像に対してテロップ認識を行い、認識結果をクレジット候補情報として出力する。

図１３のクレジット情報読み取り手段６００では、テロップ認識において背景の影響がなくなるため、読み取り精度を向上できる。

ここで、主題歌背景映像生成手段６２０について述べる。

図１４を参照すると、主題歌背景映像生成手段６２０の実施の形態の一例が示されており、視覚特徴量抽出手段７２０と対応フレーム算出手段７１０と背景映像生成手段７００とからなる。視覚特徴量抽出手段７２０は、クレジット情報重畳区間映像データを入力とし、主題歌背景視覚特徴量を対応フレーム算出手段７１０へ出力する。対応フレーム算出手段７１０は、視覚特徴量抽出手段７２０から出力される主題歌背景視覚特徴量を入力とし、フレーム対応情報を背景映像生成手段７００へ出力する。背景映像生成手段７００は、クレジット情報重畳区間映像データと対応フレーム算出手段７１０から出力されるフレーム対応情報とを入力とし、主題歌背景映像を出力する。

次に、図１４の主題歌背景映像生成手段６２０の動作について説明する。

まず、クレジット情報重畳区間映像データは、視覚特徴量抽出手段７２０へ入力される。ここで、クレジット情報重畳区間映像データは、複数回の映像分のクレジット情報重畳区間映像である。例えば、シリーズもののドラマの場合には、数話分のドラマに対応する映像がまとめて入力されるものとする。視覚特徴量抽出手段７２０では、各回の映像から視覚特徴量を抽出する。抽出された視覚特徴量は、主題歌背景視覚特徴量として、対応フレーム算出手段７１０へ出力される。

対応フレーム算出手段７１０では、入力された各回の視覚特徴量間で照合を行う。この際、照合は各回の特徴量全体で行うのではなく、各回のクレジット情報重畳区間映像から切り出される任意長の区間同士で行う。これにより、各回で映像特徴量が一致する区間が求まる。区間が求まると、映像のフレーム同士の対応関係も求まる。なお、ここで、区間の対応付けは、数フレーム分前後にずれる可能性もあるため、このずれを補償する仕組みを追加してもよい。例えば、対応付けられた前後のフレームでフレーム間差分をとり、これが最小なるものを選ぶ、あるいは、マッチングがとれるピクセルの数が最大になるフレームを選ぶなどの方法が考えられる。このようにして求まった各回のフレーム間の対応情報は、フレーム対応情報として背景映像生成手段７００へ出力される。

背景映像生成手段７００では、入力される各回のクレジット情報重畳区間映像データと、対応フレーム算出手段７１０から出力されるフレーム対応情報とから、主題歌背景映像を生成する。フレーム対応情報から対応付けられる各回のフレームの対応位置の画素値に統計処理を行って生成する。

次に、このアルゴリズムの詳細について説明する。ここで、Fn,m(i,j)をn番目の映像のm番目のフレームの位置(I)における画素値とする。また、入力される番組の数をNとし、n番目の映像のm_n番目のフレームが対応するフレームであるとする。また、生成する背景映像のm番目のフレームの位置(i,j)における画素値をBm(i,j)で表すこととする。このとき、Bm(i,j)の値は、Fn,m_n(i,j) (n=1、…、N)から算出される。
まず、各画素(i,j)において、Fn,m_n(i,j) (n=1、…、N)の分散σ(i,j)を求める。これが十分小さい場合は、この位置にはどの回もテロップが載っていないと考えられる。よって、Bm(i,j)の値は単純に平均することで算出できる。すなわち、

によって算出する。一方、分散σ(i,j)が大きい場合には、テロップが重畳されている可能性が高いと考えられる。この場合にそのまま単純平均を出すと、テロップの影響が背景に含まれ、背景映像がうまく生成できないという問題がある。そこで、分散σ(i,j)が大きいときには、例えば、Fn,m_n(i,j) (n=1、…、N)のメディアン値をBm(i,j)とする。これにより、テロップが載っている回の方が少ない場合には、背景画像生成でのテロップの影響を排除できる。

しかしながら、テロップが載っている回の方が多い位置(i,j)も存在すると考えられる。そこで、各回の映像Fn,m_n(i,j) (n=1、…、N)で、対象画素(i,j)がテロップに含まれている可能性を表す指標を定義し、これが大きいほど重みを小さくして加重平均をとる。これにより、テロップの入っていない回の映像の画素値の重みが大きくなり、背景映像へのテロップの影響を軽減できる。

このテロップらしさを表す指標をRn,m_n(i,j)で表すことにする。ただし、Rn,m_n(i,j)は非負の値を有し、これが大きいほど、テロップにふくまれている可能性が高いものとする。これを用いて以下の式により、背景映像の画素値Bm(i,j)を算出する。

ここで、g(x)は非負の値を返すxに対する単調減少関数である。このようにして、テロップの影響が少ない背景映像を生成することが可能である。Rn,m_n(i,j)としては、例えば、位置(i,j)近傍のエッジの多さや勾配の大きさなどを用いることができる。あるいは、テロップらしいパターンを学習したニューラルネットなどの識別器を用いて、テロップらしさを判定するようにしてもよい。

このようにして得られた背景映像を用いると、背景の影響がないクレジット部分のみからなる映像を生成できるため、後段に接続されるテロップ認識の精度向上に貢献する。

（３）クレジット情報読み取り手段６００の具体的な構成例３
図１５を参照すると、クレジット情報読み取り手段６００の他の一例が示されており、主題歌背景映像生成手段６２０と主題歌背景差分映像生成手段６３０と第１のテロップ読み取り手段６１０と第２のテロップ読み取り手段６４０とテロップ読み取り結果統合手段６５０とからなる。第１のテロップ読み取り手段６１０は、クレジット情報重畳区間映像データを入力とし、第１のクレジット候補情報をテロップ読み取り結果統合手段６５０へ出力する。主題歌背景映像生成手段６２０は、クレジット情報重畳区間映像データを入力とし、主題歌背景映像を主題歌背景差分映像生成手段６３０へ出力する。主題歌背景差分映像生成手段６３０は、クレジット情報重畳区間映像データと主題歌背景映像生成手段６２０から出力される主題歌背景映像とを入力とし、主題歌背景差分映像を第２のテロップ読み取り手段６４０へ出力する。第２のテロップ読み取り手段６４０は、主題歌背景差分映像生成手段６３０から出力される主題歌背景差分映像を入力とし、第２のクレジット候補情報をテロップ読み取り結果統合手段６５０へ出力する。テロップ読み取り結果統合手段６５０は、第１のテロップ読み取り手段６１０から出力される第１のクレジット候補情報と第２のテロップ読み取り手段６４０から出力される第２のクレジット候補情報を入力とし、クレジット候補情報を出力する。

次に、図１５のクレジット情報読み取り手段６００の動作について述べる。第１のテロップ読み取り手段６１０の動作は、図１２のテロップ読み取り手段６１０と同様であり、第１のクレジット候補情報がテロップ読み取り結果統合手段６５０へ出力される。主題歌背景映像生成手段６２０と主題歌背景差分映像生成手段６３０の動作は、図１３のものと同様である。また、第２のテロップ読み取り手段６４０の動作も図１３のテロップ読み取り手段６４０と同様であり、第２のクレジット候補情報がテロップ読み取り結果統合手段６５０へ出力される。

テロップ読み取り結果統合手段６５０では、第１のクレジット候補情報と第２のクレジット候補情報を統合し、クレジット候補情報を生成して出力する。統合方法としてはいくつか考えられるが、例えば、両者の候補情報を合わせて候補情報として出力する方法、両者のうち、テロップ認識の信頼度が高い方を候補情報として出力する方法、両者のうち、信頼度が一定の基準より高いものをすべて候補情報として出力する方法などがある。これ以外にも、両者を統合して出力を生成する方法であれば、どのような方法でもよい。

図１５のクレジット情報読み取り手段６００では、通常の画像データか主題歌背景差分の画像データのどちらかで正しく読み取れればよいため、図１２や図１３のように単独で用いる場合に比べ、認識精度を向上できる。

本説明のクレジット情報読み取り手段６００は、第１の読み取り手段での読み取り結果と第２の読み取り手段での読み取り結果とのうち、信頼度が高い方を選択してマージしているので、どちらか一方のみを用いた場合よりも読み取り精度を向上することができる。例えば、背景の主題歌で毎回同じ位置に同じクレジット情報が重畳される場合には、背景差分ではクレジット文字列が抽出できないため、直接テロップを読み取った方が精度がよい。一方、テロップ重畳位置や内容が毎回異なる場合には、背景が複雑で通常のテロップ読み取りができない場合であっても、背景差分を読み取ることで、クレジット情報の読み取れるようになる。このようにして、両者をマージすることでクレジット読み取りの精度を向上することができる。

＜第２の実施の形態＞
本発明の第２の実施の形態について図面を参照して詳細に説明する。

図１６を参照すると、本発明の第２の実施の形態の一例が示されており、クレジット情報認識手段１００と、対象物認識手段１０５と、統合手段１０３とを含む。

クレジット情報認識手段１００は、番組映像を入力とし、その出力は統合手段１０３へ接続される。対象物認識手段１０５は、番組映像を入力とし、その出力は、統合手段１０３へ接続される。統合手段１０３は、クレジット情報認識手段１００の出力と対象物認識手段１０５の出力を入力とし、権利情報を出力する。

次に、第２の実施の形態の動作について説明する。

番組映像は、クレジット情報認識手段１００と対象物認識手段１０１とへ入力される。

クレジット情報認識手段１００の動作は、上述した第１の実施の形態又は実施例のものと同様であり、クレジット候補情報を統合手段１０３へ出力する。

対象物認識手段１０５は、コンテンツ内の権利に関する対象物を認識する手段であり、対象物とは、コンテンツ内の音楽著作物や、登場人物等である。

例えば、対象物が音楽著作物の場合、番組映像から音響特徴量を抽出し、既にデータベースに登録されている音響特徴量と照合する。この際、音楽著作物の全体ではなく、一部区間のみの照合も許可して照合を行う。照合した結果、データベース内の楽曲と同一であると判定された場合には、その楽曲を特定する音楽識別情報（例えば楽曲に付与されたＩＤ）を出力する。同じ楽曲でも複数の音源がデータベースに登録されており、それらの一つが照合された場合には、その音源を特定する情報も含んでいてもよい。また、楽曲の全体ではなく一部が照合された場合には、その照合区間を特定する情報を音楽識別情報に含んでいてもよい。さらに、音楽識別の確からしさを表す指標も合わせて含んでいてもよい。また、音楽識別情報は、各楽曲に対して１つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。また、抽出した音響特徴量が照合を試行したどの音響特徴量ともマッチングしない場合には、その音響特徴量を含む映像区間を特定する情報を音楽識別情報に含めて出力するようになっていてもよい。さらに、この区間の音響信号を一緒に出力するようになっていてもよい。このようにして求められた音楽識別情報は、統合手段１０３へ出力される。

また、対象物が登場人物である場合、映像中に出現する登場人物の人物特徴量を抽出・照合する。すなわち、映像情報から人物特徴量を抽出し、既にデータベースに登録されている人物特徴量と照合する。照合した結果、データベース内の人物と同一であると判定された場合には、その人物を特定する人物識別情報（例えば人物に付与されたＩＤ）を出力する。また、人物識別の確からしさを表す指標も合わせて含んでいてもよい。また、人物識別情報は、各登場人物に対して１つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。また、抽出した人物特徴量が、照合を試行したいずれの人物特徴量ともマッチングしない場合には、その人物特徴量を含む映像区間または映像中の時空間位置を特定する情報を人物識別情報に含んで出力してもよい。さらに、この時空間位置の映像情報自体も合わせて出力してもよい。このようにして求められた人物識別情報は、統合手段１０３へ出力される。ここで、人物特徴量としては、顔を記述する特徴量であってもよいし、人の声の特徴量であってもよい。あるいは、これらを組み合わせた特徴量であってもよく、また、人物の識別に用いることができる他の特徴量であってもよい。

統合手段１０３は、クレジット情報認識手段１００から出力されるクレジット候補情報、対象物認識手段１０５から出力される対象物識別情報を統合し、権利情報として出力する。

統合手段１０３の統合の方法であるが、単純に、クレジット情報認識手段１００から出力されるクレジット候補情報と、対象物認識手段１０５から出力される対象物識別情報とを出力する方法が考えられる。

また、統合の他の方法として、クレジット情報認識手段１００から出力されるクレジット候補情報と、対象物認識手段１０５から出力される対象物識別情報とを照合し、グループ化して出力する方法が考えられる。このときに信頼度に応じて優先順位をつけてもよい。また、信頼度が最も高いものを選択する、あるいは、信頼度が一定以上のものを選択するようにしても良い。

照合の方法として、対象物が音楽の場合、識別された楽曲の中から、連続音響の長さから主題歌／テーマソングを選択する。選択された楽曲のタイトルやその属性情報（作詞者、作曲者、あるいは歌手、演奏家名）と、クレジット候補情報の音楽情報とを照合し、一致度がある一定以上の場合に同一楽曲とみなす方法がある。また、番組中での出現時刻を考慮し、主題歌かどうかを判定（すなわち、番組の冒頭に近い位置あるいは最後に近い位置で出現するかどうかを判定）し、上記と同じ基準で重複を判定する方法もある。

更に、対象物が人物の場合、単純に人物識別の結果得られた名前と、クレジット候補情報から得られた出演者の名前を照合し、一致度がある一定以上の場合に同一人物とみなす方法がある。例えば、文字の数が一定以上一致する場合、あるいは、文字の形状の類似度が名前全体で一定以上になる場合に同一人物とみなす。この際、一致した文字の汎用度を考慮して類似度を判定してもよい。例えば、「木村」よりも「拓也」のほうが同じ２文字でも人物を特定しやすいため、後者のほうを類似度が高いと判定するようにしてもよい。この判定には、TF・IDF法などの方法を用いることができる。また、人物識別の結果から、同じ人物と判定される人物識別情報をグループ化して出演頻度あるいは出演時間を算出あるいは推定し、主役級かどうかを判定し、クレジット候補情報での出現順や、出現パターン（脇役は複数まとめて表示されるのに対し、主役級は単独で表示される、あるいは、ロールテロップの場合は、主役級の場合は前後と間隔を空けて表示される）を考慮して、同一人物かどうかを判定する方法もある。

このような照合方法を用いて、クレジット候補情報と対象物識別情報とをグループ化し、権利情報として出力する。

次に、本発明の第２の実施の形態の効果について説明する。

第２の実施の形態では、クレジット情報認識手段と対象物認識手段とを独立に動かし、これらの結果を統合することによって、クレジット候補情報のみの場合と比べて、より正確に権利に関する情報を知ることができる。

＜第３の実施の形態＞
第３の実施の形態を説明する。

第３の実施の形態は、上述した第１の実施の形態と第２の実施の形態とを組み合わせたものであり、更に、対象物認識手段１０５がクレジット情報認識手段からのクレジット候補情報を用いることを特徴とする。尚、以下の説明では、対象物認識手段の例として、音楽著作物認識手段１０１と、登場人物認識手段１０２との例を示す。

図１７を参照すると、本発明の第３の実施の形態は、クレジット情報認識手段１００と、音楽著作物認識手段１０１と、登場人物認識手段１０２と、統合手段１０３とを含む。クレジット情報認識手段１００は、番組映像を入力とし、その出力は、音楽著作物認識手段１０１と、登場人物認識手段１０２と、統合手段１０３へ接続される。音楽著作物認識手段１０１は、番組映像とクレジット情報認識手段１００の出力とを入力とし、その出力は、統合手段１０３へ接続される。登場人物認識手段１０２は、番組映像とクレジット情報認識手段１００の出力とを入力とし、その出力は、統合手段１０３へ接続される。統合手段１０３へは、クレジット情報認識手段１００と音楽著作物認識手段１０１と登場人物認識手段１０２の出力が接続され、権利情報を出力する。

次に、図１７の実施の形態の動作について説明する。

番組映像は、クレジット情報認識手段１００と、音楽著作物認識手段１０１と、登場人物認識手段１０２とへ入力される。これらの３つの手段のうち、まず、クレジット情報認識手段１００によって番組映像が解析される。

クレジット情報認識手段１００では、入力される番組映像を解析し、映像中に重畳されているクレジット情報を読み取り、クレジット情報の候補となる情報を出力する。

ここで、クレジット情報とは、上述したように、番組の主題歌や最後の部分に重畳されている、原作者や脚本家、出演者、主題歌などの情報を記したテロップや音声である。また、番組映像は、MPEGなどの圧縮されたフォーマットで入力されてもよいし、既に復号されてから入力されてもよい。圧縮された映像として入力される場合には、クレジット情報認識手段の中で映像を復号しながら解析を行う。なお、番組映像は、ある特定の一回の放送分の映像であってもよいし、あるいは、同じ番組の複数の回の映像を同時に入力する構成になっていてもよい。

クレジット情報認識手段１００では、番組映像中からクレジット情報が重畳されている情報重畳区間を抽出する。次に、クレジット情報重畳区間に含まれる映像を解析し、映像からテロップ情報を読み取る。そして、その結果をクレジット候補情報として出力する。クレジット候補情報は、認識された文字列とその時間情報、画像中での位置情報（フレーム内での座標）を含んでいてもよい。また、テロップの認識の確からしさを表す指標を含んでいてもよい。また、クレジット候補情報は、認識された各文字列に対して１つの情報を出力するようになっていてもよいし、複数の候補文字列を出力するようになっていてもよい。このようにして求められたクレジット候補情報は、統合手段１０３へ出力されるとともに、音楽著作物認識手段１０１、登場人物認識手段１０２へも出力される。

尚、クレジット情報認識手段１００は、上述した具体的な構成のいずれかを用いることが可能である。

音楽著作物認識手段１０１では、入力される番組映像とクレジット候補情報とを解析し、映像中で使われている音楽情報を抽出・照合する。すなわち、まず番組映像から音響特徴量を抽出し、次に既にデータベースに登録されている音響特徴量と照合する。この際、音楽著作物の全体ではなく、一部区間のみの照合も許可して照合を行う。また、クレジット候補情報から音楽に関連する情報を抽出し、照合に用いるデータベースの制御、あるいは、照合時のパラメータの調整に用いる。照合した結果、データベース内の楽曲と同一であると判定された場合には、その楽曲を特定する音楽識別情報（例えば楽曲に付与されたＩＤ）を出力する。同じ楽曲でも複数の音源がデータベースに登録されており、それらの一つが照合された場合には、その音源を特定する情報も含んでいてもよい。また、楽曲の全体ではなく一部が照合された場合には、その照合区間を特定する情報を音楽識別情報に含んでいてもよい。さらに、音楽識別の確からしさを表す指標も合わせて含んでいてもよい。また、音楽識別情報は、各楽曲に対して１つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。このようにして求められた音楽識別情報は、統合手段１０３へ出力される。

登場人物認識手段１０２では、入力される番組映像とクレジット情報とを解析し、映像中に出現する登場人物の人物特徴量を抽出・照合する。すなわち、まず映像情報から人物特徴量を抽出し、次に既にデータベースに登録されている人物特徴量と照合する。この際、クレジット候補情報から登場人物に関連する情報を抽出し、照合に用いるデータベースの制御、あるいは、照合時のパラメータの調整に用いる。そして、この照合結果を人物識別情報として出力する。照合した結果、データベース内の人物と同一であると判定された場合には、その人物を特定する人物識別情報（例えば人物に付与されたＩＤ）を出力する。また、人物識別の確からしさを表す指標も合わせて含んでいてもよい。また、人物識別情報は、各登場人物に対して１つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。このようにして求められた人物識別情報は、統合手段１０３へ出力される。

ここで、人物特徴量としては、顔を記述する特徴量であってもよいし、人の声の特徴量であってもよい。あるいは、これらを組み合わせた特徴量であってもよく、また、人物の識別に用いることができる他の特徴量であってもよい。

統合手段１０３では、クレジット情報認識手段１００から出力されるクレジット候補情報、音楽著作物認識手段１０１から出力される音楽識別情報、登場人物認識手段１０２から出力される人物識別情報を統合し、権利情報として出力する。

統合の方法は、上述した第２の実施の形態における統合手段１０３で説明した手法を用いても良いし、認識された文字列とその位置の関係から、原作や脚本家、出演者など権利対象の種別ごとに対応付け、権利情報として出力するようにしても良い。

また、音楽著作物の場合には、認識された音楽タイトルや音楽識別情報を各楽曲に対して出力する。あるいは、各楽曲の著作権情報を格納したデータベースにアクセスができる場合には、音楽識別情報からその音楽に付随する権利情報を求め、これを出力してもよい。人物については、人物識別情報をそのまま出力してもよいし、それと合わせて人物名を出力するようにしてもよい。なお、これらの権利情報は、最終的には１つに絞り込まずに、候補を全て出力するようにし、最終的には人が確認するようにしてもよい。これにより、認識された権利情報が誤っている場合の訂正が容易になる。

＜音楽著作物認識手段１０１の構成例＞
（１）音楽著作物認識手段１０１の具体的な構成例１
図１８を参照すると、音楽著作物認識手段１０１の構成例が示されており、楽曲候補抽出手段８００と候補音響特徴量選択手段８０１と音楽著作物照合手段８０２と楽曲音響特徴量データベース８０３とからなる。楽曲候補抽出手段８００は、クレジット候補情報を入力とし、楽曲候補情報を候補音響特徴量選択手段８０１へ出力する。候補音響特徴量選択手段８０１は、楽曲候補抽出手段８００から出力される楽曲候補情報に基づいて楽曲音響特徴量データベース８０３から楽曲音響特徴量を選択し、候補音響特徴量を音楽著作物照合手段８０２へ出力する。音楽著作物照合手段８０２は、番組映像と候補音響特徴量選択手段８０１から出力される候補音響特徴量を入力とし、音楽識別情報を出力する。

次に、図１８の音楽著作物認識手段１０１の動作について述べる。

クレジット候補情報は、楽曲候補情報抽出手段８００へ入力される。楽曲候補情報抽出手段８００では、クレジット候補情報から、主題歌や挿入歌など、番組中で使われている楽曲に関する候補情報を抽出する。例えば、「主題歌」や「挿入歌」、「テーマソング」など、楽曲に関するキーワードを登録しておき、これらのキーワードが検出された場合には、これと並んで表示されるかあるいは続けて表示される文字列の認識結果を楽曲候補情報として抽出する。ここで得られる情報は、楽曲の題名、歌手や演奏家の名前、作詞・作曲家の名前などである。そして、得られた楽曲候補情報を候補音響特徴量選択手段８０１へ出力する。

候補音響特徴量選択手段８０１では、楽曲音響特徴量データベース８０３から、得られた楽曲候補情報と一致するか、あるいは類似する題名や人名と関連付けられた楽曲の特徴量を選択する。そして、選択された音響特徴量データを候補音響特徴量として音楽著作物照合手段８０２へ出力する。

音楽著作物照合手段８０２では、まず、番組映像から音響特徴量を抽出する。この音響特徴量と候補音響特徴量選択手段８０１から出力される候補音響特徴量とを照合し、照合された場合には、その音楽の識別情報を出力する。この際、音楽著作物の全体ではなく、一部区間のみの照合も許可して照合を行う。

このように、図１８の音楽著作物認識手段１０１は、クレジットの情報が完全に読み取れなくても、実際に使われている楽曲を特徴量同士で照合することで、楽曲に関する著作権情報抽出の精度を向上できる。

（２）音楽著作物認識手段１０１の具体的な構成例２
図１９を参照すると、音楽著作物認識手段１０１の他の構成例が示されており、音楽関連制作情報抽出手段８２０と音楽著作物照合パラメータ選択手段８２１と音楽著作物照合手段８２２と音楽著作物照合パラメータデータベース８２３と楽曲音響特徴量データベース８０３とからなる。音楽関連制作情報抽出手段８２０は、クレジット候補情報を入力とし、音楽関連制作情報を音楽著作物照合パラメータ選択手段８２１へ出力する。音楽著作物照合パラメータ選択手段８２１は、音楽関連制作情報抽出手段８２０から出力される音楽関連制作情報を入力とし、音楽著作物照合パラメータデータベース８２３から音楽著作権照合パラメータを選択し、音楽著作物照合手段８２２へ出力する。音楽著作物照合手段８２２は、番組情報と音楽著作物照合パラメータ選択手段８２１から出力される音楽著作物照合パラメータと楽曲音響特徴量データベース８０３に格納された楽曲音響特徴量とを入力とし、音楽識別情報を出力する。

次に、図１９の音楽著作物認識手段１０１の動作について述べる。
クレジット候補情報は、音楽関連制作情報抽出手段８２０へ入力される。音楽関連制作情報抽出手段８２０では、音楽関連制作情報をクレジット候補情報から抽出する。ここで、音楽関連制作情報とは、番組制作における音楽関連の情報であり、音楽の担当者、音楽協力を行ったレコード会社、選曲を担当した人物などである。これも、前述の楽曲候補情報抽出手段８００と同様に、「音楽」、「選曲」などといったキーワードを登録しておき、これらのキーワードが検出された場合には、これと並んで表示されるかあるいは続けて表示される文字列の認識結果を音楽関連制作情報として抽出する。そして、抽出結果を音楽制作関連情報として音楽著作物照合パラメータ選択手段８２１へ出力する。

音楽著作物照合パラメータ選択手段８２１では、入力される音楽関連制作情報に応じて、音楽著作物照合パラメータデータベース８２３に格納されている音楽著作物の照合で使用するパラメータを選択する。あるいは、選択された情報に基づいて、音楽著作物照合パラメータを制御する。例えば、音楽関連制作情報として抽出された文字列がレコード会社の名前の場合には、そのレコード会社が持っている楽曲を優先的に選択させるように音楽著作物照合パラメータを調整する。あるいは、レコード会社ごとにグループ化されて、あるいはデータベースを分けて楽曲音響特徴量データベース８０３に楽曲音響特徴量が格納されている場合には、そのグループやデータベースを指定するための情報を音楽著作物照合パラメータとして選択する。あるいは、音楽関連制作情報が、ＢＧＭなどの楽曲の選定に関わった人や団体名である場合には、その人の過去の楽曲使用履歴に応じて、音楽著作物照合パラメータを調整するようになっていてもよい。このようにして選択された音楽著作物照合パラメータは、音楽著作物照合手段８２２へ入力される。

音楽著作物照合手段８２２の動作は、基本的に図１８の音楽著作物照合手段８０２の動作と同様である。違いは、さらに音楽著作物照合パラメータ選択手段８２１から音楽著作物照合パラメータが入力され、これによって照合のパラメータを調整できるようになっている点である。照合の結果は、音楽識別情報として出力される。

図１９の音楽著作物認識手段１０１により、照合パラメータを調整することで、認識の精度を高めることが可能になる。

ここで、図１９の音楽著作物認識手段１０１における音楽著作物照合手段８２２について、更に、詳細に説明する。

図２０を参照すると、音楽著作物照合手段８２２の実施の形態の一例が示されており、音声重畳判定手段９５０と音響特徴量照合手段９５１とからなる。音声重畳判定手段９５０は、番組映像を入力とし、音声重畳区間時刻情報を音響特徴量照合手段９５１へ出力する。音響特徴量照合手段９５１は、番組映像と音声重畳判定手段９５０から出力される音声重畳区間時刻情報と、音楽著作物照合パラメータとを入力とし、音声識別情報を出力する。

次に、図２０の音楽著作物照合手段８２２の動作について述べる。

番組映像は、音声重畳判定手段９５０へ入力される。音声重畳判定手段９５０では、音響信号を解析し、音声が重畳されているかどうかを判定する。例えば、音響信号の周波数解析を行い、人間の声に近い特性を有する場合には、音声が重畳されていると判定する。これ以外にも、音声の重畳を判定可能な方法であれば、どのような方法も用いることができる。音声が重畳していると判定された場合には、音声が重畳している区間の時間情報（区間開始点、終了点、区間時間長など）を音声重畳区間時刻情報として音響特徴量照合手段９５１へ出力する。

音響特徴量照合手段９５１では、入力される映像番組から音響特徴量を抽出し、候補音響特徴量と照合する。この際、音声重畳判定手段９５０から出力される音声重畳区間時刻情報を用い、照合方法を調整する。例えば、音声が重畳している区間を省いて照合を行う、音声が重畳している区間では、音声周波数帯域の重みを低くして照合を行うなどの方法が考えられる。また、音楽著作物照合パラメータも入力されるようになっており、これを用いて照合方式を調整するようになっていてもよい。照合の結果は音楽識別情報として出力される。

図２０の音楽著作物照合手段８２２は、音声情報がＢＧＭにかかった場合でもその影響を小さく抑え、認識精度を向上できる。

＜登場人物認識手段１０２の構成例＞
（１）登場人物認識手段１０２の具体的な構成例１
図２１を参照すると、登場人物認識手段１０２の実施の形態の一例が示されており、出演者候補情報抽出手段９００と候補人物特徴量選択手段９０１と出演者照合手段９０２と人物特徴量データベース９０３とからなる。出演者候補情報抽出手段９００は、クレジット候補情報を入力とし、出演者候補情報を候補人物特徴量選択手段９０１へ出力する。候補人物特徴量選択手段９０１は、出演者候補情報抽出手段９００から出力される出演者候補情報を入力とし、人物特徴量データベース９０３から候補人物特徴量を選択し、出演者照合手段９０２へ出力する。出演者照合手段９０２は、番組映像と候補人物特徴量選択手段９０１から出力される候補人物特徴量を入力とし、人物識別情報を出力する。

次に、図２１の登場人物認識手段１０２の動作について述べる。

クレジット候補情報は、出演者候補情報抽出手段９００へ入力される。出演者候補情報抽出手段９００では、クレジット候補情報から、出演者に相当する部分を抽出し、出演者候補情報として出力する。具体的には、配役名と推定される名前と一緒に記されている人物名を抽出する、「出演」という単語と同時かあるいはそれに続いて表示される人物名を抽出する、クレジットに記載されている人物名から脚本家やプロデューサーなど、番組に明らかに出演していない人物名を判定し、これらを除いた人物名を抽出するなどの方法が考えられる。抽出された出演者候補情報は、候補人物特徴量選択手段９０１へ出力される。

候補人物特徴量選択手段９０１では、人物特徴量データベース９０３から、人名が一致、あるいは近い人物の特徴量を選択する。この際、１つの認識された人名候補に対して１つの人物特徴量を対応付けて出力する必要はなく、複数の類似した名前を有する人物の人物特徴量を出力するようになっていてもよい。選択された候補人物特徴量は、出演者照合手段９０２へ出力される。

出演者照合手段９０２では、まず、入力される番組映像から人物特徴量を抽出する。例えば、人物特徴量が顔特徴量の場合には、映像に対して顔検出を行い、次に、検出された領域の顔特徴量を算出する。あるいは、人物特徴量が音声特徴量の場合には、まず、音声を含む区間を抽出し、次に、この区間の音声の特徴量を抽出する。抽出された人物特徴量は、候補人物特徴量選択手段９０１から入力される候補人物特徴量の各々と照合される。照合の結果、同一と判定された場合には、その人物を識別するための情報を人物識別情報として出力する。

図２１に示す登場人物認識手段１０２では、クレジット情報が完全に正確には認識できなかった場合や同姓同名などで曖昧な場合であっても、実際の人物特徴量を照合することで、出演者情報を正しく抽出することを可能にする。

（２）登場人物認識手段１０２の具体的な構成例２
図２２を参照すると、登場人物認識手段１０２の実施の形態の一例が示されており、出演者所属団体抽出手段９２０と出演者照合パラメータ選択手段９２１と出演者照合手段９２２と人物特徴量データベース９０３と人物照合パラメータデータベース９２３とからなる。

出演者所属団体抽出手段９２０は、クレジット候補情報を入力とし、出演者所属関連情報を出演者照合パラメータ選択手段９２１へ出力する。出演者照合パラメータ選択手段９２１は、出演者所属団体抽出手段９２０から出力される出演者所属関連情報を入力とし、人物照合パラメータデータベース９２３から出演者照合パラメータを選択し、出演者照合手段９２２へ出力する。出演者照合手段９２２は、番組映像と出演者照合パラメータ選択手段９２１から出力される出演者照合パラメータと人物特徴量データベース９０３に格納されている人物特徴量を入力とし、人物識別情報を出力する。

次に、図２２の登場人物認識手段１０２の動作について述べる。

クレジット候補情報は出演者所属団体抽出手段９２０へ入力される。出演者所属団体抽出手段９２０では、クレジット候補情報から、劇団名や芸能プロダクション名など、出演者の所属に関連する情報を抽出する。具体的には、出演者の所属情報の辞書を用意し、この辞書に登録されている名前と照合することで抽出できる。抽出された結果は、出演者所属関連情報として出演者照合パラメータ選択手段９２１へ出力される。

出演者照合パラメータ選択手段９２１では、人物照合パラメータデータベース９２３から出演者照合パラメータを選択する。例えば、所属団体ごとにグループ化されて、あるいはデータベースを分けて人物特徴量データベース９０３に人物特徴量が格納されている場合には、そのグループやデータベースを指定するための情報を出演者照合パラメータとして選択する。選択された出演者照合パラメータは出演者照合手段９２２へ出力される。

出演者照合手段９２２の動作は、基本的に図２１の出演者照合手段９０２の動作と同様である。違いは、さらに出演者照合パラメータ選択手段９２１から出力される出演者照合パラメータが入力され、これによって照合のパラメータを調整できるようになっている点である。照合の結果は、人物識別情報として出力される。

図２２の登場人物認識手段１０２により、クレジットには劇団名などの団体名しか記載されていない場合であっても、その団体に所属する誰が出演したかを効率的に抽出することが可能になる。

本発明の第３の実施の形態の効果について説明する。

本実施の形態では、映像中からクレジットの重畳区間を求め、テロップ認識を行うため、権利情報として重要なクレジット情報を直接得ることができる。また、重畳区間のみに処理を絞っているため、番組全体にテロップ認識を行う場合に比べ、演算負荷を低減できる。

また、音楽著作物の識別にも、このクレジット情報を用いるため、通常の音楽識別に比べ、識別の精度を高めることができる。また、登場人物の識別にも、クレジット情報を用いるため、単体の人物識別に比べ、識別の精度を高めることができる。

尚、上述した説明では、対象物認識手段の例として、音楽著作物認識手段１０１と、登場人物認識手段１０２との例を示したが、この例に限ることなく、例えば、図２３、図２４のようにいずれかの一方のみを用いる構成としても良い。また、対象物認識手段は、上述した各具体的な構成のものを組み合わせて用いても良い。

本出願は、２００６年１０月２６日に出願された特願２００６−２９１４４２号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、
コンテンツ中でクレジット情報が含まれているクレジット情報区間を検出するクレジット情報区間検出手段と、
前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、
前記コンテンツから当該コンテンツに出現する物の特徴量又は音響特徴量を抽出し、前記クレジット候補情報と前記抽出した物の特徴量又は音響特徴量とを参照し、映像又は音響の特徴量が記憶されたデータベースから、前記コンテンツ内の権利の対象となる映像または音響の対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、
前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する統合手段と
を有することを特徴とする権利情報抽出装置。
前記クレジット情報区間検出手段は、クレジット情報が映像に重畳されている映像区間をコンテンツから検出し、その映像区間の映像データであるクレジット情報区間映像データを出力することを特徴とする請求項１に記載の権利情報抽出装置。
前記クレジット情報区間検出手段は、前記コンテンツから音響区間を検知し、音響区間情報として出力する音響検知手段と、
前記音響区間情報によって特定される前記コンテンツの区間を前記クレジット情報区間として出力する手段と
を有することを特徴とする請求項１に記載の権利情報抽出装置。
前記音響検知手段は、
コンテンツ中の連続的な音響情報の持続時間を計測し、連続音響時間として出力する連続音響時間計測手段と、
前記連続音響時間を用いて音響区間を判定し、音響区間情報として出力する音響区間判定手段と
を有することを特徴とする請求項３に記載の権利情報抽出装置。
前記音響検知手段は、
前記コンテンツを構成する複数のコンテンツの各回のそれぞれに対して音響特徴量の抽出し、音響特徴量として出力する音響特徴量抽出手段と、
前記音響特徴量間で音響特徴量の照合を行い、音響特徴量が共通である区間を特定することによって音響部分を検知し、音響区間情報として出力する音響特徴量照合手段と
を有することを特徴とする請求項３又は請求項４に記載の権利情報抽出装置。
前記クレジット情報区間検出手段は、
テロップ候補領域が連続的に出現する映像区間を前記コンテンツから検出し、この映像区間を連続テロップ出現区間情報として出力する連続テロップ検知手段と、
前記連続テロップ出現区間情報によって特定される前記映像区間の映像データを前記クレジット情報区間映像データとして出力する手段と
を有することを特徴とする請求項２に記載の権利情報抽出装置。
前記クレジット情報区間検出手段は、
前記コンテンツからロールテロップを検知し、この映像区間の時刻情報をロールテロップ区間情報として出力するロールテロップ検知手段と、
前記ロールテロップ区間情報によって特定される前記コンテンツの映像区間を前記クレジット情報区間映像データとして出力する手段と
を有することを特徴とする請求項２に記載の権利情報抽出装置。
前記クレジット情報認識手段は、前記クレジット情報区間映像データにテロップ認識を行って前記クレジット候補情報を出力することを特徴とする請求項２に記載の権利情報抽出装置。
前記クレジット情報認識手段は、
複数回のコンテンツのクレジット情報区間映像データが入力され、前記複数回のクレジット情報区間映像データ間で共通する特徴を持つ音響背景映像を生成して出力する音響背景映像生成手段と、
前記音響背景映像を前記クレジット情報区間映像データから差し引くことで音響背景差分映像を生成して出力する音響背景差分映像生成手段と、
前記音響背景差分映像にテロップ認識を適用して前記クレジット候補情報を取得して出力するテロップ読み取り手段と
を有することを特徴とする請求項２に記載の権利情報抽出装置。
前記クレジット情報認識手段は、
前記クレジット情報区間映像データにテロップ認識を適用して第１のクレジット候補情報を取得して出力する第１のテロップ読み取り手段と、
複数回のコンテンツのクレジット情報区間映像データが入力され、前記複数回のクレジット情報区間映像データ間で共通する特徴を持つ音響背景映像を生成して出力する音響背景映像生成手段と、
前記音響背景映像を前記クレジット情報区間映像データから差し引くことで音響背景差分映像を生成して出力する音響背景差分映像生成手段と、
前記音響背景差分映像にテロップ認識を適用して第２のクレジット候補情報を取得して出力するテロップ読み取り手段と、
前記第１のクレジット候補情報と前記第２のクレジット候補情報とを統合して、クレジット候補情報を求め、出力するテロップ読み取り結果統合手段と
を有することを特徴とする請求項２に記載の権利情報抽出装置。
前記音響背景映像生成手段は、
前記クレジット情報区間映像データの各回のそれぞれに対して視覚特徴量を抽出し、音響背景視覚特徴量として出力する視覚特徴量抽出手段と、
前記音響背景視覚特徴量間で視覚特徴量の照合を行い、背景が共通である映像フレームを対応付け、フレーム対応情報として出力する対応フレーム算出手段と、
前記フレーム対応情報で対応付けられる各回のフレーム間で画素値の統計処理を行って音響背景の各画素の値を算出し、音響背景映像を生成し、出力する背景映像生成手段と
を有することを特徴とする請求項９又は請求項１０に記載の権利情報抽出装置。
前記背景映像生成手段は、対応フレーム間で画素値の変動が大きい場合には、前記統計処理としてメディアンを用いることを特徴とする請求項１１に記載の権利情報抽出装置。
前記背景映像生成手段は、対応フレーム間で画素値の変動が大きい場合には、前記統計処理として、前記画素値の近隣の画素値情報から前記画素値がテロップ領域に該当する可能性を現す指標を算出し、前記指標が小さいほど大きな加重をかけて統計処理を行うこと
を特徴とする請求項１１に記載の権利情報抽出装置。
前記クレジット情報認識手段は、
読み取れなかったクレジット候補領域が存在した場合には、そのクレジット候補領域を含む映像中の時空間位置を特定する情報を前記クレジット候補情報とともに出力することを特徴とする請求項１から請求項１３のいずれかに記載の権利情報抽出装置。
前記対象物認識手段は、コンテンツの音響特徴量を解析し、前記音響特徴量と前記クレジット候補情報とに基づいて、コンテンツの音楽著作物を認識し、結果を音楽識別情報として出力する音楽著作物認識手段であることを特徴とする請求項１から請求項１４のいずれかに記載の権利情報抽出装置。
前記対象物認識手段は、コンテンツの人物特徴量を解析し、前記人物特徴量と前記クレジット候補情報とに基づいて、コンテンツの登場人物を認識し、結果を出演者識別情報として出力する登場人物認識手段であることを特徴とする請求項１から請求項１５のいずれかに記載の権利情報抽出装置。
前記音楽著作物認識手段は、
前記クレジット候補情報から使用楽曲の候補情報を抽出し、使用楽曲候補情報として出力する楽曲候補情報抽出手段と、
前記使用楽曲候補情報に近い音楽の音響特徴量を音響特徴量データベースから選択し、候補音響特徴量として出力する候補音響特徴量選択手段と、
前記候補音響特徴量と前記コンテンツから抽出される音響特徴量とを照合し、一致したと判定された場合にはその音楽識別情報を出力する音楽著作物照合手段と
を有することを特徴とする請求項１５に記載の権利情報抽出装置。
前記音楽著作物認識手段は、
前記クレジット候補情報から、音楽制作にかかわった人物、団体の情報、又はレコード製作者の情報を抽出し、音楽関連制作情報として出力する音楽関連制作情報抽出手段と、
前記音楽関連制作情報に応じて、音楽照合に用いる変数、楽曲が属するグループ又は楽曲データベースの選択情報を含む照合パラメータを選択する音楽著作物照合パラメータ選択手段と、
前記照合パラメータを用いて、楽曲音響特徴量データベース内の音響特徴量と前記コンテンツから抽出される音響特徴量とを照合し、一致したと判定された場合にはその音楽識別情報を出力する音楽著作物照合手段と
を有することを特徴とする請求項１５に記載の権利情報抽出装置。
前記音楽著作物認識手段は、
前記クレジット候補情報から使用楽曲の候補情報を抽出し、使用楽曲候補情報として出力する楽曲候補情報抽出手段と、
前記使用楽曲候補情報に近い音楽の音響特徴量を音響特徴量データベースから選択し、候補音響特徴量として出力する候補音響特徴量選択手段と、
前記クレジット候補情報から、音楽制作にかかわった人物、団体の情報、又はレコード製作者の情報を抽出し、音楽関連制作情報として出力する音楽関連制作情報抽出手段と、
前記音楽関連制作情報に応じて、音楽照合に用いる変数や楽曲が属するグループ又は楽曲データベースの選択情報を含む照合パラメータを選択する音楽著作物照合パラメータ選択手段と、
音楽著作物照合手段と、
を有し、
前記音楽著作物照合手段は、
前記コンテンツを解析して音声が含まれる区間を判定し、その区間の時刻情報を音声重畳区間時刻情報として出力する音声重畳判定手段と、
前記コンテンツから音響特徴量を抽出し、前記音声重畳区間時刻情報に基づいて音声が重畳されていない区間である音声非重畳区間を検出し、前記音声非重畳区間においてのみ、前記照合パラメータを用いて前記候補音響特徴量との照合を行い、照合結果を前記音楽識別情報として出力する音響特徴量照合手段と
を有することを特徴とする請求項１５に記載の権利情報抽出装置。
前記音楽著作物認識手段は、
前記クレジット候補情報から使用楽曲の候補情報を抽出し、使用楽曲候補情報として出力する楽曲候補情報抽出手段と、
前記使用楽曲候補情報に近い音楽の音響特徴量を音響特徴量データベースから選択し、候補音響特徴量として出力する候補音響特徴量選択手段と、
前記クレジット候補情報から、音楽制作にかかわった人物、団体の情報、又はレコード製作者の情報を抽出し、音楽関連制作情報として出力する音楽関連制作情報抽出手段と、
前記音楽関連制作情報に応じて、音楽照合に用いる変数や楽曲が属するグループ又は楽曲データベースの選択情報を含む照合パラメータを選択する音楽著作物照合パラメータ選択手段と、
音楽著作物照合手段と、
を有し、
前記音楽著作物照合手段は、
前記コンテンツを解析して音声が含まれる音声重畳区間を判定し、その区間の時刻情報を音声重畳区間時刻情報として出力する音声重畳判定手段と、
前記コンテンツから音響特徴量を抽出し、前記音声重畳区間時刻情報に基づいて音声が重畳されていない区間である音声非重畳区間を検出し、前記音声非重畳区間においては前記照合パラメータを用いて前記候補音響特徴量との照合を行い、前記音声重畳区間においては音声周波数帯の信号の影響を抑圧して前記照合パラメータを用いて前記候補音響特徴量との照合を行い、照合結果を前記音楽識別情報として出力する音響特徴量照合手段と
を有することを特徴とする請求項１５に記載の権利情報抽出装置。
前記音楽著作物認識手段は、
前記コンテンツから抽出した音響特徴量が照合を試行したどの音響特徴量ともマッチングしない場合には、その音響特徴量を含む映像区間を特定する情報を前記音楽識別情報とともに出力することを特徴とする請求項１５、請求項１７から請求項２０のいずれかに記載の権利情報抽出装置。
前記人物特徴量が少なくとも人物の顔の特徴量を含むことを特徴とする請求項１６に記載の権利情報抽出装置。
前記人物特徴量が少なくとも人物の声の特徴量を含むことを特徴とする請求項１６に記載の権利情報抽出装置。
前記登場人物認識手段は、
前記クレジット候補情報から出演者に関する人物の候補情報を抽出し、出演者候補情報として出力する出演者候補情報抽出手段と、
前記出演者候補情報に近い人物の人物特徴量を人物特徴量データベースから選択し、候補人物特徴量として出力する候補人物特徴量選択手段と、
前記候補人物特徴量と前記コンテンツから抽出される人物特徴量とを照合し、一致したと判定された場合にはその人物識別情報を出力する出演者照合手段と
を有することを特徴とする請求項１６、２２又は２３に記載の権利情報抽出装置。
前記登場人物認識手段は、
前記クレジット候補情報から出演者の所属団体に関する情報を抽出し、出演者所属関連情報として出力する出演者所属団体抽出手段と、
前記出演者所属関連情報に応じて照合パラメータを選択する出演者照合パラメータ選択手段と、
前記照合パラメータを用いて、人物特徴量データベース内の人物特徴量と前記コンテンツから抽出される人物特徴量とを照合し、一致したと判定された場合にはその人物識別情報を出力する出演者照合手段と
することを特徴とする請求項１６、請求項２２又は請求項２３に記載の権利情報抽出装置。
前記登場人物認識手段は、前記コンテンツから抽出した人物特徴量が、照合を試行したいずれの人物特徴量ともマッチングしない場合には、その人物特徴量を含む映像区間または映像中の時空間位置を特定する情報を前記人物識別情報とともに出力することを特徴とする請求項２４又は請求項２５に記載の権利情報抽出装置。
コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、
コンテンツ中でクレジット情報が重畳されているクレジット情報区間を検出する処理と、
前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、
前記コンテンツから当該コンテンツに出現する物の特徴量又は音響特徴量を抽出し、前記クレジット候補情報と前記抽出した物の特徴量又は音響特徴量とを参照し、複数の映像又は音響の特徴量が記憶されたデータベースから、前記コンテンツ内の権利の対象となる映像又は音響の対象物を認識して、その結果を対象物識別情報として出力する処理と、
前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理と
を有することを特徴とする権利情報抽出方法。
コンテンツ中でクレジット情報が重畳されているクレジット情報区間を検出する処理と、
前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、
前記コンテンツから当該コンテンツに出現する物の特徴量又は音響特徴量を抽出し、前記クレジット候補情報と前記抽出した物の特徴量又は音響特徴量とを参照し、複数の映像又は音響の特徴量が記憶されたデータベースから、前記コンテンツ内の権利の対象となる映像または音響の対象物を認識して、その結果を対象物識別情報として出力する処理と、
前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理と
を情報処理装置に実行させることを特徴とするプログラム。