JP5218766B2 - 権利情報抽出装置、権利情報抽出方法及びプログラム - Google Patents

権利情報抽出装置、権利情報抽出方法及びプログラム Download PDF

Info

Publication number
JP5218766B2
JP5218766B2 JP2008540979A JP2008540979A JP5218766B2 JP 5218766 B2 JP5218766 B2 JP 5218766B2 JP 2008540979 A JP2008540979 A JP 2008540979A JP 2008540979 A JP2008540979 A JP 2008540979A JP 5218766 B2 JP5218766 B2 JP 5218766B2
Authority
JP
Japan
Prior art keywords
information
credit
section
music
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008540979A
Other languages
English (en)
Other versions
JPWO2008050718A1 (ja
Inventor
亮磨 大網
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008540979A priority Critical patent/JP5218766B2/ja
Publication of JPWO2008050718A1 publication Critical patent/JPWO2008050718A1/ja
Application granted granted Critical
Publication of JP5218766B2 publication Critical patent/JP5218766B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/59Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of video

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は権利情報抽出装置、権利情報抽出方法及びプログラムに関し、特に、番組等のコンテンツから、著作権や著作隣接権などの権利に関する情報を抽出する権利情報抽出装置、権利情報抽出方法及びプログラムに関する。
従来、コンテンツに付随する著作権などの権利を管理する権利管理システムが、例えば、特許文献1に記載されている。
特許文献1に記載されている権利管理システムは、コンテンツマネジメントサーバで著作権などの権利を一括管理し、契約管理サーバや課金サーバ、認証サーバなどと連携することによって、コンテンツ利用者の要求に応じた自動契約、およびコンテンツのセキュアな流通を実現している。
一方、権利情報は、仲介業者によって人手により登録されることを前提としている。すなわち、権利情報のデータベースの整備は人手に頼っているのが現状であり、過去に制作したコンテンツを、特許文献1に記載されたようなシステムで取り扱えるようにするためには、誰かが権利情報を抽出し、仲介業者等を通じてデータベースに登録する必要がある。
しかしながら、過去のコンテンツの場合、契約情報の詳細などが残っていない場合も多く、まず、誰がコンテンツの権利を有するかを明確にする必要がある。従来、これらの作業は人手で確認しながら登録するようになっており、このプロセスに非常に膨大な工数を費やさねばならないという問題があった。これが、例えば、テレビ放送されたドラマなどの優良コンテンツが二次流通市場に流れない原因ともなっていた。
特開2002−109254号公報
第1の問題点は、映像などのコンテンツに関連する権利情報の特定が自動化されていないことである。このため、過去コンテンツの利用に際しては、コンテンツの権利者を特定するために、人手で権利情報を抽出しなければならず、膨大な手間がかかっていた。
第2の問題点は、これをテロップ認識などの技術によって抽出する場合には、精度が十分でないことである。その理由は、通常のテロップ認識では、権利情報に特化していないため、精度が低いという問題があった。また、権利に関係のない情報も多く含まれ、権利情報の特定が困難であるという問題があった。
そこで、本発明は上記課題に鑑みて発明されたものであって、映像などのコンテンツから権利に関する情報を自動抽出できる権利情報抽出装置及び権利情報抽出方法を提供することである。
上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段を有することを特徴とする。
上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、前記クレジット候補情報と、前記対象物識別情報とを統合し、権利情報として出力する統合手段とを有することを特徴とする。
上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する統合手段とを有することを特徴とする。
上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力することを特徴とする権利情報抽出方法である。
上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを有することを特徴とする。
上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを有することを特徴とする。
上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理を情報処理装置に実行させることを特徴とするプログラムである。
上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを情報処理装置に実行させることを特徴とするプログラムである。
上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを情報処理装置に実行させることを特徴とするプログラムである。
本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するようにしているので、コンテンツに関連する権利に関する情報を精度良く、自動抽出することができる。
また、著作権等のコンテンツに関連する権利に関する情報を、コンテンツから抽出する処理の省力化が図れる点である。その理由は、コンテンツから自動的に著作権などの権利情報を抽出することが可能になるためである。
図1はクレジット認識手段100のブロック図である。 図2はクレジット情報重畳区間検出手段400の構成を示した図である。 図3は主題歌検知手段410の具体的な構成を示した図である。 図4は主題歌検知手段410の他の具体的な構成を示した図である。 図5は主題歌検知手段410の他の具体的な構成を示した図である。 図6は主題歌検知手段410の他の具体的な構成を示した図である。 図7は主題歌検知手段410の他の具体的な構成を示した図である。 図8は主題歌検知手段410の他の具体的な構成を示した図である。 図9はクレジット情報重畳区間検出手段400の他の構成を示した図である。 図10はクレジット情報重畳区間検出手段400の他の構成を示した図である。 図11はクレジット情報重畳区間検出手段400の他の具体的な構成を示した図である。 図12はクレジット情報読み取り手段600の一例を示した図である。 図13はクレジット情報読み取り手段600の他の構成を示した図である。 図14は主題歌背景映像生成手段620の構成を示した図である。 図15はクレジット情報読み取り手段600の他の構成を示した図である。 図16は本発明の第2の実施の形態の構成を示した図である。 図17は本発明の第3の実施の形態の構成を示した図である。 図18は音楽著作物認識手段101の構成例を示した図である。 図19は音楽著作物認識手段101の他の構成を示した図である。 図20は音楽著作物照合手段822の構成を示した図である。 図21は登場人物認識手段102の構成を示した図である。 図22は登場人物認識手段102の他の構成を示した図である。 図23は本発明の第3の実施の形態の他の構成を示した図である。 図24は本発明の第3の実施の形態の他の構成を示した図である。
符号の説明
100 クレジット情報認識手段
103 統合手段
105 対象物認識手段
120 統合手段
130 統合手段
400 クレジット情報重畳区間検出手段
410 主題歌検知手段
420 映像切り出し手段
430 音響特徴量抽出手段
431 音響特徴量照合手段
432 主題歌音響特徴量データベース
435 主題歌音響特徴量データベース
440 音響特徴量抽出手段
441 音響特徴量照合手段
442 視覚特徴量抽出手段
443 視覚特徴量照合手段
445 音響特徴量照合手段
450 連続音響区間抽出手段
451 主題歌区間判定手段
452 主題歌候補区間判定手段
470 連続テロップ検知手段
480 ロールテロップ検知手段
481 選択手段
600 クレジット情報読み取り手段
610 テロップ読み取り手段
620 主題歌背景映像生成手段
630 主題歌背景差分映像生成手段
640 テロップ読み取り手段
650 テロップ読み取り結果総合判断
700 背景映像生成手段
710 対応フレーム算出手段
720 視覚特徴量抽出手段
800 楽曲候補抽情報出手段
801 候補音響特徴量選択手段
802 音楽著作物照合手段
803 楽曲音響特徴量データベース
820 音楽関連制作情報抽出手段
821 音楽著作物照合パラメータ選択手段
822 音楽著作物照合手段
823 音楽著作物照合パラメータデータベース
900 出演者候補情報抽出手段
901 候補人物特徴量選択手段
902 出演者照合手段
903 人物特徴量データベース
920 出演者所属団体抽出手段
921 出演者照合パラメータ選択手段
922 出演者照合手段
923 人物照合パラメータデータベース
950 音声重畳判定手段
951 音響特徴量照合手段
<第1の実施の形態>
第1の実施の形態を説明する。
第1の実施の形態では、コンテンツを解析してクレジット情報を読み取り、クレジット情報の候補となる情報を出力するクレジット情報認識手段100について説明する。
図1はクレジット認識手段100のブロック図である。
クレジット情報認識手段100では、コンテンツ中からクレジット情報が含まれている可能性が高い区間(以後、この区間をクレジット情報重畳区間と呼ぶ)を抽出する。次に、クレジット情報重畳区間に含まれる映像や音声を解析し、コンテンツからクレジット情報としてテロップ情報や音声を読み取る。そして、その結果をクレジット候補情報として出力する。
また、クレジット情報認識手段100において、クレジット情報を読み取る際には、クレジット情報が重畳されている可能性が高い区間だけではなく低い区間も読み取る様にしても良い。更に、読み取るクレジット情報は、コンテンツの権利に関しないクレジット情報も読取るようにしても良い。
ここで、コンテンツとは、映像、音声等から構成されるものであり、例えば、テレビ番組、ラジオ番組、映画等をいい、かならずしも放送や公開されるものに限られず、DVD等の記録媒体に格納されたものも含む。
また、クレジット情報とは、コンテンツの主題歌や最後の部分等に重畳されている、原作者や脚本家、出演者、主題歌、協力団体、提供企業などの情報を記したテロップや、音声である。
また、クレジット情報認識手段100に入力されるコンテンツは、MPEGなどの圧縮されたフォーマットで入力されてもよいし、既に復号されてから入力されてもよい。圧縮された映像として入力される場合には、クレジット情報認識手段の中で映像を復号しながら解析を行う。なお、番組映像は、ある特定の一回の放送分の映像であってもよいし、あるいは、同じ番組の複数の回の映像(例えば、ドラマの第1話から第10話までなど)を同時に入力する構成になっていてもよい。
更に、クレジット候補情報は、認識された文字列とその時間情報、画像中での位置情報(フレーム内での座標)を含んでいてもよい。また、テロップや音声の認識の確からしさを表す指標を含んでいてもよい。また、クレジット候補情報は、認識された各文字列に対して1つの情報を出力するようになっていてもよいし、複数の候補文字列を出力するようになっていてもよい。また、テロップが読み取れなかった場合には、そのテロップを含む映像中の時空間位置を特定する情報をクレジット候補情報に含んで出力してもよい。さらに、この時空間位置の映像情報自体をクレジット候補情報に含んで出力してもよい。
次に、図1に示されるクレジット情報認識手段100の各構成について述べる。尚、以下の説明では、コンテンツの例として番組映像を例にして説明する。
図1を参照すると、クレジット情報認識手段100は、クレジット情報重畳区間検出手段400とクレジット情報読み取り手段600とからなる。
クレジット情報重畳区間検出手段400は、番組映像を入力とし、その出力はクレジット情報読み取り手段600へ接続される。クレジット情報読み取り手段600は、クレジット情報重畳区間検出手段400から出力されるクレジット情報重畳区間映像データを入力とし、クレジット候補情報を出力する。
次に、図1に示すクレジット情報認識手段100の実施の形態の動作について説明する。
番組映像は、まず、クレジット情報重畳区間検出手段400へ入力される。クレジット情報重畳区間検出手段400では、視覚特徴量や音響特徴量、あるいはテロップの出現パターンなどの特徴を用いて、クレジット情報重畳区間を特定する。この方式の詳細については後述する。そして、特定された時間区間の映像データを、クレジット情報重畳区間映像データとして出力する。
クレジット情報重畳区間映像データは、クレジット情報読み取り手段600へ入力される。クレジット情報読み取り手段600では、入力される映像、あるいはそれを処理して得られる映像に対してテロップ認識が行われる。そして得られた認識結果をクレジット候補情報として出力する。
このように、本発明のクレジット情報認識手段100では、クレジット情報が重畳されている箇所を特定し、その区間を重点的に識別することで、映像に対して単純にテロップ認識を適用する場合に比べ、効率的に精度よくクレジット情報を抽出することが可能になる。
<クレジット情報重畳区間検出手段400の具体的な構成>
1.主題歌に着目してクレジット情報重畳区間を検出
クレジット情報重畳区間検出手段400の具体的な構成について説明する。以下に説明するクレジット情報重畳区間検出手段400は、コンテンツに含まれる音響のうち主題歌の部分にクレジット情報が重畳されることが多いことを利用した具体例である。尚、音響の一例として主題歌を用いたが、これに類するものであれば、主題歌に限られない。
図2はクレジット情報重畳区間検出手段400の構成を示した図であり、クレジット情報重畳区間検出手段400は、主題歌検知手段410と映像切り出し手段420とからなる。
主題歌検知手段410は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段420へ接続される。映像切り出し手段420は、番組映像と主題歌検知手段410から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。
次に、図2に示すクレジット情報重畳区間検出手段400の動作について述べる。
番組映像は、まず、主題歌検知手段410へ入力される。主題歌検知手段410では、映像中から主題歌を含む区間を抽出する。これは、ドラマなどの映像では、ほとんどの場合、主題歌の部分にクレジット情報が重畳されるためである。すなわち、主題歌の時間区間は、クレジット情報重畳区間とみなせる。番組映像から主題歌時間区間を抽出する方法の詳細については後述する。抽出された主題歌部分を特定する時刻情報は、区間指定時刻情報として出力される。
区間指定時刻情報は、番組映像とともに、映像切り出し手段420へ入力される。映像切り出し手段420では、番組映像ののうち、区間指定時刻情報によって指定される映像データを特定し、クレジット情報重畳区間映像データとして出力する。ここで、特定された映像をもとの番組映像から実際に切り出して出力してもよい。あるいは、実際に切り出すことはせず、区間の先頭と最後の位置へジャンプするための情報(例えば番組先頭からのバイト数)を取得し、特定された区間にすぐに頭だしできるようにするだけでもよい。この場合も、すぐに指定区間の先頭にアクセスできるため、実際に切り出した場合と同様に後段の処理が行える。
このように図2に示すクレジット情報重畳区間検出手段では、主題歌を検知することで、精度よくクレジット情報重畳区間を求めることを可能にする。
(1)主題歌検知手段410の具体的構成例1
主題歌検知手段410の具体的な構成について説明する。
図3を参照すると、主題歌検知手段410は、音響特徴量抽出手段430と音響特徴量照合手段431と主題歌音響特徴量データベース432とからなる。音響特徴量抽出手段430は、番組映像を入力とし、その出力である音響特徴量は音響特徴量照合手段431へ入力される。音響特徴量照合手段431は、音響特徴量抽出手段430から出力される音響特徴量と主題歌音響特徴量データベース432からの音響特徴量を入力とし、区間指定時刻情報を出力する。
次に、図3に示す主題歌検知手段410の動作について述べる。
番組映像は、まず、音響特徴量抽出手段430へ入力される。音響特徴量抽出手段430では、番組映像の音響信号を解析し、音響特徴量を抽出する。抽出された音響特徴量は、音響特徴量照合手段431へ出力される。音響特徴量照合手段431では、音響特徴量抽出手段430から入力される番組映像の音響特徴量と主題歌音響特徴量データベース内の主題歌音響特徴量を照合する。そして、番組音響特徴量中の照合した部分に相当する時間区間を特定する時刻情報(区間の始点、終点、時間長など)を区間指定時刻情報として出力する。
ここで、主題歌音響特徴量は、主題歌から予め抽出した音響特徴量である。これを事前に登録しておき、主題歌検知に用いる。この際、主題歌が予め既知の場合には、その主題歌の音源(CDなど)から音響特徴量を抽出して用いることができる。あるいは、シリーズもののドラマなどの場合には、ある一回の映像で主題歌の区間を特定し、この部分の音響特徴量を用いて他の回のドラマ映像の主題歌検知に用いることができる。
上述した主題歌検知手段410は、主題歌音響特徴量データベースに登録されている特徴量を用いて照合を行うため、確実に主題歌の部分を抽出することができる。
(2)主題歌検知手段410の具体的構成例2
主題歌検知手段410の他の具体的な構成について説明する。
図4を参照すると、主題歌検知手段410の他の具体的な構成例が示されており、音響特徴量抽出手段440と音響特徴量照合手段441とからなる。音響特徴量抽出手段440は、番組映像を入力とし、その出力である音響特徴量は音響特徴量照合手段441へ入力される。音響特徴量照合手段441は、音響特徴量抽出手段440から出力される音響特徴量を入力とし、区間指定時刻情報を出力する。
次に、図4に示す主題歌検知手段410の動作について述べる。
番組映像は、まず、音響特徴量抽出手段440へ入力される。ここで、番組映像は、単一の回の番組映像ではなく、複数回の番組映像をまとめて入力するものとする。例えば、シリーズもののドラマの場合には、数話分のドラマ映像がまとめて入力されるものとする。音響特徴量抽出手段440では、この複数回のドラマ映像それぞれに対して音響特徴量の抽出を行う。抽出された各回の音響特徴量は、音響特徴量照合手段441へ出力される。
音響特徴量照合手段441では、入力される複数回の番組の音響特徴量間で照合を行う。この際、照合は各回の番組全体で行うのではなく、番組から切り出される任意長の区間同士で行う。これにより、各回で音響特徴量が一致する区間が求まる。このようにして求まった区間のうち、一定区間長以上のものは、主題歌に相当する可能性が高いと考えられる。よって、上記で求まった一定区間長以上の区間を指定する時刻情報を区間指定時刻情報として出力する。あるいは、さらに区間の位置情報を用いて判定してもよい。即ち、主題歌は番組の冒頭か最後に流れる場合が多いことを利用して主題歌の区間を特定してもよい。この情報は、各回の番組に対して出力される。
図4に示す主題歌検知手段410は、主題歌が何であるかを知っていなくても、複数回の映像を用いて同じ音響のパターンを有するところを見つけることで、主題歌部分を特定できる。すなわち、主題歌特徴量を格納したデータベースが不要となる。
また、はじめの数回で主題歌部分を特定し、主題歌の特徴量を抽出すれば、それ以降の回では、抽出した主題歌の特徴量を用いて図3と同様にして主題歌部分を特定することもできる。これにより、複数回の動画間全体で共通部分を見つける場合に比べ、より少ない演算量で確実に主題歌部分を特定できる。
(3)主題歌検知手段410の具体的構成例3
主題歌検知手段410の他の具体的な構成について説明する。
図5を参照すると、主題歌検知手段410の他の具体的な構成の一例が示されており、連続音響区間抽出手段450と主題歌区間判定手段451とからなる。連続音響区間抽出手段450は、番組映像を入力とし、その出力である連続音響時間情報は主題歌区間判定手段451へ入力される。主題歌区間判定手段451は、連続音響区間抽出手段450から出力される連続音響時間情報を入力とし、区間指定時刻情報を出力する。
次に、図5に示す主題歌検知手段410の動作について述べる。
番組映像は、まず、連続音響区間抽出手段450へ入力される。ここでは、映像中の音響信号から音響の連続性(持続性)を分析する。そして、連続する音響区間がみつかった場合には、その時刻情報を連続音響時間情報として主題歌区間判定手段451へ出力する。
連続音響の分析は、例えば、番組映像の音響信号のパワーから無音区間を見つけ、無音区間で挟まれる区間を連続音響区間とする方式が考えられる。この際、音響特徴量を分析して音響信号の楽曲らしさを判定し、これが高いときのみ、連続音響区間として出力するようにしてもよい。この分析には、音響データに基づいて学習したサポートベクターマシンなどの音響判別器を用いることができる。
主題歌区間判定手段451では、入力される連続音響時間情報から主題歌に相当する時間区間を選択し、区間指定時刻情報として出力する。この際、主題歌部分は音響が長く続くこと、および、主題歌は番組のはじめか終わりに近い部分に存在することなどの条件を用いて主題歌区間を判定する。
このように、本説明の主題歌検知手段410では、音響が連続して続く場所は主題歌やBGMの部分が多く、特に、主題歌の部分は、音響信号が長く続く(数十秒から数分)ことを利用して主題歌の部分を特定している。これにより、実際に詳細な音響解析を行わなくても簡易に主題歌部分を特定できる。
(4)主題歌検知手段410の具体的構成例4
主題歌検知手段410の他の具体的な構成について説明する。
図6を参照すると、主題歌検知手段410の他の具体的な構成の一例が示されており、視覚特徴量抽出手段442と視覚特徴量照合手段443とからなる。視覚特徴量抽出手段442は、番組映像を入力とし、その出力である番組視覚特徴量は視覚特徴量照合手段443へ入力される。視覚特徴量照合手段443は、視覚特徴量抽出手段442から出力される視覚特徴量を入力とし、区間指定時刻情報を出力する。
次に、図6に示す主題歌検知手段410の動作について説明する。
番組映像は、まず、視覚特徴量抽出手段442へ入力される。ここで、番組映像は、図4と同様に、複数回の番組映像がまとめて入力されるものとする。視覚特徴量抽出手段442では、この複数回の番組映像それぞれに対して視覚特徴量の抽出を行う。抽出された各回の視覚特徴量は、視覚特徴量照合手段443へ出力される。
視覚特徴量照合手段443では、入力される複数回の番組の視覚特徴量間で照合を行う。この際、照合は各回の番組全体で行うのではなく、番組から切り出される任意長の区間同士で行う。これにより、各回で視覚特徴量が一致する区間が求まる。このようにして求まった区間のうち、一定区間長以上のものは、主題歌に相当する可能性が高いと考えられる。よって上記で求まった一定区間以上の区間を指定する時刻情報を区間指定時刻情報として出力する。この情報は、各回の番組に対して出力される。
図6に示す主題歌検知手段410も、図4の場合と同様に、主題歌が何であるかを知っていなくても複数回の映像を用いて同じ視覚パターンを有するところを見つけることで、主題歌部分を特定できる。
なお、視覚特徴量は、画面全体から算出するようになっていてもよいし、画面の一部分のみから抽出するようになっていてもよい。後者の場合には、主題歌背景の一部に本編映像が重ね合わせられるような場合にも対処できるようになる。
さらに、図6の視覚特徴量による照合結果と、図4の音響特徴量による照合結果を組み合わせることも可能である。これにより、より高精度に主題歌区間を検知できるようになる。特に、背景映像は、各回によって出現順が入れ替わる場合もあるが、音響特徴量を組み合わせることで、このような場合であっても、確実に主題歌区間を特定できるようになる。また、本編の音声が主題歌と重なって音響による全区間の特定が困難な場合であっても、視覚特徴量による照合の結果を組み合わせることで、補完することが可能となる。
(5)主題歌検知手段410の具体的構成例5
主題歌検知手段410の他の具体的な構成について説明する。
図7を参照すると、主題歌検知手段410の他の具体的な構成の一例が示されており、音響特徴量抽出手段440と音響特徴量照合手段445と音響特徴量抽出手段430と音響特徴量照合手段431と主題歌音響特徴量データベース435とからなる。
音響特徴量抽出手段440は、番組映像を入力とし、その出力である番組音響特徴量は音響特徴量照合手段445へ接続される。音響特徴量照合手段445は、音響特徴量抽出手段440から出力される番組音響特徴量を入力とし、主題歌音響特徴量を主題歌音響特徴量データベース435へ出力するとともに、区間指定時刻情報を出力する。主題歌音響特徴量データベース435は、音響特徴量照合手段445からの出力される主題歌音響特徴量を入力とし、それを音響特徴量照合手段431へ出力する。音響特徴量抽出手段430は、番組情報を入力とし、その出力である音響特徴量を音響特徴量照合手段431へ出力する。音響特徴量照合手段431は、主題歌音響特徴量データベース435から出力される主題歌音響特徴量と音響特徴量抽出手段430から出力される音響特徴量を入力とし、照合結果を出力する。
次に、図7に示す主題歌検知手段の動作について述べる。
番組映像は、複数の回からなる映像であるとする。音響特徴量抽出手段440の動作は図4の場合と同じである。音響特徴量照合手段445の動作も、図4の音響特徴量照合手段441の動作と同様であるが、さらに、検知された主題歌音響特徴量を主題歌音響特徴量データベース435へ出力する。主題歌音響特徴量データベース435は、音響特徴量照合手段445から出力される主題歌音響特徴量を蓄積しておき、音響特徴量照合手段431へ出力する。
音響特徴量抽出手段430へは、番組映像のうち、残りの複数回の映像が入力される。音響特徴量抽出手段430、音響特徴量照合手段431の動作は、図3の場合と同様である。
これにより、複数回の動画間全体で共通部分を見つける場合に比べ、より少ない演算量で確実に主題歌部分を特定できる。また、図7では、音響特徴量を用いた場合の構成について述べたが、視覚特徴量や、音響特徴量と視覚特徴量を用いた場合もまったく同様にして主題歌区間を検知できる。
(6)主題歌検知手段410の具体的構成例6
次に、主題歌検知手段410の他の具体的な構成について説明する。
図8を参照すると、主題歌検知手段410の他の具体的な構成が示されており、連続音響区間抽出手段450、主題歌候補区間判定手段452、音響特徴量抽出手段433、音響特徴量照合手段431、主題歌音響特徴量データベース432とからなる。連続音響区間抽出手段450は番組映像を入力とし、その出力である連続音響時間情報を主題歌候補区間判定手段452へ出力する。主題歌候補区間判定手段452は、連続音響区間抽出手段450から出力される連続音響時間情報を入力とし、その出力である主題歌候補区間時刻情報を音響特徴量抽出手段433へ出力する。音響特徴量抽出手段433は、番組映像と主題歌候補区間判定手段452から出力される主題歌候補区間時刻情報を入力とし、その出力である音響特徴量を音響特徴量照合手段431へ出力する。音響特徴量照合手段431は、音響特徴量抽出手段433から出力される音響特徴量と主題歌音響特徴量データベース432から出力される主題歌音響特徴量を入力とし、区間指定時刻情報を出力する。
次に、図8に示す主題歌検知手段410の動作について説明する。
番組映像は、連続音響区間抽出手段450へ入力される。連続音響区間抽出手段450の動作は、図5の場合と同様であり、求まった連続音響時間情報を主題歌候補区間判定手段452へ出力する。
主題歌候補区間判定手段452の動作も基本的には、図5の主題歌区間判定手段451と同様であるが、ここでは、完全に主題歌区間を特定する必要はなく、候補となる区間を抽出するのみでよいため、図5の場合よりもゆるい判定基準を用いてもよい。求まった主題歌候補区間時刻情報は音響特徴量抽出手段433へ出力される。
音響特徴量抽出手段433へは、番組映像も入力され、音響特徴量を抽出する。ただし、ここでは、主題歌候補区間時刻情報で指定された区間に対してのみ音響特徴量を抽出する。抽出された音響特徴量は、音響特徴量照合手段431へ出力される。
音響特徴量照合手段431、主題歌音響特徴量データベース432の動作は、図3の場合と同様である。
図8に示す主題歌検知手段410では、主題歌候補区間に対してのみ音響特徴量を抽出・照合するため、番組全体に対して特徴量抽出を行う場合に比べ、処理量を軽減できる。なお、このような絞込みは、図4、図6、図7などに示す主題歌検知手段410に対しても適用可能であり、処理量の低減が図れる。
2.テロップが連続的に出現するという特性に着目してクレジット情報重畳区間を検出
クレジット情報重畳区間検出手段400の具体的な他の構成について説明する。以下に説明するクレジット情報重畳区間検出手段400は、コンテンツでは、クレジット情報が重畳されているテロップは連続的に出現するという特性を利用した具体例である。
図9を参照するとクレジット情報重畳区間検出手段400の実施の形態の一例が示されており、連続テロップ検知手段470と映像切り出し手段420とからなる。連続テロップ検知手段470は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段420へ接続される。映像切り出し手段420は、番組映像と連続テロップ検知手段470から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。
次に、図9に示すクレジット情報重畳区間検出手段400の動作について述べる。
番組映像は、まず、連続テロップ検知手段470へ入力される。連続テロップ検知手段470では、テロップが連続して現れる区間を抽出する。これは、ドラマやバラエティ番組などで、クレジット情報がテロップとして重畳される区間では、テロップが連続的に出現するという特性に基づく。そして、この時間区間を区間指定時刻情報として出力する。
具体的には、番組映像に対してテロップ検出を行い、テロップが検出できた場合には、その開始時刻と終了時刻を求める処理を繰り返す。次に、開始時刻と終了時刻を解析し、複数のテロップがほとんど間を空けずに次々と出現する時間区間を求める。あるいは、異なるテロップ間の時間間隔を解析するかわりに、1画面中のテロップ占有面積を求め、ある一定領域以上の占有面積が断続的に続く区間として、区間指定時刻情報を求めてもよい。区間指定時刻情報は、番組映像とともに、映像切り出し手段420へ入力される。映像切り出し手段420の動作は、図2の場合と同様である。
このように図9に示すクレジット情報重畳区間検出手段は、音響特徴用の解析などの複雑な処理を行わなくても、テロップ出現のパターン情報のみを用いてクレジット情報重畳区間を求めることを可能にする。特に、静止テロップでクレジット情報が表示される番組に対して有効である。
3.ロールテロップ上にクレジット情報が連続的に出現するという特性に着目してクレジット情報重畳区間を検出
図10を参照するとクレジット情報重畳区間検出手段400の他の例が示されており、ロールテロップ検知手段480と映像切り出し手段420とからなる。ロールテロップ検知手段480は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段420へ接続される。映像切り出し手段420は、番組映像とロールテロップ検知手段480から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。
次に、図10に示すクレジット情報重畳区間検出手段400の動作について述べる。
番組映像は、まず、ロールテロップ検知手段480へ入力される。ロールテロップ検知手段480では、水平方向、あるいは垂直方向にスクロールするロールテロップを検知し、ロールテロップの存在する区間を区間指定時刻情報として出力する。これは、ドラマやバラエティ番組などで、クレジット情報が水平方向、あるいは垂直方向にスクロールしながら表示される場合が多いことに基づく。
このタイプのクレジットは、たいてい番組の最後であるため、エンドロールと呼ばれることもある。このため、ロールテロップを検知する際、時刻情報も併用し、映像の終わりに近い部分に対してロールテロップ検知を行うようになっていてもよい。これにより、番組映像央全体に対してロールテロップ検知を行う場合に比べ、処理量を大幅に低減できる。
具体的なロールテロップの検知方法としては、フレーム間で動き推定を行い、水平または垂直方向に等速直線運動を行っている領域を探す。そして、この等速直線運動が一定の時間間隔続く場合にロールテロップとして検知する。動き推定には、例えばブロックマッチングや、一般化ハフ変換を用いることができる。
求まった区間指定時刻情報は、番組映像とともに、映像切り出し手段420へ入力される。映像切り出し手段420の動作は、図2の場合と同様である。
このように、図10に示すクレジット情報重畳区間検出手段は、ロールテロップを検知することで、音響信号を用いずとも、クレジット重畳区間を検知できる。これは、映画やドラマなど、コンテンツの最後でクレジット情報が縦や横方向にスクロールしていく場合に特に有効である。また、バラエティなど、主題歌がなく、音響情報が使えない場合であっても、ロールテロップを検知することで、クレジット重畳区間を求めることができる。
4.上述した構成の組み合わせによりクレジット情報重畳区間を検出
次に、主題歌検知手段400の他の具体的な構成について説明する。図11を参照すると、クレジット情報重畳区間検出手段400の他の具体的な構成が示されており、主題歌検知手段410、ロールテロップ検知手段480、連続テロップ検知手段470、選択手段481、映像切り出し手段420とからなる。主題歌検知手段410、ロールテロップ検知手段480、連続テロップ検知手段470は、すべて、番組映像を入力とし、区間指定時刻情報を選択手段481へ出力する。選択手段481は、主題歌検知手段410から出力される区間指定時刻情報と、ロールテロップ検知手段480から出力される区間指定時刻情報と、連続テロップ検知手段470から出力される区間指定時刻情報とを入力とし、区間指定時刻情報を映像切り出し手段420へ出力する。映像切り出し手段420は、番組映像と選択手段481から出力される区間指定時刻情報とを入力とし、クレジット情報重畳区間映像データを出力する。
次に、図11に示すクレジット情報重畳区間検出手段400の動作について説明する。番組映像は、主題歌検知手段410、ロールテロップ検知手段480、連続テロップ検知手段470へ入力される。主題歌検知手段410、ロールテロップ検知手段480、連続テロップ検知手段470の動作は、前述のものと同様である。これらから出力される区間指定時刻情報は選択手段481へ入力される。選択手段481では、入力される区間指定時刻情報のうち、確からしいものを選択して出力する。もし、入力のうち、どれか1つのみしか区間指定時刻情報が入力されない場合には、その区間指定時刻情報を出力する。一方、複数の区間指定時刻情報が重なる場合(例えば、主題歌中にロールテロップが現れる場合など)には、重複する区間指定時刻情報を出力する。ただし、各検知手段で部分的にしか検知できない場合もあるため、全体のORをとるようにして区間指定時刻情報を求めてもよい。求まった区間指定時刻情報は、映像切り出し手段420へ出力される。
映像切り出し手段420の動作は、図7の場合と同様である。
図11のクレジット情報重畳区間検出手段は、様々なクレジットの出現パターンに適応的に対応できるという特長がある。また、複数のソースの利用により、クレジット重畳区間の検出精度を高めることができる。
<クレジット情報読み取り手段600の具体的な構成>
(1)クレジット情報読み取り手段600の具体的な構成例1
次に、クレジット情報読み取り手段600の具体的な構成の一例を説明する。
図12はクレジット情報読み取り手段600の一例を示した図であり、クレジット情報読み取り手段600はテロップ読み取り手段610からなる。テロップ読み取り手段610は、クレジット情報重畳区間映像データを入力とし、クレジット候補情報を出力する。
図12のクレジット情報読み取り手段600の動作について述べる。
クレジット情報重畳区間映像データは、テロップ読み取り手段610へ入力される。テロップ読み取り手段610では、入力される映像に対してテロップ認識を行い、認識結果をクレジット候補情報として出力する。ここで、テロップ認識をクレジット用にカスタマイズすることで、識別率を向上できる。例えば、「脚本」や「主題歌」など、クレジット情報で頻繁に使用される重要単語を重点的に学習した辞書を用いることができる。あるいは、このような特定の単語を事前に登録しておき、その単語が現れたかどうかを判定するようにすることで、より精度よく単語を抽出できるようになる。また、このような特定な単語を複数のフォントに対して学習しておき、文字列が出現したときにフォントを推定し、フォントごとにカスタマイズしたテロップ認識辞書を選択して、他のクレジット情報の読み取りを行うようにしてもよい。また、クレジットに現れる可能性がある人名を、その人の属性(例えば脚本家、俳優といった職業などの情報)別にデータベースに登録しておき、例えば脚本の箇所であれば、脚本家のデータベースから人名を探して識別するようにすることで、人名の識別精度を飛躍的に向上できる。さらに、この人名データベースを用いることで、人名の一部が読み取れなかった場合であっても、効率よく候補を絞り込むことが可能になる。また、クレジット情報の現れる順番やパターンにもある程度の規則性がある(例えば脚本家や原作家の情報は出演者の情報よりも時間的に先に出現しやすい、あるいは、単独で表示されることが多いなど)ため、これらの情報を反映させてテロップを識別することで、さらに精度を向上できる。以後、このようなテロップ認識に用いるパラメータ類をテロップ認識パラメータと呼ぶことにする。
このようなクレジット情報読み取り手段600は、テロップ読み取り手段のみを用いて構成しているため、簡易に構成することができる。また、クレジット情報読み取り手段600には、テロップが重畳されているクレジット情報重畳区間映像データが入力されるので、番組全体に対してテロップの読み取りを行う場合に比べると、余分な処理を行わずに、処理を軽減できる。すなわち、番組全体をテロップ読み取りする場合よりも、テロップが重畳された部分だけ、より詳細に効率よく解析し、テロップを読み取ることができる。このため、読み取りアルゴリズムをテロップ読み取りに特化することができ、クレジット情報の読み取り精度を向上できる。
(2)クレジット情報読み取り手段600の具体的な構成例2
クレジット情報読み取り手段600の他の具体的な構成の一例を説明する。本例は、コンテンツに含まれる音響のうち主題歌が流れている映像に着目してクレジット情報読み取る例である。
図13を参照すると、クレジット情報読み取り手段600の実施の形態の一例が示されており、主題歌背景映像生成手段620と主題歌背景差分映像生成手段630とテロップ読み取り手段640とからなる。
主題歌背景映像生成手段620は、クレジット情報重畳区間映像データを入力とし、主題歌背景映像を主題歌背景差分映像生成手段630へ出力する。主題歌背景差分映像生成手段630は、クレジット情報重畳区間映像データと主題歌背景映像生成手段620から出力される主題歌背景映像とを入力とし、主題歌背景差分映像をテロップ読み取り手段640へ出力する。テロップ読み取り手段640は、主題歌背景差分映像生成手段630から出力される主題歌背景差分映像を入力とし、クレジット候補情報を出力する。
次に、図13のクレジット情報読み取り手段600の動作について説明する。
まず、クレジット情報重畳区間映像データは、主題歌背景映像生成手段620へ入力される。ここで、クレジット情報重畳区間映像データは、複数回の映像を含むものとする。
主題歌背景映像生成手段620では、複数回の映像間で背景(クレジット情報以外の部分)が同じであるフレーム同士を対応付ける。対応付けられたフレーム間で画像処理を行って、主題歌の背景映像を作成し、主題歌背景差分映像生成手段630へ出力する。画像処理の詳細については後述する。
主題歌背景差分映像生成手段630では、入力される主題歌背景映像とクレジット情報重畳区間映像データの差分を求め、この値に基づいて主題歌背景差分映像を生成する。具体的には、差分が大きい画素は原画像をそのまま用いるようにし、そうでない画素は画素値を0にする。これにより、クレジットの部分のみが残る主題歌背景差分映像を生成できる。主題歌背景差分映像は、テロップ読み取り手段640へ出力される。
テロップ読み取り手段640では、入力される映像に対してテロップ認識を行い、認識結果をクレジット候補情報として出力する。
図13のクレジット情報読み取り手段600では、テロップ認識において背景の影響がなくなるため、読み取り精度を向上できる。
ここで、主題歌背景映像生成手段620について述べる。
図14を参照すると、主題歌背景映像生成手段620の実施の形態の一例が示されており、視覚特徴量抽出手段720と対応フレーム算出手段710と背景映像生成手段700とからなる。視覚特徴量抽出手段720は、クレジット情報重畳区間映像データを入力とし、主題歌背景視覚特徴量を対応フレーム算出手段710へ出力する。対応フレーム算出手段710は、視覚特徴量抽出手段720から出力される主題歌背景視覚特徴量を入力とし、フレーム対応情報を背景映像生成手段700へ出力する。背景映像生成手段700は、クレジット情報重畳区間映像データと対応フレーム算出手段710から出力されるフレーム対応情報とを入力とし、主題歌背景映像を出力する。
次に、図14の主題歌背景映像生成手段620の動作について説明する。
まず、クレジット情報重畳区間映像データは、視覚特徴量抽出手段720へ入力される。ここで、クレジット情報重畳区間映像データは、複数回の映像分のクレジット情報重畳区間映像である。例えば、シリーズもののドラマの場合には、数話分のドラマに対応する映像がまとめて入力されるものとする。視覚特徴量抽出手段720では、各回の映像から視覚特徴量を抽出する。抽出された視覚特徴量は、主題歌背景視覚特徴量として、対応フレーム算出手段710へ出力される。
対応フレーム算出手段710では、入力された各回の視覚特徴量間で照合を行う。この際、照合は各回の特徴量全体で行うのではなく、各回のクレジット情報重畳区間映像から切り出される任意長の区間同士で行う。これにより、各回で映像特徴量が一致する区間が求まる。区間が求まると、映像のフレーム同士の対応関係も求まる。なお、ここで、区間の対応付けは、数フレーム分前後にずれる可能性もあるため、このずれを補償する仕組みを追加してもよい。例えば、対応付けられた前後のフレームでフレーム間差分をとり、これが最小なるものを選ぶ、あるいは、マッチングがとれるピクセルの数が最大になるフレームを選ぶなどの方法が考えられる。このようにして求まった各回のフレーム間の対応情報は、フレーム対応情報として背景映像生成手段700へ出力される。
背景映像生成手段700では、入力される各回のクレジット情報重畳区間映像データと、対応フレーム算出手段710から出力されるフレーム対応情報とから、主題歌背景映像を生成する。フレーム対応情報から対応付けられる各回のフレームの対応位置の画素値に統計処理を行って生成する。
次に、このアルゴリズムの詳細について説明する。ここで、Fn,m(i,j)をn番目の映像のm番目のフレームの位置(I)における画素値とする。また、入力される番組の数をNとし、n番目の映像のm_n番目のフレームが対応するフレームであるとする。また、生成する背景映像のm番目のフレームの位置(i,j)における画素値をBm(i,j)で表すこととする。このとき、Bm(i,j)の値は、Fn,m_n(i,j) (n=1、…、N)から算出される。
まず、各画素(i,j)において、Fn,m_n(i,j) (n=1、…、N)の分散σ(i,j)を求める。これが十分小さい場合は、この位置にはどの回もテロップが載っていないと考えられる。よって、Bm(i,j)の値は単純に平均することで算出できる。すなわち、
Figure 0005218766
によって算出する。一方、分散σ(i,j)が大きい場合には、テロップが重畳されている可能性が高いと考えられる。この場合にそのまま単純平均を出すと、テロップの影響が背景に含まれ、背景映像がうまく生成できないという問題がある。そこで、分散σ(i,j)が大きいときには、例えば、Fn,m_n(i,j) (n=1、…、N)のメディアン値をBm(i,j)とする。これにより、テロップが載っている回の方が少ない場合には、背景画像生成でのテロップの影響を排除できる。
しかしながら、テロップが載っている回の方が多い位置(i,j)も存在すると考えられる。そこで、各回の映像Fn,m_n(i,j) (n=1、…、N)で、対象画素(i,j)がテロップに含まれている可能性を表す指標を定義し、これが大きいほど重みを小さくして加重平均をとる。これにより、テロップの入っていない回の映像の画素値の重みが大きくなり、背景映像へのテロップの影響を軽減できる。
このテロップらしさを表す指標をRn,m_n(i,j)で表すことにする。ただし、Rn,m_n(i,j)は非負の値を有し、これが大きいほど、テロップにふくまれている可能性が高いものとする。これを用いて以下の式により、背景映像の画素値Bm(i,j)を算出する。
Figure 0005218766
ここで、g(x)は非負の値を返すxに対する単調減少関数である。このようにして、テロップの影響が少ない背景映像を生成することが可能である。Rn,m_n(i,j)としては、例えば、位置(i,j)近傍のエッジの多さや勾配の大きさなどを用いることができる。あるいは、テロップらしいパターンを学習したニューラルネットなどの識別器を用いて、テロップらしさを判定するようにしてもよい。
このようにして得られた背景映像を用いると、背景の影響がないクレジット部分のみからなる映像を生成できるため、後段に接続されるテロップ認識の精度向上に貢献する。
(3)クレジット情報読み取り手段600の具体的な構成例3
図15を参照すると、クレジット情報読み取り手段600の他の一例が示されており、主題歌背景映像生成手段620と主題歌背景差分映像生成手段630と第1のテロップ読み取り手段610と第2のテロップ読み取り手段640とテロップ読み取り結果統合手段650とからなる。第1のテロップ読み取り手段610は、クレジット情報重畳区間映像データを入力とし、第1のクレジット候補情報をテロップ読み取り結果統合手段650へ出力する。主題歌背景映像生成手段620は、クレジット情報重畳区間映像データを入力とし、主題歌背景映像を主題歌背景差分映像生成手段630へ出力する。主題歌背景差分映像生成手段630は、クレジット情報重畳区間映像データと主題歌背景映像生成手段620から出力される主題歌背景映像とを入力とし、主題歌背景差分映像を第2のテロップ読み取り手段640へ出力する。第2のテロップ読み取り手段640は、主題歌背景差分映像生成手段630から出力される主題歌背景差分映像を入力とし、第2のクレジット候補情報をテロップ読み取り結果統合手段650へ出力する。テロップ読み取り結果統合手段650は、第1のテロップ読み取り手段610から出力される第1のクレジット候補情報と第2のテロップ読み取り手段640から出力される第2のクレジット候補情報を入力とし、クレジット候補情報を出力する。
次に、図15のクレジット情報読み取り手段600の動作について述べる。第1のテロップ読み取り手段610の動作は、図12のテロップ読み取り手段610と同様であり、第1のクレジット候補情報がテロップ読み取り結果統合手段650へ出力される。主題歌背景映像生成手段620と主題歌背景差分映像生成手段630の動作は、図13のものと同様である。また、第2のテロップ読み取り手段640の動作も図13のテロップ読み取り手段640と同様であり、第2のクレジット候補情報がテロップ読み取り結果統合手段650へ出力される。
テロップ読み取り結果統合手段650では、第1のクレジット候補情報と第2のクレジット候補情報を統合し、クレジット候補情報を生成して出力する。統合方法としてはいくつか考えられるが、例えば、両者の候補情報を合わせて候補情報として出力する方法、両者のうち、テロップ認識の信頼度が高い方を候補情報として出力する方法、両者のうち、信頼度が一定の基準より高いものをすべて候補情報として出力する方法などがある。これ以外にも、両者を統合して出力を生成する方法であれば、どのような方法でもよい。
図15のクレジット情報読み取り手段600では、通常の画像データか主題歌背景差分の画像データのどちらかで正しく読み取れればよいため、図12や図13のように単独で用いる場合に比べ、認識精度を向上できる。
本説明のクレジット情報読み取り手段600は、第1の読み取り手段での読み取り結果と第2の読み取り手段での読み取り結果とのうち、信頼度が高い方を選択してマージしているので、どちらか一方のみを用いた場合よりも読み取り精度を向上することができる。例えば、背景の主題歌で毎回同じ位置に同じクレジット情報が重畳される場合には、背景差分ではクレジット文字列が抽出できないため、直接テロップを読み取った方が精度がよい。一方、テロップ重畳位置や内容が毎回異なる場合には、背景が複雑で通常のテロップ読み取りができない場合であっても、背景差分を読み取ることで、クレジット情報の読み取れるようになる。このようにして、両者をマージすることでクレジット読み取りの精度を向上することができる。
<第2の実施の形態>
本発明の第2の実施の形態について図面を参照して詳細に説明する。
図16を参照すると、本発明の第2の実施の形態の一例が示されており、クレジット情報認識手段100と、対象物認識手段105と、統合手段103とを含む。
クレジット情報認識手段100は、番組映像を入力とし、その出力は統合手段103へ接続される。対象物認識手段105は、番組映像を入力とし、その出力は、統合手段103へ接続される。統合手段103は、クレジット情報認識手段100の出力と対象物認識手段105の出力を入力とし、権利情報を出力する。
次に、第2の実施の形態の動作について説明する。
番組映像は、クレジット情報認識手段100と対象物認識手段101とへ入力される。
クレジット情報認識手段100の動作は、上述した第1の実施の形態又は実施例のものと同様であり、クレジット候補情報を統合手段103へ出力する。
対象物認識手段105は、コンテンツ内の権利に関する対象物を認識する手段であり、対象物とは、コンテンツ内の音楽著作物や、登場人物等である。
例えば、対象物が音楽著作物の場合、番組映像から音響特徴量を抽出し、既にデータベースに登録されている音響特徴量と照合する。この際、音楽著作物の全体ではなく、一部区間のみの照合も許可して照合を行う。照合した結果、データベース内の楽曲と同一であると判定された場合には、その楽曲を特定する音楽識別情報(例えば楽曲に付与されたID)を出力する。同じ楽曲でも複数の音源がデータベースに登録されており、それらの一つが照合された場合には、その音源を特定する情報も含んでいてもよい。また、楽曲の全体ではなく一部が照合された場合には、その照合区間を特定する情報を音楽識別情報に含んでいてもよい。さらに、音楽識別の確からしさを表す指標も合わせて含んでいてもよい。また、音楽識別情報は、各楽曲に対して1つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。また、抽出した音響特徴量が照合を試行したどの音響特徴量ともマッチングしない場合には、その音響特徴量を含む映像区間を特定する情報を音楽識別情報に含めて出力するようになっていてもよい。さらに、この区間の音響信号を一緒に出力するようになっていてもよい。このようにして求められた音楽識別情報は、統合手段103へ出力される。
また、対象物が登場人物である場合、映像中に出現する登場人物の人物特徴量を抽出・照合する。すなわち、映像情報から人物特徴量を抽出し、既にデータベースに登録されている人物特徴量と照合する。照合した結果、データベース内の人物と同一であると判定された場合には、その人物を特定する人物識別情報(例えば人物に付与されたID)を出力する。また、人物識別の確からしさを表す指標も合わせて含んでいてもよい。また、人物識別情報は、各登場人物に対して1つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。また、抽出した人物特徴量が、照合を試行したいずれの人物特徴量ともマッチングしない場合には、その人物特徴量を含む映像区間または映像中の時空間位置を特定する情報を人物識別情報に含んで出力してもよい。さらに、この時空間位置の映像情報自体も合わせて出力してもよい。このようにして求められた人物識別情報は、統合手段103へ出力される。ここで、人物特徴量としては、顔を記述する特徴量であってもよいし、人の声の特徴量であってもよい。あるいは、これらを組み合わせた特徴量であってもよく、また、人物の識別に用いることができる他の特徴量であってもよい。
統合手段103は、クレジット情報認識手段100から出力されるクレジット候補情報、対象物認識手段105から出力される対象物識別情報を統合し、権利情報として出力する。
統合手段103の統合の方法であるが、単純に、クレジット情報認識手段100から出力されるクレジット候補情報と、対象物認識手段105から出力される対象物識別情報とを出力する方法が考えられる。
また、統合の他の方法として、クレジット情報認識手段100から出力されるクレジット候補情報と、対象物認識手段105から出力される対象物識別情報とを照合し、グループ化して出力する方法が考えられる。このときに信頼度に応じて優先順位をつけてもよい。また、信頼度が最も高いものを選択する、あるいは、信頼度が一定以上のものを選択するようにしても良い。
照合の方法として、対象物が音楽の場合、識別された楽曲の中から、連続音響の長さから主題歌/テーマソングを選択する。選択された楽曲のタイトルやその属性情報(作詞者、作曲者、あるいは歌手、演奏家名)と、クレジット候補情報の音楽情報とを照合し、一致度がある一定以上の場合に同一楽曲とみなす方法がある。また、番組中での出現時刻を考慮し、主題歌かどうかを判定(すなわち、番組の冒頭に近い位置あるいは最後に近い位置で出現するかどうかを判定)し、上記と同じ基準で重複を判定する方法もある。
更に、対象物が人物の場合、単純に人物識別の結果得られた名前と、クレジット候補情報から得られた出演者の名前を照合し、一致度がある一定以上の場合に同一人物とみなす方法がある。例えば、文字の数が一定以上一致する場合、あるいは、文字の形状の類似度が名前全体で一定以上になる場合に同一人物とみなす。この際、一致した文字の汎用度を考慮して類似度を判定してもよい。例えば、「木村」よりも「拓也」のほうが同じ2文字でも人物を特定しやすいため、後者のほうを類似度が高いと判定するようにしてもよい。この判定には、TF・IDF法などの方法を用いることができる。また、人物識別の結果から、同じ人物と判定される人物識別情報をグループ化して出演頻度あるいは出演時間を算出あるいは推定し、主役級かどうかを判定し、クレジット候補情報での出現順や、出現パターン(脇役は複数まとめて表示されるのに対し、主役級は単独で表示される、あるいは、ロールテロップの場合は、主役級の場合は前後と間隔を空けて表示される)を考慮して、同一人物かどうかを判定する方法もある。
このような照合方法を用いて、クレジット候補情報と対象物識別情報とをグループ化し、権利情報として出力する。
次に、本発明の第2の実施の形態の効果について説明する。
第2の実施の形態では、クレジット情報認識手段と対象物認識手段とを独立に動かし、これらの結果を統合することによって、クレジット候補情報のみの場合と比べて、より正確に権利に関する情報を知ることができる。
<第3の実施の形態>
第3の実施の形態を説明する。
第3の実施の形態は、上述した第1の実施の形態と第2の実施の形態とを組み合わせたものであり、更に、対象物認識手段105がクレジット情報認識手段からのクレジット候補情報を用いることを特徴とする。尚、以下の説明では、対象物認識手段の例として、音楽著作物認識手段101と、登場人物認識手段102との例を示す。
図17を参照すると、本発明の第3の実施の形態は、クレジット情報認識手段100と、音楽著作物認識手段101と、登場人物認識手段102と、統合手段103とを含む。クレジット情報認識手段100は、番組映像を入力とし、その出力は、音楽著作物認識手段101と、登場人物認識手段102と、統合手段103へ接続される。音楽著作物認識手段101は、番組映像とクレジット情報認識手段100の出力とを入力とし、その出力は、統合手段103へ接続される。登場人物認識手段102は、番組映像とクレジット情報認識手段100の出力とを入力とし、その出力は、統合手段103へ接続される。統合手段103へは、クレジット情報認識手段100と音楽著作物認識手段101と登場人物認識手段102の出力が接続され、権利情報を出力する。
次に、図17の実施の形態の動作について説明する。
番組映像は、クレジット情報認識手段100と、音楽著作物認識手段101と、登場人物認識手段102とへ入力される。これらの3つの手段のうち、まず、クレジット情報認識手段100によって番組映像が解析される。
クレジット情報認識手段100では、入力される番組映像を解析し、映像中に重畳されているクレジット情報を読み取り、クレジット情報の候補となる情報を出力する。
ここで、クレジット情報とは、上述したように、番組の主題歌や最後の部分に重畳されている、原作者や脚本家、出演者、主題歌などの情報を記したテロップや音声である。また、番組映像は、MPEGなどの圧縮されたフォーマットで入力されてもよいし、既に復号されてから入力されてもよい。圧縮された映像として入力される場合には、クレジット情報認識手段の中で映像を復号しながら解析を行う。なお、番組映像は、ある特定の一回の放送分の映像であってもよいし、あるいは、同じ番組の複数の回の映像を同時に入力する構成になっていてもよい。
クレジット情報認識手段100では、番組映像中からクレジット情報が重畳されている情報重畳区間を抽出する。次に、クレジット情報重畳区間に含まれる映像を解析し、映像からテロップ情報を読み取る。そして、その結果をクレジット候補情報として出力する。クレジット候補情報は、認識された文字列とその時間情報、画像中での位置情報(フレーム内での座標)を含んでいてもよい。また、テロップの認識の確からしさを表す指標を含んでいてもよい。また、クレジット候補情報は、認識された各文字列に対して1つの情報を出力するようになっていてもよいし、複数の候補文字列を出力するようになっていてもよい。このようにして求められたクレジット候補情報は、統合手段103へ出力されるとともに、音楽著作物認識手段101、登場人物認識手段102へも出力される。
尚、クレジット情報認識手段100は、上述した具体的な構成のいずれかを用いることが可能である。
音楽著作物認識手段101では、入力される番組映像とクレジット候補情報とを解析し、映像中で使われている音楽情報を抽出・照合する。すなわち、まず番組映像から音響特徴量を抽出し、次に既にデータベースに登録されている音響特徴量と照合する。この際、音楽著作物の全体ではなく、一部区間のみの照合も許可して照合を行う。また、クレジット候補情報から音楽に関連する情報を抽出し、照合に用いるデータベースの制御、あるいは、照合時のパラメータの調整に用いる。照合した結果、データベース内の楽曲と同一であると判定された場合には、その楽曲を特定する音楽識別情報(例えば楽曲に付与されたID)を出力する。同じ楽曲でも複数の音源がデータベースに登録されており、それらの一つが照合された場合には、その音源を特定する情報も含んでいてもよい。また、楽曲の全体ではなく一部が照合された場合には、その照合区間を特定する情報を音楽識別情報に含んでいてもよい。さらに、音楽識別の確からしさを表す指標も合わせて含んでいてもよい。また、音楽識別情報は、各楽曲に対して1つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。このようにして求められた音楽識別情報は、統合手段103へ出力される。
登場人物認識手段102では、入力される番組映像とクレジット情報とを解析し、映像中に出現する登場人物の人物特徴量を抽出・照合する。すなわち、まず映像情報から人物特徴量を抽出し、次に既にデータベースに登録されている人物特徴量と照合する。この際、クレジット候補情報から登場人物に関連する情報を抽出し、照合に用いるデータベースの制御、あるいは、照合時のパラメータの調整に用いる。そして、この照合結果を人物識別情報として出力する。照合した結果、データベース内の人物と同一であると判定された場合には、その人物を特定する人物識別情報(例えば人物に付与されたID)を出力する。また、人物識別の確からしさを表す指標も合わせて含んでいてもよい。また、人物識別情報は、各登場人物に対して1つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。このようにして求められた人物識別情報は、統合手段103へ出力される。
ここで、人物特徴量としては、顔を記述する特徴量であってもよいし、人の声の特徴量であってもよい。あるいは、これらを組み合わせた特徴量であってもよく、また、人物の識別に用いることができる他の特徴量であってもよい。
統合手段103では、クレジット情報認識手段100から出力されるクレジット候補情報、音楽著作物認識手段101から出力される音楽識別情報、登場人物認識手段102から出力される人物識別情報を統合し、権利情報として出力する。
統合の方法は、上述した第2の実施の形態における統合手段103で説明した手法を用いても良いし、認識された文字列とその位置の関係から、原作や脚本家、出演者など権利対象の種別ごとに対応付け、権利情報として出力するようにしても良い。
また、音楽著作物の場合には、認識された音楽タイトルや音楽識別情報を各楽曲に対して出力する。あるいは、各楽曲の著作権情報を格納したデータベースにアクセスができる場合には、音楽識別情報からその音楽に付随する権利情報を求め、これを出力してもよい。人物については、人物識別情報をそのまま出力してもよいし、それと合わせて人物名を出力するようにしてもよい。なお、これらの権利情報は、最終的には1つに絞り込まずに、候補を全て出力するようにし、最終的には人が確認するようにしてもよい。これにより、認識された権利情報が誤っている場合の訂正が容易になる。
<音楽著作物認識手段101の構成例>
(1)音楽著作物認識手段101の具体的な構成例1
図18を参照すると、音楽著作物認識手段101の構成例が示されており、楽曲候補抽出手段800と候補音響特徴量選択手段801と音楽著作物照合手段802と楽曲音響特徴量データベース803とからなる。楽曲候補抽出手段800は、クレジット候補情報を入力とし、楽曲候補情報を候補音響特徴量選択手段801へ出力する。候補音響特徴量選択手段801は、楽曲候補抽出手段800から出力される楽曲候補情報に基づいて楽曲音響特徴量データベース803から楽曲音響特徴量を選択し、候補音響特徴量を音楽著作物照合手段802へ出力する。音楽著作物照合手段802は、番組映像と候補音響特徴量選択手段801から出力される候補音響特徴量を入力とし、音楽識別情報を出力する。
次に、図18の音楽著作物認識手段101の動作について述べる。
クレジット候補情報は、楽曲候補情報抽出手段800へ入力される。楽曲候補情報抽出手段800では、クレジット候補情報から、主題歌や挿入歌など、番組中で使われている楽曲に関する候補情報を抽出する。例えば、「主題歌」や「挿入歌」、「テーマソング」など、楽曲に関するキーワードを登録しておき、これらのキーワードが検出された場合には、これと並んで表示されるかあるいは続けて表示される文字列の認識結果を楽曲候補情報として抽出する。ここで得られる情報は、楽曲の題名、歌手や演奏家の名前、作詞・作曲家の名前などである。そして、得られた楽曲候補情報を候補音響特徴量選択手段801へ出力する。
候補音響特徴量選択手段801では、楽曲音響特徴量データベース803から、得られた楽曲候補情報と一致するか、あるいは類似する題名や人名と関連付けられた楽曲の特徴量を選択する。そして、選択された音響特徴量データを候補音響特徴量として音楽著作物照合手段802へ出力する。
音楽著作物照合手段802では、まず、番組映像から音響特徴量を抽出する。この音響特徴量と候補音響特徴量選択手段801から出力される候補音響特徴量とを照合し、照合された場合には、その音楽の識別情報を出力する。この際、音楽著作物の全体ではなく、一部区間のみの照合も許可して照合を行う。
このように、図18の音楽著作物認識手段101は、クレジットの情報が完全に読み取れなくても、実際に使われている楽曲を特徴量同士で照合することで、楽曲に関する著作権情報抽出の精度を向上できる。
(2)音楽著作物認識手段101の具体的な構成例2
図19を参照すると、音楽著作物認識手段101の他の構成例が示されており、音楽関連制作情報抽出手段820と音楽著作物照合パラメータ選択手段821と音楽著作物照合手段822と音楽著作物照合パラメータデータベース823と楽曲音響特徴量データベース803とからなる。音楽関連制作情報抽出手段820は、クレジット候補情報を入力とし、音楽関連制作情報を音楽著作物照合パラメータ選択手段821へ出力する。音楽著作物照合パラメータ選択手段821は、音楽関連制作情報抽出手段820から出力される音楽関連制作情報を入力とし、音楽著作物照合パラメータデータベース823から音楽著作権照合パラメータを選択し、音楽著作物照合手段822へ出力する。音楽著作物照合手段822は、番組情報と音楽著作物照合パラメータ選択手段821から出力される音楽著作物照合パラメータと楽曲音響特徴量データベース803に格納された楽曲音響特徴量とを入力とし、音楽識別情報を出力する。
次に、図19の音楽著作物認識手段101の動作について述べる。
クレジット候補情報は、音楽関連制作情報抽出手段820へ入力される。音楽関連制作情報抽出手段820では、音楽関連制作情報をクレジット候補情報から抽出する。ここで、音楽関連制作情報とは、番組制作における音楽関連の情報であり、音楽の担当者、音楽協力を行ったレコード会社、選曲を担当した人物などである。これも、前述の楽曲候補情報抽出手段800と同様に、「音楽」、「選曲」などといったキーワードを登録しておき、これらのキーワードが検出された場合には、これと並んで表示されるかあるいは続けて表示される文字列の認識結果を音楽関連制作情報として抽出する。そして、抽出結果を音楽制作関連情報として音楽著作物照合パラメータ選択手段821へ出力する。
音楽著作物照合パラメータ選択手段821では、入力される音楽関連制作情報に応じて、音楽著作物照合パラメータデータベース823に格納されている音楽著作物の照合で使用するパラメータを選択する。あるいは、選択された情報に基づいて、音楽著作物照合パラメータを制御する。例えば、音楽関連制作情報として抽出された文字列がレコード会社の名前の場合には、そのレコード会社が持っている楽曲を優先的に選択させるように音楽著作物照合パラメータを調整する。あるいは、レコード会社ごとにグループ化されて、あるいはデータベースを分けて楽曲音響特徴量データベース803に楽曲音響特徴量が格納されている場合には、そのグループやデータベースを指定するための情報を音楽著作物照合パラメータとして選択する。あるいは、音楽関連制作情報が、BGMなどの楽曲の選定に関わった人や団体名である場合には、その人の過去の楽曲使用履歴に応じて、音楽著作物照合パラメータを調整するようになっていてもよい。このようにして選択された音楽著作物照合パラメータは、音楽著作物照合手段822へ入力される。
音楽著作物照合手段822の動作は、基本的に図18の音楽著作物照合手段802の動作と同様である。違いは、さらに音楽著作物照合パラメータ選択手段821から音楽著作物照合パラメータが入力され、これによって照合のパラメータを調整できるようになっている点である。照合の結果は、音楽識別情報として出力される。
図19の音楽著作物認識手段101により、照合パラメータを調整することで、認識の精度を高めることが可能になる。
ここで、図19の音楽著作物認識手段101における音楽著作物照合手段822について、更に、詳細に説明する。
図20を参照すると、音楽著作物照合手段822の実施の形態の一例が示されており、音声重畳判定手段950と音響特徴量照合手段951とからなる。音声重畳判定手段950は、番組映像を入力とし、音声重畳区間時刻情報を音響特徴量照合手段951へ出力する。音響特徴量照合手段951は、番組映像と音声重畳判定手段950から出力される音声重畳区間時刻情報と、音楽著作物照合パラメータとを入力とし、音声識別情報を出力する。
次に、図20の音楽著作物照合手段822の動作について述べる。
番組映像は、音声重畳判定手段950へ入力される。音声重畳判定手段950では、音響信号を解析し、音声が重畳されているかどうかを判定する。例えば、音響信号の周波数解析を行い、人間の声に近い特性を有する場合には、音声が重畳されていると判定する。これ以外にも、音声の重畳を判定可能な方法であれば、どのような方法も用いることができる。音声が重畳していると判定された場合には、音声が重畳している区間の時間情報(区間開始点、終了点、区間時間長など)を音声重畳区間時刻情報として音響特徴量照合手段951へ出力する。
音響特徴量照合手段951では、入力される映像番組から音響特徴量を抽出し、候補音響特徴量と照合する。この際、音声重畳判定手段950から出力される音声重畳区間時刻情報を用い、照合方法を調整する。例えば、音声が重畳している区間を省いて照合を行う、音声が重畳している区間では、音声周波数帯域の重みを低くして照合を行うなどの方法が考えられる。また、音楽著作物照合パラメータも入力されるようになっており、これを用いて照合方式を調整するようになっていてもよい。照合の結果は音楽識別情報として出力される。
図20の音楽著作物照合手段822は、音声情報がBGMにかかった場合でもその影響を小さく抑え、認識精度を向上できる。
<登場人物認識手段102の構成例>
(1)登場人物認識手段102の具体的な構成例1
図21を参照すると、登場人物認識手段102の実施の形態の一例が示されており、出演者候補情報抽出手段900と候補人物特徴量選択手段901と出演者照合手段902と人物特徴量データベース903とからなる。出演者候補情報抽出手段900は、クレジット候補情報を入力とし、出演者候補情報を候補人物特徴量選択手段901へ出力する。候補人物特徴量選択手段901は、出演者候補情報抽出手段900から出力される出演者候補情報を入力とし、人物特徴量データベース903から候補人物特徴量を選択し、出演者照合手段902へ出力する。出演者照合手段902は、番組映像と候補人物特徴量選択手段901から出力される候補人物特徴量を入力とし、人物識別情報を出力する。
次に、図21の登場人物認識手段102の動作について述べる。
クレジット候補情報は、出演者候補情報抽出手段900へ入力される。出演者候補情報抽出手段900では、クレジット候補情報から、出演者に相当する部分を抽出し、出演者候補情報として出力する。具体的には、配役名と推定される名前と一緒に記されている人物名を抽出する、「出演」という単語と同時かあるいはそれに続いて表示される人物名を抽出する、クレジットに記載されている人物名から脚本家やプロデューサーなど、番組に明らかに出演していない人物名を判定し、これらを除いた人物名を抽出するなどの方法が考えられる。抽出された出演者候補情報は、候補人物特徴量選択手段901へ出力される。
候補人物特徴量選択手段901では、人物特徴量データベース903から、人名が一致、あるいは近い人物の特徴量を選択する。この際、1つの認識された人名候補に対して1つの人物特徴量を対応付けて出力する必要はなく、複数の類似した名前を有する人物の人物特徴量を出力するようになっていてもよい。選択された候補人物特徴量は、出演者照合手段902へ出力される。
出演者照合手段902では、まず、入力される番組映像から人物特徴量を抽出する。例えば、人物特徴量が顔特徴量の場合には、映像に対して顔検出を行い、次に、検出された領域の顔特徴量を算出する。あるいは、人物特徴量が音声特徴量の場合には、まず、音声を含む区間を抽出し、次に、この区間の音声の特徴量を抽出する。抽出された人物特徴量は、候補人物特徴量選択手段901から入力される候補人物特徴量の各々と照合される。照合の結果、同一と判定された場合には、その人物を識別するための情報を人物識別情報として出力する。
図21に示す登場人物認識手段102では、クレジット情報が完全に正確には認識できなかった場合や同姓同名などで曖昧な場合であっても、実際の人物特徴量を照合することで、出演者情報を正しく抽出することを可能にする。
(2)登場人物認識手段102の具体的な構成例2
図22を参照すると、登場人物認識手段102の実施の形態の一例が示されており、出演者所属団体抽出手段920と出演者照合パラメータ選択手段921と出演者照合手段922と人物特徴量データベース903と人物照合パラメータデータベース923とからなる。
出演者所属団体抽出手段920は、クレジット候補情報を入力とし、出演者所属関連情報を出演者照合パラメータ選択手段921へ出力する。出演者照合パラメータ選択手段921は、出演者所属団体抽出手段920から出力される出演者所属関連情報を入力とし、人物照合パラメータデータベース923から出演者照合パラメータを選択し、出演者照合手段922へ出力する。出演者照合手段922は、番組映像と出演者照合パラメータ選択手段921から出力される出演者照合パラメータと人物特徴量データベース903に格納されている人物特徴量を入力とし、人物識別情報を出力する。
次に、図22の登場人物認識手段102の動作について述べる。
クレジット候補情報は出演者所属団体抽出手段920へ入力される。出演者所属団体抽出手段920では、クレジット候補情報から、劇団名や芸能プロダクション名など、出演者の所属に関連する情報を抽出する。具体的には、出演者の所属情報の辞書を用意し、この辞書に登録されている名前と照合することで抽出できる。抽出された結果は、出演者所属関連情報として出演者照合パラメータ選択手段921へ出力される。
出演者照合パラメータ選択手段921では、人物照合パラメータデータベース923から出演者照合パラメータを選択する。例えば、所属団体ごとにグループ化されて、あるいはデータベースを分けて人物特徴量データベース903に人物特徴量が格納されている場合には、そのグループやデータベースを指定するための情報を出演者照合パラメータとして選択する。選択された出演者照合パラメータは出演者照合手段922へ出力される。
出演者照合手段922の動作は、基本的に図21の出演者照合手段902の動作と同様である。違いは、さらに出演者照合パラメータ選択手段921から出力される出演者照合パラメータが入力され、これによって照合のパラメータを調整できるようになっている点である。照合の結果は、人物識別情報として出力される。
図22の登場人物認識手段102により、クレジットには劇団名などの団体名しか記載されていない場合であっても、その団体に所属する誰が出演したかを効率的に抽出することが可能になる。
本発明の第3の実施の形態の効果について説明する。
本実施の形態では、映像中からクレジットの重畳区間を求め、テロップ認識を行うため、権利情報として重要なクレジット情報を直接得ることができる。また、重畳区間のみに処理を絞っているため、番組全体にテロップ認識を行う場合に比べ、演算負荷を低減できる。
また、音楽著作物の識別にも、このクレジット情報を用いるため、通常の音楽識別に比べ、識別の精度を高めることができる。また、登場人物の識別にも、クレジット情報を用いるため、単体の人物識別に比べ、識別の精度を高めることができる。
尚、上述した説明では、対象物認識手段の例として、音楽著作物認識手段101と、登場人物認識手段102との例を示したが、この例に限ることなく、例えば、図23、図24のようにいずれかの一方のみを用いる構成としても良い。また、対象物認識手段は、上述した各具体的な構成のものを組み合わせて用いても良い。
本出願は、2006年10月26日に出願された特願2006−291442号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (28)

  1. コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、
    コンテンツ中でクレジット情報が含まれているクレジット情報区間を検出するクレジット情報区間検出手段と、
    前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、
    前記コンテンツから当該コンテンツに出現する物の特徴量又は音響特徴量を抽出し、前記クレジット候補情報と前記抽出した物の特徴量又は音響特徴量とを参照し、映像又は音響の特徴量が記憶されたデータベースから、前記コンテンツ内の権利の対象となる映像または音響の対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、
    前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する統合手段と
    を有することを特徴とする権利情報抽出装置。
  2. 前記クレジット情報区間検出手段は、クレジット情報が映像に重畳されている映像区間をコンテンツから検出し、その映像区間の映像データであるクレジット情報区間映像データを出力することを特徴とする請求項1に記載の権利情報抽出装置。
  3. 前記クレジット情報区間検出手段は、前記コンテンツから音響区間を検知し、音響区間情報として出力する音響検知手段と、
    前記音響区間情報によって特定される前記コンテンツの区間を前記クレジット情報区間として出力する手段と
    を有することを特徴とする請求項1に記載の権利情報抽出装置。
  4. 前記音響検知手段は、
    コンテンツ中の連続的な音響情報の持続時間を計測し、連続音響時間として出力する連続音響時間計測手段と、
    前記連続音響時間を用いて音響区間を判定し、音響区間情報として出力する音響区間判定手段と
    を有することを特徴とする請求項3に記載の権利情報抽出装置。
  5. 前記音響検知手段は、
    前記コンテンツを構成する複数のコンテンツの各回のそれぞれに対して音響特徴量の抽出し、音響特徴量として出力する音響特徴量抽出手段と、
    前記音響特徴量間で音響特徴量の照合を行い、音響特徴量が共通である区間を特定することによって音響部分を検知し、音響区間情報として出力する音響特徴量照合手段と
    を有することを特徴とする請求項3又は請求項4に記載の権利情報抽出装置。
  6. 前記クレジット情報区間検出手段は、
    テロップ候補領域が連続的に出現する映像区間を前記コンテンツから検出し、この映像区間を連続テロップ出現区間情報として出力する連続テロップ検知手段と、
    前記連続テロップ出現区間情報によって特定される前記映像区間の映像データを前記クレジット情報区間映像データとして出力する手段と
    を有することを特徴とする請求項2に記載の権利情報抽出装置。
  7. 前記クレジット情報区間検出手段は、
    前記コンテンツからロールテロップを検知し、この映像区間の時刻情報をロールテロップ区間情報として出力するロールテロップ検知手段と、
    前記ロールテロップ区間情報によって特定される前記コンテンツの映像区間を前記クレジット情報区間映像データとして出力する手段と
    を有することを特徴とする請求項2に記載の権利情報抽出装置。
  8. 前記クレジット情報認識手段は、前記クレジット情報区間映像データにテロップ認識を行って前記クレジット候補情報を出力すること特徴とする請求項2に記載の権利情報抽出装置。
  9. 前記クレジット情報認識手段は、
    複数回のコンテンツのクレジット情報区間映像データが入力され、前記複数回のクレジット情報区間映像データ間で共通する特徴を持つ音響背景映像を生成して出力する音響背景映像生成手段と、
    前記音響背景映像を前記クレジット情報区間映像データから差し引くことで音響背景差分映像を生成して出力する音響背景差分映像生成手段と、
    前記音響背景差分映像にテロップ認識を適用して前記クレジット候補情報を取得して出力するテロップ読み取り手段と
    を有することを特徴とする請求項2に記載の権利情報抽出装置。
  10. 前記クレジット情報認識手段は、
    前記クレジット情報区間映像データにテロップ認識を適用して第1のクレジット候補情報を取得して出力する第1のテロップ読み取り手段と、
    複数回のコンテンツのクレジット情報区間映像データが入力され、前記複数回のクレジット情報区間映像データ間で共通する特徴を持つ音響背景映像を生成して出力する音響背景映像生成手段と、
    前記音響背景映像を前記クレジット情報区間映像データから差し引くことで音響背景差分映像を生成して出力する音響背景差分映像生成手段と、
    前記音響背景差分映像にテロップ認識を適用して第2のクレジット候補情報を取得して出力するテロップ読み取り手段と、
    前記第1のクレジット候補情報と前記第2のクレジット候補情報とを統合して、クレジット候補情報を求め、出力するテロップ読み取り結果統合手段と
    を有することを特徴とする請求項2に記載の権利情報抽出装置。
  11. 前記音響背景映像生成手段は、
    前記クレジット情報区間映像データの各回のそれぞれに対して視覚特徴量を抽出し、音響背景視覚特徴量として出力する視覚特徴量抽出手段と、
    前記音響背景視覚特徴量間で視覚特徴量の照合を行い、背景が共通である映像フレームを対応付け、フレーム対応情報として出力する対応フレーム算出手段と、
    前記フレーム対応情報で対応付けられる各回のフレーム間で画素値の統計処理を行って音響背景の各画素の値を算出し、音響背景映像を生成し、出力する背景映像生成手段と
    を有することを特徴とする請求項9又は請求項10に記載の権利情報抽出装置。
  12. 前記背景映像生成手段は、対応フレーム間で画素値の変動が大きい場合には、前記統計処理としてメディアンを用いることを特徴とする請求項11に記載の権利情報抽出装置。
  13. 前記背景映像生成手段は、対応フレーム間で画素値の変動が大きい場合には、前記統計処理として、前記画素値の近隣の画素値情報から前記画素値がテロップ領域に該当する可能性を現す指標を算出し、前記指標が小さいほど大きな加重をかけて統計処理を行うこと
    を特徴とする請求項11に記載の権利情報抽出装置。
  14. 前記クレジット情報認識手段は、
    読み取れなかったクレジット候補領域が存在した場合には、そのクレジット候補領域を含む映像中の時空間位置を特定する情報を前記クレジット候補情報とともに出力することを特徴とする請求項1から請求項13のいずれかに記載の権利情報抽出装置。
  15. 前記対象物認識手段は、コンテンツの音響特徴量を解析し、前記音響特徴量と前記クレジット候補情報とに基づいて、コンテンツの音楽著作物を認識し、結果を音楽識別情報として出力する音楽著作物認識手段であることを特徴とする請求項1から請求項14のいずれかに記載の権利情報抽出装置。
  16. 前記対象物認識手段は、コンテンツの人物特徴量を解析し、前記人物特徴量と前記クレジット候補情報とに基づいて、コンテンツの登場人物を認識し、結果を出演者識別情報として出力する登場人物認識手段であることを特徴とする請求項1から請求項15のいずれかに記載の権利情報抽出装置。
  17. 前記音楽著作物認識手段は、
    前記クレジット候補情報から使用楽曲の候補情報を抽出し、使用楽曲候補情報として出力する楽曲候補情報抽出手段と、
    前記使用楽曲候補情報に近い音楽の音響特徴量を音響特徴量データベースから選択し、候補音響特徴量として出力する候補音響特徴量選択手段と、
    前記候補音響特徴量と前記コンテンツから抽出される音響特徴量とを照合し、一致したと判定された場合にはその音楽識別情報を出力する音楽著作物照合手段と
    を有することを特徴とする請求項15に記載の権利情報抽出装置。
  18. 前記音楽著作物認識手段は、
    前記クレジット候補情報から、音楽制作にかかわった人物、団体の情報、又はレコード製作者の情報を抽出し、音楽関連制作情報として出力する音楽関連制作情報抽出手段と、
    前記音楽関連制作情報に応じて、音楽照合に用いる変数、楽曲が属するグループ又は楽曲データベースの選択情報を含む照合パラメータを選択する音楽著作物照合パラメータ選択手段と、
    前記照合パラメータを用いて、楽曲音響特徴量データベース内の音響特徴量と前記コンテンツから抽出される音響特徴量とを照合し、一致したと判定された場合にはその音楽識別情報を出力する音楽著作物照合手段と
    を有することを特徴とする請求項15に記載の権利情報抽出装置。
  19. 前記音楽著作物認識手段は、
    前記クレジット候補情報から使用楽曲の候補情報を抽出し、使用楽曲候補情報として出力する楽曲候補情報抽出手段と、
    前記使用楽曲候補情報に近い音楽の音響特徴量を音響特徴量データベースから選択し、候補音響特徴量として出力する候補音響特徴量選択手段と、
    前記クレジット候補情報から、音楽制作にかかわった人物、団体の情報、又はレコード製作者の情報を抽出し、音楽関連制作情報として出力する音楽関連制作情報抽出手段と、
    前記音楽関連制作情報に応じて、音楽照合に用いる変数や楽曲が属するグループ又は楽曲データベースの選択情報を含む照合パラメータを選択する音楽著作物照合パラメータ選択手段と、
    音楽著作物照合手段と、
    を有し、
    前記音楽著作物照合手段は、
    前記コンテンツを解析して音声が含まれる区間を判定し、その区間の時刻情報を音声重畳区間時刻情報として出力する音声重畳判定手段と、
    前記コンテンツから音響特徴量を抽出し、前記音声重畳区間時刻情報に基づいて音声が重畳されていない区間である音声非重畳区間を検出し、前記音声非重畳区間においてのみ、前記照合パラメータを用いて前記候補音響特徴量との照合を行い、照合結果を前記音楽識別情報として出力する音響特徴量照合手段と
    を有することを特徴とする請求項15に記載の権利情報抽出装置。
  20. 前記音楽著作物認識手段は、
    前記クレジット候補情報から使用楽曲の候補情報を抽出し、使用楽曲候補情報として出力する楽曲候補情報抽出手段と、
    前記使用楽曲候補情報に近い音楽の音響特徴量を音響特徴量データベースから選択し、候補音響特徴量として出力する候補音響特徴量選択手段と、
    前記クレジット候補情報から、音楽制作にかかわった人物、団体の情報、又はレコード製作者の情報を抽出し、音楽関連制作情報として出力する音楽関連制作情報抽出手段と、
    前記音楽関連制作情報に応じて、音楽照合に用いる変数や楽曲が属するグループ又は楽曲データベースの選択情報を含む照合パラメータを選択する音楽著作物照合パラメータ選択手段と、
    音楽著作物照合手段と、
    を有し、
    前記音楽著作物照合手段は、
    前記コンテンツを解析して音声が含まれる音声重畳区間を判定し、その区間の時刻情報を音声重畳区間時刻情報として出力する音声重畳判定手段と、
    前記コンテンツから音響特徴量を抽出し、前記音声重畳区間時刻情報に基づいて音声が重畳されていない区間である音声非重畳区間を検出し、前記音声非重畳区間においては前記照合パラメータを用いて前記候補音響特徴量との照合を行い、前記音声重畳区間においては音声周波数帯の信号の影響を抑圧して前記照合パラメータを用いて前記候補音響特徴量との照合を行い、照合結果を前記音楽識別情報として出力する音響特徴量照合手段と
    を有することを特徴とする請求項15に記載の権利情報抽出装置。
  21. 前記音楽著作物認識手段は、
    前記コンテンツから抽出した音響特徴量が照合を試行したどの音響特徴量ともマッチングしない場合には、その音響特徴量を含む映像区間を特定する情報を前記音楽識別情報とともに出力することを特徴とする請求項15、請求項17から請求項20のいずれかに記載の権利情報抽出装置。
  22. 前記人物特徴量が少なくとも人物の顔の特徴量を含むことを特徴とする請求項16に記載の権利情報抽出装置。
  23. 前記人物特徴量が少なくとも人物の声の特徴量を含むことを特徴とする請求項16に記載の権利情報抽出装置。
  24. 前記登場人物認識手段は、
    前記クレジット候補情報から出演者に関する人物の候補情報を抽出し、出演者候補情報として出力する出演者候補情報抽出手段と、
    前記出演者候補情報に近い人物の人物特徴量を人物特徴量データベースから選択し、候補人物特徴量として出力する候補人物特徴量選択手段と、
    前記候補人物特徴量と前記コンテンツから抽出される人物特徴量とを照合し、一致したと判定された場合にはその人物識別情報を出力する出演者照合手段と
    を有することを特徴とする請求項16、22又は23に記載の権利情報抽出装置。
  25. 前記登場人物認識手段は、
    前記クレジット候補情報から出演者の所属団体に関する情報を抽出し、出演者所属関連情報として出力する出演者所属団体抽出手段と、
    前記出演者所属関連情報に応じて照合パラメータを選択する出演者照合パラメータ選択手段と、
    前記照合パラメータを用いて、人物特徴量データベース内の人物特徴量と前記コンテンツから抽出される人物特徴量とを照合し、一致したと判定された場合にはその人物識別情報を出力する出演者照合手段と
    することを特徴とする請求項16、請求項22又は請求項23に記載の権利情報抽出装置。
  26. 前記登場人物認識手段は、前記コンテンツから抽出した人物特徴量が、照合を試行したいずれの人物特徴量ともマッチングしない場合には、その人物特徴量を含む映像区間または映像中の時空間位置を特定する情報を前記人物識別情報とともに出力することを特徴とする請求項24又は請求項25に記載の権利情報抽出装置。
  27. コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、
    コンテンツ中でクレジット情報が重畳されているクレジット情報区間を検出する処理と、
    前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、
    前記コンテンツから当該コンテンツに出現する物の特徴量又は音響特徴量を抽出し、前記クレジット候補情報と前記抽出した物の特徴量又は音響特徴量とを参照し、複数の映像又は音響の特徴量が記憶されたデータベースから、前記コンテンツ内の権利の対象となる映像又は音響の対象物を認識して、その結果を対象物識別情報として出力する処理と、
    前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理と
    を有することを特徴とする権利情報抽出方法。
  28. コンテンツ中でクレジット情報が重畳されているクレジット情報区間を検出する処理と、
    前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、
    前記コンテンツから当該コンテンツに出現する物の特徴量又は音響特徴量を抽出し、前記クレジット候補情報と前記抽出した物の特徴量又は音響特徴量とを参照し、複数の映像又は音響の特徴量が記憶されたデータベースから、前記コンテンツ内の権利の対象となる映像または音響の対象物を認識して、その結果を対象物識別情報として出力する処理と、
    前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理と
    を情報処理装置に実行させることを特徴とするプログラム。
JP2008540979A 2006-10-26 2007-10-22 権利情報抽出装置、権利情報抽出方法及びプログラム Active JP5218766B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008540979A JP5218766B2 (ja) 2006-10-26 2007-10-22 権利情報抽出装置、権利情報抽出方法及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006291442 2006-10-26
JP2006291442 2006-10-26
PCT/JP2007/070550 WO2008050718A1 (fr) 2006-10-26 2007-10-22 Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme
JP2008540979A JP5218766B2 (ja) 2006-10-26 2007-10-22 権利情報抽出装置、権利情報抽出方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2008050718A1 JPWO2008050718A1 (ja) 2010-02-25
JP5218766B2 true JP5218766B2 (ja) 2013-06-26

Family

ID=39324515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008540979A Active JP5218766B2 (ja) 2006-10-26 2007-10-22 権利情報抽出装置、権利情報抽出方法及びプログラム

Country Status (2)

Country Link
JP (1) JP5218766B2 (ja)
WO (1) WO2008050718A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010058509A1 (ja) * 2008-11-21 2010-05-27 日本電気株式会社 情報処理装置
JP2011004197A (ja) * 2009-06-18 2011-01-06 Toshiba Corp 録画再生装置及び再生方法
JP6966706B2 (ja) * 2018-06-05 2021-11-17 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
JP7011170B2 (ja) * 2018-06-05 2022-01-26 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
JP2020017156A (ja) 2018-07-27 2020-01-30 富士通株式会社 文字認識装置、文字認識プログラムおよび文字認識方法
JP7196656B2 (ja) * 2019-02-07 2022-12-27 日本電信電話株式会社 クレジット区間特定装置、クレジット区間特定方法及びプログラム
JP7208499B2 (ja) * 2019-02-13 2023-01-19 日本電信電話株式会社 検出装置、検出方法およびプログラム
EP4068272A4 (en) * 2019-11-26 2022-12-07 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING PROGRAM

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328423A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 映像テロップ領域判別方法と装置と方法を記録した記録媒体
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2002109254A (ja) * 2000-09-29 2002-04-12 Toshiba Corp デジタルコンテンツマネジメントシステム
JP2002199407A (ja) * 2000-12-27 2002-07-12 Kddi Corp 動画像内のロールテロップ検出装置および記録媒体
JP2004363917A (ja) * 2003-06-04 2004-12-24 Pioneer Electronic Corp 音楽番組内容メニュー作成装置及び方法
JP2005110004A (ja) * 2003-09-30 2005-04-21 Casio Comput Co Ltd 画像処理装置、利用者端末装置及びプログラム
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP2006025120A (ja) * 2004-07-07 2006-01-26 Casio Comput Co Ltd 記録再生装置、遠隔制御装置
JP2006080803A (ja) * 2004-09-08 2006-03-23 Toshiba Corp 番組記録装置および出演者リスト作成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328423A (ja) * 1998-05-11 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 映像テロップ領域判別方法と装置と方法を記録した記録媒体
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2002109254A (ja) * 2000-09-29 2002-04-12 Toshiba Corp デジタルコンテンツマネジメントシステム
JP2002199407A (ja) * 2000-12-27 2002-07-12 Kddi Corp 動画像内のロールテロップ検出装置および記録媒体
JP2004363917A (ja) * 2003-06-04 2004-12-24 Pioneer Electronic Corp 音楽番組内容メニュー作成装置及び方法
JP2005110004A (ja) * 2003-09-30 2005-04-21 Casio Comput Co Ltd 画像処理装置、利用者端末装置及びプログラム
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP2006025120A (ja) * 2004-07-07 2006-01-26 Casio Comput Co Ltd 記録再生装置、遠隔制御装置
JP2006080803A (ja) * 2004-09-08 2006-03-23 Toshiba Corp 番組記録装置および出演者リスト作成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNJ200710006013; 奥村 真澄: FIT2006 第5回情報科学技術フォーラム 一般講演論文集 第3分冊 画像認識・メディア理解 グラ , 20060821, P.29-30 *
JPN6012020646; 小寺信良: '"鼻歌からの検索も可能に?--音楽ビジネスを加速させるGracenote の新技術"' [online] , 20060222, ITMedia *
JPN6012040343; 奥村 真澄: FIT2006 第5回情報科学技術フォーラム 一般講演論文集 第3分冊 画像認識・メディア理解 グラ , 20060821, P.29-30 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11455864B2 (en) 2018-07-25 2022-09-27 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Also Published As

Publication number Publication date
JPWO2008050718A1 (ja) 2010-02-25
WO2008050718A1 (fr) 2008-05-02

Similar Documents

Publication Publication Date Title
JP5218766B2 (ja) 権利情報抽出装置、権利情報抽出方法及びプログラム
US11960526B2 (en) Query response using media consumption history
KR101994592B1 (ko) 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
US10133538B2 (en) Semi-supervised speaker diarization
US7921116B2 (en) Highly meaningful multimedia metadata creation and associations
JP4442081B2 (ja) 音声抄録選択方法
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US8938393B2 (en) Extended videolens media engine for audio recognition
KR100865973B1 (ko) 동영상에서 특정인을 검색하는 방법, 동영상에서 특정인에대한 저작권 보고서를 생성하는 방법 및 장치
JP5029030B2 (ja) 情報付与プログラム、情報付与装置、および情報付与方法
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
US20080187231A1 (en) Summarization of Audio and/or Visual Data
US20040143434A1 (en) Audio-Assisted segmentation and browsing of news videos
KR20070121810A (ko) 복합 뉴스 스토리 합성
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
Hoover et al. Putting a face to the voice: Fusing audio and visual signals across a video to determine speakers
JP2009544985A (ja) コンピュータによって実施されるビデオをセグメント化する方法
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
CN109101964B (zh) 确定多媒体文件中首尾区域的方法、设备及存储介质
US7949667B2 (en) Information processing apparatus, method, and program
JP5304795B2 (ja) 情報処理装置
JP2007060606A (ja) ビデオの自動構造抽出・提供方式からなるコンピュータプログラム
JP2008141621A (ja) 映像抽出装置及び映像抽出プログラム
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
US20240134597A1 (en) Transcript question search for text-based video editing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5218766

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150