JP3642019B2 - AV content automatic summarization system and AV content automatic summarization method - Google Patents

AV content automatic summarization system and AV content automatic summarization method Download PDF

Info

Publication number
JP3642019B2
JP3642019B2 JP2000339805A JP2000339805A JP3642019B2 JP 3642019 B2 JP3642019 B2 JP 3642019B2 JP 2000339805 A JP2000339805 A JP 2000339805A JP 2000339805 A JP2000339805 A JP 2000339805A JP 3642019 B2 JP3642019 B2 JP 3642019B2
Authority
JP
Japan
Prior art keywords
scene
voice
video
explanation
outline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000339805A
Other languages
Japanese (ja)
Other versions
JP2002149672A (en
Inventor
実 黒岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000339805A priority Critical patent/JP3642019B2/en
Publication of JP2002149672A publication Critical patent/JP2002149672A/en
Application granted granted Critical
Publication of JP3642019B2 publication Critical patent/JP3642019B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明はAVコンテンツ自動要約システム及びAVコンテンツ自動要約方法に関し、特にAV(Audio Visual)コンテンツの要約を生成する方法に関する。
【0002】
【従来の技術】
従来、AVコンテンツの自動要約システムとしては、映像フレームの中から複数の代表画像を選択し、それらを順次表示したり、縮小画像の一覧で表示するものがある。
【0003】
この場合、上記の自動要約システムでは映像フレームから一定周期で取出した映像や、映像の特徴量の変化点を自動検出してその変化点直後の映像を代表画像として選択している。
【0004】
また、AVコンテンツの自動要約の別の方式として、映像や音声の特徴量の変化点付近の映像と音声とを同時に再生するシステムがある。このシステムについては、特開平11−88807号公報に開示されている。
【0005】
【発明が解決しようとする課題】
しかしながら、上述した従来のAVコンテンツの自動要約システムでは、映像のみを利用しているため、音声による情報が欠落し、また代表映像が必ずしもAVコンテンツの概要を的確に表しているものではないことが多いので、AVコンテンツの概要をうまく把握することが困難であるという問題がある。
【0006】
上記の公報記載のシステムでは、AVコンテンツに含まれるひとつの話題に、現場の様子や解説者の話、テロップによる説明等の数多くのシーンが含まれているため、それらを音声付きの映像で再生する場合に、音声が自然に聞けるようにひとつのシーン毎の再生時間を数秒以上再生する必要があり、かつそれら多くのシーンの全てが対応する話題の概要を的確に表現するものでない。
【0007】
また、AVコンテンツの内容を端的に表現する映像と、AVコンテンツの内容を端的に表現する音声とが別のシーンに存在することが多いため、AVコンテンツの一部分を再生する方式で、それらの映像と音声との両方を再生しようとすると必然的に時間が長くなる。したがって、上記の公報記載のシステムには、AVコンテンツの概要をうまく把握するのに、ある程度長いAV要約を生成する必要があるという問題がある。
【0008】
そこで、本発明の目的は上記の問題点を解消し、より内容を把握しやすいAV要約を生成することができるAVコンテンツ自動要約システム及びAVコンテンツ自動要約方法を提供することにある。
【0009】
【課題を解決するための手段】
本発明によるAVコンテンツ自動要約システムは、少なくとも映像及び音声を含むAV(Audio Visual)コンテンツからそれらの映像及び音声の中から部分的に選択して編集するAVコンテンツ自動要約システムであって、前記AVコンテンツの中から前記音声とは独立して前記映像を部分的に取出す手段と、前記AVコンテンツの中から前記映像とは独立して前記音声を部分的に取出す手段と、それら個別に取り出した映像及び音声を合成して出力する手段とを備えている。
【0010】
本発明による他のAVコンテンツ自動要約システムは、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出する検出手段と、前記検出手段で検出された概要説明シーンに続く詳細シーンの要約映像を生成する生成手段と、前記検出手段で検出された概要説明シーンの音声のみを抽出する抽出手段と、前記生成手段で要約映像と前記抽出手段で抽出された概要説明音声とを合成して出力する出力手段とを備えている。
【0011】
本発明による別のAVコンテンツ自動要約システムは、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからAV(Audio Visual)要約を生成するAVコンテンツ自動要約システムであって、前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録する概要説明シーン検出手段と、前記概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、前記概要説明シーンの音声を概要説明音声として切出す音声抽出手段と、前記音声抽出手段が生成した概要説明音声とその概要説明音声に対応する前記映像要約手段が生成した詳細シーンの要約映像との同期をとって前記AV要約として再生出力するAV要約出力手段とを備えている。
【0012】
本発明によるAVコンテンツ自動要約方法は、少なくとも映像及び音声を含むAV(Audio Visual)コンテンツからそれらの映像及び音声の中から部分的に選択して編集するAVコンテンツ自動要約方法であって、前記AVコンテンツの中から前記音声とは独立して前記映像を部分的に取出すステップと、前記AVコンテンツの中から前記映像とは独立して前記音声を部分的に取出すステップと、それら個別に取り出した映像及び音声を合成して出力するステップとを備え、これら各ステップをコンピュータが実行している。
【0013】
本発明による他のAVコンテンツ自動要約方法は、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出するステップと、検出された概要説明シーンに続く詳細シーンの要約映像を生成するステップと、検出された概要説明シーンの音声のみを抽出するステップと、前記要約映像と前記概要説明音声とを合成して出力するステップとを備え、これら各ステップをコンピュータが実行している。
【0014】
本発明による別のAVコンテンツ自動要約方法は、少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからAV(Audio Visual)要約を生成するAVコンテンツ自動要約方法であって、前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録するステップと、前記概要説明シーンに続く詳細シーンの要約映像を生成するステップと、前記概要説明シーンの音声を概要説明音声として切出すステップと、前記概要説明音声とその概要説明音声に対応する前記詳細シーンの要約映像との同期をとって前記AV要約として再生出力するステップとを備え、これら各ステップをコンピュータが実行している。
【0015】
すなわち、本発明のAVコンテンツ自動要約方式は、映像と音声とが多重化されたAVコンテンツの内容を短時間で把握するためのAV要約を自動生成する方式において、報道番組でアナウンサが次のニュースの概要を説明するシーン等の概要説明シーンを自動検出し、概要説明シーンに続く詳細シーンの要約映像と、概要説明シーンの音声のみを取出した概要説明音声とを合成することで、AV要約を生成する方式である。
【0016】
より具体的に、本発明のAVコンテンツ自動要約システムは、既存の人物検出、テロップ検出、人声検出、類似画像検出等の技術を利用して概要説明シーンを検出し、概要説明シーンの開始フレーム番号と終了フレーム番号の集合とを記録する概要説明シーン検出手段と、既存の映像要約技術を利用して概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、概要説明シーンの音声を概要説明音声として切り出す音声抽出手段と、音声抽出手段が生成した概要説明音声とその概要説明音声に対応する映像要約手段が生成した詳細シーンの要約映像との同期をとってAV要約として再生もしくは記録媒体に出力するAV要約出力手段とを有している。
【0017】
上記のような構成とすることで、要約映像と概要説明音声とを個別に生成してから合成するため、AVコンテンツの一部を切り出してAV要約とする方法に比べて、より内容を把握しやすいAV要約の生成を可能にする。また、アナウンサ等が概要を説明する部分の音声をそのまま利用するので、音声認識やテキスト要約を利用する方法に比べて音声が自然で、要約処理時間も少ないという効果がある。
【0018】
【発明の実施の形態】
次に、本発明の実施例について図面を参照して説明する。図1は本発明の一実施例によるAVコンテンツ自動要約システムの構成を示すブロック図である。図1において、本発明の一実施例によるAVコンテンツ自動要約システムはAVデータ入力手段1と、概要説明シーン検出手段2と、映像要約手段3と、音声抽出手段4と、AV要約出力手段5とから構成されている。
【0019】
AVデータ入力手段1は放送電波を受信し、その信号に含まれる映像情報と音声情報とを抽出する。この場合、映像情報は輝度情報と色情報とからなるYUV[Y(輝度信号)、U,V(色差信号成分)]データに変換され、音声情報はPCM(Pulse Code Modulation)データに変換されてメモリ(図示せず)上に記録される。
【0020】
YUVデータは映像のフレーム単位で取出すことができる。また、PCMデータはサンプル単位で取出すことができる。AVデータ入力手段1は市販のPC(パーソナルコンピュータ)用TVチューナボードと付属プログラム、及びPC用のオペレーティングシステムが提供する機能を用いる等によって容易に実現することができる。
【0021】
概要説明シーン検出手段2はAVデータ入力手段1からYUVデータとPCMデータとを受取り、それらのデータを解析することによって、アナウンサが次のニュースの概要を説明するシーン等の概要説明シーンを検出し、概要説明シーンの開始フレーム番号と終了フレーム番号とを概要説明シーンの通し番号に関連付けて記録する。
【0022】
概要説明シーンの通し番号は、後述する要約映像と概要説明音声との対応付けを行うことが目的であり、ある番組の要約を生成する場合には対象番組先頭からの通し番号を付加すればよく、ある開始時刻からある終了時刻までの要約を生成する場合にはその開始時刻からの通し番号を付加すればよい。
【0023】
映像要約手段3はAVデータ入力手段1からYUVデータを受取り、概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間を参照して、概要説明シーンに続く現場シーンや解説シーン等の詳細シーンの要約映像を生成し、対応する概要説明シーンの通し番号に関連付けてその要約映像を記録する。
【0024】
ここで、要約映像とは受信したAVコンテンツの内容をおおまかに把握可能な元映像よりも短い映像のことである。例えば、元映像から30秒周期で2秒間の映像を抜き出し、それら2秒間の映像を連結して得られる元の映像の15分の1の長さの映像は要約映像といえる。
【0025】
音声抽出手段4はAVデータ入力手段1からPCMデータを受取り、概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間のPCMデータを抜き出し、対応する概要説明シーンの通し番号に関連付けて概要説明音声として記録する。
【0026】
AV要約出力手段5は映像要約手段3が記録した要約映像と、音声抽出手段4が記録した概要説明音声とを受取り、同じ通し番号が割り当てられている要約映像と概要説明音声とを同期させて合成し、AV要約としてメモリや磁気記録装置等に出力する。
【0027】
図2は図1の概要説明シーン検出手段2の詳細な構成を示すブロック図である。図2において、概要説明シーン検出手段2は人物検出手段21と、テロップ検出手段22と、人声検出手段23と、概要説明シーン判定手段24とから構成されている。
【0028】
人物検出手段21はAVデータ入力手段1からYUVデータを受取り、映像の各フレーム毎に画像中央部分に人の顔が存在しているかどうかを判断して記録する。
【0029】
テロップ検出手段22はAVデータ入力手段1からYUVデータを受取り、映像の各フレーム毎に画像下部にテロップ文字が存在しているかどうかを判断して記録する。
【0030】
人声検出手段23はAVデータ入力手段1からPCMデータを受取り、映像の各フレームに対応する音声データに、人の声が存在しているかどうかを判断して記録する。
【0031】
概要説明シーン判定手段24は人物検出手段21の検出結果と、テロップ検出手段22の検出結果と、人声検出手段23の検出結果とを参照して、概要説明シーンのフレーム区間を判定し、その開始フレーム番号と終了フレーム番号とを概要説明シーンの通し番号に関連付けて記録する。
【0032】
図3は本発明の一実施例によるAVコンテンツ自動要約システムの動作を示すフロートャートである。これら図1及び図3を参照して本発明の一実施例によるAVコンテンツ自動要約システムの全体の動作について説明する。
【0033】
概要説明シーン検出手段2はAVデータ入力手段1からYUVデータとPCMデータとを受取り、そのデータを解析して概要説明シーンを特定し、概要説明シーンの通し番号を要素番号とし、開始フレーム番号と終了フレーム番号との組を要素とする配列として記録する(図3ステップS1)。
【0034】
映像要約手段3はAVデータ入力手段1からYUVデータを受取り、概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間を参照し、概要説明シーンの終了フレーム直後から次の概要説明シーンの開始フレーム直前まで、あるいは次の概要説明シーンが存在しない場合に概要説明シーンの終了フレーム直後から最終フレームまでの詳細シーンに対して、予め定められた周期で、予め定められた時間分のYUVデータを切り出し、それらの周期的な部分映像を連結したものを要約映像として記録する(図3ステップS2)。
【0035】
要約映像の記録方法においては要約映像のYUVデータを記録する必要はなく、各概要説明シーンの通し番号毎に、概要説明シーンに対応する要約映像に含まれるフレーム区間のリストを記録すればよい。
【0036】
音声抽出手段4はAVデータ入力手段1からPCMデータを受取り、概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間に対応するPCMデータを切り出し、概要説明音声として記録する(図3ステップS3)。
【0037】
その際、概要説明シーンの区間は映像のフレーム番号で記録されているので、

Figure 0003642019
の算出式に基づいてPCMデータのサンプル番号に変換する。
【0038】
また、概要説明音声の記録方法においては、概要説明音声のPCMデータそのものを記録する必要はなく、概要説明シーンの通し番号を要素番号とし、概要説明音声の開始サンプル番号と終了サンプル番号との組を要素とする配列として記録すればよい。
【0039】
AV要約出力手段5は概要説明シーンの通し番号毎に、映像要約手段3が記録した詳細シーンの要約映像と、音声抽出手段4が記録した概要説明音声の長さとを合わせて合成し、概要説明シーンの通し番号の順に連結して、AV要約として記録媒体に出力する(図3ステップS4)。
【0040】
各通し番号毎の合成処理において、要約映像が概要説明音声よりも長い場合には、概要説明音声の後ろに無音信号を付加することで長さを合わせればよい。要約映像が概要説明音声よりも短い場合には、概要説明音声と同じ長さになるまで、要約映像を繰り返せばよい。尚、出力するAV要約の形式はYUVデータとPCMデータとを多重化した形式、YUVデータをRGB[R(赤),G(緑),B(青)]データに変換してPCMデータと多重化した形式、YUVデータ、RGBデータ、PCMデータを圧縮して多重化したMPEG(Moving Picture Experts Group)等の圧縮形式等の様々な形式が利用可能である。
【0041】
図4は図2に示す概要説明シーン検出手段2の動作を示すフローチャートである。これら図2及び図4を参照して、概要説明シーン検出手段2の動作について説明する。
【0042】
人物検出手段21はAVデータ入力手段1からYUVデータを受取ると、各フレーム画像を3×3の小画像にほぼ等分に9分割し、それぞれの小画像毎に各ピクセルの輝度値のヒストグラムを生成する。
【0043】
次に、人物検出手段21はフレーム中央部の小画像の輝度ヒストグラムの各レベルの値を8倍したヒストグラムと、フレーム周辺部の8個の小画像のヒストグラムの各レベルの値をそれぞれ加算したヒストグラムとの差分値を計算し、その差分値が予め定められた閾値よりも大きい場合に対象フレーム画像の中央部に人の顔が検出されたことを記録する(図4ステップS11)。ここで、ヒストグラムの差分値とは2つのヒストグラムの各レベル毎の値の差分の絶対値を、全てのレベルについて合計した値のことである。
【0044】
テロップ検出手段22はAVデータ入力手段1からYUVデータを受取ると、各フレーム画像の下3分の1の領域について、予め定められた閾値Aと閾値B(A>B)とを用いて、輝度値が閾値A以上、もしくは輝度値が閾値B以下であるピクセルの個数をカウントし、そのピクセル個数が別の閾値C以上である場合に対象フレーム画像の下部にテロップが検出されたことを記録する(図4ステップS12)。
【0045】
人声検出手段23はAVデータ入力手段1からPCMデータを受取ると、映像の各フレームに対応する区間毎に、人声に対応する予め定められた周波数帯域の平均パワーを求め、それが予め定められた閾値以上である場合、対応するフレームに人声が検出されたことを記録する(図4ステップS13)。ここで、特定の周波数帯域の信号を抽出するバンドパスフィルタ(図示せず)には既存の音声信号処理手法を適用すればよい。
【0046】
概要説明シーン判定手段24は、まず人物、テロップ、人声の全てが検出されているフレームを概要説明シーンの検出フレーム候補として記録する(図4ステップS14)。続いて、概要説明シーン判定手段24は概要説明シーンの検出フレーム候補に対して、非検出フレームの連続数が予め定められた閾値よりも短い場合に、その非検出フレームを検出フレームへと変更する(図4ステップS15)。これはフラッシュ等によって瞬間的に人物が検出されなかった場合や、人声が息継ぎなどによって瞬間的に検出されなかった場合に、概要説明シーンが分断されないようにするためである。
【0047】
最後に、概要説明シーン判定手段24は概要説明シーンの検出フレーム候補に対して、予め定められた時間以下の連続した検出フレームを非検出フレームへと変更し、残った連続する検出フレームを概要説明シーンとして記録する(図4ステップS16)。この処理は概要説明シーンが一般的に数秒間連続するものであるから、それ以下の短い検出フレーム区間は誤検出として排除するためである。
【0048】
図5〜図9は本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。これら図1と図5〜図9とを参照して本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作について説明する。
【0049】
要約対象となる放送番組は、図5に示すように、10分、10分、5分、5分の長さの四つの個別ニュースから構成される30分の報道番組であるとし、それぞれの個別ニュースの冒頭の10秒でアナウンサによる概要説明がなされるとともに、個別ニュースのタイトルがテロップ文字として画面下部に表示されるものとする。
【0050】
AVデータ入力手段1は受信した信号を、映像を毎秒10フレームのYUVデータ、音声を毎秒10000サンプルのPCMデータにそれぞれ変換して記録する。
【0051】
概要説明シーン検出手段2は、図6に示すように、第0フレームから第99フレーム、第6000フレームから第6099フレーム、第12000フレームから第12099フレーム、第15000フレームから第15099フレームの4区間を概要説明シーンのフレーム区間であると判断し、4要素の配列として記録する。
【0052】
映像要約手段3は概要説明シーンに続く詳細シーンから2分周期で3秒間の映像を切り出して要約映像を生成するものとすると、図7に示すように、最初のニュースに対しては第100フレームから第129フレーム、第1300フレームから第1329フレーム、第2500フレームから第2529フレーム、第3700フレームから第3729フレーム、第4900フレームから第4929フレームが要約映像に使われる区間として記録される。
【0053】
2番目、3番目、4番目のニュースに対しても、上記と同様にして、要約映像に使われる区間が記録される。つまり、2番目のニュースに対しては第6100フレームから第6129フレーム、第7300フレームから第7329フレーム、第8500フレームから第8529フレーム、第9700フレームから第9729フレーム、第10900フレームから第10929フレームが要約映像に使われる区間として記録される。
【0054】
3番目のニュースに対しては第12100フレームから第12129フレーム、第13300フレームから第13329フレーム、第14500フレームから第14529フレームが要約映像に使われる区間として記録される。
【0055】
4番目のニュースに対しては第15100フレームから第15129フレーム、第16300フレームから第16329フレーム、第17500フレームから第17529フレームが要約映像に使われる区間として記録される。
【0056】
音声抽出手段4は概要説明シーン検出手段2が記録した概要説明シーンのフレーム区間に相当するPCMデータのサンプル番号を、上述した式、
P=F÷Rf×Rp
の式から算出する。
【0057】
この場合、Rf=10、Rp=10000なので、概要説明音声のサンプル区間は、図8に示すように、第0サンプルから第99999サンプル、第6000000サンプルから第6099999サンプル、第12000000サンプルから第12099999サンプル、第15000000サンプルから15099999サンプルの4区間となり、それらが配列として記録される。
【0058】
AV要約出力手段5は四つの個別ニュース毎に、映像要約手段3が生成した映像要約と音声抽出手段4が生成した概要説明音声とをその長さを合わせて合成し、それを通し番号順に連結する。図9に示すように、最初のニュースと2番目のニュースとでは要約映像が15秒なのに対して概要説明音声が10秒であるから、概要説明音声の終了後に5秒間の無音データを付加してから合成する。
【0059】
それに対して3番目のニュースと4番目のニュースとでは、要約映像が9秒なのに対して概要説明音声が10秒であるから、9秒の要約映像の後に再び先頭から1秒後までの映像を付加してから合成する。それらを通し番号順に連結すると、最終的に50秒のAV要約が生成される。
【0060】
このように、要約映像と概要説明音声とを別々に生成した後にそれらを合成することによって、映像と音声とのそれぞれがニュース概要を把握するのに適した内容になっているので、視聴者がAV要約を視聴した時によりニュースの概要を把握することが容易となる。
【0061】
また、高速なCPU(中央処理装置)や大量のメモリを必要とする音声認識処理や自然言語理解等の高度な技術を使用せずに概要説明音声を生成することによって、概要説明音声の抽出処理の実現コストが小さくかつ高速なので、メモリ容量が小さいPC(パーソナルコンピュータ)やCPU性能が高くないPCでも実現することができる。
【0062】
さらに、概要説明音声としてアナウンサが実際に喋っている言葉をそのまま利用することによって、概要説明音声を自然で理解しやすい音声にすることができる。
【0063】
図10は本発明の他の実施例による概要説明シーン検出手段の詳細な構成を示すブロック図である。図10において、概要説明シーン検出手段6は類似画像検索手段61と、概要説明シーンデータベース(DB)62と、概要説明シーン判定手段63とから構成されている。
【0064】
概要説明シーンデータベース62は放送番組で用いられる概要説明シーンの映像のフレームサンプルを複数記録しており、サンプル毎にYUVデータとして取出すことができる。
【0065】
類似画像検索手段61は複数のAVコンテンツ入力手段1から渡されるYUVデータと、概要説明シーンデータベース62が記録している概要説明シーンのサンプルとを比較し、概要説明シーンデータベース62が記録する概要説明シーンのサンプルのどれかと類似性が高い場合に、そのフレームを概要説明シーンの候補として記録する。
【0066】
上記の類似画像検索手段61における類似画像検索手法としては、公知の様々な方法を適用することができる。例えば、フレームを構成するピクセル毎の色情報の差分をとり、その総和が閾値を超えるかどうかで判断する方法がある。また、フレームの輝度データ、色データ、それらを周波数変換した後の周波数成分等から生成されかつ元映像データよりサイズの小さい検索キー同士を比較する方法もあり、その場合にはデータベースの容量と処理時間とを短縮することができる。
【0067】
概要説明シーン判定手段63は、図4に示す本発明の一実施例の動作と比べて、概要説明シーンの候補フレームを類似画像検索手段61によって検出することが異なる。候補フレームを検出した後、短い非検出区間を検出区間への変更し(図4ステップS15)、短い検出区間を非検出区間に変更して概要説明シーンを決定する(図4ステップS16)。
【0068】
本実施例は要約対象となるAVコンテンツにおける概要説明シーンがある程度固定されており、かつ概要説明シーンのサンプルが予め入手可能な場合に、より高い精度で概要説明シーンを検出することができる。よって、最終的に出力されるAV要約も、より内容を把握しやすいものになる。
【0069】
例えば、報道番組におけるアナウンサによる概要説明シーンの構図は、数ヶ月以上にわって固定である場合が多いため、本実施例によって高精度のAV要約を生成することができる。
【0070】
尚、上述した実施例では、AVコンテンツ入力手段1として放送を受信する例について述べたが、放送以外の記録メディアに蓄積されたAVコンテンツ、あるいはインタネット等を介して送られてくるAVコンテンツでも、上記の実施例と同様に、AV要約を生成することができる。
【0071】
また、AVコンテンツ入力手段1が記録するフォーマットとしてYUVデータとPCMデータとを例示したが、もちろん、他の様々なフォーマットでも、上記の実施例と同様に、AV要約を生成することができる。
【0072】
一方、上述した実施例では概要説明シーン検出手段2,6として、人物検出とテロップ検出と人声検出とを組合わせる方法と、類似画像検索による方法とを例示したが、その他の方法を用いてもかまわない。例えば、放送電波に現在のシーンを特定する信号が重畳されており、概要説明シーンであることをその信号から判定することができる場合にはその信号を利用すればよい。
【0073】
また、人物検出、テロップ検出、人声検出、類似画像検索の各手法の任意の組合わせでも実現することができる。さらに、話者識別技術によって概要説明を行う話者を検出する方法、「次のニュースです」等の話題区切りを音声認識によって認識し、それに続くシーンを概要説明シーンだと判断する方法等が考えられる。
【0074】
上述した実施例では、人物検出手段21として、画面中央部及び周辺部の輝度ヒストグラムを比較する方法を例示しているが、もちろん、その他の人物検出手法を適用することができる。例えば、その方法としては画面中央の9等分割画像に限らないことはもちろん、色情報の分布を調べる方法、目、鼻、口といった顔を構成する要素候補を検出してその位置関係及びその時間方向での動き量から人の顔を検出する方法等が考えられる。
【0075】
また、テロップ検出手段22として、輝度の高いピクセルと低いピクセルとの数をカウントする方法を例示しているが、もちろん、その他のテロップ検出手法を適用することができる。例えば、その方法としてはエッジの個数で判断する方法、エッジ点での輝度変化量が連続するエッジで対称になっているかどうかで判断する方法、エッジ分布密度が高い領域の形状で判断する方法等が考えられる。
【0076】
さらに、人声検出手段23として、バンドパスフィルタで特定周波数領域を取出す方法を例示しているが、もちろん、その他の人声検出方法を用いても構わない。例えば、その方法としては人声の各種特徴量の時間方向の変化パターンが予め登録しておいたパターンと類似しているかどうかで判断する方法、周波数スペクトルの分布形状が予め登録しておいたパターンと類似しているかどうかで判断する方法等が考えられる。
【0077】
また、概要説明シーン判定手段24で、概要説明シーン間の時間条件を設けて概要説明シーン間が閾値よりも短い場合には、どちらかの候補をキャンセルする方法や、番組中に比較的均等に分布するように選択する方法も考えられる。
【0078】
上述した実施例では、映像要約手段3が概要説明シーンの後に続く映像を要約する例を示しているが、概要説明シーンのテロップ文字を映像として表示することはひとつの有効な要約手段であり、もちろん要約映像に概要説明シーンが含まれても構わない。
【0079】
また、映像要約手段3として、一定周期毎に一定時間の映像を抜き出す方法を例示しているが、その他の映像要約手法を適用することができることはいうまでもない。例えば、その方法としては一定周期毎にフレームを抜き出してそのフレームを静止画として一定時間表示する方法、抜き出すフレーム周期や表示時間を内容に応じて変化させる方法、抜き出したフレームを縮小画像の一覧で表示する方法、映像の特徴量の変化点をシーンチェンジとして検出してその直後の映像を抜き出す方法、映像の時間方向での変化量に応じて映像の重要度を計算して重要度の高い映像を抜き出す方法等が考えられる。
【0080】
要約AV出力手段5としては要約映像と概要説明音声とを多重化して記録媒体に記録する方法を例示しているが、その他にも、要約映像をディスプレイ上に表示すると同時に概要説明音声をスピーカ等の音声出力装置から再生する方法、要約映像と概要説明音声とを多重化して伝送路上に送信する方法等もある。
【0081】
上述した実施例の動作では、概要説明シーン検出手段2、映像要約手段3、音声抽出手段4、AV要約出力手段5が逐次的に動作する場合を例示しているが、それらの手段の全てが、あるいは一部が平行して動作する場合も当然含まれる。
【0082】
【発明の効果】
以上説明したように本発明によれば、少なくとも映像及び音声を含むAVコンテンツからそれらの映像及び音声の中の代表的な部分を選択して表示するAVコンテンツ自動要約システムにおいて、AVコンテンツの中から代表的な部分の映像及び音声を別々に取出し、それらの映像及び音声を合成して出力することによって、より内容を把握しやすいAV要約を生成することができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例によるAVコンテンツ自動要約システムの構成を示すブロック図である。
【図2】図1の概要説明シーン検出手段の詳細な構成を示すブロック図である。
【図3】本発明の一実施例によるAVコンテンツ自動要約システムの動作を示すフロートャートである。
【図4】図2に示す概要説明シーン検出手段の動作を示すフローチャートである。
【図5】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図6】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図7】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図8】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図9】本発明の一実施例によるAVコンテンツ自動要約システムの具体的な動作例を示す図である。
【図10】本発明の他の実施例による概要説明シーン検出手段の詳細な構成を示すブロック図である。
【符号の説明】
1 AVデータ入力手段
2,6 概要説明シーン検出手段
3 映像要約手段
4 音声抽出手段
5 AV要約出力手段
21 人物検出手段
22 テロップ検出手段
23 人声検出手段
24,63 概要説明シーン判定手段
61 類似画像検索手段
62 概要説明シーンデータベース[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an AV content automatic summarization system and AV content automatic summarization. Method In particular, the present invention relates to a method for generating a summary of AV (Audio Visual) content.
[0002]
[Prior art]
2. Description of the Related Art Conventional AV content automatic summarization systems include one that selects a plurality of representative images from a video frame and displays them sequentially or displays a list of reduced images.
[0003]
In this case, the above-described automatic summarization system automatically detects a video taken out from a video frame at a fixed period or a video feature change point and selects a video immediately after the change point as a representative image.
[0004]
As another method for automatic summarization of AV content, there is a system that simultaneously reproduces video and audio near the change point of the feature amount of video and audio. This system is disclosed in Japanese Patent Application Laid-Open No. 11-88807.
[0005]
[Problems to be solved by the invention]
However, since the above-described conventional automatic summarization system for AV content uses only video, information by audio is lost, and the representative video does not necessarily accurately represent the outline of AV content. Since there are many, there exists a problem that it is difficult to grasp | ascertain the outline | summary of AV content well.
[0006]
In the system described in the above publication, a single topic included in AV content includes a number of scenes such as scenes from the field, commentary stories, and explanations using telops. In this case, it is necessary to reproduce the playback time of each scene for several seconds or more so that the sound can be heard naturally, and the outline of the topics to which all of these scenes correspond is not accurately expressed.
[0007]
In addition, since the video that directly expresses the content of the AV content and the audio that directly expresses the content of the AV content are often present in different scenes, those videos are reproduced in a method of reproducing a part of the AV content. If you try to play both audio and audio, the time will inevitably increase. Therefore, the system described in the above publication has a problem that it is necessary to generate an AV summary that is somewhat long in order to grasp the outline of the AV content.
[0008]
Accordingly, an object of the present invention is to solve the above-described problems and to generate an AV content automatic summarization system and AV content automatic summarization that can generate an AV summary that can be easily understood. Method Is to provide.
[0009]
[Means for Solving the Problems]
The AV content automatic summarization system according to the present invention includes an AV (Audio Visual) content including at least video and audio, and includes the video and audio. Partially from Select Edit An AV content automatic summarization system for Part of the video independently of the audio Means to take out , Means for partially extracting the audio from the AV content independently from the video, and individually extracting them Means for synthesizing and outputting video and audio.
[0010]
Another AV content automatic summarization system according to the present invention includes a detecting means for detecting a summary explanation scene showing a scene explaining an outline of the next news at least in a news program, and a summary explanation scene detected by the detection means. A generating means for generating a summary video of the following detailed scene, an extracting means for extracting only the audio of the outline explanation scene detected by the detecting means, a summary video and the outline explanation voice extracted by the extracting means by the generating means Output means for combining and outputting.
[0011]
Another AV content automatic summarization system according to the present invention is an AV content automatic summarization system that generates an AV (Audio Visual) summary from content including a summary explanation scene showing a scene where an announcer explains a summary of the next news at least in a news program. The outline explanation scene detecting means for detecting the outline explanation scene from the contents and recording a set of start frame numbers and end frame numbers of the outline explanation scene together with the outline explanation scene, and the outline explanation scene. Video summary means for generating a summary video of a detailed scene, voice extraction means for cutting out the voice of the summary explanation scene as outline explanation voice, the summary explanation voice generated by the voice extraction means and the summary explanation voice The detailed scene generated by the video summarization means is the same as the summary video. AV summary output means for reproducing and outputting the AV summary as a period.
[0012]
Automatic AV content summarization according to the present invention Method Is an AV (Audio Visual) content including at least video and audio. Partially from Select Edit A method for automatically summarizing AV content, comprising: Part of the video independently of the audio Steps to take and , A step of partially extracting the audio from the AV content independently of the video, and taking out each of them separately Synthesizing and outputting video and audio The computer performs each of these steps ing.
[0013]
Other AV content automatic summarization according to the present invention Method Detecting a summary explanation scene showing a scene where an announcer outlines the next news at least in a news program, and generating a summary video of a detailed scene following the detected summary explanation scene, Extracting only the audio of the outline explanation scene, and synthesizing and outputting the summary video and the outline explanation audio. The computer performs each of these steps ing.
[0014]
Another AV content automatic summarization according to the present invention Method Is an AV content automatic summarization method for generating an AV (Audio Visual) summary from content including a summary explanation scene at which an announcer explains a summary of the next news at least in a news program, wherein the summary explanation is based on the content. Detecting a scene and recording a set of start frame numbers and end frame numbers of the outline explanation scene together with the outline explanation scene; generating a summary video of a detailed scene following the outline explanation scene; and the outline explanation Cutting out the audio of the scene as an outline explanation voice, and synchronizing the outline explanation voice and the summary video of the detailed scene corresponding to the outline explanation voice to reproduce and output as the AV summary. The computer performs each of these steps ing.
[0015]
That is, the AV content automatic summarization method of the present invention is a method for automatically generating AV summaries for quickly understanding the contents of AV content in which video and audio are multiplexed. By automatically detecting an outline explanation scene such as a scene explaining the outline of the scene, and synthesizing a summary video of the detailed scene following the outline explanation scene and an outline explanation voice obtained by extracting only the voice of the outline explanation scene, AV summarization is performed. It is a method to generate.
[0016]
More specifically, the AV content automatic summarization system of the present invention detects an outline explanation scene using existing techniques such as human detection, telop detection, voice detection, and similar image detection, and starts an outline explanation scene start frame. Outline explanation scene detecting means for recording a set of numbers and end frame numbers, video summarization means for generating a summary video of a detailed scene following the outline explanation scene using existing video summarization technology, and audio of the outline explanation scene Is extracted as an AV summary in synchronism with a summary extraction voice generated by the voice extraction means and a summary video of the detailed scene generated by the video summary means corresponding to the summary voice. AV summary output means for outputting to a recording medium.
[0017]
With the configuration described above, the summary video and the summary explanation audio are generated separately and then combined. Therefore, compared to the method of extracting a part of AV content and making it an AV summary, the contents can be grasped more. Allows easy AV summary generation. In addition, since the announcer or the like uses the speech of the outline as it is, the speech is more natural and the summarization processing time is shorter than the method using speech recognition or text summarization.
[0018]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of an AV content automatic summarization system according to an embodiment of the present invention. 1, an AV content automatic summarization system according to an embodiment of the present invention includes an AV data input means 1, an outline explanation scene detection means 2, a video summarization means 3, an audio extraction means 4, an AV summary output means 5, It is composed of
[0019]
The AV data input means 1 receives broadcast radio waves and extracts video information and audio information included in the signal. In this case, the video information is converted into YUV [Y (luminance signal), U, V (color difference signal component)] data including luminance information and color information, and the audio information is converted into PCM (Pulse Code Modulation) data. It is recorded on a memory (not shown).
[0020]
YUV data can be extracted in units of video frames. PCM data can be taken out in units of samples. The AV data input means 1 can be easily realized by using a function provided by a commercially available TV tuner board for PC (personal computer), an attached program, and an operating system for PC.
[0021]
The outline explanation scene detection means 2 receives YUV data and PCM data from the AV data input means 1 and analyzes the data to detect an outline explanation scene such as a scene where the announcer outlines the next news. The start frame number and end frame number of the outline explanation scene are recorded in association with the serial number of the outline explanation scene.
[0022]
The serial number of the outline explanation scene is for the purpose of associating the summary video and the outline explanation audio, which will be described later, and when generating a summary of a certain program, the serial number from the beginning of the target program may be added. When a summary from the start time to a certain end time is generated, a serial number from the start time may be added.
[0023]
The video summarizing means 3 receives the YUV data from the AV data input means 1 and refers to the frame section of the outline explanation scene recorded by the outline explanation scene detection means 2, and the detailed scene such as a scene in the scene or explanation scene following the outline explanation scene The summary video is generated, and the summary video is recorded in association with the serial number of the corresponding summary explanation scene.
[0024]
Here, the summary video is a video shorter than the original video that can roughly grasp the content of the received AV content. For example, a video of 1/15 length of the original video obtained by extracting a video of 2 seconds in a cycle of 30 seconds from the original video and connecting the videos of 2 seconds can be said to be a summary video.
[0025]
The voice extraction means 4 receives the PCM data from the AV data input means 1, extracts the PCM data of the frame section of the summary explanation scene recorded by the summary explanation scene detection means 2, and associates the summary explanation voice with the serial number of the corresponding summary explanation scene. Record as.
[0026]
The AV summary output means 5 receives the summary video recorded by the video summary means 3 and the summary explanation voice recorded by the voice extraction means 4, and synchronizes the summary video assigned with the same serial number with the summary explanation voice. Then, it is output to a memory, a magnetic recording device or the like as an AV summary.
[0027]
FIG. 2 is a block diagram showing a detailed configuration of the outline explanation scene detection means 2 of FIG. In FIG. 2, the outline explanation scene detection means 2 includes a person detection means 21, a telop detection means 22, a human voice detection means 23, and an outline explanation scene determination means 24.
[0028]
The person detection means 21 receives the YUV data from the AV data input means 1 and determines whether or not a human face exists in the center of the image for each frame of the video.
[0029]
The telop detection means 22 receives the YUV data from the AV data input means 1 and determines whether or not a telop character exists at the bottom of the image for each frame of the video and records it.
[0030]
The human voice detection means 23 receives the PCM data from the AV data input means 1, and determines whether or not a human voice exists in the audio data corresponding to each frame of the video and records it.
[0031]
The outline explanation scene determination means 24 determines the frame section of the outline explanation scene by referring to the detection result of the person detection means 21, the detection result of the telop detection means 22, and the detection result of the human voice detection means 23. The start frame number and the end frame number are recorded in association with the serial number of the overview explanation scene.
[0032]
FIG. 3 is a flowchart showing the operation of the AV content automatic summarizing system according to the embodiment of the present invention. The overall operation of the AV content automatic summarizing system according to an embodiment of the present invention will be described with reference to FIGS.
[0033]
The outline explanation scene detection means 2 receives YUV data and PCM data from the AV data input means 1 and analyzes the data to identify the outline explanation scene. The serial number of the outline explanation scene is used as the element number, the start frame number and the end. The data is recorded as an array having a pair with a frame number as an element (step S1 in FIG. 3).
[0034]
The video summarizing means 3 receives the YUV data from the AV data input means 1, refers to the frame section of the outline explanation scene recorded by the outline explanation scene detection means 2, and starts the next outline explanation scene immediately after the end frame of the outline explanation scene. YUV data for a predetermined period of time in a predetermined cycle for a detailed scene from immediately before the end frame of the overview description scene to the last frame until the immediately preceding frame or when the next overview description scene does not exist Cut out and concatenated those periodic partial videos are recorded as a summary video (step S2 in FIG. 3).
[0035]
In the summary video recording method, it is not necessary to record YUV data of the summary video, and a list of frame sections included in the summary video corresponding to the summary explanation scene may be recorded for each serial number of the summary explanation scene.
[0036]
The voice extraction means 4 receives the PCM data from the AV data input means 1, cuts out PCM data corresponding to the frame section of the outline explanation scene recorded by the outline explanation scene detection means 2, and records it as outline explanation voice (step S3 in FIG. 3). ).
[0037]
At that time, the section of the overview explanation scene is recorded with the frame number of the video,
Figure 0003642019
Is converted into a PCM data sample number.
[0038]
In addition, in the recording method of the outline explanation voice, it is not necessary to record the PCM data itself of the outline explanation voice. It can be recorded as an array of elements.
[0039]
The AV summary output means 5 combines the summary video of the detailed scene recorded by the video summary means 3 and the length of the summary explanation voice recorded by the audio extraction means 4 for each serial number of the summary explanation scene, and synthesizes the summary explanation scene. Are connected in the order of serial numbers and output to the recording medium as an AV summary (step S4 in FIG. 3).
[0040]
In the synthesis process for each serial number, if the summary video is longer than the outline explanation voice, the length may be adjusted by adding a silence signal after the outline explanation voice. If the summary video is shorter than the summary explanation audio, the summary video may be repeated until the summary video has the same length. The output AV summary format is a format in which YUV data and PCM data are multiplexed. YUV data is converted into RGB [R (red), G (green), B (blue)] data and multiplexed with PCM data. Various formats such as a compressed format such as MPEG (Moving Picture Experts Group), which is obtained by compressing and multiplexing YUV data, RGB data, and PCM data, can be used.
[0041]
FIG. 4 is a flowchart showing the operation of the outline explanation scene detection means 2 shown in FIG. With reference to FIG. 2 and FIG. 4, the operation of the overview explanation scene detection means 2 will be described.
[0042]
When the person detection means 21 receives the YUV data from the AV data input means 1, the person detection means 21 divides each frame image into nine equal parts of 3 × 3, and a histogram of the luminance value of each pixel for each small image. Generate.
[0043]
Next, the person detection means 21 adds a histogram obtained by multiplying the value of each level of the luminance histogram of the small image at the center of the frame by 8 and the value of each level of the histogram of the eight small images at the periphery of the frame. When the difference value is larger than a predetermined threshold value, the fact that a human face has been detected at the center of the target frame image is recorded (step S11 in FIG. 4). Here, the difference value of the histogram is a value obtained by summing up the absolute value of the difference between the values of each level of the two histograms for all levels.
[0044]
When the telop detection unit 22 receives the YUV data from the AV data input unit 1, the luminance is determined using a predetermined threshold A and threshold B (A> B) for the lower third region of each frame image. The number of pixels whose value is greater than or equal to threshold A or the luminance value is less than or equal to threshold B is counted, and when the number of pixels is greater than or equal to another threshold C, it is recorded that a telop has been detected at the bottom of the target frame image. (FIG. 4, step S12).
[0045]
When the human voice detecting means 23 receives the PCM data from the AV data input means 1, the human voice detecting means 23 obtains an average power in a predetermined frequency band corresponding to the human voice for each section corresponding to each frame of the video, which is predetermined. If it is equal to or greater than the threshold value, it is recorded that a human voice is detected in the corresponding frame (step S13 in FIG. 4). Here, an existing audio signal processing method may be applied to a bandpass filter (not shown) that extracts a signal in a specific frequency band.
[0046]
First, the outline explanation scene determination means 24 records a frame in which all of a person, a telop, and a human voice are detected as a detection frame candidate of the outline explanation scene (step S14 in FIG. 4). Subsequently, the outline explanation scene determination means 24 changes the non-detection frame to a detection frame when the number of consecutive non-detection frames is shorter than a predetermined threshold for the detection frame candidate of the outline explanation scene. (FIG. 4, step S15). This is to prevent the outline explanation scene from being divided when a person is not detected instantaneously by flash or the like, or when a human voice is not detected instantaneously by breathing or the like.
[0047]
Finally, the outline explanation scene determination means 24 changes the consecutive detection frames below the predetermined time to non-detection frames for the detection frame candidates of the outline explanation scene, and outlines the remaining detection frames. A scene is recorded (step S16 in FIG. 4). This process is for the purpose of eliminating the short detection frame section shorter than that because the outline explanation scene is generally continuous for several seconds.
[0048]
5 to 9 are diagrams showing specific operation examples of the AV content automatic summarizing system according to the embodiment of the present invention. A specific operation of the AV content automatic summarizing system according to the embodiment of the present invention will be described with reference to FIG. 1 and FIGS.
[0049]
As shown in FIG. 5, the broadcast program to be summarized is a 30-minute news program composed of four individual news pieces each having a length of 10 minutes, 10 minutes, 5 minutes, and 5 minutes. It is assumed that the announcer gives an outline explanation in the first 10 seconds of the news, and the title of the individual news is displayed at the bottom of the screen as telop characters.
[0050]
The AV data input means 1 records the received signal after converting the video into YUV data of 10 frames per second and the audio into PCM data of 10,000 samples per second.
[0051]
Outline Description As shown in FIG. 6, the scene detection means 2 includes four sections from frame 0 to frame 99, frame 6000 to frame 6099, frame 12000 to frame 12099, frame 15000 to frame 15099. It is determined that it is a frame section of the outline explanation scene, and is recorded as an array of four elements.
[0052]
Assuming that the video summarizing means 3 generates a summary video by cutting out a video for 3 seconds at a cycle of 2 minutes from a detailed scene following the outline explanation scene, as shown in FIG. To 129 frames, 1300 to 1329 frames, 2500 to 2529 frames, 3700 to 3729 frames, and 4900 to 4929 frames are recorded as sections used for the summary video.
[0053]
The sections used for the summary video are recorded in the same manner as described above for the second, third, and fourth news. That is, for the second news, the 6100th to 6129th frames, the 7300th to 7329th frames, the 8500th to 8529th frames, the 9700th to 9729th frames, the 10900th to 10929th frames It is recorded as the section used for the summary video.
[0054]
For the third news, the 12100 to 12129 frames, the 13300 to 13329 frames, and the 14500 to 14529 frames are recorded as sections used for the summary video.
[0055]
For the fourth news, frames 15100 to 15129, frames 16300 to 16329, and frames 17500 to 17529 are recorded as sections used for the summary video.
[0056]
The voice extraction unit 4 uses the above-described equation to calculate the sample number of the PCM data corresponding to the frame section of the summary explanation scene recorded by the summary explanation scene detection unit 2.
P = F ÷ Rf × Rp
It is calculated from the formula of
[0057]
In this case, since Rf = 10 and Rp = 10000, as shown in FIG. 8, the sample section of the outline explanation voice is from the 0th sample to the 99999th sample, from the 6000000th sample to the 6099999th sample, and from the 12,000,000th sample to the 120999999th sample. The four sections from the 15000000 sample to the 15099999 sample are recorded as an array.
[0058]
The AV summary output means 5 synthesizes the video summary generated by the video summary means 3 and the summary explanation voice generated by the voice extraction means 4 for each of the four individual news in the same length, and connects them in the order of serial numbers. . As shown in FIG. 9, in the first news and the second news, the summary video is 15 seconds while the summary explanation voice is 10 seconds. Therefore, after the summary explanation voice ends, 5 seconds of silence data is added. Synthesize from
[0059]
On the other hand, in the 3rd news and the 4th news, the summary video is 9 seconds while the summary explanation voice is 10 seconds. Therefore, after the 9-second summary video, the video from the beginning to 1 second later is displayed again. Add and synthesize. By concatenating them in serial number order, a 50-second AV summary is finally generated.
[0060]
In this way, by generating the summary video and the summary explanation audio separately and then synthesizing them, the video and voice are each suitable for grasping the news summary. It becomes easier to grasp the outline of the news when viewing the AV summary.
[0061]
Also, the outline explanation voice is extracted by generating the outline explanation voice without using a high-speed CPU (central processing unit), a voice recognition process that requires a large amount of memory, or an advanced technology such as natural language understanding. Since the realization cost is small and high speed, it can be realized even with a PC (personal computer) with a small memory capacity or a PC with low CPU performance.
[0062]
Furthermore, by using the words actually spoken by the announcer as they are as the outline explanation voice, the outline explanation voice can be made natural and easy to understand.
[0063]
FIG. 10 is a block diagram showing the detailed configuration of the outline explanation scene detecting means according to another embodiment of the present invention. In FIG. 10, the outline explanation scene detection means 6 includes a similar image search means 61, an outline explanation scene database (DB) 62, and an outline explanation scene determination means 63.
[0064]
The outline explanation scene database 62 records a plurality of frame samples of the video of the outline explanation scene used in the broadcast program, and each sample can be taken out as YUV data.
[0065]
The similar image search means 61 compares the YUV data passed from the plurality of AV content input means 1 with the outline explanation scene sample recorded in the outline explanation scene database 62, and the outline explanation recorded in the outline explanation scene database 62. If the similarity is high with any one of the scene samples, the frame is recorded as a summary explanation scene candidate.
[0066]
Various known methods can be applied as the similar image search method in the similar image search means 61 described above. For example, there is a method of taking a difference in color information for each pixel constituting a frame and determining whether the sum exceeds a threshold value. There is also a method of comparing search keys generated from frame luminance data, color data, frequency components after frequency conversion of them, and smaller in size than the original video data, in which case the database capacity and processing are compared. Time can be reduced.
[0067]
Compared to the operation of the embodiment of the present invention shown in FIG. 4, the outline explanation scene determination means 63 is different in that the outline image scene candidate frame is detected by the similar image search means 61. After the candidate frame is detected, the short non-detection section is changed to the detection section (step S15 in FIG. 4), and the short detection section is changed to the non-detection section to determine the outline explanation scene (step S16 in FIG. 4).
[0068]
In this embodiment, when the outline explanation scene in the AV content to be summarized is fixed to some extent and a sample of the outline explanation scene is available in advance, the outline explanation scene can be detected with higher accuracy. Therefore, the AV summary that is finally output also becomes easier to grasp the contents.
[0069]
For example, since the composition of an outline explanation scene by an announcer in a news program is often fixed for several months or more, a highly accurate AV summary can be generated according to this embodiment.
[0070]
In the above-described embodiment, an example in which broadcast is received as the AV content input unit 1 has been described. However, AV content stored in a recording medium other than broadcast, or AV content sent via the Internet or the like, Similar to the above example, an AV summary can be generated.
[0071]
In addition, although YUV data and PCM data are exemplified as formats to be recorded by the AV content input unit 1, it is needless to say that AV summaries can be generated in various other formats as in the above-described embodiment.
[0072]
On the other hand, in the above-mentioned embodiment, the outline explanation scene detection means 2 and 6 exemplify a method of combining person detection, telop detection and human voice detection and a method by similar image search, but other methods are used. It doesn't matter. For example, when a signal specifying a current scene is superimposed on a broadcast radio wave and it can be determined from the signal that the scene is an outline explanation scene, the signal may be used.
[0073]
It can also be realized by any combination of the methods of person detection, telop detection, human voice detection, and similar image search. In addition, there is a method to detect the speaker who gives an outline explanation by speaker identification technology, a method to recognize a topic break such as "Next News" by voice recognition, and to judge the following scene as an outline explanation scene. It is done.
[0074]
In the above-described embodiment, the person detection unit 21 is exemplified by a method of comparing the luminance histograms at the center and the periphery of the screen, but other person detection methods can be applied. For example, the method is not limited to the nine-divided image at the center of the screen, but the method of examining the distribution of color information, the candidate elements constituting the face such as eyes, nose, mouth, etc. A method of detecting a human face from the amount of movement in the direction can be considered.
[0075]
Further, as the telop detection means 22, a method of counting the number of pixels with high luminance and low pixel is illustrated, but other telop detection methods can of course be applied. For example, as the method, a method of judging by the number of edges, a method of judging whether or not the luminance change amount at the edge point is symmetric with respect to successive edges, a method of judging by the shape of a region having a high edge distribution density, etc. Can be considered.
[0076]
Furthermore, as the human voice detection means 23, a method of extracting a specific frequency region with a bandpass filter is illustrated, but other human voice detection methods may be used as a matter of course. For example, as the method, a method for judging whether or not the time direction change pattern of various features of human voice is similar to a previously registered pattern, a pattern whose frequency spectrum distribution shape is registered in advance. The method of judging by whether it is similar or not can be considered.
[0077]
In addition, when the summary explanation scene determination unit 24 sets a time condition between the summary explanation scenes and the interval between the summary explanation scenes is shorter than the threshold value, a method of canceling one of the candidates, A method of selecting the distribution is also conceivable.
[0078]
In the embodiment described above, the video summarizing means 3 shows an example of summarizing the video following the outline explanation scene, but displaying the telop characters of the outline explanation scene as a video is one effective summarization means, Of course, a summary explanation scene may be included in the summary video.
[0079]
Further, as the video summarizing means 3, a method of extracting video for a fixed time every fixed period is illustrated, but it goes without saying that other video summarization techniques can be applied. For example, as a method, a frame is extracted every fixed period and the frame is displayed as a still image for a certain period of time, a method of changing the extracted frame period or display time according to the contents, and the extracted frame is a list of reduced images. Display method, Video feature change point is detected as a scene change and the video immediately after it is extracted, Video importance is calculated according to the amount of video change in time direction, and video with high importance A method of extracting the color can be considered.
[0080]
The summary AV output means 5 exemplifies a method of multiplexing the summary video and the summary explanation voice and recording them on the recording medium. In addition, the summary explanation voice is displayed on the display and the summary explanation voice is displayed on the speaker. There are also a method of reproducing from the audio output device, a method of multiplexing the summary video and the outline explanation audio and transmitting them on the transmission line.
[0081]
In the operation of the above-described embodiment, the case where the outline explanation scene detection means 2, the video summarization means 3, the audio extraction means 4, and the AV summary output means 5 operate sequentially is illustrated. Of course, the case where a part of them operates in parallel is also included.
[0082]
【The invention's effect】
As described above, according to the present invention, in an AV content automatic summarizing system that selects and displays a representative portion of video and audio from AV content including at least video and audio, the AV content is selected from the AV content. By taking out the video and audio of a representative portion separately, and synthesizing and outputting the video and audio, there is an effect that an AV summary that makes it easier to grasp the contents can be generated.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an AV content automatic summarization system according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a detailed configuration of an outline explanation scene detection unit in FIG. 1;
FIG. 3 is a flowchart showing the operation of an AV content automatic summarization system according to an embodiment of the present invention.
4 is a flowchart showing the operation of the outline explanation scene detection means shown in FIG. 2;
FIG. 5 is a diagram illustrating a specific operation example of the AV content automatic summarizing system according to the embodiment of the present invention.
FIG. 6 is a diagram illustrating a specific operation example of the AV content automatic summarizing system according to the embodiment of the present invention.
FIG. 7 is a diagram illustrating a specific operation example of the AV content automatic summarizing system according to the embodiment of the present invention.
FIG. 8 is a diagram illustrating a specific operation example of the AV content automatic summarizing system according to the embodiment of the present invention.
FIG. 9 is a diagram illustrating a specific operation example of the AV content automatic summarizing system according to the embodiment of the present invention.
FIG. 10 is a block diagram showing a detailed configuration of an outline explanation scene detection unit according to another embodiment of the present invention.
[Explanation of symbols]
1 AV data input means
2,6 Outline explanation scene detection means
3 Video summarization means
4 voice extraction means
5 AV summary output means
21 Person detection means
22 Ticker detection means
23 Human voice detection means
24, 63 Outline explanation scene determination means
61 Similar image search means
62 Outline scene database

Claims (10)

少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを検出する検出手段と、
前記検出手段で検出された概要説明シーンに続く詳細シーンの要約映像を生成する生成手段と、
前記検出手段で検出された概要説明シーンの音声のみを抽出する抽出手段と、
前記生成手段で要約映像と前記抽出手段で抽出された概要説明音声とを合成して出力する出力手段とを有することを特徴とするAVコンテンツ自動要約システム。
A detecting means for detecting a summary explanation scene at least showing a scene where an announcer explains a summary of the next news in a news program;
Generating means for generating a summary video of a detailed scene following the outline explanation scene detected by the detecting means;
Extraction means for extracting only the audio of the overview explanation scene detected by the detection means;
An AV content automatic summarization system comprising: output means for synthesizing and outputting the summary video by the generation means and the summary explanation voice extracted by the extraction means.
前記抽出手段は、各話題の冒頭部分の概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項1記載のAVコンテンツ自動要約システム。2. The AV content automatic summarization system according to claim 1 , wherein the extraction means extracts the voice of the outline explanation scene at the beginning of each topic and uses it as it is. 前記抽出手段は、前記報道番組の各個別ニュース冒頭部分のアナウンサによる概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項1記載のAVコンテンツ自動要約システム。2. The AV content automatic summarization system according to claim 1 , wherein the extracting means extracts the voice of the outline explanation scene by the announcer at the beginning of each individual news of the news program and uses it as it is. 前記検出手段は、映像情報の中の人物の検出と前記映像情報の中のテロップの検出と前記映像情報に伴う音声情報の中の人声の検出とを組合わせて前記概要説明シーンを検出するようにしたことを特徴とする請求項1から請求項3のいずれか記載のAVコンテンツ自動要約システム。The detection means detects the outline explanation scene by combining detection of a person in video information, detection of a telop in the video information, and detection of a human voice in audio information accompanying the video information. The AV content automatic summarization system according to any one of claims 1 to 3 , wherein the system is configured as described above. 前記検出手段は、予め記録されている概要説明シーンのサンプルとの類似性を検出する類似画像検索を用いて前記概要説明シーンを検索するようにしたことを特徴とする請求項1から請求項3のいずれか記載のAVコンテンツ自動要約システム。Said detecting means, claims 1 to 3, characterized in that so as to search for the overview scene using similar image search which detects the similarity of the sample briefing scene previously recorded The AV content automatic summarization system described in any of the above. 少なくとも報道番組でアナウンサが次のニュースの概要を説明するシーンを示す概要説明シーンを含むコンテンツからAV(Audio Visual)要約を生成するAVコンテンツ自動要約システムであって、
前記コンテンツから前記概要説明シーンを検出しかつその概要説明シーンの開始フレーム番号及び終了フレーム番号の集合を前記概要説明シーンとともに記録する概要説明シーン検出手段と、
前記概要説明シーンに続く詳細シーンの要約映像を生成する映像要約手段と、
前記概要説明シーンの音声を概要説明音声として切出す音声抽出手段と、
前記音声抽出手段が生成した概要説明音声とその概要説明音声に対応する前記映像要約手段が生成した詳細シーンの要約映像との同期をとって前記AV要約として再生出力するAV要約出力手段とを有することを特徴とするAVコンテンツ自動要約システム。
An AV content automatic summarization system for generating an AV (Audio Visual) summary from a content including a summary explanation scene, in which an announcer explains a summary of the next news at least in a news program,
A summary explanation scene detecting means for detecting the summary explanation scene from the content and recording a set of a start frame number and an end frame number of the summary explanation scene together with the summary explanation scene;
Video summarizing means for generating a summary video of a detailed scene following the outline explanation scene;
Voice extraction means for cutting out the voice of the outline explanation scene as outline explanation voice;
AV summary output means for reproducing and outputting as the AV summary in synchronism with the summary explanation voice generated by the voice extraction means and the summary video of the detailed scene generated by the video summary means corresponding to the summary explanation voice. This is an AV content automatic summarization system.
前記概要説明シーン検出手段は、前記コンテンツに対して人物検出とテロップ検出と人声検出とを行って前記概要説明シーンを検出するよう構成したことを特徴とする請求項6記載のAVコンテンツ自動要約システム。7. The AV content automatic summary according to claim 6, wherein the outline explanation scene detecting means is configured to detect the outline explanation scene by performing person detection, telop detection and human voice detection on the content. system. 前記概要説明シーン検出手段は、前記コンテンツに対して予め記録されている概要説明シーンのサンプルとの類似性を検出する類似画像検索を行って前記概要説明シーンを検出するよう構成したことを特徴とする請求項6記載のAVコンテンツ自動要約システム。The outline explanation scene detecting means is configured to detect the outline explanation scene by performing a similar image search for detecting similarity to a sample of the outline explanation scene recorded in advance for the content. The AV content automatic summarization system according to claim 6 . 前記音声抽出手段は、各話題の冒頭部分の概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項6から請求項8のいずれか記載のAVコンテンツ自動要約システム。The AV content automatic summarization system according to any one of claims 6 to 8 , wherein the voice extraction means extracts the voice of the outline explanation scene at the beginning of each topic and uses it as it is. 前記音声抽出手段は、前記報道番組の各個別ニュース冒頭部分のアナウンサによる概要説明シーンの音声を抽出してそのまま利用するようにしたことを特徴とする請求項6から請求項8のいずれか記載のAVコンテンツ自動要約システム。9. The voice extraction unit according to any one of claims 6 to 8 , wherein the voice extraction means extracts the voice of the outline explanation scene by the announcer at the beginning of each individual news of the news program and uses it as it is. AV content automatic summarization system.
JP2000339805A 2000-11-08 2000-11-08 AV content automatic summarization system and AV content automatic summarization method Expired - Fee Related JP3642019B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000339805A JP3642019B2 (en) 2000-11-08 2000-11-08 AV content automatic summarization system and AV content automatic summarization method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000339805A JP3642019B2 (en) 2000-11-08 2000-11-08 AV content automatic summarization system and AV content automatic summarization method

Publications (2)

Publication Number Publication Date
JP2002149672A JP2002149672A (en) 2002-05-24
JP3642019B2 true JP3642019B2 (en) 2005-04-27

Family

ID=18814822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000339805A Expired - Fee Related JP3642019B2 (en) 2000-11-08 2000-11-08 AV content automatic summarization system and AV content automatic summarization method

Country Status (1)

Country Link
JP (1) JP3642019B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106550268A (en) * 2016-12-26 2017-03-29 Tcl集团股份有限公司 Method for processing video frequency and video process apparatus

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4965257B2 (en) * 2003-05-26 2012-07-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ System and method for generating an audiovisual summary of audiovisual program content
JP4559935B2 (en) 2005-08-25 2010-10-13 株式会社東芝 Image storage apparatus and method
JP4346613B2 (en) * 2006-01-11 2009-10-21 株式会社東芝 Video summarization apparatus and video summarization method
JP5104762B2 (en) * 2006-10-23 2012-12-19 日本電気株式会社 Content summarization system, method and program
JP5638897B2 (en) * 2010-09-21 2014-12-10 オリンパスイメージング株式会社 Imaging device
WO2013186958A1 (en) * 2012-06-13 2013-12-19 日本電気株式会社 Video degree-of-importance calculation method, video processing device and control method therefor, and storage medium for storing control program
KR20160057864A (en) 2014-11-14 2016-05-24 삼성전자주식회사 Electronic apparatus for generating summary contents and methods thereof
CN111708914A (en) 2020-06-11 2020-09-25 北京百度网讯科技有限公司 Method, apparatus, electronic device and storage medium for video processing

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106550268A (en) * 2016-12-26 2017-03-29 Tcl集团股份有限公司 Method for processing video frequency and video process apparatus
CN106550268B (en) * 2016-12-26 2020-08-07 Tcl科技集团股份有限公司 Video processing method and video processing device

Also Published As

Publication number Publication date
JP2002149672A (en) 2002-05-24

Similar Documents

Publication Publication Date Title
US6339760B1 (en) Method and system for synchronization of decoded audio and video by adding dummy data to compressed audio data
US8009232B2 (en) Display control device, and associated method of identifying content
EP1081960A1 (en) Signal processing method and video/voice processing device
CN100372376C (en) Signal recording/reproducing apparatus, signal recording/reproducing method, signal reproducing apparatus, signal reproducing method, and program
JP2006319980A (en) Dynamic image summarizing apparatus, method and program utilizing event
US20030190142A1 (en) Contents recording/playback apparatus and contents edit method
JP2009076970A (en) Summary content generation device and computer program
KR20070047776A (en) Information signal processing method, information signal processing device, and computer program recording medium
US20180330759A1 (en) Signal processing apparatus, signal processing method, and non-transitory computer-readable storage medium
WO2001016935A1 (en) Information retrieving/processing method, retrieving/processing device, storing method and storing device
JP3642019B2 (en) AV content automatic summarization system and AV content automatic summarization method
JP3728775B2 (en) Method and apparatus for detecting feature scene of moving image
WO2010125757A1 (en) Video/audio reproduction device, video/audio recording/ reproduction device, video/audio reproduction method, and video/audio recording/reproduction method
KR100748059B1 (en) Real-time multilayer multimedia image integrated board
JPH10243351A (en) Video reproducing device
JP4512969B2 (en) Signal processing apparatus and method, recording medium, and program
JP2008178090A (en) Video processing apparatus
JP2002344852A (en) Information signal processing unit and information signal processing method
JP2005252372A (en) Digest video image producing device and method
US20050232598A1 (en) Method, apparatus, and program for extracting thumbnail picture
US6285982B1 (en) Sound decompressing apparatus providing improved sound quality during special reproducing such as forward search reproducing and reverse search reproducing
JP2822940B2 (en) Video and audio data editing device
JP2005167456A (en) Method and device for extracting interesting features of av content
JP2008134825A (en) Information processor, information processing method and program
JPH0879674A (en) Moving picture retrieval system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041122

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20041122

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090204

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100204

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100204

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110204

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110204

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120204

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120204

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120204

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120204

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130204

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130204

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130204

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130204

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130204

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees