JP3728775B2 - Method and apparatus for detecting feature scene of moving image - Google Patents

Method and apparatus for detecting feature scene of moving image Download PDF

Info

Publication number
JP3728775B2
JP3728775B2 JP21040995A JP21040995A JP3728775B2 JP 3728775 B2 JP3728775 B2 JP 3728775B2 JP 21040995 A JP21040995 A JP 21040995A JP 21040995 A JP21040995 A JP 21040995A JP 3728775 B2 JP3728775 B2 JP 3728775B2
Authority
JP
Japan
Prior art keywords
moving image
dissolve
frame
scene
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21040995A
Other languages
Japanese (ja)
Other versions
JPH0965287A (en
Inventor
晃朗 長坂
孝文 宮武
武洋 藤田
勝美 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP21040995A priority Critical patent/JP3728775B2/en
Publication of JPH0965287A publication Critical patent/JPH0965287A/en
Application granted granted Critical
Publication of JP3728775B2 publication Critical patent/JP3728775B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Description

【0001】
【産業上の利用分野】
本発明は,ビデオや映画等の動画像を短時間で概要把握を行うための早見する方法及び装置に係り,特にビデオテープやビデオディスクに格納された動画像からカット(1台のカメラで撮影された途切れのない動画像区間)間のデゾルブ(連続するカットA,Bがあるとき,そのカットの変わり目において,Aがフェードアウトすると同時にBがフェードインする特殊映像効果)を検出することによって動画像を代表する場面を特定する動画像の特徴場面検出方法及び装置に関する。
【0002】
【従来の技術】
近年,通常のテレビ放送に加えて,衛星放送やケーブルテレビなどが普及しつつあり,放送の多チャンネル化が進行している。今後,情報ハイウエイと称される広帯域の通信基盤が整備されれば,放送の配信が容易になり,現状よりもさらに多くの放送業者が参入して,多チャンネル化が加速されると考えられる。こうした大量に放送される情報の中から,視聴者個人個人にとって有用な情報と無用な情報とを区別し,選択することは非常に手間と時間のかかる作業である。そのため,映像内容を手早く把握するための要約情報(ダイジェスト)を効率よく作成する技術の研究が進められている。ダイジェストを作成するにあたって最も基本的かつ不可欠な処理は,映像中から重要な場面を選び出すことである。もし,映像中の場面場面の重要度を計算機で自動的に判定できれば,ダイジェストの作成は非常に簡単になる。例えば,特開平4-294694号では,野球中継において,映像中の移動物体の移動結果と,ある特定のイベントとの対応(ランナーの本塁位置への移動と,得点があったこととの対応等)に着目して,重要度の高い場面を選択する方法が示されている。
【0003】
【発明が解決しようとする課題】
しかしながら,移動物体の動き解析は,現状の画像認識の技術水準では精度や処理速度が十分でなく,それによって得られた動きパターンと,特定のイベントとの対応が必ずしも対応するとは限らないという問題点がある。また,正しくイベントが検出できた場合でも,その前後のどの範囲までを重要な場面として切り出せばよいのかを自動判定させることは極めて困難である。さらに,ダイジェスト自体,映像全体を視聴するのに比べれば格段に短い時間ながら,やはり一定の時間をかけて視聴する必要性は残っており,もっと簡潔に概要把握できるような技術が求められている。
【0004】
本発明の目的は,映像中の重要な場面かどうかの判定とその範囲の特定とを簡便かつ高速に行うための方法を提供することにある
【0005】
【課題を解決するための手段】
放送映像については,多くの場合,放送局側で重要な場面を強調するような各種の映像効果が施されている。この性質はスポーツ中継の場合に特に顕著であり,例えば,得点が入った場合にはリプレイを放映するといった特徴がある。リプレイ映像は視点の異なるカメラで撮像された映像が使われることが多く,単純に全く同じ映像かどうかでリプレイ映像か否かを判定することはできないが,そうしたリプレイ映像に切り替わるときには,デゾルブやワイプといった特殊映像効果が用いられ,通常の放送から一時的に外れることを視聴者が明確に分かるような工夫がされている。さらにまた通常の放送に戻るときにも同様の映像効果が利用される。したがって,こうした特殊映像効果を検出することにより,重要な場面を選び出すことが可能になる。
【0006】
そこで,対象となる動画像をフレーム単位で時系列に処理装置に入力し,該処理装置では,フレーム中の各画素の色もしくは輝度が,連続する複数枚のフレーム群にまたがって,該フレーム群の最初のフレームの色もしくは輝度の値から,最後のフレームの色もしくは輝度の値に向けて単調に近づく傾向で推移しているかどうかを調べ,該条件を満たす画素の数から画面全体としての変化を表す評価値を計算し,該評価値が予め定めた許容範囲外となった時点で,該連続する複数枚のフレームにまたがる区間に,デゾルブ等の特殊映像効果による場面の変わり目があったと判定し,該区間もしくはその近傍を動画像中の特徴的な点であると判定する。
【0008】
【作用】
放送でリプレイされる場面は,専門家が重要であると判定した部分であり,そうしたリプレイ場面を検出できれば,ダイジェスト作成が極めて容易になる。本発明によれば,デゾルブを含む特殊映像効果による場面の変わり目が検出できるため,そうした特殊効果に相前後して流される重要な場面を精度よく抽出できる。また同時に,その場面の範囲も得ることができる。
【0010】
【実施例】
以下,本発明の1実施例を詳細に説明する。
【0011】
図1は,本発明を実現するためのシステム構成の概略ブロック図の一例である。1はCRT等のディスプレイ装置であり,コンピュータ4の出力画面を表示する。コンピュータ4に対する命令は,キーボードやポインティングデバイス等の入力装置5を使って行うことができる。10の動画像再生装置は,地上波放送や衛星放送,ケーブルテレビなどの放送番組を受信するためのチュナー装置,もしくは光ディスクやビデオテープ等に記録された動画像を再生するための装置である。動画像再生装置から出力される映像信号は,逐次,3のA/D変換器によってデジタル画像データに変換され,コンピュータに送られる。コンピュータ内部では,デジタル画像データは,インタフェース8を介してメモリ9に入り,メモリ9に格納されたプログラムに従って,CPU7によって処理される。10が扱う動画像の各フレームに,動画像の先頭から順に番号(フレーム番号)が割り付けられている場合には,フレーム番号を制御線2によって動画像再生装置に送ることで,当該場面の動画像を呼び出して再生することができる。また,処理の必要に応じて,各種情報を6の外部情報記憶装置に蓄積することができる。メモリ9には,以下に説明する処理によって作成される各種のデータが格納され,必要に応じて参照される。
【0012】
以下では,重要場面の選別にあたって,特殊映像効果によるカット変化の一つであるデゾルブを検出する方法について詳細に説明する。
【0013】
図2は,図1で示したシステム上で実行される,動画像のデゾルブ検出プログラムのフローチャートの一例である。プログラムはメモリ9に格納され,CPU7は,まず最初に初期化処理として,プログラムの実行に必要な各種の変数を初期値に設定する(200)。次に,過去のフレーム画像の各画素の輝度値を収めるm個の二次元配列B(x, y)の各要素に0を代入する(202)。フレーム画像のサイズがw×hのとき,xは0からw-1,yは0からh-1までの値をとる。処理204では,動画像再生装置10が出力するフレーム画像の取り込みを行う(204)。処理206は,評価値が入る変数evalを0にし,ループカウンタに初期値0を代入する。そして,以下の208〜228の処理をフレーム画像中の全画素について行う。
【0014】
208から228の処理では,デゾルブに特有の性質の検出を行っている。ここで,デゾルブは,図3に示すように,カットの変わり目の前後でBのように,前後のカットのフレーム画像AとCとが混じりあう区間を持つカット変化である。BにおけるAとCの混合比率は,デゾルブ開始時のAが100%,Cが0%の状態から,時間をかけて比率が逆転してゆき,最終的にAが0%,Cが100%になった時点でデゾルブが完了する。濃淡画像の場合,Aの輝度値をBa,Bの輝度値をBb,Cの輝度値をBc,Cの混合割合をα(0≦α≦1)としたとき,Bb = Ba × (1 - α) + Bc × αの式で近似することができる。この式を変形すると,Bb = (Bc - Ba) × α + Baになり,混合割合αが0から単調に増加するデゾルブの場合,Bbの値もBaからBcまで単調に増加もしくは減少する。したがって,過去mフレーム分について常に画素の輝度値をバッファに蓄えておき,そのmフレーム長の区間で輝度値が単調に増加もしくは減少しているかどうかを調べることでデゾルブの検出を行うことができる。mの値は,8から15程度に設定すると,実験的に良好な結果が得られる。
【0015】
まず処理208では,過去のフレームの輝度値を記憶している二次元配列Bのm番目の配列Bmに,座標(x, y)で表される画素の輝度値を代入する。そして,ループカウンタiに1を代入し,変数numに0を代入する。次に,1番目の配列に記憶された輝度値B1(x, y)とm番目の配列Bm(x, y)の値を比較し(212),続けて,i番目の配列に記憶された輝度値Bi(x, y)がその次の配列Bi+1(x, y)の値よりも大きいかどうかを比較する(214,216)。B1(x, y)がBm(x, y)より大きいときには,Bi(x, y)がBi+1(x, y)より大きい場合にnumの値を1つ増やす。逆に,B1(x, y)がBm(x, y)より小さいときには,Bi(x, y)がBi+1(x, y)より小さい場合にnumの値を1つ増やす(218)。続く処理220では,Bi(x, y)にBi+1(x, y)の値を代入することで,m個の配列Bを順番に1つずつシフトするようにし,常に最新のフレームから数えてmフレーム分の輝度値がバッファとして格納されているようにする。処理222では,ループカウンタiを1つ増やし,iがmより大きくなるまで,処理212の時点でB1(x, y)がBm(x, y)より大きかったときには処理214,そうでないときには処理216に戻って処理を繰り返す(224)。numが閾値th1よりも大きいときには(226),座標(x, y)の画素については,十分単調に増加もしくは減少しているとしてevalの値を1つ増やす(228)。自然動画像はノイズ等により不規則な変動があるのが常であり,また,デゾルブの速度も,人間がデゾルブ操作を行う場合にはムラが生じて一定ではなくなるので,単調性の判定に閾値を設けることでマージンを持たせる。上記処理をフレーム画像中の全画素について行うべく,208に戻って繰り返す(230〜236)。これによって,デゾルブの特徴を満たす画素の数がevalに入る。最後に,evalが閾値th2を超えているかどうかを調べ(238),超えていればデゾルブがあるとして,デゾルブ検出処理(240)を実行する。最後に,処理204に戻り,映像の終わりまで204からの処理を繰り返す。
【0016】
上記の方法では,ズームやパンといったカメラの動きがある場合にも,evalが高めに出る。カメラが動けば,それに応じて,フレーム画像中の各画素の輝度も変化し,そうした変化の中には,輝度が単調増加もしくは単調減少している画素も少なからず存在するからである。そのため,デゾルブとカメラの動きとの区別がつきにくいケースもある。そこで,以下では,デゾルブがもっと明確にわかるようなデゾルブ検出方法について説明する。
【0017】
一般に,デゾルブの時間は,1秒(NTSC方式の映像の場合で30フレーム)以上になるものが多い。したがって,デゾルブがかかっている区間では,m=8のときで22フレーム,m=15のときでも15フレーム以上の時間,evalの値が高い状態が続く。一方,カメラの動きの場合は,デゾルブのときほど値は高くない上,必ずしも連続して高い状態が続くとは限らない。したがって,過去nフレーム分についてevalの値の総和sumをとったとき,デゾルブのときのsumの値とカメラの動きのときのsumとでは顕著な違いが現れる。図4は,上記の考え方を加えたデゾルブ検出方法である。
【0018】
まず最初に初期化処理として,プログラムの実行に必要な各種の変数を初期値に設定する(400)。次に,過去のフレーム画像の各画素の輝度値を収めるm個の二次元配列B(x, y)の各要素に0を代入するとともに,過去nフレーム分のevalの値を記憶するn個の変数E1〜Enを全て0にする(402)。フレーム画像のサイズがw×hのとき,xは0からw-1,yは0からh-1までの値をとる。処理404では,動画像再生装置10が出力するフレーム画像の取り込みを行う(404)。以下,図2で示した206から236までの処理を実行してevalを得る(406)。そして,Enにevalの値を代入する。E1からEnまでの総和をsumに求めるとともに,EjにEj+1の値を次々と代入しながらシフトし,常に最新のeval値がE1〜Enに格納されているようにする(408〜412)。最後に,sumが閾値th3よりも大きいかどうかを判定し(414),大きければ,デゾルブ検出処理240を行い,そうでなければ何もせずに処理404まで戻って繰り返す。
【0019】
デゾルブ検出処理240では,デゾルブで挟まれた場面を重要な場面として選択する。図2および図4のデゾルブ検出方法を実行すると,図5のような評価値の時間推移を表すグラフを得ることができる。評価値は,デゾルブ区間において,一瞬だけ大きな値を示すのではなく,急速に増加して急速に減少する三角形状の変化を示す特徴がある。そして,三角形の底辺を成す2頂点が,デゾルブの開始点と終了点にほぼ対応している。ダイジェストを作成するときには,デゾルブのような特殊映像効果がかかった部分が先頭や末尾に残っていると見苦しいので,デゾルブの終わった点から,次のデゾルブが始まる手前までの区間507を切り出すようにする。そのため,上記のデゾルブ検出方法でデゾルブか否かの判定に用いる第1の閾値500に加えて,それより低い第2の閾値502を用いる。そして,重要場面の開始点としてのデゾルブが検出された場合には,評価値が第1の閾値を超えた点504以降ではじめて第2の閾値を下回った点506を重要場面の開始点とする。このとき,余裕をとって開始点を遅らせても構わない。また,重要場面の終了点としてデゾルブが検出された場合には,評価値が第1の閾値を超えた点510から過去に遡って見たときに初めて第2の閾値を下回った点508を重要場面の終了点とする。このとき,開始点と同様に,余裕をとって終了点を早めの時間にとってもよい。検出されたデゾルブが重要場面の開始点を示すのか,終了点を示すのかの判定には,デゾルブ間の時間が利用できる。通常の放送が続いてれば,デゾルブはないのでデゾルブ間の時間間隔が長くなり,重要場面ならば,比較的間隔は短い。こうして得られた重要場面を順番に再生することで,ダイジェストができる。
【0020】
上記の実施例においては,輝度の単調な変化を調べたが,色の同様の変化を利用することもできる。色は1次元情報である輝度と異なり,3次元の情報である。従って,単純に値の増加減少をもとに単調変化を調べることはできない。ここで,A色からB色への単調な変化とは,2つの色を3次元の色空間にマッピングしたとき,A色からの距離を徐々に増しつつ,B色との距離を徐々に縮める傾向としてとらえることができる。したがって,図2における過去のフレームの輝度値を記憶する二次元配列Bの替わりに,色を記憶する二次元配列B’を用い,そのB’中の各色がB’1との色差が増加すると同時にB’mとの色差が減少する形で並んでいることを判定すれば,あとは輝度の場合と同様の手法を用いることができる。
【0021】
上記のようなデゾルブ等の特殊映像効果を使ったシーンを重要場面とみなせるのは,現実としてスポーツ中継等の一部の番組に限定される。また,スポーツ番組中でも合間に挿入されるコマーシャル中には特殊映像効果が頻繁に登場するため,単純にデゾルブに挟まれた区間という条件では過剰に検出しすぎることも多い。もちろん,多めに検出する分には,元の映像よりも十分に短い映像になっていれば,実用上問題はない。しかし,より精度高く重要場面を抽出できれば,概要把握にかかる時間がさらに節約できる。そこで,さらにダイジェストを作成する対象の映像がどのような種類の映像かを区別する手段を設け,重要場面の選択に活用する。
【0022】
図6と図7は,それぞれニュース番組とスポーツ番組において発生するイベントを時間軸に沿って図示したものである。ここでは,イベントとして,画像や音声の特徴が大きく変化する点を考える。図中では,1)構図,2)色調,3)話者,4)字幕,5)デゾルブ,6)リプレイ,7)スロー再生,の7項目を例に挙げた。こうしたイベントの現れ方や組み合わせには番組の種類によって特徴があり,その特徴をもとに番組の分類を行うことができる。例えば,ニュース番組においては,キャスターが全面に登場するカットが時間を空けて複数回現れるので,同じ構図の画像,より具体的には中心付近に顔の色である肌色が大きな面積を占めている画像が複数回現れる特徴がある。また,そのときの話者は同一人物である場合が多いとか,番組全体として字幕が頻繁に現れるという特徴もある。一方,スポーツ中継の場合,固定位置に設置された複数のカメラを切り替えながら放送が行われることが多く,同じか極めて類似した構図の画像が頻繁に現れる。特に野球やサッカーの場合には,色調は芝生の色である緑がメインとなる。また,リプレイやスロー再生が頻繁に使われるという特徴がある。さらに,CMの場合には,音の途切れが少ない,BGMが頻繁に使われる,色調が鮮やか,カットが多く,その時間長も短い,などの特徴がある。このように,映像中における複数のイベントの組み合わせパターンから,その映像の種類をある程度推測することができる。そして,ここで挙げたイベントは,画像認識・音声認識の技術を要する中では比較的簡単に求められ,その信頼性が高いものばかりである。すなわち,ストーリー等の映像の意味内容に関する認識は必要としない。
【0023】
図8は,映像の種類を見分けるシステムのブロック図の一例である。入力映像は,画像信号と音声信号のそれぞれについて,画像取り込み部800及び音声取り込み部802でデジタイズされる。デジタイズされたデータは,イベント検出部804に送られ,804中の種類別に設けられた専用検出部806〜820によって,イベント検出の処理が行われる。検出されたイベントは,イベント別カウンタ部822によって,イベントの種類別にカウントされる。また,同時生起カウンタ部824は,複数のイベントが同時に,もしくは規定の順番に現れた場合にのみ,そのイベントの組み合わせに対応するカウンタを1増やす。これらのカウンタで得られた各種イベントの出現頻度分布は,比較部828によって,どの種類の番組におけるイベントの出現頻度分布に近いか比較照合される。
【0024】
次に,図8中の各ブロックについて詳細に説明する。
【0025】
イベント検出部804のうち,カット点検出部806は,カットの変わり目を検出する。その手法については,例えば,発明者らによる,情報処理学会論文誌 Vol.33, No.4, 「カラービデオ映像における自動索引付け法と物体探索法」や特開平4−111181号等で示された方法等が利用できる。イベント別カウンタ部822では,カット点の数がカウントされる。
【0026】
同一構図検出部806は,予め定めた時間以内の過去に遡って,同じ構図もしくは類似した構図の絵が現れているかどうかを検出する。これにはテンプレートマッチングに代表される画像比較手法が使える。具体的には,比較する2枚のフレーム画像の同じ座標位置にある画素の1つ1つについて,輝度差もしくは色差を求めて全画面分の総和をとり,これを画像間の相異度とする。この相異度が定めた閾値より小さければ,同一もしくは類似性が高いと判定できる。ここで,映像中のフレーム画像全てについて,同一構図か否かを検出するのは処理時間がかかり,また,連続するフレーム画像間では画像の類似性が高い動画像の特徴を考慮すると無駄でもある。そこで,カット点検出に連動させて,カット点の画像だけを調べる対象とする。イベント別カウンタ部では,同一構図を持つフレームの数がカウントされる。
【0027】
色調検出部810は,予め定めた時間以内の過去に遡って,同一の色調もしくは類似した色調の絵が現れているかどうかを検出する。これには,例えば,フレーム画面全体についての色度数分布が利用できる。これは構図に無関係な,どの色がどれだけ使われているかを表した特徴量である。具体的には,比較する2枚のフレーム画像のそれぞれについて,画像を表現する画素の色を64色程度に分別し,それら各色がそれぞれフレーム画像中にどれだけ存在するかをカウントする。そして,得られた度数分布の各度数の差分の絶対値の総和をもって色調の相異度とする。この相異度が定めた閾値より小さければ,同一もしくは類似性が高いと判定できる。色調に関しても構図と同様の理由で,カット点の画像についてのみ対象とすると効率がよい。イベント別カウンタ部では,同一色調を持つフレームの数がカウントされる。また,色調検出部は,途中で求めた度数分布を利用して,どの色が最も多く使われているかを調べるようにしてもよい。具体的には,イベント別カウンタ部中に,赤・青・緑等の色別にカウンタを用意し,赤系の色が多ければ赤のカウンタを増やし,緑が多ければ,緑のカウンタを増やすようにする。
【0028】
字幕検出部812は,映像中に字幕が現れているかどうかを検出する。その手法については,例えば,発明者らによる,特願平5-330507等で示された方法等が利用できる。イベント別カウンタ部822では,字幕の出現数がカウントされる。
【0029】
デゾルブ検出部814は,映像中のデゾルブ等の特殊効果を検出する。その手法については,本発明の前半で説明した通りである。イベント別カウンタ部822では,デゾルブの出現数がカウントされる。
【0030】
リプレイ検出部816は,予め定めた時間以内の過去に遡って,全く同一の映像が現れているかどうかを検出する。これは同一構図検出部808と同様にテンプレートマッチング等によってフレーム画像の比較をすることで行える。しかし,比較する動画像間の各フレームごとにテンプレートマッチングを行っていたのでは処理時間がかかりすぎるので,各フレームを数文字分程度のコードに変換し,そのコード列の照合をもって動画像の照合とする。1枚のフレームに対応するコード単体では情報量が極めて小さいが,動画像は多くのフレームから構成されるので,1つの動画像が含むコードの数も多く,動画像中におけるコードの一連のシーケンスは,一片の動画像を特定するに足る十分な情報量を持つ。こうした考え方に立脚した動画像の照合方法は,発明者らによる,特開平7−114567号に示されている。
【0031】
スロー再生検出部818は,スロー再生の映像を検出する。スロー再生は,フレーム画像を標準再生時よりも長めの間隔(1/2スローで2倍,1/4スローで4倍)で連続表示することで実現されるため,スロー再生の映像の場合,画像取り込み部800でデジタイズされる画像は,全く同じ画像が複数枚続くという特徴がある(1/2スローで2枚,1/4スローで4枚)。そこで,スロー再生かどうかの判定には,連続する2枚のフレームを調べ,そのテンプレートマッチングによって画像相異度を調べる。そして,一定時間分の相異度の推移を調べ,相異度が特定の周期で大きい値と小さい値を繰り返しているようならば,スロー再生であると判定する。例えば,1/2スローの場合には,2枚ずつ同じ画像が続くので,相異度は,小さい値と大きい値を交互に繰り返す。1/4の場合には,小さい値が3回続いて大きい値が1回というように繰り返す。但し,動画像の場合,スロー再生でなくても,連続する2枚のフレーム画像は類似しているので,相異度の大小の判定は閾値を低めにして行う必要がある。イベント別カウンタ部822では,スロー再生の出現数がカウントされる。
【0032】
同一話者検出部820では,予め定めた時間以内の過去に遡って,同一の話者が話したことがあったかどうかを検出する。例えば,音声の自己相関を求め,最も大きな値をとる周波数が一致しているかどうかで調べることができる。イベント別カウンタ部822では,同一話者の発話数がカウントされる。
【0033】
同時生起カウンタ部824は,上記のイベントのうちの幾つかが同時もしくは特定の順番で現れた場合にカウントを行う。カウンタは,検出するイベントの組み合わせの数だけ用意される。例えば,同じ構図のときに,同じ話者が話しているケースでは,構図イベントと話者イベントの同時発生に対応するカウンタが1増やされる。同様に,デゾルブがあって,その直後にスロー再生が検出された場合には,デゾルブイベントとスロー再生イベントの連続発生に対応するカウンタが1増える。
【0034】
比較部828では,時計826を参照し,時刻t1からt2までの一定時間における映像中のイベントの出現頻度の傾向が,どのような種類の番組のものに近いかを比較する。比較に先立ち,まずニュース番組,スポーツ番組などそれぞれの種類別に典型的なイベントを調べておき,番組を特徴づける重要なイベントであるほど高くなるように値を与えてランク付けを行って,番組ごとにイベント別のランク一覧表を作成する。比較にあたっては,各イベントの出現頻度値を正規化した値に,このランク一覧表で記述された値を掛けて重み付けを行い,そうして得られた各イベントごとの値の総和が閾値を超えた場合,そのランク一覧に対応する種類の番組であると判定する。
【0035】
このようにして得られたイベントを,図6もしくは図7のような,一方を時間軸とする表形式で,図1のディスプレイ1上に一覧表示することができる。この一覧表示によって,計算機が自動で判定できなかった場合でも,ユーザはこうした情報を1つの手がかりにして,他から入手した情報,経験や知識等を合わせて利用することによって,番組の種類を推測できる可能性がある。また,計算機に教えていない種類の番組が新たに入力された場合,この一覧表示の中から,重要なイベント,もしくはイベントの組み合わせを選んで登録するようにしてもよい。これは,図1で示したマウス等のポインティングデバイス5を使って,一覧表上の各イベントの変化点や区間の表示部分をクリックするなどのダイレクトかつビジュアルな操作で行うようにすればユーザにとって非常に便利になる。
前半で説明したデゾルブ検出の技術の適応として、本例では、対象となる動画像をフレーム単位で時系列に処理装置に入力し,または対象となる音声を時系列に処理装置に入力し,該処理装置では,カット変化や色調を含む複数の種類の画像特徴量の変化を検出する手段と,必要に応じて話者変化を含む音声特徴量の変化を検出する手段を設け,該検出手段により,変化が発生したこと,もしくは複数の変化が同時または特定の順番で発生したことからなる特徴量に基づき,番組の種類を判別する。これにより、カット変化や色調を含む複数の種類の画像特徴量の変化が同時または特定の順番で発生したことからなる特徴量に基づき,番組の種類を判別する手段によって,映像の種類が自動的に判定されるので,視聴者にとって興味のない種類の映像であれば,ダイジェスト映像を見るまでもなく却下でき,効率的な映像選択ができる。また,この映像の種類の判定においては,簡単な画像や音声の変化とその組み合わせから判定を行うので,処理が高速に行える。映像がどんな分野(ニュース,スポーツ中継等)に属するかを判定して分類し,ユーザの映像選択の一助となる情報として提供することができる。
【0036】
尚、本発明はPC/WSを用いて実現できる他、TV、VTRなどの一機能としても適用可能である。
【0037】
【発明の効果】
本発明によれば,重要な場面とその範囲を同時に得ることができ,ダイジェスト映像が自動で作成できる効果がある。一般にリプレイされる場面は重要な場面であることが多いが、本発明では、デゾルブを含む特殊映像効果の区間を検出することによって、放送中のリプレイ場面を精度よく検出できる。
【図面の簡単な説明】
【図1】本発明の実施例を実現するためのシステムブロック図である。
【図2】デゾルブの検出を行うプログラムのフローチャートである。
【図3】デゾルブの概念を表す図である。
【図4】デゾルブの検出を行うもう1つのプログラムのフローチャートである。
【図5】デゾルブ検出を行うプログラムを実行したときの評価値の時間推移を表すグラフである。
【図6】ニュース番組の典型的なイベントチャートである。
【図7】スポーツ中継の典型的なイベントチャートである。
【図8】映像の分類を行うシステムのブロック図である。
【符号の説明】
1…ディスプレイ,2…制御信号線,3…A/D変換器,4…コンピュータ,5…入力装置,6…外部情報記憶装置,7…CPU,8…接続インタフェース,9…メモリ,10…動画像再生装置,11…キーボード。
[0001]
[Industrial application fields]
The present invention relates to a method and apparatus for quickly seeing a moving image such as a video or a movie in a short time, and in particular, cuts from a moving image stored on a video tape or a video disk (captured by one camera). By detecting a dissolve (a special video effect in which B fades in at the same time as A fades out when there are continuous cuts A and B when there are continuous cuts A and B). The present invention relates to a method and an apparatus for detecting a feature scene of a moving image that identifies a scene representing the scene.
[0002]
[Prior art]
In recent years, in addition to normal television broadcasting, satellite broadcasting and cable television are becoming widespread, and multi-channel broadcasting is progressing. In the future, if a broadband communication infrastructure called an information highway is established, it will be easier to distribute broadcasts, and more broadcasters will enter the market, and the number of channels will be accelerated. It is very time consuming and time consuming to distinguish and select useful information and unnecessary information for individual viewers from such a large amount of broadcasted information. For this reason, research on techniques for efficiently creating summary information (digests) for quickly grasping video content is underway. The most basic and indispensable process for creating a digest is to select important scenes from the video. If the importance of a scene in a video can be automatically judged by a computer, the creation of a digest becomes very easy. For example, in Japanese Patent Laid-Open No. 4-294694, in a baseball broadcast, the correspondence between the movement result of a moving object in a video and a specific event (corresponding to the movement of the runner to the home position and the score, etc.) A method for selecting a scene with high importance is shown.
[0003]
[Problems to be solved by the invention]
However, the motion analysis of moving objects is not sufficient in accuracy and processing speed at the current state of the art of image recognition, and the correspondence between the obtained motion pattern and a specific event does not always correspond. There is a point. Even if an event can be detected correctly, it is extremely difficult to automatically determine which range before and after it should be extracted as an important scene. Furthermore, the digest itself is much shorter than viewing the entire video, but there is still a need to watch over a certain amount of time, and there is a need for a technology that allows a more concise overview. .
[0004]
An object of the present invention is to provide a method for easily and rapidly determining whether an important scene in an image is determined and specifying its range..
[0005]
[Means for Solving the Problems]
In many cases, the broadcast video has various video effects that emphasize important scenes on the broadcasting station side. This property is particularly noticeable in the case of sports broadcasts. For example, when a score is entered, a replay is broadcast. Replay images are often taken from cameras with different viewpoints, and it is not possible to determine whether a replay image is simply the same or not. Special video effects such as these are used, and it is designed to allow viewers to clearly see that they are temporarily out of normal broadcasting. Furthermore, the same video effect is used when returning to normal broadcasting. Therefore, it is possible to select important scenes by detecting such special image effects.
[0006]
Therefore, the target moving image is input to the processing device in a time series in units of frames, and in the processing device, the color or luminance of each pixel in the frame spans a plurality of consecutive frame groups. Check whether the color or brightness value of the first frame of the image has a monotonous trend toward the color or brightness value of the last frame, and change the number of pixels that satisfy the condition When the evaluation value is calculated and the evaluation value falls outside the predetermined allowable range, it is determined that there has been a scene change due to a special video effect such as a dissolve in the section spanning the continuous frames. Then, the section or the vicinity thereof is determined as a characteristic point in the moving image.
[0008]
[Action]
The scenes that are replayed by broadcasting are the parts that the expert has determined to be important. If such replay scenes can be detected, it is very easy to create a digest. According to the present invention, since a scene change due to a special video effect including a dissolve can be detected, it is possible to accurately extract an important scene that is flowed before and after the special effect. At the same time, the range of the scene can be obtained.
[0010]
【Example】
Hereinafter, an embodiment of the present invention will be described in detail.
[0011]
FIG. 1 is an example of a schematic block diagram of a system configuration for realizing the present invention. Reference numeral 1 denotes a display device such as a CRT, which displays an output screen of the computer 4. Commands to the computer 4 can be performed using an input device 5 such as a keyboard or a pointing device. A moving image reproduction device 10 is a tuner device for receiving broadcast programs such as terrestrial broadcasting, satellite broadcasting, and cable television, or a device for reproducing moving images recorded on an optical disk, a video tape, or the like. The video signal output from the moving image reproduction apparatus is sequentially converted into digital image data by the A / D converter 3 and sent to the computer. Inside the computer, the digital image data enters the memory 9 via the interface 8 and is processed by the CPU 7 in accordance with a program stored in the memory 9. When each frame of a moving image handled by 10 is assigned a number (frame number) in order from the beginning of the moving image, the frame number is sent to the moving image reproducing device by the control line 2, so Images can be recalled and played back. Further, various types of information can be stored in the external information storage device 6 as required for processing. The memory 9 stores various data created by the processing described below and is referred to as necessary.
[0012]
In the following, a method for detecting a dissolve, which is one of cut changes caused by special image effects, in selecting an important scene will be described in detail.
[0013]
FIG. 2 is an example of a flowchart of a moving image dissolve detection program executed on the system shown in FIG. The program is stored in the memory 9, and the CPU 7 first sets various variables necessary for program execution as initial values as initialization processing (200). Next, 0 is substituted into each element of the m two-dimensional array B (x, y) that stores the luminance value of each pixel of the past frame image (202). When the frame image size is w × h, x takes a value from 0 to w−1, and y takes a value from 0 to h−1. In the process 204, the frame image output from the moving image playback apparatus 10 is captured (204). A process 206 sets a variable eval in which an evaluation value is entered to 0, and assigns an initial value 0 to the loop counter. Then, the following processes 208 to 228 are performed for all the pixels in the frame image.
[0014]
In the processing from 208 to 228, the characteristic peculiar to the dissolve is detected. Here, as shown in FIG. 3, the dissolve is a cut change having a section where the frame images A and C of the preceding and following cuts are mixed like B before and after the cut change. The mixing ratio of A and C in B is that the ratio is reversed over time from the state where A is 100% and C is 0% at the start of the dissolve, and finally A is 0% and C is 100%. At this point, the dissolve is complete. In the case of a grayscale image, when the luminance value of A is Ba, the luminance value of B is Bb, the luminance value of C is Bc, and the mixing ratio of C is α (0 ≦ α ≦ 1), Bb = Ba × (1 − (α) + Bc × α can be approximated. If this equation is modified, Bb = (Bc−Ba) × α + Ba, and in the case of a dissolve in which the mixing ratio α increases monotonically from 0, the value of Bb also monotonously increases or decreases from Ba to Bc. Therefore, it is possible to detect the resolution by always storing the luminance value of the pixel in the buffer for the past m frames and checking whether the luminance value monotonously increases or decreases in the interval of the m frame length. . If the value of m is set to about 8 to 15, good results can be obtained experimentally.
[0015]
First, in process 208, the luminance value of the pixel represented by coordinates (x, y) is substituted into the m-th array Bm of the two-dimensional array B storing the luminance values of the past frames. Then, 1 is assigned to the loop counter i, and 0 is assigned to the variable num. Next, the brightness value B1 (x, y) stored in the first array is compared with the value of the mth array Bm (x, y) (212), and then stored in the i th array. It is compared whether the luminance value Bi (x, y) is larger than the value of the next array Bi + 1 (x, y) (214, 216). When B1 (x, y) is larger than Bm (x, y), the value of num is incremented by 1 when Bi (x, y) is larger than Bi + 1 (x, y). Conversely, when B1 (x, y) is smaller than Bm (x, y), the value of num is incremented by 1 when Bi (x, y) is smaller than Bi + 1 (x, y) (218). In the subsequent process 220, by substituting Bi + 1 (x, y) for Bi (x, y), the m arrays B are sequentially shifted one by one, and always counted from the latest frame. The luminance values for m frames are stored as a buffer. In the process 222, the loop counter i is incremented by one, and the process 214 is performed when B1 (x, y) is larger than Bm (x, y) at the time of the process 212 until i becomes larger than m, and the process 216 is performed otherwise. The processing is repeated after returning to (224). When num is larger than the threshold value th1 (226), the value of eval is increased by 1 because the pixel at the coordinate (x, y) has increased or decreased sufficiently monotonously (228). Natural moving images usually have irregular fluctuations due to noise and the like, and the speed of the dissolve is uneven when humans perform a dissolve operation, and is not constant. A margin is given by providing. In order to perform the above process for all the pixels in the frame image, the process returns to 208 and is repeated (230 to 236). As a result, the number of pixels that satisfy the characteristics of the dissolve enters eval. Finally, it is checked whether or not eval exceeds the threshold value th2 (238), and if it exceeds, it is determined that there is a dissolve, and a dissolve detection process (240) is executed. Finally, the process returns to the process 204, and the processes from 204 are repeated until the end of the video.
[0016]
In the above method, even when there is a camera movement such as zooming and panning, eval appears high. This is because if the camera moves, the luminance of each pixel in the frame image changes accordingly, and there are not a few pixels whose luminance increases or decreases monotonously. For this reason, there are cases where it is difficult to distinguish between a dissolve and a camera movement. Therefore, in the following, a description will be given of a method for detecting a dissolve so that the dissolve can be understood more clearly.
[0017]
In general, the resolution time is often 1 second (30 frames in the case of NTSC video) or more. Therefore, in the section where the dissolution is applied, the value of eval continues to be high for 22 frames when m = 8 and for 15 frames or more even when m = 15. On the other hand, in the case of camera movement, the value is not as high as in the case of a dissolve, and the high state does not always continue. Therefore, when the sum total of the eval values for the past n frames is taken, a significant difference appears between the sum value during the dissolve and the sum during the camera movement. FIG. 4 shows a dissolve detection method to which the above concept is added.
[0018]
First, as initialization processing, various variables necessary for program execution are set to initial values (400). Next, 0 is substituted for each element of the m two-dimensional array B (x, y) that stores the luminance value of each pixel of the past frame image, and n values for storing eval values for the past n frames are stored. All variables E1 to En are set to 0 (402). When the frame image size is w × h, x takes a value from 0 to w−1, and y takes a value from 0 to h−1. In process 404, the frame image output from the moving image playback apparatus 10 is captured (404). Thereafter, the processing from 206 to 236 shown in FIG. 2 is executed to obtain eval (406). Then, assign the value of eval to En. The sum from E1 to En is obtained in sum and shifted while substituting Ej + 1 values one after another into Ej so that the latest eval values are always stored in E1 to En (408 to 412). . Finally, it is determined whether or not sum is larger than the threshold th3 (414). If it is larger, the dissolve detection process 240 is performed. If not, nothing is done and the process returns to process 404 and repeats.
[0019]
In the dissolve detection process 240, a scene sandwiched between the dissolves is selected as an important scene. When the dissolve detection method of FIG. 2 and FIG. 4 is executed, a graph showing the time transition of the evaluation value as shown in FIG. 5 can be obtained. The evaluation value does not show a large value for a moment in the dissolve interval, but has a feature of showing a triangular change that rapidly increases and decreases rapidly. The two vertices forming the base of the triangle substantially correspond to the start point and end point of the dissolve. When creating a digest, it is unsightly if a part with a special image effect such as a dissolve remains at the beginning or end. To do. For this reason, in addition to the first threshold value 500 used for determining whether or not it is a dissolve in the above-described dissolve detection method, a lower second threshold value 502 is used. Then, when a dissolve is detected as the starting point of the important scene, a point 506 where the evaluation value is below the second threshold for the first time after the point 504 where the evaluation value exceeds the first threshold is set as the starting point of the important scene. . At this time, the start point may be delayed with a margin. In addition, when a dissolve is detected as an end point of an important scene, a point 508 that falls below the second threshold for the first time when the evaluation value goes back to the past from the point 510 where the evaluation value exceeds the first threshold is important. The end point of the scene. At this time, like the start point, the end point may be set for an earlier time with a margin. The time between dissolves can be used to determine whether the detected dissolve indicates the start point or the end point of an important scene. If normal broadcasting continues, there will be no dissolve, so the time interval between dissolves will be longer, and if it is an important scene, the interval will be relatively short. The important scenes obtained in this way can be played in order to make a digest.
[0020]
In the above embodiment, a monotonous change in luminance was examined, but a similar change in color can also be used. The color is three-dimensional information unlike the luminance which is one-dimensional information. Therefore, it is not possible to examine monotonic changes based simply on increasing and decreasing values. Here, the monotonous change from A to B means that when mapping two colors to a three-dimensional color space, the distance from A is gradually increased while the distance from A is gradually increased. Can be viewed as a trend. Therefore, instead of the two-dimensional array B that stores the luminance values of the past frames in FIG. 2, a two-dimensional array B ′ that stores colors is used, and each color in B ′ increases in color difference from B′1. At the same time, if it is determined that the color difference from B′m is reduced, the same method as in the case of luminance can be used.
[0021]
The fact that scenes using special video effects such as dissolve as described above can be regarded as important scenes is actually limited to some programs such as sports broadcasts. In addition, special video effects frequently appear in commercials inserted between sports programs, so there are many cases where excessive detection is performed under the condition of a section sandwiched between dissolves. Of course, there is no problem in practical use if the video is sufficiently shorter than the original video to detect more. However, if important scenes can be extracted with higher accuracy, the time taken for grasping the outline can be further saved. Therefore,furtherA means for distinguishing what kind of video is the target video for the digest will be used to select important scenes.
[0022]
FIG. 6 and FIG. 7 illustrate events that occur in news programs and sports programs, respectively, along the time axis. Here, let us consider the point that the characteristics of images and sounds change greatly as events. In the figure, seven items of 1) composition, 2) color tone, 3) speaker, 4) subtitle, 5) dissolve, 6) replay, and 7) slow playback are given as examples. The appearance and combination of such events has characteristics depending on the type of program, and programs can be classified based on the characteristics. For example, in a news program, cuts with casters appearing multiple times appear in time, so the image with the same composition, more specifically, the skin color that is the face color occupies a large area near the center. There is a feature that an image appears multiple times. In addition, there is a feature that the speakers at that time are often the same person or that subtitles appear frequently in the entire program. On the other hand, in the case of sports broadcasts, broadcasting is often performed while switching a plurality of cameras installed at fixed positions, and images with the same or very similar composition frequently appear. Especially in baseball and soccer, the color is green, which is the color of the lawn. Another feature is that replay and slow playback are frequently used. Furthermore, in the case of CM, there are features such as few sound interruptions, frequent use of BGM, vivid color tone, many cuts, and short time length. In this way, the type of video can be estimated to some extent from the combination pattern of a plurality of events in the video. The events listed here are relatively easy to obtain and require high image reliability and voice recognition technology. That is, there is no need to recognize the semantic content of a video such as a story.
[0023]
FIG. 8 is an example of a block diagram of a system for discriminating video types. The input video is digitized by the image capturing unit 800 and the sound capturing unit 802 for each of the image signal and the audio signal. The digitized data is sent to the event detection unit 804, and event detection processing is performed by dedicated detection units 806 to 820 provided for each type in the 804. The detected events are counted by event type by the event counter 822. The simultaneous occurrence counter unit 824 increments the counter corresponding to the combination of events by 1 only when a plurality of events appear simultaneously or in a prescribed order. The appearance frequency distribution of various events obtained by these counters is compared and collated by the comparison unit 828 to determine which type of program the appearance frequency distribution of the event is close to.
[0024]
Next, each block in FIG. 8 will be described in detail.
[0025]
Of the event detection unit 804, the cut point detection unit 806 detects a cut transition. The method is described in, for example, the Information Processing Society of Japan Vol. 33, No. 4, “Automatic Indexing Method and Object Search Method in Color Video Video”, and Japanese Patent Laid-Open No. 4-111181 by the inventors. Can be used. The event-specific counter unit 822 counts the number of cut points.
[0026]
The same composition detection unit 806 detects whether a picture having the same composition or a similar composition has appeared in the past within a predetermined time. For this, an image comparison method represented by template matching can be used. Specifically, for each pixel at the same coordinate position in the two frame images to be compared, the luminance difference or the color difference is obtained and the total for the entire screen is taken, and this is taken as the difference between the images. To do. If the degree of difference is smaller than a predetermined threshold, it can be determined that they are the same or similar. Here, it takes time to detect whether all the frame images in the video have the same composition or not, and it is useless considering the characteristics of moving images that have high image similarity between consecutive frame images. . Therefore, only the image of the cut point is examined in conjunction with the cut point detection. The counter for each event counts the number of frames having the same composition.
[0027]
The color tone detection unit 810 detects whether a picture having the same color tone or a similar color tone appears in the past within a predetermined time. For this, for example, a chromaticity distribution for the entire frame screen can be used. This is a feature quantity that represents how many colors are used regardless of the composition. Specifically, for each of the two frame images to be compared, the color of the pixel representing the image is classified into about 64 colors, and how many of these colors exist in the frame image is counted. Then, the sum of the absolute values of the differences between the frequencies in the obtained frequency distribution is used as the color difference. If the degree of difference is smaller than a predetermined threshold, it can be determined that they are the same or similar. For the same reason as the composition, the color tone is efficient when only the cut point image is targeted. In the event counter, the number of frames having the same color is counted. Further, the color tone detection unit may check which color is most frequently used by using the frequency distribution obtained in the middle. Specifically, a counter for each color such as red, blue, and green is prepared in the event-specific counter section, and if there are many red colors, the red counter is increased, and if there are many greens, the green counter is increased. To.
[0028]
The caption detection unit 812 detects whether captions appear in the video. As the method, for example, the method shown in Japanese Patent Application No. 5-330507 by the inventors can be used. The event counter 822 counts the number of subtitles.
[0029]
The dissolve detection unit 814 detects special effects such as a dissolve in the video. The method is as described in the first half of the present invention. The event counter 822 counts the number of occurrences of the dissolve.
[0030]
The replay detection unit 816 detects whether or not the same video appears in the past within a predetermined time. This can be done by comparing frame images by template matching or the like as in the same composition detection unit 808. However, if template matching is performed for each frame between moving images to be compared, it takes too much processing time, so each frame is converted into a code of several characters, and matching of the moving image is performed by checking the code string. And A single code corresponding to one frame has a very small amount of information. However, since a moving image is composed of many frames, a single moving image includes a large number of codes, and a sequence of codes in the moving image. Has enough information to identify a piece of video. A moving image collating method based on this concept is disclosed in Japanese Patent Laid-Open No. 7-114567 by the inventors.
[0031]
The slow playback detection unit 818 detects slow playback video. Slow playback is realized by continuously displaying frame images at longer intervals than normal playback (2 times at 1/2 slow, 4 times at 1/4 slow). The image digitized by the image capturing unit 800 is characterized in that a plurality of identical images continue (two at 1/2 slow and four at 1/4 slow). Therefore, in order to determine whether or not the playback is slow, two consecutive frames are examined, and the image difference is examined by template matching. Then, the transition of the degree of difference for a certain period of time is examined, and if the degree of difference repeats a large value and a small value in a specific cycle, it is determined that it is slow reproduction. For example, in the case of 1/2 slow, since the same image continues two by two, the degree of difference alternately repeats a small value and a large value. In the case of 1/4, the small value is repeated three times and the large value is repeated once. However, in the case of a moving image, even if it is not slow reproduction, two consecutive frame images are similar, so it is necessary to determine whether the difference is large or small with a low threshold. The event-specific counter unit 822 counts the number of slow playback appearances.
[0032]
The same speaker detection unit 820 detects whether or not the same speaker has spoken back in the past within a predetermined time. For example, the autocorrelation of speech can be obtained and checked by checking whether the frequency having the largest value matches. The event counter 822 counts the number of utterances of the same speaker.
[0033]
The co-occurrence counter unit 824 performs counting when some of the above events appear simultaneously or in a specific order. There are as many counters as the number of combinations of events to be detected. For example, in the case where the same speaker is speaking at the same composition, the counter corresponding to the simultaneous occurrence of the composition event and the speaker event is incremented by one. Similarly, when there is a dissolve and slow playback is detected immediately after that, the counter corresponding to the continuous occurrence of the dissolve event and the slow playback event is incremented by one.
[0034]
The comparison unit 828 refers to the clock 826 and compares what kind of program the tendency of the appearance frequency of events in the video for a certain time from time t1 to t2 is similar. Prior to the comparison, first, typical events such as news programs and sports programs are examined, and values are assigned so that the events become higher as they become more important events that characterize the program. Create a rank list for each event. In the comparison, the normalized value of the appearance frequency value of each event is multiplied by the value described in this rank list, and the total sum of the values obtained for each event exceeds the threshold value. If it is, it is determined that the program corresponds to the rank list.
[0035]
The events obtained in this way can be displayed as a list on the display 1 in FIG. 1 in a table format with one of them as a time axis as shown in FIG. 6 or FIG. Even if the computer cannot judge automatically by this list display, the user can guess the type of program by using this information as one clue and using information obtained from others, experience, knowledge, etc. There is a possibility. In addition, when a new type of program that is not taught to the computer is newly input, an important event or a combination of events may be selected and registered from this list display. If the pointing device 5 such as a mouse shown in FIG. 1 is used to perform a direct and visual operation such as clicking on a change point of each event on the list or a display portion of a section, the user can do this. It becomes very convenient.
  In the present example, as an application of the dissolve detection technique described in the first half, the target moving image is input to the processing device in time series in units of frames, or the target audio is input to the processing device in time series. The processing apparatus is provided with means for detecting changes in a plurality of types of image feature amounts including cut changes and color tones, and means for detecting changes in speech feature amounts including speaker changes as necessary. , The type of program is determined based on the feature quantity that is formed by the occurrence of a change or the occurrence of a plurality of changes simultaneously or in a specific order. As a result, the type of video is automatically determined by means for discriminating the type of the program based on the feature amount consisting of multiple types of image feature amount changes including cut changes and color tones simultaneously or in a specific order. Therefore, if the video is of a type that is not of interest to the viewer, it can be rejected without seeing the digest video and efficient video selection can be made. In addition, in the determination of the video type, since the determination is performed based on a simple change in image and sound and a combination thereof, the processing can be performed at high speed. It is possible to determine and classify what field (news, sports broadcast, etc.) the video belongs to, and provide it as information that helps the user to select the video.
[0036]
Note that the present invention can be realized by using a PC / WS, and can also be applied as one function such as a TV and a VTR.
[0037]
【The invention's effect】
According to the present invention, it is possible to obtain an important scene and its range at the same time, and to produce a digest video automatically. In general, scenes to be replayed are often important scenes. However, in the present invention, a replay scene being broadcast can be accurately detected by detecting a section of a special video effect including a dissolve.
[Brief description of the drawings]
FIG. 1 is a system block diagram for realizing an embodiment of the present invention.
FIG. 2 is a flowchart of a program for detecting a dissolve.
FIG. 3 is a diagram illustrating a concept of a dissolve.
FIG. 4 is a flowchart of another program for detecting a dissolve.
FIG. 5 is a graph showing a time transition of an evaluation value when a program for detecting a dissolve is executed.
FIG. 6 is a typical event chart of a news program.
FIG. 7 is a typical event chart of a sports broadcast.
FIG. 8 is a block diagram of a system for classifying videos.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Display, 2 ... Control signal line, 3 ... A / D converter, 4 ... Computer, 5 ... Input device, 6 ... External information storage device, 7 ... CPU, 8 ... Connection interface, 9 ... Memory, 10 ... Movie Image reproducing device, 11 ... keyboard.

Claims (7)

連続する複数枚のフレームよりなる動画像からデゾルブによる場面の変わり目を検出する動画像の特徴場面検出方法において、
対象となる動画像をフレーム単位で時系列に処理装置に入力し、
該処理装置では、フレーム中の各画素の色もしくは輝度が、連続する複数枚のフレーム群にまたがって、該フレーム群の最初のフレームの色もしくは輝度の値から、最後のフレームの色もしくは輝度の値に向けて単調に近づく傾向で推移しているかどうかの条件を各画素毎に調べ、
該条件を満たす画素の数から前記連続する複数枚のフレーム全体としての変化を表す評価値を計算し、
該評価値が予め定めた許容範囲外となった時点で、該連続する複数枚のフレーム群にまたがる区間に、デゾルブによる場面の変わり目があったと判定することを特徴とする動画像の特徴場面検出方法。
In the feature scene detection method of a moving image that detects a scene change by a dissolve from a moving image composed of a plurality of continuous frames,
Input the target video to the processing device in time series in units of frames,
In the processing apparatus, the color or luminance of each pixel in a frame is determined from the color or luminance value of the first frame of the frame group over the plurality of consecutive frame groups. Check the condition for each pixel to see if it is trending toward monotonicity toward the value,
An evaluation value representing a change in the whole of a plurality of consecutive frames is calculated from the number of pixels satisfying the condition,
When the evaluation value becomes a predetermined allowable range, a moving image in a section across the plurality of frame groups to the continuous, characterized determine Teisu Rukoto there was a turn of scenes by Dezoru Bed Feature scene detection method.
請求項1記載の動画像の特徴場面検出方法において、
前記単調に近づく傾向で推移しているかの判定の手段として、バッファに前記各画素ごとに複数枚のフレーム分の輝度を格納し、該バッファ内における直前のフレームの輝度との差分が正の値を示す輝度の数が該バッファに格納された輝度の総数のうち多数を占める場合に単調増加とし、一方、該バッファ内において直前の輝度との差分が負の値を示す輝度の数が該バッファに格納された輝度の総数のうち多数を占める場合に単調減少と判定することを特徴とする動画像の特徴場面検出方法。
The moving image feature scene detection method according to claim 1,
As a means for determining whether or not the transition is closer to the monotone, the luminance for a plurality of frames is stored in the buffer for each pixel, and the difference from the luminance of the immediately preceding frame in the buffer is a positive value Is increased monotonically when the number of luminances indicating a large number of the total number of luminances stored in the buffer, while the number of luminances in which the difference from the previous luminance is negative in the buffer A method for detecting a feature scene of a moving image, characterized in that a monotonous decrease is determined when a large number of the total number of luminances stored in is occupied.
請求項1記載の動画像の特徴場面検出方法において、画面全体としての時間推移の傾向を表す評価値を一定時間分過去まで遡って総和をとり、その総和をもってデゾルブによる場面の変わり目があったと判定することを特徴とする動画像の特徴場面検出方法。2. The moving image feature scene detection method according to claim 1, wherein a total sum of retrospective evaluation values representing a trend of time transition of the entire screen is obtained by going back to the past for a predetermined time, and it is determined that there has been a scene change due to the dissolve. A method for detecting a feature scene of a moving image. 請求項1記載の動画像の動画像の特徴場面検出方法において、検出したデゾルブによる場面の変わり目と後続するデゾルブによる場面の変わり目に挾まれた区間が一定時間以内であるとき、該区間を重要な場面として抽出することを特徴とする動画像の特徴場面検出方法。2. The moving image feature scene detection method according to claim 1, wherein when a section between the detected scene change and a subsequent dissolve scene change is within a predetermined time, the section is important. A feature scene detection method for moving images, characterized by being extracted as a scene. 請求項4記載の動画像の動画像の特徴場面検出方法において、該重要な場面の区間は、特殊映像効果の継続期間中を除いた残りの区間とすることを特徴とする動画像の特徴場面検出方法。5. The moving image feature scene detection method according to claim 4, wherein the important scene section is a remaining section excluding the duration of the special video effect. Detection method. 連続する複数枚のフレームよりなる動画像からデゾルブによる場面の変わり目を検出する動画像の特徴場面検出装置において、対象となる動画像をフレーム単位で時系列に入力する入力手段と、過去に入力されたフレームを複数枚バッファリングする手段と、該バッファリングされたフレームの画素の色もしくは輝度の特徴量が、古いものから順番に単調に最も新しいフレームの特徴量に近づいていく特徴を持つか否かをフレーム中の各画素毎に判定する手段と、該特徴を有すると判定された画素の数から前記連続する複数枚のフレーム全体としての変化を表す評価値を計算し、
該評価値に基づいてデゾルブを検出し、そのフレームから一定時間もしくは次の特殊映像効果が検出されるまでの映像区間を抽出する手段を設けたことを特徴とする動画像の特徴場面検出装置。
In a moving image feature scene detection device that detects a scene change caused by a dissolve from a moving image composed of a plurality of continuous frames, an input means for inputting a target moving image in a time series in units of frames, and input in the past Means for buffering a plurality of frames, and whether or not the color or luminance feature amount of the pixel of the buffered frame monotonously approaches the feature amount of the newest frame in order from the oldest Means for determining each pixel in the frame, and calculating an evaluation value representing a change in the whole of the plurality of consecutive frames from the number of pixels determined to have the characteristic ,
An apparatus for detecting a feature scene of a moving image, comprising means for detecting a dissolve based on the evaluation value and extracting a video section from the frame until a predetermined time or a next special video effect is detected.
請求項6記載の動画像の特徴場面検出装置において、上記デゾルブに加えて、カットの変わり目、字幕の表示、構図を含む映像の変化や状態を検出する手段と、それらが現れる順序や組み合わせから映像の種類を判別する手段とを設けたことを特徴とする動画像の特徴場面検出装置。7. The moving image feature scene detection apparatus according to claim 6, wherein, in addition to the above-mentioned dissolve, means for detecting changes and states of images including cut transitions, subtitle display, and composition, and the order and combination of appearance of the images. A feature scene detection apparatus for moving images, characterized in that a means for discriminating the type of video is provided.
JP21040995A 1995-08-18 1995-08-18 Method and apparatus for detecting feature scene of moving image Expired - Fee Related JP3728775B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21040995A JP3728775B2 (en) 1995-08-18 1995-08-18 Method and apparatus for detecting feature scene of moving image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21040995A JP3728775B2 (en) 1995-08-18 1995-08-18 Method and apparatus for detecting feature scene of moving image

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004199996A Division JP3906854B2 (en) 2004-07-07 2004-07-07 Method and apparatus for detecting feature scene of moving image

Publications (2)

Publication Number Publication Date
JPH0965287A JPH0965287A (en) 1997-03-07
JP3728775B2 true JP3728775B2 (en) 2005-12-21

Family

ID=16588845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21040995A Expired - Fee Related JP3728775B2 (en) 1995-08-18 1995-08-18 Method and apparatus for detecting feature scene of moving image

Country Status (1)

Country Link
JP (1) JP3728775B2 (en)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0869445A3 (en) * 1997-03-31 2002-11-06 Hitachi, Ltd. Video signal processing system and method using time code
JP3780623B2 (en) 1997-05-16 2006-05-31 株式会社日立製作所 Video description method
JPH11112870A (en) * 1997-10-07 1999-04-23 Matsushita Electric Ind Co Ltd Animation editing system, animation reproducing system, animation editing reproduction system and medium for recording program of them
JP3838775B2 (en) * 1998-03-12 2006-10-25 株式会社東芝 Multimedia processing apparatus and recording medium
KR100634671B1 (en) * 1999-08-13 2006-10-13 주식회사 케이티 High accurate and real time gradual scene change detector and method
JP4587416B2 (en) * 2000-04-25 2010-11-24 富士通株式会社 Digital video content browsing apparatus and method
US7013477B2 (en) 2000-05-25 2006-03-14 Fujitsu Limited Broadcast receiver, broadcast control method, and computer readable recording medium
WO2002023891A2 (en) * 2000-09-13 2002-03-21 Koninklijke Philips Electronics N.V. Method for highlighting important information in a video program using visual cues
US7751683B1 (en) 2000-11-10 2010-07-06 International Business Machines Corporation Scene change marking for thumbnail extraction
KR100438269B1 (en) * 2001-03-23 2004-07-02 엘지전자 주식회사 Anchor shot detecting method of news video browsing system
US7280753B2 (en) 2003-09-03 2007-10-09 Canon Kabushiki Kaisha Display apparatus, image processing apparatus, and image processing system
JP4758161B2 (en) 2004-07-30 2011-08-24 パナソニック株式会社 Digest creation method and apparatus
JP4559935B2 (en) * 2005-08-25 2010-10-13 株式会社東芝 Image storage apparatus and method
JP4772012B2 (en) * 2007-08-14 2011-09-14 日本放送協会 Still image extraction apparatus and still image extraction program
JP4721079B2 (en) 2009-02-06 2011-07-13 ソニー株式会社 Content processing apparatus and method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778804B2 (en) * 1992-05-28 1995-08-23 日本アイ・ビー・エム株式会社 Scene information input system and method
JP3200784B2 (en) * 1993-07-29 2001-08-20 キヤノン株式会社 Moving image search method and apparatus
JP3361587B2 (en) * 1993-12-27 2003-01-07 株式会社日立製作所 Moving image search apparatus and method

Also Published As

Publication number Publication date
JPH0965287A (en) 1997-03-07

Similar Documents

Publication Publication Date Title
US6157744A (en) Method and apparatus for detecting a point of change in a moving image
JP3250467B2 (en) Video summarization method and video display method
US7694320B1 (en) Summary frames in video
KR100403238B1 (en) Intelligent fast-forward video system
JP3728775B2 (en) Method and apparatus for detecting feature scene of moving image
US6964021B2 (en) Method and apparatus for skimming video data
JP3534368B2 (en) Moving image processing method and moving image processing apparatus
US20080044085A1 (en) Method and apparatus for playing back video, and computer program product
US20080136937A1 (en) Image processing apparatus, image processing method, and program
EP1638321A1 (en) Method of viewing audiovisual documents on a receiver, and receiver therefore
US7778470B2 (en) Moving picture processor, method, and computer program product to generate metashots
KR20030026529A (en) Keyframe Based Video Summary System
US20090102973A1 (en) Video split device
US20050254711A1 (en) Method and apparatus for detecting local features of video, and recording medium storing the method
JP2011504034A (en) How to determine the starting point of a semantic unit in an audiovisual signal
WO2010125757A1 (en) Video/audio reproduction device, video/audio recording/ reproduction device, video/audio reproduction method, and video/audio recording/reproduction method
US20040019899A1 (en) Method of and system for signal detection
JP2000023062A (en) Digest production system
JP3906854B2 (en) Method and apparatus for detecting feature scene of moving image
JP4007406B2 (en) Feature scene detection method for moving images
JP3625935B2 (en) Important image extracting apparatus and important image extracting method for moving images
US20100079673A1 (en) Video processing apparatus and method thereof
KR100370249B1 (en) A system for video skimming using shot segmentation information
KR20020023063A (en) A method and apparatus for video skimming using structural information of video contents
JP3624677B2 (en) Special effect detection device for moving image and recording medium recording program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040707

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050405

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050513

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050926

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091014

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091014

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101014

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111014

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121014

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees