JP2001126050A

JP2001126050A - ニュース記事切り出し装置

Info

Publication number: JP2001126050A
Application number: JP30538099A
Authority: JP
Inventors: Atsushi Ono; 敦史小野; Hiroyuki Akagi; 宏之赤木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-10-27
Filing date: 1999-10-27
Publication date: 2001-05-11
Anticipated expiration: 2019-10-27
Also published as: JP4253410B2

Abstract

(57)【要約】【課題】ニュース映像からニュース記事を切り出す。【解決手段】映像分離部２は、入力映像を動画像部分
と音声部分とに分離する。動画像解析部４は、上記動画
像を解析してカット点画像,テロップフレーム,顔の画像
を検出する。音声解析部５は、上記音声を解析して無音
区間を検出する。解析結果統合部６は、上記動画像解結
果および音声解析結果を統合して、ニュース記事を切り
出す。こうして、ニュース映像の特性を用いてニュース
記事を切り出すことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ニュース映像を
データベース化する場合に検索単位となるニュース記事
を映像から自動的に切り出すニュース記事切り出し装置
に関する。

【０００２】

【従来の技術】従来のニュース映像データベースにおい
ては、「情報処理学会誌Ｖol,37 Ｎo.9“Informedia:Ｃ
ＭＵディジタルビデオライブラリプロジェクト”」等に
記載された技術によって、映像のセグメンテーションや
検索のための索引付けが行なわれている。

【０００３】

【発明が解決しようとする課題】しかしながら、上記従
来の技術においては、映像のセグメンテーションについ
て要素技術が列挙されてはいるものの、具体的な解は開
示されていない。

【０００４】そこで、この発明の目的は、ニュース映像
からニュース映像の特性を用いてニュース記事を切り出
すことができるニュース記事切り出し装置を提供するこ
とにある。

【０００５】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明のニュース記事切り出し装置は、映像入
力手段と、上記映像入力手段によって入力されたニュー
ス映像を音声と動画とに分離する映像分離手段と、上記
映像分離手段によって分離された動画から,動画の変化
点であるカット点画像を検出するカット点画像検出手段
と、上記カット点画像間の類似度を算出する類似度算出
手段と、類似度の高いカット点画像の間を記事として切
り出す記事切り出し手段を備えたことを特徴としてい
る。

【０００６】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分とに分離される。そして、カット点画像
検出手段によって、上記分離された動画から、動画の変
化点であるカット点画像が検出される。さらに、類似度
算出手段によって、上記カット点画像間の類似度が算出
される。そうすると、記事切り出し手段によって、類似
度の高いカット点画像の間が記事として切り出される。

【０００７】また、第２の発明のニュース記事切り出し
装置は、映像入力手段と、上記映像入力手段によって入
力されたニュース映像を音声と動画とに分離する映像分
離手段と、上記映像分離手段によって分離された動画か
ら,動画の変化点であるカット点画像を検出するカット
点画像検出手段と、上記分離された動画からテロップを
検出するテロップ検出手段と、上記テロップ検出手段に
よって検出されたテロップの直前に位置するカット点画
像間の類似度を算出する類似度算出手段と、上記テロッ
プの直前に位置するカット点画像のうち類似度の高いカ
ット点画像の間を記事として切り出す記事切り出し手段
を備えたことを特徴としている。

【０００８】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分とに分離される。そして、カット点画像
検出手段によって、上記分離された動画から、動画の変
化点であるカット点画像が検出される。また、テロップ
検出手段によって、上記分離された動画からテロップが
検出される。さらに、類似度算出手段によって、上記検
出されたテロップの直前に位置するカット点画像間の類
似度が算出される。そうすると、記事切り出し手段によ
って、上記テロップの直前に位置するカット点画像のう
ち類似度の高いカット点画像の間が記事として切り出さ
れる。

【０００９】また、第３の発明のニュース記事切り出し
装置は、映像入力手段と、上記映像入力手段によって入
力されたニュース映像を音声と動画とに分離する映像分
離手段と、上記映像分離手段によって分離された動画か
ら,動画の変化点であるカット点画像を検出するカット
点画像検出手段と、上記分離された動画からテロップを
検出するテロップ検出手段と、上記分離された動画から
顔の画像を検出する顔検出手段と、上記カット点画像の
うち,上記テロップ検出手段によって検出されたテロッ
プの直前に位置して顔が映っているカット点画像間の類
似度を算出する類似度算出手段と、上記テロップの直前
に位置して顔が映っているカット点画像のうち類似度の
高いカット点画像の間を記事として切り出す記事切り出
し手段を備えたことを特徴としている。

【００１０】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分に分離される。そして、カット点画像検
出手段によって、上記分離された動画から、動画の変化
点であるカット点画像が検出される。また、テロップ検
出手段によって、上記分離された動画からテロップが検
出される。また、顔検出手段によって、上記分離された
動画から顔の画像が検出される。さらに、類似度算出手
段によって、上記カット点画像のうち、上記テロップ検
出手段によって検出されたテロップの直前に位置して顔
が映っているカット点画像間の類似度が算出される。そ
うすると、記事切り出し手段によって、上記テロップの
直前に位置して顔が映っているカット点画像のうち類似
度の高いカット点画像の間が記事として切り出される。

【００１１】また、第４の発明のニュース記事切り出し
装置は、映像入力手段と、上記映像入力手段によって入
力されたニュース映像を音声と動画とに分離する映像分
離手段と、上記映像分離手段によって分離された音声か
ら無音部分を検出する無音検出手段と、無音部分の間を
記事として切り出す記事切り出し手段を備えたことを特
徴としている。

【００１２】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分とに分離される。そして、無音検出手段
によって、上記分離された音声から無音部分が検出され
る。そうすると、記事切り出し手段によって、上記検出
された無音部分の間が記事として切り出される。

【００１３】また、第５の発明のニュース記事切り出し
装置は、映像入力手段と、上記映像入力手段によって入
力されたニュース映像を音声と動画とに分離する映像分
離手段と、上記映像分離手段によって分離された動画か
ら,動画の変化点であるカット点画像を検出するカット
点画像検出手段と、上記分離された動画からテロップを
検出するテロップ検出手段と、上記分離された動画から
顔の画像を検出する顔検出手段と、上記カット点画像の
うち,上記テロップ検出手段によって検出されたテロッ
プの直前に位置して顔が映っているカット点画像間の類
似度を算出する類似度算出手段と、上記映像分離手段に
よって分離された音声から無音部分を検出する無音検出
手段と、上記テロップの直前に位置して顔が映っている
カット点画像のうち類似度の高いカット点画像を選出
し,この選出カット点画像近傍に在る無音部分の間を記
事として切り出す記事切り出し手段を備えたことを特徴
としている。

【００１４】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分に分離される。そして、カット点画像検
出手段によって、上記分離された動画から、動画の変化
点であるカット点画像が検出される。また、テロップ検
出手段によって、上記分離された動画からテロップが検
出される。また、顔検出手段によって、上記分離された
動画から顔の画像が検出される。また、無音検出手段に
よって、上記分離された音声から無音部分が検出され
る。さらに、類似度算出手段によって、上記カット点画
像のうち、上記テロップ検出手段によって検出されたテ
ロップの直前に位置して顔が映っているカット点画像間
の類似度が算出される。そうすると、記事切り出し手段
によって、上記テロップの直前に位置して顔が映ってい
るカット点画像のうち類似度の高いカット点画像が選出
され、この選出カット点画像近傍に在る無音部分の間が
記事として切り出される。

【００１５】また、上記第１乃至第５の発明のニュース
記事切り出し装置は、上記記事切り出し手段によって記
事を切り出すに先立って、上記カット点画像検出手段に
よって検出された各カット点画像間のうち、コマーシャ
ルメッセージ(ＣＭ)に該当するカット点画像間を検出し
て除去するＣＭ除去手段を備えることが望ましい。

【００１６】上記構成によれば、ニュース記事が切り出
されるに先立って、ＣＭ除去手段によって、上記検出さ
れた各カット点画像間のうち、ＣＭに該当するカット点
画像間が検出されて除去される。したがって、以後に行
われる上記記事切り出し手段による記事切り出しの際に
は、上記ＣＭの区間は除外されてニュース記事のみが切
り出される。

【００１７】

【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図１は、本実施の形態のニュ
ース記事切り出し装置のブロック図である。

【００１８】Ａ/Ｄ変換部１は、入力された映像をＡ/Ｄ
変換してデジタル化する。映像分離部２は、Ａ/Ｄ変換
部１によってデジタル化された映像を動画像部分と音声
部分に分離する。こうして分離された動画像データと音
声データはメモリ３に保存される。こうしてメモリ３に
保存された動画像は、動画像解析部４によって解析され
る。また、メモリ３に保存された音声は、音声解析部５
によって解析される。そして、動画像および音声の夫々
の解析結果はメモリ３に格納される。

【００１９】解析結果統合部６は、上記動画像解析部４
および音声解析部５による解析結果をメモリ３から読み
出して統合し、後に詳述するようにしてニュース記事を
切り出す。こうして切り出されたニュース記事は、映像
蓄積部７に蓄積されるのである。

【００２０】図２は、図１に示すニュース記事切り出し
装置によって実行されるニュース記事切り出し手順の概
略を示すフローチャートである。以下、図２に従って、
ニュース記事切り出し手順について説明する。

【００２１】先ず、ステップＳ1で、上記映像分離部２
によって、Ａ/Ｄ変換部１からのデジタル映像データが
動画像データと音声データとに分離される。ステップＳ
2で、動画像解析部４によって、上記分離された動画像
データに基づいて動画像が解析される。尚、この動画像
解析によって、後に詳述するように、動画の変化点であ
るカット点画像や、テロップが映っているフレーム(テ
ロップフレーム)や、人物の顔が映っているフレームが
検出される。

【００２２】ステップＳ3で、上記音声解析部５によっ
て、上記分離された音声データに基づいて音声が解析さ
れる。尚、この音声解析によって、後に詳述するよう
に、無音区間が検出される。ステップＳ4で、解析結果
統合部６によって、動画像解析結果と音声解析結果とが
統合されてニュース記事の切り出しが行われる。

【００２３】図３は、図２に示すニュース記事切り出し
手順におけるステップＳ2の動画像解析時に行われるカ
ット点画像検出処理動作のフローチャートである。先
ず、ステップＳ11で、フレーム数frameが「０」に初期化
される。ステップＳ12で、直前フレームの色相ヒストグ
ラムhist2および現フレームの色相ヒストグラムhist1が
「０」に初期化される。ステップＳ13で、上記メモリ３に
格納されている動画像データから処理すべきフレームデ
ータが読み出される。ステップＳ14で、色相ヒストグラ
ムhist1が生成されて更新される。尚、色相ヒストグラ
ムhist1の生成については後に詳述する。ステップＳ15
で、フレーム数frameがインクリメントされる。

【００２４】ステップＳ16で、frame＝１であるか否か
が判別される。その結果、frame＝１であればステップ
Ｓ21に進む一方、そうでなければステップＳ17に進む。
ステップＳ17で、直前フレームの色相ヒストグラムhist
2と現フレームの色相ヒストグラムhist1との差分Ｄが求
められる。尚、差分Ｄは式(１)によって算出するが、他
の計算方法によって算出しても構わない。ステップＳ18で、差分Ｄが閾値ＴＨより小さいか否かが
判別される。その結果、上記閾値ＴＨより小さければス
テップＳ19に進み、閾値ＴＨ以上であればステップＳ20
に進む。ステップＳ19で、直前フレームからの色相ヒス
トグラムの変化量が小さいために現フレームは動画の変
化点とは見なされず、非カット点画像であると判定され
る。ステップＳ20で、現フレームはカット点画像である
と判定される。そして、例えばカット点画像の位置を表
わすカット点画像テーブルに登録される。ステップＳ21
で、直前フレームの色相ヒストグラムhist2が、現フレ
ームの色相ヒストグラムhist1で更新される。ステップ
Ｓ22で、メモリ３に未処理のフレームデータが在るか否
かが判別される。その結果、在ればステップＳ13に戻
り、次のフレームの処理に移行する。なければカット点
画像検出処理動作を終了する。

【００２５】このように、本実施の形態においては、現
フレームの色相ヒストグラムhist1が直前フレームの色
相ヒストグラムhist2に対して閾値ＴＨ以上変化した場
合には、現フレームは動画の変化点であると見なし、現
フレームをカット点画像として検出するのである。

【００２６】図４は、図３示すカット点画像検出処理動
作の上記ステップＳ14において実行される色相ヒストグ
ラム生成処理動作のフローチャートである。先ず、ステ
ップＳ31で、図３示すカット点画像検出処理動作の上記
ステップＳ13においてメモリ３から取り込まれたフレー
ムデータから、１画素の画素値Ｒ,Ｇ,Ｂが読み出され
る。ステップＳ32で、式(２)によって座標変換が行われ
る。ステップＳ33で、式(３)によってヒストグラムのインク
リメントが行なわれる。 hist[ｉ]＝hist[ｉ]＋１ … (３) ｉ＝Ｈ/ＨＱＵＡＮＴ但し、Ｈ_ＱＵＡＮＴ：色相の量子化定数ステップＳ34で、当該フレームデータに未処理画素が在
るか否かが判別される。その結果、在ればステップＳ31
に戻って次の画素値Ｒ,Ｇ,Ｂの処理に移行する。なけれ
ば色相ヒストグラム生成処理動作を終了する。

【００２７】図５は、図２示すニュース記事切り出し手
順におけるステップＳ2の動画像解析時に行われるテロ
ップフレーム検出処理動作のフローチャートである。以
下の説明においては、横書きのテロップに関する検出方
法を例に説明するが、縦書きのテロップを検出する場合
にはｘ軸とｙ軸とを入れ換えれば同様に実行できる。

【００２８】ステップＳ41で、フレーム数frameが「０」
に初期化される。ステップＳ42で、直前フレームのエッ
ジ画像edge2および現フレームのエッジ画像edge1が「０」
に初期化される。ステップＳ43で、メモリ３に格納され
ている動画像データから処理すべきフレームデータが読
み出される。ステップＳ44で、エッジ画像edge1が生成
されて更新される。尚、エッジ画像の生成については後
に詳述する。ステップＳ45で、フレーム数frameがイン
クリメントされる。

【００２９】ステップＳ46で、frame＝１であるか否か
が判別される。その結果、frame＝１であればステップ
Ｓ55に進む一方、そうでなければステップＳ47に進む。
ステップＳ47で、後述する投影ヒストグラム生成方法に
よって、エッジ画像edge1のｙ軸への投影ヒストグラム
が生成される。ステップＳ48で、上記ステップＳ47にお
いて生成されたヒストグラムが解析されて、テロップの
候補領域となる山の範囲[ｙ1,ｙ2]が閾値等に基づいて
検出される。ここで、通常、テロップの周囲にはエッジ
が集中している。そのために、横書きの場合には、図６
に示すようなｙ軸への投影ヒストグラムには山が検出さ
れる。そこで、上記ステップＳ48においては、ｙ軸への
投影ヒストグラムの山を検出してテロップの候補領域と
するのである。次に、ステップＳ49で、上記ステップＳ
48における山の範囲の検出結果に基づいて、山が在るか
否かが判別される。その結果、山が在ればテロップの候
補領域は在りとしてステップＳ50に進む一方、山がなけ
ればテロップの候補領域は無しとして上記ステップＳ55
に進む。

【００３０】ステップＳ50で、上記ｙ1からｙ2までの範
囲のエッジがｘ軸に投影されてエッジ画像の投影ヒスト
グラムが生成される。ステップＳ51で、上記ステップＳ
50において生成されたヒストグラムから、文字部分の山
の範囲が閾値等に基づいて検出される。ステップＳ52
で、上記ステップＳ51における山の範囲の検出結果に基
づいて、山が在るか否かが判別される。その結果、山が
在ればステップＳ54に進み、なければステップＳ53に進
む。

【００３１】ステップＳ53で、現フレームが非テロップ
フレームであると判定される。ステップＳ54で、現フレ
ームがテロップフレームであると判定される。そして、
例えばテロップフレームの位置を表わすテロップフレー
ムテーブルに登録される。ステップＳ55で、直前フレー
ムのエッジ画像edge2が現フレームのエッジ画像edge1で
更新される。ステップＳ56で、メモリ３に未処理のフレ
ームデータが在るか否かが判別される。その結果、在れ
ばステップＳ43に戻り、次のフレームの処理に移行す
る。なければテロップフレーム検出処理動作を終了す
る。

【００３２】このように、本実施の形態においては、生
成した上記エッジ画像edge1のｙ軸への投影ヒストグラ
ムに山が在り、且つ、ｘ軸への投影ヒストグラムにも山
が在る場合には、現フレームにテロップ文字列が在ると
判定し、現フレームをテロップフレームとして検出する
のである。

【００３３】図７は、図５示すテロップフレーム検出処
理動作の上記ステップＳ44において実行されるエッジ画
像生成処理動作のフローチャートである。ステップＳ61
で、現フレームのエッジ画像edge1が「０」に初期化され
る。ステップＳ62で、図５示すテロップフレーム検出処
理動作の上記ステップＳ43においてメモリ３から取り込
まれたフレームデータから濃淡画像grayが生成される。
ここで、濃淡画像grayとは、上記フレームデータから得
られた画素値Ｒ,Ｇ,Ｂを式(２)によって座標変換を行な
い、Ｖ値を画素値として表現した画像のことである。ス
テップＳ63で、変数Ｗに濃淡画像grayの幅の値が設定さ
れる。一方、変数Ｈには濃淡画像grayの高さの値が設定
される。ステップＳ64で、変数ｉに初期値「１」が設定さ
れる。ステップＳ65で、変数ｊに初期値「１」が設定され
る。ステップＳ66で、水平エッジh edge[i][j]および垂
直エッジv edge[i][j]が式(３)によって算出される。 h edge[i][j]＝abs(gray[i-1][j]−gray[i+1][j]) … (４) v edge[i][j]＝abs(gray[i][j-1]−gray[i][j+1]) ここで、gray[i][j]は、濃淡画像grayにおける座標(j,
i)の画素値である。

【００３４】ステップＳ67で、変数ｊの内容がインクリ
メントされる。ステップＳ68で、ｊ＜(Ｗ−１)であるか
否かが判別される。その結果、ｊ＜(Ｗ−１)であればス
テップＳ66に戻って水平エッジ及び垂直エッジの算出が
続行される。一方、ｊ≧(Ｗ−１)であればステップＳ69
に進む。ステップＳ69で、変数ｉがインクリメントされ
る。ステップＳ70で、ｉ＜(Ｈ−１)であるか否かが判別
される。その結果ｉ＜(Ｈ−１)であればステップＳ65に
戻って水平エッジおよび垂直エッジの算出が続行され
る。一方、ｉ≧(Ｈ−１)であればエッジ画像生成処理動
作を終了する。

【００３５】つまり、本実施の形態においては、１≦ｊ
≦(Ｗ−１)及び１≦ｉ≦(Ｈ−１)の範囲で求めた水平方
向の両隣画素のＶ値の差の絶対値であるh edge[i][j]を
画素値とする画像h edgeと、１≦ｊ≦(Ｗ−１)及び１≦
ｉ≦(Ｈ−１)の範囲で求めた垂直方向の両隣画素のＶ値
の差の絶対値であるv edge[i][j]を画素値とする画像v
edgeとをもって、上記エッジ画像edgeとするのである。

【００３６】尚、本実施の形態においては、上述の方法
によってエッシ画像edgeを生成するのであるが、それに
限定されるものではなく他のエッジ検出方法を用いても
差し支えない。

【００３７】図８は、図５示すテロップフレーム検出処
理動作の上記ステップＳ47あるいはステップＳ50におい
て実行される投影ヒストグラム生成処理動作のフローチ
ャートである。ステップＳ71で、図５示すテロップフレ
ーム検出処理動作の上記ステップＳ44において、図７に
示すエッジ画像生成処理動作に従って生成された現フレ
ームのエッジ画像edge1(h edge1,v edge1)、および、作
業バッファ等に保持されている前フレームのエッジ画像
edge2(h edge2,v edge2)が入力される。

【００３８】ステップＳ72で、投影する範囲(ｘmin,ｙm
in)〜(ｘmax,ｙmax)が設定される。但し、本処理動作が
図５示すテロップフレーム検出処理動作の上記ステップ
Ｓ47において呼び出された場合には、エッジ画像edge1,
edge1の全体が対象となるために、投影範囲は(０,０)〜
(Ｗ−１,Ｈ−１)となる。また、テロップフレーム検出
処理動作の上記ステップＳ50から呼び出された場合に
は、投影範囲は(０,ｙ1)〜(Ｗ−１,ｙ2)となる。ステッ
プＳ73で、ｙ軸への投影ヒストグラムｙhistおよびｘ軸
への投影ヒストグラムｘhistが「０」に初期化される。ス
テップＳ74で、上記ステップＳ72において設定された投
影範囲内の一つの画素に関して、ｙ軸への投影ヒストグ
ラムｙhistおよびｘ軸への投影ヒストグラムｘhistが式
(５)によって生成される。ｘhist[j]＝ｘhist[j]＋Ｍin(h edge1[i][j],h edge2[i][j]) …（５）ｙhist[j]＝ｙhist[j]＋Ｍin(v edge1[i][j],v edge2[i][j]) 但し、本処理動作が、図５示すテロップフレーム検出処
理動作の上記ステップＳ47において呼び出された場合に
は、ｙ軸への投影ヒストグラムｙhistが算出される。一
方、テロップフレーム検出処理動作の上記ステップＳ50
から呼び出された場合には、ｘ軸への投影ヒストグラム
ｘhistが算出される。ステップＳ75で、未処理画素が在
るか否かが判別される。その結果、在ればステップＳ74
に戻って次の画素に関する処理に移行し、なければ投影
ヒストグラム生成処理動作を終了する。

【００３９】図９は、図２に示すニュース記事切り出し
手順におけるステップＳ2の動画像解析時に行われる人
物の顔検出処理動作のフローチャートである。尚、本実
施の形態においては、図１０に示す状態遷移モデルと呼
ばれる階層構造を有するモデルの照合によって顔検出を
行なっているが、ニューラルネットワークやその他の手
法を用いても差し支えない。

【００４０】ステップＳ81で、上記メモリ３から顔の検
出用の画像が入力される。ステップＳ82で、上記入力さ
れた画像が、隣接する画素が類似色であるような画素の
集合でなる領域に分割される。ステップＳ83で、上記分
割された各領域の色,位置,形状の特微量が抽出される。
ステップＳ84で、上記各領域(領域数Ｎ)が、図１０に示
す状態遷移モデルの初期状態であるcolor segなる状態
ラベルが与えられることによって初期化される。ステッ
プＳ85で、領域番号ｉと状態が変化した領域数を表す変
数changeとの夫々が、「０」に初期化される。

【００４１】ステップＳ86で、領域[i]の特徴量と、領
域[i]が遷移可能な状態への遷移する場合に満たすべき
状態遷移ルールとの照合が行なわれる。その結果、領域
[i]が如何なる状態遷移ルールをも満たさない場合には
ステップＳ88に進む。一方、満たす場合にはステップＳ
87に進む。ステップＳ87で、領域[i]の状態ラベルが、
満たしている状態遷移ルールに対応する状態の状態ラベ
ルに更新される。そうした後、変数changeの内容がイン
クリメントされる。例えば、領域[i]の状態ラベルがcol
or_segであり、図１０に示す状態遷移モデルを用いる場
合を考えると、状態ラベルcolor_segから遷移可能な状
態はskin_segおよびblack_segである。この場合、領域
[i]が上記両状態に遷移するために満たすべき状態遷移
ルールは、図１０において上記状態ラベルcolor_segか
ら状態ラベルskin_segおよび状態ラベルblack_segへの
矢印に設定されている「ＩsＳkin」及び「ＩsＢlack」であ
る。すなわち、領域[i]の特微量が状態遷移ルール「Ｉs
Ｓkin」を満たしていれば領域[i]の状態ラベルをskin_se
gに更新する。同様に、状態遷移ルール「ＩsＢlack」を満
たしていればblack_segに更新するのである。

【００４２】ステップＳ88で、領域番号ｉがインクリメ
ントされる。ステップＳ89で、領域番号ｉが領域数Ｎよ
り小さいか否かが判別される。その結果、ｉ＜Ｎであれ
ばステップＳ86に戻って次の領域に対する処理に移行す
る。一方、ｉ≧ＮであればステップＳ90に進む。ステッ
プＳ90で、change＝０であるか否か、つまり状態が遷移
した領域が在るか否かが判別される。その結果、在れば
ステップＳ85に戻る。こうして、上述の処理が、状態ラ
ベルが変化した領域が存在しなくなるまで繰り返され
る。

【００４３】ステップＳ91で、総ての領域の状態ラベル
をチェックすることによって、状態ラベルfaceを持つ領
域が存在するか否かが判別される。その結果、存在すれ
ばステップＳ92に進み、存在しなければステップＳ93に
進む。ステップＳ92で、人物の顔が検出されたとして、
例えば人物の顔があるフレームの位置を表わす顔フレー
ムテーブルに登録される。そうした後、人物の顔検出処
理動作を終了する。ステップＳ93で、人物の顔は検出さ
れなかったとして、人物の顔検出処理動作を終了する。

【００４４】このように、本実施の形態においては、入
力画像を類似色の領域に分割し、各領域の特微量を抽出
し、各領域の特徴量が図１０に示す状態遷移モデルの状
態遷移ルールを満たしていれば当該領域の状態を遷移さ
せ、この処理を総ての領域が状態遷移しなくなるまで繰
り返す。そして、状態ラベルfaceを持つ領域が存在した
場合には、人物の顔を検出したと判断するのである。

【００４５】図１１は、図２に示すニュース記事切り出
し手順におけるステップＳ3の音声解析時に行われる無
音区間検出処理動作のフローチャートである。先ず、ス
テップＳ101で、無音区間であることを表す変数Ｓilenc
eが「FALSE」に初期化される。ステップＳ102で、区間[s
p,ep]の長さ分の音声データが読み込まれる。ステップ
Ｓ103で、上記読み込まれた音声データから音声パワー
ｐが算出される。ステップＳl04で、上記音声パワーｐ
の分散値が式(６)によって算出される。ステップＳ105で、上記算出された分散値Ｖarが閾値Ｔ
Ｈより小さいか否かが判別される。その結果、Ｖar＜Ｔ
Ｈであれば区間[sp,ep]は無音区間であると判断されス
テップＳ108に進む。一方、Ｖar≧ＴＨであれば無音区
間ではないと判断されステップＳ106に進む。

【００４６】ステップＳ106で、上記変数Ｓilenceが「TR
UE」であるか、つまり直前の処理区間は無音区間である
か否かが判別される。その結果、「TRUE」でなければ上記
ステップＳ101に戻って、同様の処理が繰り返される。
一方、「TRUE」であればステップＳ107に進む。ステップ
Ｓ107で、後述するようにステップＳ109,Ｓ111において
値が設定された始端「start」と終端「end」に基づいて、無
音区間[start,end]が検出される。そして、無音区間の
位置を表わす無音区間テーブルに登録される。そうした
後、上記ステップＳ101に戻って、同様の処理が繰り返
される。

【００４７】ステップＳ108で、上記変数Ｓilenceが「TR
UE」であるか否かが判定される。その結果、「TRUE」でな
ければ、現在の区間[sp,ep]は無音区間の開始点である
としてステップＳ109に進む。一方、「TRUE」であれば、
現在の区間[sp,ep]は直前の無音区間の継続区間である
としてステップＳ111に進む。ステップＳ109で、無音区
間の始端「start」に「sp」が設定される。ステップＳ111
で、変数Ｓilenceに「TRUE」が設定される。そうした後に
ステップＳ112に進む。ステップＳ111で、無音区間の終
端「end」に「ep」が設定される。ステップＳ112で、未処理
の音声データが在るか否かが判別される。その結果、在
ればステップＳ102に戻って次の音声データの処理に移
行する。そして、上記ステップＳ105において「Ｖar≧Ｔ
Ｈ」と判定され、上記ステップＳ106において「直前の処
理区間は無音区間である」と判定されると、上記ステッ
プＳ107において無音区間[start(＝sp),end(＝ep)]が検
出されるのである。一方、未処理の音声データがなけれ
ば無音区間検出処理動作を終了する。

【００４８】このように、本実施の形態においては、音
声区間[sp,ep]におけるパワーｐの分散値Ｖarが閾値Ｔ
Ｈより小さい場合には、区間[sp,ep]は無音区間である
と判断する。さらに、直前区間が無音区間であれば区間
[sp,ep]は上記直前の無音区間の継続区間であると判定
する。一方、直前区間が無音区間でなければ区間[sp,e
p]は無音区間の開始点であると判定する。そして、次に
分散値Ｖarが閾値ＴＨ以上になると、無音区間[start
(＝sp),end(＝ep)]を検出するのである。

【００４９】図１２は、図２示すニュース記事切り出し
手順のステップＳ4において、解析結果統合部６によっ
て行われるニュース記事切り出し処理動作のフローチャ
ートである。尚、本ニュース記事切り出し処理動作にお
いては、動画像解析部４によって図３に示すカット点画
像検出処理動作に従って検出されたカット点画像に基づ
いて、ニュース記事を切り出すものである。

【００５０】ステップＳ121で、図３に示すカット点画
像検出処理動作によって上記カット点画像テーブルに登
録されているカット点画像の集合Ｃut:{ｃ_i|ｉ＝１,２,
…,Ｎ_cut}が得られる。そして、この集合{ｃ_i}を対象と
して、後述するようなクラスタリングによって、第１ク
ラスタに属するカット点画像の集合Ｃlst：{clst_i|ｉ＝
１,２,…,Ｎ_clst}⊂Ｃutが得られる。ステップＳ122
で、集合{clst_i}のインデックスｉが「１」に初期化され
る。

【００５１】ステップＳ123で、clst_iがニュース記事の
始点として設定される。ステップＳ124で、ｉがインク
リメントされる。ステップＳ125で、clst_iがニュース記
事の終点として設定される。こうして一つのニュース記
事が切り出されるのである。ステップＳ126で、ｉが最
大値「Ｎ_clst」よりも小さいか否かが判別される。その結
果、ｉ＜Ｎ_clstであれば上記ステップＳ123に戻って次
のニュース記事の切り出し処理に移行する。一方、ｉ≧
Ｎ_clstであればニュース記事切り出し処理動作を終了す
る。

【００５２】図１３は、図１２に示すニュース記事切り
出し処理動作のステップＳ121において実行されるクラ
スタリング処理動作のフローチャートである。ステップ
Ｓ131で、総てのカット点画像間の類似度Ｓimilar(ｉ,
ｊ)が算出される。ここで、ｉ,ｊは類似度を算出する２
つのカット点画像の番号である。尚、本実施の形態にお
いては、類似度Ｓimilar(ｉ,ｊ)として式(１)の逆数を
用いるが、他の類似度を用いても構わない。ステップＳ
132で、頻度ヒストグラムＨist[i],Ｈist[j]が「０」に初
期化される。ステップＳ133で、類似度Ｓimilar(ｉ,ｊ)
が閾値ＴＨより大きいか否かが判別される。その結果、
Ｓimilar(ｉ,ｊ)＞ＴＨであればステップＳ134に進み、
Ｓimilar(ｉ,ｊ)≦ＴＨであればステップＳ135に進む。
ステップＳ134で、頻度ヒストグラムＨist[i],Ｈist[j]
がインクリメントされる。ステップＳ135で、未処理の
類似度Ｓimilar(ｉ,ｊ)が在るか否かが判別される。そ
の結果、在れば上記ステップＳ133に戻って、次の類似
度Ｓimilar(ｉ,ｊ)に対する処理に移行する。

【００５３】ステップＳ136で、上記生成された頻度ヒ
ストグラムＨist[i],Ｈist[j]に基づいて最大頻度位置
Ｍaxが検出される。ステップＳ137で、現在のクラスタ
が空集合であるか否かが判別される。その結果、空集合
であればステップＳ139に進む一方、空集合でなければ
ステップＳ138に進む。ステップＳ138で、上記検出され
た最大頻度位置Ｍaxが第１クラスタに含まれるか否かが
判別される。その結果、含まれていればステップＳ139
に進む一方、含まれていなければクラスタリング処理動
作を終了する。ステップＳ139で、総てのＳimilar(Ｍa
x,j)が閾値ＴＨより大きくなるようなｊが第１クラスタ
に追加される。ステップＳ140で、頻度ヒストグラムＨi
st[i]，Ｈist[j]からＭaxが除外される。そうした後、
上記ステップＳ136に戻って上術の処理が繰り返され、
上記ステップＳ138において最大頻度位置Ｍaxが第１ク
ラスタに含まれていないと判別されるとクラスタリング
処理動作を終了するのである。

【００５４】一般的に、ニュース映像においては、一つ
のニュース記事が終了する毎に、静止しているニュース
キャスタの映像に切り換り、次のニュース記事の解説等
があってから次のニュース記事の映像が開始されるよう
になっている。つまり、各ニュース記事の間には、「静
止しているニュースキャスタの映像」という非常に類似
した動画の変化点が存在するのである。

【００５５】そこで、本実施の形態においては、上述の
ように、上記カット点画像の集合に対して、総てのカッ
ト点画像間の類似度Ｓimilar(ｉ,ｊ)を算出し、この類
似度Ｓimilar(ｉ,ｊ)が閾値ＴＨより大きい頻度を表す
頻度ヒストグラムＨist[i]，Ｈist[j]の最大頻度位置Ｍ
axを含むようにクラスタリングを行う。そして、第１ク
ラスタに属する夫々のカット点画像clst間を一つのニュ
ース記事として切り出すのである。

【００５６】図１４は、図２示すニュース記事切り出し
手順のステップＳ4における解析結果統合部６によって
行われる図１２とは異なるニュース記事切り出し処理動
作のフローチャートである。尚、本ニュース記事切り出
し処理動作においては、上記カット点画像に加えて、動
画像解析部４によって図５に示すテロップフレーム検出
処理動作に従って検出されたテロップフレームに基づい
て、ニュース記事を切り出すものである。

【００５７】ステップＳ141で、図３に示すカット点画
像検出処理動作によって上記カット点画像テーブルに登
録されているカット点画像の集合Ｃut:{ｃ_i|ｉ＝１,２,
…,Ｎ_cut}が得られる。さらに、図５に示すテロップフ
レーム検出処理動作によって上記テロップフレームテー
ブルに登録されているテロップフレームの集合Ｔelop:
{ｔ_i|ｉ＝１,２,…,Ｎ_telop}が得られる。そして、テロ
ップフレームｔ_iの直前のカット点画像がカット点画像
の集合{ｃ_i}から抽出される。ステップＳ142で、図１３
に示すクラスタリング処理動作によってクラスタリング
が行われ、第１クラスタに属するカット点画像の集合Ｃ
lst：{clst_i|ｉ＝１,２,…,Ｎ_clst}⊂Ｃutが得られる。
ステップＳ143で、集合｛clst_i}のインデックスｉが
「１」に初期化される。

【００５８】ステップＳ144で、clst_iがニュース記事の
始点として設定される。ステップＳ145で、ｉがインク
リメントされる。ステップＳ146で、clst_iがニュース記
事の終点として設定される。こうして一つのニュース記
事が切り出されるのである。ステップＳ147で、ｉが最
大値「Ｎ_clst」よりも小さいか否かが判別される。その結
果、ｉ＜Ｎ_clstであれば上記ステップＳ144に戻って次
のニュース記事の切り出し処理に移行する。一方、ｉ≧
Ｎ_clstであればニュース記事切り出し処理動作を終了す
る。

【００５９】上述したように、ニュース映像において
は、各ニュース記事の間には「静止しているニュースキ
ャスタの映像」という類似映像が存在し、この映像がニ
ュース映像と言う動画像全体の中の変化点となってい
る。また、上記ニュースキャスタの映像の直後にはテロ
ップフレームが存在するのが常である。

【００６０】そこで、本実施の形態においては、テロッ
プフレームの直前に在るカット点画像の集合に対して、
上記類似度を用いたクラスタリングを行う。そして、第
１クラスタに属する夫々のカット点画像clst間を一つの
ニュース記事として切り出すのである。

【００６１】図１５は、図２示すニュース記事切り出し
手順のステップＳ4において、解析結果統合部６によっ
て行われる図１２および図１４とは異なるニュース記事
切り出し処理動作のフローチャートである。尚、本ニュ
ース記事切り出し処理動作においては、上記カット点画
像およびテロップフレームに加えて、動画像解析部４に
よって図９に示す人物の顔検出処理動作に従って検出さ
れた人物の顔に基づいて、ニュース記事を切り出すもの
である。

【００６２】ステップＳ151で、図３に示すカット点画
像検出処理動作によって上記カット点画像テーブルに登
録されているカット点画像の集合Ｃut:{ｃ_i|ｉ＝１,２,
…,Ｎ_cut}が得られる。さらに、図５に示すテロップフ
レーム検出処理動作によって上記テロップフレームテー
ブルに登録されているテロップフレームの集合Ｔelop:
{ｔ_i|ｉ＝１,２,…,Ｎ_telop}が得られる。更に、図９に
示す人物の顔検出処理動作によって上記顔フレームテー
ブルに登録されているフレームの集合Ｆace：｛ｆ_i|ｉ
＝１,２,…,Ｎ_face}⊂Ｃutが得られる。そして、テロッ
プフレームｔ_iの直前のカット点画像であり且つ顔が検
出されたカット点画像がカット点画像の集合{ｃ_i}から
抽出される。

【００６３】ステップＳ152で、図１３に示すクラスタ
リング処理動作によってクラスタリングが行われ、第１
クラスタに属するカット点画像の集合Ｃlst：{clst_i|ｉ
＝１,２,…,Ｎ_clst}⊂Ｆace⊂Ｃutが得られる。ステッ
プＳ153で、集合｛clst_i}のインデックスｉが「１」に初
期化される。

【００６４】ステップＳ154で、clst_iがニュース記事の
始点として設定される。ステップＳ155で、ｉがインク
リメントされる。ステップＳ156で、clst_iがニュース記
事の終点として設定される。こうして一つのニュース記
事が切り出されるのである。ステップＳ157で、ｉが最
大値「Ｎ_clst」よりも小さいか否かが判別される。その結
果、ｉ＜Ｎ_clstであれば上記ステップＳ154に戻って次
のニュース記事の切り出し処理に移行する。一方、ｉ≧
Ｎ_clstであればニュース記事切り出し処理動作を終了す
る。

【００６５】上述したように、ニュース映像におけるテ
ロップフレームの直前には「静止しているニュースキャ
スタの映像」という類似している人物の顔の映像が存在
し、この映像がニュース映像と言う動画像全体の中の変
化点となっている。

【００６６】そこで、本実施の形態においては、テロッ
プフレームの直前に在って、且つ、人の顔が検出された
カット点画像の集合に対して、上記類似度を用いたクラ
スタリングを行う。そして、第１クラスタに属する夫々
のカット点画像clst間を一つのニュース記事として切り
出すのである。

【００６７】図１６は、図２示すニュース記事切り出し
手順のステップＳ4において、解析結果統合部６によっ
て行われる図１２,図１４および図１５とは異なるニュ
ース記事切り出し処理動作のフローチャートである。
尚、本ニュース記事切り出し処理動作においては、音声
解析部５によって図１１示す無音区間検出検出処理動作
に従って検出された無音区間に基づいて、ニュース記事
を切り出すものである。

【００６８】ステップＳ161で、図１１に示す無音区間
検出処理動作によって上記無音区間テーブルに登録され
た上記無音区間の集合Ｓilent：{[ｓ_i,ｅ_i]|ｉ＝１,２,
…,Ｎ_silent}が得られる。そして、集合{[ｓ_i,ｅ_i]}の
インデックスｉが「１」に初期化されるのである。

【００６９】ステップＳ162で、上記無音区間の終点ｅ_i
がニュース記事の始点として設定される。ステップＳ16
3で、ｉがインクリメントされる。ステップＳ164で、無
音区間の始点ｓ_iがニュース記事の終点として設定され
る。こうして一つのニュース記事が切り出されるのであ
る。ステップＳ165で、ｉが最大値「Ｎ_silent」よりも小
さいか否かが判別される。その結果、ｉ＜Ｎ_silentであ
れば上記ステップＳ162に戻って次のニュース記事の切
り出し処理に移行する。一方、ｉ≧Ｎ_silentであればニ
ュース記事切り出し処理動作を終了する。

【００７０】上述したように、ニュース映像には「静止
しているニュースキャスタの映像」が存在するのである
が、このニュースキャスタは、次のニュース記事の解説
に入る前に一次的に無言状態となる。そこで、本実施の
形態においては、無音区間の間を一つのニュース記事と
して切り出すのである。

【００７１】図１７は、図２示すニュース記事切り出し
手順のステップＳ4において、解析結果統合部６によっ
て行われる図１２および図１４〜図１６とは異なるニュ
ース記事切り出し処理動作のフローチャートである。
尚、本ニュース記事切り出し処理動作においては、上記
カット点画像,テロップフレーム,人物の顔および無音区
間に基づいて、ニュース記事を切り出すものである。

【００７２】ステップＳ171で、図３に示すカット点画
像検出処理動作によって上記カット点画像テーブルに登
録されているカット点画像の集合Ｃut:{ｃ_i|ｉ＝１,２,
…,Ｎ_cut}が得られる。さらに、図５に示すテロップフ
レーム検出処理動作によって上記テロップフレームテー
ブルに登録されているテロップフレームの集合Ｔelop:
{ｔ_i|ｉ＝１,２,…,Ｎ_telop}が得られる。更に、図９に
示す人物の顔検出処理動作によって上記顔フレームテー
ブルに登録されたフレームの集合Ｆace:{ｆ_i|ｉ＝１,
２,…,Ｎ_face}⊂Ｃutが得られる。更に、図１１に示す
無音区間検出処理動作によって上記無音区間テーブルに
登録された無音区間の集合Ｓilent：{[ｓ_i,ｅ_i]|ｉ＝
１,２,…,Ｎ_silent}が得られる。そして、テロップフレ
ームｔ_iの直前のカット点画像であり且つ顔が検出され
たカット点画像がカット点画像の集合{ｃ_i}から抽出さ
れる。

【００７３】ステップＳ172で、図１３に示すクラスタ
リング処理動作によってクラスタリングが行われ、第１
クラスタに属するカット点画像の集合Ｃlst：{clst_i|ｉ
＝１,２,…,Ｎ_clst}⊂Ｆace⊂Ｃutが得られる。ステッ
プＳ173で、集合｛clst_i}のインデックスｉが「１」に初
期化される。

【００７４】ステップＳ174で、clst_iがニュース記事の
仮の始点startとして設定される。ステップＳ175で、ｉ
がインクリメントされる。ステップＳ176で、clst_iがニ
ュース記事の仮の終点endとして設定される。ステップ
Ｓ177で、仮の終点end付近に無音区間が存在するか否か
が判別される。その結果、存在する場合にはステップＳ
l79に進み、存在しない場合にはステップＳ178に進む。
ステップＳl78で、ｉが最大値「Ｎ_clst」よりも小さいか
否かが判別される。その結果、ｉ＜Ｎ_clstであれば、上
記ステップＳ175に戻って仮の終点endの更新が行われ
る。一方、ｉ≧Ｎ_clstであれば、ニュース記事切り出し
処理動作を終了する。

【００７５】ステップＳ179で、仮の始点start付近に在
る無音区間終点が検出されて「Ｓ」として設定される。ス
テップＳ180で、仮の終点end付近に在る無音区間始点が
検出されて「Ｅ」として設定される。ステップＳ181で、
区間[Ｓ,Ｅ]がニュース記事として切り出される。ステ
ップＳ182で、ｉが最大値「Ｎ_clst」よりも小さいか否か
が判別される。その結果、ｉ＜Ｎ_clstであれば上記ステ
ップＳ174に戻って次のニュース記事の切り出し処理に
移行する。一方、ｉ≧Ｎ_clstであればニュース記事切り
出し処理動作を終了する。

【００７６】上述したように、ニュース映像におけるテ
ロップフレームの直前には「静止しているニュースキャ
スタの映像」という類似している人物の顔の映像が存在
し、この映像がニュース映像と言う動画像全体の中の変
化点となっている。また、上記ニュースキャスタは、次
のニュース記事の解説に入る前に一次的に無言状態とな
る。

【００７７】そこで、本実施の形態においては、テロッ
プフレームの直前に在って、且つ、人の顔が検出された
カット点画像の集合に対して、上記類似度を用いたクラ
スタリングを行う。そして、第１クラスタに属する夫々
のカット点画像clstから一つのニュース記事の仮の始点
startと仮の終点endとを求める。そして、上記仮の始点
start付近の無音区間終点Ｓと仮の終点end付近の無音区
間始点Ｅとの間を一つのニュース記事として切り出すの
である。

【００７８】図１８は、上記解析結果統合部６によっ
て、図１２,図１４〜図１７に示すニュース記事切り出
し処理動作が行われるに先立って実行されるＣＭ区間を
除去するＣＭ除去処理動作のフローチャートである。但
し、図１８に示すＣＭ除去処理動作のフローチャート
は、１５秒間のＣＭを検出除去するものである。したが
って、３０秒間のＣＭを検出除去する場合には、図１８
に示すＣＭ除去処理動作のフローチャート中における数
字「１５」を「３０」に変更すればよい。

【００７９】ステップＳ191で、開始カット点画像番号s
tartが「０」に初期化される。ステップＳ192で、カット
点画像間累積時間intervalが「０」に初期化され、終了カ
ット点画像番号endが「start＋１」に初期化される。ステ
ップＳ193で、図３に示すカット点画像検出処理動作に
よって検出されたカット点画像に間して、「end−1」番目
のカット点画像と「end」番目のカット点画像との間（カ
ット点画像間[end−1，end]）の時間が取得されて、カ
ット点画像間累積時間intervalに加算される。ステップ
Ｓ194で、カット点画像間累積時間intervalが「１５」で
あるか否かが判別される。その結果、interval＝１５で
あればステップＳ195に進み、そうでなければステップ
Ｓ197に進む。

【００８０】ステップＳ195で、当該カット点画像間[en
d−1，end]がＣＭ区間と判定されて映像データが削除さ
れる。そして、開始カット点画像番号startが「end」に更
新される。こうすることによって、以降のニュース記事
切り出し処理動作等においては、ＣＭ区間が処理対象か
ら外されることになる。

【００８１】ステップＳ196で、上記開始カット点画像
番号startが「総カット点画像数Ｎ−１」よりも小さいか
否かが判別される。その結果、start＜(Ｎ−１)であれ
ば、上記ステップＳ192に戻って次のＣＭの検出処理に
移行する。一方、start≧(Ｎ−１)であればＣＭ除去処
理動作を終了する。

【００８２】ステップＳ197で、上記開始カット点画像
番号startが、「総カット点画像数Ｎ−１」よりも小さい
か否かが判別される。その結果、start＜(Ｎ−１)であ
ればステップＳ198に進み、start≧(Ｎ−１)であればＣ
Ｍ除去処理動作を終了する。ステップＳ198で、上記カ
ット点画像間累積時間intervalが「１５」以上であるか否
かが判別される。その結果、interval≧１５である場合
にはステップＳ200に進み、interval＜１５である場合
にはステップＳ199に進む。ステップＳl99で、終了カッ
ト点画像番号endがインクリメントされる。そうした
後、上記ステップＳl93に戻って当該ＣＭの検出処理が
続行される。ステップＳ200で、上記開始カット点画像
番号startがインクリメントされる。そうした後、上記
ステップＳ192に戻って、次のＣＭの検出処理に移行す
る。そして、上記ステップＳ196,Ｓ197において、start
≧(Ｎ−１)であると判別されるとＣＭ除去処理動作を終
了する。

【００８３】このように、本実施の形態においては、図
３に示すカット点画像検出処理動作によって検出された
カット点画像に間して、先頭から順次カット点画像間の
累積時間を取得する。そして、カット点画像間累積時間
が１５秒になった場合には、そのカット点画像間はＣＭ
区間であるとしてその間の映像を削除する。そうするこ
とによって、以後のニュース記事切り出し処理等におい
て、ＣＭ区間を処理対象から外すことができるのであ
る。

【００８４】尚、本実施の形態においては、上述の方法
によってＣＭを検出したが、他の方法によってＣＭ検出
を行なっても一向に構わない。

【００８５】上述のように、本実施の形態においては、
映像分離部２によって、入力映像を動画像部分と音声部
分に分離する。そして、動画像解析部４によって上記動
画像が解析され、音声解析部５によって上記音声が解析
される。

【００８６】その場合における動画像の解析は、 (１) 現フレームの色相ヒストグラムhist1が、直前フレ
ームの色相ヒストグラムhist2に対して閾値ＴＨ以上変
化した場合には、現フレームをカット点画像として検出
する。 (２) 両隣画素のＶ値の差の絶対値を画素値とするエッ
ジ画像edge1のｙ軸への投影ヒストグラムおよびｘ軸へ
の投影ヒストグラムに山が在る場合には、現フレームを
テロップフレームとして検出する。 (３) 入力画像を類似色の領域に分割して特微量を抽出
し、各領域の特徴量に基づいて上記状態遷移モデルにし
たがって各領域の状態の遷移を繰り返す。そして、最終
的に状態ラベルfaceを持つ領域が存在する場合には、人
物の顔を検出したと判断する。

【００８７】また、上記音声の解析は、 (４) 音声区間[sp,ep]におけるパワーｐの分散値Ｖarが
閾値ＴＨより小さく、直前区間が無音区間でなければ無
音区間の始端startに「sp」を設定する一方、上記直前区
間が無音区間であれば無音区間の終端endに「ep」を設定
する。そして、次に上記分散値Ｖarが閾値ＴＨ以上にな
ると、区間[start,end]を無音区間として検出する。

【００８８】そして、上記動画像解結果および音声解析
結果に基づいて、解析結果統合部６によって、以下の方
法によってニュース記事を切り出す。

【００８９】(Ａ) 総てのカット点画像間の類似度Ｓimi
lar(ｉ,ｊ)が閾値ＴＨより大きい頻度を表す頻度ヒスト
グラムＨist[i],Ｈist[j]を求め、最大頻度位置Ｍaxを
含むようにクラスタリングを行う。そして、第１クラス
タに属する夫々のカット点画像clst間を一つのニュース
記事として切り出す。

【００９０】したがって、上記色相ヒストグラムの変化
点であるカット点画像(ニュースキャスタの画像)に基づ
いて、ニュース映像からニュース記事を切り出すことが
できる。

【００９１】(Ｂ) テロップフレームの直前に在るカッ
ト点画像の集合に対して、上記類似度を用いたクラスタ
リングを行う。そして、第１クラスタに属する夫々のカ
ット点画像clst間を一つのニュース記事として切り出
す。

【００９２】したがって、上記カット点画像(ニュース
キャスタの画像)とテロップフレームとに基づいて、ニ
ュース映像から更に精度よくニュース記事を切り出すこ
とができる。

【００９３】(Ｃ) テロップフレームの直前に在って、
且つ、顔が検出されたカット点画像の集合に対して、上
記類似度を用いたクラスタリングを行う。そして、第１
クラスタに属する夫々のカット点画像clst間を一つのニ
ュース記事として切り出す。

【００９４】したがって、上記テロップフレームと顔が
検出されたカット点画像(ニュースキャスタの画像)とに
基づいて、ニュース映像から更に精度よくニュース記事
を切り出すことができる。

【００９５】(Ｄ) 無音区間の間を一つのニュース記事
として切り出す。したがって、音声情報(ニュースキャ
スタの無言区間)に基づいて、ニュース映像からニュー
ス記事を切り出すことができる。

【００９６】(Ｅ) テロップフレームの直前に在って、
且つ、顔が検出されたカット点画像の集合に対して、上
記類似度を用いたクラスタリングを行う。そして、第１
クラスタに属する夫々のカット点画像clstから一つのニ
ュース記事の仮の始点startと仮の終点endとを求める。
そして、仮の始点start付近の無音区間終点Ｓと仮の終
点end付近の無音区間始点Ｅとの間を一つのニュース記
事として切り出す。

【００９７】したがって、上記テロップフレームと顔が
検出されたカット点画像(ニュースキャスタの画像)と音
声情報(ニュースキャスタの無言区間)とに基づいて、ニ
ュース映像から更に精度よくニュース記事を切り出すこ
とができる。

【００９８】さらに、上記解析結果統合部６は、上述の
ようなニュース記事切り出し処理を行うに先立って、上
記カット点画像の列から累積時間が１５秒になるカット
点画像間を検索し、累積時間が１５秒であるカット点画
像間をＣＭと確定して削除する。したがって、以後のニ
ュース記事切り出し処理等において、上記ＣＭ区間を処
理対象から外すことができるのである。

【００９９】尚、この発明のニュース記事切り出し装置
においては、上記色相ヒストグラムの変化点であるカッ
ト点画像に基づくニュース記事切り出し方法、上記カッ
ト点画像とテロップフレームとに基づくニュース記事切
り出し方法、上記テロップフレームと顔が検出されたカ
ット点画像とに基づくニュース記事切り出し方法、音声
情報(無音区間)に基づくニュース記事切り出し方法、上
記テロップフレームと顔が検出されたカット点画像と音
声情報(無音区間)とに基づくニュース記事切り出し方法
の総てが実現可能な構成を有する必要は無い。上記各ニ
ュース記事切り出し方法から適宜選択すればよい。

【０１００】

【発明の効果】以上より明らかなように、第１の発明の
ニュース記事切り出し装置は、映像分離手段によってニ
ュース映像を動画部分と音声部分とに分離し、この分離
された動画からカット点画像検出手段によってカット点
画像(動画の変化点)を検出し、類似度算出手段によって
上記カット点画像間の類似度を算出し、記事切り出し手
段によって、類似度の高いカット点画像の間を記事とし
て切り出すので、ニュース映像を構成する類似している
動画の変化点の位置でニュース記事を切り出すことがで
きる。

【０１０１】すなわち、この発明によれば、一つのニュ
ース記事が終了して、上記動画像がニュースキャスタの
映像等に切り変った時点を的確に検出して、ニュース記
事を正しく切り出すことができるのである。

【０１０２】また、第２の発明のニュース記事切り出し
装置は、映像分離手段によってニュース映像を動画部分
と音声部分とに分離し、この分離された動画からカット
点画像検出手段によってカット点画像(動画の変化点)を
検出し、テロップ検出手段によってテロップを検出し、
類似度算出手段によって上記テロップの直前に位置する
カット点画像間の類似度を算出し、記事切り出し手段に
よって、上記テロップの直前に位置するカット点画像の
うち類似度の高いカット点画像の間を記事として切り出
すので、上記ニュース映像を構成する動画の変化点の位
置であって、テロップの直前に在る類似している動画の
変化点の位置で、ニュース記事を切り出すことができ
る。

【０１０３】すなわち、この発明によれば、テロップの
映像を参照して、上記動画像がニュースキャスタの映像
等に切り変った時点をより的確に検出して、ニュース記
事を更に正しく切り出すことができるのである。

【０１０４】また、第３の発明のニュース記事切り出し
装置は、映像分離手段によってニュース映像を動画部分
と音声部分とに分離し、この分離された動画からカット
点画像検出手段によってカット点画像(動画の変化点)を
検出し、テロップ検出手段によってテロップを検出し、
顔検出手段によって顔の画像を検出し、類似度算出手段
によって上記テロップの直前に位置して顔が映っている
カット点画像間の類似度を算出し、記事切り出し手段に
よって、上記テロップの直前に位置して顔が映っている
カット点画像のうち類似度の高いカット点画像の間を記
事として切り出すので、ニュース映像を構成する動画の
変化点の位置であって、テロップの直前に在る類似して
いる人物の顔が映っている動画の変化点の位置で、ニュ
ース記事を切り出すことができる。

【０１０５】すなわち、この発明によれば、テロップの
映像を参照して、上記動画像が人物の映像、すなわちニ
ュースキャスタの映像に切り変った時点を更に的確に検
出して、ニュース記事を更に正しく切り出すことができ
るのである。

【０１０６】また、第４の発明のニュース記事切り出し
装置は、映像分離手段によってニュース映像を動画部分
と音声部分とに分離し、この分離された音声から無音検
出手段によって無音部分を検出し、記事切り出し手段に
よって、上記無音部分の間を記事として切り出すので、
次のニュース記事の開始の前に上記ニュースキャスタが
無言状態になった時点を検出して、ニュース記事を正し
く切り出すことができる。

【０１０７】また、第５の発明のニュース記事切り出し
装置は、映像分離手段によってニュース映像を動画部分
と音声部分とに分離し、この分離された動画からカット
点画像検出手段によってカット点画像(動画の変化点)を
検出し、テロップ検出手段によってテロップを検出し、
顔検出手段によって顔の画像を検出し、上記分離された
音声から無音検出手段によって無音部分を検出し、類似
度算出手段によって、上記テロップの直前に位置して人
物の顔が映っているカット点画像間の類似度を算出し、
記事切り出し手段によって、上記テロップの直前に位置
して顔が映っている類似度の高いカット点画像を選出
し、この選出カット点画像近傍に在る無音部分の間を記
事として切り出すので、テロップの直前に在る類似して
いる人物の顔が映っている動画の変化点の位置の近傍の
無音部分間で、ニュース記事を切り出すことができる。

【０１０８】すなわち、この発明によれば、テロップの
映像を参照して、上記動画像が人物の映像、すなわちニ
ュースキャスタの映像に切り変った時点であって、且
つ、次のニュース記事の開始前に上記ニュースキャスタ
が無言状態になった時点を的確に検出して、ニュース記
事を更に正しく切り出すことができるのである。

【０１０９】また、上記第１乃至第５の発明のニュース
記事切り出し装置は、上記記事の切り出しに先立って、
上記検出された各カット点画像間のうちＣＭに該当する
カット点画像間を検出して除去するＣＭ除去手段を備え
れば、ＣＭ区間のニュース映像を事前に除去できる。し
たがって、以後に行われる上記記事切り出し手段による
記事切り出しの際にはニュース記事のみを切り出すこと
ができ、誤検出を低減した精度の高いニュース記事切り
出しが可能になるのである。

【図面の簡単な説明】

【図１】この発明のニュース記事切り出し装置のブロ
ック図である。

【図２】図１に示すニュース記事切り出し装置によっ
て実行されるニュース記事切り出し手順の概略を示すフ
ローチャートである。

【図３】図２における動画像解析時に行われるカット
点画像検出処理動作のフローチャートである。

【図４】図３に示すカット点画像検出処理動作におい
て実行される色相ヒストグラム生成処理動作のフローチ
ャートである。

【図５】図２における動画像解析時に行われるテロッ
プフレーム検出処理動作のフローチャートである。

【図６】テロップの候補領域と投影ヒストグラムの山
との関係を示す図である。

【図７】図５示すテロップフレーム検出処理動作にお
いて実行されるエッジ画像生成処理動作のフローチャー
トである。

【図８】図５示すテロップフレーム検出処理動作にお
いて実行される投影ヒストグラム生成処理動作のフロー
チャートである。

【図９】図２における動画像解析時に行われる人物の
顔検出処理動作のフローチャートである。

【図１０】状態遷移モデルの一例を示す図である。

【図１１】図２における音声解析時に行われる無音区
間検出処理動作のフローチャートである。

【図１２】図１における解析結果統合部によって行わ
れるニュース記事切り出し処理動作のフローチャートで
ある。

【図１３】図１２に示すニュース記事切り出し処理動
作において実行されるクラスタリング処理動作のフロー
チャートである。

【図１４】図１２とは異なるニュース記事切り出し処
理動作のフローチャート図である。

【図１５】図１２および図１４とは異なるニュース記
事切り出し処理動作のフローチャートである。

【図１６】図１２,図１４および図１５とは異なるニ
ュース記事切り出し処理動作のフローチャートである。

【図１７】図１２および図１４〜図１６とは異なるニ
ュース記事切り出し処理動作のフローチャートである。

【図１８】図１における解析結果統合部によって実行
されるＣＭ除去処理動作のフローチャートである。

【符号の説明】

１…Ａ/Ｄ変換部、２…映像分離部、３…メモリ、４…動画像解析部、５…音声解析部、６…解析結果統合部、７…映像蓄積部。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B050 BA06 BA12 EA08 EA09 EA18 5B057 CA01 CA08 CA12 CA16 CB01 CB08 CB12 CB16 CE09 DA06 DB02 DB06 DB09 DC14 DC16 DC25 DC36 5L096 AA02 AA06 GA34 GA41 9A001 HH28 HH30

Claims

【特許請求の範囲】

【請求項１】映像入力手段と、上記映像入力手段によって入力されたニュース映像を音
声と動画とに分離する映像分離手段と、上記映像分離手段によって分離された動画から、動画の
変化点であるカット点画像を検出するカット点画像検出
手段と、上記カット点画像間の類似度を算出する類似度算出手段
と、類似度の高いカット点画像の間を記事として切り出す記
事切り出し手段を備えたことを特徴とするニュース記事
切り出し装置。
【請求項２】映像入力手段と、上記映像入力手段によって入力されたニュース映像を音
声と動画とに分離する映像分離手段と、上記映像分離手段によって分離された動画から、動画の
変化点であるカット点画像を検出するカット点画像検出
手段と、上記分離された動画からテロップを検出するテロップ検
出手段と、上記テロップ検出手段によって検出されたテロップの直
前に位置するカット点画像間の類似度を算出する類似度
算出手段と、上記テロップの直前に位置するカット点画像のうち類似
度の高いカット点画像の間を記事として切り出す記事切
り出し手段を備えたことを特徴とするニュース記事切り
出し装置。
【請求項３】映像入力手段と、上記映像入力手段によって入力されたニュース映像を音
声と動画とに分離する映像分離手段と、上記映像分離手段によって分離された動画から、動画の
変化点であるカット点画像を検出するカット点画像検出
手段と、上記分離された動画からテロップを検出するテロップ検
出手段と、上記分離された動画から顔の画像を検出する顔検出手段
と、上記カット点画像のうち、上記テロップ検出手段によっ
て検出されたテロップの直前に位置して顔が映っている
カット点画像間の類似度を算出する類似度算出手段と、上記テロップの直前に位置して顔が映っているカット点
画像のうち類似度の高いカット点画像の間を記事として
切り出す記事切り出し手段を備えたことを特徴とするニ
ュース記事切り出し装置。
【請求項４】映像入力手段と、上記映像入力手段によって入力されたニュース映像を音
声と動画とに分離する映像分離手段と、上記映像分離手段によって分離された音声から無音部分
を検出する無音検出手段と、無音部分の間を記事として切り出す記事切り出し手段を
備えたことを特徴とするニュース記事切り出し装置。
【請求項５】映像入力手段と、上記映像入力手段によって入力されたニュース映像を音
声と動画とに分離する映像分離手段と、上記映像分離手段によって分離された動画から、動画の
変化点であるカット点画像を検出するカット点画像検出
手段と、上記分離された動画からテロップを検出するテロップ検
出手段と、上記分離された動画から顔の画像を検出する顔検出手段
と、上記カット点画像のうち、上記テロップ検出手段によっ
て検出されたテロップの直前に位置して顔が映っている
カット点画像間の類似度を算出する類似度算出手段と、上記映像分離手段によって分離された音声から無音部分
を検出する無音検出手段と、上記テロップの直前に位置して顔が映っているカット点
画像のうち類似度の高いカット点画像を選出し、この選
出カット点画像近傍に在る無音部分の間を記事として切
り出す記事切り出し手段を備えたことを特徴とするニュ
ース記事切り出し装置。
【請求項６】請求項１乃至請求項５の何れか一つに記
載のニュース記事切り出し装置において、上記記事切り出し手段によって記事を切り出すに先立っ
て、上記カット点画像検出手段によって検出された各カ
ット点画像間のうち、コマーシャルメッセージに該当す
るカット点画像間を検出して除去するコマーシャルメッ
セージ除去手段を備えたことを特徴とするニュース切り
出し装置。