JP2001126050A - ニュース記事切り出し装置 - Google Patents

ニュース記事切り出し装置

Info

Publication number
JP2001126050A
JP2001126050A JP30538099A JP30538099A JP2001126050A JP 2001126050 A JP2001126050 A JP 2001126050A JP 30538099 A JP30538099 A JP 30538099A JP 30538099 A JP30538099 A JP 30538099A JP 2001126050 A JP2001126050 A JP 2001126050A
Authority
JP
Japan
Prior art keywords
video
cut point
image
telop
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30538099A
Other languages
English (en)
Other versions
JP4253410B2 (ja
Inventor
Atsushi Ono
敦史 小野
Hiroyuki Akagi
宏之 赤木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP30538099A priority Critical patent/JP4253410B2/ja
Publication of JP2001126050A publication Critical patent/JP2001126050A/ja
Application granted granted Critical
Publication of JP4253410B2 publication Critical patent/JP4253410B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 ニュース映像からニュース記事を切り出す。 【解決手段】 映像分離部2は、入力映像を動画像部分
と音声部分とに分離する。動画像解析部4は、上記動画
像を解析してカット点画像,テロップフレーム,顔の画像
を検出する。音声解析部5は、上記音声を解析して無音
区間を検出する。解析結果統合部6は、上記動画像解結
果および音声解析結果を統合して、ニュース記事を切り
出す。こうして、ニュース映像の特性を用いてニュース
記事を切り出すことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ニュース映像を
データベース化する場合に検索単位となるニュース記事
を映像から自動的に切り出すニュース記事切り出し装置
に関する。
【0002】
【従来の技術】従来のニュース映像データベースにおい
ては、「情報処理学会誌Vol,37 No.9“Informedia:C
MUディジタルビデオライブラリプロジェクト”」等に
記載された技術によって、映像のセグメンテーションや
検索のための索引付けが行なわれている。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の技術においては、映像のセグメンテーションについ
て要素技術が列挙されてはいるものの、具体的な解は開
示されていない。
【0004】そこで、この発明の目的は、ニュース映像
からニュース映像の特性を用いてニュース記事を切り出
すことができるニュース記事切り出し装置を提供するこ
とにある。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明のニュース記事切り出し装置は、映像入
力手段と、上記映像入力手段によって入力されたニュー
ス映像を音声と動画とに分離する映像分離手段と、上記
映像分離手段によって分離された動画から,動画の変化
点であるカット点画像を検出するカット点画像検出手段
と、上記カット点画像間の類似度を算出する類似度算出
手段と、類似度の高いカット点画像の間を記事として切
り出す記事切り出し手段を備えたことを特徴としてい
る。
【0006】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分とに分離される。そして、カット点画像
検出手段によって、上記分離された動画から、動画の変
化点であるカット点画像が検出される。さらに、類似度
算出手段によって、上記カット点画像間の類似度が算出
される。そうすると、記事切り出し手段によって、類似
度の高いカット点画像の間が記事として切り出される。
【0007】また、第2の発明のニュース記事切り出し
装置は、映像入力手段と、上記映像入力手段によって入
力されたニュース映像を音声と動画とに分離する映像分
離手段と、上記映像分離手段によって分離された動画か
ら,動画の変化点であるカット点画像を検出するカット
点画像検出手段と、上記分離された動画からテロップを
検出するテロップ検出手段と、上記テロップ検出手段に
よって検出されたテロップの直前に位置するカット点画
像間の類似度を算出する類似度算出手段と、上記テロッ
プの直前に位置するカット点画像のうち類似度の高いカ
ット点画像の間を記事として切り出す記事切り出し手段
を備えたことを特徴としている。
【0008】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分とに分離される。そして、カット点画像
検出手段によって、上記分離された動画から、動画の変
化点であるカット点画像が検出される。また、テロップ
検出手段によって、上記分離された動画からテロップが
検出される。さらに、類似度算出手段によって、上記検
出されたテロップの直前に位置するカット点画像間の類
似度が算出される。そうすると、記事切り出し手段によ
って、上記テロップの直前に位置するカット点画像のう
ち類似度の高いカット点画像の間が記事として切り出さ
れる。
【0009】また、第3の発明のニュース記事切り出し
装置は、映像入力手段と、上記映像入力手段によって入
力されたニュース映像を音声と動画とに分離する映像分
離手段と、上記映像分離手段によって分離された動画か
ら,動画の変化点であるカット点画像を検出するカット
点画像検出手段と、上記分離された動画からテロップを
検出するテロップ検出手段と、上記分離された動画から
顔の画像を検出する顔検出手段と、上記カット点画像の
うち,上記テロップ検出手段によって検出されたテロッ
プの直前に位置して顔が映っているカット点画像間の類
似度を算出する類似度算出手段と、上記テロップの直前
に位置して顔が映っているカット点画像のうち類似度の
高いカット点画像の間を記事として切り出す記事切り出
し手段を備えたことを特徴としている。
【0010】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分に分離される。そして、カット点画像検
出手段によって、上記分離された動画から、動画の変化
点であるカット点画像が検出される。また、テロップ検
出手段によって、上記分離された動画からテロップが検
出される。また、顔検出手段によって、上記分離された
動画から顔の画像が検出される。さらに、類似度算出手
段によって、上記カット点画像のうち、上記テロップ検
出手段によって検出されたテロップの直前に位置して顔
が映っているカット点画像間の類似度が算出される。そ
うすると、記事切り出し手段によって、上記テロップの
直前に位置して顔が映っているカット点画像のうち類似
度の高いカット点画像の間が記事として切り出される。
【0011】また、第4の発明のニュース記事切り出し
装置は、映像入力手段と、上記映像入力手段によって入
力されたニュース映像を音声と動画とに分離する映像分
離手段と、上記映像分離手段によって分離された音声か
ら無音部分を検出する無音検出手段と、無音部分の間を
記事として切り出す記事切り出し手段を備えたことを特
徴としている。
【0012】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分とに分離される。そして、無音検出手段
によって、上記分離された音声から無音部分が検出され
る。そうすると、記事切り出し手段によって、上記検出
された無音部分の間が記事として切り出される。
【0013】また、第5の発明のニュース記事切り出し
装置は、映像入力手段と、上記映像入力手段によって入
力されたニュース映像を音声と動画とに分離する映像分
離手段と、上記映像分離手段によって分離された動画か
ら,動画の変化点であるカット点画像を検出するカット
点画像検出手段と、上記分離された動画からテロップを
検出するテロップ検出手段と、上記分離された動画から
顔の画像を検出する顔検出手段と、上記カット点画像の
うち,上記テロップ検出手段によって検出されたテロッ
プの直前に位置して顔が映っているカット点画像間の類
似度を算出する類似度算出手段と、上記映像分離手段に
よって分離された音声から無音部分を検出する無音検出
手段と、上記テロップの直前に位置して顔が映っている
カット点画像のうち類似度の高いカット点画像を選出
し,この選出カット点画像近傍に在る無音部分の間を記
事として切り出す記事切り出し手段を備えたことを特徴
としている。
【0014】上記構成によれば、映像入力手段によって
入力されたニュース映像が、映像分離手段によって動画
部分と音声部分に分離される。そして、カット点画像検
出手段によって、上記分離された動画から、動画の変化
点であるカット点画像が検出される。また、テロップ検
出手段によって、上記分離された動画からテロップが検
出される。また、顔検出手段によって、上記分離された
動画から顔の画像が検出される。また、無音検出手段に
よって、上記分離された音声から無音部分が検出され
る。さらに、類似度算出手段によって、上記カット点画
像のうち、上記テロップ検出手段によって検出されたテ
ロップの直前に位置して顔が映っているカット点画像間
の類似度が算出される。そうすると、記事切り出し手段
によって、上記テロップの直前に位置して顔が映ってい
るカット点画像のうち類似度の高いカット点画像が選出
され、この選出カット点画像近傍に在る無音部分の間が
記事として切り出される。
【0015】また、上記第1乃至第5の発明のニュース
記事切り出し装置は、上記記事切り出し手段によって記
事を切り出すに先立って、上記カット点画像検出手段に
よって検出された各カット点画像間のうち、コマーシャ
ルメッセージ(CM)に該当するカット点画像間を検出し
て除去するCM除去手段を備えることが望ましい。
【0016】上記構成によれば、ニュース記事が切り出
されるに先立って、CM除去手段によって、上記検出さ
れた各カット点画像間のうち、CMに該当するカット点
画像間が検出されて除去される。したがって、以後に行
われる上記記事切り出し手段による記事切り出しの際に
は、上記CMの区間は除外されてニュース記事のみが切
り出される。
【0017】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図1は、本実施の形態のニュ
ース記事切り出し装置のブロック図である。
【0018】A/D変換部1は、入力された映像をA/D
変換してデジタル化する。映像分離部2は、A/D変換
部1によってデジタル化された映像を動画像部分と音声
部分に分離する。こうして分離された動画像データと音
声データはメモリ3に保存される。こうしてメモリ3に
保存された動画像は、動画像解析部4によって解析され
る。また、メモリ3に保存された音声は、音声解析部5
によって解析される。そして、動画像および音声の夫々
の解析結果はメモリ3に格納される。
【0019】解析結果統合部6は、上記動画像解析部4
および音声解析部5による解析結果をメモリ3から読み
出して統合し、後に詳述するようにしてニュース記事を
切り出す。こうして切り出されたニュース記事は、映像
蓄積部7に蓄積されるのである。
【0020】図2は、図1に示すニュース記事切り出し
装置によって実行されるニュース記事切り出し手順の概
略を示すフローチャートである。以下、図2に従って、
ニュース記事切り出し手順について説明する。
【0021】先ず、ステップS1で、上記映像分離部2
によって、A/D変換部1からのデジタル映像データが
動画像データと音声データとに分離される。ステップS
2で、動画像解析部4によって、上記分離された動画像
データに基づいて動画像が解析される。尚、この動画像
解析によって、後に詳述するように、動画の変化点であ
るカット点画像や、テロップが映っているフレーム(テ
ロップフレーム)や、人物の顔が映っているフレームが
検出される。
【0022】ステップS3で、上記音声解析部5によっ
て、上記分離された音声データに基づいて音声が解析さ
れる。尚、この音声解析によって、後に詳述するよう
に、無音区間が検出される。ステップS4で、解析結果
統合部6によって、動画像解析結果と音声解析結果とが
統合されてニュース記事の切り出しが行われる。
【0023】図3は、図2に示すニュース記事切り出し
手順におけるステップS2の動画像解析時に行われるカ
ット点画像検出処理動作のフローチャートである。先
ず、ステップS11で、フレーム数frameが「0」に初期化
される。ステップS12で、直前フレームの色相ヒストグ
ラムhist2および現フレームの色相ヒストグラムhist1が
「0」に初期化される。ステップS13で、上記メモリ3に
格納されている動画像データから処理すべきフレームデ
ータが読み出される。ステップS14で、色相ヒストグラ
ムhist1が生成されて更新される。尚、色相ヒストグラ
ムhist1の生成については後に詳述する。ステップS15
で、フレーム数frameがインクリメントされる。
【0024】ステップS16で、frame=1であるか否か
が判別される。その結果、frame=1であればステップ
S21に進む一方、そうでなければステップS17に進む。
ステップS17で、直前フレームの色相ヒストグラムhist
2と現フレームの色相ヒストグラムhist1との差分Dが求
められる。尚、差分Dは式(1)によって算出するが、他
の計算方法によって算出しても構わない。 ステップS18で、差分Dが閾値THより小さいか否かが
判別される。その結果、上記閾値THより小さければス
テップS19に進み、閾値TH以上であればステップS20
に進む。ステップS19で、直前フレームからの色相ヒス
トグラムの変化量が小さいために現フレームは動画の変
化点とは見なされず、非カット点画像であると判定され
る。ステップS20で、現フレームはカット点画像である
と判定される。そして、例えばカット点画像の位置を表
わすカット点画像テーブルに登録される。ステップS21
で、直前フレームの色相ヒストグラムhist2が、現フレ
ームの色相ヒストグラムhist1で更新される。ステップ
S22で、メモリ3に未処理のフレームデータが在るか否
かが判別される。その結果、在ればステップS13に戻
り、次のフレームの処理に移行する。なければカット点
画像検出処理動作を終了する。
【0025】このように、本実施の形態においては、現
フレームの色相ヒストグラムhist1が直前フレームの色
相ヒストグラムhist2に対して閾値TH以上変化した場
合には、現フレームは動画の変化点であると見なし、現
フレームをカット点画像として検出するのである。
【0026】図4は、図3示すカット点画像検出処理動
作の上記ステップS14において実行される色相ヒストグ
ラム生成処理動作のフローチャートである。先ず、ステ
ップS31で、図3示すカット点画像検出処理動作の上記
ステップS13においてメモリ3から取り込まれたフレー
ムデータから、1画素の画素値R,G,Bが読み出され
る。ステップS32で、式(2)によって座標変換が行われ
る。 ステップS33で、式(3)によってヒストグラムのインク
リメントが行なわれる。 hist[i]=hist[i]+1 … (3) i=H/H QUANT 但し、H_QUANT:色相の量子化定数 ステップS34で、当該フレームデータに未処理画素が在
るか否かが判別される。その結果、在ればステップS31
に戻って次の画素値R,G,Bの処理に移行する。なけれ
ば色相ヒストグラム生成処理動作を終了する。
【0027】図5は、図2示すニュース記事切り出し手
順におけるステップS2の動画像解析時に行われるテロ
ップフレーム検出処理動作のフローチャートである。以
下の説明においては、横書きのテロップに関する検出方
法を例に説明するが、縦書きのテロップを検出する場合
にはx軸とy軸とを入れ換えれば同様に実行できる。
【0028】ステップS41で、フレーム数frameが「0」
に初期化される。ステップS42で、直前フレームのエッ
ジ画像edge2および現フレームのエッジ画像edge1が「0」
に初期化される。ステップS43で、メモリ3に格納され
ている動画像データから処理すべきフレームデータが読
み出される。ステップS44で、エッジ画像edge1が生成
されて更新される。尚、エッジ画像の生成については後
に詳述する。ステップS45で、フレーム数frameがイン
クリメントされる。
【0029】ステップS46で、frame=1であるか否か
が判別される。その結果、frame=1であればステップ
S55に進む一方、そうでなければステップS47に進む。
ステップS47で、後述する投影ヒストグラム生成方法に
よって、エッジ画像edge1のy軸への投影ヒストグラム
が生成される。ステップS48で、上記ステップS47にお
いて生成されたヒストグラムが解析されて、テロップの
候補領域となる山の範囲[y1,y2]が閾値等に基づいて
検出される。ここで、通常、テロップの周囲にはエッジ
が集中している。そのために、横書きの場合には、図6
に示すようなy軸への投影ヒストグラムには山が検出さ
れる。そこで、上記ステップS48においては、y軸への
投影ヒストグラムの山を検出してテロップの候補領域と
するのである。次に、ステップS49で、上記ステップS
48における山の範囲の検出結果に基づいて、山が在るか
否かが判別される。その結果、山が在ればテロップの候
補領域は在りとしてステップS50に進む一方、山がなけ
ればテロップの候補領域は無しとして上記ステップS55
に進む。
【0030】ステップS50で、上記y1からy2までの範
囲のエッジがx軸に投影されてエッジ画像の投影ヒスト
グラムが生成される。ステップS51で、上記ステップS
50において生成されたヒストグラムから、文字部分の山
の範囲が閾値等に基づいて検出される。ステップS52
で、上記ステップS51における山の範囲の検出結果に基
づいて、山が在るか否かが判別される。その結果、山が
在ればステップS54に進み、なければステップS53に進
む。
【0031】ステップS53で、現フレームが非テロップ
フレームであると判定される。ステップS54で、現フレ
ームがテロップフレームであると判定される。そして、
例えばテロップフレームの位置を表わすテロップフレー
ムテーブルに登録される。ステップS55で、直前フレー
ムのエッジ画像edge2が現フレームのエッジ画像edge1で
更新される。ステップS56で、メモリ3に未処理のフレ
ームデータが在るか否かが判別される。その結果、在れ
ばステップS43に戻り、次のフレームの処理に移行す
る。なければテロップフレーム検出処理動作を終了す
る。
【0032】このように、本実施の形態においては、生
成した上記エッジ画像edge1のy軸への投影ヒストグラ
ムに山が在り、且つ、x軸への投影ヒストグラムにも山
が在る場合には、現フレームにテロップ文字列が在ると
判定し、現フレームをテロップフレームとして検出する
のである。
【0033】図7は、図5示すテロップフレーム検出処
理動作の上記ステップS44において実行されるエッジ画
像生成処理動作のフローチャートである。ステップS61
で、現フレームのエッジ画像edge1が「0」に初期化され
る。ステップS62で、図5示すテロップフレーム検出処
理動作の上記ステップS43においてメモリ3から取り込
まれたフレームデータから濃淡画像grayが生成される。
ここで、濃淡画像grayとは、上記フレームデータから得
られた画素値R,G,Bを式(2)によって座標変換を行な
い、V値を画素値として表現した画像のことである。ス
テップS63で、変数Wに濃淡画像grayの幅の値が設定さ
れる。一方、変数Hには濃淡画像grayの高さの値が設定
される。ステップS64で、変数iに初期値「1」が設定さ
れる。ステップS65で、変数jに初期値「1」が設定され
る。ステップS66で、水平エッジh edge[i][j]および垂
直エッジv edge[i][j]が式(3)によって算出される。 h edge[i][j]=abs(gray[i-1][j]−gray[i+1][j]) … (4) v edge[i][j]=abs(gray[i][j-1]−gray[i][j+1]) ここで、gray[i][j]は、濃淡画像grayにおける座標(j,
i)の画素値である。
【0034】ステップS67で、変数jの内容がインクリ
メントされる。ステップS68で、j<(W−1)であるか
否かが判別される。その結果、j<(W−1)であればス
テップS66に戻って水平エッジ及び垂直エッジの算出が
続行される。一方、j≧(W−1)であればステップS69
に進む。ステップS69で、変数iがインクリメントされ
る。ステップS70で、i<(H−1)であるか否かが判別
される。その結果i<(H−1)であればステップS65に
戻って水平エッジおよび垂直エッジの算出が続行され
る。一方、i≧(H−1)であればエッジ画像生成処理動
作を終了する。
【0035】つまり、本実施の形態においては、1≦j
≦(W−1)及び1≦i≦(H−1)の範囲で求めた水平方
向の両隣画素のV値の差の絶対値であるh edge[i][j]を
画素値とする画像h edgeと、1≦j≦(W−1)及び1≦
i≦(H−1)の範囲で求めた垂直方向の両隣画素のV値
の差の絶対値であるv edge[i][j]を画素値とする画像v
edgeとをもって、上記エッジ画像edgeとするのである。
【0036】尚、本実施の形態においては、上述の方法
によってエッシ画像edgeを生成するのであるが、それに
限定されるものではなく他のエッジ検出方法を用いても
差し支えない。
【0037】図8は、図5示すテロップフレーム検出処
理動作の上記ステップS47あるいはステップS50におい
て実行される投影ヒストグラム生成処理動作のフローチ
ャートである。ステップS71で、図5示すテロップフレ
ーム検出処理動作の上記ステップS44において、図7に
示すエッジ画像生成処理動作に従って生成された現フレ
ームのエッジ画像edge1(h edge1,v edge1)、および、作
業バッファ等に保持されている前フレームのエッジ画像
edge2(h edge2,v edge2)が入力される。
【0038】ステップS72で、投影する範囲(xmin,ym
in)〜(xmax,ymax)が設定される。但し、本処理動作が
図5示すテロップフレーム検出処理動作の上記ステップ
S47において呼び出された場合には、エッジ画像edge1,
edge1の全体が対象となるために、投影範囲は(0,0)〜
(W−1,H−1)となる。また、テロップフレーム検出
処理動作の上記ステップS50から呼び出された場合に
は、投影範囲は(0,y1)〜(W−1,y2)となる。ステッ
プS73で、y軸への投影ヒストグラムyhistおよびx軸
への投影ヒストグラムxhistが「0」に初期化される。ス
テップS74で、上記ステップS72において設定された投
影範囲内の一つの画素に関して、y軸への投影ヒストグ
ラムyhistおよびx軸への投影ヒストグラムxhistが式
(5)によって生成される。 xhist[j]=xhist[j]+Min(h edge1[i][j],h edge2[i][j]) …(5) yhist[j]=yhist[j]+Min(v edge1[i][j],v edge2[i][j]) 但し、本処理動作が、図5示すテロップフレーム検出処
理動作の上記ステップS47において呼び出された場合に
は、y軸への投影ヒストグラムyhistが算出される。一
方、テロップフレーム検出処理動作の上記ステップS50
から呼び出された場合には、x軸への投影ヒストグラム
xhistが算出される。ステップS75で、未処理画素が在
るか否かが判別される。その結果、在ればステップS74
に戻って次の画素に関する処理に移行し、なければ投影
ヒストグラム生成処理動作を終了する。
【0039】図9は、図2に示すニュース記事切り出し
手順におけるステップS2の動画像解析時に行われる人
物の顔検出処理動作のフローチャートである。尚、本実
施の形態においては、図10に示す状態遷移モデルと呼
ばれる階層構造を有するモデルの照合によって顔検出を
行なっているが、ニューラルネットワークやその他の手
法を用いても差し支えない。
【0040】ステップS81で、上記メモリ3から顔の検
出用の画像が入力される。ステップS82で、上記入力さ
れた画像が、隣接する画素が類似色であるような画素の
集合でなる領域に分割される。ステップS83で、上記分
割された各領域の色,位置,形状の特微量が抽出される。
ステップS84で、上記各領域(領域数N)が、図10に示
す状態遷移モデルの初期状態であるcolor segなる状態
ラベルが与えられることによって初期化される。ステッ
プS85で、領域番号iと状態が変化した領域数を表す変
数changeとの夫々が、「0」に初期化される。
【0041】ステップS86で、領域[i]の特徴量と、領
域[i]が遷移可能な状態への遷移する場合に満たすべき
状態遷移ルールとの照合が行なわれる。その結果、領域
[i]が如何なる状態遷移ルールをも満たさない場合には
ステップS88に進む。一方、満たす場合にはステップS
87に進む。ステップS87で、領域[i]の状態ラベルが、
満たしている状態遷移ルールに対応する状態の状態ラベ
ルに更新される。そうした後、変数changeの内容がイン
クリメントされる。例えば、領域[i]の状態ラベルがcol
or_segであり、図10に示す状態遷移モデルを用いる場
合を考えると、状態ラベルcolor_segから遷移可能な状
態はskin_segおよびblack_segである。この場合、領域
[i]が上記両状態に遷移するために満たすべき状態遷移
ルールは、図10において上記状態ラベルcolor_segか
ら状態ラベルskin_segおよび状態ラベルblack_segへの
矢印に設定されている「IsSkin」及び「IsBlack」であ
る。すなわち、領域[i]の特微量が状態遷移ルール「Is
Skin」を満たしていれば領域[i]の状態ラベルをskin_se
gに更新する。同様に、状態遷移ルール「IsBlack」を満
たしていればblack_segに更新するのである。
【0042】ステップS88で、領域番号iがインクリメ
ントされる。ステップS89で、領域番号iが領域数Nよ
り小さいか否かが判別される。その結果、i<Nであれ
ばステップS86に戻って次の領域に対する処理に移行す
る。一方、i≧NであればステップS90に進む。ステッ
プS90で、change=0であるか否か、つまり状態が遷移
した領域が在るか否かが判別される。その結果、在れば
ステップS85に戻る。こうして、上述の処理が、状態ラ
ベルが変化した領域が存在しなくなるまで繰り返され
る。
【0043】ステップS91で、総ての領域の状態ラベル
をチェックすることによって、状態ラベルfaceを持つ領
域が存在するか否かが判別される。その結果、存在すれ
ばステップS92に進み、存在しなければステップS93に
進む。ステップS92で、人物の顔が検出されたとして、
例えば人物の顔があるフレームの位置を表わす顔フレー
ムテーブルに登録される。そうした後、人物の顔検出処
理動作を終了する。ステップS93で、人物の顔は検出さ
れなかったとして、人物の顔検出処理動作を終了する。
【0044】このように、本実施の形態においては、入
力画像を類似色の領域に分割し、各領域の特微量を抽出
し、各領域の特徴量が図10に示す状態遷移モデルの状
態遷移ルールを満たしていれば当該領域の状態を遷移さ
せ、この処理を総ての領域が状態遷移しなくなるまで繰
り返す。そして、状態ラベルfaceを持つ領域が存在した
場合には、人物の顔を検出したと判断するのである。
【0045】図11は、図2に示すニュース記事切り出
し手順におけるステップS3の音声解析時に行われる無
音区間検出処理動作のフローチャートである。先ず、ス
テップS101で、無音区間であることを表す変数Silenc
eが「FALSE」に初期化される。ステップS102で、区間[s
p,ep]の長さ分の音声データが読み込まれる。ステップ
S103で、上記読み込まれた音声データから音声パワー
pが算出される。ステップSl04で、上記音声パワーp
の分散値が式(6)によって算出される。 ステップS105で、上記算出された分散値Varが閾値T
Hより小さいか否かが判別される。その結果、Var<T
Hであれば区間[sp,ep]は無音区間であると判断されス
テップS108に進む。一方、Var≧THであれば無音区
間ではないと判断されステップS106に進む。
【0046】ステップS106で、上記変数Silenceが「TR
UE」であるか、つまり直前の処理区間は無音区間である
か否かが判別される。その結果、「TRUE」でなければ上記
ステップS101に戻って、同様の処理が繰り返される。
一方、「TRUE」であればステップS107に進む。ステップ
S107で、後述するようにステップS109,S111において
値が設定された始端「start」と終端「end」に基づいて、無
音区間[start,end]が検出される。そして、無音区間の
位置を表わす無音区間テーブルに登録される。そうした
後、上記ステップS101に戻って、同様の処理が繰り返
される。
【0047】ステップS108で、上記変数Silenceが「TR
UE」であるか否かが判定される。その結果、「TRUE」でな
ければ、現在の区間[sp,ep]は無音区間の開始点である
としてステップS109に進む。一方、「TRUE」であれば、
現在の区間[sp,ep]は直前の無音区間の継続区間である
としてステップS111に進む。ステップS109で、無音区
間の始端「start」に「sp」が設定される。ステップS111
で、変数Silenceに「TRUE」が設定される。そうした後に
ステップS112に進む。ステップS111で、無音区間の終
端「end」に「ep」が設定される。ステップS112で、未処理
の音声データが在るか否かが判別される。その結果、在
ればステップS102に戻って次の音声データの処理に移
行する。そして、上記ステップS105において「Var≧T
H」と判定され、上記ステップS106において「直前の処
理区間は無音区間である」と判定されると、上記ステッ
プS107において無音区間[start(=sp),end(=ep)]が検
出されるのである。一方、未処理の音声データがなけれ
ば無音区間検出処理動作を終了する。
【0048】このように、本実施の形態においては、音
声区間[sp,ep]におけるパワーpの分散値Varが閾値T
Hより小さい場合には、区間[sp,ep]は無音区間である
と判断する。さらに、直前区間が無音区間であれば区間
[sp,ep]は上記直前の無音区間の継続区間であると判定
する。一方、直前区間が無音区間でなければ区間[sp,e
p]は無音区間の開始点であると判定する。そして、次に
分散値Varが閾値TH以上になると、無音区間[start
(=sp),end(=ep)]を検出するのである。
【0049】図12は、図2示すニュース記事切り出し
手順のステップS4において、解析結果統合部6によっ
て行われるニュース記事切り出し処理動作のフローチャ
ートである。尚、本ニュース記事切り出し処理動作にお
いては、動画像解析部4によって図3に示すカット点画
像検出処理動作に従って検出されたカット点画像に基づ
いて、ニュース記事を切り出すものである。
【0050】ステップS121で、図3に示すカット点画
像検出処理動作によって上記カット点画像テーブルに登
録されているカット点画像の集合Cut:{ci|i=1,2,
…,Ncut}が得られる。そして、この集合{ci}を対象と
して、後述するようなクラスタリングによって、第1ク
ラスタに属するカット点画像の集合Clst:{clsti|i=
1,2,…,Nclst}⊂Cutが得られる。ステップS122
で、集合{clsti}のインデックスiが「1」に初期化され
る。
【0051】ステップS123で、clstiがニュース記事の
始点として設定される。ステップS124で、iがインク
リメントされる。ステップS125で、clstiがニュース記
事の終点として設定される。こうして一つのニュース記
事が切り出されるのである。ステップS126で、iが最
大値「Nclst」よりも小さいか否かが判別される。その結
果、i<Nclstであれば上記ステップS123に戻って次
のニュース記事の切り出し処理に移行する。一方、i≧
clstであればニュース記事切り出し処理動作を終了す
る。
【0052】図13は、図12に示すニュース記事切り
出し処理動作のステップS121において実行されるクラ
スタリング処理動作のフローチャートである。ステップ
S131で、総てのカット点画像間の類似度Similar(i,
j)が算出される。ここで、i,jは類似度を算出する2
つのカット点画像の番号である。尚、本実施の形態にお
いては、類似度Similar(i,j)として式(1)の逆数を
用いるが、他の類似度を用いても構わない。ステップS
132で、頻度ヒストグラムHist[i],Hist[j]が「0」に初
期化される。ステップS133で、類似度Similar(i,j)
が閾値THより大きいか否かが判別される。その結果、
Similar(i,j)>THであればステップS134に進み、
Similar(i,j)≦THであればステップS135に進む。
ステップS134で、頻度ヒストグラムHist[i],Hist[j]
がインクリメントされる。ステップS135で、未処理の
類似度Similar(i,j)が在るか否かが判別される。そ
の結果、在れば上記ステップS133に戻って、次の類似
度Similar(i,j)に対する処理に移行する。
【0053】ステップS136で、上記生成された頻度ヒ
ストグラムHist[i],Hist[j]に基づいて最大頻度位置
Maxが検出される。ステップS137で、現在のクラスタ
が空集合であるか否かが判別される。その結果、空集合
であればステップS139に進む一方、空集合でなければ
ステップS138に進む。ステップS138で、上記検出され
た最大頻度位置Maxが第1クラスタに含まれるか否かが
判別される。その結果、含まれていればステップS139
に進む一方、含まれていなければクラスタリング処理動
作を終了する。ステップS139で、総てのSimilar(Ma
x,j)が閾値THより大きくなるようなjが第1クラスタ
に追加される。ステップS140で、頻度ヒストグラムHi
st[i],Hist[j]からMaxが除外される。そうした後、
上記ステップS136に戻って上術の処理が繰り返され、
上記ステップS138において最大頻度位置Maxが第1ク
ラスタに含まれていないと判別されるとクラスタリング
処理動作を終了するのである。
【0054】一般的に、ニュース映像においては、一つ
のニュース記事が終了する毎に、静止しているニュース
キャスタの映像に切り換り、次のニュース記事の解説等
があってから次のニュース記事の映像が開始されるよう
になっている。つまり、各ニュース記事の間には、「静
止しているニュースキャスタの映像」という非常に類似
した動画の変化点が存在するのである。
【0055】そこで、本実施の形態においては、上述の
ように、上記カット点画像の集合に対して、総てのカッ
ト点画像間の類似度Similar(i,j)を算出し、この類
似度Similar(i,j)が閾値THより大きい頻度を表す
頻度ヒストグラムHist[i],Hist[j]の最大頻度位置M
axを含むようにクラスタリングを行う。そして、第1ク
ラスタに属する夫々のカット点画像clst間を一つのニュ
ース記事として切り出すのである。
【0056】図14は、図2示すニュース記事切り出し
手順のステップS4における解析結果統合部6によって
行われる図12とは異なるニュース記事切り出し処理動
作のフローチャートである。尚、本ニュース記事切り出
し処理動作においては、上記カット点画像に加えて、動
画像解析部4によって図5に示すテロップフレーム検出
処理動作に従って検出されたテロップフレームに基づい
て、ニュース記事を切り出すものである。
【0057】ステップS141で、図3に示すカット点画
像検出処理動作によって上記カット点画像テーブルに登
録されているカット点画像の集合Cut:{ci|i=1,2,
…,Ncut}が得られる。さらに、図5に示すテロップフ
レーム検出処理動作によって上記テロップフレームテー
ブルに登録されているテロップフレームの集合Telop:
{ti|i=1,2,…,Ntelop}が得られる。そして、テロ
ップフレームtiの直前のカット点画像がカット点画像
の集合{ci}から抽出される。ステップS142で、図13
に示すクラスタリング処理動作によってクラスタリング
が行われ、第1クラスタに属するカット点画像の集合C
lst:{clsti|i=1,2,…,Nclst}⊂Cutが得られる。
ステップS143で、集合{clsti}のインデックスiが
「1」に初期化される。
【0058】ステップS144で、clstiがニュース記事の
始点として設定される。ステップS145で、iがインク
リメントされる。ステップS146で、clstiがニュース記
事の終点として設定される。こうして一つのニュース記
事が切り出されるのである。ステップS147で、iが最
大値「Nclst」よりも小さいか否かが判別される。その結
果、i<Nclstであれば上記ステップS144に戻って次
のニュース記事の切り出し処理に移行する。一方、i≧
clstであればニュース記事切り出し処理動作を終了す
る。
【0059】上述したように、ニュース映像において
は、各ニュース記事の間には「静止しているニュースキ
ャスタの映像」という類似映像が存在し、この映像がニ
ュース映像と言う動画像全体の中の変化点となってい
る。また、上記ニュースキャスタの映像の直後にはテロ
ップフレームが存在するのが常である。
【0060】そこで、本実施の形態においては、テロッ
プフレームの直前に在るカット点画像の集合に対して、
上記類似度を用いたクラスタリングを行う。そして、第
1クラスタに属する夫々のカット点画像clst間を一つの
ニュース記事として切り出すのである。
【0061】図15は、図2示すニュース記事切り出し
手順のステップS4において、解析結果統合部6によっ
て行われる図12および図14とは異なるニュース記事
切り出し処理動作のフローチャートである。尚、本ニュ
ース記事切り出し処理動作においては、上記カット点画
像およびテロップフレームに加えて、動画像解析部4に
よって図9に示す人物の顔検出処理動作に従って検出さ
れた人物の顔に基づいて、ニュース記事を切り出すもの
である。
【0062】ステップS151で、図3に示すカット点画
像検出処理動作によって上記カット点画像テーブルに登
録されているカット点画像の集合Cut:{ci|i=1,2,
…,Ncut}が得られる。さらに、図5に示すテロップフ
レーム検出処理動作によって上記テロップフレームテー
ブルに登録されているテロップフレームの集合Telop:
{ti|i=1,2,…,Ntelop}が得られる。更に、図9に
示す人物の顔検出処理動作によって上記顔フレームテー
ブルに登録されているフレームの集合Face:{fi|i
=1,2,…,Nface}⊂Cutが得られる。そして、テロッ
プフレームtiの直前のカット点画像であり且つ顔が検
出されたカット点画像がカット点画像の集合{ci}から
抽出される。
【0063】ステップS152で、図13に示すクラスタ
リング処理動作によってクラスタリングが行われ、第1
クラスタに属するカット点画像の集合Clst:{clsti|i
=1,2,…,Nclst}⊂Face⊂Cutが得られる。ステッ
プS153で、集合{clsti}のインデックスiが「1」に初
期化される。
【0064】ステップS154で、clstiがニュース記事の
始点として設定される。ステップS155で、iがインク
リメントされる。ステップS156で、clstiがニュース記
事の終点として設定される。こうして一つのニュース記
事が切り出されるのである。ステップS157で、iが最
大値「Nclst」よりも小さいか否かが判別される。その結
果、i<Nclstであれば上記ステップS154に戻って次
のニュース記事の切り出し処理に移行する。一方、i≧
clstであればニュース記事切り出し処理動作を終了す
る。
【0065】上述したように、ニュース映像におけるテ
ロップフレームの直前には「静止しているニュースキャ
スタの映像」という類似している人物の顔の映像が存在
し、この映像がニュース映像と言う動画像全体の中の変
化点となっている。
【0066】そこで、本実施の形態においては、テロッ
プフレームの直前に在って、且つ、人の顔が検出された
カット点画像の集合に対して、上記類似度を用いたクラ
スタリングを行う。そして、第1クラスタに属する夫々
のカット点画像clst間を一つのニュース記事として切り
出すのである。
【0067】図16は、図2示すニュース記事切り出し
手順のステップS4において、解析結果統合部6によっ
て行われる図12,図14および図15とは異なるニュ
ース記事切り出し処理動作のフローチャートである。
尚、本ニュース記事切り出し処理動作においては、音声
解析部5によって図11示す無音区間検出検出処理動作
に従って検出された無音区間に基づいて、ニュース記事
を切り出すものである。
【0068】ステップS161で、図11に示す無音区間
検出処理動作によって上記無音区間テーブルに登録され
た上記無音区間の集合Silent:{[si,ei]|i=1,2,
…,Nsilent}が得られる。そして、集合{[si,ei]}の
インデックスiが「1」に初期化されるのである。
【0069】ステップS162で、上記無音区間の終点ei
がニュース記事の始点として設定される。ステップS16
3で、iがインクリメントされる。ステップS164で、無
音区間の始点siがニュース記事の終点として設定され
る。こうして一つのニュース記事が切り出されるのであ
る。ステップS165で、iが最大値「Nsilent」よりも小
さいか否かが判別される。その結果、i<Nsilentであ
れば上記ステップS162に戻って次のニュース記事の切
り出し処理に移行する。一方、i≧Nsilentであればニ
ュース記事切り出し処理動作を終了する。
【0070】上述したように、ニュース映像には「静止
しているニュースキャスタの映像」が存在するのである
が、このニュースキャスタは、次のニュース記事の解説
に入る前に一次的に無言状態となる。そこで、本実施の
形態においては、無音区間の間を一つのニュース記事と
して切り出すのである。
【0071】図17は、図2示すニュース記事切り出し
手順のステップS4において、解析結果統合部6によっ
て行われる図12および図14〜図16とは異なるニュ
ース記事切り出し処理動作のフローチャートである。
尚、本ニュース記事切り出し処理動作においては、上記
カット点画像,テロップフレーム,人物の顔および無音区
間に基づいて、ニュース記事を切り出すものである。
【0072】ステップS171で、図3に示すカット点画
像検出処理動作によって上記カット点画像テーブルに登
録されているカット点画像の集合Cut:{ci|i=1,2,
…,Ncut}が得られる。さらに、図5に示すテロップフ
レーム検出処理動作によって上記テロップフレームテー
ブルに登録されているテロップフレームの集合Telop:
{ti|i=1,2,…,Ntelop}が得られる。更に、図9に
示す人物の顔検出処理動作によって上記顔フレームテー
ブルに登録されたフレームの集合Face:{fi|i=1,
2,…,Nface}⊂Cutが得られる。更に、図11に示す
無音区間検出処理動作によって上記無音区間テーブルに
登録された無音区間の集合Silent:{[si,ei]|i=
1,2,…,Nsilent}が得られる。そして、テロップフレ
ームtiの直前のカット点画像であり且つ顔が検出され
たカット点画像がカット点画像の集合{ci}から抽出さ
れる。
【0073】ステップS172で、図13に示すクラスタ
リング処理動作によってクラスタリングが行われ、第1
クラスタに属するカット点画像の集合Clst:{clsti|i
=1,2,…,Nclst}⊂Face⊂Cutが得られる。ステッ
プS173で、集合{clsti}のインデックスiが「1」に初
期化される。
【0074】ステップS174で、clstiがニュース記事の
仮の始点startとして設定される。ステップS175で、i
がインクリメントされる。ステップS176で、clstiがニ
ュース記事の仮の終点endとして設定される。ステップ
S177で、仮の終点end付近に無音区間が存在するか否か
が判別される。その結果、存在する場合にはステップS
l79に進み、存在しない場合にはステップS178に進む。
ステップSl78で、iが最大値「Nclst」よりも小さいか
否かが判別される。その結果、i<Nclstであれば、上
記ステップS175に戻って仮の終点endの更新が行われ
る。一方、i≧Nclstであれば、ニュース記事切り出し
処理動作を終了する。
【0075】ステップS179で、仮の始点start付近に在
る無音区間終点が検出されて「S」として設定される。ス
テップS180で、仮の終点end付近に在る無音区間始点が
検出されて「E」として設定される。ステップS181で、
区間[S,E]がニュース記事として切り出される。ステ
ップS182で、iが最大値「Nclst」よりも小さいか否か
が判別される。その結果、i<Nclstであれば上記ステ
ップS174に戻って次のニュース記事の切り出し処理に
移行する。一方、i≧Nclstであればニュース記事切り
出し処理動作を終了する。
【0076】上述したように、ニュース映像におけるテ
ロップフレームの直前には「静止しているニュースキャ
スタの映像」という類似している人物の顔の映像が存在
し、この映像がニュース映像と言う動画像全体の中の変
化点となっている。また、上記ニュースキャスタは、次
のニュース記事の解説に入る前に一次的に無言状態とな
る。
【0077】そこで、本実施の形態においては、テロッ
プフレームの直前に在って、且つ、人の顔が検出された
カット点画像の集合に対して、上記類似度を用いたクラ
スタリングを行う。そして、第1クラスタに属する夫々
のカット点画像clstから一つのニュース記事の仮の始点
startと仮の終点endとを求める。そして、上記仮の始点
start付近の無音区間終点Sと仮の終点end付近の無音区
間始点Eとの間を一つのニュース記事として切り出すの
である。
【0078】図18は、上記解析結果統合部6によっ
て、図12,図14〜図17に示すニュース記事切り出
し処理動作が行われるに先立って実行されるCM区間を
除去するCM除去処理動作のフローチャートである。但
し、図18に示すCM除去処理動作のフローチャート
は、15秒間のCMを検出除去するものである。したが
って、30秒間のCMを検出除去する場合には、図18
に示すCM除去処理動作のフローチャート中における数
字「15」を「30」に変更すればよい。
【0079】ステップS191で、開始カット点画像番号s
tartが「0」に初期化される。ステップS192で、カット
点画像間累積時間intervalが「0」に初期化され、終了カ
ット点画像番号endが「start+1」に初期化される。ステ
ップS193で、図3に示すカット点画像検出処理動作に
よって検出されたカット点画像に間して、「end−1」番目
のカット点画像と「end」番目のカット点画像との間(カ
ット点画像間[end−1,end])の時間が取得されて、カ
ット点画像間累積時間intervalに加算される。ステップ
S194で、カット点画像間累積時間intervalが「15」で
あるか否かが判別される。その結果、interval=15で
あればステップS195に進み、そうでなければステップ
S197に進む。
【0080】ステップS195で、当該カット点画像間[en
d−1,end]がCM区間と判定されて映像データが削除さ
れる。そして、開始カット点画像番号startが「end」に更
新される。こうすることによって、以降のニュース記事
切り出し処理動作等においては、CM区間が処理対象か
ら外されることになる。
【0081】ステップS196で、上記開始カット点画像
番号startが「総カット点画像数N−1」よりも小さいか
否かが判別される。その結果、start<(N−1)であれ
ば、上記ステップS192に戻って次のCMの検出処理に
移行する。一方、start≧(N−1)であればCM除去処
理動作を終了する。
【0082】ステップS197で、上記開始カット点画像
番号startが、「総カット点画像数N−1」よりも小さい
か否かが判別される。その結果、start<(N−1)であ
ればステップS198に進み、start≧(N−1)であればC
M除去処理動作を終了する。ステップS198で、上記カ
ット点画像間累積時間intervalが「15」以上であるか否
かが判別される。その結果、interval≧15である場合
にはステップS200に進み、interval<15である場合
にはステップS199に進む。ステップSl99で、終了カッ
ト点画像番号endがインクリメントされる。そうした
後、上記ステップSl93に戻って当該CMの検出処理が
続行される。ステップS200で、上記開始カット点画像
番号startがインクリメントされる。そうした後、上記
ステップS192に戻って、次のCMの検出処理に移行す
る。そして、上記ステップS196,S197において、start
≧(N−1)であると判別されるとCM除去処理動作を終
了する。
【0083】このように、本実施の形態においては、図
3に示すカット点画像検出処理動作によって検出された
カット点画像に間して、先頭から順次カット点画像間の
累積時間を取得する。そして、カット点画像間累積時間
が15秒になった場合には、そのカット点画像間はCM
区間であるとしてその間の映像を削除する。そうするこ
とによって、以後のニュース記事切り出し処理等におい
て、CM区間を処理対象から外すことができるのであ
る。
【0084】尚、本実施の形態においては、上述の方法
によってCMを検出したが、他の方法によってCM検出
を行なっても一向に構わない。
【0085】上述のように、本実施の形態においては、
映像分離部2によって、入力映像を動画像部分と音声部
分に分離する。そして、動画像解析部4によって上記動
画像が解析され、音声解析部5によって上記音声が解析
される。
【0086】その場合における動画像の解析は、 (1) 現フレームの色相ヒストグラムhist1が、直前フレ
ームの色相ヒストグラムhist2に対して閾値TH以上変
化した場合には、現フレームをカット点画像として検出
する。 (2) 両隣画素のV値の差の絶対値を画素値とするエッ
ジ画像edge1のy軸への投影ヒストグラムおよびx軸へ
の投影ヒストグラムに山が在る場合には、現フレームを
テロップフレームとして検出する。 (3) 入力画像を類似色の領域に分割して特微量を抽出
し、各領域の特徴量に基づいて上記状態遷移モデルにし
たがって各領域の状態の遷移を繰り返す。そして、最終
的に状態ラベルfaceを持つ領域が存在する場合には、人
物の顔を検出したと判断する。
【0087】また、上記音声の解析は、 (4) 音声区間[sp,ep]におけるパワーpの分散値Varが
閾値THより小さく、直前区間が無音区間でなければ無
音区間の始端startに「sp」を設定する一方、上記直前区
間が無音区間であれば無音区間の終端endに「ep」を設定
する。そして、次に上記分散値Varが閾値TH以上にな
ると、区間[start,end]を無音区間として検出する。
【0088】そして、上記動画像解結果および音声解析
結果に基づいて、解析結果統合部6によって、以下の方
法によってニュース記事を切り出す。
【0089】(A) 総てのカット点画像間の類似度Simi
lar(i,j)が閾値THより大きい頻度を表す頻度ヒスト
グラムHist[i],Hist[j]を求め、最大頻度位置Maxを
含むようにクラスタリングを行う。そして、第1クラス
タに属する夫々のカット点画像clst間を一つのニュース
記事として切り出す。
【0090】したがって、上記色相ヒストグラムの変化
点であるカット点画像(ニュースキャスタの画像)に基づ
いて、ニュース映像からニュース記事を切り出すことが
できる。
【0091】(B) テロップフレームの直前に在るカッ
ト点画像の集合に対して、上記類似度を用いたクラスタ
リングを行う。そして、第1クラスタに属する夫々のカ
ット点画像clst間を一つのニュース記事として切り出
す。
【0092】したがって、上記カット点画像(ニュース
キャスタの画像)とテロップフレームとに基づいて、ニ
ュース映像から更に精度よくニュース記事を切り出すこ
とができる。
【0093】(C) テロップフレームの直前に在って、
且つ、顔が検出されたカット点画像の集合に対して、上
記類似度を用いたクラスタリングを行う。そして、第1
クラスタに属する夫々のカット点画像clst間を一つのニ
ュース記事として切り出す。
【0094】したがって、上記テロップフレームと顔が
検出されたカット点画像(ニュースキャスタの画像)とに
基づいて、ニュース映像から更に精度よくニュース記事
を切り出すことができる。
【0095】(D) 無音区間の間を一つのニュース記事
として切り出す。したがって、音声情報(ニュースキャ
スタの無言区間)に基づいて、ニュース映像からニュー
ス記事を切り出すことができる。
【0096】(E) テロップフレームの直前に在って、
且つ、顔が検出されたカット点画像の集合に対して、上
記類似度を用いたクラスタリングを行う。そして、第1
クラスタに属する夫々のカット点画像clstから一つのニ
ュース記事の仮の始点startと仮の終点endとを求める。
そして、仮の始点start付近の無音区間終点Sと仮の終
点end付近の無音区間始点Eとの間を一つのニュース記
事として切り出す。
【0097】したがって、上記テロップフレームと顔が
検出されたカット点画像(ニュースキャスタの画像)と音
声情報(ニュースキャスタの無言区間)とに基づいて、ニ
ュース映像から更に精度よくニュース記事を切り出すこ
とができる。
【0098】さらに、上記解析結果統合部6は、上述の
ようなニュース記事切り出し処理を行うに先立って、上
記カット点画像の列から累積時間が15秒になるカット
点画像間を検索し、累積時間が15秒であるカット点画
像間をCMと確定して削除する。したがって、以後のニ
ュース記事切り出し処理等において、上記CM区間を処
理対象から外すことができるのである。
【0099】尚、この発明のニュース記事切り出し装置
においては、上記色相ヒストグラムの変化点であるカッ
ト点画像に基づくニュース記事切り出し方法、上記カッ
ト点画像とテロップフレームとに基づくニュース記事切
り出し方法、上記テロップフレームと顔が検出されたカ
ット点画像とに基づくニュース記事切り出し方法、音声
情報(無音区間)に基づくニュース記事切り出し方法、上
記テロップフレームと顔が検出されたカット点画像と音
声情報(無音区間)とに基づくニュース記事切り出し方法
の総てが実現可能な構成を有する必要は無い。上記各ニ
ュース記事切り出し方法から適宜選択すればよい。
【0100】
【発明の効果】以上より明らかなように、第1の発明の
ニュース記事切り出し装置は、映像分離手段によってニ
ュース映像を動画部分と音声部分とに分離し、この分離
された動画からカット点画像検出手段によってカット点
画像(動画の変化点)を検出し、類似度算出手段によって
上記カット点画像間の類似度を算出し、記事切り出し手
段によって、類似度の高いカット点画像の間を記事とし
て切り出すので、ニュース映像を構成する類似している
動画の変化点の位置でニュース記事を切り出すことがで
きる。
【0101】すなわち、この発明によれば、一つのニュ
ース記事が終了して、上記動画像がニュースキャスタの
映像等に切り変った時点を的確に検出して、ニュース記
事を正しく切り出すことができるのである。
【0102】また、第2の発明のニュース記事切り出し
装置は、映像分離手段によってニュース映像を動画部分
と音声部分とに分離し、この分離された動画からカット
点画像検出手段によってカット点画像(動画の変化点)を
検出し、テロップ検出手段によってテロップを検出し、
類似度算出手段によって上記テロップの直前に位置する
カット点画像間の類似度を算出し、記事切り出し手段に
よって、上記テロップの直前に位置するカット点画像の
うち類似度の高いカット点画像の間を記事として切り出
すので、上記ニュース映像を構成する動画の変化点の位
置であって、テロップの直前に在る類似している動画の
変化点の位置で、ニュース記事を切り出すことができ
る。
【0103】すなわち、この発明によれば、テロップの
映像を参照して、上記動画像がニュースキャスタの映像
等に切り変った時点をより的確に検出して、ニュース記
事を更に正しく切り出すことができるのである。
【0104】また、第3の発明のニュース記事切り出し
装置は、映像分離手段によってニュース映像を動画部分
と音声部分とに分離し、この分離された動画からカット
点画像検出手段によってカット点画像(動画の変化点)を
検出し、テロップ検出手段によってテロップを検出し、
顔検出手段によって顔の画像を検出し、類似度算出手段
によって上記テロップの直前に位置して顔が映っている
カット点画像間の類似度を算出し、記事切り出し手段に
よって、上記テロップの直前に位置して顔が映っている
カット点画像のうち類似度の高いカット点画像の間を記
事として切り出すので、ニュース映像を構成する動画の
変化点の位置であって、テロップの直前に在る類似して
いる人物の顔が映っている動画の変化点の位置で、ニュ
ース記事を切り出すことができる。
【0105】すなわち、この発明によれば、テロップの
映像を参照して、上記動画像が人物の映像、すなわちニ
ュースキャスタの映像に切り変った時点を更に的確に検
出して、ニュース記事を更に正しく切り出すことができ
るのである。
【0106】また、第4の発明のニュース記事切り出し
装置は、映像分離手段によってニュース映像を動画部分
と音声部分とに分離し、この分離された音声から無音検
出手段によって無音部分を検出し、記事切り出し手段に
よって、上記無音部分の間を記事として切り出すので、
次のニュース記事の開始の前に上記ニュースキャスタが
無言状態になった時点を検出して、ニュース記事を正し
く切り出すことができる。
【0107】また、第5の発明のニュース記事切り出し
装置は、映像分離手段によってニュース映像を動画部分
と音声部分とに分離し、この分離された動画からカット
点画像検出手段によってカット点画像(動画の変化点)を
検出し、テロップ検出手段によってテロップを検出し、
顔検出手段によって顔の画像を検出し、上記分離された
音声から無音検出手段によって無音部分を検出し、類似
度算出手段によって、上記テロップの直前に位置して人
物の顔が映っているカット点画像間の類似度を算出し、
記事切り出し手段によって、上記テロップの直前に位置
して顔が映っている類似度の高いカット点画像を選出
し、この選出カット点画像近傍に在る無音部分の間を記
事として切り出すので、テロップの直前に在る類似して
いる人物の顔が映っている動画の変化点の位置の近傍の
無音部分間で、ニュース記事を切り出すことができる。
【0108】すなわち、この発明によれば、テロップの
映像を参照して、上記動画像が人物の映像、すなわちニ
ュースキャスタの映像に切り変った時点であって、且
つ、次のニュース記事の開始前に上記ニュースキャスタ
が無言状態になった時点を的確に検出して、ニュース記
事を更に正しく切り出すことができるのである。
【0109】また、上記第1乃至第5の発明のニュース
記事切り出し装置は、上記記事の切り出しに先立って、
上記検出された各カット点画像間のうちCMに該当する
カット点画像間を検出して除去するCM除去手段を備え
れば、CM区間のニュース映像を事前に除去できる。し
たがって、以後に行われる上記記事切り出し手段による
記事切り出しの際にはニュース記事のみを切り出すこと
ができ、誤検出を低減した精度の高いニュース記事切り
出しが可能になるのである。
【図面の簡単な説明】
【図1】 この発明のニュース記事切り出し装置のブロ
ック図である。
【図2】 図1に示すニュース記事切り出し装置によっ
て実行されるニュース記事切り出し手順の概略を示すフ
ローチャートである。
【図3】 図2における動画像解析時に行われるカット
点画像検出処理動作のフローチャートである。
【図4】 図3に示すカット点画像検出処理動作におい
て実行される色相ヒストグラム生成処理動作のフローチ
ャートである。
【図5】 図2における動画像解析時に行われるテロッ
プフレーム検出処理動作のフローチャートである。
【図6】 テロップの候補領域と投影ヒストグラムの山
との関係を示す図である。
【図7】 図5示すテロップフレーム検出処理動作にお
いて実行されるエッジ画像生成処理動作のフローチャー
トである。
【図8】 図5示すテロップフレーム検出処理動作にお
いて実行される投影ヒストグラム生成処理動作のフロー
チャートである。
【図9】 図2における動画像解析時に行われる人物の
顔検出処理動作のフローチャートである。
【図10】 状態遷移モデルの一例を示す図である。
【図11】 図2における音声解析時に行われる無音区
間検出処理動作のフローチャートである。
【図12】 図1における解析結果統合部によって行わ
れるニュース記事切り出し処理動作のフローチャートで
ある。
【図13】 図12に示すニュース記事切り出し処理動
作において実行されるクラスタリング処理動作のフロー
チャートである。
【図14】 図12とは異なるニュース記事切り出し処
理動作のフローチャート図である。
【図15】 図12および図14とは異なるニュース記
事切り出し処理動作のフローチャートである。
【図16】 図12,図14および図15とは異なるニ
ュース記事切り出し処理動作のフローチャートである。
【図17】 図12および図14〜図16とは異なるニ
ュース記事切り出し処理動作のフローチャートである。
【図18】 図1における解析結果統合部によって実行
されるCM除去処理動作のフローチャートである。
【符号の説明】
1…A/D変換部、 2…映像分離部、 3…メモリ、 4…動画像解析部、 5…音声解析部、 6…解析結果統合部、 7…映像蓄積部。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B050 BA06 BA12 EA08 EA09 EA18 5B057 CA01 CA08 CA12 CA16 CB01 CB08 CB12 CB16 CE09 DA06 DB02 DB06 DB09 DC14 DC16 DC25 DC36 5L096 AA02 AA06 GA34 GA41 9A001 HH28 HH30

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 映像入力手段と、 上記映像入力手段によって入力されたニュース映像を音
    声と動画とに分離する映像分離手段と、 上記映像分離手段によって分離された動画から、動画の
    変化点であるカット点画像を検出するカット点画像検出
    手段と、 上記カット点画像間の類似度を算出する類似度算出手段
    と、 類似度の高いカット点画像の間を記事として切り出す記
    事切り出し手段を備えたことを特徴とするニュース記事
    切り出し装置。
  2. 【請求項2】 映像入力手段と、 上記映像入力手段によって入力されたニュース映像を音
    声と動画とに分離する映像分離手段と、 上記映像分離手段によって分離された動画から、動画の
    変化点であるカット点画像を検出するカット点画像検出
    手段と、 上記分離された動画からテロップを検出するテロップ検
    出手段と、 上記テロップ検出手段によって検出されたテロップの直
    前に位置するカット点画像間の類似度を算出する類似度
    算出手段と、 上記テロップの直前に位置するカット点画像のうち類似
    度の高いカット点画像の間を記事として切り出す記事切
    り出し手段を備えたことを特徴とするニュース記事切り
    出し装置。
  3. 【請求項3】 映像入力手段と、 上記映像入力手段によって入力されたニュース映像を音
    声と動画とに分離する映像分離手段と、 上記映像分離手段によって分離された動画から、動画の
    変化点であるカット点画像を検出するカット点画像検出
    手段と、 上記分離された動画からテロップを検出するテロップ検
    出手段と、 上記分離された動画から顔の画像を検出する顔検出手段
    と、 上記カット点画像のうち、上記テロップ検出手段によっ
    て検出されたテロップの直前に位置して顔が映っている
    カット点画像間の類似度を算出する類似度算出手段と、 上記テロップの直前に位置して顔が映っているカット点
    画像のうち類似度の高いカット点画像の間を記事として
    切り出す記事切り出し手段を備えたことを特徴とするニ
    ュース記事切り出し装置。
  4. 【請求項4】 映像入力手段と、 上記映像入力手段によって入力されたニュース映像を音
    声と動画とに分離する映像分離手段と、 上記映像分離手段によって分離された音声から無音部分
    を検出する無音検出手段と、 無音部分の間を記事として切り出す記事切り出し手段を
    備えたことを特徴とするニュース記事切り出し装置。
  5. 【請求項5】 映像入力手段と、 上記映像入力手段によって入力されたニュース映像を音
    声と動画とに分離する映像分離手段と、 上記映像分離手段によって分離された動画から、動画の
    変化点であるカット点画像を検出するカット点画像検出
    手段と、 上記分離された動画からテロップを検出するテロップ検
    出手段と、 上記分離された動画から顔の画像を検出する顔検出手段
    と、 上記カット点画像のうち、上記テロップ検出手段によっ
    て検出されたテロップの直前に位置して顔が映っている
    カット点画像間の類似度を算出する類似度算出手段と、 上記映像分離手段によって分離された音声から無音部分
    を検出する無音検出手段と、 上記テロップの直前に位置して顔が映っているカット点
    画像のうち類似度の高いカット点画像を選出し、この選
    出カット点画像近傍に在る無音部分の間を記事として切
    り出す記事切り出し手段を備えたことを特徴とするニュ
    ース記事切り出し装置。
  6. 【請求項6】 請求項1乃至請求項5の何れか一つに記
    載のニュース記事切り出し装置において、 上記記事切り出し手段によって記事を切り出すに先立っ
    て、上記カット点画像検出手段によって検出された各カ
    ット点画像間のうち、コマーシャルメッセージに該当す
    るカット点画像間を検出して除去するコマーシャルメッ
    セージ除去手段を備えたことを特徴とするニュース切り
    出し装置。
JP30538099A 1999-10-27 1999-10-27 ニュース記事切り出し装置 Expired - Fee Related JP4253410B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30538099A JP4253410B2 (ja) 1999-10-27 1999-10-27 ニュース記事切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30538099A JP4253410B2 (ja) 1999-10-27 1999-10-27 ニュース記事切り出し装置

Publications (2)

Publication Number Publication Date
JP2001126050A true JP2001126050A (ja) 2001-05-11
JP4253410B2 JP4253410B2 (ja) 2009-04-15

Family

ID=17944433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30538099A Expired - Fee Related JP4253410B2 (ja) 1999-10-27 1999-10-27 ニュース記事切り出し装置

Country Status (1)

Country Link
JP (1) JP4253410B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003087728A (ja) * 2001-06-26 2003-03-20 Pioneer Electronic Corp 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
JP2005237001A (ja) * 2004-02-20 2005-09-02 Samsung Electronics Co Ltd アンカーショット検出方法及び装置
US7784083B2 (en) 2003-07-08 2010-08-24 Panasonic Corporation Receiving/generating section information for multimedia contents based on level of performance
US7941031B2 (en) 2003-07-03 2011-05-10 Panasonic Corporation Video processing apparatus, IC circuit for video processing apparatus, video processing method, and video processing program
US8036261B2 (en) 2004-11-10 2011-10-11 Kabushiki Kaisha Toshiba Feature-vector generation apparatus, search apparatus, feature-vector generation method, search method and program
JP2015015033A (ja) * 2010-07-08 2015-01-22 スピネラ アイピー ホールディングス,インコーポレーテッド ビデオシーケンスにおけるショットチェンジ検出のためのシステム及び方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625050B (zh) * 2011-01-26 2014-04-16 天脉聚源(北京)传媒科技有限公司 一种电视新闻编辑方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003087728A (ja) * 2001-06-26 2003-03-20 Pioneer Electronic Corp 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
JP4546682B2 (ja) * 2001-06-26 2010-09-15 パイオニア株式会社 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
US7941031B2 (en) 2003-07-03 2011-05-10 Panasonic Corporation Video processing apparatus, IC circuit for video processing apparatus, video processing method, and video processing program
US7784083B2 (en) 2003-07-08 2010-08-24 Panasonic Corporation Receiving/generating section information for multimedia contents based on level of performance
JP2005237001A (ja) * 2004-02-20 2005-09-02 Samsung Electronics Co Ltd アンカーショット検出方法及び装置
KR100763899B1 (ko) 2004-02-20 2007-10-05 삼성전자주식회사 앵커 샷 검출 방법 및 장치
US8036261B2 (en) 2004-11-10 2011-10-11 Kabushiki Kaisha Toshiba Feature-vector generation apparatus, search apparatus, feature-vector generation method, search method and program
JP2015015033A (ja) * 2010-07-08 2015-01-22 スピネラ アイピー ホールディングス,インコーポレーテッド ビデオシーケンスにおけるショットチェンジ検出のためのシステム及び方法

Also Published As

Publication number Publication date
JP4253410B2 (ja) 2009-04-15

Similar Documents

Publication Publication Date Title
EP1146478B1 (en) A method for extracting titles from digital images
US20060008147A1 (en) Apparatus, medium, and method for extracting character(s) from an image
US20050201619A1 (en) Video text processing apparatus
JP3692018B2 (ja) テロップ情報処理装置
CN112633241B (zh) 一种基于多特征融合和随机森林模型的新闻故事分割方法
CN112818951A (zh) 一种票证识别的方法
JP2003030672A (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
JP2005148987A (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
CN111723852B (zh) 针对目标检测网络的鲁棒训练方法
JP2001126050A (ja) ニュース記事切り出し装置
CN113191216A (zh) 基于姿态识别和c3d网络的多人实时动作识别方法和系统
CN112418220A (zh) 一种单字检测方法、装置、设备及介质
CN111709324A (zh) 一种基于时空一致性的新闻视频拆条方法
JPH10222678A (ja) 物体検出装置および物体検出方法
KR100449486B1 (ko) 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법
JP2003044860A (ja) 映像オブジェクト追跡装置
KR102297103B1 (ko) 3차원 장면 그래프 생성 방법 및 장치
JP2002279345A (ja) 画像処理装置、画像処理方法及び該方法を実行するためのプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP4199594B2 (ja) オブジェクト識別装置およびそのプログラムとそのプログラムを記録した記録媒体
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法
CN115115818A (zh) 基于孪生网络和图像特征匹配的字幕识别方法及系统
JPH0785221A (ja) 図面自動認識装置の文字とシンボルの分離・認識方法
CN118132820A (zh) 一种多模态视频内容分析方法及分析系统
CN117765520A (zh) 一种高效准确的歧义场景文字检测方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090126

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120130

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees