JP3024574B2 - 動画像検索装置 - Google Patents

動画像検索装置

Info

Publication number
JP3024574B2
JP3024574B2 JP8313267A JP31326796A JP3024574B2 JP 3024574 B2 JP3024574 B2 JP 3024574B2 JP 8313267 A JP8313267 A JP 8313267A JP 31326796 A JP31326796 A JP 31326796A JP 3024574 B2 JP3024574 B2 JP 3024574B2
Authority
JP
Japan
Prior art keywords
subtitle
frame
caption
extracting
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8313267A
Other languages
English (en)
Other versions
JPH10154148A (ja
Inventor
康弘 菊池
伸 山田
章喜 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP8313267A priority Critical patent/JP3024574B2/ja
Priority to US08/976,013 priority patent/US6219382B1/en
Publication of JPH10154148A publication Critical patent/JPH10154148A/ja
Application granted granted Critical
Publication of JP3024574B2 publication Critical patent/JP3024574B2/ja
Priority to US09/628,341 priority patent/US6301302B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、動画像の中から字
幕が現れているフレーム区間を検出し、その区間の代表
画像を一覧表示することにより所望のシーンを簡単に検
索するための動画像検索装置に関するものである。
【0002】
【従来の技術】近年、動画像中に現れる字幕を自動検出
し、字幕の現れているシーンの代表画像を抽出して一覧
表示することにより、所望のシーンを探し出す動画像検
索装置が検討されている。このような動画像検索装置
は、例えば特開平7−192003号公報に開示されて
いる。以下、従来の動画像検索装置において最も重要な
字幕検出部について説明する。
【0003】図14に字幕検出部の構成を示す。140
1は輝度判定部であり、フレーム画像データを入力して
高輝度画素を抽出する。1402は輝度差判定部であ
り、輝度判定部1401で抽出された画素の輝度を近傍
の画素と比較し、輝度差の高い画素を抽出する。140
3はフレーム照合部であり、輝度差判定部1402で抽
出された画素が一定時間同一位置にあるかどうかを判定
する。1404は字幕領域抽出部であり、フレーム照合
部1403で一定時間同一位置にあると判定された字幕
の候補画素の分布を調べ、字幕であるかどうかを判定す
る。1405は閾値管理部であり、上記の抽出、判定処
理を行うための閾値を設定する。
【0004】以下、図15のフローチャートを用い、従
来の字幕検出部の処理を詳細に説明する。まず最初にフ
レーム番号tを0に初期化する(1500)。次に、w
×h画素(w、hは整数)のフレーム画像データを入力
する(1501)。フレーム番号tに対するw×hの3
次元配列E(x,y,t)を用意する(1502)。
【0005】入力したフレーム画像データの各画素につ
いて、その画素が字幕を形成する画素の1つになってい
るかどうかを判定するため、次の処理(1503〜15
12)を行う。 (1)輝度が閾値th1以上かどうかを判定する(15
04)。閾値以上であれば1505に進む。そうでなけ
れば字幕と無関係の画素なので、現在の座標に対応する
配列Eに0を代入する(1508)。 (2)8近傍の画素と現在の画素との間でそれぞれ輝度
差を求め、閾値th2以上のものがあるかどうか調べる
(1505)。もし1つでもあれば1506に進み、な
ければ1508に進む。 (3)輝度差が8近傍の画素全てで閾値を超えているか
を判定する(1506)。全てで閾値を超えている場
合、その画素はノイズである可能性が高いので、字幕と
無関係な画素として1508に進む。そうでなければ字
幕を形成する画素の1つであるとして現在の座標に対応
する配列Eに1を代入する(1507)。 (4)現在座標を示す変数x、yを1ずつ増加させ、全
ての画素について(1)〜(3)の処理を行う(150
9〜1512)。
【0006】次に、一定時間同じ位置に文字が存在して
いるかどうかを判定する。上記の処理によって得られた
nフレーム分の配列Eについて論理積をとる。具体的に
は、各配列のそれぞれ同じ座標に対応するデータを比較
し、それらが全て1であれば1を2次元配列E’(x,
y)に代入する。1つでも0があった場合には0を配列
E’(x,y)に代入する(1513)。
【0007】上記の処理が完了した時点で字幕の一部と
目されている画素が密集して存在しているかどうかを判
定する。すなわち、y方向についてyがiでE’(x,
y)の値が1であるものの数をカウントし、ヒストグラ
ムHy(i)を作成する(1514)。もし、ヒストグ
ラムの各度数のうち、閾値th3を越えているものがあ
れば(1515)その度数に対応する行に字幕が現れて
いる。E’(x,y)は論理積の結果なので、nフレー
ム前のフレームに字幕が現れていると判断し字幕検出処
理1516を実行する。
【0008】字幕検出処理1516の詳細を図16に示
す。ヒストグラムの度数が閾値th3を越えてピークと
なっている行が複数あり、それらのピークに挟まれた行
に十分な度数がない場合には複数の字幕が現れていると
見なし、それらの字幕の数を求めてLnに代入する(1
601)。全ての字幕について1602〜1610の処
理を行う。Lnはループカウンタとして用いられ、1つ
の字幕の処理が完了する毎に1ずつ減り(1608)、
0になるまでループする(1610)。1602は、閾
値th3を越えている行が連続する部分を検出し、その
区間を求めて開始行のy座標をyo、終了行のy座標を
ycに代入する。次に、yがyoからycの間でE’
(x,y)が1の数をカウントしてヒストグラムH’x
(i)を作成し(1603)、そのヒストグラム中で度
数が閾値th4を越えている部分を抽出する。そして、
その開始列のx座標をxoに、終了列のx座標をxcに
代入する(1604)。(xo,yo)及び(xc,y
c)によって示される矩形領域を字幕の存在領域とす
る。
【0009】フレーム番号tー1において、矩形領域
(xo,yo)−(xc,yc)に字幕があると判定さ
れていた場合、以前から現れていた字幕として特別な処
理はしない(1606)。字幕がなかった場合には新規
にnフレーム前に字幕が現れたと判定する。検出された
字幕は常に監視され、検出されなくなったフレーム番号
から1を引いた番号をその字幕の終了フレームとし、矩
形領域(xo,yo)−(xc,yc)のE’(x,
y)の値を0にする。
【0010】
【発明が解決しようとする課題】以上のように従来の技
術では字幕のエッジの画素が一定時間全く同じ位置に存
在することを仮定し、そのような画素の数が閾値を越え
たとき字幕が存在すると判断している。しかし、実際に
はノイズの影響により字幕のエッジの画素の位置はフレ
ーム毎に多少変動する。したがって、ノイズが多い場合
には一定時間同じ位置に存在する字幕のエッジの画素数
が閾値よりも少なくなるため、字幕が存在しないと誤っ
て判断されてしまう。
【0011】本発明は字幕の検出精度を向上させ、より
効率良く所望のシーンが検索できるだけでなく、高速に
字幕が検出できる動画像検索装置を提供することを目的
とする。
【0012】
【課題を解決するための手段】本発明の動画像検索装置
は、画像データをフレーム単位で入力し、フレームを複
数のブロックに分割して、輝度値が閾値以上である画素
を字幕画素としてブロック毎に計数する字幕画素カウン
ト手段と、当該フレームと前フレームの2枚のフレーム
間で同一位置にあるブロックの上記字幕画素の数を判定
して字幕ブロックを抽出する字幕ブロック抽出手段と、
横方向または縦方向に連続する上記字幕ブロックを字幕
領域として抽出する字幕領域抽出手段と、上記字幕領域
抽出手段により字幕領域が抽出されたフレームの区間を
検出し、その区間から字幕を含むフレームを字幕フレー
ムとして抽出する字幕フレーム抽出手段と、上記字幕フ
レーム抽出手段により抽出された字幕フレームの代表画
像を表示する画像表示手段を備えたものである。本発明
によれば、ブロック単位で字幕が存在するかどうか判定
できるので、ノイズによって字幕画素の位置が多少変動
しても字幕を検出することができる。また、ブロック単
位で字幕を検出することにより、少ない演算量で処理す
ることができる。したがって、字幕の検出精度が向上す
るので、より効率良く所望のシーンが検索でき、字幕の
検出も高速に行うことができる動画像検索装置が得られ
る。
【0013】
【発明の実施の形態】本発明の請求項1に記載の発明
は、画像データをフレーム単位で入力し、フレームを複
数のブロックに分割して、輝度値が閾値以上である画素
を字幕画素としてブロック毎に計数する字幕画素カウン
ト手段と、当該フレームと前フレームの2枚のフレーム
間で同一位置にあるブロックの上記字幕画素の数を判定
して字幕ブロックを抽出する字幕ブロック抽出手段と、
横方向または縦方向に連続する上記字幕ブロックを字幕
領域として抽出する字幕領域抽出手段と、上記字幕領域
抽出手段により字幕領域が抽出されたフレームの区間を
検出し、その区間から字幕を含むフレームを字幕フレー
ムとして抽出する字幕フレーム抽出手段と、上記字幕フ
レーム抽出手段により抽出された字幕フレームの代表画
像を表示する画像表示手段を備えたものであり、ブロッ
ク毎に字幕が存在するかどうかを判定し、字幕が存在す
ると判定されたブロックが横方向または縦方向に連続す
るかどうかを判定するので、字幕を精度良く、高速に検
出することができるという作用を有する。
【0014】本発明の請求項に記載の発明は、請求項
1乃至4のいずれかに記載の動画像検索装置において、
字幕ブロック抽出手段が、上記字幕画素カウント手段か
ら出力される字幕画素の数を格納するメモリを備え、上
記メモリから2枚のフレームで同一位置にあるブロック
の字幕画素の数を読み取り、上記字幕画素の数が両方と
も閾値以上になるときに、上記同一位置にあるブロック
を字幕ブロックとして抽出することを特徴とするもので
あり、ブロック毎に前フレームと現フレームとのカウン
ト数を比較することによって、字幕画素が安定して存在
しているかどうか判定することができる。したがって、
字幕画素の数だけで字幕を検出するよりも精度が向上す
るという作用を有する。
【0015】
【0016】本発明の請求項に記載の発明は、請求項
1記載の動画像検索装置において、予めフレームを複数
のセグメントに分割しておき、上記字幕フレーム抽出手
段により抽出された字幕フレーム全てについて、セグメ
ント毎に上記字幕領域抽出手段で抽出された字幕領域を
含むフレーム数をカウントし、カウント数が最も多いセ
グメントで字幕領域が抽出された字幕フレームを代表画
像として抽出する代表フレーム抽出手段を備えたもので
あり、すべての字幕フレームを通して字幕領域が最も多
く抽出された位置を調べることにより、重要な字幕が含
まれている確率が高いフレームのみを自動的に抽出する
ことができるという作用を有する。
【0017】
【0018】以下、本発明の実施の形態について、図1
から図13を用いて説明する。 (実施の形態1)図1は実施の形態1の動画像検索装置
の構成である。図1において、101は動画像の画像デ
ータをフレーム単位で入力する入力端子である。102
は入力端子101から入力した画像データの輝度値が第
2の閾値以上である画素を字幕画素とし、その数をブロ
ック毎にカウントする字幕画素カウント手段である。1
03は字幕画素カウント手段102から出力されたカウ
ント数が第1の閾値以上であるブロックを字幕ブロック
として抽出する字幕ブロック抽出手段である。104は
字幕ブロック抽出手段103により字幕ブロックが抽出
されたフレームの区間を検出し、その区間から字幕を含
むフレームを字幕フレームとして抽出する字幕フレーム
抽出手段である。105は入力端子101から入力した
動画像の画像データと字幕フレーム抽出手段104によ
り抽出された字幕フレームの画像データを蓄積する画像
情報記憶手段である。106は画像情報記憶手段105
に蓄積された字幕フレームの画像を一覧表示すると共に
画像情報記憶手段105に蓄積された動画像を再生する
画像表示手段である。107は字幕フレームの画像デー
タ、または画像表示手段106で選択された字幕フレー
ムに対応するフレームからの動画像の画像データを画像
情報記憶手段105に出力させる字幕情報管理手段であ
る。
【0019】以下、図1の動画像検索装置の動作を説明
する。字幕画素カウント手段102は、入力端子101
から入力したw×h画素(w、hは整数)のフレーム画
像において、輝度値が第2の閾値以上の画素を字幕画素
とし、その数をm×n画素(m、nは整数)のブロック
毎にカウントして字幕ブロック抽出手段103に出力す
る。字幕ブロック抽出手段103は、字幕画素カウント
手段102から出力されたカウント数が第1の閾値以上
のブロックを1とし、それ以外のブロックを0とする二
値画像を作成し、字幕フレーム抽出手段104に出力す
る。字幕フレーム抽出手段104は、字幕ブロック抽出
手段103から出力された二値画像を用いて字幕が存在
するフレームの区間を検出し、その区間の開始フレーム
を字幕フレームとして抽出する。
【0020】ここで、字幕フレーム抽出手段104につ
いて図2を用いて説明する。図2は字幕フレーム抽出手
段の構成である。図2において、201は字幕ブロック
抽出手段103から出力された二値画像を記憶する二値
画像記憶手段である。202は二値画像記憶手段201
に記憶された前フレームの二値画像と字幕ブロック抽出
手段103から出力される現フレームの二値画像を用い
て字幕が存在するフレームの区間を検出する字幕フレー
ム区間検出手段である。203は入力端子101から入
力した現フレームの画像データを記憶するフレームメモ
リである。
【0021】以下、図2の字幕フレーム抽出手段の動作
を説明する。字幕フレーム区間検出手段202は、二値
画像記憶手段201に記憶された前フレームの二値画像
に1が存在せず、字幕ブロック抽出手段103から出力
された現フレームの二値画像に1が存在していれば、現
フレームで新規に字幕が現れたと判断し、現フレームの
フレーム番号を字幕開始フレーム番号として字幕情報管
理手段107に出力すると共にフレームメモリ203に
記憶しておいた現フレームの画像データを字幕フレーム
の画像データとして画像情報記憶手段105に出力させ
る。また、二値画像記憶手段201に記憶された前フレ
ームの二値画像に1が存在し、字幕ブロック抽出手段1
03から出力された現フレームの二値画像に1が存在し
ていなければ、字幕が消えたと判断し、前フレームのフ
レーム番号を字幕終了フレーム番号として字幕情報管理
手段107に出力する。その他の場合は字幕が連続して
現れているか連続して現れていない状態なので、字幕フ
レーム区間検出手段202は何も処理しない。
【0022】画像情報記憶手段105は、入力端子10
1から入力した動画像の画像データを蓄積すると共に、
字幕フレーム抽出手段104から出力された字幕フレー
ムの画像データを記憶する。また、字幕情報管理手段1
07からの命令により字幕フレームの画像データを画像
表示手段106に出力したり、字幕情報管理手段107
により指定されたフレームからの動画像の画像データを
画像表示手段106に出力する。画像表示手段106
は、画像情報記憶手段105に蓄積された字幕フレーム
の画像を一覧表示し、その中から選択された字幕フレー
ムに対応するフレームから画像情報記憶手段105に蓄
積された動画像を再生する。
【0023】ここで、画像表示手段106の動作を図3
を用いて説明する。図3は画像表示手段としてのコンピ
ュータディスプレイであり、ディスプレイ上の各ウイン
ドウはマウスカーソル301によって操作することがで
きる。302は字幕フレームの表示や動画像の再生を制
御するコントロールウインドウである。303は字幕フ
レームウインドウであり、画像情報記憶手段105に記
憶されている字幕フレームを一覧表示する。304を用
いて次ページあるいは前ページのボタンをクリックする
と、次ページあるいは前ページの字幕フレームを表示す
るように字幕情報管理手段107に命令が送られる。そ
うすると画像情報記憶手段105から必要な字幕フレー
ムの画像データが出力され、字幕フレームウインドウ3
03に表示される。同様に、コントロールウインドウ3
02の中のボタン305を操作することによって任意の
ページの字幕フレームを表示することができる。字幕フ
レームウインドウ303の中から1つの字幕フレームを
選択すると、どの字幕フレームを選択したかが字幕情報
管理手段107に伝えられる。その結果、字幕情報管理
手段107からの命令により、選択した字幕フレームに
対応するフレームからの動画像がビデオウインドウ30
6に再生される。ビデオウインドウ306の動作はボタ
ン307を用いて制御することができる。動画像を再生
すると、インジケータ308が時間経過を示す。
【0024】字幕情報管理手段107は、字幕フレーム
の画像データ、または画像表示手段106で選択された
字幕フレームに対応するフレームからの動画像の画像デ
ータを画像情報記憶手段105に出力させる。
【0025】ここで、字幕情報管理手段107について
図4を用いて説明する。図4において、401は字幕フ
レーム抽出手段104から出力されたフレームの区間を
記憶する字幕フレーム区間記憶手段である。402は字
幕フレームの画像データ、または字幕フレームに対応す
るフレームからの動画像の画像データを画像情報記憶手
段105に出力させる画像情報制御手段である。
【0026】以下、図4の字幕情報管理手段の動作を説
明する。画像表示手段106においてボタン304また
はボタン305が操作されたとき、字幕フレームウイン
ドウ303に字幕フレームを表示するため、画像情報制
御手段402は必要な字幕フレームの画像データを画像
情報記憶手段105に出力させる。画像表示手段106
において字幕フレームウインドウ303の中から1つの
字幕フレームが選択されたときは、その字幕フレームの
番号を字幕フレーム区間記憶手段401から読み出し、
その番号に対応するフレームから動画像の画像データを
画像情報記憶手段105に出力させる。また、ボタン3
07の操作により画像情報記憶手段105に蓄積された
動画像の画像データの出力を制御する。
【0027】なお、以上の説明では字幕画素カウント手
段102で輝度値が第2の閾値以上である画素を字幕画
素とする例を示したが、輝度値が第2の閾値以上であ
り、かつ近傍8画素との輝度差が第3の閾値以上のもの
がある画素を字幕画素としても良い。字幕画素は第1の
範囲の色を有する画素であってもよいし、第1の範囲の
色を有し、かつ近傍画素との色の差が第2の範囲内であ
る画素であってもよい。
【0028】字幕フレーム抽出手段104で字幕開始フ
レームを字幕フレームとして抽出する例を示したが、字
幕開始フレームから字幕終了フレームの間であればどの
フレームを字幕フレームとして抽出しても良い。
【0029】また、画像表示手段106で字幕フレーム
を一覧表示する例を示したが、字幕フレームが抽出され
たフレームの区間の先頭シーンの先頭から所定の時間ず
つ動画像を再生するようにしてもよい。このようにすれ
ば、動画像によって内容を把握したり見たいシーンを検
索することができる。シーンチェンジは、例えば、山
田、藤岡、金森、松島、坂内:「編集効果を含む映像の
シーンチェンジ検出方法」テレビジョン学会、マルチメ
ディアと映像処理シンポジウム'94に記載の手法により
行うことができる。
【0030】以上のように図1の動画像検索装置はブロ
ック毎に字幕が存在するかどうかを判定するので、字幕
を精度良く、高速に検出することができる。
【0031】(実施の形態2)図5は実施の形態2の動
画像検索装置の構成である。図5において、501は動
画像の画像データをフレーム単位で入力する入力端子で
ある。502は入力端子501から入力した画像データ
の輝度値が第2の閾値以上である画素を字幕画素とし、
その数をブロック毎にカウントする字幕画素カウント手
段である。503は字幕画素カウント手段502から出
力される各ブロックのカウント数を格納するメモリであ
る。504はメモリ503に記憶された前フレームのカ
ウント数と字幕画素カウント手段502から出力される
現フレームのカウント数が第4の閾値以上であり、かつ
カウント数の差の絶対値が第5の閾値以下であるブロッ
クを字幕ブロックとして抽出する字幕ブロック抽出手段
である。505は字幕ブロック抽出手段504により字
幕ブロックが抽出されたフレームの区間を検出し、その
区間から字幕を含むフレームを字幕フレームとして抽出
する字幕フレーム抽出手段である。506は入力端子5
01から入力した動画像の画像データと字幕フレーム抽
出手段505により抽出された字幕フレームの画像デー
タを蓄積する画像情報記憶手段である。507は画像情
報記憶手段506に蓄積された字幕フレームの画像を一
覧表示すると共に画像情報記憶手段506に蓄積された
動画像を再生する画像表示手段である。508は字幕フ
レームの画像データ、または画像表示手段507で選択
された字幕フレームに対応するフレームからの動画像の
画像データを画像情報記憶手段506に出力させる字幕
情報管理手段である。
【0032】以下、図5の動画像検索装置の動作を説明
する。字幕画素カウント手段502は、入力端子501
から入力したw×h画素(w、hは整数)のフレーム画
像において、輝度値が第2の閾値以上の画素を字幕画素
とし、その数をm×n画素(m、nは整数)のブロック
毎にカウントし、メモリ503および字幕ブロック抽出
手段504に出力する。メモリ503は字幕画素カウン
ト手段502から出力される各ブロックのカウント数を
格納し、字幕ブロック抽出手段504に出力する。字幕
ブロック抽出手段504は、メモリ503に蓄積された
前フレームのカウント数と字幕画素カウント手段502
から出力される現フレームのカウント数が第4の閾値以
上であり、かつカウント数の差の絶対値が第5の閾値以
下であるブロックを1とし、それ以外のブロックを0と
する二値画像を作成し、字幕フレーム抽出手段505に
出力する。
【0033】字幕フレーム抽出手段505、画像情報記
憶手段506、画像表示手段507、字幕情報管理手段
508の動作は実施の形態1と同じなので、これらの説
明は省略する。
【0034】以上のように図5の動画像検索装置はブロ
ック毎に前フレームと現フレームとのカウント数を比較
することにより、字幕画素が安定して存在しているかど
うか判定することができる。したがって、字幕の検出精
度が向上する。
【0035】(実施の形態3)図6は実施の形態3の動
画像検索装置の構成である。図6において、601は動
画像の画像データをフレーム単位で入力する入力端子で
ある。602は入力端子601から入力した画像データ
の輝度値が第2の閾値以上である画素を字幕画素とし、
その数をブロック毎にカウントする字幕画素カウント手
段である。603は字幕画素カウント手段602から出
力される各ブロックのカウント数を格納するメモリであ
る。604はメモリ603に記憶された前フレームのカ
ウント数と字幕画素カウント手段602から出力される
現フレームのカウント数が第4の閾値以上であり、かつ
カウント数の差の絶対値が第5の閾値以下であるブロッ
クを字幕ブロックとして抽出する字幕ブロック抽出手段
である。605は字幕ブロック抽出手段604により抽
出された字幕ブロックの数が横方向に第3の範囲内連続
し、かつ同一位置の字幕ブロックが第6の閾値以上のフ
レーム数連続して抽出されている領域を字幕領域として
抽出する字幕領域抽出手段である。606は字幕領域抽
出手段605により字幕領域が抽出されたフレームの区
間を検出し、その区間から字幕を含むフレームを字幕フ
レームとして抽出する字幕フレーム抽出手段である。6
07は入力端子601から入力した動画像の画像データ
と字幕フレーム抽出手段606により抽出された字幕フ
レームの画像データを蓄積する画像情報記憶手段であ
る。608は画像情報記憶手段607に蓄積された字幕
フレームの画像を一覧表示すると共に画像情報記憶手段
607に蓄積された動画像を再生する画像表示手段であ
る。609は字幕フレームの画像データ、または画像表
示手段608で選択された字幕フレームに対応するフレ
ームからの動画像の画像データを画像情報記憶手段60
7に出力させる字幕情報管理手段である。
【0036】以下、図6の動画像検索装置の動作を説明
する。字幕画素カウント手段602、メモリ603、字
幕ブロック抽出手段604、画像情報記憶手段607、
画像表示手段608、字幕情報管理手段609の動作は
実施の形態2と同じなので、これらの説明は省略する。
字幕領域抽出手段605は字幕ブロック抽出手段604
により抽出された字幕ブロックが横方向に連続し、かつ
同一位置の字幕ブロックが一定のフレーム数以上連続し
て抽出されている領域を字幕領域として抽出する。
【0037】ここで、字幕領域抽出手段605について
図7を用いて説明する。図7は字幕領域抽出手段605
の構成である。図7において、701は字幕ブロック抽
出手段604から出力される二値画像において1が連続
する数を字幕ブロックが連続している数としてカウント
する字幕ブロックカウント手段である。702は字幕ブ
ロックカウント手段701でカウントされた数が所定の
範囲内であるかどうかを検出することにより字幕候補を
検出する字幕候補検出手段である。703は字幕候補検
出手段702により検出された字幕候補の領域を記憶す
る字幕候補領域記憶手段である。704は字幕候補領域
記憶手段703に記憶された同一領域の字幕候補が一定
のフレーム数以上連続しているかどうかを判定する字幕
判定手段である。
【0038】以下、図7を用いて字幕領域抽出手段60
5の動作を説明する。字幕ブロックカウント手段701
は、字幕ブロック抽出手段604から出力されたa×b
画素(a、bはそれぞれフレーム画像における横方向、
縦方向のブロック数)の二値画像の値を1行毎にx座標
の値を1ずつ増加させながら入力する。二値画像の値が
0から1に変化した座標を字幕開始座標としてカウント
を開始し、1から0に変化した座標のx座標から1引い
た座標を字幕終了座標としてカウントを終了する。カウ
ントが終了したとき、カウント数、字幕開始座標、字幕
終了座標を字幕候補検出手段702に出力する。ただ
し、カウントが終了した時点でx座標がaに達していな
い場合には、さらにx座標の値を増加させながら同様の
処理を行う。また、カウントが終了する前にx座標がa
に達した場合には強制的にカウントを終了させる。字幕
候補検出手段702は、字幕ブロックカウント手段70
1から出力されたカウント数がr1以上r2以下(r
1、r2は整数)のとき、字幕開始座標と字幕終了座標
の組を字幕候補の領域として字幕候補領域記憶手段70
3に出力する。字幕候補領域記憶手段703は、字幕候
補検出手段702から出力された各フレームの字幕候補
の領域をNフレーム分記憶する(Nは整数)。字幕判定
手段704は字幕候補領域記憶手段703に記憶された
字幕候補の領域においてNフレーム分同じものがあれば
字幕が存在すると判断してその字幕候の補領域を字幕領
域として出力する。
【0039】字幕フレーム抽出手段606は、字幕領域
抽出手段605により字幕領域が抽出されたフレームの
区間を検出し、その区間の開始フレームを字幕フレーム
として抽出する。
【0040】ここで、字幕フレーム抽出手段606につ
いて図8を用いて説明する。図8は字幕フレーム抽出手
段の構成である。図8において、801は字幕領域抽出
手段605から字幕領域が出力されているかどうかによ
って字幕が存在するフレームの区間を検出する字幕フレ
ーム区間検出手段である。802は入力端子601から
入力したNフレーム前の画像データを記憶するフレーム
メモリである。
【0041】以下、図8の字幕フレーム抽出手段の動作
を説明する。字幕フレーム区間検出手段801は、字幕
領域抽出手段605から前フレームでは字幕領域が出力
されず、現フレームでは字幕領域が出力されたとき、N
フレーム前で新規に字幕が現れたと判断し、Nフレーム
前のフレーム番号を字幕開始フレーム番号として字幕情
報管理手段609に出力すると共にフレームメモリ80
2に記憶しておいたNフレーム前の画像データを字幕フ
レームの画像データとして画像情報記憶手段607に出
力させる。また、字幕領域抽出手段605から前フレー
ムでは字幕領域が出力され、現フレームでは字幕領域が
出力されなかったとき、字幕が消えたと判断し、前フレ
ームのフレーム番号を字幕終了フレーム番号として字幕
情報管理手段609に出力する。その他の場合は字幕が
連続して現れているか連続して現れていない状態なの
で、字幕フレーム区間検出手段801は何も処理しな
い。
【0042】なお以上の説明では字幕領域抽出手段60
5において字幕ブロック抽出手段604から出力される
字幕ブロックが横方向に連続していることを検出して横
書きの字幕領域を抽出する例を示したが、同様に字幕ブ
ロック抽出手段604から出力される字幕ブロックが縦
方向に連続していることを検出して縦書きの字幕領域を
抽出することもできる。
【0043】以上のように図6の動画像検索装置は、字
幕ブロックが空間方向及び時間方向に連続しているかど
うかにより字幕を判定することができるので、字幕ブロ
ックが存在するかどうかだけで判定するよりも正確に字
幕の存在が判定できる (実施の形態4)1つのニュース番組では重要な字幕は
大体同じ位置に現れ、ニュース番組によってその位置が
異なる。このような字幕は、字幕フレーム全体で字幕領
域が最も多く抽出された位置を調べ、その位置で字幕領
域が抽出された字幕フレームのみを代表フレームとすれ
ば、重要な字幕が含まれている確率が高いフレームを自
動的に抽出することができる。以下、このような字幕検
出を行う動画像検索装置について説明する。
【0044】図9は実施の形態4の動画像検索装置の構
成である。図9において、901は動画像の画像データ
をフレーム単位で入力する入力端子である。902は入
力端子901から入力した画像データの輝度値が第2の
閾値以上である画素を字幕画素とし、その数をブロック
毎にカウントする字幕画素カウント手段である。903
は字幕画素カウント手段902から出力される各ブロッ
クのカウント数を格納するメモリである。904はメモ
リ903に記憶された前フレームのカウント数と字幕画
素カウント手段902から出力される現フレームのカウ
ント数が第4の閾値以上であり、かつカウント数の差の
絶対値が第5の閾値以下であるブロックを字幕ブロック
として抽出する字幕ブロック抽出手段である。905は
字幕ブロック抽出手段904により抽出された字幕ブロ
ックの数が横方向に第3の範囲内連続し、かつ同一位置
の字幕ブロックが第6の閾値以上のフレーム数連続して
抽出されている領域を字幕領域として抽出する字幕領域
抽出手段である。906は字幕領域抽出手段905によ
り字幕領域が抽出されたフレームの区間を検出し、その
区間から字幕を含むフレームを字幕フレームとして抽出
する字幕フレーム抽出手段である。907は字幕フレー
ム抽出手段906により抽出された字幕フレームの画像
データを全て記憶する字幕フレーム記憶手段である。9
08は字幕フレーム抽出手段906から出力された字幕
フレームの番号と字幕フレームの区間、字幕フレームに
おいて字幕領域抽出手段905で抽出された字幕領域を
記憶する字幕情報記憶手段である。909は字幕フレー
ム抽出手段906で抽出された全ての字幕フレームにつ
いて、セグメント毎に字幕領域を含むフレーム数をカウ
ントし、カウント数が最も多いセグメントで字幕領域が
抽出された字幕フレームを代表フレームとして抽出する
代表フレーム抽出手段である。910は入力端子901
から入力した動画像の画像データと代表フレーム抽出手
段909からの命令により字幕フレーム記憶手段907
から出力された代表フレームの画像データを蓄積する画
像情報記憶手段である。911は画像情報記憶手段91
0に蓄積された代表フレームの画像を一覧表示すると共
に画像情報記憶手段910に蓄積された動画像を再生す
る画像表示手段である。912は代表フレームの画像デ
ータ、または画像表示手段911で選択された代表フレ
ームに対応するフレームからの動画像の画像データを画
像情報記憶手段910に出力させる字幕情報管理手段で
ある。
【0045】以下、図9の動画像検索装置の動作を説明
する。字幕画素カウント手段902、メモリ903、字
幕ブロック抽出手段904、字幕領域抽出手段905、
字幕フレーム抽出手段906、画像情報記憶手段91
0、画像表示手段911、字幕情報管理手段912の動
作は実施の形態3と同じなので、これらの説明は省略す
る。字幕フレーム記憶手段907は、字幕フレーム抽出
手段906により抽出された字幕フレームの画像データ
を全て記憶し、代表フレーム抽出手段909からの命令
により代表フレームの画像データを画像情報記憶手段9
10に出力する。字幕情報記憶手段908は、字幕フレ
ーム抽出手段906から出力された字幕フレームの番号
と字幕フレームの区間、字幕フレームにおいて字幕領域
抽出手段905で抽出された字幕領域を記憶する。代表
フレーム抽出手段909は、字幕フレーム抽出手段90
6で抽出された全ての字幕フレームについて、セグメン
ト毎に字幕領域を含むフレーム数をカウントし、カウン
ト数が最も多いセグメントで字幕領域が抽出された字幕
フレームを代表フレームとして抽出する。
【0046】ここで、代表フレーム抽出手段909につ
いて図10を用いて説明する。図10は代表フレーム抽
出手段の構成である。ただし、説明を簡単にするため、
図11のようにw×h画素のフレーム画像をw×s画素
のセグメントに4分割して処理する例を示す。図11に
おいて、1101は第1セグメント、1102は第2セ
グメント、1103は第3セグメント、1104は第4
セグメントである。図10において、1001は字幕フ
レーム抽出手段906で抽出された字幕フレームの字幕
領域がどのセグメントに属するかを判定するセグメント
判定手段である。1002は第1セグメントに属する字
幕領域のフレーム数をカウントする字幕領域カウント手
段である。1003は第2セグメントに属する字幕領域
のフレーム数をカウントする字幕領域カウント手段であ
る。1004は第3セグメントに属する字幕領域のフレ
ーム数をカウントする字幕領域カウント手段である。1
005は第4セグメントに属する字幕領域のフレーム数
をカウントする字幕領域カウント手段である。1006
は字幕領域が最も多くカウントされたセグメントに字幕
領域が存在する字幕フレームを代表フレームとして選択
する代表フレーム選択手段である。
【0047】以下、図10の代表フレーム抽出手段の動
作を説明する。セグメント判定手段1001は、字幕フ
レーム抽出手段906で抽出された字幕フレームの字幕
領域を字幕領域抽出手段905から入力し、その字幕領
域がどのセグメントに属するかを判定して該当するセグ
メントの字幕領域カウント手段に1を出力する。例えば
現在処理している字幕フレームの字幕領域が第2セグメ
ントと第4セグメントに属する場合、セグメント判定手
段1001は字幕領域カウント手段1002と字幕領域
カウント手段1004に1を出力し、字幕領域カウント
手段1003と字幕領域カウント手段1005には0を
出力する。字幕領域カウント手段1002から1005
は、それぞれセグメント判定手段1001から出力され
た1の数をカウントする。代表フレーム選択手段100
6は、カウント数が最も多い字幕領域カウント手段に対
応するセグメントを字幕が存在するセグメントと判断
し、字幕情報記憶手段908に記憶された字幕領域がそ
のセグメントに属する字幕フレームを代表フレームとし
てそのフレームの区間を字幕情報管理手段912に出力
すると共に、字幕フレーム記憶手段907に記憶されて
いるその代表フレームの画像データを画像情報記憶手段
910に出力させる。
【0048】なお以上の説明では代表フレーム抽出手段
909において横長のセグメントに属する字幕領域を調
べることにより横書きの字幕を検出する例を示したが、
同様に縦長のセグメントに属する字幕領域を調べること
により縦書きの字幕を検出することもできる。
【0049】以上のように図9の動画像検索装置は、字
幕フレーム全体で字幕領域が最も多く抽出された位置を
調べることにより、重要な字幕が含まれている確率が高
いフレームを自動的に抽出することができる。
【0050】(実施の形態5)1つのニュース番組では
重要な字幕は大体同じ位置に現れる。したがって、抽出
したい字幕領域の位置を指定すれば、重要な字幕のみを
抽出することができる。以下、このような字幕検出を行
う動画像検索装置について説明する。
【0051】図12は実施の形態5の動画像検索装置の
構成である。図12において、1201は動画像の画像
データをフレーム単位で入力する入力端子である。12
02は入力端子1201から入力した画像データの輝度
値が第2の閾値以上である画素を字幕画素とし、その数
をブロック毎にカウントする字幕画素カウント手段であ
る。1203は字幕画素カウント手段1202から出力
される各ブロックのカウント数を格納するメモリであ
る。1204はメモリ1203に記憶された前フレーム
のカウント数と字幕画素カウント手段1202から出力
される現フレームのカウント数が第4の閾値以上であ
り、かつカウント数の差の絶対値が第5の閾値以下であ
るブロックを字幕ブロックとして抽出する字幕ブロック
抽出手段である。1205は字幕ブロック抽出手段12
04により抽出された字幕ブロックの数が横方向に第3
の範囲内連続し、かつ同一位置の字幕ブロックが第6の
閾値以上のフレーム数連続して抽出されている領域を字
幕領域として抽出する字幕領域抽出手段である。120
6は字幕領域抽出手段1205により字幕領域が抽出さ
れたフレームの区間を検出し、その区間から字幕を含む
フレームを字幕フレームとして抽出する字幕フレーム抽
出手段である。1207は字幕フレーム抽出手段120
6により抽出された字幕フレームの画像データを全て記
憶する字幕フレーム記憶手段である。1208は字幕フ
レーム抽出手段1206から出力された字幕フレームの
番号と字幕フレームの区間、字幕フレームにおいて字幕
領域抽出手段1205で抽出された字幕領域を記憶する
字幕情報記憶手段である。1209は抽出したい字幕領
域の位置を指定するセグメント指定手段である。121
0は字幕フレーム抽出手段1206で抽出された全ての
字幕フレームの中からセグメント指定手段により指定さ
れたセグメントに字幕領域を含む字幕フレームを代表フ
レームとして抽出する代表フレーム抽出手段である。1
211は入力端子1201から入力した動画像の画像デ
ータと代表フレーム抽出手段1210からの命令により
字幕フレーム記憶手段1207から出力された代表フレ
ームの画像データを蓄積する画像情報記憶手段である。
1212は画像情報記憶手段1211に蓄積された代表
フレームの画像を一覧表示すると共に画像情報記憶手段
1211に蓄積された動画像を再生する画像表示手段で
ある。1213は代表フレームの画像データ、または画
像表示手段1212で選択された代表フレームに対応す
るフレームからの動画像の画像データを画像情報記憶手
段1211に出力させる字幕情報管理手段である。
【0052】以下、図12の動画像検索装置の動作を説
明する。字幕画素カウント手段1202、メモリ120
3、字幕ブロック抽出手段1204、字幕領域抽出手段
1205、字幕フレーム抽出手段1206、字幕フレー
ム記憶手段1207、字幕情報記憶手段1208、画像
情報記憶手段1211、画像表示手段1212、字幕情
報管理手段1213の動作は実施の形態4と同じなの
で、これらの説明は省略する。セグメント指定手段12
09は、図13に示したようにコンピュータのディスプ
レイ上に表示されたフレーム画像の枠1301の中でマ
ウスカーソル1302を操作することにより、抽出した
い字幕領域のセグメント1303を指定する。代表フレ
ーム抽出手段1210は、字幕情報記憶手段1208に
記憶された字幕領域がセグメント指定手段1209によ
り指定されたセグメントに属する字幕フレームを代表フ
レームとしてそのフレームの区間を字幕情報管理手段1
213に出力すると共に、字幕フレーム記憶手段120
7に記憶されているその代表フレームの画像データを画
像情報記憶手段1211に出力させる。
【0053】なお以上の説明ではセグメント指定手段1
209においてマウスカーソル1302を利用して字幕
領域のセグメントを指定する例を示したが、予め字幕領
域のセグメントのテンプレートを複数用意しておき、そ
のテンプレートの中からセグメントを指定するようにし
ても良い。
【0054】以上のように図12の動画像検索装置は、
抽出したい字幕領域のセグメントを指定することによ
り、重要な字幕のみを抽出することができる。
【0055】
【発明の効果】以上のように本発明によれば字幕をブロ
ック単位で検出することにより字幕の検出精度を向上さ
せ、より効率良く所望のシーンが検索することができ
る。さらに、ブロック単位の処理を行うので高速に字幕
を検出することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の動画像検索装置を
示す図
【図2】同第1の実施の形態の字幕フレーム抽出手段の
構成を示す図
【図3】同第1の実施の形態の画像表示手段としてのコ
ンピュータディスプレイを示す図
【図4】同第1の実施の形態の字幕情報管理手段の構成
を示す図
【図5】本発明の第2の実施の形態の動画像検索装置を
示す図
【図6】本発明の第3の実施の形態の動画像検索装置を
示す図
【図7】同第3の実施の形態の字幕領域抽出手段の構成
を示す図
【図8】同第3の実施の形態の字幕フレーム抽出手段の
構成を示す図
【図9】本発明の第4の実施の形態の動画像検索装置を
示す図
【図10】同第4の実施の形態の代表フレーム抽出手段
の構成を示す図
【図11】同第4の実施の形態におけるセグメントを示
す図
【図12】本発明の第5の実施の形態の動画像検索装置
を示す図
【図13】同第5の実施の形態のセグメント指定手段と
してのコンピュータディスプレイを示す図
【図14】従来の動画像検出装置の字幕検出部を示す図
【図15】従来の動画像検出装置の字幕検出部の処理を
示すフローチャート
【図16】従来の動画像検出装置の字幕検出部の字幕検
出処理を示すフローチャート
【符号の説明】
101 入力端子 102 字幕画素カウント手段 103 字幕ブロック抽出手段 104 字幕フレーム抽出手段 105 画像情報記憶手段 106 画像表示手段 107 字幕情報管理手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−212231(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 H04N 5/445 H04N 5/76 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 画像データをフレーム単位で入力し、
    レームを複数のブロックに分割して、輝度値が閾値以上
    である画素を字幕画素としてブロック毎に計数する字幕
    画素カウント手段と、当該フレームと前フレームの2枚
    のフレーム間で同一位置にあるブロックの上記字幕画素
    の数を判定して字幕ブロックを抽出する字幕ブロック抽
    出手段と、横方向または縦方向に連続する上記字幕ブロ
    ックを字幕領域として抽出する字幕領域抽出手段と、上
    記字幕領域抽出手段により字幕領域が抽出されたフレー
    ムの区間を検出し、その区間から字幕を含むフレームを
    字幕フレームとして抽出する字幕フレーム抽出手段と、
    上記字幕フレーム抽出手段により抽出された字幕フレー
    ムの代表画像を表示する画像表示手段を備えた動画像検
    索装置。
  2. 【請求項2】 字幕画素カウント手段が、輝度値が第1
    の閾値以上であり、かつ近傍画素との輝度差が第2の閾
    値以上である画素を字幕画素としてブロック毎にカウン
    トすることを特徴とする請求項1記載の動画像検索装
    置。
  3. 【請求項3】 字幕画素カウント手段が、予め設定した
    範囲の色を有する画素を字幕画素としてブロック毎にカ
    ウントすることを特徴とする請求項1記載の動画像検索
    装置。
  4. 【請求項4】 字幕画素カウント手段が、第1の範囲の
    色を有し、かつ近傍画素との色の差が第2の範囲内であ
    る画素を字幕画素としてブロック毎にカウントすること
    を特徴とする請求項3記載の動画像検索装置。
  5. 【請求項5】 字幕ブロック抽出手段が、上記字幕画素
    カウント手段から出力される字幕画素の数を格納するメ
    モリを備え、上記メモリから2枚のフレームで同一位置
    にあるブロックの字幕画素の数を読み取り、上記字幕画
    素の数が両方とも閾値以上になるときに、上記同一位置
    にあるブロックを字幕ブロックとして抽出することを特
    徴とする請求項1乃至4のいずれかに記載の動画像検索
    装置。
  6. 【請求項6】 予めフレームを複数のセグメントに分割
    しておき、上記字幕フレーム抽出手段により抽出された
    字幕フレーム全てについて、セグメント毎に上記字幕領
    域抽出手段で抽出された字幕領域を含むフレーム数をカ
    ウントし、カウント数が最も多いセグメントで上記字幕
    領域が抽出された字幕フレームを代表フレームとして抽
    出する代表フレーム抽出手段を備えた請求項1記載の動
    画像検索装置。
JP8313267A 1996-11-25 1996-11-25 動画像検索装置 Expired - Fee Related JP3024574B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP8313267A JP3024574B2 (ja) 1996-11-25 1996-11-25 動画像検索装置
US08/976,013 US6219382B1 (en) 1996-11-25 1997-11-21 Method and apparatus for locating a caption-added frame in a moving picture signal
US09/628,341 US6301302B1 (en) 1996-11-25 2000-07-28 Moving picture search system cross reference to related application

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8313267A JP3024574B2 (ja) 1996-11-25 1996-11-25 動画像検索装置

Publications (2)

Publication Number Publication Date
JPH10154148A JPH10154148A (ja) 1998-06-09
JP3024574B2 true JP3024574B2 (ja) 2000-03-21

Family

ID=18039161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8313267A Expired - Fee Related JP3024574B2 (ja) 1996-11-25 1996-11-25 動画像検索装置

Country Status (1)

Country Link
JP (1) JP3024574B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630532B2 (en) 2008-09-01 2014-01-14 Kabushiki Kaisha Toshiba Video processing apparatus and video processing method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4613867B2 (ja) * 2005-05-26 2011-01-19 ソニー株式会社 コンテンツ処理装置及びコンテンツ処理方法、並びにコンピュータ・プログラム
JP2007158959A (ja) * 2005-12-07 2007-06-21 Sharp Corp 光ディスク再生装置
JP2008118232A (ja) 2006-11-01 2008-05-22 Hitachi Ltd 映像再生装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630532B2 (en) 2008-09-01 2014-01-14 Kabushiki Kaisha Toshiba Video processing apparatus and video processing method

Also Published As

Publication number Publication date
JPH10154148A (ja) 1998-06-09

Similar Documents

Publication Publication Date Title
US6243419B1 (en) Scheme for detecting captions in coded video data without decoding coded video data
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
JP3361587B2 (ja) 動画像検索装置及び方法
US6157744A (en) Method and apparatus for detecting a point of change in a moving image
EP1040656B1 (en) Apparatus and method for locating a commercial disposed within a video data stream
US20050226331A1 (en) Identifying key video frames
JP3590896B2 (ja) 字幕検出方法
JP2004364234A (ja) 放送番組内容メニュー作成装置及び方法
EP0636994B1 (en) Method of and apparatus for retrieving dynamic images and method of and apparatus for managing images
JP3332166B2 (ja) 動画像の検索装置
US7170935B2 (en) Image processing apparatus and method, and computer-readable memory
JPH10243323A (ja) シーン管理装置、シーン管理方法及び記録媒体
US6795127B1 (en) Video processing system and video processing method
JP3024574B2 (ja) 動画像検索装置
JP3379453B2 (ja) 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置
JP2004080156A (ja) 画像処理装置、画像処理方法、プログラム及び記録媒体並びに画像処理システム
JP3157928B2 (ja) 動画像の拾い見装置
JP4288909B2 (ja) 文字情報検出装置及び文字情報検出方法、並びにプログラム及び記録媒体
US7200814B2 (en) Reproduction apparatus
JP3386102B2 (ja) 映像検索方法および装置
JP4930364B2 (ja) 映像文字検出方法、装置、およびプログラム
JPH06333048A (ja) 動画像処理装置
JPH09179880A (ja) 動画像の重要画像抽出装置および重要画像抽出方法
JPH05257989A (ja) 動画像検索支援方式
JP3498875B2 (ja) 動画像処理システム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees