JP2000182028A - 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置 - Google Patents

字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置

Info

Publication number
JP2000182028A
JP2000182028A JP10358971A JP35897198A JP2000182028A JP 2000182028 A JP2000182028 A JP 2000182028A JP 10358971 A JP10358971 A JP 10358971A JP 35897198 A JP35897198 A JP 35897198A JP 2000182028 A JP2000182028 A JP 2000182028A
Authority
JP
Japan
Prior art keywords
image
subtitle
area
difference
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10358971A
Other languages
English (en)
Other versions
JP3379453B2 (ja
Inventor
Shin Yamada
伸 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP35897198A priority Critical patent/JP3379453B2/ja
Publication of JP2000182028A publication Critical patent/JP2000182028A/ja
Application granted granted Critical
Publication of JP3379453B2 publication Critical patent/JP3379453B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 画像の中から字幕が現れている領域を検出す
る字幕領域検出方法および字幕領域検出装置において,
字幕領域の誤検出を削減する高精度な字幕領域検出方法
を提供することを目的とする。 【解決手段】 画像の一部または全体を複数個のブロッ
クに分割し、ブロックの間の差異を計算し、差異を用い
て字幕領域を判定する。これにより、繰り返しパターン
から構成される矩形領域が字幕領域と判定されるケース
が減少し、字幕領域の誤検出を削減することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、動画像中から所望
の画像を検索する装置に係り、特に画像の中から字幕が
現れている領域を検出する字幕領域検出方法及びその装
置、並びに動画像検索方法及びその装置に関するもので
ある。
【0002】
【従来の技術】近年、動画像中に現れる字幕を自動検出
し、字幕の現れているシーンの代表画像を抽出して一覧
表示することにより、所望のシーンを探し出す動画像検
索装置が検討されている。このような動画像検索装置
は、例えば特開平7−192003号公報に開示されて
おり、その実現のためには字幕領域検出方法を実行する
手段が不可欠である。以下、従来の動画像検索装置で用
いられた字幕領域検出方法について説明する。
【0003】図15に字幕領域検出装置の構成を示す。
1501は輝度判定手段であり、フレーム画像データを
入力して高輝度画素を抽出する。1502は輝度差判定
手段であり、輝度判定手段1501で抽出された画素の
輝度を近傍の画素と比較し、輝度差の高い画素を抽出す
る。1503はフレーム照合手段であり、輝度差判定手
段1502で抽出された画素が一定時間同一位置にある
かどうかを判定する。1504は字幕領域抽出手段であ
り、フレーム照合手段1503で一定時間同一位置にあ
ると判定された字幕の候補画素の分布を調べ、字幕であ
るかどうかを判定する。1505は閾値管理手段であ
り、上記の抽出、判定処理を行うための閾値を設定す
る。
【0004】以下、図16のフローチャートを用い、従
来の字幕領域検出装置の処理を詳細に説明する。最初に
フレーム番号tを0に初期化する(1600)。次に、
w×h画素(w、hは整数)のフレーム画像データを入
力する(1601)。フレーム番号tに対するw×hの
3次元配列E(x,y,t)を用意する(1602)。
【0005】入力したフレーム画像データの各画素につ
いて、その画素が字幕を形成する画素の1つになってい
るかどうかを判定するため、次の処理(1603〜16
12)を行う。 (1)輝度が閾値th1以上かどうかを判定する(16
04)。閾値以上であれば1605に進む。そうでなけ
れば字幕と無関係の画素なので、現在の座標に対応する
配列Eに0を代入する(1608)。 (2)8近傍の画素と現在の画素との間でそれぞれ輝度
差を求め、閾値th2以上のものがあるかどうか調べる
(1605)。もし1つでもあれば1606に進み、な
ければ1608に進む。 (3)輝度差が8近傍の画素全てで閾値を超えているか
を判定する(1606)。全てで閾値を超えている場
合、その画素はノイズである可能性が高いので、字幕と
無関係な画素として1608に進む。そうでなければ字
幕を形成する画素の1つであるとして現在の座標に対応
する配列Eに1を代入する(1607)。 (4)現在座標を示す変数x、yを1ずつ増加させ、全
ての画素について(1)〜(3)の処理を行う(160
9〜1612)。
【0006】次に、一定時間同じ位置に文字が存在して
いるかどうかを判定する。上記の処理によって得られた
nフレーム分の配列Eについて論理積をとる。具体的に
は、各配列のそれぞれ同じ座標に対応するデータを比較
し、それらが全て1であれば1を2次元配列E’(x,
y)に代入する。1つでも0があった場合には0を配列
E’(x,y)に代入する(1613)。
【0007】上記の処理が完了した時点で字幕の一部と
目されている画素が密集して存在しているかどうかを判
定する。すなわち、y方向についてyがiでE’(x,
y)の値が1であるものの数をカウントし、ヒストグラ
ムHy(i)を作成する(1614)。もし、ヒストグ
ラムの各度数のうち、閾値th3を越えているものがあ
れば(1615)その度数に対応する行に字幕が現れて
いる。E’(x,y)は論理積の結果なので、nフレー
ム前のフレームに字幕が現れていると判断し字幕領域検
出処理1616を実行する。
【0008】字幕領域検出処理1616の詳細を図17
に示す。ヒストグラムの度数が閾値th3を越えてピー
クとなっている行が複数あり、それらのピークに挟まれ
た行に十分な度数がない場合には複数の字幕が現れてい
ると見なし、それらの字幕の数を求めてLnに代入する
(1701)。全ての字幕について1702〜1710
の処理を行う。Lnはループカウンタとして用いられ、
1つの字幕の処理が完了する毎に1ずつ減り(170
8)、0になるまでループする(1710)。1702
は、閾値th3を越えている行が連続する部分を検出
し、その区間を求めて開始行のy座標をyo、終了行の
y座標をycに代入する。次に、yがyoからycの間
でE’(x,y)が1の数をカウントしてヒストグラム
H’x(i)を作成し(1703)、そのヒストグラム
中で度数が閾値th4を越えている部分を抽出する。そ
して、その開始列のx座標をxoに、終了列のx座標を
xcに代入する(1704)。(xo,yo)及び(x
c,yc)によって示される矩形領域を字幕の存在領域
とする。
【0009】フレーム番号tー1において、矩形領域
(xo,yo)−(xc,yc)に字幕があると判定さ
れていた場合、以前から現れていた字幕として特別な処
理はしない(1706)。字幕がなかった場合には新規
にnフレーム前に字幕が現れたと判定する。検出された
字幕は常に監視され、検出されなくなったフレーム番号
から1を引いた番号をその字幕の終了フレームとし、矩
形領域(xo,yo)−(xc,yc)のE’(x,
y)の値を0にする。
【0010】
【発明が解決しようとする課題】以上のように従来の技
術では、字幕の文字の一部と目されている画素(字幕画
素)の総和が閾値th3を超える行を検出してから、字
幕画素の総和が閾値th4を超える列を検出し、検出さ
れた矩形領域を字幕の存在領域(字幕領域)としてい
る。しかし、図18に示した横縞模様のように繰り返し
パターンから構成される矩形領域を字幕領域として誤検
出するという課題を有していた。
【0011】本発明は、字幕領域の誤検出を防止し高精
度な字幕領域検出及びそれを用いた動画像検索を行うこ
とを目的とする。
【0012】
【課題を解決するための手段】この課題を解決するため
に本発明は、画像の一部または全体を複数個のブロック
に分割し、ブロックの間の差異を計算し、差異を用いて
字幕領域を判定するように構成したものである。
【0013】これにより、繰り返しパターンから構成さ
れる矩形領域が字幕領域と判定されるケースが減少し、
字幕領域の誤検出を削減することができる。
【0014】
【発明の実施の形態】本発明の請求項1に記載の発明
は、画像の一部または全体を複数個のブロックに分割
し、ブロックの間の差異を計算し、前記ブロック間の差
異を用いて字幕領域のブロックを判定するもので、同じ
模様のブロックから構成される矩形領域を字幕領域と判
定しないので、字幕領域の誤検出を削減する作用を有す
る。
【0015】請求項2に記載の発明は、請求項1記載の
字幕領域検出方法において、字幕領域の判定は、隣接す
るブロックの間の差異を計算し、差異が閾値以上になる
ブロックを字幕領域とするもので、間に一つ以上のブロ
ックを挟んだ2つのブロックではなく、隣接するブロッ
クの差異を比較するので、同じ模様の領域が2つのブロ
ックだけしか含まない場合のように、小さい領域に対し
ても字幕領域の誤検出を削減する作用を有する。
【0016】請求項3に記載の発明は、画像の一部また
は全体を複数個のブロックに分割し、文字が存在する可
能性の高いブロックを候補ブロックとし、候補ブロック
の空間的な分布を用いて候補領域を決定し、候補領域内
のブロック間の差異を計算し、前記ブロック間の差異を
用いて字幕領域のブロックを判定するもので、文字が存
在する可能性の高いブロックを用いて字幕領域の候補領
域を決定してからブロック間の差異を比較しているの
で、文字が存在する可能性の高さに関係なくブロック間
の差異を比較する場合に比べて、字幕領域の誤検出をよ
り多く削減する作用を有する。
【0017】請求項4に記載の発明は、請求項3記載の
字幕領域検出方法において、幕領域の判定は、候補領域
内の隣接ブロック間の差異の平均値が閾値以上になると
き候補領域を字幕領域とするもので、隣接ブロック間の
差異の平均値を用いているので、同じ模様のブロックが
多い候補領域を字幕領域と判定しなくなり、字幕領域の
誤検出を削減する作用を有する。
【0018】請求項5に記載の発明は、請求項3または
請求項4に記載の字幕領域検出方法において、候補ブロ
ックが水平方向に連続する領域を候補領域とするもの
で、水平方向に文字が並ぶ字幕を検出する作用を有す
る。
【0019】請求項6に記載の発明は、請求項3乃至5
のいずれかに記載の字幕領域検出方法において、文字が
存在する可能性の高いブロックの検出は、字幕の文字の
一部と予想した画素の総数が閾値以上になるブロックを
検出するもので、字幕の文字を含むブロックでは、字幕
の文字の一部である画素が多数存在するので、文字が存
在する可能性の高いブロックを検出する作用を有する。
【0020】請求項7に記載の発明は、請求項1乃至6
のいずれかに記載の字幕領域検出方法において、ブロッ
ク間の差異は、字幕の文字の一部と予想した画素を用い
て計算した値とするもので、字幕中の各ブロックには様
々な文字が含まれているために、字幕の文字の一部と予
想した画素の分布が各ブロックで多様になり、字幕中の
ブロック間の差異が大きい値になるのに対して、背景の
模様を誤って字幕の文字の一部と予想しても、同じ模様
が空間的に連続する背景部分のブロック間の差異は小さ
い値になるので、同じ模様が空間的に連続する背景部分
と字幕を判別する作用を有する。
【0021】請求項8に記載の発明は、請求項1乃至6
のいずれかに記載の字幕領域検出方法において、ブロッ
ク間の差異は、ブロックを複数の小領域に分割し、各小
領域に対して、字幕の文字の一部と予想した画素の総和
を計算して小領域の特徴量とし、同一位置の小領域にお
ける特徴量の差異を用いて計算するもので、字幕中の各
ブロックには様々な文字が含まれているために、字幕の
文字の一部と予想した画素の分布が各ブロックで多様に
なり、異なるブロックの同一位置の小領域における特徴
量の値がばらつくのに対して、背景の模様を誤って字幕
の文字の一部と予想しても、同じ模様が空間的に連続す
る背景部分の異なるブロックでは、同一位置の小領域の
特徴量がほぼ同じ値になるので、同じ模様が空間的に連
続する背景部分と字幕を判別する作用を有する。
【0022】請求項9に記載の発明は、請求項6乃至8
のいずれかに記載の字幕領域検出方法において、字幕の
文字の一部の画素として予想された画素は、輝度が閾値
以上になる画素とするもので、字幕の文字は輝度値が大
きい値になるので、背景部分の画素を誤って予想するこ
ともあるが、予想した画素の中に字幕の文字の一部の画
素がもれなく入るようにする作用を有する。
【0023】請求項10に記載の発明は、請求項6乃至
8のいずれかに記載の字幕領域検出方法において、字幕
の文字の一部の画素として予想された画素は、輝度が閾
値以上になり、かつ隣接する画素との間の輝度差が閾値
以上になる画素とするもので、字幕の文字と背景との境
界では、輝度差が大きい値になるので、背景部分の画素
を誤って予想する画素を減らしながら、予想した画素の
中に字幕の文字の一部の画素がもれなく入るようにする
作用を有する。
【0024】請求項11に記載の発明は、画像の一部ま
たは全体を複数個のブロックに分割する画像分割手段
と、ブロック間の差異を計算するブロック差異計算手段
と、前記ブロック差異計算手段から出力される差異が閾
値以上になるブロックを字幕領域と判定する領域判定手
段とを備えたもので、同じ模様のブロックから構成され
る矩形領域を字幕領域と判定しないので、字幕領域の誤
検出を削減する作用を有する。
【0025】請求項12に記載の発明は、画像の一部ま
たは全体を複数個のブロックに分割する画像分割手段
と、文字が存在する可能性の高いブロックを候補ブロッ
クとする候補ブロック判定手段と、候補ブロックの空間
的な分布を用いて候補領域を決定する候補領域判定手段
と、前記ブロック間の差異を計算するブロック差異計算
手段と、前記ブロック差異計算手段から出力される差異
を用いて字幕領域を判定する領域判定手段とを備えたも
ので、文字が存在する可能性の高いブロックを用いて字
幕領域の候補領域を決定してからブロック間の差異を比
較しているので、文字が存在する可能性の高さに関係な
くブロック間の差異を比較する場合に比べて、字幕領域
の誤検出をより多く削減する作用を有する。
【0026】請求項13に記載の発明は、請求項1乃至
10のいずれかに記載の字幕領域検出方法により得られ
た結果を用いて代表画像を決定し、その代表画像の表示
と動画像の再生を実行するもので、字幕は、ニュース番
組の話題や、被写体の名称、特徴などを表すことが多
く、字幕領域を含む画像を代表画像として一覧表示する
ことで、ユーザーが話題や被写体に着目して動画像を検
索することができる作用を有する。
【0027】請求項14に記載の発明は、動画像からフ
レーム画像を抽出する画像抽出手段と、画像の一部また
は全体を複数個のブロックに分割し、ブロックの間の差
異を計算し、差異を用いて字幕領域のブロックを判定す
ることで、フレーム画像中の字幕領域の有無を判定する
字幕領域検出手段と、前記字幕領域を含むフレーム画像
を動画像の代表画像にする代表画像抽出手段と、前記代
表画像を表示する表示手段を備えたもので、字幕は、ニ
ュース番組の話題や、被写体の名称、特徴などを表すこ
とが多く、ユーザーが話題や被写体に着目して動画像を
検索することができる作用を有する。
【0028】請求項15に記載の発明は、動画像からフ
レーム画像を抽出する画像抽出手段と、画像の一部また
は全体を複数個のブロックに分割し、ブロックの間の差
異を計算し、差異を用いて字幕領域のブロックを判定す
ることで、フレーム画像中の字幕領域の有無を判定する
字幕領域検出手段と、前記字幕領域を含むフレーム画像
を動画像の代表画像にする代表画像抽出手段と、前記代
表画像の字幕領域中の字幕を文字認識する文字認識手段
と、前記代表画像および文字認識結果を表示する表示手
段とを備えたもので、字幕の文字認識結果を見ながら動
画像を検索することができる作用を有する。
【0029】請求項16に記載の発明は、動画像からフ
レーム画像を抽出する画像抽出手段と、画像の一部また
は全体を複数個のブロックに分割し、ブロックの間の差
異を計算し、差異を用いて字幕領域のブロックを判定す
ることで、フレーム画像中の字幕領域の有無を判定する
字幕領域検出手段と、前記字幕領域を含むフレーム画像
を動画像の代表画像にする代表画像抽出手段と、前記動
画像全体の中から代表画像の時刻付近の動画像を代表動
画像とする代表動画像抽出手段と、前記代表動画像抽出
手段からの複数の代表動画像を次々に再生して表示する
表示手段を備えたもので、ユーザーが、動画像を見なが
ら話題や被写体に着目して検索することができる作用を
有する。
【0030】請求項17に記載の発明は、動画像からフ
レーム画像を抽出する画像抽出手段と、画像の一部また
は全体を複数個のブロックに分割し、ブロックの間の差
異を計算し、差異を用いて字幕領域のブロックを判定す
ることで、フレーム画像中の字幕領域の有無を判定する
字幕領域検出手段と、前記字幕領域を含むフレーム画像
を動画像の代表画像にする代表画像抽出手段と、前記代
表画像抽出手段の中から1枚の代表画像を選択する入力
手段と、前記代表画像抽出手段で抽出された複数の代表
画像を第1の領域に表示し、前記入力手段で選択された
代表画像の時刻から前記動画像を再生し第2の領域に表
示する表示手段を備えるもので、ユーザーが話題や被写
体に着目して動画像を検索し、関連するところから動画
像を再生できる作用を有する。
【0031】請求項18に記載の発明は、請求項14乃
至17のいずれかに記載の動画像検索装置において、代
表画像抽出手段が、時系列のフレーム画像の字幕領域を
比較して字幕領域の出現を検出する字幕出現判定手段
と、ある字幕領域が出現してから次の字幕領域が出現す
るまでのフレーム画像中から字幕領域を含むフレーム画
像を1枚抜き出して代表画像にする代表画像判定手段を
備えるもので、字幕領域が出現してから次の字幕領域が
出現するまでの間から代表画像を抜き出すので、同一の
字幕領域をもつ代表画像が1枚だけになり、冗長のない
代表画像を作成する作用を有する。
【0032】請求項19に記載の発明は、映像圧縮を実
行する映像圧縮手段と、映像や代表画像などのデータを
蓄積するデータ蓄積手段と、請求項1乃至10のいずれ
かに記載の字幕領域検出方法を実行してその結果を用い
て代表画像を決定する代表画像決定手段と、前記代表画
像の表示と映像の再生を実行する検索用の検索手段と
を、1つまたは複数のコンピュータで実行し、各コンピ
ュータを接続するためのネットワーク手段を備えるもの
で、データ蓄積を主目的とするコンピュータと、検索を
主目的とするコンピュータを分離することが可能にな
り、データ管理や検索作業を簡単にする作用を有する。
【0033】請求項20に記載の発明は、コンピュータ
によって動画像中のフレーム画像から字幕領域を検出す
るプログラムを記録した記憶媒体であって、フレーム画
像の一部または全体を複数個のブロックに分割し、ブロ
ックの間の差異を計算し、差異を用いて字幕領域のブロ
ックを判定することを特徴とする字幕領域検出プログラ
ムを記憶した記憶媒体から字幕領域検出プログラムをコ
ンピュータに読み込み実行するもので、字幕領域の誤検
出を削減する作用を有する。
【0034】請求項21に記載の発明は、コンピュータ
によって動画像中のフレーム画像から字幕領域を検出す
るプログラムを記録した記憶媒体であって、請求項1乃
至10のいずれかに記載の字幕領域検出方法により得ら
れた結果を用いて代表画像を決定し、その代表画像の表
示と映像の再生を実行することを特徴とする動画像検索
プログラムを記憶した記憶媒体から動画像検索プログラ
ムをコンピュータに読み込み実行するもので、ユーザー
が話題や被写体に着目して動画像を検索することができ
る作用を有する。
【0035】以下、本発明の実施の形態について、図を
用いて説明する。 (実施の形態1)図1は、実施の形態1における字幕領
域検出装置の構成図である。図1において、101は画
像データを入力する入力端子である。102は入力され
た画像データを複数個のブロックに分割する画像分割手
段である。103は隣接するブロック間の差異を計算す
るブロック差異計算手段であり、ブロックを小領域に分
割するブロック分割手段104と、小領域中の各画素が
字幕の文字の一部である画素(字幕画素)かどうかを判
定する字幕画素判定手段105と、小領域中の字幕画素
の総数を小領域の特徴量として出力する字幕画素数出力
手段106と、隣接する2つのブロックで同一位置にあ
る小領域の特徴量の差異を計算する小領域差異計算手段
107と、小領域差異計算手段107から出力される差
異の値の総和を計算する総和計算手段108から構成さ
れる。109はブロック差異計算手段103から出力さ
れる差異が閾値以上になるとき、差異を求めた隣接ブロ
ックを字幕領域と判定する領域判定手段である。110
は字幕領域の座標を出力する出力端子である。
【0036】以下、図1の字幕領域検出装置の動作につ
いて、図2のフローチャートを用いて説明する。
【0037】手順201では、画像分割手段102が、
入力端子101から入力したw×h画素(w、hは自然
数)の画像をm×n画素(m、nは自然数)のブロック
に分割し、各ブロックの座標を出力する。また、ブロッ
ク番号j(jは自然数)を1に設定し、ブロック数Nbの
値を設定する。以下、j番目のブロックをB(j)とよ
ぶ。
【0038】手順202では、ブロック分割手段104
が、m×n画素のブロックを1×n画素の小領域に分割
し、各小領域の座標を出力する。以下、j番目のブロッ
クB(j)におけるk番目の小領域をR(j,k)とよぶ。手順
203では、字幕画素判定手段105が、小領域の画素
の中で、輝度値が閾値th1以上になる画素を字幕画素
と判定する。手順204では、字幕画素数出力手段10
6が、小領域中の字幕画素の総数を計算し、小領域の特
徴量として出力する。以下、小領域R(j,k)の特徴量を
F(j,k)とよぶ。
【0039】手順205では、小領域差異計算手段10
7が、隣接する2つのブロックB(j-1)、B(j)で同一位
置にある小領域R(j-1,k)、R(j,k)の特徴量F(j-1,
k)、F(j,k)の差異DR(j,k)を計算する。DR(j,k)の計算
式は、F(j,k)が2以上のとき、
【0040】
【数1】
【0041】であり、F(j,k)が1以下のとき、
【0042】
【数2】
【0043】である。手順206では、総和計算手段1
08が、小領域差異計算手段107から出力されるm個
の差異DR(j,1)、DR(j,2)、・・・、DR(j,m)の総和を求
め、隣接するブロックB(j-1)、B(j)の差異DB(j)とす
る。
【0044】手順207では、領域判定手段109が、
隣接するブロックB(j-1)、B(j)の差異DB(j)と閾値t
h2とを比較し、DB(j)>th2になる場合に手順20
8に進み、そうでない場合には手順209に進む。
【0045】手順208では、領域判定手段109が、
ブロックB(j-1)、B(j)を字幕領域と判定する。
【0046】手順209では、字幕領域の左上端と右下
端の座標を出力端子110から出力し、ブロック番号j
に1を加える。座標系は、例えば、画像の左上端の座標
が(0,0)となり、右下端の座標が(w,h)となるように決め
ておく。手順210では、ブロック番号jがブロック数
Nbよりも大きいときに処理を終了し、そうでなければ手
順202に戻る。
【0047】以上の説明では、入力端子101にw×h
画素の画像を入力しているが、この画像は、動画像中の
フレーム画像全体でもよいし、フレーム画像の一部分で
もよい。例えば、従来法で字幕領域と判定された領域の
画像を画像データとして入力してもよい。
【0048】なお、ブロック差異計算手段103で隣接
するブロック間の差異を計算しているが、差異を計算す
るブロックの組み合わせを限定するものではない。例え
ば、計算量を削減して高速に処理するために、一つおき
のブロック間のように隣接しないブロック間の差異を計
算してもよい。
【0049】なお、字幕画素判定手段105では、高輝
度の画素を字幕画素としたが字幕画素の判定方法を限定
するものではない。8つの隣接する画素との輝度差を計
算し、計算した8つの輝度差の中で1つ以上8つ未満の
輝度差が閾値thd1以上になるときに字幕画素と判定
してもよい。また、この高輝度差画素が1つ以上8つ未
満存在し、かつ、画素の輝度が閾値th1以上になると
きに字幕画素と判定してもよい。ある領域に含まれる画
素の輝度の平均、分散などの統計量と判定対象画素の輝
度値を処理して字幕画素かどうかを判定してもよい。
【0050】なお、小領域差異計算手段107では、小
領域の特徴量の差異DR(j,k)として、特徴量の差の自乗
を特徴量F(j,k)の自乗で正規化した値を用いたが、差
異DR(j,k)の計算方法を限定するものではない。例え
ば、特徴量の差の自乗を差異DR(j,k)としてもよい。あ
る領域に含まれる小領域のデータの統計量と、差異を求
めたい小領域の特徴量とを処理して差異DR(j,k)を求め
てもよい。
【0051】なお、手順202から手順206までの処
理によって、隣接するブロックB(j-1)、B(j)の差異DB
(j)を計算しているが、差異DB(j)の計算方法を限定する
ものではない。例えば、主成分分析の手法などを用いて
ブロック内の画素の輝度値に関する統計量を計算し、こ
の統計量を用いて差異DB(j)を計算してもよい。また、
ブロック間の類似度を計算し、その逆数を差異DB(j)と
してもよい。ただし、ブロック差異計算手段103は、
差異DB(j)の計算方法を実現するような構成にしなけれ
ばならない。
【0052】本実施の形態によれば、図3、図4のよう
に字幕領域内の隣接するブロックでは、異なる文字が存
在したり、一つの文字の異なる部分が存在し、ブロック
間の差異が大きくなるので、隣接するブロックの差異が
大きい値になるブロックを検出することで、字幕領域の
ブロックを検出できる。
【0053】また、本実施の形態では、図5に示すよう
に縦長の小領域に分割し、小領域内の高輝度画素数を小
領域の特徴量Fにした。図5において、501は左端の
小領域を示す。このとき、図6に示すような、横線の位
置が上下方向にずれた2つのブロックの差異は、小さい
値になる。従って、図18に示した横縞模様のような繰
り返しパターンを字幕領域と判定せず、従来法に比べて
誤検出を削減する効果がある。逆に、図7に示すような
文字のブロック701、702においては、ブロックの
差異が大きい値になり字幕として正しく検出できる。
【0054】図2に示した処理手順を字幕領域検出プロ
グラムとして記憶媒体に記憶することにより、各種コン
ピュータにインストールして字幕領域検出方法を実行
し、画像から字幕領域を検出することが可能となる。
【0055】(実施の形態2)字幕領域検出方法を用い
た動画像検索装置の実施の形態について説明する。実施
の形態1で説明した字幕領域検出方法を用いてもよい
が、ここでは実施の形態1と異なるコンピュータシステ
ムにより実現した字幕領域検出装置を用いて説明する。
【0056】図8は、実施の形態2の動画像検索装置を
示す構成図である。図8において、801はCRT等の
ディスプレイ装置であり、コンピュータ802の出力画
面を表示する。コンピュータ802に対する命令は、ポ
インティングデバイス803を用いて行うことができ
る。動画像再生装置804は、光ディスクやビデオデッ
キ等である。動画像再生装置804から出力される映像
信号は、逐次A/D変換器805によってデジタル信号
に変換され、コンピュータ802に送られる。コンピュ
ータ802の内部では、インタフェース806を介して
メモリ807に入り、映像圧縮プログラムに従ってCP
U808によって圧縮される。圧縮された映像データは
外部記憶装置809に蓄積される。外部記憶装置809
に蓄積された映像データを再生する場合には、映像デー
タがインタフェース810を介してメモリ807に入
り、映像再生プログラムに従ってCPU808によって
再生される。CPU808は、映像圧縮処理、映像再生
処理の他に、字幕領域検出処理、画像圧縮処理、画像伸
長処理なども実行する。また、外部記憶装置には、圧縮
された映像データのほかに、字幕領域の座標データ、字
幕領域を含むフレーム画像(字幕画像)の時刻も記憶す
る。
【0057】図9は、CPU808に従って実行される
動画像検索処理をブロック図で示したものである。図9
において、ユーザ・インタフェース手段901は、ユー
ザーからの各種の指示を受け付ける。全体制御手段90
2は、ユーザ・インタフェース手段からの命令を解釈
し、各種の処理を制御する。映像圧縮手段903は、動
画像再生装置で再生される映像を圧縮して外部記憶装置
809に記憶する。時刻管理手段904は、現在の時刻
を調べる。画像抽出手段905は、外部記憶装置809
の映像データを処理して、所定の時刻のフレーム画像を
伸長し、フレーム画像をメモリ807に一時的に記憶す
る。字幕領域検出手段906は、メモリ807のフレー
ム画像に対して、字幕領域検出プログラムに従って字幕
領域検出処理を実行し、字幕領域検出結果を外部記憶装
置809に記録する。
【0058】画像圧縮手段907は、メモリ807のフ
レーム画像を圧縮して外部記憶装置809に記録する。
代表画像抽出手段908は、一部の字幕画像を動画像の
代表画像にする手段であり、時系列のフレーム画像の字
幕領域を比較して字幕領域の出現を検出する字幕出現判
定手段909と、ある字幕領域が出現してから次の字幕
領域が出現するまでのフレーム画像中の1枚を代表画像
にする代表画像判定手段910から構成される。代表画
像表示手段911は、外部記憶装置809に記憶された
代表画像とその時刻をディスプレイ装置801に表示す
る。映像再生手段912は、指定された代表画像の時刻
を調べて、そこから映像を再生してディスプレイ装置8
01に表示する。
【0059】図10は、字幕領域検出手段906で実行
される字幕領域検出処理をブロック図で示したものであ
る。図10において、1001は入力されたフレーム画
像を複数個のブロックに分割する画像分割手段である。
1002は、文字が存在する可能性の高いブロック(候
補ブロック)を判定する候補ブロック判定手段であり、
ブロックの各画素が字幕の文字の一部である画素(字幕
画素)かどうかを判定する字幕画素判定手段1003
と、ブロック中の字幕画素の総数が閾値以上になると
き、ブロックを候補ブロックと判定するブロック判定手
段1004から構成される。1005は、水平方向に閾
値th3個以上連続する候補ブロックを検出して候補領
域とする候補領域判定手段である。1006は、候補領
域中で隣接する候補ブロック間の差異を計算するブロッ
ク差異計算手段であり、候補ブロックを小領域に分割す
るブロック分割手段1007と、小領域中の各画素が字
幕画素かどうかを判定する小領域字幕画素判定手段10
08と、小領域中の字幕画素の総数を小領域の特徴量と
して出力する字幕画素数出力手段1009と、隣接する
2つの候補ブロックで同一位置にある小領域の特徴量の
差異を計算する小領域差異計算手段1010と、小領域
差異計算手段1010から出力される差異の値の総和を
計算して候補ブロックの差異にする総和計算手段101
1から構成される。1012は、候補ブロックの差異の
平均を計算する平均計算手段である。1013は、平均
計算手段から出力される差異が閾値以上になるとき、差
異の平均値を求めた候補領域を字幕領域と判定する領域
判定手段である。1014は、領域判定手段の出力を受
けて、字幕領域の座標を出力する座標出力手段である。
【0060】以下、動画像検索装置の動作について、図
11のフローチャートを用いて説明する。
【0061】手順1101では、ユーザーが動画像再生
装置804を操作して映像を再生する。手順1102で
は、映像圧縮手段903が映像を圧縮して外部記憶装置
809に記憶する。
【0062】手順1103では、画像抽出手段905が
時刻管理手段904から現在の時刻を読み取り、字幕領
域検出開始時刻Tsとし、経過時間Tdを0とし、画像番号
xを0とする。
【0063】手順1104では、画像抽出手段905
が、外部記憶装置809の映像データを処理して、時刻
Tdのフレーム画像を伸長し、フレーム画像Ix(画像番
号xは0以上の整数)をメモリ807に一時的に記憶す
る。手順1105では、字幕領域検出手段906が、メ
モリ807のフレーム画像に対して、後述する字幕領域
検出処理を実行し、画像番号x、時刻Td、字幕領域の有
無、字幕領域の座標を外部記憶装置809に記録する。
【0064】手順1106では、メモリ807のフレー
ム画像に字幕領域が存在する場合に手順1107に進
み、そうでなければ手順1108に進む。手順1107
では、画像圧縮手段907が、メモリ807のフレーム
画像を圧縮して外部記憶装置809に記録する。
【0065】手順1108では、画像抽出手段905が
時刻管理手段904から現在の時刻を読み取り、字幕領
域検出開始時刻Tsとの差を経過時間Tdとし、画像番号x
に1を加える。
【0066】手順1109では、経過時間Tdが映像の時
間長を超える場合には手順1110に進み、そうでなけ
れば手順1104に戻る。手順1110では、画像番号
j(jは0以上の整数)のフレーム画像におけるk番目
の字幕領域CR(j,k)が次の2条件を同時に満足するか
どうかを調べ、CR(j,k)がこの2条件を同時に満足す
る場合に、画像番号jのフレーム画像を「字幕領域が出
現するフレーム画像」とする。
【0067】条件1:画像番号j+1のフレーム画像では
領域CR(j,k)が字幕領域である。 条件2:画像番号j-1のフレーム画像では領域CR(j,k)
が字幕領域ではない。 手順1111では、代表画像判定手段910が、「字幕
領域が出現するフレーム画像」を代表画像にする。
【0068】手順1112では、代表画像表示手段91
1が、外部記憶装置809に記憶された代表画像とその
時刻をディスプレイ装置801に表示する。手順111
3では、ユーザーが代表画像を選択したら、映像再生手
段912が、指定された代表画像の時刻を調べて、そこ
から映像を再生してディスプレイ装置801に表示す
る。
【0069】ユーザーは、所望の映像が見つかるまで、
いくつでも代表画像を選択することができる。従って、
手順1113は、ユーザーが終了の指示を出すまで、繰
り返されることになる。
【0070】ディスプレイ装置801に表示する代表画
像と映像は、例えば図12に示すように配置すればよ
い。1201はディスプレイ装置上のウインドウを操作
するマウスカーソルである。1202は代表画像ウイン
ドウであり、代表画像とその時刻が一覧表示される。マ
ウスカーソルで前ページボタン1203または次ページ
ボタンを選択すると、他の代表画像を表示させることが
できる。マウスカーソルで終了ボタン1204を選択す
ると、代表画像ウインドウが消える。マウスカーソルで
代表画像1205〜1210の一つを選択すると、選択
した代表画像の時刻から映像が再生され、映像表示ウイ
ンドウ1211に表示される。映像表示ウインドウは、
マウスカーソルで終了ボタン1212を選択することで
消すことができる。
【0071】以下、字幕領域検出手段906で実行され
る字幕領域検出処理について、図13のフローチャート
を用いて説明する。
【0072】手順1301では、画像分割手段1001
が、入力されたw×h画素(w、hは自然数)のフレー
ム画像をm×n画素(m、nは自然数)のブロックに分
割し、各ブロックの座標を出力する。また、ブロック番
号j(jは自然数)を1に設定し、ブロック数Nbの値を
設定する。以下、j番目のブロックをB(j)とよぶ。な
お、ブロック番号は、左から右、上から下に順番につけ
ていく。従って、左上端のブロックではブロック番号が
1になり、その右隣のブロックではブロック番号が2に
なる。右下端のブロックではブロック番号がNbになる。
【0073】手順1302では、字幕画素判定手段10
03が、ブロックの画素の中で、輝度値が閾値th1以
上になる画素を字幕画素と判定する。手順1303で
は、ブロック判定手段1004が、ブロックB(j)の字
幕画素の総数S(j)を計算する。
【0074】手順1304では、字幕画素の総数S(j)
が閾値th2より大きい値になるとき手順1305に進
み、そうでなければ手順1306に進む。手順1305
では、ブロックB(j)を候補ブロックと判定する。
【0075】手順1306では、ブロックB(j)が候補
ブロックではないか、またはブロックB(j-1)が右端の
ブロックであるとき、次の4条件を同時に満足するブロ
ックB(k)があるかどうかを判定する。次の4条件を同
時に満足するブロックB(k)が見つかった場合には、ブ
ロックB(k)とブロックB(j-1)の間を候補領域と判定す
る。 条件1:ブロックB(k)とブロックB(j-1)の間がすべて
候補ブロックである。 条件2:ブロックB(j)が候補ブロックでないか、また
はブロックB(j-1)が右端のブロックである。 条件3:ブロックB(k-1)が候補ブロックでないか、ま
たはブロックB(k)が左端のブロックである。 条件4:(j−k)が閾値th3以上になる。
【0076】手順1307では、ブロックB(k)とブロ
ックB(j-1)の間が候補領域になるとき手順1308に
進み、そうでなければ手順1316に進む。手順130
8では、ブロック分割手段1007が、m×n画素のブ
ロックを1×n画素の小領域に分割し、各小領域の座標
を出力する。以下、y番目のブロックB(y)におけるz
番目の小領域をR(y,z)とよぶ。
【0077】手順1309では、小領域字幕画素判定手
段1008が、小領域の画素の中で、輝度値が閾値th
1以上になる画素を字幕画素と判定する。手順1310
では、字幕画素数出力手段1009が、小領域中の字幕
画素の総数を計算し、小領域の特徴量として出力する。
以下、小領域R(y,z)の特徴量をF(y,z)とよぶ。
【0078】手順1311では、小領域差異計算手段1
010が、隣接する2つのブロックB(y-1)、B(y)で同
一位置にある小領域R(y-1,z)、R(y,z)の特徴量F(y-
1,z)、F(y,z)の差異DR(y,z)を計算する。DR(y,z)の計
算式は、F(y,z)が2以上のとき、
【0079】
【数3】
【0080】であり、F(y,z)が1以下のとき、
【0081】
【数4】
【0082】である。手順1312では、総和計算手段
1011が、小領域差異計算手段1010から出力され
るm個の差異DR(y,1)、DR(y,2)、・・・、DR(y,m)の総
和を求め、隣接するブロックB(y-1)、B(y)の差異DB
(y)とする。手順1313では、平均計算手段1012
が、総和計算手段1011から出力される(j−k−
1)個の差異DB(k+1)、・・・、DB(j-1)の平均を求め、
候補領域の評価値V(k,j-1)とする。
【0083】手順1314では、候補領域の評価値V
(k,j-1)が閾値th3以上になるとき手順1315に進
み、そうでなければ手順1316に進む。手順1315
では、座標出力手段1014が、ブロックB(k)の左上
端の座標とブロックB(j-1)の右下端の座標を出力す
る。手順1316では、ブロック番号jに1を加える。
【0084】手順1317では、ブロック番号jがブロ
ック数Nbより大きいとき処理を終了し、そうでなければ
手順1302に戻る。以上の説明では、候補領域判定手
段1005で水平方向に閾値th3個以上連続する候補
ブロックを検出して字幕領域の候補領域としているが、
垂直方向に連続する候補ブロックを検出して候補領域を
判定してもよい。
【0085】ブロック差異計算手段1006で候補領域
内の隣接するブロック間の差異を計算しているが、差異
を計算するブロックの組み合わせを限定するものではな
い。例えば、計算量を削減して高速に処理するために、
一つおきのブロック間のように隣接しないブロック間の
差異を計算してもよい。
【0086】手順1313では、差異DB(k+1)、・・
・、DB(j-1)の平均を評価値としているが、評価値の計
算方法を限定するものではない。例えば、差異DB(k+
1)、・・・、DB(j-1)の最小値を評価値としたり、最大
値を評価値としたり、最大値と最小値を除いた(j-k-3)
個の値の平均値を評価値としてもよい。
【0087】手順1108では、時刻管理手段904か
ら現在の時刻Tnを読み取り、字幕領域検出開始時刻Tsと
の差(Ts-Tn)を経過時間Tdとしているが、字幕検出速
度Vdをあらかじめ設定しておき、Vd倍した値(Ts-Tn)×V
dを経過時間Tdとしてもよい。このとき、で手順110
3を終了してから手順1110に進むまでの繰り返し処
理の時間を、映像の時間長の1/Vdにすることができ
る。
【0088】本実施の形態では、1台のコンピュータで
映像圧縮、字幕領域検出、代表画像表示などのすべての
処理を実行しているが、複数のコンピュータをネットワ
ークで接続して役割分担をしてもよい。例えば、図14
に示すように、映像圧縮を実行するコンピュータ140
1、映像や代表画像などのデータを蓄積するコンピュー
タ1402、字幕領域検出をして代表画像を決定するコ
ンピュータ1403、代表画像の表示と映像の再生をす
ることができる検索用のコンピュータ1404、コンピ
ュータネットワークを構成するためのハブ1405から
システムを構成してもよい。映像圧縮を実行するコンピ
ュータ1401には、ビデオデッキ1406で再生した
映像の信号を入力することができる。検索用のコンピュ
ータ1404では、World Wide Webのブラウザを用いて
代表画像を表示してもよい。
【0089】代表画像の字幕領域の画像に対して、従来
から広く利用されている文字認識の技術を適用し、代表
画像に現れた字幕を文字コードに変換して外部記憶装置
に記憶してもよい。文字認識の技術を適用する画像の種
類は、文字認識方式に合わせて決めればよい。例えば、
カラー画像でもよいし、輝度成分だけを用いた白黒画像
でもよいし、字幕画素判定手段1003で求めた字幕画
素を1としてそれ以外の画素を0とした2値画像でもよ
い。
【0090】手順1105では、字幕領域検出処理を実
行し、画像番号x、時刻Td、字幕領域の有無、字幕領域
の座標を外部記憶装置809に記録しているが、他の情
報を記録してもよい。例えば、時刻Tdのフレーム画像の
効率よくアクセスするために、映像データファイルの先
頭から時刻Tdのフレーム画像データの先頭までのバイト
数も記録してもよい。
【0091】手順1111では、「字幕領域が出現する
フレーム画像」を代表画像にしているが、字幕領域を含
むフレーム画像であれば、他のフレーム画像を代表画像
にしてもよい。
【0092】ディスプレイ装置に代表画像を一覧表示す
る例を示したが、代表画像の時刻前後の映像を所定の時
間ずつ再生するようにしてもよい。例えば、代表画像の
時刻の2秒前から代表画像の時刻の3秒後までの映像を
次々に再生すればよい。このようにすれば、映像によっ
て内容を把握したり見たいシーンを検索することができ
る。
【0093】本実施の形態によれば、字幕領域の候補
(候補領域)に含まれるブロックの差異が大きい値にな
るかどうかを判定することで、字幕を含む候補領域を字
幕領域として検出することができる。また、文字が存在
する可能性の高いブロック(候補ブロック)を判定し、
候補ブロックが水平方向に連続しているかどうかにより
候補領域を推定しているので、水平方向に文字が並ぶ字
幕を検出することができる。
【0094】字幕は、ニュース番組の話題や、被写体の
名称、特徴などを表すことが多い。本実施の形態のよう
に、字幕領域を含む画像を代表画像として一覧表示する
ことで、話題や被写体に着目して映像を検索することが
できる。
【0095】
【発明の効果】以上のように、本発明によれば、画像の
一部または全体を複数個のブロックに分割し、ブロック
の間の差異を計算し、差異を用いて字幕領域を判定する
ことで、繰り返しパターンから構成される矩形領域が字
幕領域と判定されるケースを減少させ、字幕領域の誤検
出を削減することができる。
【0096】また、誤検出の少ない字幕領域検出を用い
ることにより、高精度な動画像検索を可能とする。
【図面の簡単な説明】
【図1】本発明の実施の形態1における字幕領域検出装
置を示す構成図
【図2】本発明の実施の形態1における字幕領域検出処
理を示すフローチャート
【図3】字幕領域を含む画像のブロック分割の例を示す
【図4】字幕領域を含む画像のブロック分割の例を示す
【図5】ブロックの小領域への分割の例を示す図
【図6】横線の位置が上下方向にずれた2つのブロック
の例を示す図
【図7】字幕領域における2つのブロックの例を示す図
【図8】本発明の実施の形態2における動画像検索装置
を示す構成図
【図9】本発明の実施の形態2における動画像検索処理
を示すブロック図
【図10】本発明の実施の形態2における字幕領域検出
処理を示すブロック図
【図11】本発明の実施の形態2における動画像検索処
理を示すフローチャート
【図12】本発明の実施の形態2におけるディスプレイ
装置の画面の例を示す図
【図13】本発明の実施の形態2における字幕領域検出
処理を示すフローチャート
【図14】本発明の実施の形態2における計算機ネット
ワークを用いた動画像検索装置を示す構成図
【図15】従来の字幕領域検出装置を示す構成図
【図16】従来の字幕領域検出処理を示すフローチャー
【図17】従来の字幕領域検出装置の字幕領域抽出手段
の処理を示すフローチャート
【図18】従来の字幕領域検出装置で字幕領域を含む画
像として誤検出する画像の例を示す図
【符号の説明】
101 入力端子 102 画像分割手段 103 ブロック差異計算手段 104 ブロック分割手段 105 字幕画素判定手段 106 字幕画素数出力手段 107 小領域差異計算手段 108 総和計算手段 109 領域判定手段 110 出力端子 801 ディスプレイ 802 コンピュータ 803 ポインティングディバイス 804 動画像再生装置 805 A/D変換器 806 I/F 807 メモリ 808 CPU 809 外部記憶装置 810〜812 I/F 901 ユーザ・インタフェース手段 902 全体制御手段 903 映像圧縮手段 904 時刻管理手段 905 画像抽出手段 906 字幕領域検出手段 907 画像圧縮手段 908 代表画像抽出手段 909 字幕出現判定手段 910 代表画像判定手段 911 代表画像表示手段 912 映像再生手段 1001 画像分割手段 1002 候補ブロック判定手段 1003 字幕画素判定手段 1004 ブロック判定手段 1005 候補領域判定手段 1006 ブロック差異計算手段 1007 ブロック分割手段 1008 小領域字幕画素判定手段 1009 字幕画素数出力手段 1010 小領域差異計算手段 1011 総和計算手段 1012 平均計算手段 1013 領域判定手段 1014 座標出力手段 1401〜1404 コンピュータ 1405 ハブ 1406 ビデオデッキ

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 画像の一部または全体を複数個のブロッ
    クに分割し、ブロックの間の差異を計算し、前記ブロッ
    ク間の差異を用いて字幕領域のブロックを判定すること
    を特徴とする字幕領域検出方法。
  2. 【請求項2】 字幕領域の判定は、隣接するブロックの
    間の差異を計算し、差異が閾値以上になるブロックを字
    幕領域とするように実行することを特徴とする請求項1
    記載の字幕領域検出方法。
  3. 【請求項3】 画像の一部または全体を複数個のブロッ
    クに分割し、文字が存在する可能性の高いブロックを候
    補ブロックとし、候補ブロックの空間的な分布を用いて
    候補領域を決定し、候補領域内のブロック間の差異を計
    算し、前記ブロック間の差異を用いて字幕領域のブロッ
    クを判定することを特徴とする字幕領域検出方法。
  4. 【請求項4】幕領域の判定は、候補領域内の隣接ブロッ
    ク間の差異の平均値が閾値以上になるとき候補領域を字
    幕領域とするように実行することを特徴とする請求項3
    記載の字幕領域検出方法。
  5. 【請求項5】 候補ブロックが水平方向に連続する領域
    を候補領域とすることを特徴とする請求項3または請求
    項4記載の字幕領域検出方法。
  6. 【請求項6】 文字が存在する可能性の高いブロックの
    検出は、字幕の文字の一部と予想した画素の総数が閾値
    以上になるブロックを検出することで実行することを特
    徴とする請求項3乃至5のいずれかに記載の字幕領域検
    出方法。
  7. 【請求項7】 ブロック間の差異は、字幕の文字の一部
    と予想した画素を用いて計算した値であることを特徴と
    する請求項1乃至6のいずれかに記載の字幕領域検出方
    法。
  8. 【請求項8】 ブロック間の差異は、ブロックを複数の
    小領域に分割し、各小領域に対して、字幕の文字の一部
    と予想した画素の総和を計算して小領域の特徴量とし、
    同一位置の小領域における特徴量の差異を用いて計算す
    ることを特徴とする請求項1乃至6のいずれかに記載の
    字幕領域検出方法。
  9. 【請求項9】 字幕の文字の一部の画素として予想され
    た画素は、輝度が閾値以上になる画素であることを特徴
    とする請求項6乃至8のいずれかに記載の字幕領域検出
    方法。
  10. 【請求項10】 字幕の文字の一部の画素として予想さ
    れた画素は、輝度が閾値以上になり,かつ,隣接する画
    素との間の輝度差が閾値以上になる画素であることを特
    徴とする請求項6乃至8のいずれかに記載の字幕領域検
    出方法。
  11. 【請求項11】 画像の一部または全体を複数個のブロ
    ックに分割する画像分割手段と、ブロック間の差異を計
    算するブロック差異計算手段と、前記ブロック差異計算
    手段から出力される差異が閾値以上になるブロックを字
    幕領域と判定する領域判定手段とを備えたことを特徴と
    する字幕領域検出装置。
  12. 【請求項12】 画像の一部または全体を複数個のブロ
    ックに分割する画像分割手段と、文字が存在する可能性
    の高いブロックを候補ブロックとする候補ブロック判定
    手段と、候補ブロックの空間的な分布を用いて候補領域
    を決定する候補領域判定手段と、ブロック間の差異を計
    算するブロック差異計算手段と、前記ブロック差異計算
    手段から出力される差異を用いて字幕領域を判定する領
    域判定手段とを備えたことを特徴とする字幕領域検出装
    置。
  13. 【請求項13】 請求項1乃至10のいずれかに記載の
    字幕領域検出方法により得られた結果を用いて代表画像
    を決定し、その代表画像の表示と動画像の再生を実行す
    ることを特徴とする動画像検索方法。
  14. 【請求項14】 動画像からフレーム画像を抽出する画
    像抽出手段と、画像の一部または全体を複数個のブロッ
    クに分割し、ブロックの間の差異を計算し、差異を用い
    て字幕領域のブロックを判定することで、フレーム画像
    中の字幕領域の有無を判定する字幕領域検出手段と、字
    幕領域を含むフレーム画像を動画像の代表画像にする代
    表画像抽出手段と、前記代表画像を表示する表示手段を
    備えたことを特徴とする動画像検索装置。
  15. 【請求項15】 動画像からフレーム画像を抽出する画
    像抽出手段と、画像の一部または全体を複数個のブロッ
    クに分割し、ブロックの間の差異を計算し、差異を用い
    て字幕領域のブロックを判定することで、フレーム画像
    中の字幕領域の有無を判定する字幕領域検出手段と、前
    記字幕領域を含むフレーム画像を動画像の代表画像とす
    る代表画像抽出手段と、前記代表画像の字幕領域中の字
    幕を文字認識する文字認識手段と、前記代表画像および
    前記文字認識結果を表示する表示手段とを備えたことを
    特徴とする動画像検索装置。
  16. 【請求項16】 動画像からフレーム画像を抽出する画
    像抽出手段と、画像の一部または全体を複数個のブロッ
    クに分割し、ブロックの間の差異を計算し、差異を用い
    て字幕領域のブロックを判定することで、フレーム画像
    中の字幕領域の有無を判定する字幕領域検出手段と、前
    記字幕領域を含むフレーム画像を動画像の代表画像にす
    る代表画像抽出手段と、前記動画像全体の中から代表画
    像の時刻付近の動画像を代表動画像とする代表動画像抽
    出手段と、前記代表動画像抽出手段からの複数の代表動
    画像を次々に再生して表示する表示手段を備えた動画像
    検索装置。
  17. 【請求項17】 動画像からフレーム画像を抽出する画
    像抽出手段と、画像の一部または全体を複数個のブロッ
    クに分割し、ブロックの間の差異を計算し、差異を用い
    て字幕領域のブロックを判定することで、フレーム画像
    中の字幕領域の有無を判定する字幕領域検出手段と、前
    記字幕領域を含むフレーム画像を動画像の代表画像にす
    る代表画像抽出手段と、前記代表画像抽出手段の中から
    1枚の代表画像を選択する入力手段と、前記代表画像抽
    出手段で抽出された複数の代表画像を第1の領域に表示
    し、前記入力手段で選択された代表画像の時刻から前記
    動画像を再生し第2の領域に表示する表示手段を備える
    ことを特徴とする動画像検索装置。
  18. 【請求項18】 代表画像抽出手段が、時系列のフレー
    ム画像の字幕領域を比較して字幕領域の出現を検出する
    字幕出現判定手段と、ある字幕領域が出現してから次の
    字幕領域が出現するまでのフレーム画像中から字幕領域
    を含むフレーム画像を1枚抜き出して代表画像にする代
    表画像判定手段を備えることを特徴とする請求項14乃
    至17のいずれかに記載の動画像検索装置。
  19. 【請求項19】 映像圧縮を実行する映像圧縮手段と、
    映像や代表画像などのデータを蓄積するデータ蓄積手段
    と、請求項1乃至10のいずれかに記載の字幕領域検出
    方法を実行してその結果を用いて代表画像を決定する代
    表画像決定手段と、代表画像の表示と映像の再生を実行
    する検索用の検索手段とを、1つまたは複数のコンピュ
    ータで実行し、各コンピュータを接続するためのネット
    ワーク手段を備えることを特徴とする動画像検索装置。
  20. 【請求項20】 コンピュータによって動画像中のフレ
    ーム画像から字幕領域を検出するプログラムを記録した
    記憶媒体であって、フレーム画像の一部または全体を複
    数個のブロックに分割し、ブロックの間の差異を計算
    し、差異を用いて字幕領域のブロックを判定することを
    特徴とする字幕領域検出プログラムを記憶した記憶媒
    体。
  21. 【請求項21】 コンピュータによって動画像中のフレ
    ーム画像から代表画像を検索・表示するプログラムを記
    録した記憶媒体であって、請求項1乃至10のいずれか
    に記載の字幕領域検出方法により得られた結果を用いて
    代表画像を決定し、その代表画像の表示と映像の再生を
    実行することを特徴とする動画像検索プログラムを記憶
    した記憶媒体。
JP35897198A 1998-12-17 1998-12-17 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置 Expired - Fee Related JP3379453B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35897198A JP3379453B2 (ja) 1998-12-17 1998-12-17 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35897198A JP3379453B2 (ja) 1998-12-17 1998-12-17 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置

Publications (2)

Publication Number Publication Date
JP2000182028A true JP2000182028A (ja) 2000-06-30
JP3379453B2 JP3379453B2 (ja) 2003-02-24

Family

ID=18462070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35897198A Expired - Fee Related JP3379453B2 (ja) 1998-12-17 1998-12-17 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置

Country Status (1)

Country Link
JP (1) JP3379453B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084157A (ja) * 2003-09-05 2005-03-31 Nec Corp 文字認識装置及び方法、文字強調方法、表示装置及び携帯機器
WO2007013238A1 (ja) * 2005-07-27 2007-02-01 Pioneer Corporation 映像処理装置及び映像処理方法
US8041117B2 (en) 2006-07-28 2011-10-18 Fuji Xerox Co., Ltd. Image processing system, computer readable medium storing image processing program and computer data signal embedded with the image processing program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101543277B1 (ko) 2009-02-20 2015-08-11 삼성디스플레이 주식회사 광원 구동 방법
CN104254022B (zh) * 2014-09-25 2018-10-12 小米科技有限责任公司 字幕显示方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192003A (ja) * 1993-12-27 1995-07-28 Hitachi Ltd 動画像検索装置及び方法
JPH08212231A (ja) * 1995-02-02 1996-08-20 Hitachi Ltd 字幕検出方法および動画像の代表画像抽出装置
JPH1040391A (ja) * 1996-07-19 1998-02-13 Nippon Telegr & Teleph Corp <Ntt> 文字出現フレーム抽出装置および方法
JPH1049682A (ja) * 1996-08-02 1998-02-20 Nippon Telegr & Teleph Corp <Ntt> 文字出現フレーム抽出装置
JPH10320557A (ja) * 1997-05-20 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> テロップ文字表示フレーム検出方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192003A (ja) * 1993-12-27 1995-07-28 Hitachi Ltd 動画像検索装置及び方法
JPH08212231A (ja) * 1995-02-02 1996-08-20 Hitachi Ltd 字幕検出方法および動画像の代表画像抽出装置
JPH1040391A (ja) * 1996-07-19 1998-02-13 Nippon Telegr & Teleph Corp <Ntt> 文字出現フレーム抽出装置および方法
JPH1049682A (ja) * 1996-08-02 1998-02-20 Nippon Telegr & Teleph Corp <Ntt> 文字出現フレーム抽出装置
JPH10320557A (ja) * 1997-05-20 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> テロップ文字表示フレーム検出方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084157A (ja) * 2003-09-05 2005-03-31 Nec Corp 文字認識装置及び方法、文字強調方法、表示装置及び携帯機器
JP4631258B2 (ja) * 2003-09-05 2011-02-16 日本電気株式会社 携帯機器
WO2007013238A1 (ja) * 2005-07-27 2007-02-01 Pioneer Corporation 映像処理装置及び映像処理方法
JPWO2007013238A1 (ja) * 2005-07-27 2009-02-05 パイオニア株式会社 映像処理装置及び映像処理方法
JP4637180B2 (ja) * 2005-07-27 2011-02-23 パイオニア株式会社 映像処理装置及び映像処理方法
US8041117B2 (en) 2006-07-28 2011-10-18 Fuji Xerox Co., Ltd. Image processing system, computer readable medium storing image processing program and computer data signal embedded with the image processing program

Also Published As

Publication number Publication date
JP3379453B2 (ja) 2003-02-24

Similar Documents

Publication Publication Date Title
JP3361587B2 (ja) 動画像検索装置及び方法
US7339992B2 (en) System and method for extracting text captions from video and generating video summaries
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
US6157744A (en) Method and apparatus for detecting a point of change in a moving image
US6366699B1 (en) Scheme for extractions and recognitions of telop characters from video data
Aoki et al. A shot classification method of selecting effective key-frames for video browsing
US6243419B1 (en) Scheme for detecting captions in coded video data without decoding coded video data
US7929765B2 (en) Video text processing apparatus
KR100636910B1 (ko) 동영상검색시스템
US6606409B2 (en) Fade-in and fade-out temporal segments
US8971585B2 (en) Image processing apparatus for retrieving object from moving image and method thereof
US20130021529A1 (en) Apparatus, medium, and method segmenting video sequences based on topic
US20050257151A1 (en) Method and apparatus for identifying selected portions of a video stream
EP1482731A2 (en) Broadcast program contents menu creation apparatus and method
US6606636B1 (en) Method and apparatus for retrieving dynamic images and method of and apparatus for managing images
US8311269B2 (en) Blocker image identification apparatus and method
JP3258924B2 (ja) シーン管理装置、シーン管理方法及び記録媒体
JP3655110B2 (ja) 映像処理方法及び装置並びに映像処理手順を記録した記録媒体
US7170935B2 (en) Image processing apparatus and method, and computer-readable memory
JP3379453B2 (ja) 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置
KR20050033075A (ko) 비디오 이미지들의 시퀀스에서 콘텐트 속성을 검출하는 유닛 및 방법
JP3024574B2 (ja) 動画像検索装置
JP2002204392A (ja) 画像処理装置、画像処理システム、画像処理方法、及び記憶媒体
US20070092158A1 (en) Image processing method and image processing apparatus
JP3499729B2 (ja) 複数映像の時空間統合、管理方法及びその装置並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071213

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081213

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091213

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091213

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101213

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101213

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111213

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111213

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121213

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121213

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131213

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees