JPH11205679A - 映像中字幕文字検出方法およびその装置およびその方法を記録した記録媒体 - Google Patents

映像中字幕文字検出方法およびその装置およびその方法を記録した記録媒体

Info

Publication number
JPH11205679A
JPH11205679A JP10008160A JP816098A JPH11205679A JP H11205679 A JPH11205679 A JP H11205679A JP 10008160 A JP10008160 A JP 10008160A JP 816098 A JP816098 A JP 816098A JP H11205679 A JPH11205679 A JP H11205679A
Authority
JP
Japan
Prior art keywords
character
subtitle
image
calculating
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10008160A
Other languages
English (en)
Other versions
JP3439105B2 (ja
Inventor
Hiroyuki Arai
啓之 新井
Hidekatsu Kuwano
秀豪 桑野
Masaharu Kurakake
正治 倉掛
Kenji Ogura
健司 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP00816098A priority Critical patent/JP3439105B2/ja
Priority to US09/204,957 priority patent/US6366699B1/en
Publication of JPH11205679A publication Critical patent/JPH11205679A/ja
Priority to US09/967,431 priority patent/US6501856B2/en
Application granted granted Critical
Publication of JP3439105B2 publication Critical patent/JP3439105B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Studio Circuits (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 動きながら表示される映像中の字幕文字を一
まとまりの文字列として正確かつ高速に検出できる映像
中字幕文字検出方法および装置を提供する。 【解決手段】 映像から一定時間間隔毎にフレーム画像
を獲得し、各フレーム画像から文字部分に特徴的に現れ
る特徴点を検出する。この該特徴点の空間分布から字幕
文字の出現を検知し、検知されたフレーム画像とそれに
続いて獲得したフレーム画像における特徴点同士を照合
して、字幕全体の移動量を算出する。この移動量を用い
て当該フレーム画像間で共通表示される字幕文字が空間
的に重なるように一方の画像の座標値を変換した上で、
各画像において検出された特徴点を局所的に照合し、字
幕の各文字部分の局所的なずれの値を算出する。局所的
なずれが検出された画像部分に適当な幾何変換を施して
局所的なずれを補正する。これで、フレーム画像間で共
通表示される字幕文字同士を正確に対応させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、映像情報に様々な
情報を付与し再編集する映像編集システムや、映像情報
の管理、検索を行う映像データベースシステムや映像情
報提供システムにおける画像情報処理方法、およびテレ
ビ、ビデオテープレコーダ、DVD等の映像入力・記録
・表示装置において、映像内の情報を抽出し、加工・再
編集・記録・表示することにより、映像情報の利用の利
便性を高めるための画像情報処理技術に関する。
【0002】
【従来の技術】映像内の情報を抽出する技術として字幕
文字検出方法がある。これまでに提案された字幕文字検
出方法では、文字部分に特徴的に現れる特徴点の空間的
な分布を用いて字幕文字の出現を検知し、多くの字幕文
字が一定時間画面上に静止して表示されるという性質を
利用して一まとまりの字幕文字列を検出していた。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
ような従来手法では、字幕文字が画面上に一定時間静止
しているという性質を利用していたため、動きながら表
示される字幕文字には対応することができなかった。
【0004】動きながら表示される字幕文字を一まとま
りの文字列として検出するためには、字幕文字の移動量
を推定し、連続するフレーム画像において共通に表示さ
れている字幕文字同士の対応をとる必要がある。さらに
画像中から字幕文字画像(文字そのものの画像)を精度
良く検出するためには、連続するフレーム画像において
共通的に表示されている文字画像部分をそれぞれ正確に
重ね合わせることが必要となる。しかし、移動しながら
表示される字幕文字は、傾きや伸縮を伴っている場合も
多く、字幕文字全体の移動量を用いて重ね合わせただけ
では十分な精度は得られない。従って字幕文字全体の移
動量に加え、局所的なずれや歪みの補正を行う必要があ
る。しかし、字幕文字の移動量の算出および局所的な補
正を精度良くかつ実用可能な処理時間で行う手法は、確
立されていない。
【0005】本発明は、これまでに提案された字幕文字
検出方法の、字幕が動きながら表示される場合にその移
動量の算出および局所的な補正を正確かつ高速に行うこ
とができないという欠点を克服し、動きながら表示され
る字幕文字を一まとまりの文字列として検出することが
できる映像中字幕文字検出方法および装置を提供するこ
とを課題とする。
【0006】
【課題を解決するための手段】本発明は、下記の(1)
〜(9)の発明により、上記の課題を解決する。
【0007】(1)映像中に挿入される字幕文字を検出
する字幕文字検出方法であって、映像から一定時間間隔
毎にフレーム画像を獲得する手順と、前記獲得した各フ
レーム画像から文字部分に特徴的に現れる特徴点を検出
する手順と、前記検出した特徴点の空間分布から字幕文
字の出現を検知する手順と、前記字幕文字の出現が検知
されたフレーム画像とそのフレーム画像に引き続いて獲
得されたフレーム画像における特徴点同士を照合するこ
とにより字幕全体の移動量を算出する手順と、前記字幕
全体の移動量を用いて当該フレーム画像間で共通して表
示される字幕文字が空間的に重なるように一方の画像の
座標値を変換した上で、各々の画像において検出された
特徴点を局所的に照合することにより字幕を構成する各
文字部分の局所的なずれの値を算出する手順と、前記局
所的なずれが検出された画像の部分に対し適当な幾何変
換を施して前記局所的なずれを補正することにより当該
フレーム画像間で共通して表示される字幕文字同士を正
確に対応させる手順と、を有することを特徴とする映像
中字幕文字検出方法。
【0008】(2)上記(1)において、前記字幕文字
全体の移動量の算出する手順は、字幕文字の出現が検知
されたフレーム画像上の横方向または縦方向の全てのラ
インに対し、横方向のラインに対しては縦方向のライン
座標値、縦方向のラインに対しては横方向のライン座標
値をインデクスとし当該ライン上の全ての特徴点の位置
情報を登録した参照テーブルを作成する手順と、引き続
いて獲得されたフレーム画像の各ライン上の全ての特徴
点の位置と、前記参照テーブルで同じライン座標値に登
録されている全ての特徴点との位置の差分値を計算する
手順と、全てのラインについて算出された全ての差分値
の横方向または縦方向についての頻度分布を計算し、最
も頻度の高い差分値を字幕文字全体の横方向または縦方
向の移動量とする手順と、を有することを特徴とする映
像中字幕文字検出方法。
【0009】(3)上記(1)または(2)において、
前記字幕文字部分の局所的なずれの値の算出する手順
は、上記(2)の字幕文字全体の移動量の算出する手順
を有し、該字幕文字全体の移動量の算出する手順を画像
内の小ブロック毎に個別に適用することにより字幕文字
の局所的なずれの値を算出することを特徴とする映像中
字幕文字検出方法。
【0010】(4)上記(1)または(2)または
(3)において、前記字幕文字全体の移動量の算出する
手順の前に、文字が出現している可能性の高い画像部分
を推定を構成する手順を加え、文字が出現している可能
性の高い画像部分を推定した後、前記字幕文字全体の移
動量の算出する手順、および前記字幕を構成する各文字
部分の局所的なずれの値の算出する手順を文字が出現し
ている可能性の高い画像部分に対してのみ適用する、こ
とを特徴とする映像中字幕文字検出方法。
【0011】(5)映像データからフレーム画像を獲得
する第1の手段と、前記獲得したフレーム画像から文字
部分に特徴的に現れる特徴点を検出する第2の手段と、
前記検出した特徴点の空間的な分布から字幕文字の出現
を検知する第3の手段と、連続する二つのフレーム画像
間で前記特徴点を照合することにより字幕文字全体の移
動量を算出する第4の手段と、前記連続する二つのフレ
ーム画像において算出された字幕文字全体の移動量を用
いて検出された特徴点を局所的に照合することにより字
幕を構成する各文字部分の局所的なずれの値を算出する
第5の手段と、前記二つのフレーム画像のうち一方のフ
レーム画像の一部分に対して幾何変換を施すことにより
前記局所的なずれを補正する第6の手段と、これらの第
1〜6の手段を制御する第7の手段と、を備えることを
特徴とする映像中字幕文字検出装置。
【0012】(6)上記(5)において、前記第4の手
段を、特徴点の位置を画像上の各横ラインまたは縦ライ
ン毎に記録した参照テーブルを作成する第8の手段と、
ある画像における横または縦のライン上の全ての特徴点
の位置と前記参照テーブルに登録されている全ての特徴
点との位置の差分をライン毎に計算する第9の手段と、
全てのラインについて算出された全ての前記差分値の横
方向または縦方向についての頻度分布を計算し最も頻度
の高い差分値を検出する第10の手段と、前記第8、第
9、第10の手段を画像全体に対して適用するための制
御を行う第11の手段とを用いて実現することを特徴と
する映像中字幕文字検出装置。
【0013】(7)上記(5)または(6)において、
前記第5の手段を、上記(6)の第8、第9、第10の
手段を備えるとともに、これらの第8、第9、第10の
手段を画像中の部分領域に対して適用するための制御を
行う第12の手段を備え、前記第8、第9、第10の手
段を、画像中の部分領域に対して適用することにより実
現することを特徴とする映像中字幕文字検出装置。
【0014】(8)文字が出現している可能性の高い画
像部分を検出する第13の手段を新たに備え、前記第7
の手段に代わり、前記検出した、文字が出現している可
能性の高い画像部分に対してのみ前記第4および第5の
手段を適用するように全体制御を行う第14の手段を備
えることを特徴とする映像中字幕文字検出装置。
【0015】(9)上記(1),(2),(3),
(4)のいずれかの映像中字幕検出方法における手順
を、コンピュータで実行するプログラムとして該コンピ
ュータが読み取り可能な記録媒体に記録したことを特徴
とする映像中字幕検出方法を記録した記録媒体。
【0016】本発明では、映像より一定時間間隔毎に獲
得した各フレーム画像から文字部分の特徴点を検出し、
この特徴点の空間分布から字幕文字の出現を検知し、こ
の出現が検知されたフレーム画像とそれに続くフレーム
画像における特徴点同士を照合して字幕全体の移動量を
算出し、この移動量を用いて当該フレーム画像間で共通
して表示される字幕文字が空間的に重なるように一方の
画像の座標値を変換した上で各画像の特徴点を局所的に
照合して字幕の各文字部分の局所的なずれを算出し、補
正することにより、当該フレーム画像間で共通して表示
される字幕文字同士を正確に対応させることで、字幕文
字が動きながら表示される場合でも、その移動量の算出
および局所的な補正を高速かつ高精度に行うことを可能
にし、動きながら表示される字幕文字を一まとまりの文
字列として検出することが可能にする。
【0017】
【発明の実施の形態】以下、本発明の実施の形態につい
て図を用いて詳細に説明する。
【0018】本発明の手法は、テレビ放送やビデオ出
力、MPEG等の圧縮映像等、全ての映像情報を対象と
する。また本発明の手法では、映像が1枚1枚のフレー
ム画像に変換されていることを前提としているので、必
要に応じそれぞれの信号形式に従いフレーム画像を生成
する手段が必要となる。しかしこれらは既に流通、市販
されているので、本手法では既存の手段を使用するもの
とする。
【0019】本発明の手法の処理の概要を図1、図2、
図3、図4に示す(本発明(1)〜(4)は図1〜図4
に対応する)。図中、nはフレームの通し番号、(n)
は処理対象フレーム番号を表している。また、本発明の
装置構成図を図5、図6、図7、図8に示す(本発明
(5)〜(8)は図5〜図8に対応する)。以下では本
発明(1)〜(8)までを含めた形での実施形態例を示
す。
【0020】まず、本発明(5)に対応する基本的な構
成の実施形態例を示す。図5に示すように、本実施形態
例の映像中字幕文字検出装置は、映像データからフレー
ム画像を獲得するフレーム画像獲得部1と、フレーム画
像から文字部分に特徴的に現れる特徴点を検出する特徴
点検出部2と、特徴点の空間的な分布から字幕文字の出
現を検知する字幕文字検知部3と、連続する二つのフレ
ーム画像間で特徴点を照合することにより字幕文字全体
の移動量を算出する字幕文字移動量算出部4と、連続す
る二つのフレーム画像において算出された字幕文字全体
の移動量を用いて検出された特徴点を局所的に照合する
ことにより字幕を構成する各文字部分の局所的なずれの
値を算出する局所的位置ずれ算出部5と、二つのフレー
ム画像のうち一方のフレーム画像の一部分に対して適当
な幾何変換を施すことにより局所的な位置ずれを補正す
る局所的位置ずれ補正部6と、これらの各部1〜6を制
御する全体制御部(A)7を備える。
【0021】次に、本発明(6)に対応する実施形態例
を示す。図6に示すように、本実施形態例の映像中字幕
文字検出装置は、本発明(5)の実施形態例において、
字幕文字移動量算出部4を、特徴点の位置を画像上の各
横ラインまたは縦ライン毎に記録した参照テーブルを作
成する参照テーブル作成部8と、ある画像における横ま
たは縦のライン上の全ての特徴点の位置と前記参照テー
ブルに登録されている全ての特徴点との位置の差分をラ
イン毎に計算する特徴点差文値計算部9と、全てのライ
ンについて算出された全ての差分値の横方向または縦方
向についての頻度分布を計算し最も頻度の高い差分値を
検出する差分値頻度分布のピーク検出部10と、これら
の各部8〜10を画像全体に対して適用するための制御
を行う制御部(a)11とを用いて実現したものであ
る。
【0022】次に、本発明(7)に対応する実施形態例
を示す。図7に示すように、本実施形態例の映像中字幕
文字検出装置は、本発明(5)または(6)の実施形態
例において、局所的位置ずれ算出部5を、本発明(6)
の参照テーブル作成部8、特徴点差分値計算部9および
差分値頻度分布のピーク検出部10を備えるとともに、
画像中の部分領域に対して適用するための制御を行う制
御部(b)12を備えて、それらの各部8〜10を、画
像中の画像中の部分領域に対して適用することにより実
現したものである。
【0023】次に、本発明(8)に対応する実施形態例
を示す。図8に示すように、本実施形態例の映像中字幕
文字検出装置は、本発明(5)または(6)または
(7)の実施形態例において、字幕文字出現検知部3と
字幕文字列移動量算出部4の間に、文字が出現している
可能性の高い画像部分を検出する文字出現位置推定部1
3を加え、全体制御部7に代わり、文字が出現している
可能性の高い画像部分に対してのみ字幕文字列移動量算
出部4および局所的位置ずれ算出部5を適用するように
全体制御を行う全体制御部(B)14を備えたものであ
る。
【0024】続いて、図1〜図4のフロー図を参照し
て、上記装置の実施形態例の動作とともに、本発明の手
法での処理の実施形態例を説明する。以下に説明する処
理は、次々に生成されるフレーム画像に対し順次繰り返
し行われる。
【0025】まず、フレーム画像獲得部1により獲得し
た、ある時点t0のフレーム画像f0に対してエッジ点等
の特徴点を特徴点検出部2により検出する。特徴点とし
ては、字幕文字部分に特徴的に現れかつ位置が正確に決
まる性質を持つものが好ましい。この条件を満たす特徴
点の例としては単なる輝度エッジ点および彩度エッジ点
等がある。さらに、後段の処理においてより高い精度を
得るためには字幕文字部分により支配的に現れる特徴点
を用いるほうが好ましい。字幕文字部分に支配的に現れ
る特徴点として、エッジペア特徴点(特願平9−129
075号「テロップ文字表示フレーム検出方法および装
置」)が提案されている。エッジペア特徴点とは、字幕
文字と背景の画像の輝度分布または彩度分布が凸状また
は凹状になっていることが多いことに注目したものであ
り、横方向または縦方向に見た時に凸状または凹状の輝
度変化および彩度変化を持つエッジの対(エッジペア)
だけを抽出することによりエッジペア特徴点を得ること
ができる。
【0026】図9にエッジペア特徴点を画像上にマッピ
ングしたエッジペア画像の例を示す。図9(c)は、数
字の「1」のように縦方向の輪郭線が平行している場合
に発生するエッジペア点(以降、縦方向のエッジペア点
と呼ぶ)の例であり、図9(d)は、マイナス記号
「−」のように、横方向の輪郭線が平行している場合に
発生するエッジペア点(以降、横方向のエッジペア点と
呼ぶ)の例である。
【0027】次に、詳細については上記(特願平9−1
29075号「テロップ文字表示フレーム検出方法およ
び装置」)に記載されているように、上記で算出された
エッジペア点の空間的な密集度を調べることにより、字
幕文字が表示されているかどうかを判定することができ
る。そこで、字幕文字出現検知部3によりこの判定を行
い、字幕文字出現を検知する。
【0028】次に、字幕文字が表示されていると判定さ
れた場合、字幕文字列移動量算出部4は、字幕文字が表
示されていると判定されたフレーム画像(以下フレーム
(n))と連続して獲得されたフレーム画像(以下フレ
ーム(n+1))を用いて、字幕文字の移動量を以下の
ような手法により算出する。なお、ここでは連続するフ
レーム画像とは必ずしもビデオレート(秒30枚のフレ
ーム画像)でなくても良く、移動表示されている字幕文
字のうち、およそ半分程度以上の字幕文字が共通に表示
されていれば字幕文字の移動量を算出できる。通常の速
度で移動表示される字幕の場合であれば、秒2〜3枚程
度のレートで算出することが可能である。以下の説明
は、横方向に移動表示される字幕を対象にしているが、
全く同じ原理を用い、横方向と縦方向を入れ替えるだけ
で縦方向に移動する字幕文字にも対応できる。
【0029】〈処理A〉 図2、図6に示すように、こ
こではフレーム(n)と一定時間後に獲得されたフレー
ム(n+1)の2枚のフレーム画像を用いて、参照テー
ブル作成部8により字幕文字の移動量を算出する。まず
はじめに、フレーム(n)において算出されているエッ
ジペア点のうち、縦方向のエッジペア点に対して、画像
の基準点(左端)から見た各エッジペア点の座標値を登
録した参照テーブルを作成する(図10)。この参照テ
ーブルは、画像中の横方向の各ライン毎に別々に作成さ
れる。この際、輝度または彩度が空間的に上昇するエッ
ジ点(上り方向のエッジ点(up))と、輝度または彩
度が空間的に下降するエッジ点(下り方向のエッジ点
(down))は別のものとして、それぞれの参照テー
ブルを作成する。従って、画像の縦方向の画素数がNy
であるとすると、(Ny×2)個の参照テーブルが作成
されることになる。
【0030】なおこの際、前記エッジペア点の密集度の
算出結果を用い、字幕文字が表示されている可能性の高
い範囲を見つけることも可能である(特願平9−129
075号「テロップ文字表示フレーム検出方法および装
置」)ので、図4、図8に示すように字幕文字が表示さ
れている可能性の高い範囲を、文字出現位置推定部13
で推定し、推定された範囲だけを対象として上記参照テ
ーブルを作成することにより、字幕文字以外の部分から
検出されるエッジペア(背景ノイズ)の影響を小さくす
ることもできる(図10上図)。
【0031】〈処理B〉 次に、フレーム(n+1)に
おいて算出されている縦方向のエッジペア点に対して、
それぞれ横方向のライン毎に、対応するライン(同じ縦
方向の座標値を持つライン)に対する参照テーブルに登
録されている全ての座標値との差分を特徴点差分値計算
部9により計算し、差分値頻度分布のピーク検知部10
において差分投票テーブルに投票していく(図11)。
この投票テーブルは差分値に対する投票数を加算してい
くものであり、異なるラインについての投票を全て集約
(加算)していく。この投票の結果、それぞれの画像に
共通する字幕文字が存在している場合には鋭いピークが
得られる。このピークを与える差分値が、2つのフレー
ム画像に表示されている字幕文字の平行移動量に対応す
る。なお、この投票は一般的に知られている一般化ハフ
変換の原理に基づいている。
【0032】なお、投票テーブルにおけるピーク値とそ
の他の値とのSN比が小さい場合には、文字がほとんど
(または全く)表示されていないと考えられるので、こ
のSN比を用いることにより、本当に字幕文字が出現し
たのか、それとも文字以外の背景の影響で誤って字幕文
字が出現したと判定してしまったのかを確認することが
できる。
【0033】以上の処理により、字幕文字の平行移動量
を算出することができるが、移動しながら表示される字
幕は歪みを伴っていることが多い。様々な歪みのパター
ンがあるが、ほとんどは以下の2つのパターンに分類さ
れる。
【0034】(1)字幕が少し傾いて進行する(左下が
り、左上がり)。
【0035】(2)文字の進行方向に対する伸縮があ
る。
【0036】これらが同時に発生する場合もある。
【0037】〈処理C〉 ここでは、(1)に対する補
正法を以下に述べる。処理Bにより算出された移動量に
従い2つのフレーム画像を重ねた場合、(1)のような
歪みがあると、字幕文字同士に上下方向のずれが生じ
る。つまり以下の処理は、処理Bで算出された横方向の
移動量から推定される「同じ文字が共通して表示されて
いる範囲(以下重畳領域と呼ぶ:図12)」に対して行
う。まず、上記の位置ずれを、局所的位置ずれの値を局
所的位置ずれ算出部5により算出し、局所的位置ずれ補
正部6により局所的なずれが検出された部分に対し適当
な幾何変換を施して補正する。
【0038】上述したように処理Bでの横方向の移動量
を算出する際には、縦方向のエッジペア点を用いたが、
上下方向の移動量は、横方向のエッジペア点を用い、処
理Bの縦と横を入れ替えることで、図3、図7に示すよ
うに、特徴点テーブル作成部8、特徴点差分値計算部
9、差分値頻度分布のピーク検出部10により、全く同
様の投票を行うことにより正確に算出することができ
る。
【0039】〈処理D〉 ここでは、(2)の伸縮の補
正方法について説明する。同じく図3、図7に示すよう
に前記重畳領域を対象に以下の処理を行う。まず、重畳
領域を横方向に一定間隔で短冊状の小ブロックに分割す
る(図12)。そして、特徴点テーブル作成部8、特徴
点差分値計算部9、差分値頻度分布のピーク検出部10
により、各小ブロックを単位として処理Bと同様の投票
を行うことにより、小ブロック毎の微小な平行移動量を
算出することができる。なお、この際、ブロックによっ
ては、ほとんど(または全く)字幕文字が含まれていな
い場合もあり、そのような場合には平行移動量は正しく
算出されないので、ブロック内のエッジペア点の数が少
ないブロックは移動量を算出せず、周囲(左右)の移動
量を用いて補完するものとする。
【0040】次に各ブロック毎に算出された微小な平行
移動量を用い、2つのフレーム画像を重畳させる。この
際、伸縮に応じて、縦方向一列の画像の間引き、または
補完(隣と同じ縦方向一列の画像を挿入)等の処理を行
うことにより、2つのフレームにおいて共通に表示され
る字幕文字同士を高い精度で重ね合わせることができ
る。
【0041】カラーセグメンテーション等の画像領域分
割手法を用いることにより、字幕文字画像(字幕文字そ
のものの画像)を抽出することができる。この際、複数
のフレーム画像において表示されている字幕文字同士を
重ね合わせることにより、ノイズや掠れの少ない品質の
高い字幕文字画像の抽出を行うことができるようにな
る。詳細については本発明の対象外であるので割愛す
る。
【0042】なお、以上実施形態例における説明では移
動表示される字幕文字について記述したが、もちろん字
幕文字が静止している場合は移動量が0である一つの場
合にすぎず、本発明を用いることにより対処することが
できる。
【0043】本発明は、映像データを保存したり、ある
いは映像データから獲得した映像フレームを保持し、そ
れらを自由に読み出し可能なハードディスクやそれに準
ずる記憶装置と、特徴点検出、字幕文字検知、字幕文字
列移動量算出、局所的位置ずれ算出、局所的位置ずれ補
正等の処理を行う際のデータの保持等に必要なバッファ
やそれに準ずる装置と、所望の映像や情報を表示、出力
するディスプレイなどの出力装置と、キーボードやマウ
スなどの入力装置を備え、それらハードディスク、バッ
ファ、出力装置及び入力装置などをあらかじめ定められ
た手順に基いて制御するコンピュータやそれに準ずる装
置により、上記の図1〜図4のフロー図で示した本発明
の方法の実施形態例での処理の手順ないしアルゴリズム
を適宜、実行することが可能であり、その手順ないしア
ルゴリズムをコンピュータ等に実行させるためのプログ
ラムを該コンピュータが読み取り可能な媒体、例えばフ
ロッピーディスクやメモリカード、MO、CD−ROM
などに記録して配布することが可能である。
【0044】
【発明の効果】本発明によれば、移動しながら表示され
る字幕文字の移動量の算出を正確かつ高速に行うことが
できるようになるため、移動しながら表示される字幕文
字を一まとまりの文字列として検出することが可能にな
る。
【0045】また、本発明によれば、移動しながら表示
される字幕文字であっても、複数のフレームに表示され
ている字幕文字同士を精度良く重ね合わせることができ
るため、ノイズや掠れの少ない品質の高い字幕文字画像
を抽出することができるようになる。
【0046】これにより、映像情報に様々な情報を付与
し再編集する映像編集システムや、映像情報の管理、検
索を行う映像データベースシステムや映像情報提供シス
テム、およびテレビ、ビデオテープレコーダ、DVD等
の映像入力・記録・表示装置において、映像中の字幕文
字情報の有効活用が可能になり、映像情報の利用の利便
性を高めることができる。
【図面の簡単な説明】
【図1】本発明(1)に対応する手法の処理の実施形態
例を示すフロー図である。
【図2】本発明(2)に対応する手法の処理の実施形態
例を示すフロー図である。
【図3】本発明(3)に対応する手法の処理の実施形態
例を示すフロー図である。
【図4】本発明(4)に対応する手法の処理の実施形態
例を示すフロー図である。
【図5】本発明(5)に対応する装置の実施形態例を示
す構成図である。
【図6】本発明(6)に対応する装置の実施形態例を示
す構成図である。
【図7】本発明(7)に対応する装置の実施形態例を示
す構成図である。
【図8】本発明(8)に対応する装置の実施形態例を示
す構成図である。
【図9】(a),(b),(c),(d)は、上記実施
形態例におけるエッジペア特徴点の例を示す図である。
【図10】上記実施形態例における参照テーブル登録処
理の概要を示す図である。
【図11】上記実施形態例における字幕文字の移動量の
算出方法の概要を示す図である。
【図12】上記実施形態例における重畳領域および局所
補正用のブロック領域の例を示す図である。
【符号の説明】
1…フレーム画像獲得部 2…特徴点検出部 3…字幕文字検知部 4…字幕文字移動量算出部 5…局所的位置ずれ算出部 6…局所的位置ずれ補正部 7…全体制御部(A) 8…参照テーブル作成部 9…特徴点差文値計算部 10…差分値頻度分布のピーク検出部 11…制御部(a) 12…制御部(b) 13…文字出現位置推定部 14…全体制御部(B)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小倉 健司 東京都新宿区西新宿3丁目19番2号 日本 電信電話株式会社内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 映像中に挿入される字幕文字を検出する
    字幕文字検出方法であって、 映像から一定時間間隔毎にフレーム画像を獲得する手順
    と、 前記獲得した各フレーム画像から文字部分に特徴的に現
    れる特徴点を検出する手順と、 前記検出した特徴点の空間分布から字幕文字の出現を検
    知する手順と、 前記字幕文字の出現が検知されたフレーム画像とそのフ
    レーム画像に引き続いて獲得されたフレーム画像におけ
    る特徴点同士を照合することにより字幕全体の移動量を
    算出する手順と、 前記字幕全体の移動量を用いて当該フレーム画像間で共
    通して表示される字幕文字が空間的に重なるように一方
    の画像の座標値を変換した上で、各々の画像において検
    出された特徴点を局所的に照合することにより字幕を構
    成する各文字部分の局所的なずれの値を算出する手順
    と、 前記局所的なずれが検出された画像の部分に対し適当な
    幾何変換を施して前記局所的なずれを補正することによ
    り当該フレーム画像間で共通して表示される字幕文字同
    士を正確に対応させる手順と、 を有することを特徴とする映像中字幕文字検出方法。
  2. 【請求項2】 前記字幕文字全体の移動量の算出する手
    順は、 字幕文字の出現が検知されたフレーム画像上の横方向ま
    たは縦方向の全てのラインに対し、横方向のラインに対
    しては縦方向のライン座標値、縦方向のラインに対して
    は横方向のライン座標値をインデクスとし当該ライン上
    の全ての特徴点の位置情報を登録した参照テーブルを作
    成する手順と、 引き続いて獲得されたフレーム画像の各ライン上の全て
    の特徴点の位置と、前記参照テーブルで同じライン座標
    値に登録されている全ての特徴点との位置の差分値を計
    算する手順と、 全てのラインについて算出された全ての差分値の横方向
    または縦方向についての頻度分布を計算し、最も頻度の
    高い差分値を字幕文字全体の横方向または縦方向の移動
    量とする手順と、 を有することを特徴とする請求項1記載の映像中字幕文
    字検出方法。
  3. 【請求項3】 前記字幕文字部分の局所的なずれの値の
    算出する手順は、 請求項2の字幕文字全体の移動量を算出する手順を有
    し、該字幕文字全体の移動量の算出する手順を画像内の
    小ブロック毎に個別に適用することにより字幕文字の局
    所的なずれの値を算出する、 ことを特徴とする請求項1または2記載の映像中字幕文
    字検出方法。
  4. 【請求項4】 前記字幕文字全体の移動量の算出する手
    順の前に、文字が出現している可能性の高い画像部分を
    推定を構成する手順を加え、 文字が出現している可能性の高い画像部分を推定した
    後、前記字幕文字全体の移動量の算出する手順、および
    前記字幕を構成する各文字部分の局所的なずれの値の算
    出する手順を文字が出現している可能性の高い画像部分
    に対してのみ適用する、 ことを特徴とする請求項1,2,3のいずれかに記載の
    映像中字幕文字検出方法。
  5. 【請求項5】 映像データからフレーム画像を獲得する
    第1の手段と、 前記獲得したフレーム画像から文字部分に特徴的に現れ
    る特徴点を検出する第2の手段と、 前記検出した特徴点の空間的な分布から字幕文字の出現
    を検知する第3の手段と、 連続する二つのフレーム画像間で前記特徴点を照合する
    ことにより字幕文字全体の移動量を算出する第4の手段
    と、 前記連続する二つのフレーム画像において算出された字
    幕文字全体の移動量を用いて検出された特徴点を局所的
    に照合することにより字幕を構成する各文字部分の局所
    的なずれの値を算出する第5の手段と、 前記二つのフレーム画像のうち一方のフレーム画像の一
    部分に対して幾何変換を施すことにより前記局所的なず
    れを補正する第6の手段と、 これらの第1〜6の手段を制御する第7の手段と、 を備えることを特徴とする映像中字幕文字検出装置。
  6. 【請求項6】 前記第4の手段を、 特徴点の位置を画像上の各横ラインまたは縦ライン毎に
    記録した参照テーブルを作成する第8の手段と、 ある画像における横または縦のライン上の全ての特徴点
    の位置と前記参照テーブルに登録されている全ての特徴
    点との位置の差分値をライン毎に計算する第9の手段
    と、 全てのラインについて算出された全ての前記差分値の横
    方向または縦方向についての頻度分布を計算し最も頻度
    の高い差分値を検出する第10の手段と、 前記第8、第9、第10の手段を画像全体に対して適用
    するための制御を行う第11の手段とを用いて実現す
    る、 ことを特徴とする請求項5記載の映像中字幕文字検出装
    置。
  7. 【請求項7】 前記第5の手段を、 請求項6記載の第8、第9、第10の手段を備えるとと
    もに、 これらの第8、第9、第10の手段を画像中の部分領域
    に対して適用するための制御を行う第12の手段を備
    え、 前記第8、第9、第10の手段を、画像中の部分領域に
    対して適用することにより実現する、 ことを特徴とする請求項5または6記載の映像中字幕文
    字検出装置。
  8. 【請求項8】 文字が出現している可能性の高い画像部
    分を検出する第13の手段を新たに備え、 前記第7の手段に代わり、前記検出した、文字が出現し
    ている可能性の高い画像部分に対してのみ前記第4およ
    び第5の手段を適用するように全体制御を行う第14の
    手段を備える、 ことを特徴とする請求項5,6,7のいずれかに記載の
    映像中字幕文字検出装置。
  9. 【請求項9】 請求項1,2,3,4のいずれかに記載
    の映像中字幕検出方法における手順を、コンピュータで
    実行するプログラムとして該コンピュータが読み取り可
    能な記録媒体に記録した、 ことを特徴とする映像中字幕検出方法を記録した記録媒
    体。
JP00816098A 1997-12-04 1998-01-20 映像中字幕文字検出方法およびその装置および記録媒体 Expired - Lifetime JP3439105B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP00816098A JP3439105B2 (ja) 1998-01-20 1998-01-20 映像中字幕文字検出方法およびその装置および記録媒体
US09/204,957 US6366699B1 (en) 1997-12-04 1998-12-03 Scheme for extractions and recognitions of telop characters from video data
US09/967,431 US6501856B2 (en) 1997-12-04 2001-09-28 Scheme for extraction and recognition of telop characters from video data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00816098A JP3439105B2 (ja) 1998-01-20 1998-01-20 映像中字幕文字検出方法およびその装置および記録媒体

Publications (2)

Publication Number Publication Date
JPH11205679A true JPH11205679A (ja) 1999-07-30
JP3439105B2 JP3439105B2 (ja) 2003-08-25

Family

ID=11685590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00816098A Expired - Lifetime JP3439105B2 (ja) 1997-12-04 1998-01-20 映像中字幕文字検出方法およびその装置および記録媒体

Country Status (1)

Country Link
JP (1) JP3439105B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007521736A (ja) * 2003-07-03 2007-08-02 松下電器産業株式会社 映像処理装置、映像処理装置の集積回路、映像処理方法、及び映像処理プログラム
JP2007249256A (ja) * 2006-03-13 2007-09-27 Kyushu Institute Of Technology 物体検出方法
JP2008227990A (ja) * 2007-03-14 2008-09-25 Casio Comput Co Ltd 撮像装置及び撮像装置制御プログラム
JP2008234261A (ja) * 2007-03-20 2008-10-02 Kyushu Institute Of Technology 物体検出方法
JP2008232805A (ja) * 2007-03-20 2008-10-02 Kyushu Institute Of Technology 物体検出方法
JP2011128924A (ja) * 2009-12-18 2011-06-30 Kddi Corp マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
JP2013125281A (ja) * 2011-12-13 2013-06-24 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007521736A (ja) * 2003-07-03 2007-08-02 松下電器産業株式会社 映像処理装置、映像処理装置の集積回路、映像処理方法、及び映像処理プログラム
JP2007249256A (ja) * 2006-03-13 2007-09-27 Kyushu Institute Of Technology 物体検出方法
JP2008227990A (ja) * 2007-03-14 2008-09-25 Casio Comput Co Ltd 撮像装置及び撮像装置制御プログラム
JP2008234261A (ja) * 2007-03-20 2008-10-02 Kyushu Institute Of Technology 物体検出方法
JP2008232805A (ja) * 2007-03-20 2008-10-02 Kyushu Institute Of Technology 物体検出方法
JP2011128924A (ja) * 2009-12-18 2011-06-30 Kddi Corp マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
JP2013125281A (ja) * 2011-12-13 2013-06-24 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Also Published As

Publication number Publication date
JP3439105B2 (ja) 2003-08-25

Similar Documents

Publication Publication Date Title
US6501856B2 (en) Scheme for extraction and recognition of telop characters from video data
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
US8144255B2 (en) Still subtitle detection apparatus and image processing method therefor
JP4377887B2 (ja) 映像分割装置
US9398349B2 (en) Comment information generation device, and comment display device
US7341352B2 (en) Apparatus, method and program for detecting a pointer region, apparatus, method and program for associating images, content-distributing server, and content-distributing method
US7817856B2 (en) Video processing device and its method
WO2014013690A1 (ja) コメント情報生成装置およびコメント情報生成方法
Venkatesh et al. Efficient object-based video inpainting
JP2008520152A (ja) 画像中のテキストの検出および修正
KR20010110416A (ko) 비디오 스트림 분류가능 심볼 고립 방법 및 시스템
JP2009048490A (ja) 類似ショット検出装置、プログラムおよび方法
JP5682218B2 (ja) 差異検出装置、差異出力装置及びプログラム
Erol et al. Linking presentation documents using image analysis
US9256792B2 (en) Image processing apparatus, image processing method, and program
CN102301697B (zh) 视频签名产生设备
JP3439105B2 (ja) 映像中字幕文字検出方法およびその装置および記録媒体
JP3655110B2 (ja) 映像処理方法及び装置並びに映像処理手順を記録した記録媒体
US20210112208A1 (en) Device, method and computer program for extracting object from video
EP1654703B1 (en) Graphics overlay detection
JP5176487B2 (ja) 映像文字検出装置、映像文字検出方法、および映像文字検出プログラム
CN101114442A (zh) 视频窗检测器
CN111507991A (zh) 特征区域的遥感图像分割方法及装置
JP3024574B2 (ja) 動画像検索装置
JP2009217303A (ja) テロップ文字抽出方法およびテロップ文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090613

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090613

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100613

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100613

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120613

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130613

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140613

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term