JP2007006216A

JP2007006216A - 映像中のテロップを抽出するための画像処理装置及び画像処理方法

Info

Publication number: JP2007006216A
Application number: JP2005184917A
Authority: JP
Inventors: Kenzo Isogawa; 賢造五十川; Takashi Ida; 孝井田; Takeshi Mita; 雄志三田; Hidenori Takeshima; 秀則竹島
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-06-24
Filing date: 2005-06-24
Publication date: 2007-01-11

Abstract

【課題】
フレーム画像内を移動するテロップを自動的に抽出する技術が望まれている。
【解決手段】
入力された動画像中のテロップの移動量を検出し（１０２）、複数フレーム間のテロップの動き補償を行なうことにより（１０３）テロップの移動を擬似的にキャンセルし、テロップ抽出のアルゴリズムを適用して（１０４）動画像中のテロップを抽出する。
【選択図】図１

Description

本発明は映像中からテロップに属する画素のみを自動抽出する画像処理装置及び画像処理方法に関する。

従来、動画像からテロップを抽出する技術としては、移動しないテロップを映像から自動的に抽出する技術(例えば、特開2001-285716「テロップ情報処理装置及びテロップ情報処理装置」)がある。この技術によれば光学式文字認識装置（ＯＣＲ）と組み合わせることでテロップの自動認識システムを作成することが可能であり、このシステムは映像データの検索等に利用されている。また、動画像から等速直線運動するテロップが表示されている区間を検出する技術(例えば、特開平11-205679「映像中字幕検出方法およびその装置及びその記録媒体」)も開発されている。

しかし、特開2001-285716に開示された発明は、動画像の単位時間に表示されるフレーム画像を静止画像として取り扱い、フレーム画像間において空間的な位置が変わらないテロップ、すなわち時間的に移動しないテロップを対象にした技術である。したがって時間的にフレーム内を移動しながら表示されるテロップを検出することはできないという問題があった。

また特開平11-205679に開示された発明は、動画像におけるテロップが画面上に存在するか否かを判定する技術であり、動画像中のフレーム内を移動するテロップに関する技術である点で共通するものの、テロップの認識やテロップ形状の抽出を目的とするものではなく、同技術を用いたとしても動画像からテロップを抽出することはできないという問題があった。
特開2001-285716「テロップ情報処理装置及びテロップ情報処理装置」特開平11-205679「映像中字幕検出方法およびその装置及びその記録媒体」

上述したように、従来技術では動画像から時間的、空間的に移動するテロップを自動抽出することができないという問題があった。本発明は、動画像から移動するテロップを自動抽出することを目的とする。

上記目的を達成するために、本発明は、入力された動画像の時間的に異なる３枚以上のフレームに表示されるテロップの移動量を検出し、入力された動画像と前記テロップ移動量検出されたテロップの移動量をもとに映像中のテロップの動きを補償し、前記テロップの動きが補償された複数枚の画像を用いてテロップを抽出する画像処理装置及び方法を提供する。

また本発明においては、入力された動画像中の複数のフレームに表示されるテロップに相当する画素の移動距離と当該フレーム間の表示時間間隔とから前記テロップの移動量を検出し、入力された動画像と前記テロップ移動量検出されたテロップの移動量をもとに映像中のテロップの動きを補償し、前記テロップの動きが補償された複数枚の画像を用いてテロップを抽出する画像処理装置及び方法を提供する。

このような発明の構成によると、動画像中のフレーム間の表示位置が移動するテロップの移動量を算出して、算出された移動量を用いて各フレームのテロップ表示位置を推定し、当該表示位置に相当する領域から画像を読み出すことにより、テロップの移動量を補償し、静止画における移動しないテロップを抽出する手法を移動するテロップに適用することが可能となる。

本発明によれば、動画像中から移動するテロップを自動抽出することが可能になる。

本発明の実施の形態を説明する。図１はこの発明に関わる画像処理装置の構成例を示すブロック図である。

本実施形態では、映像中からテロップを検出しテロップを構成する画素を抽出する。ここにいうテロップとは、図２に示すように「映像201の内容部分(コンテンツ202)の上に表示される文字、図形、記号などの配列203」をいう。なお、以下では映像中のテロップを構成する画素以外で構成される画像の領域を背景領域と呼ぶ。また、処理の対象とするテロップは映像中においてほぼ等速、直線的にフレーム間を移動（運動）するものであり、かつ、背景に比べて高輝度の画素から構成されるという性質を持つものとする。また、テロップはその出現から消滅までの間、色や輝度の変化が無いあるいは少ないものとする。

なお今後の説明は全て垂直上方向に向かうテロップを例にとって行うが、本手法は移動方向が事前に分かっていれば、上方向以外の方向に向かうテロップに対しても適用することが可能である。例えばテロップが水平左方向に移動することが事前に分かっていれば、入力動画像の各フレーム画像を時計回りに90度回転させた動画像を生成し、以後説明する画像処理装置に入力すればよい。

また事前にテロップの移動方向が既知で無い場合の対処法は、以下の２つが考えられる。1つ目は、典型的な２方向（上下または左右）、４方向（上下左右）のいずれかにテロップが移動していると仮定して、想定される全ての方向に対するテロップ検出処理を行ない、検出が成功した場合にのみ結果を用いる方法である。

２つ目は入力動画像からテロップの移動方向を検出する何らかの前処理を行い、その結果に応じて入力動画像を回転させる手法である。この前処理は例えば以下の方法で実現できる。まず、入力動画像のオプティカルフローを求める。次にフレーム内でのオプティカルフローのベクトルの画面内での傾き[0, 2π]を所定の解像度(例えば16)で量子化し、ベクトルの向きの出現頻度のヒストグラムを作る。最後にヒストグラムのビンの中で最大のスコアを持つビンが対応する方向をテロップの移動方向とする。

本実施形態の画像処理装置は、図１に示すように動画像を入力する動画像入力部101、前記動画像からテロップ移動量を検出するテロップ移動量検出部102、前記動画像と前記テロップ移動量検出部102から検出されたテロップ移動量を入力とし異なるフレームに表示される同一テロップの位置ずれを補償した動画像(テロップ動き補償済み動画像)を出力するテロップ動き補償部103、前記テロップ動き補償済み動画像を入力としテロップのみが切り出された二値画像(テロップ抽出結果)を出力するテロップ抽出部104を有する。

以下では、テロップ移動量検出部102の処理手順について説明する。テロップの移動量検出手法は複数考えられるが、以下では４つの手法(以後速度検出手法１〜４)について説明する。

まず、速度検出手法１を実現するテロップ移動量検出部102の構成例を図３に示す。

フレーム間差分２値化画像生成部302は、動画像入力部101から連続する２枚のフレーム画像を取得し、２枚のフレーム内部の同じ位置の画素の画素値を比較し、その差があらかじめ与えられた閾値より大きければ画素値１、そうで無い場合は画素値０を同じ位置の画素に与えたフレーム間差分２値化画像を生成する。この処理により移動していない領域に対応する画素を除き、テロップである蓋然性が高い画素を抽出することができる。

エッジ2値化画像生成部303は、動画像入力部101からフレーム画像を一枚取得し微分オペレータ等を用いてエッジを抽出する。さらにエッジ強度が一定以上の画素には画素値１を与え、それ以外の画素には画素値０を与える２値化を行い、エッジ２値化画像を生成する。テロップは背景との間に高いコントラストを持つため、エッジ強度が一定以上の画素を扱うことで、テロップである蓋然性が高い画素を抽出することができる。

テロップ輪郭抽出部304は、エッジ２値化画像とフレーム間差分２値化画像を取得し、同じ位置の画素の画素値の論理積をとってテロップ輪郭画像を生成する。この操作により、本実施形態が扱うテロップが持つ移動するという特徴と背景との間に高いコントラストを持つという特徴の２つを兼ね備えた画像領域を抽出することができる。以後、この処理で抽出された画素をテロップ輪郭画素と呼ぶ。

なお、上で説明した手法ではテロップの輪郭画像の画素値は０と１のいずれかになっているが、その代わりとしてフレーム画像上での輝度勾配の向きを量子化して生成するエッジの方向に対応する符号(以後「方向コード」と呼ぶ)を用いても良い。輝度勾配の向きは移動量検出部307で行う速度検出処理の高精度化に利用することができる。輝度勾配の方向は、例えば水平軸方向の微分を行うオペレータの出力xdと、垂直軸方向の微分を行うオペレータの出力ydのアークタンジェントarctan(yd / xd)を求めることで得られる。一定以下のエッジ強度を持つ画素には画素値−1、一定以上のエッジ強度を持ち、得られた角度θが−π/16≦θ＜π/16であれば画素値を０、一定以上のエッジ強度を持ちπ/16≦θ＜3π/16であれば画素値を１というようにπ/8刻みで画素値を１ずつ増加させれば図４に示すように、全画素に対し−1〜7まで、全部で９種類の方向コードが割り当てられた画像を生成することができる。

次に時空間スライス画像生成部305について述べる。今後の説明のため、フレーム画像を正面から見た場合の縦（垂直）方向をy、横（水平）方向をｘ、フレーム画像の時間軸方向をｔとする座標系を定義する。また、入力動画像のフレーム幅をｗ, 高さをｈとし、フレーム画像の左下端の画素位置を(x,y)=(0,0)とする。

図５の501は映像502上をテロップの輪郭抽出部304で抽出されたテロップ輪郭画素503が上方向に移動していく様子を表している。このようなテロップの動きをx、y、tからなる3次元の時空間で見ると504の様に表すことができる。図中の破線領域505〜508は入力動画像から等（時間）間隔にキャプチャされたフレーム画像を表し、509〜512はそれぞれ505〜508上に表示されているテロップ輪郭画素とする。時空間スライス画像生成部305にはあらかじめ決められた値x0が設定されており、x0に対応する縦ライン513〜516上に存在する画素の画素値を記憶する。この3次元空間をx=x0を通るx軸に垂直な平面で切断した断面は517のようになる。これを時空間スライス画像と呼び、時空間スライス画像生成部305内に記憶されている縦ラインの画素値を時間順に並べることで生成できる。時空間スライス画像517中ではフレーム画像505から508がそれぞれ縦線518〜521に対応する。この画面上ではテロップ503が3次元空間を移動する際にできる軌跡が522〜524のような直線として表示される。直線522〜524の傾きはテロップ503の移動速度が大きいほど急峻になる。

なお、本実施例では時間的に連続する４枚のフレーム画像を用いてテロップの移動を説明したが、提案手法は最低でも時間的に連続する３枚のフレーム画像があればテロップの移動量を推定することが可能である。また、注目するテロップが含まれるフレーム画像があれば、その縦ラインの情報をさらに追加することができる。直線検出部306の直線検出の精度は利用するフレーム画像の枚数が多いほど高くなる。実際のテロップは2秒以上表示されるものが多いため、入力画像のフレームレートが秒30枚であるならば、少なくとも60枚のフレーム画像を用いることが望ましい。

また生成する時空間スライス画像の枚数は一つのフレーム画像に対して１枚である必要は無く、図504中のx0、すなわち縦ラインの位置を変えて複数枚生成してもよい。縦ラインの位置を決める方法は例えば３本のラインを画面左端からw/4、2×w/4、3×w/4の3箇所に配置するというような、フレーム上で等間隔に分布するように複数本設定する方法や、経験的にテロップは画面中心に表示されることが多いといった予備知識を用いて装置のユーザーが手動で設定する方法などが可能である。速度検出手法１は設定した縦ライン上をテロップが通過しない場合はテロップの移動速度を検出できないが、複数の縦ラインを設定しておくことでこの問題を回避できる。

直線検出部306は得られた時空間スライス画像生成部305から得られた全ての時空間スライス画像から直線を検出する。直線検出にはHough Transform や、その発展形である参考文献「L. Xu, and E. Oja, "Randomized Hough Transform (RHT): Basic Mechanisms, algorithms and computational complexities," CVGIP: Image Understanding, Vol.57, No.2, pp131-154, Mar., 1993」に開示された方法(Randomized Hough Transform)を用いることができる。

なお、テロップ輪郭抽出部304でテロップ輪郭画素の方向コードを求めてある場合は以下に述べる３つの手法(高精度化手法1〜3)を用いて、検出された直線の一部のみを移動量検出部への入力とすることで、移動量検出部307の移動量検出精度を向上させることができる。

高精度化手法１は、直線上の全て画素の方向コードが一致する直線のみを移動量検出部307に送る手法である。テロップは、その外形形状自体は変形することなく、背景に比べ高い画素値のコントラストを持つため、テロップを構成する画素のエッジ方向は映像を通じて変化することが無い。また、テロップの軌跡となる直線はそれぞれテロップの個別の部位に対応している。例えば図５の説明において生成された時空間スライス画像上の３本の直線522〜524はそれぞれ表示されているテロップ503の文字"Ｅ"を構成する1番下の横線、下から2番目の直線、1番上の直線に対応する。そのため、テロップの軌跡となる直線上にはエッジ方向が異なる画素が存在することはない。先に挙げた９種類の方向コードを画素に付与する例で言えば、同一直線上に方向コード０を持つ画素と方向コード１を持つ画素が同時に存在することはない。以上から、テロップ輪郭画像に方向コードを記録していれば、直線上の全て画素の方向コードが一致する直線のみを移動量検出部307に送ることでテロップ移動量の検出精度を高めることが出来る。

高精度化手法２は、垂直上方向もしくは垂直下方向に対応する方向コードを持つテロップ輪郭画素からなる直線のみを移動量検出部307に送る手法である。文字ストロークのうち垂直方向のもの(縦線)からは水平方向のエッジ勾配が検出される。図６のようにテロップ601"Ｔ"が垂直上方向に動く場合を考える。このとき直線602に沿ったラインからは時空間スライス画像603が得られる。このときテロップ601"Ｔ"の縦線の縁が時空間スライス画像上に描く軌跡は604の様に一定の画素幅を有する。一方、テロップ601"Ｔ"の上端が描く軌跡は605のように直線となる。この様な画像にHough Transform や、Randomized Hough Transformを適用すると606や607のように、本来のテロップの移動速度にを表す直線605とは異なる直線が検出されてしまう場合もあり、結果として移動速度を正確に求めることはできないという問題が生じる。以上から605のような検出された直線上の全ての画素の方向コードが垂直上向き、もしくは垂直下向きのエッジ方向に対応するもののみを選び移動量検出部307に送ることで、テロップの移動量の検出精度を高めることができる。先に図４で示した９種類の方向コードを付与する例で言えば、垂直上方向を示す方向コード２をもつ画素のみで構成される直線のパラメタと、垂直下方向を示す方向コード６を持つ画素のみで構成される直線のパラメタのみを移動量検出部307の処理に送ればよい。

高精度化手法３は、得られた時空間スライス画像から垂直上向きのエッジ方向に対応する方向コードを持つ画素のみを取り出した画像を生成し、直線検出を行い、同時に時空間スライス画像から垂直下向きのエッジ方向に対応する方向コードを持つ画素のみを取り出した時空間スライス画像を生成し直線検出を行う手法である。先に図４で示した９種類の方向コードを付与する例で言えば、時空間スライス画像から輝度勾配方向が垂直上向きであることを示す方向コード２を持つ画素のみを抽出した画像と、時空間スライス画像から輝度勾配方向が垂直下向きであることを示す方向コード６を持つ画素のみを抽出した画像の２枚を生成し、各画像から直線検出を行えばよい。この手法は高精度化手法２と同等の効果を得られる。また、Hough TransformやRandomized Hough Transformを行う際には投票に用いられる画素の数が多いほど直線検出処理の処理時間がかかる。直線検出前に画素の選別を行うことで、直線検出の処理時間を短縮することができる。

直線のパラメタの検出精度は後段の移動量検出部306で得られるテロップ移動量の精度にも関連するため、直線検出処理で用いるパラメタの精度は適切に定める必要がある。必要な精度はテロップ動き補償部103やテロップ抽出部104の処理と関連するため後で述べることとし、ここでは必要な移動量の精度があらかじめ、誤差ΔＶ以下という形で与えられているものとする。直線が時空間スライス画像下端(y=0)と交わる点が対応する時刻Tbottomと時空間スライス画像上端(y=h-1)と交わる点が対応する時刻Ttopが分かればテロップの移動速度Ｖは

として算出することができる。このＶは直線の傾きそのものである。直線検出部306で用いるパラメタは直線の傾きの検出精度が十分なものになるように設定される必要がある。

Hough Transform を用いた場合のパラメタ設定手法について述べる。Hough Transform で設定する必要があるパラメタは投票空間の解像度と、あるパラメタを持つ直線が存在するか否かを判定するための閾値αである。

まず投票空間の解像度について述べる。直線はｔ軸と直線がなす角度θと、直線と時空間スライス画像上での切片ρで記述され、パラメタ(θi,ρi) (i=1〜N)で記述される直線上に存在する画素の数Liが得られる。θiとＶの間には

の関係が成立する。一度投票空間のθの解像度を決めてしまうと直線のパラメタθiがとり得る値が有限個の実数値に限定され、(数式2)から算出されるＶのとりうる値も有限個に決まる。速度の検出誤差をΔＶ以下に抑えるためには、投票空間のθの解像度Δθを

となるよう決定すればよい。ρの解像度は、入力画像の縦方向の解像度と同程度でよい。

次にαについて述べる。理想的には、テロップがＭ枚のフレームに写されていた場合、Liの値はＭとなる。そこで適当な閾値β(例えば0.5)を用いて

となった直線のパラメタのみを移動量検出部306に入力することができる。

次に、Randomized Hough Transform を用いた場合のパラメタ設定手法について述べる。Randomized Hough Transform ではまず、時空間スライス画像上から２つの点をランダムにサンプリングし、２点を通る直線のパラメタを求める(Randomized Hough Transform 処理1)。この操作を複数回行うことにより直線のパラメタが複数得られる。次に得られたパラメタ群を近い値を持つ複数のクラスタに分割し、要素数が一番多いクラスタに属する直線のパラメタを一つ得る(Randomized Hough Transform 処理2)。2つの直線の傾きＶ１とＶ２に対し

が成立する場合、２つの直線は同じクラスタに属するとする。最後に得られたパラメタに対応する直線上に存在する画素の数を数え、閾値Ｔl以上画素が得られた場合には、その直線のパラメタを出力する(Randomized Hough Transform 処理３)。以上の３つの処理(Randomized Hough Transform 処理１〜３)を複数回繰り返すことで、複数の直線を検出する。以上からRandomized Hough Transform で設定すべきパラメタは、直線のパラメタ群をクラスタリングするためのパラメタＴv, Ｔtと、直線上に存在すべき画素の数Ｔlである。

Ｔvは既に与えられている許容誤差ΔＶから

とすることができる。直線検出の結果が複数得られる場合は全ての検出結果を移動量検出部307への入力とする。

移動量検出部307は検出された直線から移動量を求める。複数の直線結果が得られている場合には各直線毎に異なる速度が算出される。この速度から最終的な出力結果を一つ確定するためには、例えばその速度を基となった直線上に存在するテロップ輪郭画素の数の組を用いて重みをつけた平均を取った値を真の速度とすることで一つの速度を決定することができる。移動量検出部307にＮ本分の直線データが渡され、各直線から得られた速度がＶi(i=1〜N)であり、描く直線上にＬi個のテロップ輪郭画素が存在したとする。また、画像の高さｈと速度Ｖiからその直線上に本来存在すべき画素数Ｌiも算出することができる。この時、テロップの移動速度Ｖは

とすることができる。他にも、得られた直線の中から直線上に存在するテロップ輪郭画素の数が最大となる直線を選び、その直線に対応する速度を選ぶことで一つの速度を決定することもできる。

続いて図７に、速度検出手法２に基づくテロップ移動量検出部102の構成例を示す。この構成は、図３に示された速度検出手法１に基づくテロップ移動量検出部の構成要素の一部を抜き出し並べ替えることで実現されている。速度検出手法１ではテロップ輪郭画像から時空間スライス画像を生成するのに対し、速度検出手法２では輝度画像から時空間スライス画像を生成する。

時空間スライス画像生成部305は動画像入力部101からフレーム画像を取得し時空間スライス画像を生成する。この操作で生成された時空間スライス画像上では、他の領域より輝度が高く、かつ一定の輝度を持つ画素が直線をなす。

これを利用し、エッジ２値化画像生成部303は時空間スライス画像生成部305から時空間スライス画像を取得しエッジ抽出と２値化を行うことによって、高いコントラストをもつ時空間スライス画像上のテロップの軌跡のみを抽出する。以後は速度検出手法１と同様の手法を用いることによりテロップの移動速度を検出することができる。

続いて速度検出手法３として、連続する２フレーム分のテロップ輪郭画像を取得し両画像におけるテロップ輪郭画素の相対位置を利用することでテロップの移動速度を検出する手法について述べる。図８は速度検出手法３により、テロップの移動速度を検出する手法の概念を示す図である。図８中の２枚の画像801,802はそれぞれ時刻ｔ＝Ｔ1, ｔ＝Ｔ2に得られたテロップ輪郭画像である。801上のテロップ輪郭画素は803のように配置され、802上のテロップ輪郭画素は804のように配置されているものとする。ある移動量Ｓを定義し、801の下端から高さｈ−Ｓまでの領域を切り出した画像をＩ1と、802の上端から高さＳまでの領域を切り出した画像Ｉ2を生成し、Ｉ1とＩ2上で同じ位置にあるテロップ輪郭画素の数をＮ(S)とする。Ｎ(S)はSに対し例えば805に示すような変化を示す。Ｎ(S)が最大になる移動量をＳmaxとすると、速度は

として求めることができる。本実施例ではテロップは変形しないことを仮定しているため、フレームを上方向にずらすだけでテロップは完全に重ね合わせることができる。正しく動き補償がされた場合に位置が一致するテロップ輪郭画像の個数は最大になる。

この例ではＩ1とＩ2で同じ位置をとるテロップ輪郭画素の個数Ｎ(S)を基準に速度を求めたが、他の基準を導入することができる。例えば、画像Ｉ1上とＩ2上で同じ位置に存在する画素の輝度差の絶対値の平均値を用いてもよい。本実施例ではテロップは変色しないことを仮定しており、正しく動き補償がされた場合にはテロップに属する画素に由来する輝度差は０になる。また、画像Ｉ1とＩ2に対し静止画に対するテロップ抽出技術(例えば、劉詠梅, 山村毅, 大西昇, 杉江昇, "シーン内の文字列領域の抽出について," 電子情報通信学会論文誌, Vol. J81-D-II, No. 4, PP 641-650, 1998年4月)を適用して抽出された画素のうち、画像Ｉ1上とＩ2上で同じ位置に存在する画素の数を用いる手法や、先に定義した方向コードを用いて定義する画像Ｉ1とＩ2の間の類似度(例えば, Farhan ULLAH, Shunichi KANEKO, Satoru IGARASHI, "Orientation Code Matching for Robust Object Search,"IEICE TRANS. Inf. & Syst., Vol. E84-D, No. 8, AUGUST, 2001) を利用してもよい。

速度検出手法１〜２は時空間スライス画像から検出される直線を用いて速度を検出している。また速度検出手法3はフレーム画像２枚の各画素の画素値を比較することで速度を検出している。次に説明する速度検出手法４は画素値の比較ではなく、画像の横ラインが持つ特徴量を利用して速度を検出する。

図９中の901、902はｔ＝Ｔ1、ｔ＝Ｔ2の2時刻に得られた二枚のフレーム画像であり、903、904は各フレーム画像上のエッジ強度が一定以上の画素の集合を現す。各画素の行Ｓについて、水平方向にこれらの画素の数を計数した値をＮ１(S)とする。Ｎ１(S)をラインの画面下端からの距離Ｓに対してプロットすると、905の様なヒストグラムが得られる。フレーム画像からは同様にＮ２(S)が得られ、Ｎ２(S)を同様にプロットするとヒストグラム906が得られるものとする。そこで以下のような基準Ｄ(S1)

を導入し、Ｄ(S1)を最小とするS1をSmaxとすると、速度検出手法３と同様に数式３によりテロップの移動量を求めることができる。テロップが存在する位置に対応するラインにはエッジが密集するため、Ｎ１(S)、Ｎ２(S)共に値が高くなる。また、ピークの形状はテロップの形状に影響を受ける。以上からＤ(S1)が小さくなるような画像のずらし方をすれば、テロップの移動を補償できる。

Ｎ１(S)、Ｎ２(S)以外の基準としては例えば、ライン上に存在する静止画に対するテロップ抽出技術(例えば、劉詠梅, 山村毅, 大西昇, 杉江昇, "シーン内の文字列領域の抽出について," 電子情報通信学会論文誌, Vol. J81-D-II, No. 4, PP 641-650, 1998年4月)を適用して抽出された画素の個数を、各水平ラインごとに計数したものを利用してもよい。

次に、検出された移動速度に基づいて動画像中に表示されるテロップの相対位置を補償したテロップ動き補償済み動画像を生成する方法について説明する。図１０はテロップ動き補償部103の構成例を示すブロック図である。フレーム画像蓄積バッファ1002には動画像入力部101から得られた複数枚のフレーム画像が蓄積される。部分画像切り出し部1003はテロップ移動量検出部102から取得したテロップの移動量を基に、フレーム画像蓄積バッファ1002から必要な枚数のフレーム画像を取得し、各フレーム画像から必要部分を切り出して動画像(テロップ動き補償済み動画像)を生成する。

部分画像切り出し部1003の処理を図１１を用いて説明する。図１１は２つのテロップ"Telop"1101と"FAIL"1102が画面下方から上方へ速度Ｖで移動する様子を表している。なお、1103〜1106はそれぞれ、時刻ｔ＝０、ｔ＝Ｔ1、ｔ＝Ｔ2、ｔ＝Ｔに得られたフレームであるとする。また、テロップ"Telop"1101は時刻ｔ＝０に初めて全体が表示され、最後に"Telop"1101の全体が表示される時刻はｔ＝Ｔであるとする。すなわちt＝[0, T]の映像区間において、例えばフレーム画像1106上でのテロップ"FAIL"1102のように一部がかけて表示されることは無いこととする。このときｔ＝０をテロップ"Telop"1101の出現時刻と呼び、ｔ＝Ｔをテロップ"Telop"1101の消滅時刻と呼ぶ。

このテロップ1101が、時刻ｔ＝０に得られたフレーム画像1103上で表示される位置と、ｔ＝Ｔ1に得られたフレーム画像1104上で表示される位置はＶ*Ｔ1上方向にずれている。そのため、ｔ＝Ｔ1に得られたフレーム画像1104をＶ*Ｔ1下方向にずらすことで、テロップの外形形状を一致させるようテロップの相対位置を補正することができる。ｔ＝Ｔ2以降に得られたフレーム画像1105〜1106も同様にテロップの外形形状を一致させるよう画面内垂直方向の位置をずらすと、図１１の中段のフレーム画像1107〜1110の様に、テロップの相対位置を補償することができる。フレーム画像1107〜1110からテロップ消滅時刻から決定される破線1111とテロップ出現時刻から決定される破線1112ではさまれた領域を切り出すことで、1113〜1116に示すようなテロップ動き補償済み動画像が得られる。このテロップ動き補償済み動画像上では、入力動画像上で移動していたテロップが停止して表示される。

テロップの出現時刻と消滅時刻は、例えば、図１２に示すように、テロップ移動速度検出部から得られた時空間スライス画像1201上の複数の直線1202〜1207を、傾きが近くかつ端点が対応する時刻が近い複数の直線群1202〜1204と1205〜1207に分け、画像下側の端点が対応する時刻のうち最も新しいものが対応する時刻(図１２の例では1204とy=0との交点1211) Tbeginから、画像上側の端点が対応する時刻のうち最も古いものに対応する時刻(図１２の例では1202とy=h-1との交点1212)Tendを検出する手法で決定する事ができる。Tbeginがテロップ出現時刻に対応し、Tendがテロップ消滅時刻に対応する。

このようにして得られたテロップ動き補償済み動画像をテロップ抽出部104に入力すればテロップの抽出処理が実現する。ただしこの時間空間スライス画像を利用したテロップの動き補償手法には二つの問題がある。

まず、テロップの出現時刻と消滅時刻を正確に求めることは難しい場合がある。図１２の例では1202からテロップの消滅時刻を、1204からテロップの出現時刻をそれぞれ正確に求めることができた。しかし、図１２の例ではテロップの上端に対応する直線1202とテロップの下端に対応する直線1204が得られていたが、常にテロップの下端と上端を通る直線が得られるとは限らない。また1208のように大量のテロップの軌跡が密集した場合、直線のグループ分けの仕方によっては、破線1209が示す出現時刻より破線1210が示す消滅時刻が早いという誤った算出結果が得られてしまう可能性もある。さらに、テロップがテロップ移動速度検出部102において指定する縦ライン上を通らなかった場合は、テロップの軌跡そのものが得られないためテロップの出現時刻と消滅時刻の算出は不可能である。以上のような例を考えても全てのテロップの出現時刻と消滅時刻を正確に求めることは難しいことがわかる。

また、テロップ動き補償部103で得られたテロップ動き補償済み動画像からテロップを完全な形で抽出するには、テロップ動き補償済み動画像の全てのフレームに当該テロップが完全な形で表示されていなくてはならない。例えば図１１のテロップの移動速度を検出するために、x=w/2となる縦ラインを用いて時空間スライス画像を生成した場合、テロップ"Telop"1101の出現時刻と消滅時刻のみが得られる。この場合は、テロップ"FAIL"1102が完全な形で表示されているテロップ動き補償済み動画像がテロップ抽出部104に入力されないため、テロップ"FAIL"1102の抽出に失敗する。

最終的に得られるテロップ抽出結果をＯＣＲに入力するといった利用を想定した場合には、このような抽出失敗を避けるような処理を採用することが望ましい。

この問題を解決するためには、入力動画像を重複を許す一定時間の区間に区切り、各区間からテロップ動き補償済み動画像を生成する手法をとればよい。入力動画像中の各フレームを起点として適切な長さの区間長の映像区間を切り出し、それを用いてテロップ動き補償済み動画像を生成する手法を用いれば、入力動画像中の全てのテロップに対して少なくとも一つテロップが完全な形で表示されるテロップ動き補償済み動画像が得られる。

区間長の設定手法としては例えば、テロップの移動速度の最大値Ｖmax, テロップの最大高さｈmaxを既知とする以下の手法が採択できる。画面高さｈで長さτの映像中をテロップが速度Vで移動する場合、動き補償が可能なテロップは、最初のフレームで画面下端から高さh-Ｖτまでの範囲に表示されているもののみである。この手法で決定される区間長をτminとすると、h−Vmax×τmin≧hmaxが成立するように、

とする。この手法を、区間長決定手法１と呼ぶ。

しかし、速度がＶmaxより遅いテロップに対しては、実際にはτminより長い映像区間長を用いてテロップ抽出が行うことが可能であり、多くのフレームを用いることでテロップ抽出部104の性能も向上させられる可能性がある。そこで、テロップ移動量検出部で検出したテロップの移動速度Ｖとテロップの最大高さｈmaxを用いて映像区間長を決定する区間長決定手法２について以下で説明する。これによって得られる映像区間長をτaとすると、区間長決定手法2の映像区間長決定式は

となる。また、テロップ抽出部104におけるテロップの抽出精度は、テロップ動き補償済み動画像のフレーム数が多いほど高くなる。数式４、数式５とＶmin ≦ Ｖであることからτmin≦τaであるため、区間長決定手法２を採用した方がテロップの抽出精度が向上する。ただし、区間長決定手法２が十分な効果を発揮するためには、事前にテロップの最低移動速度Ｖminを求めておき、バッファに蓄積できる映像区間の最大長さを

として得られるτmax以上にしておく必要がある
この手法では、テロップが不完全な形で表示されたテロップ位置補正済み動画像が生成される、一つのテロップに対し２つ以上のテロップが完全な形で表示されているテロップ位置補正済み動画像が得られるという２つの問題がある。前者の問題に関しては例えばＯＣＲから得られる認識スコアを基に一定以下の認識スコアを持つものを除外するという処理を加えることで対応可能である。また、テロップ動き補償済み動画像の元となった映像区間から生成された時空間スライス画像から十分な本数が検出されていない場合、そのテロップ動き補償済み動画像に対しては抽出処理を行わないようにしてもよい。後者の問題に関しては、例えば抽出されたテロップの図１１中の1104の様に定義される空間上での位置が近い場合は同一のテロップとして扱うという処理を行うことで対処することができる。

次にテロップ位置補正済み動画像からテロップに属する画素のみを抽出する方法について説明する。図１３はテロップ抽出部の構成例を示すブロック図である。

まず、テロップ候補画素画像生成部1302にテロップ動き補償済み動画像を入力し、平均画像とテロップ候補画素画像を得る。次に得られたテロップ候補画素画像をテロップ文字列候補領域抽出部1303に入力し、テロップ文字列が存在する可能性が高いと考えられる領域(テロップ文字列領域候補)を得る。最後にテロップ画素抽出部1304に得られた平均画像とテロップ文字列領域候補を入力し、最終的なテロップ抽出結果であるテロップ抽出結果を得る。

図１４はテロップ候補画素画像生成部1302の構成例を示すブロック図である。テロップ動き補償部103は平均画像作成部1402にテロップ動き補償済み動画像を入力する。平均画像作成部1402は、テロップ位置補正済み動画像の各フレーム上において同一位置に存在する画素の輝度値の平均を求め、平均画像を作成する。テロップ位置補正済み動画像上では、テロップは停止している。輝度を平均することで、背景などの動きのある部分の画像はボケるため、静止しているテロップとの識別が容易となる。

次にテロップ動き補償済み動画像を低分散画像作成部1403に入力する。低分散画像作成部はテロップ位置補正済み動画像の各フレーム上において同一位置に存在する画素の輝度値の分散を求め、分散画像を作成する。この計算の際には平均画像作成部1402で得た平均画像を利用することも可能である。さらに生成された分散画像の画素値が所定の閾値より低い場合に１、それ以外の場合に０という画素値を与えた低分散画像を生成する。本実施形態ではテロップの色は不変であることを仮定している。背景など動きのある部分では輝度の分散が大きくなるので、テロップを識別しやすくなる。

さらに、テロップ動き補償済み動画像を不動エッジ画像生成装置1404に入力し、不動エッジ画像を得る。まず、テロップ動き補償済み動画像の各フレームからエッジ検出を行う。エッジ検出には微分オペレータなどを用いる。さらに検出されたエッジの強度が閾値より高ければ１、そうで無い場合は０という画素値を与えた2値化を行う。

さらに同じ位置に存在する画素の論理積をとって不動エッジ画像を得る。これによりエッジの位置が変化しない強度の高いエッジを構成する画素を抽出することができる。テロップ文字は背景(特にテロップ文字の近傍における背景)とコントラストが強いため、このような強いエッジを持つ。また、テロップ位置補正済み動画像上ではテロップの位置は静止しているため、位置の変化しないエッジがテロップ文字を構成する可能性が高い。

さらにテロップ候補画素画像生成部1405において不動エッジ画像と低分散画像の論理積を求め、テロップ候補画素画像を得る。これにより輝度の変化がなく、強いエッジが一定時間以上存在する画素を抽出することが可能となる。これによって得られる画像をテロップ候補画像と呼ぶ。

なお図１４ではフレーム画像を基にテロップ動き補償済み動画像を生成したテロップ動き補償済み動画像を用いて処理を行っているが、これに新たな特徴量を加えてテロップ候補画素の過剰検出を抑えることができる。

新特徴量取得部のブロック図を図１５に示す。まず、動画像の連続する２フレームをフレーム間差分画像生成部1501に入力する。フレーム間差分画像生成部1501は入力された２枚の画像の同じ位置に存在する画素の輝度差を画素値として与えたフレーム間差分画像を生成する。フレーム間差分画像をフレーム画像とする動画像とテロップ移動量抽出部102で得られたテロップの移動量を用い、テロップ動き補償済み動画像生成部103の構成要素である部分画像切り出し部1003を用いてテロップの位置を補償したテロップ動き補償済みフレーム間差分動画像を生成する。入力動画像中でテロップは常に移動しているため、このテロップ動き補償済みフレーム間差分動画像のテロップに属する画素の画素値は高くなっている。

テロップ動き補償済みフレーム間差分動画像に対しテロップ抽出部の構成要素である平均画像生成部1402に入力すると、輝度揺らぎ平均画像が得られる。輝度揺らぎ平均画像上でもテロップに属する画素の画素値は高くなるため、同じ位置にある輝度揺らぎ平均画像の画素値が閾値以下であるテロップ候補画素を除くことで、テロップ候補画素の過剰検出を抑えることができる。

同様の効果は、テロップ動き補償済みフレーム間差分動画像を輝度揺らぎ２値化画像生成部1803に入力して得られる輝度揺らぎ２値化画像を用いても得ることができる。輝度揺らぎ２値化画像生成部1803は、テロップ動き補償済みフレーム間差分動画像の各フレームに対し、所定の閾値で２値化を行い画素値ごとの論理積をとって、輝度揺らぎ２値化画像を生成する。

次にテロップ文字列領域候補抽出部1303における処理について説明する。図１６はテロップ文字列領域候補抽出部の構成例を示すブロック図である。

まず、文字候補図形抽出部1502にテロップ候補画素画像を入力し、文字候補図形を得る。テロップ文字列領域候補抽出部はテロップ候補画素画像をラベリングし、孤立図形を得る。次にこの孤立図形を連結し文字候補図形を得る。連結処理では例えば、文字候補図形をなす辺同士の距離が近いものを連結する。さらに連結された図形から明らかに文字で無い形状を持った図形を排除する。この際に文字を囲む矩形領域の縦横費により、文字とそうでない図形を大まかに区別する。例えば、数字の「１」や漢数字の「一」を見落とさないよう、縦：横＝１０：１、縦：横＝１：１０の様に設定すればよい。

次に得られた文字候補図形を文字列候補図形抽出部1503に入力しテロップ文字列候補領域を得る。まず、文字候補図形を連結して連結領域を作成する。文字候補図形の連結処理では例えば、文字候補図形をなす辺同士の距離が近いものを連結する。また、テロップのほとんどは縦書きもしくは横書きであり、文字が一直線に並んでいることが多く、ひとつの文字列内にある文字の大きさも一定である。そこで、例えば横書きテロップの場合には文字図形の高さが近い図形を集め、さらに、図形の重心位置が縦方向にばらつかないものを連結し、縦書き文字の場合には文字図形の横幅が近いものをあつめ、図形の重心位置が横方向にばらつかないものを連結する。また、連結した全文字候補図形を構成する全画素に対する外接矩形を求め、これを連結領域とする。

ここで得られる連結領域は０の時も１の時も２以上の時もある。ここでは、連結領域はその４頂点の座標で表すものとする。ところが映像の内容によってはテロップ文字列ではない連結領域が得られることがある。そこで連結領域からテロップ文字列である可能性がないと判断される連結領域を除外し、それ以外を文字列領域候補として出力する。例えば、領域内の全画素数に占める画素値１の画素の総数の割合を用いることによって、テロップ文字列とそうでないものを区別する。（この場合は基準値以上の割合で画素値１の画素が含まれる領域を採択する）なお、文字候補領域は前の処理で得られた連結領域でもよいが、それを所定画素分(例えば5)画素分膨張させても良い。本実施形態では膨張処理を行うものとする。

次にテロップ画素抽出部1304における処理について説明する。図１７はテロップ抽出部の構成例を示すブロック図である。基本的にはテロップ候補画素画像生成部から得られた平均画像を、輝度が近い画素からなる複数の部分領域に分割する処理を行うことでテロップを抽出することができる。本実施例では「堀修, 三田雄志, "テロップ認識のための映像からのロバストな文字部抽出法," 電子情報通信学会論文誌, Vol.J84-D-II, No.8, pp 1800-1808, August, 2001」に記載の枠組みで行う。ここではテロップ文字列領域候補抽出部により抽出された各々の文字列領域候補毎に処理が行われる。また、テロップ文字画素抽出部ではある文字列候補領域を処理対象とする場合、テロップ候補画素画像生成部から得られた平均画像からその文字列候補領域を切り出したものが、処理対象とされる。

まず画像切り出し部1603にテロップ文字列候補領域一つと平均画像を入力し、文字列候補領域に対応する平均画像を切り出す。

次に切り出された平均画像を膨張領域生成部1604に入力し膨張領域を得る。膨張領域生成部はまず平均画像からエッジ抽出を行い、所定の閾値で2値化して得られた領域を１画素膨張させることで膨張領域を生成する。テロップは背景との間に高いコントラストを持っていることと、テロップ以外のオブジェクトは平均画像を生成することでブラーがかかり、エッジ強度が小さくなるため、この処理によってテロップが多く含まれる領域が得られる。

さらに膨張領域と平均画像をテロップ輝度推定部1605に入力し、テロップの輝度推定結果を得る。まず、膨張領域に属する画素の輝度値から図１８中に細線1701で示されるような輝度ヒストグラムを作成する。輝度ヒストグラムはテロップ、テロップの縁、背景を含むものと考え、もっとも輝度が高い部分の山をなす分布に正規分布をあてはめ、平均μと分散σの推定を行う。これらの値に基づいて、テロップ文字を切り出すための2値化閾値を設定する。得られた平均と分散をパラメタに持つ正規分布は図18中に太線1702で示されるようなものとなる。

最後に、平均画像と膨張領域とテロップの平均輝度と分散をテロップ画素抽出部1606に入力し、テロップ切り出し結果を得る。まず膨張領域内の輝度の高い画素を文字領域の一部と仮定し、その領域を種に文字領域を拡張させて文字を切り出す。閾値は２つ設定し高いほうをμ+aσ、低いほうをμ+bσとしている。まずμ+aσ以上の輝度値を持つ画素を抽出する。次に抽出された画素の周囲でμ+bσ以上の輝度を持つ画素を切り出し、新たに画素が検出されつづける間、上述の２つの処理を続ける領域成長を行うことで最終的な切り出し結果を得る。

上記のテロップ抽出手法(以後基本形と呼ぶ)には３つの発展形(以後発展形１〜３と呼ぶ)が考えられる。

発展形１は、膨張領域を作成する手法を変えるものである。例えば、テロップ抽出手法１では平均画像からエッジ抽出と膨張を行いテロップを多く含む領域を求めているが、その代わりにテロップ候補画素画像を膨張させることも可能である。本手法ではテロップの輝度の時間変化が少ないことを仮定している。平均画像からのエッジ抽出のみではこのテロップの特徴を利用することができないが、テロップ候補画素画像を利用すれば、それを利用することが可能である。

発展形２は、テロップの輝度推定に用いるヒストグラムを平均画像の画素値から生成する代わりに、入力動画像の各フレームの画素値で生成する手法である。

テロップの速度は少数点精度で検出されるため、テロップ動き補償済み動画像作成に当たって部分領域を切り出す際に、切り出し領域の位置が小数点精度で与えられた場合、テロップ動き補償済み動画像を生成するためには何らかの補間を行う必要が生じる。このことから平均画像上のテロップの輝度は元のテロップの輝度から変化する可能性がある。また速度検出に誤差が生じた場合も平均画像上のテロップの輝度は元のテロップの輝度から変化する。

さらに、インターレース方式の動画像を入力とした場合、一つのフレームには１／６０秒ずれた２つのフィールド画像が同時に表示されることになる。このことは、画面上に表示されるテロップの変形をもたらすため、トップフィールドもしくはボトムフィールドのみを利用することが考えられる。しかし明朝体などの線が細いテロップが表示されていた場合、片方のフィールドのみを用いることにより横線が消滅する可能性がある。結果として平均画像上でテロップの横線が実際より暗く表示されることになる。これらの現象がテロップの輝度推定に影響する可能性がある。

発展形２では平均画像の画素値ではなく個別のフレーム画像の画素値を基に輝度ヒストグラムを生成する。補間や平均を取るといった処理に影響を受ける前のデータを利用することで、上記の問題を解決する。

発展形２の処理手順について述べる。まず、得られた膨張領域をフレーム画像の画素に対応付ける。図１１中のテロップ位置補正済み動画像1113〜1116から生成したテロップ候補画素画像は、元となるフレーム画像1107〜1110中の破線1111と破線1112に挟まれた領域に対応づけることができる。テロップ候補画素画像を基に生成された膨張領域に対しても同様の対応付けが適用できる。

図１９に示すように膨張領域2201とその基となったフレーム画像2202〜2205が得られたとする。テロップ候補画素画像の基となった映像区間をt=[Tbegin, Tend]とし、テロップが速度Ｖで垂直上方向に移動している場合、時刻ｔ＝Ｔに得られたフレームのy=V(T-Tbegin)の位置にテロップ候補画素画像の下端を対応付けることができる。例えばt=Tbeginに得られたフレーム画像2202と膨張領域の対応関係は2206のようになる。この対応付け2206〜2209によって得られたフレーム画像上の領域の輝度値を用いて輝度ヒストグラム2210〜2213を生成することができる。ただしＶは小数点精度で得られるためV(T-Tbegin)も少数精度となる。そこで、膨張領域の各画素の画素値は、当該画素に最も近い位置に存在するフレーム画像上の画素値とする。得られたヒストグラム2210〜2213の各ビンのスコアを合計して最終的なヒストグラム2214を得る。

発展形２を用いたテロップ抽出装置のブロック図を図２０に示す。テロップ輝度推定部1901はフレーム画像蓄積バッファ1002から得られた各フレーム画像に対し、エッジ検出２値化膨張画像生成部1604から得られた膨張領域を対応付け、膨張領域内の画素の画素値を利用して輝度ヒストグラムを生成する。ヒストグラムからテロップ輝度を推定するアルゴリズムは、基本形の構成要素であるテロップ輝度推定部1606が用いるアルゴリズムと同一である。

発展形３は、平均画像から行っていたテロップの切り出しをフレーム画像から行い、各抽出結果を統合して最終的なテロップ抽出結果を得る手法である。

発展形２でも述べたように、平均画像上のテロップに対応する画素の画素値は本来のテロップの画素値とは異なっている可能性がある。しかし、各フレームに対し個別に抽出処理を行うことで、テロップの輝度に忠実なテロップ抽出を行うことができる。また、インターレース方式の動画像の片方のフィールドのみを使ってテロップ抽出を行う場合も、個別のフレーム画像に対して抽出処理を行うため、平均画像では消えてしまう横線を正しく抽出できる可能性がある。

発展系２で述べた方法でフレーム画像に膨張領域を対応付けることができるため、領域成長部1606に平均画像ではなくフレーム画像を入力することでフレーム毎に個別のテロップ抽出結果を得ることができる。例えば、膨張領域2301とヒストグラム2314が得られている場合、フレーム画像2302〜2305に対し2306〜2309のように膨張領域を対応付け、フレーム毎の抽出結果2310〜2313を得ることができる。2310〜2313ではテロップであると判定された画素に１、それ以外の画素に０という画素値を割り当てているものとする。各フレームから膨張領域2301に対応する部分を抜き出した画像を生成し、それらに対し平均画像生成部1603と同様の処理を行い、所定の閾値で２値化することにより、最終的な切り出し結果2315とすることができる。この手法では2311のように画素を過剰に抽出してしまう場合も、全体の平均をとることで過剰検出した画素を再度取り除くことができる。また、トップフィールドのみを利用すると2313のようにテロップの横線が消滅する場合があるが、他のフレームで行った抽出処理の結果2310,2311,2312を用いて横線を復元することができる。

発展形３を用いたテロップ抽出装置のブロック図を図２２に示す。領域成長部2001はフレーム画像蓄積バッファ1002に蓄積された各フレーム画像から、エッジ検出２値化膨張画像生成部1604で得られた膨張領域に対応する部分画像を切り出し、基本形の構成要素である領域成長部1606と同じアルゴリズムを用いてテロップを抽出し、テロップであると判定された画素に１、それ以外の画素に０という画素値を割り当てたテロップ抽出中間結果画像を生成する。抽出結果統合部2002はまず、領域成長部2001から得られたテロップ抽出中間結果画像を元に、基本形の構成要素である平均画像生成部1402と同様の処理を行い、テロップ中間結果平均画像を生成する。さらにテロップ中間結果平均画像に対し所定の閾値(例えば0.3とする。処理開始前に決定しておく)による２値化処理を行い、最終的なテロップ抽出結果を得る。

上記４つの改良手法は組み合わせて用いることも可能である。例えば、発展形２と発展形３の改良を同時に用いた装置のブロック図は図２３となる。図２０に示された発展形2の領域成長部1606が、発展形3の領域成長部2001に置き換えられており、さらに抽出結果統合部2002が追加された構成となる。かかる改良を組み合わせることにより更に検出精度を高めることが可能となる。

図２４は本発明の具体的な実施の形態例としてのHDDレコーダーへ応用した構成例を示している。このHDDレコーダーは、無線通信回線、放送回線を介して放送信号を受信し、テロップ動画像データを取得する動画像入力部2000、入力された動画像を処理しテロップを抽出する演算部2001、その演算部が実行すべき命令が記録されたROMもしくはHDDからなる記録媒体2002、処理の中間結果を格納するランダムアクセスメモリ等からなる記録媒体2003とを備える。

本発明のテロップ抽出機能を実現する画像処理方法を適用することにより、処理の結果はHDDレコーダーに付加機能をつけるために利用することができる。例えば実施例の処理の結果、テロップの抽出されたフレームの時刻は映像のチャプター生成のために利用することができる。他にも、実施例の処理の結果抽出されたテロップは、ＯＣＲによりテキストデータに変換することで録画された映像を検索するためのキーとして利用できる。

本発明は動画像入力部2000の代わりに、過去に既存のビデオのやDVDの映像を入力するビデオプレイヤーやDVDプレーヤー、LANやWAN上の映像データを取得し入力するネットワーク映像受信部を採用した形の実現も可能である。また、動画像入力部2000、演算部2001、記録媒体2002、記録媒体2003の代わりにそれぞれビデオキャプチャーカード、演算処理装置（CPU）、ハードディスク、ランダムアクセスメモリを備えたPCやテレビ受像機で実現することも可能である。

本発明の画像処理装置の構成例を示す図。映像コンテンツとテロップとの関係を示す図本発明の画像処理装置における移動量検出部の構成例を示す図方向コードと輝度勾配方向の対応関係を示す図本発明の画像処理装置における時空間スライス画像生成部の処理概念を示す図時空間スライス画像を用いた移動量検出処理の原理を示す図本発明の画像処理装置における移動量検出部の第２の構成例を示す図本発明の画像処理装置における移動量検出部の第３の構成例の処理概念を示す図本発明の画像処理装置における移動量検出部の第４の構成例の処理概念を示す図本発明の画像処理装置のテロップ動き補償部の構成例を示す図テロップ動き補償の処理概念を示す図テロップの出現時刻、消滅時刻の概念を示す図本発明の画像処理装置におけるテロップ抽出部の構成例を示す図テロップ候補画素画像生成部の構成例を示す図新特徴量取得部の構成例を示す図テロップ文字列候補領域抽出部の構成例を示す図テロップ画素抽出部の構成例を示す図テロップの輝度推定の処理概念を示す図改良されたテロップ抽出の処理概念を示す図改良されたテロップ抽出処理部の構成例を示す図改良されたテロップ抽出の別の処理概念を示す図改良されたテロップ抽出処理部の別の構成例を示す図改良されたテロップ抽出処理部の別の構成例を示す図本発明の画像処理方法の応用例を示す図

符号の説明

１０１動画像入力部
１０２テロップ移動量検出部
１０３テロップ動き補償部
１０４テロップ抽出部

Claims

動画像を入力する動画像入力部と、前記動画像入力部から得られた動画像の時間的に異なる３枚以上のフレームに表示されるテロップの移動量を検出するテロップ移動量検出部と、前記動画像入力部で得られた動画像と前記テロップ移動量検出部から得られたテロップの移動量をもとに映像中のテロップの動きを補償するテロップ動き補償部と、前記テロップ動き補償部で得られたテロップの動きが補償された複数枚の画像を用いてテロップを抽出するテロップ抽出部とを具備したことを特徴とする画像処理装置。
動画像を入力する動画像入力部と、前記動画像入力部から得られた動画像中の複数のフレームに表示されるテロップに相当する画素の移動距離と当該フレーム間の表示時間間隔とから前記テロップの移動量を検出するテロップ移動量検出部と、前記動画像入力部で得られた動画像と前記テロップ移動量検出部から得られたテロップの移動量をもとに映像中のテロップの動きを補償するテロップ動き補償部と、前記テロップ動き補償部で得られたテロップの動きが補償された複数枚の画像を用いてテロップを抽出するテロップ抽出部とを具備したことを特徴とする画像処理装置。
前記テロップ移動量検出部は、フレームの水平位置または垂直位置を共通にする一部の画素群を表示時間順に並べて生成する画像から直線検出を行うことを特徴とする請求項２記載の画像処理装置。
前記テロップ移動量検出部は、前記一部の画素群に対しエッジ抽出を行い、そのエッジ抽出された画像から直線検出を行うことを特徴とする請求項３記載の画像処理装置。
前記テロップ移動量検出部は、画素値の時間変化が閾値以上であり、かつ隣接する画素との間の画素値の差が閾値以上である部分をテロップである蓋然性が高い画素と判断して、当該テロップの移動量を検出することを特徴とする請求項１または２記載の画像処理装置。
前記テロップ移動量検出部は、入力動画像の複数枚のフレーム間の類似度が高い領域の相対位置を用いて、当該テロップの移動量を検出することを特徴とする請求項１または２記載の画像処理装置。
前記テロップ移動量検出部は、複数フレーム上でのテロップである蓋然性が高い画素の配置が類似している領域の位置のずれを利用して、当該テロップの移動量を検出することを特徴とする請求項１または２記載の画像処理装置。
前記テロップ動き補償部は、移動するテロップの移動量を補償するために、複数のフレーム画像に表示されている同一テロップの位置のズレを表現するベクトルを求め、そのベクトルの値を用いて画素値を読み出す位置を変えることを特徴とする請求項１または２記載の画像処理装置。
前記テロップ抽出部は、フレーム画像を輝度が近い画素からなる複数の部分領域に分割することを特徴とする請求項１または２記載の画像処理装置。
前記テロップ抽出部は、一定時間の間閾値より高いエッジ強度を保持し、輝度の時間変化量が閾値より小さい領域を抽出することを特徴とする、請求項１または２記載の画像処理装置。
前記テロップ抽出部は、所定の閾値以上の画素値の時間変化が継続する領域を抽出することを特徴とする、請求項１または２記載の画像処理装置。
動画像を入力する動画像入力ステップと、前記動画像入力部から得られた動画像の時間的に異なる３枚以上のフレームに表示されるテロップの移動量を検出するテロップ移動量検出ステップと、前記動画像入力部で得られた動画像と前記テロップ移動量検出部から得られたテロップの移動量をもとに映像中のテロップの動きを補償するテロップ動き補償ステップと、前記テロップ動き補償部で得られたテロップの動きが補償された複数枚の画像を用いてテロップを抽出するテロップ抽出ステップとを具備したことを特徴とする画像処理方法。
動画像を入力する動画像入力ステップと、前記動画像入力部から得られた動画像中の複数のフレームに表示されるテロップに相当する画素の移動距離と当該フレーム間の表示時間間隔とから前記テロップの移動量を検出するテロップ移動量検出ステップと、前記動画像入力部で得られた動画像と前記テロップ移動量検出部から得られたテロップの移動量をもとに映像中のテロップの動きを補償するテロップ動き補償ステップと、前記テロップ動き補償部で得られたテロップの動きが補償された複数枚の画像を用いてテロップを抽出するテロップ抽出ステップとを具備したことを特徴とする画像処理方法。