JP2004529578A

JP2004529578A - ビデオ信号中の字幕の検出

Info

Publication number: JP2004529578A
Application number: JP2002590654A
Authority: JP
Inventors: ヤンエイディーネスヴァドバ; ブルルス　ウィルヘルムス　エイチ　エイ; ゲラルダスジェイエムヴェルヴォールト; ベルンハルドエイチペンツ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-15
Filing date: 2002-05-08
Publication date: 2004-09-24
Anticipated expiration: 2022-05-08
Also published as: ATE413063T1; US7023917B2; KR100865248B1; KR20030024781A; JP4197958B2; DE60229632D1; WO2002093910A1; US20030021342A1; CN1220370C; CN1462546A; EP1393553A1; EP1393553B1

Abstract

ビデオ信号中の字幕の存在、出現又は消滅を検出する方法及び装置が開示された。殆どの計算は既にＭＰＥＧエンコーダ（１０１乃至１１３）又はデコーダの回路によって為されているため、非常に高いに信頼性が達成され、わずかな処理能力しか必要とされない。字幕が表示される画像領域の複雑さが、少なくとも１つの他の画像領域の複雑さを超過する場合、字幕が検出される。前記複雑さを表す特性の例は、（ｉ）ＭＰＥＧスライスにおけるビットコスト（ｂ）と量子化スケール（ｑｓ）との積、（ii）スペクトルのＤＣＴ係数（ｃ）の重心の位置、（iii）大きな動きベクトルを持つマクロブロックの数に対する小さな動きベクトル（ｍｖ）を持つ字幕領域におけるマクロブロックの数、又は（iv）異なる画像領域において場面変化が同時に検出されないという事実、である。前記装置は、コマーシャルによる中断の検出又はキーフレーム生成のためにも利用されることができる。

Description

【技術分野】
【０００１】
本発明は、ビデオ信号中の字幕を検出する方法及び装置に関する。
【背景技術】
【０００２】
ビデオ信号中の字幕（subtitles）を検出する既知の方法は、国際特許出願公開ＷＯ−Ａ９５／０１０５１に開示されている。この先行技術の方法においては、テレビジョンライン（television line）における信号レベルの遷移の数が計数される。前記検出は、字幕は通常暗い背景上の明るいキャラクタであるという洞察に基づく。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
本発明は、字幕を検出する代替の方法及び装置を提供することにある。
【課題を解決するための手段】
【０００４】
この目的のため本発明による方法は、字幕が再生されることが予期される第１の画像領域と前記第１の画像領域に重ならない少なくとも１つの第２の画像領域とに各フレームを分割し、前記第１及び第２の画像領域の複雑さを算出する。前記第１の領域の複雑さが、所定の比率だけ前記第２の画像領域の複雑さを超過した場合、出力信号が生成される。
【０００５】
本方法及び装置の実施例は、現存のＭＰＥＧエンコーダ及び／又はデコーダの回路が利用されることができるという利点を持つ。殆どの計算はビデオエンコーダ又はデコーダ中の回路によって既に為されているという事実のため、字幕を検出するための処理能力はあまり重要ではない。
【０００６】
一実施例は、それぞれが多くのビット及び量子化スケールにエンコードされたスライスへのフレームのＭＰＥＧ分割に基づく。前記第１及び第２の画像領域の複雑さはここでは、前記ビットの数と量子化スケールとの積を、それぞれの画像領域を構成するスライスに渡って和をとることにより算出される。
【０００７】
更なる実施例は、スペクトルのＤＣ及びＡＣ係数への画像データの変換に基づく。前記第１及び第２の画像領域の複雑さは、前記スペクトル係数の重心によって表される。
【０００８】
他の実施例は、動きベクトルを持つブロックへのフレームのＭＰＥＧ分割に基づく。前記第１の画像領域の複雑さは、所定の第１の閾値より小さい動きベクトルを持つブロックの数によって表され、前記第２の画像領域の複雑さは、所定の第２の閾値より大きい動きベクトルを持つブロックの数によって表される。
【０００９】
更に他の実施例においては、類似する予測ブロックを検索するためのＭＰＥＧデコーダの動き推定回路が、場面変化を検出するために利用される。前記第１及び第２の画像領域の複雑さはここでは、それぞれの画像領域における場面変換の発生によって表され、場面変化が前記第１の画像領域において検出され且つ前記第２の画像領域においては検出されない場合に前記出力信号が生成される。本実施例においては、前記出力信号は、字幕の存在ではなく、字幕の出現又は消滅を示唆するものであるであることに留意されたい。
【００１０】
字幕の検出は様々な種類のビデオ信号処理において有用である。
【００１１】
前記字幕は、テキストの電子版を提供するためＯＣＲアルゴリズムに掛けられても良い。電子テキストは、例えばデータベースに保存されたビデオ場面を索引付けするために、別個に保存され後に利用されても良い。この典型的な応用は、話されたキーワードに基づくビデオレコーダ中のビデオ場面の検索である。
【００１２】
更なる応用は、ビデオマテリアルの検索又は編集のためのキーフレームの生成である。キーフレームは通常、場面変化の後の最初のフレームの１つである。本発明は、字幕を付けられたフレームがキーフレームとして選択されることを可能にする。
【００１３】
字幕検出は更に、テレビジョン番組におけるコマーシャルによる中断を検出するのを支援し得る。コマーシャルはめったに字幕が付けられないため、字幕が付けられた映画の間の特定の時間の間の字幕の不在は、コマーシャル中断の示唆となる。
【発明を実施するための最良の形態】
【００１４】
図１は、本発明による字幕を検出する装置を含むＭＰＥＧエンコーダを模式的に示す。ＭＰＥＧエンコーダはそれ自体は知られている。前記ＭＰＥＧエンコーダは、各入力画像をブロックに分割する回路１００、各ブロックから予測ブロックを減算する減算器１０２、８×８画像画素の各ブロックを８×８のスペクトル係数のブロックに変換する離散コサイン変換回路１０３、量子化器１０４、可変長エンコーダ１０５、バッファ１０６、ビットレート制御回路１０７、逆量子化器１０８、逆離散コサイン変換回路１０９、加算器１１０、フレームメモリ１１１、動き推定回路１１２、及び動き補償器１１３を有する。前記ＭＰＥＧエンコーダの動作はビデオ圧縮の分野における当業者には良く知られており、それ故より詳細には説明されない。網羅的な説明が、特にJ.L.Mitchelらによる「MPEG Video Compression Standard」（ISBN0-412-08771-5，Kluwer Academic Publishers）に見出されることができる。
【００１５】
図１における参照番号３００は字幕検出器を示す。該字幕検出器の種々の実施例が以下に説明される。前記検出器は、前記ＭＰＥＧエンコーダによって生成された入力信号を受信する。前記検出器に送られる実際の信号（又は信号のセット）は、実施例に依存する。５つの入力信号が丸で囲まれた信号名によって図１に示されている。
ｂはオーバヘッドビットを除いた画像スライスをエンコードするために利用されるビットの数を示す。
ｑｓはスライスについての量子化スケールを示す。
ｃはマクロブロックの変換係数（ＤＣ及びＡＣ）を示す。
ｍｖはマクロブロックの動きベクトルを示す。
ｍａｄは入力画像ブロックと前記動き推定器によって見出された前記予測ブロックとの間の平均絶対差を示す。
【００１６】
図２は、可変長デコーダ２０１、スライス処理器２０２、マクロブロック処理器２０３、逆量子化器２０４、逆離散コサイン変換器２０５、加算器２０６、フレームメモリ２０７及び動き補償器２０８を有するＭＰＥＧデコーダを示す。前記エンコーダと同様に、このＭＰＥＧデコーダの更なる説明はここで与えられる必要はない。参照番号３００はここでも、前記ＭＰＥＧデコーダの種々の部分から入力信号を受信する字幕検出器を示す。信号ｂ、ｍｖ、ｑｓ及びｃは図１のものと同一である。
【００１７】
字幕検出器３００の動作は以下に説明される。図３が示すように、前記検出器は表示画面を、字幕が通常表示される第１の領域３１と更なる領域３２とに分割する。第１の画像領域３１及び更なる画像領域３２は、以下それぞれ字幕領域及び非字幕領域とも呼ばれる。字幕検出アルゴリズムは、字幕が出現しない第２の画像領域の複雑さと、字幕が表示される第１の画像領域の複雑さとの間の著しい相違に基づく。
【００１８】
図４は、字幕検出器３００の第１の実施例によって実行される動作ステップのフローチャートである。本実施例においては、前記複雑さは、それぞれの画像領域をエンコードするために利用されるビットの数ｂと、量子化スケールｑｓとの積によって表される。前記字幕領域について、複雑さＣ_１は、
【数１】

である。ここでＳ_１は前記字幕領域を集合的に形成するスライスのセットを示す。前記非字幕領域については、複雑さＣ_２は、
【数２】

である。ここでＳ_２は前記非字幕領域を集合的に形成するスライスのセットを示す。前記２つの領域の異なるサイズを考慮に入れるため、複雑さＣ_１及びＣ_２は、前記領域がカバーするマクロブロックの数によって前記複雑さを除算することにより正規化されることができる。複雑さＣ_１及びＣ_２はステップ４１において算出される。
【００１９】
ステップ４２において、現在のフレームｍについて比Ｒ_ｍ＝Ｃ_２／Ｃ_１が計算される。前記フレームに字幕が存在する場合、Ｒ_ｍは小さい。字幕が存在しない場合、前記２つの領域の複雑さは同等であり、それ故合致する。字幕の構造（通常小さな黒線によって囲まれた白いフォント）、及び該字幕が元のフレームに重畳されているという付加的な事実が、前記字幕領域の複雑さ値を著しく上昇させる。比Ｒ_ｍはそれ故減少する。前記比が小さい程、前記字幕は大きく複雑である。
【００２０】
入手可能な字幕が付けられたマテリアルの２時間の調査は、映画における最小の字幕の持続時間は２秒であることを明らかにした。前記検出器は、前記時間内に生成される各Ｉフレームについて比Ｒ_ｍを算出する。
【００２１】
続くステップ４３において、比Ｒ_ｍが合計される。ステップ４４において、ΣＲ_ｍが閾値Ｔｈｒと比較される。ΣＲ_ｍが前記閾値より小さい場合、ステップ４５において字幕が存在すると判断され、適切な出力信号が生成される。閾値Ｔｈｒは入手可能な字幕を付けられた映画マテリアルの調査から経験的に選択される。
【００２２】
図５は、字幕検出器３００の第２の実施例によって実行される動作ステップのフローチャートである。本実施例において前記複雑さは、それぞれの画像領域３１及び３２における場面変化の出現によって表される。この目的のため、前記字幕検出器は前記ＭＰＥＧエンコーダから現在のマクロブロックの平均絶対歪み（ｍａｄ）を受信する。平均絶対歪みＭＡＤは、フレームメモリ１１１の中で（図１を参照）、現在の入力ブロックに最も類似する画像ブロックの位置を特定するために前記エンコーダによって利用される基準であり、予測的なエンコードのための予測ブロックとして利用されるように前記ブロックを選択する。最初のステップ５１において検出器３００は、現在のフレームについて前記字幕領域における平均絶対歪みの合計ΣＭＡＤ_１を計算し、前記非字幕領域における平均絶対歪みの合計ΣＭＡＤ_２を計算する。ステップ５２において前記検出器は、より小さな時間ウィンドウｔ_１内にあるフレームを除き、現在のフレームの回りの第１の所定の時間ウィンドウｔ_２内の全てのフレーム（Ｉ，Ｐ及びＢ）について平均値ＡｖＭＡＤ_１及びＡｖＭＡＤ_２を計算する（図６を参照）。ステップ５３において、現在のフレームの合計ΣＭＡＤ_１は時間ウィンドウ内のフレームの平均値ＡｖＭＡＤ_１と比較される。合計ΣＭＡＤ_１が平均値ＡｖＭＡＤ_１よりも十分に高い場合、合計ΣＭＡＤ_１は局所的なピーク値である。この場合前記字幕領域において場面変化が検出されたことになる。同様の方法で、ステップ５４において合計ΣＭＡＤ_２が平均値ＡｖＭＡＤ_２と比較される。ΣＭＡＤ_２がＡｖＭＡＤ_２よりも十分に高い場合、ΣＭＡＤ_２は局所的なピーク値であり、前記非字幕領域において場面変化が検出されたことになる。場面変化が前記字幕領域において検出されたが非字幕領域において検出されない場合、現在のフレームは字幕の出現又は消滅のフレームであるとして索引付けされる。次いでステップ５５において出力信号が生成される。
【００２３】
図７は、字幕検出器３００の第３の実施例によって実行される動作ステップのフローチャートである。本実施例においては、前記複雑さは、前記エンコーダによって生成される、又は前記デコーダによって受信されるＤＣＴ係数ｃの「重心」によって表される。ステップ７１において、前記字幕領域を形成するブロックのＤＣＴ係数ｃ_１（０）、・・・、ｃ_１（６３）のヒストグラムが計算される。有利にも、このことはＩフレームについてのみ行われる。ステップ７２において、前記非字幕領域を形成するブロックのＤＣＴ係数ｃ_２（０）、・・・ｃ_２（６３）について同様のヒストグラムが計算される。ステップ７３において、それぞれの重心ｎ_１及びｎ_２が計算される。前記重心は、以下を満たすＤＣＴ係数の指数ｎである。
【数３】

【００２４】
このことは図８Ａ及び８Ｂに示されている。ここで図８Ａは字幕のない画像領域の典型であるヒストグラムを示し、図８Ｂは字幕のある画像領域の典型であるヒストグラムを示す。このことは、字幕は通常小さな黒い境界を伴う白であり、そのため字幕をカバーするブロックはより多くの高いＡＣ係数を含むという事実によって引き起こされる。
【００２５】
ステップ７４において、重心ｎ_１とｎ_２とが比較される。重心ｎ_１が、重心ｎ_２よりも十分高い空間周波数に相当する場合、現在のＩフレームは字幕フレームとして検出される。この場合、ステップ７５において出力信号が生成される。
【００２６】
図９は、字幕検出器３００の第４の実施例によって実行される動作ステップのフローチャートである。本実施例においては、前記複雑さは、前記エンコーダによって生成された、又は前記受信器によって受信された動きベクトルｍｖから得られる。ステップ９１において、前記字幕領域を形成するマクロブロック間の動きベクトルｍｖ_１が所定の値Ｍ_１よりも小さいか否かがチェックされる。そうである場合は、ステップ９２においてカウンタｎ_１が増加される。ステップ９３において、前記非字幕領域を形成するマクロブロック間の動きベクトルｍｖ_２が所定の値Ｍ_２よりも大きいか否かがチェックされる。そうである場合、ステップ９４においてカウンタｎ_２が増加される。
【００２７】
ステップ９５において前記検出器は、前記字幕領域における小さな動きベクトルの平均値ｎ_１／Ｎ_１が、前記非字幕領域における大きな動きベクトルの平均値ｎ_２／Ｎ_２を超過するか否かをチェックする。ここでＮ_１及びＮ_２はそれぞれ、前記字幕領域及び前記非字幕領域におけるマクロブロックの総数である。そうである場合、字幕が存在すると判断され、ステップ９６において適切な出力信号が生成される。本実施例は、字幕というのは静的であり、そのため前記字幕領域における動きベクトルは一般に小さいという洞察を利用する。このことは図１０に示される。ここで数字９８及び９９はそれぞれ、大きな動きベクトルを持つマクロブロック及び小さな動きベクトル（略ゼロ）を持つマクロブロックを示す。
【００２８】
字幕は、画像の各（８×８）ブロックについて、かようなブロックが「テキストブロック」である見込みがあるか否かを決定し、次いで字幕を十分な数の連続したテキストブロックを収容する領域として特定することにより検出されることもできる。可能なテキストブロック検出アルゴリズムは、ＡＣ係数の所定のセットの絶対値の和を算出すること、及び閾値Ｔｈｒに対して前記絶対値の和をチェックすることを含む。数学的な記法では以下のようになる：
【数４】

ここでｘ，ｙは画像内のブロックの位置を示し、ｉ，ｊは前記ブロック内のＡＣ係数の位置を示し、Ｉ，Ｊはテキスト検出のために考慮に入れられる係数位置を示す（例えばジグザグ走査の最初の９個のＡＣ係数）。
【００２９】
かくして集合的に得られたテキストブロック検出値ＴＢ（ｘ，ｙ）は、テキストブロックである見込みがあるブロックについては１を、そうでなければ０を含む行列を構成する。テキストブロック行列は一般に、前記字幕領域においてはかなりの数の１を含む。前記行列はまた、鋭い輝度のエッジ（edge）のため前記画像中の他の場所に孤立したテキストブロックを含み、誤検出又は前記字幕の語の間のスペースのため前記字幕領域中に孤立した非テキストブロックを含むであろう。それ故、前記テキストブロック検出の結果にフィルタリングが適用される。最初のフィルタは孤立したテキストブロックを除去するために利用される。第２のフィルタはテキストブロック間のギャップを塞ぐために利用される。除去する−埋める−除去する−埋める、というシーケンス（２回の反復するフィルタ操作）が適切であることがわかっている。より多くの反復は結果を著しく改善しない。前記フィルタのサイズは、それぞれの画像提供者によって利用されるフォントサイズに調節されても良く、それ故国によって、又は放送局によって変化しても良い。
【００３０】
前記テキストブロック行列を利用した字幕の位置特定は、アスペクト比（字幕が通常水平に伸ばされる）及び位置（画面の下３分の１）のような既知の幾何学的な特性を考慮に入れることにより、更に改善されることができる。また時間的な特性（字幕は特定の時間の間静的である）が、かような後処理アルゴリズムによって考慮に入れられても良い。
【００３１】
ビデオ信号中の字幕の存在、出現又は消滅を検出する方法及び装置が開示された。殆どの計算は既にＭＰＥＧエンコーダ（１０１乃至１１３）又はデコーダの回路によって為されているため、非常に高いに信頼性が達成され、わずかな処理能力しか必要とされない。字幕が表示される画像領域の複雑さが、少なくとも１つの他の画像領域の複雑さを超過する場合、字幕が検出される。前記複雑さを表す特性の例は、（ｉ）ＭＰＥＧスライスにおけるビットコスト（ｂ）と量子化スケール（ｑｓ）との積、（ii）スペクトルのＤＣＴ係数（ｃ）の重心の位置、（iii）大きな動きベクトルを持つマクロブロックの数に対する小さな動きベクトル（ｍｖ）を持つ字幕領域におけるマクロブロックの数、又は（iv）異なる画像領域において場面変化が同時に検出されないという事実、である。
【００３２】
前記装置は、コマーシャルによる中断の検出又はキーフレーム生成のためにも利用されることができる。
【図面の簡単な説明】
【００３３】
【図１】本発明による字幕検出器を含むＭＰＥＧエンコーダを模式的に示す。
【図２】本発明による字幕検出器を含むＭＰＥＧデコーダを模式的に示す。
【図３】表示画像を示す。
【図４】図１及び２に示される字幕検出器の第１の実施例によって実行される動作ステップのフローチャートである。
【図５】図１及び２に示される字幕検出器の第２の実施例によって実行される動作ステップのフローチャートである。
【図６】図５に示される実施例の動作を説明するためのタイミング図を示す。
【図７】図１及び２に示される字幕検出器の第３の実施例によって実行される動作ステップのフローチャートである。
【図８（Ａ）】図７に示される実施例の動作を説明するためのヒストグラムを示す。
【図８（Ｂ）】図７に示される実施例の動作を説明するためのヒストグラムを示す。
【図９】図１及び２に示される字幕検出器の第４の実施例によって実行される動作ステップのフローチャートである。
【図１０】字幕領域における動きベクトルは一般に小さいことを示す図である。

Claims

字幕が再生されることが予期される第１の画像領域と前記第１の画像領域に重ならない少なくとも１つの第２の画像領域とに各フレームを分割するステップと、
前記第１及び第２の画像領域の複雑さを算出するステップと、
前記第１の画像領域の複雑さが前記第２の画像領域の複雑さを所定の比率だけ超過した場合、出力信号を生成するステップと、
を有する、ビデオ信号中の字幕を検出する方法。
前記第１及び第２の画像領域は、それぞれが多くのビット及び量子化スケールにエンコードされたスライスに分割され、前記第１及び第２の領域の複雑さは、前記ビットの数と量子化スケールとの積を、それぞれの画像領域を構成する前記スライスに渡って合計することによって算出される、請求項１に記載の方法。
各前記画像領域中の画像データはスペクトル係数に変換され、前記方法は更に、それぞれの前記画像領域の前記スペクトル係数の重心を算出するステップを有し、前記第１及び第２の画像領域の複雑さは、それぞれの前記重心のスペクトル位置によって表される、請求項１に記載の方法。
前記第１及び第２の画像領域は動きベクトルを持つブロックに分割され、前記第１の画像領域の複雑さは、所定の第１の閾値よりも小さな動きベクトルを持つブロックの数によって表され、前記第２の画像領域の複雑さは、所定の第２の閾値よりも大きな動きベクトルを持つブロックの数によって表される、請求項１に記載の方法。
前記第１及び第２の画像領域における場面変化を検出するステップを更に有し、前記第１及び第２の画像領域の複雑さは、それぞれの前記画像領域における場面変化の発生によって表され、場面変化が前記第１の画像領域において検出され且つ前記第２の画像領域においては検出されない場合に前記出力信号が生成される、請求項１に記載の方法。
字幕が再生されることが予期される第１の画像領域と前記第１の画像領域に重ならない少なくとも１つの第２の画像領域とに各フレームを分割する手段と、
前記第１及び第２の画像領域の複雑さを算出する手段と、
前記第１の画像領域の複雑さが前記第２の画像領域の複雑さを所定の比率だけ超過した場合に出力信号を生成する手段と、
を有するビデオ信号中の字幕を検出する装置。