JP4626886B2

JP4626886B2 - デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置

Info

Publication number: JP4626886B2
Application number: JP2005241216A
Authority: JP
Inventors: ゾウフイ
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2004-08-26
Filing date: 2005-08-23
Publication date: 2011-02-09
Anticipated expiration: 2025-08-23
Also published as: EP1632900A3; JP2006067585A; EP1632900A2; US20060045346A1

Description

関連出願の相互参照

本出願は、２００４年８月２６日に出願された米国仮特許出願第６０／６０４５７４号の利益を主張する。

本発明は、広くは画像処理に係り、更に詳細にはデジタル画像における見出し（キャプション）を位置特定及び抽出する方法及び装置に関する。

デジタルビデオは、重要且つ広く使用されている媒体である。残念ながら、デジタルビデオデータは典型的には構造化されておらず、ピクセルデータは別として、時には当該ビデオの内容に関する追加情報を提供することがない。これは、勿論、記憶されたデジタルビデオの効果的且つ効率的な検索を非常に困難にさせる。

デジタルビデオの検索を容易化するために、手でデジタルビデオに注釈を付けることが考えられていた。しかしながら、これは非常に時間の掛かる困難な作業であり、経済的に非現実的にさせる。

幾つかの事例においては、デジタルビデオフレーム及び画像はキャプション、字幕（サブタイトル）及び／又は他のテキスト的情報を含んでいる。デジタルビデオフレーム及び画像から斯様なテキスト的情報を位置特定及び抽出するための多くの試みがなされた。

例えば、Pizano他の米国特許第6,101,274号は、デジタルビデオ信号におけるテキスト的キャプションを検出及び解釈する方法及び装置を開示している。デジタルビデオフレーム内のエッジが、変更されたソーベル（Sobel）エッジ検出器を用いて検出され、次いでエッジ画像が二進化される。次いで、二進化されたエッジ画像は、処理されるべきデータの量を低減すると共に該画像内のエッジを強調するために圧縮される。次いで、エッジ画像内の連結されたピクセルの群がテキスト領域の一部でありそうかについての判定が、キャプションの時間的に冗長な特徴及びデジタルビデオフレーム内のキャプションの適切な位置に関する情報を使用することによりなされる。

Lienhart他の米国特許第6,470,094号は、デジタルビデオの複数フレームを通しての時間的冗長性を利用するような、デジタル画像におけるテキストを突き止める方法を開示している。該方法の間において、ソース画像は種々の解像度の幾つかの画像に変換され、これら画像の各々においてエッジが検出される。複数の画像にわたる検出されたエッジの比較が、高信頼度でエッジが識別されるのを可能にする。エッジが識別されたら、ソース画像における実際のテキスト及び背景カラーを決定するために、色差ヒストグラムが使用される。

Kuwano他の米国特許第6,501,856号は、ビデオフレーム内の文字を検出する方法であって、斯かるビデオフレーム内のエッジ対が検出されるような方法を開示している。次いで、ビデオフレーム内の文字は、規定された特徴点の空間的分布から決定される。

Agnihotri他の米国特許第6,614,930号は、ビデオストリームにおける記号（シンボル）を分類する方法及びシステムを開示している。エッジ検出フィルタを用いて識別されたシンボル領域を分離するための連結成分技術が使用される。入力画像はグレイスケール化され、高周波数を除去するためにフィルタ処理される。該フィルタ処理された画像におけるエッジが、次いで、適応型閾エッジフィルタを用いて検出される。次いで、隣接するエッジピクセルはグループ化され、実際の記号の識別された部分を連結するために一連の形態学的処理が使用される。

Vaezi他の米国特許第6,115,497号は、画像における文字認識のための方法及び装置を開示している。輪郭追跡によりテキスト又は非テキストの何れかとして確立された連結された成分を分類するような判断ツリー構造が使用される。連結された成分は、更に、他の連結された成分に対する寸法及び位置に関して分類される。

Satou他の米国特許第6,243,419号は、ビデオデータにおけるキャプションを検出する方法であって、画像を個々のフレームに復号すること無く、予測符号化及び動き補償を使用するような方法を開示している。該キャプション検出及び抽出は、画像要素間のフレーム間相関に基づいている。

Wang他の米国特許出願公開第2003/0035580号も、デジタルカメラ画像における文字を突き止める方法及び装置を開示している。入力画像からノイズを除去するためにフィルタが使用され、該入力画像のカラー空間が正規化される。次いで、正規化されたカラー画像の二進レイヤを解析することにより、連結された構成部分が決定される。大き過ぎる構成部分は、文字でないとして破棄される。カラーコントラスト及び連結された構成部分の水平又は垂直整列の検査を含む、誤り警告を減少させるための多数の発見的方法が使用される。

上述した文献はデジタルビデオフレーム又は画像におけるキャプション及び／又は他のテキスト的情報の検出を開示しているが、デジタルビデオフレーム及び画像におけるキャプションを位置特定し、位置特定されたキャプションが抽出されるのを可能にするような改善された方法が望まれている。

従って、本発明の目的はデジタル画像におけるキャプションを位置特定及び抽出する新規な方法及び装置を提供することにある。

従って、一態様においては、デジタル画像におけるキャプションを位置特定する方法であって、
前記デジタル画像におけるエッジ情報を検出すると共に、エッジ画像を発生するステップと、
前記エッジ画像に対して浸食（erosion）及び膨張（dilation）処理を実行すると共に、前記エッジ画像における１以上の候補となるキャプション包含領域を識別するステップと、
少なくとも１つの検出された候補キャプション包含領域に対して、前記デジタル画像における該少なくとも１つの候補キャプション包含領域に対応する部分を処理して、該領域内のキャプションを識別するステップと、
を有するような方法が提供される。

一実施例においては、本方法は位置特定されたキャプションを抽出すると共に該抽出されたキャプションを含む出力画像を発生するようなステップを更に有する。当該デジタル画像はグレイスケール画像、又はグレイスケール画像に変換されるカラー画像の何れかとすることができる。前記浸食及び膨張処理を実行する前に、前記エッジ画像はぼかされる（blurred）と共に、該ぼかされたエッジ画像の平均輝度を閾値として使用することにより閾処理される。

前記処理の間において、当該デジタル画像における前記少なくとも１つの候補キャプション包含領域に対応する部分が閾処理されて、該部分における潜在的にキャプション文字を表すようなピクセル構成部分を検出する。これら検出されたピクセル構成部分には少なくとも１つの試験が実施され、該検出されたピクセル構成部分をキャプション文字として検証する。この実施の間において、整列されたピクセル構成部分が決定される。指定された寸法範囲外のピクセル構成部分及び前記少なくとも１つの候補キャプション包含領域の境界と交差するピクセル構成部分はキャプション文字を表さないと見なされ、破棄される。

他の態様によれば、デジタル画像におけるキャプションを検出する方法であって、
前記デジタル画像におけるエッジ情報を検出すると共に、エッジ画像を発生するステップと、
前記エッジ画像に形態学的処理を施して、前記エッジ画像における候補キャプション包含領域を識別するステップと、
前記デジタル画像における前記候補キャプション包含領域のうちの少なくとも１つに対応する部分を調査して、該部分におけるキャプション文字を潜在的に表すピクセル構成部分を検出するステップと、
検出されたピクセル構成部分に複数の試験を施して、これらピクセル構成部分が前記キャプション文字を表すものとして検証するステップと、
を有するような方法が提供される。

更に他の態様によれば、デジタル画像におけるキャプションを位置特定する装置であって、
前記デジタル画像において識別されたエッジを含むようなエッジ画像を発生するエッジ検出器と、
前記エッジ画像に作用して、前記エッジ画像における１以上の候補キャプション包含領域を識別する形態学的演算器と、
前記デジタル画像における少なくとも１つの識別されたキャプション包含領域に対応する部分を処理して、該部分におけるキャプションを位置特定するキャプションロケータと、
を有するような装置が提供される。

上記キャプションロケータは、位置特定されたキャプションを抽出すると共に該抽出されたキャプションを含むような出力画像を発生する。また、該キャプションロケータは、デジタル画像の上記部分を閾処理して、該部分におけるキャプション文字を潜在的に表すピクセル構成部分を検出する。これらピクセル構成部分には、検出されたピクセル構成部分をキャプション文字として検証するために少なくとも１つの試験が施される。一実施例においては、上記キャプションロケータは、整列されたピクセル構成部分を決定し、指定された寸法範囲外の寸法を持つようなピクセル構成部分を破棄し、前記候補キャプション包含領域の境界と交差するピクセル構成部分を破棄する。

更に他の態様によれば、デジタル画像におけるキャプションを位置特定するコンピュータプログラムを含むようなコンピュータ読み取り可能な媒体であって、前記コピープログラムが、
前記デジタル画像におけるエッジ情報を検出すると共に、エッジ画像を発生するコンピュータプログラムコードと、
前記エッジ画像に対して浸食及び膨張処理を実行すると共に、前記エッジ画像における１以上の候補キャプション包含領域を識別するコンピュータプログラムコードと、
少なくとも１つの検出された候補キャプション包含領域に対し、前記デジタル画像における該少なくとも１つの候補キャプション包含領域に対応する部分を処理して、該部分におけるキャプションを位置特定するコンピュータプログラムコードと、
を有するようなコンピュータ読み取り可能な媒体が提供される。

更に他の態様によれば、デジタル画像におけるキャプションを検出するコンピュータプログラムを含むようなコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムが、
前記デジタル画像におけるエッジ情報を検出してエッジ画像を発生するコンピュータプログラムコードと、
前記エッジ画像に対し形態学的処理を実行して、前記画像における候補キャプション包含領域を識別するコンピュータプログラムコードと、
前記デジタル画像における前記候補キャプション包含領域のうちの少なくとも幾つかに対応する部分を調査して、該部分におけるキャプション文字を潜在的に含むピクセル構成部分を検出するコンピュータプログラムコードと、
検出されたピクセル構成部分に複数の試験を施して、これらピクセル構成部分が前記キャプション文字を表すことを検証するコンピュータプログラムコードと、
を有するようなコンピュータ読み取り可能な媒体が提供される。

デジタル画像におけるキャプションを位置特定する当該方法及び装置は、キャプションが検出され、抽出されるのを可能にする。この場合、抽出されたキャプションは当該デジタル画像に注釈付けをし、又はさもなければラベル付けをし、かくして当該デジタル画像の内容に関する情報を提供するために使用することができる。これは、勿論、記憶されたデジタル画像又はビデオが効率的に且つ効果的に検索されるのを可能にする。デジタル画像におけるキャプションを位置特定するためにエッジ及び連結性情報を使用することにより、デジタル画像におけるキャプションを迅速且つ正確に突き止めることができる。

以下、本発明の実施例を、添付図面を参照して更に詳細に説明する。

以下の説明においては、デジタル画像におけるキャプションを位置特定及び抽出する方法、装置及びコンピュータプログラムの実施例が提示される。該デジタル画像はデジタルビデオのシーケンス若しくはストリームの一部を形成するビデオフレームとするか、又は静止画像とすることができる。この出願の前後関係内で、“キャプション”とは、例えば秘密解説文（closed-captioning text）、字幕（subtitles）及び／又は他のテキスト的情報等の、デジタル画像に現れ得る如何なるテキスト的情報をも指すものである。

当該方法、装置及びコンピュータプログラムは、パーソナルコンピュータ、サーバ又は他のコンピュータシステム環境のような処理ユニットにより実行されるコンピュータ実行可能な命令を含むビジュアルベーシック、Ｃ++又はジャバ等で書かれたソフトウェアアプリケーションで実施化することができる。該ソフトウェアアプリケーションは、単独のデジタル画像編集ツールとして動作することができるか、又は他のデジタル画像化アプリケーションに、斯かるデジタル画像編集アプリケーションに強化された機能を提供するために組み込むこともできる。該ソフトウェアアプリケーションは、コンピュータ読み取り可能な媒体上に記憶されたコンピュータ読み取り可能なプログラムコードとして具現化された、ルーチン、プログラム、オブジェクト要素、データ構造等を有するようなプログラムモジュールを含むことができる。斯かるコンピュータ読み取り可能な媒体は、データを記憶することができ、該データが後にコンピュータシステムにより読み取ることができるような如何なるデータ記憶装置でもある。コンピュータ読み取り可能な媒体の例は、例えば、読取専用メモリ、ランダムアクセスメモリ、ＣＤ−ＲＯＭ、磁気テープ及び光データ記憶装置を含む。前記コンピュータ読み取り可能なプログラムコードは、斯かるコンピュータ読み取り可能なプログラムコードが分散態様で記憶及び実行されるように、結合されたコンピュータシステムを含むネットワークを介して分配させることもできる。

本例において、入力デジタル画像から検出及び抽出されるべきキャプションは、デジタルビデオフレームに適用され又は重畳（スーパーインポーズ）された日本語の漢字、平仮名及び片仮名表意文字から主としてなる字幕である。当該キャプションの文字は色が明るく、これら文字に対して高コントラストな暗い境界に重なると仮定する。また、当該文字はデジタルビデオフレーム内で水平又は垂直の何れかに概ね整列されると仮定すると共に、これら文字は同様の寸法のものであり、且つ、指定された範囲内に入る寸法のものであると仮定する。

ここで図１を参照すると、入力デジタル画像におけるキャプションを位置特定及び抽出するために実行される概略ステップが示されている。最初に、入力デジタル画像が前処理され、該前処理されたデジタル画像におけるエッジ情報が検出される（ステップ１００）。次いで、当該エッジ画像における候補となるキャプション包含領域が、形態学的処理を用いて決定される（ステップ１０２）。次いで、グレイスケール入力デジタル画像をマスクするために各候補キャプション包含領域が使用される（ステップ１０４）。当該グレイスケール入力デジタル画像における各マスク内の部分が、該デジタル画像内のキャプションを検出するよう処理されると共に（ステップ１０６）、検出されたキャプションは抽出され、これにより該検出されたキャプションを含む出力画像を発生する。

上記方法の更なる詳細を、図２ないし４を参照して説明する。理解を容易にするために、当該方法の実行の間の種々の段階における入力デジタル画像（図５参照）の変換を示す図５ないし１６も参照する。ステップ１００における前処理の間において、当該入力デジタル画像は、該入力デジタル画像がカラーによるものであるか又はグレイスケール画像であるかを判定するために調査される（図２のステップ２００参照）。当該入力デジタル画像がグレイスケール画像である場合は、更なる処理のための準備が整っていると見なされる。当該入力デジタル画像が、図５に示すように、カラーによるものである場合、該入力デジタル画像は更なる処理に即応した形態にするために２５６グレイスケールの画像に変換される（ステップ２０２及び図６）。次いで、該グレイスケール画像は２ｘ２のボックスフィルタを用いてぼかされる（ステップ２０４及び図７）。上記のぼかされたグレイスケール画像にCannyエッジ検出器が適用されて、該ぼかされたグレイスケール画像における検出されたエッジを含むようなエッジ画像を生じる（ステップ２０６及び図８）。

既知のように、Cannyエッジ検出器は複数段階で動作する。上記のぼかされた画像は最初に平滑化され、次いで、該平滑化された画像に二次元演算器が適用されて、当該画像における大きな一次空間導関数を持つ領域を強調する。当該画像におけるエッジは、勾配振幅画像（gradient magnitude image）に嶺（リッジ）を生じさせる。これらリッジが追跡され、斯かるリッジ上にない全てのピクセルは零に設定されて、これらリッジを表す細い線を生じさせる。

次いで、上記エッジ画像は１０ｘ１０のボックスフィルタを用いてぼかされる（ステップ２０８及び図９）。該ぼかされたエッジ画像の平均輝度が計算され（ステップ２１０）、該計算された平均輝度値を閾として用いて上記のぼかされたエッジ画像は閾処理される（ステップ２１２及び図１０）。閾処理の間に、当該ぼかされたエッジ画像における上記閾より大きな値を持つピクセルは白に設定され、上記閾より小さな値を持つピクセルは黒に設定される。

ステップ１０２においては、候補となるキャプション包含領域を表す白ピクセルの領域を記入するために、複数の形態学的処理が上記の閾処理されたぼかされたエッジ画像に適用される。特には、３ｘ３浸食処理（図３におけるステップ３００）並びに、順に後続する１０の３ｘ３膨張（ステップ３０２）、７つの３ｘ３浸食（ステップ３０４）及び１つの３ｘ３膨張（ステップ３０６）が実行される。斯かる形態学的処理が完了すると、結果としての画像（図１１）が調査されて、候補キャプション包含領域を形成する白ピクセルを決定する（ステップ３０８）。この処理の間においては、候補キャプション包含領域内の各白ピクセルが調査されて、所定数の隣接するピクセルが同じ値を有するかを判定する。もしそうなら、該ピクセルは当該候補キャプション包含領域の一部であると見なされる。この例においては、各ピクセルが、４つの非対角線的な隣接するピクセルが同一の値を有するかを判定するように調査される。各候補キャプション包含領域のピクセルが決定されたら、斯かる候補キャプション包含領域が抽出される。次いで、抽出された候補キャプション包含領域は面積に基づいてソートされ（ステップ３１０）、閾寸法より大きな候補キャプション包含領域が決定される（ステップ３１２）。何れの候補キャプション包含領域も上記閾寸法より大きくない場合、当該入力デジタル画像は如何なるキャプションも含んでいないと見なされるので、本方法は終了される。

抽出された候補キャプション包含領域が記憶され、上記閾寸法より大きな候補キャプション包含領域が決定されると、ステップ１０４において、上記閾寸法より大きな寸法を有する最大の候補キャプション包含領域が最初に選択され、領域マスクを規定するために使用される。次いで、上記領域マスクは図６のグレイスケール画像に適用されて、当該グレイスケール画像における該領域マスクに対応する部分を識別する（図１２参照）。

ステップ１０６においては、図６のグレイスケール画像の平均輝度レベルが計算され（ステップ４００）、該グレイスケール画像における上記領域マスクに対応する部分を閾処理するために使用される（ステップ４０２）。閾処理の間においては、上記グレイスケール画像における当該閾より大きな値を持つピクセル（即ち候補キャプション文字を形成するピクセル）が白に設定され、該閾より小さな値を持つピクセルは黒に設定される。次いで、候補キャプション包含領域を識別する図１１の結果としての画像に輪郭検出が適用され、選択された領域マスクの輪郭を決定する（ステップ４０４及び図１３）。

輪郭検出の間においては、選択された候補キャプション包含領域の各ピクセルが調査されて、該ピクセルの４つの非対角的な隣接ピクセルの何れかが黒であるかを判定する。もしそうなら、該ピクセルは当該候補キャプション包含領域の輪郭の一部であると見なされ、輪郭ピクセルとしてラベル付けされる。次いで、当該グレイスケール画像における前記領域マスクに対応する閾処理された部分を含む図１２の画像が、上記の判定された輪郭ピクセルと比較される（ステップ４０６）。当該閾処理された部分における上記輪郭ピクセルと交差する白ピクセル構成部分は削除される（ステップ４０８及び図１４）。次いで、当該閾処理された部分における各白ピクセル構成部分の寸法が調べられ、該白ピクセル構成部分が指定された寸法範囲に入るかが判定される（ステップ４１０）。この例においては、各白ピクセル構成部分が、８ｘ８ピクセルより大きいか、及び８０ｘ８０ピクセルより小さいかがチェックされる。当該寸法範囲に入らない如何なる白ピクセル構成部分も破棄される。指定された寸法範囲に入る残りの白ピクセル構成部分に関しては、これら白ピクセル構成部分が水平又は垂直線と概ね整列され得るかを判定すべく調査される（ステップ４１２）。整列され得るような白ピクセル構成部分は、キャプション文字であると見なされ、抽出される（図１５）。他の白ピクセル構成部分と整列しない如何なる白ピクセル構成部分も、破棄される。

白ピクセル構成部分が整列されるかを判定するために、斯かる白ピクセル構成部分の中心の位置が決定され、中心位置が比較される。白ピクセル構成部分が水平に整列される場合は、これら白ピクセル構成部分のｘ座標値は概ね同一である。白ピクセル構成部分が垂直に整列される場合は、これら白ピクセル構成部分のｙ座標値が概ね同一となる。整列された座標値から著しく変化するようなｘ座標値又はｙ座標値（当該白ピクセル構成部分が水平に整列されるか又は垂直に整列されるかに依存する）を持つ白ピクセル構成部分は破棄される。

選択された候補キャプション包含領域におけるキャプション文字が決定されると、前記閾より大きな寸法を持つ次の候補キャプション包含領域が選択され、上述したステップが再実行される。最終結果は、抽出されたキャプションを含む出力画像である（図１６参照）。これらのステップは、候補キャプション包含領域が残存しないか、前記閾より大きな候補キャプション包含領域が残存しないか、又は最大数の候補キャプション包含領域が処理されてしまうまで、実行される。本例では、最大で８個の候補キャプション包含領域が処理される。

上述した例は、デジタル画像フレームからの日本語の表意文字の検出及び抽出を示した。しかしながら、当業者であれば、他の言語のキャプション文字も位置特定及び抽出することができると理解するであろう。処理されている画像から位置特定及び抽出されるべきテキスト的情報に依存して、ピクセル構成部分の寸法評価規準は調整することができると共に、ピクセル構成部分の整列試験は省略することができる。候補キャプション包含領域を記入するために、勿論、異なる形態学的処理を採用することもできる。

以上、実施例を説明したが、当業者であれば、添付請求項に記載した本発明の趣旨及び範囲から逸脱すること無しに変形例及び変更例をなすことができることが判るであろう。

図１は、デジタル画像におけるキャプションを位置特定及び抽出する方法のフローチャートである。図２は、デジタル画像の処理の間に実行されるステップを示すフローチャートである。図３は、候補キャプション包含領域の検出の間に実行されるステップを示すフローチャートである。図４は、キャプションを検出及び抽出するためのグレイスケール画像の部分の処理の間に実行されるステップを示すフローチャートである。図５は、キャプションを含む例示的デジタル画像である。図６は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図７は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図８は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図９は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図１０は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図１１は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図１２は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図１３は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図１４は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図１５は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。図１６は、キャプションの検出及び抽出の間の或る段階における図５のデジタル画像の変換を示す。

Claims

デジタル画像におけるキャプションの位置の特定を画像処理装置により実行する方法において、
前記デジタル画像のエッジ情報を検出し、エッジ画像を生成するステップと、
前記エッジ画像に対してエロージョン及びダイレージョン処理を実行し、該エッジ画像における不定形領域である候補キャプション包含領域を検出するステップと、
前記デジタル画像における前記候補キャプション包含領域に対応する部分を処理するステップと、
を有し、
前記位置特定されたキャプションを抽出し、該抽出されたキャプションを含むような出力画像を生成するステップを更に有し、
前記デジタル画像はグレイスケール画像であり、当該方法は、前記実行するステップの前に、前記エッジ画像を最初にぼかし次いで閾処理するステップを更に有し、
前記ぼかされたエッジ画像は、該ぼかされたエッジ画像の平均輝度を閾値として用いることにより閾処理され、
前記エッジ情報を検出するステップの前に、前記グレイスケール画像をぼかすステップを更に有し、
前記エッジ情報を検出するステップが、Cannyエッジ検出器を用いて実行されることを特徴とする方法。