JP4626886B2 - デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 - Google Patents

デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 Download PDF

Info

Publication number
JP4626886B2
JP4626886B2 JP2005241216A JP2005241216A JP4626886B2 JP 4626886 B2 JP4626886 B2 JP 4626886B2 JP 2005241216 A JP2005241216 A JP 2005241216A JP 2005241216 A JP2005241216 A JP 2005241216A JP 4626886 B2 JP4626886 B2 JP 4626886B2
Authority
JP
Japan
Prior art keywords
image
caption
edge
digital image
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005241216A
Other languages
English (en)
Other versions
JP2006067585A (ja
JP2006067585A5 (ja
Inventor
ゾウ フイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Publication of JP2006067585A publication Critical patent/JP2006067585A/ja
Publication of JP2006067585A5 publication Critical patent/JP2006067585A5/ja
Application granted granted Critical
Publication of JP4626886B2 publication Critical patent/JP4626886B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

関連出願の相互参照
本出願は、2004年8月26日に出願された米国仮特許出願第60/604574号の利益を主張する。
本発明は、広くは画像処理に係り、更に詳細にはデジタル画像における見出し(キャプション)を位置特定及び抽出する方法及び装置に関する。
デジタルビデオは、重要且つ広く使用されている媒体である。残念ながら、デジタルビデオデータは典型的には構造化されておらず、ピクセルデータは別として、時には当該ビデオの内容に関する追加情報を提供することがない。これは、勿論、記憶されたデジタルビデオの効果的且つ効率的な検索を非常に困難にさせる。
デジタルビデオの検索を容易化するために、手でデジタルビデオに注釈を付けることが考えられていた。しかしながら、これは非常に時間の掛かる困難な作業であり、経済的に非現実的にさせる。
幾つかの事例においては、デジタルビデオフレーム及び画像はキャプション、字幕(サブタイトル)及び/又は他のテキスト的情報を含んでいる。デジタルビデオフレーム及び画像から斯様なテキスト的情報を位置特定及び抽出するための多くの試みがなされた。
例えば、Pizano他の米国特許第6,101,274号は、デジタルビデオ信号におけるテキスト的キャプションを検出及び解釈する方法及び装置を開示している。デジタルビデオフレーム内のエッジが、変更されたソーベル(Sobel)エッジ検出器を用いて検出され、次いでエッジ画像が二進化される。次いで、二進化されたエッジ画像は、処理されるべきデータの量を低減すると共に該画像内のエッジを強調するために圧縮される。次いで、エッジ画像内の連結されたピクセルの群がテキスト領域の一部でありそうかについての判定が、キャプションの時間的に冗長な特徴及びデジタルビデオフレーム内のキャプションの適切な位置に関する情報を使用することによりなされる。
Lienhart他の米国特許第6,470,094号は、デジタルビデオの複数フレームを通しての時間的冗長性を利用するような、デジタル画像におけるテキストを突き止める方法を開示している。該方法の間において、ソース画像は種々の解像度の幾つかの画像に変換され、これら画像の各々においてエッジが検出される。複数の画像にわたる検出されたエッジの比較が、高信頼度でエッジが識別されるのを可能にする。エッジが識別されたら、ソース画像における実際のテキスト及び背景カラーを決定するために、色差ヒストグラムが使用される。
Kuwano他の米国特許第6,501,856号は、ビデオフレーム内の文字を検出する方法であって、斯かるビデオフレーム内のエッジ対が検出されるような方法を開示している。次いで、ビデオフレーム内の文字は、規定された特徴点の空間的分布から決定される。
Agnihotri他の米国特許第6,614,930号は、ビデオストリームにおける記号(シンボル)を分類する方法及びシステムを開示している。エッジ検出フィルタを用いて識別されたシンボル領域を分離するための連結成分技術が使用される。入力画像はグレイスケール化され、高周波数を除去するためにフィルタ処理される。該フィルタ処理された画像におけるエッジが、次いで、適応型閾エッジフィルタを用いて検出される。次いで、隣接するエッジピクセルはグループ化され、実際の記号の識別された部分を連結するために一連の形態学的処理が使用される。
Vaezi他の米国特許第6,115,497号は、画像における文字認識のための方法及び装置を開示している。輪郭追跡によりテキスト又は非テキストの何れかとして確立された連結された成分を分類するような判断ツリー構造が使用される。連結された成分は、更に、他の連結された成分に対する寸法及び位置に関して分類される。
Satou他の米国特許第6,243,419号は、ビデオデータにおけるキャプションを検出する方法であって、画像を個々のフレームに復号すること無く、予測符号化及び動き補償を使用するような方法を開示している。該キャプション検出及び抽出は、画像要素間のフレーム間相関に基づいている。
Wang他の米国特許出願公開第2003/0035580号も、デジタルカメラ画像における文字を突き止める方法及び装置を開示している。入力画像からノイズを除去するためにフィルタが使用され、該入力画像のカラー空間が正規化される。次いで、正規化されたカラー画像の二進レイヤを解析することにより、連結された構成部分が決定される。大き過ぎる構成部分は、文字でないとして破棄される。カラーコントラスト及び連結された構成部分の水平又は垂直整列の検査を含む、誤り警告を減少させるための多数の発見的方法が使用される。
上述した文献はデジタルビデオフレーム又は画像におけるキャプション及び/又は他のテキスト的情報の検出を開示しているが、デジタルビデオフレーム及び画像におけるキャプションを位置特定し、位置特定されたキャプションが抽出されるのを可能にするような改善された方法が望まれている。
従って、本発明の目的はデジタル画像におけるキャプションを位置特定及び抽出する新規な方法及び装置を提供することにある。
従って、一態様においては、デジタル画像におけるキャプションを位置特定する方法であって、
前記デジタル画像におけるエッジ情報を検出すると共に、エッジ画像を発生するステップと、
前記エッジ画像に対して浸食(erosion)及び膨張(dilation)処理を実行すると共に、前記エッジ画像における1以上の候補となるキャプション包含領域を識別するステップと、
少なくとも1つの検出された候補キャプション包含領域に対して、前記デジタル画像における該少なくとも1つの候補キャプション包含領域に対応する部分を処理して、該領域内のキャプションを識別するステップと、
を有するような方法が提供される。
一実施例においては、本方法は位置特定されたキャプションを抽出すると共に該抽出されたキャプションを含む出力画像を発生するようなステップを更に有する。当該デジタル画像はグレイスケール画像、又はグレイスケール画像に変換されるカラー画像の何れかとすることができる。前記浸食及び膨張処理を実行する前に、前記エッジ画像はぼかされる(blurred)と共に、該ぼかされたエッジ画像の平均輝度を閾値として使用することにより閾処理される。
前記処理の間において、当該デジタル画像における前記少なくとも1つの候補キャプション包含領域に対応する部分が閾処理されて、該部分における潜在的にキャプション文字を表すようなピクセル構成部分を検出する。これら検出されたピクセル構成部分には少なくとも1つの試験が実施され、該検出されたピクセル構成部分をキャプション文字として検証する。この実施の間において、整列されたピクセル構成部分が決定される。指定された寸法範囲外のピクセル構成部分及び前記少なくとも1つの候補キャプション包含領域の境界と交差するピクセル構成部分はキャプション文字を表さないと見なされ、破棄される。
他の態様によれば、デジタル画像におけるキャプションを検出する方法であって、
前記デジタル画像におけるエッジ情報を検出すると共に、エッジ画像を発生するステップと、
前記エッジ画像に形態学的処理を施して、前記エッジ画像における候補キャプション包含領域を識別するステップと、
前記デジタル画像における前記候補キャプション包含領域のうちの少なくとも1つに対応する部分を調査して、該部分におけるキャプション文字を潜在的に表すピクセル構成部分を検出するステップと、
検出されたピクセル構成部分に複数の試験を施して、これらピクセル構成部分が前記キャプション文字を表すものとして検証するステップと、
を有するような方法が提供される。
更に他の態様によれば、デジタル画像におけるキャプションを位置特定する装置であって、
前記デジタル画像において識別されたエッジを含むようなエッジ画像を発生するエッジ検出器と、
前記エッジ画像に作用して、前記エッジ画像における1以上の候補キャプション包含領域を識別する形態学的演算器と、
前記デジタル画像における少なくとも1つの識別されたキャプション包含領域に対応する部分を処理して、該部分におけるキャプションを位置特定するキャプションロケータと、
を有するような装置が提供される。
上記キャプションロケータは、位置特定されたキャプションを抽出すると共に該抽出されたキャプションを含むような出力画像を発生する。また、該キャプションロケータは、デジタル画像の上記部分を閾処理して、該部分におけるキャプション文字を潜在的に表すピクセル構成部分を検出する。これらピクセル構成部分には、検出されたピクセル構成部分をキャプション文字として検証するために少なくとも1つの試験が施される。一実施例においては、上記キャプションロケータは、整列されたピクセル構成部分を決定し、指定された寸法範囲外の寸法を持つようなピクセル構成部分を破棄し、前記候補キャプション包含領域の境界と交差するピクセル構成部分を破棄する。
更に他の態様によれば、デジタル画像におけるキャプションを位置特定するコンピュータプログラムを含むようなコンピュータ読み取り可能な媒体であって、前記コピープログラムが、
前記デジタル画像におけるエッジ情報を検出すると共に、エッジ画像を発生するコンピュータプログラムコードと、
前記エッジ画像に対して浸食及び膨張処理を実行すると共に、前記エッジ画像における1以上の候補キャプション包含領域を識別するコンピュータプログラムコードと、
少なくとも1つの検出された候補キャプション包含領域に対し、前記デジタル画像における該少なくとも1つの候補キャプション包含領域に対応する部分を処理して、該部分におけるキャプションを位置特定するコンピュータプログラムコードと、
を有するようなコンピュータ読み取り可能な媒体が提供される。
更に他の態様によれば、デジタル画像におけるキャプションを検出するコンピュータプログラムを含むようなコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムが、
前記デジタル画像におけるエッジ情報を検出してエッジ画像を発生するコンピュータプログラムコードと、
前記エッジ画像に対し形態学的処理を実行して、前記画像における候補キャプション包含領域を識別するコンピュータプログラムコードと、
前記デジタル画像における前記候補キャプション包含領域のうちの少なくとも幾つかに対応する部分を調査して、該部分におけるキャプション文字を潜在的に含むピクセル構成部分を検出するコンピュータプログラムコードと、
検出されたピクセル構成部分に複数の試験を施して、これらピクセル構成部分が前記キャプション文字を表すことを検証するコンピュータプログラムコードと、
を有するようなコンピュータ読み取り可能な媒体が提供される。
デジタル画像におけるキャプションを位置特定する当該方法及び装置は、キャプションが検出され、抽出されるのを可能にする。この場合、抽出されたキャプションは当該デジタル画像に注釈付けをし、又はさもなければラベル付けをし、かくして当該デジタル画像の内容に関する情報を提供するために使用することができる。これは、勿論、記憶されたデジタル画像又はビデオが効率的に且つ効果的に検索されるのを可能にする。デジタル画像におけるキャプションを位置特定するためにエッジ及び連結性情報を使用することにより、デジタル画像におけるキャプションを迅速且つ正確に突き止めることができる。
以下、本発明の実施例を、添付図面を参照して更に詳細に説明する。
以下の説明においては、デジタル画像におけるキャプションを位置特定及び抽出する方法、装置及びコンピュータプログラムの実施例が提示される。該デジタル画像はデジタルビデオのシーケンス若しくはストリームの一部を形成するビデオフレームとするか、又は静止画像とすることができる。この出願の前後関係内で、“キャプション”とは、例えば秘密解説文(closed-captioning text)、字幕(subtitles)及び/又は他のテキスト的情報等の、デジタル画像に現れ得る如何なるテキスト的情報をも指すものである。
当該方法、装置及びコンピュータプログラムは、パーソナルコンピュータ、サーバ又は他のコンピュータシステム環境のような処理ユニットにより実行されるコンピュータ実行可能な命令を含むビジュアルベーシック、C++又はジャバ等で書かれたソフトウェアアプリケーションで実施化することができる。該ソフトウェアアプリケーションは、単独のデジタル画像編集ツールとして動作することができるか、又は他のデジタル画像化アプリケーションに、斯かるデジタル画像編集アプリケーションに強化された機能を提供するために組み込むこともできる。該ソフトウェアアプリケーションは、コンピュータ読み取り可能な媒体上に記憶されたコンピュータ読み取り可能なプログラムコードとして具現化された、ルーチン、プログラム、オブジェクト要素、データ構造等を有するようなプログラムモジュールを含むことができる。斯かるコンピュータ読み取り可能な媒体は、データを記憶することができ、該データが後にコンピュータシステムにより読み取ることができるような如何なるデータ記憶装置でもある。コンピュータ読み取り可能な媒体の例は、例えば、読取専用メモリ、ランダムアクセスメモリ、CD−ROM、磁気テープ及び光データ記憶装置を含む。前記コンピュータ読み取り可能なプログラムコードは、斯かるコンピュータ読み取り可能なプログラムコードが分散態様で記憶及び実行されるように、結合されたコンピュータシステムを含むネットワークを介して分配させることもできる。
本例において、入力デジタル画像から検出及び抽出されるべきキャプションは、デジタルビデオフレームに適用され又は重畳(スーパーインポーズ)された日本語の漢字、平仮名及び片仮名表意文字から主としてなる字幕である。当該キャプションの文字は色が明るく、これら文字に対して高コントラストな暗い境界に重なると仮定する。また、当該文字はデジタルビデオフレーム内で水平又は垂直の何れかに概ね整列されると仮定すると共に、これら文字は同様の寸法のものであり、且つ、指定された範囲内に入る寸法のものであると仮定する。
ここで図1を参照すると、入力デジタル画像におけるキャプションを位置特定及び抽出するために実行される概略ステップが示されている。最初に、入力デジタル画像が前処理され、該前処理されたデジタル画像におけるエッジ情報が検出される(ステップ100)。次いで、当該エッジ画像における候補となるキャプション包含領域が、形態学的処理を用いて決定される(ステップ102)。次いで、グレイスケール入力デジタル画像をマスクするために各候補キャプション包含領域が使用される(ステップ104)。当該グレイスケール入力デジタル画像における各マスク内の部分が、該デジタル画像内のキャプションを検出するよう処理されると共に(ステップ106)、検出されたキャプションは抽出され、これにより該検出されたキャプションを含む出力画像を発生する。
上記方法の更なる詳細を、図2ないし4を参照して説明する。理解を容易にするために、当該方法の実行の間の種々の段階における入力デジタル画像(図5参照)の変換を示す図5ないし16も参照する。ステップ100における前処理の間において、当該入力デジタル画像は、該入力デジタル画像がカラーによるものであるか又はグレイスケール画像であるかを判定するために調査される(図2のステップ200参照)。当該入力デジタル画像がグレイスケール画像である場合は、更なる処理のための準備が整っていると見なされる。当該入力デジタル画像が、図5に示すように、カラーによるものである場合、該入力デジタル画像は更なる処理に即応した形態にするために256グレイスケールの画像に変換される(ステップ202及び図6)。次いで、該グレイスケール画像は2x2のボックスフィルタを用いてぼかされる(ステップ204及び図7)。上記のぼかされたグレイスケール画像にCannyエッジ検出器が適用されて、該ぼかされたグレイスケール画像における検出されたエッジを含むようなエッジ画像を生じる(ステップ206及び図8)。
既知のように、Cannyエッジ検出器は複数段階で動作する。上記のぼかされた画像は最初に平滑化され、次いで、該平滑化された画像に二次元演算器が適用されて、当該画像における大きな一次空間導関数を持つ領域を強調する。当該画像におけるエッジは、勾配振幅画像(gradient magnitude image)に嶺(リッジ)を生じさせる。これらリッジが追跡され、斯かるリッジ上にない全てのピクセルは零に設定されて、これらリッジを表す細い線を生じさせる。
次いで、上記エッジ画像は10x10のボックスフィルタを用いてぼかされる(ステップ208及び図9)。該ぼかされたエッジ画像の平均輝度が計算され(ステップ210)、該計算された平均輝度値を閾として用いて上記のぼかされたエッジ画像は閾処理される(ステップ212及び図10)。閾処理の間に、当該ぼかされたエッジ画像における上記閾より大きな値を持つピクセルは白に設定され、上記閾より小さな値を持つピクセルは黒に設定される。
ステップ102においては、候補となるキャプション包含領域を表す白ピクセルの領域を記入するために、複数の形態学的処理が上記の閾処理されたぼかされたエッジ画像に適用される。特には、3x3浸食処理(図3におけるステップ300)並びに、順に後続する10の3x3膨張(ステップ302)、7つの3x3浸食(ステップ304)及び1つの3x3膨張(ステップ306)が実行される。斯かる形態学的処理が完了すると、結果としての画像(図11)が調査されて、候補キャプション包含領域を形成する白ピクセルを決定する(ステップ308)。この処理の間においては、候補キャプション包含領域内の各白ピクセルが調査されて、所定数の隣接するピクセルが同じ値を有するかを判定する。もしそうなら、該ピクセルは当該候補キャプション包含領域の一部であると見なされる。この例においては、各ピクセルが、4つの非対角線的な隣接するピクセルが同一の値を有するかを判定するように調査される。各候補キャプション包含領域のピクセルが決定されたら、斯かる候補キャプション包含領域が抽出される。次いで、抽出された候補キャプション包含領域は面積に基づいてソートされ(ステップ310)、閾寸法より大きな候補キャプション包含領域が決定される(ステップ312)。何れの候補キャプション包含領域も上記閾寸法より大きくない場合、当該入力デジタル画像は如何なるキャプションも含んでいないと見なされるので、本方法は終了される。
抽出された候補キャプション包含領域が記憶され、上記閾寸法より大きな候補キャプション包含領域が決定されると、ステップ104において、上記閾寸法より大きな寸法を有する最大の候補キャプション包含領域が最初に選択され、領域マスクを規定するために使用される。次いで、上記領域マスクは図6のグレイスケール画像に適用されて、当該グレイスケール画像における該領域マスクに対応する部分を識別する(図12参照)。
ステップ106においては、図6のグレイスケール画像の平均輝度レベルが計算され(ステップ400)、該グレイスケール画像における上記領域マスクに対応する部分を閾処理するために使用される(ステップ402)。閾処理の間においては、上記グレイスケール画像における当該閾より大きな値を持つピクセル(即ち候補キャプション文字を形成するピクセル)が白に設定され、該閾より小さな値を持つピクセルは黒に設定される。次いで、候補キャプション包含領域を識別する図11の結果としての画像に輪郭検出が適用され、選択された領域マスクの輪郭を決定する(ステップ404及び図13)。
輪郭検出の間においては、選択された候補キャプション包含領域の各ピクセルが調査されて、該ピクセルの4つの非対角的な隣接ピクセルの何れかが黒であるかを判定する。もしそうなら、該ピクセルは当該候補キャプション包含領域の輪郭の一部であると見なされ、輪郭ピクセルとしてラベル付けされる。次いで、当該グレイスケール画像における前記領域マスクに対応する閾処理された部分を含む図12の画像が、上記の判定された輪郭ピクセルと比較される(ステップ406)。当該閾処理された部分における上記輪郭ピクセルと交差する白ピクセル構成部分は削除される(ステップ408及び図14)。次いで、当該閾処理された部分における各白ピクセル構成部分の寸法が調べられ、該白ピクセル構成部分が指定された寸法範囲に入るかが判定される(ステップ410)。この例においては、各白ピクセル構成部分が、8x8ピクセルより大きいか、及び80x80ピクセルより小さいかがチェックされる。当該寸法範囲に入らない如何なる白ピクセル構成部分も破棄される。指定された寸法範囲に入る残りの白ピクセル構成部分に関しては、これら白ピクセル構成部分が水平又は垂直線と概ね整列され得るかを判定すべく調査される(ステップ412)。整列され得るような白ピクセル構成部分は、キャプション文字であると見なされ、抽出される(図15)。他の白ピクセル構成部分と整列しない如何なる白ピクセル構成部分も、破棄される。
白ピクセル構成部分が整列されるかを判定するために、斯かる白ピクセル構成部分の中心の位置が決定され、中心位置が比較される。白ピクセル構成部分が水平に整列される場合は、これら白ピクセル構成部分のx座標値は概ね同一である。白ピクセル構成部分が垂直に整列される場合は、これら白ピクセル構成部分のy座標値が概ね同一となる。整列された座標値から著しく変化するようなx座標値又はy座標値(当該白ピクセル構成部分が水平に整列されるか又は垂直に整列されるかに依存する)を持つ白ピクセル構成部分は破棄される。
選択された候補キャプション包含領域におけるキャプション文字が決定されると、前記閾より大きな寸法を持つ次の候補キャプション包含領域が選択され、上述したステップが再実行される。最終結果は、抽出されたキャプションを含む出力画像である(図16参照)。これらのステップは、候補キャプション包含領域が残存しないか、前記閾より大きな候補キャプション包含領域が残存しないか、又は最大数の候補キャプション包含領域が処理されてしまうまで、実行される。本例では、最大で8個の候補キャプション包含領域が処理される。
上述した例は、デジタル画像フレームからの日本語の表意文字の検出及び抽出を示した。しかしながら、当業者であれば、他の言語のキャプション文字も位置特定及び抽出することができると理解するであろう。処理されている画像から位置特定及び抽出されるべきテキスト的情報に依存して、ピクセル構成部分の寸法評価規準は調整することができると共に、ピクセル構成部分の整列試験は省略することができる。候補キャプション包含領域を記入するために、勿論、異なる形態学的処理を採用することもできる。
以上、実施例を説明したが、当業者であれば、添付請求項に記載した本発明の趣旨及び範囲から逸脱すること無しに変形例及び変更例をなすことができることが判るであろう。
図1は、デジタル画像におけるキャプションを位置特定及び抽出する方法のフローチャートである。 図2は、デジタル画像の処理の間に実行されるステップを示すフローチャートである。 図3は、候補キャプション包含領域の検出の間に実行されるステップを示すフローチャートである。 図4は、キャプションを検出及び抽出するためのグレイスケール画像の部分の処理の間に実行されるステップを示すフローチャートである。 図5は、キャプションを含む例示的デジタル画像である。 図6は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図7は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図8は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図9は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図10は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図11は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図12は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図13は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図14は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図15は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。 図16は、キャプションの検出及び抽出の間の或る段階における図5のデジタル画像の変換を示す。

Claims (1)

  1. デジタル画像におけるキャプションの位置特定を画像処理装置により実行する方法において、
    前記デジタル画像のエッジ情報を検出し、エッジ画像を生成するステップと、
    前記エッジ画像に対してエロージョン及びダイレージョン処理を実行し、該エッジ画像における不定形領域である候補キャプション包含領域を検出するステップと、
    前記デジタル画像における前記候補キャプション包含領域に対応する部分を処理するステップと、
    を有し、
    前記位置特定されたキャプションを抽出し、該抽出されたキャプションを含むような出力画像を生成するステップを更に有し、
    前記デジタル画像はグレイスケール画像であり、当該方法は、前記実行するステップの前に、前記エッジ画像を最初にぼかし次いで閾処理するステップを更に有し、
    前記ぼかされたエッジ画像は、該ぼかされたエッジ画像の平均輝度を閾値として用いることにより閾処理され、
    前記エッジ情報を検出するステップの前に、前記グレイスケール画像をぼかすステップを更に有し、
    前記エッジ情報を検出するステップが、Cannyエッジ検出器を用いて実行されることを特徴とする方法。
JP2005241216A 2004-08-26 2005-08-23 デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 Expired - Fee Related JP4626886B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US60457404P 2004-08-26 2004-08-26
US11/128,971 US20060045346A1 (en) 2004-08-26 2005-05-13 Method and apparatus for locating and extracting captions in a digital image

Publications (3)

Publication Number Publication Date
JP2006067585A JP2006067585A (ja) 2006-03-09
JP2006067585A5 JP2006067585A5 (ja) 2008-08-14
JP4626886B2 true JP4626886B2 (ja) 2011-02-09

Family

ID=35511288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005241216A Expired - Fee Related JP4626886B2 (ja) 2004-08-26 2005-08-23 デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置

Country Status (3)

Country Link
US (1) US20060045346A1 (ja)
EP (1) EP1632900A3 (ja)
JP (1) JP4626886B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660481B2 (en) * 2005-11-17 2010-02-09 Vital Images, Inc. Image enhancement using anisotropic noise filtering
JP4377887B2 (ja) * 2006-03-30 2009-12-02 株式会社東芝 映像分割装置
US7991229B2 (en) * 2007-08-28 2011-08-02 Seiko Epson Corporation Reducing compression artifacts in multi-layer images
CN101453575B (zh) * 2007-12-05 2010-07-21 中国科学院计算技术研究所 一种视频字幕信息提取方法
JP5091806B2 (ja) * 2008-09-01 2012-12-05 株式会社東芝 映像処理装置及びその方法
TWI409718B (zh) * 2009-12-04 2013-09-21 Huper Lab Co Ltd 移動中車輛之車牌定位方法
CN102511047A (zh) * 2010-05-14 2012-06-20 联发科技(新加坡)私人有限公司 视频节目的字幕消除方法以及相关视频显示系统
JP2012003407A (ja) * 2010-06-15 2012-01-05 Sony Corp 情報処理装置、同一性判定システム、同一性判定方法およびコンピュータプログラム
US8730396B2 (en) * 2010-06-23 2014-05-20 MindTree Limited Capturing events of interest by spatio-temporal video analysis
CN103295004B (zh) * 2012-02-29 2016-11-23 阿里巴巴集团控股有限公司 确定区域结构复杂度、定位文字区域的方法及装置
JP5679229B2 (ja) * 2012-08-24 2015-03-04 楽天株式会社 画像処理装置、画像処理方法、及びプログラム
CN103278864B (zh) * 2013-05-10 2016-12-28 中国石油天然气股份有限公司 洞缝型储层的地质特征参数及分布的测定方法及装置
CN104504717B (zh) * 2014-12-31 2017-10-27 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN104616295B (zh) * 2015-01-23 2017-09-26 河南理工大学 新闻图像中水平标题字幕的简单快速定位方法
CN105869122A (zh) * 2015-11-24 2016-08-17 乐视致新电子科技(天津)有限公司 图像处理方法和装置
CN106254933B (zh) * 2016-08-08 2020-02-18 腾讯科技(深圳)有限公司 字幕提取方法及装置
CN106777125B (zh) * 2016-12-16 2020-10-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN112183556B (zh) * 2020-09-27 2022-08-30 长光卫星技术股份有限公司 一种基于空间聚类与分水岭变换的港口矿堆轮廓提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029984A (ja) * 1998-07-10 2000-01-28 Sharp Corp 文字認識装置および文字認識方法
JP2000182053A (ja) * 1998-12-15 2000-06-30 Toshiba Corp 映像処理方法及び装置並びに映像処理手順を記録した記録媒体
JP2001273501A (ja) * 2000-02-08 2001-10-05 Univ Of Washington 複数の画像フレームの中のオブジェクトをトラッキングするための方法
JP2004110398A (ja) * 2002-09-18 2004-04-08 Ricoh Co Ltd 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5825919A (en) * 1992-12-17 1998-10-20 Xerox Corporation Technique for generating bounding boxes for word spotting in bitmap images
EP0677817B1 (en) * 1994-04-15 2000-11-08 Canon Kabushiki Kaisha Page segmentation and character recognition system
EP0720114B1 (en) * 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
MY119560A (en) * 1996-05-27 2005-06-30 Nippon Telegraph & Telephone Scheme for detecting captions in coded video data without decoding coded video data
JP3679512B2 (ja) * 1996-07-05 2005-08-03 キヤノン株式会社 画像抽出装置および方法
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
US6366699B1 (en) * 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data
US6031935A (en) * 1998-02-12 2000-02-29 Kimmel; Zebadiah M. Method and apparatus for segmenting images using constant-time deformable contours
US6301386B1 (en) * 1998-12-09 2001-10-09 Ncr Corporation Methods and apparatus for gray image based text identification
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
JP2001060247A (ja) * 1999-06-14 2001-03-06 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
JP3204259B2 (ja) * 1999-10-06 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
DE60109278T2 (de) * 2001-06-26 2006-03-30 Nokia Corp. Verfahren und Gerät zur Lokalisierung von Schriftzeichen in Bildern aus einer Digitalkamera
US7031549B2 (en) * 2002-02-22 2006-04-18 Hewlett-Packard Development Company, L.P. Systems and methods for enhancing tone reproduction
JP3953886B2 (ja) * 2002-05-16 2007-08-08 セイコーエプソン株式会社 字幕抽出装置
US20040015775A1 (en) * 2002-07-19 2004-01-22 Simske Steven J. Systems and methods for improved accuracy of extracted digital content
KR100977713B1 (ko) * 2003-03-15 2010-08-24 삼성전자주식회사 영상신호의 글자 인식을 위한 전처리 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029984A (ja) * 1998-07-10 2000-01-28 Sharp Corp 文字認識装置および文字認識方法
JP2000182053A (ja) * 1998-12-15 2000-06-30 Toshiba Corp 映像処理方法及び装置並びに映像処理手順を記録した記録媒体
JP2001273501A (ja) * 2000-02-08 2001-10-05 Univ Of Washington 複数の画像フレームの中のオブジェクトをトラッキングするための方法
JP2004110398A (ja) * 2002-09-18 2004-04-08 Ricoh Co Ltd 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置

Also Published As

Publication number Publication date
US20060045346A1 (en) 2006-03-02
EP1632900A2 (en) 2006-03-08
JP2006067585A (ja) 2006-03-09
EP1632900A3 (en) 2007-11-28

Similar Documents

Publication Publication Date Title
JP4626886B2 (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
US9965695B1 (en) Document image binarization method based on content type separation
Gllavata et al. A robust algorithm for text detection in images
KR101452562B1 (ko) 비디오 이미지에서 텍스트를 검출하는 방법
US20030043172A1 (en) Extraction of textual and graphic overlays from video
CN105469027A (zh) 针对文档图像的水平和垂直线检测和移除
Antani et al. Robust extraction of text in video
CN112070649B (zh) 一种去除特定字符串水印的方法及系统
Wang et al. A novel video caption detection approach using multi-frame integration
Phan et al. Recognition of video text through temporal integration
US20150086113A1 (en) System and Method for Detection and Segmentation of Touching Characters for OCR
US20130266176A1 (en) System and method for script and orientation detection of images using artificial neural networks
Arai et al. Text extraction from TV commercial using blob extraction method
Satish et al. Edge assisted fast binarization scheme for improved vehicle license plate recognition
KR101048399B1 (ko) 문자 검출 방법 및 장치
Vu et al. Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering
AU2018229526B2 (en) Recursive contour merging based detection of text area in an image
Li et al. An integration text extraction approach in video frame
Santiago et al. Efficient 2× 2 block-based connected components labeling algorithms
Zedan et al. Caption detection, localization and type recognition in Arabic news video
JP4253265B2 (ja) 影検出装置、影検出方法及び影検出プログラム、影検出装置を用いた画像処理装置、影検出方法を用いた画像処理方法及び影検出プログラムを用いた画像処理プログラム
KR101437286B1 (ko) 디지털 컨텐츠 식별 방법 및 장치
Al-Asadi et al. Arabic-text extraction from video images
US20170147895A1 (en) Method and device for digit separation
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101031

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees