JP2009217303A - テロップ文字抽出方法およびテロップ文字認識装置 - Google Patents
テロップ文字抽出方法およびテロップ文字認識装置 Download PDFInfo
- Publication number
- JP2009217303A JP2009217303A JP2008057170A JP2008057170A JP2009217303A JP 2009217303 A JP2009217303 A JP 2009217303A JP 2008057170 A JP2008057170 A JP 2008057170A JP 2008057170 A JP2008057170 A JP 2008057170A JP 2009217303 A JP2009217303 A JP 2009217303A
- Authority
- JP
- Japan
- Prior art keywords
- character
- area
- region
- telop
- luminance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】
色の異なる文字が一行中で混在するテロップで文字と背景を分離するテロップ文字領域抽出方法と該テロップを認識するテロップ文字認識装置を提供する。
【解決手段】
映像情報に合成された文字を抽出するテロップ文字認識装置は、動画データ入力部と、入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するテロップ矩形抽出部と、前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出する文字列矩形抽出部と、前記抽出したテロップ文字列矩形領域の輝度情報を2値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字領域抽出部と、文字認識部を備えるようにした。
【選択図】図3
色の異なる文字が一行中で混在するテロップで文字と背景を分離するテロップ文字領域抽出方法と該テロップを認識するテロップ文字認識装置を提供する。
【解決手段】
映像情報に合成された文字を抽出するテロップ文字認識装置は、動画データ入力部と、入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するテロップ矩形抽出部と、前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出する文字列矩形抽出部と、前記抽出したテロップ文字列矩形領域の輝度情報を2値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字領域抽出部と、文字認識部を備えるようにした。
【選択図】図3
Description
本発明は、映像情報に合成された文字情報を抽出してシーン検索をおこなう映像検索技術に係り、複雑なテロップ文字の認識に好適な文字抽出技術に関する。
放送通信融合時代を迎え、ネットワークを通じて広範囲の映像コンテンツを集積し、様々な形態で公開し共有することが可能となってきた。従来の放送波や記録媒体のよる映像情報を提供に加えて、今後は、ネットワークを通じた映像コンテンツの提供がおこなわれようになる。こうした映像流通量の増大に伴って、多くの映像コンテンツから必要な情報を選ぶために、映像検索のニーズが高まっていくと思われる。
映像検索をおこなう方法として、映像中のテロップ文字を抽出して、これを映像シーンのキーワードとする検索方式がある。この映像中のテロップ文字を抽出する技術は、例えば、特許文献1や非特許文献1に記載されている。
特許文献1では、ひとつのテロップが複数行から構成されている場合に、テロップの各行に含まれる個々のセグメントの各行内の位置を特定し、この特定したセグメントの位置からセグメント間の接続関係を判定して、セグメントお並び替えをおこなうことが開示されている。これにより、一連の文字群が複数行に亘って表示される場合であっても、より的確なテキストデータを生成することができる。
非特許文献1では、動画データ中のフレーム画像からテロップ矩形領域を抽出し,テロップ矩形領域内の輝度画像に対して二値化し,輝度の高い方を前景とした画像とその反転画像を生成し,どちらが文字画像として妥当か否かを判定することで,文字画像を生成する。その判定方法は,画像内の全連結成分から高さや幅等の特徴量を求め,全連結成分の特徴量を用いて統計量を求め,統計量が以下に述べる基準を満たす画像に投票し,得票値が多い画像を採用する。用いられている基準は,(1)高さの分散が低い,(2)幅の分散が低い,(3)隣接連結成分との水平距離の分散が低い,(4)同じ底辺座標を持つペアの数が多い,(4)連結成分の平均アスペクト比が1.0に近い,(6)連結成分の外接矩形内の画素数が低い,(7)垂直方向への投影値の周期性,である。
上記の従来技術においても、色の異なる文字が一行中で混在するテロップでは,二値化して得た画像と反転画像どちらの前景領域にも文字領域が含まれてしまうため,文字領域の抽出に失敗が生じる。
本発明は、上記課題を解決するためになされたものであり、その目的は、色の異なる文字が一行中で混在するテロップであっても、テロップ文字を高精度に抽出できるテロップ文字抽出装置およびテロップ文字抽出方法を提供することにある。
本発明のテロップ文字抽出方法は、映像情報に合成された文字を抽出するテロップ文字抽出方法であって、入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するステップと、前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出するステップと、前記抽出したテロップ文字列矩形領域の輝度情報を2値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字判定ステップから成るようにした。
詳しくは、本発明のテロップ文字認識装置は、動画データ中のフレーム画像から抽出された文字列矩形領域から,文字であると判断される画素領域を求めるテロップ文字領域抽出部を備えたテロップ認識装置であって,該領域のエッジ画像を取得し,連結成分を求めて,エッジの連結成分を取得するエッジ領域取得部と,エッジ領域取得部で取得したエッジ領域の外接矩形を求める文字候補矩形抽出部と,文字列矩形領域内の画像から,文字候補矩形抽出部で求めた文字候補矩形の部分を切り出し,得られた切り出し画像に対して,鮮鋭化処理する鮮鋭化部と,鮮鋭化部で鮮鋭化された画像に対して、二値化した画像を生成する領域分割部と,領域分割部で生成した二値画像に対して,該二値画像の値が1の連結成分(以降,高輝度領域と表現する)と該二値画像の値が0の連結成分(以降,低輝度領域と表現する)を生成する連結成分生成部と、高輝度領域のうち,幅と高さが予め定められたしきい値以上のものを文字候補と判定し,それ以外の高輝度領域と低輝度領域を背景と判定する小領域判定部と、小領域判定部を処理した後,文字候補である領域に対して,該領域の重心が,前記エッジ情報取得部で取得したエッジ領域の外側にある文字候補を背景と判定する第1文字周辺領域判定部と、第1文字周辺領域判定部1を処理した後,文字候補である領域に対して,文字候補の領域の内部に,サイズが予め定められたしきい値以上低輝度領域がある場合に,該文字候補が文字候補矩形と3辺以上接する,あるいは,2辺以上接し,かつ文字候補矩形に接しない文字候補の画素数と低輝度領域の画素数の比が予め定められたしきい値以上とき,文字候補を背景と判定し,文字候補の内部にある低輝度領域すべてを文字と判定する第1低輝度文字判定部と,第1低輝度文字判定部を処理した後も文字候補である領域に対して,サイズが予め定められたしきい値以上,かつ,文字候補矩形の辺のいずれかに接する文字候補と,外接矩形上で重なる文字候補が存在する場合,前記文字候補矩形の辺のいずれかに全体が接する文字候補を背景と判定する第2文字周辺領域判定部と,第2文字周辺領域判定部を処理した後も文字候補である領域に対して,文字候補の領域の内部に,高さが予め定められたしきい値以上の低輝度領域があり,文字候補の中で前記低輝度領域の外接矩形を除く範囲で縦方向のラン及び横方向のランを求め,ランの個数が1である割合が予め定められたしきい値以上場合に,文字候補を背景と判定し,文字候補内部にある低輝度連接成分すべてを文字候補と判定する第2低輝度文字判定部と,文字あるいは第2低輝度文字判定部を処理した後も文字候補である領域に対して,その領域が高輝度領域であり,かつ,その内部に別の高輝度領域がある場合は,内部にある該高輝度領域を文字と判定し,一方,その領域が低輝度領域であり,かつ,その内部に別の低輝度領域がある場合,内部にある低輝度領域を文字と判定する文字再判定部とを有する。
テロップの文字領域を従来よりも高精度に抽出でき,その結果従来よりも高精度にテロップ認識できる。
以下,本発明の実施に好適な実施形態を図を用いて説明する。
図2は,テロップ認識装置のハードウェア構成の一例である。テロップ認識装置は,CPU201,主記憶装置202,補助記憶装置203,表示装置204,入力装置205から構成される。
図2は,テロップ認識装置のハードウェア構成の一例である。テロップ認識装置は,CPU201,主記憶装置202,補助記憶装置203,表示装置204,入力装置205から構成される。
実施例のテロップ認識装置が、放送波から動画データを取得する場合には,さらに,放送データ入力装置206を有する。また,実施例のテロップ認識装置が、ネットワークを介して動画データを取得する場合には,さらに,ネットワークデータ送受信装置207を有する。上記201から207までの各装置はバス208によって接続され,各装置間で相互にデータの送受信が行われる。ただしテロップ認識装置がこの全ての構成を備える必要はない。
以下に実施例のテロップ認識装置の詳細な構成を説明する。
CPU201は,主記憶装置202や補助記憶装置203に格納されているプログラムを実行する。
CPU201は,主記憶装置202や補助記憶装置203に格納されているプログラムを実行する。
主記憶装置202は,例えば,ランダムアクセスメモリ(RAM)やリードオンリーメモリ(ROM)等で実現される。主記憶装置202は,CPU201によって実行されるプログラムやテロップ認識装置において処理されるデータや動画データを格納する。
補助記憶装置203は,例えば,ハードディスク(HDD),Blu−ray DiscやDVDなどの光ディスクドライブ,フロッピー(登録商標)ディスクなどの磁気ディスクドライブ,あるいはフラッシュメモリ等の不揮発性メモリ等を,単体あるいは複数組合せて構成される。補助記憶装置203は,CPU201によって実行されるソフトウェアやテロップ認識装置において処理されるデータや動画データを格納する。
表示装置204は,例えば,液晶ディスプレイ,プラズマディスプレイ,プロジェクタによって実現され,テロップ認識装置において処理される動画データやテロップ認識装置の処理結果を表示する。
入力装置205は,例えば,リモコン,キーボード,マウス等で実現され,利用者は入力装置205を通してテロップ認識装置の処理に関する設定や操作を行う。
放送データ取得装置206は,例えば,チューナ等で実現され,アンテナを経由して動画データを主記憶装置202や補助記憶装置203に格納する。
ネットワーク送受信装置207は,例えば,LANカード等のネットワークカードによって実現され,ネットワーク上に繋がっている別の装置からネットワークを介して動画データを取得し,主記憶装置202や補助記憶装置203に格納する。
図3は,テロップ認識装置が有するテロップ認識部の機能ブロックの一例である。テロップ認識部の機能はハードウェアあるいはソフトウェアで実現されても良い。ここでは,補助記憶装置203に格納され,CPU201により呼び出されて実行されるソフトウェアで実現されるものとして以下説明する。
テロップ認識部は,動画データ入力部301,テロップ矩形抽出部302,文字列矩形抽出部303,文字領域抽出部304,文字認識部305,から構成される。
動画データ入力部301は,主記憶装置202に格納された動画データ,あるいは,補助記憶装置203に格納された動画データ,あるいは,放送データ取得装置206で入力された動画データを直接入力する。
テロップ矩形抽出部302は,動画データ入力部301で入力された動画データからフレーム画像を抽出し,該フレーム画像からテロップであると判断される画素領域を求め,該画素領域の外接矩形の画像を抽出し,該画像を主記憶装置202あるいは補助記憶装置203に格納する。ここで、CPU201の性能や主記憶装置202の使用量に制限がある場合は,全フレームを処理する代わりにMPEGのイントラフレームだけを用いて処理し,さらに,画像を作成する代わりに該画素領域の座標情報を生成してもよい。
テロップは視聴者が視認できることを想定して挿入されるため,イントラフレームのように一般的に0.5秒おきに出現するフレームだけでもテロップ認識に十分である。テロップであると判断される画素領域を求める方法は,特開平9−322173号公報,特開平10−154148号公報,特開2001−285716号公報などで知られる公知の手法を用いることができる。また,テロップが出現開始する時刻とテロップが消失する時刻が必要な場合は,David Crandall, Sameer Antani, and Rangachar Kasturi,” Extraction of special effects caption text events from digital video”, IJDAR (2003) 5: 138−157などで知られる公知の手法を用いて求めることもできる。
文字列矩形抽出部303は,テロップ矩形抽出部302で抽出されたテロップであると判断された画素領域の外接矩形画像に対して,文字であると判断される画素領域を求め,該画素領域を統合し,統合された領域の外接矩形該画像を主記憶装置202あるいは補助記憶装置203に格納する。CPU201の性能や主記憶装置202の使用量に制限がある場合,画像を作成する代わりに該画素領域の座標情報を生成してもよい。文字であると判断される画素領域を求める方法は,平松義崇,関本信博,新庄広,丸川勝美,“図形輪郭除去によるテロップ文字領域抽出“,FIT2007−H043,pp.103−104,2007などで知られる公知の手法を用いることができる。
文字領域抽出部304は,文字列矩形抽出部303で抽出された外接矩形画像に対して,文字であると判断される画素領域を求め、該画素領域に属する画素を1,それ以外に属する画素を0とした文字画像を生成し,該画像と外接矩形の座標情報を主記憶装置202あるいは補助記憶装置203に格納する。文字であると判断される画素領域を求める機能ブロックについては後述する。
文字認識部305は,文字領域抽出部304で生成された文字画像に対して,文字認識処理を実行し,文字コードを取得する。文字認識部としては,OCR(Optical Character Reader)装置の内部で用いられている文字認識部を用いる。
図4は,図3の文字領域抽出部304が有する機能ブロックの一例である。文字領域抽出部304は,文字列矩形画像入力部401,エッジ情報取得部402,文字候補矩形抽出403,鮮鋭化部404,領域分割部405,連結成分生成部406,文字判定部407,から構成される。
文字列矩形画像入力部401は,文字列矩形抽出部303で抽出された外接矩形の座標情報と外接矩形内の画像を入力する。
エッジ領域取得部402は,テロップ矩形抽出部302あるいは文字列矩形抽出部303の処理でエッジを抽出していた場合,エッジ画像から文字列矩形画像入力部401で入力された外接矩形の部分を切り出し,該切り出しエッジ画像からエッジの連結成分を求めて,該エッジの連結成分を取得する。
一方,テロップ矩形抽出部302あるいは文字列矩形抽出部303の処理でエッジ抽出が行われていない場合は,文字列矩形画像入力部401で入力された外接矩形画像に対してエッジ抽出を行ってエッジ画像を生成し,該エッジ画像からエッジの連結成分を求めて,該エッジの連結成分を取得する。以降,エッジの連結成分をエッジ領域と表現する。
文字候補矩形抽出部403は,エッジ領域取得部402で取得したエッジ領域の外接矩形を求める。これ以降,該エッジ領域の外接矩形を文字候補矩形と表現し,全文字候補矩形に対して以降の処理を実行する。
鮮鋭化部404は,文字列矩形画像入力部401で入力された外接矩形画像から,文字候補矩形抽出部403で求めた文字候補矩形の部分を切り出し,得られた切り出し画像に対して,ラプラシアンフィルタ等の鮮鋭化フィルタあるいはヒストグラム平坦化等を用いて鮮鋭化処理する。本処理により,アンチエリアシングされて滑らかになったテロップ文字のエッジが強調される。
領域分割部405は,鮮鋭化部404で鮮鋭化された画像に対して,しきい値を設定して,該画像を二値化した画像を生成する。
連結成分生成部406は,領域分割部405で生成した二値画像に対して,ラベリング処理をすることによって,該文字画像の値が1の連結成分と該文字画像の値が0の連結成分を生成する。以降,該文字画像の値が1の連結成分を高輝度領域,該文字画像の値が0の連結成分を低輝度領域と表現する。
文字判定部407は,連結成分生成部406で生成した高輝度領域と低輝度領域に対して,文字に属するか背景に属するかを判定し,背景に属する領域の値を0と,文字に属する領域の値を1とした文字画像を生成する。文字に属するか背景に属するかの判定は後述する。
図1は,図4の文字判定部407が有する機能ブロックの一例である。文字判定部407は,小領域判定部101,第1文字周辺領域判定部102,第1低輝度文字判定部103,第2文字周辺領域判定部104,第2低輝度文字判定部105,文字再判定部106,から構成される。
小領域判定部101は,高輝度領域のうち,幅と高さが予め定められたしきい値以上のものを文字候補と判定し,それ以外の高輝度領域と低輝度領域を背景と判定する。
第1文字周辺領域判定部102は,小領域判定部101を処理した後,文字候補である領域に対して,該領域の重心が,前記エッジ情報取得部402で取得したエッジ領域の外側にある文字候補を背景と判定する。
つぎに、映像に合成されているテロップ文字がどのように判定されるかをより具体的に説明する。図5(a)は背景が文字と同色である縁取り文字に対して,文字列矩形画像入力部401から領域分割部405の処理を実行して生成された文字画像の各領域を模様で表現した例であり,図5(b)はエッジ領域取得部402で取得したエッジ画像の例である。
図5(a)では,文字候補501から507が示されており,図5(b)では,エッジ領域510,文字候補501の重心511,文字候補502の重心512,文字候補503の重心513,文字候補504の重心514,文字候補505の重心515,文字候補506の重心516,文字候補507の重心517が示されている。図5(a)の文字候補に第1文字周辺領域判定部102を適用した場合,文字候補506,507は,それぞれの重心514,515がエッジ領域510の外側にあるため,背景と判定される。一方,文字候補501,502,503,504,505は,それぞれの重心511,512,513,514,515がエッジ領域510の内部にあるため,背景と判定されない。
第1低輝度文字判定部103は,第1文字周辺領域判定部1を処理した後,文字候補である領域に対して,文字候補の領域の内部に,サイズが予め定められたしきい値以上低輝度領域がある場合に,該文字候補が文字候補矩形と3辺以上接する,あるいは,2辺以上接し,かつ文字候補矩形に接しない文字候補の画素数と低輝度領域の画素数の比が予め定められたしきい値以上とき,文字候補を背景と判定し,文字候補の内部にある低輝度領域すべてを文字と判定する。ここで矩形と接するとは,文字候補の画素が矩形の辺に予め定められたしきい値以上の画素数と接することを意味する。
図6は黒文字に対して文字列矩形画像入力部401から領域分割部405まで実行して生成された文字画像の各領域を模様で表現した例である。図6では,文字候補601の内部にサイズが予め定められたしきい値以上の低輝度領域602があり,該低輝度領域602の内部に文字候補603,604がある。図6の文字候補に第1低輝度文字判定部103を適用した場合,文字候補601は,文字候補601の文字候補矩形605と4辺以上接していることから,文字候補601は背景と判定され,低輝度領域602は文字と判定される。
第2文字周辺領域判定部104は,第1低輝度文字判定部103を処理した後も文字候補である領域に対して,サイズが予め定められたしきい値以上,かつ,文字候補矩形の辺のいずれかに接する文字候補と,外接矩形上で重なる文字候補が存在する場合,前記文字候補矩形の辺のいずれかに全体が接する文字候補を背景と判定する。
図7は背景の下半分が文字と同色である縁取り文字に対して,文字列矩形画像入力部401から領域分割部405まで実行して生成された文字画像の各領域を模様で表現した例である。図7では,文字候補702,703があり,背景候補701がある。図7の文字候補に第2文字周辺領域判定部104を適用した場合,文字候補703は文字候補矩形706に全体が接しており,文字候補703の外接矩形705と文字候補702の外接矩形704が重なることから,文字候補703は背景と判定され,一方,文字候補702は文字候補のままである。
第2低輝度文字判定部105は,第2文字周辺領域判定部104を処理した後も文字候補である領域に対して,文字候補の領域の内部に,高さが予め定められたしきい値以上の低輝度領域があり,文字候補の中で前記低輝度領域の外接矩形を除く範囲で縦方向のラン及び横方向のランを求め,ランの個数が1である割合が予め定められたしきい値以上場合に,文字候補を背景と判定し,文字候補内部にある低輝度連接成分すべてを文字候補と判定する。
図8(a)は,黒文字に対して,文字列矩形画像入力部401から領域分割部405まで実行して生成された文字画像の各領域を模様で表現した例である。図8では,文字候補802と低輝度領域801がある。図8(a)の文字候補に第2低輝度文字判定部105を適用した場合,文字候補802から低輝度領域801の外接矩形803を除く範囲804では,縦方向及び横方向のランの個数がすべて1であるため,文字候補802は背景と判定され,一方,低輝度領域801は文字と判定される。このように,本処理により,図8(a)のように文字候補矩形の辺に接する画素数が小さく,第1低輝度文字判定部103では文字と判定されない低輝度連結成分を正しく文字と判定できる。
文字再判定部106は,文字あるいは第2低輝度文字判定部105を処理した後も文字候補である領域に対して,その領域が高輝度領域であり,かつ,その内部に別の高輝度領域がある場合は,内部にある該高輝度領域を文字と判定する。一方,その領域が低輝度領域であり,かつ,その内部に別の低輝度領域がある場合,内部にある低輝度領域を文字と判定する。本処理により,領域判定部101で背景と判定された文字領域を正しく文字と判定できる。
図9は,本テロップ認識装置のテロップ認識処理の動作を示すフローチャートの一例である。本テロップ認識装置は,動画データ入力部301が主記憶装置202に格納された動画データを入力し(ステップ901),テロップ矩形抽出部302が,ステップ901で入力された動画データからフレーム画像を抽出し,該フレーム画像からテロップであると判断される画素領域を求め,該画素領域の外接矩形の画像を抽出し,該画像を主記憶装置202あるいは補助記憶装置203に格納する(ステップ902)。
つぎに、文字列矩形抽出部303が,ステップ902で抽出されたテロップであると判断された画素領域の外接矩形画像に対して,エッジを抽出し,該エッジ領域を用いて文字であると判断される画素領域を求め,該画素領域を統合し,統合された領域の外接矩形部分の画像を抽出し,該画像を主記憶装置202あるいは補助記憶装置203に格納する(ステップ903)。
つぎに、文字領域抽出部304が,ステップ903で抽出された外接矩形画像に対して,文字であると判断される画素領域を求め、該画素領域に属する画素を1,それ以外に属する画素を0とした文字画像を生成し,該画像と外接矩形の座標情報を主記憶装置202あるいは補助記憶装置203に格納し(ステップ904),文字認識部305が,ステップ904で生成された文字画像に対して,文字認識処理を実行し,文字コードを取得する(ステップ905)。
図10は,文字領域抽出部304の動作を示すフローチャートの一例である。まず、文字領域抽出部304は,文字列矩形画像入力部401が,ステップ903で抽出された外接矩形の座標情報と外接矩形内の画像を入力する(ステップ1001)。エッジ領域取得部402が,ステップ902で抽出されたエッジ画像からステップ1001で入力された外接矩形の部分を切り出し,該切り出しエッジ画像からエッジの連結成分を求めて,該エッジの連結成分を取得し(ステップ1002),文字候補矩形抽出部403が,ステップ1002で取得したエッジ領域の外接矩形を求める(ステップ1003)。
鮮鋭化部404が,ステップ1001で入力した外接矩形画像から,ステップ1003で求められたエッジ領域の外接矩形部分を切り出し,得られた切り出し画像に対して,鮮鋭化処理し(ステップ1004),領域分割部405が,ステップ1004で鮮鋭化された画像に対して,該画像を二値化した画像を生成する(ステップ1005)。
連結成分生成部406が,ステップ1005で生成した二値画像に対して,該文字画像の値が1の連結成分(高輝度領域)と該文字画像の値が0の連結成分(低輝度領域)を生成し(ステップ1006),文字判定部407が,ステップ1006で生成した連結成分に対して,文字に属するか背景に属するかを判定し,背景に属する領域の値を0と,文字に属する領域の値を1とした文字画像を生成する(ステップ1007)。
図11は,文字判定部407の動作を示すフローチャートの一例である。文字判定部407は,小領域判定部101がステップ406で生成された値が高輝度領域に対して文字候補か背景かを判定し(ステップ1101),第1文字周辺領域判定部102が,ステップ1101で文字候補と判定された高輝度領域に対して,背景か否かを判定し(ステップ1102)する。
第1低輝度文字判定部103が,ステップ1102で背景と判定されなかった高輝度領域と低輝度輝度領域に対して,文字か背景かを判定し(ステップ1103),第2文字周辺領域判定部104が,ステップ1103で背景と判定されなかった高輝度領域に対して,背景か否かを判定し(ステップ1104),第2低輝度文字判定部105が,ステップ1104で背景と判定されなかった高輝度領域とステップ1103で文字と判定されなかった低輝度領域に対して文字か背景かを判定する(ステップ1105)。
文字再判定部106が,ステップ1105で背景と判定されなかった背景と判定されなかった高輝度領域とステップ1103で文字と判定されなかった低輝度領域に対して文字か背景かを判定する(ステップ1106)。
上述した実施例によれば,従来方法より高精度にテロップの文字領域を抽出する方法を提供できる。
101…小領域判定部,102…第1文字周辺領域判定部,103…第1低輝度文字判定部,104…第2文字周辺領域判定部,105…第2低輝度文字判定部,106…文字再判定部,301…フレーム画像入力部,302…テロップ矩形抽出部,303…文字列矩形抽出部,304…文字領域抽出部,305…文字認識部,401…文字列矩形画像入力部,402…エッジ情報取得部,403…文字候補矩形抽出,404…鮮鋭化部,405領域分割部,406…連結成分生成部,407…文字判定部
Claims (5)
- 映像情報に合成された文字を抽出するテロップ文字抽出方法であって、
入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するステップと、
前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出するステップと、
前記抽出したテロップ文字列矩形領域の輝度情報を2値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字判定ステップ
から成ることを特徴とするテロップ文字抽出方法。 - 請求項1に記載のテロップ文字抽出方法において、前記文字判定ステップは、
高輝度領域の連結成分のうち領域の幅・高さがしきい値以上のものを文字候補とする小領域判定ステップと、
文字候補のうち,領域の重心が文字列候補矩形内のエッジに囲まれる領域の外側にあるものを背景候補とする第1の文字周辺領域判定ステップと、
文字候補内部に所定長以上の低輝度領域がある場合に低輝度連結成分を文字候補として、高輝度連結成分を背景とする第1の低輝度文字判定ステップと、
前記第1の低輝度文字判定ステップで高輝度文字と判定された文字候補のうち,所定の高さ以上,かつ,矩形の各辺に接する文字候補と矩形上で重なる文字候補が存在する場合,矩形の各辺に接する文字候補を背景候補と判定する第2の文字周辺領域判定ステップと、
文字候補内部に所定の高さ以上の低輝度連結成分があり,かつ,その連結成分の矩形を除く範囲でランレングスが1の割合が所定以上の場合に高輝度連結成分を背景とし、低輝度連結成分を文字候補とする第2の低輝度文字判定ステップと、
文字候補及び文字候補内部にある同種連結成分を文字と判定する文字再判定ステップ
から成ることを特徴とするテロップ文字抽出方法。 - 請求項2に記載のテロップ文字抽出方法において、
前記第1の低輝度文字判定ステップは、文字候補内部に所定長以上の低輝度領域がある場合に、前記文字候補が矩形の3辺以上と接するか、または、2辺以上接し,辺に接しない高輝度画素数と低輝度画素数の比が所定より大きい、ときに低輝度連結成分を文字候補として、高輝度連結成分を背景とする。 - 映像情報に合成された文字を抽出するテロップ文字認識装置において、
動画データ入力部と、
入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するテロップ矩形抽出部と、
前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出する文字列矩形抽出部と、
前記抽出したテロップ文字列矩形領域の輝度情報を2値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字領域抽出部と、
文字認識部
を備えることを特徴とするテロップ文字認識装置。 - 動画データを入力する動画データ入力部と,
該動画データからテロップであると判断される画素領域の外接矩形の画像を抽出するテロップ矩形抽出部と,
該テロップであると判断される画素領域の外接矩形の画像から文字列であると判断される画素領域の外接矩形の画像を抽出する文字列矩形抽出部と
該文字列であると判断される画素領域の外接矩形の画像から文字であると判断される画素領域を求める文字領域抽出部と,
該文字であると判断される画素領域から文字認識処理を実行し,文字コードを取得する文字認識部を有するテロップ認識装置であって,
前記文字領域抽出部は
該文字列であると判断される画素領域の外接矩形から,矩形内部のエッジの連結成分を取得するエッジ領域取得部と,
該エッジ連結成分から,該エッジ連結成分の外接矩形を求める文字候補矩形抽出部と,
該文字列であると判断される画素領域の外接矩形の画像から,文字候補矩形抽出部で求めた文字候補矩形の部分を切り出し,得られた切り出し画像に対して,鮮鋭化処理する鮮鋭化部と,
該鮮鋭化された画像から二値化した画像を生成する領域分割部と,
該二値画像に対して,該二値画像の値が1の連結成分(以降,高輝度領域と表現する)と該二値画像の値が0の連結成分(以降,低輝度領域と表現する)を生成する連結成分生成部と
該高輝度領域のうち,幅と高さが予め定められたしきい値以上のものを文字候補と判定し,それ以外の高輝度領域と低輝度領域を背景と判定する小領域判定部と,
小領域判定部を処理した後も文字候補である領域から,該領域の重心が,前記エッジ情報取得部で取得したエッジ領域の外側にある文字候補を背景と判定する第1文字周辺領域判定部と,
第1文字周辺領域判定部を処理した後も文字候補である領域から,文字候補の領域の内部に,サイズが予め定められたしきい値以上低輝度領域がある場合に,該文字候補が文字候補矩形と3辺以上接する,あるいは,2辺以上接し,かつ文字候補矩形に接しない文字候補の画素数と低輝度領域の画素数の比が予め定められたしきい値以上とき,文字候補を背景と判定し,文字候補の内部にある低輝度領域すべてを文字と判定する第1低輝度文字判定部と,
第1低輝度文字判定部を処理した後も文字候補である領域から,サイズが予め定められたしきい値以上,かつ,文字候補矩形の辺のいずれかに接する文字候補と,外接矩形上で重なる文字候補が存在する場合,前記文字候補矩形の辺のいずれかに全体が接する文字候補を背景と判定する第2文字周辺領域判定部と,
第2文字周辺領域判定部を処理した後も文字候補である領域から,文字候補の領域の内部に,高さが予め定められたしきい値以上の低輝度領域があり,文字候補の中で前記低輝度領域の外接矩形を除く範囲で縦方向のラン及び横方向のランを求め,ランの個数が1である割合が予め定められたしきい値以上場合に,文字候補を背景と判定し,文字候補内部にある低輝度連接成分すべてを文字候補と判定する第2低輝度文字判定部と,
文字あるいは第2低輝度文字判定部を処理した後も文字候補である領域から,その領域が高輝度領域であり,かつ,その内部に別の高輝度領域がある場合は,内部にある該高輝度領域を文字と判定し,一方,その領域が低輝度領域であり,かつ,その内部に別の低輝度領域がある場合,内部にある低輝度領域を文字と判定する文字再判定部,
を有するテロップ文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008057170A JP2009217303A (ja) | 2008-03-07 | 2008-03-07 | テロップ文字抽出方法およびテロップ文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008057170A JP2009217303A (ja) | 2008-03-07 | 2008-03-07 | テロップ文字抽出方法およびテロップ文字認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009217303A true JP2009217303A (ja) | 2009-09-24 |
Family
ID=41189130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008057170A Pending JP2009217303A (ja) | 2008-03-07 | 2008-03-07 | テロップ文字抽出方法およびテロップ文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009217303A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013081174A (ja) * | 2011-09-30 | 2013-05-02 | Fujitsu Ltd | 画像処理装置及び画像処理方法 |
JP2015532057A (ja) * | 2012-09-13 | 2015-11-05 | ゼットティーイー コーポレイション | 字幕抽出方法及び装置 |
JP2018190248A (ja) * | 2017-05-09 | 2018-11-29 | 富士通株式会社 | 画像処理プログラム、画像処理方法及び画像処理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001285716A (ja) * | 2000-01-24 | 2001-10-12 | Toshiba Corp | テロップ情報処理装置及びテロップ情報表示装置 |
-
2008
- 2008-03-07 JP JP2008057170A patent/JP2009217303A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001285716A (ja) * | 2000-01-24 | 2001-10-12 | Toshiba Corp | テロップ情報処理装置及びテロップ情報表示装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013081174A (ja) * | 2011-09-30 | 2013-05-02 | Fujitsu Ltd | 画像処理装置及び画像処理方法 |
JP2015532057A (ja) * | 2012-09-13 | 2015-11-05 | ゼットティーイー コーポレイション | 字幕抽出方法及び装置 |
JP2018190248A (ja) * | 2017-05-09 | 2018-11-29 | 富士通株式会社 | 画像処理プログラム、画像処理方法及び画像処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106254933B (zh) | 字幕提取方法及装置 | |
Gllavata et al. | A robust algorithm for text detection in images | |
JP4848427B2 (ja) | 動画イメージコード、動画イメージコードを生成または復号する装置及びその方法 | |
Phan et al. | A Laplacian method for video text detection | |
KR101670282B1 (ko) | 전경-배경 제약 조건 전파를 기초로 하는 비디오 매팅 | |
US9071745B2 (en) | Automatic capturing of documents having preliminarily specified geometric proportions | |
US7961948B2 (en) | Computer-readable record medium in which a telop character extraction program is recorded, telop character extraction method and telop character extraction apparatus | |
EP2109313B1 (en) | Television receiver and method | |
US9082039B2 (en) | Method and apparatus for recognizing a character based on a photographed image | |
US8396296B2 (en) | Brand image detection | |
JP2008520152A (ja) | 画像中のテキストの検出および修正 | |
US8265167B2 (en) | Application specific video format | |
CN110830787B (zh) | 一种检测花屏图像的方法及装置 | |
EP3915271B1 (en) | Methods and systems for scoreboard text region detection | |
JP5640622B2 (ja) | 赤目オブジェクト候補を分類する方法、コンピューター読み取り可能な媒体および画像処理装置 | |
JP2009017325A (ja) | テロップ文字領域抽出装置及び方法 | |
JP2009217303A (ja) | テロップ文字抽出方法およびテロップ文字認識装置 | |
CN117745589A (zh) | 水印去除方法、装置及设备 | |
JP4420440B2 (ja) | 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体 | |
JP2005275854A (ja) | 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体 | |
US11570331B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2011141599A (ja) | 画像処理方法、画像処理装置、およびプログラム | |
CN110942420A (zh) | 一种图像字幕的消除方法及装置 | |
EP3923189A1 (en) | Generation of metadata from graphical inlays inserted in video frames | |
WO2017088478A1 (zh) | 数字分离方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120522 |