JP2009217303A

JP2009217303A - テロップ文字抽出方法およびテロップ文字認識装置

Info

Publication number: JP2009217303A
Application number: JP2008057170A
Authority: JP
Inventors: Yoshitaka Hiramatsu; 義崇平松; Nobuhiro Sekimoto; 信博関本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-03-07
Filing date: 2008-03-07
Publication date: 2009-09-24

Abstract

【課題】
色の異なる文字が一行中で混在するテロップで文字と背景を分離するテロップ文字領域抽出方法と該テロップを認識するテロップ文字認識装置を提供する。
【解決手段】
映像情報に合成された文字を抽出するテロップ文字認識装置は、動画データ入力部と、入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するテロップ矩形抽出部と、前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出する文字列矩形抽出部と、前記抽出したテロップ文字列矩形領域の輝度情報を２値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字領域抽出部と、文字認識部を備えるようにした。
【選択図】図３

Description

本発明は、映像情報に合成された文字情報を抽出してシーン検索をおこなう映像検索技術に係り、複雑なテロップ文字の認識に好適な文字抽出技術に関する。

放送通信融合時代を迎え、ネットワークを通じて広範囲の映像コンテンツを集積し、様々な形態で公開し共有することが可能となってきた。従来の放送波や記録媒体のよる映像情報を提供に加えて、今後は、ネットワークを通じた映像コンテンツの提供がおこなわれようになる。こうした映像流通量の増大に伴って、多くの映像コンテンツから必要な情報を選ぶために、映像検索のニーズが高まっていくと思われる。

映像検索をおこなう方法として、映像中のテロップ文字を抽出して、これを映像シーンのキーワードとする検索方式がある。この映像中のテロップ文字を抽出する技術は、例えば、特許文献１や非特許文献１に記載されている。

特許文献１では、ひとつのテロップが複数行から構成されている場合に、テロップの各行に含まれる個々のセグメントの各行内の位置を特定し、この特定したセグメントの位置からセグメント間の接続関係を判定して、セグメントお並び替えをおこなうことが開示されている。これにより、一連の文字群が複数行に亘って表示される場合であっても、より的確なテキストデータを生成することができる。

非特許文献１では、動画データ中のフレーム画像からテロップ矩形領域を抽出し，テロップ矩形領域内の輝度画像に対して二値化し，輝度の高い方を前景とした画像とその反転画像を生成し，どちらが文字画像として妥当か否かを判定することで，文字画像を生成する。その判定方法は，画像内の全連結成分から高さや幅等の特徴量を求め，全連結成分の特徴量を用いて統計量を求め，統計量が以下に述べる基準を満たす画像に投票し，得票値が多い画像を採用する。用いられている基準は，（１）高さの分散が低い，（２）幅の分散が低い，（３）隣接連結成分との水平距離の分散が低い，（４）同じ底辺座標を持つペアの数が多い，（４）連結成分の平均アスペクト比が１．０に近い，（６）連結成分の外接矩形内の画素数が低い，（７）垂直方向への投影値の周期性，である。

特開2007-259121号公報 David Crandall, Sameer Antani, and Rangachar Kasturi,"Extraction of special effects caption text events from digital video", IJDAR(2003)

上記の従来技術においても、色の異なる文字が一行中で混在するテロップでは，二値化して得た画像と反転画像どちらの前景領域にも文字領域が含まれてしまうため，文字領域の抽出に失敗が生じる。

本発明は、上記課題を解決するためになされたものであり、その目的は、色の異なる文字が一行中で混在するテロップであっても、テロップ文字を高精度に抽出できるテロップ文字抽出装置およびテロップ文字抽出方法を提供することにある。

本発明のテロップ文字抽出方法は、映像情報に合成された文字を抽出するテロップ文字抽出方法であって、入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するステップと、前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出するステップと、前記抽出したテロップ文字列矩形領域の輝度情報を２値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字判定ステップから成るようにした。

詳しくは、本発明のテロップ文字認識装置は、動画データ中のフレーム画像から抽出された文字列矩形領域から，文字であると判断される画素領域を求めるテロップ文字領域抽出部を備えたテロップ認識装置であって，該領域のエッジ画像を取得し，連結成分を求めて，エッジの連結成分を取得するエッジ領域取得部と，エッジ領域取得部で取得したエッジ領域の外接矩形を求める文字候補矩形抽出部と，文字列矩形領域内の画像から，文字候補矩形抽出部で求めた文字候補矩形の部分を切り出し，得られた切り出し画像に対して，鮮鋭化処理する鮮鋭化部と，鮮鋭化部で鮮鋭化された画像に対して、二値化した画像を生成する領域分割部と，領域分割部で生成した二値画像に対して，該二値画像の値が１の連結成分（以降，高輝度領域と表現する）と該二値画像の値が０の連結成分（以降，低輝度領域と表現する）を生成する連結成分生成部と、高輝度領域のうち，幅と高さが予め定められたしきい値以上のものを文字候補と判定し，それ以外の高輝度領域と低輝度領域を背景と判定する小領域判定部と、小領域判定部を処理した後，文字候補である領域に対して，該領域の重心が，前記エッジ情報取得部で取得したエッジ領域の外側にある文字候補を背景と判定する第１文字周辺領域判定部と、第１文字周辺領域判定部１を処理した後，文字候補である領域に対して，文字候補の領域の内部に，サイズが予め定められたしきい値以上低輝度領域がある場合に，該文字候補が文字候補矩形と３辺以上接する，あるいは，２辺以上接し，かつ文字候補矩形に接しない文字候補の画素数と低輝度領域の画素数の比が予め定められたしきい値以上とき，文字候補を背景と判定し，文字候補の内部にある低輝度領域すべてを文字と判定する第１低輝度文字判定部と，第１低輝度文字判定部を処理した後も文字候補である領域に対して，サイズが予め定められたしきい値以上，かつ，文字候補矩形の辺のいずれかに接する文字候補と，外接矩形上で重なる文字候補が存在する場合，前記文字候補矩形の辺のいずれかに全体が接する文字候補を背景と判定する第２文字周辺領域判定部と，第２文字周辺領域判定部を処理した後も文字候補である領域に対して，文字候補の領域の内部に，高さが予め定められたしきい値以上の低輝度領域があり，文字候補の中で前記低輝度領域の外接矩形を除く範囲で縦方向のラン及び横方向のランを求め，ランの個数が１である割合が予め定められたしきい値以上場合に，文字候補を背景と判定し，文字候補内部にある低輝度連接成分すべてを文字候補と判定する第２低輝度文字判定部と，文字あるいは第２低輝度文字判定部を処理した後も文字候補である領域に対して，その領域が高輝度領域であり，かつ，その内部に別の高輝度領域がある場合は，内部にある該高輝度領域を文字と判定し，一方，その領域が低輝度領域であり，かつ，その内部に別の低輝度領域がある場合，内部にある低輝度領域を文字と判定する文字再判定部とを有する。

テロップの文字領域を従来よりも高精度に抽出でき，その結果従来よりも高精度にテロップ認識できる。

以下，本発明の実施に好適な実施形態を図を用いて説明する。
図２は，テロップ認識装置のハードウェア構成の一例である。テロップ認識装置は，ＣＰＵ２０１，主記憶装置２０２，補助記憶装置２０３，表示装置２０４，入力装置２０５から構成される。

実施例のテロップ認識装置が、放送波から動画データを取得する場合には，さらに，放送データ入力装置２０６を有する。また，実施例のテロップ認識装置が、ネットワークを介して動画データを取得する場合には，さらに，ネットワークデータ送受信装置２０７を有する。上記２０１から２０７までの各装置はバス２０８によって接続され，各装置間で相互にデータの送受信が行われる。ただしテロップ認識装置がこの全ての構成を備える必要はない。

以下に実施例のテロップ認識装置の詳細な構成を説明する。
ＣＰＵ２０１は，主記憶装置２０２や補助記憶装置２０３に格納されているプログラムを実行する。

主記憶装置２０２は，例えば，ランダムアクセスメモリ（ＲＡＭ）やリードオンリーメモリ（ＲＯＭ）等で実現される。主記憶装置２０２は，ＣＰＵ２０１によって実行されるプログラムやテロップ認識装置において処理されるデータや動画データを格納する。

補助記憶装置２０３は，例えば，ハードディスク（ＨＤＤ），Ｂｌｕ−ｒａｙＤｉｓｃやＤＶＤなどの光ディスクドライブ，フロッピー（登録商標）ディスクなどの磁気ディスクドライブ，あるいはフラッシュメモリ等の不揮発性メモリ等を，単体あるいは複数組合せて構成される。補助記憶装置２０３は，ＣＰＵ２０１によって実行されるソフトウェアやテロップ認識装置において処理されるデータや動画データを格納する。

表示装置２０４は，例えば，液晶ディスプレイ，プラズマディスプレイ，プロジェクタによって実現され，テロップ認識装置において処理される動画データやテロップ認識装置の処理結果を表示する。

入力装置２０５は，例えば，リモコン，キーボード，マウス等で実現され，利用者は入力装置２０５を通してテロップ認識装置の処理に関する設定や操作を行う。

放送データ取得装置２０６は，例えば，チューナ等で実現され，アンテナを経由して動画データを主記憶装置２０２や補助記憶装置２０３に格納する。

ネットワーク送受信装置２０７は，例えば，ＬＡＮカード等のネットワークカードによって実現され，ネットワーク上に繋がっている別の装置からネットワークを介して動画データを取得し，主記憶装置２０２や補助記憶装置２０３に格納する。

図３は，テロップ認識装置が有するテロップ認識部の機能ブロックの一例である。テロップ認識部の機能はハードウェアあるいはソフトウェアで実現されても良い。ここでは，補助記憶装置２０３に格納され，ＣＰＵ２０１により呼び出されて実行されるソフトウェアで実現されるものとして以下説明する。

テロップ認識部は，動画データ入力部３０１，テロップ矩形抽出部３０２，文字列矩形抽出部３０３，文字領域抽出部３０４，文字認識部３０５，から構成される。

動画データ入力部３０１は，主記憶装置２０２に格納された動画データ，あるいは，補助記憶装置２０３に格納された動画データ，あるいは，放送データ取得装置２０６で入力された動画データを直接入力する。

テロップ矩形抽出部３０２は，動画データ入力部３０１で入力された動画データからフレーム画像を抽出し，該フレーム画像からテロップであると判断される画素領域を求め，該画素領域の外接矩形の画像を抽出し，該画像を主記憶装置２０２あるいは補助記憶装置２０３に格納する。ここで、ＣＰＵ２０１の性能や主記憶装置２０２の使用量に制限がある場合は，全フレームを処理する代わりにＭＰＥＧのイントラフレームだけを用いて処理し，さらに，画像を作成する代わりに該画素領域の座標情報を生成してもよい。

テロップは視聴者が視認できることを想定して挿入されるため，イントラフレームのように一般的に０．５秒おきに出現するフレームだけでもテロップ認識に十分である。テロップであると判断される画素領域を求める方法は，特開平９−３２２１７３号公報，特開平１０−１５４１４８号公報，特開２００１−２８５７１６号公報などで知られる公知の手法を用いることができる。また，テロップが出現開始する時刻とテロップが消失する時刻が必要な場合は，ＤａｖｉｄＣｒａｎｄａｌｌ，ＳａｍｅｅｒＡｎｔａｎｉ，ａｎｄＲａｎｇａｃｈａｒＫａｓｔｕｒｉ，” Ｅｘｔｒａｃｔｉｏｎｏｆｓｐｅｃｉａｌｅｆｆｅｃｔｓｃａｐｔｉｏｎｔｅｘｔｅｖｅｎｔｓｆｒｏｍｄｉｇｉｔａｌｖｉｄｅｏ”，ＩＪＤＡＲ（２００３）５：１３８−１５７などで知られる公知の手法を用いて求めることもできる。

文字列矩形抽出部３０３は，テロップ矩形抽出部３０２で抽出されたテロップであると判断された画素領域の外接矩形画像に対して，文字であると判断される画素領域を求め，該画素領域を統合し，統合された領域の外接矩形該画像を主記憶装置２０２あるいは補助記憶装置２０３に格納する。ＣＰＵ２０１の性能や主記憶装置２０２の使用量に制限がある場合，画像を作成する代わりに該画素領域の座標情報を生成してもよい。文字であると判断される画素領域を求める方法は，平松義崇，関本信博，新庄広，丸川勝美，“図形輪郭除去によるテロップ文字領域抽出“，ＦＩＴ２００７−Ｈ０４３，ｐｐ．１０３−１０４，２００７などで知られる公知の手法を用いることができる。

文字領域抽出部３０４は，文字列矩形抽出部３０３で抽出された外接矩形画像に対して，文字であると判断される画素領域を求め、該画素領域に属する画素を1，それ以外に属する画素を0とした文字画像を生成し，該画像と外接矩形の座標情報を主記憶装置２０２あるいは補助記憶装置２０３に格納する。文字であると判断される画素領域を求める機能ブロックについては後述する。

文字認識部３０５は，文字領域抽出部３０４で生成された文字画像に対して，文字認識処理を実行し，文字コードを取得する。文字認識部としては，ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）装置の内部で用いられている文字認識部を用いる。

図４は，図３の文字領域抽出部３０４が有する機能ブロックの一例である。文字領域抽出部３０４は，文字列矩形画像入力部４０１，エッジ情報取得部４０２，文字候補矩形抽出４０３，鮮鋭化部４０４，領域分割部４０５，連結成分生成部４０６，文字判定部４０７，から構成される。

文字列矩形画像入力部４０１は，文字列矩形抽出部３０３で抽出された外接矩形の座標情報と外接矩形内の画像を入力する。

エッジ領域取得部４０２は，テロップ矩形抽出部３０２あるいは文字列矩形抽出部３０３の処理でエッジを抽出していた場合，エッジ画像から文字列矩形画像入力部４０１で入力された外接矩形の部分を切り出し，該切り出しエッジ画像からエッジの連結成分を求めて，該エッジの連結成分を取得する。

一方，テロップ矩形抽出部３０２あるいは文字列矩形抽出部３０３の処理でエッジ抽出が行われていない場合は，文字列矩形画像入力部４０１で入力された外接矩形画像に対してエッジ抽出を行ってエッジ画像を生成し，該エッジ画像からエッジの連結成分を求めて，該エッジの連結成分を取得する。以降，エッジの連結成分をエッジ領域と表現する。

文字候補矩形抽出部４０３は，エッジ領域取得部４０２で取得したエッジ領域の外接矩形を求める。これ以降，該エッジ領域の外接矩形を文字候補矩形と表現し，全文字候補矩形に対して以降の処理を実行する。

鮮鋭化部４０４は，文字列矩形画像入力部４０１で入力された外接矩形画像から，文字候補矩形抽出部４０３で求めた文字候補矩形の部分を切り出し，得られた切り出し画像に対して，ラプラシアンフィルタ等の鮮鋭化フィルタあるいはヒストグラム平坦化等を用いて鮮鋭化処理する。本処理により，アンチエリアシングされて滑らかになったテロップ文字のエッジが強調される。

領域分割部４０５は，鮮鋭化部４０４で鮮鋭化された画像に対して，しきい値を設定して，該画像を二値化した画像を生成する。

連結成分生成部４０６は，領域分割部４０５で生成した二値画像に対して，ラベリング処理をすることによって，該文字画像の値が１の連結成分と該文字画像の値が０の連結成分を生成する。以降，該文字画像の値が１の連結成分を高輝度領域，該文字画像の値が０の連結成分を低輝度領域と表現する。

文字判定部４０７は，連結成分生成部４０６で生成した高輝度領域と低輝度領域に対して，文字に属するか背景に属するかを判定し，背景に属する領域の値を０と，文字に属する領域の値を１とした文字画像を生成する。文字に属するか背景に属するかの判定は後述する。

図１は，図４の文字判定部４０７が有する機能ブロックの一例である。文字判定部４０７は，小領域判定部１０１，第１文字周辺領域判定部１０２，第１低輝度文字判定部１０３，第２文字周辺領域判定部１０４，第２低輝度文字判定部１０５，文字再判定部１０６，から構成される。

小領域判定部１０１は，高輝度領域のうち，幅と高さが予め定められたしきい値以上のものを文字候補と判定し，それ以外の高輝度領域と低輝度領域を背景と判定する。

第１文字周辺領域判定部１０２は，小領域判定部１０１を処理した後，文字候補である領域に対して，該領域の重心が，前記エッジ情報取得部４０２で取得したエッジ領域の外側にある文字候補を背景と判定する。

つぎに、映像に合成されているテロップ文字がどのように判定されるかをより具体的に説明する。図５（ａ）は背景が文字と同色である縁取り文字に対して，文字列矩形画像入力部４０１から領域分割部４０５の処理を実行して生成された文字画像の各領域を模様で表現した例であり，図５（ｂ）はエッジ領域取得部４０２で取得したエッジ画像の例である。

図５（ａ）では，文字候補５０１から５０７が示されており，図５（ｂ）では，エッジ領域５１０，文字候補５０１の重心５１１，文字候補５０２の重心５１２，文字候補５０３の重心５１３，文字候補５０４の重心５１４，文字候補５０５の重心５１５，文字候補５０６の重心５１６，文字候補５０７の重心５１７が示されている。図５（ａ）の文字候補に第１文字周辺領域判定部１０２を適用した場合，文字候補５０６，５０７は，それぞれの重心５１４，５１５がエッジ領域５１０の外側にあるため，背景と判定される。一方，文字候補５０１，５０２，５０３，５０４，５０５は，それぞれの重心５１１，５１２，５１３，５１４，５１５がエッジ領域５１０の内部にあるため，背景と判定されない。

第１低輝度文字判定部１０３は，第１文字周辺領域判定部１を処理した後，文字候補である領域に対して，文字候補の領域の内部に，サイズが予め定められたしきい値以上低輝度領域がある場合に，該文字候補が文字候補矩形と３辺以上接する，あるいは，２辺以上接し，かつ文字候補矩形に接しない文字候補の画素数と低輝度領域の画素数の比が予め定められたしきい値以上とき，文字候補を背景と判定し，文字候補の内部にある低輝度領域すべてを文字と判定する。ここで矩形と接するとは，文字候補の画素が矩形の辺に予め定められたしきい値以上の画素数と接することを意味する。

図６は黒文字に対して文字列矩形画像入力部４０１から領域分割部４０５まで実行して生成された文字画像の各領域を模様で表現した例である。図６では，文字候補６０１の内部にサイズが予め定められたしきい値以上の低輝度領域６０２があり，該低輝度領域６０２の内部に文字候補６０３，６０４がある。図６の文字候補に第１低輝度文字判定部１０３を適用した場合，文字候補６０１は，文字候補６０１の文字候補矩形６０５と4辺以上接していることから，文字候補６０１は背景と判定され，低輝度領域６０２は文字と判定される。

第２文字周辺領域判定部１０４は，第１低輝度文字判定部１０３を処理した後も文字候補である領域に対して，サイズが予め定められたしきい値以上，かつ，文字候補矩形の辺のいずれかに接する文字候補と，外接矩形上で重なる文字候補が存在する場合，前記文字候補矩形の辺のいずれかに全体が接する文字候補を背景と判定する。

図７は背景の下半分が文字と同色である縁取り文字に対して，文字列矩形画像入力部４０１から領域分割部４０５まで実行して生成された文字画像の各領域を模様で表現した例である。図７では，文字候補７０２，７０３があり，背景候補７０１がある。図７の文字候補に第２文字周辺領域判定部１０４を適用した場合，文字候補７０３は文字候補矩形７０６に全体が接しており，文字候補７０３の外接矩形７０５と文字候補７０２の外接矩形７０４が重なることから，文字候補７０３は背景と判定され，一方，文字候補７０２は文字候補のままである。

第２低輝度文字判定部１０５は，第２文字周辺領域判定部１０４を処理した後も文字候補である領域に対して，文字候補の領域の内部に，高さが予め定められたしきい値以上の低輝度領域があり，文字候補の中で前記低輝度領域の外接矩形を除く範囲で縦方向のラン及び横方向のランを求め，ランの個数が１である割合が予め定められたしきい値以上場合に，文字候補を背景と判定し，文字候補内部にある低輝度連接成分すべてを文字候補と判定する。

図８（ａ）は，黒文字に対して，文字列矩形画像入力部４０１から領域分割部４０５まで実行して生成された文字画像の各領域を模様で表現した例である。図８では，文字候補８０２と低輝度領域８０１がある。図８（ａ）の文字候補に第２低輝度文字判定部１０５を適用した場合，文字候補８０２から低輝度領域８０１の外接矩形８０３を除く範囲８０４では，縦方向及び横方向のランの個数がすべて１であるため，文字候補８０２は背景と判定され，一方，低輝度領域８０１は文字と判定される。このように，本処理により，図８（ａ）のように文字候補矩形の辺に接する画素数が小さく，第１低輝度文字判定部１０３では文字と判定されない低輝度連結成分を正しく文字と判定できる。

文字再判定部１０６は，文字あるいは第２低輝度文字判定部１０５を処理した後も文字候補である領域に対して，その領域が高輝度領域であり，かつ，その内部に別の高輝度領域がある場合は，内部にある該高輝度領域を文字と判定する。一方，その領域が低輝度領域であり，かつ，その内部に別の低輝度領域がある場合，内部にある低輝度領域を文字と判定する。本処理により，領域判定部１０１で背景と判定された文字領域を正しく文字と判定できる。

図９は，本テロップ認識装置のテロップ認識処理の動作を示すフローチャートの一例である。本テロップ認識装置は，動画データ入力部３０１が主記憶装置２０２に格納された動画データを入力し（ステップ９０１），テロップ矩形抽出部３０２が，ステップ９０１で入力された動画データからフレーム画像を抽出し，該フレーム画像からテロップであると判断される画素領域を求め，該画素領域の外接矩形の画像を抽出し，該画像を主記憶装置２０２あるいは補助記憶装置２０３に格納する（ステップ９０２）。

つぎに、文字列矩形抽出部３０３が，ステップ９０２で抽出されたテロップであると判断された画素領域の外接矩形画像に対して，エッジを抽出し，該エッジ領域を用いて文字であると判断される画素領域を求め，該画素領域を統合し，統合された領域の外接矩形部分の画像を抽出し，該画像を主記憶装置２０２あるいは補助記憶装置２０３に格納する（ステップ９０３）。

つぎに、文字領域抽出部３０４が，ステップ９０３で抽出された外接矩形画像に対して，文字であると判断される画素領域を求め、該画素領域に属する画素を1，それ以外に属する画素を0とした文字画像を生成し，該画像と外接矩形の座標情報を主記憶装置２０２あるいは補助記憶装置２０３に格納し（ステップ９０４），文字認識部３０５が，ステップ９０４で生成された文字画像に対して，文字認識処理を実行し，文字コードを取得する（ステップ９０５）。

図１０は，文字領域抽出部３０４の動作を示すフローチャートの一例である。まず、文字領域抽出部３０４は，文字列矩形画像入力部４０１が，ステップ９０３で抽出された外接矩形の座標情報と外接矩形内の画像を入力する（ステップ１００１）。エッジ領域取得部４０２が，ステップ９０２で抽出されたエッジ画像からステップ１００１で入力された外接矩形の部分を切り出し，該切り出しエッジ画像からエッジの連結成分を求めて，該エッジの連結成分を取得し（ステップ１００２），文字候補矩形抽出部４０３が，ステップ１００２で取得したエッジ領域の外接矩形を求める（ステップ１００３）。

鮮鋭化部４０４が，ステップ１００１で入力した外接矩形画像から，ステップ１００３で求められたエッジ領域の外接矩形部分を切り出し，得られた切り出し画像に対して，鮮鋭化処理し（ステップ１００４），領域分割部４０５が，ステップ１００４で鮮鋭化された画像に対して，該画像を二値化した画像を生成する（ステップ１００５）。

連結成分生成部４０６が，ステップ１００５で生成した二値画像に対して，該文字画像の値が１の連結成分（高輝度領域）と該文字画像の値が０の連結成分（低輝度領域）を生成し（ステップ１００６），文字判定部４０７が，ステップ１００６で生成した連結成分に対して，文字に属するか背景に属するかを判定し，背景に属する領域の値を０と，文字に属する領域の値を１とした文字画像を生成する（ステップ１００７）。

図１１は，文字判定部４０７の動作を示すフローチャートの一例である。文字判定部４０７は，小領域判定部１０１がステップ４０６で生成された値が高輝度領域に対して文字候補か背景かを判定し（ステップ１１０１），第１文字周辺領域判定部１０２が，ステップ１１０１で文字候補と判定された高輝度領域に対して，背景か否かを判定し（ステップ１１０２）する。

第１低輝度文字判定部１０３が，ステップ１１０２で背景と判定されなかった高輝度領域と低輝度輝度領域に対して，文字か背景かを判定し（ステップ１１０３），第２文字周辺領域判定部１０４が，ステップ１１０３で背景と判定されなかった高輝度領域に対して，背景か否かを判定し（ステップ１１０４），第２低輝度文字判定部１０５が，ステップ１１０４で背景と判定されなかった高輝度領域とステップ１１０３で文字と判定されなかった低輝度領域に対して文字か背景かを判定する（ステップ１１０５）。

文字再判定部１０６が，ステップ１１０５で背景と判定されなかった背景と判定されなかった高輝度領域とステップ１１０３で文字と判定されなかった低輝度領域に対して文字か背景かを判定する（ステップ１１０６）。

上述した実施例によれば，従来方法より高精度にテロップの文字領域を抽出する方法を提供できる。

文字判定部４０７が有する機能ブロックの一例である。テロップ認識装置のハードウェア構成の一例である。テロップ認識装置が有するテロップ認識部の機能ブロックの一例である。文字領域抽出部３０４が有する機能ブロックの一例である。背景が文字と同色である縁取り文字の文字画像の各領域を模様で表現した一例である。黒文字の文字画像の各領域を模様で表現した一例である。背景の下半分が文字と同色である縁取り文字の文字画像の各領域を模様で表現した一例である。黒文字の文字画像の各領域を模様で表現した一例である。本テロップ認識装置のテロップ認識処理の動作を示すフローチャートの一例である。文字領域抽出部３０４の動作を示すフローチャートの一例である。文字判定部４０７の動作を示すフローチャートの一例である。

符号の説明

１０１…小領域判定部，１０２…第１文字周辺領域判定部，１０３…第１低輝度文字判定部，１０４…第２文字周辺領域判定部，１０５…第２低輝度文字判定部，１０６…文字再判定部，３０１…フレーム画像入力部，３０２…テロップ矩形抽出部，３０３…文字列矩形抽出部，３０４…文字領域抽出部，３０５…文字認識部，４０１…文字列矩形画像入力部，４０２…エッジ情報取得部，４０３…文字候補矩形抽出，４０４…鮮鋭化部，４０５領域分割部，４０６…連結成分生成部，４０７…文字判定部

Claims

映像情報に合成された文字を抽出するテロップ文字抽出方法であって、
入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するステップと、
前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出するステップと、
前記抽出したテロップ文字列矩形領域の輝度情報を２値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字判定ステップ
から成ることを特徴とするテロップ文字抽出方法。
請求項１に記載のテロップ文字抽出方法において、前記文字判定ステップは、
高輝度領域の連結成分のうち領域の幅・高さがしきい値以上のものを文字候補とする小領域判定ステップと、
文字候補のうち，領域の重心が文字列候補矩形内のエッジに囲まれる領域の外側にあるものを背景候補とする第１の文字周辺領域判定ステップと、
文字候補内部に所定長以上の低輝度領域がある場合に低輝度連結成分を文字候補として、高輝度連結成分を背景とする第１の低輝度文字判定ステップと、
前記第１の低輝度文字判定ステップで高輝度文字と判定された文字候補のうち，所定の高さ以上，かつ，矩形の各辺に接する文字候補と矩形上で重なる文字候補が存在する場合，矩形の各辺に接する文字候補を背景候補と判定する第２の文字周辺領域判定ステップと、
文字候補内部に所定の高さ以上の低輝度連結成分があり，かつ，その連結成分の矩形を除く範囲でランレングスが1の割合が所定以上の場合に高輝度連結成分を背景とし、低輝度連結成分を文字候補とする第２の低輝度文字判定ステップと、
文字候補及び文字候補内部にある同種連結成分を文字と判定する文字再判定ステップ
から成ることを特徴とするテロップ文字抽出方法。
請求項２に記載のテロップ文字抽出方法において、
前記第１の低輝度文字判定ステップは、文字候補内部に所定長以上の低輝度領域がある場合に、前記文字候補が矩形の3辺以上と接するか、または、2辺以上接し，辺に接しない高輝度画素数と低輝度画素数の比が所定より大きい、ときに低輝度連結成分を文字候補として、高輝度連結成分を背景とする。
映像情報に合成された文字を抽出するテロップ文字認識装置において、
動画データ入力部と、
入力された複数のフレーム画像の輝度情報からエッジ検出をおこない、前記エッジを連結してテロップ矩形領域を抽出するテロップ矩形抽出部と、
前記抽出したテロップ矩形領域から図形のエッジを除去してテロップ文字列矩形領域を抽出する文字列矩形抽出部と、
前記抽出したテロップ文字列矩形領域の輝度情報を２値化し、高輝度領域と低輝度領域に分割して文字を抽出する文字領域抽出部と、
文字認識部
を備えることを特徴とするテロップ文字認識装置。
動画データを入力する動画データ入力部と，
該動画データからテロップであると判断される画素領域の外接矩形の画像を抽出するテロップ矩形抽出部と，
該テロップであると判断される画素領域の外接矩形の画像から文字列であると判断される画素領域の外接矩形の画像を抽出する文字列矩形抽出部と
該文字列であると判断される画素領域の外接矩形の画像から文字であると判断される画素領域を求める文字領域抽出部と，
該文字であると判断される画素領域から文字認識処理を実行し，文字コードを取得する文字認識部を有するテロップ認識装置であって，
前記文字領域抽出部は
該文字列であると判断される画素領域の外接矩形から，矩形内部のエッジの連結成分を取得するエッジ領域取得部と，
該エッジ連結成分から，該エッジ連結成分の外接矩形を求める文字候補矩形抽出部と，
該文字列であると判断される画素領域の外接矩形の画像から，文字候補矩形抽出部で求めた文字候補矩形の部分を切り出し，得られた切り出し画像に対して，鮮鋭化処理する鮮鋭化部と，
該鮮鋭化された画像から二値化した画像を生成する領域分割部と，
該二値画像に対して，該二値画像の値が１の連結成分（以降，高輝度領域と表現する）と該二値画像の値が０の連結成分（以降，低輝度領域と表現する）を生成する連結成分生成部と
該高輝度領域のうち，幅と高さが予め定められたしきい値以上のものを文字候補と判定し，それ以外の高輝度領域と低輝度領域を背景と判定する小領域判定部と，
小領域判定部を処理した後も文字候補である領域から，該領域の重心が，前記エッジ情報取得部で取得したエッジ領域の外側にある文字候補を背景と判定する第１文字周辺領域判定部と，
第１文字周辺領域判定部を処理した後も文字候補である領域から，文字候補の領域の内部に，サイズが予め定められたしきい値以上低輝度領域がある場合に，該文字候補が文字候補矩形と３辺以上接する，あるいは，２辺以上接し，かつ文字候補矩形に接しない文字候補の画素数と低輝度領域の画素数の比が予め定められたしきい値以上とき，文字候補を背景と判定し，文字候補の内部にある低輝度領域すべてを文字と判定する第１低輝度文字判定部と，
第１低輝度文字判定部を処理した後も文字候補である領域から，サイズが予め定められたしきい値以上，かつ，文字候補矩形の辺のいずれかに接する文字候補と，外接矩形上で重なる文字候補が存在する場合，前記文字候補矩形の辺のいずれかに全体が接する文字候補を背景と判定する第２文字周辺領域判定部と，
第２文字周辺領域判定部を処理した後も文字候補である領域から，文字候補の領域の内部に，高さが予め定められたしきい値以上の低輝度領域があり，文字候補の中で前記低輝度領域の外接矩形を除く範囲で縦方向のラン及び横方向のランを求め，ランの個数が１である割合が予め定められたしきい値以上場合に，文字候補を背景と判定し，文字候補内部にある低輝度連接成分すべてを文字候補と判定する第２低輝度文字判定部と，
文字あるいは第２低輝度文字判定部を処理した後も文字候補である領域から，その領域が高輝度領域であり，かつ，その内部に別の高輝度領域がある場合は，内部にある該高輝度領域を文字と判定し，一方，その領域が低輝度領域であり，かつ，その内部に別の低輝度領域がある場合，内部にある低輝度領域を文字と判定する文字再判定部，
を有するテロップ文字認識装置。