JP4613941B2

JP4613941B2 - 文字表示領域検出装置及びその方法、並びに携帯端末

Info

Publication number: JP4613941B2
Application number: JP2007264393A
Authority: JP
Inventors: 美樹菅野; 良樹小野; 直樹木津; 和宏杉山; 喜子幡野
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-10-10
Filing date: 2007-10-10
Publication date: 2011-01-19
Anticipated expiration: 2027-10-10
Also published as: JP2009093472A

Description

この発明は、映像信号から画面上で文字を表示する領域を検出する文字表示領域検出装置及びその方法、並びに文字表示領域検出装置を備える携帯端末に関するものである。

テレビジョン放送番組では、放送内容を補足するために、映像に文字情報をオーバーレイ（重畳）表示しているものが多くある。特にスポーツ中継においては、試合のスコア、選手情報、他会場での途中経過や結果が表示されるが、これらの情報は文字サイズが小さかったり、比較的短時間で表示と非表示が切り換わったり、あるいは表示内容が変化したりするため、視聴者が見逃してしまうことがあった。

また、テレビジョン放送は携帯電話など携帯端末での視聴も可能となっているが、携帯端末の表示画面は家庭用テレビ受像機と比べると非常に小さく、かつ携帯端末で視聴可能なワンセグ放送は映像情報を圧縮しているため、画面上に表示される文字の可読性が劣る。そこで、これら文字情報の可読性を向上させるべく、文字表示部分に対して、エッジ強調や文字色の強調や変更、文字列領域の拡大といった画像処理を施すために、画面内に表示される文字表示領域を検出する必要がある。

そこで、従来の文字表示領域検出装置は、画面内の文字表示領域を検出するために、入力映像信号からフレーム毎に輝度に関するエッジ画像データを抽出し、今回のフレームのエッジ画像データと前回のフレームのエッジ画像データとの重複部分を静止エッジ画像データとして検出し、この静止エッジ画像データのエッジ数を測定して、このエッジ数が所定の閾値以上である状態を今回のフレームのエッジ画像データと前回のフレームのエッジ画像データとが略同一の内容であると判定し、所定のフレーム数以上に亘って略同一の内容が継続したと判定されたとき、この静止エッジ画像データのエッジの密集度に応じて文字表示領域を判定するように構成されていた（例えば、特許文献１参照）。

特開２００７−７４０９１号公報（第１０〜１１頁、第４図）

しかし、今回のフレームのエッジ画像データと前回のフレームのエッジ画像データとが略同一の内容であるかどうかを、両者の重複部分である静止エッジ画像データのエッジ数で判定するので、文字が小さく文字数も少ない場合には、エッジ数も少なくなってしまうことから、検出が困難であるという問題があった。その場合に、画面を複数の領域に分割して各領域毎に判定するようにすれば検出が可能となるが、検出手段を分割した領域の数だけ備える必要があり、検出装置の構成が大掛かりとなって、携帯端末のような小型機器には適用が困難であるという問題があった。

この発明は、上記のような課題を解決するために為されたもので、画面内に表示される文字表示領域を、大掛かりで無いコンパクトな構成で検出することが可能な文字表示領域検出装置を提供することを目的とする。

この発明に係る文字検出領域検出装置は、入力される映像の輝度信号からフレーム毎のエッジ画像データを抽出するエッジ画像抽出手段と、前記エッジ画像抽出手段で抽出されたエッジ画像データのうちで連続する複数のフレームのそれぞれのエッジ画像データに対して画素毎にエッジ強度の大小を比較し、それぞれの画素に対応するエッジ強度の小さい方の値をそれぞれの画素の値として置き換えた静止エッジ画像データを出力する静止エッジ画像取得手段と、前記静止エッジ画像データを２値化の閾値との比較に基づいて２値化して２値化エッジ画像データを出力するエッジ画像２値化手段と、前記２値化エッジ画像データのデータ分布に基づいて画素の密集が所定の閾値以上の領域を抽出して文字表示領域と判定することで文字表示領域情報を取得する文字表示領域取得手段とを備えることを特徴とする。

この発明に係る文字検出領域検出装置は、連続する複数のフレームのエッジ画像データにおいて、画素毎にエッジ強度を比較し、エッジ強度の最小値をその画素のエッジ強度として残すようにしたので、文字が小さく文字数も少ない場合であっても、文字表示領域が検出できるという効果がある。

以下、この発明の実施の形態による文字表示領域検出装置について、この文字表示領域検出装置が例えば携帯電話等の携帯端末を構成する画像処理装置に組み込まれ、入力された映像信号に対して文字表示領域を検出し、検出された文字表示領域の文字の視認性が向上する画像処理加工を施した映像信号を出力する場合を例にして説明する。

実施の形態１．
図１は、この発明に係る文字表示領域検出装置の実施の形態１の構成が組み込まれた携帯端末を構成する画像処理装置の構成図である。画像処理装置１には、例えば地上デジタルテレビジョン放送におけるワンセグ放送の映像信号が入力される。画像処理装置１内に組み込まれたこの発明の文字表示領域検出装置の実施の形態１の構成である文字表示領域検出部１０は、連続する所定の複数のフレームからなる映像信号から、その複数のフレームの期間だけ静止して画面に表示される文字情報の文字表示領域を検出し、その複数のフレームに対応する映像画面内における文字表示領域の位置情報を出力する。

次に、文字表示領域検出部１０から出力された上記の複数のフレームに対応する文字表示領域の位置情報と画像処理装置１に入力された映像信号とが文字表示領域加工部２０に入力される。文字表示領域加工部２０は、入力された上記の複数のフレームに対応する文字表示領域の位置情報に基づいて、入力された上記の複数のフレームからなる映像信号の次の複数のフレームからなる映像信号に対して、フレーム単位で文字表示領域内の文字の視認性を向上させるための画像処理加工を施す。具体例としては、例えば、文字の色を文字の背景領域の色の略補色となるように変更することで、文字の視認性を著しく向上させることが可能である。また、文字とその背景領域とのコントラストが低い場合は、ラプラシンアンフィルタを利用して文字のエッジ強調を行うことで、文字の視認性の向上を図ることができる。文字表示領域加工部２０で画像処理加工された映像信号は、画像処理装置１から文字表示領域加工済映像信号として出力される。

以上のように、画像処理装置１に入力されたワンセグ放送の映像信号に対して、連続する所定の複数のフレームからなる映像信号が文字表示領域検出部１０に入力される毎に、次々と文字表示領域検出部１０で検出されたその複数のフレームに対応する文字表示領域の位置情報が文字表示領域検出部１０から出力され、文字表示領域加工部２０に入力される。文字表示領域加工部２０では、文字表示領域検出部１０からその複数のフレームに対応する文字表示領域の位置情報が出力される毎に、その複数のフレームに対応する映像信号の次の複数のフレームの映像信号に対して、フレーム毎に文字表示領域内の文字の視認性を向上させるための画像処理加工が施され、次々と画像処理加工された映像信号が出力される。

図２は、この発明に係る文字表示領域検出装置の実施の形態１の構成である図１に示す文字表示領域検出部１０の詳細構成図である。なお、図１と同一符号は同一又は相当部分を示すので説明を省略する。

図２において、文字表示領域検出部１０には、連続する所定の複数のフレームからなる映像信号がフレーム単位で順次入力される。文字表示領域検出部１０に入力されたフレーム単位の映像信号は、まず、フレーム信号抽出部１０１に入力され、映像信号からフレーム単位の輝度信号の画像データが抽出される。次に、抽出されたフレーム単位の輝度信号の画像データは、エッジ画像抽出部１０２に入力され、輝度信号からエッジ情報であるエッジ画像データが抽出される。エッジ画像データの抽出には、例えばＳｏｂｅｌフィルタといった一般的なフィルタを用いて輝度勾配を算出する手法が適用できる。算出されたエッジ情報であるエッジ画像データは、この実施の形態の一例では、例えば８ビットでデジタル化されたデータであり、エッジ強度が大きいものほど値が大きく、画像表示すると白くなるものとする。逆に、エッジ強度の値が０の場合は、画像表示すると黒くなるものとする。

さらに、抽出されたエッジ情報であるフレーム単位のエッジ画像データは、静止エッジ画像取得部１０３に入力される。なお、Ａバッファ１０８は、静止エッジ画像取得部１０３から出力された処理画像データを記憶する機能を有している。Ａバッファ１０８に有効データが無ければ、静止エッジ画像取得部１０３は、エッジ画像抽出部１０２から入力されたエッジ画像データをそのままＡバッファ１０８に出力する。Ａバッファ１０８は、静止エッジ画像取得部１０３から出力されたエッジ画像データを記憶する。

ここで、Ａバッファ１０８に記憶された処理画像データが有効データであるか、または、有効データで無いかの意味は、それぞれ、この処理画像データがこれから検出しようとする所定の複数のフレームに対応する文字表示領域の位置情報を得るための処理画像データであるか、それとも、既に文字表示領域の位置情報を出力した一つ前の所定の複数のフレームに対応する処理画像データないしは空データのいずれかであるかということである。

具体的に説明すると、文字表示領域検出部１０が入力された映像信号に対して文字表示領域の検出を開始した時点では、Ａバッファ１０８は空データとなっているため、Ａバッファ１０８に記憶された処理画像データは有効データで無い。また、所定の複数のフレームに対応する文字表示領域の位置情報を出力した直後の時点においても、Ａバッファ１０８に記憶された処理画像データは既に文字表示領域の位置情報を出力した一つ前の所定の複数のフレームに対応する処理画像データであるので、有効データで無い。以上の場合以外では、Ａバッファ１０８には、これから検出しようとする所定の複数のフレームに対応する文字表示領域の位置情報を得るための処理画像データが記憶されているので、Ａバッファ１０８に記憶された処理画像データは有効データである。

ところで、Ａバッファ１０８に有効データがあれば、静止エッジ画像取得部１０３は、エッジ画像抽出部１０２から入力されたフレーム単位のエッジ画像データの値と既にＡバッファ１０８に記憶されているフレーム単位の処理画像データの値とを画像画面内の互いに対応する各画素同士で大小比較する。その比較の結果、画像画面内の画素毎にエッジ画像データの値と処理画像データの値とのうちで小さい方の値を、それぞれの画素の値として、Ａバッファ１０８の対応する各画素について置き換える。

文字表示領域検出部１０には、所定の複数のフレームからなる映像信号が、順次フレーム単位で所定の複数のフレームの数だけ入力されるので、上記の画像画面内の互いに対応する各画素同士での大小比較と、Ａバッファ１０８の対応する各画素についての置き換えは、所定の複数のフレームの数から１を引いた回数だけ繰り返される。

以上のようにして、連続する所定の複数のフレームに対応する、その複数のフレーム数のエッジ画像データのうちで、画素毎に最小となる値がＡバッファ１０８に記憶される。その結果、エッジ画像データの画素毎の最小値をＡバッファ１０８に残すことにより、Ａバッファ１０８に記憶されたエッジ画像画面の各画素においては、動きのある物体のエッジ強度の値は残らず、文字列のようにほとんど動かない表示を構成する画素のエッジ強度の値があまり変わらずに比較的大きな値を維持することから、残ることとなる。そこで、以下では、Ａバッファ１０８に残されたエッジ強度の最小値を有する画素から構成された画像データを静止エッジ画像データと呼ぶものとする。

次に、所定の複数のフレームの数から１を引いた回数だけ、大小比較と置き換えとが繰り替えされた後に、Ａバッファ１０８に記憶された静止エッジ画像データは、２値化部１０４に入力される。２値化部１０４では、２値化処理により、所定の閾値α以上のエッジ強度を有する画素だけが”１”となり、所定の閾値α未満のエッジ強度を有する画素は”０”が割り当てられて、２値化エッジ画像データとして、Ａバッファ１０８に出力される。なお、ここでは、所定の閾値αの値は、前もって設定されているものとする。所定の閾値αの設定にあたっては、例えば、文字情報が表示された実際のワンセグ放送の番組の映像信号を所定量サンプリングしておき、この映像信号を用いて所望の静止エッジのみが２値化されるように閾値αの値を最適化して設定すれば良い。また、２値化処理を正論理で割り当てるようにしたので、所定の閾値以上のエッジ強度を有する画素に”１”を割り当てたが、負論理で割り当てるようにしても良いのは言うまでも無い。

次に、文字判定部１０５では、Ａバッファ１０８に記憶された２値化エッジ画像データが入力され、その２値化エッジ画像データが構成する２値化エッジ画像画面のデータ分布から、”１”が密集する領域を抽出し、文字表示領域と判定する。具体的な方法としては、一般的によく採用される多数決判定法が適用でき、例えば、この２値化エッジ画像画面を水平方向と垂直方向に関して４画素×４画素の画素ブロックに分割し、各画素ブロック内での”１”である画素数が所定の閾値β以上であるか否かにより、画素ブロック単位で判定を行うことができる。各画素ブロック内での”１”である画素数が所定の閾値βよりも大きいか等しい場合は、当該画素ブロックは文字を含むと判定し、当該画素ブロックを構成する全ての画素の値を、あらためて文字表示領域であることを示す”１”に置き換える。このようにして分割された全ての画素ブロックについて判定されて得られた文字表示領域の領域画像画面を構成する領域画像データは、Ｂバッファ１０９に出力される。Ｂバッファ１０９は、この領域画像画面を構成する領域画像データを記憶する。

なお、以上では、Ｂバッファ１０９に、静止エッジ画像画面の全ての画素に対応する領域画像データを保持するようにしたが、静止エッジ画像画面は画素ブロックに分割されているので、文字表示領域である（”１”）かないしは否（”０”）かを示す画素ブロック単位で代表させた画素ブロック単位のデータのみをＢバッファ１０９に記憶させるようにしても良い。その場合は、Ｂバッファ１０９の記憶容量を少なくすることができる。

次に、Ｂバッファ１０９に記憶された領域画像データは、判定結果補正部１０６に入力される。判定結果補正部１０６では、画像画面に表示される有意な文字列は縦長ではなく横長の領域を占めることが多いことから、水平垂直の両方向に文字表示領域と判定された画素ブロックが連続しないような孤立画素ブロックを文字表示領域では無いとみなして除去したり、文字表示領域と判定された画素ブロックの並びに穴明きがあれば、その穴明きに相当する画素ブロックを文字表示領域とみなして穴埋めを行う。

具体的には、画像処理において一般的な膨張処理や収縮処理、さらにはラベリング処理といった手法を用いる。ラベリング処理を実施することにより、文字表示領域と判定された画素ブロックについて、各画素ブロックが連接しているものを１つの島と考え、島の個数及びそれらの占有面積を算出し、所定の面積よりも小さい島については文字表示領域では無いと判定することもできる。

判定結果補正部１０６で補正された補正後の領域画像データは、その補正結果がＢバッファ１０９に記憶される。

次に、矩形整形部１０７では、Ｂバッファ１０９に記憶された補正後の領域画像データが入力されて、次段の文字表示領域加工部２０での画像処理加工が実施しやすいように、補正後の領域画像データに対応する領域画像画面での文字表示領域を外周が最小となる矩形領域となるように例えば膨張処理を施して整形し、その位置情報を算出する。

具体的には、矩形整形部１０７では、Ｂバッファ１０９から入力された補正後の領域画像データの領域画像画面を走査し、判定結果補正部１０６で行われたラベリング処理の結果を用いて、同じラベルを付されている文字表示領域と判定された画素ブロックの島についてその水平垂直各方向の最大値及び最小値を検出することで、島の外周が最小となる矩形領域の位置情報を算出できる。ここで算出する文字表示領域の位置情報としては、文字表示領域の左上及び右下の画素ブロックアドレス情報、あるいは、画像画面の画素位置として変換済の画素アドレス情報である。

矩形整形部１０７で算出された文字表示領域の位置情報は、文字表示領域加工部２０での画像処理加工に使用されるが、文字表示領域検出部１０から所定の複数のフレームに対応する文字表示領域の位置情報が出力される毎に、その複数のフレームに対応する映像信号の次の複数のフレームの映像信号に対して、フレーム毎に文字表示領域内の文字の視認性を向上させるための画像処理加工が施され、次々と画像処理加工された映像信号が出力される。

従って、文字表示領域検出部１０で検出された文字表示領域内の文字に対する画像処理加工は、その検出に使用された複数のフレームでは無く、時間的に後続する次の複数のフレームに対して施され反映されることとなる。この反映フレームの遅延時間は、所定の複数のフレームのフレーム数に依存する。例えば、携帯電話等の携帯端末で受信可能なワンセグ放送であれば、動作フレーム周波数が１５ｆｐｓであるため、所定の複数のフレームのフレーム数が５フレームであるとすれば、反映されるまでの遅延時間は０．４秒程度である。ワンセグ放送のようなテレビジョン放送の番組で表示される文字表示は数秒間程度は継続して静止表示されるのが通常であり、その文字表示を判読する上では０．４秒程度の遅延時間は実用上問題とならない。

以上では、図１に示す画像処理装置１の構成、及び、図２に示す文字表示領域検出部１０の構成を中心にして、この発明に係る文字表示領域検出装置の実施の形態１について説明したが、以下では、具体的に、連続する所定の複数のフレームの画像を用いて、この発明に係る文字表示領域検出装置の実施の形態１の構成である文字表示領域検出部１０の動作を説明する。なお、ここでは、所定の複数のフレームのフレーム数が４つの場合を例に説明する。

図３は、文字表示領域検出部１０のうちのフレーム信号抽出部１０１から２値化部１０４までの動作を説明するための画像説明図である。図３において、（ａ−１）、（ａ−２）、（ａ−３）、及び、（ａ−４）は、それぞれ順に、文字表示領域検出部１０に入力された映像信号からフレーム信号抽出部１０１でフレーム単位で抽出された輝度信号に関する１フレーム目の画像、２フレーム目の画像、３フレーム目の画像、及び、４フレーム目の画像を示している。

図３の（ａ−１）、（ａ−２）、（ａ−３）、及び、（ａ−４）の４フレームの画像においては、サッカー選手、サッカーボール、三角形状のゴール、画面左上のスコアを示す文字表示、画面右上の「もじ５」なる文字表示が適宜見られる。具体的には、４フレームの画像のそれぞれにおいては、サッカー選手とサッカーボールの位置が移動している。また、画面左上のスコアを示す文字表示は、（ａ−１）のフレームと（ａ−２）のフレームとでは表示されているが、（ａ−３）のフレームと（ａ−４）のフレームとでは消えている。さらに、三角形状のゴールは、（ａ−１）のフレームと（ａ−２）フレームと（ａ−３）のフレームとでは静止しているが、（ａ−４）のフレームにおいて、右下から左上の斜め方向に三角形状の一辺に沿って移動している。以上に対して、画面右上の「もじ５」なる文字表示のみは、４フレームのそれぞれにおいて静止して表示されている。

フレーム信号抽出部１０１には、ワンセグ放送の映像信号がフレーム単位で順次入力されるが、フレーム信号抽出部１０１からは、まずは、図３の（ａ−１）の１フレーム目の画像が出力される。（ａ−１）の１フレーム目の画像は、エッジ画像抽出部１０２に入力され、図３の（ｂ−１）の１フレーム目のエッジ画像がエッジ画像抽出部１０２から出力される。

次に、図３の（ｂ−１）の１フレーム目のエッジ画像は、静止エッジ画像取得部１０３に入力される。その際、文字領域の検出を開始した時点であることからＡバッファ１０８に有効データが無いので、静止エッジ画像取得部１０３は、（ｂ−１）の１フレーム目のエッジ画像のデータをそのままＡバッファ１０８に出力する。

フレーム信号抽出部１０１からは、さらに図３の（ａ−２）の２フレーム目の画像が出力される。（ａ−２）の２フレーム目の画像は、エッジ画像抽出部１０２に入力され、図３の（ｂ−２）の２フレーム目のエッジ画像がエッジ画像抽出部１０２から出力される。

次に、図３の（ｂ−２）の２フレーム目のエッジ画像は、静止エッジ画像取得部１０３に入力されるが、その際、Ａバッファ１０８には既に（ｂ−１）の１フレーム目のエッジ画像のデータが記憶されており、Ａバッファ１０８には有効データがある。従って、静止エッジ画像取得部１０３は、エッジ画像抽出部１０２から入力された（ｂ−２）の２フレーム目のエッジ画像のデータの値と既にＡバッファ１０８に記憶されている（ｂ−１）の１フレーム目のエッジ画像のデータの値とを画像画面内の互いに対応する各画素同士で大小比較する。その比較の結果、画像画面内の画素毎に小さい方の値を、それぞれの画素の値として、Ａバッファ１０８の対応する各画素について置き換えた結果が、図３の（ｃ−１）の比較結果画像である。（ｂ−１）の１フレーム目のエッジ画像と（ｂ−２）の２フレーム目のエッジ画像とではサッカー選手が移動しているので、（ｃ−１）の比較結果画像においては、サッカー選手に対応する部分のみが消えている。

以下同様に、フレーム信号抽出部１０１からは、さらに図３の（ａ−３）の３フレーム目の画像が出力される。（ａ−３）の３フレーム目の画像は、エッジ画像抽出部１０２に入力され、図３の（ｂ−３）の３フレーム目のエッジ画像がエッジ画像抽出部１０２から出力される。

次に、図３の（ｂ−３）の３フレーム目のエッジ画像は、静止エッジ画像取得部１０３に入力されるが、Ａバッファ１０８には既に（ｃ−１）の比較結果画像が記憶されており、Ａバッファ１０８には有効データがある。従って、静止エッジ画像取得部１０３は、エッジ画像抽出部１０２から入力された（ｂ−３）の３フレーム目のエッジ画像のデータの値と既にＡバッファ１０８に記憶されている（ｃ−１）の比較結果画像のデータの値とを画像画面内の互いに対応する各画素同士で大小比較する。その比較の結果、画像画面内の画素毎に小さい方の値を、それぞれの画素の値として、Ａバッファ１０８の対応する各画素について置き換えた結果が、図３の（ｃ−２）の比較結果画像である。（ｂ−２）の２フレーム目のエッジ画像と（ｂ−３）の３フレーム目のエッジ画像とではさらにサッカーボールが移動するとともに、画面左上のスコアを示す文字表示が消えているので、（ｃ−２）の比較結果画像においては、サッカーボールに対応する部分と画面左上のスコアを示す文字表示に対応する部分とが消えている。

以下同様に、フレーム信号抽出部１０１からは、さらに図３の（ａ−４）の４フレーム目の画像が出力される。（ａ−４）の４フレーム目の画像は、エッジ画像抽出部１０２に入力され、図３の（ｂ−４）の４フレーム目のエッジ画像がエッジ画像抽出部１０２から出力される。

次に、図３の（ｂ−４）の４フレーム目のエッジ画像は、静止エッジ画像取得部１０３に入力されるが、Ａバッファ１０８には既に（ｃ−２）の比較結果画像が記憶されており、Ａバッファ１０８には有効データがある。従って、静止エッジ画像取得部１０３は、エッジ画像抽出部１０２から入力された（ｂ−４）の４フレーム目のエッジ画像のデータの値と既にＡバッファ１０８に記憶されている（ｃ−２）の比較結果画像のデータの値とを画像画面内の互いに対応する各画素同士で大小比較する。その比較の結果、画像画面内の画素毎に小さい方の値を、それぞれの画素の値として、Ａバッファ１０８の対応する各画素について置き換えた結果が、図３の（ｃ−３）の比較結果画像である。（ｂ−３）の３フレーム目のエッジ画像と（ｂ−４）の４フレーム目のエッジ画像とではさらに三角形状のゴールが右下から左上の斜め方向に三角形状の一辺に沿って移動したので、（ｃ−３）の比較結果画像においては、三角形状のゴールの大部分が消えている。なお、右下から左上の斜め方向の三角形状の一辺の一部が消えないで残っているのは、三角形状の辺に沿って移動したことから残った一辺の一部はみかけ上静止しているように判定されたためである。以上のように、４つのフレームに亘って、移動せずに静止していたエッジのみが（ｃ−３）の比較結果画像に残ることとなる。

以上に説明したように、この実施の形態の一例では文字表示領域の検出に使用するフレーム数を４としたので、画像画面内の互いに対応する各画素同士での大小比較と、Ａバッファ１０８の対応する各画素についての置き換えは、４から１を引いた回数である３回繰り返される。すなわち、１回目の（ｃ−１）の比較結果画像の算出、２回目の（ｃ−１）の比較結果画像の算出、及び、３回目の（ｃ−３）の比較結果画像の算出が行われ、都合、３回の大小比較と置き換えが繰り返されている。

次に、図３の（ｃ−３）の比較結果画像は、２値化部１０４に入力される。２値化部１０４では、所定の閾値α以上のエッジ強度を有する画素がだけが”１”となり、所定の閾値α未満のエッジ強度を有する画素は”０”となり、２値化部１０４からは図３の（ｄ）の２値化エッジ画像が出力される。

図４は、文字表示領域検出部１０のうちの文字判定部１０５から矩形整形部１０７までの動作を説明するための画像説明図である。ここで、図４（ａ）は、文字判定部１０５で分割された画素ブロック毎に文字表示領域であるか否かの判定が行われた領域画像である。図４（ｂ）は、判定結果補正部１０６で文字表示領域の補正が為された補正後の領域画像である。図４（ｃ）は、矩形整形部１０７で文字表示領域を外周が最小となる矩形領域となるように膨張処理を施して整形した矩形整形後の領域画像である。

図３の（ｄ）の２値化エッジ画像は、Ａバッファ１０８に記憶されているが、文字判定部１０５は、Ａバッファ１０８から２値化エッジ画像を入力し、例えば、４画素×４画素の画素ブロックにこの２値化エッジ画像を分割する。次に、各画素ブロック内での”１”である画素数が所定の閾値βよりも大きいか等しい場合は、当該画素ブロックは文字を含むと判定し、当該画素ブロックを構成する全ての画素の値が、あらためて文字表示領域であることを示す”１”に置き換えられ、図４（ａ）に示す領域画像がＢバッファ１０９に出力される。図４（ａ）の領域画像においては、画面右上の「もじ５」なる文字表示に対応する画素ブロックの複数箇所と、画面中央付近の右下から左上への斜辺に対応する互いに孤立した２つの画素ブロックとが、文字表示領域であると判定された領域を示している。

次に、Ｂバッファ１０９に記憶された領域画像のデータは、判定結果補正部１０６に入力される。判定結果補正部１０６では、文字表示領域と判定された画素ブロックが連続しないような孤立画素ブロックを文字表示領域では無いとみなすので、図４（ａ）の領域画像では存在していた画面中央付近の右下から左上への斜辺に対応する互いに孤立した２つの画素ブロックは削除される。図４（ｂ）に示す領域画像は、判定結果補正部１０６で以上のような補正が為された補正後の領域画像である。図４（ｂ）の領域画像においては、画面中央付近の右下から左上への斜辺に対応する互いに孤立した２つの画素ブロックが文字表示領域ではなくなっている。

判定結果補正部１０６から出力された補正後の領域画像は、Ｂバッファ１０９に記憶される。次に、矩形整形部１０７は、Ｂバッファ１０９に記憶された補正後の領域画像のデータを入力し、文字表示領域を外周が最小となる矩形領域となるように膨張処理を施して整形する。図４（ｃ）は、画面右上の「もじ５」なる文字表示に対応する文字表示領域を矩形領域となるように膨張処理を施して整形された新たな文字表示領域の領域画像を示している。矩形整形部１０７は、当該領域画像に示された文字表示領域の位置情報として、具体的には、例えば、文字表示領域の左上及び右下の画素ブロックアドレス情報、あるいは、画像画面の画素位置として変換済の画素アドレス情報を出力する。

この発明に係る文字表示領域検出装置の実施の形態１の構成である文字表示領域検出部１０は、以上のように構成されているので、文字が小さく文字数が少ない場合であっても、文字表示領域がコンパクトな構成で検出できるという効果がある。

また、以上では、連続する所定の複数のフレームの映像信号から文字表示領域を検出する場合について説明したが、所定の複数のフレームは連続していることは必須では無く、例えば、１フレーム飛ばしの所定の複数のフレームの映像信号から文字表示領域を検出するようにしても同様な効果が得られる。その場合は、検出された文字表示領域を用いて画像処理加工を施すことがフレームに反映されるまでの遅延時間が例えばワンセグ放送の場合には０．８秒程度と連続する場合の２倍となるが、文字表示を判読する上では０．８秒程度の遅延時間は実用上問題とならない範囲である。

また、この実施の形態１では、エッジ情報抽出部１０２での処理実行後に直接次段の静止エッジ画像取得部１０３へと入力するものとしたが、いったんメモリ等バッファに蓄積し、バッファから読み出して次段へと入力するような構成としても構わないし、いったんＡバッファ１０８やＢバッファ１０９に記憶する構成としている部分でも、直接次段に出力するような構成としてもかまわない。

またこの実施の形態１では、Ａバッファ１０８とＢバッファ１０９を別々に用意するような構成としているが、必要十分な容量のメモリを用意し、一つのメモリを共用するような構成としても構わない。

実施の形態２．
この発明に係る文字表示領域検出装置の実施の形態１の構成である文字表示領域検出部１０では、Ａバッファ１０８に残されたエッジ強度の最小値を有する画素から構成された静止エッジ画像データに対して、２値化部１０４で２値化処理を施す際に、所定の閾値αの値を前もって設定するようにした。しかし、テレビジョン放送の番組の文字情報の表示状態によっては、文字情報と背景画面とのコントラストが大きく変動する場合もあり、前もって設定した固定の閾値αでは、２値化処理を施す際に、検出すべき文字情報のエッジを欠落させてしまうことが起こり得る。そこで、静止エッジ画像データのヒストグラムを作成し、ヒストグラムの曲線に基づいて２値化処理に用いる閾値を固定とせず変動可能に設定するようにすれば、文字表示領域の検出精度を向上させることができる。さらに、静止エッジ画像データの画像画面を複数の領域に分割した上で、それぞれの領域毎にヒストグラムを作成し、それぞれの領域毎に２値化処理の閾値を決定するようにすれば、さらに文字表示領域の検出精度を向上させることが可能となる。

図５は、この発明に係る文字表示領域検出装置の実施の形態２の構成である文字表示領域検出部２０の構成図である。なお、実施の形態２の文字表示領域検出部２０は、実施の形態１の文字表示領域検出部１０とは静止エッジ画像データの２値化処理が異なるだけである。実施の形態１の文字表示領域検出部１０の２値化部１０４は、前もって設定した固定の閾値αを用いて２値化処理を行うのに対し、この実施の形態２の文字表示領域検出部２０の２値化部２０４は、静止エッジ画像データのヒストグラムの曲線に基づいて変動可能に設定された閾値を用いて２値化処理を行うように構成されている。なお、図２と同一符号は同一又は相当部分を示すので説明を省略する。

図６は、実施の形態２の文字表示領域検出部２０の２値化部２０４の構成を説明するための構成説明図である。２値化部２０４には、Ａバッファ１０８に記憶された静止エッジ画像データが入力され、２値化処理が施されて、２値化エッジ画像データが出力される。

図６を用いて、２値化部２０４の構成と動作について以下に説明する。２値化部２０４に入力された静止エッジ画像データは、まず、領域分割部２０４１に入力されて、静止エッジ画像画面が複数の領域に分割される。

一般的にテレビジョン放送の番組の画面で表示される文字は、画面中央に配置されることは少なく、画面の４隅に配置されることが多く、例えばスポーツ中継であれば、中継している試合のスコアや他会場での試合結果といった文字表示が配置される。従って、画面の位置によっては、文字表示の有る領域と無い領域が生じる。文字表示の有る領域では、エッジ情報が密集することから、その近辺のエッジ情報の平均値は大きくなるが、文字表示の無い領域ではエッジ情報が少ないためエッジ情報の平均値も小さくなる。エッジ情報の平均値の大きい領域とエッジ情報の平均値の小さい領域とを画面全体に対して１つ設定された閾値で２値化処理を施すと、本来のエッジ情報が欠落したり、エッジで無かったところをエッジ情報と誤認識して、文字表示領域の検出精度が制約される恐れがある。そこで、静止エッジ画像画面を複数の領域に分割し、その領域毎に２値化処理に用いる閾値を設定するようにすれば、文字表示領域の検出精度の向上を図ることができる。

領域分割部２０４１で複数の領域に分割された静止エッジ画像データは、ヒストグラム作成部２０４２と平均値算出部２０４３とに入力される。

ヒストグラム作成部２０４２は、複数の領域に分割された静止エッジ画像データに基づいて複数の領域毎にヒストグラムを作成する。複数の領域毎のヒストグラムは移動平均算出部２０４４に入力され、ヒストグラムの曲線の変化がなだらかにされる。

一方、平均値算出部２０４３は、複数の領域に分割された静止エッジ画像データに基づいて複数の領域毎に平均値を算出する。

移動平均算出部２０４４でヒストグラムの曲線がなだらかとなった複数の領域毎のヒストグラムデータと平均値算出部２０４３で算出された複数の領域毎の平均値とが、変化点算出部２０４５に入力される。変化点算出部２０４５では、移動平均算出部２０４４から入力されたヒストグラムの曲線の変化点を算出する。

変化点算出部２０４５で算出された複数の領域毎の変化点のエッジ強度の値は、閾値Ｔ_ｎ決定部２０４６に入力され、閾値Ｔ_ｎ決定部２０４６では、このそれぞれの変化点のエッジ強度の値が２値化処理に用いる閾値Ｔ_ｎ（ｎは領域符号でａ，ｂ，ｃ，ｄ・・・と分割した領域の個数だけある）であるとする。各々の領域において、変化点算出部２０４５が算出した変化点が複数存在する場合は、下限値に近い値を閾値Ｔ_ｎと設定し、変化点が無い場合は前もって設定しておいた固定値αを閾値Ｔ_ｎとして確定する。

次に、複数の領域に分割された静止エッジ画像データと閾値Ｔ_ｎ決定部２０４６で決定された複数の領域毎の閾値Ｔ_ｎとが２値化処理部２０４７に入力され、複数の領域毎に、それぞれの分割された静止エッジ画像データに対してそれぞれの閾値Ｔ_ｎを用いて２値化処理が施され、複数の領域に亘って結合されて、画面全体についての２値化エッジ画像データとして出力される。

図７は、２値化部２０４の動作を詳細に説明するための画像説明図である。図７（ａ）は、テレビジョン放送の番組がスポーツ中継の場合を例として、文字情報が表示された野球中継の画面の静止エッジ画像の一例を示した画像画面図である。また、図７（ｂ）は、図７（ａ）の画像画面を４つの領域７ａ、７ｂ、７ｃ、及び、７ｄに分割した場合の画像画面図である。なお、図７（ａ）及び図７（ｂ）には、便宜上文字情報に関わる表示しか記載していないが、実際には映像情報が画面全体にある。

また、図８は、分割された静止エッジ画像の領域において、ヒストグラム作成部２０４２で作成され、移動平均算出部２０４４での処理によりなだらかとなったヒストグラムの例である。図８（ａ）は、図７（ｂ）に示す領域７ｂのヒストグラムである。また、図８（ｂ）は、図７（ｂ）に示す領域７ｃのヒストグラムである。なお、図７では図示していないが、領域７ａ及び領域７ｄについても、ヒストグラム作成部２０４２でそれぞれのヒストグラムが作成される。

以下では、図７と図８を用いて、この発明に係る実施の形態２の文字表示領域検出部２０のうち、図６に示す２値化部２０４の動作について詳細に説明する。

図７（ａ）に示す野球中継の画面の静止エッジ画像の一例では、画像画面の左上には中継されている野球のスコアを示す文字表示が、画像画面の中央下部には他球場での試合結果の文字表示がある。

図７（ａ）に示す静止エッジ画像のデータが、２値化部２０４の領域分割部２０４１に入力される。領域分割部２０４１では、入力された静止エッジ画像が図７（ｂ）に示すように、領域７ａ、７ｂ、７ｃ、及び、７ｄの４つの領域に分割される。この例では、領域７ｂには文字情報が無く、領域７ｃと領域７ｄとにまたがって他球場での試合結果の文字表示がある。領域７ａには、野球のスコアを示す文字表示がある。

次に、領域７ａ、７ｂ、７ｃ、及び、７ｄの４つの領域に分割された静止エッジ画像データは、ヒストグラム作成部２０４２と平均値算出部２０４３とに入力される。ヒストグラム作成部２０４２では、領域７ａ、７ｂ、７ｃ、及び、７ｄの４つの領域毎にヒストグラムが作成され、移動平均算出部２０４４でなだらかにするための移動平均処理が施される。図８（ａ）は、領域７ｂに対応した静止エッジ画像データについて作成され、移動平均処理が施されたヒストグラムの例で、横軸はエッジ強度であり、縦軸は画素数を表している。また、平均値算出部２０４３では、領域７ａ、７ｂ、７ｃ、及び、７ｄの４つの領域毎にそれぞれ静止エッジ画像の画素の値の平均値Ｖ_ａ、Ｖ_ｂ、Ｖ_ｃ、及び、Ｖ_ｄが算出される。

次に、領域７ａ、７ｂ、７ｃ、及び、７ｄのそれぞれのヒストグラムデータと平均値Ｖ_ａ、Ｖ_ｂ、Ｖ_ｃ、及び、Ｖ_ｄは、変化点算出部２０４５に入力される。

変化点算出部２０４５の変化点を算出する方法について、図８（ａ）に示す領域７ｂのヒストグラムと図８（ｂ）に示す領域７ｃのヒストグラムを用いて説明する。

図８（ａ）において、エッジ強度が”２５５”のものからヒストグラムの分布に従って領域７ｂの画像画面の総画素数のうちの一定割合を占める画素数が含まれる範囲としてＰ_ｂ範囲８ｒ１、Ｑ_ｂ範囲８ｒ２、Ｒ_ｂ範囲８ｒ３、および、Ｓ_ｂ範囲８ｒ４を決める。図８（ａ）において、エッジ強度は８ビットのデータで表され、０から２５５の整数となっている。Ｐ_ｂ範囲８ｒ１はエッジ強度がＰ_ｂから２５５の範囲を意味し、Ｐ_ｂの値はＰ_ｂ範囲８ｒ１の画素数が総画素数の１６分の１となるように決められている。また、Ｑ_ｂ範囲８ｒ２はエッジ強度がＱ_ｂから２５５の範囲を意味し、Ｑ_ｂの値はＱ_ｂ範囲８ｒ２の画素数が総画素数の３２分の１となるように決められている。同様に、Ｒ_ｂ範囲８ｒ３はエッジ強度がＲ_ｂから２５５の範囲を意味し、Ｒ_ｂの値はＲ_ｂ範囲８ｒ３の画素数が総画素数の６４分の１となるように決められている。さらに、Ｓ_ｂ範囲８ｒ４はエッジ強度がＳ_ｂから２５５の範囲のを意味し、Ｓ_ｂの値はＳ_ｂ範囲８ｒ４の画素数が総画素数の１２８分の１となるように決められている。

図８（ｂ）に示す領域７ｃの画像画面の総画素数のうちの一定割合を占める画素数が含まれる範囲である、Ｐ_ｃ範囲８ｒ５、Ｑ_ｃ範囲８ｒ６、Ｒ_ｃ範囲８ｒ７、及び、Ｓ_ｃ範囲８ｒ８についても、上記と同様にして決められている。

領域７ａ及び７ｄについても、領域７ｂと同様に範囲設定がされ、これらの範囲設定をまとめて表すと、Ｑ_ｎの値はＱ_ｎ範囲の画素数が総画素数の３２分の１となるように決められ，Ｒ_ｎ範囲はエッジ強度がＲ_ｎから２５５の範囲を意味し、Ｒ_ｎの値はＲｎ範囲の画素数が総画素数の６４分の１となるように決められ、さらに、Ｓｎ範囲はエッジ強度がＳ_ｎから２５５の範囲のを意味し、Ｓ_ｎの値はＳ_ｎ範囲の画素数が総画素数の１２８分の１となるように決められている（ｎは領域符号でａ，ｂ，ｃ，ｄと分割した領域の個数だけある）。

次に、図８（ａ）において、矢印８ａは平均値算出部２０４３で算出された領域７ｂの静止エッジ画像データの平均値Ｖ_ｂの位置を示している。領域７ｂには文字表示が無いため、エッジが少なく、エッジ情報の平均値Ｖ_ｂの値も小さくなっている。また、図８（ｂ）において、矢印８ｃは平均値算出部２０４３で算出された領域７ｃの静止エッジ画像データの平均値Ｖ_ｃの位置を示している。領域７ｃには他球場での試合結果の文字表示が有るため、エッジ情報が密集することから、エッジ情報の平均値Ｖ_ｃの値も領域７ｂの場合に比べると大きくなっている。

以上のもとで、図８（ａ）に示すヒストグラムについて、平均値算出部２０４３で算出された平均値Ｖ_ｂよりも大きく最も近い範囲はＰ_ｂ範囲８ｒ１であることから、平均値Ｖ_ｂからＰ_ｂ範囲８ｒ１の下限値Ｐ_ｂまでの間に存在し、ヒストグラムの曲線の傾きが負からゼロを通って正へと変化する点を求める。この点が矢印８ｂで示す変化点である。すなわち、ヒストグラムの曲線の傾きが負からゼロを通って正へと変化する上で、ゼロとなる矢印８ｂの示す変化点はまさしくヒストグラムの曲線の極小をとる点である。

同様に、図８（ｂ）に示すヒストグラムについて、平均値算出部２０４３で算出された平均値Ｖ_ｃよりも大きく最も近い範囲はＰ_ｃ範囲８ｒ５であることから、平均値Ｖ_ｃからＰ_ｃ範囲８ｒ５の下限値Ｐ_ｃまでの間に存在し、ヒストグラムの曲線の極小をとる点を求める。この点が矢印８ｄで示す変化点である。

次に、閾値Ｔ_ｎ決定部では、領域ａ、ｂ、ｃ、及び、ｄのそれぞれについて、変化点算出部２０４５で算出した変化点が複数存在する場合は、その中で一番小さい値を、変化点が無かった場合は前もって設定しておいた閾値αを、２値化処理に用いるそれぞれの領域の閾値Ｔ_ａ、Ｔ_ｂ、Ｔ_ｃ、及び、Ｔ_ｄとして決定する。

次に、２値化処理部２０４７では、領域ａ、ｂ、ｃ、及び、ｄに分割されたそれぞれの静止エッジ画像データに対して、それぞれの領域の閾値Ｔ_ａ、Ｔ_ｂ、Ｔ_ｃ、及び、Ｔ_ｄを用いて、それぞれの領域で分割された静止エッジ画像データが閾値Ｔ_ｎ以上のものは”１”とし、閾値Ｔ_ｎ未満のものは”０”とする、２値化処理を実行する。

以上のように、静止エッジ画像データのヒストグラムを作成し、ヒストグラムの曲線に基づいて２値化処理に用いる閾値を固定とせず変動可能に設定するようにしたので、文字表示領域の検出精度を著しく向上させることができる。

さらに、静止エッジ画像データの画像画面を複数の領域に分割した上で、それぞれの領域毎にヒストグラムを作成し、それぞれの領域毎に２値化処理の閾値を決定するようにしたので、領域のエッジ情報の密集度に応じて２値化処理の閾値を設定することができ、さらに文字表示領域の検出精度を向上させることが可能となる。

なお、領域分割部２０４１で入力された静止エッジ画像データを領域分割する際に、上記では、等分に４分割する場合について説明したが、テレビジョン放送の番組によっては文字表示の配置は様々であることから、特に等分に限る必要は無く、また、分割する領域数についても４分割に限られるわけでないことは言うまでも無い。

実施の形態３．
実施の形態１の文字判定部１０５でのブロック分割は、単純に２値化エッジ画像の画像画面のいずれかの画面隅から画素数の計数を開始し、固定サイズの画素ブロックに分割していた。しかしながら、文字が表示される位置によっては、例えば１つの文字が複数の画素ブロックにまたがって配置されことがあり、このような場合にはエッジ情報の密集度がその複数の画素ブロックに分散することになり、結果として文字と判定することが困難となる場合があり得る。そこで、Ａバッファ１０８に記憶された２値化エッジ画像データが水平あるいは垂直あるいはその両方向で初めて"１"となる画素アドレスを画素ブロック分割の開始点とし、さらに、２値化エッジ画像データの垂直方向での連続性を分析して、最初に分析のために走査して取得した"１"が連続する長さ、あるいはいくつかの走査により得られた"１"が連続する長さの平均値を、垂直方向の画素ブロックのサイズとすることで、画素ブロックへの分割によるエッジ情報の密集度の分散を抑制することが可能となる。

図９は、この発明に係る文字表示領域検出装置の実施の形態３の構成である文字表示領域検出部３０の構成図である。なお、実施の形態３の文字表示領域検出部３０は、実施の形態１の文字表示領域検出部１０とは文字表示領域の判定処理が異なるだけである。実施の形態１の文字表示領域検出部１０の文字判定部１０５は、文字表示領域の判定処理において、２値化エッジ画像データを画素ブロックに分割するに際し、単純に２値化エッジ画像の画像画面のいずれかの画面隅から画素数の計数を開始し、固定サイズの画素ブロックに分割していたのに対し、この実施の形態３の文字表示領域検出部３０の文字判定部２０５は、２値化エッジ画像データが水平あるいは垂直あるいはその両方向で初めて"１"となる画素の画素アドレスを画素ブロック分割の開始点とし、さらに、２値化エッジ画像データの垂直方向での連続性を分析して、最初に分析のために走査して取得した"１"が連続する長さ、あるいはいくつかの走査により得られた"１"が連続する長さの平均値を、垂直方向の画素ブロックのサイズとするように構成されている。

なお、図９に示す実施の形態３の文字表示領域検出部３０において、実施の形態１の構成である２値化部１０４に代えて、実施の形態２の２値化部２０４であっても同様の効果が得られるのは言うまでも無い。

さらに、図９において、図２及び図５と同一符号は同一又は相当部分を示すので説明を省略する。

図１０は、実施の形態３の文字表示領域検出部３０の文字判定部３０５の構成を説明するための構成説明図である。文字判定部３０５には、Ａバッファ１０８に記憶された２値化エッジ画像データが入力され、画素ブロック単位での文字表示領域を判定されて得られた領域画像データが出力される。

図１０を用いて、文字判定部３０５の構成と動作について以下に説明する。文字判定部３０５に入力された２値化エッジ画像データは、ブロック分割開始位置決定部３０５１と垂直方向画素ブロックサイズ決定部３０５２とに、まず、入力される。

ブロック分割開始位置決定部３０５１では、入力される２値化エッジ画像データの画像画面において、２値化エッジ画像データが水平あるいは垂直あるいはその両方向で初めて"１"となる画素の画素アドレスを画素ブロック分割の開始位置として決定する。

また、垂直方向画素ブロックサイズ決定部３０５２では、入力される２値化エッジ画像データの画像画面を分割するに際し、２値化エッジ画像データの垂直方向での連続性を分析して、最初に分析のために走査して取得した"１"が連続する長さ、あるいはいくつかの走査により得られた"１"が連続する長さの平均値を、垂直方向の画素ブロックのサイズとして決定する。この時の画素ブロックのサイズは、必ずしも水平及び垂直方向ともに同じとする必要は無い。

次に、ブロック分割開始位置決定部３０５１で決定された画素ブロック分割の開始位置と垂直方向画素ブロックサイズ決定部３０５２で決定された画素ブロックのサイズが画素ブロック分割部３０５３に入力される。画素ブロック分割部３０５３では、入力された画素ブロック分割の開始位置と画素ブロックのサイズとに基づいて、２値化エッジ画像データの画像画面を画素ブロックに分割する。

多数決処理部３０５４では、画素ブロック分割部３０５３で分割された各々の画素ブロックに対して、それぞれの画素ブロック内での”１”である画素数が所定の閾値β以上であるか否かにより、画素ブロック単位で文字表示領域の判定を行う。各画素ブロック内での”１”である画素数が所定の閾値βよりも大きいか等しい場合は、当該画素ブロックは文字を含むと判定し、当該画素ブロックを構成する全ての画素の値を、あらためて文字表示領域であることを示す”１”に置き換える。このようにして分割された全ての画素ブロックについて判定されて得られた文字表示領域の領域画像画面を構成する領域画像データは、Ｂバッファ１０９に出力される。

図１１は、文字判定部３０５の動作を詳細に説明するための画像説明図である。図１１（ａ）は、文字表示を含む２値化エッジ画像の一例で、「もじ５」の文字表示が画面の右上にある。また、図１１（ｂ）は、実施の形態３の文字表示領域検出部３０の文字判定部３０５において画素ブロック分割した場合の２値化エッジエッジ画像の一例を示す画像画面図である。

図１１（ａ）に示す２値化エッジ画像の一例においては、「文字５」の文字表示は、画素ブロックｂ１１〜ｂ１４の４つの画素ブロックと画素ブロックｃ１１〜ｃ１４の４つの画素ブロックとの合計８つの画素ブロックにまたがっている。このような場合には、エッジ情報の密集度が８つの画素ブロックに分散することとなるので、結果として、文字領域として判定するのが困難となる場合がある。

そこで、実施の形態３の文字表示領域検出部３０の文字判定部３０５において画素ブロック分割する際に、図１１（ｂ）に示す２値化エッジ画像の画素ブロックの分割位置とその画面の右上の「もじ５」の文字表示との配置関係からわかるように、ブロック分割開始位置決定部３０５１が決定した画素ブロック分割の開始位置と垂直方向画素ブロックサイズ決定部３０５２が決定した画素ブロックのサイズを用いて分割されるので、エッジ情報の密集度の分散を抑制することができる。

以上により、実施の形態３の文字表示領域検出部３０の文字判定部３０５では、画素ブロック分割をエッジ情報の密集度に従って適応的に変更するので、文字表示が含まれる画素ブロックの文字表示領域の判定において、判定漏れを削減でき、文字表示領域の検出精度の向上を図ることができる。

実施の形態４．
実施の形態１の判定結果補正部１０６では、文字判定部１０５で文字表示領域の判定が実施され、Ｂバッファ１０９に記憶された領域画像データを入力し、文字表示領域と判定された画素ブロックについてラベリング処理を行い、水平垂直の両方向に文字表示領域と判定された画素ブロックが連続しないような孤立画素ブロックを文字表示領域では無いとみなして除去したり、文字表示領域と判定された画素ブロックの並びに穴明きがあれば、その穴明きに相当する画素ブロックを文字表示領域とみなして穴埋めを行う。さらに、矩形整形部１０７では、判定結果補正部１０６から出力され、Ｂバッファ１０９に記憶された補正後の領域画像データを入力し、文字表示領域を外周が最小となる矩形領域となるように膨張処理を施して整形するようにしている。その際、矩形整形部１０７では、Ｂバッファ１０９から入力された補正後の領域画像データの領域画像画面を走査し、判定結果補正部１０６で行われたラベリング処理の結果を用いて、同じラベルを付されている文字表示領域と判定された画素ブロックの島についてその水平垂直各方向の最大値及び最小値を検出することで、島の外周が最小となる矩形領域の位置情報を算出するようにしている。しかし、一般に、ラベリング処理は演算に時間がかかり、また、回路規模が大きくなるといった難点がある。そこで、文字判定部１０５で文字表示領域の判定が実施され、Ｂバッファ１０９に記憶された領域画像データを補正するに際し、ラベリング処理を使用しないようにするとともに、文字表示領域を外周が最小となる矩形領域となるように膨張処理を施して整形する際にラベリング処理の結果を用いないで済めば、文字表示領域検出の処理時間を短縮できるとともに、回路規模が大きくならないという効果がある。

図１２は、この発明に係る文字表示領域検出装置の実施の形態４の構成である文字表示領域検出部４０の構成図である。なお、実施の形態４の文字表示領域検出部４０は、実施の形態１の文字表示領域検出部１０とは、文字判定部１０５で得られた領域画像データの補正処理と補正後の領域画像データに含まれる文字表示領域を島の外周が最小となる矩形領域とする整形処理とが異なる。実施の形態１の文字表示領域検出部１０では、判定結果補正部１０６での補正処理においてラベリング処理を用い、矩形整形部１０７での整形処理において判定結果補正部１０６で行われたラベリング処理の結果を用いるようにしているのに対し、この実施の形態４の文字表示領域検出部４０では、判定結果補正部４０６ではラベリング処理を用いず、その結果、矩形整形部４０７ではラベリング処理の結果が不要となるように構成されている。

この実施の形態４の文字表示領域検出部４０の判定結果補正部４０６では、文字表示領域の判定が実施され、Ｂバッファ１０９に記憶された領域画像データに対して、膨張処理や収縮処理を行なうが、ラベリング処理は行わない点が、実施の形態１の文字表示領域検出部１０の判定結果補正部１０６と異なる。従って、補正後の領域画像データにおいては、各画素ブロック毎に文字表示領域か否かの判定が為されているだけであり、文字表示領域と判定された画素ブロックの数はわかるが、文字表示領域と判定された領域がいくつあるのかはわからない。このような状態で実施可能な矩形整形処理が必要となる。

図１３は、実施の形態４の文字表示領域検出部４０の矩形整形部４０７の構成を説明するための構成説明図である。矩形整形部４０７には、判定結果補正部４０６からＢバッファ１０９に出力され、Ｂバッファ１０９に記憶された補正後の領域画像データが入力される。

図１３を用いて、矩形整形部４０７の構成と動作について以下に説明する。矩形整形部４０７に入力された補正後の領域画像データは、ブロック領域分割部４０７１に入力される。テレビジョン放送の番組の映像画面に配置される文字表示は、画面内の４隅に多く、かつ、文字表示領域の数は各隅に最大１つ程度である番組が多い。そこで、画面を例えば４つに分割し、各領域に１つの文字表示領域があると想定して、外周が最小となる矩形領域の位置情報を算出する。

次に、ブロック領域分割部４０７１で分割された補正後の領域画像について、有効データ検出部４０７２は、補正後の領域画像の画素ブロックの値を走査し、文字表示領域と判定された画素ブロック（以下では有効ブロックと呼ぶものとする。）の位置情報を検出する。

次に、有効ブロックの位置情報は、最大最小位置算出部４０７３に入力され、分割された領域内の走査がすべて完了した時点で、検出された有効ブロックの位置情報の水平垂直各方向での最大値と最小値とを算出する。ここで算出された位置情報の最大値と最小値とが有効ブロックの矩形領域の左上及び右下の位置情報に相当する。この矩形領域の左上及び右下の位置情報は、画素ブロックが集合して形成された１つの文字表示領域の位置情報と考えることができる。以上のようにして、この矩形整形部４０７は、ラベリング処理を用いることなく、矩形の文字表示領域の位置情報を算出することができる。

図１４は、矩形整形部４０７の動作を詳細に説明するための画像説明図である。図１４（ａ）は、ブロック領域分割部４０７１で、補正後の領域画像データの画像画面を例えば４つの領域に分割した画像画面の一例である。また、図１４（ｂ）は、図１４（ａ）の分割された補正後の領域画像のデータに対して、有効データ検出部４０７２での有効ブロックの位置情報を検出する方法と最大最小位置算出部４０７３での矩形の文字表示領域の位置情報を算出する方法とを説明するための画像画面の一例である。

図１４（ａ）に示すように、矩形整形部４０７に入力された補正後の領域画像データの画像画面は、ブロック領域分割部４０７１で領域１２ａ、１２ｂ、１２ｃ、及び、１２ｄに４分割される。

有効データ検出部４０７２では、図１４（ｂ）に示すように、領域１２ａ、１２ｂ、１２ｃ、及び、１２ｄのそれぞれに対して、画素ブロックの値を走査し、有効ブロックの位置情報が検出される。例えば、図１４（ｂ）の領域１２ａの矢印が示すように横方向に画素ブロックの値が順次走査される。

次に、領域１２ａ、１２ｂ、１２ｃ、及び、１２ｄのすべての走査が完了した時点で、検出された有効ブロックの位置情報の水平垂直方向での最大値及び最小値が算出される。例えば、図１４（ｂ）の領域１２ａにおいては、有効ブロックの矩形領域Ｒａの水平垂直方向での最大値及び最小値は、この有効ブロックの矩形領域Ｒａの左上及び右下の位置情報に相当する。すなわち、この矩形領域Ｒａの左上及び右下の位置情報が、領域１２ａ内の文字表示領域の位置情報である。

図１４（ｂ）に示す領域１２ａにおいては、文字表示領域は領域１２ａ内に収まって存在するが、例えば、図１４（ｂ）の画像画面の下側にある文字表示領域のように、文字表示領域が例えば２つの領域１２ｃと領域１２ｄに分断される場合がある。その場合には、各々の領域での最大値及び最小値の算出が完了した時点で、算出された図１４（ｂ）に示された矩形領域Ｒｃ及び矩形領域Ｒｄの位置情報から、矩形領域Ｒｃ及び矩形領域Ｒｄが分割境界に接しているか否かを判断する。図１４（ｂ）によれば、矩形領域Ｒｃと矩形領域Ｒｄとは、領域１２ｃと領域１２ｄの分割境界で接しているので、矩形領域Ｒｃと矩形領域Ｒｄとを連結した矩形領域の左上及び右下の位置情報が、１つの文字表示領域の位置情報と考えることができる。

実施の形態４の文字表示領域検出部４０の判定結果補正部４０６及び矩形整形部４０７は、以上のように構成されているので、ラベリング処理が不要となり、文字表示領域検出の処理時間を短縮できるとともに、回路規模が大きくならないという効果がある。

この発明に係る文字表示領域検出装置の実施の形態１の構成が組み込まれた画像処理装置の構成図である。この発明に係る文字表示領域検出装置の実施の形態１の構成である図１に示す文字表示領域検出部１０の詳細構成図である。文字表示領域検出部１０のうちのフレーム信号抽出部１０１から２値化部１０４までの動作を説明するための画像説明図である。文字表示領域検出部１０のうちの文字判定部１０５から矩形整形部１０７までの動作を説明するための画像説明図である。この発明に係る文字表示領域検出装置の実施の形態２の構成である文字表示領域検出部２０の構成図である。実施の形態２の文字表示領域検出部２０の２値化部２０４の構成を説明するための構成説明図である。２値化部２０４の動作を詳細に説明するための画像説明図である。分割された静止エッジ画像の領域において、ヒストグラム作成部２０４２で作成され、移動平均算出部２０４４での処理によりなだらかとなったヒストグラムの例である。この発明に係る文字表示領域検出装置の実施の形態３の構成である文字表示領域検出部３０の構成図である。実施の形態３の文字表示領域検出部３０の文字判定部３０５の構成を説明するための構成説明図である。文字判定部３０５の動作を詳細に説明するための画像説明図である。この発明に係る文字表示領域検出装置の実施の形態４の構成である文字表示領域検出部４０の構成図である。実施の形態４の文字表示領域検出部４０の矩形整形部４０７の構成を説明するための構成説明図である。矩形整形部４０７の動作を詳細に説明するための画像説明図である。

符号の説明

１０文字表示領域検出部
２０文字表示領域検出部
３０文字表示領域検出部
４０文字表示領域検出部
１０２エッジ画像抽出部
１０３静止エッジ画像取得部
１０４２値化部
１０５文字判定部
１０６判定結果補正部
１０７矩形整形部
２０４２値化部
３０５文字判定部
４０６判定結果補正部
４０７矩形整形部
２０４１領域分割部
２０４２ヒストグラム作成部
２０４５変化点算出部
２０４６閾値Ｔ_ｎ決定部
２０４７閾値処理部
３０５１ブロック分割開始位置決定部
３０５２垂直方向画素ブロックサイズ決定部
３０５３画素ブロック分割部
３０５４多数決処理部
４０７１ブロック領域分割部
４０７２有効データ検出部
４０７３最大最小位置算出部

Claims

入力される映像の輝度信号からフレーム毎のエッジ画像データを抽出するエッジ画像抽出手段と、
前記エッジ画像抽出手段で抽出されたエッジ画像データのうちで連続する複数のフレームのそれぞれのエッジ画像データに対して画素毎にエッジ強度の大小を比較し、それぞれの画素に対応するエッジ強度の小さい方の値をそれぞれの画素の値として置き換えた静止エッジ画像データを出力する静止エッジ画像取得手段と、
前記静止エッジ画像データを２値化の閾値との比較に基づいて２値化して２値化エッジ画像データを出力するエッジ画像２値化手段と、
前記２値化エッジ画像データのデータ分布に基づいて画素の密集が所定の閾値以上の領域を抽出して文字表示領域と判定することで文字表示領域情報を取得する文字表示領域取得手段と
を備える文字表示領域検出装置。
エッジ画像２値化手段は、
静止エッジ画像データのエッジ強度ごとの画素数を示すヒストグラムを作成するヒストグラム作成手段と、
前記ヒストグラムの曲線が極小をとるエッジ強度の値のうち一番小さい値を２値化閾値として決定する閾値決定手段と、
前記２値化閾値に基づいて前記静止エッジ画像データの２値化処理を行い、２値化エッジ画像データを出力する２値化処理手段と
を備えることを特徴とする請求項１に記載の文字表示領域検出装置。
エッジ画像２値化手段は、
画面を複数のサブ画面領域に分割するサブ画面分割手段をさらに備え、
ヒストグラム作成手段は、分割されたそれぞれのサブ画面領域の静止エッジ画像データについてヒストグラムを作成し、
閾値決定手段は、それぞれのサブ画面領域に対応したそれぞれの２値化閾値を決定し、
２値化処理手段は、前記それぞれのサブ画面領域で前記対応したそれぞれの２値化閾値に基づいて前記それぞれのサブ画面領域の静止エッジ画像データの２値化処理を行った後に、分割されたサブ画面領域の配置に基づいて一つに結合した結果を２値化エッジ画像データとして出力すること
を特徴とする請求項２に記載の文字表示領域検出装置。
文字表示領域取得手段は、
画面を複数の矩形の画素ブロックに分割し、２値化エッジ画像データに基づいて、それぞれの画素ブロックに含まれるエッジに対応する画素の数を計数し、前記エッジに対応する画素の数が所定の閾値以上の場合に前記それぞれの画素ブロックが文字表示ブロックであると判定する文字表示判定手段と、
前記文字表示ブロックであると判定されたそれぞれの画素ブロックに基づいて、横方向ないしは縦方向に互いに連接する画素ブロック同士が集められた画素ブロック集団を抽出し、前記画素ブロック集団を構成するすべての画素を含み、外周長さが最小となる矩形領域の画面内での位置情報を文字表示領域情報として出力する文字表示領域設定手段と
を備えることを特徴とする請求項１乃至３のいずれか１項に記載の文字表示領域検出装置。
文字表示領域取得手段は、
文字表示領域情報を補正する補正手段をさらに備え、
前記補正手段は、抽出された画素ブロック集団を構成する画素ブロックの数が所定のブロック数以下の場合には、前記抽出された画素ブロック集団に対応する文字表示領域情報を出力しないように、文字表示領域設定手段に指示すること
を特徴とする請求項４に記載の文字表示領域検出装置。
文字表示判定手段は、
画面を複数の矩形の画素ブロックに分割する際のブロック分割開始位置を決定する分割開始位置決定手段と
前記画素ブロックのサイズを決定する画素ブロックサイズ決定手段と
を備え、
前記分割開始位置決定手段は、２値化エッジ画像データの画面内のエッジに対応する画素の配置に基づいて前記ブロック分割開始位置を決定するとともに、
前記画素ブロックサイズ決定手段は、前記２値化エッジ画像データの画面内のエッジに対応する画素の配置の密集度に応じて画素ブロックサイズを決定すること
を特徴とする請求項４または５に記載の文字表示領域検出装置。
入力される映像の輝度信号からフレーム毎のエッジ画像データを抽出するエッジ画像抽出ステップと、
前記エッジ画像抽出ステップにおいて抽出されたエッジ画像データのうちで連続する複数のフレームのそれぞれのエッジ画像データに対して画素毎にエッジ強度の大小を比較し、それぞれの画素に対応するエッジ強度の小さい方の値をそれぞれの画素の値として置き換えた静止エッジ画像データを出力する静止エッジ画像取得ステップと、
前記静止エッジ画像データを２値化の閾値との比較に基づいて２値化して２値化エッジ画像データを出力するエッジ画像２値化ステップと、
前記２値化エッジ画像データのデータ分布に基づいて画素の密集が所定の閾値以上の領域を抽出して文字表示領域と判定することで文字表示領域情報を取得する文字表示領域取得ステップと
を備える文字表示領域検出方法。
請求項１乃至請求項６のいずれか一項に記載の文字表示領域検出装置を備えることを特徴とする携帯端末。