JP4861845B2

JP4861845B2 - テロップ文字抽出プログラム、記録媒体、方法及び装置

Info

Publication number: JP4861845B2
Application number: JP2007025259A
Authority: JP
Inventors: 裕勝山
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-02-05
Filing date: 2007-02-05
Publication date: 2012-01-25
Anticipated expiration: 2027-02-05
Also published as: US20080187225A1; US7961948B2; JP2008191906A

Description

本発明は、ビデオ映像中のテロップ文字をビデオ検索テキストなどに利用するために抽出するテロップ文字抽出プログラム、記録媒体、方法及び装置に関し、特に、文字認識に使用される２値の文字パターンをビデオ映像中のテロップ領域から抽出するテロップ文字抽出プログラム、記録媒体、方法及び装置に関する。

近年、多チャンネルを対象に、多数の番組を録画できるＤＶＤ装置やＨＤＤビデオ装置が普及している。その結果、録画した大量のビデオの中から好みにあったコンテンツを検索するニーズが高まってきている。

このような大量のビデオを検索するためには、ビデオ映像中のテロップ文字を自動的に抽出してテキスト化する必要がある。

従来のテロップ文字を抽出してテキスト化する方法としては、テロップ文字がフレーム画像の中で最も高輝度であることを仮定し、テロップ領域の中から輝度分布の最も高いピークの部分の画素だけを抽出してテロップ文字パターンとして出力している（特許文献１）。

また別の方法にあっては、様々な手法で候補パターンを作成し、それぞれの候補パターンを文字認識し、文字認識に至るまでの認識信頼度によって特定の候補パターンをテロップ情報として選択している（特許文献２）。また、この方法にあっては、テロップ文字を構成する画素を背景から抽出する処理として、エッジ膨張領域の輝度ヒストグラムを求め、テロップ、テロップの縁および背景について輝度ピークを求め、ピークが最も高くなる分布をテロップ文字の分布として候補パターンを抽出している。
特開２０００−１８２０５３号公報特開２００１−２８５７１６号公報

しかしながら、特許文献１のテロップ文字抽出にあっては、テロップ文字はフレーム画像の中で最も高輝度であることを仮定して抽出しているため、低輝度のテロップ文字は認識できないという問題がある。

特許文献２によるテロップ文字の抽出は、テロップ領域に対し得られた複数の候補パターンの文字認識結果から認識信頼度によってテロップ情報を選択しており、フレーム画像から文字認識ために１つのテロップ文字パターンを抽出するというものではなく、処理が煩雑になるという問題がある。

また特許文献２の方法は、テロップ文字を構成する画素を背景から抽出するため、エッジ膨張領域の輝度ヒストグラムにおいてピークが最も高くなる分布をテロップ文字の分布として抽出しており、この結果、低輝度のテロップ文字は認識できないという問題がある。

本発明は、テロップ文字の輝度に依存せず、低輝度や中輝度のテロップ文字であっても、高精度にテロップ文字パターンを抽出して認識率を向上できるテロップ文字抽出プログラム、記録媒体、方法及び装置を提供することを目的とする。

（プログラム）
本発明はテロップ文字抽出プログラムを提供する。本発明のテロップ文字抽出プログラムは、コンピュータに、
カラー映像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
エッジ領域画像をマスク画像としてグレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成部と、
輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
テロップ文字候補画像に対応してテロップ領域画像で使われている文字色を判定し、文字色に該当する文字画素をテロップ文字候補画像から抽出することによりノイズ画素を除去してテロップ文字画像を生成するノイズ除去部と、
を実行させることを特徴とする。

ここで、エッジ領域抽出部は、
グレースケール画像からエッジを抽出したエッジ画像を生成し、
エッジ画像を２値化してエッジ２値画像を生成し、
エッジ２値画像のエッジ画素を膨張させてエッジ領域画像を生成する。

輝度ヒストグラム作成部は、輝度ヒストグラムを作成した後に、各輝度のヒストグラム値として、隣接する複数の輝度のヒストグラム値との平均値を算出して平滑化する。

輝度クラス生成部は、
輝度ヒストグラムの輝度軸上に１又は複数の閾値を設定して分割した輝度クラスもつ複数種類の輝度ヒストグラムを生成し、
複数種類の輝度ヒストグラムについて、閾値上のヒストグラム値の平均値を比較し、平均値が最小となる輝度ヒストグラムを選択する。

輝度クラス生成部は、例えば、
輝度ヒストグラムの輝度軸上に単一の閾値を設定して２分割した輝度クラスをもつ第１輝度ヒストグラムと、輝度ヒストグラムの輝度軸上に２つの閾値を設定して３分割した輝度クラスをもつ第２輝度ヒストグラム生成し、
輝度クラスを２分割した第１輝度ヒストグラムの閾値上のヒストグラム値と、輝度クラスを３分割した第２輝度ヒストグラムの２つの閾値上のヒストグラム値の平均値とを比較し、小さい方の輝度ヒストグラムを選択する。

文字パターン候補選択部は、
輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成すると共に、連続する画素に同じラベル番号を付与して文字パターンとした２値ラベル画像を生成し、
２値ラベル画像に含まれる文字パターンの中からテロップ領域画像の外周に接している文字パターンのラベル番号を検出し、検出したラベル番号を持つ文字画素を背景ノイズとして除去し、
背景ノイズを削除した２値画像の面積をクラス毎に求め、面積が最大となるクラスの２値ラベル画像をテロップ文字候補画像として選択する。

文字パターン候補選択部は、クラス毎に求めた２値画像の面積に大きな差がない場合、各クラスの２値画像毎に線密度を算出し、線密度が最小となるクラスの２値画像をテロップ文字候補画像として選択する。

ここで、線密度は、２値画像の行毎に背景画素から文字画素への変化点の数を求めた総和を、２値画像の行数で割った値である。

ノイズ除去部は、
テロップ文字画像と原画であるテロップ領域画像との論理積をとって文字色画像を生成して最大頻度色を抽出し、
テロップ文字候補画像から最大頻度色に対応する文字画素を抽出してノイズ画素を除去することによりテロップ文字画像を生成する。

この場合の最大頻度色の抽出は、
文字色画像についてＲＧＢカラー空間の３次元カラーヒストグラムを生成し、
ＲＧＢカラー空間の各座標軸をｎ分割して量子化した小立方体を作成し、各小立方体に含まれる文字色画像の画素数をカウントし、
各小立方体毎に、周囲に存在する複数の小立方体と比較してカウントが同じか大きい場合に、周囲にある小立方体のカウントを全て合計した値を自己のカウントとし、
カウントが最大となる小立方体に属する色を最大頻度色として抽出する。

ノイズ除去部は、別の形態として、
テロップ文字画像と原画であるテロップ領域画像との論理積をとって文字色画像を生成し、
文字色画像から全体平均色を求めると共に、２値ラベル画像の同一ラベル番号を付与した画素集合からなる文字パターン毎に領域平均色と領域面積を求め、
ノイズ判定値として、２値ラベル画像の文字パターン毎に、全体平均色と領域平均色との差に領域面積を乗算した値を算出し、
ノイズ判定値が所定の閾値より大きな文字パターンをノイズとしてテロップ文字候補画像から除去してテロップ文字画像を生成する。

（記録媒体）
本発明は、ロップ文字抽出プログラムを格納したコンピュータ可読の記録媒体を提供する。本発明の記録媒体は、コンピュータに、
カラー映像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
エッジ領域画像をマスク画像としてグレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
輝度ヒストグラムの輝度を多値化して複数の輝度クラスに分割する輝度クラス生成部と、
輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
テロップ文字候補画像に対応してテロップ領域画像で使われている文字色を判定し、文字色に該当する文字画素をテロップ文字候補画像から抽出することによりノイズ画素を除去してテロップ文字画像を生成するノイズ除去部と、
を実行させるためのテロップ文字抽出プログラムを格納したことを特徴とする。

（方法）
本発明はテロップ文字抽出方法を提供する。本発明のテロップ文字抽出方法は、
カラー映像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力ステップと、
テロップ領域画像からグレースケール画像を生成するグレースケール画像生成ステップと、
グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出ステップと、
エッジ領域画像をマスク画像としてグレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成ステップと、
輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成ステップと、
輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択ステップと、
テロップ文字候補画像に対応してテロップ領域画像で使われている文字色を判定し、文字色に該当する文字画素をテロップ文字候補画像から抽出することによりノイズ画素を除去してテロップ文字画像を生成するノイズ除去ステップと、
を備えたことを特徴とする。

（装置）
本発明はテロップ文字抽出装置を提供する。本発明のテロップ文字抽出装置は、
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
エッジ領域画像をマスク画像としてグレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成部と、
輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
テロップ文字候補画像に対応してテロップ領域画像で使われている文字色を判定し、文字色に該当する文字画素をテロップ文字候補画像から抽出することによりノイズ画素を除去してテロップ文字画像を生成するノイズ除去部と、
を備えたことを特徴とする。

本発明によれば、テロップ文字のエッジ近傍の輝度ヒストグラムを生成して複数の輝度クラスに分割し、各輝度クラス毎に２値画像を生成して画素面積が最大となるテロップ文字画像を選択することで、テロップ文字が存在する輝度のピーク分布を相対的に求めることができる。

このため、テロップ領域に散在する高輝度のテロップ文字に加え、低輝度または中輝度のテロップ文字であっても高精度に抽出することができ、テキスト化のためのテロップ文字の認識率を高めることができる。

図１は本実施形態のテロップ文字抽出装置における機能構成を示したブロック図である。図１において、本実施形態のテロップ文字抽出装置は、テロップ文字抽出処理部１０、映像ファイル１２、記憶部１４で構成されている。

映像ファイル１２には、処理対象とするテロップ画像を含むフレーム画像の集合でなるビデオやＤＶＤなどの映像、例えばＭＰＥＧ２などの映像が格納されている。

テロップ文字抽出処理部１０には、画像入力部１６、グレースケール画像生成部１８、エッジ領域抽出部２０、輝度ヒストグラム作成部２２、輝度クラス生成部２４、文字パターン候補選択部２６、ノイズ除去部２８及びテロップ文字出力部３０の機能が設けられている。これらの機能は本実施形態のテロップ文字抽出プログラムをコンピュータにより実行することにより実現される機能である。

記憶部１４にはテロップ文字抽出処理部１０の各機能で生成処理されるデータとして、処理順に、テロップ領域画像３２、グレースケール画像３４、エッジ領域画像３６、輝度ヒストグラム３８、輝度クラス別２値画像４０、テロップ文字候補画像４２及びテロップ文字画像４４が格納生成される。

テロップ文字抽出処理部１０で抽出されたテロップ文字画像は文字認識部４６に出力され、ＯＣＲ処理により文字認識されてテキスト化される。

次にテロップ文字抽出処理部１０の各機能を説明する。画像入力部１６は、映像ファイル１２のカラー画像であるフレーム画像から切り出されたテロップ文字を含むテロップ領域画像３２を入力し、記憶部１４に格納する。

カラー画像からのテロップ文字領域画像の切出しは、テロップ文字を含む領域の自動切出しあるいはユーザによる領域指定で切り出すことができる。テロップ領域画像の自動切出しとしては、例えばビデオストリームの先頭部分における複数フレームの中の輝度変化のない部分を含む領域を矩形に切り出して、テロップ画像として入力すればよい。

グレースケール画像生成部１８は、テロップ領域画像３２からグレースケール画像を生成する。テロップ領域画像３２の各画素はＲＧＢデータで構成されているため、グレースケール画像３４の生成は例えば次式で作成する。

Ｇ＝ｒ＊０．２９９＋ｇ＊０．５８７＋ｂ：０．１１４（１）

エッジ領域抽出部２０は、グレースケール画像３４からエッジを抽出して膨張させたエッジ領域画像３６を生成する。輝度ヒストグラム作成部２２は、エッジ領域画像３６をマスク画像として、グレースケール画像３４のマスク画像に属する画素の輝度ヒストグラム３８を生成する。

輝度クラス生成部２４は、輝度ヒストグラムの輝度を１又は複数の閾値の設定により多値クラス化して複数の輝度クラスに分割する。本実施形態にあっては、輝度ヒストグラムを２クラス化または３クラス化している。２クラス化した場合は、低輝度及び高輝度クラスに２分割し、３クラス化した場合には、低輝度クラス、中輝度クラス、高輝度クラスに３分割する。

文字パターン候補選択部２６は、ヒストグラムに対し分割した輝度クラス毎に、各クラスに属する輝度の画素を集めた輝度クラス別２値画像４０を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像４２として選択する。

ノイズ除去部２８は、テロップ文字候補画像４２に対応してテロップ領域画像３２で使われている文字色を判定し、判定した文字色に該当する文字画像をテロップ文字候補画像から抽出することにより、判定した文字色以外の文字画素をノイズ画素として除去し、２値画像データであるテロップ文字画像４４を生成する。

テロップ文字出力部３２は、ノイズ除去部２８により生成されたテロップ文字画像４４を文字認識部４６に出力してＯＣＲ処理によりテキスト化し、図示しないビデオファイルの検索に利用する。

図２は図１のテロップ文字抽出処理部１０の各機能を実現する本実施形態のプログラムが実行されるコンピュータのハードウェア環境を示したブロック図である。

図２のコンピュータにおいて、ＣＰＵ４８のバス５０には、ＲＡＭ５２、ＲＯＭ５４、ハードディスクドライブ５６、キーボード６０，マウス６２，ディスプレイ６４を接続するデバイスインタフェース５８、及びネットワークアダプタ６６が接続される。

ハードディスクドライブ５６には本実施形態によるテロップ文字抽出プログラムをローディングしており、コンピュータを起動すると、ＲＯＭ５４のＢＩＯＳによるブートアップでＯＳがＲＡＭ５２に読出し配置され、続いて、ＯＳの実行によりハードディスクドライブ５６から本実施形態のテロップ文字抽出プログラムがハードディスクドライブ５６から読み出されてＲＡＭ５２に配置され、ＣＰＵ４８により実行される。

図３は図１の実施形態によるテロップ文字抽出処理の手順を示したフローチャートであり、同時に本実施形態のテロップ文字抽出処理プログラムの内容を表している。

図３において、テロップ文字抽出処理は、まずステップＳ１で画像入力部１６により映像ファイル１２から切り出したテロップ領域画像を入力し、記憶部１４にテロップ領域画像３２として格納する。続いてステップＳ２で、グレースケール画像生成部１８が、前記（１）式に従ってテロップ領域画像のＲＧＢ画像データからグレースケール画像３４を生成する。

続いてステップＳ３で、エッジ領域抽出部２０がグレースケール画像からエッジを抽出して膨張させたエッジ領域画像３６を生成する。次にステップＳ４で、輝度ヒストグラム作成部２２がエッジ領域画像３６をマスク画像としてグレースケール画像３４のマスク画像に属する画素の輝度ヒストグラム３８を作成する。

次にステップＳ５で輝度クラス生成部２４が輝度ヒストグラム３８の輝度を多値クラス化して、例えば２クラスまたは３クラスに分割した輝度クラスを生成する。

続いてステップＳ６で、文字パターン候補選択部２６が輝度クラスごとに各クラスに属する輝度の画素を集めた輝度クラス別２値画像４０を生成し、生成した２値画像の面積即ち文字画素数が最大となるクラスの２値画像をテロップ文字候補画像４２として選択する。

続いてステップＳ７で、ノイズ除去部２８がテロップ文字候補画像４２に対応してテロップ領域画像３２で使われている文字色を判定し、判定した文字色に該当する文字画像をテロップ文字候補画像から抽出し、それ以外の文字色の画素についてはノイズ画素として除去し、テロップ文字画像４４を生成する。最終的にステップＳ８で、テロップ文字出力部３０が抽出した文字画像を出力して文字認識によりテキスト化させるようになる。

図４は図３のステップＳ３におけるエッジ近傍領域抽出処理の詳細を示したフローチャートである。本実施形態で抽出対象とするテロップ文字は、通常、文字パターンの周囲に縁取り（ボーダ）が施されている。これはテロップ文字が背景上にスーパーインポーズされるため、視聴者が見易いように付けられている。もちろん、場合によっては縁取りのない文字パターンも存在する。

このようなテロップ文字を正しく抽出するためには、文字パターン、縁取り及び背景を区別する必要がある。このような区別を画像全体を使用して行うと、背景部分が圧倒的に多く、且つ背景は様々な色や模様が存在するため、文字パターンを抽出するための背景の特性を正しく抽出することができない。そこで本実施形態にあっては、文字パターンの周囲だけに注目したエッジ近傍領域の抽出を行う。

図４のエッジ近傍領域抽出処理にあっては、ステップＳ１でＳｏｂｅｌフィルタによりグレースケール画像からエッジを抽出したエッジ画像を生成する。続いてステップＳ２でエッジ画像を２値化してエッジ２値画像を生成する。続いてステップＳ３でエッジを所定画素数だけ水平及び垂直方向に膨張させて、エッジ領域画像である膨張画像を生成する。

ここで、ステップＳ１のエッジ抽出には公知のＳｏｂｅｌフィルタを使用している。このフィルタは一般にエッジ検出に利用されるフィルタであり、ある注目画素を中心とした上下９つの画素に対し、所定の係数をそれぞれ乗算し、結果を合計するものである。

図５は図４のエッジ近傍領域抽出処理における処理画像の具体例を示している。図５（Ａ）はテロップ領域画像６８であり、テロップ文字として「勝山裕」が含まれている。

図５（Ｂ）はテロップ領域画像６８に前記（１）式を適用して生成したグレースケール画像７０である。このグレースケール画像７０に対し、図４のステップＳ１に示したように、Ｓｏｂｅｌフィルタによるエッジ抽出を行って２値化すると、図５（Ｃ）のようなエッジ２値画像７２が生成される。

そして図４のステップＳ３で、エッジ２値画像７２の白画素で示すエッジ画像を膨張することで、図５（Ｄ）に示す膨張画像７４を生成する。この膨張画像７４におけるエッジ近傍領域は白画素で示す領域である。

図６は図３のステップＳ４におけるヒストグラム作成処理の詳細を示したフローチャートである。図６において、ヒストグラム作成処理は、まずステップＳ１で、図５（Ｄ）に示したような膨張画像７４のエッジ近傍領域（白画素領域）をマスク画像として、図５（Ｂ）のようなグレースケール画像７０のマスク画像内に含まれる画素につき、すべての画素に対して、画素の輝度とその頻度を数え上げて、輝度ヒストグラムを作成する。

図７（Ａ）は、図５（Ｄ）の膨張画像７４をマスク画像として、図５（Ｂ）のグレースケール画像７０の画素の輝度値から得られた輝度ヒストグラム７６を示している。

続いて図６のステップＳ２で移動平均によるヒストグラムの平滑化を行う。この平滑化は、図８に示すように、平滑前頻度値８０が横方向の輝度値に対し得られていたとすると、注目している輝度と、これに隣接する両側の輝度を含む３つの頻度における頻度の平均値を横方向に１つずつ輝度をずらしながら移動平均として算出する。

例えば左端からの３つの輝度値に対応した頻度「３．０，６．０，２．０」については、この３つの頻度の平均値「３．７」を求め、これを中央の輝度における頻度の値として平滑化後頻度値８２にセットする。

次の左から３番目の輝度値の頻度「２．０」についても、両側に位置する輝度値の頻度「６．０，７．０」との平均により頻度「５．０」を求め、これを平滑化後頻度値８２に格納する。

以下同様に、右側に輝度を１つずらしながら３つの輝度の頻度の移動平均を求める。なお左端となる先頭の輝度における頻度「３．０」については、隣接する輝度が右側の１つしかないため、この場合には２つの隣接する輝度の頻度値「３．０，６．０」の平均値から、平滑化後頻度値８２として「４．５」を求めている。

この図８に示すような移動平均による平滑化を行うと、図７（Ａ）の平滑化前の輝度ヒストグラム７６は、図７（Ｂ）のように平滑化後の輝度ヒストグラム７８となり、滑らかな変化を持った輝度ヒストグラムとすることができる。

図９は図３のステップＳ５における輝度クラス生成処理の詳細を示したフローチャートである。本実施形態の輝度クラス生成処理にあっては、図５（Ａ）に示したようなテロップ領域画像６８に含まれるテロップ文字の輝度が高輝度のみならず、低輝度や中輝度である場合も考慮し、輝度に依存することなく高精度にテロップ文字を抽出可能とするため、輝度ヒストグラムの多値クラス化を行っている。

図９において、輝度クラス生成処理は、図７（Ｂ）のように平滑化した輝度ヒストグラム７８を対象に、輝度軸方向におけるヒストグラムの多値クラス化として、本実施形態にあっては２クラス化と３クラス化をするための輝度の閾値を導出する。

この輝度クラス化にあっては、テロップ文字に輪郭が付いていれば２クラス化が望ましく、輪郭が付いていなければ３クラス化が望ましい。この２クラス化または３クラス化をするための閾値の導出には、例えば大津の方法（大津展乃著、電子技術総合研究所（ＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＬａｂｏｒａｔｏｒｙ，論文番号：昭５５−２１０［Ｄ−５３］）として知られた「判別および最小二乗規準に基づく自動しきい値選定法」を使用する。

図１０は本実施形態における２クラス化と３クラス化した輝度ヒストグラムの説明図である。図１０（Ａ）は２クラス化したヒストグラムであり、大津の方法に従って求めた閾値ＴＨ１を設定することで、閾値ＴＨ１より低い低輝度クラス８４−１と、それより高い高輝度クラス８４−２に分割している。

図１０（Ｂ）は３クラス化した輝度ヒストグラムであり、大津の方法により導出した２つの閾値ＴＨ２，ＴＨ３を設定することで、低輝度クラス８６−１，中輝度クラス８６−２及び高輝度クラス８６−３に分割している。

この図１０（A）（Ｂ）に示すように、輝度ヒストグラムを２クラス化または３クラス化した場合、いずれのクラス化が最適かを決めるため、図９のステップＳ２で３クラス化の２つの輝度閾値ＴＨ２，ＴＨ３における頻度ｈ３Ｌ，ｈ３Ｒの平均値
（ｈ３Ｌ＋ｈ３Ｒ）／２
を算出する。

続いてステップＳ３で、ステップＳ２で求めた３クラス化の閾値頻度の平均値が図１０（Ａ）の２クラス化の閾値ＴＨ１上の頻度ｈ２より小さいか否か判別する。小さければステップＳ４に進み、最適なクラス化として３クラス化を選択する。２クラス化の閾値ＴＨ１上の頻度ｈ２のほうが大きければステップＳ５に進み、最適クラス化として２クラス化を選択する。

図１１は図３のステップＳ６における文字パターン候補選択処理の詳細を示したフローチャートである。図１１において、文字パターン候補選択処理は、ステップＳ１で図９の輝度クラス生成処理で２クラス化が選択されたか否かチェックする。

２クラス化が選択された場合には、ステップＳ２の処理に進む。一方、３クラス化が選択された場合には、ステップＳ１１の３クラス化候補抽出処理に進む。ステップＳ１１の３クラス化候補抽出処理の詳細は図１２のフローチャートに示している。

ステップＳ１で２クラス化の選択を判別した場合には、ステップＳ２で図５（Ｂ）に示したテロップ領域画像に対応したグレースケール画像７０から図１０（Ａ）の低輝度クラス８４−１に属する輝度値の画素だけを集めた２値画像を作成する。

即ち、ある画素が閾値ＴＨ１より小さい場合はその画素にビット１をセットし、それ以外はビット０をセットすることで、低輝度クラスの２値画像を作成する。

続いてステップＳ３で、同じグレースケール画像から図１０（Ａ）の高輝度クラス８４−２に属する輝度値の画素だけを集めた高輝度クラスの２値画像を作成する。

次にステップＳ４で各クラスの２値画像の連続画素に同一ラベルを付けたラベル画像を作成する。このラベル付けにより、テロップ領域に含まれる連続画素群からなる文字パターンごとに異なったラベル番号が付けられることになる。

続いてステップＳ５で、ラベル画像を対象にテロップ領域の外周に接しているパターン（同一ラベル番号を持つ画素群）のラベル画素をノイズ画素として除去する。具体的には、外周に接しているパターンの画素値「１」を「０」に変更することで除去する。

続いてステップＳ６で、低輝度クラスと高輝度クラスの２値画像における有効画素の面積、即ち画素数を算出する。ステップＳ７で低輝度クラスと高輝度クラスの２値画像の有効画像の面積に大きな面積差があれば、ステップＳ８に進み、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する。

一方、低輝度クラスと高輝度クラスの２値画像における有効画像の面積に大きな差がない場合には、ステップＳ９に進み、各クラスの２値画像の線密度を算出する。２値画像の線密度は、２値画像の行ごとに背景画素「０」から文字画像「１」への変換点の数を求め、その総和を、２値画像の行数で割った値として算出する。

この２値画像の線密度は、文字パターンについては画像値「１」となる有効画像がある程度まとまる形を持ち、これに対しノイズ画像は文字パターンに比べ行方向の変化数が少ないことから、文字パターン線密度は小さい値を取ることになる。

そこでステップＳ１０に進み、線密度が最小となるクラスの２値画像をテロップ文字候補画像として選択する。

図１２の３クラス化候補抽出処理にあっても、図１１のステップＳ２〜Ｓ１０に示した２クラス化候補選出処理と基本的に同じであるが、３クラス化の場合には低輝度クラス，中輝度クラス及び高輝度クラスの３クラスに分けて２値画像を生成している点が相違する。

図１２の３クラス化候補抽出処理を、図１３の３クラス化候補抽出処理における処理画像を示した説明図を参照して説明すると、次のようになる。

まずステップＳ１で、テロップ領域画像に対応したグレースケール画像から図１３の輝度ヒストグラム７８における低輝度クラス８６−１に属する輝度値の画素だけを集めた低輝度クラスの２値画像を作成する。

続いてステップＳ２で、中輝度クラス８６−２に属する画素だけを集めた中輝度クラスの２値画像を作成する。更にステップＳ３で、高輝度クラス８６−３に属する輝度値の画素だけを集めた高輝度クラスの２値画像を作成する。

このステップＳ１〜Ｓ３の処理により、図１３に示す低輝度クラス８６−１の２値画像９０−１、中輝度クラス８６−２の２値画像９０−２及び高輝度クラス８６−３の２値画像９０−３が作成される。

続いてステップＳ４で、各クラスの２値画像の連続画素に同一ラベルを付したラベル画像を作成する。これは図１３の各クラスごとのラベル画像９２−１，９２−２，９２−３のようになる。なお図１３の２値ラベル画像９２−１，９２−２，９２−３については、同一ラベル番号を付したパターンについて同じ濃淡明度で表している。

続いてステップＳ５で、各クラスのラベル画像につきテロップ領域の外周に接しているパターンのラベル画像をノイズとして除去する。このテロップ領域の外周に接しているパターンのラベル画像を除去することで、図１３のノイズ除去２値画像９４−１，９４−２，９４−３が得られる。

図１４は図１３の低輝度クラス８６−１における処理画像を拡大して示している。図１４において、低輝度クラス８６−１に属する輝度値の画素を集めた２値画像９０−１にあっては、白画像で示す部分に複数の文字パターン９６−１〜９６−８が存在している。

このような２値画像９０−１につき、連続画素に同一ラベルを付けて２値ラベル画像９２−１を作成する。ラベル付けは、２値画像９０−１における文字パターン９６−１〜９６−８のそれぞれに異なるラベル番号を割り当て、同じパターンに属する画素にはすべて割り当てた同じラベル番号を付することになる。

このようにして生成した２値ラベル画像９０−１につき、テロップ領域の外周に接しているラベルパターン９８−１，９８−２，９８−８をノイズとして除去し、ノイズ除去２値画像９４−１を生成している。

再び図１２を参照するに、ステップＳ５でテロップ領域の外周に接しているパターンのラベル画像の除去が済んだならば、ステップＳ６で各クラスの２値画像における有効画像の面積（画素数）を算出する。

図１３の場合には、低輝度クラス及び中輝度クラスのノイズ除去２値画像９４−１，９４−２の文字パターンの面積に対し、高輝度クラス８６−３のノイズ除去２値画像９４−３の有効画像面積が十分に大きいことになる。

このように各クラスの２値画像に大きな面積差があった場合には、ステップＳ７からステップＳ８に進み、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する。即ち図１３の場合には、高輝度クラス８６−３のノイズ除去２値画像９４−３がテロップ文字候補画像として選択される。

一方、ステップＳ７で各クラスの２値画像における有効画像の面積に大きな面積差がなかった場合には、ステップＳ９で各クラスの２値画像の線密度を算出し、ステップＳ１０で線密度が最小となるクラスの２値画像をテロップ文字候補画像として選択する。

図１５は図３のステップＳ７におけるノイズ除去処理の詳細を示したフローチャートであり、この実施形態にあっては、最大頻度色の抽出に基づいてノイズを除去するようにしたことを特徴とする。

図１５において、ノイズ除去処理は、まずステップＳ１でテロップ文字候補画像（２値画像）と、原画像である図５（Ａ）に示したテロップ領域画像６８との論理積により文字色画像を生成する。例えば図１６に示すように、テロップ文字候補画像９４−３と原画像であるテロップ領域画像６８の論理積１０２を求めて文字色画像１０４を生成する。

続いてステップＳ２で文字色画像からＲＧＢの３次元カラーヒストグラムを生成する。続いてステップＳ３でＲＧＢ空間の各座標軸のｎ分割、例えばｎ＝１６分割して小立方体に量子化する。即ち、ＲＧＢ空間は各軸が０〜２５５の２５６レベルの立方体であるが、この各軸をｎ＝１６分割して量子化した（１６×１６×１６）個の小立方体を作成する。

次にステップＳ４で、小立方体に属する色の画像数（カウント）を周囲の重み付けにより算出する。即ち、ある小立方体に注目した場合、その立方体の周囲に存在する２６個の小立方体の画素数を比較し、周囲より画素数が大きいか同じ小立方体だけを対象に、周囲にある小立方体の画素数をすべて合計した値を、注目している小立方体の画素数とする。

続いてステップＳ５で、最大画像数の小立方体を最大頻度色の文字色として抽出する。続いてステップＳ６で、テロップ文字の候補画像より最大頻度色の小立方体に含まれる文字色を持つパターンを文字部分として抽出し、最大頻度色に属さない色を持つパターンをノイズとして除去する。

例えば図１７にあっては、テロップ文字候補パターン９４−３について、図１６の文字色画像１０４から得られた最大画素数の小立方体の最大頻度色に属する文字色を抽出することで、最大頻度色に属さない色彩を持つパターン１０５がノイズとして除去され、テロップ文字画像１０６を抽出することができる。

このようにして生成されたテロップ文字画像１０６は、図１に示したように必要に応じて文字認識部４６に出力され、ＯＣＲ処理により２値画像であるテロップ文字画像１０６から文字コードが認識され、検索のためのテキスト化を行うことができる。

図１８は図３のステップＳ７におけるノイズ除去処理の他の実施形態を示したフローチャートであり、この実施形態のノイズ除去処理にあっては、平均色を抽出してノイズパターンを除去するようにしたことを特徴とする。

図１８のノイズ除去処理において、まずステップＳ１で、図１６に示したようにテロップ文字候補画像９４−３と、原画像であるテロップ領域画像６８との論理積１０２による文字色画像１０４を生成する。

続いてステップＳ２で文字色画像１０４の全体の平均色を算出する。このようにして算出される文字画像全体の平均色を
（ｒ＿ｍｅａｎ，ｇ＿ｍｅａｎ，ｂ＿ｍｅａｎ）
とする。

続いてステップＳ３で文字色画像１０４における２値ラベル画像の各ラベル番号領域毎に平均色と面積（画素数）を算出する。このとき使用するラベル画像としては、図１３の高輝度クラス８６−３について生成している２値ラベル画像９２−３を利用する。

ステップＳ３で算出される２値ラベル画像における各ラベル番号の領域毎の平均色を、例えばラベル番号＝１の場合には平均色（ｒ１，ｇ１，ｂ１）として求め、またラベル番号＝１の領域の面積を（ｃｏｕｎｔ）として求める。

続いてステップＳ４で全体平均色と領域平均色との差を面積で重み付けした判定値を算出する。ここで判定値をｖａｌｕｅとすると次式で算出される。
ｖａｌｕｅ＝ │ｒ＿ｍｅａｎ−ｒ１│＊ｃｏｕｎｔ＋
│ｇ＿ｍｅａｎ−ｇ１│＊ｃｏｕｎｔ＋
│ｂ＿ｍｅａｎ−ｂ１│＊ｃｏｕｎｔ

ステップＳ５で算出される判定値（ｖａｌｕｅ）は、ラベル領域の面積が大きいほど、また全体の平均色との色の違いが大きいほど、大きな値を取ることになる。

したがって、次のステップＳ５で判定値（ｖａｌｕｅ）が予め定めた閾値より大きい領域があるか否か判別し、閾値より大きい領域がある場合にはステップＳ６に進み、テロップ文字候補画像の対応する領域をノイズ領域として除去する。

以上の実施形態はテロップ文字として日本語の処理を例に取るものであったが、日本語以外の文字、例えば英文テロップ文字についても、まったく同様にして本発明によるテロップ文字抽出処理を適用して、高輝度のみならず低輝度や中輝度のテロップ文字であっても、高精度に抽出することができる。

図１９は英文テロップ文字を対象とした本実施形態による図４のエッジ近傍領域抽出処理に伴う処理画像である。図１９（Ａ）は英文テロップ文字「Ｙｕｔａｋａ」を含むテロップ領域画像１０８であり、このテロップ領域画像１０８につき、前記（１）式により図１９（Ｂ）のグレースケール画像１１０を求める。

このようにして求めたグレースケール画像１１０につき、図４のステップＳ１でＳｏｂｅｌフィルタによりエッジ抽出を行い、図１９（Ｃ）に示すエッジ２値画像１１２を生成する。続いてエッジ２値画像１１２を対象に、図４のステップＳ３でエッジ画像を膨張して、図１９（Ｄ）の膨張画像１１４を生成する。この膨張画像１１４にあっては、エッジ近傍領域が白画素で示される領域となっている。

図２０は英文テロップ文字を対象とした図１２の３クラス化候補抽出処理における処理画像を示している。英文テロップ文字を対象とした場合にも、例えば３クラス化した輝度ヒストグラム７８において、低輝度クラス８６−１１、中輝度クラス８６−１２、高輝度クラス８６−１３につき、それぞれ各クラスの２値画像１１６−１，１１６−２，１１６−３を生成した後、連続画像に同一ラベル番号を付けるラベリングを行って２値ラベル画像１１８−１，１１８−２，１１８−３を生成し、続いてテロップ領域の外周に接しているパターンのラベル画素をノイズ画素として除去し、ノイズ除去２値画像１２０−１，１２０−２，１２０−３を生成している。

そして各クラスのノイズ除去２値画像１２０−１〜１２０−３における有効画素数の面積（画素数）を算出し、この場合には大きな面積差があることから、面積が最大となる高輝度クラス８６−１３のノイズ除去２値画像１２０−３をテロップ文字候補画像として選択する。

このようにして選択された英文テロップ文字を対象としたテロップ文字候補画像１２０−３につき、例えば図１５に示した最大頻度色に基づくノイズ除去を行うと、図２１のようにテロップ文字候補画像１２０−３と原画像であるテロップ領域画像１０８との論理積１２４を取ることで文字色画像１２６を生成する。

そして、この文字色画像１２６からＲＧＢ３次元カラーヒストグラムを生成し、更にＲＧＢ空間の各座標軸を１６分割して小立方体に量子化した後、小立方体に属する画素数を周囲の重み付けにより算出し、最大画素数の小立方体に属する色彩を最大頻度色の文字色として抽出する。

最終的に図２２に示すように、テロップ文字候補画像１２８から最大頻度色の小立方体に属する色を持つパターンを文字部分として抽出することで、最大頻度色に属さない色のパターンをノイズ１２７として除去し、ノイズを含まない高精度の英文テロップ文字画像（２値画像）を抽出することができる。

また本発明は、コンピュータで実行されるテロップ文字抽出プログラムを格納した記録媒体を提供する。ここで記録媒体とは、ＣＤ−ＲＯＭ、フロッピィディスク（Ｒ）、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの可搬型記憶媒体や、コンピュータシステムの内外に備えられたハードディスクドライブなどの記憶装置の他、回線を介してプログラムを保持するデータベースあるいは他のコンピュータシステム並びにそのデータベースや、更に回線上の伝送媒体を含むものである。

なお、上記の実施形態は、テレビ映像などの静止画であるフレーム画像に含まれるテロップ文字を抽出する場合を例に取るものであったが、本発明はこれに限定されず、適宜の静止画の背景上に存在する文字の抽出につき、そのまま適用することができる。

また上記の実施形態における輝度クラス生成のための閾値の導出として、クラス分離を最大とすることのできる大津の方法により閾値を導出しているが、予め固定的に設定した閾値によるクラス分けを行ってもよい。また上記の実施形態にあっては、多値クラス化として２クラス化と３クラス化を例にとっているが、それ以上のクラス化を行うようにしてもよいことは勿論である。

また本発明は、その目的と利点を損なうことのない適宜の変形を含み、更に上記の実施形態に示した数値による限定は受けない。

ここで本発明の特徴をまとめて列挙すると次の付記のようになる。
（付記）

（付記１）（プログラム）
コンピュータに、
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
前記テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
前記グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
前記エッジ領域画像をマスク画像として前記グレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
前記輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成部と、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
前記テロップ文字候補画像に対応して前記テロップ領域画像で使われている文字色を判定し、前記文字色に該当する文字画素を前記テロップ文字候補画像から抽出することによりノイズ画素を除去してテロップ文字画像を生成するノイズ除去部と、
を実行させるためのテロップ文字抽出プログラム。（１）

（付記２）（エッジ領域抽出の詳細）
付記１記載のテロップ文字抽出プログラムに於いて、前記エッジ領域抽出部は、
前記グレースケール画像からエッジを抽出したエッジ画像を生成し、
前記エッジ画像を２値化してエッジ２値画像を生成し、
前記エッジ２値画像のエッジ画素を膨張させて前記エッジ領域画像を生成することを特徴とするテロップ文字抽出プログラム。

（付記３）（輝度ヒストグラム生成の詳細）
付記１記載のテロップ文字抽出プログラムに於いて、前記輝度ヒストグラム作成部は、前記輝度ヒストグラムを作成した後に、各輝度のヒストグラム値として、隣接する複数の輝度のヒストグラム値との移動平均値を算出して平滑化することを特徴とするテロップ文字抽出プログラム。

（付記４）（輝度クラス生成の詳細：一般系）
付記１記載のテロップ文字抽出プログラムに於いて、前記輝度クラス生成部は、
前記輝度ヒストグラムの輝度軸上に１又は複数の閾値を設定して分割した輝度クラスもつ複数種類の輝度ヒストグラムを生成し、
前記複数種類の輝度ヒストグラムについて、前記閾値上のヒストグラム値の平均値を比較し、平均値が最小となる輝度ヒストグラムを選択することを特徴とするテロップ文字抽出プログラム。

（付記５）（輝度クラス生成の詳細：２値化／３値化）
付記１記載のテロップ文字抽出プログラムに於いて、前記輝度クラス生成部は、
前記輝度ヒストグラムの輝度軸上に単一の閾値を設定して２分割した輝度クラスをもつ第１輝度ヒストグラムと、前記輝度ヒストグラムの輝度軸上に２つの閾値を設定して３分割した輝度クラスをもつ第２輝度ヒストグラムを生成し、
輝度クラスを２分割した前記第１輝度ヒストグラムの閾値上のヒストグラム値と、輝度クラスを３分割した前記第２輝度ヒストグラムの２つの閾値上のヒストグラム値の平均値とを比較し、小さい方の輝度ヒストグラムを選択することを特徴とするテロップ文字抽出プログラム。（２）

（付記６）（テロップ文字候補の詳細：背景ノイズ除去）
付記１記載のテロップ文字抽出プログラムに於いて、前記文字パターン候補選択部は、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成すると共に、連続する画素に同じラベル番号を付与して文字パターンとした２値ラベル画像を生成し、
前記２値ラベル画像に含まれる文字パターンの中から前記テロップ領域画像の外周に接している前記文字パターンのラベル番号を検出し、検出したラベル番号を持つ文字画素を背景ノイズとして除去し、
背景ノイズを削除した２値画像の面積をクラス毎に求め、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択することを特徴とするテロップ文字抽出プログラム。（３）

（付記７）（テロップ文字候補の詳細：線密度による選択）
付記６記載のテロップ文字抽出プログラムに於いて、前記文字パターン候補選択部は、前記クラス毎に求めた２値画像の面積に大きな差がない場合、各クラスの２値ラベル画像毎に線密度を算出し、前記線密度が最小となるクラスの２値画像をテロップ文字候補画像として選択することを特徴とするテロップ文字抽出プログラム。

（付記８）（テロップ文字候補の詳細：線密度の定義）
付記７記載のテロップ文字抽出プログラムに於いて、前記線密度は、前記２値画像の行毎に背景画素から文字画素への変化点の数を求めた総和を、前記２値画像の行数で割った値であることを特徴とするテロップ文字抽出プログラム。

（付記９）（ノイズ除去の詳細：処理方法１）
付記１記載のテロップ文字抽出プログラムに於いて、前記ノイズ除去部は、
前記テロップ文字画像と原画である前記テロップ字領域画像との論理積をとって文字色画像を生成して最大頻度色を抽出し、
前記テロップ文字候補画像から前記最大頻度色に対応する文字画素を抽出してノイズ画素を除去することによりテロップ文字画像を生成し、
前記最大頻度色の抽出は、
前記文字色画像についてＲＧＢカラー空間の３次元カラーヒストグラムを生成し、
前記ＲＧＢカラー空間の各座標軸をｎ分割して量子化した小立方体を作成し、各小立方体に含まれる前記文字色画像の画素数をカウントし、
各小立方体毎に、周囲に存在する複数の小立方体と比較してカウントが同じか大きい場合に、周囲にある小立方体のカウントを全て合計した値を自己のカウントとし、
前記カウントが最大となる小立方体に属する色を最大頻度色として抽出することを特徴とするテロップ文字抽出プログラム。（４）

（付記１０）（ノイズ除去の詳細：処理方法２）
付記１記載のテロップ文字抽出プログラムに於いて、前記ノイズ除去部は、
前記テロップ文字画像と原画である前記テロップ領域画像との論理積をとって文字色画像を生成し、
前記文字色画像から全体平均色を求めると共に、前記２値ラベル画像の同一ラベル番号を付与した画素集合からなる文字パターン毎に領域平均色と領域面積を求め、
ノイズ判定値として、前記２値ラベル画像の文字パターン毎に、全体平均色と領域平均色との差に領域面積を乗算した値を算出し、
前記ノイズ判定値が所定の閾値より大きな文字パターンをノイズと判定して前記テロップ文字候補画像から除去したテロップ文字画像を生成することを特徴とするテロップ文字抽出プログラム。（５）

（付記１１）（記録媒体）
コンピュータに、
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
前記テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
前記グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
前記エッジ領域画像をマスク画像として前記グレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
前記輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成部と、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
前記テロップ文字候補画像に対応して前記テロップ領域画像で使われている文字色を判定し、前記文字色に該当する文字画素を前記テロップ文字候補画像から抽出することによりノイズ画素を除去してテロップ文字画像を生成するノイズ除去部と、
を実行させるためのテロップ文字抽出プログラムを格納したコンピュータ可読の記録媒体。（６）

（付記１２）（方法）
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力ステップと、
前記テロップ領域画像からグレースケール画像を生成するグレースケール画像生成ステップと、
前記グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出ステップと、
前記エッジ領域画像をマスク画像として前記グレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成ステップと、
前記輝度ヒストグラムの輝度を輝度クラスに分割する輝度クラス生成ステップと、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択ステップと、
前記テロップ文字候補画像に対応して前記テロップ領域画像で使われている文字色を判定し、前記文字色に該当する文字画素を前記テロップ文字候補画像から抽出することによりノイズ画素を除去してテロップ文字画像を生成するノイズ除去ステップと、
を備えたことを特徴とするテロップ文字抽出方法。（７）

（付記１３）（エッジ領域抽出の詳細）
付記１２記載のテロップ文字抽出方法に於いて、前記エッジ領域抽出ステップは、
前記グレースケール画像からエッジを抽出したエッジ画像を生成し、
前記エッジ画像を２値化してエッジ２値画像を生成し、
前記エッジ２値画像のエッジ画素を膨張させて前記エッジ領域画像を生成することを特徴とするテロップ文字抽出方法。

（付記１４）（輝度ヒストグラム生成の詳細）
付記１２記載のテロップ文字抽出方法に於いて、前記輝度ヒストグラム作成ステップは、
前記輝度ヒストグラムを作成した後に、各輝度のヒストグラム値として、隣接する複数の輝度のヒストグラム値との平均値を算出して平滑化することを特徴とするテロップ文字抽出方法。

（付記１５）（輝度クラス生成の詳細：２値化／３値化）
付記１２記載のテロップ文字抽出方法に於いて、前記輝度クラス生成ステップは、
前記輝度ヒストグラムの輝度軸上に単一の閾値を設定して２分割した輝度クラスをもつ第１輝度ヒストグラムと、前記輝度ヒストグラムの輝度軸上に２つの閾値を設定して３分割した輝度クラスをもつ第２輝度ヒストグラム生成し、
輝度クラスを２分割した前記第１輝度ヒストグラムの閾値上のヒストグラム値と、輝度クラスを３分割した前記第２輝度ヒストグラムの２つの閾値上のヒストグラム値の平均値とを比較し、小さい方の輝度ヒストグラムを選択することを特徴とするテロップ文字抽出方法。

（付記１６）（テロップ文字候補の詳細：背景ノイズ除去）
付記１２記載のテロップ文字抽出方法に於いて、前記文字パターン候補選択ステップは、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成すると共に、連続する画素に同じラベル番号を付与して文字パターンとした２値ラベル画像を生成し、
前記２値ラベル画像に含まれる文字パターンの中から前記テロップ領域画像の外周に接している前記文字パターンのラベル番号を検出し、検出したラベル番号を持つ文字画素を背景ノイズとして除去し、
背景ノイズを削除した２値画像の面積をクラス毎に求め、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択することを特徴とするテロップ文字抽出方法。

（付記１７）（テロップ文字候補の詳細：線密度による選択）
付記１２記載のテロップ文字抽出方法に於いて、前記文字パターン候補選択ステップは、前記クラス毎に求めた２値画像の面積に大きな差がない場合、各クラスの２値画像毎に線密度を算出し、前記線密度が最小となるクラスの２値画像をテロップ文字候補画像として選択することを特徴とするテロップ文字抽出方法。

（付記１８）（ノイズ除去の詳細：処理方法１）
付記１２記載のテロップ文字抽出方法に於いて、前記ノイズ除去ステップは、
前記テロップ文字画像と原画である前記テロップ領域画像との論理積をとって文字色画像を生成して最大頻度色を抽出し、
前記テロップ文字候補画像から前記最大頻度色に対応する文字画素を抽出してノイズ画素を除去することによりテロップ文字画像を生成し、
前記最大頻度色の抽出は、
前記文字色画像についてＲＧＢカラー空間の３次元カラーヒストグラムを生成し、
前記ＲＧＢカラー空間の各座標軸をｎ分割して量子化した小立方体を作成し、各小立方体に含まれる前記文字色画像の画素数をカウントし、
各小立方体毎に、周囲に存在する複数の小立方体と比較してカウントが同じか大きい場合に、周囲にある小立方体のカウントを全て合計した値を自己のカウントとし、
前記カウントが最大となる小立方体に属する色を最大頻度色として抽出することを特徴とするテロップ文字抽出方法。

（付記１９）（ノイズ除去の詳細：処理方法２）
付記１記載のテロップ文字抽出方法に於いて、前記ノイズ除去ステップは、
前記テロップ文字画像と原画である前記テロップ領域画像との論理積をとって文字色画像を生成し、
前記文字色画像から全体平均色を求めると共に、前記２値ラベル画像の同一ラベル番号を付与した画素集合からなる文字パターン毎に領域平均色と領域面積を求め、
ノイズ判定値として、前記２値ラベル画像の文字パターン毎に、全体平均色と領域平均色との差に領域面積を乗算した値を算出し、
前記ノイズ判定値が所定の閾値より大きな文字パターンをノイズとして前記テロップ文字候補画像から除去してテロップ文字画像を生成することを特徴とするテロップ文字抽出方法。

（付記２０）（装置）
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
前記テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
前記グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
前記エッジ領域画像をマスク画像として前記グレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
前記輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成部と、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
前記テロップ文字候補画像に対応して前記テロップ領域画像で使われている文字色を判定し、前記文字色に該当する文字画素を前記テロップ文字候補画像から抽出することによりノイズ画素を除去してテロップ文字画像を生成するノイズ除去部と、
を備えたことを特徴とするテロップ文字抽出装置。（８）

本実施形態のテロップ文字抽出装置における機能構成を示したブロック図本実施形態のプログラムが実行されるコンピュータのハードウェア環境を示したブロック図本実施形態によるテロップ文字抽出処理の手順を示したフローチャート図３のステップＳ３におけるエッジ近傍領域抽出処理の詳細を示したフローチャート本実施形態におけるテロップ領域画像、グレースケール画像、エッジ２値画像及び膨張画像を示した説明図図３のステップＳ４におけるヒストグラム作成処理の詳細を示したフローチャートヒストグラムの平滑化処理を示した説明図平滑化するための移動平均計算の説明図図３のステップＳ５における輝度クラス生成処理の詳細を示したフローチャート本実施形態における２クラス化と３クラス化した輝度ヒストグラムの説明図図３のステップＳ６における文字パターン候補選択処理の詳細を示したフローチャート図１１のステップＳ１１における３クラス化候補抽出処理の詳細を示したフローチャート本実施形態の３クラス化候補抽出処理における処理画像を示した説明図図１３の低輝度クラスにおける処理画像を拡大して示した説明図図３のステップＳ７におけるノイズ除去処理の詳細を示したフローチャート図１５のステップＳ１における文字色画像生成の処理画像を示した説明図図１５のノイズ除去による処理画像を示した説明図図３のステップＳ７におけるノイズ除去処理の詳細の他の実施形態を示したフローチャート英文テロップ文字を対象とした本実施形態におけるテロップ領域画像、グレースケール画像、エッジ２値画像及び膨張画像を示した説明図英文テロップ文字を対象とした本実施形態の３クラス化候補抽出処理における処理画像を示した説明図英文テロップ文字を対象とした図１５のステップＳ１における文字色画像生成の処理画像を示した説明図英文テロップ文字を対象とした図１５のノイズ除去による処理画像を示した説明図

符号の説明

１０：テロップ文字抽出処理部
１２：映像ファイル
１４：記憶部
１６：画像入力部
１８：グレースケール画像生成部
２０：エッジ領域抽出部
２２：輝度ヒストグラム作成部
２４：輝度クラス生成部
２６：文字パターン候補選択部
２８：ノイズ除去部
３０：テロップ文字出力部
３２：テロップ領域画像
３４：グレースケール画像
３６：エッジ領域画像
３８：輝度ヒストグラム
４０：輝度クラス別２値画像
４２：テロップ文字候補画像
４４：テロップ文字画像
４６：文字認識部
４８：ＣＰＵ
５０：バス
５２：ＲＡＭ
５４：ＲＯＭ
５６：ハードディスクドライブ
５８：デバイスインタフェース
６０：キーボード
６２：マウス
６４：ディスプレイ
６６：ネットワークアダプタ
６８，１０８：テロップ領域画像
７０，１１０：グレースケール画像
７２，１１２：エッジ２値画像
７４，１１４：膨張画像
７６，７８：輝度ヒストグラム曲線
８０：平滑化前輝度値
８２：平滑化後輝度値
８４−１，８６−１：低輝度クラス
８４−２，８６−３：高輝度クラス
８６−２：中輝度クラス
９０−１〜９０−３，１１６−１〜１１６−３：２値画像
９２−１〜９２−３，１１８−１〜１１８−３：２値ラベル画像
９４−１〜９４−３，１２０−１〜１２０−３：ノイズ除去２値画像
９６−１〜９６−８：文字パターン
９８−１，９８−２，９８−８：ラベルパターン
１００，１２２：原画増
１０２，１２４：論理積
１０４，１２６：文字色画像
１０５，１２７：ノイズ
１０６，１２８：テロップ文字画像

Claims

コンピュータに、
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
前記テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
前記グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
前記エッジ領域画像をマスク画像として前記グレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
前記輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成部と、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
前記テロップ文字候補画像に対応して前記テロップ領域画像で使われている文字色を判定し、前記文字色に該当する文字画素を前記テロップ文字候補画像から抽出することにより判定した文字色以外の文字画像をノイズ画素として除去してテロップ文字画像を生成するノイズ除去部と、
を実行させるためのテロップ文字抽出プログラム。
請求項１記載のテロップ文字抽出プログラムに於いて、前記輝度クラス生成部は、
前記輝度ヒストグラムの輝度軸上に単一の閾値を設定して２分割した輝度クラスをもつ第１輝度ヒストグラムと、前記輝度ヒストグラムの輝度軸上に２つの閾値を設定して３分割した輝度クラスをもつ第２輝度ヒストグラムを生成し、
輝度クラスを２分割した前記第１輝度ヒストグラムの閾値上のヒストグラム値と、輝度クラスを３分割した前記第２輝度ヒストグラムの２つの閾値上のヒストグラム値の平均値とを比較し、小さい方の輝度ヒストグラムを選択することを特徴とするテロップ文字抽出プログラム。
請求項１記載のテロップ文字抽出プログラムに於いて、前記文字パターン候補選択部は、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成すると共に、連続する画素に同じラベル番号を付与して文字パターンとした２値ラベル画像を生成し、
前記２値ラベル画像に含まれる文字パターンの中から前記テロップ領域画像の外周に接している前記文字パターンのラベル番号を検出し、検出したラベル番号を持つ文字画素を背景ノイズとして除去し、
背景ノイズを削除した２値画像の面積をクラス毎に求め、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択することを特徴とするテロップ文字抽出プログラム。
請求項１記載のテロップ文字抽出プログラムに於いて、前記ノイズ除去部は、
前記テロップ文字画像と原画である前記テロップ領域画像との論理積をとって文字色画像を生成して最大頻度色を抽出し、
前記テロップ文字候補画像から前記最大頻度色に対応する文字画素を抽出してノイズ画素を除去することによりテロップ文字画像を生成し、
前記最大頻度色の抽出は、
前記文字色画像についてＲＧＢカラー空間の３次元カラーヒストグラムを生成し、
前記ＲＧＢカラー空間の各座標軸をｎ分割して量子化した小立方体を作成し、各小立方体に含まれる前記文字色画像の画素数をカウントし、
各小立方体毎に、周囲に存在する複数の小立方体と比較してカウントが同じか大きい場合に、周囲にある小立方体のカウントを全て合計した値を自己のカウントとし、
前記カウントが最大となる小立方体に属する色を最大頻度色として抽出することを特徴とするテロップ文字抽出プログラム。
請求項１記載のテロップ文字抽出プログラムに於いて、前記ノイズ除去部は、
前記テロップ文字画像と原画である前記テロップ領域画像との論理積をとって文字色画像を生成し、
前記輝度クラス毎に各クラスに属する輝度の画素を集めた２値画像を生成すると共に連続する画素に同じラベル番号を付与して文字パターンとした２値ラベル画像を生成し、
前記文字色画像から全体平均色を求めると共に、前記２値ラベル画像の同一ラベル番号を付与した画素集合からなる文字パターン毎に領域平均色と領域面積を求め、
ノイズ判定値として、前記２値ラベル画像の文字パターン毎に、全体平均色と領域平均色との差に領域面積を乗算した値を算出し、
前記ノイズ判定値が所定の閾値より大きな文字パターンをノイズと判定して前記テロップ文字候補画像から除去したテロップ文字画像を生成することを特徴とするテロップ文字抽出プログラム。
コンピュータに、
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
前記テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
前記グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
前記エッジ領域画像をマスク画像として前記グレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
前記輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成部と、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
前記テロップ文字候補画像に対応して前記テロップ領域画像で使われている文字色を判定し、前記文字色に該当する文字画素を前記テロップ文字候補画像から抽出することにより判定した文字色以外の文字画像をノイズ画素として除去してテロップ文字画像を生成するノイズ除去部と、
を実行させるためのテロップ文字抽出プログラムを格納したコンピュータ可読の記録媒体。
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力ステップと、
前記テロップ領域画像からグレースケール画像を生成するグレースケール画像生成ステップと、
前記グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出ステップと、
前記エッジ領域画像をマスク画像として前記グレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成ステップと、
前記輝度ヒストグラムの輝度を輝度クラスに分割する輝度クラス生成ステップと、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択ステップと、
前記テロップ文字候補画像に対応して前記テロップ領域画像で使われている文字色を判定し、前記文字色に該当する文字画素を前記テロップ文字候補画像から抽出することにより判定した文字色以外の文字画像をノイズ画素として除去してテロップ文字画像を生成するノイズ除去ステップと、
を備えたことを特徴とするテロップ文字抽出方法。
カラー画像データから切り出されたテロップ文字を含むテロップ領域画像を入力する画像入力部と、
前記テロップ領域画像からグレースケール画像を生成するグレースケール画像生成部と、
前記グレースケール画像からエッジを抽出して膨張させたエッジ領域画像を生成するエッジ領域抽出部と、
前記エッジ領域画像をマスク画像として前記グレースケール画像のマスク画像に属する画素の輝度ヒストグラムを作成するヒストグラム作成部と、
前記輝度ヒストグラムの輝度を複数の輝度クラスに分割する輝度クラス生成部と、
前記輝度クラス毎に、各クラスに属する輝度の画素を集めた２値画像を生成し、面積が最大となるクラスの２値画像をテロップ文字候補画像として選択する文字パターン候補選択部と、
前記テロップ文字候補画像に対応して前記テロップ領域画像で使われている文字色を判定し、前記文字色に該当する文字画素を前記テロップ文字候補画像から抽出することにより判定した文字色以外の文字画像をノイズ画素として除去してテロップ文字画像を生成するノイズ除去部と、
を備えたことを特徴とするテロップ文字抽出装置。