JP3692018B2

JP3692018B2 - テロップ情報処理装置

Info

Publication number: JP3692018B2
Application number: JP2000216407A
Authority: JP
Inventors: 雄志三田; 修堀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-01-24
Filing date: 2000-07-17
Publication date: 2005-09-07
Anticipated expiration: 2020-07-17
Also published as: JP2001285716A

Description

【０００１】
【発明の属する技術分野】
本発明は、映像中からテロップの検出・認識を行うテロップ情報処理装置に関する。
【０００２】
【従来の技術】
従来、映像からテロップを検出する方法では、テロップ文字周辺では急峻なエッジが現れることを利用し、エッジ画素を縦横に投影してテロップ領域を求める方法（例えば、特開平１０−３０４２４７「映像テロップ検出方法および装置」）や、エッジの勾配方向からエッジペアと呼ぶものを求めテロップ表示フレームを検出する方法（例えば、特開平１０−３２０５５７「テロップ文字表示フレーム検出方法及び装置」）がある。
【０００３】
また、検出したテロップ領域からテロップ文字を切り出し認識する方法としては、判別分析法により閾値を決定し２値化する方法（例えば、画像の認識・理解シンポジウム講演論文集Ｉ，ｐｐ．１０５−１１０，１９９８）がある。
【０００４】
テロップの出現・消滅を検出する方法では、部分的な矩形領域において輝度ヒストグラムの変化が大きい場合にエッジ位置の変化を調べる方法（例えば、信学技法ＰＲＭＵ９８−１８８，ｐｐ．９１−９８）や、テロップの存在する画素を１とし他を０としたテロップ候補画像を作成し、時間的に離れた２枚のテロップ候補画像の差分をとることによってテロップの切り替わりを調べる方法（例えば、特開平１０−３２２５９５「映像テロップ検出方法および装置」）がある。
【０００５】
【発明が解決しようとする課題】
しかしながら、上記従来手法それぞれには前提としているテロップの性質が存在する。１つのテロップが表示されている間にも、テロップ文字と背景のコントラストが変化することなどがあり、映像中にはそれぞれの手法にとって、同じテロップでも処理しやすい区間とそうでない区間が存在する。したがって、上記従来手法を単純に組み合わせても、処理の各段階において出力される情報の信頼性を考慮していなければ、精度の高い認識結果を得ることは難しい。
【０００６】
また受信している映像をリアルタイム処理しテロップ情報を取り出す際には、テロップが出現してから消滅するまでに複数の認識結果を得ておき、テロップ消滅後に１つを選択しなければならない場合が考えられる。上記従来手法を組み合わせただけでは、どの認識結果を用いれば高精度な結果が得られるのかについて判断することができない。
【０００７】
本発明は、上記事情を考慮してなされたもので、高精度なテロップの検出・認識を行うことを可能としたテロップ情報処理装置を提供することを目的とする。
【０００９】
【課題を解決するための手段】
本発明は、一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成するとともに、該文字切り出し画像に対する信頼度評価値を求める第１の処理手段と、この手段により求められた前記文字切り出し画像にＯＣＲ処理を施して、文字認識結果を求める第２の処理手段と、前記第１及び第２の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果のうちから前記第１の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高い文字認識結果を選択し、選択した該文字認識結果に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とする。
また、本発明は、一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成するとともに、該文字切り出し画像に対する信頼度評価値を求める第１の処理手段と、この手段により求められた前記文字切り出し画像にＯＣＲ処理を施して、文字認識結果を求める第２の処理手段と、この手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第３の処理手段と、前記第１、第２及び第３の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果又はテロップ領域情報の少なくとも一方から前記第１の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高いものを選択し、これに基づいてテロップ情報を作成する前記テロップ情報作成手段とを備えたことを特徴とする。
また、本発明は、一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成する第１の処理手段と、この手段により求められた前記文字切り出し画像にＯＣＲ処理を施して、文字認識結果を求めるとともに、該文字認識結果に対する認識信頼度を求める第２の処理手段と、前記第１及び第２の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果のうちから前記第２の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高い文字認識結果を選択し、選択した該文字認識結果に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とする。
また、本発明は、一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成する第１の処理手段と、この手段により求められた前記文字切り出し画像にＯＣＲ処理を施して、文字認識結果を求めるとともに、該文字認識結果に対する認識信頼度を求める第２の処理手段と、この手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第３の処理手段と、前記第１、第２及び第３の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果又はテロップ領域情報の少なくとも一方から前記第２の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高いものを選択し、これに基づいてテロップ情報を作成する前記テロップ情報作成手段とを備えたことを特徴とする。
【００１６】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための（あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための）プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【００１７】
本発明では、映像からテロップが表示されている領域を検出し、テロップ文字を構成する画素のみを抽出して、ＯＣＲ処理で認識を行うとともに、これら一連の処理の信頼性評価結果に基づいて、１つのテロップに対して存在する複数の認識結果から１つを選択するなどして、信頼性の高いテロップ情報を作成する。
【００１８】
本発明によれば、同一のテロップに対して存在する複数の認識結果から高精度に認識できたものを選択して結果を出力することが可能となる。また、本発明によれば、同一のテロップに対して存在する複数の認識結果から高精度に認識できた文字を選択し、その文字から文字列を構成してテロップ情報として出力することが可能となる。また、文字列の認識信頼度を表す数値も同時に得ることが可能となる。さらに、ユーザに提示するためのテロップを選択する枠組みを提供することが可能となる。
【００２０】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【００２１】
本実施形態では、映像中からテロップを検出し、テロップを構成する文字を認識する。図３に例示するように、テロップは、通常、映像１００の内容部分（コンテンツ）１０１の上に直に表示される文字列１０２，１０３である（図３では横書き文字列が２つある場合を例示している）か、または、より見やすくするために、コンテンツの上にはまず特別の画像領域（例えば、コンテンツ部分とは別に作成された例えば輝度の小さい画素からなる矩形状の領域、あるいはコンテンツの特定の領域内のみ輝度を低下させるなどの処理を施したその特定の領域）を設け、その中にテロップ文字列が書かれることもある（なお、文字列は、１文字の場合も含むものとする）。
【００２２】
なお、以下では、映像中のあるテロップに対してそのテロップ文字以外の部分を背景と表現するものとする。
【００２３】
本実施形態では、処理の対象とするテロップは、映像中における（画素的な）位置が一定時間以上静止しており、かつ、（テロップ文字の近傍における）背景に比べて高輝度の画素から構成される、という性質を持つものとする。また、テロップは、その出現から消滅までの間、色や輝度の変化がない（あるいは、変化が少ない）ものとする。
【００２４】
図１に、本実施形態に係るテロップ情報処理システムの構成例を示す。また、図２に、本テロップ情報処理システムにおける映像テロップ検出・認識処理の手順の一例を概略的に示す。
【００２５】
図１に示されるように、このテロップ情報処理システムは、テロップ候補画像作成部１と、テロップ文字列領域候補抽出部２と、テロップ文字画素抽出部３と、テロップ文字認識部４と、テロップ情報作成部５とを有する。
【００２６】
まず、映像データがテロップ候補画像作成部１に入力され、映像に含まれるテロップを構成する画素の候補が検出され、テロップ候補画像が作成される（ステップＳ１）。なお、全フレームを対象とする方法と、一定の規則でサンプリングしたフレームのみを対象とする方法がある。
【００２７】
テロップ候補画像はテロップ文字列領域候補抽出部２に入力され、孤立画素を連結して、文字列領域候補が抽出される（ステップＳ２）。
なお、テロップ候補画像によって、文字列領域候補は、１つ抽出されることも、２つ以上抽出されることも、抽出されないこともある（抽出されなかった場合には、当該テロップ候補画像についてはここで処理が中止される）。
【００２８】
テロップ文字画素抽出部３では、ステップＳ２で得られた各々の文字列領域候補について、テロップ文字を構成する画素を詳細に切り出し、ノイズ除去を行って、文字切り出し画像を作成するとともに、文字画素抽出処理の信頼性評価を行い、評価値を求める（ステップＳ３）。
【００２９】
テロップ文字認識部４は、各々の文字列領域候補について、ステップＳ３で得られた文字切り出し画像に文字認識処理を施して、テロップ領域（この場合、文字切り出し画像において文字として処理された画素集合に対する外接矩形）と各文字の文字認識結果（この場合、文字コード）と各文字の文字認識結果に対する認識信頼度を得る（ステップＳ４）。文字認識処理には、良く知られたＯＣＲ処理（ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）装置の内部で行われる文字認識処理に用いられる処理）を利用するものとする。
なお、テロップではないために文字が認識できないなどによって、当該文字列領域候補（文字切り出し画像）についてここで処理が中止されることもある。
【００３０】
テロップ情報作成部５は、ステップＳ４で得られたテロップ領域／文字コード列をもとにして、同一テロップの出現、継続、消滅を判定するとともに、そのテロップが表示されている間（出現から消滅までの間）にそのテロップについて複数の結果（テロップ領域／文字コード列）が得られた場合には、それらのうちからより高精度な結果を選択する（ステップＳ５）。
【００３１】
以下、本実施形態についてより詳しく説明する。
【００３２】
まず、テロップ候補画像作成部１における処理について説明する。
【００３３】
図４に、テロップ候補画像作成部１においてテロップ候補画像を作成する手順の一例を示す。
【００３４】
まず、ステップＳ２１において、例えばＭＰＥＧ等により圧縮された映像を入力して、この映像の中から例えば１フレーム分の画像を取り出す。取り出された画像は、過去一定時間の画像を格納するバッファに保存される。
【００３５】
ところで、テロップは人間が読むのに十分な大きさと十分な時間の長さで表示される。したがって、極端に小さな文字や大きな文字が含まれることはほとんどなく、テロップが表示されている時間も通常は２秒以上の長さを有する。一般に、ＭＰＥＧ−２はＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）と呼ばれる単位で区切られており、ＧＯＰの先頭にＩフレームというイントラフレームのみで圧縮したフレームを含んでいる。ＧＯＰは１５フレーム（０．５秒）に設定することが多く、Ｉフレームは０．５秒おきに出現するのが一般的である。したがって、このような場合には、Ｉフレームのみを復号して処理の対象とするだけでもテロップを検出・認識するためには十分であることが通常である。そこで、本実施形態では、ＭＰＥＧ−２のＩフレーム画像のみを処理の対象とする場合を例にとって説明する。もちろん、ＭＰＥＧ−２ではなく他の形式のデジタル画像から設定した時間間隔でサンプリングを行い、画像を入力してもよい。また、すべてのフレーム画像を処理の対象とすることも可能である。また、アナログ映像をデジタル化しながら画像を取得してもかまわない。
【００３６】
なお、図４の手順例では、あるフレーム画像を処理の対象とするときに、当該フレーム画像のみを使って処理を行うのではなく、過去のフレーム画像（群）をも使うものとしている。
【００３７】
そこで、本実施形態では、一例として、ＭＰＥＧ−２のＩフレーム画像のみを処理の対象とし、４枚分のＩフレーム画像を保存するバッファを用意しておき、Ｉフレーム画像を１枚ずつデコードしながら処理を進めていくものとする。
【００３８】
なお、ここでは、バッファには処理（例えば平均もしくは論理積）に用いる枚数の画像を保存するものとするが、その必要な枚数より多い枚数の画像がバッファに保存されても構わない。
【００３９】
さて、ステップＳ２２では、バッファに蓄積された複数枚の画像（本例では、当該Ｉフレーム画像を含む、過去連続する４枚のＩフレーム画像）について、同一の位置にある画素の輝度平均を求め、輝度平均画像を作成する。
【００４０】
輝度を平均化することにより、背景など動きのある部分の画素はボケるため、静止しているテロップ文字と区別しやすくなるという特性を持つ。
【００４１】
なお、ここでは、次の輝度分散画像の計算のために輝度平均画像を作成しているが、この輝度平均画像は後述するようにテロップ文字画素抽出を行う際にも用いられる。したがって、得られた輝度平均画像は、当該Ｉフレーム画像の輝度平均画像を必要とするテロップ文字画素抽出が済むまで保存しておく。
【００４２】
ステップＳ２３では、ステップＳ２２と同一の画像群について、同一の位置にある画素の輝度分散を求め、輝度分散画像を作成する。なお、ここでは、一定の閾値より低い分散値を持つ画素を１、それ以外の画素を０に、２値化する。
【００４３】
輝度分散は輝度の変化が激しいほどその値が大きくなるので、背景など動きのある部分の画素では輝度分散値が大きくなり、テロップ文字を区別しやすくなる。
【００４４】
図５（ａ）に、「テ」「ロ」「ッ」「プ」という文字列からなるテロップを含む画像から得られた輝度分散画像（ただし、文字の近傍のみ抜き出した部分）の一例を示す。図５（ａ）では、文字「テ」「ロ」「ッ」「プ」に対応する画素群の他に、ノイズとなる画素群が示されている。
【００４５】
一方、ステップＳ２４では、サンプリング画像（当該Ｉフレーム画像）からエッジ検出を行う。エッジ検出には、微分オペレータなどを用いる。
【００４６】
ステップＳ２５では、ステップＳ２４で検出されたエッジの強度が閾値より高ければ１、低ければ０として、２値化する。これによって得られる画像をエッジ検出２値化画像と呼ぶものとする。このエッジ検出２値化画像についても、サンプリング画像とは別のバッファに、（今得られた画像を含めて４枚分）保存しておく。
【００４７】
ステップＳ２６では、バッファに蓄積された複数枚のエッジ検出２値化画像（本例では、ステップＳ２５で得られた当該Ｉフレーム画像に対するエッジ検出２値化画像を含む、過去連続する４枚のＩフレーム画像に対するエッジ検出２値化画像）の画素毎の論理積を求め、不動エッジ画像を得る。
【００４８】
これにより、エッジの位置が変化しない強度の高いエッジを構成する画素を抽出することができる。テロップ文字は背景（特に、テロップ文字の近傍における背景）とコントラストが強いため、このような強いエッジを持つ。また、静止しているという性質から位置の変化しないエッジがテロップ文字を構成する可能性が高い。
【００４９】
図５（ｂ）に、図５（ａ）と同一の画像から得られた不動エッジ画像（ただし、文字の近傍のみ抜き出した部分）の一例を示す。図５（ｂ）においても、文字「テ」「ロ」「ッ」「プ」から得られた（エッジの位置が変化しない強度の高い）エッジに対応する画素群の他に、ノイズとなる画素群が示されている。
【００５０】
さて、当該サンプリングにおいて輝度分散画像と不動エッジ画像が得られたならば、ステップＳ２７では、輝度分散画像と不動エッジ画像の画素毎の論理積を求める。
【００５１】
これにより、輝度の変化がなく、強いエッジが一定時間以上存在する画素を、抽出することが可能となる。これによって得られる画像をテロップ候補画像と呼ぶものとする。
【００５２】
図５（ｃ）に、「テ」「ロ」「ッ」「プ」という文字列からなるテロップを含む画像から得られたテロップ候補画像（ただし、文字の近傍のみ抜き出した部分）の一例を示す。すなわち、図５（ａ）の輝度分散画像と図５（ｂ）の不動エッジ画像の画素毎の論理積を求めたものである。図５（ｃ）では、図５（ａ）や図５（ｂ）にあったノイズが除去されていることが示されている。
【００５３】
次に、テロップ文字列領域候補抽出部２における処理について説明する。
【００５４】
図６に、テロップ文字列領域候補抽出部２において文字列領域候補を抽出する手順の一例を示す。
【００５５】
ステップＳ３１では、テロップ候補画像作成部１で得られたテロップ候補画像（テロップ文字である蓋然性の高い画素＝１、背景である蓋然性の高い画素＝０、となっている）をラベリング処理することにより、孤立図形を得る。
【００５６】
ステップＳ３２では、孤立図形から文字候補を選択する。この際に、文字を囲む矩形領域の縦横比により、文字とそうでない図形を大まかに区別する。数字の「１」や漢数字の「一」を見落とさないように、例えば、縦：横＝１０：１、縦：横＝１：１０などのように設定すればよい。
【００５７】
ステップＳ３３では、文字候補図形を連結して、連結領域を作成する。
【００５８】
文字候補図形の連結処理では、例えば、文字候補図形をなす辺同士の距離が近いものを連結する。また、テロップのほとんどは横書きもしくは縦書きであり、文字が一直線に並んでいることが多く、１つの文字列内にある文字の大きさも一定である。そこで、例えば、横書きテロップの場合には、文字図形の高さが近い図形を集め、さらに図形の重心位置が縦方向にばらつかないものを連結し、縦書きテロップの場合には、文字図形の幅が近い図形を集め、さらに図形の重心位置が横方向にばらつかないものを連結する。
【００５９】
また、連結した全文字候補図形を構成する全画素に対する外接矩形を求め、これを連結領域とする。得られる連結領域は、０のときも、１のときも、２以上のときもある。ここでは、連結領域は、その矩形の４頂点の座標（画素位置）で表すものとする（もちろん、他の表し方でも構わない）。
【００６０】
ところで、映像の内容によっては、テロップ文字列ではない連結領域が得られることもある。
【００６１】
そこで、ステップＳ３４では、連結領域から、テロップ文字列である可能性がないと判断される連結領域を除外し、それ以外を文字列領域候補として選択して出力する。例えば、領域内の全画素数に占める、画素値＝１の画素の総数の割合を用いることによって、テロップ文字列と、そうでないものを区別する（この場合、基準以上の割合で、画素値＝１の画素が含まれるものを、文字列領域候補として選択する）。この例の場合には、文字列領域候補は、その矩形の４頂点の画素位置で表されることになる。
【００６２】
図７は、映像のフレーム全体１２０における下方の位置に「テ」「ロ」「ッ」「プ」という文字列からなるテロップが含まれる場合に得られた文字列領域候補１２２の例を示している。
【００６３】
なお、文字列領域候補は、上記のように文字候補画素に対する外接図形としてもよいし、その外接図形をさらに所定画素分（例えば５画素分）だけ膨張させた図形としてもよい。本実施形態では、後者であるものとする。
【００６４】
次に、テロップ文字画素抽出部３における処理について説明する。
【００６５】
図８に、テロップ文字画素抽出部３においてテロップを構成する画素のみを背景から抽出する手順の一例を示す。
【００６６】
ここでは、テロップ文字列領域候補抽出部２により抽出された各々の文字列領域候補ごとに処理が行われる。
【００６７】
また、テロップ文字画素抽出部３では、ある文字列領域候補を処理対象とする場合、（その文字列領域候補に対応する）図４のステップＳ２２においてテロップ候補画像作成部１によって作成された輝度平均画像から、その文字列領域候補の矩形領域に対応する部分を切り出したもの（すなわち、テロップ文字の近傍の輝度平均画像）が、処理対象とされる。
【００６８】
まず、ステップＳ４０〜Ｓ４６によって、テロップ文字の近傍の画素から輝度分布を取得し、２つの閾値を設定してテロップ文字を背景から切り出す。なお、ここでは、ステップＳ４０〜Ｓ４６の処理として「ＣＶＩＭ１１４−１７，ｐｐ．１２９−１３６，１９９９」に示される「テロップ認識のための映像からの文字部抽出法」を用いるものとする。
【００６９】
まず、ステップＳ４０において、エッジ検出を行い、その強度の高いものを２値化し抽出する。これにより、テロップ文字の候補を求める。
【００７０】
次に、ステップＳ４１において、ステップＳ４０で抽出されたエッジ画素を膨張させる。
【００７１】
ステップＳ４２では、その膨張領域の輝度から輝度ヒストグラム（横軸を輝度、縦軸をその輝度に該当する画素数とするもの）を作成する。輝度ヒストグラムは、テロップ、テロップの縁、背景を含み、三つの峰を持つものと仮定し、最も輝度が高い部分の山をなす分布の推定を行う。
【００７２】
ステップＳ４３では、正規分布を当てはめ、平均ｍおよび分散σの値を求める。これらの値に基づいて、テロップ文字を切り出すための２値化しきい値を設定する。まず、比較的安定している輝度の高い画素を文字領域の一部と仮定し、その領域を種に文字領域を拡張させて文字を切り出す。しきい値は２つ設定し、高い方をｍ＋ｔσ、低い方をｍ＋Ｔσとしている。
【００７３】
この方法としては、例えば、「ＣＶＩＭ１１４−１７，ｐｐ．１２９−１３６，１９９９」に示されるロバスト推定を用いる方法がある。また、別の方法として、例えば、「ＰｒｏｃｅｅｄｉｎｇｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ’９５（１９９５），ＰＰ．２４２６−２４３１」に記述されているＥＭアルゴリズムを利用してもよい。テロップ文字がなす分布に外乱が混じっていることを考慮し、２つの正規分布をＥＭアルゴリズムで当てはめる。白い文字のテロップでは、図９（ａ）に示すように輝度値２５５にピークを持つ分布が得られることが多い。ロバスト推定を用いる方法で正規分布を当てはめると、図９（ｂ）に示すように、分布の平均とピークがずれて、厳密には正しい推定結果が得られない場合があるが、ＥＭアルゴリズムを利用する方法では、図９（ｃ）に示すように、より正確な推定結果が得られる。テロップ文字がなす分布と外乱がなす分布の２つを求め、ピークが大きくなる方をテロップ文字とする。なお、当てはめる正規分布の数を１つ、２つ、３つ…、と変化させて分布の推定を行い、例えば赤池の「情報量基準（情報量基準による統計解析入門，ｐｐ．８０−８１，１９９５）」などを用いて、当てはめ精度を比較し、分布の個数を決定してもよい。この場合も、ピークが最も高くなる分布をテロップ文字の分布とする。
【００７４】
ステップＳ４４において、高い方のしきい値ｍ＋ｔσより大きな輝度を持つ画素を取り出す。
【００７５】
次に、これらの画素の近傍で、低い方のしきい値ｍ＋Ｔσより大きな値を持つ画素を検出する（ステップＳ４５）。新たに検出された画素の周りについても探索し、画素が検出されるかぎり、ステップＳ４５とステップＳ４６を繰り返す。新たに検出された画素の周りについて探索しても、画素の検出が行われなくなったならば、２値化処理を終了する（ステップＳ４６）。
【００７６】
以上の手順によって得られた（テロップ文字である蓋然性の高い画素＝１、背景である蓋然性の高い画素＝０、となっている）２値画像には、まだノイズが含まれている可能性がある。例えば、テロップ文字ではないが、文字と隣接しているｍ＋Ｔσ以上の輝度を持つ画素も抽出されてしまう。しかし、これらの画素は輝度は近くてもテロップと異なる色を持つことがある。
【００７７】
そこで、まず、ステップＳ４６の終了時点において得られた画素値＝１の画素について彩度を計算し、彩度ヒストグラム（横軸を彩度、縦軸をその彩度に該当する画素数とするもの）を作成する（ステップＳ４７）。ここで、テロップ文字以外の著しく異なった彩度を持つ画素は、彩度ヒストグラム上で主な分布とかけはなれた位置に存在する。
【００７８】
したがって、そのような画素を検出し、これをノイズとして除去する（ステップＳ４８）。そのためには、ステップＳ４３と同様にテロップ文字の彩度分布を推定し、重みが０と判断された彩度を持つ画素を除去すればよい。なお、彩度ヒストグラムについても、複数枚の画像から求めるようにしてもよい。
【００７９】
ステップＳ４８において得られた画像が、文字切り出し画像として出力される。
【００８０】
次に、ステップＳ４９では、ステップＳ４８までで行われた２値化処理の信頼性を評価する。
【００８１】
ここで、本実施形態で処理の対象としているテロップは、前述したように、
・一定時間以上静止している、
・（テロップ文字の近傍における）背景に比べて輝度が高い、
という２つの性質を持つ。すなわち、（テロップ文字の近傍における）背景の輝度変動が大きく、（テロップ文字の近傍における）背景に高い輝度を持つ画素が存在しないとき、高精度に文字画素の切り出しを行うことができる。したがって、文字画素抽出の信頼性評価値として、例えば、
▲１▼背景画素（例えば、テロップ文字画素群に対する外接矩形（あるいは外接矩形を所定画素分膨張させたもの）に含まれる全画素から当該テロップ文字画素群を除外したもの）のうちで輝度分散が閾値より高い画素の割合、
▲２▼背景画素のうちで輝度がｍ＋Ｔσより低い画素の割合、
▲３▼背景画素のうちで輝度分散が閾値より高く、かつ輝度がｍ＋Ｔσより低い画素の割合、
を用いることができる。
【００８２】
上記の３種類の評価値は、それらのすべてを求めて出力するようにしてもよいし、それらの一部を求めて出力するようにしてもよい。
【００８３】
次に、テロップ文字認識部４における処理について説明する。
【００８４】
テロップ文字認識部４は、各々の文字列領域候補について、テロップ文字画素抽出部３によって得られた文字切り出し画像に対して文字認識処理を施して、テロップ領域（この場合、文字切り出し画像において文字として処理された画素集合に対する外接矩形）と各文字の文字認識結果（この場合、文字コード）と各文字の文字認識結果に対する認識信頼度を得る。文字認識処理には、良く知られたＯＣＲ処理（ＯＣＲ装置の内部で行われる文字認識処理に用いられる処理）を利用するものとする。ここで、認識信頼度は、通常ＯＣＲ（処理）が保有する辞書に登録されている文字と入力された文字との類似度から得られる。
【００８５】
図１０に、テロップ文字認識部４においてＯＣＲ処理を行う手順の一例を示す。
【００８６】
すなわち、テロップ文字画素抽出３において得られた文字切り出し画像に対して、ＯＣＲ処理を施す（ステップＳ５１）。
【００８７】
これによって、該当する文字コードの列と、各文字に対する認識処理の信頼度と、当該認識処理で文字画素として使用された文字切り出し画像における画素群に対する外接矩形（例えば、４頂点の画素位置）とが得られる。また、この文字切り出し画像における外接矩形の４頂点の画素位置は、もとの全フレーム領域における当該文字切り出し画像の４頂点の画素位置をもとにして、もとの全フレーム領域における４頂点の画素位置に変換される。これによって得られる矩形領域（の４頂点の画素位置）が、サンプリング画像におけるテロップ領域（を示す４頂点の画素位置）となる。
【００８８】
もちろん、矩形領域の特定に他の表し方を用いる場合も同様である。
【００８９】
また、ステップＳ５１において得られた認識信頼度が閾値以下の場合には、当該認識結果を棄却する（ステップＳ５２）。
【００９０】
なお、複数の文字に対する認識結果が得られた場合に、１つでも認識信頼度が閾値以下の文字があるときには、例えば、当該文字列領域候補（文字切り出し画像）を破棄してしまう方法や、全ての文字の認識信頼度が閾値以下のときにのみ、当該文字列領域候補（文字切り出し画像）を破棄する方法がある。
【００９１】
なお、ここでは、テロップ文字認識部４によりテロップ領域を求めるものとしたが、他の方法によってテロップ領域を求めるようにしてもよい。また、対応する文字列領域候補でテロップ領域を代用するようなことも可能である。
【００９２】
次に、テロップ情報作成部５における処理について説明する。
【００９３】
前述したように、テロップ情報作成部５は、テロップ文字認識部４によって得られたテロップ領域／文字コード列をもとにして、同一テロップの出現、継続、消滅を判定するとともに、そのテロップが表示されている間（出現から消滅までの間）にそのテロップについて複数の結果（テロップ領域／文字コード列）が得られた場合には、それらのうちからより高精度な結果を選択するものである。
【００９４】
図１１に、テロップ情報作成部５における処理の手順の一例を示す。
【００９５】
テロップ情報作成部５には、テロップに関する情報、すなわちテロップ文字認識部４によって得られたテロップ領域と文字コード列とそのときのサンプリング画像を特定する情報（例えば、先頭フレームを起点とするフレーム番号あるいは先頭フレームからの時間、もしくは幾つ目のＧＯＰかなど）が順次入力されてくるものとする。
【００９６】
なお、例えば、図１３においては、テロップａは、３０２から３０７の６つのサンプリング・フレームに存在し、本例では４連続サンプリング・フレームにわたって存在してはじめてテロップが検出されるので、３０５〜３０７の３つのサンプリング・フレームで検出される。そして、例えば、出現フレーム＝３０２のＩフレーム、消滅フレーム＝３０７のＩフレーム、というように記録される。
【００９７】
まず、ステップＳ６１において、テロップの出現、継続、消滅の検出を行う。この詳細な手順の例は後述する（図１２、図１４）。
【００９８】
次に、ステップＳ６２において、同一テロップについて複数のテロップ領域（例えば４頂点の画素位置）が得られた場合に、それらのうちから１つのテロップ領域を選択する。
【００９９】
また、ステップＳ６３において、同一テロップについて複数のテロップ文字列の認識結果（文字コードの配列）が得られた場合に、それらのうちから１つのテロップ文字列の認識結果を選択する。
【０１００】
最終的には、例えば、テロップの検出順にテロップ識別子を付与するものとして、当該テロップのテロップＩＤ、当該テロップのテロップ領域を示す情報、当該テロップを構成する文字コード列、当該テロップの出現したフレームを示す情報、当該テロップの消滅したフレーム（すなわち、当該テロップが最後に検出されたフレーム）を示す情報の組を少なくとも含むフレーム情報が作成され、出力される。
【０１０１】
なお、当該テロップのテロップ領域を示す情報（例えば、矩形領域の４頂点の座標）により示される図形を、他の図形に変換して、その変換後の図形を示す情報を出力するようにしてもよい。例えば、テロップ領域が矩形である場合に、その矩形に内接もしくは外接する楕円を特定する情報（例えば、２つの焦点と楕円上の１点）を出力するようにしてもよい。
【０１０２】
さて、以下では、ステップＳ６１の処理についてより詳しく説明する。
【０１０３】
図１２に、テロップ情報作成部５において、テロップ領域の情報を用いてテロップの出現、継続、消滅の検出を行う詳細な手順の一例を示す。
【０１０４】
例えば、図１３に例示するように、サンプリング・フレーム３０５において、３０２〜３０５で示される４つのＩフレームからテロップが検出された場合（図中の３２１参照）、このテロップのテロップ領域／文字コード列がテロップ情報作成部５に与えられる。
【０１０５】
新しくテロップ領域の情報が得られて入力されたとき、ステップＳ７１で前のサンプリング・フレーム（本例の場合、Ｉフレーム）でテロップが検出されたかどうかを調べる。前のサンプリング・フレームでテロップが検出されていない場合、新たに「出現」したテロップとする（ステップＳ７６）。図１３のテロップ３２１の場合は、「出現」となる。
【０１０６】
前のサンプリング・フレームでテロップが検出されている場合、ステップＳ７２において、前のサンプリング・フレームにおける１つのテロップ領域と、入力された現在のサンプリング・フレームのテロップ領域との重なり部分を判定する。それらテロップ領域での共通部分がそれぞれのテロップ領域に占める割合がともに閾値以上であれば、「継続」表示中のテロップと判断する（ステップＳ７７）。図１３の３０３〜３０６で示される４つのＩフレームから検出されたテロップ３２２の場合は、「継続」となる。
【０１０７】
そうでなければ、前のサンプリング・フレームで検出された他のテロップがあれば（ステップＳ７３）、同様に、そのテロップ領域との重なりを調べ、上記条件を満たせば、「継続」表示中のテロップと判断する（ステップＳ７７）。この処理を繰り返し、前のサンプリング・フレームで検出された全てのテロップのテロップ領域と比較した結果、「継続」と判定されなかった場合には、現在のサンプリング・フレームのテロップは、新たに「出現」したテロップと判定される（ステップＳ７４）。
【０１０８】
以上の手順は、このサンプリング・フレームで複数のテロップが検出された場合には、その検出された全てのテロップについて行われる。
【０１０９】
なお、前のサンプリング・フレームで検出されたテロップであって、上記の処理において「継続」と判定されなかったものは、前のサンプリング・フレームにおいて「消滅」したものと（変更）する（ステップＳ７５）。図１３の（３０４〜３０７で示される４つのＩフレームから検出されたテロップ３２３の場合は、「消滅」となる。
【０１１０】
ところで、従来のように単に矩形領域を比較しただけでは、切り替わって表示されたテロップ領域が偶然同じ大きさである場合に対応できないが、本実施形態では、テロップ候補画像作成部１において不動エッジ画像を作成してテロップ領域を求めているため、このような切り替わりも検出することが可能となっている。例えば、サンプリング・フレーム３０８においては、３０７で示される前のＩフレームのテロップａから、テロップｂへと切り替わっているが、それらのテロップ領域が偶然同じ大きさであったとしても、本実施形態では、サンプリング・フレーム３０８においてテロップは検出されないことになる（テロップｂはさらに３つ後のサンプリングで検出される）。
【０１１１】
なお、本例の場合において、４つの連続するＩフレームにのみ含まれるような時間だけ表示されるテロップがあり得る場合には、１つのサンプリング・フレームでのみ検出されるテロップがある得る。このような場合には、ステップＳ７５において、例えば、前のサンプリング・フレームで検出され、「継続」とされたテロップであって、上記の処理において「継続」と判定されなかったものは、前のサンプリング・フレームにおいて「消滅」したものと変更し、なお前のサンプリング・フレームで検出され、「出現」とされたテロップであって、上記の処理において「継続」と判定されなかったものは、前のサンプリング・フレームにおいて「出現かつ消滅」と変更するようにしてもよい。
【０１１２】
次に、図１４に、テロップ情報作成部５において、テロップ文字コードの情報を用いてテロップの出現、継続、消滅の検出を行う詳細な手順の一例を示す。基本的には、図１２の処理と同様である。
【０１１３】
新しくテロップの文字コード列が得られて入力されたとき、ステップＳ８１で前のサンプリング・フレーム画像でテロップが検出されたかどうかをチェックする。前のサンプリング・フレームでテロップが検出されていない場合、新たに「出現」したテロップとする（ステップＳ８６）。
【０１１４】
前のサンプリング・フレームでテロップが検出されている場合、ステップＳ８２において前のサンプリング・フレームのテロップの文字コード列と、入力された現在のサンプリング・フレームのテロップの文字コード列とを比較し、いずれの文字列にも共通な文字の数もしくは文字数の割合が閾値以上であれば、「継続」表示中のテロップと判断する（ステップＳ８７）。
【０１１５】
そうでなければ、前のサンプリング・フレームで検出された他のテロップの文字コード列との比較を行う。全てのテロップの文字コード列と比較した結果（ステップＳ８３）、「継続」と判定されなかったテロップは新たに「出現」したテロップと判定される（ステップＳ８４）。
【０１１６】
また、前のサンプリング・フレームで検出されたテロップで「継続」と判定されなかったものは現在のサンプリング・フレームにおいて「消滅」したものとする（ステップＳ８５）。
【０１１７】
次に、テロップ矩形領域の決定方法について説明する。
【０１１８】
テロップ領域はＯＣＲ処理によって出力される例えば文字画素群に対する外接矩形の領域であり、テロップが一定の時間表示される場合には、テロップは、各サンプリング・フレームごと（本例の場合、各Ｉフレームごと）に得られるため、同一のテロップに対して複数のテロップ領域データが存在する。例えば、図１３において、テロップａについては、３つのテロップ領域データが存在する。
【０１１９】
ここで、それらテロップ領域のサイズは、必ずしも一致しない。例えば、テロップ文字の切り出し処理を行う際に、背景部分のノイズが混入した場合などは、実際の文字列を囲む領域より大きくなってしまうことがあり、逆に文字の一部が欠落してしまった場合などは、実際の文字列矩形より小さくなってしまう、というようなことが考えられる。そこで、それら複数のテロップ領域データから最も良いものを選択するのが好ましい。
【０１２０】
選択する際には、例えば、前述した文字画素抽出の信頼性評価値として以下の３つのうちの全部または一部を用いる。
▲１▼背景画素のうちで輝度分散がしきい値よりも高い画素の割合（背景の変動が激しいため、静止しているテロップ文字以外を除去しやすい）、
▲２▼背景画素のうちで輝度が前述のしきい値ｍ＋Ｔσより低い画素の割合（背景にテロップ文字と同程度の輝度を持つ領域が少ないほうがよい）、
▲３▼上記の▲１▼と▲２▼の両方を満たす画素の割合
これらの評価値は、テロップ領域データと同時に得られる。新しいテロップ領域データがテロップ情報作成部５に入力されると、評価値を参照して、より値が高いテロップ領域データを採用する。例えば、図１３においては、テロップａについて、３つのテロップ領域データのうちから最良のものが選択され、これが最終的にテロップ情報に含まれるテロップ領域データとなる。
【０１２１】
図１５に、この場合の手順の一例を示す。
【０１２２】
ステップＳ９１において、入力されたテロップ領域データが新しく出現したテロップのものであると判定されれば、そのテロップ領域データを保存する（ステップＳ９２）。そうでなければ、評価値（例えば、信頼性評価値）を比較し（ステップＳ９３）、より高い評価値のテロップ領域データを保存する（ステップＳ９４）。全てのテロップ領域データを比較したならば（ステップＳ９５）、処理を終了する。
【０１２３】
これにより、安定にテロップ文字を抽出できたときのテロップ領域のデータを得ることができる。
【０１２４】
なお、評価値としては、ＯＣＲ処理を行う際に得られる認識信頼度を用いてもよい。通常、ＯＣＲ処理では各文字に対してＯＣＲ辞書に登録してある文字とのマッチングを行うが、このマッチングの際に得られる確信度を用いてもよい。また、評価値としては、文字画素抽出の信頼性評価値と認識信頼度との両方を用いてもよい。
【０１２５】
また、上記では、複数のテロップ領域のうちから１つを選択したが、全てのテロップ領域のＯＲあるいはＡＮＤをとるなどによって、テロップ領域データを得るようにしてもよい。
【０１２６】
次に、テロップを構成する文字列の認識結果（文字コード列）の選択方法について説明する。基本的には、図１５の処理と同様である。
【０１２７】
テロップ文字列の認識結果はＯＣＲ処理によって出力される文字コードの配列であり、テロップが一定の時間表示される場合には、テロップは、各サンプリング・フレームごと（本例の場合、各Ｉフレームごと）に得られるため、テロップ領域と同様に、同一のテロップに対して複数の文字列認識結果（文字コード列）が存在する。
【０１２８】
ここで、それら認識結果においては、文字画素抽出処理の精度によって、互いに異なった結果となる場合があり得る（文字コード列のうち少なくとも対応する１つの文字コードが異なる場合があり得る）。
【０１２９】
選択する際には、例えば、前述した▲１▼〜▲３▼の文字画素抽出の信頼性評価値を用いる。新しい認識結果がテロップ情報作成部５に入力されると、評価値を参照して、より値が高い認識結果を採用する。
【０１３０】
図１６に、この場合の手順の一例を示す。
【０１３１】
ステップＳ１０１において、入力された文字コード列が新しく出現したテロップのものであると判定されれば、その文字コード列を保存する（ステップＳ１０２）。そうでなければ、評価値（例えば、信頼性評価値）を比較し（ステップＳ１０３）、より高い評価値の文字コード列を保存する（ステップＳ１０４）。全てのテロップの文字コード列をチェックしたら（ステップ１０５）、処理を終了する。
【０１３２】
これにより、高精度にテロップ文字列を認識することができる。
【０１３３】
なお、評価値としては、ＯＣＲ処理を行う際に得られる認識信頼度を用いてもよい。また、評価値としては、文字画素抽出の信頼性評価値と認識信頼度との両方を用いてもよい。
【０１３４】
以上のようにして、テロップ情報作成部５では、各々のテロップに対して出力結果（テロップ情報）を取得することができる。ここで得られる結果は、背景からテロップ文字を切り出す処理がどの程度の精度で行えたかを判定して求めることができるため、高精度なものが得られるという特徴がある。
【０１３５】
次に、テロップ情報作成部５における処理の他の例について説明する。
【０１３６】
さて、従来、キーワード検索やニュース記事の分類などを目的として、テロップを抽出・認識する方法が提案されている。例えば、ＰＲＵ９５−２４０，ｐｐ．３３−４０，１９９６−０３，「ニュース映像中の文字認識に基づく記事の索引付け」がある。しかし、例えば、映像内容を表す文字情報をユーザに提示し、その映像が興味のあるものかどうか、あるいは映像中のどの部分から視聴したいかを決定するというような目的で、テロップ情報を用いるには、より高精度な文字認識性能が望まれる。キーワード検索やニュース記事の分類などを行う際には、誤りを含んだ認識結果が存在しても、正しい認識結果が１つ含まれていればよいし、また、重要なキーワードを認識できていれば、そのキーワードを含む文字列中で他の文字に認識誤りがあってもよいが、ユーザに提示するための文字情報とする目的では、誤りを含んだ文字列は不適切である。すなわち、ユーザに提示するために、誤りを含まない文字列情報を取得するためには、キーワード検索やニュース記事の分類などを目的として提案されている従来の方法では不十分である。
【０１３７】
そこで、上記では認識結果の候補から文字列の単位で高精度に認識できたものを選択する処理の例を示したが、以下では、文字の単位で高精度に認識できたものを選択して文字列を再構成する処理の例について説明する。
【０１３８】
以下で説明する例は、複数の文字列候補に含まれる文字の中から、文字単位で評価値（例えば、文字画素抽出の信頼性評価値と認識信頼度との一方または両方に基づく値）の高い文字を選択し、選択した文字を並べて文字列を取得し、これを最終的なテロップ情報とするものである。
【０１３９】
この場合、まず、テロップ情報作成部５では、それぞれのテロップが出現してから消失するまでに得られた認識結果をすべて保存しておく。図１７に、保持しておく情報とその記述方法の一例を示す。テロップ情報として１６０１〜１６０７の情報を保持する（なお、１６０６および１６０７のうちの全部または一部を、１６０１〜１６０３が得られた後に破棄してしまう構成も可能である）。なお、テロップの検出順にテロップ識別子が付与されてもよい。
【０１４０】
１６０１は、（ここでの処理によって文字の単位で選択されて求められた）当該テロップの文字列を構成する文字コードの配列である。
【０１４１】
１６０２は、当該テロップの外接矩形である。例えば、文字コード配列１０６１の各文字の画像内における矩形の頂点座標値（１６１３）の集合に対する外接矩形の頂点座標値である（なお、外接矩形をさらに所定画素分だけ膨張させた図形としてもよい）。
【０１４２】
１６０３は、当該テロップの認識結果の信頼度である。ここで、信頼度とは、ここでの処理によって文字の単位で選択されて求められた当該テロップ全体の認識度である。信頼度には、例えば、文字コード配列１０６の各文字の認識信頼度の平均値あるいは最高値を用いる。なお、この信頼度１６０３をテロップ情報から省いた構成も可能である。
【０１４３】
１６０４はテロップ出現フレームであり、１６０５はテロップ消失フレームである。テロップ出現フレーム１６０４とテロップ消失フレーム１６０５の情報により、テロップの存在区間を表現する。
【０１４４】
１６０６は上記の存在区間で得られたテロップ文字列候補の数（Ｎ）であり、１６０７は得られた各テロップ文字列候補の情報（１〜Ｎ）である。
【０１４５】
各文字列候補情報１６０７は、その文字列の外接矩形１６０８、その文字列の認識信頼度１６０９、その文字画素抽出の信頼性評価値１６１０、その文字列を構成する文字の数１６１１、その文字列を構成する各文字についての文字情報１６１２を持つ。
なお、外接矩形１６０８は、例えば、当該文字列を構成する各文字の画像内における矩形の頂点座標値（１６１３）の集合に対する外接矩形（あるいは、外接矩形をさらに所定画素分だけ膨張させた図形）の頂点座標値である。また、認識信頼度１６０９は、例えば、当該文字列を構成する各文字の認識信頼度の平均値あるいは最高値である。また、信頼性評価値１６１０は、例えば、当該文字列を構成する各文字の信頼性評価値１６１５の平均値あるいは最高値である。
【０１４６】
各文字情報１６１２は、その文字の外接矩形１６１３、その文字の認識信頼度１６１４、その文字を切り出す処理の信頼性評価値１６１５、その文字の文字コード１６１６を持つ。
なお、当該文字の外接矩形１６１３、文字の認識信頼度１６１４、文字コード１６１６は、ＯＣＲ処理を行う際に取得されたものを用いることができる。
また、文字画素抽出の信頼性評価値１６１５としては、一例として、テロップ候補画像作成部１において得られた輝度平均画像と輝度分散画像を用いて、以下の２つを求めておく。
▲１▼その文字の外接矩形内で輝度分布がしきい値よりも高い画素の割合：Ｅ１
▲２▼その文字の外接矩形内で輝度がしきい値よりも低い画素の割合：Ｅ２
図１８に、これらの情報を保持している様子を具体例で示す。ここでは、「あいうえお」というテロップに対して、５つの文字列候補が得られている場合を一例として説明する。
【０１４７】
図１８の例において、各文字列候補は、その文字列を構成する文字情報の配列であり、１７０１が文字の外接矩形情報、１７０２が文字コード、１７０３が文字の認識信頼度を示している。この例では、認識信頼度は、ＯＣＲ処理を行う際に認識精度が高い文字ほど１００に近い数値が得られ、精度が低いと０に近くなるものとしている。各文字は、さらに、２つの評価値Ｅ１，Ｅ２を保持する。
文字列候補１は、「あいうえお」と認識できた例である。
文字列候補２は、ノイズが混入し、かつ、読み取れなかった文字が欠落している例である。
文字列候補３は、認識誤りが発生し、かつ、読み取れなかった文字が欠落している例である。認識誤りが発生した文字の認識信頼度は、低い数値となっていることがわかる。
文字列候補４は、認識誤りが発生した例である。
文字列候補５は、「あいうえお」と認識できた例である。
【０１４８】
さて、このテロップ情報作成部５では、各文字の認識信頼度と２種類の評価値に基づいて、認識精度の高い文字を選び出し、文字列を再構成し出力結果を得る。
【０１４９】
図１８の例では、文字「あ」に対する認識結果として「あ」と「お」が得られ、文字「い」に対する認識結果として「い」と「に」が得られたことが分かる。文字単位で認識信頼度と評価値が高い順に第１候補（あるいは、第１候補〜第ｍ候補）を選択する。第１候補によって再構成された文字列に関する情報が、図１７の文字コード配列１６０１、外接矩形１６０２、信頼度１６０３として保存される。また、情報１６０１〜１６０５以外の情報を最終的に破棄する構成の場合であっても、少なくとも、上記の第１候補（あるいは、第１候補〜第ｍ候補）の各文字についての文字情報（１６１２）を保持するようにしてもよい。
【０１５０】
また、漢字の「工」とカタカナの「エ」のように似た文字では、第２候補以降の候補に正解が含まれることがあるため、第２候補まで、あるいは第２候補から所定番目の候補までをも、（文字コード配列１６０１へ）保存しておいてもよい。なお、外接矩形１６０２や信頼度１６０３について、第２候補の文字を使用したものについても保存しておくようにしてもよい。
【０１５１】
図１９に、複数の文字列候補からの文字の単位での選択手順の一例を示す。
【０１５２】
まず、ステップＳ１８０１において、あるテロップについて対象となる全ての文字列候補の文字の認識結果に対してグルーピングを行う。例えば、処理対象フレームにおける表示位置が互いに近いもの同士を、同一の文字に対する認識結果とみなし、文字の外接矩形領域に基づいてグルーピングを行う方法がある。この場合、誤った文字コードが得られている認識結果もグループ内に存在し得る。
【０１５３】
次に、ステップＳ１８０２において、文字認識結果のグループごとに、信頼性評価を行う。グループに属する文字認識結果の認識信頼度の平均値を参照したり、グループ内で同一の文字コードを持つ文字認識結果の割合を調べる方法がある。文字の切り出しを行う際に発生したノイズを認識した結果が混入している場合もあるため、信頼性が低いグループは棄却する。
【０１５４】
次に、ステップＳ１８０３において、各グループ内で文字コードおよび外接矩形を決定する。この場合、グループ内で認識信頼度の高い認識結果を選択する。
【０１５５】
最後に、ステップＳ１８０４において、（棄却されなかった）各グループからそれぞれ選択された文字を、その外接矩形に基づいて並び替え、テロップ文字列を再構成する。
【０１５６】
図２０に、より詳細な文字選択処理のフローチャートの一例を示す。
【０１５７】
まず、ステップＳ１９０１において、文字の外接矩形領域に基づいて、全ての文字候補をグルーピングする。同時に、グルーピングされた文字の認識信頼度の平均値と最高値および平均的な矩形領域を求めておく。表示中のテロップは静止しており、表示内容が変化しないことを仮定しているので、処理対象フレームにおける表示位置が同一のものを同じ文字として扱う。グルーピングしたものの中には、正しく読み取れなかったために異なった文字コードを持つ候補も存在する可能性がある。
【０１５８】
例えば、図１８の場合、
文字列候補２の「，」が１つのグループ（以下、グループ０と呼ぶ）になり、
文字列候補１の「あ」と文字列候補２の「あ」と文字列候補４の「お」と文字列候補５の「あ」が、１つのグループ（以下、グループ１と呼ぶ）になり、
文字列候補１の「い」と文字列候補２の「い」と文字列候補３の「に」と文字列候補４の「い」と文字列候補５の「い」が、１つのグループ（以下、グループ２と呼ぶ）になり、
文字列候補１〜５の「う」が、１つのグループ（以下、グループ３と呼ぶ）になり、
文字列候補１〜５の「え」が、１つのグループ（以下、グループ４と呼ぶ）になり、
文字列候補１，３，４，５の「お」が、１つのグループ（以下、グループ５と呼ぶ）になる。
【０１５９】
次に、ステップＳ１９０２〜Ｓ１９０６において、どのグループを採用するかあるいはどのグループを除外するかを決定する。
【０１６０】
まず、認識信頼度の平均値や最高値が低いグループは、認識誤りが多く含まれていたり、混入したノイズを認識した結果が含まれている可能性が高いため、ここで除外する。なお、そのグループに属する文字候補の数が他の多くのグループに比べてかなり少ない（例えば１つのグループに属する文字候補の数の平均値の半分以下である）などの他の基準をも用いて妥当でないグループを除去するようにしてもよい。
【０１６１】
例えば、図１８の場合、この時点で、グループ０が除去されることになる。
【０１６２】
以下のステップでは、１つの処理を行うたびに、各文字グループの採用・不採用を決定し、次の処理では、採用・不採用がまだ決定されていない文字グループを対象として処理を行う。
【０１６３】
ステップＳ１９０２において、複数の文字候補を持つグループのうち、文字コードが全て等しいグループを採用する。複数の文字候補が得られている場合に、全ての文字コードが等しいとき、認識精度が高いと判断し、この文字グループをまず採用している。
【０１６４】
例えば、図１８の場合、この時点で、グループ３，４，５が採用されていることになる。
【０１６５】
次に、ステップＳ１９０３において、まだ採用・不採用が決定されていないグループのうち、Ｓ１９０２で採用された文字グループとの重なり領域の面積がしきい値以上であるグループを不採用とする。ステップＳ１９０４では、まだ採用・不採用が決定されていないグループのうち、他のグループとの重なり領域の面積がしきい値以下であるグループを採用する。ステップＳ１９０５では、重なり領域の面積がしきい値以上のグループ同士で、認識信頼度が高いグループを採用する。また、認識度ではなく、候補文字数の多いグループを採用してもよい。
【０１６６】
例えば、図１８の場合、この時点で、グループ１，２が採用されていることになる。
【０１６７】
そして、ステップＳ１９０６で、まだ採用・不採用が決定されておらず、認識信頼度がしきい値以上のグループを採用する。
【０１６８】
以上のようにして、まず信頼性の高い文字グループから採用し、次にそれらと領域の重なりが少ない文字グループを順次採用して、文字候補を絞る。
【０１６９】
ステップＳ１９０２で採用されたグループ（例えば、グループ３，４，５）では、文字コードが全て等しいが、それ以外のステップで採用されたグループ（例えば、グループ１，２）では、候補文字の文字コードは異なっている。
【０１７０】
次に、グループ内で文字コードを決定する。
【０１７１】
なお、１種類の文字コードのみを持つグループは、以下の文字コード決定手順は省いて構わない。
【０１７２】
まず、ステップＳ１９０７において、グループ内で最も認識信頼度の高い文字を探す。認識信頼度の最高値を取る文字候補が１種類だけなら、その文字コードを採用する（ステップＳ１９０８）。
【０１７３】
そうでない場合は、ステップＳ１９０９において、文字画素抽出の信頼性評価値Ｅ１，Ｅ２の線形和を求め、その値が最も高い文字を選択する。例えば、評価値Ｅ１，Ｅ２の重みをそれぞれｔ１，ｔ２として、Ｅ＝ｔ１・Ｅ１＋ｔ２・Ｅ２という評価値を求める（重みｔ１，ｔ２は、自由に設定できる）。この評価値の最高値を取る文字候補が１種類だけなら、その文字コードを採用する（ステップＳ１９１０）。そうでない場合は、候補文字数が多い文字のコードを採用する（ステップＳ１９１１）。なお、評価値と同一文字コードの候補文字数を全体的に考量して選択するようにしてもよい（例えば、最高の評価値を持つ文字コードが、同一文字コードの候補文字数についは少なく、一方、評価値が僅差で２番目である文字コードが、同一文字コードの候補文字数が多い場合に、後者の文字コードを採用する、など）。また、ステップＳ１９０８からＳ１９１０を省略し、同じ文字コードの候補文字数に基づく多数決処理だけにしてもよい。
【０１７４】
なお、テロップの外接矩形１６０２やテロップの認識結果の信頼度１６０３を求めるためのもととなるデータとして、選択された文字の文字情報（１６１２）を用いる構成を採用する場合には、当該グループにおいて選択した文字コードを与えた文字候補についての文字情報を用いればよい。また、当該グループにおいて選択した文字コードを与える文字候補のうち認識信頼度の最高値を取るものが複数ある場合には、予め定めておいた基準に従って（例えば、ランダムに、あるいはより先行するフレームから得られた文字列候補から優先して）、文字情報を用いるべき１つの文字候補を選択すればよい。
【０１７５】
なお、前述したように、ただ１つの候補に絞るのではなく、図１８に示すように、１つ１つの文字に対して複数の候補が得られている場合、全ての候補をその認識信頼度とともに保存しておいてもよい。このようにすれば、例えば、後で、文字列検索を行う際に、全ての候補文字の組み合わせを求め、求められた組み合わせ文字列に対して検索を行うことにより、１文字の認識誤りによって生じる検索漏れを回避できる可能性がある。
【０１７６】
本実施形態によれば、同一のテロップに対して存在する複数の認識結果から高精度に認識できた文字を選択し、その文字から文字列を構成してテロップ情報として出力することが可能となる。したがって、高精度なテロップ認識を行うことができる。また、文字列の認識信頼度を表す数値も同時に得ることが可能となる。さらに、ユーザに提示するためのテロップを選択する枠組みを提供することが可能となる。
【０１７７】
さて、これまでは、テロップ情報を作成する側について説明してきたが、以下では、このようなテロップ情報データを利用する側について説明する。
【０１７８】
テロップ情報の実際の用途としては、例えば、映像内容（映像コンテンツ全体についての内容の場合と、シーンごと、チャプターごと、曲ごと、話題ごと、あるいは１０分ごと、などの所定の部分単位についての内容の場合とがある）を、それを伝える文字情報として表示することが挙げられる。文字情報が付記されることは、映像のおおまかな内容を把握したいユーザにとって有益な情報となり得る。その際、対象とする映像について、得られたテロップ情報が多い場合には、全てを表示するのは効率的ではないため、映像内容の見出しとなる（１または複数の）文字情報を選択するのが望ましい。
【０１７９】
そこで、映像中に含まれるテロップの時間的場所的な存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報の中から、ユーザがその映像内容を把握するための文字情報を選択して表示するテロップ情報表示システムの実施形態について説明する。なお、ここでは、テロップ情報は、これまで説明したような方法等によって映像をもとに作成されたものであってもよいし、人が手入力したものであってもよい。
【０１８０】
図２１に、本実施形態に係るテロップ情報表示システムの構成例を示す。図２１に示されるように、本テロップ情報表示システムは、テロップ選択条件入力部２１０１、テロップ検索部２１０２、検索結果表示部２１０３を備えている。なお、本テロップ情報表示システムは、コンピュータでソフトウェアを実行する形によっても実現可能である。
【０１８１】
テロップ選択条件入力部２１０１は、ユーザがマウス等のポインティングデバイスもしくはキーボードなどを用いて、テロップ情報を選択するための条件を入力する（ユーザからの入力を受け付ける）ためのものである。もちろん、テロップ選択条件入力部２１０１に、グラフィカル・ユーザ・インタフェース（ＧＵＩ）を用いてもよい。
【０１８２】
なお、選択条件の入力方法には、種々のバリエーションがある。例えば、検索の都度、選択条件を入力する方法や、予め設定画面などで選択条件を設定しておく方法などがある。また、例えば、ユーザが所望の選択条件を入力可能とする方法や、予め定められた複数の選択条件のうちからユーザが所望のものを選択する方法などが考えられる。また、選択条件として複数の項目を指定可能とする場合に、複数の項目間の関係を論理積または論理和として扱う方法や、複数の項目間の関係をユーザが任意に設定可能とする方法などが考えられる。その他、条件検索に関する種々のバリエーションもここでの検索に妥当する。
【０１８３】
テロップ検索部２１０２は、入力された条件に適合するテロップ情報を検索するためのものである。テロップ検索部２１０２は、１つのテロップ情報のみを検索結果とする構成と、複数のテロップ情報を検索結果とし得る構成とがある。なお、検索方法にも同様に種々のバリエーションがある。
【０１８４】
検索結果表示部２１０３は、検索されたテロップ情報を表示するためのものである。テロップ検索部２１０２は複数のテロップ情報を検索結果とし得る構成を採用する場合に、検索結果表示部２１０３は、初期的に、複数のテロップ情報をすべて表示する方法と、複数のテロップ情報の一部（１または複数）を表示する方法とがある。なお、検索結果表示方法にも同様に種々のバリエーションがある。
【０１８５】
本テロップ情報表示システムの動作の概略は、次のようになる。
まず、テロップ選択条件入力部２１０１において、所望の選択条件を入力する。例えば、見出しとなり得るテロップは、文字サイズが大きい場合が多い。また、番組によってそのようなテロップを表示する画面内での場所が決まっていることが多い。そこで、見出しとなるテロップを検索するためには、例えば、文字のサイズ、表示位置などが、選択条件として使用できる。
次に、テロップ検索部２１０２において、入力された選択条件に合致するテロップ情報を検索する。例えば、文字サイズや表示位置が近いテロップを求める。
最後に、検索結果表示部２１０３において、検索されたテロップ情報をユーザに提示する。
【０１８６】
以下では、選択条件の項目を１つとした場合のいくつかの具体例を示す。
【０１８７】
まず、選択条件を文字のサイズとする場合の実施の形態について説明する。
【０１８８】
文字サイズには、例えば、１２ポイント、１４ポイントといったフォントサイズを用いることができる。
【０１８９】
図２２に、選択条件とされた文字サイズとテロップ情報に含まれる文字サイズとを比較し、該当するテロップを検索するための手順の一例を示す。
【０１９０】
まず、ステップＳ２２０１において、全てのテロップ情報について調べたかどうかをチェックする。
ステップＳ２２０２で、テロップ文字列領域の縦方向の画素数と選択条件として入力された文字サイズとを比較する。
文字サイズの差（の絶対値）がしきい値より小さい場合（ステップＳ２２０３）、ほぼ同じサイズの文字であると判断し、ステップＳ２２０４において、そのテロップを表示用と判定する。
【０１９１】
次に、選択条件を文字数とする場合の実施の形態について説明する。
【０１９２】
見出しとなり得るテロップは、キーとなる単語を複数含むことが多く、ある一定以上の文字数を有することが多い。そこで、選択条件として文字数を設定し、しきい値以上の文字数を有するテロップを表示用として選択すると有効である。
【０１９３】
図２３に、文字数を条件として表示用テロップを選択するための手順の一例を示す。
まず、ステップＳ２３０１において、全てのテロップ情報について調べたかどうかをチェックする。
ステップＳ２２０２で、テロップ文字数と選択条件とされた文字数とを比較する。
文字数が等しい場合（ステップＳ２３０３）、ステップＳ２３０４において、そのテロップを表示用と判定する。
なお、ステップＳ２３０３での条件を、テロップ文字数と選択条件とされた文字数との差（の絶対値）がしきい値より小さい場合としてもよい。
【０１９４】
次に、選択条件をテロップの表示位置とする場合の実施の形態について説明する。
【０１９５】
見出しとなり得るテロップは、画面において一定の場所に表示されることが多い。そこで、選択条件として表示位置（表示領域）を設定し、その領域とほぼ同じ領域を示すテロップを表示用として選択するようにしてもよい。
【０１９６】
図２４に、表示位置を条件として表示用テロップを選択するための手順の一例を示す。
まず、ステップＳ２４０１において、全てのテロップ情報について調べたかどうかをチェックする。
ステップＳ２４０２で、テロップ文字列表示領域と選択条件として入力された表示領域とを比較する。
領域同士の重なりを求め、重なり面積がしきい値以上であれば（ステップＳ２４０３）、ステップＳ２４０４において、そのテロップを表示用と判定する。
【０１９７】
次に、選択条件を認識信頼度の高さとする場合の実施の形態について説明する。
【０１９８】
テロップ情報の各文字が認識信頼度を持つものである場合、例えば当該テロップ情報の全ての文字の認識信頼度の平均値をそのテロップの認識信頼度とし、その値がしきい値以上のものを選択すれば、認識誤りのない文字列が得られる可能性が高い。
【０１９９】
図２５に、認識信頼度を選択条件として表示用テロップを選択するための手順の一例を示す。
まず、ステップＳ２５０１において、全てのテロップ情報について調べたかどうかをチェックする。
ステップＳ２５０２で、テロップ文字列の認識信頼度としきい値を比較する。
もし、認識信頼度がしきい値以上であれば（ステップＳ２５０３）、ステップＳ２５０４において、そのテロップを表示用と判定する。
【０２００】
次に、テロップ情報に重要な単語が含まれているかどうかを選択条件とする場合の実施の形態について説明する。
【０２０１】
例えば、ニュース映像のテロップで、「××事件」や「○○株価指数」のように、記事内容を代表するような単語が含まれているものがある。このような単語を含むテロップを選び出して表示すると、ユーザが興味のある記事を選択する際に有効な手がかりとなる。
【０２０２】
なお、この場合には、図２６に示すように、テロップ検索部２１０２が参照可能な、重要単語を登録した重要単語データベース２１０４が存在するものとする。
【０２０３】
図２７に、重要単語データベースを参照して、そのような単語を含んだテロップを表示用として選択するための手順の一例を示す。
まず、ステップＳ２７０１において、全てのテロップ情報について調べたかどうかをチェックする。
ステップＳ２７０２で、重要単語データベース２１０４を参照し、そのテロップに重要な単語が登録されているかどうかをチェックする。このとき、当該テロップ情報の文字の候補が複数存在する場合には、それらの全ての組み合わせを調べて文字列を生成し、重要単語データベースと比較してもよい。
もし、重要単語が含まれている場合（ステップＳ２７０３）、ステップＳ２７０４において、そのテロップを表示用と判定する。
【０２０４】
なお、重要単語データベースを例えばジャンルごとに用意し、ユーザが参照すべきデータベースを指定するようにしてもよい。あるいは、映像の属性情報（例えば、題名、ジャンル）に基づいて自動的に参照すべきデータベースを選択するようにしてもよい。
【０２０５】
また、重要単語データベースを適当なタイミングで更新するようにしてもよい。その際、インターネットあるいは無線網などのネットワークを介して所定のサイトから更新すべき重要単語データベースのデータをダウンロードするようにしてもよい。
【０２０６】
なお、以上の各選択方法において、表示用と判定されたテロップ情報についてさらにシステム内で定めた他の条件によって規定数（１または複数）内に収まるように絞りをかけるようにしてもよい。
また、以上の各選択方法において、全てのテロップ情報について調べる代わりに、表示用と判定されたテロップ情報の数が規定数（１または複数）に達した場合には、処理をうち切るようにしてもよい。あるいは、表示用と判定され且つ上記の他の条件を満足するテロップ情報の数が規定数（１または複数）に達した場合には、処理をうち切るようにしてもよい。
【０２０７】
以上、いくつかの選択方法の例を説明したが、もちろん、これら以外にも様々な選択方法がある。また、以上では、選択方法を個別に説明したが、もちろん、複数の選択方法を任意に組み合わせて表示用のテロップ情報の選択を行うことも可能である。例えば、「表示画面の下方で文字サイズが大きいテロップ」などの選択条件指定を行うことができる。
【０２０８】
また、以上の処理は、映像の全体（または映像のうち特定の範囲）について１回行う場合について説明したものであるが、複数の映像コンテンツを対象として、処理を繰り返し行って、各映像コンテンツごとにテロップ情報を検索することも可能である。この場合には、ユーザが、どの映像コンテンツを対象としてテロップ情報を検索・表示するかを指定可能としてもよい。また、映像の全体または映像のうち特定の範囲について、所定の部分単位ごとに処理を繰り返し行うことも可能である。この場合には、ユーザが、どのような部分単位ごとにテロップ情報を検索・表示するかを指定可能としてもよい。
【０２０９】
次に、対象映像がニュース映像である場合に、ニュースキャスターが登場するシーンを検出し、そのシーン内において表示されたテロップを選択する場合の実施の形態について説明する。
【０２１０】
ニュースキャスターがニュース記事を読み上げるシーンでは、その記事内容を端的に表現するテロップが表示されることが多い。
【０２１１】
図２８に、ニュースキャスターが登場するシーンを検出する手段を有するテロップ情報表示システムの構成例を示す。この構成例は、図２１のテロップ情報表示システムにおいて、テロップ選択条件入力部２１０１の代わりに、ニュースキャスターシーン検出部２８０１を備えたものである。
【０２１２】
この構成例では、ニュースキャスターシーン検出部２８０１においてニュースキャスターシーンが検出されると、テロップ検索部２１０２において、そのシーン中に表示されたテロップを探し、検索結果表示部２１０３で表示する。
【０２１３】
ニュースキャスターが登場するシーンを検出する方法としては、「電子情報通信学会論文誌Ｖｏｌ．Ｊ８０−Ｄ−ＩＩ，Ｎｏ．９，ｐｐ．２４２１−２４２７，１９９７」に開示された技術などを用いればよい（例えば、周期的に登場する同一または類似する一連の画像パターン群を、１つのニュースキャスター・シーンとみなす）。また、手入力でキャスターシーンを指定する方法もある。
【０２１４】
図２９に、キャスターシーン中に含まれるテロップを検索するための手順の一例を示す。
まず、ステップＳ２９０１において、全てのテロップ情報について調べたかどうかをチェックする。
ステップＳ２９０２で、キャスターシーンの存在時間とテロップ表示時間とに重なりがあるかどうかを調べる。
もし、キャスターシーンの存在時間とテロップ表示時間とに重なりがある場合（ステップＳ２９０３）、ステップＳ２９０４において、そのテロップを表示用と判定する。
【０２１５】
次に、対象映像がニュース映像である場合に、ニュース記事ごとの映像区間を抽出し記事（映像区間）ごとにテロップを分類表示する場合の実施の形態について説明する。
【０２１６】
ユーザが興味のあるニュース記事だけを選ぶ手助けとして、ニュース記事ごとの映像区間を抽出し、それぞれの記事ごとにテロップ情報を分類表示すると有効である。
【０２１７】
図３０に、ニュース記事を抽出する手段を有するテロップ情報表示システムの構成例を示す。この構成例は、図２１のテロップ情報表示システムにおいて、テロップ選択条件入力部２１０１の代わりに、ニュース記事抽出部３００１を備えたものである。
【０２１８】
この構成例では、ニュース記事抽出部３００１においてニュース記事が抽出されると、テロップ検索部２１０２において、それぞれの記事ごとに含まれるテロップを検索し、検索結果表示部２１０４で表示する。
【０２１９】
ニュース記事の抽出には、「電子情報通信学会論文誌Ｖｏｌ．Ｊ８０−Ｄ−ＩＩ，Ｎｏ．９，ｐｐ．２４２１−２４２７，１９９７」に開示された技術などを用いればよい（例えば、周期的に登場する同一または類似する一連の画像パターン群を、１つのニュース記事とみなす）。なお、手入力で記事を切り分ける方法もある。
【０２２０】
図３１に、各記事ごとにテロップを分類するための手順の一例を示す。
まず、ステップＳ３１０１において、全てのテロップ情報について調べたかどうかをチェックする。
ステップＳ３１０２で、それぞれのニュース記事の映像時間とテロップ表示時間を調べ、そのテロップがどの記事中で表示されたかを調べる。
ステップＳ３１０４において、例えば記事に割り振られた通し番号を出力し、分類を行う。
そして、分類したニュース記事ごとに、例えば図２９と同じ方法で、テロップ情報の検索を行う。
【０２２１】
なお、図２８／図２９や図３０／図３１において、前述のように、表示用と判定されたテロップ情報についてさらにシステム内で定めた他の条件によって規定数（１または複数）内に収まるように絞りをかけるようにしてもよい。また、以上の各選択方法において、全てのテロップ情報について調べる代わりに、表示用と判定されたテロップ情報の数が規定数（１または複数）に達した場合には、処理をうち切るようにしてもよい。あるいは、表示用と判定され且つ上記の他の条件を満足するテロップ情報の数が規定数（１または複数）に達した場合には、処理をうち切るようにしてもよい。
【０２２２】
なお、図２１のテロップ情報表示システムに、さらに、ニュースキャスターシーン検出部２８０１およびまたはニュース記事抽出部３００１を備え、図２８／図２９およびまたは図３０／図３１の方法と、例えば図２２〜図２７で説明したような１または複数の方法とを組み合わせて検索可能とすることもできる。この場合には、例えば、「ニュースキャスターシーンに表示される文字サイズが大きいテロップ」などの選択条件指定を行うことができる。
【０２２３】
なお、以上では、ユーザが選択条件を入力する例について説明したが、システム側で、ユーザ属性情報あるいはユーザが入力した他の情報などに基づいて、自動的に選択条件を設定するようにしてもよい。
【０２２４】
次に、選択されたテロップの表示方法について説明する。
【０２２５】
選択されたテロップについては、例えば、そのテロップの文字列と、そのテロップを選択するもととなった映像に関する情報（例えば、映像コンテンツを特定する情報、映像コンテンツの部分を示す情報など）とを対応付けて、表示する。
【０２２６】
なお、映像または映像中の特定フレームを表示する機能を備える場合に、例えば、選択されたテロップの文字列を表示する際に、そのテロップを選択するもととなった映像における代表画面（静止画）を対応付けて表示するようにしてもよい。また、ユーザがその代表画面をマウスでクリックするなどの所定の操作をすることによって、対応する動画像を再生するようにしてもよい。また、代表画面を表示する代わりに、一定範囲の動画像を繰り返し表示するようにしてもよい。もちろん、音声を持つ映像を表示する際には、音声を併せて再生するようにしてもよい。
【０２２７】
なお、検索処理において複数のテロップが選択された場合には、例えば、初期状態として、検索処理において最初に得られた１個（または数個）、あるいは検索処理において得られた全テロップのうち所定の評価関数によって最も妥当であると判断された１個（または数個）を表示しておき、残りはユーザがスクロール等の所定の操作をすることによって表示可能とするようにしてもよい。あるいは、一度に表示可能な数を上限として、検索処理においてテロップを得るようにし、テロップを一括して表示するようにしてもよい。
【０２２８】
図３２に、ニュース記事ごとにそれぞれの代表画面と選択されたテロップ文字情報を表示した例を示す。この例では、１つのテロップ情報を表示しているが、複数表示してもよい。
【０２２９】
また、図３３に、保存されている番組（映像）ごとにそれぞれの代表画面と文字情報を表示した例を示す。
【０２３０】
もちろん、その他にも、種々のバリエーションが可能である。
【０２３１】
なお、以上の各機能は、ソフトウェアとしても実現可能である。
【０２３２】
また、本実施形態は、コンピュータに所定の手段を実行させるための（あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための）プログラムを記録したコンピュータ読取り可能な記録媒体としても実施することもできる。
【０２３３】
なお、本実施形態で示した構成は一例であって、それ以外の構成を排除する趣旨のものではなく、例示した構成の一部を他のもので置き換えたり、例示した構成の一部を省いたり、例示した構成に別の機能を付加したり、それらを組み合わせたりすることなどによって得られる別の構成も可能である。また、例示した構成と論理的に等価な別の構成、例示した構成と論理的に等価な部分を含む別の構成、例示した構成の要部と論理的に等価な別の構成なども可能である。また、例示した構成と同一もしくは類似の目的を達成する別の構成、例示した構成と同一もしくは類似の効果を奏する別の構成なども可能である。
また、各種構成部分についての各種バリエーションは、適宜組み合わせて実施することが可能である。
また、本実施形態は、システム（装置）としての発明、システム（装置）内部の構成部分についての発明、またはそれらに対応する方法の発明等、種々の観点、段階、概念またはカテゴリに係る発明を包含・内在するものである。
従って、この発明の実施の形態に開示した内容からは、例示した構成に限定されることなく発明を抽出することができるものである。
【０２３４】
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【０２３５】
【発明の効果】
本発明によれば、映像中のテロップを背景から高精度に切り出し認識を行うことができ、信頼性の高いテロップ情報を得ることができる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係るテロップ情報処理システムの構成例を示す図
【図２】本発明のテロップ検出および認識方法の処理ステップを示すフローチャート
【図３】テロップの一例を示す図
【図４】テロップ候補画像を作成するための処理ステップを示すフローチャート
【図５】輝度分散画像と不動エッジ画像とテロップ候補画像との関係について説明するための図
【図６】文字列領域候補を抽出するための処理ステップを示すフローチャート
【図７】文字列領域候補について説明するための図
【図８】テロップ文字画素を抽出するための処理ステップを示すフローチャート
【図９】文字切り出し手法について説明するための図
【図１０】テロップ文字を認識する処理を示すフローチャート
【図１１】テロップ情報を作成する手順を示すフローチャート
【図１２】テロップ矩形領域を用いて、テロップの出現・継続・消滅を判定する手順を示すフローチャート
【図１３】テロップ情報の作成について説明するための図
【図１４】テロップを用いて、テロップの出現・継続・消滅を判定する手順を示すフローチャート
【図１５】テロップ矩形領域情報を選択する手順を示すフローチャート
【図１６】テロップ文字コードを選択する手順を示すフローチャート
【図１７】テロップ情報のデータ構造例を示す図
【図１８】文字単位での選択について説明するための図
【図１９】文字の選択と文字列の再構成の手順を示すフローチャート
【図２０】文字の選択と文字列の再構成のより詳細な手順を示すフローチャート
【図２１】本発明の実施の形態に係るテロップ情報表示システムの構成例を示す図
【図２２】文字サイズによって選択する手順を示すフローチャート
【図２３】文字数によって選択する手順を示すフローチャート
【図２４】表示位置によって選択する手順を示すフローチャート
【図２５】認識信頼度によって選択する手順を示すフローチャート
【図２６】テロップ情報表示システムの他の構成例を示す図
【図２７】重要単語によって選択する手順を示すフローチャート
【図２８】テロップ情報表示システムのさらに他の構成例を示す図
【図２９】ニュースキャスター登場シーンに基づいて選択する手順を示すフローチャート
【図３０】テロップ情報表示システムのさらに他の構成例を示す図
【図３１】ニュース記事ごとにテロップを分類表示するための手順を示すフローチャート
【図３２】表示形態の一例を示す図
【図３３】表示形態の一例を示す図
【符号の説明】
１…テロップ候補画像作成部
２…テロップ文字列領域候補抽出部
３…テロップ文字画素抽出部
４…テロップ文字認識部
５…テロップ情報作成部
２１０１…テロップ選択条件入力部
２１０２…テロップ検索部
２１０３…検索結果表示部
２１０４…重要単語データベース
２８０１…ニュースキャスターシーン検出部
３００１…ニュース記事抽出部

Claims

一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、
前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成するとともに、該文字切り出し画像に対する信頼度評価値を求める第１の処理手段と、
この手段により求められた前記文字切り出し画像にＯＣＲ処理を施して、文字認識結果を求める第２の処理手段と、
前記第１及び第２の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果のうちから前記第１の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高い文字認識結果を選択し、選択した該文字認識結果に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とするテロップ情報処理装置。
前記第２の処理手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第３の処理手段を更に備え、
前記テロップ情報作成手段は、前記第１、第２及び第３の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果及びテロップ領域情報のうちから前記第１の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高い文字認識結果及びテロップ領域情報を選択し、選択した該文字認識結果及び該テロップ領域情報に基づいて前記テロップ情報を作成することを特徴とする請求項１に記載のテロップ情報処理装置。
一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、
前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成するとともに、該文字切り出し画像に対する信頼度評価値を求める第１の処理手段と、
この手段により求められた前記文字切り出し画像にＯＣＲ処理を施して、文字認識結果を求める第２の処理手段と、
この手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第３の処理手段と、
前記第１、第２及び第３の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果又はテロップ領域情報の少なくとも一方から前記第１の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高いものを選択し、これに基づいてテロップ情報を作成する前記テロップ情報作成手段とを備えたことを特徴とするテロップ情報処理装置。
一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、
前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成する第１の処理手段と、
この手段により求められた前記文字切り出し画像にＯＣＲ処理を施して、文字認識結果を求めるとともに、該文字認識結果に対する認識信頼度を求める第２の処理手段と、
前記第１及び第２の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果のうちから前記第２の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高い文字認識結果を選択し、選択した該文字認識結果に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とするテロップ情報処理装置。
前記第２の処理手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第３の処理手段を更に備え、
前記テロップ情報作成手段は、前記第１、第２及び第３の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果及びテロップ領域情報のうちから前記第２の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高い文字認識結果及びテロップ領域情報を選択し、選択した該文字認識結果及び該テロップ領域情報に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とする請求項４に記載のテロップ情報処理装置。
一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、
前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成する第１の処理手段と、
この手段により求められた前記文字切り出し画像にＯＣＲ処理を施して、文字認識結果を求めるとともに、該文字認識結果に対する認識信頼度を求める第２の処理手段と、
この手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第３の処理手段と、
前記第１、第２及び第３の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果又はテロップ領域情報の少なくとも一方から前記第２の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高いものを選択し、これに基づいてテロップ情報を作成する前記テロップ情報作成手段とを備えたことを特徴とするテロップ情報処理装置。
前記テロップ情報作成手段は、
前記第１、第２及び第３の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果又はテロップ領域情報を順次比較していくことによって、同一テロップに対するものを特定する第４の処理手段と、
前記同一テロップが最初に検出された処理対象フレーム及び最後に検出された処理対象フレームを特定する情報を作成して、前記テロップ情報に付加する第５の処理手段とを含むことを特徴とする請求項２，３，５または６に記載のテロップ情報処理装置。
前記テロップ情報作成手段は、
前記第１及び第２及の処理手段による一連の処理によって得られた複数の文字認識結果のうちから、相前後する処理対象フレームにおける文字認識結果を順次比較していくことによって、同一のテロップに対するものを特定する第４の処理手段と、
前記第４の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果のうちから、相前後する処理対象フレームにおける文字認識結果を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
同一の文字に対するグループごとに、該グループに属する文字認識結果のうちから、少なくとも前記第１の処理手段により求められた前記信頼度評価値に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項１に記載のテロップ情報処理装置。
前記テロップ情報作成手段は、
前記第１及び第２及の処理手段による一連の処理によって得られた複数の文字認識結果のうちから、相前後する処理対象フレームにおける文字認識結果を順次比較していくことによって、同一のテロップに対するものを特定する第４の処理手段と、
前記第４の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果のうちから、相前後する処理対象フレームにおける文字認識結果を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
同一の文字に対するグループごとに、該グループに属する文字認識結果のうちから、少なくとも前記第２の処理手段により求められた前記認識信頼度に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項４に記載のテロップ情報処理装置。
前記テロップ情報作成手段は、
前記第１、第２及び第３の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及び文字領域情報を順次比較していくことによって、同一のテロップに対するものを特定する第４の処理手段と、
前記第４の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及びテロップ領域情報を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
同一の文字に対するグループごとに、該グループに属する文字認識結果及びテロップ領域情報のうちから、少なくとも前記第１の処理手段により求められた前記信頼度評価値に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果及びテロップ領域情報に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項２に記載のテロップ情報処理装置。
前記テロップ情報作成手段は、
前記第１、第２及び第３の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及び文字領域情報を順次比較していくことによって、同一のテロップに対するものを特定する第４の処理手段と、
前記第４の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及びテロップ領域情報を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
同一の文字に対するグループごとに、該グループに属する文字認識結果及びテロップ領域情報のうちから、少なくとも前記第２の処理手段により求められた前記認識信頼度に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果及びテロップ領域情報に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項５に記載のテロップ情報処理装置。
前記テロップ情報作成手段は、
前記第１、第２及び第３の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及び文字領域情報を順次比較していくことによって、同一のテロップに対するものを特定する第４の処理手段と、
前記第４の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及びテロップ領域情報を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
同一の文字に対するグループごとに、該グループに属する文字認識結果及びテロップ領域情報のうちから、少なくとも前記第１の処理手段により求められた前記信頼度評価値に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果とテロップ領域情報の少なくとも一方に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項３に記載のテロップ情報処理装置。
前記テロップ情報作成手段は、
前記第１、第２及び第３の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及び文字領域情報を順次比較していくことによって、同一のテロップに対するものを特定する第４の処理手段と、
前記第４の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及びテロップ領域情報を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
同一の文字に対するグループごとに、該グループに属する文字認識結果及びテロップ領域情報のうちから、少なくとも前記第２の処理手段により求められた前記認識信頼度に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果とテロップ領域情報の少なくとも一方に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項６に記載のテロップ情報処理装置。
前記第１の処理手段は、
前記映像データの処理対象のフレーム中からテロップの候補を構成する画素を求め、テロップの候補を構成するか否かで画素を２値化した画像を作成する第１の画像作成手段と、
この手段で求められた前記画像における孤立画素を連結して、文字列の候補となる領域を抽出する領域抽出手段と、
この手段で抽出された前記文字列の候補となる領域に基づいて、前記ＯＣＲ処理を施すべき前記文字切り出し画像を作成する第２の画像作成手段とを含むことを特徴とする請求項１ないし１３のいずれか１項に記載のテロップ情報処理装置。
前記第１の画像作成手段は、
前記処理対象のフレームから予め定められた数だけ過去に遡ったフレームまでの間のすべてのフレームの画像にわたる各画素の輝度分散を求め、予め定められた閾値より低い輝度分散値を持つ画素を求める手段と、
前記処理対象のフレームから予め定められた数だけ過去に遡ったフレームまでの間のすべてのフレームの画像にわたって位置が変化しないエッジ画素を求める手段と、
前記予め定められた閾値より低い輝度分散値を持つ画素であって、かつ、前記位置が変化しないエッジ画素であるものか否かで画素を２値化した画像を作成する手段とを含むことを特徴とする請求項１４に記載のテロップ情報処理装置。
前記第１の画像作成手段は、予め定められた規則にしたがって元の映像データから処理対象となるフレーム画像をサンプリングする手段を更に含むことを特徴とする請求項１５に記載のテロップ情報処理装置。
前記第２の画像作成手段は、
前記処理対象のフレームから予め定められた数だけ過去に遡ったフレームまでの間のすべてのフレームの画像にわたる各画素の輝度平均を示す輝度平均画像から、前記文字列の候補となる領域に対応する部分を処理対象範囲として取り出す手段と、
前記輝度平均画像の処理対象範囲からエッジを検出し、検出されたエッジのうちで予め定められた閾値より高い強度を持つものを抽出してエッジ画素を２値化し、２値化したエッジ画素を膨張する手段と、
このエッジ画素を膨張した膨張領域から輝度分布を推定し、輝度分布の平均と分散を求める手段と、
前記輝度平均画像の処理対象範囲の画素のうち、前記平均及び前記分散から決定される第１の閾値よりも高い輝度値を有する画素を文字画素として検出する手段と、
前記輝度平均画像の処理対象範囲において、既に検出された検出画素の近傍の画素のうち、前記第１の閾値よりも小さな値に設定された第２の閾値より高い輝度値を有する画素を検出して、該検出画素に追加することを、新しく検出される画素がなくなるまで繰り返し行う手段と、
この手段により得られた検出画素について彩度分布を推定する手段と、
この手段により推定された彩度分布により外乱として検出された画素をノイズとして前記検出画素から除去して、これを前記文字切り出し画像とする手段と、
前記文字切り出し画像に対する信頼性を評価する手段とを含むことを特徴とする請求項１４に記載のテロップ情報処理装置。
前記信頼性評価値として、前記文字画素として検出された画素の近傍にあって文字画素として検出されなかった背景画素における、前記閾値より高い輝度分散値を持つ画素の割合を用いることを特徴とする請求項１７に記載のテロップ情報処理装置。
前記信頼性評価値として、前記文字画素として検出された画素の近傍にあって文字画素として検出されなかった背景画素における、前記第２の閾値より低い輝度値を持つ画素の割合を用いることを特徴とする請求項１７に記載のテロップ情報処理装置。
前記信頼性評価値として、前記文字画素として検出された画素の近傍にあって文字画素として検出されなかった背景画素における、前記閾値より高い輝度分散値を持ち且つ前記第２の閾値より低い輝度値を持つ画素の割合を用いることを特徴とする請求項１７に記載のテロップ情報処理装置。