JP3692018B2 - テロップ情報処理装置 - Google Patents

テロップ情報処理装置 Download PDF

Info

Publication number
JP3692018B2
JP3692018B2 JP2000216407A JP2000216407A JP3692018B2 JP 3692018 B2 JP3692018 B2 JP 3692018B2 JP 2000216407 A JP2000216407 A JP 2000216407A JP 2000216407 A JP2000216407 A JP 2000216407A JP 3692018 B2 JP3692018 B2 JP 3692018B2
Authority
JP
Japan
Prior art keywords
telop
character
information
processing
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000216407A
Other languages
English (en)
Other versions
JP2001285716A (ja
Inventor
雄志 三田
修 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000216407A priority Critical patent/JP3692018B2/ja
Publication of JP2001285716A publication Critical patent/JP2001285716A/ja
Application granted granted Critical
Publication of JP3692018B2 publication Critical patent/JP3692018B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、映像中からテロップの検出・認識を行うテロップ情報処理装置に関する。
【0002】
【従来の技術】
従来、映像からテロップを検出する方法では、テロップ文字周辺では急峻なエッジが現れることを利用し、エッジ画素を縦横に投影してテロップ領域を求める方法(例えば、特開平10−304247「映像テロップ検出方法および装置」)や、エッジの勾配方向からエッジペアと呼ぶものを求めテロップ表示フレームを検出する方法(例えば、特開平10−320557「テロップ文字表示フレーム検出方法及び装置」)がある。
【0003】
また、検出したテロップ領域からテロップ文字を切り出し認識する方法としては、判別分析法により閾値を決定し2値化する方法(例えば、画像の認識・理解シンポジウム講演論文集I,pp.105−110,1998)がある。
【0004】
テロップの出現・消滅を検出する方法では、部分的な矩形領域において輝度ヒストグラムの変化が大きい場合にエッジ位置の変化を調べる方法(例えば、信学技法PRMU98−188,pp.91−98)や、テロップの存在する画素を1とし他を0としたテロップ候補画像を作成し、時間的に離れた2枚のテロップ候補画像の差分をとることによってテロップの切り替わりを調べる方法(例えば、特開平10−322595「映像テロップ検出方法および装置」)がある。
【0005】
【発明が解決しようとする課題】
しかしながら、上記従来手法それぞれには前提としているテロップの性質が存在する。1つのテロップが表示されている間にも、テロップ文字と背景のコントラストが変化することなどがあり、映像中にはそれぞれの手法にとって、同じテロップでも処理しやすい区間とそうでない区間が存在する。したがって、上記従来手法を単純に組み合わせても、処理の各段階において出力される情報の信頼性を考慮していなければ、精度の高い認識結果を得ることは難しい。
【0006】
また受信している映像をリアルタイム処理しテロップ情報を取り出す際には、テロップが出現してから消滅するまでに複数の認識結果を得ておき、テロップ消滅後に1つを選択しなければならない場合が考えられる。上記従来手法を組み合わせただけでは、どの認識結果を用いれば高精度な結果が得られるのかについて判断することができない。
【0007】
本発明は、上記事情を考慮してなされたもので、高精度なテロップの検出・認識を行うことを可能としたテロップ情報処理装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明は、一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成するとともに、該文字切り出し画像に対する信頼度評価値を求める第1の処理手段と、この手段により求められた前記文字切り出し画像にOCR処理を施して、文字認識結果を求める第2の処理手段と、前記第1及び第2の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果のうちから前記第1の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高い文字認識結果を選択し、選択した該文字認識結果に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とする。
また、本発明は、一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成するとともに、該文字切り出し画像に対する信頼度評価値を求める第1の処理手段と、この手段により求められた前記文字切り出し画像にOCR処理を施して、文字認識結果を求める第2の処理手段と、この手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第3の処理手段と、前記第1、第2及び第3の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果又はテロップ領域情報の少なくとも一方から前記第1の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高いものを選択し、これに基づいてテロップ情報を作成する前記テロップ情報作成手段とを備えたことを特徴とする。
また、本発明は、一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成する第1の処理手段と、この手段により求められた前記文字切り出し画像にOCR処理を施して、文字認識結果を求めるとともに、該文字認識結果に対する認識信頼度を求める第2の処理手段と、前記第1及び第2の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果のうちから前記第2の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高い文字認識結果を選択し、選択した該文字認識結果に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とする。
また、本発明は、一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成する第1の処理手段と、この手段により求められた前記文字切り出し画像にOCR処理を施して、文字認識結果を求めるとともに、該文字認識結果に対する認識信頼度を求める第2の処理手段と、この手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第3の処理手段と、前記第1、第2及び第3の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果又はテロップ領域情報の少なくとも一方から前記第2の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高いものを選択し、これに基づいてテロップ情報を作成する前記テロップ情報作成手段とを備えたことを特徴とする。
【0016】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0017】
本発明では、映像からテロップが表示されている領域を検出し、テロップ文字を構成する画素のみを抽出して、OCR処理で認識を行うとともに、これら一連の処理の信頼性評価結果に基づいて、1つのテロップに対して存在する複数の認識結果から1つを選択するなどして、信頼性の高いテロップ情報を作成する。
【0018】
本発明によれば、同一のテロップに対して存在する複数の認識結果から高精度に認識できたものを選択して結果を出力することが可能となる。また、本発明によれば、同一のテロップに対して存在する複数の認識結果から高精度に認識できた文字を選択し、その文字から文字列を構成してテロップ情報として出力することが可能となる。また、文字列の認識信頼度を表す数値も同時に得ることが可能となる。さらに、ユーザに提示するためのテロップを選択する枠組みを提供することが可能となる。
【0020】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【0021】
本実施形態では、映像中からテロップを検出し、テロップを構成する文字を認識する。図3に例示するように、テロップは、通常、映像100の内容部分(コンテンツ)101の上に直に表示される文字列102,103である(図3では横書き文字列が2つある場合を例示している)か、または、より見やすくするために、コンテンツの上にはまず特別の画像領域(例えば、コンテンツ部分とは別に作成された例えば輝度の小さい画素からなる矩形状の領域、あるいはコンテンツの特定の領域内のみ輝度を低下させるなどの処理を施したその特定の領域)を設け、その中にテロップ文字列が書かれることもある(なお、文字列は、1文字の場合も含むものとする)。
【0022】
なお、以下では、映像中のあるテロップに対してそのテロップ文字以外の部分を背景と表現するものとする。
【0023】
本実施形態では、処理の対象とするテロップは、映像中における(画素的な)位置が一定時間以上静止しており、かつ、(テロップ文字の近傍における)背景に比べて高輝度の画素から構成される、という性質を持つものとする。また、テロップは、その出現から消滅までの間、色や輝度の変化がない(あるいは、変化が少ない)ものとする。
【0024】
図1に、本実施形態に係るテロップ情報処理システムの構成例を示す。また、図2に、本テロップ情報処理システムにおける映像テロップ検出・認識処理の手順の一例を概略的に示す。
【0025】
図1に示されるように、このテロップ情報処理システムは、テロップ候補画像作成部1と、テロップ文字列領域候補抽出部2と、テロップ文字画素抽出部3と、テロップ文字認識部4と、テロップ情報作成部5とを有する。
【0026】
まず、映像データがテロップ候補画像作成部1に入力され、映像に含まれるテロップを構成する画素の候補が検出され、テロップ候補画像が作成される(ステップS1)。なお、全フレームを対象とする方法と、一定の規則でサンプリングしたフレームのみを対象とする方法がある。
【0027】
テロップ候補画像はテロップ文字列領域候補抽出部2に入力され、孤立画素を連結して、文字列領域候補が抽出される(ステップS2)。
なお、テロップ候補画像によって、文字列領域候補は、1つ抽出されることも、2つ以上抽出されることも、抽出されないこともある(抽出されなかった場合には、当該テロップ候補画像についてはここで処理が中止される)。
【0028】
テロップ文字画素抽出部3では、ステップS2で得られた各々の文字列領域候補について、テロップ文字を構成する画素を詳細に切り出し、ノイズ除去を行って、文字切り出し画像を作成するとともに、文字画素抽出処理の信頼性評価を行い、評価値を求める(ステップS3)。
【0029】
テロップ文字認識部4は、各々の文字列領域候補について、ステップS3で得られた文字切り出し画像に文字認識処理を施して、テロップ領域(この場合、文字切り出し画像において文字として処理された画素集合に対する外接矩形)と各文字の文字認識結果(この場合、文字コード)と各文字の文字認識結果に対する認識信頼度を得る(ステップS4)。文字認識処理には、良く知られたOCR処理(OCR(Optical Character Reader)装置の内部で行われる文字認識処理に用いられる処理)を利用するものとする。
なお、テロップではないために文字が認識できないなどによって、当該文字列領域候補(文字切り出し画像)についてここで処理が中止されることもある。
【0030】
テロップ情報作成部5は、ステップS4で得られたテロップ領域/文字コード列をもとにして、同一テロップの出現、継続、消滅を判定するとともに、そのテロップが表示されている間(出現から消滅までの間)にそのテロップについて複数の結果(テロップ領域/文字コード列)が得られた場合には、それらのうちからより高精度な結果を選択する(ステップS5)。
【0031】
以下、本実施形態についてより詳しく説明する。
【0032】
まず、テロップ候補画像作成部1における処理について説明する。
【0033】
図4に、テロップ候補画像作成部1においてテロップ候補画像を作成する手順の一例を示す。
【0034】
まず、ステップS21において、例えばMPEG等により圧縮された映像を入力して、この映像の中から例えば1フレーム分の画像を取り出す。取り出された画像は、過去一定時間の画像を格納するバッファに保存される。
【0035】
ところで、テロップは人間が読むのに十分な大きさと十分な時間の長さで表示される。したがって、極端に小さな文字や大きな文字が含まれることはほとんどなく、テロップが表示されている時間も通常は2秒以上の長さを有する。一般に、MPEG−2はGOP(Group of Pictures)と呼ばれる単位で区切られており、GOPの先頭にIフレームというイントラフレームのみで圧縮したフレームを含んでいる。GOPは15フレーム(0.5秒)に設定することが多く、Iフレームは0.5秒おきに出現するのが一般的である。したがって、このような場合には、Iフレームのみを復号して処理の対象とするだけでもテロップを検出・認識するためには十分であることが通常である。そこで、本実施形態では、MPEG−2のIフレーム画像のみを処理の対象とする場合を例にとって説明する。もちろん、MPEG−2ではなく他の形式のデジタル画像から設定した時間間隔でサンプリングを行い、画像を入力してもよい。また、すべてのフレーム画像を処理の対象とすることも可能である。また、アナログ映像をデジタル化しながら画像を取得してもかまわない。
【0036】
なお、図4の手順例では、あるフレーム画像を処理の対象とするときに、当該フレーム画像のみを使って処理を行うのではなく、過去のフレーム画像(群)をも使うものとしている。
【0037】
そこで、本実施形態では、一例として、MPEG−2のIフレーム画像のみを処理の対象とし、4枚分のIフレーム画像を保存するバッファを用意しておき、Iフレーム画像を1枚ずつデコードしながら処理を進めていくものとする。
【0038】
なお、ここでは、バッファには処理(例えば平均もしくは論理積)に用いる枚数の画像を保存するものとするが、その必要な枚数より多い枚数の画像がバッファに保存されても構わない。
【0039】
さて、ステップS22では、バッファに蓄積された複数枚の画像(本例では、当該Iフレーム画像を含む、過去連続する4枚のIフレーム画像)について、同一の位置にある画素の輝度平均を求め、輝度平均画像を作成する。
【0040】
輝度を平均化することにより、背景など動きのある部分の画素はボケるため、静止しているテロップ文字と区別しやすくなるという特性を持つ。
【0041】
なお、ここでは、次の輝度分散画像の計算のために輝度平均画像を作成しているが、この輝度平均画像は後述するようにテロップ文字画素抽出を行う際にも用いられる。したがって、得られた輝度平均画像は、当該Iフレーム画像の輝度平均画像を必要とするテロップ文字画素抽出が済むまで保存しておく。
【0042】
ステップS23では、ステップS22と同一の画像群について、同一の位置にある画素の輝度分散を求め、輝度分散画像を作成する。なお、ここでは、一定の閾値より低い分散値を持つ画素を1、それ以外の画素を0に、2値化する。
【0043】
輝度分散は輝度の変化が激しいほどその値が大きくなるので、背景など動きのある部分の画素では輝度分散値が大きくなり、テロップ文字を区別しやすくなる。
【0044】
図5(a)に、「テ」「ロ」「ッ」「プ」という文字列からなるテロップを含む画像から得られた輝度分散画像(ただし、文字の近傍のみ抜き出した部分)の一例を示す。図5(a)では、文字「テ」「ロ」「ッ」「プ」に対応する画素群の他に、ノイズとなる画素群が示されている。
【0045】
一方、ステップS24では、サンプリング画像(当該Iフレーム画像)からエッジ検出を行う。エッジ検出には、微分オペレータなどを用いる。
【0046】
ステップS25では、ステップS24で検出されたエッジの強度が閾値より高ければ1、低ければ0として、2値化する。これによって得られる画像をエッジ検出2値化画像と呼ぶものとする。このエッジ検出2値化画像についても、サンプリング画像とは別のバッファに、(今得られた画像を含めて4枚分)保存しておく。
【0047】
ステップS26では、バッファに蓄積された複数枚のエッジ検出2値化画像(本例では、ステップS25で得られた当該Iフレーム画像に対するエッジ検出2値化画像を含む、過去連続する4枚のIフレーム画像に対するエッジ検出2値化画像)の画素毎の論理積を求め、不動エッジ画像を得る。
【0048】
これにより、エッジの位置が変化しない強度の高いエッジを構成する画素を抽出することができる。テロップ文字は背景(特に、テロップ文字の近傍における背景)とコントラストが強いため、このような強いエッジを持つ。また、静止しているという性質から位置の変化しないエッジがテロップ文字を構成する可能性が高い。
【0049】
図5(b)に、図5(a)と同一の画像から得られた不動エッジ画像(ただし、文字の近傍のみ抜き出した部分)の一例を示す。図5(b)においても、文字「テ」「ロ」「ッ」「プ」から得られた(エッジの位置が変化しない強度の高い)エッジに対応する画素群の他に、ノイズとなる画素群が示されている。
【0050】
さて、当該サンプリングにおいて輝度分散画像と不動エッジ画像が得られたならば、ステップS27では、輝度分散画像と不動エッジ画像の画素毎の論理積を求める。
【0051】
これにより、輝度の変化がなく、強いエッジが一定時間以上存在する画素を、抽出することが可能となる。これによって得られる画像をテロップ候補画像と呼ぶものとする。
【0052】
図5(c)に、「テ」「ロ」「ッ」「プ」という文字列からなるテロップを含む画像から得られたテロップ候補画像(ただし、文字の近傍のみ抜き出した部分)の一例を示す。すなわち、図5(a)の輝度分散画像と図5(b)の不動エッジ画像の画素毎の論理積を求めたものである。図5(c)では、図5(a)や図5(b)にあったノイズが除去されていることが示されている。
【0053】
次に、テロップ文字列領域候補抽出部2における処理について説明する。
【0054】
図6に、テロップ文字列領域候補抽出部2において文字列領域候補を抽出する手順の一例を示す。
【0055】
ステップS31では、テロップ候補画像作成部1で得られたテロップ候補画像(テロップ文字である蓋然性の高い画素=1、背景である蓋然性の高い画素=0、となっている)をラベリング処理することにより、孤立図形を得る。
【0056】
ステップS32では、孤立図形から文字候補を選択する。この際に、文字を囲む矩形領域の縦横比により、文字とそうでない図形を大まかに区別する。数字の「1」や漢数字の「一」を見落とさないように、例えば、縦:横=10:1、縦:横=1:10などのように設定すればよい。
【0057】
ステップS33では、文字候補図形を連結して、連結領域を作成する。
【0058】
文字候補図形の連結処理では、例えば、文字候補図形をなす辺同士の距離が近いものを連結する。また、テロップのほとんどは横書きもしくは縦書きであり、文字が一直線に並んでいることが多く、1つの文字列内にある文字の大きさも一定である。そこで、例えば、横書きテロップの場合には、文字図形の高さが近い図形を集め、さらに図形の重心位置が縦方向にばらつかないものを連結し、縦書きテロップの場合には、文字図形の幅が近い図形を集め、さらに図形の重心位置が横方向にばらつかないものを連結する。
【0059】
また、連結した全文字候補図形を構成する全画素に対する外接矩形を求め、これを連結領域とする。得られる連結領域は、0のときも、1のときも、2以上のときもある。ここでは、連結領域は、その矩形の4頂点の座標(画素位置)で表すものとする(もちろん、他の表し方でも構わない)。
【0060】
ところで、映像の内容によっては、テロップ文字列ではない連結領域が得られることもある。
【0061】
そこで、ステップS34では、連結領域から、テロップ文字列である可能性がないと判断される連結領域を除外し、それ以外を文字列領域候補として選択して出力する。例えば、領域内の全画素数に占める、画素値=1の画素の総数の割合を用いることによって、テロップ文字列と、そうでないものを区別する(この場合、基準以上の割合で、画素値=1の画素が含まれるものを、文字列領域候補として選択する)。この例の場合には、文字列領域候補は、その矩形の4頂点の画素位置で表されることになる。
【0062】
図7は、映像のフレーム全体120における下方の位置に「テ」「ロ」「ッ」「プ」という文字列からなるテロップが含まれる場合に得られた文字列領域候補122の例を示している。
【0063】
なお、文字列領域候補は、上記のように文字候補画素に対する外接図形としてもよいし、その外接図形をさらに所定画素分(例えば5画素分)だけ膨張させた図形としてもよい。本実施形態では、後者であるものとする。
【0064】
次に、テロップ文字画素抽出部3における処理について説明する。
【0065】
図8に、テロップ文字画素抽出部3においてテロップを構成する画素のみを背景から抽出する手順の一例を示す。
【0066】
ここでは、テロップ文字列領域候補抽出部2により抽出された各々の文字列領域候補ごとに処理が行われる。
【0067】
また、テロップ文字画素抽出部3では、ある文字列領域候補を処理対象とする場合、(その文字列領域候補に対応する)図4のステップS22においてテロップ候補画像作成部1によって作成された輝度平均画像から、その文字列領域候補の矩形領域に対応する部分を切り出したもの(すなわち、テロップ文字の近傍の輝度平均画像)が、処理対象とされる。
【0068】
まず、ステップS40〜S46によって、テロップ文字の近傍の画素から輝度分布を取得し、2つの閾値を設定してテロップ文字を背景から切り出す。なお、ここでは、ステップS40〜S46の処理として「CVIM114−17, pp.129−136,1999」に示される「テロップ認識のための映像からの文字部抽出法」を用いるものとする。
【0069】
まず、ステップS40において、エッジ検出を行い、その強度の高いものを2値化し抽出する。これにより、テロップ文字の候補を求める。
【0070】
次に、ステップS41において、ステップS40で抽出されたエッジ画素を膨張させる。
【0071】
ステップS42では、その膨張領域の輝度から輝度ヒストグラム(横軸を輝度、縦軸をその輝度に該当する画素数とするもの)を作成する。輝度ヒストグラムは、テロップ、テロップの縁、背景を含み、三つの峰を持つものと仮定し、最も輝度が高い部分の山をなす分布の推定を行う。
【0072】
ステップS43では、正規分布を当てはめ、平均mおよび分散σの値を求める。これらの値に基づいて、テロップ文字を切り出すための2値化しきい値を設定する。まず、比較的安定している輝度の高い画素を文字領域の一部と仮定し、その領域を種に文字領域を拡張させて文字を切り出す。しきい値は2つ設定し、高い方をm+tσ、低い方をm+Tσとしている。
【0073】
この方法としては、例えば、「CVIM114−17,pp.129−136,1999」に示されるロバスト推定を用いる方法がある。また、別の方法として、例えば、「Proceeding of IEEE International Conference on Neural Networks’95(1995),PP.2426−2431」に記述されているEMアルゴリズムを利用してもよい。テロップ文字がなす分布に外乱が混じっていることを考慮し、2つの正規分布をEMアルゴリズムで当てはめる。白い文字のテロップでは、図9(a)に示すように輝度値255にピークを持つ分布が得られることが多い。ロバスト推定を用いる方法で正規分布を当てはめると、図9(b)に示すように、分布の平均とピークがずれて、厳密には正しい推定結果が得られない場合があるが、EMアルゴリズムを利用する方法では、図9(c)に示すように、より正確な推定結果が得られる。テロップ文字がなす分布と外乱がなす分布の2つを求め、ピークが大きくなる方をテロップ文字とする。なお、当てはめる正規分布の数を1つ、2つ、3つ…、と変化させて分布の推定を行い、例えば赤池の「情報量基準(情報量基準による統計解析入門,pp.80−81,1995)」などを用いて、当てはめ精度を比較し、分布の個数を決定してもよい。この場合も、ピークが最も高くなる分布をテロップ文字の分布とする。
【0074】
ステップS44において、高い方のしきい値m+tσより大きな輝度を持つ画素を取り出す。
【0075】
次に、これらの画素の近傍で、低い方のしきい値m+Tσより大きな値を持つ画素を検出する(ステップS45)。新たに検出された画素の周りについても探索し、画素が検出されるかぎり、ステップS45とステップS46を繰り返す。新たに検出された画素の周りについて探索しても、画素の検出が行われなくなったならば、2値化処理を終了する(ステップS46)。
【0076】
以上の手順によって得られた(テロップ文字である蓋然性の高い画素=1、背景である蓋然性の高い画素=0、となっている)2値画像には、まだノイズが含まれている可能性がある。例えば、テロップ文字ではないが、文字と隣接しているm+Tσ以上の輝度を持つ画素も抽出されてしまう。しかし、これらの画素は輝度は近くてもテロップと異なる色を持つことがある。
【0077】
そこで、まず、ステップS46の終了時点において得られた画素値=1の画素について彩度を計算し、彩度ヒストグラム(横軸を彩度、縦軸をその彩度に該当する画素数とするもの)を作成する(ステップS47)。ここで、テロップ文字以外の著しく異なった彩度を持つ画素は、彩度ヒストグラム上で主な分布とかけはなれた位置に存在する。
【0078】
したがって、そのような画素を検出し、これをノイズとして除去する(ステップS48)。そのためには、ステップS43と同様にテロップ文字の彩度分布を推定し、重みが0と判断された彩度を持つ画素を除去すればよい。なお、彩度ヒストグラムについても、複数枚の画像から求めるようにしてもよい。
【0079】
ステップS48において得られた画像が、文字切り出し画像として出力される。
【0080】
次に、ステップS49では、ステップS48までで行われた2値化処理の信頼性を評価する。
【0081】
ここで、本実施形態で処理の対象としているテロップは、前述したように、
・一定時間以上静止している、
・(テロップ文字の近傍における)背景に比べて輝度が高い、
という2つの性質を持つ。すなわち、(テロップ文字の近傍における)背景の輝度変動が大きく、(テロップ文字の近傍における)背景に高い輝度を持つ画素が存在しないとき、高精度に文字画素の切り出しを行うことができる。したがって、文字画素抽出の信頼性評価値として、例えば、
▲1▼背景画素(例えば、テロップ文字画素群に対する外接矩形(あるいは外接矩形を所定画素分膨張させたもの)に含まれる全画素から当該テロップ文字画素群を除外したもの)のうちで輝度分散が閾値より高い画素の割合、
▲2▼背景画素のうちで輝度がm+Tσより低い画素の割合、
▲3▼背景画素のうちで輝度分散が閾値より高く、かつ輝度がm+Tσより低い画素の割合、
を用いることができる。
【0082】
上記の3種類の評価値は、それらのすべてを求めて出力するようにしてもよいし、それらの一部を求めて出力するようにしてもよい。
【0083】
次に、テロップ文字認識部4における処理について説明する。
【0084】
テロップ文字認識部4は、各々の文字列領域候補について、テロップ文字画素抽出部3によって得られた文字切り出し画像に対して文字認識処理を施して、テロップ領域(この場合、文字切り出し画像において文字として処理された画素集合に対する外接矩形)と各文字の文字認識結果(この場合、文字コード)と各文字の文字認識結果に対する認識信頼度を得る。文字認識処理には、良く知られたOCR処理(OCR装置の内部で行われる文字認識処理に用いられる処理)を利用するものとする。ここで、認識信頼度は、通常OCR(処理)が保有する辞書に登録されている文字と入力された文字との類似度から得られる。
【0085】
図10に、テロップ文字認識部4においてOCR処理を行う手順の一例を示す。
【0086】
すなわち、テロップ文字画素抽出3において得られた文字切り出し画像に対して、OCR処理を施す(ステップS51)。
【0087】
これによって、該当する文字コードの列と、各文字に対する認識処理の信頼度と、当該認識処理で文字画素として使用された文字切り出し画像における画素群に対する外接矩形(例えば、4頂点の画素位置)とが得られる。また、この文字切り出し画像における外接矩形の4頂点の画素位置は、もとの全フレーム領域における当該文字切り出し画像の4頂点の画素位置をもとにして、もとの全フレーム領域における4頂点の画素位置に変換される。これによって得られる矩形領域(の4頂点の画素位置)が、サンプリング画像におけるテロップ領域(を示す4頂点の画素位置)となる。
【0088】
もちろん、矩形領域の特定に他の表し方を用いる場合も同様である。
【0089】
また、ステップS51において得られた認識信頼度が閾値以下の場合には、当該認識結果を棄却する(ステップS52)。
【0090】
なお、複数の文字に対する認識結果が得られた場合に、1つでも認識信頼度が閾値以下の文字があるときには、例えば、当該文字列領域候補(文字切り出し画像)を破棄してしまう方法や、全ての文字の認識信頼度が閾値以下のときにのみ、当該文字列領域候補(文字切り出し画像)を破棄する方法がある。
【0091】
なお、ここでは、テロップ文字認識部4によりテロップ領域を求めるものとしたが、他の方法によってテロップ領域を求めるようにしてもよい。また、対応する文字列領域候補でテロップ領域を代用するようなことも可能である。
【0092】
次に、テロップ情報作成部5における処理について説明する。
【0093】
前述したように、テロップ情報作成部5は、テロップ文字認識部4によって得られたテロップ領域/文字コード列をもとにして、同一テロップの出現、継続、消滅を判定するとともに、そのテロップが表示されている間(出現から消滅までの間)にそのテロップについて複数の結果(テロップ領域/文字コード列)が得られた場合には、それらのうちからより高精度な結果を選択するものである。
【0094】
図11に、テロップ情報作成部5における処理の手順の一例を示す。
【0095】
テロップ情報作成部5には、テロップに関する情報、すなわちテロップ文字認識部4によって得られたテロップ領域と文字コード列とそのときのサンプリング画像を特定する情報(例えば、先頭フレームを起点とするフレーム番号あるいは先頭フレームからの時間、もしくは幾つ目のGOPかなど)が順次入力されてくるものとする。
【0096】
なお、例えば、図13においては、テロップaは、302から307の6つのサンプリング・フレームに存在し、本例では4連続サンプリング・フレームにわたって存在してはじめてテロップが検出されるので、305〜307の3つのサンプリング・フレームで検出される。そして、例えば、出現フレーム=302のIフレーム、消滅フレーム=307のIフレーム、というように記録される。
【0097】
まず、ステップS61において、テロップの出現、継続、消滅の検出を行う。この詳細な手順の例は後述する(図12、図14)。
【0098】
次に、ステップS62において、同一テロップについて複数のテロップ領域(例えば4頂点の画素位置)が得られた場合に、それらのうちから1つのテロップ領域を選択する。
【0099】
また、ステップS63において、同一テロップについて複数のテロップ文字列の認識結果(文字コードの配列)が得られた場合に、それらのうちから1つのテロップ文字列の認識結果を選択する。
【0100】
最終的には、例えば、テロップの検出順にテロップ識別子を付与するものとして、当該テロップのテロップID、当該テロップのテロップ領域を示す情報、当該テロップを構成する文字コード列、当該テロップの出現したフレームを示す情報、当該テロップの消滅したフレーム(すなわち、当該テロップが最後に検出されたフレーム)を示す情報の組を少なくとも含むフレーム情報が作成され、出力される。
【0101】
なお、当該テロップのテロップ領域を示す情報(例えば、矩形領域の4頂点の座標)により示される図形を、他の図形に変換して、その変換後の図形を示す情報を出力するようにしてもよい。例えば、テロップ領域が矩形である場合に、その矩形に内接もしくは外接する楕円を特定する情報(例えば、2つの焦点と楕円上の1点)を出力するようにしてもよい。
【0102】
さて、以下では、ステップS61の処理についてより詳しく説明する。
【0103】
図12に、テロップ情報作成部5において、テロップ領域の情報を用いてテロップの出現、継続、消滅の検出を行う詳細な手順の一例を示す。
【0104】
例えば、図13に例示するように、サンプリング・フレーム305において、302〜305で示される4つのIフレームからテロップが検出された場合(図中の321参照)、このテロップのテロップ領域/文字コード列がテロップ情報作成部5に与えられる。
【0105】
新しくテロップ領域の情報が得られて入力されたとき、ステップS71で前のサンプリング・フレーム(本例の場合、Iフレーム)でテロップが検出されたかどうかを調べる。前のサンプリング・フレームでテロップが検出されていない場合、新たに「出現」したテロップとする(ステップS76)。図13のテロップ321の場合は、「出現」となる。
【0106】
前のサンプリング・フレームでテロップが検出されている場合、ステップS72において、前のサンプリング・フレームにおける1つのテロップ領域と、入力された現在のサンプリング・フレームのテロップ領域との重なり部分を判定する。それらテロップ領域での共通部分がそれぞれのテロップ領域に占める割合がともに閾値以上であれば、「継続」表示中のテロップと判断する(ステップS77)。図13の303〜306で示される4つのIフレームから検出されたテロップ322の場合は、「継続」となる。
【0107】
そうでなければ、前のサンプリング・フレームで検出された他のテロップがあれば(ステップS73)、同様に、そのテロップ領域との重なりを調べ、上記条件を満たせば、「継続」表示中のテロップと判断する(ステップS77)。この処理を繰り返し、前のサンプリング・フレームで検出された全てのテロップのテロップ領域と比較した結果、「継続」と判定されなかった場合には、現在のサンプリング・フレームのテロップは、新たに「出現」したテロップと判定される(ステップS74)。
【0108】
以上の手順は、このサンプリング・フレームで複数のテロップが検出された場合には、その検出された全てのテロップについて行われる。
【0109】
なお、前のサンプリング・フレームで検出されたテロップであって、上記の処理において「継続」と判定されなかったものは、前のサンプリング・フレームにおいて「消滅」したものと(変更)する(ステップS75)。図13の(304〜307で示される4つのIフレームから検出されたテロップ323の場合は、「消滅」となる。
【0110】
ところで、従来のように単に矩形領域を比較しただけでは、切り替わって表示されたテロップ領域が偶然同じ大きさである場合に対応できないが、本実施形態では、テロップ候補画像作成部1において不動エッジ画像を作成してテロップ領域を求めているため、このような切り替わりも検出することが可能となっている。例えば、サンプリング・フレーム308においては、307で示される前のIフレームのテロップaから、テロップbへと切り替わっているが、それらのテロップ領域が偶然同じ大きさであったとしても、本実施形態では、サンプリング・フレーム308においてテロップは検出されないことになる(テロップbはさらに3つ後のサンプリングで検出される)。
【0111】
なお、本例の場合において、4つの連続するIフレームにのみ含まれるような時間だけ表示されるテロップがあり得る場合には、1つのサンプリング・フレームでのみ検出されるテロップがある得る。このような場合には、ステップS75において、例えば、前のサンプリング・フレームで検出され、「継続」とされたテロップであって、上記の処理において「継続」と判定されなかったものは、前のサンプリング・フレームにおいて「消滅」したものと変更し、なお前のサンプリング・フレームで検出され、「出現」とされたテロップであって、上記の処理において「継続」と判定されなかったものは、前のサンプリング・フレームにおいて「出現かつ消滅」と変更するようにしてもよい。
【0112】
次に、図14に、テロップ情報作成部5において、テロップ文字コードの情報を用いてテロップの出現、継続、消滅の検出を行う詳細な手順の一例を示す。基本的には、図12の処理と同様である。
【0113】
新しくテロップの文字コード列が得られて入力されたとき、ステップS81で前のサンプリング・フレーム画像でテロップが検出されたかどうかをチェックする。前のサンプリング・フレームでテロップが検出されていない場合、新たに「出現」したテロップとする(ステップS86)。
【0114】
前のサンプリング・フレームでテロップが検出されている場合、ステップS82において前のサンプリング・フレームのテロップの文字コード列と、入力された現在のサンプリング・フレームのテロップの文字コード列とを比較し、いずれの文字列にも共通な文字の数もしくは文字数の割合が閾値以上であれば、「継続」表示中のテロップと判断する(ステップS87)。
【0115】
そうでなければ、前のサンプリング・フレームで検出された他のテロップの文字コード列との比較を行う。全てのテロップの文字コード列と比較した結果(ステップS83)、「継続」と判定されなかったテロップは新たに「出現」したテロップと判定される(ステップS84)。
【0116】
また、前のサンプリング・フレームで検出されたテロップで「継続」と判定されなかったものは現在のサンプリング・フレームにおいて「消滅」したものとする(ステップS85)。
【0117】
次に、テロップ矩形領域の決定方法について説明する。
【0118】
テロップ領域はOCR処理によって出力される例えば文字画素群に対する外接矩形の領域であり、テロップが一定の時間表示される場合には、テロップは、各サンプリング・フレームごと(本例の場合、各Iフレームごと)に得られるため、同一のテロップに対して複数のテロップ領域データが存在する。例えば、図13において、テロップaについては、3つのテロップ領域データが存在する。
【0119】
ここで、それらテロップ領域のサイズは、必ずしも一致しない。例えば、テロップ文字の切り出し処理を行う際に、背景部分のノイズが混入した場合などは、実際の文字列を囲む領域より大きくなってしまうことがあり、逆に文字の一部が欠落してしまった場合などは、実際の文字列矩形より小さくなってしまう、というようなことが考えられる。そこで、それら複数のテロップ領域データから最も良いものを選択するのが好ましい。
【0120】
選択する際には、例えば、前述した文字画素抽出の信頼性評価値として以下の3つのうちの全部または一部を用いる。
▲1▼背景画素のうちで輝度分散がしきい値よりも高い画素の割合(背景の変動が激しいため、静止しているテロップ文字以外を除去しやすい)、
▲2▼背景画素のうちで輝度が前述のしきい値m+Tσより低い画素の割合(背景にテロップ文字と同程度の輝度を持つ領域が少ないほうがよい)、
▲3▼上記の▲1▼と▲2▼の両方を満たす画素の割合
これらの評価値は、テロップ領域データと同時に得られる。新しいテロップ領域データがテロップ情報作成部5に入力されると、評価値を参照して、より値が高いテロップ領域データを採用する。例えば、図13においては、テロップaについて、3つのテロップ領域データのうちから最良のものが選択され、これが最終的にテロップ情報に含まれるテロップ領域データとなる。
【0121】
図15に、この場合の手順の一例を示す。
【0122】
ステップS91において、入力されたテロップ領域データが新しく出現したテロップのものであると判定されれば、そのテロップ領域データを保存する(ステップS92)。そうでなければ、評価値(例えば、信頼性評価値)を比較し(ステップS93)、より高い評価値のテロップ領域データを保存する(ステップS94)。全てのテロップ領域データを比較したならば(ステップS95)、処理を終了する。
【0123】
これにより、安定にテロップ文字を抽出できたときのテロップ領域のデータを得ることができる。
【0124】
なお、評価値としては、OCR処理を行う際に得られる認識信頼度を用いてもよい。通常、OCR処理では各文字に対してOCR辞書に登録してある文字とのマッチングを行うが、このマッチングの際に得られる確信度を用いてもよい。また、評価値としては、文字画素抽出の信頼性評価値と認識信頼度との両方を用いてもよい。
【0125】
また、上記では、複数のテロップ領域のうちから1つを選択したが、全てのテロップ領域のORあるいはANDをとるなどによって、テロップ領域データを得るようにしてもよい。
【0126】
次に、テロップを構成する文字列の認識結果(文字コード列)の選択方法について説明する。基本的には、図15の処理と同様である。
【0127】
テロップ文字列の認識結果はOCR処理によって出力される文字コードの配列であり、テロップが一定の時間表示される場合には、テロップは、各サンプリング・フレームごと(本例の場合、各Iフレームごと)に得られるため、テロップ領域と同様に、同一のテロップに対して複数の文字列認識結果(文字コード列)が存在する。
【0128】
ここで、それら認識結果においては、文字画素抽出処理の精度によって、互いに異なった結果となる場合があり得る(文字コード列のうち少なくとも対応する1つの文字コードが異なる場合があり得る)。
【0129】
選択する際には、例えば、前述した▲1▼〜▲3▼の文字画素抽出の信頼性評価値を用いる。新しい認識結果がテロップ情報作成部5に入力されると、評価値を参照して、より値が高い認識結果を採用する。
【0130】
図16に、この場合の手順の一例を示す。
【0131】
ステップS101において、入力された文字コード列が新しく出現したテロップのものであると判定されれば、その文字コード列を保存する(ステップS102)。そうでなければ、評価値(例えば、信頼性評価値)を比較し(ステップS103)、より高い評価値の文字コード列を保存する(ステップS104)。全てのテロップの文字コード列をチェックしたら(ステップ105)、処理を終了する。
【0132】
これにより、高精度にテロップ文字列を認識することができる。
【0133】
なお、評価値としては、OCR処理を行う際に得られる認識信頼度を用いてもよい。また、評価値としては、文字画素抽出の信頼性評価値と認識信頼度との両方を用いてもよい。
【0134】
以上のようにして、テロップ情報作成部5では、各々のテロップに対して出力結果(テロップ情報)を取得することができる。ここで得られる結果は、背景からテロップ文字を切り出す処理がどの程度の精度で行えたかを判定して求めることができるため、高精度なものが得られるという特徴がある。
【0135】
次に、テロップ情報作成部5における処理の他の例について説明する。
【0136】
さて、従来、キーワード検索やニュース記事の分類などを目的として、テロップを抽出・認識する方法が提案されている。例えば、PRU95−240,pp.33−40,1996−03,「ニュース映像中の文字認識に基づく記事の索引付け」がある。しかし、例えば、映像内容を表す文字情報をユーザに提示し、その映像が興味のあるものかどうか、あるいは映像中のどの部分から視聴したいかを決定するというような目的で、テロップ情報を用いるには、より高精度な文字認識性能が望まれる。キーワード検索やニュース記事の分類などを行う際には、誤りを含んだ認識結果が存在しても、正しい認識結果が1つ含まれていればよいし、また、重要なキーワードを認識できていれば、そのキーワードを含む文字列中で他の文字に認識誤りがあってもよいが、ユーザに提示するための文字情報とする目的では、誤りを含んだ文字列は不適切である。すなわち、ユーザに提示するために、誤りを含まない文字列情報を取得するためには、キーワード検索やニュース記事の分類などを目的として提案されている従来の方法では不十分である。
【0137】
そこで、上記では認識結果の候補から文字列の単位で高精度に認識できたものを選択する処理の例を示したが、以下では、文字の単位で高精度に認識できたものを選択して文字列を再構成する処理の例について説明する。
【0138】
以下で説明する例は、複数の文字列候補に含まれる文字の中から、文字単位で評価値(例えば、文字画素抽出の信頼性評価値と認識信頼度との一方または両方に基づく値)の高い文字を選択し、選択した文字を並べて文字列を取得し、これを最終的なテロップ情報とするものである。
【0139】
この場合、まず、テロップ情報作成部5では、それぞれのテロップが出現してから消失するまでに得られた認識結果をすべて保存しておく。図17に、保持しておく情報とその記述方法の一例を示す。テロップ情報として1601〜1607の情報を保持する(なお、1606および1607のうちの全部または一部を、1601〜1603が得られた後に破棄してしまう構成も可能である)。なお、テロップの検出順にテロップ識別子が付与されてもよい。
【0140】
1601は、(ここでの処理によって文字の単位で選択されて求められた)当該テロップの文字列を構成する文字コードの配列である。
【0141】
1602は、当該テロップの外接矩形である。例えば、文字コード配列1061の各文字の画像内における矩形の頂点座標値(1613)の集合に対する外接矩形の頂点座標値である(なお、外接矩形をさらに所定画素分だけ膨張させた図形としてもよい)。
【0142】
1603は、当該テロップの認識結果の信頼度である。ここで、信頼度とは、ここでの処理によって文字の単位で選択されて求められた当該テロップ全体の認識度である。信頼度には、例えば、文字コード配列106の各文字の認識信頼度の平均値あるいは最高値を用いる。なお、この信頼度1603をテロップ情報から省いた構成も可能である。
【0143】
1604はテロップ出現フレームであり、1605はテロップ消失フレームである。テロップ出現フレーム1604とテロップ消失フレーム1605の情報により、テロップの存在区間を表現する。
【0144】
1606は上記の存在区間で得られたテロップ文字列候補の数(N)であり、1607は得られた各テロップ文字列候補の情報(1〜N)である。
【0145】
各文字列候補情報1607は、その文字列の外接矩形1608、その文字列の認識信頼度1609、その文字画素抽出の信頼性評価値1610、その文字列を構成する文字の数1611、その文字列を構成する各文字についての文字情報1612を持つ。
なお、外接矩形1608は、例えば、当該文字列を構成する各文字の画像内における矩形の頂点座標値(1613)の集合に対する外接矩形(あるいは、外接矩形をさらに所定画素分だけ膨張させた図形)の頂点座標値である。また、認識信頼度1609は、例えば、当該文字列を構成する各文字の認識信頼度の平均値あるいは最高値である。また、信頼性評価値1610は、例えば、当該文字列を構成する各文字の信頼性評価値1615の平均値あるいは最高値である。
【0146】
各文字情報1612は、その文字の外接矩形1613、その文字の認識信頼度1614、その文字を切り出す処理の信頼性評価値1615、その文字の文字コード1616を持つ。
なお、当該文字の外接矩形1613、文字の認識信頼度1614、文字コード1616は、OCR処理を行う際に取得されたものを用いることができる。
また、文字画素抽出の信頼性評価値1615としては、一例として、テロップ候補画像作成部1において得られた輝度平均画像と輝度分散画像を用いて、以下の2つを求めておく。
▲1▼その文字の外接矩形内で輝度分布がしきい値よりも高い画素の割合:E1
▲2▼その文字の外接矩形内で輝度がしきい値よりも低い画素の割合:E2
図18に、これらの情報を保持している様子を具体例で示す。ここでは、「あいうえお」というテロップに対して、5つの文字列候補が得られている場合を一例として説明する。
【0147】
図18の例において、各文字列候補は、その文字列を構成する文字情報の配列であり、1701が文字の外接矩形情報、1702が文字コード、1703が文字の認識信頼度を示している。この例では、認識信頼度は、OCR処理を行う際に認識精度が高い文字ほど100に近い数値が得られ、精度が低いと0に近くなるものとしている。各文字は、さらに、2つの評価値E1,E2を保持する。
文字列候補1は、「あいうえお」と認識できた例である。
文字列候補2は、ノイズが混入し、かつ、読み取れなかった文字が欠落している例である。
文字列候補3は、認識誤りが発生し、かつ、読み取れなかった文字が欠落している例である。認識誤りが発生した文字の認識信頼度は、低い数値となっていることがわかる。
文字列候補4は、認識誤りが発生した例である。
文字列候補5は、「あいうえお」と認識できた例である。
【0148】
さて、このテロップ情報作成部5では、各文字の認識信頼度と2種類の評価値に基づいて、認識精度の高い文字を選び出し、文字列を再構成し出力結果を得る。
【0149】
図18の例では、文字「あ」に対する認識結果として「あ」と「お」が得られ、文字「い」に対する認識結果として「い」と「に」が得られたことが分かる。文字単位で認識信頼度と評価値が高い順に第1候補(あるいは、第1候補〜第m候補)を選択する。第1候補によって再構成された文字列に関する情報が、図17の文字コード配列1601、外接矩形1602、信頼度1603として保存される。また、情報1601〜1605以外の情報を最終的に破棄する構成の場合であっても、少なくとも、上記の第1候補(あるいは、第1候補〜第m候補)の各文字についての文字情報(1612)を保持するようにしてもよい。
【0150】
また、漢字の「工」とカタカナの「エ」のように似た文字では、第2候補以降の候補に正解が含まれることがあるため、第2候補まで、あるいは第2候補から所定番目の候補までをも、(文字コード配列1601へ)保存しておいてもよい。なお、外接矩形1602や信頼度1603について、第2候補の文字を使用したものについても保存しておくようにしてもよい。
【0151】
図19に、複数の文字列候補からの文字の単位での選択手順の一例を示す。
【0152】
まず、ステップS1801において、あるテロップについて対象となる全ての文字列候補の文字の認識結果に対してグルーピングを行う。例えば、処理対象フレームにおける表示位置が互いに近いもの同士を、同一の文字に対する認識結果とみなし、文字の外接矩形領域に基づいてグルーピングを行う方法がある。この場合、誤った文字コードが得られている認識結果もグループ内に存在し得る。
【0153】
次に、ステップS1802において、文字認識結果のグループごとに、信頼性評価を行う。グループに属する文字認識結果の認識信頼度の平均値を参照したり、グループ内で同一の文字コードを持つ文字認識結果の割合を調べる方法がある。文字の切り出しを行う際に発生したノイズを認識した結果が混入している場合もあるため、信頼性が低いグループは棄却する。
【0154】
次に、ステップS1803において、各グループ内で文字コードおよび外接矩形を決定する。この場合、グループ内で認識信頼度の高い認識結果を選択する。
【0155】
最後に、ステップS1804において、(棄却されなかった)各グループからそれぞれ選択された文字を、その外接矩形に基づいて並び替え、テロップ文字列を再構成する。
【0156】
図20に、より詳細な文字選択処理のフローチャートの一例を示す。
【0157】
まず、ステップS1901において、文字の外接矩形領域に基づいて、全ての文字候補をグルーピングする。同時に、グルーピングされた文字の認識信頼度の平均値と最高値および平均的な矩形領域を求めておく。表示中のテロップは静止しており、表示内容が変化しないことを仮定しているので、処理対象フレームにおける表示位置が同一のものを同じ文字として扱う。グルーピングしたものの中には、正しく読み取れなかったために異なった文字コードを持つ候補も存在する可能性がある。
【0158】
例えば、図18の場合、
文字列候補2の「,」が1つのグループ(以下、グループ0と呼ぶ)になり、
文字列候補1の「あ」と文字列候補2の「あ」と文字列候補4の「お」と文字列候補5の「あ」が、1つのグループ(以下、グループ1と呼ぶ)になり、
文字列候補1の「い」と文字列候補2の「い」と文字列候補3の「に」と文字列候補4の「い」と文字列候補5の「い」が、1つのグループ(以下、グループ2と呼ぶ)になり、
文字列候補1〜5の「う」が、1つのグループ(以下、グループ3と呼ぶ)になり、
文字列候補1〜5の「え」が、1つのグループ(以下、グループ4と呼ぶ)になり、
文字列候補1,3,4,5の「お」が、1つのグループ(以下、グループ5と呼ぶ)になる。
【0159】
次に、ステップS1902〜S1906において、どのグループを採用するかあるいはどのグループを除外するかを決定する。
【0160】
まず、認識信頼度の平均値や最高値が低いグループは、認識誤りが多く含まれていたり、混入したノイズを認識した結果が含まれている可能性が高いため、ここで除外する。なお、そのグループに属する文字候補の数が他の多くのグループに比べてかなり少ない(例えば1つのグループに属する文字候補の数の平均値の半分以下である)などの他の基準をも用いて妥当でないグループを除去するようにしてもよい。
【0161】
例えば、図18の場合、この時点で、グループ0が除去されることになる。
【0162】
以下のステップでは、1つの処理を行うたびに、各文字グループの採用・不採用を決定し、次の処理では、採用・不採用がまだ決定されていない文字グループを対象として処理を行う。
【0163】
ステップS1902において、複数の文字候補を持つグループのうち、文字コードが全て等しいグループを採用する。複数の文字候補が得られている場合に、全ての文字コードが等しいとき、認識精度が高いと判断し、この文字グループをまず採用している。
【0164】
例えば、図18の場合、この時点で、グループ3,4,5が採用されていることになる。
【0165】
次に、ステップS1903において、まだ採用・不採用が決定されていないグループのうち、S1902で採用された文字グループとの重なり領域の面積がしきい値以上であるグループを不採用とする。ステップS1904では、まだ採用・不採用が決定されていないグループのうち、他のグループとの重なり領域の面積がしきい値以下であるグループを採用する。ステップS1905では、重なり領域の面積がしきい値以上のグループ同士で、認識信頼度が高いグループを採用する。また、認識度ではなく、候補文字数の多いグループを採用してもよい。
【0166】
例えば、図18の場合、この時点で、グループ1,2が採用されていることになる。
【0167】
そして、ステップS1906で、まだ採用・不採用が決定されておらず、認識信頼度がしきい値以上のグループを採用する。
【0168】
以上のようにして、まず信頼性の高い文字グループから採用し、次にそれらと領域の重なりが少ない文字グループを順次採用して、文字候補を絞る。
【0169】
ステップS1902で採用されたグループ(例えば、グループ3,4,5)では、文字コードが全て等しいが、それ以外のステップで採用されたグループ(例えば、グループ1,2)では、候補文字の文字コードは異なっている。
【0170】
次に、グループ内で文字コードを決定する。
【0171】
なお、1種類の文字コードのみを持つグループは、以下の文字コード決定手順は省いて構わない。
【0172】
まず、ステップS1907において、グループ内で最も認識信頼度の高い文字を探す。認識信頼度の最高値を取る文字候補が1種類だけなら、その文字コードを採用する(ステップS1908)。
【0173】
そうでない場合は、ステップS1909において、文字画素抽出の信頼性評価値E1,E2の線形和を求め、その値が最も高い文字を選択する。例えば、評価値E1,E2の重みをそれぞれt1,t2として、E=t1・E1+t2・E2という評価値を求める(重みt1,t2は、自由に設定できる)。この評価値の最高値を取る文字候補が1種類だけなら、その文字コードを採用する(ステップS1910)。そうでない場合は、候補文字数が多い文字のコードを採用する(ステップS1911)。なお、評価値と同一文字コードの候補文字数を全体的に考量して選択するようにしてもよい(例えば、最高の評価値を持つ文字コードが、同一文字コードの候補文字数についは少なく、一方、評価値が僅差で2番目である文字コードが、同一文字コードの候補文字数が多い場合に、後者の文字コードを採用する、など)。また、ステップS1908からS1910を省略し、同じ文字コードの候補文字数に基づく多数決処理だけにしてもよい。
【0174】
なお、テロップの外接矩形1602やテロップの認識結果の信頼度1603を求めるためのもととなるデータとして、選択された文字の文字情報(1612)を用いる構成を採用する場合には、当該グループにおいて選択した文字コードを与えた文字候補についての文字情報を用いればよい。また、当該グループにおいて選択した文字コードを与える文字候補のうち認識信頼度の最高値を取るものが複数ある場合には、予め定めておいた基準に従って(例えば、ランダムに、あるいはより先行するフレームから得られた文字列候補から優先して)、文字情報を用いるべき1つの文字候補を選択すればよい。
【0175】
なお、前述したように、ただ1つの候補に絞るのではなく、図18に示すように、1つ1つの文字に対して複数の候補が得られている場合、全ての候補をその認識信頼度とともに保存しておいてもよい。このようにすれば、例えば、後で、文字列検索を行う際に、全ての候補文字の組み合わせを求め、求められた組み合わせ文字列に対して検索を行うことにより、1文字の認識誤りによって生じる検索漏れを回避できる可能性がある。
【0176】
本実施形態によれば、同一のテロップに対して存在する複数の認識結果から高精度に認識できた文字を選択し、その文字から文字列を構成してテロップ情報として出力することが可能となる。したがって、高精度なテロップ認識を行うことができる。また、文字列の認識信頼度を表す数値も同時に得ることが可能となる。さらに、ユーザに提示するためのテロップを選択する枠組みを提供することが可能となる。
【0177】
さて、これまでは、テロップ情報を作成する側について説明してきたが、以下では、このようなテロップ情報データを利用する側について説明する。
【0178】
テロップ情報の実際の用途としては、例えば、映像内容(映像コンテンツ全体についての内容の場合と、シーンごと、チャプターごと、曲ごと、話題ごと、あるいは10分ごと、などの所定の部分単位についての内容の場合とがある)を、それを伝える文字情報として表示することが挙げられる。文字情報が付記されることは、映像のおおまかな内容を把握したいユーザにとって有益な情報となり得る。その際、対象とする映像について、得られたテロップ情報が多い場合には、全てを表示するのは効率的ではないため、映像内容の見出しとなる(1または複数の)文字情報を選択するのが望ましい。
【0179】
そこで、映像中に含まれるテロップの時間的場所的な存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報の中から、ユーザがその映像内容を把握するための文字情報を選択して表示するテロップ情報表示システムの実施形態について説明する。なお、ここでは、テロップ情報は、これまで説明したような方法等によって映像をもとに作成されたものであってもよいし、人が手入力したものであってもよい。
【0180】
図21に、本実施形態に係るテロップ情報表示システムの構成例を示す。図21に示されるように、本テロップ情報表示システムは、テロップ選択条件入力部2101、テロップ検索部2102、検索結果表示部2103を備えている。なお、本テロップ情報表示システムは、コンピュータでソフトウェアを実行する形によっても実現可能である。
【0181】
テロップ選択条件入力部2101は、ユーザがマウス等のポインティングデバイスもしくはキーボードなどを用いて、テロップ情報を選択するための条件を入力する(ユーザからの入力を受け付ける)ためのものである。もちろん、テロップ選択条件入力部2101に、グラフィカル・ユーザ・インタフェース(GUI)を用いてもよい。
【0182】
なお、選択条件の入力方法には、種々のバリエーションがある。例えば、検索の都度、選択条件を入力する方法や、予め設定画面などで選択条件を設定しておく方法などがある。また、例えば、ユーザが所望の選択条件を入力可能とする方法や、予め定められた複数の選択条件のうちからユーザが所望のものを選択する方法などが考えられる。また、選択条件として複数の項目を指定可能とする場合に、複数の項目間の関係を論理積または論理和として扱う方法や、複数の項目間の関係をユーザが任意に設定可能とする方法などが考えられる。その他、条件検索に関する種々のバリエーションもここでの検索に妥当する。
【0183】
テロップ検索部2102は、入力された条件に適合するテロップ情報を検索するためのものである。テロップ検索部2102は、1つのテロップ情報のみを検索結果とする構成と、複数のテロップ情報を検索結果とし得る構成とがある。なお、検索方法にも同様に種々のバリエーションがある。
【0184】
検索結果表示部2103は、検索されたテロップ情報を表示するためのものである。テロップ検索部2102は複数のテロップ情報を検索結果とし得る構成を採用する場合に、検索結果表示部2103は、初期的に、複数のテロップ情報をすべて表示する方法と、複数のテロップ情報の一部(1または複数)を表示する方法とがある。なお、検索結果表示方法にも同様に種々のバリエーションがある。
【0185】
本テロップ情報表示システムの動作の概略は、次のようになる。
まず、テロップ選択条件入力部2101において、所望の選択条件を入力する。例えば、見出しとなり得るテロップは、文字サイズが大きい場合が多い。また、番組によってそのようなテロップを表示する画面内での場所が決まっていることが多い。そこで、見出しとなるテロップを検索するためには、例えば、文字のサイズ、表示位置などが、選択条件として使用できる。
次に、テロップ検索部2102において、入力された選択条件に合致するテロップ情報を検索する。例えば、文字サイズや表示位置が近いテロップを求める。
最後に、検索結果表示部2103において、検索されたテロップ情報をユーザに提示する。
【0186】
以下では、選択条件の項目を1つとした場合のいくつかの具体例を示す。
【0187】
まず、選択条件を文字のサイズとする場合の実施の形態について説明する。
【0188】
文字サイズには、例えば、12ポイント、14ポイントといったフォントサイズを用いることができる。
【0189】
図22に、選択条件とされた文字サイズとテロップ情報に含まれる文字サイズとを比較し、該当するテロップを検索するための手順の一例を示す。
【0190】
まず、ステップS2201において、全てのテロップ情報について調べたかどうかをチェックする。
ステップS2202で、テロップ文字列領域の縦方向の画素数と選択条件として入力された文字サイズとを比較する。
文字サイズの差(の絶対値)がしきい値より小さい場合(ステップS2203)、ほぼ同じサイズの文字であると判断し、ステップS2204において、そのテロップを表示用と判定する。
【0191】
次に、選択条件を文字数とする場合の実施の形態について説明する。
【0192】
見出しとなり得るテロップは、キーとなる単語を複数含むことが多く、ある一定以上の文字数を有することが多い。そこで、選択条件として文字数を設定し、しきい値以上の文字数を有するテロップを表示用として選択すると有効である。
【0193】
図23に、文字数を条件として表示用テロップを選択するための手順の一例を示す。
まず、ステップS2301において、全てのテロップ情報について調べたかどうかをチェックする。
ステップS2202で、テロップ文字数と選択条件とされた文字数とを比較する。
文字数が等しい場合(ステップS2303)、ステップS2304において、そのテロップを表示用と判定する。
なお、ステップS2303での条件を、テロップ文字数と選択条件とされた文字数との差(の絶対値)がしきい値より小さい場合としてもよい。
【0194】
次に、選択条件をテロップの表示位置とする場合の実施の形態について説明する。
【0195】
見出しとなり得るテロップは、画面において一定の場所に表示されることが多い。そこで、選択条件として表示位置(表示領域)を設定し、その領域とほぼ同じ領域を示すテロップを表示用として選択するようにしてもよい。
【0196】
図24に、表示位置を条件として表示用テロップを選択するための手順の一例を示す。
まず、ステップS2401において、全てのテロップ情報について調べたかどうかをチェックする。
ステップS2402で、テロップ文字列表示領域と選択条件として入力された表示領域とを比較する。
領域同士の重なりを求め、重なり面積がしきい値以上であれば(ステップS2403)、ステップS2404において、そのテロップを表示用と判定する。
【0197】
次に、選択条件を認識信頼度の高さとする場合の実施の形態について説明する。
【0198】
テロップ情報の各文字が認識信頼度を持つものである場合、例えば当該テロップ情報の全ての文字の認識信頼度の平均値をそのテロップの認識信頼度とし、その値がしきい値以上のものを選択すれば、認識誤りのない文字列が得られる可能性が高い。
【0199】
図25に、認識信頼度を選択条件として表示用テロップを選択するための手順の一例を示す。
まず、ステップS2501において、全てのテロップ情報について調べたかどうかをチェックする。
ステップS2502で、テロップ文字列の認識信頼度としきい値を比較する。
もし、認識信頼度がしきい値以上であれば(ステップS2503)、ステップS2504において、そのテロップを表示用と判定する。
【0200】
次に、テロップ情報に重要な単語が含まれているかどうかを選択条件とする場合の実施の形態について説明する。
【0201】
例えば、ニュース映像のテロップで、「××事件」や「○○株価指数」のように、記事内容を代表するような単語が含まれているものがある。このような単語を含むテロップを選び出して表示すると、ユーザが興味のある記事を選択する際に有効な手がかりとなる。
【0202】
なお、この場合には、図26に示すように、テロップ検索部2102が参照可能な、重要単語を登録した重要単語データベース2104が存在するものとする。
【0203】
図27に、重要単語データベースを参照して、そのような単語を含んだテロップを表示用として選択するための手順の一例を示す。
まず、ステップS2701において、全てのテロップ情報について調べたかどうかをチェックする。
ステップS2702で、重要単語データベース2104を参照し、そのテロップに重要な単語が登録されているかどうかをチェックする。このとき、当該テロップ情報の文字の候補が複数存在する場合には、それらの全ての組み合わせを調べて文字列を生成し、重要単語データベースと比較してもよい。
もし、重要単語が含まれている場合(ステップS2703)、ステップS2704において、そのテロップを表示用と判定する。
【0204】
なお、重要単語データベースを例えばジャンルごとに用意し、ユーザが参照すべきデータベースを指定するようにしてもよい。あるいは、映像の属性情報(例えば、題名、ジャンル)に基づいて自動的に参照すべきデータベースを選択するようにしてもよい。
【0205】
また、重要単語データベースを適当なタイミングで更新するようにしてもよい。その際、インターネットあるいは無線網などのネットワークを介して所定のサイトから更新すべき重要単語データベースのデータをダウンロードするようにしてもよい。
【0206】
なお、以上の各選択方法において、表示用と判定されたテロップ情報についてさらにシステム内で定めた他の条件によって規定数(1または複数)内に収まるように絞りをかけるようにしてもよい。
また、以上の各選択方法において、全てのテロップ情報について調べる代わりに、表示用と判定されたテロップ情報の数が規定数(1または複数)に達した場合には、処理をうち切るようにしてもよい。あるいは、表示用と判定され且つ上記の他の条件を満足するテロップ情報の数が規定数(1または複数)に達した場合には、処理をうち切るようにしてもよい。
【0207】
以上、いくつかの選択方法の例を説明したが、もちろん、これら以外にも様々な選択方法がある。また、以上では、選択方法を個別に説明したが、もちろん、複数の選択方法を任意に組み合わせて表示用のテロップ情報の選択を行うことも可能である。例えば、「表示画面の下方で文字サイズが大きいテロップ」などの選択条件指定を行うことができる。
【0208】
また、以上の処理は、映像の全体(または映像のうち特定の範囲)について1回行う場合について説明したものであるが、複数の映像コンテンツを対象として、処理を繰り返し行って、各映像コンテンツごとにテロップ情報を検索することも可能である。この場合には、ユーザが、どの映像コンテンツを対象としてテロップ情報を検索・表示するかを指定可能としてもよい。また、映像の全体または映像のうち特定の範囲について、所定の部分単位ごとに処理を繰り返し行うことも可能である。この場合には、ユーザが、どのような部分単位ごとにテロップ情報を検索・表示するかを指定可能としてもよい。
【0209】
次に、対象映像がニュース映像である場合に、ニュースキャスターが登場するシーンを検出し、そのシーン内において表示されたテロップを選択する場合の実施の形態について説明する。
【0210】
ニュースキャスターがニュース記事を読み上げるシーンでは、その記事内容を端的に表現するテロップが表示されることが多い。
【0211】
図28に、ニュースキャスターが登場するシーンを検出する手段を有するテロップ情報表示システムの構成例を示す。この構成例は、図21のテロップ情報表示システムにおいて、テロップ選択条件入力部2101の代わりに、ニュースキャスターシーン検出部2801を備えたものである。
【0212】
この構成例では、ニュースキャスターシーン検出部2801においてニュースキャスターシーンが検出されると、テロップ検索部2102において、そのシーン中に表示されたテロップを探し、検索結果表示部2103で表示する。
【0213】
ニュースキャスターが登場するシーンを検出する方法としては、「電子情報通信学会論文誌Vol.J80−D−II,No.9,pp.2421−2427,1997」に開示された技術などを用いればよい(例えば、周期的に登場する同一または類似する一連の画像パターン群を、1つのニュースキャスター・シーンとみなす)。また、手入力でキャスターシーンを指定する方法もある。
【0214】
図29に、キャスターシーン中に含まれるテロップを検索するための手順の一例を示す。
まず、ステップS2901において、全てのテロップ情報について調べたかどうかをチェックする。
ステップS2902で、キャスターシーンの存在時間とテロップ表示時間とに重なりがあるかどうかを調べる。
もし、キャスターシーンの存在時間とテロップ表示時間とに重なりがある場合(ステップS2903)、ステップS2904において、そのテロップを表示用と判定する。
【0215】
次に、対象映像がニュース映像である場合に、ニュース記事ごとの映像区間を抽出し記事(映像区間)ごとにテロップを分類表示する場合の実施の形態について説明する。
【0216】
ユーザが興味のあるニュース記事だけを選ぶ手助けとして、ニュース記事ごとの映像区間を抽出し、それぞれの記事ごとにテロップ情報を分類表示すると有効である。
【0217】
図30に、ニュース記事を抽出する手段を有するテロップ情報表示システムの構成例を示す。この構成例は、図21のテロップ情報表示システムにおいて、テロップ選択条件入力部2101の代わりに、ニュース記事抽出部3001を備えたものである。
【0218】
この構成例では、ニュース記事抽出部3001においてニュース記事が抽出されると、テロップ検索部2102において、それぞれの記事ごとに含まれるテロップを検索し、検索結果表示部2104で表示する。
【0219】
ニュース記事の抽出には、「電子情報通信学会論文誌Vol.J80−D−II,No.9,pp.2421−2427,1997」に開示された技術などを用いればよい(例えば、周期的に登場する同一または類似する一連の画像パターン群を、1つのニュース記事とみなす)。なお、手入力で記事を切り分ける方法もある。
【0220】
図31に、各記事ごとにテロップを分類するための手順の一例を示す。
まず、ステップS3101において、全てのテロップ情報について調べたかどうかをチェックする。
ステップS3102で、それぞれのニュース記事の映像時間とテロップ表示時間を調べ、そのテロップがどの記事中で表示されたかを調べる。
ステップS3104において、例えば記事に割り振られた通し番号を出力し、分類を行う。
そして、分類したニュース記事ごとに、例えば図29と同じ方法で、テロップ情報の検索を行う。
【0221】
なお、図28/図29や図30/図31において、前述のように、表示用と判定されたテロップ情報についてさらにシステム内で定めた他の条件によって規定数(1または複数)内に収まるように絞りをかけるようにしてもよい。また、以上の各選択方法において、全てのテロップ情報について調べる代わりに、表示用と判定されたテロップ情報の数が規定数(1または複数)に達した場合には、処理をうち切るようにしてもよい。あるいは、表示用と判定され且つ上記の他の条件を満足するテロップ情報の数が規定数(1または複数)に達した場合には、処理をうち切るようにしてもよい。
【0222】
なお、図21のテロップ情報表示システムに、さらに、ニュースキャスターシーン検出部2801およびまたはニュース記事抽出部3001を備え、図28/図29およびまたは図30/図31の方法と、例えば図22〜図27で説明したような1または複数の方法とを組み合わせて検索可能とすることもできる。この場合には、例えば、「ニュースキャスターシーンに表示される文字サイズが大きいテロップ」などの選択条件指定を行うことができる。
【0223】
なお、以上では、ユーザが選択条件を入力する例について説明したが、システム側で、ユーザ属性情報あるいはユーザが入力した他の情報などに基づいて、自動的に選択条件を設定するようにしてもよい。
【0224】
次に、選択されたテロップの表示方法について説明する。
【0225】
選択されたテロップについては、例えば、そのテロップの文字列と、そのテロップを選択するもととなった映像に関する情報(例えば、映像コンテンツを特定する情報、映像コンテンツの部分を示す情報など)とを対応付けて、表示する。
【0226】
なお、映像または映像中の特定フレームを表示する機能を備える場合に、例えば、選択されたテロップの文字列を表示する際に、そのテロップを選択するもととなった映像における代表画面(静止画)を対応付けて表示するようにしてもよい。また、ユーザがその代表画面をマウスでクリックするなどの所定の操作をすることによって、対応する動画像を再生するようにしてもよい。また、代表画面を表示する代わりに、一定範囲の動画像を繰り返し表示するようにしてもよい。もちろん、音声を持つ映像を表示する際には、音声を併せて再生するようにしてもよい。
【0227】
なお、検索処理において複数のテロップが選択された場合には、例えば、初期状態として、検索処理において最初に得られた1個(または数個)、あるいは検索処理において得られた全テロップのうち所定の評価関数によって最も妥当であると判断された1個(または数個)を表示しておき、残りはユーザがスクロール等の所定の操作をすることによって表示可能とするようにしてもよい。あるいは、一度に表示可能な数を上限として、検索処理においてテロップを得るようにし、テロップを一括して表示するようにしてもよい。
【0228】
図32に、ニュース記事ごとにそれぞれの代表画面と選択されたテロップ文字情報を表示した例を示す。この例では、1つのテロップ情報を表示しているが、複数表示してもよい。
【0229】
また、図33に、保存されている番組(映像)ごとにそれぞれの代表画面と文字情報を表示した例を示す。
【0230】
もちろん、その他にも、種々のバリエーションが可能である。
【0231】
なお、以上の各機能は、ソフトウェアとしても実現可能である。
【0232】
また、本実施形態は、コンピュータに所定の手段を実行させるための(あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても実施することもできる。
【0233】
なお、本実施形態で示した構成は一例であって、それ以外の構成を排除する趣旨のものではなく、例示した構成の一部を他のもので置き換えたり、例示した構成の一部を省いたり、例示した構成に別の機能を付加したり、それらを組み合わせたりすることなどによって得られる別の構成も可能である。また、例示した構成と論理的に等価な別の構成、例示した構成と論理的に等価な部分を含む別の構成、例示した構成の要部と論理的に等価な別の構成なども可能である。また、例示した構成と同一もしくは類似の目的を達成する別の構成、例示した構成と同一もしくは類似の効果を奏する別の構成なども可能である。
また、各種構成部分についての各種バリエーションは、適宜組み合わせて実施することが可能である。
また、本実施形態は、システム(装置)としての発明、システム(装置)内部の構成部分についての発明、またはそれらに対応する方法の発明等、種々の観点、段階、概念またはカテゴリに係る発明を包含・内在するものである。
従って、この発明の実施の形態に開示した内容からは、例示した構成に限定されることなく発明を抽出することができるものである。
【0234】
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【0235】
【発明の効果】
本発明によれば、映像中のテロップを背景から高精度に切り出し認識を行うことができ、信頼性の高いテロップ情報を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係るテロップ情報処理システムの構成例を示す図
【図2】本発明のテロップ検出および認識方法の処理ステップを示すフローチャート
【図3】テロップの一例を示す図
【図4】テロップ候補画像を作成するための処理ステップを示すフローチャート
【図5】輝度分散画像と不動エッジ画像とテロップ候補画像との関係について説明するための図
【図6】文字列領域候補を抽出するための処理ステップを示すフローチャート
【図7】文字列領域候補について説明するための図
【図8】テロップ文字画素を抽出するための処理ステップを示すフローチャート
【図9】文字切り出し手法について説明するための図
【図10】テロップ文字を認識する処理を示すフローチャート
【図11】テロップ情報を作成する手順を示すフローチャート
【図12】テロップ矩形領域を用いて、テロップの出現・継続・消滅を判定する手順を示すフローチャート
【図13】テロップ情報の作成について説明するための図
【図14】テロップを用いて、テロップの出現・継続・消滅を判定する手順を示すフローチャート
【図15】テロップ矩形領域情報を選択する手順を示すフローチャート
【図16】テロップ文字コードを選択する手順を示すフローチャート
【図17】テロップ情報のデータ構造例を示す図
【図18】文字単位での選択について説明するための図
【図19】文字の選択と文字列の再構成の手順を示すフローチャート
【図20】文字の選択と文字列の再構成のより詳細な手順を示すフローチャート
【図21】本発明の実施の形態に係るテロップ情報表示システムの構成例を示す図
【図22】文字サイズによって選択する手順を示すフローチャート
【図23】文字数によって選択する手順を示すフローチャート
【図24】表示位置によって選択する手順を示すフローチャート
【図25】認識信頼度によって選択する手順を示すフローチャート
【図26】テロップ情報表示システムの他の構成例を示す図
【図27】重要単語によって選択する手順を示すフローチャート
【図28】テロップ情報表示システムのさらに他の構成例を示す図
【図29】ニュースキャスター登場シーンに基づいて選択する手順を示すフローチャート
【図30】テロップ情報表示システムのさらに他の構成例を示す図
【図31】ニュース記事ごとにテロップを分類表示するための手順を示すフローチャート
【図32】表示形態の一例を示す図
【図33】表示形態の一例を示す図
【符号の説明】
1…テロップ候補画像作成部
2…テロップ文字列領域候補抽出部
3…テロップ文字画素抽出部
4…テロップ文字認識部
5…テロップ情報作成部
2101…テロップ選択条件入力部
2102…テロップ検索部
2103…検索結果表示部
2104…重要単語データベース
2801…ニュースキャスターシーン検出部
3001…ニュース記事抽出部

Claims (20)

  1. 一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、
    前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成するとともに、該文字切り出し画像に対する信頼度評価値を求める第1の処理手段と、
    この手段により求められた前記文字切り出し画像にOCR処理を施して、文字認識結果を求める第2の処理手段と、
    前記第1及び第2の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果のうちから前記第1の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高い文字認識結果を選択し、選択した該文字認識結果に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とするテロップ情報処理装置。
  2. 前記第2の処理手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第3の処理手段を更に備え、
    前記テロップ情報作成手段は、前記第1、第2及び第3の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果及びテロップ領域情報のうちから前記第1の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高い文字認識結果及びテロップ領域情報を選択し、選択した該文字認識結果及び該テロップ領域情報に基づいて前記テロップ情報を作成することを特徴とする請求項1に記載のテロップ情報処理装置。
  3. 一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、
    前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成するとともに、該文字切り出し画像に対する信頼度評価値を求める第1の処理手段と、
    この手段により求められた前記文字切り出し画像にOCR処理を施して、文字認識結果を求める第2の処理手段と、
    この手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第3の処理手段と、
    前記第1、第2及び第3の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果又はテロップ領域情報の少なくとも一方から前記第1の処理手段により求められた前記信頼度評価値に基づいて最も信頼性が高いものを選択し、これに基づいてテロップ情報を作成する前記テロップ情報作成手段とを備えたことを特徴とするテロップ情報処理装置。
  4. 一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、
    前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成する第1の処理手段と、
    この手段により求められた前記文字切り出し画像にOCR処理を施して、文字認識結果を求めるとともに、該文字認識結果に対する認識信頼度を求める第2の処理手段と、
    前記第1及び第2の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果のうちから前記第2の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高い文字認識結果を選択し、選択した該文字認識結果に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とするテロップ情報処理装置。
  5. 前記第2の処理手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第3の処理手段を更に備え、
    前記テロップ情報作成手段は、前記第1、第2及び第3の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果及びテロップ領域情報のうちから前記第2の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高い文字認識結果及びテロップ領域情報を選択し、選択した該文字認識結果及び該テロップ領域情報に基づいて前記テロップ情報を作成するテロップ情報作成手段とを備えたことを特徴とする請求項4に記載のテロップ情報処理装置。
  6. 一連のフレームからなる映像データ中からテロップを検出し、テロップの存在箇所に関する情報および該テロップを構成する文字列に関する情報を含むテロップ情報を作成するテロップ情報処理装置であって、
    前記映像データの処理対象のフレーム中からテロップの候補を含む画素領域を求め、該画素領域に基づいて文字認識処理を施すべき文字切り出し画像を作成する第1の処理手段と、
    この手段により求められた前記文字切り出し画像にOCR処理を施して、文字認識結果を求めるとともに、該文字認識結果に対する認識信頼度を求める第2の処理手段と、
    この手段により文字認識結果が得られたテロップの当該フレームにおける存在箇所を示すテロップ領域情報を求める第3の処理手段と、
    前記第1、第2及び第3の処理手段による一連の処理によって同一テロップについて得られた複数の文字認識結果又はテロップ領域情報の少なくとも一方から前記第2の処理手段により求められた前記認識信頼度に基づいて最も信頼性が高いものを選択し、これに基づいてテロップ情報を作成する前記テロップ情報作成手段とを備えたことを特徴とするテロップ情報処理装置。
  7. 前記テロップ情報作成手段は、
    前記第1、第2及び第3の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果又はテロップ領域情報を順次比較していくことによって、同一テロップに対するものを特定する第4の処理手段と、
    前記同一テロップが最初に検出された処理対象フレーム及び最後に検出された処理対象フレームを特定する情報を作成して、前記テロップ情報に付加する第5の処理手段とを含むことを特徴とする請求項2,3,5または6に記載のテロップ情報処理装置。
  8. 前記テロップ情報作成手段は、
    前記第1及び第2及の処理手段による一連の処理によって得られた複数の文字認識結果のうちから、相前後する処理対象フレームにおける文字認識結果を順次比較していくことによって、同一のテロップに対するものを特定する第4の処理手段と、
    前記第4の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果のうちから、相前後する処理対象フレームにおける文字認識結果を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
    同一の文字に対するグループごとに、該グループに属する文字認識結果のうちから、少なくとも前記第1の処理手段により求められた前記信頼度評価値に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
    各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項に記載のテロップ情報処理装置。
  9. 前記テロップ情報作成手段は、
    前記第1及び第2及の処理手段による一連の処理によって得られた複数の文字認識結果のうちから、相前後する処理対象フレームにおける文字認識結果を順次比較していくことによって、同一のテロップに対するものを特定する第4の処理手段と、
    前記第4の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果のうちから、相前後する処理対象フレームにおける文字認識結果を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
    同一の文字に対するグループごとに、該グループに属する文字認識結果のうちから、少なくとも前記第2の処理手段により求められた前記認識信頼度に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
    各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項に記載のテロップ情報処理装置。
  10. 前記テロップ情報作成手段は、
    前記第1、第2及び第3の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及び文字領域情報を順次比較していくことによって、同一のテロップに対するものを特定する第4の処理手段と、
    前記第4の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及びテロップ領域情報を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
    同一の文字に対するグループごとに、該グループに属する文字認識結果及びテロップ領域情報のうちから、少なくとも前記第1の処理手段により求められた前記信頼度評価値に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
    各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果及びテロップ領域情報に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項に記載のテロップ情報処理装置。
  11. 前記テロップ情報作成手段は、
    前記第1、第2及び第3の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及び文字領域情報を順次比較していくことによって、同一のテロップに対するものを特定する第4の処理手段と、
    前記第4の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及びテロップ領域情報を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
    同一の文字に対するグループごとに、該グループに属する文字認識結果及びテロップ領域情報のうちから、少なくとも前記第2の処理手段により求められた前記認識信頼度に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
    各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果及びテロップ領域情報に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項に記載のテロップ情報処理装置。
  12. 前記テロップ情報作成手段は、
    前記第1、第2及び第3の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及び文字領域情報を順次比較していくことによって、同一のテロップに対するものを特定する第4の処理手段と、
    前記第4の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及びテロップ領域情報を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
    同一の文字に対するグループごとに、該グループに属する文字認識結果及びテロップ領域情報のうちから、少なくとも前記第1の処理手段により求められた前記信頼度評価値に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
    各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果とテロップ領域情報の少なくとも一方に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項に記載のテロップ情報処理装置。
  13. 前記テロップ情報作成手段は、
    前記第1、第2及び第3の処理手段による一連の処理によって得られた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及び文字領域情報を順次比較していくことによって、同一のテロップに対するものを特定する第4の処理手段と、
    前記第4の処理手段による処理によって同一のテロップに対するものと特定されまとめられた複数の文字認識結果及びテロップ領域情報のうちから、相前後する処理対象フレームにおける文字認識結果及びテロップ領域情報を順次比較していくことによって、同一の文字に対するものをグループにする手段と、
    同一の文字に対するグループごとに、該グループに属する文字認識結果及びテロップ領域情報のうちから、少なくとも前記第2の処理手段により求められた前記認識信頼度に基づいて、信頼性が相対的に高いグループを採用し、信頼性が相対的に低いグループを不採用にする手段と、
    各々の前記グループにおいて選択された前記文字認識結果を前記文字領域情報に基づいて並び替えることによって再構成したテロップ文字列の文字認識結果とテロップ領域情報の少なくとも一方に基づいて前記テロップ情報を作成する手段とを含むことを特徴とする請求項に記載のテロップ情報処理装置。
  14. 前記第1の処理手段は、
    前記映像データの処理対象のフレーム中からテロップの候補を構成する画素を求め、テロップの候補を構成するか否かで画素を2値化した画像を作成する第1の画像作成手段と、
    この手段で求められた前記画像における孤立画素を連結して、文字列の候補となる領域を抽出する領域抽出手段と、
    この手段で抽出された前記文字列の候補となる領域に基づいて、前記OCR処理を施すべき前記文字切り出し画像を作成する第2の画像作成手段とを含むことを特徴とする請求項1ないし13のいずれか1項に記載のテロップ情報処理装置。
  15. 前記第1の画像作成手段は、
    前記処理対象のフレームから予め定められた数だけ過去に遡ったフレームまでの間のすべてのフレームの画像にわたる各画素の輝度分散を求め、予め定められた閾値より低い輝度分散値を持つ画素を求める手段と、
    前記処理対象のフレームから予め定められた数だけ過去に遡ったフレームまでの間のすべてのフレームの画像にわたって位置が変化しないエッジ画素を求める手段と、
    前記予め定められた閾値より低い輝度分散値を持つ画素であって、かつ、前記位置が変化しないエッジ画素であるものか否かで画素を2値化した画像を作成する手段とを含むことを特徴とする請求項14に記載のテロップ情報処理装置。
  16. 前記第1の画像作成手段は、予め定められた規則にしたがって元の映像データから処理対象となるフレーム画像をサンプリングする手段を更に含むことを特徴とする請求項15に記載のテロップ情報処理装置。
  17. 前記第2の画像作成手段は、
    前記処理対象のフレームから予め定められた数だけ過去に遡ったフレームまでの間のすべてのフレームの画像にわたる各画素の輝度平均を示す輝度平均画像から、前記文字列の候補となる領域に対応する部分を処理対象範囲として取り出す手段と、
    前記輝度平均画像の処理対象範囲からエッジを検出し、検出されたエッジのうちで予め定められた閾値より高い強度を持つものを抽出してエッジ画素を2値化し、2値化したエッジ画素を膨張する手段と、
    このエッジ画素を膨張した膨張領域から輝度分布を推定し、輝度分布の平均と分散を求める手段と、
    前記輝度平均画像の処理対象範囲の画素のうち、前記平均及び前記分散から決定される第1の閾値よりも高い輝度値を有する画素を文字画素として検出する手段と、
    前記輝度平均画像の処理対象範囲において、既に検出された検出画素の近傍の画素のうち、前記第1の閾値よりも小さな値に設定された第2の閾値より高い輝度値を有する画素を検出して、該検出画素に追加することを、新しく検出される画素がなくなるまで繰り返し行う手段と、
    この手段により得られた検出画素について彩度分布を推定する手段と、
    この手段により推定された彩度分布により外乱として検出された画素をノイズとして前記検出画素から除去して、これを前記文字切り出し画像とする手段と、
    前記文字切り出し画像に対する信頼性を評価する手段とを含むことを特徴とする請求項14に記載のテロップ情報処理装置。
  18. 前記信頼性評価値として、前記文字画素として検出された画素の近傍にあって文字画素として検出されなかった背景画素における、前記閾値より高い輝度分散値を持つ画素の割合を用いることを特徴とする請求項17に記載のテロップ情報処理装置。
  19. 前記信頼性評価値として、前記文字画素として検出された画素の近傍にあって文字画素として検出されなかった背景画素における、前記第2の閾値より低い輝度値を持つ画素の割合を用いることを特徴とする請求項17に記載のテロップ情報処理装置。
  20. 前記信頼性評価値として、前記文字画素として検出された画素の近傍にあって文字画素として検出されなかった背景画素における、前記閾値より高い輝度分散値を持ち且つ前記第2の閾値より低い輝度値を持つ画素の割合を用いることを特徴とする請求項17に記載のテロップ情報処理装置。
JP2000216407A 2000-01-24 2000-07-17 テロップ情報処理装置 Expired - Fee Related JP3692018B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000216407A JP3692018B2 (ja) 2000-01-24 2000-07-17 テロップ情報処理装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-14867 2000-01-24
JP2000014867 2000-01-24
JP2000216407A JP3692018B2 (ja) 2000-01-24 2000-07-17 テロップ情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005143284A Division JP2005339537A (ja) 2000-01-24 2005-05-16 テロップ情報表示装置

Publications (2)

Publication Number Publication Date
JP2001285716A JP2001285716A (ja) 2001-10-12
JP3692018B2 true JP3692018B2 (ja) 2005-09-07

Family

ID=26584044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000216407A Expired - Fee Related JP3692018B2 (ja) 2000-01-24 2000-07-17 テロップ情報処理装置

Country Status (1)

Country Link
JP (1) JP3692018B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093472A (ja) * 2007-10-10 2009-04-30 Mitsubishi Electric Corp 文字表示領域検出装置及びその方法、並びに携帯端末
EP2336900A2 (en) 2009-12-18 2011-06-22 Kabushiki Kaisha Toshiba Search device and search method

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4112968B2 (ja) 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
KR100537520B1 (ko) * 2004-02-18 2005-12-19 삼성전자주식회사 동영상의 자막 검출 방법 및 장치
JP4700002B2 (ja) * 2004-08-19 2011-06-15 パイオニア株式会社 テロップ検出方法、テロップ検出プログラム、およびテロップ検出装置
JP2006154976A (ja) * 2004-11-25 2006-06-15 Sharp Corp 動画フレーム解析装置
JP4839076B2 (ja) * 2005-12-09 2011-12-14 日本電信電話株式会社 映像中文字認識装置、映像中文字認識方法、プログラム、及び記録媒体
JP2008118232A (ja) 2006-11-01 2008-05-22 Hitachi Ltd 映像再生装置
JP4861845B2 (ja) * 2007-02-05 2012-01-25 富士通株式会社 テロップ文字抽出プログラム、記録媒体、方法及び装置
JP2009017325A (ja) * 2007-07-06 2009-01-22 Hitachi Ltd テロップ文字領域抽出装置及び方法
CN100589532C (zh) * 2007-08-09 2010-02-10 富士通株式会社 字幕区域提取装置和方法
JP5029412B2 (ja) * 2008-02-20 2012-09-19 富士通株式会社 テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法
JP2009217303A (ja) * 2008-03-07 2009-09-24 Hitachi Ltd テロップ文字抽出方法およびテロップ文字認識装置
CN101571921B (zh) * 2008-04-28 2012-07-25 富士通株式会社 关键字识别方法和装置
JP2012003480A (ja) * 2010-06-16 2012-01-05 Nippon Hoso Kyokai <Nhk> テロップ文字領域検出装置、及びプログラム
JP5677229B2 (ja) * 2011-07-28 2015-02-25 日本放送協会 映像字幕検出装置およびそのプログラム
JP5845764B2 (ja) 2011-09-21 2016-01-20 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5974589B2 (ja) * 2012-03-30 2016-08-23 ブラザー工業株式会社 画像処理装置およびプログラム
JP6364182B2 (ja) * 2013-11-28 2018-07-25 シャープ株式会社 文字列認識装置および文字列認識方法
JP6575116B2 (ja) * 2015-04-03 2019-09-18 富士ゼロックス株式会社 文字認識装置、文字認識処理システム、およびプログラム
JP7492404B2 (ja) 2020-08-13 2024-05-29 株式会社Pfu 情報処理装置、入力データ誤り推定方法及びプログラム
US20230094651A1 (en) 2021-09-30 2023-03-30 Konica Minolta Business Solutions U.S.A., Inc. Extracting text from an image

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093472A (ja) * 2007-10-10 2009-04-30 Mitsubishi Electric Corp 文字表示領域検出装置及びその方法、並びに携帯端末
JP4613941B2 (ja) * 2007-10-10 2011-01-19 三菱電機株式会社 文字表示領域検出装置及びその方法、並びに携帯端末
EP2336900A2 (en) 2009-12-18 2011-06-22 Kabushiki Kaisha Toshiba Search device and search method

Also Published As

Publication number Publication date
JP2001285716A (ja) 2001-10-12

Similar Documents

Publication Publication Date Title
JP3692018B2 (ja) テロップ情報処理装置
Diem et al. cBAD: ICDAR2017 competition on baseline detection
US6594386B1 (en) Method for computerized indexing and retrieval of digital images based on spatial color distribution
JP4271878B2 (ja) 映像中の文字検索方法及び装置並びに文字検索処理プログラム
CN106845513B (zh) 基于条件随机森林的人手检测器及方法
US20070038937A1 (en) Method, Program, and Device for Analyzing Document Structure
US20060045346A1 (en) Method and apparatus for locating and extracting captions in a digital image
US6763137B1 (en) Recognition and clustering of connected components in bi-level images
Singh et al. Systematic Linear Word String Recognition and Evaluation Technique
EP0097820A1 (en) Method for adaptively assigning index numbers to picture element array patterns
US20010033694A1 (en) Handwriting recognition by word separation into sillouette bar codes and other feature extraction
Liang et al. Document layout structure extraction using bounding boxes of different entitles
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
JP2005339537A (ja) テロップ情報表示装置
Steinherz et al. Offline loop investigation for handwriting analysis
KR101118628B1 (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
Liang et al. Performance evaluation of document structure extraction algorithms
EP1402463A1 (en) Automatic natural content detection in video information
KR100449486B1 (ko) 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법
Chang et al. Caption analysis and recognition for building video indexing systems
KR19990047501A (ko) 뉴스 비디오 자막 추출 및 인식 방법
Dimitrova et al. MPEG-7 Videotext description scheme for superimposed text in images and video
Arai et al. Method for extracting product information from TV commercial
Pei et al. Automatic text detection using multi-layer color quantization in complex color images
Rasheed et al. Automatic Video Indexing and Retrieval System for Turkish Videos

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050617

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090624

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090624

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100624

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100624

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110624

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120624

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees