JP5691281B2 - 文字認識装置、文字認識プログラム及び文字認識方法 - Google Patents

文字認識装置、文字認識プログラム及び文字認識方法 Download PDF

Info

Publication number
JP5691281B2
JP5691281B2 JP2010169740A JP2010169740A JP5691281B2 JP 5691281 B2 JP5691281 B2 JP 5691281B2 JP 2010169740 A JP2010169740 A JP 2010169740A JP 2010169740 A JP2010169740 A JP 2010169740A JP 5691281 B2 JP5691281 B2 JP 5691281B2
Authority
JP
Japan
Prior art keywords
character
image
recognition
logical product
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010169740A
Other languages
English (en)
Other versions
JP2012032885A (ja
Inventor
堀田 悦伸
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010169740A priority Critical patent/JP5691281B2/ja
Publication of JP2012032885A publication Critical patent/JP2012032885A/ja
Application granted granted Critical
Publication of JP5691281B2 publication Critical patent/JP5691281B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本件は、文字認識装置、文字認識プログラム及び文字認識方法に関する。
近年、多数の番組を録画できるDVD(Digital Versatile Disc)装置や、HDD(Hard Disk Drive)ビデオ装置が普及している。その結果、大量の録画データの中からコンテンツを検索するニーズが高まってきている。また、放送局等においても、映像データを効率的に管理するために、過去に放映した映像データに検索用のテキストデータを付与して、映像検索を容易にしたいというニーズが高まっている。
映像データを検索することを可能にする方法として、映像中の文字情報を検索のキーに使用することが考えられる。映像の中には、クローズドキャプションと呼ばれる字幕情報が付与された映像も存在するが、大部分の映像はテキスト情報を保持していない。したがって、映像データに対して検索用のテキストデータを付与するには、映像中の文字情報を抽出して、文字認識を行う必要がある。ここで、文字の認識結果を検索のキーとして使用することを考えた場合、その認識精度を高めることが重要である。しかしながら、映像中にあらわれる文字の背景は、一様ではなく複雑である場合が多いため、そのような複雑な背景上に表示された文字を認識することは難しい。そこで、複雑な背景上の文字の認識率を向上させる技術が提案されている(例えば、特許文献1)。
特開2008−191906号公報
一般的な文字認識においては、2値化した画像に対して文字認識処理が行われる。しかしながら、複雑な背景上に文字が存在する画像を2値化した場合、背景の一部が2値化した画像の中に残存してしまうことがある。このような場合、文字認識において、残存した背景の一部(以下、ノイズと記載する)が文字線分の一部とみなされ、誤認識の原因となってしまう。しかしながら、特許文献1の技術では、2値化した画像にノイズが混入する可能性があり、ノイズによる誤認識が発生する可能性があった。
本件は、上記の事情に鑑みて成されたものであり、文字の認識率を向上させる文字認識装置、文字認識プログラム及び文字認識方法を提供することを目的とする。
上記課題を解決するために、明細書開示の文字認識装置は、画像情報について文字認識を行い、該画像情報のうち一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第1の認識部と、所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記憶部と、前記マスク画像記億部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成部と、前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第2の認識部と、前記第2の認識部が決定した前記認識文字それぞれの前記論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定部と、を備える。
上記課題を解決するために、明細書開示の文字認識プログラムは、画像情報について文字認識を行い、該画像情報のうち一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第1の認識ステップと、所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記億部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成ステップと、前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第2の認識ステップと、前記第2の認識ステップで決定された前記認識文字それぞれの論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定ステップと、をコンピュータに実行させる
上記課題を解決するために、明細書開示の文字認識方法は、コンピュータが、画像情報について文字認識を行い、一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第1の認識ステップと、所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記憶部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成ステップと、前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第2の認識ステップと、前記第2の認識ステップで決定された前記認識文字それぞれの論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定ステップと、を実行する。
明細書開示の文字認識装置、文字認識プログラム及び文字認識方法によれば、文字の認識率が向上する。
本件の文字認識装置を含む映像管理システムのシステム構成の一例を示す図である。 文字認識装置のハードウェア構成の一例を示す図である。 文字認識装置が備える機能の一例を示す機能ブロック図である。 前処理部が実施する各処理によって得られる画像の一例を示す図である。 ラプラシアンフィルタの一例を示す図である。 文字画像の切り出しの概要について説明する図である。 認識結果候補文字と対応するマスク画像の一例を示す図である。 文字認識装置が実行する処理の一例を示すフローチャートである。 第1の文字認識部による文字認識結果の一例を示す図である。 マスク処理の詳細な処理の一例を示すフローチャートである。 論理積演算のルールを示す図である。 文字画像と、各認識結果候補文字と対応するマスク画像との論理積をとった論理積画像の一例をしめす図である。 第2の文字認識部による各論理積画像の文字認識結果の一例を示す図である。 「犬」を含む文字画像の文字認識結果の一例を示す図である。
以下、本件の実施形態について、添付図面を参照しつつ説明する。
まず、図1を参照して、本件の文字認識装置を含む映像管理システムのシステム構成の一例について説明する。図1に示すように、映像管理システム100は、映像入力装置10、文字認識装置20、操作入力装置30、及び映像データ蓄積部40を備える。
映像入力装置10は、例えば、テレビ映像を受像する受像機である。映像入力装置10は、文字情報を抽出する対象となる映像を文字認識装置20に入力する。また、映像入力装置10は、映像データを、映像データ蓄積部40に保存する。
文字認識装置20は、例えば、HDDビデオ装置に備えられる。文字認識装置20は、映像入力装置10から入力された映像データに対して文字認識を行い、文字情報を取得する。文字認識装置20は、文字認識結果をテキストデータとして、操作入力装置30が備える表示装置に出力する。また、操作入力装置30から、認識結果採用の入力を受付けた場合には、認識結果を映像データ蓄積部40に格納する。
操作入力装置30は、文字認識装置20から文字認識結果を受付け、表示装置に表示する。これにより、操作入力装置30は、ユーザに文字認識の結果を提供する。また、操作入力装置30は、ユーザから所定の操作入力を受付ける。具体的には、操作入力装置30は、ユーザから文字認識結果の採否を受付け、文字認識装置20に文字認識結果の採否を出力する。また、操作入力装置30は、認識結果に対する修正をユーザから受付けた場合、修正データを文字認識装置20に出力する。
映像データ蓄積部40は、例えば、HDDビデオ装置に備えられたハードディスクドライブである。映像データ蓄積部40は、映像データに含まれる文字情報をテキスト化したテキストデータを、文字認識装置20から受付ける。映像データ蓄積部40は、受付けたテキストデータを、映像入力装置10から入力された映像データと紐付けて保存する。これにより、映像データに含まれる文字情報が、映像データ蓄積部40に格納された映像データを検索する際の検索のキーとして、ユーザに提供される。
次に、図2を参照して、文字認識装置20のハードウェア構成の一例について説明する。文字認識装置20は、ハードウェア構成として、例えば、入出力部201、ROM(Read Only Memory)202、中央処理装置(CPU:Central Processing Unit)203、RAM(Random Access Memory)204、及びHDD205を備える。
入出力部201は、映像入力装置10、操作入力装置30及び映像データ蓄積部40とデータの送受信を行う。ROM202は、文字認識処理を実行するためのプログラム等を格納する。CPU203は、ROM202に格納されたプログラムを読み込んで実行する。RAM204は、プログラムを実行する際に使用される一時的なデータを保存する。HDD205は、文字認識処理に使用する辞書およびマスク画像(詳細は後述する)等を格納する。
次に、ROM202に格納されたプログラムのCPU203による演算によって実現される文字認識装置20の機能の一例について説明する。図3は、文字認識装置20が備える機能の一例を示す機能ブロック図である。
文字認識装置20は、映像受付部211、前処理部212、認識対象画像入力部213、第1の文字認識部214、マスク処理部215、第2の文字認識部216、決定部217及び出力部218を備える。映像受付部211〜出力部218は、ROM202に格納されたプログラムのCPU203による演算によって実現される。また、文字認識装置20は、辞書格納部221及びマスク画像格納部222を備える。
辞書格納部221及びマスク画像格納部222は、例えば、HDD205等の記憶装置である。辞書格納部221は、文字認識に用いられる文字毎の参照用特徴ベクトル(辞書)を格納する。また、マスク画像格納部(マスク画像記憶部)222は、マスク処理に使用されるマスク画像(詳細は後述する)を格納する。
映像受付部211は、映像入力装置10から、文字情報を含む映像データを受付ける。映像中に含まれる文字情報とは、例えば、出演者のコメントやニュースの項目を文字にしたテロップ(字幕)をいう。映像受付部211は、受付けた映像データから、テロップを含むテロップ領域画像を切り出す。映像受付部211は、切り出したテロップ領域画像を前処理部212に出力する。
前処理部212は、映像受付部211からテロップ領域画像を受付ける。前処理部212は、テロップ領域画像に対して、輪郭検出処理、白黒反転処理、ぼかし処理、2値化処理及びノイズ除去処理を実行する。ここで、前処理部212が実行する処理と、その処理によって得られる画像について説明する。
図4は、前処理部212が実行する各処理によって得られる画像の一例を示す図である。以下の説明では、映像受付部211が、図4(A)に示す映像を映像入力装置10から受付けたとする。図4(A)に示す映像には、「浮いてた」というテロップが含まれる。この場合、映像受付部211は、テロップ領域画像として、図4(B)に示す画像を前処理部212に出力する。
前処理部212は、まず、輪郭検出処理を行う。前処理部212は、例えば、ラプラシアンフィルタを用いて、文字のエッジ検出を行い、文字の輪郭線を検出する。具体的には、前処理部212は、図5に示すフィルタを用いて、着目画素に重み付けを行う。この重み付けを行った着目画素値から、周辺画素値を減算することによって、着目画素が強調されるため、文字のエッジの検出が可能となる。図4(C)は、輪郭検出処理後の画像の一例を示している。なお、輪郭線を検出するのに用いるフィルタは、ラプラシアンフィルタに限定されるわけではなく、ソーベルフィルタ等を用いてもよい。
次に、前処理部212は、図4(C)に示した輪郭検出処理後の画像を白黒反転する。図4(D)は、白黒反転処理後の画像の一例を示している。次に、前処理部212は、白黒反転後の画像(図4(D))に対して、ぼかし処理を行う。具体的には、前処理部212は、ガウシアンフィルタを画像中の全ての画素に適用する。ぼかし処理により、黒画素がまばらに存在する背景部分に対して、黒画素が密集している文字部分が強調される。図4(E)は、ぼかし処理後の画像の一例を示している。
次に、前処理部212は、ぼかし処理後の画像の2値化を行う。具体的には、前処理部212は、濃度閾値を設定し、濃度閾値未満の濃度を有する画素を白画素とし、濃度閾値以上の濃度を有する画素を黒画素とする。図4(F)は、2値化処理後の画像の一例を示している。
最後に、前処理部212は、図4(F)の2値化処理後の画像に対し、ノイズ除去処理を行う。具体的には、前処理部212は、連結した黒画素数が閾値以下のものを孤立ノイズとみなして除去する。図4(G)は、ノイズ除去処理後の画像の一例を示している。
前処理部212は、ノイズ除去後の画像(図4(G))を文字認識の対象となる画像(以下、認識対象画像と記載する)として、認識対象画像入力部213に出力する。
認識対象画像入力部213は、前処理部212から、認識対象画像を受付ける。認識対象画像入力部213は、図6において実線の四角形で表すように、文字列の高さを文字サイズ(縦・横)とみなし、認識対象画像に含まれる文字の切り出しを行う。次に、認識対象画像入力部213は、切り出した一文字単位の画像領域(以下、文字画像と記載する)を第1の文字認識部214に出力する。
第1の文字認識部(第1の認識部)214は、辞書格納部221に格納された辞書を用いて、文字画像の文字認識を行う。ここで、第1の文字認識部214は、文字認識方式として、例えば、加重方向指数ヒストグラム法(“加重方向指数ヒストグラム法による手書き漢字・ひらがな認識”信学誌(D) vol.J70−D/7 pp.1390−1397, July 1987)を用いることができる。加重方向指数ヒストグラム法は、文字変形や文字線の太さの変化に強いという特徴を持っている。
加重方向指数ヒストグラム法では、入力画像を、例えば、48×48画素などの大きさに正規化する。そして、正規化した各画素をさらに16×16個の小領域に分割し、小領域ごとに縦・横・斜め上、及び斜め下方向の黒画素並びの頻度(ヒストグラム)を調べる。そして、縦・横・斜め上、及び斜め下方向の黒画素並びのヒストグラムを並べたものを、特徴ベクトルとする。第1の文字認識部214は、この特徴ベクトルを、辞書格納部221が格納する文字毎の参照用特徴ベクトル(辞書)と比較し、ベクトル間の距離値を求める。ここで、ベクトル間の距離値は、文字画像に含まれる文字と、参照用特徴ベクトルに対応する文字との類似度を表す。なお、距離値が小さいとは、文字画像に含まれる文字と、参照用特徴ベクトルに対応する文字との類似度が高いことを意味する。第1の文字認識部214は、例えば、距離値が小さい順に所定の数の参照特徴ベクトルに対応する文字を、認識結果候補文字としてマスク処理部215に出力する。
マスク処理部(論理積画像生成部)215は、マスク画像格納部222から、各認識結果候補文字と対応するマスク画像を取得する。ここで、認識結果候補文字と対応するマスク画像とは、所定のフォントの文字の画像である。本実施形態におけるマスク画像は、無地の背景部に所定のフォントの一例としてゴシック体の文字の画像であるとする。例えば、図6に示した「浮」を含む文字画像において、認識結果候補文字が「湾」、「溝」、及び「浮」であったとする。この場合、それぞれの認識結果候補文字と対応するマスク画像は、例えば、図7に示す画像となる。マスク処理部215は、文字画像とマスク画像との論理積をとった論理積画像を、認識結果候補文字毎に取得する。マスク処理部215は、論理積画像を第2の文字認識部216に出力する。
第2の文字認識部(第2の認識部)216は、各論理積画像に対して文字認識を行う。第2の文字認識部216が使用する文字認識方式は、第1の文字認識部214と同様であるため、説明を省略する。第2の文字認識部216は、各論理積画像に対する文字認識結果(各論理積画像の認識結果候補文字)を決定部217に出力する。但し、第1の文字認識部214とは異なり、第2の文字認識部216は各論理積画像の認識結果候補文字として距離値が最小の認識結果候補文字のみを決定する。また、第2の文字認識部216は、その認識結果候補文字と併せてその距離値も決定部217へ出力する。なお、第1の文字認識部214が使用する文字認識方法と、第2の文字認識部216が使用する文字認識方法とは、異なっていてもよい。
決定部217は、第2の文字認識部216から、各論理積画像に対する文字認識結果および距離値を受付ける。決定部217は、受付けた認識結果の中から、文字画像の認識結果とする文字を決定する。決定部217は、認識結果として決定した文字を出力部218に出力する。
出力部218は、文字画像の認識結果として決定された文字を決定部217から受付ける。出力部218は、認識対象画像入力部213が切り出した全ての文字画像に対する認識結果を受付けると、各文字画像の認識結果をマージする。たとえば、出力部218は、図6の場合に「浮」、「い」、「て」及び「た」を含む各文字画像に対する認識結果を受付け、マージする。出力部218は、マージした認識結果(「浮いてた」)を、認識対象画像の認識結果として操作入力装置30の表示装置に出力する。出力部218は、操作入力装置30から、認識結果の採否情報を受付ける。出力部218は、認識結果が採用されると、認識結果を映像データ蓄積部40に格納する。これにより、映像中のテロップがテキストデータ化され、検索のキーとして利用できるようになる。
次に、文字認識装置20が実行する処理の一例について具体例を参照しながら説明する。図8は、文字認識装置20が実行する処理の一例を示すフローチャートである。
映像受付部211は、映像入力装置10から映像を受付け(ステップS11)、テロップ領域画像を前処理部212に出力する。
前処理部212は、テロップ領域画像に、図4で説明した前処理を施す(ステップS13)。次に、認識対象画像入力部213は、前処理を施した認識対象画像を文字毎に切り出し(ステップS15)、文字画像を取得する(ステップS17)。認識対象画像入力部213は、取得した文字画像を第1の文字認識部214に出力する。
第1の文字認識部214は、文字画像に対して文字認識を行う(ステップS19)。第1の文字認識部214は、認識結果候補文字のうち距離値が小さい方からX番目までの文字(上位X位までの文字)を、マスク処理部215に出力する。
例えば、第1の文字認識部214が、図6に示される「浮」を含む文字画像に対して文字認識を行ったとする。図9は、第1の文字認識部214による文字認識結果の一例を示している。第1の文字認識部214は、図9に示す文字認識結果において、例えば、上位3位までの文字をマスク処理部215に出力する。第1の文字認識部214は、図9の認識結果候補文字において距離値が小さい方から3番目までの文字「湾」、「溝」及び「浮」を、マスク処理部215に出力する。なお、第1の文字認識部214は、上位X位までの文字ではなく、例えば、距離値がしきい値以下(例えば、200以下)である文字をマスク処理部215に出力してもよい。
次に、マスク処理部215は、文字画像に対してマスク処理を行う(ステップS21)。ここで、マスク処理の詳細について説明する。図10は、マスク処理の詳細な処理の一例を示すフローチャートである。
マスク処理部215は、第1の文字認識部214から受付けた認識結果候補文字に対応するマスク画像を、マスク画像格納部222から取得する(ステップS211)。例えば、マスク処理部215は、「湾」、「溝」及び「浮」と対応するマスク画像(図7)をマスク画像格納部222から取得する。
マスク処理部215は、文字画像とマスク画像との位置合わせを行う(ステップS213)。実施の一例では、マスク処理部215は、文字画像とマスク画像に外接する矩形をそれぞれ抽出する。マスク処理部215は、文字画像とマスク画像の外接矩形が同じ大きさになるように線形正規化(縦方向、横方向に伸縮)をする。マスク処理部215は、正規化後の文字画像とマスク画像とを重ね合わせる、すなわち文字画像とマスク画像との論理積をとり、論理積画像を生成する(ステップS215)。具体的には、マスク処理部215は、文字画像とマスク画像との間で、画素単位の論理積演算を行う。論理積演算は、図11(A)に示すルールに基づいて行われる。ここで、表中の「1」は文字部分、すなわち黒画素を示し、「0」は文字以外の背景部分、すなわち白画素を表す。なお、背景部分が白以外の色からなる場合(例えば、青や赤)の場合には、「0」は文字以外の背景部分である青画素や赤画素を表す。
図11(A)によれば、文字画像とマスク画像とにおいて、同じ位置に黒画素が存在する、すなわち、両画像の画素値が「1」の場合にのみ、論理積画像の画素が黒画素(画素値「1」)となる。つまり、文字画像において図11(B)に示すようなノイズが存在していたとしても、マスク画像の背景部との論理積をとることによってノイズが除去される。図12は、文字画像と、各認識結果候補文字と対応するマスク画像との論理積をとった論理積画像を表している。図12に示すように、認識結果候補文字の「浮」と対応するマスク画像と、文字画像との論理積をとった場合、文字画像中に存在するノイズが除去されている。
マスク処理部215は、第1の文字認識部214から受付けた、全ての認識結果候補文字のマスク画像と、文字画像との論理積画像を取得したか否か判定する(ステップS217)。
論理積画像を取得していない認識結果候補文字があれば(ステップS217の判定がNOの場合)、マスク処理部215は、次の認識結果候補文字について、ステップS211〜S215の処理を実行する。全ての認識結果候補文字について論理積画像を取得すれば(ステップS217の判定がYESの場合)、マスク処理部215は、本処理を終了し、取得した論理積画像を第2の文字認識部216に出力する。
図8に戻り、説明を続ける。第2の文字認識部216は、論理積画像のそれぞれに対して、文字認識処理を実行する(ステップS23)。第2の文字認識部216は、各論理積画像に対する文字認識の結果(各論理積画像の認識結果候補文字)を決定部217に出力する。実施の一例では、各論理積画像(図13左欄)に対して、第1の文字認識部と同様の文字認識を行う。文字認識によって、文字認識の結果の文字(図13中欄)と、論理積画像と認識結果の文字との類似度を示す距離値(図13右欄)を取得し、決定部217に出力する。但し、第2の文字認識部216は、各論理積画像に対して、距離値の最も小さい認識結果の文字のみを決定部217に出力する。
決定部217は、第2の文字認識部216から文字認識の結果を受付け、受付けた認識結果候補文字の中から、認識結果として出力する文字を決定する(ステップS25)。例えば、第2の文字認識部216による各論理積画像の文字認識結果が、図13に示すとおりであったとする。この場合、決定部217は、距離値が最も小さい「浮」を、「浮」を含む文字画像の認識結果として決定する。なお、図13の距離値は、論理積画像と認識結果候補文字との距離値を示している。
出力部218は、切り出された文字画像の全てについて、認識結果として出力する文字を決定したか否か判定する(ステップS27)。
全ての文字画像について出力する文字を決定していない場合(ステップS27の判定がNOの場合)、文字認識装置20は、次の文字画像について、ステップS17からの処理を実行する。全ての文字画像について文字を決定した場合(ステップS27の判定がYESの場合)、出力部218は、認識結果を、操作入力装置30の表示装置に出力する(ステップS29)。出力部218は、認識結果が採用されたか否か判定する(ステップS31)。出力部218は、認識結果が採用された場合には、認識結果を映像データ蓄積部40に保存し(ステップS33)、本処理を終了する。認識結果が採用されなかった場合には、出力部218は、操作入力装置30から認識結果の修正データを受付け、修正された認識結果を映像データ蓄積部40に保存し(ステップS35)、本処理を終了する。
以上の説明から明らかなように、本実施形態によれば、認識対象画像入力部213が取得した文字画像に対して、第1の文字認識部214が文字認識を行い、複数の認識結果候補文字を取得する。マスク処理部215が、認識結果候補文字と対応するマスク画像と文字画像との論理積をとった論理積画像を生成し、第2の文字認識部216が、各論理積画像に対して文字認識を行う。そして、決定部217は、第2の文字認識部216による各論理積画像の認識結果候補文字の中から、距離値が最小のものを、文字画像に含まれる文字の認識結果とする。図9で示したように、第1の文字認識部214による文字認識では、文字画像に存在するノイズの影響により、文字画像に含まれる「浮」ではなく、「湾」の距離値が最も小さくなっている。しかし、図12に示したように、文字画像に含まれる文字と対応するマスク画像(図12の場合「浮」)と文字画像との論理積をとることによって、文字画像の背景部に含まれるノイズを除去できる。その結果、各論理積画像の文字認識においては、「浮」の距離値が最も小さくなり、文字画像に含まれる「浮」が認識結果として取得される。このように、文字画像と認識結果候補文字を含むマスク画像との論理積をとることによって文字画像内のノイズを除去し、ノイズに起因する誤認識の可能性を低減できる。その結果、文字認識の認識率を向上させることができる。
特開2008−191906号公報では、文字画像に含まれる文字のエッジ領域を膨張させた画像をマスク画像として用いている。しかしながら、エッジ領域を膨張させたマスク画像と文字画像との論理積をとっても、膨張させた箇所にノイズが存在する場合にはノイズを除去することができず、2値化した画像内にノイズが混入してしまう可能性があった。しかしながら、本実施形態によれば、文字画像に含まれる文字を含むマスク画像を用いれば、文字部分を残存させつつ、文字以外の部分に含まれるノイズを除去した論理積画像を生成できる。他方、ノイズを誤認識して選ばれた認識結果候補文字のマスク画像と文字画像では、論理積の画素が減少するので最終的な文字に選択される可能性は格段に低くなる。このように、ノイズの少ない論理積画像を文字認識することによって、ノイズに起因する誤認識の可能性を低減できるため、認識率が向上する。
上述の実施形態では、決定部217は、第2の文字認識部216が出力した認識結果候補文字のうち、距離値が最も小さい認識結果候補文字を認識結果とした。しかしながら、決定部217は、認識結果候補文字同士の距離値の差がしきい値以下(例えば、20以下)である場合には、認識結果とした距離値が最小の認識結果候補文字を選択しても誤っている可能性が高くなる。その場合は、他の認識結果と区別できる表示処理(リジェクト処理)をおこなってもよい。
例えば、図14に示すように、「犬」を含む文字画像の文字認識を文字認識装置20で行ったとする。「犬」と「大」にそれぞれ対応するマスク画像と、文字画像との論理積画像に対して第2の文字認識部216が文字認識処理を行った結果、各論理積画像に対して、「犬」と「大」とが認識結果候補文字として出力されたとする。図14では、「犬」の距離値は100であり、「大」の距離値は120であり、両文字の距離値の差は20となっており、しきい値以下である。この場合、決定部217は、リジェクト処理として、距離値が最も小さい「犬」を認識結果とはせずに、例えば、リジェクトを表す「R」を出力部218に出力する。あるいは、決定部217は、距離値が最も小さい「犬」を認識結果とするが、リジェクト処理として、出力部218に対し、文字の認識結果を表示する際に、文字の色を例えば黒ではなく赤に変えるよう指示する。これにより、ユーザは、誤認識されているおそれのある文字を重点的に確認すればよいため、認識結果の確認に必要な時間を短縮できる。また、認識結果の確認時において、確認が必要な文字の見落とし等を低減できるため、映像データの検索のキーとなるテキストデータの正確性を向上できる。
以上、本件の実施形態について詳述したが、本件は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
上述の実施形態では、マスク画像は、ゴシック体からなる文字を含んでいたが、マスク画像に含まれる文字のフォントは、ゴシック体に限られない。例えば、明朝体、ポップ体等からなる文字を含む画像をマスク画像に用いてもよい。また、マスク処理部215は、特開平7−152855や特開平8−235314などに示される周知のフォントを識別する技術を用いてテロップに使用されている文字のフォントを識別し、識別をする文字と同一のフォントのマスク画像を用いて、論理積画像を生成してもよい。テロップに使用されている文字のフォントと、マスク画像が含む文字のフォントとを同一にすることによって、ノイズを除去しつつ、文字部分の再現性が高い論理積画像を生成できる。その結果、文字認識の認識率をさらに向上できる。なお、例えば、第1の文字認識部214において、文字/フォント別の辞書を用いて文字認識を行い、距離値が最小となるフォントを、テロップの文字のフォントであると決定できる。この場合、辞書格納部221は、辞書として、文字/フォント別に参照用特徴ベクトルを格納する。
また、上述の実施形態では、映像中のテロップについて文字認識を行ったが、携帯電話やパーソナルコンピュータに付属するカメラで撮った画像に含まれる文字(看板等の文字)の認識にも本件の文字認識装置を使用することができる。また、背景に透かし画像のある帳票に印字された文字や、雑誌等において写真上に印字された文字の認識にも、本件の文字認識装置を使用できる。この場合、文字認識装置20は、スキャナ等を用いて、文字認識の対象となる画像を入力することができる。
また、上述の実施形態では、テレビ受像機で受信した映像中の文字認識を例にして説明を行ったが、映像管理システム100は、放送局等に導入することも可能である。
また、上述の実施形態では、文字認識の方法として、加重方向指数ヒストグラム法を用いたが、例えば下記のような方法を用いてもよい。
(1)孫寧,田原透,阿曽弘具,木村正行,“方向線素特徴量を用いた高精度文字認識”電子情報通信学会論文誌(D-II) vol.J74-D-II no.3,pp.330-339,Mar. 1991.
(2)萩田他、“外郭方向寄与度特徴による手書き漢字の識別” 電子通信学会論文誌 '83/10 Vol.J66-D No.10, pp.1185-1192
(3)▲裴▼他、“手書き漢字認識の一手法 −多元圧縮法と部分パターン法による認識−”電子通信学会論文誌 '85/4 Vol.J68-D No.4, pp.773-780
(4)斎藤他、“手書漢字の方向パターン・マッチング法による解析”電子通信学会論文誌 '82/5 Vol.J65-D No.5, pp.550-557
なお、上記の文字認識装置20が有する機能は、CPU、ROM、RAM等を備えるコンピュータによって実現することができる。その場合、文字認識装置20が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録するようにしてもよい。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD−ROM(Compact Disc Read Only Memory)などの可搬型記録媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送してもよい。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行してもよい。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行してもよい。
また、インターネット等の通信網に接続されたサーバコンピュータを本件の文字認識装置20とし、これに接続されたパーソナルコンピュータ等からの入力映像に対して文字認識を行うサービスをサーバコンピュータから提供するようにしてもよい(ASP(Application Service Provider))。
20…文字認識装置
213…認識対象画像入力部
214…第1の文字認識部
215…マスク処理部
216…第2の文字認識部
217…決定部

Claims (3)

  1. 画像情報について文字認識を行い、該画像情報のうち一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第1の認識部と、
    所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記憶部と、
    前記マスク画像記億部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成部と、
    前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第2の認識部と、
    前記第2の認識部が決定した前記認識文字それぞれの前記論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定部と、
    を備えることを特徴とする文字認識装置。
  2. 画像情報について文字認識を行い、該画像情報のうち一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第1の認識ステップと、
    所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記億部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成ステップと、
    前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第2の認識ステップと、
    前記第2の認識ステップで決定された前記認識文字それぞれの論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定ステップと、
    をコンピュータに実行させる文字認識プログラム。
  3. コンピュータが、
    画像情報について文字認識を行い、一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第1の認識ステップと、
    所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記憶部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成ステップと、
    前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第2の認識ステップと、
    前記第2の認識ステップで決定された前記認識文字それぞれの論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定ステップと、
    を実行する文字認識方法。
JP2010169740A 2010-07-28 2010-07-28 文字認識装置、文字認識プログラム及び文字認識方法 Active JP5691281B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010169740A JP5691281B2 (ja) 2010-07-28 2010-07-28 文字認識装置、文字認識プログラム及び文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010169740A JP5691281B2 (ja) 2010-07-28 2010-07-28 文字認識装置、文字認識プログラム及び文字認識方法

Publications (2)

Publication Number Publication Date
JP2012032885A JP2012032885A (ja) 2012-02-16
JP5691281B2 true JP5691281B2 (ja) 2015-04-01

Family

ID=45846248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010169740A Active JP5691281B2 (ja) 2010-07-28 2010-07-28 文字認識装置、文字認識プログラム及び文字認識方法

Country Status (1)

Country Link
JP (1) JP5691281B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496223A (zh) * 2020-03-19 2021-10-12 顺丰科技有限公司 文本区域检测模型的建立方法以及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216473A (ja) * 2000-01-31 2001-08-10 Keyence Corp 画像処理方法、画像処理装置及び記録媒体

Also Published As

Publication number Publication date
JP2012032885A (ja) 2012-02-16

Similar Documents

Publication Publication Date Title
Gllavata et al. A robust algorithm for text detection in images
US7929765B2 (en) Video text processing apparatus
Shivakumara et al. A laplacian approach to multi-oriented text detection in video
Chen et al. Automatic detection and recognition of signs from natural scenes
Lyu et al. A comprehensive method for multilingual video text detection, localization, and extraction
US6731788B1 (en) Symbol Classification with shape features applied to neural network
Xi et al. A video text detection and recognition system
JP4626886B2 (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
Yang et al. Lecture video indexing and analysis using video ocr technology
Yang et al. A framework for improved video text detection and recognition
CA2656425A1 (en) Recognizing text in images
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
Zhao et al. A robust color-independent text detection method from complex videos
CN114495141A (zh) 文档段落位置提取方法、电子设备及存储介质
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法
JP2000182053A (ja) 映像処理方法及び装置並びに映像処理手順を記録した記録媒体
Chang et al. Caption analysis and recognition for building video indexing systems
Arai et al. Text extraction from TV commercial using blob extraction method
Mohammad et al. Practical recognition system for text printed on clear reflected material
Zayene et al. Data, protocol and algorithms for performance evaluation of text detection in arabic news video
Aghajari et al. A text localization algorithm in color image via new projection profile
Tsai et al. A comprehensive motion videotext detection localization and extraction method
Zhuge et al. Robust video text detection with morphological filtering enhanced MSER
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150119

R150 Certificate of patent or registration of utility model

Ref document number: 5691281

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150