JP5691281B2

JP5691281B2 - 文字認識装置、文字認識プログラム及び文字認識方法

Info

Publication number: JP5691281B2
Application number: JP2010169740A
Authority: JP
Inventors: 堀田　悦伸; 悦伸堀田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-07-28
Filing date: 2010-07-28
Publication date: 2015-04-01
Anticipated expiration: 2030-07-28
Also published as: JP2012032885A

Description

本件は、文字認識装置、文字認識プログラム及び文字認識方法に関する。

近年、多数の番組を録画できるＤＶＤ（Digital Versatile Disc）装置や、ＨＤＤ（Hard Disk Drive）ビデオ装置が普及している。その結果、大量の録画データの中からコンテンツを検索するニーズが高まってきている。また、放送局等においても、映像データを効率的に管理するために、過去に放映した映像データに検索用のテキストデータを付与して、映像検索を容易にしたいというニーズが高まっている。

映像データを検索することを可能にする方法として、映像中の文字情報を検索のキーに使用することが考えられる。映像の中には、クローズドキャプションと呼ばれる字幕情報が付与された映像も存在するが、大部分の映像はテキスト情報を保持していない。したがって、映像データに対して検索用のテキストデータを付与するには、映像中の文字情報を抽出して、文字認識を行う必要がある。ここで、文字の認識結果を検索のキーとして使用することを考えた場合、その認識精度を高めることが重要である。しかしながら、映像中にあらわれる文字の背景は、一様ではなく複雑である場合が多いため、そのような複雑な背景上に表示された文字を認識することは難しい。そこで、複雑な背景上の文字の認識率を向上させる技術が提案されている（例えば、特許文献１）。

特開２００８−１９１９０６号公報

一般的な文字認識においては、２値化した画像に対して文字認識処理が行われる。しかしながら、複雑な背景上に文字が存在する画像を２値化した場合、背景の一部が２値化した画像の中に残存してしまうことがある。このような場合、文字認識において、残存した背景の一部（以下、ノイズと記載する）が文字線分の一部とみなされ、誤認識の原因となってしまう。しかしながら、特許文献１の技術では、２値化した画像にノイズが混入する可能性があり、ノイズによる誤認識が発生する可能性があった。

本件は、上記の事情に鑑みて成されたものであり、文字の認識率を向上させる文字認識装置、文字認識プログラム及び文字認識方法を提供することを目的とする。

上記課題を解決するために、明細書開示の文字認識装置は、画像情報について文字認識を行い、該画像情報のうち一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第１の認識部と、所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記憶部と、前記マスク画像記億部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成部と、前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第２の認識部と、前記第２の認識部が決定した前記認識文字それぞれの前記論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定部と、を備える。

上記課題を解決するために、明細書開示の文字認識プログラムは、画像情報について文字認識を行い、該画像情報のうち一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第１の認識ステップと、所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記億部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成ステップと、前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第２の認識ステップと、前記第２の認識ステップで決定された前記認識文字それぞれの論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定ステップと、をコンピュータに実行させる。

上記課題を解決するために、明細書開示の文字認識方法は、コンピュータが、画像情報について文字認識を行い、一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第１の認識ステップと、所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記憶部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成ステップと、前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第２の認識ステップと、前記第２の認識ステップで決定された前記認識文字それぞれの論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定ステップと、を実行する。

明細書開示の文字認識装置、文字認識プログラム及び文字認識方法によれば、文字の認識率が向上する。

本件の文字認識装置を含む映像管理システムのシステム構成の一例を示す図である。文字認識装置のハードウェア構成の一例を示す図である。文字認識装置が備える機能の一例を示す機能ブロック図である。前処理部が実施する各処理によって得られる画像の一例を示す図である。ラプラシアンフィルタの一例を示す図である。文字画像の切り出しの概要について説明する図である。認識結果候補文字と対応するマスク画像の一例を示す図である。文字認識装置が実行する処理の一例を示すフローチャートである。第１の文字認識部による文字認識結果の一例を示す図である。マスク処理の詳細な処理の一例を示すフローチャートである。論理積演算のルールを示す図である。文字画像と、各認識結果候補文字と対応するマスク画像との論理積をとった論理積画像の一例をしめす図である。第２の文字認識部による各論理積画像の文字認識結果の一例を示す図である。「犬」を含む文字画像の文字認識結果の一例を示す図である。

以下、本件の実施形態について、添付図面を参照しつつ説明する。

まず、図１を参照して、本件の文字認識装置を含む映像管理システムのシステム構成の一例について説明する。図１に示すように、映像管理システム１００は、映像入力装置１０、文字認識装置２０、操作入力装置３０、及び映像データ蓄積部４０を備える。

映像入力装置１０は、例えば、テレビ映像を受像する受像機である。映像入力装置１０は、文字情報を抽出する対象となる映像を文字認識装置２０に入力する。また、映像入力装置１０は、映像データを、映像データ蓄積部４０に保存する。

文字認識装置２０は、例えば、ＨＤＤビデオ装置に備えられる。文字認識装置２０は、映像入力装置１０から入力された映像データに対して文字認識を行い、文字情報を取得する。文字認識装置２０は、文字認識結果をテキストデータとして、操作入力装置３０が備える表示装置に出力する。また、操作入力装置３０から、認識結果採用の入力を受付けた場合には、認識結果を映像データ蓄積部４０に格納する。

操作入力装置３０は、文字認識装置２０から文字認識結果を受付け、表示装置に表示する。これにより、操作入力装置３０は、ユーザに文字認識の結果を提供する。また、操作入力装置３０は、ユーザから所定の操作入力を受付ける。具体的には、操作入力装置３０は、ユーザから文字認識結果の採否を受付け、文字認識装置２０に文字認識結果の採否を出力する。また、操作入力装置３０は、認識結果に対する修正をユーザから受付けた場合、修正データを文字認識装置２０に出力する。

映像データ蓄積部４０は、例えば、ＨＤＤビデオ装置に備えられたハードディスクドライブである。映像データ蓄積部４０は、映像データに含まれる文字情報をテキスト化したテキストデータを、文字認識装置２０から受付ける。映像データ蓄積部４０は、受付けたテキストデータを、映像入力装置１０から入力された映像データと紐付けて保存する。これにより、映像データに含まれる文字情報が、映像データ蓄積部４０に格納された映像データを検索する際の検索のキーとして、ユーザに提供される。

次に、図２を参照して、文字認識装置２０のハードウェア構成の一例について説明する。文字認識装置２０は、ハードウェア構成として、例えば、入出力部２０１、ＲＯＭ（Read Only Memory）２０２、中央処理装置（ＣＰＵ：Central Processing Unit）２０３、ＲＡＭ（Random Access Memory）２０４、及びＨＤＤ２０５を備える。

入出力部２０１は、映像入力装置１０、操作入力装置３０及び映像データ蓄積部４０とデータの送受信を行う。ＲＯＭ２０２は、文字認識処理を実行するためのプログラム等を格納する。ＣＰＵ２０３は、ＲＯＭ２０２に格納されたプログラムを読み込んで実行する。ＲＡＭ２０４は、プログラムを実行する際に使用される一時的なデータを保存する。ＨＤＤ２０５は、文字認識処理に使用する辞書およびマスク画像（詳細は後述する）等を格納する。

次に、ＲＯＭ２０２に格納されたプログラムのＣＰＵ２０３による演算によって実現される文字認識装置２０の機能の一例について説明する。図３は、文字認識装置２０が備える機能の一例を示す機能ブロック図である。

文字認識装置２０は、映像受付部２１１、前処理部２１２、認識対象画像入力部２１３、第１の文字認識部２１４、マスク処理部２１５、第２の文字認識部２１６、決定部２１７及び出力部２１８を備える。映像受付部２１１〜出力部２１８は、ＲＯＭ２０２に格納されたプログラムのＣＰＵ２０３による演算によって実現される。また、文字認識装置２０は、辞書格納部２２１及びマスク画像格納部２２２を備える。

辞書格納部２２１及びマスク画像格納部２２２は、例えば、ＨＤＤ２０５等の記憶装置である。辞書格納部２２１は、文字認識に用いられる文字毎の参照用特徴ベクトル（辞書）を格納する。また、マスク画像格納部（マスク画像記憶部）２２２は、マスク処理に使用されるマスク画像（詳細は後述する）を格納する。

映像受付部２１１は、映像入力装置１０から、文字情報を含む映像データを受付ける。映像中に含まれる文字情報とは、例えば、出演者のコメントやニュースの項目を文字にしたテロップ（字幕）をいう。映像受付部２１１は、受付けた映像データから、テロップを含むテロップ領域画像を切り出す。映像受付部２１１は、切り出したテロップ領域画像を前処理部２１２に出力する。

前処理部２１２は、映像受付部２１１からテロップ領域画像を受付ける。前処理部２１２は、テロップ領域画像に対して、輪郭検出処理、白黒反転処理、ぼかし処理、２値化処理及びノイズ除去処理を実行する。ここで、前処理部２１２が実行する処理と、その処理によって得られる画像について説明する。

図４は、前処理部２１２が実行する各処理によって得られる画像の一例を示す図である。以下の説明では、映像受付部２１１が、図４（Ａ）に示す映像を映像入力装置１０から受付けたとする。図４（Ａ）に示す映像には、「浮いてた」というテロップが含まれる。この場合、映像受付部２１１は、テロップ領域画像として、図４（Ｂ）に示す画像を前処理部２１２に出力する。

前処理部２１２は、まず、輪郭検出処理を行う。前処理部２１２は、例えば、ラプラシアンフィルタを用いて、文字のエッジ検出を行い、文字の輪郭線を検出する。具体的には、前処理部２１２は、図５に示すフィルタを用いて、着目画素に重み付けを行う。この重み付けを行った着目画素値から、周辺画素値を減算することによって、着目画素が強調されるため、文字のエッジの検出が可能となる。図４（Ｃ）は、輪郭検出処理後の画像の一例を示している。なお、輪郭線を検出するのに用いるフィルタは、ラプラシアンフィルタに限定されるわけではなく、ソーベルフィルタ等を用いてもよい。

次に、前処理部２１２は、図４（Ｃ）に示した輪郭検出処理後の画像を白黒反転する。図４（Ｄ）は、白黒反転処理後の画像の一例を示している。次に、前処理部２１２は、白黒反転後の画像（図４（Ｄ））に対して、ぼかし処理を行う。具体的には、前処理部２１２は、ガウシアンフィルタを画像中の全ての画素に適用する。ぼかし処理により、黒画素がまばらに存在する背景部分に対して、黒画素が密集している文字部分が強調される。図４（Ｅ）は、ぼかし処理後の画像の一例を示している。

次に、前処理部２１２は、ぼかし処理後の画像の２値化を行う。具体的には、前処理部２１２は、濃度閾値を設定し、濃度閾値未満の濃度を有する画素を白画素とし、濃度閾値以上の濃度を有する画素を黒画素とする。図４（Ｆ）は、２値化処理後の画像の一例を示している。

最後に、前処理部２１２は、図４（Ｆ）の２値化処理後の画像に対し、ノイズ除去処理を行う。具体的には、前処理部２１２は、連結した黒画素数が閾値以下のものを孤立ノイズとみなして除去する。図４（Ｇ）は、ノイズ除去処理後の画像の一例を示している。

前処理部２１２は、ノイズ除去後の画像（図４（Ｇ））を文字認識の対象となる画像（以下、認識対象画像と記載する）として、認識対象画像入力部２１３に出力する。

認識対象画像入力部２１３は、前処理部２１２から、認識対象画像を受付ける。認識対象画像入力部２１３は、図６において実線の四角形で表すように、文字列の高さを文字サイズ（縦・横）とみなし、認識対象画像に含まれる文字の切り出しを行う。次に、認識対象画像入力部２１３は、切り出した一文字単位の画像領域（以下、文字画像と記載する）を第１の文字認識部２１４に出力する。

第１の文字認識部（第１の認識部）２１４は、辞書格納部２２１に格納された辞書を用いて、文字画像の文字認識を行う。ここで、第１の文字認識部２１４は、文字認識方式として、例えば、加重方向指数ヒストグラム法（“加重方向指数ヒストグラム法による手書き漢字・ひらがな認識”信学誌(D) vol.J70−D/7 pp.1390−1397, July 1987）を用いることができる。加重方向指数ヒストグラム法は、文字変形や文字線の太さの変化に強いという特徴を持っている。

加重方向指数ヒストグラム法では、入力画像を、例えば、４８×４８画素などの大きさに正規化する。そして、正規化した各画素をさらに１６×１６個の小領域に分割し、小領域ごとに縦・横・斜め上、及び斜め下方向の黒画素並びの頻度（ヒストグラム）を調べる。そして、縦・横・斜め上、及び斜め下方向の黒画素並びのヒストグラムを並べたものを、特徴ベクトルとする。第１の文字認識部２１４は、この特徴ベクトルを、辞書格納部２２１が格納する文字毎の参照用特徴ベクトル（辞書）と比較し、ベクトル間の距離値を求める。ここで、ベクトル間の距離値は、文字画像に含まれる文字と、参照用特徴ベクトルに対応する文字との類似度を表す。なお、距離値が小さいとは、文字画像に含まれる文字と、参照用特徴ベクトルに対応する文字との類似度が高いことを意味する。第１の文字認識部２１４は、例えば、距離値が小さい順に所定の数の参照特徴ベクトルに対応する文字を、認識結果候補文字としてマスク処理部２１５に出力する。

マスク処理部（論理積画像生成部）２１５は、マスク画像格納部２２２から、各認識結果候補文字と対応するマスク画像を取得する。ここで、認識結果候補文字と対応するマスク画像とは、所定のフォントの文字の画像である。本実施形態におけるマスク画像は、無地の背景部に所定のフォントの一例としてゴシック体の文字の画像であるとする。例えば、図６に示した「浮」を含む文字画像において、認識結果候補文字が「湾」、「溝」、及び「浮」であったとする。この場合、それぞれの認識結果候補文字と対応するマスク画像は、例えば、図７に示す画像となる。マスク処理部２１５は、文字画像とマスク画像との論理積をとった論理積画像を、認識結果候補文字毎に取得する。マスク処理部２１５は、論理積画像を第２の文字認識部２１６に出力する。

第２の文字認識部（第２の認識部）２１６は、各論理積画像に対して文字認識を行う。第２の文字認識部２１６が使用する文字認識方式は、第１の文字認識部２１４と同様であるため、説明を省略する。第２の文字認識部２１６は、各論理積画像に対する文字認識結果（各論理積画像の認識結果候補文字）を決定部２１７に出力する。但し、第１の文字認識部２１４とは異なり、第２の文字認識部２１６は各論理積画像の認識結果候補文字として距離値が最小の認識結果候補文字のみを決定する。また、第２の文字認識部２１６は、その認識結果候補文字と併せてその距離値も決定部２１７へ出力する。なお、第１の文字認識部２１４が使用する文字認識方法と、第２の文字認識部２１６が使用する文字認識方法とは、異なっていてもよい。

決定部２１７は、第２の文字認識部２１６から、各論理積画像に対する文字認識結果および距離値を受付ける。決定部２１７は、受付けた認識結果の中から、文字画像の認識結果とする文字を決定する。決定部２１７は、認識結果として決定した文字を出力部２１８に出力する。

出力部２１８は、文字画像の認識結果として決定された文字を決定部２１７から受付ける。出力部２１８は、認識対象画像入力部２１３が切り出した全ての文字画像に対する認識結果を受付けると、各文字画像の認識結果をマージする。たとえば、出力部２１８は、図６の場合に「浮」、「い」、「て」及び「た」を含む各文字画像に対する認識結果を受付け、マージする。出力部２１８は、マージした認識結果（「浮いてた」）を、認識対象画像の認識結果として操作入力装置３０の表示装置に出力する。出力部２１８は、操作入力装置３０から、認識結果の採否情報を受付ける。出力部２１８は、認識結果が採用されると、認識結果を映像データ蓄積部４０に格納する。これにより、映像中のテロップがテキストデータ化され、検索のキーとして利用できるようになる。

次に、文字認識装置２０が実行する処理の一例について具体例を参照しながら説明する。図８は、文字認識装置２０が実行する処理の一例を示すフローチャートである。

映像受付部２１１は、映像入力装置１０から映像を受付け(ステップＳ１１)、テロップ領域画像を前処理部２１２に出力する。

前処理部２１２は、テロップ領域画像に、図４で説明した前処理を施す（ステップＳ１３）。次に、認識対象画像入力部２１３は、前処理を施した認識対象画像を文字毎に切り出し（ステップＳ１５）、文字画像を取得する（ステップＳ１７）。認識対象画像入力部２１３は、取得した文字画像を第１の文字認識部２１４に出力する。

第１の文字認識部２１４は、文字画像に対して文字認識を行う（ステップＳ１９）。第１の文字認識部２１４は、認識結果候補文字のうち距離値が小さい方からＸ番目までの文字（上位Ｘ位までの文字）を、マスク処理部２１５に出力する。

例えば、第１の文字認識部２１４が、図６に示される「浮」を含む文字画像に対して文字認識を行ったとする。図９は、第１の文字認識部２１４による文字認識結果の一例を示している。第１の文字認識部２１４は、図９に示す文字認識結果において、例えば、上位３位までの文字をマスク処理部２１５に出力する。第１の文字認識部２１４は、図９の認識結果候補文字において距離値が小さい方から３番目までの文字「湾」、「溝」及び「浮」を、マスク処理部２１５に出力する。なお、第１の文字認識部２１４は、上位Ｘ位までの文字ではなく、例えば、距離値がしきい値以下（例えば、２００以下）である文字をマスク処理部２１５に出力してもよい。

次に、マスク処理部２１５は、文字画像に対してマスク処理を行う（ステップＳ２１）。ここで、マスク処理の詳細について説明する。図１０は、マスク処理の詳細な処理の一例を示すフローチャートである。

マスク処理部２１５は、第１の文字認識部２１４から受付けた認識結果候補文字に対応するマスク画像を、マスク画像格納部２２２から取得する（ステップＳ２１１）。例えば、マスク処理部２１５は、「湾」、「溝」及び「浮」と対応するマスク画像（図７）をマスク画像格納部２２２から取得する。

マスク処理部２１５は、文字画像とマスク画像との位置合わせを行う（ステップＳ２１３）。実施の一例では、マスク処理部２１５は、文字画像とマスク画像に外接する矩形をそれぞれ抽出する。マスク処理部２１５は、文字画像とマスク画像の外接矩形が同じ大きさになるように線形正規化（縦方向、横方向に伸縮）をする。マスク処理部２１５は、正規化後の文字画像とマスク画像とを重ね合わせる、すなわち文字画像とマスク画像との論理積をとり、論理積画像を生成する（ステップＳ２１５）。具体的には、マスク処理部２１５は、文字画像とマスク画像との間で、画素単位の論理積演算を行う。論理積演算は、図１１（Ａ）に示すルールに基づいて行われる。ここで、表中の「１」は文字部分、すなわち黒画素を示し、「０」は文字以外の背景部分、すなわち白画素を表す。なお、背景部分が白以外の色からなる場合（例えば、青や赤）の場合には、「０」は文字以外の背景部分である青画素や赤画素を表す。

図１１（Ａ）によれば、文字画像とマスク画像とにおいて、同じ位置に黒画素が存在する、すなわち、両画像の画素値が「１」の場合にのみ、論理積画像の画素が黒画素（画素値「１」）となる。つまり、文字画像において図１１（Ｂ）に示すようなノイズが存在していたとしても、マスク画像の背景部との論理積をとることによってノイズが除去される。図１２は、文字画像と、各認識結果候補文字と対応するマスク画像との論理積をとった論理積画像を表している。図１２に示すように、認識結果候補文字の「浮」と対応するマスク画像と、文字画像との論理積をとった場合、文字画像中に存在するノイズが除去されている。

マスク処理部２１５は、第１の文字認識部２１４から受付けた、全ての認識結果候補文字のマスク画像と、文字画像との論理積画像を取得したか否か判定する（ステップＳ２１７）。

論理積画像を取得していない認識結果候補文字があれば（ステップＳ２１７の判定がＮＯの場合）、マスク処理部２１５は、次の認識結果候補文字について、ステップＳ２１１〜Ｓ２１５の処理を実行する。全ての認識結果候補文字について論理積画像を取得すれば（ステップＳ２１７の判定がＹＥＳの場合）、マスク処理部２１５は、本処理を終了し、取得した論理積画像を第２の文字認識部２１６に出力する。

図８に戻り、説明を続ける。第２の文字認識部２１６は、論理積画像のそれぞれに対して、文字認識処理を実行する（ステップＳ２３）。第２の文字認識部２１６は、各論理積画像に対する文字認識の結果（各論理積画像の認識結果候補文字）を決定部２１７に出力する。実施の一例では、各論理積画像（図１３左欄）に対して、第１の文字認識部と同様の文字認識を行う。文字認識によって、文字認識の結果の文字（図１３中欄）と、論理積画像と認識結果の文字との類似度を示す距離値（図１３右欄）を取得し、決定部２１７に出力する。但し、第２の文字認識部２１６は、各論理積画像に対して、距離値の最も小さい認識結果の文字のみを決定部２１７に出力する。

決定部２１７は、第２の文字認識部２１６から文字認識の結果を受付け、受付けた認識結果候補文字の中から、認識結果として出力する文字を決定する（ステップＳ２５）。例えば、第２の文字認識部２１６による各論理積画像の文字認識結果が、図１３に示すとおりであったとする。この場合、決定部２１７は、距離値が最も小さい「浮」を、「浮」を含む文字画像の認識結果として決定する。なお、図１３の距離値は、論理積画像と認識結果候補文字との距離値を示している。

出力部２１８は、切り出された文字画像の全てについて、認識結果として出力する文字を決定したか否か判定する（ステップＳ２７）。

全ての文字画像について出力する文字を決定していない場合（ステップＳ２７の判定がＮＯの場合）、文字認識装置２０は、次の文字画像について、ステップＳ１７からの処理を実行する。全ての文字画像について文字を決定した場合（ステップＳ２７の判定がＹＥＳの場合）、出力部２１８は、認識結果を、操作入力装置３０の表示装置に出力する（ステップＳ２９）。出力部２１８は、認識結果が採用されたか否か判定する（ステップＳ３１）。出力部２１８は、認識結果が採用された場合には、認識結果を映像データ蓄積部４０に保存し（ステップＳ３３）、本処理を終了する。認識結果が採用されなかった場合には、出力部２１８は、操作入力装置３０から認識結果の修正データを受付け、修正された認識結果を映像データ蓄積部４０に保存し（ステップＳ３５）、本処理を終了する。

以上の説明から明らかなように、本実施形態によれば、認識対象画像入力部２１３が取得した文字画像に対して、第１の文字認識部２１４が文字認識を行い、複数の認識結果候補文字を取得する。マスク処理部２１５が、認識結果候補文字と対応するマスク画像と文字画像との論理積をとった論理積画像を生成し、第２の文字認識部２１６が、各論理積画像に対して文字認識を行う。そして、決定部２１７は、第２の文字認識部２１６による各論理積画像の認識結果候補文字の中から、距離値が最小のものを、文字画像に含まれる文字の認識結果とする。図９で示したように、第１の文字認識部２１４による文字認識では、文字画像に存在するノイズの影響により、文字画像に含まれる「浮」ではなく、「湾」の距離値が最も小さくなっている。しかし、図１２に示したように、文字画像に含まれる文字と対応するマスク画像（図１２の場合「浮」）と文字画像との論理積をとることによって、文字画像の背景部に含まれるノイズを除去できる。その結果、各論理積画像の文字認識においては、「浮」の距離値が最も小さくなり、文字画像に含まれる「浮」が認識結果として取得される。このように、文字画像と認識結果候補文字を含むマスク画像との論理積をとることによって文字画像内のノイズを除去し、ノイズに起因する誤認識の可能性を低減できる。その結果、文字認識の認識率を向上させることができる。

特開２００８−１９１９０６号公報では、文字画像に含まれる文字のエッジ領域を膨張させた画像をマスク画像として用いている。しかしながら、エッジ領域を膨張させたマスク画像と文字画像との論理積をとっても、膨張させた箇所にノイズが存在する場合にはノイズを除去することができず、２値化した画像内にノイズが混入してしまう可能性があった。しかしながら、本実施形態によれば、文字画像に含まれる文字を含むマスク画像を用いれば、文字部分を残存させつつ、文字以外の部分に含まれるノイズを除去した論理積画像を生成できる。他方、ノイズを誤認識して選ばれた認識結果候補文字のマスク画像と文字画像では、論理積の画素が減少するので最終的な文字に選択される可能性は格段に低くなる。このように、ノイズの少ない論理積画像を文字認識することによって、ノイズに起因する誤認識の可能性を低減できるため、認識率が向上する。

上述の実施形態では、決定部２１７は、第２の文字認識部２１６が出力した認識結果候補文字のうち、距離値が最も小さい認識結果候補文字を認識結果とした。しかしながら、決定部２１７は、認識結果候補文字同士の距離値の差がしきい値以下（例えば、２０以下）である場合には、認識結果とした距離値が最小の認識結果候補文字を選択しても誤っている可能性が高くなる。その場合は、他の認識結果と区別できる表示処理（リジェクト処理）をおこなってもよい。

例えば、図１４に示すように、「犬」を含む文字画像の文字認識を文字認識装置２０で行ったとする。「犬」と「大」にそれぞれ対応するマスク画像と、文字画像との論理積画像に対して第２の文字認識部２１６が文字認識処理を行った結果、各論理積画像に対して、「犬」と「大」とが認識結果候補文字として出力されたとする。図１４では、「犬」の距離値は１００であり、「大」の距離値は１２０であり、両文字の距離値の差は２０となっており、しきい値以下である。この場合、決定部２１７は、リジェクト処理として、距離値が最も小さい「犬」を認識結果とはせずに、例えば、リジェクトを表す「Ｒ」を出力部２１８に出力する。あるいは、決定部２１７は、距離値が最も小さい「犬」を認識結果とするが、リジェクト処理として、出力部２１８に対し、文字の認識結果を表示する際に、文字の色を例えば黒ではなく赤に変えるよう指示する。これにより、ユーザは、誤認識されているおそれのある文字を重点的に確認すればよいため、認識結果の確認に必要な時間を短縮できる。また、認識結果の確認時において、確認が必要な文字の見落とし等を低減できるため、映像データの検索のキーとなるテキストデータの正確性を向上できる。

以上、本件の実施形態について詳述したが、本件は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

上述の実施形態では、マスク画像は、ゴシック体からなる文字を含んでいたが、マスク画像に含まれる文字のフォントは、ゴシック体に限られない。例えば、明朝体、ポップ体等からなる文字を含む画像をマスク画像に用いてもよい。また、マスク処理部２１５は、特開平７−１５２８５５や特開平８−２３５３１４などに示される周知のフォントを識別する技術を用いてテロップに使用されている文字のフォントを識別し、識別をする文字と同一のフォントのマスク画像を用いて、論理積画像を生成してもよい。テロップに使用されている文字のフォントと、マスク画像が含む文字のフォントとを同一にすることによって、ノイズを除去しつつ、文字部分の再現性が高い論理積画像を生成できる。その結果、文字認識の認識率をさらに向上できる。なお、例えば、第１の文字認識部２１４において、文字／フォント別の辞書を用いて文字認識を行い、距離値が最小となるフォントを、テロップの文字のフォントであると決定できる。この場合、辞書格納部２２１は、辞書として、文字／フォント別に参照用特徴ベクトルを格納する。

また、上述の実施形態では、映像中のテロップについて文字認識を行ったが、携帯電話やパーソナルコンピュータに付属するカメラで撮った画像に含まれる文字（看板等の文字）の認識にも本件の文字認識装置を使用することができる。また、背景に透かし画像のある帳票に印字された文字や、雑誌等において写真上に印字された文字の認識にも、本件の文字認識装置を使用できる。この場合、文字認識装置２０は、スキャナ等を用いて、文字認識の対象となる画像を入力することができる。

また、上述の実施形態では、テレビ受像機で受信した映像中の文字認識を例にして説明を行ったが、映像管理システム１００は、放送局等に導入することも可能である。

また、上述の実施形態では、文字認識の方法として、加重方向指数ヒストグラム法を用いたが、例えば下記のような方法を用いてもよい。
（１）孫寧,田原透,阿曽弘具,木村正行,“方向線素特徴量を用いた高精度文字認識”電子情報通信学会論文誌(D-II) vol.J74-D-II no.3，pp.330-339，Mar. 1991.
（２）萩田他、“外郭方向寄与度特徴による手書き漢字の識別” 電子通信学会論文誌 '83/10 Vol.J66-D No.10, pp.1185-1192
（３）▲裴▼他、“手書き漢字認識の一手法 −多元圧縮法と部分パターン法による認識−”電子通信学会論文誌 '85/4 Vol.J68-D No.4, pp.773-780
（４）斎藤他、“手書漢字の方向パターン・マッチング法による解析”電子通信学会論文誌 '82/5 Vol.J65-D No.5, pp.550-557

なお、上記の文字認識装置２０が有する機能は、ＣＰＵ、ＲＯＭ、ＲＡＭ等を備えるコンピュータによって実現することができる。その場合、文字認識装置２０が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録するようにしてもよい。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ（Digital Versatile Disc）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）などの可搬型記録媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送してもよい。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行してもよい。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行してもよい。

また、インターネット等の通信網に接続されたサーバコンピュータを本件の文字認識装置２０とし、これに接続されたパーソナルコンピュータ等からの入力映像に対して文字認識を行うサービスをサーバコンピュータから提供するようにしてもよい（ＡＳＰ(Application Service Provider)）。

２０…文字認識装置
２１３…認識対象画像入力部
２１４…第１の文字認識部
２１５…マスク処理部
２１６…第２の文字認識部
２１７…決定部

Claims

画像情報について文字認識を行い、該画像情報のうち一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第１の認識部と、
所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記憶部と、
前記マスク画像記億部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成部と、
前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第２の認識部と、
前記第２の認識部が決定した前記認識文字それぞれの前記論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定部と、
を備えることを特徴とする文字認識装置。
画像情報について文字認識を行い、該画像情報のうち一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第１の認識ステップと、
所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記億部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成ステップと、
前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第２の認識ステップと、
前記第２の認識ステップで決定された前記認識文字それぞれの論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定ステップと、
をコンピュータに実行させる文字認識プログラム。
コンピュータが、
画像情報について文字認識を行い、一文字として認識された画像領域に対して複数の認識結果候補文字を取得する第１の認識ステップと、
所定フォントの文字の画像情報であるマスク画像が記憶されたマスク画像記憶部を参照し、前記認識結果候補文字のそれぞれに対して、前記所定フォントの認識結果候補文字の画像情報であるマスク画像を取得し、該マスク画像と前記一文字として認識された画像領域との論理積をとった論理積画像を生成する生成ステップと、
前記論理積画像のそれぞれに対して、文字認識を行い、論理積画像に対応する文字である認識文字、および、該認識文字と該論理積画像との類似度を決定する第2の認識ステップと、
前記第２の認識ステップで決定された前記認識文字それぞれの論理積画像との類似度に基づいて、複数の該認識文字の中から、前記一文字として認識された画像領域に対応する文字を決定する決定ステップと、
を実行する文字認識方法。