JP6092024B2

JP6092024B2 - 文字認識装置、方法、及びプログラム

Info

Publication number: JP6092024B2
Application number: JP2013140031A
Authority: JP
Inventors: 鈴木　敏; 敏鈴木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-07-03
Filing date: 2013-07-03
Publication date: 2017-03-08
Anticipated expiration: 2033-07-03
Also published as: JP2015014846A

Description

本発明は、文字認識装置、方法、及びプログラムに係り、特に、画像に含まれる文字を認識する文字認識装置、方法、及びプログラムに関する。

一般にＯＣＲ技術では、文字の背景に絵や写真などが配置されている場合、文字認識が困難となる。

特許文献１では、背景の色分布が一様であることを仮定することにより背景部分を切り分け、背景色を除去する処理を行う技術が記載されている。

特開2002-236921号公報

しかしながら、一般には背景の色分布が一様であるとは限らず、多くの場合は画像上の場所により色分布は大きく異なるため、上記非特許文献１に記載の技術では、精度よく文字を認識することができない。

本発明は、上記の問題を解決するためになされたもので、背景色に関わらず、高精度に文字を認識することができる文字認識装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の文字認識装置は、文字列画像から文字を表す部分画像を文字毎に生成すると共に、前記部分画像の文字位置情報を出力する部分画像生成手段と、前記部分画像生成手段により生成された前記部分画像の各々について、前記部分画像の色ヒストグラムを生成する色ヒストグラム生成手段と、前記色ヒストグラム生成手段によって生成された前記部分画像の各々の色ヒストグラムに基づいて、文字色を推定する文字色推定手段と、前記部分画像の各々について、前記文字色推定手段によって推定された文字色の部分を抽出したマスク画像を各々生成するマスク生成手段と、前記マスク生成手段によって生成された前記マスク画像の各々と、予めデータベースに記憶されている文字情報とを照合し、前記マスク画像毎に、該マスク画像と最も一致度が高い文字情報が示す文字を各々出力するマスク画像照合手段と、前記マスク画像照合手段によって出力された文字の各々及び前記部分画像生成手段によって出力された前記文字位置情報に基づいて、文字列を再構成する文字列再構成手段と、を含んで構成されている。

本発明の文字認識方法は、部分画像生成手段によって、文字列画像から文字を表す部分画像を文字毎に生成すると共に、前記部分画像の文字位置情報を出力し、色ヒストグラム生成手段によって、前記部分画像生成手段により生成された前記部分画像の各々について、前記部分画像の色ヒストグラムを生成し、文字色推定手段によって、前記色ヒストグラム生成手段によって生成された前記部分画像の各々の色ヒストグラムに基づいて、文字色を推定し、マスク生成手段によって、前記部分画像の各々について、前記文字色推定手段によって推定された文字色の部分を抽出したマスク画像を各々生成し、マスク画像照合手段によって、前記マスク生成手段によって生成された前記マスク画像の各々と、予めデータベースに記憶されている文字情報とを照合し、前記マスク画像毎に、該マスク画像と最も一致度が高い文字情報が示す文字を各々出力し、文字列再構成手段によって、前記マスク画像照合手段によって出力された文字の各々及び前記部分画像生成手段によって出力された前記文字位置情報に基づいて、文字列を再構成する。

また、本発明のプログラムは、コンピュータを、上記の文字認識装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の文字認識装置、方法、及びプログラムによれば、文字毎の部分画像の色ヒストグラムに基づいて、文字色を推定して、マスク画像を各々生成し、生成されたマスク画像の各々と、文字情報とを照合して出力された文字の各々から、文字列を再構成することにより、背景色に関わらず、高精度に文字を認識することができる、という効果が得られる。

本発明の実施の形態に係る文字認識装置の構成の一例を示す図である。本発明の実施の形態に係る文字認識装置の文字認識部の構成の一例を示す図である。本発明の実施の形態に係る文字認識装置の文字画像生成部の構成の一例を示す図である。本発明の実施の形態に係る文字認識処理ルーチンのフローチャートの一例である。本発明の実施の形態に係る文字画像生成処理ルーチンのフローチャートの一例である。（Ａ）入力画像の一例を示す図、及び（Ｂ）文字認識結果の一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜発明の概要＞
本実施の形態では、一般に文字領域内では文字の色が同じであることを利用する。一文字ごとの文字画像を切り出し、それぞれの色ヒストグラムを生成し、各文字画像に共通して現れ、かつ、頻度の高い色を文字色とみなして文字認識を実行する。

また、文字認識結果に基づいて文字位置の再推定を行う際に、各文字の文字位置、文字サイズ、文字の信頼度が得られる。

本実施の形態では、これらの情報を基に文字ごとの文字画像を切り出し、それぞれの色ヒストグラムを生成する。ヒストグラムから、多くの画像に含まれている色で、かつ、出現頻度の高い色を選び、文字の色とする。複数の色を選択することも可能であり、その場合には、１色ずつ文字認識処理を試みる。

このようにして取り出した色を用いて、元の文字画像にマスク処理を施し、背景を見えなくした状態で、文字認識処理を適用することで、精度の高い文字認識を実現できる。

＜システム構成＞
以下、図面を参照して本発明の実施の形態を詳細に説明する。図１は、本実施の形態に係る文字認識装置の構成の一例を示す図である。

文字認識装置１０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、ＣＰＵが後述する各処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。また、文字認識装置１０を構成するコンピュータは、ハードディスクドライブ等の記憶部や通信インタフェース等を備えていてもよい。また、ハードディスクドライブにＣＰＵが実行するプログラムが記憶されていてもよい。ＣＰＵがＲＯＭやハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて以下に説明する機能が実現される。

このコンピュータは、機能的には、図１に示すように、文字認識部１２、信頼度判定部１４、文字位置推定部１６、文字画像生成部１８、及び文字列再構成部２０を含んだ構成で表わすことができる。なお、信頼度判定部１４は、信頼判定手段の一例である。

文字認識部１２は、図２に示すように、文字領域抽出部２２、文字ＤＢ（データベース）２４、及び照合部２６を含んだ構成で表わすことができる。なお、文字領域抽出部２２は、文字抽出手段の一例であり、照合部２６は、マスク画像照合手段及び文字画像照合手段の一例である。

文字領域抽出部２２は、文字認識対象としての入力画像又は後述するマスク画像を取得し、画像処理により、入力画像又はマスク画像から文字列領域の画像を抽出すると共に、抽出された文字列領域から各文字領域の画像（以下、文字画像と称する。）を抽出する。

文字ＤＢ２４には、様々な書体（フォント）、サイズ、及び太さの文字を示す文字情報が予め文字毎に登録されている。なお、文字情報は、例えば、個々の文字の文字パターン画像情報であってもよいし、個々の文字の特徴を示す特徴値であってもよい。また、文字ＤＢ２４はデータベースの一例である。

照合部２６は、文字領域抽出部２２により抽出された文字画像の各々と、予め文字ＤＢ２４に記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字と、文字画像が当該文字に該当することの尤もらしさを示すための指標（識別距離）と、文字列領域の画像中の文字の位置（以下、文字の位置と称する。）と、当該文字画像中の文字の幅及び高さ（以下、文字の大きさと称する。）とを出力する。

信頼度判定部１４は、文字認識部１２の照合部２６により出力された文字の各々について、文字の識別距離と、文字の大きさとに基づいて、当該文字が信頼できるか否かを判定し、信頼のできる文字を選出する。例えば、「識別距離が一定値以内である」、あるいは、「文字種が記号文字ではない」、あるいは、「文字サイズが平均から大きく外れていない」等のフィルターをかけ、残った文字が信頼できる文字として、選出される。なお、本実施の形態では、文字、文字の識別距離、文字の位置、及び文字の大きさを、文字識別情報として用いる。

文字位置推定部１６は、信頼度判定部１４により信頼できると判定された文字の位置及び大きさに基づいて、他の文字の位置及び大きさを推定する。具体的には、まず信頼度判定部１４によって信頼できると判定された文字の大きさに基づいて、例えば、信頼できると判定された文字の大きさの平均値を、他の文字の大きさとして推定する。そして、信頼できると判定された文字の位置及び当該推定された他の文字の大きさに基づいて、文字列領域のうち、信頼できると判定された文字の文字領域の間に、当該文字の大きさに応じた間隔で、等間隔に他の文字を配置するように、当該他の文字の位置を推定する。

文字画像生成部１８は、信頼度判定部１４により信頼できると判定された文字の位置及び大きさと、文字位置推定部１６により推定された他の文字の位置及び文字の大きさとに基づいて、入力画像からマスク画像を文字毎に生成して文字認識部１２に出力し、文字毎にマスク画像の文字を認識させる。

文字画像生成部１８は、図３に示すように、部分画像生成部３０、色ヒストグラム生成部３２、文字色推定部３４、マスク生成部３６、及び画像平滑化部３８を含んだ構成で表わすことができる。

部分画像生成部３０は、信頼度判定部１４により信頼できると判定された文字の位置及び大きさと、文字位置推定部１６により推定された他の文字の位置及び文字の大きさとに基づいて、入力画像から、文字毎に、当該文字を含む部分画像を生成して色ヒストグラム生成部３２へ出力すると共に、部分画像毎の文字位置情報を、文字列再構成部２０へ出力する。

色ヒストグラム生成部３２は、部分画像生成部３０によって生成された文字毎の部分画像に基づいて、部分画像毎に、各色の頻度を表わす色ヒストグラムを各々生成する。

文字色推定部３４は、色ヒストグラム生成部３２によって生成された部分画像毎の色ヒストグラムに基づいて、各部分画像に共通して出現する色であって、かつ、各部分画像における頻度が閾値以上となる色を、文字色として推定する。このとき複数の色を文字色として推定してもよい。

マスク生成部３６は、部分画像生成部３０によって生成された文字毎の部分画像、及び文字色推定部３４によって推定された文字色に基づいて、部分画像毎に、文字色の部分を抽出したマスク画像を各々生成する。なお、文字色推定部３４により、複数の色が文字色として推定された場合には、文字色毎に、マスク画像を生成する。

画像平滑化部３８は、マスク生成部３６によって生成されたマスク画像の各々に対して、ノイズを除去するために、平滑化処理を行い、平滑化処理済みのマスク画像を、文字認識部１２へ出力する。平滑化はガウシアンフィルターなどの各種フィルターやMRF(Markov Random Field)のような平滑化処理を適用してもよい。

上記の処理により、背景が除去された、ノイズの少ない文字を表すマスク画像が取り出される。これらのマスク画像が、再び文字認識部１２に入力され、精度の高い文字認識が行われる。

文字認識部１２からマスク画像毎に出力された文字認識結果は、それぞれの相対的な位置情報を持っていないので、このままでは文字列にはならない。そこで、文字認識結果の各文字を、文字の位置情報と結びつけるための文字列再構成部２０が必要になる。

文字列再構成部２０は、文字認識部１２からマスク画像毎に出力された文字と、文字画像生成部１８の部分画像生成部３０から出力された部分画像毎の文字位置情報とに基づいて、文字認識部１２からマスク画像毎に出力された各文字の入力画像上での位置を再設定することにより、文字列を再構成する。ここで再構成された文字列が文字認識結果として出力される。

＜文字認識装置１０の動作＞
次に、文字認識装置１０の作用について図４を参照して詳細に説明する。

ステップＳ１００において、文字領域抽出部２２は、文字認識対象としての入力画像を取得する。

次に、ステップＳ１０２において、文字領域抽出部２２は、取得した入力画像から文字列領域の画像を抽出すると共に、抽出した文字列領域から各文字画像を抽出する。

ステップＳ１０４において、照合部２６は、上記ステップＳ１０２で抽出した文字画像の各々と、予め文字ＤＢ２４に記憶されている文字情報とを照合し、文字画像毎に当該文字画像と最も一致度が高い文字情報が示す文字と、文字画像が当該文字に該当することの尤もらしさを示すための指標（識別距離）と、文字の位置と、文字の大きさとを出力する。なお、ここで、例えば文字情報が文字パターン画像ではなく、文字の特徴を示すベクトル等の特徴値であった場合には、照合部２６は、文字情報を画像に展開して文字画像と照合する。なお、文字画像を文字情報と同様の形式に変換して照合するようにしてもよい。

なお、照合部２６は、文字領域抽出部２２により抽出された文字画像が、横書きの文字画像であれば、左から右に向かう（認識言語によっては右から左であってもよい）配列順に各文字画像と文字情報とを照合し、上記抽出された文字画像が、縦書きの文字画像であれば、上から下に向かう配列順に各文字画像と文字情報とを順に照合していく。

ステップＳ１００からステップＳ１０４までの処理は、周知の従来手法と同様の技術を利用できる。

ステップＳ１０６において、信頼度判定部１４は、上記ステップＳ１０４において出力された文字の各々について算出された文字の識別距離と、文字の大きさとに基づいて、当該文字が信頼できるか否かを判定し、信頼できる文字を選出する。

次に、ステップＳ１０８において、文字位置推定部１６は、上記ステップＳ１０６で信頼できると判定された文字の位置及び大きさに基づいて、他の文字の大きさ及び位置を推定する。

ステップＳ１１０において、文字画像生成部１８は、上記ステップＳ１０８で推定された各文字の位置及び大きさに基づいて、上記ステップＳ１００で取得した入力画像から、マスク画像を文字毎に生成し、文字認識部１２へ出力すると共に、文字毎に、文字位置情報を、文字列再構成部２０へ出力する。

次に、ステップＳ１１２において、文字認識部１２の文字領域抽出部２２は、入力されたマスク画像に対して、上記ステップＳ１０２と同様に、文字画像を抽出する。

ステップＳ１１４では、照合部２６は、上記ステップＳ１０４と同様に、上記ステップＳ１１２で抽出した文字画像と、予め文字ＤＢ２４に記憶されている文字情報とを照合し、当該文字画像と最も一致度が高い文字情報が示す文字を出力する。

ステップＳ１１６では、上記ステップＳ１１０で生成された全てのマスク画像について、上記ステップＳ１１２〜Ｓ１１４の処理を実行したか否かを判定する。上記ステップＳ１１２〜Ｓ１１４の処理を実行していないマスク画像が存在する場合には、上記ステップＳ１１２へ戻り、当該マスク画像について上記ステップＳ１１２〜Ｓ１１４の処理を繰り返す。一方、全てのマスク画像について、上記ステップＳ１１２〜Ｓ１１４の処理を実行した場合には、ステップＳ１１８へ進む。

ステップＳ１１８では、文字列再構成部２０は、上記ステップＳ１１０で得られた文字毎のマスク画像の文字位置情報と、上記ステップＳ１１４で出力されたマスク画像毎の文字とに基づいて、文字列を再構成して出力し、文字認識処理ルーチンを終了する。

上記ステップＳ１１０は、図５に示す文字画像生成処理ルーチンによって実現される。

ステップＳ１２０において、部分画像生成部３０は、上記ステップＳ１０８で推定された文字の位置及び大きさに基づいて、上記ステップＳ１００で取得した入力画像から、部分画像を文字毎に生成する。そして、ステップＳ１２２において、色ヒストグラム生成部３２は、上記ステップＳ１２０で生成した部分画像毎に、当該部分画像の色ヒストグラムを生成する。

そして、ステップＳ１２４において、文字色推定部３４は、上記ステップＳ１２２で生成された部分画像毎の色ヒストグラムに基づいて、文字色を推定する。ステップＳ１２６では、マスク生成部３６は、上記ステップＳ１２６で推定された文字色に基づいて、上記ステップＳ１２０で生成した部分画像毎に、当該文字色と同じ色の部分を抽出したマスク画像を生成する。なお、文字色が複数色推定された場合には、文字色毎及び部分画像毎に、マスク画像を生成すればよい。

そして、ステップＳ１２８において、画像平滑化部３８は、上記ステップＳ１２６で生成されたマスク画像毎に、画像の平滑化処理を行い、平滑化処理が行われたマスク画像が、文字認識部１２へ出力され、文字画像生成処理ルーチンを終了する。

上記の文字認識処理ルーチンが実行されることにより、図６（Ａ）に示すように、背景部分に黒以外の色がある場合であっても、図６（Ｂ）に示すように、黒い文字を認識することができる。

以上説明したように、本発明の実施の形態に係る文字認識装置１０によれば、文字毎の部分画像の色ヒストグラムに基づいて、文字色を推定して、マスク画像を各々生成し、生成されたマスク画像の各々と文字情報とを照合して出力された文字の各々から、文字列を再構成することにより、背景の画像の色に関わらず、入力画像上の文字を高精度に認識することができる。

一般に文字領域内では文字の色が同じであることを利用して、一文字ごとの画像を切り出し、それぞれの色ヒストグラムを生成し、各画像に共通して現れ、かつ、頻度の高い色を文字色とみなしてマスク処理を行い、背景画像を排除した各文字のマスク画像に対して文字認識を行うことにより、文字認識精度が、背景に影響を受けることを抑制することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記の実施の形態では、文字認識部、信頼度判定部、及び文字位置推定部の各処理の結果を用いて、文字画像生成部において文字毎の部分画像を抽出する場合を例に説明したが、これに限定されるものではない。文字認識部、信頼度判定部、及び文字位置推定部の各処理を省略して、文字画像生成部が、入力画像から、文字画像及び文字位置情報を文字毎に抽出するようにしてもよい。

また、上述の文字認識装置が文字ＤＢを備えている場合について説明したが、例えば文字ＤＢが文字認識装置の外部装置に設けられ、文字認識装置は、外部装置と通信手段を用いて通信することにより、文字ＤＢを参照するようにしてもよい。

また、上述の文字認識装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０文字認識装置
１２文字認識部
１４信頼度判定部
１６文字位置推定部
１８文字画像生成部
２０文字列再構成部
２２文字領域抽出部
２４文字データベース
２６照合部
３０部分画像生成部
３２色ヒストグラム生成部
３４文字色推定部
３６マスク生成部
３８画像平滑化部

Claims

文字列画像から文字を表す部分画像を文字毎に生成すると共に、前記部分画像の文字位置情報を出力する部分画像生成手段と、
前記部分画像生成手段により生成された前記部分画像の各々について、前記部分画像の色ヒストグラムを生成する色ヒストグラム生成手段と、
前記色ヒストグラム生成手段によって生成された前記部分画像の各々の色ヒストグラムに基づいて、各部分画像に共通して出現する色であって、かつ、各部分画像における頻度が閾値以上となる色を、文字色として推定する文字色推定手段と、
前記部分画像の各々について、前記文字色推定手段によって推定された文字色の部分を抽出したマスク画像を各々生成するマスク生成手段と、
前記マスク生成手段によって生成された前記マスク画像の各々と、予めデータベースに記憶されている文字情報とを照合し、前記マスク画像毎に、該マスク画像と最も一致度が高い文字情報が示す文字を各々出力するマスク画像照合手段と、
前記マスク画像照合手段によって出力された文字の各々及び前記部分画像生成手段によって出力された前記文字位置情報に基づいて、文字列を再構成する文字列再構成手段と、
を含む文字認識装置。
前記文字列画像から文字を表す文字画像を文字毎に抽出する文字抽出手段と、
前記文字抽出手段により抽出された前記文字画像の各々と、前記データベースに記憶されている文字情報とを照合し、前記文字画像毎に、該文字画像と最も一致度が高い文字情報が示す文字を出力するとともに前記文字の尤度を示す指標、位置、及び大きさを出力する文字画像照合手段と、
前記文字画像照合手段によって出力された文字の各々について、前記文字の尤度を示す指標及び前記文字の大きさに基づいて、前記文字が信頼できるか否かを判定する信頼判定手段と、
前記信頼判定手段によって信頼できると判定された文字の大きさに基づいて、他の文字の大きさを推定するとともに、前記信頼判定手段によって信頼できると判定された文字の位置及び前記推定された前記他の文字の大きさに基づいて、前記他の文字の位置を推定する文字位置推定手段と、を更に含み、
前記部分画像生成手段は、前記文字位置推定手段によって推定された前記他の文字の位置及び大きさに基づいて、前記文字列画像から前記部分画像を文字毎に生成すると共に、前記部分画像の文字位置情報を出力する
請求項１記載の文字認識装置。
前記マスク生成手段によって生成された前記マスク画像の各々に対して、平滑化処理を行う画像平滑化手段を更に含み、
前記マスク画像照合手段は、前記画像平滑化手段によって前記平滑化処理された前記マスク画像の各々と、前記データベースに記憶されている文字情報とを照合し、前記平滑化処理された前記マスク画像毎に、該マスク画像と最も一致度が高い文字情報が示す文字を各々出力する請求項１又は２記載の文字認識装置。
部分画像生成手段によって、文字列画像から文字を表す部分画像を文字毎に生成すると共に、前記部分画像の文字位置情報を出力し、
色ヒストグラム生成手段によって、前記部分画像生成手段により生成された前記部分画像の各々について、前記部分画像の色ヒストグラムを生成し、
文字色推定手段によって、前記色ヒストグラム生成手段によって生成された前記部分画像の各々の色ヒストグラムに基づいて、各部分画像に共通して出現する色であって、かつ、各部分画像における頻度が閾値以上となる色を、文字色として推定し、
マスク生成手段によって、前記部分画像の各々について、前記文字色推定手段によって推定された文字色の部分を抽出したマスク画像を各々生成し、
マスク画像照合手段によって、前記マスク生成手段によって生成された前記マスク画像の各々と、予めデータベースに記憶されている文字情報とを照合し、前記マスク画像毎に、該マスク画像と最も一致度が高い文字情報が示す文字を各々出力し、
文字列再構成手段によって、前記マスク画像照合手段によって出力された文字の各々及び前記部分画像生成手段によって出力された前記文字位置情報に基づいて、文字列を再構成する
文字認識方法。
コンピュータを、請求項１〜請求項３の何れか１項に記載の文字認識装置の各手段として機能させるためのプログラム。