JP5344956B2 - 文字認識方法および文字認識装置 - Google Patents

文字認識方法および文字認識装置 Download PDF

Info

Publication number
JP5344956B2
JP5344956B2 JP2009047291A JP2009047291A JP5344956B2 JP 5344956 B2 JP5344956 B2 JP 5344956B2 JP 2009047291 A JP2009047291 A JP 2009047291A JP 2009047291 A JP2009047291 A JP 2009047291A JP 5344956 B2 JP5344956 B2 JP 5344956B2
Authority
JP
Japan
Prior art keywords
boundary line
probability
character
correct reading
misreading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009047291A
Other languages
English (en)
Other versions
JP2010204766A (ja
Inventor
和歳 鵜飼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2009047291A priority Critical patent/JP5344956B2/ja
Publication of JP2010204766A publication Critical patent/JP2010204766A/ja
Application granted granted Critical
Publication of JP5344956B2 publication Critical patent/JP5344956B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

この発明は、光学的に読み取った文字データを各文字に対応した文字テンプレートとそれぞれ対比することで文字認識を行う文字認識方法および文字認識装置に関し、特に、認識対象とする文字種の傾向が異なる場合であっても文字認識に用いる閾値を適切に設定することができるとともに、文字認識精度を向上させることができる文字認識方法および文字認識装置に関する。
従来から、OCR(Optical Character Reader)と呼ばれる光学式文字読取装置が知られている。かかるOCRでは、スキャナで読み取った入力文字画像を、字種ごとに用意された文字テンプレートと比較することで、文字を認識する。
しかし、文字を正しく読み取る(以下、「正読」と記載する)ことは容易ではなく、所定の割合で、文字を誤って読み取る(以下、「誤読」と記載する)ケースが発生する。このため、実際の読み取り結果を学習することによって、上記した正読の確率(正読率)を向上させる試みが種々行われている。
たとえば、特許文献1には、所定の文字種に対応する文字テンプレートに対し、正解でありながら誤読と判定された入力文字画像を正解カテゴリの追加テンプレートとして登録する技術が開示されている。これにより、追加テンプレートの登録前には誤読としてしまっていた入力文字画像を、追加テンプレートの登録後には正読とすることができる。
特開平11−175660号公報
しかしながら、特許文献1の技術は、いわば文字テンプレートの適用範囲を拡大する手法であるので、特定の文字種についての正読率を向上させると、他の文字種、特に、特定の文字種に類似する近傍文字種についての正読率を低下させてしまうという問題がある。このため、追加テンプレートの登録前には正読とされていた近傍文字種が、追加テンプレートの登録後には誤読とされてしまうケースが発生する。
ところで、入力文字画像と、字種ごとに用意された文字テンプレートとを比較し、最も良好な文字テンプレートを選択する場合、入力文字画像と文字テンプレートとの差異の数値化が行われる。そして、算出された数値を、正読と誤読とを分離するための所定の閾値と比較することが一般的に行われている。
しかし、かかる閾値は、開発段階では多次元で設定されているため、OCR(光学式文字読取装置)ごとにある程度(たとえば、1次元へ)固定化されることが一般的であり、利用者には1次元での簡易的な変更しか認められていなかった。このため、利用者の業務種別などによって文字種の出現傾向が変化するにもかかわらず、多次元のレベルで細かく閾値を調整することが困難であった。なお、仮に、利用者に対して多次元の閾値の変更を認めた場合であっても、閾値の調整には高度な経験が必要であるため、利用者が適切な閾値を設定することが困難であるという問題もあった。
これらのことから、認識対象とする文字種の傾向が異なる場合であっても文字認識に用いる閾値を適切に設定することができるとともに、文字認識精度を向上させることができる文字認識方法あるいは文字認識装置をいかにして実現するかが大きな課題となっている。
本発明は、上述した従来技術による問題点を解消するためになされたものであって、認識対象とする文字種の傾向が異なる場合であっても文字認識に用いる閾値を適切に設定することができるとともに、文字認識精度を向上させることができる文字認識方法および文字認識装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、光学的に読み取った文字データを各文字に対応した文字テンプレートとそれぞれ対比することで文字認識を行う文字認識方法であって、前記文字データと前記文字テンプレートとの違いをあらわす距離値をそれぞれ算出したうえで、前記距離値が最も小さい前記文字テンプレートを1位候補とするとともに、前記距離値が2番目に小さい前記文字テンプレートを2位候補とした場合に、前記文字データと前記1位候補との前記距離値をあらわす1位候補距離値と、前記文字データと前記2位候補との前記距離値から前記1位候補距離値を差し引いた距離差とを算出する距離算出工程と、同一文字種の各文字データについての前記1位候補距離値および前記距離差を正読または誤読の別と対応付けてサンプル値として記憶するサンプル値記憶工程と、前記サンプル値記憶工程によって記憶された前記サンプル値を、前記1位候補距離値を第1の軸、前記距離差を第2の軸とする2次元空間に配置したうえで、正読のサンプル値の分布について所定の正読率をあらわす形状が楕円である正読確率楕円からなる閉領域の正読確率領域と、誤読のサンプル値の分布について所定の誤読率をあらわす形状が楕円である誤読確率楕円からなる閉領域の誤読確率領域とを生成する確率領域生成工程と、前記確率領域生成工程によって生成された前記正読確率領域および前記誤読確率領域の位置関係に基づいて前記文字データに対する文字認識結果を正読とするか否かの判定に用いる境界線を決定する境界線決定工程と、前記文字認識結果に対応する前記1位候補距離値および前記距離差の組を前記境界線決定工程で決定された前記境界線と対比することで当該文字認識結果を正読として受け付けるか否かを判定する判定工程とを含み、前記境界線決定工程は、前記正読確率楕円と前記誤読確率楕円との中間点を通過するとともに前記第2の軸と平行な直線である第1の境界線と、前記中間点および前記正読確率楕円の重心を前記第1の軸へ射影した点を通過する直線である第2の境界線とを決定し、前記判定工程は、前記第1の境界線以下であり、かつ、前記第2の境界線以上である前記2次元空間に含まれる前記文字認識結果を正読として受け付けると判定することを特徴とする。
また、本発明は、上記の発明において、前記境界線決定工程は、前記正読確率楕円と前記誤読確率楕円とが交差して前記中間点が存在しない場合に、前記中間点を通過する代わりに前記正読確率楕円または前記誤読確率楕円に接するように前記第1の境界線および前記第2の境界線を決定することを特徴とする。
また、本発明は、上記の発明において、前記確率領域生成工程は、複数の前記正読率について前記正読確率楕円をそれぞれ生成するとともに、複数の前記誤読率について前記誤読確率楕円をそれぞれ生成し、前記境界線決定工程は、複数の前記正読確率楕円のうち1つと複数の前記誤読確率楕円のうち1つとを用いて前記境界線を決定することを特徴とする。
また、本発明は、上記の発明において、前記正読確率楕円と前記誤読確率楕円とが交差して前記中間点が存在しない場合に、前記第1の境界線および前記第2の境界線について、前記中間点を通過させる代わりに複数の前記正読確率楕円または複数の前記誤読確率楕円のうちいずれの接線とするかを利用者に選択させる選択工程と、前記選択工程における選択によって決定された前記第1の境界線および前記第2の境界線と前記サンプル値の分布とを含んだ分布図と、当該分布図における前記第1の境界線および前記第2の境界線によって正読であるにも関わらずリジェクトされた前記サンプル値の割合をあらわす正読リジェクト率および/または誤読を誤読として正当にリジェクトされた前記サンプル値の割合をあらわす誤読リジェクト率を示すリジェクト率グラフとを表示する表示工程とをさらに含んだことを特徴とする。
また、本発明は、上記の発明において、前記境界線決定工程は、前記第1の境界線を複数の前記正読確率楕円または複数の前記誤読確率楕円のうちいずれの接線とするかをあらわす第1の接線候補と、前記第2の境界線を複数の前記正読確率楕円または複数の前記誤読確率楕円のうちいずれの接線とするかをあらわす第2の接線候補との各組合せについて、前記正読リジェクト率が所定の許容上限値以下であり、かつ、前記誤読リジェクト率が所定の許容下限値以上である前記組合せを抽出し、前記表示工程は、前記境界線決定工程によって抽出された前記組合せを前記リジェクト率グラフに含めて表示することを特徴とする。
また、本発明は、上記の発明において、前記境界線決定工程は、複数の前記組合せが抽出された場合に、前記各組合せについて予め定められた優先度に基づいて1つの前記組合せを決定し、当該組合せに対応する前記第1の境界線および前記第2の境界線を決定することを特徴とする。
また、本発明は、上記の発明において、前記境界線決定工程は、前記サンプル値記憶工程によって記憶された前記サンプル値の個数が所定の基準値を超えるたびに、前記境界線を再決定することを特徴とする。
また、本発明は、上記の発明において、前記サンプル値記憶工程は、前記サンプル値に対して、正しい読みや、スキャナによる文字データを追加して記憶することを特徴とする。
また、本発明は、光学的に読み取った文字データを各文字に対応した文字テンプレートとそれぞれ対比することで文字認識を行う文字認識装置であって、前記文字データと前記文字テンプレートとの違いをあらわす距離値をそれぞれ算出したうえで、前記距離値が最も小さい前記文字テンプレートを1位候補とするとともに、前記距離値が2番目に小さい前記文字テンプレートを2位候補とした場合に、前記文字データと前記1位候補との前記距離値をあらわす1位候補距離値と、前記文字データと前記2位候補との前記距離値から前記1位候補距離値を差し引いた距離差とを算出する距離算出手段と、同一文字種の各文字データについての前記1位候補距離値および前記距離差を正読または誤読の別と対応付けてサンプル値として記憶するサンプル値記憶手段と、前記サンプル値記憶手段によって記憶された前記サンプル値を、前記1位候補距離値を第1の軸、前記距離差を第2の軸とする2次元空間に配置したうえで、正読のサンプル値の分布について所定の正読率をあらわす形状が楕円である正読確率楕円からなる閉領域の正読確率領域と、誤読のサンプル値の分布について所定の誤読率をあらわす形状が楕円である誤読確率楕円からなる閉領域の誤読確率領域とを生成する確率領域生成手段と、前記確率領域生成手段によって生成された前記正読確率領域および前記誤読確率領域の位置関係に基づいて前記文字データに対する文字認識結果を正読とするか否かの判定に用いる境界線を決定する境界線決定手段と、前記文字認識結果に対応する前記1位候補距離値および前記距離差の組を前記境界線決定手段で決定された前記境界線と対比することで当該文字認識結果を正読として受け付けるか否かを判定する判定手段とを備え、前記境界線決定手段は、前記正読確率楕円と前記誤読確率楕円との中間点を通過するとともに前記第2の軸と平行な直線である第1の境界線と、前記中間点および前記正読確率楕円の重心を前記第1の軸へ射影した点を通過する直線である第2の境界線とを決定し、前記判定手段は、前記第1の境界線以下であり、かつ、前記第2の境界線以上である前記2次元空間に含まれる前記文字認識結果を正読として受け付けると判定することを特徴とする。
本発明によれば、文字データと文字テンプレートとの違いをあらわす距離値をそれぞれ算出したうえで、距離値が最も小さい文字テンプレートを1位候補とするとともに、距離値が2番目に小さい文字テンプレートを2位候補とした場合に、文字データと1位候補との距離値をあらわす1位候補距離値と、文字データと2位候補との距離値から1位候補距離値を差し引いた距離差とを算出し、同一文字種の各文字データについての1位候補距離値および距離差を正読または誤読の別と対応付けてサンプル値として記憶し、記憶されたサンプル値を、1位候補距離値を第1の軸、距離差を第2の軸とする2次元空間に配置したうえで、正読のサンプル値の分布について所定の正読率をあらわす形状が楕円である正読確率楕円からなる閉領域の正読確率領域と、誤読のサンプル値の分布について所定の誤読率をあらわす形状が楕円である誤読確率楕円からなる閉領域の誤読確率領域とを生成し、生成された正読確率領域および誤読確率領域の位置関係に基づいて文字データに対する文字認識結果を正読とするか否かの判定に用いる境界線を決定し、文字認識結果に対応する1位候補距離値および距離差の組を決定された境界線と対比することで文字認識結果を正読として受け付けるか否かを判定することとしたので、正読率および誤読率を加味した境界線を用いることで、文字認識に用いる閾値を適切に設定することができるとともに、文字認識の認識精度を向上させることができるという効果を奏する。
特に、正読確率領域として形状が楕円である正読確率楕円を生成するとともに、誤読確率領域として形状が楕円である誤読確率楕円を生成することとしたので、幾何的な計算を行いやすい確率楕円を、境界線を決定するための指標として利用することによって、境界線の決定を容易に行うことができるという効果を奏する。また、正読確率楕円と誤読確率楕円との中間点を通過するとともに第2の軸と平行な直線である第1の境界線と、中間点および正読確率楕円の重心を第1の軸へ射影した点を通過する直線である第2の境界線とを決定し、第1の境界線以下であり、かつ、第2の境界線以上である2次元空間に含まれる文字認識結果を正読として受け付けると判定することとしたので、簡単な処理で境界線を決定することができるとともに、文字認識精度を向上させることができるという効果を奏する。
また、本発明によれば、正読確率楕円と誤読確率楕円とが交差して中間点が存在しない場合に、中間点を通過する代わりに正読確率楕円または誤読確率楕円に接するように第1の境界線および第2の境界線を決定することとしたので、正読確率楕円と誤読確率楕円とが交差する場合であっても各確率楕円の位置に応じて境界線を決定することができるという効果を奏する。
また、本発明によれば、複数の正読率について正読確率楕円をそれぞれ生成するとともに、複数の誤読率について誤読確率楕円をそれぞれ生成し、複数の正読確率楕円のうち1つと複数の誤読確率楕円のうち1つとを用いて境界線を決定することとしたので、利用者のニーズに応じた境界線を決定することができるという効果を奏する。
また、本発明によれば、正読確率楕円と誤読確率楕円とが交差して中間点が存在しない場合に、第1の境界線および第2の境界線について、中間点を通過させる代わりに複数の正読確率楕円または複数の誤読確率楕円のうちいずれの接線とするかを利用者に選択させ、選択によって決定された第1の境界線および第2の境界線とサンプル値の分布とを含んだ分布図と、この分布図における第1の境界線および第2の境界線によって正読であるにも関わらずリジェクトされたサンプル値の割合をあらわす正読リジェクト率および/または誤読を誤読として正当にリジェクトされたサンプル値の割合をあらわす誤読リジェクト率を示すリジェクト率グラフとを表示することとしたので、専門知識がない利用者に対しても、境界線選択を容易に行わせることができるという効果を奏する。
また、本発明によれば、第1の境界線を複数の正読確率楕円または複数の誤読確率楕円のうちいずれの接線とするかをあらわす第1の接線候補と、第2の境界線を複数の正読確率楕円または複数の誤読確率楕円のうちいずれの接線とするかをあらわす第2の接線候補との各組合せについて、正読リジェクト率が所定の許容上限値以下であり、かつ、誤読リジェクト率が所定の許容下限値以上である組合せを抽出し、抽出された組合せをリジェクト率グラフに含めて表示することとしたので、利用者による境界線選択を容易化することができるという効果を奏する。
また、本発明によれば、複数の組合せが抽出された場合に、各組合せについて予め定められた優先度に基づいて1つの組合せを決定し、この組合せに対応する第1の境界線および第2の境界線を決定することとしたので、複数の組合せが抽出された場合であっても自動的に境界線を決定することができるという効果を奏する。
また、本発明によれば、記憶されたサンプル値の個数が所定の基準値を超えるたびに、境界線を再決定することとしたので、サンプル個数の増加に伴って適宜最適な境界線へと更新していくことができるという効果を奏する。
図1は、本発明に係る文字認識手法の概要を示す図である。 図2は、文字認識装置の構成を示すブロック図である。 図3は、文字認識結果と閾値判定結果との関係を示す図である。 図4は、確率楕円および境界線を付加したサンプル分布図である。 図5は、確率楕円が交差する場合のサンプル分布図である。 図6は、境界線の組合せ候補を示す図である。 図7は、境界線の組合せ例および各組合せにおける正読リジェクト率および誤読リジェクト率を示す図である。 図8は、組合せに対応する境界線を示す図である。 図9は、優先度を付加した組合せ候補を示す図である。 図10は、組合せ候補の絞り込み例を示す図である。 図11は、境界線決定の例外処理の概要を示す図である。 図12は、文字認識装置が実行する処理手順を示すフローチャートである。 図13は、閾値変更処理の処理手順を示すフローチャートである。
以下に添付図面を参照して、本発明に係る文字認識方法および文字認識装置の実施例を詳細に説明する。なお、以下の説明では、本発明に係る文字認識手法の概要について図1を用いて説明した後に、本発明に係る文字認識手法を適用した文字認識装置の実施例について説明することとする。
まず、実施例の詳細な説明に先立って、本発明に係る文字認識手法の概要について図1を用いて説明する。図1は、本発明に係る文字認識手法の概要を示す図である。なお、同図の1aには、所定の文字(同図では「也」)についてのスキャンデータと、各候補文字種に対応するテンプレートとの差異を示す「距離値」算出の概要について、同図の1bには、所定の文字(同図では「也」)について取得したサンプルの分布について、それぞれ示している。
本発明に係る文字認識手法では、所定の文字についてのスキャンデータを、各候補文字種に対応するテンプレートと対比する。そして、両者の差異を所定の文字認識関数を用いて数値化し、距離値として算出する。ここで、文字認識関数としては、特開2002−140663号公報に開示されている文字認識関数を使用するものとするが、他の一般的な文字認識関数を用いることとしてもよい。
同図の1aに示したように、文字認識関数を用いて各距離値を算出したならば、各テンプレートを距離値が小さい順に並べる。すなわち、最も距離値が小さい(最もスキャンデータと類似している)テンプレートが、1位となり、以下、2位、3位のようになる。
ここで、本発明に係る文字認識手法では、1位となったテンプレート(同図では「也」)の距離値(同図では「115」)を、「1位候補距離値」とするとともに、1位となったテンプレート(同図では「也」)の距離値(同図では「115」と2位となったテンプレート(同図では「壱」)の距離値(同図では「255」)との差を、「1位/2位距離差(同図では「140」)」とする。
そして、このスキャンデータについて、1位候補距離値、1位/2位距離差および正読/誤読の別をサンプルデータとして取得し、記憶する。ここで、正読/誤読の別については、たとえば、別途入力された正しい読みに基づく判定結果を用いることができる。なお、サンプルデータは、文字種ごとに区分けして記憶されるものとする。
つづいて、上記した処理によって取得されたサンプルデータの分布に基づき、正読を正読としてアクセプトする(受け付ける)ための閾値を再設定する処理を行う。具体的には、同図の1bに示したように、「1位候補距離値」および「1位/2位距離差」を2軸とするグラフ上に、同一文字種についての各サンプルを配置する。
ここで、本発明に係る文字認識手法では、正読サンプルデータの分布が2次元正規分布となると仮定したうえで、正読確率をあらわす正読確率楕円を生成する。なお、同図には、正読確率が95%である正読確率楕円(95%)と、正読確率が90%である正読確率楕円(90%)とを示している。たとえば、サンプル分布が2次元正規分布であるとすれば、正読確率楕円(95%)には、正読サンプルデータの95%が含まれることになる。
また、本発明に係る文字認識手法では、誤読サンプルデータの分布についても2次元正規分布であると仮定し、誤読確率をあらわす誤読確率楕円を生成する。なお、同図には、誤読確率が95%である誤読確率楕円(95%)と、誤読確率が90%である誤読確率楕円(90%)とを示している。
そして、本発明に係る文字認識手法では、たとえば、正読確率楕円(95%)と、誤読確率楕円(95%)との位置関係に基づき、1位/2位距離差軸と平行な「境界線α」と、1位候補距離値軸上の所定の切片を通過する「境界線β」との2本の境界線を決定する。
たとえば、同図の1bに示したように、正読確率楕円(95%)と、誤読確率楕円(95%)とが交点を持たない場合、すなわち、正読確率楕円(95%)と、誤読確率楕円(95%)とが離れている場合には、「境界線α」および「境界線β」は、2つの確率楕円間の中間点を通過するように決定される。
そして、2本の境界線が決定されると、正読としてアクセプトされる領域は、同図の1bに示した斜線領域となる。すなわち、正読としてアクセプトされる領域は、境界線α以下、かつ、境界線β以上の領域となる。たとえば、あらたなスキャンデータが、同図の1bに示した斜線領域に含まれる場合、このスキャンデータは、「也」として認識されることになる。
このように、本発明に係る文字認識手法では、1位候補距離値、1位/2位距離差および正読/誤読の別を含んだサンプルデータを蓄積し(同図の(1)参照)、サンプルデータの分布に基づいて正読確率楕円および誤読確率楕円を生成する(同図の(2)参照)。そして、正読確率楕円/誤読確率楕円間の位置関係に基づいて境界線αおよび境界線βを更新し(同図の(3)参照)、更新された境界線(境界線αおよび境界線β)を用いて正読としてアクセプトする(受け付ける)か否かを判定することとした(同図の(4)参照)。
また、本発明に係る文字認識手法では、上記した2本の境界線を自動的に決定するので、利用者が用いる文字種、サイズあるいはフォントの出現頻度にあわせて適切な閾値を設定することができる。なお、確率楕円の位置関係によっては、境界線の自動決定ができない場合もあるが、このような場合であっても、2本の境界線の候補を利用者に対して提示するので、利用者は、簡単な操作で適切な閾値を設定することが可能となる。また、境界線が2本あるので、たとえば、一方を正読重視、他方を誤読重視とすることで、利用者のニーズに合わせて、正読率と誤読率との多彩なバランスを実現することができる。
このように、1位候補距離値に対応する境界線αと、1位/2位距離差に対応する境界線βとの2本の境界線を用いることで、正読としてアクセプトするか否かの判定をきめ細かく行うことが可能となり、誤読を低減することができる。たとえば、1位候補距離値が大きい場合には、1位/2位距離差が所定値以上であることを条件としてアクセプトすることが可能となるので、誤読を低減することができる。
また、本発明に係る文字認識手法では、出現頻度が高い文字種ほどより多くのサンプルデータを集めることができるので、特に、出現頻度が高い文字種についての認識精度を向上させることができる。さらに、誤読の多発、正読としてアクセプトする確率の低下などが顕著となった場合など、所定の条件を満たした場合に境界線を再設定することができるので、装置の経年変化や、認識対象文字種の傾向が変わった場合であっても、柔軟に対応することができる。
以下では、かかる文字認識手法を適用した文字認識装置についての実施例を詳細に説明する。
図2は、文字認識装置10の構成を示すブロック図である。同図に示すように、文字認識装置10は、スキャナ11と、キーボード12と、ディスプレイ13と、制御部14と、記憶部15とを備えている。また、制御部14は、文字認識部14aと、認識結果確定部14bと、認識結果登録部14cと、閾値変更判定部14dと、確率領域生成部14eと、境界線決定部14fとをさらに備えており、記憶部15は、テンプレート情報15aと、サンプル情報15bと、閾値情報15cとを記憶する。
スキャナ11は、帳票などに印字された文字を光学的に読み取り、読み取った文字データを文字ごとに制御部14の文字認識部14aへ渡すデバイスである。また、キーボード12は、文字の正しい読みや、操作コマンドなどを利用者に入力させるための入力デバイスである。なお、本実施例では、入力デバイスとしてキーボード12を例示したが、マウスやポインティングデバイスといった他の入力デバイスを用いることとしてもよい。
ディスプレイ13は、文字認識結果や、制御部14の境界線決定部14fで決定された境界線、サンプル情報15bといった情報を表示する表示デバイスである。また、境界線決定を半自動で行う場合には、ディスプレイ13には境界線の候補が表示され、利用者は、キーボード12を用いて所望する境界線候補を選択することになる。
制御部14は、スキャナ11から受け取った文字データと、各文字種に対応するテンプレート情報15aとを、境界線決定部14fによって決定された閾値情報15cを用いて対比することで、文字認識処理を行う処理部である。また、この制御部14は、認識結果をサンプル情報15bとして蓄積する処理を行うとともに、所定の条件を満たした場合に、境界線の再決定を行う処理部でもある。
ここで、文字認識結果と閾値判定結果との関係について図3を用いて説明しておく。図3は、文字認識結果と閾値判定結果との関係を示す図である。なお、「文字認識結果」が「正読」とは、文字認識部14aによる読みと、キーボード12経由で入力された正しい読みとが一致した場合を指し、「誤読」とは、文字認識部14aによる読みと、正しい読みとが一致しない場合を指す。
また、「閾値判定結果」が「アクセプト」とは、文字認識部14aが閾値情報15cを用いて認識した結果が、図1に示した斜線領域にあることを指し、「リジェクト」とは、図1に示した斜線領域以外の領域にあることを指す。
図3に示したように、文字認識結果と閾値判定結果との関係には、4つの場合が存在する(同図のa、b、cおよびd参照)。同図に示したaは、文字認識結果が正読であった場合に、正読である旨を正しくアクセプトした場合である。また、同図に示したdは、文字認識結果が誤読であった場合に、誤読である旨を正しくリジェクトした場合である。このように、正読を正しくアクセプトし、誤読を正しくリジェクトすることが、文字認識装置10としては望ましい。
一方、同図のbに示したように、文字認識結果が正読であるのに、リジェクトしてしまったり、同図のcに示したように、文字認識結果が誤読であるのに、アクセプトしてしまったり、という事態は、文字認識装置10としては望ましくない。
そこで、文字認識装置10は、サンプル情報15bを用いて閾値情報15cを更新していくことで、正読を正しくアクセプトする確率を向上させつつ、誤読を正しくリジェクトする確率を向上させていく。
図2の説明に戻り、制御部14の各処理部について説明する。文字認識部14aは、スキャナ11から受け取った文字データと、記憶部15のテンプレート情報15aとを対比することで、各距離値を算出したうえで、1位候補距離値および1位/2位距離差を算出し(図1の1a参照)、算出した値を、閾値情報15cに含まれる境界線αおよび境界線βと対比することで(図1の1b参照)、文字認識処理を行う処理部である。
たとえば、この文字認識部14aは、算出した1位候補距離値および1位/2位距離差の組が、図1の1bに示した斜線領域に含まれる場合に、正読としてアクセプトする。そして、文字認識部14aは、文字の読みを含む認識結果を認識結果確定部14bへ通知する。
認識結果確定部14bは、文字認識部14aから受け取った認識結果をディスプレイ13に表示させるとともに、読みが間違っていた場合やリジェクトの場合などに、利用者によってキーボード12経由で入力された正しい読みを受け取ることで、認識結果を確定する処理を行う処理部である。
また、認識結果確定部14bは、文字認識部14aから受け取った認識結果および認識結果が間違っている旨(誤読である旨)を認識結果登録部14cへ通知する。なお、認識結果確定部14bは、文字認識部14aから受け取った認識結果が正しかった場合には、受け取った認識結果および認識結果が正しい旨(正読である旨)を認識結果登録部14cへ通知する。また、認識結果確定部14bは、リジェクトの場合には、閾値処理を行う前の1位候補が正読または誤読であるかについて認識結果登録部14cへ通知する。
認識結果登録部14cは、認識結果確定部14bから受け取ったサンプルデータごとの1位候補距離値、1位/2位距離差および正読/誤読の別をサンプル情報15bとして記憶部15へ蓄積する処理を行う処理部である。なお、サンプル情報15bに対し、正しい読みや、スキャナ11による文字データ(認識画像)を付加することとしてもよい。
閾値変更判定部14dは、サンプル情報15bに基づく閾値変更処理の開始タイミングを判定する処理を行う処理部である。具体的には、この閾値変更判定部14dは、サンプル情報15bを文字種ごとに検査し、サンプル数が所定数を上回るたびに、確率領域生成部14eに対して閾値変更処理の開始を指示する。
なお、本実施例では、記憶部15に記憶されたサンプル数に基づいて閾値変更処理の開始を指示する場合について説明するが、リジェクト(該当文字種なしの認識結果)数やリジェクト率、誤読数や誤読率が所定値以上となった場合に、閾値変更処理の開始を指示することとしてもよい。
また、正読リジェクト率(正読と認識されたサンプルのうち閾値比較によって誤ってリジェクトされたサンプルの割合)が、予め定めた許容上限値を超えた場合や、誤読リジェクト率(誤読と認識されたサンプルのうち閾値比較によって正しくリジェクトされたサンプルの割合)が、予め定めた許容下限値を下回った場合に、閾値変更処理の開始を指示することとしてもよい。
確率領域生成部14eは、閾値変更判定部14dから閾値変更処理の開始を指示された場合に、該当する文字種について正読サンプルおよび誤読サンプルの分布グラフを生成するとともに、正読サンプルの確率分布をあらわす正読確率楕円および誤読サンプルの確率分布をあらわす誤読確率楕円をそれぞれ生成する処理を行う処理部である。なお、本実施例では、正読確率領域および誤読確率領域の形状を、いずれも、楕円とした場合について説明するが、閉領域であることを条件として他の形状とすることとしてもよい。
境界線決定部14fは、確率領域生成部14eが生成した正読確率楕円および誤読確率楕円に基づき、1位/2位距離差軸と平行な「境界線α」と、1位候補距離値軸上の所定の切片を通過する「境界線β」との2本の境界線を決定する処理を行う処理部である。
ここで、確率領域生成部14eによって生成される各確率楕円、境界線決定部14fによって決定される各境界線について図4を用いて説明しておく。図4は、確率楕円および境界線を付加したサンプル分布図である。ここで、同図では、正読確率楕円と誤読確率楕円とが交差しない場合を示している。なお、正読確率楕円と誤読確率楕円が交差する場合については、図5等を用いて後述することとする。
図4に示したように、確率領域生成部14eは、正読サンプル(同図の「●」参照)の分布が2次元正規分布であると仮定し、95%の正読サンプルが含まれる正読確率楕円(95%)41aと、90%の正読サンプルが含まれる正読確率楕円(90%)41bとを生成する。また、確率領域生成部14eは、誤読サンプル(同図の「○」参照)の分布が2次元正規分布であると仮定し、95%の誤読サンプルが含まれる誤読確率楕円(95%)42aと、90%の誤読サンプルが含まれる誤読確率楕円(90%)42bとを生成する。
このように、確率領域生成部14eによって各確率楕円が生成されたならば、境界線決定部14fは、正読確率楕円および誤読確率楕円の位置関係に基づいて各境界線(境界線αおよび境界線β)を決定する。ここで、境界線αは、1位/2位距離差軸と平行であり、境界線βは、1位候補距離値軸における所定の切片40を通過する。なお、同図では、正読確率楕円(95%)41aおよび誤読確率楕円(95%)42aに基づいて各境界線を決定する場合について示している。
具体的には、図4に示したように、境界線αを、正読確率楕円(95%)41aからの距離44と、誤読確率楕円(95%)42aからの距離43とが等しい位置に決定する。また、境界線βを、正読確率楕円(95%)41aからの距離46と、誤読確率楕円(95%)42aからの距離45とが等しい位置に決定する。ここで、距離44および距離43に付した矢印の向きは、境界線αと垂直であり、距離46および距離45に付した矢印の向きは、境界線βと垂直である。
なお、切片40については、正読確率楕円の重心を1位候補距離値軸へ射影した位置とすることができるが、切片40を実験値に基づいて変更したり、文字種によって大きな変化がみられなければ、全文字種に対して共通の値を用いることとしたりしてもよい。
このように、境界線αおよび境界線βが決定された場合、正読としてアクセプトされる領域は、同図の斜線領域となる。すなわち、各境界線が決定された後に、スキャナ11経由で取得された文字データが、同図の斜線領域に含まれる場合には、この文字データは、正読としてアクセプトされる。なお、文字データが斜線領域以外の領域に含まれる場合には、該当文字種ではないとしてリジェクトされる。
なお、図4では、確率がそれぞれ等しい正読確率楕円および誤読確率楕円を用いて各境界線を決定する場合について示したが、それぞれ確率が異なる正読確率楕円および誤読確率楕円を用いて各境界線を決定することとしてもよい。
図2の説明に戻り、記憶部15について説明する。記憶部15は、ハードディスクドライブやメモリといった記憶デバイスで構成される記憶部であり、テンプレート情報15aと、サンプル情報15bと、閾値情報15cとを記憶する。
テンプレート情報15aは、文字種ごとに予め用意された文字テンプレートであり、文字認識部14aが、スキャナ11経由の文字データとの各距離値を算出するために用いられる。また、サンプル情報15bは、文字種ごとに区分けされたサンプルデータであり、認識結果登録部14cによって蓄積されていく。
ここで、サンプル情報15bは、1位候補距離値、1位/2位距離差および正読/誤読の別を含んだ情報である。なお、サンプル情報15bに対し、スキャナ11による文字データ(認識画像)を付加することとしてもよい。また、サンプル情報15bに対して文字データ(認識画像)を付加することとした場合、図1の1bや、図4に示したサンプル分布図の「●」や「○」の代わりに、縮小した文字データ(認識画像)を表示することとしてもよい。
閾値情報15cは、境界線決定部14fによって決定された2本の境界線(境界線αおよび境界線β)を、文字種ごとに区分けした情報である。なお、閾値情報15cは、境界線決定部14fによって決定された最新の境界線で、以前に使用していた境界線が更新されていくものとするが、以前の境界線を所定世代に渡って保持しておき、利用者の指示等に応じて最新の境界線と切り替えることとしてもよい。
ところで、これまでは、図4のサンプル分布図に示したように、正読確率楕円と誤読確率楕円とが交点を持たない場合に、2本の境界線(境界線αおよび境界線β)を自動生成する旨を説明してきたが、上記した境界線決定部14fは、正読確率楕円と誤読確率楕円とが交点を持つ場合であっても、2本の境界線(境界線αおよび境界線β)を自動決定することができる(境界線の自動決定)。また、複数の境界線候補をディスプレイ13に表示するなどして、境界線の最終決定を利用者に委ねることもできる(境界線の半自動決定)。
そこで、以下では、正読確率楕円と誤読確率楕円とが交点を持つ場合における境界線の自動決定処理および半自動決定処理について図5〜図10を用いて説明することとする。
図5は、確率楕円が交差する場合のサンプル分布図である。同図に示したようなサンプル分布の場合、正読確率楕円(95%)51aと、誤読確率楕円(95%)52aとが交差する。この場合、図4の場合のように正読確率楕円(95%)51aと、誤読確率楕円(95%)52aとの間に中間点が存在しないので、中間点を通過する境界線αおよび境界線βを得ることができない。
そこで、境界線決定部14fは、境界線αを、正読確率楕円(95%)51a、正読確率楕円(90%)51b、誤読確率楕円(95%)52aおよび誤読確率楕円(90%)52bのうち、いずれか1つの確率楕円の接線となるように決定する。また、境界線βについても、正読確率楕円(95%)51a、正読確率楕円(90%)51b、誤読確率楕円(95%)52aおよび誤読確率楕円(90%)52bのうち、いずれか1つの確率楕円の接線となるように決定する。
すなわち、境界線決定部14fは、境界線αについて4種類、境界線βについて4種類の境界線候補を生成し、これらの組合せ候補(16種類=4種類×4種類)の中から最終的に1つの組合せを選択する。
図6は、境界線の組合せ候補を示す図である。なお、同図における境界線αについて「誤読95%の接線」との記載は、境界線αを、誤読確率楕円(95%)52aの接線とする旨をあらわしている。また、同図における境界線βについて「正読90%の接線」との記載は、境界線βを、正読確率楕円(90%)51bの接線とする旨をあらわしている。
このように、各境界線(境界線αまたは境界線β)について、接線の対象となる確率楕円を4種類とした場合には、組合せ候補は、「A」〜「P」の16種類となる。なお、本実施例では、16種類の組合せ候補の中から最終的に1つの組合せを選択する場合について説明するが、組合せ候補の数を増加させたり減少させたりすることとしてもよい。また、以下の説明では、図6に示した「A」を「組合せ候補A」のように記載することとする。
次に、境界線の半自動決定処理を行う場合について、図7および図8を用いて説明する。図7は、境界線の組合せ例および各組合せにおける正読リジェクト率および誤読リジェクト率を示す図であり、図8は、組合せに対応する境界線を示す図である。なお、図7の(A)には、境界線決定部14fによってディスプレイ13に表示される「組合せ選択画面」を、図7の(B)には、同じく「リジェクト率表示画面」を、それぞれ示している。また、図8には、同じく「境界線表示画面」を示している。
図7の(A)に示したように、境界線決定部14fは、境界線の半自動決定処理を行う場合、組合せ候補A〜組合せ候補Pが選択ボタン等の形式で含まれた組合せ選択画面を表示し、どの組合せ候補を使用するかを利用者に選択させる。なお、同図には、利用者によって組合せ候補A、組合せ候補Kおよび組合せ候補Nが選択された場合を示している。
このようにして、利用者によって任意の組合せ候補が選択されると、境界線決定部14fは、図7の(B)に示した境界線表示画面を表示する。同図に示したように、境界線表示画面には、すべての組合せ候補についての正読リジェクト率および誤読リジェクト率がグラフ形式で表示される。また、組合せ選択画面において選択された各組合せ候補(同図では、左から組合せ候補N、組合せ候補Kおよび組合せ候補A)については、強調表示(同図の破線矩形参照)されるとともに、詳細な誤読リジェクト率および正読リジェクト率が表示される。
このように、複数の組合せ候補について、詳細な誤読リジェクト率および正読リジェクト率を表示することで、利用者は、複数の組合せ候補について、誤読リジェクト率や正読リジェクト率を比較しつつ、所望する組合せ候補を絞り込むことができる。そして、利用者が最終的に1つの組合せ候補を選択することで、境界線αおよび境界線βが決定されることになる。
たとえば、利用者が最終的に選択した組合せ候補が組合せ候補Nであった場合には、境界線αは、正読確率楕円(95%)51aの接線となり、境界線βは、誤読確率楕円(90%)52bの接線となる。
また、境界線決定部14fは、利用者による最終選択を補助するために、図8に示した境界線表示画面を表示する。なお、図8における「(N)」、「(K)」および「(A)」は、図7に示した組合せ候補N、組合せ候補Kおよび組合せ候補Aに、それぞれ対応している。また、図8に示した各確率楕円は、図5に示した各確率楕円と同一であるものとする。
ここで、境界線表示画面には、利用者によって選択された組合せ候補すべてについて、実際の境界線がどのように決定されるかが表示される。同図に示した場合には、組合せ候補N、組合せ候補Kおよび組合せ候補Aについて、境界線がそれぞれ表示される。
たとえば、図8の(N)には、組合せ候補Nが選択された場合の、境界線α(同図の境界線αN参照)および境界線β(同図の境界線βN参照)が表示される。ここで、境界線αNは、正読確率楕円(95%)51aの接線となり、境界線βNは、誤読確率楕円(90%)52bの接線となる(図7の(A)における組合せ候補N参照)。
また、図8の(K)には、組合せ候補Kが選択された場合の、境界線α(同図の境界線αK参照)および境界線β(同図の境界線βK参照)が表示される。ここで、境界線αKは、正読確率楕円(90%)51bの接線となり、境界線βKについても、正読確率楕円(90%)51bの接線となる(図7の(A)における組合せ候補K参照)。
また、図8の(A)には、組合せ候補Aが選択された場合の、境界線α(同図の境界線αA参照)および境界線β(同図の境界線βA参照)が表示される。ここで、境界線αAは、誤読確率楕円(95%)52aの接線となり、境界線βAについても、誤読確率楕円(95%)52aの接線となる(図7の(A)における組合せ候補A参照)。
このように、利用者によって選択された組合せ候補のそれぞれについて、実際の境界線がどのように引かれるのかを示すことで、利用者による最終選択をより行いやすくすることができる。なお、図8では、図5に示した正読サンプル(●)および誤読サンプル(○)の表示を省略した場合について示しているが、これらのサンプルを併せて表示することとしてもよい。
ところで、図7および図8では、正読確率楕円と誤読確率楕円とが交点を持つ場合に、最終的な組合せ候補の選択を利用者に委ねる半自動決定処理について示した。しかしながら、これに限らず、正読確率楕円と誤読確率楕円とが交点を持たない場合であっても、かかる半自動決定処理を行うこととしてもよい。
次に、かかる半自動決定処理を自動的に行う自動決定処理について図9および図10を用いて説明する。図9は、優先度を付加した組合せ候補を示す図である。なお、図9の(A)および(B)には、図6に示した各組合せ候補(組合せ候補A〜組合せ候補P)に対して異なる優先度を付加した場合を示している。
図9の(A)に示した場合では、各組合せ候補を、4つずつ4個のグループにグループ分けし、各グループ内において同図に示した破線矢印の順序で優先順位を付している。また、各グループについては、同図に示した実線矢印の順序で優先順位を付している。たとえば、同図に示した「E(3)」は、組合せ候補Eの優先順位が3であることをあらわしており、同図に示した「L(14)」は、組合せ候補Lの優先順位が14であることをあらわしている。
ここで、優先順位は、誤読の低減を優先する場合には、数値が小さいほど順位が高くなり、正読の向上を優先する場合には、数値が大きいほど順位が高くなる。たとえば、組合せ候補M(優先順位は11)および組合せ候補O(優先順位は15)のうちどちらかを選択すると仮定すると、誤読の低減を優先する場合には、組合せ候補Mが選択され、正読の向上を優先する場合には、組合せ候補Oが選択されることになる。
また、図9の(B)には、グループ内における組合せ候補の優先順位を示す破線矢印の向きおよびグループ間における優先順位を示す実線矢印の向きが、図9の(A)とは異なる場合について示している。たとえば、同図に示した「E(2)」は、組合せ候補Eの優先順位が2であることをあらわしており、同図に示した「L(15)」は、組合せ候補Lの優先順位が15であることをあらわしている。
なお、図9の(A)に示した優先順位は、境界線βよりも境界線αを優先しているが、これは、境界線αが、文字認識において誤読を低減するために最も一般的な1位候補距離値についての境界線であるためである。しかし、図9の(B)に示したように、境界線αよりも境界線βを優先した優先順位とすることとしてもよい。
このように、各組合せ候補に対して予め優先順位をつけておくことで、たとえば、所定の条件を満たす組合せ候補が複数ある場合であっても、自動的に1つの組合せ候補に絞り込むことが可能となる。
図10は、組合せ候補の絞り込み例を示す図である。なお、同図では、組合せ候補を絞り込む条件として、誤読リジェクト率の許容下限値および正読リジェクト率の許容上限値を用いた場合について示している。ここで、誤読リジェクト率の許容下限値とは、許容されるべき誤読リジェクト率の最小値を指し、正読リジェクト率の許容上限値とは、許容されるべき正読リジェクト率の最大値を指す。なお、同図では、誤読リジェクト率の許容下限値を98%とし、正読リジェクト率の許容上限値を4%とした場合について示している。
境界線決定部14fは、各組合せ候補の誤読リジェクト率および正読リジェクト率が、図10に示したグラフとしてあらわされる場合に、各組合せ候補のうち、誤読リジェクト率が許容下限値(同図では98%)以上である組合せ候補を抽出する(同図では13個の組合せ候補が抽出されている)。また、正読リジェクト率が許容上限値(同図では4%)である組合せ候補を抽出する(同図では4個の組合せ候補が抽出されている)。
つづいて、誤読リジェクト率が許容下限値以上であり、かつ、正読リジェクト率が許容上限値以下である組合せ候補を抽出する(同図では組合せ候補Mおよび組合せ候補Oが抽出されている)。このようにして、複数の候補が抽出された場合には、図9の(A)または(B)に示した優先順位に従って1つの組合せ候補に絞り込む。
次に、境界線決定部14fによって行われる境界線決定の例外処理について図11を用いて説明する。図11は、境界線決定の例外処理の概要を示す図である。
図11の(E−1)に示したのは、正読確率楕円111が、1位候補距離値軸と交差し、境界線βを正読確率楕円111の接線とすると傾きが負になる場合である。この場合、境界線決定部14fは、境界線βが1位候補距離値軸と一致するように決定する。なお、境界線αについては、正読確率楕円111と誤読確率楕円112との中間点を通過するように決定する。
また、図11の(E−2)に示したのは、確率楕円は交差しないが、境界線βについては、通過させるべき中間点が存在しない場合である。この場合、境界線決定部14fは、境界線βについては、正読確率楕円114および誤読確率楕円115のうち、いずれかの確率の確率楕円の接線となるように決定する。
また、図11の(E−3)に示したのは、確率楕円は交差しないが、境界線αについては、通過させるべき中間点が存在しない場合である。この場合、境界線決定部14fは、境界線αについては、正読確率楕円117および誤読確率楕円118のうち、いずれかの確率の確率楕円の接線となるように決定する。
次に、文字認識装置10が実行する処理手順について図12を用いて説明する。図12は、文字認識装置10が実行する処理手順を示すフローチャートである。同図に示すように、文字認識部14aは、スキャナ11から受け取った画像から文字画像を切り出し(ステップS101)、最初の文字画像をセットする(ステップS102)。
つづいて、文字認識部14aは、閾値情報15cを用いた文字認識を行い(ステップS103)、認識結果確定部14bは、認識結果の確定を行う(ステップS104)。そして、認識結果登録部14cは、確定された認識結果をサンプル情報15bとして登録する(ステップS105)。
また、閾値変更判定部14dは、閾値変更の条件が成立したか否かを判定し(ステップS106)、閾値変更の条件が成立した場合には(ステップS106,Yes)、境界線決定部14fは、確率領域生成部14eが生成した確率領域(たとえば、確率楕円)に基づく閾値変更処理を実行する(ステップS107)。
なお、ステップS106の判定条件を満たさなかった場合には(ステップS106,No)、ステップS107の処理を行うことなく、ステップS108へと進む。また、ステップS107の詳細な処理手順については、図13を用いて後述する。
つづいて、文字認識部14aは、次の文字画像があるか否かを判定し(ステップS108)、次の文字画像がある場合には(ステップS108,Yes)、次の文字画像をセットしたうえで(ステップS109)、ステップS103以降の処理を繰り返す。一方、ステップS108の判定条件を満たさなかった場合には(ステップS108,No)、処理を終了する。
次に、図12のステップS107に示した閾値変更処理の詳細な処理手順について図13を用いて説明する。図13は、閾値変更処理の処理手順を示すフローチャートである。なお、同図には、境界線を自動決定する場合について示している。
同図に示すように、確率領域生成部14eは、正読確率楕円(90%)、正読確率楕円(95%)、誤読確率楕円(90%)および誤読確率楕円(95%)を生成する(ステップS201)。
つづいて、境界線決定部14fは、境界線αおよび境界線βともに95%確率楕円間の中間点を通過するように引けるか否かを判定し(ステップS202)、境界線αおよび境界線βともに95%確率楕円間の中間点を通過するように引ける場合には(ステップS202Yes)、95%確率楕円間の中間点を通過するように境界線αおよび境界線βを決定し(ステップS210)、処理を終了する。
一方、ステップS202の判定条件を満たさなかった場合には(ステップS202,No)、境界線αの候補(4種類)および境界線βの候補(4種類)の各組合せ(16種類)について各リジェクト率(正読リジェクト率および誤読リジェクト率)を算出する(ステップS203)。なお、境界線αまたは境界線βの一方を95%確率楕円間の中間点を通過するように引ける場合には、かかる中間点を通過する境界線のみを決定しておく。
つづいて、境界線決定部14fは、正読リジェクト率が許容上限値以下、かつ、誤読リジェクト率が許容下限値以上の組合せを抽出する(ステップS204)。そして、抽出された候補が0個であるか否かを判定し(ステップS205)、候補が0個である場合には(ステップS205,Yes)、許容上限値あるいは許容下限値のうち一方あるいは双方を変更することによって許容値のレベルを変更したうえで(ステップS206)、ステップS204以降の処理を繰り返す。
一方、ステップS205の判定条件を満たさなかった場合には(ステップS205,No)、複数の候補があるか否かを判定し(ステップS207)、1つの候補しかない場合には(ステップS207,No)、ステップS209へ進む。
一方、ステップS207の判定条件を満たした場合には(ステップS207,Yes)、複数の候補について最も優先順位が高い組合せを選択する(ステップS208)。つづいて、境界線決定部14fは、選択した組合せに基づいて境界線αおよび境界線βを決定し(ステップS209)、処理を終了する。
上述してきたように、本実施例では、文字認識部が、文字データと文字テンプレートとの違いをあらわす距離値をそれぞれ算出したうえで、距離値が最も小さい文字テンプレートを1位候補とするとともに、距離値が2番目に小さい文字テンプレートを2位候補とした場合に、文字データと1位候補との距離値をあらわす1位候補距離値と、文字データと2位候補との距離値から1位候補距離値を差し引いた距離差とを算出した。また、認識結果登録部が、同一文字種の各文字データについての1位候補距離値および距離差を正読または誤読の別と対応付けてサンプル値として記憶し、確率領域生成部が、記憶されたサンプル値を、1位候補距離値を第1の軸、距離差を第2の軸とする2次元空間に配置したうえで、正読のサンプル値の分布について所定の正読率をあらわす閉領域である正読確率領域と、誤読のサンプル値の分布について所定の誤読率をあらわす閉領域である誤読確率領域とを生成した。そして、境界線決定部が、生成された正読確率領域および誤読確率領域の位置関係に基づいて文字データに対する文字認識結果を正読とするか否かの判定に用いる境界線を決定し、文字認識部が、文字認識結果に対応する1位候補距離値および距離差の組を決定された境界線と対比することで文字認識結果を正読として受け付けるか否かを判定するように文字認識装置を構成した。
したがって、利用者の利用環境に合わせて正読率および誤読率を加味した境界線を用いることで、文字認識に用いる閾値を適切に設定することができるとともに、文字認識の認識精度を向上させることができる。
以上のように、本発明に係る文字認識方法および文字認識装置は、文字認識精度を向上させたい場合に有用であり、特に、利用者の利用環境ごとに異なる文字種、サイズあるいはフォントの出現頻度に応じ、きめ細かい閾値設定を利用者側に提供したい場合に適している。
10 文字認識装置
11 スキャナ
12 キーボード
13 ディスプレイ
14 制御部
14a 文字認識部
14b 認識結果確定部
14c 認識結果登録部
14d 閾値変更判定部
14e 確率領域生成部
14f 境界線決定部
15 記憶部
15a テンプレート情報
15b サンプル情報
15c 閾値情報

Claims (9)

  1. 光学的に読み取った文字データを各文字に対応した文字テンプレートとそれぞれ対比することで文字認識を行う文字認識方法であって、
    前記文字データと前記文字テンプレートとの違いをあらわす距離値をそれぞれ算出したうえで、前記距離値が最も小さい前記文字テンプレートを1位候補とするとともに、前記距離値が2番目に小さい前記文字テンプレートを2位候補とした場合に、前記文字データと前記1位候補との前記距離値をあらわす1位候補距離値と、前記文字データと前記2位候補との前記距離値から前記1位候補距離値を差し引いた距離差とを算出する距離算出工程と、
    同一文字種の各文字データについての前記1位候補距離値および前記距離差を正読または誤読の別と対応付けてサンプル値として記憶するサンプル値記憶工程と、
    前記サンプル値記憶工程によって記憶された前記サンプル値を、前記1位候補距離値を第1の軸、前記距離差を第2の軸とする2次元空間に配置したうえで、正読のサンプル値の分布について所定の正読率をあらわす形状が楕円である正読確率楕円からなる閉領域の正読確率領域と、誤読のサンプル値の分布について所定の誤読率をあらわす形状が楕円である誤読確率楕円からなる閉領域の誤読確率領域とを生成する確率領域生成工程と、
    前記確率領域生成工程によって生成された前記正読確率領域および前記誤読確率領域の位置関係に基づいて前記文字データに対する文字認識結果を正読とするか否かの判定に用いる境界線を決定する境界線決定工程と、
    前記文字認識結果に対応する前記1位候補距離値および前記距離差の組を前記境界線決定工程で決定された前記境界線と対比することで当該文字認識結果を正読として受け付けるか否かを判定する判定工程と
    を含み、
    前記境界線決定工程は、
    前記正読確率楕円と前記誤読確率楕円との中間点を通過するとともに前記第2の軸と平行な直線である第1の境界線と、前記中間点および前記正読確率楕円の重心を前記第1の軸へ射影した点を通過する直線である第2の境界線とを決定し、
    前記判定工程は、
    前記第1の境界線以下であり、かつ、前記第2の境界線以上である前記2次元空間に含まれる前記文字認識結果を正読として受け付けると判定する
    とを特徴とする文字認識方法。
  2. 前記境界線決定工程は、
    前記正読確率楕円と前記誤読確率楕円とが交差して前記中間点が存在しない場合に、前記中間点を通過する代わりに前記正読確率楕円または前記誤読確率楕円に接するように前記第1の境界線および前記第2の境界線を決定することを特徴とする請求項に記載の文字認識方法。
  3. 前記確率領域生成工程は、
    複数の前記正読率について前記正読確率楕円をそれぞれ生成するとともに、複数の前記誤読率について前記誤読確率楕円をそれぞれ生成し、
    前記境界線決定工程は、
    複数の前記正読確率楕円のうち1つと複数の前記誤読確率楕円のうち1つとを用いて前記境界線を決定することを特徴とする請求項1または2に記載の文字認識方法。
  4. 前記正読確率楕円と前記誤読確率楕円とが交差して前記中間点が存在しない場合に、前記第1の境界線および前記第2の境界線について、前記中間点を通過させる代わりに複数の前記正読確率楕円または複数の前記誤読確率楕円のうちいずれの接線とするかを利用者に選択させる選択工程と、
    前記選択工程における選択によって決定された前記第1の境界線および前記第2の境界線と前記サンプル値の分布とを含んだ分布図と、当該分布図における前記第1の境界線および前記第2の境界線によって正読であるにも関わらずリジェクトされた前記サンプル値の割合をあらわす正読リジェクト率および/または誤読を誤読として正当にリジェクトされた前記サンプル値の割合をあらわす誤読リジェクト率を示すリジェクト率グラフとを表示する表示工程と
    をさらに含んだことを特徴とする請求項に記載の文字認識方法。
  5. 前記境界線決定工程は、
    前記第1の境界線を複数の前記正読確率楕円または複数の前記誤読確率楕円のうちいずれの接線とするかをあらわす第1の接線候補と、前記第2の境界線を複数の前記正読確率楕円または複数の前記誤読確率楕円のうちいずれの接線とするかをあらわす第2の接線候補との各組合せについて、前記正読リジェクト率が所定の許容上限値以下であり、かつ、前記誤読リジェクト率が所定の許容下限値以上である前記組合せを抽出し、
    前記表示工程は、
    前記境界線決定工程によって抽出された前記組合せを前記リジェクト率グラフに含めて表示することを特徴とする請求項に記載の文字認識方法。
  6. 前記境界線決定工程は、
    複数の前記組合せが抽出された場合に、前記各組合せについて予め定められた優先度に基づいて1つの前記組合せを決定し、当該組合せに対応する前記第1の境界線および前記第2の境界線を決定することを特徴とする請求項に記載の文字認識方法。
  7. 前記境界線決定工程は、
    前記サンプル値記憶工程によって記憶された前記サンプル値の個数が所定の基準値を超えるたびに、前記境界線を再決定することを特徴とする請求項1〜6のいずれか一つに記載の文字認識方法。
  8. 前記サンプル値記憶工程は、前記サンプル値に対して、正しい読みや、スキャナによる文字データを追加して記憶することを特徴とする請求項1〜7のいずれか一つに記載の文字認識方法。
  9. 光学的に読み取った文字データを各文字に対応した文字テンプレートとそれぞれ対比することで文字認識を行う文字認識装置であって、
    前記文字データと前記文字テンプレートとの違いをあらわす距離値をそれぞれ算出したうえで、前記距離値が最も小さい前記文字テンプレートを1位候補とするとともに、前記距離値が2番目に小さい前記文字テンプレートを2位候補とした場合に、前記文字データと前記1位候補との前記距離値をあらわす1位候補距離値と、前記文字データと前記2位候補との前記距離値から前記1位候補距離値を差し引いた距離差とを算出する距離算出手段と、
    同一文字種の各文字データについての前記1位候補距離値および前記距離差を正読または誤読の別と対応付けてサンプル値として記憶するサンプル値記憶手段と、
    前記サンプル値記憶手段によって記憶された前記サンプル値を、前記1位候補距離値を第1の軸、前記距離差を第2の軸とする2次元空間に配置したうえで、正読のサンプル値の分布について所定の正読率をあらわす形状が楕円である正読確率楕円からなる閉領域の正読確率領域と、誤読のサンプル値の分布について所定の誤読率をあらわす形状が楕円である誤読確率楕円からなる閉領域の誤読確率領域とを生成する確率領域生成手段と、
    前記確率領域生成手段によって生成された前記正読確率領域および前記誤読確率領域の位置関係に基づいて前記文字データに対する文字認識結果を正読とするか否かの判定に用いる境界線を決定する境界線決定手段と、
    前記文字認識結果に対応する前記1位候補距離値および前記距離差の組を前記境界線決定手段で決定された前記境界線と対比することで当該文字認識結果を正読として受け付けるか否かを判定する判定手段と
    を備え
    前記境界線決定手段は、
    前記正読確率楕円と前記誤読確率楕円との中間点を通過するとともに前記第2の軸と平行な直線である第1の境界線と、前記中間点および前記正読確率楕円の重心を前記第1の軸へ射影した点を通過する直線である第2の境界線とを決定し、
    前記判定手段は、
    前記第1の境界線以下であり、かつ、前記第2の境界線以上である前記2次元空間に含まれる前記文字認識結果を正読として受け付けると判定する
    ことを特徴とする文字認識装置。
JP2009047291A 2009-02-27 2009-02-27 文字認識方法および文字認識装置 Expired - Fee Related JP5344956B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009047291A JP5344956B2 (ja) 2009-02-27 2009-02-27 文字認識方法および文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009047291A JP5344956B2 (ja) 2009-02-27 2009-02-27 文字認識方法および文字認識装置

Publications (2)

Publication Number Publication Date
JP2010204766A JP2010204766A (ja) 2010-09-16
JP5344956B2 true JP5344956B2 (ja) 2013-11-20

Family

ID=42966211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009047291A Expired - Fee Related JP5344956B2 (ja) 2009-02-27 2009-02-27 文字認識方法および文字認識装置

Country Status (1)

Country Link
JP (1) JP5344956B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020136778A1 (ja) * 2018-12-26 2020-07-02 ファーストアカウンティング株式会社 書類分類システム、書類分類装置、書類分類方法、書類分類プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS638884A (ja) * 1986-06-30 1988-01-14 Toshiba Corp 文字読取装置
JPH03188586A (ja) * 1989-12-18 1991-08-16 Nippon Telegr & Teleph Corp <Ntt> パターン認識検定処理方式
JPH09128487A (ja) * 1995-10-27 1997-05-16 Mitsubishi Heavy Ind Ltd パタン認識装置
JPH09153113A (ja) * 1995-11-30 1997-06-10 Toshiba Corp 文字認識方法および文字認識装置

Also Published As

Publication number Publication date
JP2010204766A (ja) 2010-09-16

Similar Documents

Publication Publication Date Title
CN110069767B (zh) 基于电子书的排版方法、电子设备及计算机存储介质
KR101811581B1 (ko) 문서 이미지에서 표 인식을 위한 장치 및 방법
US4903312A (en) Character recognition with variable subdivisions of a character region
US10885325B2 (en) Information processing apparatus, control method, and storage medium
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6078953B2 (ja) 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム
EP0779593A2 (en) Image processing method and apparatus and memory medium
CN111310634B (zh) 证件类型识别模板的生成方法、证件识别方法及装置
WO2013121647A1 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
JP7039882B2 (ja) 画像解析装置及び画像解析プログラム
JP5344956B2 (ja) 文字認識方法および文字認識装置
JP6116531B2 (ja) 画像処理装置
KR20160053544A (ko) 후보 문자의 추출 방법
JP7338159B2 (ja) 情報処理装置及びプログラム
JP4628278B2 (ja) 表認識装置、及びコンピュータプログラム
JP4087191B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2018142066A (ja) 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体
JP2007272769A (ja) 指紋照合装置、指紋照合方法
JP2006023798A (ja) 画像データ処理装置および方法,ならびに画像データ処理プログラム
JP2728086B2 (ja) 文字切り出し方法
JP2010039615A (ja) 文字認識方法及び文字認識装置
JP2009272714A (ja) 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体
JP2001092921A (ja) 文字行領域抽出方法と文字行領域検出に用いられる学習方法
JP2013114678A (ja) 画像判定装置およびプログラム
JP6489041B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130813

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees