JP5125573B2

JP5125573B2 - 領域抽出プログラム、文字認識プログラム、および文字認識装置

Info

Publication number: JP5125573B2
Application number: JP2008030887A
Authority: JP
Inventors: 浩明武部; 克仁藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-02-12
Filing date: 2008-02-12
Publication date: 2013-01-23
Anticipated expiration: 2028-02-12
Also published as: JP2009193159A; US8300942B2; CN101510252A; US20090202152A1; CN101510252B

Description

本発明は、領域抽出プログラム、文字認識プログラム、および文字認識装置に関し、特に、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる領域抽出プログラム、文字認識プログラム、および文字認識装置に関する。

従来、例えば帳票などの書類をスキャナで取り込んで画像データ化し、画像データ中のパターンを文字として認識するＯＣＲ（Optical Character Reader）が広く知られている。このようなＯＣＲにおいては、１文字に対応するパターンとして切り出される領域が誤って区分されたり、区分された各領域内のパターンに対応する文字が正しく認識されなかったりするため、文字認識結果は必ずしも信頼できるとは限らない。特に、画像データの品質が悪い場合や、画像データ中に数字などの類似する文字から構成される単語が含まれる場合には、文字認識の精度が低下する傾向がある。

そこで、例えば特許文献１には、文字認識結果をあらかじめ辞書に登録された単語と照合しながら修正することにより、文字認識の精度を向上する方式が提案されている。具体的には、例えば住所などのように、階層構造を持つ複数の単語から構成される単語列の文字認識結果を辞書に登録された単語と照合する際に、階層間の接続を考慮しながら最も信頼度が高い単語の組み合せが選択され、最終的な認識結果とされる。

また、例えば特許文献２には、文字認識結果における複数の可能性を考慮して検索することが提案されている。具体的には、文字列を含むパターンが文字認識された後、文字認識結果の形態素解析が行われ、名詞または未登録語と判定された領域の文字認識が再度実行される。そして、再び得られた文字認識結果が最初の文字認識結果に候補として追加され、これらの複数の候補の中から最終的な認識結果が検索される。

特開平１１−２７２８０４号公報特開２００２−３１２３６５号公報

ところで、一般に、多くの帳票は、例えば日付や金額などのように決まった形式の正規表現で表される情報を含んでいる。これらの情報は、帳票が異なっても形式が同一である一方で、帳票によって数字の桁数などが一定ではないため、文字数は異なっていることがある。したがって、帳票のような書類に対して文字認識を行う場合には、文字数が変動するワイルドカードを含み、かつ正規表現で表される情報を正確に認識することが求められる。

しかしながら、情報の文字数が変動する場合には、形式が一定であっても正確な文字認識を行うことが困難であるという問題がある。すなわち、情報の文字数が変動する場合には、文字の認識の誤りだけでなく、１文字に対応するパターンの区分が誤っている可能性があり、情報が正規表現で表されていても文字認識の精度向上には一定の限界がある。また、上述した特許文献１および特許文献２においては、辞書に登録された単語や文字認識のやり直し結果を認識結果の候補としているが、これらの方法においては、候補数が増大してしまう虞がある。特に、文字認識対象の情報が日付などである場合は、類似した数字が多用されているとともに、認識結果の候補数は膨大になると考えられるため、多くの候補から最終的な認識結果を選択する必要が生じ、結果として、認識精度の向上に一定の限界が生じることになってしまう。

さらに、情報の文字数が変動する場合には、この情報に対応する領域内にノイズが含まれていても、効率的にノイズを除去することができない。すなわち、文字数が固定されていれば、比較的効率良く文字列パターンの両端にあるノイズを除外して文字認識を行うことができるが、文字数が変動する場合には、文字列パターンの両端にある汚れなどがノイズであるか文字であるかの判別がつきにくい。

本発明はかかる点に鑑みてなされたものであり、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる領域抽出プログラム、文字認識プログラム、および文字認識装置を提供することを目的とする。

上記課題を解決するために、本発明に係る領域抽出プログラムは、コンピュータによって実行される領域抽出プログラムであって、前記コンピュータに、画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップとを実行させるようにした。

このプログラムによれば、正規ラティスおよび文字ラティスの単位領域の組み合わせをノードとしたテーブル上でパスを生成し、正規ラティスまたは文字ラティスと一致する最適パスを決定するため、正規ラティスおよび文字ラティスの双方と矛盾しない単位領域の組み合わせを効率良く決定することができ、正規ラティスに文字数が変動するワイルドカードが含まれている場合でも、正確に単位領域の対応関係を決定することができる。そして、最適パスに対応する文字ラティスの単位領域を抽出するため、抽出された単位領域内のパターンに対して、正規ラティスによって規定されるカテゴリ別の文字認識を実行することができ、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。

また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記生成ステップは、他のノードと新たに連結される新規連結ノードと、既に他のノードと連結済みの先行ノードであって文字ラティスおよび正規ラティスが示す単位領域の接続関係において新規連結ノードに対応する単位領域から所定範囲内にある単位領域の組み合わせの先行ノードとを抽出するノード抽出ステップと、前記ノード抽出ステップにて抽出された先行ノードのうち、さらに先行するノードとの連結数が最も多い先行ノードと新規連結ノードとを連結するノード連結ステップとを含むようにした。

このプログラムによれば、先行ノードのうち連結数が最も大きい先行ノードと新規連結ノードとを連結するため、最終的に最も多くのノードを通過するパスが生成されることになり、正規ラティスおよび文字ラティスの双方と一致する度合いが高いパスを容易に生成することができる。

また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記連結ステップは、連結数が最も多い先行ノードが複数ある場合に、該当する複数の先行ノードのうち、正規ラティスが示す単位領域の接続関係を再現する再現率に基づいてパスに含まれる先行ノードと新規連結ノードとを連結するようにした。

このプログラムによれば、連結数のみから連結するノードを決定することができない場合に、正規ラティスとの一致度が高い先行ノードを優先してノードを連結することができ、最終的に正規ラティスと一致する度合いがより高いパスを容易に生成することができる。

また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記決定ステップは、正規ラティスが示す単位領域の接続関係を再現する再現率に基づいて最適パスを決定するようにした。

このプログラムによれば、再現率が最も大きいパスを最適パスと決定することができ、正規ラティスとの一致度が最も高く、最も確からしい単位領域の対応関係を決定することができる。そして、最適パスに対応する文字ラティスの単位領域を抽出することにより、正規ラティスに対応する情報を含む領域を正確に抽出することができる。

また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記決定ステップは、再現率が最も大きいパスが複数ある場合に、該当する複数のパスのうち、文字ラティスが示す単位領域の接続関係に適合する適合率に基づいて最適パスを決定するようにした。

このプログラムによれば、再現率のみから最適パスを決定することができない場合に、文字ラティスとの一致度が高いパスを最適パスとすることができ、最終的に正規ラティスおよび文字ラティスの双方との一致度が最も高く、より確からしい単位領域の対応関係を決定することができる。

また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記判定ステップは、単位領域の組み合わせそれぞれにおける文字ラティスの単位領域内のパターンに対して、すべての文字を収録した文字別辞書を用いて文字認識を実行した場合の文字認識精度と、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行した場合の文字認識精度との比を示す認識信頼度を算出する算出ステップを含み、前記算出ステップにて算出された認識信頼度が所定の基準を満たす組み合わせが成立する可能性があると判定するようにした。

このプログラムによれば、文字別辞書を用いた場合の文字認識精度とカテゴリ別辞書を用いた場合の文字認識精度とに基づく認識信頼度が所定の基準を満たす組み合わせが成立する可能性があると判定する。このため、正規ラティスの単位領域と文字ラティスの単位領域とが正しく対応している場合には、２つの文字認識精度が等しくなって認識信頼度が１となる一方、正しく対応していない場合には、認識信頼度が１とはならず、確実に単位領域の組み合わせの成立可能性を判定することができる。

また、本発明に係る文字認識プログラムは、コンピュータによって実行される文字認識プログラムであって、前記コンピュータに、画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップとを実行させるようにした。

このプログラムによれば、正規ラティスおよび文字ラティスの単位領域の組み合わせをノードとしたテーブル上でパスを生成し、正規ラティスまたは文字ラティスと一致する最適パスを決定するため、正規ラティスおよび文字ラティスの双方と矛盾しない単位領域の組み合わせを効率良く決定することができ、正規ラティスに文字数が変動するワイルドカードが含まれている場合でも、正確に単位領域の対応関係を決定することができる。そして、最適パスに対応する文字ラティスの単位領域を抽出した上で、抽出された単位領域内のパターンに対して、正規ラティスによって規定されるカテゴリ別の文字認識を実行するため、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。

また、本発明に係る文字認識装置は、画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得手段と、前記取得手段によって取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定手段と、前記判定手段によって成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成手段と、前記生成手段によって生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定手段と、前記決定手段によって決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出手段と、前記抽出手段によって抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識手段とを有する構成を採る。

また、本発明に係る文字認識方法は、画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップとを有するようにした。

これらによれば、正規ラティスおよび文字ラティスの単位領域の組み合わせをノードとしたテーブル上でパスを生成し、正規ラティスまたは文字ラティスと一致する最適パスを決定するため、正規ラティスおよび文字ラティスの双方と矛盾しない単位領域の組み合わせを効率良く決定することができ、正規ラティスに文字数が変動するワイルドカードが含まれている場合でも、正確に単位領域の対応関係を決定することができる。そして、最適パスに対応する文字ラティスの単位領域を抽出した上で、抽出された単位領域内のパターンに対して、正規ラティスによって規定されるカテゴリ別の文字認識を実行するため、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。

本明細書に開示された領域抽出プログラム、文字認識プログラム、および文字認識装置によれば、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。

本発明の骨子は、文字認識の対象となる文字列領域をラティス形式で表した文字ラティスと情報の形式を定義する正規表現をラティス形式で表した正規ラティスとのそれぞれにおける単位領域の組み合わせごとに信頼度を算出し、信頼度が高い組み合わせに対応するノードを連結するパスの中から最適なパスを決定することにより、最適なパスに相当する文字認識の対象領域を抽出することである。以下、本発明の一実施の形態について、図面を参照しながら詳細に説明する。

図１は、本発明の一実施の形態に係る文字認識装置１００の要部構成を示すブロック図である。同図に示す文字認識装置１００は、前処理部１０１、文字別辞書記憶部１０２、正規ラティス記憶部１０３、カテゴリ別辞書記憶部１０４、対象文字列抽出部１０５、文字列領域拡大部１０６、文字ラティス生成部１０７、認識信頼度算出部１０８、パス生成部１０９、最適パス決定部１１０、対象領域抽出部１１１、およびカテゴリ別認識部１１２を有している。

前処理部１０１は、例えば日付などの正規表現で表される情報のパターンを含む帳票画像に対して、文字別辞書記憶部１０２に記憶された文字別辞書を用いた文字認識を実行し、帳票画像全体の文字列パターンが表す文字列を取得する。

文字別辞書記憶部１０２は、帳票画像に含まれ得るすべての文字を収録する文字別辞書を記憶する。すなわち、文字別辞書記憶部１０２は、通常の文字認識の際に、画像中のパターンとの比較に用いられる文字別辞書を記憶する。

正規ラティス記憶部１０３は、帳票内の正規表現を定義する正規ラティスを記憶する。すなわち、正規ラティス記憶部１０３は、正規表現で表される情報における１文字分の単位領域とそれらの接続関係を定義する正規ラティスを記憶する。具体的には、正規ラティス記憶部１０３は、例えば図２に示すように、日付における１文字分の単位領域ｅ１〜ｅ１１とこれらの接続関係を記憶している。以下においては、主として図２に示す正規ラティスを例としながら説明を進める。

図２に示す例では、単位領域ｅ１〜ｅ４がそれぞれ年を示す数字に対応する領域であり、単位領域ｅ５が「年」という文字に対応する領域であり、単位領域ｅ６、ｅ７がそれぞれ月を示す数字に対応する領域であり、単位領域ｅ８が「月」という文字に対応する領域であり、単位領域ｅ９、ｅ１０がそれぞれ日を示す数字に対応する領域であり、単位領域ｅ１１が「日」という文字に対応する領域である。そして、例えば年が西暦で表される場合には、数字が４桁になるため、単位領域ｅ１〜ｅ４のすべてに数字が対応することになるが、年が年号で表される場合には、数字が２桁になるため、単位領域ｅ１、ｅ２にのみ数字が対応することになる。したがって、年が年号で表される場合には、単位領域ｅ２には単位領域ｅ５が接続することになる。同様に、月や日も１桁または２桁の数字であるため、単位領域ｅ６または単位領域ｅ９に単位領域ｅ８または単位領域ｅ１１が直接接続する場合もあるし、単位領域ｅ６、ｅ７または単位領域ｅ９、ｅ１０に単位領域ｅ８または単位領域ｅ１１が接続する場合もある。

カテゴリ別辞書記憶部１０４は、文字別辞書に収録された文字をカテゴリ分けし、カテゴリごとの文字を収録するカテゴリ別辞書を記憶する。すなわち、カテゴリ別辞書記憶部１０４は、例えば数字のカテゴリに属する辞書や日付に用いられる文字のカテゴリに属する辞書など、複数のカテゴリに関してそれぞれカテゴリ別辞書を記憶する。なお、図１においては、文字別辞書記憶部１０２とカテゴリ別辞書記憶部１０４とを別体として設けたが、これらは一体化していても良く、文字別辞書とカテゴリ別辞書として異なる辞書を記憶する代わりに、１つの文字別辞書と複数のカテゴリの定義を記憶するようにしても良い。

対象文字列抽出部１０５は、前処理部１０１による文字認識の結果取得された文字列の中から、正規ラティス記憶部１０３に記憶された正規ラティスと形式が一部でも一致する対象文字列を抽出する。具体的には、対象文字列抽出部１０５は、例えば図３上段に示す文字列パターンから図３下段に示す前処理結果が得られた場合、「９月２４」と認識された文字列２０１が図２に示した正規ラティスの単位領域ｅ６、ｅ８、ｅ９、ｅ１０の接続関係と一致するため、この文字列２０１を抽出する。なお、対象文字列抽出部１０５による対象文字列の抽出には、例えば国際公開第２００７／０８０６４２号パンフレットに記載された技術などを用いることができる。

文字列領域拡大部１０６は、対象文字列抽出部１０５によって抽出された対象文字列に対応するパターンを含む領域を拡大し、正規ラティスが示す情報全体に対応する文字列領域を決定する。具体的には、文字列領域拡大部１０６は、対象文字列に対応するパターンにおいて１文字分のパターンの平均文字サイズと１文字分のパターンの間の平均文字間隔とを算出し、これらの和の領域サイズを単位として対象文字列に対応するパターンを含む領域を拡大する。そして、文字列領域拡大部１０６は、拡大後の領域内に新たな１文字分のパターンが含まれれば、さらに領域を拡大する。その後、文字列領域拡大部１０６は、拡大後の領域内に新たな１文字分のパターンが含まれなくなるまで領域の拡大を続け、最終的に近傍に１文字分のパターンが存在しない文字列領域を得る。

文字ラティス生成部１０７は、文字列領域拡大部１０６によって得られた文字列領域内のパターンに対して、文字別辞書記憶部１０２に記憶された文字別辞書を用いた文字認識を実行し、文字列における１文字分の単位領域とそれらの接続関係を示す文字ラティスを生成する。すなわち、文字ラティス生成部１０７は、文字列領域内のパターンを１文字分の単位領域に区分し、それぞれの単位領域内のパターンを文字認識する。このとき、文字ラティス生成部１０７は、単位領域の区分の仕方に複数の候補があれば、それぞれの候補について単位領域内のパターンを文字認識する。

具体的に例を挙げると、文字ラティス生成部１０７は、例えば図４上段に示す文字列領域内のパターンを単位領域に区分する際、「年」を示すパターンに関しては、全体を１つの単位領域に区分する候補と単位領域２０２、２０３に分けて区分する候補とのそれぞれについて文字認識を実行する。その結果、文字ラティス生成部１０７は、例えば図４中段に示すように、「年」を示すパターンについて、「年」という１文字分の文字認識結果と「午」および「三」という２文字分の文字認識結果とを得ることになる。

そして、文字ラティス生成部１０７は、それぞれの単位領域の区分の候補における単位領域の接続関係を文字ラティスとする。具体的には、文字ラティス生成部１０７は、例えば図４下段に示すように、それぞれの区分の候補における１文字分の単位領域ｒ１〜ｒ１４とこれらの接続関係を文字ラティスとして生成する。すなわち、上述した図４上段に示す文字列領域の例では、「年」を示すパターンが２つの単位領域ｒ５、ｒ６に区分される場合と１つの単位領域ｒ１４に区分される場合とがある。そして、「年」を示すパターンが単位領域ｒ１４として区分される場合には、単位領域ｒ５、ｒ６の代わりに単位領域ｒ１４が単位領域ｒ４、ｒ７と接続されることになる。したがって、文字ラティス生成部１０７は、図４下段に示す文字ラティスを生成することになる。

なお、文字ラティス生成部１０７は、単位領域内の文字認識を実行する際、それぞれの単位領域内のパターンと文字認識結果の文字のパターンとの類似の度合いを示す距離値（例えばマハラノビス距離などの値）を算出しておく。この距離値が小さいほど単位領域内のパターンと文字別辞書に収録された文字のパターンとが類似していることになり、文字認識の精度が高いと言える。

認識信頼度算出部１０８は、文字ラティス生成部１０７によって生成された文字ラティスにおけるすべての単位領域内の文字認識結果について、文字認識の信頼度を示す認識信頼度を算出し、文字ラティスにおける単位領域と正規ラティスにおける単位領域とのすべての組み合わせについて、互いの単位領域が対応する可能性が高いか否かを判断する。

具体的には、認識信頼度算出部１０８は、上述した例における文字ラティスの単位領域ｒ１〜ｒ１４それぞれについて、各単位領域が正規ラティスの単位領域ｅ１〜ｅ１１に対応すると仮定した場合のカテゴリを判別し、判別されたカテゴリに限定してカテゴリ別辞書記憶部１０４に記憶されたカテゴリ別辞書を用いた文字認識を実行する。したがって、例えば文字ラティスの単位領域ｒ１と正規ラティスの単位領域ｅ１とが対応すると仮定した場合、正規ラティスの単位領域ｅ１が数字に対応する領域であるため、認識信頼度算出部１０８は、文字ラティスの単位領域ｒ１のパターンを数字のカテゴリに限定して文字認識する。このとき、認識信頼度算出部１０８は、それぞれの単位領域内のパターンと文字認識結果の文字のパターンとの類似の度合いを示す距離値を算出する。

同様に、例えば文字ラティスの単位領域ｒ１と正規ラティスの単位領域ｅ５とが対応すると仮定した場合、正規ラティスの単位領域ｅ５が「年」という文字に対応する領域であるため、認識信頼度算出部１０８は、文字ラティスの単位領域ｒ１のパターンを「年」と認識し、類似の度合いを示す距離値を算出する。

そして、認識信頼度算出部１０８は、カテゴリ別辞書を用いた場合の距離値に対する文字ラティス生成部１０７によって算出された文字別辞書を用いた場合の距離値の割合から、それぞれの単位領域の組み合わせが成立するか否かを判定する。すなわち、認識信頼度算出部１０８は、文字別辞書を用いた場合の距離値（ｄ_c）をカテゴリ別辞書を用いた場合の距離値（ｄ_l）で除算して認識信頼度（＝ｄ_c／ｄ_l）を算出し、認識信頼度が所定の閾値以上である組み合わせについては、成立する可能性があると判定する。

ここで、文字ラティスにおける単位領域と正規ラティスにおける単位領域との組み合わせが成立していれば、文字別辞書を用いる場合もカテゴリ別辞書を用いる場合も文字認識結果は同一になると考えられるため、それぞれの場合の距離値が等しくなり（ｄ_c＝ｄ_l）、認識信頼度は１となる。一方、文字ラティスにおける単位領域と正規ラティスにおける単位領域との組み合わせが成立していなければ、文字別辞書を用いる場合の方がより類似した文字として認識されると考えられるため、文字別辞書を用いる場合の距離値は、カテゴリ別辞書を用いる場合の距離値以下（ｄ_c≦ｄ_l）となる。結果として、認識信頼度は１以下となり、カテゴリ別辞書を用いる場合の文字認識結果の精度が低いほど（すなわち距離値ｄ_lが大きいほど）認識信頼度も小さくなる。

認識信頼度算出部１０８は、正規ラティスにおける単位領域と文字ラティスにおける単位領域とのすべての組み合わせについて、成立する可能性があるか否かを認識信頼度から判定し、成立する可能性がある組み合わせをそれぞれノードとして明示する対応テーブルを生成して、パス生成部１０９へ出力する。具体的には、認識信頼度算出部１０８は、例えば図５に示すように、単位領域のそれぞれの組み合わせのうち成立する可能性がある組み合わせを黒丸のノードで示した対応テーブルをパス生成部１０９へ出力する。

パス生成部１０９は、認識信頼度算出部１０８によって生成された対応テーブルにおいて、成立する可能性がある単位領域の組み合わせのノードを順次連結するパス生成処理を実行する。具体的には、パス生成部１０９は、例えば図５に示した対応テーブルにおけるノードを条件に従って連結してパスを生成する。ここでの条件とは、新たに連結する新規連結ノードについて、このノードに対応する単位領域に接続する所定数の単位領域を抽出し、抽出された単位領域からなるノードのうち、連結数が最大のノードを新規連結ノードに連結するものである。すなわち、新規連結ノードに対応する正規ラティスの単位領域の近傍の単位領域と、新規連結ノードに対応する文字ラティスの単位領域の近傍の単位領域との組み合わせからなるノードのうち、最も多くのノードを経たノードが新規連結ノードに連結される。

また、連結数が最大のノードが複数ある場合には、それぞれのノードのうち、正規ラティスの接続関係を再現している度合いを示す再現率が最も大きいパスに含まれるノードが新規連結ノードに連結される。なお、パス生成部１０９によるパス生成処理については、後に詳述する。

最適パス決定部１１０は、パス生成部１０９によって対応テーブルのすべてのノードに対するパス生成処理が完了すると、正規ラティスの接続関係を再現している度合いを示す再現率および文字ラティスの接続関係に適合している度合いを示す適合率が最も大きい最適パスを１つ決定する。すなわち、最適パス決定部１１０は、例えば図６に示すように、対応テーブル上での最適パス２０４を選択する。ここで、最適パス２０４は、正規ラティスについては単位領域をｅ１→ｅ２→ｅ３→ｅ４→ｅ５→ｅ６→ｅ８→ｅ９→ｅ１０→ｅ１１と連結しているため、図２に示す正規ラティスにおいて単位領域をｅ１→ｅ２→ｅ３→ｅ４→ｅ５→ｅ６→ｅ８→ｅ９→ｅ１０→ｅ１１と接続する接続関係を完全に再現していることになる。また、最適パス２０４は、文字ラティスについては単位領域をｒ１→ｒ２→ｒ３→ｒ４→ｒ１４→ｒ８→ｒ９→ｒ１０→ｒ１１→ｒ１２と連結しているため、図４下段に示す文字ラティスにおいて単位領域をｒ１→ｒ２→ｒ３→ｒ４→ｒ１４→ｒ７→ｒ８→ｒ９→ｒ１０→ｒ１１→ｒ１２→ｒ１３と接続する接続関係と比較すると、単位領域ｒ７、ｒ１３を除く１０個の単位領域が適合していることになる。

最適パス決定部１１０は、各パスの再現率および適合率によって最適パスを決定するが、このとき、まず再現率が最大のパスを最適パスとして選択し、再現率が最大のパスが複数ある場合には、これらの複数のパスのうち適合率が最大のパスを最適パスとする。

対象領域抽出部１１１は、最適パス決定部１１０によって決定された最適パスに対応する文字ラティスの単位領域をすべて包含する領域を、最終的に文字認識の対象となる対象領域として抽出する。具体的には、対象領域抽出部１１１は、例えば図７上段に示す最適パスが決定された場合、図７中段に示すように、最適パスに対応する文字ラティスの単位領域ｒ１、ｒ２、ｒ３、ｒ４、ｒ１４、ｒ８、ｒ９、ｒ１０、ｒ１１、ｒ１２を選択し、図７下段に示すように、選択された単位領域を含む最小限の対象領域を抽出する。したがって、対象領域抽出部１１１は、図７下段において、ノイズパターン２０５を除外した対象領域を抽出することになる。

以上の文字ラティス生成部１０７から対象領域抽出部１１１は、本実施の形態に係る文字認識装置１００内において、帳票画像中の文字列領域から実際の文字認識の対象となる領域を抽出する領域抽出部を形成している。

カテゴリ別認識部１１２は、対象領域抽出部１１１によって抽出された対象領域内のパターンに対して、カテゴリ別辞書記憶部１０４に記憶されたカテゴリ別辞書を用いた文字認識を実行し、認識結果を出力する。すなわち、カテゴリ別認識部１１２は、対象領域内のパターンが示す情報のカテゴリに応じたカテゴリ別辞書を用いて、カテゴリを限定した文字認識を実行する。

次いで、上記のように構成された文字認識装置１００の動作について、図８に示すフロー図を参照しながら説明する。以下の説明においては、必要に応じて図２〜７に示した具体例を適宜参照する。

まず、文字認識装置１００に帳票画像が入力されると、前処理部１０１によって、帳票画像全体の文字認識が実行される（ステップＳ１０１）。この前処理の結果、図３下段に示すような文字を含む文字認識結果が得られ、対象文字列抽出部１０５によって、前処理による文字認識結果から正規ラティスと一部分が一致する対象文字列が抽出される（ステップＳ１０２）。ここでは、「９月２４」という対象文字列２０１が図２に示す正規ラティスの単位領域ｅ６、ｅ８、ｅ９、ｅ１０の接続関係と一致するため、この対象文字列２０１が抽出される。

そして、文字列領域拡大部１０６によって、対象文字列２０１に対応する帳票画像上の領域が図４上段に示すひとまとまりの情報全体を含む文字列領域にまで拡大される（ステップＳ１０３）。すなわち、対象文字列２０１に対応する帳票画像上の領域を１文字分のパターンが占有する面積を単位として拡大していき、対象文字列２０１の近傍にあるパターンをすべて含む文字列領域が文字列領域拡大部１０６によって取得される。ここでは、文字列領域内にひとまとまりの情報として年月日を示すパターンが含まれている。また、図４上段に示すように、文字列領域内に年月日以外のノイズパターンが含まれている。

ひとまとまりの情報を含む文字列領域が取得されると、文字ラティス生成部１０７によって、文字列領域内のパターンに対してカテゴリを限定しない文字認識が実行される（ステップＳ１０４）。すなわち、文字ラティス生成部１０７によって、文字列領域が１文字分に相当するパターンを含む単位領域に区分され、それぞれの単位領域内のパターンが文字別辞書記憶部１０２によって記憶された文字別辞書を用いて文字認識される。このとき、単位領域の区分の仕方に複数の候補があれば、文字ラティス生成部１０７によって、それぞれの区分の仕方で文字認識が実行され、図４中段に示すように、文字認識結果に関しても複数の候補が得られることになる。

そして、文字ラティス生成部１０７によって、文字認識結果のすべての候補における単位領域の接続関係を示す文字ラティスが生成される（ステップＳ１０５）。すなわち、文字ラティス生成部１０７によって、図４下段に示すように、区分された単位領域ｒ１〜ｒ１４の各候補における接続関係を示す文字ラティスが生成される。同時に、各単位領域ｒ１〜ｒ１４における文字認識結果と文字別辞書に収録された文字との類似度合いを示す距離値が算出される。以降は、正規ラティスと文字ラティスとを比較し、それぞれのラティスにおける単位領域を１対１に対応させた場合に、いずれのラティスの接続関係とも矛盾しない単位領域の組み合わせを見つけ出すことになる。

すなわち、認識信頼度算出部１０８によって、文字ラティスの各単位領域における文字認識の結果から認識信頼度が算出され、認識信頼度に基づいて成立する可能性がある単位領域の組み合わせが選択され、選択された組み合わせをノードとして明示する対応テーブル生成処理が実行される（ステップＳ１０６）。この対応テーブルでは、図５に示すように、正規ラティスの単位領域と文字ラティスの単位領域とのそれぞれの組み合わせのうち、成立する可能性がある組み合わせに対応付けて黒丸のノードが記録されている。なお、認識信頼度算出部１０８による対応テーブル生成処理については、後に詳述する。

そして、パス生成部１０９によって、対応テーブルにおけるノードを連結するパス生成処理が実行される（ステップＳ１０７）。このパス生成処理は、対応テーブルの端のノードから開始され、先行するノードのうちどのノードと連結するかが決定されることにより行われる。このノードの連結は、正規ラティスおよび文字ラティスにおける単位領域の接続関係がより忠実に再現されるようにして行われる。なお、パス生成部１０９によるパス生成処理については、後に詳述する。

対応テーブルにおけるすべてのノードに関するパス生成処理が完了すると、最適パス決定部１１０によって、対応テーブルにおいて生成された複数のパスから最適なパスが決定される（ステップＳ１０８）。すなわち、最適パス決定部１１０によって、正規ラティスおよび文字ラティスの双方に一致している度合いが最も高い最適パスが決定される。具体的には、最適パス決定部１１０によって、各パスが示す単位領域の接続関係が正規ラティスにおける単位領域の接続関係を再現している割合を示す再現率が最大のパスが最適パスとして選択される。そして、再現率が最大のパスが複数ある場合には、最適パス決定部１１０によって、これらの複数のパスが示す単位領域の接続関係が文字ラティスにおける単位領域の接続関係に適合している割合を示す適合率が最大のパスが最適パスとして選択される。

対応テーブルにおいて最適パスが決定されると、対象領域抽出部１１１によって、最適パスに対応する文字ラティスの単位領域をすべて包含する対象領域が抽出される（ステップＳ１０９）。すなわち、例えば図７上段に示す最適パスが決定された場合、対象領域抽出部１１１によって、図７中段に示すように、文字ラティスの単位領域ｒ１、ｒ２、ｒ３、ｒ４、ｒ１４、ｒ８、ｒ９、ｒ１０、ｒ１１、ｒ１２が選択され、図７下段に示すように、選択された単位領域を含む最小の領域が対象領域として抽出される。

そして、カテゴリ別認識部１１２によって、対象領域内のパターンに対する年月日のカテゴリ別辞書を用いた文字認識が実行される（ステップＳ１１０）。このとき、図７下段に示す対象領域においては、図４上段に示す文字列領域には含まれていたノイズパターン２０５が除外されているため、文字認識の精度を向上することができる。また、対応テーブルにおける最適パスから対象領域を抽出しているため、対象領域内には正規ラティスで表現される情報が含まれている可能性が高く、この対象領域内のパターンに対して正規ラティスに対応するカテゴリ別辞書を用いた文字認識を実行することにより、さらに文字認識の精度を向上することができる。

次に、本実施の形態に係る対応テーブル生成処理について、図９に示すフロー図を参照しながら説明する。

文字ラティス生成部１０７によって文字ラティスが生成され、文字ラティスの各単位領域内における文字認識結果と文字別辞書における文字との距離値が算出されると、認識信頼度算出部１０８によって、各単位領域内のパターンに対してカテゴリ別辞書を用いた文字認識が実行される（ステップＳ２０１）。ここでは、正規ラティスに対応するカテゴリのカテゴリ別辞書が用いられ、各単位領域内のパターンが例えば数字に限定されて文字認識されたり「年月日」の文字に限定されて文字認識されたりする。同時に、各単位領域におけるカテゴリ別の文字認識結果とカテゴリ別辞書に収録された文字との類似度合いを示す距離値が算出される。

そして、認識信頼度算出部１０８によって、正規ラティスの単位領域と文字ラティスの単位領域との組み合わせが１つ選択される（ステップＳ２０２）。ここでは、例えば単位領域ｅ１と単位領域ｒ１の組み合わせが選択されたものとする。単位領域の組み合わせが選択されると、この組み合わせに関する認識信頼度が認識信頼度算出部１０８によって算出される（ステップＳ２０３）。具体的には、文字別辞書を用いた場合の文字認識の距離値が単位領域ｅ１に対応するカテゴリ別辞書を用いた場合の文字認識の距離値で除算されて認識信頼度が算出される。

続いて、認識信頼度が所定の閾値以上であるか否かが判定され（ステップＳ２０４）、認識信頼度が所定の閾値以上であれば対応テーブル上でパスを構成する組み合わせであると判断され（ステップＳ２０５）、認識信頼度が所定の閾値未満であれば対応テーブル上でパスを構成しない組み合わせであると判断される（ステップＳ２０６）。ここで、単位領域ｅ１と単位領域ｒ１との組み合わせがパスを構成する組み合わせと判断されれば、この組み合わせは対応テーブル上のノードとなる。以下、対応テーブル上のノードを表記する際、単位領域の組み合わせを用いて（ｅ１，ｒ１）のように座標形式で表記する。

単位領域ｅ１と単位領域ｒ１との組み合わせについて、認識信頼度を用いたノードとなるか否かの判定が完了すると、すべての単位領域の組み合わせについて判定が完了したか否かが判断される（ステップＳ２０７）。ここでは、単位領域ｅ１と単位領域ｒ１との組み合わせについてのみ判定が完了しているため、すべての組み合わせについて判定が完了してはおらず（ステップＳ２０７Ｎｏ）、改めて他の単位領域の組み合わせ（例えば単位領域ｅ１と単位領域ｒ２との組み合わせ）が選択される（ステップＳ２０２）。そして、上記と同様に単位領域の組み合わせがノードとなるか否か判定が繰り返され、すべての単位領域の組み合わせについて判定が完了すると（ステップＳ２０７Ｙｅｓ）、成立する可能性がある組み合わせがノードとして明示された対応テーブルが完成する（図５参照）。

次に、本実施の形態に係るパス生成処理について、図１０に示すフロー図を参照しながら説明する。以下においては、図５に示す対応テーブルが生成されているものとして、具体的に例を挙げながら説明を進める。

認識信頼度算出部１０８によって対応テーブルが生成されると、パス生成部１０９によって、対応テーブルの端のノードが１つ選択される（ステップＳ３０１）。ここでは、まず（ｅ１，ｒ１）が選択されることになる。そして、（ｅ１，ｒ１）に先行するノードがあるか否かが判断されるが（ステップＳ３０２）、単位領域ｅ１および単位領域ｒ１より前に接続する単位領域はないため、ここでは先行ノードがないことになり（ステップＳ３０２Ｎｏ）、次のノードが選択される（ステップＳ３０１）。ここでは、（ｅ２，ｒ１）が選択される。しかし、単位領域ｒ１より前に接続する単位領域がないため、ここでも先行ノードがないことになり（ステップＳ３０２Ｎｏ）、（ｅ３，ｒ１）が選択される。以下、同様にして先行ノードがあるノードに到達するまで先行ノードの有無が判断される。

そして、（ｅ２，ｒ２）が選択されると、単位領域ｅ２より前には単位領域ｅ１が接続され、単位領域ｒ２より前には単位領域ｒ１が接続されているため、先行ノードがあることになり（ステップＳ３０２Ｙｅｓ）、それぞれの単位領域の前に接続される所定数の単位領域に対応する先行ノードが抽出される（ステップＳ３０３）。ここでは、それぞれの単位領域の前に接続される２つまでの単位領域に対応する先行ノードが抽出されるものとすると、単位領域ｅ２より前の単位領域ｅ１と単位領域ｒ２より前の単位領域ｒ１とに対応する（ｅ１，ｒ１）が抽出される。

先行ノードが抽出されると、抽出された先行ノードのうちの１つのノードと現在選択されているノードとが連結されるが（ステップＳ３０４）、ここでは、先行ノードとして（ｅ１，ｒ１）のみが抽出されているため、（ｅ１，ｒ１）と（ｅ２，ｒ２）が連結される。

その後、すべてのノードが選択されてノードの連結が完了したか否かが判断され（ステップＳ３０５）、まだ選択されていないノードがあれば（ステップＳ３０５Ｎｏ）、未選択のノードが新たに選択される（ステップＳ３０１）。そして、すべてのノードが選択されると（ステップＳ３０５Ｙｅｓ）、連結可能なノードはすべて連結されたことになり、パス生成処理が完了する。

ここで、先行ノードが抽出された場合のノード連結について、さらに具体例を挙げながら説明する。

上述したノードの連結が繰り返され、図１１に白丸で示した（ｅ４，ｒ４）が選択されているとき、単位領域ｅ４より前の単位領域ｅ２、ｅ３と単位領域ｒ４より前の単位領域ｒ２、ｒ３とに対応する４個の先行ノード（ｅ２，ｒ２）、（ｅ２，ｒ３）、（ｅ３，ｒ２）、（ｅ３，ｒ３）が抽出される。これらの先行ノードは、図１１において破線で囲まれている。

このような場合、（ｅ４，ｒ４）は、先行ノードのうち連結数が最も多いノードと連結される。すなわち、（ｅ２，ｒ２）、（ｅ２，ｒ３）、（ｅ３，ｒ２）は、それぞれ先行する１つのノードと連結しているのに対し、（ｅ３，ｒ３）は、先行する２つのノードと連結しているため、（ｅ４，ｒ４）は、（ｅ３，ｒ３）と連結される。

また、図１２に白丸で示した（ｅ６，ｒ８）が選択されているとき、単位領域ｅ６より前には単位領域ｅ４、ｅ５が接続されていると見ることができるとともに、単位領域ｅ２、ｅ５が接続されていると見ることもできる（図２参照）。同様に単位領域ｒ８より前には単位領域ｒ６、ｒ７が接続されていると見ることができるとともに、単位領域ｒ１４、ｒ７が接続されていると見ることもできる（図４下段参照）。したがって、（ｅ６，ｒ８）が選択されている際には、図１２において破線で囲まれた範囲のノードが先行ノードとして抽出されることになる。

ここでは、図１２において破線で囲まれた範囲に１つの先行ノード（ｅ５，ｒ１４）のみしか存在しないため、（ｅ６，ｒ８）は、（ｅ５，ｒ１４）と連結される。

さらに、図１３に白丸で示した（ｅ８，ｒ９）が選択されているとき、単位領域ｅ８より前には単位領域ｅ６、ｅ７が接続されていると見ることができるとともに、単位領域ｅ５、ｅ６が接続されていると見ることもできる（図２参照）。また、単位領域ｒ９より前には単位領域ｒ７、ｒ８が接続されている。したがって、（ｅ８，ｒ９）が選択されている際には、図１３において破線で囲まれた範囲のノードが先行ノードとして抽出されることになる。

ここでは、２個の先行ノード（ｅ６，ｒ８）および（ｅ７，ｒ８）が抽出されるとともに、これらの先行ノードの連結数は等しい。このような場合は、それぞれの先行ノードに到達するパスの再現率が大きい先行ノードが（ｅ８，ｅ９）に連結される。すなわち、（ｅ６，ｒ８）に到達するパスについては、ｅ１→ｅ２→ｅ３→ｅ４→ｅ５→ｅ６と単位領域を接続しており、正規ラティスにおける単位領域ｅ１〜ｅ６までの接続関係を完全に再現している。一方、（ｅ７，ｒ８）に到達するパスについては、ｅ１→ｅ２→ｅ３→ｅ４→ｅ５→ｅ７と単位領域を接続しており、単位領域ｅ６が接続されていない分、正規ラティスにおける単位領域ｅ１〜ｅ７までの接続関係の再現率が小さい。したがって、ここでは、（ｅ８，ｒ９）は、再現率が大きい（ｅ６，ｒ８）と連結される。

このように順次ノードを先行ノードと連結していくことにより、文字認識精度およびラティスにおける接続関係の双方の観点から、正規ラティスの単位領域と文字ラティスの単位領域との組み合わせを矛盾なく接続するパスがすべて生成される。そして、これらのパスの中から、再現率が最も大きいパスを最適パスとして選択することにより、正規ラティスの単位領域と文字ラティスの単位領域との最も正確な対応関係を得ることができる。なお、再現率とは、正規ラティスの接続関係における単位領域の個数に対するパスが経由するノードに対応する正規ラティスの単位領域の個数の割合であり、例えば図６に示した最適パスに関しては、正規ラティスにおいて単位領域ｅ７を含まない接続関係における１０個の単位領域のうち、１０個すべての単位領域に対応するノードが連結されているため、再現率は１（＝１０／１０）となる。

また、再現率が最大のパスが複数ある場合には、これらのパスの中から、適合率が最も大きいパスを最適パスとして選択すれば良い。適合率とは、文字ラティスの接続関係における単位領域の個数に対するパスが経由するノードに対応する文字ラティスの単位領域の個数の割合であり、例えば図６に示した最適パスに関しては、文字ラティスにおいて単位領域ｒ５、ｒ６を含まない接続関係における１２個の単位領域のうち、１０個の単位領域に対応するノードが連結されているため、適合率は０．８３（≒１０／１２）となる。

以上のように、本実施の形態によれば、文字ラティスの単位領域と正規ラティスの単位領域とのすべての組み合わせのうち認識信頼度が所定の閾値以上の組み合わせをノードとする対応テーブル上において、ノードを連結するパスを生成して再現率および適合率が最も大きい最適パスを決定する。このため、正規ラティスおよび文字ラティスの双方と矛盾しない単位領域の組み合わせを決定することができ、正規ラティスに文字数が変動するワイルドカードが含まれている場合でも、正確に単位領域の対応関係を決定することができる。そして、最適パスの決定により単位領域の対応関係を決定した上で、最適パスに対応する文字ラティスの単位領域を含む対象領域を抽出して、対象領域内のパターンに対してカテゴリ別の文字認識をするため、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。

なお、上記一実施の形態においては、対象領域が抽出された後、対象領域内のパターンに対してカテゴリ別の文字認識を実行するものとした。この場合、例えば図１４上段に示すように、対象領域内のノイズパターン３０１に対してもカテゴリ別の文字認識が実行される。したがって、図１４下段に示すように、ノイズパターン３０１が例えば「月」の文字に誤認識されるが、この文字認識結果については認識精度が低いと考えられるため、認識精度が所定基準以下となる破線で囲まれた領域は、空白にするようにすれば良い。

また、最適パス決定部１１０によって最適パスが決定された段階で、正規ラティスにおける単位領域と文字ラティスにおける単位領域との対応関係が得られるため、それぞれの単位領域ごとにカテゴリ別の文字認識を実行しても良い。この場合には、図７中段に示すように、ノイズパターンが最適パスに対応する単位領域に含まれないため、文字認識精度をさらに向上することが可能となる。

なお、上記一実施の形態においては、文字認識装置１００によって対象領域の抽出処理および文字認識処理が実行されるものとしたが、これらの処理をコンピュータが読み取り可能な形式のプログラムとして記述し、このプログラムをコンピュータに実行させることも可能である。

以上の実施の形態に関し、さらに以下の付記を開示する。

（付記１）コンピュータによって実行される領域抽出プログラムであって、前記コンピュータに、
画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと
を実行させることを特徴とする領域抽出プログラム。

（付記２）前記生成ステップは、
他のノードと新たに連結される新規連結ノードと、既に他のノードと連結済みの先行ノードであって文字ラティスおよび正規ラティスが示す単位領域の接続関係において新規連結ノードに対応する単位領域から所定範囲内にある単位領域の組み合わせの先行ノードとを抽出するノード抽出ステップと、
前記ノード抽出ステップにて抽出された先行ノードのうち、さらに先行するノードとの連結数が最も多い先行ノードと新規連結ノードとを連結するノード連結ステップと
を含むことを特徴とする付記１記載の領域抽出プログラム。

（付記３）前記連結ステップは、
連結数が最も多い先行ノードが複数ある場合に、該当する複数の先行ノードのうち、正規ラティスが示す単位領域の接続関係を再現する再現率に基づいてパスに含まれる先行ノードと新規連結ノードとを連結することを特徴とする付記２記載の領域抽出プログラム。

（付記４）前記決定ステップは、
正規ラティスが示す単位領域の接続関係を再現する再現率に基づいて最適パスを決定することを特徴とする付記１記載の領域抽出プログラム。

（付記５）前記決定ステップは、
再現率が最も大きいパスが複数ある場合に、該当する複数のパスのうち、文字ラティスが示す単位領域の接続関係に適合する適合率に基づいて最適パスを決定することを特徴とする付記４記載の領域抽出プログラム。

（付記６）前記判定ステップは、
単位領域の組み合わせそれぞれにおける文字ラティスの単位領域内のパターンに対して、すべての文字を収録した文字別辞書を用いて文字認識を実行した場合の文字認識精度と、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行した場合の文字認識精度との比を示す認識信頼度を算出する算出ステップを含み、
前記算出ステップにて算出された認識信頼度が所定の基準を満たす組み合わせが成立する可能性があると判定することを特徴とする付記１記載の領域抽出プログラム。

（付記７）コンピュータによって実行される文字認識プログラムであって、前記コンピュータに、
画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、
前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップと
を実行させることを特徴とする文字認識プログラム。

（付記８）画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得手段と、
前記取得手段によって取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定手段と、
前記判定手段によって成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成手段と、
前記生成手段によって生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定手段と、
前記決定手段によって決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出手段と、
前記抽出手段によって抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識手段と
を有することを特徴とする文字認識装置。

（付記９）画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、
前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップと
を有することを特徴とする文字認識方法。

本発明は、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識する場合などに適用することができる。

一実施の形態に係る文字認識装置の要部構成を示すブロック図である。一実施の形態に係る正規ラティスの一例を示す図である。一実施の形態に係る前処理結果の一例を示す図である。一実施の形態に係る文字ラティスの一例を示す図である。一実施の形態に係る対応テーブルの一例を示す図である。一実施の形態に係る最適パスの一例を示す図である。一実施の形態に係る対象領域の一例を示す図である。一実施の形態に係る文字認識装置の動作を示すフロー図である。一実施の形態に係る対応テーブル生成処理を示すフロー図である。一実施の形態に係るパス生成処理を示すフロー図である。一実施の形態に係るノード連結の一例を示す図である。一実施の形態に係るノード連結の他の一例を示す図である。一実施の形態に係るノード連結のさらに他の一例を示す図である。一実施の形態に係る文字認識結果の一例を示す図である。

符号の説明

１０１前処理部
１０２文字別辞書記憶部
１０３正規ラティス記憶部
１０４カテゴリ別辞書記憶部
１０５対象文字列抽出部
１０６文字列領域拡大部
１０７文字ラティス生成部
１０８認識信頼度算出部
１０９パス生成部
１１０最適パス決定部
１１１対象領域抽出部
１１２カテゴリ別認識部

Claims

コンピュータによって実行される領域抽出プログラムであって、前記コンピュータに、
画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと
を実行させることを特徴とする領域抽出プログラム。
前記生成ステップは、
他のノードと新たに連結される新規連結ノードと、既に他のノードと連結済みの先行ノードであって文字ラティスおよび正規ラティスが示す単位領域の接続関係において新規連結ノードに対応する単位領域から所定範囲内にある単位領域の組み合わせの先行ノードとを抽出するノード抽出ステップと、
前記ノード抽出ステップにて抽出された先行ノードのうち、さらに先行するノードとの連結数が最も多い先行ノードと新規連結ノードとを連結するノード連結ステップと
を含むことを特徴とする請求項１記載の領域抽出プログラム。
前記連結ステップは、
連結数が最も多い先行ノードが複数ある場合に、該当する複数の先行ノードのうち、正規ラティスが示す単位領域の接続関係を再現する再現率に基づいてパスに含まれる先行ノードと新規連結ノードとを連結することを特徴とする請求項２記載の領域抽出プログラム。
前記決定ステップは、
正規ラティスが示す単位領域の接続関係を再現する再現率に基づいて最適パスを決定することを特徴とする請求項１記載の領域抽出プログラム。
前記決定ステップは、
再現率が最も大きいパスが複数ある場合に、該当する複数のパスのうち、文字ラティスが示す単位領域の接続関係に適合する適合率に基づいて最適パスを決定することを特徴とする請求項４記載の領域抽出プログラム。
コンピュータによって実行される文字認識プログラムであって、前記コンピュータに、
画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、
前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップと
を実行させることを特徴とする文字認識プログラム。
画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得手段と、
前記取得手段によって取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定手段と、
前記判定手段によって成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成手段と、
前記生成手段によって生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定手段と、
前記決定手段によって決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出手段と、
前記抽出手段によって抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識手段と
を有することを特徴とする文字認識装置。
画像内の文字列パターンを各々１文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、
前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップと
を有することを特徴とする文字認識方法。