JP5125573B2 - 領域抽出プログラム、文字認識プログラム、および文字認識装置 - Google Patents

領域抽出プログラム、文字認識プログラム、および文字認識装置 Download PDF

Info

Publication number
JP5125573B2
JP5125573B2 JP2008030887A JP2008030887A JP5125573B2 JP 5125573 B2 JP5125573 B2 JP 5125573B2 JP 2008030887 A JP2008030887 A JP 2008030887A JP 2008030887 A JP2008030887 A JP 2008030887A JP 5125573 B2 JP5125573 B2 JP 5125573B2
Authority
JP
Japan
Prior art keywords
character
lattice
unit
unit areas
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008030887A
Other languages
English (en)
Other versions
JP2009193159A (ja
Inventor
浩明 武部
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008030887A priority Critical patent/JP5125573B2/ja
Priority to US12/366,004 priority patent/US8300942B2/en
Priority to CN200910007304XA priority patent/CN101510252B/zh
Publication of JP2009193159A publication Critical patent/JP2009193159A/ja
Application granted granted Critical
Publication of JP5125573B2 publication Critical patent/JP5125573B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19187Graphical models, e.g. Bayesian networks or Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Description

本発明は、領域抽出プログラム、文字認識プログラム、および文字認識装置に関し、特に、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる領域抽出プログラム、文字認識プログラム、および文字認識装置に関する。
従来、例えば帳票などの書類をスキャナで取り込んで画像データ化し、画像データ中のパターンを文字として認識するOCR(Optical Character Reader)が広く知られている。このようなOCRにおいては、1文字に対応するパターンとして切り出される領域が誤って区分されたり、区分された各領域内のパターンに対応する文字が正しく認識されなかったりするため、文字認識結果は必ずしも信頼できるとは限らない。特に、画像データの品質が悪い場合や、画像データ中に数字などの類似する文字から構成される単語が含まれる場合には、文字認識の精度が低下する傾向がある。
そこで、例えば特許文献1には、文字認識結果をあらかじめ辞書に登録された単語と照合しながら修正することにより、文字認識の精度を向上する方式が提案されている。具体的には、例えば住所などのように、階層構造を持つ複数の単語から構成される単語列の文字認識結果を辞書に登録された単語と照合する際に、階層間の接続を考慮しながら最も信頼度が高い単語の組み合せが選択され、最終的な認識結果とされる。
また、例えば特許文献2には、文字認識結果における複数の可能性を考慮して検索することが提案されている。具体的には、文字列を含むパターンが文字認識された後、文字認識結果の形態素解析が行われ、名詞または未登録語と判定された領域の文字認識が再度実行される。そして、再び得られた文字認識結果が最初の文字認識結果に候補として追加され、これらの複数の候補の中から最終的な認識結果が検索される。
特開平11−272804号公報 特開2002−312365号公報
ところで、一般に、多くの帳票は、例えば日付や金額などのように決まった形式の正規表現で表される情報を含んでいる。これらの情報は、帳票が異なっても形式が同一である一方で、帳票によって数字の桁数などが一定ではないため、文字数は異なっていることがある。したがって、帳票のような書類に対して文字認識を行う場合には、文字数が変動するワイルドカードを含み、かつ正規表現で表される情報を正確に認識することが求められる。
しかしながら、情報の文字数が変動する場合には、形式が一定であっても正確な文字認識を行うことが困難であるという問題がある。すなわち、情報の文字数が変動する場合には、文字の認識の誤りだけでなく、1文字に対応するパターンの区分が誤っている可能性があり、情報が正規表現で表されていても文字認識の精度向上には一定の限界がある。また、上述した特許文献1および特許文献2においては、辞書に登録された単語や文字認識のやり直し結果を認識結果の候補としているが、これらの方法においては、候補数が増大してしまう虞がある。特に、文字認識対象の情報が日付などである場合は、類似した数字が多用されているとともに、認識結果の候補数は膨大になると考えられるため、多くの候補から最終的な認識結果を選択する必要が生じ、結果として、認識精度の向上に一定の限界が生じることになってしまう。
さらに、情報の文字数が変動する場合には、この情報に対応する領域内にノイズが含まれていても、効率的にノイズを除去することができない。すなわち、文字数が固定されていれば、比較的効率良く文字列パターンの両端にあるノイズを除外して文字認識を行うことができるが、文字数が変動する場合には、文字列パターンの両端にある汚れなどがノイズであるか文字であるかの判別がつきにくい。
本発明はかかる点に鑑みてなされたものであり、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる領域抽出プログラム、文字認識プログラム、および文字認識装置を提供することを目的とする。
上記課題を解決するために、本発明に係る領域抽出プログラムは、コンピュータによって実行される領域抽出プログラムであって、前記コンピュータに、画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップとを実行させるようにした。
このプログラムによれば、正規ラティスおよび文字ラティスの単位領域の組み合わせをノードとしたテーブル上でパスを生成し、正規ラティスまたは文字ラティスと一致する最適パスを決定するため、正規ラティスおよび文字ラティスの双方と矛盾しない単位領域の組み合わせを効率良く決定することができ、正規ラティスに文字数が変動するワイルドカードが含まれている場合でも、正確に単位領域の対応関係を決定することができる。そして、最適パスに対応する文字ラティスの単位領域を抽出するため、抽出された単位領域内のパターンに対して、正規ラティスによって規定されるカテゴリ別の文字認識を実行することができ、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。
また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記生成ステップは、他のノードと新たに連結される新規連結ノードと、既に他のノードと連結済みの先行ノードであって文字ラティスおよび正規ラティスが示す単位領域の接続関係において新規連結ノードに対応する単位領域から所定範囲内にある単位領域の組み合わせの先行ノードとを抽出するノード抽出ステップと、前記ノード抽出ステップにて抽出された先行ノードのうち、さらに先行するノードとの連結数が最も多い先行ノードと新規連結ノードとを連結するノード連結ステップとを含むようにした。
このプログラムによれば、先行ノードのうち連結数が最も大きい先行ノードと新規連結ノードとを連結するため、最終的に最も多くのノードを通過するパスが生成されることになり、正規ラティスおよび文字ラティスの双方と一致する度合いが高いパスを容易に生成することができる。
また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記連結ステップは、連結数が最も多い先行ノードが複数ある場合に、該当する複数の先行ノードのうち、正規ラティスが示す単位領域の接続関係を再現する再現率に基づいてパスに含まれる先行ノードと新規連結ノードとを連結するようにした。
このプログラムによれば、連結数のみから連結するノードを決定することができない場合に、正規ラティスとの一致度が高い先行ノードを優先してノードを連結することができ、最終的に正規ラティスと一致する度合いがより高いパスを容易に生成することができる。
また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記決定ステップは、正規ラティスが示す単位領域の接続関係を再現する再現率に基づいて最適パスを決定するようにした。
このプログラムによれば、再現率が最も大きいパスを最適パスと決定することができ、正規ラティスとの一致度が最も高く、最も確からしい単位領域の対応関係を決定することができる。そして、最適パスに対応する文字ラティスの単位領域を抽出することにより、正規ラティスに対応する情報を含む領域を正確に抽出することができる。
また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記決定ステップは、再現率が最も大きいパスが複数ある場合に、該当する複数のパスのうち、文字ラティスが示す単位領域の接続関係に適合する適合率に基づいて最適パスを決定するようにした。
このプログラムによれば、再現率のみから最適パスを決定することができない場合に、文字ラティスとの一致度が高いパスを最適パスとすることができ、最終的に正規ラティスおよび文字ラティスの双方との一致度が最も高く、より確からしい単位領域の対応関係を決定することができる。
また、本発明に係る領域抽出プログラムは、上記プログラムにおいて、前記判定ステップは、単位領域の組み合わせそれぞれにおける文字ラティスの単位領域内のパターンに対して、すべての文字を収録した文字別辞書を用いて文字認識を実行した場合の文字認識精度と、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行した場合の文字認識精度との比を示す認識信頼度を算出する算出ステップを含み、前記算出ステップにて算出された認識信頼度が所定の基準を満たす組み合わせが成立する可能性があると判定するようにした。
このプログラムによれば、文字別辞書を用いた場合の文字認識精度とカテゴリ別辞書を用いた場合の文字認識精度とに基づく認識信頼度が所定の基準を満たす組み合わせが成立する可能性があると判定する。このため、正規ラティスの単位領域と文字ラティスの単位領域とが正しく対応している場合には、2つの文字認識精度が等しくなって認識信頼度が1となる一方、正しく対応していない場合には、認識信頼度が1とはならず、確実に単位領域の組み合わせの成立可能性を判定することができる。
また、本発明に係る文字認識プログラムは、コンピュータによって実行される文字認識プログラムであって、前記コンピュータに、画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップとを実行させるようにした。
このプログラムによれば、正規ラティスおよび文字ラティスの単位領域の組み合わせをノードとしたテーブル上でパスを生成し、正規ラティスまたは文字ラティスと一致する最適パスを決定するため、正規ラティスおよび文字ラティスの双方と矛盾しない単位領域の組み合わせを効率良く決定することができ、正規ラティスに文字数が変動するワイルドカードが含まれている場合でも、正確に単位領域の対応関係を決定することができる。そして、最適パスに対応する文字ラティスの単位領域を抽出した上で、抽出された単位領域内のパターンに対して、正規ラティスによって規定されるカテゴリ別の文字認識を実行するため、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。
また、本発明に係る文字認識装置は、画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得手段と、前記取得手段によって取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定手段と、前記判定手段によって成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成手段と、前記生成手段によって生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定手段と、前記決定手段によって決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出手段と、前記抽出手段によって抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識手段とを有する構成を採る。
また、本発明に係る文字認識方法は、画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップとを有するようにした。
これらによれば、正規ラティスおよび文字ラティスの単位領域の組み合わせをノードとしたテーブル上でパスを生成し、正規ラティスまたは文字ラティスと一致する最適パスを決定するため、正規ラティスおよび文字ラティスの双方と矛盾しない単位領域の組み合わせを効率良く決定することができ、正規ラティスに文字数が変動するワイルドカードが含まれている場合でも、正確に単位領域の対応関係を決定することができる。そして、最適パスに対応する文字ラティスの単位領域を抽出した上で、抽出された単位領域内のパターンに対して、正規ラティスによって規定されるカテゴリ別の文字認識を実行するため、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。
本明細書に開示された領域抽出プログラム、文字認識プログラム、および文字認識装置によれば、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。
本発明の骨子は、文字認識の対象となる文字列領域をラティス形式で表した文字ラティスと情報の形式を定義する正規表現をラティス形式で表した正規ラティスとのそれぞれにおける単位領域の組み合わせごとに信頼度を算出し、信頼度が高い組み合わせに対応するノードを連結するパスの中から最適なパスを決定することにより、最適なパスに相当する文字認識の対象領域を抽出することである。以下、本発明の一実施の形態について、図面を参照しながら詳細に説明する。
図1は、本発明の一実施の形態に係る文字認識装置100の要部構成を示すブロック図である。同図に示す文字認識装置100は、前処理部101、文字別辞書記憶部102、正規ラティス記憶部103、カテゴリ別辞書記憶部104、対象文字列抽出部105、文字列領域拡大部106、文字ラティス生成部107、認識信頼度算出部108、パス生成部109、最適パス決定部110、対象領域抽出部111、およびカテゴリ別認識部112を有している。
前処理部101は、例えば日付などの正規表現で表される情報のパターンを含む帳票画像に対して、文字別辞書記憶部102に記憶された文字別辞書を用いた文字認識を実行し、帳票画像全体の文字列パターンが表す文字列を取得する。
文字別辞書記憶部102は、帳票画像に含まれ得るすべての文字を収録する文字別辞書を記憶する。すなわち、文字別辞書記憶部102は、通常の文字認識の際に、画像中のパターンとの比較に用いられる文字別辞書を記憶する。
正規ラティス記憶部103は、帳票内の正規表現を定義する正規ラティスを記憶する。すなわち、正規ラティス記憶部103は、正規表現で表される情報における1文字分の単位領域とそれらの接続関係を定義する正規ラティスを記憶する。具体的には、正規ラティス記憶部103は、例えば図2に示すように、日付における1文字分の単位領域e1〜e11とこれらの接続関係を記憶している。以下においては、主として図2に示す正規ラティスを例としながら説明を進める。
図2に示す例では、単位領域e1〜e4がそれぞれ年を示す数字に対応する領域であり、単位領域e5が「年」という文字に対応する領域であり、単位領域e6、e7がそれぞれ月を示す数字に対応する領域であり、単位領域e8が「月」という文字に対応する領域であり、単位領域e9、e10がそれぞれ日を示す数字に対応する領域であり、単位領域e11が「日」という文字に対応する領域である。そして、例えば年が西暦で表される場合には、数字が4桁になるため、単位領域e1〜e4のすべてに数字が対応することになるが、年が年号で表される場合には、数字が2桁になるため、単位領域e1、e2にのみ数字が対応することになる。したがって、年が年号で表される場合には、単位領域e2には単位領域e5が接続することになる。同様に、月や日も1桁または2桁の数字であるため、単位領域e6または単位領域e9に単位領域e8または単位領域e11が直接接続する場合もあるし、単位領域e6、e7または単位領域e9、e10に単位領域e8または単位領域e11が接続する場合もある。
カテゴリ別辞書記憶部104は、文字別辞書に収録された文字をカテゴリ分けし、カテゴリごとの文字を収録するカテゴリ別辞書を記憶する。すなわち、カテゴリ別辞書記憶部104は、例えば数字のカテゴリに属する辞書や日付に用いられる文字のカテゴリに属する辞書など、複数のカテゴリに関してそれぞれカテゴリ別辞書を記憶する。なお、図1においては、文字別辞書記憶部102とカテゴリ別辞書記憶部104とを別体として設けたが、これらは一体化していても良く、文字別辞書とカテゴリ別辞書として異なる辞書を記憶する代わりに、1つの文字別辞書と複数のカテゴリの定義を記憶するようにしても良い。
対象文字列抽出部105は、前処理部101による文字認識の結果取得された文字列の中から、正規ラティス記憶部103に記憶された正規ラティスと形式が一部でも一致する対象文字列を抽出する。具体的には、対象文字列抽出部105は、例えば図3上段に示す文字列パターンから図3下段に示す前処理結果が得られた場合、「9月24」と認識された文字列201が図2に示した正規ラティスの単位領域e6、e8、e9、e10の接続関係と一致するため、この文字列201を抽出する。なお、対象文字列抽出部105による対象文字列の抽出には、例えば国際公開第2007/080642号パンフレットに記載された技術などを用いることができる。
文字列領域拡大部106は、対象文字列抽出部105によって抽出された対象文字列に対応するパターンを含む領域を拡大し、正規ラティスが示す情報全体に対応する文字列領域を決定する。具体的には、文字列領域拡大部106は、対象文字列に対応するパターンにおいて1文字分のパターンの平均文字サイズと1文字分のパターンの間の平均文字間隔とを算出し、これらの和の領域サイズを単位として対象文字列に対応するパターンを含む領域を拡大する。そして、文字列領域拡大部106は、拡大後の領域内に新たな1文字分のパターンが含まれれば、さらに領域を拡大する。その後、文字列領域拡大部106は、拡大後の領域内に新たな1文字分のパターンが含まれなくなるまで領域の拡大を続け、最終的に近傍に1文字分のパターンが存在しない文字列領域を得る。
文字ラティス生成部107は、文字列領域拡大部106によって得られた文字列領域内のパターンに対して、文字別辞書記憶部102に記憶された文字別辞書を用いた文字認識を実行し、文字列における1文字分の単位領域とそれらの接続関係を示す文字ラティスを生成する。すなわち、文字ラティス生成部107は、文字列領域内のパターンを1文字分の単位領域に区分し、それぞれの単位領域内のパターンを文字認識する。このとき、文字ラティス生成部107は、単位領域の区分の仕方に複数の候補があれば、それぞれの候補について単位領域内のパターンを文字認識する。
具体的に例を挙げると、文字ラティス生成部107は、例えば図4上段に示す文字列領域内のパターンを単位領域に区分する際、「年」を示すパターンに関しては、全体を1つの単位領域に区分する候補と単位領域202、203に分けて区分する候補とのそれぞれについて文字認識を実行する。その結果、文字ラティス生成部107は、例えば図4中段に示すように、「年」を示すパターンについて、「年」という1文字分の文字認識結果と「午」および「三」という2文字分の文字認識結果とを得ることになる。
そして、文字ラティス生成部107は、それぞれの単位領域の区分の候補における単位領域の接続関係を文字ラティスとする。具体的には、文字ラティス生成部107は、例えば図4下段に示すように、それぞれの区分の候補における1文字分の単位領域r1〜r14とこれらの接続関係を文字ラティスとして生成する。すなわち、上述した図4上段に示す文字列領域の例では、「年」を示すパターンが2つの単位領域r5、r6に区分される場合と1つの単位領域r14に区分される場合とがある。そして、「年」を示すパターンが単位領域r14として区分される場合には、単位領域r5、r6の代わりに単位領域r14が単位領域r4、r7と接続されることになる。したがって、文字ラティス生成部107は、図4下段に示す文字ラティスを生成することになる。
なお、文字ラティス生成部107は、単位領域内の文字認識を実行する際、それぞれの単位領域内のパターンと文字認識結果の文字のパターンとの類似の度合いを示す距離値(例えばマハラノビス距離などの値)を算出しておく。この距離値が小さいほど単位領域内のパターンと文字別辞書に収録された文字のパターンとが類似していることになり、文字認識の精度が高いと言える。
認識信頼度算出部108は、文字ラティス生成部107によって生成された文字ラティスにおけるすべての単位領域内の文字認識結果について、文字認識の信頼度を示す認識信頼度を算出し、文字ラティスにおける単位領域と正規ラティスにおける単位領域とのすべての組み合わせについて、互いの単位領域が対応する可能性が高いか否かを判断する。
具体的には、認識信頼度算出部108は、上述した例における文字ラティスの単位領域r1〜r14それぞれについて、各単位領域が正規ラティスの単位領域e1〜e11に対応すると仮定した場合のカテゴリを判別し、判別されたカテゴリに限定してカテゴリ別辞書記憶部104に記憶されたカテゴリ別辞書を用いた文字認識を実行する。したがって、例えば文字ラティスの単位領域r1と正規ラティスの単位領域e1とが対応すると仮定した場合、正規ラティスの単位領域e1が数字に対応する領域であるため、認識信頼度算出部108は、文字ラティスの単位領域r1のパターンを数字のカテゴリに限定して文字認識する。このとき、認識信頼度算出部108は、それぞれの単位領域内のパターンと文字認識結果の文字のパターンとの類似の度合いを示す距離値を算出する。
同様に、例えば文字ラティスの単位領域r1と正規ラティスの単位領域e5とが対応すると仮定した場合、正規ラティスの単位領域e5が「年」という文字に対応する領域であるため、認識信頼度算出部108は、文字ラティスの単位領域r1のパターンを「年」と認識し、類似の度合いを示す距離値を算出する。
そして、認識信頼度算出部108は、カテゴリ別辞書を用いた場合の距離値に対する文字ラティス生成部107によって算出された文字別辞書を用いた場合の距離値の割合から、それぞれの単位領域の組み合わせが成立するか否かを判定する。すなわち、認識信頼度算出部108は、文字別辞書を用いた場合の距離値(dc)をカテゴリ別辞書を用いた場合の距離値(dl)で除算して認識信頼度(=dc/dl)を算出し、認識信頼度が所定の閾値以上である組み合わせについては、成立する可能性があると判定する。
ここで、文字ラティスにおける単位領域と正規ラティスにおける単位領域との組み合わせが成立していれば、文字別辞書を用いる場合もカテゴリ別辞書を用いる場合も文字認識結果は同一になると考えられるため、それぞれの場合の距離値が等しくなり(dc=dl)、認識信頼度は1となる。一方、文字ラティスにおける単位領域と正規ラティスにおける単位領域との組み合わせが成立していなければ、文字別辞書を用いる場合の方がより類似した文字として認識されると考えられるため、文字別辞書を用いる場合の距離値は、カテゴリ別辞書を用いる場合の距離値以下(dc≦dl)となる。結果として、認識信頼度は1以下となり、カテゴリ別辞書を用いる場合の文字認識結果の精度が低いほど(すなわち距離値dlが大きいほど)認識信頼度も小さくなる。
認識信頼度算出部108は、正規ラティスにおける単位領域と文字ラティスにおける単位領域とのすべての組み合わせについて、成立する可能性があるか否かを認識信頼度から判定し、成立する可能性がある組み合わせをそれぞれノードとして明示する対応テーブルを生成して、パス生成部109へ出力する。具体的には、認識信頼度算出部108は、例えば図5に示すように、単位領域のそれぞれの組み合わせのうち成立する可能性がある組み合わせを黒丸のノードで示した対応テーブルをパス生成部109へ出力する。
パス生成部109は、認識信頼度算出部108によって生成された対応テーブルにおいて、成立する可能性がある単位領域の組み合わせのノードを順次連結するパス生成処理を実行する。具体的には、パス生成部109は、例えば図5に示した対応テーブルにおけるノードを条件に従って連結してパスを生成する。ここでの条件とは、新たに連結する新規連結ノードについて、このノードに対応する単位領域に接続する所定数の単位領域を抽出し、抽出された単位領域からなるノードのうち、連結数が最大のノードを新規連結ノードに連結するものである。すなわち、新規連結ノードに対応する正規ラティスの単位領域の近傍の単位領域と、新規連結ノードに対応する文字ラティスの単位領域の近傍の単位領域との組み合わせからなるノードのうち、最も多くのノードを経たノードが新規連結ノードに連結される。
また、連結数が最大のノードが複数ある場合には、それぞれのノードのうち、正規ラティスの接続関係を再現している度合いを示す再現率が最も大きいパスに含まれるノードが新規連結ノードに連結される。なお、パス生成部109によるパス生成処理については、後に詳述する。
最適パス決定部110は、パス生成部109によって対応テーブルのすべてのノードに対するパス生成処理が完了すると、正規ラティスの接続関係を再現している度合いを示す再現率および文字ラティスの接続関係に適合している度合いを示す適合率が最も大きい最適パスを1つ決定する。すなわち、最適パス決定部110は、例えば図6に示すように、対応テーブル上での最適パス204を選択する。ここで、最適パス204は、正規ラティスについては単位領域をe1→e2→e3→e4→e5→e6→e8→e9→e10→e11と連結しているため、図2に示す正規ラティスにおいて単位領域をe1→e2→e3→e4→e5→e6→e8→e9→e10→e11と接続する接続関係を完全に再現していることになる。また、最適パス204は、文字ラティスについては単位領域をr1→r2→r3→r4→r14→r8→r9→r10→r11→r12と連結しているため、図4下段に示す文字ラティスにおいて単位領域をr1→r2→r3→r4→r14→r7→r8→r9→r10→r11→r12→r13と接続する接続関係と比較すると、単位領域r7、r13を除く10個の単位領域が適合していることになる。
最適パス決定部110は、各パスの再現率および適合率によって最適パスを決定するが、このとき、まず再現率が最大のパスを最適パスとして選択し、再現率が最大のパスが複数ある場合には、これらの複数のパスのうち適合率が最大のパスを最適パスとする。
対象領域抽出部111は、最適パス決定部110によって決定された最適パスに対応する文字ラティスの単位領域をすべて包含する領域を、最終的に文字認識の対象となる対象領域として抽出する。具体的には、対象領域抽出部111は、例えば図7上段に示す最適パスが決定された場合、図7中段に示すように、最適パスに対応する文字ラティスの単位領域r1、r2、r3、r4、r14、r8、r9、r10、r11、r12を選択し、図7下段に示すように、選択された単位領域を含む最小限の対象領域を抽出する。したがって、対象領域抽出部111は、図7下段において、ノイズパターン205を除外した対象領域を抽出することになる。
以上の文字ラティス生成部107から対象領域抽出部111は、本実施の形態に係る文字認識装置100内において、帳票画像中の文字列領域から実際の文字認識の対象となる領域を抽出する領域抽出部を形成している。
カテゴリ別認識部112は、対象領域抽出部111によって抽出された対象領域内のパターンに対して、カテゴリ別辞書記憶部104に記憶されたカテゴリ別辞書を用いた文字認識を実行し、認識結果を出力する。すなわち、カテゴリ別認識部112は、対象領域内のパターンが示す情報のカテゴリに応じたカテゴリ別辞書を用いて、カテゴリを限定した文字認識を実行する。
次いで、上記のように構成された文字認識装置100の動作について、図8に示すフロー図を参照しながら説明する。以下の説明においては、必要に応じて図2〜7に示した具体例を適宜参照する。
まず、文字認識装置100に帳票画像が入力されると、前処理部101によって、帳票画像全体の文字認識が実行される(ステップS101)。この前処理の結果、図3下段に示すような文字を含む文字認識結果が得られ、対象文字列抽出部105によって、前処理による文字認識結果から正規ラティスと一部分が一致する対象文字列が抽出される(ステップS102)。ここでは、「9月24」という対象文字列201が図2に示す正規ラティスの単位領域e6、e8、e9、e10の接続関係と一致するため、この対象文字列201が抽出される。
そして、文字列領域拡大部106によって、対象文字列201に対応する帳票画像上の領域が図4上段に示すひとまとまりの情報全体を含む文字列領域にまで拡大される(ステップS103)。すなわち、対象文字列201に対応する帳票画像上の領域を1文字分のパターンが占有する面積を単位として拡大していき、対象文字列201の近傍にあるパターンをすべて含む文字列領域が文字列領域拡大部106によって取得される。ここでは、文字列領域内にひとまとまりの情報として年月日を示すパターンが含まれている。また、図4上段に示すように、文字列領域内に年月日以外のノイズパターンが含まれている。
ひとまとまりの情報を含む文字列領域が取得されると、文字ラティス生成部107によって、文字列領域内のパターンに対してカテゴリを限定しない文字認識が実行される(ステップS104)。すなわち、文字ラティス生成部107によって、文字列領域が1文字分に相当するパターンを含む単位領域に区分され、それぞれの単位領域内のパターンが文字別辞書記憶部102によって記憶された文字別辞書を用いて文字認識される。このとき、単位領域の区分の仕方に複数の候補があれば、文字ラティス生成部107によって、それぞれの区分の仕方で文字認識が実行され、図4中段に示すように、文字認識結果に関しても複数の候補が得られることになる。
そして、文字ラティス生成部107によって、文字認識結果のすべての候補における単位領域の接続関係を示す文字ラティスが生成される(ステップS105)。すなわち、文字ラティス生成部107によって、図4下段に示すように、区分された単位領域r1〜r14の各候補における接続関係を示す文字ラティスが生成される。同時に、各単位領域r1〜r14における文字認識結果と文字別辞書に収録された文字との類似度合いを示す距離値が算出される。以降は、正規ラティスと文字ラティスとを比較し、それぞれのラティスにおける単位領域を1対1に対応させた場合に、いずれのラティスの接続関係とも矛盾しない単位領域の組み合わせを見つけ出すことになる。
すなわち、認識信頼度算出部108によって、文字ラティスの各単位領域における文字認識の結果から認識信頼度が算出され、認識信頼度に基づいて成立する可能性がある単位領域の組み合わせが選択され、選択された組み合わせをノードとして明示する対応テーブル生成処理が実行される(ステップS106)。この対応テーブルでは、図5に示すように、正規ラティスの単位領域と文字ラティスの単位領域とのそれぞれの組み合わせのうち、成立する可能性がある組み合わせに対応付けて黒丸のノードが記録されている。なお、認識信頼度算出部108による対応テーブル生成処理については、後に詳述する。
そして、パス生成部109によって、対応テーブルにおけるノードを連結するパス生成処理が実行される(ステップS107)。このパス生成処理は、対応テーブルの端のノードから開始され、先行するノードのうちどのノードと連結するかが決定されることにより行われる。このノードの連結は、正規ラティスおよび文字ラティスにおける単位領域の接続関係がより忠実に再現されるようにして行われる。なお、パス生成部109によるパス生成処理については、後に詳述する。
対応テーブルにおけるすべてのノードに関するパス生成処理が完了すると、最適パス決定部110によって、対応テーブルにおいて生成された複数のパスから最適なパスが決定される(ステップS108)。すなわち、最適パス決定部110によって、正規ラティスおよび文字ラティスの双方に一致している度合いが最も高い最適パスが決定される。具体的には、最適パス決定部110によって、各パスが示す単位領域の接続関係が正規ラティスにおける単位領域の接続関係を再現している割合を示す再現率が最大のパスが最適パスとして選択される。そして、再現率が最大のパスが複数ある場合には、最適パス決定部110によって、これらの複数のパスが示す単位領域の接続関係が文字ラティスにおける単位領域の接続関係に適合している割合を示す適合率が最大のパスが最適パスとして選択される。
対応テーブルにおいて最適パスが決定されると、対象領域抽出部111によって、最適パスに対応する文字ラティスの単位領域をすべて包含する対象領域が抽出される(ステップS109)。すなわち、例えば図7上段に示す最適パスが決定された場合、対象領域抽出部111によって、図7中段に示すように、文字ラティスの単位領域r1、r2、r3、r4、r14、r8、r9、r10、r11、r12が選択され、図7下段に示すように、選択された単位領域を含む最小の領域が対象領域として抽出される。
そして、カテゴリ別認識部112によって、対象領域内のパターンに対する年月日のカテゴリ別辞書を用いた文字認識が実行される(ステップS110)。このとき、図7下段に示す対象領域においては、図4上段に示す文字列領域には含まれていたノイズパターン205が除外されているため、文字認識の精度を向上することができる。また、対応テーブルにおける最適パスから対象領域を抽出しているため、対象領域内には正規ラティスで表現される情報が含まれている可能性が高く、この対象領域内のパターンに対して正規ラティスに対応するカテゴリ別辞書を用いた文字認識を実行することにより、さらに文字認識の精度を向上することができる。
次に、本実施の形態に係る対応テーブル生成処理について、図9に示すフロー図を参照しながら説明する。
文字ラティス生成部107によって文字ラティスが生成され、文字ラティスの各単位領域内における文字認識結果と文字別辞書における文字との距離値が算出されると、認識信頼度算出部108によって、各単位領域内のパターンに対してカテゴリ別辞書を用いた文字認識が実行される(ステップS201)。ここでは、正規ラティスに対応するカテゴリのカテゴリ別辞書が用いられ、各単位領域内のパターンが例えば数字に限定されて文字認識されたり「年月日」の文字に限定されて文字認識されたりする。同時に、各単位領域におけるカテゴリ別の文字認識結果とカテゴリ別辞書に収録された文字との類似度合いを示す距離値が算出される。
そして、認識信頼度算出部108によって、正規ラティスの単位領域と文字ラティスの単位領域との組み合わせが1つ選択される(ステップS202)。ここでは、例えば単位領域e1と単位領域r1の組み合わせが選択されたものとする。単位領域の組み合わせが選択されると、この組み合わせに関する認識信頼度が認識信頼度算出部108によって算出される(ステップS203)。具体的には、文字別辞書を用いた場合の文字認識の距離値が単位領域e1に対応するカテゴリ別辞書を用いた場合の文字認識の距離値で除算されて認識信頼度が算出される。
続いて、認識信頼度が所定の閾値以上であるか否かが判定され(ステップS204)、認識信頼度が所定の閾値以上であれば対応テーブル上でパスを構成する組み合わせであると判断され(ステップS205)、認識信頼度が所定の閾値未満であれば対応テーブル上でパスを構成しない組み合わせであると判断される(ステップS206)。ここで、単位領域e1と単位領域r1との組み合わせがパスを構成する組み合わせと判断されれば、この組み合わせは対応テーブル上のノードとなる。以下、対応テーブル上のノードを表記する際、単位領域の組み合わせを用いて(e1,r1)のように座標形式で表記する。
単位領域e1と単位領域r1との組み合わせについて、認識信頼度を用いたノードとなるか否かの判定が完了すると、すべての単位領域の組み合わせについて判定が完了したか否かが判断される(ステップS207)。ここでは、単位領域e1と単位領域r1との組み合わせについてのみ判定が完了しているため、すべての組み合わせについて判定が完了してはおらず(ステップS207No)、改めて他の単位領域の組み合わせ(例えば単位領域e1と単位領域r2との組み合わせ)が選択される(ステップS202)。そして、上記と同様に単位領域の組み合わせがノードとなるか否か判定が繰り返され、すべての単位領域の組み合わせについて判定が完了すると(ステップS207Yes)、成立する可能性がある組み合わせがノードとして明示された対応テーブルが完成する(図5参照)。
次に、本実施の形態に係るパス生成処理について、図10に示すフロー図を参照しながら説明する。以下においては、図5に示す対応テーブルが生成されているものとして、具体的に例を挙げながら説明を進める。
認識信頼度算出部108によって対応テーブルが生成されると、パス生成部109によって、対応テーブルの端のノードが1つ選択される(ステップS301)。ここでは、まず(e1,r1)が選択されることになる。そして、(e1,r1)に先行するノードがあるか否かが判断されるが(ステップS302)、単位領域e1および単位領域r1より前に接続する単位領域はないため、ここでは先行ノードがないことになり(ステップS302No)、次のノードが選択される(ステップS301)。ここでは、(e2,r1)が選択される。しかし、単位領域r1より前に接続する単位領域がないため、ここでも先行ノードがないことになり(ステップS302No)、(e3,r1)が選択される。以下、同様にして先行ノードがあるノードに到達するまで先行ノードの有無が判断される。
そして、(e2,r2)が選択されると、単位領域e2より前には単位領域e1が接続され、単位領域r2より前には単位領域r1が接続されているため、先行ノードがあることになり(ステップS302Yes)、それぞれの単位領域の前に接続される所定数の単位領域に対応する先行ノードが抽出される(ステップS303)。ここでは、それぞれの単位領域の前に接続される2つまでの単位領域に対応する先行ノードが抽出されるものとすると、単位領域e2より前の単位領域e1と単位領域r2より前の単位領域r1とに対応する(e1,r1)が抽出される。
先行ノードが抽出されると、抽出された先行ノードのうちの1つのノードと現在選択されているノードとが連結されるが(ステップS304)、ここでは、先行ノードとして(e1,r1)のみが抽出されているため、(e1,r1)と(e2,r2)が連結される。
その後、すべてのノードが選択されてノードの連結が完了したか否かが判断され(ステップS305)、まだ選択されていないノードがあれば(ステップS305No)、未選択のノードが新たに選択される(ステップS301)。そして、すべてのノードが選択されると(ステップS305Yes)、連結可能なノードはすべて連結されたことになり、パス生成処理が完了する。
ここで、先行ノードが抽出された場合のノード連結について、さらに具体例を挙げながら説明する。
上述したノードの連結が繰り返され、図11に白丸で示した(e4,r4)が選択されているとき、単位領域e4より前の単位領域e2、e3と単位領域r4より前の単位領域r2、r3とに対応する4個の先行ノード(e2,r2)、(e2,r3)、(e3,r2)、(e3,r3)が抽出される。これらの先行ノードは、図11において破線で囲まれている。
このような場合、(e4,r4)は、先行ノードのうち連結数が最も多いノードと連結される。すなわち、(e2,r2)、(e2,r3)、(e3,r2)は、それぞれ先行する1つのノードと連結しているのに対し、(e3,r3)は、先行する2つのノードと連結しているため、(e4,r4)は、(e3,r3)と連結される。
また、図12に白丸で示した(e6,r8)が選択されているとき、単位領域e6より前には単位領域e4、e5が接続されていると見ることができるとともに、単位領域e2、e5が接続されていると見ることもできる(図2参照)。同様に単位領域r8より前には単位領域r6、r7が接続されていると見ることができるとともに、単位領域r14、r7が接続されていると見ることもできる(図4下段参照)。したがって、(e6,r8)が選択されている際には、図12において破線で囲まれた範囲のノードが先行ノードとして抽出されることになる。
ここでは、図12において破線で囲まれた範囲に1つの先行ノード(e5,r14)のみしか存在しないため、(e6,r8)は、(e5,r14)と連結される。
さらに、図13に白丸で示した(e8,r9)が選択されているとき、単位領域e8より前には単位領域e6、e7が接続されていると見ることができるとともに、単位領域e5、e6が接続されていると見ることもできる(図2参照)。また、単位領域r9より前には単位領域r7、r8が接続されている。したがって、(e8,r9)が選択されている際には、図13において破線で囲まれた範囲のノードが先行ノードとして抽出されることになる。
ここでは、2個の先行ノード(e6,r8)および(e7,r8)が抽出されるとともに、これらの先行ノードの連結数は等しい。このような場合は、それぞれの先行ノードに到達するパスの再現率が大きい先行ノードが(e8,e9)に連結される。すなわち、(e6,r8)に到達するパスについては、e1→e2→e3→e4→e5→e6と単位領域を接続しており、正規ラティスにおける単位領域e1〜e6までの接続関係を完全に再現している。一方、(e7,r8)に到達するパスについては、e1→e2→e3→e4→e5→e7と単位領域を接続しており、単位領域e6が接続されていない分、正規ラティスにおける単位領域e1〜e7までの接続関係の再現率が小さい。したがって、ここでは、(e8,r9)は、再現率が大きい(e6,r8)と連結される。
このように順次ノードを先行ノードと連結していくことにより、文字認識精度およびラティスにおける接続関係の双方の観点から、正規ラティスの単位領域と文字ラティスの単位領域との組み合わせを矛盾なく接続するパスがすべて生成される。そして、これらのパスの中から、再現率が最も大きいパスを最適パスとして選択することにより、正規ラティスの単位領域と文字ラティスの単位領域との最も正確な対応関係を得ることができる。なお、再現率とは、正規ラティスの接続関係における単位領域の個数に対するパスが経由するノードに対応する正規ラティスの単位領域の個数の割合であり、例えば図6に示した最適パスに関しては、正規ラティスにおいて単位領域e7を含まない接続関係における10個の単位領域のうち、10個すべての単位領域に対応するノードが連結されているため、再現率は1(=10/10)となる。
また、再現率が最大のパスが複数ある場合には、これらのパスの中から、適合率が最も大きいパスを最適パスとして選択すれば良い。適合率とは、文字ラティスの接続関係における単位領域の個数に対するパスが経由するノードに対応する文字ラティスの単位領域の個数の割合であり、例えば図6に示した最適パスに関しては、文字ラティスにおいて単位領域r5、r6を含まない接続関係における12個の単位領域のうち、10個の単位領域に対応するノードが連結されているため、適合率は0.83(≒10/12)となる。
以上のように、本実施の形態によれば、文字ラティスの単位領域と正規ラティスの単位領域とのすべての組み合わせのうち認識信頼度が所定の閾値以上の組み合わせをノードとする対応テーブル上において、ノードを連結するパスを生成して再現率および適合率が最も大きい最適パスを決定する。このため、正規ラティスおよび文字ラティスの双方と矛盾しない単位領域の組み合わせを決定することができ、正規ラティスに文字数が変動するワイルドカードが含まれている場合でも、正確に単位領域の対応関係を決定することができる。そして、最適パスの決定により単位領域の対応関係を決定した上で、最適パスに対応する文字ラティスの単位領域を含む対象領域を抽出して、対象領域内のパターンに対してカテゴリ別の文字認識をするため、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識することができる。
なお、上記一実施の形態においては、対象領域が抽出された後、対象領域内のパターンに対してカテゴリ別の文字認識を実行するものとした。この場合、例えば図14上段に示すように、対象領域内のノイズパターン301に対してもカテゴリ別の文字認識が実行される。したがって、図14下段に示すように、ノイズパターン301が例えば「月」の文字に誤認識されるが、この文字認識結果については認識精度が低いと考えられるため、認識精度が所定基準以下となる破線で囲まれた領域は、空白にするようにすれば良い。
また、最適パス決定部110によって最適パスが決定された段階で、正規ラティスにおける単位領域と文字ラティスにおける単位領域との対応関係が得られるため、それぞれの単位領域ごとにカテゴリ別の文字認識を実行しても良い。この場合には、図7中段に示すように、ノイズパターンが最適パスに対応する単位領域に含まれないため、文字認識精度をさらに向上することが可能となる。
なお、上記一実施の形態においては、文字認識装置100によって対象領域の抽出処理および文字認識処理が実行されるものとしたが、これらの処理をコンピュータが読み取り可能な形式のプログラムとして記述し、このプログラムをコンピュータに実行させることも可能である。
以上の実施の形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータによって実行される領域抽出プログラムであって、前記コンピュータに、
画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと
を実行させることを特徴とする領域抽出プログラム。
(付記2)前記生成ステップは、
他のノードと新たに連結される新規連結ノードと、既に他のノードと連結済みの先行ノードであって文字ラティスおよび正規ラティスが示す単位領域の接続関係において新規連結ノードに対応する単位領域から所定範囲内にある単位領域の組み合わせの先行ノードとを抽出するノード抽出ステップと、
前記ノード抽出ステップにて抽出された先行ノードのうち、さらに先行するノードとの連結数が最も多い先行ノードと新規連結ノードとを連結するノード連結ステップと
を含むことを特徴とする付記1記載の領域抽出プログラム。
(付記3)前記連結ステップは、
連結数が最も多い先行ノードが複数ある場合に、該当する複数の先行ノードのうち、正規ラティスが示す単位領域の接続関係を再現する再現率に基づいてパスに含まれる先行ノードと新規連結ノードとを連結することを特徴とする付記2記載の領域抽出プログラム。
(付記4)前記決定ステップは、
正規ラティスが示す単位領域の接続関係を再現する再現率に基づいて最適パスを決定することを特徴とする付記1記載の領域抽出プログラム。
(付記5)前記決定ステップは、
再現率が最も大きいパスが複数ある場合に、該当する複数のパスのうち、文字ラティスが示す単位領域の接続関係に適合する適合率に基づいて最適パスを決定することを特徴とする付記4記載の領域抽出プログラム。
(付記6)前記判定ステップは、
単位領域の組み合わせそれぞれにおける文字ラティスの単位領域内のパターンに対して、すべての文字を収録した文字別辞書を用いて文字認識を実行した場合の文字認識精度と、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行した場合の文字認識精度との比を示す認識信頼度を算出する算出ステップを含み、
前記算出ステップにて算出された認識信頼度が所定の基準を満たす組み合わせが成立する可能性があると判定することを特徴とする付記1記載の領域抽出プログラム。
(付記7)コンピュータによって実行される文字認識プログラムであって、前記コンピュータに、
画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、
前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップと
を実行させることを特徴とする文字認識プログラム。
(付記8)画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得手段と、
前記取得手段によって取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定手段と、
前記判定手段によって成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成手段と、
前記生成手段によって生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定手段と、
前記決定手段によって決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出手段と、
前記抽出手段によって抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識手段と
を有することを特徴とする文字認識装置。
(付記9)画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係接続関係を示す文字ラティスを取得する取得ステップと、
前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、
前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップと
を有することを特徴とする文字認識方法。
本発明は、文字数が変動する正規表現で表された情報を効率良くかつ正確に文字認識する場合などに適用することができる。
一実施の形態に係る文字認識装置の要部構成を示すブロック図である。 一実施の形態に係る正規ラティスの一例を示す図である。 一実施の形態に係る前処理結果の一例を示す図である。 一実施の形態に係る文字ラティスの一例を示す図である。 一実施の形態に係る対応テーブルの一例を示す図である。 一実施の形態に係る最適パスの一例を示す図である。 一実施の形態に係る対象領域の一例を示す図である。 一実施の形態に係る文字認識装置の動作を示すフロー図である。 一実施の形態に係る対応テーブル生成処理を示すフロー図である。 一実施の形態に係るパス生成処理を示すフロー図である。 一実施の形態に係るノード連結の一例を示す図である。 一実施の形態に係るノード連結の他の一例を示す図である。 一実施の形態に係るノード連結のさらに他の一例を示す図である。 一実施の形態に係る文字認識結果の一例を示す図である。
符号の説明
101 前処理部
102 文字別辞書記憶部
103 正規ラティス記憶部
104 カテゴリ別辞書記憶部
105 対象文字列抽出部
106 文字列領域拡大部
107 文字ラティス生成部
108 認識信頼度算出部
109 パス生成部
110 最適パス決定部
111 対象領域抽出部
112 カテゴリ別認識部

Claims (8)

  1. コンピュータによって実行される領域抽出プログラムであって、前記コンピュータに、
    画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
    前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
    前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
    前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
    前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと
    を実行させることを特徴とする領域抽出プログラム。
  2. 前記生成ステップは、
    他のノードと新たに連結される新規連結ノードと、既に他のノードと連結済みの先行ノードであって文字ラティスおよび正規ラティスが示す単位領域の接続関係において新規連結ノードに対応する単位領域から所定範囲内にある単位領域の組み合わせの先行ノードとを抽出するノード抽出ステップと、
    前記ノード抽出ステップにて抽出された先行ノードのうち、さらに先行するノードとの連結数が最も多い先行ノードと新規連結ノードとを連結するノード連結ステップと
    を含むことを特徴とする請求項1記載の領域抽出プログラム。
  3. 前記連結ステップは、
    連結数が最も多い先行ノードが複数ある場合に、該当する複数の先行ノードのうち、正規ラティスが示す単位領域の接続関係を再現する再現率に基づいてパスに含まれる先行ノードと新規連結ノードとを連結することを特徴とする請求項2記載の領域抽出プログラム。
  4. 前記決定ステップは、
    正規ラティスが示す単位領域の接続関係を再現する再現率に基づいて最適パスを決定することを特徴とする請求項1記載の領域抽出プログラム。
  5. 前記決定ステップは、
    再現率が最も大きいパスが複数ある場合に、該当する複数のパスのうち、文字ラティスが示す単位領域の接続関係に適合する適合率に基づいて最適パスを決定することを特徴とする請求項4記載の領域抽出プログラム。
  6. コンピュータによって実行される文字認識プログラムであって、前記コンピュータに、
    画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
    前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
    前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
    前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
    前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、
    前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップと
    を実行させることを特徴とする文字認識プログラム。
  7. 画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得手段と、
    前記取得手段によって取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定手段と、
    前記判定手段によって成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成手段と、
    前記生成手段によって生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定手段と、
    前記決定手段によって決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出手段と、
    前記抽出手段によって抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識手段と
    を有することを特徴とする文字認識装置。
  8. 画像内の文字列パターンを各々1文字分に相当すると認識されたパターンに区分して得られる単位領域の接続関係を示す文字ラティスを取得する取得ステップと、
    前記取得ステップにて取得された文字ラティスの個々の単位領域と、前記単位領域の正規の接続関係を定義する正規ラティスの個々の単位領域とのすべての組み合わせについて、それぞれ組み合わせが成立する可能性があるか否かを判定する判定ステップと、
    前記判定ステップにて成立する可能性があると判定された単位領域の組み合わせに対応するノード間を連結するパスを生成する生成ステップと、
    前記生成ステップにて生成されたパスの中から、正規ラティスまたは文字ラティスとの一致度に基づいて最適パスを決定する決定ステップと、
    前記決定ステップにて決定された最適パスに対応する文字ラティスの単位領域を画像から抽出する抽出ステップと、
    前記抽出ステップにて抽出された単位領域内のパターンに対して、正規ラティスの単位領域が属するカテゴリの文字のみを収録したカテゴリ別辞書を用いて文字認識を実行する認識ステップと
    を有することを特徴とする文字認識方法。
JP2008030887A 2008-02-12 2008-02-12 領域抽出プログラム、文字認識プログラム、および文字認識装置 Expired - Fee Related JP5125573B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008030887A JP5125573B2 (ja) 2008-02-12 2008-02-12 領域抽出プログラム、文字認識プログラム、および文字認識装置
US12/366,004 US8300942B2 (en) 2008-02-12 2009-02-05 Area extraction program, character recognition program, and character recognition device
CN200910007304XA CN101510252B (zh) 2008-02-12 2009-02-11 区域提取方法、字符识别方法以及字符识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008030887A JP5125573B2 (ja) 2008-02-12 2008-02-12 領域抽出プログラム、文字認識プログラム、および文字認識装置

Publications (2)

Publication Number Publication Date
JP2009193159A JP2009193159A (ja) 2009-08-27
JP5125573B2 true JP5125573B2 (ja) 2013-01-23

Family

ID=40938929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008030887A Expired - Fee Related JP5125573B2 (ja) 2008-02-12 2008-02-12 領域抽出プログラム、文字認識プログラム、および文字認識装置

Country Status (3)

Country Link
US (1) US8300942B2 (ja)
JP (1) JP5125573B2 (ja)
CN (1) CN101510252B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101639074B1 (ko) 2009-07-31 2016-07-12 삼성전자주식회사 터치스크린을 이용한 문자 인식 및 문자 입력 장치 및 그 방법
MD4135C1 (ro) * 2010-01-19 2012-05-31 Vladimir Şchiliov Procedeu de aplicare a marcajelor de identificare pe obiecte
JP5699570B2 (ja) * 2010-11-30 2015-04-15 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8831381B2 (en) 2012-01-26 2014-09-09 Qualcomm Incorporated Detecting and correcting skew in regions of text in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
JP5831420B2 (ja) 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
EP2992449B1 (en) * 2013-04-30 2021-06-02 Hewlett-Packard Development Company, L.P. Creation of a hierarchical dictionary
CN104573683B (zh) * 2013-10-21 2018-02-16 富士通株式会社 字符串识别方法和装置
CN107622266B (zh) * 2017-09-21 2019-05-07 平安科技(深圳)有限公司 一种ocr识别的处理方法、存储介质和服务器
CN110084393B (zh) * 2018-01-26 2024-03-08 北京搜狗科技发展有限公司 一种路径信息的处理方法、装置及电子设备
CN111079709B (zh) * 2019-12-31 2021-04-20 广州市昊链信息科技股份有限公司 一种电子单据的生成方法、装置、计算机设备和存储介质
CN111079708B (zh) * 2019-12-31 2020-12-29 广州市昊链信息科技股份有限公司 一种信息识别方法、装置、计算机设备和存储介质
CN111695441B (zh) * 2020-05-20 2024-05-10 平安科技(深圳)有限公司 图像文档处理方法、装置及计算机可读存储介质
US11978267B2 (en) 2022-04-22 2024-05-07 Verkada Inc. Automatic multi-plate recognition
US11557133B1 (en) * 2022-04-22 2023-01-17 Verkada Inc. Automatic license plate recognition

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0585944B1 (en) * 1992-09-04 2002-12-11 Canon Kabushiki Kaisha Method and apparatus for displaying characters
JP3152871B2 (ja) * 1995-11-10 2001-04-03 富士通株式会社 ラティスをキーとした検索を行う辞書検索装置および方法
JPH09245120A (ja) * 1996-03-11 1997-09-19 Hitachi Ltd 文字切出し方法
JP3727422B2 (ja) * 1996-09-03 2005-12-14 松下電器産業株式会社 文字認識装置及びその方法
JP3380136B2 (ja) * 1997-04-22 2003-02-24 富士通株式会社 表画像のフォーマットを識別するフォーマット識別装置および方法
US6891972B2 (en) * 1997-12-19 2005-05-10 Canon Kabushiki Kaisha Communication system and control method thereof, and computer-readable memory
JP3145071B2 (ja) 1998-03-25 2001-03-12 株式会社日立製作所 文字認識方法および装置
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
JP4332356B2 (ja) * 2003-01-22 2009-09-16 キヤノン株式会社 情報検索装置及び方法並びに制御プログラム
CN1332348C (zh) * 2005-09-23 2007-08-15 清华大学 印刷体阿拉伯字符集文本切分方法
WO2007080642A1 (ja) 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置

Also Published As

Publication number Publication date
JP2009193159A (ja) 2009-08-27
US8300942B2 (en) 2012-10-30
CN101510252A (zh) 2009-08-19
US20090202152A1 (en) 2009-08-13
CN101510252B (zh) 2012-05-30

Similar Documents

Publication Publication Date Title
JP5125573B2 (ja) 領域抽出プログラム、文字認識プログラム、および文字認識装置
US11922318B2 (en) System and method of character recognition using fully convolutional neural networks with attention
CN107357778B (zh) 一种变形词的识别验证方法及系统
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
US9711117B2 (en) Method and apparatus for recognising music symbols
KR100412317B1 (ko) 문자인식/수정방법및장치
KR20120011010A (ko) 수기 인식 방법 및 장치
US7702145B2 (en) Adapting a neural network for individual style
US10963717B1 (en) Auto-correction of pattern defined strings
JP2010256498A (ja) 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
WO2016181468A1 (ja) パターン認識装置、パターン認識方法およびプログラム
JP4834351B2 (ja) 文字認識装置及び文字認識方法
JP6451316B2 (ja) 文字認識プログラム、文字認識方法及び文字認識装置
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4985724B2 (ja) 単語認識プログラム、単語認識方法、単語認識装置
WO2016181470A1 (ja) 認識装置、認識方法およびプログラム
JP2022095391A (ja) 情報処理装置、及び情報処理プログラム
Premaratne et al. Lexicon and hidden Markov model-based optimisation of the recognised Sinhala script
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
US8265377B2 (en) Cursive handwriting recognition with hierarchical prototype search
Mohapatra et al. Spell checker for OCR
JP6320089B2 (ja) 認識装置、認識方法およびプログラム
JP5712415B2 (ja) 帳票処理システム及び帳票処理方法
JP2006139659A (ja) 単語認識装置、単語認識方法、単語認識プログラム
JP2015153240A (ja) パターン認識装置、パターン認識方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees