JP3919390B2 - 文字認識装置 - Google Patents
文字認識装置 Download PDFInfo
- Publication number
- JP3919390B2 JP3919390B2 JP23442499A JP23442499A JP3919390B2 JP 3919390 B2 JP3919390 B2 JP 3919390B2 JP 23442499 A JP23442499 A JP 23442499A JP 23442499 A JP23442499 A JP 23442499A JP 3919390 B2 JP3919390 B2 JP 3919390B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition
- character recognition
- area
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、入力された帳票などの所定の領域に記載された文字列を認識する文字認識方法などに係わり、特に、記載された認識対象文字が定められた記載領域からはみ出したりしても適切な文字認識ができる文字認識方法などに関する。
【0002】
【従来の技術】
帳票などに記載された文字列の文字を認識するためには、帳票上から、認識対象の文字列のある部分の文字画像を切り出す処理が必要である。そのため、例えば図9(a)に示したような文書上の会員番号と氏名を認識しようとする場合、図9(b)に示すように、それぞれについて、記入領域を示す破線で囲んだ矩形領域を文書上に印刷しておくと共に、その記入領域を示す文字領域情報を図9(c)に示すように記憶させておく。そして、記憶されている文字領域情報に従って文字画像を切り出し、切り出した文字画像を認識する。
しかし、前記のような文字認識においては、様々な原因により文字画像切り出しの際、図10(a)に示すように切り出された画像の中に認識対象の文字画像がきちんと収まらず、図10(b)に示すように一部が欠けた状態で文字画像が切り出されるというような問題がある。例えば、スキャナ(画像読み取り装置)などにより文書画像を入力する際には搬送系の搬送精度により読み込んだ画像にずれが生じることがあるし、認識対象の文字列を帳票などの所定位置にプリンタにより印刷する際にも印刷位置が記入領域からずれることがあるし、人間が直接文字列を書き込む際にも記入領域からずれるというようなことがあるのである。
このような問題を解決するため、特開平7-160809号公報に示された従来技術では、認識対象文字が記入領域の端部に接触しているか否かを検出する検出手段を備え、その検出手段による検出結果と文字認識結果から文字が記入領域からはみ出しているか否かを判定し、はみ出していれば、文字画像を切り出す領域をそのはみ出し方向にずらして切り出す。
【0003】
【発明が解決しようとする課題】
しかしながら、特開平7-160809号公報に示された前記の従来技術においては、はみ出しているか否かを判定するために少なくとも記入領域の1行分の画素値を調べる処理のために時間がかかるし、領域を一度ずらすだけではみ出しを吸収できなければ同じ処理を何度もくり返すことになり、処理時間がさらに増大する。また、図11に示すように切り出された文字領域に他の文字が混入して、その文字領域の上下においてはみ出し状態を検出すると、切り出す文字領域をどちらにずらしてよいかわからないというような問題もある。
本発明の課題は、このような従来技術の問題を解決し、記載された認識対象文字が定められた記載領域からはみ出したり、ずれて読み取られたりしても適切な文字認識ができ、且つそのために多大な処理時間を必要とせず、処理不可能ということも生じない文字認識方法などを提供することにある。
【0004】
【課題を解決するための手段】
前記の課題を解決するために、請求項1記載の発明では、認識対象文字の存在領域を示す文字領域情報に従って文字領域に記載されている文字を認識する文字認識装置において、認識対象の一つの文字情報について互いにずれた複数の文字領域情報を記憶しておく文字領域記憶手段と、前記文字領域記憶手段に記憶された複数の文字領域情報に従って認識対象の一つの文字情報について複数の文字画像を切り出す文字画像切り出し手段と、前記文字画像切り出し手段により切り出された複数の文字画像のそれぞれについて文字認識を行う文字認識手段と、前記文字認識手段による前記複数の文字画像の文字認識結果であるそれぞれの確信度により複数の文字認識結果の中から最も確からしい文字認識結果を選択する認識結果選択手段とを備えた。
また、請求項2記載の発明では、請求項1記載の発明において、文字画像切り出し手段により切り出された複数の文字画像のそれぞれについて文字画像の幾何学的特徴量を算出する特徴量算出手段を備え、文字認識手段による複数の文字画像の文字認識結果であるそれぞれの確信度と、前記特徴量算出手段により算出された複数の文字画像の幾何学的特徴量とにより複数の文字認識結果の中から最も確からしい文字認識結果を選択するように認識結果選択手段を構成した。
【0005】
前記のような手段にしたので、請求項1記載の発明では、認識対象の一つの文字情報について互いにずれた複数の文字領域情報が記憶しておかれ、記憶された前記複数の文字領域情報に従って認識対象の一つの文字情報について複数の文字画像が切り出され、切り出された複数の文字画像のそれぞれについて文字認識が行われ、前記複数の文字画像の文字認識結果であるそれぞれの確信度により複数の文字認識結果の中から最も確からしい文字認識結果が選択される。
請求項2記載の発明では、請求項1記載の発明において、切り出された複数の文字画像のそれぞれについて文字画像の幾何学的特徴量が算出され、複数の文字画像の文字認識結果であるそれぞれの確信度と、算出された複数の文字画像の幾何学的特徴量とにより複数の文字認識結果の中から最も確からしい文字認識結果が選択される。
【0006】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図1は本発明の第1の実施形態を示す文字認識装置の構成ブロック図である。図示したように、この実施形態の文字認識装置は、認識対象の一つの文字情報について互いにずれた複数の文字領域情報を記憶しておく文字領域情報記憶部1、文字認識処理を行うための文字認識辞書を記憶させておく文字認識辞書記憶部2、帳票など文書上の画像を読み取る画像入力装置3、前記文字領域情報記憶部1に記憶された複数の文字領域情報に従って認識対象の一つの文字情報について複数の文字画像を切り出す文字画像抽出部4、切り出されたそれぞれの文字画像中の文字を前記文字認識辞書に基づいて認識する文字認識部5、前記文字認識部5による文字認識結果であるそれぞれの確信度により複数の文字認識結果の中から最も確からしい文字認識結果を選択する認識結果選択部6、選択結果を最終的な文字認識結果として出力する結果出力部7を備えている。なお、文字画像抽出部4、文字認識部5、認識結果選択部6、結果出力部7は、プログラムを記憶したメモリおよびそのプログラムに従って動作する共用または専用のCPUを有する。なお、本実施形態では、請求項1などに記載されている文字領域記憶手段、文字画像切り出し手段、文字認識手段、認識結果選択手段をそれぞれ前記文字領域記憶部1,文字画像抽出部4,文字認識部5、認識結果選択部6により実現している。
【0007】
図2に、第1の実施形態の動作フローを示す。以下、図2などに従って、この実施形態の動作を説明する。
まず、画像入力装置3により帳票など文書上から文書画像データを読み取る(ステップS1)。そして、文字画像抽出部4がその文書画像データを受け取ると、その文字画像抽出部4は図3(b)の1行目に示すような1番目の文字領域情報(図示の例では「会員番号」記載領域の文字領域情報)を文字領域情報記憶部1から取得する。なお、文字領域情報記憶部1には、「会員番号」、「氏名」など認識対象の各文字領域について文字情報の項目とそれぞれ複数の文字領域情報とを対応付けて予め記憶させておく。図3に示したように、ずれが生じていない場合を想定した文字領域情報(「氏名」の場合について図3(a)に破線で示している)と下方にずれた場合を想定した文字領域情報(図3(a)に1点鎖線で示している)と上方にずれた場合を想定した文字領域情報(図3(a)に2点鎖線で示している)などを記憶させておくのである。なお、図3(b)において、それぞれの文字領域情報は矩形の左上の座標(x,y)と右下の座標(x,y)で示している。
続いて、文字画像抽出部4は取得した1番目の認識対象文字領域中の最初(図3の例では3つのうちの最初)の文字領域情報に従って文字画像を切り出す(抽出する)(ステップS2)。さらに、次の文字領域情報に従って文字画像を切り出し(ステップS3でNo,ステップS2)、取得したすべての文字領域情報に従った文字画像切り出しが終了したとき(ステップS3でYes)、図4に示すように、ずれて切り出されて文字の一部が欠如していたり他の文字画像が入り込んだ文字画像(a図)、文字の一部が欠如した文字画像(b図)、正しく切り出された文字画像(c図)などが得られる。
次に、文字認識部5が、文字認識辞書記憶部2に記憶されている文字認識辞書に基づいて切り出された一つの文字画像について文字認識を行う(ステップS4)。なお、文字認識方法は公知の方法によっているので説明を省略する。
【0008】
さらに、他の切り出された文字画像についても文字認識を行い(ステップS5でNo,ステップS4)、切り出したすべての文字画像の文字認識が終了すると(ステップS5でYes)、ステップS6へ進む。なお、文字認識部5は、文字認識結果として文字コードと共に、文字認識の確からしさを示す確信度を出力するが、ずれて切り出された文字画像については文字画像が完全な文字の形をしていないために誤って認識されることが多く、且つその確信度は小さくなり、正しく切り出された文字画像については正しく認識されることが多く、確信度が大きくなる。
ステップS6では、認識結果選択部6が複数の文字画像切り出しに対応した複数の認識結果中の確信度を比較し、最も大きい確信度を持つ文字認識結果を選択し、それを当該認識対象文字領域の文字認識結果とする(ステップS6)。そして、すべての認識対象文字領域について文字認識が終了して認識結果としての文字情報(文字コード情報)が得られたか否かを判定し(ステップS7)、得られていなければ(例えば「会員番号」については認識結果を得たが、「氏名」についてはまだ認識を行っていなければ)(ステップS7でNo)、次の認識対象文字領域についてステップS2からくり返す。
こうして、すべての認識対象文字領域について文字認識を終了すると(ステップS7でYes)、各認識対象文字領域の文字認識結果を出力して(ステップS8)、この動作フローを終了させる。
このようにして、本発明の第1の実施形態によれば、記載された認識対象文字が定められた記載領域からはみ出したり、ずれて読み取られたりしても適切な文字認識ができ、且つそのための処理が簡単なので、多大な処理時間を必要とせず、従来技術のように処理不可能ということも生じない。
【0009】
図5は、本発明の第2の実施形態を示す文字認識装置の構成ブロック図である。図示したように、この実施形態の文字認識装置は、図1に示した第1の実施形態の構成に加えて、文字画像抽出部4により切り出された複数の文字画像のそれぞれについて文字画像の幾何学的特徴量を算出する特徴量計算部(特徴量算出手段)8を備える。なお、この特徴量計算部8はプログラムに従って動作する専用または共用のCPUなどを有する。
図6に、第2の実施形態の動作フローを示す。以下、図6などに従って、この実施形態の動作を説明する。
まず、画像入力装置3により帳票など文書上から文書画像データを読み取る(ステップS11)。そして、文字画像抽出部4がその文書画像データを受け取ると、文字画像抽出部4は図3(b)の1行目に示すような1番目の文字領域情報(図示の例では「会員番号」記載領域の文字領域情報)を文字領域情報記憶部1から取得する。なお、文字領域記憶部1には、図3に示したように、ずれが生じていない場合を想定した文字領域情報と下方にずれた場合を想定した文字領域情報と上方にずれた場合を想定した文字領域情報などを予め記憶させておく。
続いて、文字画像抽出部4は取得した1番目の認識対象文字領域中の最初(図3の例では3つのうちの最初)の文字領域情報に従って文字画像を切り出す(抽出する)(ステップS12)。さらに、次の文字領域情報に従って文字画像を切り出し(ステップS13でNo,ステップS12)、取得したすべての文字領域情報に従った文字画像切り出しが終了すると(ステップS13でYes)、文字認識部5が、文字認識辞書記憶部2に記憶されている文字認識辞書に基づいて切り出された一つの文字画像について文字認識を行う(ステップS14)。なお、文字認識部5は、文字認識結果として文字コードと共に、文字認識の確からしさを示す確信度を出力するが、一般的には、ずれて切り出された文字画像については文字画像が完全な文字の形をしていないためにその確信度は小さくなり、正しく切り出された文字画像については確信度が大きくなる。
【0010】
しかし、図7に示した、ずれて切り出された文字画像(a図)の確信度が、正しく切り出された文字画像(b図)の確信度と同様に、確信度が大きくなってしまう場合がある。例えば図7(a)の場合では、「7781011」と認識され、ずれ量が少なかったりすると、「7781911」と認識されるが、この場合、その確信度も大きくなってしまうのである。したがって、確信度に従って最終的文字認識結果を選択するということが不可能になってしまう。そこで、この実施形態では、文字認識と並行して、特徴量計算部8が文字画像の幾何学的特徴量を計算する(ステップS15)。文字画像が文字領域からはみ出すような場合は、一般に、その文字画像が文字領域内で偏って位置することになるので、文字画像の幾何学的特徴量として例えば文字画像の文字領域内での偏りを表す値を求めて比較するのである。図8の例では、水平方向に黒画素値のヒストグラムを求め、その平均位置と文字領域の中心位置とのずれ量を求め、そのずれ量から幾何学的特徴量を求めている。なお、前記においては、文字認識と特徴量算出を並行に行うように説明したが、どちらか一方を先に行い、その終了後に他方を行うようにしてもよい。
さらに、他の切り出された文字画像についても文字認識を行い(ステップS16でNo,ステップS14)、特徴量計算を行い(ステップS16でNo,ステップS15)、切り出したすべての文字画像の両方の処理が終了すると(ステップS16でYes)、ステップS17へ進む。
ステップS17では、認識結果選択部6が複数の文字画像切り出しに対応した複数の認識結果中の確信度を比較すると共に、幾何学的特徴量を比較し、両方の比較結果に従って文字認識結果を選択し、それを当該認識対象文字領域の文字認識結果とする(ステップS17)。
そして、すべての認識対象文字領域について文字認識処理と特徴量算出が終了し、認識結果としての文字情報(文字コード情報)が得られたか否かを判定し(ステップS18)、得られていなければ(例えば「会員番号」については認識結果を得たが、「氏名」についてはまだ認識を行っていなければ)(ステップS18でNo)、次の認識対象文字領域についてステップS12からくり返す。
こうして、すべての認識対象文字領域について終了すると(ステップS18でYes)、各認識対象文字領域の文字認識結果を出力して(ステップS19)、この動作フローを終了させる。
【0011】
このように、本発明の第2の実施形態によれば、記載された認識対象文字が定められた記載領域からはみ出したり、ずれて読み取られたりしても適切な文字認識ができ、且つそのための処理が簡単なので、多大な処理時間を必要とせず、従来技術のように処理不可能ということも生じない。しかも、文字画像の幾何学的特徴も考慮して最終的な文字認識結果を選択するので、より精度の高い文字認識結果が得られる。
以上、専用の文字認識装置の場合で本発明の実施形態を説明したが、本発明は、本発明によったプログラムを備えることによりパーソナルコンピュータなど汎用の情報処理装置に実施することも可能である。また、本発明によったプログラムを着脱可能な記憶媒体に記憶させることにより、その記憶媒体をそれまで本発明によった文字認識を行うことができなかった情報処理装置に装着して、その情報処理装置において本発明によった文字認識を行うことも可能である。
【0012】
【発明の効果】
以上説明したように、本発明によれば、請求項1記載の発明では、認識対象の一つの文字情報について互いにずれた複数の文字領域情報が記憶しておかれ、記憶された前記複数の文字領域情報に従って認識対象の一つの文字情報について複数の文字画像が切り出され、切り出された複数の文字画像のそれぞれについて文字認識が行われ、前記複数の文字画像の文字認識結果であるそれぞれの確信度により複数の文字認識結果の中から最も確からしい文字認識結果が選択されるので、記載された認識対象文字が定められた記載領域からはみ出したり、ずれて読み取られたりしても適切な文字認識ができ、且つそのために多大な処理時間を必要とせず、従来技術のように切り出し領域をどちらにずらすか判断する必要がないので、どちらにずらしてよいかわからないという事態も生じない。
また、請求項2記載の発明では、請求項1記載の発明において、切り出された複数の文字画像のそれぞれについて文字画像の幾何学的特徴量が算出され、複数の文字画像の文字認識結果であるそれぞれの確信度と、算出された複数の文字画像の幾何学的特徴量とにより複数の文字認識結果の中から最も確からしい文字認識結果が選択されるので、請求項1の発明の効果を得られるだけでなく、より精度の高い文字認識結果が得られる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態を示す文字認識装置の構成ブロック図である。
【図2】本発明の第1の実施形態を示す文字認識方法の動作フロー図である。
【図3】本発明の第1の実施形態を示す文字認識方法の説明図である。
【図4】本発明の第1の実施形態を示す文字認識方法の他の説明図である。
【図5】本発明の第2の実施形態を示す文字認識装置の構成ブロック図である。
【図6】本発明の第2の実施形態を示す文字認識方法の動作フロー図である。
【図7】本発明の第2の実施形態を示す文字認識方法の説明図である。
【図8】本発明の第2の実施形態を示す文字認識方法の他の説明図である。
【図9】従来技術の一例を示す説明図である。
【図10】従来技術の一例を示す他の説明図である。
【図11】従来技術の一例を示す他の説明図である。
【符号の説明】
1 文字領域情報記憶部
2 文字認識辞書記憶部
3 画像入力装置
4 文字画像抽出部
5 文字認識部
6 認識結果選択部
7 結果出力部
Claims (2)
- 認識対象文字の存在領域を示す文字領域情報に従って文字領域に記載されている文字を認識する文字認識装置において、
認識対象の一つの文字情報について互いにずれた複数の文字領域情報を記憶しておく文字領域記憶手段と、前記文字領域記憶手段に記憶された複数の文字領域情報に従って認識対象の一つの文字情報について複数の文字画像を切り出す文字画像切り出し手段と、前記文字画像切り出し手段により切り出された複数の文字画像のそれぞれについて文字認識を行う文字認識手段と、前記文字認識手段による前記複数の文字画像の文字認識結果であるそれぞれの確信度により複数の文字認識結果の中から最も確からしい文字認識結果を選択する認識結果選択手段とを備えたことを特徴とする文字認識装置。 - 請求項1記載の文字認識装置において、文字画像切り出し手段により切り出された複数の文字画像のそれぞれについて文字画像の幾何学的特徴量を算出する特徴量算出手段を備え、文字認識手段による複数の文字画像の文字認識結果であるそれぞれの確信度と、前記特徴量算出手段により算出された複数の文字画像の幾何学的特徴量とにより複数の文字認識結果の中から最も確からしい文字認識結果を選択するように認識結果選択手段を構成したことを特徴とする文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23442499A JP3919390B2 (ja) | 1999-08-20 | 1999-08-20 | 文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23442499A JP3919390B2 (ja) | 1999-08-20 | 1999-08-20 | 文字認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001060252A JP2001060252A (ja) | 2001-03-06 |
JP3919390B2 true JP3919390B2 (ja) | 2007-05-23 |
Family
ID=16970812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23442499A Expired - Fee Related JP3919390B2 (ja) | 1999-08-20 | 1999-08-20 | 文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3919390B2 (ja) |
-
1999
- 1999-08-20 JP JP23442499A patent/JP3919390B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001060252A (ja) | 2001-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0738987B1 (en) | Processing machine readable forms | |
US7580571B2 (en) | Method and apparatus for detecting an orientation of characters in a document image | |
JP5334042B2 (ja) | 文字列認識方法及び文字列認識装置 | |
US6563949B1 (en) | Character string extraction apparatus and pattern extraction apparatus | |
US5502777A (en) | Method and apparatus for recognizing table and figure having many lateral and longitudinal lines | |
US7149352B2 (en) | Image processing device, program product and system | |
JP5011508B2 (ja) | 文字列認識方法及び文字列認識装置 | |
JP3099797B2 (ja) | 文字認識装置 | |
JP3919390B2 (ja) | 文字認識装置 | |
JPH02293989A (ja) | 文字認識装置 | |
JP3276555B2 (ja) | フォーマット認識装置及び文字読取り装置 | |
JPH10154191A (ja) | 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体 | |
JP3412441B2 (ja) | 画像処理装置 | |
CN115131806B (zh) | 一种基于深度学习的各类证件ocr图像信息识别方法、系统 | |
JP2001236467A (ja) | パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体 | |
JP2002366893A (ja) | 帳票認識方法 | |
JP3848792B2 (ja) | 文字列認識方法及び記録媒体 | |
JP2002207960A (ja) | 認識文字修正方法及び認識文字修正プログラム | |
JP2993533B2 (ja) | 情報処理装置及び文字認識装置 | |
JPH05128308A (ja) | 文字認識装置 | |
JP2665226B2 (ja) | 文字認識装置 | |
JP3419418B2 (ja) | 文字読取方法および装置 | |
JPH10124610A (ja) | 光学式文字読取装置 | |
JP3334369B2 (ja) | 選択項目認識装置 | |
JPH10134145A (ja) | 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040715 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20040823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110223 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120223 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130223 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130223 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140223 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |