JP6118646B2 - Form processing device, form processing method, form processing program - Google Patents
Form processing device, form processing method, form processing program Download PDFInfo
- Publication number
- JP6118646B2 JP6118646B2 JP2013118849A JP2013118849A JP6118646B2 JP 6118646 B2 JP6118646 B2 JP 6118646B2 JP 2013118849 A JP2013118849 A JP 2013118849A JP 2013118849 A JP2013118849 A JP 2013118849A JP 6118646 B2 JP6118646 B2 JP 6118646B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- color
- unit
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 35
- 238000003672 processing method Methods 0.000 title claims 3
- 238000011156 evaluation Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 19
- 239000003086 colorant Substances 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000007639 printing Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Description
本発明は、OCR(Optical Character Reader:光学式文字読取装置)などにおける画像処理技術に関する。 The present invention relates to an image processing technique in an OCR (Optical Character Reader) or the like.
OCRを用いて文字を読取る場合、一般に2値化、文字行抽出、文字切り出し、文字識別、言語照合というステップを経る。個々の処理の概要は次のとおりである。2値化は、入力したカラー画像や濃淡画像から、文字を黒、その他を白とする2値画像を生成する処理である。文字行抽出は、画像内において文字が記載されている行領域を特定する処理である。文字切り出しは、文字行領域内における個々の文字領域を特定する処理である。文字識別は、個々の文字領域の画像に対して文字認識処理を実施し、その文字認識結果(文字コード)と確信度を求める処理である。言語照合は、あらかじめ登録済みの単語などと文字認識結果を照合し、文字認識結果の誤りを訂正する処理である。例えば国名を認識したい場合は、国名の単語を登録した辞書と文字認識結果を比較し、最も合致する単語を認識結果とみなす。 When a character is read using OCR, generally, steps of binarization, character line extraction, character segmentation, character identification, and language collation are performed. The outline of each processing is as follows. Binarization is processing for generating a binary image in which characters are black and others are white from an input color image or grayscale image. Character line extraction is a process for specifying a line area in which characters are described in an image. Character segmentation is a process of specifying individual character areas in a character line area. Character identification is a process of performing a character recognition process on an image of each character area and obtaining a character recognition result (character code) and a certainty factor. Language collation is a process of collating a character recognition result with a previously registered word or the like and correcting an error in the character recognition result. For example, when the country name is to be recognized, the character recognition result is compared with the dictionary in which the word of the country name is registered, and the most matching word is regarded as the recognition result.
文字識別の他、文字切り出しにおいても誤りが発生する。例えば「∝」を「oc」などのように誤って切り出す可能性がある。このような切り出し誤りは、文字のかすれや潰れによっても発生する。このような切り出し誤りを回避するためには、例えば考えられる全ての切り出しパターンについて文字識別を実施し、言語照合において最も合致する文字認識結果を最終結果とすることが考えられる。 In addition to character identification, errors also occur in character segmentation. For example, “∝” may be erroneously cut out like “oc”. Such a cut-out error also occurs due to blurring or crushing of characters. In order to avoid such cutout errors, for example, it is conceivable that character recognition is performed on all possible cutout patterns, and the character recognition result that most closely matches in language collation is used as the final result.
帳票を対象とするOCRにおいては、罫線や文字があらかじめ紙上に帳票の一部として印刷されており(プレ印刷と呼ぶ)、その上に記載された文字を認識する場合がある。OCRの読み取り対象である記載文字は、一般に黒や青で記載されることが多い。プレ印刷部分は、記載文字と区別するため、記載文字とは異なる色で印刷されていることが多い。 In an OCR for a form, ruled lines and characters are printed on paper as a part of the form in advance (referred to as pre-printing), and the characters described on the line may be recognized. In general, written characters to be read by the OCR are often written in black or blue. The pre-printed portion is often printed in a different color from the written characters in order to distinguish them from the written characters.
プレ印刷と記載文字が混在している帳票から文字行を認識する方法として、プレ印刷をドロップアウト(文字として認識しない)して記載文字のみ認識することが考えられる。この場合、認識すべき文字とプレ印刷が同じ色で記載されていると、これらを併せてドロップアウトすることにより言語照合ができなくなる課題がある。 As a method of recognizing a character line from a form in which pre-printing and written characters are mixed, it is conceivable to drop out pre-printed (not recognized as characters) and recognize only written characters. In this case, if the characters to be recognized and the pre-print are described in the same color, there is a problem that language collation cannot be performed by dropping them together.
下記特許文献1は、上記課題を解決するための技術として、プレ印刷文字と記載文字を併せて認識する手法を開示している。具体的には赤、緑、青、黒それぞれの色で抽出された2値画像を組み合わせて画像を合成し、合成画像に対して文字認識を実施して、手書き文字とプレ印刷文字を認識している。
The following
プレ印刷帳票上に記載された文字を認識する場合、プレ印刷部分に文字が重なって記載されている場合がある。この場合、上記特許文献1に記載されている技術においては、合成画像上においてもプレ印刷部分と文字部分が重なっているため、文字を識別することはできない。また、帳票の種類によっては、プレ印刷の色が必ずしも定まっていない場合があるので、上記特許文献1記載の技術によってはプレ印刷部分と文字部分を適切に分離することができない場合がある。
When recognizing characters written on a pre-printed form, the characters may be overlapped on the pre-printed portion. In this case, in the technique described in
本発明は、上記のような課題に鑑みてなされたものであり、帳票のプレ印刷部分と記載文字部分が重なっている場合であっても、記載文字を精度よく認識することができる帳票処理技術を実現することを目的とする。 The present invention has been made in view of the problems as described above, and is a form processing technology that can accurately recognize written characters even when the pre-printed portion and written character portion of the form overlap. It aims at realizing.
本発明に係る帳票処理装置は、帳票画像から色毎に文字を認識し、認識した文字の順序を入れ替えて複数の候補文字列を生成し、候補文字列と表記辞書内の文字列パターンとを比較することにより候補文字列を評価する。 The form processing apparatus according to the present invention recognizes characters for each color from a form image, generates a plurality of candidate character strings by changing the order of recognized characters, and obtains candidate character strings and character string patterns in a notation dictionary. The candidate character string is evaluated by comparing.
本発明に係る帳票処理装置によれば、帳票のプレ印刷部分と記載文字が重なっている場合であっても、記載文字を精度よく認識することができる。 According to the form processing apparatus according to the present invention, even if the pre-printed portion of the form and the written characters overlap, the written characters can be recognized with high accuracy.
<実施の形態1>
図1は、本発明の実施形態1に係る帳票処理装置100機能ブロック図である。帳票認識装置100は、帳票画像を処理する装置であり、画像入力部110、色抽出部120、文字認識部130、文字列生成部140、表記辞書読出部151、表記辞書152、文字列評価部160、記憶装置170、出力部180を備える。
<
FIG. 1 is a functional block diagram of a
画像入力部110は、例えばスキャナなどの装置を用いて構成され、帳票を画像データとして取り込む。色抽出部120は、取り込まれた帳票画像内の色を抽出する。文字認識部130は、抽出された色毎に文字を認識する。文字列生成部140は、後述の図4〜図7で説明する処理により、色毎の文字識別結果から最終認識結果の候補となる文字列を生成する。表記辞書読出部は、表記辞書152が格納している文字列パターンを読み出す。文字列評価部160は、文字列生成部140が生成した候補文字列と表記辞書152内の文字列パターンに対して言語照合を実施し、照合結果をスコア付けして評価する。出力部180は、文字列評価部160による評価結果を出力する。
The
表記辞書152は、帳票処理装置100が帳票を処理する際に参照する辞書データベースである。表記辞書152は、具体的には、帳票処理装置100が文字認識を実施する際に参照する文字認識辞書、言語照合を実施する際に参照する知識辞書、帳票レイアウトを特定する際に参照するレイアウト情報、などを格納する。知識辞書は、例えば日付、金額、住所、氏名、口座番号といった項目を有する。各辞書は、後述の図7で例示する文字列パターンを保持している。記憶装置170は、帳票処理装置100が処理する帳票画像データを格納する。
The
文字認識部130は、帳票画像の2値化、文字行抽出、文字切り出し、文字認識を実施する。文字行抽出においては例えば、文字が記載されていると予想される矩形領域を連結し、その全体を包含する矩形を文字行とみなすことができる。
The
上記各機能部は、その機能を実現する回路デバイスなどのハードウェアを用いて実現することもできるし、その機能を実装したソフトウェアをCPU(Central Processing Unit)などの演算装置が実行することによって実現することもできる。 Each of the above functional units can be realized by using hardware such as a circuit device that realizes the function, or realized by executing a software that implements the function by an arithmetic unit such as a CPU (Central Processing Unit). You can also
表記辞書152と記憶装置170は、ハードディスク装置などの記憶装置にデータを格納することによって実現することができる。出力部180の出力形式は、例えば任意の通信線を介して出力するデータ形式でもよいし、画面上にGUI(Graphical User Interface)として出力する形式でもよい。
The
図2は、プレ印刷文字と記載文字が重なっている場合における文字認識結果の1例を示す図である。カラー帳票画像201において、プレ印刷文字202の上に印字ずれにより記載文字203が重なっている。2値化画像204は、カラー帳票画像201を2値化した画像である。領域205は、プレ印刷文字202と記載文字203が重なりあった領域である。文字行206は、2値化画像204内の文字行部分を抽出した結果を示す。認識結果207は、文字行206から文字を切り出して文字識別を実施した結果である。プレ印刷文字202と記載文字203が重なっていない部分は文字を識別できているが、重なっている部分は識別結果がないかまたは誤った文字として識別される。
FIG. 2 is a diagram illustrating an example of a character recognition result when the pre-printed characters and the written characters overlap. In the
図2に例示するように、プレ印刷文字と記載文字が重なっている場合には、その2値化画像に対してまま文字認識を実施しても、重なっている部分の文字認識結果を得ることは困難である。そこで本実施形態1においては、以下に説明する手法によりプレ印刷部分と記載文字部分を分離する。 As illustrated in FIG. 2, when the pre-printed character and the written character overlap, even if character recognition is performed on the binarized image, the character recognition result of the overlapping portion is obtained. It is difficult. Therefore, in the first embodiment, the preprinted portion and the written character portion are separated by the method described below.
図3は、カラー帳票画像から色を抽出することによりプレ印刷文字と記載文字を分離した例を示す図である。2値化画像301は、記載文字色を残して他の色をドロップアウトした2値化画像である。文字行302は、2値化画像301から文字行を抽出した結果である。文字列303は、文字行302に対して文字切り出し、文字識別を実施した結果得られた文字列である。2値化画像304は、プレ印刷色を残して他の色をドロップアウトした2値化画像である。文字行305は、2値化画像304から文字行を抽出した結果である。文字列306は、文字行305に対して文字切り出し、文字識別を実施した結果得られた文字列である。各文字の識別結果には帳票画像内における座標値が関連付けられるので、文字間のスペース部分については省略してもよい。
FIG. 3 is a diagram illustrating an example in which pre-printed characters and written characters are separated by extracting colors from a color form image. The
図3に例示するように、色毎に生成した2値化画像を用いることにより、記載文字とプレ印刷文字を区別して文字認識することができる。しかし、それぞれの文字認識結果は互いに独立しているので、これらが一体になった文字列に対して言語照合を実施することができない。そこで本実施形態1においては、さらにプレ印刷文字と記載文字を組み合わせた候補文字列を生成する。候補文字列の詳細については後述の図6で説明する。 As illustrated in FIG. 3, by using a binarized image generated for each color, it is possible to recognize characters by distinguishing between written characters and pre-printed characters. However, since the respective character recognition results are independent of each other, language collation cannot be performed on a character string in which these are integrated. Therefore, in the first embodiment, a candidate character string is generated by further combining preprinted characters and written characters. Details of the candidate character string will be described later with reference to FIG.
図4は、帳票処理装置100の動作フローを説明する図である。以下、図4の各ステップについて説明する。
FIG. 4 is a diagram for explaining the operation flow of the
(図4:ステップS401〜S403)
画像入力部110は、カラー帳票画像を取得する(S401)。色抽出部120は、カラー帳票画像からプレ印刷色と記載文字色を抽出する(S402)。このとき、近似した色については同一色とみなしてもよい。ステップS402において抽出した各色について、以下のステップS404〜S405を繰り返す。
(FIG. 4: Steps S401 to S403)
The
(図4:ステップS404)
文字認識部130は、ステップS402において抽出されたいずれか1色を残してその他の色をドロップアウトすることにより、2値化画像を生成する。文字認識部130はさらに、生成した2値化画像に対してレイアウト解析を実施し、文字行を抽出する。例えば帳票画像内の罫線や点線を抽出し、抽出された罫線や点線に基づき表部分を抽出し、表の内外から文字行を抽出することができる。帳票画像全体のレイアウトについては、同様の手法により実施してもよいし、例えば表記辞書152内のレイアウト情報を用いて認識してもよい。
(FIG. 4: Step S404)
The
(図4:ステップS405)
文字認識部130は、ステップS404において抽出した文字行内の各文字を識別するため、文字認識を実施する。具体的には、文字行から文字を切り出して文字列パターンを生成し、生成した文字パターンと表記辞書152内の文字認識辞書が保持している文字パターンを比較することにより、各文字を識別する。文字認識部130は、識別した文字パターンの帳票画像内における座標値や識別結果を、記憶装置170に格納する。
(FIG. 4: Step S405)
The
(図4:ステップS406)
文字列生成部140は、ステップS405において認識された文字を用いて、表記辞書152内の知識辞書が保持している文字列パターンに合致する候補文字列を生成する。具体的には、プレ印刷文字と記載文字それぞれの順序を入れ替えることにより、複数の文字列パターンを候補文字列として生成する。本ステップの詳細は後述の図5で説明する。
(FIG. 4: Step S406)
The character
(図4:ステップS407〜S408)
文字列評価部160は、ステップS406において生成された候補文字列と表記辞書152内の知識辞書が保持している文字列パターンを比較することにより、言語照合を実施する(S407)。文字列評価部160は、言語照合の結果に基づき、候補文字列に対してスコアを付与する(S408)。
(FIG. 4: Steps S407 to S408)
The character
(図4:ステップS409)
出力部180は、文字列評価部160による評価結果を出力する。評価結果をGUIとして出力する場合の画面例については後述の図8で説明する。
(FIG. 4: Step S409)
The
図5は、ステップS406の詳細を説明するフローチャートである。以下、図5に示す各ステップについて説明する。 FIG. 5 is a flowchart for explaining details of step S406. Hereinafter, each step shown in FIG. 5 will be described.
(図5:ステップS501〜S502)
文字列生成部140は、ステップS405において認識された記載文字とプレ印刷文字を、候補文字列の初期値とする(S501)。文字列生成部140は、各文字に関連付けられている座標値に基づき、記載文字とプレ印刷文字が行単位で重なりあうか否かを確認する(S502)。行が重なり合っている場合はステップS503へ進み、重なり合っていない場合はステップS501において生成した候補文字列をそのまま用いる。
(FIG. 5: Steps S501 to S502)
The character
(図5:ステップS502:補足)
文字列生成部140は、記載文字とプレ印刷文字が行単位で重なりあうかを判断する際に、ある程度の許容範囲を設けてもよい。例えば、記載文字とプレ印刷文字が重なり合っている部分の高さが文字高さの半分以内であれば、これらは同じ行内に記載されているとみなすことができる。これにより、記載文字が高さ方向に若干ずれている場合であってもプレ印刷文字と同じ行内に記載されているものとして処理することができる。
(FIG. 5: Step S502: Supplement)
The character
(図5:ステップS503)
文字列生成部140は、ステップS405の文字認識によって得られた各文字の座標値に基づき、記載文字とプレ印刷文字をそれぞれ左端座標でソートする。これにより例えば図3の文字行302内に記載されている文字列は左詰めされ、文字列303となる。
(FIG. 5: Step S503)
The character
(図5:ステップS504)
文字列生成部140は、各文字の座標値に基づき、記載文字とプレ印刷文字が文字単位で重なっているか否かを確認する。文字単位で重なっている場合はステップS505へ進み、重なっていない場合はステップS503で生成した文字列を候補文字列とする。
(FIG. 5: Step S504)
Based on the coordinate value of each character, the character
(図5:ステップS505)
文字列生成部140は、記載文字の文字順とプレ印刷文字の文字順を入れ替えることにより、文字認識の最終結果の候補となる候補文字列を生成する。例えば以下のような仮説に基づいて文字順を入れ替えることにより、候補文字列を生成することができる。
(FIG. 5: Step S505)
The character
(図5:ステップS505:文字順を入れ替える手法例)
(手法例1)記載文字が左にずれることにより記載文字とプレ印刷文字が文字単位で重なっていると仮定し、記載文字を右方向にX文字ずらす:
(手法例2)記載文字が右にずれることにより記載文字とプレ印刷文字が文字単位で重なっていると仮定し、記載文字を左方向にX文字ずらす:
(手法例3)記載文字が大きく右にずれることにより記載文字とプレ印刷文字が文字単位で重なっていると仮定し、まず全ての記載文字を左から順にセットし、その後にプレ印刷文字が続く文字列を生成する:
(手法例4)記載文字が大きく左にずれることにより記載文字とプレ印刷文字が文字単位で重なっていると仮定し、まず全てのプレ印刷文字を左から順にセットし、その後に記載文字が続く文字列を生成する。
(FIG. 5: Step S505: Example of method for changing the character order)
(Method Example 1) Assuming that the written character and the pre-printed character are overlapped in character units by shifting the written character to the left, the written character is shifted to the right by X characters:
(Method Example 2) Assuming that the written character and the preprinted character are overlapped in character units by shifting the written character to the right, the written character is shifted to the left by X characters:
(Method 3) Assuming that the written characters and the pre-printed characters are overlapped in units of characters due to the large shift of the written characters to the right, first set all the written characters in order from the left, followed by the pre-printed characters Generate a string:
(Method 4) Assuming that the written characters and the pre-printed characters are overlapped in units of characters because the written characters are greatly shifted to the left, first, all the pre-printed characters are set in order from the left, followed by the written characters Generate a string.
(図5:ステップS505:補足)
文字認識部130は、記載文字の文字間隔が文字行の高さ以上ある場合は、記載文字のなかにスペース文字が含まれていると判断することもできる。プレ印刷文字についても同様である。文字列生成部140は、記載文字内のスペース部分にプレ印刷文字を挿入し、またはプレ印刷文字内のスペース部分に記載文字を挿入することにより、候補文字列を生成することもできる。各文字が複数の色で記載されている場合は、挿入する文字を色毎に組み合わせることもできる。
(FIG. 5: Step S505: Supplement)
The
図6は、ステップS406において生成された候補文字列を例示する図である。候補文字列表601は候補文字列のリストである。記載文字は濃い文字で表し、プレ印刷文字は薄い文字で表している。候補文字列602と603はステップS501において生成されたものである。候補文字列607と608はそれぞれ(手法例3)(手法例4)によって生成されたものである。
FIG. 6 is a diagram illustrating the candidate character string generated in step S406. The candidate character string table 601 is a list of candidate character strings. The written characters are represented by dark characters, and the preprinted characters are represented by light characters.
図7は、ステップS407〜S408の詳細を説明する図である。説明のため、表記辞書152が保持している文字列パターンを例示した。照合表701は、ステップS407〜S408において表記辞書152と候補文字列を照合した結果を示す。まず表記辞書152の構成について説明し、次に照合表701について説明する。
FIG. 7 is a diagram illustrating the details of steps S407 to S408. For the sake of explanation, the character string pattern held in the
表記辞書152は、例えばRTN(Recursive Transition Network)形式で記述することができる。候補文字列と表記辞書152を照合する際には、例えば候補文字列を候補文字ネットワークと呼ばれる文字の切り出しの曖昧性や文字識別結果の曖昧性を考慮したネットワーク形式に置き換えた上で、両者を照合することができる。表記辞書152の形式および照合方法はこれらに限られるものではなく、表記辞書152が保持している文字列パターンと候補文字列を比較することができればよい。
The
日付表記パターン1521と1522は、日付表記をRTN形式で表現した例である。YYYYは西暦、MMは月、DDは日を表す。丸括弧は省略可能であることを示し、「|」の前後はどちらかがあることを示す。例えば(年|.|−)は、「年」「.」「−」のいずれかが存在すれば同文字列パターンに合致することを示す。さらに同文字列パターンは丸括弧で囲まれているため、照合を省略することもできる。金額表記パターン1523と1524は、金額表記をRTN形式で表現した例である。「N」は数字を表し、「^」は数字Nの繰り返しを表す。これらの表記は1例であり、表記辞書152が保持する文字列パターンはこれらに限られるものではない。
照合表701は、文字列評価部160が図6に示す候補文字列602〜608を図7に示す表記辞書152と照合した結果を示している。候補文字列602は日付表記パターン1521の「YYMMDD」と合致するとともに、金額表記パターン1524の「NNNNNN」と合致している。候補文字列606は、日付表記パターン1521の「YY年MM月DD日」と合致している。候補文字列603〜605と607〜608はいずれの表記パターンとも合致していない。
The collation table 701 shows the result of the character
文字列評価部160は、表記パターンと合致した候補文字列に対して、例えば以下の計算式を用いてスコアを付与する。
照合表701においては、候補文字列606が最も高いスコアを得ているので、候補文字列606を文字列認識の最終結果とすることができる。したがって文字認識結果は、日付表記パターンの文字列とみなされる。スコアの計算式は上記に限られるものではなく、その他の計算式を用いることもできる。 In the collation table 701, since the candidate character string 606 has the highest score, the candidate character string 606 can be used as the final result of character string recognition. Therefore, the character recognition result is regarded as a character string of a date notation pattern. The calculation formula of the score is not limited to the above, and other calculation formulas can also be used.
図8は、出力部180が文字列評価部160による評価結果をGUI形式で画面表示する例を示す図である。入力画像表示部801は帳票処理装置100に入力されたカラー帳票画像を表示する。対象領域802は、文字認識を実施する領域である。文字行認識結果欄803は、対象領域802から色毎に文字行を認識した結果を表示する。照合表欄804は図7で説明した照合表701を表示する。照合表欄804内の太線枠は文字認識の最終結果となった候補文字列を示す。最終認識結果805はその最終結果を表示する。ユーザは最終認識結果805を修正することもできる。この場合、修正入力欄に表示する初期値は最終認識結果805(すなわち最も評価結果が高かった評価文字列)とする。
FIG. 8 is a diagram illustrating an example in which the
<実施の形態1:まとめ>
以上のように、本実施形態1に係る帳票処理装置100は、帳票画像から色毎に文字を認識して文字順を入れ替えることにより候補文字列を生成し、候補文字列と表記辞書152を照合することにより候補文字列が正しいか否かを評価する。これにより、プレ印刷文字と記載文字が重なっている場合であっても、文字列を精度よく認識することができる。
<Embodiment 1: Summary>
As described above, the
また、本実施形態1に係る帳票処理装置100は、文字行内に含まれるスペース文字を認識し、スペース部分に他色の文字を挿入することにより、候補文字列を生成する。これにより、スペース部分に文字を記載することが意図されているプレ印刷帳票に対して文字認識を精度よく実施することができる。
Further, the
<実施の形態2>
実施形態1では、色毎に文字を認識して文字順を入れ替えることを説明した。色毎に文字を認識する際には、認識対象外の色はドロップアウトする。このとき、記載文字やプレ印刷に濃淡むらがあると、カラードロップアウトを実施することにより文字の一部が欠落してしまう可能性がある。そこで本発明の実施形態2では、色をドロップアウトする程度が異なる複数の2値化画像を生成し、これらを比較することにより濃淡むらを補償する手法を説明する。帳票処理装置100の構成は実施形態1と同様であるため、以下では濃淡むらに関する動作について主に説明する。
<
In the first embodiment, it has been described that characters are recognized for each color and the character order is changed. When recognizing characters for each color, unrecognized colors are dropped out. At this time, if the written characters and pre-printing are uneven in color, a part of the characters may be lost due to the color dropout. Therefore, in the second embodiment of the present invention, a method of generating a plurality of binarized images having different degrees of color dropout and comparing them will be described. Since the configuration of the
図9は、カラードロップアウトの程度が異なる複数の2値化画像を例示する図である。文字認識部130は、ステップS403において、ステップS402で抽出した色値を中心として所定範囲内にある色値を残し、その他の色値をドロップアウトすることにより、2値化画像を生成する。さらに、ドロップアウトする色値の閾値を変更して複数の2値化画像を取得する。ドロップアウトする色の閾値は、例えばRGB色空間における色値を用いてもよいし、RGB値を色相、彩度、輝度または明度に変更したHSV色空間における色値を用いてもよいし、その他の色空間を用いてもよい。ここでは、図9に示す2値化画像901〜906が生成されたものと仮定する。
FIG. 9 is a diagram illustrating a plurality of binarized images with different degrees of color dropout. In step S403, the
2値化画像901は、記載文字色を中心として小さめの閾値を設定する(残す範囲を少なくする)ことにより生成したものである。2値化画像903は、記載文字色を中心として大きめの閾値を設定する(残す範囲を多くする)ことにより生成したものである。2値化画像902は901と903の中間程度の閾値を設定したものである。2値化画像904は、プレ印刷文字色を中心として小さめの閾値を設定することにより生成したものである。2値化画像906は、プレ印刷文字色を中心として大きめの閾値を設定することにより生成したものである。2値化画像905は904と906の中間程度の閾値を設定したものである。
The
文字認識部130は、図9のように生成した複数の2値化画像を比較することにより、文字行内の文字を認識する。例えば記載文字に濃淡むらがあり文字の一部が欠落している場合は、大きめの閾値を用いて生成した2値化画像903や906により、欠落が少ない状態で文字を認識することができる。他方、記載文字が滲んで文字の一部が潰れている場合は、小さめの閾値を用いて生成した2値化画像901や904により、文字の潰れが少ない状態で文字を認識することができる。いずれの場合においても、例えば文字認識結果の尤度が最も高いものを採用すればよい。
The
なお、ステップS504において文字単位で重なり合うか否かを確認する際には、同じ文字行から生成した複数の2値化画像については確認対象外とする。これら複数の2値化画像は文字座標が同じであるため当然に重なり合うからである。 In step S504, when it is confirmed whether or not the characters overlap each other, a plurality of binarized images generated from the same character line are not subject to confirmation. This is because these plurality of binarized images have the same character coordinates, and thus naturally overlap.
<実施の形態2:まとめ>
以上のように、本実施形態2に係る帳票処理装置100は、カラードロップアウトを実施する範囲を変更して複数の2値化画像を生成し、これらに対する文字認識結果を照合することにより最も尤もらしい文字認識結果を特定する。これにより、記載文字に濃淡むらや滲みがある場合であっても、精度よく文字認識を実施することができる。
<Embodiment 2: Summary>
As described above, the
<実施の形態3>
実施形態1〜2において、カラー帳票画像内にはプレ印刷文字と記載文字が重なっている部分と重なっていない部分が混在している場合がある。両者が重なっていない部分については従来の文字認識手法を用いるのみで充分であると考えられる。そこで、例えば入力されたカラー帳票画像に対して従来の文字認識をいったん実施し、認識できなかった部分に対してのみ実施形態1で説明した手法を実施するようにしてもよい。これにより、帳票全面に対して文字の重なりを調べる必要がなくなり、処理時間の短縮につながる。
<
In
実施形態1〜2において、出力部180は、最終認識結果805を1つのみ出力してもよいし、例えばスコアが高いほうから順に複数の認識結果を出力してもよい。この場合、出力する認識結果の個数またはスコア範囲はあらかじめ定めておいてもよいし、ユーザが指定できるようにしてもよい。
In the first and second embodiments, the
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。 The present invention is not limited to the embodiments described above, and includes various modifications. The above embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described. A part of the configuration of one embodiment can be replaced with the configuration of another embodiment. The configuration of another embodiment can be added to the configuration of a certain embodiment. Further, with respect to a part of the configuration of each embodiment, another configuration can be added, deleted, or replaced.
上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。 Each of the above-described configurations, functions, processing units, processing means, and the like may be realized in hardware by designing a part or all of them, for example, with an integrated circuit. Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor. Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
100:帳票認識装置、110:画像入力部、120:色抽出部、130:文字認識部、140:文字列生成部、151:表記辞書読出部、152:表記辞書、160:文字列評価部、170:記憶装置、180:出力部。 100: Form recognition device 110: Image input unit 120: Color extraction unit 130: Character recognition unit 140: Character string generation unit 151: Notation dictionary reading unit 152: Notation dictionary 160: Character string evaluation unit 170: storage device, 180: output unit.
Claims (11)
前記帳票画像を受け取る画像入力部と、
前記帳票画像内に含まれる色を抽出する色抽出部と、
前記帳票画像内に記述されている文字を前記色抽出部が抽出した色毎に認識する文字認識部と、
前記文字認識部が前記色毎に認識した文字を連結することにより複数の候補文字列を生成する文字列生成部と、
前記帳票画像内に記述されている文字列パターンを含む複数の文字列パターンを格納する表記辞書から前記文字列パターンを読み出す表記辞書読出部と、
各前記候補文字列と前記表記辞書内の文字列パターンを比較することにより各前記候補文字列と前記表記辞書内の文字列パターンとの間の合致度を評価する文字列評価部と、
前記文字列評価部による評価結果と前記候補文字列を出力する出力部と、
を備えることを特徴とする帳票処理装置。 An apparatus for processing a form image,
An image input unit for receiving the form image;
A color extraction unit for extracting colors included in the form image;
A character recognition unit that recognizes characters described in the form image for each color extracted by the color extraction unit;
A character string generation unit that generates a plurality of candidate character strings by connecting the characters recognized by the character recognition unit for each color;
A notation dictionary reading unit that reads the character string pattern from a notation dictionary that stores a plurality of character string patterns including a character string pattern described in the form image;
A character string evaluator that evaluates the degree of matching between each candidate character string and the character string pattern in the notation dictionary by comparing each candidate character string and the character string pattern in the notation dictionary;
An output unit for outputting the evaluation result by the character string evaluation unit and the candidate character string;
A form processing apparatus comprising:
前記文字列評価部は、
前記文字認識部が生成した前記色毎の文字列が前記帳票画像内において文字単位で重なり合っている場合は、各前記文字列内の文字の位置をずらして連結することにより前記複数の候補文字列を生成し、
前記文字認識部が生成した前記色毎の文字列が前記帳票画像内において文字単位で重なり合っていない場合は、前記文字認識部が生成した前記色毎の文字列を前記候補文字列として用いる
ことを特徴とする請求項1記載の帳票処理装置。 The character string generation unit generates the candidate character string for each color by connecting the characters recognized by the character recognition unit for each color extracted by the color extraction unit,
The character string evaluation unit
When the character strings for each color generated by the character recognition unit overlap in character units in the form image, the plurality of candidate character strings are connected by shifting the positions of the characters in the character strings. Produces
When the character strings for each color generated by the character recognition unit do not overlap in character units in the form image, the character strings for each color generated by the character recognition unit are used as the candidate character strings. The form processing apparatus according to claim 1, wherein
前記文字列生成部は、ある前記色について前記文字認識部がスペース文字として認識した部分に対して他の前記色の文字を挿入することによって前記候補文字列を生成する
ことを特徴とする請求項2記載の帳票処理装置。 When the distance between characters recognized for each color is equal to or greater than a predetermined value, the character recognition unit recognizes that a space character is described between the characters,
The said character string production | generation part produces | generates the said candidate character string by inserting the character of another said color with respect to the part which the said character recognition part recognized as a space character about a certain said color. 2. The form processing apparatus according to 2.
前記帳票画像を、前記色抽出部が抽出した色を中心とする所定範囲内の色値を有する部分とその他の部分に分割することにより、前記帳票画像内において文字が記述されている部分領域を抽出し、
さらに前記所定範囲を変化させて前記分割を実施することにより、同じ文字が記述されている複数の前記部分領域を抽出し、各前記部分領域を用いて前記文字を認識した結果を照合して最も尤もらしい認識結果を特定する
ことを特徴とする請求項1記載の帳票処理装置。 The character recognition unit
By dividing the form image into a part having a color value within a predetermined range centered on the color extracted by the color extraction unit and another part, a partial area in which characters are described in the form image is obtained. Extract and
Further, by performing the division while changing the predetermined range, a plurality of the partial areas in which the same character is described are extracted, and the result of recognizing the character using each of the partial areas is compared with the most. The form processing apparatus according to claim 1, wherein a plausible recognition result is specified.
ことを特徴とする請求項2記載の帳票処理装置。 The character string generation unit regards a plurality of characters recognized by the character recognition unit within a predetermined range in the height direction of the characters as characters described in the same line and described in the same line. The form processing apparatus according to claim 2, wherein the candidate character string is generated for each color extracted by the color extraction unit by concatenating characters regarded as being processed.
ことを特徴とする請求項1記載の帳票処理装置。 The form processing apparatus according to claim 1, wherein the output unit outputs the evaluation result only when the matching degree evaluated by the character string evaluation unit is within a predetermined range.
ことを特徴とする請求項1記載の帳票処理装置。 The form processing apparatus according to claim 1, wherein the output unit outputs the character string pattern evaluated by the character string evaluation unit together with the evaluation result.
ことを特徴とする請求項7記載の帳票処理装置。 The form processing apparatus according to claim 7, wherein the output unit distinguishes and outputs the character string pattern evaluated by the character string evaluation unit for each color extracted by the color extraction unit.
前記表示部は、前評価結果を修正するための修正入力欄を有し、
前記修正入力欄が表示する初期値は、最も高い前記評価結果を有する前記候補文字列である
ことを特徴とする請求項7記載の帳票処理装置。 The output unit is configured as a display unit that displays the evaluation result and the candidate character string on a screen,
The display unit has a correction input field for correcting the previous evaluation result,
The form processing apparatus according to claim 7, wherein the initial value displayed in the correction input field is the candidate character string having the highest evaluation result.
前記帳票画像を受け取る画像入力ステップ、
前記帳票画像内に含まれる色を抽出する色抽出ステップ、
前記帳票画像内に記述されている文字を前記色抽出ステップにおいて抽出した色毎に認識する文字認識ステップ、
前記文字認識ステップにおいて前記色毎に認識した文字を連結することにより複数の候補文字列を生成する文字列生成ステップ、
前記帳票画像内に記述されている文字列パターンを含む複数の文字列パターンを格納する表記辞書から前記文字列パターンを読み出す表記辞書読出ステップ、
各前記候補文字列と前記表記辞書内の文字列パターンを比較することにより各前記候補文字列と前記表記辞書内の文字列パターンとの間の合致度を評価する文字列評価ステップ、
前記文字列評価ステップにおける評価結果と前記候補文字列を出力する出力ステップ、
を有することを特徴とする帳票処理方法。 A method for processing a form image,
An image input step for receiving the form image;
A color extraction step of extracting colors included in the form image;
A character recognition step for recognizing characters described in the form image for each color extracted in the color extraction step;
A character string generation step of generating a plurality of candidate character strings by concatenating the characters recognized for each color in the character recognition step;
A notation dictionary reading step of reading out the character string pattern from a notation dictionary storing a plurality of character string patterns including the character string pattern described in the form image;
A character string evaluation step for evaluating the degree of matching between each candidate character string and the character string pattern in the notation dictionary by comparing each candidate character string and the character string pattern in the notation dictionary;
An output step of outputting the evaluation result in the character string evaluation step and the candidate character string;
A form processing method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013118849A JP6118646B2 (en) | 2013-06-05 | 2013-06-05 | Form processing device, form processing method, form processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013118849A JP6118646B2 (en) | 2013-06-05 | 2013-06-05 | Form processing device, form processing method, form processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014235694A JP2014235694A (en) | 2014-12-15 |
JP6118646B2 true JP6118646B2 (en) | 2017-04-19 |
Family
ID=52138317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013118849A Active JP6118646B2 (en) | 2013-06-05 | 2013-06-05 | Form processing device, form processing method, form processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6118646B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7337612B2 (en) * | 2019-09-10 | 2023-09-04 | キヤノン株式会社 | Image processing device, image processing system, image processing method, and program |
CN111008559B (en) * | 2019-10-31 | 2023-08-11 | 浙江数链科技有限公司 | Typesetting method, typesetting system and typesetting computer equipment for face sheet recognition result |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06111057A (en) * | 1992-09-25 | 1994-04-22 | Toshiba Corp | Optical character reader |
JPH07114619A (en) * | 1993-10-20 | 1995-05-02 | Hitachi Ltd | Document recognizing device |
-
2013
- 2013-06-05 JP JP2013118849A patent/JP6118646B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014235694A (en) | 2014-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101747588B1 (en) | Image processing device and image processing method | |
JP6143111B2 (en) | Object identification device, object identification method, and program | |
RU2445699C1 (en) | Method to process data of optical character recognition (ocr), where output data includes character images with affected visibility | |
US9098759B2 (en) | Image processing apparatus, method, and medium for character recognition | |
US9305245B2 (en) | Methods and systems for evaluating handwritten documents | |
JP5938393B2 (en) | Image processing device | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
TW200842734A (en) | Image processing program and image processing device | |
EP2370933A1 (en) | Business document processor | |
JP2009245036A (en) | Character recognition device | |
JP2021043775A (en) | Information processing device and program | |
US7680329B2 (en) | Character recognition apparatus and character recognition method | |
US11386685B2 (en) | Multiple channels of rasterized content for page decomposition using machine learning | |
US10217020B1 (en) | Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another | |
CN109726369A (en) | A kind of intelligent template questions record Implementation Technology based on normative document | |
JP6118646B2 (en) | Form processing device, form processing method, form processing program | |
RU2597163C2 (en) | Comparing documents using reliable source | |
JP4807618B2 (en) | Image processing apparatus and image processing program | |
JP2008282094A (en) | Character recognition processing apparatus | |
JP6432179B2 (en) | Document file generation apparatus and document file generation method | |
Naz et al. | Arabic script based character segmentation: a review | |
JP4935459B2 (en) | Character recognition method, character recognition program, and character recognition device | |
CN110942075A (en) | Information processing apparatus, storage medium, and information processing method | |
JP2008084105A (en) | Character cutout method and character recognition device | |
US20210056254A1 (en) | Information processing apparatus and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160404 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6118646 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |