JP2015022520A - Business form reader and program - Google Patents

Business form reader and program Download PDF

Info

Publication number
JP2015022520A
JP2015022520A JP2013150144A JP2013150144A JP2015022520A JP 2015022520 A JP2015022520 A JP 2015022520A JP 2013150144 A JP2013150144 A JP 2013150144A JP 2013150144 A JP2013150144 A JP 2013150144A JP 2015022520 A JP2015022520 A JP 2015022520A
Authority
JP
Japan
Prior art keywords
character
recognition
field
characters
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013150144A
Other languages
Japanese (ja)
Other versions
JP6199641B2 (en
Inventor
キョウ 丁
Kyu Jung
キョウ 丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2013150144A priority Critical patent/JP6199641B2/en
Publication of JP2015022520A publication Critical patent/JP2015022520A/en
Application granted granted Critical
Publication of JP6199641B2 publication Critical patent/JP6199641B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To improve the accuracy of reading when characters are read from a business form in which fields where the characters to be read are printed are fixed in advance.SOLUTION: A business form reader of an embodiment has a first character recognition unit, a re-recognition field determination unit, and a second character recognition unit. The character recognition unit character-recognizes an image provided in a field of a tabular format business form in which a plurality of fields correlated for each item are provided. The re-recognition field determination unit determines, on the basis of the character attribute of the image character-recognized by the first character recognition unit, a re-recognition field including an image having a character attribute different from other characters in the plurality of fields. The second character recognition unit obtains, with respect to the re-recognition field determined by the re-recognition field determination unit, a character recognition result in which unclear characters are excluded by character-recognizing on the basis of the character attribute.

Description

本発明の実施形態は、帳票読取装置およびプログラムに関する。   Embodiments described herein relate generally to a form reading apparatus and a program.

商品の受発注には、統一伝票と呼ばれる品名や商品コードを印字する欄(フィールド)などの帳票形式(フォーマット)が統一された帳票が使用されている。統一伝票の一例として仕入伝票がある。このような統一伝票の処理にはスキャナを用いて帳票イメージを読み取り、文字認識する帳票読取装置が利用されている。   For ordering and receiving orders for merchandise, a form with a unified form format (format) such as a field (field) for printing a product name and product code called a unified slip is used. An example of a unified slip is a purchase slip. For such unified slip processing, a form reading device that uses a scanner to read a form image and recognize characters is used.

帳票読取装置が統一伝票に印字された文字を読み取る場合には、帳票上の品名や商品コードなどが印字されている範囲を読み取り対象のフィールド(読み取り範囲)として予め帳票の形式(フォーマット)を定義しておくことにより、スキャナで読み取った帳票イメージの中から予め定義された読み取りフィールドに対応する部分の帳票イメージから文字イメージを検出、切り出して文字認識している。   When the form reading device reads the characters printed on the unified slip, the form format (format) is defined in advance as the field to be read (reading range) where the product name or product code on the form is printed. By doing so, a character image is detected from a portion of the form image corresponding to the predefined reading field from the form image read by the scanner, and the character image is recognized.

特開平9−305715号公報Japanese Patent Laid-Open No. 9-305715

統一伝票では、品名や商品コードなどを印字する欄(フィールド)等の帳票形式は統一されているが、それらの欄(フィールド)の範囲のどの位置に品名や商品コードなどを印字するかは使用者によってまちまちで統一されていない。   In the unified slip, the form format of fields (fields) etc. for printing product names, product codes, etc. is unified, but it is used where the product name, product code, etc. are printed in the range of those fields (fields). It is not unified by the person.

該当欄(フィールド)の上部付近に偏って品名や商品コードなどを印字する場合や,該当欄(フィールド)の左端に偏って品名や商品コードなどを印字する場合など、まちまちである。   There are various cases, such as when a product name or product code is printed in the vicinity of the top of the corresponding column (field), or when a product name or product code is printed in the left end of the corresponding column (field).

また、印字する品名や商品コードなどの文字数(数字の場合には桁数)も統一されていない。統一伝票では、品名や商品コードなどを印字する欄(フィールド)の帳票形式は統一されているだけで、印字する品名の文字数、商品コードの桁数や、それらの字体などの印字する文字については何も統一されていない。   In addition, the number of characters (number of digits in the case of numbers) such as product names and product codes to be printed is not uniform. In the unified slip, the form format of the field (field) that prints the product name, product code, etc. is only unified. About the number of characters of the product name to be printed, the number of digits of the product code, and the characters to be printed such as the font Nothing is unified.

帳票読取装置が、このような統一伝票の文字認識をする場合には、予め定義された読み取り対象のフィールド(読み取り範囲)に対応する部分の帳票イメージから未知の位置に存在する未知の文字数の文字イメージを検出し切り出して文字認識している。   When the form reading device performs character recognition of such a unified form, characters of unknown number of characters existing at unknown positions from the form image of the part corresponding to the field to be read (reading range) defined in advance. The image is detected and cut out for character recognition.

しかしながら、このような従来の帳票読取装置では、読み取り対象のフィールド内に、または隣接フィールドにまたがる不明なキャラクタ(文字として認識されない、いわゆるノイズ)が検出された場合、そのフィールドの文字認識結果が誤読や未読扱いとなり、文字の読み取り精度が低下する。   However, in such a conventional form reading apparatus, when an unknown character (so-called noise that is not recognized as a character) straddling a field to be read or between adjacent fields is detected, the character recognition result in that field is erroneously read. It becomes unread and the reading accuracy of the character is lowered.

伝票に文字を印字後に例えばチェック者が手書きしたチェック痕や伝票の定義領域内からはみ出した文字などがノイズとなり、または伝票に印字された文字と文字周辺の罫線とが重なることで罫線自体がノイズとなり、文字の誤読やリジェクトが発生し文字の読み取り精度が低下する。   For example, check marks handwritten by the checker after printing characters on the slip, characters that protrude from the definition area of the slip, etc. become noise, or the ruled lines themselves become noise because the characters printed on the slip overlap the ruled lines around the characters. As a result, misreading and rejection of characters occur, and the character reading accuracy decreases.

また、伝票内のすべての読み取り対象のフィールド(読み取り範囲)を対象に文字読取を行うため、印字されていない空フィールドに存在するノイズを文字として誤読することもある。   In addition, since character reading is performed on all reading target fields (reading ranges) in the slip, noise existing in empty fields that are not printed may be misread as characters.

本発明が解決しようとする課題は、予め読み取り対象の文字が印字されているフィールドが固定されている帳票から文字を読み取る際の読み取り精度を向上することができる帳票読取装置およびプログラムを提供することにある。   The problem to be solved by the present invention is to provide a form reading apparatus and program capable of improving the reading accuracy when reading a character from a form in which a field on which a character to be read is printed is fixed in advance. It is in.

実施形態の帳票読取装置は、第1文字認識部、再認識フィールド決定部、第2文字認識部を有する。第1文字認識部は項目毎に対応付けられた複数のフィールドが設けられた表形式の帳票のフィールドに設けられた画像を文字認識する。再認識フィールド決定部は第1文字認識部により文字認識された画像の文字の属性に基づいて、複数のフィールドにおいて他の文字と異なる文字の属性を持つ画像を含む再認識フィールドを決定する。第2文字認識部は再認識フィールド決定部により決定された再認識フィールドに対して、文字の属性に基づいて文字認識する。   The form reading apparatus according to the embodiment includes a first character recognition unit, a re-recognition field determination unit, and a second character recognition unit. The first character recognizing unit character-recognizes an image provided in a tabular form field provided with a plurality of fields associated with each item. The re-recognition field determination unit determines a re-recognition field including an image having a character attribute different from other characters in a plurality of fields based on the character attribute of the image recognized by the first character recognition unit. The second character recognition unit recognizes the character based on the attribute of the character for the re-recognition field determined by the re-recognition field determination unit.

実施形態の帳票読取システムの構成を示す図である。It is a figure which shows the structure of the form reading system of embodiment. 帳票の一例(帳票サンプル)を示す図である。It is a figure which shows an example (form sample) of a form. 帳票読取システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of a form reading system. 一段階目の文字認識処理で不明となった箇所が含まれる認識結果を示す図である。It is a figure which shows the recognition result containing the location which became unknown by the character recognition process of the 1st step. 文字の属性を示す図である。It is a figure which shows the attribute of a character. 二段階の文字認識処理により不明な箇所が除外された認識結果を示す図である。It is a figure which shows the recognition result from which the unknown location was excluded by the two-stage character recognition process.

以下、図面を参照して実施形態を詳細に説明する。図1は実施状態の帳票読取システムの構成を示すブロック図である。
図1に示すように、この実施形態の帳票読取システムは、スキャナ1、コンピュータ2(以下「PC2」と称す)およびモニタなどの表示部3を備える。
Hereinafter, embodiments will be described in detail with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration of a form reading system in an implementation state.
As shown in FIG. 1, the form reading system of this embodiment includes a display unit 3 such as a scanner 1, a computer 2 (hereinafter referred to as “PC2”), and a monitor.

PC2は例えばCPU、メモリ、ハードディスク装置、CD−ROM、DVD−ROMなどの記録媒体を再生する再生装置としてのディスク再生装置などを有する。PC2ではディスク再生装置にセットされた記録媒体からハードディスク装置にインストールされた制御ソフトウェアをCPUがメモリ上に読み出し、そのソフトウェアの処理を実行することで、PC2が文字認識装置として機能する。   The PC 2 includes, for example, a disk playback device as a playback device for playing back a recording medium such as a CPU, a memory, a hard disk device, a CD-ROM, and a DVD-ROM. In the PC 2, the CPU reads the control software installed in the hard disk device from the recording medium set in the disk reproducing device onto the memory, and executes the processing of the software, whereby the PC 2 functions as a character recognition device.

文字認識装置として機能するPC2は、画像記憶部21、帳票定義情報記憶部22、第1文字認識処理部23、認識情報記憶部24、読取項目文字情報処理部25、第2文字認識処理部26、読取結果を表示部3へ出力する出力部27を備える。   The PC 2 functioning as a character recognition device includes an image storage unit 21, a form definition information storage unit 22, a first character recognition processing unit 23, a recognition information storage unit 24, a read item character information processing unit 25, and a second character recognition processing unit 26. The output unit 27 that outputs the read result to the display unit 3 is provided.

スキャナ1は、読取対象の帳票としての伝票30(図2参照)を光学的に読み取り、読み取った画像(イメージ)をPC2の画像記憶部21に記憶する。   The scanner 1 optically reads a slip 30 (see FIG. 2) as a form to be read, and stores the read image (image) in the image storage unit 21 of the PC 2.

図2に示すように、伝票30は、例えばスーパーマーケットや大規模小売店などで販売される商品の受発注に用いられる「統一伝票」と称されるものであり、商品コード、単価、数量、合計などの項目名が横に一列に配置され、各項目名の下に縦一列に印字欄31a〜31d、32a〜32d、33a〜33d、34a〜34dが設けられている帳票である。印字欄31a〜31d、32a〜32d、33a〜33d、34a〜34dは、それぞれ、商品コード、単価、数量、合計の各項目名に対応した文字認識対象の読み取りフィールドである。   As shown in FIG. 2, the slip 30 is referred to as a “unified slip” used for ordering of products sold in, for example, a supermarket or a large-scale retail store, and includes a product code, a unit price, a quantity, and a total. The item names are arranged in a line horizontally, and print fields 31a to 31d, 32a to 32d, 33a to 33d, and 34a to 34d are provided in a vertical line below each item name. The print fields 31a to 31d, 32a to 32d, 33a to 33d, and 34a to 34d are character recognition target reading fields corresponding to the item names of product code, unit price, quantity, and total, respectively.

印字欄31a〜31cには、“A000”、“B000”、“C000”が印字されている。印字欄32a〜32cには、“¥1,000”、“¥500”、“¥1,500”が印字されている。印字欄33a〜33cには、“20”、“10”、“120”が印字されている。   “A000”, “B000”, and “C000” are printed in the print columns 31a to 31c. In the print fields 32a to 32c, “¥ 1,000”, “¥ 500”, and “¥ 1,500” are printed. “20”, “10”, and “120” are printed in the print columns 33a to 33c.

印字欄34a〜34cには、“¥20,000”、“¥5,000”、“¥180,000”が印字されている。印字欄31cと印字欄32dには、チェック痕35、36などノイズが手書き(記載)されているものとする。   In the print fields 34a to 34c, “¥ 20,000”, “¥ 5,000”, and “¥ 180,000” are printed. It is assumed that noise such as check marks 35 and 36 is handwritten (described) in the print field 31c and the print field 32d.

画像記憶部21には、スキャナ1により読み取られた伝票30の画像(イメージ)が記憶(一時保存)される。画像記憶部21、帳票定義情報記憶部22および認識情報記憶部24などはハードディスク装置等で実現される。帳票定義情報記憶部22は、伝票30の文字認識する対象となる読み取りフィールドの位置情報を帳票定義情報として記憶している。伝票30の場合、印字欄31a〜31d、32a〜32d、33a〜33d、34a〜34dが文字認識の対象となる読み取りフィールドである。   The image storage unit 21 stores (temporarily saves) an image of the slip 30 read by the scanner 1. The image storage unit 21, the form definition information storage unit 22, the recognition information storage unit 24, and the like are realized by a hard disk device or the like. The form definition information storage unit 22 stores position information of a reading field that is a target of character recognition of the slip 30 as form definition information. In the case of the slip 30, the print fields 31 a to 31 d, 32 a to 32 d, 33 a to 33 d, and 34 a to 34 d are reading fields that are objects of character recognition.

第1文字認識処理部23は画像記憶部21に記憶(一時保存)された画像から、帳票定義情報記憶部22に記憶されている帳票定義情報を参照して、読取対象の文字が印字されているべき読み取りフィールドの画像を切り出し、切り出した画像を文字認識する。   The first character recognition processing unit 23 prints the character to be read from the image stored (temporarily saved) in the image storage unit 21 with reference to the form definition information stored in the form definition information storage unit 22. The image of the reading field to be cut out is cut out, and the cut out image is recognized as characters.

更に、第1文字認識処理部23は文字認識した画像から文字の属性を求める。文字の属性は、文字のサイズ、ピッチ、位置、字形、濃淡、縦横比、罫線などである。第1文字認識処理部23は文字認識した結果(文字コード)と、その文字の属性と、文字認識した画像と、を対応付けて該当する読み取りフィールド毎に認識情報記憶部24に記憶する。   Further, the first character recognition processing unit 23 obtains character attributes from the character-recognized image. Character attributes include character size, pitch, position, character shape, shading, aspect ratio, ruled line, and the like. The first character recognition processing unit 23 stores the result of character recognition (character code), the attribute of the character, and the character recognized image in the recognition information storage unit 24 for each corresponding reading field in association with each other.

すなわち第1文字認識処理部23は項目毎に文字を印字したフィールドを有する表形式の伝票30から光学的に読み取った画像から各フィールドの文字を認識する(一段階目の文字認識処理)。   That is, the first character recognition processing unit 23 recognizes characters in each field from an image optically read from a tabular form slip 30 having a field in which characters are printed for each item (first-stage character recognition processing).

読取項目文字情報処理部25は認識情報記憶部24から伝票30の各項目名に対応したすべての読み取りフィールドでの文字認識結果に対応付けられている文字の属性を読み出し、これらの文字の属性の相互関係を判断し、この判断結果に基づいて、再度文字認識すべき読み取りフィールド(再認識フィールド)を決定する。   The read item character information processing unit 25 reads the character attributes associated with the character recognition results in all the read fields corresponding to the item names of the slip 30 from the recognition information storage unit 24, and sets the character attributes of these characters. A mutual relationship is determined, and a reading field (re-recognition field) to be recognized again is determined based on the determination result.

再認識フィールドは、同じ項目名に対応した読み取り対象フィールドでありながら他のフィールドの文字と異なる属性を持つ文字を含む読み取り対象フィールドが対象となる。再認識フィールドが他のフィールドの文字と異なる属性を持つ文字を含むことから、再認識フィールドと判断された読み取りフィールドにおける第1文字認識処理部23による文字認識結果に誤読文字や読み取り不能文字が含まれている可能性が高いからである。   The re-recognition field is a field to be read that includes a character having an attribute different from that of the other field, although it is a field to be read corresponding to the same item name. Since the re-recognition field includes characters having attributes different from those of the other fields, the character recognition result by the first character recognition processing unit 23 in the reading field determined to be the re-recognition field includes misread characters and unreadable characters. This is because there is a high possibility that

第2文字認識処理部26は読取項目文字情報処理部25で判断した文字の属性の相互関係を利用して再認識フィールドの文字認識(二段階目)を行い、その文字認識結果を第1文字認識処理部23による文字認識結果とマージして認識情報記憶部24に記憶する。つまり、認識情報記憶部24に記憶された第1文字認識処理部23による文字認識結果を第2文字認識処理部26による文字認識結果で置換(上書き)する。出力部27は第2文字認識処理部26でマージした後の文字認識結果を表示部3へ出力し、表示部3の画面に表示する。   The second character recognition processing unit 26 performs character recognition (second stage) of the re-recognition field using the correlation between the character attributes determined by the read item character information processing unit 25, and the character recognition result is displayed as the first character. The result is merged with the character recognition result by the recognition processing unit 23 and stored in the recognition information storage unit 24. That is, the character recognition result by the first character recognition processing unit 23 stored in the recognition information storage unit 24 is replaced (overwritten) with the character recognition result by the second character recognition processing unit 26. The output unit 27 outputs the character recognition result after merging by the second character recognition processing unit 26 to the display unit 3 and displays it on the screen of the display unit 3.

続いて、図3乃至図6を参照してこの実施形態の帳票読取システムの動作を説明する。
この帳票読取システムの場合、スキャナ1にセットされた認識対象の伝票30が光学的に読み取られる、つまりスキャンされると(図3のステップS101)、そのスキャンされた伝票30の画像がPC2の画像記憶部21に記憶される(ステップS102)。
Next, the operation of the form reading system of this embodiment will be described with reference to FIGS.
In the case of this form reading system, when the slip 30 to be recognized set in the scanner 1 is optically read, that is, scanned (step S101 in FIG. 3), the scanned image of the slip 30 is the image of the PC 2. It is stored in the storage unit 21 (step S102).

第1文字認識処理部23は、帳票定義情報記憶部22から読み出した帳票定義情報に基づいて画像記憶部21に記憶された伝票30の画像に対して読み取り対象フィールドを特定し、各フィールドに対して順に一段階目の文字認識処理を実行する(ステップS103)。   The first character recognition processing unit 23 specifies a reading target field for the image of the slip 30 stored in the image storage unit 21 based on the form definition information read from the form definition information storage unit 22, and for each field The first stage character recognition processing is executed in order (step S103).

更に、第1文字認識処理部23は文字認識した画像から文字の属性を求める。第1文字認識処理部23は文字認識した結果(文字コード)と、その文字の属性と、文字認識した画像と、を対応付けて該当する読み取りフィールド毎に認識情報記憶部24に記憶する。   Further, the first character recognition processing unit 23 obtains character attributes from the character-recognized image. The first character recognition processing unit 23 stores the result of character recognition (character code), the attribute of the character, and the character recognized image in the recognition information storage unit 24 for each corresponding reading field in association with each other.

具体的には、第1文字認識処理部23による一段階目の文字認識処理で、図4に示すような認識結果50(文字)が得られる。同図では、欄51cの文字認識結果が“C000?”となり、欄52dの文字認識結果が“?”となっている。ここで、「?」は、文字認識できなかった読取不能文字(リジェクト文字)を表現している。   Specifically, the recognition result 50 (character) as shown in FIG. 4 is obtained by the first-stage character recognition processing by the first character recognition processing unit 23. In the figure, the character recognition result in the column 51c is “C000?”, And the character recognition result in the column 52d is “?”. Here, “?” Represents an unreadable character (reject character) that could not be recognized.

読取項目文字情報処理部25は認識情報記憶部24から伝票30の各項目名に対応したすべての読み取りフィールドでの文字認識結に対応付けられている文字の属性を読み出し、
これらの文字の属性の相互関係を判断し、この判断結果に基づいて、再度文字認識すべき読み取りフィールド(再認識フィールド)を決定する(ステップS104)。
The read item character information processing unit 25 reads the character attribute associated with the character recognition result in all the read fields corresponding to each item name of the slip 30 from the recognition information storage unit 24,
The mutual relationship between these character attributes is determined, and based on the determination result, a reading field (re-recognition field) to be recognized again is determined (step S104).

図5に基づいて文字の属性について説明する。図5に示した文字の属性は一例であり、これがすべてではない。また、図5に例示した文字の属性のすべてを用いて、再認識フィールドを決定する必要もない。少なくともどれか一つの文字の属性を用いて再認識フィールドを決定すればよい。   The character attributes will be described with reference to FIG. The character attributes shown in FIG. 5 are examples, and this is not all. Further, it is not necessary to determine the re-recognition field using all the character attributes exemplified in FIG. The re-recognition field may be determined using the attribute of at least one of the characters.

属性「濃淡」は、背景画像から切り出した文字画像の濃淡情報であり、画像を多値で表現したときに利用することができる。属性「文字サイズ」は、文字の大きさであり、高さと横幅の2つ情報を含む。属性「文字ピッチ」は、隣接する文字間の距離である。   The attribute “shading” is shading information of the character image cut out from the background image, and can be used when the image is expressed in multiple values. The attribute “character size” is the size of the character, and includes two pieces of information of height and width. The attribute “character pitch” is a distance between adjacent characters.

属性「文字縦横比」は、文字の高さと横幅との比率である。属性「位置」は、読み取りフィールドで文字認識した文字列(文字が1つの場合も含む)において、左端の文字の位置と、右端の文字の位置と、文字列に含まれる小数点の位置との3つの情報を含む。属性「字形」は、文字のフォントの種類である。属性「罫線」は、認識対象文字が縦罫線や横罫線と接触しているときに付与する属性である。   The attribute “character aspect ratio” is a ratio between the height and the width of the character. The attribute “position” is 3 in the character string (including the case where there is only one character) recognized in the reading field: the leftmost character position, the rightmost character position, and the decimal point position included in the character string. Contains one piece of information. The attribute “character shape” is a type of character font. The attribute “ruled line” is an attribute given when the recognition target character is in contact with the vertical ruled line or the horizontal ruled line.

ここで、図2に示した伝票30を第1文字認識処理部23が文字認識した結果を図4に示す。伝票30の項目名「商品コード」に対応した読み取りフィールドでの文字認識結が、“A000”、“B000”、と“C000?”となっている。   Here, FIG. 4 shows the result of the first character recognition processing unit 23 recognizing the slip 30 shown in FIG. Character recognition results in the reading field corresponding to the item name “product code” of the slip 30 are “A000”, “B000”, and “C000?”.

この場合、読取項目文字情報処理部25は、文字の属性から、これら3つの読み取りフィールドの文字認識結果において、文字列の左端の位置は同一であると判断する。一方、読取項目文字情報処理部25は、印字欄31cに対応する読み取りフィールドの文字認識結果だけ、文字の属性の文字位置(右端)が異なっていることを判断する。   In this case, the read item character information processing unit 25 determines from the character attributes that the left end position of the character string is the same in the character recognition results of these three read fields. On the other hand, the read item character information processing unit 25 determines that the character position (right end) of the character attribute is different only by the character recognition result of the read field corresponding to the print field 31c.

つまり、文字列の右端の位置がリジェクト文字「?」の分だけ他の読み取りフィールドの文字列の右端の位置よりもずれていると判断する。このことから、読取項目文字情報処理部25は、印字欄31cに対応する読み取りフィールドが再認識フィールドであると判断する。   That is, it is determined that the position of the right end of the character string is shifted from the position of the right end of the character string of the other reading field by the reject character “?”. From this, the read item character information processing unit 25 determines that the read field corresponding to the print field 31c is the re-recognition field.

図4において、伝票30の項目名「単価」に対応した読み取りフィールドでの文字認識結が、“1000”、“500”、“1500”、“?”となっている。この場合、読取項目文字情報処理部25は、文字の属性から、印字欄32dに対応する読み取りフィールドの文字認識結果“?”が、他の読み取りフィールドの文字の属性と文字サイズ、字形が異なっていると判断する。このことから、読取項目文字情報処理部25は、印字欄32dに対応する読み取りフィールドが再認識フィールドであると判断する。   In FIG. 4, the character recognition results in the reading field corresponding to the item name “unit price” of the slip 30 are “1000”, “500”, “1500”, “?”. In this case, the read item character information processing unit 25 indicates that the character recognition result “?” Of the read field corresponding to the print field 32d is different from the character attribute and character size and character shape of the other read fields from the character attributes. Judge that From this, the read item character information processing unit 25 determines that the read field corresponding to the print field 32d is the re-recognition field.

第2文字認識処理部26は、伝票30において読取項目文字情報処理部25が再認識フィールドであると判断した印字欄31cに対応する読み取りフィールドと印字欄32dに対応する読み取りフィールドとを再度文字認識する(ステップS105)。   The second character recognition processing unit 26 recognizes again the read field corresponding to the print field 31c and the read field corresponding to the print field 32d, which the read item character information processing unit 25 determines to be the re-recognition field in the slip 30. (Step S105).

二段階目の文字認識処理の結果の文字または文字列(テキスト)は、一段階目の文字認識結果の該当箇所(該当欄)の文字または文字列と置換(上書き)される。   The character or character string (text) resulting from the second-stage character recognition process is replaced (overwritten) with the character or character string at the corresponding location (corresponding column) in the first-stage character recognition result.

そして、出力部27は、二段階目の文字認識処理の結果が一段階目の文字認識結果に反映された文字認識結果を表示部3へ出力する(ステップS106)。
この結果、図6に示すように、図2に示した印字欄31cのノイズ35や印字欄32dのノイズ36が除去された認識結果50が得られる。
Then, the output unit 27 outputs to the display unit 3 a character recognition result in which the result of the second-stage character recognition process is reflected in the first-stage character recognition result (step S106).
As a result, as shown in FIG. 6, a recognition result 50 is obtained in which the noise 35 in the print field 31c and the noise 36 in the print field 32d shown in FIG. 2 are removed.

ここで、図5を用いて第2文字認識処理部26が読取項目文字情報処理部25で判断した文字の属性の相互関係を利用して再認識フィールドの文字認識処理(二段階目)する動作を説明する。   Here, referring to FIG. 5, the second character recognition processing unit 26 performs the character recognition processing (second stage) of the re-recognition field using the correlation of the character attributes determined by the read item character information processing unit 25. Will be explained.

(番号1)濃淡
第2文字認識処理部26は、認識対象の文字の濃淡が予め設定されている閾値の範囲内にある文字だけを認識し、閾値の範囲外の文字は認識しない。濃淡閾値の範囲外にある濃すぎる文字、または薄すぎる文字は、認識対象から除外する。
(Number 1) Shading The second character recognition processing unit 26 recognizes only characters whose shading of the character to be recognized is within a preset threshold range, and does not recognize characters outside the threshold range. Characters that are too dark or light that are outside the range of the light and shade threshold are excluded from recognition targets.

(番号2)文字サイズ
第2文字認識処理部26は、認識対象の文字の高さと横幅の片方又は両方が予め設定されている閾値の範囲内にある文字だけを認識し、閾値の範囲外の文字は認識しない。
(Number 2) Character size The second character recognition processing unit 26 recognizes only characters in which one or both of the height and width of the character to be recognized are within a preset threshold range, and is outside the threshold range. Does not recognize characters.

(番号3)文字ピッチ
第2文字認識処理部26は、認識対象の文字列の文字ピッチが予め設定されている閾値の範囲内にある文字だけを認識し、閾値の範囲外の文字は認識しない。
(Number 3) Character pitch The second character recognition processing unit 26 recognizes only characters whose character pitch of the character string to be recognized is within a preset threshold range, and does not recognize characters outside the threshold range. .

(番号4)文字縦横比
第2文字認識処理部26は、認識対象の文字の縦横比が設定されている閾値の範囲内にある文字だけを認識し、閾値の範囲外の文字は認識しない。
(Number 4) Character Aspect Ratio The second character recognition processing unit 26 recognizes only characters that are within the threshold range in which the aspect ratio of the character to be recognized is set, and does not recognize characters outside the threshold range.

(番号5)文字の位置
第2文字認識処理部26は、再認識フィールドの認識対象の文字列の左端の位置、右端の位置、小数点の位置のいずれか一つ又はこれらの組み合わせが、同一の項目名に対応した他の読み取りフィールドでの文字列の位置と異なっている場合には、位置が異なっている文字だけ文字認識しない。
(No. 5) Character position The second character recognition processing unit 26 is configured such that any one of the left end position, the right end position, and the decimal point position of the character string to be recognized in the re-recognition field or a combination thereof is the same. If it is different from the position of the character string in the other reading field corresponding to the item name, only the character with the different position is not recognized.

(番号6)文字の字形
第2文字認識処理部26は、再認識フィールドでの認識対象の文字の字形が同一再認識フィールドの他の認識対象の文字の字形と異なっている場合には、その字形が異なる文字の文字認識をしない。文字認識する際に、文字フォント毎に文字認識用の辞書(標準パターン)を持つことにより、認識対象文字の字形(他の文字のフォントとの違い)が判別できる。ノイズなどの非文字のイメージを文字認識する場合には、字形が判別できないため、文字認識しないことでリジェクト文字の発生を防止できる。
(No. 6) Character shape of character When the character shape of the character to be recognized in the re-recognition field is different from the character shape of other characters to be recognized in the same re-recognition field, the second character recognition processing unit 26 Do not recognize characters with different glyphs. When recognizing characters, each character font has a character recognition dictionary (standard pattern) so that the character shape of the character to be recognized (difference from other character fonts) can be determined. When character recognition is performed on non-character images such as noise, the character shape cannot be determined, and thus the generation of rejected characters can be prevented by not recognizing characters.

(番号7)罫線
第2文字認識処理部26は、認識対象の文字が縦罫線や横罫線と重なっている場合には、その認識対象文字は認識しない。このように文字認識しないケースとしては、伝票30に印字した文字列が位置づれして罫線と重なって印字されている場合や、ノイズなどの非文字のイメージが罫線と重なっている場合である。
(No. 7) Ruled Line The second character recognition processing unit 26 does not recognize the recognition target character when the recognition target character overlaps the vertical ruled line or the horizontal ruled line. Such a case in which character recognition is not performed is a case where the character string printed on the slip 30 is positioned and printed so as to overlap the ruled line, or a case where a non-character image such as noise overlaps the ruled line.

このようにこの実施形態によれば、伝票に印字された文字を認識することを前提にすれば、汚れや手書きされたチェック痕などの非印字の画像(ノイズ)を文字認識することが回避され、不必要なリジェクト文字の発生が避けられ、文字認識精度を向上することができる。リジェクト文字が発生すると、後工程で操作者が原伝票を参照して正しい文字を手入力するというリジェクト訂正処理が必要となる。この実施形態によれば、不必要なリジェクト訂正処理が回避できる。   As described above, according to this embodiment, assuming that characters printed on a slip are recognized, it is possible to avoid character recognition of non-printed images (noise) such as dirt and handwritten check marks. The generation of unnecessary reject characters can be avoided, and the character recognition accuracy can be improved. When a reject character is generated, a reject correction process is required in which the operator refers to the original slip and manually inputs the correct character in a later process. According to this embodiment, unnecessary reject correction processing can be avoided.

本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   Although the embodiment of the present invention has been described, this embodiment is presented as an example and is not intended to limit the scope of the invention. The novel embodiment can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. This embodiment and its modifications are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

さらに上記実施形態では、各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現したが、上記プログラムを、コンピュータ読取可能な電子媒体:electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。電子媒体としては、例えばCD−ROM,DVD−ROM等の記録媒体やフラッシュメモリ、リムーバブルメディア:Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。   Furthermore, in the above embodiment, each component is realized by a program installed in a storage such as a hard disk device of a computer. However, the above program is stored in a computer-readable electronic medium: electronic media, and the program is stored in the electronic medium. The computer may realize the functions of the present invention by causing the computer to read the information. Examples of the electronic medium include a recording medium such as a CD-ROM and a DVD-ROM, a flash memory, a removable media, and the like. Further, the configuration may be realized by distributing and storing components in different computers connected via a network, and communicating between computers in which the components are functioning.

1…スキャナ、2…PC(コンピュータ)、3…表示部、21…画像記憶部、22…帳票定義情報記憶部、23…第1文字認識部、24…認識情報記憶部、25…読み取り項目文字情報処理部、26…第2文字認処理識部、27…出力部、30…伝票、31a〜31d,32a〜32d,33a〜33d,34a〜34d…フィールド、35,36…ノイズ、50…認識結果(表)、51,52…認識結果として不明な文字を含む欄、51a,52b…認識結果として不明な文字が除外された欄。   DESCRIPTION OF SYMBOLS 1 ... Scanner, 2 ... PC (computer), 3 ... Display part, 21 ... Image storage part, 22 ... Form definition information storage part, 23 ... 1st character recognition part, 24 ... Recognition information storage part, 25 ... Read item character Information processing section, 26 ... second character recognition processing recognition section, 27 ... output section, 30 ... slip, 31a to 31d, 32a to 32d, 33a to 33d, 34a to 34d ... field, 35, 36 ... noise, 50 ... recognition Results (table), 51, 52... Columns including unknown characters as recognition results, 51a, 52b... Columns where unknown characters are excluded as recognition results.

Claims (2)

項目毎に対応付けられた複数のフィールドが設けられた表形式の帳票の前記フィールドに設けられた画像を文字認識する第1文字認識部と、
前記第1文字認識部により文字認識された画像の文字の属性に基づいて、前記複数のフィールドにおいて他の文字と異なる文字の属性を持つ画像を含む再認識フィールドを決定する再認識フィールド決定部と、
前記再認識フィールド決定部により決定された前記再認識フィールドに対して、前記文字の属性に基づいて文字認識する第2文字認識部と、
を具備する文字認識装置。
A first character recognition unit for character recognition of an image provided in the field of a tabular form provided with a plurality of fields associated with each item;
A re-recognition field determination unit that determines a re-recognition field including an image having a character attribute different from other characters in the plurality of fields based on the character attribute of the image recognized by the first character recognition unit; ,
A second character recognition unit that recognizes characters based on attributes of the characters for the re-recognition field determined by the re-recognition field determination unit;
A character recognition device comprising:
コンピュータに処理を実行させるプログラムにおいて、
前記コンピュータを、
項目毎に対応付けられた複数のフィールドが設けられた表形式の帳票の前記フィールドに設けられた画像を文字認識する第1文字認識部と、
前記第1文字認識部により文字認識された画像の文字の属性に基づいて、前記複数のフィールドにおいて他の文字と異なる文字の属性を持つ画像を含む再認識フィールドを決定する再認識フィールド決定部と、
前記再認識フィールド決定部により決定された前記再認識フィールドに対して、前記文字の属性に基づいて文字認識する第2文字認識部
として機能させるプログラム。
In a program that causes a computer to execute processing,
The computer,
A first character recognition unit for character recognition of an image provided in the field of a tabular form provided with a plurality of fields associated with each item;
A re-recognition field determination unit that determines a re-recognition field including an image having a character attribute different from other characters in the plurality of fields based on the character attribute of the image recognized by the first character recognition unit; ,
A program that causes the re-recognition field determined by the re-recognition field determination unit to function as a second character recognition unit that recognizes characters based on the character attributes.
JP2013150144A 2013-07-19 2013-07-19 Form reader and program Active JP6199641B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013150144A JP6199641B2 (en) 2013-07-19 2013-07-19 Form reader and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013150144A JP6199641B2 (en) 2013-07-19 2013-07-19 Form reader and program

Publications (2)

Publication Number Publication Date
JP2015022520A true JP2015022520A (en) 2015-02-02
JP6199641B2 JP6199641B2 (en) 2017-09-20

Family

ID=52486916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013150144A Active JP6199641B2 (en) 2013-07-19 2013-07-19 Form reader and program

Country Status (1)

Country Link
JP (1) JP6199641B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017108249A (en) * 2015-12-08 2017-06-15 京セラドキュメントソリューションズ株式会社 Image reader and image forming apparatus
JP2019095849A (en) * 2017-11-17 2019-06-20 富士ゼロックス株式会社 Document processing apparatus and program
US11212865B2 (en) 2016-07-19 2021-12-28 Fujifilm Business Innovation Corp. Terminal apparatus and terminal control method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259596A (en) * 1998-03-09 1999-09-24 Fujitsu Ltd Character recognition device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259596A (en) * 1998-03-09 1999-09-24 Fujitsu Ltd Character recognition device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017108249A (en) * 2015-12-08 2017-06-15 京セラドキュメントソリューションズ株式会社 Image reader and image forming apparatus
US11212865B2 (en) 2016-07-19 2021-12-28 Fujifilm Business Innovation Corp. Terminal apparatus and terminal control method
JP2019095849A (en) * 2017-11-17 2019-06-20 富士ゼロックス株式会社 Document processing apparatus and program
US11301621B2 (en) 2017-11-17 2022-04-12 Fujifilm Business Innovation Corp. Document processing apparatus and non-transitory computer readable medium storing program
US11687705B2 (en) 2017-11-17 2023-06-27 Fujifilm Business Innovation Corp. Document processing apparatus and non-transitory computer readable medium storing program

Also Published As

Publication number Publication date
JP6199641B2 (en) 2017-09-20

Similar Documents

Publication Publication Date Title
JP7279896B2 (en) Information processing device, control method, and program
US11475655B2 (en) Methods for optical character recognition (OCR)
US9027833B2 (en) Commodity information display apparatus and method for displaying commodity information in different forms
JP2013131208A (en) Method and device for performing position specification and decoding of machine-readable symbol
US7537158B1 (en) Method for determining product compatibility
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2021043775A (en) Information processing device and program
JP6199641B2 (en) Form reader and program
JP7361359B2 (en) Product information inspection system and computer control method
JP6109688B2 (en) Form reader and program
CN112884101A (en) Graphic code, graphic code encoding method and graphic code decoding method
JP4518212B2 (en) Image processing apparatus and program
JP7435118B2 (en) Information processing device and program
JP2021152696A (en) Information processor and program
JP7035474B2 (en) Document processing equipment and programs
JP6118646B2 (en) Form processing device, form processing method, form processing program
JP6682827B2 (en) Information processing apparatus and information processing program
JP5724286B2 (en) Form creation device, form creation method, program
JP2019153167A (en) Code reading device and program
JP2018180929A (en) Device, method, and program for reading codes
US20170161529A1 (en) Object recognition encoder
JP2006134079A (en) Image processing device and program
JP6497012B2 (en) Information processing apparatus and information processing program
JP2012063822A (en) Information processor and information processing program
US20230140357A1 (en) Image processing apparatus, image processing method, and non-transitory storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170824

R150 Certificate of patent or registration of utility model

Ref document number: 6199641

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150