JP2001266069A - Reading method for optical character - Google Patents

Reading method for optical character

Info

Publication number
JP2001266069A
JP2001266069A JP2000076054A JP2000076054A JP2001266069A JP 2001266069 A JP2001266069 A JP 2001266069A JP 2000076054 A JP2000076054 A JP 2000076054A JP 2000076054 A JP2000076054 A JP 2000076054A JP 2001266069 A JP2001266069 A JP 2001266069A
Authority
JP
Japan
Prior art keywords
character
image
characters
start position
valid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000076054A
Other languages
Japanese (ja)
Inventor
Masashi Noguchi
雅司 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2000076054A priority Critical patent/JP2001266069A/en
Publication of JP2001266069A publication Critical patent/JP2001266069A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To correctly read a character, even if the describing position of the character is deviated in optical character reading. SOLUTION: A segmentation control part 14 calculates segmentation start position and the number of segmentation characters for segmenting a character image, comprising its front and rear character positions based on the character start position and the effective number of characters to be read, which is registered in a slip form file 18 and controls a character-segmenting part 13. Then the part 13 segments the character image, having equal to or more than the prescribed effective number of characters, a character-recognizing part 15 recognizes the character and a character code is stored in a buffer memory 16. An output processing part 17 abandons invalid data such as 'null' in the character code stored in the buffer memory 16 and outputs only valid data for the portion of the valid number of characters as output data OUT.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、光学式文字読取装
置(以下、「OCR」という)において文字記入領域
(以下、「フィールド」という)を読み取る光学式文字
読取方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an optical character reading method for reading a character entry area (hereinafter referred to as "field") in an optical character reading apparatus (hereinafter referred to as "OCR").

【0002】[0002]

【従来の技術】従来、OCRにおいて帳票のフィールド
に記載された文字や数字を読み取る場合、先ず、そのフ
ィールドのイメージを画素に分解して読み取ってイメー
ジメモリに一旦記憶する。次に、文字等が記載されてい
るべき位置として予め定められた文字開始位置から、予
め定められた有効文字数分のイメージデータを切り出
す。更に、切り出したイメージデータから特徴データを
抽出して文字認識を行い、該当する文字コードを認識結
果として出力するようにしていた。
2. Description of the Related Art Conventionally, when reading a character or a number described in a field of a form in an OCR, first, an image of the field is decomposed into pixels and read and temporarily stored in an image memory. Next, image data for a predetermined number of valid characters is cut out from a character start position predetermined as a position where a character or the like should be described. Further, character data is extracted from the extracted image data to perform character recognition, and a corresponding character code is output as a recognition result.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来の
OCRでは、次のような課題があった。即ち、例えばプ
リンタ等で帳票に数字等を印字した場合、第1文字の印
字位置がフィールド中の文字開始位置からずれることが
ある。このような場合、所定の桁数の有効文字を読み取
ることができず、桁落ちが発生するという問題点があっ
た。
However, the conventional OCR has the following problems. That is, for example, when numbers or the like are printed on a form using a printer or the like, the printing position of the first character may be shifted from the character start position in the field. In such a case, there has been a problem that valid characters having a predetermined number of digits cannot be read, and a digit drop occurs.

【0004】本発明は、前記従来技術が持っていた課題
を解決し、印字位置がずれても正確に文字を読み取るこ
とができる光学式文字読取方法を提供するものである。
An object of the present invention is to solve the problems of the prior art and to provide an optical character reading method capable of reading characters accurately even if the printing position is shifted.

【0005】[0005]

【課題を解決するための手段】前記課題を解決するため
に、本発明は、読み取り対象となる帳票のフィールドの
イメージを画素に分解して光学的に読み取る読取処理
と、予め定められた文字開始位置と有効文字数に基づい
て該フィールドのイメージを切り出す切出処理と、切り
出したイメージを文字認識して認識結果の文字コードを
出力する認識処理とを行う光学式文字読取方法におい
て、前記切出処理では、前記文字開始位置と有効文字数
に基づいて該有効文字数よりも多い文字数分のイメージ
を前記フィールドから切り出し、前記認識処理では、前
記切り出されたイメージの認識結果の内の無効データを
廃棄して前記有効文字数分の文字コードを出力するよう
にしている。
SUMMARY OF THE INVENTION In order to solve the above-mentioned problems, the present invention provides a reading process in which an image of a field of a form to be read is decomposed into pixels and optically read; An optical character reading method for performing a cutout process of cutting out an image of the field based on the position and the number of valid characters, and a recognition process of recognizing the cutout image and outputting a character code of a recognition result; Then, based on the character start position and the number of valid characters, the image for the number of characters greater than the number of valid characters is cut out from the field, and in the recognition process, invalid data in the recognition result of the cut out image is discarded. Character codes for the number of valid characters are output.

【0006】本発明によれば、以上のように光学式文字
読取方法を構成したので、次のような作用が行われる。
先ず、読取処理によって、読み取り対象となる帳票のフ
ィールドのイメージが画素に分解して光学的に読み取ら
れる。次に、切出処理によって、予め定められた文字開
始位置と有効文字数に基づいて、その有効文字数よりも
多い文字数分の文字イメージがフィールドから切り出さ
れる。更に、認識処理によって文字認識が行われる。こ
の時、切出処理で切り出された文字のイメージの認識結
果の内で無効なデータが廃棄され、有効文字数分の文字
コードのみが出力される。
According to the present invention, since the optical character reading method is configured as described above, the following operation is performed.
First, by a reading process, an image of a field of a form to be read is decomposed into pixels and optically read. Next, by a cutout process, a character image of a number of characters larger than the number of valid characters is cut out from the field based on a predetermined character start position and the number of valid characters. Further, character recognition is performed by a recognition process. At this time, invalid data is discarded in the recognition result of the image of the character extracted by the extraction processing, and only character codes corresponding to the number of valid characters are output.

【0007】[0007]

【発明の実施の形態】図1は、本発明の実施形態を示す
OCRの構成図である。このOCRは、読み取り対象と
なる帳票1を光学的に読み取るイメージスキャナ11を
備えている。帳票1の読取面には、複数のフィールド2
が設けられている。各フィールド2には、第1文字を記
載する所定の文字開始位置3が定められると共に、この
文字開始位置を先頭にして所定数の有効文字が一定の間
隔で一列に印字されるようになっている。
FIG. 1 is a block diagram of an OCR showing an embodiment of the present invention. The OCR includes an image scanner 11 that optically reads a form 1 to be read. A plurality of fields 2 are provided on the reading surface of the form 1.
Is provided. In each field 2, a predetermined character start position 3 for describing the first character is defined, and a predetermined number of valid characters are printed in a line at regular intervals starting from the character start position. I have.

【0008】イメージスキャナ11は、帳票1のフィー
ルド2のイメージを画素に分解して光学的に読み取るも
ので、このイメージスキャナ11の出力側に、イメージ
メモリ12が接続されている。イメージメモリ12は、
フィールド2のイメージを認識処理のために一旦蓄積す
るもので、このイメージメモリ12に文字切出部13が
接続されている。文字切出部13は、切出制御部14か
らの指示に基づいてイメージメモリ12中の文字イメー
ジを切り出し、文字認識部15に出力するものである。
The image scanner 11 is for decomposing the image of the field 2 of the form 1 into pixels and optically reading the image. An image memory 12 is connected to the output side of the image scanner 11. The image memory 12
The image of the field 2 is temporarily stored for recognition processing, and a character cutout unit 13 is connected to the image memory 12. The character extracting unit 13 extracts a character image from the image memory 12 based on an instruction from the extracting control unit 14 and outputs the character image to the character recognizing unit 15.

【0009】切出制御部14は、帳票1におけるフィー
ルド2の文字開始位置3、有効文字数、及び文字サイズ
等に基づいて、文字イメージを切り出すための情報を文
字切出部13に指示するものである。文字認識部15
は、切り出された文字イメージから特徴データを抽出
し、図示しない文字辞書等を参照して該当する文字コー
ドを生成するものである。
The cutout control unit 14 instructs the character cutout unit 13 to cut out a character image based on the character start position 3 of the field 2 in the form 1, the number of valid characters, the character size, and the like. is there. Character recognition unit 15
Extracts character data from the extracted character image and generates a corresponding character code by referring to a character dictionary or the like (not shown).

【0010】文字認識部15の出力側には、生成された
文字コードを認識結果の出力処理のために一旦格納する
バッファメモリ16が接続されている。バッファメモリ
16には、出力処理部17が接続されている。出力処理
部17は、認識結果の内の無効データを廃棄し、有効文
字数分の文字コードのみを出力データOUTとして出力
するものである。
The output side of the character recognizing unit 15 is connected to a buffer memory 16 for temporarily storing the generated character codes for output processing of the recognition result. An output processing unit 17 is connected to the buffer memory 16. The output processing unit 17 discards invalid data in the recognition result and outputs only character codes for the number of valid characters as output data OUT.

【0011】更に、このOCRは、帳票1の形式を予め
登録した帳票形式ファイル18を備えている。帳票形式
ファイル18には、読み取り対象となる帳票1における
フィールド2の位置、文字開始位置3、有効文字数、及
び文字サイズ等の情報が登録されている。そして、帳票
形式ファイル18から、イメージスキャナ11に対して
フィールド2の位置情報が与えられ、切出制御部14に
対して文字開始位置3及び有効文字数等の情報が与えら
れるようになっている。また、帳票形式ファイル18か
ら出力処理部17には、有効文字数等の情報が与えられ
るようになっている。
Further, the OCR has a form format file 18 in which the form of the form 1 is registered in advance. Information such as the position of the field 2 in the form 1 to be read, the character start position 3, the number of valid characters, and the character size is registered in the form file 18. Then, from the form file 18, the position information of the field 2 is given to the image scanner 11, and information such as the character start position 3 and the number of valid characters is given to the cutout control unit 14. Further, information such as the number of valid characters is provided from the form format file 18 to the output processing unit 17.

【0012】図2は、図1の動作を示すフローチャート
であり、図3は、図1中の切出制御部14の処理の説明
図である。以下、これらの図2及び図3を参照しつつ、
図1の動作を説明する。図1のOCRが起動され、帳票
1がイメージスキャナ11にセットされると、図2のス
テップS1におけるイメージ読取処理が開始される。
FIG. 2 is a flowchart showing the operation of FIG. 1, and FIG. 3 is an explanatory diagram of the processing of the cutout control unit 14 in FIG. Hereinafter, with reference to FIGS. 2 and 3,
The operation of FIG. 1 will be described. When the OCR of FIG. 1 is activated and the form 1 is set on the image scanner 11, the image reading process in step S1 of FIG. 2 is started.

【0013】ステップS1において、イメージスキャナ
11の動作が開始され、帳票形式ファイル18中のフィ
ールド位置情報に基づいて、帳票1のフィールド2のイ
メージが読み取られる。読み取られたフィールド2のイ
メージは、イメージメモリ12に蓄積される。
In step S1, the operation of the image scanner 11 is started, and an image of the field 2 of the form 1 is read based on the field position information in the form file 18. The read image of the field 2 is stored in the image memory 12.

【0014】ステップS2において、切出制御部14の
動作が開始され、帳票形式ファイル18中のフィールド
2の文字開始位置3及び有効文字数の情報に基づいて、
例えば、次式のように文字イメージの切出開始位置及び
切出文字数が算出される。 切出開始位置=読取開始位置−1 切出文字数=有効文字数+2
In step S2, the operation of the cutout control unit 14 is started, and based on the information of the character start position 3 and the number of valid characters of the field 2 in the form file 18,
For example, the cutout start position and the number of cutout characters of the character image are calculated as in the following equation. Extraction start position = Read start position-1 Number of extracted characters = Number of valid characters + 2

【0015】即ち、このステップS2では、図3に例示
したように、予め定められた所定の文字開始位置よりも
1文字分左側の文字位置から文字イメージの切り出しを
開始するように、切出開始位置を設定している。更に、
所定の有効文字数よりも2文字分多い文字イメージをフ
ィールド2から切り出すように、切出文字数を設定して
いる。このよう算出された切出開始位置と切出文字数に
基づいて、切出制御部14から文字切出部13に対する
制御が行われる。
That is, in this step S2, as shown in FIG. 3, the extraction of the character image is started from a character position one character left of a predetermined character start position. The position has been set. Furthermore,
The number of extracted characters is set so that a character image that is two characters larger than the predetermined number of valid characters is extracted from field 2. The cutout control unit 14 controls the character cutout unit 13 based on the cutout start position and the number of cutout characters thus calculated.

【0016】ステップS3において、文字切出部13の
動作が開始され、切出制御部14からの指示に基づいて
イメージメモリ12中の文字イメージが切り出され、文
字認識部15に出力される。ステップS4において、文
字認識部15の動作が開始され、文字切出部13から与
えられた文字イメージの特徴データが抽出され、文字辞
書等が参照されて該当する文字コードが生成される。
In step S 3, the operation of the character extracting section 13 is started, and a character image in the image memory 12 is extracted based on an instruction from the extracting control section 14 and output to the character recognizing section 15. In step S4, the operation of the character recognizing unit 15 is started, the characteristic data of the character image provided from the character extracting unit 13 is extracted, and a corresponding character code is generated by referring to a character dictionary or the like.

【0017】ステップS5において、文字認識部15で
生成された認識結果の文字コードが、バッファメモリ1
6に格納される。ステップS6において、出力処理部1
7の動作が開始され、無効データの廃棄処理が行われ
る。即ち、バッファメモリ16に格納された文字コード
の内、何も記載されていない「空白」に対応する文字コ
ードが廃棄される。更に、ステップS7において、残っ
た有効文字数分の有効データのみが出力データOUTと
して出力される。
In step S5, the character code of the recognition result generated by the character recognition unit 15 is stored in the buffer memory 1.
6 is stored. In step S6, the output processing unit 1
7 is started, and the invalid data is discarded. That is, of the character codes stored in the buffer memory 16, the character code corresponding to "blank" in which nothing is described is discarded. Further, in step S7, only valid data corresponding to the number of remaining valid characters is output as output data OUT.

【0018】このように、本実施形態のOCRは、帳票
形式ファイル18に予め登録されている文字開始位置と
有効文字数に基づいて、この有効文字数よりも多い文字
イメージをイメージメモリ12から切り出すように制御
する切出制御部14を有している。更に、文字認識部1
5で認識された多数の文字コードの中から、無効データ
を廃棄して所定の有効文字数分の文字コードのみを出力
データOUTとして出力する出力処理部17を有してい
る。これにより、帳票1のフィールド2に記載された文
字の位置が、所定の文字開始位置からずれていても、桁
落ち等を発生させることなく正確に文字を読み取り、正
しい桁数の文字コードを出力することができるという利
点がある。
As described above, the OCR according to the present embodiment cuts out a character image larger than the number of valid characters from the image memory 12 based on the character start position and the number of valid characters registered in the form file 18 in advance. It has a cutting control unit 14 for controlling. Furthermore, the character recognition unit 1
An output processing unit 17 that discards invalid data from among the many character codes recognized in step 5 and outputs only character codes of a predetermined number of valid characters as output data OUT. Thereby, even if the position of the character described in the field 2 of the form 1 is deviated from a predetermined character start position, the character is accurately read without generating a digit loss and the character code having a correct number of digits is output. There is an advantage that can be.

【0019】なお、本発明は、上記実施形態に限定され
ず、種々の変形が可能である。この変形例としては、例
えば、次の(a),(b)のようなものがある。 (a) 図1のOCRは、各処理の説明を明確にするた
めに、文字切出部13、切出制御部14、文字認識部1
5、及び出力制御部17等の個別の処理部で構成してい
るが、マイクロコンピュータ等を用いてプログラム制御
で行うようにしても良い。
The present invention is not limited to the above embodiment, and various modifications are possible. For example, there are the following modifications (a) and (b). (A) The OCR shown in FIG. 1 includes a character extracting unit 13, a clipping control unit 14, and a character recognizing unit 1 for clarifying the description of each process.
5 and an individual processing unit such as the output control unit 17, but may be performed by program control using a microcomputer or the like.

【0020】(b) 図3の説明では、所定の文字位置
に対して、前と後の2文字分だけ余分に文字イメージの
切り出しを行うようにしているが、更に多数の文字イメ
ージを切り出すようにしても良い。
(B) In the description of FIG. 3, a character image is cut out by an extra two characters before and after a predetermined character position, but more character images are cut out. You may do it.

【0021】[0021]

【発明の効果】以上詳細に説明したように、本発明によ
れば、所定の文字開始位置と有効文字数に基づいてその
有効文字数よりも多い文字数分のイメージをフィールド
から切り出す切出処理を行っている。これにより、帳票
のフィールドに記載された文字の位置が、所定の文字開
始位置からずれていても、桁落ち等を発生させることな
く文字を読み取ることができる。更に、切り出されたイ
メージの認識結果の内の無効データを廃棄して有効文字
数分の文字コードを出力する認識処理を行っている。こ
れにより、帳票のフィールドに記載された文字の位置
が、所定の文字開始位置からずれていても、正しい文字
数の有効文字を読み取ることができる。
As described above in detail, according to the present invention, based on a predetermined character start position and the number of valid characters, an image is extracted from a field by extracting an image of a number of characters larger than the number of valid characters. I have. As a result, even if the position of the character described in the field of the form is deviated from the predetermined character start position, the character can be read without causing digit dropout or the like. Further, a recognition process of discarding invalid data in the recognition result of the cut-out image and outputting character codes corresponding to the number of valid characters is performed. Thereby, even if the position of the character described in the field of the form deviates from the predetermined character start position, it is possible to read the valid number of valid characters.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施形態を示すOCRの構成図であ
る。
FIG. 1 is a configuration diagram of an OCR showing an embodiment of the present invention.

【図2】図1の動作を示すフローチャートである。FIG. 2 is a flowchart showing the operation of FIG.

【図3】図1中の切出制御部14の処理の説明図であ
る。
FIG. 3 is an explanatory diagram of a process of a cutout control unit 14 in FIG. 1;

【符号の説明】[Explanation of symbols]

1 帳票 2 フィールド 3 文字開始位置 11 イメージスキャナ 12 イメージメモリ 13 文字切出部 14 切出制御部 15 文字認識部 16 バッファメモリ 17 出力処理部 18 帳票形式ファイル 1 Form 2 Field 3 Character Start Position 11 Image Scanner 12 Image Memory 13 Character Extraction Unit 14 Extraction Control Unit 15 Character Recognition Unit 16 Buffer Memory 17 Output Processing Unit 18 Form Format File

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 読み取り対象となる帳票の文字記入領域
のイメージを画素に分解して光学的に読み取る読取処理
と、予め定められた文字開始位置と有効文字数に基づい
て該文字記入領域のイメージを切り出す切出処理と、切
り出したイメージを文字認識して認識結果の文字コード
を出力する認識処理とを行う光学式文字読取方法におい
て、 前記切出処理では、前記文字開始位置と有効文字数に基
づいて該有効文字数よりも多い文字数分のイメージを前
記文字記入領域から切り出し、 前記認識処理では、前記切り出されたイメージの認識結
果の内の無効データを廃棄して前記有効文字数分の文字
コードを出力することを特徴とする光学式文字読取方
法。
1. A reading process in which an image of a character entry area of a form to be read is decomposed into pixels and optically read, and an image of the character entry area is determined based on a predetermined character start position and the number of valid characters. In an optical character reading method that performs a cutout process of cutting out and a recognition process of recognizing a cutout image and outputting a character code of a recognition result, the cutout process includes the steps of: An image corresponding to the number of characters greater than the number of valid characters is cut out from the character entry area. In the recognition process, invalid data in the recognition result of the cut-out image is discarded, and a character code corresponding to the number of valid characters is output. An optical character reading method, comprising:
JP2000076054A 2000-03-17 2000-03-17 Reading method for optical character Pending JP2001266069A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000076054A JP2001266069A (en) 2000-03-17 2000-03-17 Reading method for optical character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000076054A JP2001266069A (en) 2000-03-17 2000-03-17 Reading method for optical character

Publications (1)

Publication Number Publication Date
JP2001266069A true JP2001266069A (en) 2001-09-28

Family

ID=18593849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000076054A Pending JP2001266069A (en) 2000-03-17 2000-03-17 Reading method for optical character

Country Status (1)

Country Link
JP (1) JP2001266069A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015041371A (en) * 2013-08-23 2015-03-02 株式会社ダイフク Article information recognition device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015041371A (en) * 2013-08-23 2015-03-02 株式会社ダイフク Article information recognition device

Similar Documents

Publication Publication Date Title
JP2001266069A (en) Reading method for optical character
JP4083723B2 (en) Image processing device
JPH0991371A (en) Character display device
JP2848560B2 (en) Image recognition method and apparatus
JPH0528319A (en) Method and device for processing image
JP2977230B2 (en) Character extraction method
JP2665226B2 (en) Character recognition device
JP2812392B2 (en) Character processing apparatus and method
JP2713927B2 (en) Character reader
JP2570571B2 (en) Optical character reader
JP2000331117A (en) Document reading system
JPH10171924A (en) Character recognizing device
JPH10154191A (en) Business form identification method and device, and medium recording business form identification program
JP3060237B2 (en) Japanese character recognition device
JP4580520B2 (en) Character recognition method and character recognition apparatus
JPH09167206A (en) Space detecting method for japanese/english-mixed document, pitch format judging method, space detecting method for constant pitch alphanumeric character string and space detecting method for proportional pitch alphanumeric character string
JP2795222B2 (en) Character extraction method and character extraction device
JP2002230481A (en) Optical character reader
JPH09251518A (en) Maintenance method for ocr and its device
JPH07296101A (en) Character reader
JPH06348888A (en) Slip and slip character reader
JPS6327990A (en) Character recognizing method
JPH08171608A (en) Method and device for discriminating form format
JPH10198763A (en) Character recognizer and computer readable storage medium storing program making computer function as character recognizer
JP2584973C (en)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090414