JP2630261B2 - Character recognition device - Google Patents

Character recognition device

Info

Publication number
JP2630261B2
JP2630261B2 JP6170065A JP17006594A JP2630261B2 JP 2630261 B2 JP2630261 B2 JP 2630261B2 JP 6170065 A JP6170065 A JP 6170065A JP 17006594 A JP17006594 A JP 17006594A JP 2630261 B2 JP2630261 B2 JP 2630261B2
Authority
JP
Japan
Prior art keywords
character
contact
recognition
characters
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6170065A
Other languages
Japanese (ja)
Other versions
JPH0816720A (en
Inventor
恵一 井上
茂 小泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP6170065A priority Critical patent/JP2630261B2/en
Publication of JPH0816720A publication Critical patent/JPH0816720A/en
Application granted granted Critical
Publication of JP2630261B2 publication Critical patent/JP2630261B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は帳票上に記入された文字
を認識する文字認識装置に関し、特に、接触した文字を
正確に認識することができる文字認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device for recognizing characters written on a form, and more particularly to a character recognition device capable of accurately recognizing a contacted character.

【0002】[0002]

【従来の技術】従来より、帳票上に記入された文字を認
識する文字認識装置において、接触文字を認識する場合
は、入力された文字パタンより文字の高さを測定し、文
字の高さから文字幅を推定し1文字単位に切り出して認
識したり、又は、文字を構成する黒画素のヒストグラム
が所定のしきい値以下の位置で接触文字を分割して認識
していた(たとえば特開平4−343192号公報参
照)。
2. Description of the Related Art Conventionally, in a character recognition device for recognizing a character entered on a form, when recognizing a contact character, the height of the character is measured from an input character pattern, and the character height is measured. Character width is estimated and cut out in units of one character for recognition, or touched characters are divided and recognized at positions where the histogram of black pixels constituting a character is equal to or less than a predetermined threshold (for example, Japanese Patent Laid-Open No. -343192).

【0003】[0003]

【発明が解決しようとする課題】上述した従来の方式で
は、接触文字を認識する場合に文字の高さから文字幅を
推定し強制的に1文字単位に切り出し認識するため、切
出位置が必ずしも正しいとは限らず、接触文字を1文字
単位に切り出す位置によっては誤判定したり認識できな
いという欠点があった。黒画素ヒストグラムを使用する
場合は、図5に示すように、ヒストグラムの谷部Vを切
り出し位置とするわけだが、接触文字によっては図6に
示すように谷部Vが現れない場合もあり、そのような場
合には切り出し位置を決定することはできなくなる。し
たがって接触文字を正しく読み取ることができなくなっ
てしまう。
In the above-mentioned conventional method, when recognizing a contact character, the character width is estimated from the character height and the character is forcibly cut out in units of one character. It is not always correct, and there is a drawback that it is not possible to make an erroneous determination or recognize depending on the position where the contact character is cut out in units of one character. When the black pixel histogram is used, the valley V of the histogram is used as the cutout position as shown in FIG. 5, but the valley V may not appear as shown in FIG. In such a case, the cutout position cannot be determined. Therefore, the contact character cannot be read correctly.

【0004】本発明は、以上の点にかんがみて成された
もので、接触文字を正確に認識できるようにすることを
目的とする。
The present invention has been made in view of the above points, and has as its object to enable accurate recognition of a contact character.

【0005】[0005]

【課題を解決するための手段】上記目的を達成するため
に、本発明においては、光電変換手段から送られる2値
化画像から文字塊を抽出し、抽出した文字塊が1文字で
あるか接触文字であるかを検出し、文字塊が接触文字で
あるときに、その接触文字を1文字分ごとに切り出して
認識するとともに複数文字単位でも認識し、1文字単位
の認識と複数文字単位の認識の両方の結果に基づいて接
触文字を認識するように構成した。
In order to achieve the above object, according to the present invention, a character chunk is extracted from a binarized image sent from a photoelectric conversion means, and whether or not the extracted character chunk is one character is determined. Detects whether a character is a character, and when the character block is a contact character, cuts out the contact character for each character and recognizes it, and also recognizes it in multiple character units. The touch character is recognized based on both results.

【0006】[0006]

【作用】抽出した文字塊を1文字ごとに認識した結果
と、複数文字ごとに認識した結果との両方の結果に基づ
いて接触文字の認識を行う。それにより、接触文字をよ
り正確に認識することができる。
The contact character is recognized based on both the result of recognition of the extracted character block for each character and the result of recognition for each of a plurality of characters. Thereby, the contact character can be more accurately recognized.

【0007】[0007]

【実施例】本発明について図面を参照して説明する。図
1は本発明の一実施例を示す機能ブロック図であり、具
体的にはイメージスキャナ、メモリ、コンピュータ等に
より構成される。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described with reference to the drawings. FIG. 1 is a functional block diagram showing one embodiment of the present invention, which is specifically composed of an image scanner, a memory, a computer, and the like.

【0008】図1において、光電変換部1は、帳票上の
画像を2値化し、図2(A)に示すような2値化された
帳票画像を1文字切り出し部2と接触文字検出部3とに
送る。1文字切り出し部2は、光電変換部1より入力し
た2値化画像から文字塊を抽出する。具体的には、文字
の黒画素連結の追跡による矩形特徴抽出により、図2
(B)に示すような外接矩形31,32を抽出し、文字
塊の高さ、幅およびピッチを測定する。ここで、黒画素
連結の追跡による矩形抽出はこの分野では良く知られた
技術である。1文字切り出し部2は、文字塊の中に接触
文字があれば、接触文字を図2(C)に示すように1文
字ごとに切り出して、1文字認識部4へ送る。1文字認
識部4は、切り出された1文字ごとに文字の認識を行
う。
In FIG. 1, a photoelectric conversion unit 1 binarizes an image on a form, and converts a binarized form image as shown in FIG. And send to The one-character extracting unit 2 extracts a character block from the binarized image input from the photoelectric conversion unit 1. Specifically, by extracting rectangular features by tracking black pixel connections of characters, FIG.
The circumscribing rectangles 31 and 32 as shown in (B) are extracted, and the height, width and pitch of the character block are measured. Here, rectangle extraction by tracking black pixel connections is a well-known technique in this field. If there is a contact character in the character block, the one-character cutout unit 2 cuts out the contact character for each character as shown in FIG. The one-character recognizing unit 4 performs character recognition for each cut-out character.

【0009】接触文字検出部3は、外接矩形31,32
(図2)の中から接触文字を検出し、接触文字(図2
(B)、(D)の矩形32)を接触文字認識部5へ送
る。また接触文字検出部3は接触文字が2文字より多い
ときは2文字分に切り出して認識部5へ送る。なお接触
文字検出部3と1文字切り出し部1との間では文字情報
(文字塊の高さ、幅、ピッチ等)のやり取りが行われ
る。
The contact character detection unit 3 includes circumscribed rectangles 31 and 32
A contact character is detected from among the contact characters (FIG. 2).
(Rectangle 32 of (B) and (D)) is sent to the contact character recognition unit 5. When the number of touching characters is more than two, the touching character detecting unit 3 cuts out the touching characters for two characters and sends them to the recognizing unit 5. Character information (height, width, pitch, etc. of a character block) is exchanged between the contact character detection unit 3 and the one-character cutout unit 1.

【0010】接触文字認識部5は、図3に示すように、
パターン入力部51と、予め2文字を1つのカデゴリー
として作成された2文字読取辞書52と、比較部53と
から構成されている。2文字読取辞書52は2文字単位
でパターンが記憶されており、このパターンと入力部5
1からの入力パターンとを比較部53で比較することに
より、図2(D)に示すような接触文字32を2文字単
位で認識する。
[0010] As shown in FIG.
It comprises a pattern input unit 51, a two-character reading dictionary 52 prepared in advance with two characters as one category, and a comparing unit 53. The two-character reading dictionary 52 stores a pattern in units of two characters.
By comparing the input pattern from No. 1 with the comparing unit 53, the contact character 32 as shown in FIG. 2D is recognized in units of two characters.

【0011】判定部6は、上記1文字認識部4および接
触文字認識部5の認識結果を入力し、それらに基づいて
最終的な判定結果7を出力する。また1文字認識部4お
よび接触文字認識部5において文字の読取ができなかっ
たときは、判定部6は1文字切り出し部、接触文字検出
部3に指令して、接触文字の切出し位置を変えて再度切
出しを行うようにする。
The judgment unit 6 receives the recognition results of the one-character recognition unit 4 and the contact character recognition unit 5 and outputs a final judgment result 7 based on the recognition results. When the characters cannot be read by the one-character recognizing unit 4 and the contact character recognizing unit 5, the determining unit 6 instructs the one-character extracting unit and the contact character detecting unit 3 to change the contact character extracting position. Try to cut out again.

【0012】次に図3のフローチャートに基づいて実施
例の動作を説明する。まず光電変換部1から2値化画像
データが入力され(S101)、次にこのデータから文
字塊が抽出され、文字の高さH、幅W、ピッチが測定さ
れる(S102)。次いで文字の高さH、文字幅Wに基
づいて、個々の文字塊についてH・K<W(K:定数)
かどうかがチェックされる(S103)。H・K<Wで
なければ、文字幅Wが小さいので接触文字ではないと判
断され、通常の1文字認識を行う(S104)。
Next, the operation of the embodiment will be described with reference to the flowchart of FIG. First, binarized image data is input from the photoelectric conversion unit 1 (S101). Next, a character block is extracted from this data, and the height H, width W, and pitch of the character are measured (S102). Next, based on the character height H and the character width W, HK <W (K: constant) for each character block
It is checked whether it is (S103). If H · K <W, the character width W is small, so it is determined that the character is not a contact character, and normal one-character recognition is performed (S104).

【0013】H・K<Wであれば、接触文字であるとみ
なされて、文字幅=H・Kとなるように文字塊を切り出
す(S105)。この様に切り離された文字パターンは
図2(C)に示すとおりである。この切り離された文字
が、各々、1文字単位で認識される(S106)。この
1文字の読取が可能かどうかみて(S107)、読取可
能であれば次のステップS108へ進む。読取不可であ
れば、パラメータを変更して(S109)、前回とは異
なる位置で1文字を切り出し(S105)、新たに切り
出した文字で再度認識を行う(S106)。このときの
パラメータ変更の一例としては上記定数Kを変更するこ
とが挙げられるが、その他にも、黒画素ヒストグラムか
ら求めた切り出し位置を使用してもよい。図5は、接触
文字の黒画素ヒストグラムの一例を示し、ヒストグラム
の谷の部分Vが文字と文字との分離位置と判断すること
ができるので、このようにして求められた位置を上記ス
テップS109において利用することができる。
If HK <W, it is regarded as a contact character, and a character block is cut out so that the character width = HK (S105). The character pattern thus separated is as shown in FIG. The separated characters are recognized one by one (S106). It is determined whether the one character can be read (S107). If the one character can be read, the process proceeds to the next step S108. If reading is not possible, the parameter is changed (S109), one character is cut out at a position different from the previous position (S105), and recognition is performed again using the newly cut out character (S106). An example of the parameter change at this time is to change the constant K. Alternatively, a cutout position obtained from the black pixel histogram may be used. FIG. 5 shows an example of a black pixel histogram of a contact character. Since the valley V of the histogram can be determined as a separation position between characters, the position thus obtained is determined in step S109. Can be used.

【0014】ステップS103に戻り、H・K<Wのと
き(すなわち接触文字のとき)は、さらに、この接触文
字が2文字より多いかどうかチェックする。すなわち、
ステップS110において、2H・K<Wかどうか判断
し、2H・K<Wであれば2文字より多いとみなして、
文字塊を2文字づつに切り出す(S111)。たとえ
ば、文字幅=2H・Kになるように切り出していき、接
触文字認識部5において2文字づつ文字認識を行う(S
112)。もちろん、2H・K<Wでなければ、つまり
接触文字が2文字であれば、ステップS111をとばし
て、切り出しを行わずに文字認識をする(S112)。
この2文字の読取が可能であれば(S113)、読取結
果をステップS108において1文字づつ読み取った結
果と比較する。なお1文字認識(S106)および2文
字認識(S112)の結果は、適当な記憶手段に記憶し
ておき、複数文字(実施例の場合は2文字)の認識結果
がでたところで両者が比較される(S108)。
Returning to step S103, if HK <W (that is, a contact character), it is further checked whether or not this contact character is more than two characters. That is,
In step S110, it is determined whether or not 2H · K <W, and if 2H · K <W, it is considered that there are more than two characters.
The character block is cut out every two characters (S111). For example, cutting is performed so that the character width becomes 2H · K, and the contact character recognition unit 5 performs character recognition for each two characters (S
112). Of course, if 2H · K <W is not satisfied, that is, if the contact character is two characters, step S111 is skipped and character recognition is performed without cutting out (S112).
If the two characters can be read (S113), the read result is compared with the result read one character at a time in step S108. The results of the one-character recognition (S106) and the two-character recognition (S112) are stored in an appropriate storage unit, and when the recognition results of a plurality of characters (two characters in the embodiment) appear, the two are compared. (S108).

【0015】ステップS113において、読取不能の場
合は、パラメータを変更して(S114)、切り出し位
置を変えて(S111)再度読取を行う(S112)。
パラメータ変更としては、たとえば、上記Kを変える方
法があるが、それに限らない。
If the reading is impossible in step S113, the parameter is changed (S114), the cutout position is changed (S111), and the reading is performed again (S112).
As a parameter change, for example, there is a method of changing the above K, but it is not limited thereto.

【0016】ステップS115において、1文字認識
(S106)および2文字認識(S112)の結果が一
致すればその値を判定結果とし(S116)、一致しな
ければ、どちらかを判定結果として採用する。実施例の
場合は1文字認識の結果を最終判定結果として採用する
(S117)。
In step S115, if the result of the one-character recognition (S106) and the result of the two-character recognition (S112) match, the value is determined as a determination result (S116). If not, one of them is adopted as the determination result. In the case of the embodiment, the result of one-character recognition is adopted as the final determination result (S117).

【0017】上記実施例においては、接触文字として2
文字の例について説明したが、本発明は2文字に限られ
るものでなく、2文字より多い文字数であってもよい。
In the above embodiment, 2 is used as the contact character.
Although an example of characters has been described, the present invention is not limited to two characters, and may include more characters than two characters.

【0018】[0018]

【発明の効果】以上説明したように、本発明によれば、
接触文字を1文字単位に切り出して認識した結果と、複
数文字単位に切り出して認識した結果から判定するの
で、高精度に接触文字を認識することができる。
As described above, according to the present invention,
Since the determination is made based on the result of cutting out and recognizing the contact character in units of one character and the result of cutting out and recognizing the contact character in units of a plurality of characters, it is possible to recognize the contact character with high accuracy.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例のブロック図である。FIG. 1 is a block diagram of one embodiment of the present invention.

【図2】文字塊の認識単位を説明する図である。FIG. 2 is a diagram illustrating a recognition unit of a character block.

【図3】接触文字認識部の詳細な構成を示す図である。FIG. 3 is a diagram illustrating a detailed configuration of a contact character recognition unit.

【図4】実施例の動作を説明するフローチャートであ
る。
FIG. 4 is a flowchart illustrating the operation of the embodiment.

【図5】黒画素ヒストグラムを用いて切り出し位置を求
める例を示す図である。
FIG. 5 is a diagram illustrating an example of obtaining a cutout position using a black pixel histogram.

【図6】黒画素ヒストグラムを用いても切り出し位置が
求められない例を示す図である。
FIG. 6 is a diagram illustrating an example in which a cutout position cannot be obtained even when a black pixel histogram is used.

【符号の説明】[Explanation of symbols]

1 光電変換部 2 1文字切り出し部 3 接触文字検出部 4 1文字認識部 5 接触文字認識部 6 判定部 DESCRIPTION OF SYMBOLS 1 Photoelectric conversion part 2 1 Character cut-out part 3 Contact character detection part 4 1 character recognition part 5 Contact character recognition part 6 Judgment part

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 光電変換手段から送られる2値化画像か
ら文字塊を抽出する抽出手段と、抽出した文字塊が1文
字であるか接触文字であるかを検出する手段と、前記文
字塊が接触文字であるときに1文字分ごとに切り出す1
文字切出手段と、1文字切出手段で切り出された文字を
認識する1文字認識手段と、前記文字塊が接触文字であ
るときに複数文字単位で認識する接触文字認識手段とを
備え、前記文字塊が接触文字であるときには前記1文字
認識手段および前記接触文字認識手段の両方によってそ
接触文字を認識することを特徴とする文字認識手段。
An extracting means for extracting a character chunk from the binarized image sent from the photoelectric conversion means; a means for detecting whether the extracted character chunk is one character or a contact character; Cut out one character at a time when it is a contact character 1
Includes a character extraction unit, 1 and a character recognition means for recognizing the extracted character in a character cutout section, and a recognizing touching character recognition means in multiple units of characters when said character lumps is touching characters, the When the character block is a contact character, the one character
Recognition means and the contact character recognition means.
Character recognition means and recognizes the touching characters.
【請求項2】 1文字認識部と接触文字認識部との結果
を判定する判定手段を有し、前記判定手段の判定結果に
応じて接触文字の切り出し位置を変更する請求項1に記
載の文字認識装置。
2. The character according to claim 1, further comprising a determination unit configured to determine a result of the one-character recognition unit and a result of the contact character recognition unit, and changing a cutout position of the contact character according to a determination result of the determination unit. Recognition device.
【請求項3】 光電変換手段から送られる2値化画像か
ら文字塊を抽出し、抽出した文字塊が1文字であるか接
触文字であるかを検出し、前記文字塊が接触文字である
ときに、その接触文字を1文字分ごとに切り出して認識
するとともに複数文字単位でも認識し、1文字単位の認
識と複数文字単位の認識の両方の結果に基づいて接触文
字を認識することを特徴とする文字認識方法。
3. A character chunk is extracted from a binarized image sent from the photoelectric conversion means, and whether the extracted character chunk is a single character or a contact character is detected. In addition, the touched character is cut out and recognized for each character, and the touched character is also recognized in units of a plurality of characters, and the touched character is recognized based on the results of both the recognition in units of one character and the recognition in units of a plurality of characters. Character recognition method.
JP6170065A 1994-06-29 1994-06-29 Character recognition device Expired - Fee Related JP2630261B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6170065A JP2630261B2 (en) 1994-06-29 1994-06-29 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6170065A JP2630261B2 (en) 1994-06-29 1994-06-29 Character recognition device

Publications (2)

Publication Number Publication Date
JPH0816720A JPH0816720A (en) 1996-01-19
JP2630261B2 true JP2630261B2 (en) 1997-07-16

Family

ID=15897986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6170065A Expired - Fee Related JP2630261B2 (en) 1994-06-29 1994-06-29 Character recognition device

Country Status (1)

Country Link
JP (1) JP2630261B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3092576B2 (en) 1998-01-22 2000-09-25 日本電気株式会社 Character recognition device
JP5343617B2 (en) 2009-02-25 2013-11-13 富士通株式会社 Character recognition program, character recognition method, and character recognition device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62262194A (en) * 1986-05-08 1987-11-14 Oki Electric Ind Co Ltd Optical character reader

Also Published As

Publication number Publication date
JPH0816720A (en) 1996-01-19

Similar Documents

Publication Publication Date Title
KR100383858B1 (en) Character extracting method and device
JP4011646B2 (en) Line detection method and character recognition device
EP0717365B1 (en) Linear line detection apparatus using projection image of character string including linear line
JP3092576B2 (en) Character recognition device
JP2630261B2 (en) Character recognition device
KR0186172B1 (en) Character recognition apparatus
JP3466899B2 (en) Character recognition device and method, and program storage medium
JP2827960B2 (en) Address line extraction device
JPH05189546A (en) Device for discriminating authenticity of fingerprint featured point
JP4136257B2 (en) Character recognition device, character recognition method, and storage medium
JP2565150B2 (en) Character cutting method
JPH07160810A (en) Character recognizing device
JP3712825B2 (en) Image processing method, apparatus, and recording medium
JP2768289B2 (en) Character segmentation device
JP2982221B2 (en) Character reader
JP3160458B2 (en) Character reading device and character reading method
JPH03122786A (en) Optical character reader
JP2569132B2 (en) How to determine special character lines
JP2715930B2 (en) Line detection method
JPH07168911A (en) Document recognition device
JP2778436B2 (en) Character segmentation device
JPH0632074B2 (en) Normalization method
JPH04260980A (en) Device for recognizing graphic
JP2795222B2 (en) Character extraction method and character extraction device
JPH10162104A (en) Character recognition device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees