JPH1139429A - Character recognition part - Google Patents
Character recognition partInfo
- Publication number
- JPH1139429A JPH1139429A JP9191069A JP19106997A JPH1139429A JP H1139429 A JPH1139429 A JP H1139429A JP 9191069 A JP9191069 A JP 9191069A JP 19106997 A JP19106997 A JP 19106997A JP H1139429 A JPH1139429 A JP H1139429A
- Authority
- JP
- Japan
- Prior art keywords
- character
- pattern
- line segment
- line
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、光学的文字認識装
置(OCR)に関する。手書き文字を認識する文字認識
装置においては、誤読文字を減じると共に帳票記入の制
限を減らすことが要求される。[0001] The present invention relates to an optical character recognition device (OCR). In a character recognition device for recognizing handwritten characters, it is required to reduce misread characters and reduce restrictions on form entry.
【0002】[0002]
【従来の技術】図9は従来の文字認識装置(OCR)の
構成概念図である。文字認識装置1の各部は以下のよう
に動作する。まず観測部2は、帳票A上に記入された文
字(および文字枠)をスキャナ等で読み取り、光電変換
後に2値の画像データに変換する。文字切りだし部3
は、帳票画像から各文字を1文字づつに分離する。前処
理部4は、切り出した文字に対して雑音除去、大きさの
正規化等を行う。特徴抽出部5は、文字認識用の特徴値
を抽出する。辞書部6には、各文字種に対する特徴値の
辞書が格納されている。辞書照合部7は、抽出した文字
の特徴値と辞書との照合を行ない、最も特徴値が近い文
字種を候補とし、結果出力部8はそれに従って認識結果
Bを出力する。2. Description of the Related Art FIG. 9 is a conceptual diagram of a conventional character recognition device (OCR). Each part of the character recognition device 1 operates as follows. First, the observation unit 2 reads a character (and a character frame) written on the form A with a scanner or the like, and after photoelectric conversion, converts the character into binary image data. Character cutout part 3
Separates each character from the form image one by one. The preprocessing unit 4 performs noise removal, size normalization, and the like on the extracted characters. The feature extracting unit 5 extracts a feature value for character recognition. The dictionary unit 6 stores a dictionary of characteristic values for each character type. The dictionary matching unit 7 compares the extracted characteristic value of the character with the dictionary, selects the character type having the closest characteristic value as a candidate, and the result output unit 8 outputs the recognition result B accordingly.
【0003】特徴抽出方式には、各種のものがあるが、
図10に一例を示す。この例は、図10(1)に示すよ
うに、文字の画素パターンの輪郭部の画素を抽出し、そ
れぞれ輪郭の方向を示す方向コードを付ける方式であ
る。この例では横、右上がり斜め、縦、左上がり斜めの
4つの方向に分けている。そして、各方向ごとに画素を
計数し、その並びを特徴ベクトルとして扱う(図10
(2 )参照)。辞書部6にも同じようにして文字種ごと
のベクトル値が記録してある。入力された文字のベクト
ルと、辞書のベクトルとの距離(特徴距離)を計算し近
い順に候補とする。このとき、候補文字との距離が遠い
場合や、1位候補と2位候補との差が少ない場合には認
識不能とする場合もある。There are various types of feature extraction methods.
FIG. 10 shows an example. In this example, as shown in FIG. 10A, a pixel of a contour portion of a pixel pattern of a character is extracted, and a direction code indicating a direction of the contour is attached to each pixel. In this example, the image is divided into four directions: horizontal, upward diagonal, vertical, and left diagonal. Then, the pixels are counted for each direction, and the arrangement is treated as a feature vector (FIG. 10).
(See (2)). The dictionary unit 6 also stores vector values for each character type in the same manner. The distance (feature distance) between the input character vector and the dictionary vector is calculated and candidates are set in ascending order. At this time, if the distance from the candidate character is long, or if the difference between the first and second candidates is small, the recognition may not be possible.
【0004】従来、OCRの帳票では、記入を間違えた
文字列に対しては文字列を貫通する線分(消し線)を記
入することにより、それらを読み取らないというリジェ
クト機能が搭載されたものがある(特開昭61−368
74)。しかしこれは、1文字の幅と比較して「充分に
長い線分」という条件のもとで有効な手法であり、消し
線長が文字幅程度の1文字のみを訂正した消し線には有
効ではない。Conventionally, some OCR forms have a reject function in which a line segment (strikethrough) penetrating a character string is entered for a character string entered incorrectly so that the character string is not read. (Japanese Unexamined Patent Publication No. 61-368)
74). However, this is an effective method under the condition of "sufficiently long line segment" compared to the width of one character. is not.
【0005】1文字に対して消し線を記入する場合は、
例えば、文字枠内を塗りつぶす、または文字枠を横断す
る長い水平線分を引くというルールが使われる。このル
ールが守られれば、本来の文字との特徴距離の差が明確
であるため区別できるが、このルールは記入者にとって
負担になるので、守られないことが多い。図11に手書
き文字を入力した帳票の例を示す。従って、記入者が消
し線を付けたつもりの文字がリジェクトされずに誤読さ
れてしまうケースがかなりの割合で発生する可能性があ
る。例えば、「0」に短い横棒による消し線をつけたも
のを「8」と誤る。これは「消し線付きの0」と「8」
との特徴距離が近いため区別することが容易でないため
である。[0005] When writing a strikeout for one character,
For example, a rule is used to fill the inside of the character frame or draw a long horizontal line that crosses the character frame. If this rule is obeyed, the difference in characteristic distance from the original character is clear and can be distinguished, but since this rule places a burden on the writer, it is often not observed. FIG. 11 shows an example of a form in which handwritten characters are input. Therefore, there is a possibility that a considerable percentage of the characters that the writer intends to have a strike-through are misrecognized without being rejected. For example, “0” with a short horizontal line crossed out is mistaken for “8”. This is "0 with a strikethrough" and "8"
This is because it is not easy to distinguish them because the feature distance is short.
【0006】従来方式でこの問題を避けるには、本来の
文字のどれに相当するかを判定する他に、消し線付文字
との区別を判定する必要があり、特徴距離を大きくする
ために数多くの特徴を抽出する必要がある。特徴辞書も
大掛かりなものになる。In order to avoid this problem in the conventional method, it is necessary to judge which character is equivalent to the original character, and also to judge the character from being erased. Needs to be extracted. The feature dictionary will also be large.
【0007】[0007]
【発明が解決しようとする課題】本発明は、消し線の形
態は、横方向、縦方向、斜め方向の線分によることが最
も頻度が高いことに着目して、文字が記入された帳票の
画像から1文字毎に切りだされた文字パターンを対象と
して、消し線がついているか否かを判定し、ついている
と判定したときはリジェクトすることにより、文字認識
の精度を高めることを目的とする。SUMMARY OF THE INVENTION The present invention focuses on the fact that the form of a strike-through line is most frequently determined by horizontal, vertical and oblique line segments, An object of the present invention is to improve the accuracy of character recognition by determining whether or not a character pattern cut out for each character from an image has a strike-through line, and rejecting when it is determined to be. .
【0008】[0008]
【課題を解決するための手段】図1に本発明の文字認識
装置の原理構成図を示す。観測部2、文字切り出し部
3、前処理部4、特徴抽出部5、辞書部6、辞書照合部
7、結果出力部8は従来と同じでよい。なお、これらの
部分はこの図と異なる構成であってもよい。FIG. 1 is a block diagram showing the principle of a character recognition apparatus according to the present invention. The observation unit 2, the character cutout unit 3, the preprocessing unit 4, the feature extraction unit 5, the dictionary unit 6, the dictionary collation unit 7, and the result output unit 8 may be the same as the conventional one. Note that these portions may have configurations different from those in this drawing.
【0009】請求項1の発明: 文字パターンから、所
定方向の線分のパターンを抽出する線分パターン生成部
91と、生成された線分パターンから特徴データを抽出す
る線分抽出部92と、線分パターンの特徴データを解析し
て消し線であるか否かを判定する消し線判定部93とを有
するように構成する。線分抽出部92は、文字パターンか
ら、所定方向の、例えば横方向の線分に対応するパター
ンを抜き出して、線分パターンを生成する。この生成
は、例えば次の請求項2のように行う。A first aspect of the present invention is a line segment pattern generating section for extracting a line segment pattern in a predetermined direction from a character pattern.
91, a line segment extraction unit 92 that extracts feature data from the generated line segment pattern, and a line eraser determination unit 93 that analyzes characteristic data of the line segment pattern and determines whether or not the line is a strikeout line. The configuration is as follows. The line segment extraction unit 92 extracts a pattern corresponding to a line segment in a predetermined direction, for example, a horizontal direction, from the character pattern, and generates a line segment pattern. This generation is performed, for example, as in claim 2 below.
【0010】消し線判定部93は、生成された線分パター
ンから特徴データを抽出する。特徴データを抽出するに
は請求項3のようにヒストグラム方式でもよいし、文字
パターンから特徴データを抽出する方式、その他でもよ
い。消し線判定部93は、特徴データを解析して、文字パ
ターンの一部ではない線分が存在するか否かを判断す
る。そのような線分があれば、それは消し線とみなして
その文字を結果出力部により削除処理を行うことにな
る。A strike-out determination unit 93 extracts feature data from the generated line segment pattern. The feature data may be extracted by a histogram method as described in claim 3, a method of extracting feature data from a character pattern, or the like. The strike-through determination unit 93 analyzes the feature data and determines whether there is a line segment that is not a part of the character pattern. If there is such a line segment, it is regarded as a strike-through line and the character is deleted by the result output unit.
【0011】請求項2の発明: 線分パターン生成部91
は、抽出対象方向に長い長方形の抽出窓を用い、文字パ
ターン上で移動させ、抽出窓の中の黒画素数が所定値以
下の場合は抽出窓の全画素を白画素とし、所定値より多
ければ全画素を黒画素として変換することにより線分パ
ターンを生成するように構成する。A second aspect of the present invention: a line segment pattern generator 91
Is moved on a character pattern using a rectangular extraction window that is long in the direction of extraction, and if the number of black pixels in the extraction window is less than or equal to a predetermined value, all pixels in the extraction window are assumed to be white pixels, and For example, a line segment pattern is generated by converting all pixels as black pixels.
【0012】図2に線分抽出の説明図を示す。細長い抽
出窓の中で黒画素が多ければ、その部分はその方向の線
分である可能性が高い。また、黒画素が少ないならその
部分はその方向の線分ではない可能性が高い。従って、
図2(a)に示すように、それぞれ黒画素、白画素に置
き換えたパターンを生成することにより、図2(b)の
ように抽出窓方向の線分を構成する画素が抽出されるこ
とになる。FIG. 2 is an explanatory diagram of line segment extraction. If there are many black pixels in the elongated extraction window, there is a high possibility that the portion is a line segment in that direction. If there are few black pixels, there is a high possibility that the portion is not a line segment in that direction. Therefore,
As shown in FIG. 2A, by generating a pattern replaced with a black pixel and a white pixel, pixels forming a line segment in the extraction window direction are extracted as shown in FIG. 2B. Become.
【0013】請求項3の発明: 消し線判定部93は、線
分パターンを抽出対象方向に走査して画素数ヒストグラ
ムを生成し、生成されたヒストグラムの所定の領域にあ
るピークの幅と高さとから消し線であるか否かを判定す
るように構成する。The eraser determination unit 93 scans the line segment pattern in the direction to be extracted to generate a histogram of the number of pixels, and determines the width and height of the peak in a predetermined area of the generated histogram. It is configured to determine whether or not it is a strike-through line.
【0014】図3に文字と線分抽出との関係の説明図を
示す。線分パターンに存在する画素はすべて消し線由来
のものとは限らないので、消し線である可能性が高いも
のを取り出す。例えば、上下の境界に近い水平線分をも
つ文字(図3(2)参照)が多いので、また、消し線が
上下の境界付近に存在することは少ないので、横方向の
ヒストグラムを判断する場合に上下境界に近いピークを
除いたほうが精度が高くなる。FIG. 3 is an explanatory diagram of the relationship between characters and line segment extraction. Since all the pixels present in the line segment pattern are not necessarily derived from the strike-out line, those having a high possibility of being strike-through lines are extracted. For example, since there are many characters having a horizontal line segment near the upper and lower boundaries (see FIG. 3 (2)), and since the strike-out line rarely exists near the upper and lower boundaries, when determining the histogram in the horizontal direction, The accuracy is higher when peaks near the upper and lower boundaries are removed.
【0015】請求項4の発明: 線分抽出部92は、線分
パターンから、文字パターンからの特徴データ抽出と同
様にして特徴データを抽出し、消し線判定部93は、抽出
された特徴データを解析して消し線か否かを判定するよ
うに構成する。A line segment extracting section 92 extracts feature data from a line segment pattern in the same manner as feature data extraction from a character pattern. Is analyzed to determine whether or not it is a strike-through line.
【0016】請求項5の発明: 消し線判定部93は、線
分抽出部92により抽出された線分の特徴データを解析す
るに当たり、入力された文字パターンの特徴データから
認識された文字種に対応して設定された判定基準を用い
て、消し線であるか否かを判定するように構成する。In the invention, the strike-out determination unit 93 analyzes the characteristic data of the line segment extracted by the line segment extraction unit 92 and corresponds to the character type recognized from the characteristic data of the input character pattern. It is configured to determine whether or not it is a strike-out line by using the determination criteria set as above.
【0017】例えば、「0」や「8」のパターンは横方
向の走査によるヒストグラムには閾値を越えるピークを
もたないが、図3(2)に示すように、「4」の標準的
パターンは閾値を越えるピークを中央付近に1つもつ。
従って、「0」や「8」と認識されたパターンの中央付
近にヒストグラムのピークが存在する場合は消し線が付
けられている可能性が高いが、「4」と認識されたパタ
ーンの中央付近にヒストグラムのピークがあっても、消
し線が付けられている可能性は低い。よって、消し線の
存在の判定は、文字種ごとに変えるほうが精度が高くな
る。For example, the pattern of "0" or "8" has no peak exceeding the threshold value in the histogram by the horizontal scanning, but the standard pattern of "4" as shown in FIG. Has one peak near the center exceeding the threshold.
Therefore, if the peak of the histogram exists near the center of the pattern recognized as “0” or “8”, it is highly likely that a strike-out line is attached, but the center of the pattern recognized as “4” is high. Even if there is a peak in the histogram, it is unlikely that the line is struck out. Therefore, the determination of the presence of a strike-through line is more accurate when it is changed for each character type.
【0018】請求項6の発明: 線分パターン生成部91
は複数の線分パターンを生成し、線分抽出部92は、線分
パターンごとに線分の特徴データを抽出し、消し線判定
部93は、いずれかの方向の消し線の有無を検出するよう
に構成する。A sixth aspect of the invention: a line segment pattern generating section 91
Generates a plurality of line segment patterns, a line segment extraction unit 92 extracts line segment characteristic data for each line segment pattern, and a strikeout line determination unit 93 detects the presence or absence of a strikeout line in any direction. The configuration is as follows.
【0019】横方向の他、縦方向、右上がり斜め方向、
左上がり斜め方向の場合も同様にすればよい。なお、消
し線は横線にするというようなルールを決めることがで
きれば横方向のみを検出することで高速にすることもで
きる。In addition to the horizontal direction, the vertical direction, the diagonally upward right direction,
The same may be applied to the case of a diagonally up left direction. It should be noted that if a rule can be determined such that the strikeout line is a horizontal line, the speed can be increased by detecting only the horizontal direction.
【0020】請求項7の発明: 線分パターン生成部91
は、必要があれば、文字パターンを所定の角度だけ回転
させてから、線分パターンを生成するように構成する。
例えば、45度ずつ回転させて4回行えば、斜め、縦、
の処理もその後の処理は同じことをくりかえすだけでよ
い。The invention according to claim 7: a line segment pattern generating section 91.
Is configured to rotate a character pattern by a predetermined angle, if necessary, before generating a line segment pattern.
For example, if it is rotated 45 degrees and performed four times,
Subsequent processes need only be repeated the same.
【0021】請求項8の発明: 文字認識装置におい
て、文字パターンから所定方向の線分のパターンを抽出
させ、抽出された線分パターンの特徴データを抽出さ
せ、線分パターンの特徴データを解析して消し線である
か否かを判定させる処理を行わせることを特徴とする文
字認識プログラムをコンピュータ読み取り可能な記録媒
体に記録しておく。In the character recognition apparatus, a line segment pattern in a predetermined direction is extracted from the character pattern, feature data of the extracted line segment pattern is extracted, and the feature data of the line segment pattern is analyzed. A character recognition program is recorded in a computer-readable recording medium, wherein the character recognition program performs a process of determining whether the character is a strike-out line.
【0022】以上のように構成することにより、記入者
が記入を誤ったことを示すために記入した消し線を適切
に判断してその文字を除去することができる。従って消
したはずの文字が別の文字に誤認識されることが少なく
なり、精度を高くすることができる。With the above-described configuration, the character can be removed by appropriately determining the erased line entered by the writer to indicate that the entry has been made incorrectly. Therefore, the character that should have been erased is less likely to be erroneously recognized as another character, and the accuracy can be improved.
【0023】[0023]
【発明の実施の形態】本発明を適用した光学的文字認識
装置(OCR)の例を説明する。図4は、主に手書き数
字を対象とし文字幅程度の線分による消し線をつけるこ
とを許容する文字認識装置の構成ブロック図である。DESCRIPTION OF THE PREFERRED EMBODIMENTS An example of an optical character recognition device (OCR) to which the present invention is applied will be described. FIG. 4 is a block diagram showing the configuration of a character recognition device which mainly allows handwritten numerals to be crossed out by a line segment having a character width.
【0024】この実施例の全体の処理の流れ図を図5に
示す。 s1〜s6: 文字認識装置1は、帳票上に記入された文字
(および文字枠)をスキャナ等で読み取って、光電変換
後に二値の画像データに変換する観測部2、帳票画像か
ら各文字を従来方式により1文字づつに分離する文字切
りだし部3、切り出した文字に対して雑音除去、大きさ
の正規化等を行う前処理部4、文字認用特徴値を抽出す
る特徴抽出部5、各文字種に対する特徴値の辞書が格納
されている辞書部6、抽出した文字認識用特徴値と辞書
との照合を行い中間認識結果を出力する辞書照合部7を
備える。ここまでは従来方式と同じである。FIG. 5 shows a flow chart of the overall processing of this embodiment. s1 to s6: The character recognition device 1 reads a character (and a character frame) written on a form with a scanner or the like, and converts it into binary image data after photoelectric conversion. A character extracting unit 3 for separating each character by a conventional method, a preprocessing unit 4 for removing noise from the extracted characters, normalizing the size, and the like; a feature extracting unit 5 for extracting a character recognition feature value; A dictionary unit 6 in which a dictionary of feature values for each character type is stored, and a dictionary matching unit 7 that matches the extracted character recognition feature values with the dictionary and outputs an intermediate recognition result. Up to this point, it is the same as the conventional method.
【0025】s7〜s10 : 中間認識結果と前処理部が生成
した正規化された文字パターンとは、消し線処理を行う
ため、線分パターン生成部91と消し線判定部93とに送ら
れる。消し線判定は、正規化文字パターンに対して、横
方向、縦方向、右上がり斜め方向、左上がり斜め方向の
線分を検出することにより行う。また、文字種ごとにま
た、方向ごとに判定のための閾値を設定してある閾値フ
ァイル94を用意してあり、中間認識結果で第一候補とさ
れた文字種に対応した閾値セットをとりだし、それに基
づいて、消し線があるか否かを判定する。S7 to s10: The intermediate recognition result and the normalized character pattern generated by the preprocessing unit are sent to a line segment pattern generation unit 91 and a deletion line determination unit 93 to perform a deletion process. The erased line determination is performed by detecting a line segment in a horizontal direction, a vertical direction, a diagonally rising right direction, and a diagonally rising left direction with respect to the normalized character pattern. In addition, a threshold file 94 in which a threshold for determination is set for each character type and for each direction is prepared, and a threshold set corresponding to the character type set as the first candidate in the intermediate recognition result is taken out. To determine whether there is a strike-through.
【0026】消し線付文字と判定した場合は、認識結果
文字種コードをリジェクトコードに付け替え、最終認識
結果として出力する。消し線の無い通常文字として判定
した場合は、中間認識結果をそのまま最終認識結果とし
て出力する。If it is determined that the character is a strike-through character, the recognition result character type code is replaced with a reject code, and the result is output as the final recognition result. If it is determined that the character is a normal character without a strikeout line, the intermediate recognition result is output as it is as the final recognition result.
【0027】以下に、消し線判定の処理を中心に説明す
る。消し線処理は、図4に示す、線分パターン生成部9
1、線分抽出部92、消し線判定部93、閾値ファイル94、
および、 線分パターン回転部(図示していない)より行
われる。In the following, description will be made focusing on the process of determining a strike-through line. The strike-out processing is performed by the line segment pattern generation unit 9 shown in FIG.
1, line segment extraction unit 92, strikeout determination unit 93, threshold file 94,
And a line segment pattern rotation unit (not shown).
【0028】線分パターン生成部91は、正規化文字パタ
ーンに対し、以下のようにして、線分パターンを抽出す
る。消し線処理の流れ図を図6に示す。The line segment pattern generator 91 extracts a line segment pattern from the normalized character pattern as follows. FIG. 6 shows a flow chart of the strike-through processing.
【0029】(1) 縦、横、右上がり斜め、左上がり斜め
方向線分の抽出 判定対象とする消し線は縦、横、斜め方向の線分による
消し線とする。ここで、斜め方向とは、文字外接長方形
の対角線方向とする。図7に、文字外接長方形と抽出線
分の方向を示す。図7(1)(2)の細枠が文字の外接長方
形、図7(1) の1の線が横方向、2が左上がり斜め方
向、3が縦方向、4が右上がり斜め方向である。(1) Extraction of vertical, horizontal, upward-sloping diagonal, and left-upward diagonal line segments A strike-out line to be determined is a strike-out line composed of vertical, horizontal, and diagonal line segments. Here, the oblique direction is the diagonal direction of the circumscribed rectangle of the character. FIG. 7 shows the directions of the character circumscribed rectangle and the extracted line segments. 7 (1) and (2) are the circumscribed rectangles of the characters, and 1 in FIG. 7 (1) is the horizontal direction, 2 is the diagonal direction going up left, 3 is the vertical direction, and 4 is the diagonal direction going right up. .
【0030】横方向を例にあげて、線分抽出を以下に説
明する。他の方向を抽出するには、外接長方形の対角線
方向の角度を算出し、その角度だけ文字パターンの座標
変換を行ってから、その角度だけ回転させて(図7(2)
参照)、同じことを行えばよい。または、順次固定角度
で45度、90度、135度回転させるようにしてもよ
い。The extraction of line segments will be described below by taking the horizontal direction as an example. To extract another direction, the angle of the diagonal direction of the circumscribed rectangle is calculated, the coordinate of the character pattern is converted by that angle, and then rotated by that angle (FIG. 7 (2)
See) and do the same. Alternatively, the rotation may be sequentially performed at a fixed angle of 45 degrees, 90 degrees, and 135 degrees.
【0031】文字パターン領域内で、縦横サイズn×
mの横長の長方形(n<m)の窓を考える。この領域内
の黒画素数をカウントし、長方形内全画素数(n×m
個)に対する黒画素数の比Bを求める。In the character pattern area, the vertical and horizontal size nx
Consider an m-long rectangular (n <m) window. The number of black pixels in this area is counted, and the total number of pixels in the rectangle (n × m
), The ratio B of the number of black pixels to the number
【0032】この閾値をTH1としたとき、B>TH
1の場合、長方形領域内部の画素を、全て黒画素で置き
換える。B≦TH1の場合、長方形領域内部の画素を、
全て白画素で置き換える。窓を、文字外接長方形内でく
まなく移動させ、水平線分パターンを抽出する。図2
(a)に、n×m=3×8、TH1=0.7とした例を
示す。When this threshold value is set to TH1, B> TH
In the case of 1, all the pixels inside the rectangular area are replaced with black pixels. When B ≦ TH1, pixels inside the rectangular area are
All are replaced with white pixels. The window is moved all over the character circumscribed rectangle to extract a horizontal line pattern. FIG.
(A) shows an example in which n × m = 3 × 8 and TH1 = 0.7.
【0033】(2) 各方向の線分数のカウント 上記で求めた線分パターンから、画素数ヒストグラムを
生成し、所定領域内の線分数を数える。同様に、横方向
の線分を例にあげて説明する。(2) Counting the number of line segments in each direction A histogram of the number of pixels is generated from the line pattern obtained above, and the number of line segments in a predetermined area is counted. Similarly, a description will be given using a horizontal line segment as an example.
【0034】横方向の線分パターンを横方向に走査し
て黒画素を数えた、黒画素数ヒストグラムを作成する。
ただし、図3(3) に示すように『5』や『2』のよう
に、最上部または最下部の文字線が横線分として検出さ
れる場合が数字では多いので、文字の最上部および最下
部から、幅LE=LH×TH2の領域を除外してヒスト
グラムを作成する。TH2は外接長方形の高さに対す
る、除外領域の幅である。なお、ヒストグラムは全体に
わたって作成して、判定のときに除外するようにしても
よい。または、 線分パターンを生成するときに除外する
ようにしてもよい。図6ではその例を示している。A black pixel count histogram is created by scanning the horizontal line segment pattern in the horizontal direction and counting black pixels.
However, as shown in FIG. 3 (3), since the uppermost or lowermost character line is often detected as a horizontal line segment such as “5” or “2” in the case of a numeral, the uppermost or lowermost character line is detected. From the bottom, a histogram is created excluding the area of width LE = LH × TH2. TH2 is the width of the exclusion area with respect to the height of the circumscribed rectangle. Note that the histogram may be created for the entirety, and may be excluded at the time of determination. Alternatively, it may be excluded when a line segment pattern is generated. FIG. 6 shows an example thereof.
【0035】文字パターンの外接長方形の幅をLWと
したとき、LC=LW×TH3を満たす位置LCでヒス
トグラムを切断する。TH3は外接長方形幅LWに対す
る切断部分幅の比である。If the width of the circumscribed rectangle of the character pattern is LW, the histogram is cut at a position LC satisfying LC = LW × TH3. TH3 is a ratio of the cut portion width to the circumscribed rectangular width LW.
【0036】切断した残りのピーク部分(図3(1) の
市松模様部分)の切断個所からの高さをH、切断個所の
幅をWとしたとき、H/W>TH4を満たすものを水平
方向の線分と判断する。Assuming that the height of the remaining cut peak portion (the checkered portion in FIG. 3A) from the cut portion is H and the width of the cut portion is W, a portion satisfying H / W> TH4 is horizontal. Judge as a line segment in the direction.
【0037】求めた横方向の線分の数が閾値TH5以
上のものを、水平方向の線分による消し線付き文字と判
定する。すなわち、LHをパターンの外接長方形の高さ
としたとき、 (H/W>TH4) & (LH−LE≧y≧LEに存
在) であれば、横方向の線分の消し線候補である。If the number of the obtained horizontal line segments is equal to or larger than the threshold value TH5, it is determined that the character has a strike-through line formed by horizontal line segments. In other words, when LH is the height of the circumscribed rectangle of the pattern, if (H / W> TH4) & (exists in LH-LE ≧ y ≧ LE), the line is a crossed line eraser candidate.
【0038】横方向の線分の消し線候補の本数≧TH5
であれば、横方向の線分による消し線付文字であると判
定する。 (3) ここで、TH1〜TH5の各閾値は、抽出対象線分
方向毎及び文字種毎に最適な値に設定しておき、閾値フ
ァイルとして用意しておく。判定対象文字の一次認識結
果文字種に対応して、使用する閾値のセットを決定す
る。縦、右上がり斜め、左上がり斜め線分も同様に行
う。消し線候補の探索領域は、横、縦方向は外接長方形
内であるが、斜め方向の場合は外接長方形の対角線を含
む長方形内とすればよい。Number of strike-through candidates for horizontal line segments ≧ TH5
If it is, it is determined that the character is a character with a strike-through line by a horizontal line segment. (3) Here, each threshold of TH1 to TH5 is set to an optimal value for each direction of the line segment to be extracted and for each character type, and is prepared as a threshold file. A set of thresholds to be used is determined according to the primary recognition result character type of the character to be determined. Vertical, upward-sloping, and left-upward diagonal line segments are similarly processed. The search area for a strike-through candidate is within a circumscribed rectangle in the horizontal and vertical directions, but may be in a rectangle including a diagonal line of the circumscribed rectangle in an oblique direction.
【0039】本発明により判定された消し線付文字例を
図8にあげる。FIG. 8 shows an example of a character with a strikethrough determined according to the present invention.
【0040】[0040]
【発明の効果】以上説明したように、本発明によれば消
し線をつけた文字を適切に判定することができ、一定方
向の線分による消し線の記入された文字の誤読を減ず
る。As described above, according to the present invention, a character with a strike-through line can be appropriately determined, and misreading of a character with a strike-through line in a certain direction can be reduced.
【図1】 原理構成図Fig. 1 Principle configuration diagram
【図2】 線分抽出の説明図FIG. 2 is an explanatory diagram of line segment extraction.
【図3】 文字と線分図抽出例[Figure 3] Extraction example of character and line segment diagram
【図4】 実施例の構成ブロック図FIG. 4 is a configuration block diagram of an embodiment.
【図5】 全体処理の流れ図FIG. 5 is a flowchart of the entire process.
【図6】 消し線処理の流れ図FIG. 6 is a flowchart of a strike-through processing.
【図7】 線分抽出の説明図FIG. 7 is an explanatory diagram of line segment extraction.
【図8】 消し線判定例FIG. 8 is an example of a strike-through judgment.
【図9】 文字認識装置の構成概念図FIG. 9 is a conceptual diagram of a configuration of a character recognition device.
【図10】 文字の特徴抽出の説明図FIG. 10 is an explanatory diagram of character feature extraction.
【図11】 手書き入力帳票の例[FIG. 11] An example of a handwritten input form
1 文字認識装置 2 観測部 3 文字切り出し部 4 前処理部 5 特徴抽出部 6 辞書部 7 辞書照合部 8 結果出力部 91 線分パターン生成部 92 線分抽出部 93 消し線判定部 94 閾値ファイル DESCRIPTION OF SYMBOLS 1 Character recognition apparatus 2 Observation part 3 Character cutout part 4 Preprocessing part 5 Feature extraction part 6 Dictionary part 7 Dictionary collation part 8 Result output part 91 Line segment pattern generation part 92 Line segment extraction part 93 Strikeout line judgment part 94 Threshold file
Claims (8)
抽出し辞書データと比較して、文字を認識する文字認識
装置であって、 文字パターンから、所定方向の線分のパターンを抽出す
る線分パターン生成部と、 生成された線分パターンから特徴データを抽出する線分
抽出部と、 線分パターンの特徴データを解析して消し線であるか否
かを判定する消し線判定部とを有することを特徴とする
文字認識装置。1. A character recognition device for recognizing a character by extracting feature data of an input character pattern and comparing the extracted data with dictionary data, wherein the line segment extracts a line segment pattern in a predetermined direction from the character pattern. It has a pattern generation unit, a line segment extraction unit that extracts feature data from the generated line segment pattern, and a strikeout determination unit that analyzes feature data of the line segment pattern to determine whether or not it is a strikeout line A character recognition device characterized in that:
て、 線分パターン生成部は、抽出対象方向に長い長方形の抽
出窓を用い、文字パターン上で移動させ、抽出窓の中の
黒画素数が所定値以下の場合は抽出窓の全画素を白画素
とし、所定値より多ければ全画素を黒画素として変換す
ることにより線分パターンを生成することを特徴とする
文字認識装置。2. The character recognition device according to claim 1, wherein the line segment pattern generation unit uses a rectangular extraction window that is long in an extraction target direction, moves the character pattern on the character pattern, and sets the black in the extraction window. A character recognition apparatus characterized in that when the number of pixels is equal to or less than a predetermined value, all pixels in the extraction window are converted to white pixels, and when the number of pixels is larger than the predetermined value, all pixels are converted to black pixels to generate a line segment pattern.
識装置であって、 線分抽出部は、線分パターンを抽出対象方向に走査して
画素数ヒストグラムを生成し、 消し線判定部は、生成されたヒストグラムの所定の領域
にあるピークの幅と高さとから消し線であるか否かを判
定することを特徴とする文字認識装置。3. The character recognition device according to claim 1, wherein the line segment extraction unit scans the line segment pattern in a direction to be extracted to generate a pixel number histogram, and a strike-out line determination unit. Is a character recognition device characterized in that it is determined from a width and a height of a peak in a predetermined area of a generated histogram whether or not the line is a strike-out line.
識装置であって、 線分抽出部は、線分パターンから、文字パターンからの
特徴データ抽出と同様にして特徴データを抽出し、 消し線判定部は、抽出された特徴データを解析して消し
線か否かを判定することを特徴とする文字認識装置。4. The character recognition device according to claim 1, wherein the line segment extracting unit extracts feature data from the line segment pattern in the same manner as feature data extraction from a character pattern. A character recognition device characterized in that a strike-through determination unit analyzes the extracted feature data to determine whether or not it is a strike-through.
識装置であって、 消し線判定部は、線分抽出部により抽出された線分の特
徴データを解析するに当たり、入力された文字パターン
の特徴データから認識された文字種に対応して設定され
た判定基準を用いて、消し線であるか否かを判定するこ
とを特徴とする文字認識装置。5. The character recognition device according to claim 1, wherein the strike-out determination unit analyzes the input data of the line segment extracted by the line segment extraction unit. A character recognition device characterized in that it is determined whether or not a character is a strike-out line using a determination criterion set in correspondence with a character type recognized from characteristic data of a pattern.
識装置であって、 線分パターン生成部は複数の線分パターンを生成し、 線分抽出部は、線分パターンごとに線分の特徴データを
抽出し、 消し線判定部は、いずれかの方向の消し線の有無を検出
することを特徴とする文字認識装置。6. The character recognition device according to claim 1, wherein the line segment pattern generation unit generates a plurality of line segment patterns, and the line segment extraction unit generates a line segment for each line segment pattern. A character recognition device characterized by extracting the characteristic data of (1), wherein the strike-through determination unit detects presence / absence of strike-through in any direction.
識装置であって、 線分パターン生成部は、文字パターンを所定の角度だけ
回転させてから、線分パターンを生成することを特徴と
する文字認識装置。7. The character recognition device according to claim 1, wherein the line segment pattern generation unit generates the line segment pattern after rotating the character pattern by a predetermined angle. Character recognition device.
抽出し、辞書データと比較して、文字を認識する文字認
識装置であって、 文字パターンから、所定方向の線分のパターンを抽出す
る線分パターン生成部と、 抽出された線分パターンの特徴データを抽出する線分抽
出部と、 線分パターンの特徴データを解析して消し線であるか否
かを判定する消し線判定部とを有することを特徴とする
文字認識プログラムを記録したコンピュータ読み取り可
能な記録媒体。8. A character recognizing device for recognizing characters by extracting feature data of an input character pattern, comparing the extracted data with dictionary data, and extracting a line pattern in a predetermined direction from the character pattern. A segment pattern generating unit, a line segment extracting unit that extracts feature data of the extracted line segment pattern, and a strike-through line determining unit that analyzes the feature data of the line segment pattern and determines whether or not it is a strike-through line. A computer-readable recording medium on which a character recognition program is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19106997A JP3391223B2 (en) | 1997-07-16 | 1997-07-16 | Character recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19106997A JP3391223B2 (en) | 1997-07-16 | 1997-07-16 | Character recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1139429A true JPH1139429A (en) | 1999-02-12 |
JP3391223B2 JP3391223B2 (en) | 2003-03-31 |
Family
ID=16268363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19106997A Expired - Fee Related JP3391223B2 (en) | 1997-07-16 | 1997-07-16 | Character recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3391223B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346631A (en) * | 2013-07-30 | 2015-02-11 | 夏普株式会社 | Image distinguishing method, image processing device and image outputting device |
-
1997
- 1997-07-16 JP JP19106997A patent/JP3391223B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346631A (en) * | 2013-07-30 | 2015-02-11 | 夏普株式会社 | Image distinguishing method, image processing device and image outputting device |
Also Published As
Publication number | Publication date |
---|---|
JP3391223B2 (en) | 2003-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4757551A (en) | Character recognition method and system capable of recognizing slant characters | |
Lehal et al. | A Gurmukhi script recognition system | |
TWI381321B (en) | Method for image recombination of multiple images and identifying image and system for identifying image and outputting identification result | |
Cao et al. | Text/graphics separation in maps | |
Alam et al. | A complete Bangla OCR system for printed characters | |
Lehal et al. | Feature extraction and classification for OCR of Gurmukhi script | |
JP2008011484A (en) | Apparatus and method for extracting character and graphic string, program for executing the method, recording medium with the program stored therein | |
Zhang et al. | Segmentation-free keyword spotting for bangla handwritten documents | |
Vasantha Lakshmi et al. | OCR of printed Telugu text with high recognition accuracies | |
Devi et al. | A comparative Study of Classification Algorithm for Printed Telugu Character Recognition | |
Sathik et al. | TEXT LINE SEGMENTATION IN TAMIL LANGUAGE PALM LEAF MANUSCRIPTS–A NOVEL APPROACH | |
KR100295360B1 (en) | Image Processing Method Using Shading Algorithm | |
JPH1139429A (en) | Character recognition part | |
JP2871590B2 (en) | Image extraction method | |
Mitra et al. | Character segmentation for handwritten Bangla words using image processing | |
Tyan et al. | Character segmentation algorithm for recognition of vehicle license plate | |
JP3344062B2 (en) | Katakana handwritten character extraction circuit | |
JP2894111B2 (en) | Comprehensive judgment method of recognition result in optical type character recognition device | |
Jambekar | A Review of Optical Character Recognition System for Recognition of Printed Text | |
Choudhary et al. | An efficient algorithm for characters recognition of printed oriya script | |
KR100480024B1 (en) | Collection Recognition Method Using Stroke Thickness Information | |
KR920009163B1 (en) | Automatic recogniting method of car number plate | |
JPH0916715A (en) | Character recognition system and method therefor | |
JP2832035B2 (en) | Character recognition device | |
JPS58222384A (en) | Discriminating system of font |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20021224 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080124 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090124 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100124 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110124 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110124 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120124 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130124 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130124 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140124 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |