JPH11203406A - Character segmenting method, character recognizing method, character recognition device, and recording medium - Google Patents

Character segmenting method, character recognizing method, character recognition device, and recording medium

Info

Publication number
JPH11203406A
JPH11203406A JP10008582A JP858298A JPH11203406A JP H11203406 A JPH11203406 A JP H11203406A JP 10008582 A JP10008582 A JP 10008582A JP 858298 A JP858298 A JP 858298A JP H11203406 A JPH11203406 A JP H11203406A
Authority
JP
Japan
Prior art keywords
character
pattern
candidate
patterns
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10008582A
Other languages
Japanese (ja)
Inventor
Shinobu Yamamoto
忍 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10008582A priority Critical patent/JPH11203406A/en
Publication of JPH11203406A publication Critical patent/JPH11203406A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To reduce the memory capacity by setting up a partial character pattern to suitable size and suppressing the number of character string candidate patterns to be prepared. SOLUTION: Reference patterns are extracted (2) from an input character string and these reference patterns are integrated to prepare (3) a partial character pattern. A character candidate pattern is segmented (4) from the arrangement of the partial character pattern and collated with a dictionary 5 to recognize it (6) and a character code and similarity are outputted. Then the geometrical feature values of the character candidate are calculated (7), a character string candidate is prepared (8) from the character candidate and the geometrical feature values of the character string candidate is calculated (9). An evaluation value is calculated (109 based on the feature value or the like of each character string candidate and a character candidate included in the character string candidate having the highest evaluation value is outputted as a recognition result (11, 12).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、帳票などに記入さ
れた複数の手書き文字からなる文字列を読み取る文字認
識方法において、特に分離文字を含む文字列や、個々の
文字の大きさや文字間隔が不定な文字列から精度よく文
字の切り出しを行って認識処理する文字切り出し方法、
文字認識方法、文字認識装置および文字認識処理のプロ
グラムを記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition method for reading a character string composed of a plurality of handwritten characters written on a form or the like, and particularly to a character string including a separated character, and the size and character spacing of each character. A character extraction method that performs character extraction from an indefinite character string with high accuracy, and performs recognition processing.
The present invention relates to a character recognition method, a character recognition device, and a recording medium on which a program for character recognition processing is recorded.

【0002】[0002]

【従来の技術】従来、文書や帳票に記入されている住
所、氏名や電話番号等の手書き文字を認識する文字認識
方法においては、1文字だけ記入する枠を複数設け、各
枠内には1文字しか文字が記入されないものとして認識
する手法が採られ、従って筆記者は1枠内に1文字だけ
記入しなければならない。図11(a)は、1文字単位
の記入枠の例を示す。
2. Description of the Related Art Conventionally, in a character recognition method for recognizing handwritten characters such as addresses, names, telephone numbers, and the like written in documents and forms, a plurality of frames for writing only one character are provided. A method of recognizing that only characters are written is adopted, so that the writer must write only one character in one frame. FIG. 11A shows an example of an entry frame in units of one character.

【0003】このような1文字について1枠という制限
は筆記者にとって余計な手間であり、1行をまとめて記
入できる方がより自然であり、記入が容易になる。図1
1(b)は、1行単位の記入枠の例を示す。しかし、1
行分の文字列を読み取る際に、例えば横書きの場合、漢
字やかななどの左右に分離できる文字があり、また手書
き文字ではその大きさや間隔が不揃いになることもある
ため、パターンの形状と間隔に基いて文字の切り出し行
うと、誤った切り出し結果となることが多い。図12
(a)は、従来の方法である、文字の幅と高さが近い値
をとるという考え方に基づいて、文字の高さの平均値に
近い空白部分で文字を切り出した例である。
[0003] Such a limitation of one frame per character is extra work for the writer, and it is more natural to write one line at a time, and the writing becomes easier. FIG.
FIG. 1B shows an example of an entry frame in units of one line. However, 1
When reading character strings for lines, for example, in horizontal writing, there are characters that can be separated on the left and right, such as kanji and kana, and the size and spacing of handwritten characters may be uneven, so the pattern shape and spacing When a character is cut out based on, an incorrect cutout result is often obtained. FIG.
(A) is an example in which a character is cut out from a blank portion close to the average value of the character heights based on the conventional method that the width and height of the character take values close to each other.

【0004】手書き文字は、通常、図12のように文字
幅が不揃いになる。この図の例では、「浜」と「町」と
いう文字の幅が広い。また、これらの文字が左右に分離
できる文字であるために、誤った切り出し結果となって
いる。
[0004] Handwritten characters usually have irregular character widths as shown in FIG. In the example of this figure, the widths of the characters “Hama” and “Town” are wide. In addition, since these characters are characters that can be separated into right and left, an incorrect cutout result is obtained.

【0005】ところで、活字文字認識で用いられている
方法として、形状に基いて切り出した結果に対して一旦
文字認識を実行し、その結果の類似度が低い部分に対し
てのみ、文字の切り出し方法を変更する方法がある(例
えば特開平8−161432号公報を参照)。しかし、
分離文字の中には、分離した部分ごとに確からしい文字
となることがあるので、上記した方法は手書き文字には
適用できない。図12(b)の例では、「横」と[町」
という文字がそれぞれ「木」と「黄」、「田」と「丁」
という文字に認識されることから類似度が高くなり、従
って誤って切り出したと判断されず、切り出し方法が変
更されないことになる。
[0005] By the way, as a method used in type character recognition, character recognition is performed once on a result extracted based on a shape, and a character extraction method is performed only on a portion having a low similarity. (For example, see Japanese Patent Application Laid-Open No. 8-161432). But,
The above-described method cannot be applied to handwritten characters, since some separated characters may be likely characters for each separated portion. In the example of FIG. 12B, “horizontal” and “town”
The letters "tree" and "yellow", "field" and "cho", respectively
, The degree of similarity is increased, so that it is not determined that the clipping is mistaken, and the clipping method is not changed.

【0006】[0006]

【発明が解決しようとする課題】上記した欠点を解決す
る手法として、文字パターンの一部である部分文字パタ
ーンを抽出し、予め定めた文字パターンとみなせる範囲
内で1つ以上の部分文字パターンを組み合わせて文字候
補パターンを作成し、部分文字パターンの不足や重複の
生じない全ての文字候補パターンの組み合わせによって
1つ以上の文字列候補パターンを作成し、作成された文
字列候補パターン毎に、文字列候補パターンに含まれる
文字候補パターンの文字認識結果や幾何学的特徴に基づ
いた評価値を算出し、最も評価の高い文字列候補パター
ンを認識結果として選択する方法がある。
As a method for solving the above-mentioned disadvantage, a partial character pattern which is a part of a character pattern is extracted, and one or more partial character patterns are extracted within a range that can be regarded as a predetermined character pattern. A combination of character candidate patterns is created, and one or more character string candidate patterns are created by combining all character candidate patterns that do not cause partial character pattern shortage or duplication. There is a method of calculating an evaluation value based on a character recognition result or a geometric feature of a character candidate pattern included in a column candidate pattern, and selecting a character string candidate pattern with the highest evaluation as a recognition result.

【0007】この方法では、部分文字パターンが複数の
実際に記入される文字を含まないように十分小さく設定
され、部分文字パターンを組み合わせる範囲が実際に記
入される文字を必ず含むように十分大きく設定されてい
る限り、複数作成される文字列候補パターンの中に必ず
正解が含まれることになるため、実際に記入される文字
の大きさや間隔などにばらつきがあっても、正しい文字
切り出しおよび認識結果が得られることになる。
In this method, the partial character pattern is set sufficiently small so as not to include a plurality of characters to be actually written, and is set large enough so that the range of combining the partial character patterns always includes the character to be actually written. Since the correct answer is always included in multiple character string candidate patterns created as long as it is written, even if the size and spacing of characters to be actually written vary, correct character extraction and recognition results Is obtained.

【0008】このような方法を採るものとして、例え
ば、連続した黒画素部分から作成される成分パターンか
ら複数の切り出し仮説をたてて文字リストを作成し、文
字の属性値と認識結果の総合判定により結果を出力す
る、パターン切り出しおよび認識方法とそのシステム
(特開平7−73273号公報)がある。
As a method employing such a method, for example, a character list is created by making a plurality of cut-out hypotheses from a component pattern created from a continuous black pixel portion, and comprehensive determination of the attribute value of the character and the recognition result is performed. There is a method of extracting and recognizing a pattern, and a system (JP-A-7-73273) for outputting a result.

【0009】しかし、上記した方法では、成分パターン
から文字リストを作成しているので、文字に含まれる成
分パターンの数が大幅に増加する漢字やかなを含む文字
列において、総合判定の際に作成する一行分の文字列候
補パターンの数が膨大になることから、実行速度が遅く
なり、使用するメモリ容量が多くなるという問題があ
る。
However, in the above-described method, since the character list is created from the component patterns, the character list including the kanji and the kana in which the number of component patterns included in the character is greatly increased is created at the time of comprehensive judgment. Since the number of character string candidate patterns for one line becomes enormous, there is a problem that the execution speed becomes slow and the memory capacity used increases.

【0010】本発明の目的は、部分文字パターンを適切
な大きさに設定し、作成する文字列候補パターンの数を
抑制することにより、使用するメモリ容量を削減し、高
速、かつ高精度に文字を切り出し、認識する文字切り出
し方法、文字認識方法、文字認識装置および文字認識処
理のプログラムを記録した記録媒体を提供することにあ
る。
SUMMARY OF THE INVENTION It is an object of the present invention to set a partial character pattern to an appropriate size and reduce the number of character string candidate patterns to be created, thereby reducing the memory capacity to be used, and achieving high-speed, high-precision character It is an object of the present invention to provide a character extracting method, a character extracting method, a character recognizing method, a character recognizing device, and a recording medium in which a program for character recognizing processing is recorded.

【0011】[0011]

【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、手書き文字を含む帳票な
どの文書画像中の文字列パターンから文字パターンを切
り出す方法であって、前記文字列パターンから黒画素の
連結成分を基本パターンとして抽出し、所定方向に所定
の割合で重なりを持つ基本パターンを統合することによ
って部分文字パターンを作成し、該部分文字パターンを
文字候補パターンとして切り出すと共に、該部分文字パ
ターンに隣接する複数の部分文字パターンを組み合わせ
たときの大きさが所定の閾値以下のとき、該組み合わせ
たパターンを文字候補パターンとして切り出すことを特
徴としている。
According to the present invention, there is provided a method for extracting a character pattern from a character string pattern in a document image such as a form including handwritten characters. A connected component of black pixels is extracted as a basic pattern from a character string pattern, a partial character pattern is created by integrating basic patterns having a predetermined ratio of overlap in a predetermined direction, and the partial character pattern is cut out as a character candidate pattern. In addition, when the size when a plurality of partial character patterns adjacent to the partial character pattern is combined is equal to or smaller than a predetermined threshold, the combined pattern is cut out as a character candidate pattern.

【0012】請求項2記載の発明では、前記部分文字パ
ターンを組み合わせときの大きさが所定の閾値以下であ
り、前記隣接する部分文字パターン間に所定の閾値以上
の幅の空白があるとき、文字候補パターンとして切り出
さないことを特徴としている。
According to the second aspect of the present invention, when the size when combining the partial character patterns is equal to or less than a predetermined threshold value and there is a space having a width equal to or more than the predetermined threshold value between the adjacent partial character patterns, It is characterized in that it is not cut out as a candidate pattern.

【0013】請求項3記載の発明では、前記部分文字パ
ターンを組み合わせときの大きさが所定の閾値以上であ
り、かつ前記隣接する部分文字パターン間に空白がない
とき、文字候補パターンとして切り出すことを特徴とし
ている。
According to the third aspect of the present invention, when the size when combining the partial character patterns is equal to or greater than a predetermined threshold value and there is no space between the adjacent partial character patterns, the character pattern is cut out as a character candidate pattern. Features.

【0014】請求項4記載の発明では、手書き文字を含
む帳票などの文書画像中の文字列パターンから文字パタ
ーンを切り出し、切り出した各文字パターンを認識処理
する文字認識方法であって、請求項1、2または3記載
の方法によって切り出された文字候補パターンについ
て、辞書と照合することによって文字コードと類似度を
求めると共にパターンの大きさに関する第1の特徴量を
算出し、前記切り出された文字候補パターンを組み合わ
せた文字列候補パターンを作成し、該各文字列候補パタ
ーンにおいて、隣接する文字候補パターン間の中心間距
離に関する第2の特徴量を算出し、前記各文字列候補パ
ターン毎に、文字列候補パターンに含まれる文字候補パ
ターンの類似度の平均値と第1の特徴量の平均値、およ
び前記第2の特徴量を基に、各文字列候補パターンの評
価値を算出し、最も評価値の高い文字列候補パターンに
含まれる各文字候補パターンに対応する文字コードを認
識結果として出力することを特徴としている。
According to a fourth aspect of the present invention, there is provided a character recognition method for extracting a character pattern from a character string pattern in a document image such as a form including handwritten characters and recognizing each of the extracted character patterns. The character candidate pattern extracted by the method described in 2, 3 or 4 is collated with a dictionary to obtain a character code and similarity, and a first feature amount relating to the size of the pattern is calculated. A character string candidate pattern is created by combining the patterns, a second feature value relating to the center-to-center distance between adjacent character candidate patterns is calculated for each of the character string candidate patterns, and a character The average value of the similarity of the character candidate patterns included in the column candidate pattern, the average value of the first feature amount, and the second feature amount Based, calculates an evaluation value for each string candidate pattern is characterized by outputting the character code as a recognition result corresponding to each character candidate patterns included in the high string candidate pattern most evaluation value.

【0015】請求項5記載の発明では、前記第2の特徴
量として、さらに、隣接する文字候補パターン間の空白
の幅を用いることを特徴としている。
According to a fifth aspect of the present invention, a width of a space between adjacent character candidate patterns is further used as the second feature amount.

【0016】請求項6記載の発明では、手書き文字を含
む帳票などの文書画像中の文字列パターンから黒画素の
連結成分を基本パターンとして抽出する手段と、所定方
向に所定の割合で重なりを持つ基本パターンを統合する
ことによって部分文字パターンを作成する手段と、該部
分文字パターンを文字候補パターンとして切り出すと共
に、該部分文字パターンに隣接する複数の部分文字パタ
ーンを組み合わせたときの大きさが所定の閾値以下のと
き、該組み合わせたパターンを文字候補パターンとして
切り出す手段と、該切り出された文字候補パターンにつ
いて、辞書と照合することによって文字コードを出力
し、類似度を算出する手段と、前記文字候補パターンの
大きさに関する第1の特徴量を算出する手段と、前記切
り出された文字候補パターンを組み合わせた文字列候補
パターンを作成する手段と、該各文字列候補パターンに
おいて、隣接する文字候補パターン間の中心間距離に関
する第2の特徴量を算出する手段と、前記各文字列候補
パターン毎に、文字列候補パターンに含まれる文字候補
パターンの類似度の平均値と第1の特徴量の平均値、お
よび前記第2の特徴量を基に、各文字列候補パターンの
評価値を算出する手段と、評価値を比較し最も評価値の
高い文字列候補パターンを判定する手段と、最も評価値
の高い文字列候補パターンに含まれる各文字候補パター
ンに対応する文字コードを認識結果として出力する手段
とを備えたことを特徴としている。
According to the sixth aspect of the present invention, there is provided means for extracting a connected component of black pixels as a basic pattern from a character string pattern in a document image such as a form including handwritten characters as a basic pattern and having a predetermined ratio in a predetermined direction. Means for creating a partial character pattern by integrating the basic pattern, and cutting out the partial character pattern as a character candidate pattern, and having a predetermined size when a plurality of partial character patterns adjacent to the partial character pattern are combined. A unit that cuts out the combined pattern as a character candidate pattern when the threshold is equal to or less than a threshold, a unit that outputs a character code by comparing the cut-out character candidate pattern with a dictionary, and calculates a degree of similarity, Means for calculating a first feature value relating to the size of the pattern, and the cut-out character candidate Means for creating a character string candidate pattern by combining turns; means for calculating a second feature amount relating to the center-to-center distance between adjacent character candidate patterns in each of the character string candidate patterns; For each time, the evaluation value of each character string candidate pattern is calculated based on the average value of the similarity of the character candidate patterns included in the character string candidate pattern, the average value of the first feature amount, and the second feature amount. Means for comparing the evaluation values to determine a character string candidate pattern having the highest evaluation value, and outputting a character code corresponding to each character candidate pattern included in the character string candidate pattern having the highest evaluation value as a recognition result And means for performing the operation.

【0017】請求項7記載の発明では、手書き文字を含
む帳票などの文書画像中の文字列パターンから黒画素の
連結成分を基本パターンとして抽出する機能と、所定方
向に所定の割合で重なりを持つ基本パターンを統合する
ことによって部分文字パターンを作成する機能と、該部
分文字パターンを文字候補パターンとして切り出すと共
に、該部分文字パターンに隣接する複数の部分文字パタ
ーンを組み合わせたときの大きさが所定の閾値以下のと
き、該組み合わせたパターンを文字候補パターンとして
切り出す機能、あるいは、前記部分文字パターンを組み
合わせときの大きさが所定の閾値以上であり、かつ前記
隣接する部分文字パターン間に空白がないとき、文字候
補パターンとして切り出す機能、あるいは、前記部分文
字パターンを組み合わせときの大きさが所定の閾値以下
であり、前記隣接する部分文字パターン間に所定の閾値
以上の幅の空白があるとき、文字候補パターンとして切
り出しを抑制する機能と、該切り出された文字候補パタ
ーンについて、辞書と照合することによって文字コード
を出力し、類似度を算出する機能と、前記文字候補パタ
ーンの大きさに関する第1の特徴量を算出する機能と、
前記切り出された文字候補パターンを組み合わせた文字
列候補パターンを作成する機能と、該各文字列候補パタ
ーンにおいて、隣接する文字候補パターン間の中心間距
離、または中心間距離と該パターン間の空白の幅に関す
る第2の特徴量を算出する機能と、前記各文字列候補パ
ターン毎に、文字列候補パターンに含まれる文字候補パ
ターンの類似度の平均値と第1の特徴量の平均値、およ
び前記第2の特徴量を基に、各文字列候補パターンの評
価値を算出する機能と、評価値を比較し最も評価値の高
い文字列候補パターンを判定する機能と、最も評価値の
高い文字列候補パターンに含まれる各文字候補パターン
に対応する文字コードを認識結果として出力する機能を
コンピュータに実現させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体であることを特徴
としている。
According to the seventh aspect of the present invention, a function of extracting a connected component of black pixels as a basic pattern from a character string pattern in a document image such as a form including a handwritten character has an overlap in a predetermined direction at a predetermined ratio. A function of creating a partial character pattern by integrating a basic pattern, and cutting out the partial character pattern as a character candidate pattern, and having a predetermined size when a plurality of partial character patterns adjacent to the partial character pattern are combined. A function that cuts out the combined pattern as a character candidate pattern when the threshold is equal to or less than the threshold value, or when the size when combining the partial character patterns is equal to or greater than a predetermined threshold and there is no space between the adjacent partial character patterns Function to extract as a character candidate pattern, or combining the partial character pattern A function of suppressing cutout as a character candidate pattern when the size at the time of matching is equal to or smaller than a predetermined threshold and there is a space having a width equal to or larger than the predetermined threshold between the adjacent partial character patterns; A function of calculating a similarity by outputting a character code by collating the pattern with a dictionary, and a function of calculating a first feature amount relating to the size of the character candidate pattern;
A function of creating a character string candidate pattern combining the cut-out character candidate patterns, and, in each of the character string candidate patterns, a center-to-center distance between adjacent character candidate patterns, or a center-to-center distance and a blank between the patterns. A function of calculating a second feature amount relating to a width, an average value of similarity of a character candidate pattern included in the character string candidate pattern and an average value of the first feature amount for each of the character string candidate patterns; A function of calculating an evaluation value of each character string candidate pattern based on the second feature amount, a function of comparing the evaluation values and determining a character string candidate pattern having the highest evaluation value, and a function of calculating the character string having the highest evaluation value A computer-readable program storing a program for causing a computer to output a character code corresponding to each character candidate pattern included in the candidate pattern as a recognition result. It is characterized in that a recording medium capable Ri.

【0018】[0018]

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例の構
成を示す。図において、1は帳票などを光学的に読み取
り画像を入力する画像入力手段、2は入力画像の文字列
パターンから、黒画素の連結成分を基本パターンとして
抽出する基本パターン抽出手段、3は近接する基本パタ
ーンを組み合わせて部分文字パターンを作成する部分文
字パターン作成手段、4は1つ以上の部分文字パターン
からなる文字パターンを切り出す文字候補パターン切り
出し手段、5は文字パターンを格納した辞書、6は辞書
と照合することにより、個々の文字候補パターンを認識
して文字コードと類似度を出力する文字認識手段、7は
文字候補パターンの幾何学的特徴量を算出する文字候補
パターン特徴量計算手段、8は部分文字パターンが複数
の文字候補パターンに含まれているような領域に対して
1つ以上の文字列候補パターンを作成する文字列候補パ
ターン構成手段、9は個々の文字列候補パターンに対し
て幾何学的特徴量を算出する文字列候補パターン特徴量
計算手段、10は文字列候補パターンごとに、文字列候
補パターンに含まれる文字候補パターンの認識類似度と
幾何学的特徴量および文字列候補パターンの幾何学的特
徴量にもとづき文字列候補パターンの評価値を計算する
文字列候補パターン評価値計算手段、11は文字列候補
パターンの評価値を比較して、最も評価値の高い文字列
候補パターンを判定する文字列パターン判定手段、12
は判定された文字列候補パターンに含まれる文字候補パ
ターンの文字コードを認識結果として出力する認識結果
出力手段である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be specifically described below with reference to the drawings. FIG. 1 shows the configuration of an embodiment of the present invention. In the figure, 1 is an image input means for optically reading a form or the like and inputting an image, 2 is a basic pattern extracting means for extracting a connected component of black pixels as a basic pattern from a character string pattern of the input image, and 3 is a close-up. Partial character pattern creating means for creating a partial character pattern by combining basic patterns, 4 is a character candidate pattern extracting means for extracting a character pattern composed of one or more partial character patterns, 5 is a dictionary storing character patterns, 6 is a dictionary Character recognition means for recognizing individual character candidate patterns and outputting character codes and similarities by collating with, character candidate pattern feature quantity calculating means for calculating geometric feature quantities of the character candidate patterns, 8 Indicates one or more character string candidate patterns for an area where a partial character pattern is included in a plurality of character candidate patterns. Is a character string candidate pattern constructing means for generating a character string candidate pattern, and 9 is a character string candidate pattern feature amount calculating means for calculating a geometric feature amount for each character string candidate pattern. 10 is a character string candidate pattern for each character string candidate pattern. Character string candidate pattern evaluation value calculation means for calculating an evaluation value of the character string candidate pattern based on the recognition similarity and the geometric feature of the character candidate pattern included in the pattern and the geometric feature of the character string candidate pattern, 11 Character string pattern determining means for comparing the evaluation values of the character string candidate patterns to determine the character string candidate pattern having the highest evaluation value;
Is a recognition result output unit that outputs a character code of a character candidate pattern included in the determined character string candidate pattern as a recognition result.

【0019】また、図2は、本発明の実施例の処理フロ
ーチャートを示す。
FIG. 2 shows a processing flowchart of the embodiment of the present invention.

【0020】〈実施例1〉画像入力手段1は、帳票など
に記入された複数の手書き文字を光学的に読み取り帳票
画像を入力する(ステップ101)。次いで、基本パタ
ーン抽出手段2は、入力画像の文字列パターンから、公
知の方法を用いて、黒画素の連結成分を基本パターンと
して抽出する(ステップ102)。このような方法とし
ては、例えば、高木他 編 「別冊OplusE 画像
処理アルゴリズムの最新動向」(1986、新技術コミ
ュニケーションズ)に記載された方法を用いればよい。
<Embodiment 1> The image input means 1 optically reads a plurality of handwritten characters entered in a form or the like and inputs a form image (step 101). Next, the basic pattern extraction means 2 extracts a connected component of black pixels as a basic pattern from the character string pattern of the input image using a known method (step 102). As such a method, for example, the method described in “Latest Trend of Separate Volume OpplusE Image Processing Algorithm” edited by Takagi et al. (1986, New Technology Communications) may be used.

【0021】次に、部分文字パターン作成手段3では、
基本パターンから部分文字パターンを作成する(ステッ
プ103)。すなわち、基本パターンの位置と大きさを
求め、2つの基本パターンが文字列方向(横書きであれ
ば横方向)に対して縦方向に斜影をとったとき包含関係
にあれば、それらの基本パターンに対して第1の統合を
行う。第1の統合実行後、文字列方向に対して縦方向に
重なりがある基本パターンの組を抽出し、重なり部分の
大きさが、どちらかの基本パターンの文字列方向の大き
さのある一定の割合、例えば3分の2を超えていれば、
それらの統合された基本パターンをさらに統合する。
Next, in the partial character pattern creating means 3,
A partial character pattern is created from the basic pattern (step 103). That is, the positions and sizes of the basic patterns are determined, and if the two basic patterns have an inclusive relationship in the vertical direction with respect to the character string direction (horizontal direction in the case of horizontal writing), they are included in the basic patterns. Then, the first integration is performed. After the first integration, a set of basic patterns that overlap in the vertical direction with respect to the character string direction is extracted, and the size of the overlapping portion is a certain size having a certain size in the character string direction of one of the basic patterns. If the ratio exceeds, for example, two-thirds,
Further integrate those integrated basic patterns.

【0022】横書きの場合を例にとると、図3の「浜」
という文字のさんずいの部分で、基本パターン21〜2
3の内、基本パターン21と23が縦方向に包含関係に
あるため、これらの基本パターンを統合して、統合され
た基本パターン24とする。そして、基本パターン22
と基本パターン24に関して、これらの重なりの部分の
大きさは、基本パターン24の大きさの3分の2を超え
ていないが、基本パターン22の大きさの3分の2を超
えており、これらを統合して部分文字パターン31とす
る。
Taking horizontal writing as an example, "Hama" in FIG.
The basic pattern 21 to 2
3, among the basic patterns 21 and 23, the basic patterns 21 and 23 have an inclusion relation in the vertical direction. Therefore, these basic patterns are integrated to form an integrated basic pattern 24. Then, the basic pattern 22
And the basic pattern 24, the size of these overlapping portions does not exceed two-thirds of the size of the basic pattern 24, but exceeds two-thirds of the size of the basic pattern 22. Are integrated into a partial character pattern 31.

【0023】このような処理を、1つの基本パターン
が、複数の部分文字パターンには含まれないように順次
実行し、統合すべき基本パターンがなくなったときの統
合された基本パターンを部分文字パターンとする。
Such processing is sequentially executed so that one basic pattern is not included in a plurality of partial character patterns, and the integrated basic pattern when there are no more basic patterns to be integrated is replaced with the partial character pattern. And

【0024】次に、文字候補パターン切り出し手段4に
おいて、部分文字パターンの並びから文字候補パターン
を切り出す(ステップ104)。まず、単独の部分文字
パターンを1つの文字候補パターンとする。その部分文
字パターンに隣接する部分文字パターンと仮に統合した
場合のパターンの文字列方向の大きさが、所定の閾値
(例えば、文字列内のすべての部分文字パターンの文字
列に垂直方向(横書きならば縦方向)である、全体の高
さの平均値の2倍)以下であるとき、仮に統合したパタ
ーンを文字候補パターンとして切り出す。
Next, the character candidate pattern extracting means 4 extracts a character candidate pattern from the arrangement of the partial character patterns (step 104). First, a single partial character pattern is defined as one character candidate pattern. The size in the character string direction of the pattern when temporarily integrating with the partial character pattern adjacent to the partial character pattern is equal to a predetermined threshold value (for example, the vertical direction (for horizontal writing (In the vertical direction), that is, twice or less the average value of the entire height), the temporarily integrated pattern is cut out as a character candidate pattern.

【0025】さらに、隣接する部分文字パターンをも仮
に統合して、大きさが所定の範囲内にあれば、文字候補
パターンとして切り出す。この処理を順次繰り返し、文
字候補パターンを切り出す。図4の例において、図4
(a)では、入力された文字列パターンから10個の部
分文字パターンが得られたことを示し、図4(b)で
は、それらの部分文字パターンから27個の文字候補パ
ターンが作成されたことを示している。
Further, adjacent partial character patterns are also temporarily integrated, and if the size is within a predetermined range, cut out as a character candidate pattern. This process is sequentially repeated to extract a character candidate pattern. In the example of FIG.
4A shows that 10 partial character patterns were obtained from the input character string pattern, and FIG. 4B shows that 27 character candidate patterns were created from those partial character patterns. Is shown.

【0026】文字認識手段6では、辞書5と照合するこ
とにより、個々の文字候補パターンに対して文字コード
とともに類似度を出力するような文字認識を実行する
(ステップ105)。このような文字認識の方法として
は、例えば加重方向指数ヒストグラム法(鶴岡他 「加
重方向指数ヒストグラム法による手書き漢字・ひらがな
認識」 電子情報通信学会論文誌,J70−D,7,p
p.1390−1397(1987))などの方法を用
いることができる。得られた類似度は、例えば、0〜1
の間に正規化する(全く類似していないとき0を、最も
確からしいとき1をとる)。
The character recognizing means 6 performs character recognition such that the similarity is output together with the character code for each character candidate pattern by collating with the dictionary 5 (step 105). Examples of such a character recognition method include a weighted direction exponential histogram method (Tsuruoka et al. “Handwritten Kanji / Hiragana Recognition by Weighted Direction Exponential Histogram Method”, IEICE Transactions, J70-D, 7, p.
p. 1390-1397 (1987)). The obtained similarity is, for example, 0 to 1
(0 if not quite similar, 1 if most likely).

【0027】文字候補パターン特徴量計算手段7では、
個々の文字候補パターンに対して幾何学的な特徴量を算
出する(ステップ106)。この特徴量としては、例え
ば、文字列内の部分文字パターンの全体の高さ(文字列
に垂直方向)の平均値を1として、文字候補パターンの
文字列方向の大きさ(幅)を正規化し(幅/高さ)、こ
の正規化された文字候補パターンの大きさと上記平均値
との差を特徴量とする。
In the character candidate pattern feature quantity calculating means 7,
A geometric feature amount is calculated for each character candidate pattern (step 106). As the feature amount, for example, the size (width) of the character candidate pattern in the character string direction is normalized by setting the average value of the entire height (in the direction perpendicular to the character string) of the partial character pattern in the character string to 1. (Width / height), and the difference between the size of the normalized character candidate pattern and the average value is defined as a feature amount.

【0028】文字列候補パターン構成手段8において、
部分文字パターンの不足や重複が生じないように文字候
補パターンを選択し、文字列候補パターンを作成する
(ステップ107)。図5(a)のように、部分文字パ
ターンの区切り位置A〜Kに仮想ノードを設定し、個々
の文字候補パターンの両端の区切り位置に対応する仮想
ノードを枝で結べば、図5(b)のようなグラフ表現で
表すことができ、一般的に知られているパス選択の問題
に帰着することができる。
In the character string candidate pattern forming means 8,
A character candidate pattern is selected so that shortage or duplication of a partial character pattern does not occur, and a character string candidate pattern is created (step 107). As shown in FIG. 5 (a), virtual nodes are set at break positions A to K of the partial character pattern, and virtual nodes corresponding to the break positions at both ends of each character candidate pattern are connected by branches. ), And can be reduced to a generally known problem of path selection.

【0029】つまり、左端の仮想ノードAから右端の仮
想ノードKまでのパスは、パス上の枝に対応する文字候
補パターンを組み合わせた文字列候補パターンに対応す
ることになり、一般的なパス選択問題で用いられる方法
を用いて可能なすべてのパスを作成すれば、可能な文字
列候補パターンをすべて求めることができる。図5
(b)の太線のパスは、そのような文字列候補パターン
の1つであり、正しく切り出された場合の文字列パター
ン(「横」「浜」「市」...)を表している。
That is, the path from the leftmost virtual node A to the rightmost virtual node K corresponds to a character string candidate pattern obtained by combining character candidate patterns corresponding to branches on the path. If all possible paths are created using the method used in the problem, all possible character string candidate patterns can be obtained. FIG.
The path indicated by the bold line in (b) is one of such character string candidate patterns, and represents a character string pattern (“horizontal”, “hama”, “city”...) When correctly cut out.

【0030】文字列候補パターンが作成されると、続い
て、文字列候補パターン特徴量計算手段9は、個々の文
字列候補パターンに含まれている文字候補パターンの位
置関係に関する幾何学的特徴量を算出する(ステップ1
08)。このような特徴量としては、例えば、文字候補
パターンの中心間距離の平均値を1として、文字候補パ
ターンの中心間距離を正規化し、この正規化された文字
候補パターンの中心間距離の分散を特徴量として求め
る。文字候補パターンの中心間距離は、例えば、図6
(a)において区間A〜E、図6(b)において区間F
〜Lの大きさで表される。
When the character string candidate pattern is created, subsequently, the character string candidate pattern feature quantity calculating means 9 calculates the geometric feature quantity relating to the positional relationship of the character candidate pattern included in each character string candidate pattern. (Step 1
08). As such a feature quantity, for example, the average value of the center distances of the character candidate patterns is set to 1, the center distances of the character candidate patterns are normalized, and the variance of the center distances of the normalized character candidate patterns is calculated. It is obtained as a feature value. The distance between the centers of the character candidate patterns is, for example, as shown in FIG.
Sections A to E in FIG. 6A and section F in FIG.
LL.

【0031】次いで、文字列候補パターン評価値計算手
段10は、個々の文字列候補パターンごとに、含まれる
文字候補パターンの文字認識類似度の平均値と、文字候
補パターンの幾何学的特徴量の平均値と、文字列候補パ
ターンの幾何学的特徴量の重み付き加算により文字列候
補パターンの評価値を求める(ステップ109)。例え
ば、あるN個の文字候補パターンからなる文字列候補パ
ターンについて考える。個々の文字候補パターンの、文
字認識類似度をC1〜CN、幾何学的特徴量をS1〜SN
し、文字列候補パターンの幾何学的特徴量をDとする
と、
Next, the character string candidate pattern evaluation value calculating means 10 calculates, for each character string candidate pattern, the average value of the character recognition similarity of the included character candidate pattern and the geometric feature amount of the character candidate pattern. An evaluation value of the character string candidate pattern is obtained by weighted addition of the average value and the geometric feature of the character string candidate pattern (step 109). For example, consider a character string candidate pattern composed of certain N character candidate patterns. Individual character candidate pattern, the character recognition similarity C 1 -C N, the geometric feature amount is S 1 to S N, the geometrical characteristics of the character string candidate pattern when is D,

【0032】[0032]

【数1】 (Equation 1)

【0033】のような式で、文字列候補パターンの評価
値Eを求めることができる。w1、w2は重みであり、例
えば w1=4 w2=3 などと設定する。
The evaluation value E of the character string candidate pattern can be obtained by the following equation. w 1 and w 2 are weights, and are set to, for example, w 1 = 4 w 2 = 3.

【0034】文字列パターン判定手段11は、個々の文
字列候補パターンの評価値を比較し、最も評価値の高い
文字列候補パターンを判定し(ステップ110)、認識
結果出力手段12は、文字列パターン判定手段11で判
定された文字列候補パターンに含まれる文字候補パター
ンの文字コードを順に並べて、入力された文字列パター
ンに対する認識結果として出力する(ステップ11
1)。
The character string pattern determining means 11 compares the evaluation values of the individual character string candidate patterns and determines the character string candidate pattern having the highest evaluation value (step 110). The character codes of the character candidate patterns included in the character string candidate patterns determined by the pattern determining means 11 are sequentially arranged and output as a recognition result for the input character string pattern (step 11).
1).

【0035】このように本発明では、適度な大きさの部
分文字パターンから文字候補パターンを作成して、可能
な文字列候補パターンを構成しているので、作成される
文字列候補パターンの数が制限され、かつ、文字列候補
パターン中に正解文字列パターンが含まれるので、高速
で精度のよい文字切り出しおよび認識方法を実現するこ
とができる。なお、上記した実施例は横書きの例である
が、本発明は同様にして縦書きの場合にも適用すること
ができる。
As described above, in the present invention, a character candidate pattern is created from a partial character pattern of an appropriate size to constitute a possible character string candidate pattern. Since the correct character string pattern is included in the character string candidate patterns, it is possible to realize a high-speed and accurate character extraction and recognition method. Although the above embodiment is an example of horizontal writing, the present invention can be similarly applied to the case of vertical writing.

【0036】〈実施例2〉本実施例は、実施例1の文字
候補パターン切り出し手段4において、隣接する部分文
字パターンの文字列方向の大きさが所定値以下であって
も、それらの間の空白が予め定めた値を超えていれば、
文字候補パターンとして切り出さないようにした実施例
である。
<Embodiment 2> In this embodiment, even if the size of the adjacent partial character pattern in the character string direction is equal to or smaller than a predetermined value in the character candidate pattern cutout means 4 of the first embodiment, If the blank exceeds a predetermined value,
This is an embodiment in which a character candidate pattern is not cut out.

【0037】例えば、図7において、部分文字パターン
41と部分文字パターン42を仮に組み合わせたパター
ンの文字列方向の大きさwが、部分文字パターンの高さ
(文字列に垂直方向)の平均値hの2倍以下であって
も、それらの間の空白gが予め定められた値、例えばh
の4分の3を超えていれば、これらを組み合わせた文字
候補パターンを作成しない。
For example, in FIG. 7, the size w in the character string direction of the pattern obtained by temporarily combining the partial character pattern 41 and the partial character pattern 42 is the average value h of the height of the partial character pattern (perpendicular to the character string). , The space g between them is a predetermined value, for example, h
If it exceeds three-quarters, a character candidate pattern combining these is not created.

【0038】このように、実施例2では、部分文字パタ
ーン間の空白の大きさで文字候補パターンの切り出しを
制限しているので、明らかに別の文字であるようなパタ
ーンの切り出しを抑えることができ、処理の高速化と、
使用メモリ量の削減が実現できる。
As described above, in the second embodiment, the cutout of a character candidate pattern is limited by the size of the space between partial character patterns, so that the cutout of a pattern that is clearly another character can be suppressed. Yes, faster processing,
A reduction in the amount of used memory can be realized.

【0039】〈実施例3〉本実施例は、実施例1の文字
候補パターン切り出し手段4において、隣接する部分文
字パターンの文字列方向の大きさが、所定値以上である
場合でも、それらの間に空白がない場合、文字候補パタ
ーンとして切り出すようにした方法である。例えば、図
8において、部分文字パターン51と部分文字パターン
52を仮に組み合わせたパターンの文字列方向の大きさ
が、部分文字パターンの高さ(文字列に垂直方向)の平
均値の2倍以上であっても、それらの間に空白がないた
め、これらを組み合わせた文字候補パターンを作成す
る。
<Embodiment 3> In this embodiment, even if the size of the adjacent partial character pattern in the character string direction is equal to or larger than a predetermined value in the character candidate pattern extracting means 4 of the first embodiment, If there is no space in the character pattern, it is cut out as a character candidate pattern. For example, in FIG. 8, the size in the character string direction of the pattern in which the partial character pattern 51 and the partial character pattern 52 are temporarily combined is twice or more the average value of the height of the partial character pattern (perpendicular to the character string). Even if there is no space between them, a character candidate pattern is created by combining them.

【0040】このように、実施例3では、部分文字パタ
ーン間に空白がない場合には、部分文字パターンを組み
合わせた大きさが所定値以上大きくても文字候補パター
ンとして切り出しを行っているので、横長につぶれた分
離可能な文字の切り出し誤りを防ぐことができ、切り出
し精度を高めることができる。
As described above, in the third embodiment, when there is no space between the partial character patterns, the cutout is performed as a character candidate pattern even if the combined size of the partial character patterns is larger than a predetermined value. It is possible to prevent an error in cutting out horizontally separable and separable characters, and to increase the cutting accuracy.

【0041】〈実施例4〉本実施例は、実施例1の文字
列候補パターン特徴量計算手段9において、特徴量とし
て、隣接する文字候補パターン間の中心間距離に加え、
隣接する文字候補パターン間の空白の幅も用いるように
した実施例である。例えば、隣接する文字候補パターン
間の中心間距離の分散だけでなく、隣接する文字候補パ
ターン間の中心間距離の平均値と、文字候補パターン間
の空白の大きさとの比を用いる。
<Embodiment 4> In the present embodiment, the character string candidate pattern feature quantity calculating means 9 of the first embodiment calculates the feature quantity in addition to the center-to-center distance between adjacent character candidate patterns.
This is an embodiment in which the width of a blank between adjacent character candidate patterns is also used. For example, not only the variance of the center distance between adjacent character candidate patterns, but also the ratio between the average value of the center distance between adjacent character candidate patterns and the size of the space between the character candidate patterns is used.

【0042】図9に示すように、文字の大きさと間隔が
まちまちな文字列パターンに対して、誤りをもつ文字列
候補パターンのほうが、中心間距離の分散が小さくな
り、文字列候補パターンの評価値を計算した後に、誤っ
た評価結果をもたらすことが考えられる。このような場
合に、文字候補パターン間の空白の大きさも特徴に加え
ることによって、誤った評価結果となることを防止する
ことができる。
As shown in FIG. 9, the variance of the center-to-center distance is smaller in a character string candidate pattern having an error than in a character string pattern having different character sizes and intervals, and the evaluation of the character string candidate pattern is performed. After calculating the value, it is conceivable that an incorrect evaluation result will be obtained. In such a case, it is possible to prevent an erroneous evaluation result by adding the size of the space between the character candidate patterns to the feature.

【0043】〈実施例5〉本発明は上記した実施例に限
定されず、ソフトウエアによっても実現することができ
る。本発明をソフトウエアによって実現する場合には、
図10に示すように、CPU、メモリ、表示装置、ハー
ドディスク、キーボード、CD‐ROMドライブ、マウ
スなどからなるコンピュータシステムを用意する。CD
−ROMなどのコンピュータ読み取り可能な記録媒体に
は、本発明の文字認識処理機能や処理手順を実現するプ
ログラムなどが記録されている。また、処理対象の帳票
画像は例えばハードディスクなどに格納されている。そ
して、CPUは、記録媒体から上記した処理機能、処理
手順を実現するプログラムを読み出し、ハードディスク
などから読み込まれた帳票画像から文字候補パターンを
切り出して認識処理し、その認識結果をディスプレイな
どに出力する。
<Embodiment 5> The present invention is not limited to the above-described embodiment, but can be realized by software. When the present invention is realized by software,
As shown in FIG. 10, a computer system including a CPU, a memory, a display device, a hard disk, a keyboard, a CD-ROM drive, a mouse, and the like is prepared. CD
-A computer-readable recording medium such as a ROM stores a program for implementing the character recognition processing function and the processing procedure of the present invention. The form image to be processed is stored, for example, on a hard disk or the like. Then, the CPU reads a program for realizing the above-described processing functions and processing procedures from the recording medium, cuts out a character candidate pattern from a form image read from a hard disk or the like, performs recognition processing, and outputs the recognition result to a display or the like. .

【0044】[0044]

【発明の効果】以上、説明したように、請求項1、4、
6、7記載の発明によれば、適度な大きさの部分文字パ
ターンから文字候補パターンを切り出しているので、精
度よく文字の切り出しが行われ、また文字候補パターン
から可能な文字列候補パターンを作成しているので、作
成される文字列候補パターンの数が制限され、かつ、文
字列候補パターン中に正解文字列パターンが含まれるの
で、高速かつ精度よく文字を認識することができる。
As described above, claims 1 and 4,
According to the inventions described in (6) and (7), since the character candidate pattern is cut out from the partial character pattern of an appropriate size, the character is cut out with high accuracy, and a possible character string candidate pattern is created from the character candidate pattern. Therefore, the number of character string candidate patterns to be created is limited, and the correct character string pattern is included in the character string candidate patterns, so that characters can be recognized quickly and accurately.

【0045】請求項2記載の発明によれば、部分文字パ
ターン間の空白の大きさに基づいて文字候補パターンの
切り出しを制限しているので、明らかに別の文字である
ようなパターンの切り出しを抑制することが可能とな
り、従って、処理時間が短縮されると共に、使用メモリ
量が削減される。
According to the second aspect of the present invention, the cutout of a character candidate pattern is restricted based on the size of a space between partial character patterns. Therefore, the processing time can be shortened and the amount of used memory can be reduced.

【0046】請求項3記載の発明によれば、部分文字パ
ターン間に空白がない場合には、部分文字パターンを組
み合わせた大きさが所定値以上大きくても文字候補パタ
ーンとして切り出しを行っているので、横長に大きい文
字を切り出すことができ、切り出し精度が向上する。
According to the third aspect of the invention, when there is no space between the partial character patterns, even if the combined size of the partial character patterns is larger than a predetermined value, the cutout is performed as a character candidate pattern. In addition, a horizontally long character can be cut out, and the cutout accuracy is improved.

【0047】請求項5記載の発明によれば、文字列候補
パターンの評価値として、文字候補パターン間の空白の
大きさも特徴に加えているので、評価値を正しく計算す
ることができる。
According to the fifth aspect of the present invention, since the size of the space between the character candidate patterns is added to the feature as the evaluation value of the character string candidate pattern, the evaluation value can be calculated correctly.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施例の構成を示す。FIG. 1 shows a configuration of an embodiment of the present invention.

【図2】本発明の実施例の処理フローチャートを示す。FIG. 2 shows a processing flowchart of an embodiment of the present invention.

【図3】部分文字パターンの作成を示す。FIG. 3 shows the creation of a partial character pattern.

【図4】文字候補パターンの切り出しを示す。FIG. 4 shows the extraction of a character candidate pattern.

【図5】文字列候補パターンの構成を説明する図であ
る。
FIG. 5 is a diagram illustrating a configuration of a character string candidate pattern.

【図6】文字列候補パターンの幾何学的特徴量を説明す
る図である。
FIG. 6 is a diagram illustrating a geometric feature of a character string candidate pattern.

【図7】部分文字パターン間の空白を説明する図であ
る。
FIG. 7 is a diagram illustrating a blank between partial character patterns.

【図8】重なりのある部分文字パターンを示す。FIG. 8 shows overlapping partial character patterns.

【図9】文字列候補パターンの他の幾何学的特徴量を説
明する図である。
FIG. 9 is a diagram illustrating another geometric feature amount of a character string candidate pattern.

【図10】本発明をソフトウェアによって実現する場合
の構成例を示す。
FIG. 10 shows a configuration example when the present invention is realized by software.

【図11】帳票の例を示す。FIG. 11 shows an example of a form.

【図12】従来の方法によって文字を切り出した例を示
す。
FIG. 12 shows an example in which characters are cut out by a conventional method.

【符号の説明】[Explanation of symbols]

1 画像入力手段 2 基本パターン抽出手段 3 部分文字パターン作成手段 4 文字候補パターン切り出し手段 5 辞書 6 文字認識手段 7 文字候補パターン特徴量計算手段 8 文字列候補パターン構成手段 9 文字列候補パターン特徴量計算手段 10 文字列候補パターン評価値計算手段 11 文字列パターン判定手段 12 認識結果出力手段 DESCRIPTION OF SYMBOLS 1 Image input means 2 Basic pattern extraction means 3 Partial character pattern creation means 4 Character candidate pattern cutout means 5 Dictionary 6 Character recognition means 7 Character candidate pattern feature calculation means 8 Character string candidate pattern construction means 9 Character string candidate pattern feature calculation Means 10 Character string candidate pattern evaluation value calculation means 11 Character string pattern determination means 12 Recognition result output means

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 手書き文字を含む帳票などの文書画像中
の文字列パターンから文字パターンを切り出す方法であ
って、前記文字列パターンから黒画素の連結成分を基本
パターンとして抽出し、所定方向に所定の割合で重なり
を持つ基本パターンを統合することによって部分文字パ
ターンを作成し、該部分文字パターンを文字候補パター
ンとして切り出すと共に、該部分文字パターンに隣接す
る複数の部分文字パターンを組み合わせたときの大きさ
が所定の閾値以下のとき、該組み合わせたパターンを文
字候補パターンとして切り出すことを特徴とする文字切
り出し方法。
1. A method for extracting a character pattern from a character string pattern in a document image such as a form including handwritten characters, wherein a connected component of black pixels is extracted from the character string pattern as a basic pattern, and is extracted in a predetermined direction. A partial character pattern is created by integrating basic patterns that overlap at a rate of, and the partial character pattern is cut out as a character candidate pattern, and the size when a plurality of partial character patterns adjacent to the partial character pattern are combined. A character extracting method, wherein when the value is equal to or less than a predetermined threshold, the combined pattern is extracted as a character candidate pattern.
【請求項2】 前記部分文字パターンを組み合わせとき
の大きさが所定の閾値以下であり、前記隣接する部分文
字パターン間に所定の閾値以上の幅の空白があるとき、
文字候補パターンとして切り出さないことを特徴とする
請求項1記載の文字切り出し方法。
2. When the size when combining the partial character patterns is equal to or less than a predetermined threshold value and there is a space having a width equal to or more than a predetermined threshold value between the adjacent partial character patterns,
2. The character extracting method according to claim 1, wherein the character is not extracted as a character candidate pattern.
【請求項3】 前記部分文字パターンを組み合わせとき
の大きさが所定の閾値以上であり、かつ前記隣接する部
分文字パターン間に空白がないとき、文字候補パターン
として切り出すことを特徴とする請求項1記載の文字切
り出し方法。
3. A character candidate pattern is cut out when a size when combining the partial character patterns is equal to or larger than a predetermined threshold value and there is no space between the adjacent partial character patterns. The character extraction method described.
【請求項4】 手書き文字を含む帳票などの文書画像中
の文字列パターンから文字パターンを切り出し、切り出
した各文字パターンを認識処理する文字認識方法であっ
て、請求項1、2または3記載の方法によって切り出さ
れた文字候補パターンについて、辞書と照合することに
よって文字コードと類似度を求めると共にパターンの大
きさに関する第1の特徴量を算出し、前記切り出された
文字候補パターンを組み合わせた文字列候補パターンを
作成し、該各文字列候補パターンにおいて、隣接する文
字候補パターン間の中心間距離に関する第2の特徴量を
算出し、前記各文字列候補パターン毎に、文字列候補パ
ターンに含まれる文字候補パターンの類似度の平均値と
第1の特徴量の平均値、および前記第2の特徴量を基
に、各文字列候補パターンの評価値を算出し、最も評価
値の高い文字列候補パターンに含まれる各文字候補パタ
ーンに対応する文字コードを認識結果として出力するこ
とを特徴とする文字認識方法。
4. A character recognition method according to claim 1, wherein a character pattern is cut out from a character string pattern in a document image such as a form including handwritten characters, and each cut-out character pattern is recognized. A character string obtained by combining a character candidate pattern extracted by the method with a dictionary to obtain a character code and a similarity by comparing the character candidate pattern with a dictionary, calculating a first feature amount relating to the size of the pattern, and combining the extracted character candidate patterns. A candidate pattern is created, and in each of the character string candidate patterns, a second feature amount regarding the center-to-center distance between adjacent character candidate patterns is calculated, and each of the character string candidate patterns is included in the character string candidate pattern. Each character string candidate pattern is determined based on the average value of the similarity of the character candidate patterns, the average value of the first feature amount, and the second feature amount. A character recognition method which calculates an evaluation value of a character string and outputs a character code corresponding to each character candidate pattern included in the character string candidate pattern having the highest evaluation value as a recognition result.
【請求項5】 前記第2の特徴量として、さらに、隣接
する文字候補パターン間の空白の幅を用いることを特徴
とする請求項4記載の文字認識方法。
5. The character recognition method according to claim 4, wherein a width of a space between adjacent character candidate patterns is further used as the second feature amount.
【請求項6】 手書き文字を含む帳票などの文書画像中
の文字列パターンから黒画素の連結成分を基本パターン
として抽出する手段と、所定方向に所定の割合で重なり
を持つ基本パターンを統合することによって部分文字パ
ターンを作成する手段と、該部分文字パターンを文字候
補パターンとして切り出すと共に、該部分文字パターン
に隣接する複数の部分文字パターンを組み合わせたとき
の大きさが所定の閾値以下のとき、該組み合わせたパタ
ーンを文字候補パターンとして切り出す手段と、該切り
出された文字候補パターンについて、辞書と照合するこ
とによって文字コードを出力し、類似度を算出する手段
と、前記文字候補パターンの大きさに関する第1の特徴
量を算出する手段と、前記切り出された文字候補パター
ンを組み合わせた文字列候補パターンを作成する手段
と、該各文字列候補パターンにおいて、隣接する文字候
補パターン間の中心間距離に関する第2の特徴量を算出
する手段と、前記各文字列候補パターン毎に、文字列候
補パターンに含まれる文字候補パターンの類似度の平均
値と第1の特徴量の平均値、および前記第2の特徴量を
基に、各文字列候補パターンの評価値を算出する手段
と、評価値を比較し最も評価値の高い文字列候補パター
ンを判定する手段と、最も評価値の高い文字列候補パタ
ーンに含まれる各文字候補パターンに対応する文字コー
ドを認識結果として出力する手段とを備えたことを特徴
とする文字認識装置。
6. A means for extracting a connected component of black pixels as a basic pattern from a character string pattern in a document image such as a form including handwritten characters and a basic pattern having a predetermined ratio of overlapping in a predetermined direction. Means for creating a partial character pattern, and cutting out the partial character pattern as a character candidate pattern, and when the size when a plurality of partial character patterns adjacent to the partial character pattern are combined is equal to or smaller than a predetermined threshold, A unit that cuts out the combined pattern as a character candidate pattern; a unit that outputs a character code by comparing the cut-out character candidate pattern with a dictionary to calculate a similarity; 1 and a sentence combining the extracted character candidate pattern. Means for creating a character string candidate pattern; means for calculating a second feature amount relating to the center-to-center distance between adjacent character candidate patterns in each of the character string candidate patterns; Means for calculating an evaluation value of each character string candidate pattern based on the average value of the similarity of the character candidate patterns included in the column candidate pattern, the average value of the first feature amount, and the second feature amount; Means for comparing the evaluation values to determine a character string candidate pattern with the highest evaluation value, and means for outputting a character code corresponding to each character candidate pattern included in the character string candidate pattern with the highest evaluation value as a recognition result A character recognition device comprising:
【請求項7】 手書き文字を含む帳票などの文書画像中
の文字列パターンから黒画素の連結成分を基本パターン
として抽出する機能と、所定方向に所定の割合で重なり
を持つ基本パターンを統合することによって部分文字パ
ターンを作成する機能と、該部分文字パターンを文字候
補パターンとして切り出すと共に、該部分文字パターン
に隣接する複数の部分文字パターンを組み合わせたとき
の大きさが所定の閾値以下のとき、該組み合わせたパタ
ーンを文字候補パターンとして切り出す機能、あるい
は、前記部分文字パターンを組み合わせときの大きさが
所定の閾値以上であり、かつ前記隣接する部分文字パタ
ーン間に空白がないとき、文字候補パターンとして切り
出す機能、あるいは、前記部分文字パターンを組み合わ
せときの大きさが所定の閾値以下であり、前記隣接する
部分文字パターン間に所定の閾値以上の幅の空白がある
とき、文字候補パターンとして切り出しを抑制する機能
と、該切り出された文字候補パターンについて、辞書と
照合することによって文字コードを出力し、類似度を算
出する機能と、前記文字候補パターンの大きさに関する
第1の特徴量を算出する機能と、前記切り出された文字
候補パターンを組み合わせた文字列候補パターンを作成
する機能と、該各文字列候補パターンにおいて、隣接す
る文字候補パターン間の中心間距離、または中心間距離
と該パターン間の空白の幅に関する第2の特徴量を算出
する機能と、前記各文字列候補パターン毎に、文字列候
補パターンに含まれる文字候補パターンの類似度の平均
値と第1の特徴量の平均値、および前記第2の特徴量を
基に、各文字列候補パターンの評価値を算出する機能
と、評価値を比較し最も評価値の高い文字列候補パター
ンを判定する機能と、最も評価値の高い文字列候補パタ
ーンに含まれる各文字候補パターンに対応する文字コー
ドを認識結果として出力する機能をコンピュータに実現
させるためのプログラムを記録したコンピュータ読み取
り可能な記録媒体。
7. A function of extracting a connected component of black pixels as a basic pattern from a character string pattern in a document image such as a form including handwritten characters, and integrating a basic pattern having a predetermined ratio of overlapping in a predetermined direction. A function for creating a partial character pattern by using the partial character pattern as a character candidate pattern, and when a size obtained by combining a plurality of partial character patterns adjacent to the partial character pattern is equal to or smaller than a predetermined threshold, A function to cut out a combined pattern as a character candidate pattern, or cut out as a character candidate pattern when the size when combining the partial character patterns is greater than or equal to a predetermined threshold and there is no space between the adjacent partial character patterns Predetermined function or size when combining the partial character patterns When there is a space having a width equal to or greater than a predetermined threshold between the adjacent partial character patterns, the function of suppressing cutout as a character candidate pattern and the cut-out character candidate pattern are compared with a dictionary. By outputting a character code, a function of calculating a similarity, a function of calculating a first characteristic amount relating to the size of the character candidate pattern, and a character string candidate pattern obtained by combining the cut-out character candidate pattern A function for calculating, for each of the character string candidate patterns, a function for calculating a center distance between adjacent character candidate patterns, or a second feature amount relating to a center distance and a width of a blank space between the patterns; For each character string candidate pattern, the average value of the similarity of the character candidate patterns included in the character string candidate pattern and the average value of the first feature amount; A function of calculating the evaluation value of each character string candidate pattern based on the feature amount of 2, a function of comparing the evaluation values to determine a character string candidate pattern having the highest evaluation value, and a function of calculating the character string candidate pattern having the highest evaluation value A computer-readable storage medium storing a program for causing a computer to realize a function of outputting a character code corresponding to each character candidate pattern included in a pattern as a recognition result.
JP10008582A 1998-01-20 1998-01-20 Character segmenting method, character recognizing method, character recognition device, and recording medium Pending JPH11203406A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10008582A JPH11203406A (en) 1998-01-20 1998-01-20 Character segmenting method, character recognizing method, character recognition device, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10008582A JPH11203406A (en) 1998-01-20 1998-01-20 Character segmenting method, character recognizing method, character recognition device, and recording medium

Publications (1)

Publication Number Publication Date
JPH11203406A true JPH11203406A (en) 1999-07-30

Family

ID=11697011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10008582A Pending JPH11203406A (en) 1998-01-20 1998-01-20 Character segmenting method, character recognizing method, character recognition device, and recording medium

Country Status (1)

Country Link
JP (1) JPH11203406A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202068A (en) * 2005-01-21 2006-08-03 Hitachi Ltd Word recognition device and method
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
CN111476240A (en) * 2019-01-24 2020-07-31 富士施乐株式会社 Information processing apparatus, recording medium, and information processing method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202068A (en) * 2005-01-21 2006-08-03 Hitachi Ltd Word recognition device and method
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
CN111476240A (en) * 2019-01-24 2020-07-31 富士施乐株式会社 Information processing apparatus, recording medium, and information processing method
CN111476240B (en) * 2019-01-24 2023-07-25 富士胶片商业创新有限公司 Information processing apparatus, recording medium, and information processing method

Similar Documents

Publication Publication Date Title
JP3452774B2 (en) Character recognition method
JP4834351B2 (en) Character recognition device and character recognition method
JP4704601B2 (en) Character recognition method, program, and recording medium
JPH0634256B2 (en) Contact character cutting method
JP5950700B2 (en) Image processing apparatus, image processing method, and program
JP4856235B2 (en) Form recognition method and form recognition apparatus
JP4450888B2 (en) Form recognition method
JP3216800B2 (en) Handwritten character recognition method
JPH11203406A (en) Character segmenting method, character recognizing method, character recognition device, and recording medium
JP2002063548A (en) Handwritten character recognizing method
JP2940747B2 (en) Character segmentation device
JP4601835B2 (en) Word recognition method, word recognition program, and word recognition device
JP2003058556A (en) Method, device, and program for extracting title of document picture
JP2000090117A (en) Method and device for extracting logical element of document image, and recording medium therefor
JPH09274645A (en) Method and device for recognizing character
JP3848792B2 (en) Character string recognition method and recording medium
JP3985926B2 (en) Character recognition method, character recognition apparatus, document image processing system, and recording medium
JP2671533B2 (en) Character string recognition method and apparatus thereof
JP4141217B2 (en) Character recognition method, program used for executing the method, and character recognition apparatus
JP3376931B2 (en) Character line extraction method and apparatus
JP4878057B2 (en) Character recognition method, program, and recording medium
JP4148966B2 (en) Pattern matching apparatus, program for realizing the same, and recording medium
JPH11242716A (en) Image processing method and storage medium
JPH0436885A (en) Optical character reader
JP2001266070A (en) Device and method for recognizing character and storage medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051108