JP2000172783A - Character string recognizing method and storage medium - Google Patents

Character string recognizing method and storage medium

Info

Publication number
JP2000172783A
JP2000172783A JP10358445A JP35844598A JP2000172783A JP 2000172783 A JP2000172783 A JP 2000172783A JP 10358445 A JP10358445 A JP 10358445A JP 35844598 A JP35844598 A JP 35844598A JP 2000172783 A JP2000172783 A JP 2000172783A
Authority
JP
Japan
Prior art keywords
character
character string
pattern
partial
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10358445A
Other languages
Japanese (ja)
Other versions
JP3848792B2 (en
Inventor
Shinobu Yamamoto
忍 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP35844598A priority Critical patent/JP3848792B2/en
Publication of JP2000172783A publication Critical patent/JP2000172783A/en
Application granted granted Critical
Publication of JP3848792B2 publication Critical patent/JP3848792B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a character recognizing method capable of performing accurate character segmentation such as even when the sizes of characters are not equal. SOLUTION: In this character string recognizing method, geometrical feature quantity (e.g. the height of a partial character pattern) of a partial character pattern is found, the geometrical feature quantity of the partial character pattern and the average value of the geometrical feature quantity of plural neighborhood partial character patterns are made statistic feature quantity, the width of a formal character pattern is calculated as the geometrical feature quantity of a formal character pattern obtained by integrating adjacent partial character patterns, the formal character pattern is segmented (S3) and a character string candidate is acquired when evaluation value calculated from the geometrical feature quantity of the formal character pattern and the statistic feature quantity of the partial character pattern in the formal character pattern is equal to or less than threshold, neighborhood numbers are further changed (S5) and plural character string candidates are repeatedly acquired, the certainty of each character string candidate is calculated from the character recognition result of each character pattern (S6) and the most probable character string candidate is defined as the recognition result of the character string by comparing the certainty (S7).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は入力された帳票など
文字画像の文字列パターンから複数の文字パターンを切
り出して文字列の文字認識を行う文字列認識方法に係わ
り、特に、個々の文字の大きさが不定な文字列に対して
も認識誤りの少ない文字切り出し、文字認識が可能な文
字列認識方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character string recognition method for extracting a plurality of character patterns from a character string pattern of a character image such as an input form and performing character recognition of the character strings. The present invention relates to a character string recognition method capable of character extraction and character recognition with little recognition error even for a character string having an indeterminate length.

【0002】[0002]

【従来の技術】帳票などに記載された文字列の文字を認
識するためには、文字列から一文字ずつ切り出す処理が
必要である。そのため、従来の技術においては、文字の
幅と高さが近い値を取るという考えに基づいて、たとえ
ば横書きの場合、連結した黒画素のパターンである黒画
素連結パターンの高さの平均値を標準サイズとして求
め、その値に近い幅になるように黒画素連結パターンを
組み合わせて文字を切り出したりしている。しかし、一
行にわたって文字の大きさが一定していない場合には、
標準文字サイズを基準にすると誤って切り出してしま
う。従来の文字切り出し方法では、文字列内のすべての
部分文字パターンの特徴量(たとえば部分文字パターン
の高さ)の平均値として標準文字サイズを求めるので、
図8に示したように一部において小さな文字が誤って統
合されてしまう。手書き文字では住所における番地部分
の数字など、図8に示したような例はしばしば発生する
のである。そこで、たとえば、特開平9-50488 号公報に
示された従来の技術では、文字列内に異なったサイズの
文字が含まれる場合に、黒画素連結パターン(仮文字)
の高さの頻度分布を基にして複数の標準文字サイズを求
め、文字列を同じ標準文字サイズを持ったパターン群に
分割する。つまり、複数の文字サイズを求め、上記複数
の文字サイズを基準として文字切り出しを行うのであ
る。これによって、文字列中に異なった文字サイズを持
つ文字が混在する場合でも誤り少なく文字切り出しを行
うことができるというわけである。
2. Description of the Related Art In order to recognize a character in a character string described in a form or the like, a process of cutting out a character from a character string one by one is required. Therefore, in the related art, based on the idea that the width and height of a character take a value close to each other, for example, in the case of horizontal writing, the average value of the height of a black pixel connection pattern that is a pattern of connected black pixels is standardized. The size is obtained, and characters are cut out by combining black pixel connection patterns so as to have a width close to the value. However, if the size of the characters is not constant over one line,
Incorrect clipping based on standard font size. In the conventional character segmentation method, the standard character size is calculated as the average value of the feature amounts (for example, the heights of the partial character patterns) of all the partial character patterns in the character string.
As shown in FIG. 8, small characters are erroneously integrated in some parts. In handwritten characters, the example shown in FIG. 8 often occurs, such as the number in the address part of the address. Therefore, for example, in the conventional technique disclosed in Japanese Patent Application Laid-Open No. 9-50488, when a character string includes characters of different sizes, a black pixel connection pattern (temporary character) is used.
Then, a plurality of standard character sizes are obtained based on the frequency distribution of the height, and the character string is divided into patterns having the same standard character size. That is, a plurality of character sizes are obtained, and character cutout is performed based on the plurality of character sizes. Thus, even when characters having different character sizes are mixed in a character string, character extraction can be performed with few errors.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、特開平
9-50488 号公報に示された従来の技術では、手書き文字
のように文字の大きさが揃わないような場合や、左右に
分離できるようなひらがなや漢字の場合には、小さめの
仮文字が必要以上に統合されて誤った切り出し結果を生
じるおそれがある。そこで本発明が解決しようとする課
題は、上記のような従来の技術の問題を解消し、文字の
大きさが揃わないような場合などにおいても正確な文字
切り出しを行うことができると共に、文字認識結果を文
字切り出し、認識処理に反映させて、さらに正確な文字
切り出しを実現し、さらに正確な文字認識を実現できる
ようにした文字認識方法などを提供するものである。
SUMMARY OF THE INVENTION
According to the conventional technique disclosed in Japanese Patent Application Laid-Open No. 9-50488, in the case where the size of characters is not uniform like handwritten characters, or in the case of hiragana or kanji which can be separated into right and left, a small temporary character is used. There is a possibility that erroneous clipping results may be produced due to integration more than necessary. Therefore, the problem to be solved by the present invention is to solve the problems of the conventional technology as described above, and to perform accurate character segmentation even in a case where characters are not uniform in size, and to perform character recognition. It is an object of the present invention to provide a character recognition method and the like that realizes more accurate character extraction by reflecting the result in character extraction and recognition processing, thereby realizing more accurate character recognition.

【0004】[0004]

【課題を解決するための手段】上記の課題を解決するた
めに、請求項1記載の発明に係る文字認識方法では、入
力された文字画像の文字列パターンから複数の文字パタ
ーンを切り出して文字列の文字認識を行う文字列認識方
法において、黒画素が連結しているパターンである黒画
素連結パターンを抽出し、抽出した上記黒画素連結パタ
ーンを組み合わせて部分文字パターンを作成し、作成し
た上記部分文字パターンの幾何学的特徴量として、横書
きの場合には部分文字パターンの外接矩形の高さ,縦書
きの場合には幅を算出し、当該部分文字パターンの幾何
学的特徴量と上記部分文字パターンの近傍の複数の部分
文字パターンの幾何学的特徴量との平均値を統計的特徴
量として算出し、隣接する上記部分文字パターンを仮に
統合した仮文字パターンの幾何学的特徴量として、横書
きの場合には仮文字パターンの外接矩形の幅,縦書きの
場合には高さを算出し、上記仮文字パターンの幾何学的
特徴量と上記仮文字パターンに含まれる部分文字パター
ンの統計的特徴量とから仮文字パターンの評価値を算出
し、上記評価値としきい値に基づいて上記仮文字パター
ンを文字パターンとして切り出すか否かを判定すること
により複数の文字パターンを切り出して一つの文字列候
補を取得し、さらに、上記近傍の数を変えて上記の処理
をくり返えすことにより複数の文字列候補を取得し、そ
れぞれの文字列候補について、各文字パターンの文字認
識結果の確信度から文字列全体の確信度を算出し、それ
ぞれの文字列候補の確信度を比較して最も確からしい文
字列候補を文字列の認識結果として確定するようにし
た。また、請求項2記載の発明では、請求項1記載の発
明において、取得されたすべての文字列候補で文字切り
出し結果が同じになった文字パターンを確定し、さら
に、確定されていない一つまたは複数の文字パターンか
らなる部分文字列候補に対して各文字パターンの文字認
識結果の確信度から部分文字列候補の確信度を求め、そ
れぞれの部分文字列候補の確信度を比較して最も確から
しい部分文字列候補を当該部分文字列の認識結果として
確定することにより文字列全体の認識結果を確定するよ
うにした。また、請求項3記載の発明では、請求項2記
載の発明において、取得されたすべての文字列候補で文
字切り出しと文字認識の結果が同じになった文字パター
ンを確定し、さらに、確定されていない一つまたは複数
の文字パターンからなる部分文字列候補に対して各文字
パターンの文字認識結果の確信度から部分文字列候補の
確信度を求め、それぞれの部分文字列候補の確信度を比
較して最も確からしい部分文字列候補を当該部分文字列
の認識結果として確定することにより文字列全体の認識
結果を確定するようにした。また、請求項4記載の発明
に係る記録媒体では、請求項1、請求項2または請求項
3記載の文字列認識方法による文字列認識処理をコンピ
ュータなど情報処理装置に実施させるためのプログラム
を記録した。
According to a first aspect of the present invention, there is provided a character recognition method comprising the steps of: extracting a plurality of character patterns from a character string pattern of an input character image; In the character string recognition method for performing character recognition of the above, a black pixel connection pattern that is a pattern in which black pixels are connected is extracted, and a partial character pattern is created by combining the extracted black pixel connection patterns. As the geometric feature of the character pattern, the height of the circumscribed rectangle of the partial character pattern in the case of horizontal writing, and the width in the case of vertical writing, are calculated. The average value of the geometric feature values of a plurality of partial character patterns in the vicinity of the pattern is calculated as a statistical feature value, and the temporary character pattern obtained by temporarily integrating the adjacent partial character patterns is calculated. The width of the circumscribed rectangle of the temporary character pattern in horizontal writing and the height in vertical writing are calculated as the geometric feature of the temporary pattern, and the geometric feature of the temporary character pattern and the temporary character are calculated. By calculating the evaluation value of the provisional character pattern from the statistical feature amount of the partial character pattern included in the pattern, and determining whether to cut out the provisional character pattern as a character pattern based on the evaluation value and the threshold value Cut out a plurality of character patterns to obtain one character string candidate, and further obtain a plurality of character string candidates by repeating the above processing by changing the number of neighbors, and for each character string candidate, Calculate the certainty of the entire character string from the certainty of the character recognition result of each character pattern, compare the certainty of each character string candidate, and determine the most likely character string candidate as the character string recognition result. It was to be constant. According to the second aspect of the present invention, in the first aspect of the present invention, a character pattern in which the character cutout result is the same for all of the obtained character string candidates is determined, and one or more undetermined character patterns are determined. For partial character string candidates consisting of multiple character patterns, calculate the partial character string candidate confidence from the confidence of the character recognition result of each character pattern, and compare the confidence of each partial character string candidate to be the most likely. By determining a partial character string candidate as a recognition result of the partial character string, the recognition result of the entire character string is determined. According to the third aspect of the present invention, in the second aspect of the present invention, a character pattern in which the result of character extraction and character recognition is the same for all of the obtained character string candidates is determined, and further determined. For certain substring candidates consisting of one or more character patterns, calculate the substring candidate confidence from the confidence of the character recognition result of each character pattern, and compare the confidence of each substring candidate. Then, the most likely partial character string candidate is determined as the recognition result of the partial character string, so that the recognition result of the entire character string is determined. According to a fourth aspect of the present invention, there is provided a recording medium storing a program for causing an information processing apparatus such as a computer to execute a character string recognition process using the character string recognition method according to the first, second, or third aspect. did.

【0005】上記のように構成したので、請求項1記載
の発明では、黒画素連結パターンを組み合わせた部分文
字パターンが作成され、作成された部分文字パターンの
幾何学的特徴量として、横書きの場合には部分文字パタ
ーンの外接矩形の高さ,縦書きの場合には幅が算出さ
れ、当該部分文字パターンの幾何学的特徴量と上記部分
文字パターンの近傍の複数の部分文字パターンの幾何学
的特徴量との平均値が統計的特徴量として算出され、隣
接する上記部分文字パターンを仮に統合した仮文字パタ
ーンの幾何学的特徴量として、横書きの場合には仮文字
パターンの外接矩形の幅、縦書きの場合には高さが算出
され、上記仮文字パターンの幾何学的特徴量と上記仮文
字パターンに含まれる部分文字パターンの統計的特徴量
とから仮文字パターンの評価値が算出され、上記評価値
としきい値に基づいて上記仮文字パターンを文字パター
ンとして切り出すか否かを判定することにより複数の文
字パターンを切り出して一つの文字列候補が取得され、
さらに、上記近傍の数を変えて上記の処理をくり返えす
ことにより複数の文字列候補が取得され、それぞれの文
字列候補について、各文字パターンの文字認識結果の確
信度から文字列全体の確信度が算出され、それぞれの文
字列候補の確信度が比較されて最も確からしい文字列候
補が文字列の認識結果として確定される。また、請求項
2記載の発明では、請求項1記載の発明において、取得
されたすべての文字列候補で文字切り出し結果が同じに
なった文字パターンが確定され、さらに、確定されてい
ない一つまたは複数の文字パターンからなる部分文字列
候補に対して各文字パターンの文字認識結果の確信度か
ら部分文字列候補の確信度が求められ、それぞれの部分
文字列候補の確信度が比較されて最も確からしい部分文
字列候補が当該部分文字列の認識結果として確定される
ことにより文字列全体の認識結果が確定される。また、
請求項3記載の発明では、請求項2記載の発明におい
て、取得されたすべての文字列候補で文字切り出しと文
字認識の結果が同じになった文字パターンが確定され、
さらに、確定されていない一つまたは複数の文字パター
ンからなる部分文字列候補に対して各文字パターンの文
字認識結果の確信度から部分文字列候補の確信度が求め
られ、それぞれの部分文字列候補の確信度が比較されて
最も確からしい部分文字列候補が当該部分文字列の認識
結果として確定されることにより文字列全体の認識結果
が確定される。また、請求項4記載の発明では、記録媒
体に含まれるプログラムをコンピュータなどに読み込ま
せて実行させることで請求項1、請求項2または請求項
3記載の文字列認識方法を実施する文字列認識装置を実
現できる。したがって、記録媒体によってこれをソフト
ウエア商品として装置と独立して容易に配布、販売する
ことができるようになる。また、汎用コンピュータその
他のハードウェアを用いてこのソフトウエアを使用する
ことにより、これらのハードウェアで本発明の文字列認
識技術を容易に実施できるようになる。
According to the first aspect of the present invention, a partial character pattern in which black pixel connection patterns are combined is created, and a horizontal character is written as a geometric feature of the created partial character pattern. Calculates the height of the circumscribed rectangle of the partial character pattern, and the width in the case of vertical writing, and calculates the geometric feature of the partial character pattern and the geometrical characteristics of a plurality of partial character patterns near the partial character pattern. The average value with the feature amount is calculated as a statistical feature amount, and the width of the circumscribed rectangle of the temporary character pattern in the case of horizontal writing, as the geometric feature amount of the temporary character pattern in which the adjacent partial character patterns are temporarily integrated, In the case of vertical writing, the height is calculated, and the provisional character pattern is calculated from the geometric feature amount of the provisional character pattern and the statistical feature amount of the partial character pattern included in the provisional character pattern. The evaluation value is calculated, one character string candidate based on the evaluation value and the threshold cut a plurality of character patterns by determining whether cutting the temporary character pattern as a character pattern is obtained,
Further, a plurality of character string candidates are obtained by changing the number of neighbors and repeating the above processing, and for each character string candidate, the confidence of the entire character string is determined from the confidence of the character recognition result of each character pattern. The degree is calculated, and the certainty degree of each character string candidate is compared to determine the most likely character string candidate as a character string recognition result. According to the second aspect of the present invention, in the first aspect of the present invention, a character pattern having the same character cutout result for all the obtained character string candidates is determined, and further, one or more undetermined character patterns are obtained. For partial character string candidates consisting of multiple character patterns, the confidence of the partial character string candidates is obtained from the confidence of the character recognition result of each character pattern, and the confidence of each partial character string candidate is compared. By determining a likely partial character string candidate as a recognition result of the partial character string, the recognition result of the entire character string is determined. Also,
According to a third aspect of the present invention, in the second aspect of the present invention, a character pattern in which the result of character extraction and character recognition is the same for all of the obtained character string candidates is determined.
Further, the confidence of the partial character string candidate is obtained from the confidence of the character recognition result of each character pattern with respect to the partial character string candidate composed of one or more character patterns that have not been determined. Are compared, and the most probable partial character string candidate is determined as the recognition result of the partial character string, whereby the recognition result of the entire character string is determined. According to a fourth aspect of the present invention, a program included in a recording medium is read and executed by a computer or the like to execute the character string recognition method according to the first, second, or third aspect. The device can be realized. Therefore, the recording medium can be easily distributed and sold as a software product independently of the apparatus. In addition, by using this software using a general-purpose computer or other hardware, the character string recognition technology of the present invention can be easily implemented with such hardware.

【0006】[0006]

【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。図7は本発明の文字列認識方法
を実施する情報処理装置の要部の構成を示すブロック図
である。図示するように、この情報処理装置は、帳票な
どから文字列パターンを読み取るスキャナ1、スキャナ
1により読み取られた(入力された)文字列パターンか
ら複数の文字を文字パターンとして切り出す文字切り出
し部2、上記文字切り出し部2により切り出された個々
の文字パターンを認識して文字コード化する文字認識部
3、たとえばプログラムのロードされるRAMおよび上
記プログラムに従って動作するCPUを有してこの情報
処理装置全体を管理・制御するシステム制御部4、キー
ボードや表示手段などから成る操作部5などを備えてい
る。なお、文字切り出し部2および文字認識部3もたと
えばCPUによって動作するが、このCPUはシステム
制御部4の有しているCPUと共用することが可能であ
る。図1は上記のような情報処理装置内で動作する本発
明の第1の実施の形態を示す文字列認識方法の動作フロ
ー図である。図示するように、この実施の形態の文字列
認識方法では、まず、スキャナ1によりたとえば図2
(A)に示すような文字列パターンを入力し(S1)、
さらに、当該部分文字パターンの統計的特徴量(後述)
を求める際に関わりを持たせる上記部分文字パターンの
近傍の部分文字パターンの数を複数、操作部5により設
定する(S2)。なお、この数はこの動作フローの動作
に先立って設定してもよい。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 7 is a block diagram showing a configuration of a main part of an information processing apparatus for implementing the character string recognition method of the present invention. As shown in the figure, the information processing apparatus includes a scanner 1 that reads a character string pattern from a form or the like, a character cutout unit 2 that cuts out a plurality of characters from the character string pattern read (input) by the scanner 1 as a character pattern, A character recognition unit 3 that recognizes individual character patterns cut out by the character cutout unit 2 and converts them into character codes, such as a RAM loaded with a program and a CPU that operates according to the program. The system includes a system control unit 4 for managing and controlling, and an operation unit 5 including a keyboard and display means. The character cutout unit 2 and the character recognition unit 3 are also operated by, for example, a CPU. However, this CPU can be shared with the CPU of the system control unit 4. FIG. 1 is an operation flowchart of the character string recognition method according to the first embodiment of the present invention which operates in the information processing apparatus as described above. As shown in the figure, in the character string recognition method of this embodiment, first, the scanner 1
A character string pattern as shown in (A) is input (S1),
Furthermore, the statistical feature amount of the partial character pattern (described later)
The number of partial character patterns in the vicinity of the partial character pattern to be related to when obtaining is set by the operation unit 5 (S2). This number may be set prior to the operation of this operation flow.

【0007】続いて、たとえば「別冊OPlusE 画
像処理アルゴリズムの最新動向」(高木等編;1986,新
技術コミュニケーションズ)に紹介されている方法を用
いて、文字切り出し部2が入力された文字列パターンか
ら黒画素連結パターンを抽出し、黒画素連結パターンを
組み合わせて部分文字パターンを作成する(S3)。た
とえば、図2(B)に矩形で示したそれぞれが部分文字
パターンである。この例では、大部分の部分文字パター
ンは一つの黒画素連結パターンから成っているが、
「筑」の左側や右側の部分文字パターンは二つの黒画素
連結パターンからなっている。つぎに、それぞれの部分
文字パターンの特徴量として、横書きの場合には部分文
字パターンの外接矩形の高さ、縦書きの場合には部分文
字パターンの外接矩形の幅を求める(S3)。また、当
該部分文字パターンの統計的特徴量として、上記部分文
字パターンの幾何学的特徴量(たとえば高さ)と、上記
部分文字パターンの近傍の複数の部分文字パターンの幾
何学的特徴量との平均値を求める。図2(C)に示した
ように、それぞれの部分文字パターンをP1 〜P14とし
たとき、たとえば部分文字パターンP5 の統計的特徴量
を3近傍(近傍数3)により求めるならば、それは部分
文字パターンP4 、P5 、P6 の幾何学的特徴量の平均
値となる。また、5近傍であれば、部分文字パターンP
3 、P4 、P5 、P6 、P7 の幾何学的特徴量の平均値
となる。他の近傍数の場合も同様である。ただし、端の
部分文字パターンにおいては片側にしか隣接する部分文
字パターンがないので、たとえば部分文字パターンP1
の統計的特徴量は3近傍であればP1 とP2の幾何学的
特徴量の平均値、5近傍であればP1 、P2 、P3 の幾
何学的特徴量の平均値とする。なお、近傍数はステップ
S2で設定された複数の近傍数であり、上記複数の近傍
数のうち、まず1番目の近傍数の場合について統計的特
徴量を求めるのである。
[0007] Subsequently, using a method introduced in, for example, "Latest Trends in Separate Volume OPPlusE Image Processing Algorithm" (ed. By Takagi et al., 1986, New Technology Communications), the character cutout unit 2 converts a character string pattern inputted into A black pixel connection pattern is extracted, and a partial character pattern is created by combining the black pixel connection patterns (S3). For example, each of the rectangles shown in FIG. 2B is a partial character pattern. In this example, most of the partial character patterns consist of one black pixel connection pattern,
The partial character pattern on the left and right sides of "Chiku" consists of two black pixel connection patterns. Next, the height of the circumscribed rectangle of the partial character pattern in the case of horizontal writing and the width of the circumscribed rectangle of the partial character pattern in the case of vertical writing are obtained as the characteristic amount of each partial character pattern (S3). Further, as the statistical feature amount of the partial character pattern, a geometric feature amount (for example, height) of the partial character pattern and a geometric feature amount of a plurality of partial character patterns in the vicinity of the partial character pattern are obtained. Find the average value. As shown in FIG. 2C, when the respective partial character patterns are P1 to P14, for example, if the statistical feature amount of the partial character pattern P5 is obtained by three neighbors (the number of neighbors is three), it is determined by the partial character pattern The average value of the geometric feature amounts of the patterns P4, P5, and P6 is obtained. If it is near 5, the partial character pattern P
3, P4, P5, P6, and P7 are the average values of the geometric feature amounts. The same applies to other neighbor numbers. However, since there is no partial character pattern adjacent to only one side in the partial character pattern at the end, for example, the partial character pattern P1
Is the average of the geometric features of P1 and P2 if it is close to 3, and the average of the geometric features of P1, P2 and P3 if it is near 5. Note that the number of neighbors is the plurality of neighbors set in step S2, and among the plurality of neighbors, first, the statistical feature amount is obtained for the first number of neighbors.

【0008】続いて、隣接する部分文字パターンを仮に
統合して仮文字パターンをつくり、その幾何学的特徴量
として横書きの場合には仮文字パターンの外接矩形の
幅、縦書きの場合には高さを求める(S3)。そして、
仮文字パターンの幾何学的特徴量とそれに含まれる部分
文字パターンの統計的特徴量(1番目の近傍数の場合の
統計的特徴量)から、仮文字パターンの文字としての評
価値Vを計算する(S3)。なお、評価値Vは、仮文字
パターンの幾何学的特徴量をS,仮文字パターンに含ま
れる部分文字パターンのそれぞれの統計的特徴量をDj
としたとき、次式から求められる。 V=Σ(S−Dj )2/N ここで、Nは仮文字パターンに含まれる部分文字パター
ンの数である。さらに、上記評価値Vを予め定めたしき
い値と比較して、上記仮文字パターンを文字として切り
出すかどうかを判定する(S3)。つまり、仮文字パタ
ーンの幾何学的特徴量Sが部分文字パターンの統計的特
徴量Dj に近い値を持っていれば仮文字パターンの文字
らしさが高いと考えられるので、評価値Vが予め定めた
しきい値より小さければ、この仮文字を文字として切り
出すのである。なお、上記しきい値はテストデータによ
る予備実験などにより求めておく。
Subsequently, a temporary character pattern is created by temporarily integrating adjacent partial character patterns, and the width of the circumscribed rectangle of the temporary character pattern in horizontal writing and high Is obtained (S3). And
An evaluation value V as a character of the provisional character pattern is calculated from the geometric feature amount of the provisional character pattern and the statistical feature amount of the partial character pattern included therein (the statistical feature amount in the case of the first number of neighbors). (S3). The evaluation value V is represented by S as the geometric feature of the provisional character pattern and Dj as the statistical feature of each partial character pattern included in the provisional character pattern.
Is obtained from the following equation. V = Σ (S−Dj) 2 / N where N is the number of partial character patterns included in the provisional character pattern. Further, the evaluation value V is compared with a predetermined threshold value to determine whether or not the temporary character pattern is cut out as a character (S3). That is, if the geometric feature value S of the provisional character pattern has a value close to the statistical feature value Dj of the partial character pattern, the character-likeness of the provisional character pattern is considered to be high, and the evaluation value V is determined in advance. If it is smaller than the threshold, the provisional character is cut out as a character. Note that the above threshold is obtained by a preliminary experiment using test data or the like.

【0009】図2(D)の場合でさらに説明すると、ま
ず、部分文字パターンP1 とP2 を仮に統合して仮文字
パターンC1 を得て、この幾何学的特徴量Sを求め、上
記S、この仮文字パターンに含まれる部分文字パターン
P1 、P2 の統計的特徴量D1 、D2 、およびNの値と
して2を上記の式に代入し、評価値Vを求めるというこ
とになる。そして、上記評価値Vがしきい値より小さい
場合に仮文字パターンC1 を文字として切り出す(S
3)。つぎに、統合された仮文字パターンC1 に隣接す
る部分文字パターンP3 も統合した仮文字パターンC2を
得て、C1 場合と同様に評価値Vを計算する。なお、こ
の場合のNは3、含まれる部分文字パターンはP1 、P
2 、P3 である。しかし、計算の結果は、この仮文字パ
ターンC2 の場合、幾何学的特徴量Sが大きくなるため
評価値Vがしきい値よりも大きくなるので、文字として
切り出されない。その次は、統合されなかった部分文字
パターンP3 と隣接する部分文字パターンP4 を統合し
た仮文字パターンC3 について同様の処理を行う。これ
らの処理を順次文字列の最後まで実行して一つの文字列
候補を取得する。続いて、文字認識部3が上記文字列候
補の各文字パターンについて文字認識を行い、文字コー
ドと共に確信度(類似度)を算出する(S4)。なお、
このような文字認識方法は公知であり、たとえば、「加
重方向指数ヒストグラム法による手書き漢字・ひらがな
認識」(鶴岡等,電子情報通信学会論文誌,J70-D 、7
、pp.1390-1397、1987)に記載の方法などがある。
To explain further in the case of FIG. 2D, first, partial character patterns P1 and P2 are temporarily integrated to obtain a provisional character pattern C1, and this geometric feature S is obtained. The evaluation value V is obtained by substituting 2 into the above equation as the value of the statistical feature values D1, D2, and N of the partial character patterns P1, P2 included in the provisional character pattern. When the evaluation value V is smaller than the threshold value, the provisional character pattern C1 is cut out as a character (S
3). Next, a temporary character pattern C2 in which the partial character pattern P3 adjacent to the integrated temporary character pattern C1 is integrated is obtained, and the evaluation value V is calculated in the same manner as in the case of C1. In this case, N is 3, and the partial character patterns included are P1, P
2, P3. However, in the case of the provisional character pattern C2, the evaluation result V is larger than the threshold value because the geometric feature amount S is large, so that the character is not cut out as a character. Next, the same processing is performed for the provisional character pattern C3 obtained by integrating the partial character pattern P3 that has not been integrated and the adjacent partial character pattern P4. These processes are sequentially executed until the end of the character string to obtain one character string candidate. Subsequently, the character recognition unit 3 performs character recognition for each character pattern of the character string candidate, and calculates a certainty factor (similarity) together with the character code (S4). In addition,
Such a character recognition method is known. For example, “Handwritten Kanji / Hiragana Recognition by Weighted Direction Exponential Histogram Method” (Tsuruoka et al., Transactions of the Institute of Electronics, Information and Communication Engineers, J70-D, 7
, Pp. 1390-1397, 1987).

【0010】このようにして、一つの近傍数について取
得した文字列候補を構成するそれぞれの文字の文字認識
が終了すると、他に近傍数が設定されているか否かを判
定し(S5)、他に設定されておれば(S5でNo)、
ステップS3に戻り、次の近傍数についてステップS3
からくり返す。そして、ステップS5において、すべて
の近傍数について実行したと判定されたならば(S5で
Yes)、文字列候補を構成する個々の文字の確信度か
ら一つの文字列候補の確信度を求める計算をすべての文
字列候補について行う(S6)。たとえば、文字列候補
内の個々の文字の確信度の平均をその文字列候補の確信
度とするのである。そして、確信度の最も高い文字列候
補を文字列の認識結果として選択し(S7)、出力する
(S8)。なお、上記において、ステップS4における
文字認識をステップS5の後、つまりステップS6の直
前において行ってもよい。図3(A)は、近傍数が小さ
いとき、文字切り出しにより過剰に分割された例であ
る。近傍数が大きいと、図3(B)に示したように正し
く切り出される。これら二つの文字列候補について文字
認識を行うと、近傍数の大きい文字列候補の方が確信度
が高くなるので、正しい結果が得られることになる。図
4(B)は逆に、近傍数が大きいと誤って文字が統合さ
れ、切り出される例である。この場合は、近傍数が小さ
いと、図4(A)に示すように正しく切り出される。こ
のように、一種類の近傍数では誤った結果を出力するよ
うな場合でも、この実施の形態のように複数の近傍数で
実行し、文字認識の結果を用いて選択することにより、
正しい結果が得られるようになる。
In this way, when the character recognition of each character constituting the character string candidate acquired for one neighborhood number is completed, it is determined whether or not another neighborhood number is set (S5). (No at S5),
Returning to step S3, step S3 is performed for the next number of neighbors.
Repeat. Then, in step S5, if it is determined that the execution has been performed for all the neighbor numbers (Yes in S5), the calculation for obtaining the certainty of one character string candidate from the certainty of each character constituting the character string candidate is performed. This is performed for all character string candidates (S6). For example, the average of the certainty factors of the individual characters in the character string candidate is set as the certainty factor of the character string candidate. Then, a character string candidate having the highest certainty factor is selected as a character string recognition result (S7) and output (S8). In the above description, the character recognition in step S4 may be performed after step S5, that is, immediately before step S6. FIG. 3A shows an example in which, when the number of neighbors is small, excessive segmentation is performed by character extraction. If the number of neighbors is large, it is cut out correctly as shown in FIG. When character recognition is performed on these two character string candidates, a character string candidate with a larger number of neighbors has a higher degree of certainty, so that a correct result can be obtained. Conversely, FIG. 4B shows an example in which if the number of neighbors is large, characters are erroneously integrated and cut out. In this case, if the number of neighbors is small, it is cut out correctly as shown in FIG. As described above, even in a case where an erroneous result is output with one type of number of neighbors, by executing with a plurality of numbers of neighbors as in this embodiment and selecting using the result of character recognition,
You will get the correct result.

【0011】本発明の第2の実施の形態では、第1の実
施の形態で示した複数の近傍数に対応して取得されたす
べての文字列候補で文字切り出し結果が同じになった文
字パターンを確定し、さらに、確定されていない一つま
たは複数の文字パターンからなる部分文字列候補に対し
て各文字パターンの文字認識結果の確信度から部分文字
列候補の確信度を求め、それぞれの部分文字列候補の確
信度を比較して最も確からしい部分文字列候補を当該部
分文字列の認識結果として確定して文字列全体の認識結
果を確定する。以下、図5に示した動作フローなどに従
って、この実施の形態の動作を説明する。まず、スキャ
ナ1により文字列パターンを入力し(S11)、さら
に、部分文字パターンの統計的特徴量を求めるための部
分文字パターンの近傍数を複数設定する(S12)。な
お、この数はこの動作フローの動作に先立って設定して
もよい。続いて、第1の実施の形態と同様にして、文字
切り出し部2が1番目の近傍数の場合で文字切り出しを
行い(S13)、一つの文字列候補を取得する。さら
に、2番目の近傍数についても同様にして文字列候補を
取得し、すべての近傍数について文字列候補を取得する
と(S14でYes)、すべての文字列候補において共
通な仮文字パターンを抽出し、その部分の文字パターン
を確定させる(S15)。図6に二つの近傍数について
共通な仮文字パターンの例などを示す。同図(A)は小
さい近傍数の場合、(B)は大きい近傍数の場合を例示
している。この例では、「都」「筑」「区」「栄」
「町」の5個が共通な仮文字パターン、つまり最初に確
定される文字パターンである。なお、切り出し結果が異
なっている部分は部分文字列候補として処理される(後
述)。
In the second embodiment of the present invention, a character pattern in which the character cutout result is the same for all the character string candidates acquired corresponding to the plurality of neighbors shown in the first embodiment Is determined, and the confidence of the partial character string candidate is determined from the confidence of the character recognition result of each character pattern for the partial character string candidate composed of one or more character patterns that have not been determined. By comparing the certainty factors of the character string candidates, the most likely partial character string candidate is determined as the recognition result of the partial character string, and the recognition result of the entire character string is determined. Hereinafter, the operation of this embodiment will be described with reference to the operation flow shown in FIG. First, a character string pattern is input by the scanner 1 (S11), and a plurality of neighborhoods of a partial character pattern for obtaining a statistical feature of the partial character pattern are set (S12). This number may be set prior to the operation of this operation flow. Subsequently, in the same manner as in the first embodiment, character extraction is performed when the character extraction unit 2 has the first number of neighbors (S13), and one character string candidate is obtained. Furthermore, character string candidates are obtained in the same manner for the second number of neighbors, and character string candidates are obtained for all the numbers of neighbors (Yes in S14), and a temporary character pattern common to all character string candidates is extracted. Then, the character pattern of that part is determined (S15). FIG. 6 shows an example of a temporary character pattern common to the two numbers of neighbors. FIG. 7A illustrates the case of a small number of neighbors, and FIG. 7B illustrates the case of a large number of neighbors. In this example, "Tokyo""Chiku""Ward""Sakae"
Five “towns” are common provisional character patterns, that is, character patterns that are determined first. Note that portions where the cutout results are different are processed as partial character string candidates (described later).

【0012】つぎに、第1の実施の形態と同様にして上
記共通な仮文字パターンについて文字認識を行い、その
部分の文字認識結果として確定すると共に、それぞれの
部分文字列候補を構成している各文字パターンについて
も文字認識を行い、それぞれの文字パターンの確信度な
どを求める(S16)。そして、それぞれの部分文字列
候補の確信度を計算し(S17)、確信度の最も高い部
分文字列候補を選択し(S18)、その部分文字列の文
字認識結果として確定させる。このようなステップS1
7、S18の処理を、確定されていない文字パターンが
なくなるまで順次行うと、文字認識部3はその文字認識
結果を既に確定している共通部分の文字認識結果と合わ
せて文字列の認識結果として出力する(S19)。な
お、上記において、複数の文字列候補に共通な部分とし
て最初に確定する部分を、単に切り出し文字パターンが
共通である部分でなく、その文字認識結果も共通な部分
としてもよい。文字認識処理では前後の文字関係も考慮
して文字認識されるので切り出し文字パターンが共通で
も異なった文字認識結果になることもあるのである。上
記のように、この実施の形態によれば、複数の切り出
し、文字認識処理で同じ処理結果である部分はその結果
が採用されるので、文字列認識精度が向上する。以上、
図7に示した情報処理装置において実行される本発明の
文字列認識方法を説明したが、上記文字列認識方法に従
った文字列認識プログラムを記録した記録媒体を他の情
報処理装置に移して実行させることも可能であり、した
がって、本発明の文字列認識方法を記録した記録媒体も
本発明に含まれる。
Next, in the same manner as in the first embodiment, character recognition is performed on the common provisional character pattern, the character recognition result of that portion is determined, and each partial character string candidate is constructed. Character recognition is also performed for each character pattern, and the degree of certainty of each character pattern is determined (S16). Then, the degree of certainty of each partial character string candidate is calculated (S17), a partial character string candidate having the highest degree of certainty is selected (S18), and the character recognition result of the partial character string is determined. Such a step S1
7. When the processing in S18 is sequentially performed until there is no unconfirmed character pattern, the character recognizing unit 3 combines the character recognition result with the already-confirmed character recognition result of the common part as a character string recognition result. Output (S19). In the above description, the part that is first determined as a part common to a plurality of character string candidates may not be simply a part where the cut-out character pattern is common, but may be a part where the character recognition result is also common. In the character recognition process, character recognition is performed in consideration of the relationship between the characters before and after the character. Therefore, different character recognition results may be obtained even if the cut-out character pattern is common. As described above, according to this embodiment, a result of a plurality of cutouts and a portion having the same processing result in the character recognition processing is adopted, so that the character string recognition accuracy is improved. that's all,
Although the character string recognition method of the present invention executed in the information processing apparatus shown in FIG. 7 has been described, the recording medium storing the character string recognition program according to the above-described character string recognition method is transferred to another information processing apparatus. The present invention can also be executed, and therefore, a recording medium on which the character string recognition method of the present invention is recorded is also included in the present invention.

【0013】[0013]

【発明の効果】以上説明したように、本発明は以下のよ
うな優れた効果を奏する。請求項1記載の発明では、黒
画素連結パターンを組み合わせた部分文字パターンが作
成され、作成された部分文字パターンの幾何学的特徴量
として、横書きの場合には部分文字パターンの外接矩形
の高さ,縦書きの場合には幅が算出され、当該部分文字
パターンの幾何学的特徴量と上記部分文字パターンの近
傍の複数の部分文字パターンの幾何学的特徴量との平均
値が統計的特徴量として算出され、隣接する上記部分文
字パターンを仮に統合した仮文字パターンの幾何学的特
徴量として、横書きの場合には仮文字パターンの外接矩
形の幅,縦書きの場合には高さが算出され、上記仮文字
パターンの幾何学的特徴量と上記仮文字パターンに含ま
れる部分文字パターンの統計的特徴量とから仮文字パタ
ーンの評価値が算出され、上記評価値としきい値に基づ
いて上記仮文字パターンを文字パターンとして切り出す
か否かを判定することにより複数の文字パターンを切り
出して一つの文字列候補が取得され、さらに、上記近傍
の数を変えて上記の処理をくり返えすことにより複数の
文字列候補が取得され、それぞれの文字列候補につい
て、各文字パターンの文字認識結果の確信度から文字列
全体の確信度が算出され、それぞれの文字列候補の確信
度が比較されて最も確からしい文字列候補が文字列の認
識結果として確定されるので、文字の大きさが揃わない
ような場合などにおいても正確な文字切り出しを行うこ
とができるし、文字認識結果が文字切り出し、認識処理
に反映されて、さらに正確な文字切り出し、文字認識を
実現できる。また、請求項2記載の発明では、請求項1
記載の発明において、取得されたすべての文字列候補で
文字切り出し結果が同じになった文字パターンが確定さ
れ、さらに、確定されていない一つまたは複数の文字パ
ターンからなる部分文字列候補に対して各文字パターン
の文字認識結果の確信度から部分文字列候補の確信度が
求められ、それぞれの部分文字列候補の確信度が比較さ
れて最も確からしい部分文字列候補が当該部分文字列の
認識結果として確定されることにより文字列全体の認識
結果が確定されるので、複数の切り出し処理で同じ処理
結果である部分はその結果が採用され、したがって、文
字列認識精度がさらに向上する。
As described above, the present invention has the following excellent effects. According to the first aspect of the present invention, a partial character pattern combining black pixel connection patterns is created, and the height of a circumscribed rectangle of the partial character pattern in the case of horizontal writing is defined as a geometric feature of the created partial character pattern. In the case of vertical writing, the width is calculated, and the average value of the geometric feature of the partial character pattern and the geometric features of a plurality of partial character patterns near the partial character pattern is calculated as the statistical feature. The width of the circumscribed rectangle of the temporary character pattern in the case of horizontal writing and the height in the case of vertical writing are calculated as the geometric feature amount of the temporary character pattern in which the adjacent partial character patterns are temporarily integrated. The evaluation value of the provisional character pattern is calculated from the geometric feature amount of the provisional character pattern and the statistical feature amount of the partial character pattern included in the provisional character pattern. By determining whether to cut out the temporary character pattern as a character pattern based on the value, a plurality of character patterns are cut out to obtain one character string candidate, and further, the above processing is performed by changing the number of neighbors. By repeating, a plurality of character string candidates are obtained, and for each character string candidate, the certainty factor of the entire character string is calculated from the certainty factor of the character recognition result of each character pattern, and the certainty factor of each character string candidate is calculated. Are compared and the most probable character string candidate is determined as a character string recognition result, so that accurate character segmentation can be performed even when the character size is not uniform, and the character recognition result is Reflected in character extraction and recognition processing, more accurate character extraction and character recognition can be realized. According to the second aspect of the invention,
In the described invention, a character pattern in which the character cutout result is the same in all the obtained character string candidates is determined, and further, a partial character string candidate consisting of one or more character patterns that have not been determined is determined. The degree of certainty of the partial character string candidate is obtained from the degree of certainty of the character recognition result of each character pattern, and the certainty degree of each partial character string candidate is compared. Since the recognition result of the entire character string is determined by determining as, the result of the portion that is the same processing result in a plurality of cutout processes is adopted, and therefore, the character string recognition accuracy is further improved.

【0014】また、請求項3記載の発明では、請求項2
記載の発明において、取得されたすべての文字列候補で
文字切り出しと文字認識の結果が同じになった文字パタ
ーンが確定され、さらに、確定されていない一つまたは
複数の文字パターンからなる部分文字列候補に対して各
文字パターンの文字認識結果の確信度から部分文字列候
補の確信度が求められ、それぞれの部分文字列候補の確
信度が比較されて最も確からしい部分文字列候補が当該
部分文字列の認識結果として確定されることにより文字
列全体の認識結果が確定されるので、複数の切り出し、
文字認識処理で同じ処理結果である部分はその結果が採
用され、したがって、請求項2記載の発明と同様に文字
列認識精度がさらに向上する。また、請求項4記載の発
明では、請求項1、請求項2または請求項3記載の文字
列認識方法が記録媒体に記録されるので、上記記録媒体
を本発明によった文字列認識手段を備えていない他の情
報処理装置に移して用いることにより、上記情報処理装
置においても本発明によった文字列認識を行うことがで
きる。
According to the third aspect of the present invention, the second aspect
In the described invention, a character pattern in which the result of character extraction and character recognition is the same in all of the obtained character string candidates is determined, and further, a partial character string consisting of one or more undetermined character patterns The certainty of the partial character string candidate is obtained from the certainty of the character recognition result of each character pattern for the candidate, and the certainty of each partial character string candidate is compared. Since the recognition result of the entire character string is determined by being determined as the recognition result of the column, multiple cutouts,
In the character recognition processing, the same processing result is used as the result, so that the character string recognition accuracy is further improved as in the second aspect of the present invention. Further, in the invention according to claim 4, the character string recognition method according to claim 1, 2, or 3 is recorded on a recording medium. By transferring and using another information processing apparatus that is not provided, the above information processing apparatus can also perform the character string recognition according to the present invention.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態を示す文字列認識方
法の動作フロー図である。
FIG. 1 is an operation flowchart of a character string recognition method according to a first embodiment of the present invention.

【図2】(A)(B)(C)及び(D)は本発明の第1
の実施の形態を示す文字列認識方法の説明図である。
2 (A), 2 (B), 2 (C) and 2 (D) show the first embodiment of the present invention.
It is an explanatory view of a character string recognition method showing the embodiment.

【図3】(A)及び(B)は本発明の第1の実施の形態
を示す文字列認識方法の他の説明図である。
FIGS. 3A and 3B are other explanatory diagrams of the character string recognition method according to the first embodiment of the present invention.

【図4】(A)及び(B)は本発明の第1の実施の形態
を示す文字列認識方法の他の説明図である。
FIGS. 4A and 4B are other explanatory diagrams of the character string recognition method according to the first embodiment of the present invention.

【図5】本発明の第2の実施の形態を示す文字列認識方
法の動作フロー図である。
FIG. 5 is an operation flowchart of a character string recognition method according to the second embodiment of the present invention.

【図6】(A)及び(B)は本発明の第2の実施の形態
を示す文字列認識方法の説明図である。
FIGS. 6A and 6B are explanatory diagrams of a character string recognition method according to a second embodiment of the present invention.

【図7】本発明が実施された情報処理装置の要部の構成
ブロック図である。
FIG. 7 is a configuration block diagram of a main part of an information processing apparatus according to the present invention.

【図8】従来技術の一例を示す文字列認識方法の説明図
である。
FIG. 8 is an explanatory diagram of a character string recognition method showing an example of a conventional technique.

【符号の説明】[Explanation of symbols]

1:スキャナ、2:文字切り出し部、3:文字認識部、
4:システム制御部、5:操作部。
1: scanner, 2: character extraction unit, 3: character recognition unit
4: System control unit, 5: Operation unit.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 入力された文字画像の文字列パターンか
ら複数の文字パターンを切り出して文字列の文字認識を
行う文字列認識方法において、黒画素が連結しているパ
ターンである黒画素連結パターンを抽出し、抽出した上
記黒画素連結パターンを組み合わせて部分文字パターン
を作成し、作成した上記部分文字パターンの幾何学的特
徴量として、横書きの場合には部分文字パターンの外接
矩形の高さ,縦書きの場合には幅を算出し、当該部分文
字パターンの幾何学的特徴量と上記部分文字パターンの
近傍の複数の部分文字パターンの幾何学的特徴量との平
均値を統計的特徴量として算出し、隣接する上記部分文
字パターンを仮に統合した仮文字パターンの幾何学的特
徴量として、横書きの場合には仮文字パターンの外接矩
形の幅,縦書きの場合には高さを算出し、上記仮文字パ
ターンの幾何学的特徴量と上記仮文字パターンに含まれ
る部分文字パターンの統計的特徴量とから仮文字パター
ンの評価値を算出し、上記評価値としきい値に基づいて
上記仮文字パターンを文字パターンとして切り出すか否
かを判定することにより複数の文字パターンを切り出し
て一つの文字列候補を取得し、さらに、上記近傍の数を
変えて上記の処理をくり返えすことにより複数の文字列
候補を取得し、それぞれの文字列候補について、各文字
パターンの文字認識結果の確信度から文字列全体の確信
度を算出し、それぞれの文字列候補の確信度を比較して
最も確からしい文字列候補を文字列の認識結果として確
定することを特徴とする文字列認識方法。
1. A character string recognition method for extracting a plurality of character patterns from a character string pattern of an input character image and performing character recognition of a character string. A partial character pattern is created by combining the extracted and extracted black pixel concatenated patterns, and the height, length, and height of the circumscribed rectangle of the partial character pattern in the case of horizontal writing are used as the geometric features of the created partial character pattern. In the case of writing, the width is calculated, and the average value of the geometric feature amount of the partial character pattern and the geometric feature amounts of a plurality of partial character patterns near the partial character pattern is calculated as a statistical feature amount. In the case of horizontal writing, the width of the circumscribed rectangle of the temporary character pattern and the vertical writing In this case, the height is calculated, and the evaluation value of the provisional character pattern is calculated from the geometric feature amount of the provisional character pattern and the statistical feature amount of the partial character pattern included in the provisional character pattern. By determining whether or not to cut out the temporary character pattern as a character pattern based on the threshold value and a plurality of character patterns, one character string candidate is obtained by cutting out a plurality of character patterns. By repeating the process, a plurality of character string candidates are obtained, and for each character string candidate, the certainty factor of the entire character string is calculated from the certainty factor of the character recognition result of each character pattern. A character string recognition method characterized by determining the most probable character string candidate as a character string recognition result by comparing certainty factors.
【請求項2】 請求項1記載の文字列認識方法におい
て、取得されたすべての文字列候補で文字切り出し結果
が同じになった文字パターンを確定し、さらに、確定さ
れていない一つまたは複数の文字パターンからなる部分
文字列候補に対して各文字パターンの文字認識結果の確
信度から部分文字列候補の確信度を求め、それぞれの部
分文字列候補の確信度を比較して最も確からしい部分文
字列候補を当該部分文字列の認識結果として確定するこ
とにより文字列全体の認識結果を確定することを特徴と
する文字列認識方法。
2. The character string recognition method according to claim 1, wherein a character pattern in which the character cutout result is the same for all the obtained character string candidates is determined, and one or more undetermined character patterns are determined. For partial character string candidates consisting of character patterns, obtain the partial character string candidate confidence from the confidence of the character recognition result of each character pattern, and compare the confidence of each partial character string candidate to find the most likely partial character A character string recognizing method comprising: determining a column candidate as a recognition result of a partial character string to determine a recognition result of the entire character string.
【請求項3】 請求項2記載の文字列認識方法におい
て、取得されたすべての文字列候補で文字切り出しと文
字認識の結果が同じになった文字パターンを確定し、さ
らに、確定されていない一つまたは複数の文字パターン
からなる部分文字列候補に対して各文字パターンの文字
認識結果の確信度から部分文字列候補の確信度を求め、
それぞれの部分文字列候補の確信度を比較して最も確か
らしい部分文字列候補を当該部分文字列の認識結果とし
て確定することにより文字列全体の認識結果を確定する
ことを特徴とする文字列認識方法。
3. The character string recognition method according to claim 2, wherein a character pattern in which the result of character extraction and character recognition is the same for all of the obtained character string candidates is determined. For a partial character string candidate consisting of one or more character patterns, the degree of certainty of the partial character string candidate is obtained from the certainty degree of the character recognition result of each character pattern,
Character string recognition characterized by determining the recognition result of the entire character string by determining the most probable partial character string candidate as the recognition result of the partial character string by comparing the certainty factors of the respective partial character string candidates. Method.
【請求項4】 請求項1、請求項2または請求項3記載
の文字列認識方法による文字列認識処理を情報処理装置
に実施させるためのプログラムを記録したことを特徴と
する機械読み取り可能な記録媒体。
4. A machine-readable recording for recording a program for causing an information processing apparatus to execute a character string recognition process according to the character string recognition method according to claim 1, 2 or 3. Medium.
JP35844598A 1998-12-02 1998-12-02 Character string recognition method and recording medium Expired - Fee Related JP3848792B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35844598A JP3848792B2 (en) 1998-12-02 1998-12-02 Character string recognition method and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35844598A JP3848792B2 (en) 1998-12-02 1998-12-02 Character string recognition method and recording medium

Publications (2)

Publication Number Publication Date
JP2000172783A true JP2000172783A (en) 2000-06-23
JP3848792B2 JP3848792B2 (en) 2006-11-22

Family

ID=18459348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35844598A Expired - Fee Related JP3848792B2 (en) 1998-12-02 1998-12-02 Character string recognition method and recording medium

Country Status (1)

Country Link
JP (1) JP3848792B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991270A (en) * 2019-11-15 2020-04-10 泰康保险集团股份有限公司 Text recognition method and device, electronic equipment and storage medium
CN111814801A (en) * 2020-08-25 2020-10-23 电子科技大学 Method for extracting labeled strings in mechanical diagram

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991270A (en) * 2019-11-15 2020-04-10 泰康保险集团股份有限公司 Text recognition method and device, electronic equipment and storage medium
CN110991270B (en) * 2019-11-15 2023-10-20 泰康保险集团股份有限公司 Text recognition method, device, electronic equipment and storage medium
CN111814801A (en) * 2020-08-25 2020-10-23 电子科技大学 Method for extracting labeled strings in mechanical diagram
CN111814801B (en) * 2020-08-25 2022-03-15 电子科技大学 Method for extracting labeled strings in mechanical diagram

Also Published As

Publication number Publication date
JP3848792B2 (en) 2006-11-22

Similar Documents

Publication Publication Date Title
US6917706B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP3919617B2 (en) Character recognition device, character recognition method, program, and storage medium
US6701022B2 (en) Pattern matching coding device and method thereof
US7680329B2 (en) Character recognition apparatus and character recognition method
US8103099B2 (en) Method and system for recognizing characters and character groups in electronically represented text
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
US20050226516A1 (en) Image dictionary creating apparatus and method
JP2000172783A (en) Character string recognizing method and storage medium
JPH08320914A (en) Table recognition method and device
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP2003030654A (en) Pattern identification device, pattern identification method and program for pattern identification
JP2002056356A (en) Character recognizing device, character recognizing method, and recording medium
JPH1166230A (en) Device, method, and medium for document recognition
JP4204185B2 (en) Character recognition device, character recognition method, and recording medium
JP3343305B2 (en) Character extraction device and character extraction method
JPH10154191A (en) Business form identification method and device, and medium recording business form identification program
JP3077929B2 (en) Character extraction method
JPH08161432A (en) Method and device for segmenting character
JP2001266070A (en) Device and method for recognizing character and storage medium
JP2002279344A (en) Character recognition device and method, and recording medium
JP2000293632A (en) Character string recognizing device and its method
JPH11203406A (en) Character segmenting method, character recognizing method, character recognition device, and recording medium
JP2993533B2 (en) Information processing device and character recognition device
JP4878057B2 (en) Character recognition method, program, and recording medium
JP3919390B2 (en) Character recognition device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060828

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130901

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees