JPH0291785A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH0291785A
JPH0291785A JP63242214A JP24221488A JPH0291785A JP H0291785 A JPH0291785 A JP H0291785A JP 63242214 A JP63242214 A JP 63242214A JP 24221488 A JP24221488 A JP 24221488A JP H0291785 A JPH0291785 A JP H0291785A
Authority
JP
Japan
Prior art keywords
block
character
recognition
word
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63242214A
Other languages
Japanese (ja)
Other versions
JP2848560B2 (en
Inventor
Masami Hisagai
正己 久貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP63242214A priority Critical patent/JP2848560B2/en
Publication of JPH0291785A publication Critical patent/JPH0291785A/en
Application granted granted Critical
Publication of JP2848560B2 publication Critical patent/JP2848560B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE:To attain correct character recognition by deciding whether or not block synthesis is executed based on two adjacent block widths, segmenting the block data based on the decided result and executing the character recognition based on the segmented block data. CONSTITUTION:Image data is inputted by an input means, and block data including character pattern data is extracted based on the input image data by a block extracting means 7. Next, by block synthesizing deciding means 8 and 9, it is decided whether or not the block synchronization is executed based on two adjacent block widths of the extracting block data. By character segmenting means 10 and 11, the block data are segmented based on the decided result by the block synthesizing deciding means 8 and 9, and by a recognizing means 12, the character recognition is executed based on the block data segmented with the character segmenting means 10 and 11. Thus, the character segmenting to list up the word candidates by the word collation can be correctly executed.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文字認識装置に関し、例えば分離文字の文字認
識を行う文字認識装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a character recognition device, and for example, to a character recognition device that recognizes separated characters.

[従来の技術] 従来、この種の装置においては、光学的文字認識での文
字の切出しをまず縦方向の黒画素ヒストグラムをとるこ
とにより文字行の切出しを行い、その後に切出された各
文字行について横方向ヒストグラムをとることにより文
字の外接矩形(以下ブロックと呼ぶ)を求めて行ってい
る。この際に、例えば「い」・「す」 ・「ル」・「仏
」などの分離文字においては、各分離文字のブロックが
左右二個のブロックに分かれてしまうが、左右のブロッ
クを合成した合成ブロックが平均文字中に近い巾になる
ときには合成ブロックを1文字として切出すようにして
いる。
[Prior Art] Conventionally, in this type of device, character lines in optical character recognition are first extracted by taking a vertical black pixel histogram, and then each extracted character is extracted. By taking a horizontal histogram for each line, a circumscribed rectangle (hereinafter referred to as a block) of a character is obtained. In this case, for example, for separated characters such as ``i'', ``su'', ``ru'', and ``butsu'', the block of each separated character is divided into two blocks on the left and right, but when the left and right blocks are combined, When the composite block has a width close to that of an average character, the composite block is cut out as one character.

ここで、文字認識動作を第6図に示す従来の文字認識装
置の概略的なブロック構成に基づいて説明する。
Here, the character recognition operation will be explained based on the schematic block configuration of the conventional character recognition device shown in FIG.

まず、読取部51で光学的に読み取った原稿上のイメー
ジデータなメモリ52に格納する。次にイメージデータ
に基づいてブロック抽出部53で上述のような行の切出
し及びブロックの抽出を行う。合成可能なブロック同士
があればブロック合成部54で合成し、文字バッファ5
5に格納する。そして認識辞書部57に記憶されている
文字の標準パターンと文字バッファ55に格納されてい
る単独ブロック或は合成ブロックとを認識部56で文字
認識する。このようにして文字認識された標準パターン
を認識文字としてその文字コードを単語照合部58の単
語バッファ(図示しない)に格納する。単語バッファに
所定の認識文字が格納されると単語辞書部59に記憶さ
れている単語辞書との単語照合を行うようにする。
First, image data on a document optically read by the reading unit 51 is stored in the memory 52 . Next, based on the image data, the block extraction section 53 performs row cutting and block extraction as described above. If there are blocks that can be combined, they are combined in the block combination unit 54 and transferred to the character buffer 5.
Store in 5. Then, the recognition unit 56 performs character recognition on the standard pattern of characters stored in the recognition dictionary unit 57 and the single block or composite block stored in the character buffer 55. The standard pattern character-recognized in this manner is used as a recognized character, and its character code is stored in a word buffer (not shown) of the word matching unit 58. When a predetermined recognized character is stored in the word buffer, the word is compared with the word dictionary stored in the word dictionary section 59.

[発明が解決しようとする課題] しかしながら、上記従来例では、ピリオド、コンマ、中
黒及び半角数字など文字中の小さい文字が混在している
ために、例えば第7図に示すように“3“と 、”が合
成されて“3.”になってしまいブロックの合成を誤っ
てしまうことがある。このため文字切出しの段階で、す
でに正しい文字候補が排除されてしまうことになる。こ
れは単語照合の段階で一文字程度の違いは許して比較す
ることにより単語候補を見つけることによって補填する
ことも考えられるが、−文字の違いといえども正確性を
失うことにより、またブロック合成での誤りは単語を構
成する文字数を誤ることになるので、長さの異なる単語
同志の類似度比較が必要となり単語照合が複雑となって
しまう欠点がある。
[Problems to be Solved by the Invention] However, in the above conventional example, small characters such as periods, commas, bullets, and half-width numbers are mixed, so for example, as shown in FIG. ,” are synthesized to form “3. ”, which may result in incorrect block composition. As a result, correct character candidates are already eliminated at the character extraction stage. It is possible to compensate by finding word candidates by comparing the words, but - even if there are differences in letters, accuracy will be lost, and errors in block composition will lead to incorrect numbers of characters composing a word. Therefore, it is necessary to compare the degree of similarity between words of different lengths, which makes word matching complicated.

本発明は上述の従来例の欠点に鑑みてなされたものであ
り、その目的とするところは、単語照合での単語候補を
挙げるための文字切り出しを正確に行える文字認識装置
を提供する点にある。
The present invention has been made in view of the above-mentioned drawbacks of the conventional examples, and its purpose is to provide a character recognition device that can accurately cut out characters to list word candidates in word matching. .

[課題が解決するための手段] 上述した課題を解決し、目的を達成するため、本発明に
係わる文字認識装置は、イメージデータに基づいて文字
認識を行う文字認識装置において、イメージデータを入
力する入力手段と、前記入力イメージデータに基づいて
文字パターンデータな含むブロックデータを抽出するブ
ロック抽出手段と、前記抽出ブロックデータの隣り合う
2つのブロック中に基づいてブロック合成をするか否か
を判定するブロック合成判定手段と、該ブロック合成判
定手段での判定結果に基づいてブロックデータの切出し
を行う文字切出し手段と、該文字切出し手段で切出した
ブロックデータに基づいて文字認識を行う認識手段とを
備えることを特徴とする。
[Means for Solving the Problems] In order to solve the above-mentioned problems and achieve the purpose, a character recognition device according to the present invention is a character recognition device that performs character recognition based on image data. an input means; a block extracting means for extracting block data including character pattern data based on the input image data; and determining whether to perform block synthesis based on two adjacent blocks of the extracted block data. It includes a block composition determination means, a character extraction means for extracting block data based on the determination result by the block composition determination means, and a recognition means for performing character recognition based on the block data extracted by the character extraction means. It is characterized by

また、好ましくは、前記認識手段は、文字認識の結果に
基づいて単語候補を形成する単語候補形成手段と、前記
単語候補で単語照合を行う単語照合手段とを含むことを
特徴とする。
Preferably, the recognition means includes a word candidate forming means that forms word candidates based on the result of character recognition, and a word matching means that performs word matching on the word candidates.

さらに、好ましくは、前記認識手段は、ブロックデータ
中の文字パターンを認識文字の候補とし、予め記憶して
いる標準パターンとの類似度で認識文字を識別する識別
手段を含むことを特徴とする。
Furthermore, preferably, the recognition means includes an identification means that uses a character pattern in the block data as a candidate for a recognition character and identifies the recognition character based on the degree of similarity to a standard pattern stored in advance.

[作用] 以上の構成によれば、入力手段によりイメージデータな
入力し、ブロック抽出手段により入力イメージデータに
基づいて文字パターンデータな含むブロックデータを抽
出し、ブロック合成判定手段により抽出ブロックデータ
の隣り合う2つのブロック中に基づいてブロック合成を
するか否かを判定し、文字切出し手段によりブロック合
成判定手段での判定結果に基づいてブロックデータの切
出しを行い、認識手段により文字切出し手段で切出した
ブロックデータに基づいて文字認識を行うようにしてい
る。
[Operation] According to the above configuration, the input means inputs image data, the block extraction means extracts block data including character pattern data based on the input image data, and the block composition determination means extracts block data adjacent to the extracted block data. It is determined whether or not to perform block synthesis based on two blocks that match, and the block data is extracted by the character extraction means based on the determination result of the block composition determination means, and the block data is extracted by the character extraction means by the recognition means. Character recognition is performed based on block data.

し実施例] 以下、添付図面を参照して本発明に係る好適な実施例を
詳細に説明する。
Embodiments] Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

く第1の実施例の説明〉 まず、第1の実施例について説明する。Description of the first embodiment> First, a first example will be described.

第1図は本発明に係わる文字認識装置の第1の実施例を
示すブロック図である。図において、1は第1の実施例
の文字認識装置を示している。2は本装置全体を制御す
るCPUを示している。3はCPU2を動作させるため
の制御プログラム。
FIG. 1 is a block diagram showing a first embodiment of a character recognition device according to the present invention. In the figure, 1 indicates a character recognition device of the first embodiment. 2 indicates a CPU that controls the entire device. 3 is a control program for operating the CPU2.

エラー処理プログラム、そして後述する第3図(a)、
(b)に示すフローチャートに従ったプログラム等を格
納しているROMを示し、4はROM3に格納されてい
る各種プログラムのワークエリア及びエラー処理時の一
時退避エリアとして用いるRAMを示している。5は原
稿画像を光学的に読み取る読取部を示し、6は読取部5
で読取った画像データを格納するメモリを示している。
Error processing program and FIG. 3(a), which will be described later.
A ROM stores programs according to the flowchart shown in (b), and 4 indicates a RAM used as a work area for various programs stored in the ROM 3 and a temporary save area during error processing. Reference numeral 5 indicates a reading section that optically reads the original image, and 6 indicates the reading section 5.
The figure shows the memory that stores the image data read by the .

7はメモリ6に格納されている画像データより文字行の
切出しを行った後に一文字分のブロックな抽出するブロ
ック抽出部を示し、8はブロック抽出部7で抽出された
ブロックにおいて隣り合うブロックとのブロック中(こ
の場合、2つのブロック中をいう)が通常の一文字分の
文字中を示す平均文字中とほぼ等しい場合にブロック合
成を行うブロック合成部を示している。
Reference numeral 7 indicates a block extraction unit that extracts a block of one character after cutting out a character line from the image data stored in the memory 6, and 8 indicates the relationship between adjacent blocks in the block extracted by the block extraction unit 7. This figure shows a block synthesis unit that performs block synthesis when the inside of a block (in this case, the inside of two blocks) is approximately equal to the average inside of a character indicating the inside of one normal character.

そして、9はブロック合成部8で合成した合成ブロック
の正確度を判定するブロック正確度判定部を示し、10
はブロック正確度判定部9での判定結果により出力され
るブロック或はブロック正確度判定部9で判定処理を行
わずに出力される単独ブロックを格納する文字バッファ
を示している。このブロック正確度判定部9より文字バ
ッファ10へ出力されるブロック数は文字切出しを一回
行ったときの数である。11はブロック正確度判定部9
より出力される1回の文字切出しにおけるブロックの総
数をカウントするブロックカウンタを示している。12
は文字バッファ10に格納されたブロックの文字パター
ンに該当する後述の認識辞書部13に格納されている標
準パターンをマツチング用せて文字認識を行う認識部を
示している。13はマツチング用の標準パターンを格納
している認識辞書部を示している。
Reference numeral 9 indicates a block accuracy determination unit that determines the accuracy of the composite block synthesized by the block composition unit 8, and 10
indicates a character buffer that stores a block output based on the determination result of the block accuracy determination unit 9 or a single block output without determination processing performed by the block accuracy determination unit 9. The number of blocks output from the block accuracy determination section 9 to the character buffer 10 is the number when character extraction is performed once. 11 is a block accuracy determination unit 9
3 shows a block counter that counts the total number of blocks in one character extraction output from the block counter. 12
indicates a recognition unit that performs character recognition by matching a standard pattern stored in a recognition dictionary unit 13 (to be described later) that corresponds to a character pattern of a block stored in the character buffer 10. Reference numeral 13 indicates a recognition dictionary section storing standard patterns for matching.

また、14は単語バッファを有し、認識部12での認識
結果に基づいて単語候補を挙げ、後述の単語辞書部15
に格納されている単語辞書と単語照合する単語照合部を
示している。15は認識結果の単語候補と照合させるた
めの単語辞書を記憶している単語辞書部を示している。
Further, 14 has a word buffer, which lists word candidates based on the recognition result in the recognition unit 12, and uses the word dictionary unit 15 (described later) to select word candidates.
The figure shows a word matching unit that matches words with the word dictionary stored in . Reference numeral 15 denotes a word dictionary section that stores a word dictionary for matching with word candidates of recognition results.

次に、第1の実施例の文字認識方法について説明する。Next, the character recognition method of the first embodiment will be explained.

第2図(a)、(b)は第1の実施例のCPU2の動作
を説明するフローチャート、第3図は第1の実施例の単
語照合を説明する図である。
FIGS. 2(a) and 2(b) are flowcharts for explaining the operation of the CPU 2 in the first embodiment, and FIG. 3 is a diagram for explaining word matching in the first embodiment.

まず、原稿は読取部5によって光学的に読み取られ、2
個画像に変換されてメモリ6に記憶される(ステップS
t)。そしてブロック抽出部7では、メモリ6に記憶さ
れたイメージデータな主走査方向、即ち、行方向に黒画
素ヒストグラムをとり、ヒストグラムの谷の位置を文字
行の切出し位置として文字行の切出しを行う(ステップ
S2)。このようにして切出された文字行の領域につい
て、行を副走査方向、即ち、行方向に対して垂直な方向
に黒画素のヒストグラムをとり各文字塊の外接矩形(以
下ブロックと呼ぶ)を求める(ステップS3)。
First, the document is optically read by the reading section 5, and
It is converted into individual images and stored in the memory 6 (step S
t). Then, the block extracting unit 7 takes a black pixel histogram of the image data stored in the memory 6 in the main scanning direction, that is, in the row direction, and cuts out the character line by using the valley position of the histogram as the cutting position of the character line ( Step S2). For the character line area cut out in this way, a histogram of black pixels is taken in the sub-scanning direction of the line, that is, in a direction perpendicular to the line direction, and the circumscribed rectangle of each character block (hereinafter referred to as block) is calculated. (Step S3).

次に、以下の処理手順をブロック間について順次に行う
。まず一つ目の第1のブロックのブロック巾とその次の
第2のブロックのブロック巾との合計のブロック巾を算
出しくステップS4)、予め設定されている所定の平均
文字中とを比較する(ステップS5)  この結果、は
とんど等しい(例えば誤差20%以内の差であれば等し
いとする)と判定されたときには2つのブロックを合成
すべきと判断してステップS7へ進む。一方、誤差20
%を越えるときには2つのブロックを合成すべきではな
いと判断して第1のブロックを単独ブロックとしてブロ
ック正確度判定部9に出力する。この単独ブロック出力
の場合には、ブロック正確度判定部9で何も処理を行わ
ずに文字バッファ10に格納する。これと同時に、ブロ
ックカウンタ11の内容を一つカウントアツプしてステ
ップS12に進む(ステップS6)。尚、ブロックカウ
ンタ11の初期値は0゛°とする。
Next, the following processing procedure is performed sequentially between blocks. First, calculate the total block width of the first block width and the block width of the next second block (Step S4), and compare it with a predetermined average character size set in advance. (Step S5) As a result, when it is determined that the blocks are almost equal (for example, if the difference is within an error of 20%, they are considered equal), it is determined that the two blocks should be combined, and the process proceeds to step S7. On the other hand, the error is 20
%, it is determined that the two blocks should not be combined, and the first block is output to the block accuracy determination section 9 as a single block. In the case of this single block output, the block accuracy determining section 9 stores the output in the character buffer 10 without performing any processing. At the same time, the contents of the block counter 11 are counted up by one and the process proceeds to step S12 (step S6). Note that the initial value of the block counter 11 is 0°.

また、ステップS5よりステップS7に進んだ場合には
、隣り合う2個のブロックを合成し、1つの合成ブロッ
クを生成する(ステップS6)。
Further, when the process advances from step S5 to step S7, two adjacent blocks are combined to generate one combined block (step S6).

そして次の式に基づいてブロック合成の正確度を求める
Then, the accuracy of block synthesis is determined based on the following formula.

以上の式に基づいて算出したブロック正確度が10%よ
りも小さければ、即ち、合成ブロック巾と平均文字中と
の差が平均文字中の10%よりも小さければブロックの
合成が不正確と判断し、方、ブロック正確度が10%以
上ならばブロックの合成は不正確であるとして判断する
。そこで、ブロックの合成が正しく行われたと判断した
場合には、2つのブロックを合成する前のブロックの状
態でそれぞれ単独ブロックを文字バッファ10へ出力し
くステップ5IO)、さらに2つのブロックを合成した
合成ブロックも文字バッファに出力してステップS12
に進む(ステップ511)。以上のステップS10では
ブロックカウンタ11を2つカウントアツプし、続くス
テップSllではブロックカウンタ11を1つカウント
アツプする。従ってブロックカウンタ11の値は“3”
となる。またブロックの合成は正確であるとして判断し
た場合には、直接ステップSllに進んで合成ブロック
のみの出力を行ってステップSllに進む。この場合に
は、ブロックカウンタ11の値は”1”となる。
If the block accuracy calculated based on the above formula is less than 10%, that is, if the difference between the composite block width and the average character size is smaller than 10% of the average character size, it is determined that the block composition is inaccurate. However, if the block accuracy is 10% or more, it is determined that the block combination is inaccurate. Therefore, when it is determined that the blocks have been combined correctly, each individual block is output to the character buffer 10 in the state of the block before the two blocks were combined (step 5IO), and then the combination of the two blocks is combined. The block is also output to the character buffer in step S12.
(Step 511). In the above step S10, the block counter 11 is counted up by two, and in the following step Sll, the block counter 11 is counted up by one. Therefore, the value of block counter 11 is “3”
becomes. If it is determined that the combination of blocks is accurate, the process directly proceeds to step Sll, where only the combined block is output, and the process proceeds to step Sll. In this case, the value of the block counter 11 becomes "1".

ここで、従来例のところで説明した第7図の例では、“
は”と“で”は平均文字中との差が10%より小さいの
で単独ブロックの出力が行われず、“3.”は平均文字
中との差が10%以上となり単独ブロックの出力がなさ
れることになる。
Here, in the example of FIG. 7 explained in the conventional example, “
Since the difference between ``ha'' and ``de'' is less than 10% from the average character middle, individual blocks are not output, and ``3. ” has a difference of 10% or more from the average character, and a single block is output.

また“は”、“で”、“3.”以外の文字のブロックの
場合には合成が行われることはなく単独ブロックとして
文字バッファ10に出力されることになる。このように
、各文字はブロック合成の有無およびブロック合成の確
定度に応じて、(1)単独ブロックのみの文字バッファ
10への出力(ステップS6)、 (2)合成ブロックのみの文字バッファ10への出力(
ステップ511)、そして、 (3)単独ブロックと合成ブロックの文字バッファへの
出力(ステップS10.ステップ511)、 の3通りで文字の切出しが実行される。上記の(1)及
び(2)の場合には、文字バッファ10へは1個のブロ
ックが出力される。また上記の(3)の場合には、文字
バッファ10へは3個のブロック(単独ブロック2個と
合成ブロック1個)が出力されることになる。
Furthermore, in the case of blocks of characters other than "wa", "de", and "3.", the combination is not performed and the blocks are output to the character buffer 10 as individual blocks. In this way, each character is output to the character buffer 10 of only a single block (step S6), (2) to the character buffer 10 of only a composite block, depending on the presence or absence of block composition and the degree of certainty of block composition. The output of (
Character extraction is performed in three ways: (3) outputting the single block and composite block to the character buffer (step S10. step 511). In cases (1) and (2) above, one block is output to the character buffer 10. In the case of (3) above, three blocks (two individual blocks and one composite block) are output to the character buffer 10.

次に、ステップSllでは、文字バッファ10からブロ
ックカウンタ11の値に応じた数のブロックを1個ずつ
取り出し、認識部12で認識辞書13を用いることによ
り公知の技術で文字認識を行う(ステップ512)。そ
して認識結果の文字コードは単語照合部14へ送られ、
単語照合部15内の単語バッファに格納される。但し、
ブロックカウンタ11の値が“3”の場合には、認識結
果、即ち、文字コードの送出に先だって制御コードを単
語照合部14内の単語バッファに送出しくステップ51
4)、その後に3つの文字コードを送出する(ステップ
515)。ここで、前述の(1)、(2)、(3)の各
々の場合に応じて認識部12は認識結果を送出する。ま
ず(1)の場合には単独ブロックの文字コードが1つ送
出され、(2)の場合には合成ブロックの文字コードが
1つ送出され、(3)の場合には制御コード。
Next, in step Sll, blocks corresponding to the value of the block counter 11 are taken out one by one from the character buffer 10, and the recognition unit 12 performs character recognition using a known technique using the recognition dictionary 13 (step 512). ). The character code of the recognition result is then sent to the word matching section 14,
It is stored in the word buffer in the word matching section 15. however,
If the value of the block counter 11 is "3", step 51 sends the recognition result, that is, the control code to the word buffer in the word matching section 14 before sending the character code.
4), and then sends three character codes (step 515). Here, the recognition unit 12 sends out recognition results in accordance with each of the cases (1), (2), and (3) described above. First, in case (1), one character code of a single block is sent, in case (2), one character code of a composite block is sent, and in case (3), a control code is sent.

第1の単独ブロックの文字コード、第2の単独ブロック
の文字コード、そして合成ブロックの文字コードの4つ
が送出される。ここで、文字コードはJIS2バイトコ
ードが使用され、制御コードはJISコード系で未使用
の2バイトコードが使用されている。
Four character codes are sent: the first single block character code, the second single block character code, and the composite block character code. Here, a JIS 2-byte code is used as the character code, and an unused 2-byte code in the JIS code system is used as the control code.

このようにして、単語照合が可能となる単語バッファに
1つの単語が蓄積されるまで上述の処理を繰り返す。即
ち、ステップS15による認識結果の単語バッファへの
送出が1回終了すると、その時点で単語照合が可能か否
かをステップS16で判定する。ステップS16で不可
能と判定された場合には、まず次行の切出しを必要とす
るか否かを判定しくステップ517)、この判定で行切
出しを必要とした場合には1ペ一ジ分の処理が終了して
いない間はステップS2へ戻り上述の処理を繰り返す(
ステップ518)。またステップS17の判定で行切出
しを必要無しとした場合にはステップS4に戻り上述の
処理を繰り返す。
In this way, the above-described process is repeated until one word is accumulated in the word buffer that allows word matching. That is, when the recognition result is sent to the word buffer once in step S15, it is determined in step S16 whether word matching is possible at that point. If it is determined in step S16 that it is not possible, it is first determined whether or not it is necessary to cut out the next line (step 517), and if it is determined that it is necessary to cut out the next line, then While the process is not completed, the process returns to step S2 and repeats the above process (
step 518). If it is determined in step S17 that line cutting is not necessary, the process returns to step S4 and repeats the above-described process.

このようにして、単語バッファに文字コード(制御コー
ドを含む場合がある)による1つの単語が蓄積されると
、単語バッファ中の制御コードの数を調べ、制御コード
が1つも含まれていないときは、単語バッファの内容を
そのまま最終認識結果として出力する(ステップS19
.ステップ520)。従って外部には単語バッファの内
容を認識結果として出力する(ステップ527)。また
ステップS19で単語バッファに制御コードが含まれて
いると判定した場合は、次のように単語照合を行う。ま
ず制御コード以降に続く3個の文字コードがある場合に
は、第1.第2のブロックの文字コードがブロック合成
を行わない第1の文字認識の結果を示し、合成ブロック
の文字コードはブロック合成を行った第2の文字認識の
結果を示している。このような条件で単語バッファに制
御フードがn個含まれているとすると、単語、候補は2
0通りの文字列の組合せがあることになる。
In this way, when a word with a character code (which may include a control code) is accumulated in the word buffer, the number of control codes in the word buffer is checked, and if it does not contain any control codes, outputs the contents of the word buffer as is as the final recognition result (step S19
.. step 520). Therefore, the contents of the word buffer are output to the outside as a recognition result (step 527). If it is determined in step S19 that the word buffer contains a control code, word matching is performed as follows. First, if there are three character codes following the control code, the first... The character code of the second block indicates the result of the first character recognition without block composition, and the character code of the composite block indicates the result of the second character recognition with block composition. Under these conditions, if the word buffer contains n control foods, there are 2 word candidates.
There are 0 combinations of character strings.

ここで、“アルコール”という文字列を例に挙げ、第3
図を用いて説明する。この場合には、文字切出しの結果
“ル”の文字について前述の(3)が該当する。即ち、
“ル°°は制御コードと3つの文字コードで表される。
Here, taking the character string "alcohol" as an example, let's use the third
This will be explained using figures. In this case, the above-mentioned (3) applies to the character "ru" as a result of character extraction. That is,
“A rule is represented by a control code and three character codes.

従って文字列゛アルコール”には“ル”の文字が2つ含
まれていることにより、単語候補は4通りとなる。即ち
、(a)7  /  I、t  :l=/  1.z(
b)7/L/:1  = ル (c) 7匹ユニ/L/ (d)7  ル ユ = ル の4通りの単語候補が挙げられる。そこですべての単語
候補について単語辞書部15の内容とのマツチングを行
い、単語辞書部15内の一致する単語候補を最終認識結
果とする。従って上記の“アルコール”の場合、単語候
補の(a)、(b)。
Therefore, since the character string "alcohol" contains two "ru" characters, there are four word candidates. Namely, (a) 7/I, t :l=/1.z(
There are four word candidates: b) 7/L/:1 = ru (c) 7 uni/L/ (d) 7 ru yu = ru. Therefore, all word candidates are matched with the contents of the word dictionary section 15, and the matching word candidates in the word dictionary section 15 are taken as the final recognition result. Therefore, in the case of "alcohol" above, the word candidates are (a) and (b).

(C)は一致する単語が単語辞書部15内に存在しない
ためにはじかれる。最後の単語候補の(d)は一致する
単語が単語辞書部15内に存在するので、この(d)の
“7  )Ls  三:  ル”が正しい認識結果とな
る。従って処理としては、ステップS21で照合する単
語の数(2′″)だけ単語候補を挙げ、一つづつ一致不
一致を確認しながら単語照合を行う(ステップS22.
ステップ523)。ここで、一致する単語がないままに
次の単語候補が切れてしまった場合には、単語候補すべ
てを認識結果としくステップS24.ステップ525)
、この認識結果を外部に出力する(ステップ527)。
(C) is rejected because no matching word exists in the word dictionary section 15. Since the last word candidate (d) has a matching word in the word dictionary section 15, the correct recognition result is "7) Ls 3: ru" in (d). Therefore, as a process, word candidates are listed as many as the number of words to be matched (2''') in step S21, and word matching is performed while checking each match and mismatch (step S22.
Step 523). Here, if the next word candidate is cut off without a matching word, all word candidates are treated as recognition results and step S24. step 525)
, and outputs this recognition result to the outside (step 527).

またステップS23で一致する単語候補を見つけたとき
には、一致した単語候補を認識結果とする(ステップ5
26)。そして認識結果を外部に出力する(ステップ5
27)。
Further, when a matching word candidate is found in step S23, the matching word candidate is set as the recognition result (step S23).
26). Then, output the recognition results to the outside (step 5)
27).

このように、外部に認識結果を出力した後には、再びス
テップS17に戻り、上述の処理を繰り返す。
After outputting the recognition result to the outside in this way, the process returns to step S17 and the above-described process is repeated.

以上の説明により第1の実施例によれば、複数の文字で
照合させると共に、文字認識の候補に漏れを無くすこと
で正確な文字認識を実施することができる。
As described above, according to the first embodiment, accurate character recognition can be performed by collating a plurality of characters and eliminating omissions in character recognition candidates.

く第2の実施例の説明〉 次に、第2の実施例について説明する。Description of the second embodiment> Next, a second example will be described.

第4図は本発明に係わる文字認識装置の第2の実施例を
示すブロック図であり、第5図は第1の実施例のCPU
2の動作を説明するフローチャートである。
FIG. 4 is a block diagram showing a second embodiment of the character recognition device according to the present invention, and FIG. 5 is a block diagram showing the CPU of the first embodiment.
2 is a flowchart illustrating the operation of step 2.

第4図において、21は第2の実施例の文字認識装置を
示している。22は本装置全体を制御するCPUを示し
ている。23はCPU22を動作させるための制御プロ
グラム、エラー処理プログラム、そして後述する第5図
に示すフローチャートに従ったプログラム等を格納して
いるROMを示し、24はROM23に格納されている
各種プログラムのワークエリア及びエラー処理時の一時
退避エリアとして用いるRAMを示している。ここで、
参照番号25〜31までの各部の機能は前述の第1の実
施例と同様のため、説明を省略する。
In FIG. 4, numeral 21 indicates a character recognition device of the second embodiment. 22 indicates a CPU that controls the entire device. Reference numeral 23 indicates a ROM that stores a control program for operating the CPU 22, an error processing program, and a program according to a flowchart shown in FIG. It shows a RAM used as an area and a temporary save area during error processing. here,
The functions of the respective parts with reference numbers 25 to 31 are the same as those in the first embodiment described above, and therefore the description thereof will be omitted.

そして、32は文字バッファ30に格納されたブロック
中の文字パターンを後述の認識辞書部33に記憶されて
いる標準パターンと比較によって類似度を求め、類似度
が最大の標準パターンに基づいて認識文字の候補を挙げ
る類似度計算部を示している。33は類似度計算部32
で認識文字の候補を挙げるための標準パターンを記憶し
ている認識辞書部を示している。34は類似度計算部3
2で挙げた認識文字の候補より最後の認識結果を識別す
る識別部を示している。
32 determines the degree of similarity by comparing the character pattern in the block stored in the character buffer 30 with a standard pattern stored in the recognition dictionary section 33 (described later), and recognizes the character based on the standard pattern with the maximum degree of similarity. This figure shows a similarity calculation unit that lists candidates. 33 is a similarity calculation unit 32
2 shows a recognition dictionary section that stores standard patterns for listing candidates for recognition characters. 34 is the similarity calculation unit 3
2 shows an identification unit that identifies the final recognition result from the recognized character candidates listed in 2.

ここで、第2の実施例による文字認識方法について説明
する。
Here, a character recognition method according to a second embodiment will be explained.

第2の実施例においても第1の実施例のステップ81〜
ステツプSllまでの処理と同様の処理がステップ81
〜ステツプs11′まで行われる。従ってその間の処理
の説明を省略する。
In the second embodiment as well, steps 81 to 81 of the first embodiment
The same process as that up to step Sll is performed at step 81.
- Step s11' is performed. Therefore, explanation of the processing during that time will be omitted.

そこで、ステップ81〜ステツプs11゛により文字バ
ッファ3oにブロックが格納されると、次にブロックカ
ウンタ31の値を調べる(ステップ530)。もし値が
“1”の場合には、単独ブロックか或は合成ブロックの
ため、類似度計算部32で認識辞書部33内の標準パタ
ーンと類似度を算出する(ステップ531)。そして類
似度が最大の標準パターンを認識結果とする(ステップ
532)。このようにして求めた認識結果は識別部34
では何も処理を行わずに外部に出力される(ステップ5
42)。またステップS30でブロックカウンタ31の
値が“3”であることを確認すると、類似度計算部32
では文字バッファ30内のそれぞれのブロック(第1の
単独ブロック、第2の単独ブロック及び合成ブロック)
に対して認識辞書部33内の標準パターンとの類似度の
計算が行われる。そして各々の計算時には最大の類似度
を求め、第1の単独ブロックの最大の類似度、第2の単
独ブロックの最大の類似度1合成。
Therefore, after the block is stored in the character buffer 3o in steps 81 to s11', the value of the block counter 31 is checked (step 530). If the value is "1", the block is a single block or a composite block, so the similarity calculation unit 32 calculates the similarity with the standard pattern in the recognition dictionary unit 33 (step 531). Then, the standard pattern with the highest degree of similarity is set as the recognition result (step 532). The recognition result obtained in this way is obtained by the identification unit 34.
Then, it is output to the outside without any processing (step 5)
42). Further, when it is confirmed in step S30 that the value of the block counter 31 is "3", the similarity calculation unit 32
Now, each block in the character buffer 30 (first single block, second single block, and composite block)
The degree of similarity between the reference pattern and the standard pattern in the recognition dictionary section 33 is calculated. Then, at the time of each calculation, the maximum similarity is determined, and the maximum similarity of the first single block and the maximum similarity of the second single block are combined.

ブロックの最大類似度をそれぞれmI、m2゜m3とす
る(ステップS33〜ステツプ838)。
The maximum similarity of the blocks is set to mI and m2°m3, respectively (step S33 to step 838).

次に、最大類似度m r + m 2+ m 3より最
終的に認識文字として出力するための標準パターンを識
別部34で識別する。この識別方法として以下の式を用
いる。即ち、(ml+mz)÷2≦m。
Next, the identification unit 34 identifies a standard pattern to be finally output as a recognized character based on the maximum similarity m r + m 2 + m 3. The following formula is used as this identification method. That is, (ml+mz)÷2≦m.

ならば単独ブロックとの類似度の最も大きい標準パター
ンの文字コードを最終認識結果とする。この場合には類
似度m + + m 2にそれぞれ該当する標準パター
ンが認識結果として識別される(ステップS39.ステ
ップ540)  また(m+ +m2)÷2〉m3なら
ば合成ブロックとの類似度の最も大きい標準パターンの
文字コードを最終認識結果とする。この場合には類似度
m。
If so, the character code of the standard pattern with the greatest degree of similarity to the single block is set as the final recognition result. In this case, standard patterns corresponding to the degree of similarity m + + m2 are identified as recognition results (steps S39 and 540). Also, if (m+ +m2)÷2〉m3, then the standard pattern with the highest degree of similarity to the composite block is identified as the recognition result. The character code of the large standard pattern is used as the final recognition result. In this case, the similarity is m.

に該当する標準パターンが認識結果として識別される(
ステップ541)。
A standard pattern that corresponds to is identified as a recognition result (
step 541).

次に、ステップS32.ステップS40.そしてステッ
プS41のそれぞれの識別処理により識別された認識結
果を外部に出力する(ステップ542)。このようにし
て外部に識別された認識結果を出力した後には、次の文
字認識を行うために次行の切出しが必要なければ第1の
実施例と同様に対応するステップS4に戻り(ステップ
543)、また次行の切出しが必要であれば1ペ一ジ分
の処理が終了するまでは第1の実施例と同様に対応する
ステップS2に戻り処理を繰り返す(ステップ544)
Next, step S32. Step S40. Then, the recognition results identified by the respective identification processes in step S41 are output to the outside (step 542). After outputting the recognized recognition result to the outside in this way, if the next line does not need to be cut out in order to perform the next character recognition, the process returns to the corresponding step S4 as in the first embodiment (step 543 ), and if the next line needs to be cut out, the process returns to the corresponding step S2 and repeats the process as in the first embodiment until the process for one page is completed (step 544).
.

以上の説明により第2の実施例によれば、文字認識を類
似度判定で行っても文字認識のための候補に漏れがない
状態による正確な文字認識を行うことができろ。
As described above, according to the second embodiment, even if character recognition is performed based on similarity determination, accurate character recognition can be performed with no omission of candidates for character recognition.

[発明の効果] 以上の説明により本発明によれば、文字の切出しを正確
に行うことで文字認識のための候補に漏れがない状態に
よる正確な文字認識を実施できる。
[Effects of the Invention] As described above, according to the present invention, by accurately cutting out characters, accurate character recognition can be performed in a state where there are no omissions in candidates for character recognition.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明に係わる文字認識装置の第1の実施例を
示すブロック図、 第2図(a)、(b)は第1の実施例のcpu2の動作
を説明するフローチャート、 第3図は第1の実施例の単語照合を説明する図、 第4図は本発明に係わる文字認識装置の第2の実施例を
示すブロック図、 第5図は第1の実施例のCPU2の動作を説明するフロ
ーチャート、 算6図は従来の文字認識装置を示すブロック図、 第7図は従来の単語照合を説明する図である。 図中、1.21・・・文字認識装置、2,22・・・C
PU、3.23・・・ROM、4.24・・・RAM。 5.25.51・・・読取部、6,26.52・・・メ
モリ、7,27.53・・・ブロック抽出部、8.28
.54・・・ブロック合成部、9.29・・・ブロック
正確度判定部、10,30.55・・・文字バッファ、
11.31・・・ブロックカウンタ、12゜56・・・
認識部、13.33.57・・・認識辞書部、14.5
8・・・単語照合部、15.59・・・単語辞書部、3
2・・・類似度計算部、34・・・識別部である。
FIG. 1 is a block diagram showing a first embodiment of the character recognition device according to the present invention, FIGS. 2(a) and (b) are flowcharts explaining the operation of the CPU 2 of the first embodiment, and FIG. 3 4 is a block diagram showing the second embodiment of the character recognition device according to the present invention. FIG. 5 is a diagram illustrating the operation of the CPU 2 in the first embodiment. FIG. 6 is a block diagram showing a conventional character recognition device, and FIG. 7 is a diagram explaining conventional word matching. In the figure, 1.21...Character recognition device, 2,22...C
PU, 3.23...ROM, 4.24...RAM. 5.25.51...Reading unit, 6,26.52...Memory, 7,27.53...Block extraction unit, 8.28
.. 54...Block synthesis unit, 9.29...Block accuracy determination unit, 10,30.55...Character buffer,
11.31...Block counter, 12°56...
Recognition unit, 13.33.57... Recognition dictionary unit, 14.5
8...Word matching section, 15.59...Word dictionary section, 3
2... Similarity calculation unit, 34... Identification unit.

Claims (3)

【特許請求の範囲】[Claims] (1)イメージデータに基づいて文字認識を行う文字認
識装置において、 イメージデータを入力する入力手段と、前記入力イメー
ジデータに基づいて文字パターンデータを含むブロック
データを抽出するブロック抽出手段と、前記抽出ブロッ
クデータの隣り合う2つのブロック巾に基づいてブロッ
ク合成をするか否かを判定するブロック合成判定手段と
、該ブロック合成判定手段での判定結果に基づいてブロ
ックデータの切出しを行う文字切出し手段と、該文字切
出し手段で切出したブロックデータに基づいて文字認識
を行う認識手段とを備えることを特徴とする文字認識装
置。
(1) A character recognition device that performs character recognition based on image data, comprising: input means for inputting image data; block extraction means for extracting block data including character pattern data based on the input image data; and the extraction means for extracting block data including character pattern data based on the input image data. a block composition determining means for determining whether or not to perform block composition based on the widths of two adjacent blocks of block data; and a character cutting means for extracting block data based on the determination result of the block composition determining means. , and recognition means for performing character recognition based on the block data cut out by the character cutout means.
(2)前記認識手段は、文字認識の結果に基づいて単語
候補を形成する単語候補形成手段と、前記単語候補で単
語照合を行う単語照合手段とを含むことを特徴とする請
求項第1項記載の文字認識装置。
(2) The recognition means includes a word candidate forming means that forms word candidates based on the result of character recognition, and a word matching means that performs word matching with the word candidates. The character recognition device described.
(3)前記認識手段は、ブロックデータ中の文字パター
ンを認識文字の候補とし、予め記憶している標準パター
ンとの類似度で認識文字を識別する識別手段を含むこと
を特徴とする請求項第1項記載の文字認識装置。
(3) The recognition means includes an identification means that uses a character pattern in the block data as a candidate for a recognized character and identifies the recognized character based on the degree of similarity to a standard pattern stored in advance. Character recognition device according to item 1.
JP63242214A 1988-09-29 1988-09-29 Image recognition method and apparatus Expired - Lifetime JP2848560B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63242214A JP2848560B2 (en) 1988-09-29 1988-09-29 Image recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63242214A JP2848560B2 (en) 1988-09-29 1988-09-29 Image recognition method and apparatus

Publications (2)

Publication Number Publication Date
JPH0291785A true JPH0291785A (en) 1990-03-30
JP2848560B2 JP2848560B2 (en) 1999-01-20

Family

ID=17085943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63242214A Expired - Lifetime JP2848560B2 (en) 1988-09-29 1988-09-29 Image recognition method and apparatus

Country Status (1)

Country Link
JP (1) JP2848560B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021068A (en) * 2006-07-12 2008-01-31 Hitachi Computer Peripherals Co Ltd Business form recognition apparatus and business form recognition program
CN112749529A (en) * 2019-10-29 2021-05-04 西安诺瓦星云科技股份有限公司 Method and device for character self-adaption special-shaped edit box

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021068A (en) * 2006-07-12 2008-01-31 Hitachi Computer Peripherals Co Ltd Business form recognition apparatus and business form recognition program
JP4733577B2 (en) * 2006-07-12 2011-07-27 日立コンピュータ機器株式会社 Form recognition device and form recognition program
CN112749529A (en) * 2019-10-29 2021-05-04 西安诺瓦星云科技股份有限公司 Method and device for character self-adaption special-shaped edit box

Also Published As

Publication number Publication date
JP2848560B2 (en) 1999-01-20

Similar Documents

Publication Publication Date Title
JPS60217477A (en) Handwritten character recognizing device
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JPH0291785A (en) Character recognizing device
JP2998054B2 (en) Character recognition method and character recognition device
JPH06251187A (en) Method and device for correcting character recognition error
JPS61239378A (en) Discrimination processor
JP2875678B2 (en) Post-processing method of character recognition result
JP2984287B2 (en) Optical character reader
JPS6095690A (en) Character reader
JPH11120294A (en) Character recognition device and medium
JPS60138689A (en) Character recognizing method
JPS59117673A (en) Postprocessing system of character recognizing device
JP2918380B2 (en) Post-processing method of character recognition result
JPH02150980A (en) Character and word recognizing method
JP2622004B2 (en) Character recognition device
JPH0830717A (en) Character recognition method and device therefor
JPH0475184A (en) Input device
JPH01161592A (en) Character recognizing device
JPS63138479A (en) Character recognizing device
JPH0540854A (en) Post-processing method for character recognizing result
JPH10134150A (en) Postprocessing method for character recognition result
JPH06259595A (en) Device and method for processing character recognition
JPH07152877A (en) English alphabet recognition device
JPS6186881A (en) Recording system for on-line handwritten character
JPH09171539A (en) Character recognition device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081106

Year of fee payment: 10

EXPY Cancellation because of completion of term