JPH06243294A - Character recognition postprocessing device - Google Patents

Character recognition postprocessing device

Info

Publication number
JPH06243294A
JPH06243294A JP5047374A JP4737493A JPH06243294A JP H06243294 A JPH06243294 A JP H06243294A JP 5047374 A JP5047374 A JP 5047374A JP 4737493 A JP4737493 A JP 4737493A JP H06243294 A JPH06243294 A JP H06243294A
Authority
JP
Japan
Prior art keywords
character
unit
characters
spacing
cutout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5047374A
Other languages
Japanese (ja)
Inventor
Yoshitaka Hamaguchi
佳孝 濱口
Sadamasa Hirogaki
節正 広垣
Naohiro Amamoto
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP5047374A priority Critical patent/JPH06243294A/en
Publication of JPH06243294A publication Critical patent/JPH06243294A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE:To properly perform the post processing of character recognition. CONSTITUTION:A document image 2 is segmented into individual character images by a character segmenting part 3, and a character code is outputted from a character recognition part 4 by pattern recognition. Meanwhile, a standard character space between characters in the document image 2 is calculated in a standard character space calculating part 51 by segmenting information obtained by the character segmenting part 3. A character space calculating part 52 divides each character space by this standard character space to calculate a normalized character space. A character space collating part 54 compares this normalized character space with a prescribed value stored in character segmenting knowledge data 53; and if it is smaller than the prescribed value, adjacent characters are regarded as one character. A language knowledge collating part 6 substitutes a part, which is discriminated as segmenting error by a character segmenting error detection part 5, out of the character code inputted from the character recognition part 4 with a character code in character segmenting knowledge data 53 inputted through the character space collating part 54. This substituted character code is used to perform collation with a word dictionary 7.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文字認識結果を自動的
に修正する文字認識後処理装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition post-processing device for automatically correcting a character recognition result.

【0002】[0002]

【従来の技術】従来、光学的に読取った文書イメージか
ら文字を切出し、切出した文字を認識する文字認識装置
がある。このような文字認識装置では、認識された文字
を単語ごとに取出し、単語辞書中の単語と比較すること
により文字認識の誤りを検出し修正している。このよう
な処理を文字認識後処理という。図2は、従来の文字認
識後処理装置の一例のブロック図である。
2. Description of the Related Art Conventionally, there is a character recognition device which cuts out a character from an optically read document image and recognizes the cut out character. In such a character recognition device, the recognized character is taken out word by word and compared with a word in a word dictionary to detect and correct an error in character recognition. Such processing is called character recognition post-processing. FIG. 2 is a block diagram of an example of a conventional character recognition post-processing device.

【0003】図2に示す文字認識後処理装置21には、
光学的に読取られた文書イメージ22から文字切出し部
23によって切出され、文字認識部24によって認識さ
れた文字コードが入力される。文字切出し部23は、文
書イメージ22から、例えば、図3に示すような文字行
を切出した後、その文字行から各文字「’」、「a」、
「b」等を切出す。文字認識部24は、切出された各文
字「’」、「a」、「b」等についてパターン認識によ
り候補文字との一致度を求め、一致度の高い順に第1候
補から第n候補とし、文字コードを出力する。
The character recognition post-processing device 21 shown in FIG.
The character code cut out by the character cutout unit 23 from the optically read document image 22 and recognized by the character recognition unit 24 is input. The character cutout unit 23 cuts out, for example, a character line as shown in FIG. 3 from the document image 22, and then the characters “′”, “a”,
Cut out "b" etc. The character recognition unit 24 obtains the degree of coincidence of each of the cut out characters “′”, “a”, “b”, etc. with the candidate character by pattern recognition, and determines the degree of coincidence from the first candidate to the nth candidate. , Output the character code.

【0004】文字認識後処理装置21は、言語知識照合
部25と、単語辞書26とから成る。言語知識照合部2
5は、認識された文字コードの配列を単語ごとに区切
り、単語辞書26内の候補単語と比較し照合する。単語
ごとの区切りは、例えば、英文書の場合には単語間の空
白を検知する等の手法が知られている。候補単語との照
合方法の具体例としては、文字認識部24から第1候補
として出力された文字を並べた参照単語との一致文字数
が最も多い単語を単語辞書26から取出し、両単語の各
文字の一致度の合計値であるコスト値が最小の候補単語
を出力する方法がある(例えば、特公昭61−2003
8号公報参照)。
The character recognition post-processing device 21 comprises a language knowledge collating unit 25 and a word dictionary 26. Linguistic knowledge collation unit 2
Reference numeral 5 divides the recognized character code array into words and compares them with candidate words in the word dictionary 26 for comparison. As for the delimiter for each word, for example, in the case of an English document, a method of detecting a space between words is known. As a specific example of a method of matching with a candidate word, the word having the largest number of matching characters with the reference word in which the characters output as the first candidate from the character recognition unit 24 are arranged is extracted from the word dictionary 26, and each character of both words is extracted. There is a method of outputting a candidate word having the minimum cost value, which is the total value of the degree of coincidence of (for example, Japanese Patent Publication No. 61-2003
No. 8).

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上述し
た従来の技術には、次のような問題があった。即ち、文
字切出し部23で切出した文字を文字認識部24で認識
して文字コードとし、当該文字コードの配列を参照単語
として単語辞書内の候補文字と照合するようにしていた
ので、文字切出し部23の文字切出しに誤りがある場合
には、適切な後処理ができなかった。例えば、図4に示
すように、「”」が文字切出しの誤りにより、「’」、
「’」と切出された場合には、その誤りを検出すること
ができなかった。
However, the above-mentioned conventional technique has the following problems. That is, the characters cut out by the character cutting unit 23 are recognized by the character recognition unit 24 as a character code, and the arrangement of the character code is used as a reference word to be matched with the candidate character in the word dictionary. If there was an error in the character segmentation of 23, the appropriate post-processing could not be performed. For example, as shown in FIG. 4, due to an error in cutting out a character "",
If it was cut out as "'", the error could not be detected.

【0006】また、図7、図8に示すように、文字のか
すれ等により「m」が「r」、「n」と切出されたり、
「w」が「v」、「v」と切出される場合があり、この
場合、言語知識照合部25で正しい単語照合を行なうこ
とができない。例えば、「memory」という単語が
文書イメージ22内にあり、これが文字切出し部23で
「rnemory」と切出されると、言語知識照合部2
5でこれを参照単語として最も近い候補単語が単語辞書
26から取出される。従って、後処理で文字切り出しの
誤りを修正しようとすると、全ての文字について文字切
り出しの誤りを仮定して単語辞書との照合をする等の処
理を行う必要があり、後処理に要する時間が非常に長く
なったり、「memory」とは全く異なった単語に修
正されてしまうこともあった。本発明は、以上の点に着
目してなされたもので、文字切出し誤りを検出し、適切
な単語照合が行なえるようにした文字認識後処理装置を
提供することを目的とするものである。
Further, as shown in FIGS. 7 and 8, “m” is cut out as “r” or “n” due to faint characters, or the like.
In some cases, "w" may be cut out as "v" or "v", and in this case, the language knowledge collation unit 25 cannot perform correct word collation. For example, when the word “memory” is present in the document image 22 and is cut out by the character cutout unit 23 as “rnememory”, the language knowledge collation unit 2
At 5 the closest candidate word is retrieved from the word dictionary 26 with this as the reference word. Therefore, when trying to correct an error in character extraction in post-processing, it is necessary to perform processing such as matching with the word dictionary assuming all characters are in error in character extraction, and the time required for post-processing is extremely long. Sometimes it became very long, and it was sometimes corrected to a word completely different from "memory." The present invention has been made in view of the above points, and an object of the present invention is to provide a character recognition post-processing device capable of detecting a character cutting error and performing appropriate word matching.

【0007】[0007]

【課題を解決するための手段】本発明の文字認識後処理
装置は、文書イメージから切出された各文字、及び当該
各文字の座標とに基づいて文字切出しの誤りを検出して
候補文字を出力する文字切出し誤り検出部と、当該文字
切出し誤り検出部により出力された候補文字を文字認識
結果に含めて言語知識との照合を行なう言語知識照合部
とから成ることを特徴とするものである。
A character recognition post-processing apparatus of the present invention detects a character cutout error based on each character cut out from a document image and the coordinates of each character and selects a candidate character. It is characterized by comprising a character cutout error detection unit for outputting and a language knowledge collation unit for collating with the language knowledge by including the candidate characters output by the character cutout error detection unit in the character recognition result. .

【0008】[0008]

【作用】本発明の文字認識後処理装置においては、光学
的に読取られた文書イメージが、文字切出し部で各文字
イメージに切出される。また、文字認識部でパターン認
識により文字コードが出力される。一方、文字切出し部
で得られた切出し情報により、文字切出し誤り検出部の
標準文字間隔算出部で文書イメージ内の各文字間の標準
文字間隔が算出される。また、文字間隔算出部では、各
文字間隔をこの標準文字間隔で割り、正規化文字間隔を
算出する。そして、文字間隔照合部では、この正規化文
字間隔を文字切出し知識データに格納された所定値と比
較し、所定値より小さい場合、隣接文字を1文字とす
る。その後、言語知識照合部では、文字認識部から入力
された文字コードのうち、文字切出し誤り検出部で切出
し誤りとされた部分を文字間隔照合部から入力する。こ
の場合、切出し誤りとされた部分を文字切出し知識デー
タ内の文字コードと置換えるようにしてもよい。その
後、単語辞書との照合を行なう。
In the character recognition post-processing apparatus of the present invention, the optically read document image is cut out into each character image by the character cutting section. In addition, the character recognition section outputs a character code by pattern recognition. On the other hand, the standard character spacing calculation section of the character segmentation error detection section calculates the standard character spacing between the characters in the document image based on the segmentation information obtained by the character segmentation section. In addition, the character spacing calculation unit divides each character spacing by this standard character spacing to calculate a normalized character spacing. Then, the character interval collating unit compares the normalized character interval with a predetermined value stored in the character cut-out knowledge data, and if the value is smaller than the predetermined value, the adjacent character is regarded as one character. After that, in the linguistic knowledge collating unit, of the character codes input from the character recognizing unit, the portion determined to be the cutting error by the character cutting error detecting unit is input from the character interval checking unit. In this case, the portion which is determined to be the cutout error may be replaced with the character code in the character cutout knowledge data. After that, the word dictionary is collated.

【0009】[0009]

【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。図1は、本発明の文字認識後処理装置の一
実施例のブロック図である。図1に示す文字認識後処理
装置1には、文書イメージ2から文字切出し部3で切出
された文字が、文字認識部4で文字コードに変換されて
入力されるとともに、文字切出し部3からの文字切出し
情報が入力される。文字切出し部3では、図3に示すよ
うな文字行が各文字「‘」、「a」、「b」等に切出さ
れる。文字の切出しは、例えば、文字行の各X座標にお
いて、Y方向のすべての画素が白である位置を検出する
等の手法を用いることができる。例えば、図3におい
て、X1〜X10の各X座標において、座標Y1とY2
の間の画素はすべて白であるので、これらの座標X1〜
X10で文字行を文字「‘」、「a」、「b」等に切出
す。
Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 1 is a block diagram of an embodiment of the character recognition post-processing device of the present invention. In the character recognition post-processing device 1 shown in FIG. 1, the characters cut out from the document image 2 by the character cutout unit 3 are converted into character codes by the character recognition unit 4 and input. The character cutout information of is input. In the character cutout unit 3, a character line as shown in FIG. 3 is cut out into each character “′”, “a”, “b” and the like. To cut out a character, for example, a method of detecting a position where all pixels in the Y direction are white in each X coordinate of a character line can be used. For example, in FIG. 3, at each X coordinate of X1 to X10, coordinates Y1 and Y2
Since the pixels between are all white, these coordinates X1 ...
The character line is cut out into characters "'", "a", "b", etc. at X10.

【0010】図3のの部分の切出し結果は、図4にお
いて破線で示すようになる。即ち、座標X5とX6の間
では「’」が切出される。また、「”」は、1文字であ
るが、座標X7においてY方向のすべての画素が白であ
るので、座標X6とX7の間で「’」が切出される。そ
して、座標X7とX8の間でも「’」が切出される。従
って、文字認識部4における図3のの部分の認識結果
は、「’」、「’」、「’」となる。文字認識後処理装
置1は、文字切出し誤り検出部5と、言語知識照合部6
等から成る。文字切出し誤り検出部5は、文字切出し部
3からの文字切出し情報、例えば切出された文字が文書
の先頭から何番目の文字かを示す番号及び切出し位置の
座標と、文字認識部4からの文字コードとを入力し、こ
れらに基づいて文字切出しの誤りを検出して候補文字を
出力する。一方、言語知識照合部6は、文字切出し誤り
検出部5により出力された候補文字を文字認識部4の文
字認識結果に含めて言語知識、例えば単語辞書7内の候
補単語との照合を行なう。
The cutout result of the portion of FIG. 3 is shown by the broken line in FIG. That is, "'" is cut out between the coordinates X5 and X6. Further, although "" is one character, since all the pixels in the Y direction are white at the coordinate X7, "'" is cut out between the coordinates X6 and X7. Then, "'" is cut out even between the coordinates X7 and X8. Therefore, the recognition result of the portion of FIG. 3 in the character recognition unit 4 becomes "'", "'", "'". The character recognition post-processing device 1 includes a character cutout error detection unit 5 and a language knowledge collation unit 6
Etc. The character cutout error detection unit 5 detects the character cutout information from the character cutout unit 3, for example, the number indicating the number of the cutout character from the beginning of the document, the coordinates of the cutout position, and the character recognition unit 4. The character code and are input, and based on these, the character cutting error is detected and the candidate character is output. On the other hand, the language knowledge collation unit 6 includes the candidate characters output by the character cutout error detection unit 5 in the character recognition result of the character recognition unit 4 and verifies the language knowledge, for example, a candidate word in the word dictionary 7.

【0011】文字切出し誤り検出部5は、標準文字間隔
算出部51と、文字間隔算出部52と、文字切出し知識
データ53と、文字間隔照合部54とから成る。標準文
字間隔算出部51では、文字切出し部3からの文字切出
し情報、例えば切出された文字のX座標及びY座標をも
とに、各文字の間の画素数を求め、これを文字間隔とす
る。例えば、図4に示すように、座標X6で切出し
た「’」と、座標X7で切出した「’」の文字間隔は、
75画素である。また、座標X7で切出した「’」と、
座標X8で切出した「’」の文字間隔は、6画素であ
る。このような文字間隔を各文字の切出しの際に標準文
字間隔算出部51で求める。そして、すべての文字の切
出しが終了し、すべての文字間隔が求められたとき、求
められたすべての文字間隔を合計し、その合計値を文字
間隔数(=文字数−1)で割り、平均文字間隔を求め
る。標準文字間隔算出部51は、例えば、この平均文字
間隔を文書イメージ2における標準文字間隔とする。そ
の他、例えば、文書の最初の数行の文字間隔の平均を標
準文字間隔とするようにしてもよい。
The character cutout error detection section 5 comprises a standard character spacing calculation section 51, a character spacing calculation section 52, character cutout knowledge data 53, and a character spacing verification section 54. The standard character interval calculation unit 51 obtains the number of pixels between each character based on the character cutout information from the character cutout unit 3, for example, the X coordinate and the Y coordinate of the cut out character, and determines this as the character interval. To do. For example, as shown in FIG. 4, the character spacing between the “′” cut out at the coordinate X6 and the “′” cut out at the coordinate X7 is
There are 75 pixels. Also, "'" cut out at coordinate X7,
The character interval of "'" cut out at the coordinate X8 is 6 pixels. Such character spacing is calculated by the standard character spacing calculation unit 51 when each character is cut out. When all the characters have been cut out and all the character intervals have been calculated, all the calculated character intervals are summed, and the total value is divided by the number of character intervals (= number of characters-1) to obtain the average character. Find the interval. The standard character spacing calculator 51 uses this average character spacing as the standard character spacing in the document image 2, for example. In addition, for example, the average of the character spacing in the first several lines of the document may be set as the standard character spacing.

【0012】文字間隔照合部54では、文字認識部4の
文字認識結果である文字コードと、文字切出し部3の文
字切出し情報から算出した文字間隔とから文字認識の誤
りを検出する。まず、上述のようにして求めた平均文字
間隔を標準文字間隔としてこれを各文字間隔と比較す
る。このため、文字間隔算出部52で、便宜上、各文字
間隔を標準文字間隔で割って正規化文字間隔を求める。
例えば、標準文字間隔が15画素であるとすると、図5
に示すように、文字間隔が75画素である場合の正規化
文字間隔は5となり、文字間隔が6画素である場合の正
規化文字間隔は0.4となる。そして、この正規化文字
間隔を図6に示す所定値(例えば、0.5)と比較する
ことにより2文字として切出された文字が1文字である
か否かを判別する。これにより、例えば、図3のにお
いて「’」と「’」の2文字として切出されたもの
が「”」の1文字の誤りと判定される。このように、文
字間隔そのものにより1文字か否かを判定せずに標準文
字間隔との比である正規化文字間隔により切出し誤りか
否かを判定するようにしたのは、文章によって文字の間
隔が狭い場合もあれば広い場合もあるからである。
The character interval collating unit 54 detects an error in character recognition from the character code which is the character recognition result of the character recognizing unit 4 and the character interval calculated from the character cutting information of the character cutting unit 3. First, the average character spacing determined as described above is used as a standard character spacing, and this is compared with each character spacing. For this reason, the character spacing calculation unit 52 divides each character spacing by the standard character spacing to obtain a normalized character spacing for convenience.
For example, assuming that the standard character spacing is 15 pixels,
As shown in, the normalized character interval is 5 when the character interval is 75 pixels, and the normalized character interval is 0.4 when the character interval is 6 pixels. Then, by comparing this normalized character spacing with a predetermined value (for example, 0.5) shown in FIG. 6, it is determined whether or not the character cut out as two characters is one character. As a result, for example, what is cut out as two characters of "'" and "'" in FIG. 3 is determined as an error of one character of "". In this way, it is determined whether there is a cutout error based on the normalized character spacing, which is the ratio to the standard character spacing, instead of determining whether there is one character based on the character spacing itself. It may be narrow or wide.

【0013】また、より正確な誤り検出を行なうため、
図6に示すように、正規化文字間隔の判定に用いる所定
値は、隣接する文字に応じて変化させるようにしてい
る。このため、以下のような文字切出し誤り知識データ
が構成されている。図6に示すように、隣接文字
が「’」、「’」である場合の正規化文字間隔の判定値
は、0.5としている。即ち、隣接文字
が「’」、「’」である場合に、正規化文字間隔が0.
5より小さいとき、これらは2文字ではなく、1文
字「”」を候補文字とする。また、図6に示す文字切出
し知識辞書には、その他、以下のようなデータが格納さ
れている。例えば、図3のの部分の「m」、の部分
の「w」、の部分の「x」は、それぞれ1文字である
が、2文字として認識される場合がある。このような誤
認識は、文書上のインク等のかすれ、又はラインセンサ
の1画素に障害がある等の読取部の異常によりY方向の
白い線が文字の上に生じることにより引き起こされる。
Further, in order to perform more accurate error detection,
As shown in FIG. 6, the predetermined value used to determine the normalized character spacing is changed according to the adjacent character. Therefore, the following character cutting error knowledge data is configured. As shown in FIG. 6, the determination value of the normalized character spacing when the adjacent characters are “′” and “′” is 0.5. That is, when the adjacent characters are "'" and "'", the normalized character spacing is 0.
When it is less than 5, these are not two characters but one character """as a candidate character. In addition, the following data is stored in the character cut-out knowledge dictionary shown in FIG. For example, the “m” in the part of FIG. 3, the “w” in the part, and the “x” in the part are each one character, but may be recognized as two characters. Such erroneous recognition is caused by generation of a white line in the Y direction on a character due to a blur of ink or the like on a document or an abnormality in the reading unit such as a defect in one pixel of the line sensor.

【0014】例えば、図7に示すように、「m」の中央
部分で白い線が入ると、文字切出し部3では「r」と
「n」とに分けて2文字として切出される。また、図8
に示すように、「w」の中央部分で白い線が入ると、
「v」と「v」とに分けて2文字として切出される。そ
して、図9に示すように「x」の中央部分で白い線が入
ると、「>」と「<」とに分けて2文字として切出され
る。従って、文字切出し誤り知識データに、隣接する文
字が「r」と「n」で正規化文字間隔の判定値が0.3
より小さい場合の候補文字として「m」を挙げるように
している。また、隣接する文字が「v」と「v」で正規
化文字間隔の判定値が0.25より小さい場合の候補文
字として「w」を挙げるようにしている。そして、隣接
する文字が「>」と「<」で正規化文字間隔の判定値が
0.3より小さい場合の候補文字として「x」を挙げる
ようにしている。
For example, as shown in FIG. 7, when a white line is entered in the central part of "m", the character cutting section 3 separates "r" and "n" into two characters. Also, FIG.
As shown in, when there is a white line in the center of "w",
It is cut out as two characters divided into "v" and "v". Then, as shown in FIG. 9, when a white line is entered at the center of "x", it is divided into ">" and "<" and cut out as two characters. Therefore, in the character cut-out error knowledge data, if the adjacent characters are "r" and "n", the judgment value of the normalized character interval is 0.3.
"M" is mentioned as a candidate character when it is smaller. In addition, when adjacent characters are “v” and “v” and the determination value of the normalized character spacing is smaller than 0.25, “w” is cited as a candidate character. Then, when adjacent characters are ">" and "<" and the determination value of the normalized character spacing is smaller than 0.3, "x" is cited as a candidate character.

【0015】文字切出し誤り検出部5により文字切出し
部3による文字切り出しの誤りが検出されたときは、図
6の文字切出し誤り知識データに従って2文字として切
り出されたものが1文字の候補文字に修正され、言語知
識照合部6にわたされる。言語知識照合部6は、例え
ば、文字認識部4から受け取った文字コードを単語辞書
7内の単語と照合して、一致度の充分高い単語が得られ
なかった場合、文字切出し誤り検出部5より得られる修
正された候補文字を用いて単語辞書7内の単語と照合し
て後処理を行い、結果を出力部8より出力する。
When the character cutout error detection unit 5 detects an error in the character cutout by the character cutout unit 3, the two characters cut out according to the character cutout error knowledge data shown in FIG. 6 are corrected into one character candidate character. And passed to the language knowledge collation unit 6. The language knowledge collating unit 6 collates the character code received from the character recognizing unit 4 with a word in the word dictionary 7, and if a word with a sufficiently high degree of coincidence cannot be obtained, the character cutting error detecting unit 5 The obtained corrected candidate characters are used for matching with the words in the word dictionary 7 for post-processing, and the result is output from the output unit 8.

【0016】次に、上述した文字認識後処理装置の動作
を説明する。図1に示す文書イメージ2に図3に示す文
字行があるとする。この場合、文字切出し部3は、座標
X1で文字「‘」を切出すと、このときの座標を文字切
出し誤り検出部5に入力する。これと同時に、文字切出
し部3は、文字認識部4に切出された「‘」の文字イメ
ージを入力する。文字認識部4は、「‘」の文字イメー
ジからパターンマッチングにより最も近似した照合パタ
ーンを捜し出し、これに対応する文字コードを出力す
る。この場合、通常は「‘」の文字コードが出力され
る。
Next, the operation of the above character recognition post-processing device will be described. It is assumed that the document image 2 shown in FIG. 1 has the character lines shown in FIG. In this case, when the character cutout unit 3 cuts out the character "'" at the coordinate X1, the character cutout unit 3 inputs the coordinates at this time to the character cutout error detection unit 5. At the same time, the character cutout unit 3 inputs the cutout character image of “′” to the character recognition unit 4. The character recognition unit 4 finds the closest matching pattern from the character image of "'" by pattern matching and outputs the character code corresponding to this. In this case, the character code "'" is usually output.

【0017】一方、文字切出し誤り検出部5の標準文字
間隔算出部51は、文字「‘」と、文字切出し部3で次
に切出される文字「a」との間の間隔を検出して記憶す
る。また、文字数をカウントする。このときは、カウン
ト値は“1”である。そして、次の文字「b」が切出さ
れるとき、文字「a」と、文字「b」との間隔を検出し
て記憶し、カウント値を“2”にカウントアップする。
すべての文字間隔を検出して記憶した後、記憶されたす
べての文字間隔を合計し、合計値を“文字数−1”で割
って標準文字間隔を算出する。
On the other hand, the standard character spacing calculator 51 of the character clipping error detector 5 detects and stores the spacing between the character "'" and the character "a" to be clipped next by the character clipping unit 3. To do. Also, the number of characters is counted. At this time, the count value is "1". Then, when the next character "b" is cut out, the interval between the character "a" and the character "b" is detected and stored, and the count value is counted up to "2".
After detecting and storing all the character intervals, all the stored character intervals are summed, and the total value is divided by "the number of characters-1" to calculate the standard character interval.

【0018】図3のの部分に示す「m」は、図7に示
すように、座標X8′で切られたとする。すると、文字
認識部4により1文字「m」が2文字「r」、「n」で
あると認識される。一方、文字切出し誤り検出部5で
は、標準文字間隔算出部51において算出された標準文
字間隔「15」と、文字「r」及び「n」の距離「4画
素」とから、正規化文字間隔を算出する。即ち、文字間
隔算出部52で「4÷15=0.26」の計算を行なっ
て正規化文字間隔「0.26」を算出する。この結果を
図10に示す。そして、文字間隔照合部54では、文字
切出し知識データ53との参照を行なう。即ち、文字間
隔照合部54で、文字間隔算出部52で算出した正規化
文字間隔「0.26」を、図6に示す文字切出し知識デ
ータ53における隣接文字が「r」、「n」の場合の正
規化文字間隔「0.3」と比較する。そして、前者が後
者より小さいので、文字切出し部3による文字切出しを
誤りとする。この結果を図10に示す。そして、候補文
字として「m」が言語知識照合部6に入力され、言語知
識照合部6は文字認識部4から送られた「r」、「n」
を、文字切出し誤り検出部5から送られた「m」に置換
える。
It is assumed that "m" shown in the part of FIG. 3 is cut at the coordinate X8 'as shown in FIG. Then, the character recognition unit 4 recognizes that one character “m” is two characters “r” and “n”. On the other hand, in the character cutout error detection unit 5, the normalized character spacing is calculated from the standard character spacing “15” calculated by the standard character spacing calculation unit 51 and the distance “4 pixels” between the characters “r” and “n”. calculate. That is, the character spacing calculation unit 52 calculates “4 ÷ 15 = 0.26” to calculate the normalized character spacing “0.26”. The result is shown in FIG. Then, the character spacing collating unit 54 refers to the character cut-out knowledge data 53. That is, when the character spacing verification unit 54 determines the normalized character spacing “0.26” calculated by the character spacing calculation unit 52 as the adjacent characters in the character cut-out knowledge data 53 shown in FIG. 6 being “r” and “n”. And the normalized character spacing "0.3". Since the former is smaller than the latter, the character cutout by the character cutout unit 3 is an error. The result is shown in FIG. Then, “m” is input to the language knowledge collation unit 6 as a candidate character, and the language knowledge collation unit 6 sends “r” and “n” sent from the character recognition unit 4.
Is replaced with “m” sent from the character cutout error detection unit 5.

【0019】尚、この場合の置換文字は、文字切出し誤
り検出部5から送らなくてもよい。即ち、言語知識照合
部6は、何番目と何番目の文字が切出し誤りである旨の
情報のみを受取り、この情報に対応した処理を言語知識
照合部6で行なうようにしてもよい。例えば、言語知識
照合部6に「r」+「n」=「m」という知識を持たせ
ておいて、この知識により置換えてもよいし、また、切
出し誤りの文字に対し候補文字があがらなかったものと
して単語照合を行なうようにしてもよい。この結果、例
えば、「memory」という単語が文書イメージ22
内にあり、これが文字切出し部3で「rnemory」
と切り出され、言語知識照合部6で7文字の一致度の充
分高い単語が単語辞書7から取り出せない場合でも、文
字切出し誤り検出部5で切り出しの誤りが検出され「m
emory」と修正された文字コードを用い、言語知識
照合部6は単語辞書7から、6文字で最も近い候補単語
「memory」を取り出すことができる。
The replacement character in this case does not have to be sent from the character segmentation error detection unit 5. That is, the linguistic knowledge collation unit 6 may receive only the information indicating that the number and the number of the character are cut out and the linguistic knowledge collation unit 6 may perform the process corresponding to this information. For example, the linguistic knowledge collation unit 6 may have the knowledge of “r” + “n” = “m”, and the knowledge may be replaced by this knowledge, or a candidate character does not appear for a character with a clipping error. You may make it perform a word collation as a thing. As a result, for example, the word “memory” becomes the document image 22.
It is inside, and this is the "rnemory" in the character cutting part 3
Even if the language knowledge collation unit 6 cannot extract a word with a sufficiently high degree of matching of 7 characters from the word dictionary 7, the character segmentation error detection unit 5 detects the segmentation error and outputs “m”.
The language knowledge collation unit 6 can retrieve the closest candidate word “memory” of 6 characters from the word dictionary 7 by using the corrected character code “memory”.

【0020】また、図3のの部分に示す「w」は、図
8に示すように、座標X9′で切られたとする。する
と、文字認識部4により1文字「w」が2文字「v」、
「v」であると認識される。一方、文字切出し誤り検出
部5では、標準文字間隔算出部51において算出された
標準文字間隔「15」と、文字「v」及び「v」の距離
「3画素」とから、正規化文字間隔を算出する。即ち、
文字間隔算出部52で「3÷15=0.2」の計算を行
なって正規化文字間隔「0.2」を算出する。この結果
を図11に示す。そして、文字間隔照合部54では、文
字切出し知識データ53との参照を行なう。即ち、文字
間隔照合部54で、文字間隔算出部52で算出した正規
化文字間隔「0.2」を、図6に示す文字切出し知識デ
ータ53における隣接文字が「v」、「v」の場合の正
規化文字間隔「0.25」と比較する。そして、前者が
後者より小さいので、文字切出し部3による文字切出し
を誤りとする。この結果を図11に示す。そして、候補
文字として「w」が言語知識照合部6に入力され、言語
知識照合部6は文字認識部4から送られた「v」、
「v」を、文字切出し誤り検出部5から送られた「w」
に置換える。
Further, it is assumed that the "w" shown in the part of FIG. 3 is cut at the coordinate X9 'as shown in FIG. Then, the character recognition unit 4 converts one character “w” into two characters “v”,
Recognized as "v". On the other hand, the character segmentation error detection unit 5 determines the normalized character spacing from the standard character spacing “15” calculated by the standard character spacing calculation unit 51 and the distance “3 pixels” between the characters “v” and “v”. calculate. That is,
The character spacing calculator 52 calculates "3/15 = 0.2" to calculate the normalized character spacing "0.2". The result is shown in FIG. Then, the character spacing collating unit 54 refers to the character cut-out knowledge data 53. That is, when the character spacing verification unit 54 determines the normalized character spacing “0.2” calculated by the character spacing calculation unit 52 to be “v” and “v” as the adjacent characters in the character cutting knowledge data 53 shown in FIG. It is compared with the normalized character spacing "0.25". Since the former is smaller than the latter, the character cutout by the character cutout unit 3 is an error. The result is shown in FIG. Then, “w” is input to the language knowledge collation unit 6 as a candidate character, and the language knowledge collation unit 6 sends “v”, which is sent from the character recognition unit 4.
“V” is replaced with “w” sent from the character cutting error detection unit 5.
Replace with.

【0021】更に、図3のの部分に示す「x」は、図
9に示すように、座標X10′で切られたとする。する
と、文字認識部4により1文字「x」が2文字「>」、
「<」であると認識される。一方、文字切出し誤り検出
部5では、標準文字間隔算出部51において算出された
標準文字間隔「15」と、文字「>」及び「<」の距離
「4画素」とから、正規化文字間隔を算出する。即ち、
文字間隔算出部52で「3÷15=0.2」の計算を行
なって正規化文字間隔「0.2」を算出する。この結果
を図12に示す。そして、文字間隔照合部54では、文
字切出し知識データ53との参照を行なう。即ち、文字
間隔照合部54で、文字間隔算出部52で算出した正規
化文字間隔「0.26」を、図6に示す文字切出し知識
データ53における隣接文字が「>」、「<」の場合の
正規化文字間隔「0.3」と比較する。そして、前者が
後者より小さいので、文字切出し部3による文字切出し
を誤りとする。この結果を図12に示す。そして、候補
文字として「x」が言語知識照合部6に入力され、言語
知識照合部6は文字認識部4から送られた「>」、
「<」を、文字切出し誤り検出部5から送られた「x」
に置換える。
Further, it is assumed that the "x" shown in the part of FIG. 3 is cut at the coordinate X10 'as shown in FIG. Then, the character recognizing unit 4 converts one character “x” into two characters “>”,
Recognized as "<". On the other hand, in the character cutout error detection unit 5, the normalized character spacing is calculated from the standard character spacing “15” calculated by the standard character spacing calculation unit 51 and the distance “4 pixels” between the characters “>” and “<”. calculate. That is,
The character spacing calculator 52 calculates "3/15 = 0.2" to calculate the normalized character spacing "0.2". The result is shown in FIG. Then, the character spacing collating unit 54 refers to the character cut-out knowledge data 53. That is, when the character spacing verification unit 54 determines the normalized character spacing “0.26” calculated by the character spacing calculation unit 52 as the adjacent characters in the character cut-out knowledge data 53 shown in FIG. 6, “>” and “<”. And the normalized character spacing "0.3". Since the former is smaller than the latter, the character cutout by the character cutout unit 3 is an error. The result is shown in FIG. Then, “x” is input to the language knowledge collation unit 6 as a candidate character, and the language knowledge collation unit 6 sends “>”, which is sent from the character recognition unit 4.
The “<” is replaced with the “x” sent from the character cutout error detection unit 5.
Replace with.

【0022】以上のようにして、「’」と「’」、
「r」と「n」、「v」と「v」、「>」と「<」等の
文字間隔が、標準文字間隔に比較して接近しているとき
は、文字切出し部3の文字切出しが誤りであることが検
出され、それぞれ「”」、「m」、「w」、「x」等と
置換えられる。従って、言語知識照合部6で適切な候補
文字を使用して単語辞書7内の候補単語との照合を行な
うことができ、文字切出し誤りの修正機能を含めつつ、
文字認識の後処理を適切に行なうことができる。
As described above, "'" and "'",
When the character spacings such as "r" and "n", "v" and "v", and ">" and "<" are closer than the standard character spacing, the character segmentation of the character segmentation unit 3 is performed. Is detected and replaced with "", "m", "w", "x", etc., respectively. Therefore, the language knowledge collation unit 6 can collate with the candidate word in the word dictionary 7 by using an appropriate candidate character, and while including the function of correcting the character segmentation error,
Post-processing of character recognition can be appropriately performed.

【0023】尚、上述した実施例においては、隣接する
2文字の文字間隔を予め定められた所定値と比較するよ
うにしたが、本発明はこれに限定されるものではなく、
例えば、前後の文字間隔との相対的な比較を行なって切
出し誤りを検出するようにしてもよい。即ち、図4に示
すように、座標X7における文字間隔が6画素であると
き、これをその1つ前の座標X6における文字間隔「7
5画素」と比較し、相対的に座標X7における文字間隔
が狭いので、「”」の切出し誤りを検出するようにして
もよい。また、上述した実施例においては、1文字を2
文字とする切出し誤りを検出する場合について説明した
が、本発明はこれに限定されるものではなく、1文字を
3文字以上とする切出し誤りを検出する場合にも適用で
きる。更に、上述した実施例においては、欧文の認識を
行なう場合について説明したが、本発明はこれに限定さ
れるものではなく、和文の認識を行なう場合についても
適用できる。
In the above embodiment, the character spacing between two adjacent characters is compared with a predetermined value, but the present invention is not limited to this.
For example, a clipping error may be detected by making a relative comparison with the character spacing before and after. That is, as shown in FIG. 4, when the character interval at the coordinate X7 is 6 pixels, this is changed to the character interval "7" at the coordinate X6 immediately before.
Since the character spacing at the coordinate X7 is relatively narrower than that of "5 pixels", a clipping error of """may be detected. In addition, in the above-described embodiment, one character becomes two.
Although the case of detecting a clipping error of a character has been described, the present invention is not limited to this and can be applied to a case of detecting a clipping error of one character being three or more characters. Further, in the above-described embodiment, the case of recognizing a European sentence has been described, but the present invention is not limited to this, and can be applied to a case of recognizing a Japanese sentence.

【0024】[0024]

【発明の効果】以上説明したように、本発明の文字認識
後処理装置によれば、文字切出し部が出力する切出し位
置の座標等の切出し情報と、文字認識部が出力する文字
コードとから、文字間隔を算出し、接近している複数の
文字を1文字として単語辞書内の候補文字と照合するよ
うにしたので、文字切出し誤りの修正機能を含んだ適切
な文字認識後処理を行なうことができる。また、各文字
間隔を予め定められた所定値と比較することによって切
出し誤りを検出することにより、簡単で正確な誤り検出
を行なうことができる。更に、文書中の標準文字間隔を
算出してこれとの比である正規化文字間隔を算出し、こ
れに対応した所定値を予め用意しておいて算出した正規
化文字間隔と比較することにより、標準文字間隔が文書
により異なる場合にも、同一の文字切出し誤り知識デー
タを使用し、同様の誤り検出を行なえるようにすること
ができる。
As described above, according to the character recognition post-processing device of the present invention, from the cutout information such as the coordinates of the cutout position output by the character cutout unit and the character code output by the character recognition unit, Since the character spacing is calculated and a plurality of characters that are close to each other are regarded as one character to be collated with the candidate character in the word dictionary, it is possible to perform an appropriate character recognition post-processing including a correction function of a character cutting error. it can. Further, by detecting the cut-out error by comparing each character interval with a predetermined value, a simple and accurate error detection can be performed. Furthermore, by calculating the standard character spacing in the document and calculating the normalized character spacing, which is the ratio, and preparing a predetermined value corresponding to this and comparing it with the calculated normalized character spacing. Even when the standard character spacing differs depending on the document, the same character segmentation error knowledge data can be used to enable the same error detection.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の文字認識後処理装置の一実施例のブロ
ック図である。
FIG. 1 is a block diagram of an embodiment of a character recognition post-processing device of the present invention.

【図2】従来の文字認識後処理装置の一例のブロック図
である。
FIG. 2 is a block diagram of an example of a conventional character recognition post-processing device.

【図3】文字切出し手順の説明図である。FIG. 3 is an explanatory diagram of a character cutout procedure.

【図4】文字切出し処理例(その1)の説明図である。FIG. 4 is an explanatory diagram of an example (part 1) of character cutting processing.

【図5】文字切出し誤り検出例(その1)の説明図であ
る。
FIG. 5 is an explanatory diagram of a character cutout error detection example (No. 1).

【図6】文字切出し誤り知識データ例の説明図である。FIG. 6 is an explanatory diagram of an example of character cutting error knowledge data.

【図7】文字切出し処理例(その2)の説明図である。FIG. 7 is an explanatory diagram of a character cutout processing example (No. 2).

【図8】文字切出し処理例(その3)の説明図である。FIG. 8 is an explanatory diagram of a character cutting process example (3).

【図9】文字切出し処理例(その4)の説明図である。FIG. 9 is an explanatory diagram of a character cutout processing example (No. 4).

【図10】文字切出し誤り検出例(その2)の説明図で
ある。
FIG. 10 is an explanatory diagram of a character cutting error detection example (No. 2).

【図11】文字切出し誤り検出例(その3)の説明図で
ある。
FIG. 11 is an explanatory diagram of a character cutting error detection example (No. 3).

【図12】文字切出し誤り検出例(その4)の説明図で
ある。
FIG. 12 is an explanatory diagram of a character segmentation error detection example (No. 4).

【符号の説明】[Explanation of symbols]

1 文字認識後処理装置 5 文字切出し誤り検出部 6 言語知識照合部 7 単語辞書 51 標準文字間隔算出部 52 文字間隔算出部 53 文字切出し知識データ 54 文字間隔照合部 1 Character recognition post-processing device 5 Character cutout error detection unit 6 Language knowledge collation unit 7 Word dictionary 51 Standard character spacing calculation unit 52 Character spacing calculation unit 53 Character cutout knowledge data 54 Character spacing verification unit

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 文書イメージから切出された各文字の座
標に基づいて文字切出しの誤りを検出してその検出位置
を出力する文字切出し誤り検出部と、 当該文字切出し誤り検出部により出力された検出位置の
部分の文字を修正して言語知識との照合を行なう言語知
識照合部とから成ることを特徴とする文字認識後処理装
置。
1. A character cutout error detection unit that detects a character cutout error based on the coordinates of each character cut out from a document image and outputs the detection position, and a character cutout error detection unit that outputs the detected position. A character recognition post-processing device comprising a linguistic knowledge collating unit that corrects a character at a detection position and collates it with linguistic knowledge.
【請求項2】 文書イメージから切出された隣接する文
字の間隔が所定値より小さい場合、文字切出し誤り検出
部において当該隣接する複数文字を1文字として出力す
ることを特徴とする請求項1記載の文字認識後処理装
置。
2. The character cut-out error detection unit outputs the adjacent plural characters as one character when the interval between the adjacent characters cut out from the document image is smaller than a predetermined value. Character recognition post-processing device.
【請求項3】 文書イメージから切出された隣接する各
文字の間隔から標準文字間隔を算出し、当該標準文字間
隔により隣接する文字の間隔を正規化し、当該正規化さ
れた文字間隔が所定値より小さい場合、文字切出し誤り
検出部において当該隣接する複数文字を1文字として出
力することを特徴とする請求項1記載の文字認識後処理
装置。
3. A standard character interval is calculated from an interval between adjacent characters cut out from a document image, the interval between adjacent characters is normalized by the standard character interval, and the normalized character interval is a predetermined value. The character recognition post-processing device according to claim 1, wherein when the difference is smaller than the character extraction error detection unit, the adjacent plural characters are output as one character.
JP5047374A 1993-02-12 1993-02-12 Character recognition postprocessing device Pending JPH06243294A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5047374A JPH06243294A (en) 1993-02-12 1993-02-12 Character recognition postprocessing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5047374A JPH06243294A (en) 1993-02-12 1993-02-12 Character recognition postprocessing device

Publications (1)

Publication Number Publication Date
JPH06243294A true JPH06243294A (en) 1994-09-02

Family

ID=12773331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5047374A Pending JPH06243294A (en) 1993-02-12 1993-02-12 Character recognition postprocessing device

Country Status (1)

Country Link
JP (1) JPH06243294A (en)

Similar Documents

Publication Publication Date Title
JP3260979B2 (en) Character recognition method
US5889897A (en) Methodology for OCR error checking through text image regeneration
US5764799A (en) OCR method and apparatus using image equivalents
JPH1139428A (en) Direction correcting method for document video
JP2835178B2 (en) Document reading device
EP2138959B1 (en) Word recognizing method and word recognizing program
JP3469375B2 (en) Method for determining certainty of recognition result and character recognition device
JPH06243294A (en) Character recognition postprocessing device
JPH05274467A (en) Data input device
JP2001022883A (en) Character recognizing system and recording medium for realizing function for the same
JPH06348911A (en) English character recognition device
JP3353999B2 (en) Image data recognition device
JPH0728935A (en) Document image processor
JP3074691B2 (en) Character recognition device
JP3419418B2 (en) Character reading method and device
JPS60138689A (en) Character recognizing method
JP2895115B2 (en) Character extraction method
JP2902138B2 (en) How to correct misread characters
JPH01277989A (en) Character string pattern reader
JPH0496882A (en) Full size/half size discriminating method
JPH08315069A (en) Method for character recognition
JP2002207960A (en) Method and program for recognized character correction
JPH1069517A (en) Character recognition system
JPH10154208A (en) Character recognition device, and storage medium, which computer storing program for functioning computer as character recognition device can read
JP3919390B2 (en) Character recognition device