JPH0696285A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH0696285A
JPH0696285A JP4241599A JP24159992A JPH0696285A JP H0696285 A JPH0696285 A JP H0696285A JP 4241599 A JP4241599 A JP 4241599A JP 24159992 A JP24159992 A JP 24159992A JP H0696285 A JPH0696285 A JP H0696285A
Authority
JP
Japan
Prior art keywords
character
word
unit
image data
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4241599A
Other languages
Japanese (ja)
Inventor
Yukiya Sugiyama
幸也 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4241599A priority Critical patent/JPH0696285A/en
Publication of JPH0696285A publication Critical patent/JPH0696285A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To provide the character recognizing device being excellent in reliability, which can obtain a correct solution character, even in the case where two adjacent half size characters are segmented erroneously as one full size character, at the time of obtaining character image data by segmenting a character with respect to image data. CONSTITUTION:The character recognizing device is provided with a character segmenting part 2 for segmenting image data to the image data of every one character, a character recognizing part 3 for recognizing the image data and converting it to a code, a language processing part 4 for executing a language processing to a result of recognition of the character recognizing part 3, a suspected word extracting part 5 for extrancing a word being a one-character word, and also, consisting of characters which can be separated into the left and the right as a suspected word from in a word group, a suspected word resegmenting part 6 for segmenting the image data of the suspected word as two half size characters, a suspected word character recognizing part 7 for recognizing its image data and converting it to a code, a language reprocessing part 8 for executing a language processing to a result of recognition after the resegmentation, and a deciding part 9 for comparing the result of recognition by the language processing part and the result of recognition by the language reprocessing part and determining a final solution character-string.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明はコンピュータ等の入力機
器として用いられ、新聞,雑誌,小説等の、活字,ドッ
ト文字,手書き文字等のパターンを文字認識して、JI
Sコード等のコード情報に変換する文字認識装置に関す
るものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is used as an input device for a computer or the like, and character-recognizes patterns such as print characters, dot characters and handwritten characters in newspapers, magazines, novels, etc.
The present invention relates to a character recognition device that converts code information such as an S code.

【0002】[0002]

【従来の技術】近年、コンピュータ等の情報機器が急速
に発展したため、作業性の向上等の目的から文書等の電
子化が行われるようになり、活字等のパターンを文字認
識し文字コードに変換する文字認識装置が、コンピュー
タ等の入力機器として広く用いられるようになった。
2. Description of the Related Art In recent years, with the rapid development of information devices such as computers, digitization of documents and the like has come to be performed for the purpose of improving workability, and patterns such as printed characters are recognized and converted into character codes. The character recognition device has become widely used as an input device such as a computer.

【0003】以下に従来の文字認識装置について説明す
る。(表1)に示す認識対象文書を基にして従来の文字
認識装置の文字認識方法を説明する。
A conventional character recognition device will be described below. A character recognition method of the conventional character recognition device will be described based on the recognition target document shown in (Table 1).

【0004】[0004]

【表1】 [Table 1]

【0005】始めに、認識対象文書を画像読み取り装置
により読み取り、画像データを得る。
First, a document to be recognized is read by an image reading device to obtain image data.

【0006】次に、画像データより一文字ごとの文字画
像データを切り出す。次に、文字画像データを文字認識
して文字認識結果を得る。(表1)に示す原文に対する
文字認識結果を(表2)に示す。
Next, character image data for each character is cut out from the image data. Next, the character image data is character-recognized to obtain a character recognition result. The result of character recognition for the original sentence shown in (Table 1) is shown in (Table 2).

【0007】[0007]

【表2】 [Table 2]

【0008】ここで、原文の‘(’,‘3’の隣接する
二つの半角文字の部分を誤って一つの全角文字として切
り出している為、原文の“(3”を“行”,“往”,
“径”と誤認識している。
Here, since the adjacent two half-width characters '(', '3' in the original sentence are erroneously cut out as one full-width character, "(3" in the original sentence is changed to "line", "forward". ",
It is mistakenly recognized as "diameter".

【0009】次に、(表2)の文字認識結果を基にして
言語処理を行う。まず、各候補文字を組み合わせて文字
列を構成する。この文字列を単語辞書と照会して一致す
る文字列だけを候補単語とする。これにより抽出した候
補単語を(表3)に示す。
Next, language processing is performed based on the character recognition result of (Table 2). First, each candidate character is combined to form a character string. This character string is queried with the word dictionary and only the matching character string is set as the candidate word. The candidate words thus extracted are shown in (Table 3).

【0010】[0010]

【表3】 [Table 3]

【0011】次に、候補単語を組み合わせて文法規則に
そった文節を得る。この例では、複数文字で構成される
単語は最長一致単語を採用し、一文字で構成される候補
単語は、第一候補文字を採用している。
Next, the candidate words are combined to obtain a clause according to grammatical rules. In this example, the longest matching word is adopted as the word composed of a plurality of characters, and the first candidate character is adopted as the candidate word composed of one character.

【0012】採用した文節を(表4)に示す。The adopted clauses are shown in (Table 4).

【0013】[0013]

【表4】 [Table 4]

【0014】以上の処理によって、解文字列として
‘行)文字認識’を得る。このように、原文の隣接する
二つの半角文字の部分を誤って一つの全角文字として切
り出している為、原文の“(3”を“行”と誤認識して
いる。
By the above processing, "line) character recognition" is obtained as a solution character string. In this way, since the adjacent two half-width characters in the original sentence are erroneously cut out as one full-width character, "(3" in the original sentence is erroneously recognized as a "line".

【0015】[0015]

【発明が解決しようとする課題】しかしながら上記従来
の方法では、画像データを文字切り出しして文字画像デ
ータを得る際に、隣接する二つの半角文字を誤って一つ
の全角文字として切り出してしまった場合に、以降の処
理によって誤認識を救済することが出来ないため、認識
率が低下し、信頼性に欠けるという問題点があった。
However, in the above-mentioned conventional method, when the character data of the image data is cut out to obtain the character image data, two adjacent one-byte characters are accidentally cut out as one full-width character. In addition, since the erroneous recognition cannot be relieved by the subsequent processing, there is a problem that the recognition rate is lowered and the reliability is poor.

【0016】本発明は上記従来の問題点を解決するもの
で、画像データを文字切り出しして文字画像データを得
る際に、隣接する二つの半角文字を誤って一つの全角文
字として切り出してしまった場合であっても、正しい解
文字を得ることの出来る、信頼性に優れた文字認識装置
を提供することを目的とする。
The present invention solves the above-mentioned conventional problems. When character data is cut out from image data to obtain character image data, two adjacent one-byte characters are mistakenly cut out as one full-width character. An object of the present invention is to provide a highly reliable character recognition device that can obtain a correct solution character even in the case.

【0017】[0017]

【課題を解決するための手段】この目的を達成するため
に本発明の文字認識装置は、画像読み取り部によって読
み取られた画像データを一文字毎の文字画像データに切
り出す文字切り出し部と、前記文字切り出し部によって
切り出された文字画像データを文字認識して文字コード
に変換する文字認識部と、前記文字認識部によって認識
された文字認識結果に対して言語処理を行い文字単位で
区分されている文字認識結果を単語単位の区分に変更す
る言語処理部と、前記言語処理部で得られた単語群中よ
り一文字単語であり且つ左右に分離可能な文字からなる
単語を被疑単語として抽出する被疑単語抽出部と、前記
被疑単語抽出部によって抽出された被疑単語は認識対象
文書中の隣接する半角文字を一つの全角文字として誤認
識した可能性が高いと判断して被疑単語の画像データを
二つの半角文字として切りだす被疑単語再切り出し部
と、前記被疑単語再切り出し部によって切り出された文
字画像データを文字認識して文字コードに変換する被疑
単語文字認識部と、前記被疑単語文字認識部による再切
り出し後の文字認識結果に対して言語処理を行う再言語
処理部と、前記言語処理部による文字認識結果と前記再
言語処理部による文字認識結果とを比較して最終的な解
文字列を決定する判定部と、からなる構成を有してい
る。
In order to achieve this object, a character recognition apparatus of the present invention is a character slicing section for slicing image data read by an image reading section into character image data for each character, and the character slicing section. A character recognition unit that character-recognizes character image data cut out by a unit and converts the character image data into a character code, and character recognition that performs language processing on the character recognition result recognized by the character recognition unit and is divided into character units. A language processing unit that changes the result into word units, and a suspected word extraction unit that extracts, as a suspected word, a word that is a single-character word and is composed of separable left and right words from the word group obtained by the language processing unit. The suspect word extracted by the suspect word extracting unit is likely to have erroneously recognized adjacent half-width characters in the recognition target document as one full-width character. Suspicious word re-cutout unit that cuts out the image data of the suspected word as two half-width characters, and the suspected word character that character-recognizes the character image data cut out by the suspected word re-cutout unit and converts it into a character code. A recognition unit, a relanguage processing unit that performs language processing on the character recognition result after re-cutting by the suspected word character recognition unit, a character recognition result by the language processing unit, and a character recognition result by the relanguage processing unit. And a determination unit that determines the final solution character string by comparing.

【0018】[0018]

【作用】この構成によって、被疑単語を抽出し、被疑単
語再切り出し等を行うことにより隣接する二つの半角文
字を誤って一つの全角文字として切りだしてしまった場
合でも、正しい解文字列を得ることが出来る。
With this configuration, even if two adjacent one-byte characters are accidentally cut out as one full-width character by extracting the suspected word and re-cutting the suspected word, etc., a correct solution character string is obtained. You can

【0019】[0019]

【実施例】以下本発明の一実施例について、図面を参照
しながら説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.

【0020】図1は本発明の一実施例における文字認識
装置のブロック図である。1は認識対象文書を光電変換
して画像データを得る画像読み取り部、2は画像読み取
り部1によって読み取られた画像データを一文字毎の文
字画像データに切り出す文字切り出し部、3は文字切り
出し部2によって切り出された文字画像データを文字認
識して文字コードに変換する文字認識部、4は文字認識
部3によって認識された文字認識結果を基にして文法規
則にそった文節を作成することにより正解文字を選択す
る言語処理部、5は言語処理部4で得られた単語群中よ
り一文字単語であり且つ左右に分離可能な文字からなる
単語を被疑単語として抽出する被疑単語抽出部、6は被
疑単語抽出部5によって抽出された被疑単語の画像デー
タを二つの半角文字として切りだす被疑単語再切り出し
部、7は被疑単語再切り出し部6によって切り出された
文字画像データを文字認識して文字コードに変換する被
疑単語文字認識部、8は被疑単語文字認識部7による再
切り出し後の文字認識結果に対して言語処理を行う再言
語処理部、9は言語処理部4による文字認識結果と再言
語処理部8による文字認識結果とを比較して最終的な解
文字列を決定する判定部である。
FIG. 1 is a block diagram of a character recognition apparatus according to an embodiment of the present invention. 1 is an image reading unit that photoelectrically converts a recognition target document to obtain image data, 2 is a character cutting unit that cuts the image data read by the image reading unit 1 into character image data for each character, and 3 is a character cutting unit 2. The character recognition unit 4 for recognizing the cut out character image data and converting it into a character code is a correct character by creating a clause according to the grammatical rule based on the character recognition result recognized by the character recognition unit 3. The language processing unit 5 selects a suspected word extraction unit that extracts a word that is a single-character word from the word group obtained by the language processing unit 4 and that is composed of characters that can be separated left and right as a suspected word, and 6 is a suspected word. The suspected word recutting unit 7 cuts out the image data of the suspected word extracted by the extraction unit 5 as two half-width characters, and 7 is cut by the suspected word recutting unit 6. A suspicious word character recognizing unit that character-recognizes the output character image data and converts the character image data into a character code; 8 is a re-language processing unit that performs language processing on the character recognition result after re-cutting by the suspicious word character recognizing unit 7; A determination unit 9 compares the character recognition result by the language processing unit 4 with the character recognition result by the re-language processing unit 8 to determine a final solution character string.

【0021】以上のように構成された本実施例の文字認
識装置について、以下例として(表1)に示す認識対象
文書を基にして、その動作を説明する。
The operation of the character recognition apparatus of the present embodiment having the above-mentioned configuration will be described below based on the recognition target document shown in (Table 1) as an example.

【0022】図2は本発明の一実施例における文字認識
装置の画像読み取り部及び文字切り出し部及び文字認識
部のフローチャートであり、図3は言語処理部のフロー
チャートであり、図4は被疑単語抽出部のフローチャー
トであり、図5は被疑単語再切り出し部及び被疑単語再
認識部及び再言語処理部のフローチャートであり、図6
は判定部のフローチャートである。
FIG. 2 is a flow chart of an image reading unit, a character cutout unit and a character recognition unit of a character recognition apparatus according to an embodiment of the present invention, FIG. 3 is a flow chart of a language processing unit, and FIG. 4 is a suspected word extraction. 6 is a flowchart of the suspected word recutting unit, the suspected word rerecognition unit, and the relanguage processing unit, and FIG.
Is a flowchart of the determination unit.

【0023】図2において、始めに、画像読み取り部1
において、認識対象文書を光電変換し、画像データを得
る(S1)。
In FIG. 2, first, the image reading unit 1
At, the recognition target document is photoelectrically converted to obtain image data (S1).

【0024】次に、文字切り出し部2において、画像デ
ータより一文字毎の文字画像データを得る(S2)。
Next, in the character cutting section 2, character image data for each character is obtained from the image data (S2).

【0025】次に、文字認識部3において、文字画像デ
ータを基にして文字認識を行う(S3)。
Next, the character recognition section 3 performs character recognition based on the character image data (S3).

【0026】ここで、(表1)に示す認識対象文書に対
する具体的な文字認識結果を(表2)に示す。
Here, a concrete character recognition result for the recognition target document shown in (Table 1) is shown in (Table 2).

【0027】(表2)において、上段は認識結果を示
し、下段は類似度を示す。次に、言語処理を行う。
In Table 2, the upper part shows the recognition result and the lower part shows the similarity. Next, language processing is performed.

【0028】図3において、まず、字種遷移を利用して
仮文節を設定する(S4)。ここで、(表2)に示す文
字認識結果に対する具体的な仮文節設定結果を(表5)
に示す。
In FIG. 3, first, provisional clauses are set by using character type transition (S4). Here, the concrete provisional clause setting result for the character recognition result shown in (Table 2) is shown in (Table 5).
Shown in.

【0029】[0029]

【表5】 [Table 5]

【0030】ここで字種遷移とは、文字種の変化点であ
り、そこを文節の切れ目とするか否かを予め定められた
字種遷移表と照会することにより仮文節を設定する。字
種遷移表を(表6)に示す。
Here, the character type transition is a change point of a character type, and a provisional bunsetsu is set by referring to a predetermined character type transition table as to whether or not it is a break of a bunsetsu. The character type transition table is shown in (Table 6).

【0031】[0031]

【表6】 [Table 6]

【0032】(表6)において、「1」は文節の切れ目
となる仮文節設定点となることを表し、「0」は仮文節
設定点とならないことを表す。
In (Table 6), "1" indicates that the provisional phrase set point becomes a break of the phrase, and "0" indicates that the provisional phrase set point does not exist.

【0033】次に、仮文節番号をiとし、iに0を代入
する(S5)。次に、第i仮文節に着目する(S6)。
Next, the provisional clause number is set to i, and 0 is substituted for i (S5). Next, pay attention to the i-th temporary clause (S6).

【0034】次に、仮文節先頭からの相対文字番号をk
とし、kに0を代入する(S7)。次に、候補順位をj
とし、jに0を代入する(S8)。
Next, the relative character number from the beginning of the provisional phrase is k
Then, 0 is substituted for k (S7). Next, the candidate ranking is j
Then, 0 is substituted for j (S8).

【0035】次に、第i仮文節中のj行k列文字を先頭
とする文字列を作成する(S9)。次に、S9において
作成された文字列を単語辞書と照会し、一致するものだ
けを候補単語として抽出する(S10)。
Next, a character string starting from the character in the j-th row and the k-th column in the i-th temporary clause is created (S9). Next, the character string created in S9 is referred to the word dictionary, and only matching ones are extracted as candidate words (S10).

【0036】次に、jに1を加算する(S11)。次
に、jが3未満であるか調べる(S12)。
Next, 1 is added to j (S11). Next, it is checked whether j is less than 3 (S12).

【0037】yesである場合は、S9にjumpす
る。noである場合は、kに1を加算する(S13)。
If yes, jump to S9. If no, 1 is added to k (S13).

【0038】次に、kが第i仮文節の構成文字数未満で
あるか調べる(S14)。yesである場合は、S8に
jumpする。
Next, it is checked whether k is less than the number of constituent characters of the i-th temporary clause (S14). If yes, jump to S8.

【0039】noである場合は、S10で抽出された候
補単語を組み合わせて文法規則にそった候補文節を構成
する(S15)。
If the result is no, the candidate words extracted in S10 are combined to form a candidate phrase according to the grammatical rules (S15).

【0040】次に、各候補文節の平均類似度を求める
(S16)。次に、平均類似度が最高値の候補文節を解
として採用する(S17)。
Next, the average similarity of each candidate phrase is obtained (S16). Next, the candidate clause having the highest average similarity is adopted as a solution (S17).

【0041】次に、iに1を加算する(S18)。次
に、iが仮文節総数未満であるか調べる(S19)。
Next, 1 is added to i (S18). Next, it is checked whether i is less than the total number of provisional clauses (S19).

【0042】yesである場合は、S6以降の処理を行
う。noである場合は、言語処理を終了する。
If yes, the process from S6 is performed. If no, the language processing ends.

【0043】ここで、(表5)に示す仮文節設定結果に
対する言語処理の具体例を以下に示す。
Here, a specific example of the language processing for the provisional clause setting result shown in (Table 5) is shown below.

【0044】まず、第0仮文節から第1仮文節までは、
一文字で構成されているため、第1候補文字が解として
採用される。
First, from the 0th temporary clause to the 1st temporary clause,
Since it consists of one character, the first candidate character is adopted as the solution.

【0045】次に、第2仮文節‘文宇認織’に注目する
(S6)。次に、‘文’を先頭に持つ文字列を作成する
(S9)。
Next, attention is paid to the second provisional bunsetsu "Fun Uori Ori" (S6). Next, a character string having a "sentence" at the beginning is created (S9).

【0046】ここで、作成された文字列を(表7)に示
す。
Here, the created character string is shown in (Table 7).

【0047】[0047]

【表7】 [Table 7]

【0048】次に、作成された文字列を単語辞書と照会
し、一致する単語だけを抽出する(S10)。
Next, the created character string is referred to the word dictionary and only the matching words are extracted (S10).

【0049】次に、全ての候補文字に対して以上の処理
を行い(S8〜S14)、(表8)に示す候補単語群を
得る。
Next, the above processing is performed for all the candidate characters (S8 to S14) to obtain the candidate word group shown in (Table 8).

【0050】[0050]

【表8】 [Table 8]

【0051】次に、候補単語群を組み合わせて候補文節
を構成する(S15)。‘文字’と‘認識’は名詞同士
であるため、接続可能であり、候補文節‘文字認識’を
得る。同様に‘文章’と‘認識’は名詞同士であるた
め、接続可能であり、候補文節‘文章認識’を得る。
Next, a candidate phrase is constructed by combining candidate word groups (S15). Since'character 'and'recognition' are nouns, they can be connected and the candidate phrase'character recognition 'is obtained. Similarly, since'sentence 'and'recognition' are nouns, they can be connected and the candidate phrase'sentence recognition 'is obtained.

【0052】次に、各候補文節の平均類似度を求め、そ
れの大きな文節を解として採用する(S16〜17)。
Next, the average degree of similarity of each candidate phrase is calculated, and the larger phrase is adopted as the solution (S16-17).

【0053】候補文節‘文字認識’の平均類似度は95
0。候補文節‘文章認識’の平均類似度は925。よっ
て‘文字認識’が解として採用される。
The average similarity of the candidate phrase “character recognition” is 95.
0. The average similarity of the candidate phrase'sentence recognition 'is 925. Therefore, 'character recognition' is adopted as the solution.

【0054】以上の処理によって得られた文節を(表
9)に示す。
The clauses obtained by the above processing are shown in (Table 9).

【0055】[0055]

【表9】 [Table 9]

【0056】次に、被疑単語抽出を行う。図4におい
て、まず、文節番号をiとし、iに0を代入する(S2
0)。
Next, the suspected word is extracted. In FIG. 4, first, the phrase number is set to i, and 0 is substituted for i (S2
0).

【0057】次に、文節を構成する単語の文節先頭から
の相対番号をjとし、jに0を代入する。
Next, the relative number from the beginning of the phrase of the words forming the phrase is set to j, and 0 is substituted for j.

【0058】次に、第i文節の第j単語に着目する(S
22)。次に、着目単語が一文字で構成される単語か調
べる(S23)。
Next, pay attention to the j-th word of the i-th clause (S
22). Next, it is checked whether or not the focused word is composed of one letter (S23).

【0059】noである場合は、S26へjumpす
る。yesである場合は、着目単語が、分離文字である
か調べる(S24)。
If no, jump to S26. If yes, it is checked whether the focused word is a separated character (S24).

【0060】ここで、分離文字とは、‘行’,‘語’等
のような、「へん」と「つくり」から構成された左右に
分割可能な文字を指す。
The term "separated character" as used herein refers to a character such as "line", "word", etc., which is composed of "hen" and "make" and can be divided into right and left.

【0061】noである場合は、S26へjumpす
る。yesである場合は、着目単語を被疑単語とし、そ
の文字画像データ番号を配列doubtに記憶する(S
25)。
If NO, jump to S26. If yes, the word of interest is the suspected word, and its character image data number is stored in the array doublet (S
25).

【0062】次に、jに1を加算する(S26)。次
に、jが第i文節の構成単語数未満であるか調べる(S
27)。
Next, 1 is added to j (S26). Next, it is checked whether j is less than the number of constituent words of the i-th clause (S
27).

【0063】yesである場合は、S22にjumpす
る。noである場合は、iに1を加算する(S28)。
If yes, jump to S22. If no, 1 is added to i (S28).

【0064】次に、iが文節数未満であるか調べる(S
29)。yesである場合は、S21にjumpする。
Next, it is checked whether i is less than the number of clauses (S
29). If yes, jump to S21.

【0065】noである場合は、被疑単語抽出を終了す
る。ここで、(表9)に示す言語処理結果に対する被疑
単語抽出の具体例を以下に示す。
If no, the extraction of the suspected word ends. Here, a specific example of the suspected word extraction for the language processing result shown in (Table 9) is shown below.

【0066】まず、第0文節は‘行’のみで構成されて
いる(S22)。次に、‘行’は一文字単語である(S
23)。
First, the 0th clause is composed only of'lines' (S22). Next, 'line' is a one-letter word (S
23).

【0067】次に、‘行’は分離文字である(S2
4)。次に、‘行’を被疑単語とし、‘行’の文字画像
データ番号である0をdoubt
Next, "line" is a separation character (S2
4). Next, "line" is the suspected word, and the character image data number of "line", 0, is doublet.

〔0〕に代入する(S
25)。
Substitute in [0] (S
25).

【0068】次に、第1文節は分離文字ではない(S2
4)。よって被疑単語はない。
Next, the first phrase is not a separating character (S2
4). Therefore, there are no suspect words.

【0069】次に、第2文節は‘文字’‘認識’という
二文字単語で構成されている(S23)。
Next, the second phrase is composed of a two-letter word "character" recognition "(S23).

【0070】よって被疑単語はない。次に、被疑単語再
切り出し及び被疑単語文字認識及び再言語処理を行う。
Therefore, there are no suspect words. Next, re-cutting of the suspected word, recognition of the suspected word character, and re-language processing are performed.

【0071】図5において、まず、iを被疑単語番号と
し、iに0を代入する(S30)。次に、被疑単語の文
字画像データ番号をjとし、jにdoubt〔i〕を代
入する(S31)。
In FIG. 5, first, i is the suspected word number, and 0 is substituted for i (S30). Next, the character image data number of the suspected word is set to j, and doubt [i] is substituted for j (S31).

【0072】次に、第j文字画像データを再切り出し、
左右二つの文字画像データを得る(S32)。
Next, the j-th character image data is re-cut out,
Left and right character image data are obtained (S32).

【0073】次に、S32で得られた二つの文字画像デ
ータをそれぞれ文字認識する(S33)。
Next, the two character image data obtained in S32 are recognized as characters (S33).

【0074】次に、iに1を加算する(S34)。次
に、iが被疑単語数未満であるか調べる(S35)。
Next, 1 is added to i (S34). Next, it is checked whether i is less than the number of suspected words (S35).

【0075】yesである場合は、S31にjumpす
る。noである場合は、再切り出し前の文字認識結果と
再切り出し後の文字認識結果を統合する(S36)。
If yes, jump to S31. If the result is no, the character recognition result before recutting and the character recognition result after recutting are integrated (S36).

【0076】次に、S36で統合された文字認識結果に
対して再度図3と同様な言語処理を行う(S37)。
Next, the language processing similar to that of FIG. 3 is performed again on the character recognition result integrated in S36 (S37).

【0077】ここで、前述の被疑単語抽出結果に対する
被疑単語再切り出し及び被疑単語文字認識及び再言語処
理の具体例を以下に示す。
Here, a specific example of the re-cutting of the suspected word, the recognition of the suspected word and the re-language process for the suspected word extraction result will be described below.

【0078】まず、doubtFirst, doubt

〔0〕には0が格納され
ている(S31)。これは、第0文字画像データが被疑
単語であることを表している。
0 is stored in [0] (S31). This indicates that the 0th character image data is a suspect word.

【0079】次に、第0文字画像データを再切り出し
し、左右二つの文字画像データを得る(S32)。
Next, the 0th character image data is re-cut out to obtain two left and right character image data (S32).

【0080】次に、この文字画像データをそれぞれ文字
認識する(S33)。このときの文字認識結果を(表1
0)に示す。
Next, each of the character image data is recognized as a character (S33). The character recognition result at this time is shown in (Table 1
0).

【0081】[0081]

【表10】 [Table 10]

【0082】次に、再切り出し前の認識結果と再切り出
し後の認識結果を統合する(S36)。
Next, the recognition result before the recutting and the recognition result after the recutting are integrated (S36).

【0083】このときの統合結果を(表11)に示す。The integration result at this time is shown in (Table 11).

【0084】[0084]

【表11】 [Table 11]

【0085】次に、この統合結果に対して再度言語処理
を行う(S37)。このときの再言語処理結果を(表1
2)に示す。
Next, language processing is performed again on this integrated result (S37). The re-language processing result at this time is shown in (Table 1
2).

【0086】[0086]

【表12】 [Table 12]

【0087】次に、判定を行う。図6において、まず、
iを被疑単語番号とし、iに0を代入する(S38)。
Next, a judgment is made. In FIG. 6, first,
i is the suspected word number, and 0 is substituted for i (S38).

【0088】次に、被疑単語の画像データ番号をjと
し、jにdoubt〔i〕を代入する(S39)。
Next, the image data number of the suspected word is set to j, and doubt [i] is substituted for j (S39).

【0089】次に、第j文字画像データの認識結果を含
む、再切り出し前の文節と、再切り出し後の文節に着目
する(S40)。
Next, attention is paid to the bunsetsu before the re-cutout and the bunsetsu after the re-cutout including the recognition result of the j-th character image data (S40).

【0090】次に、着目した両文節の確からしさを比較
し、解となる文節を決定する(S41)。
Next, the certainty of both focused bunsetsus is compared, and the bunsetsu which becomes a solution is determined (S41).

【0091】確からしさは、文節を構成する単語が一般
文書に出現する頻度や、括弧などの文字は対で用いられ
ることが多いといった知識を用いて決定される。
The certainty is determined by using the knowledge that the words that form a phrase appear in a general document and that characters such as parentheses are often used in pairs.

【0092】次に、iに1を加算する(S42)。次
に、iが被疑単語数未満であるか調べる(S43)。
Next, 1 is added to i (S42). Next, it is checked whether i is less than the number of suspected words (S43).

【0093】yesである場合は、S39へjumpす
る。noである場合は、全ての処理を終了する。
If yes, jump to S39. If the answer is no, all processing is terminated.

【0094】ここで、(表12)に示す再言語処理結果
に対する判定の具体例を以下に示す。
Here, a concrete example of the judgment for the re-language processing result shown in (Table 12) is shown below.

【0095】まず、doubtFirst, doubt

〔0〕には0が格納され
ている(S39)。次に、第0文字画像データを含む、
再切り出し前の文節‘行’及び再切り出し後の文節
‘(3’に注目する(S40)。
0 is stored in [0] (S39). Next, including the 0th character image data,
Pay attention to the phrase "line" before the re-cutout and the phrase "(3" after the re-cutout (S40).

【0096】次に、両文節の確からしさを比較する(S
41)。文節‘行’には、隣接する文節との関連は全く
無い。一方、文節‘(3’には左括弧が含まれている。
括弧は対で用いられることが多いという知識を用いて、
他の文節内に右括弧が存在しないかを調べると、隣接す
る文節に右括弧‘)’が存在し、文節‘(3’には他の
文節との関連性があった。
Next, the probabilities of both clauses are compared (S
41). The bunsetsu'line 'has no relation to the adjacent bunsetsu. On the other hand, the clause '(3' includes a left parenthesis.
With the knowledge that brackets are often used in pairs,
When a right parenthesis was not found in other bunsetsu, a right parenthesis ')' was found in the adjacent bunsetsu, and bunsetsu '(3') was related to other bunsetsu.

【0097】よって、再切り出し後の文節の確からしさ
のほうが大きいと判断し、そちらを解として採用する。
Therefore, it is judged that the certainty of the bunsetsu after the re-cutout is greater, and that one is adopted as the solution.

【0098】以上の処理によって、最終的な解文字列と
して‘(3)文字認識’が得られ、認識対象文書を正し
く認識することが出来る。
By the above processing, "(3) Character recognition" is obtained as the final solution character string, and the recognition target document can be correctly recognized.

【0099】[0099]

【発明の効果】以上のように本発明によれば、被疑単語
を抽出し、被疑単語再切り出し等を行うことにより、隣
接する二つの半角文字を誤って一つの全角文字として切
り出してしまった場合でも、原文を正しく文字認識する
ことが出来る信頼性に優れた文字認識装置を実現できる
ものである。
As described above, according to the present invention, when the suspected word is extracted and the suspected word is re-cut out, two adjacent one-byte characters are accidentally cut out as one full-width character. However, it is possible to realize a highly reliable character recognition device that can correctly recognize the original text.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例における文字認識装置のブロ
ック図
FIG. 1 is a block diagram of a character recognition device according to an embodiment of the present invention.

【図2】本発明の一実施例における文字認識装置の画像
読み取り部及び文字切り出し部及び文字認識部の制御手
順を示すフローチャート
FIG. 2 is a flowchart showing a control procedure of the image reading unit, the character cutting unit, and the character recognition unit of the character recognition device according to the embodiment of the present invention.

【図3】本発明の一実施例における文字認識装置の言語
処理部の制御手順を示すフローチャート
FIG. 3 is a flowchart showing a control procedure of a language processing unit of the character recognition device in the embodiment of the present invention.

【図4】本発明の一実施例における文字認識装置の被疑
単語抽出部の制御手順を示すフローチャート
FIG. 4 is a flowchart showing a control procedure of a suspected word extraction unit of the character recognition device in the embodiment of the present invention.

【図5】本発明の一実施例における文字認識装置の被疑
単語再切り出し部及び被疑単語再認識部及び再言語処理
部の制御手順を示すフローチャート
FIG. 5 is a flowchart showing a control procedure of a suspected word recutting unit, a suspected word rerecognition unit, and a relanguage processing unit of the character recognition device according to the embodiment of the present invention.

【図6】本発明の一実施例における文字認識装置の判定
部の制御手順を示すフローチャート
FIG. 6 is a flowchart showing a control procedure of the determination unit of the character recognition device in the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 画像読み取り部 2 文字切り出し部 3 文字認識部 4 言語処理部 5 被疑単語抽出部 6 被疑単語再切り出し部 7 被疑単語文字認識部 8 再言語処理部 9 判定部 1 image reading unit 2 character cutting unit 3 character recognition unit 4 language processing unit 5 suspected word extraction unit 6 suspected word recutting unit 7 suspected word character recognition unit 8 relanguage processing unit 9 judgment unit

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】画像読み取り部によって読み取られた画像
データを一文字毎の文字画像データに切り出す文字切り
出し部と、前記文字切り出し部によって切り出された文
字画像データを文字認識して文字コードに変換する文字
認識部と、前記文字認識部によって認識された文字認識
結果に対して言語処理を行い文字単位で区分されている
文字認識結果を単語単位の区分に変更する言語処理部
と、前記言語処理部で得られた単語群中より一文字単語
であり且つ左右に分離可能な文字からなる単語を被疑単
語として抽出する被疑単語抽出部と、前記被疑単語抽出
部によって抽出された被疑単語は認識対象文書中の隣接
する半角文字を一つの全角文字として誤認識した可能性
が高いと判断して被疑単語の画像データを二つの半角文
字として切りだす被疑単語再切り出し部と、前記被疑単
語再切り出し部によって切り出された文字画像データを
文字認識して文字コードに変換する被疑単語文字認識部
と、前記被疑単語文字認識部による再切り出し後の文字
認識結果に対して言語処理を行う再言語処理部と、前記
言語処理部による文字認識結果と前記再言語処理部によ
る文字認識結果とを比較して最終的な解文字列を決定す
る判定部と、からなることを特徴とする文字認識装置。
1. A character cutout unit for cutting out image data read by an image reading unit into character image data for each character, and a character for recognizing the character image data cut out by the character cutout unit and converting it into a character code. A recognition unit, a language processing unit that performs language processing on the character recognition result recognized by the character recognition unit, and changes the character recognition result divided into character units into word unit divisions; and the language processing unit. A suspect word extracting unit that extracts a word consisting of a character that is a single-character word and that can be separated into left and right from the obtained word group, and the suspect word extracted by the suspect word extracting unit is a recognition target document. It is judged that there is a high possibility that the adjacent half-width characters were mistakenly recognized as one full-width character, and the image data of the suspected word is cut out as two half-width characters. A word recutting unit, a suspected word character recognition unit that character-recognizes the character image data cut out by the suspected word recutting unit and converts it into a character code, and a character recognition result after recutting by the suspected word character recognition unit. A re-language processing unit that performs language processing on the above, and a determination unit that compares the character recognition result by the language processing unit with the character recognition result by the re-language processing unit to determine a final solution character string. A character recognition device characterized by:
JP4241599A 1992-09-10 1992-09-10 Character recognizing device Pending JPH0696285A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4241599A JPH0696285A (en) 1992-09-10 1992-09-10 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4241599A JPH0696285A (en) 1992-09-10 1992-09-10 Character recognizing device

Publications (1)

Publication Number Publication Date
JPH0696285A true JPH0696285A (en) 1994-04-08

Family

ID=17076718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4241599A Pending JPH0696285A (en) 1992-09-10 1992-09-10 Character recognizing device

Country Status (1)

Country Link
JP (1) JPH0696285A (en)

Similar Documents

Publication Publication Date Title
JP3427692B2 (en) Character recognition method and character recognition device
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
US20040006467A1 (en) Method of automatic language identification for multi-lingual text recognition
JP2009026288A (en) Image document processing apparatus, image document processing method, image processing program, and recording medium on which image processing program is recorded
JP2006092027A (en) Capital letter recognizing device, capital letter recognizing method and capital letter recognizing program
JP2007122403A (en) Device, method, and program for automatically extracting document title and relevant information
JP2009176264A (en) Image document processing device and image document processing method
JP2009009307A (en) Document image processor and processing method
WO2000036530A1 (en) Searching method, searching device, and recorded medium
JPH0696285A (en) Character recognizing device
JP4047895B2 (en) Document proofing apparatus and program storage medium
JPH0528324A (en) English character recognition device
JP4318223B2 (en) Document proofing apparatus and program storage medium
JPH08180064A (en) Document retrieval method and document filing device
JPH09185674A (en) Device and method for detecting and correcting erroneously recognized character
JP3123169B2 (en) Character recognition method
JP2827066B2 (en) Post-processing method for character recognition of documents with mixed digit strings
JPH0944604A (en) Character recognizing processing method
Nakano et al. A document analysis system based on text line matching of multiple OCR outputs
JP2939945B2 (en) Roman character address recognition device
JP2752499B2 (en) Character reader
JPH08297720A (en) General document reader
JP2931485B2 (en) Character extraction device and method
JPH0589279A (en) Character recognizing device
JPH0528323A (en) Character recognition device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041005

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041206

A02 Decision of refusal

Effective date: 20050111

Free format text: JAPANESE INTERMEDIATE CODE: A02