JP3245241B2 - Character recognition apparatus and method - Google Patents

Character recognition apparatus and method

Info

Publication number
JP3245241B2
JP3245241B2 JP34791692A JP34791692A JP3245241B2 JP 3245241 B2 JP3245241 B2 JP 3245241B2 JP 34791692 A JP34791692 A JP 34791692A JP 34791692 A JP34791692 A JP 34791692A JP 3245241 B2 JP3245241 B2 JP 3245241B2
Authority
JP
Japan
Prior art keywords
character
similarity
separated
determining
alphanumeric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP34791692A
Other languages
Japanese (ja)
Other versions
JPH06203212A (en
Inventor
忠則 中塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP34791692A priority Critical patent/JP3245241B2/en
Publication of JPH06203212A publication Critical patent/JPH06203212A/en
Application granted granted Critical
Publication of JP3245241B2 publication Critical patent/JP3245241B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、文書の文字等を認識す
る文字認識装置および方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition apparatus and method for recognizing characters of a document.

【0002】[0002]

【従来の技術】従来の文字認識装置は、文書画像を入力
部により読み取って入力し、入力画像に対して1文字の
パターンを前処理部により切り出し、この切り出された
パターンから幾何学的な特徴を抽出し、予め格納された
辞書の標準パターンと認識部により照合してその文書画
像の文字部分を認識し、認識した結果を認識結果表示部
に表示するようになっている。
2. Description of the Related Art In a conventional character recognition apparatus, a document image is read and input by an input unit, a pattern of one character is cut out from the input image by a preprocessing unit, and geometrical features are extracted from the cut out pattern. Is extracted, and is compared with a standard pattern of a dictionary stored in advance by a recognition unit to recognize a character portion of the document image, and the recognition result is displayed on a recognition result display unit.

【0003】特に、前処理部では水平方向または垂直方
向の射影等を1回づつとって1文字パターンを切り出す
ようになっている。
[0003] In particular, the pre-processing unit cuts out one character pattern by taking a horizontal or vertical projection or the like one time at a time.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上記従
来例では、新聞等で良く使用される縦中横文字、すなわ
ち、縦書き文章中に現れる複数の横書き文字等を正しく
切り出すことができなかった。例えば、「年間58万
人」という縦書きの文字パターン「58」は、「明」と
認識されるので、ユーザは「明」を「58」に修正する
必要があった。計算される類似度の一例を表1に示す。
表1に示す演算値は小さいほど類似度が高い。
However, in the above-mentioned conventional example, it is not possible to correctly cut out vertical and horizontal characters often used in newspapers and the like, that is, a plurality of horizontal characters and the like appearing in vertical writing sentences. For example, the vertical character pattern "58" of "580,000 per year" is recognized as "bright", so the user needs to correct "bright" to "58". Table 1 shows an example of the calculated similarity.
The smaller the calculated values shown in Table 1, the higher the similarity.

【0005】[0005]

【表1】 [Table 1]

【0006】本発明の目的は、上記のような問題点を解
決し、縦中横文字を認識することができる文字認識装置
および方法を提供することにある。
An object of the present invention is to solve the above problems and to provide a character recognition device and method capable of recognizing vertical, horizontal and horizontal characters.

【0007】[0007]

【課題を解決するための手段】請求項1の発明は、文書
画像から文字パターンを切り出す前処理手段と、前記前
処理手段により切り出された文字パターンを文字認識し
て、第1候補文字とその候補文字に係る第1類似度を算
出する第1文字認識手段とを有する文字認識装置であっ
て、前記文書画像が縦書きか横書きのいずれであるかを
判断する判断手段と、前記判断手段により縦書きである
と判断された場合、前記前処理手段により切り出された
文字パターンを横に2つ以上の文字パターンに分離する
分離手段と、前記分離手段により分離された各文字パタ
ーンを文字認識して、第2候補文字とその候補文字に係
る第2類似度を算出する第2文字認識手段と、前記第1
文字認識手段により算出された第1類似度と、前記第2
文字認識手段により算出された第2類似度とを比較する
ことにより、最適な候補文字を決定する決定手段とを備
えたことを特徴とする。
According to a first aspect of the present invention, there is provided a pre-processing unit for cutting out a character pattern from a document image, and character recognition of the character pattern cut out by the pre-processing unit. What is claimed is: 1. A character recognition apparatus comprising: first character recognition means for calculating a first similarity relating to a candidate character, wherein said determination means determines whether said document image is written vertically or horizontally, and said determination means When it is determined that the writing is vertical writing, a separating unit that separates the character pattern cut out by the pre-processing unit into two or more character patterns horizontally, and character recognition is performed on each character pattern separated by the separating unit. A second character recognizing means for calculating a second candidate character and a second similarity relating to the candidate character;
The first similarity calculated by the character recognition means and the second similarity
Determining means for determining an optimal candidate character by comparing the second similarity calculated by the character recognizing means with the second similarity.

【0008】請求項1において、分離手段は、前記前処
理手段により切り出された文字パターンに対し、垂直射
影を取ることにより横に2つ以上の文字パターンに分離
することができる。請求項1において、分離手段は、前
記前処理手段により切り出された全ての文字パターンに
対し、分離することができる。請求項1において、前記
前処理手段により切り出された文字パターンの第1類似
度が所定のしきい値より低いかどうかを判断するしきい
値判断手段をさらに備え、前記分離手段は、前記しきい
値判断手段により前記第1類似度が前記所定のしきい値
より低いと判断された文字パターンに対して、分離する
ことができる。
In the first aspect, the separating means can separate the character pattern cut out by the preprocessing means into two or more character patterns by taking a vertical projection. In claim 1, the separating means can separate all the character patterns cut out by the preprocessing means. 2. The apparatus according to claim 1, further comprising a threshold value determination unit configured to determine whether a first similarity of the character pattern cut out by the preprocessing unit is lower than a predetermined threshold value, wherein the separation unit includes the threshold value. Character patterns for which the first similarity is determined to be lower than the predetermined threshold value by the value determining means can be separated.

【0009】請求項1において、前処理手段により切り
出された文字パターンの前後の文字パターンとの連結性
が高低いずれであるかを判断する連結性判断手段をさら
に備え、分離手段は、連結性判断手段により連結性が低
いと判断された場合に、前処理手段により切り出された
文字パターンに対し、分離することができる。請求項1
において、前記分離手段は、前処理手段により切り出さ
れた文字パターンを所定の割合で横に2つ以上の文字パ
ターンに分離することができる。
In a preferred embodiment of the present invention, the apparatus further comprises connectivity determination means for determining whether the connectivity with the character pattern before and after the character pattern cut out by the preprocessing means is higher or lower. When the connectivity is determined to be low by the means, the character pattern cut out by the preprocessing means can be separated. Claim 1
In the above, the separating means can separate the character pattern cut out by the preprocessing means into two or more character patterns horizontally at a predetermined ratio.

【0010】請求項1において、分離手段は、前処理手
段により切り出された文字パターンに対し、垂直射影を
取ることにより横に2つ以上の文字パターンに分離し、
垂直射影を取ることにより分離できなかった文字パター
ンに対し、所定の割合で横に2つ以上の文字パターンに
分割することにより分離することができる。請求項1に
おいて、決定手段は、第1類似度と、分離手段により分
離された文字パターンの第2類似度の平均値とを比較す
ることにより、最適な候補文字を決定することができ
る。
In the first aspect, the separating means separates the character pattern cut out by the pre-processing means into two or more character patterns by taking a vertical projection.
A character pattern that could not be separated by vertical projection can be separated by dividing it into two or more character patterns horizontally at a predetermined ratio. In the first aspect, the determining unit can determine an optimal candidate character by comparing the first similarity with the average value of the second similarities of the character patterns separated by the separating unit.

【0011】請求項1において、決定手段は、分離手段
により分離された各文字パターンに対して第2文字認識
手段により文字認識された第2候補文字の英数字の数が
所定の数以上であるか否かを判断する英数字数判断手段
をさらに備え、英数字数判断手段により英数字の数が所
定数以上と判断された場合に、第2候補文字を最適な候
補文字として決定することができる。
[0011] In the first aspect, the determining means is such that the number of alphanumeric characters of the second candidate character recognized by the second character recognizing means for each of the character patterns separated by the separating means is a predetermined number or more. It is further provided with an alphanumeric number determining means for determining whether or not the second candidate character is an optimal candidate character when the alphanumeric number determining means determines that the number of alphanumeric characters is equal to or greater than a predetermined number. it can.

【0012】請求項1において、決定手段は、分離手段
により分離された各文字パターンに対して第2文字認識
手段により文字認識された第2候補文字の英数字の数が
所定の数以上であるか否かを判断する英数字数判断手段
をさらに備え、英数字数判断手段により英数字の数が所
定数以上と判断された場合に、第1類似度と第2類似度
とを比較することにより、最適な候補文字を決定し、英
数字数判断手段により英数字の数が所定の数未満である
と判断された場合に、第1候補文字を最適な候補文字と
して決定することができる。請求項1において、決定手
段は、分離手段により分離された文字パターンに対して
第2文字認識手段により文字認識された文字が英数字で
あるか否かを判断する英数字判断手段をさらに備え、分
離手段により分離された文字パターン個数と所定の値と
を加算したものを前記第1類似度に乗算して第1演算値
を求め、前記分離された文字パターン全ての第2類似度
と英数字判断手段による判断に応じて定まる値とを加算
して第2演算値を求め、前記第1演算値と前記第2演算
値とを比較することにより、前記最適な候補文字を決定
することができる。
[0012] In the first aspect, the determining means is such that the number of alphanumeric characters of the second candidate character recognized by the second character recognizing means for each of the character patterns separated by the separating means is a predetermined number or more. Further comprising an alphanumeric number judging means for judging whether or not the first similarity and the second similarity are determined when the number of alphanumeric characters is judged to be a predetermined number or more by the alphanumeric number judging means. Accordingly, the optimum candidate character is determined, and when the number of alphanumeric characters is determined to be less than the predetermined number by the alphanumeric character number determination means, the first candidate character can be determined as the optimal candidate character. 2. The method according to claim 1, wherein the determining unit further includes an alphanumeric determination unit configured to determine whether the character recognized by the second character recognition unit with respect to the character pattern separated by the separation unit is an alphanumeric character. A first operation value is obtained by multiplying the sum of the number of character patterns separated by the separation means and a predetermined value by the first similarity, and the second similarity and alphanumeric characters of all the separated character patterns are obtained. The optimum candidate character can be determined by adding a value determined according to the determination by the determining means to obtain a second calculated value, and comparing the first calculated value with the second calculated value. .

【0013】[0013]

【0014】請求項12の発明は、文書画像から文字パ
ターンを切り出す前処理ステップと、前記前処理ステッ
プで切り出された文字パターンを文字認識して、第1候
補文字とその候補文字に係る第1類似度を算出する第1
文字認識ステップとを有する文字認識方法であって、前
記文書画像が縦書きか横書きのいずれであるかを判断す
る判断ステップと、前記判断ステップで縦書きであると
判断した場合、前記前処理ステップで切り出された文字
パターンを横に2つ以上の文字パターンに分離する分離
ステップと、前記分離ステップで分離した各文字パター
ンを文字認識して、第2候補文字とその候補文字に係る
第2類似度を算出する第2文字認識ステップと、前記第
1文字認識ステップで算出した第1類似度と前記第2文
字認識ステップで算出した第2類似度とを比較して、最
適な候補文字を決定する決定ステップとを備えたことを
特徴とする。
According to a twelfth aspect of the invention, there is provided a pre-processing step of cutting out a character pattern from a document image, and character recognition of the character pattern cut out in the pre-processing step. First to calculate similarity
A character recognition method comprising: a character recognition step; a determination step of determining whether the document image is written vertically or horizontally; and a pre-processing step when the determination step determines that the document image is written vertically. Separating the character pattern cut out in step 2 into two or more character patterns in the horizontal direction, and character-recognizing each character pattern separated in the separating step to obtain a second candidate character and a second similarity related to the candidate character. A second character recognition step of calculating a degree, and comparing the first similarity calculated in the first character recognition step with the second similarity calculated in the second character recognition step to determine an optimal candidate character And a determining step.

【0015】請求項12において、分離ステップは、前
処理ステップで切り出した文字パターンに対し、垂直射
影を取って横に2つ以上の文字パターンに分離すること
ができる。請求項12において、分離ステップは、前処
理ステップで切り出した全ての文字パターンに対して分
離することができる。請求項12において、前処理ステ
ップで切り出した文字パターンの第1類似度が所定のし
きい値より低いかどうかを判断するしきい値判断ステッ
プをさらに備え、分離ステップは、しきい値判断ステッ
プで第1類似度が所定のしきい値より低いと判断した文
字パターンに対し、分離することができる。
In the twelfth aspect, in the separating step, the character pattern extracted in the preprocessing step can be vertically projected and separated into two or more character patterns horizontally. In the twelfth aspect, the separating step can separate all character patterns extracted in the preprocessing step. 13. The method according to claim 12, further comprising a threshold value determining step of determining whether the first similarity of the character pattern cut out in the preprocessing step is lower than a predetermined threshold value. A character pattern determined to have a first similarity lower than a predetermined threshold can be separated.

【0016】請求項12において、前処理ステップで切
り出した文字パターンの前後の文字パターンとの連結性
の高低を判断する連結性判断ステップをさらに備え、分
離ステップは、連結性判断ステップで連結性が低いと判
断した文字パターンに対し、分離することができる。請
求項12において、分離ステップは、前処理ステップで
切り出した文字パターンを所定の割合で横に2つ以上の
文字パターンに分割し分離することができる。
According to a twelfth aspect of the present invention, the image processing apparatus further comprises a connectivity judging step of judging a degree of connectivity with a character pattern before and after the character pattern cut out in the preprocessing step. Character patterns determined to be low can be separated. In the twelfth aspect, in the separating step, the character pattern cut out in the preprocessing step can be horizontally divided into two or more character patterns at a predetermined ratio and separated.

【0017】請求項12において、分離ステップは、前
処理ステップで切り出した文字パターンに対し、垂直射
影を取って横に2つ以上の文字パターンに分離し、垂直
射影を取って分離できなかった文字パターンに対して
は、所定の割合で横に2つ以上の文字パターンに分割し
分離することができる。請求項12において、決定ステ
ップは、第1類似度と、分離ステップで分離した文字パ
ターンの第2類似度との平均値とを比較して、最適な候
補文字を決定することができる。
In the twelfth aspect, in the separating step, the character pattern cut out in the preprocessing step is vertically projected and separated into two or more character patterns horizontally, and the character that cannot be separated by the vertical projection is obtained. The pattern can be horizontally divided into two or more character patterns at a predetermined ratio and separated. In the twelfth aspect, in the determining step, an optimal candidate character can be determined by comparing an average value of the first similarity and the second similarity of the character pattern separated in the separating step.

【0018】請求項12において、決定ステップは、分
離ステップで分離した各文字パターンに対して第2文字
認識ステップで文字認識した第2候補文字のうち、英数
字の数が所定の数以上であるか否か判断する英数字数判
断ステップをさらに備え、英数字数判断ステップで英数
字の数が所定の数以上であると判断した場合、第2候補
文字を最適な候補文字として決定することができる。
In the twelfth aspect, in the deciding step, the number of alphanumeric characters among the second candidate characters recognized in the second character recognition step for each of the character patterns separated in the separation step is a predetermined number or more. The method further comprises an alphanumeric number determination step of determining whether or not the number of alphanumeric characters is greater than or equal to a predetermined number in the alphanumeric number determination step. it can.

【0019】請求項12において、決定ステップは、分
離ステップで分離した各文字パターンに対して第2文字
認識ステップで文字認識した第2候補文字のうち、英数
字の数が所定の数以上であるか否か判断する英数字数判
断ステップをさらに備え、英数字数判断ステップで英数
字の数が所定の数以上であると判断した場合、第1類似
度と第2類似度とを比較して、最適な候補文字を決定
し、英数字数判断ステップで英数字の数が所定の数未満
であると判断した場合、第1候補文字を最適な候補文字
として決定することができる。請求項12において、決
定ステップは、分離ステップで分離した文字パターンに
対して第2文字認識ステップで文字認識した文字が英数
字であるか否かを判断する英数字判断ステップをさらに
備え、分離ステップで分離された文字パターン個数と所
定の値とを加算したものを前記第1類似度に乗算して第
1演算値を求め、前記分離された文字パターン全ての第
2類似度と英数字判断ステップでの判断に応じて定まる
値とを加算して第2演算値を求め、前記第1演算値と前
記第2演算値とを比較して、前記最適な候補文字を決定
することができる。
In the twelfth aspect, in the determining step, the number of alphanumeric characters is equal to or greater than a predetermined number among the second candidate characters recognized in the second character recognition step for each character pattern separated in the separation step. The method further comprises an alphanumeric number determining step of determining whether or not the number of alphanumeric characters is equal to or greater than a predetermined number in the alphanumeric number determining step. If the number of alphanumeric characters is determined to be less than the predetermined number in the alphanumeric character determination step, the first candidate character can be determined as the optimal candidate character. 13. The separating step according to claim 12, wherein the determining step further includes an alphanumeric determining step of determining whether a character recognized in the second character recognizing step for the character pattern separated in the separating step is an alphanumeric character. Multiplying the sum of the number of character patterns separated by a predetermined value and the first similarity to obtain a first operation value, and determining the second similarity and the alphanumeric character of all the separated character patterns A second operation value is obtained by adding a value determined in accordance with the determination in step (1), and the first operation value and the second operation value are compared to determine the optimum candidate character.

【0020】[0020]

【0021】[0021]

【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0022】第1実施例 図1は本発明の第1実施例を示す。First Embodiment FIG. 1 shows a first embodiment of the present invention.

【0023】図1において、1は文字認識装置である。
2は入力部で、文書画像を読み取って入力するものであ
る。3は中央処理装置で、ROM4の制御プログラムに
従い、装置1の各部を制御するものである。4はROM
で、後述するフローチャートの制御プログラムおよび各
種データが格納されている。5はメモリで、中央処理装
置3のワークエリアとして使用され、入力部2により入
力された文書画像データを記憶する領域と、前処理部7
により切り出された文字パターンの位置、大きさを記憶
する領域を備えている。
In FIG. 1, reference numeral 1 denotes a character recognition device.
An input unit 2 reads and inputs a document image. Reference numeral 3 denotes a central processing unit which controls each unit of the apparatus 1 according to a control program in the ROM 4. 4 is ROM
The control program and various data of a flowchart described later are stored. Reference numeral 5 denotes a memory, which is used as a work area of the central processing unit 3 and stores an area for storing the document image data input by the input unit 2;
Is provided with an area for storing the position and size of the character pattern cut out by.

【0024】7は前処理部で、メモリ5に記憶されてい
る文書画像の1文字のパターンを切り出すものである。
8は認識部で、前処理部7により前処理されたパターン
から幾何学的特徴を抽出し、認識用辞書用RAM9に予
め格納されている標準パターンと照合して、すなわち、
切り出された文字パターンの標準パターンに対する類似
度を比較して類似度が高い文字パターンを最適候補文字
として確定し文書画像の文字認識を行うものである。
Reference numeral 7 denotes a pre-processing unit for cutting out one character pattern of the document image stored in the memory 5.
Reference numeral 8 denotes a recognition unit that extracts a geometric feature from the pattern preprocessed by the preprocessing unit 7 and compares it with a standard pattern stored in the recognition dictionary RAM 9 in advance.
The similarity of the cut-out character pattern to the standard pattern is compared, a character pattern having a high similarity is determined as an optimal candidate character, and character recognition of a document image is performed.

【0025】6は再認識部で、前処理部7により切り出
された文字パターンをさらに分離して再認識し、すなわ
ち、分離前と分離後の文字パターンの類似度を比較して
類似度が高い方の文字パターンを最適候補文字として確
定し、前回の認識結果と入れ替えるか否かを判断するも
のである。10は表示部で、入力された文書画像や、認
識結果等を表示するものである。
A re-recognition unit 6 further separates and re-recognizes the character pattern cut out by the pre-processing unit 7, that is, compares the character patterns before and after the separation with each other and has a high similarity. The other character pattern is determined as the optimum candidate character, and it is determined whether or not to replace the character pattern with the previous recognition result. A display unit 10 displays an input document image, a recognition result, and the like.

【0026】11はシステムバスで、中央処理装置3か
らのデータバスと、アドレスバスと、制御信号バス等を
含んでいる。12は外部の出力装置で、インタフェース
制御を行うインタフェース部12を有する。
Reference numeral 11 denotes a system bus, which includes a data bus from the central processing unit 3, an address bus, a control signal bus, and the like. Reference numeral 12 denotes an external output device having an interface unit 12 for performing interface control.

【0027】図2は図1に示すROM4に格納される制
御プログラムの一例を示すフローチャートである。
FIG. 2 is a flowchart showing an example of a control program stored in the ROM 4 shown in FIG.

【0028】ステップS41にて、操作者によりセット
された文書画像を入力部2により読み取って入力し、メ
モリ5に記憶する。ついで、ステップS42にて、前処
理部7により前処理を行い、認識部8により文字認識を
行い、それらの結果、すなわち、文字の位置および大き
さ、認識結果をメモリ5に記憶する。さらに、メモリ5
に記憶されているデータに基づき、再認識部6により再
認識を行い、ステップS44にて、認識結果を表示部1
0に表示する。
In step S 41, the document image set by the operator is read and input by the input unit 2 and stored in the memory 5. Next, in step S42, preprocessing is performed by the preprocessing unit 7, character recognition is performed by the recognition unit 8, and the results, that is, the position and size of the character and the recognition result are stored in the memory 5. Further, the memory 5
Are re-recognized by the re-recognition unit 6 based on the data stored in the display unit 1 and the recognition result is displayed in the display unit 1 in step S44.
Display at 0.

【0029】図3は図2に示すステップS43を詳細に
示すフローチャートである。
FIG. 3 is a flowchart showing the details of step S43 shown in FIG.

【0030】ステップS51にて、文章が縦書きまたは
横書きかを判定する。判定した結果、横書きである場
合、このステップS43を終了し、縦書きである場合、
ステップS52に移行する。ステップS52にて、各文
字ごとに垂直射影を1回だけとって文字を分離する。例
えば、図4に示す「58」は縦中横文字であるので図5
に示すように「5」と「8」に分離されることになる。
In step S51, it is determined whether the text is written vertically or horizontally. If the result of determination is that the document is horizontally written, this step S43 is ended.
Move to step S52. In step S52, vertical projection is performed only once for each character to separate the characters. For example, "58" shown in FIG.
As shown in (5), it is separated into "5" and "8".

【0031】次に、ステップS53にて、2つ以上に分
離された文字があるか否かを判定し、判定した結果、否
定判定された場合は、このステップS43を終了する。
他方、肯定判定された場合、ステップS54に移行し、
ステップS54にて、2つ以上に分離された文字を認識
部8により認識し、ステップS55にて、再認識した文
字ごとに、文字分離前の認識結果の演算値と、文字分離
後の認識結果の平均演算値とを比較し、演算値の小さい
方の文字、すなわち類似度の高い方の文字を採用する。
Next, in step S53, it is determined whether or not there are two or more separated characters. If the result of the determination is negative, step S43 is terminated.
On the other hand, if a positive determination is made, the process moves to step S54,
In step S54, the character separated into two or more characters is recognized by the recognizing unit 8, and in step S55, for each re-recognized character, the calculated value of the recognition result before character separation and the recognition result after character separation Is compared with the average calculated value of the above, and a character having a smaller calculated value, that is, a character having a higher similarity is adopted.

【0032】例えば、原稿イメージ「58」の文字分離
前の認識結果は「明」であり、その演算値は表1に示す
ように2863である。一方、「58」の文字分離後の
認識結果は「5」と「8」であり、それらの演算値は表
2に示すようにそれぞれ1520と1535であり、そ
の平均値は1527である。よって、演算値の小さい、
すなわち類似度の高い「5」と「8」が採用されること
になる。
For example, the recognition result of the original image "58" before character separation is "bright", and the calculated value is 2863 as shown in Table 1. On the other hand, the recognition results of the character “58” after character separation are “5” and “8”, and their calculated values are 1520 and 1535, respectively, as shown in Table 2, and the average value is 1527. Therefore, the calculated value is small,
That is, "5" and "8" having high similarity are adopted.

【0033】[0033]

【表2】 [Table 2]

【0034】さらに「化」を例に説明すると、原稿イメ
ージ「化」の文字分離前の認識結果は「化」であり、そ
の類似度は表5に示すように1487である。一方、
「化」の文字分離後の原稿イメージは図7に示す原稿イ
メージに分離され、認識結果は「イ」と「ヒ」である。
それらの類似度は表6に示すようにそれぞれ1654と
1836であり、その平均値は1745である。よっ
て、類似度の小さい「化」が採用されることになる。
Further, as an example of "ka", the recognition result of the original image "ka" before character separation is "ka", and its similarity is 1487 as shown in Table 5. on the other hand,
The document image after the character separation of “K” is separated into the document image shown in FIG. 7, and the recognition results are “A” and “H”.
The similarities are 1654 and 1836, respectively, as shown in Table 6, and the average value is 1745. Therefore, “ka” having a small degree of similarity is adopted.

【0035】[0035]

【表3】 [Table 3]

【0036】[0036]

【表4】 [Table 4]

【0037】第2実施例 本実施例は第1実施例との比較でいえば、図2に示すス
テップS43が相違する。すなわち、本実施例を図2に
示すステップS43を詳細に示すフローチャート(図
8)により説明すると、ステップS51にて判定した結
果、縦書きである場合、ステップS61にて、全ての文
字を分離するのではなく、認識結果の演算値(類似度)
が所定の閾値より大きい文字のみを垂直射影を1回だけ
とって文字を水平方向に分離し、その後、ステップS5
3にて、2つ以上に分離した文字があるか否かを判定す
るようにした。このようにしたので、演算量が減少し、
結果表示までの処理時間が短縮され、より使いやすくな
る。
Second Embodiment This embodiment differs from the first embodiment in the step S43 shown in FIG. That is, the present embodiment will be described with reference to a flowchart (FIG. 8) showing step S43 shown in FIG. 2 in detail. If the result of determination in step S51 is vertical writing, all characters are separated in step S61. Not the calculated value of the recognition result (similarity)
Is vertical-projected only once for characters that are larger than a predetermined threshold to separate the characters in the horizontal direction.
At 3, it is determined whether or not there are two or more separated characters. By doing so, the amount of computation is reduced,
The processing time until the result is displayed is shortened, and it becomes easier to use.

【0038】第3実施例 本実施例は第1実施例との比較でいえば、図2に示すス
テップS43が相違する。すなわち、本実施例を図2に
示すステップS43を詳細に示すフローチャート(図1
0)により説明すると、ステップS51にて判定した結
果、縦書きである場合、ステップS71にて、全ての文
字を分離するのではなく、認識結果の文字の前後1文字
以上の文字と、予め設けた辞書と比較し、連結性が低い
文字のみを垂直射影を1回だけとって文字の分離を行
い、その後、ステップS53にて、2つ以上に分離した
文字があるか否かを判定するようにした。
Third Embodiment The present embodiment differs from the first embodiment in that step S43 shown in FIG. 2 is different. That is, a flowchart (FIG. 1) showing the details of step S43 of the present embodiment shown in FIG.
In the case of vertical writing as a result of the determination in step S51, not all characters are separated in step S71 but one or more characters before and after the character of the recognition result are provided in advance. In comparison with the dictionary, only characters having low connectivity are vertically projected only once to perform character separation, and then, in step S53, it is determined whether there are two or more separated characters. I made it.

【0039】図9は文字の連結性を調べるための辞書の
一部を示す。ここで、〔数字〕は0〜9、零〜九等の数
字を表す。この辞書により、「明」という文字には「る
い」、「星」、「暗」等がその後に続き、「万」という
文字の前には数字が置かれ、「万」という文字の後には
「人」、「語」、数字等が続くことが分かる。
FIG. 9 shows a part of a dictionary for checking the connectivity of characters. Here, [number] represents a number such as 0-9, zero-9. According to this dictionary, the letters "akira" are followed by "rui", "star", "dark", etc., a number is placed before the letter "million", and after the letter "million" It can be seen that "people", "words", numbers and the like continue.

【0040】例えば、「年間58万人」の「58」の認
識結果の「明」の前後の文字列と、辞書の文字列が一致
しないので、連結性が低いと判定され、文字「58」が
分離されることになる。このようにしたので、演算量が
減少し、結果表示までの処理時間が短縮され、より使い
やすくなる。
For example, since the character string before and after "Akira" in the recognition result of "58" for "580,000 a year" does not match the character string in the dictionary, it is determined that the connectivity is low, and the character "58" Will be separated. By doing so, the amount of calculation is reduced, the processing time until the result is displayed is shortened, and the device becomes easier to use.

【0041】第4実施例 本実施例は第1実施例との比較でいえば、図2に示すス
テップS43が相違する。すなわち、本実施例を、図2
に示すステップS43を詳細に示すフローチャート(図
11)により説明すると、ステップS51にて判定した
結果、縦書きである場合、ステップS52にて、各文字
毎に垂直射影を1回だけとって文字を分離する。次にス
テップS53にて、2つ以上に分離された文字があるか
否かを判定し、判定した結果、否定判定された場合はス
テップS54に進む。肯定判定された場合はステップS
111に進む。ステップS111にて、分離前の文字を
水平方向にα(αは2以上の整数)等分し、ステップS
54にて、2つ以上に分離した文字を認識部8により文
字認識し、その後、ステップS55に移行するようにし
た。図12(a)に示す文字を2等分した例を図12
(b)に示す。
Fourth Embodiment The present embodiment differs from the first embodiment in the step S43 shown in FIG. That is, this embodiment is different from FIG.
Step S43 shown in FIG. 11 will be described in detail with reference to a flowchart (FIG. 11) showing details. If the result of determination in step S51 is vertical writing, in step S52, a vertical projection is performed only once for each character, and characters are read out. To separate. Next, in step S53, it is determined whether or not there are two or more separated characters. If the determination result is negative, the process proceeds to step S54. If a positive determination is made, step S
Go to 111. In step S111, the character before separation is equally divided in the horizontal direction by α (α is an integer of 2 or more).
At 54, the character separated into two or more characters is recognized by the recognition unit 8, and then the process proceeds to step S55. FIG. 12 shows an example in which the character shown in FIG.
It is shown in (b).

【0042】このようにしたので、例えば、図12
(a)に示すようにノイズ151があるため、2つ以上
の文字に分割できない場合や、文字が小さい場合や、図
1に示す入力部2の解像度が低い場合でも、縦中横文字
を分離することができる。
As described above, for example, FIG.
Due to the presence of noise 151 as shown in (a), even if the character cannot be divided into two or more characters, if the character is small, or if the resolution of the input unit 2 shown in FIG. be able to.

【0043】また、例えば、原稿イメージ「明」の文字
分離前の認識結果は「明」であり、その類似度は表3に
示すように1586である。一方、「明」の文字分離後
の原稿イメージは図6に示す原稿イメージに分離され、
認識結果は「日」と「月」である。それらの類似度は表
4に示すようにそれぞれ2691と1847であり、そ
の平均値は2269である。よって、類似度の小さい
「明」が採用されることになる。
For example, the recognition result of the original image "bright" before character separation is "bright", and its similarity is 1586 as shown in Table 3. On the other hand, the original image after the character separation of “Min” is separated into the original image shown in FIG.
The recognition results are "day" and "month". As shown in Table 4, the similarities are 2691 and 1847, respectively, and the average value is 2269. Therefore, “bright” having a small similarity is adopted.

【0044】[0044]

【表5】 [Table 5]

【0045】[0045]

【表6】 [Table 6]

【0046】第5実施例 本実施例は第1実施例との比較でいえば、図2に示すス
テップS43が相違する。すなわち、本実施例を、図2
に示すステップS43を詳細に示すフローチャート(図
13)により説明すると、ステップS54にて、2つ以
上に分離された文字を認識部8により再認識し、ステッ
プS121にて、分離された文字のうちn(nは1以上
の整数、ここでは仮にn=2とする)が英数字であるか
否かを判定し、判定した結果、分離された文字のうちn
文字以上が英数字である場合は、分離された文字を採用
するようにした。
Fifth Embodiment The present embodiment differs from the first embodiment in the step S43 shown in FIG. That is, this embodiment is different from FIG.
Step S43 shown in FIG. 13 will be described with reference to a flowchart (FIG. 13) showing details. In step S54, the character separated into two or more is re-recognized by the recognition unit 8, and in step S121, It is determined whether or not n (n is an integer equal to or greater than 1; here, suppose n = 2) is an alphanumeric character, and as a result, n of the separated characters is determined.
If more than one character is alphanumeric, use separated characters.

【0047】縦中横文字として現れる文字には英数字が
多いので、認識精度が向上する。
Since there are many alphanumeric characters in characters appearing as tate-chu-yoko characters, recognition accuracy is improved.

【0048】第6実施例 本実施例は第1実施例との比較でいえば、図2に示すス
テップS43が相違する。すなわち、本実施例を、図2
に示すステップS43を詳細に示すフローチャート(図
14)により説明すると、ステップS54にて、2つ以
上に分離された文字を認識部8により再認識し、ステッ
プS131にて、分離された文字のうちn(nは1以上
の整数、ここでは仮にn=2とする)文字以上が英数字
であるか否かを判定し、分離された文字のうちn文字以
上が英数字である場合は、分離後の演算値の平均値と分
離前の演算値とを比較し、演算値が小さい方の文字を採
用し、他方、分離された文字に英数字以外の文字が含ま
れる場合は、分離前の文字を採用する。
Sixth Embodiment This embodiment differs from the first embodiment in the step S43 shown in FIG. That is, this embodiment is different from FIG.
Step S43 shown in FIG. 14 will be described in detail with reference to a flowchart (FIG. 14) showing details. In step S54, the character separated into two or more is re-recognized by the recognition unit 8, and in step S131, It is determined whether or not n (n is an integer of 1 or more, here, suppose n = 2) characters or more are alphanumeric characters. If at least n of the separated characters are alphanumeric characters, separation is performed. Compare the average value of the calculated value after and the calculated value before separation, and adopt the character with the smaller calculated value.On the other hand, if the separated characters include non-alphanumeric characters, Adopt letters.

【0049】このようにしたので、より認識精度が向上
する。
With this configuration, recognition accuracy is further improved.

【0050】第7実施例 本実施例は第1実施例との比較でいえば、図2に示すス
テップS43が相違する。すなわち、本実施例を、図2
に示すステップS43を詳細に示すフローチャート(図
15)により説明すると、ステップS54にて、2つ以
上に分離された文字を認識部8により再認識する。そし
て、ステップS141にて、分離された文字が英数字で
あるか否かを判定し、判定した結果、分離された文字が
ともに英数字である場合、θ=x(xは負の値)とし、
分離された文字に英数字以外の文字が含まれる場合、θ
=y(yは正の値)とし、
Seventh Embodiment This embodiment is different from the first embodiment in that step S43 shown in FIG. 2 is different. That is, this embodiment is different from FIG.
Step S43 shown in FIG. 11 will be described in detail with reference to a flowchart (FIG. 15) showing details. In step S54, the character separated into two or more characters is re-recognized by the recognition unit 8. Then, in step S141, it is determined whether or not the separated character is an alphanumeric character. As a result of the determination, when both the separated characters are alphanumeric, θ = x (x is a negative value). ,
If the separated characters include non-alphanumeric characters, θ
= Y (y is a positive value),

【0051】[0051]

【数1】α=(再認識前の演算値)×(分離個数+Z) (Zはある一定値、ここではZ=φとする) β=(再認識後の演算値の加算)+θ を求める。ついで、α>βであるか否かを判定する。α
>βである場合、演算値は類似度が大きくなるほど小さ
くなるので、分割された文字を採用する。なお、認識結
果の演算値が大きいほど類似度が高い処理系では、x,
yの符号は逆になるので、当然、α<βの場合に、分割
された文字を採用する。
Α = (calculated value before re-recognition) × (separated number + Z) (Z is a certain value, here, Z = φ) β = (addition of calculated value after re-recognition) + θ . Next, it is determined whether or not α> β. α
If> β, the calculated value decreases as the degree of similarity increases, so the divided characters are used. In a processing system having a higher similarity as the calculated value of the recognition result is larger, x,
Since the sign of y is reversed, the divided characters are used when α <β.

【0052】[0052]

【発明の効果】以上説明したように、本発明によれば、
上記のように構成したので、縦中横文字を認識すること
ができるという効果がある。
As described above, according to the present invention,
With the above configuration, there is an effect that vertical, horizontal and horizontal characters can be recognized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1実施例を示すブロック図である。FIG. 1 is a block diagram showing a first embodiment of the present invention.

【図2】図1に示すROM4に格納される制御プログラ
ムの一例を示すフローチャートである。
FIG. 2 is a flowchart showing an example of a control program stored in a ROM 4 shown in FIG.

【図3】第1実施例においてROM4に格納される制御
プログラムのうちの図2に示すステップS43を詳細に
示すフローチャートである。
FIG. 3 is a flowchart showing in detail a step S43 shown in FIG. 2 of a control program stored in a ROM 4 in the first embodiment.

【図4】第1実施例における認識を説明する説明図であ
る。
FIG. 4 is an explanatory diagram illustrating recognition in the first embodiment.

【図5】第1実施例における文字認識を説明する説明図
である。
FIG. 5 is an explanatory diagram illustrating character recognition in the first embodiment.

【図6】第1実施例における文字認識を説明する説明図
である。
FIG. 6 is an explanatory diagram illustrating character recognition in the first embodiment.

【図7】第1実施例における文字認識を説明する説明図
である。
FIG. 7 is an explanatory diagram illustrating character recognition in the first embodiment.

【図8】第2実施例においてROM4に格納される制御
プログラムのうちの図2に示すステップS43を詳細に
示すフローチャートである。
FIG. 8 is a flowchart showing details of step S43 shown in FIG. 2 of the control program stored in the ROM 4 in the second embodiment.

【図9】第2実施例における辞書の一例を示す図であ
る。
FIG. 9 is a diagram illustrating an example of a dictionary according to the second embodiment.

【図10】第3実施例においてROM4に格納される制
御プログラムのうちの図2に示すステップS43を詳細
に示すフローチャートである。
FIG. 10 is a flowchart showing details of step S43 shown in FIG. 2 of the control program stored in the ROM 4 in the third embodiment.

【図11】第4実施例においてROM4に格納される制
御プログラムのうちの図2に示すステップS43を詳細
に示すフローチャートである。
FIG. 11 is a flowchart showing details of step S43 shown in FIG. 2 of the control program stored in the ROM 4 in the fourth embodiment.

【図12】第4実施例における文字認識を説明する説明
図である。
FIG. 12 is an explanatory diagram illustrating character recognition in a fourth embodiment.

【図13】第5実施例における文字認識を説明する説明
図である。
FIG. 13 is an explanatory diagram illustrating character recognition in a fifth embodiment.

【図14】第6実施例における文字認識を説明する説明
図である。
FIG. 14 is an explanatory diagram illustrating character recognition in a sixth embodiment.

【図15】第7実施例における文字認識を説明する説明
図である。
FIG. 15 is an explanatory diagram illustrating character recognition in a seventh embodiment.

【符号の説明】[Explanation of symbols]

1 文字認識装置 2 入力部 3 中央処理装置 4 ROM 5 メモリ 6 再認識部 7 前処理部 8 認識部 9 認識用辞書用RAM 10 表示部 11 システムバス 12 インタフェース 13 出力装置 Reference Signs List 1 character recognition device 2 input unit 3 central processing unit 4 ROM 5 memory 6 re-recognition unit 7 pre-processing unit 8 recognition unit 9 recognition dictionary RAM 10 display unit 11 system bus 12 interface 13 output device

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/20 - 9/62 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continued on the front page (58) Fields surveyed (Int.Cl. 7 , DB name) G06K 9/20-9/62 JICST file (JOIS)

Claims (22)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文書画像から文字パターンを切り出す前
処理手段と、 前記前処理手段により切り出された文字パターンを文字
認識して、第1候補文字とその候補文字に係る第1類似
度を算出する第1文字認識手段とを有する文字認識装置
であって、 前記文書画像が縦書きか横書きのいずれであるかを判断
する判断手段と、 前記判断手段により縦書きであると判断された場合、前
記前処理手段により切り出された文字パターンを横に2
つ以上の文字パターンに分離する分離手段と、前記分離
手段により分離された各文字パターンを文字認識して、
第2候補文字とその候補文字に係る第2類似度を算出す
る第2文字認識手段と、 前記第1文字認識手段により算出された第1類似度と、
前記第2文字認識手段により算出された第2類似度とを
比較することにより、最適な候補文字を決定する決定手
段とを備えたことを特徴とする文字認識装置。
1. A pre-processing unit for extracting a character pattern from a document image, and character recognition is performed on the character pattern extracted by the pre-processing unit to calculate a first candidate character and a first similarity relating to the candidate character. A character recognition device comprising: a first character recognition unit; a determination unit configured to determine whether the document image is written vertically or horizontally; and when the determination unit determines that the document image is written vertically, The character pattern cut out by the pre-processing means
Separating means for separating into two or more character patterns, and character recognition of each character pattern separated by the separating means,
A second character recognition unit that calculates a second candidate character and a second similarity relating to the candidate character; a first similarity calculated by the first character recognition unit;
A character recognition apparatus comprising: a determination unit that determines an optimum candidate character by comparing the second similarity calculated by the second character recognition unit.
【請求項2】 請求項1において、前記分離手段は、前
記前処理手段により切り出された文字パターンに対し、
垂直射影を取ることにより横に2つ以上の文字パターン
に分離することを特徴とする文字認識装置。
2. The method according to claim 1, wherein the separating unit is configured to:
A character recognizing device, wherein two or more character patterns are horizontally separated by taking a vertical projection.
【請求項3】 請求項1において、前記分離手段は、前
記前処理手段により切り出された全ての文字パターンに
対し、分離することを特徴とする文字認識装置。
3. The character recognition apparatus according to claim 1, wherein the separation unit separates all character patterns cut out by the preprocessing unit.
【請求項4】 請求項1において、 前記前処理手段により切り出された文字パターンの第1
類似度が所定のしきい値より低いかどうかを判断するし
きい値判断手段をさらに備え、 前記分離手段は、前記しきい値判断手段により前記第1
類似度が前記所定のしきい値より低いと判断された文字
パターンに対して、分離することを特徴とする文字認識
装置。
4. The first character pattern extracted by the pre-processing means according to claim 1,
The apparatus further includes threshold value determination means for determining whether the degree of similarity is lower than a predetermined threshold value, and the separation means includes a first threshold value determination means for determining whether the first threshold value is equal to the first threshold value.
A character recognition device for separating a character pattern whose similarity is determined to be lower than the predetermined threshold value.
【請求項5】 請求項1において、 前記前処理手段により切り出された文字パターンの前後
の文字パターンとの連結性が高低いずれであるかを判断
する連結性判断手段をさらに備え、 前記分離手段は、前記連結性判断手段により連結性が低
いと判断された場合に、前記前処理手段により切り出さ
れた文字パターンに対し、分離することを特徴とする文
字認識装置。
5. The apparatus according to claim 1, further comprising: connectivity determining means for determining whether the connectivity with a character pattern before and after the character pattern cut out by the preprocessing means is higher or lower. A character recognition device that separates the character pattern cut out by the pre-processing means when the connectivity determination section determines that the connectivity is low.
【請求項6】 請求項1において、前記分離手段は、前
記前処理手段により切り出された文字パターンを所定の
割合で横に2つ以上の文字パターンに分離することを特
徴とする文字認識装置。
6. The character recognition apparatus according to claim 1, wherein the separation unit separates the character pattern cut out by the preprocessing unit into two or more character patterns at a predetermined ratio.
【請求項7】 請求項1において、前記分離手段は、前
記前処理手段により切り出された文字パターンに対し、
垂直射影を取ることにより横に2つ以上の文字パターン
に分離し、垂直射影を取ることにより分離できなかった
文字パターンに対し、所定の割合で横に2つ以上の文字
パターンに分割することにより分離することを特徴とす
る文字認識装置。
7. The method according to claim 1, wherein the separation unit performs a conversion on the character pattern cut out by the preprocessing unit.
By separating vertically into two or more character patterns by taking a vertical projection, by dividing a character pattern that could not be separated by taking a vertical projection into two or more character patterns at a predetermined ratio, A character recognition device characterized by separating.
【請求項8】 請求項1において、前記決定手段は、前
記第1類似度と、前記分離手段により分離された文字パ
ターンの第2類似度の平均値とを比較することにより、
前記最適な候補文字を決定することを特徴とする文字認
識装置。
8. The method according to claim 1, wherein the determining unit compares the first similarity with an average value of the second similarities of the character patterns separated by the separating unit.
A character recognition device, wherein the optimum candidate character is determined.
【請求項9】 請求項1において、前記決定手段は、 前記分離手段により分離された各文字パターンに対して
前記第2文字認識手段により文字認識された第2候補文
字の英数字の数が所定の数以上であるか否かを判断する
英数字数判断手段をさらに備え、 前記英数字数判断手段により英数字の数が所定数以上と
判断された場合に、前記第2候補文字を前記最適な候補
文字として決定することを特徴とする文字認識装置。
9. The method according to claim 1, wherein the determining unit determines, for each of the character patterns separated by the separating unit, the number of alphanumeric characters of the second candidate character recognized by the second character recognizing unit. Further comprising an alphanumeric number determining means for determining whether or not the number is equal to or greater than the number. If the alphanumeric number determining means determines that the number of alphanumeric characters is equal to or greater than a predetermined number, the second candidate character is optimized. A character recognition device characterized in that the character is determined as a candidate character.
【請求項10】 請求項1において、前記決定手段は、 前記分離手段により分離された各文字パターンに対して
前記第2文字認識手段により文字認識された第2候補文
字の英数字の数が所定の数以上であるか否かを判断する
英数字数判断手段をさらに備え前記英数字数判断手段に
より英数字の数が所定数以上と判断された場合に、前記
第1類似度と前記第2類似度とを比較することにより、
前記最適な候補文字を決定し、 前記英数字数判断手段により英数字の数が所定の数未満
であると判断された場合に、前記第1候補文字を最適な
候補文字として決定することを特徴とする文字認識装
置。
10. The method according to claim 1, wherein the determining unit determines a predetermined number of alphanumeric characters of the second candidate character recognized by the second character recognizing unit for each of the character patterns separated by the separating unit. Further comprising an alphanumeric number determining means for determining whether or not the number is equal to or more than the first similarity and the second similarity when the number of alphanumeric characters is determined to be a predetermined number or more by the alphanumeric number determining means. By comparing with similarity,
Determining the optimal candidate character, and determining the first candidate character as the optimal candidate character when the number of alphanumeric characters is determined to be less than a predetermined number by the alphanumeric character determination means. Character recognition device.
【請求項11】 請求項1において、前記決定手段は、 前記分離手段により分離された文字パターンに対して前
記第2文字認識手段により文字認識された文字が英数字
であるか否かを判断する英数字判断手段をさらに備え、 前記分離手段により分離された文字パターン個数と所定
の値とを加算したものを前記第1類似度に乗算して第1
演算値を求め、前記分離された文字パターン全ての第2
類似度と前記英数字判断手段による判断に応じて定まる
値とを加算して第2演算値を求め、前記第1演算値と前
記第2演算値とを比較することにより、前記最適な候補
文字を決定することを特徴とする文字認識装置。
11. The method according to claim 1, wherein the determination unit determines whether or not the character recognized by the second character recognition unit is alphanumeric for the character pattern separated by the separation unit. An alphanumeric character judging means, wherein the first similarity is multiplied by a value obtained by adding the number of character patterns separated by the separating means and a predetermined value to the first similarity;
An operation value is obtained, and the second value of all the separated character patterns is obtained.
By adding the similarity and a value determined according to the determination by the alphanumeric determination means to obtain a second operation value, and comparing the first operation value and the second operation value, the optimum candidate character is obtained. A character recognition device characterized by determining:
【請求項12】 文書画像から文字パターンを切り出す
前処理ステップと、前記前処理ステップで切り出された
文字パターンを文字認識して、第1候補文字とその候補
文字に係る第1類似度を算出する第1文字認識ステップ
とを有する文字認識方法であって、 前記文書画像が縦書きか横書きのいずれであるかを判断
する判断ステップと、前記判断ステップで縦書きである
と判断した場合、前記前処理ステップで切り出された文
字パターンを横に2つ以上の文字パターンに分離する分
離ステップと、 前記分離ステップで分離した各文字パターンを文字認識
して、第2候補文字とその候補文字に係る第2類似度を
算出する第2文字認識ステップと、 前記第1文字認識ステップで算出した第1類似度と前記
第2文字認識ステップで算出した第2類似度とを比較し
て、最適な候補文字を決定する決定ステップとを備えた
ことを特徴とする文字認識方法。
12. A pre-processing step of cutting out a character pattern from a document image, and character recognition is performed on the character pattern cut out in the pre-processing step to calculate a first candidate character and a first similarity relating to the candidate character. A character recognition method comprising: a first character recognition step; a determination step of determining whether the document image is written vertically or horizontally; and if the determination step determines that the document image is written vertically, A separating step of horizontally separating the character pattern cut out in the processing step into two or more character patterns; and character recognition of each of the character patterns separated in the separating step to form a second candidate character and a second character pattern related to the candidate character. A second character recognition step for calculating a second similarity; a first similarity calculated in the first character recognition step; and a second similarity calculated in the second character recognition step. A determination step of determining an optimal candidate character by comparing the degree with the degree.
【請求項13】 請求項12において、前記分離ステッ
プは、前記前処理ステップで切り出した文字パターンに
対し、垂直射影を取って横に2つ以上の文字パターンに
分離することを特徴とする文字認識方法。
13. The character recognition method according to claim 12, wherein in the separating step, the character pattern cut out in the preprocessing step is vertically projected and separated into two or more character patterns horizontally. Method.
【請求項14】 請求項12において、前記分離ステッ
プは、前記前処理ステップで切り出した全ての文字パタ
ーンに対して分離することを特徴とする文字認識方法。
14. The character recognition method according to claim 12, wherein in the separating step, all character patterns cut out in the preprocessing step are separated.
【請求項15】 請求項12において、 前記前処理ステップで切り出した文字パターンの前記第
1類似度が所定のしきい値より低いかどうかを判断する
しきい値判断ステップをさらに備え、 前記分離ステップは、前記しきい値判断ステップで前記
第1類似度が前記所定のしきい値より低いと判断した文
字パターンに対し、分離することを特徴とする文字認識
方法。
15. The separating step according to claim 12, further comprising a threshold value determining step of determining whether the first similarity of the character pattern cut out in the preprocessing step is lower than a predetermined threshold value. In the character recognition method, a character pattern determined as having the first similarity lower than the predetermined threshold value in the threshold value determination step is separated.
【請求項16】 請求項12において、 前記前処理ステップで切り出した文字パターンの前後の
文字パターンとの連結性の高低を判断する連結性判断ス
テップをさらに備え、 前記分離ステップは、前記連結性判断ステップで連結性
が低いと判断した文字パターンに対し、分離することを
特徴とする文字認識方法。
16. The connectivity determination method according to claim 12, further comprising a connectivity determination step of determining the level of connectivity with a character pattern before and after the character pattern extracted in the preprocessing step. A character recognition method characterized in that a character pattern determined to have low connectivity in a step is separated.
【請求項17】 請求項12において、前記分離ステッ
プは、前記前処理ステップで切り出した文字パターンを
所定の割合で横に2つ以上の文字パターンに分割し分離
することを特徴とする文字認識方法。
17. The character recognition method according to claim 12, wherein in the separating step, the character pattern cut out in the preprocessing step is horizontally divided into two or more character patterns at a predetermined ratio and separated. .
【請求項18】 請求項12において、前記分離ステッ
プは、前記前処理ステップで切り出した文字パターンに
対し、垂直射影を取って横に2つ以上の文字パターンに
分離し、垂直射影を取って分離できなかった文字パター
ンに対しては、所定の割合で横に2つ以上の文字パター
ンに分割し分離することを特徴とする文字認識方法。
18. The character pattern extraction method according to claim 12, wherein the separating step takes a vertical projection of the character pattern cut out in the preprocessing step, separates the character pattern into two or more character patterns horizontally, and takes a vertical projection to separate the character pattern. A character recognition method characterized in that a character pattern that cannot be obtained is divided into two or more character patterns horizontally at a predetermined ratio and separated.
【請求項19】 請求項12において、前記決定ステッ
プは、前記第1類似度と、前記分離ステップで分離した
文字パターンの第2類似度との平均値とを比較して、前
記最適な候補文字を決定することを特徴とする文字認識
方法。
19. The optimal candidate character according to claim 12, wherein the determining step compares the average value of the first similarity and a second similarity of the character pattern separated in the separating step. Character recognition method.
【請求項20】 請求項12において、前記決定ステッ
プは、 前記分離ステップで分離した各文字パターンに対して前
記第2文字認識ステップで文字認識した第2候補文字の
うち、英数字の数が所定の数以上であるか否か判断する
英数字数判断ステップをさらに備え、 前記英数字数判断ステップで英数字の数が所定の数以上
であると判断した場合、前記第2候補文字を前記最適な
候補文字として決定することを特徴とする文字認識方
法。
20. The method according to claim 12, wherein in the determining step, the number of alphanumeric characters is predetermined for each of the character patterns separated in the separating step in the second candidate characters recognized in the second character recognition step. The method further comprises an alphanumeric number determining step of determining whether or not the number is equal to or greater than the number. If the alphanumeric number determining step determines that the number of alphanumeric characters is equal to or greater than a predetermined number, A character recognition method characterized by determining a candidate character.
【請求項21】 請求項12において、前記決定ステッ
プは、 前記分離ステップで分離した各文字パターンに対して前
記第2文字認識ステップで文字認識した第2候補文字の
うち、英数字の数が所定の数以上であるか否か判断する
英数字数判断ステップをさらに備え、 前記英数字数判断ステップで英数字の数が所定の数以上
であると判断した場合、前記第1類似度と前記第2類似
度とを比較して、前記最適な候補文字を決定し、 前記英数字数判断ステップで英数字の数が所定の数未満
であると判断した場合、前記第1候補文字を前記最適な
候補文字として決定することを特徴とする文字認識方
法。
21. The method according to claim 12, wherein, in the determining step, the number of alphanumeric characters is predetermined among the second candidate characters recognized in the second character recognition step for each of the character patterns separated in the separation step. The method further comprises an alphanumeric number determining step of determining whether or not the number is equal to or greater than the number. When the alphanumeric number determining step determines that the number of alphanumeric characters is equal to or greater than a predetermined number, the first similarity and the second 2 to determine the optimal candidate character, and if the number of alphanumeric characters is determined to be less than a predetermined number in the alphanumeric character determination step, the first candidate character is converted to the optimal candidate character. A character recognition method characterized in that it is determined as a candidate character.
【請求項22】 請求項12において、前記決定ステッ
プは、 前記分離ステップで分離した文字パターンに対して前記
第2文字認識ステップで文字認識した文字が英数字であ
るか否かを判断する英数字判断ステップをさらに備え、 前記分離ステップで分離された文字パターン個数と所定
の値とを加算したものを前記第1類似度に乗算して第1
演算値を求め、前記分離された文字パターン全ての第2
類似度と前記英数字判断ステップでの判断に応じて定ま
る値とを加算して第2演算値を求め、前記第1演算値と
前記第2演算値とを比較して、前記最適な候補文字を決
定することを特徴とする文字認識方法。
22. The alphanumeric character according to claim 12, wherein the determining step determines whether or not the character recognized in the second character recognition step for the character pattern separated in the separation step is an alphanumeric character. A determining step of multiplying the first similarity by a value obtained by adding the number of character patterns separated in the separating step and a predetermined value to the first similarity;
An operation value is obtained, and the second value of all the separated character patterns is obtained.
A second operation value is obtained by adding the degree of similarity and a value determined according to the judgment in the alphanumeric judgment step, and the first operation value and the second operation value are compared. Character recognition method.
JP34791692A 1992-12-28 1992-12-28 Character recognition apparatus and method Expired - Fee Related JP3245241B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34791692A JP3245241B2 (en) 1992-12-28 1992-12-28 Character recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34791692A JP3245241B2 (en) 1992-12-28 1992-12-28 Character recognition apparatus and method

Publications (2)

Publication Number Publication Date
JPH06203212A JPH06203212A (en) 1994-07-22
JP3245241B2 true JP3245241B2 (en) 2002-01-07

Family

ID=18393480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34791692A Expired - Fee Related JP3245241B2 (en) 1992-12-28 1992-12-28 Character recognition apparatus and method

Country Status (1)

Country Link
JP (1) JP3245241B2 (en)

Also Published As

Publication number Publication date
JPH06203212A (en) 1994-07-22

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP3452774B2 (en) Character recognition method
JP3155616B2 (en) Character recognition method and device
WO1990001198A1 (en) Character recognition apparatus
JP3099797B2 (en) Character recognition device
JP3245241B2 (en) Character recognition apparatus and method
Hairuman et al. OCR signage recognition with skew & slant correction for visually impaired people
CN115311666A (en) Image-text recognition method and device, computer equipment and storage medium
JP2751865B2 (en) String recognition device
JPH11328315A (en) Character recognizing device
JP3457094B2 (en) Character recognition device and character recognition method
JPH0728935A (en) Document image processor
JP2788506B2 (en) Character recognition device
JP2972443B2 (en) Character recognition device
JPH09274645A (en) Method and device for recognizing character
JP2576350B2 (en) String extraction device
JP3151866B2 (en) English character recognition method
JPS62257583A (en) Character recognizing system
KR910007032B1 (en) A method for truncating strings of characters and each character in korean documents recognition system
JPH0830734A (en) Character string recognition device
JP2803892B2 (en) Character recognition device
JP2851865B2 (en) Character recognition device
JP2963474B2 (en) Similar character identification method
JPS63269267A (en) Character recognizing device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071026

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081026

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091026

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091026

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees