JPH02230484A - Character recognizing device - Google Patents
Character recognizing deviceInfo
- Publication number
- JPH02230484A JPH02230484A JP1051383A JP5138389A JPH02230484A JP H02230484 A JPH02230484 A JP H02230484A JP 1051383 A JP1051383 A JP 1051383A JP 5138389 A JP5138389 A JP 5138389A JP H02230484 A JPH02230484 A JP H02230484A
- Authority
- JP
- Japan
- Prior art keywords
- character
- separated
- characters
- image data
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013500 data storage Methods 0.000 claims description 17
- 238000012015 optical character recognition Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 5
- 239000011295 pitch Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 101100338242 Drosophila virilis His1.1 gene Proteins 0.000 description 1
- 102100022663 Retinal guanylyl cyclase 1 Human genes 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- -1 from the image data Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、日本語文書の文書画像データを入力して、文
字認識を行なう電子計算機応用製品に係り、特に、日本
語ワードプロセッサまたは活字印刷等により作成された
全角の漢字および半角の莢数字・記号の混在する日本語
印刷文書の認識に好適な文字認識装置に関するものであ
る。[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a computer application product that inputs document image data of a Japanese document and performs character recognition, and is particularly applicable to Japanese word processors, type printing, etc. The present invention relates to a character recognition device suitable for recognizing Japanese printed documents created by the Japanese language, which contain a mixture of full-width kanji and half-width numerals and symbols.
従来、OCR装置として一般的に使用されてきた技術は
、文字枠を予め専用の用紙に印刷しておき、それによっ
て文字を分離し認識するものである。この種のものの代
表的例として、郵便番号の読み取り装置がある。一方、
最近になって、文字枠無しの一般文書を処理対象とする
OCR装置が開発されるようになり、文字枠無しでの文
字切り出し技術の開発が各種試みられている。Conventionally, the technology commonly used for OCR devices is to print character frames on special paper in advance, and then separate and recognize the characters. A typical example of this type of device is a postal code reading device. on the other hand,
Recently, OCR devices that process general documents without character frames have been developed, and various attempts have been made to develop techniques for cutting out characters without character frames.
ここで、行および文字の切り出しは、例えば、黒画素の
射影によるヒス1・ダラムを作成して実現される。この
場合、ある種の活字印刷物のように、理想的に文字ピッ
チ,文字サイズが均一な場合には正確な切り出しが可能
である。しかし、現実には、最近の写植印刷のように文
字ピッチが不均一であったり、活字印刷でも、全角文字
と半角文字が複雑かつ不規則に混在している場合が殆ど
であり、正確な切り出しを行うのは極めて困何Fであっ
た。Here, the cutting out of lines and characters is realized, for example, by creating His1 Duram by projecting black pixels. In this case, accurate cutting is possible when the character pitch and character size are ideally uniform, such as in some types of printed matter. However, in reality, the pitch of characters is uneven, as in recent phototype printing, and in most cases, even in typesetting, full-width and half-width characters are mixed in a complex and irregular manner, making it difficult to cut out accurately. It was extremely difficult to do so.
特に、問題となるのは、横書き文書の場合、全角漢字に
含まれている″化′″,″和+2rr門+2u別″,″
利++,u川JT,LL測++,′l即n,u検77%
いII,IIに″,″り″,“ル″′の様に一つの文字
が垂直方向に分離可能な複数の文字部分から構成されて
いる文字(以下分離文字と呼ぶ)と、II(IPZ I
IIHIZ l112+I,rr abcuというよう
な連続する半角文字列とが混在する文書である。これら
の文字は、印刷条件やフォントの種類によって分離した
り融合したりとさまざまに切出される。また、ある場合
には″中u,uれ″のような非分離文字の一部がかすれ
により、分離されてしまうこともある。Particularly problematic in the case of horizontally written documents are the characters included in full-width kanji such as "ka'", "wa+2rrmon+2ubetsu",
Interest ++, u river JT, LL measurement ++,'l soku n, u inspection 77%
Characters in which a single character is composed of multiple character parts that can be separated vertically (hereinafter referred to as separable characters), such as ``, ri'', and ``ru'''', and II (IPZ I
This is a document containing a mixture of consecutive half-width character strings such as IIHIZ l112+I, rr abcu. These characters are cut out in various ways, such as being separated or fused, depending on the printing conditions and font type. Furthermore, in some cases, a portion of non-separable characters such as "naka u, u ware" may be blurred and separated.
一方、縦書き文書の場合でも、″二n,u三″に代表さ
れる水平方向の分離文字があり、縦書き文書にも半角文
字がそのまま使用される例が多いため、同様な問題が存
在する。しかし、一般に横書き文書の処理の方が、量的
にも多く深刻である。On the other hand, even in the case of vertically written documents, there are horizontally separated characters such as "2n, u3", and half-width characters are often used as they are in vertically written documents, so a similar problem exists. do. However, in general, processing of horizontally written documents is more serious in terms of quantity.
以上のような状況に対し、既に切り出された文字の平均
ピッチを利用して不均一なピッチを持つ文字列の切り出
しを行う方法等が提案されているが、ヒストグラム等か
ら得られる連続黒画素の幅のみにより切り出しを行うか
ぎり、いかなる方法によっても、ピッチまたは分離文字
の文字部分の間隔が、たまたま連続する半角文字と全く
同しか同じでなくとも極めて区別しにくい場合には、切
り出し誤りが発生し得る。In response to the above situation, methods have been proposed to extract character strings with uneven pitches using the average pitch of characters that have already been extracted. As long as cutting is performed only by width, no matter what method you use, if the pitch or the spacing between the character parts of separated characters happens to be exactly the same as consecutive half-width characters, but it is extremely difficult to distinguish, a cutting error will occur. obtain.
以上述べたように、従来技術は全角の漢字および半角の
英数字・記号が複雑に混在する日本語文書の認識を行う
場合についての配慮が十分てはなく、上記従来技術によ
る切り出し処理は、本来は分離すべきでない分旅文字を
分離して切り出し、類似の文字に誤認識したり、また逆
に連続する半角文字を分離文字として切り出して誤認識
するという問題があった。As mentioned above, the conventional technology does not give sufficient consideration to the recognition of Japanese documents that contain a complex mixture of full-width kanji and half-width alphanumeric characters and symbols, and the extraction process using the above-mentioned conventional technology is There is a problem in that characters that should not be separated are separated and cut out, and are mistakenly recognized as similar characters, or conversely, consecutive half-width characters are cut out as separated characters and mistakenly recognized.
本発明の目的は、全角の漢字および半角の英数字・記号
が複雑に混在する日本語文書を正確に認識可能な文字認
識装置を提供することである。An object of the present invention is to provide a character recognition device that can accurately recognize Japanese documents containing a complex mixture of full-width Chinese characters and half-width alphanumeric characters and symbols.
本発明は、」二記目的を達成するために、文字画像デー
タを記憶する画像テータ記憶手段と、画像データ記憶手
段から文字画像データを読み出す手段と、認識対象の全
ての文字および認識対象の文字に含まれる全ての分離文
字の文字部分に関する文字認識に必要な情報を辞書とし
て格納する文字認識辞書手段と、読み出された文字画像
データを文字認識辞書手段と照合し、認識対象の全ての
文字および認識対象の文字に含まれる全ての分離文字の
部分文字について文字認識を実行する文字認識手段と、
分離文字の部分と全体との関係を分離文字辞書として記
憶する分離文字辞書手段と、文字認識手段に分離文字の
小部分が部分文字列として入力された場合に起動され、
入力された部分文字列が分離文字列であるかどうかを分
離文字辞書手段と照合して判定し、分離文字と判定した
場合はその分離文字を最も確信度の高い第−位候補文字
として出力し、第二位候補文字として部分文字列を出力
する分離文字認識手段とを備えた文字認識装置を提案す
るものである。In order to achieve the second object, the present invention provides image data storage means for storing character image data, means for reading out character image data from the image data storage means, and all characters to be recognized and characters to be recognized. A character recognition dictionary means stores information necessary for character recognition regarding character parts of all separated characters included in the text as a dictionary, and the read character image data is compared with the character recognition dictionary means to identify all characters to be recognized. and a character recognition means for performing character recognition on partial characters of all separated characters included in the character to be recognized;
separated character dictionary means for storing a relationship between a part of a separated character and the whole as a separated character dictionary; activated when a small part of a separated character is input as a partial character string to a character recognition means;
It is determined whether the input partial string is a separated character string by comparing it with a separated character dictionary means, and if it is determined to be a separated character, the separated character is output as the highest candidate character with the highest degree of certainty. The present invention proposes a character recognition device equipped with a separated character recognition means for outputting a partial character string as a second candidate character.
前記文字画像データ読み出し手段は,前記画像データ記
憶手段から前記画像データを読み出し、一つの文字が複
数の小部分からなる分離文字の場合は、横書き文書の場
合は縦方向の,縦書き文書の場合は横方向の各小部分毎
に切り出し、単一の小部分からなる非分離文字の場合は
全体として切り出し、文字データを切り出す文字切り出
し手段を含むことができる。The character image data reading means reads the image data from the image data storage means, and when one character is a separated character consisting of a plurality of small parts, in the case of a horizontally written document, in the vertical direction, and in the case of a vertically written document. may include character cutting means for cutting out character data by cutting out each small part in the horizontal direction, and in the case of a non-separable character consisting of a single small part, cutting out the character data as a whole.
前記文字画像テータ読み出し手段は、さらに、画像デー
タ記憶手段から画像データを読み出し、文字行データを
切り出す行切り出し手段を文字切り出し手段の前に含む
ことも可能である。The character image data reading means may further include, in front of the character cutting means, line cutting means for reading image data from the image data storage means and cutting out character line data.
いずれの場合も、分離文字認識手段は、分離文字を認識
した際に、結合された分離文字と分離された部分文字列
との両者を認識結果の候補文字として出力する機能を備
えてもよい。In either case, the separated character recognition means may have a function of outputting both the combined separated character and the separated partial character string as candidate characters as recognition results when recognizing the separated characters.
前記分離文字認識手段は、また、認識対象文字が半角文
字の融合により一つの全角または横倍角文字のようにみ
なされるとき、全角または横倍角文字としての候補文字
と半角文字列としての候補文字との両者を出力する機能
を備えることもできる。The separated character recognition means also separates a candidate character as a full-width or double-width character and a candidate character as a half-width character string when a character to be recognized is regarded as one full-width or double-width character by fusion of half-width characters. It is also possible to provide a function to output both.
これらの文字認識装置は、コンピュータシステム,光学
的文字認識装置,イメージスキャナ等に組み込み可能で
ある。These character recognition devices can be incorporated into computer systems, optical character recognition devices, image scanners, and the like.
画像データ記憶手段は、文字画像データを入力するイメ
ージスキャナ等の画像入力装置から入力した画像データ
を記憶する。行切り出し手段は、前記画像データから、
文字行データを切り出す。The image data storage means stores image data input from an image input device such as an image scanner that inputs character image data. The line cutting means extracts, from the image data,
Extract character line data.
文字切り出し手段は、この文字行データから、つの文字
が複数の小部分からなる分離文字の場合には、横書き文
書では縦方向の,縦書き文書では横方向の各小部分毎に
切り出し、単一の小部分からなる非分離文字の場合には
全体として切り出し、文字データを切り出す。文字認識
辞書手段は、認識対象の全ての文字および認識対象の文
字に含まれる全ての分離文字の部分文字に関する文字認
識に必要な情報を辞書として格納しておく。文字認識手
段は、前記文字切り出し手段により切り出された文字デ
ータを前記文字認識辞書手段と照合し、分離文字の文字
部分を含む文字を認識する。分離文字辞書手段は、前記
分離文字の部分と全体との関係を分離文字辞書として記
憶しておく。分離文字認識手段は、前記文字認識手段に
前記分離文字の小部分が部分文字列として入力された場
合に起動され、前記分離文字辞書手段を参照して入力さ
れた部分文字列が分離文字であるかどうかを判定し、分
離文字と判定した場合は、該当の分離文字を最も確信度
の高い第一位候補文字として出力し、第二位に部分文字
列を出力する。If one character is a separated character consisting of multiple small parts from this character line data, the character cutting means cuts out each small part in the vertical direction in a horizontally written document, and in the horizontal direction in a vertically written document, and separates each small part into a single character. In the case of a non-separated character consisting of a small part, the entire character is extracted and the character data is extracted. The character recognition dictionary means stores, as a dictionary, information necessary for character recognition regarding all characters to be recognized and partial characters of all separated characters included in the characters to be recognized. The character recognition means compares the character data cut out by the character cutout means with the character recognition dictionary means and recognizes characters including character parts of separated characters. The separated character dictionary means stores the relationship between the part of the separated character and the whole as a separated character dictionary. The separated character recognition means is activated when a small part of the separated character is input as a partial character string to the character recognition means, and refers to the separated character dictionary means to determine that the input partial character string is a separated character. If it is determined to be a separated character, the corresponding separated character is output as the first candidate character with the highest degree of certainty, and a partial character string is output as the second candidate character.
以下、本発明の一実旅例を図面により説明する。 Hereinafter, a practical example of the present invention will be explained with reference to the drawings.
第1図において、画像入力装置/から入力された画像デ
ータは、電子計算機ρの画像データ記憶手段,.2/に
白黒2値の画素データとして記憶される。行切り出し手
段.,!一は、行と並行方向への射影データ(ヒストグ
ラム)作成等の方法により、画像データ記憶手段.2/
から行データを切り出し、この行データを、例えば画像
データ記憶手段,.2/内の行データ格納領域を表す矩
形の左上及び右下の画素アドレスの値として、文字切り
出し手段.,23に出力する。In FIG. 1, image data input from an image input device/are stored in image data storage means, . 2/ is stored as black and white binary pixel data. Line cutting means. ,! One is an image data storage means using a method such as creating projection data (histogram) in a direction parallel to the rows. 2/
Line data is cut out from the image data storage means, . 2/ as the values of the upper left and lower right pixel addresses of the rectangle representing the row data storage area. , 23.
文字切り出し手段.,23は、この行データにより画像
データ記憶手段.2/からその行に対応する画像データ
を取り出し、行切り出しと同様のヒストクラム等の方法
により、一文字毎に、横書き文書の場合には縦方向の,
縦書き文書の場合には横方向の各小部分毎に切り出し、
単一の小部分からなる非分離文字の場合は全体として切
り出すことにより、文字データを順次切り出し、文字デ
ータを、例えば画像データ記憶手段.,!/内の文字デ
ータ格納領域を表す矩形の左上及び右下の画素アドレス
の値として、文字認識手段..2ダに出力する。Character extraction means. , 23 stores image data storage means . Extract the image data corresponding to that line from 2/, and use the same method as line extraction such as histogram to extract the vertical direction for each character, in the case of a horizontally written document.
In the case of a vertically written document, cut out each small part in the horizontal direction,
In the case of a non-separable character consisting of a single small part, the character data is sequentially cut out by cutting out the whole character, and the character data is stored in, for example, an image data storage means. ,! Character recognition means as the values of the upper left and lower right pixel addresses of the rectangle representing the character data storage area within .. Output to 2 das.
文字認識手段..2ダは、この文字データにより画像デ
ータ記憶手段..2/からその文字に対応する画像デー
タを取り出し、正規化,塵処理等の前処理を行った上で
、予め用意された文字認識辞書手段.,27を用いて、
文字認識辞書手段..27とのパターンマッチング等の
文字認識手法により文字認識処理を行い、入力された文
字データに似ていると判断した文字認識辞書手段..2
7内の文字候補を分離文字認識手段.26に出力する。Character recognition means. .. 2da uses this character data to store image data. .. The image data corresponding to the character is extracted from 2/, subjected to pre-processing such as normalization and dust removal, and then processed using a pre-prepared character recognition dictionary means. , 27,
Character recognition dictionary means. .. Character recognition dictionary means performs character recognition processing using a character recognition method such as pattern matching with 27, and determines that the character data is similar to the input character data. .. 2
Character recognition means for separating character candidates within 7. Output to 26.
第2図は、横書き文書の場合の分離文字辞書d乙の構成
例である。この辞書には、全角漢字に含まれている、″
化II,u和IZLL門r2rr別II,LL利″,″
川II,LL測n,u即n,u検r+,rrいn,uに
′″,′゛り″,″ル″のように一つの文字が垂直方向
に分離可能な複数の文字部分からなる分離文字全てが含
まれている。この辞書ρ乙は、各分離文字毎に分離文字
部分,2/0と分離文字コード.2.20および対応文
字部分.2JOから構成されており、分離文字部分.2
/0により検索可能となっている。分離文字部分.2/
0には、分離文字の一番左側の文字部分が通常の電子計
算機用文字コード,例えばシフトJISコ一ドとは区別
された特殊コードとして格納され、分離文字コード.2
.20には、対応する分離文字が電子計算機用文字コー
ド,例えばシフトJISコードとして格納されており、
対応文字部分.2JOには対応する分離文字の一番左側
に続く右側の文字部分が分離文字部分..2/Oと同様
の特殊文字コードとして例に示すように格納されている
。FIG. 2 shows an example of the configuration of the separate character dictionary dB for a horizontally written document. This dictionary includes full-width kanji, ″
II, u and IZLL gate r2rr, II, LL interest'',''
A single character is made from multiple character parts that can be separated vertically, such as kawa II, LL measurement n, u so n, u test r+, rrn n, u ni''', '゛ri', and 'ru'. Contains all separators. This dictionary ρB contains a separate character part, 2/0, and a separate character code for each separated character. 2.20 and corresponding character parts. It is composed of 2JO, with a separated character part. 2
/0 makes it possible to search. Separated character part. 2/
0, the leftmost character part of the separator character is stored as a special code that is distinguished from a normal computer character code, such as a shift JIS code, and the separator code. 2
.. In 20, the corresponding separator character is stored as a computer character code, for example, a shift JIS code.
Corresponding character part. For 2JO, the character part on the right following the leftmost part of the corresponding separator character is the separator part. .. It is stored as a special character code similar to 2/O as shown in the example.
文字認識辞書手段..27には分離文字辞書一乙の分離
文字部分.2/0と対応文字部分.:l.30に含まれ
る全ての文字部分が前記の特殊コードとして格納されて
おり、通常の全角または半角文字と区別される。Character recognition dictionary means. .. 27 is the separated character part of the separated character dictionary. Character part corresponding to 2/0. :l. All character parts included in 30 are stored as the above-mentioned special code, and are distinguished from normal full-width or half-width characters.
次に、第3図により分離文字認識手段..2.5の動作
を説明する。分離又字認識手段.2.5は、入力された
文字候補が、分離文字辞書手段.2Aの中に登録されて
いるかどうかを調べ(ステップA)、登録されていなけ
れば、その文字候補をそのまま認識結果として出力する
(ステップB−F−G−E)。Next, the separated character recognition means is shown in FIG. .. The operation of 2.5 will be explained. Separate or character recognition means. 2.5 indicates that the input character candidates are separated character dictionary means. 2A (step A), and if not registered, the character candidate is output as is as a recognition result (step B-FGE).
その文字候補が分離文字辞書手段β乙の中に登録されて
いれば、その文字候補を分離文字の文字部分として、分
離文字認識手段.2,5の内部に一時的に保持し(ステ
ップA−H)、引き続く分離文字の部分と判定されない
文字候補の入力を待つ。連続する文字候補が分離文字の
文字部分列として保持された場合、分離文字認識手段.
.2.5は分離文字辞書手段.2乙を参照し(ステップ
A−B−C)、その文字部分列が辞書内に存在する場合
、対応する分離文字を、その文字部分列に対する第一位
の候補文字として出力する(ステップD)。この場合、
文字部分列そのものも第二位の候補文字として出力する
(ステップD−E)。一方、文字部分列が辞書内に存在
しない場合は、その文字部分列を、そのまま候補文字列
として出力する(ステップCG−E)。If the character candidate is registered in the separated character dictionary means βB, the character candidate is treated as the character part of the separated character and the separated character recognition means. 2 and 5 (steps A to H), and waits for the input of a subsequent character candidate that is not determined to be a separate character part. Separate character recognition means when consecutive character candidates are held as character substrings of separate characters.
.. 2.5 is a separate character dictionary means. 2B is referred to (steps A-B-C), and if the character substring exists in the dictionary, the corresponding separation character is output as the first candidate character for the character substring (step D). . in this case,
The character substring itself is also output as the second candidate character (steps DE). On the other hand, if the character substring does not exist in the dictionary, the character substring is output as is as a candidate character string (step CG-E).
第4図に分離文字と半角文字の両者を含む文書における
候補文字の出力例を示す。FIG. 4 shows an example of outputting candidate characters in a document containing both separated characters and half-width characters.
上記実施例においては、行切り出しと文字切り出しとを
実行してから、文字認識に移行したが、文字画像データ
を直接読み出して文字認識をしてもよく、また、行切り
出しを省略して文字切り出しの後に文字認識を実行する
こともできる。In the above embodiment, line cutting and character cutting are executed before proceeding to character recognition, but character recognition may be performed by directly reading character image data, or character recognition may be performed by omitting line cutting. You can also perform character recognition after.
さらに、分離文字を認識した際に、結合された分離文字
と分離された部分文字列との両者を認識結果の候補文字
として出方できる。Furthermore, when a separated character is recognized, both the combined separated character and the separated partial character string can be used as candidate characters in the recognition result.
それに加えて、認識対象文字が半角文字の融合により一
つの全角または横倍角文字のようにみなされるときは、
全角または横倍角文字としての候補文字と半角文字列と
しての候補文字との両者を出力することも可能である。In addition, when the recognition target character is treated as a single full-width or horizontal double-width character by fusion of half-width characters,
It is also possible to output both candidate characters as full-width or double-width characters and candidate characters as half-width character strings.
これらの文字認識機能を備えたシステムは、コンピュー
タシステムとして実現可能であるのは勿論のこと、光学
的文字認識装置(いわゆるOCR)やイメージスキャナ
として構成できる。A system equipped with these character recognition functions can be realized not only as a computer system but also as an optical character recognition device (so-called OCR) or an image scanner.
本発明によれば、全角の漢字および半角の英数字・記号
が混在する日本語文書を認識する場合でも、分離文字を
分離文字として正しく切り出して認識するとともに、連
続する半角文字は半角文字として正しく切り出して認識
できる。また、切り出しおよび認識を一意的に実行する
のが困難な場合でも、分離文字と分離文字を構成する部
分文字列の両者を候補文字として出力し、文字認識装置
の認識率を向」ニさせ、文字認識処理の確認修正処理時
間を短縮できるので、最終的な認識精度が上がる。According to the present invention, even when recognizing a Japanese document containing a mixture of full-width kanji and half-width alphanumeric characters and symbols, separated characters are correctly extracted and recognized as separated characters, and consecutive half-width characters are correctly recognized as half-width characters. It can be cut out and recognized. In addition, even when it is difficult to uniquely perform segmentation and recognition, both the separated character and the partial character string that makes up the separated character are output as candidate characters, improving the recognition rate of the character recognition device. Since the confirmation and correction processing time of character recognition processing can be shortened, the final recognition accuracy is increased.
本発明の方法は、印刷文字文書の認識に限らず、手書き
文字の認識に適用しても、発生しやすい分離文字の辞書
を用意すれば、同様の効果が得られる。The method of the present invention is not limited to the recognition of printed character documents, but can be applied to the recognition of handwritten characters, and the same effect can be obtained if a dictionary of separated characters that are likely to occur is prepared.
第1図は本発明による文字認識装置の一実施例の全体構
成を示すブロック図、第2図は分離文字辞書の構成例を
示す図、第3図は分離文字認識手段の処理の流れを示す
フローチャート、第4図は分離文字と半角文字を含む文
書の候補文字の出力例を示す図である。
/ ・画像入力装置、2・・・電子計算機、..2/
・画像データ記憶手段、..2ρ・・行切り出し手段、
.,!3文字切り出し手段、,.2ダ・・・文字認識手
段、.,!6分離文字認識手段、.,!乙 ・分離文
字辞書手段、,27 ・文字認識辞書手段、.2/0・
・分離文字部分、.,2.20・・・分離文字コード、
.230 ・対応文字部分。FIG. 1 is a block diagram showing the overall configuration of an embodiment of a character recognition device according to the present invention, FIG. 2 is a diagram showing an example of the configuration of a separate character dictionary, and FIG. 3 is a diagram showing the processing flow of the separated character recognition means. The flowchart shown in FIG. 4 is a diagram showing an example of outputting candidate characters for a document including separated characters and half-width characters. / - Image input device, 2... electronic computer, . .. 2/
- Image data storage means, . .. 2ρ...Line cutting means,
.. ,! 3 character extraction means, . 2 da...Character recognition means, . ,! 6 separate character recognition means; ,! B ・Separate character dictionary means, ,27 ・Character recognition dictionary means, . 2/0・
・Separated character part, . ,2.20...Separator character code,
.. 230 - Corresponding character part.
Claims (1)
置において、 前記文字画像データを記憶する画像データ記憶手段と、 前記画像データ記憶手段から前記文字画像データを読み
出す手段と、 認識対象の全ての文字および認識対象の文字に含まれる
全ての分離文字の文字部分に関する文字認識に必要な情
報を辞書として格納する文字認識辞書手段と、 前記読み出された文字画像データを前記文字認識辞書手
段と照合し、認識対象の全ての文字および認識対象の文
字に含まれる全ての分離文字の部分文字について文字認
識を実行する文字認識手段と、 前記分離文字の部分と全体との関係を分離文字辞書とし
て記憶する分離文字辞書手段と、前記文字認識手段に前
記分離文字の小部分が部分文字列として入力された場合
に起動され、入力された部分文字列が分離文字列である
かどうかを前記分離文字辞書手段と照合して判定し、分
離文字と判定した場合は当該分離文字を最も確信度の高
い第一位候補文字として出力し、第二位候補文字として
前記部分文字列を出力する分離文字認識手段と を備えたことを特徴とする文字認識装置。 2、請求項1に記載の文字認識装置において、前記文字
画像データ読み出し手段が、前記画像データ記憶手段か
ら前記画像データを読み出し、一つの文字が複数の小部
分からなる分離文字の場合は、横書き文書の場合は縦方
向の、縦書き文書の場合は横方向の各小部分毎に切り出
し、単一の小部分からなる非分離文字の場合は全体とし
て切り出し、文字データを切り出す文字切り出し手段を
含むことを特徴とする文字認識装置。 3、請求項2に記載の文字認識装置において、前記文字
画像データ読み出し手段が、前記画像データ記憶手段か
ら前記画像データを読み出し、文字行データを切り出す
行切り出し手段を前記文字切り出し手段の前に含むこと
を特徴とする文字認識装置。 4、請求項1〜3のいずれか一項に記載の文字認識装置
において、 前記分離文字認識手段が、前記分離文字を認識した際に
、結合された分離文字と分離された部分文字列との両者
を認識結果の候補文字として出力する機能を有すること
を特徴とする文字認識装置。 5、請求項1〜4のいずれか一項に記載の文字認識装置
において、 前記分離文字認識手段が、認識対象文字が半角文字の融
合により一つの全角または横倍角文字のようにみなされ
るとき、全角または横倍角文字としての候補文字と半角
文字列としての候補文字との両者を出力する機能を有す
ることを特徴とする文字認識装置。 6、請求項1〜5のいずれか一項に記載の文字認識装置
を備えたことを特徴とするコンピュータシステム。 7、請求項1〜5のいずれか一項に記載の文字認識装置
を含むことを特徴とする光学的文字認識装置。 8、請求項1〜5のいずれか一項に記載の文字認識装置
を含むことを特徴とするイメージスキャナ。[Claims] 1. A character recognition device that recognizes character information from character image data, comprising: image data storage means for storing the character image data; means for reading the character image data from the image data storage means; character recognition dictionary means for storing, as a dictionary, information necessary for character recognition regarding all characters to be recognized and character parts of all separated characters included in the characters to be recognized; character recognition means for performing character recognition on all characters to be recognized and partial characters of all separated characters included in the characters to be recognized by comparing them with a recognition dictionary means; Separated character dictionary means for storing a separated character dictionary, and activated when a small part of the separated character is input as a partial character string to the character recognition means, and is activated to determine whether the input partial character string is a separated character string. is compared with the separated character dictionary means, and if it is determined to be a separated character, the separated character is output as the first candidate character with the highest degree of certainty, and the partial character string is outputted as the second candidate character. A character recognition device comprising a separate character recognition means. 2. In the character recognition device according to claim 1, the character image data reading means reads the image data from the image data storage means, and when one character is a separated character consisting of a plurality of small parts, horizontal writing is performed. Includes character cutting means for cutting out character data by cutting out each small part in the vertical direction in the case of a document and in the horizontal direction in the case of a vertically written document, and cutting out the entire character in the case of a non-separated character consisting of a single small part. A character recognition device characterized by: 3. In the character recognition device according to claim 2, the character image data reading means includes a line cutting means for reading the image data from the image data storage means and cutting out character line data before the character cutting means. A character recognition device characterized by: 4. The character recognition device according to any one of claims 1 to 3, wherein when the separated character recognition means recognizes the separated character, the separated character string is combined with the separated character string. A character recognition device characterized by having a function of outputting both as candidate characters as recognition results. 5. In the character recognition device according to any one of claims 1 to 4, when the character to be recognized is regarded as a single full-width or horizontal double-width character by a fusion of half-width characters, A character recognition device having a function of outputting both candidate characters as full-width or double-width characters and candidate characters as half-width character strings. 6. A computer system comprising the character recognition device according to any one of claims 1 to 5. 7. An optical character recognition device comprising the character recognition device according to any one of claims 1 to 5. 8. An image scanner comprising the character recognition device according to any one of claims 1 to 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1051383A JPH02230484A (en) | 1989-03-03 | 1989-03-03 | Character recognizing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1051383A JPH02230484A (en) | 1989-03-03 | 1989-03-03 | Character recognizing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02230484A true JPH02230484A (en) | 1990-09-12 |
Family
ID=12885426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1051383A Pending JPH02230484A (en) | 1989-03-03 | 1989-03-03 | Character recognizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02230484A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010198355A (en) * | 2009-02-25 | 2010-09-09 | Canon Inc | Image processing apparatus and method |
WO2013121648A1 (en) * | 2012-02-17 | 2013-08-22 | オムロン株式会社 | Character-recognition method and character-recognition device and program using said method |
JP2020194491A (en) * | 2019-05-30 | 2020-12-03 | キヤノン株式会社 | Information processing unit, control method and program |
-
1989
- 1989-03-03 JP JP1051383A patent/JPH02230484A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010198355A (en) * | 2009-02-25 | 2010-09-09 | Canon Inc | Image processing apparatus and method |
WO2013121648A1 (en) * | 2012-02-17 | 2013-08-22 | オムロン株式会社 | Character-recognition method and character-recognition device and program using said method |
JP2013171310A (en) * | 2012-02-17 | 2013-09-02 | Omron Corp | Character recognition method, character recognition device using the same and program |
US9224065B2 (en) | 2012-02-17 | 2015-12-29 | Omron Corporation | Character-recognition method and character-recognition device and program using said method |
JP2020194491A (en) * | 2019-05-30 | 2020-12-03 | キヤノン株式会社 | Information processing unit, control method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Casey et al. | Intelligent forms processing | |
EP2545495A2 (en) | Paragraph recognition in an optical character recognition (ocr) process | |
JPH11120293A (en) | Character recognition/correction system | |
Kompalli et al. | Challenges in OCR of Devanagari documents | |
JPH04195692A (en) | Document reader | |
JP2000293626A (en) | Method and device for recognizing character and storage medium | |
JP2000315247A (en) | Character recognizing device | |
JP7282989B2 (en) | text classification | |
US4887301A (en) | Proportional spaced text recognition apparatus and method | |
Baird | Global-to-local layout analysis | |
JPH0430070B2 (en) | ||
JP5041775B2 (en) | Character cutting method and character recognition device | |
Kumar et al. | Line based robust script identification for indianlanguages | |
JPH02230484A (en) | Character recognizing device | |
Pourreza et al. | Sub-word based Persian OCR using auto-encoder features and cascade classifier | |
Al-Barhamtoshy et al. | Arabic OCR segmented-based system | |
Dhandra et al. | Morphological reconstruction for word level script identification | |
Singh et al. | Development of a page segmentation technique for Bangla documents printed in italic style | |
Attia et al. | Histogram-based lines and words decomposition for arabic omni font-written OCR systems; enhancements and evaluation | |
Abandah et al. | Challenges and preprocessing recommendations for Madcat dataset of handwritten Arabic documents | |
Hwang et al. | Segmentation of a text printed in Korean and English using structure information and character recognizers | |
Leishman | Shape-free statistical information in optical character recognition | |
JP3151866B2 (en) | English character recognition method | |
Laskov | Classification and recognition of neume note notation in historical documents | |
JP2851102B2 (en) | Character extraction method |