JPH07282198A - Typed character recognizing device - Google Patents

Typed character recognizing device

Info

Publication number
JPH07282198A
JPH07282198A JP6076746A JP7674694A JPH07282198A JP H07282198 A JPH07282198 A JP H07282198A JP 6076746 A JP6076746 A JP 6076746A JP 7674694 A JP7674694 A JP 7674694A JP H07282198 A JPH07282198 A JP H07282198A
Authority
JP
Japan
Prior art keywords
recognition
dictionary
typeface
character
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6076746A
Other languages
Japanese (ja)
Inventor
Yumiko Shirai
祐美子 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6076746A priority Critical patent/JPH07282198A/en
Publication of JPH07282198A publication Critical patent/JPH07282198A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To select an item to be given importance at the time of executing recognition processing actually, that is, one of the improvement of a recognition rate and the reduction of recognition time so that recognition can be executed by a recognizing method to meet the said item. CONSTITUTION:A recognition processing selecting means 17 is provided in a typed character recognizing device. In the recognition processing selecting means 17, the improvement of the recognition rate or the reduction of the recognition time is selected as the item to be given importance. As for a method for improving the recognition rate, the character registration and deletion to/ from a recognition dictionary 18, and the style of the character of collation result, are managed, and the said style is collated preferentially in the subsequent recognition. As a method for reducing the recognition time, either the recognition by a simplified recognition dictionary 16 in which only the necessary characters are stored or a method to recognize the character by collating limitedly only the necessary characters in the recognition dictionary 18 can be selected. In a recognizing (retrieving) means 13, the recognition is executed by the selected method.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、時間は少々長くなって
も認識率の向上を選ぶか、あるいは認識率は少々悪くて
も認識時間の短縮を選ぶか、を任意に指定することがで
きる活字文字認識装置に関するものである。
INDUSTRIAL APPLICABILITY The present invention can arbitrarily specify whether to improve the recognition rate even if the time is slightly longer, or to shorten the recognition time even if the recognition rate is slightly worse. The present invention relates to a type character recognition device.

【0002】[0002]

【従来の技術】従来、活字文字認識装置において文字を
認識する場合、認識対象とする全種類の書体の文字パタ
ーンを登録した認識辞書を認識装置内に格納しておき、
この認識辞書と入力された活字文字パターンとを比較照
合することにより、認識を行なっていた。しかし、日本
文字の活字の種類を例にとっても、明朝体、ゴシック
体、その他の活字体等があり、これらゴシック体の中に
もフォントの異なる書体の活字が存在しており、これら
複数種類の書体を格納しなければならず、認識辞書のメ
モリ容量が膨大となるおそれがあった。そこで、比較対
象の標準パターンの数を大幅に抑圧して、認識処理を迅
速化し、かつ認識誤りも抑圧できるような方法として、
例えば、特開平4−245390号公報に記載された活
字文字認識装置が提案されている。上記装置では、帳票
に印刷された活字文字を光電変換部で2値化パターンに
ディジタル化した後、量子化パターンメモリに格納す
る。認識の際には、1つの活字文字毎に文字切り出し部
で切り出して、文字の高さと幅を検出する。一方、基準
値メモリには、フォント毎、文字形式毎に高さと幅の基
準値を分類して格納するとともに、標準パターンメモリ
には、これらの基準値の分類でグループ分けした標準パ
ターンを格納しておく。文字高さ・幅選択部は、入力し
た活字文字の高さの標準パターンがどれであるかを選択
し、認識部では選択された活字文字パターンに限定して
認識辞書と比較照合を行っている。
2. Description of the Related Art Conventionally, when a character is recognized by a type character recognition device, a recognition dictionary in which character patterns of all types of typefaces to be recognized are registered is stored in the recognition device.
The recognition is performed by comparing and collating this recognition dictionary with the input character pattern. However, there are Mincho typefaces, Gothic typefaces, other typefaces, etc. even in the case of the typefaces of Japanese characters, and among these Gothic typefaces, there are typefaces with different fonts. Had to store the typeface, and the memory capacity of the recognition dictionary might be huge. Therefore, as a method that significantly suppresses the number of standard patterns to be compared, speeds up recognition processing, and can suppress recognition errors,
For example, a type character recognition device described in Japanese Patent Laid-Open No. 4-245390 has been proposed. In the above device, the printed characters printed on the form are digitized into a binary pattern by the photoelectric conversion unit and then stored in the quantization pattern memory. At the time of recognition, each character is cut out by the character cutout unit to detect the height and width of the character. On the other hand, the standard value memory stores the standard values of height and width for each font and each character format, and the standard pattern memory stores standard patterns grouped by the classification of these standard values. Keep it. The character height / width selection part selects which standard pattern of the input print character height is, and the recognition part performs comparison and matching with the recognition dictionary only for the selected print character pattern. .

【0003】[0003]

【発明が解決しようとする課題】上記従来技術では、認
識対象とする全種類の書体の文字パターンを認識辞書に
登録してあり、認識時にはこの認識辞書と照合を行なっ
ている。このため、認識対象とする書体の増加に対応し
て、認識時間が長くなり、認識誤りも増加するという問
題が有った。また、文字の特徴等から認識辞書に登録し
てある文字パターンのうち、照合する文字パターンを限
定し、認識誤りの増加を抑圧する方法もあるが、認識辞
書には実際に運用するシステムで認識する書体以外にも
多くの書体の文字パターンが格納されている。このた
め、限定したとしても、かなりの照合パターンが存在
し、全パターンと照合する方法と比較すれば改善されて
いるが、認識対象とする書体の増加に対応して認識時間
の長期化、認識誤りは増加するという同様の問題が有っ
た。本発明の目的は、上記問題を解決するため、認識す
る際に認識率向上、認識時間の短縮等から重視する方を
選択し、選択した方法で認識することが可能な活字文字
認識装置を提供することにある。
In the above prior art, the character patterns of all types of typefaces to be recognized are registered in the recognition dictionary, and the recognition dictionary is collated at the time of recognition. Therefore, there has been a problem that the recognition time becomes longer and the recognition error also increases in response to the increase in the typefaces to be recognized. There is also a method of suppressing the increase in recognition errors by limiting the character patterns to be collated among the character patterns registered in the recognition dictionary based on the characteristics of the characters, etc. Character patterns of many typefaces are stored in addition to the typeface. For this reason, even if limited, there are considerable matching patterns, which is an improvement compared to the method of matching with all patterns, but the recognition time is extended and recognition is performed in response to the increase in the typefaces to be recognized. There was a similar problem of increasing errors. In order to solve the above problems, an object of the present invention is to provide a type character recognizing device capable of recognizing by a selected method by selecting one to be emphasized in recognition rate improvement, recognition time reduction, etc. when recognizing. To do.

【0004】[0004]

【課題を解決するための手段】上記目的を達成するた
め、本発明の活字文字認識装置は、認識時に、認識率の
向上および認識時間の短縮のどちらに重点を置くかを指
定する処理選択手段(図2の21)と、認識対象とする
書体文字を印刷した帳票を入力装置(11)から入力す
ることにより文字パターンを認識辞書(18)へ登録す
るとともに、不要となった書体の文字パターンを認識辞
書(18)から任意に削除する認識辞書登録・削除手段
(23)と、認識率の向上を図るため、帳票認識時に認
識辞書(18)と一致した照合結果の書体を登録する照
合結果辞書登録手段(24)と、それ以降の認識では、
照合結果書体登録手段(24)により登録された書体を
優先的に照合する認識辞書照合管理手段(25)と、認
識時間の短縮を図るため、登録文字を限定し、認識対象
とする書体のみを格納した簡易認識辞書(16)を認識
辞書(18)から任意に作成する簡易辞書作成手段(2
2)と、認識時間の短縮を図るため、認識する帳票によ
り、認識辞書(18)内の照合する書体を限定する認識
帳票書体管理手段(26)とを具備することを特徴とし
ている。
In order to achieve the above object, the type character recognizing device of the present invention is a process selecting means for designating whether to improve the recognition rate or reduce the recognition time at the time of recognition. (21 in FIG. 2) and a form on which the typeface characters to be recognized are printed are input from the input device (11) to register the character pattern in the recognition dictionary (18), and the character pattern of the typeface that is no longer needed Recognition dictionary registration / deletion means (23) that arbitrarily deletes the recognition dictionary (18), and a collation result that registers the typeface of the collation result that matches the recognition dictionary (18) at the time of form recognition in order to improve the recognition rate. In the dictionary registration means (24) and the recognition thereafter,
A recognition dictionary collation management unit (25) that preferentially collates the typefaces registered by the collation result typeface registration unit (24), and in order to reduce the recognition time, the registered characters are limited and only the typefaces to be recognized are recognized. A simple dictionary creating means (2) for arbitrarily creating the stored simple recognition dictionary (16) from the recognition dictionary (18)
2) and a recognition form typeface managing means (26) for limiting the typeface to be collated in the recognition dictionary (18) according to the form to be recognized in order to shorten the recognition time.

【0005】[0005]

【作用】本発明においては、認識する際に最も重視する
項目を、認識率の向上および認識時間の短縮のいずれか
を選択し、選択された認識方法で認識処理を実行する。
先ず、認識率向上を重視する項目として選択した場合、
認識結果となった書体名称を登録、管理する。認識時に
認識対象文字と認識辞書の比較照合を行って、照合の結
果を出力するのであるが、この場合に照合の結果一致し
た文字の書体名称を登録する。これにより、次の認識対
象文字と認識辞書との照合を行う際に、登録してある書
体の中から優先的に照合を行うことにより、認識誤りを
抑制し、認識率の向上を図ることができる。また、認識
する際の処理以外にも、認識辞書への新規認識対象文字
の登録、不要となった文字の登録削除を行うようにし
て、認識辞書のメンテナンスを行うことにより認識率の
向上を図る。従来の認識辞書は、作成された時点で固定
されており、内容を使用者が任意に削除したり、新規に
登録することはできなかった。本発明では、使用者が任
意に削除したり、登録できるようにした。次に、認識時
間の短縮を重視する項目として選択した場合、認識辞書
の操作を行う。認識辞書には、多くの書体の文字が格納
されているので、この認識辞書から個別の帳票を認識す
るために必要な書体文字のみを格納した簡易認識辞書を
作成する。この簡易認識辞書で認識時に照合を行なうこ
とにより、認識時間の短縮を図ることが可能である。ま
た、簡易認識辞書の作成のほかに、認識辞書内で認識す
る帳票により照合する書体を限定する方法も用いる。こ
の場合、認識する帳票に対応して認識対象となる書体を
登録する方法を利用し、認識辞書のうち認識対象となる
書体のみを照合することにより、認識時間の短縮を図
る。これによって、認識時に重視する点に合った方法で
認識することが可能となる。
In the present invention, the item that is most important when recognizing is selected from the one of the improvement of the recognition rate and the reduction of the recognition time, and the recognition process is executed by the selected recognition method.
First, if you select as an item that emphasizes the recognition rate improvement,
Register and manage the typeface name that is the recognition result. At the time of recognition, the recognition target character and the recognition dictionary are compared and collated, and the collation result is output. In this case, the typeface name of the character that coincides as a result of collation is registered. As a result, when the next character to be recognized and the recognition dictionary are matched, the recognition error can be suppressed and the recognition rate can be improved by preferentially matching the registered typefaces. it can. In addition to the recognition process, new recognition target characters are registered in the recognition dictionary and unnecessary characters are registered and deleted to maintain the recognition dictionary, thereby improving the recognition rate. . The conventional recognition dictionary is fixed at the time of creation, and the contents cannot be arbitrarily deleted by the user or newly registered. In the present invention, the user can arbitrarily delete or register. Next, when it is selected as an item that emphasizes reduction of recognition time, the recognition dictionary is operated. Since many characters of typefaces are stored in the recognition dictionary, a simple recognition dictionary that stores only the typeface characters necessary for recognizing individual forms from this recognition dictionary is created. It is possible to shorten the recognition time by collating at the time of recognition with this simple recognition dictionary. In addition to the creation of the simple recognition dictionary, a method of limiting the typeface to be collated by the form recognized in the recognition dictionary is also used. In this case, the recognition time is shortened by using the method of registering the typeface to be recognized corresponding to the form to be recognized and collating only the typeface to be recognized in the recognition dictionary. As a result, it is possible to perform recognition by a method suitable for the point of importance at the time of recognition.

【0006】[0006]

【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の一実施例を示す活字文字認
識装置の概略構成図である。図1において、11は入力
手段、12はメモリ手段、13は認識手段、14はコー
ド変換手段、15は出力手段、18は認識辞書である。
これらは従来から設けられている手段であって、本発明
では、新しく認識処理選択手段17と簡易認識辞書16
とを設ける。認識辞書18および簡易認識辞書16は、
認識(検索)手段13内に格納されている。入力手段1
1から入力された画像情報をメモリ手段12に一時的に
格納した後、これを読み出して認識(検索)手段13に
入力し、画像情報の認識を行なう。活字認識装置内に設
けられている認識処理選択手段17は、このときに照合
する簡易認識辞書16または認識辞書18を操作するこ
とが可能である。認識処理選択手段17では、認識する
際に重視する項目として認識率の向上、または認識時間
の短縮を選択する。認識率向上を選択した場合は、認識
辞書への文字登録、削除を行なう認識辞書のメンテナン
ス、または実際の認識における認識率向上を図る処理方
法を選択する。
Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 1 is a schematic configuration diagram of a type character recognition apparatus showing an embodiment of the present invention. In FIG. 1, 11 is an input means, 12 is a memory means, 13 is a recognition means, 14 is a code conversion means, 15 is an output means, and 18 is a recognition dictionary.
These are means provided conventionally, and in the present invention, a new recognition process selecting means 17 and a simple recognition dictionary 16 are newly added.
And. The recognition dictionary 18 and the simple recognition dictionary 16 are
It is stored in the recognition (search) means 13. Input means 1
The image information input from 1 is temporarily stored in the memory means 12, then read out and input to the recognition (search) means 13 to recognize the image information. The recognition process selection means 17 provided in the type recognition device can operate the simple recognition dictionary 16 or the recognition dictionary 18 to be collated at this time. The recognition processing selection means 17 selects improvement of the recognition rate or reduction of the recognition time as an item to be emphasized at the time of recognition. When the recognition rate improvement is selected, a processing method for improving the recognition rate in actual recognition is selected.

【0007】認識辞書への文字登録は、予め決められた
フォーマットの認識辞書登録用帳票(後述の図4の41
参照)に新規に認識対象とする文字を印刷し、入力手段
11より入力する。入力された画像情報は一時的にメモ
リ手段12に格納される。この画像情報を認識処理選択
手段17がメモリ手段12から受け取り、その画像情報
をもとに登録用の標準文字パターンを作成する。そし
て、この標準文字パターンを認識辞書18に登録する。
また、既に登録してある標準文字パターンを削除する場
合、認識処理選択手段17は認識辞書18の内容表示を
行ない、削除する書体名称(指定した書体の全文字対
象)または書体名称と文字(指定した書体のうち個別文
字のみ対象)を指定することにより、標準文字パターン
の削除を行なう。このようにして、認識辞書18への文
字パターンの登録、削除を行なう。認識処理方法を選択
した場合、認識処理選択手段17では、照合の結果の文
字属性、書体の管理を行なう。文字属性とは、数字、英
字、漢字等の種類である。認識(検索)手段13は認識
辞書18に格納してある文字パターンと、メモリ手段1
2から読みだした画像情報との照合を行ない、認識結果
をコード変換手段14に出力する。認識可能であった結
果については、1文字毎にその文字の属性、認識辞書1
8と照合で一致した書体名称を認識処理選択手段17に
出力する。認識処理選択手段17では、文字の属性、書
体名称を管理し、それ以降認識対象となる文字の属性で
同一のものが有る場合には、以前に照合で一致した書体
名称を認識(検索)手段13に出力する。認識(検索)
手段13では、受け取った書体名称の文字から優先的に
照合を行なう。この認識処理により、認識率の向上を図
る。
Characters are registered in the recognition dictionary by using a recognition dictionary registration form (41 in FIG. 4 which will be described later) in a predetermined format.
A character to be newly recognized is printed in (see) and is input from the input unit 11. The input image information is temporarily stored in the memory means 12. The recognition processing selection means 17 receives this image information from the memory means 12, and creates a standard character pattern for registration based on the image information. Then, this standard character pattern is registered in the recognition dictionary 18.
When deleting a standard character pattern that has already been registered, the recognition processing selection means 17 displays the contents of the recognition dictionary 18 and deletes the typeface name (for all characters of the specified typeface) or typeface name and character (designation). The standard character pattern is deleted by specifying the individual characters of the typeface. In this way, the character pattern is registered and deleted in the recognition dictionary 18. When the recognition processing method is selected, the recognition processing selection means 17 manages the character attributes and typefaces as a result of collation. Character attributes are types such as numbers, letters, and kanji. The recognition (search) means 13 stores the character patterns stored in the recognition dictionary 18 and the memory means 1.
The image information read from 2 is collated, and the recognition result is output to the code conversion means 14. For the result that can be recognized, the attribute of each character, the recognition dictionary 1
The name of the typeface that matches with No. 8 is output to the recognition processing selection unit 17. The recognition processing selection means 17 manages the attribute of the character and the typeface name, and if there is the same attribute of the character to be recognized thereafter, the typename that has been matched in the previous matching is recognized (searched). It outputs to 13. Recognition (search)
The means 13 preferentially collates the characters of the received typeface name. By this recognition processing, the recognition rate is improved.

【0008】認識処理選択手段17で認識時間の短縮を
選択した場合には、認識辞書18の操作を行なう。認識
時間の短縮を図る方法としては、認識辞書18から簡
易認識辞書16を作成する方法と、認識辞書18に格
納されている文字のうち、帳票により照合を行なう書体
を限定して認識を行なう方法が選択できる。後者の場合
には、簡易認識辞書16を作成せずに、認識辞書18の
中に照合に使用される書体を指定して、それ以外の書体
は照合できないようにする。簡易認識辞書16を作成す
る方法を選択した場合、認識処理選択手段17では、認
識する帳票により認識対象となる書体の文字のみを認識
辞書18から選択し、簡易認識辞書16を作成し、認識
(検索)手段13に認識時に照合する辞書として簡易認
識辞書16を指定する。認識(検索)手段13では、指
定された簡易認識辞書16から順次文字を読みだし照合
を行なう。照合する文字を限定する方法を選択した場
合、認識処理選択手段17では、帳票により認識対象と
なる書体について認識(検索)手段13に認識前に出力
する。認識(検索)手段13では、受け取った書体の文
字についてのみ認識辞書18から読みだし、照合を行な
う。このように、認識処理選択手段17で認識時に重視
する項目に合った方法で認識処理を行なった結果、コー
ド変換手段14でコードに変換され、出力手段15によ
り出力される。
When the recognition process selecting means 17 selects to shorten the recognition time, the recognition dictionary 18 is operated. As a method for shortening the recognition time, a method of creating the simple recognition dictionary 16 from the recognition dictionary 18 and a method of recognizing the characters stored in the recognition dictionary 18 by limiting the typeface to be collated by the form Can be selected. In the latter case, the simple recognition dictionary 16 is not created, and the typeface used for collation is specified in the recognition dictionary 18 so that the other typefaces cannot be collated. When the method of creating the simple recognition dictionary 16 is selected, the recognition processing selecting unit 17 selects only the characters of the typeface to be recognized by the form to be recognized from the recognition dictionary 18, creates the simple recognition dictionary 16, and recognizes ( A simple recognition dictionary 16 is designated in the search means 13 as a dictionary to be matched at the time of recognition. The recognition (search) means 13 sequentially reads out characters from the designated simple recognition dictionary 16 and performs collation. When the method of limiting the characters to be collated is selected, the recognition processing selection unit 17 outputs the typeface to be recognized by the form to the recognition (search) unit 13 before recognition. The recognition (search) means 13 reads only the characters of the received typeface from the recognition dictionary 18 and collates them. As described above, as a result of the recognition processing selecting means 17 performing the recognition processing by a method suitable for the item to be emphasized at the time of recognition, the code converting means 14 converts the code into a code and the output means 15 outputs the code.

【0009】図2は、図1における認識処理選択手段の
詳細ブロック図である。認識処理選択手段17は、図2
に示すように、認識率向上か認識時間短縮かを選択し、
時間短縮の場合には、簡易辞書作成か照合書体限定処理
かを選択する処理選択部21と、時間短縮の場合の簡易
認識辞書作成が選択された場合に起動される簡易認識辞
書作成部22と、時間短縮の場合の照合書体限定処理が
選択された場合に起動される認識帳票書体管理部26
と、認識率向上が選択された場合の認識辞書への登録、
削除を行う認識辞書登録・削除部23と、同じく認識率
向上が選択された場合の照合結果の書体を登録する照合
結果書体登録部24と、登録された書体を照合管理する
認識辞書照合管理部25とからなる。認識処理選択手段
17の動作について、4つの例を取り説明する。認識率
向上を図るための方法としては、認識辞書18のメン
テナンスとしての新規認識対象文字の登録、不要となっ
た文字の削除を行なう場合(登録・削除部24)、認
識辞書18との照合時に一致した書体を管理し認識を行
なう場合(照合管理部25)について説明する。また、
認識時間の短縮を図るための方法としては、認識に必
要な文字のみを格納した簡易認識辞書16を作成し認識
を行なう場合(簡易認識辞書作成部22)、認識辞書
18に格納してある文字のうち、認識する帳票により照
合する書体を限定し認識を行なう場合(書体管理部2
6)について説明する。
FIG. 2 is a detailed block diagram of the recognition processing selection means in FIG. The recognition processing selection means 17 is shown in FIG.
As shown in, select whether to improve the recognition rate or shorten the recognition time,
In the case of shortening the time, a process selecting unit 21 that selects simple dictionary creation or collation typeface limiting process, and a simple recognition dictionary creating unit 22 that is started when the simple recognition dictionary creating in the case of time shortening is selected. , The recognition form typeface management unit 26 that is activated when the collation typeface limiting process for time reduction is selected
And registration in the recognition dictionary when the recognition rate improvement is selected,
A recognition dictionary registration / deletion unit 23 that performs deletion, a verification result typeface registration unit 24 that registers a typeface of the verification result when the recognition rate improvement is selected, and a recognition dictionary collation management unit that collates and manages the registered typeface. 25 and. The operation of the recognition processing selection means 17 will be described by taking four examples. As a method for improving the recognition rate, when a new recognition target character is registered as the maintenance of the recognition dictionary 18 and an unnecessary character is deleted (registration / deletion unit 24), at the time of matching with the recognition dictionary 18, A case where the matched typeface is managed and recognized (matching management unit 25) will be described. Also,
As a method for reducing the recognition time, when the simple recognition dictionary 16 storing only the characters necessary for the recognition is created and the recognition is performed (the simple recognition dictionary creating unit 22), the characters stored in the recognition dictionary 18 are used. Among the above, when recognizing by limiting the typeface to be collated by the form to be recognized (typeface management unit 2
6) will be described.

【0010】最初に認識率向上のため、認識辞書18
のメンテナンスとしての新規認識対象文字の登録、およ
び不要となった文字の削除について説明する。図3は、
図1における認識辞書のフォーマット構成図であり、図
4は、認識辞書に登録するための認識辞書登録帳票の一
例を示すフォーマット図である。ゴシック体の中には、
フォントの種類として01の文字書体があるとする。い
ま、新規にゴシック体01の文字を認識対象とするた
め、認識辞書18に文字パターンを登録する場合、図4
に示すような予め決められたフォーマットの認識辞書登
録帳票41に、ゴシック体01の文字を印刷する。認識
辞書登録帳票41内の活字文字印刷領域43は、その内
側の画像が認識辞書18に登録される標準文字パターン
の元として使用される領域であることを示し、この活字
文字印刷領域43の上部にある対応文字42は、下部の
活字文字印刷領域43内に印刷された文字パターンと対
応する文字である。この活字文字印刷領域43内に新規
に文字パターンとして登録するゴシック体01を印刷し
た認識辞書登録帳票41を入力手段11から入力し、入
力された画像情報をメモリ手段12に格納する。認識処
理選択手段17では、まず図2に示す処理選択部21で
認識辞書18の登録が選択され、新規に登録する書体名
称である‘ゴシック体01’を受け取る。
First, in order to improve the recognition rate, the recognition dictionary 18
The registration of new recognition target characters and the deletion of unnecessary characters will be described as maintenance of. Figure 3
FIG. 4 is a format configuration diagram of the recognition dictionary in FIG. 1, and FIG. 4 is a format diagram showing an example of a recognition dictionary registration form for registering in the recognition dictionary. In Gothic,
It is assumed that there is a 01 typeface as a font type. Now, in order to newly recognize the character of the Gothic type 01 as the recognition target, when the character pattern is registered in the recognition dictionary 18, as shown in FIG.
The characters of the Gothic font 01 are printed on the recognition dictionary registration form 41 having a predetermined format as shown in FIG. The typed character print area 43 in the recognition dictionary registration form 41 indicates that the image inside is the area used as the source of the standard character pattern registered in the recognition dictionary 18, and the upper part of this typed character print area 43. The corresponding character 42 in is a character corresponding to the character pattern printed in the lower type character printing area 43. The recognition dictionary registration form 41 in which the Gothic font 01 to be newly registered as a character pattern is printed in the print character printing area 43 is input from the input unit 11, and the input image information is stored in the memory unit 12. In the recognition process selection means 17, first, the process selection unit 21 shown in FIG. 2 selects registration of the recognition dictionary 18, and receives the newly registered typeface name “Gothic 01”.

【0011】次に、メモリ手段12から入力された認識
辞書登録帳票41の画像情報を認識辞書登録・削除部2
3が受け取ると、文字パターンが存在する活字文字印刷
領域43内の画像から文字パターンを抽出し、対応する
文字43と関連付けを行なう。この文字パターンを認識
辞書18に登録する標準文字パターンのドット密度に合
わせて変換を行ない、標準文字パターンを作成する。書
体名称‘ゴシック体01’は、図3に示す認識辞書18
内の書体名称項目31に出力され、また作成された標準
文字パターンは、標準文字パターン格納領域32におけ
るゴシック体01標準文字パターン格納領域34内の対
応文字35に対応した領域に格納される(斜線で示す領
域)。これにより、新規にゴシック体01の文字パター
ンが、認識辞書18に登録された。このとき、既に書体
名称項目31に‘ゴシック体01’が存在する場合に
は、書体名称を変更して登録するか、同一の書体名称と
して標準文字パターンを上書き登録するか、いずれか一
方を選択する。
Next, the image information of the recognition dictionary registration form 41 input from the memory means 12 is added to the recognition dictionary registration / deletion unit 2.
When 3 receives, the character pattern is extracted from the image in the typed character print area 43 in which the character pattern exists and is associated with the corresponding character 43. This character pattern is converted according to the dot density of the standard character pattern registered in the recognition dictionary 18 to create a standard character pattern. The typeface name “Gothic 01” is the recognition dictionary 18 shown in FIG.
The standard character pattern that is output to and created in the typeface name item 31 in the standard character pattern storage area 32 is stored in the area corresponding to the corresponding character 35 in the standard character pattern storage area 34 of the Gothic 01 (shaded line). Area). As a result, a new Gothic 01 character pattern is registered in the recognition dictionary 18. At this time, if'Gothic 01 'already exists in the typeface name item 31, either change the typeface name and register it, or register the standard character pattern as the same typeface name by overwriting, and select either one. To do.

【0012】認識辞書18に対して、存在しない書体名
称を再指定した場合には、再指定した書体名称を書体名
称項目31に出力し、ゴシック体01の登録と同様に標
準パターンを登録し、また上書き登録の場合には、書体
名称は出力せずに、標準文字パターンの上書きを行なう
ことにより、認識辞書18に登録する。既にゴシック体
01の文字パターンが格納されている認識辞書18にお
いて、ゴシック体01の文字パターンを削除する場合に
は、認識処理選択手段17の処理選択部21で認識辞書
18の文字パターンの削除が選択される。認識辞書登録
・削除部23では、認識辞書18内の書体名称項目3
1、標準文字パターン格納領域32に格納してある標準
文字パターンを読み出す。読み出された書体名称とそれ
に対応する標準文字パターンを表示し、削除する書体名
称(指定した書体に該当する全文字対象)または書体名
称と文字(指定した書体のうち個別の文字のみ対象)の
指定を受け取り、認識辞書18の内容変更を行なう。削
除指定が書体名称‘ゴシック体01’で、その書体に属
する文字全てを削除する場合は、認識辞書18内の書体
名称項目31内の‘ゴシック体01’を消去し無効と
し、ゴシック体01の標準文字パターン格納領域34を
クリアし、未使用とする。また、削除指定が書体名称
‘ゴシック体01’、文字‘A’で、ゴシック体01書
体の文字‘A’についてのみの削除の場合には、認識辞
書18内の標準文字パターン格納領域32のゴシック体
01、Aの標準文字パターンに対応する領域33を消去
し、未使用領域とすることにより、認識辞書18から標
準文字パターンを削除する。
When a nonexistent typeface name is redesignated in the recognition dictionary 18, the redesignated typeface name is output to the typeface name item 31, and a standard pattern is registered in the same manner as the Gothic type 01 registration. In the case of overwriting registration, the typeface name is not output, and the standard character pattern is overwritten to be registered in the recognition dictionary 18. When deleting the character pattern of Gothic 01 in the recognition dictionary 18 in which the character pattern of Gothic 01 is already stored, the character selection of the recognition dictionary 18 is deleted by the process selection unit 21 of the recognition process selection means 17. To be selected. In the recognition dictionary registration / deletion unit 23, the typeface name item 3 in the recognition dictionary 18
1. Read the standard character pattern stored in the standard character pattern storage area 32. Displays the read typeface name and the corresponding standard character pattern and deletes the typeface name (for all characters corresponding to the specified typeface) or the typeface name and characters (for individual characters of the specified typeface) Upon receiving the designation, the contents of the recognition dictionary 18 are changed. When the deletion designation is the font name'Gothic 01 'and all the characters belonging to that font are deleted, the'Gothic 01' in the font name item 31 in the recognition dictionary 18 is deleted and invalidated, and the Gothic 01 The standard character pattern storage area 34 is cleared to be unused. Further, when the deletion designation is the font name “Gothic 01” and the character “A” and only the character “A” of the Gothic 01 font is deleted, the Gothic in the standard character pattern storage area 32 in the recognition dictionary 18 is deleted. The standard character pattern is deleted from the recognition dictionary 18 by erasing the area 33 corresponding to the standard character pattern of the body 01 and A to make it an unused area.

【0013】図5は、図2における認識辞書照合管理部
内に設けられた照合時書体管理テーブルのフォーマット
図である。次に、認識率向上のため、認識辞書18との
照合時に一致した書体の管理を行って認識する方法につ
いて説明する。認識処理選択手段17では、まず処理選
択部21で認識率向上を図る認識処理が選択される。次
に、照合結果書体登録部24は図5に示す照合時書体管
理テーブル51を作成し、属性52、書体名称53を消
去し、未使用領域とする。認識辞書照合管理部25で
は、認識(検索)手段13で照合する辞書として認識辞
書18を指定する。認識(検索)手段13では、認識す
る画像をメモリ手段12から読み出し、認識辞書18に
格納してある文字と順次照合を行なう。照合を行なった
結果が出力される毎に、一致した文字の属性と書体名称
を照合結果書体登録部24に出力する。最初に照合で一
致した文字が数字‘3’、書体‘ゴシック体01’の場
合、照合結果書体登録部24では、受け取った文字の属
性‘数字’、書体名称‘ゴシック体01’を照合時書体
管理テーブル51の属性52、書体名称53に出力す
る。
FIG. 5 is a format diagram of a collation typeface management table provided in the recognition dictionary collation management unit in FIG. Next, a method for managing and recognizing a matched typeface at the time of matching with the recognition dictionary 18 in order to improve the recognition rate will be described. In the recognition process selection means 17, first, the process selection unit 21 selects a recognition process for improving the recognition rate. Next, the collation result typeface registration unit 24 creates the collation typeface management table 51 shown in FIG. 5, deletes the attribute 52 and the typeface name 53, and sets it as an unused area. The recognition dictionary matching management unit 25 specifies the recognition dictionary 18 as a dictionary to be matched by the recognition (search) means 13. The recognition (retrieval) means 13 reads the recognized image from the memory means 12 and sequentially collates it with the characters stored in the recognition dictionary 18. Every time the result of collation is output, the attribute of the matched character and the typeface name are output to the collation result typeface registration unit 24. When the first matched character is the number “3” and the typeface “Gothic 01”, the collation result typeface registration unit 24 sets the received attribute “number” and typeface name “Gothic 01” at the time of collation. It is output to the attribute 52 and the typeface name 53 of the management table 51.

【0014】認識辞書照合管理部25では、照合時書体
管理テーブル51の内容を参照し、次に、認識対象とす
る文字の属性が数字である場合、照合時書体管理テーブ
ル51内に存在する‘ゴシック体01’を認識(検索)
手段13に出力する。認識(検索)手段13では、受け
取った書体‘ゴシック体01’から優先的に照合を行な
う。照合結果は、一文字単位に属性、書体名称を照合結
果書体登録部24に出力されるが、照合時書体管理テー
ブル51に既に存在するものである場合にはテーブルへ
の出力はしない。また、照合を行なう文字単位に認識辞
書照合管理部25では照合時書体管理テーブル51の参
照を行なうが、テーブルに属性52が存在しない場合
は、認識(検索)手段13への優先的に照合する書体の
出力は行なわず、認識(検索)手段13は認識辞書18
に格納してある文字を順次読みだし、照合を行なう。
The recognition dictionary collation management unit 25 refers to the contents of the collation typeface management table 51. Next, if the attribute of the character to be recognized is a number, it exists in the collation typeface management table 51 '. Recognize Gothic 01 '(search)
Output to the means 13. The recognition (search) means 13 preferentially collates the received typeface'Gothic 01 '. The collation result is output to the collation result typeface registration unit 24 with the attribute and typeface name on a character-by-character basis, but if it is already present in the collation typeface management table 51, it is not output to the table. Further, the recognition dictionary collation management unit 25 refers to the collation typeface management table 51 for each character to be collated, but if the attribute 52 does not exist in the table, collation is preferentially performed to the recognition (search) means 13. The typeface is not output, and the recognition (search) means 13 uses the recognition dictionary 18
The characters stored in are sequentially read out and collated.

【0015】図6は、図2における認識帳票書体管理部
に設けられた帳票別書体管理テーブルのフォーマット図
である。次に、認識時間短縮のため、認識対象となる必
要な文字のみを格納した簡易認識辞書16を作成し、認
識を行なう方法について、帳票01タイプを認識する場
合を例に取り説明する。認識処理選択手段17では、ま
ず処理選択部21で認識時間短縮を図る認識処理のうち
簡易認識辞書16を作成する方法が選択される。次に、
簡易辞書作成部22では、図6に示す帳票別書体管理テ
ーブル61を参照し、帳票タイプ項目62から帳票01
を検索する。次に、帳票01に対応する属性63と書体
名称64‘数字 ゴシック体01’‘英字 ゴシック体
02’を読み出す。読み出された属性の書体文字である
ゴシック体01の数字とゴシック体02の英字を認識
辞書18から読み出し、簡易認識辞書16に登録する。
要するに、必要な属性と書体名称のものだけを照合時書
体管理テーブル51から読み出し、簡易認識辞書16に
登録する。読み出して作成した簡易認識辞書16を認識
時に照合する辞書として、認識(検索)手段13に指定
する。認識(検索)手段13では、認識時に照合を行な
う辞書として指定された簡易認識辞書16から順次文字
を読みだし照合を行なう。
FIG. 6 is a format diagram of a form-specific typeface management table provided in the recognition form typeface management unit in FIG. Next, in order to shorten the recognition time, a method for creating and recognizing the simple recognition dictionary 16 in which only necessary characters to be recognized are stored will be described by taking the case of recognizing the form 01 type as an example. In the recognition processing selection means 17, first, the processing selection unit 21 selects a method of creating the simple recognition dictionary 16 among the recognition processing for reducing the recognition time. next,
The simple dictionary creating unit 22 refers to the form-specific typeface management table 61 shown in FIG. 6, and selects form 01 from the form type item 62.
To search. Next, the attribute 63 corresponding to the form 01 and the typeface name 64'numerical Gothic 01''English letter Gothic 02 'are read. The numbers of the Gothic font 01 and the English letters of the Gothic font 02, which are the typeface characters of the read attributes, are read from the recognition dictionary 18 and registered in the simple recognition dictionary 16.
In short, only the required attributes and typeface names are read from the collation typeface management table 51 and registered in the simple recognition dictionary 16. The simple recognition dictionary 16 read out and created is designated to the recognition (search) means 13 as a dictionary to be collated at the time of recognition. The recognition (search) means 13 sequentially reads out characters from the simple recognition dictionary 16 designated as a dictionary to be matched at the time of recognition and performs matching.

【0016】次に、認識時間短縮のため、認識辞書18
に格納してある文字のうち、認識する帳票により照合す
る書体を限定し認識を行なう方法について、帳票01タ
イプを認識する場合を例に取り説明する。認識処理選択
手段17では、まず処理選択部21で認識時間短縮を図
る認識処理のうち照合する書体を限定する方法が選択さ
れる。次に、認識帳票書体管理部26では、帳票別書体
管理テーブル61を参照し、帳票タイプ項目62から帳
票01を検索する。次に、帳票01に対応する属性63
と書体名称64‘数字 ゴシック体01’‘英字 ゴシ
ック体02’を読み出す。読み出した属性、書体名称で
ある ゴシック体01の数字とゴシック体02の英字を
認識(検索)手段13に出力する。認識(検索)手段1
3では、認識辞書18から読み出す際に、数字 ゴシッ
ク体01と英字 ゴシック体02のみ読みだすよう限定
し、照合を行なう。すなわち、限定して読み出す処理で
は、新たに簡易認識辞書を作成することなく、認識帳票
書体管理部26がプログラムにより帳票別書体管理テー
ブルから選択して読み出した書体のみを、認識(検索)
手段13に転送することにより、認識(検索)手段13
は入力されたパターンとその書体のパターンとを照合し
て認識する。
Next, in order to reduce the recognition time, the recognition dictionary 18
A method of limiting the typefaces to be collated by the form to be recognized among the characters stored in the form and recognizing the typeface will be described taking the case of recognizing the form 01 type as an example. In the recognition process selection means 17, first, the process selection unit 21 selects a method of limiting the collated typeface among the recognition processes for reducing the recognition time. Next, the recognition form typeface management unit 26 refers to the form-specific typeface management table 61 and retrieves the form 01 from the form type item 62. Next, the attribute 63 corresponding to the form 01
And typeface name 64 'number Gothic 01''Alphabet Gothic 02' is read. The read attributes and the typeface name, ie, the numbers of the Gothic font 01 and the letters of the Gothic font 02 are output to the recognition (search) means 13. Recognition (search) means 1
In No. 3, when reading from the recognition dictionary 18, only the number Gothic type 01 and the English letter Gothic type 02 are limited to be read, and collation is performed. That is, in the limited read process, the recognition form typeface management unit 26 recognizes (searches) only the typefaces selected and read from the type-specific typeface management table by the program without creating a new simple recognition dictionary.
By transferring to the means 13, the recognition (search) means 13
Recognizes the input pattern by collating it with the typeface pattern.

【0017】[0017]

【発明の効果】以上説明したように、本発明によれば、
活字文字認識装置における認識において、認識率の向上
および認識時間の短縮のいずれかを重視する認識方法と
して選択することにより、その認識方法で認識すること
が可能である。従って、認識する際に、使用者の実情に
適合した認識方法で認識処理をすることができる。
As described above, according to the present invention,
In the recognition by the type character recognition device, it is possible to recognize by the recognition method by selecting it as the recognition method that emphasizes either the improvement of the recognition rate or the reduction of the recognition time. Therefore, when recognizing, the recognition process can be performed by a recognition method suitable for the actual situation of the user.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示す活字文字認識装置の概
略構成図である。
FIG. 1 is a schematic configuration diagram of a type character recognition device showing an embodiment of the present invention.

【図2】図1における認識処理選択手段の詳細ブロック
図である。
FIG. 2 is a detailed block diagram of a recognition processing selection unit in FIG.

【図3】図1における認識辞書のフォーマット構成図で
ある。
FIG. 3 is a format configuration diagram of a recognition dictionary in FIG.

【図4】図1の認識辞書に登録するための認識辞書登録
帳票フォーマット図である。
4 is a recognition dictionary registration form format diagram for registering in the recognition dictionary of FIG. 1. FIG.

【図5】図2における照合結果書体登録部が作成する照
合時書体管理テーブルのフォーマット図である。
5 is a format diagram of a collation typeface management table created by a collation result typeface registration unit in FIG. 2;

【図6】図2における認識帳票書体管理部が作成する帳
票別書体管理テーブルのフォーマット図である。
FIG. 6 is a format diagram of a form-specific typeface management table created by a recognition form typeface management unit in FIG.

【符号の説明】[Explanation of symbols]

11…入力手段、12…メモリ手段、13…認識(検
索)手段、14…コード変換手段、15…出力手段、1
6…簡易認識辞書、17…認識処理選択手段、18…認
識辞書、21…処理選択部、22…簡易辞書作成部、2
3…認識辞書登録・削除部、24…照合結果書体登録
部、25…認識辞書総合制御部、26…認識帳票書体管
理部、31…書体名称項目、32…標準文字パターン格
納領域、33…ゴシック体01 A 標準文字パターン格納領域、34…ゴシック体01
標準文字パターン格納領域、35…対応文字、41…認
識辞書登録帳票、42…対応文字、43…活字文字印刷
領域、51…照合時書体管理テーブル、52…属性、5
3…書体名称、61…帳票別書体管理テーブル、62…
帳票タイプ項目、63…属性、64…書体名称。
11 ... Input means, 12 ... Memory means, 13 ... Recognition (search) means, 14 ... Code conversion means, 15 ... Output means, 1
6 ... Simple recognition dictionary, 17 ... Recognition process selecting means, 18 ... Recognition dictionary, 21 ... Process selecting section, 22 ... Simple dictionary creating section, 2
3 ... Recognition dictionary registration / deletion unit, 24 ... Collation result font registration unit, 25 ... Recognition dictionary integrated control unit, 26 ... Recognition form font management unit, 31 ... Font name item, 32 ... Standard character pattern storage area, 33 ... Gothic Body 01 A standard character pattern storage area, 34 ... Gothic 01
Standard character pattern storage area, 35 ... Corresponding character, 41 ... Recognition dictionary registration form, 42 ... Corresponding character, 43 ... Printed character printing area, 51 ... Collation type management table, 52 ... Attribute, 5
3 ... font name, 61 ... font management table by form, 62 ...
Form type item, 63 ... Attribute, 64 ... Font name.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 認識時に、認識率の向上および認識時間
の短縮のどちらに重点を置くかを指定する処理選択手段
と、 認識対象とする書体文字を印刷した帳票を入力装置から
入力することにより文字パターンを認識辞書へ登録する
とともに、不要となった書体の文字パターンを認識辞書
から任意に削除する認識辞書登録・削除手段と、 認識率の向上を図るため、帳票認識時に認識辞書と一致
した照合結果の書体を登録する照合結果辞書登録手段
と、 それ以降の認識では、上記照合結果書体登録手段により
登録された書体を優先的に照合する認識辞書照合管理手
段と、 認識時間の短縮を図るため、登録文字を限定し、認識対
象とする書体のみを格納した簡易認識辞書を認識辞書か
ら任意に作成する簡易辞書作成手段と、 認識時間の短縮を図るため、認識する帳票により、上記
認識辞書内の照合する書体を限定する認識帳票書体管理
手段とを具備することを特徴とする活字文字認識装置。
1. A process selecting means for designating whether to prioritize improvement of recognition rate or reduction of recognition time at the time of recognition, and by inputting a form on which a typeface character to be recognized is printed from an input device. In addition to registering character patterns in the recognition dictionary, the recognition dictionary registration / deletion means that deletes unnecessary character patterns of typefaces from the recognition dictionary, and in order to improve the recognition rate, matches the recognition dictionary at the time of form recognition. A collation result dictionary registration means for registering the typeface of the collation result, and a recognition dictionary collation management means for preferentially collating the typeface registered by the collation result typeface registration means in the subsequent recognition, and reduction of the recognition time. Therefore, the number of registered characters is limited, and a simple dictionary creating means for arbitrarily creating a simple recognition dictionary that stores only the typefaces to be recognized is designed to reduce the recognition time. By recognizing the form, printed characters recognition apparatus characterized by comprising a recognition document font management means for limiting the typeface to match in the recognition dictionary.
JP6076746A 1994-04-15 1994-04-15 Typed character recognizing device Pending JPH07282198A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6076746A JPH07282198A (en) 1994-04-15 1994-04-15 Typed character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6076746A JPH07282198A (en) 1994-04-15 1994-04-15 Typed character recognizing device

Publications (1)

Publication Number Publication Date
JPH07282198A true JPH07282198A (en) 1995-10-27

Family

ID=13614176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6076746A Pending JPH07282198A (en) 1994-04-15 1994-04-15 Typed character recognizing device

Country Status (1)

Country Link
JP (1) JPH07282198A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117037A (en) * 2006-11-01 2008-05-22 Fujitsu Ltd Program and method for creating character recognition dictionary
JP2021047693A (en) * 2019-09-19 2021-03-25 富士ゼロックス株式会社 Information processing apparatus and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117037A (en) * 2006-11-01 2008-05-22 Fujitsu Ltd Program and method for creating character recognition dictionary
JP2021047693A (en) * 2019-09-19 2021-03-25 富士ゼロックス株式会社 Information processing apparatus and program

Similar Documents

Publication Publication Date Title
JP2726568B2 (en) Character recognition method and device
JPS63155386A (en) Document data reader
JP4332356B2 (en) Information retrieval apparatus and method, and control program
US20060045340A1 (en) Character recognition apparatus and character recognition method
JPH0772906B2 (en) Document recognition device
US6535652B2 (en) Image retrieval apparatus and method, and computer-readable memory therefor
JPH07282198A (en) Typed character recognizing device
JPS6162165A (en) Character form changing system
JPH10232867A (en) Document processing method, document processor and recording medium recording document processing program
JPH10289226A (en) Character processor, character processing system, character processing method, and computer readable recording medium recorded with program for executing the method by computer
JPH0375912B2 (en)
JP2900383B2 (en) Character information processing device
JP2977247B2 (en) Inter-character space processing method
JPH06259481A (en) Character string collating method and device equipped with same character classification longest matching collating function
JPS59100941A (en) Kana (japanese syllabary)-kanji (chinese character) converter
JP2529421B2 (en) Character recognition device
JPH07262317A (en) Document processor
JP2874815B2 (en) Japanese character reader
JPS63155385A (en) Optical character reader
JPH10293811A (en) Document recognition device and method, and program storage medium
JPH0580955A (en) Desk-top publishing software
JPS63265377A (en) Production of dictionary for optical character reader
JPH06149805A (en) Address printer
JPH11306169A (en) Method and device for character editing, and recording medium where program for implementing process thereof is recorded
JPH0535732A (en) Document display device