JP3455643B2 - Method of updating learning dictionary in character recognition device and character recognition device - Google Patents

Method of updating learning dictionary in character recognition device and character recognition device

Info

Publication number
JP3455643B2
JP3455643B2 JP03365497A JP3365497A JP3455643B2 JP 3455643 B2 JP3455643 B2 JP 3455643B2 JP 03365497 A JP03365497 A JP 03365497A JP 3365497 A JP3365497 A JP 3365497A JP 3455643 B2 JP3455643 B2 JP 3455643B2
Authority
JP
Japan
Prior art keywords
character
learning dictionary
information
similarity
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03365497A
Other languages
Japanese (ja)
Other versions
JPH10232905A (en
Inventor
誠 滝本
勝寛 高野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP03365497A priority Critical patent/JP3455643B2/en
Publication of JPH10232905A publication Critical patent/JPH10232905A/en
Application granted granted Critical
Publication of JP3455643B2 publication Critical patent/JP3455643B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、文字認識装置
(OCR;光学的文字読取装置)における学習辞書の更
新方法及び文字認識装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a learning dictionary updating method and a character recognition device in a character recognition device (OCR; optical character reading device).

【0002】[0002]

【従来の技術】従来のOCRにおいては、文字認識結果
をオペレータが目視して、誤読文字が発生するとその都
度修正入力を行い、正しい結果に直すようにしている。
2. Description of the Related Art In a conventional OCR, an operator visually checks a character recognition result, and whenever a misread character occurs, a correction input is made to correct the character and correct the result.

【0003】[0003]

【発明が解決しようとする課題】このため、修正に時間
を要し、また、オペレータの負荷も多大なものであっ
た。特に、OCRに入力する文字は、通常、特定の印刷
機、特定のプリンタにより印刷した文字であるから、特
定の文字または文字列であることが多い。つまり、特定
の文字や文字列が常に誤読され、そのためにオペレータ
が修正する作業を要するのである。
Therefore, it takes a long time to make a correction, and the operator's load is great. In particular, a character input to the OCR is usually a character printed by a specific printing machine or a specific printer, and thus is often a specific character or character string. In other words, a specific character or character string is always misread, which requires an operator to correct it.

【0004】本発明は上記従来の文字認識装置が有する
問題点を解決せんとしてなされたもので、その目的は、
特に、特定の印刷機、特定のプリンタにより印刷した文
字について誤読が発生する確率を低下することのできる
文字認識装置における学習辞書の更新方法及び文字認識
装置を提供することである。
The present invention has been made to solve the problems of the above-mentioned conventional character recognition device, and its purpose is to:
In particular, it is an object of the present invention to provide a learning dictionary update method and a character recognition device in a character recognition device that can reduce the probability of misreading a character printed by a specific printing machine or a specific printer.

【0005】[0005]

【課題を解決するための手段】本発明の請求項1の文字
認識装置における学習辞書の更新方法は、文字イメージ
を光電変換して文字画像データを得て、この文字画像デ
ータについて文字認識処理を行うための情報が固定的に
記憶された固定辞書及び修正入力を反映させる学習辞書
を参照して文字認識処理を行い、認識結果について行わ
れた修正入力があると、修正入力された文字とその類似
度と候補文字内における順位情報と誤読文字とその類似
度情報を1セットとして、当該認識結果における前記修
正入力された文字の類似度に応じて前記学習辞書に登録
または非登録とすることを特徴とする。これによって
学習辞書に対し登録するか否かが、当該認識結果におけ
る上記修正入力に係る文字の類似度に応じて自動決定さ
れ、所要の場合にのみ登録が行われ、修正入力された文
字とその類似度と候補文字内における順位情報と誤読文
字とその類似度情報を1セットとして登録された学習辞
書を作成することができる。
According to a first aspect of the present invention, there is provided a method for updating a learning dictionary in a character recognition apparatus, wherein a character image is photoelectrically converted to obtain character image data, and character recognition processing is performed on the character image data. When the character recognition processing is performed by referring to the fixed dictionary in which the information to be performed is fixedly stored and the learning dictionary that reflects the correction input, and the correction input is performed on the recognition result , the corrected input character and its Similar
Ranking information in degree and candidate character, misread character and its similarity
As a set of degree information,
It is characterized in that it is registered or not registered in the learning dictionary according to the degree of similarity of the characters that have been correctly input . By this ,
Whether or not to register in the learning dictionary is automatically determined according to the similarity of the characters related to the correction input in the recognition result, and the registration is performed only when necessary, and the corrected and input sentence is registered.
Characters and their similarity, ranking information in candidate characters, and misread sentences
It is possible to create a learning dictionary in which characters and their similarity information are registered as one set .

【0006】本発明の請求項2の文字認識装置における
学習辞書の更新方法では、前記1セットに、認識処理の
対象の1文字の前後の文字を含めて、前記学習辞書に登
録する。これら前後文字を含めて1セットを参照でき、
文字列が所定である場合の誤読を減少させることができ
る。
In the method for updating the learning dictionary in the character recognition apparatus according to claim 2 of the present invention , the recognition processing is included in the one set.
Enter the learning dictionary including the characters before and after the target character.
To record. You can refer to one set including these letters.
Can reduce misreading when the string is predetermined
It

【0007】本発明の請求項3の文字認識装置における
学習辞書の更新方法における学習辞書の前記1セット
は、認識処理の対象の1文字の前後の文字とその類似度
情報を含めて、前記学習辞書に登録することを特徴とす
。これによって、これら前後文字とその類似度情報を
含めて1セットを参照でき、文字列が所定である場合の
誤読を減少させることができる。
In the one set of learning dictionaries in the method for updating the learning dictionaries in the character recognition apparatus according to the third aspect of the present invention, the character before and after the one character to be recognized and the similarity thereof are included.
It is characterized that it is registered in the learning dictionary including information.
It As a result, these surrounding characters and their similarity information
It is possible to refer to one set including them, and it is possible to reduce misreading when a character string is predetermined.

【0008】本発明の請求項4の文字認識装置は、文字
イメージを光電変換して文字画像データとする文字画像
データ取得手段と、文字画像データについて文字認識処
理を行うための情報が固定的に記憶された固定辞書と、
修正入力された文字とその類似度と候補文字内における
順位情報と誤読文字とその類似度情報を1セットとして
記憶する学習辞書と、上記文字画像取得手段により得ら
れた文字画像について前記固定辞書及び学習辞書を参照
して文字認識処理を行う認識処理部と、この認識処理部
による文字認識処理の結果を表示するための表示部と、
情報を入力するための入力部と、前記表示部に表示され
ている認識結果について前記入力部から修正入力がある
と、修正入力された文字とその類似度と候補文字内にお
ける順位情報と誤読文字とその類似度情報を1セットと
して、当該認識結果における前記修正入力された文字の
類似度に応じて前記学習辞書に登録または非登録とする
制御部と、を具備することを特徴とする。これによっ
て、学習辞書に対し登録するか否かが、当該認識結果に
おける上記修正入力に係る文字の類似度に応じて自動決
定され、所要の場合にのみ登録が行われ、修正入力され
た文字とその類似度と候補文字内における順位情報と誤
読文字とその類似度情報を1セットとして登録された
容を持つ学習辞書を作成することができる。
According to a fourth aspect of the character recognition apparatus of the present invention, a character image data acquisition unit for photoelectrically converting a character image into character image data and information for performing character recognition processing on the character image data are fixed. A stored fixed dictionary,
Corrected input character and its similarity and in the candidate character
One set of ranking information, misread characters and their similarity information
A learning dictionary to be stored , a recognition processing unit for performing character recognition processing on the character image obtained by the character image acquisition unit by referring to the fixed dictionary and the learning dictionary, and a result of the character recognition processing by the recognition processing unit are displayed. Display section for
There is an input unit for inputting information and a correction input from the input unit for the recognition result displayed on the display unit.
And the corrected character and its similarity and candidate character
One set of ranking information, misread characters and their similarity information
Then, in the recognition result, the corrected input character
A control unit for registering or non-registering in the learning dictionary according to the degree of similarity . By this
Te, whether to register against the learning dictionary, is automatically determined depending on the character of the similarity according to the correction input of the recognition result, is only performed registration in the case of the required, be modified input
Character and its similarity, and
It is possible to create a learning dictionary having the content of registered reading characters and their similarity information as one set .

【0009】本発明の請求項5の文字認識装置では、
習辞書には、 認識処理の対象の1文字の前後の文字を含
めて、前記学習辞書に登録することを特徴とする。これ
により、これら前後文字を含めて1セットを参照でき、
文字列が所定である場合の誤読を減少させることができ
る。
According to the character recognition device of claim 5 of the present invention ,
The learning dictionary contains the characters before and after the one character to be recognized.
It is characterized in that it is registered in the learning dictionary . With this, you can refer to one set including these surrounding characters,
Can reduce misreading when the string is predetermined
It

【0010】本発明の請求項6の文字認識装置の学習辞
書には、認識処理の対象の1文字の前後の文字とその類
似度情報を含めて1セットして、記憶されることを特徴
とする。これによって、認識処理の対象の1文字の前後
の文字とその類似度情報を含めて1セットして記憶され
ることから、これらが全体として参照され、文字列が所
定である場合の誤読を減少させることができる。
In the learning dictionary of the character recognition device according to claim 6 of the present invention, the character before and after the one character to be recognized and the like.
It is characterized in that one set including the similarity information is stored . As a result, one set including the characters before and after the one character to be recognized and the similarity information thereof is stored.
Therefore, these are referred to as a whole, and the misreading when the character string is predetermined can be reduced.

【0011】本発明の請求項7の文字認識装置では、認
識処理部が、学習辞書を参照して認識結果に訂正を加え
る場合には、前記学習辞書において認識結果文字に対し
て登録されている前後の文字の情報が一致していること
を条件とすることを特徴とする。これによって、学習辞
書を参照して認識結果に訂正を加える場合には、学習辞
書において認識結果文字に対して登録されている前後の
文字の情報が一致していることが条件とされ、文字列単
位での誤読を減少させることができる。
In the character recognition apparatus according to claim 7 of the present invention, when the recognition processing unit refers to the learning dictionary and corrects the recognition result, the recognition result character is registered in the learning dictionary. It is characterized in that the information of the preceding and following characters is the same. As a result, when the recognition result is corrected by referring to the learning dictionary, it is required that the information of the characters before and after the character registered as the recognition result character in the learning dictionary match. Misreading in units can be reduced.

【0012】本発明の請求項8の文字認識装置では、認
識処理部が、学習辞書を参照して認識結果に訂正を加え
る場合には、前記学習辞書において正文字に対して登録
されている全ての情報が一致することを条件とすること
を特徴とする。これによって、厳格な条件にて訂正がな
される。
In the character recognition device according to claim 8 of the present invention, when the recognition processing unit refers to the learning dictionary and corrects the recognition result, all the characters registered in the learning dictionary for the normal characters are registered. It is characterized in that the information of (1) matches . This ensures that there are no corrections under strict conditions.
To be done.

【0013】[0013]

【発明の実施の形態】以下添付図面を参照して本発明に
実施例に係る文字認識装置及び文字認識装置における学
習辞書の更新方法を説明する。各図において同一の構成
要素には同一の符号を付し、重複する説明を省略する。
図1には、本発明に実施例に係る文字認識装置の構成図
が示されている。文字認識装置には、文字画像データ取
得手段1が備えられており、文字イメージを光電変換し
て文字画像データとするように構成されている。文字画
像データ取得手段1には、光電変換を行う読取部11、
読取部11により得られた信号からノイズ除去等の正規
化を行う正規化部12、正規化部12の出力である文字
列のイメージデータから各1文字の切り出しを行う検出
切出部13が備えられている。検出切出部13により切
り出された各文字の画像データは認識処理部2へ送られ
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A character recognition apparatus according to an embodiment of the present invention and a learning dictionary updating method in the character recognition apparatus will be described below with reference to the accompanying drawings. In each drawing, the same constituents are designated by the same reference numerals, and duplicated description will be omitted.
FIG. 1 is a block diagram of a character recognition device according to an embodiment of the present invention. The character recognition device is provided with a character image data acquisition means 1 and is configured to photoelectrically convert a character image into character image data. The character image data acquisition unit 1 includes a reading unit 11 that performs photoelectric conversion,
The normalization unit 12 that performs normalization such as noise removal from the signal obtained by the reading unit 11, and the detection cutout unit 13 that cuts out each character from the image data of the character string output from the normalization unit 12 are provided. Has been. The image data of each character cut out by the detection cutout unit 13 is sent to the recognition processing unit 2.

【0014】認識処理部2には、文字画像データについ
て文字認識処理を行うための情報が固定的に記憶された
固定辞書3と修正入力を反映させる学習辞書4とが接続
されており、認識処理部2は上記文字画像取得手段1に
より得られた文字画像について固定辞書3及び学習辞書
4を参照して文字認識処理を行う。文字認識結果は制御
部5へ送出される。制御部5には、情報を表示するため
のCRTディスプレイ装置等の表示部6、情報やコマン
ドを入力するためのキーボード入力装置等の入力部7、
認識の最終結果データ等を保存するためのファイル部8
が接続されると共に、学習辞書部4に接続され、この学
習辞書部4の内容の更新を行うように構成されている。
The recognition processing unit 2 is connected to a fixed dictionary 3 in which information for performing character recognition processing on character image data is fixedly stored, and a learning dictionary 4 for reflecting correction input. The unit 2 refers to the fixed dictionary 3 and the learning dictionary 4 for the character image obtained by the character image acquisition means 1 to perform character recognition processing. The character recognition result is sent to the control unit 5. The control unit 5 includes a display unit 6 such as a CRT display device for displaying information, an input unit 7 such as a keyboard input device for inputting information and commands,
File part 8 for saving final result data of recognition
Is connected to the learning dictionary unit 4, and the contents of the learning dictionary unit 4 are updated.

【0015】以上のように構成された文字認識装置によ
る文字認識処理のフローチャートが図2に示されている
ので、これを参照して動作の説明を行う。まず、文字画
像データ取得手段1によってイメージ(文字画像)デー
タ取得処理が行われる(S1)。この結果、帳票または
原稿に記載された文字に関するイメージデータが得ら
れ、イメージファイルの作成が行われる。イメージファ
イルは、図1においては、認識処理部2内に作成される
ものである。
A flow chart of the character recognition processing by the character recognition device configured as described above is shown in FIG. 2, and the operation will be described with reference to this. First, the character image data acquisition means 1 performs an image (character image) data acquisition process (S1). As a result, image data relating to the characters written on the form or original is obtained, and an image file is created. The image file is created in the recognition processing unit 2 in FIG.

【0016】次に、認識処理部2がイメージファイルを
参照して認識対象に係る文字を読み出し、固定辞書3を
参照して当該認識対象に係る文字の認識処理を行う(S
2)。この認識処理では、パターンマッチング法や特徴
抽出法等が用いられ、各候補文字の類似度の算出が行わ
れる。そして、認識結果を用い、学習辞書4を参照して
認識結果に対する訂正処理が行われる(S3)。
Next, the recognition processing section 2 refers to the image file to read out the character related to the recognition target, and refers to the fixed dictionary 3 to perform the recognition processing of the character related to the recognition target (S).
2). In this recognition processing, a pattern matching method, a feature extraction method, or the like is used, and the similarity of each candidate character is calculated. Then, using the recognition result, the learning dictionary 4 is referred to, and the correction process for the recognition result is performed (S3).

【0017】次に、制御部5は訂正された認識結果を表
示部6に表示する。これを目視したオペレータは認識結
果の確認を行い、誤読されている文字を修正する(S
4)。例えば、表示されている誤読された文字にカーソ
ルを移動し、正しい文字を上書き入力する。このように
して修正された結果について学習処理が行われる(S
5)。つまり、修正結果に基づき学習辞書4の内容の更
新を行う訳であるが、この更新実行・非実行は、修正結
果に係る文字が認識結果においてどの様な類似度となっ
ているかに応じて行われる。そして次の結果出力処理に
おいて、修正結果はファイル部8に文字認識結果ファイ
ルとして記憶される(S6)。
Next, the control unit 5 displays the corrected recognition result on the display unit 6. The operator who sees this confirms the recognition result and corrects the misread character (S
4). For example, move the cursor to the displayed misread character and overwrite the correct character. Learning processing is performed on the result corrected in this way (S
5). That is, the contents of the learning dictionary 4 are updated based on the correction result. This update execution / non-execution is performed depending on how similar the characters related to the correction result are in the recognition result. Be seen. Then, in the next result output process, the correction result is stored in the file unit 8 as a character recognition result file (S6).

【0018】上記図2に示した処理の詳細を図3を参照
して説明する。この図3の例では、OCR帳票またはO
CR原稿21に、「・・・私は日本人です・・」と記載
されているものとする。OCR10はイメージデータ取
得処理(S1)において、上記OCR原稿21上のイメ
ージを光電変換してイメージデータとする。更に、OC
R10は、イメージデータについて図1における固定辞
書3及び学習辞書4に相当する記憶領域の情報を参照し
て文字認識を行い(S2)、認識結果を表示部6に表示
する。この認識結果においては、「・・・私は日木人で
す・・」と誤読されたものとする。
Details of the processing shown in FIG. 2 will be described with reference to FIG. In the example of FIG. 3, the OCR form or O
In CR manuscript 21, it is assumed that "... I am a Japanese ...". In the image data acquisition process (S1), the OCR 10 photoelectrically converts the image on the OCR document 21 into image data. Furthermore, OC
The R10 performs character recognition on the image data with reference to the information in the storage areas corresponding to the fixed dictionary 3 and the learning dictionary 4 in FIG. 1 (S2), and displays the recognition result on the display unit 6. In this recognition result, it is assumed that it was misread as "... I am a person from Hiki".

【0019】次の訂正処理(S3)においては、オペレ
ータ22が表示部6の画面上に表示された認識結果を目
視して確認し、「日本人」が「日木人」と誤読されてい
ると判断する。そこで、オペレータ22は入力部7から
修正入力を行って「木」を「本」に修正する。次に、O
CR10は所定の指示入力により或いは自動的に学習処
理(S5)へ進み、修正結果に係る文字が認識結果にお
いてどのような類似度とされているかに応じて(似てい
る、似ていないに基づき)記憶領域20の学習辞書4に
対応する領域に対し、当該修正結果の文字を正文字とす
る登録・非登録の制御を行う。記憶領域20の学習辞書
4に登録される文字情報は、誤読文字(上記では
「木」)と正文字(上記では、「本」)、更に前後文字
(上記では「日」と「人」)、類似度(イメージデータ
に対する文字の類似性を表す度合い)等である。そし
て、学習が完了すると、次回以降においては記憶領域2
0の結果を用いた文字認識処理がOCR10にて行われ
る。
In the next correction process (S3), the operator 22 visually confirms the recognition result displayed on the screen of the display unit 6, and the "Japanese" is mistakenly read as "Hikito". To judge. Therefore, the operator 22 makes a correction input from the input unit 7 to correct “tree” into “book”. Then O
The CR 10 proceeds to the learning process (S5) by inputting a predetermined instruction or automatically, and determines whether the character related to the correction result is similar in the recognition result (based on whether the character is similar or not). ) The registration / non-registration control is performed for the area corresponding to the learning dictionary 4 in the storage area 20 with the corrected character as a normal character. The character information registered in the learning dictionary 4 of the storage area 20 includes misread characters (“tree” in the above), regular characters (“book” in the above), and preceding and following characters (“day” and “person” in the above). , The degree of similarity (the degree of representing the similarity of a character to image data), and the like. When the learning is completed, the storage area 2
The character recognition process using the result of 0 is performed by the OCR 10.

【0020】図4には、上記処理中の訂正処理の詳細が
示されているので、これを説明する。文字画像データ取
得手段1により得られたイメージデータ23に対し固定
辞書3を用いて認識処理を行い、文字データ「ADC」
が得られたものとする。ここでは、印刷されたイメージ
は「ABC」であり、「B」を「D」と誤読したことを
示している。次に、訂正処理が行われるが、この訂正処
理は該当の文字(ここでは「D」)が学習辞書に存在す
ることが前提である。そこで、認識処理部2は、S11
に示すように学習辞書4の検索を行い、ここでは、対象
文字「D」についての登録がなされており、「有」と判
定して、S12へ進む。
FIG. 4 shows details of the correction process during the above process, which will be described. The image data 23 obtained by the character image data acquisition means 1 is subjected to recognition processing using the fixed dictionary 3, and character data “ADC” is obtained.
Shall be obtained. Here, the printed image is “ABC”, which means that “B” is misread as “D”. Next, the correction process is performed, but the correction process is premised on that the corresponding character (here, “D”) is present in the learning dictionary. Therefore, the recognition processing unit 2 uses S11.
As shown in, the learning dictionary 4 is searched. Here, the target character “D” is registered, it is determined to be “present”, and the process proceeds to S12.

【0021】認識処理部2が印刷文字「B」に係るイメ
ージデータについて行った認識の結果、候補文字「D」
が得られたのであるが、この認識結果は候補文字テーブ
ル25に示されるように、複数の候補文字が得られてい
る。そして、類似度が最大である文字「D」を候補文字
として出力したものである。
As a result of the recognition performed by the recognition processing unit 2 on the image data relating to the print character "B", the candidate character "D" is obtained.
As a result of this recognition, a plurality of candidate characters are obtained as shown in the candidate character table 25. Then, the character "D" having the highest degree of similarity is output as a candidate character.

【0022】一方、学習辞書4に登録されていた文字
「D」に対応する学習情報は文字情報テーブル24に示
される通りである。即ち、誤読文字「D」について、そ
の前の文字が「A」であり、その後の文字が「C」であ
り、その誤読文字の類似度が「95」であり、更に、正
文字(誤読文字に代わる正解の文字)が「B」であり、
その正文字の類似度が「85」であり、正文字の順位が
「3」であったことを示す。つまり、過去の履歴とし
て、文字「B」を誤読したことがあり、そのときには、
「D」と誤読されとことを示す。そして、そのときの認
識結果(候補文字テーブル25に対応)の候補文字とし
ては、「D」と「B」とが含まれ、それぞれの類似度が
「95」、「85」であり、候補文字「B」については
順位が「3」であったことを示す。
On the other hand, the learning information corresponding to the character "D" registered in the learning dictionary 4 is as shown in the character information table 24. That is, for the misread character “D”, the preceding character is “A”, the subsequent character is “C”, the similarity of the misread character is “95”, and the correct character (misread character is The correct letter instead of is "B",
The similarity of the regular character is "85", and the rank of the regular character is "3". In other words, in the past history, the character “B” has been misread, and at that time,
It indicates that it is misread as "D". Then, the candidate characters of the recognition result (corresponding to the candidate character table 25) at that time include “D” and “B”, and the respective similarity degrees are “95” and “85”. “B” indicates that the rank was “3”.

【0023】そこで、認識処理部3は、今回の認識結果
に係る文字データを参照し、認識対象の候補文字「D」
の前文字と後文字を検出する。ここでは、前文字
「A」、後文字「C」が検出され、学習辞書4の文字情
報テーブル24内の情報と一致することが検出される。
また、認識処理部3は、候補文字テーブル25を参照し
て、誤読文字「D」の類似度「95」、正文字「B」に
ついての類似度「85」及び順位「3」を検出し、学習
辞書4の文字情報テーブル24内の情報と一致すること
を検出する。つまり、今回の認識対象に係る候補文字
「D」に関する状況が、学習辞書4の誤読文字「D」に
関する文字情報テーブル24内の情報と全く一致してい
ることを検出する。従って、全ての条件が一致するとし
て、候補文字「D」を「B」に訂正し出力する。
Therefore, the recognition processing unit 3 refers to the character data related to the recognition result this time, and recognizes the candidate character "D" to be recognized.
Detect the preceding and following characters of. Here, the preceding character “A” and the succeeding character “C” are detected, and it is detected that they match the information in the character information table 24 of the learning dictionary 4.
Further, the recognition processing unit 3 refers to the candidate character table 25 to detect the similarity “95” of the misread character “D”, the similarity “85” and the rank “3” of the regular character “B”, It is detected that the information matches the information in the character information table 24 of the learning dictionary 4. That is, it is detected that the situation regarding the candidate character “D” related to the recognition target this time is exactly the same as the information in the character information table 24 regarding the misread character “D” in the learning dictionary 4. Therefore, assuming that all the conditions are matched, the candidate character “D” is corrected to “B” and output.

【0024】このように、今回の認識対象に係る候補文
字に関する状況が、学習辞書4の誤読文字に関する文字
情報テーブル内の情報と全く一致していることを検出す
ると訂正を行うことにより、同一の印刷機やプリンタに
より印刷した場合の文字に対する誤読を適切に訂正でき
る。なお、本実施の形態においては、全くの一致を条件
としたが、類似度には、所定の範囲(例えば、前後に
「5」程度)を設けて、その範囲であれば訂正を行うよ
うにしても良い。従って、今回の認識結果において誤読
文字である「D」の類似度が「100〜90」にあり、
今回の認識結果において正文字である「B」の類似度が
「90〜80」にあれば訂正を行う。このように幅を持
たせることにより、同一の印刷機やプリンタにより印刷
した文字についての認識であっても、印刷条件の変動等
から、各回で類似度の算出結果が僅かに異なることにな
る場合を救済して適切な修正を行うことが可能である。
As described above, when it is detected that the situation regarding the candidate character relating to the recognition target this time is exactly the same as the information in the character information table regarding the misread character of the learning dictionary 4, the same is performed by performing the correction. It is possible to properly correct misreading of characters when printed by a printing machine or printer. In the present embodiment, the condition of complete coincidence is set as the condition, but the similarity is set to a predetermined range (for example, “5” before and after), and correction is performed within that range. May be. Therefore, in the recognition result of this time, the similarity of "D" which is a misread character is "100 to 90",
If the similarity of the regular character "B" is "90-80" in the recognition result this time, the correction is performed. When the width is given in this way, even if the characters printed by the same printing machine or printer are recognized, the calculation result of the degree of similarity may be slightly different each time due to variations in printing conditions. Can be remedied and appropriate corrections can be made.

【0025】上記の例では、前後文字が一致することを
条件としている。従って、先頭文字の場合には前文字は
「なし」となり、末尾文字の場合には後文字は「なし」
となる。しかし、条件を緩くした実施の形態にあって
は、前後文字の参照は行わない。このようにした場合に
あっても、今回の認識対象に係る候補文字に関する状況
が、学習辞書4の誤読文字に関する文字情報テーブル内
の情報と全く一致していることを条件とするなど、類似
度について条件を厳しくすることにより適切な訂正が行
われる。
In the above example, the condition is that the preceding and following characters match. Therefore, in the case of the first character, the previous character is "none", and in the case of the last character the latter character is "none".
Becomes However, in the embodiment in which the conditions are relaxed, the preceding and following characters are not referred to. Even in such a case, the similarity regarding the candidate character relating to the recognition target is conditioned on the condition that the situation regarding the candidate character relating to the recognition target this time is exactly the same as the information in the character information table regarding the misread character in the learning dictionary 4. Appropriate correction will be made by tightening the conditions.

【0026】ここで、学習辞書4のファイル構造を第6
図に示し、これを説明する。学習辞書4のファイルは、
ヘッド部とポインタ部とデータ部とから構成されてい
る。ヘッダ部には、文字コードの種類(英数字、漢字、
かな、記号など)と同じレコード数+1レコードが割り
当てられ、レコード番号がその文字コードに対応するよ
うになっている。たとえば、JISコードで“D”の文
字コードは2234であるが、ヘッダー部では2234レコード
目が“D”の情報位置となる。また、ヘッダ部の最終レ
コードは、最終登録位置情報(学習ファイルに登録した
最後のレコード番号)が記録されており、登録時にこの
レコードを参照して、登録後に更新する。レコードには
文字コードの学習情報として、ポインタ部およびデータ
部の参照位置が記録されており、当該文字コードに対象
となる学習情報が存在しない場合は、ゼロ(0)が記録
される。ただし、初期状態で全てのレコードにゼロ
(0)を記録することにより、学習情報が存在しない場
合の更新は不要となる。
Here, the file structure of the learning dictionary 4 is changed to the sixth
Shown in the figure and described. The files of learning dictionary 4 are
It is composed of a head portion, a pointer portion, and a data portion. In the header part, type of character code (alphanumeric, kanji,
(Kana, symbol, etc.), the same number of records + 1 record is assigned, and the record number corresponds to the character code. For example, the character code of "D" in the JIS code is 2234, but the 2234th record is the information position of "D" in the header part. Further, the final record in the header section records the final registration position information (the last record number registered in the learning file), and this record is referred to at the time of registration and updated after registration. In the record, reference positions of the pointer portion and the data portion are recorded as the learning information of the character code, and zero (0) is recorded when the learning information targeted by the character code does not exist. However, by recording zero (0) in all records in the initial state, updating when learning information does not exist becomes unnecessary.

【0027】ポインタ部には、その文字コードの学習情
報に対して、次候補が存在する場合、次候補のポインタ
部の参照位置が記録されている。次候捕が存在しない場
合は、ゼロ(0)が記録される。上記のヘッダ部と同様
に、初期状態で全てのレコードにゼロ(0)を記録する
ことにより、次候補が存在しない場合の更新は不要とな
る。また、ポインタ部のレコード数は任意であるが、設
定したレコード数分だけ学習情報を記録することができ
る。
In the pointer portion, when the next candidate exists for the learning information of the character code, the reference position of the pointer portion of the next candidate is recorded. Zero (0) is recorded if there is no next episode. Similar to the above-mentioned header part, by recording zero (0) in all the records in the initial state, the update when the next candidate does not exist becomes unnecessary. Although the number of records in the pointer portion is arbitrary, the learning information can be recorded by the set number of records.

【0028】データ部には、当該学習辞書4に登録され
た順に、学習情報(前文字、後文字、誤読文字類似度、
正文字、正文字順位、正文字類似度)が記録されてい
る。レコード数はポインタ部のレコード数と同じであ
る。
In the data section, learning information (preceding character, rear character, misread character similarity,
Regular characters, regular character ranking, regular character similarity) are recorded. The number of records is the same as the number of records in the pointer section.

【0029】次に、学習辞書4のファイルを参照する場
合の動作を図7を用いて説明する。ファイルの先頭か
ら、文字“D゛の文字コードレコード目(図7)の位
置へ遷移する。図7の例(ex.)で説明すると、遷移
先は2234レコード目となる。遷移先(図7)のデータ
(図7では0002)を読み込む。このデータはポインタ部
およびデータ部の位置情報であり、もし0が記録されて
いる場合に限り「候補なし」となる。
Next, the operation when referring to the file of the learning dictionary 4 will be described with reference to FIG. Transition from the beginning of the file to the position of the character code record (Fig. 7) of the character "D". Explaining in the example (ex.) Of Fig. 7, the transition destination is the 2234th record. ) Data (0002 in FIG. 7) is read in. This data is the position information of the pointer part and the data part, and "0" is recorded only when 0 is recorded.

【0030】ここでは0002が読み出されたことにより、
次にデータ部のO002レコード目の位置(図7)に遷移
する。このデータ部の学習情報(前文字、後文字、誤読
文字類似度、正文字、正文字順位、正文字類似度)を読
み出し、認識結果の候補文字テーブル等の内容と比較し
た結果が一致であれば、ここで検索を終了し、不一致で
あればポインタ部の0002レコード目(図7)に遷移す
る。
Here, since 0002 is read,
Next, it transits to the position of the O002 record of the data part (FIG. 7). Read the learning information (previous character, rear character, misread character similarity, authentic character, authentic character rank, authentic character similarity) of this data part, and compare it with the content of the recognition result candidate character table, etc. For example, the search ends here, and if they do not match, the process moves to the 0002th record (FIG. 7) of the pointer part.

【0031】そして、ポインタ部の0002レコード目(図
7)のデータを読み込む。ここのデータは0014である
ので、次にデータ部の0014レコード目(図7)の学習
情報を読み出し、認識結果の候補文字テーブル等の内容
と比較を行う。比較した結果が一致であれば、ここで検
索を終了し、不一致であればポインタ部の0014レコード
目(図7)に遷移する。
Then, the data of the 0002th record (FIG. 7) of the pointer portion is read. Since the data here is 0014, next, the learning information of the 0014th record (FIG. 7) of the data part is read out and compared with the contents of the recognition result candidate character table and the like. If the result of the comparison is a match, the search is ended here, and if they are not a match, a transition is made to the 0014th record (FIG. 7) of the pointer part.

【0032】ポインタ部の0014レコード目(図7)の
位置情報はOO1Fであり、次はデータ部の001Fレコード目
(図7)へ遷移し、学習情報の比較を行う。ここで、
さらに不一致であれば、ポインタ部の001Fレコード目
(図7)に遷移し、データを読み出すことになるので
あるが、この例においてはポインタ部の001Fレコード目
(図7)のデータはゼロ(0)であるため、次候補は
存在せず当該文字に関する参照処理を終了する。次候補
が存在しない場合は、文字の置き換え(訂正処理)は行
われず、文字認識結果をそのまま添削処理へ出力する。
The position information of the 0014th record (FIG. 7) of the pointer part is OO1F, and next, the transition is made to the 001Fth record of the data part (FIG. 7) to compare the learning information. here,
Further, if they do not match, the data is read out by transiting to the 001Fth record of the pointer part (FIG. 7). In this example, the data of the 001Fth record of the pointer part (FIG. 7) is zero (0 ), The next candidate does not exist, and the reference process for the character ends. If the next candidate does not exist, the character replacement (correction process) is not performed, and the character recognition result is directly output to the correction process.

【0033】図5には、上記文字認識装置の処理中の学
習処理の詳細が示されているので、これを説明する。文
字画像データ取得手段1により得られたイメージデータ
23に対し固定辞書3及び学習辞書4を用いて訂正処理
を含む認識処理を行い、文字データ「ADC」が得られ
たものとする。ここでは、印刷されたイメージは「AB
C」であり、「B」を「D」と誤読したことを示してい
る。
FIG. 5 shows details of the learning process during the process of the character recognition apparatus, which will be described. It is assumed that the image data 23 obtained by the character image data acquisition unit 1 is subjected to recognition processing including correction processing using the fixed dictionary 3 and the learning dictionary 4 to obtain character data “ADC”. Here, the printed image is "AB
"C", which means that "B" was misread as "D".

【0034】オペレータは添削処理S4において、入力
部から修正入力を行って「D」を「B」に修正する。次
に、制御部5は所定の指示入力により或いはOCR原稿
の1頁分の修正が終了すると自動的に学習処理S5へ進
み、文字データと候補文字テーブル25から学習辞書4
へ登録すべき文字情報テーブル24の内容に係る学習情
報を取得する。
In the correction process S4, the operator corrects "D" to "B" by making a correction input from the input section. Next, the control unit 5 automatically advances to the learning process S5 by inputting a predetermined instruction or when the correction of one page of the OCR document is completed, and the learning dictionary 4 is selected from the character data and the candidate character table 25.
The learning information related to the contents of the character information table 24 to be registered is acquired.

【0035】即ち、誤読文字「D」を正文字「B」に代
えられた履歴情報に基づき、誤読文字「D」、正文字
「B」を得る。また、添削処理が行われた後の文字デー
タから、上記正文字「B」の前文字「A」及び後文字
「C」を得る。そして、候補文字テーブル25から誤読
文字「D」の類似度「95」を検出し、正文字「B」の
類似度「85」及び順位「3」を得て、図示の文字情報
テーブル24の内容に係る学習情報を取得する。そし
て、正文字「B」の類似度、つまり、イメージデータに
ついて行った認識結果において、修正入力された文字
(正文字)の類似度が零より大きいことから、上記文字
情報テーブル24の内容に係る学習情報を学習辞書4に
登録する。
That is, the misread character "D" and the correct character "B" are obtained based on the history information in which the misread character "D" is replaced with the correct character "B". Further, the character “A” and the character “C” after the correct character “B” are obtained from the character data after the correction processing. Then, the similarity “95” of the misread character “D” is detected from the candidate character table 25, the similarity “85” and the rank “3” of the regular character “B” are obtained, and the content of the illustrated character information table 24 is obtained. Acquire learning information related to. The similarity of the regular character “B”, that is, the similarity of the corrected input character (regular character) in the recognition result of the image data is larger than zero. The learning information is registered in the learning dictionary 4.

【0036】なお、上記においては、イメージデータに
ついて行った認識結果において、修正された文字(正文
字)の類似度が零より大きいことを条件に学習辞書4へ
の登録を行ったが、上記類似度が所定値(例えば、「4
0」)以上である場合に学習辞書4への登録を行う用に
しても良い。このようにすると、余りにも似ていない場
合には学習辞書4の更新がなさない度合いを高くでき
る。また、上記文字情報テーブル24の内容としては、
必ずしも上記の内容に限らず、前後文字を登録しない実
施の形態や、正文字順位を登録しない実施の形態があ
る。また、前後の文字についての類似度や順位等を登録
する実施の形態も存在する。このようにしても、学習辞
書4を用いて適切な文字認識処理が行われる。なお、前
後の文字についての類似度や順位等を登録する実施の形
態においては、これらが一致するか、類似度については
所定範囲となることが訂正実行の条件である。
In the above, in the recognition result performed on the image data, registration is made in the learning dictionary 4 on the condition that the similarity of the corrected character (regular character) is larger than zero. The degree is a predetermined value (for example, "4
0 ”) or more, the learning dictionary 4 may be registered. By doing so, the degree to which the learning dictionary 4 is not updated can be increased if it is not so similar. The contents of the character information table 24 are as follows.
Not limited to the above contents, there is an embodiment in which the preceding and following characters are not registered and an embodiment in which the regular character rank is not registered. There is also an embodiment in which the degree of similarity, the rank, etc. of the preceding and following characters are registered. Even in this case, appropriate character recognition processing is performed using the learning dictionary 4. In addition, in the embodiment in which the similarity and rank of the preceding and following characters are registered, it is a condition for correction that they match or the similarity falls within a predetermined range.

【0037】次に、図8を参照して学習辞書4のファイ
ルに登録を行う場合の処理動作を説明する。ファイルの
先頭から、文字“D”の文字コードレコード目(図8
)の位置へ遷移する。図8の例(ex.)で説明する
と、遷移先は2234レコード目となる。遷移先(図8)
のデータ0002が読み出される。ここのデータはポインタ
部およびデータ部の位置情報であり、0が記録されてい
る場合に限り「候補なし」となる。
Next, the processing operation when registering in the file of the learning dictionary 4 will be described with reference to FIG. From the beginning of the file, the character code record of the character "D" (Fig. 8
). Explaining with the example (ex.) Of FIG. 8, the transition destination is the 2234th record. Transition destination (Fig. 8)
Data 0002 is read. The data here is the position information of the pointer portion and the data portion, and becomes "no candidate" only when 0 is recorded.

【0038】この例では、データが0002であるため、次
にポインタ部の0002レコード目(図8)に遷移し、記
憶内容に係るデータ0014を読み出す。データ0014は次候
補のポインタ部及びデータ部における位置情報であるの
で、次にはポインタ部の0014レコード目(図8)に遷
移し、そこに記憶されているデータOO1Fを読み出す。同
様に、ポインタ部の001Fレコード目(図8)に遷移
し、そこに記憶されているデータゼロ(0)を読み出
す。ゼロ(0)は、次候捕無し(最終の候補)を意味す
るので、この次にあるレコードが次候補の位置登録とな
る。制御部5の主記憶領域にはこのレコード位置001Fを
記憶しておく。
In this example, since the data is 0002, next, the transition is made to the 0002th record (FIG. 8) of the pointer portion, and the data 0014 relating to the stored contents is read. Since the data 0014 is the position information in the pointer portion and the data portion of the next candidate, next, transition is made to the 0014th record (FIG. 8) of the pointer portion, and the data OO1F stored therein is read. Similarly, the transition is made to the 001Fth record (FIG. 8) of the pointer portion, and the data zero (0) stored therein is read. Zero (0) means that there is no next target catch (final candidate), so the record next to this will be the position registration of the next candidate. This record position 001F is stored in the main storage area of the control unit 5.

【0039】次に、ヘッダ部の最終レコード(図8)
ヘ遷移し、データ(最終登録位置情報)0109を読み出
す。最終登録位置情報は、ポインタ部及びデータ部にお
けるデータが登録されている最終レコード番号であるの
で、この値に「1」を加えた値が次の登録位置となる。
ただし、ここで最終登録位置情報に「1」を加えた値が
ファイルの最終レコードを越える場合は、登録中断とな
り登録されない。最終レコードを越えない場合は、ヘッ
ダ部の最終レコード(図8)の最終登録位置情報0109
に1を加えたO1OAが登録後の最終登録位置情報となる。
Next, the final record of the header part (FIG. 8)
After making a transition, the data (final registration position information) 0109 is read. Since the final registration position information is the final record number in which the data in the pointer part and the data part is registered, a value obtained by adding "1" to this value becomes the next registration position.
However, if the value obtained by adding "1" to the final registration position information exceeds the final record of the file, the registration is interrupted and the registration is not performed. If it does not exceed the final record, the final registration position information of the final record (FIG. 8) in the header part
O1OA obtained by adding 1 to will be the final registration position information after registration.

【0040】次に、データ部の01OAレコード目(図8
)へ遷移し、この位置に文字情報テーブル24の学習
情報(前文字、後文字、誤読文字類似度、正文字、正文
字順位、正文字類似度)を書き込む。書き込みが終了し
たら、ポインタ部の001Fレコード目(図8)に遷移
し、この位置のデータとして先に求めた最終登録位置情
報と同じO1OAを書き込む。最後に、ヘッダ部の最終レコ
ード(図8)に遷移し、最終登録位置情報としてO1OA
を書き込んで登録を終了する。
Next, the 01OA record of the data section (see FIG. 8)
), And the learning information (previous character, rear character, misread character similarity, regular character, regular character rank, regular character similarity) of the character information table 24 is written at this position. When the writing is completed, the process moves to the 001Fth record of the pointer portion (FIG. 8), and the same O1OA as the last registered position information previously obtained is written as the data of this position. Finally, transit to the final record (Fig. 8) in the header section, and enter O1OA as the final registration position information.
To complete the registration.

【0041】学習辞書4のファイル構造が以上のように
構成されている結果、1つの誤読文字に対して複数の正
文字の候補を順次登録し、また、登録されている1つの
誤読文字に対する複数の正文字の候補を順次読み出すこ
とができ、誤読が生じた複数のケースに対応して適切な
登録と学習辞書4を用いた文字認識がなされる。
As a result of the file structure of the learning dictionary 4 configured as described above, a plurality of correct character candidates are sequentially registered for one misread character, and a plurality of registered misread characters are registered. Can be sequentially read out, and appropriate registration and character recognition using the learning dictionary 4 are performed in response to a plurality of cases where erroneous reading has occurred.

【0042】[0042]

【発明の効果】以上説明したように請求項1に記載の文
字認識装置における学習辞書の更新方法によれば、学習
辞書に対し登録するか否かが、当該認識結果における上
記修正入力に係る文字の類似度に応じて自動決定され、
所要の場合にのみ登録が行われ、修正入力された文字と
その類似度と候補文字内における順位情報と誤読文字と
その類似度情報を1セットとして登録された学習辞書を
作成することができる。
As described above, according to the learning dictionary updating method in the character recognition device of the first aspect, learning is performed.
Whether to register in the dictionary is automatically determined according to the similarity of the characters related to the correction input in the recognition result,
Registration will be performed only when necessary, and the corrected characters and
The similarity, rank information in candidate characters, and misread characters
A learning dictionary in which the similarity information is registered as one set can be created.

【0043】以上説明したように請求項2に記載の文字
認識装置における学習辞書の更新方法によれば、1セッ
トに、認識処理の対象の1文字の前後の文字を含めて、
前記学習辞書に登録するので、これら前後文字を含めて
1セットを参照でき、文字列が所定である場合の誤読を
減少させることができる。
As described above, according to the learning dictionary updating method in the character recognition device of the second aspect, one set
Including the characters before and after the one character to be recognized,
Since it is registered in the learning dictionary, include these characters
One set can be referenced, and misreading when the character string is predetermined
Can be reduced.

【0044】以上説明したように請求項3に記載の文字
認識装置における学習辞書の更新方法によれば、1セッ
には、認識処理の対象の1文字の前後の文字とその類
似度情報を含めて、前記学習辞書に登録するので、これ
ら前後文字とその類似度情報を含めて1セットを参照で
き、文字列が所定である場合の誤読を減少させることが
できる。
As described above, according to the learning dictionary updating method in the character recognition device of the third aspect, one set
Includes the characters before and after the one character that is the target of recognition processing, and the like.
This will be registered in the learning dictionary, including similarity information.
Refer to one set including the surrounding characters and their similarity information.
In this case, misreading when the character string is predetermined can be reduced.

【0045】以上説明したように請求項4に記載の文字
認識装置によれば、学習辞書に対し登録するか否かが、
当該認識結果における上記修正入力に係る文字の類似度
に応じて自動決定され、所要の場合にのみ登録が行わ
れ、修正入力された文字とその類似度と候補文字内にお
ける順位情報と誤読文字とその類似度情報を1セットと
して登録された内容を持つ学習辞書を持つ文字認識装置
を提供することができる。
As described above, according to the character recognition device of the fourth aspect, whether or not to register in the learning dictionary is determined.
It is automatically determined according to the similarity of the character related to the correction input in the recognition result, is registered only when necessary, and the corrected input character and its similarity and candidate character are included.
One set of ranking information, misread characters and their similarity information
It is possible to provide a character recognition device having a learning dictionary having the registered contents.

【0046】以上説明したように請求項5に記載の文字
認識装置によれば、学習辞書には、認識処理の対象の1
文字の前後の文字を含めて、前記学習辞書に登録するの
で、これら前後文字を含めて1セットを参照でき、文字
列が所定である場合の誤読を減少させることができる。
As described above, according to the character recognition device of the fifth aspect, in the learning dictionary, one of the objects to be recognized is recognized.
Register characters in the learning dictionary, including the characters before and after the character
You can refer to one set including these characters and
Misreading when the columns are predetermined can be reduced.

【0047】以上説明したように請求項6に記載の文字
認識装置によれば、認識処理の対象の1文字の前後の文
字とその類似度情報を含めて1セットして、記憶される
ので、これらが全体として参照され、文字列が所定であ
る場合の誤読を減少させることができる。
As described above, according to the character recognition device of the sixth aspect, sentences before and after one character to be recognized are recognized.
Since one set including the character and its similarity information is stored , these are referred to as a whole, and misreading when the character string is predetermined can be reduced.

【0048】以上説明したように請求項7に記載の文字
認識装置によれば、学習辞書を参照して認識結果に訂正
を加える場合には、学習辞書において認識結果文字に対
して登録されている前後の文字の情報が一致しているこ
とが条件とされるので、文字列単位での誤読を減少させ
ることができる。
As described above, according to the character recognition device of the seventh aspect, when the recognition result is corrected by referring to the learning dictionary, the recognition result character is registered in the learning dictionary. Since it is required that the information on the preceding and following characters match, misreading in character string units can be reduced.

【0049】以上説明したように請求項8に記載の文字
認識装置によれば、学習辞書を参照して認識結果に訂正
を加える場合には、学習辞書において正文字に対して登
録されている全ての情報が一致することを条件とするの
で、厳格な条件にて訂正がなされる。
As described above, according to the character recognition device of the eighth aspect, when the recognition result is corrected by referring to the learning dictionary, all characters registered in the learning dictionary with respect to the normal characters are registered. The condition is that the information in
Then, the correction will be made under strict conditions.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施の形態に係る文字認識装置の構成
図。
FIG. 1 is a configuration diagram of a character recognition device according to an embodiment of the present invention.

【図2】本発明の実施の形態に係る文字認識装置の動作
を説明するためのフローチャート。
FIG. 2 is a flowchart for explaining the operation of the character recognition device according to the embodiment of the present invention.

【図3】本発明の実施の形態に係る文字認識装置におけ
る学習辞書更新動作を説明するための図。
FIG. 3 is a diagram for explaining a learning dictionary updating operation in the character recognition device according to the embodiment of the present invention.

【図4】本発明の実施の形態に係る文字認識装置におけ
る学習辞書を用いた文字認識動作を説明するための図。
FIG. 4 is a diagram for explaining a character recognition operation using a learning dictionary in the character recognition device according to the embodiment of the present invention.

【図5】本発明の実施の形態に係る文字認識装置におけ
る学習辞書更新動作を説明するための図。
FIG. 5 is a diagram for explaining a learning dictionary updating operation in the character recognition device according to the embodiment of the present invention.

【図6】本発明の実施の形態に係る文字認識装置におけ
る学習辞書のファイル構造を説明するための図。
FIG. 6 is a diagram for explaining a file structure of a learning dictionary in the character recognition device according to the embodiment of the present invention.

【図7】本発明の実施の形態に係る文字認識装置におけ
る文字認識動作時の学習辞書の参照手法を説明するため
の図。
FIG. 7 is a diagram for explaining a learning dictionary reference method during a character recognition operation in the character recognition device according to the embodiment of the present invention.

【図8】本発明の実施の形態に係る文字認識装置におけ
る文字認識動作時の学習辞書の更新手法を説明するため
の図。
FIG. 8 is a diagram for explaining a learning dictionary updating method during a character recognition operation in the character recognition device according to the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 文字画像データ取得手段 2 認識処理部 3 固定辞書 4 学習辞書 5 制御部 6 表示部 7 入力部 8 ファイル部 11 読取部 12 正規化部 13 検出切出部 1 Character image data acquisition means 2 Recognition processing unit 3 Fixed dictionary 4 Learning dictionary 5 Control unit 6 Display unit 7 Input section 8 File section 11 reading unit 12 normalization unit 13 Detection cutout part

フロントページの続き (56)参考文献 特開 平2−171876(JP,A) 特開 昭61−70678(JP,A) 特開 昭63−150782(JP,A) 特開 昭63−27992(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/76 Continuation of the front page (56) References JP-A 2-171876 (JP, A) JP-A 61-70678 (JP, A) JP-A 63-150782 (JP, A) JP-A 63-27992 (JP , A) (58) Fields investigated (Int.Cl. 7 , DB name) G06K 9/00-9/76

Claims (8)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文字イメージを光電変換して文字画像デ
ータを得て、この文字画像データについて文字認識処理
を行うための情報が固定的に記憶された固定辞書及び修
正入力を反映させる学習辞書を参照して文字認識処理を
行い、 認識結果について行われた修正入力があると、修正入力
された文字とその類似度と候補文字内における順位情報
と誤読文字とその類似度情報を1セットとして、当該認
識結果における前記修正入力された文字の類似度に応じ
前記学習辞書に登録または非登録とすることを特徴と
する文字認識装置における学習辞書の更新方法。
1. A fixed dictionary in which character image data is photoelectrically converted to obtain character image data, and information for performing character recognition processing on the character image data is fixedly stored, and a learning dictionary reflecting a correction input. Performs character recognition processing by referring to it , and if there is correction input made for the recognition result , correction input
Information of the characters and their similarity and rank information in the candidate characters
And the misread character and its similarity information as one set.
According to the similarity of the corrected and input characters in the knowledge
A method for updating a learning dictionary in a character recognition device, wherein the learning dictionary is registered or not registered in the learning dictionary.
【請求項2】 前記1セットには、認識処理の対象の1
文字の前後の文字を含めて、前記学習辞書に登録する
とを特徴とする請求項1に記載の文字認識装置における
学習辞書の更新方法。
2. One of the objects of recognition processing is included in the one set.
Including the front and rear of character, the method of updating the learning dictionary in the character recognition apparatus according to claim 1, wherein the this <br/> to be registered in the learning dictionary.
【請求項3】 前記1セットには、 認識処理の対象の1文字の前後の文字とその類似度情報
を含めて、前記学習辞書に登録することを特徴とする請
求項1に記載の文字認識装置における学習辞書の更新方
法。
3. The one set includes characters before and after one character to be recognized and similarity information thereof.
A contract that is characterized in that it is registered in the learning dictionary including
A method for updating a learning dictionary in the character recognition device according to claim 1 .
【請求項4】 文字イメージを光電変換して文字画像デ
ータとする文字画像データ取得手段と、 文字画像データについて文字認識処理を行うための情報
が固定的に記憶された固定辞書と、 修正入力された文字とその類似度と候補文字内における
順位情報と誤読文字とその類似度情報を1セットとして
記憶する学習辞書と、 上記文字画像取得手段により得られた文字画像について
前記固定辞書及び学習辞書を参照して文字認識処理を行
う認識処理部と、 この認識処理部による文字認識処理の結果を表示するた
めの表示部と、 情報を入力するための入力部と、 前記表示部に表示されている認識結果について前記入力
部から修正入力があると、修正入力された文字とその類
似度と候補文字内における順位情報と誤読文字とその類
似度情報を1セットとして、当該認識結果における前記
修正入力された 文字の類似度に応じて前記学習辞書に登
録または非登録とする制御部と、 を具備することを特徴とする文字認識装置。
4. A character image data acquisition means for photoelectrically converting a character image into character image data, a fixed dictionary in which information for performing character recognition processing on the character image data is fixedly stored, and correction input is made. Character and its similarity and
One set of ranking information, misread characters and their similarity information
A learning dictionary to be stored , a recognition processing unit that performs character recognition processing on the character image obtained by the character image acquisition unit by referring to the fixed dictionary and the learning dictionary, and a result of the character recognition processing by the recognition processing unit is displayed. A display unit for inputting information, an input unit for inputting information, and a correction input from the input unit for the recognition result displayed on the display unit.
Similarity, rank information in candidate characters, misread characters, and the like
With similarity information as one set,
A character recognition device, comprising: a control unit that registers or does not register in the learning dictionary according to the similarity of the corrected and input character.
【請求項5】 学習辞書には、 認識処理の対象の1文字の前後の文字を含めて、前記学
習辞書に登録する ことを特徴とする請求項4に記載の文
字認識装置。
5. The learning dictionary, including characters before and after one character to be recognized , includes the learning dictionary.
The character recognition device according to claim 4, wherein the character recognition device is registered in a learning dictionary .
【請求項6】 学習辞書には、 認識処理の対象の1文字の前後の文字とその類似度情報
を含めて1セットして、記憶されることを特徴とする
求項4に記載の文字認識装置。
6. The learning dictionary includes characters before and after a character to be recognized and similarity information thereof.
The contract is characterized in that one set including
The character recognition device according to claim 4 .
【請求項7】 認識処理部は、 学習辞書を参照して認識結果に訂正を加える場合には、
前記学習辞書において認識結果文字に対して登録されて
いる前後の文字の情報が一致していることを条件とする
ことを特徴とする請求項6に記載の文字認識装置。
7. The recognition processing section, when referring to a learning dictionary and correcting the recognition result,
The character recognition device according to claim 6, characterized in that information on characters before and after the character registered as a recognition result character in the learning dictionary is matched.
【請求項8】 認識処理部は、 学習辞書を参照して認識結果に訂正を加える場合には、
前記学習辞書において正文字に対して登録されている
ての情報が一致することを条件とすることを特徴とする
請求項6に記載の文字認識装置。
8. The recognition processing unit, when referring to the learning dictionary and correcting the recognition result,
All registered in the learning dictionary for authentic characters
The character recognition device according to claim 6, wherein all the pieces of information match each other .
JP03365497A 1997-02-18 1997-02-18 Method of updating learning dictionary in character recognition device and character recognition device Expired - Fee Related JP3455643B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03365497A JP3455643B2 (en) 1997-02-18 1997-02-18 Method of updating learning dictionary in character recognition device and character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03365497A JP3455643B2 (en) 1997-02-18 1997-02-18 Method of updating learning dictionary in character recognition device and character recognition device

Publications (2)

Publication Number Publication Date
JPH10232905A JPH10232905A (en) 1998-09-02
JP3455643B2 true JP3455643B2 (en) 2003-10-14

Family

ID=12392445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03365497A Expired - Fee Related JP3455643B2 (en) 1997-02-18 1997-02-18 Method of updating learning dictionary in character recognition device and character recognition device

Country Status (1)

Country Link
JP (1) JP3455643B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007029625A1 (en) * 2005-09-06 2007-03-15 Tosho Inc. Prescription receiving device
JP5223739B2 (en) * 2009-03-13 2013-06-26 オムロン株式会社 Portable character recognition device, character recognition program, and character recognition method
JP5471254B2 (en) * 2009-09-30 2014-04-16 富士通株式会社 Verification device, verification method, verification program, and creation device

Also Published As

Publication number Publication date
JPH10232905A (en) 1998-09-02

Similar Documents

Publication Publication Date Title
US7081975B2 (en) Information input device
US6154579A (en) Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6205261B1 (en) Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
GB2422709A (en) Correcting errors in OCR of electronic document using common prefixes or suffixes
JP2001166683A (en) System for automatic translation into braille and method for automatic translation into braille using the same
JP3455643B2 (en) Method of updating learning dictionary in character recognition device and character recognition device
JP2001320571A (en) System and method for processing handwritten slip data
JP3221968B2 (en) Character recognition device
JP3274014B2 (en) Character recognition device and character recognition method
JP3355289B2 (en) Automatic proofing method and apparatus for character data
JP2939945B2 (en) Roman character address recognition device
JPH04104367A (en) File system
JP2902138B2 (en) How to correct misread characters
JPH08287189A (en) Document processor
JPH07182441A (en) Character recognition device
JPH09138835A (en) Character recognition system
JPH11120294A (en) Character recognition device and medium
JP3929560B2 (en) Error correction automatic correction method, reading device, and computer-readable storage medium storing error correction automatic correction program
JP2829186B2 (en) Optical character reader
JPH05210635A (en) Input device
JP2865443B2 (en) Kanji conversion device for Kana name or Kana corporation name
JPH05298495A (en) Character recognizing device, erroneous recognition character correcting method and occidental document processor
JPH07110844A (en) Japanese document processor
JP2931485B2 (en) Character extraction device and method

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030715

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080725

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090725

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090725

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100725

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100725

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees