JPH07271921A - Character recognizing device and method thereof - Google Patents

Character recognizing device and method thereof

Info

Publication number
JPH07271921A
JPH07271921A JP6057362A JP5736294A JPH07271921A JP H07271921 A JPH07271921 A JP H07271921A JP 6057362 A JP6057362 A JP 6057362A JP 5736294 A JP5736294 A JP 5736294A JP H07271921 A JPH07271921 A JP H07271921A
Authority
JP
Japan
Prior art keywords
word
character
recognition
dictionary
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6057362A
Other languages
Japanese (ja)
Other versions
JP3274014B2 (en
Inventor
Satoshi Emura
里志 江村
Ichiro Nakao
一郎 中尾
Mariko Takenouchi
磨理子 竹之内
Minoru Takakura
穂 高倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP05736294A priority Critical patent/JP3274014B2/en
Publication of JPH07271921A publication Critical patent/JPH07271921A/en
Application granted granted Critical
Publication of JP3274014B2 publication Critical patent/JP3274014B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To provide a character recognizing device which has the learning capability for recognition of characters by providing a word deciding means which calculates the word evaluation value in a prescribed procedure based on the word appearance frequency obtained by a word retrieving means and decides a correct word based on the calculated word evaluation value. CONSTITUTION:A character feature extracting means 101 segments a character string and extracts a feature pattern showing the character features out of the image of each segmented character. A character recognizing means 103 obtains plural recognition candidate characters based on the difference between the extracted feature pattern and each of recognition patterns stored in a character recognition dictionary 102. A word retrieving means 105 obtains the emerging frequency of a selected word when this word is registered in word dictionary 104. A word evaluating means 106 calculates the word evaluation value based on the sum of recognition evaluation value of the recognition candidate characters and also based on the function that is previously decided by the word emerging frequency. Then a word deciding means 107 chooses a word of the highest evaluation value based on the calculated word evaluation value and outputs this word.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文字認識装置および文
字認識方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device and a character recognition method.

【0002】[0002]

【従来の技術】近年印刷または手書きされた文書を光/
電気変換等で読み取った上、いったん画素毎にビット情
報化された画像データ情報とし、この上でこの画像デー
タ中の文字を認識してデータ入力の省力化を図ったり、
更に外国語に翻訳したり、盲人や視力障害者のために発
声するようなシステムの研究、開発がなされ、また一部
実用化されている。
2. Description of the Related Art Recently, printed / handwritten documents are printed / lighted.
After reading by electrical conversion, etc., it is once made into image data information that has been converted into bit information for each pixel, and then the characters in this image data are recognized to save labor in data input,
Furthermore, research and development of a system for translating into a foreign language and uttering for the blind and visually impaired have been made, and some have been put into practical use.

【0003】本発明は、このようなシステムに採用され
る文字認識装置に関するものである。さて、従来よりこ
のようなシステムでの文字認識装置においては、認識精
度を向上する目的で、単語辞書を用いて文字認識結果の
修正を行う後処理が行なわれている。すなわち、単語の
出現頻度の多寡を考慮しない後処理では、文字認識のみ
の評価値で単語が決定されてしまうため、認識率がいま
ひとつであるという欠点がある。そこで、例えば特開平
1−255989号、特開平3−198180号、特開
平4−256194号に示されているように、単語の出
現頻度を含む単語辞書を用いる後処理が提案されてい
る。以下、これらの単語辞書を用いる文字認識装置につ
いて、図7および図8を用いて説明する。図7は従来の
文字認識装置の構成図である。本図において701は文
字特徴抽出手段であり、702は文字認識辞書であり、
703は文字認識手段であり、704は単語辞書であ
り、705は単語探索手段であり、706は単語決定手
段であり、707は単語修正手段であり、708は単語
辞書更新手段である。図8は、この文字認識装置におけ
る処理例の図である。文字特徴抽出手段701は、文字
列が記載された画像データから文字画像を切り出し、切
り出された文字画像から特徴パターンを抽出する。文字
認識辞書702は、文字コードとこの文字コードに対応
する文字を識別するのに用いる識別パターンの組を格納
している。文字認識手段703は、文字特徴抽出手段7
01によって抽出された特徴パターンと文字認識辞書7
02に登録されている識別パターンとを比較して、該当
する文字コード及びその確からしさを示す認識評価値か
らなる、そして認識対象となっている切り出された1文
字データ当たりあらかじめ定められた個数以下の認識候
補文字データを出力する。単語辞書704は、文字列に
出現可能な単語の文字コードと出現頻度の組を格納して
いる。単語探索手段705は、文字認識手段703によ
って出力された認識候補文字の組合せからなる単語につ
いて単語辞書704中を探索し、単語辞書に格納されて
いる単語とその出現頻度を出力する。単語決定手段70
6は、単語探索手段705で得られた単語のうち、出現
頻度が最も高い単語を出力する。単語修正手段707
は、単語決定手段706によって出力された単語につい
て、使用者が正しい単語に修正することを可能とさせ
る。単語辞書更新手段708は、単語修正手段707で
修正が行われなかった場合は単語決定手段706が出力
した単語の、修正が行われた場合には修正された単語に
ついてもその単語辞書704に登録されている出現頻度
を更新する。
The present invention relates to a character recognition device used in such a system. Conventionally, in a character recognition device in such a system, post-processing for correcting the character recognition result using a word dictionary is performed for the purpose of improving the recognition accuracy. That is, in the post-processing that does not consider the frequency of appearance of words, the words are determined by the evaluation value of only character recognition, so that the recognition rate is not sufficient. Therefore, post-processing using a word dictionary including the frequency of appearance of words has been proposed, as disclosed in, for example, Japanese Patent Laid-Open Nos. 1-255989, 3-198180, and 4-256194. A character recognition device using these word dictionaries will be described below with reference to FIGS. 7 and 8. FIG. 7 is a block diagram of a conventional character recognition device. In the figure, 701 is a character feature extraction means, 702 is a character recognition dictionary,
Reference numeral 703 is a character recognition means, 704 is a word dictionary, 705 is a word search means, 706 is a word determination means, 707 is a word correction means, and 708 is a word dictionary update means. FIG. 8 is a diagram of a processing example in this character recognition device. The character feature extraction means 701 cuts out a character image from image data in which a character string is described, and extracts a feature pattern from the cut out character image. The character recognition dictionary 702 stores a set of a character code and an identification pattern used to identify a character corresponding to this character code. The character recognition unit 703 is a character feature extraction unit 7
Feature pattern extracted by 01 and character recognition dictionary 7
It is composed of a character code and a recognition evaluation value indicating its certainty by comparing with the identification pattern registered in No. 02, and is less than or equal to a predetermined number per cut out character data which is a recognition target. The recognition candidate character data of is output. The word dictionary 704 stores pairs of character codes and appearance frequencies of words that can appear in a character string. The word searching unit 705 searches the word dictionary 704 for a word composed of a combination of recognition candidate characters output by the character recognizing unit 703, and outputs the word stored in the word dictionary and its appearance frequency. Word determining means 70
6 outputs the word with the highest appearance frequency among the words obtained by the word search means 705. Word correction means 707
Allows the user to correct the word output by the word determining means 706 into a correct word. The word dictionary updating means 708 registers in the word dictionary 704 the word output by the word determining means 706 when the word correcting means 707 has not corrected the word and the corrected word when the word has been corrected. Update the occurrence frequency.

【0004】次に、以上のように構成された文字認識装
置の単語探索以降の処理について、図8を用いて説明す
る。図8(a)は、単語「松居」が記載された画像デー
タに対する文字認識手段703の出力例を示す。図8
(b)は、単語辞書中で探索される単語の例を示す。図
8(c)は、単語辞書704に格納されている単語とそ
の出現頻度の例を示す。文字認識手段703は、図8
(a)に示す認識候補文字を出力したとする。最初の文
字「松」に対しては「松」、「林」、「拡」の認識候補
文字が得られ、その確からしさを示す認識評価値がそれ
ぞれ、62、70、72であったとする。なお、後に説
明する実施例でも認識評価値は値が小さいほどより確か
らしいものとする。二番目の文字「居」に対しては認識
候補文字「居」、「届」、「尾」が得られ、認識評価値
はそれぞれ58、64、73であったとする。単語探索
手段705は、図8(a)に示す認識候補文字「松」、
「林」、「拡」および「居」、「届」、「尾」との組合
せからなる単語、つまり図8(b)に示した「松居」、
「松届」、「松尾」、「林居」等9個の単語について、
これらが単語辞書704中に登録されているか否かを調
べる。その結果、出現頻度が10の単語「松居」と出現
頻度が500の単語「松尾」のみが存在したとする。単
語決定手段706は、単語探索手段705で得られた単
語「松居」と「松尾」のうち、より出現頻度が高い単語
「松尾」を正しい単語と決定して文字認識結果として出
力する。使用者は、単語修正手段707を使用して、単
語決定手段706が誤って決定の上出力した単語「松
尾」を正しい「松居」と修正する。単語辞書更新手段7
08は、単語修正手段で修正された単語「松居」の単語
辞書704に格納されている出現頻度10を更新して1
1とする。
Next, the processing after the word search by the character recognition apparatus configured as described above will be described with reference to FIG. FIG. 8A shows an output example of the character recognition means 703 for the image data in which the word "Matsui" is written. Figure 8
(B) shows an example of a word searched for in the word dictionary. FIG. 8C shows an example of the words stored in the word dictionary 704 and their appearance frequencies. The character recognition means 703 is shown in FIG.
It is assumed that the recognition candidate character shown in (a) is output. It is assumed that recognition candidate characters “pine”, “bay” and “enlarge” are obtained for the first character “pine”, and the recognition evaluation values indicating the certainty thereof are 62, 70 and 72, respectively. In the embodiment described later, the smaller the recognition evaluation value, the more likely it is. It is assumed that recognition candidate characters “I”, “notification”, and “tail” are obtained for the second character “I”, and the recognition evaluation values are 58, 64, and 73, respectively. The word searching means 705 uses the recognition candidate character “pine” shown in FIG.
A word consisting of a combination of "Hayashi", "Expansion" and "I", "Notification", and "Tail", that is, "Matsui" shown in FIG. 8 (b),
About nine words such as "Matsunotari", "Matsuo", "Hayashii",
It is checked whether or not these are registered in the word dictionary 704. As a result, it is assumed that only the word "Matsui" having the appearance frequency of 10 and the word "Matsuo" having the appearance frequency of 500 exist. The word determining means 706 determines the word “Matsuo” having a higher appearance frequency as the correct word among the words “Matsui” and “Matsuo” obtained by the word searching means 705 and outputs it as a character recognition result. The user uses the word correcting means 707 to correct the word "Matsuo" which is erroneously determined and output by the word determining means 706 to be the correct "Matsui". Word dictionary updating means 7
08 updates the appearance frequency 10 stored in the word dictionary 704 of the word “Matsui” corrected by the word correction means to 1
Set to 1.

【0005】なお、本発明に関係する従来の技術として
は、その他認識評価値に関する制限条件に基づいて単語
探索を行う単語を制限する方法(特開平1−25598
9、特開平4−256194)や、時系列に単語の出現
頻度を持つ方法(特開平4−256194)も提案され
ている。また、文字列や文字の切り出し、文字認識及び
認識評価値については、例えば特願昭63−31228
8号「文字認識方法」、特願昭60−106404号
「文字認識装置」、特開平5−128307号「文字認
識装置」、特開平5−128308号「文字認識装置」
等にて公開されているいわば周知の技術であるため、そ
れらの詳細な説明は省略する。
As a conventional technique related to the present invention, a method for limiting the words for which word search is performed based on other limiting conditions regarding the recognition evaluation value (Japanese Patent Laid-Open No. 1-25598).
9, Japanese Patent Laid-Open No. 4-256194), and a method having a word appearance frequency in time series (Japanese Patent Laid-Open No. 4-256194) have been proposed. Regarding character strings and character cutouts, character recognition and recognition evaluation values, see, for example, Japanese Patent Application No. 63-31228.
No. 8 “Character recognition method”, Japanese Patent Application No. 60-106404 “Character recognition device”, Japanese Unexamined Patent Publication No. 5-128307 “Character recognition device”, Japanese Unexamined Patent Publication No. 5-128308 “Character recognition device”
Since this is a well-known technique that is open to the public in the etc., detailed description thereof will be omitted.

【0006】[0006]

【発明が解決しようとする課題】しかしながら上記のよ
うな文字認識装置では、認識候補文字からなる単語につ
いて、出現頻度だけで評価を行って認識結果を決定して
いる。このためたとえ正しい単語が、個々の認識候補文
字の上位に位置するもののみからなっている場合でも、
本来、正しいとされるべき正解単語が単語辞書に登録さ
れていない場合は勿論のこと、たとえ単語辞書に登録さ
れていても該単語そのものの出現頻度が低い値とされて
いるとき場合には、より出現頻度の高い単語を誤って出
力してしまうことがある。
However, in the character recognition apparatus as described above, the recognition result is determined by evaluating the words consisting of the recognition candidate characters only by the appearance frequency. Therefore, even if correct words consist only of those that are higher than the individual recognition candidate characters,
Originally, not only when the correct word that is supposed to be correct is not registered in the word dictionary, but even when it is registered in the word dictionary, when the appearance frequency of the word itself is a low value, Words with higher frequency may be output incorrectly.

【0007】本発明は、上記問題点に鑑み、総合的な判
断によって文字認識を行う文字認識装置を提供すること
を目的としてなされたものである。また、そのような文
字認識装置に学習能力を持たせることを目的としてなさ
れたものである。
The present invention has been made in view of the above problems, and an object thereof is to provide a character recognition device for performing character recognition by comprehensive judgment. Further, the purpose is to provide such a character recognition device with learning ability.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するため
に、請求項1の発明においては、文字列が記載された例
えば画素毎に1、0の数字情報化された画像データから
文字画像を切り出す画像切出し手段と、切り出された文
字画像から文字を認識するのに使用する点、線分、曲線
等の特徴パターンを抽出する文字特徴抽出手段と、文字
コードと該文字コードとの文字であることを識別するの
に使用される識別パターンの組を登録(照合に利用可能
な態様での記憶)した文字認識辞書と、前記文字特徴抽
出手段によって抽出された特徴パターンと前記文字認識
辞書に登録されている識別パターンとを比較して所定の
手順で認識評価値を計算することにより、抽出した1文
字当たりあらかじめ定められた個数以下の認識候補文字
につき、その文字コード及びその確からしさを示す認識
評価値からなる認識候補文字データを出力する仮文字認
識手段と、各文字毎に、その文字と組み合わせて単語を
作る文字の文字コードとその出現頻度(出現の可能性を
示す数値)の組を登録している単語辞書と、相連続して
認識対象となっている複数の文字毎に、前記仮文字認識
手段によって出力された各認識候補文字を文字列中の位
置を不変としたまま組み合わせることにより単語(候補
文字の組合せ、実際の使用は不問)を作成し、前記単語
辞書中にこの単語が登録されているか否かを調べ、若し
登録されているならばその文字と単語辞書に登録されて
いる出現頻度を出力する単語探索手段と、前記単語検索
手段によって出力された単語について前記仮文字認識手
段によって出力された認識評価値と、前記単語探索手段
によって出力された出現頻度とから、所定の手順で単語
評価値を計算する単語評価手段と、前記単語評価手段に
よって計算された単語評価値をもとに正しい単語を決定
する単語決定手段とを備えることにより文字認識を行う
ことを特徴としている。
In order to achieve the above object, in the invention of claim 1, a character image is generated from image data in which a character string is described, for example, digitized information of 1 and 0 for each pixel. An image cutting-out means for cutting out, a character feature extracting means for extracting a characteristic pattern such as points, line segments, and curves used for recognizing characters from the cut-out character image, and a character code and characters of the character code. A character recognition dictionary in which a set of identification patterns used to identify that is registered (stored in a form that can be used for collation), a feature pattern extracted by the character feature extraction means, and the character recognition dictionary are registered. The recognition evaluation value is calculated in a predetermined procedure by comparing it with the identified pattern, and the extracted recognition candidate character is extracted from one character Mode and the character code of the character that makes a word in combination with that character and the appearance frequency (of occurrence) (A numerical value indicating a possibility) and a word dictionary in which a plurality of recognition candidate characters output by the provisional character recognizing unit are stored in a character string for each of a plurality of consecutively recognized characters. A word (combination of candidate characters, regardless of actual use) is created by combining while keeping the position unchanged, and it is checked whether or not this word is registered in the word dictionary. Then, a word search means for outputting the character and the appearance frequency registered in the word dictionary, and a recognition evaluation value output by the temporary character recognition means for the word output by the word search means. A word evaluation unit that calculates a word evaluation value in a predetermined procedure from the appearance frequency output by the word search unit, and a word determination that determines a correct word based on the word evaluation value calculated by the word evaluation unit And a means for recognizing characters.

【0009】請求項2の発明においては、文字列が記載
された画像データから文字画像を切り出す文字画像切出
し手段と、切り出された文字画像から文字を認識するの
に使用する特徴パターンを抽出する文字特徴抽出手段
と、文字コードとその文字コードの文字であることを識
別するのに使用される識別パターンの組を登録した文字
認識辞書と、各文字毎に、その文字と組み合わせて単語
を作る文字の文字コードとその出現頻度の組を登録して
いる単語辞書と、前記単語辞書に登録されている単語に
ついて、その単語を構成する文字コードに対応する前記
文字認識辞書に格納されている文字の識別パターンと前
記文字特徴抽出手段によって抽出された特徴パターンと
を比較して、所定の手順で両者の類似度を示す認識評価
値を計算の上出力する認識評価値計算手段と、前記認識
評価値計算手段によって構成する文字の認識度が高い単
語を候補単語として所定数選出し、この上でこれらの前
記単語辞書に格納されている出現頻度を出力する候補単
語出現頻度出力手段と、前記認識評価値計算手段によっ
て出力された認識評価値と前記候補単語出現頻度出力手
段の出力した出現頻度とから、所定の手順で各候補単語
について単語評価値を計算する単語評価手段と、前記単
語評価手段によって計算された単語評価値をもとに正し
い単語を選択の上決定する単語決定手段とを備えること
により文字認識を行うことを特徴としている。
According to the second aspect of the present invention, a character image cutout means for cutting out a character image from image data in which a character string is described, and a character for extracting a characteristic pattern used for recognizing a character from the cut out character image. Feature extraction means, a character recognition dictionary that registers a character code and a set of identification patterns used to identify the character of that character code, and a character that, for each character, creates a word by combining with that character Of the character dictionary stored in the character recognition dictionary corresponding to the character code that constitutes the word, with respect to the word dictionary registered with the character code of The identification pattern is compared with the feature pattern extracted by the character feature extraction means, and a recognition evaluation value indicating the similarity between the two is calculated and output in a predetermined procedure. A predetermined number of words having a high degree of recognition of the characters formed by the recognition evaluation value calculation means and the recognition evaluation value calculation means are selected as candidate words, and the appearance frequencies stored in these word dictionaries are output. From the candidate word appearance frequency output means, the recognition evaluation value output by the recognition evaluation value calculation means, and the appearance frequency output by the candidate word appearance frequency output means, a word evaluation value is calculated for each candidate word in a predetermined procedure. Character recognition is performed by including a word evaluation unit that performs the above and a word determination unit that selects and determines a correct word based on the word evaluation value calculated by the word evaluation unit.

【0010】請求項3の発明においては、前記単語決定
手段によって決定された単語が誤っていた場合には、使
用者にキーボード操作等で正しい単語に修正可能とさせ
る単語修正手段と、誤って決定された単語及び修正後の
正しい単語の少なくも一については、前記単語辞書に登
録されておれば出現頻度を更新すること及び登録されて
いなければ単語そのものと出現頻度を新規に登録するこ
との少なくも一を行う単語辞書更新手段とを備えたこと
を特徴としている。
According to the third aspect of the present invention, when the word determined by the word determining means is incorrect, the word correcting means allows the user to correct the word by keyboard operation or the like, and the word determining means is erroneously determined. As for at least one of the corrected word and the corrected correct word, the occurrence frequency is updated if it is registered in the word dictionary, and the word itself and the appearance frequency are newly registered if it is not registered. It is also characterized in that it is provided with a word dictionary updating means for performing one of the following.

【0011】請求項4の発明においては、前記単語決定
手段によって決定された単語が誤っていた場合には、使
用者に正しい単語に修正可能とさせる単語修正手段と、
前記単語決定手段によって誤って決定された単語の出現
頻度と、前記単語修正手段によって修正された単語の出
現頻度とから、前記単語評価手段によって単語の評価を
行うために用いる所定の手順の内容を修正する評価手順
修正手段とを備えたことを特徴としている。
In the invention of claim 4, when the word determined by the word determining means is incorrect, the word correcting means for allowing the user to correct the word is correct,
From the appearance frequency of the word erroneously determined by the word determining means and the appearance frequency of the word corrected by the word correcting means, the content of a predetermined procedure used for evaluating the word by the word evaluating means is described. It is characterized in that it comprises an evaluation procedure correcting means for correcting.

【0012】請求項5の発明においては、認識対象の画
像データの内容に応じた複数の種類の文字認識辞書と、
前記複数の種類の文字認識辞書の中から文字認識に使用
するものの種類を選択すること若しくは優先度を定める
ことの少なくも一を可能とさせる文字認識辞書選択操作
部とを有していることを特徴としている。請求項6の発
明においては、認識対象の画像データの内容に応じた複
数の種類の単語辞書と、前記複数の種類の単語辞書の中
から文字認識に使用するものの種類を選択すること若し
くは優先度を定めることの少なくも一を可能とさせる単
語辞書選択操作部とを有していることを特徴としてい
る。
According to the invention of claim 5, a plurality of types of character recognition dictionaries according to the contents of the image data to be recognized,
It has a character recognition dictionary selection operation unit that enables at least one of selecting a type of one used for character recognition from the plurality of types of character recognition dictionaries or setting a priority. It has a feature. According to the invention of claim 6, a plurality of types of word dictionaries corresponding to the contents of the image data to be recognized and a type of a word dictionary used for character recognition are selected from the plurality of types of word dictionaries, or the priority is selected. It is characterized by having a word dictionary selection operation unit that enables at least one to define.

【0013】請求項7の発明においては、文字列が記載
された画像データから文字画像を切り出す画像切出しス
テップと、切り出された文字画像から特徴パターンを抽
出する文字特徴抽出ステップと、前記文字特徴抽出ステ
ップによって得られた特徴パターンとあらかじめ作成さ
れている文字コードと該文字コードの文字であることを
識別するのに使用される識別パターンの組である文字デ
ータが登録されている文字認識辞書内の識別パターンと
を比較する比較ステップと、文字認識辞書の文字識別パ
ターンとの比較により、認識対象の1文字当たりあらか
じめ定められた個数以下の識別候補文字につきその文字
コードおよびその確からしさを示す認識評価値からなる
認識候補文字データを得る仮文字認識ステップと、前記
仮文字認識ステップによって得られた各認識候補文字の
組合せからなる単語を、前記単語辞書中で探索し、前記
単語辞書に格納されている出現頻度を得る単語探索ステ
ップと、前記単語探索ステップによって探索された単語
について、前記文字認識ステップによって得られた認識
評価値のうち単語を構成する認識候補文字の認識評価値
と、前記単語探索ステップによって得られた単語の出現
頻度とから、所定の手順にて単語評価値を得る単語評価
ステップと、前記単語選択手段を用いて、前記単語評価
ステップにおいて得られた単語評価値をもとに正しい単
語を選択する単語決定ステップとを有することにより文
字認識を行うことを特徴としている。
According to a seventh aspect of the present invention, an image cutting step of cutting a character image from image data in which a character string is described, a character feature extracting step of extracting a characteristic pattern from the cut character image, and the character feature extraction. In the character recognition dictionary in which character data, which is a set of the characteristic pattern obtained by the step, a character code created in advance, and an identification pattern used to identify the character of the character code, is registered. A recognition evaluation showing the character code and the certainty of the identification candidate characters of a predetermined number or less per character of the recognition target by comparing the identification step of the identification pattern with the comparison step of comparing the identification pattern. And a temporary character recognition step for obtaining recognition candidate character data consisting of values. A word consisting of a combination of each recognition candidate character obtained by searching the word dictionary, the word search step to obtain the appearance frequency stored in the word dictionary, and the word searched by the word search step From the recognition evaluation values of the recognition candidate characters that form a word among the recognition evaluation values obtained by the character recognition step, and the appearance frequency of the words obtained by the word search step, a word evaluation value in a predetermined procedure. Character recognition is performed by having a word evaluation step of obtaining a word and a word determination step of selecting a correct word based on the word evaluation value obtained in the word evaluation step by using the word selection means. I am trying.

【0014】請求項8の発明においては、文字列が記載
された画像データから文字画像を切り出す画像切り出し
ステップと、切り出された文字画像から文字を認識する
のに使用する特徴パターンを得る文字特徴抽出ステップ
と、各文字毎にその文字と組み合わせて単語を作る文字
の文字コードとその出現頻度の組を登録してあらかじめ
作成されている単語辞書を用いて、その単語辞書に格納
されている単語について、文字コードとその文字コード
の文字であることを識別するのに使用される識別パター
ンとの組を登録してあらかじめ作成されている文字認識
辞書を使用して単語辞書に登録されている単語について
これを構成する文字コードに対応する前記文字認識辞書
に格納されている識別パターンと前記文字特徴抽出ステ
ップによって得られた特徴パターンとを比較して、単語
を構成する文字の確からしさを示す認識評価値を計算の
上出力する認識評価値計算ステップと、前記認識評価値
計算ステップにて構成する文字の認識度が高いとされた
単語を候補単語として所定数選出し、この上でこの候補
単語について、前記単語辞書に格納されている出現頻度
を得た上で出力する単語認識ステップと、前記単語認識
ステップによって選出された各候補単語について、前記
認識評価値計算ステップによって得られた各単語を構成
する文字毎の認識評価値と、各単語の出現頻度とから、
所定の手順で単語評価値を得る単語評価ステップと、前
記単語評価ステップにおいて得られた単語評価値をもと
に正しいと判断される単語を選択の上決定し、この決定
した単語を出力する単語決定ステップとを有しているこ
とを特徴としている。
According to an eighth aspect of the present invention, an image cutting step for cutting a character image from image data in which a character string is described, and a character feature extraction for obtaining a characteristic pattern used for recognizing a character from the cut character image. For each word stored in the word dictionary, use a word dictionary that is created in advance by registering the character code of the character that makes up a word by combining each character with each step and its appearance frequency. About a word registered in a word dictionary using a character recognition dictionary created in advance by registering a set of a character code and an identification pattern used to identify that the character is that character code The identification pattern stored in the character recognition dictionary that corresponds to the character code that constitutes it and the character pattern extracted by the character feature extraction step. And a recognition evaluation value calculation step of calculating and outputting a recognition evaluation value indicating the likelihood of the characters forming the word, and the recognition degree of the characters formed in the recognition evaluation value calculation step. A predetermined number of high-ranked words are selected as candidate words, and the candidate words are selected by the word recognition step of obtaining the appearance frequency stored in the word dictionary and outputting the word, and the word recognition step. For each candidate word that was done, from the recognition evaluation value for each character that constitutes each word obtained by the recognition evaluation value calculation step, and the appearance frequency of each word,
A word evaluation step of obtaining a word evaluation value in a predetermined procedure, and selecting and determining a word judged to be correct based on the word evaluation value obtained in the word evaluation step, and outputting the determined word And a decision step.

【0015】請求項9の発明においては、前記単語決定
ステップによって決定された単語が誤っていた場合には
使用者が正しい単語に修正する単語修正ステップと、前
記単語決定ステップによって決定された単語及び前記単
語修正ステップによって修正された単語の少なくも一に
ついて、前記単語辞書更新手段を用いて、前記単語辞書
に登録されている単語であれば出現頻度を更新すること
及び登録されていない単語であれば単語そのものと出現
頻度とを登録することの少なくも一を行う単語辞書更新
ステップとを備えたことを特徴としている。
In a ninth aspect of the invention, if the word determined by the word determining step is incorrect, the user corrects the word to a correct word, the word determined by the word determining step, and For at least one of the words corrected by the word correction step, the word dictionary updating means is used to update the appearance frequency of the word if the word is registered in the word dictionary. For example, a word dictionary updating step for performing at least one of registering the word itself and the appearance frequency is provided.

【0016】請求項10の発明においては、前記単語決
定ステップによって決定された単語が誤っていた場合に
は使用者が正しい単語に修正する単語修正ステップと、
前記単語決定ステップによって誤って決定された単語の
出現頻度と、前記単語修正ステップによって修正された
単語の出現頻度とから、前記単語評価ステップによって
単語の評価を行うために用いる所定の手順の内容を修正
する評価手順修正ステップとを備えたことを特徴として
いる。
In a tenth aspect of the present invention, when the word determined by the word determining step is incorrect, the user corrects the word to a correct word, and
From the appearance frequency of the word erroneously determined by the word determination step, and the appearance frequency of the word corrected by the word correction step, the content of the predetermined procedure used for evaluating the word by the word evaluation step, It is characterized in that it comprises an evaluation procedure for correcting and a correcting step.

【0017】[0017]

【作用】上記構成により請求項1の発明においては、画
像切出し手段が文字列が記載された画素毎に符号化等さ
れた画像データから文字画像を切り出す。文字特徴抽出
手段が、切り出された文字画像から文字を認識するのに
使用する特徴パターンを抽出する。文字認識辞書には、
文字コードと該文字コードの文字であることを識別する
のに使用される識別パターンの組が文字認識に利用可能
な態様で登録されている。文字認識手段が、前記文字特
徴抽出手段によって抽出された特徴パターンと前記文字
認識辞書に登録されている識別パターンとを比較照合し
て、所定の手順で認識評価値を計算することにより、抽
出した1文字当たりあらかじめ定められた個数以下の文
字コードおよびその確からしさを示す認識評価値からな
る認識候補文字データを出力する。単語辞書には、各文
字毎にその文字と組み合わせて単語を作る文字の文字コ
ードとその単語そのものの文字画像中での出現頻度の組
を登録している。単語探索手段が、前記文字認識手段に
よって出力された相連続して認識対象となっている複数
の文字毎に出力されたあらかじめ定められた個数以下の
認識候補文字を、文字列中の位置を不変としたまま組み
合わせることにより、単語を作成し、前記単語辞書中に
この単語が登録されているか否かを調べ、若し登録され
ているならばその文字と単語辞書に格納されている出現
頻度を出力する。単語評価手段が、単語探索手段によっ
て出力された単語について前記仮文字認識手段によって
出力された認識評価値と、前記単語探索手段によって出
力された出現頻度とから、所定の手順を用いて単語評価
値を計算する。単語決定手段が、前記単語評価手段によ
って計算された単語評価値をもとに正しい単語を決定す
る。
According to the invention of the first aspect, the image cut-out means cuts out a character image from image data encoded for each pixel in which a character string is described. The character feature extraction means extracts a feature pattern used for recognizing a character from the cut out character image. In the character recognition dictionary,
A set of a character code and an identification pattern used to identify the character of the character code is registered in a manner that can be used for character recognition. The character recognition means compares and compares the feature pattern extracted by the character feature extraction means with the identification pattern registered in the character recognition dictionary, and calculates the recognition evaluation value according to a predetermined procedure to extract. The recognition candidate character data consisting of a character code equal to or less than a predetermined number per character and a recognition evaluation value indicating its certainty is output. In the word dictionary, each character is registered with a character code of a character that is combined with the character to form a word and a set of the appearance frequency of the word itself in a character image. The word search means does not change the positions in the character string of the recognition candidate characters of the predetermined number or less output for each of the plurality of consecutively recognized characters output by the character recognition means. A word is created by combining as is, and it is checked whether or not this word is registered in the word dictionary. If it is registered, the character and the frequency of appearance stored in the word dictionary are checked. Output. The word evaluation means, for the word output by the word search means, from the recognition evaluation value output by the temporary character recognition means and the appearance frequency output by the word search means, a word evaluation value using a predetermined procedure. To calculate. The word determining means determines a correct word based on the word evaluation value calculated by the word evaluating means.

【0018】請求項2の発明においては、文字画像切出
し手段が文字列が記載された画像データから文字画像を
切り出す。文字特徴抽出手段が、切り出された文字画像
から文字を認識するのに使用する特徴パターンを抽出す
る。文字認識辞書には、あらかじめ文字コードと該文字
コードの文字であることを識別するのに使用される識別
パターンの組を登録してある。単語辞書には、各文字毎
にその文字と組み合わせて単語を作る文字の文字コード
とあらかじめの印刷文書一般の調査の結果等によりもと
めたその出現頻度の組を登録している。単語認識計算手
段が、前記単語辞書に登録されている単語について、前
記文字特徴抽出手段によって抽出された特徴パターン
と、単語を構成する文字コードに対応する前記文字認識
辞書に格納されている識別パターンとを比較して、所定
の手順で両者の類似度を示す認識評価値を計算する。候
補単語出現頻度出力手段が、認識評価値計算手段によっ
て構成する文字の認識度が高い単語を候補単語として所
定数選出し、この上でこれらの出現頻度を単語辞書から
もとめて出力する。単語評価手段が、単語認識手段によ
って出力された認識評価値と出現頻度とから、所定の手
順で各候補単語についてその単語評価値を計算する。単
語決定手段が、単語評価手段によって計算された単語評
価値をもとに正しい単語を選択の上決定する。
According to the second aspect of the invention, the character image cutout means cuts out a character image from the image data in which the character string is described. The character feature extraction means extracts a feature pattern used for recognizing a character from the cut out character image. In the character recognition dictionary, a set of a character code and an identification pattern used to identify a character of the character code is registered in advance. In the word dictionary, for each character, a set of the character code of a character that is combined with the character to form a word and the appearance frequency obtained based on the result of a general survey of printed documents in advance is registered. The word recognition calculation means, for a word registered in the word dictionary, the feature pattern extracted by the character feature extraction means, and the identification pattern stored in the character recognition dictionary corresponding to the character code forming the word. And are compared, and a recognition evaluation value indicating the similarity between the two is calculated in a predetermined procedure. The candidate word appearance frequency output means selects a predetermined number of words having a high degree of recognition of the characters formed by the recognition evaluation value calculation means as candidate words, and then outputs these appearance frequencies based on the word dictionary. The word evaluation means calculates the word evaluation value for each candidate word in a predetermined procedure from the recognition evaluation value output by the word recognition means and the appearance frequency. The word determining means selects and determines a correct word based on the word evaluation value calculated by the word evaluating means.

【0019】請求項3の発明においては、単語修正手段
が単語決定手段によって誤って決定された単語が存在す
る場合に、ワードプロセッサ等と同じくこれをCRTへ
の表示等で見つけた使用者にキーボード操作等により正
しい単語に修正することを可能とさせる。単語辞書更新
手段が、誤って決定された単語及び修正後の正しい単語
の少なくも一(含む、両方)については、前記単語辞書
に登録されておれば出現頻度を更新すること及び登録さ
れていなければ単語そのものと出現頻度を新規に登録す
ることの少なくも一を行う。
According to the third aspect of the present invention, when there is a word which is erroneously determined by the word deciding means by the word deciding means, a keyboard operation is performed by a user who finds this word by displaying it on a CRT or the like as in a word processor. It is possible to correct to a correct word. The word dictionary updating means should update the appearance frequency of at least one (including both) of the erroneously determined word and the corrected correct word, if it is registered in the word dictionary. For example, it does at least one without registering the word itself and the appearance frequency newly.

【0020】請求項4の発明においては、単語修正手段
が単語決定手段によって誤って決定された単語が存在す
る場合に、これを使用者が正しい単語に修正することを
可能とさせる。評価手順修正手段が、前記単語決定手段
によって誤って決定された単語の出現頻度と、前記単語
修正手段によって修正された単語の出現頻度とから、前
記単語評価手段によって単語の評価を行うために用いる
関数そのものやそのパラメータ等からなる処理の内容を
修正する。
According to the fourth aspect of the present invention, the word correcting means enables the user to correct a word that is erroneously determined by the word determining means to a correct word. Used by the evaluation procedure correction means for evaluating the word by the word evaluation means from the appearance frequency of the word incorrectly determined by the word determination means and the appearance frequency of the word corrected by the word correction means. Modify the contents of the process consisting of the function itself and its parameters.

【0021】請求項5の発明においては、文字認識辞書
が認識対象の画像データの内容に応じて作成されてい
る。文字認識辞書選択操作部が、複数の種類の文字認識
辞書の中から文字認識に使用するものの種類を選択する
こと若しくは優先度を定めることの少なくも一を選択可
能とさせる。請求項6の発明においては、複数の種類の
単語辞書が認識対象の画像データの内容に応じて作成さ
れている。単語辞書選択操作部が、複数の種類の単語辞
書の中から文字認識に使用するものの種類を選択するこ
と若しくは優先度を定めることの少なくも一を可能とさ
せる。
In the invention of claim 5, the character recognition dictionary is created in accordance with the contents of the image data to be recognized. The character recognition dictionary selection operation unit makes it possible to select at least one of a plurality of types of character recognition dictionaries by selecting a kind of one used for character recognition or setting a priority. In the invention of claim 6, a plurality of types of word dictionaries are created according to the contents of the image data to be recognized. The word dictionary selection operation unit enables at least one of selecting the type of one used for character recognition from a plurality of types of word dictionaries or determining the priority.

【0022】請求項7から請求項10の発明において
は、各々請求項1から請求項4の発明と同じ作用がなさ
れる。
In the inventions of claims 7 to 10, the same operations as those of the inventions of claims 1 to 4 are performed.

【0023】[0023]

【実施例】以下、本発明に係る文字認識装置を実施例に
基づいて説明する。 (第1実施例)図1は本発明の第一実施例の構成図であ
る。本図において、101は文字特徴抽出手段であり、
102は文字認識辞書であり、103は文字認識手段で
あり、104は単語辞書であり、105は単語探索手段
であり、106は単語評価手段であり、107は単語決
定手段であり、108は単語修正手段であり、109は
単語辞書更新手段であり、110は評価関数修正手段で
ある。
DESCRIPTION OF THE PREFERRED EMBODIMENTS A character recognition device according to the present invention will be described below based on embodiments. (First Embodiment) FIG. 1 is a block diagram of the first embodiment of the present invention. In the figure, 101 is a character feature extraction means,
102 is a character recognition dictionary, 103 is a character recognition means, 104 is a word dictionary, 105 is a word search means, 106 is a word evaluation means, 107 is a word determination means, and 108 is a word. Reference numeral 109 is a correction means, and word dictionary update means 109, and 110 is an evaluation function correction means.

【0024】次に、以上のように構成された文字認識装
置について図1、図2及び図3を用いてその動作を説明
する。なお、ここに図2は、本実施例の処理を示すフロ
ーチャートであり、図3は、本実施例における処理例の
図である。文字特徴抽出ステップ(201)では、文字
特徴抽出手段101が光源と光/電気変換素子を有する
スキャナあるいはファイルなどから読み込まれた認識対
象文字列を含む画像データに対して、例えば互いに直行
する二方向への投影を取るなどの方法によって、文字列
を切り出し、更に一文字ずつの文字画像を文字画素の連
続の有無や行間隔から求めた文字ピッチ等をもとに切り
出す。更に、この切り出された一文字ずつの画像から、
例えば輪郭の方向など文字の特徴を示す特徴パターンの
抽出がなされる。
Next, the operation of the character recognition device configured as described above will be described with reference to FIGS. 1, 2 and 3. 2 is a flow chart showing the processing of this embodiment, and FIG. 3 is a diagram of an example of processing in this embodiment. In the character feature extraction step (201), for example, two directions orthogonal to each other with respect to image data containing a character string to be recognized read by a character feature extraction means 101 from a scanner or a file having a light source and an optical / electrical conversion element. A character string is cut out by a method such as projection onto a character, and a character image for each character is further cut out based on the presence or absence of continuous character pixels and the character pitch obtained from the line spacing. Furthermore, from this clipped image of each character,
For example, a characteristic pattern indicating the characteristic of the character such as the direction of the contour is extracted.

【0025】文字認識ステップ(202)では、文字認
識手段103を用いて、文字特徴抽出ステップ(20
1)に抽出された特徴パターンと、文字認識辞書102
に格納されている全ての識別パターンとの相違を多次元
ベクトル化してその距離を計算するなどして、複数の認
識候補文字を得る。ここに、認識候補文字データは、文
字コードと、その確からしさを示す例えば距離値などの
認識評価値とからなる。なお、この場合、出力する認識
候補文字数はシステム全体の処理速度の面から3としか
つ評価値の低いものは足切りを行うものとしている。ま
たこのため、最大3となる。例えば、図3(a)に単語
「松居」が記載された画像データに対する文字認識手段
103の出力例を示す。最初の文字「松」に対しては
「松」、「林」、「拡」の認識候補文字が得られ、その
確からしさを示す認識評価値がそれぞれ、62、70、
72であったとする。二番目の文字「居」に対しては認
識候補文字「居」、「届」、「尾」が得られ、認識評価
値はそれぞれ58、64、73であったとする。
In the character recognition step (202), the character feature extraction step (20
The feature pattern extracted in 1) and the character recognition dictionary 102
A plurality of recognition candidate characters are obtained by, for example, converting the difference from all the identification patterns stored in the. Here, the recognition candidate character data is composed of a character code and a recognition evaluation value such as a distance value indicating its certainty. In this case, the number of recognition candidate characters to be output is set to 3 in view of the processing speed of the entire system, and the one having a low evaluation value is cut off. Therefore, the maximum is 3. For example, FIG. 3A shows an output example of the character recognition unit 103 for image data in which the word "Matsui" is written. For the first character "pine", recognition candidate characters "pine", "bayashi", and "expansion" are obtained, and the recognition evaluation values indicating the certainty thereof are 62, 70, and 70, respectively.
Assume that it is 72. It is assumed that recognition candidate characters “I”, “notification”, and “tail” are obtained for the second character “I”, and the recognition evaluation values are 58, 64, and 73, respectively.

【0026】候補選択ステップ(203)では、文字認
識ステップ202で得られた認識候補文字の文字列中の
配置を変更しない組合せ(実際には、単語とは限らない
が、本明細書では「単語」という。)のうち、まだ単語
探索ステップ204によって探索されていない単語を一
つ選択する。例えば、図3(b)に示す9つの単語「松
居」、「松届」などの中から一つを選択する。
In the candidate selection step (203), a combination that does not change the arrangement of the recognition candidate characters obtained in the character recognition step 202 in the character string (actually, it is not always a word, "."), One word that has not been searched by the word search step 204 is selected. For example, one is selected from the nine words "Matsui", "Matsunotai", etc. shown in FIG. 3 (b).

【0027】単語探索ステップ(204)では、単語探
索手段105を用いて、候補選択ステップ(203)に
よって選択された単語が、単語辞書104に登録されて
いるか否かが調べられ、登録されているならばその出現
頻度が得られる。なお、単語辞書に格納されていない単
語の出現頻度は0とする。図3(c)に単語辞書104
に格納されている単語とその出現頻度を例示する。図3
(b)に示した単語の中では、出現頻度10の「松居」
および出現頻度500の「松尾」が単語辞書に存在し、
その他の単語は存在しなかったとする。
In the word searching step (204), it is checked using the word searching means 105 whether or not the word selected in the candidate selecting step (203) is registered in the word dictionary 104, and it is registered. If so, the appearance frequency is obtained. The appearance frequency of words that are not stored in the word dictionary is 0. The word dictionary 104 is shown in FIG.
Examples of the words stored in and the frequency of their appearance are shown. Figure 3
Among the words shown in (b), "Matsui" with an appearance frequency of 10
And "Matsuo" with appearance frequency 500 exists in the word dictionary,
It is assumed that the other words do not exist.

【0028】単語評価ステップ(205)では、単語評
価手段106を用いて、文字認識ステップ(202)で
得られた認識評価値のうち単語を構成する認識候補文字
の認識評価値の和と、単語探索ステップ(204)で得
られた単語の出現頻度とから、あらかじめ定められた関
数、例えば以下の式を用いて単語評価値が計算される。
In the word evaluation step (205), the word evaluation means 106 is used to calculate the sum of the recognition evaluation values of the recognition candidate characters constituting the word among the recognition evaluation values obtained in the character recognition step (202) and the word. From the word appearance frequency obtained in the search step (204), a word evaluation value is calculated using a predetermined function, for example, the following formula.

【0029】(出現頻度が0でない場合) 単語評価値=(認識評価値の和)×{1−P×ln(出
現頻度)} ここで、Pは設定値であり、本実施例では、当初0.0
2とする。また、lnは自然対数である。 (出現頻度が0の場合) 単語評価値=認識評価値の和 そうすると、単語「松居」の単語評価値は、 (62+58)×{1−0.02×ln(10)}=1
14となる。同じく、単語「松尾」の単語評価値は、 (62+73)×{1−0.02×ln(500)}=
118となる。同じく、単語「林居」の単語評価値は、 70+58=128となる。
(When appearance frequency is not 0) Word evaluation value = (sum of recognition evaluation values) × {1-P × ln (appearance frequency)} Here, P is a set value, and in this embodiment, initially 0.0
Set to 2. In addition, ln is a natural logarithm. (When the appearance frequency is 0) Word evaluation value = sum of recognition evaluation values Then, the word evaluation value of the word “Matsui” is (62 + 58) × {1-0.02 × ln (10)} = 1
It becomes 14. Similarly, the word evaluation value of the word “Matsuo” is (62 + 73) × {1-0.02 × ln (500)} =
It becomes 118. Similarly, the word evaluation value of the word "Hayashii" is 70 + 58 = 128.

【0030】図3(d)に、以上の手順でもとめた各単
語の単語評価値を示す。候補終了判定ステップ(20
6)では、文字認識ステップ(202)で得られた認識
候補文字の全ての組合せについて単語探索ステップ(2
04)での処理を終えたか否かが判定され、未終了の場
合には候補選択ステップ(203)へ進み、終了の場合
には単語決定ステップ(207)へ進むこととなる。例
えば、図3(b)の9つの単語について単語探索ステッ
プでの処理を終えると、単語決定ステップ(207)へ
進む。
FIG. 3D shows the word evaluation value of each word determined by the above procedure. Candidate end determination step (20
In 6), the word search step (2) is performed for all combinations of the recognition candidate characters obtained in the character recognition step (202).
It is determined whether or not the processing in 04) has been completed. If not completed, the process proceeds to the candidate selection step (203), and if completed, the word determination step (207) is performed. For example, when the processing in the word search step is completed for the nine words in FIG. 3B, the process proceeds to the word determination step (207).

【0031】単語決定ステップ(207)では、単語決
定手段107が、単語評価ステップ(205)で計算さ
れた単語評価値に基づいて、最も評価が良い単語が一つ
選択された上出力される。例えば、図3(d)に示した
各単語から単語評価値が最も良い、すなわち、最も値が
小さい単語「松居」を選択する。単語修正ステップ(2
08)では、単語修正手段108が、単語決定ステップ
(207)で得られた単語を、表示装置に表示するなど
して使用者の確認を促す。そして、正しい単語が表示さ
れておれば、使用者は正しい旨を示す確認の入力を行
い、また正しくなければ正しい単語をキーボードなどか
ら入力したり、次順位の候補単語をカーソルで指定した
りして訂正することにより確認、修正処理を可能とさせ
る。例えば、単語決定ステップで正しい単語「松居」が
決定された場合には、結果を確認する入力を行う。ま
た、例えば他の記載場所で読み取った画像データが本来
は「松居」であるのに誤った単語「松尾」が決定された
場合には正しい単語「松居」と修正がなされる。
In the word determining step (207), the word determining means 107 selects and outputs one of the words having the best evaluation based on the word evaluation value calculated in the word evaluating step (205). For example, the word “Matsui” having the best word evaluation value, that is, the smallest value is selected from the words shown in FIG. Word correction step (2
In 08), the word correction means 108 prompts the user to confirm by displaying the word obtained in the word determination step (207) on the display device. Then, if the correct word is displayed, the user performs confirmation input indicating that it is correct, and if it is not correct, the correct word is entered from the keyboard or the next candidate word is designated with the cursor. By making corrections, confirmation and correction processing become possible. For example, when the correct word "Matsui" is determined in the word determination step, the input for confirming the result is performed. Further, for example, when the wrong word “Matsuo” is determined even though the image data read in another description place is originally “Matsui”, the correct word “Matsui” is corrected.

【0032】単語辞書更新ステップ(209)では、単
語修正ステップ(208)で修正された場合には修正後
の単語について、修正されなかった場合には単語決定ス
テップ(207)で得られた単語について、単語辞書更
新手段109を用いて単語辞書104の「松居」の出現
頻度に1を加えたり、出現率を増加させるなどしてその
内容を更新する。また、単語修正ステップ(208)で
修正された単語が単語辞書104に格納されていない単
語であった場合には、新たに該当する単語を単語辞書に
登録し、出現頻度を例えば1と初期化する。例えば、単
語辞書中の単語「松居」の出現頻度に1を加えて11と
更新する。また、単語修正ステップ(208)で単語辞
書に存在しない単語「林尾」と修正された場合には、単
語辞書に単語「林尾」とその出現頻度1を新たに登録す
る。
In the word dictionary updating step (209), the word after the correction is made if the word is corrected in the word correcting step (208), and the word obtained in the word determining step (207) is made if the word is not corrected. The content is updated by adding 1 to the appearance frequency of “Matsui” in the word dictionary 104 or increasing the appearance rate using the word dictionary updating means 109. If the word corrected in the word correction step (208) is not stored in the word dictionary 104, the corresponding word is newly registered in the word dictionary and the appearance frequency is initialized to 1, for example. To do. For example, 1 is added to the appearance frequency of the word "Matsui" in the word dictionary to update it to 11. Further, when the word correction step (208) corrects the word "Hayashio" that does not exist in the word dictionary, the word "Hayashio" and its appearance frequency 1 are newly registered in the word dictionary.

【0033】修正判定ステップ(210)では、単語修
正ステップ(208)での使用者による修正の有無を判
定し、修正されなかった場合には画像データ中の当該文
字の認識処理を終了し、修正された場合には評価関数修
正ステップ(211)へ行くこととなる。評価関数修正
ステップ(211)では、使用者が単語決定ステップ
(207)で得られた単語を単語修正ステップ(20
8)で修正した場合には、単語評価手段106が単語を
評価するために使用している関数のパラメータを修正す
ることがなされる。例えば、単語決定ステップ(20
7)で、認識評価値が良く出現頻度が低い単語を誤って
選択した場合には、出現頻度に関する重みが大きくなる
ように修正し、逆に認識評価値が悪く出現頻度が高い単
語を誤って選択した場合には、出現頻度に関する重みが
小さくなるように修正する。以下、図3(a)に示した
認識候補文字及び図3(c)に示した出現頻度を持った
単語について、これらの修正の内容を説明する。正しい
単語が「松尾」である場合に、若しより出現頻度が低い
単語「松居」と誤って決定出力された場合には、パラメ
ータPを大きな値へ修正する。これは、単語評価値を求
める関数での出現頻度の重みを増すためである。一方正
しい単語が「松居」である場合に、より出現頻度が高い
単語「松尾」と誤って決定出力された場合には、パラメ
ータPを小さな値へ修正する。これは、単語評価値を求
める関数での出現頻度の重みを減らすためである。 (第2実施例)図4は、本実施例の構成図である。本図
において、401は文字特徴抽出手段であり、402は
文字認識辞書であり、403は単語辞書であり、404
は単語認識手段であり、405は単語評価手段であり、
406は単語決定手段であり、407は単語修正手段で
あり、408は単語辞書更新手段であり、409は評価
関数修正手段である。次に、以上のように構成された文
字認識装置について、図4、図5及び図6を用いてその
動作を説明する。ここに、図5は本実施例における処理
のフローチャートであり、図6は本実施例における処理
例の図である。
In the correction judging step (210), it is judged whether or not there is a correction by the user in the word correcting step (208), and if it is not corrected, the recognition processing of the character in the image data is terminated, and the correction is made. If so, the evaluation function correction step (211) is performed. In the evaluation function correction step (211), the user corrects the word obtained in the word determination step (207) in the word correction step (20).
When the correction is made in 8), the parameter of the function used by the word evaluation means 106 to evaluate the word is corrected. For example, the word determination step (20
In 7), when a word with a good recognition evaluation value and a low appearance frequency is erroneously selected, the weight related to the appearance frequency is corrected so as to be large, and a word with a poor recognition evaluation value and a high appearance frequency is erroneously selected. When selected, correction is performed so that the weight related to the appearance frequency is reduced. Hereinafter, the contents of these corrections will be described with respect to the recognition candidate character shown in FIG. 3A and the word having the appearance frequency shown in FIG. When the correct word is "Matsuo" and the word "Matsui" having a lower appearance frequency is erroneously determined and output, the parameter P is corrected to a large value. This is to increase the weight of the appearance frequency in the function for obtaining the word evaluation value. On the other hand, when the correct word is "Matsui" and the word "Matsuo" having a higher appearance frequency is erroneously determined and output, the parameter P is corrected to a small value. This is to reduce the weight of the appearance frequency in the function for obtaining the word evaluation value. (Second Embodiment) FIG. 4 is a block diagram of the present embodiment. In the figure, 401 is a character feature extraction means, 402 is a character recognition dictionary, 403 is a word dictionary, and 404.
Is a word recognition means, 405 is a word evaluation means,
406 is a word determining means, 407 is a word correcting means, 408 is a word dictionary updating means, and 409 is an evaluation function correcting means. Next, the operation of the character recognition device configured as described above will be described with reference to FIGS. 4, 5 and 6. Here, FIG. 5 is a flowchart of the process in the present embodiment, and FIG. 6 is a diagram of a process example in the present embodiment.

【0034】文字特徴抽出ステップ(501)では、先
の第1実施例と同じく文字特徴抽出手段401を用い
て、例えば輪郭の方向など文字の特徴を示す特徴パター
ンを抽出することがなされる。単語選択ステップ(50
2)では、単語辞書403に格納されている単語の中か
ら、まだ単語認識ステップ503での処理を終えていな
い単語が一つ選択される。
In the character feature extraction step (501), the feature pattern indicating the feature of the character such as the direction of the contour is extracted using the character feature extraction means 401 as in the first embodiment. Word selection step (50
In 2), from the words stored in the word dictionary 403, one word that has not been processed in the word recognition step 503 is selected.

【0035】単語認識ステップ(503)では、単語認
識手段404を用いて、単語選択ステップ(502)で
選択された単語について、文字特徴抽出ステップ(50
1)で得られた特徴パターンと、単語を構成する文字コ
ードに対応する文字認識辞書402内の識別パターンと
の相違の程度を足切りや多次元ベクトル化してその距離
を計算するなどの処理をして、単語を構成する文字の確
からしさを示す距離値等の認識評価値が得られる。ま
た、同時に単語辞書403に格納されている単語の出現
頻度も得られる。図6(a)に単語辞書に格納されてい
る単語と出現頻度の例を、図6(b)にそれぞれの単語
を構成する文字の認識評価値の例を示す。例えば、単語
「松居」の文字「松」の認識評価値は62であり、文字
「居」の認識評価値は58である。単語評価ステップ
(504)では、単語評価手段405を用いて、単語認
識ステップ503で得られた単語を構成する文字の認識
評価値の和と、単語の出現頻度とから、あらかじめ定め
られた関数、例えば単語評価値を以下の式を用いて単語
評価値を計算する。
In the word recognizing step (503), the word recognizing means 404 is used to extract the character feature of the word selected in the word selecting step (502) (50).
Processing such as truncation or multidimensional vectorization of the degree of difference between the characteristic pattern obtained in 1) and the identification pattern in the character recognition dictionary 402 corresponding to the character code forming the word to calculate the distance is performed. Then, a recognition evaluation value such as a distance value indicating the certainty of the characters forming the word is obtained. At the same time, the appearance frequency of the words stored in the word dictionary 403 can be obtained. FIG. 6A shows an example of the words stored in the word dictionary and the appearance frequency, and FIG. 6B shows an example of the recognition evaluation value of the characters constituting each word. For example, the recognition evaluation value of the character "Matsu" of the word "Matsui" is 62, and the recognition evaluation value of the character "Ii" is 58. In the word evaluation step (504), the word evaluation means 405 is used to determine a predetermined function from the sum of the recognition evaluation values of the characters forming the word obtained in the word recognition step 503 and the word appearance frequency, For example, the word evaluation value is calculated using the following expression.

【0036】単語評価値=(認識評価値の和)×{1−
P×ln(出現頻度)} ここで、Pは設定値であり、第1実施例と同じく、当初
0.02とする。また、lnは自然対数である。そうす
ると、単語「松居」の単語評価値は、 (62+58)×{1−0.02×ln(10)}=1
14となり、単語「松尾」の単語評価値は、 (62+73)×{1−0.02×ln(500)}=
118となる。
Word evaluation value = (sum of recognition evaluation values) × {1-
P × ln (appearance frequency)} Here, P is a set value, and is initially 0.02 as in the first embodiment. In addition, ln is a natural logarithm. Then, the word evaluation value of the word "Matsui" is (62 + 58) * {1-0.02 * ln (10)} = 1
14, and the word evaluation value of the word “Matsuo” is (62 + 73) × {1-0.02 × ln (500)} =
It becomes 118.

【0037】図6(c)に各単語の単語評価値の例を示
す。単語終了判定ステップ(505)では、単語辞書4
03に格納されている全ての単語について、単語認識ス
テップ(503)の処理が終えているか否かを判定し、
未終了の場合には、単語選択ステップ(502)へ進
み、終了の場合には単語決定ステップ(506)へ進
む。
FIG. 6C shows an example of the word evaluation value of each word. In the word end determination step (505), the word dictionary 4
It is determined whether or not the processing of the word recognition step (503) has been completed for all the words stored in 03.
If not completed, the process proceeds to the word selection step (502), and if completed, the word determination step (506).

【0038】単語決定ステップ(506)では、単語辞
書403に格納されている全ての単語について単語認識
ステップ(503)及び単語評価ステップ(504)で
の処理を終了した後に、単語決定手段406を用いて決
定が行われる。本ステップでは、単語評価ステップ(5
04)で計算された単語評価値に基づいて、最も評価が
良い単語を一つ選択する。例えば、図6(c)に示した
各単語から単語評価値が最も良い、すなわち、最も値が
小さい単語「松居」を選択する。
In the word deciding step (506), the word deciding means 406 is used after the processing in the word recognizing step (503) and the word evaluating step (504) is completed for all the words stored in the word dictionary 403. Decisions are made. In this step, the word evaluation step (5
Based on the word evaluation value calculated in 04), one word with the best evaluation is selected. For example, the word "Matsui" having the best word evaluation value, that is, the smallest value is selected from the words shown in FIG. 6 (c).

【0039】以降の処理は、本発明第一の実施例と同様
であるので省略する。 (第3実施例)本実施例は、基本的には先の第1、第2
実施例と同じである。ただし、文字認識辞書と単語辞書
とが文字認識の対象とされる画像データの内容に応じて
切換可能となっているのが異なる。
Subsequent processing is the same as that of the first embodiment of the present invention, and therefore its description is omitted. (Third Embodiment) This embodiment is basically the same as the first and second embodiments.
Same as the embodiment. However, it is different in that the character recognition dictionary and the word dictionary can be switched according to the contents of the image data targeted for character recognition.

【0040】周知のごとく、日本語、中国語、英語ある
いは特許出願の明細書、新聞、数学の論文等各種文書
は、その言語や内容の種類、如何等によって使用される
文字やその字体、あるいは記号や単語(学術用語)やそ
の使用頻度等に個別の傾向が見られる。例えば、特許出
願の明細書では「発明」や「手段」、新聞では「政府」
や「経済」等の単語の使用頻度が高い。
As is well known, Japanese, Chinese, English or various documents such as patent application specifications, newspapers, mathematics papers, etc. are characters or fonts used according to the language or type of content, or the like, or Individual tendencies can be seen in symbols and words (scientific terms) and their frequency of use. For example, "invention" or "means" in the specification of a patent application and "government" in a newspaper
Frequent use of words such as "economy".

【0041】このため、本実施例ではあらかじめ各種文
書用に文字認識辞書と単語辞書とを作成しておき、認識
開始に先立って使用者が認識対象の文書の種類を教え
(入力し)たり、辞書の優先度を指定したりすることに
より、文字認識の効率向上を図っている。ただし、辞書
の使用者による優先度の入力等を実現するためのハード
面、ソフト面の構成はいわば周知の技術である。例え
ば、日本語と欧米系言語との自動翻訳装置において、類
縁の深いポルトガル語とスペイン語等は装置の使用する
辞書を変換するだけで流用されている。このため、構成
図やフローチャート等を使用してのハード面やソフト面
の説明は省略する。
For this reason, in this embodiment, a character recognition dictionary and a word dictionary are created in advance for various documents, and the user teaches (inputs) the type of the document to be recognized before starting the recognition. The efficiency of character recognition is improved by specifying the priority of the dictionary. However, the hardware and software configurations for realizing the priority input by the user of the dictionary are known techniques. For example, in an automatic translation device for Japanese and Western languages, Portuguese and Spanish, which are closely related to each other, are used only by converting the dictionary used by the device. Therefore, the description of the hardware and software aspects using the configuration diagram and the flowchart is omitted.

【0042】以上、本発明を実施例にもとづいて説明し
てきたが、本発明は何も上記実施例に限定されないのは
勿論である。すなわち、以下のようなものも本発明に含
まれる。 (1)製造等の都合で、各特許請求の範囲に記載した1
の構成要素(要件、ステップ)を複数のものとしてい
る。逆に、複数のものを1としている。あるいは、これ
らを適宜組み合わせている。
Although the present invention has been described above based on the embodiments, it goes without saying that the present invention is not limited to the above embodiments. That is, the following is also included in the present invention. (1) For convenience of manufacturing, etc., 1 described in each claim
Has multiple components (requirements, steps). On the contrary, a plurality of items are set to 1. Alternatively, these are appropriately combined.

【0043】(2)実施例では、単語は2字のものとし
ているが、多くの文字を対象として認識効果を上げるた
め3字、4字等の単語をも登録している。この際、認識
対象として採用する単語の優先順位の選択としては、他
に形態素解析や最長一致法が併用されるのは勿論であ
る。また、認識対象が欧米系の文書であるならば、この
効果は更に向上するであろう。
(2) In the embodiment, the word is made up of two letters, but in order to improve the recognition effect for many letters, words of three letters, four letters, etc. are also registered. At this time, it goes without saying that morphological analysis and the longest matching method are used together to select the priority order of the words to be adopted as the recognition target. Moreover, if the recognition target is a document of Western origin, this effect will be further improved.

【0044】(3)画像切出し手段は取出し、装着可能
のフロッピーディスク等の記憶部を内蔵した上で、他の
手段と別体としている。また、別体の他の手段はこの記
憶部を取り出し、装着可能としている。これにより、携
帯性の向上、高価な文字認識部本体の有効活用を図る。 (4)文字は、漢字に限定されず、仮字(仮名)、ハン
グル文字、アルファベット、数学の記号あるいはこれら
と漢字からなるものとしている。
(3) The image cutting means has a built-in storage unit such as a floppy disk that can be taken out and mounted, and is separate from other means. In addition, the other means, which is a separate body, can take out this storage unit and mount it. This will improve portability and effectively utilize the expensive character recognition unit body. (4) Characters are not limited to Kanji, and are assumed to be Kana (Kana), Hangul characters, alphabets, mathematical symbols, or these and Kanji.

【0045】(5)単語修正ステップで単語が修正され
る度に、評価関数修正ステップにおいて評価関数のパラ
メータを修正するとしたが、単語修正ステップでの単語
の修正が一定回数に達した時点で、評価関数修正ステッ
プでの評価関数のパラメータの修正を行うとしている。 (6)文字のパターン認識は、アルファベットやアラビ
ア数字に対して用いられる決定木法(特願平5−685
86号)等各種の方法がある。このため、その方法如何
によって、単語決定手段で用いられる所定の手順は、設
定値や自然対数を用いるものでなく他のものにしてい
る。
(5) The parameter of the evaluation function is modified in the evaluation function modification step each time the word is modified in the word modification step. However, when the number of modifications of the word in the word modification step reaches a certain number of times, It is supposed that the parameters of the evaluation function will be modified in the evaluation function modification step. (6) Character pattern recognition is a decision tree method used for alphabets and Arabic numerals (Japanese Patent Application No. 5-685).
There are various methods such as No. 86). Therefore, depending on the method, the predetermined procedure used by the word determining means is not the one using the set value or the natural logarithm but another one.

【0046】更に、文字の認識評価値そのものや単語の
出現頻度そのものが非常に低いならば適宜足切りを行う
ような手段を採用している。逆に、文字の認識評価値が
非常に高かったり、既に確定した文字があれば、それら
を候補単語選択に際して重要視している。 (7)特殊な文書にあっては、その文書固有の記号、文
字等についてはあらかじめ装置側に教えておく、若しく
は入力可能とする機能を付加している。例えば、特許出
願書類における「〔」、「〕」類似の記号や数学の論文
における「=」等である。
Furthermore, if the character recognition evaluation value itself or the word appearance frequency itself is very low, a means for appropriately cutting off is adopted. On the contrary, if the character recognition evaluation value is very high or there are already fixed characters, those characters are considered important when selecting candidate words. (7) In the case of a special document, a symbol, character or the like peculiar to the document is taught to the device side in advance, or a function for allowing input is added. For example, symbols similar to “[” and “]” in patent application documents and “=” in mathematics papers.

【0047】[0047]

【発明の効果】以上説明してきたように本発明によれ
ば、文字に対する認識評価値とその文字にて構成される
単語の出現頻度とからあらかじめ定められた手順を用い
て単語評価値を計算することにより、総合的な判断によ
って文字認識結果を正しく決定することができる。ま
た、誤って出力された単語を修正し、この誤って選択さ
れた単語の出現頻度を更新し、更に修正後の単語が未登
録ならば、該単語そのものと出現頻度とを新規に登録す
る。これにより、正しい文字認識結果を得られる。さら
に、修正のあった単語などについては、その評価を行う
ために用いる関数そのものやそのパラメータを修正し、
調整することにより、更に正しい文字認識結果を得られ
る。
As described above, according to the present invention, the word evaluation value is calculated from the recognition evaluation value for a character and the appearance frequency of the word composed of the character using a predetermined procedure. As a result, the character recognition result can be correctly determined by comprehensive judgment. Further, the erroneously output word is corrected, the appearance frequency of the erroneously selected word is updated, and if the corrected word is not registered yet, the word itself and the appearance frequency are newly registered. As a result, a correct character recognition result can be obtained. Furthermore, for words that have been modified, modify the function itself and its parameters used to evaluate it,
By adjusting, more accurate character recognition result can be obtained.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る文字認識装置の第一実施例の構成
図である。
FIG. 1 is a configuration diagram of a first embodiment of a character recognition device according to the present invention.

【図2】上記実施例における処理のフローチャートであ
る。
FIG. 2 is a flowchart of processing in the above embodiment.

【図3】上記実施例における処理例の図である。FIG. 3 is a diagram of a processing example in the above embodiment.

【図4】本発明に係る文字認識装置の第二実施例の構成
図である。
FIG. 4 is a configuration diagram of a second embodiment of a character recognition device according to the present invention.

【図5】上記実施例における処理のフローチャートであ
る。
FIG. 5 is a flowchart of processing in the above embodiment.

【図6】上記実施例における処理例の図である。FIG. 6 is a diagram of a processing example in the above embodiment.

【図7】従来の文字認識装置の構成図である。FIG. 7 is a configuration diagram of a conventional character recognition device.

【図8】従来の文字認識装置における処理例の図であ
る。
FIG. 8 is a diagram of a processing example in a conventional character recognition device.

【符号の説明】[Explanation of symbols]

101 文字特徴抽出手段 102 文字認識辞書 103 文字認識手段 104 単語辞書 105 単語探索手段 106 単語評価手段 107 単語決定手段 108 単語修正手段 109 単語辞書更新手段 110 評価関数修正手段 401 文字特徴抽出手段 402 文字認識辞書 403 単語辞書 404 単語認識手段 405 単語評価手段 406 単語決定手段 407 単語修正手段 408 単語辞書更新手段 409 評価関数修正手段 101 character feature extraction means 102 character recognition dictionary 103 character recognition means 104 word dictionary 105 word search means 106 word evaluation means 107 word determination means 108 word correction means 109 word dictionary update means 110 evaluation function correction means 401 character feature extraction means 402 character recognition Dictionary 403 Word dictionary 404 Word recognition means 405 Word evaluation means 406 Word determination means 407 Word correction means 408 Word dictionary update means 409 Evaluation function correction means

───────────────────────────────────────────────────── フロントページの続き (72)発明者 高倉 穂 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 ─────────────────────────────────────────────────── --- Continuation of the front page (72) Inventor Ho Ho Takakura 1006 Kadoma, Kadoma City, Osaka Prefecture Matsushita Electric Industrial Co., Ltd.

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 文字列が記載された画像データから文字
画像を切り出す画像切出し手段と、 切り出された文字画像から文字を認識するのに使用する
特徴パターンを抽出する文字特徴抽出手段と、 文字コードと該文字コードの文字であることを識別する
のに使用される識別パターンの組を登録した文字認識辞
書と、 前記文字特徴抽出手段によって抽出された特徴パターン
と前記文字認識辞書に登録されている識別パターンとを
比較して所定の手順で認識評価値を計算することによ
り、抽出した1文字当たりあらかじめ定められた個数以
下の認識候補文字につき、その文字コード及びその確か
らしさを示す認識評価値からなる認識候補文字データを
出力する仮文字認識手段と、 各文字毎に、その文字と組み合わせて単語を作る文字の
文字コードとその出現頻度の組を登録している単語辞書
と、 相連続して認識対象となっている複数の文字毎に、前記
仮文字認識手段によって出力された各認識候補文字を文
字列中の位置を不変としたまま組み合わせることにより
単語を作成し、前記単語辞書中にこの単語が登録されて
いるか否かを調べ、若し登録されているならばその文字
と単語辞書に登録されている出現頻度を出力する単語探
索手段と、 前記単語検索手段によって出力された単語について前記
仮文字認識手段によって出力された認識評価値と、前記
単語探索手段によって出力された出現頻度とから、所定
の手順で単語評価値を計算する単語評価手段と、 前記単語評価手段によって計算された単語評価値をもと
に正しい単語を決定する単語決定手段とを備えることに
より文字認識を行うことを特徴とする文字認識装置。
1. An image cutout unit for cutting out a character image from image data in which a character string is described, a character feature extraction unit for extracting a characteristic pattern used for recognizing a character from the cut out character image, and a character code. And a character recognition dictionary in which a set of identification patterns used to identify the character of the character code is registered, a feature pattern extracted by the character feature extracting means, and the character recognition dictionary. By comparing the identification pattern with the identification pattern and calculating the recognition evaluation value in a predetermined procedure, the recognition evaluation value indicating the character code and its certainty for the recognition candidate characters of a predetermined number or less per extracted character. Character recognition means that outputs the recognition candidate character data and the character code of the character that combines each character to form a word The word dictionary in which the set of the frequency of appearance is registered, and the recognition candidate characters output by the temporary character recognizing means are set to the position in the character string for each of a plurality of consecutively recognized characters. A word is created by combining it while keeping it unchanged, and it is checked whether or not this word is registered in the word dictionary. If it is registered, the character and the appearance frequency registered in the word dictionary are checked. From the word search means to output, the recognition evaluation value output by the temporary character recognition means for the word output by the word search means, and the appearance frequency output by the word search means, word evaluation in a predetermined procedure Character recognition is performed by including word evaluation means for calculating a value and word determination means for determining a correct word based on the word evaluation value calculated by the word evaluation means. A character recognition device characterized by the above.
【請求項2】 文字列が記載された画像データから文字
画像を切り出す文字画像切出し手段と、 切り出された文字画像から文字を認識するのに使用する
特徴パターンを抽出する文字特徴抽出手段と、 文字コードとその文字コードの文字であることを識別す
るのに使用される識別パターンの組を登録した文字認識
辞書と、 各文字毎に、その文字と組み合わせて単語を作る文字の
文字コードとその出現頻度の組を登録している単語辞書
と、 前記単語辞書に登録されている単語について、その単語
を構成する文字コードに対応する前記文字認識辞書に格
納されている文字の識別パターンと前記文字特徴抽出手
段によって抽出された特徴パターンとを比較して、所定
の手順で両者の類似度を示す認識評価値を計算の上出力
する認識評価値計算手段と、 前記認識評価値計算手段によって構成する文字の認識度
が高い単語を候補単語として所定数選出し、この上でこ
れらの前記単語辞書に格納されている出現頻度を出力す
る候補単語出現頻度出力手段と、 前記認識評価値計算手段によって出力された認識評価値
と前記候補単語出現頻度出力手段の出力した出現頻度と
から、所定の手順で各候補単語について単語評価値を計
算する単語評価手段と、 前記単語評価手段によって計算された単語評価値をもと
に正しい単語を選択の上決定する単語決定手段とを備え
ることにより文字認識を行うことを特徴とする文字認識
装置。
2. A character image cutout unit for cutting out a character image from image data in which a character string is described, a character feature extraction unit for extracting a characteristic pattern used to recognize a character from the cut out character image, and a character. A character recognition dictionary that registers a set of codes and identification patterns used to identify the characters of that character code, and for each character, the character code of the character that makes a word by combining with that character and its appearance. A word dictionary in which a set of frequencies is registered, and for a word registered in the word dictionary, an identification pattern of characters stored in the character recognition dictionary corresponding to a character code forming the word, and the character feature A recognition evaluation value calculation means for comparing the characteristic patterns extracted by the extraction means and calculating and outputting a recognition evaluation value indicating the similarity between the two in a predetermined procedure. A candidate word appearance frequency output means for selecting a predetermined number of words having a high degree of recognition of characters formed by the recognition evaluation value calculation means as candidate words, and outputting the appearance frequencies stored in these word dictionaries. A word evaluation unit that calculates a word evaluation value for each candidate word in a predetermined procedure from the recognition evaluation value output by the recognition evaluation value calculation unit and the appearance frequency output by the candidate word appearance frequency output unit; A character recognition device, characterized in that character recognition is performed by including word determination means for selecting and determining a correct word based on the word evaluation value calculated by the word evaluation means.
【請求項3】 前記単語決定手段によって決定された単
語が誤っていた場合には、使用者に正しい単語に修正可
能とさせる単語修正手段と、 誤って決定された単語及び修正後の正しい単語の少なく
も一については、前記単語辞書に登録されておれば出現
頻度を更新すること及び登録されていなければ単語その
ものと出現頻度を新規に登録することの少なくも一を行
う単語辞書更新手段とを備えたことを特徴とする請求項
1若しくは請求項2記載の文字認識装置。
3. If the word determined by the word determining means is incorrect, the word correcting means for allowing the user to correct the word, and the correct word and the corrected word For at least one, a word dictionary updating means for updating the appearance frequency if it is registered in the word dictionary and at least one for newly registering the word itself and the appearance frequency if not registered. The character recognition device according to claim 1, further comprising: a character recognition device.
【請求項4】 前記単語決定手段によって決定された単
語が誤っていた場合には、使用者に正しい単語に修正可
能とさせる単語修正手段と、 前記単語決定手段によって誤って決定された単語の出現
頻度と、前記単語修正手段によって修正された単語の出
現頻度とから、前記単語評価手段によって単語の評価を
行うために用いる所定の手順の内容を修正する評価手順
修正手段とを備えたことを特徴とする請求項1若しくは
請求項2記載の文字認識装置。
4. When the word determined by the word determining means is incorrect, the word correcting means that allows the user to correct the word, and the appearance of the word incorrectly determined by the word determining means. An evaluation procedure correction means for correcting the content of a predetermined procedure used for evaluating the word by the word evaluation means based on the frequency and the appearance frequency of the word corrected by the word correction means. The character recognition device according to claim 1 or 2.
【請求項5】 認識対象の画像データの内容に応じた複
数の種類の文字認識辞書と、 前記複数の種類の文字認識辞書の中から文字認識に使用
するものの種類を選択すること若しくは優先度を定める
ことの少なくも一を可能とさせる文字認識辞書選択操作
部とを有していることを特徴とする請求項1,請求項
2,請求項3若しくは請求項4記載の文字認識装置。
5. A plurality of types of character recognition dictionaries corresponding to the contents of image data to be recognized, and a type of character recognition dictionary to be used for character recognition from the plurality of types of character recognition dictionaries, or a priority level is selected. The character recognition apparatus according to claim 1, further comprising a character recognition dictionary selection operation unit that enables at least one to be defined.
【請求項6】 認識対象の画像データの内容に応じた複
数の種類の単語辞書と、 前記複数の種類の単語辞書の中から文字認識に使用する
ものの種類を選択すること若しくは優先度を定めること
の少なくも一を可能とさせる単語辞書選択操作部とを有
していることを特徴とする請求項1,請求項2,請求項
3,請求4若しくは請求項5記載の文字認識装置。
6. A plurality of types of word dictionaries corresponding to the contents of image data to be recognized, and selecting a type of one used for character recognition from the plurality of types of word dictionaries, or determining a priority level. The character recognition apparatus according to claim 1, claim 2, claim 3, claim 4, or claim 5, further comprising a word dictionary selection operation unit that enables at least one of the above.
【請求項7】 文字列が記載された画像データから文字
画像を切り出す画像切出しステップと、 切り出された文字画像から特徴パターンを抽出する文字
特徴抽出ステップと、 前記文字特徴抽出ステップによって得られた特徴パター
ンとあらかじめ作成されている文字コードと該文字コー
ドの文字であることを識別するのに使用される識別パタ
ーンの組である文字データが登録されている文字認識辞
書内の識別パターンとを比較する比較ステップと、 文字認識辞書の文字識別パターンとの比較により、認識
対象の1文字当たりあらかじめ定められた個数以下の識
別候補文字につきその文字コードおよびその確からしさ
を示す認識評価値からなる認識候補文字データを得る仮
文字認識ステップと、 前記仮文字認識ステップによって得られた各認識候補文
字の組合せからなる単語を、前記単語辞書中で探索し、
前記単語辞書に格納されている出現頻度を得る単語探索
ステップと、 前記単語探索ステップによって探索された単語につい
て、前記仮文字認識ステップによって得られた認識評価
値のうち単語を構成する認識候補文字の認識評価値と、
前記単語探索ステップによって得られた単語の出現頻度
とから、所定の手順にて単語評価値を得る単語評価ステ
ップと、 前記単語選択手段を用いて、前記単語評価ステップにお
いて得られた単語評価値をもとに正しい単語を選択する
単語決定ステップとを有することにより文字認識を行う
ことを特徴とする文字認識方法。
7. An image cutout step of cutting out a character image from image data in which a character string is described, a character feature extraction step of extracting a characteristic pattern from the cut out character image, and a characteristic obtained by the character feature extraction step. A pattern is compared with a character code created in advance and an identification pattern in a character recognition dictionary in which character data, which is a set of identification patterns used to identify a character of the character code, is registered. By comparing the comparison step with the character recognition pattern of the character recognition dictionary, a recognition candidate character composed of a character code and a recognition evaluation value indicating its certainty for a predetermined number or less of recognition candidate characters per character to be recognized. The step of recognizing characters that obtains data, and the recognition steps obtained by the step of recognizing characters. A word consisting of a combination of candidate characters to search in said word dictionary,
A word search step for obtaining the appearance frequency stored in the word dictionary; and for a word searched by the word search step, a recognition candidate character forming a word among the recognition evaluation values obtained by the temporary character recognition step. Recognition evaluation value,
From the appearance frequency of the word obtained by the word search step, a word evaluation step of obtaining a word evaluation value in a predetermined procedure, and using the word selection means, the word evaluation value obtained in the word evaluation step A character recognition method characterized in that character recognition is performed by having a word determining step for selecting a correct word.
【請求項8】 文字列が記載された画像データから文字
画像を切り出す画像切り出しステップと、 切り出された文字画像から文字を認識するのに使用する
特徴パターンを得る文字特徴抽出ステップと、 各文字毎にその文字と組み合わせて単語を作る文字の文
字コードとその出現頻度の組を登録してあらかじめ作成
されている単語辞書を用いて、その単語辞書に格納され
ている単語について、文字コードとその文字コードの文
字であることを識別するのに使用される識別パターンと
の組を登録してあらかじめ作成されている文字認識辞書
を使用して、単語辞書に登録されている単語についてこ
れを構成する文字コードに対応する前記文字認識辞書に
格納されている識別パターンと前記文字特徴抽出ステッ
プによって得られた特徴パターンとを比較して、単語を
構成する文字の確からしさを示す認識評価値を計算の上
出力する認識評価値計算ステップと、 前記認識評価値計算ステップにて、構成する文字の認識
度が高いとされた単語を候補単語として所定数選出し、
この上でこの候補単語について、前記単語辞書に格納さ
れている出現頻度を得た上で出力する単語認識ステップ
と、 前記単語認識ステップによって選出された各候補単語に
ついて、前記認識評価値計算ステップによって得られた
各単語を構成する文字毎の認識評価値と、各単語の出現
頻度とから、所定の手順で単語評価値を得る単語評価ス
テップと、 前記単語評価ステップにおいて得られた単語評価値をも
とに正しいと判断される単語を選択の上決定し、この決
定した単語を出力する単語決定ステップとを有している
ことを特徴とする文字認識方法。
8. An image cutout step of cutting out a character image from image data in which a character string is described, a character feature extraction step of obtaining a characteristic pattern used to recognize a character from the cut out character image, and each character The character code and the character code of the character stored in the word dictionary are registered using the word dictionary that is created by registering the character code of the character that combines with the character and the frequency of occurrence. Characters that compose this for a word registered in a word dictionary using a character recognition dictionary created in advance by registering a pair with an identification pattern used to identify that it is a character of a code The identification pattern corresponding to the code stored in the character recognition dictionary is compared with the feature pattern obtained in the character feature extraction step. Then, a recognition evaluation value calculation step of calculating and outputting a recognition evaluation value indicating the likelihood of the characters that make up the word, and the recognition evaluation value calculation step, the word for which the recognition degree of the constituent characters is high Select a predetermined number as a candidate word,
Then, for this candidate word, a word recognition step of outputting after obtaining the appearance frequency stored in the word dictionary, and for each candidate word selected by the word recognition step, by the recognition evaluation value calculation step The recognition evaluation value for each character that constitutes each word obtained, from the appearance frequency of each word, word evaluation step to obtain a word evaluation value in a predetermined procedure, the word evaluation value obtained in the word evaluation step A character recognition method, comprising: selecting a word that is originally determined to be correct, determining the selected word, and outputting the determined word.
【請求項9】 前記単語決定ステップによって決定され
た単語が誤っていた場合には使用者が正しい単語に修正
する単語修正ステップと、 前記単語決定ステップによって決定された単語及び前記
単語修正ステップによって修正された単語の少なくも一
について、前記単語辞書更新手段を用いて、前記単語辞
書に登録されている単語であれば出現頻度を更新するこ
と及び登録されていない単語であれば単語そのものと出
現頻度とを登録することの少なくも一を行う単語辞書更
新ステップとを備えたことを特徴とする請求項7若しく
は請求項8記載の文字認識方法。
9. A word correcting step in which a user corrects a word to be a correct word when the word determined in the word determining step is incorrect, and the word determined in the word determining step and the word correcting step. For at least one of the registered words, the word dictionary updating means is used to update the appearance frequency if the word is registered in the word dictionary, and the word itself and the appearance frequency if the word is not registered. 9. The character recognition method according to claim 7, further comprising a word dictionary updating step for performing at least one of registering and.
【請求項10】 前記単語決定ステップによって決定さ
れた単語が誤っていた場合には使用者が正しい単語に修
正する単語修正ステップと、 前記単語決定ステップによって誤って決定された単語の
出現頻度と、前記単語修正ステップによって修正された
単語の出現頻度とから、前記単語評価ステップによって
単語の評価を行うために用いる所定の手順の内容を修正
する評価手順修正ステップとを備えたことを特徴とする
請求項7若しくは請求項8記載の文字認識方法。
10. A word correction step in which a user corrects the word determined by the word determination step to be a correct word when the word is incorrect, and an appearance frequency of the word incorrectly determined by the word determination step, An evaluation procedure correction step for correcting the content of a predetermined procedure used for evaluating a word by the word evaluation step based on the appearance frequency of the word corrected by the word correction step. The character recognition method according to claim 7 or claim 8.
JP05736294A 1994-03-28 1994-03-28 Character recognition device and character recognition method Expired - Fee Related JP3274014B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05736294A JP3274014B2 (en) 1994-03-28 1994-03-28 Character recognition device and character recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05736294A JP3274014B2 (en) 1994-03-28 1994-03-28 Character recognition device and character recognition method

Publications (2)

Publication Number Publication Date
JPH07271921A true JPH07271921A (en) 1995-10-20
JP3274014B2 JP3274014B2 (en) 2002-04-15

Family

ID=13053477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05736294A Expired - Fee Related JP3274014B2 (en) 1994-03-28 1994-03-28 Character recognition device and character recognition method

Country Status (1)

Country Link
JP (1) JP3274014B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102264A (en) * 2005-09-30 2007-04-19 Toshiba Corp Character recognition device and method
JP2017162148A (en) * 2016-03-09 2017-09-14 キヤノン株式会社 Information processing device, program, and information processing method
JP2019191776A (en) * 2018-04-20 2019-10-31 株式会社東芝 Information management device and information management method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796917A (en) * 2018-08-02 2020-02-14 义守大学 Computerized writing evaluation and training method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102264A (en) * 2005-09-30 2007-04-19 Toshiba Corp Character recognition device and method
JP4528705B2 (en) * 2005-09-30 2010-08-18 株式会社東芝 Character recognition device and character recognition method
JP2017162148A (en) * 2016-03-09 2017-09-14 キヤノン株式会社 Information processing device, program, and information processing method
JP2019191776A (en) * 2018-04-20 2019-10-31 株式会社東芝 Information management device and information management method

Also Published As

Publication number Publication date
JP3274014B2 (en) 2002-04-15

Similar Documents

Publication Publication Date Title
EP0844583B1 (en) Method and apparatus for character recognition
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
US6546401B1 (en) Method of retrieving no word separation text data and a data retrieving apparatus therefor
JP3452774B2 (en) Character recognition method
US10963717B1 (en) Auto-correction of pattern defined strings
JPH0684006A (en) Method of online handwritten character recognition
US5524066A (en) Text recognition by predictive composed shapes
JPH0634256B2 (en) Contact character cutting method
JPH07271921A (en) Character recognizing device and method thereof
JP3975825B2 (en) Character recognition error correction method, apparatus and program
JP3669626B2 (en) Search device, recording medium, and program
JPH09274645A (en) Method and device for recognizing character
US5689583A (en) Character recognition apparatus using a keyword
JPH07319880A (en) Keyword extraction/retrieval device
JP5853488B2 (en) Information processing apparatus and program
JP3507720B2 (en) Online handwritten character recognition device and computer-readable recording medium
JPH0290384A (en) Post-processing system for character recognizing device
JP2827066B2 (en) Post-processing method for character recognition of documents with mixed digit strings
JP3481850B2 (en) Character recognition device
JPH0546803A (en) Output method for recognition result
JPH11120294A (en) Character recognition device and medium
JP2874815B2 (en) Japanese character reader
JP5672003B2 (en) Character recognition processing apparatus and program
JPH08293002A (en) Character recognition unit and method
JPH0757059A (en) Character recognition device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080201

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090201

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100201

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100201

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120201

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130201

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130201

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140201

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees