JPH11328317A - Method and device for correcting japanese character recognition error and recording medium with error correcting program recorded - Google Patents

Method and device for correcting japanese character recognition error and recording medium with error correcting program recorded

Info

Publication number
JPH11328317A
JPH11328317A JP10127615A JP12761598A JPH11328317A JP H11328317 A JPH11328317 A JP H11328317A JP 10127615 A JP10127615 A JP 10127615A JP 12761598 A JP12761598 A JP 12761598A JP H11328317 A JPH11328317 A JP H11328317A
Authority
JP
Japan
Prior art keywords
character
word
probability
confusion
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10127615A
Other languages
Japanese (ja)
Other versions
JP4066507B2 (en
Inventor
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP12761598A priority Critical patent/JP4066507B2/en
Publication of JPH11328317A publication Critical patent/JPH11328317A/en
Application granted granted Critical
Publication of JP4066507B2 publication Critical patent/JP4066507B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To precisely present a correction candidate for a short word without using the context by retrieving a word in a dictionary which is similar to a partial character string included in a character matrix according to a character mixing probability and a word appearance frequency and presenting a word string in the increasing order of the product of the concurrency probability of the word string and the character mixing probability of the respective characters. SOLUTION: An unknown word candidate generating means 2 generates a pair of the notation and appearance probability of a word in order to identify an unknown word included in the character matrix. Further, a similar word collating means 3 retrieves the word in the dictionary which is similar to the partial character string included in the character matrix in order to generate the correction candidate for a word whose correct characters are not included in the candidate characters according to the character mixing probability and word appearance probability without using the contexts of the precedent and following parts. A morpheme analyzing means 1 outputs only an arbitrary number of word strings among combinations of words in the dictionary included in the character matrix, unknown word candidates, and similar collatated words in the decreasing order of the probability according to a word division model 7.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、印刷文字又は手書
き文字を認識する日本語文字認識装置の文字認識誤りを
訂正する技術に係わり、特に、光学的文字認識装置(O
CR)が出力する文字認識誤りを含む日本語テキストに
対して、統計的言語モデルと、統計的文字認識装置モデ
ルと、確率的形態素解析アルゴリズムとを用いて、入力
文に含まれる誤りを高い精度で訂正できる技術に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for correcting a character recognition error of a Japanese character recognition device for recognizing printed characters or handwritten characters, and more particularly, to an optical character recognition device (O).
For the Japanese text including the character recognition error output by CR), using a statistical language model, a statistical character recognizer model, and a probabilistic morphological analysis algorithm, the error included in the input sentence can be detected with high accuracy. Related to the technology that can be corrected.

【0002】[0002]

【従来の技術】従来の文字認識の誤り訂正法は、(1)
文字の接続確率(文字ngram確率)を利用する方
法、(2)単語の接続確率(単語ngram確率)を利
用する方法の二つに大別できる。文字の接続確率を利用
する方法(例えば、杉村・斉藤「文字連接情報を用いた
読取不能文字の判定処理−文字認識への応用−」電子情
報通信学会論文誌 Vol.J68-D No.1, pp.64-71, 1985)
は、文字接続表又は文字接続確率を用いて、隣接する文
字候補の接続の可否(又は尤もらしさ)を判定すること
により、誤りの検出・訂正を行う。
2. Description of the Related Art The conventional error correction method for character recognition is as follows.
The method can be broadly classified into two methods: a method using a character connection probability (character ngram probability), and (2) a method using a word connection probability (word ngram probability). Methods using character connection probabilities (for example, Sugimura and Saito, "Unreadable Character Judgment Processing Using Character Concatenation Information-Application to Character Recognition-" IEICE Transactions Vol.J68-D No.1, pp.64-71, 1985)
Detects or corrects an error by determining the possibility (or likelihood) of connection of adjacent character candidates using a character connection table or a character connection probability.

【0003】この文字の連接情報を利用する方法は、実
現が容易で、かつ、比較的大きな認識性能の向上が達成
できる。しかし、入力文を単なる文字列として扱うの
で、単語を構成しない文字列や、文法的に正しくない文
字列を許容することが多く、一般的には単語の接続確率
を用いる方法よりも訂正精度が低い。これに対して、単
語の接続確率を利用する方法(例えば、高尾・西野「日
本語文書リーダ後処理の実現と評価」情報処理学会論文
誌 Vol.33 No.5, pp.664-670, 1992 、伊東・丸山「O
CR入力された日本語文の誤り検出と自動訂正」情報処
理学会論文誌 Vol.33 No.5, pp.664-670, 1992 など)
は、文字認識の候補文字を組み合わせて構成される単語
を単語辞書から検索しながら単語間の接続を検査し、文
頭から文末までに到達する単語列の中で最適なものを正
解文字列とする。
[0003] This method of using the concatenated information of characters is easy to realize and can achieve relatively large improvement in recognition performance. However, since the input sentence is treated as a simple character string, a character string that does not form a word or a character string that is not grammatically correct is often tolerated. In general, the correction accuracy is lower than the method using the connection probability of the word. Low. On the other hand, methods using word connection probabilities (for example, Takao and Nishino, "Implementation and Evaluation of Post-processing for Japanese Document Readers", Transactions of Information Processing Society of Japan Vol.33 No.5, pp.664-670, 1992 , Ito Maruyama "O
Error Detection and Automatic Correction of Japanese Sentences Inputted by CR "Transactions of Information Processing Society of Japan Vol.33 No.5, pp.664-670, 1992 etc.)
Examines the connection between words while searching words composed of candidate characters for character recognition from the word dictionary, and determines the best word string that reaches from the beginning to the end of the sentence as the correct answer string .

【0004】この単語辞書と単語接続情報を利用する方
法は、(a) 辞書に登録されていない単語が入力文中に存
在したり、(b) 正解文字が候補文字に含まれていない場
合に、性能が大きく低下するという問題点がある。辞書
に登録されていない単語への対処法としては、未登録語
テンプレートを使って未登録語を発見し、文字の接続確
率を使って文字列を限定する方法がある(前述の高尾・
西野の論文)。しかし、この未登録語テンプレートは、
発見的(ヒューリスティック)に人手で作成せねばなら
ず、網羅性や移植性に問題がある。
The method of using the word dictionary and the word connection information is as follows: (a) When a word not registered in the dictionary exists in the input sentence, or (b) when the correct character is not included in the candidate character, There is a problem that performance is greatly reduced. As a method for dealing with words that are not registered in the dictionary, there is a method in which unregistered words are found using an unregistered word template and the character string is limited using the connection probability of the character.
Nishino's dissertation). However, this unregistered word template
It must be created heuristically by hand, and there are problems with completeness and portability.

【0005】正解文字が候補文字に含まれていない場合
の対処法としては、候補文字補完と類似単語照合とがあ
る。候補文字補完とは、予め文字認識が誤りそうな類似
文字の組を定義しておき、文字認識結果の候補文字に対
して、無条件にこの類似文字を候補として付け加える方
法である(杉村「候補文字補完と言語処理による漢字認
識の誤り訂正処理法」電子情報通信学会論文誌 Vol.J8
2-D-II No.7, pp.993-1000, 1989 )。候補文字補完
は、補完した文字が必ずしも正解文字を含むとは限らな
いのに、誤り訂正に必要な計算量を一様に大きく増加さ
せる問題がある。
[0005] As a countermeasure when the correct character is not included in the candidate characters, there are a candidate character complement and a similar word collation. Candidate character complement is a method in which a set of similar characters for which character recognition is likely to be erroneous is defined in advance, and this similar character is unconditionally added as a candidate to the candidate character of the character recognition result (Sugimura "Candidate" Error Correction Processing of Kanji Recognition by Character Completion and Language Processing, Transactions of the Institute of Electronics, Information and Communication Engineers, Vol.J8
2-D-II No. 7, pp. 993-1000, 1989). Candidate character complementation has a problem in that although the complemented character does not always include the correct character, the amount of calculation required for error correction increases substantially uniformly.

【0006】類似単語照合とは、単語辞書との照合の際
に、完全に一致したものだけではなく、類似した(部分
的に一致した)単語も検索する方法である(例えば、Wa
gnerとFishcer “The String-to-String Correction Pr
oblem" Journal of ACM Vol.21 No.1, pp.168-173,
1974)。類似単語照合の際に用いる距離尺度としては、
一方の文字列を他方の文字列に変換するのに必要な挿入
・削除・置換の回数を表す編集距離(edit distance) を
用いるのが一般的である。
[0006] Similar word matching is a method of searching not only words that are completely matched but also words that are similar (partially matched) in matching with a word dictionary (for example, Wa).
gner and Fishcer “The String-to-String Correction Pr
oblem "Journal of ACM Vol.21 No.1, pp.168-173,
1974). As a distance measure used for similar word matching,
It is common to use an edit distance that indicates the number of insertions, deletions, and replacements required to convert one character string to the other.

【0007】類似単語照合は、英語のように長い単語が
多い(平均約5文字)言語のスペルチェックなどでは有
効である。しかし、日本語のように短い単語が多い(平
均約2文字)言語では、あまり有効ではない。例えば、
単語の類似度を一致した文字数で計測する場合、一文字
が一致する二文字単語の組は非常に多く存在し、すべて
の一文字単語の組は同じ類似度を持つという問題があ
る。
[0007] Similar word matching is effective in spell checking of a language having many long words (about 5 characters on average) such as English. However, it is not very effective in a language such as Japanese, which has many short words (about 2 characters on average). For example,
When measuring the similarity of words by the number of matched characters, there is a problem that there are very many sets of two-letter words in which one character matches, and all sets of one-letter words have the same similarity.

【0008】文字認識誤り訂正における日本語向きの類
似単語照合法としては、まず編集距離に基づいて訂正単
語候補集合を作成し、前後の文脈に基づいて訂正単語候
補を順位付けする方法が提案されている(永田「日本語
文字認識方法及び装置」、特願平7-115926号、1995)。
しかし、文脈を利用する方法は、氏名のように単語の長
さが短く、かつ、前後の文脈が利用できない場合には、
有効に作用しないという問題がある。
As a similar word matching method for Japanese in character recognition error correction, a method has been proposed in which a set of corrected word candidates is first created based on the edit distance, and the corrected word candidates are ranked based on contexts before and after. (Nagata, "Japanese Character Recognition Method and Apparatus", Japanese Patent Application No. 7-115926, 1995).
However, the method of using the context is that if the word length is short like a name and the surrounding context is not available,
There is a problem that it does not work effectively.

【0009】[0009]

【発明が解決しようとする課題】本発明は、上記従来手
法の問題点に鑑み、1.訂正対象となる単語の長さが短
い場合、及び、2.訂正対象となる単語の前後の文脈情
報が利用できない場合に訂正単語候補を正確に提示する
ことができる日本語文字認識誤り訂正方法及び装置を提
供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in consideration of the above-mentioned problems of the conventional method. 1. when the length of the word to be corrected is short; An object of the present invention is to provide a Japanese character recognition error correction method and apparatus capable of correctly presenting a corrected word candidate when context information before and after a word to be corrected is not available.

【0010】[0010]

【課題を解決するための手段】上記目的を達成する本発
明の日本語文字認識誤り訂正方法は、入力として与えら
れた日本語文に含まれる文字認識誤りを訂正する単語候
補として、単語の出現頻度と文字の図形的類似度とに基
づいて任意の個数の単語を確率が高い順番に提示するこ
とを特徴とする。
According to a first aspect of the present invention, there is provided a method for correcting a Japanese character recognition error, the method comprising the steps of: detecting a word occurrence frequency as a word candidate for correcting a character recognition error contained in an input Japanese sentence; The present invention is characterized in that an arbitrary number of words are presented in descending order of probability based on the character and the degree of graphic similarity between characters.

【0011】図1は本発明の原理構成図である。本発明
の日本語文字認識誤り訂正装置は、文字認識誤りを含む
日本語テキストの誤りを訂正する。同図に示す如く、本
発明の日本語認識誤り訂正装置は、文字マトリクス、即
ち、入力文の各文字位置において文字認識スコアの高い
順番に文字候補を並べたリストを入力とし、連続する二
つの単語において第1の単語が与えられたときの第2の
単語の条件付き出現確率である単語二つ組確率を与える
単語分割モデル7と、単語分割モデル7が持っている単
語辞書と文字マトリクスに含まれる文字列を照合する単
語照合手段4とを有する。また、日本語認識誤り訂正装
置は、平均単語長と、連続する二つの文字において第1
の文字が与えられたときの第2の文字の条件付き出現確
率である文字二つ組確率とから、任意の文字列を表記と
する単語の出現確率を与える単語モデル5と、辞書に登
録されていない単語を同定するために文字マトリクスに
含まれる部分文字列から単語モデル5に基づいて未知語
候補を生成する未知語候補生成手段2とを有する。日本
語認識誤り訂正装置は、任意の二つ文字の間の文字混同
確率を与える文字認識装置モデル6と、正解文字が候補
文字に含まれていない場合に訂正単語候補を生成するた
めに文字混同確率と単語出現確率とに基づいて文字マト
リクスに含まれる文字列と類似した単語を検索する類似
単語照合手段3を更に有する。また、日本語誤り訂正装
置は、単語分割モデル7、単語モデル5、及び文字認識
装置モデル6に基づいて、単語列の同時確率と各文字の
文字混同確率との積が大きい順に任意の個数の単語列を
求める形態素解析手段1を有する。
FIG. 1 is a diagram showing the principle of the present invention. The Japanese character recognition error correction device of the present invention corrects a Japanese text error including a character recognition error. As shown in the figure, the Japanese recognition error correction apparatus of the present invention receives a character matrix, that is, a list in which character candidates are arranged in the order of a character recognition score at each character position of an input sentence, and receives two consecutive characters. A word segmentation model 7 that gives a word pair probability that is a conditional appearance probability of a second word when a first word is given to a word, and a word dictionary and a character matrix that the word segmentation model 7 has Word matching means 4 for matching the included character strings. In addition, the Japanese recognition error correction device uses the first word in the average word length and the two consecutive characters.
And a word model 5 that gives the probability of appearance of a word in which an arbitrary character string is written, from the character pair probability that is the conditional appearance probability of the second character when the character is given, Unknown word candidate generating means 2 for generating an unknown word candidate based on the word model 5 from a partial character string included in the character matrix in order to identify a word that is not present. The Japanese recognition error correction device includes a character recognition device model 6 for giving a character confusion probability between any two characters, and a character confusion for generating a corrected word candidate when a correct character is not included in a candidate character. There is further provided a similar word matching unit 3 for searching for a word similar to the character string included in the character matrix based on the probability and the word appearance probability. In addition, the Japanese error correction device may select an arbitrary number of words based on the word segmentation model 7, the word model 5, and the character recognition device model 6 in descending order of the product of the joint probability of the word string and the character confusion probability of each character. It has a morphological analysis means 1 for obtaining a word string.

【0012】図2は本発明の原理を説明するためのフロ
ーチャートである。本発明の日本語認識誤り訂正方法
は、文字認識装置8が出力した文字マトリクスを入力と
し、最初に、文字マトリクスに含まれる文字列と完全に
一致する単語辞書中の単語を同定するために、単語照合
手段4が単語候補を生成する(ステップ1)。次に、文
字マトリクスに含まれる未知語、即ち、辞書に登録され
ていない単語を同定するために、未知語候補生成手段2
が未知語候補、即ち、単語の表記と出現確率との組を生
成する(ステップ2)。更に、正解文字が候補文字に含
まれていない単語の訂正候補を生成するために、類似単
語照合手段3が文字マトリクスに含まれる部分文字列と
類似した辞書中の単語を、文字混同確率と単語出現確率
とに基づいて前後の文脈を利用せずに検索する(ステッ
プ3)。最後に、形態素解析手段1が、文字マトリクス
に含まれる辞書中の単語、未知単語候補、及び、類似照
合単語の組合せの中から、単語分割モデル7に基づい
て、形態素解析候補、即ち、単語列を確率が高い順番に
任意の個数だけ出力する(ステップ4)。
FIG. 2 is a flowchart for explaining the principle of the present invention. The Japanese recognition error correction method of the present invention takes a character matrix output by the character recognition device 8 as an input, and first identifies words in a word dictionary that completely match the character strings included in the character matrix. The word matching means 4 generates word candidates (step 1). Next, in order to identify an unknown word included in the character matrix, that is, a word that is not registered in the dictionary, an unknown word candidate generation unit 2
Generates an unknown word candidate, that is, a set of a word notation and an appearance probability (step 2). Further, in order to generate a correction candidate for a word whose correct character is not included in the candidate character, the similar word matching means 3 determines a word in the dictionary similar to the partial character string included in the character matrix by using the character confusion probability and the word A search is performed based on the appearance probability without using the context before and after (step 3). Finally, the morphological analysis unit 1 selects a morphological analysis candidate, that is, a word string, from a combination of words in the dictionary, unknown word candidates, and similar matching words included in the character matrix based on the word division model 7. Are output in arbitrary order in the order of higher probability (step 4).

【0013】従って、本発明によれば、入力文が登録さ
れていない単語を含む場合や、正解文字が文字候補に含
まれていない場合でも、文字混同確率と単語出現確率と
に基づいて文脈を利用せずに短い単語の訂正候補を生成
し、単語列の同時確率と各文字の文字混同確率の積が大
きい順に単語列を提示する日本語文字認識誤り訂正方法
及び装置が実現できる。
Therefore, according to the present invention, even when the input sentence includes a word that is not registered, or when the correct character is not included in the character candidate, the context is determined based on the character confusion probability and the word appearance probability. It is possible to realize a Japanese character recognition error correction method and apparatus that generates correction candidates for short words without using them and presents the word strings in descending order of the product of the joint probability of the word strings and the character confusion probability of each character.

【0014】以下、上記本発明の目的を達成する本発明
の日本語文字認識方法及び日本語文字認識装置の種々の
構成を説明する。図3は本発明の日本語文字認識誤り訂
正方法の説明図である。同図に示す如く、本発明の日本
語文字認識誤り訂正方法は、文字認識誤りを含む日本語
文を入力し(ステップ91)、文を構成する単語列の同
時確率を与える単語分割モデル91と、任意の二つの文
字の間の文字混同確率を与える文字認識装置モデル92
とに基づいて、上記訂正対象となる単語の文字列と類似
照合する辞書93中の単語を検索し(ステップ92)、
訂正対象となる単語の長短、並びに、訂正対象となる単
語の前後の文脈情報の利用の可否には係わらず、上記訂
正対象となる単語の訂正単語候補として任意の個数の単
語を確率の高い順番に提示する(ステップ93)。
Hereinafter, various configurations of the Japanese character recognition method and the Japanese character recognition device of the present invention which achieve the above object of the present invention will be described. FIG. 3 is an explanatory diagram of the Japanese character recognition error correction method of the present invention. As shown in the figure, the Japanese character recognition error correction method of the present invention includes a word segmentation model 91 which inputs a Japanese sentence containing a character recognition error (step 91) and gives a joint probability of a word string constituting the sentence; A character recognizer model 92 that gives the probability of character confusion between any two characters
, A word in the dictionary 93 that is similar to the character string of the word to be corrected is searched (step 92).
Regardless of the length of the word to be corrected and the availability of context information before and after the word to be corrected, an arbitrary number of words are selected as correction word candidates for the word to be corrected in the order of higher probability. (Step 93).

【0015】尚、上記説明及び図3において、辞書93
は単語分割モデル91と別個に設けられているが、辞書
93は単語分割モデル91に含まれていても構わない。
図4は上記本発明の方法を実現する日本語文字認識誤り
訂正装置10の構成図である。日本語文字認識誤り訂正
装置10は、単語の出現頻度を格納する記憶手段12
と、文字の図形的類似度を計算する計算手段13と、入
力手段11に与えられた日本語文を構成する単語の出現
頻度を上記記憶手段12から獲得し、上記計算手段13
によって計算された上記日本文を構成する文字の図形的
類似度を獲得し、上記獲得された単語の出現頻度及び文
字の図形的類似度とに基づいて、上記日本語文に含まれ
る文字認識誤りを訂正する単語候補として、任意の個数
の単語を確率が高い順番に提示する手段14とからな
る。
In the above description and FIG.
Is provided separately from the word division model 91, but the dictionary 93 may be included in the word division model 91.
FIG. 4 is a block diagram of the Japanese character recognition error correction apparatus 10 that realizes the method of the present invention. The Japanese character recognition error correction device 10 includes a storage unit 12 for storing the frequency of occurrence of a word.
Calculating means 13 for calculating the graphic similarity of the character; and obtaining the appearance frequency of the words constituting the Japanese sentence given to the input means 11 from the storage means 12.
The character similarity of the characters constituting the Japanese sentence is calculated, and the character recognition error included in the Japanese sentence is determined based on the appearance frequency of the acquired word and the character similarity of the character. Means 14 for presenting an arbitrary number of words in order of increasing probability as word candidates to be corrected.

【0016】図5は、本発明による他の日本語文字認識
誤り訂正装置20の構成図である。同図に示す日本語文
字認識誤り訂正装置20は、入力手段21に与えられた
日本語文に含まれる文字列と一致する単語を単語候補と
して生成する手段22と、上記文に含まれる未知の部分
文字列を未知語候補として生成する手段23と、上記文
に含まれる部分文字列と類似した単語を上記文の文脈と
は無関係に訂正単語候補として生成する手段24と、上
記単語候補、上記未知語候補及び上記訂正単語候補の組
合せの中から、上記日本語文に含まれる文字認識誤りの
訂正単語列として、任意の個数の単語候補列を確率の高
い順番に出力する手段25とからなる。
FIG. 5 is a block diagram of another Japanese character recognition error correction device 20 according to the present invention. The Japanese character recognition error correction device 20 shown in FIG. 1 includes a unit 22 that generates a word that matches a character string included in a Japanese sentence provided to an input unit 21 as a word candidate, and an unknown part included in the sentence. A means 23 for generating a character string as an unknown word candidate, a means 24 for generating a word similar to the partial character string included in the sentence as a corrected word candidate regardless of the context of the sentence, Means 25 for outputting an arbitrary number of word candidate strings in the order of probability as a corrected word string of a character recognition error included in the Japanese sentence from the combination of the word candidate and the corrected word candidate.

【0017】図6は上記本発明の日本語文字認識誤り訂
正装置20が実施する誤り訂正方法の動作説明図であ
る。同図に示す如く、本発明の日本語文字認識誤り訂正
方法は、入力として与えられた日本語文に含まれる文字
列と一致する単語を単語候補として生成し(ステップ2
1)、上記文に含まれる未知の部分文字列を未知語候補
として生成し(ステップ22)、上記文に含まれる部分
文字列と類似した単語を上記文の文脈とは無関係に訂正
単語候補として生成し(ステップ23)、上記単語候
補、上記未知語候補及び上記訂正単語候補の組合せの中
から、上記日本語文に含まれる文字認識誤りの訂正単語
列として、任意の個数の単語候補列を確率の高い順番に
出力する(ステップ24)。
FIG. 6 is a diagram for explaining the operation of the error correction method implemented by the Japanese character recognition error correction device 20 of the present invention. As shown in the figure, the Japanese character recognition error correction method of the present invention generates a word that matches a character string included in a Japanese sentence given as an input as a word candidate (step 2).
1) An unknown partial character string included in the sentence is generated as an unknown word candidate (step 22), and a word similar to the partial character string included in the sentence is determined as a corrected word candidate regardless of the context of the sentence. Generate (Step 23), and from the combinations of the word candidates, the unknown word candidates, and the corrected word candidates, an arbitrary number of word candidate strings are set as the corrected word strings of the character recognition errors included in the Japanese sentence. (Step 24).

【0018】図7は、本発明による他の日本語文字認識
誤り訂正装置30の構成図である。同図に示す入力とし
て与えられた日本語文に含まれる文字認識誤りを訂正す
る日本語文字認識誤り訂正装置30は、文を構成する単
語列の同時確率を与える単語分割モデル格納手段31
と、任意の二つの文字の間の文字混同確率を与える文字
認識装置モデル格納手段32と、上記訂正対象となる単
語の文字列と類似照合する辞書35中の単語を検索する
類似単語照合手段33と、訂正対象となる単語の長短、
並びに、訂正対象となる単語の前後の文脈情報の利用の
可否には係わらず、上記訂正対象となる単語の訂正単語
候補として任意の個数の単語を確率の高い順番に提示す
る手段34とからなる。
FIG. 7 is a block diagram of another Japanese character recognition error correction device 30 according to the present invention. A Japanese character recognition error correction device 30 for correcting a character recognition error included in a Japanese sentence given as an input shown in FIG.
A character recognizing device model storing means 32 for giving a character confusion probability between any two characters, and a similar word matching means 33 for searching a word in a dictionary 35 for similar matching with the character string of the word to be corrected. And the length of the word to be corrected,
Means 34 for presenting an arbitrary number of words as correction word candidates for the word to be corrected in the order of high probability, regardless of whether context information before and after the word to be corrected is usable. .

【0019】上記本発明の入力として与えられた日本語
文に含まれる文字認識誤りを訂正する日本語文字認識誤
り訂正装置30において、類似単語照合手段33は、文
を構成する単語列の同時確率を与える単語分割モデル3
1と、任意の二つの文字の間の文字混同確率を与える文
字認識装置モデル32とに基づいて、上記訂正対象とな
る単語の文字列と類似照合する辞書35中の単語を検索
し、訂正単語候補提示手段34は、訂正対象となる単語
の長短、並びに、訂正対象となる単語の前後の文脈情報
の利用の可否には係わらず、上記訂正対象となる単語の
訂正単語候補として任意の個数の単語を確率の高い順番
に提示する。
In the Japanese character recognition error correction device 30 for correcting a character recognition error included in a Japanese sentence given as an input according to the present invention, the similar word matching means 33 determines a joint probability of a word string constituting a sentence. Giving word segmentation model 3
1 and a character recognition device model 32 that gives a character confusion probability between any two characters, a word in the dictionary 35 that is similar to the character string of the word to be corrected is searched for, and the corrected word is searched. The candidate presenting means 34 may determine any number of correction word candidates for the word to be corrected, regardless of the length of the word to be corrected and the availability of context information before and after the word to be corrected. Words are presented in order of probability.

【0020】図8は、本発明による他の日本語文字認識
誤り訂正装置40の構成図である。同図に示す日本語文
字認識誤り訂正装置40は、日本語文の各文字位置毎に
文字認識スコアの高い順番に並べられた文字候補のリス
トである文字マトリクスを入力する手段41と、平均単
語長と、連続する二つの文字において第1の文字が与え
られたときの第2の文字の条件付き出現確率を示す文字
二つ組確率とを記憶する単語モデル格納手段42と、上
記単語モデル格納手段42に記憶された平均単語長及び
文字二つ組確率に基づいて、上記文字マトリクスに含ま
れる部分文字列の中から、未知語候補として任意の個数
の未知語の表記と出現確率の組を確率が高い順番に求め
る未知語候補生成手段43と、上記日本語文が辞書に登
録されていない単語を含むか否かとは係わらず、上記未
知語候補を含む単語候補の組合せの中から、上記日本語
文を構成する単語列の同時確率と上記日本語文を構成す
る各文字の文字混同確率との積が大きい順番に任意の個
数の単語候補列を提示する手段44とからなる。
FIG. 8 is a block diagram of another Japanese character recognition error correction device 40 according to the present invention. The Japanese character recognition error correction device 40 shown in FIG. 3 includes a means 41 for inputting a character matrix which is a list of character candidates arranged in the order of the character recognition score for each character position of the Japanese sentence, and an average word length. A word model storage means 42 for storing a character pair probability indicating a conditional appearance probability of a second character when a first character is given out of two consecutive characters, and the word model storage means Based on the average word length and the character double set probability stored in 42, from among the partial character strings included in the character matrix, a set of an arbitrary number of unknown word expressions and appearance probabilities as unknown word candidates is determined. From the combination of word candidates including the unknown word candidate, regardless of whether the Japanese sentence includes a word not registered in the dictionary. Comprises means 44 for presenting the word candidate sequence of any number of sequentially product is large character confusion probabilities for each character constituting the joint probability and the Japanese sentence word strings constituting the sentence.

【0021】上記日本語文字認識誤り訂正装置40は、
日本語文の各文字位置毎に文字認識スコアの高い順番に
並べられた文字候補のリストである文字マトリクスを入
力し、平均単語長と、連続する二つの文字において第1
の文字が与えられたときの第2の文字の条件付き出現確
率を示す文字二つ組確率とに基づいて、上記文字マトリ
クスに含まれる部分文字列の中から、未知語候補として
任意の個数の未知語の表記と出現確率の組を確率が高い
順番に求め、上記日本語文が辞書に登録されていない単
語を含むか否かとは係わらず、上記未知語候補を含む単
語候補の組合せの中から、上記日本語文を構成する単語
列の同時確率と上記日本語文を構成する各文字の文字混
同確率との積が大きい順番に任意の個数の単語候補列を
提示する。
The Japanese character recognition error correction device 40
A character matrix, which is a list of character candidates arranged in the descending order of the character recognition score for each character position in the Japanese sentence, is input, and the average word length and the first character in two consecutive characters are input.
Is given as an unknown word candidate from among the partial character strings included in the character matrix, based on the character double set probability indicating the conditional appearance probability of the second character when the character is given. The set of the notation of the unknown word and the appearance probability is obtained in the order of high probability, regardless of whether the Japanese sentence includes a word not registered in the dictionary, from among the combinations of the word candidates including the unknown word candidate An arbitrary number of word candidate strings are presented in descending order of the product of the joint probability of the word strings constituting the Japanese sentence and the character confusion probability of each character constituting the Japanese sentence.

【0022】図9は、本発明による他の日本語文字認識
誤り訂正装置50の構成図である。同図に示す日本語文
字認識誤り訂正装置50は、日本語文の各文字位置毎に
文字認識スコアの高い順番に並べられた文字候補のリス
トである文字マトリクスを入力する手段51と、文字マ
トリクスに含まれる文字列と類似照合する辞書中の単語
を検索し、ある文字がどの文字にどれくらいの頻度で認
識されるかを示す文字混同行列及び文字の図形的特徴を
数値化した文字特徴ベクトルから推定される二つの文字
の間の文字混同確率を記憶する文字認識装置モデル格納
手段52と、正解文字が上記文字候補に含まれているか
否かとは係わらず、上記文字認識装置モデル格納手段か
ら得られた上記日本語文を構成する各文字の文字混同確
率が大きい順番に任意の個数の単語候補列を提示する手
段53とからなる。
FIG. 9 is a block diagram of another Japanese character recognition error correction device 50 according to the present invention. The Japanese character recognition error correction device 50 shown in FIG. 1 includes a character matrix 51 which is a list of character candidates arranged in the order of the character recognition score for each character position of a Japanese sentence, and a character matrix. Searches words in the dictionary for similarity matching with the included character strings, and estimates them from a character confusion matrix that indicates which characters are recognized by which characters and how often, and character feature vectors that digitize the graphic features of the characters. Character recognition device model storage means 52 for storing the character confusion probability between the two characters to be obtained, and obtained from the character recognition device model storage means irrespective of whether or not the correct character is included in the character candidate. Means 53 for presenting an arbitrary number of word candidate strings in the order in which the character confusion probability of each character constituting the Japanese sentence is large.

【0023】本発明の日本語文字認識誤り訂正装置50
は、日本語文の各文字位置毎に文字認識スコアの高い順
番に並べられた文字候補のリストである文字マトリクス
を入力し、文字マトリクスに含まれる文字列と類似照合
する辞書中の単語を検索し、ある文字がどの文字にどれ
くらいの頻度で認識されるかを示す文字混同行列及び文
字の図形的特徴を数値化した文字特徴ベクトルから二つ
の文字の間の文字混同確率を推定し、正解文字が上記文
字候補に含まれているか否かとは係わらず、上記日本語
文を構成する各文字の文字混同確率が大きい順番に任意
の個数の単語候補列を提示する。
The Japanese character recognition error correction device 50 of the present invention
Enters a character matrix, which is a list of character candidates arranged in the order of the highest character recognition score for each character position in the Japanese sentence, and searches for words in the dictionary that are similar to the character strings contained in the character matrix. Estimate the probability of character confusion between two characters from a character confusion matrix that indicates which characters are recognized by which characters and how often, and a character feature vector that digitizes the graphic characteristics of the characters. Regardless of whether or not it is included in the character candidates, an arbitrary number of word candidate strings are presented in the order in which the character confusion probability of each character constituting the Japanese sentence is large.

【0024】図10は、本発明による他の日本語文字認
識誤り訂正装置60の構成図である。同図に示す日本語
文字認識誤り訂正装置60は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力する手段61と、文字
マトリクスに含まれる文字列と類似照合する辞書中の単
語を検索し、ある文字がどの文字にどれくらいの頻度で
認識されるかを示す文字混同行列及び文字の図形的特徴
を数値化した文字特徴ベクトルから推定される二つの文
字の間の文字混同確率を記憶する文字認識装置モデル格
納手段62と、単語出現確率を記憶する単語分割モデル
格納手段63と、上記文字混同確率及び上記単語出現確
率に基づいて上記単語の順位付けを行なう類似単語照合
手段64と、正解文字が上記文字候補に含まれているか
否かとは係わらず、上記順位付けされた単語を含む単語
候補の組合せの中から、上記日本語文を構成する単語列
の同時確率と上記日本語文を構成する各文字の文字混同
確率との積が大きい順番に任意の個数の単語候補列を提
示する手段65とからなる。
FIG. 10 is a block diagram of another Japanese character recognition error correction device 60 according to the present invention. The Japanese character recognition error correction device 60 shown in FIG. 7 includes a character matrix 61 which is a list of character candidates arranged in the descending order of the character recognition score for each character position of a Japanese sentence, and a character matrix. Searches words in the dictionary for similarity matching with the included character strings, and estimates them from a character confusion matrix that indicates which characters are recognized by which characters and how often, and character feature vectors that digitize the graphic features of the characters. A character recognition device model storage means 62 for storing a character confusion probability between two characters to be performed, a word division model storage means 63 for storing a word appearance probability, and the character confusion probability and the word appearance probability based on the character confusion probability and the word appearance probability. A similar word matching unit 64 for ranking words; and a word including the ranked words regardless of whether the correct character is included in the character candidates. Means 65 for presenting an arbitrary number of word candidate strings in descending order of the product of the simultaneous probability of the word strings constituting the Japanese sentence and the character confusion probability of each character constituting the Japanese sentence from among the complement combinations Consists of

【0025】上記本発明の日本語文字認識誤り訂正装置
60は、日本語文の各文字位置毎に文字認識スコアの高
い順番に並べられた文字候補のリストである文字マトリ
クスを入力し、文字マトリクスに含まれる文字列と類似
照合する辞書中の単語を検索し、ある文字がどの文字に
どれくらいの頻度で認識されるかを示す文字混同行列及
び文字の図形的特徴を数値化した文字特徴ベクトルから
推定される二つの文字の間の文字混同確率と単語出現確
率とに基づいて上記単語の順位付けを行い、正解文字が
上記文字候補に含まれているか否かとは係わらず、上記
順位付けされた単語を含む単語候補の組合せの中から、
上記日本語文を構成する単語列の同時確率と上記日本語
文を構成する各文字の文字混同確率との積が大きい順番
に任意の個数の単語候補列を提示する。
The Japanese character recognition error correction device 60 of the present invention inputs a character matrix which is a list of character candidates arranged in the order of the character recognition score for each character position of the Japanese sentence, and inputs the character matrix to the character matrix. Searches words in the dictionary for similarity matching with the included character strings, and estimates them from a character confusion matrix that indicates which characters are recognized by which characters and how often, and character feature vectors that digitize the graphic features of the characters. The words are ranked based on the character confusion probability and the word appearance probability between the two characters to be determined, regardless of whether the correct character is included in the character candidates or not. From among combinations of word candidates that contain
An arbitrary number of word candidate strings are presented in the descending order of the product of the joint probability of the word strings constituting the Japanese sentence and the character confusion probability of each character constituting the Japanese sentence.

【0026】図11は、本発明による他の日本語文字認
識誤り訂正装置70の構成図である。同図に示す日本語
文字認識誤り訂正装置70は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力する手段71と、上記
文字マトリクスに含まれる部分文字列と照合する辞書7
3中の単語を検索する単語照合手段72と、平均単語長
と、連続する二つの文字において第1の文字が与えられ
たときの第2の文字の条件付き出現確率を示す文字二つ
組確率とを記憶する単語モデル格納手段74と、上記日
本語文が辞書に登録されていない単語を含む場合に、上
記記憶された平均単語長及び文字二つ組確率に基づい
て、上記文字マトリクスに含まれる部分文字列の中か
ら、未知語候補として確率が高い順番に任意の個数の未
知語の表記と出現確率の組を求める未知語候補生成手段
75と、正解文字が上記文字候補に含まれていない場合
に、文字マトリクスに含まれる文字列と類似照合する辞
書中の単語を検索し、ある文字がどの文字にどれくらい
の頻度で認識されるかを示す文字混同行列及び文字の図
形的特徴を数値化した文字特徴ベクトルから推定される
二つの文字の間の文字混同確率を記憶する文字認識装置
モデル格納手段76と、単語出現確率を記憶する単語分
割モデル格納手段77と、上記記憶された文字混同確率
及び単語出現確率に基づいて上記単語の順位付けを行な
う類似単語照合手段78と、上記文字マトリクスに含ま
れる辞書中の単語、上記未知語候補、及び、上記順位付
けされた単語を含む単語候補の組合せの中から、上記日
本語文を構成する単語列の同時確率と上記日本語文を構
成する各文字の文字混同確率との積が大きい順番に任意
の個数の単語候補列を提示する形態素解析手段79とか
らなる。
FIG. 11 is a block diagram of another Japanese character recognition error correction device 70 according to the present invention. The Japanese character recognition error correction device 70 shown in FIG. 7 includes a character matrix 71 which is a list of character candidates arranged in the order of a character recognition score for each character position of a Japanese sentence; Dictionary 7 for collating with partial character strings included in
A word matching means 72 for searching for a word in 3; an average word length; and a character pair probability indicating a conditional appearance probability of a second character when a first character is given in two consecutive characters And a word model storage unit 74 that stores the word in the character matrix on the basis of the stored average word length and the character double probability when the Japanese sentence includes a word not registered in the dictionary. Unknown word candidate generating means 75 for obtaining a set of an arbitrary number of unknown word expressions and appearance probabilities in the order of probability as unknown word candidates from among the partial character strings, and correct characters are not included in the character candidates In this case, search for words in the dictionary that are similar to the character strings contained in the character matrix, and digitize the character confusion matrix that indicates which characters are recognized by which characters and how often. did A character recognition device model storage unit 76 for storing a character confusion probability between two characters estimated from a character feature vector, a word segmentation model storage unit 77 for storing a word appearance probability, A combination of similar word matching means 78 for ranking the words based on the word appearance probability, a word in the dictionary included in the character matrix, the unknown word candidate, and a word candidate including the ranked word And a morphological analysis unit 79 that presents an arbitrary number of word candidate strings in the descending order of the product of the simultaneous probability of the word strings constituting the Japanese sentence and the character confusion probability of each character constituting the Japanese sentence. Consists of

【0027】上記本発明の日本語文字認識誤り訂正装置
70は、日本語文の各文字位置毎に文字認識スコアの高
い順番に並べられた文字候補のリストである文字マトリ
クスを入力し、上記文字マトリクスに含まれる部分文字
列と照合する辞書中の単語を検索し、上記日本語文が辞
書に登録されていない単語を含む場合に、平均単語長
と、連続する二つの文字において第1の文字が与えられ
たときの第2の文字の条件付き出現確率を示す文字二つ
組確率とに基づいて、上記文字マトリクスに含まれる部
分文字列の中から、未知語候補として確率が高い順番に
任意の個数の未知語の表記と出現確率の組を求め、正解
文字が上記文字候補に含まれていない場合に、文字マト
リクスに含まれる文字列と類似照合する辞書中の単語を
検索し、ある文字がどの文字にどれくらいの頻度で認識
されるかを示す文字混同行列及び文字の図形的特徴を数
値化した文字特徴ベクトルから推定される二つの文字の
間の文字混同確率と単語出現確率とに基づいて上記単語
の順位付けを行い、上記文字マトリクスに含まれる辞書
中の単語、上記未知語候補、及び、上記順位付けされた
単語を含む単語候補の組合せの中から、上記日本語文を
構成する単語列の同時確率と上記日本語文を構成する各
文字の文字混同確率との積が大きい順番に任意の個数の
単語候補列を提示する。
The Japanese character recognition error correction device 70 of the present invention inputs a character matrix which is a list of character candidates arranged in the order of the character recognition score for each character position of the Japanese sentence, Search for a word in the dictionary to be matched with the substring included in. If the Japanese sentence includes a word not registered in the dictionary, the average word length and the first character in two consecutive characters are given. Based on the two-character probability set indicating the conditional appearance probability of the second character at the time of being selected, any number of sub-strings included in the character matrix in the order of higher probability as unknown word candidates When the correct character is not included in the above character candidates, a search is performed for a word in the dictionary that is similar to the character string included in the character matrix. Based on the character confusion matrix indicating how frequently the character is recognized and the character confusion probability between the two characters estimated from the character feature vector obtained by digitizing the graphic features of the character, and the word appearance probability. The word sequence forming the Japanese sentence from the combinations of the words in the dictionary included in the character matrix, the unknown word candidates, and the word candidates including the ranked words included in the character matrix. An arbitrary number of word candidate strings are presented in the descending order of the product of the joint probability of the characters and the character confusion probability of each character constituting the Japanese sentence.

【0028】また、本発明は、日本語文字認識誤り訂正
装置に適用される文字認識装置モデル作成装置を提供す
る。図12は文字認識装置モデル作成装置の構成図であ
る。同図に示す如く本発明の文字認識装置モデル作成装
置80は、ある文字がどの文字にどれくらいの頻度で認
識されるかを与える文字混同頻度を記憶する文字混同頻
度格納手段81と、文字の図形的特徴を数値化した文字
特徴ベクトルを記憶する文字特徴ベクトル格納手段82
と、互いに距離が近い文字特徴ベクトルを一つにまとめ
ることにより、上記文字を複数の文字クラスに分類する
文字クラスタリング手段83と、上記文字混同頻度及び
上記文字クラスに基づいて、ある文字クラスの文字がど
の文字クラスの文字にどのくらいの頻度で認識されるか
を表す文字クラス混同確率を推定する手段84と、ある
文字がこれまで観測されていない文字に認識される確率
の総和を推定する未観測事象確率推定手段85と、上記
未観測事象の確率の総和を文字クラス混同確率に比例す
るように配分し、和が1になるように正規化することに
より未観測事象の文字混同確率を求め、観測事象の確率
の総和を文字混同確率に比例するように配分し、全体の
確率の和が1になるように正規化する手段86とにより
構成され、文字の図形的類似度に基づいて任意の二つの
文字の間の文字混同確率を与えることを特徴とする。
Further, the present invention provides a character recognition device model creation device applied to a Japanese character recognition error correction device. FIG. 12 is a configuration diagram of a character recognition device model creation device. As shown in the figure, a character recognition device model creation device 80 of the present invention includes a character confusion frequency storage unit 81 for storing a character confusion frequency which gives a character and how frequently a character is recognized, Character feature vector storage means 82 for storing a character feature vector obtained by digitizing a characteristic feature
And a character clustering unit 83 that classifies the characters into a plurality of character classes by combining character feature vectors that are close to each other into one character class, and a character of a certain character class based on the character confusion frequency and the character class. Means 84 for estimating the probability of character class confusion, which indicates how often a character is recognized by a character of which character class, and unobserved for estimating the sum of the probability that a character is recognized by a character which has not been observed before. Event probability estimating means 85, allocating the sum of the probabilities of the unobserved events in proportion to the character class confusion probability, and normalizing the sum to 1 to obtain the character confusion probability of the unobserved event, Means 86 for distributing the sum of the probabilities of the observed events in proportion to the probability of character confusion, and normalizing the sum of the probabilities to be 1; Characterized in providing the letter confusion probability between any two characters based on conformal similarity.

【0029】図13は、本発明の文字認識装置モデル作
成装置80の動作説明図である。同図に示す如く、文字
認識装置モデル作成装置80は、文字混同頻度が0か否
かを判定し(ステップ81)、0であるならば、未観測
事象の確率の総和を推定し(ステップ82)、入力文字
と出力文字が属するクラスを求め、文字クラス混同確率
を推定し(ステップ83)、未観測事象の確率の総和を
文字クラス混同確率に比例して配分し、全体の確率の和
が1になるように正規化し(ステップ84)、文字混同
頻度が0ではない場合、観測事象の確率を文字混同確率
に比例して配分し、全体の確率の和が1になるように正
規化する(ステップ85)。
FIG. 13 is a diagram for explaining the operation of the character recognition device model creation device 80 of the present invention. As shown in the figure, the character recognition device model creation device 80 determines whether or not the character confusion frequency is 0 (step 81), and if it is 0, estimates the sum of the unobserved event probabilities (step 82). ), Find the class to which the input and output characters belong, estimate the character class confusion probability (step 83), distribute the sum of the unobserved event probabilities in proportion to the character class confusion probability, and find the sum of the overall probabilities. If the frequency of character confusion is not 0, the probability of the observed event is distributed in proportion to the probability of character confusion, and the sum of the probabilities is normalized to 1 (step 84). (Step 85).

【0030】また、本発明は、上記本発明の日本語文字
認識誤り訂正装置及び文字認識装置モデル作成装置の各
々の構成要件を実現するソフトウェア(プログラム)を
記録した記録媒体を含む。かかる本発明の日本語文字認
識誤り訂正プログラム及び文字認識装置モデル作成プロ
グラムは、ディスク装置等に格納しておき、必要に応じ
て文字認識誤り訂正システムのコンピュータにインスト
ールして、夫々、文字認識誤り訂正及び文字認識装置モ
デル作成を行うことも可能である。
The present invention also includes a recording medium on which software (program) for realizing the respective constituent requirements of the Japanese character recognition error correction device and the character recognition device model creation device of the present invention is recorded. Such a Japanese character recognition error correction program and a character recognition device model creation program of the present invention are stored in a disk device or the like, and installed on a computer of a character recognition error correction system as necessary, and each of them is provided with a character recognition error correction program. It is also possible to make corrections and create a character recognition device model.

【0031】本発明の日本語認識誤り訂正プログラムを
記録した記録媒体は、単語の出現頻度を記憶させるプロ
セスと、文字の図形的類似度を計算するプロセスと、入
力として与えられた日本語文を構成する記憶された単語
の出現頻度を獲得し、上記計算された上記日本文を構成
する文字の図形的類似度を獲得し、上記獲得された単語
の出現頻度及び文字の図形的類似度とに基づいて、上記
日本語文に含まれる文字認識誤りを訂正する単語候補と
して、任意の個数の単語を確率が高い順番に提示させる
プロセスとからなることを特徴とする日本語文字誤り訂
正プログラムを記録する。
A recording medium on which the Japanese recognition error correction program of the present invention is recorded has a process for storing the frequency of appearance of words, a process for calculating the degree of graphic similarity between characters, and a process for forming a Japanese sentence given as input. To obtain the appearance frequency of the stored word, and to obtain the calculated graphic similarity of the characters constituting the Japanese sentence, based on the obtained appearance frequency of the word and the graphic similarity of the character. Then, as a word candidate for correcting a character recognition error included in the Japanese sentence, a process of presenting an arbitrary number of words in order of high probability is recorded.

【0032】また、本発明は、入力として与えられた日
本語文に含まれる文字列と一致する単語を単語候補とし
て生成させるプロセスと、上記文に含まれる未知の部分
文字列を未知語候補として生成させるプロセスと、上記
文に含まれる部分文字列と類似した単語を上記文の文脈
とは無関係に訂正単語候補として生成させるプロセス
と、上記単語候補、上記未知語候補及び上記訂正単語候
補の組合せの中から、上記日本語文に含まれる文字認識
誤りの訂正単語列として、任意の個数の単語候補列を確
率の高い順番に出力させるプロセスとからなることを特
徴とする日本語文字認識誤り訂正プログラムを記録した
記録媒体である。
The present invention also provides a process for generating a word that matches a character string included in a Japanese sentence given as an input as a word candidate, and generating an unknown partial character string included in the sentence as an unknown word candidate. A process of generating a word similar to the partial character string included in the sentence as a corrected word candidate regardless of the context of the sentence, and a combination of the word candidate, the unknown word candidate, and the corrected word candidate. A process of outputting an arbitrary number of word candidate strings in the order of probability as a corrected word string of a character recognition error included in the Japanese sentence. It is a recording medium on which recording is performed.

【0033】また、本発明は、入力として与えられた日
本語文を構成する単語列の同時確率を与えるプロセス
と、任意の二つの文字の間の文字混同確率を与えるプロ
セスと、上記訂正対象となる単語の文字列と類似照合す
る辞書中の単語を検索させるプロセスと、訂正対象とな
る単語の長短、並びに、訂正対象となる単語の前後の文
脈情報の利用の可否には係わらず、上記訂正対象となる
単語の訂正単語候補として任意の個数の単語を確率の高
い順番に提示させるプロセスとからなることを特徴とす
る日本語文字認識誤り訂正プログラムを記録した記録媒
体である。
Further, the present invention provides a process for giving a joint probability of a word string constituting a Japanese sentence given as an input, a process for giving a character confusion probability between any two characters, and a process for correction. Regardless of the process of searching for a word in the dictionary that performs similarity matching with the character string of the word, the length of the word to be corrected, and the availability of context information before and after the word to be corrected, And a process of presenting an arbitrary number of words as correction word candidates in the order of probability with high probability.

【0034】また、本発明は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力させるプロセスと、平
均単語長と、連続する二つの文字において第1の文字が
与えられたときの第2の文字の条件付き出現確率を示す
文字二つ組確率とを記憶させるプロセスと、上記記憶さ
れた平均単語長及び文字二つ組確率に基づいて、上記文
字マトリクスに含まれる部分文字列の中から、未知語候
補として任意の個数の未知語の表記と出現確率の組を確
率が高い順番に求めさせるプロセスと、上記日本語文が
辞書に登録されていない単語を含むか否かとは係わら
ず、上記未知語候補を含む単語候補の組合せの中から、
上記日本語文を構成する単語列の同時確率と上記日本語
文を構成する各文字の文字混同確率との積が大きい順番
に任意の個数の単語候補列を提示させるプロセスとから
なることを特徴とする日本語文字認識誤り訂正プログラ
ムを記録した記録媒体である。
Further, the present invention provides a process of inputting a character matrix which is a list of character candidates arranged in the order of the character recognition score for each character position in a Japanese sentence, an average word length, and two consecutive words. A process of storing a character double probability indicating a conditional occurrence probability of a second character when a first character is given to a character, and a process of storing the average word length and the character double probability stored above. A process of obtaining a set of an arbitrary number of unknown words as unknown word candidates and appearance probabilities from the partial character strings included in the character matrix in the order of higher probability, and registering the Japanese sentence in the dictionary Regardless of whether or not it includes a word that is not performed, from among combinations of word candidates including the unknown word candidate,
A process of presenting an arbitrary number of word candidate strings in the descending order of the product of the simultaneous probability of the word strings constituting the Japanese sentence and the character confusion probability of each character constituting the Japanese sentence. This is a recording medium that stores a Japanese character recognition error correction program.

【0035】また、本発明は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力させるプロセスと、文
字マトリクスに含まれる文字列と類似照合する辞書中の
単語を検索し、ある文字がどの文字にどれくらいの頻度
で認識されるかを示す文字混同行列及び文字の図形的特
徴を数値化した文字特徴ベクトルから推定される二つの
文字の間の文字混同確率を記憶させるプロセスと、正解
文字が上記文字候補に含まれているか否かとは係わら
ず、上記文字認識装置モデル格納手段から得られた上記
日本語文を構成する各文字の文字混同確率が大きい順番
に任意の個数の単語候補列を提示させるプロセスとから
なることを特徴とする日本語文字認識誤り訂正プログラ
ムを記録した記録媒体である。
Further, according to the present invention, there is provided a process of inputting a character matrix which is a list of character candidates arranged in the descending order of the character recognition score for each character position of a Japanese sentence. A word in the dictionary to be collated is searched, and a character confusion matrix that indicates which character is recognized by which character and how often, and two character values estimated from the character feature vector that digitizes the graphic features of the character. The process of storing the character confusion probability between the characters and the character confusion of each character constituting the Japanese sentence obtained from the character recognition device model storage means regardless of whether the correct character is included in the character candidate or not. A process of presenting an arbitrary number of word candidate strings in the order of the highest probability. It is.

【0036】また、本発明は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力させるプロセスと、文
字マトリクスに含まれる文字列と類似照合する辞書中の
単語を検索し、ある文字がどの文字にどれくらいの頻度
で認識されるかを示す文字混同行列及び文字の図形的特
徴を数値化した文字特徴ベクトルから推定される二つの
文字の間の文字混同確率を記憶させるプロセスと、単語
出現確率を記憶させるプロセスと、上記文字混同確率及
び上記単語出現確率に基づいて上記単語の順位付けを行
わせるプロセスと、正解文字が上記文字候補に含まれて
いるか否かとは係わらず、上記順位付けされた単語を含
む単語候補の組合せの中から、上記日本語文を構成する
単語列の同時確率と上記日本語文を構成する各文字の文
字混同確率との積が大きい順番に任意の個数の単語候補
列を提示させるプロセスとからなることを特徴とする日
本語文字認識誤り訂正プログラムを記録した記録媒体で
ある。
The present invention also relates to a process of inputting a character matrix which is a list of character candidates arranged in order of character recognition score for each character position of a Japanese sentence, and a process similar to the character string included in the character matrix. A word in the dictionary to be collated is searched, and a character confusion matrix that indicates which character is recognized by which character and how often, and two character values estimated from the character feature vector that digitizes the graphic features of the character. A process of storing the character confusion probability between the two, a process of storing the word appearance probability, a process of ranking the words based on the character confusion probability and the word appearance probability, and Regardless of whether they are included or not, the joint probabilities of the word strings constituting the Japanese sentence are selected from the combinations of the word candidates including the ranked words. A process of presenting an arbitrary number of word candidate strings in the order of the product of the character confusion probability of each of the characters constituting the Japanese sentence in the descending order. It is.

【0037】また、本発明は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力させるプロセスと、上
記文字マトリクスに含まれる部分文字列と照合する辞書
中の単語を検索させるプロセスと、平均単語長と、連続
する二つの文字において第1の文字が与えられたときの
第2の文字の条件付き出現確率を示す文字二つ組確率と
を記憶させるプロセスと、上記日本語文が辞書に登録さ
れていない単語を含む場合に、上記記憶された平均単語
長及び文字二つ組確率に基づいて、上記文字マトリクス
に含まれる部分文字列の中から、未知語候補として確率
が高い順番に任意の個数の未知語の表記と出現確率の組
を求めさせるプロセスと、正解文字が上記文字候補に含
まれていない場合に、文字マトリクスに含まれる文字列
と類似照合する辞書中の単語を検索し、ある文字がどの
文字にどれくらいの頻度で認識されるかを示す文字混同
行列及び文字の図形的特徴を数値化した文字特徴ベクト
ルから推定される二つの文字の間の文字混同確率を記憶
させるプロセスと、単語出現確率を記憶させるプロセス
と、上記記憶された文字混同確率及び単語出現確率に基
づいて上記単語の順位付けを行なわせるプロセスと、上
記文字マトリクスに含まれる辞書中の単語、上記未知語
候補、及び、上記順位付けされた単語を含む単語候補の
組合せの中から、上記日本語文を構成する単語列の同時
確率と上記日本語文を構成する各文字の文字混同確率と
の積が大きい順番に任意の個数の単語候補列を提示させ
るプロセスとからなることを特徴とする日本語文字認識
誤り訂正プログラムを記録した記録媒体である。
According to the present invention, there is also provided a process for inputting a character matrix which is a list of character candidates arranged in order of character recognition score for each character position of a Japanese sentence, and a process for inputting a partial character string included in the character matrix. A process of searching for a word in a dictionary to be matched with, a character-duplex probability indicating an average word length and a conditional appearance probability of a second character given a first character in two consecutive characters And when the Japanese sentence includes a word that is not registered in the dictionary, based on the stored average word length and the probability of double character combination, the partial character string included in the character matrix is A process of obtaining a set of notations and appearance probabilities of an arbitrary number of unknown words in the order of probability as unknown word candidates from the middle, and when the correct character is not included in the above character candidates , A character confusion matrix that indicates which words are recognized in a dictionary, and how often a character is recognized by a character in the dictionary that matches the character string included in the character matrix, and a character that digitizes the graphic characteristics of the character A process of storing a character confusion probability between two characters estimated from a feature vector, a process of storing a word appearance probability, and ranking the words based on the stored character confusion probability and word appearance probability. A combination of a word in the dictionary included in the character matrix, the unknown word candidate, and a word candidate including the ranked word, and a simultaneous probability of a word string constituting the Japanese sentence. And a process of presenting an arbitrary number of word candidate strings in the descending order of the product of the character confusion probability of each character constituting the Japanese sentence. Which is a recording medium for recording a Japanese character recognition error correction program that.

【0038】また、本発明は、ある文字がどの文字にど
れくらいの頻度で認識されるかを与える文字混同頻度を
記憶させるプロセスと、文字の図形的特徴を数値化した
文字特徴ベクトルを記憶させるプロセスと、互いに距離
が近い文字特徴ベクトルを一つにまとめることにより、
上記文字を複数の文字クラスに分類させるプロセスと、
上記文字混同頻度及び上記文字クラスに基づいて、ある
文字クラスの文字がどの文字クラスの文字にどのくらい
の頻度で認識されるかを表す文字クラス混同確率を推定
させるプロセスと、ある文字がこれまで観測されていな
い文字に認識される確率の総和を推定させるプロセス
と、上記未観測事象の確率の総和を文字クラス混同確率
に比例するように配分し、和が1になるように正規化す
ることにより未観測事象の文字混同確率を求め、観測事
象の確率の総和を文字混同確率に比例するように配分
し、全体の確率の和が1になるように正規化させるプロ
セスとにより構成され、文字の図形的類似度に基づいて
任意の二つの文字の間の文字混同確率を与えることを特
徴とする文字認識装置モデル作成プログラムを記録した
記録媒体である。
The present invention also relates to a process for storing a character confusion frequency which gives a character and how often a character is recognized, and a process for storing a character feature vector obtained by digitizing graphic features of a character. By combining character feature vectors that are close to each other,
A process of classifying the characters into a plurality of character classes;
A process of estimating a character class confusion probability indicating how often a character of a certain character class is recognized by a character of the character class based on the character confusion frequency and the character class, and observing a certain character so far. The process of estimating the sum of the probabilities of being recognized by the unobserved characters, and distributing the sum of the probabilities of the unobserved events in proportion to the character class confusion probability, and normalizing the sum to be 1 Determining the character confusion probability of the unobserved event, distributing the sum of the observed event probabilities in proportion to the character confusion probability, and normalizing the total probability to be 1; A recording medium storing a character recognition device model creation program characterized by giving a character confusion probability between any two characters based on a graphical similarity.

【0039】[0039]

【発明の実施の形態】図14は、本発明の一実施例によ
る日本語文字認識誤り訂正システムの概略ブロック図で
ある。同図に示す如く、日本語文字認識誤り訂正システ
ムは、日本語入力文を受け、文字マトリクスを出力する
文字認識装置101と、与えられた文字マトリクスを入
力して単語列を出力する文字認識誤り訂正装置100と
からなる。
FIG. 14 is a schematic block diagram of a Japanese character recognition error correction system according to one embodiment of the present invention. As shown in the figure, a Japanese character recognition error correction system includes a character recognition device 101 that receives a Japanese input sentence and outputs a character matrix, and a character recognition error that inputs a given character matrix and outputs a word string. And a correction device 100.

【0040】文字認識誤り訂正装置100は、前向き探
索部102、部分解析テーブル103、後向き探索部1
04、平均単語長テーブル105、未知語候補生成部1
06、類似単語照合部107、単語出現確率テーブル1
08、単語照合手段109、単語二つ組確率テーブル1
10、文字二つ組確率テーブル111、文字混同確率計
算部112、文字混同頻度テーブル113、文字クラス
混同頻度テーブル114、文字クラスタリング部11
5、及び文字特徴ベクトルテーブル116により構成さ
れる。
The character recognition error correction apparatus 100 includes a forward search section 102, a partial analysis table 103, a backward search section 1
04, average word length table 105, unknown word candidate generator 1
06, similar word matching section 107, word appearance probability table 1
08, word matching means 109, word double probability table 1
10, character double set probability table 111, character confusion probability calculation unit 112, character confusion frequency table 113, character class confusion frequency table 114, character clustering unit 11
5 and a character feature vector table 116.

【0041】前向き探索部102は、入力文に対して文
字認識装置1が出力した文字マトリクスを入力とし、入
力文字マトリクスの文頭から文末へ一文字ずつ進む動的
計画法(Dynamic Programming) を用いて、単語列の同時
確率(即ち、単語二つ組確率の積)と各文字の文字混同
確率との積が最大化されるような入力文の単語分割を求
める。前向き探索部102は、文頭からある単語に至る
までの単語列の同時確率と各文字の文字混同確率との積
を最大化する部分解析(単語列)の確率を、最後の単語
毎に計算し、部分解析スコアテーブル103に記録す
る。
The forward search unit 102 receives a character matrix output from the character recognition device 1 for an input sentence and uses a dynamic programming method (Dynamic Programming) that proceeds from the beginning of the input character matrix to the end of the sentence one character at a time. The word division of the input sentence is determined so that the product of the joint probability of the word string (ie, the product of the word pair probabilities) and the character confusion probability of each character is maximized. The forward search unit 102 calculates, for each last word, the probability of partial analysis (word sequence) that maximizes the product of the joint probability of the word string from the beginning of the sentence to a certain word and the character confusion probability of each character. , In the partial analysis score table 103.

【0042】前向き探索において、単語候補は、単語照
合部109と類似単語照合部107と未知語候補生成部
106とによって提案される。提案された単語候補に
は、文字列混同確率生成部112によって、単語を構成
する各文字の文字混同確率の積が与えられる。また、単
語二つ組確率は単語二つ組確率テーブル110より与え
られる。
In the forward search, word candidates are proposed by the word matching unit 109, the similar word matching unit 107, and the unknown word candidate generation unit 106. The product of the character confusion probability of each character constituting the word is given to the proposed word candidate by the character string confusion probability generation unit 112. Further, the word pair probability is given from the word pair probability table 110.

【0043】以下では、文字マトリクスの各文字位置に
おいて、その文字位置の文字候補のリストから一文字ず
つ選ぶことにより構成される文字列を、「文字マトリク
スに含まれる文字列」と呼ぶ。単語照合部109は、文
字マトリクスに含まれる文字列と単語出現確率テーブル
108の単語表記とを照合し、照合したものを単語候補
として提案する。
In the following, at each character position in the character matrix, a character string formed by selecting one character at a time from a list of character candidates at that character position is referred to as a "character string included in the character matrix". The word matching unit 109 matches the character string included in the character matrix with the word notation in the word appearance probability table 108, and proposes the matched word candidate.

【0044】類似単語照合手段107は、文字マトリク
スに含まれる文字列及び単語出現確率テーブル108の
単語表記を、単語出現確率テーブル108より与えられ
る単語出現確率を用いて類似照合する。未知語候補生成
部106は、文字マトリクスに含まれる文字列の中で単
語出現確率テーブル108の単語表記と照合しないもの
を未知語とみなし、平均単語長テーブル105より与え
られる平均単語長と、文字二つ組確率テーブル111よ
り与えられる文字二つ組確率を用いて単語出現確率を推
定して、予め定めた個数の未知語を出力確率が大きい順
に未知語候補として提案する。
The similar word matching means 107 performs similarity matching between the character strings included in the character matrix and the word expressions in the word appearance probability table 108 using the word appearance probabilities given from the word occurrence probability table 108. The unknown word candidate generation unit 106 regards a character string included in the character matrix that does not match with the word notation in the word appearance probability table 108 as an unknown word, and calculates the average word length given from the average word length table 105 and the character The word appearance probability is estimated using the character pair probabilities given from the pair probability table 111, and a predetermined number of unknown words are proposed as unknown word candidates in descending order of output probability.

【0045】後向き探索部104は、前向き探索部2に
おいて部分解析テーブル103に格納された部分解析を
入力し、文末から文頭へ一単語ずつ進むA* アルゴリズ
ムを用いて、単語列の同時確率と各文字の文字混同確率
との積が最も大きい方から順番に一つずつ単語列候補を
求める。文字混同確率計算部112は、文字混同頻度テ
ーブル113に格納された文字混同頻度と、文字クラス
混同頻度テーブル114に格納された文字クラス混同頻
度とから文字混同確率を求める。
The backward search unit 104 inputs the partial analysis stored in the partial analysis table 103 in the forward search unit 2 and uses the A * algorithm that advances one word at a time from the end of the sentence to the beginning of the sentence to determine the joint probability of the word string and the Word string candidates are obtained one by one in order from the one with the largest product of the character and the character confusion probability. The character confusion probability calculation unit 112 obtains a character confusion probability from the character confusion frequency stored in the character confusion frequency table 113 and the character class confusion frequency stored in the character class confusion frequency table 114.

【0046】文字クラスタリング部115は、文字特徴
ベクトルテーブル116をベクトル量子化アルゴリズム
を用いて予め定められた個数の文字クラスに分類し、文
字クラス間の混同数を文字混同頻度テーブル113より
求める。以下では、まず、本発明の理論的基礎である
「文字認識誤り訂正の情報理論的解釈」について説明
し、続いて、文字認識装置モデル、単語分割モデル、単
語モデル、前向き探索部及び後向き探索部、未知語候補
生成部、並びに、類似単語照合部の順に説明する。
The character clustering section 115 classifies the character feature vector table 116 into a predetermined number of character classes using a vector quantization algorithm, and obtains the number of confusions between the character classes from the character confusion frequency table 113. In the following, first, the "information theoretical interpretation of character recognition error correction" which is the theoretical basis of the present invention will be described, followed by a character recognition device model, a word segmentation model, a word model, a forward search unit and a backward search unit. , An unknown word candidate generation unit, and a similar word collation unit.

【0047】・文字認識誤り訂正の情報理論的解釈 本発明の一実施例において、文字認識装置1の入力と出
力の関係は、雑音のある通信路のモデル(noisy channel
model) で定式化される。入力文字列Cに対する文字認
識結果をXとすれば、文字認識の誤り訂正は、事後確率
P(C|X)を最大にする文字列
Information Theoretic Interpretation of Character Recognition Error Correction In one embodiment of the present invention, the relationship between the input and output of the character recognition device 1 is based on the model of a noisy channel (noisy channel).
model). Assuming that the character recognition result for the input character string C is X, the character recognition error correction is performed on the character string that maximizes the posterior probability P (C | X).

【0048】[0048]

【外1】 [Outside 1]

【0049】を求める問題に帰着する。ベイズの定理に
より、次の関係が成り立つので、
The problem is as follows. According to Bayes' theorem, the following relationship holds,

【0050】[0050]

【数1】 (Equation 1)

【0051】P(X|C)P(C)を最大にする文字列P (X | C) Character string that maximizes P (C)

【0052】[0052]

【外2】 [Outside 2]

【0053】を求めればよい。It is sufficient to obtain

【0054】[0054]

【数2】 (Equation 2)

【0055】ここでは、P(X|C)を文字認識装置モ
デル、P(C)を言語モデルと呼ぶ。以下では、本発明
の一実施例で用いた文字認識装置モデル及び言語モデル
について説明する。 ・文字認識装置モデル 文字認識装置モデルP(X|C)は、入力文字列Cを構
成する各文字ci が、Xを構成する各文字xi に認識さ
れる確率の積から計算できる。
Here, P (X | C) is called a character recognition device model, and P (C) is called a language model. Hereinafter, a character recognition device model and a language model used in one embodiment of the present invention will be described. · Character recognition device model character recognition device model P (X | C), each character c i constituting the input character string C is can be calculated from the product of the probabilities that are recognized in the character x i that make up the X.

【0056】[0056]

【数3】 (Equation 3)

【0057】P(xi |ci )は文字混同確率(charact
er confusion probability) と呼ばれ、基本的には文字
認識装置の入力と出力の組の頻度データである文字混同
行列(character confusion matrix)から求めることがで
きる。しかし、文字混同行列は、文字認識法が入力画像
の品質に大きく依存するので汎用性が低い。また、日本
語は文字の種類が3000字以上もあるので、すべての
文字について十分に多くの文字認識結果を集めることは
できない。必然的に文字混同行列は疎(sparse)になるの
で、文字混同確率P(xi |ci )を相対頻度から最尤
推定するのは不適切である。
P (x i | c i ) is the character confusion probability (charact
It is called an "er confusion probability" and can be basically determined from a character confusion matrix which is frequency data of a set of input and output of the character recognition device. However, the character confusion matrix has low versatility because the character recognition method largely depends on the quality of the input image. Also, since Japanese has more than 3000 types of characters, it is not possible to collect a sufficiently large number of character recognition results for all characters. Since the character confusion matrix inevitably becomes sparse, it is inappropriate to estimate the character confusion probability P (x i | c i ) from the relative frequency with the maximum likelihood.

【0058】例えば、「環境」という単語が「技境」と
誤認識されたとする。図15は「環」と「境」という文
字に関する文字混同行列のデータの例を示す図である。
スラッシュ(’/’)で区切られた文字と数字の組は、
入力文字に対する出力文字とその頻度を表す。「環」と
いう文字に関する認識結果を1291個集めたとき、出
力される文字は「環」が1289個、「探」が1個、
「像」が1個しかなく、「技」と認識される例はない。
従って、単純に最尤推定すると、文字混同確率P(技|
環)=0となる。これは「ゼロ頻度問題」と呼ばれ、少
数の学習データから確率モデルを推定する際には必ず発
生する問題である。
For example, assume that the word "environment" is erroneously recognized as "technical environment". FIG. 15 is a diagram illustrating an example of data of a character confusion matrix regarding characters “ring” and “border”.
A set of letters and numbers separated by a slash ('/')
Represents output characters and their frequencies for input characters. When 1,291 recognition results for the character "ring" are collected, the output characters are 1289 "ring", one "search",
There is only one "image", and there is no example that it is recognized as "skill".
Therefore, when the maximum likelihood is simply estimated, the character confusion probability P (technique |
Ring) = 0. This is called a “zero frequency problem” and is a problem that always occurs when a probability model is estimated from a small number of learning data.

【0059】そこで、本発明の一実施例では、文字の図
形的な特徴を数値化したデータである文字特徴ベクトル
を、文字混同行列と組み合わせることにより、文字の図
形的な類似度に基づいて文字混同確率を平滑化(smoothi
ng) する。そのため、まず全ての未観測事象の出現確率
の和を推定し、次に、文字の類似度に基づいて各未観測
事象に確率を再配分する。以下でその方法を説明する。
Accordingly, in one embodiment of the present invention, a character feature vector, which is data obtained by digitizing the graphic characteristics of a character, is combined with a character confusion matrix, so that a character based on the graphic similarity of the character is used. Smooth the confusion probability (smoothi
ng). Therefore, the sum of the appearance probabilities of all unobserved events is first estimated, and then the probabilities are redistributed to each unobserved event based on the similarity of the characters. The method will be described below.

【0060】・未観測事象から生起する確率の推定 本発明の一実施例において、未観測事象の確率の総和の
推定法として、WittenとBellの方法(Witten and Bill,
“The Zero-Frequency Problem: Estimating the Proba
bilities of Novel Events in Adaptive Text Compress
ion", IEEE Transaction on information Theory, Vo
l.37, No.4, pp.1085-1094, 1991 )を用いる。Witten
とBellの方法では、既に観測された事象の延べ総数、即
ち、種類の違いを無視して計算した合計をnとし、異な
り総数、即ち、種類が同じものは一つとして計算した合
計をrとするとき、新しい事象(未観測事象)が生起す
る確率をr/(n+r)と推定する。一方、既にc回観
測された事象の確率はc/(n+r)と推定する。Witt
enとBellの方法は、新しい事象を観測する確率は、観測
事象の異なり総数が増加すると共に増え、観測事象の延
べ総数が増加すると共に減るという経験則を反映したも
ので、単純な計算により実用的な精度が得られるという
利点がある。尚、WittenとBellの方法は、テキスト圧縮
の分野で考案されたもので、文字認識の誤り訂正にこの
方法を応用するのは本発明の一実施例に特有の新規事項
である。
Estimation of Probability Occurring from Unobserved Event In one embodiment of the present invention, the method of Witten and Bell (Witten and Bill,
“The Zero-Frequency Problem: Estimating the Proba
bilities of Novel Events in Adaptive Text Compress
ion ", IEEE Transaction on information Theory, Vo
l.37, No.4, pp.1085-1094, 1991). Witten
According to Bell's method, the total number of events already observed, that is, the total calculated ignoring the difference in type is n, and the total number differently, that is, the total calculated as one for the same type is r. Then, the probability that a new event (unobserved event) will occur is estimated as r / (n + r). On the other hand, the probability of an event already observed c times is estimated to be c / (n + r). Witt
The method of en and Bell reflects the empirical rule that the probability of observing a new event increases as the total number of observed events increases and decreases as the total number of observed events increases. There is an advantage that accurate accuracy can be obtained. The method of Witten and Bell was devised in the field of text compression, and applying this method to character recognition error correction is a novel matter unique to one embodiment of the present invention.

【0061】文字ci が文字cj に認識されるという事
象の頻度をC(ci ,cj )とし、文字ci が未観測の
文字に認識されるという事象の確率の和をβ(ci )と
する。WittenとBellの方法よりβ(ci )は以下のよう
に推定される。
The frequency of the event that the character c i is recognized by the character c j is C (c i , c j ), and the sum of the probability of the event that the character c i is recognized by the unobserved character is β ( c i ). From Witten and Bell's method, β (c i ) is estimated as follows.

【0062】[0062]

【数4】 (Equation 4)

【0063】ここでΘ(x)は異なり総数を求めるため
に導入した以下のようなステップ関数である。
Here, Θ (x) is a different step function introduced for obtaining the total number as follows.

【0064】[0064]

【数5】 (Equation 5)

【0065】図15に示された例では、文字「環」は1
291(=1289+1+1)回入力され、出力には
「環」、「探」及び「像」の3つの文字がある。従っ
て、新しい文字を観測する確率は、3/(1291+
3)=3/1294である。 ・図形的類似度に基づく文字クラスタリング WittenとBellの方法は、未観測事象の確率の総和を求め
るための一般的な方法として使用できるが、個々の未観
測事象に確率を再配分する方法は、モデル化する対象に
応じて新たに考案する必要がある。最も簡単な確率の再
配分法は、すべての未観測事象を等確率と仮定する方法
である。しかし、文字混同確率の場合、図形的に似てい
る文字ほど認識誤りが生じ易いので、等確率とする仮定
は不適切である。
In the example shown in FIG. 15, the character “ring” is 1
It is input 291 times (= 1289 + 1 + 1) times, and the output includes three characters of "ring", "search", and "image". Therefore, the probability of observing a new character is 3 / (1291+
3) = 3/1294. Character clustering based on graphical similarity Witten and Bell's method can be used as a general method for calculating the sum of probabilities of unobserved events, but the method of redistributing probabilities to individual unobserved events is It is necessary to devise a new one according to the object to be modeled. The simplest probability redistribution method is to assume all unobserved events are of equal probability. However, in the case of the character confusion probability, recognition errors are more likely to occur for characters that are graphically similar, so the assumption of equal probability is inappropriate.

【0066】本発明の一実施例では、図形的に似ている
文字の間の誤り傾向に基づいて未観測事象の文字混同確
率を再配分するために、まず、図形的な類似度に基づい
て文字を適当な数のクラスに分類し、この文字クラス間
の混同頻度を文字混同頻度から求める。そして、文字ク
ラス混同頻度に比例するように未観測事象の確率を再配
分する。文字クラスは文字特徴ベクトルをクラスタリン
グすることにより求める。一般に、文字認識は特徴抽出
及び分類により構成される。特徴抽出は画像から文字認
識に有効な複数の特徴量を取り出す操作であり、分類は
入力文字画像の特徴ベクトルと予め用意した各文字の代
表ベクトルを何らかの距離尺度に基づいて比較する操作
である。従って、文字特徴ベクトル間の距離に基づいて
文字をクラスタリングすれば、文字認識の誤り傾向を反
映する図形的に似た文字の集合が得られる。
In one embodiment of the present invention, in order to redistribute the character confusion probability of an unobserved event based on the tendency of errors between characters that are graphically similar, first, based on the graphical similarity, The characters are classified into an appropriate number of classes, and the confusion frequency between the character classes is determined from the character confusion frequency. Then, the probability of the unobserved event is redistributed in proportion to the character class confusion frequency. The character class is obtained by clustering character feature vectors. Generally, character recognition is composed of feature extraction and classification. The feature extraction is an operation of extracting a plurality of feature amounts effective for character recognition from an image, and the classification is an operation of comparing a feature vector of an input character image with a representative vector of each character prepared in advance based on some distance scale. Therefore, if the characters are clustered based on the distance between the character feature vectors, a group of characters that are graphically similar and reflect the tendency of error in character recognition can be obtained.

【0067】本発明の一実施例では、文字特徴量として
外郭方向寄与度(荻田・内藤・増田「外郭方向寄与度特
徴による手書き漢字の識別」、電子通信学会論文誌、Vo
l.J66-D, No.10, pp.1185-1192, 1983)が使用され、ク
ラスタリング手法としてLBGアルゴリズム(Linde, Bu
zo and Gray “An algorithm for Vector QuantizerDes
ign", IEEE Transactions on Communications, Vol.COM
-28, No.1, pages 84-95, 1980)が使用されている。但
し、文字特徴ベクトルとクラスタリング手法は、最終的
に図形的に類似した文字のクラスが得られる方法であれ
ばよく、本実施例で使用された外郭方向寄与度とLBG
アルゴリズムに限定されることはない。外郭方向寄与度
は本来1536次元のベクトルであるが、2段階の特徴
選択法を用いて256次元に縮退した特徴ベクトルを作
成する。次に、3021個の日本語の文字に対し各文字
の特徴ベクトルをLBGアルゴリズムを用いて、302
1個の文字を128個のクラスに分類した。
In one embodiment of the present invention, the degree of outline direction contribution (Ogita / Naito / Masuda "Identification of handwritten kanji by outline direction contribution degree feature") is used as the character feature quantity, IEICE Transactions, Vo
l. J66-D, No. 10, pp. 1185-1192, 1983), and the LBG algorithm (Linde, Bu
zo and Gray “An algorithm for Vector QuantizerDes
ign ", IEEE Transactions on Communications, Vol.COM
-28, No. 1, pages 84-95, 1980). However, the character feature vector and the clustering method need only be a method that can finally obtain a class of characters that are graphically similar, and the contour direction contribution and LBG used in this embodiment are used.
It is not limited to algorithms. Although the contour direction contribution rate is originally a 1536-dimensional vector, a feature vector reduced to 256 dimensions is created using a two-stage feature selection method. Next, for 3021 Japanese characters, the feature vector of each character is calculated using the LBG algorithm.
One character was classified into 128 classes.

【0068】図16はクラスタリングにより作成された
文字クラスの例を説明する図である。クラス29は
「環」を含む文字クラス、クラス119は「技」を含む
文字クラスである。図形的に類似した特徴を持つ文字が
一つのクラスを構成していることが分かる。 ・文字クラス混同頻度と文字混同確率の計算法 文字クラスと文字混同頻度から文字クラス混同頻度を求
める手順を説明する。文字クラスclassI に属する
文字が文字クラスclassJ に属する文字に認識され
る頻度を文字クラス混同頻度と呼び、C(clas
I ,classJ)で表す。文字クラス混同頻度C
(classI ,classJ )は、classI とc
lassJ に属する文字に関する文字混同行列の要素の
和から求めることができる。
FIG. 16 is a diagram for explaining an example of a character class created by clustering. Class 29 is a character class including "ring", and class 119 is a character class including "skill". It can be seen that characters having graphically similar characteristics constitute one class. -Calculation method of character class confusion frequency and character confusion probability The procedure for obtaining the character class confusion frequency from the character class and the character confusion frequency will be described. The frequency at which a character belonging to the character class class I is recognized as a character belonging to the character class class J is called a character class confusion frequency, and C (class
s I , class J ). Character class confusion frequency C
(Class I , class J ) are class I and c
It can be obtained from the sum of the elements of the character confusion matrix for the characters belonging to the class J.

【0069】[0069]

【数6】 (Equation 6)

【0070】文字混同行列に比べれば少ないが、文字ク
ラス混同行列にもゼロ要素がある。そこで、まず前述の
WittenとBellの方法を文字クラス混同行列に適用してゼ
ロ要素(未観測事象)の確率の和を求め、未観測事象は
等確率と仮定して確率を再配分する。これによりすべて
の文字クラスの間にクラス混同確率が定義できる。図1
7は文字クラス混同行列の例を示す図である。同図に
は、クラス29(「環」を含む文字クラス)の文字クラ
ス混同頻度が示されている。クラス29は入力として3
1036回現れ、クラス119(「技」を含む文字クラ
ス)に認識されたのは7回である。また、出力の中の異
なりクラスは36個ある。従って、文字クラス混同確率
は、P(class119 |class29)=7/(31
036+36)=7/31072である。
Although less than the character confusion matrix, the character class confusion matrix also has zero elements. So, first,
We apply the Witten and Bell method to the character class confusion matrix to find the sum of the probabilities of the zero elements (unobserved events), and redistribute the probabilities assuming that the unobserved events are of equal probability. In this way, a class confusion probability can be defined between all character classes. FIG.
FIG. 7 is a diagram showing an example of a character class confusion matrix. In the figure, the character class confusion frequency of class 29 (character class including “ring”) is shown. Class 29 is 3 as input
It appears 1036 times and is recognized seven times by class 119 (a character class including "skill"). There are 36 different classes in the output. Therefore, the character class confusion probability is P (class 119 | class 29 ) = 7 / (31
036 + 36) = 7/31072.

【0071】未観測事象の文字混同確率は、文字クラス
混同確率に比例するように配分される。即ち、
The character confusion probability of an unobserved event is allocated so as to be proportional to the character class confusion probability. That is,

【0072】[0072]

【数7】 (Equation 7)

【0073】ここで、α(ci )は、未観測事象の文字
混同確率の和がβ(ci )に等しくなるようにするため
の正規化係数であり、
Here, α (c i ) is a normalization coefficient for making the sum of character confusion probabilities of unobserved events equal to β (c i ).

【0074】[0074]

【数8】 (Equation 8)

【0075】class(ci )は文字ci が属するク
ラスを求める関数である。文字クラス混同確率P(cl
ass(cj )|class(ci ))及び正規化係数
α(ci )は予め計算しておくことができるので、式
(7)に示す文字混同確率の計算は非常に効率的に実現
できる。 ・言語モデル(単語分割モデル) 続いて、言語モデル(単語分割モデル)、前向き探索及
び後向き探索について説明する。
Class (c i ) is a function for determining the class to which the character c i belongs. Character class confusion probability P (cl
as (c j ) | class (c i )) and the normalization coefficient α (c i ) can be calculated in advance, so that the calculation of the character confusion probability shown in equation (7) is realized very efficiently. it can. Language Model (Word Division Model) Subsequently, the language model (word division model), forward search and backward search will be described.

【0076】文字列C=c1 2 ...cm から構成さ
れる入力文が、単語列W=w1 2...wn に分割さ
れるとする。本発明の一実施例では、式(2)における
文字列Cの確率P(C)を、文字列Cを構成する最も尤
もらしい単語列の確率P(W)で近似する。さらに、本
実施例では、単語列の同時確率P(W)を次式のように
単語二つ組確率の積で近似する。
Character strings C = c 1 c 2 . . . If the input sentence composed of cm is a word string W = w 1 w 2 . . . Let it be divided into w n . In one embodiment of the present invention, the probability P (C) of the character string C in Expression (2) is approximated by the probability P (W) of the most likely word string forming the character string C. Furthermore, in this embodiment, the joint probability P (W) of the word string is approximated by the product of the word pair probabilities as in the following equation.

【0077】[0077]

【数9】 (Equation 9)

【0078】ここで、“# ”は文の先頭及び末尾を表す
特殊な記号である。単語二つ組確率は、大量のテキスト
データから事前に学習しておく。一般にP(W)は単語
分割モデルと呼ばれる。式(9)のように、単語分割モ
デルを言語モデルとして用いると、文字認識誤り訂正
は、文字認識装置の出力文字列Xに対し事後確率P(W
|X)を最大にする単語列
Here, "#" is a special symbol representing the beginning and end of a sentence. The word pair probability is learned in advance from a large amount of text data. Generally, P (W) is called a word segmentation model. When the word segmentation model is used as a language model as in Expression (9), the character recognition error correction performs posterior probability P (W
| X) word string that maximizes

【0079】[0079]

【外3】 [Outside 3]

【0080】を求める問題に帰着する。式(2)と同様
にベイズの定理を用いれば、これはP(X|W)とP
(W)の積を最大化すればよいことになる。
The result is the problem of finding Using Bayes' theorem as in equation (2), this results in P (X | W) and P
It is sufficient to maximize the product of (W).

【0081】[0081]

【数10】 (Equation 10)

【0082】式(10)を最大化する単語列は、文頭か
ら文末方向へ一文字ずつ進む動的計画法により求められ
る。さらに、文末から文頭方向へ進むA* 探索を用いれ
ば、確率が大きい順に任意の個数の単語列候補を求める
こともできる。本発明の一実施例では、文頭から文末方
向へ一文字ずつ進む動的計画法を前向き探索と称し、文
末から文頭方向へ進むA* 探索を後向き探索と称する。
以下では、前向き探索及び後向き探索について説明す
る。
The word sequence that maximizes the expression (10) is obtained by a dynamic programming method that proceeds one character at a time from the beginning of the sentence to the end of the sentence. Furthermore, if an A * search that proceeds from the end of the sentence to the beginning of the sentence is used, an arbitrary number of word string candidates can be obtained in the order of increasing probability. In one embodiment of the present invention, a dynamic programming that proceeds one character at a time from the beginning of a sentence to the end of a sentence is referred to as a forward search, and an A * search that proceeds from the end of a sentence to the beginning of a sentence is referred to as a backward search.
Hereinafter, the forward search and the backward search will be described.

【0083】・前向き探索 前向き探索部102が式(10)を最大化する単語列を
求める手順を説明する。文頭からi番目の単語までの単
語列の同時確率P(w1 ...wi )と、単語列を構成
する各文字の文字混同確率P(xj |cj )との積の最
大値をφ(wi)と定義すると、式(9)より、以下の
関係が成立する。
Forward Search A procedure in which the forward search unit 102 obtains a word string that maximizes the expression (10) will be described. And the joint probability of the word sequence from the beginning of a sentence to the i-th word P (w 1 ... w i) , confusion each character of the characters that make up a word string probability P (x j | c j) and the maximum value of the product the defining and phi (w i), the equation (9), the following relation is established.

【0084】[0084]

【数11】 [Equation 11]

【0085】ここで、q及びrは単語wi の開始位置及
び終了位置を表す。即ち、wi =cq+ 1 ...cr であ
り、xq+1 ...xr はwi に対応する文字認識結果で
ある。式(11)は以下の関係を表す。文頭からi番目
の単語までの同時確率と単語列を構成する各文字の文字
混同確率との積の最大値φ(wi )は、文頭からi−1
番目の単語までの同時確率と単語列を構成する各文字の
文字混同確率との積の最大値φ(wi-1 )と、i番目の
単語の単語二つ組確率P(wi |wi-1 )との積の最大
値に、i番目の単語を構成する各文字の文字混同確率の
積を掛けたものである。この関係を利用して、文頭から
順にφ(wi )を求めれば、文頭から文末までの確率の
最大値φ(wn )を求めることができる。
Here, q and r represent the start position and end position of the word w i . That is, w i = c q + 1 . . . a c r, x q + 1. . . x r is a character recognition result corresponding to w i. Equation (11) represents the following relationship. Maximum value of the product of the character confusion probabilities for each character constituting the joint probability and the word string from beginning of a sentence to the i-th word phi (w i) are, i-1 from the beginning of a sentence
Th of the maximum value of the product of the character confusion probability of each of the characters that make up the joint probability and word string of up to word φ and (w i-1), i-th word of the word duplicate probability P (w i | w i-1 ) is multiplied by the product of the character confusion probabilities of the characters constituting the i-th word. Based on this relationship, by obtaining from the beginning of a sentence in order phi (w i), it is possible to obtain the maximum value of the probability from beginning of a sentence to the end of the sentence φ (w n).

【0086】図18は本発明の一実施例による前向き探
索部102の動作フローチャートである。前向き探索は
動的計画法を用いて式(11)の計算を実現する。ここ
では、φ(wi )を部分解析の確率と呼び、φ(wi
を格納するテーブルを部分解析テーブル103と呼ぶ。
以下では、図18に従って前向き探索の動作を説明す
る。 前向き探索は、入力文の先頭から始まり、文末方
向へ一文字ずつ進む。ステップ101では、探索の開始
位置を入力文の先頭に設定する。
FIG. 18 is an operation flowchart of the forward search section 102 according to one embodiment of the present invention. The forward search implements the calculation of equation (11) using dynamic programming. In this case, referred to as the probability of φ (w i) the partial analysis, φ (w i)
Is referred to as a partial analysis table 103.
The forward search operation will be described below with reference to FIG. The forward search starts at the beginning of the input sentence and proceeds one character at a time toward the end of the sentence. In step 101, the search start position is set at the beginning of the input sentence.

【0087】ステップ102では、探索が文末に達した
か否かを判断する。もし、文末に達していれば、前向き
探索を終了する。そうでなければ、以下の処理を各文字
位置で行う。ステップ103では、現在の文字位置に到
達する全ての部分解析を部分解析テーブル103から検
索し、その中の一つを現在の部分解析として選ぶ。
At step 102, it is determined whether or not the search has reached the end of the sentence. If the end of the sentence has been reached, the forward search ends. Otherwise, the following processing is performed at each character position. In step 103, all partial analyzes that reach the current character position are searched from the partial analysis table 103, and one of them is selected as the current partial analysis.

【0088】ステップ104では、全ての部分解析を調
べたか否かを判定する。もしそうならば、ステップ11
4において探索を次の文字位置へ進める。そうでなけれ
ば、以下の処理を各部分解析について行う。ステップ1
05では、現在の文字位置から始まるすべての単語候補
の集合を作成し、その中から一つの単語を現在の単語と
して選ぶ。すべての単語候補の集合は、文字マトリクス
に含まれる文字列と照合する辞書中の単語(単語照合部
109から得られる)、文字列マトリクスに含まれる文
字列と類似照合する辞書中の単語(類似単語照合部10
7から得られる)、及び、文字マトリクスに含まれる文
字列で辞書と照合しないものから生成した未知単語候補
(未知語候補生成部106から得られる)より構成され
る。
In step 104, it is determined whether or not all the partial analyzes have been checked. If so, step 11
At 4, the search proceeds to the next character position. Otherwise, the following processing is performed for each partial analysis. Step 1
At 05, a set of all word candidates starting from the current character position is created, and one word is selected as the current word from the set. A set of all the word candidates is a word in the dictionary (obtained from the word matching unit 109) to be matched with the character string included in the character matrix, and a word (similarity) in the dictionary to be similarly matched with the character string included in the character string matrix. Word collating unit 10
7) and an unknown word candidate (obtained from the unknown word candidate generating unit 106) generated from a character string included in the character matrix that is not matched with the dictionary.

【0089】ステップ106では、全ての単語を調べた
か否かを判定する。もしそうならば、ステップ113に
おいて次の部分解析を選ぶ。そうでなければ、以下の処
理を各単語について行う。ステップ107では、現在の
単語(を最後の単語とする部分解析)が部分解析テーブ
ル103に登録されているか否かを調べる。もしそうな
らば、ステップ109に進む。そうでなければ、ステッ
プ108において、この単語を部分解析テーブル103
に登録し、部分解析の確率を0に初期化した後に、ステ
ップ109へ進む。
In step 106, it is determined whether all the words have been checked. If so, in step 113 the next partial analysis is selected. Otherwise, the following process is performed for each word. In step 107, it is determined whether or not the current word (partial analysis with the last word) is registered in the partial analysis table 103. If so, go to step 109. Otherwise, in step 108, this word is stored in the partial analysis table 103.
After the probability of the partial analysis is initialized to 0, the process proceeds to step 109.

【0090】ステップ109では、現在の部分解析と現
在の単語の組合せによる新しい部分解析の確率を求め
る。新しい部分解析の確率は、
In step 109, the probability of a new partial analysis based on the combination of the current partial analysis and the current word is obtained. The probability of the new partial analysis is

【0091】[0091]

【外4】 [Outside 4]

【0092】である。ステップ110では、新しい部分
解析の確率が、最後の単語が同じである以前の部分解析
の確率よりも大きいか否かを調べる。もしそうであれ
ば、ステップ111において、新しい部分解析の確率を
部分解析テーブル103に格納し、ステップ112へ進
む。もしそうでなければ、そのままステップ112へ進
む。
Is as follows. Step 110 checks whether the probability of the new partial analysis is greater than the probability of the previous partial analysis where the last word is the same. If so, in step 111, the new partial analysis probability is stored in the partial analysis table 103, and the process proceeds to step 112. If not, the process proceeds directly to step 112.

【0093】ステップ112では、次の単語を選びステ
ップ106へ戻る。ステップ113では、次の部分解析
を選び、ステップ104へ戻る。ステップ114では、
探索を次の文字位置へ進め、ステップ102へ戻る。 ・後向き探索 後向き探索部104が、式(10)の確率が大きい順に
一つずつ単語分割候補を求める手順を説明する。
At step 112, the next word is selected and the routine returns to step 106. In step 113, the next partial analysis is selected, and the process returns to step 104. In step 114,
The search proceeds to the next character position, and the process returns to step 102. -Backward search A procedure in which the backward search unit 104 obtains word segmentation candidates one by one in the descending order of the probability of Expression (10) will be described.

【0094】ある単語分割候補W=w1 ...wn にお
いて、文末からi番目の単語までの単語列の同時確率P
(w1 ...wn )と、単語列を構成する各文字の文字
混同確率P(xj |cj )との積をψ(wi )と定義す
ると、前向き部分解析の場合と同様に、式(9)より、
以下の関係が成立する。
Some word division candidates W = w 1 . . . w n , the joint probability P of the word string from the end of the sentence to the i-th word
If the product of (w 1 ... W n ) and the character confusion probability P (x j | c j ) of each character constituting the word string is defined as ψ (w i ), it is the same as in the case of the forward partial analysis. From equation (9),
The following relationship is established.

【0095】[0095]

【数12】 (Equation 12)

【0096】ここで、s及びtは単語wi+1 の開始位置
及び終了位置を表す。すなわち、wi+ 1 =cs+1 ...
t であり、xs+1 ...xt はwi+1 に対応する文字
認識結果である。φ(wi )を前向き部分解析の確率、
ψ(wi )を後向き部分解析の確率と呼ぶことにする。
単語分割候補の確率は、任意のwi について、前向き部
分解析の確率φ(wi )と後向き部分解析の確率ψ(w
i )との積で表せる。
Here, s and t represent the start position and the end position of the word wi + 1 . That is, w i + 1 = cs + 1 . . .
a c t, x s + 1. . . xt is the character recognition result corresponding to wi + 1 . φ (w i) the probability of a positive partial analysis,
ψ the (w i) will be referred to as the probability of the backward partial analysis.
Probability of word segmentation candidate, for any w i, the probability of the probability φ (w i) and the backward partial analysis of the prospective partial analysis ψ (w
i ).

【0097】 P(X|W)P(W)=φ(wi )ψ(wi ) (13) 本発明の後向き探索では、単語分割候補を確率が大きい
順に一つずつ求めるためにA* アルゴリズムを用いる。
* アルゴリズムは、状態空間グラフの最小コスト経路
を求めるアルゴリズムである(A* アルゴリズムの詳細
については、人工知能に関する教科書、例えば、Avron
Barr、 Edward A. Feigenbaum 編、田中幸吉・淵一博監
訳、「人工知能ハンドブック第I巻」第II章探索、共立
出版、1983を参照のこと)。
[0097] P (X | W) P ( W) = φ (w i) ψ (w i) (13) in the backward search of the present invention, in order to obtain one by one word segmentation candidates in descending order of probability A * Use an algorithm.
The A * algorithm is an algorithm for obtaining a minimum cost path of a state space graph (for details of the A * algorithm, see a textbook on artificial intelligence, for example, Avron
See Barr, Edward A. Feigenbaum, edited by Kokichi Tanaka and Kazuhiro Fuchi, "Artificial Intelligence Handbook, Volume I, Chapter II Search, Kyoritsu Shuppan, 1983).

【0098】ここで、A* アルゴリズムについて簡単に
説明する。グラフの任意のノードをnとしたとき、初期
状態からnまでの最適な経路のコストをg(n)とし、
nから最終状態までの最適な経路のコストをh(n)と
する。nを通る最適な経路のコストf(n)は次式で与
えられる。 f(n)=g(n)+h(n) (14) 初期状態から最終状態への最適な経路を求める問題を考
える。もしf(n)が正確にわかっていれば、初期状態
からf(n)が最小となるノードを辿ることにより解が
得られる。実際にはg(n)もh(n)も正確にはわか
らないので探索が必要である。
Here, the A * algorithm will be briefly described. When an arbitrary node in the graph is n, the cost of the optimal path from the initial state to n is g (n),
Let h (n) be the cost of the optimal path from n to the final state. The cost f (n) of the optimal path through n is given by: f (n) = g (n) + h (n) (14) Consider the problem of finding the optimal path from the initial state to the final state. If f (n) is accurately known, a solution can be obtained by tracing the node where f (n) is minimum from the initial state. In practice, neither g (n) nor h (n) is exactly known, so a search is needed.

【0099】g(n)は、それまでわかっているnまで
の道の中でコストが最小のものとする。h(n)の推定
値を
Let g (n) be the one with the least cost on the road to n known so far. The estimate of h (n) is

【0100】[0100]

【外5】 [Outside 5]

【0101】とするとき、もし推定コストThen, if the estimated cost

【0102】[0102]

【外6】 [Outside 6]

【0103】が真のコストh(n)より小さければ、即
ち、
Is less than the true cost h (n), ie

【0104】[0104]

【外7】 [Outside 7]

【0105】ならば、Then,

【0106】[0106]

【外8】 [Outside 8]

【0107】が最小となるノードを辿ることにより最適
解が得られることを証明できる。この性質を利用したよ
うなグラフ探索戦略をA* アルゴリズムという。また、
ある探索アルゴリズムが必ず最適解を発見できるとき、
その探索アルゴリズムは認容可能(admissible)であると
いう。もし推定コスト
It can be proved that the optimal solution can be obtained by tracing the node where is minimized. A graph search strategy utilizing this property is called an A * algorithm. Also,
When a search algorithm can always find the optimal solution,
The search algorithm is said to be admissible. If estimated cost

【0108】[0108]

【外9】 [Outside 9]

【0109】と真のコストh(n)が一致するならば、
* アルゴリズムは(最適経路以外のノードを通ること
なく)直ちに最適経路を求めることができる。一般に推
定コストが真のコストに近いほど、探索量は少なくて済
む。もし推定コストを常に0とすれば、推定コストが真
のコストより小さいという認容可能条件を満たすが、実
際的にはg(n)を用いて幅優先探索をするのと同じで
あり、非常に効率が悪い。
If the true cost h (n) matches,
The A * algorithm can immediately find the optimal route (without passing through nodes other than the optimal route). In general, the closer the estimated cost is to the true cost, the smaller the amount of search will be. If the estimated cost is always 0, the acceptable condition that the estimated cost is smaller than the true cost is satisfied, but it is practically the same as performing a breadth-first search using g (n), which is very efficient. Is bad.

【0110】本発明の一実施例では、後向き部分解析を
グラフのノードと考え、関数g(n)として、後向き部
分解析の確率の対数の絶対値、関数h(n)として前向
き部分解析の確率の対数の絶対値を用いる。これによ
り、 単語分割候補の確率が最大の解は、コスト関数f
(n)が最小の解に対応する。前向き探索によりh
(n)の真の値が分かっているので、後向き探索は認容
可能であり、必ず直ちに最適解を求めることができる。
最適解が得られたら、そのノードを取り除き、更に探索
を続けることにより次の最適解が得られる。このように
して、後向き探索では、確率が高い順に任意の数の単語
分割候補を求めることができる。
In one embodiment of the present invention, the backward partial analysis is considered as a node of the graph, and the absolute value of the logarithm of the probability of the backward partial analysis is defined as a function g (n), and the probability of the forward partial analysis is defined as a function h (n). Use the absolute value of the logarithm of As a result, the solution with the highest probability of the word segmentation candidate is the cost function f
(N) corresponds to the minimum solution. H by forward search
Since the true value of (n) is known, the backward search is acceptable and the optimum solution can always be found immediately.
When the optimal solution is obtained, the node is removed and the search is continued to obtain the next optimal solution. In this way, in the backward search, an arbitrary number of word division candidates can be obtained in descending order of probability.

【0111】図19は本発明の一実施例による後向き探
索部104の動作フローチャートである。一般に、A*
アルゴリズムでは、openとclosedという二つ
のリストを用いる。リストopenは、既に生成され、
残りの経路のコスト関数h(n)を計算したが、まだ展
開されていない(調べられていない)ノードの集合であ
る。このリストは、関数h(n)の値に基づく優先度付きキ
ューになっている。リストclosedは、既に展開さ
れた(調べられた)ノードの集合である。
FIG. 19 is an operation flowchart of the backward search unit 104 according to one embodiment of the present invention. In general, A *
The algorithm uses two lists, open and closed. The list open has already been created,
This is a set of nodes for which the cost function h (n) of the remaining routes has been calculated, but has not been expanded (not checked). This list is a priority queue based on the value of the function h (n). The list closed is a set of already expanded (examined) nodes.

【0112】A* アルゴリズムでは、最終状態に対応す
るノードを生成するまで、各ステップで一つのノードを
展開する。各ステップでは、既に生成されているが、未
だ展開されていない、最もコストが小さいノードを展開
する。即ち、選ばれたノードの後続のノードを生成し、
残りの経路のコスト関数h(n)を計算し、既に生成さ
れていないかを検査した後にリストopenに加える。
この検査によって、各ノードはグラフの中に一回だけ現
れることが保証される。また、二つ以上の経路が同じノ
ードを生成するときは、コストが小さい方のノードだけ
を記録する。
In the A * algorithm, one node is expanded in each step until a node corresponding to the final state is generated. In each step, the node having the lowest cost, which has been generated but has not been expanded yet, is expanded. That is, create a subsequent node of the selected node,
Calculate the cost function h (n) of the remaining routes, check whether they have already been generated, and add them to the list open.
This check ensures that each node appears only once in the graph. When two or more routes generate the same node, only the node with the smaller cost is recorded.

【0113】以下では、図19に従って後向き探索部1
04の動作について説明する。ステップ201では、文
末を表す後向き部分解析をリストopenに代入する。
また、リストclosedには空リストを代入する。ス
テップ202では、リストopenが空リストか否かを
調べる。もし、そうならば、解が見つからなかったので
探索が失敗したことを通知して探索を終了する。そうで
なければ、以下の処理を行う。
In the following, according to FIG.
The operation of No. 04 will be described. In step 201, a backward partial analysis representing the end of a sentence is substituted into the list open.
Also, an empty list is substituted for the list closed. In step 202, it is checked whether or not the list open is an empty list. If so, the search is terminated after notifying that the search failed because no solution was found. Otherwise, the following processing is performed.

【0114】ステップ203では、リストopenの先
頭要素を取り出し、現在の後向き部分解析とする。そし
て、ステップ204において、探索が文頭に達したか否
かを調べる。もし、探索が文頭に達していれば、現在の
後向き部分解析が最適解であり、探索が成功したことを
通知して後向き探索を終了する。そうでなければ、以下
の処理を行う。また、探索は成功したが、さらに、その
次にコストが小さい(確率が大きい)解を求めたい場合
にも以下の処理を行う。
In step 203, the first element of the list open is extracted and the current backward partial analysis is performed. Then, in step 204, it is checked whether or not the search has reached the beginning of the sentence. If the search has reached the beginning of the sentence, the current backward partial analysis is the optimal solution, and the fact that the search was successful is notified and the backward search is terminated. Otherwise, the following processing is performed. In addition, the following processing is performed when the search is successful but the next lowest cost (highest probability) solution is to be obtained.

【0115】ステップ205では、現在の後向き部分解
析をリストclosedへ挿入し、リストclosed
の要素を初期状態から最終状態までの全経路のコストf
(n)の順にソートする。ステップ206では、現在の
後向き部分解析の左側に接続可能な全ての単語を検索
し、その中の一つを現在の単語とする。
In step 205, the current backward partial analysis is inserted into the list closed, and the list closed
Is the cost f of the entire path from the initial state to the final state
Sort in the order of (n). In step 206, all the words that can be connected to the left side of the current backward partial analysis are searched, and one of them is set as the current word.

【0116】ステップ207では、全ての単語を調べた
か否かを判定する。もしそうであれば、ステップ202
へ進む。そうでなければ、以下の処理を行う。ステップ
208では、現在の後向き部分解析から現在の単語へ遷
移する経路を表す新しい後向き部分解析を作成し、これ
を変数newpathに代入する。ステップ209で
は、現在の単語へ遷移する後向き部分解析が既にリスト
openの中に含まれているか否かを検査する。もし含
まれていなければ、ステップ213へ進む。含まれてい
るならば、以下の処理を行う。
In step 207, it is determined whether all the words have been checked. If so, step 202
Proceed to. Otherwise, the following processing is performed. In step 208, a new backward partial analysis representing a path from the current backward partial analysis to the current word is created, and this is substituted into a variable newpath. In step 209, it is checked whether a backward partial analysis for transitioning to the current word is already included in the list open. If not included, the process proceeds to step 213. If it is included, the following processing is performed.

【0117】ステップ210では、現在の単語へ遷移す
るリストopenの要素を変数oldpathに代入す
る。ステップ211では、変数newpathの全経路
コストと変数oldpathの全経路コストを比較す
る。もし、変数newpathの全経路コストの方が大
きければ、そのままステップ218へ進む。もし、変数
newpathのコストの方が小さければ、ステップ2
12おいて、リストopenから変数oldpathに
対応する要素を削除し、変数newpathに対応する
要素をリストopenに挿入した後、コストの順にソー
トする。そしてステップ218へ進む。
In step 210, the element of the list open that transits to the current word is substituted for the variable oldpath. In step 211, the total path cost of the variable newpath is compared with the total path cost of the variable oldpath. If the total path cost of the variable newpath is larger, the process directly proceeds to step 218. If the cost of the variable newpath is smaller, step 2
In step 12, the element corresponding to the variable oldpath is deleted from the list open, the element corresponding to the variable newpath is inserted into the list open, and then sorted in order of cost. Then, the process proceeds to step 218.

【0118】ステップ213では、現在の単語への遷移
を表す後向き部分解析がリストclosedに含まれて
いるか否かを検査する。もし含まれていなければ、ステ
ップ217へ進む。含まれていれば、以下の処理を行
う。ステップ214では、現在の単語へ遷移するリスト
closedの中の要素を変数oldpathに代入す
る。
In step 213, it is checked whether or not the backward partial analysis representing the transition to the current word is included in the list closed. If not included, the process proceeds to step 217. If it is included, the following processing is performed. In step 214, the element in the closed list that transitions to the current word is assigned to the variable oldpath.

【0119】ステップ215では、変数newpath
の全経路コストと、変数oldpathの全経路コスト
とを比較する。もし、変数newpathの全経路コス
トの方が大きければ、リストclosedから変数ol
dpathに対応する要素を削除し、変数newpat
hに対応する要素をリストclosedへ挿入した後、
コストの順にソートする。そしてステップ218へ進
む。
In step 215, the variable newpath
Is compared with the total path cost of the variable oldpath. If the total path cost of the variable newpath is larger, the variable ol
Delete the element corresponding to dpath and set the variable newpat
After inserting the element corresponding to h into the list closed,
Sort by cost. Then, the process proceeds to step 218.

【0120】ステップ217では、変数newpath
に対応した要素をリストopenへ挿入した後、コスト
の順にソートする。そしてステップ218へ進む。ステ
ップ218では、次の単語を選ぶ。 ・単語モデル 続いて、単語モデル及び未知語候補生成部106につい
て説明する。
In step 217, the variable newpath
Are inserted into the list open, and then sorted in order of cost. Then, the process proceeds to step 218. In step 218, the next word is selected. Next, the word model and the unknown word candidate generation unit 106 will be described.

【0121】単語モデルは、辞書に登録されていない単
語の出現確率を求めるための計算モデルである。これ
は、未知語wi を構成する文字列c1 ...ck の同時
確率分布として定義される。これは、一般性を失うこと
なく、単語長確率と単語表記確率の積で表せる。
The word model is a calculation model for obtaining the appearance probability of a word not registered in the dictionary. This is, string c 1 that make up the unknown word w i. . . It is defined as the joint probability distribution of ck . This can be represented by the product of the word length probability and the word notation probability without loss of generality.

【0122】[0122]

【数13】 (Equation 13)

【0123】ここで、kは未知語を構成する文字列の長
さであり、<UNK>は未知語を表す特殊記号である。
単語長確率P(k)は、平均単語長をλパラメータとす
るポワソン分布で近似される。これは、文字と文字との
間に長さ0の単語境界記号が平均間隔λで無作為に出現
するような確率過程で単語分割を近似したことを意味す
る。
[0123] Here, k is the length of the string that make up the unknown words, <UNK> is a special symbol that represents the unknown word.
The word length probability P (k) is approximated by a Poisson distribution using the average word length as a λ parameter. This means that word segmentation is approximated by a stochastic process in which a word boundary symbol having a length of 0 appears randomly between characters at an average interval λ.

【0124】[0124]

【数14】 [Equation 14]

【0125】単語表記確率P(c1 ...ck )は、以
下のように文字二つ組確率の積で近似される。
The word notation probabilities P (c 1 ... C k ) are approximated by the product of the character pair probabilities as follows.

【0126】[0126]

【数15】 (Equation 15)

【0127】ここで“# ”は単語の先頭及び末尾を表す
特別な記号である。尚、平均単語長及び文字二つ組確率
は、大量のテキストデータから事前に学習され、夫々、
平均単語長テーブル105及び文字二つ組確率テーブル
111に格納されている。 ・未知語候補の生成 未知語候補の生成は、入力文が辞書に登録されていない
単語を含む場合に対処するため行われる。未知語候補生
成部106は、前向き探索において、入力文の各文字位
置で、その文字位置から始まる文字マトリクスに含まれ
る部分文字列の中で辞書と照合しないものを、未知語候
補として、式(15)の単語モデルに基づく出現確率が
高い順番に予め決められた個数だけ生成する。計算量を
削減したい場合には、文字認識の第1候補から構成され
る文字列の部分文字列だけから未知語候補を生成すれば
よい。
Here, "#" is a special symbol representing the beginning and end of a word. Incidentally, the average word length and the character pair probability are learned in advance from a large amount of text data, and
It is stored in the average word length table 105 and the character double set probability table 111. -Generation of unknown word candidates The generation of unknown word candidates is performed to cope with the case where the input sentence includes a word that is not registered in the dictionary. In the forward search, the unknown word candidate generation unit 106 determines, at each character position of the input sentence, a partial character string included in a character matrix starting from the character position and not matching the dictionary, as an unknown word candidate, using an expression ( 15) A predetermined number is generated in the descending order of the appearance probability based on the word model. When it is desired to reduce the calculation amount, the unknown word candidate may be generated only from the partial character string of the character string composed of the first candidates for character recognition.

【0128】この方法は、本来、辞書に登録されている
単語が文字認識誤りによって、みかけ上、辞書に登録さ
れていない単語になった場合に、単語区切りを推定する
方法としても有効である。図20は、本発明の一実施例
による未知語候補生成部106における未知語候補生成
の動作を説明するフローチャートである。ここでは、説
明を簡単にするため、文字認識の第1候補から構成され
る文字列だけを用いて未知語候補を生成することにす
る。
This method is also effective as a method of estimating a word break when a word registered in the dictionary is apparently a word not registered in the dictionary due to a character recognition error. FIG. 20 is a flowchart illustrating the operation of unknown word candidate generation in the unknown word candidate generation unit 106 according to an embodiment of the present invention. Here, for the sake of simplicity, an unknown word candidate is generated using only a character string composed of the first candidates for character recognition.

【0129】未知語候補生成部106は、入力文に対す
る文字マトリクスの第1候補から構成される文字列、及
び、未知語候補を生成すべき文字位置がパラメータとし
て与えられる。ステップ301では、現在の文字位置を
未知語候補の開始点を表す変数iに代入し、未知語候補
の終了点を表す変数jにi+1を代入する。また未知語
候補リストに初期値として空リストを代入する。
The unknown word candidate generation unit 106 is given as parameters a character string composed of the first candidate of the character matrix for the input sentence and a character position at which the unknown word candidate is to be generated. In step 301, the current character position is assigned to a variable i representing the start point of the unknown word candidate, and i + 1 is assigned to a variable j representing the end point of the unknown word candidate. An empty list is substituted into the unknown word candidate list as an initial value.

【0130】ステップ302では、jが入力文の長さよ
り小さいか否かを調べる。もしそうでなければ、ステッ
プ309へ進む。そうであれば、以下の処理を行う。ス
テップ303では、未知語候補の長さj−1が予め定め
られた未知語の最大長より大きいか否かを調べる。もし
そうならば、ステップ309へ進む。そうでなければ、
以下の処理を行う。
At step 302, it is checked whether j is smaller than the length of the input sentence. If not, go to step 309. If so, the following processing is performed. In step 303, it is checked whether or not the length j-1 of the unknown word candidate is longer than a predetermined maximum length of the unknown word. If so, go to step 309. Otherwise,
The following processing is performed.

【0131】ステップ304では、入力文のj文字目が
区切り記号か否かを調べる。区切り記号とは、句
点(。)や読点(、)などの単語の一部とはなり得ない
記号のことである。もしそうならば、ステップ309へ
進む。そうでなければ、以下の処理を行う。ステップ3
05では、入力文字列の文字位置iから文字位置jまで
の部分文字列を未知語候補の表記とする。
In step 304, it is checked whether or not the j-th character of the input sentence is a delimiter. Delimiters are symbols that cannot be part of a word, such as punctuation marks (.) And punctuation marks (,). If so, go to step 309. Otherwise, the following processing is performed. Step 3
In 05, a partial character string from the character position i to the character position j of the input character string is used as an unknown word candidate notation.

【0132】ステップ306では、現在の未知語候補の
表記が辞書と照合するか否かを調べる。もしそうであれ
ば、ステップ308へ進む。そうでなければ、以下の処
理を行う。ステップ307では、先ず単語モデルに基づ
いて、現在の未知語候補の出現確率を求める。次に、こ
の未知語候補を未知語候補リストに加え、ステップ30
8へ進む。
At step 306, it is checked whether or not the notation of the current unknown word candidate matches the dictionary. If so, go to step 308. Otherwise, the following processing is performed. In step 307, first, the appearance probability of the current unknown word candidate is obtained based on the word model. Next, this unknown word candidate is added to the unknown word candidate list, and step 30
Proceed to 8.

【0133】ステップ308では、未知語候補の終わり
の文字位置を表わす変数jを一つ増やし、ステップ30
2へ戻る。ステップ309では、得られた未知語候補リ
ストを確率が大きい順にソートし、予め決められた個数
の未知語候補を選ぶ。 ・単語の類似度(ngram距離と編集距離) 続いて、単語の類似度の計算法と類似単語照合部107
について説明する。ここでは説明を簡単にするため、一
つの単語だけからなる文字列に対して類似単語照合を行
う場合を説明する。実際には、入力文の任意の部分文字
列に対して、類似単語照合を行う必要がある。
At step 308, a variable j representing the character position at the end of the unknown word candidate is incremented by one, and at step 30
Return to 2. In step 309, the obtained unknown word candidate list is sorted in descending order of probability, and a predetermined number of unknown word candidates are selected. Word similarity (ngram distance and edit distance) Subsequently, a method for calculating the word similarity and the similar word matching unit 107
Will be described. Here, in order to simplify the description, a case will be described where similar word matching is performed on a character string consisting of only one word. Actually, it is necessary to perform similar word matching on an arbitrary partial character string of the input sentence.

【0134】文字認識装置1が出力した文字列をX、こ
の文字列に対する訂正単語候補をWとする。式(10)
より、もし以下の関係が成立すれば、XをWで訂正すべ
きである。 P(X)P(X|X)<P(W)P(X|W) (18) 式(18)の左辺は、未知語Xが生起し、かつ、Xが正
しく認識される確率を表す。式(18)の右辺は、単語
Wが生起し、WがXに誤認識される確率を表す。P
(X)は未知語モデルから求められ、P(W)は単語分
割モデルから求められる。P(X|X)及びP(X|
W)は、X及びWを構成する文字の文字混同確率の積か
ら求められる。
The character string output by the character recognition apparatus 1 is X, and the corrected word candidate for this character string is W. Equation (10)
If the following relationship is satisfied, X should be corrected by W. P (X) P (X | X) <P (W) P (X | W) (18) The left side of Expression (18) represents the probability that an unknown word X occurs and X is correctly recognized. . The right side of the expression (18) represents a probability that the word W occurs and W is erroneously recognized as X. P
(X) is obtained from the unknown word model, and P (W) is obtained from the word segmentation model. P (X | X) and P (X |
W) is obtained from the product of the character confusion probabilities of the characters constituting X and W.

【0135】単語出現確率P(W)と単語混同確率P
(X|W)との積が大きい単語Wほど、文字列Xの訂正
候補としては尤もらしい。そこで、本発明の一実施例に
よる類似単語照合部107では、文字列Xに対して、辞
書中の全ての単語の中からP(W)P(X|W)の値が
大きい順に予め決められた個数の訂正候補を提案する。
しかし、単語辞書の大きさが数万語以上の場合、入力文
中の任意の部分文字列X、及び、単語辞書中のすべての
単語Wの組合せについて、P(W)P(X|W)の値を
求め、確率の積の値が大きい単語を選ぶというような単
純な実現方法では、膨大な計算が必要になってしまう。
Word appearance probability P (W) and word confusion probability P
A word W having a larger product of (X | W) is more likely as a correction candidate of the character string X. Therefore, in the similar word matching unit 107 according to the embodiment of the present invention, the character string X is determined in advance in the descending order of the value of P (W) P (X | W) from all the words in the dictionary. Suggested number of correction candidates.
However, when the size of the word dictionary is tens of thousands of words or more, for any combination of the partial character string X in the input sentence and all the words W in the word dictionary, P (W) P (X | W) A simple realization method such as finding a value and selecting a word having a large product of probabilities requires an enormous amount of calculations.

【0136】そこで、本発明の一実施例では、先ずng
ram距離に基づいて訂正単語候補を生成し、次に、編
集距離に基づいて訂正単語候補を絞り込み、最後に単語
出現確率と文字混同確率との積に基づいて訂正単語候補
を決定するという3つのステップから構成される手続を
用いることにより、効率的な類似単語照合を実現する。
以下に、その詳細を説明する。
Thus, in one embodiment of the present invention, first, ng
Randomized word candidates are generated based on the ram distance, then the corrected word candidates are narrowed down based on the edit distance, and finally the corrected word candidates are determined based on the product of the word appearance probability and the character confusion probability. By using a procedure consisting of steps, efficient similar word matching is realized.
The details will be described below.

【0137】ngram距離は、二つの文字列が共通に
含む文字ngramの数を文字列間の距離尺度(類似
度)とする。文字認識の場合、挿入誤り及び削除誤りの
数は少ないので、説明を簡単にするため、ここでは文字
認識の入力と出力の文字列長は同じとする。同じ長さの
文字列が夫々m個の文字ngramを含み、そのうちc
個が一致するならば、二つの文字列のngram距離は
(m−c)/mである。
The ngram distance is the number of characters ngram that two character strings commonly include as a distance measure (similarity) between the character strings. In the case of character recognition, since the number of insertion errors and deletion errors is small, for simplicity of description, the character string lengths of the input and output of character recognition are the same here. Strings of the same length each contain m characters ngram, of which c
If the numbers match, the ngram distance between the two character strings is (mc) / m.

【0138】例として、「インターネット」と「インク
ジェット」のbigram距離を考える。夫々の文字列
から文字bigramを作成すると以下のようになる。 インターネット=># イ、イン、ンタ、ター、ーネ、ネ
ッ、ット、ト# インクジェット=># イ、イン、ンク、クジ、ジェ、ェ
ッ、ット、ト# ここで# は、単語の先頭又は末尾を表す特殊記号であ
る。8個の文字bigramのうち4個が一致するの
で、「インターネット」と「インクジェット」のbig
ram距離は4/8である。この値が小さいほど、二つ
の文字列は類似していると言える。
As an example, consider the bigram distance between “Internet” and “inkjet”. When a character bigram is created from each character string, it is as follows. Internet =># i, in, nta, tar, ne, net, net, g # Inkjet =># i, in, nku, lottery, j, g, et, g # where # is a word Is a special symbol representing the beginning or end of Since four of the eight character bigrams match, the big of "Internet" and "inkjet"
The ram distance is 4/8. It can be said that the smaller the value is, the more similar the two character strings are.

【0139】ところが、文字ngram距離は、文字位
置を入れ替えた単語(anagram)の間の距離が小
さく(類似度が大きく)なるという欠点がある。例え
ば、もし「ネットインター」という単語があれば、「イ
ンターネット」と「ネットインター」は共通の文字bi
gramが5個あるので、bigram距離は3/8に
なる。
However, the character ngram distance has a disadvantage that the distance between words (anagrams) whose character positions are interchanged is small (similarity is large). For example, if there is a word “net inter”, “internet” and “net inter” are common characters bi.
Since there are five gram, the bigram distance becomes 3/8.

【0140】インターネット=># イ、イン、ンタ、タ
ー、ーネ、ネッ、ット、ト# ネットインター=># ネ、ネッ、ット、トイ、イン、ン
タ、ター、ー# このように、「インターネット」に対し、「ネットイン
ター」の方が「インクジェット」より類似度が大きくな
るので、ngram距離は文字認識の誤り訂正の距離尺
度としては不適切である。
Internet =># i, in, nta, tar, ne, net, n, net # net internet =># net, net, n, toy, in, nanta, tar, n # Since the degree of similarity of “net inter” to “internet” is greater than that of “inkjet”, the ngram distance is not suitable as a distance measure for error correction of character recognition.

【0141】しかし、ngram距離には、ある文字n
gramを含む単語のリストを単語辞書から予め作成し
ておけば、ngram距離が小さい単語を非常に高速に
検索できるという利点がある。そこで、本発明の一実施
例では、訂正対象となる文字列に対して、先ずngra
m距離がある閾値以下の単語を検索した後に、検索され
た単語集合と訂正対象文字列との編集距離を計算し、編
集距離がある閾値以下の単語を訂正単語候補とする。
However, a certain character n is located at the ngram distance.
If a list of words including a gram is created in advance from a word dictionary, there is an advantage that a word having a small gram distance can be searched very quickly. Therefore, in one embodiment of the present invention, first, ngra is applied to a character string to be corrected.
After searching for a word whose m distance is equal to or less than a threshold, the editing distance between the searched word set and the correction target character string is calculated, and words whose editing distance is equal to or less than the threshold are corrected word candidates.

【0142】編集距離は、二つの文字列に対して、一方
の文字列を他方の文字列に変換するのに必要な挿入・削
除・置換の数の最小値を距離尺度とする。文字認識の場
合に、挿入誤り及び削除誤りの数は少ないので、説明を
簡単にするため、ここでは置換誤りだけを考慮する。置
換誤りのみの場合、同じ長さnを持つ二つの文字列がc
文字だけ一致するとき、二つの文字列の編集距離は(n
−c)/nである。
The edit distance uses the minimum value of the number of insertions / deletions / replacements required to convert one character string into the other character string for two character strings as a distance measure. In the case of character recognition, since the number of insertion errors and deletion errors is small, only replacement errors are considered here for the sake of simplicity. In the case of only a substitution error, two character strings having the same length n are c
When only characters match, the edit distance between the two strings is (n
-C) / n.

【0143】例えば、「インターネット」と「インクジ
ェット」は、4文字が一致するので、編集距離は4/7
である。一方、「インターネット」と「ネットインタ
ー」は一致する文字がないので、編集距離は7/7であ
る。一般に編集距離が小さいほど、二つの文字列は類似
している。一般に、長い単語、具体的には、長さ3以上
の単語については、編集距離により、正確に訂正単語候
補を提案することができる。例えば、文字認識の出力が
「インクー示ット」の場合、編集距離が小さい順に並べ
ると、以下のような単語が訂正候補として提案される。
ここで、右側の数値は編集距離である。
For example, since “Internet” and “inkjet” have the same four characters, the editing distance is 4/7.
It is. On the other hand, since there is no matching character between "Internet" and "NetInter", the editing distance is 7/7. Generally, the smaller the editing distance is, the more similar the two character strings are. In general, for a long word, specifically, a word having a length of 3 or more, a corrected word candidate can be accurately proposed based on the edit distance. For example, if the output of character recognition is “ink-out”, if the edit distances are arranged in ascending order, the following words are proposed as correction candidates.
Here, the numerical value on the right side is the edit distance.

【0144】インクジェット 2/7 インターネット 2/7 インターソフト 3/7 インツーリスト 3/7 しかし、短い単語、具体的には、長さ2の単語について
は、編集距離により類似単語照合を行うと、非常に多く
の訂正単語候補が得られる。日本語は殆どの単語が2文
字であり、文字の種類が3000以上あるので、この問
題は避けて通れない。
Inkjet 2/7 Internet 2/7 Intersoft 3/7 Intourist 3/7 However, for a short word, specifically, a word having a length of 2, if similar word matching is performed based on the edit distance, it is very difficult. , Many corrected word candidates are obtained. In Japanese, most of the words are two letters and there are more than 3000 kinds of letters, so this problem cannot be avoided.

【0145】例えば、もし「環境」が「技境」と誤読さ
れた場合、「技境」という文字列をキーにして編集距離
が小さい単語を検索すると、少なくとも以下のような2
0個の単語が得られる。 技術 技法 技師 技能 技巧 技芸 技量 環境 国境 苦境 心境 越境 下境 老境 秘境 辺境 県境 見境 進境 逆境 これらはすべて編集距離1/2であり、編集距離だけで
は、これ以上絞り込むことができない。もし入力文中の
任意の長さ2の文字列について、このように10から数
十個の訂正単語候補を提案すると、単語候補のすべての
組合せを調べる処理である形態素解析の計算量が非常に
大きくなるという問題が発生する。
For example, if "environment" is erroneously read as "technical environment", if a word having a short editing distance is searched using the character string "technical environment" as a key, at least the following 2
0 words are obtained. Technology Skills Technicians Skills Skills Skills Skills Environment Borders Predicament Mentality Crossing Borders Lower Borders Older Borders Frontiers Prefectural Borders Lookouts Frontiers Adversity These are all 1/2 edit distances and cannot be further narrowed down by the edit distance alone. If 10 to several tens of corrected word candidates are proposed for a character string having an arbitrary length 2 in the input sentence, the amount of calculation of morphological analysis, which is a process of examining all combinations of word candidates, is extremely large. Problem occurs.

【0146】そこで、本発明の一実施例では、編集距離
により検索された訂正単語候補について、単語の出現確
率と文字混同確率との積P(W)P(X|W)を計算
し、その値が大きい順に予め決められた個数を訂正単語
候補として提案する。前述の例の「技境」に対する編集
距離1/2の単語集合をP(W)P(X|W)の値が大
きい順にソートすると、以下のように図形的に似た文字
を含む単語が上位に並ぶようになる。
Therefore, in one embodiment of the present invention, the product P (W) P (X | W) of the word appearance probability and the character confusion probability is calculated for the corrected word candidate searched by the edit distance, and A predetermined number is proposed as a correction word candidate in descending order of the value. When the word set having an edit distance of に 対 す る with respect to “technique” in the above example is sorted in the order of the value of P (W) P (X | W), words including characters that are graphically similar as shown below are obtained. Become a high rank.

【0147】環境 技術 技法 国境 苦境 ... 実験によれば、上位5個程度までに、殆どの場合、正解
単語が入っているので、訂正単語候補の提案数を大幅に
削減することができる。このようにして、ngram距
離、編集距離、及び、単語の出現確率と文字混同確率と
の積という3つの類似度の尺度を順番に適用しながら訂
正単語候補を絞り込むことにより、本発明の一実施例
は、訂正単語候補の生成処理を効率的に実現すると同時
に、訂正単語候補の提案数を少なくすることにより、形
態素解析の計算量の削減を実現している。
Environmental Technology Techniques Borders Predicaments. . . According to the experiment, since the correct word is included in most cases up to the top five, the number of proposed corrected word candidates can be significantly reduced. Thus, by narrowing down the corrected word candidates while sequentially applying the three similarity measures of the ngram distance, the editing distance, and the product of the word occurrence probability and the character confusion probability, one embodiment of the present invention is achieved. In the example, the correction word candidate generation process is efficiently realized, and at the same time, the number of correction word candidate proposals is reduced, thereby reducing the calculation amount of morphological analysis.

【0148】・類似単語照合 図21は本発明の一実施例による類似単語照合部107
の動作を説明するフローチャートである。以下では、図
21を参照して類似単語照合の動作を説明する。類似単
語照合部107には、入力文に対する文字マトリクスの
第1候補からなる文字列及び類似語を検索すべき文字位
置が与えられる。
FIG. 21 shows a similar word matching unit 107 according to an embodiment of the present invention.
5 is a flowchart for explaining the operation of FIG. Hereinafter, the operation of similar word matching will be described with reference to FIG. The similar word matching unit 107 is provided with a character string of the first candidate of the character matrix for the input sentence and a character position where a similar word is to be searched.

【0149】ステップ401では、現在の文字位置を類
似単語照合の対象となる文字列の開始点を表す変数iに
代入し、類似単語照合の対象となる文字列の終了点を表
す変数jにi+1を代入する。また、訂正単語候補リス
トに初期値として空リストを代入する。ステップ402
では、jが入力文の長さよりも小さいか否かを調べる。
もしそうでなければ、処理を終了する。そうであれば、
以下の処理を行う。
In step 401, the current character position is substituted for a variable i representing the start point of a character string to be compared with a similar word, and a variable j representing the end point of the character string to be compared with a similar word is represented by i + 1. Is assigned. Also, an empty list is substituted into the corrected word candidate list as an initial value. Step 402
Then, it is checked whether j is smaller than the length of the input sentence.
If not, the process ends. in that case,
The following processing is performed.

【0150】ステップ403では、類似照合対象文字列
の長さj−1が予め定められた類似語の最大長より大き
いか否かを調べる。もしそうならば、処理を終了する。
そうでなければ、以下の処理を行う。ステップ404で
は、入力文のj文字目が区切り記号か否かを調べる。も
しそうならば、処理を終了する。そうでなければ、以下
の処理を行う。
In step 403, it is checked whether or not the length j-1 of the character string to be compared is greater than a predetermined maximum length of similar words. If so, the process ends.
Otherwise, the following processing is performed. In step 404, it is checked whether the j-th character of the input sentence is a delimiter. If so, the process ends. Otherwise, the following processing is performed.

【0151】ステップ405では、入力文字列の文字位
置iから文字位置jまでの部分文字列を類似単語照合の
対象文字列とする。ステップ406では、類似照合の対
象文字列とのngram距離が予め決められた閾値より
小さい単語を辞書から検索する。ステップ407では、
類似照合の対象文字列と、ステップ406で検索された
単語との間の編集距離を求め、この値が予め決められた
閾値より小さい単語だけを残す。
At step 405, a partial character string from the character position i to the character position j of the input character string is set as a target character string for similar word comparison. In step 406, the dictionary is searched for a word whose ngram distance from the character string to be subjected to similarity matching is smaller than a predetermined threshold value. In step 407,
The edit distance between the character string to be subjected to similarity matching and the word searched in step 406 is obtained, and only words whose value is smaller than a predetermined threshold are left.

【0152】ステップ408では、類似照合の対象文字
列と、ステップ407で残された単語との間で、単語の
出現確率と、単語表記から対象文字列への文字混同確率
との積の値を求め、この値が大きい順に指定された個数
の単語を訂正単語候補リストに加える。ステップ409
では、類似照合の対象文字列の終わりの文字位置を表わ
す変数jを一つ増やし、ステップ402へ戻る。
In step 408, the value of the product of the word occurrence probability and the character confusion probability from the word notation to the target character string between the character string to be subjected to similarity matching and the word left in step 407 is calculated. Then, the specified number of words are added to the corrected word candidate list in the order of increasing values. Step 409
Then, the variable j indicating the character position at the end of the character string to be subjected to similarity matching is increased by one, and the process returns to step 402.

【0153】[0153]

【実施例】最後に、本発明の実施例を示す。図22は、
本発明の一実施例による文字認識誤り訂正システムの処
理例を表す図である。同図には、「組織変更」という文
字列に対して文字認識装置1が出力した文字マトリク
ス、この文字マトリクスに対して本発明の一実施例によ
る文字認識誤り訂正装置100が出力する単語候補列、
及び、文字マトリクスの各文字位置で本発明の一実施例
による文字認識誤り訂正装置100が生成する単語候補
の例が示されている。
EXAMPLES Finally, examples of the present invention will be described. FIG.
It is a figure showing the example of a process of the character recognition error correction system by one example of the present invention. FIG. 2 shows a character matrix output by the character recognition device 1 for a character string “organization change”, and a word candidate sequence output by the character recognition error correction device 100 according to an embodiment of the present invention on this character matrix. ,
In addition, an example of a word candidate generated by the character recognition error correction device 100 according to the embodiment of the present invention at each character position of the character matrix is shown.

【0154】この処理例では、文字マトリクスは第5候
補までを使用している。例えば、「組」という文字に対
する第1から第5候補は、夫々、「網」、「綱」、
「縮」、「細」及び「纏」である。文字位置は、文字と
文字の間に与えられた0から始まる番号である。文字認
識誤り訂正装置100が出力する単語候補列は第3候補
までを示す。各単語は「表記/読み/品詞」の組で表現
され、単語境界は空白で表す。単語列の前の行には、式
(9)より求めた単語列の確率の対数が示されている。
従って、この数値の絶対値が小さいほど、確率は高い。
In this processing example, the character matrix uses up to the fifth candidate. For example, the first to fifth candidates for the character "Cup" are "net", "rope",
They are "shrink", "fine" and "summary". A character position is a number starting from 0 given between characters. The word candidate string output by the character recognition error correction device 100 indicates up to the third candidate. Each word is represented by a set of “notation / reading / part of speech”, and word boundaries are represented by blanks. In the row before the word string, the logarithm of the probability of the word string obtained from equation (9) is shown.
Therefore, the smaller the absolute value of this numerical value, the higher the probability.

【0155】この処理例では、「組」と「更」の2つの
文字は、入力の文字マトリクスの中に正解文字が含まれ
ていない。しかし、類似単語照合により「組織」及び
「変更」という訂正単語候補が生成され、出力の第1候
補には「組織変更」という正解が得られている。類似単
語照合の動作を示すために、この処理例では、各文字位
置で生成された単語候補の一覧を示す。例えば、文字位
置0では、文字マトリクスに含まれる文字候補と照合す
る1文字単語として「網/アミ/名詞」、「綱/ツナ/
名詞」等が生成され、文字マトリクスに含まれる文字候
補の組合せと照合する2文字単語として「細線/サイセ
ン/名詞」が生成されている。
In this processing example, the correct character is not included in the input character matrix for the two characters “set” and “fur”. However, corrected word candidates “organization” and “change” are generated by similar word matching, and the correct answer “organization change” is obtained as the first candidate output. In order to show the operation of similar word matching, in this processing example, a list of word candidates generated at each character position is shown. For example, at character position 0, one-letter words matching the character candidates included in the character matrix are “net / ami / noun”, “class / tuna /
Nouns ”and the like are generated, and“ thin line / seisen / noun ”is generated as a two-character word to be matched with a combination of character candidates included in the character matrix.

【0156】文字位置0における類似単語照合では、文
字マトリクスの第1候補から構成される長さ2の文字列
「網織」との編集距離が1/2である単語、即ち、どち
らか一方の1文字が一致する単語の中から、文字の図形
的類似度と単語の出現頻度とに基づいて「組織/ソシキ
/動詞」、「網膜/モウマク/名詞」等の単語が生成さ
れている。この例では長さ3以上の類似照合単語はな
い。
In the similar word collation at the character position 0, a word whose editing distance from the character string “Amiori” of length 2 composed of the first candidate of the character matrix is 1 /, that is, one of the two words Words such as "organization / soshiki / verb" and "retina / moumak / noun" are generated from words in which one character matches, based on the graphic similarity of the character and the frequency of appearance of the word. In this example, there is no similar matching word having a length of 3 or more.

【0157】文字位置0における未知語候補としては、
文字マトリクスの第1候補から構成される文字列「網織
変東」の部分文字列「網」、「網織」、「網織変」、
「網織変東」の中で、単語辞書に収録されている単語の
表記と一致しない「網織」、「網織変」及び「網織変
東」の3つが未知語候補として生成される。ここで、N
ILは単語の読みが定義されていないことを表し、<U
NK>は未知語であることを示す。
As an unknown word candidate at character position 0,
Partial character strings of the character string "Amiori Higashi" composed of the first candidate of the character matrix "Ami", "Amiori", "Amiori",
Among "Amiori Higashi", three "Amiori", "Amiori Hen", and "Amiori Higashi" that do not match the word notation contained in the word dictionary are generated as unknown word candidates. . Where N
IL indicates that the word reading is not defined, and <U
NK> indicates an unknown word.

【0158】図23は本発明の一実施例の文字認識誤り
訂正の精度を示す図である。横軸は本発明の一実施例に
よる誤り訂正を適用する前の文字認識精度、横軸は本発
明の一実施例による誤り訂正を適用した後の文字認識精
度である。例えば、(0.70,0.88)という点
は、入力テキストの第1位候補の文字認識率が70%の
とき、本発明の一実施例の誤り訂正により文字認識率が
88%まで向上されることを表す。もし精度を表す点が
斜め45度の直線上にあれば、誤り訂正の前後で認識率
に変化がないことを表し、点がこの直線より上にあれば
あるほど、誤り訂正の精度が高いことを表す。
FIG. 23 is a diagram showing the accuracy of character recognition error correction according to one embodiment of the present invention. The horizontal axis represents the character recognition accuracy before applying error correction according to one embodiment of the present invention, and the horizontal axis represents the character recognition accuracy after applying error correction according to one embodiment of the present invention. For example, (0.70, 0.88) means that when the character recognition rate of the first candidate of the input text is 70%, the character recognition rate is improved to 88% by the error correction according to the embodiment of the present invention. To be performed. If the point representing the accuracy is on a 45-degree diagonal straight line, it indicates that there is no change in the recognition rate before and after the error correction. The higher the point is on this straight line, the higher the accuracy of the error correction is Represents

【0159】図23には、文字の図形的類似度を利用し
て訂正単語候補の順位付けを行う本発明の一実施例によ
る文字認識誤り訂正と比較するために、文字の図形的類
似度は使用せずに文字マトリクスの候補順位だけから文
字混同確率を適当に推定する方法の精度も同時に示され
ている。説明を簡単にするため、ここでは、本発明の一
実施例の誤り訂正方法を文字類似度法と呼び、候補順位
から文字混同確率を推定する方法を候補順位法と呼ぶ。
FIG. 23 shows the graphic similarity of a character in order to compare with the character recognition error correction according to one embodiment of the present invention in which the correction word candidates are ranked using the graphic similarity of the character. The accuracy of the method of appropriately estimating the character confusion probability from only the character matrix candidate rank without using it is also shown. For the sake of simplicity, here, the error correction method according to an embodiment of the present invention is called a character similarity method, and the method of estimating the character confusion probability from the candidate rank is called a candidate rank method.

【0160】候補順位法は、入力テキストのi番目の文
字をci とし、このci に対するj番目の文字認識候補
をxijとするとき、文字混同確率P(xij|cj )を以
下のように近似する。
In the candidate ranking method, when the i-th character of the input text is c i and the j-th character recognition candidate for this c i is x ij , the character confusion probability P (x ij | c j ) is Approximation.

【0161】[0161]

【数16】 (Equation 16)

【0162】ここで、pは文字認識の第1候補の平均正
解率である。式(19)は、文字による認識率の違いを
無視し、第n番目の文字候補が平均的にどれぐらい信頼
できるかを幾何分布により近似したものである。図23
に示すように、入力テキストの認識率が様々に変化した
場合でも(70−95%)、文字の図形的類似度を利用
する本発明の一実施例による文字認識誤り訂正(文字類
似度法)は、従来の図形的類似度を利用しない方法(候
補順位法)に比べて誤り訂正精度が大幅に高い。
Here, p is the average correct answer rate of the first candidate for character recognition. Equation (19) is obtained by ignoring the difference in recognition rate between characters and approximating, by a geometric distribution, how reliable the nth character candidate is on average. FIG.
As shown in FIG. 7, even when the recognition rate of the input text changes (70-95%), the character recognition error correction (character similarity method) according to an embodiment of the present invention using the graphic similarity of the character. Has a significantly higher error correction accuracy than the conventional method (candidate ranking method) that does not use graphic similarity.

【0163】また、文字認識誤り訂正システムの構成
は、上記の実施例で説明された例に限定されることな
く、文字認識誤り訂正システムの各々の構成要件をソフ
トウェア(プログラム)で構築し、ディスク装置等に格
納しておき、必要に応じて文字認識誤り訂正システムの
コンピュータにインストールして文字認識誤り訂正を行
うことも可能である。さらに、構築されたプログラムを
フロッピーディスクやCD−ROM等の可搬記録媒体に
格納し、このようなシステムを用いる場面で汎用的に使
用することも可能である。
Further, the configuration of the character recognition error correction system is not limited to the example described in the above embodiment. Each component of the character recognition error correction system is constructed by software (program), It can be stored in a device or the like, and installed on a computer of a character recognition error correction system as needed to perform character recognition error correction. Further, the constructed program can be stored in a portable recording medium such as a floppy disk or a CD-ROM, and can be used for general purposes in a case where such a system is used.

【0164】本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
The present invention is not limited to the above-described embodiments, but can be variously modified and applied within the scope of the claims.

【0165】[0165]

【発明の効果】以上のように、本発明によれば、単語二
つ組確率及び単語出現確率を与える単語分割モデルと、
文字マトリクスに含まれる部分文字列と完全一致照合す
る辞書中の単語を検索する単語照合手段と、平均単語長
及び文字二つ組確率から構成される単語モデルと、文字
マトリクスに含まれる部分文字列から未知語候補を生成
する未知語生成手段と、任意の二つの文字の間の文字混
同確率を与える文字認識装置モデルと、文字混同確率と
単語出現頻度とに基づいて文字マトリクスに含まれる部
分文字列に類似した辞書中の単語を検索する類似単語照
合手段と、単語列の同時確率と各文字の文字混同確率と
の積が大きい順に単語列を提示する形態素解析手段とを
用いて、文脈を利用せずに短い単語の訂正候補を精度良
く提示できる、日本語文字認識誤り訂正方法及び装置が
実現される。
As described above, according to the present invention, there is provided a word segmentation model for providing a word pair probability and a word appearance probability,
Word matching means for searching a word in a dictionary that matches completely with a partial character string included in a character matrix, a word model composed of an average word length and a character double set probability, and a partial character string included in a character matrix Unknown word generation means for generating an unknown word candidate from a character recognition device model for giving a character confusion probability between any two characters, and a partial character included in a character matrix based on the character confusion probability and word appearance frequency Using similar word matching means for searching words in a dictionary similar to a string and morphological analysis means for presenting the word strings in descending order of the product of the joint probability of the word strings and the character confusion probability of each character, the context is determined. A Japanese character recognition error correction method and apparatus capable of accurately presenting a short word correction candidate without using it is realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】本発明の原理を説明するフローチャートであ
る。
FIG. 2 is a flowchart illustrating the principle of the present invention.

【図3】本発明の日本語文字認識誤り訂正方法の説明図
である。
FIG. 3 is an explanatory diagram of a Japanese character recognition error correction method of the present invention.

【図4】本発明の日本語文字認識誤り訂正装置の構成図
である。
FIG. 4 is a configuration diagram of a Japanese character recognition error correction device of the present invention.

【図5】本発明の日本語文字認識誤り訂正装置の構成図
である。
FIG. 5 is a configuration diagram of the Japanese character recognition error correction device of the present invention.

【図6】本発明の日本語文字認識誤り訂正装置の動作説
明図である。
FIG. 6 is a diagram illustrating the operation of the Japanese character recognition error correction device of the present invention.

【図7】本発明の日本語文字認識誤り訂正装置の構成図
である。
FIG. 7 is a configuration diagram of a Japanese character recognition error correction device of the present invention.

【図8】本発明の日本語文字認識誤り訂正装置の構成図
である。
FIG. 8 is a configuration diagram of a Japanese character recognition error correction device of the present invention.

【図9】本発明の日本語文字認識誤り訂正装置の構成図
である。
FIG. 9 is a configuration diagram of a Japanese character recognition error correction device of the present invention.

【図10】本発明の日本語文字認識誤り訂正装置の構成
図である。
FIG. 10 is a configuration diagram of a Japanese character recognition error correction device of the present invention.

【図11】本発明の日本語文字認識誤り訂正装置の構成
図である。
FIG. 11 is a configuration diagram of a Japanese character recognition error correction device of the present invention.

【図12】本発明の文字認識装置モデル作成装置の構成
図である。
FIG. 12 is a configuration diagram of a character recognition device model creation device of the present invention.

【図13】本発明の文字認識装置モデル作成装置の動作
フローチャートである。
FIG. 13 is an operation flowchart of the character recognition device model creation device of the present invention.

【図14】本発明の一実施例による日本語文字認識誤り
訂正システムの概略ブロック図である。
FIG. 14 is a schematic block diagram of a Japanese character recognition error correction system according to one embodiment of the present invention.

【図15】文字混同頻度の例を示す図である。FIG. 15 is a diagram illustrating an example of a character confusion frequency.

【図16】文字クラスの例を示す図である。FIG. 16 is a diagram illustrating an example of a character class.

【図17】文字クラス混同頻度の例を示す図である。FIG. 17 is a diagram illustrating an example of a character class confusion frequency.

【図18】本発明の一実施例による前向き探索の動作フ
ローチャートである。
FIG. 18 is an operation flowchart of a forward search according to an embodiment of the present invention.

【図19】本発明の一実施例による後向き探索の動作フ
ローチャートである。
FIG. 19 is an operation flowchart of a backward search according to an embodiment of the present invention.

【図20】本発明の一実施例による未知語候補生成の動
作フローチャートである。
FIG. 20 is an operation flowchart of unknown word candidate generation according to an embodiment of the present invention.

【図21】本発明の一実施例による類似単語照合の動作
フローチャートである。
FIG. 21 is an operation flowchart of similar word matching according to an embodiment of the present invention.

【図22】本発明の一実施例の文字認識誤り訂正の処理
例を示す図である。
FIG. 22 is a diagram illustrating a processing example of character recognition error correction according to an embodiment of the present invention.

【図23】本発明の一実施例の文字認識誤り訂正の精度
を示す図である。
FIG. 23 is a diagram showing the accuracy of character recognition error correction according to one embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 形態素解析手段 2 未知語候補生成手段 3 類似単語照合手段 4 単語照合手段 5 単語モデル格納手段 6 文字認識装置モデル格納手段 7 単語分割モデル格納手段 8 文字認識装置 DESCRIPTION OF SYMBOLS 1 Morphological analysis means 2 Unknown word candidate generation means 3 Similar word collation means 4 Word collation means 5 Word model storage means 6 Character recognition device model storage means 7 Word division model storage means 8 Character recognition device

Claims (23)

【特許請求の範囲】[Claims] 【請求項1】 入力として与えられた日本語文に含まれ
る文字認識誤りを訂正する単語候補として、単語の出現
頻度と文字の図形的類似度とに基づいて任意の個数の単
語を確率が高い順番に提示することを特徴とする日本語
文字認識誤り訂正方法。
1. As a word candidate for correcting a character recognition error included in a Japanese sentence given as an input, an arbitrary number of words are sorted in descending order of probability based on the frequency of appearance of the word and the degree of graphic similarity of the character. Japanese character recognition error correction method characterized by being presented to a user.
【請求項2】 入力として与えられた日本語文に含まれ
る文字列と一致する単語を単語候補として生成し、 上記文に含まれる未知の部分文字列を未知語候補として
生成し、 上記文に含まれる部分文字列と類似した単語を上記文の
文脈とは無関係に訂正単語候補として生成し、 上記単語候補、上記未知語候補及び上記訂正単語候補の
組合せの中から、上記日本語文に含まれる文字認識誤り
の訂正単語列として、任意の個数の単語候補列を確率の
高い順番に出力することを特徴とする日本語文字認識誤
り訂正方法。
2. A word matching a character string included in a Japanese sentence given as an input is generated as a word candidate, an unknown partial character string included in the sentence is generated as an unknown word candidate, and included in the sentence. A word similar to the partial character string to be generated is generated as a corrected word candidate irrespective of the context of the sentence, and a character included in the Japanese sentence is selected from a combination of the word candidate, the unknown word candidate, and the corrected word candidate. A Japanese character recognition error correction method, comprising outputting an arbitrary number of word candidate strings in the order of probability as a word string for correcting a recognition error.
【請求項3】 入力として与えられた日本語文に含まれ
る文字認識誤りを訂正する日本語文字認識誤り訂正方法
において、 文を構成する単語列の同時確率を与える単語分割モデル
と、任意の二つの文字の間の文字混同確率を与える文字
認識装置モデルとに基づいて、上記訂正対象となる単語
の文字列と類似照合する辞書中の単語を検索し、 訂正対象となる単語の長短、並びに、訂正対象となる単
語の前後の文脈情報の利用の可否には係わらず、上記訂
正対象となる単語の訂正単語候補として任意の個数の単
語を確率の高い順番に提示することを特徴とする日本語
文字認識誤り訂正方法。
3. A Japanese character recognition error correction method for correcting a character recognition error included in a Japanese sentence given as an input, comprising: a word segmentation model for giving a simultaneous probability of a word string constituting a sentence; Based on a character recognition device model that gives a character confusion probability between characters, a word in the dictionary that is similar to the character string of the word to be corrected is searched for in the dictionary, and the length of the word to be corrected is corrected. Japanese characters characterized by presenting an arbitrary number of words in the order of high probability as correction word candidates for the word to be corrected, regardless of whether context information before and after the word to be used can be used. Recognition error correction method.
【請求項4】 日本語文の各文字位置毎に文字認識スコ
アの高い順番に並べられた文字候補のリストである文字
マトリクスを入力し、 平均単語長と、連続する二つの文字において第1の文字
が与えられたときの第2の文字の条件付き出現確率を示
す文字二つ組確率とに基づいて、上記文字マトリクスに
含まれる部分文字列の中から、未知語候補として任意の
個数の未知語の表記と出現確率の組を確率が高い順番に
求め、 上記日本語文が辞書に登録されていない単語を含むか否
かとは係わらず、上記未知語候補を含む単語候補の組合
せの中から、上記日本語文を構成する単語列の同時確率
と上記日本語文を構成する各文字の文字混同確率との積
が大きい順番に任意の個数の単語候補列を提示すること
を特徴とする日本語文字認識誤り訂正方法。
4. A character matrix which is a list of character candidates arranged in order of character recognition score for each character position in a Japanese sentence is input, and the average word length and the first character in two consecutive characters are input. Is given as an unknown word candidate from among the partial character strings included in the character matrix, based on the character double set probability indicating the conditional appearance probability of the second character when given. Of the notation and the appearance probabilities in the descending order of the probabilities. Regardless of whether the Japanese sentence includes a word that is not registered in the dictionary, from among combinations of the word candidates including the unknown word candidates, Japanese character recognition error characterized by presenting an arbitrary number of word candidate strings in the descending order of the product of the joint probability of the word strings constituting the Japanese sentence and the character confusion probability of each character constituting the Japanese sentence Correction method.
【請求項5】 日本語文の各文字位置毎に文字認識スコ
アの高い順番に並べられた文字候補のリストである文字
マトリクスを入力し、 文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから二つの文字の間
の文字混同確率を推定し、 正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記日本語文を構成する各文字の文字混同確率が
大きい順番に任意の個数の単語候補列を提示することを
特徴とする日本語文字認識誤り訂正方法。
5. A word in a dictionary for inputting a character matrix, which is a list of character candidates arranged in order of character recognition score for each character position of a Japanese sentence, and performing similarity matching with a character string included in the character matrix Is searched, and a character confusion matrix indicating which character is recognized by which character and how often is used, and a character confusion probability between the two characters is estimated from a character feature vector obtained by digitizing the graphic characteristics of the character, A Japanese language characterized by presenting an arbitrary number of word candidate strings in the descending order of the character confusion probability of each character constituting the Japanese sentence, irrespective of whether or not correct characters are included in the character candidates. Character recognition error correction method.
【請求項6】 日本語文の各文字位置毎に文字認識スコ
アの高い順番に並べられた文字候補のリストである文字
マトリクスを入力し、 文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率と単語出現確率とに基づいて
上記単語の順位付けを行い、 正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記順位付けされた単語を含む単語候補の組合せ
の中から、上記日本語文を構成する単語列の同時確率と
上記日本語文を構成する各文字の文字混同確率との積が
大きい順番に任意の個数の単語候補列を提示することを
特徴とする日本語文字認識誤り訂正方法。
6. A word in a dictionary for inputting a character matrix which is a list of character candidates arranged in order of character recognition score for each character position of a Japanese sentence and performing similarity matching with a character string included in the character matrix And a character confusion matrix that indicates which character is recognized by which character and how often, and the character confusion probability between the two characters estimated from the character feature vector that digitizes the graphic features of the character and The above words are ranked based on the word appearance probabilities, and regardless of whether or not the correct character is included in the above character candidates, the combination of the above word candidates is selected from the combinations of word candidates including the above ranked words. Japanese characters characterized by presenting an arbitrary number of word candidate strings in the descending order of the product of the simultaneous probability of the word strings constituting the word sentence and the character confusion probability of each character constituting the Japanese sentence識誤 Ri correction method.
【請求項7】 日本語文の各文字位置毎に文字認識スコ
アの高い順番に並べられた文字候補のリストである文字
マトリクスを入力し、 上記文字マトリクスに含まれる部分文字列と照合する辞
書中の単語を検索し、 上記日本語文が辞書に登録されていない単語を含む場合
に、平均単語長と、連続する二つの文字において第1の
文字が与えられたときの第2の文字の条件付き出現確率
を示す文字二つ組確率とに基づいて、上記文字マトリク
スに含まれる部分文字列の中から、未知語候補として確
率が高い順番に任意の個数の未知語の表記と出現確率の
組を求め、 正解文字が上記文字候補に含まれていない場合に、文字
マトリクスに含まれる文字列と類似照合する辞書中の単
語を検索し、ある文字がどの文字にどれくらいの頻度で
認識されるかを示す文字混同行列及び文字の図形的特徴
を数値化した文字特徴ベクトルから推定される二つの文
字の間の文字混同確率と単語出現確率とに基づいて上記
単語の順位付けを行い、 上記文字マトリクスに含まれる辞書中の単語、上記未知
語候補、及び、上記順位付けされた単語を含む単語候補
の組合せの中から、上記日本語文を構成する単語列の同
時確率と上記日本語文を構成する各文字の文字混同確率
との積が大きい順番に任意の個数の単語候補列を提示す
ることを特徴とする日本語文字認識誤り訂正方法。
7. A dictionary in which a character matrix which is a list of character candidates arranged in an order of a character recognition score for each character position of a Japanese sentence is inputted, and a character string included in the character matrix is collated. When a word is searched for and the Japanese sentence includes a word not registered in the dictionary, the average word length and the conditional appearance of the second character when the first character is given in two consecutive characters Based on the character pair probabilities indicating the probabilities, a set of expressions of an arbitrary number of unknown words and appearance probabilities are determined from the partial character strings included in the character matrix in the order of high probability as unknown word candidates. If the correct character is not included in the above character candidates, search for words in the dictionary that are similar to the character string included in the character matrix, and indicate which character is recognized by which character and how often. Rank the words based on the character confusion matrix and the word appearance probability between the two characters estimated from the character confusion matrix and the character feature vector obtained by digitizing the graphic features of the characters. From the combinations of the words in the included dictionary, the unknown word candidates, and the word candidates including the ranked words, the joint probabilities of the word strings constituting the Japanese sentence and the respective characters constituting the Japanese sentence A character recognition error correction method for Japanese characters, characterized by presenting an arbitrary number of word candidate strings in the order of increasing the product of the character confusion probability and the character confusion probability.
【請求項8】 単語の出現頻度を格納する記憶手段と、 文字の図形的類似度を計算する計算手段と、 入力として与えられた日本語文を構成する単語の出現頻
度を上記記憶手段から獲得し、上記計算手段によって計
算された上記日本文を構成する文字の図形的類似度を獲
得し、上記獲得された単語の出現頻度及び文字の図形的
類似度とに基づいて、上記日本語文に含まれる文字認識
誤りを訂正する単語候補として、任意の個数の単語を確
率が高い順番に提示する手段とからなることを特徴とす
る日本語文字誤り訂正装置。
8. A storage means for storing the frequency of appearance of a word, a calculation means for calculating a graphic similarity of a character, and an appearance frequency of a word constituting a Japanese sentence given as an input is obtained from the storage means. Acquiring the graphic similarity of the characters constituting the Japanese sentence calculated by the calculating means, and including the obtained word in the Japanese sentence based on the appearance frequency of the acquired word and the graphic similarity of the character. A Japanese character error correction device, characterized by comprising means for presenting an arbitrary number of words in order of probability as word candidates for correcting character recognition errors.
【請求項9】 入力として与えられた日本語文に含まれ
る文字列と一致する単語を単語候補として生成する手段
と、 上記文に含まれる未知の部分文字列を未知語候補として
生成する手段と、 上記文に含まれる部分文字列と類似した単語を上記文の
文脈とは無関係に訂正単語候補として生成する手段と、 上記単語候補、上記未知語候補及び上記訂正単語候補の
組合せの中から、上記日本語文に含まれる文字認識誤り
の訂正単語列として、任意の個数の単語候補列を確率の
高い順番に出力する手段とからなることを特徴とする日
本語文字認識誤り訂正装置。
9. A means for generating a word that matches a character string included in a Japanese sentence given as an input as a word candidate, a means for generating an unknown partial character string included in the sentence as an unknown word candidate, Means for generating a word similar to the partial character string included in the sentence as a corrected word candidate irrespective of the context of the sentence; and a combination of the word candidate, the unknown word candidate, and the corrected word candidate. Means for outputting an arbitrary number of word candidate strings in order of probability as a corrected word string of a character recognition error included in a Japanese sentence.
【請求項10】 入力として与えられた日本語文に含ま
れる文字認識誤りを訂正する日本語文字認識誤り訂正装
置において、 文を構成する単語列の同時確率を与える単語分割モデル
格納手段と、 任意の二つの文字の間の文字混同確率を与える文字認識
装置モデル格納手段と、 上記訂正対象となる単語の文字列と類似照合する辞書中
の単語を検索する類似単語照合手段と、 訂正対象となる単語の長短、並びに、訂正対象となる単
語の前後の文脈情報の利用の可否には係わらず、上記訂
正対象となる単語の訂正単語候補として任意の個数の単
語を確率の高い順番に提示する手段とからなることを特
徴とする日本語文字認識誤り訂正装置。
10. A Japanese character recognition error correction device for correcting a character recognition error included in a Japanese sentence given as an input, comprising: a word segmentation model storage means for giving a joint probability of a word string constituting a sentence; A character recognition device model storing means for giving a character confusion probability between two characters, a similar word matching means for searching a word in a dictionary that performs a similar matching with the character string of the word to be corrected, a word to be corrected Means for presenting an arbitrary number of words in the order of high probability as correction word candidates for the word to be corrected, irrespective of the availability of context information before and after the word to be corrected, and A Japanese character recognition error correction device, comprising:
【請求項11】 日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力する手段と、 平均単語長と、連続する二つの文字において第1の文字
が与えられたときの第2の文字の条件付き出現確率を示
す文字二つ組確率とを記憶する単語モデル格納手段と、 上記単語モデル格納手段に記憶された平均単語長及び文
字二つ組確率に基づいて、上記文字マトリクスに含まれ
る部分文字列の中から、未知語候補として任意の個数の
未知語の表記と出現確率の組を確率が高い順番に求める
未知語候補生成手段と、 上記日本語文が辞書に登録されていない単語を含むか否
かとは係わらず、上記未知語候補を含む単語候補の組合
せの中から、上記日本語文を構成する単語列の同時確率
と上記日本語文を構成する各文字の文字混同確率との積
が大きい順番に任意の個数の単語候補列を提示する手段
とからなることを特徴とする日本語文字認識誤り訂正装
置。
11. A means for inputting a character matrix which is a list of character candidates arranged in order of character recognition score for each character position of a Japanese sentence, an average word length, and a first character value in two consecutive characters. Word model storage means for storing a set of character pairs indicating the conditional appearance probability of the second character when the character is given, and an average word length and two characters stored in the word model storage means. Unknown word candidate generating means for obtaining a set of an arbitrary number of unknown word expressions and appearance probabilities as unknown word candidates from the partial character strings included in the character matrix based on the set probabilities in the order of higher probability, Regardless of whether or not the Japanese sentence includes a word that is not registered in the dictionary, from the combination of word candidates including the unknown word candidate, the simultaneous probability of the word string constituting the Japanese sentence and the Japanese sentence Means for presenting an arbitrary number of word candidate strings in the order of increasing the product of the character confusion probability of each character constituting.
【請求項12】 日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力する手段と、 文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率を記憶する文字認識装置モデ
ル格納手段と、 正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記文字認識装置モデル格納手段から得られた上
記日本語文を構成する各文字の文字混同確率が大きい順
番に任意の個数の単語候補列を提示する手段とからなる
ことを特徴とする日本語文字認識誤り訂正装置。
12. A means for inputting a character matrix which is a list of character candidates arranged in the order of a character recognition score for each character position of a Japanese sentence, and a dictionary for performing similarity matching with a character string included in the character matrix. Character confusion matrix between two characters estimated from a character confusion matrix indicating which characters are recognized by which characters and how often Character recognition device model storage means for storing probabilities; and characters of each character constituting the Japanese sentence obtained from the character recognition device model storage means, regardless of whether or not the correct character is included in the character candidate. Means for presenting an arbitrary number of word candidate strings in the order of the greatest confusion probability.
【請求項13】 日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力する手段と、 文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率を記憶する文字認識装置モデ
ル格納手段と、 単語出現確率を記憶する単語分割モデル格納手段と、 上記文字混同確率及び上記単語出現確率に基づいて上記
単語の順位付けを行なう類似単語照合手段と、 正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記順位付けされた単語を含む単語候補の組合せ
の中から、上記日本語文を構成する単語列の同時確率と
上記日本語文を構成する各文字の文字混同確率との積が
大きい順番に任意の個数の単語候補列を提示する手段と
からなることを特徴とする日本語文字認識誤り訂正装
置。
13. A means for inputting a character matrix which is a list of character candidates arranged in an order of a character recognition score for each character position of a Japanese sentence, and a dictionary for performing similarity matching with a character string included in the character matrix. Character confusion matrix between two characters estimated from a character confusion matrix indicating which characters are recognized by which characters and how often Character recognition device model storage means for storing probabilities; word segmentation model storage means for storing word appearance probabilities; similar word matching means for ranking the words based on the character confusion probabilities and the word appearance probabilities; Regardless of whether or not the correct character is included in the character candidate, the Japanese sentence is constructed from a combination of word candidates including the ranked words. Means for presenting an arbitrary number of word candidate strings in the descending order of the product of the word string joint probability and the character confusion probability of each character constituting the Japanese sentence. apparatus.
【請求項14】 日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力する手段と、 上記文字マトリクスに含まれる部分文字列と照合する辞
書中の単語を検索する単語照合手段と、 平均単語長と、連続する二つの文字において第1の文字
が与えられたときの第2の文字の条件付き出現確率を示
す文字二つ組確率とを記憶する単語モデル格納手段と、 上記日本語文が辞書に登録されていない単語を含む場合
に、上記記憶された平均単語長及び文字二つ組確率に基
づいて、上記文字マトリクスに含まれる部分文字列の中
から、未知語候補として確率が高い順番に任意の個数の
未知語の表記と出現確率の組を求める未知語候補生成手
段と、 正解文字が上記文字候補に含まれていない場合に、文字
マトリクスに含まれる文字列と類似照合する辞書中の単
語を検索し、ある文字がどの文字にどれくらいの頻度で
認識されるかを示す文字混同行列及び文字の図形的特徴
を数値化した文字特徴ベクトルから推定される二つの文
字の間の文字混同確率を記憶する文字認識装置モデル格
納手段と、 単語出現確率を記憶する単語分割モデル格納手段と、 上記記憶された文字混同確率及び単語出現確率に基づい
て上記単語の順位付けを行なう類似単語照合手段と、 上記文字マトリクスに含まれる辞書中の単語、上記未知
語候補、及び、上記順位付けされた単語を含む単語候補
の組合せの中から、上記日本語文を構成する単語列の同
時確率と上記日本語文を構成する各文字の文字混同確率
との積が大きい順番に任意の個数の単語候補列を提示す
る形態素解析手段とからなることを特徴とする日本語文
字認識誤り訂正装置。
14. A means for inputting a character matrix which is a list of character candidates arranged in order of character recognition score for each character position of a Japanese sentence, and a dictionary for collating with a partial character string included in the character matrix Word matching means for searching for a word inside, an average word length, and a character double set probability indicating a conditional appearance probability of a second character when a first character is given in two consecutive characters. A word model storing means for storing, a partial character string included in the character matrix based on the stored average word length and character double probability when the Japanese sentence includes a word not registered in the dictionary; Unknown word candidate generating means for obtaining a set of notation and appearance probabilities of an arbitrary number of unknown words in the order of probability as unknown word candidates from among the above, and when the correct character is not included in the above character candidates , A character confusion matrix that indicates which words are recognized in a dictionary, and how often a character is recognized by a character in the dictionary that matches the character string included in the character matrix, and a character that digitizes the graphic characteristics of the character A character recognition device model storing means for storing a character confusion probability between two characters estimated from a feature vector; a word division model storing means for storing a word appearance probability; and the stored character confusion probability and word appearance probability. And a similar word matching unit that ranks the words based on a word in the dictionary included in the character matrix, the unknown word candidate, and a combination of word candidates including the ranked word. An arbitrary number of word candidate strings are presented in the descending order of the product of the joint probability of the word strings constituting the Japanese sentence and the character confusion probability of each character constituting the Japanese sentence. A Japanese character recognition error correction device comprising morphological analysis means.
【請求項15】 ある文字がどの文字にどれくらいの頻
度で認識されるかを与える文字混同頻度を記憶する文字
混同頻度格納手段と、 文字の図形的特徴を数値化した文字特徴ベクトルを記憶
する文字特徴ベクトル格納手段と、 互いに距離が近い文字特徴ベクトルを一つにまとめるこ
とにより、上記文字を複数の文字クラスに分類する文字
クラスタリング手段と、 上記文字混同頻度及び上記文字クラスに基づいて、ある
文字クラスの文字がどの文字クラスの文字にどのくらい
の頻度で認識されるかを表す文字クラス混同確率を推定
する手段と、 ある文字がこれまで観測されていない文字に認識される
確率の総和を推定する未観測事象確率推定手段と、 上記未観測事象の確率の総和を文字クラス混同確率に比
例するように配分し、和が1になるように正規化するこ
とにより未観測事象の文字混同確率を求め、観測事象の
確率の総和を文字混同確率に比例するように配分し、全
体の確率の和が1になるように正規化する手段とにより
構成され、 文字の図形的類似度に基づいて任意の二つの文字の間の
文字混同確率を与えることを特徴とする文字認識装置モ
デル作成装置。
15. A character confusion frequency storing means for storing a character confusion frequency which gives a character and how often a character is recognized, and a character for storing a character feature vector obtained by digitizing graphic characteristics of a character. A feature vector storage unit; a character clustering unit that classifies the characters into a plurality of character classes by combining character feature vectors that are close to each other into one; and a character based on the character confusion frequency and the character class. A means for estimating the probability of character class confusion indicating how often a character of a class is recognized by a character of a character class, and estimating the total sum of probabilities that a character is recognized by a character that has not been observed so far. The unobserved event probability estimating means and the sum of the unobserved event probabilities are distributed in proportion to the character class confusion probability, and the sum becomes 1. Means for determining the character confusion probability of the unobserved event by normalizing the data, distributing the sum of the probability of the observed event in proportion to the character confusion probability, and normalizing the sum of the total probabilities to be 1. A character recognition device model creation device characterized in that a character confusion probability between any two characters is given based on the graphic similarity between the characters.
【請求項16】 単語の出現頻度を記憶させるプロセス
と、 文字の図形的類似度を計算するプロセスと、 入力として与えられた日本語文を構成する単語の出現頻
度を獲得し、上記計算された上記日本文を構成する文字
の図形的類似度を獲得し、上記獲得された単語の出現頻
度及び文字の図形的類似度とに基づいて、上記日本語文
に含まれる文字認識誤りを訂正する単語候補として、任
意の個数の単語を確率が高い順番に提示させるプロセス
とからなることを特徴とする日本語文字誤り訂正プログ
ラムを記録した記録媒体。
16. A process of storing the frequency of appearance of a word, a process of calculating a graphic similarity of a character, and a process of acquiring the frequency of appearance of a word constituting a Japanese sentence given as an input. As a word candidate for acquiring the graphic similarity of the characters constituting the Japanese sentence and correcting the character recognition error included in the Japanese sentence based on the appearance frequency of the acquired word and the graphic similarity of the character. And a process of presenting an arbitrary number of words in the order of the highest probability.
【請求項17】 入力として与えられた日本語文に含ま
れる文字列と一致する単語を単語候補として生成させる
プロセスと、 上記文に含まれる未知の部分文字列を未知語候補として
生成させるプロセスと、 上記文に含まれる部分文字列と類似した単語を上記文の
文脈とは無関係に訂正単語候補として生成させるプロセ
スと、 上記単語候補、上記未知語候補及び上記訂正単語候補の
組合せの中から、上記日本語文に含まれる文字認識誤り
の訂正単語列として、任意の個数の単語候補列を確率の
高い順番に出力させるプロセスとからなることを特徴と
する日本語文字認識誤り訂正プログラムを記録した記録
媒体。
17. A process for generating a word matching a character string included in a Japanese sentence given as an input as a word candidate, a process for generating an unknown partial character string included in the sentence as an unknown word candidate, A process of generating a word similar to the partial character string included in the sentence as a corrected word candidate irrespective of the context of the sentence; and from the combination of the word candidate, the unknown word candidate, and the corrected word candidate, A process of outputting an arbitrary number of word candidate strings in the order of probability as a corrected word string of a character recognition error included in a Japanese sentence. .
【請求項18】 入力として与えられた日本語文を構成
する単語列の同時確率を与えるプロセスと、 任意の二つの文字の間の文字混同確率を与えるプロセス
と、 上記訂正対象となる単語の文字列と類似照合する辞書中
の単語を検索させるプロセスと、 訂正対象となる単語の長短、並びに、訂正対象となる単
語の前後の文脈情報の利用の可否には係わらず、上記訂
正対象となる単語の訂正単語候補として任意の個数の単
語を確率の高い順番に提示させるプロセスとからなるこ
とを特徴とする日本語文字認識誤り訂正プログラムを記
録した記録媒体。
18. A process for giving a joint probability of a word string constituting a Japanese sentence given as an input, a process for giving a character confusion probability between any two characters, and a character string of the word to be corrected And the process of searching for words in the dictionary that are similar to the word to be corrected, regardless of the length of the word to be corrected, and whether or not the context information before and after the word to be corrected can be used. A process of presenting an arbitrary number of words as corrected word candidates in the order of higher probability, wherein the Japanese character recognition error correction program is recorded.
【請求項19】 日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力させるプロセスと、 平均単語長と、連続する二つの文字において第1の文字
が与えられたときの第2の文字の条件付き出現確率を示
す文字二つ組確率とを記憶させるプロセスと、 上記記憶された平均単語長及び文字二つ組確率に基づい
て、上記文字マトリクスに含まれる部分文字列の中か
ら、未知語候補として任意の個数の未知語の表記と出現
確率の組を確率が高い順番に求めさせるプロセスと、 上記日本語文が辞書に登録されていない単語を含むか否
かとは係わらず、上記未知語候補を含む単語候補の組合
せの中から、上記日本語文を構成する単語列の同時確率
と上記日本語文を構成する各文字の文字混同確率との積
が大きい順番に任意の個数の単語候補列を提示させるプ
ロセスとからなることを特徴とする日本語文字認識誤り
訂正プログラムを記録した記録媒体。
19. A process of inputting a character matrix which is a list of character candidates arranged in an order of a character recognition score for each character position of a Japanese sentence, an average word length, and a first word in two consecutive characters. Storing a character double probability indicating a conditional appearance probability of a second character when the character is given; and storing the character based on the stored average word length and the character double probability. A process of obtaining a set of an arbitrary number of unknown words as unknown word candidates and appearance probabilities from the partial character strings included in the matrix in descending order of probability, and a word in which the Japanese sentence is not registered in the dictionary Irrespective of whether or not the Japanese sentence is included, from the combinations of the word candidates including the unknown word candidate, the coincidence probability of the word string constituting the Japanese sentence and the character confusion probability of each character constituting the Japanese sentence are determined. A process of presenting an arbitrary number of word candidate strings in the order of the product of the rate and the rate, in which the Japanese character recognition error correction program is recorded.
【請求項20】 日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力させるプロセスと、 文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率を記憶させるプロセスと、 正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記文字認識装置モデル格納手段から得られた上
記日本語文を構成する各文字の文字混同確率が大きい順
番に任意の個数の単語候補列を提示させるプロセスとか
らなることを特徴とする日本語文字認識誤り訂正プログ
ラムを記録した記録媒体。
20. A process of inputting a character matrix which is a list of character candidates arranged in the order of the character recognition score for each character position of a Japanese sentence, and a dictionary for performing similarity matching with a character string included in the character matrix. Character confusion matrix between two characters estimated from a character confusion matrix indicating which characters are recognized by which characters and how often The process of storing the probabilities and the order in which the character confusion probabilities of the characters constituting the Japanese sentence obtained from the character recognition device model storage means are large, regardless of whether the correct character is included in the character candidates. And a process of presenting an arbitrary number of word candidate strings to a computer.
【請求項21】 日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力させるプロセスと、 文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率を記憶させるプロセスと、 単語出現確率を記憶させるプロセスと、 上記文字混同確率及び上記単語出現確率に基づいて上記
単語の順位付けを行わせるプロセスと、 正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記順位付けされた単語を含む単語候補の組合せ
の中から、上記日本語文を構成する単語列の同時確率と
上記日本語文を構成する各文字の文字混同確率との積が
大きい順番に任意の個数の単語候補列を提示させるプロ
セスとからなることを特徴とする日本語文字認識誤り訂
正プログラムを記録した記録媒体。
21. A process for inputting a character matrix which is a list of character candidates arranged in the order of the character recognition score for each character position of a Japanese sentence, and a dictionary for performing similarity matching with a character string included in the character matrix. Character confusion matrix between two characters estimated from a character confusion matrix indicating which characters are recognized by which characters and how often A process of storing probabilities, a process of storing word appearance probabilities, a process of ranking the words based on the character confusion probability and the word appearance probabilities, and whether a correct character is included in the character candidates. Regardless of whether or not the combination of the word candidates constituting the Japanese sentence is selected from the combination of the word candidates including the ranked words, Recording medium storing a Japanese character recognition error correction program, characterized in that it consists of a process for presenting the word candidate sequence of any number of sequentially product is large character confusion probabilities for each character constituting the sentence.
【請求項22】 日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力させるプロセスと、 上記文字マトリクスに含まれる部分文字列と照合する辞
書中の単語を検索させるプロセスと、 平均単語長と、連続する二つの文字において第1の文字
が与えられたときの第2の文字の条件付き出現確率を示
す文字二つ組確率とを記憶させるプロセスと、 上記日本語文が辞書に登録されていない単語を含む場合
に、上記記憶された平均単語長及び文字二つ組確率に基
づいて、上記文字マトリクスに含まれる部分文字列の中
から、未知語候補として確率が高い順番に任意の個数の
未知語の表記と出現確率の組を求めさせるプロセスと、 正解文字が上記文字候補に含まれていない場合に、文字
マトリクスに含まれる文字列と類似照合する辞書中の単
語を検索し、ある文字がどの文字にどれくらいの頻度で
認識されるかを示す文字混同行列及び文字の図形的特徴
を数値化した文字特徴ベクトルから推定される二つの文
字の間の文字混同確率を記憶させるプロセスと、 単語出現確率を記憶させるプロセスと、 上記記憶された文字混同確率及び単語出現確率に基づい
て上記単語の順位付けを行なわせるプロセスと、 上記文字マトリクスに含まれる辞書中の単語、上記未知
語候補、及び、上記順位付けされた単語を含む単語候補
の組合せの中から、上記日本語文を構成する単語列の同
時確率と上記日本語文を構成する各文字の文字混同確率
との積が大きい順番に任意の個数の単語候補列を提示さ
せるプロセスとからなることを特徴とする日本語文字認
識誤り訂正プログラムを記録した記録媒体。
22. A process of inputting a character matrix which is a list of character candidates arranged in the order of the character recognition score for each character position of a Japanese sentence, and a dictionary for collating with a partial character string included in the character matrix Storing a process of searching for a word inside; a mean word length; and a character pair probability indicating a conditional appearance probability of a second character given a first character in two consecutive characters. Process, when the Japanese sentence includes a word that is not registered in the dictionary, an unknown word is selected from among the partial character strings included in the character matrix based on the stored average word length and the probability of a set of characters. A process of obtaining a set of notations and appearance probabilities of an arbitrary number of unknown words in the order of probability as word candidates, and a process for generating a character map when the correct character is not included in the above character candidates. A character confusion matrix that indicates which words are recognized in which dictionaries and how often a certain character is recognized, and a character feature vector that quantifies the graphic features of the characters A process of storing a character confusion probability between two characters estimated from the following, a process of storing a word appearance probability, and ranking the words based on the stored character confusion probabilities and word appearance probabilities. From the combination of the word in the dictionary included in the character matrix, the unknown word candidate, and the word candidate including the ranked word, and the joint probability of the word string constituting the Japanese sentence and the process A process of presenting an arbitrary number of word candidate strings in the order of increasing the product of the probability of confusion of each character constituting the Japanese sentence. A recording medium on which a character recognition error correction program is recorded.
【請求項23】 ある文字がどの文字にどれくらいの頻
度で認識されるかを与える文字混同頻度を記憶させるプ
ロセスと、 文字の図形的特徴を数値化した文字特徴ベクトルを記憶
させるプロセスと、 互いに距離が近い文字特徴ベクトルを一つにまとめるこ
とにより、上記文字を複数の文字クラスに分類させるプ
ロセスと、 上記文字混同頻度及び上記文字クラスに基づいて、ある
文字クラスの文字がどの文字クラスの文字にどのくらい
の頻度で認識されるかを表す文字クラス混同確率を推定
させるプロセスと、 ある文字がこれまで観測されていない文字に認識される
確率の総和を推定させるプロセスと、 上記未観測事象の確率の総和を文字クラス混同確率に比
例するように配分し、和が1になるように正規化するこ
とにより未観測事象の文字混同確率を求め、観測事象の
確率の総和を文字混同確率に比例するように配分し、全
体の確率の和が1になるように正規化させるプロセスと
により構成され、 文字の図形的類似度に基づいて任意の二つの文字の間の
文字混同確率を与えることを特徴とする文字認識装置モ
デル作成プログラムを記録した記録媒体。
23. A process for storing a character confusion frequency giving which character is recognized as to which character and how often; a process for storing a character feature vector obtained by digitizing the graphic features of the character; A process of classifying the characters into a plurality of character classes by combining character feature vectors that are close to one another, and based on the character confusion frequency and the character class, a character of a character class A process of estimating the probability of character class confusion representing how often it is recognized, a process of estimating the sum of the probabilities that a character is recognized as a character that has not been observed so far, and a process of estimating the probability of the unobserved event. The sum is distributed so as to be proportional to the character class confusion probability, and the characters of the unobserved event are normalized by normalizing the sum to be 1. The same probability is obtained, the sum of the probabilities of the observed events is distributed in proportion to the character confusion probability, and the process is normalized so that the sum of the total probabilities becomes 1. A recording medium storing a character recognition device model creation program, wherein a character confusion probability between any two characters is given based on the program.
JP12761598A 1998-05-11 1998-05-11 Japanese character recognition error correction method and apparatus, and recording medium on which error correction program is recorded Expired - Lifetime JP4066507B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12761598A JP4066507B2 (en) 1998-05-11 1998-05-11 Japanese character recognition error correction method and apparatus, and recording medium on which error correction program is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12761598A JP4066507B2 (en) 1998-05-11 1998-05-11 Japanese character recognition error correction method and apparatus, and recording medium on which error correction program is recorded

Publications (2)

Publication Number Publication Date
JPH11328317A true JPH11328317A (en) 1999-11-30
JP4066507B2 JP4066507B2 (en) 2008-03-26

Family

ID=14964480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12761598A Expired - Lifetime JP4066507B2 (en) 1998-05-11 1998-05-11 Japanese character recognition error correction method and apparatus, and recording medium on which error correction program is recorded

Country Status (1)

Country Link
JP (1) JP4066507B2 (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001283157A (en) * 2000-01-28 2001-10-12 Toshiba Corp Method and program for recognizing word
JP2017033434A (en) * 2015-08-05 2017-02-09 大日本印刷株式会社 Candidate word evaluation device, candidate word evaluation system, program, and candidate word evaluation method
US9940316B2 (en) 2013-04-04 2018-04-10 Sony Corporation Determining user interest data from different types of inputted context during execution of an application
CN110852074A (en) * 2019-11-07 2020-02-28 三角兽(北京)科技有限公司 Method and device for generating correction statement, storage medium and electronic equipment
CN111353025A (en) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 Parallel corpus processing method and device, storage medium and computer equipment
CN111368918A (en) * 2020-03-04 2020-07-03 拉扎斯网络科技(上海)有限公司 Text error correction method and device, electronic equipment and storage medium
CN111665956A (en) * 2020-04-17 2020-09-15 北京百度网讯科技有限公司 Processing method and device of candidate character string, electronic equipment and storage medium
CN111914825A (en) * 2020-08-03 2020-11-10 腾讯科技(深圳)有限公司 Character recognition method and device and electronic equipment
CN112131866A (en) * 2020-09-25 2020-12-25 马上消费金融股份有限公司 Word segmentation method, device, equipment and readable storage medium
CN112257820A (en) * 2019-07-22 2021-01-22 珠海金山办公软件有限公司 Information correction method and device
JP2021043570A (en) * 2019-09-09 2021-03-18 株式会社日立システムズ Character candidate proposal device, handwritten character identification system, handwritten character identification method, and program
KR20210040318A (en) * 2020-06-27 2021-04-13 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 Similarity processing method, apparatus, server and storage medium
CN112861518A (en) * 2020-12-29 2021-05-28 科大讯飞股份有限公司 Text error correction method and device, storage medium and electronic device
CN114970502A (en) * 2021-12-29 2022-08-30 中科大数据研究院 Text error correction method applied to digital government

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001283157A (en) * 2000-01-28 2001-10-12 Toshiba Corp Method and program for recognizing word
US9940316B2 (en) 2013-04-04 2018-04-10 Sony Corporation Determining user interest data from different types of inputted context during execution of an application
JP2017033434A (en) * 2015-08-05 2017-02-09 大日本印刷株式会社 Candidate word evaluation device, candidate word evaluation system, program, and candidate word evaluation method
CN111353025A (en) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 Parallel corpus processing method and device, storage medium and computer equipment
CN111353025B (en) * 2018-12-05 2024-02-27 阿里巴巴集团控股有限公司 Parallel corpus processing method and device, storage medium and computer equipment
CN112257820A (en) * 2019-07-22 2021-01-22 珠海金山办公软件有限公司 Information correction method and device
WO2021049070A1 (en) * 2019-09-09 2021-03-18 株式会社日立システムズ Character candidate proposal device, handwritten character identification system, handwritten character identification method, and program
KR20210032380A (en) * 2019-09-09 2021-03-24 가부시키가이샤 히타치 시스테무즈 Character candidate proposal device, handwritten character identification system, handwritten character identification method and program
JP2021043570A (en) * 2019-09-09 2021-03-18 株式会社日立システムズ Character candidate proposal device, handwritten character identification system, handwritten character identification method, and program
CN110852074A (en) * 2019-11-07 2020-02-28 三角兽(北京)科技有限公司 Method and device for generating correction statement, storage medium and electronic equipment
CN110852074B (en) * 2019-11-07 2023-05-16 腾讯科技(深圳)有限公司 Method and device for generating correction statement, storage medium and electronic equipment
CN111368918A (en) * 2020-03-04 2020-07-03 拉扎斯网络科技(上海)有限公司 Text error correction method and device, electronic equipment and storage medium
CN111368918B (en) * 2020-03-04 2024-01-05 拉扎斯网络科技(上海)有限公司 Text error correction method and device, electronic equipment and storage medium
CN111665956A (en) * 2020-04-17 2020-09-15 北京百度网讯科技有限公司 Processing method and device of candidate character string, electronic equipment and storage medium
KR20210040318A (en) * 2020-06-27 2021-04-13 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 Similarity processing method, apparatus, server and storage medium
JP2021144742A (en) * 2020-06-27 2021-09-24 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Similarity processing method, apparatus, electronic equipment, storage medium, and program
CN111914825A (en) * 2020-08-03 2020-11-10 腾讯科技(深圳)有限公司 Character recognition method and device and electronic equipment
CN111914825B (en) * 2020-08-03 2023-10-27 腾讯科技(深圳)有限公司 Character recognition method and device and electronic equipment
CN112131866A (en) * 2020-09-25 2020-12-25 马上消费金融股份有限公司 Word segmentation method, device, equipment and readable storage medium
CN112861518A (en) * 2020-12-29 2021-05-28 科大讯飞股份有限公司 Text error correction method and device, storage medium and electronic device
CN112861518B (en) * 2020-12-29 2023-12-01 科大讯飞股份有限公司 Text error correction method and device, storage medium and electronic device
CN114970502A (en) * 2021-12-29 2022-08-30 中科大数据研究院 Text error correction method applied to digital government
CN114970502B (en) * 2021-12-29 2023-03-28 中科大数据研究院 Text error correction method applied to digital government

Also Published As

Publication number Publication date
JP4066507B2 (en) 2008-03-26

Similar Documents

Publication Publication Date Title
JP3950535B2 (en) Data processing method and apparatus
JP2991473B2 (en) Character recognition method and phoneme recognition method
US6950555B2 (en) Holistic-analytical recognition of handwritten text
KR100630886B1 (en) Character string identification
Creutz Unsupervised segmentation of words using prior distributions of morph length and frequency
US9875254B2 (en) Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language
US5459809A (en) Character recognition system and method therefor accommodating on-line discrete and cursive handwritten
EP2093700A2 (en) Pattern recognition method, and storage medium which stores pattern recognition program
JP4066507B2 (en) Japanese character recognition error correction method and apparatus, and recording medium on which error correction program is recorded
US20220114340A1 (en) System and method for an automatic search and comparison tool
US11538462B1 (en) Apparatuses and methods for querying and transcribing video resumes
CN112711944B (en) Word segmentation method and system, and word segmentation device generation method and system
CN110837730B (en) Method and device for determining unknown entity vocabulary
US20230298571A1 (en) Apparatuses and methods for querying and transcribing video resumes
US11854537B2 (en) Systems and methods for parsing and correlating solicitation video content
US20230289396A1 (en) Apparatuses and methods for linking posting data
Nagata Japanese OCR error correction using character shape similarity and statistical language model
CN112651590B (en) Instruction processing flow recommending method
JP3309174B2 (en) Character recognition method and device
CN111881678A (en) Domain word discovery method based on unsupervised learning
JP2003331214A (en) Character recognition error correction method, device and program
JP2002183667A (en) Character-recognizing device and recording medium
CN117235137B (en) Professional information query method and device based on vector database
CN115146630B (en) Word segmentation method, device, equipment and storage medium based on professional domain knowledge
CN116932696A (en) Method and device for generating and identifying human phenotype ontology term identification model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071231

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term