JPH03168863A - Method for constituting connection probability dictionary - Google Patents
Method for constituting connection probability dictionaryInfo
- Publication number
- JPH03168863A JPH03168863A JP1310244A JP31024489A JPH03168863A JP H03168863 A JPH03168863 A JP H03168863A JP 1310244 A JP1310244 A JP 1310244A JP 31024489 A JP31024489 A JP 31024489A JP H03168863 A JPH03168863 A JP H03168863A
- Authority
- JP
- Japan
- Prior art keywords
- character
- probability
- concatenation
- key
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 10
- 238000010276 construction Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 1
Landscapes
- Input From Keyboards Or The Like (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
【発明の詳細な説明】
〔産業上の利用分野】
?発明は、電子計算機に入力された日本諸文章の誤字や
脱字を文字間の連接確率が大きい文字に灯正するために
、文字間の連接確率を記憶する辞書構成法に関するもの
である。[Detailed description of the invention] [Industrial application field] ? The present invention relates to a dictionary construction method for storing the probability of concatenation between characters in order to correct misspellings and omissions in Japanese texts input into a computer to characters with a high probability of concatenation between characters.
ワードプロセッサや文字読み取り装置により日本語文章
を計算機に入力する際に誤字や脱字が混入することがあ
る.この入力誤りを自動的に検出し、訂正する方法とし
て、文章中の連続する文字間の組合せの出現頻度のばら
つきに着目し、誤字の周辺の正しい文字と連接確率が高
い文字を訂正候補とする方法が用いられている。When entering Japanese text into a computer using a word processor or character reading device, typos or omissions may occur. As a method for automatically detecting and correcting input errors, we focus on the variation in the frequency of occurrence of combinations between consecutive characters in a sentence, and select characters with a high probability of concatenation with the correct characters surrounding the typo as correction candidates. method is used.
連接確率は,前方の文字列が定まったときに、次に特定
の文字が出現する確率であり、n − 1文字列CLC
,・・・Cn−■の次に文字C0が現われる確率をn文
字列C1C,・・・Cnに対するn文字連接確率連接確
率と呼び、p ( c n l c ic z・・・C
Il−、)で表わす。連接確率は、入力誤りのない大量
の文章(以降、原文データと呼ぶ)に含まれるn文字列
とn−1文字列の出現頻度から、[”式によリ導出する
。導出された連接確率は、連接確率辞書に登録される。The concatenation probability is the probability that a specific character will appear next when the previous character string is determined, and is the probability that a specific character will appear next, and n − 1 character string CLC
,...Cn-■ The probability that character C0 appears next to n character string C1C,...Cn is called the n-character concatenation probability concatenation probability, and p ( c n l c ic z...C
Il-, ). The concatenation probability is derived from the frequency of appearance of n character strings and n-1 character strings contained in a large amount of sentences without input errors (hereinafter referred to as original text data) using the formula [''. The derived concatenation probability is registered in the conjunction probability dictionary.
P(CQI C1C2・C,.)
(n文字列C1C,・・・CI1の出現頻度)? (
CIC,・・・CI1−■)
ここで,文字列Sの出現頻度をA (S)とする.誤字
を訂正するに当っては、人間や文字読み取り装置の誤り
特性に応じた候補文字を誤字位置に挿入する。候補文字
は通常複数化存在し,この中から適切な候補文字を絞り
込む必要がある。P(CQI C1C2・C,.) (frequency of appearance of n character string C1C,...CI1)? (
CIC,...CI1-■) Here, let the frequency of appearance of the character string S be A (S). When correcting typographical errors, candidate characters are inserted at the location of the typographical error in accordance with the error characteristics of humans and character reading devices. There are usually multiple candidate characters, and it is necessary to narrow down the appropriate candidate characters from among them.
候補文字の評価文字の評価関数として、[2コ式におけ
る正字確率Fを定義する。正字確率が高い候補文字は,
隣接する文字と連接確率が高い候補文字であり、正字で
ある可能性が高い.F =QユX Qz X Q3
・・・・・[2]ここで、Q,=P (CL /C■
−20よー1)Q2=P (c..■/Cエー、CL
)・・・[3]Qi=P (Ci.2/Ci Cエ.
1)?iは誤字であり、CL−20■−■は誤字の直前
の2文字であり、CL。、Ci.,は誤字の直後の2文
字である。すなわち、正字確率はCi−2CL−、Cエ
C,や、Ciや2の5文字における文字Cえを含む3つ
の3文字連接確率の積である。As an evaluation function of evaluation characters of candidate characters, [define the probability of correct characters F in the 2-co expression. Candidate characters with a high probability of being correct are
It is a candidate character that has a high probability of concatenation with adjacent characters, and is likely to be an orthographic character. F =QyuX QzX Q3
...[2] Here, Q,=P (CL /C■
-20yo-1) Q2=P (c..■/C A, CL
)...[3]Qi=P (Ci.2/Ci Cd.
1)? i is a typo, and CL-20■-■ are the two characters immediately before the typo, CL. , Ci. , are the two characters immediately after the typo. That is, the orthographic probability is the product of three three-letter concatenation probabilities including the letter C in the five letters Ci-2CL-, C, C, and Ci and 2.
一般に[1]式において文字連接長nを大きくするほど
,原文データを精度よく近似できるので誤字を訂正でき
る能力が高くなる。一方、nが大きくなると、個々の文
字列C1C2・・・coの出現頻度が小さくなる。言語
的に存在しうる文字列C1C2・・・Cnでも、限られ
た原文データの中には文字列が含まれないために、連接
確率辞書に登録されないことが多くなる.このように原
文データが十分大きくないために、[3]式の3文字連
接確率のいづれかが連接確率辞書に登録されていない場
合には、それぞれ次のように2文字連接確率で代用する
。Generally, the larger the character concatenation length n in equation [1], the more accurately the original text data can be approximated, and the higher the ability to correct typos. On the other hand, as n becomes larger, the appearance frequency of each character string C1C2...co becomes smaller. Even though character strings C1C2...Cn may exist linguistically, they are not included in the limited original text data, so they are often not registered in the conjunctive probability dictionary. If any of the 3-character concatenation probabilities in equation [3] are not registered in the concatenation probability dictionary because the original text data is not large enough, the following 2-character concatenation probabilities are substituted for each.
?エ=p (cえ−■/Cい2)
Qx=p (Cl /ci− ) ・・・・
[4]Q,=P (Cエ.1/Cえ )
さらに、[4]式の2文字連接確率のいづれかが登録さ
れていない場合には、それぞれデフォルト値Pd (連
接確率辞書に登録されている連接確率よりも十分に小さ
い値)で代用する。? E=p (ce-■/Ci2) Qx=p (Cl/ci-)...
[4] Q. (Sufficiently smaller than the connection probability).
Q,=Pd
Q,=Pd ・・・・・・・・[5]Q,=Pd
連接確率辞書は[3]式と[4]式の連接確率を登録す
る。Q,=Pd Q,=Pd...[5]Q,=Pd The connection probability dictionary registers the connection probabilities of equations [3] and [4].
第4図に従来の連接確率辞書の構或を示す.第4図にお
いて、1は2文字連接確率登録部であり、2は3文字連
接確率登録部である.3はキ一部であり、2文字列Sk
2(k=1.2,・・・,α)を登録する。4はデータ
部であり、2文字列Sk2の2文字連接確率を登録する
.2文字連接確率登録部1では、2文字列Sk”とその
−2文字連接確率の組からなるレコードからなり,2文
字列Sk”に対する2文字連接確率を検索する.5はキ
一部であり、3文字列Sr’ (r=1.2, ・=
β)を登録する.6はデータ部であり,3文字列Sr
”の3文字連接確率を登録する。3文字連接確率登録部
2では3文字列Sr’とその3文字連接確率の組からな
るレコードからなり,3文字列Sr’に対する3文字連
接確率を検索する。Figure 4 shows the structure of a conventional conjunctive probability dictionary. In FIG. 4, 1 is a 2-character concatenation probability registration section, and 2 is a 3-character concatenation probability registration section. 3 is part of Ki, 2 character string Sk
2 (k=1.2, . . . , α) is registered. 4 is a data section in which the probability of two characters concatenating in the two character string Sk2 is registered. The two-character concatenation probability registration unit 1 consists of records consisting of a pair of two-character string Sk'' and its -2-character concatenation probability, and searches for the two-character concatenation probability for the two-character string Sk''. 5 is the key part, and the 3 character string Sr' (r=1.2, ・=
β) is registered. 6 is the data part, 3 character strings Sr
The 3-character concatenation probability of " is registered. The 3-character concatenation probability registration unit 2 consists of a record consisting of a set of a 3-character string Sr' and its 3-character concatenation probability, and searches for the 3-character concatenation probability for the 3-character string Sr'. .
連接確率を求める手順を第5図に示す。The procedure for determining the connection probability is shown in FIG.
ここで、3文字列Sr3キーを順にCL−2Cい,Cエ
,Cエー1CえC。1,CICIや,Cえ.2に設定す
ることにより、それぞれQエ、Q2、Q3を求める。ま
た、3文字列Sr3キーは、2文字列Sk”と文字Ck
lI(m=1.2,−,δlkl、ここで、δ,k.は
先頭2文字がSk”である3文字列Sr3キーの個数で
ある)で表わす.
この手順の基本的な考え方は次の通りである.■.3文
字列Sr3をキーとして3文字連接確率登録部2を検索
する(ステップ501)。そして、3文字列Sr’キー
に対応するレコードL,があれば、3文字列Sr3キー
に対応するレコードL,から3文字列Sr3の連接確率
を読み出す(ステップ506)。Here, press the 3 character string Sr3 keys in order: CL-2C, C, C, 1C, C. 1, CICI, C. By setting it to 2, Qe, Q2, and Q3 are obtained, respectively. Also, the 3-character string Sr3 key is the 2-character string Sk” and the character Ck.
It is expressed as lI (m = 1.2, -, δlkl, where δ, k. is the number of 3-character string Sr3 keys whose first two characters are ``Sk''). The basic idea of this procedure is as follows. As shown below.■.Search the 3-character concatenation probability registration unit 2 using the 3-character string Sr3 as a key (step 501).If there is a record L corresponding to the 3-character string Sr' key, the 3-character string The concatenation probability of the three character string Sr3 is read from the record L corresponding to the Sr3 key (step 506).
■.3文字列Sr”キーに対応するレコードL,がなけ
れば(ステップ502)、2文字列Sk”をキーとして
2文字連接確率登録部1を検索する(ステップ503)
.そして,2文字列キーSk”に対応するレコードL,
があれば,2文字列Sr3キーに対応するレコードL2
から2文字列Sk”の連接確率を読み出す(ステップ5
05)。■. If there is no record L corresponding to the 3-character string Sr'' key (step 502), the 2-character concatenation probability registration unit 1 is searched using the 2-character string Sk'' as a key (step 503).
.. Then, the record L corresponding to the 2-character string key “Sk”,
If there is, the record L2 corresponding to the 2-character string Sr3 key
Read the concatenation probability of two character strings Sk” from (Step 5
05).
■.さらに、2文字列Sk”に対応するレコードがなけ
れば(ステップ504)、連接確率としてデフォルト値
Pdを設定する(ステップ507)。■. Further, if there is no record corresponding to the two-character string Sk'' (step 504), a default value Pd is set as the concatenation probability (step 507).
しかしながら,従来の連接確率辞書では,最初に3文字
列キーで3文字連接確率登録部2を検索していた.一般
に3文字連接確率が登録されてないことが多く、この場
合には2文字列キーで2文字連接確率登録部1を検索す
ることによって代用の2文字連接確率を求める必要があ
る.このため、辞書検索回数が多くなり、誤字の訂正時
間が大きくなるという問題があった.
本発明は、前記問題点を解決するためになされたもので
ある。However, in the conventional concatenation probability dictionary, the 3-character concatenation probability registration section 2 is first searched using the 3-character string key. Generally, the three-character concatenation probability is often not registered, and in this case, it is necessary to find a substitute two-character concatenation probability by searching the two-character concatenation probability registration section 1 using the two-character string key. As a result, there was a problem in that the number of dictionary searches increased and the time required to correct typos increased. The present invention has been made to solve the above problems.
本発明の目的は、辞書検索回数を削減し,かつ高速に検
索できる連接確率辞書の構成法を提供することにある。An object of the present invention is to provide a method for configuring a conjunctive probability dictionary that can reduce the number of times the dictionary is searched and can be searched at high speed.
本発明の前記ならびにその他の目的と新規な特徴は、本
明細書の記述及び添付図面によって明らかになるであろ
う。The above and other objects and novel features of the present invention will become apparent from the description of this specification and the accompanying drawings.
前記目的を達成するために、本発明は、2文字列をキー
とし、2文字列の連接確率と.3文字連接確率ポインタ
と3文字連接確率検索数を登録するレコードからなる2
文字連接確率登録部と,3文字列の末尾の1文字をキー
とし、3文字列の連接確率を登録するレコードからなり
、前記3文字連接確率ポインタと3文字連接確率検索数
から限定される3文字連接確率登録部を有する連接確率
辞書の構成法であって、前記2文字列をキーとして2文
字連接確率登録部を検索し、対応するレコードの3文字
連接確率検索数が′″O ljであれば、3文字連接確
率の検索を行なわず、3文字連接確率検索数が” 0
++でなければ、3文字連接確率登餘部のレコードの集
合を検索することを最も主要な特徴とする。In order to achieve the above object, the present invention uses two character strings as keys, and calculates the concatenation probability of the two character strings and . 2 consisting of a record that registers the 3-character concatenation probability pointer and the number of 3-character concatenation probability searches.
It consists of a character concatenation probability registration unit and a record that registers the concatenation probability of the 3-character string using the last character of the 3-character string as a key, and is limited by the 3-character concatenation probability pointer and the number of 3-character concatenation probability searches. A construction method of a conjunctive probability dictionary having a character concatenation probability registration section, in which the two-character concatenation probability registration section is searched using the two character strings as a key, and the number of three-character concatenation probability searches for the corresponding record is ''O lj. If there is, the search for 3-character concatenation probability will not be performed, and the number of 3-character concatenation probability searches will be "0"
If it is not ++, the main feature is to search for a set of records in the 3-letter concatenation probability section.
前述の手段によれば、連接確率を求めるために、まず、
2文字列キーにより2文字連接確率登録部を検索し,対
応するレコードの3文字連接確率検索数がit O l
7であれば、3文字連接確率の検索を行わないので、3
文字列キーに対応するレコードが3文字連接確率登録部
に存在しないことを2文字連接確率登録部を検索した時
点で検出し、無駄な検索を排除することができる.
前記3文字連接確率検索数が゛O″でなければ、3文字
列キーに対応するレコードが存在し、このとき,3文字
連接確率ポインタと3文字連接確率検索数から限定され
る3文字連接確率登録部のレコードの集合を検索するこ
とにより,検索対象となる3文字連接確率登録部の範囲
を限定するので、検索時間を削減することができる.
すなわち、2文字連接確率登録部は、2文字連接確率を
登録するとともに、3文字連接確率登録部の検索範囲を
限定するインデックスとなっている。According to the above-mentioned means, in order to find the connection probability, first,
Search the 2-character concatenation probability registration section using the 2-character string key, and find the number of 3-character concatenation probability searches for the corresponding record.
If it is 7, the search for 3-character concatenation probability is not performed, so 3
It is possible to detect that a record corresponding to a character string key does not exist in the 3-character concatenation probability registration section when searching the 2-character concatenation probability registration section, thereby eliminating unnecessary searches. If the number of 3-character concatenation probability searches is not ``O'', there is a record corresponding to the 3-character string key, and in this case, the 3-character concatenation probability is limited from the 3-character concatenation probability pointer and the 3-character concatenation probability search number. By searching the set of records in the registration section, the range of the 3-character concatenation probability registration section to be searched is limited, so the search time can be reduced.In other words, the 2-character concatenation probability registration section is This is an index that not only registers the concatenation probability but also limits the search range of the three-character concatenation probability registration section.
これらにより、辞書の検索を高速化することができる。These make it possible to speed up dictionary searches.
以下、本発明の一実施例を図面を用いて具体的に説明す
る。Hereinafter, one embodiment of the present invention will be specifically described using the drawings.
第1図は,本発明の連接確率辞書構l戊法の一実施例を
説明するための連接確率辞書の構成を示す図である。FIG. 1 is a diagram showing the structure of a conjunctive probability dictionary for explaining an embodiment of the conjunctive probability dictionary structure method of the present invention.
第1図において、”は2文字連接確率登録部であり、1
2は3文字連接確率登録部である。13はキ一部であり
、2文字列Sk2(k=1.2,・・・,α)を登録す
る。14はデータ部であり、2文字列Sk’″の2文字
連接確率を登録する。15は3文字連接確率ポインタ部
であり、3文字連接確率ポインタを登録する.16は3
文字連接確率検索数登録部であり、3文字連接確率検索
数を登録する。2文字連接確率登録部”は2文字列Sk
2.2文字連接確率,3文字連接確率ポインタ,3文字
連接確率検索数の組を登録するレコードからなる。In FIG. 1, "" is a two-character concatenation probability registration part, and 1
2 is a three-character concatenation probability registration section. Reference numeral 13 is a key part, in which two character strings Sk2 (k=1.2, . . . , α) are registered. Reference numeral 14 is a data section, in which the 2-character concatenation probability of the 2-character string Sk''' is registered. 15 is a 3-character concatenation probability pointer section, in which the 3-character concatenation probability pointer is registered. 16 is 3.
This is a character concatenation probability search number registration unit that registers the number of three-character concatenation probability searches. 2-character concatenation probability registration part” is 2-character string Sk
2. Consists of records that register sets of 2-character concatenation probability, 3-character concatenation probability pointer, and 3-character concatenation probability search number.
17はキ一部であり、3文字列Sr3( =Sk”Ck
ll)キーを登録する。一般に原文データ中に特定の3
文字列が存在すれば、その3文字列の先頭2文字からな
る2文字列が必ず原文データ中に存在する。17 is the key part, and the 3 character string Sr3 (=Sk”Ck
ll) Register the key. In general, there are three specific
If a character string exists, two character strings consisting of the first two characters of the three character strings are sure to exist in the original data.
すなわち,連接確率辞書に3文字列Sr3(=Sk”C
k,)キーが登録されていれば、その3文字列Sr3(
=Sk2Ck,)の先頭2文字からなる2文字列Sk”
キーは必ず登録される.したがって、3文字列Sr3(
=Sk”Ck.)キーの末尾の文字Ck.のみをキ一部
17に登録することにより、キ一部17のメモリ量を削
減する。18はデータ部であり、3文字列Sr”キーの
連接確率を登録する。In other words, the 3-character string Sr3 (=Sk”C
k,) key is registered, the 3-character string Sr3(
2-character string Sk” consisting of the first two characters of =Sk2Ck,)
The key is always registered. Therefore, the 3-character string Sr3(
=Sk"Ck.) By registering only the last character Ck. of the key in the key part 17, the memory amount of the key part 17 is reduced. 18 is a data part, and the 3 character string Sr" key is Register the connection probability.
本実施例の連接確率辞書を検索する手順を第2図に示す
。FIG. 2 shows the procedure for searching the conjunction probability dictionary in this embodiment.
まず,最初に3文字列Sr3(=Sk”Ck.)キーの
先頭2文字列Sk”をキーとして2文字連接確率登録部
”を検索する(ステップ201).次に,前記2文字列
Sk”キーが2文字連接確率登録部”に存在するか否か
を検出し(ステップ2O2)、前記2文字列Sk2キー
が存在しない場合、すなわち,2文字列Sk”キーに対
応するレコードL2がなければ(No).連接確率とし
てデフォルト値Pdを設定する(ステップ203).前
記2文字列Sk”キーが存在する場合、すなわち、2文
字列Sk2キーに対応するレコードL2があれば(YE
S)、そのレコードL2を読み出し(ステップ204)
,そのレコードL2の3文字連接確率検索数が′゛O′
″であるか否かを検出し(ステップ205)、そのレコ
ードL2の3文字連接確率検索数が″′O″である(Y
ES)場合は、レコードL2から2文字列Sk2の連接
確率を読み出す(ステップ206)。レコードL2の3
文字連接確率検索数がit O #jでない(No)場
合は、3文字連接確率ポインタが指示するレコードを先
頭として3文字連接確率検索数個分のレコードを検索対
象とし、3文字列Sr3キーの末尾の文字Ckllをキ
ーとして3文字連接確率登録部12を検索する(ステッ
プ207)。First, the two-character concatenation probability registration section " is searched using the first two character strings Sk" of the three-character string Sr3 (=Sk"Ck.) key as a key (step 201). Next, the two-character string Sk" is searched. It is detected whether or not the key exists in the 2-character concatenation probability registration unit (Step 2O2), and if the 2-character string Sk2 key does not exist, that is, if there is no record L2 corresponding to the 2-character string Sk” key, (No). A default value Pd is set as the connection probability (step 203). If the 2-character string Sk” key exists, that is, if there is a record L2 corresponding to the 2-character string Sk2 key (YE
S), read the record L2 (step 204)
, the number of 3-character concatenation probability searches for record L2 is ′゛O′
” (step 205), and the number of 3-character concatenation probability searches for the record L2 is “O” (Y
ES), the concatenation probability of the two character strings Sk2 is read from the record L2 (step 206). Record L2 3
If the number of character concatenation probability searches is not it O #j (No), the record indicated by the 3-character concatenation probability pointer is the first record, and the records corresponding to the number of 3-character concatenation probability searches are searched, and the 3-character string Sr3 key is searched. The three-character concatenation probability registration unit 12 is searched using the last character Ckll as a key (step 207).
次に、前記文字Ck,が3文字連接確率登録部12に存
在するか否かを検出し(ステップ208)、前記文字C
k,キーが存在する(YES)場合、すなわち、文字C
k,キーに対応するレコードL3があれば(YES),
そのレコードL3を読み出し、そのレコードL3から3
文字列Sr3の連接確率を読み出す(ステップ209)
。前記文字Ck.キーが存在しない(No)場合,すな
わち、文字Ck,キーに対応するレコードL3がないの
で、その代りにレコードL,から2文字列S1の連接確
率を読み出す(ステップ210)。Next, it is detected whether or not the character Ck exists in the 3-character concatenation probability registration unit 12 (step 208), and the character Ck,
k, if the key exists (YES), i.e. the character C
k, if there is a record L3 corresponding to the key (YES),
Read that record L3, and 3 from that record L3.
Read the concatenation probability of character string Sr3 (step 209)
. The character Ck. If the key does not exist (No), that is, since there is no record L3 corresponding to the character Ck and the key, the concatenation probability of the two character strings S1 is read from the record L instead (step 210).
以上の説明からわかるように、本発明の連接確率辞書を
検索する手順の基本的な考え方は、次の通りである。As can be seen from the above description, the basic idea of the procedure for searching the conjunctive probability dictionary of the present invention is as follows.
■.文字列Sk”をキーとして2文字連接確率登録部1
工を検索する。■. 2-character concatenation probability registration unit 1 using the character string “Sk” as a key
Search for engineering.
■.2文字列Sk”キーに対応するレコードL2がなけ
れば、連接確率としてデフォルト値Pdを設定する.
■.2文字列Sk”キーに対応するレコードL,があれ
ば、そのレコードL2の3文字連接確率検索数が“O”
でないときのみ、文字Ck.をキーとして3文字連接確
率ポインタと3文字連接確率検索数で限定できるレコー
ド集合に対して、3文字連接確率登録部12を検索する
.3文字連接確率検索数が” 0 71であれば、3文
字連接確率登録部12に3文字列Sr3の連接確率が登
録されていないので,代わりにレコードL2から2文字
列Sk”の連接確率を読み出す。■. If there is no record L2 corresponding to the 2-character string Sk" key, a default value Pd is set as the concatenation probability. ■.If there is a record L, corresponding to the 2-character string Sk" key, the 3-character concatenation of that record L2 Probability search number is “O”
Only when the character Ck. Using as a key, the 3-character concatenation probability registration unit 12 is searched for a record set that can be limited by the 3-character concatenation probability pointer and the 3-character concatenation probability search number. If the number of 3-character concatenation probability searches is "0 71," the concatenation probability of the 3-character string Sr3 is not registered in the 3-character concatenation probability registration unit 12, so the concatenation probability of the 2-character string Sk'' is obtained from the record L2 instead. read out.
■.文字Ck.に対応するレコードかあれば、レコード
L,から3文字列Sr3の連接確率を読み出す。■. Letter Ck. If there is a record corresponding to , the concatenation probability of the 3-character string Sr3 is read from the record L.
文字Ck,キーに対応するレコードがなければ、レコー
ドL2から2文字列Sk”の連接確率を読み出す。If there is no record corresponding to the character Ck and the key, the concatenation probability of the two character strings Sk'' is read from the record L2.
第3図は,本発明の対象となる連接確率辞書の一実施例
の具体例を示す図であり,2文字連接確率登録部”では
、2字列『交流」,「国際」,および「個性」をキーと
するレコードにそれぞれの2文字連接確率o.s,o.
gおよび0.1が登録されている例である.
3文字連接確率登録部12では,文字r語」,「色」,
r的」,「法」に対するレコードはそれぞれ3文字列r
国際語」,「国際色」,「国際的」,「国際法』の連接
確率0.2,0.4,0.3,O.王が登録されている
.これらのレコードは2文字連接確率登録部”の2文字
列r国際」に対する3文字連接確率ポインタと3文字連
接確率検索数(=4)から限定される.
文字「化」,r派」をキーとするレコードはそれぞれ3
文字列「個性化」,「個性派」の連接確率0.6,0.
4が登録されている。これらのレコードは2文字連接確
率登録部”の2文字列「個性一をキーとするレコード上
の3文字連接確率ポインタと3文字連接確率検索数(=
2)から限定される。2文字連接確率登録部”の2文字
列「交流」をキーとするレコードの3文字連接確率検索
数はat O uである。したがって、2文字列「交流
」を先頭2文字とする3文字列をキーとするレコードは
3文字連接確率登録部12に存在しないことが分かる.
次に、従来の連接確率辞書構成法と本実施例の連接確率
辞書構或法の検索時間を評価する。評価の簡単のために
,次の仮定を置く。FIG. 3 is a diagram showing a specific example of an embodiment of the conjunctive probability dictionary that is the object of the present invention. ” for each two-character concatenation probability o. s, o.
In this example, g and 0.1 are registered. In the 3-character concatenation probability registration unit 12, the 3-character concatenation probability registration unit 12 stores
The records for “r” and “ho” are each 3 character strings r
Conjunction probabilities of ``International language'', ``International color'', ``International'', and ``International law'' are registered as 0.2, 0.4, 0.3, and O. Wang.These records have 2-letter concatenation probabilities. It is limited by the 3-letter concatenation probability pointer and the number of 3-letter concatenation probability searches (=4) for the 2-character string r international in the registration section. There are 3 records each with the characters ``ka'' and ``r-ha'' as keys.
The concatenation probability of the character strings “individualization” and “individualization” is 0.6, 0.
4 are registered. These records are the 2-character string ``The 3-character concatenation probability pointer on the record whose key is ``2-character concatenation probability registration section'' and the 3-character concatenation probability search number (=
2). The number of 3-character concatenation probability searches for records with the 2-character string ``AC'' as a key in the ``2-character concatenation probability registration section'' is at O u. Therefore, it can be seen that there is no record in the 3-character concatenation probability registration unit 12 that has a 3-character string whose first two characters are the 2-character string "AC" as a key. Next, the search time of the conventional conjunctive probability dictionary construction method and the conjunctive probability dictionary construction method of this embodiment will be evaluated. To simplify the evaluation, we make the following assumptions.
■.全ての字種の文字の出現頻度が等しい.■.連接確
率辞書の全てのレコードに対して、レコードを検索する
確率が等しい。■. Characters of all character types have the same frequency of appearance. ■. The probability of retrieving a record is equal for all records in the connection probability dictionary.
文字の種類の数をA,2文字列キーの個数をα,3文字
列キーの個数をβとすると、
(従来の連接確率辞書構成法の検索時間)■ (3文字
連接確率登録部の検索時間)+(3文字連接確率登録部
にキーが登録されていない確率)×(2文字連接確率登
録部の検索時間)
= log β+(工−β/A3) Xlog ct”
・[6](本実施例の連接確率辞書構成法の検索時間)
cx:(2文字連接確率登録部の検索時間)+(3文字
連接確率登録部にキーが登録されている確率)×(3文
字連接確率登録部の検索時間)
=10gα+(β/A”) Xlog(β/α)・・・
[7]第3図の具体例において、α=3,β=6である
。また、日本語の文字の種類をA=7000とする。こ
れらを[6]式、[7]式に代入すると、(従来の連接
確率辞書構或法の検索時間) (X:2.6(本実施例
の連接確率辞書構成法の検索時間)ccl,6すなわち
、検索時間を約4割(40%)削減できる。Assuming that the number of character types is A, the number of 2-character string keys is α, and the number of 3-character string keys is β, (Search time of conventional conjunctive probability dictionary construction method) time) + (probability that the key is not registered in the 3-character concatenation probability registration section) x (search time of the 2-character concatenation probability registration section) = log β + (engine - β / A3) Xlog ct"
・[6] (Search time of conjunctive probability dictionary construction method of this embodiment)
cx: (Search time of 2-letter concatenation probability registration section) + (Probability that a key is registered in 3-character conjunctive probability registration section) x (Search time of 3-character conjunctive probability registration section) = 10gα + (β/A'') Xlog(β/α)...
[7] In the specific example of FIG. 3, α=3 and β=6. Also, assume that the types of Japanese characters are A=7000. Substituting these into equations [6] and [7], (search time of conventional conjunctive probability dictionary construction method) (X: 2.6 (search time of conjunctive probability dictionary construction method of this embodiment) ccl, 6. In other words, the search time can be reduced by about 40% (40%).
以上の説明からわかるように,本実施例によれば、連接
確率を求めるために,まず2文字列S1キーにより2文
字連接確率登録部”を検索し、対応するレコードの3文
字連接確率検索数がtg O tpであれば、3文字連
接確率の検索を行わないので、3文字列Sr3(=Sk
”Ck.)キーに対応するレコードが3文字連接確率登
録部12に存在しないことを2文字連接確率登録部”を
検索した時点で検出し、無駄な検索を排除することがで
きる.前記3文字連接確率検索数がri O tpでな
ければ、3文字列Sr3(=Sk”Ck,)キーに対応
するレコードが存在し、このとき、3文字連接確率ポイ
ンタと3文字連接確率検索数から限定される3文字連接
確率登録部12のレコードの集合を検索することにより
、検索対象となる3文字連接確率登録部12の範囲を限
定するので,検索時間を削減することができる。これら
により、辞書検索を高速化することができる。As can be seen from the above explanation, according to this embodiment, in order to obtain the concatenation probability, first, the 2-character concatenation probability registration field is searched using the 2-character string S1 key, and the number of 3-character concatenation probability searches for the corresponding record is If tg O tp, the 3-character string Sr3 (=Sk
It is possible to detect that the record corresponding to the ``Ck.) key does not exist in the 3-character concatenation probability registration section 12 at the time of searching the 2-character concatenation probability registration section'', thereby eliminating unnecessary searches. If the number of 3-character concatenation probability searches is not ri O tp, there is a record corresponding to the 3-character string Sr3 (=Sk”Ck,) key, and in this case, the 3-character concatenation probability pointer and the 3-character concatenation probability search number By searching the set of records in the 3-character concatenation probability registration section 12 that is limited from , it is possible to speed up dictionary searches.
以上、本発明を前記実施例に基づき具体的に説明したが
、本発明は,前記実施例に限定されるものではなく、そ
の要旨を逸脱しない範囲において種々変更可能であるこ
とは言うまでもない。Although the present invention has been specifically described above based on the embodiments described above, it goes without saying that the present invention is not limited to the embodiments described above, and can be modified in various ways without departing from the gist thereof.
以上,説明したように,本発明によれば,3文字連接確
率を検索する場合に次の効果が得られる。As described above, according to the present invention, the following effects can be obtained when searching for three-character concatenation probability.
■.3文字連接確率が登録されてない場合を、3文字連
接確率検索数により検出でき、無駄な検索を省くことが
できるので、検索時間を短縮できる。■. A case where a 3-character concatenation probability is not registered can be detected by the number of 3-character concatenation probability searches, and unnecessary searches can be omitted, so that the search time can be shortened.
■.3文字連接確率が登録されている場合にも,3文字
連接確率ポインタと3文字連接確率検索数から検索範囲
を限定できるので、検索時間を短縮できる。■. Even if the 3-character concatenation probability is registered, the search range can be limited from the 3-character concatenation probability pointer and the 3-character concatenation probability search number, so the search time can be shortened.
第1図は、本発明の連接確率辞書構成法の一実施例を説
明するための連接確率辞書の構戊を示す図、
第2図は、本発明の連接確率辞書構威法の一実施例の連
接確率辞書を検索する手順を示す図、第3図は、本発明
の対象となる連接確率辞書の一実施例の具体例を示す図
、
第4図は、従来の連接確率辞書の構或図,第5図は、従
来の連接確率辞書の検索手順を示す図である。
図中、1・・・2文字連接確率登録部、2・・・3文字
連接確率登録部,3・・・キ一部、4・・・データ部、
5・・キ一部、6・・・データ部、”・・・2文字連接
確率登録部、12・・・3文字連接確率登録部、13・
・・キ一部、14・・・データ部、15・・・3文字連
接確率ポインタ、16・・・3文字連接確率検索数、1
7・・・キ一部、18・・・データ部。FIG. 1 is a diagram showing the structure of a conjunctive probability dictionary for explaining an embodiment of the conjunctive probability dictionary construction method of the present invention, and FIG. 2 is an example of the conjunctive probability dictionary construction method of the present invention. FIG. 3 is a diagram showing a specific example of an embodiment of the conjunctive probability dictionary that is the subject of the present invention. FIG. 4 is a diagram showing the structure of the conventional conjunctive probability dictionary. 5 are diagrams showing a conventional search procedure for a conjunctive probability dictionary. In the figure, 1... 2-character concatenation probability registration section, 2... 3-character concatenation probability registration section, 3... Part of Ki, 4... Data section,
5... Ki part, 6... Data section, ``... 2-character concatenation probability registration section, 12... 3-character concatenation probability registration section, 13.
... Ki part, 14... Data part, 15... 3-character concatenation probability pointer, 16... 3-character concatenation probability search number, 1
7...Ki part, 18...Data part.
Claims (1)
文字連接確率ポインタと3文字連接確率検索数を登録す
るレコードからなる2文字連接確率登録部と、3文字列
の末尾の1文字をキーとし、3文字列の連接確率を登録
するレコードからなり、前記3文字連接確率ポインタと
3文字連接確率検索数から限定される3文字連接確率登
録部を有する連接確率辞書の構成法であって、前記2文
字列をキーにより2文字連接確率登録部を検索し、対応
するレコードの3文字連接確率検索数が“0”であれば
、3文字連接確率の検索を行なわず、3文字連接確率検
索数が“0”でなければ、3文字連接確率登録部のレコ
ードの集合を検索することを特徴とする連接確率辞書構
成法。(1) Using two character strings as keys, the concatenation probability of two character strings, and 3
A 2-character concatenation probability registration section consisting of a record for registering a character concatenation probability pointer and a 3-character concatenation probability search number, and a record for registering the concatenation probability of 3-character strings using the last character of the 3-character string as a key, A construction method of a conjunctive probability dictionary having a 3-character concatenated probability registration section limited from the 3-character concatenated probability pointer and the 3-character concatenated probability search number, wherein the 2-character concatenated probability registration section is searched using the 2-character string as a key. However, if the number of 3-letter concatenation probability searches for the corresponding record is "0", the 3-letter concatenation probability search is not performed, and if the 3-letter concatenation probability search number is not "0", the 3-letter concatenation probability registration section A conjunctive probability dictionary construction method characterized by searching a set of records.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1310244A JPH03168863A (en) | 1989-11-28 | 1989-11-28 | Method for constituting connection probability dictionary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1310244A JPH03168863A (en) | 1989-11-28 | 1989-11-28 | Method for constituting connection probability dictionary |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03168863A true JPH03168863A (en) | 1991-07-22 |
Family
ID=18002913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1310244A Pending JPH03168863A (en) | 1989-11-28 | 1989-11-28 | Method for constituting connection probability dictionary |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03168863A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11134335A (en) * | 1997-10-30 | 1999-05-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Character error calibrating device |
-
1989
- 1989-11-28 JP JP1310244A patent/JPH03168863A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11134335A (en) * | 1997-10-30 | 1999-05-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Character error calibrating device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH03168863A (en) | Method for constituting connection probability dictionary | |
JP2828692B2 (en) | Information retrieval device | |
JPS6336031B2 (en) | ||
JPS58115529A (en) | Dictionary retrieving system | |
JP3241854B2 (en) | Automatic word spelling correction device | |
JPH0785040A (en) | Inscription nonuniformity detecting method and kana/ kanji converting method | |
JP3351397B2 (en) | Chinese input device and Chinese input method | |
JPH06168270A (en) | Character string retrieval system using index and preparing device for index | |
JPH03208162A (en) | Input device | |
JP2835065B2 (en) | String search method | |
JP3135221B2 (en) | Example-driven language structure analyzer | |
JP3005531B1 (en) | Dictionary data search method and apparatus, search dictionary and index creation method | |
JP2634596B2 (en) | Kana-Kanji conversion device | |
Greenfield et al. | Open source natural language processing | |
JPH05120325A (en) | Electronic dictionary | |
JP2773657B2 (en) | String search device | |
JP2003316784A (en) | Electronic dictionary | |
JPH0221623B2 (en) | ||
Corfis | " Antón de Montoro, Poesía completa". Ed. Marithelma Costa (Book Review) | |
JPH01304574A (en) | Index builder for table of contents | |
JPH0625990B2 (en) | Chinese automatic division input method | |
JPH03102465A (en) | Character combination probability dictionary comprising method | |
JPH05216870A (en) | System for standardizing name written in kana | |
JPS59186026A (en) | Method of kana-kanji conversion | |
JPH0610804B2 (en) | Kana-Kanji converter |