JP2001216294A - Kana/kanji conversion method, kana/kanji converter, and recording medium having kana/kanji conversion program recorded thereon - Google Patents

Kana/kanji conversion method, kana/kanji converter, and recording medium having kana/kanji conversion program recorded thereon

Info

Publication number
JP2001216294A
JP2001216294A JP2000026380A JP2000026380A JP2001216294A JP 2001216294 A JP2001216294 A JP 2001216294A JP 2000026380 A JP2000026380 A JP 2000026380A JP 2000026380 A JP2000026380 A JP 2000026380A JP 2001216294 A JP2001216294 A JP 2001216294A
Authority
JP
Japan
Prior art keywords
phrase
longest
kana
kanji conversion
reading length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000026380A
Other languages
Japanese (ja)
Inventor
Takeyuki Aikawa
勇之 相川
Katsushi Suzuki
克志 鈴木
Yasuhiro Takayama
泰博 高山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000026380A priority Critical patent/JP2001216294A/en
Publication of JP2001216294A publication Critical patent/JP2001216294A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To perform a suitable Kana (Japanese syllabary)/Kanji (Chinese character) conversion in a small-sized equipment by performing the high-speed processing of writing with a space between words. SOLUTION: This method is composed of a step for extracting a clause shape based on a dictionary, a step for selecting the extracted clause shape by a read length and turning it to a front clause candidate, a step for extracting the clause shape following the front clause candidate based on the dictionary, turning it to a rear clause candidate and extracting the longest two clauses composed of the combination of the front clause candidate and the rear clause candidate, the step for selecting one of the longest two clauses in the case that two or more of the longest two clauses are extracted and the step for performing Kanji conversion for the front clause.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、仮名漢字変換方
法、仮名漢字変換装置および仮名漢字変換プログラムを
記録した記録媒体に係り、更に詳しくは、例えば携帯電
話、携帯情報端末等で日本語文字列を入力するときに利
用可能な仮名漢字変換装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a kana-kanji conversion method, a kana-kanji conversion device, and a recording medium on which a kana-kanji conversion program is recorded. The present invention relates to a kana-kanji conversion device that can be used when inputting a.

【0002】[0002]

【従来の技術】計算機や日本語ワープロなどにおいて日
本語を入力する手段として、べた書きの仮名文字列を読
みとして入力し、これを漢字仮名混じり文に変換する仮
名漢字変換方式が用いられている。仮名漢字変換処理に
おいては、入力読み文字列を単語に分割するための分か
ち書き処理が必須である。こうした分かち書き処理の代
表的な手法として、二文節最長一致法による分かち書き
手法が文献1(「べた書き文の分かち書きと仮名漢字変
換―二文節最長一致法による分かち書き―」、牧野、木
澤、情報処理学会論文誌 Vol.20 No.4 pp.337-345. (19
79))において開示されており、変換精度のよいことが知
られている。また、文献1の手法を改良し、記憶領域を
節約しかつ高速化した手法が文献2(特開昭62-25195
9)において開示されている。
2. Description of the Related Art As a means for inputting Japanese in a computer or a Japanese word processor, a kana-kanji conversion method is used in which a solid kana character string is inputted as a reading and converted into a sentence mixed with kanji kana. . In the kana-kanji conversion process, it is necessary to perform a segmentation process for dividing an input reading character string into words. As a representative method of such segmentation processing, the segmentation method using the two-phrase longest-matching method is described in Reference 1 ("Separation of solid sentences and kana-kanji conversion-segmentation by the two-phrase longest-matching method", Makino, Kizawa, IPSJ Transactions Vol.20 No.4 pp.337-345. (19
79)), and it is known that conversion accuracy is good. Further, a technique in which the technique of Reference 1 is improved to save storage area and speed up is described in Reference 2 (Japanese Patent Laid-Open No. 62-25195).
9).

【0003】図14を参照しながら文献2で開示された
分かち書き手法について説明する。ステップG1では総当
り文節候補抽出手段により、入力文字列に対して文頭か
ら総当りで文節変換を行なう。総当り文節候補抽出手段
では、各自立語について最長と考えられる文節のみをそ
れぞれ抽出する。つぎにステップG2では優先順位決定手
段により、上記ステップG1において求められたすべての
文節候補に優先順位をつける。具体的には文節長の最大
の文節のなかから自立語の最長のものを選択して第1位
の文節とする。同様にして、次に長い文節を第2位の文
節とする。
[0003] Referring to FIG. 14, a description will be given of a dividing method disclosed in Reference 2. In step G1, the brute force phrase candidate extraction means performs phrase conversion on the input character string from the beginning of the sentence to the brute force. The brute-force phrase candidate extraction means extracts only the longest possible phrase for each independent word. Next, in step G2, priority is given to all the phrase candidates obtained in step G1 by the priority order determining means. Specifically, the longest independent word is selected from the longest clause length clauses, and is set as the first-ranked clause. Similarly, the next longest phrase is the second-ranked phrase.

【0004】こうして得られた第1位の文節および第2
位の文節に対して、ステップG3およびステップG5におい
て二文節最長一致法を適用し、その結果得られた二文節
の長さをステップG4およびステップG6において、それぞ
れ変数lおよび変数mに格納する。つぎにステップG7に
おいて変数lと変数mとを比較し、どちらかの値が大き
ければ、値の大きな、すなわち二文節の長さの長いほう
を採用して、ステップG12において文節エリアに格納す
る。ステップG7において変数lと変数mの値が等しい場
合には、ステップG10において別の尺度(自立語長さ、
頻度情報)による比較を行ない、いずれかの解を決定す
る。さらにステップG13において、入力読み文字列をす
べて処理し終えたかどうかを判定し、未処理文字列があ
ればステップG1に戻って処理を繰り返す。
[0004] The first-ranked phrase and the second
The two clause longest matching method is applied to the second clause in steps G3 and G5, and the lengths of the two clauses obtained as a result are stored in variables l and m in steps G4 and G6, respectively. Next, in step G7, the variable 1 and the variable m are compared. If either value is larger, the larger value, that is, the longer one of the two clauses is adopted and stored in the clause area in step G12. If the value of the variable l is equal to the value of the variable m in step G7, another measure (independent word length,
Frequency information) to determine one of the solutions. Further, in step G13, it is determined whether or not all input character strings have been processed, and if there is an unprocessed character string, the process returns to step G1 to repeat the processing.

【0005】上記文献2の手法によれば、最長となる二
文節を探索する際の第一の文節(以下、前文節)を総当
り文節候補抽出手段により総当りで文節変換し、優先順
位決定手段により優先順位を付与して所定の順位までの
前文節に限定して二文節最長一致法を適用する。前文節
を限定したうえでこれに続く第二の文節(以下、後文
節)の変換を試みるので、最長となる二文節を探索する
回数が減り、文献1の手法に比較して処理速度が大幅に
向上するとされている。
[0005] According to the method of the above-mentioned document 2, the first phrase (hereinafter referred to as the "previous phrase") for searching for the longest two phrases is subjected to brute force conversion by the brute force phrase candidate extraction means, and priority is determined. A priority is given by means, and the two-phrase longest matching method is applied only to the previous phrase up to a predetermined order. Since the conversion of the second clause (hereinafter referred to as the second clause) following the first clause is attempted after limiting the first clause, the number of searches for the longest two clauses is reduced, and the processing speed is significantly faster than the method of Reference 1. It is said to improve.

【0006】[0006]

【発明が解決しようとする課題】しかし文献2の方法で
は、優先順位により処理対象とする前文節を限定してい
るものの、前文節の途中で文節区切りされる可能性のあ
る各位置において後文節を求め、最長となる二文節を探
索している。そのため、前文節が付属語を多数含む長い
文節であった場合には、後文節を求めるべき文字位置が
多数存在するので前文節を限定することによる高速化の
効果が得られないという問題がある。
However, in the method of Reference 2, although the preceding clause to be processed is limited by the priority order, the following clause is located at each position where there is a possibility that a clause is separated in the middle of the preceding clause. In search of the longest two phrases. Therefore, if the preceding phrase is a long phrase containing many adjuncts, there is a large number of character positions for which the subsequent phrase is required, and there is a problem that the effect of speeding up by limiting the preceding phrase cannot be obtained. .

【0007】たとえば、「あすからのかいさい」という
入力を変換する場合、文献2によれば文頭から総当たり
で文節抽出した結果、最長の「明日からのかい」が第1
位の文節となり、次に長い「飛鳥」が第2位の文節とな
る。ここで「明日からのかい」という区切り方はやや不
自然に感じられるかもしれないが、「明日からの」で名
詞相当の語句として解釈され、「〜かい」で口語調の疑
問をあらわす表現として解釈された区切り方である。文
節抽出における付属語処理では、一般に隣り合う2つの
付属語の連結可否を判定する接続表を用いており、上記
のような過剰な付属語接続による長い文節が文節抽出結
果に含まれることは避けられない。
For example, in the case of converting the input "Tomorrow's size", according to Document 2, as a result of phrase extraction from the beginning of the sentence by brute force, the longest "Tomorrow's size" is the first.
The second longest phrase is "Asuka". Here, the delimitation of "from tomorrow" may seem a bit unnatural, but it is interpreted as a noun-equivalent phrase in "from tomorrow", and as an expression expressing the question of colloquial tone in "~ kai". The interpreted delimiter. In the appendix processing for phrase extraction, a connection table is generally used to determine whether or not two adjacent adjuncts can be connected. Therefore, it is necessary to avoid including long phrases due to excessive adjunct connection in the phrase extraction result. I can't.

【0008】文献2の手法によれば、第1位文節の「明
日からのかい」における文節の境界となり得る「明日か
らのかい」「明日からのか」「明日からの」「明日か
ら」「明日か」「明日」の6通りの各位置に対して続く
後文節を抽出し、最長となる二文節を求める。第2位文
節の「飛鳥」における文節の境界は、上記6通りのうち
の1通りである。かりに同一位置から始まる後文節の処
理結果をメモリ上で共有することにより再計算を避けた
としても、少なくとも合計6通りの開始位置において後
文節を抽出する必要がある。一方、前文節を限定しない
文献1の手法では「あすからのかいさい」は、上記の6
通りに加え「亜」に続く後文節も求めるので7通りの開
始位置において後文節を抽出する。すなわち、上記の例
においては、7通りが6通りに限定されたにすぎず、高
速化の効果はほとんど得られない。
[0008] According to the method of Document 2, the first-ranked phrase "from tomorrow" can be a boundary of a phrase "from tomorrow""fromtomorrow""fromtomorrow""fromtomorrow""fromtomorrow" A subsequent phrase is extracted for each of the six positions “K” and “Tomorrow”, and the longest two phrases are obtained. The boundary of the phrase in the second-ranked phrase “Asuka” is one of the above six types. Even if the re-calculation is avoided by sharing the processing result of the subsequent phrase starting from the same position on the memory, it is necessary to extract the subsequent phrase in at least six different starting positions. On the other hand, in the method of Reference 1 which does not limit the preceding clause, “Asuka no Kaisai”
Since a post-segment following "A" is also obtained in addition to the street, the post-segment is extracted at seven different start positions. In other words, in the above example, the seven types are limited to only six types, and the effect of speeding up is hardly obtained.

【0009】この発明は上記のような問題点を解決する
ためになされたもので、各自立語に対して最長となる文
節形だけでなく可能な文節形をすべて抽出し、抽出され
た前文節の候補を文節長さ別に整列して文節ブロックを
形成し、前文節の候補となる文節ブロックを文節長さの
所定順位までに限定したうえで、各文節ブロックに後続
する後文節を抽出して二文節最長一致法を適用すること
により高速化および省メモリ化をはかることを目的とす
る。たとえば上記の例ならば、「明日からのかい」「明
日からのか」「明日からの」「明日から」の4通りに限
定して二文節最長一致法を適用することにより、文献2
における6通りよりも少ない組み合わせを試みるだけで
良いので、高速化をはかることができる。
The present invention has been made to solve the above problems, and extracts not only the longest phrase form but also all possible phrase forms for each independent word, and extracts the extracted previous phrase. Are sorted by phrase length to form a phrase block, the phrase blocks that are candidates for the previous phrase are limited to a predetermined order of the phrase length, and the subsequent phrase that follows each phrase block is extracted. The purpose of the present invention is to increase the speed and save memory by applying the two-clause longest matching method. For example, in the above example, the two phrase longest match method is applied to the four phrases “Limiting from tomorrow”, “Regarding from tomorrow”, “Regarding from tomorrow”, and “Regarding from tomorrow”.
Since it is only necessary to try combinations less than the six combinations in the above, it is possible to increase the speed.

【0010】上記のように解の探索範囲の制限を強める
ことにより、変換精度の低下が起きるのが一般的である
が、この場合は変換精度は低下しないことが大量例文を
用いた変換実験により経験的にわかっている。これは、
「明日からのかい」のように付属語が多数つらなる文節
が前文節の候補として得られた場合、その付属語部分の
組合せ、たとえば「からのかい」「らのかい」「のか
い」といった読みで始まる自立語が自立語辞書に含まれ
る可能性が非常に低いため、各付属語すべての区切り位
置において後文節を求めなくても正解候補が得られると
いう事実による。
As described above, it is general that the conversion accuracy is reduced by increasing the limit of the solution search range. In this case, it is confirmed that the conversion accuracy is not reduced by a conversion experiment using a large number of example sentences. I know from experience. this is,
If a phrase with a large number of adjuncts, such as "Take from tomorrow", is obtained as a candidate for the preceding sentence, a combination of the adjunct parts, for example, reading such as "Kara-no-kakai", "Rano-kai", or "No-kai" Is very unlikely to be included in the independent word dictionary, and the correct answer candidate can be obtained without finding the post-sentence at all the delimiter positions of each attached word.

【0011】上述したように本発明の目的は、文献2に
開示された方式より変換精度を低下させたりメモリ容量
を増加させることなく、さらに高速な分かち書き処理を
行ない、携帯電話などのメモリ容量も小さく、高速CP
Uが利用できない小型機器において好適な仮名漢字変換
装置を提供することである。
[0011] As described above, an object of the present invention is to perform faster segmentation processing without lowering the conversion accuracy or increasing the memory capacity than the method disclosed in Document 2, and to increase the memory capacity of a mobile phone or the like. Small, high-speed CP
An object of the present invention is to provide a kana-kanji conversion device suitable for small devices in which U cannot be used.

【0012】[0012]

【課題を解決するための手段】本発明による仮名漢字変
換方法は、仮名文字列の文頭又は既知の文節区切りから
始まる文節形を辞書に基づき抽出する文節形抽出ステッ
プと、抽出された文節形を読み長さにより取捨選択して
前文節候補とする文節形限定ステップと、前文節候補に
後続する文節形を辞書に基づき抽出して後文節候補と
し、前文節候補及び後文節候補の組合せからなる最長二
文節を抽出する最長二文節抽出ステップと、最長二文節
抽出ステップにおいて2以上の最長二文節が抽出された
場合に、いずれか1つの最長二文節を選択する最長二文
節選択ステップと、求められた最長二文節に基づき文節
区切りを決定し、その前文節について漢字変換を行う漢
字変換ステップからなる。
According to the present invention, there is provided a kana-kanji conversion method comprising the steps of: extracting a phrase starting from the beginning of a kana character string or a known phrase break based on a dictionary; A phrase type limitation step of selecting a phrase according to the reading length and setting it as a preceding phrase candidate, and extracting a phrase type following the preceding phrase candidate based on a dictionary as a subsequent phrase candidate, and comprising a combination of a preceding phrase candidate and a subsequent phrase candidate. A longest two clause extraction step of extracting the longest two clauses, and a longest two clause selection step of selecting one of the longest two clauses when two or more longest two clauses are extracted in the longest two clause extraction step. A kanji conversion step of determining a bunsetsu break based on the obtained longest two phrases and performing kanji conversion on the preceding phrase.

【0013】読み長さの短い文節形が最長二文節に含ま
れる可能性は低い。このため、文節形限定ステップにお
いて、読み長さにより前文節候補となる文節形を限定す
ることにより、最長二文節抽出ステップにおいて、文節
形を抽出するべき文字位置を減少させることができる。
このため、仮名文字列の分かち書き処理を高速に行うこ
とができる。
It is unlikely that a phrase having a short reading length is included in the longest two phrases. For this reason, by restricting the phrase form that is the preceding phrase candidate in the phrase length limitation step according to the reading length, it is possible to reduce the number of character positions from which the phrase form should be extracted in the maximum two phrase extraction step.
Therefore, the kana character string can be separated and written at high speed.

【0014】また、本発明による仮名漢字変換方法は、
上記文節形抽出ステップが、自立語を抽出する自立語抽
出ステップと、抽出された自立語を自立語読み長さによ
り取捨選択する自立語限定ステップと、選択された各自
立語に後続する付属語を抽出する付属語抽出ステップか
らなる。
Further, the kana-kanji conversion method according to the present invention comprises:
The phrase extraction step includes an independent word extraction step of extracting an independent word, an independent word limitation step of selecting the extracted independent word according to an independent word reading length, and an auxiliary word following each selected independent word. Is extracted.

【0015】読み長さの短い自立語からなる文節形が最
長二文節に含まれる可能性は低い。このため、自立語限
定ステップにおいて、読み長さにより自立語を限定する
ことにより、付属語抽出ステップにおいて付属語を抽出
すべき自立語を減少させることができる。また、前文節
候補となる文節形も減少し、最長二文節抽出ステップに
おいて、文節形を抽出するべき文字位置を減少させるこ
ともできる。
It is unlikely that a phrase composed of independent words having a short reading length is included in the longest two phrases. For this reason, in the independent word limiting step, by limiting the independent words according to the reading length, it is possible to reduce the number of independent words from which the additional words should be extracted in the additional word extracting step. In addition, the phrase forms that are the previous phrase candidates are also reduced, and the character positions from which the phrase forms should be extracted can be reduced in the longest two-phrase extraction step.

【0016】また、本発明による仮名漢字変換方法は、
上記自立語限定ステップが、抽出された自立語の最大読
み長さを求め、この最大読み長さとの差が所定文字以内
(好ましくは4文字又は5文字以内)となる読み長さの
自立語を選択する。
Further, the kana-kanji conversion method according to the present invention comprises:
The independent word limitation step finds a maximum reading length of the extracted independent word, and determines an independent word having a reading length whose difference from the maximum reading length is within a predetermined character (preferably within 4 or 5 characters). select.

【0017】他の自立語との比較において、読み長さの
十分に短い自立語からなる文節形が最長二文節に含まれ
る可能性は低い。このため、この様な読み長さの短い自
立語を候補から除外することにより、変換精度を顕著に
低下させることなく、付属語抽出ステップ及び最長二文
節抽出ステップの処理対象を減少させることができる。
In comparison with other independent words, it is unlikely that a phrase composed of independent words whose reading length is sufficiently short is included in the longest two phrases. Therefore, by excluding such independent words having a short reading length from the candidates, it is possible to reduce the processing target of the attached word extraction step and the longest two-phrase extraction step without remarkably lowering the conversion accuracy. .

【0018】また、本発明による仮名漢字変換方法は、
上記文節形限定ステップが、文節読み長さの長い方から
所定順位(好ましくは3位又は4位)のまでの文節形を
選択する。
Further, the kana-kanji conversion method according to the present invention comprises:
The above phrase form limitation step selects phrase forms from the longest phrase reading length to a predetermined order (preferably the third or fourth place).

【0019】また、本発明による仮名漢字変換方法は、
上記文節形限定ステップが、抽出された文節形の最大読
み長さを求め、この最大読み長さとの差が所定文字以内
(好ましくは4文字又は5文字以内)となる読み長さの
文節形を選択する。
Further, the kana-kanji conversion method according to the present invention comprises:
The phrase form limitation step finds a maximum reading length of the extracted phrase form, and determines a phrase form having a reading length whose difference from this maximum reading length is within a predetermined character (preferably, within 4 or 5 characters). select.

【0020】他の文節形との比較において、読み長さの
十分に短い文節形が最長二文節に含まれる可能性は低
い。このため、この様な読み長さの短い文節形を前文節
候補から除外することにより、変換精度を顕著に低下さ
せることなく、最長二文節抽出ステップの処理対象を減
少させることができる。
In comparison with other phrase forms, it is unlikely that a phrase form whose reading length is sufficiently short is included in the longest two phrases. For this reason, by excluding such a phrase form having a short reading length from the preceding phrase candidates, it is possible to reduce the processing target of the longest two-phrase extraction step without remarkably lowering the conversion accuracy.

【0021】また、本発明による仮名漢字変換方法は、
上記文節形限定ステップが、自立語の読み長さが長い方
から所定順位以内となる文節形を選択するステップをさ
らに含む。
Further, the kana-kanji conversion method according to the present invention comprises:
The phrase form limitation step further includes a step of selecting a phrase form within a predetermined order from the longest independent word reading length.

【0022】他の文節形に含まれる自立語との比較にお
いて、読み長さの短い自立語からなる文節形が最長二文
節に含まれる可能性は低い。このため、文節形限定ステ
ップにおいて、読み長さの十分に短い自立語からなる文
節形が最長二文節に含まれる可能性は低い。このため、
この様な読み長さの短い自立語を候補から除外すること
により、変換精度を顕著に低下させることなく、付属語
抽出ステップ及び最長二文節抽出ステップの処理対象を
減少させることができる。
In comparison with an independent word included in another phrase, it is unlikely that a phrase composed of an independent word having a short reading length is included in the longest two phrases. For this reason, in the phrase form limitation step, it is unlikely that a phrase form composed of an independent word whose reading length is sufficiently short is included in the longest two phrases. For this reason,
By excluding such independent words having a short reading length from the candidates, it is possible to reduce the processing target of the attached word extraction step and the longest two-phrase extraction step without significantly lowering the conversion accuracy.

【0023】また、本発明による仮名漢字変換方法は、
上記最長二文節選択ステップが、読み長さが同一の前文
節候補ごとに、自立語の使用頻度が所定順位までの前文
節候補について最長二文節となる文節間の構文的妥当性
を判定し、その判定結果に基づきいずれか1つの最長二
文節を選択する。
Further, the kana-kanji conversion method according to the present invention comprises:
The longest two-phrase selection step determines the syntactic validity between the phrases that are the longest two phrases for the preceding phrase candidates whose independent word usage frequency is up to a predetermined order for each preceding phrase candidate having the same reading length, One of the longest two phrases is selected based on the determination result.

【0024】他の前文節候補との比較において、自立語
の使用頻度が十分に低い前文節候補を含む最長二文節に
ついての構文的妥当性が高くなる可能性は低い。このた
め、この様な自立語の使用頻度が低い前文節候補からな
る最長二文節を除外することにより、最長二文節ステッ
プにおいて、文節間の構文的妥当性を判定するべき最長
二文節を減少させることができる。
In comparison with other pre-phrase candidates, it is unlikely that syntactic validity of the longest two-phrase phrase including the pre-phrase candidate whose self-sufficient word is sufficiently low is high. For this reason, by excluding the longest two clauses consisting of the preceding clause candidates in which the independent word is not frequently used, the longest two clauses in which the syntactic validity between the clauses should be determined in the longest two clause step are reduced. be able to.

【0025】また、本発明による仮名漢字変換方法は、
上記最長二文節選択ステップが、読み長さが2文字以上
の前文節候補からなる最長二文節を選択する。
The kana-kanji conversion method according to the present invention comprises:
The longest two-segment selecting step selects the longest two-segment consisting of the preceding clause candidates having a reading length of two or more characters.

【0026】一方の文節形の読み長さが1文字の最長二
文節が正解となる可能性は低い。この仮名漢字変換方法
によれば、最長二文節選択ステップにおいて、読み長さ
が2文字以上の前文節候補を含む最長二文節を優先的に
選択することができる。
It is unlikely that one of the two phrase segments, which has a reading length of one character, is the correct answer. According to this kana-kanji conversion method, in the longest two-phrase selection step, it is possible to preferentially select the longest two-phrase including the preceding phrase candidate having a reading length of two or more characters.

【0027】また、本発明による仮名漢字変換方法は、
上記最長二文節選択ステップが、前文節候補及び後文節
候補の付属語形態素数の和がより小さい最長二文節を選
択する。
The kana-kanji conversion method according to the present invention comprises:
The longest two-segment selecting step selects the longest two-segment having a smaller sum of the morpheme numbers of the adjunct words of the preceding and succeeding candidate segments.

【0028】付属語形態素数が多い最長二文節が正解と
なる可能性は低い。この仮名漢字変換方法によれば、最
長二文節選択ステップにおいて、付属語形態素数がより
少ない最長二文節を優先的に選択することができる。
It is unlikely that the longest two phrases having a large number of morphemes are correct. According to the kana-kanji conversion method, in the longest two-segment selecting step, the longest two-segment having a smaller number of attached word morphemes can be preferentially selected.

【0029】また、本発明による仮名漢字変換方法は、
上記最長二文節選択ステップが、所定の助詞で終わる前
文節候補を含む最長二文節を選択する。
Further, the kana-kanji conversion method according to the present invention comprises:
The longest two-phrase selection step selects the longest two-phrase including the preceding phrase candidate ending with a predetermined particle.

【0030】特定の助詞については、その助詞の直後が
文節区切りとなる可能性が高い。この仮名漢字変換方法
によれば、予め定められた助詞で終わる前文節候補を含
む最長二文節を優先的に選択することができる。
For a particular particle, there is a high possibility that the phrase immediately after that particle will be a phrase break. According to this kana-kanji conversion method, it is possible to preferentially select the longest two phrases including the preceding phrase candidate ending with a predetermined particle.

【0031】また、本発明による仮名漢字変換装置は、
仮名文字列の文頭又は既知の文節区切りから始まる文節
形を辞書に基づき抽出する文節形抽出手段と、抽出され
た文節形を読み長さにより取捨選択して前文節候補とす
る文節形限定手段と、前文節候補に後続する文節形を辞
書に基づき抽出して後文節候補とし、前文節候補及び後
文節候補からなる最長二文節を抽出する最長二文節抽出
手段と、最長二文節抽出ステップにおいて2以上の最長
二文節が抽出された場合に、いずれか1つの最長二文節
を選択する最長二文節選択手段と、求められた最長二文
節に基づき文節区切りを決定し、その前文節について漢
字変換を行う漢字変換手段からなる。
Also, the kana-kanji conversion device according to the present invention
A phrase-form extracting means for extracting a phrase form starting from the beginning of a kana character string or a known phrase break based on a dictionary, and a phrase-form limiting means for selecting the extracted phrase form according to the reading length and setting it as a previous phrase candidate A longest two-phrase extracting means for extracting a phrase form following the preceding phrase candidate based on the dictionary as a later-phrase candidate and extracting a maximum of two phrases consisting of the preceding and succeeding phrase candidates; When the longest two phrases are extracted, a longest two-phrase selecting means for selecting any one of the longest two phrases, a phrase break is determined based on the obtained longest two phrases, and kanji conversion is performed for the preceding phrase. Kanji conversion means.

【0032】また、本発明による仮名漢字変換プログラ
ムを記録した記録媒体は、上記の各ステップをコンピュ
ータに実行させるための仮名漢字変換プログラムをコン
ピュータ読み取り可能に記録している。
The recording medium storing the kana-kanji conversion program according to the present invention has a computer-readable kana-kanji conversion program for causing a computer to execute the above steps.

【0033】[0033]

【発明の実施の形態】実施の形態1.図1に本発明の実
施の形態1による仮名漢字変換装置のブロック図を示
す。101は読み文字列を入力する入力手段である。102は
仮名漢字変換制御手段であり、文節形抽出手段103、文
節形整列手段107、最長二文節抽出手段108、および最長
二文節選択手段109を順次呼び出し、入力された読み文
字列を分かち書きして変換結果を作成する。変換結果は
出力手段110において出力される。文節形抽出手段103で
は、自立語辞書104、付属語辞書105、および付属語接続
表106を参照しつつ入力読み文字列から文節を抽出す
る。文節形整列手段107では、抽出された文節を読みの
長さで整列して文節ブロックを作成する(文節ブロック
については図9を用いて後で説明する)。最長二文節抽
出手段108では整列された文節ブロックのうち所定順位
以上の文節ブロックについて後続する文節を抽出し、最
長となる二文節の組合せを抽出する。最長二文節選択手
段109では、読み長さが最長となる二文節の区切りかた
が複数存在する場合に、後述する手順にしたがって最適
な二文節の区切りかたを選択する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiment 1 FIG. 1 shows a block diagram of a kana-kanji conversion device according to Embodiment 1 of the present invention. Reference numeral 101 denotes an input unit for inputting a reading character string. Reference numeral 102 denotes kana-kanji conversion control means, which sequentially calls the phrase form extracting means 103, the phrase form sorting means 107, the longest two-phrase extracting means 108, and the longest two-phrase selecting means 109, and separates and inputs the read character string. Create a conversion result. The conversion result is output by the output unit 110. The phrase extractor 103 extracts a phrase from the input reading character string while referring to the independent word dictionary 104, the attached word dictionary 105, and the attached word connection table 106. The phrase type sorting means 107 creates a phrase block by arranging the extracted phrases according to the reading length (the phrase blocks will be described later with reference to FIG. 9). The longest two-phrase extraction unit 108 extracts a subsequent phrase for a phrase block having a predetermined rank or higher among the sorted phrase blocks, and extracts the longest combination of two phrases. The longest two-segment selecting means 109 selects an optimal two-segment delimiting method in accordance with a procedure described later when there are a plurality of two-segment delimiters with the longest reading length.

【0034】図2は、図1の仮名漢字変換制御手段102
により実行される分かち書き処理のフローチャートであ
る。以下、適宜図1およびその他の詳細図面を参照しつ
つ図2の各ステップについて説明する。図1の入力手段
101より、「あすからのかいさい」という読み文字列が
入力されたものとする。
FIG. 2 shows the kana-kanji conversion control means 102 of FIG.
7 is a flowchart of a segmenting process executed by the user. Hereinafter, each step of FIG. 2 will be described with reference to FIG. 1 and other detailed drawings as appropriate. Input means of FIG.
From 101, it is assumed that a reading character string of "Tomorrow's size" has been input.

【0035】まず、ステップS201において、変数mおよ
び変数sの値を1で初期化する。変数mは、二文節最長
一致法において処理対象となる文節が文頭から数えて第
m番目の文節であることを示す。第m文節(前文節)と
第m+1文節(後文節)とを連結した読みの長さが最長
となる組合せを求め、その最長組合せにおける第m文節
と第m+1文節の区切りによって分かち書きを行なうの
が二文節最長一致法である。ステップS201からステップ
S208まで変数mをカウントアップしながら、第m文節と
第m+1文節とを連結した読みの長さが最長となる組合
せを求めて分かち書きするという処理を、処理すべき読
み文字列がなくなるまで繰り返す。変数sは読み文字列
のうち未処理の部分をあらわす文字位置であり、第m文
節を抽出する際の先頭文字位置である。
First, in step S201, the values of the variables m and s are initialized to 1. The variable m indicates that the phrase to be processed in the two phrase longest matching method is the m-th phrase counted from the beginning of the phrase. The combination of the m-th clause (previous clause) and the (m + 1) -th clause (post-clause) having the longest reading length is obtained, and the segmentation is performed by dividing the m-th clause and the (m + 1) -th clause in the longest combination. This is the longest match method for two phrases. Step from step S201
While counting up the variable m up to S208, the process of obtaining the longest combination of the reading of the m-th clause and the (m + 1) -th clause is repeated until there is no more reading character string to be processed. The variable s is a character position representing an unprocessed part of the read character string, and is a leading character position when extracting the m-th phrase.

【0036】ステップS202では、図1の文節形抽出手段
103により、s文字めから始まる文節をすべて抽出し、
第m番目の文節の候補Bm(i)とする。以下、図3か
ら図7を用いて文節形抽出手段103の動作を説明する。
In step S202, the phrase form extracting means of FIG.
According to 103, all the clauses starting from the s letter are extracted,
Let it be the m-th phrase candidate Bm (i). Hereinafter, the operation of the phrase extraction unit 103 will be described with reference to FIGS.

【0037】図3は文節形抽出処理を示したフローチャ
ートである。ステップS301において、図1の自立語辞書
104を検索し、検索結果語数を変数Nに格納し、検索結
果の各語の内容を配列J[k]に格納する。いま、入力読み
文字列が「あすからのかいさい」で、s=1なので、
「飛鳥(あすか)」「明日」「亜」などが検索され、J
[k]に格納される。
FIG. 3 is a flow chart showing a phrase extraction process. In step S301, the independent word dictionary of FIG.
104 is searched, the number of search result words is stored in a variable N, and the content of each word in the search result is stored in an array J [k]. Now, because the input reading character string is “Tomorrow's size” and s = 1,
“Asuka”, “Tomorrow”, “A”, etc. are searched, and J
Stored in [k].

【0038】図4は自立語辞書104の構成例である。少
なくとも読み104a、見出し104b、および品詞104cを含
み、読み104aにより検索可能な構成とする。変換精度を
さらに向上するため、必要に応じて図4に示す情報に加
え、意味情報、共起情報などを格納することもできる。
なお、同一の読みをもつ複数の自立語(同音異義語)に
ついて、既存文書における使用頻度の順で変換結果を表
示する方式が一般的である。つまり、使用頻度は自立語
を選択する際の優先度の一つとなり得る。図4には各自
立語の使用頻度に関する情報は示さなかったが、同音語
はあらかじめ使用頻度順に整列されており、配列J[k]に
は使用頻度順に格納されるものとする。メモリ容量を節
約するために上記の構成としているが、辞書中に各自立
語の使用頻度を格納しておき、検索後に同使用頻度情報
を参照して検索結果を整列する構成としてもよい。
FIG. 4 shows an example of the configuration of the independent word dictionary 104. The configuration includes at least the reading 104a, the headline 104b, and the part of speech 104c, and can be searched by the reading 104a. In order to further improve the conversion accuracy, semantic information, co-occurrence information and the like can be stored in addition to the information shown in FIG.
In general, a method of displaying conversion results of a plurality of independent words (homophonetic words) having the same reading in the order of use frequency in an existing document is used. That is, the frequency of use can be one of the priorities when selecting an independent word. Although FIG. 4 does not show information on the frequency of use of each independent word, the homophones are sorted in advance in the order of frequency of use, and are stored in the array J [k] in the order of frequency of use. Although the above configuration is used in order to save the memory capacity, the configuration may be such that the usage frequency of each independent word is stored in a dictionary, and the search results are sorted by referring to the usage frequency information after the search.

【0039】つぎに図3のステップS302では、ループカ
ウンタ変数iを初期化する。以下、ステップS303からス
テップS308において、自立語検索結果J[i]の各単語に
ついて付属語処理を行なう。ステップS303はループ終了
判定である。ステップS304では一時変数Btmpに自立語検
索結果J[i]を代入し、抽出結果バッファを初期化す
る。自立語検索結果J[i]が単独で文節を構成し得る場
合は抽出結果バッファはJ[i]で初期化する。単独で文
節を構成し得ない場合は抽出結果バッファは空で初期化
する。単独で文節を構成し得るか否かはJ[i]の品詞に
よるものとする。
Next, in step S302 of FIG. 3, a loop counter variable i is initialized. Hereinafter, in steps S303 to S308, an attached word process is performed for each word of the independent word search result J [i]. Step S303 is a loop end determination. In step S304, the independent word search result J [i] is substituted for the temporary variable Btmp, and the extraction result buffer is initialized. If the independent word search result J [i] can form a phrase alone, the extraction result buffer is initialized with J [i]. If a clause cannot be composed by itself, the extraction result buffer is initialized to empty. Whether or not a phrase can be composed independently depends on the part of speech of J [i].

【0040】ステップS305では、図1の付属語辞書105
および付属語接続表106を参照してBtmpに対する付属語
処理を行なう。図5は付属語辞書105の構成例である。
少なくとも読み105a、見出し105b、前接コード105c、お
よび後接コード105dを含み、読み105aにより検索可能な
構成とする。前接コード105c、および後接コード105d
は、自立語と付属語および付属語間の接続可否を示すた
めのコードである。なお、自立語に前接コードおよび後
接コードが格納されていないのは、自立語はつねに文節
先頭にあるため前接コードが不要であり、品詞104cで後
接コードを代用することができるためである。
In step S305, the auxiliary word dictionary 105 of FIG.
With reference to the attached word connection table 106, the attached word processing for Btmp is performed. FIG. 5 is a configuration example of the attached word dictionary 105.
The configuration includes at least the reading 105a, the heading 105b, the preceding code 105c, and the following code 105d, and is configured to be searchable by the reading 105a. Prefix code 105c and postcode 105d
Is a code for indicating whether or not a connection between the independent word and the attached word and the attached word is possible. In addition, the indirect word does not store the preceding code and the following code, because the independent word is always at the beginning of the clause, the preceding code is unnecessary, and the part-of-speech 104c can substitute the succeeding code. It is.

【0041】図6は付属語接続表106の構成例である。
表中の値が1であれば接続可能で0であれば接続不可と
する。図中に示した例では、後接コード"35"をもつ付属
語に対して前接コード"10"をもつ付属語が接続可能であ
ることを示している。たとえば図5に示した付属語「か
ら」が付属語「か」に接続可能であることを示す。自立
語については品詞に対応する後接コードを与えることに
より、活用語尾も付属語辞書に含めて統一的に処理する
ことができる。また、各後接コードに対して文節終端と
なり得るかどうかを示す終端フラグ情報も含んでいる。
終端フラグ情報が1である後接コードをもつ付属語は文
節終端となり得ることを示す。
FIG. 6 shows an example of the structure of the attached word connection table 106.
If the value in the table is 1, connection is possible, and if 0, connection is not possible. In the example shown in the drawing, it is shown that an attached word having a preceding code "10" can be connected to an attached word having a succeeding code "35". For example, it indicates that the attached word “kara” shown in FIG. 5 can be connected to the attached word “ka”. By giving a postfix code corresponding to the part of speech for an independent word, the inflected ending can be included in the attached word dictionary and processed uniformly. It also includes termination flag information indicating whether or not each succeeding code can be a terminating end.
An adjunct with a trailing code whose end flag information is 1 indicates that it can be a clause end.

【0042】たとえば自立語「明日」に対して、図3の
ステップS305では付属語「から」が検索され、「明日」
の品詞である「名詞」に対応する後接コード"1"に対し
て「から」の前接コード"30"が接続可能であることが付
属語接続表106より得られる。このようにして、自立語
「明日」より「明日から」という接続結果が得られる。
得られた接続結果は一時変数Btmpに格納される。
For example, with respect to the independent word "tomorrow", in step S305 of FIG.
It is obtained from the attached word connection table 106 that the preceding code "30" of "kara" can be connected to the succeeding code "1" corresponding to "noun" which is the part of speech of "". In this way, the connection result "from tomorrow" is obtained from the independent word "tomorrow".
The obtained connection result is stored in a temporary variable Btmp.

【0043】図3のステップS306では、一時変数Btmpに
新規に接続した付属語があるかどうかを判定し、なけれ
ばステップS309に進み、変数iをカウントアップして次
の自立語に対して同様の処理を行なう。ここでは「明日
から」という結果を得ているのでステップS307に進む。
In step S306 of FIG. 3, it is determined whether or not the temporary variable Btmp has a newly connected auxiliary word. If not, the process proceeds to step S309, where the variable i is counted up and the same applies to the next independent word. Is performed. Here, since the result "from tomorrow" is obtained, the process proceeds to step S307.

【0044】図3のステップS307では、一時変数Btmpに
格納された結果が文節終端になり得るかどうかを判定
し、なければステップS305に進み、Btmpに対する付属語
処理を繰り返し行なう。判定は後接コード105dと図6に
示した付属語接続表における終端フラグ情報により行な
う。ここでは「明日から」における「から」の後接コー
ド35が文節終端となり得るのでステップS308に進む。ス
テップS308では一時変数Btmpの内容を抽出結果バッファ
にコピーした後、ステップS305に進み付属語処理を繰り
返す。
In step S307 of FIG. 3, it is determined whether or not the result stored in the temporary variable Btmp can be the end of a clause. If not, the process proceeds to step S305 to repeat the attached word processing for Btmp. The determination is made based on the subsequent code 105d and the termination flag information in the attached word connection table shown in FIG. Here, since the postfix code 35 of “kara” in “from tomorrow” can be the end of a phrase, the process proceeds to step S308. In step S308, the contents of the temporary variable Btmp are copied to the extraction result buffer, and then the flow advances to step S305 to repeat the attached word processing.

【0045】このようにステップS305からステップS308
までの処理を繰り返しながら自立語J[i]から導出され
る文節形を順次抽出結果バッファに格納していく。新規
接続がなくなった時点でステップS306からステップS309
に進み、次の自立語に対する付属語処理を行なう。な
お、上記では説明を簡単にするため、ステップS305にお
ける付属語処理の結果が複数存在する場合については触
れなかったが、接続する付属語が複数存在する場合に
は、接続可能な各付属語についてステップS305からステ
ップS308の処理を並列的に行なうものとする(バックト
ラックにより繰り返し処理してもよい)。
As described above, steps S305 to S308
While repeating the processes up to, the phrase forms derived from the independent word J [i] are sequentially stored in the extraction result buffer. When there are no more new connections, steps S306 to S309
To perform the attached word processing for the next independent word. In the above, for the sake of simplicity, the case where there are a plurality of attached word processing results in step S305 is not described. It is assumed that the processing from step S305 to step S308 is performed in parallel (it may be repeated by backtracking).

【0046】図7は、入力読み文字列「あすからのかい
さい」に対する文節抽出結果の例である。自立語「明
日」に対して701から706までの文節が抽出される。また
自立語「飛鳥」および「亜」に対してそれぞれ707およ
び708が抽出される。
FIG. 7 shows an example of a phrase extraction result for the input reading character string "Asukara no Kaisai". Phrases from 701 to 706 are extracted for the independent word "tomorrow". Also, 707 and 708 are extracted for the independent words "Asuka" and "A", respectively.

【0047】以上で、図2のステップS202における文節
形抽出処理に関する説明を終わり、以下では図2に戻っ
てステップS203以降の処理について説明する。なお以下
では、自立語抽出処理については、図13ではなく図3
で説明した文節形抽出方法を取ると仮定して説明を続行
する。
The description of the phrase extraction processing in step S202 of FIG. 2 has been described above. Returning to FIG. 2, the processing of step S203 and thereafter will be described. In the following, the independent word extraction process will be described with reference to FIG.
The description will be continued on the assumption that the phrase extraction method described in the above is used.

【0048】図2のステップS203では、図1の文節形整
列手段107により図7に示した文節抽出結果を文節の読
み長さにしたがって整列する。図8は文節の整列結果の
例である。図8における801から807は文節を読み長さご
とに分類するための文節ブロックであり、文節読み長さ
を格納し、文節データ(図7の701から708)へのポイン
タ情報をもつ。図7における702および707は同じ読み文
字数3であるので、図8における文節ブロックではとも
に文節ブロック805の要素として整列される。このよう
に文節ブロックには、読み長さの等しい複数の文節をひ
とつにまとめあげ、分かち書きの処理対象を抽象化する
という働きをもつ。
In step S203 of FIG. 2, the phrase extraction result shown in FIG. 7 is sorted by the phrase alignment means 107 of FIG. 1 according to the reading length of the phrase. FIG. 8 is an example of a phrase alignment result. Reference numerals 801 to 807 in FIG. 8 denote phrase blocks for classifying phrases by reading length. The phrase blocks store the phrase reading length and have pointer information to phrase data (701 to 708 in FIG. 7). Since 702 and 707 in FIG. 7 have the same number of reading characters of 3, the phrase blocks in FIG. 8 are both aligned as elements of the phrase block 805. As described above, the phrase block has a function of collecting a plurality of phrases having the same reading length into one and abstracting the processing target of the segmentation.

【0049】図2のステップS204では、ステップS203に
おいて整列された文節のうち、入力された読み文字列の
終端に達する文節があるかどうかを判定する。終端に達
する文節がある場合には、分かち書き処理を終了する。
ここでは「明日からのかい」という文節(図7の708)
が最長であり、入力読み文字列の終端には達していない
ので、ステップS205に進む。
In step S204 of FIG. 2, it is determined whether any of the phrases arranged in step S203 reaches the end of the input read character string. If there is a phrase reaching the end, the segmentation processing ends.
Here, the phrase “From tomorrow” (708 in FIG. 7)
Is the longest and has not reached the end of the input read character string, so the process proceeds to step S205.

【0050】図2のステップS205では、図1の最長二文
節抽出手段108により図8に示した文節整列結果のう
ち、所定順位までの文節ブロックに対して後続する文節
(後文節)をすべて抽出し、ステップS206において読み
長さが最長となる文節ブロックの組合せを求める。上記
整列結果のうち上位3位ないし4位までについて後続す
る文節を求めれば、最長となる二文節が得られることが
大量の例文を用いた変換実験により経験的にわかってい
る。ここでは4位までの前文節の文節ブロックに対して
後文節の文節ブロックを求めるものとする。後文節の文
節ブロックを求めるにあたっては、以下で説明する各対
象読み文字列に対して前文節ブロックと同様の手法をと
る。図9に後文節抽出対象となる読み文字列を示す。そ
れぞれ図9における文節ブロック801、802、803、およ
び804に後続する読み文字列が後文節の抽出対象とな
る。従来技術(文献2)によれば、後文節の抽出対象が
6通りであるのに対して、4通りに減っているため処理
を高速化することができる。
In step S205 in FIG. 2, the following longest phrase (subsequent phrase) is extracted from the phrase alignment result shown in FIG. 8 by the longest two-phrase extraction means 108 in FIG. Then, in step S206, a combination of phrase blocks having the longest reading length is obtained. It has been empirically known from a conversion experiment using a large number of example sentences that the longest two sentences can be obtained if the succeeding sentences are obtained for the top three or four places in the above-mentioned alignment result. Here, it is assumed that a phrase block of the following phrase is obtained for the phrase block of the preceding phrase up to the fourth place. In obtaining the phrase block of the subsequent phrase, the same method as that of the preceding phrase block is used for each target reading character string described below. FIG. 9 shows a read character string to be subjected to post-segment extraction. Each of the read character strings following the phrase blocks 801, 802, 803, and 804 in FIG. According to the prior art (Reference 2), the number of extraction targets of the later clause is six, but the number is reduced to four, so that the processing can be speeded up.

【0051】また、処理対象とする前文節を限定する際
に、最長となる文節ブロックとの文字数の差が所定文字
数以内である文節に限定してもよい。経験的には最長と
なる文節ブロックとの文字数差が4文字ないしは5文字
以内の文節ブロックに限定しても、最長となる二文節を
求めるには支障ないことがわかっている。図9の例では
上位4文節ブロックの文字数の差が1文字ずつのため、
文字数の差による限定の効果はないが、図10に示した
例では、最長となる文節ブロックとの文字数の差で限定
することにより、後文節の抽出対象を3通りに限定でき
るので、さらなる高速化が可能となる。もちろん、これ
らの限定方法を複数組み合わせ、もっとも限定効果の高
い、すなわち後文節抽出対象の数が最小となる方法を選
んでもよい。
Further, when the preceding phrase to be processed is limited, the phrase may be limited to a phrase whose difference in the number of characters from the longest phrase block is within a predetermined number of characters. Empirically, it has been found that even if the difference in the number of characters from the longest phrase block is limited to a phrase block of 4 or 5 characters or less, there is no problem in finding the longest two phrases. In the example of FIG. 9, since the difference in the number of characters in the upper four clause blocks is one character at a time,
Although there is no effect of limitation due to the difference in the number of characters, in the example shown in FIG. 10, by limiting the number of characters from the longest phrase block, the extraction target of the subsequent phrase can be limited to three types. Is possible. Of course, a plurality of these limiting methods may be combined, and a method that has the highest limiting effect, that is, a method that minimizes the number of the subsequent phrase extraction targets may be selected.

【0052】図2のステップS205における前文節ブロッ
クの限定方法の一例を図11に示す。ステップS1101で
は変数の初期化を行なう。変数kは自立語長さの種類数
を示す。変数iはループカウンタで、整列済みの文節ブ
ロックのi番目を処理することを示す。変数Lは最長と
なる前文節ブロックの読み文字長さであり、先頭の文節
ブロックの読み文字長さにより初期化される。
FIG. 11 shows an example of a method for limiting the preceding phrase block in step S205 in FIG. In step S1101, variables are initialized. The variable k indicates the number of types of independent word length. The variable i is a loop counter indicating that the i-th of the sorted phrase blocks is to be processed. The variable L is the longest read character length of the previous phrase block, and is initialized by the read character length of the first phrase block.

【0053】ステップS1102は、所定順位までの読み長
さをもつ文節ブロックを抽出するための判定部である。
さきに述べたように、閾値Th1が3ないし4であれば最
長となる二文節が得られる可能性の高いことが経験的に
わかっている。ここではTh1を4とする。
Step S1102 is a determination section for extracting a phrase block having a reading length up to a predetermined order.
As described above, it has been empirically known that if the threshold value Th1 is 3 or 4, the longest two phrases are likely to be obtained. Here, it is assumed that Th1 is 4.

【0054】ステップS1103では、最長となる文節ブロ
ックとの文字数の差が所定文字数Th2以内である文節に
限定するための判定部である。これも実験によりTh2と
して4文字ないしは5文字を設定することで、最長となる
二文節が得られる可能性の高いことが経験的にわかって
いる。
In step S1103, the determination unit is used to limit the phrase whose difference in the number of characters from the longest phrase block is within a predetermined number of characters Th2. It has been empirically found from experiments that it is highly likely that the longest two phrases can be obtained by setting 4 or 5 characters as Th2.

【0055】ステップS1104では、自立語長さの種類数
が所定の閾値Th3以内であることにより限定するための
判定部である。複合語のように付属語が出現しない二文
節に対して最長となる二文節の組み合わせを求める際に
は、文節ブロックの長さだけでなく、自立語の長さでも
限定することにより高速化がはかれる。たとえば、「だ
いがくせいかつ」という読み入力に対して、ステップS1
102の判定によれば「大学生か」「大学生」「大学」
「台が」と4通りの前文節に限定されるが、自立語の長
さに注目すると「大学生」「大学」「台」といった3通
りの候補が含まれている。このうち最短の「台」が最長
二文節の前文節ブロックとなり得る可能性は低い。そこ
で、ステップS1104では、閾値Th1よりもやや小さな値
(ここでは2とする)をもつTh3により、前文節ブロッ
クが含む自立語長さの種類数を限定して、「台が」とい
う前文節ブロックの候補を抽出しないようにして高速化
をはかる。そこで、ステップS1104では、閾値Th1よりも
やや小さな値(ここでは2とする)をもつTh3により、
前文節ブロックが含む自立語長さの種類数を限定してい
る。なお、ここでは、図2のステップS203において文節
ブロックごとに前文節が自立語長さに基づき予め整列さ
れ、iが小さいほど自立語長さLen(i)は小さくなってい
ることを前提としている。以上で、図11を用いた前文
節ブロックの限定方法についての説明を終了し、図2に
戻ってステップS207以下の処理について説明する。
In step S1104, the determination unit is used to limit the number of types of the independent word length when the number is within a predetermined threshold Th3. When finding the longest combination of two clauses for two clauses in which no adjuncts appear, such as compound words, speedup is limited by limiting not only the length of the phrase block but also the length of the independent word. To be peeled off. For example, in response to a reading input of "daigakuseikatsu", step S1
According to the judgment of 102, "Is it a college student?"
Although it is limited to the four preceding phrases "dai", three types of candidates such as "college student", "college", and "dai" are included when focusing on the length of the independent word. It is unlikely that the shortest “table” can be the pre-phrase block of the longest two phrases. Therefore, in step S1104, the number of types of independent word lengths included in the preceding phrase block is limited by Th3 having a value slightly smaller than the threshold value Th1 (here, 2), and the preceding phrase block “daiga” is limited. The speed is increased by not extracting the candidates. Therefore, in step S1104, Th3 having a value slightly smaller than the threshold Th1 (here, 2) is used.
The number of types of independent word length included in the preceding phrase block is limited. Note that, here, it is assumed that in step S203 of FIG. 2, the preceding phrases are sorted in advance for each phrase block based on the independent word length, and that the smaller the i is, the smaller the independent word length Len (i) is. . This concludes the description of the method for limiting the previous phrase block with reference to FIG. 11, and returns to FIG. 2 to describe the processing of step S207 and subsequent steps.

【0056】ステップS205およびステップS206において
求めた、読み長さが最長となる二文節の組合せが複数存
在する場合がある。たとえば図9に示した例では、「明
日からのかい/差異」「明日からのか/委細」「明日か
らの/開催」という3通りの最長二文節が存在する。図
2のステップS207では図1の最長二文節選択手段109に
より、これらの最長二文節に後述する手順にしたがい順
位づけを行ない、最適な最長二文節を選択する。以下、
図12を用いて最長二文節選択手段109の動作を説明す
る。
In some cases, there are a plurality of combinations of two phrases having the longest reading length obtained in steps S205 and S206. For example, in the example shown in FIG. 9, there are three longest two phrases, “starting tomorrow / difference”, “starting tomorrow / detailed”, and “starting tomorrow / hold”. In step S207 of FIG. 2, the longest two phrases are selected by the longest two phrases selection means 109 of FIG. 1 in accordance with a procedure described later, and the optimal longest two phrases are selected. Less than,
The operation of the longest two-phrase selection means 109 will be described with reference to FIG.

【0057】ステップS1201では、最長となる文節組合
せが1通りかどうかを判定し、もし1通りであれば以下
の処理をスキップしてステップS1213に進み、m番目の
区切りSep(m)を確定して選択処理を終了する。上記の例
では3通りあるのでステップS1202に進む。
In step S1201, it is determined whether the longest clause combination is one. If there is one, the following processing is skipped, and the flow advances to step S1213 to determine the m-th delimiter Sep (m). To end the selection process. In the above example, since there are three types, the process proceeds to step S1202.

【0058】ステップS1202およびステップS1203では、
構文的に妥当性の高い文節組合せがあれば、これを選択
する。図8に示したように、ひとつの文節ブロックには
複数の文節が含まれることがある。このような場合、す
べての文節と文節の組み合わせについて構文的妥当性を
検証するのは計算コストが高い。そこで、各文節ブロッ
クにつき所定個数の文節に対してのみ構文的妥当性の判
定を行なう。たとえば図12において、M=1とすると
最上位の文節に対してのみ構文的妥当性の判定を行な
う。
In steps S1202 and S1203,
If there is a syntactically valid phrase combination, this is selected. As shown in FIG. 8, one phrase block may include a plurality of phrases. In such a case, it is computationally expensive to verify syntactic validity of all clauses and combinations of clauses. Therefore, the syntactic validity is determined only for a predetermined number of clauses in each clause block. For example, in FIG. 12, if M = 1, the syntactic validity is determined only for the top clause.

【0059】ここでは、前文節が終助詞で終了して後文
節が名詞である「明日からのかい/差異」および「明日
からのか/委細」よりも、前文節が格助詞で終了して後
文節が名詞である「明日からの/開催」が文法的に妥当
性が高いと判定され、「明日からの/開催」という組合
せが選択される。
Here, the preceding phrase ends with the case particle and ends with the latter phrase, which is noun, and the latter phrase is noun, such as "Kasugai / difference from tomorrow" and "Kasuga / Dessai". The phrase “from / tomorrow” whose noun is a noun is determined to be highly grammatically valid, and the combination “from / tomorrow / hold” is selected.

【0060】ステップS1204では、最長となる文節組合
せが1通りかどうかを判定し、もし1通りであれば以下
の処理をスキップしてステップS1213に進み、m番目の
区切りSep(m)を確定して選択処理を終了する。ここでは
ステップS1203において「明日からの/開催」という組
合せが選択されているためステップS1213に進む。以
下、ステップ1205からステップ1212の処理については上
記とは別の入力例を用いて説明する。
In step S1204, it is determined whether or not the longest clause combination is one. If there is one, the following processing is skipped, and the flow advances to step S1213 to determine the m-th segment Sep (m). To end the selection process. Here, the combination “from / tomorrow” is selected in step S1203, and the process advances to step S1213. Hereinafter, the processing of steps 1205 to 1212 will be described using another input example different from the above.

【0061】入力文字列が「なにかよいほうほう」であ
る場合、「名/似通い」「何/通い」「何か/良い」と
いう3通りの最長二文節が考えられる。このうち「名/
似通い」というような一方の文節の読みが1文字となる
ような組合せが正解となる可能性は低い。そこでステッ
プS1205において読みが1文字となる組合せが存在する
場合には、ステップS1206において、当該組合せを候補
から除外する。ただし、ここで除外した結果、他の候補
が残ることが前提となる。チャートが複雑になるのを避
けるため図12では省略したが、前文節が1文字の文節
組合せと後文節が1文字の文節組合せの2通りしか存在
しない場合は例外的にステップ1206での除外処理を行な
わないものとする。
If the input character string is "something better", there are three longest two phrases, "name / similar", "what / going", and "something / good". "First name /
It is unlikely that a combination such as "similar" in which one phrase reads one character will be a correct answer. Therefore, if there is a combination in which one character is read in step S1205, the combination is excluded from the candidates in step S1206. However, it is assumed that other candidates remain as a result of the exclusion here. Although omitted in FIG. 12 to avoid complicating the chart, the exclusion process in step 1206 is exceptionally performed when there are only two combinations of a phrase combination where the first phrase is a single character and a phrase combination where the second phrase is a single character. Shall not be performed.

【0062】一般に付属語数が少なくなる区切り方が正
解となることが多い。たとえば「ようふうのかぐが」と
入力されたとすると、「洋風の/家具が」「洋風のか/
具が」の2通りの区切り方が可能となる。ステップS120
8においては、付属語数が少ない「洋風の/家具が」を
選択する。
In general, the way of delimiting the number of attached words is often correct. For example, if "Yofu no Kaguga" is entered, "Western style / furniture"
The tool can be divided in two ways. Step S120
In step 8, “Western style / furniture” with a small number of attached words is selected.

【0063】上記の各処理において優先順位を決定でき
ない場合がある。たとえば「ぱんをかうから」と入力さ
れた場合、「パンをか/鵜から」「パンを/買うから」
という2通りの区切り方がある。これらの例は、「パン
+を+か/鵜+から」「パン+を/買+う+から」でい
ずれも付属語数は3となる。しかし、この場合「を」の
直後が文節区切りとなる可能性が高いことは経験的に明
らかである。そこでステップS1210では、「を」のよう
に特定の助詞で終了しているかどうかを判定して優先順
位づけを行なう。
In some cases, priorities cannot be determined in each of the above processes. For example, if you enter "Pankakara", "Bread or cormorant""Bread / buy"
There are two ways of dividing. In these examples, the number of attached words is "bread + from + or cormorant +" and "bread + / buy + from +". However, in this case, it is empirically clear that there is a high possibility that a segment break immediately follows "". Therefore, in step S1210, it is determined whether or not the process ends with a specific particle, such as "", and prioritization is performed.

【0064】さらにステップS1212では、上記の処理で
は優先順位を決定できないような場合のデフォルト処理
として、後文節の自立語長が短い候補を選択する。
Further, in step S1212, as a default process in the case where the priority cannot be determined by the above process, a candidate having a short independent word length of the subsequent sentence is selected.

【0065】なお、上記ではステップS1202からステッ
プS1212までの各処理を所定順序で適用し、候補が1通
りになった場合は以下の処理をスキップしてステップS1
213に進む排他的な処理として説明したが、ステップS12
02からステップS1212までの各段階の抽出処理(ステップ
S1203,S1206,S1208,S1210,S1212)では適宜点数を与える
だけとし、ステップS1213において最も高い点数を得た
組合せを選択するような処理としても良い。このように
構成することによって、複数の段階によって評価される
ので、より適切な候補が選択される可能性を高めること
ができる。
In the above, each processing from step S1202 to step S1212 is applied in a predetermined order, and when there is only one candidate, the following processing is skipped and step S1 is executed.
Although described as an exclusive process that proceeds to step 213, step S12
02 to the step S1212
In steps S1203, S1206, S1208, S1210, and S1212), only the points may be given as appropriate, and the process that selects the combination with the highest score in step S1213 may be performed. With this configuration, evaluation is performed in a plurality of stages, so that the possibility of selecting a more appropriate candidate can be increased.

【0066】たとえば、ステップS1203では構文的に妥
当な文節ブロック組み合わせに+100点を与えるもの
とする。また、ステップS1206では文節ブロックの一方
の読みが1文字である組み合わせに−100点を与える
ものとする。ステップS1208では各文節組み合わせに対
して、付属語形態素数に10を乗じた点数を減じるもの
とする。ステップS1210では特定の助詞で終了する文節
に対して助詞に応じた点数を加算する。たとえば「を」
で終了する文節には+10点を与えるものとする。ステ
ップS1212では、後文節の自立語長を点数として加算す
るものとする。
For example, in step S1203, +100 points are given to a syntactically valid phrase block combination. In step S1206, -100 points are given to a combination in which one reading of the phrase block is one character. In step S1208, the score obtained by multiplying the number of attached word morphemes by 10 is reduced for each phrase combination. In step S1210, a score corresponding to the particle is added to a phrase ending with a specific particle. For example,
+10 points are given to a phrase ending with. In step S1212, the independent word length of the subsequent sentence is added as a score.

【0067】上記のように点数を加算したうえで、ステ
ップS1213においてもっとも点数の高い文節ブロック組
合せを選択することにより、さきに説明した排他的処理
と同等の効果を得ることができる。さらに、複数の選択
尺度を用いて総合的な判断がなされるので、正解となる
文節ブロックの組合せが選択される可能性がより高くな
る。
By adding the points as described above and selecting the phrase block combination having the highest score in step S1213, the same effect as the exclusive processing described above can be obtained. Furthermore, since a comprehensive judgment is made using a plurality of selection measures, there is a higher possibility that a correct combination of phrase blocks will be selected.

【0068】以上で、図2のステップS207における文節
候補選択処理についての詳細説明を終了する。図2に戻
り、ステップS208において、選択された区切りをSep(m)
として記憶し、変数sにSep(m)に記憶された第m文節の
次の文字位置を代入し、変数mをカウントアップしてス
テップS202からステップS208の処理を繰り返す。最終的
にステップS204の終了判定がYESとなり、分かち書き処
理が終了する。
Thus, the detailed description of the phrase candidate selection processing in step S207 of FIG. 2 is completed. Returning to FIG. 2, in step S208, the selected segment is set to Sep (m).
The character position next to the m-th clause stored in Sep (m) is substituted for the variable s, the variable m is counted up, and the processing from step S202 to step S208 is repeated. Finally, the end determination of step S204 becomes YES, and the sharing process ends.

【0069】図1の仮名漢字変換制御手段102により分
かち書きされた結果は、出力手段110により整形して出
力される。出力手段110では、分かち書きされた各文節
における候補の優先順位を制御する。また、過去にユー
ザが選択した候補を記憶する学習辞書を備え、出力時に
この学習辞書を参照して、過去にユーザが選択した候補
を優先的に出力する構成としても良い。
The result of division by the kana-kanji conversion control means 102 in FIG. 1 is shaped and output by the output means 110. The output unit 110 controls the priority of the candidates in each of the segmented phrases. Also, a configuration may be adopted in which a learning dictionary for storing candidates selected by the user in the past is provided, and the candidate selected by the user in the past is preferentially output by referring to the learning dictionary at the time of output.

【0070】以上説明したように本発明では、文節形抽
出ステップにおいて同一自立語をも含むすべての文節形
を抽出し、抽出された文節形を文節形整列ステップにお
いて整列して文節ブロックを形成し、文節ブロックを読
み長さにより限定して前文節ブロックとし、後続する後
文節を抽出して二文節で最長となる候補を選択するよう
構成したので、従来技術(文献2)よりも高速な処理が
可能となる。
As described above, according to the present invention, all phrase forms including the same independent word are extracted in the phrase extraction step, and the extracted phrase forms are aligned in the phrase alignment step to form a phrase block. Since the phrase block is limited by the reading length to be the preceding phrase block, the succeeding subsequent phrase is extracted, and the longest candidate in two phrases is selected, so that the processing is faster than the conventional technique (Reference 2). Becomes possible.

【0071】実施の形態2.実施の形態1では、文節形
抽出処理(図3)において、自立語検索結果すべての語
に対して付属語処理を行なう場合の例について説明した
が、本実施の形態では、付属語処理対象とする自立語を
限定することにより高速化する場合の例について説明す
る。
Embodiment 2 In the first embodiment, an example has been described in which the adjunct processing is performed on all the words in the independent word search results in the phrase extraction processing (FIG. 3). An example in which the speed is increased by limiting the independent words to be executed will be described.

【0072】図13に、自立語検索結果を限定して付属
語処理を行なう場合のフローチャートを示す。ステップ
S1301では、図3のステップS301と同様の処理に加え
て、最長となる自立語の長さを変数Lmaxに記憶する。こ
こで、自立語検索結果J[k]は読み文字列の長さであらか
じめソートされているものとする。通常、入力読み文字
列を1文字ずつ短くしながら辞書検索を繰り返して部分
一致文字列を検索するので、上記の読み文字列の長さ順
でソートされるという前提は特別の処理を必要とするも
のではない。
FIG. 13 shows a flowchart in the case of performing the attached word processing by limiting the independent word search result. Steps
In S1301, in addition to the same processing as in step S301 in FIG. 3, the length of the longest independent word is stored in a variable Lmax. Here, it is assumed that the independent word search result J [k] is sorted in advance by the length of the read character string. Normally, since the dictionary search is repeated to search for partial matching character strings while shortening the input reading character string by one character, the above-described premise that the reading character strings are sorted in the length order requires special processing. Not something.

【0073】図13のステップS1302では、図3のステ
ップS302と同様、ループカウンタiを1で初期化し、ス
テップS1303では図3のステップS303と同様にループ処
理の終了判定を行なう。
In step S1302 in FIG. 13, the loop counter i is initialized to 1 as in step S302 in FIG. 3, and in step S1303, the end of the loop processing is determined as in step S303 in FIG.

【0074】図13のステップS1310が、図3のフロー
チャートには存在しない処理ステップであり、現在処理
対象となっている自立語の長さLen(J[i])と最長自立語
の長さLmaxとの文字数差により、ループ処理の終了判定
を行なう。ここでは閾値Thとして4を与えるものとす
る。たとえば、入力文字列が「ふたごたまがわえんから
のばす」であった場合、自立語辞書検索結果として「二
子玉川園」「双子」「蓋」などが得られるが、読み9文
字からなる「二子玉川園」に対して、「双子」「蓋」な
どが後文節を加えて最長一致となる可能性は非常に低
い。そこでステップS1310において、最長の自立語であ
る「二子玉川園」との読み文字数の差が4文字以上であ
る「双子」「蓋」などは付属語処理せずに、自立語抽出
処理を終了する。上記のように読みの長い自立語が入力
された場合に、その部分文字列となる短かな自立語に対
しては付属語処理対象から除いて文節抽出処理を終了す
るので、高速化をはかることができる。図13における
ステップS1304からステップS1309までの処理について
は、図3におけるステップS304からステップS309までの
処理と同様なので説明を省略する。
Step S1310 in FIG. 13 is a processing step that does not exist in the flowchart in FIG. 3, and is the length Len (J [i]) of the independent word currently being processed and the length Lmax of the longest independent word. The end of the loop processing is determined based on the difference in the number of characters from. Here, it is assumed that 4 is given as the threshold Th. For example, if the input character string is "Futago Tamagawa Karen no Kaze", "Futako Tamagawaen", "Twins", "Lid", etc. are obtained as an independent word dictionary search result. Is very unlikely to be the longest match for "twin", "lid", etc. Therefore, in step S1310, the “independent” word extraction process ends without performing the auxiliary word processing for “twin”, “lid”, etc., in which the difference in the number of characters read from the longest independent word “Futakotamagawaen” is 4 or more characters. . When an independent word with a long reading is input as described above, short-term independent words that become a partial character string are excluded from adjunct word processing and the phrase extraction process ends, so speed up the process. Can be. The processing from step S1304 to step S1309 in FIG. 13 is the same as the processing from step S304 to step S309 in FIG.

【0075】以上の説明により理解される通り、本発明
による仮名漢字変換方法は、例えば次の様な構成により
実現することができる。(1)読み文字列を入力する入
力ステップと、(2)自立語辞書、付属語辞書および付
属語接続表を参照しつつ入力読み文字列から同一自立語
をも含むすべての文節形を抽出する文節形抽出ステップ
と、(3)文節形抽出ステップにおいて抽出された文節
形を文節読み長さ順に整列させ、文節読み長さごとの文
節ブロックを形成する文節形整列ステップと、(4)文
節ブロックを所定条件により限定して前文節ブロックと
し、各前文節ブロックに後続する後文節を抽出して二文
節で最長となる文節ブロックの組合せを求める最長二文
節抽出ステップと、(5)最長二文節抽出ステップにお
いて文節ブロックの組合せが複数抽出された場合に、所
定の順位づけを行ない適切な二文節を選択する最長二文
節選択ステップと、(6)変換結果を出力する出力ステ
ップの各ステップ。
As understood from the above description, the kana-kanji conversion method according to the present invention can be realized by, for example, the following configuration. (1) an input step of inputting a reading character string; and (2) extracting all phrase forms including the same independent word from the input reading character string while referring to the independent word dictionary, the auxiliary word dictionary, and the auxiliary word connection table. A phrase shape extraction step, (3) a phrase shape sorting step of sorting the phrase shapes extracted in the phrase shape extraction step in the phrase reading length order to form a phrase block for each phrase reading length, and (4) a phrase block Is defined as a pre-clause block by a predetermined condition, a post-clause following each pre-clause block is extracted, and a longest two-clause extraction step of obtaining a combination of the longest clause blocks in the two clauses; When a plurality of combinations of phrase blocks are extracted in the extraction step, a maximum order of two phrase selection steps of performing a predetermined ranking and selecting an appropriate two phrases, and (6) outputting a conversion result Each step of the output step that.

【0076】また、上記の基本的構成に関し、以下の様
な種々の応用例、変形例を実現できる。(2−1)上記
文節形抽出ステップは、自立語の読み文字列の長さによ
って付属語処理対象とする自立語を限定する付属語処理
対象限定ステップを含む。(2−2)上記付属語処理対
象限定ステップは、自立語検索結果のうち最長となる自
立語の読み長さとの差が所定文字数以内である自立語に
限定する。(2−3)上記付属語処理対象限定ステップ
は、自立語検索結果のうち最長となる自立語の読み長さ
との差が4文字ないし5文字以内である自立語に限定す
る。
Further, with respect to the above basic configuration, various applications and modifications as described below can be realized. (2-1) The phrase extraction step includes an adjunct word processing target limiting step of restricting an independent word to be an adjunct word processing target according to the length of a reading character string of the independent word. (2-2) The attached word processing target limitation step limits the independent word whose difference from the reading length of the longest independent word in the independent word search result is within a predetermined number of characters. (2-3) The attached word processing target limiting step limits independent words whose difference from the reading length of the longest independent word among independent word search results is within 4 to 5 characters.

【0077】(4−1)上記最長二文節抽出ステップ
は、前文節ブロックを読み長さの長いほうから所定順位
までに限定する処理対象文節ブロック限定ステップを含
む。(4−2)上記最長二文節抽出ステップは、前文節
ブロックを読み長さの長いほう1位から3位ないしは4
位までに限定する処理対象文節ブロック限定ステップを
含む。(4−3)上記最長二文節抽出ステップは、読み
長さが最長である文節ブロックとの読み長さの差により
処理対象とする前文節ブロックを限定する処理対象文節
ブロック限定ステップを含む。(4−4)上記処理対象
文節ブロック限定ステップは、読み長さが最長である文
節ブロックとの読み長さの差が4文字ないし5文字以内
である前文節ブロックに限定する。(4−5)上記最長
二文節抽出ステップは、自立語の読み長さの種類数によ
って限定する処理対象とする前文節ブロックを限定する
処理対象文節ブロック限定ステップを含む。
(4-1) The longest two phrase extraction step includes a processing target phrase block limitation step of limiting the preceding phrase block from the one having the longer reading length to a predetermined order. (4-2) The longest two-phrase extraction step comprises reading the preceding phrase block from the first to the third or fourth, whichever is longer in length.
And a process target clause block limiting step for limiting to the order. (4-3) The longest two-phrase extraction step includes a processing-target-phrase-block limiting step of limiting a previous phrase block to be processed based on a difference in reading length from a phrase block having the longest reading length. (4-4) The processing target phrase block limiting step restricts the preceding phrase block in which the difference in reading length from the phrase block having the longest reading length is within 4 to 5 characters. (4-5) The longest two-phrase extraction step includes a processing-target-phrase-block-limiting step of limiting a previous phrase block to be a processing target limited by the number of types of independent word reading lengths.

【0078】(5−1)上記最長二文節選択ステップ
は、読み文字長さが最長となる二つの文節ブロックの組
合せが複数存在する場合に、各文節ブロックにおける所
定順位までの文節同士の連結度合いを判定して、構文的
に妥当な文節ブロック組合せを選択する構文的妥当性に
よる文節組合せ選択ステップを含む。(5−2)上記最
長二文節選択ステップは、読み文字長さが1文字である
文節ブロックを含む組合せを前文節ブロックの候補から
削除する、1文字文節ブロック削除ステップを含む。
(5−3)上記最長二文節選択ステップは、付属語形態
素数の合計が最小となる文節ブロック組合せを選択する
付属語形態素数最小文節ブロック組合せ選択ステップを
含む。(5−4)上記最長二文節選択ステップは、特定
の助詞で終わる文節ブロックを含む文節ブロック組合せ
を選択する特定助詞文節ブロック組合せ選択ステップを
含む。(5−5)上記最長二文節選択ステップは、各文
節ブロックにおける所定順位までの文節同士の連結度合
いを判定した構文的な妥当性、読み文字長さが1文字で
ある文節ブロックを含む組合せか否か、付属語形態素数
の合計、特定の助詞で終わる文節ブロックか否かを総合
的に判断して適切な文節ブロック組合せを選択する。
(5-1) The longest two-phrase selection step is a step in which, when there are a plurality of combinations of two phrase blocks having the longest read character length, the degree of connection between the phrases up to a predetermined order in each phrase block. And selecting a syntactically valid phrase block combination to select a syntactically valid phrase block combination. (5-2) The longest two phrase selection step includes a one-character phrase block deletion step of deleting a combination including a phrase block whose reading character length is one character from candidates of the preceding phrase block.
(5-3) The longest two-phrase selection step includes a phrase block morpheme number minimum phrase block combination selection step of selecting a phrase block combination that minimizes the sum of the adjunct morpheme numbers. (5-4) The longest two phrase selection step includes a specific particle phrase block combination selection step of selecting a phrase block combination including a phrase block ending with a specific particle. (5-5) The longest two-phrase selection step is a combination including a phrase block in which the degree of connection between phrases up to a predetermined order in each phrase block is determined, and the read character length is one character. No, the total number of adjunct morphemes, and whether or not the phrase block ends with a specific particle are comprehensively determined, and an appropriate phrase block combination is selected.

【0079】なお、本発明による仮名漢字変換方法は、
上記の各ステップを実行するためのコンピュータにおい
て、あるいはマイクロプロセッサを組み込んだ電子機器
において実現することができる。例えば、大容量の無線
データ通信が可能な移動体通信装置(携帯電話、携帯情
報端末等)に当該マイクロプロセッサを組み込むことに
より、廉価かつ小型の通信端末において仮名漢字変換を
行うことが可能となる。
The kana-kanji conversion method according to the present invention
The present invention can be realized in a computer for executing the above steps, or in an electronic device incorporating a microprocessor. For example, by incorporating the microprocessor into a mobile communication device (mobile phone, mobile information terminal, etc.) capable of large-capacity wireless data communication, kana-kanji conversion can be performed at a low-cost and small communication terminal. .

【0080】また、本発明による仮名漢字変換方法は、
コンピュータプログラムとしてコンピュータ読み取り可
能な記憶媒体により提供することができる。この様な記
憶媒体には、光読出手段(CD−ROM、DVD等)の
記録媒体、磁気読出手段(フロッピーディスク、ハード
ディスク等)の記録媒体、半導体メモリ等がある。
The kana-kanji conversion method according to the present invention
It can be provided by a computer-readable storage medium as a computer program. Such storage media include recording media for optical reading means (CD-ROM, DVD, etc.), recording media for magnetic reading means (floppy disk, hard disk, etc.), semiconductor memory, and the like.

【0081】[0081]

【発明の効果】本発明によれば、読み長さにより前文節
候補となる文節形を限定することにより、最長二文節の
抽出対象を減少させることができる。従って、高速な漢
字変換処理を実現することができ、あるいは、所望の漢
字変換をより安価又は小型のハードウエアを用いて実現
することができる。
According to the present invention, it is possible to reduce the number of objects for extracting a maximum of two phrases by limiting the phrase forms which are the preceding phrase candidates according to the reading length. Therefore, high-speed kanji conversion processing can be realized, or desired kanji conversion can be realized using cheaper or smaller hardware.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の実施の形態1による仮名漢字変換装
置の一構成例を示したブロック図である。
FIG. 1 is a block diagram illustrating a configuration example of a kana-kanji conversion device according to a first embodiment of the present invention.

【図2】 図1の仮名漢字変換制御手段102により実行
される分かち書き処理の一例を示したフローチャートで
ある。
FIG. 2 is a flowchart showing an example of a segmentation process executed by the kana-kanji conversion control means 102 of FIG.

【図3】 文節形抽出処理の一例を示したフローチャー
トである。
FIG. 3 is a flowchart illustrating an example of a phrase extraction process;

【図4】 図1の自立語辞書104の一構成例を示した図
である。
FIG. 4 is a diagram showing a configuration example of an independent word dictionary 104 of FIG. 1;

【図5】 図1の付属語辞書105の一構成例を示した図
である。
FIG. 5 is a diagram showing an example of a configuration of an attached word dictionary 105 in FIG. 1;

【図6】 図1の付属語接続表106の一構成例を示した
図である。
FIG. 6 is a diagram showing a configuration example of an attached word connection table 106 in FIG. 1;

【図7】 入力読み文字列「あすからのかいさい」に対
する文節抽出結果の一例を示した図である。
FIG. 7 is a diagram illustrating an example of a phrase extraction result for an input reading character string “Asukara no Kaisai”;

【図8】 図7の文節の整列結果の一例を示した図であ
る。
8 is a diagram showing an example of a result of the alignment of the clauses in FIG. 7;

【図9】 後文節抽出対象となる読み文字列の一例を示
した図である。
FIG. 9 is a diagram showing an example of a read character string to be subjected to post-segment extraction.

【図10】 後文節抽出対象となる読み文字列の他の例
を示した図である。
FIG. 10 is a diagram showing another example of a read character string to be subjected to post-segment extraction.

【図11】 図2のステップS205における前文節ブロッ
クの限定方法の一例を示した図である。
FIG. 11 is a diagram showing an example of a method for limiting a previous phrase block in step S205 of FIG. 2;

【図12】 図1の最長二文節選択手段109の動作の一
例を示したフローチャートである。
FIG. 12 is a flowchart showing an example of the operation of the longest two-phrase selection means 109 of FIG. 1;

【図13】 本発明の実施の形態2による仮名漢字変換
装置の動作の一例を示した図であり、自立語検索結果を
限定して付属語処理を行う文節形抽出処理の動作を示し
たフローチャートである。
FIG. 13 is a diagram showing an example of an operation of the kana-kanji conversion device according to the second embodiment of the present invention, and is a flowchart showing an operation of a phrase form extraction process for performing an adjunct word process by limiting an independent word search result; It is.

【図14】 従来の仮名漢字変換処理の動作を示したフ
ローチャートである。
FIG. 14 is a flowchart showing an operation of a conventional kana-kanji conversion process.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 高山 泰博 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B009 MB13  ────────────────────────────────────────────────── ─── Continuation of front page (72) Inventor Yasuhiro Takayama 2-3-2 Marunouchi, Chiyoda-ku, Tokyo F-term (reference) 5B009 MB13

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 仮名文字列の文頭又は既知の文節区切り
から始まる文節形を辞書に基づき抽出する文節形抽出ス
テップと、 抽出された文節形を読み長さにより取捨選択して前文節
候補とする文節形限定ステップと、 前文節候補に後続する文節形を辞書に基づき抽出して後
文節候補とし、前文節候補及び後文節候補の組合せから
なる最長二文節を抽出する最長二文節抽出ステップと、 最長二文節抽出ステップにおいて2以上の最長二文節が
抽出された場合に、いずれか1つの最長二文節を選択す
る最長二文節選択ステップと、 求められた最長二文節に基づき文節区切りを決定し、漢
字変換を行う漢字変換ステップからなる仮名漢字変換方
法。
1. A phrase extraction step for extracting a phrase starting from the beginning of a kana character string or a known phrase delimiter based on a dictionary, and selecting the extracted phrase according to the reading length to obtain a preceding phrase candidate. A phrase form limitation step, a phrase form following the previous phrase candidate is extracted based on the dictionary as a later phrase candidate, and a longest two phrase extraction step of extracting the longest two phrases consisting of a combination of the previous phrase candidate and the later phrase candidate; When two or more longest two clauses are extracted in the longest two clause extraction step, a longest two clause selection step of selecting any one of the longest two clauses, and a segment break is determined based on the obtained longest two clauses, A kana-kanji conversion method comprising a kanji conversion step for performing kanji conversion.
【請求項2】 上記文節形抽出ステップは、自立語を抽
出する自立語抽出ステップと、抽出された自立語を自立
語読み長さにより取捨選択する自立語限定ステップと、
選択された各自立語に後続する付属語を抽出する付属語
抽出ステップからなる請求項1に記載の仮名漢字変換方
法。
2. The phrase extraction step includes: an independent word extraction step of extracting an independent word; an independent word limitation step of selecting the extracted independent word according to an independent word reading length;
2. The kana-kanji conversion method according to claim 1, further comprising an attached word extracting step of extracting an attached word following each selected independent word.
【請求項3】 上記自立語限定ステップは、抽出された
自立語の最大読み長さを求め、この最大読み長さとの差
が所定文字以内となる読み長さの自立語を選択する請求
項2に記載の仮名漢字変換方法。
3. The independent word limiting step determines a maximum reading length of the extracted independent word, and selects an independent word having a reading length whose difference from the maximum reading length is within a predetermined character. The kana-kanji conversion method described in.
【請求項4】 上記自立語限定ステップは、上記最大読
み長さとの差が4文字又は5文字以内となる読み長さの
自立語を選択する請求項3に記載の仮名漢字変換方法。
4. The kana-kanji conversion method according to claim 3, wherein the independent word limitation step selects an independent word having a reading length whose difference from the maximum reading length is within 4 or 5 characters.
【請求項5】 上記文節形限定ステップは、文節読み長
さの長い方から所定順位のまでの文節形を選択する請求
項1に記載の仮名漢字変換方法。
5. The kana-kanji conversion method according to claim 1, wherein the phrase form limitation step selects a phrase form from a long phrase reading length to a predetermined rank.
【請求項6】 上記文節形限定ステップは、文節読み長
さが長い方から3位又は4位までの文節形を選択する請
求項5に記載の仮名漢字変換方法。
6. The kana-kanji conversion method according to claim 5, wherein the phrase form limitation step selects a phrase form from the longest phrase reading length to the third or fourth place.
【請求項7】 上記文節形限定ステップは、抽出された
文節形の最大読み長さを求め、この最大読み長さとの差
が所定文字以内となる読み長さの文節形を選択する請求
項1に記載の仮名漢字変換方法。
7. The phrase form limiting step finds a maximum reading length of the extracted phrase form, and selects a phrase form having a reading length whose difference from the maximum reading length is within a predetermined character. The kana-kanji conversion method described in.
【請求項8】 上記文節形限定ステップは、上記最大読
み長さとの差が4文字又は5文字以内となる読み長さの
文節形を選択する請求項7に記載の仮名漢字変換方法。
8. The kana-kanji conversion method according to claim 7, wherein the phrase form limitation step selects a phrase form having a reading length whose difference from the maximum reading length is within 4 or 5 characters.
【請求項9】 上記文節形限定ステップは、自立語の読
み長さが長い方から所定順位以内となる文節形を選択す
るステップをさらに含む請求項5又は7に記載の仮名漢
字変換方法。
9. The kana-kanji conversion method according to claim 5, wherein the phrase form limitation step further comprises a step of selecting a phrase form within a predetermined rank from the longest independent word reading length.
【請求項10】 上記最長二文節選択ステップは、読み
長さが同一の前文節候補ごとに、自立語に基づく優先度
が所定順位までの前文節候補について最長二文節となる
文節間の構文的妥当性を判定し、その判定結果に基づき
いずれか1つの最長二文節を選択する請求項1に記載の
仮名漢字変換方法。
10. The longest two-phrase selection step includes, for each of the preceding phrase candidates having the same reading length, syntactical syntactics between the phrases having the longest two phrases for the preceding phrase candidates whose priority based on independent words is up to a predetermined order. The kana-kanji conversion method according to claim 1, wherein validity is determined, and any one of the longest two phrases is selected based on the determination result.
【請求項11】 上記最長二文節選択ステップは、読み
長さが2文字以上の前文節候補からなる最長二文節を選
択する請求項1に記載の仮名漢字変換方法。
11. The kana-kanji conversion method according to claim 1, wherein the longest two-phrase selection step selects the longest two-phrase consisting of preceding phrase candidates having a reading length of two or more characters.
【請求項12】 上記最長二文節選択ステップは、前文
節候補及び後文節候補の付属語形態素数の和がより小さ
い最長二文節を優先して選択する請求項1に記載の仮名
漢字変換方法。
12. The kana-kanji conversion method according to claim 1, wherein the longest two-segment selecting step preferentially selects the longest two-segment having a smaller sum of adjunct morpheme numbers of the preceding and succeeding phrase candidates.
【請求項13】 上記最長二文節選択ステップは、所定
の助詞で終わる前文節候補を含む最長二文節を選択する
請求項1に記載の仮名漢字変換方法。
13. The kana-kanji conversion method according to claim 1, wherein the longest two-phrase selection step selects a longest two-phrase including a preceding phrase candidate ending with a predetermined particle.
【請求項14】 仮名文字列の文頭又は既知の文節区切
りから始まる文節形を辞書に基づき抽出する文節形抽出
手段と、 抽出された文節形を読み長さにより取捨選択して前文節
候補とする文節形限定手段と、 前文節候補に後続する文節形を辞書に基づき抽出して後
文節候補とし、前文節候補及び後文節候補からなる最長
二文節を抽出する最長二文節抽出手段と、 最長二文節抽出ステップにおいて2以上の最長二文節が
抽出された場合に、いずれか1つの最長二文節を選択す
る最長二文節選択手段と、 求められた最長二文節に基づき文節区切りを決定し、そ
の前文節について漢字変換を行う漢字変換手段からなる
仮名漢字変換装置。
14. A phrase extraction means for extracting a phrase starting from the beginning of a kana character string or a known phrase delimiter based on a dictionary, and selecting the extracted phrase according to the reading length to obtain a preceding phrase candidate. A phrase form limiting means, a phrase form following the preceding phrase candidate is extracted based on the dictionary as a later phrase candidate, and a longest two phrase extraction means for extracting a maximum of two phrases consisting of the preceding and succeeding phrase candidates; When two or more longest bunsetsu are extracted in the bunsetsu extraction step, a longest two bunsetsu selecting means for selecting any one of the longest two bunsetsu, a bunsetsu break is determined based on the obtained longest two bunsetsu, A kana-kanji conversion device comprising kanji conversion means for performing kanji conversion on a phrase.
【請求項15】 請求項1に記載の各ステップをコンピ
ュータに実行させるための仮名漢字変換プログラムを記
録したコンピュータ読み取り可能な記録媒体。
15. A computer-readable recording medium on which a kana-kanji conversion program for causing a computer to execute the steps according to claim 1 is recorded.
JP2000026380A 2000-02-03 2000-02-03 Kana/kanji conversion method, kana/kanji converter, and recording medium having kana/kanji conversion program recorded thereon Pending JP2001216294A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000026380A JP2001216294A (en) 2000-02-03 2000-02-03 Kana/kanji conversion method, kana/kanji converter, and recording medium having kana/kanji conversion program recorded thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000026380A JP2001216294A (en) 2000-02-03 2000-02-03 Kana/kanji conversion method, kana/kanji converter, and recording medium having kana/kanji conversion program recorded thereon

Publications (1)

Publication Number Publication Date
JP2001216294A true JP2001216294A (en) 2001-08-10

Family

ID=18552119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000026380A Pending JP2001216294A (en) 2000-02-03 2000-02-03 Kana/kanji conversion method, kana/kanji converter, and recording medium having kana/kanji conversion program recorded thereon

Country Status (1)

Country Link
JP (1) JP2001216294A (en)

Similar Documents

Publication Publication Date Title
JP3272288B2 (en) Machine translation device and machine translation method
US8892420B2 (en) Text segmentation with multiple granularity levels
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US20070055493A1 (en) String matching method and system and computer-readable recording medium storing the string matching method
JPH08305730A (en) Automatic method for selection of key phrase from document of machine-readable format to processor
KR101126406B1 (en) Method and System for Determining Similar Word with Input String
JP3992348B2 (en) Morphological analysis method and apparatus, and Japanese morphological analysis method and apparatus
CN103440865B (en) The post-processing approach of speech recognition
WO2022105178A1 (en) Keyword extraction method and related device
CN118114660A (en) Text detection method, system and computer readable storage medium
CN113486155B (en) Chinese naming method fusing fixed phrase information
JP2001216294A (en) Kana/kanji conversion method, kana/kanji converter, and recording medium having kana/kanji conversion program recorded thereon
JP3628565B2 (en) Dictionary search method, device, and recording medium recording dictionary search program
JP3436109B2 (en) Related search formula search device and computer-readable recording medium storing related search formula search program
JP2002259426A (en) Similar document retrieval device, similar document retrieval method, recording medium with similar document retrieval program recorded thereon and similar document retrieval program
JP3072955B2 (en) Topic structure recognition method and device considering duplicate topic words
JPS6389976A (en) Language analyzer
JP3314720B2 (en) String search device
JP3329352B2 (en) Topic level control method and topic structure recognition device in topic structure recognition
JP2002163291A (en) Similar document retrieving device and method, and recording recording medium
JPH11259487A (en) Similar document retrieving device, similar document retrieving method and storage medium recorded with program for retrieving similar document
JP2000222432A (en) Document retrieval device, document retrieval method and recording medium recording document retrieval program
CN113901269A (en) Video recall method
JPS62221065A (en) Document preparing system
JP3339879B2 (en) Character recognition device

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040722

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050418

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070320