JPH096762A - Device and method for converting kanji for chinese - Google Patents

Device and method for converting kanji for chinese

Info

Publication number
JPH096762A
JPH096762A JP7181100A JP18110095A JPH096762A JP H096762 A JPH096762 A JP H096762A JP 7181100 A JP7181100 A JP 7181100A JP 18110095 A JP18110095 A JP 18110095A JP H096762 A JPH096762 A JP H096762A
Authority
JP
Japan
Prior art keywords
kanji
string
phonetic symbol
phrase
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7181100A
Other languages
Japanese (ja)
Inventor
Takeshi O
斌 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP7181100A priority Critical patent/JPH096762A/en
Priority to CN 96107169 priority patent/CN1100301C/en
Publication of JPH096762A publication Critical patent/JPH096762A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To improve conversion efficiency and input speed by performing suitable clause partition in the case of a Chinese character (KANJI) converting input due to the phonetic symbol input of Chinese. CONSTITUTION: A phonetic symbol sequence to be the reading of a KANJI string composed of plural clauses to be inputted is inputted from a key input part 1. A CPU 2 partitions the phonetic symbol sequence into respective clauses while referring to a conversion dictionary 8 based on the inputted phonetic symbol sequence and outputs a KANJI string to be a candidate for each clause onto a display part 4. Besides, when partitioning the phonetic symbol sequence into the respective clauses, the CPU 2 retrieves the conversion dictionary 8 so that the sum of characters in the KANJI strings respectively corresponding to two continuous clauses can be maximum. In this case, a long KANJI string corresponds to the second clause, there is possibility for the first clause to be partitioned at the first character. Therefore, possibility to perform clause partition according to the grammer of Chinese having possibility for the first clause to be defined as one clause at the first character is improved.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、中国語の入力処理にお
いて、発音記号を入力可能なキーボードから入力された
発音記号列を漢字に変換する中国語用漢字変換装置及び
中国語用漢字変換方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a Chinese-Kanji conversion apparatus and Chinese-Kanji conversion method for converting a phonetic symbol string input from a keyboard capable of inputting phonetic symbols into Kanji in Chinese input processing. Regarding

【0002】[0002]

【従来の技術】一般に、中国語の文字の入力処理におい
ては、アルファベットで構成される発音記号(ピンイ
ン)列を入力し、入力された発音記号列に対応する漢字
を辞書から検索して出力するようになっている。すなわ
ち、日本語の文字の入力処理とほぼ同様に、中国語の文
字の入力処理においては、入力された発音記号列を漢字
に変換する漢字変換装置(いわゆるFEP(front end
processor))が必要となる。
2. Description of the Related Art Generally, in the process of inputting Chinese characters, a phonetic symbol (Pinyin) string composed of alphabets is input, and a kanji corresponding to the input phonetic symbol string is retrieved from a dictionary and output. It is like this. That is, similar to the input processing of Japanese characters, in the input processing of Chinese characters, a Kanji conversion device (so-called FEP (front end)
processor)) is required.

【0003】従来、中国語用の漢字変換装置において、
複数の漢字熟語からなる漢字列に対応する発音記号列を
入力した後に、一括して変換処理を行った場合には、辞
書を検索して、発音記号列の先頭から対応する漢字熟語
に順次変換するようになっている。
Conventionally, in a kanji conversion device for Chinese,
If a phonetic symbol string corresponding to a Kanji string consisting of multiple Kanji phrases is input and then converted collectively, the dictionary is searched and the corresponding Kanji phrase is sequentially converted from the beginning of the phonetic symbol string. It is supposed to do.

【0004】この際には、まず、発音記号列の任意の長
さの先頭部分に対応する漢字熟語を辞書から検索する。
そして、複数の漢字熟語が検索され、かつ、検索された
漢字熟語の文字数が異なる場合には、文字数が最も多い
長い漢字熟語が優先的に選択される。そして、上記発音
記号列の選択された漢字熟語に対応する先頭部分が一つ
の文節とされる。
At this time, first, a dictionary is searched for a kanji idiom corresponding to the beginning of an arbitrary length of the phonetic symbol string.
Then, when a plurality of Kanji phrases are searched and the searched Kanji phrases have different numbers of characters, the long Kanji phrase having the largest number of characters is preferentially selected. The beginning portion of the phonetic symbol string corresponding to the selected kanji compound word is set as one bunsetsu.

【0005】次いで、上記発音記号列から検索された漢
字熟語に対応する先頭部分を除いた発音記号列におい
て、上述のような処理を行うとともに、発音記号列の全
ての部分を漢字に変換するまで上述の処理が繰り返し行
われる。すなわち、複数の漢字熟語からなる漢字列に対
応する発音記号列を一括変換した場合には、発音記号列
が先頭から順番に複数の文節に分割されることになる
が、この際には、文節を構成する漢字列の文字数が最大
となるように一文節文字数最大処理が行われるようにな
っている。
Next, in the phonetic symbol string excluding the head part corresponding to the kanji idiom retrieved from the phonetic symbol string, the above-mentioned processing is performed and all the parts of the phonetic symbol string are converted into kanji. The above process is repeated. In other words, when a phonetic symbol string corresponding to a Kanji string consisting of multiple Kanji compound words is collectively converted, the phonetic symbol string will be divided into multiple phrases in order from the beginning. The maximum number of characters in one bunsetsu is performed so that the number of characters in the kanji character string that makes up the character is maximized.

【0006】上記一文節文字数最大処理は以下のように
行われる。例えば、漢字入力装置に、”中国人民”の発
音記号列として”zhong guo ren min
g”を入力するものとする。そして、辞書に以下の表1
に示す漢字熟語が登録されているものとする。
The above-mentioned maximum processing for the number of characters in one phrase is performed as follows. For example, in a kanji input device, a phonetic symbol string of "Chinese people" is displayed as "zhong gu o ur min min".
g "is input, and the following Table 1 is added to the dictionary.
It is assumed that the Kanji compound words shown in are registered.

【0007】 この場合に、”zhong guo ren min
g”の任意の長さの先頭部分に対応する漢字列を辞書か
ら検索すると、”中”、”中国”、”中国人”、”中国
人民”が検索範囲に含まれることになる。
[0007] In this case, "zhong guoo ren min
When a kanji string corresponding to the beginning part of an arbitrary length of “g” is searched from the dictionary, “medium”, “China”, “Chinese”, and “Chinese people” are included in the search range.

【0008】ここで、入力された発音記号列の任意の長
さの先頭部分に対応する漢字列のうち最も文字数の多い
漢字列に基づいて文節が区切られるので、”中国人民”
に対応する発音記号列である”zhong guo r
en ming”が一つの文節とされる。
Here, since the bunsetsu is divided based on the kanji string having the largest number of characters among the kanji strings corresponding to the beginning part of the input phonetic symbol string of any length, "Chinese people"
Is a phonetic symbol string corresponding to "zhong guar
"en ming" is one clause.

【0009】そして、一つの文節とされた”zhong
guo ren ming”に対応する漢字列として
辞書に中国人民だけが登録されていれば、上記発音記号
列に対して中国人民が出力される。
[0009] Then, "zhong" is regarded as one clause.
If only Chinese people are registered in the dictionary as a kanji string corresponding to "guo ren ming", the Chinese people are output to the above phonetic symbol string.

【0010】なお、同音の漢字が多数あるので、発音記
号列を漢字一文字分ずつに分割して漢字に変換した場合
に、各分割部分に多くの候補となる漢字が出力されるこ
とになり、同音漢字の中から目的とする漢字を選択する
のにとても手間かかり変換処理に長い時間が必要とな
る。
Since there are many Kanji characters with the same sound, when the phonetic symbol string is divided into Kanji characters and converted into Kanji characters, many Kanji characters that are candidates are output in each divided portion. It takes a lot of time to select a desired kanji from the same kanji and it takes a long time for the conversion process.

【0011】そこで、上述のように発音記号列をできる
だけ長い文節に分割することにより、各分割部分に対応
する漢字列の数を大幅に絞り込むことができ、同音の漢
字列から目的とする漢字列を選択する処理を省力化し、
変換処理にかかる時間を減少させることができる。
Therefore, by dividing the phonetic symbol string into the longest possible phrases as described above, the number of kanji strings corresponding to each divided part can be significantly narrowed down. Labor saving the process of selecting
The time required for the conversion process can be reduced.

【0012】なお、上記漢字変換装置において、発音記
号列が文節に分割されることになるが、意図した文節の
区切り位置と異なる位置で文節に分割され、入力すべき
漢字列が変換候補に含まれない場合には、オペレータが
文節の区切り位置を変更し、変換処理を再び行う必要が
ある。
In the above-mentioned kanji conversion device, the phonetic symbol string is divided into bunsetsu, but it is divided into bunsetsu at a position different from the intended delimiter position of the bunsetsu, and the kanji string to be input is included in the conversion candidates. If not, the operator needs to change the segment delimiter position and perform the conversion process again.

【0013】また、中国語の発音においては、同じアル
ファベットの発音記号で表される言葉でも、発音する際
の音程の上げ下げにより意味が異なる言葉となり、この
言葉に対応する漢字も異なるものとなっている。従っ
て、中国語の発音記号には、上述のアルファベットで示
される発音記号に、発音する際の音程の上げ下げを示す
声調記号が付されている。
Further, in the pronunciation of Chinese, even words represented by phonetic symbols of the same alphabet have different meanings depending on the pitch of pronunciation, and the kanji corresponding to these words also differ. There is. Therefore, in the phonetic symbols in Chinese, the phonetic symbols indicated by the above-mentioned alphabets are provided with tone symbols indicating the pitch up and down when being pronounced.

【0014】そして、漢字変換装置において、上記声調
記号がついた発音記号を入力するものとすれば、同音異
義語を減らして変換効率の向上を図ることができるが、
キーボードから声調記号のついた発音記号を入力するも
のとした場合には、中国語の発音記号用のキーボードが
必要となるとともに、入力速度が低下することになる。
If a phonetic symbol with the above-mentioned tone symbol is input to the kanji conversion device, it is possible to reduce homonyms and improve conversion efficiency.
When a phonetic symbol with a tone symbol is input from the keyboard, a keyboard for Chinese phonetic symbols is required and the input speed is reduced.

【0015】上述の漢字変換方法は、声調記号のない発
音記号を用いた場合の例である。
The above-mentioned kanji conversion method is an example in which a phonetic symbol having no tone symbol is used.

【0016】また、上記漢字熟語とは、辞書に登録され
た一つの発音記号列に対する一つの漢字列であり、必ず
しも日本の熟語と同一ものではなく、例えば、辞書にお
いて、一つの発音記号列に対して一文字の漢字が登録さ
れていた場合には、この漢字一文字も漢字熟語となる。
The Kanji compound word is one Kanji string for one phonetic symbol string registered in the dictionary and is not necessarily the same as a Japanese compound word. For example, one phonetic symbol string in a dictionary. On the other hand, if one Kanji character is registered, this one Kanji character also becomes a Kanji compound word.

【0017】[0017]

【発明が解決しようとする課題】ところで、中国語にお
いては、一文字の漢字熟語が主語(例えば、我、他
…)、前置詞(例えば、在、从、又…)、否定語(例え
ば、不…)、修飾語(例えば、很…)として、一つのセ
ンテンスの先頭文節に出てくる可能性が高いため、入力
された文字列の先頭の文節が一文字となることが多い。
By the way, in Chinese, a single kanji compound word is a subject (for example, me, etc.), a preposition (for example, is, through, or ...), and a negative word (for example, im ... ), As a modifier (for example, ...) It is highly likely that it will appear in the first phrase of one sentence, so the first phrase of the input character string is often a single character.

【0018】しかし、上述の一文節文字数最大処理にお
いては、入力された発音記号列の先頭の文節の文字数を
上記発音記号列の先頭部分に対応する漢字熟語のうちの
最も長い漢字熟語に基づいて決定しているので、先頭文
節が二文字以上になる可能性が高い。
However, in the above-mentioned maximum processing of the number of characters in one bunsetsu, the number of characters in the leading bunsetsu of the input phonetic symbol string is determined based on the longest kanji compound word of the kanji compound words corresponding to the beginning part of the phonetic symbol string. Since it has been decided, there is a high possibility that the first phrase will be two or more characters.

【0019】従って、中国語の文法上では、先頭文節が
一文字となる場合が頻繁にあるのに、従来の中国語用漢
字変換装置では、先頭文節が二文字以上となる可能性が
高いので、文節区切り位置が不適切になる可能性があ
る。
Therefore, in terms of Chinese grammar, the first phrase is often one character, but in the conventional Chinese-Kanji conversion device, there is a high possibility that the first phrase will be two or more characters. The phrase break position may be incorrect.

【0020】すなわち、上記中国語用漢字変換装置にお
いて、複数の文節からなる発音記号列を入力した場合に
は、上述のように不適切な文節区切りが行われて最初の
変換時に入力すべき漢字列とは異なる漢字列が出力され
る可能性が高く、変換効率の低下を招いていた。
That is, when a phonetic symbol string consisting of a plurality of clauses is input to the Chinese-to-Chinese character conversion apparatus described above, an inappropriate clause delimiter is performed as described above and the Chinese character to be input at the first conversion. There is a high possibility that a Kanji string different from the string will be output, resulting in a decrease in conversion efficiency.

【0021】また、上述のように文節の区切り位置が不
適切なため、入力すべき漢字列とは異なる漢字列が候補
として出力された場合には、辞書から各文節毎に同音の
漢字列を検索しても、同音の漢字列に目的とする漢字列
が含まれていない可能性が高い。この場合、文節の区切
り位置を変更した後に再変換を行なわないと、入力すべ
き漢字列を検索できないので、入力速度の低下を招くこ
とになる。
Further, as described above, when the kanji character string different from the kanji character string to be input is output as a candidate because the punctuation position of the phrase is inappropriate, the kanji character string with the same sound is output from the dictionary for each verse. Even if you search, there is a high possibility that the kanji string with the same sound does not contain the desired kanji string. In this case, the Kanji character string to be input cannot be searched unless re-conversion is performed after changing the delimiter position of the bunsetsu, resulting in a decrease in input speed.

【0022】例えば、従来の漢字変換装置に”在不知不
覚中”の発音記号列として”zaibu zhi bu
jue zhong”を入力したものとする。な
お、”在不知不覚中”の正しい文節は、文節区切り位置
を:で示した場合に以下のようになる。
For example, in the conventional kanji conversion device, as a phonetic symbol string of "not knowing unknown", "zaibu zhi bu"
It is assumed that the user has entered "jue zhong". The correct bunsetsu "unknowingly unknown" is as follows when the bunsetsu segmentation position is indicated by :.

【0023】:在:不 知 不 覚:中: また、辞書に以下の表2に示す漢字熟語が登録されてい
るものとする。
: Alive: Unknown Unknown: Medium: In addition, it is assumed that the kanji compound words shown in Table 2 below are registered in the dictionary.

【0024】 この場合の漢字変換装置の変換においては、上記一文節
文字数最大処理により、発音記号列”zai bu z
hi bu jue zhong”の先頭部分に対応す
る辞書に登録された任意の文字数の漢字列のうちの最も
長い文字数の漢字列に基づいて最初の文節が区切られる
ことになる。
[0024] In the conversion of the kanji conversion device in this case, the phonetic symbol string "zai bu z
The first phrase is divided based on the longest kanji string among the kanji strings of arbitrary number of characters registered in the dictionary corresponding to the head part of "hi bu ju zhong".

【0025】ここでは、”zai bu zhi bu
jue zhong”の先頭部分に対応する漢字列と
して、在と再不とが登録されているが、再不の方が文字
数が多いので、再不に対応して”zai bu”が最初
の文節とされ、最初の文節の第一候補となる漢字列が再
不となる。
In this case, "zai bu zhi bu"
As the kanji character string corresponding to the beginning part of "jue zhong", the presence and the re-mistake are registered, but since the re-mistake has a larger number of characters, "zai bu" is regarded as the first phrase corresponding to the re-mistake. The kanji string that is the first candidate for the bunsetsu no kanji is rewritten.

【0026】また、最初の文節を除く残りの発音記号列
についても、上記一文節文字数最大処理に基づいて文節
の分割及び各文節の第一候補となる漢字列を出力した場
合には、例えば、”再不支部絶種”となる。
Also, for the remaining phonetic symbol strings except the first bunsetsu, when the bunsetsu division and the kanji string which is the first candidate of each bunsetsu are output based on the above-mentioned one bunsetsu character number maximum processing, for example, It becomes a "re-branch section excellence".

【0027】なお、”再不支部絶種”の文節区切り位置
は以下に示すものである。 :再 不:支 部:絶 種: (:zai bu:zhi bu:zhong:) 以上のように、最初の文節区切り位置が不適切な場合に
は、それ以降の文節区切り位置も不適切なものとなり、
各文節の漢字列も正しく変換されなくなる。また、上述
のように発音記号列の各文節毎に他の同音の候補となる
漢字列から入力すべき漢字列に対応する漢字列を検索し
ても、目的とする漢字列が検索できない可能性が高い。
Note that the phrase delimiter positions of the "non-re-branch species" are shown below. : Re: Branch: Absolute: (: zai bu: zhi bu: zhong :) As described above, when the first bunsetsu break position is inappropriate, the bunsetsu break position after that is also inappropriate. Next to
Kanji strings in each bunsetsu will not be converted correctly. In addition, as described above, even if the Kanji string corresponding to the Kanji string to be input is searched from the Kanji strings that are candidates for the same phoneme for each syllable of the phonetic symbol string, the target Kanji string may not be searched. Is high.

【0028】従って、オペレータが文節区切り位置を正
しい位置に変更して、再変換を行う必要がる。本発明の
課題は、中国語用漢字変換装置において、中国語の文法
にできるだけ即した文節区切りを行うことによって、漢
字変換入力の変換効率及び入力速度の向上を図ることで
ある。
Therefore, it is necessary for the operator to change the phrase segmentation position to the correct position and perform the conversion again. An object of the present invention is to improve the conversion efficiency and the input speed of Kanji conversion input by performing phrase segmentation that matches Chinese grammar as much as possible in a Chinese character conversion device.

【0029】[0029]

【課題を解決するための手段】本発明の請求項1記載の
中国語用漢字変換装置は、発音記号列に対応して漢字列
が登録された辞書と、漢字列の発音を示す発音記号列を
入力する入力手段と、入力された発音記号列を上記辞書
に基づいて文節毎に漢字列に変換して出力する変換手段
とを具備してなり、上記変換手段は、変換される漢字列
が複数の文節からなる場合に、入力された発音記号列の
先頭から順番に連続する二つの文節からそれぞれ変換さ
れる漢字列の文字数の和が最大となるように、上記辞書
から漢字列を検索することを特徴とする。
According to a first aspect of the present invention, there is provided a kanji conversion device for Chinese characters in which a kanji character string corresponding to a phonetic symbol string is registered and a phonetic symbol string indicating the pronunciation of the kanji character string. The input means for inputting, and the conversion means for converting the input phonetic symbol string into a kanji character string for each phrase based on the dictionary and outputting the kanji character string. When it consists of multiple bunsetsu, the kanji string is searched from the above dictionary so that the sum of the number of characters in the kanji string converted from two consecutive syllabaries from the beginning of the input phonetic symbol string becomes the maximum. It is characterized by

【0030】本発明の請求項2記載の中国語用漢字変換
方法は、入力される発音記号列を、発音記号列と漢字列
とが対応させられて登録された辞書に基づいて漢字列に
変換する中国語用漢字変換装置における中国語用漢字変
換方法であって、入力された発音記号列の任意の長さの
先頭部分に対応する第一の漢字列を上記辞書から検索す
るとともに、入力された発音記号列から検索された第一
の漢字列に対応する部分を除いた残りの発音記号列の任
意の長さの先頭部分に対応する第二の漢字列を辞書から
検索し、かつ、第一の漢字列と第二の漢字列とが複数組
検索された場合に、これら複数組の第一及び第二の漢字
列の中から第一の漢字列と第二の漢字列との文字数の和
が最大となる第一及び第二の漢字列を選択し、選択され
た第一及び第二の漢字列を入力すべき漢字列の候補とし
て出力することを特徴とする。
In the Chinese character conversion method for Chinese according to claim 2 of the present invention, the inputted phonetic symbol string is converted into a Chinese character string based on a dictionary in which the phonetic symbol string and the Chinese character string are associated with each other. A method for converting Chinese characters in a Chinese-Kanji converting device for Chinese, wherein a first Chinese character string corresponding to the beginning portion of an input phonetic symbol string having an arbitrary length is searched from the dictionary and input. The second kanji string corresponding to the beginning part of the arbitrary length of the remaining phonetic symbol string excluding the part corresponding to the first kanji string retrieved from the phonetic symbol string is searched from the dictionary, and When a plurality of sets of one kanji string and a second kanji string are searched, the number of characters of the first kanji string and the second kanji string is selected from the plurality of sets of the first and second kanji strings. Select the first and second kanji strings that maximize the sum and select the selected first and second kanji strings. And outputs as a candidate Chinese character string to be input to string.

【0031】[0031]

【作用】上記請求項1記載の構成によれば、従来のよう
に入力された発音記号列の先頭から順番に各文節の漢字
列の文字数が最大となるように漢字列を辞書から検索す
るのではなく、入力された発音記号列の先頭から順番に
連続する二つの漢字列の文字数の和が最大となるように
二つの漢字列を辞書から検索している。
According to the structure described in claim 1, the kanji character string is searched from the dictionary so that the number of characters of the kanji character string of each phrase is maximized in order from the beginning of the input phonetic symbol string as in the conventional case. Instead, the two kanji strings are searched from the dictionary so that the sum of the numbers of characters of the two kanji strings consecutive in order from the beginning of the input phonetic symbol string becomes the maximum.

【0032】従って、入力された発音記号列の任意の長
さの先頭部分に当てはまる二文字以上の漢字熟語が辞書
に登録されている場合でも、その次の文節の長さによっ
ては、発音記号列の先頭部分の候補として一文字の漢字
熟語が出力される可能性があり、従来の漢字変換装置よ
りも、一文字の漢字熟語が文頭にくるように変換される
可能性が高くなる。
Therefore, even if two or more Kanji idioms corresponding to the beginning portion of the input phonetic symbol string of any length are registered in the dictionary, depending on the length of the next clause, the phonetic symbol string may be generated. There is a possibility that a Kanji compound word of one character will be output as a candidate for the beginning part of, and the possibility that the Kanji compound word of one character will be converted to be at the beginning of the sentence will be higher than in the conventional Kanji conversion device.

【0033】また、連続する二つの文節の文字数の和が
最大となるようにしているので、一文節目が一文字の単
漢字熟語とされても、二文節目は長い漢字熟語となり、
文章全体としては長い漢字熟語が占める割合が多くなる
ので、文章を短い文節に区切ってしまった場合のように
短い文節に対応して辞書に多数登録された同音漢字熟語
から漢字熟語を選択することによる入力速度の低下を招
くことがない。
Further, since the sum of the numbers of characters of two consecutive bunsetsu is maximized, even if the first bunsetsu is a single kanji idiom, the second bunsetsu becomes a long kanji idiom.
Since the ratio of long Kanji compound words to the whole sentence is large, select a Kanji compound word from a large number of homophone Kanji compound words registered in the dictionary corresponding to short phrases such as when the sentence is divided into short phrases. The input speed will not be reduced due to.

【0034】上記請求項2記載の構成によれば、第一及
び第二の漢字列が複数組検索された場合に、第一の漢字
列と第二の漢字列との文字数の和が最大となる第一及び
第二の漢字列を選択し、選択された第一及び第二の漢字
列を入力すべき漢字列の候補として出力することによ
り、上記請求項1記載の構成と同様に、連続する二つの
文節の文字数の和が最大となるような漢字列が検索され
ることになり、変換効率及び入力速度の向上を図ること
ができる。
According to the configuration of claim 2, when a plurality of sets of the first and second kanji strings are searched, the maximum sum of the numbers of characters of the first kanji string and the second kanji string is the maximum. By selecting the first and second kanji character strings that are to be output and outputting the selected first and second kanji character strings as candidates for the kanji character string to be input, similar to the configuration according to claim 1, A kanji string that maximizes the sum of the numbers of characters of the two clauses is searched, and the conversion efficiency and the input speed can be improved.

【0035】[0035]

【実施例】以下に、本発明の中国語用漢字変換装置及び
中国語用漢字変換方法の一実施例を図面を参照して説明
する。図1は、この実施例の中国語用漢字変換装置を示
すものである。なお、この実施例の中国語用漢字変換装
置は、コンピュータ・システム(例えば、汎用のコンピ
ュータシステムやワードプロセッサ専用機やコンピュー
タ・タイプセッティング・システムや、その他のシステ
ム)に組み込まれ、例えばアスキーコードを入力可能な
キーボードを用いてコンピュータ・システムへの中国語
の入力を可能とするものである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the Chinese character conversion device and Chinese character conversion method of the present invention will be described below with reference to the drawings. FIG. 1 shows a Chinese character conversion device of this embodiment. It should be noted that the Chinese-Kanji conversion device of this embodiment is incorporated in a computer system (for example, a general-purpose computer system, a word processor-dedicated machine, a computer typesetting system, or any other system) to input, for example, an ASCII code. It enables Chinese input to a computer system using a possible keyboard.

【0036】図1に示すように、この実施例の中国語用
漢字変換装置は、アルファベットからなる中国語の発音
記号を入力可能なキー入力部1と、入力された発音記号
を中国語の漢字に変換して出力するCPU(central pr
ocessing unit)2と、CPU2から出力される発音記
号や漢字等の文字の形状を画像データ(フォントデー
タ)として記憶する表示メモリ3と、表示メモリ3に記
憶された発音記号や漢字等の画像データを表示する表示
部4と、CPU2から出力される発音記号や漢字等を印
字するための印字部5と、上記漢字や発音記号のフォン
トデータなどのCPU2の処理に必要なデータや、CP
U2から出力されるデータ等を記憶する外部記憶部6
と、同じくCPU2の処理に必要なデータやCPU2か
ら出力されるデータを一時的に記憶するワークメモリ7
と、発音記号列と該発音記号列に対応する漢字熟語とが
登録された変換辞書8とを有する。
As shown in FIG. 1, the Chinese-Kanji conversion apparatus of this embodiment has a key input unit 1 capable of inputting Chinese phonetic symbols consisting of alphabets, and an input phonetic symbol for Chinese Kanji characters. CPU to convert to and output (central pr
ocessing unit) 2, a display memory 3 that stores the shape of characters such as phonetic symbols and Chinese characters output from the CPU 2 as image data (font data), and image data such as phonetic symbols and Chinese characters stored in the display memory 3. , A printing unit 5 for printing phonetic symbols and Chinese characters output from the CPU 2, data necessary for the processing of the CPU 2, such as the font data of the Chinese characters and phonetic symbols, and the CP.
External storage unit 6 for storing data output from U2
And a work memory 7 for temporarily storing data necessary for processing of the CPU 2 and data output from the CPU 2.
And a conversion dictionary 8 in which a phonetic symbol string and a Kanji compound word corresponding to the phonetic symbol string are registered.

【0037】上記キー入力部1は、いわゆるアルファベ
ット用のキーボードであり、声調記号の無い中国語の発
音記号を入力できるものである。また、キー入力部1
は、変換、文節区切り位置の変更、確定等の指示を入力
できるようになっている。上記ワークメモリ7は、発音
記号を漢字に変換する際に必要なデータを一時的に格納
するものであり、図2に示すような領域が確保されてい
る。
The key input unit 1 is a so-called alphabet keyboard, and can input Chinese phonetic symbols without tone symbols. Also, the key input unit 1
Can input instructions such as conversion, change of segmentation position, and confirmation. The work memory 7 temporarily stores data necessary for converting phonetic symbols into kanji, and has an area as shown in FIG.

【0038】すなわち、ワークメモリ7には、キー入力
部1から入力された発音記号列が格納される入力バッフ
ァ領域IBと、入力された発音記号列のうちの変換辞書
8を検索するのに必要な部分が格納される検索発音記号
領域PYと、該検索発音記号領域PYに格納された発音
記号列に基づいて検索された第一候補の漢字列が格納さ
れる検索漢字文字列領域SCと、検索された第一文節の
漢字列の文字数が格納される第一文節サイズ領域S1
と、検索された第二文節の漢字列の文字数が格納される
第二文節サイズ領域S2と、一組以上の第一及び第二文
節の漢字列が検索される場合に、各組の上記第一文節サ
イズ領域S1及び第二文節サイズ領域S2にそれぞれ格
納された文節サイズが一組ずつ格納される文節サイズ組
スタック領域SKと、確定された漢字列が格納される確
定漢字文字列領域FCとが確保されている。
That is, the work memory 7 is necessary for searching the input buffer area IB in which the phonetic symbol string input from the key input unit 1 is stored and the conversion dictionary 8 of the input phonetic symbol string. And a search kanji character string region SC in which a kanji string of the first candidate searched based on the phonetic symbol string stored in the search pronunciation symbol region PY is stored. First phrase size area S1 in which the number of characters in the retrieved first phrase kanji string is stored
And a second bunsetsu size area S2 in which the number of characters in the searched second bunsetsu kanji string is stored, and when one or more sets of first and second bunsetsu kanji strings are searched, A clause size set stack area SK in which the clause sizes stored in the one clause size area S1 and the second clause size area S2 are stored, and a confirmed kanji character string area FC in which a confirmed kanji string is stored. Is secured.

【0039】なお、上記第一文節及び第二文節とは、入
力された発音記号列の先頭から順番に連続する二つの文
節において、先の文節を第一文節とし、後の文節を第二
文節としたものである。また、上記変換辞書8は、一般
的な漢字変換用の辞書であり、中国語において、有る程
度の頻度で用いられる漢字列が漢字熟語として登録され
ているとともに、登録された漢字熟語に対応して該漢字
熟語の読みとなる発音記号列が登録されている。
The first phrase and the second phrase are the two phrases that are consecutive in sequence from the beginning of the input phonetic symbol string, and the first phrase is the first phrase and the second phrase is the second phrase. It is what The conversion dictionary 8 is a general kanji conversion dictionary. In Chinese, a kanji string used with a certain frequency is registered as a kanji compound word and corresponds to the registered kanji compound word. A phonetic symbol string that is the reading of the Kanji phrase is registered.

【0040】また、上記変換辞書8には、同音漢字熟語
の優先順位等のデータも登録されていれる。そして、上
記変換辞書8により発音記号列から漢字熟語が検索でき
るようになっている。なお、上記漢字列及び漢字熟語に
は、一文字の漢字も含まれるものとする。すなわち、上
記変換辞書においては、一つの漢字列(漢字熟語)とし
て、一文字の漢字も登録されている。
The conversion dictionary 8 also stores data such as the priority order of homophones and kanji compound words. The conversion dictionary 8 can be used to search for kanji compound words from phonetic symbol strings. It should be noted that the above-mentioned Kanji string and Kanji compound word include one Kanji character. That is, in the conversion dictionary, one kanji character is also registered as one kanji string (kanji compound word).

【0041】そして、上記CPU2は、後述するよう
に、キー入力部1から入力された発音記号列に基づいて
変換辞書8を検索して発音記号列を文節毎に分割すると
ともに各文節部分を漢字列に変換する機能を有する。
As will be described later, the CPU 2 searches the conversion dictionary 8 based on the phonetic symbol string input from the key input unit 1, divides the phonetic symbol string into phrases, and divides each phrase portion into Chinese characters. It has the function of converting to a column.

【0042】次に、上述のような中国語用漢字変換装置
による中国語用漢字変換方法について説明する。図3の
フローチャートは、この実施例の中国語用漢字変換方法
を示すものであり、この実施例において中国語用漢字変
換方法は、後述する二文節文字数最大処理により文節を
区切って発音記号を漢字に変換して入力するものであ
る。
Next, a method of converting Chinese characters into Chinese characters by the Chinese character converting apparatus as described above will be explained. The flowchart of FIG. 3 illustrates the Chinese character conversion method for Chinese in this embodiment. In this embodiment, the Chinese character conversion method for Chinese is used to divide phonetic segments into Kanji characters by dividing the bunsetsu by the maximum processing of the number of two-segment characters described later. It is converted into and input.

【0043】まず、中国語用漢字変換方法においては、
キー入力部1から入力すべき任意の文字数の漢字列の読
みを示す発音記号列がオペレータにより入力される(ス
テップS1)。ここでは、図6(A)に示すように漢字
列”在不知不覚中”の読みとしての発音記号列”zai
buzhibujuezhong”が入力されたものと
する。
First, in the Chinese character conversion method for Chinese,
The operator inputs a phonetic symbol string indicating the reading of a kanji string of an arbitrary number of characters to be entered from the key input unit 1 (step S1). Here, as shown in FIG. 6 (A), the phonetic symbol string "zai" is read as the reading of the Chinese character string "Absolutely unknown".
It is assumed that "buzijujuzhong" is input.

【0044】キー入力部1から入力された発音記号列
は、図4(A)に示すように入力バッファ領域IBに格
納される。また、入力バッファ領域IBに格納された発
音記号列は、その形状の情報が表示メモリ3に格納され
て図6(A)に示すように表示部4に表示される。な
お、図6において矩形枠内は、表示部4の表示画面上の
表示を示すものである。
The phonetic symbol string input from the key input unit 1 is stored in the input buffer area IB as shown in FIG. Further, the phonetic symbol string stored in the input buffer area IB is stored in the display memory 3 with its shape information and displayed on the display unit 4 as shown in FIG. 6 (A). In FIG. 6, the inside of a rectangular frame shows the display on the display screen of the display unit 4.

【0045】次に、図6(B)に示すようにオペレータ
が(変換)キーを入力することにより、漢字変換処理が
開始される。まず、入力された発音記号列を変換辞書8
に基づいて分析し(ステップS2)、入力された発音記
号列が辞書に基づいて漢字列に変換可能か否かを判定す
る(ステップS3)。
Next, as shown in FIG. 6B, the operator inputs the (conversion) key to start the Kanji conversion process. First, the input phonetic symbol string is converted into a conversion dictionary 8
(Step S2), and it is determined whether or not the input phonetic symbol string can be converted into a kanji string based on the dictionary (step S3).

【0046】もし、漢字に変換することが不可能な発音
記号列が入力されたのであれば、ステップS19に進
み、入力ミスをオペレータに告知して処理を終了する。
また、入力された発音記号列が漢字列に変換可能な場合
には、次の二文節文字数最大処理に進む。
If a phonetic symbol string that cannot be converted into Kanji has been input, the process advances to step S19 to notify the operator of an input error and the process ends.
If the input phonetic symbol string can be converted into a Chinese character string, the process proceeds to the next maximum processing for the number of two-section lexical characters.

【0047】そして、入力された発音記号列の任意の文
字数の先頭部分に対応する漢字列を変換辞書8から検索
する(ステップS4)。そして、検索された漢字列の中
から最も長い文字数の漢字列(最長熟語)の文字数を第
一文節の文字数とし、この文字数を第一文節サイズ領域
S1に格納する(ステップS5)。
Then, the Kanji character string corresponding to the beginning portion of the input phonetic symbol string of an arbitrary number of characters is searched from the conversion dictionary 8 (step S4). Then, the number of characters in the kanji string (longest idiom) having the longest number of characters among the searched kanji strings is set as the number of characters in the first phrase, and this number of characters is stored in the first phrase size area S1 (step S5).

【0048】ここでは、”zaibuzhibujue
zhong”の先頭部分である”zaibu”から検索
される”再不”が最長熟語であったものとする。そし
て、入力された発音記号列の最長熟語に対応する先頭部
分”zaibu”を図4(A)に示すように、検索発音
記号領域PYに格納し、格納された発音記号列”zai
bu”に基づいて検索される同音漢字熟語のうちの第一
候補となる漢字列(ここでは”再不”)を検索して、検
索漢字文字列領域SCに格納する。
Here, "zaibuhibujuue"
It is assumed that the "re-non" searched from "zaibu", which is the beginning part of "zhong", is the longest idiom, and the beginning part "zaibu" corresponding to the longest idiom of the inputted phonetic symbol string is shown in FIG. As shown in A), the phonetic symbol string “zai” stored in the search phonetic symbol area PY is stored.
The first candidate kanji string (here, "re-non") among the homophone kanji compound words searched based on "bu" is searched and stored in the search kanji character string area SC.

【0049】また、上記第一文節の文字数2を第一文節
サイズ領域S1に格納する。次に、入力された発音記号
列から第一文節の発音記号列を除いた場合に、残りの発
音記号列が有るか否かを判定する(ステップS6)。
Further, the number of characters 2 of the first phrase is stored in the first phrase size area S1. Next, when the phonetic symbol string of the first phrase is removed from the input phonetic symbol string, it is determined whether or not there are remaining phonetic symbol strings (step S6).

【0050】なお、残りの発音記号列が無い場合、すな
わち、入力された発音記号列の全てが辞書に登録された
一つの漢字列に変換された場合には、オペレータによっ
て一文節分だけの発音記号列が入力された可能性が高
く、文節区切り位置が不適切である可能性が低いので、
以下に続く二文節文字数最大処理を行う必要がないと判
断できる。
If there is no remaining phonetic symbol string, that is, if all of the inputted phonetic symbol strings are converted into one kanji string registered in the dictionary, the operator will have phonetic symbols for only one phrase. It's likely that you've entered a column, and it's unlikely that the bunsetsu delimiter is inadequate, so
It can be judged that it is not necessary to perform the following maximum processing for the number of two-segment characters.

【0051】従って、もし、残りの発音記号列が無い場
合、すなわち、入力された発音記号列の全てが辞書に登
録された一つの漢字列に変換された場合には、この漢字
列を候補漢字列として確定するとともに文節サイズを確
定し(ステップS7)、ステップS18に進む。
Therefore, if there is no remaining phonetic symbol string, that is, if all of the inputted phonetic symbol strings are converted into one kanji string registered in the dictionary, this kanji string is used as a candidate kanji character. The column size is determined and the phrase size is determined (step S7), and the process proceeds to step S18.

【0052】なお、ここでの確定とは、最終的に入力さ
れる漢字列を確定するものではなく、オペレータに第一
候補として提示する候補漢字列を決めることである。従
って、残りの文節がない場合に、第一文節の候補漢字列
を確定した後には、候補漢字列を表示部4に表示して、
入力すべき漢字列と一致するか否かについてオペレータ
の判断を仰ぐことになる。
The confirmation here does not mean to finally determine the kanji character string to be input, but to decide the candidate kanji character string to be presented to the operator as the first candidate. Therefore, when there is no remaining phrase, after the candidate kanji string of the first phrase is confirmed, the candidate kanji string is displayed on the display unit 4,
The operator will be asked to determine whether it matches the Kanji string to be entered.

【0053】また、残りの発音記号列が有る場合には、
次に、一文節目の文字数(第一文節サイズ)が一文字か
否かを判定する(ステップS8)。もし、第一文節サイ
ズが一文字の場合には、上述の残りの発音記号列が無い
場合と同様にステップS7に進む。
When there are remaining phonetic symbol strings,
Next, it is determined whether or not the number of characters in the first phrase (first phrase size) is one character (step S8). If the first phrase size is one character, the process proceeds to step S7 as in the case where there is no remaining phonetic symbol string.

【0054】そして、第一文節のサイズを一文字に確定
するとともに、一文字の第一候補となる漢字列を候補漢
字列に確定する。なお、この二文節文字数最大処理は、
入力すべき漢字列の正しい第一文節のサイズが一文字の
場合に、一文節文字数最大処理のように第一文節サイズ
が二文字以上になるのを防止するためのものであり、上
記処理により、第一文節サイズが一文字とされた場合に
は、引き続き二文節文字数最大処理を行う必要がないの
でステップS18に進む。
Then, the size of the first phrase is fixed to one character, and the kanji character string which is the first candidate for one character is fixed to the candidate kanji character string. In addition, this maximum processing of the number of characters in two phrases
When the correct first phrase size of the kanji string to be input is one character, it is to prevent the first phrase size from becoming two or more characters like the one phrase character number maximum process. If the first phrase size is set to one character, it is not necessary to continue the process for maximizing the number of characters in two phrases, so the process proceeds to step S18.

【0055】また、上記発音記号列”zaibuzhi
bujuezhong”においては、第一文節の漢字列
が”再不”とされ、残りの発音記号があるとともに、第
一文節の文字数が2なのでステップS9に進む。そし
て、第一文節サイズが一文字でない場合には、上記第一
文節を除いた残りの発音記号列の任意の長さの先頭部分
に基づいて変換辞書8を検索する(ステップS9)。
In addition, the phonetic symbol string "zaibuzhi"
In the case of “bujuezhong”, the kanji character string of the first bunsetsu is “re-non”, and there are remaining phonetic symbols, and since the number of characters in the first bunsetsu is 2, the process proceeds to step S9. Searches the conversion dictionary 8 on the basis of the beginning portion of the phonetic symbol string of any length other than the first phrase (step S9).

【0056】そして、検索された漢字列の中から最も長
い文字数の漢字列(最長熟語)の文字数を第二文節の文
字数とし、この文字数を第二文節サイズ領域S2に格納
する。(ステップS10)。ここでは、発音記号列”z
aibu”を除いた”zhibujuezhong”の
先頭部分である”zhibu”から検索される漢字列”
支部”が最長熟語であったものとする。
The number of characters in the kanji string (longest idiom) having the longest number of characters among the searched kanji strings is set as the number of characters in the second phrase, and this number of characters is stored in the second phrase size area S2. (Step S10). Here, the phonetic symbol string "z
"Kanji string searched from" zhibu "which is the head part of" zhibujuezhong "excluding aibu"
It is assumed that "Branch" was the longest phrase.

【0057】そして、入力された発音記号列の最長熟語
に対応する先頭部分”zhibu”を図4(B)に示す
ように、検索発音記号領域PYに格納し、格納された発
音記号列”zhibu”に基づいて検索される同音漢字
熟語のうちの第一候補となる漢字列(ここでは支部)を
検索して、検索漢字文字列領域SCに上記”再不”とと
もに”再不支部”として格納する。
Then, as shown in FIG. 4B, the head part "zhibu" corresponding to the longest idiom of the inputted phonetic symbol string is stored in the search phonetic symbol area PY, and the stored phonetic symbol string "zhibu" is stored. The first candidate kanji string (here, the branch) of the homophone kanji compound words searched based on "is searched and stored in the search kanji character string area SC together with the above-mentioned" re-unsupport "as" re-support ".

【0058】また、上記第二文節の文字数2を第二文節
サイズ領域S2に格納する。そして、第一及び第二文節
の文節サイズ(S1、S2)を文節サイズ組スタック領
域SKに格納する(ステップS11)。
Further, the number of characters 2 of the second phrase is stored in the second phrase size area S2. Then, the phrase sizes (S1, S2) of the first and second phrases are stored in the phrase size set stack area SK (step S11).

【0059】ここでは、図4(C)に示すように2、2
が文節サイズ組スタック領域SKに格納される。次に、
第一文節の文節サイズ(S1)から1を減算し、これを
第一文節のサイズとする(ステップS12)。
Here, as shown in FIG.
Is stored in the phrase size group stack area SK. next,
1 is subtracted from the phrase size (S1) of the first phrase to make it the size of the first phrase (step S12).

【0060】そして、新たな第一文節のサイズが0とな
るか否かを判定する(ステップS13)。なお、ここで
は、既に第一文節サイズが一文字の場合を除いているの
で、第一文節のサイズが0になることはないが、上記ス
テップS12の処理が繰り返し行われることになるの
で、最終的に第一文節のサイズが0となる。
Then, it is determined whether or not the size of the new first phrase becomes 0 (step S13). Note that, here, since the case where the first phrase size is already one character is excluded, the size of the first phrase never becomes 0, but since the process of step S12 is repeated, The size of the first phrase becomes 0.

【0061】また、ここでは、第一文節が”再不”とさ
れ、第一文節サイズが2となっていたので、第一文節サ
イズが1となる。そして、第一文節が0でない場合に
は、第一文節サイズの文字数で、なおかつ、入力された
発音記号列の任意の長さの先頭部分に対応する漢字列を
変換辞書8から検索する(ステップS14)。
Also, here, the first phrase is "re-unavailable" and the first phrase size is 2, so the first phrase size is 1. If the first phrase is not 0, the conversion dictionary 8 is searched for a kanji string having the number of characters of the first phrase size and corresponding to the beginning portion of the input phonetic symbol string of any length. S14).

【0062】次に、上記条件の漢字列が変換辞書8から
検索できたか否かを判定する(ステップS15)。も
し、漢字列を検索できなかった場合には、ステップS1
2に戻り、さらに、第一文節サイズから1を減算するス
テップS12以降の処理を繰り返し行う。
Next, it is determined whether or not the Kanji string satisfying the above conditions has been retrieved from the conversion dictionary 8 (step S15). If the kanji string cannot be retrieved, step S1
Returning to step 2, the process after step S12 of subtracting 1 from the first phrase size is repeated.

【0063】ここでは、上記発音記号列”zaibuz
hibujuezhong”の先頭部分に対応する一文
字の漢字熟語として在”zai”が検索されたものとす
る。そして、入力された発音記号列の上記第一文節サイ
ズ(1)に対応する先頭部分”zai”を図4(C)に
示すように、検索発音記号領域PYに格納し、格納され
た発音記号列”zai”に基づいて検索される同音漢字
熟語のうちの第一候補となる漢字列(ここでは”在”)
を検索して、検索漢字文字列領域SCに格納する。
Here, the phonetic symbol string "zaibuz" is used.
It is assumed that the presence "zai" is searched as a Kanji compound word of one character corresponding to the beginning part of "hibujuezhong". And the beginning part "zai" corresponding to the first phrase size (1) of the input phonetic symbol string. Is stored in the search phonetic symbol area PY as shown in FIG. 4C, and the kanji string which is the first candidate among the homophone kanji idioms searched based on the stored phonetic symbol string "zai" (here Then "A"
Is stored in the search kanji character string area SC.

【0064】また、上記第一文節の文字数1を第一文節
サイズ領域S1に格納する。そして、上記条件の漢字列
が上述のように変換辞書8から検索できた場合には、第
二文節を検索するためにステップS9に戻り、ステップ
S9以下の処理を繰り返し行う。
The number 1 of characters of the first phrase is stored in the first phrase size area S1. Then, when the Chinese character string of the above condition can be retrieved from the conversion dictionary 8 as described above, the process returns to step S9 to retrieve the second phrase, and the processes from step S9 are repeated.

【0065】すなわち、ステップS9において、第一文
節”zai”を除いた残りの発音記号列”buzhib
ujuezhong”の任意の長さの先頭部分に対応す
る漢字列を変換辞書8から検索する。次に、ステップS
10において検索された漢字列の中から最も長い文字数
の漢字列(最長熟語)の文字数を第二文節の文字数と
し、この文字数を第二文節サイズ領域S2に格納する。
That is, in step S9, the remaining phonetic symbol string "buzhib" excluding the first phrase "zai".
The conversion dictionary 8 is searched for a kanji string corresponding to the beginning part of an arbitrary length of "ujuezhong". Next, step S
The number of characters in the kanji string (longest idiom) having the longest number of characters among the kanji strings searched in 10 is set as the number of characters in the second phrase, and this number of characters is stored in the second phrase size area S2.

【0066】ここでは、”buzhibujuezho
ng”の先頭部分である”buzhibujue”から
検索される”不知不覚”が最長熟語であったものとす
る。そして、入力された発音記号列の最長熟語に対応す
る先頭部分”buzhibujue”を図5(D)に示
すように、検索発音記号領域PYに格納し、格納された
発音記号列”buzhibujue”に基づいて検索さ
れる同音漢字熟語のうちの第一候補となる漢字列(ここ
では”不知不覚”)を検索して、検索漢字文字列領域S
Cに上記”在”とともに”在不知不覚”として格納す
る。
Here, "buzhibujuzeho"
It is assumed that "ignorance unknowingness" retrieved from "buzhibujue" which is the head part of "ng" is the longest idiom, and the head part "buzhibujue" corresponding to the longest idiom of the inputted phonetic symbol string is shown in FIG. As shown in (D), the kanji string that is the first candidate among the homophone kanji compound phrases stored in the search phonetic symbol area PY and searched based on the stored phonetic symbol string "buzhibujue" (here, "unknown"). Search "Kaku""and search Kanji character string area S
It is stored in C as "absence" together with "absence".

【0067】また、上記第二文節の文字数4を第二文節
サイズ領域S2に格納する。そして、ステップS11に
おいて、上記文節サイズ組スタック領域SKに新たな第
一及び第二文節サイズ(S1、S2)を追加格納する。
The number of characters in the second phrase, 4 is stored in the second phrase size area S2. Then, in step S11, new first and second phrase sizes (S1, S2) are additionally stored in the phrase size set stack area SK.

【0068】ここでは、図5(D)に示すように最初の
2、2に加えて1、4が文節サイズ組スタック領域SK
に格納される。次に、ステップS12において、第一文
節サイズから1を減算する。ここでは、第一文節が”
在”であり、文節サイズが1となっているので、1を減
算すると第一文節サイズが0となるので、ステップS1
6に進む。
Here, as shown in FIG. 5D, in addition to the first 2 and 2, 1 and 4 are the phrase size group stack area SK.
Stored in. Next, in step S12, 1 is subtracted from the first phrase size. Here, the first phrase is "
Since the phrase size is 1 and the phrase size is 1, the first phrase size becomes 0 when 1 is subtracted, so step S1
Proceed to 6.

【0069】なお、第一文節サイズが0とならない場合
には、再び上述の処理を繰り返し行う。そして、文節サ
イズ組スタック領域SKに登録された第一及び第二文節
サイズのなかから、第一文節サイズと第二文節サイズと
の和が最も大きい第一及び第二文節サイズ求め、求めら
れた第一及び第二文節サイズに基づいて、第一文節の候
補漢字列の文字数と第二文節の候補漢字列の文字数を確
定する(ステップS16)。
If the first phrase size is not 0, the above process is repeated again. Then, from the first and second phrase sizes registered in the phrase size group stack area SK, the first and second phrase sizes having the largest sum of the first phrase size and the second phrase size are obtained and obtained. Based on the first and second phrase sizes, the number of characters in the candidate kanji string of the first phrase and the number of characters in the candidate kanji string of the second phrase are determined (step S16).

【0070】ここでは、”再不:支部”の場合の第一文
節サイズと第二文節サイズとの和が2+2=4とさ
れ、”在:不知不覚”の場合の第一文節サイズと第二文
節サイズとの和が1+4=5とされている。従って、第
一文節サイズと第二文節サイズの和が”5”の場合が最
も文節サイズの和が大きいので、第一文節サイズが”
1”とされ、第二文節サイズが”2”とされる。
Here, the sum of the first phrase size and the second phrase size in the case of "re-unknown: branch" is set to 2 + 2 = 4, and the first phrase size and the second phrase in the case of "presence: ignorance". The sum of the sizes is 1 + 4 = 5. Therefore, when the sum of the first bunsetsu size and the second bunsetsu size is "5", the sum of the bunsetsu sizes is the largest, so the first bunsetsu size is "
1 "and the second phrase size is" 2 ".

【0071】次いで、上記第一文節及び第二文節におい
て、確定された文節サイズの文字数でかつ、上記発音記
号列に対応する漢字列の中から変換辞書における優先順
位が最も高い漢字列が選択され、候補漢字列として確定
される(ステップS17)。
Next, in the first phrase and the second phrase, the kanji character string having the determined phrase size and having the highest priority in the conversion dictionary is selected from the kanji character strings corresponding to the phonetic symbol strings. , Is determined as a candidate kanji string (step S17).

【0072】ここでは、上記”在:不知不覚”が上記文
節サイズにおける第一文節と第二文節との第一候補なの
で、”在:不知不覚”が第一及び第二文節の候補漢字列
として確定され、図5(D)に示すように確定漢字文字
列領域FCに格納される。
In this case, since "absence: ignorance unawareness" is the first candidate of the first bunsetsu and the second bunsetsu in the bunsetsu size, "absence: ignorance unawareness" is a candidate kanji string for the first and second bunsetsu. It is confirmed and stored in the confirmed kanji character string area FC as shown in FIG.

【0073】次いで、第一文節及び第二文節に残りの発
音記号が無いか否かが判定される(ステップS18)。
そして、残りの発音記号が有る場合には、ステップ4に
戻り、入力された発音記号列に対して行われた上述の処
理と同様の処理を行う。
Next, it is determined whether or not there are remaining phonetic symbols in the first phrase and the second phrase (step S18).
If there are remaining phonetic symbols, the process returns to step 4, and the same process as the above-described process performed on the inputted phonetic symbol string is performed.

【0074】また、残りの発音記号列が無い場合には、
入力された発音記号列の全ての文節の文節サイズと各文
節の候補漢字列が確定されたものとしてステップS18
に進む。なお、上述の残りの発音記号列が無い場合に
は、ステップS6において入力された発音記号列の全て
が一つの漢字列に変換されて残りの発音記号が無いと判
定され、ステップS7において第一文節の文節サイズ及
び候補漢字列が確定されてステップS18に進んだ場合
も含まれる。
If there is no remaining phonetic symbol string,
It is assumed that the phrase sizes of all the phrases of the input phonetic symbol string and the candidate kanji strings of each phrase have been fixed (step S18).
Proceed to. If there is no remaining phonetic symbol string, all the phonetic symbol strings input in step S6 are converted into one kanji string and it is determined that there is no phonetic symbol string remaining. This also includes the case where the bunsetsu size of the bunsetsu and the candidate kanji character string are confirmed and the process proceeds to step S18.

【0075】ここでは、入力された発音記号列”zai
buzhibujuezhong”の第一及び第二文節
の文節サイズ及び候補漢字列が確定されている。すなわ
ち、上記発音記号列のうちの”zaibuzhibuj
ue”までが確定され、発音記号列”zhong”が残
った状態となっている。従って、ステップS4に戻るこ
とになる。そして、ステップS4において、発音記号
列”zhong”の任意の長さの先頭部分に対応する漢
字列を変換辞書8から検索することになる。
Here, the input phonetic symbol string "zai" is input.
The bunsetsu sizes and candidate kanji strings of the first and second bunsetsus of "buzhijujuzhong" are determined. That is, "zaibuzhibuj" of the above phonetic symbol strings.
up to ue ”is established, and the phonetic symbol string“ zhong ”remains. Therefore, the process returns to step S4, and at step S4, the phonetic symbol string“ zhong ”of any length is selected. The conversion dictionary 8 is searched for the Kanji string corresponding to the head portion.

【0076】ここでは、発音記号列”zhong”に対
して漢字列”中”が検索され、この一文字の漢字列より
長い漢字列が検索されなかったものとする。この場合に
は、ステップS6において、残りの発音記号列が無いと
判定され、ステップS7において、残りの発音記号列の
第一文節(入力された発音記号列の第三文節)の文節サ
イズ及び候補漢字列が確定され、ステップS18に進
む。
Here, it is assumed that the Chinese character string "middle" is searched for the phonetic symbol string "zhong", and the Chinese character string longer than the single character Chinese character string is not searched. In this case, it is determined in step S6 that there is no remaining phonetic symbol string, and in step S7 the phrase size and candidate of the first phrase of the remaining phonetic symbol string (the third phrase of the input phonetic symbol string). The kanji string is confirmed, and the process proceeds to step S18.

【0077】すなわち、図5(E)に示すように、”
中”が確定され、この”中”が確定漢字文字列領域FC
に上記”在不知不覚”とともに”在不知不覚中”として
格納される。そして、ステップS18においても残りの
発音記号列が無いものとして、ステップS19に進むこ
とになる。
That is, as shown in FIG.
"Medium" is confirmed and this "Medium" is confirmed Kanji character string area FC
In addition to the above "absence of ignorance", it is stored as "during ignorance". Then, even in step S18, it is determined that there is no remaining phonetic symbol string, and the process proceeds to step S19.

【0078】そして、入力された発音記号列の全ての文
節の文節サイズと各文節の候補漢字列が確定された場合
には、図6(B)に示すように、候補漢字列が表示部4
に表示される(ステップS19)。そして、オペレータ
は、表示された候補漢字列が入力すべき漢字列と一致す
る場合には、表示された候補漢字列を確定することによ
り、漢字列の入力を終了する。
When the phrase sizes of all the phrases of the inputted phonetic symbol string and the candidate kanji strings of each phrase are confirmed, the candidate kanji strings are displayed on the display unit 4 as shown in FIG. 6 (B).
Is displayed (step S19). Then, when the displayed candidate kanji string matches the kanji string to be input, the operator confirms the displayed candidate kanji string to end the input of the kanji string.

【0079】なお、候補漢字列が入力すべき漢字列と一
致しない場合には、文節毎に、他の候補となる漢字列の
中から目的とする漢字列を検索したり、文節位置を変更
して再変換を行ったりする必要がある。以上のように、
この実施例の中国語用漢字変換装置及び中国語漢字変換
方法によれば、入力された発音記号列に対して変換され
た漢字列の文節を決める際に、先頭の文節の文節サイズ
と二つ目の文節の文節サイズとの和が最大になるように
して、文節を決めているので、必ずしも一つ目の文節が
辞書に登録された漢字列に基づいた最長のものとされる
とは限らず、一つ目の文節が一文字の漢字列からなる単
漢字熟語となる可能性も高くなる。
If the candidate Kanji string does not match the Kanji string to be input, the target Kanji string is searched from the other candidate Kanji strings for each phrase, or the phrase position is changed. It is necessary to re-convert it. As mentioned above,
According to the Chinese-Kanji conversion device and Chinese-Kanji conversion method of this embodiment, when determining the phrase of the converted Kanji string for the input phonetic symbol string, the phrase size of the first phrase and two Since the bunsetsu is determined so that the sum of the bunsetsu size and the bunsetsu size is maximized, the first bunsetsu is not always the longest one based on the kanji string registered in the dictionary. Instead, there is a high possibility that the first phrase will be a single Kanji compound word consisting of a single Kanji string.

【0080】中国語の文法においては、文の一文節目
に、主語となる名詞としての単漢字熟語や、前置詞とし
ての単漢字熟語や、否定語となる単漢字熟語や、修飾語
となる単漢字熟語が配置されいることが多い。そして、
従来の一文節文字数最大処理においては、入力された発
音記号列の先頭部分に対応する漢字列を辞書から検索し
た場合に、文の一文節目に二文字以上の漢字列が検索さ
れてしまう可能性が高い。
In the Chinese grammar, a single kanji compound as a noun, a single kanji compound as a preposition, a negative kanji compound or a modifier, a single kanji at the first paragraph of a sentence. Idioms are often arranged. And
In the conventional maximal processing of the number of characters in one bunsetsu, when a kanji string corresponding to the beginning part of the input phonetic symbol string is searched from the dictionary, a kanji string of two or more characters may be searched in the first bunsetsu of the sentence. Is high.

【0081】それに対して、この実施例の場合には、第
一文節とともに第二文節の長さも上述のように解析して
いるので、第一文節に一文字の漢字列と二文字以上の漢
字列とが検索可能な場合でも、第一文節を一文字とした
場合に、第二文節に長い漢字列を変換可能ならば、第一
文節が一文字の漢字列となる可能性がある。
On the other hand, in the case of this embodiment, since the length of the second bunsetsu as well as the first bunsetsu is analyzed as described above, the first bunsetsu is a kanji string of one character and a kanji string of two or more characters. Even if and can be searched, if the long kanji string can be converted to the second phrase when the first phrase is one character, the first phrase may be a one-character kanji string.

【0082】特に、入力された発音記号列において、第
一文節を一文字の文節とすることが文法的に妥当な場合
には、第一文節を一文字とすることにより、第二文節目
の開始位置が正しい位置となっているので、第二文節に
辞書に登録された慣用的な長い漢字列が割り当てられる
可能性が高くなるが、第一文節を二文字以上にしてしま
うと、第二文節の開始位置が誤った位置となっているの
で、対応する長い漢字列が辞書に登録されている可能性
が低くなり、第二文節の候補漢字列として短い漢字列が
検索される可能性が高くなる。
Particularly, in the inputted phonetic symbol string, when it is grammatically appropriate that the first phrase is a one-character phrase, the first phrase is set to one character so that the start position of the second phrase can be changed. Since it is in the correct position, it is more likely that a traditional long kanji string registered in the dictionary will be assigned to the second phrase, but if the first phrase is made up of two or more characters, Since the start position is incorrect, it is unlikely that the corresponding long kanji string is registered in the dictionary, and the short kanji string will be searched as a candidate kanji string for the second phrase. .

【0083】そこで、入力された発音記号列において、
第一文節を一文字の文節とすることが文法的に妥当な際
には、第一文節を一文字とした場合と、第一文節を二文
字以上とした場合とで、第一文節の文節サイズと第二文
節の文節サイズとの和の大きさを比較すると、第一文節
を一文字とした場合の方が文節サイズの和が大きくなる
可能性が高くなってくる。従って、中国語の文法的に第
一文節を一文字とした方が正しい場合に、上記二文節文
字数最大処理を用いると、第一文節が一文字とされる可
能性が高いことになる。
Therefore, in the inputted phonetic symbol string,
When it is grammatically valid to make the first phrase a single-character phrase, the phrase size of the first phrase and the first phrase can be one character and two or more characters. Comparing the size of the sum of the second bunsetsu and the bunsetsu size, it is more likely that the sum of the bunsetsu sizes will be larger when the first bunsetsu is one character. Therefore, if it is correct in the Chinese grammar that the first phrase is one character, the first phrase is likely to be one character when the above-described two-phrase character number maximum process is used.

【0084】以上のことから、この実施例の漢字変換装
置は、上記従来の漢字変換装置に比較して、第一文節を
一文字とした方が正しい発音記号列を入力した場合に、
第一文節を二文字以上として、変換効率を低下するよう
なことが少ないので、変換効率を向上することができ
る。
From the above, the kanji conversion device of this embodiment is more effective than the conventional kanji conversion device when the correct phonetic symbol string is input when the first phrase is one character.
The conversion efficiency can be improved because the first phrase is made up of two or more characters and the conversion efficiency is less likely to decrease.

【0085】さらに、この実施例の漢字変換装置によれ
ば、従来の漢字変換装置のように、第一文節を一文字と
するのが正しいのに、第一文節を二文字以上として、上
述のように誤った候補漢字列を出力してしまい、この候
補漢字列を入力すべき漢字列と一致させるのに、文節区
切り位置の変更が必要となって漢字の入力処理を遅らせ
るようなことがなく、入力速度を結果的に迅速化するこ
とができる。なお、上記実施例においては、発音記号を
声調符号無しのものとしたが、声調記号有りのものを用
いても良い。
Further, according to the kanji conversion device of this embodiment, although it is correct to make the first phrase one character as in the conventional kanji conversion device, the first phrase is made up of two or more characters, and as described above. There is no need to change the bunsetsu delimiter position and delay the input process of Kanji, in order to match the candidate Kanji string with the Kanji string that should be input. As a result, the input speed can be increased. In the above embodiment, the phonetic symbols have no tone code, but tone symbols may be used.

【0086】[0086]

【発明の効果】上記請求項1記載の中国語用漢字変換装
置によれば、入力された発音記号列の先頭から連続する
二つの文節ずつ文節の区切り位置を設定するものとする
とともに、二つの文節にそれぞれ当てはまる辞書に登録
された漢字列の文字数の和が最大となるように文節の区
切り位置を設定しているので、従来の一文節に当てはま
る辞書に登録された漢字列の文字数を最大とする処理に
比較して、一文節目に一文字の漢字列を当てはめる確率
が高くなっている。
According to the Chinese-Kanji conversion device of the first aspect of the invention, the bunsetsu delimiter position is set for each two consecutive bunsetsus from the beginning of the inputted phonetic symbol string, and at the same time, two bunsetsus are set. The bunsetsu delimiter positions are set so that the sum of the numbers of characters in the kanji strings registered in each dictionary that applies to each bunsetsu is maximized, so the maximum number of characters in the kanji string registered in a dictionary that applies to one bunsetsu is maximized. Compared with the processing, the probability of applying a one-character kanji string to the first phrase is higher.

【0087】従って、文の一文節目に一文字の漢字熟語
がくる可能性が高い中国語の文法に沿って文節を区切る
ことが可能となり、入力された発音記号列の正しい一文
節目のサイズが一文字なのに、変換時に一文節目が二文
字以上とされる可能性が低くなり、変換効率を向上する
とともに、変換時にオペレータが文節区切り位置を変更
しなければならなくなる可能性を低減して入力速度を向
上することができる。
Therefore, it is possible to divide the bunsetsu according to the Chinese grammar in which it is highly likely that one kanji compound word comes in the first bunsetsu of the sentence, and the correct one bunsetsu size of the input phonetic symbol string is one character. , It is less likely that the first paragraph will be more than one character at the time of conversion, improving the conversion efficiency and reducing the possibility that the operator has to change the bunsetsu delimiter position at the time of conversion to improve the input speed. be able to.

【0088】上記請求項2記載の中国語用漢字変換装置
によれば、上記請求項1記載の中国語用漢字変換装置と
同様に、入力すべき発音記号列の先頭から連続する二文
節の文字数の和が最大となるように文節が設定されるの
で、変換効率及び入力速度の向上を図ることができる。
According to the Chinese character conversion apparatus for claim 2 described above, like the Chinese character conversion apparatus for Chinese according to claim 1, the number of consecutive two-section characters from the beginning of the phonetic symbol string to be input. Since the clauses are set so that the sum of is maximum, the conversion efficiency and the input speed can be improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の中国語用漢字変換装置の基
本構成を示すブロック図である。
FIG. 1 is a block diagram showing a basic configuration of a Chinese-Kanji conversion device according to an embodiment of the present invention.

【図2】上記実施例の中国語用漢字変換装置のワークメ
モリを説明するための図面である。
FIG. 2 is a drawing for explaining a work memory of the Chinese character conversion device of the embodiment.

【図3】上記中国語用漢字変換装置における中国語用漢
字変換方法を説明するためのフローチャートである。
FIG. 3 is a flowchart for explaining a Chinese character conversion method in the Chinese character conversion apparatus.

【図4】上記中国語用漢字変換装置のワークメモリにお
けるデータの格納状態を説明するための図面である。
FIG. 4 is a diagram for explaining a storage state of data in a work memory of the Chinese character conversion device.

【図5】上記中国語用漢字変換装置のワークメモリにお
けるデータの格納状態を説明するための図面である。
FIG. 5 is a diagram for explaining a data storage state in a work memory of the Chinese-Kanji conversion apparatus.

【図6】上記中国語用漢字変換装置における漢字変換操
作を説明するための図面である。
FIG. 6 is a diagram for explaining a Chinese character conversion operation in the Chinese character conversion apparatus.

【符号の説明】[Explanation of symbols]

1 キー入力部(入力手段) 2 CPU(変換手段) 8 変換辞書(辞書) 1 key input unit (input means) 2 CPU (converting means) 8 conversion dictionary (dictionary)

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 発音記号列に対応して漢字列が登録され
た辞書と、 漢字列の発音を示す発音記号列を入力する入力手段と、 入力された発音記号列を上記辞書に基づいて文節毎に漢
字列に変換して出力する変換手段とを具備してなり、 上記変換手段は、変換される漢字列が複数の文節からな
る場合に、入力された発音記号列の先頭から順番に連続
する二つの文節からそれぞれ変換される漢字列の文字数
の和が最大となるように、上記辞書から漢字列を検索す
ることを特徴とする中国語用漢字変換装置。
1. A dictionary in which kanji strings are registered corresponding to phonetic symbol strings, input means for inputting phonetic symbol strings indicating pronunciation of kanji strings, and input phonetic symbol strings based on the dictionary. And a conversion means for converting and outputting each kanji character string. When the kanji character string to be converted is composed of a plurality of clauses, the conversion means continuously from the beginning of the inputted phonetic symbol string. A Chinese character conversion device for Chinese, which searches a Chinese character string from the above dictionary so that the sum of the numbers of characters of the Chinese character string converted from each of the two clauses becomes maximum.
【請求項2】 入力される発音記号列を、発音記号列と
漢字列とが対応させられて登録された辞書に基づいて漢
字列に変換する中国語用漢字変換装置における中国語用
漢字変換方法であって、 入力された発音記号列の任意の長さの先頭部分に対応す
る第一の漢字列を上記辞書から検索するとともに、入力
された発音記号列から検索された第一の漢字列に対応す
る部分を除いた残りの発音記号列の任意の長さの先頭部
分に対応する第二の漢字列を辞書から検索し、 かつ、第一の漢字列と第二の漢字列とが複数組検索され
た場合に、これら複数組の第一及び第二の漢字列の中か
ら第一の漢字列と第二の漢字列との文字数の和が最大と
なる第一及び第二の漢字列を選択し、選択された第一及
び第二の漢字列を入力すべき漢字列の候補として出力す
ることを特徴とする中国語用漢字変換方法。
2. A Chinese-Kanji conversion method for a Chinese-Kanji conversion device for converting an inputted phonetic symbol string into a Kanji string based on a dictionary in which a phonetic symbol string and a Kanji string are associated with each other. In addition to searching the first kanji string corresponding to the beginning part of the input phonetic symbol string of any length from the above dictionary, the first kanji string searched from the input phonetic symbol string The dictionary is searched for a second Kanji string corresponding to the beginning part of the phonetic symbol string of any length excluding the corresponding part, and multiple sets of the first Kanji string and the second Kanji string are combined. From these multiple sets of first and second kanji strings, the first and second kanji strings that maximize the total number of characters in the first and second kanji strings when retrieved Select and output the selected first and second kanji strings as candidates for kanji strings to be input. Chinese for Kanji conversion method comprising the door.
JP7181100A 1995-06-23 1995-06-23 Device and method for converting kanji for chinese Pending JPH096762A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7181100A JPH096762A (en) 1995-06-23 1995-06-23 Device and method for converting kanji for chinese
CN 96107169 CN1100301C (en) 1995-06-23 1996-06-24 Chinese kanji character converting method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7181100A JPH096762A (en) 1995-06-23 1995-06-23 Device and method for converting kanji for chinese

Publications (1)

Publication Number Publication Date
JPH096762A true JPH096762A (en) 1997-01-10

Family

ID=16094844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7181100A Pending JPH096762A (en) 1995-06-23 1995-06-23 Device and method for converting kanji for chinese

Country Status (1)

Country Link
JP (1) JPH096762A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245331A (en) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 A kind of sentence conversion method, device, server and computer storage medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245331A (en) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 A kind of sentence conversion method, device, server and computer storage medium

Similar Documents

Publication Publication Date Title
KR100259407B1 (en) Keyboard for a system and method for processing chinese language text
JP2836159B2 (en) Speech recognition system for simultaneous interpretation and its speech recognition method
JP5462001B2 (en) Contextual input method
US5835924A (en) Language processing apparatus and method
JP2005202917A (en) System and method for eliminating ambiguity over phonetic input
JP2013117978A (en) Generating method for typing candidate for improvement in typing efficiency
JP3992348B2 (en) Morphological analysis method and apparatus, and Japanese morphological analysis method and apparatus
JPH07114558A (en) Chinese character conversion correcting process system
JP2595934B2 (en) Kana-Kanji conversion processor
JPH096762A (en) Device and method for converting kanji for chinese
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
JP2001109740A (en) Device and method for preparing chinese document
JPH08272780A (en) Processor and method for chinese input processing, and processor and method for language processing
JPS5818730A (en) Character processing device
JP2634596B2 (en) Kana-Kanji conversion device
JPH0350668A (en) Character processor
JPH096761A (en) Device and method for converting kanji for chinese
JP2021128222A (en) Information processing unit and program
JP2744241B2 (en) Character processor
JPH0414168A (en) Word processor
JPH0683807A (en) Document preparing device
JPH0546612A (en) Sentence error detector
JPH04218863A (en) Kana/kanji conversion system
JPH0610804B2 (en) Kana-Kanji converter
JPH0727526B2 (en) Kana-Kanji converter