JP3234338B2 - Kanji conversion device - Google Patents

Kanji conversion device

Info

Publication number
JP3234338B2
JP3234338B2 JP07591293A JP7591293A JP3234338B2 JP 3234338 B2 JP3234338 B2 JP 3234338B2 JP 07591293 A JP07591293 A JP 07591293A JP 7591293 A JP7591293 A JP 7591293A JP 3234338 B2 JP3234338 B2 JP 3234338B2
Authority
JP
Japan
Prior art keywords
syllable
word
character
converted
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07591293A
Other languages
Japanese (ja)
Other versions
JPH06290183A (en
Inventor
峻慧 周
明勲 謝
啓軒 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP07591293A priority Critical patent/JP3234338B2/en
Priority to CN93119055A priority patent/CN1043542C/en
Publication of JPH06290183A publication Critical patent/JPH06290183A/en
Application granted granted Critical
Publication of JP3234338B2 publication Critical patent/JP3234338B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、表音文字列を漢字に変
換する漢字変換装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a kanji conversion device for converting a phonetic character string into kanji.

【0002】[0002]

【従来の技術】中国語文章に使用される漢字は一万以上
ある。その中から中国語文章作成者等が意図する漢字を
如何に正しくかつ高速に入力するか、そして漢字に変換
するかが中国語ワードプロセッサーを含む中国語の計算
機処理で最も重要な課題である。次に、従来の意図する
漢字の変換装置への入力手段としては、音声認識、文字
認識、キーボードなどがある。その内、キーボードによ
る入力は最も確実であるため、広く実用化されている。
さて、キーボードを利用する漢字の入力方式は、漢字の
読みによる入力方式と漢字の字形による入力方式とに分
けられる。ところで、前者の字形による入力方式は入力
の規則を予め暗記しておかなければならず、しかも暗記
するには相当の時間が必要であり、また慣れるまでに時
間がかかる。一方、漢字の読みによる入力方式は日本語
ワードプロセッサーでも広く採用されているものであ
り、自然で習い易いため、将来の漢字入力方式の主流に
なると思われている。そして、本発明はこの読みによる
入力方式を採用した漢字変換装置に関する。
2. Description of the Related Art There are more than 10,000 Chinese characters used in Chinese sentences. The most important issue in Chinese computer processing including a Chinese word processor is how to correctly and quickly input a kanji intended by a Chinese text creator or the like and to convert it into kanji. Next, as input means to the conventional intended kanji conversion device, there are voice recognition, character recognition, a keyboard and the like. Of these, keyboard input is the most reliable and is widely used.
The input method of kanji using the keyboard is divided into an input method based on reading kanji and an input method based on the kanji character shape. By the way, in the former input method using the character shape, it is necessary to memorize an input rule in advance, and it takes a considerable time to memorize the input rule, and it takes time to get used to it. On the other hand, the input method by reading kanji is widely used in Japanese word processors, and is considered to be the mainstream of the kanji input method in the future because it is natural and easy to learn. The present invention also relates to a kanji conversion device employing this reading input method.

【0003】ところで、この読みを入力とする従来の漢
字変換装置としては、例えば、中華民国特許出願番号7
5105838に示されているようなものがある。図6
はこの漢字変換装置の構成図である。本図において、1
00は中国語文章作成者が漢字変換を意図するへい音、
注音、ローマ字などの表音文字を入力する入力部であ
り、任意の長さ(表音文字数)が入力可能である。18
0は、表音文字列とこれに対応して変換するための単語
を対応させて登録(永久記憶)されている辞書部であ
る。そして、同一表音文字列に複数の中国語単語が対応
する場合には、中国語単語の字画総数、使用頻度、漢字
一字からなる場合には当該漢字の使用頻度、文字コード
の順等に応じて配列されており、この順に優先して変換
されることとなる。勿論、変換結果が入力者の意図しな
いものであれば、別途の操作により次の順位の単語、漢
字が出力されるのは日本語ワードプロセッサーと同じで
ある。なお、表音文字列とは、その性質上複数の表音文
字が一体となって一の単語若しくは漢字に変換されるの
が原則であるため「列」を付しているのであり、一の表
音文字をも包含する概念である。これは、後にでてくる
音節列等でも同様である。また、単語とは漢字一字をも
包含し、「日本」、「東京」等必ずしも中国語単語に限
定されないのは勿論である。140は、入力された表音
文字列の音節数を記憶するNCHARレジスタである。
120、130はそれぞれ表音文字列を単語に変換する
ときに使用されるPTRレジスタとNPレジスタであ
り、PTRレジスタ120は入力された表音文字列のど
の位置から漢字変換を行なうかを記憶し、NPレジスタ
は入力された表音文字列を単語に変換する際の変換単語
長、すなわち単語を構成する漢字若しくは音節数(中国
語では、原則として漢字一字は一音節である。)を記憶
する。150は、ある長さ若しくは構成する漢字数を持
っている単語の変換処理が全て行なわれた後に、上記N
Pレジスタ130の値を1減らすことにより、次に構成
する漢字数の1つ少ない単語を優先して漢字変換するこ
ととなるように変換制御部を作動させる比較部である。
160は、上記PTRレジスタ120の設定位置を入力
表音文字列の最初の位置より順次後方へずらし、NPレ
ジスタ130に設定された変換対象となる単語の構成漢
字数すなわち音節数のもとですでに漢字変換された音節
が有るか否を検査し、もしいずれもまだ変換されておら
ず、且つ辞書部180内に対応する単語が登録されてお
れば、該対応する単語に変換するように作用する変換制
御部である。170は、上記変換制御部160から送っ
てきた音節列をキーとして辞書部180内を検索する辞
書検索部である。190は、上記変換制御部160によ
って変換された結果を出力する出力部である。
[0003] As a conventional kanji conversion apparatus using this reading as an input, for example, a republic of China Patent Application No. 7
There is such as shown in 5105838. FIG.
Is a block diagram of the kanji conversion device. In the figure, 1
00 is a sound that the Chinese text creator intends to convert to kanji,
This is an input unit for inputting phonetic characters such as note sounds and Roman characters, and is capable of inputting an arbitrary length (number of phonetic characters). 18
Reference numeral 0 denotes a dictionary unit in which a phonetic character string is registered (permanently stored) in association with a word to be converted correspondingly. Then, when a plurality of Chinese words correspond to the same phonetic character string, the total number of strokes of the Chinese word, the frequency of use, and when it is composed of one Chinese character, the frequency of use of the Chinese character, the order of character codes, etc. Are arranged according to the order, and are converted with priority in this order. Of course, if the conversion result is not intended by the input person, the next word or kanji is output by a separate operation in the same manner as in the Japanese word processor. Note that a phonetic character string is given a “string” because, in principle, a plurality of phonetic characters are integrally converted to a single word or kanji. This is a concept that also includes phonetic characters. This is the same for syllable strings and the like that appear later. In addition, the word includes one kanji, and it is a matter of course that the word is not necessarily limited to a Chinese word such as “Japan” or “Tokyo”. Reference numeral 140 denotes an NCHAR register that stores the number of syllables of the input phonetic character string.
Reference numerals 120 and 130 denote a PTR register and an NP register used when converting a phonetic character string into a word, respectively. The PTR register 120 stores from which position of the input phonetic character string the kanji conversion is performed. , NP register stores the converted word length when converting an input phonogram string into a word, that is, the number of kanji or syllables constituting a word (in Chinese, one kanji character is in principle one syllable). I do. 150, after all the conversion processing of words having a certain length or the number of kanjis constituting them,
This is a comparison unit that operates the conversion control unit so that by reducing the value of the P register 130 by one, the kanji conversion is performed with priority given to the next word having one less kanji.
Reference numeral 160 indicates the number of kanji or the number of syllables constituting the word to be converted set in the NP register 130 by sequentially shifting the setting position of the PTR register 120 backward from the first position of the input phonetic character string. It checks whether there are any syllables that have been converted to kanji, and if none have been converted, and if the corresponding word has been registered in the dictionary section 180, it acts to convert it to the corresponding word. This is a conversion control unit. Reference numeral 170 denotes a dictionary search unit that searches the dictionary unit 180 using the syllable string sent from the conversion control unit 160 as a key. Reference numeral 190 denotes an output unit that outputs a result converted by the conversion control unit 160.

【0004】以上の構成、作用により、入力部により入
力された表音文字列に対応する中国語単語が最長一致
法、すなわち第1に単語の構成漢字数を優先し、第2に
先に入力された音節を優先するという方法で順次漢字に
変換表示され、ひいては中国語文章が作成されていくこ
ととなる。
With the above configuration and operation, the Chinese word corresponding to the phonetic character string input by the input unit is the longest match method, that is, the first is to give priority to the number of constituent Chinese characters of the word, and the second is to input first. The displayed syllables are converted to kanji in a manner that gives priority to the syllables, and a Chinese sentence is eventually created.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記の
ような漢字変換装置においては、辞書部に登録されてい
る単語を変換単位としかつ最長一致法により変換する。
このため、候補単語の長さ(構成する漢字数)が同じ、
且つ入力された表音文字列中のある音節がその前後の音
節と各々二つの対応単語(前単語と後単語)を構成する
場合には、より先に入力された前の音節に対応する単語
(前単語)を優先的に変換し、該単語を変換してから後
単語に相応する音節は前単語と共通する音節を除外した
音節、そして多くの場合は漢字一文字を単位とし変換す
ることとなる。この場合には、変換され残った音節を対
象としての漢字変換となるため、辞書内での同一音節に
対する漢字の配列上以下のような誤変換が出ることとな
る。例えば、「有一天」を入力しようとするとき、
「一」と同じ発音の漢字「益」があり、このため入力さ
れた「有一天」に相応する表音文字列に「有益」と「一
天」の前後単語があることとなる。このため前単語の
「有益」を優先的に変換し、しかる後「天」が変換され
るため「有益天」という誤変換が生じる。また、「殺人
是犯罪的」を出力しようとする場合には、「犯」と同じ
発音の漢字「範」があり、また「是」と同じ発音の漢字
「示」があり、両漢字で「示範」という単語を構成する
ため「示範」と「犯罪」の前後単語が存在することとな
るので、前単語の「示範」を優先して変換することとな
り、更に「罪」という漢字と同じ発音の漢字「最」が存
在する上に「罪」よりも優先的に変換されるよう配列さ
れているため、「殺人示範最的」という誤変換が生じる
こととなる。その他、「其特徴」という中国語文も間違
った「奇特征」に変換されえる。その一方、かかる該変
換の生じるおそれのある中国語文章を全て辞書に登録し
ておくことは実際問題として困難である。このため、か
かる誤った変換の防止を図れる漢字変換装置の実現が望
まれていた。本発明は、かかる課題を解決する目的でな
されたものである。
However, in the kanji conversion apparatus as described above, words registered in the dictionary unit are used as conversion units and converted by the longest match method.
Therefore, the length of candidate words (the number of kanji that composes them) is the same,
In addition, when a certain syllable in the input phonetic character string forms two corresponding words (a preceding word and a following word) with the preceding and following syllables, the word corresponding to the earlier input syllable is used. (Prior word) is converted preferentially, and after converting the word, the syllable corresponding to the following word is converted to a syllable excluding the syllable common to the preceding word, and in many cases, one kanji character as a unit. Become. In this case, since kanji conversion is performed for the remaining syllables, the following erroneous conversion occurs in the arrangement of kanji for the same syllable in the dictionary. For example, when trying to enter "Aichiten",
There is a kanji character "mass" with the same pronunciation as "ichi". Therefore, the phonetic character string corresponding to the input "yuichiten" has words before and after "useful" and "ichiten". For this reason, the previous word “useful” is preferentially converted, and thereafter “heaven” is converted, so that an erroneous conversion of “useful sky” occurs. Also, when trying to output "murder criminality", there is a kanji "kan" with the same pronunciation as "crime", and a kanji "in" with the same pronunciation as "ze". Since the word "exemplary" is composed, there will be words before and after "exemplary" and "crime", so the prior word "exemplary" will be preferentially converted, and the same pronunciation as the kanji "sin" Is arranged in such a way that it is preferentially converted over "sin" in addition to the presence of the kanji character "". In addition, the Chinese sentence "That characteristic" can be converted to the wrong "odd special expedition". On the other hand, it is difficult as a matter of fact to register all Chinese sentences which may cause such conversion in a dictionary. Therefore, it has been desired to realize a kanji conversion device capable of preventing such erroneous conversion. The present invention has been made for the purpose of solving such a problem.

【0006】[0006]

【課題を解決するための手段】上記目的を達成するた
め、本発明は入力された表音文字列のまだ変換されてい
ない音節若しくは該音節の一部について、第1に最大文
字数の単語に変換することを優先し、第2に先に入力さ
れた音節を変換することを優先し、このもとで変換対象
の音節数を逐次に減らし、また変換対象の音節を順次後
方にずらすことにより現在の変換の対象となる音節列を
切り出す音節切り出し部と、予め表音文字列及びこれに
対応する中国語単語が登録されている辞書部と、前記音
節切り出し部により切り出された変換対象となる音節列
を検索キーとして、前記辞書部内を検索し中国語の単語
を検出する辞書検索部と、特別の連語字の読み及び該文
字を記憶している連語字字典部と、上記音節切り出し部
により切り出された変換対象となる音節列において、一
番目の音節が連語字であるか否かを前記連語字字典部を
検索して該連語字を検出する連語字検出部と、上記連語
字検出部により対応する連語字を検出したときには、現
在変換対象となる音節列の二番目からの音節を検索キー
として、上記辞書検索部により辞書部内を検索し、対応
する単語があれば該連語字及び該単語を組み合わせてよ
り構成漢字数の多い拡張単語を生成する拡張単語生成部
と、上記拡張単語生成部により生成された拡張単語を、
上記辞書検索部により検索された単語に優先して漢字変
換させるよう制御する変換処理部とを備えたことを特徴
とする漢字変換装置としている。
In order to achieve the above object, the present invention first converts a not-yet-converted syllable or part of an input phonetic character string into a word having a maximum number of characters. Second, giving priority to converting the syllable that was input first. Under this condition, the number of syllables to be converted is sequentially reduced, and the syllable to be converted is sequentially shifted backward. A syllable extraction unit that extracts a syllable string to be converted, a dictionary unit in which a phonogram character string and a corresponding Chinese word are registered in advance, and a syllable to be converted extracted by the syllable extraction unit a column as a search key, and the dictionary search unit to search the dictionary portion to detect a word of Chinese, the reading of a special collocation character and該文
In the syllable character dictionary that stores the characters, and in the syllable string to be converted cut out by the syllable cutout unit , the syllable character dictionary is used to determine whether the first syllable is a word.
A concatenated character detecting unit for searching and detecting the concatenated character, and when the corresponding concatenated character is detected by the concatenated character detecting unit, the syllable from the second syllable string of the syllable string to be currently converted is used as a search key, An extended word generation unit that searches the dictionary unit by a search unit, and if there is a corresponding word, generates an extended word having a larger number of constituent Chinese characters by combining the concatenated character and the word. Extended words,
A kanji conversion device comprising: a conversion processing unit that controls to convert kanji preferentially to the word searched by the dictionary search unit.

【0007】[0007]

【作用】本発明は上記構成により、音節切り出し部が入
力された表音文字列ののまだ変換されていない若しくは
該音節の一部について、第1に最大文字数の単語に変換
することを優先し、第2に先に入力された音節を変換す
ることを優先しつつ変換対象の音節数を逐次に減らし、
また音節を順次後方へずらし現在の漢字変換の対象とな
る音節列を切り出す。辞書部に予め表音文字列及びこれ
に対応する中国語単語が登録されている。辞書検索部が
切り出された音節列を検索キーとして、辞書部内を検索
し対応する中国語の単語を検索する。連語字字典部は、
特別の連語字の読み及び該文字を記憶している。連語字
検出部が上記音節切り出し部により切り出された変換対
象となる音節列において、一番目の音節が連語字である
か否かを前記連語字字典部を検索して該連語字を検出す
る。拡張単語生成部が上記連語字検出部により対応する
連語字を検出したとき、現在変換対象となる音節列の二
番目からの他の音節を検索キーとして、上記辞書検索部
により辞書部内を検索し、対応する単語があれば該連語
字及び該単語を組み合わせてより長い拡張単語を生成す
る。変換処理部が上記拡張単語生成部により生成された
拡張単語を上記辞書検索部により検索された単語に優先
して漢字変換させる。
According to the present invention, the syllable cut-out unit gives priority to first converting a part of a syllable character string that has not been converted or a part of the syllable into a word having the maximum number of characters. Second, the number of syllables to be converted is sequentially reduced while giving priority to converting the syllable input first,
Further, the syllables are sequentially shifted backward to cut out a syllable string to be converted into the current kanji. Phonetic character strings and corresponding Chinese words are registered in the dictionary section in advance. The dictionary search unit searches the dictionary unit using the cut syllable string as a search key to search for a corresponding Chinese word. The bilingual character dictionary is
It stores the reading of special collocation characters and the characters. In the syllable string collocations shaped detector is converted cut out by the syllable clipping unit one second syllable is a complex word shape
The collocation character dictionary is searched to determine whether the collocation character is present or not . When the extended word generation unit detects the corresponding collocation character by the collocation character detection unit, a search is performed in the dictionary unit by the dictionary search unit using the other syllables from the second of the syllable string to be currently converted as search keys. If there is a corresponding word, the combination word and the word are combined to generate a longer expanded word. A conversion processing unit converts the expanded words generated by the expanded word generation unit into kanji characters prior to the words searched by the dictionary search unit.

【0008】[0008]

【実施例】以下、本発明を実施例にもとづき説明する。
図1は本発明に係る漢字変換装置の一実施例の構成図で
ある。図2〜図4はこの実施例の処理流れ図である。図
1において、10は、中国語文章作成者が変換を意図す
る漢字、文章に相応したへい音、注音、ローマ字などの
表音文字を入力する入力部である。18は、表音文字列
及びこれに対応する中国語単語が登録(あらかじめの永
久記憶)されている辞書部である。なお、一の表音文字
列に複数の単語が存在する場合には、これらの単語は使
用頻度の高い順に配列され、またこれにより漢字変換が
優先される。14は、入力された表音文字列の音節数を
表わすNCHARレジスタである。なお、中国語では一
つの漢字が一つの音節に対応しているので、入力された
表音文字列の音節数はつまり変換する漢字数である。1
2、13はそれぞれ、表音文字列を単語に変換する際に
使用されるPTRレジスタとNPレジスタである。ここ
に、PTRレジスタ12は、入力された表音文字列のど
の位置から漢字変換を行うかの変換位置を記憶する。N
Pレジスタ13は、入力された表音文字列を単語に変換
する際の変換対象となる単語長、すなわち該単語を構成
する漢字、音節の数を記憶する。即ち、上記の二レジス
タの内容をそれぞれptr、npとすれば、入力された
表音文字列のptr番目から連続したnp個の音節が辞
書検索時の検索キーであることを示すものである(以
下、nchar、np、ptr及び後にでてくるnch
arをそれぞれNP、PTR及びNCHARレジスタの
値を表わすことにする)。11は、レジスタ初期化部で
ある。その詳しい動作の内容は後に説明するが、入力さ
れた表音文字列の音節数ncharを計算し、その値を
NCHARレジスタ14に設定すると共に、もし、その
値が辞書部18に登録されている最長単語、すなわち構
成する漢字の最も多い単語の漢字数max(本実施例に
おいては8。)より大きい場合には、上記maxをNP
レジスタ13に設定し、8以下であれば、上記入力され
た表音文字列の音節数をNPレジスタ13に設定し、そ
して、PTRレジスタ12の値を1に設定する。15
は、(np+ptr)>(nchar+1)が立する
か否かを絶えず検査し、もし成立すれば、NPレジスタ
13の値を1減らし、PTRレジスタ12の値を再度1
に設定する比較部である。これにより、構成する漢字数
が1つ少ない単語が漢字変換の対象とされ、また入力さ
れた表音文字の最初からその対象とする字数の単語が漢
字変換されることとなる。21は、特別の連語字の読み
及び該文字を記憶している連語字字典部である。20
は、入力された表音文字列のptr番目の音節を検索キ
ーとして連語字字典部21を検索する連語字検出部であ
る。19は、上記連語字検出部20により対応する連語
字があることが検出されると、入力された表音文字列の
ptr+1番目からのnp−1個の音節を検索キーとし
て辞書検索部17に辞書部18内に対応する単語が登録
されているか否かを検索し、もし対応する単語が登録さ
れているならば、この対応する単語を当該連語字と組み
合わせることにより入力者が本来変換を意図している単
語、すなわち拡張単語を生成する拡張単語生成部であ
る。16は、変換処理部である。その詳しい動作は後に
説明するが、入力された表音文字列のptr番目から連
続したnp個の音節の内、すでに変換された音節の有無
を検査し、もし、変換された音節があれば、より後方の
未変換の音節を処理すべくPTRレジスタ12の値を1
増やし、変換された音節がない場合には、そしてもし、
対応する単語があればこれを漢字変換することに伴い、
ptrにnpを加え、もし対応する単語がない場合に
は、1つ後順位の音節文字列を処理すべくptrに1を
加える。17は、上記変換処理部16或いは拡張単語生
成部19から送られてきた音節を検索キーとして、辞書
部18から該当する単語を、若し複数の単語があるなら
ば最先に配列されている一番可能性の高い単語を取り出
し、これを上記変換処理部16或いは拡張単語生成部1
9に送る辞書検索部である。22は、上記変換処理部1
6によって変換された結果を出力する出力部である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below based on embodiments.
FIG. 1 is a configuration diagram of an embodiment of a kanji conversion device according to the present invention. FIGS. 2 to 4 are processing flowcharts of this embodiment. In FIG. 1, reference numeral 10 denotes an input unit for inputting phonograms such as kanji intended for conversion by a Chinese sentence creator, shouting sounds, note sounds, and Roman letters corresponding to sentences. Reference numeral 18 denotes a dictionary unit in which a phonetic character string and a corresponding Chinese word are registered (permanently stored in advance). When a plurality of words exist in one phonetic character string, these words are arranged in descending order of the frequency of use, and thereby the kanji conversion is prioritized. Reference numeral 14 denotes an NCHAR register indicating the number of syllables in the input phonetic character string. In Chinese, one kanji corresponds to one syllable, so the number of syllables of the input phonogram string is the number of kanji to be converted. 1
Reference numerals 2 and 13 denote a PTR register and an NP register used when converting a phonetic character string into a word, respectively. Here, the PTR register 12 stores a conversion position from which position of the input phonogram character string is to be subjected to kanji conversion. N
The P register 13 stores a word length to be converted when the input phonogram string is converted into a word, that is, the number of kanji and syllables constituting the word. That is, assuming that the contents of the two registers are ptr and np, respectively, it indicates that np syllables consecutive from the ptr-th of the input phonogram string are search keys at the time of dictionary search ( Hereinafter, nchar, np, ptr and nch which will be described later
Let ar represent the values of the NP, PTR and NCHAR registers, respectively). Reference numeral 11 denotes a register initialization unit. Although the details of the detailed operation will be described later, the number of syllables nchar of the input phonogram string is calculated, the value is set in the NCHAR register 14, and if the value is registered in the dictionary unit 18. If the longest word, that is, the number of kanji characters of the word having the largest number of kanji characters is larger than max (8 in this embodiment), the above-mentioned max is set to
The syllable number of the input phonogram string is set in the NP register 13 and the value of the PTR register 12 is set to 1 if the number is 8 or less. Fifteen
Is, (np + ptr)> ( nchar + 1) is constantly inspect whether formed elevational, if satisfied if the value of the NP register 13 reduces 1, the value of the PTR register 12 again 1
The comparison unit is set to. As a result, a word having one less kanji is configured as a target of kanji conversion, and a word having the target number of characters from the beginning of the input phonogram is converted to kanji. Reference numeral 21 denotes a combination word character dictionary which stores special word combinations and stores the character. 20
Is a collocation character detection unit that searches the collocation character dictionary unit 21 using the ptr-th syllable of the input phonetic character string as a search key. 19, when the presence of a corresponding collocation character is detected by the collocation character detection unit 20, the dictionary retrieval unit 17 uses the np-1 syllables from the ptr + 1th of the input phonogram character string as a retrieval key, The dictionary unit 18 searches whether or not the corresponding word is registered. If the corresponding word is registered, the input person intends to perform the conversion by combining the corresponding word with the concatenated character. This is an extended word generation unit that generates a word that is being executed, that is, an extended word. Reference numeral 16 denotes a conversion processing unit. The detailed operation will be described later. Of the ntr syllables consecutive from the ptr-th syllable of the input phonetic character string, the presence or absence of the already converted syllable is checked. The value of PTR register 12 is set to 1
If there are no converted syllables, and if
If there is a corresponding word, it is converted to kanji,
np is added to ptr, and if there is no corresponding word, 1 is added to ptr to process the syllable character string of the next lower rank. Reference numeral 17 designates a word corresponding from the dictionary unit 18 as a search key using the syllable sent from the conversion processing unit 16 or the expanded word generation unit 19, and if there are a plurality of words, the word is arranged first. The most probable word is taken out and converted to the conversion processing unit 16 or the extended word generation unit 1
9 is a dictionary search unit to be sent. 22 is the conversion processing unit 1
6 is an output unit that outputs the result of the conversion.

【0009】以下、本実施例の動作の流れを説明する。
なお、図2から図4は、本来は一枚の図であるが、画面
の大きさの制限のため3図に分割したものである。図2
はレジスタの初期化の動作の流れを中心としたものであ
り、本図にもとづいてこの動作を説明する。 (S1)まず、音節数を計算するレジスタをゼロにする。
The operation flow of the embodiment will be described below.
Note that FIGS. 2 to 4 are originally one figure, but are divided into three figures due to the limitation of the screen size. FIG.
Is mainly for the flow of the operation of the initialization of the register, and this operation will be described with reference to FIG. (S1) First, the register for calculating the number of syllables is set to zero.

【0010】(S2)表音文字列を入力する。 (S3)現在入力された表音文字は声調キーか否かを検査
する。もし、声調キーであれば(S4)に行く。そうでな
ければ(S5)へ行く。 (S4)入力された音節数の増加に伴い、音節数を計算す
るレジスタの内容を1増やし(S2)へ戻る。
(S2) A phonetic character string is input. (S3) It is checked whether or not the currently input phonogram is a tone key. If it is a tone key, go to (S4). If not, go to (S5). (S4) With the increase in the number of syllables input, the contents of the register for calculating the number of syllables are increased by 1 and the process returns to (S2).

【0011】(S5)現在入力された表音文字は入力終了
キーか否かを検査する。もし、入力終了キーであれば漢
字変換すべく(S6)へいく。入力キーでなければ(S2)
へ戻る。 (S6)現在入力された音節数が8を越えるか否かを検査
する。もし、9以上であれば(S7)へ行く。8以下であ
れば(S8)へ行く。
(S5) It is checked whether or not the currently input phonogram is an input end key. If it is an input end key, go to (S6) to convert to kanji. If it is not an input key (S2)
Return to (S6) It is checked whether the number of syllables currently input exceeds eight. If it is 9 or more, go to (S7). If it is less than 8, go to (S8).

【0012】(S7)NPレジスタの値を8に設定する。 (S8)NPレジスタの値を現在入力された音節数に設定
する。 (S9)NCHARレジスタの値を現在入力された音節数
に設定する。 (S10)PTRレジスタの値を1に設定する。 これにより、入力された表音文字列の先頭から、音節数
が、そして構成する漢字数が多い単語から漢字変換の対
象として処理することの初期設定が完了したこととな
る。
(S7) The value of the NP register is set to 8. (S8) The value of the NP register is set to the currently input syllable number. (S9) The value of the NCHAR register is set to the currently input syllable number. (S10) The value of the PTR register is set to 1. As a result, the initial setting of processing from the head of the input phonogram character string as a target of kanji conversion from a word having a large number of syllables and a large number of kanji characters has been completed.

【0013】次に、図3と図4は変換処理部の動作を中
心とたものであり、本図にもとづいてこの動作を説明す
る。 (S11)表音文字列のptr番目から連続したnp個の音
節を切り出す。 (S12)(S11)で切り出された音節中に変換された音節が
あるか否かを検査する。もし、すでに変換された音節が
あれば(S16)へ行く。なおこの際、まだ変換されていな
い音節は、npの値がより小さくなった段階で変換の対
象とされる。もし、すでに変換された音節がなければ
(S13)へ行く。
Next, FIGS. 3 and 4 focus on the operation of the conversion processing unit, and this operation will be described with reference to FIG. (S11) Np syllables that are continuous from the ptr-th syllable character string are cut out. (S12) It is checked whether or not the syllable extracted in (S11) has a converted syllable. If there are already converted syllables, go to (S16). At this time, syllables that have not yet been converted are subjected to conversion when the value of np becomes smaller. If there is no syllable already converted, go to (S13).

【0014】(S13)(S11)で切り出された音節に対応す
る単語が辞書部内に格納されているか否かを検索する。
もし、あれば(S14)へ行き、なければ(S17)へ行く。 (S14)入力された表音文字列のptr番目から連続した
np個の音節を(S13)で検出された対応単語に変換し、
その後(S15)へ行く。 (S15)PTRレジスタの値にnpを加える。これは、(S
14)で漢字変換した直後の音節文字列を次の漢字変換の
処理対象とするためである。
(S13) It is searched whether or not the word corresponding to the syllable cut out in (S11) is stored in the dictionary section.
If there is, go to (S14), otherwise go to (S17). (S14) Convert np syllables consecutive from the ptr-th of the input phonetic character string to the corresponding words detected in (S13),
Then go to (S15). (S15) Add np to the value of the PTR register. This is (S
This is because the syllable character string immediately after the kanji conversion in step 14) is to be processed by the next kanji conversion.

【0015】(S16)PTRレジスタの値に1を加える。
これは、次の同じ音節数の音節文字列を漢字変換の処理
対象とするためである。 (S17)現在のNPレジスタの値と2とを比較する。も
し、2より大きい場合には(S18)へ行き、小さければ
(S16)へ行く。 (S18)(S11)で切り出された音節の一番目の音節は連語
字の読みであるか否かを所定の手順で検査する。もし、
連語字の読みであれば(S19)へ行き、そうでなければ
(S16)へ行く。
(S16) 1 is added to the value of the PTR register.
This is because the next syllable character string having the same number of syllables is to be processed for kanji conversion. (S17) The current value of the NP register is compared with 2. If it is larger than 2, go to (S18); if smaller, go to (S16). (S18) The first syllable cut out in (S11) is checked by a predetermined procedure whether or not it is a reading of a collocation character. if,
If it is a reading of collocation characters, go to (S19), otherwise go to (S16).

【0016】(S19)(S11)で切り出された音節の内、二
番目の音節からnp−1個の音節に対応する単語が辞書
部内に登録されているか否かを検査する。もし、登録さ
れておれば(S20)へ行く。なければ(S16)へ行く。 (S20)(S18)で検出された連語字と(S19)で抽出された
単語を一体にして、いわば一の単語たる拡張単語に組み
合わせて、入力された音節のptrから連続したnp個
の音節を拡張単語に変換する。しかる後(S15)へ行く。
(S19) Of the syllables cut out in (S11), it is checked whether or not words corresponding to np-1 syllables from the second syllable are registered in the dictionary unit. If it is registered, go to (S20). If not, go to (S16). (S20) The collocation characters detected in (S18) and the word extracted in (S19) are combined into an extended word, which is one word, to form np syllables consecutive from the input syllable ptr. To an expanded word. Then go to (S15).

【0017】(S21)では、(np+ptr)の値と(n
char+1)の値との大小を検査する。もし、前者が
大きい場合には(S22)へ行く。小さければ(S11)へ行
く。 (S22)NPレジスタ13の値を1減らし、PTRレジス
タ12の値を1に設定してから(S23)へ行く。これは、
構成漢字数の1つ少ない単語を入力された音節文字列中
の最初から次の漢字変換の対象として処理するためであ
る。
In (S21), the value of (np + ptr) and (np + ptr)
Check the magnitude of the value of (char + 1). If the former is larger, go to (S22). If smaller, go to (S11). (S22) Decrement the value of the NP register 13 by 1, set the value of the PTR register 12 to 1, and go to (S23). this is,
This is because a word having one less kanji character is processed as a target of the next kanji conversion from the beginning in the input syllable character string.

【0018】(S23)では、NPレジスタ13の値が零か
否かを検査する。もし、零であれば、入力された表音文
字列の漢字変換処理を終える。そうでなければ、(S11)
へ戻る。 次に、本発明の要部に係る連語字字典部について説明す
る。図5は本実施例の連語字字典部のデータ構造の概念
図である。本字典は、基本的な連語字の読み音及びそれ
に対応する連語字の対応表からなる。本実施例では、中
国語の前置詞「在」、「從」、「將」等、同じく接続詞
「則」、「若」、「和」、「以」等、同じく肯定詞、否
定詞の「是」、「不」、「有」等及び同じく指定詞
「其」、「該」等を連語字と見なす。なお、中国語にお
いては、これらの連語字は単語と連結し、構成する漢字
数がより多い単語を構成する。なお、このような組み合
わせで構成された単語を本明細書では拡張単語と称して
いる。例えば、「從三歳」、「在台北」、「不必要」、
「有一天」などである。こられの拡張単語は、本実施例
では一の単語(いわば慣用句)と見なされる。そして、
最長一致法を採用している本漢字変換装置では、より優
先的に変換されることとなる。
In (S23), it is checked whether or not the value of the NP register 13 is zero. If it is zero, the kanji conversion processing of the input phonetic character string ends. Otherwise (S11)
Return to Next, the collocation character dictionary section according to the main part of the present invention will be described. FIG. 5 is a conceptual diagram of a data structure of the collocation character dictionary part of the present embodiment. This script consists of the readings of the basic digraphs and the corresponding digraphs. In the present embodiment, the prepositions "Present", "Subordinate", "Sho", etc. in Chinese, and conjuncts "Rule", "Waka", "Wa", "I" and the like, as well as the adjectives "No" , "Not", "existing", etc., and similarly the designators "its", "the" etc. are regarded as collocation characters. Note that in Chinese, these collocation characters are connected to words to form words having a larger number of kanji characters. Note that a word formed by such a combination is referred to as an extended word in this specification. For example, “John 3 years old”, “Taipei”, “Unnecessary”,
"Yuichiten" and so on. These extended words are regarded as one word (an idiom) in this embodiment. And
In the kanji conversion device adopting the longest match method, conversion is performed with higher priority.

【0019】次に、以上のように構成された本実施例に
ついて、具体的に単語を例にとって説明する。(以下、
電子情報処理システムを通じての出願による使用可能な
文字の制限のため、本明細書では、図7の(a)、
(b)、(c)、(d)、(e)、(f)に示す表音文
字や記号を、電子情報処理システムの施行規則でも本中
国語ワードプロセッサー等を対象とした発明であり、こ
のため外字が多数しかも煩雑に使用されるということは
想定していなかったと推定されること、明細書の読み易
さを考慮の上各々相似た「sha」、「ren/」、
「shi\」、「fan\」、「zui\」、「de
・」で代用する。) 「sha ren/ shi\ fan\ zui\
de・」の入力列における動作を説明する。下記にこの
入力列に対応する辞書部内に格納されている変換の可能
性のある全ての単語を示す。
Next, the present embodiment constructed as described above will be specifically described using words as examples. (Less than,
Due to limitations on the characters that can be used by filing through the electronic information processing system, in this specification, FIG.
The phonetic characters and symbols shown in (b), (c), (d), (e), and (f) are inventions intended for the Chinese word processor and the like even in the regulations for the electronic information processing system. For this reason, it is presumed that it was not assumed that a large number of external characters were used in a complicated manner, and similar “sha”, “ren /”,
"Shi @", "fan @", "zui @", "de"
・ ". ) “Sha ren / shi\ fan\ zui\
The operation in the input string "de." will be described. The following shows all the words that can be converted and stored in the dictionary corresponding to this input string.

【0020】「sha ren/ 殺人」 「ren/ shi\ 人事」 「fan\ zui\ 示範」 「zui\ de・ 犯罪」 再度、フロー図をもとに説明する。"Sha ren / murder" "ren / shi @ personnel" "fan @ zui example" "zui de crime" The explanation will be made again based on the flow chart.

【0021】上記の表音文字列が入力されると(S2)、レ
ジスタ初期化部は、この入力された表音文字列を声調信
号で音節毎に区切ることにより音節数を求める(S3 〜S
5) 。上記の入力列には六つの音節があるので、音節数
6をNCHARレジスタに設定する(S9)。そして、その
値が辞書部内の最長の単語の漢字数8(本実施例では
8。)より小さいので(S6)、NPレジスタの初期値とし
て6を設定し(S8)、PTRレジスタの値を1に設定する
(S10) 。ここに、NPレジスタの役割は、現在変換によ
り得ようとする単語の漢字数を記憶することにある。こ
の場合、初期設定で6が入力されることから、構成する
音節数が6の単語から順に漢字変換の対象とされること
となる。又、PTRレジスタの値ptrは現在の辞書検
索の開始位置が、上記入力された表音文字列のptr番
目の音節であることを表わす。この場合、初期設定では
1が入力されるため、表音文字列の最初の音節から順に
漢字への変換対象となる。
When the above phonogram string is input (S2), the register initializing section obtains the number of syllables by dividing the input phonogram string into syllables using tone signals (S3 to S3).
Five) . Since the above input string has six syllables, the number of syllables is set in the NCHAR register (S9). Since the value is smaller than the number of kanji characters 8 (8 in this embodiment) of the longest word in the dictionary unit (S6), 6 is set as the initial value of the NP register (S8), and the value of the PTR register is set to 1 Set to
(S10). Here, the role of the NP register is to store the number of Chinese characters of the word to be obtained by the current conversion. In this case, since 6 is input by default, the kanji conversion is performed in order from the word having 6 syllables. The value ptr of the PTR register indicates that the current dictionary search start position is the ptr-th syllable of the input phonogram string. In this case, since 1 is input by default, the first syllable of the phonogram character string is sequentially converted to kanji.

【0022】入力された音節数に基づいてPTRレジス
タ、NPレジスタ、NCHARレジスタの初期値が設定
された後、変換処理部では、まずPTRレジスタとNP
レジスタの値によって、入力部から送られてきた表音文
字列の1〜6番目の連続した音節列「sha ren/
shi\ fan\ zui\ de・」を切り出し
(S11) 、その上でこの中に既に漢字変換された音節があ
るか否かを検査する(S12) 。もし全ての音節がまだ変換
されていないならば、そして、これらの音節列は入力さ
れたばかりであり、まだ一つも漢字変換されていないた
めそれらの六つの音節全てを検索キーとして辞書検索部
に送り辞書部内を検索させる(S13) 。それに対応する単
語がない、且つ現在NPレジスタの値が2より大きいの
で(S17)、一番目の音節は連語字の読みか否かを検査す
る(S18) 。一番目の音節は連語字ではないと判定された
場合には、PTRレジスタの値を1増やすだけにする(S
16) 。その際、比較部は(np+ptr)の値が(nc
har+1)の値より大きいこととなるのでこの旨を判
定し(S21) 、音節数が6の単語の変換を行うためにほか
の音節列を切り出さすことはできないことを示す。この
ため、NPレジスタの値は1減らされ、5となり、PT
Rレジスタの値は再度1に設定される(S22)。NPレジ
スタの値はゼロではないので(S23) 、次の連続した音節
の切り出しと漢字変換の処理のための動作に入る。 同
様に、PTRレジスタの新しい値1とNPレジスタの値
5によって最初に切り出された「sha ren/ s
hi\fan\ zui\」、そしてこれも漢字変換を
されないため、prtは1を加えて2となることにより
(S16)、次に切り出された「ren/ shi\ fa
n\ zui\ de・」も(S11) 、まだ変換されてい
ない音節であるが(S12) 、辞書部に対応する単語が格納
されていない(S13) 上に一番目の音節は連語字の読みで
はないので(S18) 、漢字変換処理は行なわれない。た
だ、PTRレジスタの値が1増やす(S16) だけである。
「ren/ shi\ fan\ zui\ de・」
が漢字変換の対象でないとされた後(S13)、PTRレジ
スタの値は更に1が加えられて3となる。この場合に
は、比較部により(np+ptr)>(nchar+
1)と判定され(S21) 、構成漢字数が5である単語の変
換を行うために後方にあるほかの音節列を切り出すこと
はもうできないものと判断される。このため、NPレジ
スタの値は1減らされ4となる。またPTRレジスタの
値は新しく1に設定される(S22) 。NPレジスタの値は
零でないので(S23) 、次の連続した音節の切り出しと漢
字変換処理にとりかかることとなる。 NPレジスタの
値が4となる場合には、5の場合と同様にPTRレジス
タとNPレジスタの値により、入力された表音文字列か
ら順に切り出された4個からなる連続した音節列「sh
a ren/ shi\ fan\」、「ren/ s
hi\ fan\ zui\」(S11) は全てまだ変換さ
れていないので(S12) 、それらを検索キーとして、辞書
部内を検索する。それらに対応する単語がなく(S13) 、
且つ一番目の音節は連語字の読みではないので(S18) 、
これらは漢字変換処理対象とされない。この段階で、P
TRレジスタの値2は更に1増やされる(S16) 。PTR
レジスタの値が3となると、3番めの表音文字列「sh
i\ fan\ zui\ de・」が切り出されるが
(S11) 、これもまだ変換されていない音節である(S12)
。さて、この段階で、辞書部内にこの音節列に対応す
る単語が格納されておらず(S13) 、且つNPレジスタの
値は2より大きいので(S17) 、一番目の音節は連語字の
読みか否かが検査されることとなる(S18) 。そして、読
み「shi\」が連語字字典部内に登録されているの
で、その他の音節「fan\ zui\de・」につい
て辞書部内に対応する単語が格納されているか否かを検
索する(S19) 。しかしながら対応する単語が登録されて
いないため拡張単語の生成はもとより漢字変換もなされ
ない。次いで、PTRレジスタの値を1増やし4とする
(S16) 。この際、比較部により(np+ptr)>(n
char+1)と判定され(S21) 、音節数4の単語の変
換を行うために後方にある他の音節列を切り出すことは
もうできないことが判定される。このため、NPレジス
タの値を1減らして3とする。またPTRレジスタの値
は再度1に設定される(S22) 。この場合、NPレジスタ
の値は零ではないので(S23) 、次の連続した音節の切り
出しと変換を行う。
After the initial values of the PTR register, the NP register, and the NCHAR register are set based on the number of syllables input, the conversion processing unit firstly sets the PTR register and the NP register.
Depending on the value of the register, the first to sixth consecutive syllable strings “sha ren /
shi\ fan\ zui\ de.
(S11) Then, it is checked whether there are any syllables which have already been converted into kanji (S12). If all syllables have not been converted yet, and since these syllable strings have just been input and none of them have been converted to Kanji yet, send all six syllables to the dictionary search unit as search keys. The dictionary is searched (S13). Since there is no corresponding word and the value of the NP register is currently greater than 2 (S17), it is checked whether the first syllable is a reading of a collocation character (S18). If it is determined that the first syllable is not a collocation character, only increase the value of the PTR register by 1 (S
16) At this time, the comparison unit sets the value of (np + ptr) to (nc)
(har + 1), it is determined that this is the case (S21), indicating that another syllable string cannot be cut out to convert a word having six syllables. Therefore, the value of the NP register is decremented by 1 to 5 and PT
The value of the R register is set to 1 again (S22). Since the value of the NP register is not zero (S23), the operation for cutting out the next continuous syllable and processing the kanji conversion is started. Similarly, “sha ren / s” first cut out by the new value 1 of the PTR register and the value 5 of the NP register
hi {fan} zui} ", and since this is also not converted to kanji, prt is added to 1 to 2 (S16), and then the extracted" ren / shi @ fa "
(n\ zui\ de.) (S11) is a syllable that has not been converted yet (S12), but the word corresponding to the dictionary part is not stored (S13). (S18), the kanji conversion process is not performed. However, only the value of the PTR register is increased by 1 (S16).
“Ren / shi\ fan\ zui\ de.”
Is determined not to be the object of the kanji conversion (S13), the value of the PTR register is further increased by 1 to become 3. In this case, the comparison unit (np + ptr)> (nchar +
It is determined that 1) (S21), and it is determined that it is no longer possible to cut out another syllable string at the rear in order to convert a word having 5 kanji characters. Therefore, the value of the NP register is reduced by 1 to 4. Further, the value of the PTR register is newly set to 1 (S22). Since the value of the NP register is not zero (S23), the next continuous syllable is cut out and the kanji conversion process is started. When the value of the NP register is 4, as in the case of 5, the continuous syllable string “sh” composed of four pieces sequentially cut out from the input phonogram string by the values of the PTR register and the NP register.
a ren / shi {fan} "," ren / s
Since “hi\fan\zui\” (S11) has not been converted yet (S12), the dictionary is searched using these as search keys. There is no corresponding word (S13),
And because the first syllable is not a reading of collocations (S18),
These are not subject to kanji conversion processing. At this stage, P
The value 2 of the TR register is further increased by 1 (S16). PTR
When the register value becomes 3, the third phonetic character string “sh
i\ fan\ zui\ de. '
(S11), this is also a syllable that has not yet been converted (S12)
. By the way, at this stage, the word corresponding to this syllable string is not stored in the dictionary part (S13), and the value of the NP register is larger than 2 (S17). A check is made to determine if the answer is NO (S18). Then, since the reading "shi @" is registered in the concatenated character dictionary, it is searched whether or not the corresponding word is stored in the dictionary for the other syllables "fan @ zui @ de." (S19). . However, since the corresponding word is not registered, the generation of the expanded word and the kanji conversion are not performed. Next, the value of the PTR register is increased by 1 to 4
(S16). At this time, (np + ptr)> (n
char + 1) (S21), and it is determined that it is no longer possible to cut out another syllable string at the back in order to convert a word having four syllables. Therefore, the value of the NP register is reduced by 1 to 3. Further, the value of the PTR register is set to 1 again (S22). In this case, since the value of the NP register is not zero (S23), the next continuous syllable is cut out and converted.

【0023】NPレジスタの値が3の場合にも、6,
5,4の場合と同様に、PTRレジスタとNPレジスタ
の作用、設定値により、入力された表音文字列から連続
した音節列「sha ren/ shi\」、「ren
/ shi\ fan\」が順に切り出される(S11) 。
この場合、これらの音節は全てまだ変換されておらず(S
12) 、それらを検索キーとして辞書部内を検索すること
となるがそれらに対応する単語がなく(S13) 、且つ一番
目の音節は連語字の読みではないため(S18) 、漢字変換
処理はなされないこととなる。ただ、PTRレジスタの
値が逐次1増やされることとなる(S16) 。PTRレジス
タの値が3となったときに切り出された「shi\ f
an\ zui\」(S11) も、まだ変換されておらず(S
12) 、また辞書部内に対応する単語がなく(S13) 、更に
NPレジスタの値が2より大きいので(S17) 、一番目の
音節が連語字の読みか否かが検査されることになる(S1
8) 。さて、この場合には、連語字字典部内には読み
「shi\」に対応する字「是」がある。このため、そ
のほかの音節「fan\zui\」について辞書部内に
対応する単語が登録されているか否かを検索する(S19)
。対応する単語「犯罪」が登録されているので、連語
字の「是」と対応単語「犯罪」と組み合わせて「是犯
罪」という拡張単語が生成される(S20) 。そして、「s
hi\ fan\ zui\」が拡張単語「是犯罪」に
変換される。次にPTRレジスタの値とNPレジスタの
値を加える。これによりptrの値は6となる(S15) 。
このため、比較部により(np+ptr)>(ncha
r+1)と判定される(S21) 。これにより、音節数が3
の単語の変換を行うために後方のほかの音節列を切り出
すことはできないと判定され、NPレジスタの値は1減
らし2とされる。またPTRレジスタの値は再度1に設
定される(S22) 。この場合、NPレジスタの値は零では
ないので(S23) 、次の連続した音節の切り出しと漢字変
換処理がなされる。
Even when the value of the NP register is 3, 6
Similarly to the case of 5 and 4, the syllable strings “sha ren / shi\”, “ren” continuous from the input phonetic character string are set by the action and the set value of the PTR register and the NP register.
/ Shi {fan} "is sequentially cut out (S11).
In this case, all of these syllables have not yet been converted (S
12), they are searched in the dictionary using these as search keys, but there is no word corresponding to them (S13), and the first syllable is not a reading of collocation characters (S18). It will not be done. However, the value of the PTR register is sequentially increased by one (S16). "Shi @ f" cut out when the value of the PTR register becomes 3
an\ zui\ ”(S11) is not yet converted (S11
12) Also, since there is no corresponding word in the dictionary section (S13) and the value of the NP register is larger than 2 (S17), it is checked whether the first syllable is a reading of a collocation character (S17). S1
8). By the way, in this case, there is a character "!" Corresponding to the reading "shi @" in the collocation character dictionary. For this reason, it is searched whether or not the corresponding word is registered in the dictionary part for the other syllable "fan {zui}" (S19).
. Since the corresponding word “crime” has been registered, an extended word “correct crime” is generated by combining the collocation word “「 ”with the corresponding word“ crime ”(S20). And "s
hi {fan} zui} "is converted into the expanded word" criminal offense ". Next, the value of the PTR register and the value of the NP register are added. As a result, the value of ptr becomes 6 (S15).
For this reason, (np + ptr)> (ncha
r + 1) (S21). As a result, the number of syllables becomes 3
It is determined that it is not possible to cut out another syllable string at the rear in order to perform the word conversion, and the value of the NP register is reduced by 1 to 2. Further, the value of the PTR register is set to 1 again (S22). In this case, since the value of the NP register is not zero (S23), the next consecutive syllable is cut out and the kanji conversion process is performed.

【0024】NPレジスタの値が2であり、PTRレジ
スタの値が1である場合には、連続した音節列「sha
ren/」を切り出す(S11) 、まだ変換されていない
音節であるので(S12) 、辞書検索部はそれを検索キーと
して辞書部内を検索する。辞書部内には対応する単語
「殺人」が格納されているので、「sha ren/」
を「殺人」に変換し、PTRレジスタの値にNPレジス
タの値を加えて3とする(S15) 。この際、比較部により
(np+ptr)は(nchar+1)より小さいと判
定される(S21) 、構成漢字数が2である単語の変換を行
うために他の音節列を切り出すことが可能であるので、
続けて連続した音列節「shi\ fan\」、「fa
n\ zui\」、「zui\ de・」を切り出す(S
11) 。しかしながら、これらの音節は既に変換された音
節を含むので(S12) 、どんな処理もなされない。
When the value of the NP register is 2 and the value of the PTR register is 1, the continuous syllable string "sha
ren / "is cut out (S11). Since the syllable is not yet converted (S12), the dictionary search unit searches the dictionary unit using the syllable as a search key. Since the corresponding word "murder" is stored in the dictionary section, "sha ren /"
Is converted to "murder", and the value of the NP register is added to the value of the PTR register to obtain 3 (S15). At this time, the comparison unit determines that (np + ptr) is smaller than (nchar + 1) (S21). Since it is possible to cut out another syllable string in order to convert a word having two kanji characters,
Continuous syllable strings "shi @ fan @", "fa
n\ zui\ ”and“ zui\ de · ”(S
11). However, since these syllables include already converted syllables (S12), no processing is performed.

【0025】次いで、NPレジスタの値が1となったと
きには、、PTRレジスタの値の1、2、3、4若しく
は5であるか否かにかかわらず、切り出された音節はす
べて変換されていることとなるので、どのような処理も
なされないこととなる。PTRレジスタの値が6となる
と、この段階で切り出された「de・」はまだ変換され
ていないので、これを辞書検索部に送り、辞書部内を検
索する。中国語文章では、「de・」の音に対応する漢
字の中で「的」の使用頻度が一番高く、最初に配列され
ているのでこれが最先に漢字変換されることとなり、
「de・」を「的」に変換する。そのうえで、PTRレ
ジスタの値にNPレジスタの値を加えて7とする(S15)
。この場合、比較部により(np+ptr)は(nc
har+1)より大きいと判定されるの(S21) 。このた
め、NPレジスタの値は1減らされ、0となる。ここま
でで変換処理部は入力された表音文字列の漢字変換処理
が終了したと判定し、「殺人是犯罪的」という変換結果
を出力部に送る。
Next, when the value of the NP register becomes 1, regardless of whether the value of the PTR register is 1, 2, 3, 4 or 5, all of the cut syllables have been converted. As a result, no processing is performed. When the value of the PTR register becomes 6, since "de." Cut out at this stage has not been converted yet, it is sent to the dictionary search unit to search the dictionary unit. In Chinese sentences, the use of "target" is the highest among kanji corresponding to the sound of "de.", And since it is arranged first, it is converted to kanji first.
"De." Is converted to "target". Then, the value of the NP register is added to the value of the PTR register to obtain 7 (S15).
. In this case, (np + ptr) becomes (nc)
(har + 1) is determined (S21). Therefore, the value of the NP register is reduced by 1 and becomes 0. At this point, the conversion processing unit determines that the kanji conversion processing of the input phonogram string has been completed, and sends a conversion result of “murder criminality” to the output unit.

【0026】以上、本発明を実施例に基づき説明してき
たが、本発明は何も上記実施例に限定されないのは勿論
である。すなわち、例えば、 必ずしも入力終了キーが押されてから、入力された表
音文字列の全ての表音文字列を漢字に変換し始める必要
はなく、声調キーが入力されたら、つまり、一つの音節
が入力される度に、前回入力された表音文字列の入力終
了位置から、現在入力された表音文字列までを変換する
ようにしてもよい。 連語字を独立に連語字字典部内に記憶するのに換え
て、フラグによりこれらの連語字を表示することにし、
併せてこのフラグに対応して辞書部内に格納してもよ
い。 製造等の都合で、請求項に示した各構成部を物理的に
複数の部分に分割してもよいし、また複数の構成部を物
理的に1つの物としてもよいし、またこれらを適宜組み
合わせてもよい。例えば、実施例におけるPTRレジス
タとNPレジスタと比較部と変換処理部16の一部の処
理は音節切り出し部の処理に相当する。 表音文字とは、例示した音素文字や音節文字に限らず
音素記号をも含む概念であり、更に漢字変換の対象とな
るならば、日本語のかな、朝鮮語のハングル等の文字で
あってもよい。 用途は、日本語における漢文用ワードプロセッサー等
を包含するのは勿論である。 学習機能等が付加されていてもよいのは勿論である。
As described above, the present invention has been described based on the embodiments. However, it goes without saying that the present invention is not limited to the above embodiments. That is, for example, it is not necessary to start converting all the phonetic character strings of the input phonetic character strings to kanji after the input end key is pressed, and when the tone key is input, that is, one syllable, Every time is input, the conversion from the input end position of the previously input phonogram string to the currently input phonogram string may be performed. Instead of memorizing the collocation characters independently in the collocation dictionary, these flags will be displayed using flags.
At the same time, it may be stored in the dictionary unit corresponding to this flag. For convenience of manufacture or the like, each constituent part shown in the claims may be physically divided into a plurality of parts, or a plurality of constituent parts may be physically formed as one object. They may be combined. For example, part of the processing of the PTR register, the NP register, the comparison unit, and the conversion processing unit 16 in the embodiment corresponds to the processing of the syllable extraction unit. A phonetic character is a concept that includes not only the illustrated phonemic characters and syllabic characters but also phonemic symbols, and if it is subjected to kanji conversion, it is a character such as Japanese kana, Korean Hangul, etc. Is also good. The uses of course include a word processor for Chinese sentences in Japanese. Needless to say, a learning function or the like may be added.

【0027】[0027]

【発明の効果】以上説明したように、本発明によれば、
入力された音節列を中国語の文字(漢字)に変換する
際、変換しようとする音節に中国語の前置詞、接続詞、
肯定詞、否定詞、指定詞などの特性を持っている連語字
に対して、その文字の読みがあり、且つその後の連続し
た音節に該連語字と一体的になって漢字数の多い単語を
つくる単語があれば、該連語字とその単語とを組み合わ
せることにより、変換対象となるより漢字数の多い、そ
して音節数の多い拡張単語を生成する。さて、漢字変換
はこの上で構成する漢字数の多い単語から優先的になさ
れるため、従来の単に構成漢字数と前方単語を優先して
変換する原則のみでは困難であった「有一天」、「殺人
是犯罪的」、「其特徴」などの誤変換を容易に解決する
ことが可能となる。このため中国語文章作成における漢
字変換の際の正確率が高まり、その技術的効果は非常に
大きい。
As described above, according to the present invention,
When converting the input syllable string to Chinese characters (Kanji), the syllable to be converted should include Chinese prepositions, conjunctions,
For collocations that have characteristics such as affirmatives, negatives, and nouns, there is a reading of that character, and in subsequent syllables, words with a large number of kanji are integrated with the collocations. If there is a word to be created, the combined word and the word are combined to generate an expanded word having a larger number of kanji and a larger number of syllables to be converted. By the way, since the kanji conversion is performed preferentially from the words with a large number of kanji composed on it, it was difficult to simply convert the kanji with the number of kanjis and the preceding word with priority in the prior art. Misconversions such as "murder and criminal" and "its characteristics" can be easily resolved. For this reason, the accuracy rate at the time of kanji conversion in Chinese sentence creation increases, and the technical effect is very large.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る漢字変換装置の一実施例の構成図
である。
FIG. 1 is a configuration diagram of an embodiment of a kanji conversion device according to the present invention.

【図2】上記実施例におけるレジスタの初期における動
作の流れ図である。
FIG. 2 is a flowchart of an operation of a register in an initial stage in the embodiment.

【図3】上記実施例における変換処理部の動作を中心と
した流れ図である。
FIG. 3 is a flowchart focusing on the operation of a conversion processing unit in the embodiment.

【図4】上記実施例における変換処理部の動作を中心と
した流れ図である。
FIG. 4 is a flowchart focusing on the operation of a conversion processing unit in the embodiment.

【図5】上記実施例における連語字字典のデータ構造の
概念図である。
FIG. 5 is a conceptual diagram of a data structure of a collocation character dictionary in the embodiment.

【図6】従来の漢字変換装置の構成図である。FIG. 6 is a configuration diagram of a conventional kanji conversion device.

【図7】明細書中の実施例の説明に使用した表音文字列
の一覧である。
FIG. 7 is a list of phonetic character strings used in the description of the embodiments in the specification.

【符号の説明】[Explanation of symbols]

10 入力部 11 レジスタ初期化部 12 PTRレジスタ 13 NPレジスタ 14 NCHARレジスタ 15 比較部 16 変換処理部 17 辞書検索部 18 辞書部 19 拡張単語生成部 20 連語字検出部 21 連語字字典部 22 出力部 Reference Signs List 10 Input unit 11 Register initialization unit 12 PTR register 13 NP register 14 NCHAR register 15 Comparison unit 16 Conversion processing unit 17 Dictionary search unit 18 Dictionary unit 19 Extended word generation unit 20 Concatenated character detection unit 21 Concatenated character dictionary unit 22 Output unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 謝 明勲 台湾タイ・ペイ・シ・ター・アン・チ ー・10628・レン・アイ・ル・サン・ト ォアン・136・ハオ・10・ロウ スン・ シャ・ティエン・チ・チ・シュー・カ イ・ファー・クゥー・フェン・ユウ・シ エン・コン・スー内 (72)発明者 林 啓軒 台湾タイ・ペイ・シ・ター・アン・チ ー・10628・レン・アイ・ル・サン・ト ォアン・136・ハオ・10・ロウ スン・ シャ・ティエン・チ・チ・シュー・カ イ・ファー・クゥー・フェン・ユウ・シ エン・コン・スー内 (56)参考文献 特開 昭63−163570(JP,A) 特開 昭63−136163(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/28 ──────────────────────────────────────────────────の Continuing on the front page (72) Inventor Xie Ming-dan Taiwan Thailand Pay-si-ta-an-ch- 10628 / Len-ai-le-Saint-Toan-136-Hao-10-Losun・ Within Sha Tien Chi Chi Shu Kai Far Far Ku Feng Yu Xiang Kong Sue (72) Inventor Keiken Hayashi Taiwan Thailand Pei Shi Tan An Chi・ 10628 ・ Len I Le Saint Tooan 136 ・ Hao ・ 10 ・ Loung Sha Sha Tien Chi Chi Shu Kai Kai Far Khu Feng Yu Xiang Kong Sue (56) References JP-A-63-163570 (JP, A) JP-A-63-136163 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/21-17 / 28

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力された表音文字列のまだ変換されて
いない音節若しくは該音節の一部について、第1に最大
文字数の単語に変換することを優先し、第2に先に入力
された音節を変換することを優先し、このもとで変換対
象の音節数を逐次に減らし、また変換対象の音節を順次
後方にずらすことにより現在の変換の対象となる音節列
を切り出す音節切り出し部と、 予め表音文字列及びこれに対応する中国語単語が登録さ
れている辞書部と、 前記音節切り出し部により切り出された変換対象となる
音節列を検索キーとして、前記辞書部内を検索し中国語
の単語を検出する辞書検索部と、特別の連語字の読み及び該文字を記憶している連語字字
典部と、 上記音節切り出し部により切り出された変換対象となる
音節列において、一番目の音節が連語字であるか否かを
前記連語字字典部を検索して該連語字を検出する連語字
検出部と、 上記連語字検出部により対応する連語字を検出したとき
には、現在変換対象となる音節列の二番目からの音節を
検索キーとして、上記辞書検索部により辞書部内を検索
し、対応する単語があれば該連語字及び該単語を組み合
わせてより構成漢字数の多い拡張単語を生成する拡張単
語生成部と、 上記拡張単語生成部により生成された拡張単語を、上記
辞書検索部により検索された単語に優先して漢字変換さ
せるよう制御する変換処理部とを備えたことを特徴とす
る漢字変換装置。
1. For a syllable or a part of the syllable that has not been converted yet in the input phonogram string, priority is first given to converting it to a word having the maximum number of characters, and secondly, it is input first. A syllable segmentation unit that prioritizes converting syllables, sequentially reduces the number of syllables to be converted under this condition, and sequentially shifts the syllables to be converted backward to cut out a syllable string to be converted at the present time. A dictionary part in which phonetic character strings and corresponding Chinese words are registered in advance; and a syllable string extracted by the syllable extraction part, which is to be converted, is used as a search key to search the dictionary part for Chinese. A dictionary search unit for detecting words of the type , reading of special collocation characters, and collocation character characters storing the characters.
In the syllable part and the syllable string to be converted cut out by the syllable cutout part, it is determined whether the first syllable is a collocation character.
A collocation character detecting unit that searches the collocation character dictionary and detects the collocation character.When a corresponding collocation character is detected by the collocation character detection unit, the syllable from the second of the syllable string to be currently converted is extracted. As a search key, the dictionary search unit searches the dictionary unit, and if there is a corresponding word, an extended word generation unit that generates an extended word having a larger number of constituent kanjis by combining the concatenated character and the word; A kanji conversion device comprising: a conversion processing unit that controls the expansion word generated by the generation unit to convert the kanji character with priority to the word searched by the dictionary search unit.
JP07591293A 1993-04-01 1993-04-01 Kanji conversion device Expired - Fee Related JP3234338B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP07591293A JP3234338B2 (en) 1993-04-01 1993-04-01 Kanji conversion device
CN93119055A CN1043542C (en) 1993-04-01 1993-10-22 A kanji conversion apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07591293A JP3234338B2 (en) 1993-04-01 1993-04-01 Kanji conversion device

Publications (2)

Publication Number Publication Date
JPH06290183A JPH06290183A (en) 1994-10-18
JP3234338B2 true JP3234338B2 (en) 2001-12-04

Family

ID=13590022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07591293A Expired - Fee Related JP3234338B2 (en) 1993-04-01 1993-04-01 Kanji conversion device

Country Status (2)

Country Link
JP (1) JP3234338B2 (en)
CN (1) CN1043542C (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8461562B2 (en) 2007-11-21 2013-06-11 Toyota Jidosha Kabushiki Kaisha Web carrier, web carrying method, and web carriage control program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8461562B2 (en) 2007-11-21 2013-06-11 Toyota Jidosha Kabushiki Kaisha Web carrier, web carrying method, and web carriage control program

Also Published As

Publication number Publication date
CN1043542C (en) 1999-06-02
JPH06290183A (en) 1994-10-18
CN1093184A (en) 1994-10-05

Similar Documents

Publication Publication Date Title
JP2003514304A5 (en)
US6587819B1 (en) Chinese character conversion apparatus using syntax information
JP3234338B2 (en) Kanji conversion device
JP4084515B2 (en) Alphabet character / Japanese reading correspondence apparatus and method, alphabetic word transliteration apparatus and method, and recording medium recording the processing program therefor
KR0157031B1 (en) Automatic keyboard mode transduction device & method
JPS58123129A (en) Converting device of japanese syllabary to chinese character
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
KR102278288B1 (en) Apparatus and method for searching text based on phoneme
JP3152802B2 (en) Kanji conversion device
JP3935374B2 (en) Dictionary construction support method, apparatus and program
JP2997151B2 (en) Kanji conversion device
JP3387421B2 (en) Word input support device and word input support method
JPH06208560A (en) Ambiguous kanji converting device
JPH05282293A (en) Word processor
JP3084864B2 (en) Text input device
JPH0350668A (en) Character processor
JP3273778B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP2944524B2 (en) Kana-Kanji conversion method
JPH0350669A (en) Information processor
JPH06290182A (en) Double word converting device and kanji conversion device
JPS60189573A (en) Character convertor
JPH11338859A (en) Name input device and program recording medium
JP2000020513A (en) Japanese input device and its method
JPH09134345A (en) Yomigana generating device
JPH04256159A (en) Kana/kanji converter

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees