JPH0567076A - Kana/kanji converter - Google Patents

Kana/kanji converter

Info

Publication number
JPH0567076A
JPH0567076A JP3226835A JP22683591A JPH0567076A JP H0567076 A JPH0567076 A JP H0567076A JP 3226835 A JP3226835 A JP 3226835A JP 22683591 A JP22683591 A JP 22683591A JP H0567076 A JPH0567076 A JP H0567076A
Authority
JP
Japan
Prior art keywords
word
information
compound
words
semantic classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3226835A
Other languages
Japanese (ja)
Inventor
Tetsuro Chino
哲朗 知野
Kazuo Sumita
一男 住田
Hisahiro Adachi
久博 安達
Tatsuya Uehara
龍也 上原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3226835A priority Critical patent/JPH0567076A/en
Publication of JPH0567076A publication Critical patent/JPH0567076A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To make it possible to efficiently suppress the output of an unnecessary homonym at the time of performing KANA (Japanese syllabary)/KANJI (Chinese character) conversion processing. CONSTITUTION:Based on reading information to be inputted from an input part 1 inputting the reading information of a Japanese sentence, a word information is retrieved from a dictionary storage part 5 and plural conversion candidates composed of the combinations of the word information and accessory words are extracted from a paragraph group extraction part 3. For these conversion candidates, the existence of synthetic words are detected by using a synthetic words conjunction rules storage part 7 and a synthetic words meanings classification and determination rules storage part 8 and the meaning classification of each existing synthetic word is determined. Based on these determined meaning classifications, the selection priority order of each conversion candidate is determined.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、かな文字入力を漢字か
な混じりの文章情報に変換する日本語ワードプロセッサ
に用いられるかな漢字変換装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a kana-kanji conversion device used in a Japanese word processor for converting kana-character input into sentence information containing kanji and kana.

【0002】[0002]

【従来の技術】最近、日本語文章の読み情報を入力して
漢字かな混じりの文章情報に変換するための入力手段と
して、日本語ワードプロセッサが広く使用されるように
なっている。
2. Description of the Related Art Recently, a Japanese word processor has been widely used as an input means for inputting reading information of a Japanese sentence and converting it into sentence information containing kanji and kana.

【0003】このような日本語ワードプロセッサは、キ
ーボードよりかな入力もしくはローマ字入力により文章
の読み情報が入力されると、文節の切れ目、文の切れ目
などにおいて、これらの切れ目を指示する特定キーの操
作タイミングあるいはかな入力中に句読点が入力された
り、入力された文字数があらかじめ定められた文字数を
越えた場合などのタイミングで、入力されたかな入力に
対応するかな漢字混じり表記の変換処理が実行され、利
用者の所望するかな漢字混じり表記が得られることにな
っている。
In such a Japanese word processor, when the reading information of a sentence is input by kana or romaji input from the keyboard, the operation timing of a specific key for instructing these breaks, such as a break of a phrase or a break of a sentence. Alternatively, when punctuation marks are entered during kana input, or when the number of input characters exceeds a predetermined number of characters, conversion processing of kana-kanji mixed notation corresponding to the input kana input is executed, and the user It is supposed that the kana-kanji mixed notation that you want will be obtained.

【0004】ところで、日本語には、種々の同音異議語
が存在するため、日本語ワードプロセッサによるかな漢
字変換処理の結果として、複数の変換候補の中から変換
目的とする語を選択するようになっている。しかしなが
ら、このような同音異義語の選択は非常に煩わしく、時
として文章入力をしている利用者の思考を中断させるこ
とがあり、文章入力の作業能率を著しく低下させる原因
となっている。
By the way, since there are various homonyms in Japanese, as a result of kana-kanji conversion processing by a Japanese word processor, a word to be converted is selected from a plurality of conversion candidates. There is. However, such selection of homonyms is very troublesome and sometimes interrupts the thinking of the user who is inputting a sentence, which is a cause of significantly reducing the work efficiency of the sentence input.

【0005】そこで、従来では、個々の同異議音語に対
して事前に頻度を割り当て、その頻度にしたがって第一
候補に指定されたものを出力する方法や、入力の過程で
順次選択された同音異義語を学習し、これを第一候補と
して優先的に出力する方法などが、考えられている。こ
のような方法は、入力操作全体を見た場合、同音異義語
の選択のために必要とする操作回数を少なくする上で大
きく貢献している。
Therefore, conventionally, a frequency is assigned in advance to each homonymous phoneme and the one designated as the first candidate is output according to the frequency, or the homophones sequentially selected in the input process. A method of learning a synonym and preferentially outputting it as a first candidate is considered. Such a method greatly contributes to reducing the number of operations required for selecting homonyms when the entire input operation is viewed.

【0006】ところが、1つの入力文章において、例え
ば「記者が帰社する。」のような複数の同音異義語を入
力するような場合があるが、この場合には、その都度、
同音異義語の選択操作が必要となめために、前述した各
方法による効果が期待できない。
However, there are cases where a plurality of homonyms such as "the reporter returns to work" are input in one input sentence. In this case, in each case,
Since the operation of selecting a homonym is required, the effect of each method described above cannot be expected.

【0007】そこで、このような1つの入力文章中に複
数の同音異義語が存在する場合を想定して各単語に対し
て割り振った意味分類、あるいは各単語の共起関係をあ
らかじめ記憶しておき、この共起関係にある変換候補を
優先的に出力する方法なども考えられている。
Therefore, assuming that a plurality of homonyms exist in such one input sentence, the semantic classification assigned to each word or the co-occurrence relation of each word is stored in advance. A method of preferentially outputting conversion candidates having this co-occurrence relationship is also considered.

【0008】この方法では、例えば、“きしゃがきし
ゃ”というような読み入力に対して、“(人)−が−
(動作)”といった、単語や意味分類の間の共起関係デ
ータをあらかじめ記憶しておき、これを利用することに
よって、複数の変換候補の中から“記者が帰社”を優先
的に出力するようにしている。
In this method, for example, in response to a reading input such as "kishagakisha", "(person)-
By pre-storing co-occurrence relation data between words and semantic classifications such as (operation), and using this, it is possible to preferentially output "reporter returns to work" from among multiple conversion candidates. I have to.

【0009】ところで、一般に日本語は、単語や接辞を
組み合わせることによって極めて多くの合成語を作り出
すことができることから、これらから考えられる共起関
係の数も極めて多くなることが知られている。このた
め、事前に単語と合成語の組み合わせに対する共起関係
データを辞書に用意することは、現実問題として不可能
であり、辞書に用意された共起関係データに該当する以
外の場合は、相変わらず不必要な同音異義語が他数出力
され、これらの同音異義語を選択するための面倒な操作
が必要であった。
By the way, it is known that, in general, Japanese can produce an extremely large number of compound words by combining words and affixes, so that the number of co-occurrence relations that can be considered from these is extremely large. Therefore, it is impossible to prepare the co-occurrence relation data for the combination of the word and the compound word in advance in the dictionary as a practical problem, and as long as it does not correspond to the co-occurrence relation data prepared in the dictionary, it remains unchanged. Other unnecessary homonyms were output, and a troublesome operation was required to select these homonyms.

【0010】[0010]

【発明が解決しようとする課題】このように従来のかな
漢字変換装置にあっては、辞書に用意される共起関係デ
ータは極めて限られたものになるため、これら以外では
相変わらず不必要な同音異義語が多数出力されることと
なり、同音異義語の選択のために依然として面倒な操作
が必要になる欠点があった。
As described above, in the conventional kana-kanji conversion device, the co-occurrence relation data prepared in the dictionary is extremely limited. Since a large number of words are output, there is a drawback that a troublesome operation is still required for selecting homonyms.

【0011】本発明は、上記事情を鑑みてなされたもの
で、かな漢字変換処理の際の不必要な同音異義語の出力
を効率的に抑制することができ、同音異義語を選択する
ための操作を最小限で簡単にできるかな漢字変換装置を
提供することを目的とする。
The present invention has been made in view of the above circumstances, and can effectively suppress the output of unnecessary homonyms when performing kana-kanji conversion processing, and an operation for selecting homonyms. It is an object of the present invention to provide a kana-kanji conversion device which can be easily and minimally.

【0012】[0012]

【課題を解決するための手段】本発明のかな漢字変換装
置は、日本語文章の読み情報を入力する入力手段、複数
の単語を記憶するとともにこれら単語に対応する意味分
類を記憶する記憶手段、入力手段より入力される読み情
報に基づいて記憶手段より単語情報を検索するとともに
該単語情報と付属語の組合わせからなる複数種類の変換
候補を出力する変換候補抽出手段、少なくとも第一の単
語または意味分類と第二の単語または意味分類に属する
単語によって構成される合成語に関連する意味分類を決
定する規則を意味分類決定情報として記憶した意味分類
決定情報記憶手段、変換候補抽出手段より出力される各
変換候補について意味分類決定情報を用いて合成語の存
在を検出するとともに存在する各合成語の意味分類を決
定する合成語意味分類決定手段とを具備し、この合成語
意味分類決定手段によって決定された意味分類に基づい
て変換候補の選択優先順位を決定するように構成してい
る。
A kana-kanji conversion device according to the present invention includes an input means for inputting reading information of a Japanese sentence, a storage means for storing a plurality of words and a semantic classification corresponding to these words, and an input. Conversion candidate extraction means for searching word information from the storage means based on the reading information input by the means and outputting a plurality of types of conversion candidates composed of combinations of the word information and attached words, at least a first word or meaning It is output from the semantic classification determination information storage means and the conversion candidate extraction means that store, as semantic classification determination information, a rule for determining a semantic classification related to a compound word composed of a classification and a second word or a word belonging to the semantic classification Synthetic word meaning for detecting the existence of a compound word using the semantic classification decision information for each conversion candidate and determining the semantic classification of each existing compound word ; And a kind determining means is configured to determine the selection priority of the conversion candidates based on the determined semantic classification by the compound word semantic classification determining means.

【0013】[0013]

【作用】この結果、本発明によれば、入力読み情報より
得られる単語情報と付属語の組合わせからなる変換候補
について、各単語やその意味分類が共起情報に含まれて
いなくても変換候補中の合成語の存在により該合成語の
意味分類を決定するための規則を利用して合成語の意味
分類から変換候補の選択優先順位を決定することができ
るので、かな漢字変換の際の不必要な同音異義語の出力
を効果的に抑制することができる。
As a result, according to the present invention, a conversion candidate consisting of a combination of word information obtained from input reading information and an accessory word is converted even if each word or its semantic classification is not included in the co-occurrence information. The presence of a compound word in a candidate can be used to determine the selection priority of conversion candidates from the semantic class of the compound word by using a rule for determining the semantic class of the compound word. It is possible to effectively suppress the output of necessary homonyms.

【0014】[0014]

【実施例】以下、本発明の一実施例を図面に従い説明す
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.

【0015】図1は、同実施例の回路構成を示すもので
ある。図において、1は入力部で、この入力部1は、例
えばキーボードからなり、文章作成のための読み情報が
かな文字列またはローマ字文字列により入力されるよう
にしている。また、この入力部1は、同音異義語の選
択、次候補、共起情報や、合成語意味決定規則の登録、
削除などのデータを入力するための特殊キーをも有して
いる。
FIG. 1 shows a circuit configuration of the embodiment. In the figure, reference numeral 1 denotes an input unit, which is composed of, for example, a keyboard, and reading information for creating a sentence is input by a Kana character string or a Roman character string. The input unit 1 also selects homonyms, registers next candidates, co-occurrence information, and compound word meaning determination rules,
It also has a special key for entering data such as deletion.

【0016】この入力部1からの入力データは、制御部
2に送られる。この制御部2は、上記入力データを判断
して各回路に対し各種の制御指令を与えるもので、例え
ば、かな漢字変換する必要があると判断した場合は、入
力部1から入力される読み情報(以下、かな文字列の場
合を述べる。)を文節系列抽出部3及び辞書検索部4に
それぞれ与えるようにしている。
The input data from the input unit 1 is sent to the control unit 2. The control unit 2 judges the above input data and gives various control commands to each circuit. For example, when it is judged that the kana-kanji conversion is necessary, the reading information (input from the input unit 1 ( The case of a kana character string will be described below) is given to the phrase series extracting unit 3 and the dictionary searching unit 4, respectively.

【0017】文節系列抽出部3は、入力部1から入力さ
れたかな文字列から単語と付属語からなる文節の組み合
わせを抽出するとともに、辞書検索部4によって辞書記
憶部5から単語情報を検索し、各単語の品詞と付属語の
接続の可能性を調べ、妥当と判断した単語と付属語の組
合せを分節候補として出力するようにしている。辞書検
索部4は、入力かな文字列に対する分節候補に対する全
ての単語情報を、辞書記憶部5を検索して取り出すよう
にしている。
The phrase series extraction unit 3 extracts a combination of phrases consisting of words and attached words from the kana character string input from the input unit 1, and searches the dictionary storage unit 5 for word information by the dictionary search unit 4. , The possibility of connecting the part-of-speech of each word and the adjunct word is examined, and the combination of the word and the adjunct word judged to be valid is output as a segment candidate. The dictionary search unit 4 searches the dictionary storage unit 5 and retrieves all the word information for the segment candidates for the input kana character string.

【0018】辞書記憶部5は、図2に示すように、複数
の各単語について、読み情報A、表層文字列情報B、品
詞情報C、意味分類情報Dなどが分類登録されている。
なおEは格納アドレス情報である。
As shown in FIG. 2, the dictionary storage section 5 classifies and registers reading information A, surface character string information B, part-of-speech information C, meaning classification information D, etc. for each of a plurality of words.
Note that E is the storage address information.

【0019】そして、辞書記憶部5に分類登録された各
情報のうち意味分類情報Dは、文節候補抽出部3で利用
されるようにしている。ここでの意味分類情報Dは、単
語の意味的な属性を割り当てたもので、例えば“関連
性”に関する単語に(a)、“状態”に属する単語に
(b)、“計画”に属する単語に(c)、“情勢”に属
する単語に(d)、“諸否”に属する単語に(e)、
“実態”に属する単語に(f)、“文字”に属する単語
に(g)、“影響”に属する単語に(h)をそれぞれ割
り当てるように指定されている。
The semantic classification information D among the information classified and registered in the dictionary storage unit 5 is used by the phrase candidate extraction unit 3. The semantic classification information D here is information in which semantic attributes of words are assigned. For example, words relating to “relevance” (a), words belonging to “state” (b), words belonging to “plan” (C), (d) for words that belong to "Affair", (e) for words that belong to "Variety",
It is specified that (f) is assigned to a word belonging to “actual”, (g) is assigned to a word belonging to “character”, and (h) is assigned to a word belonging to “influence”.

【0020】文節系列抽出部3の出力は合成語処理部6
に送られる。この合成語処理部6は、合成語接続規則記
憶部7を参照して各文節候補に合成語が存在するかどう
かを解析するようにしたものである。ここで、文節候補
に合成語が検出された場合には、合成語意味分類決定規
則記憶部8から、その合成語の構成要素の単語と意味分
類の組合せを含む規則を検索して合成語の意味分類を取
り出し、この情報を文節候補に付加するようにしてい
る。
The output of the phrase sequence extraction unit 3 is the compound word processing unit 6
Sent to. The compound word processing unit 6 refers to the compound word connection rule storage unit 7 to analyze whether each phrase candidate has a compound word. Here, when a compound word is detected as a phrase candidate, the compound word meaning classification determination rule storage unit 8 is searched for a rule that includes a combination of a word and a semantic classification of the constituent elements of the compound word, and the compound word The semantic classification is taken out and this information is added to the phrase candidate.

【0021】合成語接続規則記憶部7は、図3に示すよ
うに、合成語を構成する第一の単語の品詞情報A、合成
語を構成する第二の単語の品詞情報B、および合成語の
品詞情報Cがそれぞれ分類登録されている。なお、Dは
格納アドレス情報である。
As shown in FIG. 3, the compound word connection rule storage unit 7 stores the part-of-speech information A of the first word forming the compound word, the part-of-speech information B of the second word forming the compound word, and the compound word. The part-of-speech information C of each is classified and registered. Note that D is storage address information.

【0022】また、合成語意味分類決定規則記憶部8
は、図4に示すように、合成語を構成する第一の単語の
意味分類情報A、合成語を構成する第二の単語の表層文
字列情報B、および構成される合成語の意味分類情報C
がそれぞれ分類登録されている。なお、Dは格納アドレ
ス情報である。
Further, the compound word meaning classification determination rule storage unit 8
4, as shown in FIG. 4, meaning classification information A of the first word forming the compound word, surface character string information B of the second word forming the compound word, and meaning classification information of the composed word C
Are classified and registered respectively. Note that D is storage address information.

【0023】そして、文節系列抽出部3および合成語処
理部6の出力は、出力制御部9に送られる。この出力制
御部9は、文節系列抽出部3で求められ、合成語処理部
6で合成語に関する意味分類情報を付加された入力かな
文字列に対する全ての文節候補を文法的に評価するとと
もに、文法的に有り得ない分節候補を放棄するようにし
ている。また、出力制御部9は、共起情報記憶部10で
の意味分類や単語間の組合せ情報を参照して各文節候補
の同音異義語の順位を決定するようにもしていて、例え
ば、共起情報記憶部10に記憶されている組合せ情報に
該当すると、その優先順位を変更するようにしている。
つまり、優先順位が高く指示されている場合は、第1順
位で出力し、優先順位が低く指示されている場合は、最
後に出力するようになっている。
The outputs of the phrase series extraction unit 3 and the compound word processing unit 6 are sent to the output control unit 9. The output control unit 9 grammatically evaluates all bunsetsu candidates for the input kana character string obtained by the bunsetsu sequence extracting unit 3 and added with the semantic classification information on the compound word by the compound word processing unit 6 and grammar. I try to abandon segment candidates that are unlikely to exist. The output control unit 9 also determines the order of homonyms of each bunsetsu candidate by referring to the semantic classification and the combination information between words in the co-occurrence information storage unit 10. When the combination information stored in the information storage unit 10 is applicable, the priority order is changed.
That is, when the priority is instructed to be high, the output is performed in the first order, and when the priority is instructed to be low, the output is performed last.

【0024】共起情報記憶部10は、共起情報として、
図5に示すように、第一の意味分類情報A、この意味分
類情報Aと共起する第二の単語の表層文字列情報B、こ
の共起における各パターン情報Cがそれぞれ分類登録さ
れている。なおDは、格納アドレス情報である。
The co-occurrence information storage unit 10 stores, as co-occurrence information,
As shown in FIG. 5, the first semantic classification information A, the surface character string information B of the second word that co-occurs with this semantic classification information A, and each pattern information C in this co-occurrence are classified and registered. .. Note that D is storage address information.

【0025】ここでの分類情報のうち、格パターン情報
Cは、動詞「する」が接続したサ変名詞、形容詞、形容
動詞などの格を支配する語に付けられる情報で、第一の
意味分類情報Aに属する単語が、情報Bに示される単語
または第二の意味分類に属する語と、いかなる助詞をと
もなって結合するかの情報を示している。
Of the classification information here, the case pattern information C is the information attached to words that control the case, such as the Sahen noun, the adjective, and the adjective verb, to which the verb "suru" is connected, and the first meaning classification information. It shows information about which particle the word belonging to A is to be combined with the word shown in the information B or the word belonging to the second meaning classification.

【0026】なお、図1中で、11は文書記憶部、12
は表示部を示している。この場合、文書記憶部11は、
出力制御部9で処理されたかな漢字混じりの変換結果を
記憶するようになっている。また、表示部12は、出力
制御部9で処理されたかな漢字混じりの変換結果を出力
表示するようになっている。ここで、同音異義語が存在
する分節候補は、輝度や色を変更したり、プリングを行
うなど他と区別して表示するようになる。また、表示部
12に表示された同音異義語が希望のものでない時は、
入力部1から次候補、文節切り直しなどの入力データを
与えることで、所望する単語に変換するようにしてい
る。次に、以上のように構成した実施例の動作を説明す
る。いま、入力部1から読み情報がかな文字列で入力さ
れると、この入力かな文字列は、文節系列抽出部3およ
び辞書検索部4にそれぞれ送られる。
In FIG. 1, 11 is a document storage unit and 12
Indicates the display unit. In this case, the document storage unit 11
The conversion result of the kana-kanji mixture processed by the output control unit 9 is stored. Further, the display unit 12 is adapted to output and display the conversion result of kana-kanji mixture processed by the output control unit 9. Here, the segment candidates having the same homonyms are displayed differently from each other by changing the brightness or color, pulling, or the like. When the homonyms displayed on the display unit 12 are not the desired ones,
By inputting input data such as the next candidate and the recutting of the phrase from the input unit 1, the word is converted into a desired word. Next, the operation of the embodiment configured as described above will be described. Now, when the reading information is input from the input unit 1 as a kana character string, this input kana character string is sent to the phrase series extraction unit 3 and the dictionary search unit 4, respectively.

【0027】すると、文節系列抽出部3では、入力部1
から入力されたかな文字列から単語と付属語からなる文
節の組合せを抽出するととともに、辞書検索部4によっ
て辞書記憶部5から検索された単語情報に対し、単語の
品詞と付属語の接続可能性を調べ、妥当と判断した単語
と付属語の組合せを各文節候補として出力する。
Then, in the phrase sequence extraction unit 3, the input unit 1
A combination of a clause consisting of a word and an adjunct word is extracted from the kana character string input from, and the word part retrieved from the dictionary storage unit 5 by the dictionary retrieval unit 4 can be connected to the word part of speech and an adjunct word. And outputs the combination of the word and the adjunct word judged to be valid as each bunsetsu candidate.

【0028】そして、文節系列抽出部3からの出力は、
合成語処理部6に送られる。この合成語処理部6では、
入力かな文字列に対する全ての文節候補について、合成
語の検出検査を行なうようになるが、ここでの合成語の
検出処理、合成語の意味分類の決定処理は、図6に示す
フローチャートに従って実行される。
Then, the output from the phrase sequence extraction unit 3 is
It is sent to the compound word processing unit 6. In this compound word processing unit 6,
For all bunsetsu candidates for the input kana character string, the compound word detection inspection is performed. The compound word detection process and the compound word semantic classification determination process here are executed according to the flowchart shown in FIG. It

【0029】この場合、最初に図示しない文節候補レジ
スタに文節候補の単語情報を複写する(ステップA
1)。そして、単語ポインタを、文節候補の最初の変換
単位の単語を指し示すようにする(ステップA2)。
In this case, the word information of the phrase candidate is first copied to the phrase candidate register (not shown) (step A).
1). Then, the word pointer is made to point to the word in the first conversion unit of the phrase candidate (step A2).

【0030】次に、単語ポインタの指す示す単語の情報
を、図示しない合成語レジスタに複写する(ステップA
3)。そして、ステップA4に進み、単語ポインタが文
節候補レジスタの最後の単語を指しているときは、ステ
ップA14へ分岐し、そうでない場合はステップA5へ
進む分岐処理を実行する。
Next, the information of the word pointed to by the word pointer is copied to a compound word register (not shown) (step A).
3). Then, the process proceeds to step A4, and when the word pointer points to the last word of the phrase candidate register, the process branches to step A14, and otherwise the process proceeds to step A5.

【0031】ここで、単語ポインタが文節候補レジスタ
の最後の単語を指していない場合は、ステップA5に進
み、単語ポインタを次の単語へ進める。そして、合成語
レジスタに記憶されている合成語単語情報の中の品詞情
報と、単語ポインタの指し示す単語の単語情報中の品詞
情報の組合せが合成語接続規則記憶部7に存在するか否
かを調べる(ステップA6)。
If the word pointer does not point to the last word in the phrase candidate register, the process advances to step A5 to advance the word pointer to the next word. Then, it is determined whether the combination of the part-of-speech information in the compound-word word information stored in the compound-word register and the part-of-speech information in the word information of the word pointed by the word pointer exists in the compound word connection rule storage unit 7. Check (step A6).

【0032】次に、ステップA7に進み、ステップA6
の検査により該当規則が存在した場合は、ステップA8
へ進み、そうでない場合はステップA12へ進む分岐処
理を実行する。
Next, the process proceeds to step A7, and step A6
If the applicable rule is found by the inspection of step A8, step A8
If not, the branch process proceeds to step A12.

【0033】ここで、ステップA6の検査により該当規
則が存在した場合は、合成語接続規則記憶部7の規則か
ら得られる合成語の品詞情報により合成語レジスタの単
語情報を書き換える(ステップA8)。そして、合成語
レジスタに記憶されている合成語意味情報と、単語ポイ
ンタの指す示す単語の組み合せが、合成語意味分類決定
規則記憶部8に存在するかどうかを調べる(ステップA
9)。
If the rule is found by the check in step A6, the word information of the compound word register is rewritten with the part-of-speech information of the compound word obtained from the rule of the compound word connection rule storage unit 7 (step A8). Then, it is checked whether or not the combination of the synthesized word meaning information stored in the synthesized word register and the word indicated by the word pointer exists in the synthesized word meaning classification determination rule storage unit 8 (step A
9).

【0034】次に、ステップA10に進み、ステップA
9の検査により該当規則が存在した場合は、ステップA
11へ進み、そうでない場合はステップA12へ進む分
岐処理を実行する。
Next, the process proceeds to step A10 and step A
If the applicable rule exists in the inspection of step 9, step A
11. If not, the branch process proceeds to step A12 if not.

【0035】ここで、ステップA9の検査により該当規
則が存在した場合は、合成語意味分類決定規則記憶部8
の規則から得られる合成語の意味分類情報により合成語
レジスタの意味分類情報の書き換えを行なう(ステップ
A11)。そして、ステップA4へ戻り、上述の動作を
繰り返すようになる。
If the rule is found by the check in step A9, the compound word meaning classification determination rule storage unit 8
The semantic classification information of the synthetic word register is rewritten with the semantic classification information of the synthetic word obtained from the rule (step A11). Then, the process returns to step A4, and the above operation is repeated.

【0036】一方、上述のステップA7またはステップ
A10において該当規則が存在しないと判断した場合に
は、ステップA12に進むが、ここでは、合成語の終端
を検出したことになるので、合成語レジスタ内の単語情
報で、単語ポインタの指す示す単語の一つ前の単語の単
語情報を更新する。そして、合成語レジスタを初期化し
た後(ステップA13)、ステップA3へ戻り、上述の
動作を繰り返すようになる。
On the other hand, if it is determined in step A7 or step A10 that the corresponding rule does not exist, the process proceeds to step A12. Here, since the end of the compound word has been detected, in the compound word register. The word information of the word immediately before the word pointed by the word pointer is updated with the word information of. Then, after initializing the compound word register (step A13), the process returns to step A3 to repeat the above operation.

【0037】その後、ステップA4で単語ポインタが文
節候補レジスタの最後の単語を指していると判断した場
合は、ステップA14に進む。ステップA14では、該
文節候補の全体を処理し終えたことになるので、合成語
レジスタ内の単語情報で、単語ポインタの指し示す単語
の単語情報を更新するようになる。以上のような合成語
の処理は、全ての文節候補について行われ、この時の合
成語処理部6の出力は、出力制御部9へ送られる。
After that, if it is determined in step A4 that the word pointer points to the last word in the phrase candidate register, the process proceeds to step A14. At step A14, since the processing of all the phrase candidates has been completed, the word information of the word pointed by the word pointer is updated with the word information in the compound word register. The processing of the compound word as described above is performed for all the phrase candidates, and the output of the compound word processing unit 6 at this time is sent to the output control unit 9.

【0038】出力制御部9では、合成語処理部6におい
て合成語に関する意味分類情報を付加された入力かな文
字列に対する全ての文節候補を文法的に評価し、文法的
に有り得ない文節候補を放棄する。その上で、共起情報
記憶部10の意味分類や単語間の組合せ情報を参照し、
各文節候補の同音異義語の順位を決定し、その結果を文
書記憶部11に記憶するとともに、表示部12に表示す
ることになる。次に、以上のような動作を具体的な文例
を挙げて説明する。いま、「きほんほうさくじたいのは
んえい」という読み情報を入力して「基本方策自体の反
映」という文字情報を得ようとする場合を考える。
The output control unit 9 grammatically evaluates all bunsetsu candidates for the input kana character string to which the meaning classification information on the synthesizing word is added in the synthesizing word processing unit 6, and discards the grammatically impossible bunsetsu candidates. To do. Then, referring to the semantic classification and the combination information between words in the co-occurrence information storage unit 10,
The order of homonyms of each phrase candidate is determined, and the result is stored in the document storage unit 11 and displayed on the display unit 12. Next, the above-mentioned operation will be described with reference to specific sentence examples. Now, consider a case where the reading information "Kihonhosakujitai no Hanei" is input and the text information "Reflecting the basic policy itself" is obtained.

【0039】ここで、従来のかな漢字変換装置を使用し
た場合には、入力文字列に対し、「きほん/ほうさく/
じたい/の/はんえい」のように単語の切れ目の認識が
うまく行なわれたとしても、同音語の誤りによって、
「基本豊作事態の反映」や、「基本方策事態の反映」の
ような間違った変換候補を出力してしまうことがあっ
た。これは、合成語の分析を行わずに共起情報などを利
用したために、“方策”と“の/反映”という共起情報
をうまく利用できなかったために起こったものと考えら
れる。これに対して本発明のかな漢字変換装置は、以下
述べるようにしている。
Here, when the conventional kana-kanji conversion device is used, "Kihon / Housaku /
Even if the recognition of the break of the word is successfully performed, such as "jitai / no / hanei", due to the error of the homophone,
Occasionally, wrong conversion candidates such as "reflection of basic good harvest situation" and "reflection of basic policy situation" were output. It is considered that this is because the co-occurrence information such as “policy” and “of / reflecting” could not be used successfully because the co-occurrence information was used without analyzing the compound word. On the other hand, the kana-kanji conversion device of the present invention is as described below.

【0040】まず、入力部1から、「きほんほうさくじ
たいのはんえい」というかな情報が入力されると、この
読み情報は、制御部2に送られ、その後、文節系列抽出
部3および辞書検索部4に送られる。
First, when the kana information "Kihonhosakujitai no Hanei" is input from the input unit 1, this reading information is sent to the control unit 2, and then the phrase sequence extraction unit 3 And sent to the dictionary search unit 4.

【0041】文節系列抽出部3では、入力かな文字列か
ら単語と付属語からなる組合せを抽出し、辞書検索部4
を検索することによって得られる単語の品詞と付属語の
接続情報を使って分節候補を出力する。ここでは、文節
の組合せのうち、「きほん/ほうさく/じたい/の/は
んえい」についての処理のみを、以後の説明の対象とす
る。
The phrase series extraction unit 3 extracts a combination of a word and an accessory word from the input kana character string, and the dictionary search unit 4
The segment candidate is output using the part-of-speech of the word obtained by searching for and the connection information of the adjunct. Here, of the combinations of clauses, only the process for “kihon / hosaku / jitai / no / hanei” will be the subject of the following description.

【0042】しかして、分節候補「きほん/ほうさく/
じたい/の/はんえい」を構成する変換単位は、“きほ
ん”、“ほうさく”、“じたい”、“の”、および“は
んえい”であり、これらの変換単位の中で、複数の変換
の可能性を持つものが“ほうさく”と“じたい”であ
る。そして、このうちの“ほうさく”には、“方策”と
“豊作”との2通りの可能性があり、“じたい”には、
“事態”、“辞退”、“自体”、および“字体”の4通
りの可能性があることが、辞書記憶部5の検索結果によ
って判っている。従って、上述の文例の文節候補では、
2×4通りの変換候補が存在し、これら全ての変換候補
が、合成語処理部6で処理されることになる。そして、
これらの候補から正解の「基本方策自体の反映」を選択
する過程を上述した図6のフローチャートを用いて説明
する。なお、この場合、各時点における変換候補レジス
タの内容を図7に示し、各時点における単語ポインタと
合成語レジスタの内容を図8に示している。
Then, the segment candidate "Kihon / Housaku /
The conversion units that make up "jitai / no / hanei" are "kihon", "hosaku", "jitai", "no", and "hanei". Among these conversion units, The ones that have multiple conversion possibilities are "hosaku" and "jitai". And, of these, there are two possibilities for "hosaku", "policy" and "good harvest", and for "jitai",
It is known from the search result of the dictionary storage unit 5 that there are four possibilities of “situation”, “decline”, “self”, and “letter”. Therefore, in the phrase candidates of the above example sentences,
There are 2 × 4 conversion candidates, and all of these conversion candidates are processed by the compound word processing unit 6. And
The process of selecting the correct "reflection of the basic policy itself" from these candidates will be described with reference to the flowchart of FIG. In this case, the contents of the conversion candidate register at each time point are shown in FIG. 7, and the contents of the word pointer and the compound word register at each time point are shown in FIG.

【0043】まず、ステップA1で、文節系列抽出部3
の出力である変換候補「基本/方策/自体/の/反映
/」に関する単語情報を変換候補レジスタに複写する
(時点T1)。次に、ステップA2で、単語ポインタが
変換候補「基本/方策/自体/の/反映」の最初の単語
“基本”に合わせられる(時点T2)。続くステップA
3で、単語ポインタが指し示す単語である“基本”の単
語情報を合成語レジスタに複写する(時点T3)。そし
て、ステップA4で、単語ポインタが最後の単語を指し
示しているかを判断するが、ここでは最後の単語を指し
示していないので、ステップA5へ進む。
First, in step A1, the phrase series extraction unit 3
The word information related to the conversion candidate "basic / policy / self / no / reflection /" output from is copied to the conversion candidate register (time T1). Next, in step A2, the word pointer is set to the first word "basic" of the conversion candidate "basic / policy / self / no / reflection" (time T2). Continued Step A
At 3, the word information of "basic", which is the word pointed to by the word pointer, is copied to the compound word register (time T3). Then, in step A4, it is determined whether or not the word pointer points to the last word. However, since it does not point to the last word here, the process proceeds to step A5.

【0044】ステップA5では、単語ポインタを次の単
語“方策”へ進める(時点T4)。そして、ステップA
6で、合成語レジスタの品詞情報“名詞”と、単語ポイ
ンタの指し示す単語“方策”の品詞情報“名詞”の組合
せが合成語接続規則記憶部7に存在するかどうかを調べ
る。
At step A5, the word pointer is advanced to the next word "policy" (time point T4). And step A
In step 6, it is checked whether or not a combination of the part-of-speech information “noun” of the compound word register and the part-of-speech information “noun” of the word “policy” indicated by the word pointer exists in the compound word connection rule storage unit 7.

【0045】この場合、次のステップA7で、図3に示
す合成語接続規則記憶部7に該当規則が存在するか判断
するが、ここではアドレスP11に該当規則が存在する
ことから、ステップA8へ進む分岐処理を実行する。
In this case, in the next step A7, it is judged whether or not the corresponding rule exists in the compound word connection rule storage unit 7 shown in FIG. 3. However, since the corresponding rule exists in the address P11 here, the process goes to step A8. Execute forward branch processing.

【0046】ステップA8では、合成語接続規則記憶部
7のアドレスP11の合成語の品詞情報Cが“名詞”で
あるので、合成語レジスタの品詞情報を“名詞”に書き
換える(時点T5)。この例では、品詞は書換え前と同
じになる。
At step A8, since the part-of-speech information C of the compound word at the address P11 in the compound-word connection rule storage unit 7 is "noun", the part-of-speech information of the compound word register is rewritten to "noun" (time T5). In this example, the part of speech is the same as before rewriting.

【0047】次に、ステップA9で、合成語レジスタの
合成語意味情報(a)と単語ポインタの指し示す単語
“方策”の組合せが、合成語意味分類決定規則記憶部8
に存在するかどうかを調べる。
Next, in step A9, the combination of the synthesized word meaning information (a) in the synthesized word register and the word "policy" indicated by the word pointer is stored in the synthesized word meaning classification determination rule storage unit 8
To see if it exists.

【0048】この場合、次のステップA10で、図4に
示す合成語意味の分類決定規則記憶部8に該当規則が存
在するか判断するが、ここではアドレスP11に該当規
則が存在するので、ステップA11へ進む分岐処理を実
行する。
In this case, in the next step A10, it is judged whether or not the corresponding rule exists in the compound word meaning classification determination rule storage unit 8 shown in FIG. The branch process of proceeding to A11 is executed.

【0049】ステップA11では、合成語意味分類決定
規則記憶部8のアドレスP11の合成語の意味分類Cが
(c)であることから、合成語レジスタの意味分類をこ
の情報で書換え、ステップA4に戻る(時点T6)。
At step A11, since the semantic classification C of the compound word at the address P11 of the synthetic word semantic classification determination rule storage unit 8 is (c), the semantic classification of the synthetic word register is rewritten with this information, and the process proceeds to step A4. Return (time point T6).

【0050】ステップA4で、再び単語ポインタが最後
の単語を指し示しているかを判断するが、ここでも単語
ポインタが最後の単語に達していないので、ステップA
5へ進む。
In step A4, it is again determined whether or not the word pointer points to the last word. Again, since the word pointer has not reached the last word, step A
Go to 5.

【0051】ステップA5では、単語ポインタを“自
体”へ進める(時点T7)。そして、ステップA6で、
合成語レジスタの品詞情報“名詞”と単語ポインタの指
す単語“自体”の品詞情報“名詞”の組合わせが合成語
接続規則記憶部7に存在するかどうかを調べる。この場
合、次のステップA7の検査でも、前回のステップA7
と同様に該当規則が存在すると判断するので、ステップ
A8へ進む。
At step A5, the word pointer is advanced to "itself" (time point T7). Then, in step A6,
It is checked whether or not there is a combination of the part-of-speech information "noun" in the compound word register and the part-of-speech information "noun" of the word "itself" pointed to by the word pointer in the compound word connection rule storage unit 7. In this case, even in the next step A7 inspection, the previous step A7
Since it is determined that the corresponding rule exists in the same manner as, the process proceeds to step A8.

【0052】ステップA8でも、前回のステップA8と
同様の処理が行われ、合成語レジスタの品詞情報が“名
詞”に書換えられる。(時点T8)この例でも、品詞は
書換え前と同じになる。
In step A8 as well, the same processing as in the previous step A8 is performed, and the part-of-speech information in the compound word register is rewritten to "noun". (Time point T8) Also in this example, the part of speech is the same as before rewriting.

【0053】次に、ステップA9で、合成語レジスタの
合成語意味情報(c)と単語ポインタの指し示す単語
“自体”の組合わせが、合成語意味分類決定規則記憶語
8に存在するかどうかを調べる。
Next, in step A9, it is determined whether or not the combination of the synthesized word meaning information (c) in the synthesized word register and the word "itself" pointed to by the word pointer exists in the synthesized word meaning classification determination rule memory word 8. Find out.

【0054】この場合、ステップA10では、図4に示
す合成語意味分類決定記憶部8に該当規則が存在するか
判断するが、ここではアドレスP21に該当規則が存在
するので、ステップA11へ進む分岐処理を実行する。
In this case, in step A10, it is determined whether or not the corresponding rule exists in the compound word meaning classification determination storage unit 8 shown in FIG. 4, but since the corresponding rule exists in the address P21 here, the process proceeds to step A11. Execute the process.

【0055】ステップA11では、合成語意味分類決定
規則記憶部8のアドレスP21の合成語の意味分類Cが
(c)であることから、合成語レジスタの意味分類をこ
の情報で書換え、再びステップA4に戻る(時点T
9)。
At step A11, since the semantic classification C of the compound word at the address P21 of the synthetic word semantic classification determination rule storage unit 8 is (c), the semantic classification of the compound word register is rewritten with this information, and step A4 is again performed. Return to (time point T
9).

【0056】ステップA4で、再び単語ポインタが最後
の単語を指し示しているかを判断するが、ここでも単語
ポインタが最後の単語に達していないので、ステップA
5へ進む。
In step A4, it is again determined whether the word pointer points to the last word. Again, since the word pointer has not reached the last word, step A
Go to 5.

【0057】ステップA5では、単語ポインタを、単語
“の”へ進める(時点T10)。そして、ステップA6
で、合成語レジスタの品詞情報“名詞”と、単語ポイン
タの指し示す単語“の”の品詞情報“助詞”の組合わせ
が合成語接続規則記憶部7に存在するかどうかを調べ
る。この場合、ステップA7の検査では、図3の合成語
接続規則記憶部7に該当する規則が存在しないと判断す
るため、ステップA12へ進む。
In step A5, the word pointer is advanced to the word "no" (time point T10). And step A6
Then, it is checked whether or not a combination of the part-of-speech information "noun" of the compound word register and the part-of-speech information "particle" of the word "no" pointed by the word pointer exists in the compound word connection rule storage unit 7. In this case, in the inspection of step A7, it is determined that the corresponding rule does not exist in the compound word connection rule storage unit 7 of FIG. 3, so the process proceeds to step A12.

【0058】ステップA12では、合成語の終端を検出
したことになるので、単語ポインタの示す単語の一つ前
の単語“自体”の単語情報を、合成語レジスタの単語情
報で更新する(時点T11)。そして、ステップA13
で、合成語レジスタを初期化し、ステップA3へ戻る
(時点T12)。ステップA3では、単語ポインタが指
し示す単語“の”の単語情報を合成語レジスタに複写す
る(時点T13)。
In step A12, since the end of the compound word is detected, the word information of the word "itself" immediately before the word indicated by the word pointer is updated with the word information of the compound word register (time point T11). ). And step A13
Then, the compound word register is initialized and the process returns to step A3 (time point T12). At step A3, the word information of the word "NO" pointed by the word pointer is copied to the compound word register (time point T13).

【0059】そして、再びステップA4で、単語ポイン
タが最後の単語を指し示しているかを判断するが、ここ
でも最後の単語を指し示していないので、ステップA5
へ進む。
Then, again in step A4, it is judged whether or not the word pointer points to the last word. However, since the word pointer does not point to the last word also here, step A5
Go to.

【0060】次のステップA5では、単語ポインタを次
の単語“反映”へ進める(時点T14)。そして、ステ
ップA6で、合成語レジスタの品詞情報“助詞”と、単
語ポインタの指し示す単語“反映”の品詞情報“名詞”
の組合せが、合成語接続規則記憶部7に存在するかどう
かを調べる。この場合もステップA7で、該当する規則
が存在するか判断するが、ここでは、該当規則が存在し
ないので、ステップA12へ進む。
At the next step A5, the word pointer is advanced to the next word "reflection" (time point T14). Then, in step A6, the part-of-speech information “particle” of the compound word register and the part-of-speech information “noun” of the word “reflection” pointed by the word pointer.
It is checked whether or not the combination of is present in the compound word connection rule storage unit 7. In this case as well, it is determined in step A7 whether or not the corresponding rule exists, but since there is no corresponding rule here, the process proceeds to step A12.

【0061】ステップA12では、単語ポインタの示す
単語の一つ前の単語“自体”の単語情報を、合成語レジ
スタの単語情報で更新する(時点T15)。ここでは、
単語“の”を開始点とする合成語が検出されなかった場
合に当たるが、一つの単語“の”のみが処理されたもの
なので、変換候補レジスタの内容はこの書換え前と、同
じものとなっている。そして、ステップA13で、合成
語レジスタを初期化し、ステップA3へ戻る(時点T1
6)。ステップA3では、単語ポインタが指し示す単語
“反映”の単語情報を、合成語レジスタに複写する(時
点T17)。
At step A12, the word information of the word "itself" immediately before the word indicated by the word pointer is updated with the word information of the compound word register (time point T15). here,
This corresponds to the case where a compound word starting from the word "no" was not detected, but since only one word "no" was processed, the contents of the conversion candidate register are the same as before this rewriting. There is. Then, in step A13, the compound word register is initialized, and the process returns to step A3 (time point T1.
6). In step A3, the word information of the word "reflection" pointed by the word pointer is copied to the compound word register (time point T17).

【0062】そして、再びステップA4で、単語ポイン
タが最後の単語を指し示しているかを判断するが、ここ
では、単語ポインタが、変換候補レジスタの最後単語
“反映”を指し示しているので、ステップA14へ進
む。
Then, again in step A4, it is judged whether or not the word pointer points to the last word. Here, since the word pointer points to the last word "reflection" of the conversion candidate register, the process goes to step A14. move on.

【0063】ステップA14では、全ての分節候補につ
いての処理を終えたこととなるので、合成語レジスタ内
の単語情報で、単語ポイタンの指し示す単語“反映”の
単語情報を更新する(時点T18)。ここでも、単語
“反映”の情報そのものが合成語の単語情報として合成
語レジスタに記憶されていたため、この書換えの前と後
の変換候補レジスタの内容は同じとなっているが、一般
的には、変換候補の最後の単語が合成語の構成要素とな
る場合があるので、この処理が必要となる。
At step A14, since the processing has been completed for all the segment candidates, the word information of the word "reflection" pointed to by the word Poitan is updated with the word information in the compound word register (time point T18). Again, since the word "reflection" information itself is stored in the compound word register as the word information of the compound word, the contents of the conversion candidate register before and after this rewriting are the same, but in general, This process is necessary because the last word of the conversion candidate may be a constituent of the compound word.

【0064】以上のような一連の処理により、変換候補
「基本方策自体の反映」に対し、“基本:方策:自体”
が合成語であることが検出され、かつその意味分類が
(c)であることが判明する。
By the series of processing as described above, the conversion candidate “reflecting the basic policy itself” is replaced with “basic: policy: self”
Is detected to be a compound word, and its semantic classification is found to be (c).

【0065】このような合成語の処理は、全ての文節候
補について行われることになるが、上述の「/きほん/
ほうさく/じたい/の/はんえい/」に対する8通りの
変換候補に対する処理結果は、図9に示すようになる。
この場合、図9において、記号“/”は文節の切れ目を
表し、記号“+”は、文節内の付属語の接続を示してい
る。また、記号“:”は、上述の処理によって検出され
た合成語の構成要素間の接続を示している。
The processing of such a compound word is performed for all bunsetsu candidates, but the above-mentioned "/ Kihon /
FIG. 9 shows the processing results for the eight conversion candidates for "hosaku / jitai / no / hanei /".
In this case, in FIG. 9, the symbol “/” represents a break in the phrase, and the symbol “+” represents the connection of the annex in the phrase. Further, the symbol “:” indicates the connection between the constituent elements of the compound word detected by the above processing.

【0066】そして、このようにして得られた合成語処
理部6の出力は、出力制御部9へ送られる。出力制御部
9では、図5に示す共起情報記憶部10の意味分類と単
語の表層文字列情報と各パターン情報間の組合わせを参
照して、各文節候補の同音意義語の優先順位を変更す
る。
The output of the compound word processing unit 6 thus obtained is sent to the output control unit 9. The output control unit 9 refers to the combination of the semantic classification, the word surface character string information and each pattern information of the co-occurrence information storage unit 10 shown in FIG. change.

【0067】例えば、図9に示す「/きほん/ほうさく
/じたい/の/はんえい/」に対する候補番号3では、
上述した合成語“基本:方策:自体”が検出され、かつ
その意味分類情報が(c)であることが得られている。
そして、この合成語が、単語“反映”に、格パターン
“の/”で接続していることと、図5に示す共起情報記
憶部10のアドレスP11の内容を参照することによっ
て、この候補の出力優先順位を高めることができる。つ
まり、従来方式では、単語“方策”が、助詞“の”隣接
していないので、単語“方策”が単語“反映”に各パタ
ーン“の/”で共起するという情報が適切に利用できな
かったという点を、本発明では改善できることになる。
そして、この結果が文書記憶部11に記憶されるととも
に、表示部12に表示できることになる。
For example, in the candidate number 3 for "/ kihon / hosaku / jitai / no / hanei /" shown in FIG.
It has been obtained that the above-mentioned compound word "basic: policy: itself" is detected, and its semantic classification information is (c).
Then, this compound word is connected to the word "reflection" by the case pattern "/", and by referring to the content of the address P11 of the co-occurrence information storage unit 10 shown in FIG. The output priority of can be increased. In other words, in the conventional method, since the word “policy” is not adjacent to the particle “of”, the information that the word “policy” co-occurs with the word “reflection” in each pattern “/” cannot be properly used. That point can be improved by the present invention.
The result is stored in the document storage unit 11 and can be displayed on the display unit 12.

【0068】なお、本発明は上記実施例のみに限定され
ず、要旨を変更しない範囲で適宜変形して実施できる。
例えば、上述の実施例では、合成語の検出処理において
各単語の品詞情報を用いて行っていたが、この処理を品
詞情報以外の構文情報によって行なうようにしてもよ
い、また、上述の実施例では、合成語の意味分類の決定
処理が、意味分類情報と単語の表層文字情報の組合わせ
によって行われていたが、これを意味分類情報の組合わ
せによって行ったり、あるいは構文情報を含む規則によ
って行ってもよい。また、合成語の構成要素の意味分類
情報を、合成語の意味分類情報に継承させるような規則
を合成語意味分類規則に含ませてもよい。また、上述の
実施例では、共起情報として、意味分類情報と表層文字
情報と各パターン情報の組合わせが用いられていたが、
意味分類情報や構文情報の組合わせ情報で表現して利用
してもよい。また、意味分類情報として、階層性を持っ
た情報を利用することによって、効率的に記述された共
起情報を利用しても良い。
The present invention is not limited to the above-mentioned embodiments, and can be carried out by appropriately modifying it within the scope of the invention.
For example, in the above-described embodiment, the part-of-speech information of each word is used in the process of detecting a compound word, but this process may be performed using syntactic information other than the part-of-speech information. In the above, the determination process of the semantic classification of the compound word was performed by the combination of the semantic classification information and the surface character information of the word. However, this is performed by the combination of the semantic classification information or the rule including the syntax information. You can go. Further, a rule for inheriting the semantic classification information of the constituent elements of the synthetic word to the semantic classification information of the synthetic word may be included in the synthetic word semantic classification rule. Further, in the above-described embodiment, as the co-occurrence information, a combination of the semantic classification information, the surface character information, and each pattern information is used.
You may express and use it by the combination information of semantic classification information and syntax information. Further, as the semantic classification information, the co-occurrence information described efficiently may be used by using the information having the hierarchical property.

【0069】[0069]

【発明の効果】本発明によれば、入力読み情報より得ら
れる単語情報と付属語の組合わせからなる変換候補につ
いて、各単語やその意味分類が共起情報に含まれていな
くても変換候補中の合成語の存在により該合成語の意味
分類を決定するための規則を利用して合成語の意味分類
から変換候補の選択優先順位を決定でき、かな漢字変換
の際の不必要な同音異義語の出力を効果的に抑制するこ
とができる。このことは、一般に、日本語では複数の単
語を適切に接続させることによって極めて多くの合成語
を作り出すことができることから、全ての合成語につい
ての共起情報をあらかじめ準備することが現実的には不
可能であったが、このような問題点を解消する上から有
効であり、しかも利用者の同意義語の選択作業回数を大
幅に減らすことができ、円滑な日本語入力を実現するこ
とができる。
According to the present invention, with respect to a conversion candidate consisting of a combination of word information obtained from input reading information and an accessory word, even if each word or its semantic classification is not included in the co-occurrence information, the conversion candidate. Using the rules for determining the meaning classification of the compound word due to the presence of the compound word in the selection word, the selection priority of conversion candidates can be determined from the meaning classification of the compound word, and unnecessary homophones in kana-kanji conversion The output of can be effectively suppressed. This means that, in general, in Japanese, an extremely large number of compound words can be created by appropriately connecting multiple words, so it is realistic to prepare co-occurrence information for all compound words in advance. Although it was impossible, it is effective in solving such problems, and the number of times the user can select synonyms can be greatly reduced, and smooth Japanese input can be realized. it can.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の概略構成を示すブロック
図。
FIG. 1 is a block diagram showing a schematic configuration of an embodiment of the present invention.

【図2】図1の実施例に用いられる辞書記憶部を示す構
成図。
FIG. 2 is a block diagram showing a dictionary storage unit used in the embodiment of FIG.

【図3】図1の実施例に用いられる合成語接続規則記憶
部を示す構成図。
FIG. 3 is a block diagram showing a compound word connection rule storage unit used in the embodiment of FIG.

【図4】図1の実施例に用いられる合成語意味分類決定
規則記憶部を示す構成図。
FIG. 4 is a configuration diagram showing a compound word meaning classification determination rule storage unit used in the embodiment of FIG.

【図5】図1の実施例に用いられる共起情報記憶部を示
す構成図。
5 is a block diagram showing a co-occurrence information storage unit used in the embodiment of FIG.

【図6】図1の実施例の動作を説明するためのフローチ
ャート。
6 is a flowchart for explaining the operation of the embodiment of FIG.

【図7】図1の実施例の動作を説明するための各時点に
おける変換候補レジスタの内容を示す図。
7 is a diagram showing the contents of a conversion candidate register at each time point for explaining the operation of the embodiment of FIG.

【図8】図1の実施例の動作を説明するための各時点に
おける単語ポインタおよび合成語レジスタの内容を示す
図。
8 is a diagram showing the contents of a word pointer and a compound word register at each time point for explaining the operation of the embodiment of FIG.

【図9】図1の実施例での各変換候補に対する合成語処
理の結果を示す図。
9 is a diagram showing the result of the compound word processing for each conversion candidate in the embodiment of FIG.

【符号の説明】[Explanation of symbols]

1…入力部、2…制御部、3…文節系列抽出部、4…辞
書検索部、5…辞書記憶部、6…合成語処理部、7…合
成語接続規則記憶部、8…合成語意味分類決定規則記憶
部、9…出力制御部、10…共起情報記憶部、11…文
書記憶部、12…表示部。
DESCRIPTION OF SYMBOLS 1 ... Input part, 2 ... Control part, 3 ... Phrase sequence extraction part, 4 ... Dictionary search part, 5 ... Dictionary storage part, 6 ... Synthetic word processing part, 7 ... Synthetic word connection rule storage part, 8 ... Synthetic word meaning Classification determination rule storage unit, 9 ... Output control unit, 10 ... Co-occurrence information storage unit, 11 ... Document storage unit, 12 ... Display unit.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 上原 龍也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝総合研究所内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Tatsuya Uehara 1 Komukai Toshiba-cho, Sachi-ku, Kawasaki-shi, Kanagawa Stock company Toshiba Research Institute

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】日本語文章の読み情報を入力する入力手段
と、 複数の単語を記憶するとともにこれら単語に対応する意
味分類を記憶する記憶手段と、 前記入力手段より入力される読み情報に基づいて前記記
憶手段より単語情報を検索するとともに該単語情報と付
属語の組合わせからなる複数種類の変換候補を出力する
変換候補抽出手段と、 少なくとも第一の単語または意味分類と第二の単語また
は意味分類に属する単語によって構成される合成語に関
連する意味分類を決定する規則を意味分類決定情報とし
て記憶した意味分類決定情報記憶手段と、 前記変換候補抽出手段より出力される各変換候補につい
て前記意味分類決定情報により合成語の存在を検出する
とともに存在する各合成語の意味分類を決定する合成語
意味分類決定手段とを具備し、 この合成語意味分類決定手段によって決定された意味分
類に基づいて前記変換候補の選択優先順位を決定するこ
とを特徴とするかな漢字変換装置。
1. An input unit for inputting reading information of a Japanese sentence, a storage unit for storing a plurality of words and a semantic classification corresponding to these words, and a reading unit based on the reading information input by the input unit. Conversion candidate extraction means for searching the storage means for word information and outputting a plurality of types of conversion candidates composed of a combination of the word information and adjunct words; and at least a first word or semantic classification and a second word or Semantic classification determination information storage means that stores, as semantic classification determination information, a rule for determining a semantic classification related to a compound word composed of words belonging to the semantic classification; and for each conversion candidate output from the conversion candidate extraction means, And a composite word meaning classification determining unit that detects the presence of the composite word based on the meaning classification determination information and determines the meaning classification of each existing composite word. Then, the kana-kanji conversion device is characterized in that the selection priority order of the conversion candidates is determined based on the semantic classification determined by the composite word semantic classification determination means.
JP3226835A 1991-09-06 1991-09-06 Kana/kanji converter Pending JPH0567076A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3226835A JPH0567076A (en) 1991-09-06 1991-09-06 Kana/kanji converter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3226835A JPH0567076A (en) 1991-09-06 1991-09-06 Kana/kanji converter

Publications (1)

Publication Number Publication Date
JPH0567076A true JPH0567076A (en) 1993-03-19

Family

ID=16851318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3226835A Pending JPH0567076A (en) 1991-09-06 1991-09-06 Kana/kanji converter

Country Status (1)

Country Link
JP (1) JPH0567076A (en)

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5257186A (en) Digital computing apparatus for preparing document text
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
US5680628A (en) Method and apparatus for automated search and retrieval process
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US20040054677A1 (en) Method for processing text in a computer and a computer
JPH0567076A (en) Kana/kanji converter
JP3377942B2 (en) Electronic dictionary search device and computer-readable storage medium storing electronic dictionary search device control program
JPH0793345A (en) Document retrieval device
JP3197110B2 (en) Natural language analyzer and machine translator
JPH0561902A (en) Mechanical translation system
JP3680489B2 (en) Machine translation apparatus and computer-readable recording medium recording machine translation processing program
JP2719453B2 (en) Machine translation equipment
JP3139624B2 (en) Morphological analyzer
JP3873299B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP3084864B2 (en) Text input device
JPH0546612A (en) Sentence error detector
JPH06149791A (en) Chinese character document input device
JPH08241315A (en) Word registering mechanism for document processor
JP2002351867A (en) Document processor
JPH0345423B2 (en)
JPS63136264A (en) Mechanical translating device
JPH0610804B2 (en) Kana-Kanji converter
JPH05324647A (en) Text preparing device
JPH0345422B2 (en)