JPH0262660A - Japanese sentence processor - Google Patents

Japanese sentence processor

Info

Publication number
JPH0262660A
JPH0262660A JP63215529A JP21552988A JPH0262660A JP H0262660 A JPH0262660 A JP H0262660A JP 63215529 A JP63215529 A JP 63215529A JP 21552988 A JP21552988 A JP 21552988A JP H0262660 A JPH0262660 A JP H0262660A
Authority
JP
Japan
Prior art keywords
code
semantic
word
compound
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63215529A
Other languages
Japanese (ja)
Inventor
Hiroshi Yamada
洋志 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63215529A priority Critical patent/JPH0262660A/en
Publication of JPH0262660A publication Critical patent/JPH0262660A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To give a proper meaning code to a compound noun by using a semantic code rule dictionary where the rules are registered to obtain the semantic codes of compound nouns and a meaning code adding device which obtains the semantic codes of compound nouns by reference to the semantic code rule dictionary. CONSTITUTION:A evaluating device 107 evaluates the analysis result candidates and decides a compound noun when detecting a part where two or more nouns or affixes are continuous among the analysis result candidates. A semantic code adding device 112 obtains the semantic code of the compound noun. Then the device 112 receives the information on the words forming a compound word from the device 107 and obtains the semantic codes. The semantic code of a compound noun is shown in a combination of the last word and the semantic code of the part excluding the last word. For example, a meaning code 'HITO' is added to a compound noun including the last word 'SHI'. Then a semantic code 'JIKAN' is added to a compound noun including a word 'CHU' added to a noun having a semantic code 'KOI'.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力された文章の解析を行う日本語文章処理
装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a Japanese text processing device that analyzes input text.

(従来の技術) 日本語ワードプロセッサなど、日本語の文章を処理する
装置の多くは、対象とする文章が、どのような単語から
なり、どの様に組み合わさっているかの解析を行ってい
る。解析の過程では、多くの解析結果候補から1つを選
択する必要がある。そのため、何らかの方法で候補の評
価づけを行い、最も高い評価を得た候補を最終的な解析
結果とする。評価の方法としては、連続する2文節の読
みの長さを尺度とする2文節最長一致法([べた書き文
の分かち書きと仮名漢字変換」、牧野他、情報処理学会
論文誌Vo1.20. No、 4参照)や、文節の数
が最小となる解析結果を優先する文節数最小法([文節
数最小法を用いたべた書き日本語文の形態素解析1、吉
村他、情報処理学会論文誌Vo1.24. No、 1
を参照)などがある。その他に、用言の構文パターン情
報を用いた評価を行う方法もある([格文法による仮名
漢字変換の多義解消]、大島他、情報処理学会論文誌V
o1.27. No、 7参照)。これらの評価方法は
、単独で用いられるとは限らず、必要に応じていくつか
が組み合わされて用いられることもある。
(Prior Art) Many devices that process Japanese sentences, such as Japanese word processors, analyze what words the target sentence consists of and how they are combined. In the process of analysis, it is necessary to select one from many analysis result candidates. Therefore, candidates are evaluated using some method, and the candidate with the highest evaluation is used as the final analysis result. The evaluation method is the two-clause longest match method, which uses the reading length of two consecutive phrases as a measure ([Separation of solid text and kana-kanji conversion], Makino et al., Information Processing Society of Japan Transactions Vol. 1.20. No. , 4), or the minimum clause count method that prioritizes the analysis result with the minimum number of clauses ([Morphological analysis of solid Japanese sentences using the minimum clause count method 1, Yoshimura et al., Information Processing Society of Japan Journal Vol. 1. 24. No. 1
). In addition, there is also a method of evaluation using syntactic pattern information of predicates ([Removal of ambiguity in kana-kanji conversion using case grammar], Oshima et al., Information Processing Society of Japan Transactions Vol.
o1.27. (See No. 7). These evaluation methods are not necessarily used alone, but may be used in combination as necessary.

以下では従来の技術の例として、構文パターン情報を用
いたかな漢字変換装置を説明する。第5図は従来技術の
一実施例の装置概要を表すブロック図である。第5図に
おいて、101は、文章を文字列や音声の形で入力し、
対応する文字コードの形で出力する入力装置、102は
入力装置101で入力された文章を一時蓄える大力バッ
ファ、103は、各単語について文章を解析するために
必要な情報が登録されている単語辞書、104は、文章
を構成するための規則が記述されている文法辞書、10
5は、文章を単語ごとに分割し、文法的に正しく組み合
わせる形態素解析装置、106は形態素解析装置105
の出力を一時蓄える中間バッファ、507は形態素解析
の結果を評価し、最も適切な解析結果を出力する評価装
置、108は評価装置507の出力を一時蓄える出力バ
ッファ、109は、出力バッファ108の内容を出力す
る出力装置、110は装置全体の動作を制御する制御装
置である。
A kana-kanji conversion device using syntactic pattern information will be described below as an example of a conventional technique. FIG. 5 is a block diagram showing an outline of a device according to an embodiment of the prior art. In FIG. 5, 101 inputs sentences in the form of character strings or sounds;
An input device outputs the text in the form of a corresponding character code; 102 is a large buffer that temporarily stores sentences inputted by the input device 101; and 103 is a word dictionary in which information necessary for analyzing sentences for each word is registered. , 104 is a grammar dictionary in which rules for composing sentences are described, 10
5 is a morphological analysis device that divides a sentence into words and combines them grammatically correctly; 106 is a morphological analysis device 105;
507 is an evaluation device that evaluates the results of morphological analysis and outputs the most appropriate analysis result; 108 is an output buffer that temporarily stores the output of the evaluation device 507; 109 is the content of the output buffer 108; An output device 110 is a control device that controls the operation of the entire device.

入力装置101は、キーボードや音声認識装置などで実
現でき、出力装置は109デイスプレイ、プリンタ、音
声合成装置などで実現できる。
The input device 101 can be realized by a keyboard, a voice recognition device, etc., and the output device can be realized by a 109 display, a printer, a voice synthesis device, etc.

第7図は単語辞書103の構成例を表す概念図でしる。FIG. 7 is a conceptual diagram showing an example of the structure of the word dictionary 103.

この例では、各単語に対し、読み、表記、品詞、意味コ
ード、構文パターン情報が登録されている。この例の意
味コードとは、名詞や接辞を意味や用法に基づいていく
つかの種類に分けたものである。また、この例の構文パ
ターン情報は用言に対して与えられ、その用言がどのよ
うな構文で使われるかが、格助詞と意味コードの組み合
わせで表されている。
In this example, pronunciation, spelling, part of speech, meaning code, and syntactic pattern information are registered for each word. The semantic code in this example is a code that divides nouns and affixes into several types based on meaning and usage. Furthermore, the syntactic pattern information in this example is given to a predicate, and the syntax in which the predicate is used is expressed by a combination of a case particle and a semantic code.

第8図は文法辞書104の構成例を表す概念図である。FIG. 8 is a conceptual diagram showing an example of the structure of the grammar dictionary 104.

第8図の例では、文法辞書104は行列の形を取り、品
詞がaである単語の直後に、品詞がbである単語が接続
することができるときに、要素(a、b)が1になり、
接続できなければ0になっている。またこの例では、文
頭、文末、文節区切りと他の品詞の語との接続の可否も
同様に登録されている。
In the example of FIG. 8, the grammar dictionary 104 takes the form of a matrix, and when a word whose part of speech is b can be connected immediately after a word whose part of speech is a, the element (a, b) is 1. become,
If connection is not possible, the value is 0. Furthermore, in this example, whether or not the beginning of a sentence, the end of a sentence, a bunsetsu break, and words of other parts of speech can be connected are also registered in the same way.

ここで、従来例の動作を「こいをつった」という文章を
漢字かな混じり文に変換する場合を例に取って説明する
。ただし、説明中で必要な意味−コードと構文パターン
情報は第7図のものを用いている。
Here, the operation of the conventional example will be explained by taking as an example the case where the sentence ``Koiwotsuta'' is converted into a sentence containing kanji and kana. However, the meaning code and syntax pattern information necessary in the explanation are those shown in FIG. 7.

第6図は、従来技術の動作の概要を表す流れ図である。FIG. 6 is a flowchart outlining the operation of the prior art.

まず、入力装置101から[こいをつったJという文章
が入力され、入力バッファ102に蓄えられる(601
)。そして、漢字かな混じり文への変換が入力者によっ
て指示されるか、入力文字数、句読点の入力などのあら
かじめ定められた条件が満たされると、制御装置110
は形態素解析装置105に形態素解析の開始を指示する
First, the sentence ``J'' is input from the input device 101 and stored in the input buffer 102 (601
). Then, when the input user instructs conversion to a sentence containing kanji and kana, or when predetermined conditions such as the number of input characters and punctuation marks are met, the control device 110
instructs the morphological analysis device 105 to start morphological analysis.

形態素解析装置105は、制御装置110の指示で、大
力バッファ102から文章を読み込み、単語辞書103
を用い、単語を抽出する。この例では以下の単語が抽出
されたものとする(括弧内に品詞を示した)。
The morphological analysis device 105 reads a sentence from the power buffer 102 according to instructions from the control device 110 and reads the sentence from the word dictionary 103.
Extract words using . In this example, it is assumed that the following words have been extracted (parts of speech are shown in parentheses).

鯉(名詞)、故意(名詞)、個(接尾語)、濃(形容詞
語幹)、射(1段動詞語幹)、いく形容詞活用語尾)、
を(格助詞)、釣(う行動詞語幹)、積(マ行動詞語幹
)、っ(う行動側活用語尾)、た(助動詞)、田(名詞
) さらに、文法辞書104を用いて、文法検定を行い、正
しい組合せを選び出す。そして文法検定の結果が出力さ
れ、中間バッファ106に蓄えられる(602)。
koi (noun), intentional (noun), individual (suffix), thick (adjective stem), shot (1st verb stem), ku (adjective conjugation ending),
wo (case particle), fishing (action word stem), product (ma action word stem), tsu (action conjugation ending), ta (auxiliary verb), and ta (noun).Furthermore, using the grammar dictionary 104, Perform a test and select the correct combination. The results of the grammar test are then output and stored in the intermediate buffer 106 (602).

第9図は、この例における単語間の可能な接続関係を表
す概念図である。なお第9図で各単語に付けである番号
は、以下で述べる第10図の単語番号と対応させである
。第10図は形態素解析装置105の出力の例を表す概
念図である。第10図において単語番号Aは出力中での
単語の番号、単語情報Bは読み、表記など単語辞書によ
って得られた情報、ポインタCは、その単語の後に接続
する単語を番号Aで示したものである。
FIG. 9 is a conceptual diagram showing possible connection relationships between words in this example. Note that the numbers assigned to each word in FIG. 9 correspond to the word numbers in FIG. 10, which will be described below. FIG. 10 is a conceptual diagram showing an example of the output of the morphological analysis device 105. In Figure 10, word number A is the number of the word being output, word information B is information obtained from the word dictionary such as pronunciation and spelling, and pointer C is the number A that indicates the word connected after that word. It is.

制御装置110は形態素解析装置105を監視し、文の
末尾まで形態素解析が終了したならば、評価装置507
に動作開始を指示する。
The control device 110 monitors the morphological analysis device 105, and when the morphological analysis is completed to the end of the sentence, the evaluation device 507
instructs to start operation.

評価装置507は制御装置110の指示を受けると、形
態素解析結果の評価を行う(603)。第2図は評価の
手順の例を表す流れ図である。
Upon receiving the instruction from the control device 110, the evaluation device 507 evaluates the morphological analysis results (603). FIG. 2 is a flowchart showing an example of the evaluation procedure.

評価装置507は、中間バッファ106から第10図の
データを読み込み(201)、単語のポインタを文頭か
ら文末までたどり、解析結果の候補として、鯉lを;釣
/っlた      ・・・候補■を作成する(202
)。ここで“/)+は単語の区切りを表し、+1,11
は文節の区切りを表す。この候補■と、「釣る」の構文
パターン情報 [人]が [動物]を を比較する。「鯉」の意味コードは[動物]なので、候
補■の[鯉lを]の部分と構文パターン情報の[[動物
]をJの部分が一致する。そこで、候補■の評価値を上
げる。(203)。第10図のデータからは、別の候補
、 故意lを;釣lっlた     ・・・候補■が得られ
る。候補■の場合と同様に、候補■と構文パターン情報
を比較する。[故意Jの意味コードは[抽象]なので、
候補■と構文パターン情報は−致しない。そこで、候補
■の評価値を下げる。この例では、他に候補がないので
、候補■と候補■の評価値を比較し、より評価値の高い
候補■が評価装置501から出力され、出力バッファ1
08に蓄えられる(204)。
The evaluation device 507 reads the data shown in FIG. 10 from the intermediate buffer 106 (201), traces the word pointer from the beginning of the sentence to the end of the sentence, and selects ``carp'' as a candidate for the analysis result. Create (202
). Here, "/)+ represents a word break, +1, 11
represents a break between phrases. This candidate ■ is compared with the syntactic pattern information for "fishing" [person] is [animal]. Since the meaning code for "carp" is [animal], the [carp l o] part of candidate ■ matches the [[animal] j part of the syntactic pattern information. Therefore, the evaluation value of candidate ■ is increased. (203). From the data in Figure 10, we can obtain another candidate: ``Purpose ``; As in the case of candidate ■, the syntactic pattern information is compared with candidate ■. [The semantic code of intentional J is [abstract], so
Candidate ■ and syntactic pattern information do not match. Therefore, the evaluation value of candidate ■ is lowered. In this example, since there are no other candidates, the evaluation values of candidate ■ and candidate ■ are compared, and candidate ■ with a higher evaluation value is output from the evaluation device 501, and the output buffer 1
08 (204).

最後に出力装置109によって、「鯉を釣った」という
漢字かな混じりの文章が出力される(304)。
Finally, the output device 109 outputs the sentence "I caught a carp" mixed with kanji and kana (304).

このように用言の構文パターン情報と、名詞の意味分類
を組み合わせて文章の解析を行うことができる。
In this way, sentences can be analyzed by combining the syntactic pattern information of predicates and the semantic classification of nouns.

(発明が解決しようとする課題) 名詞の中には、いくつかの名詞や接辞が結合してできた
複合名詞もある。複合名詞は非常に多く、新たに作り出
されることもあるため、単語辞書に登録されていないも
のもある。その結果として、そういった複合名詞には意
味コードが与えられていないため、従来の技術をそのま
ま使うことができなかった。
(Problem to be solved by the invention) Some nouns are compound nouns made by combining several nouns or affixes. Because there are so many compound nouns and new ones are sometimes created, some of them are not registered in word dictionaries. As a result, conventional techniques could not be used as is because such compound nouns were not given semantic codes.

従来の技術を生かすために、複合名詞に意味コードを与
える方法としては、複合名詞を構成する最後尾の単語の
意味コードを用いる方法がある。例えば[実験l装置]
には「装置」の意味コード[物]を、「校長l室」には
[室]の意味コード[場所]を与える。多くの複合名詞
には、この方法で正しい意味コードを与えることができ
る。しかし、複合名詞の中には、前記の方法では正しい
意味コードを与えることのできないものがあり、そのこ
とが構文パターン情報を用いる評価手法の効果を損なっ
ていた。
As a method of giving a meaning code to a compound noun in order to take advantage of the conventional technology, there is a method of using the meaning code of the last word constituting the compound noun. For example, [experiment device]
is given the semantic code [object] of ``device'', and the semantic code [location] of [room] is given to ``principal's room''. Many compound nouns can be given the correct semantic code in this way. However, for some compound nouns, the above method cannot give a correct semantic code, which impairs the effectiveness of the evaluation method using syntactic pattern information.

例として[たいきちゅうをひこうする」という文章をか
な漢字変換する場合を考える。第11図は、この文章を
形態素解析した結果の例を表す概念図である。第11図
の結果が得られたとすると、このデータから以下のよう
な2つの解析候補が得られる。
As an example, consider converting the sentence ``Taikichu wo Hikosuru'' into kana-kanji. FIG. 11 is a conceptual diagram showing an example of the result of morphological analysis of this sentence. Assuming that the results shown in FIG. 11 are obtained, the following two analysis candidates are obtained from this data.

■[大気l中lを;飛行lする」 この2つの候補に対して、構文パターン情報と意味コー
ドを用いた評価を行う。ただし、各単語の意味コードが
、 大気:[物1 待機:[行為] 中二[場所]であり、
[飛行するJの構文パターン情報が、[物1が[場所]
を であるとする。2つの候補を評価するには、[待機l中
1と「大気l中Jの意味コードが必要である。最後尾の
単語の意味コードを用いると、どちらの複合名詞にも、
「中」の意味コードである[場所]が与えられる。その
結果、どちらの候補も構文パターン情報の「「場所1を
」の部分とは一致し、同じ評価値を得ることになる。そ
の結果この方法では、どちらの候補が出力されるかを、
−意に決定することができない。このように、従来の方
法では、複合語に対して正しい意味コードを与えること
ができず、そのために構文パターン情報の効果が損なわ
れていた。
■ [Flying in the atmosphere] These two candidates are evaluated using syntactic pattern information and semantic codes. However, the meaning codes of each word are: atmosphere: [object 1] waiting: [action] junior high school [place],
[The syntactic pattern information of flying J is [Object 1 is [location]
Suppose that . To evaluate the two candidates, we need the semantic codes of ``1 in waiting l'' and ``J in atmosphere l.'' Using the semantic code of the last word, both compound nouns have the following meanings:
[Location], which is a semantic code of "inside", is given. As a result, both candidates match the ``location 1'' portion of the syntax pattern information and obtain the same evaluation value. As a result, this method determines which candidate is output.
- Unable to make decisions voluntarily. In this way, conventional methods cannot give correct semantic codes to compound words, which impairs the effectiveness of syntactic pattern information.

■[待機l中lを;飛行lする」 しかし、「待機l中」の意味コードとしては[時間J、
[大気l中Jの意味コードとしては[場所]が適切であ
る。このように適切な意味コードを与えれば、構文パタ
ーン情報と一致するのは、候補■だけとなり、かな漢字
変換の結果は[大気中を飛行するJとなる。
■[Standing on standby; flying] However, the meaning code for "Standing on" is [Time J,
[[Location] is appropriate as the meaning code for J in the atmosphere. If an appropriate meaning code is given in this way, only the candidate ■ matches the syntactic pattern information, and the result of kana-kanji conversion becomes [J flying in the atmosphere.

本発明は従来の課題を解決し、複合名詞に適切な意味コ
ードを与えることのできる日本語文章処理装置を提供す
ることを目的とする。
SUMMARY OF THE INVENTION An object of the present invention is to solve the conventional problems and provide a Japanese sentence processing device that can give appropriate meaning codes to compound nouns.

(課題を解決するための手段) 本発明による日本語文章処理装置は、文章を入力するた
めの入力装置と、単語の読み、表記、品詞の他、意味コ
ードと構文パターン情報を登録した単語辞書と、文の構
造の規則を登録した文法辞書と、前記入力装置から入力
された文章に対し、前記単語辞書および前記文法辞書を
使って形態素解析装置を行う形態素解析装置と、形態素
解析の結果を評価して、最適な解析結果を決定する評価
装置と、前記評価装置によって決定された解析結果を出
力するための出力装置を有する日本語文章処理装置にお
いて、複合名詞の意味コードを求めるための規則が登録
してある意味コード規則辞書と、前記評価装置から名詞
を構成する単語列の情報を受け取り、前記意味コード規
則辞書を用いて複合名詞の意味コードを求める意味コー
ド付加装置を備えることを特徴とする。
(Means for Solving the Problems) A Japanese text processing device according to the present invention includes an input device for inputting sentences, and a word dictionary that registers word pronunciations, spellings, parts of speech, as well as semantic codes and syntactic pattern information. a grammar dictionary in which rules for sentence structure are registered; a morphological analyzer that performs a morphological analysis on sentences input from the input device using the word dictionary and the grammar dictionary; Rules for determining the meaning code of a compound noun in a Japanese sentence processing device having an evaluation device that evaluates and determines an optimal analysis result, and an output device that outputs the analysis result determined by the evaluation device. and a semantic code addition device that receives information on word strings constituting a noun from the evaluation device and obtains a meaning code of a compound noun using the semantic code rule dictionary. shall be.

(作用) 本発明では、複合名詞を構成する単語列から複合名詞の
意味コードを求めるための規則を、あらかじめ意味コー
ド規則辞書に登録しておく。形態素解析の結果中に、複
合名詞があった場合には、複合名詞を構成する単語の複
合規則を用い、意味コードを求める。形態素解析結果の
評価の際には、この意味コードを用いて、構文パターン
情報との比較を行い、評価のもっとも高いものを解析結
果とする。
(Operation) In the present invention, rules for determining the meaning code of a compound noun from a word string constituting the compound noun are registered in advance in a meaning code rule dictionary. If a compound noun is found in the results of morphological analysis, a semantic code is determined using compound rules for the words that make up the compound noun. When evaluating the morphological analysis results, this semantic code is used to compare it with the syntactic pattern information, and the one with the highest evaluation is taken as the analysis result.

(実施例) 以下、本発明の一実施例を説明する。本実施例は本発明
をかな漢字変換装置に利用した例である。第1図は本発
明の一実施例の概要を示すブロック図である。第1図に
おいて、第5図と同じものは同じ符号で示してある。ま
た、107は形態素解析の結果を中間バッファ106か
ら入力し、それらを評価し、最も適切な解析結果を出力
する評価装置、111は複合名詞の意味コードを求める
ための規則を登録した意味コード規則辞書、112は評
価装置107から名詞を構成する単語列の情報を受け取
り、意味コード規則辞書111を用いて、その名詞の意
味コードを求める意味コード付加装置である。
(Example) An example of the present invention will be described below. This embodiment is an example in which the present invention is applied to a kana-kanji conversion device. FIG. 1 is a block diagram showing an outline of an embodiment of the present invention. In FIG. 1, the same parts as in FIG. 5 are designated by the same reference numerals. Further, 107 is an evaluation device that inputs the results of morphological analysis from the intermediate buffer 106, evaluates them, and outputs the most appropriate analysis results, and 111 is a semantic code rule in which rules for obtaining the semantic code of a compound noun are registered. A dictionary 112 is a semantic code adding device that receives information on a word string constituting a noun from the evaluation device 107 and uses the semantic code rule dictionary 111 to obtain a semantic code for the noun.

第3図(a) (b)は意味コード規則辞書111の2
つの構成例を表す概念図である。第3図(a)の例では
、複合名詞の意味コードを、最後尾の単語と、最後尾の
単語を除いた部分の意味コードの組み合わせで表してい
る。例えば「氏」という単語が最後尾についた複合名詞
には、[人]という意味コードを与え、[行為1という
意味コードを持つ名詞にF中」という単語がついた複合
名詞には[時間]という意味コードを与える。第3図(
b)では、複合名詞の意味コードが最後尾の意味コード
と異なる場合について、第3図(a)と同様の規則を登
録している。第3図(b)の場合、意味コード規則辞書
に規則が登録されていない複合語の意味コードには、最
後尾の単語の意味コードを用いる。
Figure 3 (a) and (b) are meaning code rule dictionary 111-2.
FIG. 2 is a conceptual diagram showing two configuration examples. In the example of FIG. 3(a), the meaning code of a compound noun is expressed by a combination of the last word and the meaning code of the part excluding the last word. For example, a compound noun with the word ``Mr.'' at the end is given the meaning code [person], and a compound noun with the word ``F middle'' attached to a noun with the meaning code ``act 1'' is given [time]. Give the meaning code. Figure 3 (
In b), the same rules as in FIG. 3(a) are registered for the case where the meaning code of the compound noun is different from the last meaning code. In the case of FIG. 3(b), the meaning code of the last word is used as the meaning code of a compound word for which no rule is registered in the meaning code rule dictionary.

次に本発明の実施例の動作について説明する。Next, the operation of the embodiment of the present invention will be explained.

本実施例の動作の流れは第6図に示したものと同じであ
る。なお、ここでは従来技術の例と同じ動作をする装置
の説明は省き、評価装置107、意味コード付加装置丁
12の動作について説明する。
The flow of operation of this embodiment is the same as that shown in FIG. Note that the description of devices that operate in the same manner as in the prior art example will be omitted here, and the operations of the evaluation device 107 and the meaning code addition device 12 will be described.

評価装置107は、前記の従来技術の実施例の評価装置
507と同様に、解析結果の候補の評価を行う。
The evaluation device 107 evaluates candidates of analysis results, similar to the evaluation device 507 of the prior art embodiment described above.

ただし、解析結果候補中に名詞あるいは接辞が2つ以上
連続している部分がある場合には、その部分を複合名詞
とみなし、意味コード付加装置112によってその複合
名詞の意味コードを得る。
However, if there is a part in which two or more consecutive nouns or affixes are included in the analysis result candidates, that part is regarded as a compound noun, and the meaning code addition device 112 obtains the meaning code of the compound noun.

意味コード付加装置112は、評価装置107から複合
名詞を構成する単語の情報を受け取り、意味コードを求
める。第4図は意味コード付加装置112の動作例を表
す流れ図である。以下に、第3図(a)の形式の意味コ
ード規則辞書を用いた場合の、意味コード付加装置11
2の動作例を説明する。
The semantic code addition device 112 receives information on words forming a compound noun from the evaluation device 107 and obtains a semantic code. FIG. 4 is a flow chart showing an example of the operation of the meaning code adding device 112. Below, the meaning code addition device 11 when using the meaning code rule dictionary in the format shown in FIG. 3(a) will be explained.
An example of the second operation will be explained.

(a)複合名詞を構成する単語数をn、単語をWl。(a) The number of words composing a compound noun is n, and the number of words is Wl.

W2.−、Wnとする。(401) (b)変数iを1に初期化する。また、wlの意味コー
ドを変数Sに代入する。(402) (c)iがn以上なら終了。Sの値が複合名詞の意味コ
ードになる。(403) (d)iを1増やす。(404) (e)意味コード規則辞書からWiの複合規則を検索す
る。(405) (f)Sの値、すなわちWl、・・・、Wi−1からな
る名詞の意味コードと、Wiの複合規則からWl、・・
・、Wiからなる名詞の意味コードを求め、Sに代入す
る。
W2. −, Wn. (401) (b) Initialize variable i to 1. Further, the meaning code of wl is assigned to the variable S. (402) (c) If i is greater than or equal to n, the process ends. The value of S becomes the semantic code of the compound noun. (403) (d) Increase i by 1. (404) (e) Search the Wi compound rule from the meaning code rule dictionary. (405) (f) From the value of S, that is, the semantic code of the noun consisting of Wl, . . . , Wi-1, and the compound rule of Wi, Wl, .
・Find the meaning code of the noun consisting of Wi, and substitute it into S.

(g) (c)に戻る。(g) Return to (c).

複合名詞の意味コードが得られると、評価装置107で
は、候補と構文パターン情報との比較によって候補の評
価付けを行い、最も高い評価値を与えられた候補を解析
結果とする。
When the meaning code of the compound noun is obtained, the evaluation device 107 evaluates the candidate by comparing the candidate with the syntactic pattern information, and takes the candidate given the highest evaluation value as the analysis result.

具体例として前記の「たいきちゅうをひこうするJとい
う文章を漢字かな混じり文に変換する場合の、評価装置
107と意味コード付加装置112の動作を示す。ただ
し意味コード、構文パターン情報は第7図、複合規則は
第3図(a)のように登録されているものとする。
As a specific example, we will show the operation of the evaluation device 107 and the semantic code addition device 112 when converting the above-mentioned sentence ``Taikichu wo Hikosuru J'' into a sentence containing kanji and kana.However, the semantic code and syntactic pattern information are In FIG. 7, it is assumed that the compound rules are registered as shown in FIG. 3(a).

まず、形態素解析の結果として、第11図のデータが得
られたものとする。このデータから、[待機l中lを;
飛行lする]という候補(候補■)を作成する。ここで
゛(1)Iは単語の区切りを表し、“f′は文節の区切
りを表す。候補■の中に含まれている複合名詞「待機l
中」の意味コードを得るため、意味コード付加装置11
2に「待機」 「中」についての情報を送る。
First, it is assumed that the data shown in FIG. 11 is obtained as a result of morphological analysis. From this data, [waiting l in l;
A candidate (candidate ■) is created. Here, ゛(1) I represents a word break, and “f′ represents a phrase break.
In order to obtain the meaning code of "中", the meaning code adding device 11
Send information about "standby" and "medium" to 2.

意味コード付加装置112では以下の手順で意味コード
を求める。
The semantic code addition device 112 obtains a semantic code using the following procedure.

(a)「待機」の意味コード[行為]を変数Sに入れる
。(402) (b)意味コード規則辞書111からF中」の規則を得
る。(405) (C)E中]の規則と、Sの値[行為]から、意味コー
ド[時間]を得て、Sに入れる。(406)(d)[中
]が最後の単語なので処理を終り、[時間]を[待機l
中1の意味コードとする。(403)「待機l中」の意
味コードが[時間]と求められたので、候補■と、「飛
行する」の構文パターン情報である [人]が[場所1を を比較する。候補■と構文パターン情報が、一致しない
ので、候補■の評価値を下げる。続いて、[大気l中l
を;飛行lする」という文候補(候補■)を作成する。
(a) Put the meaning code [act] of "wait" into variable S. (402) (b) Obtain the rule "F Medium" from the meaning code rule dictionary 111. (405) Obtain the meaning code [time] from the rule [in (C) E] and the value [act] of S, and put it in S. (406) (d) Since [middle] is the last word, the process is finished and [time] is set to [wait l].
The meaning code is for 1st year of middle school. (403) Since the meaning code for "waiting l" is found as [time], candidate ■ is compared with [person], which is syntactic pattern information for "flying", and [place 1]. Since candidate ■ does not match the syntactic pattern information, the evaluation value of candidate ■ is lowered. Subsequently, [l in the atmosphere
A sentence candidate (candidate ■) is created: "I will fly."

意味コード付加装置112を用いて、同様の手順で文節
[大気l中Jの意味コードとして[場所]を得て、候補
■と構文パターン情報と比較する。すると[大気l中l
をJの部分が構文パターン情報の[[場所]をJと一致
するので候補■の評価値を上げる。2つの文候補の評価
値を比較し、評価値の高い候補■を出力バッファ108
に出力する。
Using the semantic code addition device 112, obtain [location] as the semantic code for the clause [atmosphere I in J] using the same procedure, and compare it with the candidate ■ and the syntactic pattern information. Then [in the atmosphere]
Since the J part of the syntax pattern information [[location] matches J, the evaluation value of the candidate ■ is increased. Compare the evaluation values of the two sentence candidates and output the candidate ■ with the higher evaluation value to the buffer 108
Output to.

結局、「たいきちゅうをひこうする」という文章が、「
大気中を飛行する」という文章に変換される。
In the end, the sentence ``to fly a horse'' becomes ``
``Fly through the atmosphere.''

本発明の説明はかシ漢字変換を例にして行ったが、本発
明はその他に、漢字かな変換、文音声変換、文字認識の
後処理、音声認識の後処理、機械翻訳の日本語解析段階
など、日本語文章の解析を行う装置に広く応用できる。
The present invention has been explained using Kashi-Kanji conversion as an example, but the present invention is also applicable to Kanji-Kana conversion, sentence-to-speech conversion, character recognition post-processing, voice recognition post-processing, and Japanese analysis stage of machine translation. It can be widely applied to devices that analyze Japanese sentences, such as

(発明の効果) 以上のように、本発明では、複合名詞に意味コードを与
えるための手段を備えることで、複合名詞に対して適切
な意味コードを与えることができる。その結果、従来は
正しく解析できながった文章も正確に解析できる。
(Effects of the Invention) As described above, in the present invention, by providing a means for giving a meaning code to a compound noun, it is possible to give an appropriate meaning code to the compound noun. As a result, it is now possible to accurately analyze sentences that previously could not be analyzed correctly.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は発明の一実施例の装置概要ブロック図。 第2図は評価の手順の例を表す流れ図。第3図は意味コ
ード規則辞書の構成例を表す概念図。第4図は意味コー
ド付加装置の動作例を表す流れ図。第5図は従来技術の
一実施例の装置概要ブロック図。第6図は従来技術の動
作の概要を表す流れ図。第7図は単語辞書の構成例を表
す概念図。第8図は文法辞書の構成例を表す概念図。第
9図は単語間の接続関係を表す概念図。第10図は形態
素解析装置の出力例を表す概念図。第11図は形態素解
析の結果の例を表す概念図。 第1図において 101・・・入力装置、102・・・大力バッファ、1
03・・・単語辞書、104・・・文法辞書、105・
・・形態素解析装置、106・・・中間バッファ、10
7・・・評価装置、108・・・出力バッファ、109
・・・出力装置、110は制御装置、111・・・意味
コード規則辞書、112・・・意味コード付加装置であ
る。
FIG. 1 is a schematic block diagram of an apparatus according to an embodiment of the invention. FIG. 2 is a flowchart showing an example of the evaluation procedure. FIG. 3 is a conceptual diagram showing an example of the structure of a meaning code rule dictionary. FIG. 4 is a flowchart showing an example of the operation of the meaning code adding device. FIG. 5 is a schematic block diagram of an apparatus according to an embodiment of the prior art. FIG. 6 is a flow chart showing an overview of the operation of the prior art. FIG. 7 is a conceptual diagram showing an example of the structure of a word dictionary. FIG. 8 is a conceptual diagram showing an example of the structure of a grammar dictionary. FIG. 9 is a conceptual diagram showing connection relationships between words. FIG. 10 is a conceptual diagram showing an example of output from the morphological analysis device. FIG. 11 is a conceptual diagram showing an example of the results of morphological analysis. In FIG. 1, 101...input device, 102...power buffer, 1
03...Word dictionary, 104...Grammar dictionary, 105.
...Morphological analyzer, 106...Intermediate buffer, 10
7...Evaluation device, 108...Output buffer, 109
. . . output device; 110 is a control device; 111 . . . meaning code rule dictionary; 112 . . . meaning code adding device.

Claims (1)

【特許請求の範囲】[Claims] 文章を入力するための入力装置と、単語の読み、表記、
品詞の他、意味コードと構文パターン情報を登録した単
語辞書と、文の構造の規則を登録した文法辞書と、前記
入力装置から入力された文章に対し、前記単語辞書およ
び前記文法辞書を使って形態素解析を行う形態素解析装
置と、形態素解析の結果を評価して、最適な解析結果を
決定する評価装置と、前記評価装置によって決定された
解析結果を出力するための出力装置を有する日本語文章
処理装置において、複合名詞の意味コードを求めるため
の規則が登録してある意味コード規則辞書と、前記評価
装置から複合名詞を構成する単語列の情報を受け取り、
前記意味コード規則辞書を用いて複合名詞の意味コード
を求める意味コード付加装置を備えることを特徴とする
日本語文章処理装置。
An input device for entering sentences, reading and writing words,
In addition to parts of speech, there is also a word dictionary in which semantic codes and syntactic pattern information are registered, and a grammar dictionary in which rules for sentence structure are registered. A Japanese text comprising a morphological analysis device that performs morphological analysis, an evaluation device that evaluates the results of the morphological analysis and determines an optimal analysis result, and an output device that outputs the analysis result determined by the evaluation device. A processing device receives a meaning code rule dictionary in which rules for determining the meaning code of a compound noun are registered, and information on a word string constituting the compound noun from the evaluation device;
A Japanese text processing device comprising: a semantic code adding device that obtains a semantic code of a compound noun using the semantic code rule dictionary.
JP63215529A 1988-08-29 1988-08-29 Japanese sentence processor Pending JPH0262660A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63215529A JPH0262660A (en) 1988-08-29 1988-08-29 Japanese sentence processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63215529A JPH0262660A (en) 1988-08-29 1988-08-29 Japanese sentence processor

Publications (1)

Publication Number Publication Date
JPH0262660A true JPH0262660A (en) 1990-03-02

Family

ID=16673936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63215529A Pending JPH0262660A (en) 1988-08-29 1988-08-29 Japanese sentence processor

Country Status (1)

Country Link
JP (1) JPH0262660A (en)

Similar Documents

Publication Publication Date Title
US5878386A (en) Natural language parser with dictionary-based part-of-speech probabilities
JP5231698B2 (en) How to predict how to read Japanese ideograms
Uchimoto et al. Morphological analysis of a large spontaneous speech corpus in Japanese
JPH11238051A (en) Chinese input conversion processor, chinese input conversion processing method and recording medium stored with chinese input conversion processing program
Wang et al. Word clustering with parallel spoken language corpora
JPH0262660A (en) Japanese sentence processor
JP2004206659A (en) Reading information determination method, device, and program
JPH11338863A (en) Automatic collection and qualification device for unknown noun and flickering katakana word and storage medium recording processing procedure of the device
JP3873305B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP3698454B2 (en) Parallel phrase analysis device and learning data automatic creation device
JP2655711B2 (en) Homomorphic reading system
JP2001051992A (en) Device and method for preparing statistic japanese data and dictation system
Bjerkeland Tagging and Parsing Old Texts with New Techniques
JPH06289890A (en) Natural language processor
JPH0244462A (en) Natural language processor
JP3873299B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP3139624B2 (en) Morphological analyzer
JPH03131957A (en) Japanese document processor
JPH02127761A (en) Japanese sentence processor
Zhang et al. Chinese POS tagging using restricted maximum entropy model
JPS62262178A (en) Language analyzing device
JPH0546612A (en) Sentence error detector
JPH01185766A (en) Kana/kanji conversion device
JPH02118879A (en) Language analyzing device
Ghayoomi et al. Using POS Tags in Word Prediction: A Statistical Language Modeling for the Persian Language