JPH0517591B2 - - Google Patents

Info

Publication number
JPH0517591B2
JPH0517591B2 JP61216510A JP21651086A JPH0517591B2 JP H0517591 B2 JPH0517591 B2 JP H0517591B2 JP 61216510 A JP61216510 A JP 61216510A JP 21651086 A JP21651086 A JP 21651086A JP H0517591 B2 JPH0517591 B2 JP H0517591B2
Authority
JP
Japan
Prior art keywords
context
analysis
input sentence
information
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61216510A
Other languages
Japanese (ja)
Other versions
JPS6371774A (en
Inventor
Shinichiro Kamei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP61216510A priority Critical patent/JPS6371774A/en
Publication of JPS6371774A publication Critical patent/JPS6371774A/en
Publication of JPH0517591B2 publication Critical patent/JPH0517591B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

(産業上の利用分野) 本発明は、文章を入力してその構造を抽出する
自然言語処理システムにおいて、構文解析や意味
解析に先立つて語彙解析によつて入力文中の文脈
構造を推定する文脈解析方法に関するものであ
る。 (従来の技術) 従来の言語処理において、文内の語や句や単位
文が他の要素とどのような関係になつているか、
又、それにより筆者のどのような意図が読み取れ
るかを解析する文脈解析は、意味情報が全てわか
つた後にはじめて行なえるものであると考えられ
ていた。例として〓数と式と文の処理〓(岩波講
座情報科学23)にある〓機械翻訳の種々の段階〓
を示す図(同書p.146)を第4図に示す。この図
にあるように従来のシステムでは、まず形態素解
析という単語分割及び単語辞書引きの処理を行な
う。次にその結果の辞書内容を基に文法的な統語
情報だけを用いた構文解析によつて個々の単位文
や単位句を発見しそれら相互の関係の計算を行な
う。その後、そこで得られた構造を再解釈して意
味を抽出する意味解析処理を行ない、さらにその
後、そこで得られた意味情報を用いて文脈解析が
行なわれていた。 ところで、文脈情報は、用言の連用中止、用言
と結合する接続助詞相当語、連体形、用言などが
一文中に複数存在する文、すなわち複文(複雑
文、複数用言文)によつて担われている。その複
文を解析する場合、文法的な統語情報だけから構
文解析を行なうと、語・句・節間のかかり方が複
数存在し、構造のあいまいさが多数残つてしまう
という問題点がある。従来、このかかり先の問題
に関しては〓自然言語とコンピユータ言語〓(草
薙裕著:講談社サイエンテイフイク)に述べられ
ているように、解決策を自然言語に求めることを
放棄していた。語彙や読点の使い方に制約をつけ
たり、かかり先を示す記号を挿入したりする制限
日本語を設定することで対処しようとしていた。 (発明が解決しようとする問題点) 以上述べたように従来技術では、文脈情報とは
意味処理の後にしか得られない情報であると考え
られていた。また、複数の可能性の中から文の構
造を決定するための解決策のほとんどを自然言語
外に求めていた。 ところが、本来文脈とは、文法的な統語情報だ
けからではわからない文の構造を推定するために
意味解析により前に人間が利用する情報である。 したがつて完全に意味がわかつたあとで、その
得られた意味を用いることによつてしか文脈が扱
えないとする従来の言語処理システムでは、文脈
解析の質を保証することができない。現在の意味
解析技法によつて完全に正しい意味抽出すること
は不可能であるから、その不完全な意味解析の結
果にのみ基づく文脈解釈は解析に大きな誤まりを
多数含んでしまう危険性がある。 また複文のかかり先推定処理に関しても、自然
言語内に存在する文構造に関する文脈情報を最大
限に利用しなければ、語彙や読点の用法の制限
や、構造を明示する記号の挿入といつた入手によ
る前処理を最小限におさえることができない。 本発明の目的は、このような従来の問題点を解
決するため、文脈構造を特徴づける自然言語表現
を語彙解析の段階で解析することによつて、構文
解析や意味解析に先立つて文中の論理的構造や筆
者の意図に沿つた文脈構造を推定する文脈解析方
式を提供することにある。 (問題を解決するための手段) 本発明による文脈解析方式は、入力文の読み込
み機能と、入力文に対する辞書引き機能と、辞書
引き後の辞書情報を用いて入力文を解析する機能
とを有する自然言語解析システムにおいて、 a) 複文等の長大な文内の意味的まとまり区間
を指示する語彙情報をあらかじめ収集してお
き、それらの語彙の係り先の係りやすさ、係り
にくさの情報及びそれらの語彙に導かれる意味
的まとまり区間同士の間の包含関係を形式化し
て保持している文脈形式保持機構、 b) 入力文を形態素解析した結果得られる辞書
内容列を上記の文脈形式保持機構に保持されて
いる語彙情報に照合することで、構文解析や意
味解析よりも前に入力文全体の意味的まとまり
の構造である文脈構造の候補を検出する文脈構
造照合機構、 c) 上記の文脈構造照合機構によつて得られた
入力文中の複数の文脈構造候補から最も確から
しい文脈構造候補を推定する文脈構造推定機
構、 からなり、構文解析や意味解析に先だつて入力文
の論理的構造及び文脈構造を推定することを可能
とする文脈解析部を有することを特徴とする自然
言語の文脈解析方式である。 (作用) 本発明においては、自然言語内にあつて文脈構
造を指示する働きを持つ表現とそれら表現間の関
係を語彙情報として文脈形式保持機構に保持して
いる。この文脈情報と入力文とを照合する文脈構
造照合機構によつて入力文中の文脈構造候補の検
出を語彙解析の段階で行なうことができる。そこ
で得られた文脈構造候補の中から最も確からしい
構造を推定する文脈構造推定機構によつて、構文
解析や意味解析に先立つて入力文中の文脈構造を
推定することができる。 (実施例) 次に第1図から第3図、第5図、第6図を参照
して、本発明の一実施例について説明する。 第1図は本発明の一実施例を示すブロツク図で
ある。通信線10を通じて入力文読み込み部1に
読み込まれた入力文は通信線12を介して形態素
解析部2に伝達され、辞書3を基に単語に分割さ
れる。各単語には辞書内容が割り当てられて通信
線26を通じて文脈解析部4に伝達される。 文脈解析部4は、文脈形式保持機構5と文脈構
造照合機構6と文脈構造推定機構7とから構成さ
れている。入力文に割り当てられた辞書内容列を
受けとつた文脈構造照合機構6は、文脈形式保持
機構5にあらかじめ蓄えられている文脈を指示す
る語彙の情報を参照することで入力文中の文脈構
造の候補を検出する。文脈構造推定機構7は、通
信線67を介して文脈構造照合機構6から受けと
つた文脈構造の候補の中から最も確からしい文脈
構造を推定し、それを通信線78を通じて構文解
析部8に伝達する。 構文解析部8では推定された文脈構造を基にし
て構文解析が行なわれ、それにつづく意味解析部
9では構文解析の結果得られた入力文の構造を基
に入力文の意味が抽出される。 以下では説明を容易にするため日本語の場合を
例にとつて文脈解析部4の働きを説明する。 文脈形式保持機構5内には第5図に示すような
文脈を特徴づける語についての情報が網羅的に格
納されている。ここには自然言語文章中に表われ
て文脈を指示する表現が語彙情報として登録され
ている。そのような文脈特徴語としては日本語の
場合には接続助詞等の機能語と、用言の種類や活
用形とが考えられる。 それら文脈特徴語は、その種類によつて文章中
の切れ目になる力に差異がある。第1表中の〓導
く節のレベル〓とは、各文脈特徴語がもつ文章の
切れ目になる力の差異を表わしている。記されて
いる数字が小さい程切れ目になる力が大きいこと
を示す。切れ目になる力の小さい文脈特徴語が導
く節は、切れ目になる力の大きい文脈特徴語が導
く節内に収まる。その反対に切れ目になる力の大
きい文脈特徴語が導く節は、切れ目になる力の小
さい文脈特徴語が導く節内には収まらない。例え
ば一文中に接続助詞「たまま」と接続助詞「の
で」がこの順序で存在するときには、「たまま」
が導く節のかかり先は「ので」が導く節内に存在
する。 また、各文脈特徴語は自身のかかり先に一定の
条件がある。第5図中〓かかりやすい語〓〓かか
りにくい語〓の欄には各文脈特徴語のかかり先に
よるかかり易さの差異が記されている。例えば一
文中に接続助詞「からには」が存在し、それより
後方に形容詞「美しい」と判断助動詞「なければ
ならない」が存在する場合を考えると、第1表に
よつて、「からには」の導く節は「なければなら
ない」の導く節にかかり易い。 次に文脈解析部4の動きを入力文例を用いて詳
しく説明する。次に示すのは、日本語の一つの入
力文例に対する形態素解析部2の出力結果例であ
り、これが文脈解析部4の入力例である。
(Industrial Application Field) The present invention is a natural language processing system that inputs a sentence and extracts its structure.The present invention is a natural language processing system that inputs a sentence and extracts its structure. It is about the method. (Prior art) In conventional language processing, the relationships between words, phrases, and unit sentences within a sentence and other elements are investigated.
Also, it was thought that context analysis, which analyzes what kind of author's intention can be read from the text, could only be done after all the semantic information was known. For example, various stages of machine translation in Processing of Numbers, Expressions, and Sentences (Iwanami Course Information Science 23).
A diagram showing this (p. 146 of the same book) is shown in Figure 4. As shown in this figure, the conventional system first performs word segmentation and word dictionary lookup processing called morphological analysis. Next, based on the resulting dictionary contents, individual unit sentences and unit phrases are discovered through syntactic analysis using only grammatical and syntactic information, and their mutual relationships are calculated. After that, a semantic analysis process was performed to reinterpret the structure obtained and extract the meaning, and then a context analysis was performed using the semantic information obtained. By the way, context information is useful for sentences in which there are multiple disjunctions of predicates, conjunctive particle equivalents combined with predicates, adnominals, predicates, etc. in one sentence, that is, complex sentences (complex sentences, plural pragmatic sentences). It is carried on the shoulders. When analyzing a complex sentence, if the syntax is analyzed only from grammatical and syntactic information, there are problems in that there are multiple words, phrases, and interclauses, leaving many ambiguities in the structure. Conventionally, with regard to this problem, as stated in ``Natural Language and Computer Language'' (by Yutaka Kusanagi, published by Kodansha Scientific), we have abandoned seeking solutions in natural language. Attempts were made to deal with this by setting restrictions on Japanese, such as placing restrictions on the use of vocabulary and commas, and inserting symbols to indicate starting points. (Problems to be Solved by the Invention) As described above, in the prior art, context information was considered to be information that could only be obtained after semantic processing. In addition, most of the solutions for determining the structure of a sentence from among multiple possibilities were sought outside of natural language. However, context is essentially information that humans use prior to semantic analysis to estimate the structure of a sentence that cannot be understood from grammatical and syntactic information alone. Therefore, in conventional language processing systems, where context can only be handled by using the meaning obtained after the meaning has been completely understood, the quality of context analysis cannot be guaranteed. Since it is impossible to extract completely correct meaning using current semantic analysis techniques, there is a risk that contextual interpretation based only on the results of incomplete semantic analysis will include many major errors in the analysis. . In addition, regarding the process of estimating the start of complex sentences, if we do not make full use of the context information regarding sentence structure that exists in natural languages, we will have to limit the usage of vocabulary and commas, and insert symbols that clearly indicate the structure. It is not possible to minimize the pretreatment required. The purpose of the present invention is to solve these conventional problems by analyzing the natural language expressions that characterize the context structure at the lexical analysis stage, thereby analyzing the logic in the sentence prior to syntactic and semantic analysis. The purpose of this paper is to provide a context analysis method for estimating a context structure that is consistent with the author's intentions. (Means for Solving the Problem) The context analysis method according to the present invention has a function of reading an input sentence, a function of looking up the input sentence in a dictionary, and a function of analyzing the input sentence using the dictionary information after looking up the dictionary. In a natural language analysis system, a) Vocabulary information that indicates semantically coherent sections in long sentences such as complex sentences is collected in advance, and information on the ease and difficulty of dependencies of those words and their related information are collected in advance. b) A context format retention mechanism that formalizes and retains the inclusion relations between semantically coherent intervals guided by the vocabulary of the above-mentioned context format retention mechanism; c) A context structure matching mechanism that detects candidates for a context structure, which is the structure of the semantic cohesion of the entire input sentence, by comparing it with retained lexical information, prior to syntactic analysis or semantic analysis; c) the above context structure; a context structure estimation mechanism that estimates the most probable context structure candidate from the multiple context structure candidates in the input sentence obtained by the matching mechanism, and the system estimates the logical structure and context of the input sentence prior to syntactic and semantic analysis. This is a natural language context analysis method characterized by having a context analysis unit that makes it possible to estimate the structure. (Operation) In the present invention, expressions in natural language that function to indicate the context structure and relationships between these expressions are held as lexical information in the context form holding mechanism. A context structure matching mechanism that matches this context information with the input sentence allows detection of context structure candidates in the input sentence at the stage of lexical analysis. A context structure estimation mechanism that estimates the most probable structure from among the context structure candidates obtained can estimate the context structure in the input sentence prior to syntactic analysis or semantic analysis. (Embodiment) Next, an embodiment of the present invention will be described with reference to FIGS. 1 to 3, FIG. 5, and FIG. 6. FIG. 1 is a block diagram showing one embodiment of the present invention. An input sentence read into the input sentence reading unit 1 via the communication line 10 is transmitted to the morphological analysis unit 2 via the communication line 12, and is divided into words based on the dictionary 3. Dictionary contents are assigned to each word and transmitted to the context analysis unit 4 via the communication line 26. The context analysis unit 4 includes a context format holding mechanism 5, a context structure matching mechanism 6, and a context structure estimation mechanism 7. The context structure matching mechanism 6 that receives the dictionary content string assigned to the input sentence identifies candidates for the context structure in the input sentence by referring to the vocabulary information indicating the context stored in advance in the context format storage mechanism 5. Detect. The context structure estimation mechanism 7 estimates the most probable context structure from among the context structure candidates received from the context structure matching mechanism 6 via the communication line 67, and transmits it to the syntax analysis unit 8 via the communication line 78. do. The syntactic analysis unit 8 performs syntactic analysis based on the estimated context structure, and the subsequent semantic analysis unit 9 extracts the meaning of the input sentence based on the structure of the input sentence obtained as a result of the syntactic analysis. In order to simplify the explanation, the function of the context analysis unit 4 will be explained below using Japanese as an example. The context format holding mechanism 5 comprehensively stores information about words characterizing the context as shown in FIG. Expressions that appear in natural language sentences and indicate context are registered here as vocabulary information. In the case of Japanese, such context feature words include function words such as conjunctive particles, and types and conjugations of predicates. These context characteristic words differ in their ability to create breaks in sentences depending on their type. The ``level of leading clause'' in Table 1 represents the difference in the ability of each context feature word to break a sentence. The smaller the number, the greater the force that causes the cut. A clause led by a context feature word with a small breaking power falls within a clause led by a context feature word with a large breaking power. On the other hand, a clause led by a context feature word that has a strong breaking power will not fit within a clause led by a context feature word that has a small breaking power. For example, when the conjunctive particle ``tama'' and the conjunctive particle ``node'' exist in this order in a sentence, ``tama''
The target of the clause that is led by is within the clause that is led by ``because''. Furthermore, each context feature word has certain conditions on its destination. In Figure 5, the columns ``Easy to use words'' and ``Difficult words'' indicate the difference in ease of use depending on the destination of each context characteristic word. For example, if we consider a case where there is a conjunctive particle ``kara wa'' in a sentence, followed by an adjective ``beautiful'' and a judgmental auxiliary verb ``must'', then according to Table 1, the clause ``kara wa'' leads to tends to fall into clauses led by ``must''. Next, the operation of the context analysis unit 4 will be explained in detail using an input sentence example. The following is an example of the output result of the morphological analysis unit 2 for one Japanese input sentence example, and this is an example of the input of the context analysis unit 4.

【表】 接続助詞 名詞 格助詞 名詞 格助詞
あがめる/ように/ なつ / た / 。 /
動詞 助動詞 助動詞 助動詞 句点
上記の例文を入力として受けとると、文脈構造
照合機構6は、文脈形式保持機構5の内容、すな
わち第5図を検索しながら入力文中の文脈特徴語
をさがす。第2図に示すのは、文脈構造照合機構
6の動作を表わすフローチヤートである。文脈形
式保持機構5と照合した結果、文脈特徴語として
まず接続助詞「たまま」に着目する。「たまま」
の導く節のかかり先候補としては接続助詞「こと
により」の動く節、断定助導詞「である」の導く
節、動詞「守る」に導く節、接続助詞「ので」の
導く節、文末の助動詞連続「ようになつた」を含
む節の五つの節が考えられる。文脈構造照合機構
6は文脈特徴語「たまま」とその五つのかかり先
候補のかかり易さを計算して記憶する。同様に文
脈特徴語としての接続助詞「ことにより」が導く
節のかかり先候補としては四つの節を考え、接続
助詞「ので」が導く節のかかり先候補としては一
つの節を考える。そしてその候補へのかかり易さ
を文脈形式保持機構5を参照しながら計算し、そ
の結果を記憶する。 第6図は上記例文に対する文脈構造照合機構6
の解析結果の記憶内容であり、入力文の形態素解
析結果の辞書内容列とともに文脈構造推定機構7
の入力となる。 第3図は文脈構造推定機構7の動作を表わすフ
ローチヤートである。文脈構造照合機構6から上
記の入力文例に対する文脈構造の候補の情報を第
6図の形で受けとると、文脈構造推定機構7は、
第6図中の〓導く節のレベル〓と〓かかり易さ〓
とから最も確からしい文脈構造を推定する。 文脈特徴語「たまま」の導く節のレベルは3で
あるから、そのかかり先はレベル2の切れ目にな
りやすさをもつ「眠ることにより」の節内にあ
る。その節内にあるかかり先候補は「眠ることに
より」であり、〓かかり易さ〓は「ふつう」であ
るので、結果として「たまま」の導く節のかかり
先としては「眠ることにより」が最も確からしい
と推論できる。 文脈特徴語「ことにより」の導く節のレベルは
2であるから、そのかかり先はレベル1の切れ目
になりやすい性質をもつ「ことができたので」の
節内にある。その節内にあるかかり先候補は「肉
食動物である」「身を守る」「ことができたので」
の三つがあるが、〓かかり易さ〓を比較すること
で結果として「ことにより」の導く節のかかり先
としては「ことができたので」が最も確からしい
と推論できる。 文脈特徴語「ので」の導く節のかり先候補は文
末用言の「あがめるようになつた」である。レベ
ルを比較すると双方ともに1であり、〓かかり易
さ〓は「かかり易い」となつているので、結果と
して「ので」の導く節のかかり先としては「あが
めるようになつた」が最も確からしいと推論でき
る。 このようにして文脈構造推定機構7は最も確か
らしい構文構造を推定して文脈解析部8に伝達す
る。上記の入力文例に対する最も確からしい文脈
構造は、下記のようになる。矢印の元に位置する
節は矢印の先に位置する節にかかり、その節内に
収まつていることを示すものとする。 原始人たちは火をともしたまま ↓ 眠ることにより ↓ 肉食動物であるトラやオオカミから 身を守ることができたので ↓ 火を神としてあがめるようになつた 以上のようにして、構文解析部8や意味解析部
9の解析を行なう前に語彙情報を利用して文脈構
造を推定することができる。 (発明の効果) 本発明によれば、自然言語内にあつて文脈構造
を指示する働きをもつ表現を語彙情報として利用
できるので、入力文に対する文脈構造解析を構文
解析や意味解析に先立つて行なうことができる。
そうすることで文脈構造解析につづく構文解析や
意味解析を効率化し、かつ解析の質を向上させる
ことができる。したがつて構文解析や意味解析の
質の向上のために必要だつた文章の前処理や制限
言語の制約を最小限におさえることが可能であ
る。
[Table] Conjunctive particles Noun Case particles Noun Case particles Amageru/Yo ni/Natsu/Ta/. /
Verb Auxiliary verb Auxiliary verb Auxiliary verb Phrase When receiving the above example sentence as input, the context structure matching mechanism 6 searches the contents of the context form holding mechanism 5, that is, FIG. 5, to find the context characteristic word in the input sentence. What is shown in FIG. 2 is a flowchart representing the operation of the context structure matching mechanism 6. As a result of checking with the context form retention mechanism 5, the conjunctive particle "tama" is first focused on as the context feature word. "Tama"
Possible destinations for clauses that lead to are: moving clauses with the conjunctive particle ``kotonori'', clauses with the assertive particle ``deru'', clauses with the verb ``protect'', clauses with the conjunctive particle ``node'', and sentence-final clauses with the conjunctive particle ``kotonori''. There are five possible clauses that contain the auxiliary verb sequence ``Yonanatsuta.'' The context structure matching mechanism 6 calculates and stores the ease of occurrence of the context feature word "tama" and its five possible destinations. Similarly, four clauses are considered as possible destinations for the clauses led by the conjunctive particle ``kotonori'' as a context characteristic word, and one clause is considered as the destination candidate for the clauses led by the conjunctive particle ``node''. Then, the ease of application to the candidate is calculated with reference to the context format storage mechanism 5, and the result is stored. Figure 6 shows the context structure matching mechanism 6 for the above example sentence.
This is the memory content of the analysis result of the input sentence, and the context structure estimation mechanism 7 along with the dictionary content string of the morphological analysis result of the input sentence.
becomes the input. FIG. 3 is a flowchart showing the operation of the context structure estimation mechanism 7. Upon receiving information on the candidate context structure for the above input sentence example from the context structure matching mechanism 6 in the form shown in FIG. 6, the context structure estimation mechanism 7
In Figure 6, the level of the leading clause and the ease of getting involved.
The most likely context structure is estimated from Since the level of the clause that the context feature word ``tama'' leads to is level 3, its destination is within the clause ``by sleeping'', which has a tendency to break at level 2. The target candidate in that clause is "by sleeping", and the ease of triggering is "normal", so as a result, the target of the clause led by "tama" is "by sleeping". It can be inferred that it is the most probable. Since the level of the clause that the context characteristic word ``by'' leads to is level 2, its destination is within the clause ``because I was able to'', which has the property of being a level 1 break. Possible targets in that clause are ``I am a carnivore,'' ``I defended myself,'' and ``I was able to do so.''
There are three types, but by comparing the ease of occurrence, it can be inferred that ``because I was able to'' is the most likely destination for a clause that is derived from ``by that''. The candidate destination for the clause that the context feature word ``node'' leads to is the sentence-final phrase ``I came to admire.'' Comparing the levels, both of them are 1, and ``easiness to apply'' is ``easy to apply,'' so as a result, ``I came to admire'' is the most likely destination for the clause that ``because'' leads to. It can be inferred that In this way, the context structure estimation unit 7 estimates the most probable syntactic structure and transmits it to the context analysis unit 8. The most probable context structure for the above input sentence example is as follows. The node located at the base of the arrow extends over the node located at the tip of the arrow, indicating that it is contained within that node. Primitive people kept a fire lit ↓ By sleeping ↓ They were able to protect themselves from carnivorous animals such as tigers and wolves ↓ They came to worship fire as a god In this way, the parser 8 The context structure can be estimated using vocabulary information before the semantic analysis unit 9 performs the analysis. (Effects of the Invention) According to the present invention, since expressions in natural language that have the function of indicating the context structure can be used as lexical information, the context structure analysis of the input sentence can be performed prior to syntactic analysis and semantic analysis. be able to.
By doing so, it is possible to streamline the syntactic analysis and semantic analysis that follow the context structure analysis, and improve the quality of the analysis. Therefore, it is possible to minimize the preprocessing of sentences and the constraints of limited languages, which are necessary to improve the quality of syntactic and semantic analysis.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示すブロツク図で
ある。第2図は第1図に示した文脈構造照合機構
6の動作を表わすフローチヤートである。第3図
は第1図に示した文脈構造推定機構7の動作を表
わすフローチヤート、第4図は従来の文脈解析方
式を示すブロツク図、第5図は、文脈形式保持機
構を説明するための図、第6図は文脈構造照合機
構の解析結果の一例を示す図である。 図において、1……入力文読み込み部、2……
形態素解析部、3……辞書、4……文脈解析部、
5……文脈形式保持機構、6……文脈構造照合機
構、7……文脈構造推定機構、8……構文解析
部、9……意味解析部。
FIG. 1 is a block diagram showing one embodiment of the present invention. FIG. 2 is a flowchart showing the operation of the context structure matching mechanism 6 shown in FIG. FIG. 3 is a flowchart showing the operation of the context structure estimation mechanism 7 shown in FIG. 1, FIG. 4 is a block diagram showing the conventional context analysis method, and FIG. 6 are diagrams showing an example of the analysis results of the context structure matching mechanism. In the figure, 1... input sentence reading section, 2...
Morphological analysis section, 3... Dictionary, 4... Context analysis section,
5...Context form holding mechanism, 6...Context structure matching mechanism, 7...Context structure estimation mechanism, 8...Syntax analysis section, 9...Semantic analysis section.

Claims (1)

【特許請求の範囲】 1 入力文の読み込み機能と、入力文に対する辞
書引き機能と、辞書引き後の辞書情報を用いて入
力文を解析する機能とを有する自然言語解析シス
テムにおいて、 a) 複文等の長大な文内の意味的まとまり区間
を指示する語彙情報をあらかじめ収集してお
き、それらの語彙の係り先の係りやすさ、係り
にくさの情報及びそれらの語彙に導かれる意味
的まとまり区間同士の間の包含関係を形式化し
て保持している文脈形式保持機構、 b) 入力文を形態素解析した結果得られる辞書
内容列を上記の文脈形式保持機構に保持されて
いる語彙情報に照合することで、構文解析や意
味解析よりも前に入力文全体の意味的まとまり
の構造である文脈構造の候補を検出する文脈構
造照合機構、 c) 上記の文脈構造照合機構によつて得られた
入力文中の複数の文脈構造候補から最も確から
しい文脈構造候補を推定する文脈構造推定機
構、 からなり、構文解析や意味解析に先だつて入力文
の論理的構造及び文脈構造を推定することを可能
とする文脈解析部を有することを特徴とする自然
言語の文脈解析方法。
[Scope of Claims] 1. A natural language analysis system having a function of reading an input sentence, a function of looking up the input sentence in a dictionary, and a function of analyzing the input sentence using the dictionary information after looking up the dictionary, which includes: a) complex sentences, etc. Vocabulary information that indicates semantically coherent sections within a long sentence is collected in advance, and information on the ease and difficulty of dependence of those vocabulary and the semantically coherent sections guided by those vocabulary are collected in advance. b) a context format retention mechanism that formalizes and retains the inclusion relationship between the two; b) collating the dictionary content string obtained as a result of morphological analysis of the input sentence with the lexical information retained in the context format retention mechanism described above; c) A context structure matching mechanism that detects candidates for a context structure, which is the structure of the semantic cohesion of the entire input sentence, before syntactic analysis or semantic analysis; a context structure estimation mechanism that estimates the most probable context structure candidate from a plurality of context structure candidates; A natural language context analysis method characterized by having an analysis section.
JP61216510A 1986-09-12 1986-09-12 Context analyzing system Granted JPS6371774A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61216510A JPS6371774A (en) 1986-09-12 1986-09-12 Context analyzing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61216510A JPS6371774A (en) 1986-09-12 1986-09-12 Context analyzing system

Publications (2)

Publication Number Publication Date
JPS6371774A JPS6371774A (en) 1988-04-01
JPH0517591B2 true JPH0517591B2 (en) 1993-03-09

Family

ID=16689558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61216510A Granted JPS6371774A (en) 1986-09-12 1986-09-12 Context analyzing system

Country Status (1)

Country Link
JP (1) JPS6371774A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2687334B2 (en) * 1987-01-21 1997-12-08 松下電器産業株式会社 Machine translation equipment

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61237164A (en) * 1985-04-15 1986-10-22 Hitachi Ltd Japanese language word processing system
JPS61255468A (en) * 1985-05-08 1986-11-13 Toshiba Corp Mechanical translating processing device
JPS62163173A (en) * 1986-01-14 1987-07-18 Toshiba Corp Mechanical translating device
JPS62267873A (en) * 1986-05-16 1987-11-20 Ricoh Co Ltd Language analyzing device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61237164A (en) * 1985-04-15 1986-10-22 Hitachi Ltd Japanese language word processing system
JPS61255468A (en) * 1985-05-08 1986-11-13 Toshiba Corp Mechanical translating processing device
JPS62163173A (en) * 1986-01-14 1987-07-18 Toshiba Corp Mechanical translating device
JPS62267873A (en) * 1986-05-16 1987-11-20 Ricoh Co Ltd Language analyzing device

Also Published As

Publication number Publication date
JPS6371774A (en) 1988-04-01

Similar Documents

Publication Publication Date Title
Castellví et al. Automatic term detection
Habash et al. Arabic tokenization, part-of-speech tagging and morphological disambiguation in one fell swoop
US8285541B2 (en) System and method for handling multiple languages in text
Mikheev Periods, capitalized words, etc.
US7822597B2 (en) Bi-dimensional rewriting rules for natural language processing
US20020138248A1 (en) Lingustically intelligent text compression
JP2002215617A (en) Method for attaching part of speech tag
Fung Extracting key terms from Chinese and Japanese texts
Stamatatos et al. A practical chunker for unrestricted text
Dobrov et al. Morphosyntactic analyzer for the Tibetan language: aspects of structural ambiguity
Hawwari et al. Building an Arabic multiword expressions repository
JPH0517591B2 (en)
Paccosi et al. It is markit that is new: An italian treebank of marked constructions
Foufi et al. Multilingual parsing and MWE detection
Kulick Simultaneous tokenization and part-of-speech tagging for Arabic without a morphological analyzer
Sukhahuta et al. Information extraction strategies for Thai documents
Pettersson et al. Automatic verb extraction from historical Swedish texts
Särg et al. Annotated clause boundaries’ influence on parsing results
Costa et al. LX-TimeAnalyzer: A temporal information processing system for Portuguese
Rhazi et al. Corpus-Based Extraction and Translation of Arabic Multi-Words Expressions (MWEs)
Nasukawa Discourse constraint in computer manuals
Ramisch Putting the horses before the cart: identifying multiword expressions before translation
Friburger et al. Finite-state transducer cascade to extract proper names in texts
Tanaka et al. Hierarchical word structure-based parsing: A feasibility study on UD-style dependency parsing in Japanese
JP2546515B2 (en) Information extraction device

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term