JP2015028697A - Classification model learning device, classification determining device, method and program - Google Patents

Classification model learning device, classification determining device, method and program Download PDF

Info

Publication number
JP2015028697A
JP2015028697A JP2013157733A JP2013157733A JP2015028697A JP 2015028697 A JP2015028697 A JP 2015028697A JP 2013157733 A JP2013157733 A JP 2013157733A JP 2013157733 A JP2013157733 A JP 2013157733A JP 2015028697 A JP2015028697 A JP 2015028697A
Authority
JP
Japan
Prior art keywords
feature
predicate
pair
term
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013157733A
Other languages
Japanese (ja)
Inventor
朋子 泉
Tomoko Izumi
朋子 泉
齋藤 邦子
Kuniko Saito
邦子 齋藤
松尾 義博
Yoshihiro Matsuo
義博 松尾
禎夫 黒橋
Sadao Kurohashi
禎夫 黒橋
大輔 河原
Daisuke Kawahara
大輔 河原
知秀 柴田
Tomohide Shibata
知秀 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Kyoto University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Kyoto University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Kyoto University NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013157733A priority Critical patent/JP2015028697A/en
Publication of JP2015028697A publication Critical patent/JP2015028697A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To learn a classification model that accurately determines whether or not a predicate pair or an "argument-predicate" pair is synonymous, antonymous, or irrelevant.SOLUTION: A classification model learning device is configured to: extract, by a synonymous feature extraction unit 224, at least one of a dictionary definition sentence feature and a sematic attribute feature regarding each predicate pair to which any of synonym, antonym, or irrelevance stored in a learning corpus storage unit 222 is added in advance as classification; extract, by an antonymous feature extraction unit 226, a feature representing a substring and a feature representing co-occurrence likelihood within a sentence; construct, by a synonymous and antonymous-irrelevant classification feature construction unit 230, a feature for classifying synonym-and-antonym and irrelevance; construct, by a synonymous-antonymous classification feature construction unit 240, a feature for classifying synonym and antonym; learn, by a synonymous and antonymous-irrelevant classification model learning unit 234, a classification model for classifying synonym-and-antonym and irrelevance; and learn, by a synonymous-antonymous classification model learning unit 244, a classification model for classifying synonym and antonym.

Description

本発明は、分類モデル学習装置、分類判定装置、方法及びプログラムに係り、特に、述部ペアの関係を分類するための分類モデル学習装置、分類判定装置、方法及びプログラムに関する。   The present invention relates to a classification model learning device, a classification determination device, a method, and a program, and more particularly, to a classification model learning device, a classification determination device, a method, and a program for classifying a relationship between predicate pairs.

現在、Web上のブログや音声対話ログなど大量のテキスト情報から欲しい情報を探し出す検索技術や、有益な情報のみを自動で抽出・集計するテキストマイニング技術の高精度化が求められている。これらを実現するために必要なのが、計算機による自然文の意味理解である。   Currently, there is a demand for high-precision search technology for searching for desired information from a large amount of text information such as blogs and voice dialogue logs on the Web, and text mining technology for automatically extracting and counting only useful information. In order to realize these, it is necessary to understand the meaning of natural sentences by a computer.

例えば、(1)「XXのランチに満足だった。」、(2)「XXのランチを堪能しました。」という2つの文があった場合、これらが「同じ事を表している」と判定できなくては、利用者が求める情報を正しく検索できなかったり、テキストマイニングで必要な「同じ情報のまとめ上げ」ができない。   For example, if there are two sentences: (1) “I was satisfied with the lunch of XX” and (2) “I enjoyed the lunch of XX”, these were judged as “representing the same thing”. If it is not possible, the information required by the user cannot be searched correctly or the “same information gathering” necessary for text mining cannot be performed.

また、(3)「XXのランチ、おいしかったです。」、(4)「XXのランチ、不味かった。」という2つの文があった場合、これらが「真逆のこと(相反する意見)を表している」と判別できなくては、情報の矛盾や意見の対立などを計算機で識別することが出来ない。   Also, if there were two sentences (3) “XX lunch was delicious”, (4) “XX lunch was delicious”, these were “true opposites (conflicting opinions). Unless it can be discriminated as "representing", it is not possible to identify inconsistencies in information or conflicts of opinions with a computer.

上記(1)の文と(2)の文の同義性を計算機で認識できたり、上記(3)の文と(4)の文の反義関係を計算機で識別できれば、同じ意見の集計や対立意見の分析など新しい視点での分析が可能となる。   If the computer can recognize the synonymity between the sentence (1) and the sentence (2), or if the computer can identify the anomaly relationship between the sentence (3) and (4), Analysis from a new perspective such as analysis of opinions becomes possible.

「同義」や「反義」関係にある単語を獲得する従来方法として、分布類似度など文脈の類似性をもとに、意味が似ている単語ペアを大量に獲得する方法がある。また、分布類似度を用いて大量に獲得した単語ペアに対して、反義語リストを用いて、同義語と反義語の振るい分けを行う方法がある(非特許文献1)。   As a conventional method of acquiring words having a “synonymous” or “anti-sense” relationship, there is a method of acquiring a large number of word pairs having similar meanings based on similarity of context such as distribution similarity. In addition, there is a method in which a synonym and an antonym are sorted using an antonym list for a large number of word pairs acquired using the distribution similarity (Non-patent Document 1).

分布類似度とは、似た意味の単語はその単語が出現する文脈も似ているという考えに基づき、同義計算の対象となる単語の周辺に出てくる要素を素性として、周辺にどのような要素がどのような頻度で出てきているかをもとに、似た文脈で出てくる単語か否かを計算するものである。   Distribution similarity is based on the idea that words with similar meanings are similar in the context in which the word appears. Based on how often the element appears, it is calculated whether the word appears in a similar context.

Lin, D., Zhao, S., Qin, L., and Zhou, M. (2003). Identifying synonyms among distributionally similar words. Proceedings of the 18thInternational Joint conference on Artificial Intelligence (IJCAI-03), 1492-1493Lin, D., Zhao, S., Qin, L., and Zhou, M. (2003). Identifying synonyms among distributionally similar words.Proceedings of the 18th International Joint conference on Artificial Intelligence (IJCAI-03), 1492-1493

しかし、上記の分布類似度など文脈の類似性をもとに、意味が似ている単語ペアを大量に獲得する方法では、反義の単語同士は、同義の単語同士同様に、同じ文脈で出現することが出来るため、反対の意味を表す「反義」の単語ペアも「意味が似ている」として獲得されてしまうという問題がある。   However, in the method of acquiring a large number of word pairs with similar meanings based on the similarity of contexts such as the above distribution similarity, the words of anomaly appear in the same context as the words of the same meaning Therefore, there is a problem that a word pair of “antegiance” representing the opposite meaning is also acquired as “similar in meaning”.

また、非特許文献1の方法では、反義語リストにない単語には対応できず、結果、誤って反対の意味を表す反義語を「同義」として扱ってしまうという問題がある。   Further, the method of Non-Patent Document 1 cannot cope with a word that is not in the antonym list, and as a result, there is a problem that an antonym representing the opposite meaning is erroneously treated as “synonymous”.

本発明では、上記問題点を解決するために成されたものであり、述部ペア又は「項‐述部」ペアが同義、反義、又は無関係であるか否かを高精度に判定する分類モデルを学習する分類モデル学習装置、方法及びプログラムを提供することを目的とする。   In the present invention, the classification is made to solve the above-mentioned problem, and it is determined with high accuracy whether the predicate pair or the “term-predicate” pair is synonymous, anonymity, or irrelevant. It is an object of the present invention to provide a classification model learning apparatus, method, and program for learning a model.

また、述部ペア又は「項‐述部ペア」が同義、反義、又は無関係であるか否かを高精度に判定する分類判定装置、方法及びプログラムを提供することを目的とする。   It is another object of the present invention to provide a classification determination apparatus, method, and program for highly accurately determining whether a predicate pair or a “term-predicate pair” is synonymous, affirmative, or irrelevant.

上記目的を達成するために、第1の発明の分類モデル学習装置は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、前記述部ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、前記述部ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、同義、反義、及び無関係のうちの何れかが分類として各々予め付与された述部ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出する素性抽出部と、同義又は反義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合と、無関係が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記述部ペアを同義又は反義である同反義と無関係とに分類するための同反−無関係分類素性として構築する同反−無関係分類素性構築部と、同義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合と、反義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記述部ペアを同義と反義とに分類するための同義−反義分類素性として構築する同義−反義分類素性構築部と、前記同反−無関係分類素性構築部により構築された前記同反−無関係分類素性に基づいて、述部ペアを同反義と無関係とに分類するための分類モデルを学習する同反−無関係分類モデル学習部と、前記同義−反義分類素性構築部により構築された前記同義−反義分類素性に基づいて、述部ペアを同義と反義とに分類するためのモデルを学習する同義−反義分類モデル学習部と、を含んで構成されている。   In order to achieve the above object, the classification model learning device according to the first invention provides each predicate of a predicate pair obtained from a definition sentence set consisting of definition sentences for each of a plurality of predicates prepared in advance. The feature indicating the mutual complementarity of the definition statement indicating whether or not there is a predicate as a pair in the definition statement of each predicate of the predescription portion pair extracted based on the definition statement is the first feature. , A semantic attribute common to the previous description part pair extracted based on the semantic attribute of each predicate of the previous description part pair, obtained from a semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance Is the second feature, and the combination of the partial character string in the character string representing one predicate of the preceding description pair and the partial character string in the character string representing the other predicate is the third feature. , A parallel predicate syntax generated containing each predicate in the predescription pair The likelihood is the fourth feature, and for each of the predicate pairs in which any one of synonym, anomaly, and irrelevance is previously given as a classification, at least of the first feature and the second feature On the other hand, the feature extraction unit extracts a feature set including the third feature and the fourth feature, and the feature extraction unit extracts each of the predicate pairs to which synonyms or anomalies are assigned as classifications. The feature set extracted and the feature set extracted by the feature extraction unit for each of the predicate pairs assigned as categorized as irrelevant are irrelevant to the anonymity that is the same or anonymity of the preceding description pair. And the feature set extracted by the feature extraction unit for each of the predicate pairs to which synonyms are given as classifications. , Anti For each predicate pair assigned as a classification, the feature set extracted by the feature extraction unit is constructed as a synonym-anonymity classification feature for classifying the previous description unit pair into synonyms and anomalies. Classification for classifying predicate pairs as irrelevant or irrelevant based on the synonym-irrelevant classification feature building unit and the same-irrelevant classification feature building unit Classify predicate pairs into synonyms and anomalies based on the synonym-anonymity classification model learning unit that learns the model and the synonym-anonymity classification feature construction unit constructed by the synonym-anonymity classification feature construction unit And a synonym-anonymity classification model learning unit that learns a model for this purpose.

第2の発明の分類モデル学習方法は、素性抽出部と、同反−無関係分類素性構築部と、同義−反義分類素性構築部と、同反−無関係分類モデル学習部と、同義−反義分類モデル学習部とを含む分類モデル学習装置における分類モデル学習方法であって、前記素性抽出部は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、前記述部ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、前記述部ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、同義、反義、及び無関係のうちの何れかが分類として各々予め付与された述部ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出し、前記同反−無関係分類素性構築部は、同義又は反義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合と、無関係が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記述部ペアを同義又は反義である同反義と無関係とに分類するための同反−無関係分類素性として構築し、前記同義−反義分類素性構築部は、同義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合と、反義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記述部ペアを同義と反義とに分類するための同義−反義分類素性として構築し、前記同反−無関係分類モデル学習部は、前記同反−無関係分類素性構築部により構築された前記同反−無関係分類素性に基づいて、述部ペアを同反義と無関係とに分類するためのモデルを学習し、前記同義−反義分類モデル学習部は、前記同義−反義分類素性構築部により構築された前記同義−反義分類素性に基づいて、述部ペアを同義と反義とに分類するためのモデルを学習する。   The classification model learning method according to the second aspect of the present invention includes a feature extraction unit, an anti-independent classification feature construction unit, a synonym-anti-discipline classification feature construction unit, an anti-invalid classification model learning unit, and a synonym-non-sense. A classification model learning method in a classification model learning device including a classification model learning unit, wherein the feature extraction unit is obtained from a definition sentence set including definition sentences for each of a plurality of predicates prepared in advance. Indicates mutual complementarity of definition statements that indicate whether or not there is a pair of predicates in the definition statement of each predicate of the preceding description pair extracted based on the definition statement of each predicate of the pair of pairs Pre-description extracted based on the semantic attribute of each predicate of the pre-description part pair obtained from the semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance. Semantic attributes that are common to group pairs The combination of the partial character string in the character string representing one predicate of the preceding description part pair and the partial character string in the character string representing the other predicate is set as a third feature, The likelihood of the parallel predicate syntax generated including each of the predicates is set as the fourth feature, and each of the predicate pairs in which any one of synonym, anomaly, and irrelevance is previously given as a classification, The feature set including at least one of the first feature and the second feature, the third feature, and the fourth feature is extracted, and the anti-independent classification feature construction unit is synonymous. Or, the feature set extracted by the feature extraction unit for each predicate pair assigned an anomaly as a classification and the feature extraction unit extracted for each predicate pair assigned an irrelevance as a classification A feature set is synonymous with a previous description part pair. Constructed as an anti-unrelated classification feature to classify as unrelated and unrelated, and the synonym-non-defective classification feature construction unit described above for each predicate pair to which synonym is given as a classification The feature set extracted by the feature extraction unit, and the feature set extracted by the feature extraction unit for each predicate pair to which an anomaly is assigned as a classification, Is constructed as a synonym-anonymous classification feature, and the same-unrelated classification feature learning unit is based on the anti-irrelevant classification feature constructed by the anti-irrelevant classification feature construction unit, A model for classifying predicate pairs as irrelevant and unrelated is learned, and the synonym-anonymity classification model learning unit is constructed by the synonym-anonymity classification feature construction unit. Based on the features, the predicate page Learn a model for classifying a into synonyms and anomalies.

このように、第1及び第2の発明によれば、同義又は反義が分類として付与された述部ペアの各々について抽出された素性集合と、無関係が分類として付与された述部ペアの各々について抽出された素性集合とを、同反−無関係分類素性として構築して、同反義と無関係とに分類するモデルを学習し、同義が分類として付与された述部ペアの各々について抽出された素性集合と、反義が分類として付与された述部ペアの各々について抽出された素性集合とを、同義−反義分類素性として構築して、同義と反義とに分類するためのモデルを学習することにより、述部ペアが同義、反義、又は無関係であるか否かを高精度に判定することができる分類モデルを学習することができる。   Thus, according to the first and second inventions, the feature set extracted for each predicate pair to which synonym or anomaly is given as a classification, and each predicate pair to which unrelated is given as a classification The feature set extracted for is constructed as an anti-irrelevant classification feature, and a model for classifying the feature set as unrelated and unrelated is learned. Learn a model to classify feature sets and feature sets extracted for each predicate pair with anomaly as a classification into synonyms and anomalies, and classify them into synonyms and anomalies By doing so, it is possible to learn a classification model that can determine with high accuracy whether or not a predicate pair is synonymous, anomaly, or irrelevant.

また、第1の発明において、前記素性抽出部は、前記並列述語構文の尤度として、前記並列述語構文のn-gramスコアを抽出してもよい。   In the first invention, the feature extraction unit may extract an n-gram score of the parallel predicate syntax as a likelihood of the parallel predicate syntax.

また、第1の発明において、前記素性抽出部は、前記述部ペアの述部の各々について、テキストコーパスにおいて前記述部の周辺に出現する単語の共起を計算し、前記述部ペアの周辺単語の類似度を計算した分布類似度を第5の素性とし、予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記述部ペアの述部の各々の機能表現の意味ラベルに基づいて抽出される前記述部ペアで共通する意味ラベルを第6の素性とし、前記述部ペアの前記共通する意味ラベルの重なり度合いを第7の素性とし、前記述部ペアの述部の各々を複合して生成される複合語の尤度を第8の素性とし、前記述部ペアの2つの述部が、事態間の関係を表す文において前記事態を表す2つの述部として共起する度合いを第9の素性とし、前記同義、反義、及び無関係のうちの何れかが分類として各々予め付与された述部ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性と、前記第5の素性、前記第6の素性、前記第7の素性、第8の素性、及び前記第9の素性のうち少なくとも1つとを含む前記素性集合を抽出してもよい。   In the first invention, the feature extraction unit calculates the co-occurrence of words appearing around the previous description unit in the text corpus for each predicate of the previous description unit pair, The distribution similarity obtained by calculating the word similarity is set as the fifth feature, and the predicate of the predescription part pair obtained from the semantic label set made up of the semantic labels of the respective functional expressions of the plurality of predicates prepared in advance. The semantic label common to the previous description part pairs extracted based on the semantic labels of the respective functional expressions is the sixth feature, the overlapping degree of the common semantic labels of the previous description part pair is the seventh feature, The likelihood of the compound word generated by combining each predicate of the description part pair is the eighth feature, and the two predicates of the previous description part pair represent the situation in the sentence representing the relationship between the situations. The degree of co-occurrence as two predicates For each of the predicate pairs in which any one of the synonyms, anomalies, and irrelevance is given as a classification, at least one of the first feature and the second feature, and the first feature 3 features, the 4th feature, and the 5th feature, the 6th feature, the 7th feature, the 8th feature, and the 9th feature. A set may be extracted.

また、第1の発明において、前記素性抽出部は、前記複合語の尤度として、前記述部ペアについて生成される前記複合語のn-gramスコア、及びコーパスにおける前記複合語の出現頻度のうち少なくとも一方を抽出してもよい。   In the first invention, the feature extraction unit includes, as the likelihood of the compound word, an n-gram score of the compound word generated for a previous description unit pair, and an appearance frequency of the compound word in a corpus At least one of them may be extracted.

第3の発明の分類モデル学習装置は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項‐述部」ペアの述部各々の定義文に基づいて抽出される、前記「項‐述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性、及び前記「項‐述部」ペアの述部の各々の前記定義文内にペアとなる「項‐述部」の項が存在するか否かを表す定義文相互補完性を示す素性のうち少なくとも前記述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項‐述部」ペアの述部各々の意味属性に基づいて抽出される前記「項‐述部」ペアで共通する意味属性を第2の素性とし、前記「項‐述部」ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、前記「項‐述部」ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、同義、反義、及び無関係のうちの何れかが分類として各々予め付与された「項‐述部」ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出する素性抽出部と、同義又は反義が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合と、無関係が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記「項‐述部」ペアを同義又は反義である同反義と無関係とに分類するための同反−無関係分類素性として構築する同反−無関係分類素性構築部と、同義が分類として付与された「項‐述部ペア」の各々について前記素性抽出部により抽出された前記素性集合と、反義が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記「項‐述部」ペアを同義と反義とに分類するための同義−反義分類素性として構築する同義−反義分類素性構築部と、前記同反−無関係分類素性構築部により構築された前記同反−無関係分類素性に基づいて、「項‐述部」ペアを同反義と無関係とに分類するためのモデルを学習する同反−無関係分類モデル学習部と、前記同義−反義分類素性構築部により構築された前記同義−反義分類素性に基づいて、「項‐述部」ペアを同義と反義とに分類するためのモデルを学習する同義−反義分類モデル学習部と、を含んで構成されている。   The classification model learning device of the third invention is based on a definition sentence of each predicate of a “term-predicate” pair obtained from a definition sentence set including a definition sentence for each of a plurality of predicates prepared in advance. Extracted from the above-mentioned "term-predicate" pair of predicates, the feature indicating mutual complementarity of the definition sentence indicating whether or not there is a pair of predicates, and the "term-predicate" There is at least a predescription part among the features indicating the mutual complementarity of the definition sentence that indicates whether there is a pair of "term-predicate" in each definition sentence of the predicate of the predicate pair. The above-mentioned “term-predicate” obtained from a semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance is a feature indicating mutual complementarity of definition statements indicating whether or not to perform Common to the "term-predicate" pair extracted based on the semantic attributes of each predicate in the pair A combination of a partial character string in a character string representing one predicate of the "term-predicate" pair and a partial character string in a character string representing the other predicate, with a taste attribute as a second feature Is the third feature, and the likelihood of the parallel predicate syntax generated including each of the predicates of the “term-predicate” pair is the fourth feature, and any of synonym, anomaly, and irrelevant For each of the “term-predicate” pairs given in advance as a classification, at least one of the first feature and the second feature, the third feature, and the fourth feature, A feature extraction unit that extracts feature sets including, and the feature set extracted by the feature extraction unit for each of the “term-predicate” pairs to which synonyms or anomalies are assigned as classifications, and unrelated are assigned as classifications For each of the "term-predicate" pairs, In addition, the feature set is constructed as an anti-irrelevant classification feature for classifying the “term-predicate” pair into an unrelated or unrelated non-conformity. For each of the “term-predicate pair” to which the synonym is assigned as a classification, for each of the feature set extracted by the feature extraction unit and the “term-predicate” pair to which an anonymity is assigned as a classification A synonym-anonymity classification feature construction unit that constructs the feature set extracted by the feature extraction unit as a synonym-anonymity classification feature for classifying the "term-predicate" pair into synonyms and anomalies And learning the model for classifying the “term-predicate” pair as irrelevant and irrelevant based on the anti-irrelevant classification feature constructed by the same-irrelevant classification feature construction unit. Anti-irrelevant classification model learning unit and the same synonym-anti-sense A synonym-anonymity classification model learning unit that learns a model for classifying a “term-predicate” pair into a synonym and anomaly based on the synonym-anonymity classification feature constructed by the classification feature construction unit; , Including.

第4の発明の分類モデル学習方法は、素性抽出部と、同反−無関係分類素性構築部と、同義−反義分類素性構築部と、同反−無関係分類モデル学習部と、同義−反義分類モデル学習部とを含む分類モデル学習装置における分類モデル学習方法であって、前記素性抽出部は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項‐述部」ペアの述部各々の定義文に基づいて抽出される、前記「項‐述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性、及び前記「項‐述部」ペアの述部の各々の前記定義文内にペアとなる「項‐述部」の項が存在するか否かを表す定義文相互補完性を示す素性のうち少なくとも前記述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項‐述部」ペアの述部各々の意味属性に基づいて抽出される前記「項‐述部」ペアで共通する意味属性を第2の素性とし、前記「項‐述部」ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、前記「項‐述部」ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、同義、反義、及び無関係のうちの何れかが分類として各々予め付与された「項‐述部」ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出し、前記同反−無関係分類素性構築部は、同義又は反義が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合と、無関係が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記「項‐述部」ペアを同義又は反義である同反義と無関係とに分類するための同反−無関係分類素性として構築し、前記同義−反義分類素性構築部は、同義が分類として付与された「項‐述部ペア」の各々について前記素性抽出部により抽出された前記素性集合と、反義が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記「項‐述部」ペアを同義と反義とに分類するための同義−反義分類素性として構築し、前記同反−無関係分類モデル学習部は、前記同反−無関係分類素性構築部により構築された前記同反−無関係分類素性に基づいて、「項‐述部」ペアを同反義と無関係とに分類するためのモデルを学習し、前記同義−反義分類モデル学習部は、前記同義−反義分類素性構築部により構築された前記同義−反義分類素性に基づいて、「項‐述部」ペアを同義と反義とに分類するためのモデルを学習する。   A classification model learning method according to a fourth aspect of the present invention includes a feature extraction unit, a contradiction-independent classification feature construction unit, a synonym-anonymity classification feature construction unit, an anti-inverse classification model learning unit, and a synonym-anonymity. A classification model learning method in a classification model learning device including a classification model learning unit, wherein the feature extraction unit is obtained from a definition sentence set including a definition sentence for each of a plurality of predicates prepared in advance. Whether or not there is a paired predicate in the definition statement of each predicate of the “term-predicate” pair extracted based on the definition statement of each predicate of the “term-predicate” pair A definition indicating whether or not there is a term of “term-predicate” as a pair in the definition statement of each predicate of the “term-predicate” pair Definition statement indicating whether or not at least the preceding description part exists among the features indicating sentence mutual complementarity Meaning of each predicate of the “term-predicate” pair obtained from a semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance as a feature indicating mutual complementarity A partial character string in a character string representing one predicate of the “term-predicate” pair, with the second feature being a semantic attribute common to the “term-predicate” pair extracted based on the attribute The likelihood of the parallel predicate syntax generated by including each of the predicates of the "term-predicate" pair, with the combination of the substring and the partial character string of the character string representing the other predicate as the third feature For each of the “term-predicate” pairs in which any one of synonym, contradiction, and irrelevance is previously assigned as a classification, and the first feature and the second feature A feature set including at least one of the third feature and the fourth feature is extracted. The same-unrelated classification feature construction unit is provided with the feature set extracted by the feature extraction unit for each “term-predicate” pair to which synonym or anomaly is given as a classification, and irrelevant as a classification. In order to classify the feature set extracted by the feature extraction unit for each of the “term-predicate” pairs as being independent of the same or opposite sense of the “term-predicate” pair. The synonym-anonymous classification feature construction unit constructs the feature sets extracted by the feature extraction unit for each of the "term-predicate pair" to which the synonym is assigned as a classification. And the feature set extracted by the feature extraction unit for each of the “term-predicate” pairs to which an anomaly is assigned as a classification, and the “term-predicate” pair is classified into a synonym and an anomaly Synonymous to anonymity-anonymity classification feature The reciprocal-irrelevant classification model learning unit reconstructs the term-predicate pair based on the reciprocal-irrelevant classification feature constructed by the reciprocal-irrelevant classification feature construction unit. The synonym-anonymous classification model learning unit learns a model for irrelevant and unrelated classification, and the synonym-anonymity classification feature construction unit constructs the `` term '' -Learn a model for classifying predicate pairs into synonyms and anomalies.

このように、第3及び第4の発明によれば、同義又は反義が分類として付与された「項‐述部」ペアの各々について抽出された素性集合と、無関係が分類として付与された「項‐述部」ペアの各々について抽出された素性集合とを、同反−無関係分類素性として構築して、同反義と無関係とに分類するモデルを学習し、同義が分類として付与された「項‐述部」ペアの各々について抽出された素性集合と、反義が分類として付与された「項‐述部」ペアの各々について抽出された素性集合とを、同義−反義分類素性として構築して、同義と反義とに分類するためのモデルを学習することにより、「項‐述部」ペアが同義、反義、又は無関係であるか否かを高精度に判定することができる分類モデルを学習することができる。   Thus, according to the third and fourth inventions, feature sets extracted for each of the “term-predicate” pairs to which synonyms or anomalies are assigned as classifications, and unrelated are assigned as classifications. The feature set extracted for each of the “term-predicate” pairs is constructed as a contra-independent class feature, and a model for classifying the class as irrelevant and irrelevant is learned. A feature set extracted for each of the “term-predicate” pairs and a feature set extracted for each of the “term-predicate” pairs to which the anomaly is assigned as a classification are constructed as a synonym-anonymity classification feature Then, by learning a model for classifying synonyms and anomalies, it is possible to determine with high accuracy whether the "term-predicate" pair is synonymous, anomaly, or irrelevant You can learn the model.

また、第3の発明において、前記素性抽出部は、前記「項‐述部」ペアの「項‐述部」の各々について、テキストコーパスにおいて前記「項‐述部」の周辺に出現する単語の共起を計算し、前記「項‐述部」ペアの周辺単語の類似度を計算した分布類似度、及び前記「項‐述部」ペアの述部の各々について、テキストコーパスにおいて前記「項‐述部」の述部の周辺に出現する単語の共起を計算し、前記「項‐述部」ペアの述部の周辺単語の類似度を計算した分布類似度のうち少なくとも前記「項‐述部」ペアの周辺単語の類似度を計算した分布類似度を第5の素性とし、予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記「項‐述部」ペアの述部の各々の機能表現の意味ラベルに基づいて抽出される前記「項‐述部」ペアで共通する意味ラベルを第6の素性とし、前記「項‐述部」ペアの前記共通する意味ラベルの重なり度合いを第7の素性とし、前記「項‐述部」ペアの述部の各々を複合して生成される複合語の尤度を第8の素性とし、前記「項‐述部」ペアの2つの述部が、事態間の関係を表す文において前記事態を表す2つの述部として共起する度合いを第9の素性とし、前記同義、反義、及び無関係のうちの何れかが分類として各々予め付与された「項‐述部」ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性と、前記第5の素性、前記第6の素性、前記第7の素性、前記第8の素性、及び前記第9の素性のうち少なくとも1つとを含む前記素性集合を抽出してもよい。   Further, in the third invention, the feature extraction unit is configured to determine, for each of the “term-predicate” of the “term-predicate” pair, a word appearing around the “term-predicate” in the text corpus. For each of the distribution similarity calculated by calculating the co-occurrence and the similarity of neighboring words of the “term-predicate” pair and the predicate of the “term-predicate” pair in the text corpus, the “term- The co-occurrence of words appearing around the predicate of the predicate is calculated, and at least the “term-predicate” of the distribution similarities of the prevalence of the predicate of the “term-predicate” pair is calculated. The “term” obtained from a semantic label set consisting of semantic labels of functional expressions of each of a plurality of predicates prepared in advance is set as a fifth feature, which is a distribution similarity obtained by calculating the similarity of neighboring words of the “part” pair. -Based on the semantic label of each functional expression of the predicate of the "predicate" pair The meaning label common to the “term-predicate” pair issued is the sixth feature, the overlapping degree of the common semantic labels of the “term-predicate” pair is the seventh feature, and the “term- The likelihood of a compound word generated by compounding each predicate in the “predicate” pair is the eighth feature, and the two predicates in the “term-predicate” pair indicate a relationship between situations. The degree of co-occurrence as two predicates representing the situation in the above is a ninth feature, and any of the above-mentioned synonyms, anomalies, and irrelevances is assigned as a classification to each of the “term-predicate” pairs. For each, at least one of the first feature and the second feature, the third feature, the fourth feature, the fifth feature, the sixth feature, the seventh feature The feature collection including at least one of a feature, the eighth feature, and the ninth feature It may be extracted.

第5の発明の分類判定装置は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、前記述部ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、前記述部ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、入力された述部ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出する素性抽出部と、前記素性抽出部により抽出された前記素性集合と、予め学習された、述部ペアを同義又は反義である同反義と無関係とに分類するためのモデルとに基づいて、前記述部ペアの分類が同反義か無関係かを判定する同反−無関係判定部と、前記同反−無関係判定部により前記述部ペアの分類が同反義であると判定された場合、前記素性抽出部により抽出された前記素性集合と、予め学習された、述部ペアを同義と反義とに分類するためのモデルとに基づいて、前記述部ペアの分類が同義か反義かを判定する同義−反義判定部と、を含んで構成されている。   The classification determination apparatus of the fifth invention is extracted based on a definition sentence of each predicate of a predicate pair obtained from a definition sentence set including a definition sentence for each of a plurality of predicates prepared in advance. A plurality of predicates prepared in advance with the first feature as a feature indicating mutual definition of definition statements indicating whether or not there is a pair of predicates in the definition statement of each predicate of the predescription portion pair A semantic attribute common to the previous description part pair extracted based on the semantic attributes of each predicate of the previous description part pair obtained from the semantic attribute set consisting of the semantic attributes for each The combination of the partial character string in the character string representing one predicate of the part pair and the partial character string in the character string representing the other predicate is a third feature, and the predicate of the predescription part pair The likelihood of the parallel predicate syntax generated including each is the fourth feature, and is input A feature extraction unit that extracts a feature set including at least one of the first feature and the second feature, the third feature, and the fourth feature, and the feature extraction Based on the feature set extracted by the part and the pre-learned model for classifying the predicate pair as irrelevant or irrelevant, the classification of the predescription part pair is the same. If the classification of the previous description part pair is determined to be affirmative by the reciprocity-irrelevance determination part for determining whether it is affirmative or irrelevant, and the reciprocity-irrelevance determination part, it is extracted by the feature extraction part Based on the feature set and a pre-trained model for classifying predicate pairs into synonyms and anomalies Part.

第6の発明の分類判定方法は、素性抽出部と、同反−無関係判定部と、同義−反義判定部とを含む分類判定装置における分類判定方法であって、前記素性抽出部は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、前記述部ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、前記述部ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、入力された述部ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出し、前記同反−無関係判定部は、前記素性抽出部により抽出された前記素性集合と、予め学習された、述部ペアを同義又は反義である同反義と無関係とに分類するためのモデルとに基づいて、前記述部ペアの分類が同反義か無関係かを判定し、前記同義−反義判定部は、前記同反−無関係判定部により前記述部ペアの分類が同反義であると判定された場合、前記素性抽出部により抽出された前記素性集合と、予め学習された、述部ペアを同義と反義とに分類するためのモデルとに基づいて、前記述部ペアの分類が同義か反義かを判定する。   A classification determination method according to a sixth aspect of the present invention is a classification determination method in a classification determination apparatus including a feature extraction unit, a contradiction-irrelevance determination unit, and a synonym-anonymity determination unit, wherein the feature extraction unit The definition of each predicate of the predescription part pair extracted from the definition sentence of each predicate of the predicate pair obtained from the definition sentence set including the definition statements for each of the plurality of prepared predicates. A semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance, with a feature indicating mutual definition of definition statements indicating whether or not there is a pair of predicates in the statement as a first feature A character string representing one predicate of the previous description part pair with the second feature as the semantic attribute common to the previous description part pair extracted based on the semantic attributes of each predicate of the previous description part pair obtained from Of the character string and the character string representing the other predicate Is a third feature, the likelihood of the parallel predicate syntax generated including each of the predicates of the previous description unit pair is a fourth feature, and for the input predicate pair, the first feature A feature set including at least one of a feature and the second feature, the third feature, and the fourth feature is extracted, and the same-irrelevance determining unit is extracted by the feature extracting unit. Based on the feature set and a pre-learned model for classifying predicate pairs as synonymous or anonymity and irrelevant, the classification of the predescription part pair is synonymous or irrelevant. And the synonym-antisense determination unit determines that the feature extracted by the feature extraction unit is determined by the anti-unity determination unit to determine that the classification of the previous description part pair is synonymous. To classify sets and pre-trained predicate pairs into synonyms and anomalies Based of on the model, determine the classification synonymous or anti justified before describing section pairs.

このように、第5及び第6の発明によれば、入力された述部ペアについて抽出された素性集合と、予め学習された同反義と無関係とに分類するモデルとに基づいて、述部ペアの分類が同反義か無関係かを判定し、同反義と判定された場合、抽出された素性集合と、予め学習された同義と反義とに分類するためのモデルとに基づいて、述部ペアの分類が同義か反義かを判定することにより、述部ペアが同義、反義、又は無関係であるか否かを高精度に判定することができる。   As described above, according to the fifth and sixth inventions, based on the feature set extracted for the input predicate pair and the model classified as irrelevant to the pre-learned reciprocity, the predicate If the classification of the pair is determined to be synonymous or irrelevant, and determined to be synonymous, based on the extracted feature set and a model for classifying into pre-learned synonyms and anomalies, By determining whether the predicate pair classification is synonymous or anomaly, it is possible to determine with high accuracy whether the predicate pair is synonymous, anomaly, or irrelevant.

第5の発明によれば、前記素性抽出部は、前記述部ペアの述部の各々について、テキストコーパスにおいて前記述部の周辺に出現する単語の共起を計算し、前記述部ペアの周辺単語の類似度を計算した分布類似度を第5の素性とし、予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記述部ペアの述部の各々の機能表現の意味ラベルに基づいて抽出される前記述部ペアで共通する意味ラベルを第6の素性とし、前記述部ペアの前記共通する意味ラベルの重なり度合いを第7の素性とし、前記述部ペアの述部の各々を複合して生成される複合語の尤度を第8の素性とし、前記述部ペアの2つの述部が、事態間の関係を表す文において前記事態を表す2つの述部として共起する度合いを第9の素性とし、前記入力された述部ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性と、前記第5の素性、前記第6の素性、前記第7の素性、第8の素性、及び前記第9の素性のうち少なくとも1つとを含む前記素性集合を抽出するようにしてもよい。   According to the fifth invention, the feature extraction unit calculates the co-occurrence of words appearing around the previous description unit in the text corpus for each predicate of the previous description unit pair, The distribution similarity obtained by calculating the word similarity is set as the fifth feature, and the predicate of the predescription part pair obtained from the semantic label set made up of the semantic labels of the respective functional expressions of the plurality of predicates prepared in advance. The semantic label common to the previous description part pairs extracted based on the semantic labels of the respective functional expressions is the sixth feature, the overlapping degree of the common semantic labels of the previous description part pair is the seventh feature, The likelihood of the compound word generated by combining each predicate of the description part pair is the eighth feature, and the two predicates of the previous description part pair represent the situation in the sentence representing the relationship between the situations. The ninth feature determines the degree of co-occurrence as two predicates And about the inputted predicate pair, at least one of the first feature and the second feature, the third feature, the fourth feature, the fifth feature, The feature set including at least one of six features, the seventh feature, the eighth feature, and the ninth feature may be extracted.

第7の発明の分類判定装置は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項‐述部」ペアの述部各々の定義文に基づいて抽出される、前記「項‐述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性、及び前記「項‐述部」ペアの述部の各々の前記定義文内にペアとなる「項‐述部」の項が存在するか否かを表す定義文相互補完性を示す素性のうち少なくとも前記述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項‐述部」ペアの述部各々の意味属性に基づいて抽出される前記「項‐述部」ペアで共通する意味属性を第2の素性とし、前記「項‐述部」ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、前記「項‐述部」ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、入力された「項‐述部」ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出する素性抽出部と、前記素性抽出部により抽出された前記素性集合と、予め学習された、「項‐述部」ペアを同義又は反義である同反義と無関係とに分類するためのモデルとに基づいて、前記「項‐述部」ペアの分類が同反義か無関係かを判定する同反−無関係判定部と、前記同反−無関係判定部により前記「項‐述部」ペアの分類が同反義であると判定された場合、前記素性抽出部により抽出された前記素性集合と、予め学習された、「項−述部」ペアを同義と反義とに分類するためのモデルとに基づいて、前記「項‐述部」ペアの分類が同義か反義かを判定する同義−反義判定部と、を含んで構成されている。   The classification judging device of the seventh invention is based on the definition sentences of the predicates of the “term-predicate” pair obtained from the definition sentence set including the definition sentences for each of the plurality of predicates prepared in advance. The extracted feature that indicates whether or not there is a pair of predicates in the definition statement of each predicate of the “term-predicate” pair, and the “term-predicate” There is at least a pre-description part among the features indicating the mutual complementarity of the definition sentence that indicates whether or not there is a pair of "term-predicate" terms in each of the definition sentences of the "part" pair predicates The above-mentioned “term-predicate” obtained from a semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance is a feature indicating mutual definition of definition sentences indicating whether or not Semantic attributes common to the "term-predicate" pair extracted based on the semantic attributes of each predicate of the pair Is the second feature, and the combination of the partial character string in the character string representing one predicate of the “term-predicate” pair and the partial character string in the character string representing the other predicate is the first feature. And the likelihood of the parallel predicate syntax generated including each of the predicates of the “term-predicate” pair is a fourth feature, and the input “term-predicate” pair is A feature extraction unit that extracts a feature set including at least one of the first feature and the second feature, the third feature, and the fourth feature; and the feature extracted by the feature extraction unit Classification of the “term-predicate” pair based on a feature set and a pre-learned model for classifying “term-predicate” pairs as synonymous or anonymity. Are determined by the same-unrelated determination unit and the same-unrelated determination unit. When it is determined that the classification of the “predicate” pair is synonymous, the feature set extracted by the feature extracting unit and the previously learned “term-predicate” pair are defined as synonymous and anomalous. And a synonym-anonymity determination unit that determines whether the classification of the “term-predicate” pair is synonymous or anomaly based on a model for classification.

第8の発明の分類判定方法は、素性抽出部と、同反−無関係判定部と、同義−反義判定部とを含む分類判定装置における分類判定方法であって、前記素性抽出部は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項‐述部」ペアの述部各々の定義文に基づいて抽出される、前記「項‐述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性、及び前記「項‐述部」ペアの述部の各々の前記定義文内にペアとなる「項‐述部」の項が存在するか否かを表す定義文相互補完性を示す素性のうち少なくとも前記述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項‐述部」ペアの述部各々の意味属性に基づいて抽出される前記「項‐述部」ペアで共通する意味属性を第2の素性とし、前記「項‐述部」ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、前記「項‐述部」ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、入力された「項‐述部」ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出し、前記同反−無関係判定部は、前記素性抽出部により抽出された前記素性集合と、予め学習された、「項‐述部」ペアを同義又は反義である同反義と無関係とに分類するためのモデルとに基づいて、前記「項‐述部」ペアの分類が同反義か無関係かを判定し、前記同義−反義判定部は、前記同反−無関係判定部により前記「項‐述部」ペアの分類が同反義であると判定された場合、前記素性抽出部により抽出された前記素性集合と、予め学習された、「項−述部」ペアを同義と反義とに分類するためのモデルとに基づいて、前記「項‐述部」ペアの分類が同義か反義かを判定する。   A classification determination method according to an eighth aspect of the present invention is a classification determination method in a classification determination apparatus including a feature extraction unit, a contradiction-irrelevance determination unit, and a synonym-anonymity determination unit, wherein the feature extraction unit The “term-predicate”, which is extracted based on the definition statement of each predicate of the “term-predicate” pair obtained from the definition statement set including the definition statements for each of the plurality of prepared predicates. A feature indicating mutual complementarity of a definition statement indicating whether or not a predicate as a pair exists in the definition statement of each of the predicates of the pair, and the definition of each of the predicates of the “term-predicate” pair Definition sentence mutual complementarity that indicates whether or not at least the previous description part exists among the features that indicate the mutual complementarity of the definition sentence that indicates whether or not there is a pair of "term-predicate" terms in the sentence. The feature to be shown is the first feature, and the meaning attribute consists of a semantic attribute for each of a plurality of predicates prepared in advance. A semantic attribute common to the “term-predicate” pair extracted from the attribute set and extracted based on the semantic attribute of each predicate of the “term-predicate” pair is set as a second feature, and the “term” The combination of the partial character string in the character string representing one predicate in the “-predicate” pair and the partial character string in the character string representing the other predicate is a third feature, The likelihood of the parallel predicate syntax generated including each of the predicates of the “part” pair is set as a fourth feature, and the first feature and the second feature of the inputted “term-predicate” pair are used. The feature set including at least one of the third feature and the fourth feature is extracted, and the reciprocity-irrelevance determining unit includes the feature set extracted by the feature extracting unit, To classify learned “term-predicate” pairs as irrelevant or unrelated Based on Dell, it is determined whether the classification of the “term-predicate” pair is synonymous or irrelevant. When the pair classification is determined to be synonymous, the feature set extracted by the feature extraction unit and the previously learned “term-predicate” pair are classified into synonym and anomaly. Whether the classification of the “term-predicate” pair is synonymous or affirmative.

このように、第7及び第8の発明によれば、入力された「項‐述部」ペアについて抽出された素性集合と、予め学習された同反義と無関係とに分類するモデルとに基づいて、「項‐述部」ペアの分類が同反義か無関係かを判定し、同反義と判定された場合、抽出された素性集合と、予め学習された同義と反義とに分類するためのモデルとに基づいて、「項‐述部」ペアの分類が同義か反義かを判定することにより、「項‐述部」ペアが同義、反義、又は無関係であるか否かを高精度に判定することができる。   As described above, according to the seventh and eighth inventions, based on the feature set extracted for the inputted “term-predicate” pair and the model classified as irrelevant and learned in advance. Then, it is determined whether the classification of the “term-predicate” pair is synonymous or irrelevant. If it is determined to be synonymous, it is classified into the extracted feature set and the previously learned synonyms and anomalies. To determine whether the term-predicate pair is synonymous, affirmative, or irrelevant by determining whether the classification of the term-predicate pair is synonymous or affirmative It can be determined with high accuracy.

第7の発明の分類判定装置は、前記素性抽出部は、前記「項‐述部」ペアの「項‐述部」の各々について、テキストコーパスにおいて前記「項‐述部」の周辺に出現する単語の共起を計算し、前記「項‐述部」ペアの周辺単語の類似度を計算した分布類似度、及び前記「項‐述部」ペアの述部の各々について、テキストコーパスにおいて前記「項‐述部」の述部の周辺に出現する単語の共起を計算し、前記「項‐述部」ペアの述部の周辺単語の類似度を計算した分布類似度のうち少なくとも前記「項‐述部」ペアの周辺単語の類似度を計算した分布類似度を第5の素性とし、予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記「項‐述部」ペアの述部の各々の機能表現の意味ラベルに基づいて抽出される前記「項‐述部」ペアで共通する意味ラベルを第6の素性とし、前記「項‐述部」ペアの前記共通する意味ラベルの重なり度合いを第7の素性とし、前記「項‐述部」ペアの述部の各々を複合して生成される複合語の尤度を第8の素性とし、前記「項‐述部」ペアの2つの述部が、事態間の関係を表す文において前記事態を表す2つの述部として共起する度合いを第9の素性とし、前記入力された「項‐述部」ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性と、前記第5の素性、前記第6の素性、前記第7の素性、前記第8の素性、及び前記第9の素性のうち少なくとも1つとを含む前記素性集合を抽出することもできる。   In the classification determination device according to a seventh aspect of the invention, the feature extraction unit appears in the vicinity of the “term-predicate” in the text corpus for each “term-predicate” of the “term-predicate” pair. For each of the distribution similarity calculated for the word co-occurrence and the similarity of neighboring words of the “term-predicate” pair and the predicate of the “term-predicate” pair in the text corpus, the “ The co-occurrence of words appearing around the predicate of “term-predicate” is calculated, and at least the “term” of the distribution similarities calculated of the similarities of the peripheral words of the predicate of the “term-predicate” pair The distribution similarity calculated for the similarity of the words in the predicate pair is a fifth feature, and is obtained from a semantic label set made up of semantic labels of each functional expression of a plurality of predicates prepared in advance. Based on the semantic label of each functional expression of the predicate of the "term-predicate" pair A semantic label common to the extracted “term-predicate” pair is defined as a sixth feature, an overlapping degree of the common semantic labels of the “term-predicate” pair is defined as a seventh feature, and the “term” The likelihood of the compound word generated by combining each of the predicates in the “-predicate” pair is the eighth feature, and the two predicates in the “term-predicate” pair represent the relationship between the situations. The degree of co-occurrence as two predicates representing the situation in the sentence is a ninth feature, and at least one of the first feature and the second feature for the input “term-predicate” pair And at least one of the third feature, the fourth feature, the fifth feature, the sixth feature, the seventh feature, the eighth feature, and the ninth feature It is also possible to extract the feature set including one.

なお、第1の素性、第2の素性、第5の素性、第6の素性及び第7の素性は、同義素性である。また、第3の素性、第4の素性、第8の素性、及び第9の素性は、反義素性である。   Note that the first feature, the second feature, the fifth feature, the sixth feature, and the seventh feature are synonymous features. Further, the third feature, the fourth feature, the eighth feature, and the ninth feature are anonymity features.

また、本発明のプログラムは、コンピュータを、上記の分類モデル学習装置又は分類判定装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said classification | category model learning apparatus or classification | category determination apparatus.

以上説明したように、本発明の分類モデル学習装置、方法、及びプログラムによれば、述部ペア又は「項‐述部」ペアが同義、反義、又は無関係であるか否かを高精度に判定することができる分類モデルを学習することができる。   As described above, according to the classification model learning device, method, and program of the present invention, it is highly accurate whether or not a predicate pair or a “term-predicate” pair is synonymous, affirmative, or irrelevant. A classification model that can be determined can be learned.

また、本発明の分類判定装置、方法、及びプログラムによれば、述部ペア又は「項‐述部」ペアが同義、反義、又は無関係であるか否かを高精度に判定することができる。   Furthermore, according to the classification determination apparatus, method, and program of the present invention, it is possible to determine with high accuracy whether a predicate pair or a “term-predicate” pair is synonymous, anonymity, or irrelevant. .

本発明の実施の形態に係る素性ベクトル構築装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the feature vector construction apparatus which concerns on embodiment of this invention. 基本解析部における解析結果の例を示す図である。It is a figure which shows the example of the analysis result in a basic analysis part. 素性抽出部において抽出される素性の例を示す図である。It is a figure which shows the example of the feature extracted in a feature extraction part. 素性ベクトル構築部において構築される素性ベクトルの例を示す図である。It is a figure which shows the example of the feature vector constructed | assembled in the feature vector construction part. 本発明の実施の形態に係る分類モデル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the classification model learning apparatus which concerns on embodiment of this invention. 学習コーパスの例を示す図である。It is a figure which shows the example of a learning corpus. 本発明の実施の形態に係る同義素性抽出部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the synonym feature extraction part which concerns on embodiment of this invention. 分布類似度算出部において算出される分布類似度の例を示す図である。It is a figure which shows the example of the distribution similarity calculated in a distribution similarity calculation part. 定義文抽出部において抽出される定義文の例を示す図である(定義文相互補完性)。It is a figure which shows the example of the definition sentence extracted in a definition sentence extraction part (definition sentence mutual complementarity). 定義文抽出部において抽出される定義文の例を示す図である(語彙の重なり)。It is a figure which shows the example of the definition sentence extracted in a definition sentence extraction part (overlap of vocabulary). 本発明の実施の形態に係る辞書定義文素性抽出部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the dictionary definition sentence feature extraction part which concerns on embodiment of this invention. 辞書定義文素性抽出部で抽出する素性の一覧を示す図である。It is a figure which shows the list of the features extracted in a dictionary definition sentence feature extraction part. 辞書定義文素性抽出部で抽出する素性の例を示す図である。It is a figure which shows the example of the feature extracted in a dictionary definition sentence feature extraction part. 意味属性の例を示す図である。It is a figure which shows the example of a semantic attribute. 意味属性の階層の例を示す図である。It is a figure which shows the example of the hierarchy of a semantic attribute. 本発明の実施の形態に係る意味属性素性抽出部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the semantic attribute feature extraction part which concerns on embodiment of this invention. 意味属性素性抽出部において付与される意味属性の例を示す図である。It is a figure which shows the example of the semantic attribute provided in a semantic attribute feature extraction part. 本発明の実施の形態に係る機能表現素性抽出部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the function representation feature extraction part which concerns on embodiment of this invention. 意味ラベルの例を示す図である。It is a figure which shows the example of a semantic label. 意味ラベル付与部において付与される意味ラベルの例を示す図である。It is a figure which shows the example of the semantic label provided in a semantic label provision part. 本発明の実施の形態に係る反義素性抽出部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the anonymity extraction part which concerns on embodiment of this invention. 複合語のn-gramスコアの例を示す図である。It is a figure which shows the example of the n-gram score of a compound word. 部分文字列特徴抽出部において抽出された部分文字列の例を示す図である。It is a figure which shows the example of the partial character string extracted in the partial character string feature extraction part. 事態間スコア計算部において抽出される事態間スコアの例を示す図である。It is a figure which shows the example of the score between situations extracted in the score calculation part between situations. 事態間データベースの例を示す図である。It is a figure which shows the example of a database between situations. 素性集合記憶部に記憶された素性の例を示す図である。It is a figure which shows the example of the feature memorize | stored in the feature set memory | storage part. 同反−無関係分類素性構築部において構築された素性の例を示す図である。It is a figure which shows the example of the feature constructed | assembled in the anti-irrelevant classification | category feature construction part. 同義−反義分類素性構築部において構築された素性の例を示す図である。It is a figure which shows the example of the feature constructed | assembled in the synonym-anonymity classification | category feature construction part. 本発明の実施の形態に係る分類判定装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the classification determination apparatus which concerns on embodiment of this invention. 同反−無関係判定部の結果の例を示す図である。It is a figure which shows the example of the result of the same anti-irrelevance determination part. 同義−反義判定部の結果の例を示す図である。It is a figure which shows the example of the result of a synonym-antisense determination part. 本発明の実施の形態に係る素性ベクトル構築装置における素性ベクトル構築処理ルーチンを示すフローチャートである。It is a flowchart which shows the feature vector construction process routine in the feature vector construction apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類モデル学習装置における分類モデル学習処理ルーチンを示すフローチャートである。It is a flowchart which shows the classification model learning process routine in the classification model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類モデル学習装置における同義素性の抽出処理ルーチンを示す図である。It is a figure which shows the extraction process routine of a synonym feature in the classification model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類モデル学習装置における分布類似度算出処理ルーチンを示す図である。It is a figure which shows the distribution similarity calculation process routine in the classification model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類モデル学習装置における辞書定義文素性抽出処理ルーチンを示すフローチャートである。It is a flowchart which shows the dictionary definition sentence feature extraction process routine in the classification model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類モデル学習装置における意味属性素性抽出処理ルーチンを示すフローチャートである。It is a flowchart which shows the semantic attribute feature extraction process routine in the classification model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類モデル学習装置における機能表現素性の抽出処理ルーチンを示すフローチャートである。It is a flowchart which shows the extraction process routine of the function expression feature in the classification model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類モデル学習装置における反義素性抽出処理ルーチンを示すフローチャートである。It is a flowchart which shows the anonymity extraction process routine in the classification model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類モデル学習装置における複合語の生成処理ルーチンを示すフローチャートである。It is a flowchart which shows the production | generation process routine of the compound word in the classification model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る分類判定装置における分類判定処理ルーチンを示すフローチャートである。It is a flowchart which shows the classification determination processing routine in the classification determination apparatus which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<発明の原理>
本発明の実施の形態は、2つの異なる「項‐述部」又は述部が与えられた際に、それらが「ランチを−満喫」と「ランチを−堪能」のように「同義」の関係にあるのか、「ランチが−美味しい」と「ランチが−不味い」のような「反義」の関係にあるのか、もしくは「ランチが−高い」と「ランチに−遅れる」のように「無関係」であるのかを計算機で分類する手法に関するものである。
<Principle of the invention>
Embodiments of the present invention provide a relationship between two different “term-predicates” or predicates that are “synonymous” such as “lunch-enjoy” and “lunch-enjoy”. , “Lunch is delicious” and “Lunch is bad”, or “Lunch is expensive” and “Lunch is late”. It is related with the method of classifying by computer.

述部ペアの意味関係を、「同義」、「反義」、及び「無関係」と3つのクラスに自動で分類するために、本実施の形態においては、(a)同義関係にある述部ペアを識別するために、「辞書定義文素性」、「意味属性素性」、「分布類似度」、及び「機能表現素性」という4つの素性を同義素性として用い、(b)反義関係にある述部ペアを識別するために「部分文字列特徴」、「複合語スコア」、「事態間スコア」、及び「文内共起尤度」という4つの素性を反義素性として用い、(c)同義、反義、及び無関係の分類を2段階方式で行う。第一段階として、「同義 or 反義 vs. 無関係」という「同反−無関係」の2値分類を行い、次に「同義」と「反義」とを識別する「同義−反義」の2値分類を行う。このように、2段階に分けて分類を行うことで、意味的に類似している「同義」と「反義」の識別の精度をあげる。   In order to automatically classify the semantic relationship of the predicate pair into three classes, “synonymous”, “anti-righteous”, and “irrelevant”, in this embodiment, (a) predicate pairs in the synonymous relationship (B) a description in an anonymity relationship, using the four features “dictionary definition sentence feature”, “semantic attribute feature”, “distribution similarity”, and “functional expression feature” as synonym features. In order to identify a pair of pairs, the four features “partial string feature”, “compound word score”, “inter-situation score”, and “intra-sentence co-occurrence likelihood” are used as anonymity features, and (c) , Antagonism and irrelevant classification in a two-step manner. As a first step, “synonymous or anomalous vs. irrelevant” binary classification of “synonymous—irrelevant” is performed, and then “synonymous” and “anonymous” are identified. Perform value classification. As described above, classification is performed in two stages, thereby improving the accuracy of identifying semantically similar “synonyms” and “abuses”.

<素性ベクトル構築装置の構成>
本発明の実施の形態に係る素性ベクトル構築装置について説明する。図1に示すように、本発明の実施の形態に係る素性ベクトル構築装置100は、CPUとRAMと後述する素性ベクトル構築処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この素性ベクトル構築装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部30とを備えている。
<Configuration of feature vector construction device>
A feature vector construction device according to an embodiment of the present invention will be described. As shown in FIG. 1, a feature vector construction apparatus 100 according to an embodiment of the present invention includes a CPU, a RAM, and a ROM that stores programs and various data for executing a feature vector construction processing routine described later. Can be configured with a computer. Functionally, the feature vector construction device 100 includes an input unit 10, a calculation unit 20, and an output unit 30 as shown in FIG.

入力部10は、キーボードなどの入力装置から自然言語で記載され且つ電子化された複数の文を受け付ける。この複数の文による集合をテキストコーパスと呼ぶ。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。   The input unit 10 receives a plurality of sentences written in a natural language and digitized from an input device such as a keyboard. This set of sentences is called a text corpus. Note that the input unit 10 may accept input from the outside via a network or the like.

演算部20は、基本解析部24と、素性抽出部26と、素性ベクトル構築部28とを備えている。   The calculation unit 20 includes a basic analysis unit 24, a feature extraction unit 26, and a feature vector construction unit 28.

基本解析部24には、入力部10が受け付けたテキストコーパスが入力される。基本解析部24は、入力されたテキストコーパスの各文について、形態素解析及び係り受け解析を行い、形態素毎の表記と標準形と品詞、および文節ごとの係り受け情報が少なくとも含まれる解析結果を素性抽出部26に出力する。図2に「花を植えて、花壇が完成した。」という文に対する基本解析部24の出力の一例を示す。なお、形態素解析、係り受け解析は既存のものを用いて良い。 A text corpus received by the input unit 10 is input to the basic analysis unit 24. The basic analysis unit 24 performs morphological analysis and dependency analysis for each sentence of the input text corpus, and features an analysis result including at least morpheme notation, standard form and part of speech, and dependency information for each clause. The data is output to the extraction unit 26. FIG. 2 shows an example of the output of the basic analysis unit 24 with respect to the sentence “planting flowers and flower beds completed”. Note that existing morphological analysis and dependency analysis may be used.

素性抽出部26は、基本解析部24から入力される各文の解析結果を用い、各文に含まれる「項-述部」に対して、その「項−述部」の周辺に現れる単語の情報(文脈情報)を項−述部素性として抽出して出力する。また、素性抽出部26は、基本解析部24から入力される各文の解析結果を用い、各文に含まれる述部に対して、その述部の周辺に現れる単語の情報(文脈情報)を述部素性として抽出して出力する。本実施の形態では、例えば非特許文献2(柴田知秀・黒橋禎夫(2010). 文脈に依存した述語の同義関係獲得. IPSJ SIG Notes 2010-NL-199(13), 1-6.)と同じ方法で項−述部素性や述部素性を抽出する。具体的には、対象の「項−述部」に係っている別の「項−述部」、「述部」を項−述部素性として抽出する。さらに、「述部」単体に係っている項(格助詞をもつ名詞句)、及び別の「述部」を述部素性として抽出する。本実施の形態での素性抽出部26の出力の一例を図3に示す。図3に示す通り、「花壇-ガ-完成する」という「項-述部」に対して、「植える」という「述部」および、「花-ヲ-植える」という別の「項-述部」を項−述部素性として抽出する。また、「完成する」という述部に対しては、「花壇-ガ」という項と「植える」という述部を述部素性として抽出する。   The feature extraction unit 26 uses the analysis result of each sentence input from the basic analysis unit 24, and with respect to the “term-predicate” included in each sentence, Information (context information) is extracted and output as a term-predicate feature. In addition, the feature extraction unit 26 uses the analysis result of each sentence input from the basic analysis unit 24, and for the predicate included in each sentence, information (word context information) of words appearing around the predicate. Extract and output as predicate features. In this embodiment, for example, Non-Patent Document 2 (Tomohide Shibata, Ikuo Kurohashi (2010). Acquiring synonym relations of predicates depending on context. IPSJ SIG Notes 2010-NL-199 (13), 1-6.) Extract term-predicate features and predicate features in the same way. Specifically, another “term-predicate” and “predicate” related to the target “term-predicate” are extracted as a term-predicate feature. Furthermore, a term (noun phrase having a case particle) related to a single “predicate” and another “predicate” are extracted as predicate features. An example of the output of the feature extraction unit 26 in the present embodiment is shown in FIG. As shown in FIG. 3, “predicate” “planting” and “term-predicate” “flower-wo-planting” are compared to “term-predicate” “flowerbed-ga-complete”. As a term-predicate feature. For the predicate “complete”, the term “flowerbed-ga” and the predicate “plant” are extracted as predicate features.

素性ベクトル構築部28は、基本解析部24から入力される各文の解析結果を用いて、各文に含まれる「項−述部」を素性ベクトル構築対象の「項−述部」として抽出する。そして、素性ベクトル構築部28は、抽出された素性ベクトル構築対象の「項-述部」ごとに、素性抽出部26から入力される項−述部素性を用いて算出される値を要素とする素性ベクトルを構築し、出力部30に出力する。また、素性ベクトル構築部28は、基本解析部24から入力される各文の解析結果を用いて、各文に含まれる述部を素性ベクトル構築対象の述部として抽出する。そして、素性ベクトル構築部28は、抽出された素性ベクトル構築対象の述部ごとに、素性抽出部26から入力される述部素性を用いて算出される値を要素とする素性ベクトルを構築し、出力部30に出力する。本実施の形態では、例えば、上記の非特許文献2と同じ方法で素性ベクトルを構築する。具体的には、素性ベクトル構築対象の「項−述部」と各項−述部素性の相互情報量(MI)をもとに算出されるweightの値を要素の値とする素性ベクトルを構築する。また、素性ベクトル構築対象の述部と各述部素性の相互情報量(MI)をもとに算出されるweightの値を要素の値とする素性ベクトルを構築する。weightは、下記(1)式を用いて算出される。また、相互情報量(MI)は、下記(2)式を用いて算出される。   The feature vector construction unit 28 uses the analysis result of each sentence input from the basic analysis unit 24 to extract “term-predicate” included in each sentence as “term-predicate” of the feature vector construction target. . Then, the feature vector construction unit 28 uses, as elements, values calculated using the term-predicate features input from the feature extraction unit 26 for each “term-predicate” of the extracted feature vector construction target. A feature vector is constructed and output to the output unit 30. Also, the feature vector construction unit 28 extracts predicates included in each sentence as feature vector construction target predicates using the analysis result of each sentence input from the basic analysis unit 24. Then, the feature vector construction unit 28 constructs a feature vector whose elements are values calculated using the predicate feature input from the feature extraction unit 26 for each extracted predicate of the feature vector construction target, Output to the output unit 30. In the present embodiment, for example, a feature vector is constructed by the same method as in Non-Patent Document 2 described above. Specifically, construct a feature vector whose element value is the weight value calculated based on the mutual information (MI) of the term-predicate feature and the term-predicate feature. To do. In addition, a feature vector having a weight value calculated based on a predicate to be feature vector construction target and a mutual information (MI) of each predicate feature as an element value is constructed. The weight is calculated using the following formula (1). The mutual information (MI) is calculated using the following equation (2).

素性ベクトル構築対象が「項-述部」の場合の素性ベクトルを項−述部素性ベクトルと呼ぶ。素性ベクトル構築対象が「項-述部」の場合、uは「項-述部」を表し、fは項−述部素性を表す。P(u)は素性ベクトル構築対象の「項−述部」がテキストコーパスに出現する確率を、P(f)は項−述部素性がテキストコーパスに出現する確率、P(u,f)は素性ベクトル構築対象の「項-述部」と項−述部素性が同時に現れる確率を表す。MIが0より大きい場合、weightの値は1となる。MIが0以下の場合、weightの値は0となる。図4上の表に構築された項−述部素性ベクトルの例を示す。例では、uが「花壇-ガ-完成」、fが「花-ヲ-植える」の場合、MIが0より大きくweightの値が1であることを示している。また、uが「花壇-ガ-出来上がる」、fが「時間-ヲ-かける」の場合、MIが0以下でweightの値が0であることを示している。   A feature vector when the feature vector construction target is “term-predicate” is called a term-predicate feature vector. When the feature vector construction target is “term-predicate”, u represents “term-predicate”, and f represents the term-predicate feature. P (u) is the probability that the “term-predicate” of the feature vector construction target appears in the text corpus, P (f) is the probability that the term-predicate feature appears in the text corpus, and P (u, f) is Represents the probability that the “term-predicate” and term-predicate features that are feature vector construction targets will appear simultaneously. When MI is greater than 0, the value of weight is 1. When MI is 0 or less, the value of weight is 0. An example of the term-predicate feature vector constructed in the table on FIG. 4 is shown. In the example, when u is “flowerbed-ga-complete” and f is “flower-wo-plant”, it indicates that MI is greater than 0 and the weight value is 1. Further, when u is “flowerbed-ga-finished” and f is “time-over”, it indicates that MI is 0 or less and the weight value is 0.

素性ベクトル構築対象が述部の場合の素性ベクトルを述部素性ベクトルと呼ぶ。素性ベクトル構築対象が述部の場合、uは述部を表し、fは述部素性を表す。P(u)は素性ベクトル構築対象の述部がテキストコーパスに出現する確率を、P(f)は述部素性がテキストコーパスに出現する確率、P(u,f)は素性ベクトル構築対象の述部と述部素性が同時に現れる確率を表す。MIが0より大きい場合、weightの値は1となる。MIが0以下の場合、weightの値は0となる。図5下の表に構築された述部素性ベクトルの例を示す。例では、uが「完成」、fが「花壇-ガ」の場合、MIが0より大きくweightの値が1であることを示している。また、uが「出来上がる」、fが「家-ガ」の場合、MIが0以下でweightの値が0であることを示している。   A feature vector when a feature vector construction target is a predicate is called a predicate feature vector. When the feature vector construction target is a predicate, u represents a predicate, and f represents a predicate feature. P (u) is the probability that the predicate of the feature vector construction target appears in the text corpus, P (f) is the probability that the predicate feature appears in the text corpus, and P (u, f) is the description of the feature vector construction target. Represents the probability that a part and predicate feature will appear simultaneously. When MI is greater than 0, the value of weight is 1. When MI is 0 or less, the value of weight is 0. An example of the predicate feature vector constructed in the lower table of FIG. 5 is shown. In the example, when u is “complete” and f is “flowerbed-ga”, MI is greater than 0 and the weight value is 1. Further, when u is “completed” and f is “house-ga”, it indicates that MI is 0 or less and the weight value is 0.

このように、本実施の形態では、入力されたテキストコーパスに含まれる各述部を素性ベクトルの構築対象とした述部素性ベクトルと、入力されたテキストコーパスに含まれる各「項-述部」を素性ベクトルの構築対象とした項−述部素性ベクトルの2種類(以下、両者を合わせて「素性ベクトル」とする。)を作成する。なお、本実施の形態では、述部素性ベクトルと項−述部素性ベクトルの両方を作成したが、後述する分類モデル学習装置及び分類判定装置で使用される素性ベクトルのみを作成すれば良い。   As described above, in the present embodiment, the predicate feature vector in which each predicate included in the input text corpus is a construction target of the feature vector, and each “term-predicate” included in the input text corpus. 2 types of term-predicate feature vectors (hereinafter referred to as “feature vector” together) are created. In this embodiment, both the predicate feature vector and the term-predicate feature vector are created. However, only the feature vector used in the classification model learning device and the classification determination device described later may be created.

<分類モデル学習装置の構成>
次に、本発明の実施の形態に係る分類モデル学習装置の構成について説明する。図5に示すように、本発明の実施の形態に係る分類モデル学習装置200は、CPUとRAMと後述する分類モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この分類モデル学習装置200は、機能的には図5に示すように入力部210と、演算部220と、出力部250とを備えている。
<Configuration of classification model learning device>
Next, the configuration of the classification model learning device according to the embodiment of the present invention will be described. As shown in FIG. 5, the classification model learning device 200 according to the embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program for executing a classification model learning processing routine described later and various data. It can consist of computers. Functionally, the classification model learning device 200 includes an input unit 210, a calculation unit 220, and an output unit 250 as shown in FIG.

入力部210は、キーボードなどの入力装置から同義、反義、及び無関係の何れかの分類の情報が各々付与された複数の述部ペア及び複数の「項−述部」ペアを受け付ける。この、同義、反義、又は無関係のような述部ペアの分類を「述部クラス」とする。また、述部クラスの情報が付与された複数の述部ペア及び複数の「項−述部」ペアを学習コーパスと呼ぶ。図6に学習コーパスの一例を示す。なお、入力部210は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。   The input unit 210 accepts a plurality of predicate pairs and a plurality of “term-predicate” pairs to which information of any of the same meaning, anomaly, and irrelevant classification is given from an input device such as a keyboard. This predicate pair classification, which is synonymous, affirmative, or unrelated, is referred to as a “predicate class”. Also, a plurality of predicate pairs and a plurality of “term-predicate” pairs to which predicate class information is assigned are referred to as a learning corpus. FIG. 6 shows an example of a learning corpus. Note that the input unit 210 may accept input from the outside via a network or the like.

演算部220は、学習コーパス記憶部222と、同義素性抽出部224と、反義素性抽出部226と、素性集合記憶部228と、同反−無関係分類素性構築部230と、同反−無関係分類素性記憶部232と、同反−無関係分類モデル学習部234と、同反−無関係分類モデル記憶部236と、同義−反義分類素性構築部240と、同義−反義分類素性記憶部242と、同義−反義分類モデル学習部244と、同義−反義分類モデル記憶部246と、を含んだ構成で表すことができる。   The calculation unit 220 includes a learning corpus storage unit 222, a synonym feature extraction unit 224, an antonym feature extraction unit 226, a feature set storage unit 228, an anti-independent classification feature construction unit 230, and an anti-independent classification. A feature storage unit 232, an anti-independent classification model learning unit 234, an anti-independent classification model storage unit 236, a synonym-anonymity classification feature construction unit 240, and a synonym-anonymity classification feature storage unit 242; A synonym-anonymity classification model learning unit 244 and a synonym-anonymity classification model storage unit 246 can be used.

学習コーパス記憶部222は、入力部210において受け付けた学習コーパスを記憶している。   The learning corpus storage unit 222 stores the learning corpus received by the input unit 210.

同義素性抽出部224の詳細構成を図7に示す。同義素性抽出部224は、素性ベクトル記憶部300と、分布類似度計算部302と、定義文辞書記憶部304と、辞書定義文素性抽出部306と、意味属性辞書記憶部308と、意味属性素性抽出部310と、機能表現辞書記憶部312と、機能表現素性抽出部314とを含んだ構成で表すことができる。   A detailed configuration of the synonym feature extraction unit 224 is shown in FIG. The synonym feature extraction unit 224 includes a feature vector storage unit 300, a distribution similarity calculation unit 302, a definition sentence dictionary storage unit 304, a dictionary definition sentence feature extraction unit 306, a semantic attribute dictionary storage unit 308, and a semantic attribute feature. It can be expressed by a configuration including an extraction unit 310, a function expression dictionary storage unit 312, and a function expression feature extraction unit 314.

同義素性抽出部224は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア及び「項‐述部」ペア)の各々について、分布類似度、辞書定義文素性、意味属性素性、及び機能表現素性を抽出する。なお、分布類似度、辞書定義文素性、意味属性素性、及び機能表現素性を併せて同義素性とする。   The synonym feature extraction unit 224 determines the distribution similarity, dictionary definition sentence feature, meaning for each of all the learning corpus pairs (predicate pair and “term-predicate” pair) stored in the learning corpus storage unit 222. Extract attribute features and functional representation features. Note that the distribution similarity, dictionary definition sentence feature, semantic attribute feature, and functional expression feature are collectively synonymous.

素性ベクトル記憶部300は、素性ベクトル構築装置100により出力された素性ベクトルを記憶している。   The feature vector storage unit 300 stores the feature vector output by the feature vector construction device 100.

分布類似度計算部302は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア及び「項‐述部」ペア)の各々に対して、素性ベクトル記憶部300から得られる、対応する素性ベクトルを用いて、分布類似度を計算し、計算結果をその計算対象のペア(述部ペア及び「項‐述部」ペア)とともに素性集合記憶部228に出力する。述部素性ベクトルを用いて計算される分布類似度を述部分布類似度と呼び、項−述部素性ベクトルを用いて計算される分布類似度を項−述部分布類似度と呼ぶ。述部ペアに対して分布類似度を計算する場合は、述部に関しての情報のみを使うため、述部分布類似度のみが算出されるが、「項-述部」ペアに対して分布類似度を計算する場合は、「項-述部」に関しての情報のみならず、述部に関する情報も使うことができるため、項−述部分布類似度と述部分布類似度の両方を算出することができる。分布類似度の計算は、素性ベクトル構築装置100によってテキストコーパスから得られた述部素性ベクトル及び項−述部素性ベクトルの少なくとも一方を用いて分布類似度を計算する処理である。また、本実施の形態では、上記の非特許文献2と同じ方法で分布類似度を計算する。具体的には、下記(3)〜(5)式を用いて分布類似度measureを計算する。   The distribution similarity calculation unit 302 obtains from the feature vector storage unit 300 for all of the learning corpus pairs (predicate pairs and “term-predicate” pairs) stored in the learning corpus storage unit 222. The distribution similarity is calculated using the corresponding feature vector, and the calculation result is output to the feature set storage unit 228 together with the calculation target pair (predicate pair and “term-predicate” pair). A distribution similarity calculated using a predicate feature vector is called a predicate distribution similarity, and a distribution similarity calculated using a term-predicate feature vector is called a term-predicate distribution similarity. When calculating the distribution similarity for a predicate pair, only the information about the predicate is used, so only the predicate distribution similarity is calculated, but the distribution similarity for the “term-predicate” pair. When calculating, it is possible to use not only information related to “term-predicate” but also information related to predicate, so it is possible to calculate both term-predicate distribution similarity and predicate distribution similarity. it can. The calculation of the distribution similarity is a process of calculating the distribution similarity using at least one of the predicate feature vector and the term-predicate feature vector obtained from the text corpus by the feature vector construction apparatus 100. In the present embodiment, the distribution similarity is calculated by the same method as in Non-Patent Document 2 described above. Specifically, the distribution similarity measure is calculated using the following equations (3) to (5).

ただし、上記(4)式の、JACCARD係数の分子は、項−述部素性ベクトルを用いて分布類似度の算出を行う場合、2つの項−述部素性ベクトルを要素毎に比較したときに、一方の項−述部素性ベクトルの要素の値が1であり、且つ他方の項−述部素性ベクトルの要素の値も1である要素の個数である。また、JACCARD係数の分母は、分布類似度の算出に用いるペアの2つの項−述部素性ベクトルを要素毎に比較したときに、一方の項−述部素性ベクトルの要素および他方の項−述部素性ベクトルの要素の少なくとも一方の要素の値が1である要素の個数である。 However, in the numerator of the JACCARD coefficient in the above equation (4), when the distribution similarity is calculated using the term-predicate feature vector, when the two term-predicate feature vectors are compared for each element, The number of elements in which the value of the element of one term-predicate feature vector is 1 and the value of the element of the other term-predicate feature vector is also 1. In addition, the denominator of the JACCARD coefficient is obtained by comparing one term-predicate feature vector element and the other term-description when comparing two pairs of term-predicate feature vectors used for calculating the distribution similarity. This is the number of elements in which the value of at least one of the elements of the partial feature vector is 1.

また、上記(5)式の、SIMPSON係数の分子は、JACCARD係数の分子と同様であり、SIMPSON係数の分母は、算出に用いるペアの項−述部素性ベクトルにおいて要素の値が1である要素の個数と、他方の項−述部素性ベクトルにおいて要素の値が1である要素の個数のうち、少ないほうの個数である。 In addition, the numerator of the SIMPSON coefficient in the above equation (5) is the same as the numerator of the JACCARD coefficient, and the denominator of the SIMPSON coefficient is an element whose element value is 1 in the pair term-predicate feature vector used for calculation. And the smaller of the number of elements whose element value is 1 in the other term-predicate feature vector.

また、述部素性ベクトルを用いて分布類似度の算出を行う場合、上記(4)式の、JACCARD係数の分子は、2つの述部素性ベクトルを要素毎に比較したときに、一方の述部素性ベクトルの要素の値が1であり、且つ他方の述部素性ベクトルの要素の値も1である要素の個数である。また、JACCARD係数の分母は、分布類似度の算出に用いるペアの2つの述部素性ベクトルを要素毎に比較したときに、一方の述部素性ベクトルの要素および他方の述部素性ベクトルの要素の少なくとも一方の要素の値が1である要素の個数である。 Also, when calculating the distribution similarity using the predicate feature vector, the numerator of the JACCARD coefficient in the above equation (4) is one predicate when the two predicate feature vectors are compared for each element. This is the number of elements whose element value of the feature vector is 1 and whose element value of the other predicate feature vector is also 1. In addition, the denominator of the JACCARD coefficient is obtained by comparing the elements of one predicate feature vector and the elements of the other predicate feature vector when the two predicate feature vectors of the pair used for calculating the distribution similarity are compared for each element. This is the number of elements in which the value of at least one element is 1.

また、上記(5)式の、SIMPSON係数の分子は、JACCARD係数の分子と同様であり、SIMPSON係数の分母は、算出に用いるペアの述部素性ベクトルにおいて要素の値が1である要素の個数と、他方の述部素性ベクトルにおいて要素の値が1である要素の個数のうち、少ないほうの個数である。 In addition, the numerator of the SIMPSON coefficient in the above equation (5) is the same as the numerator of the JACCARD coefficient, and the denominator of the SIMPSON coefficient is the number of elements whose element value is 1 in the pair predicate feature vector used for calculation. And the smaller of the number of elements whose element value is 1 in the other predicate feature vector.

なお、本実施の形態では述部分布類似度と項−述部分布類似度の両方を用いる。図8に「花壇-ガ-完成する」と「花壇-ガ-出来上がる」の分布類似度の例を示す。図8の表の上段が項−述部分布類似度の例であり、下段が述部分布類似度の例である。述部分布類似度と項−述部分布類似度あわせて分布類似度と呼ぶ。また、分布類似度が第5の素性の一例である。   In this embodiment, both the predicate distribution similarity and the term-predicate distribution similarity are used. FIG. 8 shows an example of the distribution similarity of “flowerbed-ga-complete” and “flowerbed-ga-complete”. The upper part of the table of FIG. 8 is an example of the term-predicate distribution similarity, and the lower part is an example of the predicate distribution similarity. The predicate distribution similarity and the term-predicate distribution similarity are collectively referred to as distribution similarity. The distribution similarity is an example of a fifth feature.

定義文辞書記憶部304は、複数の述部の各々に対応する定義文セットを格納した定義文辞書を記憶している。定義文辞書は、既存の国語辞書や、複数のユーザによって加筆・編集されたWeb上のフリー辞書を用いても良い。なお、定義文辞書が定義文集合の一例である。   The definition sentence dictionary storage unit 304 stores a definition sentence dictionary that stores a definition sentence set corresponding to each of the plurality of predicates. As the definition sentence dictionary, an existing national language dictionary or a free dictionary on the Web that has been added and edited by a plurality of users may be used. The definition sentence dictionary is an example of a definition sentence set.

<辞書定義文素性抽出部の構成>
辞書定義文素性抽出部306は、学習コーパス記憶部222に記憶されている学習コーパスのすべての述部ペアの内容語又はすべての「項−述部」ペアの述部の内容語の各々に関して、定義文辞書記憶部304に記憶されている定義文辞書に基づいて「定義文相互補完性」を示す素性と「語彙の重なり」を示す素性を抽出し、抽出対象のペアとともに素性集合記憶部228に出力する。定義文辞書は、複数の述部の内容語の各々に対応する1つ以上の定義文からなり、定義文辞書から抽出される各々の1つ以上の定義文のセットを定義文セットと呼ぶ。なお、定義文相互補完性を示す素性と語彙の重なりを示す素性とをあわせて辞書定義文素性と呼ぶ。なお、定義文相互補完性を示す素性が第1の素性の一例である。
<Configuration of dictionary definition sentence feature extraction unit>
The dictionary definition sentence feature extraction unit 306 relates to the content words of all the predicate pairs of the learning corpus stored in the learning corpus storage unit 222 or the content words of the predicates of all “term-predicate” pairs. Based on the definition sentence dictionary stored in the definition sentence dictionary storage unit 304, a feature indicating “definition sentence mutual complementarity” and a feature indicating “overlapping vocabulary” are extracted, and a feature set storage unit 228 together with a pair to be extracted. Output to. The definition sentence dictionary includes one or more definition sentences corresponding to the content words of the plurality of predicates, and each set of one or more definition sentences extracted from the definition sentence dictionary is referred to as a definition sentence set. Note that the feature indicating the definition sentence mutual complementarity and the feature indicating the vocabulary overlap are collectively referred to as a dictionary definition sentence feature. The feature indicating the definition sentence mutual complementarity is an example of the first feature.

「同義の述部はその語義を説明する相互の定義文セットに類似性がある」という特徴から、辞書定義文素性抽出部306により、「定義文相互補完性」と「語彙の重なり」を示す素性を抽出する。   The dictionary definition sentence feature extraction unit 306 indicates “definition sentence mutual complementarity” and “overlapping vocabulary” based on the feature that “synonymous predicates have similarities in mutual definition sentence sets explaining the meaning”. Extract features.

ここで、「定義文相互補完性」とは、相手の述部の定義文セット内に自分の述部が出現することをいい、図9に示す「完成する」と「出来上がる」の2つの同義である述部を例にとると、「完成」という述部が、同義である「出来上がる」の辞書定義文セット内に現れており、また「出来上がる」という述部が、同義である「完成」の辞書定義文セット内に出現していることをいう。   Here, “definition statement mutual complementarity” means that one's predicate appears in the definition statement set of the other's predicate, and is synonymous with “complete” and “complete” shown in FIG. For example, the predicate “complete” appears in the synonymous “finished” dictionary definition sentence set, and the predicate “completed” is synonymous with “completed”. Appears in the dictionary definition sentence set.

また、「語彙の重なり」とは、定義文セット同士で語彙が重なっていることをいい、図10に示す「値段−ガ−高値」と「値段−ガ−高い」の2つの同義である述部を例にとると、双方の定義文セットに「値段」という語彙が共通に出現していることをいう。   Further, “overlapping vocabulary” means that vocabulary overlaps between definition sentence sets, and is a statement having two synonyms of “price-ga-high” and “price-ga-high” shown in FIG. For example, the term “price” appears in both definition sentence sets.

このように、「同義の述部はその語義を説明する相互の定義文セットに類似性がある」という特徴があり、この特徴を「定義文相互補完性」もしくは「語彙の重なり」という形で表現することができる。なお、以後は説明のため、「花壇−ガ−出来上がる」と「花壇−ガ−完成する」のような「項−述部」ペアに対して、最初の「項−述部」の述部(すなわち、「出来上がる」)をPred1、「項」(すなわち、「花壇」)をArg1、2つ目の「項−述部」の述部(すなわち、「完成する」)をPred2、項(すなわち、「花壇」)をArg2とする。同様に、「出来上がる」と「完成する」のような述部ペアに対しても、最初の述部をPred1、2つ目の述部をPred2とする。   In this way, there is a feature that “synonymous predicates have similarities in mutual definition sentence sets that explain the meaning”, and this feature is expressed in the form of “definition mutual complementarity” or “vocabulary overlap”. Can be expressed. For the sake of explanation, the first “term-predicate” predicate (for the “term-predicate” pair such as “flowerbed-ga-finish” and “flowerbed-ga-complete”) ( That is, “complete”) is Pred1, “term” (ie, “flowerbed”) is Arg1, the second “term-predicate” predicate (ie, “completed”) is Pred2, and term (ie, “complete”). “Flowerbed”) is designated Arg2. Similarly, for predicate pairs such as “completed” and “completed”, the first predicate is Pred1, and the second predicate is Pred2.

辞書定義文素性抽出部306の詳細構成を図11に示す。辞書定義文素性抽出部306は、定義文抽出部400と、定義文相互補完性抽出部402と、語彙の重なり抽出部404とを含んだ構成で表すことができる。   A detailed configuration of the dictionary definition sentence feature extraction unit 306 is shown in FIG. The dictionary definition sentence feature extraction unit 306 can be represented by a configuration including a definition sentence extraction unit 400, a definition sentence mutual complementarity extraction unit 402, and a vocabulary overlap extraction unit 404.

定義文抽出部400は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア及び「項‐述部」ペア)の各々の述部の内容語に対して、定義文辞書記憶部304に記憶されている定義文辞書の辞書引きを行い、述部ペア又は「項−述部」ペアごとにそれぞれの述部の定義文セットを抽出する。そして、抽出した定義文セットの形態素解析を行い、形態素毎の表記と標準形と品詞、および読みが少なくとも含まれる解析結果を定義文相互補完性抽出部402及び語彙の重なり抽出部404に出力する。   The definition sentence extraction unit 400 defines a definition sentence for the content words of each predicate of all pairs (predicate pairs and “term-predicate” pairs) of the learning corpus stored in the learning corpus storage unit 222. Dictionary definition of the definition sentence dictionary stored in the dictionary storage unit 304 is performed, and a definition sentence set of each predicate is extracted for each predicate pair or “term-predicate” pair. Then, morphological analysis is performed on the extracted definition sentence set, and an analysis result including at least a notation, a standard form, a part of speech, and a reading for each morpheme is output to the definition sentence mutual complementarity extraction unit 402 and the vocabulary overlap extraction unit 404. .

定義文相互補完性抽出部402は、抽出対象のペア(述部ペア又は「項−述部」ペア)ごとに、定義文抽出部400から入力された定義文セットの形態素解析の結果から、定義文相互補完性を示す素性を抽出し、抽出対象のペアとともに素性集合記憶部228に出力する。具体的には、Pred1の定義文セット内にPred2が出現したか、また、Pred2の定義文セット内にPred1が出現したかを文字列マッチで抽出する。Pred2の定義文セット内にPred1が出現したかどうかをPred1Match、また、Pred1の定義文セット内にPred2が出現したかどうかをPred2Matchとする。本実施の形態では、出現した場合には、素性の値を1とする。同様に、Pred1の定義文セット内に、Arg2が出現したか、またPred2の定義文セット内にArg1が出現したかを抽出し、出現した場合には、素性の値を1とする。Pred2の定義文セット内に、Arg1が出現したかどうかをArg1Match、また、Pred1の定義文セット内にArg2が出現したかどうかをArg2Matchとする。なお、これらの値は、重なり回数や重なり回数を定義文セットの総単語数で正規化した値など実数値を入れてもよい。   The definition sentence mutual complementarity extraction unit 402 defines, for each extraction target pair (predicate pair or “term-predicate” pair), from the result of the morphological analysis of the definition sentence set input from the definition sentence extraction unit 400. A feature indicating sentence mutual complementarity is extracted and output to the feature set storage unit 228 together with the pair to be extracted. Specifically, whether Pred2 appears in the definition sentence set of Pred1 or whether Pred1 appears in the definition sentence set of Pred2 is extracted by character string matching. Whether Pred1 appears in the definition sentence set of Pred2 is Pred1Match, and whether Pred2 appears in the definition sentence set of Pred1 is Pred2Match. In the present embodiment, the feature value is set to 1 when it appears. Similarly, whether Arg2 has appeared in the definition sentence set of Pred1 or whether Arg1 has appeared in the definition sentence set of Pred2 is extracted. Arg1Match indicates whether Arg1 appears in the definition sentence set of Pred2, and Arg2Match indicates whether Arg2 appears in the definition sentence set of Pred1. Note that these values may include real numbers such as the number of overlaps and the value obtained by normalizing the number of overlaps with the total number of words in the definition sentence set.

本実施の形態では、定義文相互補完性を示す素性として、Pred1Match、Pred2Match、Arg1Match、Arg2Matchの全てを使っているが、定義文相互補完性を示す素性を使う場合において、Arg1MatchとArg2Matchは使わなくてもよい。また、述部ペアを対象とする場合はPred1MatchとPred2Matchのみを使う。   In this embodiment, all of Pred1Match, Pred2Match, Arg1Match, and Arg2Match are used as features indicating mutual definition of definition sentences. However, Arg1Match and Arg2Match are not used when using features indicating mutual complementarity of definition sentences. May be. When predicate pairs are targeted, only Pred1Match and Pred2Match are used.

語彙の重なり抽出部404は、抽出対象のペア(述部ペア又は「項−述部」ペア)ごとに、定義文抽出部400から入力した定義文セットの形態素解析の結果から、抽出対象のペアの述部の定義文セット同士に語彙の重なりがあるかを示す素性を抽出し、抽出対象のペアとともに素性集合記憶部228に出力する。本実施の形態では、両方の定義文セットに共通して出現する語彙の個数を素性とし、語彙の品詞(非自立性を除く名詞、動詞、形容詞、形容動詞と4種類の品詞)毎に集計する。ここで、両方の定義文セットに共通して出現する名詞の品詞をもつ語彙の個数をNounMatch、動詞の品詞をもつ語彙の個数をVerbMatch、形容詞の品詞をもつ語彙の個数をAdjMatch、及び形容動詞の品詞をもつ語彙の個数をAdjNMatchと呼ぶ(図12)。本実施の形態では、語彙の重なりを示す素性として、NounMatch、VerbMatch、AdjMatch、AdjNMatchの全てを使っているが、少なくとも1つの素性があれば良い。なお、両方の定義文セットに共通して出現する語彙の個数ではなく、両方の定義文セットに共通して出現する語彙の有無を素性とし、語彙の品詞毎に集計してもよく、有りの場合に値を1にして無の場合に値を0にしてもよい。さらに、両方の定義文セットに共通して出現する語彙の個数を定義文セットの総単語数で正規化した値など用いてもよい。図13に作成された素性の一覧の例を示す。   The vocabulary overlap extraction unit 404 extracts, for each extraction target pair (predicate pair or “term-predicate” pair), the extraction target pair from the result of the morphological analysis of the definition sentence set input from the definition sentence extraction unit 400. A feature indicating whether there is a vocabulary overlap between the definition sentence sets of the predicates is output to the feature set storage unit 228 together with the pair to be extracted. In this embodiment, the number of vocabulary appearing in both definition sentence sets is assumed to be a feature, and the vocabulary part-of-speech (noun, non-independence excluding independence, adjective verb, and four types of part-of-speech) are aggregated. To do. Here, NounMatch is the number of vocabularies with part-of-speech nouns that appear in both definition sets, VerbMatch is the number of vocabularies with part-of-speech parts, AdjMatch is the number of vocabularies with part-of-speech parts, and adjective verbs The number of vocabularies with parts of speech is called AdjNMatch (FIG. 12). In the present embodiment, all of NounMatch, VerbMatch, AdjMatch, and AdjNMatch are used as features indicating vocabulary overlap, but at least one feature is sufficient. It should be noted that the presence or absence of vocabulary that appears in both definition sentence sets is not the number of vocabularies that appear in both definition sentence sets, and may be aggregated for each part of speech of the vocabulary. In this case, the value may be set to 1 and the value may be set to 0 if none. Furthermore, a value obtained by normalizing the number of vocabulary appearing in common in both definition sentence sets with the total number of words in the definition sentence set may be used. FIG. 13 shows an example of the feature list created.

意味属性辞書記憶部308は、複数の述部の内容語の各々に対応する意味属性を格納した意味属性辞書を記憶している。本実施の形態においては、意味属性辞書として用言属性辞書が記憶されている。なお、意味属性辞書が意味属性集合の一例である。   The semantic attribute dictionary storage unit 308 stores a semantic attribute dictionary that stores semantic attributes corresponding to the content words of the plurality of predicates. In the present embodiment, a prescriptive attribute dictionary is stored as a semantic attribute dictionary. The semantic attribute dictionary is an example of a semantic attribute set.

<意味属性素性抽出部の構成>
意味属性素性抽出部310は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項−述部」ペア)の各々に関して、当該ペアの述部の内容語の各々の抽象的な意味属性の重なりを示す素性を抽出し、抽出対象のペアとともに素性集合記憶部228に出力する。本実施の形態では、抽象的な意味属性の重なりを示す素性として、後述する「重なり意味属性」と「意味属性重み付き重なり率」の二つを抽出する。意味属性辞書は、複数の述部の各々に対応する1つ以上の意味属性からなり、意味属性辞書から抽出される各々の1つ以上の意味属性のセットを意味属性集合と呼ぶ。両方の述語の意味属性集合に共通して出現する意味属性を「重なり意味属性」の素性として抽出する。また、その両方に共通して出現する意味属性が属する階層に重みを付与して算出する「意味属性重み付き重なり率」も素性として抽出することができる。意味属性素性抽出部310は、これらの二つ素性を抽出対象のペアとともに素性集合記憶部228に出力する。
<Configuration of semantic attribute feature extraction unit>
The semantic attribute feature extraction unit 310 performs, for each of all pairs (predicate pair or “term-predicate” pair) of the learning corpus stored in the learning corpus storage unit 222, the content word of the predicate of the pair. A feature indicating the overlap of each abstract semantic attribute is extracted and output to the feature set storage unit 228 together with the pair to be extracted. In the present embodiment, two features, “overlapping semantic attribute” and “overlapping ratio with semantic attribute weight”, which will be described later, are extracted as features indicating the overlapping of abstract semantic attributes. The semantic attribute dictionary is composed of one or more semantic attributes corresponding to each of a plurality of predicates, and each set of one or more semantic attributes extracted from the semantic attribute dictionary is called a semantic attribute set. A semantic attribute that appears in common in the semantic attribute set of both predicates is extracted as a feature of the “overlapping semantic attribute”. In addition, a “semantic attribute weighted overlap rate” calculated by assigning a weight to a hierarchy to which a semantic attribute that appears in common in both can belong can be extracted as a feature. The semantic attribute feature extraction unit 310 outputs these two features together with the pair to be extracted to the feature set storage unit 228.

「同義の述部同士は、その述部の抽象的な意味属性も似ている」という特徴から、意味属性素性抽出部310で、述部そのものの抽象的な意味属性の重なりと階層的重なりの「深さ」を考慮し素性として抽出することによって、「時間経過を表す述部を誤って同義と判定する」という問題が起きるのを回避することができる。   The semantic attribute feature extraction unit 310 allows the abstract semantic attributes of the predicates themselves to overlap with the hierarchical overlap because of the feature that the synonymous predicates have similar abstract semantic attributes. By extracting “feature” in consideration of “depth”, it is possible to avoid the problem of “predicate indicating the passage of time is erroneously determined to be synonymous”.

本実施の形態において、抽象的な意味属性として、「用言属性」(非特許文献3:池原 悟, 宮崎 正弘, 白井 諭, 横尾 昭男, 中岩 浩巳, 小倉 健太郎, 大山 芳史, 林 良彦 (1999) 日本語語彙大系 CD-ROM版. 岩波書店.)を用いる。用言属性集合の一例を、述部が「完成する」の場合と「出来上がる」の場合を例に図14に示す。図15が示すように、これらの属性はしばし、階層的な構造をもち、階層が下位に進むにつれ、より属性が詳細化される。たとえば、「行動」という上位属性に対して、さらに「物理的行動」という中間属性を経て、「所有的移動」というようなより詳細な属性が明記されている。   In this embodiment, as an abstract semantic attribute, “prescriptive attribute” (Non-patent Document 3: Satoru Ikehara, Masahiro Miyazaki, Satoshi Shirai, Akio Yokoo, Hiroaki Nakaiwa, Kentaro Ogura, Yoshifumi Oyama, Yoshihiko Hayashi (1999 ) Use Japanese Vocabulary System CD-ROM version. Iwanami Shoten.). An example of the predicate attribute set is shown in FIG. 14 with an example where the predicate is “completed” and “completed”. As FIG. 15 shows, these attributes often have a hierarchical structure, and the attributes are further refined as the hierarchy progresses downward. For example, a more detailed attribute such as “ownership movement” is specified for an upper attribute “action” via an intermediate attribute “physical behavior”.

意味属性素性抽出部310の詳細構成を図16に示す。意味属性素性抽出部310は、意味属性重なり抽出部500と、意味属性重み付き重なり率計算部502とから構成される。   A detailed configuration of the semantic attribute feature extraction unit 310 is shown in FIG. The semantic attribute feature extraction unit 310 includes a semantic attribute overlap extraction unit 500 and a semantic attribute weighted overlap rate calculation unit 502.

意味属性重なり抽出部500は、学習コーパス記憶部222に記憶されているすべてのペア(述部ペア又は「項−述部」ペア)の各々に関して、当該ペアの各述部の内容語の意味属性である意味属性集合を意味属性辞書から抽出し、ペア同士の意味属性集合の両方に出現する意味属性を素性として抽出し、抽出対象のペアとともに意味属性重み付き重なり率計算部502へ出力する。図17に「花壇−ガ−完成する」の「完成する」に対する意味属性集合(属性変化、生成)と、「花壇−ガ−出来上がる」の「出来上がる」に対する意味属性集合(生成)から重なり意味属性として「生成」が抽出された例を示す。   The semantic attribute overlap extraction unit 500, for each of all the pairs (predicate pair or “term-predicate” pair) stored in the learning corpus storage unit 222, the semantic attribute of the content word of each predicate of the pair Are extracted from the semantic attribute dictionary, semantic attributes appearing in both semantic attribute sets of the pairs are extracted as features, and output to the semantic attribute weighted overlap rate calculation unit 502 together with the extraction target pairs. In FIG. 17, there is an overlapping semantic attribute from the semantic attribute set (attribute change, generation) for “completed” of “flowerbed-ga-complete” and the semantic attribute set (generation) for “completed” of “flowerbed-ga-completed”. As an example, “generation” is extracted.

意味属性重み付き重なり率計算部502は、ペア(述部ペア又は「項−述部」ペア)毎に意味属性重なり抽出部500から入力された全ての意味属性と意味属性辞書から抽出した意味属性の階層情報に基づいて、意味属性の重なり度合いを示す素性としての「意味属性重み付き重なり率」を下記(6)式及び(7)式に従って計算し、意味属性重なり抽出部500から入力された素性及び抽出対象のペアとともに、素性集合記憶部228に出力する。重なり意味属性と意味属性重み付き重なり率の二つの素性は、それぞれ「よりたくさんの属性を共有するほど、述部同士が類似している」という特徴と、「より詳細な属性を共有するほど、述部同士は類似している」という特徴を表わしている。なお、重なり意味属性と意味属性重み付き重なり率とをあわせて意味属性素性と呼ぶ。なお、重なり意味属性が第2の素性の一例である。   The semantic attribute weighted overlap ratio calculation unit 502 extracts all semantic attributes input from the semantic attribute overlap extraction unit 500 and semantic attributes extracted from the semantic attribute dictionary for each pair (predicate pair or “term-predicate” pair). Based on the hierarchical information, the “meaning attribute weighted overlap rate” as a feature indicating the degree of overlapping of semantic attributes is calculated according to the following formulas (6) and (7), and input from the semantic attribute overlap extraction unit 500 It outputs to the feature set storage unit 228 together with the feature and the pair to be extracted. The two features of the overlapping semantic attribute and the semantic attribute weighted overlap rate are each characterized by "the more attributes are shared, the more predicates are similar" and "the more detailed attributes are shared, The predicates are similar to each other. The overlapping semantic attribute and the semantic attribute weighted overlapping rate are collectively referred to as a semantic attribute feature. The overlapping semantic attribute is an example of the second feature.

例えば、「花壇−ガ−完成する」と「花壇−ガ−出来上がる」の意味属性重み付き重なり率を計算する場合、「完成する」の意味属性集合と「出来上がる」の意味属性集合の両方に出現する意味属性は「生成」という意味属性である。さらに、「生成」は図15に示すとおり一番詳細な階層4の属性であるため、下記の(8)式のように重み付き重なり率が計算される。   For example, when calculating the weighted overlap ratio of “flowerbed-ga-complete” and “flowerbed-ga-finished”, it appears in both the “completed” semantic attribute set and the “finished” semantic attribute set. The semantic attribute to be generated is a semantic attribute of “generation”. Furthermore, since “generation” is the most detailed attribute of the hierarchy 4 as shown in FIG. 15, the weighted overlap ratio is calculated as in the following equation (8).

機能表現辞書記憶部312は、複数の述部の機能表現に対する意味ラベルを格納した機能表現辞書を記憶している。本実施の形態では、上記の非特許文献3に記載の辞書を用いているが、これに限られるものではなく、他の文末表現辞書、モダリティ表現辞書を用いてもよい。   The function expression dictionary storage unit 312 stores a function expression dictionary that stores semantic labels for function expressions of a plurality of predicates. In the present embodiment, the dictionary described in Non-Patent Document 3 is used. However, the present invention is not limited to this, and another sentence ending expression dictionary or modality expression dictionary may be used.

<機能表現素性抽出部の構成>
機能表現素性抽出部314は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々に関して、当該ペアの述部の機能表現の意味の重なりを示す素性を抽出し、抽出対象のペアとともに素性集合記憶部228に出力する。本実施の形態では、機能表現の意味の重なりを示す素性として、後述する「重なり意味ラベル」と「意味ラベル重なり率」の二つを抽出する。
<Configuration of functional expression feature extraction unit>
The functional expression feature extraction unit 314 performs, for each of all pairs (predicate pairs or “term-predicate” pairs) of the learning corpus stored in the learning corpus storage unit 222, the functional expression of the predicate of the pair. A feature indicating an overlap of meaning is extracted and output to the feature set storage unit 228 together with the pair to be extracted. In the present embodiment, two features of “overlapping semantic label” and “semantic label overlapping rate” to be described later are extracted as features indicating the overlapping of meanings of function expressions.

機能表現素性抽出部314で、述部の機能表現の重なりを示す素性を抽出することによって、述部の内容語のみを用いて分布類似度の計算を行なっていても述部の同義判定を高精度に行うことができる。述部の機能表現の意味をも考慮するために、述部を個々の内容語と機能表現の組み合わせとして分布類似度計算を行う場合、膨大なデータを必要とする。機能表現素性を用いることで、膨大なデータを必要とせずに機能表現の意味も同義判定に組み込むことが出来る。   The feature expression feature extraction unit 314 extracts features indicating the overlap of the function expressions of the predicates, thereby increasing the synonym determination of the predicates even when the distribution similarity is calculated using only the predicate content words. Can be done with precision. In order to consider the meaning of the functional expression of the predicate, a huge amount of data is required when the distribution similarity calculation is performed by combining the predicate with each content word and the functional expression. By using the function expression feature, the meaning of the function expression can be incorporated into the synonym determination without requiring a huge amount of data.

機能表現素性抽出部314の詳細構成を図18に示す。機能表現素性抽出部314は、意味ラベル付与部600と、重なり意味ラベル抽出部602と、意味ラベル重なり率計算部604とから構成される。   A detailed configuration of the function representation feature extraction unit 314 is shown in FIG. The functional representation feature extraction unit 314 includes a semantic label assignment unit 600, an overlapping meaning label extraction unit 602, and a semantic label overlap rate calculation unit 604.

意味ラベル付与部600は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々に関して、当該ペアの各述部の機能表現の意味ラベルを機能表現辞書から抽出し、当該ペアとともに重なり意味ラベル抽出部602へ出力する。本実施の形態では、統計的な意味ラベル付与方法を用いる(非特許文献4(今村賢治,泉朋子,菊井玄一郎,佐藤理史 (2011).述部機能表現の意味ラベルタガー 言語処理学会第17回年次大会.518-521)を参照)。具体的には、学習コーパス記憶部222に記憶されているすべてのペアの各述部の形態素解析を行い、形態素毎の表記と標準形と品詞が少なくとも含まれる解析結果を用いて最も尤もらしい意味ラベル列を付与する。図19に機能表現辞書の例を示す。図20に、「花壇-ガ-出来上がった」と「花壇-ガ-完成した」という「項-述部」ペアが入力された場合に意味ラベル列を付与した例を示す。図20に示される例においては、述部はそれぞれ「出来上がった」と「完成した」であり、それぞれを内容語部分と機能表現部分を識別し、それぞれの機能表現の「た」に「完了」の意味ラベルを付与している。   For each of all the learning corpus pairs (predicate pairs or “term-predicate” pairs) stored in the learning corpus storage unit 222, the semantic label assigning unit 600 represents the functional expression of each predicate of the pair. A semantic label is extracted from the functional expression dictionary, and is output to the overlapping semantic label extraction unit 602 together with the pair. In this embodiment, a statistical meaning labeling method is used (Non-Patent Document 4 (Kenji Imamura, Ikuko Izumi, Genichiro Kikui, Satoshi Sato (2011). Semantic Label Tagger of Predicate Functional Representation) See next competition. 518-521)). Specifically, the morpheme analysis of each pair of predicates stored in the learning corpus storage unit 222 is performed, and the most likely meaning is obtained by using the analysis result including at least the notation for each morpheme, the standard form, and the part of speech. Assign a label column. FIG. 19 shows an example of a function expression dictionary. FIG. 20 shows an example in which a meaning label string is given when the “term-predicate” pair “flowerbed-ga-completed” and “flowerbed-ga-completed” is input. In the example shown in FIG. 20, the predicates are “completed” and “completed”, respectively, and the content word part and the function expression part are identified, and “completed” is displayed in each function expression “ta”. The meaning label is given.

本実施の形態では、述部の内容語部分と機能表現部分の識別を意味ラベル付与部600で行なっているが、出来事の意味に影響を与える機能表現のみを残す事前処理を実施するようにしてもよい(非特許文献5(Izumi T., Imamura K., Kikui G., & Sato S. (2010). Standardizing Complex Functional Expressions in Japansese Predicates: Applying Theoretically-Based Paraphrasing Rules. Proceedings of the Workshop on Multiword Exressions: From theory to applications (MWE 2010), 63-71)を参照)。   In the present embodiment, the content label part and the function expression part of the predicate are identified by the semantic label assigning unit 600. However, a pre-processing that leaves only the function expression that affects the meaning of the event is performed. (Non-Patent Document 5 (Izumi T., Imamura K., Kikui G., & Sato S. (2010). Standardizing Complex Functional Expressions in Japansese Predicates: Applying Theoretically-Based Paraphrasing Rules. Proceedings of the Workshop on Multiword Exressions : From theory to applications (MWE 2010), 63-71)).

重なり意味ラベル抽出部602は、意味ラベル付与部600から入力された抽出対象のペアとそれぞれの意味ラベルから、両方の述部の意味ラベルに共通して出現する意味ラベルを重なり意味ラベルとして抽出し、当該ペアとともに意味ラベル重なり計算部604に出力する。「花壇-ガ-出来上がった」と「花壇-ガ-完成した」という「項-述部」ペアの例では、述部「出来上がった」の意味ラベル「完了」と述部「完成した」の意味ラベル「完了」から、重なり意味ラベルとして「完了」が抽出される。   The overlapping meaning label extraction unit 602 extracts, as overlapping meaning labels, meaning labels that appear in common in the meaning labels of both predicates from the pair to be extracted input from the meaning label assignment unit 600 and the respective meaning labels. , And output to the semantic label overlap calculator 604 together with the pair. In the example of the “term-predicate” pair “flowerbed-ga-completed” and “flowerbed-ga-completed”, the meaning label “completed” and predicate “completed” mean the predicate “completed”. From the label “completed”, “completed” is extracted as the overlapping meaning label.

意味ラベル重なり率計算部604は、重なり意味ラベル抽出部602から入力された抽出対象のペアと重なり意味ラベルに基づいて、意味ラベル重なり率を下記(9)式に従って計算し、当該ペア及び重なり意味ラベルとともに計算結果を素性集合記憶部228に出力する。なお、重なり意味ラベルと意味ラベル重なり率とをあわせて機能表現素性と呼ぶ。また、重なり意味ラベルが第6の素性の一例であり、意味ラベル重なり率が第7の素性の一例である。   The semantic label overlap rate calculation unit 604 calculates the semantic label overlap rate according to the following equation (9) based on the extraction target pair and the overlap meaning label input from the overlap meaning label extraction unit 602, and the pair and overlap meaning The calculation result together with the label is output to the feature set storage unit 228. The overlapping meaning label and the meaning label overlapping rate are collectively referred to as a function representation feature. The overlapping meaning label is an example of a sixth feature, and the semantic label overlapping rate is an example of a seventh feature.

反義素性抽出部226の詳細構成を図21に示す。反義素性抽出部226は、複合語スコア計算部700と、n-gramモデル記憶部706と、文内共起尤度計算部708と、部分文字列特徴抽出部714と、事態間スコア計算部716と、事態間データベース記憶部718とを含んだ構成で表すことができる。   FIG. 21 shows a detailed configuration of the anonymity extraction unit 226. The antonym feature extraction unit 226 includes a compound word score calculation unit 700, an n-gram model storage unit 706, a sentence co-occurrence likelihood calculation unit 708, a partial character string feature extraction unit 714, and an inter-situation score calculation unit. 716 and an inter-event database storage unit 718.

複合語スコア計算部700は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々について、当該ペアの複合語の作りやすさを表す複合語尤度を計算し、素性として抽出する。また、複合語スコア計算部700は、複合語生成部702と、複合語尤度計算部704と、を含んだ構成で表すことができる。なお、複合語尤度を表す素性が第8の素性の一例である。   The compound word score calculation unit 700 makes it easy to create a compound word of each pair of the learning corpora (predicate pair or “term-predicate” pair) stored in the learning corpus storage unit 222. Is calculated and extracted as a feature. The compound word score calculation unit 700 can be represented by a configuration including a compound word generation unit 702 and a compound word likelihood calculation unit 704. Note that the feature representing the compound word likelihood is an example of the eighth feature.

複合語生成部702は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々について、複合語を生成する。具体的には、述部ペア又は「項‐述部」ペアに含まれるペアとなる述部の各々について、既存の形態素解析器又は形態素解析辞書などを用いて得られる形態素の品詞情報に基づいて、各々の述部の品詞を特定する。そして、ペアとなる述部の双方の述部の品詞が和語動詞(日本語由来の動詞)又は形容詞の場合は、ペアとなる述部の連用形を組み合わせて、複合語を生成する。なお、複合語は一方の述部と他方の述部の順番を入れ替えた2種類を生成する(例えば、「売る」+「買う」→「売り買い」、「買い売り」)。また、和語動詞の場合は、品詞は「動詞」である。和語動詞以外の動詞は、軽動詞の「する」をつけることで動詞となる「動作性名詞」となる。   The compound word generation unit 702 generates a compound word for each of all the learning corpus pairs (predicate pairs or “term-predicate” pairs) stored in the learning corpus storage unit 222. Specifically, for each of the predicates that are included in the predicate pair or the “term-predicate” pair, based on the morphological part-of-speech information obtained using an existing morpheme analyzer or morpheme analysis dictionary. Identify the part of speech for each predicate. When the part of speech of both predicates of the pair is a Japanese verb (a verb derived from Japanese) or an adjective, a compound word is generated by combining the consecutive forms of the pair of predicates. The compound word generates two types in which the order of one predicate and the other predicate is switched (for example, “sell” + “buy” → “sell / buy”, “buy / sell”). In the case of a Japanese verb, the part of speech is a “verb”. Verbs other than Japanese verbs become “motion nouns” that become verbs by adding the light verb “s”.

また、ペアとなる述部の双方の述部の品詞が動作性名詞の場合であって、かつ、ペアとなる述部の各々について「共通する文字」がある場合は、その共通する文字を保持しつつ、異なる文字列を連続させて、複合語を生成する。なお、複合語は一方の述部と他方の述部の順番を入れ替えた2種類を生成する(例えば、「入院」+「退院」→「入退院」、「退入院」)。   Also, if the part-of-speech of both predicates in a pair is a behavioral noun and there is a “common character” for each of the paired predicates, the common character is retained. However, a compound word is generated by continuing different character strings. The compound word generates two types in which the order of one predicate and the other predicate is exchanged (for example, “hospitalization” + “discharge” → “entrance / exit”, “discharge”).

また、上記の以外の場合は、そのままペアとなる述部を合わせて、複合語を生成する。なお、複合語は一方の述部と他方の述部の順番を入れ替えた2種類を生成する(例えば、「好き」+「嫌い」→「好き嫌い」、「嫌い好き」)。   In cases other than the above, compound words are generated by combining predicates that are paired as they are. Note that two types of compound words are generated by switching the order of one predicate and the other predicate (for example, “like” + “hate” → “like and dislike”, “dislike”).

複合語尤度計算部704は、複合語生成部702において生成されたペア(述部ペア又は「項-述部」ペア)の各々についての2種類の複合語の各々の複合語の尤度を計算し、素性として抽出し、素性集合記憶部228へ出力する。具体的には、n-gramモデル記憶部706に記憶されているn-gramモデルを用いて、図22に示すような複合語のn-gramのもっともらしさを表すn-gramスコアを計算する。なお、図22の例ではn=2の場合におけるn-gramスコアを示している。   The compound word likelihood calculation unit 704 calculates the likelihood of each compound word of the two types of compound words for each of the pairs (predicate pair or “term-predicate” pair) generated by the compound word generation unit 702. It is calculated, extracted as a feature, and output to the feature set storage unit 228. Specifically, using the n-gram model stored in the n-gram model storage unit 706, an n-gram score representing the likelihood of the n-gram of the compound word as shown in FIG. 22 is calculated. In the example of FIG. 22, n-gram scores in the case of n = 2 are shown.

n-gramモデル記憶部706は、特定のコーパスを用いて学習したn-gramモデルを記憶している。   The n-gram model storage unit 706 stores an n-gram model learned using a specific corpus.

文内共起尤度計算部708は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項‐述部」ペア)の各々について、当該ペアを含んで生成される並列述語構文の作りやすさを表す文内共起尤度を計算し、素性として抽出する。これは、「反義関係にある単語は同一文内に出現することができる」という性質を特徴とするものである。また、文内共起尤度計算部708は、並列述語構文生成部710と、並列述語構文尤度計算部712と、を含んだ構成で表すことができる。なお、文内共起尤度を表す素性が第4の素性の一例である。   The intra-sentence co-occurrence likelihood calculation unit 708 generates each pair of learning corpora (predicate pair or “term-predicate” pair) stored in the learning corpus storage unit 222 including the pair. Intra-sentence co-occurrence likelihood that expresses the ease of creating a parallel predicate syntax is calculated and extracted as a feature. This is characterized by the property that “words in an antonym relation can appear in the same sentence”. The intra-sentence co-occurrence likelihood calculation unit 708 can be represented by a configuration including a parallel predicate syntax generation unit 710 and a parallel predicate syntax likelihood calculation unit 712. Note that the feature representing the intra-sentence co-occurrence likelihood is an example of the fourth feature.

並列述語構文生成部710は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々について、当該ペアを含む並列述語構文を生成する。具体的には、述部ペア又は「項‐述部」ペアに含まれる一方の述部と他方の述部を接続助詞の「たり」でつなげて並列述語構文を生成する。本実施の形態では、並列述語構文として、一方の述部と他方の述部の順番を入れ替えた2種類の並列述語構文を生成する。例えば、「項‐述部」ペアとして「品物−ガ−多い」と「品物−ガ−少ない」がある場合には、「多かったり少なかったり」と「少なかったり多かったり」という2種類の並列述語構文を生成する。   The parallel predicate syntax generation unit 710 generates a parallel predicate syntax including each pair of all the learning corpora (predicate pair or “term-predicate” pair) stored in the learning corpus storage unit 222. To do. Specifically, one predicate included in a predicate pair or “term-predicate” pair and the other predicate are connected by a connection particle “Tori” to generate a parallel predicate syntax. In this embodiment, two types of parallel predicate syntax in which the order of one predicate and the other predicate are exchanged are generated as the parallel predicate syntax. For example, when there are "item-ga-many" and "item-ga-many" as "term-predicate" pairs, two types of parallel predicates, "more or less" and "less or more" Generate syntax.

並列述語構文尤度計算部712は、ペア(述部ペア又は「項-述部」ペア)の各々について、並列述語構文生成部710において生成された当該ペアの2種類の並列述語構文の尤度を計算し、計算された2種類の並列述語構文の尤度に基づいて、文内共起尤度を抽出し、素性集合記憶部228に出力する。具体的には、n-gramモデル記憶部706に記憶されているn-gramモデルを用いて、並列述語構文のもっともらしさを表すn-gramスコアを計算する。本実施の形態においては、n=3を用いて、2種類の並列述語構文に対しn-gramスコアを求め、高いスコアの方を、文内共起尤度として採用する。なお、2種類の並列述語構文に対するn-gramスコアの平均値などを、文内共起尤度として用いてもよい。   For each pair (predicate pair or “term-predicate” pair), the parallel predicate syntax likelihood calculation unit 712 is the likelihood of the two types of parallel predicate syntax of the pair generated by the parallel predicate syntax generation unit 710. , And the intra-sentence co-occurrence likelihood is extracted based on the calculated likelihoods of the two types of parallel predicate syntax, and is output to the feature set storage unit 228. Specifically, an n-gram score representing the plausibility of the parallel predicate syntax is calculated using the n-gram model stored in the n-gram model storage unit 706. In this embodiment, n = 3 is used to obtain n-gram scores for two types of parallel predicate syntax, and the higher score is adopted as the intra-sentence co-occurrence likelihood. Note that the average value of n-gram scores for two types of parallel predicate syntaxes may be used as the intra-sentence co-occurrence likelihood.

部分文字列特徴抽出部714は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項‐述部」ペア)の各々について、当該ペア(述部ペア又は「項‐述部」ペア)に含まれる述部の各々の頭文字1語ずつを抽出し、一方の述部の頭文字と他方の述部の頭文字を組み合わせた文字列、及び他方の述部の頭文字と一方の述部の頭文字を組み合わせた文字列を部分文字列特徴として抽出し、素性として抽出する。例えば、「入院」と「退院」の述部ペアがある場合、図23に示すように「入退」と「退入」の2つの文字列を素性として抽出し、素性集合記憶部228に出力する。なお、部分文字列特徴を表す素性が第3の素性の一例である。   The partial character string feature extraction unit 714 performs, for each of all pairs (predicate pairs or “term-predicate” pairs) of the learning corpus stored in the learning corpus storage unit 222, the pair (predicate pair or “ The first word of each predicate included in the "term-predicate" pair), a character string combining the initials of one predicate and the initials of the other predicate, and the other predicate Is extracted as a partial character string feature and extracted as a feature. For example, when there is a predicate pair of “hospitalization” and “discharge”, two character strings “entrance / exit” and “exit” are extracted as features and output to the feature set storage unit 228 as shown in FIG. To do. The feature representing the partial character string feature is an example of the third feature.

事態間スコア計算部716は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項‐述部」ペア)の各々について、事態間データベース記憶部718に記憶されている事態間データベースを用いて、図24に示すような当該ペアに含まれる一方の述部から他方の述部への事態間に対する事態間スコアと、他方の述部から一方の述部への事態間に対する事態間スコアとを抽出し、素性として抽出し、素性集合記憶部228に出力する。具体的には、図25に示すような事態間スコアが登録されている事態間データベースから、事態間スコアを抽出する。なお、当該ペアに含まれる一方の述部から他方の述部への事態間に対する事態間スコアが事態間データベースに登録されていない場合には、当該事態間に対する事態間スコアは「0」とする。また、事態間スコアを表す素性が第9の素性の一例である。   The inter-situation score calculation unit 716 stores each pair of learning corpora (predicate pair or “term-predicate” pair) stored in the learning corpus storage unit 222 in the inter-event database storage unit 718. Using the inter-event database, the inter-score score between the predicates from one predicate to the other predicate included in the pair as shown in FIG. 24, and the other predicate to one predicate The inter-situation score for the inter-event is extracted, extracted as a feature, and output to the feature set storage unit 228. Specifically, the inter-situation score is extracted from the inter-situation database in which the inter-situation score as shown in FIG. 25 is registered. In addition, when the inter-event score for the situation from one predicate to the other predicate included in the pair is not registered in the inter-event database, the inter-event score for the inter-event situation is “0”. . The feature representing the inter-situation score is an example of a ninth feature.

事態間データベース記憶部718には、事態間データベースが記憶されている。ここで、事態間データベースに収録されている事態間スコアは、大規模テキストから述語項構造ペアを抽出し、その後、事態間の関係を表す文における述語項構造ペアの共起度を計算することによって獲得している。この共起度は述語単体に対しても計算されるため、例えば、「入院→退院」というペアに対して、671.42というスコアが付与されている(非特許文献6(柴田知秀・黒橋禎夫(2011). 述語項構造の共起情報と格フレームを用いた事態間知識の自動獲得 情報処理学会研究報告 IPSJ SIG Technical Report, 1-8.)を参照)。   The inter-event database storage unit 718 stores an inter-event database. Here, the inter-event score recorded in the inter-event database is to extract the predicate term structure pair from the large-scale text, and then calculate the co-occurrence degree of the predicate term structure pair in the sentence representing the relationship between the situations. Have won by. Since this co-occurrence degree is also calculated for a single predicate, for example, a score of 671.42 is given to the pair “hospitalization → discharge” (Non-Patent Document 6 (Tomohide Shibata, Ikuo Kurohashi ( 2011). Automatic acquisition of knowledge between situations using co-occurrence information of predicate term structure and case frames (see IPSJ SIG Technical Report, 1-8)).

素性集合記憶部228は、学習コーパス記憶部222に記憶されている学習コーパスのすべてのペア(述部ペア又は「項‐述部」ペア)の各々について、同義素性抽出部224において抽出された当該ペアの分布類似度を表す素性、辞書定義文素性、意味属性素性、及び機能表現素性と、反義素性抽出部226において抽出された当該ペアの複合語尤度を表す素性、文内共起尤度を表す素性、部分文字列特徴を表す素性、及び事態間スコアを表わす素性とを含む素性集合を記憶している。なお、複合語尤度を表す素性と、文内共起尤度を表す素性と、部分文字列特徴を表す素性と、事態間スコアを表わす素性とを併せて反義素性とする。図26に抽出された素性集合の例を示す。   The feature set storage unit 228 extracts, for each of all the learning corpus pairs (predicate pairs or “term-predicate” pairs) stored in the learning corpus storage unit 222, Features representing pair distribution similarity, dictionary-defined sentence features, semantic attribute features, and functional expression features, features representing compound word likelihood of the pair extracted by the anonymity feature extraction unit 226, intra-sentence co-occurrence likelihood A feature set including a feature representing a degree, a feature representing a partial character string feature, and a feature representing an inter-situation score is stored. Note that a feature representing compound word likelihood, a feature representing intra-sentence co-occurrence likelihood, a feature representing a partial character string feature, and a feature representing an inter-situation score are combined as an anonymity feature. FIG. 26 shows an example of the feature set extracted.

同反−無関係分類素性構築部230は、学習コーパス記憶部222に記憶されているすべてのペア(述部ペア又は「項‐述部」ペア)の各々の述部クラスの情報と、素性集合記憶部228に記憶されているすべてのペアの各々の素性集合とに基づいて、述部ペア又は「項‐述部」ペアを、「同反義(同義 or 反義) vs. 無関係」に分類するモデルを学習するための素性を同反−無関係分類素性として構築し、同反−無関係分類素性記憶部232に記憶する。なお、以後、「同反義(同義 or 反義)」と「無関係」に分類することを「同反−無関係分類」とする。具体的には、当該ペアの述部クラスが「同義」若しくは「反義」の場合の当該ペアの素性集合を「正例」とし、当該ペアの述部クラスが「無関係」の場合の当該ペアの素性集合を「負例」とした素性を、同反−無関係分類素性として構築する。「項‐述部」ペアとして「品物−ガ−多い」と「品物−ガ−少ない」がある場合、当該ペアの述部クラスは「反義」であるため、同反−無関係分類素性構築部230において「正例」の素性が構築される。図27に例を示す。   The anti-irrelevant classification feature construction unit 230 includes information on each predicate class of all pairs (predicate pairs or “term-predicate” pairs) stored in the learning corpus storage unit 222 and feature set storage. Classify predicate pairs or “term-predicate” pairs as “synonymous (synonymous or unsympathetic) vs. irrelevant” based on each feature set of all pairs stored in part 228 A feature for learning the model is constructed as an opposite-independent classification feature and stored in the opposite-independent classification feature storage unit 232. Hereinafter, the classification of “sameness (synonymous or affirmative)” and “unrelated” will be referred to as “same-unrelated classification”. Specifically, when the predicate class of the pair is “synonymous” or “disobedient”, the feature set of the pair is “positive example”, and the pair when the predicate class of the pair is “unrelated” A feature having a feature set of “a negative example” is constructed as an anti-independent classification feature. When there are “item-predicate” pair “item-ga-many” and “item-ga-minor”, the predicate class of the pair is “definience”, so the anti-unrelated classification feature building unit At 230, a “positive example” feature is constructed. An example is shown in FIG.

同反−無関係分類素性記憶部232は、同反−無関係分類素性構築部230においてペア(述部ペア又は「項‐述部」ペア)の各々について構築された同反−無関係分類素性を記憶している。   The anti-irrelevant classification feature storage unit 232 stores the anti-irrelevant classification feature constructed for each pair (predicate pair or “term-predicate” pair) in the anti-irrelevant classification feature construction unit 230. ing.

同反−無関係分類モデル学習部234は、「同義と反義は意味的に似ているため、先に述部の意味関係が無関係か否かを識別した方が識別の精度が上がる」という観点から、同反−無関係分類素性記憶部232に記憶されている同反−無関係分類素性の各々に基づいて、「同義」と「反義」を1つの述部クラスにして「同反義(同義又は反義)」もしくは「無関係」に2値分類するモデルである同反−無関係分類モデルを学習し、同反−無関係分類モデル記憶部236及び出力部250に出力する。具体的には、同反−無関係分類モデルの学習にLIBLINERA(非特許文献7:R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. (2008) LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9, 1871-1874.)を用いる。   The anti-independent classification model learning unit 234 has a viewpoint that “because synonyms and anomalies are semantically similar, it is better to identify whether the semantic relationship of predicates is irrelevant first”. From the same-unrelated classification feature storage unit 232, based on each of the same-unrelated classification feature, “synonym” and “non-righteousness” are defined as one predicate class. Or the contradictory-irrelevant classification model, which is a model that performs binary classification into “or irrelevant” or “irrelevant”, and outputs it to the anti-irrelevant classification model storage unit 236 and output unit 250. Specifically, LIBLINERA (Non-Patent Document 7: R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. (2008) LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9, 1871-1874.

同反−無関係分類モデル記憶部236は、同反−無関係分類モデル学習部234において学習された同反−無関係分類モデルを記憶している。   The anti-irrelevant classification model storage unit 236 stores the anti-irrelevant classification model learned by the anti-irrelevant classification model learning unit 234.

同義−反義分類素性構築部240は、学習コーパス記憶部222に記憶されているすべてのペア(述部ペア又は「項‐述部」ペア)の各々の述部クラスの情報と、素性集合記憶部228に記憶されているペアの各々の素性集合とに基づいて、述部クラスが「同義」又は「反義」のペアの各々について、素性集合記憶部228に記憶されている当該ペア(述部ペア又は「項‐述部」ペア)の素性集合を用いて、ペアを「同義 vs. 反義」に分類するモデルを学習するための素性を同義−反義分類素性として構築し、同義−反義分類素性記憶部242に記憶する。なお、以後、「同義」と「反義」を分類することを「同義−反義分類」とする。具体的には、当該ペア(述部ペア又は「項‐述部」ペア)の述部クラスが「同義」の場合の当該ペアの素性集合を「正例」とし、当該ペア(述部ペア又は「項‐述部」ペア)の述部クラスが「反義」の場合の当該ペアの素性集合を「負例」とした素性を、同義−反義分類素性として構築する。「項‐述部」ペアとして「品物−ガ−多い」と「品物−ガ−少ない」がある場合、当該ペアの述部クラスは「反義」のため、同義−反義分類素性構築部240において「負例」の素性が構築される。図28に例を示す。   The synonym-anonymity classification feature construction unit 240 includes information on each predicate class of all pairs (predicate pairs or “term-predicate” pairs) stored in the learning corpus storage unit 222 and a feature set storage. Based on the feature sets of each pair stored in the part 228, for each pair whose predicate class is “synonymous” or “dissent”, the pair stored in the feature set storage unit 228 (description Using the feature set of a part pair or “term-predicate” pair), a feature for learning a model that classifies a pair as “synonymous vs. anomaly” is constructed as a synonym—an anonymity classification feature, Store in the anonymity classification feature storage unit 242. Hereinafter, the classification of “synonymous” and “antinomy” will be referred to as “synonymous-antinomy classification”. Specifically, when the predicate class of the pair (predicate pair or “term-predicate” pair) is “synonymous”, the feature set of the pair is “positive example”, and the pair (predicate pair or predicate pair or When the predicate class of the “term-predicate” pair) is “antony”, a feature having the feature set of the pair as a “negative example” is constructed as a synonym-anonymity classification feature. In the case where there are “article-ga-many” and “article-ga-minor” as the “term-predicate” pair, the predicate class of the pair is “annoyance”, so the synonym-anonymity classification feature construction unit 240 The feature of “negative example” is constructed. An example is shown in FIG.

同義−反義分類素性記憶部242は、同義−反義分類素性構築部240において述部クラスが「同義」又は「反義」のペア(述部ペア又は「項‐述部」ペア)の各々について構築された同義−反義分類素性を記憶している。   The synonym-anonymity classification feature storage unit 242 includes a pair (predicate pair or “term-predicate” pair) whose predicate class is “synonymous” or “anonymity” in the synonym-anonymous classification feature construction unit 240. Remember the synonym-anonymity classification feature built for.

同義−反義分類モデル学習部244は、同義−反義分類素性記憶部242に記憶されている同義−反義分類素性の各々に基づいて、ペアを「同義」もしくは「反義」に2値分類するモデルである同義−反義分類モデルを学習し、同義−反義分類モデル記憶部246及び出力部250に出力する。具体的には、同義−反義分類モデルの学習にLIBLINERA(非特許文献7:R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. (2008) LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9, 1871-1874.)を用いる。   The synonym-anonymity classification model learning unit 244 binarizes a pair as “synonymous” or “annoyance” based on each of the synonym-anonymity classification feature storage unit 242 stored in the synonym-anonymity classification feature storage unit 242. A synonym-anonymity classification model that is a model to be classified is learned and output to the synonym-anonymity classification model storage unit 246 and the output unit 250. Specifically, LIBLINERA (Non-Patent Document 7: R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. (2008) LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9, 1871-1874.

同義−反義分類モデル記憶部246は、同義−反義分類モデル学習部244において学習された同義−反義分類モデルを記憶している。   The synonym-anonymous classification model storage unit 246 stores the synonym-anonymous classification model learned by the synonym-anonymous classification model learning unit 244.

<分類判定装置の構成>
次に、本発明の実施の形態に係る分類判定装置800の構成について詳細に説明する。図29に示すように、本発明の実施の形態に係る分類判定装置800は、CPUとRAMと後述する分類判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この分類判定装置800は、機能的には図29に示すように入力部810と、演算部820と、出力部850とを備えている。
<Configuration of classification determination device>
Next, the configuration of the classification determination apparatus 800 according to the embodiment of the present invention will be described in detail. As shown in FIG. 29, a classification determination apparatus 800 according to an embodiment of the present invention is a computer including a CPU, a RAM, and a ROM that stores a program for executing a classification determination processing routine described later and various data. Can be configured. Functionally, the classification determination apparatus 800 includes an input unit 810, a calculation unit 820, and an output unit 850 as shown in FIG.

入力部810は、キーボードなどの入力装置から分類判定対象のペア(述部ペア又は「項−述部」ペア)を受け付ける。なお、入力部810は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。   The input unit 810 receives a classification determination target pair (predicate pair or “term-predicate” pair) from an input device such as a keyboard. Note that the input unit 810 may accept input from the outside via a network or the like.

演算部820は、同義素性抽出部822と、反義素性抽出部824と、素性構築部826と、同反−無関係分類モデル記憶部828と、同反−無関係判定部830と、同義−反義判定部832と、同義−反義分類モデル記憶部834とを備えた構成で表すことができる。   The calculation unit 820 includes a synonym feature extraction unit 822, an anonymity feature extraction unit 824, a feature construction unit 826, an anti-independence classification model storage unit 828, an anti-inverse relationship determination unit 830, and a synonym-inverse It can be expressed by a configuration including a determination unit 832 and a synonym-anonymity classification model storage unit 834.

同義素性抽出部822は、入力部810において受け付けた分類判定対象のペア(述部ペア又は「項‐述部」ペア)に対して、分類モデル学習装置200の同義素性抽出部224と同様に、「分布類似度」、「辞書定義文素性」、「意味属性素性」及び「機能表現素性」をそれぞれ抽出し、素性構築部826に出力する。   Similarly to the synonym feature extraction unit 224 of the classification model learning device 200, the synonym feature extraction unit 822 applies the classification determination target pair (predicate pair or “term-predicate” pair) received by the input unit 810 to the same. The “distribution similarity”, “dictionary definition sentence feature”, “semantic attribute feature”, and “functional expression feature” are extracted and output to the feature construction unit 826.

反義素性抽出部824は、入力部810において受け付けた分類判定対象のペア(述部ペア又は「項‐述部」ペア)に対して、分類モデル学習装置200の反義素性抽出部226と同様に、「複合語尤度を表す素性」、「文内共起尤度を表す素性」、「部分文字列を表す素性」、及び「事態間スコアを表す素性」をそれぞれ抽出し、素性構築部826に出力する。   The anonymity extraction unit 824 is similar to the anomaly feature extraction unit 226 of the classification model learning device 200 with respect to the classification determination target pair (predicate pair or “term-predicate” pair) received by the input unit 810. , “Feature representing compound word likelihood”, “feature representing intra-sentence co-occurrence likelihood”, “feature representing partial character string”, and “feature representing inter-situation score”, respectively, To 826.

素性構築部826は、同義素性抽出部822において抽出した素性と、反義素性抽出部824において抽出した素性とを含む素性集合を、述部クラス判定のための素性として構築する。図30に「項‐述部」ペアとして、「品物−ガ−多い」と「品物−ガ−少ない」が入力された場合に素性構築部826において構築される素性集合の例を示す。   The feature construction unit 826 constructs a feature set including the features extracted by the synonym feature extraction unit 822 and the features extracted by the anonymity feature extraction unit 824 as features for predicate class determination. FIG. 30 shows an example of a feature set constructed by the feature construction unit 826 when “item-many” and “article-many” are input as “item-predicate” pairs.

同反−無関係分類モデル記憶部828は、分類モデル学習装置200において予め学習された同反−無関係分類モデルが記憶されている   The anti-irrelevant classification model storage unit 828 stores the anti-irrelevant classification model previously learned by the classification model learning device 200.

同反−無関係判定部830は、素性構築部826から入力された素性集合に基づいて、同反−無関係分類モデル記憶部828に記憶されている同反−無関係分類モデルを用いて、入力された分類判定対象のペア(述部ペア又は「項‐述部」ペア)が最も尤もらしい述部クラスが「同反義(同義又は反義)」若しくは「無関係」かを判定する。最も尤もらしい述部クラスが「無関係」と判定された場合には、入力された分類判定対象のペア(述部ペア又は「項‐述部」ペア)の述部クラスは「無関係」であるとの結果を出力部850に出力する。最も尤もらしい述部クラスが「同反義」と判定された場合には、その結果を同義−反義判定部832に出力する。図30に「項‐述部」ペアとして、「品物−ガ−多い」と「品物−ガ−少ない」が入力された場合に同反−無関係判定部830において述部クラスが「同反」であると判定された例を示す。   Based on the feature set input from the feature construction unit 826, the same-unrelated determination unit 830 is input using the same-unrelated classification model stored in the same-unrelated classification model storage unit 828. It is determined whether a predicate class that is most likely to be a pair of classification determination targets (predicate pair or “term-predicate” pair) is “synonymous (synonymous or synonymous)” or “unrelated”. When the most likely predicate class is determined to be “unrelated”, the predicate class of the input classification determination target pair (predicate pair or “term-predicate” pair) is “unrelated” Is output to the output unit 850. If the most likely predicate class is determined to be “synonymous”, the result is output to the synonym-antegiance determining unit 832. In FIG. 30, when “item-many” and “article-many” are input as “term-predicate” pairs, the predicate class is “conflict” in the reciprocity-irrelevant determination unit 830. An example in which it is determined to be present will be shown.

同義−反義判定部832は、同反−無関係判定部830において述部クラスが「同反」と判定されたペア(述部ペア又は「項‐述部」ペア)の素性集合に基づいて、同義−反義分類モデル記憶部834に記憶されている同義−反義分類モデルを用いて、同反−無関係判定部830において述部クラスが「同反」と判定されたペア(述部ペア又は「項‐述部」ペア)の最も尤もらしい述部クラスが「同義」か「反義」かを判定し、判定結果を出力部850に出力する。図31に「項‐述部」ペアとして、「品物−ガ−多い」と「品物−ガ−少ない」が入力された場合に同義−反義判定部832において述部クラスが「反義」であると判定された例を示す。   Based on the feature set of pairs (predicate pairs or “term-predicate” pairs) in which the predicate class is determined to be “same” in the synonym-unrelated determination unit 830, Using a synonym-anonymity classification model stored in the synonym-anonymity classification model storage unit 834, a pair (predicate pair or It is determined whether the most likely predicate class of the “term-predicate” pair is “synonymous” or “dissent”, and the determination result is output to the output unit 850. In FIG. 31, when “article-ga-many” and “article-ga-minor” are input as the “term-predicate” pair, the predicate class is “annoyance” in the synonym-anonymity determination unit 832. An example in which it is determined to be present will be shown.

同義−反義分類モデル記憶部834は、分類モデル学習装置200において出力され、予め求められた同義−反義分類モデルが記憶されている。   The synonym-anonymity classification model storage unit 834 outputs the synonym-anonymity classification model obtained in advance by the classification model learning device 200 and stored in advance.

<素性ベクトル構築装置の作用>
次に、本発明の実施の形態に係る素性ベクトル構築装置100の作用について説明する。まず、入力部10によりテキストコーパスが入力される。そして、素性ベクトル構築装置100のROMに記憶されたプログラムを、CPUが実行することにより、図32に示す素性ベクトル構築処理ルーチンが実行される。
<Operation of feature vector construction device>
Next, the operation of the feature vector construction device 100 according to the embodiment of the present invention will be described. First, a text corpus is input by the input unit 10. Then, when the CPU executes the program stored in the ROM of the feature vector construction device 100, the feature vector construction processing routine shown in FIG. 32 is executed.

まず、ステップS100において、複数の文の集合であるテキストコーパスを読み込む。   First, in step S100, a text corpus that is a set of a plurality of sentences is read.

まず、ステップS102において、ステップS100において受け付けた複数の文のうちの一つの文について形態素解析を行う。   First, in step S102, morphological analysis is performed on one sentence among the plurality of sentences received in step S100.

次に、ステップS104において、ステップS100において形態素解析を行った文について係り受け解析を行う。   Next, in step S104, dependency analysis is performed on the sentence for which morphological analysis was performed in step S100.

次に、ステップS106において、ステップS102及びステップS104において得られた形態素毎の表記と標準形と品詞、および文節ごとの係り受け情報が少なくとも含まれる解析結果から当該文に含まれる「項−述部」の周辺に現れる単語の情報(文脈情報)を項−述部素性として抽出する。また、ステップS106において、ステップS102及びステップS104において得られた形態素毎の表記と標準形と品詞、および文節ごとの係り受け情報が少なくとも含まれる解析結果から当該文に含まれる述部の周辺に現れる単語の情報(文脈情報)を述部素性として抽出する。本実施の形態では、例えば上記の非特許文献2と同じ方法で項−述部素性や述部素性を抽出する。具体的には、対象の「項−述部」に係っている別の「項−述部」、「述部」を項−述部素性として抽出する。さらに、「述部」単体に係っている項(格助詞をもつ名詞句)、及び別の「述部」を述部素性として抽出する。   Next, in step S106, the "term-predicate" included in the sentence from the analysis result including at least the notation for each morpheme, the standard form, the part of speech, and the dependency information for each clause obtained in steps S102 and S104. Information (context information) of words appearing around "is extracted as a term-predicate feature. Further, in step S106, the morpheme notation obtained in steps S102 and S104, the standard form and the part of speech, and the analysis result including at least dependency information for each clause appear around the predicate included in the sentence. Extract word information (context information) as predicate features. In the present embodiment, for example, the term-predicate feature and the predicate feature are extracted by the same method as in Non-Patent Document 2 described above. Specifically, another “term-predicate” and “predicate” related to the target “term-predicate” are extracted as a term-predicate feature. Furthermore, a term (noun phrase having a case particle) related to a single “predicate” and another “predicate” are extracted as predicate features.

次に、ステップS108において、ステップS100において受け付けた複数の文のすべてについて上記ステップS102〜S106の処理を実行したか否かを判定する。すべての文について上記ステップS102〜S106の処理を実行した場合にはステップS110に移行し、上記ステップS102〜S106の処理を実行していない文が存在する場合には、ステップS102に移行して各処理を繰り返す。   Next, in step S108, it is determined whether or not the processing in steps S102 to S106 has been executed for all of the plurality of sentences received in step S100. When the processes of steps S102 to S106 are executed for all sentences, the process proceeds to step S110, and when there is a sentence that does not execute the processes of steps S102 to S106, the process proceeds to step S102. Repeat the process.

次に、ステップS110において、少なくとも一つの文に含まれる「項−述部」についてステップS106において抽出された素性に基づいて素性ベクトルを構築する。また、ステップS110において、少なくとも一つの文に含まれる述部についてステップS106において抽出された素性に基づいて素性ベクトルを構築する。   Next, in step S110, a feature vector is constructed based on the features extracted in step S106 for the “term-predicate” included in at least one sentence. In step S110, a feature vector is constructed based on the features extracted in step S106 for the predicates included in at least one sentence.

次に、ステップS112において、ステップS100において読み込んだ少なくとも一つの文に含まれるすべての「項−述部」の各々について項−述部素性ベクトルを構築したか否かを判定する。また、ステップS112において、ステップS100において読み込んだ少なくとも一つの文に含まれるすべての述部の各々について述部素性ベクトルを構築したか否かを判定する。すべての「項−述部」の各々について項−述部素性ベクトルを構築した場合には、ステップS114に移行し、項−述部素性ベクトルを構築していない「項−述部」が存在する場合には、ステップS110に移行して各処理を繰り返す。また、すべての述部の各々について述部素性ベクトルを構築した場合には、ステップS114に移行し、述部素性ベクトルを構築していない述部が存在する場合には、ステップS110に移行して各処理を繰り返す。   Next, in step S112, it is determined whether or not a term-predicate feature vector has been constructed for each of all “term-predicate” included in at least one sentence read in step S100. In step S112, it is determined whether a predicate feature vector has been constructed for each of all predicates included in at least one sentence read in step S100. If a term-predicate feature vector is constructed for each of all “terms-predicates”, the process proceeds to step S114, and there is a “term-predicate” in which no term-predicate feature vector is constructed. In the case, the process proceeds to step S110 and each process is repeated. If a predicate feature vector is constructed for each of all predicates, the process proceeds to step S114. If there is a predicate that does not construct a predicate feature vector, the process proceeds to step S110. Repeat each process.

次に、ステップS114において、ステップS110において構築された素性ベクトルの全てを出力部30により出力して処理を終了する。   Next, in step S114, all the feature vectors constructed in step S110 are output by the output unit 30, and the process is terminated.

本実施の形態では、述部素性ベクトルと項−述部素性ベクトルの両方を作成したが、同義学習装置及び同義判定装置で使用される素性ベクトルのみを作成すれば良い。 In this embodiment, both the predicate feature vector and the term-predicate feature vector are created. However, only the feature vector used in the synonym learning device and the synonym judgment device may be created.

<分類モデル学習装置の作用>
次に、本発明の実施の形態に係る分類モデル学習装置200の作用について説明する。まず、事前に素性ベクトル構築装置100により出力された、素性ベクトルを素性ベクトル記憶部300に記憶する。また、事前に、n-gramモデルを受け付けn-gramモデル記憶部706に記憶する。また、事前に、事態間データベースを受け付け事態間データベース記憶部718に記憶する。また、入力部210により学習コーパスが入力され、学習コーパス記憶部222に記憶される。そして、分類モデル学習装置200のROMに記憶されたプログラムを、CPUが実行することにより、図33に示す分類モデル学習処理ルーチンが実行される。
<Operation of classification model learning device>
Next, the operation of the classification model learning device 200 according to the embodiment of the present invention will be described. First, the feature vector output by the feature vector construction apparatus 100 in advance is stored in the feature vector storage unit 300. In addition, the n-gram model is received in advance and stored in the n-gram model storage unit 706. In addition, the inter-event database is received and stored in the inter-event database storage unit 718 in advance. A learning corpus is input by the input unit 210 and stored in the learning corpus storage unit 222. Then, when the CPU executes the program stored in the ROM of the classification model learning device 200, the classification model learning processing routine shown in FIG. 33 is executed.

まず、ステップS200において、学習コーパスを読み込む。   First, in step S200, a learning corpus is read.

以降のステップにおいては、述部ペアの同義判定モデルを学習する場合には読み込まれた学習コーパスのうち述部ペアの学習データのみを用いて処理が行われ、「項-述部」ペアの分類モデルを学習する場合には読み込まれた学習コーパスのうち「項-述部」ペアの学習データのみを用いて処理が行われる。 In the subsequent steps, when learning a synonym determination model of predicate pairs, processing is performed using only the learning data of the predicate pair in the read learning corpus, and the classification of the “term-predicate” pair is performed. When learning the model, the processing is performed using only the learning data of the “term-predicate” pair in the read learning corpus.

次に、ステップS202において、ステップS200において得られた複数の学習データの各々について、同義素性の抽出をする。   Next, in step S202, synonymity is extracted for each of the plurality of learning data obtained in step S200.

上記ステップS202は、図34に示す同義素性の抽出処理ルーチンによって実現される。   The step S202 is realized by the synonymity extraction processing routine shown in FIG.

図34のステップS300は、ステップS200において得られた複数の学習データの各々について、素性ベクトル記憶部300に記憶された当該学習データのペア(述部ペア又は「項−述部」ペア)の各述部素性ベクトルに基づいて、当該学習データのペアの述部分布類似度を算出する。また、ステップS300において、ステップS200において得られた複数の学習データの各々について、素性ベクトル記憶部300に記憶された当該学習データの「項−述部」ペアの各項−述部素性ベクトルに基づいて、当該学習データのペアの項−述部分布類似度を算出する。本実施の形態では、「項-述部」ペアに対しても述部分布類似度を算出したが、項−述部分布類似度のみを算出してもよい。   In step S300 of FIG. 34, each of the learning data pairs (predicate pair or “term-predicate” pair) stored in the feature vector storage unit 300 for each of the plurality of learning data obtained in step S200. Based on the predicate feature vector, the predicate distribution similarity of the learning data pair is calculated. In step S300, for each of the plurality of learning data obtained in step S200, based on each term-predicate feature vector of the “term-predicate” pair of the learning data stored in feature vector storage unit 300. Thus, the term-predicate distribution similarity of the learning data pair is calculated. In the present embodiment, the predicate distribution similarity is calculated for the “term-predicate” pair, but only the term-predicate distribution similarity may be calculated.

次に、ステップS302において、ステップS200において得られた複数の学習データの各々について、当該学習データのペア(述部ペア又は「項−述部」ペア)の辞書定義文素性を抽出する。   Next, in step S302, for each of the plurality of learning data obtained in step S200, the dictionary definition sentence feature of the learning data pair (predicate pair or “term-predicate” pair) is extracted.

次に、ステップS304において、ステップS200において得られた複数の学習データの各々について、当該学習データのペア(述部ペア又は「項−述部」ペア)の意味属性素性を抽出する。   Next, in step S304, for each of the plurality of learning data obtained in step S200, semantic attribute features of the learning data pair (predicate pair or “term-predicate” pair) are extracted.

次に、ステップS306において、ステップS200において得られた複数の学習データの各々について、当該学習データのペア(述部ペア又は「項-述部」ペア)の機能表現素性を抽出する。   Next, in step S306, for each of the plurality of learning data obtained in step S200, the function representation feature of the learning data pair (predicate pair or “term-predicate” pair) is extracted.

上記ステップS300は、図35に示す分布類似度算出処理ルーチンによって実現される。   Step S300 is realized by the distribution similarity calculation processing routine shown in FIG.

まず、ステップS400において算出対象の学習データの述部ペアについて、素性ベクトル記憶部300に記憶されている当該ペアの各述部素性ベクトルを読み出す。また、ステップS400において算出対象の学習データの「項-述部」ペアについて、素性ベクトル記憶部300に記憶されている当該ペアの各述部素性ベクトル及び各項−述部素性ベクトルを読み出す。本実施の形態では、算出対象の正解データの「項-述部」ペアについて述部素性ベクトルを読み出したが、読み出さなくてもよい。   First, in step S400, for each predicate pair of learning data to be calculated, each predicate feature vector of the pair stored in the feature vector storage unit 300 is read. In step S400, for the “term-predicate” pair of the learning data to be calculated, the predicate feature vector and each term-predicate feature vector of the pair stored in the feature vector storage unit 300 are read. In this embodiment, the predicate feature vector is read for the “term-predicate” pair of the correct answer data to be calculated.

次に、ステップS402において、ステップS400において読み出された素性ベクトルに基づいて、当該学習データのペア(述部ペア又は「項−述部」ペア)について分布類似度を算出する。   Next, in step S402, based on the feature vector read in step S400, the distribution similarity is calculated for the learning data pair (predicate pair or “term-predicate” pair).

次に、ステップS404において、ステップS200において読み込んだ全ての学習データの各々について、当該学習データのペアの分布類似度が算出されたか否かを判定する。全ての学習データの各々のペア(述部ペア又は「項−述部」ペア)について分布類似度が算出されている場合には処理を終了し、分布類似度が算出されていない学習データのペア(述部ペア又は「項−述部」ペア)が存在する場合には、ステップS400に移行し当該学習データを算出対象の学習データとして各処理を繰り返す。   Next, in step S404, it is determined whether or not the distribution similarity of the learning data pair has been calculated for each of all the learning data read in step S200. If the distribution similarity is calculated for each pair of all learning data (predicate pair or “term-predicate” pair), the process is terminated, and the pair of learning data for which distribution similarity is not calculated If there is a (predicate pair or “term-predicate” pair), the process proceeds to step S400, and each process is repeated using the learning data as learning data to be calculated.

上記、ステップS302は、図36に示す辞書定義文素性抽出処理ルーチンによって実現される。   Step S302 is realized by the dictionary definition sentence feature extraction processing routine shown in FIG.

まず、ステップS500において、抽出対象の学習データのペア(述部ペア又は「項−述部」ペア)の各述部の定義文セットを定義文辞書記憶部304から抽出する。   First, in step S500, a definition sentence set of each predicate of a pair of learning data to be extracted (predicate pair or “term-predicate” pair) is extracted from the definition sentence dictionary storage unit 304.

次に、ステップS502において、ステップS500において抽出された定義文セットの各々の定義文について形態素解析を行う。   Next, in step S502, morphological analysis is performed on each definition sentence of the definition sentence set extracted in step S500.

次に、ステップS504において、ステップS502において得られた形態素毎の表記と標準形と品詞、および読みが少なくとも含まれる形態素解析の結果に基づいて、定義文相互補完性を示す素性を抽出する。定義文相互補完性を示す素性として、Pred1Match、Pred2Matchを抽出する。抽出対象の正解データのペアが「項-述部」ペアの場合、Arg1Match、Arg2Matchをさらに抽出することもできる。   Next, in step S504, based on the result of morpheme analysis including at least the notation, the standard form, the part of speech, and the reading for each morpheme obtained in step S502, a feature indicating definition sentence mutual complementarity is extracted. Pred1Match and Pred2Match are extracted as features indicating definition sentence mutual complementarity. If the pair of correct data to be extracted is a “term-predicate” pair, Arg1Match and Arg2Match can be further extracted.

次に、ステップS506において、ステップS502において得られた形態素毎の表記と標準形と品詞、および読みが少なくとも含まれる形態素解析の結果に基づいて、語彙の重なりを示す素性を抽出する。語彙の重なりを示す素性として、NounMatch,VerbMatch,AdjMatch,AdjNMatchの少なくとも1つを抽出する。   Next, in step S506, based on the result of morpheme analysis including at least the notation, the standard form, the part of speech, and the reading for each morpheme obtained in step S502, a feature indicating vocabulary overlap is extracted. At least one of NounMatch, VerbMatch, AdjMatch, and AdjNMatch is extracted as a feature indicating vocabulary overlap.

次に、ステップS508において、ステップS504において抽出された定義文相互補完性を示す素性及びステップS506において抽出された語彙の重なりを示す素性に基づいて、辞書定義文素性を構築する。   Next, in step S508, a dictionary definition sentence feature is constructed based on the feature indicating the mutual definition of the definition sentences extracted in step S504 and the feature indicating the overlap of the vocabulary extracted in step S506.

次に、ステップS510において、ステップS202において読み込んだ全ての学習データの各々のペア(述部ペア又は「項−述部」ペア)について辞書定義文素性を構築したか判定する。すべての学習データのペア(述部ペア又は「項−述部」ペア)について辞書定義文素性を構築した場合には、処理を終了し、辞書定義文素性を構築していない学習データのペア(述部ペア又は「項−述部」ペア)が存在する場合には、ステップS500に移行して当該学習データを抽出対象の学習データとして各処理を繰り返す。   Next, in step S510, it is determined whether a dictionary definition sentence feature has been constructed for each pair (predicate pair or “term-predicate” pair) of all the learning data read in step S202. When the dictionary definition sentence feature is constructed for all the learning data pairs (predicate pair or “term-predicate” pair), the processing is terminated, and the learning data pair that does not construct the dictionary definition sentence feature ( If there is a predicate pair or “term-predicate” pair), the process proceeds to step S500, and each process is repeated using the learning data as extraction target learning data.

上記ステップS304は、図37に示す意味属性素性抽出処理ルーチンによって実現される。   Step S304 is realized by the semantic attribute feature extraction processing routine shown in FIG.

まず、ステップS600において、抽出対象の学習データのペア(述部ペア又は「項−述部」ペア)の各述部の重なり意味属性を抽出する。   First, in step S600, overlapping semantic attributes of each predicate of a pair of learning data to be extracted (predicate pair or “term-predicate” pair) are extracted.

次に、ステップS602において、ステップS600において得られた重なり意味属性に基づいて、抽出対象の学習データのペア(述部ペア又は「項−述部」ペア)について意味属性重み付き重なり率を計算する。   Next, in step S602, based on the overlapping semantic attribute obtained in step S600, a semantic attribute weighted overlap rate is calculated for a pair of learning data to be extracted (predicate pair or “term-predicate” pair). .

次に、ステップS604において、ステップS600において得られた重なり意味属性、及びステップS602において得られた意味属性重み付き重なり率に基づいて、当該抽出対象の学習データのペア(述部ペア又は「項−述部」ペア)について意味属性素性を構築する。   Next, in step S604, based on the overlapping semantic attribute obtained in step S600 and the semantic attribute weighted overlapping rate obtained in step S602, the pair of learning data to be extracted (predicate pair or “term- Construct semantic attribute features for predicate pairs.

次に、ステップS606において、ステップS602において読み込んだ全ての学習データの各々のペア(述部ペア又は「項−述部」ペア)について意味属性素性の構築をしたか否かを判定する。すべての学習データの各々のペア(述部ペア又は「項−述部」ペア)について意味属性素性の構築をした場合には処理を終了し、意味属性素性の構築をしていない学習データのペア(述部ペア又は「項−述部」ペア)が存在する場合には、ステップS600に移行し、当該学習データを抽出対象の学習データとして各処理を繰り返す。   Next, in step S606, it is determined whether or not a semantic attribute feature has been constructed for each pair (predicate pair or “term-predicate” pair) of all the learning data read in step S602. When a semantic attribute feature is constructed for each pair of all learning data (predicate pair or “term-predicate” pair), the processing is terminated, and a pair of learning data for which no semantic attribute feature is constructed If there is a (predicate pair or “term-predicate” pair), the process proceeds to step S600, and each process is repeated with the learning data as learning data to be extracted.

上記ステップS306は、図38に示す機能表現素性抽出処理ルーチンによって実現される。   The above step S306 is realized by the function expression feature extraction processing routine shown in FIG.

まず、ステップS700において、抽出対象の学習データのペア(述部ペア又は「項-述部」ペア)の各述部の形態素解析を行い、形態素毎の表記と標準形と品詞が少なくとも含まれる解析結果を用いて最も尤もらしい意味ラベル列を付与する。   First, in step S700, morpheme analysis of each predicate of a pair of learning data to be extracted (predicate pair or “term-predicate” pair) is performed, and an analysis including at least a notation, a standard form, and a part of speech for each morpheme. The most likely meaning label string is assigned using the result.

次に、ステップS702において、ステップS700において得られたペア各々の述部の意味ラベルの両方に共通して出現する重なり意味ラベルを抽出する。   Next, in step S702, overlapping semantic labels that appear in common in both semantic labels of the predicates of each pair obtained in step S700 are extracted.

次に、ステップS704において、ステップS702において得られたペアの重なり意味ラベルを用いて、意味ラベル重なり率を計算する。   Next, in step S704, the semantic label overlap rate is calculated using the paired overlapping semantic labels obtained in step S702.

次に、ステップS706において、ステップS702において得られた重なり意味ラベル、及びステップS704において得られた意味ラベル重なり率に基づいて、当該抽出対象の学習データのペア(述部ペア又は「項-述部」ペア)について機能表現素性を構築する。   Next, in step S706, based on the overlapping semantic label obtained in step S702 and the semantic label overlapping rate obtained in step S704, the pair of learning data to be extracted (predicate pair or “term-predicate”). “Pairs” are constructed with functional expression features.

次に、ステップS708において、ステップS702において読み込んだ全ての学習データの各々のペア(述部ペア又は「項-述部」ペア)について機能表現素性の構築をしたか否かを判定する。すべての学習データの各々のペア(述部ペア又は「項-述部」ペア)について機能表現素性の構築をした場合には処理を終了し、機能表現素性の構築をしていない学習データのペア(述部ペア又は「項-述部」ペア)が存在する場合には、ステップS700に移行し、当該学習データを抽出対象の正解データとして各処理を繰り返す。   Next, in step S708, it is determined whether or not a function representation feature has been constructed for each pair (predicate pair or “term-predicate” pair) of all the learning data read in step S702. A pair of learning data that does not have a functional representation feature when processing of the functional representation feature is completed for each pair of learning data (predicate pair or "term-predicate" pair) If there is a (predicate pair or “term-predicate” pair), the process proceeds to step S700, and each process is repeated with the learning data as the correct answer data to be extracted.

次に、図33のステップS204において、ステップS200において得られた複数の学習データの各々について、反義素性の抽出をする。   Next, in step S204 in FIG. 33, anonymity is extracted for each of the plurality of learning data obtained in step S200.

上記ステップS204は、図39に示す反義素性抽出処理ルーチンによって実現される。   Step S204 is realized by the anonymity extraction processing routine shown in FIG.

次に、ステップS800では、n-gramモデル記憶部706に記憶されているn-gramモデルを読み込む。   Next, in step S800, the n-gram model stored in the n-gram model storage unit 706 is read.

次に、ステップS802では、事態間データベース記憶部718に記憶されている事態間データベースを読み込む。   Next, in step S802, the event database stored in the event database storage unit 718 is read.

次に、ステップS804では、ステップS200において取得した学習コーパスに含まれる抽出対象の学習データのペア(述部ペア又は「項-述部」ペア)の述部の各々について形態素解析を行う。   Next, in step S804, morpheme analysis is performed on each predicate of the extraction target learning data pair (predicate pair or “term-predicate pair”) included in the learning corpus acquired in step S200.

次に、ステップS806では、ステップS804において取得した述部の各々の形態素解析結果に基づいて、抽出対象のペア(述部ペア又は「項-述部」ペア)について、2種類の複合語を生成する。   Next, in step S806, based on the morphological analysis results of each predicate acquired in step S804, two types of compound words are generated for the extraction target pair (predicate pair or “term-predicate” pair). To do.

次に、ステップS808では、ステップS806において生成した2種類の複合語の各々の複合語尤度を、ステップS800において取得したn-gramモデルを用いて計算し、素性として抽出する。   Next, in step S808, the compound word likelihood of each of the two types of compound words generated in step S806 is calculated using the n-gram model acquired in step S800, and extracted as a feature.

次に、ステップS810では、抽出対象のペア(述部ペア又は「項-述部」ペア)について、2種類の並列述語構文を生成する。   Next, in step S810, two types of parallel predicate syntax are generated for the pair to be extracted (predicate pair or “term-predicate” pair).

次に、ステップS812では、ステップS810において生成した2種類の並列述語構文の各々の文内共起尤度を、ステップS800において取得したn-gramモデルを用いて計算し、素性として抽出する。   Next, in step S812, the intra-sentence co-occurrence likelihood of each of the two types of parallel predicate syntax generated in step S810 is calculated using the n-gram model acquired in step S800, and extracted as a feature.

次に、ステップS814では、抽出対象のペア(述部ペア又は「項-述部」ペア)について、ステップS802において取得した事態間データベースを用いて事態間スコアを抽出し、素性として抽出する。   Next, in step S814, an inter-situation score is extracted from the pair to be extracted (predicate pair or “term-predicate” pair) using the inter-event database acquired in step S802, and extracted as a feature.

次に、ステップS816では、抽出対象のペア(述部ペア又は「項-述部」ペア)の各々の述部の頭文字1文字を抽出し、一方の述部と他方の述部の頭文字を組み合わせた部分文字列特徴、及び他方の述部と一方の述部の頭文字を組み合わせた部分文字列特徴を抽出し、素性として抽出する。   Next, in step S816, one initial character of each predicate of the pair to be extracted (predicate pair or “term-predicate” pair) is extracted, and the initial character of one predicate and the other predicate is extracted. And the partial character string feature that combines the other predicate and the initial character of one predicate are extracted as features.

次に、ステップS818では、ステップS200において取得した学習コーパスに含まれるすべてのペア(述部ペア又は「項-述部」ペア)についてステップS804〜ステップS818の処理を行ったか否かの判定を行う。すべてのペア(述部ペア又は「項-述部」ペア)について処理を行った場合には、処理を終了し、すべてのペア(述部ペア又は「項-述部」ペア)について処理を行っていない場合には、抽出対象となるペア(述部ペア又は「項-述部」ペア)を変更し、ステップS804〜ステップS818の処理を繰り返す。   Next, in step S818, it is determined whether or not the processing in steps S804 to S818 has been performed for all pairs (predicate pairs or “term-predicate” pairs) included in the learning corpus acquired in step S200. . When processing is performed for all pairs (predicate pair or “term-predicate” pair), processing is terminated and processing is performed for all pairs (predicate pair or “term-predicate” pair). If not, the pair to be extracted (predicate pair or “term-predicate” pair) is changed, and the processing from step S804 to step S818 is repeated.

上記ステップS806は、図40に示す複合語生成処理ルーチンによって実現される。   Step S806 is realized by the compound word generation processing routine shown in FIG.

まず、ステップS900では、ステップS804において取得した抽出対象のペア(述部ペア又は「項-述部」ペア)の各々の述部の形態素解析結果に基づいて、ペア(述部ペア又は「項-述部」ペア)の双方の述部の品詞が和語動詞又は形容詞であるか否かを判定する。ペア(述部ペア又は「項-述部」ペア)の双方の述部の品詞が和語動詞又は形容詞の場合には、ステップS902に移行し、ペア(述部ペア又は「項-述部」ペア)の少なくとも一方の述部の品詞が和語動詞でもなく、形容詞でもない場合には、ステップS904に移行する。   First, in step S900, based on the morphological analysis result of each predicate of the pair to be extracted (predicate pair or “term-predicate” pair) acquired in step S804, a pair (predicate pair or “term- It is determined whether the part of speech of both predicates of the predicate “pair” is a Japanese verb or an adjective. When the part of speech of both predicates of the pair (predicate pair or “term-predicate” pair) is a Japanese verb or adjective, the process proceeds to step S902, and the pair (predicate pair or “term-predicate”) If the part of speech of at least one predicate of the pair) is neither a Japanese verb nor an adjective, the process proceeds to step S904.

次に、ステップS902では、抽出対処のペア(述部ペア又は「項-述部」ペア)の各々の述部の連用形を組み合わせて2種類の複合語を生成し処理を終了する。なお、複合語は、一方の述部が先に出現する場合の複合語と、他方の述部が先に出現する場合の複合語の2種類を生成する。   Next, in step S902, two types of compound words are generated by combining the consecutive forms of the predicates of the extraction coping pair (predicate pair or “term-predicate” pair), and the process is terminated. The compound words are generated in two types: a compound word when one predicate appears first and a compound word when the other predicate appears first.

次に、ステップS904では、ステップS804において取得した抽出対象のペア(述部ペア又は「項-述部」ペア)の各々の述部の形態素解析結果に基づいて、ペア(述部ペア又は「項-述部」ペア)の双方の述部の品詞が動作性名詞であり、かつ抽出対象のペア(述部ペア又は「項-述部」ペア)の各々の述部に共通する文字があるか否かを判定する。ペア(述部ペア又は「項-述部」ペア)の双方の述部の品詞が動作性名詞であり、かつ共通する文字がある場合には、ステップS908に移行し、ペア(述部ペア又は「項-述部」ペア)の少なくとも一方の述部の品詞が動作性名詞でない場合、又はペア(述部ペア又は「項-述部」ペア)の各々の述部に共通する文字がない場合にはステップS910に移行する。   Next, in step S904, based on the morphological analysis result of each predicate of the pair to be extracted (predicate pair or “term-predicate” pair) acquired in step S804, a pair (predicate pair or “term” -Part of speech of both predicates in the "-predicate" pair) is a behavioral noun, and there is a character common to each predicate of the pair to be extracted (predicate pair or "term-predicate" pair) Determine whether or not. If the part of speech of both predicates of the pair (predicate pair or “term-predicate” pair) is an action noun and there is a common character, the process proceeds to step S908, and the pair (predicate pair or When the part of speech of at least one predicate of the “term-predicate pair” is not a behavioral noun, or there is no character common to each predicate of the pair (predicate pair or “term-predicate” pair) Then, the process proceeds to step S910.

次に、ステップS908では、抽出対象のペア(述部ペア又は「項-述部」ペア)の各々に共通する文字を保持し、異なる文字列を連続させて2種類の複合語を生成し、処理を終了する。なお、複合語は、一方の述部が先に出現する場合の複合語と、他方の述部が先に出現する場合の複合語の2種類を生成する。   Next, in step S908, a character common to each of the extraction target pairs (predicate pair or “term-predicate” pair) is held, and two types of compound words are generated by continuing different character strings. The process ends. The compound words are generated in two types: a compound word when one predicate appears first and a compound word when the other predicate appears first.

次に、ステップS910では、抽出対象のペア(述部ペア又は「項-述部」ペア)の各々の述部をそのまま組み合わせて2種類の複合語を生成し、処理を終了する。なお、複合語は、一方の述部が先に出現する場合の複合語と、他方の述部が先に出現する場合の複合語の2種類を生成する。   Next, in step S910, the predicates of the pair to be extracted (predicate pair or “term-predicate” pair) are combined as they are to generate two types of compound words, and the process ends. The compound words are generated in two types: a compound word when one predicate appears first and a compound word when the other predicate appears first.

次に、図33のステップS206において、ステップS200において得られた複数の学習データの各々について、ステップS202において取得した同義素性の各々、及びステップS204において取得した反義素性の各々を含む素性集合と、当該ペア(述部ペア又は「項‐述部」ペア)に付与されている述部クラスとに基づいて、同反−無関係分類素性を構築する。   Next, in step S206 of FIG. 33, for each of the plurality of learning data obtained in step S200, a feature set including each of the synonymous features acquired in step S202 and each of the anonymity features acquired in step S204, and Based on the predicate class assigned to the pair (predicate pair or “term-predicate” pair), an anti-irrelevant classification feature is constructed.

次に、ステップS208において、ステップS200において得られた複数の学習データのうち、ペア(述部ペア又は「項‐述部」ペア)に付与されている述部クラスが「同義」又は「反義」であるペアの各々について、ステップS202において取得した同義素性の各々、及びステップS204において取得した反義素性の各々を含む素性集合と、当該ペア(述部ペア又は「項‐述部」ペア)に付与されている述部クラスとに基づいて、同義−反義分類素性を構築する。   Next, in step S208, among the plurality of learning data obtained in step S200, the predicate class given to the pair (predicate pair or “term-predicate” pair) is “synonymous” or “dissent”. ”For each of the synonym features acquired in step S202 and the feature set including each of the anonymity features acquired in step S204, and the pair (predicate pair or“ term-predicate ”pair) The synonym-anonymity classification feature is constructed based on the predicate class assigned to.

次に、ステップS210において、ステップS206において取得した同反−無関係分類素性に基づいて、同反−無関係分類モデルの学習を行い。学習した同反−無関係分類モデルを同反−無関係分類モデル記憶部236に記憶する。   Next, in step S210, learning of the anti-irrelevant classification model is performed based on the anti-irrelevant classification feature acquired in step S206. The learned anti-irrelevant classification model is stored in the anti-irrelevant classification model storage unit 236.

次に、ステップS212において、ステップS208において取得した同義−反義分類素性に基づいて、同義−反義分類モデルの学習を行い。学習した同義−反義分類モデルを同義−反義分類モデル記憶部246に記憶する。   Next, in step S212, the synonym-anonymity classification model is learned based on the synonym-anonymity classification feature acquired in step S208. The learned synonym-anonymity classification model is stored in the synonym-anomaly classification model storage unit 246.

次に、ステップS214において、ステップS210において取得した同反−無関係分類モデルと、ステップS212において取得した同義−反義分類モデルを出力部250に出力して処理を終了する。   Next, in step S214, the same-unrelated classification model acquired in step S210 and the synonym-anonymous classification model acquired in step S212 are output to the output unit 250, and the process ends.

<分類判定装置の作用>
次に、本発明の実施の形態に係る分類判定装置800の作用について説明する。まず、事前に分類モデル学習装置200により出力された同反−無関係分類モデルを同反−無関係分類モデル記憶部828に記憶する。また、事前に分類モデル学習装置200により出力された同義−反義分類モデルを同義−反義分類モデル記憶部834に記憶する。また、事前にn-gramモデル記憶部706に記憶されているn-gramモデルと同一のn-gramモデルを反義素性抽出部824に記憶する。また、事前に事態間データベース記憶部718に記憶されている事態間データベースと同一の事態間データベースを反義素性抽出部824に記憶する。また、事前に素性ベクトル記憶部300に記憶されている素性ベクトルと同一の素性ベクトルを同義素性抽出部822に記憶する。そして、入力部810により、判定対象のペア(述部ペア又は「項‐述部」ペア)が入力されると、分類判定装置800のROMに記憶されたプログラムを、CPUが実行することにより、図41に示す分類判定処理ルーチンが実行される。
<Operation of classification judgment device>
Next, the operation of the classification determination apparatus 800 according to the embodiment of the present invention will be described. First, the same-unrelated classification model output by the classification model learning device 200 in advance is stored in the same-unrelated classification model storage unit 828. In addition, the synonym-anonymity classification model output by the classification model learning device 200 in advance is stored in the synonym-anonymity classification model storage unit 834. In addition, the same n-gram model as the n-gram model stored in the n-gram model storage unit 706 in advance is stored in the anonymity extraction unit 824. Further, the same event database stored in the event database storage unit 718 in advance is stored in the anonymity extracting unit 824. Further, the same feature vector as the feature vector stored in advance in the feature vector storage unit 300 is stored in the synonym feature extraction unit 822. When the determination target pair (predicate pair or “term-predicate” pair) is input by the input unit 810, the CPU executes the program stored in the ROM of the classification determination device 800. The classification determination processing routine shown in FIG. 41 is executed.

まず、ステップS1000では、入力部810において入力された判定対象のペア(述部ペア又は「項‐述部」ペア)を受け付ける。   First, in step S1000, a determination target pair (predicate pair or “term-predicate” pair) input in the input unit 810 is received.

次に、ステップS1002では、同反−無関係分類モデル記憶部828に記憶されている同反−無関係分類モデルを読み込む。   Next, in step S1002, the same-unrelated classification model stored in the same-unrelated classification model storage unit 828 is read.

次に、ステップS1004では、同義−反義分類モデル記憶部834に記憶されている同義−反義分類モデルを読み込む。   Next, in step S1004, the synonym-anonymity classification model storage unit 834 stores the synonym-anonymity classification model.

次に、ステップS1006では、ステップS202と同様に、入力された判定対象のペア(述部ペア又は「項‐述部」ペア)について同義素性の各々を抽出する。   Next, in step S1006, as in step S202, each of the synonymous features is extracted for the input judgment target pair (predicate pair or “term-predicate” pair).

次に、ステップS1008では、ステップS204と同様に、入力された判定対象のペア(述部ペア又は「項‐述部」ペア)について反義素性の各々を抽出する。   Next, in step S1008, as in step S204, each of the anonymity features is extracted for the input judgment target pair (predicate pair or “term-predicate” pair).

次に、ステップS1010では、ステップS1006において取得した同義素性の各々と、ステップS1008において取得した反義素性の各々とに基づいて、判定対象のペア(述部ペア又は「項‐述部」ペア)の素性集合を作成する。   Next, in step S1010, based on each of the synonyms acquired in step S1006 and each of the antonyms acquired in step S1008, a determination target pair (predicate pair or “term-predicate” pair) Create a feature set of.

次に、ステップS1012では、ステップS1010で作成した素性集合と、ステップS1002において取得した同反−無関係分類モデルとに基づいて、判定対象のペア(述部ペア又は「項‐述部」ペア)の述部クラスが「同反義(同義又は反義)」であるか又は「無関係」であるかを判定する。   Next, in step S1012, based on the feature set created in step S1010 and the same-unrelated classification model acquired in step S1002, a pair of determination targets (predicate pair or “term-predicate” pair) is determined. It is determined whether the predicate class is “synonymous (synonymous or affirmative)” or “unrelated”.

次に、ステップS1014では、ステップS1012において判定された判定対象のペアの述部クラスが「無関係」か否かを判定する。判定対象のペアの述部クラスが「無関係」である場合には、ステップS1018へ移行し、判定対象のペアの述部クラスが「同反義(同義又は反義)」である場合には、ステップS1016へ移行する。   Next, in step S1014, it is determined whether the predicate class of the determination target pair determined in step S1012 is “irrelevant”. When the predicate class of the determination target pair is “unrelated”, the process proceeds to step S1018, and when the predicate class of the determination target pair is “synonymous (synonymous or affirmative)”, The process proceeds to step S1016.

次に、ステップS1016では、ステップS1010で作成した素性集合と、ステップS1004において取得した同義−反義分類モデルとに基づいて、判定対象のペア(述部ペア又は「項‐述部」ペア)の述部クラスが「同義」であるか又は「反義」であるかを判定する。   Next, in step S1016, based on the feature set created in step S1010 and the synonym-anonymity classification model acquired in step S1004, a pair of determination targets (predicate pair or “term-predicate” pair) is determined. It is determined whether the predicate class is “synonymous” or “antitrust”.

次に、ステップS1018では、ステップS1012において得られた判定結果又は、ステップS1016において得られた判定結果を、判定対象のペア(述部ペア又は「項‐述部」ペア)の述部クラスとして出力部850へ出力して処理を終了する。   Next, in step S1018, the determination result obtained in step S1012 or the determination result obtained in step S1016 is output as a predicate class of a determination target pair (predicate pair or “term-predicate” pair). The data is output to the unit 850 and the process is terminated.

以上説明したように、本発明の実施の形態に係る分類モデル学習装置によれば、述部ペアが同義、反義、又は無関係であるか否かを高精度に判定する分類モデルを学習することができる。   As described above, according to the classification model learning device according to the embodiment of the present invention, learning a classification model that determines with high accuracy whether a predicate pair is synonymous, anonymity, or irrelevant. Can do.

また、本発明の実施の形態に係る分類判定装置によれば、述部ペアが同義、反義、又は無関係であるか否かを高精度に判定することができる。   In addition, according to the classification determination apparatus according to the embodiment of the present invention, it is possible to determine with high accuracy whether or not the predicate pair is synonymous, anomaly, or irrelevant.

また、述部の意味関係を、「同義」、「反義」、及び「無関係」の3種類に分類することにより、大量のテキストから有益な情報を抽出するテキストマイニングなどのアプリケーションにおいて、同義の表現をまとめあげたり、相反する対立した意見を抽出・分析したりすることが可能になる。   In addition, in the application such as text mining, which extracts useful information from a large amount of text by classifying the semantic relationship of predicates into three types: “synonymous”, “anti-righteous”, and “unrelated”. It is possible to summarize expressions and extract and analyze conflicting opinions that conflict.

また、述部の意味関係を分類する際に、最初に意味的に似ている「同義」と「反義」を一つの述部クラスにまとめ上げて、「同反−無関係分類」という分類を行い、その次に、「同義」じゃ「反義」かの2値分類である「同義−反義分類」を行うため、高精度かつ既存手法とは異なり、幅広い表現を獲得することが可能となり、検索や意見分析など自然言語理解を必要とするアプリケーションの精度を向上させることができる。   Also, when classifying the semantic relations of predicates, first synonymously synonymous “synonyms” and “antisenses” are combined into one predicate class, and the classification “sameness-unrelated classification” Next, since “synonymous” is a binary classification of “synonymous”, “synonymous-defensive classification”, it is possible to acquire a wide range of expressions with high accuracy and different from existing methods. , Improve the accuracy of applications that require natural language understanding, such as search and opinion analysis.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

本実施の形態においては、並列述語構文を生成する場合に、接続助詞の「たり」でつなげて並列述語構文を生成する場合について説明したがこの限りでない。例えば、他の接続助詞を用いて並列述語構文を生成してもよい。   In the present embodiment, when generating a parallel predicate syntax, the case where the parallel predicate syntax is generated by connecting with a connection particle “Tari” has been described. For example, a parallel predicate syntax may be generated using other connection particles.

また、本実施の形態においては、文内共起尤度をn-gramスコアを用いて計算する場合について説明したがこの限りでない。例えば、文内共起尤度として並列述語構文を検索して出てくるヒット数であるWeb上の文書頻度(df)を用いてもよい。   In the present embodiment, the case where the intra-sentence co-occurrence likelihood is calculated using the n-gram score has been described, but the present invention is not limited to this. For example, the document frequency (df) on the Web, which is the number of hits generated by searching the parallel predicate syntax as the intra-sentence co-occurrence likelihood, may be used.

また、本実施の形態においては、同反−無関係分類モデル及び同義−反義分類モデルの学習にLIBLINERAを用いて学習する場合について説明したがこの限りでない。例えば、Decision Treeなど他の識別学習を用いてもよい。   Further, in the present embodiment, the case where learning is performed using LIBLINERA for learning the anti-independent classification model and the synonym-anti-sense classification model is not limited to this. For example, other discriminative learning such as Decision Tree may be used.

10、210、810 入力部
20、220、820 演算部
24 基本解析部
26 素性抽出部
28 素性ベクトル構築部
30、250、850 出力部
100 素性ベクトル構築装置
200 分類モデル学習装置
222 学習コーパス記憶部
224、822 同義素性抽出部
226、824 反義素性抽出部
228 素性集合記憶部
230 同反−無関係分類素性構築部
232 同反−無関係分類素性記憶部
234 同反−無関係分類モデル学習部
236、828 同反−無関係分類モデル記憶部
240 同義−反義分類素性構築部
242 同義−反義分類素性記憶部
244 同義−反義分類モデル学習部
246、834 同義−反義分類モデル記憶部
300 素性ベクトル記憶部
302 分布類似度計算部
304 定義文辞書記憶部
306 辞書定義文素性抽出部
308 意味属性辞書記憶部
310 意味属性素性抽出部
312 機能表現辞書記憶部
314 機能表現素性抽出部
400 定義文抽出部
402 定義文相互補完性抽出部
404 語彙の重なり抽出部
500 意味属性重なり抽出部
502 意味属性重み付き重なり率計算部
600 意味ラベル付与部
602 意味ラベル抽出部
604 意味ラベル重なり率計算部
700 複合語スコア計算部
702 複合語生成部
704 複合語尤度計算部
706 モデル記憶部
708 文内共起尤度計算部
710 並列述語構文生成部
712 並列述語構文尤度計算部
714 部分文字列特徴抽出部
716 事態間スコア計算部
718 事態間データベース記憶部
800 分類判定装置
826 素性構築部
828 同反−無関係分類モデル記憶部
830 同反−無関係判定部
832 同義−反義判定部
834 同義−反義分類モデル記憶部
10, 210, 810 Input unit 20, 220, 820 Calculation unit 24 Basic analysis unit 26 Feature extraction unit 28 Feature vector construction unit 30, 250, 850 Output unit 100 Feature vector construction device 200 Classification model learning device 222 Learning corpus storage unit 224 , 822 Synonym feature extraction unit 226, 824 Anti-feature feature extraction unit 228 Feature set storage unit 230 Same-unrelated classification feature construction unit 232 Same-unrelated classification feature storage unit 234 Same-unrelated classification model learning unit 236, 828 Same Anti-unrelated classification model storage unit 240 Synonym-anonymity classification feature construction unit 242 Synonym-anonymity classification feature storage unit 244 Synonym-anonymity classification model learning unit 246, 834 Synonym-anonymity classification model storage unit 300 Feature vector storage unit 302 Distribution similarity calculation unit 304 Definition sentence dictionary storage unit 306 Dictionary definition sentence feature extraction unit 308 Semantic attribute dictionary storage unit 310 Semantic attribute feature extraction unit 312 Functional expression dictionary storage unit 314 Functional expression feature extraction unit 400 Definition sentence extraction unit 402 Definition sentence mutual complementation extraction unit 404 Lexical overlap extraction unit 500 Semantic attribute overlap extraction unit 502 Meaning Attribute weighted overlap rate calculation unit 600 Semantic label assignment unit 602 Semantic label extraction unit 604 Semantic label overlap rate calculation unit 700 Compound word score calculation unit 702 Compound word generation unit 704 Compound word likelihood calculation unit 706 Model storage unit 708 Occurrence likelihood calculation unit 710 Parallel predicate syntax generation unit 712 Parallel predicate syntax likelihood calculation unit 714 Partial character string feature extraction unit 716 Inter-situation score calculation unit 718 Inter-event database storage unit 800 Classification determination device 826 Feature construction unit 828 Unrelated classification model storage unit 830 Same-unrelated determination unit 832 Synonym-anonymity determination unit 34 synonymous - Anti defined classification model storage unit

Claims (16)

予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、
予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、
前記述部ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、
前記述部ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、
同義、反義、及び無関係のうちの何れかが分類として各々予め付与された述部ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出する素性抽出部と、
同義又は反義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合と、無関係が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記述部ペアを同義又は反義である同反義と無関係とに分類するための同反−無関係分類素性として構築する同反−無関係分類素性構築部と、
同義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合と、反義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記述部ペアを同義と反義とに分類するための同義−反義分類素性として構築する同義−反義分類素性構築部と、
前記同反−無関係分類素性構築部により構築された前記同反−無関係分類素性に基づいて、述部ペアを同反義と無関係とに分類するためのモデルを学習する同反−無関係分類モデル学習部と、
前記同義−反義分類素性構築部により構築された前記同義−反義分類素性に基づいて、述部ペアを同義と反義とに分類するためのモデルを学習する同義−反義分類モデル学習部と、
を含む、分類モデル学習装置。
Each of the predicates of the predescription part pair extracted based on the definition sentence of each predicate of the predicate pair obtained from the definition sentence set including the definition sentences for each of the plurality of predicates prepared in advance. The feature indicating the mutual complementarity of the definition statement indicating whether or not there is a pair of predicates in the definition statement is the first feature,
Semantic attributes common to the predescription part pair extracted based on the semantic attributes of each predicate of the predescription part pair obtained from the semantic attribute set consisting of the semantic attributes for each of the plurality of predicates prepared in advance. The second feature,
The combination of the partial character string in the character string representing one predicate of the preceding description part pair and the partial character string in the character string representing the other predicate is a third feature,
The likelihood of the parallel predicate syntax generated including each predicate of the predescription part pair is a fourth feature,
For each of the predicate pairs in which any one of synonym, contradiction, and irrelevance is previously given as a classification, at least one of the first feature and the second feature, and the third feature, A feature extraction unit that extracts a feature set including the fourth feature;
The feature set extracted by the feature extraction unit for each predicate pair assigned synonym or anomaly as a classification and the feature extraction unit extracted for each predicate pair assigned an irrelevance as a classification An anti-irrelevant classification feature structuring unit that constructs the feature set as an anti-irrelevant classification feature for classifying a predescription part pair as synonymous or irrelevant.
The feature set extracted by the feature extraction unit for each predicate pair given synonym as a classification, and the feature extracted by the feature extraction unit for each predicate pair given anonymity as a classification A synonym-anonymity classification feature construction unit that constructs a set as a synonym-anonymity classification feature for classifying a predescription part pair into synonym and anomaly;
Reciprocal-irrelevant classification model learning for learning a model for classifying predicate pairs irrelevant and irrelevant based on the reciprocal-irrelevant classification feature constructed by the reciprocal-irrelevant classification feature construction unit And
A synonym-anonymity classification model learning unit that learns a model for classifying predicate pairs into synonyms and anomalies based on the synonym-anonymity classification feature constructed by the synonym-anonymity classification feature construction unit When,
Classification model learning apparatus including
前記素性抽出部は、前記並列述語構文の尤度として、前記並列述語構文のn-gramスコアを抽出する請求項1記載の分類モデル学習装置。   The classification model learning device according to claim 1, wherein the feature extraction unit extracts an n-gram score of the parallel predicate syntax as a likelihood of the parallel predicate syntax. 前記素性抽出部は、
前記述部ペアの述部の各々について、テキストコーパスにおいて前記述部の周辺に出現する単語の共起を計算し、前記述部ペアの周辺単語の類似度を計算した分布類似度を第5の素性とし、
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記述部ペアの述部の各々の機能表現の意味ラベルに基づいて抽出される前記述部ペアで共通する意味ラベルを第6の素性とし、
前記述部ペアの前記共通する意味ラベルの重なり度合いを第7の素性とし、
前記述部ペアの述部の各々を複合して生成される複合語の尤度を第8の素性とし、
前記述部ペアの2つの述部が、事態間の関係を表す文において前記事態を表す2つの述部として共起する度合いを第9の素性とし、
前記同義、反義、及び無関係のうちの何れかが分類として各々予め付与された述部ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性と、前記第5の素性、前記第6の素性、前記第7の素性、第8の素性、及び前記第9の素性のうち少なくとも1つとを含む前記素性集合を抽出する
請求項1又は2記載の分類モデル学習装置。
The feature extraction unit includes:
For each predicate part of the previous description part pair, the co-occurrence of words appearing in the vicinity of the previous description part in the text corpus is calculated, and the distribution similarity obtained by calculating the similarity of the surrounding words of the previous description part pair is the fifth distribution similarity. With features,
A predescription part pair extracted based on a semantic label of each predicate of the predescription part pair obtained from a semantic label set made up of semantic labels of the respective function expressions of a plurality of predicates prepared in advance. The semantic label that is common to
The overlapping degree of the common semantic labels of the previous description part pair is a seventh feature,
The likelihood of the compound word generated by compounding each predicate of the preceding description part pair is the eighth feature,
The degree to which the two predicates of the previous description part pair co-occur as two predicates representing the situation in the sentence representing the relationship between the situations is the ninth feature,
At least one of the first feature and the second feature, and the third feature, for each of the predicate pairs in which any one of the synonym, contradiction, and irrelevance is previously given as a classification And extracting the feature set including at least one of the fourth feature, the fifth feature, the sixth feature, the seventh feature, the eighth feature, and the ninth feature The classification model learning device according to claim 1 or 2.
前記素性抽出部は、前記複合語の尤度として、前記述部ペアについて生成される前記複合語のn-gramスコア、及びコーパスにおける前記複合語の出現頻度のうち少なくとも一方を抽出する請求項3記載の分類モデル学習装置。   The feature extraction unit extracts at least one of an n-gram score of the compound word generated for a previous description unit pair and an appearance frequency of the compound word in a corpus as the likelihood of the compound word. The described classification model learning device. 予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項‐述部」ペアの述部各々の定義文に基づいて抽出される、前記「項‐述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性、及び前記「項‐述部」ペアの述部の各々の前記定義文内にペアとなる「項‐述部」の項が存在するか否かを表す定義文相互補完性を示す素性のうち少なくとも前記述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、
予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項‐述部」ペアの述部各々の意味属性に基づいて抽出される前記「項‐述部」ペアで共通する意味属性を第2の素性とし、
前記「項‐述部」ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、
前記「項‐述部」ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、
同義、反義、及び無関係のうちの何れかが分類として各々予め付与された「項‐述部」ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出する素性抽出部と、
同義又は反義が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合と、無関係が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記「項‐述部」ペアを同義又は反義である同反義と無関係とに分類するための同反−無関係分類素性として構築する同反−無関係分類素性構築部と、
同義が分類として付与された「項‐述部ペア」の各々について前記素性抽出部により抽出された前記素性集合と、反義が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記「項‐述部」ペアを同義と反義とに分類するための同義−反義分類素性として構築する同義−反義分類素性構築部と、
前記同反−無関係分類素性構築部により構築された前記同反−無関係分類素性に基づいて、「項‐述部」ペアを同反義と無関係とに分類するためのモデルを学習する同反−無関係分類モデル学習部と、
前記同義−反義分類素性構築部により構築された前記同義−反義分類素性に基づいて、「項‐述部」ペアを同義と反義とに分類するためのモデルを学習する同義−反義分類モデル学習部と、
を含む、分類モデル学習装置。
The “term-predicate” is extracted based on the definition statement of each of the predicates of the “term-predicate” pair, which is obtained from a definition statement set including definition statements for each of a plurality of predicates prepared in advance. A feature indicating mutual complementarity indicating whether or not there is a pair of predicates in the definition statement of each of the predicates of the pair, and each of the predicates of the “term-predicate” pair Definition sentence mutual complementarity that indicates whether or not at least the previous description part exists among the features indicating the mutual complementarity of the definition sentence that indicates whether there is a pair of "term-predicate" terms in the definition sentence The feature indicating is the first feature,
The “term-predicate” extracted based on the semantic attribute of each predicate of the “term-predicate” pair obtained from a semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance. The second attribute is the semantic attribute common to the pair,
A combination of a partial character string in the character string representing one predicate of the “term-predicate” pair and a character string representing the other predicate is a third feature,
The likelihood of the parallel predicate syntax generated including each of the predicates of the “term-predicate” pair is a fourth feature,
For each of the “term-predicate” pairs in which any one of synonym, contradiction, and irrelevance is previously given as a classification, at least one of the first feature and the second feature, and the first feature A feature extraction unit that extracts a feature set including three features and the fourth feature;
About each of the "term-predicate" pairs that are extracted by the feature extractor for each of the "term-predicate" pairs that are given synonyms or anomalies as a classification, and for each of the "term-predicate" pairs that are assigned an irrelevant as a classification The feature set extracted by the feature extraction unit is constructed as an anti-irrelevant classification feature for classifying the “term-predicate” pair as irrelevant or irrelevant. An anti-irrelevant classification feature construction unit;
The feature set extracted by the feature extraction unit for each “term-predicate pair” to which synonyms are assigned as classifications, and the feature for each “term-predicate” pair to which anonymity is assigned as classifications A synonym-anonymity classification feature construction unit that constructs the feature set extracted by the extraction unit as a synonym-anonymity classification feature for classifying the "term-predicate" pair into synonyms and anomalies;
Reciprocity learning a model for classifying a “term-predicate” pair as irrelevant and irrelevant based on the reciprocal-irrelevant classification feature constructed by the reciprocal-irrelevant classification feature construction unit An unrelated classification model learning unit;
A synonym-anonymity learning a model for classifying a “term-predicate” pair into a synonym and anomaly based on the synonym-anonymity classification feature constructed by the synonym-anonymity classification feature construction unit A classification model learning unit;
Classification model learning apparatus including
前記素性抽出部は、前記「項‐述部」ペアの「項‐述部」の各々について、テキストコーパスにおいて前記「項‐述部」の周辺に出現する単語の共起を計算し、前記「項‐述部」ペアの周辺単語の類似度を計算した分布類似度、及び前記「項‐述部」ペアの述部の各々について、テキストコーパスにおいて前記「項‐述部」の述部の周辺に出現する単語の共起を計算し、前記「項‐述部」ペアの述部の周辺単語の類似度を計算した分布類似度のうち少なくとも前記「項‐述部」ペアの周辺単語の類似度を計算した分布類似度を第5の素性とし、
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記「項‐述部」ペアの述部の各々の機能表現の意味ラベルに基づいて抽出される前記「項‐述部」ペアで共通する意味ラベルを第6の素性とし、
前記「項‐述部」ペアの前記共通する意味ラベルの重なり度合いを第7の素性とし、
前記「項‐述部」ペアの述部の各々を複合して生成される複合語の尤度を第8の素性とし、
前記「項‐述部」ペアの2つの述部が、事態間の関係を表す文において前記事態を表す2つの述部として共起する度合いを第9の素性とし、
前記同義、反義、及び無関係のうちの何れかが分類として各々予め付与された「項‐述部」ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性と、前記第5の素性、前記第6の素性、前記第7の素性、前記第8の素性、及び前記第9の素性のうち少なくとも1つとを含む前記素性集合を抽出する請求項5記載の分類モデル学習装置。
The feature extraction unit calculates the co-occurrence of words appearing around the “term-predicate” in a text corpus for each of the “term-predicate” of the “term-predicate” pair. The distribution similarity that calculated the similarity of words around the term-predicate pair and the predicate of the term-predicate in the text corpus for each of the predicates of the term-predicate pair Calculate the co-occurrence of words appearing in the word, and calculate the similarity of the words surrounding the predicate of the “term-predicate” pair. The distribution similarity that calculated the degree is the fifth feature,
Extracted based on the semantic labels of each functional expression of the predicates of the “term-predicate” pair obtained from the semantic label set consisting of the semantic labels of the functional expressions of a plurality of predicates prepared in advance. A semantic label common to the “term-predicate” pair is a sixth feature,
The overlapping degree of the common semantic labels of the “term-predicate” pair is a seventh feature,
The likelihood of a compound word generated by compounding each of the predicates of the “term-predicate” pair is an eighth feature,
The ninth feature is the degree that the two predicates of the “term-predicate” pair co-occur as two predicates representing the situation in a statement representing the relationship between the situations.
For each of the “term-predicate” pairs, each of which is pre-assigned as a classification of any of the synonyms, anomalies, and irrelevance, and at least one of the first feature and the second feature, A third feature, the fourth feature, and at least one of the fifth feature, the sixth feature, the seventh feature, the eighth feature, and the ninth feature. The classification model learning device according to claim 5, wherein the feature set is extracted.
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、
予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、
前記述部ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、
前記述部ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、
入力された述部ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出する素性抽出部と、
前記素性抽出部により抽出された前記素性集合と、予め学習された、述部ペアを同義又は反義である同反義と無関係とに分類するためのモデルとに基づいて、前記述部ペアの分類が同反義か無関係かを判定する同反−無関係判定部と、
前記同反−無関係判定部により前記述部ペアの分類が同反義であると判定された場合、前記素性抽出部により抽出された前記素性集合と、予め学習された、述部ペアを同義と反義とに分類するためのモデルとに基づいて、前記述部ペアの分類が同義か反義かを判定する同義−反義判定部と、
を備える分類判定装置。
Each of the predicates of the predescription part pair extracted based on the definition sentence of each predicate of the predicate pair obtained from the definition sentence set including the definition sentences for each of the plurality of predicates prepared in advance. The feature indicating the mutual complementarity of the definition statement indicating whether or not there is a pair of predicates in the definition statement is the first feature,
Semantic attributes common to the predescription part pair extracted based on the semantic attributes of each predicate of the predescription part pair obtained from the semantic attribute set consisting of the semantic attributes for each of the plurality of predicates prepared in advance. The second feature,
The combination of the partial character string in the character string representing one predicate of the preceding description part pair and the partial character string in the character string representing the other predicate is a third feature,
The likelihood of the parallel predicate syntax generated including each predicate of the predescription part pair is a fourth feature,
A feature extraction unit that extracts a feature set including at least one of the first feature and the second feature, the third feature, and the fourth feature for the input predicate pair;
Based on the feature set extracted by the feature extraction unit and a pre-learned model for classifying the predicate pair as synonymous or anonymity and irrelevant, An anti-irrelevant determination unit for determining whether the classification is the same or irrelevant;
When the same-unrelated determination unit determines that the classification of the previous description unit pair is synonymous, the feature set extracted by the feature extraction unit and the predicate pair learned in advance are synonymous. A synonym-anonymity determination unit that determines whether the classification of the previous description part pair is synonymous or anomaly based on a model for classifying an anomaly;
A classification determination apparatus comprising:
前記素性抽出部は、
前記述部ペアの述部の各々について、テキストコーパスにおいて前記述部の周辺に出現する単語の共起を計算し、前記述部ペアの周辺単語の類似度を計算した分布類似度を第5の素性とし、
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記述部ペアの述部の各々の機能表現の意味ラベルに基づいて抽出される前記述部ペアで共通する意味ラベルを第6の素性とし、
前記述部ペアの前記共通する意味ラベルの重なり度合いを第7の素性とし、
前記述部ペアの述部の各々を複合して生成される複合語の尤度を第8の素性とし、
前記述部ペアの2つの述部が、事態間の関係を表す文において前記事態を表す2つの述部として共起する度合いを第9の素性とし、
前記入力された述部ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性と、前記第5の素性、前記第6の素性、前記第7の素性、第8の素性、及び前記第9の素性のうち少なくとも1つとを含む前記素性集合を抽出する請求項7記載の分類判定装置。
The feature extraction unit includes:
For each predicate part of the previous description part pair, the co-occurrence of words appearing in the vicinity of the previous description part in the text corpus is calculated, and the distribution similarity obtained by calculating the similarity of the surrounding words of the previous description part pair is the fifth distribution similarity. With features,
A predescription part pair extracted based on a semantic label of each predicate of the predescription part pair obtained from a semantic label set made up of semantic labels of the respective function expressions of a plurality of predicates prepared in advance. The semantic label that is common to
The overlapping degree of the common semantic labels of the previous description part pair is a seventh feature,
The likelihood of the compound word generated by compounding each predicate of the preceding description part pair is the eighth feature,
The degree to which the two predicates of the previous description part pair co-occur as two predicates representing the situation in the sentence representing the relationship between the situations is the ninth feature,
For the input predicate pair, at least one of the first feature and the second feature, the third feature, the fourth feature, the fifth feature, the sixth feature, The classification determination apparatus according to claim 7, wherein the feature set including at least one of a feature, the seventh feature, an eighth feature, and a ninth feature is extracted.
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項‐述部」ペアの述部各々の定義文に基づいて抽出される、前記「項‐述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性、及び前記「項‐述部」ペアの述部の各々の前記定義文内にペアとなる「項‐述部」の項が存在するか否かを表す定義文相互補完性を示す素性のうち少なくとも前記述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、
予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項‐述部」ペアの述部各々の意味属性に基づいて抽出される前記「項‐述部」ペアで共通する意味属性を第2の素性とし、
前記「項‐述部」ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、
前記「項‐述部」ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、
入力された「項‐述部」ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出する素性抽出部と、
前記素性抽出部により抽出された前記素性集合と、予め学習された、「項‐述部」ペアを同義又は反義である同反義と無関係とに分類するためのモデルとに基づいて、前記「項‐述部」ペアの分類が同反義か無関係かを判定する同反−無関係判定部と、
前記同反−無関係判定部により前記「項‐述部」ペアの分類が同反義であると判定された場合、前記素性抽出部により抽出された前記素性集合と、予め学習された、「項−述部」ペアを同義と反義とに分類するためのモデルとに基づいて、前記「項‐述部」ペアの分類が同義か反義かを判定する同義−反義判定部と、
を備える分類判定装置。
The “term-predicate” is extracted based on the definition statement of each of the predicates of the “term-predicate” pair, which is obtained from a definition statement set including definition statements for each of a plurality of predicates prepared in advance. A feature indicating mutual complementarity indicating whether or not there is a pair of predicates in the definition statement of each of the predicates of the pair, and each of the predicates of the “term-predicate” pair Definition sentence mutual complementarity that indicates whether or not at least the previous description part exists among the features indicating the mutual complementarity of the definition sentence that indicates whether there is a pair of "term-predicate" terms in the definition sentence The feature indicating is the first feature,
The “term-predicate” extracted based on the semantic attribute of each predicate of the “term-predicate” pair obtained from a semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance. The second attribute is the semantic attribute common to the pair,
A combination of a partial character string in the character string representing one predicate of the “term-predicate” pair and a character string representing the other predicate is a third feature,
The likelihood of the parallel predicate syntax generated including each of the predicates of the “term-predicate” pair is a fourth feature,
A feature that extracts a feature set including at least one of the first feature and the second feature, the third feature, and the fourth feature for the input “term-predicate” pair An extractor;
Based on the feature set extracted by the feature extraction unit and a pre-learned model for classifying `` term-predicate '' pairs as synonymous or anonymity and irrelevant An anti-irrelevant determining unit that determines whether the classification of the “term-predicate” pair is the same or unrelated;
When the classification of the “term-predicate” pair is determined to be reciprocal by the anti-irrelevant determination unit, the feature set extracted by the feature extraction unit and a pre-learned “term” -A synonym-anonymity determination unit that determines whether the classification of the "term-predicate" pair is synonymous or anomaly based on a model for classifying predicate pairs into synonyms and anomalies;
A classification determination apparatus comprising:
前記素性抽出部は、前記「項‐述部」ペアの「項‐述部」の各々について、テキストコーパスにおいて前記「項‐述部」の周辺に出現する単語の共起を計算し、前記「項‐述部」ペアの周辺単語の類似度を計算した分布類似度、及び前記「項‐述部」ペアの述部の各々について、テキストコーパスにおいて前記「項‐述部」の述部の周辺に出現する単語の共起を計算し、前記「項−述部」ペアの述部の周辺単語の類似度を計算した分布類似度のうち少なくとも前記「項‐述部」ペアの周辺単語の類似度を計算した分布類似度を第5の素性とし、
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記「項‐述部」ペアの述部の各々の機能表現の意味ラベルに基づいて抽出される前記「項‐述部」ペアで共通する意味ラベルを第6の素性とし、
前記「項‐述部」ペアの前記共通する意味ラベルの重なり度合いを第7の素性とし、
前記「項‐述部」ペアの述部の各々を複合して生成される複合語の尤度を第8の素性とし、
前記「項‐述部」ペアの2つの述部が、事態間の関係を表す文において前記事態を表す2つの述部として共起する度合いを第9の素性とし、
前記入力された「項‐述部」ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性と、前記第5の素性、前記第6の素性、前記第7の素性、前記第8の素性、及び前記第9の素性のうち少なくとも1つとを含む前記素性集合を抽出する請求項9記載の分類判定装置。
The feature extraction unit calculates the co-occurrence of words appearing around the “term-predicate” in a text corpus for each of the “term-predicate” of the “term-predicate” pair. The distribution similarity that calculated the similarity of words around the term-predicate pair and the predicate of the term-predicate in the text corpus for each of the predicates of the term-predicate pair Calculate the co-occurrence of words appearing in and calculate the similarity of neighboring words of the predicate of the “term-predicate” pair, and at least the similarity of the neighboring words of the “term-predicate” pair among the distribution similarities The distribution similarity that calculated the degree is the fifth feature,
Extracted based on the semantic labels of each functional expression of the predicates of the “term-predicate” pair obtained from the semantic label set consisting of the semantic labels of the functional expressions of a plurality of predicates prepared in advance. A semantic label common to the “term-predicate” pair is a sixth feature,
The overlapping degree of the common semantic labels of the “term-predicate” pair is a seventh feature,
The likelihood of a compound word generated by compounding each of the predicates of the “term-predicate” pair is an eighth feature,
The ninth feature is the degree that the two predicates of the “term-predicate” pair co-occur as two predicates representing the situation in a statement representing the relationship between the situations.
For the input “term-predicate” pair, at least one of the first feature and the second feature, the third feature, the fourth feature, and the fifth feature, The classification determination apparatus according to claim 9, wherein the feature set including at least one of the sixth feature, the seventh feature, the eighth feature, and the ninth feature is extracted.
素性抽出部と、同反−無関係分類素性構築部と、同義−反義分類素性構築部と、同反−無関係分類モデル学習部と、同義−反義分類モデル学習部とを含む分類モデル学習装置における分類モデル学習方法であって、
前記素性抽出部は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、
予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、
前記述部ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、
前記述部ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、
同義、反義、及び無関係のうちの何れかが分類として各々予め付与された述部ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出し、
前記同反−無関係分類素性構築部は、同義又は反義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合と、無関係が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記述部ペアを同義又は反義である同反義と無関係とに分類するための同反−無関係分類素性として構築し、
前記同義−反義分類素性構築部は、同義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合と、反義が分類として付与された述部ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記述部ペアを同義と反義とに分類するための同義−反義分類素性として構築し、
前記同反−無関係分類モデル学習部は、前記同反−無関係分類素性構築部により構築された前記同反−無関係分類素性に基づいて、述部ペアを同反義と無関係とに分類するためのモデルを学習し、
前記同義−反義分類モデル学習部は、前記同義−反義分類素性構築部により構築された前記同義−反義分類素性に基づいて、述部ペアを同義と反義とに分類するためのモデルを学習する
分類モデル学習方法。
A classification model learning device including a feature extraction unit, a synonym-irrelevant classification feature construction unit, a synonym-anonymity classification feature construction unit, a contra-independence classification model learning unit, and a synonym-anonymity classification model learning unit A classification model learning method in
The feature extraction unit is a predescription unit pair that is extracted based on a definition statement of each predicate of a predicate pair obtained from a definition statement set including a definition statement for each of a plurality of predicates prepared in advance. The feature indicating the mutual complementarity of the definition statement indicating whether or not there is a pair of predicates in the definition statement of each of the predicates is a first feature,
Semantic attributes common to the predescription part pair extracted based on the semantic attributes of each predicate of the predescription part pair obtained from the semantic attribute set consisting of the semantic attributes for each of the plurality of predicates prepared in advance. The second feature,
The combination of the partial character string in the character string representing one predicate of the preceding description part pair and the partial character string in the character string representing the other predicate is a third feature,
The likelihood of the parallel predicate syntax generated including each predicate of the predescription part pair is a fourth feature,
For each of the predicate pairs in which any one of synonym, contradiction, and irrelevance is previously given as a classification, at least one of the first feature and the second feature, and the third feature, , Extract a feature set including the fourth feature,
The same-unrelated classification feature construction unit includes the feature set extracted by the feature extraction unit for each predicate pair to which synonym or anomaly is given as a classification, and a predicate pair to which irrelevant is given as a classification. Constructing the feature set extracted by the feature extraction unit for each of the above as an anti-independent classification feature for classifying the previous description unit pair as irrelevant or irrelevant as synonym or anomaly,
The synonym-anonymity classification feature construction unit includes the feature set extracted by the feature extraction unit for each predicate pair to which synonym is given as a class, and each predicate pair to which an anomaly is given as a class. Constructing the feature set extracted by the feature extraction unit for as a synonym-anonymity classification feature for classifying the previous description unit pair into a synonym and an anomaly,
The same anti-irrelevant classification model learning unit is configured to classify predicate pairs as irrelevant and irrelevant based on the same anti-irrelevant classification feature constructed by the same anti-irrelevant classification feature construction unit. Learn the model,
The synonym-anonymity classification model learning unit is a model for classifying predicate pairs into synonyms and anomalies based on the synonym-anonymity classification feature constructed by the synonym-anonymity classification feature construction unit. Classification model learning method.
素性抽出部と、同反−無関係分類素性構築部と、同義−反義分類素性構築部と、同反−無関係分類モデル学習部と、同義−反義分類モデル学習部とを含む分類モデル学習装置における分類モデル学習方法であって、
前記素性抽出部は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項‐述部」ペアの述部各々の定義文に基づいて抽出される、前記「項‐述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性、及び前記「項‐述部」ペアの述部の各々の前記定義文内にペアとなる「項‐述部」の項が存在するか否かを表す定義文相互補完性を示す素性のうち少なくとも前記述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、
予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項‐述部」ペアの述部各々の意味属性に基づいて抽出される前記「項‐述部」ペアで共通する意味属性を第2の素性とし、
前記「項‐述部」ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、
前記「項‐述部」ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、
同義、反義、及び無関係のうちの何れかが分類として各々予め付与された「項‐述部」ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出し、
前記同反−無関係分類素性構築部は、同義又は反義が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合と、無関係が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記「項‐述部」ペアを同義又は反義である同反義と無関係とに分類するための同反−無関係分類素性として構築し、
前記同義−反義分類素性構築部は、同義が分類として付与された「項‐述部ペア」の各々について前記素性抽出部により抽出された前記素性集合と、反義が分類として付与された「項‐述部」ペアの各々について前記素性抽出部により抽出された前記素性集合とを、前記「項‐述部」ペアを同義と反義とに分類するための同義−反義分類素性として構築し、
前記同反−無関係分類モデル学習部は、前記同反−無関係分類素性構築部により構築された前記同反−無関係分類素性に基づいて、「項‐述部」ペアを同反義と無関係とに分類するためのモデルを学習し、
前記同義−反義分類モデル学習部は、前記同義−反義分類素性構築部により構築された前記同義−反義分類素性に基づいて、「項‐述部」ペアを同義と反義とに分類するためのモデルを学習する
分類モデル学習方法。
A classification model learning device including a feature extraction unit, a synonym-irrelevant classification feature construction unit, a synonym-anonymity classification feature construction unit, a contra-independence classification model learning unit, and a synonym-anonymity classification model learning unit A classification model learning method in
The feature extraction unit is extracted based on a definition statement of each predicate of the “term-predicate” pair, which is obtained from a definition statement set including a definition statement for each of a plurality of predicates prepared in advance. A feature indicating mutual complementarity indicating whether or not a predicate as a pair exists in each definition statement of each predicate of the “term-predicate” pair, and the “term-predicate” pair Whether or not at least the previous description part exists among the features indicating the mutual complementarity of the definition sentence indicating whether or not there is a pair of “term-predicate” terms in each definition sentence of the predicate. The feature indicating the mutual definition of the definition sentence to be expressed is the first feature,
The “term-predicate” extracted based on the semantic attribute of each predicate of the “term-predicate” pair obtained from a semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance. The second attribute is the semantic attribute common to the pair,
A combination of a partial character string in the character string representing one predicate of the “term-predicate” pair and a character string representing the other predicate is a third feature,
The likelihood of the parallel predicate syntax generated including each of the predicates of the “term-predicate” pair is a fourth feature,
For each of the “term-predicate” pairs in which any one of synonym, contradiction, and irrelevance is previously given as a classification, at least one of the first feature and the second feature, and the first feature A feature set including 3 features and the fourth feature,
The same-unrelated classification feature construction unit is provided with the feature set extracted by the feature extraction unit for each “term-predicate” pair to which synonym or anomaly is given as a classification, and irrelevant as a classification. In order to classify the feature set extracted by the feature extraction unit for each of the “term-predicate” pairs as being independent of the same or opposite sense of the “term-predicate” pair. Is constructed as an anti-irrelevant classification feature of
The synonym-anonymity classification feature construction unit includes the feature set extracted by the feature extraction unit for each “term-predicate pair” to which synonym is provided as a classification, and an anomaly is provided as a classification. The feature set extracted by the feature extraction unit for each of the term-predicate pair is constructed as a synonym-anonymity classification feature to classify the term-predicate pair into synonyms and anomalies. And
The reciprocal-irrelevant classification model learning unit determines that the term-predicate pair is independent of reciprocity based on the reciprocal-irrelevant classification feature constructed by the reciprocal-irrelevant classification feature construction unit. Learn the model to classify,
The synonym-anonymity classification model learning unit classifies the “term-predicate” pair into synonyms and anomalies based on the synonym-anonymity classification feature constructed by the synonym-anonymity classification feature construction unit. Classification model learning method to learn a model to do.
素性抽出部と、同反−無関係判定部と、同義−反義判定部とを含む分類判定装置における分類判定方法であって、
前記素性抽出部は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、
予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、
前記述部ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、
前記述部ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、
入力された述部ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出し、
前記同反−無関係判定部は、 前記素性抽出部により抽出された前記素性集合と、予め学習された、述部ペアを同義又は反義である同反義と無関係とに分類するためのモデルとに基づいて、前記述部ペアの分類が同反義か無関係かを判定し、
前記同義−反義判定部は、前記同反−無関係判定部により前記述部ペアの分類が同反義であると判定された場合、前記素性抽出部により抽出された前記素性集合と、予め学習された、述部ペアを同義と反義とに分類するためのモデルとに基づいて、前記述部ペアの分類が同義か反義かを判定する
分類判定方法。
A classification determination method in a classification determination apparatus including a feature extraction unit, a contradiction-irrelevance determination unit, and a synonym-anonymity determination unit,
The feature extraction unit is a predescription unit pair that is extracted based on a definition statement of each predicate of a predicate pair obtained from a definition statement set including a definition statement for each of a plurality of predicates prepared in advance. The feature indicating the mutual complementarity of the definition statement indicating whether or not there is a pair of predicates in the definition statement of each of the predicates is a first feature,
Semantic attributes common to the predescription part pair extracted based on the semantic attributes of each predicate of the predescription part pair obtained from the semantic attribute set consisting of the semantic attributes for each of the plurality of predicates prepared in advance. The second feature,
The combination of the partial character string in the character string representing one predicate of the preceding description part pair and the partial character string in the character string representing the other predicate is a third feature,
The likelihood of the parallel predicate syntax generated including each predicate of the predescription part pair is a fourth feature,
For the input predicate pair, extract a feature set including at least one of the first feature and the second feature, the third feature, and the fourth feature;
The reciprocity-irrelevant determination unit includes a model for classifying the feature set extracted by the feature extraction unit and a predicate pair that is pre-learned as irrelevant to reciprocity that is synonymous or affirmative. Based on, determine whether the classification of the previous description pair is the same or irrelevant,
The synonym-antisense determination unit learns in advance the feature set extracted by the feature extraction unit when the classification of the previous description unit pair is determined to be synonymous by the anti-unity determination unit. A classification determination method for determining whether a classification of a predescription part pair is synonymous or anomaly based on a model for classifying predicate pairs into synonyms and anomalies.
素性抽出部と、同反−無関係判定部と、同義−反義判定部とを含む分類判定装置における分類判定方法であって、
前記素性抽出部は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項‐述部」ペアの述部各々の定義文に基づいて抽出される、前記「項‐述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを表す定義文相互補完性を示す素性、及び前記「項‐述部」ペアの述部の各々の前記定義文内にペアとなる「項‐述部」の項が存在するか否かを表す定義文相互補完性を示す素性のうち少なくとも前記述部が存在するか否かを表す定義文相互補完性を示す素性を第1の素性とし、
予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項‐述部」ペアの述部各々の意味属性に基づいて抽出される前記「項‐述部」ペアで共通する意味属性を第2の素性とし、
前記「項‐述部」ペアの一方の述部を表す文字列の内の部分文字列と他方の述部を表す文字列のうちの部分文字列との組み合わせを第3の素性とし、
前記「項‐述部」ペアの述部の各々を含んで生成される並列述語構文の尤度を第4の素性とし、
入力された「項‐述部」ペアについて、前記第1の素性及び前記第2の素性のうち少なくとも一方と、前記第3の素性と、前記第4の素性とを含む素性集合を抽出し、
前記同反−無関係判定部は、前記素性抽出部により抽出された前記素性集合と、予め学習された、「項‐述部」ペアを同義又は反義である同反義と無関係とに分類するためのモデルとに基づいて、前記「項‐述部」ペアの分類が同反義か無関係かを判定し、
前記同義−反義判定部は、前記同反−無関係判定部により前記「項‐述部」ペアの分類が同反義であると判定された場合、前記素性抽出部により抽出された前記素性集合と、予め学習された、「項−述部」ペアを同義と反義とに分類するためのモデルとに基づいて、前記「項‐述部」ペアの分類が同義か反義かを判定する
分類判定方法。
A classification determination method in a classification determination apparatus including a feature extraction unit, a contradiction-irrelevance determination unit, and a synonym-anonymity determination unit,
The feature extraction unit is extracted based on a definition statement of each predicate of the “term-predicate” pair, which is obtained from a definition statement set including a definition statement for each of a plurality of predicates prepared in advance. A feature indicating mutual complementarity indicating whether or not a predicate as a pair exists in each definition statement of each predicate of the “term-predicate” pair, and the “term-predicate” pair Whether or not at least the previous description part exists among the features indicating the mutual complementarity of the definition sentence indicating whether or not there is a pair of “term-predicate” terms in each definition sentence of the predicate. The feature indicating the mutual definition of the definition sentence to be expressed is the first feature,
The “term-predicate” extracted based on the semantic attribute of each predicate of the “term-predicate” pair obtained from a semantic attribute set consisting of semantic attributes for each of a plurality of predicates prepared in advance. The second attribute is the semantic attribute common to the pair,
A combination of a partial character string in the character string representing one predicate of the “term-predicate” pair and a character string representing the other predicate is a third feature,
The likelihood of the parallel predicate syntax generated including each of the predicates of the “term-predicate” pair is a fourth feature,
For the input “term-predicate” pair, extract a feature set including at least one of the first feature and the second feature, the third feature, and the fourth feature;
The reciprocity-irrelevance determination unit classifies the feature set extracted by the feature extraction unit and a pre-learned “term-predicate” pair as synonymous or irrelevant as irrelevant or irrelevant. And whether the classification of the “term-predicate” pair is a contradiction or irrelevant,
The synonym-antisense determination unit is configured to extract the feature set extracted by the feature extraction unit when the classification of the “term-predicate” pair is determined to be synonymous by the anti-nomination-unrelated determination unit. And whether the classification of the “term-predicate” pair is synonymous or anomaly based on a previously learned model for classifying “term-predicate” pairs into synonyms and anomalies Classification judgment method.
コンピュータを、請求項1〜6の何れか1項記載の分類モデル学習装置を構成する各部として機能させるためのプログラム。   The program for functioning a computer as each part which comprises the classification model learning apparatus of any one of Claims 1-6. コンピュータを、請求項7〜10の何れか1項記載の分類判定装置を構成する各部として機能させるためのプログラム。   The program for functioning a computer as each part which comprises the classification determination apparatus of any one of Claims 7-10.
JP2013157733A 2013-07-30 2013-07-30 Classification model learning device, classification determining device, method and program Pending JP2015028697A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013157733A JP2015028697A (en) 2013-07-30 2013-07-30 Classification model learning device, classification determining device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013157733A JP2015028697A (en) 2013-07-30 2013-07-30 Classification model learning device, classification determining device, method and program

Publications (1)

Publication Number Publication Date
JP2015028697A true JP2015028697A (en) 2015-02-12

Family

ID=52492368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013157733A Pending JP2015028697A (en) 2013-07-30 2013-07-30 Classification model learning device, classification determining device, method and program

Country Status (1)

Country Link
JP (1) JP2015028697A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10437932B2 (en) 2017-03-28 2019-10-08 Fujitsu Limited Determination method and determination apparatus
JP2020047030A (en) * 2018-09-20 2020-03-26 ナレルシステム株式会社 Computer program, method and device for learning horn clause composed of literal obtained by embedding variable into natural language

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10437932B2 (en) 2017-03-28 2019-10-08 Fujitsu Limited Determination method and determination apparatus
JP2020047030A (en) * 2018-09-20 2020-03-26 ナレルシステム株式会社 Computer program, method and device for learning horn clause composed of literal obtained by embedding variable into natural language
JP7515094B2 (en) 2018-09-20 2024-07-12 ナレルシステム株式会社 Computer program, method and apparatus for learning Horn clauses consisting of literals with variables embedded in natural language

Similar Documents

Publication Publication Date Title
Grishman Information extraction
CN110502642B (en) Entity relation extraction method based on dependency syntactic analysis and rules
US10303767B2 (en) System and method for supplementing a question answering system with mixed-language source documents
US20160062982A1 (en) Natural language processing system and method
Routray et al. A survey on sentiment analysis
Liu et al. Measuring similarity of academic articles with semantic profile and joint word embedding
CN103955451A (en) Method for judging emotional tendentiousness of short text
CN109726745B (en) Target-based emotion classification method integrating description knowledge
Bonet-Jover et al. Exploiting discourse structure of traditional digital media to enhance automatic fake news detection
CN109271524B (en) Entity linking method in knowledge base question-answering system
TWI656450B (en) Method and system for extracting knowledge from Chinese corpus
US9996525B2 (en) System and method for supplementing a question answering system with mixed-language source documents
CN109472022B (en) New word recognition method based on machine learning and terminal equipment
EP3864565A1 (en) Method of searching patent documents
Rachman et al. CBE: Corpus-based of emotion for emotion detection in text document
EP3864566A1 (en) Method of training a natural language search system, search system and corresponding use
Babić et al. A comparison of approaches for measuring the semantic similarity of short texts based on word embeddings
CN117474703B (en) Topic intelligent recommendation method based on social network
CN111159405A (en) Irony detection method based on background knowledge
Lee Natural Language Processing: A Textbook with Python Implementation
JP5916016B2 (en) Synonym determination device, synonym learning device, and program
JP2015028697A (en) Classification model learning device, classification determining device, method and program
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
CN113723085B (en) Pseudo-fuzzy detection method in privacy policy document
Saeidi et al. Context-enhanced concept disambiguation in wikification