JP2010129025A - Word relation determining device and program - Google Patents
Word relation determining device and program Download PDFInfo
- Publication number
- JP2010129025A JP2010129025A JP2008305972A JP2008305972A JP2010129025A JP 2010129025 A JP2010129025 A JP 2010129025A JP 2008305972 A JP2008305972 A JP 2008305972A JP 2008305972 A JP2008305972 A JP 2008305972A JP 2010129025 A JP2010129025 A JP 2010129025A
- Authority
- JP
- Japan
- Prior art keywords
- verb
- noun
- relationship
- variation
- noun group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、単語関係判定装置及びプログラムに関する。 The present invention relates to a word relationship determination device and a program.
単語間の概念(意味)に基づく階層関係を記述したシソーラスは、テキスト検索の際の入力キーワードの補充、拡張や、文書分類を行う際のキーワードの正規化等で重要な役割を果たしており貴重な言語情報である。 A thesaurus that describes hierarchical relationships based on the concept (meaning) between words plays an important role in supplementing and expanding input keywords when searching for text, and normalizing keywords when sorting documents. Language information.
シソーラスは人的に作成されることが一般的であるが、シソーラスの構築には高い一貫性、整合性が要求され人的作業では処理負荷が大きく、シソーラスを機械的に構築するための技術が必要とされてきている。 The thesaurus is generally created manually, but the construction of the thesaurus requires high consistency and consistency, and the human work requires a large processing load, and there is a technology for mechanically constructing the thesaurus. It has been needed.
そこで、下記の特許文献1に記載されているように、2つの単語のそれぞれの近傍に出現する単語の頻度に基づいて両単語の距離を算出し、算出した距離に基づくクラスタリングを行って、シソーラスを機械的に構築する技術を提案しているものがある。
動詞についてのシソーラスを構築する場合には、上位下位の関係にある動詞の近傍に出現する単語は極めて近い頻度分布を持つことが多く、動詞についての上位下位の判定を動詞の近傍に出現する単語の頻度分布に基づいて行うと精度良く判定できないことがある。 When constructing a thesaurus for verbs, words that appear in the vicinity of verbs that are in a higher-order and lower-order relationship often have a very close frequency distribution, and words that appear in the vicinity of the verb If it is performed based on the frequency distribution, the determination may not be made with high accuracy.
本発明の目的の一つは、動詞について上位下位の関係性を精度良く判定できる単語関係判定装置及びプログラムを提供することにある。 One of the objects of the present invention is to provide a word relationship determination device and a program capable of accurately determining upper and lower relationships for a verb.
上記目的を達成するために、請求項1に記載の単語関係判定装置の発明は、第1の動詞と第2の動詞を判定対象として設定する設定手段と、複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含むことを特徴とする。
In order to achieve the above object, the invention of a word relationship determination device according to
また、請求項2に記載の発明は、請求項1に記載の単語関係判定装置において、前記判定手段は、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の概念にあると判定することを特徴とする。 According to a second aspect of the present invention, in the word relationship determination device according to the first aspect, the determination means is predetermined for the variation of the first noun group and the variation of the second noun group. In the case where there is more than the difference, it is determined that the verb related to the one with the larger variation is in the upper concept and the verb related to the other is in the lower concept.
また、請求項3に記載の発明は、請求項2に記載の単語関係判定装置において、前記所与の条件は、複数の条件を含み、前記判定手段は、前記複数の条件のいずれかに基づいて取得された第1の名詞群のばらつきと第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の関係にあると判定することを特徴とする。
The invention according to
また、請求項4に記載の発明は、請求項1乃至3のいずれかに記載の単語関係判定装置において、前記所与の条件は、前記設定手段により対象に設定された動詞と係り受けの関係にある名詞という条件、前記対象に設定された動詞の近傍に出現する名詞という条件、前記対象に設定された動詞に因果関係を表す表現を介して係る文節に含まれる名詞という条件のうち少なくとも1つを含むことを特徴とする。 According to a fourth aspect of the present invention, in the word relationship determination device according to any one of the first to third aspects, the given condition is a relationship between a verb set as a target by the setting means and a dependency. At least one of the following conditions: a noun condition in which the noun appears in the vicinity of the verb set for the object, and a noun condition included in the phrase through a representation of a causal relationship to the verb set for the object It is characterized by including one.
また、請求項5に記載の発明は、請求項1乃至4のいずれかに記載の単語関係判定装置において、前記名詞シソーラスにおける名詞群のばらつきは、当該名詞群に含まれる名詞の各組の前記名詞シソーラスにおけるホップ数に基づいて算出されることを特徴とする。
Further, the invention according to
また、請求項6に記載の発明は、請求項1乃至5のいずれかに単語関係判定装置において、前記第1及び第2の名詞群に基づいて前記第1の動詞と前記第2の動詞の類否を判定する類否判定手段をさらに含み、前記類否判定手段により類似と判定された場合に、前記判定手段により前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定することを特徴とする。
The invention according to
また、請求項7に記載の発明は、請求項6に記載の単語関係判定装置において、前記類否判定手段は、前記第1及び第2の名詞群に含まれる各名詞を前記名詞シソーラスにおける予め定められた基準の概念に変換するとともに、当該変換した第1及び第2の名詞群に含まれる基準の概念の頻度に基づいて、前記第1の動詞と第2の動詞の類否を判定することを特徴とする。
The invention described in claim 7 is the word relationship determination device according to
また、請求項8に記載の発明は、請求項6又は7に記載の単語関係判定装置において、前記類否判定手段により類似と判定され、かつ、前記判定手段により上位下位の関係にないと判定された前記第1の動詞と前記第2の動詞は、同義語の関係にあると判定することを特徴とする。
Further, the invention according to
また、請求項9に記載の単語関係判定装置の発明は、第1の動詞と第2の動詞を判定対象として設定する設定手段と、複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含むことを特徴とする。 According to another aspect of the present invention, there is provided a word relation determination device according to the present invention, wherein the first verb and the second verb are set as determination targets, and the expression representing the causal relationship from a plurality of sentences to the first verb. Via a first noun group acquisition means for acquiring a first noun group including one or more nouns included in the clause, and an expression representing a causal relationship from the plurality of sentences to the second verb Based on the comparison between the second noun group acquisition means for acquiring the second noun group including one or a plurality of nouns included in the phrase and the variation of the first noun group and the variation of the second noun group. And determining means for determining whether or not the first verb and the second verb are in a high-order and low-order relationship.
また、請求項10に記載のプログラムの発明は、第1の動詞と第2の動詞を判定対象として設定する設定ステップと、複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とする。 According to a tenth aspect of the present invention, there is provided a program that sets a first verb and a second verb as determination targets, and that satisfies a given condition with respect to the first verb from a plurality of sentences. Or a first noun group acquisition step of acquiring a first noun group including a plurality of nouns, and a second noun that includes one or more nouns that match the given condition with respect to the second verb from the plurality of sentences. A second noun group acquisition step of acquiring a noun group of the first noun group in a noun thesaurus that represents a plurality of nouns in a tree structure based on the upper and lower relations of the concept of each noun and the noun group Determining whether or not the first verb and the second verb are in an upper-lower relationship based on the comparison with the variation of the second noun group. Features.
また、請求項11に記載のプログラムの発明は、第1の動詞と第2の動詞を判定対象として設定する設定ステップと、複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とする。
The invention of the program according to
請求項1及び10に記載の発明によれば、第1の動詞と第2の動詞のそれぞれについて取得された名詞群の概念上での分布を用いて、各動詞の上位下位の判定を精度良く行える。
According to the inventions described in
請求項2に記載の発明によれば、概念上での分布が広い方を上位、他方を下位として判定できる。 According to the second aspect of the present invention, it is possible to determine the broader conceptual distribution as higher and the other as lower.
請求項3に記載の発明によれば、1つの条件では上位下位の判定ができない場合でも、他の条件により動詞間の上位下位の関係が判定できる。 According to the third aspect of the present invention, even when the upper / lower determination cannot be made by one condition, the upper / lower relation between the verbs can be determined by another condition.
請求項4に記載の発明によれば、動詞と関連性の高い名詞群を取得できる。
According to invention of
請求項5に記載の発明によれば、名詞間のばらつきを名詞シソーラスにおける客観的な距離に換算して算出できる。
According to the invention described in
請求項6に記載の発明によれば、類似かつ抽出された名詞群の概念上の分布が異なる動詞を上位下位の関係にあると判定できる。 According to the sixth aspect of the present invention, it is possible to determine that verbs having different conceptual distributions of similar and extracted noun groups are in a higher and lower order relationship.
請求項7に記載の発明によれば、動詞に関して得られた名詞群についての頻度分析を名詞の概念毎に行うことができる。 According to the seventh aspect of the present invention, the frequency analysis of the noun group obtained for the verb can be performed for each noun concept.
請求項8に記載の発明によれば、同義語を判定できる。
According to invention of
請求項9及び11に記載の発明によれば、動詞と因果関係性のある名詞群に基づいて、動詞間の上位下位の判定が行える。 According to the ninth and eleventh aspects of the present invention, it is possible to make upper / lower determinations between verbs based on a noun group having a causal relationship with a verb.
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments (hereinafter referred to as embodiments) for carrying out the invention will be described with reference to the drawings.
図1には、本実施形態に係る単語関係判定装置10の機能ブロック図を示した。図1に示されるように、単語関係判定装置10は、テキストデータ格納部12、名詞シソーラス格納部14、判定対象動詞設定部16、係り受け名詞抽出部18、類否判定部20、第1判定部22、因果関係名詞抽出部24、及び第2判定部26を含む。上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは情報記憶媒体によってコンピュータたる単語関係判定装置10に供給されることとしてもよいし、インターネット等のデータ通信ネットワークを介して供給されることとしてもよい。
In FIG. 1, the functional block diagram of the word
テキストデータ格納部12は、磁気ディスク等の記憶装置を含み構成され、1又は複数の文を含む文書情報を1又は複数格納している。文書情報は、文字列データを含むデータファイルとして構成されることとしてよい。
The text
名詞シソーラス格納部14は、名詞を対象として構築された名詞シソーラスを格納するものであり、名詞シソーラスとは、名詞を上位下位の関係により階層化した木構造により表される情報である。図2には名詞シソーラスの一例を示す。
The noun
図2に示されるように、名詞シソーラスは、ルートから順次、上位概念、その上位概念に対する下位概念という関係により接続された木構造であり、本実施形態においては、名詞シソーラスの一部の階層を基準概念として選択している。この基準概念は概念毎に個別に選択されてもよいし、ルートからの階層の深さにより選択されてもよい。基準概念を用いた処理の詳細については後述する。 As shown in FIG. 2, the noun thesaurus is a tree structure connected by a relationship of a superordinate concept and a subordinate concept relative to the superordinate concept sequentially from the root. In this embodiment, a part of the noun thesaurus is Selected as the standard concept. This reference concept may be selected individually for each concept, or may be selected according to the depth of the hierarchy from the root. Details of processing using the reference concept will be described later.
判定対象動詞設定部16は、互いの関係性を判定する対象となる1組の動詞を設定する。以下、判定対象動詞設定部16により設定される組の対を動詞A及び動詞Bとする。判定対象動詞設定部16は、利用者からの入力を受け付けて判定対象の動詞を設定してもよいし、予め用意された動詞のリストの中から動詞の組を選択し、当該選択した動詞を判定対象に設定することとしてもよい。
The determination target
係り受け名詞抽出部18は、判定対象動詞設定部16により設定された組の動詞のそれぞれに対して係り受けの関係にある名詞を抽出する。係り受け名詞抽出部18は、判定対象動詞設定部16により設定された動詞(動詞A、動詞B)を含む文を、テキストデータ格納部12に格納されたテキストデータから検索し、検索された文に対して形態素解析、構文解析を行った後に、上記設定された動詞に係る文節を特定する。そして、係り受け名詞抽出部18は、当該特定した文節のうち、文節の終わりが「が」、「を」、「で」、「に」のいずれかの格助詞である場合に、その格助詞の前の名詞を抽出する。係り受け名詞抽出部18は、上記抽出した名詞を格助詞の語毎に、当該名詞の出現頻度とともに記録する。係り受け名詞抽出部18は、動詞Aと動詞Bのそれぞれについて上記処理を行う。
The dependency
類否判定部20は、動詞Aと動詞Bとが類似であるか否かを判定する。ここでの類似とは、動詞Aと動詞Bとが類義語の関係にあることとする。本実施形態においては、類否判定部20は、判定対象の動詞(動詞A又は動詞B)について係り受け名詞抽出部18により抽出された名詞群に含まれる全ての名詞を、名詞シソーラス格納部14に格納された名詞シソーラスに基づいて、上位にある基準概念の語に変換する。例えば、図2に示された名詞シソーラスによれば、「ブルドック」という語は、上位に基準概念の「動物」があるので、「動物」に変換される。類否判定部20は、動詞Aと動詞Bのそれぞれについて得られた名詞群について上記基準概念のへの変換処理を行う。
The
類否判定部20は、上記処理により基準概念の語に変換された名詞群(基準概念名詞群とする)に基づいて、動詞A、動詞Bのそれぞれについて、特徴ベクトルを生成する。以下、本実施形態における特徴ベクトルの生成処理について説明する。
The
まず、動詞Aにつき格助詞「が」、「を」、「で」、「に」についてそれぞれ抽出された基準概念名詞群をそれぞれGA1、GA2、GA3、GA4とする。ここで、GA1={wi|i=1〜n}、nはGA1に含まれる異なる単語の数とし、wiの出現頻度がNA1wiとすれば、出現比率RA1wiは、GA1の要素数をNA1とした場合に、RA1wi=NA1wi/NA1として算出される。そして、GA1について、特徴ベクトルGA1=(RA1w1,RA1w2,・・・,RA1wn)となる。また、GA2,GA3,GA4についても同様の処理に基づいて特徴ベクトルを生成する。そして、特徴ベクトルGA1,GA2,GA3,GA4を連結して動詞Aの特徴ベクトルRAをRA=(RA1w1,RA1w2,・・・,RA1wn,RA2w1,RA2w2,・・・,RA2wn,RA3w1,RA3w2,・・・,RA3wn,RA4w1,RA4w2,・・・,RA4wn)として生成する。動詞Bについても同様にして特徴ベクトルRBを生成する。RAとRBはそれぞれベクトルの長さを1に正規化し、以下特徴ベクトルRA,RBとは正規化後のベクトルであるとする。 First, reference concept noun groups extracted for the case particles “ga”, “wo”, “de”, and “ni” for the verb A are defined as GA1, GA2, GA3, and GA4, respectively. Here, GA1 = {wi | i = 1 to n}, where n is the number of different words included in GA1, and if the appearance frequency of wi is NA1wi, the appearance ratio RA1wi is the number of elements of GA1 is NA1. In this case, RA1wi = NA1wi / NA1 is calculated. For GA1, feature vector GA1 = (RA1w1, RA1w2,..., RA1wn). For GA2, GA3, and GA4, feature vectors are generated based on the same processing. Then, the feature vectors GA1, GA2, GA3, GA4 are concatenated to convert the feature vector RA of the verb A into RA = (RA1w1, RA1w2,..., RA1wn, RA2w1, RA2w2,..., RA2wn, RA3w1, RA3w2,. .., RA3wn, RA4w1, RA4w2,..., RA4wn). A feature vector RB is similarly generated for the verb B. RA and RB are each normalized to a vector length of 1, and feature vectors RA and RB are assumed to be normalized vectors.
類否判定部20は、上記生成した動詞Aと動詞Bのそれぞれの特徴ベクトルRAと特徴ベクトルRBとの内積を算出し、算出された内積の大きさに基づいて動詞Aと動詞Bとの類否を判定する。具体的には、類否判定部20は、特徴ベクトルRAと特徴ベクトルRBの内積RA・RBが閾値T1(0<T1<1)よりも大きい場合には、動詞Aと動詞Bとが類似であると判定することとする。閾値T1は予め定めておくこととしてよい。
The
第1判定部22は、判定対象に設定された動詞Aと動詞Bとが上位下位概念の関係にあるか否かを判定する。第1判定部22は、類否判定部20により判定対象とする動詞Aと動詞Bが類似と判定された場合に、上記の上位下位概念の判定をすることとする。そして、第1判定部22は、まず動詞A及び動詞Bについて係り受け名詞抽出部18により抽出されたそれぞれの名詞群の名詞シソーラス格納部14に格納された名詞シソーラス上での分布距離を算出し、当該算出された分布距離に基づいて動詞A及び動詞Bの上位下位の関係性を判定する。以下、本実施形態における第1判定部22の具体的な処理を説明する。
The
まず、第1判定部22は、格助詞の「が」について抽出された集合GA1から1組の名詞を抽出し、その抽出された組の名詞の名詞シソーラス上での距離を取得する。本実施形態における名詞シソーラス上での距離とは、名詞シソーラス上で一方の名詞から他方の名詞に到達するまでのホップ数であるとする。ホップ数は、例えば1の名詞が他の名詞と直接のリンクで繋がっているとすると1、他の名詞を介して接続されていると2とする。具体的に図2に示した名詞シソーラスにおいては、「ブルドック」と「犬」はホップ数1、「ブルドック」と「猫」はホップ数が3となる。第1判定部22は、GA1に含まれる名詞の全ての組についてホップ数を取得し、そのホップ数の平均値をGA1に関する名詞シソーラス上での距離MA1とする。第1判定部22は、同様に他の集合GA2〜GA4についても名詞シソーラス上での距離MA2〜MA4を算出し、動詞Aの名詞シソーラス上での分布を示すベクトルMA=(MA1,MA2,MA3,MA4)を得る。第1判定部22は、動詞Bについても同様の処理を行い動詞Bの名詞シソーラス上での分布を示すベクトルMBを得る。
First, the
次に、第1判定部22は、ベクトルMAとベクトルMBとのベクトル間距離‖MA−MB‖を算出し、この値が予め定められた閾値T2(T2>0)よりも大きい場合には、動詞Aと動詞Bとには上位下位の関係性があると判定し、そうでなかった場合には上位下位の関係性が不明であると判定する。上記基準により上位下位の関係性があると判定された場合には、ベクトルのノルムが大きい方が上位概念、小さい方が下位概念にあると判定する。これは、上位概念の語の方が下位概念の語に比べて広範に用いられ、分布に広がりがあると考えられるためである。
Next, the
因果関係名詞抽出部24は、第1判定部22により動詞Aと動詞Bとの上位下位の関係性が不明であると判定された場合に、動詞A又は動詞Bを含む文をテキストデータ格納部12から抽出すると共に、当該抽出された文のうち「〜ので」、「〜ために」、「〜という理由で」等の因果関係を表す表現が、動詞A又動詞Bよりも前にある文を検索する。そして、因果関係名詞抽出部24は、上記検索された文において、上記因果関係を表す表現よりも前に出現する文節に含まれる名詞を抽出して名詞群(因果関係名詞群)を得る。因果関係名詞抽出部24は、動詞Aそして動詞Bのそれぞれについて因果関係名詞群を抽出することとし、動詞Aについて抽出された因果関係名詞群の集合をHA、動詞Bについて抽出された因果関係名詞群の集合をHBとする。
The causal relation
第2判定部26は、因果関係名詞抽出部24により各動詞について抽出される因果関係名詞群に基づいて、再度動詞Aと動詞Bとの上位下位の関係性を判定する。以下、第2判定部26により行われる判定の具体的な処理を説明する。
The
第2判定部26は、動詞Aについて抽出された因果関係名詞群の集合HAの名詞シソーラス上での分布距離を算出する。第2判定部26は、HAに含まれる名詞の全ての組に対して名詞シソーラス上でのホップ数を取得し、当該取得したホップ数の平均値をHAの名詞シソーラス上での分布距離LAとして算出する。第2判定部26は、動詞Bについて抽出された因果関係名詞群の集合HBについても同様にしてHBの名詞シソーラス上での分布距離LBを算出する。そして、第2判定部26は、LAとLBとの差を求め、求められた差が予め定められた閾値T3(T3>0)よりも大きい場合には、動詞Aと動詞Bとに上位下位の関係性があると判定し、そうでなければ動詞Aと動詞Bとが同義語であると判定する。上記基準により上位下位の関係性があると判定された場合には、分布距離が大きい方が上位概念、小さい方が下位概念にあると判定する。
The
単語関係判定装置10は、以上説明した類否判定部20、第1判定部22、第2判定部26の3つの判定結果に基づいて、判定対象の1組の動詞についての上位下位の関係性を判定する。単語関係判定装置10は、さらに他の動詞の組についても順次同様の判定処理を実行することにより、複数の動詞の上位下位の概念を得て動詞シソーラスが構築される。
The word
次に、図3に示したフローチャートを参照しながら、単語関係判定装置10による動詞の上位下位概念の判定処理の流れを説明する。
Next, referring to the flowchart shown in FIG. 3, the flow of the determination process of the upper and lower concepts of the verb by the word
図3に示されるように、単語関係判定装置10は、判定の対象とする動詞の組の入力を受け(S101)、格納されたテキストデータから受け付けた動詞の組の各々について係り受けの関係にある名詞群を抽出する(S102)。次に、単語関係判定装置10は、抽出した名詞群の各名詞を名詞シソーラスの基準概念に変換し(S103)、変換した基準概念の語に基づいて各動詞の特徴ベクトルを生成して判定の対象とする動詞の組の類似性を判定する(S104)。
As shown in FIG. 3, the word
単語関係判定装置10は、動詞が類似すると判定する場合には(S104:Y)、さらに各動詞について抽出された名詞群の名詞シソーラスにおける分布距離を算出する(S105)。単語関係判定装置10は、算出した分布距離が閾値以上か否かを判定し(S106)、閾値以上と判定する場合には(S106:Y)、分布距離の広がりが大きい方を上位、他方を下位と判定する(S107)。また、単語関係判定装置10は、閾値未満と判定する場合には(S106:N)、判定対象の各動詞について因果関係を表す表現により関連する名詞からなる因果関係名詞群を抽出すると共に(S108)、抽出した因果関係名詞群の名詞シソーラスにおける分布距離が閾値以上か否かを判定する(S109)。ここで、閾値以上と判定される場合には(S109:Y)、分布距離の大きい方を上位、他方を下位と判定する(S107)。一方で、閾値未満と判定される場合には(S109:N)、動詞は同義語であると判定する(S110)。なお、S104において、類似でないと判定された場合には(S104:N)、動詞の組は上位下位の関係性にないと判定し(S111)、処理を終了する。
When determining that the verbs are similar (S104: Y), the word
次に、具体例として、(1)「許可する」と「読む」、(2)「許可する」と「認可する」、(3)「読む」と「熟読する」の3例についての単語関係判定装置10による判定例を示す。
Next, as specific examples, (1) “permit” and “read”, (2) “permit” and “authorize”, and (3) “read” and “read carefully”, word relationships for three examples The example of determination by the
図4A乃至Dには、テキストデータから抽出された、各動詞について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した。図4A,図4B,図4C,図4Dはそれぞれ「許可する」、「読む」、「認可する」、「熟読する」について抽出された名詞及び出現頻度を示している。 FIGS. 4A to 4D show examples of nouns having a dependency relationship with respect to each verb extracted from the text data and the appearance frequency of the nouns. 4A, FIG. 4B, FIG. 4C, and FIG. 4D show the nouns and appearance frequencies extracted for “Allow”, “Read”, “Authorize”, and “Read carefully”, respectively.
また、図5A乃至Dには、各動詞について抽出された名詞を基準概念に変換した場合の各基準概念の語の頻度を、格助詞毎に表したテーブルを示す。図5A,図5B,図5C,図5Dはそれぞれ「許可する」、「読む」、「認可する」、「熟読する」についてのテーブルを示している。 5A to 5D show tables showing the frequency of words of each reference concept for each case particle when the noun extracted for each verb is converted to the reference concept. FIG. 5A, FIG. 5B, FIG. 5C, and FIG. 5D show tables for “permit”, “read”, “permit”, and “peruse”, respectively.
まず、(1)「許可する」と「読む」の関係の判定について説明する。図5A、図5Bに示されるように、「許可する」と「読む」とでは、「許可する」につき格助詞「が」に関して得られた基準概念の語句は「地域」、「集団」、「役割」等の出現頻度が高く、格助詞「を」については「操作」、「生産」等の出現頻度が高い。一方で、「読む」につき格助詞「が」に関して得られた基準概念の語句は、「人称」に出現頻度が集中し、また、格助詞「を」については「文具」に出現頻度が集中しており、「許可する」と「読む」とでは基準概念の語句についての頻度分布が大きくなる。従って、「許可する」と「読む」についての基準概念の語句の頻度分布に基づく特徴ベクトルの内積値は小さくなり、類似性無しと判定される。従って、「許可する」と「読む」については上位下位の判定は行われない。 First, (1) determination of the relationship between “permitted” and “read” will be described. As shown in FIG. 5A and FIG. 5B, in “permit” and “read”, the words of the reference concept obtained for the case particle “ga” for “permit” are “region”, “group”, “ “Role” and the like have a high appearance frequency, and the case particle “O” has a high appearance frequency such as “operation” and “production”. On the other hand, the words of the basic concept obtained for the case particle “ga” for “read” are concentrated in the “person”, and the frequency of occurrence in the “stationery” is concentrated for the case particle “ha”. In the case of “permit” and “read”, the frequency distribution of the words of the standard concept becomes large. Therefore, the inner product value of the feature vectors based on the frequency distribution of the words of the reference concept for “permit” and “read” becomes small, and it is determined that there is no similarity. Therefore, the upper and lower determinations are not performed for “permit” and “read”.
次に、(2)「許可する」と「認可する」の関係の判定について説明する。図5A,図5Cに示されるように、両動詞ともに格助詞「が」に関して得られた基準語句は「地域」、「集団」、「役割」等の出現頻度が高く、また、格助詞「を」に関しては「操作」、「生産」等の出現頻度が高いという共通した傾向が見られる。従って、「許可する」と「認可する」についての基準概念の語句の頻度分布に基づく特徴ベクトルの内積値は大きくなり、類似性有りと判定される。 Next, (2) determination of the relationship between “permitted” and “permitted” will be described. As shown in FIG. 5A and FIG. 5C, the reference words obtained for the case particle “ga” for both verbs have a high frequency of appearance of “region”, “group”, “role”, etc. ”Has a common tendency that the appearance frequency of“ operation ”,“ production ”, etc. is high. Therefore, the inner product value of the feature vectors based on the frequency distribution of the words of the reference concept for “permit” and “permit” is increased, and it is determined that there is similarity.
そこで、第1判定部22は、「許可する」と「認可する」についての図4A,図4Cに示される各名詞についての名詞シソーラスにおける平均距離を算出し、両者の上位下位の関係性を判定する。具体的には、「許可する」と「認可する」とでは、「認可する」が行政等に関して用いられる傾向があるのに対して、「許可する」はより広範に用いられており、両者の名詞シソーラスにおける平均距離は、「許可する」の方が「認可する」よりも大きくなる。従って、「許可する」と「認可する」とには上位下位の関係があり、「許可する」が上位、「認可する」が下位の関係があると判定される。
Therefore, the
次に、(3)「読む」と「熟読する」の関係の判定について説明する。図5B、図5Dに示されるように、両者とも格助詞については同様の頻度分布を有しており、類否判定部20では両者に類似性があると判定される。そして、第1判定部22では、両者について抽出された名詞群の名詞シソーラスにおける平均距離についても両名詞群には分布に大きな差異がないため、算出される平均距離にも差が出ず、両者の上位下位の関係性については不明と判定される。
Next, (3) the determination of the relationship between “read” and “read carefully” will be described. As shown in FIGS. 5B and 5D, both have the same frequency distribution for case particles, and the
そこで、因果関係名詞抽出部24では、「読む」と「熟読する」を含む文のうち「〜ので」、「〜ために」、「〜という理由で」等の因果関係表現を含む文を抽出し、抽出された文のうち因果関係表現よりも前に出現する名詞をさらに抽出する。例えば、「読む」については、「試験のために、参考書を読んだ」、「知識を得るために、本を読んだ」、「暇という理由で本を読んだ」という文が抽出されたとすると、こうして抽出された文から「試験」、「知識」、「暇」という因果関係名詞群が得られる。一方で、「熟読する」については、例えば「試験のために、参考書を熟読した」、「テストのために、教科書を熟読した」、「暗記が必要なので、本を熟読した」という文が抽出されたとすると、こうして抽出された文から「試験」、「テスト」、「暗記」という因果関係名詞群が得られる。第2判定部26は、各動詞についてそれぞれ得られた因果関係名詞群の名詞シソーラスにおける平均距離を算出し、上記の例では「熟読する」という行為の原因は「試験」、「テスト」等の一部の意味範疇の名詞に集中し、一方の「読む」については行為の原因は多岐に渡っているから、両因果関係名詞群の名詞シソーラスにおける平均距離は、「読む」の方が「熟読する」よりも大きくなる。従って、「読む」と「熟読する」は第2判定部26により「読む」が上位、「熟読する」が下位にあると判定される。
Therefore, the causal relation
本発明は、上記の実施形態に限定されるものではなく、例えば、類否判定部20により類似と判定された動詞の組に対して、第2判定部26による判定のみを行って上位下位の判定を行うこととしても構わない。また、類否判定部20、第1判定部22では、係り受け名詞抽出部18により抽出された判定対象の動詞と係り受けの関係にある名詞を用いて判定しているが、上記判定に用いる名詞は判定対象の動詞と文中で共起関係にある名詞を用いることとしても構わない。さらに、第1判定部22と第2判定部26においては、それぞれ係り受け名詞抽出部18と因果関係名詞抽出部24により抽出された名詞群について、要素の共通度に基づいて上位下位の判定を行うとともに、両名詞群の包含関係に基づいてどちらが上位かを判定することとしてもよい。その他にも、動詞シソーラス中に存在しない動詞をテキストデータから検索するとともに、当該検索した動詞について動詞シソーラス中の各動詞との判定を行い、上位下位、同義語の判定が行われた場合に、当該検索した動詞を動詞シソーラスに追加することとしてもよい。
The present invention is not limited to the above-described embodiment. For example, for a set of verbs determined to be similar by the
10 単語関係判定装置、12 テキストデータ格納部、14 名詞シソーラス格納部、16 判定対象動詞設定部、18 係り受け名詞抽出部、20 類否判定部、22 第1判定部、24 因果関係名詞抽出部、26 第2判定部。
DESCRIPTION OF
Claims (11)
複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、
前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、
複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含む
ことを特徴とする単語関係判定装置。 Setting means for setting the first verb and the second verb as determination targets;
First noun group acquisition means for acquiring a first noun group including one or more nouns that match a given condition with respect to the first verb from a plurality of sentences;
Second noun group acquisition means for acquiring a second noun group including one or more nouns that match the given condition with respect to the second verb from the plurality of sentences;
Based on a comparison between the variation of the first noun group and the variation of the second noun group in a noun thesaurus that represents a plurality of nouns in a tree structure based on the upper and lower relations of the concept of each noun, Determining means for determining whether or not the first verb and the second verb are in a high-order and low-order relationship.
ことを特徴とする請求項1に記載の単語関係判定装置。 When there is a difference greater than a predetermined difference between the variation of the first noun group and the variation of the second noun group, the determination unit is configured to use the verb related to the larger variation and the verb related to the other The word relationship determination device according to claim 1, wherein the word relationship determination device is determined to be in the concept.
前記判定手段は、前記複数の条件のいずれかに基づいて取得された第1の名詞群のばらつきと第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の関係にあると判定する
ことを特徴とする請求項2に記載の単語関係判定装置。 The given condition includes a plurality of conditions;
The determination means has a large variation when there is a difference greater than or equal to a predetermined value between the variation of the first noun group and the variation of the second noun group acquired based on any of the plurality of conditions. The word relationship determination device according to claim 2, wherein a verb related to the direction is determined to be in a higher order and a verb related to the other is determined to be in a lower relationship.
ことを特徴とする請求項1乃至3のいずれかに記載の単語関係判定装置。 The given condition is a condition of a noun that has a dependency relationship with a verb set as a target by the setting means, a condition of a noun that appears in the vicinity of a verb set as the target, and the target The word relationship determination device according to any one of claims 1 to 3, further comprising at least one condition of nouns included in the phrase through an expression representing a causal relationship with the verb.
ことを特徴とする請求項1乃至4のいずれかに記載の単語関係判定装置。 The word according to claim 1, wherein the variation of the noun group in the noun thesaurus is calculated based on the number of hops in the noun thesaurus of each set of nouns included in the noun group. Relationship determination device.
前記類否判定手段により類似と判定された場合に、前記判定手段により前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する
ことを特徴とする請求項1乃至5のいずれかに単語関係判定装置。 A similarity determination means for determining similarity between the first verb and the second verb based on the first and second noun groups;
The determination unit determines whether the first verb and the second verb are in a high-order or low-order relationship when the similarity determination unit determines that the similarity is similar. The word relationship determination device according to any one of 1 to 5.
ことを特徴とする請求項6に記載の単語関係判定装置。 The similarity determination unit converts each noun included in the first and second noun groups into a concept of a predetermined standard in the noun thesaurus, and converts the nouns into the converted first and second noun groups. The word relationship determination device according to claim 6, wherein the similarity between the first verb and the second verb is determined based on a frequency of a reference concept included.
ことを特徴とする請求項6又は7に記載の単語関係判定装置。 Determining that the first verb and the second verb determined to be similar by the similarity determination unit and not determined to be in a higher or lower relationship by the determination unit are in a synonym relationship. The word relationship determination device according to claim 6 or 7, wherein:
複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、
前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、
前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含む
ことを特徴とする単語関係判定装置。 Setting means for setting the first verb and the second verb as determination targets;
First noun group acquisition means for acquiring a first noun group including one or a plurality of nouns included in the phrase from a plurality of sentences via an expression representing a causal relationship to the first verb;
Second noun group acquisition means for acquiring a second noun group including one or a plurality of nouns included in the clause through an expression representing a causal relationship to the second verb from the plurality of sentences;
Judgment whether or not the first verb and the second verb are in an upper-lower relationship based on the comparison between the variation of the first noun group and the variation of the second noun group A word relationship determination apparatus characterized by comprising: means.
複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、
前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、
複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とするプログラム。 A setting step for setting the first verb and the second verb as determination targets;
A first noun group obtaining step of obtaining a first noun group including one or more nouns that match a given condition with respect to the first verb from a plurality of sentences;
A second noun group obtaining step of obtaining a second noun group including one or more nouns that match the given condition with respect to the second verb from the plurality of sentences;
Based on a comparison between the variation of the first noun group and the variation of the second noun group in a noun thesaurus that represents a plurality of nouns in a tree structure based on the upper and lower relations of the concept of each noun, A program for causing a computer to execute a determination step of determining whether or not the first verb and the second verb are in an upper-lower relationship.
複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、
前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、
前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とするプログラム。 A setting step for setting the first verb and the second verb as determination targets;
A first noun group acquisition step of acquiring a first noun group including one or a plurality of nouns included in the phrase through a representation representing a causal relationship to the first verb from a plurality of sentences;
A second noun group acquisition step of acquiring a second noun group including one or a plurality of nouns included in the phrase through an expression representing a causal relationship to the second verb from the plurality of sentences;
Judgment whether or not the first verb and the second verb are in an upper-lower relationship based on the comparison between the variation of the first noun group and the variation of the second noun group A program for causing a computer to execute the steps.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008305972A JP5277914B2 (en) | 2008-12-01 | 2008-12-01 | Word relationship determination apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008305972A JP5277914B2 (en) | 2008-12-01 | 2008-12-01 | Word relationship determination apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010129025A true JP2010129025A (en) | 2010-06-10 |
JP5277914B2 JP5277914B2 (en) | 2013-08-28 |
Family
ID=42329339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008305972A Expired - Fee Related JP5277914B2 (en) | 2008-12-01 | 2008-12-01 | Word relationship determination apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5277914B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0736897A (en) * | 1993-07-22 | 1995-02-07 | Sharp Corp | Document sorting device |
JPH11296552A (en) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded |
JP2000129025A (en) * | 1998-10-22 | 2000-05-09 | Nobumasa Nakaso | Adhesive-containing foamed sheet and its production |
JP2001331515A (en) * | 2000-05-23 | 2001-11-30 | Sigmatics Inc | Word thesaurus structuring method and computer software program product for making computer system structure word thesaurus |
-
2008
- 2008-12-01 JP JP2008305972A patent/JP5277914B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0736897A (en) * | 1993-07-22 | 1995-02-07 | Sharp Corp | Document sorting device |
JPH11296552A (en) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded |
JP2000129025A (en) * | 1998-10-22 | 2000-05-09 | Nobumasa Nakaso | Adhesive-containing foamed sheet and its production |
JP2001331515A (en) * | 2000-05-23 | 2001-11-30 | Sigmatics Inc | Word thesaurus structuring method and computer software program product for making computer system structure word thesaurus |
Non-Patent Citations (4)
Title |
---|
CSNG199800553003; 浦本 直彦: 'コーパスに基づくシソーラス-統計情報を用いた既存のシソーラスへの未知語の配置' 情報処理学会論文誌 第37巻 第12号 第37巻 第12号, 19961215, 2182〜2189, 社団法人情報処理学会 * |
CSNJ199800002001; 伊藤 山彦,相川 勇之,鈴木 克志: 'コーパスからの同義語の獲得(2) -スパース性への対処-' 第56回(平成10年前期)全国大会講演論文集(2) , 19980319, p.2-241-p.2-242, 社団法人情報処理学会 * |
JPN6013000596; 浦本 直彦: 'コーパスに基づくシソーラス-統計情報を用いた既存のシソーラスへの未知語の配置' 情報処理学会論文誌 第37巻 第12号 第37巻 第12号, 19961215, 2182〜2189, 社団法人情報処理学会 * |
JPN6013000598; 伊藤 山彦,相川 勇之,鈴木 克志: 'コーパスからの同義語の獲得(2) -スパース性への対処-' 第56回(平成10年前期)全国大会講演論文集(2) , 19980319, p.2-241-p.2-242, 社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5277914B2 (en) | 2013-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN104252533B (en) | Searching method and searcher | |
CN105095204B (en) | The acquisition methods and device of synonym | |
US10496756B2 (en) | Sentence creation system | |
JP2001043236A (en) | Synonym extracting method, document retrieving method and device to be used for the same | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
Ojha et al. | Training & evaluation of POS taggers in Indo-Aryan languages: A case of Hindi, Odia and Bhojpuri | |
JP2019082931A (en) | Retrieval device, similarity calculation method, and program | |
US8296319B2 (en) | Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded | |
CN107168953A (en) | The new word discovery method and system that word-based vector is characterized in mass text | |
JP5504097B2 (en) | Binary relation classification program, method and apparatus for classifying semantically similar word pairs into binary relation | |
JP2017201478A (en) | Keyword evaluation device, similarity evaluation device, search device, evaluate method, search method, and program | |
Mangairkarasi et al. | Semantic based text summarization using universal networking language | |
JP2001331515A (en) | Word thesaurus structuring method and computer software program product for making computer system structure word thesaurus | |
JPH1196177A (en) | Method for generating term dictionary, and storage medium recording term dictionary generation program | |
JP2011175568A (en) | Inter-document distance calculator and text retriever | |
Fudholi et al. | Ontology-based information extraction for knowledge enrichment and validation | |
JP5277914B2 (en) | Word relationship determination apparatus and program | |
Li et al. | Chinese frame identification using t-crf model | |
Kutuzov | Russian word sense induction by clustering averaged word embeddings | |
Oostdijk et al. | Constructing a broad-coverage lexicon for text mining in the patent domain | |
JP5308918B2 (en) | Keyword extraction method, keyword extraction device, and keyword extraction program | |
Hathout et al. | Acquisition and enrichment of morphological and morphosemantic knowledge from the French Wiktionary | |
JP2008129662A (en) | Device, method and program for extracting information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130506 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5277914 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |