JP2012159983A - Analogy device, analogy method and program - Google Patents
Analogy device, analogy method and program Download PDFInfo
- Publication number
- JP2012159983A JP2012159983A JP2011018787A JP2011018787A JP2012159983A JP 2012159983 A JP2012159983 A JP 2012159983A JP 2011018787 A JP2011018787 A JP 2011018787A JP 2011018787 A JP2011018787 A JP 2011018787A JP 2012159983 A JP2012159983 A JP 2012159983A
- Authority
- JP
- Japan
- Prior art keywords
- data
- word
- result
- analogy
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、事例に基づいて類推を行なう類推装置、類推方法及びプログラムに関する。 The present invention relates to an analogy device, an analogy method, and a program for performing analogy based on cases.
基本的な類推手法の一つとして、四項類推が知られている。四項類推は、一般に以下の式(1)のように表示する。 As one of the basic analogy methods, four-term analogy is known. The four-term analogy is generally expressed as the following formula (1).
A:B=C:X? …(1) A: B = C: X? ... (1)
上記は、「AならばB、Cならば何であるか?」を意味しており、Xは類推結果を表している。つまり、A、B、CからX?を求めるのが四項類推である。四項類推では、基本構成要素として、規定領域(ベース)と目標領域(ターゲット)をおく。ベースとは類推する際に用いる既存の知識のことであり、ターゲットとは解決をしなければならない未知の問題のことである。つまり、上記の四項類推の例では、A及びBはベースに属し、C及びXはターゲットに属する。非特許文献1では、この四項類推のアルゴリズムを実現するシステムが提案されている。図13は、そのアルゴリズムの概要を示す図である。
The above means “if A, what is B, what is C?” And X represents the analogy result. That is, A, B, C to X? It is a four-term analogy to find In the four-term analogy, a specified area (base) and a target area (target) are set as basic components. The base is existing knowledge used for analogy, and the target is an unknown problem that must be solved. That is, in the above four-term analogy example, A and B belong to the base, and C and X belong to the target. Non-Patent
図13に示すアルゴリズムでは、まず、ベースにおけるAとBの間の関係集合Rを求める関係抽出(Relation extraction)処理を行なう。続いて、関係抽出処理において求めた関係集合Rをターゲットに移し、Cにその関係集合Rを適用してXを求める関係マッピング(Relation Mapping)処理を行なう。以後、ベースのAを状況、結果Bをその状況での結果、このAとBの組を1つの事例と呼ぶ。 In the algorithm shown in FIG. 13, first, a relation extraction process for obtaining a relation set R between A and B in the base is performed. Subsequently, the relation set R obtained in the relation extraction process is transferred to the target, and a relation mapping process for obtaining X by applying the relation set R to C is performed. Hereinafter, the base A is the situation, the result B is the result of the situation, and this set of A and B is called one case.
非特許文献1では、関係抽出処理において得られる関係集合Rを、類似な関係を表す単語riの集合として以下の式(2)のように定義している。
In
R={ri} (iは1以上の整数) …(2) R = {r i } (i is an integer of 1 or more) (2)
関係マッピング処理においては、関係集合Rに含まれる各単語riを用いてCから複数の類推結果の候補となる単語xjを求め、さらに、求めた単語xjそれぞれについて、尤もらしさを定量的に示す値であるscore(xj)を算出する。つまり、類推結果は、単語xjと、それに付与されたscore(xj)とからなる集合であり、以下の式(3)により表される。 In the relationship mapping process, a word x j that is a candidate for a plurality of analogy results is obtained from C using each word r i included in the relationship set R, and the likelihood is quantitatively determined for each of the obtained words x j. Score (x j ) which is a value shown in FIG. That is, the analogy result is a set composed of the word x j and the score (x j ) assigned to it, and is expressed by the following equation (3).
X={xj} (jは1以上の整数) …(3) X = {x j } (j is an integer of 1 or more) (3)
一方、非特許文献2では、次のように類推を行っている。まず、DVDタイトルに対応した説明文から抽出された各単語にTF−IDF値のスコアを付与しておき、ユーザの選択操作に従って当該スコアを修正する。そして、その修正したスコアが上位の単語からなるDVDデータと、入力された単語とに基づいて推薦するDVDデータを選択している。
また、非特許文献3では、次のように類推を行なっている。まず、過去の1週間の記事データからTF−IDF値が上位の単語からなるワードベクトルを生成し、生成したワードベクトルに基づいてその1週間の翌日の記事データから候補語を抽出する。このワードベクトルと、候補語の組合せを記事データの時期をずらしながら複数生成しておく。そして、予想する日にちより前の1週間の記事データから同様にワードベクトルを生成して過去の記事データから生成したワードベクトルとのマッチングを行い、マッチするワードベクトルに対応した候補語を予測結果としている。
On the other hand, in Non-Patent
In Non-Patent Document 3, the analogy is performed as follows. First, a word vector composed of words having a higher TF-IDF value is generated from article data of the past week, and candidate words are extracted from article data of the next day of the week based on the generated word vector. A plurality of combinations of this word vector and candidate words are generated while shifting the time of article data. Then, a word vector is similarly generated from the article data of one week prior to the predicted date, and matching is performed with the word vector generated from the past article data, and candidate words corresponding to the matching word vectors are used as the prediction results. Yes.
一般に四項類推では、ベースの状況であるA、ターゲットの状況であるCとも、1つの単語で構成されるいわば1次元の表現であり、これは、非特許文献1においても同様である。一方、非特許文献2及び非特許文献3では、複数の単語で表される状況を事例として類推を行うことができるが、ターゲットもベースも同じ概念に属していなければならない。例えば、非特許文献1では、「魚ならばうろこ、鳥ならば何であるか?」というように、ターゲットが魚に関する概念に属し、ベースが鳥に関する概念に属していても類推を行うことができる。しかし、非特許文献2では、ターゲットもベースもDVDの概念に属し、非特許文献3では、ターゲットもベースも経済の概念に属する。
In general, in the four-term analogy, both the base situation A and the target situation C are so-called one-dimensional expressions composed of one word, and this is the same in
本発明は、このような事情を考慮してなされたもので、その目的は、ベースにおける状況及び結果とからなる事例と、ベースが属する概念とは異なる概念に属するターゲットにおける状況が与えられたときに、ベース及びターゲットの状況がそれぞれ複数の単語で構成される場合においても、ターゲットにおける類推結果を求めることができる類推装置、類推方法、及び、プログラムを提供することにある。 The present invention has been made in consideration of such circumstances, and its purpose is to provide a case in which a situation and a result in a base and a situation in a target belonging to a concept different from the concept to which the base belongs are given. In addition, an object of the present invention is to provide an analogy device, an analogy method, and a program capable of obtaining an analogy result in a target even when the base and target situations are each composed of a plurality of words.
この発明は、上記の課題を解決すべくなされたもので、ベース状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース状況部分組合せデータを生成するベース状況部分組合せ生成部と、ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成部と、前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成部と、ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成部と、前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成部と、を備えることを特徴とする類推装置である。 The present invention has been made to solve the above-mentioned problem, and a base situation partial combination for generating base situation partial combination data composed of a predetermined number of words selected from a plurality of words indicated by base situation data by different combinations. A generation unit, a base result partial combination generation unit that generates base result partial combination data including a predetermined number of words selected from a plurality of words indicated by the base result data, and the base situation partial combination data For each of the different combinations of one and one of the base result partial combination data, an association word that is a word relating the word indicated by the base situation partial combination data and the word indicated by the base result partial combination data, Relational aggregates extracted from article data stored in storage A target situation partial combination generation unit that generates target situation partial combination data composed of a predetermined number of words selected from a plurality of words indicated by the target situation data, and one of the target situation partial combination data For each different combination consisting of one and one of the association words, a word related to the word indicated by the target situation partial combination data by the association word is used as an analogy result from the article data stored in the article storage device. And an analogy result generating unit for extraction.
また本発明は、上述した類推装置であって、前記関係集合生成部が抽出した前記関連付け単語それぞれについて、前記記事記憶装置に記憶されている前記記事データから得られる当該関連付け単語と前記ベース状況部分組合せデータ及び前記ベース結果部分組合せデータの共起との関連の強さ、当該関連付け単語と前記ベース状況部分組合せデータとの関連の強さ、及び、当該関連付け単語と前記ベース結果部分組合せデータとの関連の強さに基づき、状況と結果の関係付けを行なう単語としての妥当性を定量的に表す関係妥当性スコアを算出する関係妥当性スコア算出部と、前記類推結果生成部が類推結果として抽出した前記単語のそれぞれについて、前記記事記憶装置に記憶されている前記記事データから得られる当該単語と前記ターゲット状況部分組合せデータ及び前記関連付け単語の共起との関連の強さ、当該単語と前記ターゲット状況部分組合せデータとの関連の強さ、及び、当該単語と前記関連付け単語との関連の強さ、ならびに、前記関連付け単語について算出された前記関係妥当性スコアに基づき、類推結果としての妥当性を定量的に表す類推結果妥当性スコアを算出する類推結果妥当性スコア算出部と、をさらに備えることを特徴とする。 In addition, the present invention is the analogy device described above, and for each of the association words extracted by the relation set generation unit, the association word obtained from the article data stored in the article storage device and the base situation part The strength of the association between the combination data and the co-occurrence of the base result partial combination data, the strength of the association between the association word and the base situation partial combination data, and the association word and the base result partial combination data Based on the strength of the relation, the relation validity score calculation part that calculates the relation validity score that quantitatively represents the validity as the word that relates the situation and the result, and the analogy result generation part extract as the analogy result For each of these words, the word obtained from the article data stored in the article storage device and the target Strength of association between the situation situation combination data and the co-occurrence of the associated word, strength of association between the word and the target situation partial combination data, and strength of association between the word and the association word, And an analogy result validity score calculation unit that calculates an analogy result validity score that quantitatively represents the validity as an analogy result based on the relation validity score calculated for the association word. Features.
また本発明は、上述した類推装置であって、ベース状況データ及びベース結果データからなる複数の事例データ毎に、前記ベース状況部分組合せ生成部に、前記事例データを構成する前記ベース状況データからベース状況部分組合せデータを生成させ、前記ベース結果部分組合せ生成部に、前記事例データを構成する前記ベース結果データから前記ベース結果部分組合せデータを生成させ、前記関係集合生成部に、前記ベース状況データから生成された前記ベース状況部分組合せデータのうち1つと、前記ベース結果データから生成された前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて関連付け単語を記事データから抽出させ、前記関係妥当性スコア算出部に、前記関連付け単語それぞれについて関係妥当性スコアを算出させ、前記類推結果生成部に、前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて記事データから類推結果の単語を抽出させ、前記類推結果妥当性スコア算出部に、類推結果として抽出された前記単語のそれぞれについて類推結果妥当性スコアを算出させる類推処理制御部と、前記事例データ毎に得られた前記類推結果の単語に含まれる同一の単語を統合するとともに、統合した前記同一の単語について算出された前記類推結果妥当性スコアを積算する類推結果積算部とをさらに備える、ことを特徴とする。 In addition, the present invention provides the analogy device described above, wherein, for each of a plurality of case data composed of base situation data and base result data, the base situation partial combination generation unit is configured to base the base situation data on the base situation data constituting the case data. Generating situation partial combination data, causing the base result partial combination generation unit to generate the base result partial combination data from the base result data constituting the case data, and causing the relation set generation unit to generate from the base situation data An association word is extracted from article data for each of different combinations of one of the generated base situation partial combination data and one of the base result partial combination data generated from the base result data, and the relation validity Relevant for each of the associated words in the sex score calculator A correctness score is calculated, and the analogy result generation unit is configured to extract an analogy result word from article data for each of the different combinations of one of the target situation partial combination data and one of the associated words, and the analogy result An analogy processing control unit that causes the result validity score calculation unit to calculate an analogy result validity score for each of the words extracted as an analogy result, and the same included in the analogy result word obtained for each case data And an analogy result accumulating unit for accumulating the analogy result validity scores calculated for the integrated identical words.
また本発明は、上述した類推装置であって、前記関係集合生成部は、前記ベース状況部分組合せデータが示す単語が主語の名詞かつ前記ベース結果部分組合せデータが示す単語が述部の名詞である前記記事データの文から、述部の動詞を前記関連付け単語として抽出し、前記類推結果生成部は、前記ターゲット状況部分組合せデータが示す複数の単語が主語の名詞かつ前記関連付け単語が述部の動詞である前記記事データの文から、述部の名詞を類推結果として抽出する、ことを特徴とする。 Further, the present invention is the analogy device described above, wherein the relation set generation unit is a noun whose subject is the word indicated by the base situation partial combination data and a noun whose predicate is the word indicated by the base result partial combination data The verb of the predicate is extracted as the association word from the sentence of the article data, and the analogy result generation unit is configured such that the plurality of words indicated by the target situation partial combination data are subject nouns and the association word is a predicate verb. The noun of the predicate is extracted as an analogy result from the sentence of the article data.
また本発明は、上述した類推装置であって、前記記事記憶装置は、さらに、所定の分野に関する単語を含む辞書データを記憶し、前記関係集合生成部は、前記ベース状況部分組合せデータにより示される単語及び前記ベース結果部分組合せデータにより示される単語が共起する前記記事データの文から、前記辞書データに含まれる単語を前記関連付け単語として抽出し、前記類推結果生成部は、前記ターゲット状況部分組合せデータにより示される単語及び前記関連付け単語が共起する前記記事データの文から、前記辞書データに含まれる単語を類推結果として抽出する、ことを特徴とする。 Further, the present invention is the analogy device described above, wherein the article storage device further stores dictionary data including words relating to a predetermined field, and the relation set generation unit is indicated by the base situation partial combination data A word included in the dictionary data is extracted as the association word from a sentence of the article data in which a word and a word indicated by the base result partial combination data co-occur, and the analogy result generation unit is configured to output the target situation partial combination A word included in the dictionary data is extracted as an analogy result from a sentence of the article data in which a word indicated by data and the associated word co-occur.
また本発明は、類推装置が実行する類推方法であって、ベース状況部分組合せ生成部が、ベース状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース状況部分組合せデータを生成するベース状況部分組合せ生成過程と、ベース結果部分組合せ生成部が、ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成過程と、関係集合生成部が、前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成過程と、ターゲット状況部分組合せ生成部が、ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成過程と、類推結果生成部が、前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成過程と、を有することを特徴とする類推方法である。 The present invention is also an analogy method executed by an analogy estimation device, wherein the base situation partial combination generation unit includes a predetermined number of words selected from a plurality of words indicated by the base situation data, and the base situation partial combination A base situation partial combination generation process for generating data, and a base result partial combination generation unit generate base result partial combination data composed of a predetermined number of words selected by different combinations from a plurality of words indicated by the base result data The base result partial combination generation process and the relation set generation unit indicate the word indicated by the base situation partial combination data for each of the different combinations of one of the base situation partial combination data and one of the base result partial combination data. And a word related to the word indicated by the base result partial combination data The relation set generation process of extracting a certain association word from the article data stored in the article storage device, and the target situation partial combination generation unit of a predetermined number of words selected by a different combination from a plurality of words indicated by the target situation data A target situation partial combination generation process for generating target situation partial combination data consisting of the words, and an analogy result generation unit for each different combination consisting of one of the target situation partial combination data and one of the association words, An analogy result generation step of extracting a word related to the word indicated by the target situation partial combination data by the association word as an analogy result from the article data stored in the article storage device. This is an analogy method.
また本発明は、類推装置として用いられるコンピュータを、ベース状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース状況部分組合せデータを生成するベース状況部分組合せ生成部、ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成部、前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成部、ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成部、前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成部、として機能させることを特徴とするプログラムである。 Further, the present invention provides a base situation partial combination generation unit that generates base situation partial combination data including a predetermined number of words selected from a plurality of words indicated by the base situation data by using a computer used as an analogy device. A base result partial combination generation unit that generates base result partial combination data including a predetermined number of words selected from a plurality of words indicated by base result data, and one of the base situation partial combination data and the base result For each different combination consisting of one of the partial combination data, an association word, which is a word relating the word indicated by the base situation partial combination data and the word indicated by the base result partial combination data, is stored in the article storage device. Relations extracted from live article data A target situation partial combination generation unit that generates target situation partial combination data including a predetermined number of words selected from a plurality of words indicated by target situation data, and one of the target situation partial combination data and the target situation data For each different combination consisting of one of the association words, a word related to the word indicated by the target situation partial combination data by the association word is extracted from the article data stored in the article storage device as an analogy result It is a program characterized by functioning as an analogy result generation unit.
本実施形態によれば、ベースにおける状況及び結果とからなる事例と、ベースが属する概念とは異なる概念に属するターゲットにおける状況が与えられたときに、ベース及びターゲットの状況がそれぞれ複数の単語で構成される場合においても、ターゲットにおける類推結果を求めることができる。 According to the present embodiment, when a situation consisting of a situation and a result in a base and a situation in a target belonging to a concept different from the concept to which the base belongs are given, each of the situation of the base and the target is composed of a plurality of words. Even in such a case, the analogy result at the target can be obtained.
以下、図面を参照して本発明の実施形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
一般に、四項類推における規定領域(ベース)の状況Aと目標領域(ターゲット)の状況Cは、1つの単語で構成されるいわば1次元の表現である。本実施形態では、この状況A及び状況Cを、複数の単語で構成される多次元の構成に拡張する。これを、式(1)で示したmodus ponensと同様の表現方法で記述すると、以下の式(4)のようになる。
[First embodiment]
Generally, the situation A of the specified area (base) and the situation C of the target area (target) in the four-term analogy are so-called one-dimensional expressions composed of one word. In the present embodiment, the situation A and the situation C are extended to a multi-dimensional configuration composed of a plurality of words. If this is described in the same expression method as modus ponens shown in equation (1), the following equation (4) is obtained.
上記のように、状況Aは、単語ta1,ta2,…,tamで構成され、状況Cは、単語tc1,tc2,…,tcmで構成される。つまり、状況A及び状況Cは、m個の単語を要素とするm次元ワードベクトルである。一方、ベースの状況Aでの結果Bは、単語wb1,wb2,…,wbgで構成され、ターゲットの状況Cでの結果Xは、単語wx1,wx2,…,wxgで構成される。つまり、結果B及び結果Xは、g個の単語を要素とするg次元ワードベクトルである。
本実施形態の類推装置は、式(4)に示すような多次元ベクトルであるベースの状況A、ベースの状況Aでの結果B、及び、ターゲットの状況Cから、ターゲットの状況Cでの結果Xを求める処理を行なう。
As described above, conditions A, the word t a1, t a2, ..., is composed of t am, status C is the word t c1, t c2, ..., composed of t cm. That is, the situation A and the situation C are m-dimensional word vectors having m words as elements. On the other hand, the result B in the base situation A is composed of words w b1 , w b2 ,..., W bg , and the result X in the target situation C is composed of words w x1 , w x2 ,. Is done. That is, the result B and the result X are g-dimensional word vectors having g words as elements.
The analogy device of the present embodiment is based on the base situation A, which is a multidimensional vector as shown in Expression (4), the result B in the base situation A, and the target situation C, and the result in the target situation C. Processing for obtaining X is performed.
図1及び2を用いて、本実施形態の類推装置の処理概要を説明する。
図1は、本実施形態の類推装置における関係抽出処理の概要を示す図である。類推装置は、状況Aを表すm個(mは2以上の整数)の単語の列であるm次元のワードベクトルからn個(nは1以上m以下の整数)の単語を選択したときの全ての組合せを生成する。さらに、類推装置は、結果Bを表すg個(gは2以上の整数)の単語の列であるg次元のワードベクトルの中からh(hは1以上g以下の整数)個の単語を選択したときの全ての組合せを生成する。類推装置は、状況Aから生成した組合せを構成するn個の単語と、結果Bから生成した組合せを構成するh個の単語とが共起する記事を検索する。記事には複数の単語が含まれており、それら複数の単語からなるワードベクトルとみなすことができる。このワードベクトルを構成する単語の中には、他の単語同士を関連付ける単語も含まれる。類推装置は、状況Aから生成した組合せを構成するn個の単語と、結果Bから生成した組合せを構成するh個の単語とを関係付ける単語rを記事から抽出する。抽出された単語rをそれぞれr1、r2、…とすると、関係集合R={ri}と表すことができる(iは1以上の整数)。
The processing outline of the analogy device of this embodiment will be described with reference to FIGS.
FIG. 1 is a diagram showing an outline of the relationship extraction process in the analogy device of this embodiment. The analogy device selects all n (n is an integer from 1 to m) words from an m-dimensional word vector that is a sequence of m (m is an integer of 2 or more) words representing the situation A. Generate a combination of Further, the analogy device selects h (h is an integer between 1 and g) words from a g-dimensional word vector that is a string of g words (g is an integer of 2 or more) representing the result B. All combinations are generated. The analog inference device searches for articles in which n words constituting the combination generated from the situation A and h words constituting the combination generated from the result B co-occur. An article includes a plurality of words, and can be regarded as a word vector composed of the plurality of words. Among the words constituting this word vector, there are also words that associate other words with each other. The analogy device extracts from the article a word r that associates n words that make up the combination generated from the situation A and h words that make up the combination generated from the result B. If the extracted words r are r 1 , r 2 ,..., They can be expressed as a relation set R = {r i } (i is an integer of 1 or more).
図2は、関係マッピング処理の概要を示す図である。類推装置は、状況Cを構成するm個の単語の列であるm次元のワードベクトルからn個の単語を選択したときの全ての組合せを生成する。類推装置は、関係集合Rを構成する各単語riによって、状況Cから生成した組合せと関連付けられる単語を記事から抽出し、抽出した単語群を類推結果Xとする。 FIG. 2 is a diagram showing an overview of the relationship mapping process. The analog inference apparatus generates all combinations when n words are selected from an m-dimensional word vector that is a sequence of m words constituting the situation C. Analogy apparatus, by each word r i constituting the relationship set R, extracting word associated with the combination generated from the situation C from the article, the extracted word group and analogy result X.
図3は、本発明の第一の実施形態による類推装置1の構成を示すブロック図である。類推装置1は、例えば、1台または複数台のコンピュータ装置で実現することができ、記事データを記憶する記事記憶装置5とネットワークを介して接続される。記事データは、例えば、ニュースのテキストデータ、雑誌のテキストデータ、知識データベースの内容などである。記事データは、複数の単語からなるが、その中には、他の単語間を関係付ける単語が含まれる。例えば、自然言語の文の場合、主語の名詞(単語)と、述部にある名詞(単語)とを、述部の動詞(単語)が関連付けている。
FIG. 3 is a block diagram showing the configuration of the
同図に示すように、類推装置1は、事例記憶部11、入力部12、関係抽出部13、処理結果記憶部14、関係マッピング部15及び出力部16を備えて構成される。
事例記憶部11は、状況Aのワードベクトルを示す状況Aデータ(ベース状況データ)と、結果Bのワードベクトルを示す結果Bデータ(ベース結果データ)を記憶する。状況Aデータは、m個の単語を要素とするm次元ワードベクトルを示し、結果Bデータは、g個の単語を要素とするg次元ワードベクトルを示す。入力部12は、キーボードなどによって、状況Cのワードベクトルを示す状況Cデータ(ターゲット状況データ)の入力を受ける。状況Cデータは、m個の単語を要素とするm次元ワードベクトルである。なお、入力部12は、ネットワークを介して接続される他のコンピュータ装置から状況Cデータを受信したり、コンピュータ読み取り可能な記録媒体から状況Cデータを読み出したりしてもよい。処理結果記憶部14は、関係抽出部13及び関係マッピング部15の各部による処理結果を記憶する。
As shown in FIG. 1, the
The
関係抽出部13は、ベース状況部分組合せ生成部21、ベース結果部分組合せ生成部22、ベース共起記事検索部23、関係集合生成部24及び関係妥当性スコア算出部25を備える。
ベース状況部分組合せ生成部21は、事例記憶部11から読み出した状況Aデータが示すm個の単語からn個の単語を選択したときの全ての組合せ(n=1の場合も説明の便宜上、組合せと記載する。)を生成し、これらの組合せそれぞれを示すデータである部分組合せAl(ベース状況部分組合せデータ)を生成する(1≦l≦mCn、lは整数)。つまり、部分組合せAlは、n個の単語を要素とするn次元のワードベクトルを示す。
The
The base situation partial
ベース結果部分組合せ生成部22は、事例記憶部11から読み出した結果Bデータが示すg個の単語からh個の単語を選択したときの全ての組合せ(h=1の場合も説明の便宜上、組合せと記載する。)を生成し、これらの組合せそれぞれを示すデータである部分組合せBk(ベース結果部分組合せデータ)を生成する(1≦k≦gCh、kは整数)。つまり、部分組合せBkは、h個の単語を要素とするh次元のワードベクトルを示す。
The base result partial
ベース共起記事検索部23は、1つの部分組合せAlと、1つの部分組合せBkとからなる全ての組合せそれぞれについて記事記憶装置5に記憶されている記事データを検索し、部分組合せAl及び部分組合せBkが示す全ての単語が共起する記事を示す記事データを特定する。ベース共起記事検索部23は、特定した記事データの集合からなるデータである記事集合Dを生成する。関係集合生成部24は、1つの部分組合せAlと1つの部分組合せBkとからなる全ての組合せそれぞれについて、部分組合せAlが示すn個の単語と、部分組合せBkが示すh個の単語とを関係付ける単語r(関連付け単語)を記事集合Dに含まれる各記事データから抽出し、抽出した単語rの集合を示すデータである関係集合Rを生成する。抽出された各単語rを、r1、r2、…とする。関係妥当性スコア算出部25は、関係集合生成部24が生成した関係集合Rに含まれる各単語ri(iは1以上の整数)の関係妥当性スコアscore(ri)を算出する。関係妥当性スコアscore(ri)は、単語riが、部分組合せAlと部分組合せBkとを関連付ける単語として妥当であるかの尤もらしさを定量的に表す値である。
The base co-occurrence
関係マッピング部15は、ターゲット状況部分組合せ生成部26、ターゲット共起記事検索部27、類推結果生成部28及び類推結果妥当性スコア算出部29を備える。
ターゲット状況部分組合せ生成部26は、入力部12により入力された状況Cデータが示すm個の単語からn個の単語を選択したときの全ての組合せを生成し、これらの組合せそれぞれを示すデータである部分組合せCf(ターゲット状況部分組合せデータ)を生成する(1≦f≦mCn、fは整数)。つまり、部分組合せCfは、n個の単語を要素とするn次元のワードベクトルを示す。
The
The target situation partial
ターゲット共起記事検索部27は、1つの部分組合せCfと、関係集合Rに含まれる1つの単語riとからなる全ての組合せそれぞれについて記事記憶装置5を検索し、部分組合せCfが示す全ての単語と、単語riとが共起する記事を示す記事データを特定する。ターゲット共起記事検索部27は、特定した記事データの集合からなるデータである記事集合Eを生成する。類推結果生成部28は、単語riによって部分組合せCfが示すn個の単語と関係付けられる単語xを記事集合Eに含まれる各記事データから抽出し、抽出された単語xの集合を示すデータである類推結果集合Xを生成する。抽出された各単語xを、x1、x2、…とする。類推結果妥当性スコア算出部29は、類推結果生成部28により生成された類推結果集合Xに含まれる各単語xj(jは1以上の整数)の類推結果妥当性スコアscore(xj)を算出する。類推結果妥当性スコアscore(xj)は、単語xjが、類推結果として妥当であるかを定量的に表す値である。
The target co-occurrence
出力部16は、類推結果生成部28により生成された類推結果集合Xが示す各単語xjと、類推結果妥当性スコア算出部29により算出された当該単語xjの類推結果妥当性スコアscore(xj)とからなる類推結果データをディスプレイに表示させる。あるいは、出力部16は、類推結果データをプリンタなどにより印刷してもよく、情報記録媒体へ書き込んでもよく、ネットワークを介して接続されるコンピュータ装置へ送信してもよい。この類推結果データは、結果Xを表すg次元ワードベクトルの要素である単語wx1,wx2,…,wxgのいずれかであると類推される単語とその類推結果妥当性スコアの集合である。つまり、類推結果は、単語xjからなるファジィ集合によって表現される。
The
図4及び図5は、図3に示す類推装置1の類推処理フローを示す図である。
我々が日常使用している言語では3万語程度であるが、ここから各記事の特徴を表す重要語を抽出し、この抽出した重要語を用いて生成した状況Aデータ及び結果Bデータを類推装置1の事例記憶部11に記憶させておく。一般的に、状況Aのワードベクトルの次元数mや結果Bのワードベクトルの次元数gとして20〜50を用いるが、それ以外の次元数でもよい。また、処理結果記憶部14は、初期値NULLの記事集合D、記事集合E、関係集合R及び類推結果集合Xを記憶する。
4 and 5 are diagrams showing an analogy processing flow of the
In our daily use language, there are about 30,000 words. From this, we extract key words representing the characteristics of each article, and analogize the situation A data and result B data generated using the extracted key words. The data is stored in the
図4において、類推装置1の入力部12は、状況Cデータの入力を受ける(ステップS100)。続いて、ベース状況部分組合せ生成部21は、事例記憶部11から状況Aデータを読み出し、状況Aデータが示すワードベクトルの要素であるm個の単語から(mは2以上の整数)、n個(nは1以上m以下の整数)の単語を選択したときの組合せを全て生成する。組合せの数は、mCnとなる。ベース状況部分組合せ生成部21は、生成した単語の組合せを要素とするn次元ワードベクトルを示す部分組合せAl(1≦l≦mCn、lは整数)を生成し、処理結果記憶部14に書き込む(ステップS105)。抽出単語数nは、2〜5程度を用いるが、これ以外の値でもよい。
In FIG. 4, the
続いて、ベース結果部分組合せ生成部22は、事例記憶部11から結果Bデータを読み出し、結果Bデータが示すワードベクトルの要素であるg個の単語から、h個(hは1以上g以下の整数)の単語を選択したときの全ての組合せを生成する。組合せの数は、gChとなる。ベース結果部分組合せ生成部22は、生成した単語の組合せを要素とするh次元ワードベクトルを示す部分組合せBk(1≦k≦gCh、kは整数)を生成し、処理結果記憶部14に書き込む(ステップS110)。抽出単語数hは、2〜5程度を用いるが、これ以外の値でもよい。
Subsequently, the base result partial
ベース共起記事検索部23は、ステップS105において処理結果記憶部14に書き込まれた部分組合せAlの1つと、ステップS110において処理結果記憶部14に書き込まれた部分組合せBkの1つとからなる全ての組合せを生成する(ステップS115)。つまり、生成される組合せはA1−B1、A1−B2、…、A1−B(gCh)、A2−B1、A2−B2、…、A(mCn−1)−B(gCh)、A(mCn)−B1、A(mCn)−B2、…、A(mCn)−B(gCh)である。ベース共起記事検索部23は、ステップS115において生成した組合せのうち、まだステップS125の処理対象としていない組合せAl−Bkを選択する(ステップS120)。
Based co-occurrence
ベース共起記事検索部23は、ステップS120において選択した組合せAl−Bkを構成する部分組合せAl及び部分組合せBkを処理結果記憶部14から読み出す。ベース共起記事検索部23は、記事記憶装置5が記憶する記事データを検索し、読み出した部分組合せAlが示すn個の単語と、読み出した部分組合せBkが示すh個の単語とが全て含まれる記事を示す記事データを特定する。ベース共起記事検索部23は、特定した記事データを記事記憶装置5から読み出し、読み出した記事データを処理結果記憶部14に記憶されている記事集合Dに追加する(ステップS125)。ただし、ベース共起記事検索部23は、抽出した記事データがすでに記事集合Dに含まれている場合は追加しない。関係集合Dに含まれる記事データをそれぞれ記事データd1、d2、…とする。
The base co-occurrence
ベース共起記事検索部23は、ステップS115において生成した全ての組合せをステップS125の処理対象としたかを判断する(ステップS130)。まだステップS125の処理対象としていない組合せがあると判断した場合(ステップS130:NO)、ベース共起記事検索部23は、ステップS120からの処理を繰り返す。ベース共起記事検索部23が全ての組合せを処理対象としたと判断した場合(ステップS130:YES)、関係集合生成部24は、ステップS140の処理を実行する。
The base co-occurrence
関係集合生成部24は、ステップS115と同様に、部分組合せAlの1つと部分組合せBkの1つとからなる全ての組合せを生成する(ステップS135)。関係集合生成部24は、ステップS135において生成した組合せのうち、まだステップS145の処理対象としていない組合せAl−Bkを選択する(ステップS140)。
Relationship set
関係集合生成部24は、ベース共起記事検索部23により処理結果記憶部14に書き込まれた記事集合Dに含まれる記事データd1、d2、…が示す記事それぞれから、選択した組合せAl−Bkの部分組合せAlが示すn個の単語と、部分組合せBkが示すh個の単語とを関係付ける単語rを抽出する(ステップS145)。関係集合生成部24は、抽出した単語を処理結果記憶部14に記憶されている関係集合Rに追加する。ただし、関係集合生成部24は、抽出した単語rがすでに関係集合Rに含まれている場合は追加しない。関係集合Rに含まれる単語rをそれぞれ単語r1、r2、…とする。次元数m、gが20〜50であり、抽出単語数n,hが2〜5個である場合、関係集合Rに含まれる単語数は、20〜50語程度となる。
The relation set
関係集合生成部24は、ステップS135において生成した全ての組合せをステップS145の処理対象としたかを判断する(ステップS150)。まだステップS145の処理対象としていない組合せがあると判断した場合(ステップS150:NO)、関係集合生成部24は、ステップS140からの処理を繰り返す。関係集合生成部24が全ての組合せをステップS145の処理対象としたと判断した場合(ステップS150:YES)、関係妥当性スコア算出部25は、ステップS155の処理を実行する。
The relation set
関係妥当性スコア算出部25は、関係集合生成部24により処理結果記憶部14に書き込まれた関係集合Rに含まれる各単語ri(iは1以上の整数)について、以下の式(5)により関係妥当性スコアscore(ri)を算出し、処理結果記憶部14に書き込む(ステップS155)。但し、MI(Al,ri)は、部分組合せAlと単語riとの相互情報量、MI(Bk,ri)は、部分組合せBkと単語riとの相互情報量、MI(AlBk,ri)は、部分組合せAl及び部分組合せBkの共起と単語riとの相互情報量である。相互情報量とは、2つの確率変数が相互に依存する尺度を表す量である。
The relation validity
score(ri)=ΣlΣk MI(Al,ri)*MI(Bk,ri)*MI(AlBk,ri) …(5) score (r i ) = Σ 1 Σ k MI (A 1 , r i ) * MI (B k , r i ) * MI (A 1 B k , r i ) (5)
上記のように、式(5)は、相互情報量MI(Al,ri)、相互情報量MI(Bk,ri)、及び、相互情報量MI(AlBk,ri)を乗算した値を、全ての部分組合せAl、全ての部分組合せBkについて累積加算した値である。従って、相互情報量MI(Al,ri)、相互情報量MI(Bk,ri)、相互情報量MI(AlBk,ri)が大きいほど、つまり、部分組合せAlと単語riの結びつきが強いほど、部分組合せBkと単語riの結びつきが強いほど、また、部分組合せAl及び部分組合せBkの共起と単語riの結びつきが強いほど、関係妥当性スコアscore(ri)も大きくなる。 As described above, the equation (5) is obtained by calculating the mutual information MI (A l , r i ), the mutual information MI (B k , r i ), and the mutual information MI (A l B k , r i ). Is a value obtained by cumulatively adding all the partial combinations A 1 and all the partial combinations B k . Accordingly, the larger the mutual information MI (A l , r i ), the mutual information MI (B k , r i ), and the mutual information MI (A l B k , r i ), that is, the partial combination A l word as strong ties r i, the stronger the ties subcombination B k and words r i, also, as the strong ties subcombination a l and subcombinations B k of co-occurrence and word r i, related validity score score (r i) is also increased.
なお、関係妥当性スコア算出部25は、相互情報量MI(Al,ri)、相互情報量MI(Bk,ri)、及び、相互情報量MI(AlBk,ri)をそれぞれ、式(6)〜式(8)により算出する。
The relation validity
但し、p(x)は、xが記事記憶装置5に記憶されている記事データに出現する確率であり、p(x,y)は、xとyが同時に記事記憶装置5に記憶されている記事データに出現する確率である。つまり、p(Al)は、部分組合せAlが示す全ての単語が出現する記事データの確率、p(Bk)は、部分組合せBkが示す全ての単語が出現する記事データの確率、p(ri)は、単語riが出現する記事データの確率である。また、p(AlBk)は、部分組合せAlが示す全ての単語と部分組合せBkが示す全ての単語とが出現する記事データの確率、p(Al,ri)は、部分組合せAlが示す全ての単語と単語riとが出現する記事データの確率、p(Bk,ri)は、部分組合せBkが示す全ての単語と単語riとが出現する記事データの確率、p(AlBk,ri)は、部分組合せAlが示す全ての単語及び部分組合せBkが示す全ての単語と単語riとが出現する記事データの確率である。
However, p (x) is the probability that x will appear in the article data stored in the
関係妥当性スコア算出部25は、各確率を以下のように算出する。関係妥当性スコア算出部25は、記事記憶装置5に記憶されている記事データの数である合計記事数をカウントする。続いて、関係妥当性スコア算出部25は、記事記憶装置5に記憶されている記事データのうち、部分組合せAlが示す全ての単語が出現する記事データの数、部分組合せBkが示す全ての単語が出現する記事データの数、単語riが出現する記事データの数をカウントし、これらのカウント数をそれぞれ合計記事数で除算することによりp(Al)、p(Bk)、p(ri)を算出する。
The relation validity
さらに、関係妥当性スコア算出部25は、記事記憶部5に記憶されている記事データのうち部分組合せAlが示す全ての単語と部分組合せBkが示す全ての単語とが出現する記事データの数、部分組合せAlが示す全ての単語と単語riとが出現する記事データの数、部分組合せBkが示す全ての単語と単語riとが出現する記事データの数、部分組合せAlが示す全ての単語及び部分組合せBkが示す全ての単語と単語riとが出現する記事データの数をカウントし、これらのカウント数をそれぞれ合計記事数で除算することにより、p(AlBk)、p(Al,ri)、p(Bk,ri)、p(AlBk,ri)を算出する。
Furthermore, the relationship appropriateness
なお、式(6)〜式(8)に用いられるp(Al)、p(Bk)、p(ri)、p(AlBk)、p(Al,ri)、p(Bk,ri)、p(AlBk,ri)を、記事記憶装置5に記憶される記事データに基づいて算出した確率としているが、記事集合Dに含まれる記事データに出現する確率としてもよい。この場合、関係妥当性スコア算出部25は、記事記憶部5に記憶されている記事データに代えて、記事集合Dに含まれる記事データを用い、上記と同様にp(Al)、p(Bk)、p(ri)、p(AlBk)、p(Al,ri)、p(Bk,ri)、p(AlBk,ri)を算出する。
Note that p (A 1 ), p (B k ), p (r i ), p (A 1 B k ), p (A 1 , r i ), p used in equations (6) to (8). (B k , r i ), p (A l B k , r i ) are the probabilities calculated based on the article data stored in the
図5において、ターゲット状況部分組合せ生成部26は、図4のステップS100において入力された状況Cデータが示すワードベクトルの要素であるm個の単語からn個の単語を選択したときの全ての組合せを生成する。組合せの数は、mCnとなる。ターゲット状況部分組合せ生成部26は、生成した単語の組合せを要素とするn次元ワードベクトルを示す部分組合せCf(1≦f≦mCn、fは整数)を生成し、処理結果記憶部14に書き込む(ステップS200)。
In FIG. 5, the target situation partial
ターゲット共起記事検索部27は、処理結果記憶部14に書き込まれた部分組合せCfの1つと、関係集合Rに含まれる単語riの1つとからなる全ての組合せを生成する(ステップS205)。つまり、生成される組合せはC1−r1、C1−r2、…、C2−r1、C2−r2、…、CmCn−r1、CmCn−r2、…である。なお、ターゲット共起記事検索部27は、関係妥当性スコアscore(ri)が閾値以上の単語riのみ、あるいは、関係妥当性スコアscore(ri)が高いものから所定数の単語riのみを組合せを生成する対象としてもよい。ターゲット共起記事検索部27は、ステップS205において生成した全ての組合せのうち、まだステップS215の処理対象としていない組合せCf−riを選択する(ステップS210)。
The target co-occurrence
ターゲット共起記事検索部27は、ステップS210において選択した組合せCf−riを構成する部分組合せCf及び単語riを処理結果記憶部14から読み出す。ターゲット共起記事検索部27は、記事記憶装置5が記憶する記事データを検索し、読み出した部分組合せCfが示すn個の単語と、単語riとが全て含まれる記事を示す記事データを特定する。ターゲット共起記事検索部27は、特定した記事データを記事記憶装置5から読み出し、読み出した記事データを処理結果記憶部14に記憶されている記事集合Eに書き込む(ステップS215)。ただし、ターゲット共起記事検索部27は、抽出した記事データがすでに記事集合Eに含まれている場合は追加しない。関係集合Eに含まれる記事データをそれぞれ記事データe1、e2、…とする。
Target cooccurrence
ターゲット共起記事検索部27は、ステップS205において生成した全ての組合せをステップS215の処理対象としたかを判断する(ステップS220)。まだステップS215の処理対象としていない組合せがあると判断した場合(ステップS220:NO)、ターゲット共起記事検索部27は、ステップS210からの処理を繰り返す。ターゲット共起記事検索部27が全ての組合せを処理対象としたと判断した場合(ステップS220:YES)、類推結果生成部28は、ステップS225の処理を実行する。
The target co-occurrence
類推結果生成部28は、ステップS205と同様に、部分組合せCfの1つと関係集合Rに含まれる単語riの1つとからなる全ての組合せを生成する(ステップS225)。類推結果生成部28は、ステップS225において生成した組合せのうち、まだステップS235の処理対象としていない組合せCf−riを選択する(ステップS230)。
Analogy
類推結果生成部28は、ターゲット共起記事検索部27が処理結果記憶部14に書き込んだ記事集合Eに含まれる各記事データe1、e2、…が示す記事それぞれから、選択した組合せの単語riによって部分組合せCfが示すn個の単語と関係付けられる単語xを抽出する(ステップS235)。この時、ターゲットにおけるCf−ri−xの構造が、ベースで単語riが抽出されたときのAl−ri−Bkの構造と同じになるようにxを選択する。類推結果生成部28は、抽出した単語xを処理結果記憶部14に記憶されている類推結果集合Xに追加する。ただし、類推結果生成部28は、抽出した単語xがすでに類推結果集合Xに含まれている場合は追加しない。類推結果集合Xに含まれる単語xをそれぞれ、x1、x2、…とする。
The analogy
類推結果生成部28は、ステップS225において生成した全ての組合せをステップS235の処理対象としたかを判断する(ステップS240)。類推結果生成部28は、まだ処理対象としていない組合せがあると判断した場合(ステップS240:NO)、ステップS230からの処理を繰り返す。類推結果生成部28が全ての組合せをステップS235の処理対象としたと判断した場合(ステップS240:YES)、類推結果妥当性スコア算出部29は、ステップS245の処理を実行する。
The analogy
類推結果妥当性スコア算出部29は、処理結果記憶部14に記憶されている類推結果集合Xで示される単語xj(j=1、2、…)について、以下の式(9)により類推結果妥当性スコアscore(xj)を算出し、処理結果記憶部14に書き込む(ステップS245)。但し、MI(Cf,xj)は、部分組合せCfと単語xjとの相互情報量、MI(ri,xj)は、単語riと単語xjとの相互情報量、MI(Cfri,xj)は、部分組合せCf及び単語riの共起と単語xjとの相互情報量である。また、類推結果妥当性スコア算出部29は、関係妥当性スコアscore(ri)を処理結果記憶部14から読み出す。
The analogy result validity
score(xj)=ΣfΣi MI(Cf,xj)*MI(ri,xj)*MI(Cfri,xj) …(9) score (x j ) = Σ f Σ i MI (C f , x j ) * MI (r i , x j ) * MI (C f r i , x j ) (9)
上記のように、式(9)は、相互情報量MI(Cf,xj)、相互情報量MI(ri,xj)、相互情報量MI(Cfri,xj)及び関係妥当性スコアscore(ri)を乗算した値を、全ての部分組合せCf、全ての単語riについて累積加算した値である。従って、相互情報量MI(Cf,xj)、相互情報量MI(ri,xj)、相互情報量MI(Cfri,xj)が大きいほど、つまり、部分組合せCfと単語xjの結びつきが強いほど、単語riと単語xjの結びつきが強いほど、部分組合せCf及び単語riの共起と単語xjの結びつきが強いほど、また、関係妥当性スコアscore(ri)が大きいほど、類推結果妥当性スコアscore(xj)も大きくなる。 As described above, the equation (9) is obtained by calculating the mutual information MI (C f , x j ), the mutual information MI (r i , x j ), the mutual information MI (C f r i , x j ) and the relationship. The value obtained by multiplying the validity score score (r i ) is a value obtained by accumulating all the partial combinations C f and all the words r i . Therefore, the larger the mutual information MI (C f , x j ), the mutual information MI (r i , x j ), and the mutual information MI (C f r i , x j ), that is, the partial combination C f and word as strong ties x j, the more strong connection word r i and the word x j, the more strong connection subcombination C f and word r i cooccurrence and words x j, also related relevance scores score As (r i ) increases, the analogy result validity score score (x j ) also increases.
なお、類推結果妥当性スコア算出部29は、相互情報量MI(Cf,xj)、相互情報量MI(ri,xj)、及び、相互情報量MI(Cfri,xj)をそれぞれ、式(10)〜式(12)により算出する。
The analogy result validity
但し、p(Cf)は、部分組合せCfで示される全ての単語が出現する記事データの確率、p(xj)は、単語xjが出現する記事データの確率である。また、p(Cf,xj)は、部分組合せCfが示す全ての単語と単語xjとが出現する記事データの確率、p(ri,xj)は、単語riと単語xjが出現する記事データの確率、p(Cf,ri)は、部分組合せCfが示す全ての単語と単語riとが出現する記事データの確率、p(Cfri,xj)は、部分組合せCfが示す全ての単語及び単語riと単語xjとが出現する記事データの確率である。 However, p (C f ) is the probability of article data in which all the words indicated by the partial combination C f appear, and p (x j ) is the probability of article data in which the word x j appears. In addition, p (C f , x j ) is the probability of article data in which all the words indicated by the partial combination C f and the word x j appear, and p (r i , x j ) is the word r i and the word x The probability of article data in which j appears, p (C f , r i ) is the probability of article data in which all the words indicated by the partial combination C f and the word r i appear, p (C f r i , x j ) Is the probability of article data in which all the words indicated by the partial combination C f and the word r i and the word x j appear.
類推結果妥当性スコア算出部29は、各確率を以下のように算出する。類推結果妥当性スコア算出部29は、記事記憶装置5に記憶されている記事データの数である合計記事数をカウントする。続いて、類推結果妥当性スコア算出部29は、記事記憶装置5に記憶されている記事データのうち、部分組合せCfが示す全ての単語が出現する記事データの数、単語xjが出現する記事データの数、単語riが出現する記事データの数をカウントし、これらのカウント数をそれぞれ合計記事数で除算することによりp(Cf)、p(xj)、p(ri)を算出する。
The analogy result validity
さらに、類推結果妥当性スコア算出部29は、記事記憶部5に記憶されている記事データのうち部分組合せCfが示す全ての単語と単語xjとが出現する記事データの数、単語riと単語xjとが出現する記事データの数、部分組合せCfが示す全ての単語と単語riとが出現する記事データの数、部分組合せCfが示す全ての単語及び単語riと単語xjとが出現する記事データの数をカウントし、これらのカウント数をそれぞれ合計記事数で除算することにより、p(Cf,xj)、p(ri,xj)、p(Cf,ri)、p(Cfri,xj)を算出する。
Further, the analogy result validity
なお、式(10)〜式(12)に用いられるp(Cf)、p(xj)、p(ri)、p(Cf,xj)、p(ri,xj)、p(Cf,ri)、p(Cfri,xj)を、記事記憶装置5に記憶される記事データに基づいて算出した確率としているが、記事集合Eに含まれる記事データに出現する確率としてもよい。この場合、類推結果妥当性スコア算出部29は、記事記憶部5に記憶されている記事データに代えて、記事集合Eに含まれる記事データを用い、上記と同様にp(Cf)、p(xj)、p(ri)、p(Cf,xj)、p(ri,xj)、p(Cf,ri)、p(Cfri,xj)を算出する。
Note that p (C f ), p (x j ), p (r i ), p (C f , x j ), p (r i , x j ), and p (r i , x j ), which are used in the equations (10) to (12), p (C f , r i ) and p (C f r i , x j ) are the probabilities calculated based on the article data stored in the
出力部16は、類推結果生成部28が処理結果記憶部14に書き込んだ類推結果集合Xが示す各単語xjと、類推結果妥当性スコア算出部29が書き込んだ当該単語xjの類推結果妥当性スコアscore(xj)とからなる類推結果データをディスプレイに表示させるなどして出力する(ステップS245)。このとき、出力部16は、類推結果妥当性スコアが閾値以上の単語xjとその類推結果妥当性スコアscore(xj)のみを出力するようにしてもよく、類推結果妥当性スコアが高い順に所定数の単語xjとその類推結果妥当性スコアscore(xj)のみを出力してもよい。
続いて、図4に示すステップS145における単語rの抽出処理、図5に示すステップS235における単語xの抽出処理の詳細な処理手順を説明する。以下では、2つの抽出処理について示しているが、事例や類推の対象に応じていずれを用いてもよい。ここでは、簡単のため、状況A、結果B、状況Cとも3次元のワードベクトルであり、抽出単語数n、hが2である場合を例にして説明する。 Next, a detailed processing procedure of the word r extraction process in step S145 shown in FIG. 4 and the word x extraction process in step S235 shown in FIG. 5 will be described. In the following, two extraction processes are shown, but any of them may be used according to the case or the target of analogy. Here, for the sake of simplicity, a case will be described in which the situation A, the result B, and the situation C are three-dimensional word vectors, and the number of extracted words n and h is 2.
この場合、図4のステップS105において、状況Aのワードベクトル(ta1,ta2,ta3)から部分組合せA1(ta1,ta2)、A2(ta1,ta3)、A3(ta2,ta3)が生成され、ステップS110において、結果Bのワードベクトルから部分組合せB1(wb1,wb2)、B2(wb1,wb3)、B3(wb2,wb3)が生成される。従って、ステップS135においては、組合せA1−B1,A1−B2,A1−B3、A2−B1,A2−B2,A2−B3、A3−B1,A3−B2,A3−B3が生成される。 In this case, in step S105 of FIG. 4, partial combinations A 1 (t a1 , t a2 ), A 2 (t a1 , t a3 ), A 3 from the word vector (t a1 , t a2 , t a3 ) of the situation A (T a2 , t a3 ) is generated, and in step S110, partial combinations B 1 (w b1 , w b2 ), B 2 (w b1 , w b3 ), B 3 (w b2 , w) are generated from the word vector of the result B. b3 ) is generated. Therefore, in step S135, the combinations A 1 -B 1 , A 1 -B 2 , A 1 -B 3 , A 2 -B 1 , A 2 -B 2 , A 2 -B 3 , A 3 -B 1 , A 3 -B 2 and A 3 -B 3 are generated.
(抽出処理1):記事データは、自然言語で記述された文書のテキストデータである。ステップS145において、関係集合生成部24は、記事集合Dに含まれる記事データd1、d2、…が示す文書の形態素解析を行う。関係集合生成部24は、形態素解析の結果を参照し、部分組合せAlが示すn個の単語が主語に含まれ、かつ、部分組合せBkが示すh個の単語が述部にある名詞として含まれている文から、部分組合せAlが示すn個の単語と部分組合せBkが示すh個の単語を関係づける述部の動詞を単語rとして抽出する。
また、ステップS235において、類推結果生成部28は、記事集合Eに含まれる記事データe1、e2、…が示す文書の形態素解析を行う。類推結果生成部28は、形態素解析の結果を参照し、部分組合せCfが示すn個の単語が主語に含まれ、かつ、単語riが述部の動詞として含まれている文から、述部にある名詞を単語xとして抽出する。
(Extraction process 1): The article data is text data of a document described in a natural language. In step S145, the relation set
In step S235, the analogy
図6は、ステップS140における単語rの抽出処理を説明するための図である。同図においては、ステップS135において部分組合せA1(サメ,マグロ)及び部分組合せB1(ひれ,尾)の組合せが選択されている例を示している。関係集合生成部24は、記事データd1が示す文「サメやマグロのような魚類は,ひれや尾を使って高速に泳ぐことができる。」の主語は部分組合せA1が示す単語「サメ」及び「マグロ」であり、述部にある名詞は部分組合せB1が示す単語「ひれ」及び「尾」であるため、当該文の述部の動詞「泳ぐ」を単語r1として抽出する。また、関係集合生成部24は、記事データd2が示す文「サメやマグロのような魚類は,ひれや尾を使って広範囲を移動することができる。」の主語は部分組合せA1が示す単語「サメ」及び「マグロ」であり、述部にある名詞は部分組合せB1が示す単語「ひれ」及び「尾」であるため、当該文の述部の動詞「移動する」を単語r2として抽出する。
FIG. 6 is a diagram for explaining the extraction process of word r in step S140. In the figure, an example is shown in which a combination of partial combination A 1 (shark, tuna) and partial combination B 1 (fin, tail) is selected in step S135. The relation set
このように、2以上の単語からなる部分組合せを利用することによって、1つの単語を用いる場合よりも、目的とする関係を高精度に抽出することができる。部分組合せに含まれる単語数が多いほどより正確な関係を示す単語を抽出することが可能となるが、関係の抽出対象となる文は減少する。 In this way, by using a partial combination composed of two or more words, it is possible to extract a target relationship with higher accuracy than in the case of using one word. As the number of words included in the partial combination increases, it becomes possible to extract words indicating a more accurate relationship, but the number of sentences from which relationships are extracted decreases.
図7は、ステップS235における単語xの抽出処理を説明するための図である。同図は、ステップS230において組合せの一方として部分組合せC1(ライオン,オオカミ)が選択された場合について示している。類推結果生成部28は、記事集合Eに含まれるいずれの記事データからも、部分組合せC1が示す単語「ライオン」及び「オオカミ」が主語に含まれ、かつ、単語r1「泳ぐ」が述部の動詞である文を含む文は検出されなかったとする。一方、類推結果生成部28は、記事集合Eに含まれる記事データe1が示す文「ライオンやオオカミなどは足を使って広範囲を移動する必要があり…」の主語は部分組合せC1が示す単語「ライオン」及び「オオカミ」であり、述部の動詞は単語r2「移動する」であるため、当該文の述部にある名詞「足」を単語x1として抽出する。
FIG. 7 is a diagram for explaining the word x extraction processing in step S235. This figure shows a case where the partial combination C 1 (lion, wolf) is selected as one of the combinations in step S230. The analogy
(抽出処理2):記事データは、自然言語で記述された文書のテキストデータであり、記事記憶装置5は、分野別の辞書データ(コーパス)をさらに記憶している。また、状況A、結果B、関係集合Rは、特定の分野の用語とする。さらに、図4のステップS100において、類推装置1の入力部12は、さらに、分野を示す情報の入力を受ける。
(Extraction process 2): The article data is text data of a document described in a natural language, and the
図4のステップS145において、関係集合生成部24は、入力された分野の情報に対応した辞書データを特定し、部分組合せAlが示すn個の単語と、部分組合せBkが示すh個の単語が含まれる文から、特定された辞書データに登録されている単語を単語rの候補r’として抽出する。抽出された候補r’をそれぞれ、候補r1’、r2’…とする。関係集合生成部24は、抽出した候補ry’(y=1、2、…)と、部分組合せAl、部分組合せBkそれぞれとの関連の強さに基づいて関係を表す単語としての妥当性を示す値を以下の式(13)により算出する。但し、MI(Al,ry’)は、部分組合せAlと候補ry’との相互情報量、MI(Bk,ry’)は、部分組合せBkと候補ry’との相互情報量である。なお、相互情報量MI(Al,ry’)、相互情報量MI(Bk,ry’)は、単語riの代わりに候補ry’を用いることにより、式(6)、式(7)と同様に算出される。
In step S145 of FIG. 4, the relation set
スコア(ry’)=MI(Al,ry’)+MI(Bk,ry’) …(13) Score (r y ′) = MI (A 1 , r y ′) + MI (B k , r y ′) (13)
関係集合生成部24は、算出した値が、関連が強いと判断する所定の条件以上である候補r’を、単語rとして選択する。
また、ステップS230において、類推結果生成部28は、部分組合せCfが示すn個の単語と、単語riが含まれる文から、入力された分野の情報に対応した辞書データに登録されている単語を単語xとして抽出する。
The relation set
In step S230, the analogy
図8は、単語r及び単語xの抽出処理を説明するための図である。同図においては、分野の情報がコンピュータであり、ステップS140において部分組合せA1(画像,写真)及び部分組合せB1(GIF,JPEG)の組合せが選択されている場合の例について示している。記事データd1が示す文「画像や写真の圧縮には、GIF、JPEGなどのファイル形式が使えます。」には、部分組合せA1が示す単語「画像」及び「写真」と、部分組合せB1が示す単語「GIF」及び単語「JPEG」が含まれている。関係集合生成部24は、分野の情報からコンピュータ辞書データを特定し、この文に含まれる単語のうち、コンピュータ辞書データに登録されている「圧縮」、「ファイル形式」を候補r1’、r2’として抽出する。関係集合生成部24は、これらの抽出した候補r1’、r2’について、上記の式(13)によりスコアを算出した結果、候補r1’「圧縮」は単語rとして選択せず、候補r2’「ファイル形式」を単語r1として選択する。
FIG. 8 is a diagram for explaining extraction processing of the word r and the word x. This figure shows an example in which the field information is a computer and the combination of the partial combination A 1 (image, photograph) and the partial combination B 1 (GIF, JPEG) is selected in step S140. The sentence “article or file compression such as GIF or JPEG can be used for compression of images and photos” shown in the article data d 1 includes the words “image” and “photo” indicated by the partial combination A 1 and the partial combination B. 1 includes the word “GIF” and the word “JPEG”. The relation set
類推結果生成部28は、ステップS230において部分組合せC1(音楽,会話)と単語r1「ファイル形式」の組合せが選択されている場合、部分組合せC1が示す単語「音楽」及び「会話」、ならびに、単語r1「ファイル形式」が含まれる文から、記事記憶装置5が記憶しているコンピュータ辞書データに登録されている「MP3」を単語x1として抽出する。
When the combination of the partial combination C 1 (music, conversation) and the word r 1 “file format” is selected in step S230, the analogy
[第2の実施形態]
続いて、本発明の他の実施形態を説明する。
第1の実施形態では、式(4)に示したように、ベースとなる事例である「A:B」は一対のみ存在し、この事例によりターゲットの状況Cから結果Xを求めていた。つまり、第1の実施形態において、類推装置1は、多次元一事例における四項類推の処理をおこなっていた。一方、本実施形態では、「A:B」で示されるベースの事例が複数存在する場合にターゲットの状況Cから結果Xを求める、多次元多事例の四項類推の処理を考える。これを、式(4)で示したmodus ponensと同じ表現方法で記述すると、以下の式(14)のようになる。
[Second Embodiment]
Subsequently, another embodiment of the present invention will be described.
In the first embodiment, as shown in Expression (4), there is only one pair of “A: B” as a base example, and the result X is obtained from the situation C of the target by this example. That is, in the first embodiment, the
上記のように、本実施形態では、事例がN個(Nは2以上の整数)あり、各事例を事例(I)とする(Iは2以上N以下の整数)。事例(I)は、ベースの状況A(I)と、ベースの状況A(I)での結果B(I)とからなる。本実施形態の類推装置は、A(I):B(I)を用いて、状況Cに対応する結果Xを求める。 As described above, in this embodiment, there are N cases (N is an integer of 2 or more), and each case is referred to as a case (I) (I is an integer of 2 to N). Case (I) includes a base situation A (I) and a result B (I) in the base situation A (I). The analogy device of this embodiment calculates | requires the result X corresponding to the situation C using A (I): B (I).
なお、状況A(I)は、m個(mは2以上の整数)の単語taI1,taI2,…,taImを要素とするm次元ワードベクトルであり、ターゲットの状況Cも、第1の実施形態と同様のm次元ワードベクトルである。また、結果B(I)は、g個(gは2以上の整数)の単語wbI1,wbI2,…,wbIgを要素とするg次元ワードベクトルであり、ターゲットの結果Xも、第1の実施形態と同様のg次元ワードベクトルである。 The situation A (I) is an m-dimensional word vector having m words (m is an integer of 2 or more) words t aI1 , t aI2 ,..., T aIm , and the target situation C is also the first This is the same m-dimensional word vector as in the embodiment. Further, the result B (I) is a g-dimensional word vector having g (where g is an integer of 2 or more) words w bI1 , w bI2 ,..., W bIg as elements, and the target result X is also the first This is the same g-dimensional word vector as in the embodiment.
図9は、本実施形態による類推装置の動作概要を示す図である。
本実施形態では、事例が多事例であるため、以下の式(15)のように表わすことができる。
FIG. 9 is a diagram showing an outline of the operation of the analogy device according to the present embodiment.
In this embodiment, since there are many cases, it can be expressed as the following equation (15).
A(I):B(I)=C:X(I)? (Iは2以上N以下の整数) ・・・(15) A (I): B (I) = C: X (I)? (I is an integer not less than 2 and not more than N) (15)
同図に示すように、本実施形態の類推装置は、各事例(I)について第1の実施形態の類推装置1と同様の関係抽出処理を行なうことによって、状況A(I)の部分組合せと結果B(I)の部分組合せとの関係を示す単語の集合である関係集合R(I)を生成する。本実施形態の類推装置は、各関係集合R(I)について第1の実施形態の類推装置1と同様に関係マッピング処理を行なうことによって、類推結果集合X(I)を生成し、類推結果妥当性スコアを算出する。本実施形態の類推装置は、類推結果集合X(1)〜X(N)を統合し、重複する単語xがある場合は、重複を削除する。重複削除後の類推結果妥当性スコアは、重複する単語xについての類推結果妥当性スコアを合計した値である。
As shown in the figure, the analogy device of the present embodiment performs a relationship extraction process similar to that of the
図10は、本発明の第2の実施形態による類推装置1aの構成を示すブロック図である。同図において、図3に示す第1の実施形態による類推装置1と同一の部分には同一の符号を付し、その説明を省略する。図10に示す類推装置1aが、図3に示す第1の実施形態の類推装置1と異なる点は、事例記憶部11に代えて事例記憶部11aを備える点、類推処理制御部17及び類推結果積算部18を備える点である。
FIG. 10 is a block diagram showing the configuration of the analogy device 1a according to the second embodiment of the present invention. In this figure, the same parts as those in the
事例記憶部11aは、状況A(I)のワードベクトルを示す状況A(I)データ(ベース状況データ)と、結果B(I)のワードベクトルを示す結果B(I)データ(ベース結果データ)とからなる事例(I)を記憶する。類推処理制御部17は、第1の実施形態と同様の処理を事例記憶部11aに記憶されている事例(1)〜事例(N)について処理を行なうよう関係抽出部13及び関係マッピング部15に指示する。類推結果積算部18は、各事例(I)について得られた類推結果の単語xの集合を示すデータである類推結果X(I)を統合する。
The
図11及び図12は、図10に示す類推装置1aの処理フローを示す図である。
類推装置1aの事例記憶部11aは、状況A(I)データと結果B(I)データとからなる事例(I)を記憶している(Iは2以上N以下の整数)。状況A(I)データは、m個(mは2以上の整数)の単語taI1,taI2,…,taImを要素とするm次元ワードベクトルを示す(mは2以上の整数)。結果B(I)データは、g個(gは2以上の整数)の単語wbI1,wbI2,…,wbIgを要素とするg次元ワードベクトルを示す。また、処理結果記憶部14は、初期値NULLの記事集合D、記事集合E、関係集合R(I)、類推結果集合X(I)を記憶する。
11 and 12 are diagrams showing a processing flow of the analogy device 1a shown in FIG.
The
図11において、類推装置1aの入力部12は、図4に示す第1の実施形態のステップS100と同様に、状況Cデータの入力を受ける(ステップS300)。類推処理制御部17は、事例記憶部11aに記憶されている事例(I)のうち、まだ処理対象としていない事例(I)を選択する(ステップS305)。類推処理制御部17は、選択した事例(I)についての処理を実行するよう、関係抽出部13に指示する。これにより、関係抽出部13は、類推処理制御部17により選択された事例(I)の状況A(I)データ、結果B(I)データを事例記憶部11から読み出し、第1の実施形態における状況Aデータ、結果Bデータの代わりに用いて、図4に示す第1の実施形態におけるステップS105〜S155と同様の処理を実行する(ステップS310〜S360)。これにより、事例(I)についての関係集合Rと、関係集合Rに含まれる各単語riの関係妥当性スコアscore(ri)が得られる。事例(I)を用いて得られた関係集合Rを関係集合R(I)とし、関係集合Rに含まれる単語r1、r2、…をそれぞれ単語rI1、rI2、…とし、単語riについて算出された関係妥当性スコアscore(ri)を、関係妥当性スコアscore(rIi)とする。これらのデータは、事例(I)の識別情報と対応づけて処理結果記憶部14に書き込まれる。
In FIG. 11, the
類推処理制御部17は、事例記憶部11aに記憶されている事例(I)に、まだ処理対象としていない事例(I)があるかを判断する。まだ処理対象としていない事例(I)があると判断した場合(ステップS365:NO)、類推処理制御部17は、ステップS305からの処理を繰り返す。類推処理制御部17が全ての事例(I)を処理対象としたと判断した場合(ステップS365:YES)、関係マッピング部15を起動する。
The analogy
図12において、ターゲット状況部分組合せ生成部26は、図5に示す第1の実施形態のステップS200と同様に、状況Cデータが示すワードベクトルから部分組合せCf(1≦f≦mCn、fは整数)を生成し、処理結果記憶部14に書き込む(ステップS300)。
In FIG. 12, the target situation partial
類推処理制御部17は、まだ関係マッピング部15における処理対象としていない事例(I)を特定する(ステップS305)。類推処理制御部17は、特定した事例(I)についての処理を実行するよう、関係マッピング部15に指示する。これにより、関係マッピング部15は、類推処理制御部17により選択された事例(I)の識別情報と対応付けて処理結果記憶部14に記憶されている関係集合R(I)及び関係妥当性スコアscore(rIi)を読み出し、第1の実施形態における関係集合R、関係妥当性スコアscore(ri)の代わりに用いて、図5に示す第1の実施形態におけるステップS210〜S245の処理を実行する(ステップS415〜S440)。これにより類推結果集合Xと、類推結果集合Xに含まれる各単語xjの類推結果妥当性スコアscore(xj)が得られる。事例(I)に対応した関係集合R(I)及び関係妥当性スコアscore(rIj)を用いて得られたこの類推結果集合Xを類推結果集合X(I)とし、類推結果集合Xに含まれる単語x1、x2、…をそれぞれ単語xI1、xI2、…とし、単語xjについて算出された類推結果妥当性スコアscore(xj)を、関係妥当性スコアscoreI(xIj)とする。これらのデータは、事例(I)の識別情報と対応づけて処理結果記憶部14に書き込まれる。
The analogy
類推処理制御部17は、まだ関係マッピング部15における処理対象としていない事例(I)があるかを判断する。まだ処理対象としていない事例(I)があると判断した場合(ステップS455:NO)、類推処理制御部17は、ステップS405からの処理を繰り返す。類推処理制御部17が全ての事例(I)を処理対象としたと判断した場合(ステップS455:YES)、類推結果積算部18を起動する。
The analogy
類推結果積算部18は、以下に示す式(16)のように、処理結果記憶部14から読み出した類推結果集合X(1)〜(N)を統合したデータである統合類推結果集合Xを生成する。
The analogy
X=ΣI X(I) (I=1〜N) …(16) X = Σ I X (I) (I = 1~N) ... (16)
類推結果積算部18は、類推結果集合X(1)〜(N)に含まれる単語xIjに重複があれば一つの単語のみを残して重複をなくし、重複をなくした単語xIjの集合を示すデータである統合類推結果集合Xを生成する。統合類推結果集合Xに含まれる単語をx1、x2、…とする。
The analogy
続いて、類推結果積算部18は、以下の式(17)により、統合類推結果集合Xに含まれる各単語xjの類推結果妥当性スコアを算出する。ただし、scoreI(xj)は、事例(I)について得られた単語xjの類推結果妥当性スコアである。
Subsequently, analogy
score(xj)=ΣI scoreI(xj) …(17) score (x j ) = Σ I score I (x j ) (17)
つまり、統合類推結果集合Xに含まれる単語xjの類推結果妥当性スコアは、当該単語xjに統合された単語xIjの類推結果妥当性スコアscoreI(xIj)を積算した値である。類推結果積算部18は、統合類推結果集合Xに含まれる単語xj及び当該単語xjの類推結果妥当性スコアscore(xj)を処理結果記憶部14に書き込む(ステップS460)。
That analogy result relevance score of a word x j included in the integrated analogy result set X is the analogy results Relevance Score score I value obtained by integrating (x Ij) word x Ij integrated in the word x j . The analogy
出力部16は、ステップS445において類推結果積算部18が処理結果記憶部14に書き込んだ統合類推結果集合Xが示す各単語xj及び当該単語xjの類推結果妥当性スコアscore(xj)とからなる類推結果データをディスプレイに表示させるなどして出力する(ステップS465)。このとき、出力部16は、類推結果妥当性スコアが閾値以上の単語xjのみを出力するようにしてもよく、類推結果妥当性スコアが高い順に所定数の単語xjのみを出力してもよい。
The
上述した実施形態では、記事記憶装置5を第1の実施形態の類推装置1、第2の実施形態の類推装置1aとネットワークを介して接続される外部の装置としているが、類推装置1、類推装置1aが記事記憶装置5を内部に備える構成としてもよい。
また、上述した実施形態では、記事集合D、Eを、記事データの集合としているが、記事データが記憶されているURL(Universal Resource Locator)や記事データのデータ名など、記事データの識別情報を示すデータでもよい。この場合、類推装置1及び類推装置1aは、記事集合D、Eに含まれる記事データの識別情報で特定される記事記憶装置5内の記事データを参照し、上述した処理を実行する。
また、上述した実施形態では、状況A、状況A(1)〜状況A(N)と状況Cのワードベクトルの次元数が同じ場合について説明したが、状況A、状況A(1)〜状況A(N)の次元数と状況Cのワードベクトルの次元数とが異なっていてもよい。また、状況A(1)〜状況A(N)のワードベクトルの次元数は全て同一でなくともよい。また、結果B(1)〜結果B(N)のワードベクトルの次元数は全て同一でなくともよい。
In the embodiment described above, the
In the above-described embodiment, the article sets D and E are set of article data. However, the article data identification information such as a URL (Universal Resource Locator) where the article data is stored and the data name of the article data is used. It may be the data shown. In this case, the
In the above-described embodiment, the situation A, situation A (1) to situation A (N) and situation C have the same number of word vectors. However, situation A, situation A (1) to situation A The number of dimensions of (N) and the number of dimensions of the word vector of situation C may be different. Further, the number of dimensions of the word vectors in the situations A (1) to A (N) may not be the same. Further, the number of dimensions of the word vectors of the results B (1) to B (N) may not be the same.
上述した類推装置1及び類推装置1aは、内部にコンピュータシステムを有している。そして、類推装置1の関係抽出部13、関係マッピング部15及び出力部16、ならびに、類推装置1aの関係抽出部13、関係マッピング部15、出力部16、類推処理制御部17及び類推結果積算部18の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
1、1a…類推装置
11、11a…事例記憶部
12…入力部
13…関係抽出部
14…処理結果記憶部
15…関係マッピング部
16…出力部
17…類推処理制御部
18…類推結果積算部
21…ベース状況部分組合せ生成部
22…ベース結果部分組合せ生成部
23…ベース共起記事検索部
24…関係集合生成部
25…妥当性スコア算出部
26…ターゲット状況部分組合せ生成部
27…ターゲット共起記事検索部
28…類推結果生成部
29…類推結果妥当性スコア算出部
5…記事記憶装置
DESCRIPTION OF
Claims (7)
ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成部と、
前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成部と、
ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成部と、
前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成部と、
を備えることを特徴とする類推装置。 A base situation partial combination generation unit that generates base situation partial combination data composed of a predetermined number of words selected from a plurality of words indicated by the base situation data, and
A base result partial combination generation unit that generates base result partial combination data composed of a predetermined number of words selected from a plurality of words indicated by the base result data;
The word indicated by the base situation partial combination data and the word indicated by the base result partial combination data are associated with each different combination of one of the base situation partial combination data and one of the base result partial combination data. A relation set generation unit that extracts association words that are words from article data stored in the article storage device;
A target situation partial combination generation unit that generates target situation partial combination data composed of a predetermined number of words selected from a plurality of words indicated by the target situation data;
For each different combination of one of the target situation partial combination data and one of the association words, a word related to the word indicated by the target situation partial combination data by the association word is stored in the article storage device. An analogy result generation unit that extracts as analogy results from the posted article data,
An analogy device comprising:
前記類推結果生成部が類推結果として抽出した前記単語のそれぞれについて、前記記事記憶装置に記憶されている前記記事データから得られる当該単語と前記ターゲット状況部分組合せデータ及び前記関連付け単語の共起との関連の強さ、当該単語と前記ターゲット状況部分組合せデータとの関連の強さ、及び、当該単語と前記関連付け単語との関連の強さ、ならびに、前記関連付け単語について算出された前記関係妥当性スコアに基づき、類推結果としての妥当性を定量的に表す類推結果妥当性スコアを算出する類推結果妥当性スコア算出部と、
をさらに備えることを特徴とする請求項1に記載の類推装置。 For each of the association words extracted by the relation set generation unit, co-occurrence of the association word obtained from the article data stored in the article storage device, the base situation partial combination data, and the base result partial combination data The relation between the situation and the result based on the strength of the relation, the strength of the relation between the related word and the base situation partial combination data, and the strength of the relation between the related word and the base result partial combination data A relation validity score calculation unit for calculating a relation validity score that quantitatively represents validity as a word to perform,
For each of the words extracted as an analogy result by the analogy result generation unit, the word obtained from the article data stored in the article storage device, the co-occurrence of the target situation partial combination data, and the association word Strength of association, strength of association between the word and the target situation partial combination data, strength of association between the word and the association word, and the relation validity score calculated for the association word An analogy result validity score calculation unit for calculating an analogy result validity score that quantitatively represents the validity as an analogy result,
The analogy device according to claim 1, further comprising:
前記事例データ毎に得られた前記類推結果の単語に含まれる同一の単語を統合するとともに、統合した前記同一の単語について算出された前記類推結果妥当性スコアを積算する類推結果積算部とをさらに備える、
ことを特徴とする請求項2に記載の類推装置。 For each of a plurality of case data composed of base situation data and base result data, the base situation partial combination generation unit generates base situation partial combination data from the base situation data constituting the case data, and the base result partial combination The generation unit generates the base result partial combination data from the base result data constituting the case data, and the relation set generation unit has one of the base situation partial combination data generated from the base situation data and , For each different combination consisting of one of the base result partial combination data generated from the base result data, the association word is extracted from the article data, and the relation validity score calculation unit makes the relation validity for each of the association words Generate sex score and generate analogy result In addition, the analogy result word is extracted from the article data for each different combination of one of the target situation partial combination data and one of the association words, and the analogy result validity score calculation unit extracts the analogy result as an analogy result An analogy processing control unit for calculating an analogy result validity score for each of the words
An analogy result accumulating unit that integrates the same words included in the analogy result words obtained for each case data and accumulates the analogy result validity scores calculated for the integrated same words Prepare
The analogy device according to claim 2, wherein:
前記類推結果生成部は、前記ターゲット状況部分組合せデータが示す複数の単語が主語の名詞かつ前記関連付け単語が述部の動詞である前記記事データの文から、述部の名詞を類推結果として抽出する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の類推装置。 The relation set generation unit obtains a predicate verb from the sentence of the article data in which the word indicated by the base situation partial combination data is a subject noun and the word indicated by the base result partial combination data is a predicate noun. Extract as related words,
The analogy result generation unit extracts a predicate noun as an analogy result from a sentence of the article data in which a plurality of words indicated by the target situation partial combination data are subject nouns and the association word is a predicate verb ,
The analogy device according to any one of claims 1 to 3, characterized in that:
前記関係集合生成部は、前記ベース状況部分組合せデータにより示される単語及び前記ベース結果部分組合せデータにより示される単語が共起する前記記事データの文から、前記辞書データに含まれる単語を前記関連付け単語として抽出し、
前記類推結果生成部は、前記ターゲット状況部分組合せデータにより示される単語及び前記関連付け単語が共起する前記記事データの文から、前記辞書データに含まれる単語を類推結果として抽出する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の類推装置。 The article storage device further stores dictionary data including words related to a predetermined field,
The relation set generation unit converts a word included in the dictionary data from the sentence of the article data in which the word indicated by the base situation partial combination data and the word indicated by the base result partial combination data co-occurs. Extract as
The analogy result generation unit extracts a word included in the dictionary data as an analogy result from a sentence of the article data in which the word indicated by the target situation partial combination data and the association word co-occur.
The analogy device according to any one of claims 1 to 3, characterized in that:
ベース状況部分組合せ生成部が、ベース状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース状況部分組合せデータを生成するベース状況部分組合せ生成過程と、
ベース結果部分組合せ生成部が、ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成過程と、
関係集合生成部が、前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成過程と、
ターゲット状況部分組合せ生成部が、ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成過程と、
類推結果生成部が、前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成過程と、
を有することを特徴とする類推方法。 An analogy method performed by an analogy device,
A base situation partial combination generation process in which a base situation partial combination generation unit generates base situation partial combination data including a predetermined number of words selected from a plurality of words indicated by the base situation data by different combinations;
A base result partial combination generation process in which a base result partial combination generation unit generates base result partial combination data composed of a predetermined number of words selected from a plurality of words indicated by the base result data;
The relation set generation unit includes a word indicated by the base situation partial combination data and the base result partial combination data for each different combination of one of the base situation partial combination data and one of the base result partial combination data. A relation set generation process for extracting an association word, which is a word relating to a word to be shown, from article data stored in the article storage device;
A target situation partial combination generation unit that generates target situation partial combination data including a predetermined number of words selected by different combinations from a plurality of words indicated by the target situation data; and
The analogy result generation unit, for each different combination consisting of one of the target situation partial combination data and one of the association words, a word related to the word indicated by the target situation partial combination data by the association word, An analogy result generation process for extracting as analogy results from the article data stored in the article storage device;
An analogy method characterized by comprising:
ベース状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース状況部分組合せデータを生成するベース状況部分組合せ生成部、
ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成部、
前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成部、
ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成部、
前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成部、
として機能させることを特徴とするプログラム。 A computer used as an analogy device
A base situation partial combination generation unit for generating base situation partial combination data composed of a predetermined number of words selected from different words indicated by the base situation data;
A base result partial combination generation unit that generates base result partial combination data composed of a predetermined number of words selected from a plurality of words indicated by the base result data.
The word indicated by the base situation partial combination data and the word indicated by the base result partial combination data are associated with each different combination of one of the base situation partial combination data and one of the base result partial combination data. A relation set generation unit that extracts association words, which are words, from article data stored in an article storage device;
A target situation partial combination generation unit that generates target situation partial combination data composed of a predetermined number of words selected from a plurality of words indicated by the target situation data;
For each different combination of one of the target situation partial combination data and one of the association words, a word related to the word indicated by the target situation partial combination data by the association word is stored in the article storage device. An analogy result generator that extracts as analogy results from the article data
A program characterized by functioning as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011018787A JP5569908B2 (en) | 2011-01-31 | 2011-01-31 | Analogue device, analogy method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011018787A JP5569908B2 (en) | 2011-01-31 | 2011-01-31 | Analogue device, analogy method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012159983A true JP2012159983A (en) | 2012-08-23 |
JP5569908B2 JP5569908B2 (en) | 2014-08-13 |
Family
ID=46840474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011018787A Expired - Fee Related JP5569908B2 (en) | 2011-01-31 | 2011-01-31 | Analogue device, analogy method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5569908B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6224856B1 (en) * | 2017-02-21 | 2017-11-01 | ヤフー株式会社 | Providing device, providing method, and providing program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6101490A (en) * | 1991-07-19 | 2000-08-08 | Hatton; Charles Malcolm | Computer system program for creating new ideas and solving problems |
JP2010134844A (en) * | 2008-12-08 | 2010-06-17 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus, method and program for analysis of inter-phrase relationship, and computer-readable recording medium with the program recorded thereon |
-
2011
- 2011-01-31 JP JP2011018787A patent/JP5569908B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6101490A (en) * | 1991-07-19 | 2000-08-08 | Hatton; Charles Malcolm | Computer system program for creating new ideas and solving problems |
JP2010134844A (en) * | 2008-12-08 | 2010-06-17 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus, method and program for analysis of inter-phrase relationship, and computer-readable recording medium with the program recorded thereon |
Non-Patent Citations (4)
Title |
---|
CSNG200900584008; 加藤 誠 他: '関係の類似性に基づくWebからのオブジェクト名検索' 情報処理学会論文誌 データベース Vol.2 No.2[CD-ROM] , 20091115, pp.110-125, 社団法人情報処理学会 * |
CSNJ201010081001; Nguyen Tuan Duc 他: '単語ペア間の潜在的関係を利用する関係検索エンジン' 第72回(平成22年)全国大会講演論文集(5) , 20100308, 5-255〜5-256, 社団法人情報処理学会 * |
JPN6014019681; Nguyen Tuan Duc 他: '単語ペア間の潜在的関係を利用する関係検索エンジン' 第72回(平成22年)全国大会講演論文集(5) , 20100308, 5-255〜5-256, 社団法人情報処理学会 * |
JPN6014019682; 加藤 誠 他: '関係の類似性に基づくWebからのオブジェクト名検索' 情報処理学会論文誌 データベース Vol.2 No.2[CD-ROM] , 20091115, pp.110-125, 社団法人情報処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6224856B1 (en) * | 2017-02-21 | 2017-11-01 | ヤフー株式会社 | Providing device, providing method, and providing program |
JP2018136721A (en) * | 2017-02-21 | 2018-08-30 | ヤフー株式会社 | Distribution system, distribution method and distribution program |
Also Published As
Publication number | Publication date |
---|---|
JP5569908B2 (en) | 2014-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885692B (en) | Knowledge data storage method, apparatus, computer device and storage medium | |
WO2019136993A1 (en) | Text similarity calculation method and device, computer apparatus, and storage medium | |
JP7360497B2 (en) | Cross-modal feature extraction method, extraction device, and program | |
WO2020062770A1 (en) | Method and apparatus for constructing domain dictionary, and device and storage medium | |
US11232141B2 (en) | Method and device for processing an electronic document | |
WO2020143184A1 (en) | Knowledge fusion method and apparatus, computer device, and storage medium | |
US11741157B2 (en) | Propagating multi-term contextual tags to digital content | |
CN110795527B (en) | Candidate entity ordering method, training method and related device | |
CN107908698B (en) | Topic web crawler method, electronic device, storage medium and system | |
KR20130056207A (en) | Relational information expansion device, relational information expansion method and program | |
US11023473B2 (en) | Recurrent binary embedding for information retrieval | |
CN110390106B (en) | Semantic disambiguation method, device, equipment and storage medium based on two-way association | |
CN112000783B (en) | Patent recommendation method, device and equipment based on text similarity analysis and storage medium | |
WO2011134141A1 (en) | Method of extracting named entity | |
CN112395875A (en) | Keyword extraction method, device, terminal and storage medium | |
WO2021007159A1 (en) | Identifying entity attribute relations | |
CN111339778B (en) | Text processing method, device, storage medium and processor | |
JP6017277B2 (en) | Program, apparatus and method for calculating similarity between contents represented by set of feature vectors | |
CN117435685A (en) | Document retrieval method, document retrieval device, computer equipment, storage medium and product | |
JP5569908B2 (en) | Analogue device, analogy method and program | |
JPWO2012077818A1 (en) | Method for determining transformation matrix of hash function, hash type approximate nearest neighbor search method using the hash function, apparatus and computer program thereof | |
WO2015125209A1 (en) | Information structuring system and information structuring method | |
CN113962221A (en) | Text abstract extraction method and device, terminal equipment and storage medium | |
CN113868424A (en) | Text theme determining method and device, computer equipment and storage medium | |
CN111930880A (en) | Text code retrieval method, device and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140520 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5569908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |