JP2015200962A - Inter-document relation extraction device and program - Google Patents
Inter-document relation extraction device and program Download PDFInfo
- Publication number
- JP2015200962A JP2015200962A JP2014078012A JP2014078012A JP2015200962A JP 2015200962 A JP2015200962 A JP 2015200962A JP 2014078012 A JP2014078012 A JP 2014078012A JP 2014078012 A JP2014078012 A JP 2014078012A JP 2015200962 A JP2015200962 A JP 2015200962A
- Authority
- JP
- Japan
- Prior art keywords
- relationship
- keyword
- word
- pair
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、自然言語処理の技術分野に属するものであり、文書間関係抽出装置およびそのプログラムに関する。 The present invention belongs to the technical field of natural language processing, and relates to an inter-document relationship extraction apparatus and a program thereof.
文書間の関係を抽出する技術において、従来は、文書に含まれる単語を手掛かりとして、文書間に「同等」の関係があるか否かを判定したり、文書間に「推移」の関係かあるか否かを判定したりする技術が提案されている。非特許文献1には、文書を横断して、文間の「同等」を特定するモデルと、文間の「推移」を特定するモデルとが記載されている。
In the technology for extracting the relationship between documents, conventionally, it is determined whether there is an “equivalent” relationship between documents using a word contained in the document, or there is a “transition” relationship between documents. Techniques for determining whether or not are proposed. Non-Patent
文書間の関係については、「同等」関係や「推移」関係だけではなく、他の様々な関係を抽出できるようにすることが望まれる。本発明は、このような事情を考慮してなされたものであり、文書間における、「同等」関係や「推移」関係以外の関係も抽出することのできる文書間関係抽出装置およびプログラムを提供するものである。 Regarding the relationship between documents, it is desirable to be able to extract not only “equivalent” relationship and “transition” relationship, but also various other relationships. The present invention has been made in consideration of such circumstances, and provides an inter-document relationship extraction apparatus and program capable of extracting relationships other than “equivalent” relationships and “transition” relationships between documents. Is.
上記の課題を解決するための手段として、文書間関係抽出装置およびプログラムは、2つの文書のそれぞれから、重要な複数のキーワードを抽出し、大量の文書集合から自動獲得した単語間関係辞書を利用してキーワード間の最適な関係を推定する。これにより、2つの文書間の関係を推定する。 As means for solving the above problems, the inter-document relationship extraction apparatus and program extract a plurality of important keywords from each of two documents and use a word-to-word relationship dictionary automatically acquired from a large collection of documents. To estimate the optimal relationship between keywords. This estimates the relationship between the two documents.
[1]本発明の一態様による文書間関係抽出装置は、入力された文書から前記文書の複数のキーワードを抽出するとともに前記文書における各々の前記キーワードの重要度を示すスコアを出力するキーワード抽出部と、2つの前記文書からそれぞれ抽出された2つのキーワードの対に関して、単語の対と前記単語間の関係とを表すデータを保持する単語間関係辞書記憶部から読み出した単語間の関係に基づいて、前記キーワードの対が直接の関係を有する場合、または前記キーワードの対が共通の他の単語との間で直接の関係を有する場合に、そのキーワードの対をキーワード対として出力するキーワード対生成部と、前記キーワード対生成部が出力した前記キーワード対に関して、前記単語間関係辞書記憶部から読み出した単語間の関係に基づいて、前記キーワード対が直接の関係を有する場合には当該関係を出力するとともに、前記キーワード対が共通の他の単語との間で直接の関係を有する場合には当該他の単語および当該キーワード対に含まれる前記キーワードから当該他の単語への関係を出力する、キーワード間関係抽出部と、を具備する。 [1] An inter-document relationship extraction device according to an aspect of the present invention extracts a plurality of keywords of the document from an input document and outputs a score indicating the importance of each of the keywords in the document Based on the relationship between the words read from the inter-word relationship dictionary storage unit that holds data representing the word pairs and the relationship between the words, for the two keyword pairs extracted from the two documents, respectively. When the keyword pair has a direct relationship, or when the keyword pair has a direct relationship with another common word, the keyword pair generation unit outputs the keyword pair as a keyword pair And the relationship between the words read from the inter-word relationship dictionary storage unit with respect to the keyword pair output by the keyword pair generation unit. Therefore, when the keyword pair has a direct relationship, the relationship is output. When the keyword pair has a direct relationship with another common word, the other word and the keyword are output. An inter-keyword relationship extraction unit that outputs a relationship from the keyword included in the pair to the other word.
[2]また、本発明の一態様は、上記の文書間関係抽出装置において、前記キーワード間関係抽出部は、前記キーワード対が有する関係のうち、前記単語間関係辞書記憶部に出現する数が最も少ない関係を、最適な関係として出力する、ことを特徴とする。 [2] Further, according to one aspect of the present invention, in the inter-document relationship extracting apparatus, the inter-keyword relationship extracting unit includes a number of occurrences in the inter-word relationship dictionary storage unit among the relationships of the keyword pairs. It is characterized by outputting the least relationship as the optimum relationship.
[3]また、本発明の一態様は、上記の文書間関係抽出装置において、前記キーワード対生成部によって生成されたキーワード対と、前記キーワード対に関して前記キーワード間関係抽出部によって出力される前記関係と、を含む説明文データを生成する説明生成部、をさらに具備する。 [3] Further, according to one aspect of the present invention, in the inter-document relationship extraction device, the keyword pair generated by the keyword pair generation unit and the relationship output by the keyword relationship extraction unit with respect to the keyword pair And a description generation unit that generates description text data including.
[4]また、本発明の一態様は、コンピューターを、入力された文書から前記文書の複数のキーワードを抽出するとともに前記文書における各々の前記キーワードの重要度を示すスコアを出力するキーワード抽出部、2つの前記文書からそれぞれ抽出された2つのキーワードの対に関して、単語の対と前記単語間の関係とを表すデータを保持する単語間関係辞書記憶部から読み出した単語間の関係に基づいて、前記キーワードの対が直接の関係を有する場合、または前記キーワードの対が共通の他の単語との間で直接の関係を有する場合に、そのキーワードの対をキーワード対として出力するキーワード対生成部、前記キーワード対生成部が出力した前記キーワード対に関して、前記単語間関係辞書記憶部から読み出した単語間の関係に基づいて、前記キーワード対が直接の関係を有する場合には当該関係を出力するとともに、前記キーワード対が共通の他の単語との間で直接の関係を有する場合には当該他の単語および当該キーワード対に含まれる前記キーワードから当該他の単語への関係を出力する、キーワード間関係抽出部、として機能させるためのプログラムである。 [4] Further, according to one aspect of the present invention, a keyword extracting unit that extracts a plurality of keywords of the document from an input document and outputs a score indicating the importance of each of the keywords in the document; Based on the relationship between the words read from the inter-word relationship dictionary storage unit that holds data representing the word pair and the relationship between the words, for the two keyword pairs extracted from the two documents, A keyword pair generation unit that outputs a keyword pair as a keyword pair when the keyword pair has a direct relationship, or when the keyword pair has a direct relationship with another common word; The keyword pair output by the keyword pair generation unit is based on the relationship between words read from the inter-word relationship dictionary storage unit. When the keyword pair has a direct relationship, the relationship is output, and when the keyword pair has a direct relationship with another common word, the other word and the keyword pair are output. Is a program for functioning as an inter-keyword relationship extraction unit that outputs a relationship from the keyword included in the other word to the other word.
本発明によれば、2つの文書がどのような関係を持つかを推定し、出力できる。 According to the present invention, it is possible to estimate and output the relationship between two documents.
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による文書間関係抽出装置の概略機能構成を示すブロック図である。図示するように、文書間関係抽出装置1は、文書取得部10と、キーワード抽出部11と、キーワード対生成部12と、キーワード間関係抽出部13と、説明生成部14と、単語間関係辞書記憶部21と、単語共起辞書記憶部22と、を含んで構成される。
Next, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a schematic functional configuration of the inter-document relationship extracting apparatus according to the present embodiment. As shown in the figure, the inter-document
文書取得部10は、外部から文書データを取得する。文書取得部10は、少なくとも2つの文書データを取得する。後の処理では、それらの2つの文書間での関係を表す情報が抽出される。文書データは、例えば、いわゆるテキストファイルの形式を有している。
キーワード抽出部11は、入力された文書から、その文書の複数のキーワードを抽出するとともに、その文書における各キーワードの重要度を示すスコアを出力するものである。具体的には、キーワード抽出部11は、文書取得部10が取得した文書データのうちの2つの文書データそれぞれから、複数のキーワードを抽出する。そして、キーワード抽出部11は、各文書に対応して、キーワード集合のデータを出力する。
The
The
キーワード対生成部12は、2つの文書からそれぞれ抽出された2つのキーワードの対に関して、単語間関係辞書記憶部21から読み出した単語間の関係に基づいて、キーワードの対が直接の関係を有する場合、またはキーワードの対が共通の他の単語との間で直接の関係を有する場合に、そのキーワードの対をキーワード対として出力する。つまり、キーワード対生成部12は、キーワード抽出部11によって抽出された、2つの文書データに対応するキーワード集合のそれぞれから、1つずつキーワードを取り出し、両文書間のキーワード対のデータを生成する。
When the keyword
キーワード間関係抽出部13は、キーワード対生成部12が出力したキーワード対に関して、単語間関係辞書記憶部21から読み出した単語間の関係に基づいて、そのキーワード対が直接の関係を有する場合には当該関係を出力するとともに、そのキーワード対が共通の他の単語との間で直接の関係を有する場合には当該他の単語および当該キーワード対に含まれるキーワードから当該他の単語への関係を出力するものである。つまり、キーワード間関係抽出部13は、キーワード対生成部12が生成したキーワード対に対して、その対をなすキーワード間の関係を抽出する処理を行う。なお、キーワード間関係抽出部13は、この処理の際に、単語間関係辞書記憶部21のほかに、単語共起辞書記憶部22を参照する。
When the keyword pair has a direct relationship based on the relationship between words read from the word relationship
説明生成部14は、キーワード対抽出部によって抽出されたキーワード対と、キーワード対に関してキーワード間関係抽出部によって出力される関係と、を含む説明文データを生成する。言い換えれば、説明生成部14は、キーワード間関係抽出部13が抽出した関係と、そのキーワードとを利用して、元の2つの文書データ間の関係を説明する文を生成する処理を行う。
The
単語間関係辞書記憶部21は、単語の対とその2つの単語間の関係とを表すデータを保持するものである。ここで、単語間の関係とは、例えば、類似関係、因果関係、上位下位関係、属性関係などである。単語間の関係を表す辞書データは、ウェブにおけるテキストデータを元に予め獲得しておく。テキストデータを元に単語間の関係を自動的に獲得するためには、既存技術に属するものである単語間関係獲得ツールなどを利用することができる。
単語間関係辞書のデータについては、後で図6を参照しながら説明する。
なお、単語間関係辞書記憶部21を文書間関係抽出装置1内に設ける代わりに、文書間関係抽出装置1の外部の装置として単語間関係辞書記憶部21の機能を有する装置を設けても良い。この場合には、文書間関係抽出装置1と単語間関係記憶部21との間で、有線または無線の通信媒体を介した通信を行えるようにする。これにより、文書間関係抽出装置1は、単語間関係辞書記憶部21から必要なデータを取得する。
The inter-word relationship
The data in the inter-word relationship dictionary will be described later with reference to FIG.
Instead of providing the inter-word relationship
単語共起辞書記憶部22は、単語間の共起関係を辞書データとして保持するものである。ここで、共起関係のデータとは、2単語の共起頻度に基づく類似性を表すデータであり、一例としては、Dice係数などである。このような共起頻度のデータを得るためには、例えば、ウェブにおけるテキストデータなどを対象として、2つの単語が同一文中で共起した回数をカウントし、カウント結果に基づいてDice係数等の値を予め算出しておくようにする。また、既に公開されている単語共起頻度データベースのデータなどを利用することもできる。
単語共起辞書のデータについては、後で図7を参照しながら説明する。
The word co-occurrence
The data of the word co-occurrence dictionary will be described later with reference to FIG.
次に、文書間関係抽出装置1の全体の処理手順について説明する。
図2は、文書間関係抽出装置1の全体的な処理の流れを示すフローチャートである。以下では、このフローチャートに沿って、説明する。このフローチャートでは、2つの文書データ(文書1および文書2)を入力し、それらの文書の間の関係を抽出する処理を示している。なお、3つ以上の文書データを入力し、それらのうちの2つの文書の間の関係を抽出するようにしても良い。
Next, an overall processing procedure of the inter-document
FIG. 2 is a flowchart showing an overall processing flow of the inter-document
まずステップS1−1において、キーワード抽出部11は、文書1および文書2のそれぞれからn個(nは正整数)のキーワードを抽出する。文書1および文書2は、予め文書取得部10によって取得されているものである。キーワード抽出部11は、それぞれの文書にとって重要なn個の単語をキーワードとして抽出する。文書から重要なキーワードを抽出する処理自体は、従来技術を用いて実施することができる。キーワード抽出部11が抽出するキーワード集合は、元の文書の特徴をよく表すキーワードの集合である。そのためには、キーワード抽出部11は、例えばTFIDFの値を基準として、各文書から上位n個のキーワードを抽出する。TFIDFは、単語の出現頻度(Term Frequency)と逆文書頻度(Inverse Document Frequency)との積である。なお、キーワード抽出部11は、各文書につきn個のキーワードを出力するとともに、各キーワードの重要さを表す重みの値を出力する。この重みの値としては、TFIDF値そのものを用いても良いし、TFIDF値と順序関係が整合するような他の重み値を用いても良い。
First, in step S1-1, the
次にステップS1−2において、キーワード対生成部12は、キーワード抽出部11によって抽出された1文書あたりn個のキーワードと、各キーワードに関連付けられた重み値とに基づいて、キーワード対を生成する処理を行う。
その処理の結果、キーワード対生成部12は、N個(Nは正整数)のキーワード対を生成する。Nの値は予め設定可能とする。一例として、N=4を予め設定しておく。また、キーワード対生成部12は、各々のキーワード対のランクスコアを算出する。なお、このキーワード対生成部12による処理の詳細な手順については後述する(図3参照)。
Next, in step S1-2, the keyword
As a result of the processing, the keyword
次にステップS1−3において、キーワード間関係抽出部13は、キーワード対生成部12によって生成されたN個のキーワード対のそれぞれに対して、キーワード間の関係を抽出する処理を行う。このとき、キーワード間関係抽出部13は、キーワード対生成部12の処理において算出された各キーワード対のランクスコアを用いる。
Next, in step S <b> 1-3, the inter-keyword
ここで、キーワード間関係抽出部13による出力は、次の2パターンのうちのいずれかである。第1のパターンは、キーワード対を構成する2つのキーワードが直接的な関係を有する場合であり、このとき、キーワード間関係抽出部13は、そのキーワード対と、その関係名を出力する。第2のパターンは、キーワード対を構成する2つのキーワードのそれぞれが、ある共通単語と直接的な関係を有する場合であり、このとき、キーワード間関係抽出部13は、そのキーワード対と、その共通単語と、そのキーワードとその共通単語とをつなぐ関係名とを出力する。
Here, the output by the keyword
重要な(ランクの高い)キーワード対を元に、キーワード間関係抽出部13によって抽出され、出力される関係が、2つの文書の関係を表す。
Based on important (high-ranked) keyword pairs, the relationship extracted and output by the keyword
次にステップS1−4において、説明生成部14は、各々のキーワード対に対応する説明文を生成する。
Next, in step S1-4, the
具体的には、説明生成部14は、各関係について、「○○つながり」というパターンによる文言を出力する。また、スコアを出力する。キーワード対を構成する2つのキーワードを直接つなぐ関係名が得られる場合には、説明生成部14は、「○○つながり」という出力パターンの「○○」をその関係名で置換する。キーワード対を構成する2つのキーワードのそれぞれと同一の関係を持つ共通単語がえら得る場合には、説明生成部14は、「○○つながり」という出力パターンの「○○」をその共通単語で置換する。
Specifically, the
さらに、説明生成部14は、あらかじめ記述して記憶しておいたテンプレートデータを用いて、補助的な説明となる文を生成する。
Further, the
例えば、キーワード間関係抽出部13からの出力が、キーワード対と、それらのキーワードを直接つなぐ関係名である場合は、説明生成部14が用いるテンプレートは、「<キーワードb>は<キーワードa>の<関係名>」というものである。このテンプレートにおいて、<キーワードb>と<キーワードa>と<関係名>とは、適宜、具体的な単語や関係名で置き換えられる部分である。
具体的には、例えば、キーワードaが「脳卒中」であり、キーワードbが「動脈硬化」であり、それらを直接つなぐ関係名が「原因」の場合、説明生成部14は、「原因つながり。動脈硬化は脳卒中の原因。」という出力を生成する。
For example, when the output from the inter-keyword
Specifically, for example, when the keyword a is “stroke”, the keyword b is “arteriosclerosis”, and the relation name that directly connects them is “cause”, the
また、キーワード間関係抽出部13からの出力が、キーワード対と、共通単語と、そのキーワードとその共通単語との間の関係名である場合は、説明生成部14が用いるテンプレートは、その関係名に依り異なるものである。
具体的には、例えば、キーワードaが「脳卒中」であり、キーワードbが「心不全」であり、これらのキーワードと関係を有する共通単語が「疾患」であり、キーワードと共通単語の関係名がともに「上位語」の場合は、説明生成部14は、「疾患つながり。脳卒中
は心不全と同じ上位語(疾患)を持つ。」と出力する。
なお、説明生成部14による出力の例は、後で、図5を参照しながら、説明する。
If the output from the keyword
Specifically, for example, the keyword a is “stroke”, the keyword b is “heart failure”, the common word related to these keywords is “disease”, and the relation name between the keyword and the common word is both In the case of “higher term”, the
An example of output by the
次に、装置内の主要な処理部の処理について説明する。
図3は、キーワード対生成部12がキーワード対を生成する処理の詳細を示すフローチャートである。ここでは、キーワード対生成の処理の元となる文書のペアを、文書aおよび文書bと呼ぶ。そして、キーワード対を生成する処理を行うための、キーワード対生成部12への入力は、文書aから抽出したキーワード集合{wa1,wa2,・・・wan}とその重みのデータ、および文書bから抽出したキーワード集合{wb1,wb2,・・・wbn}とその重みのデータである。これらの入力データは、キーワード抽出部11の処理の結果として得られる。
Next, processing of main processing units in the apparatus will be described.
FIG. 3 is a flowchart showing details of a process in which the keyword
まずステップS2−1において、キーワード対生成部12は、文書aから抽出したキーワード集合と文書bから抽出したキーワード集合から、それぞれ1個のキーワードwaiとwbjとを抽出し、これらによるキーワード対候補(wai,wbj)を生成する。このとき、各々のキーワード集合からのキーワードの選択のしかたは任意である。
First, in step S2-1, the keyword
次にステップS2−2において、キーワード対生成部12は、キーワードwaiとwbjの各々に付与された重みにより文書中でのランクを求め、このランクの和をキーワード対候補(wai,wbj)の重みrank_score(i,j)とする。つまり、rank_score(i,j)=ranka(i)+rankb(j)である。ここで、ranka(i)は、文書aにおけるキーワードwaiのランクである。また、rankb(j)は、文書bにおけるキーワードwbjのランクである。例えば、キーワードwaiが文書aにおいて最も大きな重みを持つキーワードであり、且つ、キーワードwbjが文書bにおいて最も大きな重みを持つキーワードである場合、ranka(i)=1、且つ、rankb(j)=1である。この場合、rank_score(i,j)=ranka(i)+rankb(j)=1+1=2である。
Next, in step S2-2, the keyword
次にステップS2−3において、キーワード対生成部12は、生成するキーワード対をカウントするための変数countAを1にセットする。この変数のためには、例えば、半導体メモリの所定の領域を割り当てる。
In step S2-3, the keyword
次にステップS2−4において、キーワード対生成部12は、ステップS2−1で生成したキーワード対候補をすべて処理したか否かを判定する。すべて処理し終えている場合(ステップS2−4:YES)には、このフローチャート全体の処理を終了する。すべてを処理し終えていない場合(ステップS2−4:NO)には、次のステップS2−5に移る。
Next, in step S2-4, the keyword
ステップS2−5に進んだ場合には、同ステップにおいてキーワード対生成部12は、残っているキーワード対の中から1つのキーワード対を処理対象として選択する。このとき、キーワード対生成部12は、rank_score(i,j)の昇順に選択する。つまり、キーワード対生成部12は、rank_score(i,j)の値の小さいものを優先して(言い換えれば、ランクの高いキーワード対を優先して)、処理対象のキーワード対を処理対象として選択する。なお、同じランクスコア値のキーワード対が複数存在する場合、キーワード間関係抽出部13は、下に列挙する優先順(a)〜(e)のいずれかにより、処理対象となるキーワード対を決定する。優先順とは即ち、(a)キーワード対を構成する2個のキーワードのうちのいずれか一方の元の文書におけるランクの値が小さい順、言い換えれば、キーワード対を構成する2個のキーワードのそれぞれの元の文書におけるランクの、最小値の値が小さい順。(b)キーワード対を構成する2個のキーワードのそれぞれの元の文書におけるランクの差の絶対値が小さい順。(c)疑似乱数等によりランダムに決定される順。(d)上記(a)と上記(c)の組み合わせ。(e)上記(b)と上記(c)の組み合わせ。
When the process proceeds to step S2-5, the keyword
次にステップS2−6において、キーワード対生成部12は、処理対象のキーワード対の両者が直接関係を持つか、または、キーワード対の両者がある共通の単語との間で関係を持つかを判定する。そのいずれかの条件に該当する場合(ステップS2−6:YES)には、次のステップS2−7に進む。処理対象のキーワード対がいずれの条件にも該当しない場合(ステップS2−6:YES)には、次のキーワード対候補の処理のために、ステップS2−4に戻る。なお、本ステップにおいて単語と単語とが関係を有するか否かを判定するために、キーワード対生成部12は、単語間関係辞書記憶部21を参照する。単語間関係辞書記憶部21は、ある単語と別の単語とがどのような関係を有するかを表す情報を記憶する。関係とは、例えば、類似関係、因果関係、上位下位関係、属性関係などである。
Next, in step S2-6, the keyword
例えば、単語間関係辞書記憶部21は、下の(1)および(2)のような関係を表すデータを含んでいる。
(1)脳卒中 − [関係:因果関係] − 動脈硬化
(2)心筋梗塞 − [関係:因果関係] − 動脈硬化
つまり、「脳卒中」と「動脈硬化」とが「因果関係」を有しており、且つ、「心筋梗塞」と「動脈硬化」とが「因果関係」を有している。このとき、次の通りである。即ち、例えば、「脳卒中」と「動脈硬化」とは直接関係を有する。また、例えば、「脳卒中」と「心筋梗塞」とは、それぞれ、「動脈硬化」という共通の単語との間で関係(因果関係)を有する。
For example, the inter-word relationship
(1) Stroke-[Relation: causal]-Arteriosclerosis (2) Myocardial infarction-[Relation: causal]-Arteriosclerosis In other words, "stroke" and "arteriosclerosis" have a "causal relationship" In addition, “myocardial infarction” and “arteriosclerosis” have a “causal relationship”. At this time, it is as follows. That is, for example, “stroke” and “arteriosclerosis” have a direct relationship. Further, for example, “stroke” and “myocardial infarction” have a relationship (causal relationship) with a common word “arteriosclerosis”, respectively.
次にステップS2−7に進んだ場合、同ステップおいて、キーワード対生成部12は、現在処理中のキーワード対の候補を、キーワード対の一つとして出力に追加する。言い換えれば、キーワード対生成部12は、候補であるキーワードの対が、直接の関係を有する場合、または、共通の単語との間で関係を有する場合に、その対を、キーワード対の一つとして生成する。
When the process proceeds to step S2-7, the keyword
そして、ステップS2−8において、キーワード対生成部12は、変数countAの値に1を加算することによって、この変数を更新する。
前述の通り、この変数countAは生成するキーワード対をカウントするためのものであり、ここで1を加算することは、上のステップS2−7においてキーワード対が1つ生成されることに対応している。
次にステップS2−9において、キーワード対生成部12は、変数countAの値がNより大きいか否かを判定する。つまり、countA>Nの不等式が成立するか否かを判定する。Nの値は、前述の通りである。変数countAの値がNより大きい場合(ステップS2−9:YES)には、このフローチャート全体の処理を終了する。その時点で、キーワード対生成部12は、N個のキーワード対を出力済である。変数countAの値がN以下である場合(ステップS2−9:NO)には、次のキーワード対候補の処理のために、ステップS2−4に戻る。
In step S2-8, the keyword
As described above, this variable countA is for counting the keyword pairs to be generated, and adding 1 here corresponds to the fact that one keyword pair is generated in step S2-7 above. Yes.
Next, in step S2-9, the keyword
上記の一連の処理により、キーワード対生成部12は、キーワード対候補の中から、ランクのより高いキーワード対を優先して、且つ、所定の関係(ステップS2−6の判定がYESとなるような関係)を満たすN個のキーワード対を出力する。ただし、そのようなキーワード対候補がN個に満たない場合には、キーワード対生成部12は、N個未満のキーワード対を出力する(ステップS2−4における判定結果がYESの場合)。また、キーワード対生成部12は、出力したキーワード対にそれぞれ対応するランクスコアrank_score(i,j)の値を出力する。
Through the series of processes described above, the keyword
図4は、キーワード間関係抽出部13がキーワード間の関係を抽出する処理の詳細を示すフローチャートである。この処理の前提として、キーワード間関係抽出部13は、キーワード対生成部12が出力したキーワード対集合と、キーワード対のランクスコアを取得する。以下、フローチャートに沿って説明する。
FIG. 4 is a flowchart showing details of the process in which the keyword
まずステップS3−1において、キーワード間関係抽出部13は、関係の出力数をカウントするための変数countBを1にセットする。この変数のために、例えば、半導体メモリの所定の領域を割り当てておく。
First, in step S3-1, the inter-keyword
次にステップS3−2において、キーワード間関係抽出部13は、取得したキーワード対の中から1つのキーワード対を処理対象として抽出する。このとき、キーワード間関係抽出部13は、未処理のキーワード対の集合の中から、ランクスコアの値の昇順に、キーワード対を選択して抽出する。つまり、キーワード間関係抽出部13は、ランクの高い順に、キーワード対を処理する。
Next, in step S3-2, the inter-keyword
次にステップS3−3において、キーワード間関係抽出部13は、前述の単語間関係辞書記憶部21を参照することにより、処理対象のキーワード対が直接関係を持つかどうかを判定する。そのキーワード対が直接関係を持つ場合(ステップS3−3:YES)にはステップS3−4に進む。そのキーワード対が直接関係を持たない場合(ステップS3−3:NO)にはステップS3−5に進む。
Next, in step S3-3, the inter-keyword
次にステップS3−4に進んだ場合、同ステップにおいて、キーワード間関係抽出部13は、処理対象のキーワード対に関する関係名のランキングを行い、最適な関係名を選択する。対象としているキーワード対が1個だけの関係を有する場合には、その関係名が最適な関係名である。一方で、対象としているキーワード対が複数の関係を持つ場合がある。一例として、「ターミネーター2」という単語と「ジェームズ・キャメロン」という単語との間には、2つの関係が存在する。第1の関係は映画作品と監督との関係である。第2の関係は映画監督と脚本家(ライター)との関係である。これらの関係は、単語間関係辞書のエントリーとして単語間関係辞書記憶部21が保持しているものである。ここで、特定のキーワード対に複数の関係名が存在するとき、キーワード間関係抽出部13は、それらの関係名のうち、単語間関係辞書全体に出現する数が最も少ない関係名を、最適な関係名として選択する。
Next, in the case of proceeding to step S3-4, in the same step, the inter-keyword
ただし、予め設定した数値Lよりも出現数が少ない関係名については、エラーとみなして、その関係名を選択しないようにしても良い。Lは、正の数であり、例えば、L=10とする。このように、出現数が少なすぎる関係名を除外するのは、そのような関係名が誤りによって単語間関係辞書に含まれている場合を考慮しているためである。 However, a relation name having a smaller number of appearances than the preset numerical value L may be regarded as an error and the relation name may not be selected. L is a positive number, for example, L = 10. The reason why relation names having a small number of appearances are excluded in this way is because a case where such relation names are included in the inter-word relation dictionary due to an error is taken into consideration.
次にステップS3−5に進んだ場合、対象のキーワード対は直接の関係を持たないものであるので、その対に含まれる2つのキーワードのそれぞれは、ある共通の単語との間で関係を有するものである。また、そのような共通単語が複数存在する場合もあり得る。同ステップにおいて、キーワード間関係抽出部13は、最適な関係名を選択する。例えば、キーワード「脳卒中」とキーワード「心筋梗塞」は、他の単語との間で、次に列挙する関係を持つ。
(1)脳卒中 − [関係:因果関係] − 動脈硬化
(2)心筋梗塞 − [関係:因果関係] − 動脈硬化
(3)脳卒中 − [関係:上位下位関係] − 病気
(4)心筋梗塞 − [関係:上位下位関係] − 病気
このとき、キーワード対「脳卒中」および「心筋梗塞」は、「因果関係」という関係を持つ「動脈硬化」という共通の単語を有する。また、同キーワード対は、「上位下位関係」という関係を持つ「病気」という共通の単語を有する。
Next, when the process proceeds to step S3-5, since the target keyword pair has no direct relationship, each of the two keywords included in the pair has a relationship with a certain common word. Is. There may be a plurality of such common words. In this step, the keyword
(1) Stroke-[Relation: Causal]-Arteriosclerosis (2) Myocardial infarction-[Relation: Causal]-Atherosclerosis (3) Stroke-[Relation: Higher and lower relations]-Sickness (4) Myocardial infarction-[ Relationship: Higher-Lower Relationship]-Disease At this time, the keyword pair “stroke” and “myocardial infarction” have a common word “arteriosclerosis” having a relationship of “causal relationship”. The keyword pair has a common word “disease” having a relationship of “upper and lower relations”.
上の(1)から(4)までの単語間関係は単語間関係辞書に登録されているため、キーワード間関係抽出部13は、キーワード「脳卒中」とキーワード「心筋梗塞」とが関係をもつ共通の単語として「動脈硬化」と「病気」を抽出する。
そして、キーワード間関係抽出部13は、対象のキーワード対に対する関係名をランキングし、最もふさわしい関係名を選択する。
Since the inter-word relationships (1) to (4) above are registered in the inter-word relationship dictionary, the inter-keyword
Then, the inter-keyword
例えば、キーワード間関係抽出部13は、文書aからのキーワードと共通単語との間の類似度と、文書bからのキーワードと共通単語との間の類似度との和を計算する。つまり、キーワード間関係抽出部13は、次の式に表す計算を行い、Score(脳卒中,心筋梗塞|動脈硬化)、および、Score(脳卒中,心筋梗塞|病気)の2つのスコアの値を得る。
For example, the keyword
Score(脳卒中,心筋梗塞|動脈硬化)=
dice(脳卒中,動脈硬化)+dice(心筋梗塞,動脈硬化) ・・・式1
Score(脳卒中,心筋梗塞|病気)=
dice(脳卒中,病気)+dice(心筋梗塞,病気) ・・・式2
これら2つの式のうちの前者は、「脳卒中」と「心筋梗塞」という単語ペアに関して、「動脈硬化」を共通単語としたときの関係名のスコアを表す。また、後者は、「脳卒中」と「心筋梗塞」という単語ペアに関して、「病気」を共通単語としたときの関係名のスコアを表す。また、dice(単語1,単語2)は、単語1と単語2との間のDice係数である。
Score (stroke, myocardial infarction | arteriosclerosis) =
disce (stroke, arteriosclerosis) + disce (myocardial infarction, arteriosclerosis)
Score (stroke, myocardial infarction | disease) =
dice (stroke, illness) + dice (myocardial infarction, illness) ・ ・ ・ Equation 2
The former of these two expressions represents the score of the relation name when “arteriosclerosis” is a common word for the word pair “stroke” and “myocardial infarction”. The latter represents the score of the relation name when “disease” is a common word for the word pair “stroke” and “myocardial infarction”. Further, dice (
そして、上の式1および式2による計算を行った結果として、例えば、
Score(脳卒中,心筋梗塞|動脈硬化)>Score(脳卒中,心筋梗塞|病気)
である場合、キーワード間関係抽出部13は、スコアの値が高いほうの「動脈硬化」を、「病気」よりも上位の共通単語としてランクする。共通単語が3つ以上ある場合にも、最もスコアの値が高い共通単語を、最上位にランクする。つまり、キーワード間関係抽出部13は、スコアの値の降順に共通単語をランキングする。
And as a result of having performed the calculation by the
Score (stroke, myocardial infarction | arteriosclerosis)> Score (stroke, myocardial infarction | disease)
In such a case, the inter-keyword
次に、キーワード間関係抽出部13は、キーワードと共通単語との関係名を特定する。最適な関係名を特定するためには、ステップS3−4における処理と同様に、キーワード間関係抽出部13は、単語間関係辞書における出現数が少ないほど適切な関係名であると判断する。つまり、キーワード間関係抽出部13は、最も高いランクの共通単語に関する、最も高いランクの関係名を選択する。ここにおいても、例外的に、単語間関係辞書における出現数がL個より少ない関係名は、選択から除外するようにしても良い。
Next, the inter-keyword
なお、このステップS3−5の処理において、キーワード間関係抽出部13は、単語共起辞書記憶部22を参照する。単語共起辞書記憶部22は、単語の共起頻度による類似度のデータを保持している。類似度のデータの一例は、Dice係数である。上記の式1や式2で示すスコアを計算する際に、キーワード間関係抽出部13は、単語共起辞書記憶部22からDace係数のデータを読みだして使用する。
なお、単語共起辞書記憶部22の構成については、後で図7を参照しながら、説明する
In the process of step S3-5, the inter-keyword
The configuration of the word co-occurrence
ステップS3−4またはS3−5の処理の後、ステップS3−7に移る。このステップS3−7おいて、キーワード間関係抽出部13は、全キーワード対の処理が完了したか否かを判定する。全キーワード対を処理済みの場合(ステップS3−7:YES)には、このフローチャート全体の処理を終了する。残っているキーワード対がある場合(ステップS3−7:NO)には、次のステップS3−8に進む。
After step S3-4 or S3-5, the process proceeds to step S3-7. In step S3-7, the inter-keyword
次にステップS3−8において、キーワード間関係抽出部13は、ステップS3−4またはS3−5で処理した関係数を、変数countBに加算する。
Next, in step S3-8, the inter-keyword
そしてステップS3−9において、キーワード間関係抽出部13は、変数countBの値が予め設定された数値M以上であるか否かを判定する。countB≧Mである場合(ステップS3−9:YES)には、このフローチャート全体の処理を終了する。countB<Mである場合(ステップS3−9:NO)には、次のキーワード対を処理するためにステップS3−2に戻る。
In step S3-9, the inter-keyword
つまり、このフローチャートに示す処理の結果、キーワード間関係抽出部13は、キーワード対とそれらのキーワードを直接つなぐ関係名を出力し(ステップS3−4による処理の場合)、またはキーワード対と、関係する共通単語と、キーワードと共通単語とをつなぐ関係名とを出力する(ステップS3−5による処理の場合)。キーワード間関係抽出部13は、それらをキーワード対ごとに出力する。
また、キーワード間関係抽出部13は、与えられた全キーワード対の処理を終えた場合には、それらのキーワード対に対応する関係名をすべて出力して、このフローチャートに示す処理を終了する(ステップS3−7:YES)。また、キーワード間関係抽出部13は、処理した関係数が(M−1)個以上になったときには、与えられたキーワード対が残っていても、このフローチャートに示す処理を終了する(ステップS3−9:YES)
In other words, as a result of the processing shown in this flowchart, the inter-keyword
In addition, when all the given keyword pairs have been processed, the inter-keyword
図5は、文書間関係抽出装置1による処理結果の出力例を示す概略図である。図示するように、この例では、まず、抽出された上位10個の関係(関係1から関係10まで)を、そのスコアの降順に出力している。その後に、参考情報として、入力概要文のペア(入力概要文1と入力概要文2)と、それぞれの入力文から抽出されたキーワードの集合(キーワード1とキーワード2)とを出力している。関係1から関係10までの各々では、説明生成部14が生成した「○○つながり」というパターンの文言と、スコアと、補助的な説明文が、出力されている。図示する例では、関係1においては、「原因結果」という関係名を用いて「原因つながり」という文言が出力されている。また、関係2においては、「疾患」という共通単語(ここでは、上位語)を用いて「疾患つながり」という文言が出力されている。
FIG. 5 is a schematic diagram illustrating an output example of a processing result by the inter-document
図6は、単語間関係辞書記憶部21が記憶する単語間関係辞書の構成を示す概略図である。図示するように、単語間関係辞書は、ある単語(単語1)と他の単語(単語2)とがどのような関係を有するかを表すデータである。図示する例では、データの1行目は、単語1「脳卒中」と単語2「動脈硬化」とが因果関係を有することを表す。また、データの2行目は、単語1「心筋梗塞」と単語2「動脈硬化」とが因果関係を有することを表す。なお、この「因果関係」の例では、単語1と単語2とは非可換であり、単語1が結果を表し、単語2が原因を表す。データの3行目は、単語1「脳卒中」と単語2「病気」とが上位下位関係を有することを表す。データの4行目は、単語1「心筋梗塞」と単語2「病気」とが上位下位関係を有することを表す。この「上位下位関係」においても、単語1と単語2とは非可換であり、単語1が下位概念を表し、単語2が上位概念を表す。一実施形態として、単語間関係辞書記憶部21は、リレーショナルモデルによるテーブル(表)としてこのデータを記憶する。単語間の関係の種類としては、「因果関係」や「上位下位関係」のほかに、「類似関係」、「属性関係」などの各種があり得る。
また、単語間関係辞書は、データ項目として、説明文生成用の関係名をも有している。これは、説明生成部14がテンプレートに関係名をあてはめて説明文を生成するときに用いることを目的として保持しているデータである。図示する例では、単語間関係辞書は、「因果関係」に対応する説明文生成用の関係名として「原因」を保持している。また、単語間関係辞書は、「上位下位関係」に対応する説明文生成用の関係名として「上位語」を保持している。
FIG. 6 is a schematic diagram showing the configuration of the inter-word relationship dictionary stored in the inter-word relationship
The inter-word relation dictionary also has a relation name for generating an explanatory sentence as a data item. This is data held for the purpose of use when the
同図では4行のデータのみを示しているが、実際には、膨大な数の行のデータがこの単語間関係辞書に含まれる。なお、この単語間関係辞書にエントリーされていない単語ペアについて、両単語は直接の関係を有しないと言える。 Although only four lines of data are shown in the figure, actually, a huge number of lines of data are included in the inter-word relation dictionary. In addition, it can be said that about the word pair which is not entered in this word relationship dictionary, both words do not have a direct relationship.
なお、単語間関係辞書のデータは、予め人手で作成するようにしても良いし、既存技術を用いて大量のテキストから自動的に抽出するようにしても良い。
単語間関係を抽出する既存技術については、例えば、次の参考文献に記載されている。この技術では、例えばインターネットを通して獲得可能な事典データを元に、機械学習を用いて特定の関係を有する単語対を抽出する。
[参考文献:上位下位関係抽出ツール Version1.0, URL:http://alaginrc.nict.go.jp/hyponymy/,ダウンロード年月日:2013年12月27日]
Note that the inter-word relationship dictionary data may be created manually in advance, or may be automatically extracted from a large amount of text using existing technology.
The existing technique for extracting the relationship between words is described in the following reference, for example. In this technique, for example, word pairs having a specific relationship are extracted using machine learning based on encyclopedia data that can be acquired through the Internet.
[References: Higher-lower relationship extraction tool Version1.0, URL: http://alaginrc.nict.go.jp/hyponymy/, download date: December 27, 2013]
図7は、単語共起辞書記憶部22が記憶する単語共起辞書の構成を示す概略図である。図示するように、単語間関係辞書は、ある単語(単語1)と他の単語(単語2)との類似度の数値を表すデータである。ここでは、類似度としてDice係数の値を用いる。Dice係数は、大量の文書データを元に統計的な処理をすることにより自動的に求めることができる。単語共起辞書記憶部22は、リレーショナルモデルによるテーブル(表)としてこのデータを記憶するが、他のデータ形式で表現するようにしても良い。
FIG. 7 is a schematic diagram showing the configuration of the word co-occurrence dictionary stored in the word co-occurrence
なお、単語共起頻度についての既存のデータベースについては、例えば、下の参考文献に記載されている。このデータベースを構築するためには、ウェブページのテキストを元に、2つの単語対が共起する回数をカウントして、共起に関するスコアが算出されている。そのスコアとは、共起頻度、Dice係数、ディスカウンティング相互情報量である。なお、共起の条件はさまざまに設定されている。例えば、文書内の共起、近接4文内の共起、1文内の共起という条件で頻度がカウントされている。
[参考文献:(A−5)単語共起頻度データベース,URL:https://alaginrc.nict.go.jp/resources/nictmastar/li-resource-info/li-resource-outline.html,ダウンロード年月日:2013年12月27日]
In addition, about the existing database about word co-occurrence frequency, it describes in the following references, for example. In order to construct this database, the score for co-occurrence is calculated by counting the number of times two word pairs co-occur based on the text of the web page. The score is a co-occurrence frequency, a Dice coefficient, and a discounting mutual information amount. There are various conditions for co-occurrence. For example, the frequency is counted under the conditions of co-occurrence in a document, co-occurrence in four adjacent sentences, and co-occurrence in one sentence.
[Reference: (A-5) Word co-occurrence frequency database, URL: https://alaginrc.nict.go.jp/resources/nictmastar/li-resource-info/li-resource-outline.html, download date Date: December 27, 2013]
なお、上述した実施形態における文書間関係抽出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 Note that the function of the inter-document relationship extracting apparatus in the above-described embodiment may be realized by a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
本実施形態によれば、文書間の関係を抽出することができるため、ある文書との間で特定の関係を有する他の文書を特定することができる。よって、ある文書に関連した他の文書を推薦することができる。また、関係名が特定されるため、その推薦理由を明示することができる。文書がテレビ等の番組に対応付いているときには、ある番組に関連付いた他の番組を推薦することができる。文書が販売されている商品に対応づいているときには、ある商品に関連付いた他の商品を推薦することができる。また、それらの推薦の理由(関係名)を明示的に出力することができる。 According to the present embodiment, since a relationship between documents can be extracted, another document having a specific relationship with a certain document can be specified. Therefore, other documents related to a certain document can be recommended. Moreover, since the relationship name is specified, the reason for recommendation can be specified. When a document is associated with a program such as a television, another program associated with a program can be recommended. When a document is associated with a product for sale, other products associated with the product can be recommended. In addition, the reason for the recommendation (relationship name) can be explicitly output.
(変形例)なお、上記実施形態の変形例として、下記の態様による文書間関係抽出装置1を構成しても良い。つまり、上記実施形態では、キーワード対生成部12がN個のキーワード対を生成する処理(図3で説明した処理)をまず行い、その後に、生成されたキーワード対の集合を対象としてキーワード間関係抽出部13がキーワード間の関係を抽出する処理(図4で説明した処理)を行った。一方、本変形例では、キーワード対生成部12が、rank_score(i,j)の順に従って1個のキーワード対を生成する都度、そのキーワード対を対象として、キーワード間関係抽出部13がキーワード間の関係を抽出する。
具体的には、図3におけるステップS2−7の処理の箇所で、キーワード間関係抽出部13が、図4におけるステップS3−3、S3−4、S3−5に相当する処理を行う。また、それとともに、文書間関係抽出装置1の全体としての終了条件の判断および制御を行う。即ち、処理するキーワード対の数(変数countAでカウントする数)が上限値Nを超えたか否か、また、出力する関係数(変数countBでカウントする数)が上限値M以上になったか否かを、判断し、いずれかの上限に達した時点で、全体の処理を終了する。
(Modification) As a modification of the above embodiment, the inter-document
Specifically, the inter-keyword
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
本発明は、文書間の関係を抽出することができるため、ある文書との間で特定の関係を有する他の文書を特定することができる。したがって、ある文書との間で特定の関係を有する他の文書を検索するために利用することができる。さらに、例えばテレビ放送やラジオ放送やネット配信等の番組と文書とが対応づいている場合に、ある番組と特定の関係を有する他の番組を検索するためなどに利用することができる。したがって、本発明は、コンテンツ提供サービスにおけるコンテンツ推薦などに利用することができる。また、例えば通販サイトなどで販売されている商品等と文書とが対応づいている場合に、ある商品等と特定の関係を有する他の商品等を検索するためなどに利用することができる。したがって、本発明は、通販サイトなどにおける商品推薦などに利用することができる。 Since the present invention can extract a relationship between documents, another document having a specific relationship with a certain document can be specified. Therefore, it can be used to search for other documents having a specific relationship with a certain document. Further, for example, when a program such as a television broadcast, a radio broadcast, or an internet distribution is associated with a document, it can be used to search for another program having a specific relationship with a certain program. Therefore, the present invention can be used for content recommendation in a content providing service. For example, when a product sold on a mail order site or the like is associated with a document, it can be used to search for another product having a specific relationship with a certain product. Therefore, the present invention can be used for product recommendation on a mail order site or the like.
1 文書間関係抽出装置
10 文書取得部
11 キーワード抽出部
12 キーワード対生成部
13 キーワード間関係抽出部
14 説明生成部
21 単語間関係辞書記憶部
22 単語共起辞書記憶部
DESCRIPTION OF
Claims (4)
2つの前記文書からそれぞれ抽出された2つのキーワードの対に関して、単語の対と前記単語間の関係とを表すデータを保持する単語間関係辞書記憶部から読み出した単語間の関係に基づいて、前記キーワードの対が直接の関係を有する場合、または前記キーワードの対が共通の他の単語との間で直接の関係を有する場合に、そのキーワードの対をキーワード対として出力するキーワード対生成部と、
前記キーワード対生成部が出力した前記キーワード対に関して、前記単語間関係辞書記憶部から読み出した単語間の関係に基づいて、前記キーワード対が直接の関係を有する場合には当該関係を出力するとともに、前記キーワード対が共通の他の単語との間で直接の関係を有する場合には当該他の単語および当該キーワード対に含まれる前記キーワードから当該他の単語への関係を出力する、キーワード間関係抽出部と、
を具備することを特徴とする文書間関係抽出装置。 A keyword extracting unit that extracts a plurality of keywords of the document from the input document and outputs a score indicating the importance of each of the keywords in the document;
Based on the relationship between the words read from the inter-word relationship dictionary storage unit that holds data representing the word pair and the relationship between the words, for the two keyword pairs extracted from the two documents, A keyword pair generation unit that outputs a keyword pair as a keyword pair when the keyword pair has a direct relationship, or when the keyword pair has a direct relationship with another common word;
Regarding the keyword pair output by the keyword pair generation unit, when the keyword pair has a direct relationship based on the relationship between words read from the inter-word relationship dictionary storage unit, the relationship is output, When the keyword pair has a direct relationship with another common word, the relationship between the other word and the keyword contained in the keyword pair is output from the keyword to the other word. And
An inter-document relationship extracting apparatus comprising:
ことを特徴とする請求項1に記載の文書間関係抽出装置。 The inter-keyword relationship extraction unit outputs, as an optimal relationship, a relationship having the smallest number of occurrences in the inter-word relationship dictionary storage unit among the relationships of the keyword pair.
The inter-document relationship extracting device according to claim 1, wherein
をさらに具備することを特徴とする請求項1または2のいずれか一項に記載の文書間関係抽出装置。 An explanation generating unit that generates explanatory text data including the keyword pair generated by the keyword pair generating unit and the relationship output by the inter-keyword relationship extracting unit with respect to the keyword pair;
The inter-document relationship extracting apparatus according to claim 1, further comprising:
入力された文書から前記文書の複数のキーワードを抽出するとともに前記文書における各々の前記キーワードの重要度を示すスコアを出力するキーワード抽出部、
2つの前記文書からそれぞれ抽出された2つのキーワードの対に関して、単語の対と前記単語間の関係とを表すデータを保持する単語間関係辞書記憶部から読み出した単語間の関係に基づいて、前記キーワードの対が直接の関係を有する場合、または前記キーワードの対が共通の他の単語との間で直接の関係を有する場合に、そのキーワードの対をキーワード対として出力するキーワード対生成部、
前記キーワード対生成部が出力した前記キーワード対に関して、前記単語間関係辞書記憶部から読み出した単語間の関係に基づいて、前記キーワード対が直接の関係を有する場合には当該関係を出力するとともに、前記キーワード対が共通の他の単語との間で直接の関係を有する場合には当該他の単語および当該キーワード対に含まれる前記キーワードから当該他の単語への関係を出力する、キーワード間関係抽出部、
として機能させるためのプログラム。 Computer
A keyword extracting unit that extracts a plurality of keywords of the document from the input document and outputs a score indicating the importance of each of the keywords in the document;
Based on the relationship between the words read from the inter-word relationship dictionary storage unit that holds data representing the word pair and the relationship between the words, for the two keyword pairs extracted from the two documents, A keyword pair generation unit that outputs a keyword pair as a keyword pair when the keyword pair has a direct relationship, or when the keyword pair has a direct relationship with another common word;
Regarding the keyword pair output by the keyword pair generation unit, when the keyword pair has a direct relationship based on the relationship between words read from the inter-word relationship dictionary storage unit, the relationship is output, When the keyword pair has a direct relationship with another common word, the relationship between the other word and the keyword contained in the keyword pair is output from the keyword to the other word. Part,
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014078012A JP6296651B2 (en) | 2014-04-04 | 2014-04-04 | Document relationship extracting apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014078012A JP6296651B2 (en) | 2014-04-04 | 2014-04-04 | Document relationship extracting apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015200962A true JP2015200962A (en) | 2015-11-12 |
JP6296651B2 JP6296651B2 (en) | 2018-03-20 |
Family
ID=54552191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014078012A Active JP6296651B2 (en) | 2014-04-04 | 2014-04-04 | Document relationship extracting apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6296651B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984688A (en) * | 2018-07-03 | 2018-12-11 | 蜜芽宝贝(北京)网络科技有限公司 | Mother and baby's knowledge topic recommended method and device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0520362A (en) * | 1991-07-10 | 1993-01-29 | Tokyo Electric Power Co Inc:The | Automatic chaining generation system between document texts |
JP2010271819A (en) * | 2009-05-20 | 2010-12-02 | Nec Corp | Device, method, and program for extracting phrase relation |
JP2011180746A (en) * | 2010-02-26 | 2011-09-15 | National Institute Of Information & Communication Technology | Relational information expansion device, relational information expansion method and program |
US20110307485A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Extracting topically related keywords from related documents |
JP2014006802A (en) * | 2012-06-26 | 2014-01-16 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for estimating relation between documents, and program |
-
2014
- 2014-04-04 JP JP2014078012A patent/JP6296651B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0520362A (en) * | 1991-07-10 | 1993-01-29 | Tokyo Electric Power Co Inc:The | Automatic chaining generation system between document texts |
JP2010271819A (en) * | 2009-05-20 | 2010-12-02 | Nec Corp | Device, method, and program for extracting phrase relation |
JP2011180746A (en) * | 2010-02-26 | 2011-09-15 | National Institute Of Information & Communication Technology | Relational information expansion device, relational information expansion method and program |
US20110307485A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Extracting topically related keywords from related documents |
JP2014006802A (en) * | 2012-06-26 | 2014-01-16 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for estimating relation between documents, and program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984688A (en) * | 2018-07-03 | 2018-12-11 | 蜜芽宝贝(北京)网络科技有限公司 | Mother and baby's knowledge topic recommended method and device |
Also Published As
Publication number | Publication date |
---|---|
JP6296651B2 (en) | 2018-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Smirnova et al. | A user-oriented model for expert finding | |
JP2010055159A (en) | Information retrieval device, information retrieval method, and program | |
JP6640395B1 (en) | Information processing system and information processing method | |
CA2932401A1 (en) | Systems and methods for in-memory database search | |
JP2018156473A (en) | Analysis device, analysis method, and program | |
WO2020026366A1 (en) | Patent evaluation determination method, patent evaluation determination device, and patent evaluation determination program | |
JP5281104B2 (en) | Advertisement management apparatus, advertisement selection apparatus, advertisement management method, advertisement management program, and recording medium recording advertisement management program | |
JP2018195127A (en) | Incident management apparatus, incident management method, and computer program | |
US9058328B2 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
JP2009122940A (en) | Document relevance calculation system, document relevance calculation method and document relevance calculation program | |
JP5084796B2 (en) | Relevance determination device, relevance determination method, and program | |
JP2019139746A (en) | Information search system and method | |
JP2010055155A (en) | Server device, information processing method, and program | |
JP6296651B2 (en) | Document relationship extracting apparatus and program | |
JP5281105B2 (en) | Advertisement management apparatus, advertisement selection apparatus, advertisement management method, advertisement management program, and recording medium recording advertisement management program | |
US20190114372A1 (en) | System and method for determining contact names that may identify the same person | |
JP6144799B2 (en) | Method and system for providing search list and search word rank based on information database attached in search result | |
JP2019185620A (en) | Message processor and program | |
TWI735892B (en) | Search device, and search method | |
JP2013196385A (en) | Service controller, service control method and service control program | |
JP2018018428A (en) | Information processing device and program | |
JP5199968B2 (en) | Keyword type determination device, keyword type determination method, and keyword type determination program | |
JP2012243130A (en) | Information retrieval device, method and program | |
JP5792871B1 (en) | Representative spot output method, representative spot output device, and representative spot output program | |
JP5856905B2 (en) | Theme extraction device and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6296651 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |