JP4252038B2 - Paraphrase expression acquisition system, paraphrase expression acquisition method, and paraphrase expression acquisition program - Google Patents
Paraphrase expression acquisition system, paraphrase expression acquisition method, and paraphrase expression acquisition program Download PDFInfo
- Publication number
- JP4252038B2 JP4252038B2 JP2005002366A JP2005002366A JP4252038B2 JP 4252038 B2 JP4252038 B2 JP 4252038B2 JP 2005002366 A JP2005002366 A JP 2005002366A JP 2005002366 A JP2005002366 A JP 2005002366A JP 4252038 B2 JP4252038 B2 JP 4252038B2
- Authority
- JP
- Japan
- Prior art keywords
- context
- database
- word
- occurrence word
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、同じ意味内容を異なる表現で言い表す言い換え表現を、多数の文書よりなる文書集合から収集する技術に関わり、特に任意の2つの単語または単語列の間に存在する特定の関係を表す言い換え表現を獲得する技術に関する。 The present invention relates to a technique for collecting paraphrased expressions that express the same semantic content in different expressions from a document set consisting of a large number of documents, and in particular, paraphrases that express a specific relationship existing between any two words or word strings. It is related to technology to acquire expression.
ハードウェアの進歩により大規模な文書集合を扱うことが可能になり、人手により構築された言い換え表現のための知識に頼らず、文書集合から機械的に言い換え表現を獲得しようとする試みが提案されてきた。 Advances in hardware have made it possible to handle large document sets, and attempts have been made to acquire paraphrase expressions mechanically from document sets without relying on knowledge of paraphrase expressions constructed manually. I came.
機械的に言い換え表現を文書集合から獲得する方法として、同じ日の同じ出来事を伝える二つのコンパラブルなコーパスを用いて、対応が付けられた文同士を構文解析し、その出来事についてのキーとなる単語を手がかりとして言い換え表現を抽出する方法が提案されている(非特許文献1参照)。 As a method of mechanically acquiring paraphrasing expressions from a set of documents, two comparable corpus that convey the same event on the same day are used to parse the corresponding sentences, and the key word for the event A method of extracting a paraphrase expression using as a clue has been proposed (see Non-Patent Document 1).
また、文書集合を構文解析して得られたそれぞれの文の構造から動詞とその主語と目的語を得て、文書集合全体を対象として各々の動詞の持つ主語と目的語を収集し、任意の動詞間の主語と目的語についての相互情報量を計算することにより、類似した動詞を発見し、これを言い換え表現とする方法も提案されている(非特許文献2参照)。 In addition, the verb, the subject, and the object are obtained from the structure of each sentence obtained by parsing the document set, and the subject and object of each verb are collected for the entire document set. A method has also been proposed in which a similar verb is found by calculating the mutual information about the subject and object between verbs, and this is used as a paraphrase expression (see Non-Patent Document 2).
一方、特定の関係に限定した言い換え表現を獲得するために、収集したい言い換え表現が表す特定の関係にある既知の事例を用いて、文書集合からその関係を表す表現を収集する方法も提案されている(非特許文献3参照)。この方法では構文解析は行われず、指定された事例が多くの文書で共通して出現する表現を抜き出し、その表現が含まれる文を収集した後にその事例だけが高頻度で出現するものを選択することによって言い換え表現を獲得している。
従来の技術における構文解析を用いる方法では、構文解析の精度が十分に高くないとその後の言い換え表現の獲得の精度が大きく低下するという問題が存在する。また、構文解析を用いない方法では、獲得したい言い換え表現が表す特定の関係にある事例を事前に与える必要があり、どういう事例を与えるかによって結果が大きく左右されるという問題がある。 In the conventional method using syntax analysis, there is a problem that accuracy of subsequent paraphrase expression acquisition is greatly reduced unless the accuracy of syntax analysis is sufficiently high. Further, in the method not using the parsing, there is a problem that it is necessary to give in advance a case having a specific relationship represented by the paraphrase expression to be obtained, and the result greatly depends on what kind of case is given.
本発明は、このような問題を解決するため、構文解析を必要とせず、また予め特定の関係にある事例を与えることなく、文書集合全体から収集した特定の属性を持つ任意の2つの共起する単語または単語列の出現する文脈の集合に基づくクラスタリングにより、共起する単語または単語列の間にある特定の関係を発見し、発見された特定の関係を表す文脈だけを選択することによって、言い換え表現の獲得を可能とすることを目的とする。 The present invention solves such a problem by eliminating any two co-occurrence with specific attributes collected from the entire document set without requiring parsing and without giving a specific relationship in advance. By clustering based on the set of contexts in which words or word strings appear, find specific relationships between co-occurring words or word strings, and select only the contexts that represent the specific relationships found, The purpose is to enable acquisition of paraphrased expressions.
上記の課題を解決するための本発明の言い換え表現獲得システムは、
単語または単語列に特定の属性を表すタグが付されている文書を多数格納した文書集合データベースと、
共起単語対毎の個々の文脈を少なくともその頻度とともに格納する共起単語対文脈データベースと、
単語毎の文書頻度を格納する文書頻度データベースと、
共起単語対毎の文脈ベクトルを格納する文脈ベクトルデータベースと、
文脈ベクトル間の類似度を格納する文脈ベクトル類似度データベースと、
クラスタ毎の共起単語対を格納する共起単語対クラスタデータベースと、
文書集合データベースから文書集合を入力する文書集合入力部と、
入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈をその頻度とともに共起単語対文脈データベースに格納する共起単語対文脈収集部と、
入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウントし、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、これを文書頻度データベースに格納する文書頻度計算部と、
共起単語対文脈データベースから一の共起単語対に対応する個々の文脈とその頻度を読み出し、各文脈を単語に分割し、各単語毎に当該単語を含む文脈の頻度の総和を求めて各単語の単語頻度とし、当該各単語の文書頻度を文書頻度データベースから読み出し、両者から各単語の重みを計算し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベースに格納し、これを全ての共起単語対に対して行う文脈ベクトル生成部と、
文脈ベクトルデータベースから2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベースに格納する文脈ベクトル類似度計算部と、
文脈ベクトル類似度データベースから文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度が近い共起単語対を含むクラスタを形成し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベースに格納する共起単語対クラスタリング部と、
共起単語対クラスタデータベースから一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベースから前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対の文脈間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う関係ラベル獲得部と、
共起単語対クラスタデータベース及び共起単語対文脈データベースから各クラスタに含まれる個々の共起単語対に共通する文脈や関係を表すラベルとしての単語を含む文脈を言い換え表現として獲得するクラスタ内文脈選択部と、
得られたクラスタやクラスタにおける関係を表すラベルとしての単語や言い換え表現を出力する出力部とを備えている。
The paraphrase expression acquisition system of the present invention for solving the above problem is
A document collection database that stores a large number of documents tagged with specific attributes in words or word strings,
A co-occurrence word pair context database that stores the individual context for each co-occurrence word pair along with at least its frequency;
A document frequency database that stores the document frequency for each word;
A context vector database storing a context vector for each co-occurrence word pair;
A context vector similarity database for storing similarity between context vectors;
A co-occurrence word pair cluster database storing co-occurrence word pairs for each cluster;
A document set input unit for inputting a document set from the document set database;
Collects contexts in which any two words or word strings tagged with a specific attribute from the input document appear together, and this is performed for all the documents. A co-occurrence word-to-context collection unit that stores an individual context together with its frequency in a co-occurrence word-to-context database for each co-occurrence word pair consisting of a combination of two words or word strings;
The input document is decomposed into words, the number of documents including the word is counted for each word, this is performed for all documents, and the document frequency that is the ratio of the number of documents including words to the total number of documents is all A document frequency calculation unit that calculates a word of the word and stores it in a document frequency database;
Each context and its frequency corresponding to one co-occurrence word pair is read from the co-occurrence word pair context database, each context is divided into words, and the sum of the frequency of the context including the word is obtained for each word. The word frequency of the word, the document frequency of each word is read from the document frequency database, the weight of each word is calculated from both, and the word constituting the individual context corresponding to the one co-occurrence word pair and its weight Generating a context vector, storing it in a context vector database, and performing this for all co-occurrence word pairs;
A context vector corresponding to two co-occurrence word pairs is read from the context vector database, a similarity between them is calculated, and this is performed for all combinations of context vectors corresponding to the two co-occurrence word pairs. A context vector similarity calculator stored in the database;
Read all similarities between context vectors from the context vector similarity database, form a cluster containing co-occurrence word pairs with similar similarity between context vectors, and co-occurrence word pairs included in each cluster A co-occurrence word pair clustering unit to be stored in the cluster database;
The individual co-occurrence word pairs included in one cluster are read out from the co-occurrence word pair cluster database, and the words constituting the context corresponding to the individual co-occurrence word pairs are read out from the context vector database. A common word between the contexts is acquired as a label representing the relationship between the individual co-occurrence word pairs included in the one cluster, and is stored in the corresponding cluster of the co-occurrence word pair cluster database. A relationship label acquisition unit to perform,
Intra-cluster context selection that acquires words containing words as labels representing contexts and relationships common to individual co-occurrence word pairs contained in each cluster from the co-occurrence word pair cluster database and the co-occurrence word pair context database And
And an output unit that outputs words and paraphrased expressions as labels representing the obtained clusters and relationships in the clusters.
本発明の言い換え表現獲得システムによれば、同一内容を表す文書の対を集めることなく、また関係や言い換え表現についての知識を事前に与えることなく、大規模なコーパス(文書集合)から類似した文脈を持つ単語の対のクラスタリングにより、同じ関係を持つ単語対のクラスタを得ることができ、各クラスタ内の文脈や単語の共通性に基づいて、クラスタが持つ関係に特有な文脈だけを選択することにより、言い換え表現を獲得することが可能となる。 According to the paraphrase expression acquiring system of the present invention, a similar context can be obtained from a large corpus (document set) without collecting pairs of documents representing the same content and without giving knowledge about relations and paraphrase expressions in advance. Cluster of pairs of words that have the same relationship can be obtained, and only contexts specific to the relationship of the clusters are selected based on the context within each cluster and the commonality of the words This makes it possible to acquire a paraphrase expression.
図1は本発明の言い換え表現獲得システムの実施の形態の一例を示すもので、図中、1は文書集合データベース(文書集合DB)、2は共起単語対文脈データベース(共起単語対文脈DB)、3は文書頻度データベース(文書頻度DB)、4は文脈ベクトルデータベース(文脈ベクトルDB)、5は文脈ベクトル類似度データベース(文脈ベクトル類似度DB)、6は共起単語対クラスタデータベース(共起単語対クラスタDB)、11は文書集合入力部、12は共起単語対文脈収集部、13は文書頻度計算部、14は文脈ベクトル生成部、15は文脈ベクトル類似度計算部、16は共起単語対クラスタリング部、17は関係ラベル獲得部、18はクラスタ内文脈選択部、19は出力部である。 FIG. 1 shows an example of an embodiment of the paraphrase expression acquisition system of the present invention. In the figure, 1 is a document set database (document set DB), 2 is a co-occurrence word pair context database (co-occurrence word pair context DB). ), 3 is a document frequency database (document frequency DB), 4 is a context vector database (context vector DB), 5 is a context vector similarity database (context vector similarity DB), 6 is a co-occurrence word pair cluster database (co-occurrence) Word pair cluster DB), 11 is a document set input unit, 12 is a co-occurrence word pair context collection unit, 13 is a document frequency calculation unit, 14 is a context vector generation unit, 15 is a context vector similarity calculation unit, and 16 is co-occurrence A word pair clustering unit, 17 is a relation label acquisition unit, 18 is an in-cluster context selection unit, and 19 is an output unit.
文書集合データベース1は、単語または単語列に特定の属性を表すタグが付されている文書を多数格納している。共起単語対文脈データベース2は、共起単語対毎の個々の文脈を少なくともその頻度とともに格納する。文書頻度データベース3は、単語毎の文書頻度を格納する。文脈ベクトルデータベース4は、共起単語対毎の文脈ベクトルを格納する文脈ベクトル類似度データベース5は、文脈ベクトル間の類似度を格納する。共起単語対クラスタデータベース6は、クラスタ毎の共起単語対を格納する。
The document set
文書集合入力部11は、文書集合データベース1から文書集合を入力する。共起単語対文脈収集部12は、入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈をその頻度とともに共起単語対文脈データベース2に格納する。文書頻度計算部13は、入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウントし、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、これを文書頻度データベース3に格納する。
The document set
文脈ベクトル生成部14は、共起単語対文脈データベース2から一の共起単語対に対応する個々の文脈とその頻度を読み出し、各文脈を単語に分割し、各単語毎に当該単語を含む文脈の頻度の総和を求めて各単語の単語頻度とし、当該各単語の文書頻度を文書頻度データベース3から読み出し、両者から各単語の重みを計算し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベース4に格納し、これを全ての共起単語対に対して行う。
The context
文脈ベクトル類似度計算部15は、文脈ベクトルデータベース4から2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベース5に格納する。共起単語対クラスタリング部16は、文脈ベクトル類似度データベース5から文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度が近い共起単語対を含むクラスタを形成(クラスタリング)し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベース6に格納する。
The context vector
関係ラベル獲得部17は、共起単語対クラスタデータベース6から一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベース4から前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う。
The relation
クラスタ内文脈選択部18は、共起単語対クラスタデータベース6及び共起単語対文脈データベース2から各クラスタに含まれる個々の共起単語対に共通する文脈や関係を表すラベルとしての単語を含む文脈を言い換え表現として獲得する。出力部19は、得られたクラスタやクラスタにおける関係を表すラベルとしての単語や言い換え表現を出力する。
The in-cluster
前述した言い換え表現獲得システムは、前記各データベースを備えたコンピュータ(ハードウェア)と、これらと協働して各種機能を実現させるプログラム(ソフトウェア)とによっても実現可能であり、このプログラムに対応する処理の流れの一例を図2に示す。 The paraphrase expression acquisition system described above can also be realized by a computer (hardware) provided with each of the databases and a program (software) that realizes various functions in cooperation with these databases, and processing corresponding to this program An example of the flow is shown in FIG.
以下、具体例を用いて、本発明の言い換え表現獲得システムの詳細な構成をその動作とともに説明する。 Hereinafter, the detailed configuration of the paraphrase expression acquisition system of the present invention will be described together with its operation using a specific example.
ここでは、例えば文書集合データベース1には特定の属性として人名や地名等の固有名詞を表すタグが付されている文書が大量に格納され文書集合をなしているとし、該文書集合から固有名詞の間の関係とそれを表す言い換え表現を獲得する動作について説明する。
Here, for example, it is assumed that the document set
文書集合入力部11は、文書集合データベース1に格納されている文書集合を逐次取り出す(s1)。
The document set
共起単語対文脈収集部12は、入力された文書から予め指定された2つの固有名詞の種別、例えば人名と地名や会社名と会社名のタグが付いている任意の2つの単語または単語列が共起して出現する文脈(単語列)を検出し、全ての文書に対してこのような文脈を共起単語対毎に収集し、共起単語の順序及び文脈の頻度とともに共起単語対文脈データベース2に格納する(s2)。
The co-occurrence word-to-
なお、ここでいう共起とは、同一の文内に同時に出現することを指すが、同一文内でも共起する2つの単語の距離はN単語(Nは整数)以内という条件を付けても良いし、これにさらに2つの単語の外側のM単語(Mは整数)を含むなどとしても良い。 The term “co-occurrence” as used herein refers to appearing in the same sentence at the same time, but the distance between two words that co-occur in the same sentence may be within N words (N is an integer). This may include M words (M is an integer) outside the two words.
図3は共起単語対文脈データベース2に格納される共起単語対と文脈の例である。共起単語対の種別は会社名と会社名であり、ここではCompany AとCompany Bの対と、Company CとCompany Dの対が示されている。2つの会社名の共起単語の間の5単語以内の文脈について、共起単語対毎に共起単語の順序と文脈の頻度とが格納される。共起単語の順序は、例えばCompany Aが先でCompany Bが後に出現する順序を0、Company Bが先でCompany Aが後に出現する順序を1と表現する。また、共起単語対データベース2に格納する際には、各共起単語対の頻度、即ち各共起単語対における全ての文脈の頻度の総和が予め定められた閾値を超えるものだけを格納するように限定しても良い。
FIG. 3 shows an example of co-occurrence word pairs and contexts stored in the co-occurrence word
文書頻度計算部13は、入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウント(計数)し、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、文書頻度データベース3に格納する(s3)。各単語wの文書頻度df(w)は次式により計算するが、これに限定するものではない。
The document
df(w)=log(Cw/N)
但し、Cwは単語wを含む文書数で、Nは文書集合における全文書数とする。
df (w) = log (Cw / N)
Here, Cw is the number of documents including the word w, and N is the total number of documents in the document set.
文書頻度データベース3は、単語wと文書集合全体における単語wの頻度F(w)と計算された文書頻度df(w)から構成される。
The
文脈ベクトル生成部14は、共起単語対文脈データベース2に格納されている各共起単語対xに関する文脈の集合Pを取り出し、この中の全ての文脈を単語に分割した後、各単語について、単語wを含む各文脈Pi(w)の頻度C(Pi(w))の総和ΣC(Pi(w))を単語wの単語頻度tf(w)として求め、文書頻度データベース3から単語wの文書頻度df(w)を参照し、得られた単語頻度tf(w)と文書頻度df(w)とからその単語の重みVx(w)を決定し、共起単語対x毎に個々の文脈を構成する単語とその重みからなる文脈ベクトルVxを生成し、文脈ベクトルデータベース4に格納する(s4)。
The context
図4に文脈ベクトルデータベース4に格納される文脈ベクトルの一例を示す。共起単語対毎に文脈ベクトルを構成する単語とその重みが格納される。
FIG. 4 shows an example of the context vector stored in the
なお、一般的過ぎて意味のない単語を除くために、ストップワードとして、文書頻度データベース3に格納されている文書集合全体における単語wの頻度F(w)が予め定められた閾値よりも高い単語は対象外としても良いし、あるいは前置詞や冠詞など品詞情報を用いて対象外とする単語を選択しても良い。逆に単語の頻度があまりにも低い特殊な単語も除外するために、予め定められた別の閾値よりも文書全体における単語の頻度が低い単語も対象外としても良い。また、活用のある単語は基本形を用いて統一しても良く、受動態に用いられる動詞の過去分詞だけを能動態における過去形等の他の活用形とは区別しても良い。
In order to remove words that are too general and meaningless, as a stop word, the word frequency F (w) in the entire document set stored in the
単語頻度を求めるには、例えば図3においてCompany C :: Company Dにおける文脈の単語buyの単語頻度は、buyを含む文脈のそれぞれの頻度から11と8と3の総和で22とする。また、単語頻度をカウントする際に、共起単語の順序を考慮し、ある単語における頻度が共起単語の順序が0の場合にL回で、1の場合にR回だとすると、その単語頻度をL−Rとしても良い。これにより、共起単語対の有する関係の方向を表現することも可能である。文脈の単語の重みの決定には、単語wの単語頻度tf(w)と文書頻度df(w)の逆数の積であるtf*idfを用いるが、これに限定されるものではない。 In order to obtain the word frequency, for example, in FIG. 3, the word frequency of the context word buy in Company C :: Company D is set to 22 as the sum of 11, 8, and 3 from the respective frequencies of the context including buy. Further, when counting the word frequency, the order of the co-occurrence words is taken into consideration, and if the frequency in a certain word is L times when the order of the co-occurrence words is 0 and R is 1 in the case of 1, the word frequency is LR may be used. Thereby, it is also possible to express the direction of the relationship that the co-occurrence word pair has. The context word weight is determined using tf * idf, which is the product of the inverse of the word frequency tf (w) of the word w and the document frequency df (w), but is not limited thereto.
文脈ベクトル類似度計算部15は、文脈ベクトルデータベース4から2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行う。文脈ベクトルαとβの類似度Sim(α,β)は、下記の式から2つの文脈ベクトルのなす角度θの余弦cos(θ)を計算することで求める。
The context vector
Sim(α,β)=cos(θ)=(α・β)/(|α||β|)
なお、図4の例ではベクトルを構成する単語の並びが異なるが、ベクトルの内積は2つのベクトルを構成する単語の並びを同じにして計算することは言うまでもない。この際、一方に存在し、他方に存在しない単語の重みは、存在しない方の単語の重みを0とする。計算された全ての組み合わせの文脈ベクトルの類似度は、文脈ベクトル類似度データベース5に格納する(s5)。
Sim (α, β) = cos (θ) = (α · β) / (| α || β |)
In the example of FIG. 4, the arrangement of the words constituting the vector is different, but it goes without saying that the inner product of the vectors is calculated with the arrangement of the words constituting the two vectors being the same. At this time, the weight of a word that exists on one side and does not exist on the other side is 0. The calculated similarity of the context vectors of all combinations is stored in the context vector similarity database 5 (s5).
共起単語対クラスタリング部16は、文脈ベクトル類似度データベース5に格納されている全ての文脈ベクトルと文脈ベクトル同士の類似度を参照し、類似している文脈ベクトルの階層的なクラスタをボトムアップに構築する。クラスタリングアルゴリズムは様々なものが提案されているが、ここでは特に規定しない。予め類似度に対する閾値を設けておき、その閾値以上で構築されたクラスタリングの結果を共起単語対クラスタデータベース6に格納する(s6)。
The co-occurrence word
関係ラベル獲得部17は、共起単語対クラスタデータベース6から一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベース4から前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対の文脈間で共通する単語の重なりの度合いを求め、当該単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとしてその重なりの度合いとともに共起単語対クラスタデータベース6の対応するクラスタに格納し、これを全てのクラスタについて行う(s7)。
The relation
図5に共起単語対クラスタデータベース6の一例を示す。共起単語対クラスタデータベース6は、クラスタの番号、各クラスタに含まれる共起単語対、各クラスタの共起単語対の文脈に共通な単語とその重なり度合いからなっている。
FIG. 5 shows an example of the co-occurrence word
文脈ベクトルに共通な単語の重なり度合いを求めるには、例えば、全ての文脈ベクトルの組み合わせから共通する単語を検出し、その単語が文脈ベクトルの全組み合わせのうちいくつの組み合わせに存在するかを割合として求めても良い。一例として、クラスタが5つの共起単語対からなる場合には、10組の共起単語対の組み合わせがあるが、仮に4つの共起単語対の文脈の集合にある単語が共通する場合には6組の共起単語対の組み合わせが存在することになるので、割合は0.6として求めることができる。なお、クラスタ内の全ての文脈ベクトルに共通の単語が存在する場合には、そのクラスタにおけるその単語の重なり度合いは1になる。 In order to obtain the overlapping degree of words common to context vectors, for example, a common word is detected from all combinations of context vectors, and the number of combinations of the words in all combinations of context vectors is used as a ratio. You may ask. As an example, if a cluster consists of five co-occurrence word pairs, there are 10 combinations of co-occurrence word pairs, but if the words in the context set of four co-occurrence word pairs are common, Since there are six combinations of co-occurrence word pairs, the ratio can be obtained as 0.6. When a common word exists in all context vectors in the cluster, the overlapping degree of the word in the cluster is 1.
クラスタ内文脈選択部18は、(1)共起単語対クラスタデータベース6に格納されているクラスタ毎の共起単語対と共起単語対文脈データベース2に格納されている共起単語対の文脈の集合とから、クラスタ内の複数の共起単語対に共通する文脈だけを選択する(s8)。
The intra-cluster context selector 18 (1) The context of the co-occurrence word pair stored in the co-occurrence word
例えば、図3の", which is acquired by"という文脈はCompany A :: Company BとCompany C :: Company Dという2つの共起単語対に共通するので、この文脈をこれらの2つの共起単語対を含むクラスタの関係を表す表現として選択する。 For example, the context “, which is acquired by” in FIG. 3 is common to the two co-occurrence word pairs Company A :: Company B and Company C :: Company D, so this context is used for these two co-occurrence words. It is selected as an expression that represents the relationship between the clusters including the pair.
あるいは、(2)共起単語対クラスタデータベース6に格納されているクラスタ毎の共起単語対及び文脈ベクトルに共通な単語と共起単語対文脈データベース2に格納されている共起単語対の文脈の集合とから、クラスタ内の共起単語対の多くに共通な単語、例えば予め定められた閾値以上の重なり度合いを持つ単語を含む文脈だけを選択する(s8)。
Or, (2) the context of the co-occurrence word pair stored in the co-occurrence word
例えば、図3と図5から図5におけるクラスタ1の共通単語のうち、重なり度合いが0.5以上の単語を含む文脈だけを選択するという条件を設けるならば、図5より重なり度合いが1である単語buy(過去分詞は除いている)だけがこの条件に該当する。この条件より、図3の文脈の中からbuy(過去分詞を除く)を含むCompany A :: Company Bの"is offering to buy"およびCompany C :: Company Dの"said it intends to buy","agreed to buy","plans to buy"の4つだけを選択することができる。
For example, if the condition that only a context including words having an overlapping degree of 0.5 or more is selected from the common words of
図5におけるクラスタ1は、文脈に共通の単語からM&Aの関係を表していると考えられ、とりわけ最も重なり度合いの高いbuyという単語はM&Aの関係を表すラベルとして見なすことができ、buyを含む文脈だけを選択することは、M&Aの関係を必ずしも表しているとはいえない文脈をフィルタリングすることと等価であるため、高い精度でM&Aの関係を表す言い換え表現だけを獲得することに繋がる。
なお、文脈の選択には、上記の(1)と(2)の論理和を用いても良い。この場合、(1)で得られる1つと(2)で得られる4つの文脈がM&Aの関係を表す言い換え表現として獲得される。以上を各クラスタにおいても繰り返す。 Note that the logical sum of the above (1) and (2) may be used for context selection. In this case, the one obtained in (1) and the four contexts obtained in (2) are acquired as paraphrased expressions representing the M & A relationship. The above is repeated for each cluster.
出力部19は、共起単語対クラスタデータベース6に格納されているクラスタとそれに含まれる共起単語対、関係ラベル獲得部17で得られるクラスタの関係を表すラベルとしての単語、クラスタ内文脈選択部18で得られる関係についての言い換え表現となる文脈を出力表示する(s9)。
The
1:文書集合データベース(文書集合DB)、2:共起単語対文脈データベース(共起単語対文脈DB)、3:文書頻度データベース(文書頻度DB)、4:文脈ベクトルデータベース(文脈ベクトルDB)、5:文脈ベクトル類似度データベース(文脈ベクトル類似度DB)、6:共起単語対クラスタデータベース(共起単語対クラスタDB)、11:文書集合入力部、12:共起単語対文脈収集部、13:文書頻度計算部、14:文脈ベクトル生成部、15:文脈ベクトル類似度計算部、16:共起単語対クラスタリング部、17:関係ラベル獲得部、18:クラスタ内文脈選択部、19:出力部。 1: document set database (document set DB), 2: co-occurrence word pair context database (co-occurrence word pair context DB), 3: document frequency database (document frequency DB), 4: context vector database (context vector DB), 5: Context vector similarity database (context vector similarity DB), 6: Co-occurrence word pair cluster database (co-occurrence word pair cluster DB), 11: Document set input unit, 12: Co-occurrence word pair context collection unit, 13 : Document frequency calculation unit, 14: context vector generation unit, 15: context vector similarity calculation unit, 16: co-occurrence word pair clustering unit, 17: relation label acquisition unit, 18: intra-cluster context selection unit, 19: output unit .
Claims (4)
単語または単語列に特定の属性を表すタグが付されている文書を複数格納した文書集合データベースと、
共起単語対毎の個々の文脈を格納する共起単語対文脈データベースと、
共起単語対毎の文脈ベクトルを格納する文脈ベクトルデータベースと、
文脈ベクトル間の類似度を格納する文脈ベクトル類似度データベースと、
クラスタ毎の共起単語対を格納する共起単語対クラスタデータベースと、
文書集合データベースから文書集合を入力する文書集合入力部と、
入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈を共起単語対文脈データベースに格納する共起単語対文脈収集部と、
共起単語対文脈データベースから一の共起単語対に対応する個々の文脈を読み出し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベースに格納し、これを全ての共起単語対に対して行う文脈ベクトル生成部と、
文脈ベクトルデータベースから2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベースに格納する文脈ベクトル類似度計算部と、
文脈ベクトル類似度データベースから文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度に基づき共起単語対を含むクラスタを形成し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベースに格納する共起単語対クラスタリング部と、
共起単語対クラスタデータベースから一のクラスタに含まれる個々の共起単語対を読み出し、個々の共起単語対に対応する文脈を構成する単語のうち、共起単語対の文脈間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う関係ラベル獲得部と、
得られたクラスタにおける関係を表すラベルとしての単語を出力する出力部とを備えた
ことを特徴とする言い換え表現獲得システム。 A paraphrase expression acquisition system that acquires a paraphrase expression that expresses the same semantic content in different expressions from a document set,
A document collection database that stores multiple documents that are tagged with specific attributes in words or word strings,
A co-occurrence word pair context database that stores individual contexts for each co-occurrence word pair;
A context vector database storing a context vector for each co-occurrence word pair;
A context vector similarity database for storing similarity between context vectors;
A co-occurrence word pair cluster database storing co-occurrence word pairs for each cluster;
A document set input unit for inputting a document set from the document set database;
Collects contexts in which any two words or word strings tagged with a specific attribute from the input document appear together, and this is performed for all the documents. A co-occurrence word-to-context collection unit that stores an individual context in a co-occurrence word-to-context database for each co-occurrence word pair consisting of a combination of two words or word strings;
Read an individual context corresponding to one co-occurrence word pair from the co-occurrence word pair context database, and generate a context vector composed of words constituting the individual context corresponding to the one co-occurrence word pair and their weights, A context vector generation unit that stores in a context vector database and performs this for all co-occurrence word pairs;
A context vector corresponding to two co-occurrence word pairs is read from the context vector database, a similarity between them is calculated, and this is performed for all combinations of context vectors corresponding to the two co-occurrence word pairs. A context vector similarity calculator stored in the database;
Reads all similarity between the context vector from the context vector similarity database, to form a cluster containing can co caused word pairs based on the similarity between the context vector, co-occurrence and co-occurrence word pairs contained in each cluster A co-occurrence word pair clustering unit for storing in a word pair cluster database;
It reads the individual co-occurrence word pairs included in one cluster from the co-occurrence word pairs cluster database of words constituting a context corresponding to each of the co-occurrence word pairs in common between the context of co-electromotive word pair the word Is obtained as a label representing the relationship between individual co-occurrence word pairs included in the one cluster, stored in the corresponding cluster of the co-occurrence word pair cluster database, and this is performed for all clusters,
A paraphrase expression acquisition system comprising: an output unit that outputs a word as a label representing a relationship in the obtained cluster.
単語または単語列に特定の属性を表すタグが付されている文書を複数格納した文書集合データベースと、
共起単語対毎の個々の文脈を少なくともその頻度とともに格納する共起単語対文脈データベースと、
単語毎の文書頻度を格納する文書頻度データベースと、
共起単語対毎の文脈ベクトルを格納する文脈ベクトルデータベースと、
文脈ベクトル間の類似度を格納する文脈ベクトル類似度データベースと、
クラスタ毎の共起単語対を格納する共起単語対クラスタデータベースと、
文書集合データベースから文書集合を入力する文書集合入力部と、
入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈をその頻度とともに共起単語対文脈データベースに格納する共起単語対文脈収集部と、
入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウントし、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、これを文書頻度データベースに格納する文書頻度計算部と、
共起単語対文脈データベースから一の共起単語対に対応する個々の文脈とその頻度を読み出し、各文脈を単語に分割し、各単語毎に当該単語を含む文脈の頻度の総和を求めて各単語の単語頻度とし、当該各単語の文書頻度を文書頻度データベースから読み出し、両者から各単語の重みを計算し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベースに格納し、これを全ての共起単語対に対して行う文脈ベクトル生成部と、
文脈ベクトルデータベースから2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベースに格納する文脈ベクトル類似度計算部と、
文脈ベクトル類似度データベースから文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度に基づき共起単語対を含むクラスタを形成し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベースに格納する共起単語対クラスタリング部と、
共起単語対クラスタデータベースから一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベースから前記個々の共起単語対に対応する文脈を構成する単語を読み出し、共起単語対の文脈間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う関係ラベル獲得部と、
得られたクラスタにおける関係を表すラベルとしての単語を出力する出力部とを備えた
ことを特徴とする言い換え表現獲得システム。 A paraphrase expression acquisition system that acquires a paraphrase expression that expresses the same semantic content in different expressions from a document set,
A document collection database that stores multiple documents that are tagged with specific attributes in words or word strings,
A co-occurrence word pair context database that stores the individual context for each co-occurrence word pair along with at least its frequency;
A document frequency database that stores the document frequency for each word;
A context vector database storing a context vector for each co-occurrence word pair;
A context vector similarity database for storing similarity between context vectors;
A co-occurrence word pair cluster database storing co-occurrence word pairs for each cluster;
A document set input unit for inputting a document set from the document set database;
Collects contexts in which any two words or word strings tagged with a specific attribute from the input document appear together, and this is performed for all the documents. A co-occurrence word-to-context collection unit that stores an individual context together with its frequency in a co-occurrence word-to-context database for each co-occurrence word pair consisting of a combination of two words or word strings;
The input document is decomposed into words, the number of documents including the word is counted for each word, this is performed for all documents, and the document frequency that is the ratio of the number of documents including words to the total number of documents is all A document frequency calculation unit that calculates a word of the word and stores it in a document frequency database;
Each context and its frequency corresponding to one co-occurrence word pair is read from the co-occurrence word pair context database, each context is divided into words, and the sum of the frequency of the context including the word is obtained for each word. The word frequency of the word, the document frequency of each word is read from the document frequency database, the weight of each word is calculated from both, and the word constituting the individual context corresponding to the one co-occurrence word pair and its weight Generating a context vector, storing it in a context vector database, and performing this for all co-occurrence word pairs;
A context vector corresponding to two co-occurrence word pairs is read from the context vector database, a similarity between them is calculated, and this is performed for all combinations of context vectors corresponding to the two co-occurrence word pairs. A context vector similarity calculator stored in the database;
Reads all similarities between context vectors from the context vector similarity database, forms a cluster containing co-occurrence word pairs based on the similarity between context vectors, and sets the co-occurrence word pairs included in each cluster as co-occurrence word pairs A co-occurrence word pair clustering unit to be stored in the cluster database;
Reads the individual co-occurrence word pairs included in one cluster from the co-occurrence word pairs cluster database, reads the words constituting the context corresponding to the respective co-occurring word pair from the context vector database, co caused word pairs context A common word between them is acquired as a label representing the relationship between individual co-occurrence word pairs included in the one cluster, stored in the corresponding cluster of the co-occurrence word pair cluster database, and this is performed for all clusters A label acquisition department;
A paraphrase expression acquisition system comprising: an output unit that outputs a word as a label representing a relationship in the obtained cluster.
出力部は、得られた言い換え表現を更に出力するThe output unit further outputs the obtained paraphrase expression.
ことを特徴とする請求項1または2に記載の言い換え表現獲得システム。The paraphrase expression acquisition system according to claim 1 or 2, wherein
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005002366A JP4252038B2 (en) | 2005-01-07 | 2005-01-07 | Paraphrase expression acquisition system, paraphrase expression acquisition method, and paraphrase expression acquisition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005002366A JP4252038B2 (en) | 2005-01-07 | 2005-01-07 | Paraphrase expression acquisition system, paraphrase expression acquisition method, and paraphrase expression acquisition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006190146A JP2006190146A (en) | 2006-07-20 |
JP4252038B2 true JP4252038B2 (en) | 2009-04-08 |
Family
ID=36797283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005002366A Expired - Fee Related JP4252038B2 (en) | 2005-01-07 | 2005-01-07 | Paraphrase expression acquisition system, paraphrase expression acquisition method, and paraphrase expression acquisition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4252038B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5356197B2 (en) * | 2009-12-01 | 2013-12-04 | 株式会社日立製作所 | Word semantic relation extraction device |
JP5290218B2 (en) * | 2010-02-25 | 2013-09-18 | 日本放送協会 | Document simplification device, simplification rule table creation device, and program |
CN110555203B (en) * | 2018-05-31 | 2023-05-30 | 北京百度网讯科技有限公司 | Text replication method, device, server and storage medium |
KR102253521B1 (en) * | 2020-09-08 | 2021-06-02 | (주)웅진씽크빅 | Apparatus and method for providing electric book |
-
2005
- 2005-01-07 JP JP2005002366A patent/JP4252038B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006190146A (en) | 2006-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weiss et al. | Fundamentals of predictive text mining | |
US8566360B2 (en) | System and method for automatically generating systematic reviews of a scientific field | |
Nastase et al. | A survey of graphs in natural language processing | |
Gómez-Adorno et al. | Automatic authorship detection using textual patterns extracted from integrated syntactic graphs | |
Anita et al. | Building discourse parser for Thirukkural | |
KR20120001053A (en) | System and method for anaylyzing document sentiment | |
CN107967290A (en) | A kind of knowledge mapping network establishing method and system, medium based on magnanimity scientific research data | |
Yu et al. | Unsupervised person slot filling based on graph mining | |
Yeasmin et al. | Study of abstractive text summarization techniques | |
Guillou et al. | Incorporating temporal information in entailment graph mining | |
Malik et al. | Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017) | |
JP4252038B2 (en) | Paraphrase expression acquisition system, paraphrase expression acquisition method, and paraphrase expression acquisition program | |
JPH1196177A (en) | Method for generating term dictionary, and storage medium recording term dictionary generation program | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
Al-Ayyoub et al. | Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study. | |
Kan et al. | Corpus-trained text generation for summarization | |
Franzosi et al. | Qualitative and quantitative research in the humanities and social sciences: how natural language processing (NLP) can help | |
KR20110028077A (en) | An automatic annotation system for generating sentence ontology and a method thereof | |
Das et al. | Graph-based text summarization and its application on COVID-19 twitter data | |
Feldman et al. | Information extraction | |
Ermakova | A method for short message contextualization: Experiments at CLEF/INEX | |
Alexa et al. | The Duden Ontology: An Integrated Representation of Lexical and Ontological Information | |
Sangati et al. | Efficiently extract recurring tree fragments from large treebanks | |
JPH11259524A (en) | Information retrieval system, information processing method in information retrieval system and record medium | |
Baradaran et al. | Event Extraction from Classical Arabic Texts. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090119 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090120 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120130 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130130 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |