JP2009265889A - Language processor and program - Google Patents

Language processor and program Download PDF

Info

Publication number
JP2009265889A
JP2009265889A JP2008113908A JP2008113908A JP2009265889A JP 2009265889 A JP2009265889 A JP 2009265889A JP 2008113908 A JP2008113908 A JP 2008113908A JP 2008113908 A JP2008113908 A JP 2008113908A JP 2009265889 A JP2009265889 A JP 2009265889A
Authority
JP
Japan
Prior art keywords
word
sentence
processing target
pair
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008113908A
Other languages
Japanese (ja)
Other versions
JP5184195B2 (en
Inventor
Ichiro Yamada
一郎 山田
Kikuka Miura
菊佳 三浦
Hideki Sumiyoshi
英樹 住吉
Masahiro Shibata
正啓 柴田
Nobuyuki Yagi
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2008113908A priority Critical patent/JP5184195B2/en
Publication of JP2009265889A publication Critical patent/JP2009265889A/en
Application granted granted Critical
Publication of JP5184195B2 publication Critical patent/JP5184195B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a language processor capable of precisely extracting only a pair of nouns having a mutual correlation with high possibility, and capable of extracting also a relation between the paired nouns. <P>SOLUTION: This language processor includes a processing-objective word pair feature extracting part for selecting a pair of words included in one sentence as a processing-objective word pair, and for extracting an appearance frequency feature of the processing-objective word pair, based on an input text data, a co-occurrence word feature extracting part for selecting a co-occurrence word, and for extracting an appearance frequency feature of the co-occurrence word, a syntax structure feature extracting part for extracting syntax structure in the sentence of the processing-objective word pair and the co-occurrence word, and for extracting an appearance frequency feature of the syntax structure, and a machine learning processing part for calculating the conditional probability of the processing-objective word pair, the conditional probability of the co-occurrence word, and the conditional probability of the syntax structure, using the obtained appearance frequency feature data, by machine learning processing, so as to be written as a leaning result data into a leaning result data storage part. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、自然言語処理に関する。特に、テキストから情報を抽出するための言語処理装置およびそのコンピュータプログラムに関する。   The present invention relates to natural language processing. In particular, the present invention relates to a language processing apparatus for extracting information from text and a computer program thereof.

従来、同一文に出現する関係のある名詞を抽出する手法として、相互情報量を用いる手法がある。相互情報量とは、2つの確率変数に対する依存尺度を表し、これを単語に対して用いることで、単語がどの程度、別の単語に依存しているかを測ることができる。非特許文献1では、相互情報量について記載されている。
北研二,「言語と計算 4 確率的言語モデル」,東京大学出版会,p.11,1999年
Conventionally, there is a method of using mutual information as a method of extracting related nouns appearing in the same sentence. The mutual information represents a dependence scale for two random variables, and can be used for a word to measure how much the word depends on another word. Non-Patent Document 1 describes mutual information.
Kenji Kita, “Language and Computation 4 Stochastic Language Model”, University of Tokyo Press, p. 11, 1999

しかしながら、相互情報量を用いることによって関係のある名詞の対を抽出しようとする場合、それら2つの単語が出現するときの構文構造などは考慮されない。従って、出現頻度が低い単語については、相互に全く関係を持たない単語同士の場合でも、偶発的に同じ文に出現するために高い相互情報量を持ってしまう場合があるという問題がある。また、相互情報量を用いて名詞の対を抽出したとき、それら2つの単語がどのような関係を持つかを把握することはできないという問題がある。   However, when trying to extract a pair of related nouns by using mutual information, the syntax structure when these two words appear is not considered. Therefore, there is a problem that words having a low appearance frequency may have a high mutual information amount because they appear accidentally in the same sentence even when the words have no relation to each other. In addition, when a pair of nouns is extracted using the mutual information amount, there is a problem that it is impossible to grasp the relationship between the two words.

本発明は、上記のような課題認識に基づいて行なわれたものであり、互いに関係を持つ可能性の高い名詞の対のみを精度良く抽出するとともに、それら対をなす2つの名詞の関係も抽出することのできる言語処理装置およびそのコンピュータプログラムを提供することを目的とする。   The present invention has been made based on the above problem recognition, and accurately extracts only pairs of nouns that are highly likely to be related to each other, and also extracts the relationship between the two nouns forming the pair. An object of the present invention is to provide a language processing apparatus and a computer program for the same.

[1]上記の課題を解決するため、本発明の一態様による言語処理装置は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出部(11)と、前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出部(共起名詞特徴抽出部12)と、前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出部(13)と、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部(3)に書き込む処理を行なう機械学習処理部(14)とを具備することと特徴とする。   [1] In order to solve the above problem, a language processing apparatus according to an aspect of the present invention selects a pair of words included in one sentence as a processing target word pair from input text data including a plurality of sentences. And a processing target word pair feature extraction unit (11) for extracting a predetermined feature of the appearance frequency of the processing target word pair in the input text data, and the processing target word pair in the input text data. A co-occurrence word feature extraction unit (co-occurrence noun feature extraction unit) that selects another word appearing in a sentence as a co-occurrence word and extracts a predetermined feature of the appearance frequency of the co-occurrence word in the input text data 12), a syntax structure of a sentence including the processing target word pair and the co-occurrence word in the input text data is extracted, and a predetermined characteristic of the appearance frequency of the syntax structure in the input text data is extracted. A class in which the co-occurrence word represents the relationship of the processing target word pair by referring to processing target concept related word data in which a word related to the processing target concept is stored in advance. On the basis of information on the sentence in the input text data that can be determined to belong to, an appearance frequency characteristic of the processing target word pair, an appearance frequency characteristic of the co-occurrence word, and an appearance frequency characteristic of the syntax structure Assuming that the word belongs to a class that represents the relationship of the processing target word pair, and that the conditional probability that the processing target word pair appears, and that the sentence belongs to the class that represents the relationship of the processing target word pair When the conditional probability that the co-occurrence word appears, and the sentence is assumed to belong to a class representing the relationship of the processing target word pair, the syntax structure is The conditional probability that the current to a characterized by comprising a machine learning processing unit that performs a process of writing the learning result data storage unit (3) as the learning result data (14).

この構成によれば、処理対象単語ペア特徴抽出部は、文に含まれる処理対象単語ペアについての出現頻度特徴を抽出する。共起単語特徴抽出部は、共起単語についての出現頻度特徴を抽出する。構文構造特徴抽出部は、処理対象単語ペアと共起単語との当該文中の構文構造を抽出するとともにその構文構造についての出現頻度特徴を抽出する。入力テキストデータとして大量の文を含むものを用いた場合、これら抽出された出現頻度特徴の数値は、言語として統計的に妥当な特徴を表わすものとなる。機械学習処理部は、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより、具体的にはこの処理対象概念関連語データに対応する語が文に含まれているか否かを判定することなどにより、与えられている複数の文のうち、共起単語が処理対象単語ペアの関係を表わすクラスに属すると判別できる文を抽出する。これら抽出された文は、共起単語が処理対象単語ペアの関係を表わすクラスに属することが明らかであるような文であるものとすることができる。このような文は、機械学習処理における正解サンプルとして作用する。この正解サンプルを基に、例えばEMアルゴリズムなどを用いた機械学習処理等により、統計的に、正解サンプル以外も含めた入力テキストデータに含まれる文全体について、前記クラスのときの処理対象単語ペアの条件付き確率と、前記クラスのときの共起単語の条件付き確率と、前記クラスのときの構文構造の条件付き確率が得られる(学習結果データ)。この場合のクラス(C)とは共起単語が処理対象単語ペアの関係を表わすという命題によるものであるが、本クラスの補集合が成す別のクラス(C、共起単語が処理対象単語ペアの関係を表わさないようなクラス)についてのそれぞれの確率も、全体の確率(1)から前記のそれぞれの条件付き確率を減ずることによって得られる。得られた学習結果データは、処理対象単語ペアが前記クラスに属する確率や、共起単語が前記クラスに属する確率や、構文構造が前記クラスに属する確率を算出するために用いることができる。
つまり、同一文に出現する他の単語(共起単語)が、処理対象とする2つの名詞の関係名を示すかを判定することができる。この結果、出現頻度が低い単語間の関係も高精度に推定することができる。
この言語処理装置が処理の対象とする単語の典型例は、名詞である。このとき、処理対象単語ペアは、処理対象名詞ペアである。共起単語の典型例は共起名詞である。
According to this configuration, the processing target word pair feature extraction unit extracts appearance frequency features for processing target word pairs included in the sentence. The co-occurrence word feature extraction unit extracts appearance frequency features for the co-occurrence word. The syntax structure feature extraction unit extracts the syntax structure in the sentence of the processing target word pair and the co-occurrence word and extracts the appearance frequency feature of the syntax structure. When the input text data includes a large amount of sentences, the extracted appearance frequency feature values represent features that are statistically valid as a language. The machine learning processing unit refers to the processing target concept related word data in which the word related to the processing target concept is stored in advance, and specifically, the word corresponding to the processing target concept related word data is included in the sentence. By determining whether or not there is a sentence, a sentence that can be determined that the co-occurrence word belongs to a class representing the relationship of the processing target word pairs is extracted from a plurality of given sentences. These extracted sentences may be sentences in which it is clear that the co-occurrence words belong to a class representing the relationship between the processing target word pairs. Such a sentence acts as a correct sample in the machine learning process. Based on this correct sample, for example, by machine learning processing using an EM algorithm or the like, statistically, for the entire sentence included in the input text data including other than the correct sample, the processing target word pair of the class A conditional probability, a conditional probability of a co-occurrence word for the class, and a conditional probability of a syntax structure for the class are obtained (learning result data). The class (C 1 ) in this case is based on the proposition that the co-occurrence word represents the relationship of the word pair to be processed, but another class (C 0 , the co-occurrence word is the object to be processed) of the complement of this class. The respective probabilities for classes that do not represent word pair relationships are also obtained by subtracting the respective conditional probabilities from the overall probability (1). The obtained learning result data can be used to calculate the probability that the processing target word pair belongs to the class, the probability that the co-occurrence word belongs to the class, and the probability that the syntax structure belongs to the class.
That is, it can be determined whether another word (co-occurrence word) appearing in the same sentence indicates a relation name of two nouns to be processed. As a result, the relationship between words with low appearance frequency can be estimated with high accuracy.
A typical example of a word to be processed by this language processing apparatus is a noun. At this time, the processing target word pair is a processing target noun pair. A typical example of a co-occurrence word is a co-occurrence noun.

また、この言語処理装置において、予め決められた処理対象属性に限定して処理対象単語ペアを選択するようにしても良い。このような限定を行なうことにより、無関係な処理対象単語ペアが候補に含まれなくなり、算出される出現頻度特徴の信頼性が上がる。   In this language processing apparatus, processing target word pairs may be selected by limiting to predetermined processing target attributes. By performing such a limitation, irrelevant processing target word pairs are not included in the candidates, and the reliability of the calculated appearance frequency feature is improved.

[2]また、本発明の一態様は、上記の言語処理装置において、前記構文構造特徴抽出部は、前記文の構文解析結果に基づき、前記処理対象単語ペアに含まれる第1の単語と当該処理対象単語ペアに含まれる第2の単語と前記共起単語との共通係り先文節を取り出し、前記第1の単語から前記共通係り先文節までの構文構造と、前記第2の単語から前記共通係り先文節までの構文構造と、前記共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定することを特徴とする。   [2] Further, according to one aspect of the present invention, in the language processing device, the syntax structure feature extraction unit includes the first word included in the processing target word pair and the first word based on the syntax analysis result of the sentence. A common destination clause between the second word and the co-occurrence word included in the processing target word pair is extracted, a syntax structure from the first word to the common destination clause, and the common from the second word The syntax structure of the sentence is identified by a combination of the syntax structure up to the dependency destination clause and the syntax structure that modifies the common dependency clause.

この構成により、本発明の統計的処理に特に適した構文構造が得られる。その結果、単語抽出の精度が上がる。   With this configuration, a syntax structure particularly suitable for the statistical processing of the present invention is obtained. As a result, the accuracy of word extraction is improved.

[3]また、本発明の一態様は、上記の言語処理装置において、前記構文構造特徴抽出部は、前記構文構造を表わす単語のリストに出現する単語であって、前記第1の単語でも前記第2の単語でも前記共起単語でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出することを特徴とする。   [3] Further, according to one aspect of the present invention, in the language processing apparatus, the syntax structure feature extraction unit is a word that appears in a list of words representing the syntax structure, and the first word is the above word A plurality of syntax structures in which the ratio of words that are neither the second word nor the co-occurrence word is equal to or greater than a predetermined threshold is defined as a syntax structure group having a similar syntax structure, and appearance frequency characteristics of the syntax structure group Is extracted as an appearance frequency feature of the syntax structure.

この構成により、類似の構文構造を有する文をまとめた構文構造グループを対象として出現頻度特徴を抽出することができる。その結果、文中での使用単語や表記に関する些細な揺れを吸収し、統計的に安定した構文構造の出現頻度特徴を抽出できる。その結果、入力テキストデータに含まれる文数が比較的少ない場合にも高い精度での単語抽出が可能となる。   With this configuration, the appearance frequency feature can be extracted for a syntax structure group in which sentences having similar syntax structures are collected. As a result, it is possible to absorb slight fluctuations in terms of words and notations used in sentences and to extract appearance frequency features of statistically stable syntax structures. As a result, even when the number of sentences included in the input text data is relatively small, it is possible to extract words with high accuracy.

[4]また、本発明の一態様は、上記の言語処理装置において、前記学習結果データ記憶部から読み出した前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部をさらに具備することを特徴とする。   [4] Moreover, one aspect of the present invention is based on the premise that in the language processing apparatus, the processing target word pair appears in a sentence using the learning result data read from the learning result data storage unit. The conditional probability that the sentence belongs to the class, the conditional probability that the sentence belongs to the class assuming that the co-occurrence word appears in the sentence, and the syntax structure appearing in the sentence A probability value calculation processing unit for calculating a conditional probability that a sentence belongs to the class is further provided.

この構成により、処理対象単語ペアが前記クラスに属する確率や、共起単語が前記クラスに属する確率や、構文構造が前記クラスに属する確率を算出することができる。つまり、例えば適宜確率についての閾値を用いることなどにより、文およびそこに含まれる処理対象単語ペアや共起単語や構文構造が、そのクラスに属するか否かを判定することができる。   With this configuration, it is possible to calculate the probability that the processing target word pair belongs to the class, the probability that the co-occurrence word belongs to the class, and the probability that the syntax structure belongs to the class. That is, for example, by using a threshold for probability as appropriate, it is possible to determine whether a sentence and a processing target word pair, a co-occurrence word, or a syntax structure included in the sentence belong to the class.

[5]また、本発明の一態様による言語処理装置は、上記の言語処理装置によって前記学習結果データ記憶部に書き込まれた前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部を具備することを特徴とする。   [5] In the language processing device according to an aspect of the present invention, the processing target word pair appears in a sentence using the learning result data written in the learning result data storage unit by the language processing device. Assuming that the sentence belongs to the class, the conditional probability that the sentence belongs to the class on the assumption that the co-occurrence word appears in the sentence, and the syntax structure appears in the sentence And a probability value calculation processing unit for calculating a conditional probability that the sentence belongs to the class.

この構成により、予め入力テキストデータを用いて行った機械学習処理の結果である学習結果データを用いて、文およびそこに含まれる処理対象単語ペアや共起単語や構文構造が、そのクラスに属するか否かを判定することができる。
また、機械学習処理に用いた元の入力テキストデータには含まれていなかった別の文を判定対象とすることもできる。
With this configuration, a sentence, a processing target word pair, a co-occurrence word, and a syntax structure included in the class belong to the class by using learning result data that is a result of machine learning processing performed in advance using input text data. It can be determined whether or not.
Also, another sentence that is not included in the original input text data used in the machine learning process can be determined.

[6]また、本発明の一態様は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出過程と、前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出過程と、前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出過程と、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率とを、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理過程との処理をコンピュータに実行させるプログラムである。   [6] According to another aspect of the present invention, a pair of words included in one sentence is selected as a processing target word pair from input text data including a plurality of sentences, and the processing in the input text data is performed. A processing target word pair feature extraction process for extracting a predetermined feature of the appearance frequency of the target word pair, and another word appearing in a sentence including the processing target word pair in the input text data Selecting a predetermined feature of the appearance frequency of the co-occurrence word in the input text data, the processing target word pair and the co-occurrence word in the input text data, A syntactic structure feature extracting process for extracting a predetermined feature of the appearance frequency of the syntax structure in the input text data, and a word related to the processing target concept. The sentence information in the input text data that can be determined that the co-occurrence word belongs to the class representing the relationship of the processing target word pair by referring to the processing target concept related word data, and the appearance of the processing target word pair Based on the frequency feature, the appearance frequency feature of the co-occurrence word, and the appearance frequency feature of the syntax structure, the processing target word when it is assumed that a sentence belongs to a class representing the relationship of the processing target word pair A conditional probability that a pair appears, and a conditional probability that the co-occurrence word appears when a sentence belongs to a class that represents the relationship between the processing target word pairs, and a sentence that relates the processing target word pair The conditional probability that the syntax structure appears when it is assumed that it belongs to the class that represents, is written into the learning result data storage unit as learning result data It is a program for executing processing performs the processing of the machine learning process on the computer.

本発明によれば、テキストに含まれる関係のある単語対とその関係名を表わす単語を抽出することができる。また、出現頻度が低い単語間の関係も高精度に推定することができる。また、関係を構成するときの構文構造の特徴も抽出できる。このような技術は、機械によるテキスト理解の分野でも有用であり、今後、大量のテキストを機械により解析して重要な情報を抽出するような情報分析などの分野での応用が期待できる。   According to the present invention, it is possible to extract a word representing a related word pair and a related name included in the text. In addition, the relationship between words with low appearance frequency can be estimated with high accuracy. It can also extract the features of the syntactic structure when constructing the relationship. Such a technique is also useful in the field of text understanding by machines, and can be expected to be applied in fields such as information analysis in which a large amount of text is analyzed by machines to extract important information.

[第1の実施の形態]
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による言語処理装置の機能構成を示すブロック図である。この図において、符号1は言語処理装置である。図示するように、言語処理装置1は、入力テキスト記憶部2と、学習結果データ記憶部3と、出力データ4と、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12(共起単語特徴抽出部)と、構文構造特徴抽出部13と、機械学習処理部14と、確率値計算処理部15とを含んで構成される。
[First Embodiment]
Next, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram illustrating a functional configuration of the language processing apparatus according to the present embodiment. In this figure, reference numeral 1 denotes a language processing device. As illustrated, the language processing apparatus 1 includes an input text storage unit 2, a learning result data storage unit 3, output data 4, a processing target word pair feature extraction unit 11, and a co-occurrence noun feature extraction unit 12 (co-occurrence). Word feature extraction unit), syntactic structure feature extraction unit 13, machine learning processing unit 14, and probability value calculation processing unit 15.

入力テキスト記憶部2は、処理対象となる入力テキストデータを記憶する。この入力テキストデータには大量の文が含まれている。   The input text storage unit 2 stores input text data to be processed. This input text data contains a large amount of sentences.

処理対象単語ペア特徴抽出部11は、処理対象属性を予め決め、その属性に属する名詞ペアを処理対象単語ペアとする。この処理対象単語ペアに対して、その出現回数などの特徴を入力テキストから抽出する。言い換えれば、処理対象単語ペア特徴抽出部11は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、入力テキストデータ中の処理対象単語ペアの出現頻度の所定の特徴を抽出する。   The processing target word pair feature extraction unit 11 determines a processing target attribute in advance and sets a noun pair belonging to the attribute as the processing target word pair. Features such as the number of appearances of this processing target word pair are extracted from the input text. In other words, the processing target word pair feature extraction unit 11 selects a pair of words included in one sentence as processing target word pairs from the input text data including a plurality of sentences, and processes the processing target in the input text data. Predetermined features of the appearance frequency of word pairs are extracted.

共起名詞特徴抽出部12は、一文中に出現する処理対象属性に属する2つの名詞(名詞ペア)に対して、その関係の候補となる同一文に出現する他の名詞に対して、その出現回数などの特徴を入力テキストから抽出する。言い換えれば、共起名詞特徴抽出部12は、入力テキストデータの中の処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、入力テキストデータ中の共起単語の出現頻度の所定の特徴を抽出する。   The co-occurrence noun feature extraction unit 12 generates two nouns (noun pairs) belonging to the processing target attribute appearing in one sentence, with respect to other nouns appearing in the same sentence that are candidates for the relationship. Extract features such as frequency from the input text. In other words, the co-occurrence noun feature extraction unit 12 selects another word appearing in the sentence including the processing target word pair in the input text data as the co-occurrence word, and the co-occurrence word in the input text data. A predetermined feature of the appearance frequency of is extracted.

構文構造特徴抽出部13は、処理対象単語ペアと共起する名詞との間の構文構造特徴を抽出する。具体的には、構文構造特徴抽出部13は、一文中に出現する処理対象属性に属する2つの名詞と、同一文に出現する他の名詞との3文節間の構文構造の出現回数などの特徴を入力テキストから抽出する。言い換えれば、構文構造特徴抽出部13は、入力テキストデータの中の処理対象単語ペアと共起単語とが含まれる文の構文構造を抽出し、入力テキストデータの中の構文構造の出現頻度の所定の特徴を抽出する。   The syntax structure feature extraction unit 13 extracts a syntax structure feature between a processing target word pair and a co-occurrence noun. Specifically, the syntax structure feature extraction unit 13 includes features such as the number of appearances of the syntax structure between three phrases of two nouns belonging to the processing target attribute appearing in one sentence and other nouns appearing in the same sentence. Is extracted from the input text. In other words, the syntax structure feature extraction unit 13 extracts the syntax structure of the sentence including the processing target word pair and the co-occurrence word in the input text data, and determines the appearance frequency of the syntax structure in the input text data. Extract features.

機械学習処理部14は、処理対象単語ペア特徴抽出部11と共起名詞特徴抽出部12と構文構造特徴抽出部13の結果を入力として、EMアルゴリズムによる機械学習処理を行なう。詳しくは、機械学習処理部14は、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより共起単語が処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、処理対象単語ペアの出現頻度特徴と、共起単語の出現頻度特徴と、構文構造の出現頻度特徴とに基づいて、文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき処理対象単語ペアが出現する条件付き確率、および文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき共起単語が出現する条件付き確率、および文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき構文構造が出現する条件付き確率とを、学習結果データとして学習結果データ記憶部に書き込む処理を行なう。   The machine learning processing unit 14 receives the results of the processing target word pair feature extraction unit 11, the co-occurrence noun feature extraction unit 12, and the syntax structure feature extraction unit 13, and performs machine learning processing using an EM algorithm. Specifically, the machine learning processing unit 14 can determine that a co-occurrence word belongs to a class representing a relationship between processing target word pairs by referring to processing target concept related word data in which words related to the processing target concept are stored in advance. Based on the sentence information in the input text data, the appearance frequency feature of the processing target word pair, the appearance frequency feature of the co-occurrence word, and the appearance frequency feature of the syntax structure, the sentence indicates the relationship between the processing target word pair. Conditional probability that a processing word pair will appear when it is assumed that it belongs to the class to be represented, and conditional probability that a co-occurrence word will appear if it is assumed that the sentence belongs to a class that represents the relationship between the processing word pairs , And conditional probabilities that the syntax structure appears when the sentence is assumed to belong to a class that represents the relationship of the word pairs to be processed as learning result data It performs a process of writing the over data storage unit.

学習結果データ記憶部3は、機械学習処理の結果得られるデータ(確率値のデータ)を記憶するためのものである。   The learning result data storage unit 3 is for storing data (probability value data) obtained as a result of the machine learning process.

確率値計算処理部15は、機械学習処理部14の結果である学習結果データを学習結果データ記憶部3から読み出し、処理対象名詞ペアが相互に関係を持つ確率と、処理対象名詞ペアと共起した名詞が関係を表す単語である確率と、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率を計算して出力する。言い換えれば、確率値計算処理部15は、学習結果データを用いて、文に処理対象単語ペアが出現することを前提として当該文がクラスに属する条件付き確率と、文に共起単語が出現することを前提として当該文がクラスに属する条件付き確率と、文に構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する。
出力データ4は、確率値計算処理部15によって出力されるデータである。
The probability value calculation processing unit 15 reads out the learning result data that is the result of the machine learning processing unit 14 from the learning result data storage unit 3, and the probability that the processing target noun pairs are related to each other, and the processing target noun pair co-occurs. The probability that the noun is a word representing a relationship and the probability that the syntactic structure between the noun co-occurring with the processing target noun pair is a relationship is calculated and output. In other words, the probability value calculation processing unit 15 uses the learning result data, and on the assumption that a processing target word pair appears in the sentence, the probability that the sentence belongs to the class, and a co-occurrence word appears in the sentence. Assuming that the sentence belongs to a class, a conditional probability that the sentence belongs to the class is calculated on the assumption that a syntax structure appears in the sentence.
The output data 4 is data output by the probability value calculation processing unit 15.

図2は、言語処理装置1の全体の処理の手順を示すフローチャートである。以下では、このフローチャートを参照しながら、言語処理装置1全体の処理の流れについて、説明する。   FIG. 2 is a flowchart showing an overall processing procedure of the language processing apparatus 1. Hereinafter, the processing flow of the entire language processing apparatus 1 will be described with reference to this flowchart.

本装置では、まずステップS01において、処理対象単語ペア特徴抽出部11が、処理対象属性を決め、その属性に属する名詞ペアを入力テキスト記憶部2から読み出したテキスト中から抽出する。処理対象属性の例としては、「動物」、「人」、「国」、「団体」などといった属性が挙げられる。処理対象単語ペア特徴抽出部11は、与えられた処理対象属性に属する名詞ペアを決定し、入力テキストに対する、その名詞ペアの出現頻度特徴を計算する。   In this apparatus, first, in step S01, the processing target word pair feature extraction unit 11 determines a processing target attribute, and extracts a noun pair belonging to the attribute from the text read from the input text storage unit 2. Examples of attributes to be processed include attributes such as “animal”, “person”, “country”, “organization”, and the like. The processing target word pair feature extraction unit 11 determines a noun pair belonging to the given processing target attribute, and calculates an appearance frequency feature of the noun pair for the input text.

次にステップS02において、共起名詞特徴抽出部12が、上で決定した処理対象属性に属する名詞ペアと同じ文中に出現する他の名詞(これが関係候補となる名詞であるが、処理対象単語ペアと共起する名詞であるので、以後、便宜的に「共起名詞」と呼ぶ)を、その関係の候補として一つ選択し、当該共起名詞の入力テキストに対する出現頻度特徴を計算する。   Next, in step S02, the co-occurrence noun feature extraction unit 12 uses another noun that appears in the same sentence as the noun pair belonging to the processing target attribute determined above (this is a noun that is a relation candidate, but the processing target word pair Therefore, for convenience, the term “co-occurrence noun” is selected as a candidate for the relationship, and the appearance frequency feature for the input text of the co-occurrence noun is calculated.

そしてステップS03において、構文構造特徴抽出部13は、処理対象単語ペア特徴抽出部11が決定した処理対象属性に属する名詞ペアと、共起名詞特徴抽出部12が決定した共起名詞との間の構文構造を抽出し、その出現回数を計算する。ここで、構文特徴とは、文中の文節間の係り受け構造である。構文構造特徴抽出部13は、既存技術を用いて該当する文の構文解析処理を行ない、得られた構文木のデータを基に、当該文の係り受け構造を表わす3つのリストを生成する。   In step S03, the syntax structure feature extraction unit 13 determines between the noun pair belonging to the processing target attribute determined by the processing target word pair feature extraction unit 11 and the co-occurrence noun determined by the co-occurrence noun feature extraction unit 12. Extract the syntax structure and calculate the number of occurrences. Here, the syntactic feature is a dependency structure between clauses in a sentence. The syntax structure feature extraction unit 13 performs syntax analysis processing of the corresponding sentence using existing technology, and generates three lists representing the dependency structure of the sentence based on the obtained syntax tree data.

まず、対象としている名詞ペアと共起名詞特徴抽出部12が決定した共起名詞との共通係り先の文節(共通係り先文節)を抽出する。そして、上記の3つのリストとは、まず第1に、対象としている名詞ペア中の一つ目の名詞から、上記の共通係り先の文節への係り受け構造を表わすリストである。そして第2に、対象としている名詞ペア中の二つ目の名詞から、上記の共通係り先の文節への係り受け構造を表わすリストである。そして第3に、これら以外の部分で、上記の共通係り先の文節を修飾する構造を表わすリストである。なおこのとき、係り先の文節として、係り元の文節自体も含めて処理を行う。   First, a common connection clause (common connection clause) between the target noun pair and the co-occurrence noun determined by the co-occurrence noun feature extraction unit 12 is extracted. The above three lists are first lists representing the dependency structure from the first noun in the target noun pair to the above-mentioned common dependency clause. Second, it is a list representing the dependency structure from the second noun in the target noun pair to the common dependency destination clause. Thirdly, the list represents a structure that modifies the above-mentioned common relation clause in parts other than these. At this time, processing is performed including the original clause itself as the related clause.

このとき、構文構造特徴抽出部13は、各文節を、名詞や動詞などの自立語部分と、助詞などの付属語部分とに分割する。例えば、「プレーリードッグにとってイヌワシは 恐ろしい天敵です。」という文を処理する場合であって、「プレーリードッグ」と「イヌワシ」が処理対象単語ペア特徴抽出部11によって決定された名詞ペアであり、また「天敵」が共起名詞特徴抽出部12によって決定された共起名詞である場合、下記の3つのリストが構文構造として取り出される。   At this time, the syntax structure feature extraction unit 13 divides each clause into independent word parts such as nouns and verbs and auxiliary word parts such as particles. For example, in the case of processing a sentence “a golden eagle is a terrible natural enemy for a prairie dog”, “prairie dog” and “gold eagle” are noun pairs determined by the processing target word pair feature extraction unit 11, and “natural enemy” Are co-occurrence nouns determined by the co-occurrence noun feature extraction unit 12, the following three lists are extracted as a syntax structure.

第1のリスト=「プレーリードッグ」から共通係り先の文節「天敵です」までの構文構造: 「名詞1」,にとって
第2のリスト=「イヌワシ」から共通係り先の文節「天敵です」までの構文構造: 「名詞2」,は
第3のリスト=「天敵です」を修飾する構文構造: 恐ろしい,NULL,「名詞3」
1st list = Syntax structure from “Pralee Dog” to common “clause” sentence: “Noun 1”, 2nd list = syntax from “Eagles” to common “clause” sentence Structure: “Noun 2”, is the third list = “Neighbors” is a syntactic structure: Scary, NULL, “Noun 3”

この例では、「名詞1」は「プレーリードッグ」であり、「名詞2」は「イヌワシ」であり、「名詞3」は「天敵」である。なお、上の3つのリストを抽出する元になる係り受け構造は、「イヌワシ−は−天敵−です」,「プレーリードッグ−にとって−天敵−です」,「恐ろしい−天敵」などであり、この係り受け構造は、構文解析処理によって取得可能である。   In this example, “noun 1” is “prairie dog”, “noun 2” is “dog eagle”, and “noun 3” is “natural enemy”. Note that the dependency structure from which the above three lists are extracted is “The eagle is a natural enemy”, “The prairie dog is a natural enemy”, “Horrible natural enemy”, etc. The structure can be obtained by a parsing process.

そして、構文構造特徴抽出部13は、これら3つのリストの組が全く同一であるものの出現頻度をカウントする。   Then, the syntax structure feature extraction unit 13 counts the appearance frequencies of those sets whose three lists are exactly the same.

但し、3つのリストの組が全く同一であるものの出現頻度をカウントする代わりに、互いの類似度が所定値以上となる組の出現頻度をカウントするようにしても良い。ここで用いる類似度としては、例えば、上記の3つのリストに出現する名詞1〜3以外の共通単語の割合で判断することができる。例えば、上に示した第1の文「プレーリードッグにとってイヌワシは 恐ろしい天敵です。」と、別の第2の文「プレーリードッグにとってイヌワシは 天敵です。」という文から取り出した構造との共通単語の割合は、次のように計算できる。即ち、第2の文から得られる3つのリストは、次の通りである。
第1のリスト=「プレーリードッグ」から「天敵です」までの構文構造: 「名詞1」,にとって
第2のリスト=「イヌワシ」から「天敵です」までの構文構造: 「名詞2」,は
第3のリスト=「天敵です」を修飾する構文構造: 「名詞3」
そして、第1の文の3つのリストと第2の文の3つのリストとの間の共通単語は、「にとって」と「は」であり、これらが第1の文と第2の文に出現しているので、共通単語数は4である。また、共通でない単語は「恐ろしい」と「NULL」であり、共通でない単語数は2である。よって、これらの文の類似度は4/(4+2)であり、即ち4/6と計算できる。
However, instead of counting the appearance frequency of the three lists that are exactly the same, it is also possible to count the appearance frequencies of the sets whose mutual similarity is a predetermined value or more. The similarity used here can be determined, for example, by the ratio of common words other than nouns 1 to 3 appearing in the above three lists. For example, the ratio of common words with the structure taken from the sentence of the first sentence shown above, “The golden eagle is a terrible natural enemy for the prairie dog,” and the second sentence, “The golden eagle is a natural enemy for the prairie dog.” And can be calculated as follows: That is, the three lists obtained from the second sentence are as follows.
The first list = syntactic structure from "Pralee Dog" to "is a natural enemy": "Noun 1", and the second list = syntactic structure from "Inu Eagle" to "is a natural enemy": "Noun 2" is the third List structure = "Noun 3"
The common words between the three lists of the first sentence and the three lists of the second sentence are “for” and “ha”, and they appear in the first sentence and the second sentence. Therefore, the number of common words is 4. Further, the words that are not common are “Awesome” and “NULL”, and the number of words that are not common is two. Therefore, the similarity of these sentences is 4 / (4 + 2), that is, it can be calculated as 4/6.

上述したように、構文構造特徴抽出部13は、名詞1(処理対象単語ペアに含まれる第1の単語)と名詞2(当該処理対象単語ペアに含まれる第2の単語)と共起単語との共通係り先の文節を取り出し、第1の単語から共通係り先の文節までの構文構造と、第2の単語から共通係り先の文節までの構文構造と、これら以外の部分で、その共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定している。   As described above, the syntax structure feature extraction unit 13 includes the noun 1 (the first word included in the processing target word pair), the noun 2 (the second word included in the processing target word pair), the co-occurrence word, The common relationship clause is taken out, the syntax structure from the first word to the common relationship clause, the syntax structure from the second word to the common relationship clause, and the other portions are the common relationships. The syntactic structure of the sentence is identified by a combination with the syntactic structure that modifies the previous clause.

また、構文構造特徴抽出部13が、全く同一の構文構造の出現頻度をカウントする代わりに、互いの類似度が所定値以上となる組の出現頻度をカウントするような場合には、構文構造特徴抽出部13は、構文構造を表わす単語のリストに出現する単語であって、名詞1でも名詞2でも共起名詞でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出しているといえる。   Further, when the syntax structure feature extraction unit 13 counts the appearance frequency of a pair whose similarity is equal to or higher than a predetermined value instead of counting the appearance frequency of the completely same syntax structure, the syntax structure feature The extraction unit 13 includes a plurality of syntax structures that are words that appear in the list of words representing the syntax structure and that have a common ratio of words that are not the noun 1, the noun 2, or the co-occurrence noun more than a predetermined threshold. Is a syntactic structure group having a similar syntactic structure, and the appearance frequency feature of this syntactic structure group is extracted as the appearance frequency feature of the syntactic structure.

ここで、処理対象単語ペア特徴抽出部11と共起名詞特徴抽出部12と構文構造特徴抽出部13とがそれぞれ計算する出現頻度特徴について説明する。これらの出現頻度特徴の情報は、後の機械学習処理部14による機械学習の処理において用いられる。
一文中に出現する与えられた処理対象属性に属する名詞ペアと、当該文に出現する他の名詞と、これら3つの名詞間の構文構造の3項組をtと表現する。また、この3項組に含まれる名詞ペアをCPtとし、同一文に出現する他の名詞であって関係候補となる名詞をRPtとし、これら3つの名詞間の構文構造をSPtとする。
Here, the appearance frequency features calculated by the processing target word pair feature extraction unit 11, the co-occurrence noun feature extraction unit 12, and the syntax structure feature extraction unit 13 will be described. Information on these appearance frequency features is used in the machine learning process by the machine learning processing unit 14 later.
And noun pairs belonging to the processing target attribute given appear in one sentence, and other nouns appearing in the statement, 3-tuple syntax structure between these three noun is expressed as t i. In addition, a noun pair included in this triplet is CPt i , another noun appearing in the same sentence and a noun that is a candidate for relation is RPt i, and a syntactic structure between these three nouns is SPt i . .

処理対象単語ペア特徴抽出部11は、上記の抽出結果を基に、名詞ペアの種類の出現総数をカウントする。また、処理対象単語ペア特徴抽出部11は、ある3項組tに含まれる名詞ペアCPtが3項組tに含まれるか否かの情報を取得する。 The processing target word pair feature extraction unit 11 counts the total number of appearances of noun pair types based on the extraction result. Further, the processing target word pairs feature extraction unit 11 obtains information on whether the noun pair CPt i included in a certain 3-tuple t i is included in the 3-tuple t k.

共起名詞特徴抽出部12は、上記の抽出結果を基に、共起名詞の種類の出現総数をカウントする。また、共起名詞特徴抽出部12は、ある3項組tに含まれる共起名詞RPtが3項組tに含まれるか否かの情報を取得する。 The co-occurrence noun feature extraction unit 12 counts the total number of types of co-occurrence nouns based on the extraction result. Moreover, co-occurrence noun feature extraction unit 12 obtains information on whether the co-occurrence noun RPt i included in a certain 3-tuple t i is included in the 3-tuple t k.

構文構造特徴抽出部13は、上記の分析の結果を基に、構文構造の種類の出現総数をカウントする。また、構文構造特徴抽出部13は、ある3項組tに含まれる構文構造SPtが3項組tに含まれるか否かの情報を取得する。 The syntax structure feature extraction unit 13 counts the total number of types of syntax structure based on the result of the above analysis. Also, syntactic structure feature extraction unit 13 acquires information on whether the syntactic structure SPt i included in a certain 3-tuple t i is included in the 3-tuple t k.

機械学習処理部14は、上述した処理対象単語ペア特徴抽出部11と共起名詞特徴抽出部12と構文構造特徴抽出部13からの出力を入力データとして用いて学習処理を行なう。
機械学習処理部14は、まずステップS04において、それらの入力データから、明らかに関係を表すと判断できる文を抽出する。例えば、動物を処理対象概念とした場合、共起名詞特徴抽出部12で得られた共起名詞(この共起名詞は、単語ペアの関係を表わす候補である)が、「弱い」、「大好物」、「好物」、「天敵」、「敵」、「仲間」、「大敵」、「得意」、「種類」、「獲物」、「食べる」などやその同義語や類義語である文を抽出する。これらは、動物という処理対象概念について関係を表すと明らかに判断できる名詞であるためである。なお、処理対象概念とここで抽出対象となる名詞(単語)との関係は、予め定義した処理対象概念関連語データとして記憶部(図示せず)に記憶しておく。例えば、概念辞書のデータをその目的のデータとして使用することができる。機械学習処理部14は、この処理対象概念関連語データを記憶部から読み出して(参照して)比較することにより、共起名詞特徴抽出部12で得られた共起名詞がその処理対象概念についての関係を表わすか否かを判断し、その判断に基づき、入力データの中から関係を表すと判別できる文を抽出する。
The machine learning processing unit 14 performs learning processing using the output from the processing target word pair feature extraction unit 11, the co-occurrence noun feature extraction unit 12, and the syntax structure feature extraction unit 13 as input data.
First, in step S04, the machine learning processing unit 14 extracts sentences that can be determined to clearly represent a relationship from the input data. For example, when an animal is a concept to be processed, the co-occurrence noun obtained by the co-occurrence noun feature extraction unit 12 (the co-occurrence noun is a candidate representing the relationship between word pairs) is “weak”, “large” Extracts sentences that are synonyms or synonyms such as “favorite”, “favorite”, “natural enemy”, “enemy”, “friend”, “great enemy”, “special”, “kind”, “prey”, “eat” To do. This is because these are nouns that can be clearly judged to express the relationship with respect to the processing target concept of animals. The relationship between the processing target concept and the noun (word) to be extracted here is stored in a storage unit (not shown) as processing target concept related word data defined in advance. For example, conceptual dictionary data can be used as the target data. The machine learning processing unit 14 reads (refers to) the processing target concept related word data from the storage unit and compares them, so that the co-occurrence noun obtained by the co-occurrence noun feature extraction unit 12 has the processing target concept. Based on the determination, a sentence that can be determined to represent the relationship is extracted from the input data.

3項組tにおいて、その3項組を構成するCPt,RPt,SPtが、関係を表現する場合(クラス)をcとし、関係を表現しない場合(クラス)をcとする。それらの確率は、下の式(1)によって定義できる。 In the ternary set t i , CPt i , RPt i , SPt i constituting the ternary set represent c 1 as a class (class), and c 0 as a class not represented (class). . Those probabilities can be defined by equation (1) below.

Figure 2009265889
Figure 2009265889

式(1)において、P(CPt|c)は、クラスcのときにtに含まれる2つの名詞ペアCPtが出現する確率である。また、P(RPt|c)は、クラスcのときにtに含まれる関係候補の名詞(同一文に出現する共起名詞)RPtが出現する確率である。また、P(SPt|c)は、クラスcのときにtに含まれる3つの名詞間の構文構造SPtが出現する確率である。 In Expression (1), P (CPt i | c j ) is a probability that two noun pairs CPt i included in t i appear in class c j . P (RPt i | c j ) is a probability that a noun (a co-occurring noun that appears in the same sentence) RPt i included in t i appears in class c j . P (SPt i | c j ) is a probability that a syntactic structure SPt i between three nouns included in t i appears in the case of class c j .

この式を利用して、次に機械学習処理部14は、ステップS05において、EMアルゴリズム(Expectation-maximization algorithm)を利用した機械学習を行なう。なお、EMアルゴリズムを用いた学習処理の手順は次に示すが、下記参考文献にも記載されている。
参考文献: Kamel Nigam et al.,“Text Classification from Labeled and Unlabeled Document using EM.”,Machine Learning,Vol.39,No.2/3,pp.103-134 (2000).
Next, in step S05, the machine learning processing unit 14 performs machine learning using an EM algorithm (Expectation-maximization algorithm) using this equation. In addition, although the procedure of the learning process using EM algorithm is shown next, it is described also in the following reference.
Reference: Kamel Nigam et al., “Text Classification from Labeled and Unlabeled Document using EM.”, Machine Learning, Vol.39, No.2 / 3, pp.103-134 (2000).

この機械学習処理(ステップS05内の処理)については別のフローチャートを参照して説明する。
図3は、機械学習処理部14がEMアルゴリズムを用いて行なう機械学習処理の手順を示すフローチャートである。
まずステップS21において、機械学習処理部14は、入力テキスト記憶部2から処理対象のテキストデータを読み込み、このテキストデータから得られるtが属するクラスcの初期確率P(c|t)を、下の式(2)により計算する。なお、クラスcは、cまたはcのいずれかであり、それらの定義は前述の通りである。
This machine learning process (the process in step S05) will be described with reference to another flowchart.
FIG. 3 is a flowchart showing a procedure of machine learning processing performed by the machine learning processing unit 14 using the EM algorithm.
First, in step S21, the machine learning processing unit 14 reads the text data to be processed from the input text storage unit 2, and the initial probability P (c j | t i ) of the class c j to which t i obtained from the text data belongs. Is calculated by the following equation (2). The class c j is either c 0 or c 1 , and their definition is as described above.

Figure 2009265889
Figure 2009265889

この初期確率の計算においては、機械学習処理部14によって、明らかに関係を表すと判断された文(上述)から抽出された3項組tについて、関係を表現する場合のクラスcに属する回数を1とカウントする。また、それ以外の文から抽出された3項組tについて、関係を表現する場合のクラスcに属する回数を0以上且つ1未満の所定値(例えば0.5)とカウントする。この所定値は0.5に限らず適宜変更できる。また、ある文のあるtについて、上記によってcが決まると、その文のそのtについてのcは、c=1−cによって決定する。そして、そのtが出現するすべての文についてのカウントの総和をとり、得られたcおよびcカウントの結果を用いて、式(2)の分子を算出する。 In the calculation of the initial probability, the machine learning processing unit 14 belongs to the class c 1 in the case of expressing the relationship for the ternary set t i extracted from the sentence (described above) that is clearly determined to represent the relationship. Count the number as 1. For the ternary set t i extracted from other sentences, the number of times belonging to the class c 1 when expressing the relationship is counted as a predetermined value (for example, 0.5) of 0 or more and less than 1. This predetermined value is not limited to 0.5 and can be changed as appropriate. Further, when c 1 is determined for a certain t i of a sentence, c 0 for the t i of the sentence is determined by c 0 = 1−c 1 . Then, taking the count sum of for all sentences that t i appears, with the results of the c 0 and c 1 count, calculates the numerator of equation (2).

なお、ステップS21の初期確率を計算する処理は、EMアルゴリズムのEステップである。   In addition, the process which calculates the initial probability of step S21 is E step of EM algorithm.

次にステップS22において、機械学習処理部14は、クラスcのもとで名詞ペアCPtが発生する確率P(CPt|c)を式(3)により、クラスcのもとで共起名詞RPtが発生する確率P(RPt|c)を式(4)により、クラスcのもとで3つの名詞間の構文構造SPtが発生する確率P(SPt|c)を式(5)により、それぞれ算出する。 Next, in step S22, the machine learning processing unit 14 obtains the probability P (CPt i | c j ) of occurrence of the noun pair CPt i under the class c j using the equation (3) under the class c j . The probability P (SPt i | c j ) of occurrence of the co-occurrence noun RPt i is expressed by the equation (4), and the probability P (SPt i | c of occurrence of the syntactic structure SPt i between the three nouns under the class c j. j ) is calculated by equation (5).

つまり、式(3)はクラスcのときの処理対象単語ペアの条件付き確率を算出するための式であり、式(4)はクラスcのときの共起単語の条件付き確率を算出するための式であり、式(5)はクラスcのときの前記構文構造の条件付き確率を算出するための式である。
なお、ステップS22の各確率を計算する処理は、EMアルゴリズムのMステップである。
That is, equation (3) is an equation for calculating the conditional probability of the word pair to be processed when class c j , and equation (4) calculates the conditional probability of the co-occurrence word when class c j. Equation (5) is an equation for calculating the conditional probability of the syntax structure for class c j .
In addition, the process which calculates each probability of step S22 is M step of EM algorithm.

Figure 2009265889
Figure 2009265889

Figure 2009265889
Figure 2009265889

Figure 2009265889
Figure 2009265889

上の式(3),(4),(5)において、|CP|は名詞ペアの出現総数を表わし、|RP|は関係候補となる名詞の出現総数を表わし、|SP|は3名詞の構文構造の出現総数を表わし、|T|は3項組の出現総数を表す。N(CPt|t)は、3項組tに含まれる名詞ペアが3項組tに含まれるか否かを表す関数である。N(RPt|t)は、3項組tに含まれる関係候補となる名詞(共起名詞)が3項組tに含まれるか否かを表す関数である。N(SPt|t)は、3項組tに含まれる3名詞の構文構造が3項組tに含まれるか否かを表す関数である。これらの、含まれるか否かを表わす関数は、それぞれ、含まれる場合は1を値として返し、含まれない場合は0を値として返す。 In the above formulas (3), (4), and (5), | CP | represents the total number of noun pairs, | RP | represents the total number of nouns that are relation candidates, and | SP | This represents the total number of occurrences of the syntax structure, and | T | N (CPt i | t k ) is a function indicating whether or not a noun pair included in the ternary set t i is included in the ternary set t k . N (RPt i | t k) is a function indicating whether a noun which is a relationship candidates included in the 3-tuple t i (co-occurrence noun) are included in the 3-tuple t k. N (SPt i | t k) is a function indicating whether 3 noun syntax structure included in the three-tuple t i is included in the 3-tuple t k. Each of these functions indicating whether or not they are included returns 1 as a value when they are included, and returns 0 as a value when they are not included.

なお、式(3)が表わすように、確率P(CPt|c)の分母の第1項は名詞ペアの出現総数である。分母の第2項は、3項組tに名詞ペアCPtが含まれる場合のtを前提としたcの条件付き確率(便宜的にXcと呼ぶ)の、全ての3項組且つ全ての名詞ペアについての総和である。また、分子の第1項は定数項(1)である。分子の第2項は、上記Xcの、当該名詞ペアCPtについての全ての3項組についての総和である。
また、式(4)が表わすように、確率P(RPt|c)の分母の第1項は共起名詞の出現総数である。分母の第2項は、3項組tに共起名詞RPtが含まれる場合のtを前提としたcの条件付き確率(便宜的にXrと呼ぶ)の、全ての3項組且つ全ての共起名詞についての総和である。また、分子の第1項は定数項(1)である。分子の第2項は、上記Xrの、当該共起名詞RPtについての全ての3項組についての総和である。
また、式(5)が表わすように、確率P(SPt|c)の分母の第1項は構文構造の出現総数である。分母の第2項は、3項組tに構文構造SPtが含まれる場合のtを前提としたcの条件付き確率(便宜的にXsと呼ぶ)の、全ての3項組且つ全ての構文構造についての総和である。また、分子の第1項は定数項(1)である。分子の第2項は、上記Xsの、当該構文構造SPtについての全ての3項組についての総和である。
As represented by Equation (3), the first term of the denominator of the probability P (CPt i | c j ) is the total number of noun pairs. The second term in the denominator, the conditional probability of c j which assumes t k of if they contain noun pair CPt m to 3-tuple t k (conveniently referred to as Xc), all 3-tuple and Sum of all noun pairs. The first term of the numerator is the constant term (1). The second term of the numerator is the sum total of all three terms of the noun pair CPt i of Xc.
Further, as expressed by equation (4), the first term of the denominator of the probability P (RPt i | c j ) is the total number of co-occurrence nouns. The second term in the denominator, the conditional probability of c j which assumes t k of if they contain co-occurrence noun RPt m to 3-tuple t k (conveniently referred to as Xr), all three tuple And it is the sum total about all the co-occurrence nouns. The first term of the numerator is the constant term (1). The second term of the numerator is the Xr, the sum of all the 3-tuple for that co-occurrence noun RPt i.
Further, as expressed in equation (5), the first term of the denominator of the probability P (SPt i | c j ) is the total number of occurrences of the syntax structure. The second term of the denominator is all ternary groups of the conditional probabilities of c j (referred to as Xs for convenience) assuming t k when the ternary set t k contains the syntax structure SPt m and The sum of all syntax structures. The first term of the numerator is the constant term (1). The second term of the numerator is the sum of all three terms of the syntactic structure SPt i of Xs.

次にステップS23において、機械学習処理部14は、上で式(3),(4),(5)によりそれぞれ計算された確率P(CPt|c)とP(RPt|c)とP(SPt|c)の値を用いて、下の式(6)により、P(c|t)の期待値を計算する。 Next, in step S23, the machine learning processing unit 14 calculates the probabilities P (CPt i | c j ) and P (RPt i | c j ) calculated by the equations (3), (4), and (5), respectively. And the value of P (SPt i | c j ), the expected value of P (c j | t i ) is calculated by the following equation (6).

Figure 2009265889
Figure 2009265889

そして、ステップS24において、機械学習処理部14は、式(6)の結果を用いて、下の式(7)により、P(c)の値を計算する。 In step S < b > 24, the machine learning processing unit 14 calculates the value of P (c j ) according to the following equation (7) using the result of the equation (6).

Figure 2009265889
Figure 2009265889

式(7)において、|c|は分類すべきクラスの数を指すものであり、ここではクラスはcとcの2種類であるので、|c|は2である。 In Expression (7), | c | indicates the number of classes to be classified. Here, there are two classes c 0 and c 1 , and | c | is 2.

そして、ステップS25において、機械学習処理部14は、収束条件の判断を行い、収束していなければステップS22に戻り(ステップS25:NO)、収束していればこのフローチャートで示した学習処理全体を終了する(ステップS25:YES)。   In step S25, the machine learning processing unit 14 determines the convergence condition, and if not converged, returns to step S22 (step S25: NO), and if converged, the entire learning process shown in this flowchart is performed. The process ends (step S25: YES).

この収束条件の判断は、具体的には、ステップS24で算出されたP(c)の値の前回算出時からの変化量ΔP(c)が、所定の閾値(例えば、1.0×10−3)未満であるか否かにより行なう。つまり、変化量ΔP(c)がその閾値以上であれば(ステップS25:NO)、ステップS22に戻り、再度このフローチャートの手順に従って、新たなP(c)およびP(c|t)の値を利用して、P(CPt|c)とP(RPt|c)とP(SPt|c)の値を計算し(ステップS22)、ステップS25において変化量ΔP(c)がその閾値より小さい値となるまで、ステップS22〜S25の処理を繰り返す。ステップS25において、P(c)の変化量ΔP(c)がその閾値より小さい場合には(ステップS25:YES)、このフローチャートで示した学習処理全体を終了する。 Specifically, the determination of the convergence condition is based on the fact that the amount of change ΔP (c j ) from the previous calculation of the value of P (c j ) calculated in step S24 is a predetermined threshold (for example, 1.0 × It is carried out depending on whether it is less than 10 −3 ). That is, if the change amount ΔP (c j ) is equal to or greater than the threshold (step S25: NO), the process returns to step S22, and new P (c j ) and P (c j | t i are again performed according to the procedure of this flowchart. ) Is used to calculate the values of P (CPt i | c j ), P (RPt i | c j ), and P (SPt i | c j ) (step S22), and the change ΔP in step S25. The processes in steps S22 to S25 are repeated until (c j ) becomes a value smaller than the threshold value. In step S25, if the change amount ΔP of P (c j) (c j ) is smaller than the threshold (step S25: YES), and ends the whole learning process shown in this flowchart.

図2のフローチャートに戻って、ステップS06において、機械学習処理部14は、上の処理手順において最後に計算された確率値P(c|t),P(CPt|c),P(RPt|c),P(SPt|c)を学習結果データ記憶部3に書き込む。 Returning to the flowchart of FIG. 2, in step S06, the machine learning processing unit 14 determines the probability values P (c j | t i ), P (CPt i | c j ), P last calculated in the above processing procedure. (RPt i | c j ) and P (SPt i | c j ) are written in the learning result data storage unit 3.

そしてステップS07において、確率値計算処理部15は、機械学習処理部14によって出力され学習結果データ記憶部3に書き込まれたP(c|t),P(CPt|c),P(RPt|c),P(SPt|c)を読み出し、これらの値を基に、確率値の計算を行なう。確率値計算処理部15が算出するのは、処理対象名詞ペアが関係を持つ確率P(c|CPt)と、処理対象名詞ペアと共起した名詞が関係を持つ確率P(c|RPt)と、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率P(c|SPt)であり、これらはそれぞれ、式(8),(9),(10)により計算される。 In step S07, the probability value calculation processing unit 15 outputs P (c j | t i ), P (CPt i | c j ), P output from the machine learning processing unit 14 and written in the learning result data storage unit 3. (RPt i | c j ) and P (SPt i | c j ) are read, and the probability value is calculated based on these values. The probability value calculation processing unit 15 calculates the probability P (c j | CPt i ) that the processing target noun pair is related to and the probability P (c j | that the noun co-occurring with the processing target noun pair is related. RPt i ) and the probability P (c j | SPt i ) that is a structure in which the syntactic structure between the noun pair that co-occurs with the noun pair to be processed indicates a relationship, and these are respectively the expressions (8) and (9 ) And (10).

Figure 2009265889
Figure 2009265889

Figure 2009265889
Figure 2009265889

Figure 2009265889
Figure 2009265889

確率値計算処理部15は、計算されたこれらの値を出力データ4として出力する。確率値P(c|CPt)は、名詞ペアCPtが関係を持つか否かの度合いを示す。確率値P(c|RPt)は、名詞ペアと共起した名詞RPtが関係を表すか否かの度合いを示す。確率値P(c|SPt)は、処理対象名詞ペアと共起した名詞との間の構文構造SPtが関係を示す構造であるか否かの度合いを示す。これらの出力データにより判定を行なえる。 The probability value calculation processing unit 15 outputs these calculated values as output data 4. The probability value P (c j | CPt i ) indicates the degree of whether or not the noun pair CPt i is related. The probability value P (c j | RPt i ) indicates the degree of whether or not the noun RPt i co-occurring with the noun pair represents a relationship. The probability value P (c j | SPt i ) indicates a degree of whether or not the syntax structure SPt i between the processing target noun pair and the co-occurring noun is a structure indicating a relationship. The determination can be made based on these output data.

なお、確率値計算処理部15が、確率値P(c|CPt)やP(c|RPt)やP(c|SPt)について、それぞれ所定の閾値以上かどうかによる判定を行い、その判定結果を出力するようにしても良い。 Note that the probability value calculation processing unit 15 determines whether the probability values P (c j | CPt i ), P (c j | RPt i ), and P (c j | SPt i ) are equal to or greater than a predetermined threshold value. And the determination result may be output.

<処理結果例>
テキストから関係を抽出するという上記一連の処理を、実データに対象として行なった結果について、次に説明する。ここでは、処理対象属性(対象概念)を「動物」とし、処理対象データは日本放送協会(NHK)によって制作・放送された動物に関するテレビ番組のクローズドキャプションデータを用いている。
<Example of processing results>
Next, the results of performing the above-described series of processing for extracting the relationship from the text on the actual data will be described. Here, the processing target attribute (target concept) is “animal”, and the processing target data is closed caption data of a television program related to animals produced and broadcast by the Japan Broadcasting Corporation (NHK).

図4は、抽出された名詞ペアCPtとそれに関する確率値P(c|CPt)の値を列挙して示す概略図である。この図のデータは、確率値計算処理部15によって出力されたデータをP(c|CPt)の昇順にソートして示しているものである。P(c|CPt)=1−P(c|CPt)であるため、この図では、上に挙げられている名詞ペアほど関係を持つ可能性(度合い)が高いものである。例えば、「名詞1」が「イルカ」で「名詞2」が「ボラ」である名詞ペアについてのP(c|CPt)は0.031である。また、例えば、「名詞1」が「サケ」で「名詞2」が「ヒグマ」である名詞ペアについてのP(c|CPt)は0.044である。また、例えば、「名詞1」が「シロフクロウ」で「名詞2」が「レミング」である名詞ペアについてのP(c|CPt)は0.044である。そして、以下同様である。 FIG. 4 is a schematic diagram showing a list of extracted noun pairs CPt i and probability values P (c 0 | CPt i ) related thereto. The data in this figure shows the data output by the probability value calculation processing unit 15 sorted in ascending order of P (c 0 | CPt i ). Since P (c 1 | CPt i ) = 1−P (c 0 | CPt i ), in this figure, there is a higher possibility (degree) of having a relationship in the noun pairs listed above. For example, P (c 0 | CPt i ) for a noun pair in which “noun 1” is “dolphin” and “noun 2” is “bora” is 0.031. For example, P (c 0 | CPt i ) for a noun pair in which “noun 1” is “salmon” and “noun 2” is “brown bear” is 0.044. Further, for example, P (c 0 | CPt i ) for a noun pair in which “noun 1” is “snow owl” and “noun 2” is “lemming” is 0.044. The same applies to the following.

図5は、抽出された共起名詞RPtとそれに関する確率値P(c|RPt)の値を列挙して示す概略図である。この図のデータは、確率値計算処理部15によって出力されたデータをP(c|RPt)の昇順にソートして示しているものである。P(c|RPt)=1−P(c|RPt)であるため、この図では、上に挙げられている共起名詞ほど、関係を表わす名詞である可能性(度合い)が高いものである。例えば、「名詞3」が「仲間」であるときP(c|RPt)は0.011である。また、例えば、「名詞3」が「食べる」であるときP(c|RPt)は0.012である。そして、以下同様である。 FIG. 5 is a schematic diagram illustrating the extracted co-occurrence noun RPt i and the value of the probability value P (c 0 | RPt i ) related thereto. The data in this figure shows the data output by the probability value calculation processing unit 15 sorted in ascending order of P (c 0 | RPt i ). Since P (c 1 | RPt i ) = 1−P (c 0 | RPt i ), in this figure, the possibility (degree) of a noun representing a relationship is higher as the co-occurrence noun listed above. It is expensive. For example, P (c 0 | RPt i ) is 0.011 when “noun 3” is “companion”. For example, when “noun 3” is “eat”, P (c 0 | RPt i ) is 0.012. The same applies to the following.

図6は、処理対象名詞ペアと共起した名詞との間の構文構造SPtとそれに関する確率値P(c|SPt)の値を列挙して示す概略図である。この図のデータは、確率値計算処理部15によって出力されたデータをP(c|SPt)の昇順にソートして示しているものである。P(c|SPt)=1−P(c|SPt)であるため、この図では、上に挙げられている構文構造ほど、その構文が関係を表わす構造である可能性(度合い)が高いものである。 FIG. 6 is a schematic diagram showing the syntax structure SPt i between the noun pair to be processed and the co-occurring noun and the value of the probability value P (c 0 | SPt i ) related thereto. The data in this figure shows the data output by the probability value calculation processing unit 15 sorted in ascending order of P (c 0 | SPt i ). Since P (c 1 | SPt i ) = 1−P (c 0 | SPt i ), in this figure, the more likely the syntax structure listed above is, the possibility (degree) ) Is high.

この図における構文構造の表記について説明する。表記に現れる記号として、「NP1」は名詞1を表わし、「NP2」は名詞2を表わし、「REL」は関係候補名詞を表わす。構文構造の表記のパターンは次の通りである。即ち、名詞1と名詞2と共起単語との共通係り先の文節を取り出し、名詞1から共通係り先の文節までの構文構造と、名詞2から共通係り先の文節までの構文構造と、共通係り先の文節を修飾する構文構造の3つの構造を、セパレータ文字「=」で区切って表記している。この第1のパターンで表記するのは、名詞1と名詞2の後に関係候補名詞が出現する場合である。   The notation of the syntax structure in this figure will be described. As symbols appearing in the notation, “NP1” represents noun 1, “NP2” represents noun 2, and “REL” represents a relationship noun. The syntax structure notation pattern is as follows. In other words, the common clauses of noun 1, noun 2, and co-occurrence words are taken out, and the syntactic structure from noun 1 to the common clause is common to the syntactic structure from noun 2 to the common clause. Three structures of the syntax structure that modifies the clause at the destination are shown separated by a separator character “=”. This first pattern is used when a candidate noun appears after noun 1 and noun 2.

例えば、この図の第1行目のデータは、名詞1から関係候補名詞までの構文構造が「NP1,は」であり、名詞2から関係候補名詞までの構文構造が「NP2,を」であり、関係候補名詞を修飾する構文構造が「REL」であるような構文構造に対応しており、そのときのP(c|SPt)は0.034である。他の行のデータも同様である。 For example, the data on the first line of this figure shows that the syntax structure from noun 1 to relation candidate noun is “NP1, ha”, and the syntax structure from noun 2 to relation candidate noun is “NP2, a”. , Corresponding to a syntax structure in which the relationship candidate noun is modified as “REL”, and P (c 0 | SPt i ) at that time is 0.034. The same applies to other rows of data.

なお、本実施形態による言語処理装置1は、当該文において名詞1と名詞2の共通係り先を抽出し、名詞1から共通係り先までの構文構造、もしくは名詞2から共通係り先までの構文構造に関係候補名詞を含む場合のみを処理対象としている。名詞1から共通係り先までの構文構造もしくは名詞2から共通係り先までの構文構造に関係候補名詞を含まない場合や、関係候補名詞が名詞1の前にある場合は処理対象から除いている。   Note that the language processing apparatus 1 according to the present embodiment extracts a common connection destination of the noun 1 and the noun 2 in the sentence, and a syntax structure from the noun 1 to the common connection destination or a syntax structure from the noun 2 to the common connection destination. Only the case where the related candidate noun is included is processed. A case where no relation candidate noun is included in the syntax structure from the noun 1 to the common relation destination or the syntax structure from the noun 2 to the common relation destination or when the relation candidate noun precedes the noun 1 is excluded from the processing target.

これらの図に示した処理結果の例のデータは、適切な結果であると判断できる。つまり、単語ペアや、関係名を表わす共起名詞や、関係を表わす構文構造などとして、妥当なものが処理結果の上位に挙げられている。つまり、本実施形態による言語処理装置1が有効であることが確認できた。   The data of the processing result examples shown in these drawings can be determined to be an appropriate result. In other words, the proper ones are listed at the top of the processing results, such as word pairs, co-occurrence nouns representing relationship names, and syntactic structures representing relationships. That is, it was confirmed that the language processing apparatus 1 according to the present embodiment is effective.

なお、上述した実施形態における言語処理装置の全部又は一部の機能をコンピュータで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   In addition, you may make it implement | achieve all or one part function of the language processing apparatus in embodiment mentioned above with a computer. In that case, a program for realizing these functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It is also possible to include those that hold a program for a certain time, such as a volatile memory inside a computer system serving as a server or client in that case. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
前記の実施形態では、入力テキスト記憶部2と、学習結果データ記憶部3と、出力データ4と、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12と、構文構造特徴抽出部13と、機械学習処理部14と、確率値計算処理部15とをすべて一体として含んだ言語処理装置の構成としたが、例えば、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12と、構文構造特徴抽出部13と、機械学習処理部14とを含んで機械学習処理までを行なう装置と、確率値計算処理部15を含んで与えられた学習結果データを用いて確率値計算処理(判定処理)の部分を行なう装置に分けて構成しても良い。このとき、学習結果データは、両装置によって共有される記憶手段を介して渡したり、通信線を介して渡したりするように構成する。このように装置を分けた場合、機械学習処理までの部分と確率値計算処理の部分とを別に行なうことができる。また、予め機械学習処理を行なっておき、その結果得られる学習結果データを用いて繰り返し確率値計算処理を行なうこともできる。また、入力テキストと類似分野の文(学習結果データが有効であるような文)であれば、元の入力テキストに含まれていない文を対象として確率値計算処理を行なうこともできる。
Although a plurality of embodiments have been described above, the present invention can also be implemented in the following modifications.
In the above embodiment, the input text storage unit 2, the learning result data storage unit 3, the output data 4, the processing target word pair feature extraction unit 11, the co-occurrence noun feature extraction unit 12, and the syntax structure feature extraction unit 13, the machine learning processing unit 14, and the probability value calculation processing unit 15 are all configured as one unit. For example, the processing target word pair feature extraction unit 11 and the co-occurrence noun feature extraction unit 12, a syntactic structure feature extraction unit 13, a machine learning processing unit 14, a machine for performing machine learning processing, and a probability value calculation processing unit 15. You may divide and comprise into the apparatus which performs the part of a process (judgment process). At this time, the learning result data is configured to be transferred via a storage unit shared by both apparatuses or via a communication line. When the apparatus is divided in this way, the part up to the machine learning process and the part of the probability value calculation process can be performed separately. It is also possible to perform machine learning processing in advance and perform repeated probability value calculation processing using the learning result data obtained as a result. In addition, if the sentence is in a field similar to the input text (a sentence in which the learning result data is valid), the probability value calculation process can be performed on a sentence that is not included in the original input text.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

本発明は、大量のテキストからの情報自動抽出、知識獲得などに利用できる。   The present invention can be used for automatic extraction of information from a large amount of text, knowledge acquisition, and the like.

本発明の実施形態による言語処理装置の機能構成を示したブロック図である。It is the block diagram which showed the function structure of the language processing apparatus by embodiment of this invention. 同実施形態による言語処理装置の全体の処理手順を示したフローチャートである。It is the flowchart which showed the whole process sequence of the language processing apparatus by the embodiment. 同実施形態による言語処理装置の処理のうちEMアルゴリズムを用いた機械学習処理の手順を示したフローチャートである。It is the flowchart which showed the procedure of the machine learning process using EM algorithm among the processes of the language processing apparatus by the embodiment. 同実施形態による処理結果のデータであり、処理対象名詞ペアが関係を持つ確率の上位を、P(c|CPt)の昇順で示す概略図である。FIG. 6 is a schematic diagram showing the result of processing according to the embodiment and showing the higher probability that the processing target noun pair is related in ascending order of P (c 0 | CPt i ). 同実施形態による処理結果のデータであり、名詞ペアと共起した名詞が関係を表す確率の上位を、P(c|RPt)の昇順で示す概略図である。FIG. 6 is a schematic diagram showing the result of processing according to the embodiment, in which the highest probability that a noun co-occurring with a noun represents a relationship is in ascending order of P (c 0 | RPt i ). 同実施形態による処理結果のデータであり、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率の上位を、P(c|SPt)の昇順で示す概略図である。It is the data of the processing result according to the embodiment, and shows the upper order of the probability that the syntax structure between the noun pair to be processed and the co-occurring noun indicates the relationship in ascending order of P (c 0 | SPt i ). FIG.

符号の説明Explanation of symbols

1 言語処理装置
2 入力テキスト記憶部
3 学習結果データ記憶部
4 出力データ
11 処理対象単語ペア特徴抽出部
12 共起名詞特徴抽出部(共起単語特徴抽出部)
13 構文構造特徴抽出部
14 機械学習処理部
15 確率値計算処理部
DESCRIPTION OF SYMBOLS 1 Language processing apparatus 2 Input text memory | storage part 3 Learning result data memory | storage part 4 Output data 11 Processing object word pair feature extraction part 12 Co-occurrence noun feature extraction part (co-occurrence word feature extraction part)
13 Syntax structure feature extraction unit 14 Machine learning processing unit 15 Probability value calculation processing unit

Claims (6)

複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出部と、
前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出部と、
前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出部と、
処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理部と、
を備えることを特徴とする言語処理装置。
A pair of words included in one sentence is selected as a processing target word pair from input text data including a plurality of sentences, and a predetermined feature of the appearance frequency of the processing target word pair in the input text data is extracted. A processing target word pair feature extraction unit,
Selecting another word appearing in a sentence including the processing target word pair in the input text data as a co-occurrence word, and a predetermined characteristic of the appearance frequency of the co-occurrence word in the input text data A co-occurrence word feature extraction unit to extract;
A syntax for extracting a syntax structure of a sentence including the processing target word pair and the co-occurrence word in the input text data, and extracting a predetermined feature of an appearance frequency of the syntax structure in the input text data A structural feature extraction unit;
The sentence in the input text data that can be determined that the co-occurrence word belongs to a class representing the relation of the processing target word pair by referring to processing target concept related word data in which a word related to the processing target concept is stored in advance. Based on the information, the appearance frequency feature of the processing target word pair, the appearance frequency feature of the co-occurrence word, and the appearance frequency feature of the syntax structure, a machine learning process is performed, and a sentence of the processing target word pair The conditional probability that the processing target word pair appears when assuming that it belongs to a class representing a relationship, and the co-occurrence word when assuming that a sentence belongs to a class representing the relationship of the processing target word pair A conditional probability of appearance, and a conditional probability of occurrence of the syntax structure on the assumption that the sentence belongs to a class representing the relationship of the processing target word pairs. And machine learning processing unit that performs a process of writing the learning result data storage unit as the learning result data,
A language processing apparatus comprising:
請求項1に記載の言語処理装置において、
前記構文構造特徴抽出部は、前記文の構文解析結果に基づき、前記処理対象単語ペアに含まれる第1の単語と当該処理対象単語ペアに含まれる第2の単語と前記共起単語との共通係り先文節を取り出し、前記第1の単語から前記共通係り先文節までの構文構造と、前記第2の単語から前記共通係り先文節までの構文構造と、前記共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定する、
ことを特徴とする言語処理装置。
The language processing apparatus according to claim 1,
The syntactic structure feature extraction unit is configured to share a first word included in the processing target word pair, a second word included in the processing target word pair, and the co-occurrence word based on a syntax analysis result of the sentence. A syntactic structure from the first word to the common dependency clause, a syntactic structure from the second word to the common dependency clause, and a syntactic structure that modifies the common dependency clause Identify the syntactic structure of the sentence by combining with
A language processing apparatus.
請求項2に記載の言語処理装置において、
前記構文構造特徴抽出部は、前記構文構造を表わす単語のリストに出現する単語であって、前記第1の単語でも前記第2の単語でも前記共起単語でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出する、
ことを特徴とする言語処理装置。
The language processing device according to claim 2,
The syntactic structure feature extraction unit has a predetermined ratio of words that appear in a list of words representing the syntactic structure and are not common to the first word, the second word, and the co-occurrence word. A plurality of syntactic structures that are equal to or greater than the threshold value of a syntactic structure group having a similar syntactic structure, and an appearance frequency feature of the syntax structure group is extracted as an appearance frequency feature of the syntax structure.
A language processing apparatus.
請求項1から3までのいずれか一項に記載の言語処理装置において、
前記学習結果データ記憶部から読み出した前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部と、
をさらに具備することを特徴とする言語処理装置。
In the language processing device according to any one of claims 1 to 3,
Using the learning result data read from the learning result data storage unit, a conditional probability that the sentence belongs to the class on the assumption that the processing target word pair appears in the sentence, and the co-occurrence word in the sentence A probability value calculation processing unit that calculates a conditional probability that the sentence belongs to the class on the assumption that it appears and a conditional probability that the sentence belongs to the class on the assumption that the syntax structure appears in the sentence; ,
A language processing apparatus, further comprising:
請求項1から3までのいずれか一項に記載の言語処理装置によって前記学習結果データ記憶部に書き込まれた前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部を具備することを特徴とする言語処理装置。   Assuming that the processing target word pair appears in a sentence using the learning result data written in the learning result data storage unit by the language processing device according to claim 1. The conditional probability that the sentence belongs to the class, the conditional probability that the sentence belongs to the class assuming that the co-occurrence word appears in the sentence, and the syntax structure appearing in the sentence A language processing apparatus comprising a probability value calculation processing unit for calculating a conditional probability that a sentence belongs to the class. 複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出過程と、
前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出過程と、
前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出過程と、
処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率とを、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理過程と、
の処理をコンピュータに実行させるプログラム。
A pair of words included in one sentence is selected as a processing target word pair from input text data including a plurality of sentences, and a predetermined feature of the appearance frequency of the processing target word pair in the input text data is extracted. Processing target word pair feature extraction process,
Selecting another word appearing in a sentence including the processing target word pair in the input text data as a co-occurrence word, and a predetermined characteristic of the appearance frequency of the co-occurrence word in the input text data A co-occurrence word feature extraction process to be extracted;
A syntax for extracting a syntax structure of a sentence including the processing target word pair and the co-occurrence word in the input text data, and extracting a predetermined feature of an appearance frequency of the syntax structure in the input text data Structural feature extraction process;
The sentence in the input text data that can be determined that the co-occurrence word belongs to a class representing the relation of the processing target word pair by referring to processing target concept related word data in which a word related to the processing target concept is stored in advance. Based on the information, the appearance frequency feature of the processing target word pair, the appearance frequency feature of the co-occurrence word, and the appearance frequency feature of the syntax structure, the sentence belongs to the class representing the relationship of the processing target word pair The conditional probability that the processing target word pair appears when it is assumed, and the conditional probability that the co-occurrence word appears when a sentence belongs to a class that represents the relationship of the processing target word pair, And a conditional probability that the syntax structure appears when it is assumed that the sentence belongs to a class representing the relationship between the processing target word pairs, and learning result data A machine learning process to perform the process for writing the learning result data storage unit Te,
A program that causes a computer to execute this process.
JP2008113908A 2008-04-24 2008-04-24 Language processing apparatus and program Active JP5184195B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008113908A JP5184195B2 (en) 2008-04-24 2008-04-24 Language processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008113908A JP5184195B2 (en) 2008-04-24 2008-04-24 Language processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2009265889A true JP2009265889A (en) 2009-11-12
JP5184195B2 JP5184195B2 (en) 2013-04-17

Family

ID=41391679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008113908A Active JP5184195B2 (en) 2008-04-24 2008-04-24 Language processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5184195B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030752A1 (en) * 2009-09-09 2011-03-17 独立行政法人情報通信研究機構 Word pair acquisition device, word pair acquisition method, and program
JP2011175497A (en) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> Data extraction device, data extraction method and program
JP2012043225A (en) * 2010-08-19 2012-03-01 National Institute Of Information & Communication Technology Mutual machine learning device, mutual machine learning method, and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219947A (en) * 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> Causal relation knowledge extraction device and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219947A (en) * 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> Causal relation knowledge extraction device and program

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200800077074; 鳥澤健太郎: '教師無し学習による名詞句の言い換え' 言語処理学会第8回年次大会発表論文集 , 20020318, 323-326頁, 言語処理学会 *
CSNJ200610036045; 山田一郎 他5名: 'クローズドキャプションを対象とした因果関係知識抽出の検討' FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊 , 20050822, 113-114頁, 社団法人情報処理学会・社団法人電子情報通信学会 *
JPN6012012016; 山田一郎 他5名: 'クローズドキャプションを対象とした因果関係知識抽出の検討' FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊 , 20050822, 113-114頁, 社団法人情報処理学会・社団法人電子情報通信学会 *
JPN6012055820; 鳥澤健太郎: '教師無し学習による名詞句の言い換え' 言語処理学会第8回年次大会発表論文集 , 20020318, 323-326頁, 言語処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030752A1 (en) * 2009-09-09 2011-03-17 独立行政法人情報通信研究機構 Word pair acquisition device, word pair acquisition method, and program
JP2011059917A (en) * 2009-09-09 2011-03-24 National Institute Of Information & Communication Technology Word pair acquisition device, word pair acquisition method, and program
US9037586B2 (en) 2009-09-09 2015-05-19 National Institute Of Information And Communications Technology Word pair acquisition apparatus, word pair acquisition method, and program
EP2477125A4 (en) * 2009-09-09 2016-09-21 Nat Inst Inf & Comm Tech Word pair acquisition device, word pair acquisition method, and program
JP2011175497A (en) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> Data extraction device, data extraction method and program
JP2012043225A (en) * 2010-08-19 2012-03-01 National Institute Of Information & Communication Technology Mutual machine learning device, mutual machine learning method, and program

Also Published As

Publication number Publication date
JP5184195B2 (en) 2013-04-17

Similar Documents

Publication Publication Date Title
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
JP6721179B2 (en) Causal relationship recognition device and computer program therefor
WO2015135455A1 (en) Natural language question answering method and apparatus
WO2018200135A1 (en) Intent-based organisation of apis
US20100241647A1 (en) Context-Aware Query Recommendations
US11113470B2 (en) Preserving and processing ambiguity in natural language
JP2011118689A (en) Retrieval method and system
JP2011227758A (en) Information processing apparatus, information processing method and program
CN111190873B (en) Log mode extraction method and system for log training of cloud native system
CN113590810A (en) Abstract generation model training method, abstract generation device and electronic equipment
Olariu Hierarchical clustering in improving microblog stream summarization
JP6867963B2 (en) Summary Evaluation device, method, program, and storage medium
JP5184195B2 (en) Language processing apparatus and program
Ledeneva et al. Graph ranking on maximal frequent sequences for single extractive text summarization
CN113392305A (en) Keyword extraction method and device, electronic equipment and computer storage medium
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
CN112087473A (en) Document downloading method and device, computer readable storage medium and computer equipment
JP5100203B2 (en) Text analysis apparatus and text analysis program
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system
Alfarra et al. Graph-based Growing self-organizing map for Single Document Summarization (GGSDS)
JP5829471B2 (en) Semantic analyzer and program thereof
JP2005157823A (en) Knowledge base system, inter-word meaning relation determination method in the same system and computer program
JP5178357B2 (en) Word score calculation device, document label determination system, and word score calculation program
Truskinger et al. Reconciling folksonomic tagging with taxa for bioacoustic annotations
JP2008217529A (en) Text analyzer and text analytical program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130116

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5184195

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250