JP5182845B2 - Information extraction apparatus, information extraction method, and information extraction program - Google Patents
Information extraction apparatus, information extraction method, and information extraction program Download PDFInfo
- Publication number
- JP5182845B2 JP5182845B2 JP2007130218A JP2007130218A JP5182845B2 JP 5182845 B2 JP5182845 B2 JP 5182845B2 JP 2007130218 A JP2007130218 A JP 2007130218A JP 2007130218 A JP2007130218 A JP 2007130218A JP 5182845 B2 JP5182845 B2 JP 5182845B2
- Authority
- JP
- Japan
- Prior art keywords
- expression
- specific
- information
- main
- expressions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本発明は、情報抽出技術に関し、特に、記事群から項目表現と固有表現とを情報対として抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムに関する。 The present invention relates to an information extraction technique, and more particularly, to an information extraction apparatus, an information extraction method, and an information extraction program that extract item expressions and unique expressions from an article group as information pairs.
従来の情報抽出技術として、例えば、下記の非特許文献1は、文間関係を利用して、文間関係が推移か更新かを判断し、その情報を利用して動向情報を抽出する技術に関して記載している。
しかし、上記従来技術は、記事群に含まれる項目表現と固有表現の対を自動的に抽出することは行っていない。また、従来技術は、抽出した上記項目表現と固有表現の対をグラフ表示することは行っていない。従って、従来技術によっては、記事群に含まれる項目表現と固有表現の対を一目で把握できるように表示することはできず、ユーザが、記事群の情報を素早く理解することは困難である。 However, the above prior art does not automatically extract a pair of item expression and specific expression included in an article group. Further, the prior art does not display the pair of the extracted item expression and specific expression in a graph. Therefore, depending on the prior art, it is not possible to display at a glance the pairs of item expressions and unique expressions included in the article group, and it is difficult for the user to quickly understand the information of the article group.
本発明は、上記従来技術の問題点を解決し、記事群から自動で項目表現と固有表現の対を抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムの提供を目的とする。 An object of the present invention is to solve the above-described problems of the prior art and provide an information extraction apparatus, an information extraction method, and an information extraction program for automatically extracting a pair of item expression and specific expression from an article group.
本発明の情報抽出装置は、情報抽出装置であって、記事群から項目表現と固有表現の種類とを主要表現として抽出する主要表現抽出手段と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と固有表現との対を情報対として抽出する情報対抽出手段とを備える。 The information extraction device of the present invention is an information extraction device, wherein main expression extraction means for extracting item expressions and types of specific expressions from article groups as main expressions, and the main expressions appear simultaneously from the article groups. And an information pair extracting unit that extracts a pair of an item expression and a specific expression described in the specified place as an information pair.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、前記記事群から項目表現と固有表現の種類と単位表現とを主要表現として抽出し、前記情報対抽出手段が、項目表現と固有表現と前記単位表現に関連する数値表現との対を情報対として抽出する。 Preferably, in the information extraction device of the present invention, the main expression extraction means extracts item expressions, types of unique expressions, and unit expressions from the article group as main expressions, and the information pair extraction means includes item expressions and A pair of a specific expression and a numerical expression related to the unit expression is extracted as an information pair.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された固有表現の種類の前または後に予め決められた単語が付随するか否かに基づいて前記固有表現の種類を分類し、該分類された各々の固有表現の種類を前記主要表現とする。 Preferably, in the information extracting apparatus of the present invention, the main expression extracting unit further includes the specific expression based on whether or not a predetermined word is attached before or after the type of the extracted specific expression. The types are classified, and the type of each classified unique expression is set as the main expression.
また、本発明の情報抽出装置は、情報抽出装置であって、記事群から項目表現と単位表現とを主要表現として抽出する主要表現抽出手段と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と前記単位表現に関連する数値表現との対を情報対として抽出する情報対抽出手段とを備え、前記主要表現抽出手段が、前記抽出された単位表現に関連する数値表現の前又は後に予め決められた単語が付随するか否かに基づいて前記数値表現を分類し、該分類された各々の数値表現に関連する単位表現を前記主要表現とする。 The information extraction device of the present invention is an information extraction device, wherein main expression extraction means for extracting item expressions and unit expressions as main expressions from an article group, and the main expressions appear from the article group simultaneously. An information pair extracting unit that extracts a pair of an item expression described in the specified part and a numerical expression related to the unit expression as an information pair, and the main expression extracting unit includes: , Classifying the numerical expressions based on whether or not a predetermined word is attached before or after the numerical expressions related to the extracted unit expressions, and unit expressions related to each of the classified numerical expressions Is the main expression.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された固有表現の種類の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する固有表現の種類を前記主要表現とする。 Preferably, in the information extracting apparatus of the present invention, the main expression extracting means further extracts a word accompanying before or after the type of the extracted specific expression, and a word selected from the extracted words The accompanying specific expression type is the main expression.
また、本発明の情報抽出装置は、情報抽出装置であって、記事群から項目表現と単位表現とを主要表現として抽出する主要表現抽出手段と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と前記単位表現に関連する数値表現との対を情報対として抽出する情報対抽出手段とを備え、前記主要表現抽出手段が、更に、前記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する数値表現に関連する単位表現を前記主要表現とする。 The information extraction device of the present invention is an information extraction device, wherein main expression extraction means for extracting item expressions and unit expressions as main expressions from an article group, and the main expressions appear from the article group simultaneously. An information pair extracting unit that extracts a pair of an item expression described in the specified part and a numerical expression related to the unit expression as an information pair, and the main expression extracting unit includes: Further, a word associated with the extracted unit expression before or after the numerical expression is extracted, and a unit expression associated with the numerical expression associated with the selected word from the extracted word is defined as the main expression. To do.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、主要表現に付随する場合と付随しない場合とにおける主要表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する主要表現と該単語が付随しない主要表現とを主要表現として抽出する。 Preferably, in the information extraction device of the present invention, the main expression extraction unit further determines a word that increases the degree of classification of the main expression when the main expression is attached to and not attached to the main expression. A main expression with a word and a main expression without the word are extracted as main expressions.
また、本発明の情報抽出装置は、情報抽出装置であって、記事群から項目表現と単位表現とを主要表現として抽出する主要表現抽出手段と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と前記単位表現に関連する数値表現との対を情報対として抽出する情報対抽出手段とを備え、前記主要表現抽出手段が、更に、主要表現に付随する場合と付随しない場合とにおける主要表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する主要表現と該単語が付随しない主要表現とを主要表現として抽出する。 The information extraction device of the present invention is an information extraction device, wherein main expression extraction means for extracting item expressions and unit expressions as main expressions from an article group, and the main expressions appear from the article group simultaneously. An information pair extracting unit that extracts a pair of an item expression described in the specified part and a numerical expression related to the unit expression as an information pair, and the main expression extracting unit includes: Further, a word having a high degree of distinction between the main expression and the case where it does not accompany the main expression is determined, and the main expression to which the determined word is attached and the main expression to which the word is not attached are mainly used. Extract as an expression.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語が付随する数値表現の正規分布と該抽出された単語が付随しない数値表現の正規分布とを求め、求めた正規分布同士が重なっている割合が最も小さい場合の単語が付随する数値表現に関連する単位表現と該単語が付随しない数値表現に関連する単位表現とを前記主要表現とする。 Preferably, in the information extracting apparatus of the present invention, the main expression extracting means further extracts a word accompanying or before the numerical expression related to the extracted unit expression, and the extracted word is attached. Obtaining a normal distribution of the numerical expression and a normal distribution of the numerical expression not accompanied by the extracted word, and a unit expression related to the numerical expression accompanied by the word when the ratio of the obtained normal distributions overlapping is smallest; A unit expression related to a numerical expression not accompanied by the word is defined as the main expression.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された固有表現の種類の前又は後に付随する単語を抽出し、前記抽出された固有表現の種類に属する固有表現同士の類似度を求め、前記求まった固有表現同士の類似度と各々の固有表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、固有表現に付随した場合と付随しない場合とにおける前記固有表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する固有表現の種類と該単語が付随しない前記固有表現の種類とを前記主要表現とする。 Preferably, in the information extracting apparatus of the present invention, the main expression extracting unit further extracts a word attached before or after the extracted specific expression type, and the unique expression belonging to the extracted specific expression type. Based on the score value determined based on the similarity between the obtained unique expressions and information indicating whether or not the extracted word is attached to each unique expression. A word having a high degree of classification of the specific expression in the case where the word is attached and the case where the word is not attached, and a kind of the unique expression accompanied by the determined word and a kind of the specific expression not accompanied by the word The main expression.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された単位表現の前又は後に付随する単語を抽出し、前記抽出された単位表現に関連する数値表現同士の類似度を求め、前記求まった数値表現同士の類似度と各々の数値表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、単位表現に付随した場合と付随しない場合とにおける前記単位表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する単位表現と該単語が付随しない単位表現とを前記主要表現とする。 Preferably, in the information extracting apparatus of the present invention, the main expression extracting unit further extracts a word attached before or after the extracted unit expression, and between numerical expressions related to the extracted unit expression. The similarity is obtained and attached to the unit expression based on the score value determined based on the similarity between the obtained numerical expressions and information indicating whether or not the extracted word is attached to each numerical expression. A word having a high degree of division of the unit expression in a case and a case not accompanied is determined, and a unit expression accompanied by the determined word and a unit expression not accompanied by the word are set as the main expression.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された主要表現の前記記事群における頻度に基づき所定の算出式に従って算出されるスコア値に基づいて、最終的に抽出対象とする主要表現を決定する。 Preferably, in the information extraction device of the present invention, the main expression extraction unit further performs final determination based on a score value calculated according to a predetermined calculation formula based on the frequency of the extracted main expression in the article group. The main expression to be extracted is determined.
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記記事群から、該記事群中の単語が属するクラスターを抽出して、該抽出された各クラスターを前記固有表現の種類とする。 Preferably, in the information extracting device of the present invention, the main expression extracting unit further extracts a cluster to which a word in the article group belongs from the article group, and each extracted cluster is represented by the specific expression. Kind.
好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、前記主要表現抽出手段によって抽出された主要表現のうち、ユーザの指定入力に基づいて特定の主要表現を選択し、前記選択された特定の主要表現に基づいて、前記記事群から情報対を抽出する。 Preferably, in the information extraction device of the present invention, the information pair extraction unit further selects a specific main expression from the main expressions extracted by the main expression extraction unit based on a user's designated input, An information pair is extracted from the group of articles based on the selected specific main expression.
好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、機械学習の手法を用いて、前記情報対を抽出する。 Preferably, in the information extraction device of the present invention, the information pair extraction unit further extracts the information pair using a machine learning technique.
好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、抽出した情報対の中から、所定の評価値算出式に基づいて算出される評価値に基づいて情報対を選択する。 Preferably, in the information extraction apparatus of the present invention, the information pair extraction unit further selects an information pair from the extracted information pairs based on an evaluation value calculated based on a predetermined evaluation value calculation formula .
好ましくは、本発明の情報抽出装置が、更に、前記情報対抽出手段によって抽出された情報対について相関分析を行う手段を備える。 Preferably, the information extraction apparatus of the present invention further includes means for performing correlation analysis on the information pair extracted by the information pair extraction means.
好ましくは、本発明の情報抽出装置において、前記情報対抽出手段によって抽出された情報対をグラフ化して表示する表示手段を備える。 Preferably, the information extraction apparatus according to the present invention further includes display means for displaying the information pairs extracted by the information pair extraction means in a graph.
また、本発明の情報抽出方法は、情報抽出方法であって、記事群から項目表現と固有表現の種類とを主要表現として抽出し、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と固有表現との対を情報対として抽出する。 Further, the information extraction method of the present invention is an information extraction method, wherein an item expression and a kind of specific expression are extracted from an article group as a main expression, and a place where the main expression appears simultaneously from the article group. A pair of the item expression and the specific expression described in the specified part is identified and extracted as an information pair.
また、本発明の情報抽出プログラムは、情報抽出プログラムであって、コンピュータに、記事群から項目表現と固有表現の種類とを主要表現として抽出する処理と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と固有表現との対を情報対として抽出する処理とを実行させる。 Also, the information extraction program of the present invention is an information extraction program, which extracts a main expression from a group of items as an item expression and a kind of specific expression, and the main expression simultaneously appears from the article group. And a process of extracting a pair of an item expression and a specific expression described in the specified part as an information pair.
本発明の情報抽出装置、情報抽出方法および情報抽出プログラムによれば、例えば、記事群に含まれる項目表現と固有表現との対を抽出することができる。また、抽出した項目表現と固有表現との対を一目で把握できるように表示することができる。その結果、ユーザが、記事群の情報を素早く理解することが可能となる。 According to the information extraction device, the information extraction method, and the information extraction program of the present invention, for example, a pair of an item expression and a specific expression included in an article group can be extracted. Moreover, it can display so that the pair of the extracted item expression and specific expression can be grasped at a glance. As a result, the user can quickly understand the information of the article group.
以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明のシステム構成の一例を示す図である。情報抽出装置1は、記事群から、複数の情報の対を情報対として抽出する処理装置である。情報抽出装置1は、例えば、後述する関連記事データベース(DB)14に格納された記事群から、1又は複数の項目表現と1又は複数の固有表現の対を情報対として抽出する。また、情報抽出装置1は、上記関連記事DB14に格納された記事群から、1又は複数の項目表現と1又は複数の固有表現と1又は複数の数値表現の対を情報対として抽出する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an example of a system configuration of the present invention. The
情報抽出装置1は、主要表現抽出部11、情報対抽出部12、表示部13、関連記事データベース(DB)14を備える。主要表現抽出部11は、後述する関連記事DB14に格納された記事群から、主要表現を抽出する。主要表現抽出部11は、例えば、1又は複数の項目表現と1又は複数の固有表現の種類を主要表現として抽出する。また、例えば、主要表現抽出部11は、1又は複数の項目表現と1又は複数の固有表現の種類と1又は複数の単位表現とを主要表現として抽出する。主要表現は、後述する情報対抽出部12において情報対を抽出する際に用いられる。主要表現を抽出する際には、例えば、対象の記事群全体に万遍なく高頻度に出現する該当表現を抽出する。
The
主要表現抽出部11は、主要単位表現抽出部111と主要項目表現抽出部112と主要固有表現抽出部113とを備える。主要単位表現抽出部111は、情報対を抽出、整理する際に必要となる単位表現(主要単位表現)を抽出する。例えば、映画に関する記事群から、興行収入「5億円」における「円」や,観客動員数「30万人」における「人」を主要単位表現として抽出する。
The main
主要項目表現抽出部112は、情報対を抽出、整理する際に必要となる項目表現(主要項目表現)を抽出する。例えば、映画に関する記事群から、「興行収入」や「観客動員数」などを主要項目表現として抽出する。
The main item
主要固有表現抽出部113は、情報対を抽出、整理する際に必要となる固有表現の種類(主要固有表現の種類)を抽出する。例えば、映画に関する記事群から、人物を示す固有表現の種類「PERSON」や場所を示す固有表現の種類「LOCATION」などを主要固有表現の種類として抽出する。
The main specific
情報対抽出部12は、主要表現抽出部11によって抽出された主要表現に基づいて、関連記事DB14中の記事群を構成する記事から複数の情報の対(例えば、1又は複数の項目表現と1又は複数の固有表現との対や、1又は複数の項目表現と1又は複数の数値表現と1又は複数の固有表現との対)を情報対として抽出する。上記固有表現は、上記固有表現の種類に属する固有表現であり、例えば、固有表現の種類「LOCATION」に属する「日本」、「アメリカ」等が該当する。固有表現の種類に属する固有表現は、後述する固有表現抽出技術を用いて抽出される。
Based on the main expression extracted by the main
情報対抽出部12は、例えば、関連記事DB14に格納された記事群において、主要表現抽出部11によって抽出された主要表現(例えば、項目表現と固有表現の種類)が同時に出現している箇所を特定し、その箇所に記載されている固有表現と項目表現との対を情報対とする。また、例えば、情報対抽出部12は、関連記事DB14に格納された記事群において、主要表現(例えば、項目表現と固有表現の種類と単位表現)が同時に出現している箇所を特定し、その箇所に記載されている項目表現と固有表現(固有表現の種類に属する固有表現)と数値表現との対を情報対とする。上記数値表現は、主要表現としての単位表現に関連する数値表現である。
For example, in the article group stored in the
すなわち、上記主要表現のうちの単位表現については、情報対抽出部12は、当該単位表現に関連する数値(例えば、単位表現に隣接して記事中に出現している数値)も同時に抽出し、数値と単位表現とをあわせて数値表現として抽出する。
That is, for the unit expression of the main expressions, the information
例えば、映画の記事の場合、情報対抽出部12は、「項目表現:台風」「数値表現:4号」「LOCATION:南大東島」という情報対を抽出する。
For example, in the case of a movie article, the information
表示部13は、情報対抽出部12によって抽出された情報対を整理して表示(例えばグラフ化して表示)する。
The
関連記事DB14には記事群が蓄積されている。
Article groups are accumulated in the
本発明の一実施形態によれば、主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後に予め決められた単語が付随するか否かに基づいて上記固有表現の種類を分類し、該分類された各々の固有表現の種類を上記主要表現とするようにしてもよい。
According to an embodiment of the present invention, the main
本発明の一実施形態によれば、主要表現抽出部11が、関連記事DB14に格納された記事群から項目表現と単位表現とを主要表現として抽出し、情報対抽出部12が、上記記事群から上記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と上記単位表現に関連する数値表現との対を情報対として抽出し、上記主要表現抽出部11が、上記抽出された単位表現に関連する数値表現の前又は後に予め決められた単語が付随するか否かに基づいて上記数値表現を分類し、該分類された各々の数値表現に関連する単位表現を上記主要表現とするようにしてもよい。
According to one embodiment of the present invention, the main
ここで、上記「単語が付随する」とは、必ずしも該単語が固有表現の種類や数値表現に連接して出現することのみを意味するものではなく、例えば該単語が固有表現の種類や数値表現が出現する文と同一の文に出現することをも意味する。また、固有表現の種類や数値表現とかかりうけ関係にある単語も該固有表現の種類や数値表現に付随する単語に含まれる。 Here, the phrase “with a word” does not necessarily mean that the word appears concatenated with the type of specific expression or numerical expression. For example, the word includes the type of specific expression or numerical expression. It also means that it appears in the same sentence as the sentence that appears. In addition, words associated with the types of specific expressions and numerical expressions are also included in the words associated with the types of specific expressions and numerical expressions.
また、本発明の一実施形態によれば、主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後、又は、上記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する固有表現の種類、又は該抽出された単語から選択された単語が付随する数値表現に関連する単位表現を上記主要表現とするようにしてもよい。
In addition, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、主要表現抽出部11が、関連記事DB14に格納された記事群から項目表現と単位表現とを主要表現として抽出し、情報対抽出部12が、上記記事群から上記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と上記単位表現に関連する数値表現との対を情報対として抽出し、上記主要表現抽出部11が、更に、上記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する数値表現に関連する単位表現を上記主要表現とするようにしてもよい。
Moreover, according to one Embodiment of this invention, the main
また、本発明の一実施形態によれば、主要表現抽出部11が、更に、主要表現に付随する場合と付随しない場合とにおける主要表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する主要表現と該単語が付随しない主要表現とを主要表現として抽出するようにしてもよい。
In addition, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、主要表現抽出部11が、記事群から項目表現と単位表現とを主要表現として抽出し、情報対抽出部12が、上記記事群から上記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と前記単位表現に関連する数値表現との対を情報対として抽出し、上記主要表現抽出部11が、更に、主要表現に付随する場合と付随しない場合とにおける主要表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する主要表現と該単語が付随しない主要表現とを主要表現として抽出するようにしてもよい。
According to one embodiment of the present invention, the main
また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語が付随する数値表現の正規分布と該抽出された単語が付随しない数値表現の正規分布とを求め、求めた正規分布同士が重なっている割合が最も小さい場合の単語が付随する数値表現に関連する単位表現と該単語が付随しない数値表現に関連する単位表現とを上記主要表現とするようにしてもよい。
In addition, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後に付随する単語を抽出し、上記抽出された固有表現の種類に属する固有表現同士の類似度を求め、求まった固有表現同士の類似度と各々の固有表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、固有表現に付随した場合と付随しない場合とにおける固有表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する上記固有表現の種類と該単語が付随しない固有表現の種類とを前記主要表現とするようにしてもよい。
In addition, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された単位表現の前又は後に付随する単語を抽出し、上記抽出された単位表現に関連する数値表現同士の類似度を求め、上記求まった数値表現同士の類似度と各々の数値表現に上記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、単位表現に付随した場合と付随しない場合とにおける上記単位表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する単位表現と該単語が付随しない単位表現とを上記主要表現とするようにしてもよい。
In addition, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された主要表現の上記関連記事DB14に格納された記事群における頻度に基づき所定の算出式に従って算出されるスコア値に基づいて、最終的に抽出対象とする主要表現を決定するようにしてもよい。
Further, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記関連記事DB14から、該関連記事DB14の記事群中の単語が属するクラスターを抽出して、該抽出された各クラスターを上記固有表現の種類とするようにしてもよい。
Further, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、予め図示を省略する記憶手段内に、人手で作成した固有表現の辞書(例えば、駅名、映画名、スペースシャトル名等と単語との対応情報)を記憶しておき、主要表現抽出部11が、上記固有表現の辞書を参照して、上記関連記事DB14の記事群中の単語が対応する固有表現を決定し、該決定された固有表現が属する固有表現の種類を主要表現として抽出するようにしてもよい。
In addition, according to an embodiment of the present invention, a dictionary of specific expressions created manually (for example, correspondence information between a station name, a movie name, a space shuttle name, and a word) is stored in a storage unit (not shown) in advance. The main
また、本発明の一実施形態によれば、情報対抽出部12が、更に、主要表現抽出部11によって抽出された主要表現のうち、ユーザの指定入力に基づいて特定の主要表現を選択し、選択された特定の主要表現に基づいて、上記記事群を構成する記事から情報対を抽出するようにしてもよい。
According to an embodiment of the present invention, the information
また、本発明の一実施形態によれば、情報対抽出部12が、更に、予め(ユーザの指定入力に従って)指定された固有表現の種類を固有表現の種類として抽出し、関連記事DB14において主要表現抽出部11によって抽出された項目表現と該抽出された固有表現の種類とが同時に出現している箇所に記載されている項目表現と固有表現との対を情報対として抽出するようにしてもよい。
Further, according to the embodiment of the present invention, the information
また、本発明の一実施形態によれば、情報対抽出部12が、更に、機械学習の手法を用いて、上記情報対を抽出するようにしてもよい。
Further, according to an embodiment of the present invention, the information
以下に、本発明の実施の形態に係る情報抽出装置1の各構成要素の詳細な例について説明する。
(主要表現抽出部11)
主要表現抽出部11は、情報対を抽出、整理する際に必要となる主要表現を抽出する。主要表現抽出部11は、例えば、項目表現と固有表現の種類とを主要表現として抽出する。また、主要表現抽出部11は、例えば、項目表現と固有表現の種類と単位表現とを主要表現として抽出する。
Below, the detailed example of each component of the
(Main Expression Extraction Unit 11)
The main
主要表現抽出部11は、例えば、ChaSen(下記の参考文献(1)参照)を利用して、項目表現と単位表現とを抽出する。
The main
参考文献(1): Y. Matsumoto, A. Kitauchi, T. Yamashita,Y. Hirano, H. Matsuda and M. Asahara: Japanese morphological analysis system ChaSen version 2.0 manual 2nd edition ”(1999).
ChaSenの出力において、品詞の情報を利用して、各表現の抽出を行う。単位表現については、数値の前方または後方に接続する名詞連続を取り出す。項目表現は、例えば名詞連続を取り出す。また、例えば、単位表現として得られた表現のうち、時間に関する表現(例:「年」、「月」、「日」)を含む表現を取り除くようにしてもよい。
Reference (1): Y. Matsumoto, A. Kitauchi, T. Yamashita, Y. Hirano, H. Matsuda and M. Asahara: Japanese morphological analysis system ChaSen version 2.0 manual 2nd edition ”(1999).
In the output of ChaSen, each expression is extracted using part of speech information. For unit expressions, take out the noun series connected to the front or back of the numerical value. For the item expression, for example, a noun series is taken out. Also, for example, expressions including expressions related to time (eg, “year”, “month”, “day”) may be removed from expressions obtained as unit expressions.
また、主要表現抽出部11は、例えば、以下に述べる固有表現抽出技術によって、固有表現の種類を抽出する。該固有表現の種類の抽出の際に、該固有表現の種類に属する固有表現が抽出される。
Also, the main
固有表現とは、人名、地名、組織名などの固有名詞、金額などの数値表現といった、特定の事物・数量を意味する言語表現のことである。例えば、固有表現の種類として、組織を示す「ORGANIZATION」、人物を示す「PERSON」、場所を示す「LOCATION」、人工物を示す「ARTIFACT」、日付を示す「DATE」、時間を示す「TIME」、金額を示す「MONEY」、割合を示す「PERCENT」がある。 A proper expression is a linguistic expression that means a specific thing / quantity, such as a proper noun such as a person name, a place name, or an organization name, or a numerical expression such as a monetary amount. For example, as types of specific expressions, “ORGANIZATION” indicating an organization, “PERSON” indicating a person, “LOCATION” indicating a place, “ARTIFACT” indicating an artifact, “DATE” indicating a date, and “TIME” indicating a time. , “MONEY” indicating the amount of money, and “PERCENT” indicating the ratio.
固有表現抽出技術とは、上記のような固有表現の種類と該固有表現に属する固有表現を文章中から計算機で自動で抽出する技術である。例えば、「日本の首相は小泉純一郎である」という文に対して固有表現抽出を行なうと、固有表現の種類(例えば、「PERSON」、「LOCATION」)と該固有表現の種類に属する固有表現(例えば、「PERSON」に属する固有表現「小泉純一郎」、「LOCATION」に属する固有表現「日本」)とが抽出される。 The specific expression extraction technique is a technique for automatically extracting the types of specific expressions as described above and specific expressions belonging to the specific expressions from a sentence by a computer. For example, if a specific expression is extracted for a sentence “The Japanese prime minister is Junichiro Koizumi”, the types of specific expressions (for example, “PERSON” and “LOCATION”) and specific expressions belonging to the types of the specific expressions ( For example, a specific expression “Joiichiro Koizumi” belonging to “PERSON” and a specific expression “Japan” belonging to “LOCATION”) are extracted.
以下に、固有表現抽出の一般的な手法の例について説明する。
(1)機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の参考文献(2)参照)。
Hereinafter, an example of a general technique for extracting a specific expression will be described.
(1) A method using machine learning There is a method of extracting a specific expression using machine learning (for example, see the following reference (2)).
参考文献(2):浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
小 B−PERSON
泉 I−PERSON
さ O
ん O
で O
す O
。 O
上記において、B −???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B−LOCATIONは、場所を示す固有表現の始まりを意味しており、 B−PERSONは、人名を示す固有表現の始まりを意味している。また、I −???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、場所を示す固有表現の始まりに該当する文字であり、文字「本」までが場所を示す固有表現である。
Reference (2): Masayuki Asahara, Yuji Matsumoto, Use of Redundant Morphological Analysis in Japanese Named Expression Extraction Information Processing Society of Japan Natural Language Processing Study Group NL153-7 2002
First, for example, the sentence “Japan's prime minister is Mr. Koizumi” is divided into each character, and the correct characters such as B-LOCATION and I-LOCATION are assigned to the divided characters as follows. Set the correct answer. The first column below is each divided character, and the correct tag of each character is the second column.
Sun B-LOCATION
I-LOCATION
O
Neck O
Phase O
Is O
Small B-PERSON
Izumi I-PERSON
O
N
At O
O
. O
In the above, B-? ? ? Is a tag that signifies the start of the type of proper expression below the hyphen. For example, B-LOCATION means the beginning of a specific expression indicating a place, and B-PERSON means the start of a specific expression indicating a person name. I-? ? ? Is a tag that means something other than the beginning of the type of proper expression below the hyphen, and O is something else. Therefore, for example, the character “day” is a character corresponding to the beginning of the specific expression indicating the place, and the character “book” is the specific expression indicating the place.
このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。 In this way, the correct answer of each character is set, learned from such data, this correct answer is estimated with new data, and from this correct answer tag, the beginning of each proper expression and how far it is. Is recognized and the proper expression is estimated.
この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−B は、日本という単語の先頭を意味し、名詞−B は、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChaSenによる形態素解析を用いる。ChaSenを用いれば、入力された日本語を単語に分割することができる。例えば、ChaSenは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
When learning from the correct data set for each character, the system uses various information in the form of features. For example,
Sun B-LOCATION
Part of
Japan-B Noun-B
Such information is used. Japan-B means the beginning of the word Japan, and noun-B means the beginning of the noun. For recognition of words and parts of speech, for example, morphological analysis by ChaSen described above is used. If ChaSen is used, the input Japanese can be divided into words. For example, ChaSen divides a Japanese sentence and estimates the part of speech of each word as described above. For example, if “go to school” is entered, the following results can be obtained.
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
School Gacco School Noun-General To He To particle-Case particle-General Go Iku Go Verb-independence
In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.
なお、例えば、上記の参考文献(2)では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「 B−PERSON」等)を利用している。 For example, in the above reference (2), as features, characters constituting the input sentence itself (for example, “small” character), character type (for example, hiragana, katakana, etc.), part of speech information, Tag information (for example, “B-PERSON” or the like) is used.
これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。 Learning using these features. Investigate what features appear in the characters that estimate the tag and the surrounding characters, learn what features are likely to appear when the features appear, and use the learning results to create new data Perform tag estimation. For machine learning, for example, a support vector machine is used.
固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(参考文献(3)参照)。 In addition to the above-described method, there are various methods for extracting the proper expression. For example, there is a technique for extracting a specific expression using a maximum entropy model and a rewrite rule (see reference (3)).
参考文献(3):内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000
また、例えば、以下の参考文献(4)に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。
Reference (3): Kiyotaka Uchimoto, Maoi, Maki Murata, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara, Named Expression Extraction Based on Maximum Entropy Model and Rewriting Rules, Journal of the Language Processing Society, Vol.7, No.2 , 2000
Further, for example, the following reference (4) describes a technique for extracting Japanese proper expressions using a support vector machine.
参考文献(4):山田寛康,工藤拓,松本裕治,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43, No.1", 2002
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
Reference (4): Hiroyasu Yamada, Taku Kudo, Yuji Matsumoto, Extracting Japanese Named Expressions Using Support Vector Machine, Journal of Information Processing Society of Japan, Vol.43, No.1 ", 2002
(2) A method using a created rule There is also a method of manually creating a rule to extract a specific expression.
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「町」だと場所とする
名詞+「市」だと場所とする
などである。
For example,
A noun + “san” means a person's name + “a prime minister” means a person's name + a “town” means a place + a “city” means a place.
また、本発明の一実施形態によれば、主要表現抽出部11が、抽出された主要表現からユーザの指定入力に従って特定の主要表現を選択するようにしてもよい。
According to one embodiment of the present invention, the main
主要表現抽出部11は、今扱っている記事群で主たる役割を果たす主要な項目表現、固有表現の種類、単位表現を主要表現として抽出する。例えば、対象の記事群全体に万遍なく高頻度に出現する該当表現を主要表現として抽出する。
The main
具体的には、主要表現の抽出には、以下の式(1)〜式(3)に示すようなScore(スコア)の値を用い、スコアの値が大きいものを主要表現として抽出する。
(1)OkapiのTF項の式
Specifically, for the extraction of the main expression, Score (score) values as shown in the following formulas (1) to (3) are used, and the one with a large score value is extracted as the main expression.
(1) Okapi's TF term equation
(2)総頻度 (2) Total frequency
(3)総出現記事数 (3) Total number of appearing articles
ただし、iは記事の番号、Docsは記事の番号の集合、TFi は記事iでの表現の出現回数、li は記事iの長さ、Δは記事群Docsにおける記事の平均の長さを意味する。OkapiのTF項の式は、複数の記事に万遍なく出現しなおかつ頻度が大きい表現のスコアを大きくする効果がある。なお、記事の長さとは、例えば、記事に含まれる単語数や文字数である。また、固有表現の種類については、上記TFi は、記事iでの該固有表現の種類に属する固有表現の出現回数である。 Where i is the article number, Docs is the set of article numbers, TF i is the number of appearances of the expression in article i, l i is the length of article i, and Δ is the average length of articles in article group Docs. means. The expression of the TF term of Okapi has the effect of increasing the score of an expression that appears uniformly in a plurality of articles and has a high frequency. The length of the article is, for example, the number of words or characters included in the article. As for the type of specific expression, TF i is the number of appearances of the specific expression belonging to the type of specific expression in article i.
項目表現については、長い文字列を優先して取ってくることができるように、TFi を記事iでの表現の出現回数とせずに、例えば記事iでの表現の出現回数とその表現の文字列長の積とする方法も利用する。 For item expressions, for example, TF i is not the number of appearances of an expression in article i so that a long character string can be preferentially fetched. A method of product of column length is also used.
また、本発明の実施の形態においては、式(1)の値にIDFすなわちlogN/DFを乗じた値、式(2)の値に上記IDFを乗じた値、式(3)の値に上記IDFを乗じた値を各スコアの値としてもよい。ここで、Nは図示しない大規模コーパス中の全記事数、DFは、例えば当該大規模コーパス中において当該表現が出現した記事数を意味する。 In the embodiment of the present invention, the value obtained by multiplying the value of equation (1) by IDF, that is, log N / DF, the value of equation (2) by the IDF, and the value of equation (3) by the above A value obtained by multiplying IDF may be used as the value of each score. Here, N means the total number of articles in a large-scale corpus (not shown), and DF means the number of articles in which the expression appears in the large-scale corpus, for example.
本発明の実施の形態においては、主要表現抽出部11は、例えば、算出されたスコア値が最も高い表現を主要表現として抽出する。主要表現抽出部11は、例えば、算出されたスコア値が所定の閾値以上の表現を主要表現として抽出してもよい。また、主要表現抽出部11は、例えば、算出されたスコア値が高いものから所定の個数の表現を主要表現として抽出してもよい。
In the embodiment of the present invention, the main
本発明の一実施形態によれば、主要表現抽出部11が、更に、抽出された固有表現の種類の前または後に予め決められた単語が付随するか否かに基づいて上記固有表現の種類を分類し、該分類された各々の固有表現の種類を上記主要表現とするようにしてもよい。例えば、主要表現抽出部11は、抽出された固有表現の種類「ORGANIZATION」の後に単語「警」が付随するか否かに基づいて、該固有表現の種類を分類し、該単語「警」が付随する「ORGANIZATION」、該単語「警」が付随しない「ORGANIZATION」のそれぞれを主要表現とするようにしてもよい。
According to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する固有表現の種類を上記主要表現とするようにしてもよい。例えば、主要表現抽出部11は、抽出された固有表現の種類「ORGANIZATION」の前又は後に付随する単語の全てを抽出して、各々の単語を関連記事DB14中に出現する頻度に基づいてソートして表示し、該表示された単語からユーザの指定入力に従って選択された単語が付随する固有表現の種類を上記主要表現とする。抽出された固有表現の種類の前又は後に付随する単語を抽出する代わりに、抽出された固有表現の種類の前又は後に付随する文字列を抽出するようにしてもよい。
In addition, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語が付随する数値表現の正規分布と該抽出された単語が付随しない数値表現の正規分布とを求め、求めた正規分布同士が重なっている割合が最も小さい場合の単語が付随する数値表現に関連する単位表現と該単語が付随しない数値表現に関連する単位表現とを上記主要表現とするようにしてもよい。抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出する代わりに、抽出された単位表現に関連する数値表現の前又は後に付随する文字列を抽出するようにしてもよい。
Further, according to an embodiment of the present invention, the main
すなわち、例えば、主要表現抽出部11は、上記数値表現の前後に出現する単語又は文字列を関連記事DB14から抽出する。ここでは、説明の便宜上、該単語又は文字列を「パターン」と呼ぶ。なお、数値表現の前後に隣接して出現するパターンの代わりに、同一文に出現するパターンを抽出するようにしてもよい。そして、主要表現抽出部11は、例えば、抽出されたパターンから、関連記事DB14に出現する頻度に基づいて所定の数のパターンを選択し、選択されたパターンをパターンの候補とする。
That is, for example, the main
次に、主要表現抽出部11は、各パターンの候補について、以下の計算をする。まず、主要表現抽出部11は、パターンが前後に付随する数値表現の平均と、分散を求める。そして、求まった平均と分散とから正規分布(第1の正規分布)を求める。また、主要表現抽出部11は、パターンが前後に付随しない数値表現の平均と、分散を求める。そして、求まった平均と分散とから正規分布(第2の正規分布)を求める。そして、主要表現抽出部11は、上記求めた第1の正規分布と第2の正規分布同士が重なっている割合を求める。上記正規分布同士の重なっている割合が小さいときのパターンほど、数値表現同士を区分けする度合い(分解能力)が高いパターンとなる。主要表現抽出部11は、上記求まった割合が最も小さい場合のパターンの候補を最終的なパターンとして決定し、該決定された最終的なパターンが付随する数値表現に関連する単位表現と該パターンが付随しない数値表現に関連する単位表現とを主要表現とする。例えば、主要表現抽出部11は、「時速」という単語を最終的なパターンとして決定し、該単語「時速」が付随する数値表現に関連する単位表現と「時速」が付随しない数値表現に関連する単位表現とを主要表現とする。
Next, the main
本発明の一実施形態によれば、後述する情報対抽出部12が、上記決定された最終的なパターンが付随する数値表現を含む情報対を抽出するようにしてもよい。
According to an embodiment of the present invention, the information
本発明の一実施形態によれば、主要表現抽出部11が、上記パターンの候補のそれぞれについて、上記正規分布同士の重なっている割合の少ない順に所定の数選択し、該選択されたパターンの候補が付随する数値表現に関連する単位表現と該パターンの候補が付随しない数値表現に関連する単位表現とを主要表現とするようにしてもよい。
According to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、主要表現抽出部11が、上記パターンの候補のそれぞれについて、上記正規分布同士の重なっている割合の少ない順に所定の数選択してリストとして表示し、該リストとして表示されたパターンの候補からユーザの指定入力に従って指定したパターンの候補が付随する数値表現に関連する単位表現と該パターンの候補が付随しない数値表現に関連する単位表現とを主要表現とするようにしてもよい。
Further, according to an embodiment of the present invention, the main
なお、本発明においては、上述した方法以外の、最終的なパターンの決定方法を用いるようにしてもよい。 In the present invention, a final pattern determination method other than the method described above may be used.
また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後に付随する単語を抽出し、上記抽出された固有表現の種類に属する固有表現同士の類似度を求め、求まった固有表現同士の類似度と各々の固有表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、固有表現に付随した場合と付随しない場合とにおける固有表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する上記固有表現の種類と該単語が付随しない固有表現の種類とを前記主要表現とするようにしてもよい。
In addition, according to an embodiment of the present invention, the main
すなわち、例えば、主要表現抽出部11は、上記固有表現の種類の前後に出現する単語又は文字列を関連記事DB14から抽出する。前述したように、説明の便宜上、該単語又は文字列を「パターン」と呼ぶ。なお、数値表現の前後に隣接して出現するパターンの代わりに、同一文に出現するパターンを抽出するようにしてもよい。そして、主要表現抽出部11は、例えば、抽出されたパターンから、関連記事DB14に出現する頻度に基づいて所定の数のパターンを選択し、選択されたパターンをパターンの候補とする。
That is, for example, the main
次に、主要表現抽出部11は、各パターンの候補について、以下の計算をする。例えば、主要表現抽出部11は、予め記憶手段に記憶された、分類語彙表などの、単語を分類した辞書を用いて、当該辞書の記述において、近い意味とされた単語ほど類似度を高く設定しておくことによって、単語同士の類似度を予め決定する。
Next, the main
辞書を利用する代わりに、以下の方法で単語同士の類似度を決定するようにしてもよい。すなわち、主要表現抽出部11が、予め記憶された大規模言語コーパスから、ある単語と、該単語とよく共起する単語(例えば、同一文に共起して出現する頻度が高い単語)を取得する。そして、該共起する単語をベクトルの次元、該共起する単語の共起した回数(頻度)をベクトルの要素とするベクトルを、単語毎に作成する。単語同士の類似度を、単語のベクトル同士の角度(又はcos)と定義して、この角度(又はcos)が小さい(又は大きい)ほど、類似度が高いと定義する。
Instead of using a dictionary, the similarity between words may be determined by the following method. That is, the main
上記のようにして単語同士の類似度を決定した後、主要表現抽出部11は、上記各パターンの候補について、以下の計算式に従って、score(スコア値)を算出する。
After determining the similarity between words as described above, the main
score=Σ2つの固有表現の類似度×f(第1の固有表現,第2の固有表現)
但し、上記式において、Σは、関連記事DB14において出現する、上記固有表現の種類に属する固有表現のあらゆる2つの組合せ毎に加算する処理である。また、2つの固有表現の類似度は、上述した単語同士の類似度の決定方法に従って決まる、上記固有表現同士の類似度である。第1の固有表現,第2の固有表現は、上記固有表現の種類に属する固有表現に含まれる固有表現のうちの2つの固有表現である。また、f(第1の固有表現,第2の固有表現)は、第1の固有表現と第2の固有表現とで共にパターンの候補が出現した(付随する)場合、又は共にパターンの候補が出現しなかった場合は1、どちらか一方のみに上記パターンの候補が出現した場合は−1である関数である。
score = Σ similarity between two specific expressions × f (first specific expression, second specific expression)
However, in the above formula, Σ is a process of adding every two combinations of specific expressions belonging to the specific expression type appearing in the
上記scoreを各々のパターンの候補毎に計算し、scoreの値を求める。求まったscoreの値が高いときのパターンの候補ほど、固有表現に付随した場合と付随しない場合とにおける固有表現の区分けの度合い(分解能力)が高くなるパターンの候補である。 The score is calculated for each pattern candidate, and the score value is obtained. A pattern candidate with a higher score value is a candidate pattern that has a higher degree of distinction (decomposition ability) of the unique expression when it is associated with the unique expression and when it is not associated with the specific expression.
主要表現抽出部11は、例えば、最も高いscoreの値のときのパターンの候補が付随する上記固有表現の種類と該パターンの候補が付随しない固有表現の種類とを主要表現とする。
The main
本発明の一実施形態によれば、後述する情報対抽出部12が、上記最も高いscoreの値のときのパターンの候補が付随する固有表現を含む情報対を抽出するようにしてもよい。
According to an embodiment of the present invention, the information
また、本発明の一実施形態によれば、上記scoreの値の高い順にパターンの候補を所定の数選択し、該選択されたパターンの候補それぞれが付随する上記固有表現の種類と該パターンの候補それぞれが付随しない上記固有表現の種類とを主要表現とするようにしてもよい。 In addition, according to an embodiment of the present invention, a predetermined number of pattern candidates are selected in descending order of the score value, and the types of the unique expressions and the pattern candidates to which the selected pattern candidates are attached respectively. You may make it make it the main expression the kind of said specific expression which each does not accompany.
また、本発明の一実施形態によれば、主要表現抽出部11が、上記scoreの値の高い順にパターンの候補を所定の数選択し、該選択されたパターンの候補をリストとして表示し、該リストとして表示されたパターンの候補からユーザの指定入力に従って指定したパターンの候補が付随する固有表現の種類と該パターンの候補が付随しない固有表現の種類とを主要表現とするようにしてもよい。
Further, according to an embodiment of the present invention, the main
なお、本発明においては、上述した方法以外の、主要表現の決定方法を用いるようにしてもよい。 In the present invention, a method for determining a main expression other than the method described above may be used.
本発明の一実施形態によれば、上記scoreの値を利用する方法で、前述した数値表現に付随する最終的なパターンを決定するようにしてもよい。この場合は、例えば、上記scoreの値を利用する方法において、固有表現の種類を単位表現、固有表現を数値表現(数値、数値データ)として、数値表現同士の類似度を、数値の近さを示すものとして定義すればよい。例えば、数値表現同士の差を、数値表現同士の差の最大値で割った値を求め、1から該求まった値を引いたものを、数値表現同士の類似度とする。このようにして定義される数値表現同士の類似度と、各々の数値表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値(score=Σ2つの数値表現の類似度×f(第1の数値表現,第2の数値表現)に基づいて、例えば、最も高いscoreの値のときのパターンの候補が付随する単位表現と該パターンの候補が付随しない単位表現とを主要表現とする。 According to an embodiment of the present invention, a final pattern associated with the numerical expression described above may be determined by a method using the score value. In this case, for example, in the method using the score value described above, the type of specific expression is unit expression, the specific expression is a numerical expression (numerical value, numerical data), and the similarity between the numerical expressions is expressed as the closeness of the numerical value. It can be defined as shown. For example, a value obtained by dividing the difference between the numerical expressions by the maximum value of the difference between the numerical expressions is obtained, and a value obtained by subtracting the obtained value from 1 is set as the similarity between the numerical expressions. A score value (score = Σsimilarity between two numerical expressions) determined based on the similarity between the numerical expressions defined in this way and information indicating whether or not the extracted word is attached to each numerical expression. Based on degree × f (first numerical expression, second numerical expression), for example, a unit expression accompanied by a pattern candidate at the highest score value and a unit expression not accompanied by the pattern candidate. The main expression.
但し、上記スコア値を示す式において、Σは、関連記事DB14において出現する、数値表現のあらゆる2つの組合せ毎に加算する処理である。f(第1の数値表現,第2の数値表現)は、第1の数値表現と第2の数値表現とで共にパターンの候補が出現した(付随する)場合、又は共にパターンの候補が出現しなかった場合は1、どちらか一方のみに上記パターンの候補が出現した場合は−1である関数である。
However, in the formula indicating the score value, Σ is a process of adding every two combinations of numerical expressions that appear in the
なお、本発明の一実施形態によれば、上記数値表現同士の類似度を、値が大きい方の数値表現を値が小さい方の数値表現で除算した値と定義するようにしてもよい。 According to one embodiment of the present invention, the similarity between the numerical expressions may be defined as a value obtained by dividing the numerical expression having a larger value by the numerical expression having a smaller value.
また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、以下に示すクラスタリングの方法を用いて、上記関連記事DB14から、該関連記事DB14の記事群中の単語が属するクラスターを抽出して、該抽出された各クラスターを、主要表現としての固有表現の種類とするようにしてもよい。
In addition, according to an embodiment of the present invention, the main
以下に、クラスタリングの方法の例について説明する。
(階層クラスタリングによる方法)
クラスターの成員のうち、距離が最も近い成員同士を結合していき、クラスターを作る。そして、距離が最も近いクラスター同士を結合する。クラスター間の距離の定義は様々ある。例えば、クラスターAとクラスターBとの距離を、クラスターAの成員(すなわち、クラスターAに属する単語)とクラスターBの成員(すなわち、クラスターBに属する単語)との距離の中で最も小さいものとしてもよい。ここで、ある成員と他の成員との距離とは、ある成員の位置ベクトルと他の成員の位置ベクトルとの間の距離である。位置ベクトルとは、ベクトル空間上における成員の位置を示すベクトルである。また、例えば、クラスターAとクラスターBとの距離を、クラスターAの成員とクラスターBの成員との距離の中で最も大きいものとしてもよい。また、例えば、クラスターAとクラスターBとの距離を、全てのクラスターAの成員とクラスターBの成員との距離の平均としてもよい。また、全てのクラスターAの成員の位置の平均をクラスターAの位置とし、全てのクラスターBの成員の位置の平均をクラスターBの位置とし、当該クラスターAの位置とクラスターBの位置との距離をクラスターAとクラスターBとの距離としてもよい。
(ウォード法による方法)
以下に示すWを定義する。
W = ΣΣ(x(i,j)−ave_x(i))^2
^は指数を意味する。例えば、上記の式における1つ目のΣは、i=1からi=gまでの加算、2つ目のΣは、j=1からj=niまでの加算を意味する。また、x(i,j)は、i番目のクラスターのj番目の成員の位置、ave_x(i)は、i番目のクラスターの全ての成員の位置の平均を意味する。クラスター同士を結合していくと、Wの値が増加するが、ウォード法では、Wの値がなるべく大きくならないようにクラスター同士を結合していく。
Hereinafter, an example of a clustering method will be described.
(Method by hierarchical clustering)
Among the members of a cluster, members who are closest to each other are joined together to form a cluster. Then, the clusters having the shortest distance are combined. There are various definitions of the distance between clusters. For example, the distance between cluster A and cluster B may be the smallest of the distances between members of cluster A (ie, words belonging to cluster A) and members of cluster B (ie, words belonging to cluster B). Good. Here, the distance between a certain member and another member is the distance between the position vector of a certain member and the position vector of another member. The position vector is a vector indicating the position of the member in the vector space. For example, the distance between cluster A and cluster B may be the largest of the distances between members of cluster A and cluster B. Further, for example, the distance between the cluster A and the cluster B may be an average of the distances between all the members of the cluster A and the members of the cluster B. Also, the average of the positions of all the members of cluster A is the position of cluster A, the average of the positions of all the members of cluster B is the position of cluster B, and the distance between the position of cluster A and the position of cluster B is It may be the distance between cluster A and cluster B.
(Method by Ward method)
The following W is defined.
W = ΣΣ (x (i, j) −ave_x (i)) ^ 2
^ Means exponent. For example, the first Σ in the above equation means the addition from i = 1 to i = g, and the second Σ means the addition from j = 1 to j = ni. Further, x (i, j) means the position of the j-th member of the i-th cluster, and ave_x (i) means the average of the positions of all the members of the i-th cluster. When the clusters are joined together, the value of W increases, but in the Ward method, the clusters are joined together so that the value of W does not become as large as possible.
(クラスタリングの終了条件)
予めクラスターの個数を決めておいて、クラスターの個数が当該予め決められた数になったときに、クラスター同士を結合するのをやめるようにしてもよい。また、予め距離の閾値を決めておいて、その閾値以上離れているクラスター同士を結合するのをやめるようにしてもよい。
(Ending condition for clustering)
The number of clusters may be determined in advance, and when the number of clusters reaches the predetermined number, it is possible to stop joining the clusters. Alternatively, a threshold value for the distance may be determined in advance, and the clusters that are separated by the threshold value or more may be stopped.
(各成員の位置)
各成員(単語)の位置は、各成員に関する種々の情報(例えば、各成員の属性情報)を用いて求める。各成員の属性情報としては、例えば、各成員(単語)に含まれる文字の種類(例えば、ひらがな、カタカナ、漢字、それ以外が、それぞれあるかないか) 、単語の長さ、単語の語義等を用いる。
(Position of each member)
The position of each member (word) is obtained by using various information related to each member (for example, attribute information of each member). The attribute information of each member includes, for example, the type of characters (for example, whether there are hiragana, katakana, kanji, and others), the length of the word, the meaning of the word, etc. Use.
本発明の一実施形態によれば、例えば、主要表現抽出部11が、関連記事DB14内の記事群に含まれる記事、又は、該記事のタイトルや記事の先頭文から、公知のキーワード抽出技術を用いて単語を抽出する。そして、各単語(成員)の位置をベクトル(位置ベクトル)で表現する。成員の位置を示す位置ベクトルの要素の値は、例えば、各単語の出現頻度や、当該単語のOkapiの式(例えば上述した式(1)で示される値)、当該単語のtfidf(前述した式(1)の値にlogN/DFを乗じた値)等としてもよい。なお、例えば、位置ベクトルの次元を単位表現や時間表現の個数分増やして、当該記事において単位表現、時間表現に隣接して記事中に出現している数値を成員の位置ベクトルの要素の値としてもよい。
According to one embodiment of the present invention, for example, the main
主要表現抽出部11が、複数の記事中の単語(成員)の位置を位置ベクトルで表現し、記事間の距離を、それぞれの記事の成員同士の距離の中で最も小さいものとして、距離が最も近い記事同士を結合して、クラスターを作ってもよい。
The main
次にトップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
(最大距離アルゴリズムによるクラスタリング)
ある成員と、当該成員と距離が最も離れた成員を求め、これらの成員をそれぞれのクラスターの中心とする。次に、それぞれのクラスターの中心と各成員との距離の最小値を各成員の距離とし、その距離が最も大きい成員を新たなクラスターの中心とする。当該クラスターの中心を求める処理を繰り返す。例えば、予め定めた数のクラスターになったときに、当該クラスターの中心を求める処理の繰り返しをやめる。また、例えば、クラスター間の距離が予め定めた数以下になったときに、当該クラスターの中心を求める処理の繰り返しをやめる。
Next, a method of top-down clustering (non-hierarchical clustering) will be described.
(Clustering with maximum distance algorithm)
Find a member and the member farthest away from the member, and make these members the center of each cluster. Next, the minimum value of the distance between the center of each cluster and each member is set as the distance of each member, and the member having the largest distance is set as the center of the new cluster. The process for obtaining the center of the cluster is repeated. For example, when the number of clusters reaches a predetermined number, the process for obtaining the center of the cluster is not repeated. Further, for example, when the distance between the clusters is equal to or less than a predetermined number, the process of obtaining the center of the cluster is stopped.
また、クラスターの良さを例えばAIC情報量基準などで評価して、評価によって求まった値と予め定めた閾値との比較結果に基づいて、当該クラスターの中心を求める処理の繰り返しをやめるようにしてもよい。上記の最大距離アルゴリズムによるクラスタリングによれば、各成員は、各成員と最も近いクラスター中心を持つクラスターの成員となる。
(k平均法)
例えば、以下に示すk平均法によって、予め定めた個数(k個)にクラスタリングする。まず、k個の成員をランダムに選択し、選択されたk個の成員をクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。
In addition, the goodness of the cluster is evaluated based on, for example, an AIC information amount standard, and the repetition of the process of obtaining the center of the cluster is stopped based on the comparison result between the value obtained by the evaluation and a predetermined threshold value. Good. According to the clustering by the above maximum distance algorithm, each member becomes a member of a cluster having a cluster center closest to each member.
(K-average method)
For example, clustering is performed to a predetermined number (k) by the following k-average method. First, k members are selected at random, and the selected k members are set as the center of the cluster. Each member is a member of a cluster having a cluster center closest to each member.
次に、クラスター内の各成員の平均の位置に最も近い成員を、それぞれのクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。また、クラスター内の各成員の平均の位置に最も近い成員をそれぞれのクラスターの中心とする。上記のクラスターの中心を求める処理を繰り返し、クラスターの中心が移動しなくなったときに、クラスターの中心を求める処理の繰り返しをやめる。本発明の一実施形態によれば、予め定めた回数だけクラスターの中心を求める処理を繰り返してやめるようにしてもよい。そして、最終的なクラスター中心を持つクラスターを決定する。そして、各成員を、当該各成員が最も近いクラスター中心を持つクラスターの成員とする。上記の手法によって、成員のクラスタリングをする。本発明において用いるクラスタリングの方法は、上述した方法に限定されるものではない。 Next, the member closest to the average position of each member in the cluster is set as the center of each cluster. Each member is a member of a cluster having a cluster center closest to each member. The member closest to the average position of each member in the cluster is set as the center of each cluster. The process for obtaining the center of the cluster is repeated, and when the center of the cluster stops moving, the process for obtaining the center of the cluster is stopped. According to an embodiment of the present invention, the process for obtaining the center of the cluster may be repeated for a predetermined number of times. Then, the cluster having the final cluster center is determined. Each member is a member of a cluster having the closest cluster center. Cluster members by the above method. The clustering method used in the present invention is not limited to the method described above.
本発明に係る情報抽出装置1は、上述したクラスタリングの方法以外の様々な方法を用いて、クラスタリングをするようにしてもよい。例えば、予め情報抽出装置1内の記憶手段(図示を省略)内に、単語と単語が属するクラスター(例えば、当該単語を含む記事の文)との対応情報を予め記憶させておき、主要表現抽出部11が、関連記事DB14中の記事群から特定の単語を選択し、当該記憶手段内の、当該選択された単語と当該選択された単語が属するクラスター(例えば、当該単語を含む記事の文)との対応情報に基づいて、上記選択された単語が属するクラスターを決定し、該決定されたクラスターを、主要表現としての固有表現の種類としてもよい。
The
また、本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従って、項目表現を入力し、入力された項目表現と共起して出現する単位表現を関連記事DB14中の記事群または予め記憶手段に記憶された書誌データから抽出し、上記項目表現と抽出した単位表現を主要表現とするようにしてもよい。そして、情報対抽出部12が、上記主要表現に基づいて、当該記事群を構成する記事から上記単位表現に関連する数値表現と当該項目表現との対を情報対として抽出し、表示部13が、上記主要表現に基づいて抽出された情報対をグラフ表示する際に、項目表現を、当該項目表現と偏って共起して出現する単位表現と対応付けてグラフ表示するようにしてもよい。
Further, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従って、項目表現を入力し、入力された項目表現と共起して出現する単位表現を関連記事DB14中の記事群または予め記憶手段に記憶された書誌データから抽出し、上記項目表現と抽出した単位表現を主要表現とするようにしてもよい。そして、情報対抽出部12が、上記主要表現に基づいて、当該記事群を構成する記事から上記単位表現に関連する数値表現と当該項目表現との対を情報対として抽出するようにしてもよい。
Further, according to an embodiment of the present invention, the main
また、本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従って、項目表現を入力し、入力された項目表現と共起して出現する固有表現を関連記事DB14中の記事群または予め記憶手段に記憶された書誌データから抽出し、上記項目表現と抽出した固有表現が属する固有表現の種類とを主要表現とするようにしてもよい。そして、情報対抽出部12が、上記主要表現に基づいて、当該記事群を構成する記事から固有表現と項目表現との対を情報対として抽出するようにしてもよい。
According to one embodiment of the present invention, the main
ここで、一般に、表現Bと偏って共起して出現する単語Aの抽出方法(共起語抽出方法)について説明する。当該共起語抽出方法を用いれば、例えば、項目表現「観客動員数」から単位表現「人」を求めることができる。また、逆に、単位表現「人」から項目表現「観客動員数」などを求めることができる。また、当該共起語抽出方法を用いれば、例えば、項目表現「選手」から固有表現「北島康介」を求めることができる。また、逆に、固有表現「北島康介」から項目表現「選手」などを求めることができる。 Here, a method of extracting a word A that appears co-occurring with the expression B in general (co-occurrence word extraction method) will be described. If the co-occurrence word extraction method is used, for example, the unit expression “person” can be obtained from the item expression “number of spectators mobilized”. Conversely, the item expression “number of spectators” can be obtained from the unit expression “people”. Further, if the co-occurrence word extraction method is used, for example, the unique expression “Kousuke Kitajima” can be obtained from the item expression “player”. Conversely, the item expression “player” or the like can be obtained from the unique expression “Kosuke Kitajima”.
例えば、項目表現「観客動員数」から単位表現「人」を求める場合は、単位表現の候補を取り出し,それぞれをAとして以下の計算をする。単位表現「人」から項目表現「観客動員数」などを求める場合は、項目表現の候補を取り出し、それぞれをAとして以下の計算をする。また、例えば、項目表現「選手」から固有表現「北島康介」を求める場合は、固有表現の候補を取り出し,それぞれをAとして以下の計算をする。固有表現「北島康介」から項目表現「選手」などを求める場合は、項目表現の候補を取り出し、それぞれをAとして以下の計算をする。 For example, when the unit expression “person” is obtained from the item expression “number of spectators”, candidates for the unit expression are extracted and the following calculation is performed by setting each as A. When the item expression “number of spectators” is obtained from the unit expression “people”, the item expression candidates are extracted, and the following calculation is performed with each of them as A. Also, for example, when the specific expression “Kousuke Kitajima” is obtained from the item expression “player”, the specific expression candidates are extracted, and the following calculation is performed with each set as A. When the item expression “player” or the like is obtained from the unique expression “Kousuke Kojima”, candidate item expressions are taken out and A is used for each of the following expressions.
C中のAの出現率、B中のAの出現率を求める。ここで、
C中のAの出現率=C中のAの出現回数/C中の単語総数
B中のAの出現率=B中のAの出現回数/B中の単語総数
である。そして、B中のAの出現率/C中のAの出現率を求めて、この値が大きいものほど、単語Aを、表現Bに偏って共起して出現する単語とする。
The appearance rate of A in C and the appearance rate of A in B are obtained. here,
Appearance rate of A in C = Number of appearances of A in C / Total number of words in C. Appearance rate of A in B = Number of appearances of A in B / Total number of words in B. Then, the appearance rate of A in B / the appearance rate of A in C is obtained, and the larger this value, the word A becomes a word that appears co-occurring with a bias toward expression B.
B中のAの出現率とは、BとAが共起している場合のAの出現率という意味であり、C中のAの出現率とは、予め記憶手段に記憶された書誌データにおけるAの出現率または出現回数という意味である。 The appearance rate of A in B means the appearance rate of A when B and A co-occur, and the appearance rate of A in C is the bibliographic data stored in the storage means in advance. It means the appearance rate or the number of appearances of A.
本発明の他の実施形態によれば、B中のAの出現率とは、関連記事DB14中の記事群における、BとAが共起している場合のAの出現率という意味であり、C中のAの出現率とは、関連記事DB14中の記事群におけるAの出現率または出現回数という意味としてもよい。
According to another embodiment of the present invention, the appearance rate of A in B means the appearance rate of A when B and A co-occur in the article group in the
なお、本発明の一実施形態によれば、例えば、複数の選手名から項目表現「選手」を求めるようにしてもよい。例えば、各選手名毎に、よく偏って多く出現する表現Fを偏り度合いとともに求め、全ての選手について表現F毎に偏り度合いを加算したものや、乗じたもの(ゼロのものの場合はゼロを乗じずに例えば0.000001等の微小値を乗じる)をスコアとして、該スコアの最も大きい表現Fを項目表現とするようにしてもよい。偏り度合いは、例えば、よく共起するものを算出する時に使った値等を用いる。 According to an embodiment of the present invention, for example, the item expression “player” may be obtained from a plurality of player names. For example, for each player name, an expression F that often appears biased and frequently appears together with the degree of bias, and for all players, the sum of the degree of bias for each expression F, or a product (multiply zero for zero). For example, the expression F having the largest score may be used as the item expression. As the degree of bias, for example, a value used when calculating a co-occurrence is used.
表現Bと偏って共起して出現する単語Aの抽出方法として、以下のように、有意差検定を利用する方法を用いてもよい。
(二項検定の場合)
AのCでの出現数をN、AのBでの出現数をN1、N2=N−N1とする。AがCに現れたときに、それがB中に現れる確率を0.5と仮定して、Nの総出現のうち、N2回以下、AがCに出現してBに出現しなかった確率を求める。
As a method for extracting the word A that appears co-occurring with the expression B, a method using a significant difference test may be used as follows.
(In case of binomial test)
The number of occurrences of A at C is N, the number of occurrences of A at B is N1, and N2 = N−N1. Probability that when A appears in C, the probability that it appears in B is 0.5, and out of N total occurrences, N appears less than N2 times and A appears in C and does not appear in B Ask for.
この確率は、P1=ΣC(N1+N2,x)*0.5(x) *0.5(N1+N2-x)
である。ただし、上記式において、Σは、x=0〜x=N2の和であり、C(N1+N2,x)は、N1+N2個の異なったものからx個のものを取り出す場合の数を示す。
This probability is, P1 = ΣC (N1 + N2 , x) * 0.5 (x) * 0.5 (N1 + N2-x)
It is. However, in the above equation, Σ is the sum of x = 0 to x = N2, and C (N1 + N2, x) represents the number when x pieces are extracted from N1 + N2 different pieces.
上記の式で示される確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち、N1がN2に比べて有意に大きいことと判断できる。5%検定なら、P1が5%よりも小さいこと、10%検定なら、P1が10%よりも小さいことが、有意に大きいかどうかの判断基準になる。 If the probability value expressed by the above equation is sufficiently small, it can be determined that N1 and N2 are not equivalent probabilities, that is, N1 is significantly larger than N2. If it is 5% test, P1 is smaller than 5%, and if it is 10% test, P1 is smaller than 10%.
例えば、N1がN2に比べて有意に大きいと判断されたものを、表現Bに偏ってよく共起して出現する単語とする。また、P1が小さいものほど、表現Bに偏ってよく共起して出現する単語とする。
(カイ二乗検定の場合)
B中のAの出現回数をN1、B中の単語の総出現数をF1、CにあってBにない、Aの出現回数をN2、CにあってBにない、単語の総出現数をF2とする。R1=F1/N1、R2=F2/N2とする。
For example, words in which N1 is determined to be significantly larger than N2 are words that appear well co-occurring with the expression B. In addition, a word having a smaller P1 is more likely to be biased toward the expression B and appear co-occurring.
(Chi-square test)
The number of occurrences of A in B is N1, the total number of occurrences of words in B is in F1, C and not in B, the number of occurrences of A is in N2, and the total number of occurrences in C is not in B Let it be F2. It is assumed that R1 = F1 / N1 and R2 = F2 / N2.
ここで、N=N1+N2として、
カイ二乗値=(N*(F1*(N2−F2)−(N1−F1)*F2)2 )/((F1+F2)*(N−(F1+F2))*N1*N2)
を求める。
Here, N = N1 + N2
Chi-square value = (N * (F1 * (N2−F2) − (N1−F1) * F2) 2 ) / ((F1 + F2) * (N− (F1 + F2)) * N1 * N2)
Ask for.
そして、求めたカイ二乗値が大きいほど、R1とR2は有意差があると言え、カイ二乗値が3.84よりも大きいとき、危険率5%の有意差があると言え、カイ二乗値が6.63よりも大きいとき、危険率1%の有意差があると言える。 Then, it can be said that the larger the obtained chi-square value is, the more significant difference between R1 and R2 is. If the chi-square value is larger than 3.84, it can be said that there is a significant difference of 5% of the risk rate, and the chi-square value is When it is larger than 6.63, it can be said that there is a significant difference of 1% of the risk rate.
例えば、N1>N2でかつカイ二乗値が大きいものほど、表現Bに偏ってよく共起して出現する単語とする。
(比の検定(比率の差の検定))
p=(F1+F2)/(N1+N2)、p1=R1、p2=R2として、
Z=|p1−p2|/sqrt(p*(1−p)*(1/N1+1/N2))
を求める。sqrtは、ルートを意味する。
For example, a word having N1> N2 and a larger chi-square value is more likely to be biased toward the expression B and appear co-occurring.
(Ratio test (ratio difference test))
p = (F1 + F2) / (N1 + N2), p1 = R1, p2 = R2,
Z = | p1-p2 | / sqrt (p * (1-p) * (1 /
Ask for. sqrt means the root.
そして、Zが大きいほど、R1とR2は有意差があると言え、Zが1.96よりも大きいとき、危険率5%の有意差があると言え、Zが2.58よりも大きいとき、危険率1%の有意差があると言える。 And as Z is larger, it can be said that R1 and R2 are significantly different. When Z is larger than 1.96, it can be said that there is a significant difference of 5% of the risk rate. When Z is larger than 2.58, It can be said that there is a significant difference in the risk rate of 1%.
例えば、N1>N2でかつZが大きいものほど、表現Bに偏ってよく共起して出現する単語とする。 For example, a word having N1> N2 and a larger Z is more likely to be biased toward the expression B and appear co-occurring.
上記の3つの検定の方法と、前述した、単純にB中のAの出現率/C中のAの出現率を求めて判定する方法を組み合わせてもよい。例えば、危険率5%以上有意差があるもののうち、B中のAの出現率/C中のAの出現率の値が大きいものほど表現Bに偏ってよく共起して出現する単語とする。
(情報対抽出部12)
情報対抽出部12は、関連記事DB14に格納された記事群において、主要表現抽出部11によって抽出された表現(例えば項目表現と固有表現の種類)が例えば同時に出現している箇所を特定し、例えば、その箇所に記載されている項目表現と固有表現との対を情報対とする。上記情報対に含まれる固有表現は、固有表現の種類に属する固有表現である。当該固有表現は、上述した固有表現抽出技術を用いて抽出される。
The above-described three test methods may be combined with the above-described method of simply determining and determining the appearance rate of A in B / the appearance rate of A in C. For example, among those having a significant difference of 5% or more in risk rate, the larger the value of the appearance rate of A in B / the appearance rate of A in C, the more likely to appear in co-occurrence with a bias toward expression B .
(Information pair extraction unit 12)
The information
また、例えば、情報対抽出部12は、主要表現抽出部11によって抽出された表現(例えば項目表現と固有表現の種類と単位表現)が例えば同時に出現している箇所を特定し、例えば、その箇所に記載されている項目表現と固有表現と上記単位表現に関連する数値表現との対を情報対とする。上記単位表現に関連する数値表現とは、例えば、単位表現に隣接して記事中に出現している数値と単位表現とをあわせて得られる表現である。
In addition, for example, the information
本発明の実施の形態においては、例えば、句点、改行、文書の切れ目を示す特殊記号を切れ目とし、これらをはさまずに同時に主要表現が出現した箇所を、同時に出現した箇所とする。 In the embodiment of the present invention, for example, a special symbol indicating a punctuation mark, a line feed, or a document break is defined as a break, and a place where the main expression appears at the same time is defined as a place where it appears simultaneously.
本発明の一実施形態によれば、情報対抽出部12が、更に、主要表現抽出部11によって抽出された主要表現のうち、特定の主要表現を選択し、上記選択された特定の主要表現に基づいて、前記記事群から情報対を抽出するようにしてもよい。
According to an embodiment of the present invention, the information
本発明の一実施例によれば、情報対抽出部12が、ユーザによって予め指定された固有表現の種類(例えば、LOCATION)に基づいて、(上述した固有表現抽出技術を用いて)関連記事DB14から該固有表現の種類に属する固有表現を抽出し、関連記事DB14において主要表現抽出部11によって抽出された項目表現と該抽出された固有表現とが同時に出現している箇所に記載されている項目表現と固有表現との対を情報対として抽出するようにしてもよい。
According to one embodiment of the present invention, the information
本発明の一実施形態によれば、情報対抽出部12が、更に、機械学習の手法を用いて、上記情報対を抽出するようにしてもよい。
According to an embodiment of the present invention, the information
また、本発明の一実施形態によれば、情報対抽出部12が、主要表現抽出部11において抽出された複数の主要表現に基づいて情報対抽出部12が抽出した複数種類の情報対から、各主要表現についての所定の評価値に基づいて、主要な情報対を選択(例えば、評価値が最も大きい情報対を選択)するようにしてもよい。
Moreover, according to one Embodiment of this invention, the information
図2は、本発明の実施の形態において、機械学習の手法を用いて情報対を抽出する構成を採る場合の、情報対抽出部12の構成例を示す図である。情報対抽出部12は、教師データ記憶手段121、解−素性対抽出手段122、機械学習手段123、学習結果記憶手段124、表現対抽出手段125、素性抽出手段126、解推定手段127、情報対抽出手段128を備える。
FIG. 2 is a diagram illustrating a configuration example of the information
教師データ記憶手段121は、機械学習処理において使用される教師データとなるテキストデータを記憶する。例えば、項目表現をai(i=1,2,3,...)、固有表現の種類に属する固有表現をbi(i=1,2,3,...)、単位表現に関連する数値表現をci(i=1,2,3,...)とすると、教師データとして、テキストデータの文中に出現しているai、bi、ciの対(表現対)を問題、情報対として抽出するべき表現対であるか否かの情報を解とする事例を記憶する。具体的には、テキストデータ中に現れるあらゆるai、bi、ciの対について、情報対として抽出すべき表現対(正例)であるか、抽出するべきでない表現対(負例)かのいずれかの解を示すタグを人手によって付与する。 The teacher data storage unit 121 stores text data serving as teacher data used in the machine learning process. For example, the item expression is ai (i = 1, 2, 3,...), The specific expression belonging to the type of specific expression is bi (i = 1, 2, 3,...), And the numerical value related to the unit expression. Assuming that the expression is ci (i = 1, 2, 3,...), A pair of ai, bi, and ci (expression pair) appearing in the text data sentence is extracted as a problem and information pair as teacher data. A case where the information on whether or not the expression pair is to be made is a solution is stored. Specifically, for every ai, bi, ci pair appearing in text data, either an expression pair to be extracted as an information pair (positive example) or an expression pair that should not be extracted (negative example) A tag indicating the solution is manually attached.
すなわち、本発明の実施の形態においては、例えば、
(a1,b1,c1)−解 「正例」
(a1,b2,c1)−解 「負例」
・
・
・
(a2,b2,c2)−解 「負例」
といった、表現対と解との組を生成する。
That is, in the embodiment of the present invention, for example,
(A1, b1, c1)-solution "positive example"
(A1, b2, c1)-solution "negative example"
・
・
・
(A2, b2, c2)-solution "negative example"
A pair of expression pair and solution is generated.
解−素性対抽出手段122は、教師データ記憶手段121内に記憶されているテキストデータの事例から、解と素性の集合との組を抽出する。素性は、機械学習処理で使用する情報である。解−素性対抽出手段122は、素性として、例えば、あるテキストデータ中の、解が付与された各表現対についての、aiとbi、biとci、aiとciの間の距離(文字または単語数等)や、テキストデータ中におけるaiとbiとciの表現対を含む範囲や、ai、bi、ciそれぞれの前後の文字列、単語、品詞情報等を用いる。また、解−素性対抽出手段122は、例えば、ai,bi,ciがテキストデータのタイトルに含まれるか等の情報や、aiとbi、biとci、aiとciの間に出現する品詞の情報等を素性としてもよい。また、本発明の実施の形態においては、記事中におけるai、bi、ciそれぞれの位置情報を素性としてもよい。例えば、新聞等の記事においては、最初に出現する主要表現が重要となることが多いからである。
The solution-feature
機械学習手段123は、解−素性対抽出手段122によって抽出された解と素性の集合との組から、どのような素性のときにどのような解になりやすいかを、教師あり機械学習法により学習する。その学習結果は、学習結果記憶手段124内に記憶される。
The machine learning means 123 uses a supervised machine learning method to determine what kind of solution is likely to be generated from a set of the solution extracted by the solution-feature pair extraction means 122 and the feature set. learn. The learning result is stored in the learning
表現対抽出手段125は、主要表現抽出部11によって抽出された主要表現(例えば、項目表現、固有表現の種類、単位表現)を用いて、関連記事DB14中の各記事に含まれるai(項目表現)、bi(固有表現の種類に属する固有表現)、ci(単位表現に関連する数値表現)という3種類の表現のあらゆる組み合わせ(表現対)を抽出する。なお、単位表現と連接して記事中に出現する数値と当該単位表現との組み合わせを数値表現とする。
The expression
素性抽出手段126は、解−素性対抽出手段122と同様の処理によって、表現対抽出手段125によって抽出された各表現対について、素性を抽出する。
The
解推定手段127は、学習結果記憶手段124の学習結果を参照して、各表現対について、その素性の集合の場合に、どのような解(分類先)になりやすいかの度合いを推定する。
The
情報対抽出手段128は、解推定手段127の推定結果に基づいて、情報対として抽出すべき表現対(正例)となる度合いが高いと推定されたものを、情報対として抽出する。
Based on the estimation result of the
ここで、機械学習手段123による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の参考文献(5)〜参考文献(7)参照)。 Here, a machine learning method by the machine learning means 123 will be described. The machine learning method prepares many sets of problem-solution pairs, learns them, learns what kind of solution the problem becomes, and uses the learning result to create a new problem. This is a method that makes it possible to guess the solution (for example, see the following references (5) to (7)).
参考文献(5):村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献(6):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(7):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
Reference (5): Masaki Murata, Language Processing Based on Machine Learning, Faculty of Science and Engineering, Ryukoku University. Invited lecture. 2004.http: //www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
Reference (6): Japanese-English translation of tense aspect modality using support vector machine, Maki Murata, Mao, Kiyotaka Uchimoto, Hitoshi Isahara, IEICE Language Understanding and Communication Study Group NLC2000-78, 2001 Year.
Reference (7): CRL's efforts in the SENSEVAL2J dictionary task, Masaki Murata, Masao Uchiyama, Kiyotaka Uchimoto, Ma Aoi, Hitoshi Isahara, IEICE Language Understanding and Communication Study Group NLC2001-40, 2001.
In order to convey the problem situation to the machine, what kind of problem is required, features (elements constituting the problem with information used for analysis) are required. The problem is expressed by the feature. For example, in the problem of estimating the tense of Japanese sentence ending expressions, the problem: “He speaks.” --- If the solution “present” is given, an example of a feature is “He speaks.” . "" Speaking. "" Su "". "
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。 In other words, the machine learning method prepares many sets of feature set-solution pairs, performs learning, learns what kind of solution the feature set becomes, and uses the learning result. This is a method of extracting a set of features from a new problem and inferring a solution in the case of the feature.
機械学習手段123は、機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
The
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。 The k-nearest neighbor method is a method for obtaining a classification destination (solution) by using the k most similar cases instead of the most similar case, and by majority decision of the k cases. k is a predetermined integer number, and generally an odd number between 1 and 9 is used.
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。 The Simple Bayes method is a method of estimating the probability of each classification based on Bayes' theorem and determining the classification having the highest probability value as a classification destination.
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の式(4)で与えられる。 In the simple Bayes method, the probability of outputting the classification a in the context b is given by the following equation (4).
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi |a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fi を持つ確率を意味する。P(fi |a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式(5)の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の式(6)を用いてスームージングを行ったものを用いる。 Here, the context b is a set of features f j (εF, 1 ≦ j ≦ k) set in advance. p (b) is the appearance probability of the context b. Here, since it is independent of the classification a and is a constant, it is not calculated. P (a) (where P is a tilde at the top of p) and P (f i | a) are the probabilities estimated from the teacher data, respectively, and the appearance probability of class a, and the feature f for class a means the probability of having i . When a value obtained by performing maximum likelihood estimation as P (f i | a) is used, the value often becomes zero, and it may be difficult to determine the classification destination because the value of Equation (5) is zero. Therefore, smoothing is performed. Here, what smoothed using the following formula | equation (6) is used.
ただし、freq(fi ,a)は、素性fi を持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。 Here, freq (f i , a) means the number of cases having the feature f i and the classification a, and freq (a) means the number of cases having the classification a.
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。 The decision list method uses features and combinations of classification destinations as rules, stores them in the list in a predetermined priority order, and when input to be detected is given, from the highest priority in the list This is a method in which input data is compared with the feature of the rule, and the classification destination of the rule having the same feature is set as the classification destination of the input.
決定リスト方法では、あらかじめ設定しておいた素性fj ( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。 In the decision list method, the probability value of each classification is obtained using only one of the features f j (εF, 1 ≦ j ≦ k) set in advance as a context. The probability of outputting classification a in a context b is given by
p(a|b)=p(a|fmax ) 式(7)
ただし、fmax は以下の式によって与えられる。
p (a | b) = p (a | fmax) Equation (7)
However, fmax is given by the following equation.
また、P(ai |fj )(ここでPはpの上部にチルダ)は、素性fj を文脈に持つ場合の分類ai の出現の割合である。 P (a i | f j ) (where P is a tilde at the top of p) is the rate of appearance of the classification a i when the feature f j is in the context.
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(式(9))を満足しながらエントロピーを意味する式(10)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。 In the maximum entropy method, when a set of preset features f j (1 ≦ j ≦ k) is F, an expression (entropy) that satisfies a predetermined conditional expression (equation (9)) below ( In this method, the probability distribution p (a, b) when 10) is maximized is obtained, and the classification having the largest probability value is obtained from the probabilities of the respective classifications obtained according to the probability distribution.
ただし、A、Bは分類と文脈の集合を意味し、gj (a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai |fj )(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。 However, A and B mean a set of classifications and contexts, and g j (a, b) is a function that is 1 if the context b has a feature f j and the classification is a, and is 0 otherwise. means. Further, P (a i | f j ) (where P is a tilde at the top of p) means the rate of appearance of (a, b) in the known data.
式(9)は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の参考文献(8)および参考文献(9)に記載されている。 Formula (9) is to obtain the expected value of the frequency of the output and feature pair by multiplying the probability p and the function g meaning the appearance of the pair of output and feature. And the expected value calculated based on the probability distribution calculated on the left side is the constraint, entropy maximization (smoothing of the probability distribution) is performed to determine the probability distribution of the output and the context. Details of the maximum entropy method are described in the following references (8) and (9).
参考文献(8):Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997
参考文献(9):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998) )
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
Reference (8): Eric Sven Ristad, Maximum Entropy Modeling for Natural Language, (ACL / EACL Tutorial Program, Madrid, 1997
(9): Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998))
The support vector machine method is a method of classifying data composed of two classifications by dividing a space by a hyperplane.
図3にサポートベクトルマシン法のマージン最大化の概念を示す。図3において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図3(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図3(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。 FIG. 3 shows the concept of margin maximization in the support vector machine method. In FIG. 3, a white circle means a positive example, a black circle means a negative example, a solid line means a hyperplane that divides the space, and a broken line means a surface that represents the boundary of the margin area. 3A is a conceptual diagram when the interval between the positive example and the negative example is small (small margin), and FIG. 3B is a conceptual diagram when the interval between the positive example and the negative example is wide (large margin). is there.
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図3(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。 At this time, if the two classifications consist of positive and negative examples, the larger the interval (margin) between the positive and negative examples in the learning data, the less likely it is to make an incorrect classification with open data. As shown in FIG. 3B, a hyperplane that maximizes this margin is obtained, and classification is performed using it.
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。 Basically, it is as described above. Usually, an extension of the method that the training data may contain a small number of cases in the inner area of the margin, or an extension that makes the linear part of the hyperplane nonlinear ( The one with the introduction of the kernel function is used.
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。 This extended method is equivalent to classification using the following discriminant function, and the two classes can be discriminated depending on whether the output value of the discriminant function is positive or negative.
ただし、xは識別したい事例の文脈(素性の集合) を、xi とyj (i=1,…,l,yj ∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise )
であり、また、各αi は式(13)と式(14)の制約のもと式(12)を最大にする場合のものである。
Where x is the context (set of features) to be identified, and x i and y j (i = 1,..., L, y j ∈ {1, -1}) mean the context and classification destination of the learning data. And the function sgn is
sgn (x) = 1 (x ≧ 0)
-1 (otherwise)
Each α i is for maximizing the expression (12) under the constraints of the expressions (13) and (14).
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。 The function K is called a kernel function, and various functions are used. In this embodiment, the following polynomial is used.
K(x,y)=(x・y+1)d 式(15)
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi >0となるxi は、サポートベクトルと呼ばれ、通常、式(11)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
K (x, y) = (x · y + 1) d Equation (15)
C and d are constants set experimentally. For example, C was fixed at 1 throughout all treatments. Moreover, two types of 1 and 2 are tried for d. Here, x i where α i > 0 is called a support vector, and the portion taking the sum of Expression (11) is usually calculated using only this case. That is, only actual cases called support vectors are used for actual analysis.
なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献(10)および参考文献(11)に記載されている。 The details of the extended support vector machine method are described in the following references (10) and (11).
参考文献(10):Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献(11):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
Reference (10): Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods, (Cambridge University Press, 2000)
Reference (11): Taku Kudoh, Tinysvm: Support Vector machines, (http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM / index.html, 2000)
The support vector machine method handles data with two classifications. Therefore, when handling cases with three or more classifications, a pair-wise method or a one-VS rest method is usually used in combination with this.
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。 In the pairwise method, in the case of data having n classifications, every pair (n (n-1) / 2) of two different classification destinations is generated, and a binary classifier indicates which is better for each pair. That is, it is obtained by the support vector machine method processing module and finally obtains the classification destination by majority decision of the classification destination by n (n−1) / 2 binary classification.
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、a と推定する。 For example, when there are three classification destinations a, b, and c, the one VS rest method generates three sets of classification destination a and other, classification destination b and other, classification destination c and other, The learning process is performed on the set of the support vector machine method. Then, in the estimation process based on the learning result, the learning results of the three sets of support vector machines are used. See how the three support vector machines are estimated as candidates to be estimated. Of the three support vector machines, it is the non-other classification target and the separation plane of the support vector machine. This is a method for obtaining a classification destination of a thing farthest from the object. For example, when a candidate is farthest from the separation plane in the support vector machine created by the learning process of “classification destination a and other”, the candidate classification destination is estimated as a.
解推定手段127が推定する、各表現対についての、どのような解(分類先)になりやすいかの度合いの求め方は、機械学習手段123が機械学習の手法として用いる様々な方法によって異なる。
The method of determining the level of the solution (classification destination) that is likely to be the solution (classification destination) for each expression pair estimated by the
例えば、本発明の実施の形態において、機械学習手段123が、機械学習の手法としてk近傍法を用いる場合、機械学習手段123は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段124に記憶しておく。 For example, in the embodiment of the present invention, when the machine learning means 123 uses the k-nearest neighbor method as a machine learning technique, the machine learning means 123 sets the feature data extracted from the cases among the cases of the teacher data. The similarity between cases based on the ratio of overlapping features (the number of the same features) is defined, and the defined similarity and the case are stored in the learning result storage means 124 as learning result information. Keep it.
そして、解推定手段127は、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段124において定義された類似度と事例を参照して、表現対抽出手段125によって抽出された表現対の候補について、その候補の類似度が高い順にk個の事例を学習結果記憶手段124の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、表現対の候補の分類先(解)として推定する。すなわち、解推定手段127では、各表現対についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数、ここでは「抽出するべき」という分類が獲得した票数とする。
Then, when a new expression pair (candidate) is extracted by the expression
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習手段123は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段124に記憶する。そして、解推定手段127は、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段124の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて素性抽出手段126で取得した表現対の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その表現対の候補の素性の分類(解)と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
When the simple Bayes method is used as the machine learning method, the
また、機械学習手法として決定リスト法を用いる場合には、機械学習手段123は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを学習結果記憶手段124に記憶する。そして、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。
When the decision list method is used as the machine learning method, the
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習手段123は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて学習結果記憶手段124に記憶する。そして、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124の確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
When the maximum entropy method is used as the machine learning method, the machine learning means 123 specifies a class that can be a solution from the example of the teacher data, and maximizes an expression that satisfies a predetermined conditional expression and shows entropy. A probability distribution consisting of a set of features and a class that can be a solution is obtained and stored in the learning result storage means 124. When a new expression pair (candidate) is extracted by the expression
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習手段123は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段124に記憶する。そして表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124の超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(抽出するべき表現対)の空間への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。なお、上記では、情報対抽出部12が、主要表現としての項目表現、固有表現の種類、単位表現を用いて、機械学習の手法によって情報対を抽出する例を説明したが、上記と同様の機械学習の手法を用いて、情報対抽出部12が、主要表現としての項目表現、固有表現の種類を用いて情報対を抽出するようにしてもよい。
When the support vector machine method is used as the machine learning method, the
本発明の一実施形態によれば、情報対抽出部12が、更に、抽出された情報対のうち、最終的に抽出対象とする情報対を正例、最終的に抽出対象としない情報対を負例として決定し、該決定された正例及び負例とを教師データとして、上述した機械学習の手法を用いて上記抽出された情報対について機械学習して、最終的に抽出対象とする情報対を決定するようにしてもよい。
According to an embodiment of the present invention, the information
例えば、情報対抽出部12が、100個の情報対を抽出した後、ユーザの指定入力に従って、該100個の情報対に含まれる6個の情報対のうちの3個を、最終的に抽出対象とする情報対(正例)とし、残りの3個を、最終的に抽出対象としない情報対(負例)として決定する。そして、上記正例又は負例として決定された6個の情報対を教師データとして、上述した機械学習を行い、その学習結果を用いて、残りの94個の情報対を正例又は負例に分類する。そして、上記ユーザの指定入力に従って正例とされた3個の情報対と、上記正例に分類された情報対とを最終的に抽出対象とする情報対として決定する。
(表示部13)
表示部13は、情報対抽出部12によって抽出された情報対を整理して、例えばグラフ化して表示する。
For example, after extracting 100 information pairs, the information
(Display unit 13)
The
本発明の一実施形態によれば、例えば、主要表現抽出部11において抽出された複数の主要表現に基づいて情報対抽出部12が抽出した複数種類の情報対から、表示部13が、各主要表現についての所定の評価値に基づいて、主要な情報対を選択(例えば、評価値が最も大きい情報対を選択)した上で、選択した主要な情報対をグラフ化する構成を採ってもよい。
According to an embodiment of the present invention, for example, the
上記評価値の算出方法としては、例えば、以下の評価値の4種類の算出式のうちのいずれか1つを用いる。ここでは、主要表現抽出部11によって抽出された主要表現が1つの項目表現と2つの固有表現の種類と1つの単位表現である場合を例にとって説明する。
(方法1):数値表現の頻度と主要表現のスコアを用いる。
As the evaluation value calculation method, for example, any one of the following four evaluation value calculation formulas is used. Here, a case where the main expressions extracted by the main
(Method 1): Frequency of numerical expression and score of main expression are used.
評価値M=Freq×S1×S2×S2’×S3
(方法2):数値表現の頻度と主要表現のスコアを用いる。
Evaluation value M = Freq × S1 × S2 × S2 ′ × S3
(Method 2): The numerical expression frequency and the main expression score are used.
評価値M=Freq×(S1×S2×S2’×S3)
(方法3):数値表現の頻度を用いる。
Evaluation value M = Freq × (S1 × S2 × S2 ′ × S3)
(Method 3): The frequency of numerical expression is used.
評価値M=Freq
(方法4):主要表現のスコアを用いる。
Evaluation value M = Freq
(Method 4): The score of the main expression is used.
評価値M=S1×S2×S2’×S3
ここで、Freqは、当該主要表現に基づいて情報対抽出部12によって抽出された数値表現の数、S1は、項目表現についての前述した式(1)〜式(3)に示すようなスコアの値、S2、S2’は、2つの固有表現の種類のそれぞれについての前述した式(1)〜式(3)に示すようなスコアの値、S3は、単位表現についての前述した式(1)〜式(3)に示すようなスコアの値である。
Evaluation value M = S1 × S2 × S2 ′ × S3
Here, Freq is the number of numerical expressions extracted by the information
本発明の一実施形態によれば、例えば、主要表現抽出部11が、項目表現、固有表現の種類、単位表現について、それぞれ、前述したスコアの値が高いものから所定の数ずつ選択する。そして、表示部13が、上記選択された項目表現、固有表現の種類、単位表現の中から、例えば項目表現を1つ、固有表現の種類を2つ、単位表現を1つ選択し、その全ての組み合わせに対して上記の評価値Mの計算をして得られる評価値Mが大きいものほど有用なグラフと判断し、情報対抽出部12によって抽出された情報対のうち、例えば、評価値Mが最も大きい1つの項目表現と1つの固有表現の種類と1つの単位表現とに基づいて抽出された情報対をグラフ表示する。
According to one embodiment of the present invention, for example, the main
なお、本発明の一実施形態によれば、情報抽出装置1が、更に、情報対抽出部12によって抽出された情報対について相関分析を行う手段(図1では図示を省略)を備えるようにしてもよい。また、表示部13が、上記相関分析を行い、該相関分析結果を表示するようにしてもよい。
According to one embodiment of the present invention, the
図4は、本発明の実施の形態における情報抽出処理フローの一例を示す図である。まず、情報抽出装置1は、関連記事DB14中の記事群から主要表現を抽出する(ステップS1)。次に、情報抽出装置1は、抽出された主要表現を用いて、情報対を抽出する(ステップS2)。そして、情報抽出装置1は、抽出された情報対を表示する(ステップS3)。
FIG. 4 is a diagram showing an example of an information extraction processing flow in the embodiment of the present invention. First, the
図5乃至14は、表示部による表示例を示す図である。図5に示す表示例は、主要表現としての項目表現が「末端価格」、固有表現の種類が「LOCATION」と「ORGANIZATION」、単位表現が「キロ」と「円」である場合の情報対の表示例を示している。図5に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。 5 to 14 are diagrams showing examples of display by the display unit. The display example shown in FIG. 5 is an information pair in the case where the item expression as the main expression is “end price”, the types of specific expressions are “LOCATION” and “ORGANIZATION”, and the unit expressions are “kilo” and “yen”. A display example is shown. The item “sentence” in the table shown in FIG. 5 indicates a sentence in which each information pair appears simultaneously.
図6に示す表示例は、主要表現としての項目表現が「弾道ミサイル」、固有表現の種類が「ARTIFACT」と「LOCATION」である場合の情報対の表示例を示している。図6に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。 The display example shown in FIG. 6 shows a display example of an information pair when the item expression as the main expression is “ballistic missile” and the types of specific expressions are “ARTIFACT” and “LOCATION”. The item “sentence” in the table shown in FIG. 6 indicates a sentence in which each information pair appears simultaneously.
図7に示す表示例は、主要表現としての項目表現が「毎日新聞社主催」、固有表現の種類が「DATE」と「LOCATION」と「ORGANIZATION」と「PERSON」と「TIME」である場合の情報対の表示例を示している。図7に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。 In the display example shown in FIG. 7, the item expression as the main expression is “sponsored by Mainichi Shimbun”, and the types of unique expressions are “DATE”, “LOCATION”, “ORGANIZATION”, “PERSON”, and “TIME”. The example of a display of an information pair is shown. The item “sentence” in the table shown in FIG. 7 indicates a sentence in which each information pair appears simultaneously.
図8に示す表示例は、主要表現としての項目表現が「台風」、固有表現の種類が「LOCATION」、単位表現が「号」と「キロ」である場合の情報対の表示例を示している。図8に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。 The display example shown in FIG. 8 shows a display example of an information pair when the item expression as the main expression is “typhoon”, the type of specific expression is “LOCATION”, and the unit expressions are “No.” and “Kilo”. Yes. The item “sentence” in the table shown in FIG. 8 indicates a sentence in which each information pair appears simultaneously.
図9に示す表示例は、主要表現としての項目表現が「中前打」、固有表現の種類が「ORGANIZATION」と「PERSON」、単位表現が「回」と「点」である場合の情報対の表示例を示している。図9に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。 The display example shown in FIG. 9 is an information pair in which the item expression as the main expression is “middle advance”, the types of specific expressions are “ORGANIZATION” and “PERSON”, and the unit expressions are “times” and “points”. A display example is shown. The item “sentence” in the table shown in FIG. 9 indicates a sentence in which each information pair appears simultaneously.
図10に示す表示例は、主要表現としての項目表現が「無職」、固有表現の種類が「PERSON」と「TIME」、単位表現が「階」と「階建て」である場合の情報対の表示例を示している。図10に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。 The display example shown in FIG. 10 is an information pair in which the item expression as the main expression is “unemployed”, the types of specific expressions are “PERSON” and “TIME”, and the unit expressions are “floor” and “floor”. A display example is shown. The item “sentence” in the table shown in FIG. 10 indicates a sentence in which each information pair appears simultaneously.
図11に示す表示例は、主要表現としての項目表現が「男子」、固有表現の種類が「LOCATION」と「ORGANIZATION」と「PERSON」、単位表現が「位」と「メートル」である場合の情報対の表示例を示している。図11に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。 In the display example shown in FIG. 11, the item expression as the main expression is “male”, the types of specific expressions are “LOCATION”, “ORGANIZATION”, “PERSON”, and the unit expressions are “rank” and “meter”. The example of a display of an information pair is shown. The item “sentence” in the table shown in FIG. 11 indicates a sentence in which each information pair appears simultaneously.
図12に示す表示例は、主要表現としての項目表現が「収賄罪」、固有表現の種類が「DATE」と「LOCATION」と「MONEY」と「PERSON」、単位表現が「人」と「円」である場合の情報対の表示例を示している。図12に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。 In the display example shown in FIG. 12, the item expression as the main expression is “bribery crime”, the types of specific expressions are “DATE”, “LOCATION”, “MONEY” and “PERSON”, and the unit expressions are “people” and “yen” ”Is a display example of information pairs. The item “sentence” in the table shown in FIG. 12 indicates a sentence in which each information pair appears simultaneously.
図13に示す表示例は、主要表現としての項目表現が「台風」、固有表現の種類が「LOCATION」、単位表現が「号」と「キロ」である場合の、情報対のグラフ表示例を示している。図13には、上記図8に示す表示例における第1行目の情報対(4号−210キロ−南大東島)のグラフ表示例が示される。図13を示す表示例を参照すると、台風4号が南大東島から210キロの地点にあることがわかる。 The display example shown in FIG. 13 is a graph display example of an information pair when the item expression as the main expression is “typhoon”, the specific expression type is “LOCATION”, and the unit expressions are “No.” and “Kilo”. Show. FIG. 13 shows a graph display example of the information pair (No. 4-210 km-Minamidaitojima) in the first row in the display example shown in FIG. Referring to the display example shown in FIG. 13, it can be seen that Typhoon No. 4 is 210 km from Minami Daitojima.
図14は、主要表現としての項目表現が「末端価格」、固有表現の種類が「LOCATION」と「ORGANIZATION」、単位表現が「キロ」と「円」である場合の情報対のグラフ表示例を示している。図14に示す表示例は、大阪税関伏木税関支署が、ロシア船籍の船から末端価格740,000円の覚醒剤を9.3キロ押収したことを示している。 FIG. 14 is a graph display example of information pairs when the item expression as the main expression is “end price”, the types of specific expressions are “LOCATION” and “ORGANIZATION”, and the unit expressions are “kilo” and “yen”. Show. The display example shown in FIG. 14 indicates that the Osaka Customs Fushiki Customs Branch seized 9.3 kilos of stimulant with a terminal price of 740,000 yen from a Russian flag ship.
本発明の変形例について説明する。本発明の変形例においては、情報対抽出部12が、情報対が抽出された記事群を構成する各記事を各記事が属するクラスターにクラスタリングする。そして、表示部13が、各クラスターに属する記事から抽出された情報対について、クラスター毎に相関分析を行い、当該相関分析の結果に基づいて、各クラスターに属する記事から抽出された情報対をクラスター毎にグラフ化して表示する。相関分析とは、例えば、2つのデータの相関を分析することをいう。例えば、本発明において、x軸、y軸の2軸のグラフ上に情報対のプロットが並んでいる場合において、x軸に対応するデータ(例えば数値表現)とy軸に対応するデータ(例えば数値表現)とに相関があるかといった相関分析を行う。また、例えば、本発明において、x軸、y軸の2軸のグラフ上に情報対のプロットが並んでいる場合において、x軸に対応するデータ(例えばDATEという固有表現の種類に属する固有表現)とy軸に対応するデータ(例えば数値表現)とに相関があるかといった相関分析を行う。
A modification of the present invention will be described. In the modification of the present invention, the information
グラフのプロットの並びが直線に近くなっていれば相関があると言える。表示部13は、例えば、グラフのプロットについて相関分析を行う際に、2つのデータが、どの程度直線的な関係にあるかを示す相関係数を算出してもよい。
It can be said that there is a correlation if the plot of the graph is close to a straight line. For example, when the correlation analysis is performed on the plot of the graph, the
表示部13は、各クラスターに属する記事から抽出された情報対に基づいて生成するクラスター毎のグラフデータにおいて、x軸に対応する数値表現とy軸に対応する数値表現とに相関があるかを分析し、当該分析の結果、相関があるとされたグラフデータ、又は、相関係数が所定の値以上のグラフデータのみをグラフ化して表示するようにしてもよい。
The
また、表示部13は、各クラスターに属する記事から抽出された情報対に基づいて生成するクラスター毎のグラフデータにおいて、x軸に対応する固有表現とy軸に対応する数値表現とに相関があるかを分析し、当該分析の結果、相関があるとされたグラフデータ、又は、相関係数が所定の値以上のグラフデータのみをグラフ化して表示するようにしてもよい。
Further, the
なお、表示部13は、当該相関分析の結果、相関があるとされたグラフデータ、又は、相関係数が所定の値以上のグラフデータを、当該グラフデータに対応する情報対の前述した評価値Mが大きい順にソートし、各グラフデータをグラフとして表示するようにしてもよい。
The
また、本発明の一実施形態によれば、表示部13が、情報対抽出部12によって抽出された情報対について相関分析を行い、相関分析の結果に基づいて、上記情報対をグラフ化して表示するようにしてもよい。例えば、表示部13は、5種類の数値表現と5種類の項目表現との組合せの数(25個)だけの種類の情報対について前述した相関分析を行い、当該相関分析の結果、相関があるとされた情報対、又は、相関係数が所定の値以上である情報対のみをグラフ化して表示するようにしてもよい。また、例えば、表示部13は、5種類の固有表現と5種類の項目表現との組合せの数(25個)だけの種類の情報対について前述した相関分析を行い、当該相関分析の結果、相関があるとされた情報対、又は、相関係数が所定の値以上である情報対のみをグラフ化して表示するようにしてもよい。
In addition, according to an embodiment of the present invention, the
なお、固有表現をグラフのx軸などに表示する場合、表示部13は、固有表現の表示の順番を決定した上でグラフ上に表示する。表示の順番の決め方には以下の(1)〜(5)までの5通りがある。
(1)予め人手で表示の順番を決めておき、該表示の順番を表形式のデータとして記憶手段に記憶しておく。該記憶手段に記憶された表形式のデータを参照して順番を決める。
(2)固有表現と、それと共起する単語( 例えば、大規模コーパスでその固有表現と同一文にある単語)を抽出し、その共起回数を求め、この結果を以下のような表形式にまとめる。
When displaying the specific expression on the x-axis of the graph, the
(1) The display order is determined manually in advance, and the display order is stored in the storage means as tabular data. The order is determined with reference to tabular data stored in the storage means.
(2) A specific expression and a word that co-occurs with it (for example, a word in the same sentence as the specific expression in a large corpus) are extracted, and the number of co-occurrence is obtained. To summarize.
単語1 単語2 単語3
固有表現1 2 0 1
固有表現2 3 2 1
固有表現3 1 0 0
上記表形式のデータに対して、主成分分析や、双対尺度法などの数値解析を実行する。(例えば、参考文献(12):「図解でわかる多変量解析」(日本実業出版社)、参考文献(13):「実践ワークショップExcel 徹底活用多変量解析」(秀和システム)参照)。
A numerical analysis such as principal component analysis or dual scaling is performed on the tabular data. (See, for example, Reference (12): “Multivariate analysis understood by illustration” (Nippon Jitsugyo Publishing Co., Ltd.), Reference (13): “Practical Workshop Excel Thorough Use Multivariate Analysis” (Hidewa System)).
第一固有値に対応するそれぞれの値の順に、固有表現を並べ替えて、それを固有表現の順番とする。
(3)固有表現と、それと共起する単語(例えば、大規模コーパスでその固有表現と同一文にある単語)を抽出し、その共起回数を求める。この結果を以下のような表形式にまとめる。
The unique expressions are rearranged in the order of the values corresponding to the first eigenvalues, and this is used as the order of the unique expressions.
(3) A specific expression and a word that co-occurs with it (for example, a word in the same sentence as the specific expression in a large corpus) are extracted, and the number of co-occurrence is obtained. The results are summarized in the following table format.
単語1 単語2 単語3
固有表現1 2 0 1
固有表現2 3 2 1
固有表現3 1 0 0
共起する単語の種類をベクトルの次元、共起する単語の共起した回数をベクトルの要素とするベクトルを固有表現ごとに作成する。2つのベクトル(例えばv1とv2)の内積又はCos(v1,v2)を固有表現同士の類似度とする。類似度が大きい固有表現同士を順につなげていく。ただし、一つの固有表現は、多くても二つの固有表現としかつながらないようにする。全ての固有表現がつながったら、それを一直線に伸ばして、その端から順に、固有表現の並び順を固有表現の順番とする。
(4)固有表現の表示の順番を50音順とする。
(5)各固有表現を文字列長の長い順に並べ、該並んだ順番を固有表現の表示の順番とする。
For each unique expression, a vector is created with the type of co-occurring words as the vector dimension and the number of co-occurring words as the vector elements. The inner product of two vectors (for example, v1 and v2) or Cos (v1, v2) is set as the similarity between the proper expressions. The specific expressions with large similarity are connected in order. However, at most one unique expression should be two unique expressions. When all the proper expressions are connected, they are stretched in a straight line, and the order of proper expressions is set as the order of proper expressions from the end.
(4) The display order of the unique expressions is set to the order of the Japanese syllabary.
(5) The unique expressions are arranged in the order of the longest character string length, and the arranged order is set as the display order of the unique expressions.
図15乃至24は、本発明を用いて抽出された情報対の評価例を示している。図15は、情報対の評価数を示す図である。図15に示す表に記述されている数の情報対だけ人手で評価する。NEx(x=1〜8)は、x個の固有表現と1個の項目表現を示す。また、記事数Xは、X個の記事数を持つ記事群を示す。すなわち、記事数Xが記述されている列とNExが記述されている行とが交差するセルに記述されている数は、記事数がX個の記事群から抽出されたx個の固有表現と1個の項目表現とからなる情報対の数を示している。 FIGS. 15 to 24 show evaluation examples of information pairs extracted using the present invention. FIG. 15 is a diagram showing the number of evaluations of information pairs. Only the number of information pairs described in the table shown in FIG. 15 is manually evaluated. NEx (x = 1 to 8) indicates x number of unique expressions and one item expression. The number of articles X indicates an article group having X articles. That is, the number described in the cell where the column in which the number of articles X is described and the row in which NEx is described intersects with the x number of unique expressions extracted from the group of articles whose number of articles is X. It shows the number of information pairs consisting of one item expression.
図16(A)、(B)、図17(A)、(B)は、図15に示す表に記述されている数の情報対についての評価結果の一例を示す図である。図16(A)は、本発明を用いて抽出された情報対が75%以上正しい(例えば、情報対が記事中に同時に出現する)場合の、当該情報対の数を示し、図16(B)は、図16(A)に示す評価結果に示す情報対の数を前述した図15に示す対応する情報対の評価数で除算した結果を示す。 FIGS. 16A, 16B, 17A, and 17B are diagrams showing an example of evaluation results for the number of information pairs described in the table shown in FIG. FIG. 16A shows the number of information pairs when information pairs extracted using the present invention are more than 75% correct (for example, information pairs appear simultaneously in an article). ) Shows the result of dividing the number of information pairs shown in the evaluation result shown in FIG. 16A by the evaluation number of the corresponding information pair shown in FIG.
また、図17(A)は、本発明を用いて抽出された情報対が50%以上正しい(例えば、情報対が記事中に同時に出現する)場合の、当該情報対の数を示し、図17(B)は、図17(A)に示す評価結果に示す情報対の数を前述した図15に示す対応する情報対の評価数で除算した結果を示す。なお、図18は、上記図16(B)に示す評価結果を示すグラフであり、図19は、上記図17(B)に示す評価結果を示すグラフである。 FIG. 17A shows the number of information pairs when the information pairs extracted using the present invention are 50% or more correct (for example, information pairs appear simultaneously in an article). (B) shows the result of dividing the number of information pairs shown in the evaluation result shown in FIG. 17A by the evaluation number of the corresponding information pair shown in FIG. 18 is a graph showing the evaluation results shown in FIG. 16B, and FIG. 19 is a graph showing the evaluation results shown in FIG. 17B.
図20は、情報対の評価数を示す図である。図20に示す表に記述されている数の情報対だけ人手で評価する。NEx(x=1〜8)は、x個の固有表現と1個の項目表現と2個の数値表現(単位表現に関連する数値表現)を示す。また、記事数Xは、X個の記事数を持つ記事群を示す。すなわち、記事数Xが記述されている列とNExが記述されている行とが交差するセルに記述されている数は、記事数がX個の記事群から抽出されたx個の固有表現と1個の項目表現と2個の数値表現からなる情報対の数を示している。 FIG. 20 is a diagram illustrating the number of evaluations of information pairs. Only the number of information pairs described in the table shown in FIG. 20 is manually evaluated. NEx (x = 1 to 8) indicates x unique expressions, one item expression, and two numerical expressions (numerical expressions related to the unit expression). The number of articles X indicates an article group having X articles. That is, the number described in the cell where the column in which the number of articles X is described and the row in which NEx is described intersects with the x number of unique expressions extracted from the group of articles whose number of articles is X. The number of information pairs consisting of one item expression and two numerical expressions is shown.
図21(A)、(B)、図22(A)、(B)は、図20に示す表に記述されている数の情報対についての評価結果の一例を示す図である。図21(A)は、本発明を用いて抽出された情報対が75%以上正しい(例えば、情報対が記事中に同時に出現する)場合の、当該情報対の数を示し、図21(B)は、図21(A)に示す評価結果に示す情報対の数を前述した図20に示す対応する情報対の評価数で除算した結果を示す。 FIGS. 21A, 21B, 22A, and 22B are diagrams showing an example of evaluation results for the number of information pairs described in the table shown in FIG. FIG. 21A shows the number of information pairs when the information pairs extracted by using the present invention are 75% or more correct (for example, information pairs appear simultaneously in an article). ) Shows the result of dividing the number of information pairs shown in the evaluation result shown in FIG. 21A by the evaluation number of the corresponding information pair shown in FIG.
また、図22(A)は、本発明を用いて抽出された情報対が50%以上正しい(例えば、情報対が記事中に同時に出現する)場合の、当該情報対の数を示し、図22(B)は、図22(A)に示す評価結果に示す情報対の数を前述した図20に示す対応する情報対の評価数で除算した結果を示す。なお、図23は、上記図21(B)に示す評価結果を示すグラフであり、図24は、上記図22(B)に示す評価結果を示すグラフである。 22A shows the number of information pairs when the information pairs extracted using the present invention are 50% or more correct (for example, information pairs appear simultaneously in an article). (B) shows the result of dividing the number of information pairs shown in the evaluation result shown in FIG. 22A by the evaluation number of the corresponding information pair shown in FIG. FIG. 23 is a graph showing the evaluation results shown in FIG. 21B, and FIG. 24 is a graph showing the evaluation results shown in FIG. 22B.
本発明における実験について更に述べる。本発明の情報抽出装置により、主要表現として項目表現と固有表現の種類を用いた場合の情報対の抽出実験を行った。ここでは、1998年と1999年の2年分の毎日新聞の記事群(220,078記事)を利用した。この実験では、抽出された情報対全体を実験対象とし、評価はそのうちいくつかを選んで人手で評価した。評価結果を図25乃至28に示す。図25、図26は、固有表現のみを主要表現として用いた場合の、情報対の評価結果であり(図25は、精度、図26は抽出総数を示す)、図27、図28は、1〜6個の固有表現と1個の単位(数値)表現を主要表現として用いた場合の、情報対の評価結果である(図27は、精度、図28は、抽出総数を示す)。図25乃至28中のNExは、x個の固有表現を用いる場合を意味する。評価は、抽出記事数(主要表現が同時に出現した1文を持つ記事の数)がちょうど10,30,50,70,90であったデータからそれぞれ10個ずつランダムに取り出し、それが正解かどうかを人手で調べた。「評価A」は、抽出記事数個取り出した数値・固有表現の情報対のうち75%がある一つのトピックについて正しい情報を示す場合にそのデータを正しいと判断し、その正しいとされたデータの割合を意味する。「評価B」は、抽出記事数個取り出した数値・固有表現の情報対のうち、50%がある一つのトピックについて正しい情報を示す場合にそのデータを正しいと判断し、その正しいとされたデータの割合を意味する。但し、同一文に複数の同種の固有表現が出現した場合はそのどれかが正解として解釈できるものであれば正解とした。図27では評価Bの結果のみ示す。評価Aでは全体データで固有表現情報のみの場合0.084、数値・固有表現情報の場合0.018であった。図26と図27にはデータの抽出総数を示す。 The experiment in the present invention will be further described. With the information extraction apparatus of the present invention, an information pair extraction experiment was performed when the types of item expression and specific expression were used as the main expression. Here, we used the articles (220,078 articles) of the Mainichi Shimbun for two years of 1998 and 1999. In this experiment, the entire extracted information pair was the subject of the experiment, and some of them were selected and evaluated manually. The evaluation results are shown in FIGS. 25 and 26 show the evaluation results of the information pair when only the specific expression is used as the main expression (FIG. 25 shows the accuracy, FIG. 26 shows the total number of extractions), and FIGS. FIG. 27 shows the evaluation results of information pairs when ˜6 unique expressions and one unit (numerical value) expression are used as main expressions (FIG. 27 shows accuracy, and FIG. 28 shows the total number of extractions). NEx in FIGS. 25 to 28 means a case where x number of unique expressions are used. Evaluation is based on the number of extracted articles (the number of articles with one sentence in which the main expression appears at the same time) taken at random from each of the data that was exactly 10, 30, 50, 70, 90. Was examined manually. “Evaluation A” indicates that the data is correct when the correct information is shown for one topic having 75% of the information pairs of the numerical value / specific expression extracted from the number of extracted articles, and the correct data Mean percentage. “Evaluation B” is the data that is determined to be correct when it shows correct information for one topic with 50% of the information pairs of numerical values and specific expressions extracted from several extracted articles. Means the percentage of However, if multiple equivalent expressions of the same type appear in the same sentence, any of them can be interpreted as a correct answer. In FIG. 27, only the result of evaluation B is shown. In the evaluation A, the total data was 0.084 in the case of only unique expression information, and 0.018 in the case of numerical value / specific expression information. 26 and 27 show the total number of extracted data.
評価Aで取り出せたデータの個数は、固有表現のみを用いた場合、数値・固有表現を用いた場合の両方を合わせて24個であった。また、評価Bの全体データでの精度は固有表現のみを用いた場合0.28で数値・固有表現の情報を用いた場合0.26であった。また、抽出総数と精度をかけあわせて合計どのくらい有用なデータを抽出できるかを見積もった。これは、例えば21〜40の記事数のNE2の抽出総数と記事数30の精度の積を1〜40の記事数のNE2の場合の抽出できる有用データとする手順で求めた。この見積もりでは抽出可能な評価Aのデータは固有表現のみを用いた場合、数値・固有表現を用いた場合の両方を合わせて約2万個であった。
The number of data that can be extracted in evaluation A was 24 when both the numerical expression and the specific expression were used when only the specific expression was used. The accuracy of the entire evaluation B data was 0.28 when only the specific expression was used, and 0.26 when the numerical value / specific expression information was used. We also estimated how much useful data can be extracted by multiplying the total number of extractions and accuracy. For example, the product of the total number of extractions of NE2 with the number of articles of 21 to 40 and the accuracy of the number of
本発明の情報抽出装置1により抽出したデータ(情報対)を図29、図30に示す。図29には固有表現と項目表現を主要表現とした場合に得られた情報対を示す。図29(A)は、項目表現「スライダー」、人名と組織名の固有表現の種類を主要表現セットとした場合の情報対である。図29(A)から、当時スライダーを投げていた選手とそのチーム名がわかる。図29(B)は、項目表現「弾道ミサイル」、人工物名と地名の固有表現の種類を主要表現とした場合の情報対である。図29(B)から、当時の弾道ミサイルに関係するミサイル名とそのミサイルの保有国がわかる。その他、囲碁将棋などの毎日新聞社主催行事の開催時期・場所・主催団体・棋士名のデータ、家宅捜索を受けた組織・日付・場所・人・金額・関連する法律のデータなど多様なデータが得られる。
Data (information pairs) extracted by the
図30は、固有表現と項目表現を主要表現とした場合に得られた情報対の表示例である。項目表現「収賄罪」、単位表現「人」、「円」、人名と地名の固有表現の種類を主要表現とした場合のものである。図30の横軸は、収賄罪をおかした人数、縦軸は収賄罪の金額を示す。各プロットには人名と関連する場所を記載した。但し、人名はシステムではとれているがここでは匿名で表示している。その他、何階建ての何階で火事が起きたかとその住民の氏名と時間、スポーツ競技の順位とその競技のメートル数・選手・組織・場所などを示す多様なグラフを得た。 FIG. 30 is a display example of information pairs obtained when the specific expression and the item expression are the main expressions. This is the case where the main expression is the item expression “bribery crime”, the unit expressions “people”, “yen”, and the unique expressions of person names and place names. The horizontal axis in FIG. 30 indicates the number of people who committed bribery, and the vertical axis indicates the amount of bribery. Each plot lists the location associated with the person's name. However, although the name of the person is taken in the system, it is displayed anonymously here. In addition, we obtained a variety of graphs showing how many floors and how many fires occurred, the names and times of the residents, the ranking of sports competitions, the number of athletes, the players, the organization, and the location.
本発明の他の変形例を説明する。この例では、表示部13が、情報対抽出部12が抽出した情報対を含む文を関連記事DB14中の記事群から抽出し、当該抽出した文において、情報対を強調表示する。
Another modification of the present invention will be described. In this example, the
例えば、情報対抽出部12が抽出した情報対(数値表現、固有表現、項目表現の対)が、「○号」、「○日」、「台風」であるとすると、表示部13は、この三つの表現が同時に出現している文を抽出し、該抽出された文において、該三つの表現を強調表示する。同一文において複数の表現がある場合は、例えば最初に出現しているものを二重線でそれ以外を一重線で強調表示する。その結果を図31に示す。上記三つの表現を適宜色分けして表示する構成を採ってもよい。
For example, if the information pair (number expression, specific expression, item expression pair) extracted by the information
抽出した文は、そのときの台風の様子を端的に示しており、要約の研究における重要文抽出と同等の効果を持つ文を抽出できていると思われる。すなわち、台風が通った地名、また場合によって被害状況も記述されており、その台風に関する重要な記述が抽出した文に含まれている。 The extracted sentence clearly shows the state of the typhoon at that time, and it seems that the sentence having the same effect as the important sentence extraction in the summary research can be extracted. In other words, the name of the place through which the typhoon passed and the damage situation are also described, and an important description about the typhoon is included in the extracted sentence.
また、図中の7個目のデータには、台風7号と台風8号の複数のデータが含まれるが、抽出した情報以外に、現在着目している主要表現があればそれも一重の下線で強調表示することで、その複数データがそのデータにあることがすぐにわかる。また、取り出すべき情報対の組をシステムが誤る場合があるが、この強調表示はその誤りを早く見つけることにも役に立つ。ここでは、抽出した文のみで強調表示を行ったが、記事中に抽出すべき文が残っている可能性もある。記事全体で同様の強調表示を行えば、そういう漏れも抽出できる可能性がある。そこで、元の記事全体で強調表示をする構成を採ってもよい。 In addition, the seventh data in the figure includes a plurality of data of typhoon No. 7 and typhoon No. 8. In addition to the extracted information, if there is a main expression currently focused on, it is also a single underline. By highlighting with, you can immediately see that the data is in the data. In addition, the system may mistake the set of information pairs to be retrieved, but this highlighting helps to find the error early. Here, only the extracted sentence is highlighted, but there is a possibility that the sentence to be extracted remains in the article. If the same highlighting is applied to the entire article, such a leak may be extracted. Thus, a configuration may be adopted in which the entire original article is highlighted.
次に、本発明の一実施形態において、主要表現抽出部11が、前述したように、抽出された固有表現の種類の前又は後、又は、上記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する固有表現の種類、又は該抽出された単語から選択された単語が付随する数値表現に関連する単位表現を上記主要表現とする処理を行う場合において、どのようにして上記単語が選択されるかについて説明する。
Next, in one embodiment of the present invention, as described above, the main
図32及び図33は、抽出された固有表現の種類の前又は後に付随する単語、抽出された単位表現に関連する数値表現の前又は後に付随する単語を出現頻度に並べた表を示す図である。図32及び図33に示す例では、固有表現の種類又は数値表現の前後3文字までの単語を出現頻度順に並べた結果を示している。 FIG. 32 and FIG. 33 are diagrams showing a table in which appearance words are arranged with words attached before or after the type of the extracted unique expression and words attached before or after the numerical expression related to the extracted unit expression. is there. In the example shown in FIG. 32 and FIG. 33, the result of arranging words up to 3 characters before and after the kind of numerical expression or numerical expression is arranged in order of appearance frequency.
例えば、図32中の「キロ」という単位表現に関連する数値表現「9.3キロ|9.3キロ|120キロ|・・・」の後ろ3文字として付随する単語は「(末端」であり、「ARTIFACT」という固有表現の種類に属する固有表現「玉丸|シテロワテ・・・」の前1文字として付随する単語は「船」である。主要表現抽出部11は、例えば、上記図32に示すような表を作成して表示し、該表示を見たユーザの指定入力に従って、「船」という単語を選択する。
For example, the word attached as the last three letters of the numerical expression “9.3 kg | 9.3 kg | 120 kg |...” Related to the unit expression “kilo” in FIG. , The word that accompanies the specific expression “Tamamaru | Citeirote ...” that belongs to the type of specific expression “ARTIFACT” is “ship.” For example, the main
また、図33を参照すると、例えば、「キロ」という単位表現に関連する数値表現「4号|5号|6号|・・・」の前2文字として付随する単語は「台風」であり、「キロ」という単位表現に関連する数値表現「15キロ|25キロ|75キロ」の前2文字として付随する単語は「時速」である。主要表現抽出部11は、例えば、上記図33に示すような表を作成して表示し、該表示を見たユーザの指定入力に従って、「時速」という単語を選択する。
Referring to FIG. 33, for example, the word accompanying the first two letters of the numerical expression “No. 4 | No. 5 | No. 6 | ...” related to the unit expression “kilo” is “typhoon”. The word attached as the first two letters of the numerical expression “15 km | 25 km | 75 km” related to the unit expression “kilo” is “speed”. The main
次に、本発明の情報抽出装置1による情報対の抽出結果を、情報抽出装置1が相関分析した実験について説明する。データの相関を表す指標としては、一般に、相関係数が用いられる。データxi、yi(i=1,2,3,・・・n)が与えられたとき、xとyの相関係数rは、
Next, an experiment in which the
となる。
ここで、
It becomes.
here,
である。 It is.
rは常に−1と1の間の値をとり、1(あるいは−1)に近いとき、強い相関があり、0に近いとき相関がないといえる。相関係数が正の値のときは正の相関があり、xが増加するとyも増加する。相関係数が負の値のときは負の相関あり、xが増加するとyが減少する。相関の有無の判定は、例えばt検定等の検定を用いて行う。 r always takes a value between -1 and 1, and there is a strong correlation when close to 1 (or -1), and no correlation when close to 0. When the correlation coefficient is a positive value, there is a positive correlation, and as x increases, y also increases. When the correlation coefficient is a negative value, there is a negative correlation, and when x increases, y decreases. The determination of the presence or absence of correlation is performed using a test such as a t test.
例えば、情報抽出装置1が、新聞2年分などの大規模データから複数セット(マラソン、台風、収賄など様々な分野のセット)に関連する情報対を抽出し、該抽出された情報対について相関分析し、情報抽出装置1が情報対の抽出結果について相関分析する。
For example, the
例えば図34に示すような相関分析結果が得られる。図34に示すデータにおける相関係数は、単位表現に関連する数値表現の間の相関係数である。検定で相関ありとされたデータについては、フラグ「1」を立てている。 For example, a correlation analysis result as shown in FIG. 34 is obtained. The correlation coefficient in the data shown in FIG. 34 is a correlation coefficient between numerical expressions related to unit expressions. A flag “1” is set for data that has been correlated in the test.
例えば、図34中の第6番目のデータ(項目表現が「間」、単位表現が「区」と「キロ」、固有表現の種類が「ORGANIZATION」であるデータ)の元データ(相関分析の対象とした元のデータ)である情報対の抽出結果を図35に示す。 For example, the original data of the sixth data in FIG. 34 (data in which the item expression is “between”, the unit expression is “ku” and “kilo”, and the type of specific expression is “ORGANIZATION”) FIG. 35 shows the extraction result of the information pair that is the original data).
図36は、図35中に示す単位表現「区」に関連する数値表現と、単位表現「キロ」に関連する数値表現とについての相関分析結果を示すグラフである。単位表現「区」に関連する数値表現と、単位表現「キロ」に関連する数値表現との間の相関係数は正(約0.783)である。また、図36に示すグラフから、例えば、どういう「区」の数値が増加すると「キロ」の数値(例えば駅伝の走行距離)が伸びるかということがわかる。 FIG. 36 is a graph showing a correlation analysis result for the numerical expression related to the unit expression “ku” shown in FIG. 35 and the numerical expression related to the unit expression “kilo”. The correlation coefficient between the numerical expression related to the unit expression “ku” and the numerical expression related to the unit expression “kilo” is positive (about 0.783). In addition, from the graph shown in FIG. 36, for example, it can be seen that when the numerical value of “K” increases, the numerical value of “kilometers” (for example, the distance traveled by relay stations) increases.
情報抽出装置1による相関分析処理によれば、相関を有している一連のデータを簡単に抽出することができる。
According to the correlation analysis process by the
なお、本発明の一実施形態によれば、情報抽出装置1が、一つの分野(例えば台風という分野)のデータから、複数種類の主要表現のセットを抽出し、相関分析に基づいて、該抽出された主要表現のセットから最終的に抽出対象とする主要表現を決定するようにしてもよい。
According to an embodiment of the present invention, the
次に、本発明の情報抽出装置1を用いた他の実験について説明する。図37は、前又は後にパターンの候補(単語又は文字列)が付随する固有表現毎のscoreを示す図である。ここで、パターンの候補とは、記事群中において固有表現の種類の前又は後に出現する単語又は文字列をいう。
Next, another experiment using the
すなわち、図37は、項目表現を「末端価格」、単位表現を「キロ」と「円」、固有表現の種類を「LOCATION」と「ORGANIZATION」としたときの情報抽出装置1による情報対の抽出結果に基づいて、固有表現の種類「LOCATION(地名)」について、前又は後にパターンの候補が付随する固有表現毎のscoreを示している。図37中では、scoreの大きい順にデータを表示している。
That is, FIG. 37 shows information pair extraction by the
図37中において、「表現」という項目は、前又は後にパターンの候補が付随する固有表現、「score」という項目は該固有表現毎のscore、「例」という項目は該固有表現の具体例を示している。 In FIG. 37, the item “expression” is a specific expression accompanied by a pattern candidate before or after, the item “score” is a score for each specific expression, and the item “example” is a specific example of the specific expression. Show.
例えば、図37中の第1番目のデータは、単語「人」が後ろ1文字として付随する固有表現のscoreが798であることを示すとともに、該固有表現の具体例がブータン|ブータン|コロンビア|コロンビア|中国|・・・であることを示している。 For example, the first data in FIG. 37 indicates that the score of the specific expression accompanying the word “person” as the last character is 798, and a specific example of the specific expression is Bhutan | Bhutan | Colombia | Colombia | China |.
上記scoreは、前述した、以下に示す式
score=Σ2つの固有表現の類似度×f(第1の固有表現,第2の固有表現)
に基づいて算出する。
The above score is the above-described formula score = Σsimilarity between two specific expressions × f (first specific expression, second specific expression)
Calculate based on
上記「2つの固有表現の類似度」は、図37中に示す「例」の項目に表示された固有表現から得られる各々の2つの固有表現(第1の固有表現と第2の固有表現)の類似度である。例えば、固有表現同士が両方とも国名、又は両方とも国名以外なら当該固有表現同士の類似度を1、固有表現同士の一方が国名で他方が国名以外なら当該固有表現同士の類似度を−1とする。 The above “similarity between two unique expressions” indicates two specific expressions (first specific expression and second specific expression) obtained from the specific expressions displayed in the item “example” shown in FIG. The degree of similarity. For example, if the unique expressions are both country names, or both are other than country names, the similarity between the specific expressions is 1, and if one of the unique expressions is a country name and the other is not a country name, the similarity between the specific expressions is -1. To do.
本発明の一実施形態によれば、固有表現同士の類似度を所定の変換式を用いて変換し、変換された類似度を用いてscoreを算出するようにしてもよい。例えば、2つの固有表現同士の類似度を、所定のベクトル生成手法によって決まる固有表現に応じたベクトル同士の角度(またはcos)とする場合、0から1の類似度を持つので、例えば、該cosの値を2倍して1を減じる等して求まる値を2つの固有表現同士の類似度とするようにしてもよい。本発明においては、他の任意の類似度の変換手法を用いるようにしてもよい。 According to an embodiment of the present invention, the similarity between specific expressions may be converted using a predetermined conversion formula, and the score may be calculated using the converted similarity. For example, when the similarity between two specific expressions is an angle (or cos) between vectors according to the specific expression determined by a predetermined vector generation method, since the similarity is 0 to 1, for example, the cos The value obtained by doubling the value of 1 and subtracting 1 may be used as the similarity between the two unique expressions. In the present invention, any other conversion method of similarity may be used.
また、f(第1の固有表現,第2の固有表現)は、第1の固有表現と第2の固有表現とで共にパターンの候補が出現した(付随する)場合、又は共にパターンの候補が出現しなかった場合は1、どちらか一方のみに上記パターンの候補が出現した場合は−1である関数である。 In addition, f (first specific expression, second specific expression) is the case where pattern candidates appear (accompany) in both the first specific expression and the second specific expression, or in which both the pattern candidates are The function is 1 when it does not appear, and is -1 when the pattern candidate appears only in one of them.
図37において、同一の「表現」に対応する2行分のデータは、上の行がパターンの候補が出現した固有表現についてのデータ、下の行がパターンの候補が出現した固有表現についてのデータである。 In FIG. 37, the data for two lines corresponding to the same “expression” includes data for a unique expression in which a pattern candidate appears in the upper line, and data for a unique expression in which the pattern candidate appears in the lower line. It is.
例えば、図37中の第1番目のデータ中の「例」の項目に表示されている固有表現「ブータン|ブータン|コロンビア|コロンビア|中国|・・・」は、パターンの候補「人」が後ろ1文字として付随する固有表現の具体例を示し、第2番目のデータ中の「例」の項目に表示されている固有表現「ロシア|伏木港|ロシア|成田空港|・・・」は、パターンの候補「人」が後ろ1文字として付随しない固有表現の具体例を示している。 For example, the specific expression “Bhutan | Bhutan | Colombia | Colombia | China | ...” displayed in the item “example” in the first data in FIG. 37 is followed by the pattern candidate “people”. The specific expression “Russia | Fushiki Port | Russia | Narita Airport |...” Displayed in the “example” item in the second data is a pattern. A specific example of a specific expression in which the candidate “person” is not attached as the last character is shown.
図37に表示されたデータを見れば、情報対として抽出される固有表現を分ける(グループ分けする)のに役立つパターン(例えば「人」や「国籍」など)を自動で取得することができていることがわかる。 By looking at the data displayed in FIG. 37, it is possible to automatically acquire patterns (for example, “people”, “nationality”, etc.) useful for separating (grouping) specific expressions extracted as information pairs. I understand that.
本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。 The present invention can also be implemented as a program that is read and executed by a computer. The program for realizing the present invention can be stored in an appropriate recording medium such as a portable medium memory, a semiconductor memory, or a hard disk, which can be read by a computer, provided by being recorded on these recording media, or communication. It is provided by transmission / reception using a network via an interface.
1 情報抽出装置
11 主要表現抽出部
12 情報対抽出部
13 表示部
14 関連記事DB
111 主要単位表現抽出部
112 主要項目表現抽出部
113 主要固有表現抽出部
121 教師データ記憶手段
122 解−素性対抽出手段
123 機械学習手段
124 学習結果記憶手段
125 表現対抽出手段
126 素性抽出手段
127 解推定手段
128 情報対抽出手段
DESCRIPTION OF
111 Main Unit
Claims (9)
項目表現と固有表現の種類を主要表現とし、主要表現である項目表現と、主要表現である固有表現の種類に属する固有表現を記事群から抽出する主要表現抽出手段と、
前記記事群から前記項目表現と前記固有表現の種類に属する固有表現が同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記固有表現との対を情報対として抽出する情報対抽出手段とを備え、
前記主要表現抽出手段が、更に、機械学習により正解のデータの素性を利用して学習し新しいデータである前記記事群から固有名詞を推定し、この推定により得られた固有名詞を含む固有表現を、前記固有表現の種類に属する固有表現として抽出し、かつ、前記固有表現の種類に属する前記固有表現の前または後に予め決められた単語が付随するか否かに基づいて前記固有表現の種類を分類し、該分類された各々の固有表現の種類のうちの少なくとも一つを主要な固有表現の種類とし、
前記情報対抽出手段が、更に、前記記事群から前記項目表現と前記主要な固有表現の種類に属する固有表現とが同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記主要な固有表現の種類に属する固有表現との対を情報対として抽出する
ことを特徴とする情報抽出装置。 An information extraction device,
The main expression extraction means for extracting from the article group the item expression that is the main expression, the item expression that is the main expression, and the specific expression that belongs to the type of the specific expression that is the main expression,
The location where the item representation and the specific representation belonging to the type of the specific representation appear simultaneously from the article group, and the pair of the item representation and the specific representation described in the identified location is information An information pair extracting means for extracting as a pair,
The main expression extraction means further uses machine learning to make use of the correct data feature to estimate proper nouns from the article group as new data, and obtains proper expressions including proper nouns obtained by the estimation. The specific expression type is extracted as a specific expression belonging to the specific expression type, and the specific expression type is determined based on whether a predetermined word is attached before or after the specific expression belonging to the specific expression type. Classifying and defining at least one of the classified proper expression types as a main proper expression type,
The information pair extraction means further identifies a location where the item representation and the specific representation belonging to the type of the main specific representation appear simultaneously from the article group, and is described in the identified location A pair of the item expression and a specific expression belonging to the type of the main specific expression is extracted as an information pair.
前記主要表現抽出手段が、更に、前記固有表現の種類に属するものとして抽出された前記固有表現の前又は後に付随する単語を抽出し、前記固有表現の種類に属するものとして抽出された前記固有表現同士の類似度を求め、前記求まった固有表現同士の類似度と各々の固有表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、固有表現に付随した場合と付随しない場合とにおける前記固有表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する固有表現の種類と該単語が付随しない前記固有表現の種類とをそれぞれ異なる前記主要表現の種類と分類し、該分類された固有表現の種類のうちの少なくとも一つを主要な固有表現の種類とする
ことを特徴とする情報抽出装置。 The information extraction device according to claim 1,
The main expression extraction means further extracts a word attached before or after the specific expression extracted as belonging to the specific expression type, and the specific expression extracted as belonging to the specific expression type Based on the score value determined based on the similarity between the obtained unique expressions and information indicating whether or not the extracted word is attached to each unique expression, the unique expressions are obtained. A word having a high degree of classification of the specific expression in the case where it is attached and a case where it is not attached is determined, and the type of the specific expression to which the determined word is attached and the kind of the specific expression to which the word is not attached are respectively determined. An information extraction apparatus, wherein the information is classified into different types of main expressions, and at least one of the classified types of specific expressions is set as a type of main specific expressions.
前記主要表現抽出手段が、更に、前記記事群から、該記事群中の単語が属するクラスターを抽出して、該抽出された各クラスターを前記固有表現の種類とする
ことを特徴とする情報抽出装置。 In the information extraction device according to claim 1 or 2,
The main expression extracting means further extracts a cluster to which a word in the article group belongs from the article group, and sets each extracted cluster as a type of the unique expression. .
前記情報対抽出手段が、更に、機械学習の手法を用いて、前記情報対を抽出する
ことを特徴とする情報抽出装置。 In the information extraction device according to any one of claims 1 to 3,
The information pair extracting unit further extracts the information pair by using a machine learning technique.
前記情報対抽出手段が、更に、抽出した情報対の中から、所定の評価値算出式に基づいて算出される評価値に基づいて情報対を選択する
ことを特徴とする情報抽出装置。 In the information extraction device according to any one of claims 1 to 4,
The information pair extraction unit further selects an information pair from the extracted information pairs based on an evaluation value calculated based on a predetermined evaluation value calculation formula.
前記情報対抽出手段によって抽出された情報対について相関分析を行う手段を備える
ことを特徴とする情報抽出装置。 The information extraction device according to any one of claims 1 to 5, further comprising:
An information extraction apparatus comprising: means for performing correlation analysis on the information pair extracted by the information pair extraction means.
前記情報対抽出手段によって抽出された情報対をグラフ化して表示する表示手段を備える
ことを特徴とする情報抽出装置。 In the information extraction device according to any one of claims 1 to 6,
An information extraction apparatus comprising: display means for displaying the information pairs extracted by the information pair extraction means in a graph.
項目表現と固有表現の種類を主要表現とし、主要表現である項目表現と、主要表現である固有表現の種類に属する固有表現を記事群から抽出する主要表現抽出手段が、更に、機械学習により正解のデータの素性を利用して学習し新しいデータである前記記事群から固有名詞を推定し、この推定により得られた固有名詞を含む固有表現を、前記固有表現の種類に属する固有表現として抽出し、かつ、前記固有表現の種類に属する前記固有表現の前または後に予め決められた単語が付随するか否かに基づいて前記固有表現の種類を分類し、該分類された各々の固有表現の種類のうちの少なくとも一つを主要な固有表現の種類とし、
前記記事群から前記項目表現と前記固有表現の種類に属する固有表現が同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記固有表現との対を情報対として抽出する情報対抽出手段が、更に、前記記事群から前記項目表現と前記主要な固有表現の種類に属する固有表現とが同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記主要な固有表現の種類に属する固有表現との対を情報対として抽出する
ことを特徴とする情報抽出方法。 An information extraction method,
The main expression extraction means that extracts the item expression and the specific expression from the article group as the main expression, the item expression that is the main expression, and the specific expression belonging to the type of the specific expression that is the main expression. The proper noun is estimated from the article group which is new data by learning using the feature of the data, and the proper expression including the proper noun obtained by this estimation is extracted as the proper expression belonging to the type of the proper expression. And classifying the types of the specific expressions based on whether or not a predetermined word is attached before or after the specific expressions belonging to the types of the specific expressions, and the types of the classified specific expressions At least one of
The location where the item representation and the specific representation belonging to the type of the specific representation appear simultaneously from the article group, and the pair of the item representation and the specific representation described in the identified location is information The information pair extraction means for extracting as a pair further identifies a location where the item representation and the specific representation belonging to the type of the main specific representation appear simultaneously from the article group, and describes the identified location An information extraction method comprising: extracting, as an information pair, a pair of the item expression and the specific expression belonging to the main specific expression type.
コンピュータに、
項目表現と固有表現の種類を主要表現とし、主要表現である項目表現と、主要表現である固有表現の種類に属する固有表現を記事群から抽出する処理と、
更に、機械学習により正解のデータの素性を利用して学習し新しいデータである前記記事群から固有名詞を推定し、この推定により得られた固有名詞を含む固有表現を、前記固有表現の種類に属する固有表現として抽出し、かつ、前記固有表現の種類に属する前記固有表現の前または後に予め決められた単語が付随するか否かに基づいて前記固有表現の種類を分類し、該分類された各々の固有表現の種類のうちの少なくとも一つを主要な固有表現の種類とする処理と、
更に、前記記事群から前記項目表現と前記主要な固有表現の種類に属する固有表現とが同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記主要な固有表現の種類に属する固有表現との対を情報対として抽出する処理とを実行させる
ことを特徴とする情報抽出プログラム。 An information extraction program,
On the computer,
The type of item expression and specific expression is the main expression, the item expression that is the main expression, and the specific expression belonging to the type of specific expression that is the main expression from the article group,
Further, the proper nouns are estimated from the article group as new data by learning using the features of correct data by machine learning, and the proper expressions including the proper nouns obtained by this estimation are converted into the types of the proper expressions. The specific expression type is extracted based on whether or not a predetermined word is attached before or after the specific expression belonging to the specific expression type. A process in which at least one of the types of specific expressions is a type of main specific expressions;
Furthermore, the part where the item expression and the specific expression belonging to the type of the main specific expression appear simultaneously from the article group, and the item expression and the main expression described in the specified part are specified. An information extraction program for executing a process of extracting a pair with a specific expression belonging to a type of specific expression as an information pair.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007130218A JP5182845B2 (en) | 2007-05-16 | 2007-05-16 | Information extraction apparatus, information extraction method, and information extraction program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007130218A JP5182845B2 (en) | 2007-05-16 | 2007-05-16 | Information extraction apparatus, information extraction method, and information extraction program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008287388A JP2008287388A (en) | 2008-11-27 |
JP5182845B2 true JP5182845B2 (en) | 2013-04-17 |
Family
ID=40147065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007130218A Expired - Fee Related JP5182845B2 (en) | 2007-05-16 | 2007-05-16 | Information extraction apparatus, information extraction method, and information extraction program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5182845B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171071B2 (en) | 2010-03-26 | 2015-10-27 | Nec Corporation | Meaning extraction system, meaning extraction method, and recording medium |
CN111026937B (en) * | 2019-11-13 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | Method, device and equipment for extracting POI name and computer storage medium |
JP7363577B2 (en) * | 2020-02-28 | 2023-10-18 | 株式会社村田製作所 | Document classification device, learning method, and learning program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004258723A (en) * | 2003-02-24 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | Topic extraction device, topic extraction method and program |
-
2007
- 2007-05-16 JP JP2007130218A patent/JP5182845B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008287388A (en) | 2008-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sadegh et al. | Opinion mining and sentiment analysis: A survey | |
Alam et al. | Cyberbullying detection: an ensemble based machine learning approach | |
Khandelwal et al. | Gender prediction in english-hindi code-mixed social media content: Corpus and baseline system | |
US9836455B2 (en) | Apparatus, method and computer-accessible medium for explaining classifications of documents | |
Ahmed | Detecting opinion spam and fake news using n-gram analysis and semantic similarity | |
Tariq et al. | Exploiting topical perceptions over multi-lingual text for hashtag suggestion on twitter | |
Shah et al. | A hybridized feature extraction approach to suicidal ideation detection from social media post | |
Nabil et al. | Labr: A large scale arabic sentiment analysis benchmark | |
Raghuvanshi et al. | A brief review on sentiment analysis | |
Mozafari et al. | Emotion detection by using similarity techniques | |
JP4849596B2 (en) | Question answering apparatus, question answering method, and question answering program | |
Lamba et al. | A survey on plagiarism detection techniques for indian regional languages | |
Abid et al. | Semi-automatic classification and duplicate detection from human loss news corpus | |
Chandio et al. | Sentiment analysis of roman Urdu on e-commerce reviews using machine learning | |
Al-Saqqa et al. | Stemming effects on sentiment analysis using large arabic multi-domain resources | |
KR101593371B1 (en) | Propensity classification device for text data and Decision support systems using the same | |
CN102662987A (en) | Classification method of web text semantic based on Baidu Baike | |
Najibullah | Indonesian text summarization based on naïve bayes method | |
JP2009237640A (en) | Information extraction device, information extraction method, and information extraction program | |
JP5182845B2 (en) | Information extraction apparatus, information extraction method, and information extraction program | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
AbuRa'ed et al. | What sentence are you referring to and why? identifying cited sentences in scientific literature | |
CN112949287B (en) | Hot word mining method, system, computer equipment and storage medium | |
JP4919386B2 (en) | Information extraction / display device | |
Perevalov et al. | Question embeddings based on shannon entropy: Solving intent classification task in goal-oriented dialogue system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090428 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090428 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100405 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120706 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5182845 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |