JP5182845B2 - Information extraction apparatus, information extraction method, and information extraction program - Google Patents

Information extraction apparatus, information extraction method, and information extraction program Download PDF

Info

Publication number
JP5182845B2
JP5182845B2 JP2007130218A JP2007130218A JP5182845B2 JP 5182845 B2 JP5182845 B2 JP 5182845B2 JP 2007130218 A JP2007130218 A JP 2007130218A JP 2007130218 A JP2007130218 A JP 2007130218A JP 5182845 B2 JP5182845 B2 JP 5182845B2
Authority
JP
Japan
Prior art keywords
expression
specific
information
main
expressions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007130218A
Other languages
Japanese (ja)
Other versions
JP2008287388A (en
Inventor
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007130218A priority Critical patent/JP5182845B2/en
Publication of JP2008287388A publication Critical patent/JP2008287388A/en
Application granted granted Critical
Publication of JP5182845B2 publication Critical patent/JP5182845B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報抽出技術に関し、特に、記事群から項目表現と固有表現とを情報対として抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムに関する。   The present invention relates to an information extraction technique, and more particularly, to an information extraction apparatus, an information extraction method, and an information extraction program that extract item expressions and unique expressions from an article group as information pairs.

従来の情報抽出技術として、例えば、下記の非特許文献1は、文間関係を利用して、文間関係が推移か更新かを判断し、その情報を利用して動向情報を抽出する技術に関して記載している。
難波,国政,福島,相沢,奥村:“文書横断文間関係を考慮した動向情報の抽出と可視化”,情報処理学会自然言語処理研究会,2005-NL-168 , pp.67−74 (2005).
As a conventional information extraction technique, for example, the following Non-Patent Document 1 relates to a technique for determining whether an inter-sentence relationship is a transition or an update using an inter-sentence relationship and extracting trend information using the information. It is described.
Namba, Kokusei, Fukushima, Aizawa, Okumura: “Extraction and visualization of trend information considering inter-document relations”, IPSJ SIG, 2005-NL-168, pp.67-74 (2005) .

しかし、上記従来技術は、記事群に含まれる項目表現と固有表現の対を自動的に抽出することは行っていない。また、従来技術は、抽出した上記項目表現と固有表現の対をグラフ表示することは行っていない。従って、従来技術によっては、記事群に含まれる項目表現と固有表現の対を一目で把握できるように表示することはできず、ユーザが、記事群の情報を素早く理解することは困難である。   However, the above prior art does not automatically extract a pair of item expression and specific expression included in an article group. Further, the prior art does not display the pair of the extracted item expression and specific expression in a graph. Therefore, depending on the prior art, it is not possible to display at a glance the pairs of item expressions and unique expressions included in the article group, and it is difficult for the user to quickly understand the information of the article group.

本発明は、上記従来技術の問題点を解決し、記事群から自動で項目表現と固有表現の対を抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムの提供を目的とする。   An object of the present invention is to solve the above-described problems of the prior art and provide an information extraction apparatus, an information extraction method, and an information extraction program for automatically extracting a pair of item expression and specific expression from an article group.

本発明の情報抽出装置は、情報抽出装置であって、記事群から項目表現と固有表現の種類とを主要表現として抽出する主要表現抽出手段と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と固有表現との対を情報対として抽出する情報対抽出手段とを備える。   The information extraction device of the present invention is an information extraction device, wherein main expression extraction means for extracting item expressions and types of specific expressions from article groups as main expressions, and the main expressions appear simultaneously from the article groups. And an information pair extracting unit that extracts a pair of an item expression and a specific expression described in the specified place as an information pair.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、前記記事群から項目表現と固有表現の種類と単位表現とを主要表現として抽出し、前記情報対抽出手段が、項目表現と固有表現と前記単位表現に関連する数値表現との対を情報対として抽出する。   Preferably, in the information extraction device of the present invention, the main expression extraction means extracts item expressions, types of unique expressions, and unit expressions from the article group as main expressions, and the information pair extraction means includes item expressions and A pair of a specific expression and a numerical expression related to the unit expression is extracted as an information pair.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された固有表現の種類の前または後に予め決められた単語が付随するか否かに基づいて前記固有表現の種類を分類し、該分類された各々の固有表現の種類を前記主要表現とする。   Preferably, in the information extracting apparatus of the present invention, the main expression extracting unit further includes the specific expression based on whether or not a predetermined word is attached before or after the type of the extracted specific expression. The types are classified, and the type of each classified unique expression is set as the main expression.

また、本発明の情報抽出装置は、情報抽出装置であって、記事群から項目表現と単位表現とを主要表現として抽出する主要表現抽出手段と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と前記単位表現に関連する数値表現との対を情報対として抽出する情報対抽出手段とを備え、前記主要表現抽出手段が、前記抽出された単位表現に関連する数値表現の前又は後に予め決められた単語が付随するか否かに基づいて前記数値表現を分類し、該分類された各々の数値表現に関連する単位表現を前記主要表現とする。   The information extraction device of the present invention is an information extraction device, wherein main expression extraction means for extracting item expressions and unit expressions as main expressions from an article group, and the main expressions appear from the article group simultaneously. An information pair extracting unit that extracts a pair of an item expression described in the specified part and a numerical expression related to the unit expression as an information pair, and the main expression extracting unit includes: , Classifying the numerical expressions based on whether or not a predetermined word is attached before or after the numerical expressions related to the extracted unit expressions, and unit expressions related to each of the classified numerical expressions Is the main expression.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された固有表現の種類の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する固有表現の種類を前記主要表現とする。   Preferably, in the information extracting apparatus of the present invention, the main expression extracting means further extracts a word accompanying before or after the type of the extracted specific expression, and a word selected from the extracted words The accompanying specific expression type is the main expression.

また、本発明の情報抽出装置は、情報抽出装置であって、記事群から項目表現と単位表現とを主要表現として抽出する主要表現抽出手段と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と前記単位表現に関連する数値表現との対を情報対として抽出する情報対抽出手段とを備え、前記主要表現抽出手段が、更に、前記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する数値表現に関連する単位表現を前記主要表現とする。   The information extraction device of the present invention is an information extraction device, wherein main expression extraction means for extracting item expressions and unit expressions as main expressions from an article group, and the main expressions appear from the article group simultaneously. An information pair extracting unit that extracts a pair of an item expression described in the specified part and a numerical expression related to the unit expression as an information pair, and the main expression extracting unit includes: Further, a word associated with the extracted unit expression before or after the numerical expression is extracted, and a unit expression associated with the numerical expression associated with the selected word from the extracted word is defined as the main expression. To do.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、主要表現に付随する場合と付随しない場合とにおける主要表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する主要表現と該単語が付随しない主要表現とを主要表現として抽出する。   Preferably, in the information extraction device of the present invention, the main expression extraction unit further determines a word that increases the degree of classification of the main expression when the main expression is attached to and not attached to the main expression. A main expression with a word and a main expression without the word are extracted as main expressions.

また、本発明の情報抽出装置は、情報抽出装置であって、記事群から項目表現と単位表現とを主要表現として抽出する主要表現抽出手段と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と前記単位表現に関連する数値表現との対を情報対として抽出する情報対抽出手段とを備え、前記主要表現抽出手段が、更に、主要表現に付随する場合と付随しない場合とにおける主要表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する主要表現と該単語が付随しない主要表現とを主要表現として抽出する。   The information extraction device of the present invention is an information extraction device, wherein main expression extraction means for extracting item expressions and unit expressions as main expressions from an article group, and the main expressions appear from the article group simultaneously. An information pair extracting unit that extracts a pair of an item expression described in the specified part and a numerical expression related to the unit expression as an information pair, and the main expression extracting unit includes: Further, a word having a high degree of distinction between the main expression and the case where it does not accompany the main expression is determined, and the main expression to which the determined word is attached and the main expression to which the word is not attached are mainly used. Extract as an expression.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語が付随する数値表現の正規分布と該抽出された単語が付随しない数値表現の正規分布とを求め、求めた正規分布同士が重なっている割合が最も小さい場合の単語が付随する数値表現に関連する単位表現と該単語が付随しない数値表現に関連する単位表現とを前記主要表現とする。   Preferably, in the information extracting apparatus of the present invention, the main expression extracting means further extracts a word accompanying or before the numerical expression related to the extracted unit expression, and the extracted word is attached. Obtaining a normal distribution of the numerical expression and a normal distribution of the numerical expression not accompanied by the extracted word, and a unit expression related to the numerical expression accompanied by the word when the ratio of the obtained normal distributions overlapping is smallest; A unit expression related to a numerical expression not accompanied by the word is defined as the main expression.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された固有表現の種類の前又は後に付随する単語を抽出し、前記抽出された固有表現の種類に属する固有表現同士の類似度を求め、前記求まった固有表現同士の類似度と各々の固有表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、固有表現に付随した場合と付随しない場合とにおける前記固有表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する固有表現の種類と該単語が付随しない前記固有表現の種類とを前記主要表現とする。   Preferably, in the information extracting apparatus of the present invention, the main expression extracting unit further extracts a word attached before or after the extracted specific expression type, and the unique expression belonging to the extracted specific expression type. Based on the score value determined based on the similarity between the obtained unique expressions and information indicating whether or not the extracted word is attached to each unique expression. A word having a high degree of classification of the specific expression in the case where the word is attached and the case where the word is not attached, and a kind of the unique expression accompanied by the determined word and a kind of the specific expression not accompanied by the word The main expression.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された単位表現の前又は後に付随する単語を抽出し、前記抽出された単位表現に関連する数値表現同士の類似度を求め、前記求まった数値表現同士の類似度と各々の数値表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、単位表現に付随した場合と付随しない場合とにおける前記単位表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する単位表現と該単語が付随しない単位表現とを前記主要表現とする。   Preferably, in the information extracting apparatus of the present invention, the main expression extracting unit further extracts a word attached before or after the extracted unit expression, and between numerical expressions related to the extracted unit expression. The similarity is obtained and attached to the unit expression based on the score value determined based on the similarity between the obtained numerical expressions and information indicating whether or not the extracted word is attached to each numerical expression. A word having a high degree of division of the unit expression in a case and a case not accompanied is determined, and a unit expression accompanied by the determined word and a unit expression not accompanied by the word are set as the main expression.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記抽出された主要表現の前記記事群における頻度に基づき所定の算出式に従って算出されるスコア値に基づいて、最終的に抽出対象とする主要表現を決定する。   Preferably, in the information extraction device of the present invention, the main expression extraction unit further performs final determination based on a score value calculated according to a predetermined calculation formula based on the frequency of the extracted main expression in the article group. The main expression to be extracted is determined.

好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、前記記事群から、該記事群中の単語が属するクラスターを抽出して、該抽出された各クラスターを前記固有表現の種類とする。   Preferably, in the information extracting device of the present invention, the main expression extracting unit further extracts a cluster to which a word in the article group belongs from the article group, and each extracted cluster is represented by the specific expression. Kind.

好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、前記主要表現抽出手段によって抽出された主要表現のうち、ユーザの指定入力に基づいて特定の主要表現を選択し、前記選択された特定の主要表現に基づいて、前記記事群から情報対を抽出する。   Preferably, in the information extraction device of the present invention, the information pair extraction unit further selects a specific main expression from the main expressions extracted by the main expression extraction unit based on a user's designated input, An information pair is extracted from the group of articles based on the selected specific main expression.

好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、機械学習の手法を用いて、前記情報対を抽出する。   Preferably, in the information extraction device of the present invention, the information pair extraction unit further extracts the information pair using a machine learning technique.

好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、抽出した情報対の中から、所定の評価値算出式に基づいて算出される評価値に基づいて情報対を選択する。   Preferably, in the information extraction apparatus of the present invention, the information pair extraction unit further selects an information pair from the extracted information pairs based on an evaluation value calculated based on a predetermined evaluation value calculation formula .

好ましくは、本発明の情報抽出装置が、更に、前記情報対抽出手段によって抽出された情報対について相関分析を行う手段を備える。   Preferably, the information extraction apparatus of the present invention further includes means for performing correlation analysis on the information pair extracted by the information pair extraction means.

好ましくは、本発明の情報抽出装置において、前記情報対抽出手段によって抽出された情報対をグラフ化して表示する表示手段を備える。   Preferably, the information extraction apparatus according to the present invention further includes display means for displaying the information pairs extracted by the information pair extraction means in a graph.

また、本発明の情報抽出方法は、情報抽出方法であって、記事群から項目表現と固有表現の種類とを主要表現として抽出し、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と固有表現との対を情報対として抽出する。   Further, the information extraction method of the present invention is an information extraction method, wherein an item expression and a kind of specific expression are extracted from an article group as a main expression, and a place where the main expression appears simultaneously from the article group. A pair of the item expression and the specific expression described in the specified part is identified and extracted as an information pair.

また、本発明の情報抽出プログラムは、情報抽出プログラムであって、コンピュータに、記事群から項目表現と固有表現の種類とを主要表現として抽出する処理と、前記記事群から前記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と固有表現との対を情報対として抽出する処理とを実行させる。   Also, the information extraction program of the present invention is an information extraction program, which extracts a main expression from a group of items as an item expression and a kind of specific expression, and the main expression simultaneously appears from the article group. And a process of extracting a pair of an item expression and a specific expression described in the specified part as an information pair.

本発明の情報抽出装置、情報抽出方法および情報抽出プログラムによれば、例えば、記事群に含まれる項目表現と固有表現との対を抽出することができる。また、抽出した項目表現と固有表現との対を一目で把握できるように表示することができる。その結果、ユーザが、記事群の情報を素早く理解することが可能となる。   According to the information extraction device, the information extraction method, and the information extraction program of the present invention, for example, a pair of an item expression and a specific expression included in an article group can be extracted. Moreover, it can display so that the pair of the extracted item expression and specific expression can be grasped at a glance. As a result, the user can quickly understand the information of the article group.

以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明のシステム構成の一例を示す図である。情報抽出装置1は、記事群から、複数の情報の対を情報対として抽出する処理装置である。情報抽出装置1は、例えば、後述する関連記事データベース(DB)14に格納された記事群から、1又は複数の項目表現と1又は複数の固有表現の対を情報対として抽出する。また、情報抽出装置1は、上記関連記事DB14に格納された記事群から、1又は複数の項目表現と1又は複数の固有表現と1又は複数の数値表現の対を情報対として抽出する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an example of a system configuration of the present invention. The information extraction device 1 is a processing device that extracts a plurality of information pairs as information pairs from an article group. For example, the information extraction apparatus 1 extracts a pair of one or more item expressions and one or more unique expressions as an information pair from an article group stored in a related article database (DB) 14 described later. Further, the information extraction apparatus 1 extracts a pair of one or more item expressions, one or more unique expressions, and one or more numerical expressions as an information pair from the article group stored in the related article DB 14.

情報抽出装置1は、主要表現抽出部11、情報対抽出部12、表示部13、関連記事データベース(DB)14を備える。主要表現抽出部11は、後述する関連記事DB14に格納された記事群から、主要表現を抽出する。主要表現抽出部11は、例えば、1又は複数の項目表現と1又は複数の固有表現の種類を主要表現として抽出する。また、例えば、主要表現抽出部11は、1又は複数の項目表現と1又は複数の固有表現の種類と1又は複数の単位表現とを主要表現として抽出する。主要表現は、後述する情報対抽出部12において情報対を抽出する際に用いられる。主要表現を抽出する際には、例えば、対象の記事群全体に万遍なく高頻度に出現する該当表現を抽出する。   The information extraction apparatus 1 includes a main expression extraction unit 11, an information pair extraction unit 12, a display unit 13, and a related article database (DB) 14. The main expression extraction unit 11 extracts a main expression from an article group stored in a related article DB 14 described later. The main expression extraction unit 11 extracts, for example, one or more item expressions and one or more types of unique expressions as main expressions. For example, the main expression extraction unit 11 extracts one or more item expressions, one or more types of unique expressions, and one or more unit expressions as main expressions. The main expression is used when an information pair is extracted by the information pair extraction unit 12 described later. When extracting a main expression, for example, a corresponding expression that appears uniformly and frequently in the entire target article group is extracted.

主要表現抽出部11は、主要単位表現抽出部111と主要項目表現抽出部112と主要固有表現抽出部113とを備える。主要単位表現抽出部111は、情報対を抽出、整理する際に必要となる単位表現(主要単位表現)を抽出する。例えば、映画に関する記事群から、興行収入「5億円」における「円」や,観客動員数「30万人」における「人」を主要単位表現として抽出する。   The main expression extraction unit 11 includes a main unit expression extraction unit 111, a main item expression extraction unit 112, and a main specific expression extraction unit 113. The main unit expression extraction unit 111 extracts a unit expression (main unit expression) necessary for extracting and organizing information pairs. For example, “yen” in the box office revenue “500 million yen” and “person” in the audience mobilization number “300,000” are extracted from the group of articles about the movie as main unit expressions.

主要項目表現抽出部112は、情報対を抽出、整理する際に必要となる項目表現(主要項目表現)を抽出する。例えば、映画に関する記事群から、「興行収入」や「観客動員数」などを主要項目表現として抽出する。   The main item expression extraction unit 112 extracts an item expression (main item expression) necessary for extracting and organizing information pairs. For example, “entertainment income”, “number of audience mobilization”, and the like are extracted as main item expressions from articles related to movies.

主要固有表現抽出部113は、情報対を抽出、整理する際に必要となる固有表現の種類(主要固有表現の種類)を抽出する。例えば、映画に関する記事群から、人物を示す固有表現の種類「PERSON」や場所を示す固有表現の種類「LOCATION」などを主要固有表現の種類として抽出する。   The main specific expression extraction unit 113 extracts the types of specific expressions (types of main specific expressions) necessary for extracting and organizing information pairs. For example, from the group of articles related to movies, the type of specific expression “PERSON” indicating a person and the type of specific expression “LOCATION” indicating a place are extracted as types of main specific expressions.

情報対抽出部12は、主要表現抽出部11によって抽出された主要表現に基づいて、関連記事DB14中の記事群を構成する記事から複数の情報の対(例えば、1又は複数の項目表現と1又は複数の固有表現との対や、1又は複数の項目表現と1又は複数の数値表現と1又は複数の固有表現との対)を情報対として抽出する。上記固有表現は、上記固有表現の種類に属する固有表現であり、例えば、固有表現の種類「LOCATION」に属する「日本」、「アメリカ」等が該当する。固有表現の種類に属する固有表現は、後述する固有表現抽出技術を用いて抽出される。   Based on the main expression extracted by the main expression extraction unit 11, the information pair extraction unit 12 sets a plurality of information pairs (for example, one or a plurality of item expressions and 1) from the articles constituting the article group in the related article DB 14. Alternatively, a pair with a plurality of specific expressions or a pair of one or a plurality of item expressions, one or a plurality of numerical expressions and one or a plurality of specific expressions) is extracted as an information pair. The specific expression is a specific expression belonging to the type of the specific expression, for example, “Japan”, “America”, etc., belonging to the specific expression type “LOCATION”. A specific expression belonging to the type of specific expression is extracted using a specific expression extraction technique described later.

情報対抽出部12は、例えば、関連記事DB14に格納された記事群において、主要表現抽出部11によって抽出された主要表現(例えば、項目表現と固有表現の種類)が同時に出現している箇所を特定し、その箇所に記載されている固有表現と項目表現との対を情報対とする。また、例えば、情報対抽出部12は、関連記事DB14に格納された記事群において、主要表現(例えば、項目表現と固有表現の種類と単位表現)が同時に出現している箇所を特定し、その箇所に記載されている項目表現と固有表現(固有表現の種類に属する固有表現)と数値表現との対を情報対とする。上記数値表現は、主要表現としての単位表現に関連する数値表現である。   For example, in the article group stored in the related article DB 14, the information pair extraction unit 12 detects a location where the main expression (for example, item expression and unique expression type) extracted by the main expression extraction unit 11 appears at the same time. A pair of the unique expression and the item expression described in the place is identified as an information pair. In addition, for example, the information pair extraction unit 12 identifies a place where main expressions (for example, item expression and specific expression type and unit expression) appear simultaneously in the article group stored in the related article DB 14, and A pair of an item expression, a specific expression (a specific expression belonging to the type of specific expression) and a numerical expression described in a place is an information pair. The numerical expression is a numerical expression related to the unit expression as the main expression.

すなわち、上記主要表現のうちの単位表現については、情報対抽出部12は、当該単位表現に関連する数値(例えば、単位表現に隣接して記事中に出現している数値)も同時に抽出し、数値と単位表現とをあわせて数値表現として抽出する。   That is, for the unit expression of the main expressions, the information pair extraction unit 12 simultaneously extracts a numerical value related to the unit expression (for example, a numerical value appearing in the article adjacent to the unit expression), The numerical value and the unit expression are combined and extracted as a numerical expression.

例えば、映画の記事の場合、情報対抽出部12は、「項目表現:台風」「数値表現:4号」「LOCATION:南大東島」という情報対を抽出する。   For example, in the case of a movie article, the information pair extraction unit 12 extracts information pairs of “item expression: typhoon”, “numerical expression: No. 4”, and “LOCATION: Minami Daitojima”.

表示部13は、情報対抽出部12によって抽出された情報対を整理して表示(例えばグラフ化して表示)する。   The display unit 13 organizes and displays the information pairs extracted by the information pair extraction unit 12 (for example, displays them in a graph).

関連記事DB14には記事群が蓄積されている。   Article groups are accumulated in the related article DB 14.

本発明の一実施形態によれば、主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後に予め決められた単語が付随するか否かに基づいて上記固有表現の種類を分類し、該分類された各々の固有表現の種類を上記主要表現とするようにしてもよい。   According to an embodiment of the present invention, the main expression extraction unit 11 further determines the type of the specific expression based on whether a predetermined word is attached before or after the type of the extracted specific expression. And the type of each of the classified proper expressions may be the main expression.

本発明の一実施形態によれば、主要表現抽出部11が、関連記事DB14に格納された記事群から項目表現と単位表現とを主要表現として抽出し、情報対抽出部12が、上記記事群から上記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と上記単位表現に関連する数値表現との対を情報対として抽出し、上記主要表現抽出部11が、上記抽出された単位表現に関連する数値表現の前又は後に予め決められた単語が付随するか否かに基づいて上記数値表現を分類し、該分類された各々の数値表現に関連する単位表現を上記主要表現とするようにしてもよい。   According to one embodiment of the present invention, the main expression extraction unit 11 extracts item expressions and unit expressions as main expressions from the article group stored in the related article DB 14, and the information pair extraction unit 12 extracts the article group. The location where the main expression appears at the same time is identified, the pair of the item representation described in the identified location and the numerical representation related to the unit representation is extracted as an information pair, and the main representation extraction The unit 11 classifies the numerical expression based on whether or not a predetermined word is attached before or after the numerical expression related to the extracted unit expression, and relates to each of the classified numerical expressions. The unit expression to be used may be the main expression.

ここで、上記「単語が付随する」とは、必ずしも該単語が固有表現の種類や数値表現に連接して出現することのみを意味するものではなく、例えば該単語が固有表現の種類や数値表現が出現する文と同一の文に出現することをも意味する。また、固有表現の種類や数値表現とかかりうけ関係にある単語も該固有表現の種類や数値表現に付随する単語に含まれる。   Here, the phrase “with a word” does not necessarily mean that the word appears concatenated with the type of specific expression or numerical expression. For example, the word includes the type of specific expression or numerical expression. It also means that it appears in the same sentence as the sentence that appears. In addition, words associated with the types of specific expressions and numerical expressions are also included in the words associated with the types of specific expressions and numerical expressions.

また、本発明の一実施形態によれば、主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後、又は、上記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する固有表現の種類、又は該抽出された単語から選択された単語が付随する数値表現に関連する単位表現を上記主要表現とするようにしてもよい。   In addition, according to an embodiment of the present invention, the main expression extraction unit 11 may further perform before or after the extracted specific expression type, or before or after the numerical expression related to the extracted unit expression. A word associated with a numerical expression accompanied by a type of a unique expression accompanied by a word selected from the extracted word or a word selected from the extracted word; An expression may be used.

また、本発明の一実施形態によれば、主要表現抽出部11が、関連記事DB14に格納された記事群から項目表現と単位表現とを主要表現として抽出し、情報対抽出部12が、上記記事群から上記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と上記単位表現に関連する数値表現との対を情報対として抽出し、上記主要表現抽出部11が、更に、上記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する数値表現に関連する単位表現を上記主要表現とするようにしてもよい。   Moreover, according to one Embodiment of this invention, the main expression extraction part 11 extracts item expression and unit expression as main expressions from the article group stored in related article DB14, and the information pair extraction part 12 is the said. A location where the main expression appears simultaneously from an article group is identified, and a pair of an item expression described in the specified location and a numerical expression related to the unit expression is extracted as an information pair, and the main expression is extracted. The expression extraction unit 11 further extracts a word associated with the numerical expression related to the extracted unit expression before or after, and a unit expression related to the numerical expression associated with the word selected from the extracted words May be the main expression.

また、本発明の一実施形態によれば、主要表現抽出部11が、更に、主要表現に付随する場合と付随しない場合とにおける主要表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する主要表現と該単語が付随しない主要表現とを主要表現として抽出するようにしてもよい。   In addition, according to an embodiment of the present invention, the main expression extraction unit 11 further determines a word having a high degree of classification of the main expression when it is attached to the main expression and when it is not attached. A main expression accompanied by a word and a main expression not accompanied by the word may be extracted as main expressions.

また、本発明の一実施形態によれば、主要表現抽出部11が、記事群から項目表現と単位表現とを主要表現として抽出し、情報対抽出部12が、上記記事群から上記主要表現が同時に出現している箇所を特定し、該特定された箇所に記載されている項目表現と前記単位表現に関連する数値表現との対を情報対として抽出し、上記主要表現抽出部11が、更に、主要表現に付随する場合と付随しない場合とにおける主要表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する主要表現と該単語が付随しない主要表現とを主要表現として抽出するようにしてもよい。   According to one embodiment of the present invention, the main expression extraction unit 11 extracts item expressions and unit expressions from the article group as main expressions, and the information pair extraction unit 12 extracts the main expression from the article group. A location that appears at the same time is identified, and a pair of an item representation described in the identified location and a numerical representation related to the unit representation is extracted as an information pair. Determining a word having a high degree of classification of the main expression between the case where it is attached to the main expression and the case where it is not attached, and the main expression including the determined word and the main expression not including the word as the main expression You may make it extract.

また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語が付随する数値表現の正規分布と該抽出された単語が付随しない数値表現の正規分布とを求め、求めた正規分布同士が重なっている割合が最も小さい場合の単語が付随する数値表現に関連する単位表現と該単語が付随しない数値表現に関連する単位表現とを上記主要表現とするようにしてもよい。   In addition, according to an embodiment of the present invention, the main expression extraction unit 11 further extracts a word accompanying or before the numerical expression related to the extracted unit expression, and the extracted word is A unit related to a numerical expression accompanied by a word when a normal distribution of the accompanying numerical expression and a normal distribution of the numerical expression not accompanied by the extracted word are obtained and the ratio of the obtained normal distributions overlapping is the smallest The main expression may be an expression and a unit expression related to a numerical expression not accompanied by the word.

また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後に付随する単語を抽出し、上記抽出された固有表現の種類に属する固有表現同士の類似度を求め、求まった固有表現同士の類似度と各々の固有表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、固有表現に付随した場合と付随しない場合とにおける固有表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する上記固有表現の種類と該単語が付随しない固有表現の種類とを前記主要表現とするようにしてもよい。   In addition, according to an embodiment of the present invention, the main expression extraction unit 11 further extracts a word attached before or after the extracted specific expression type, and sets the extracted specific expression type as the extracted specific expression type. The degree of similarity between specific expressions belonging to each other is obtained, and based on a score value determined based on the degree of similarity between the obtained specific expressions and information indicating whether or not the extracted word is attached to each specific expression. A word having a high degree of classification of the unique expression in the case of accompanying with the expression and the case of not accompanying the expression is determined, and the type of the specific expression to which the determined word is attached and the kind of the unique expression to which the word is not attached are determined. The main expression may be used.

また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された単位表現の前又は後に付随する単語を抽出し、上記抽出された単位表現に関連する数値表現同士の類似度を求め、上記求まった数値表現同士の類似度と各々の数値表現に上記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、単位表現に付随した場合と付随しない場合とにおける上記単位表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する単位表現と該単語が付随しない単位表現とを上記主要表現とするようにしてもよい。   In addition, according to an embodiment of the present invention, the main expression extraction unit 11 further extracts a word attached before or after the extracted unit expression, and a numerical expression related to the extracted unit expression Based on the score value determined based on the similarity between the obtained numerical expressions and information indicating whether or not the extracted word is attached to each numerical expression, the unit expression is obtained. A word that increases the degree of classification of the unit expression in the case of accompanying and not accompanying is determined, and the unit expression to which the determined word is attached and the unit expression to which the word is not attached are used as the main expression. It may be.

また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された主要表現の上記関連記事DB14に格納された記事群における頻度に基づき所定の算出式に従って算出されるスコア値に基づいて、最終的に抽出対象とする主要表現を決定するようにしてもよい。   Further, according to an embodiment of the present invention, the main expression extraction unit 11 is further calculated according to a predetermined calculation formula based on the frequency in the article group stored in the related article DB 14 of the extracted main expression. The main expression to be finally extracted may be determined based on the score value.

また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記関連記事DB14から、該関連記事DB14の記事群中の単語が属するクラスターを抽出して、該抽出された各クラスターを上記固有表現の種類とするようにしてもよい。   Further, according to an embodiment of the present invention, the main expression extraction unit 11 further extracts a cluster to which a word in an article group of the related article DB 14 belongs from the related article DB 14 and extracts the cluster. Each cluster may be a type of the unique expression.

また、本発明の一実施形態によれば、予め図示を省略する記憶手段内に、人手で作成した固有表現の辞書(例えば、駅名、映画名、スペースシャトル名等と単語との対応情報)を記憶しておき、主要表現抽出部11が、上記固有表現の辞書を参照して、上記関連記事DB14の記事群中の単語が対応する固有表現を決定し、該決定された固有表現が属する固有表現の種類を主要表現として抽出するようにしてもよい。   In addition, according to an embodiment of the present invention, a dictionary of specific expressions created manually (for example, correspondence information between a station name, a movie name, a space shuttle name, and a word) is stored in a storage unit (not shown) in advance. The main expression extraction unit 11 determines the specific expression corresponding to the word in the article group of the related article DB 14 with reference to the specific expression dictionary, and the specific expression to which the determined specific expression belongs is stored. The type of expression may be extracted as the main expression.

また、本発明の一実施形態によれば、情報対抽出部12が、更に、主要表現抽出部11によって抽出された主要表現のうち、ユーザの指定入力に基づいて特定の主要表現を選択し、選択された特定の主要表現に基づいて、上記記事群を構成する記事から情報対を抽出するようにしてもよい。   According to an embodiment of the present invention, the information pair extraction unit 12 further selects a specific main expression from the main expressions extracted by the main expression extraction unit 11 based on a user's designated input, Information pairs may be extracted from the articles constituting the article group based on the selected specific main expression.

また、本発明の一実施形態によれば、情報対抽出部12が、更に、予め(ユーザの指定入力に従って)指定された固有表現の種類を固有表現の種類として抽出し、関連記事DB14において主要表現抽出部11によって抽出された項目表現と該抽出された固有表現の種類とが同時に出現している箇所に記載されている項目表現と固有表現との対を情報対として抽出するようにしてもよい。   Further, according to the embodiment of the present invention, the information pair extraction unit 12 further extracts a specific expression type specified in advance (according to a user's specification input) as a specific expression type, and the main information is stored in the related article DB 14. A pair of the item expression and the specific expression described in the place where the item expression extracted by the expression extraction unit 11 and the type of the specific expression that appears at the same time may be extracted as an information pair. Good.

また、本発明の一実施形態によれば、情報対抽出部12が、更に、機械学習の手法を用いて、上記情報対を抽出するようにしてもよい。   Further, according to an embodiment of the present invention, the information pair extraction unit 12 may further extract the information pair using a machine learning technique.

以下に、本発明の実施の形態に係る情報抽出装置1の各構成要素の詳細な例について説明する。
(主要表現抽出部11)
主要表現抽出部11は、情報対を抽出、整理する際に必要となる主要表現を抽出する。主要表現抽出部11は、例えば、項目表現と固有表現の種類とを主要表現として抽出する。また、主要表現抽出部11は、例えば、項目表現と固有表現の種類と単位表現とを主要表現として抽出する。
Below, the detailed example of each component of the information extraction apparatus 1 which concerns on embodiment of this invention is demonstrated.
(Main Expression Extraction Unit 11)
The main expression extraction unit 11 extracts a main expression necessary for extracting and organizing information pairs. The main expression extraction unit 11 extracts, for example, item expressions and types of specific expressions as main expressions. The main expression extraction unit 11 extracts, for example, item expressions, types of specific expressions, and unit expressions as main expressions.

主要表現抽出部11は、例えば、ChaSen(下記の参考文献(1)参照)を利用して、項目表現と単位表現とを抽出する。   The main expression extraction unit 11 extracts an item expression and a unit expression using, for example, ChaSen (see the following reference (1)).

参考文献(1): Y. Matsumoto, A. Kitauchi, T. Yamashita,Y. Hirano, H. Matsuda and M. Asahara: Japanese morphological analysis system ChaSen version 2.0 manual 2nd edition ”(1999).
ChaSenの出力において、品詞の情報を利用して、各表現の抽出を行う。単位表現については、数値の前方または後方に接続する名詞連続を取り出す。項目表現は、例えば名詞連続を取り出す。また、例えば、単位表現として得られた表現のうち、時間に関する表現(例:「年」、「月」、「日」)を含む表現を取り除くようにしてもよい。
Reference (1): Y. Matsumoto, A. Kitauchi, T. Yamashita, Y. Hirano, H. Matsuda and M. Asahara: Japanese morphological analysis system ChaSen version 2.0 manual 2nd edition ”(1999).
In the output of ChaSen, each expression is extracted using part of speech information. For unit expressions, take out the noun series connected to the front or back of the numerical value. For the item expression, for example, a noun series is taken out. Also, for example, expressions including expressions related to time (eg, “year”, “month”, “day”) may be removed from expressions obtained as unit expressions.

また、主要表現抽出部11は、例えば、以下に述べる固有表現抽出技術によって、固有表現の種類を抽出する。該固有表現の種類の抽出の際に、該固有表現の種類に属する固有表現が抽出される。   Also, the main expression extraction unit 11 extracts the types of specific expressions by using the specific expression extraction technique described below, for example. At the time of extracting the type of the specific expression, the specific expression belonging to the type of the specific expression is extracted.

固有表現とは、人名、地名、組織名などの固有名詞、金額などの数値表現といった、特定の事物・数量を意味する言語表現のことである。例えば、固有表現の種類として、組織を示す「ORGANIZATION」、人物を示す「PERSON」、場所を示す「LOCATION」、人工物を示す「ARTIFACT」、日付を示す「DATE」、時間を示す「TIME」、金額を示す「MONEY」、割合を示す「PERCENT」がある。   A proper expression is a linguistic expression that means a specific thing / quantity, such as a proper noun such as a person name, a place name, or an organization name, or a numerical expression such as a monetary amount. For example, as types of specific expressions, “ORGANIZATION” indicating an organization, “PERSON” indicating a person, “LOCATION” indicating a place, “ARTIFACT” indicating an artifact, “DATE” indicating a date, and “TIME” indicating a time. , “MONEY” indicating the amount of money, and “PERCENT” indicating the ratio.

固有表現抽出技術とは、上記のような固有表現の種類と該固有表現に属する固有表現を文章中から計算機で自動で抽出する技術である。例えば、「日本の首相は小泉純一郎である」という文に対して固有表現抽出を行なうと、固有表現の種類(例えば、「PERSON」、「LOCATION」)と該固有表現の種類に属する固有表現(例えば、「PERSON」に属する固有表現「小泉純一郎」、「LOCATION」に属する固有表現「日本」)とが抽出される。   The specific expression extraction technique is a technique for automatically extracting the types of specific expressions as described above and specific expressions belonging to the specific expressions from a sentence by a computer. For example, if a specific expression is extracted for a sentence “The Japanese prime minister is Junichiro Koizumi”, the types of specific expressions (for example, “PERSON” and “LOCATION”) and specific expressions belonging to the types of the specific expressions ( For example, a specific expression “Joiichiro Koizumi” belonging to “PERSON” and a specific expression “Japan” belonging to “LOCATION”) are extracted.

以下に、固有表現抽出の一般的な手法の例について説明する。
(1)機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の参考文献(2)参照)。
Hereinafter, an example of a general technique for extracting a specific expression will be described.
(1) A method using machine learning There is a method of extracting a specific expression using machine learning (for example, see the following reference (2)).

参考文献(2):浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
小 B−PERSON
泉 I−PERSON
さ O
ん O
で O
す O
。 O
上記において、B −???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B−LOCATIONは、場所を示す固有表現の始まりを意味しており、 B−PERSONは、人名を示す固有表現の始まりを意味している。また、I −???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、場所を示す固有表現の始まりに該当する文字であり、文字「本」までが場所を示す固有表現である。
Reference (2): Masayuki Asahara, Yuji Matsumoto, Use of Redundant Morphological Analysis in Japanese Named Expression Extraction Information Processing Society of Japan Natural Language Processing Study Group NL153-7 2002
First, for example, the sentence “Japan's prime minister is Mr. Koizumi” is divided into each character, and the correct characters such as B-LOCATION and I-LOCATION are assigned to the divided characters as follows. Set the correct answer. The first column below is each divided character, and the correct tag of each character is the second column.
Sun B-LOCATION
I-LOCATION
O
Neck O
Phase O
Is O
Small B-PERSON
Izumi I-PERSON
O
N
At O
O
. O
In the above, B-? ? ? Is a tag that signifies the start of the type of proper expression below the hyphen. For example, B-LOCATION means the beginning of a specific expression indicating a place, and B-PERSON means the start of a specific expression indicating a person name. I-? ? ? Is a tag that means something other than the beginning of the type of proper expression below the hyphen, and O is something else. Therefore, for example, the character “day” is a character corresponding to the beginning of the specific expression indicating the place, and the character “book” is the specific expression indicating the place.

このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。   In this way, the correct answer of each character is set, learned from such data, this correct answer is estimated with new data, and from this correct answer tag, the beginning of each proper expression and how far it is. Is recognized and the proper expression is estimated.

この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−B は、日本という単語の先頭を意味し、名詞−B は、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChaSenによる形態素解析を用いる。ChaSenを用いれば、入力された日本語を単語に分割することができる。例えば、ChaSenは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
When learning from the correct data set for each character, the system uses various information in the form of features. For example,
Sun B-LOCATION
Part of
Japan-B Noun-B
Such information is used. Japan-B means the beginning of the word Japan, and noun-B means the beginning of the noun. For recognition of words and parts of speech, for example, morphological analysis by ChaSen described above is used. If ChaSen is used, the input Japanese can be divided into words. For example, ChaSen divides a Japanese sentence and estimates the part of speech of each word as described above. For example, if “go to school” is entered, the following results can be obtained.

学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
School Gacco School Noun-General To He To particle-Case particle-General Go Iku Go Verb-independence
In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.

なお、例えば、上記の参考文献(2)では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「 B−PERSON」等)を利用している。   For example, in the above reference (2), as features, characters constituting the input sentence itself (for example, “small” character), character type (for example, hiragana, katakana, etc.), part of speech information, Tag information (for example, “B-PERSON” or the like) is used.

これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。   Learning using these features. Investigate what features appear in the characters that estimate the tag and the surrounding characters, learn what features are likely to appear when the features appear, and use the learning results to create new data Perform tag estimation. For machine learning, for example, a support vector machine is used.

固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(参考文献(3)参照)。   In addition to the above-described method, there are various methods for extracting the proper expression. For example, there is a technique for extracting a specific expression using a maximum entropy model and a rewrite rule (see reference (3)).

参考文献(3):内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000
また、例えば、以下の参考文献(4)に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。
Reference (3): Kiyotaka Uchimoto, Maoi, Maki Murata, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara, Named Expression Extraction Based on Maximum Entropy Model and Rewriting Rules, Journal of the Language Processing Society, Vol.7, No.2 , 2000
Further, for example, the following reference (4) describes a technique for extracting Japanese proper expressions using a support vector machine.

参考文献(4):山田寛康,工藤拓,松本裕治,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43, No.1", 2002
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
Reference (4): Hiroyasu Yamada, Taku Kudo, Yuji Matsumoto, Extracting Japanese Named Expressions Using Support Vector Machine, Journal of Information Processing Society of Japan, Vol.43, No.1 ", 2002
(2) A method using a created rule There is also a method of manually creating a rule to extract a specific expression.

例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「町」だと場所とする
名詞+「市」だと場所とする
などである。
For example,
A noun + “san” means a person's name + “a prime minister” means a person's name + a “town” means a place + a “city” means a place.

また、本発明の一実施形態によれば、主要表現抽出部11が、抽出された主要表現からユーザの指定入力に従って特定の主要表現を選択するようにしてもよい。   According to one embodiment of the present invention, the main expression extraction unit 11 may select a specific main expression from the extracted main expressions according to a user's designated input.

主要表現抽出部11は、今扱っている記事群で主たる役割を果たす主要な項目表現、固有表現の種類、単位表現を主要表現として抽出する。例えば、対象の記事群全体に万遍なく高頻度に出現する該当表現を主要表現として抽出する。   The main expression extraction unit 11 extracts, as main expressions, main item expressions, types of unique expressions, and unit expressions that play a main role in the article group currently being handled. For example, a corresponding expression that appears uniformly and frequently in the entire target article group is extracted as a main expression.

具体的には、主要表現の抽出には、以下の式(1)〜式(3)に示すようなScore(スコア)の値を用い、スコアの値が大きいものを主要表現として抽出する。
(1)OkapiのTF項の式
Specifically, for the extraction of the main expression, Score (score) values as shown in the following formulas (1) to (3) are used, and the one with a large score value is extracted as the main expression.
(1) Okapi's TF term equation

Figure 0005182845
Figure 0005182845

(2)総頻度 (2) Total frequency

Figure 0005182845
Figure 0005182845

(3)総出現記事数 (3) Total number of appearing articles

Figure 0005182845
Figure 0005182845

ただし、iは記事の番号、Docsは記事の番号の集合、TFi は記事iでの表現の出現回数、li は記事iの長さ、Δは記事群Docsにおける記事の平均の長さを意味する。OkapiのTF項の式は、複数の記事に万遍なく出現しなおかつ頻度が大きい表現のスコアを大きくする効果がある。なお、記事の長さとは、例えば、記事に含まれる単語数や文字数である。また、固有表現の種類については、上記TFi は、記事iでの該固有表現の種類に属する固有表現の出現回数である。 Where i is the article number, Docs is the set of article numbers, TF i is the number of appearances of the expression in article i, l i is the length of article i, and Δ is the average length of articles in article group Docs. means. The expression of the TF term of Okapi has the effect of increasing the score of an expression that appears uniformly in a plurality of articles and has a high frequency. The length of the article is, for example, the number of words or characters included in the article. As for the type of specific expression, TF i is the number of appearances of the specific expression belonging to the type of specific expression in article i.

項目表現については、長い文字列を優先して取ってくることができるように、TFi を記事iでの表現の出現回数とせずに、例えば記事iでの表現の出現回数とその表現の文字列長の積とする方法も利用する。 For item expressions, for example, TF i is not the number of appearances of an expression in article i so that a long character string can be preferentially fetched. A method of product of column length is also used.

また、本発明の実施の形態においては、式(1)の値にIDFすなわちlogN/DFを乗じた値、式(2)の値に上記IDFを乗じた値、式(3)の値に上記IDFを乗じた値を各スコアの値としてもよい。ここで、Nは図示しない大規模コーパス中の全記事数、DFは、例えば当該大規模コーパス中において当該表現が出現した記事数を意味する。   In the embodiment of the present invention, the value obtained by multiplying the value of equation (1) by IDF, that is, log N / DF, the value of equation (2) by the IDF, and the value of equation (3) by the above A value obtained by multiplying IDF may be used as the value of each score. Here, N means the total number of articles in a large-scale corpus (not shown), and DF means the number of articles in which the expression appears in the large-scale corpus, for example.

本発明の実施の形態においては、主要表現抽出部11は、例えば、算出されたスコア値が最も高い表現を主要表現として抽出する。主要表現抽出部11は、例えば、算出されたスコア値が所定の閾値以上の表現を主要表現として抽出してもよい。また、主要表現抽出部11は、例えば、算出されたスコア値が高いものから所定の個数の表現を主要表現として抽出してもよい。   In the embodiment of the present invention, the main expression extraction unit 11 extracts, for example, an expression having the highest calculated score value as the main expression. For example, the main expression extraction unit 11 may extract an expression having a calculated score value equal to or greater than a predetermined threshold as the main expression. In addition, the main expression extraction unit 11 may extract a predetermined number of expressions as the main expression from the one with the high calculated score value, for example.

本発明の一実施形態によれば、主要表現抽出部11が、更に、抽出された固有表現の種類の前または後に予め決められた単語が付随するか否かに基づいて上記固有表現の種類を分類し、該分類された各々の固有表現の種類を上記主要表現とするようにしてもよい。例えば、主要表現抽出部11は、抽出された固有表現の種類「ORGANIZATION」の後に単語「警」が付随するか否かに基づいて、該固有表現の種類を分類し、該単語「警」が付随する「ORGANIZATION」、該単語「警」が付随しない「ORGANIZATION」のそれぞれを主要表現とするようにしてもよい。   According to an embodiment of the present invention, the main expression extraction unit 11 further determines the type of the specific expression based on whether a predetermined word is attached before or after the type of the extracted specific expression. Classification may be performed, and the type of each unique expression thus classified may be the main expression. For example, the main expression extraction unit 11 classifies the types of specific expressions based on whether or not the word “alarm” is appended to the extracted specific expression type “ORGANIZATION”. Each of the accompanying “ORGANIZATION” and “ORGANIZATION” without the word “warning” may be used as the main expression.

また、本発明の一実施形態によれば、主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する固有表現の種類を上記主要表現とするようにしてもよい。例えば、主要表現抽出部11は、抽出された固有表現の種類「ORGANIZATION」の前又は後に付随する単語の全てを抽出して、各々の単語を関連記事DB14中に出現する頻度に基づいてソートして表示し、該表示された単語からユーザの指定入力に従って選択された単語が付随する固有表現の種類を上記主要表現とする。抽出された固有表現の種類の前又は後に付随する単語を抽出する代わりに、抽出された固有表現の種類の前又は後に付随する文字列を抽出するようにしてもよい。   In addition, according to an embodiment of the present invention, the main expression extraction unit 11 further extracts a word attached before or after the type of the unique expression extracted, and a word selected from the extracted words The type of specific expression accompanied by may be the main expression. For example, the main expression extraction unit 11 extracts all the words attached before or after the extracted unique expression type “ORGANIZATION”, and sorts each word based on the frequency of appearance in the related article DB 14. The kind of specific expression accompanied by the word selected according to the user's designated input from the displayed word is defined as the main expression. Instead of extracting a word that comes before or after the type of the extracted specific expression, a character string that comes before or after the type of the extracted specific expression may be extracted.

また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語が付随する数値表現の正規分布と該抽出された単語が付随しない数値表現の正規分布とを求め、求めた正規分布同士が重なっている割合が最も小さい場合の単語が付随する数値表現に関連する単位表現と該単語が付随しない数値表現に関連する単位表現とを上記主要表現とするようにしてもよい。抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出する代わりに、抽出された単位表現に関連する数値表現の前又は後に付随する文字列を抽出するようにしてもよい。   Further, according to an embodiment of the present invention, the main expression extraction unit 11 further extracts a word accompanying or before the numerical expression related to the extracted unit expression, and the extracted word is attached. Unit expression related to the numerical expression with which the normal distribution of the numerical expression to be obtained and the normal distribution of the numerical expression without the extracted word attached are obtained, and the ratio in which the obtained normal distributions overlap is the smallest And the unit expression related to the numerical expression not accompanied by the word may be the main expression. Instead of extracting a word associated with the extracted unit expression before or after the numerical expression, a character string associated with the extracted numerical expression related to the unit expression may be extracted.

すなわち、例えば、主要表現抽出部11は、上記数値表現の前後に出現する単語又は文字列を関連記事DB14から抽出する。ここでは、説明の便宜上、該単語又は文字列を「パターン」と呼ぶ。なお、数値表現の前後に隣接して出現するパターンの代わりに、同一文に出現するパターンを抽出するようにしてもよい。そして、主要表現抽出部11は、例えば、抽出されたパターンから、関連記事DB14に出現する頻度に基づいて所定の数のパターンを選択し、選択されたパターンをパターンの候補とする。   That is, for example, the main expression extraction unit 11 extracts words or character strings that appear before and after the numerical expression from the related article DB 14. Here, for convenience of explanation, the word or character string is referred to as a “pattern”. Note that patterns appearing in the same sentence may be extracted instead of patterns appearing adjacently before and after the numerical expression. Then, the main expression extraction unit 11 selects a predetermined number of patterns based on the frequency of appearance in the related article DB 14 from the extracted patterns, and sets the selected patterns as pattern candidates.

次に、主要表現抽出部11は、各パターンの候補について、以下の計算をする。まず、主要表現抽出部11は、パターンが前後に付随する数値表現の平均と、分散を求める。そして、求まった平均と分散とから正規分布(第1の正規分布)を求める。また、主要表現抽出部11は、パターンが前後に付随しない数値表現の平均と、分散を求める。そして、求まった平均と分散とから正規分布(第2の正規分布)を求める。そして、主要表現抽出部11は、上記求めた第1の正規分布と第2の正規分布同士が重なっている割合を求める。上記正規分布同士の重なっている割合が小さいときのパターンほど、数値表現同士を区分けする度合い(分解能力)が高いパターンとなる。主要表現抽出部11は、上記求まった割合が最も小さい場合のパターンの候補を最終的なパターンとして決定し、該決定された最終的なパターンが付随する数値表現に関連する単位表現と該パターンが付随しない数値表現に関連する単位表現とを主要表現とする。例えば、主要表現抽出部11は、「時速」という単語を最終的なパターンとして決定し、該単語「時速」が付随する数値表現に関連する単位表現と「時速」が付随しない数値表現に関連する単位表現とを主要表現とする。   Next, the main expression extraction unit 11 performs the following calculation for each pattern candidate. First, the main expression extraction unit 11 obtains an average and variance of numerical expressions with patterns preceding and following. Then, a normal distribution (first normal distribution) is obtained from the obtained average and variance. In addition, the main expression extraction unit 11 obtains an average and variance of numerical expressions in which no pattern is attached before and after. Then, a normal distribution (second normal distribution) is obtained from the obtained average and variance. Then, the main expression extraction unit 11 obtains a ratio in which the obtained first normal distribution and second normal distribution overlap each other. A pattern with a smaller overlapping ratio of the normal distributions has a higher degree (decomposition capability) of separating numerical expressions from each other. The main expression extraction unit 11 determines a pattern candidate when the obtained ratio is the smallest as a final pattern, and the unit expression related to the numerical expression accompanied by the determined final pattern and the pattern are A unit expression related to a numerical expression that is not attached is a main expression. For example, the main expression extraction unit 11 determines the word “hourly speed” as a final pattern, and relates to a unit expression related to a numerical expression accompanied by the word “hourly speed” and a numerical expression not accompanied by “hourly speed”. The unit expression is the main expression.

本発明の一実施形態によれば、後述する情報対抽出部12が、上記決定された最終的なパターンが付随する数値表現を含む情報対を抽出するようにしてもよい。   According to an embodiment of the present invention, the information pair extraction unit 12 to be described later may extract an information pair including a numerical expression accompanied by the determined final pattern.

本発明の一実施形態によれば、主要表現抽出部11が、上記パターンの候補のそれぞれについて、上記正規分布同士の重なっている割合の少ない順に所定の数選択し、該選択されたパターンの候補が付随する数値表現に関連する単位表現と該パターンの候補が付随しない数値表現に関連する単位表現とを主要表現とするようにしてもよい。   According to an embodiment of the present invention, the main expression extraction unit 11 selects a predetermined number of the above pattern candidates in order of increasing proportion of the normal distributions, and the selected pattern candidates. A unit expression related to a numerical expression accompanied by a symbol and a unit expression related to a numerical expression not accompanied by a candidate for the pattern may be used as a main expression.

また、本発明の一実施形態によれば、主要表現抽出部11が、上記パターンの候補のそれぞれについて、上記正規分布同士の重なっている割合の少ない順に所定の数選択してリストとして表示し、該リストとして表示されたパターンの候補からユーザの指定入力に従って指定したパターンの候補が付随する数値表現に関連する単位表現と該パターンの候補が付随しない数値表現に関連する単位表現とを主要表現とするようにしてもよい。   Further, according to an embodiment of the present invention, the main expression extraction unit 11 selects and displays a predetermined number for each of the pattern candidates in a descending order of the overlapping ratio of the normal distributions as a list. A unit expression related to a numerical expression accompanied by a pattern candidate designated according to a user's designated input from the pattern candidates displayed as the list and a unit expression related to a numerical expression not accompanied by the pattern candidate are main expressions. You may make it do.

なお、本発明においては、上述した方法以外の、最終的なパターンの決定方法を用いるようにしてもよい。   In the present invention, a final pattern determination method other than the method described above may be used.

また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、上記抽出された固有表現の種類の前又は後に付随する単語を抽出し、上記抽出された固有表現の種類に属する固有表現同士の類似度を求め、求まった固有表現同士の類似度と各々の固有表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、固有表現に付随した場合と付随しない場合とにおける固有表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する上記固有表現の種類と該単語が付随しない固有表現の種類とを前記主要表現とするようにしてもよい。   In addition, according to an embodiment of the present invention, the main expression extraction unit 11 further extracts a word attached before or after the extracted specific expression type, and sets the extracted specific expression type as the extracted specific expression type. The degree of similarity between specific expressions belonging to each other is obtained, and based on a score value determined based on the degree of similarity between the obtained specific expressions and information indicating whether or not the extracted word is attached to each specific expression. A word having a high degree of classification of the unique expression in the case of accompanying with the expression and the case of not accompanying the expression is determined, and the type of the specific expression to which the determined word is attached and the kind of the unique expression to which the word is not attached are determined. The main expression may be used.

すなわち、例えば、主要表現抽出部11は、上記固有表現の種類の前後に出現する単語又は文字列を関連記事DB14から抽出する。前述したように、説明の便宜上、該単語又は文字列を「パターン」と呼ぶ。なお、数値表現の前後に隣接して出現するパターンの代わりに、同一文に出現するパターンを抽出するようにしてもよい。そして、主要表現抽出部11は、例えば、抽出されたパターンから、関連記事DB14に出現する頻度に基づいて所定の数のパターンを選択し、選択されたパターンをパターンの候補とする。   That is, for example, the main expression extraction unit 11 extracts, from the related article DB 14, words or character strings that appear before and after the type of the unique expression. As described above, for convenience of explanation, the word or character string is referred to as a “pattern”. Note that patterns appearing in the same sentence may be extracted instead of patterns appearing adjacently before and after the numerical expression. Then, the main expression extraction unit 11 selects a predetermined number of patterns based on the frequency of appearance in the related article DB 14 from the extracted patterns, and sets the selected patterns as pattern candidates.

次に、主要表現抽出部11は、各パターンの候補について、以下の計算をする。例えば、主要表現抽出部11は、予め記憶手段に記憶された、分類語彙表などの、単語を分類した辞書を用いて、当該辞書の記述において、近い意味とされた単語ほど類似度を高く設定しておくことによって、単語同士の類似度を予め決定する。   Next, the main expression extraction unit 11 performs the following calculation for each pattern candidate. For example, the main expression extraction unit 11 uses a dictionary that classifies words, such as a classification vocabulary table that is stored in advance in the storage unit, and sets a higher similarity for words that have a closer meaning in the dictionary description. By doing so, the similarity between words is determined in advance.

辞書を利用する代わりに、以下の方法で単語同士の類似度を決定するようにしてもよい。すなわち、主要表現抽出部11が、予め記憶された大規模言語コーパスから、ある単語と、該単語とよく共起する単語(例えば、同一文に共起して出現する頻度が高い単語)を取得する。そして、該共起する単語をベクトルの次元、該共起する単語の共起した回数(頻度)をベクトルの要素とするベクトルを、単語毎に作成する。単語同士の類似度を、単語のベクトル同士の角度(又はcos)と定義して、この角度(又はcos)が小さい(又は大きい)ほど、類似度が高いと定義する。   Instead of using a dictionary, the similarity between words may be determined by the following method. That is, the main expression extraction unit 11 acquires a word and a word that frequently co-occurs with the word (for example, a word that frequently appears in the same sentence) from a large-scale language corpus stored in advance. To do. Then, a vector having the co-occurrence word as a vector dimension and the number of times of co-occurrence of the co-occurrence word (frequency) as a vector element is created for each word. The similarity between words is defined as an angle (or cos) between word vectors, and the smaller (or larger) this angle (or cos), the higher the similarity.

上記のようにして単語同士の類似度を決定した後、主要表現抽出部11は、上記各パターンの候補について、以下の計算式に従って、score(スコア値)を算出する。   After determining the similarity between words as described above, the main expression extraction unit 11 calculates a score (score value) according to the following calculation formula for each pattern candidate.

score=Σ2つの固有表現の類似度×f(第1の固有表現,第2の固有表現)
但し、上記式において、Σは、関連記事DB14において出現する、上記固有表現の種類に属する固有表現のあらゆる2つの組合せ毎に加算する処理である。また、2つの固有表現の類似度は、上述した単語同士の類似度の決定方法に従って決まる、上記固有表現同士の類似度である。第1の固有表現,第2の固有表現は、上記固有表現の種類に属する固有表現に含まれる固有表現のうちの2つの固有表現である。また、f(第1の固有表現,第2の固有表現)は、第1の固有表現と第2の固有表現とで共にパターンの候補が出現した(付随する)場合、又は共にパターンの候補が出現しなかった場合は1、どちらか一方のみに上記パターンの候補が出現した場合は−1である関数である。
score = Σ similarity between two specific expressions × f (first specific expression, second specific expression)
However, in the above formula, Σ is a process of adding every two combinations of specific expressions belonging to the specific expression type appearing in the related article DB 14. Further, the similarity between two unique expressions is the similarity between the above-described specific expressions, which is determined according to the above-described method for determining the similarity between words. The first specific expression and the second specific expression are two specific expressions among the specific expressions included in the specific expression belonging to the type of the specific expression. In addition, f (first specific expression, second specific expression) is the case where pattern candidates appear (accompany) in both the first specific expression and the second specific expression, or in which both the pattern candidates are The function is 1 when it does not appear, and is -1 when the pattern candidate appears only in one of them.

上記scoreを各々のパターンの候補毎に計算し、scoreの値を求める。求まったscoreの値が高いときのパターンの候補ほど、固有表現に付随した場合と付随しない場合とにおける固有表現の区分けの度合い(分解能力)が高くなるパターンの候補である。   The score is calculated for each pattern candidate, and the score value is obtained. A pattern candidate with a higher score value is a candidate pattern that has a higher degree of distinction (decomposition ability) of the unique expression when it is associated with the unique expression and when it is not associated with the specific expression.

主要表現抽出部11は、例えば、最も高いscoreの値のときのパターンの候補が付随する上記固有表現の種類と該パターンの候補が付随しない固有表現の種類とを主要表現とする。   The main expression extraction unit 11 uses, for example, the above-described specific expression type accompanied by a pattern candidate at the highest score value and the specific expression type not accompanied by the pattern candidate as the main expression.

本発明の一実施形態によれば、後述する情報対抽出部12が、上記最も高いscoreの値のときのパターンの候補が付随する固有表現を含む情報対を抽出するようにしてもよい。   According to an embodiment of the present invention, the information pair extraction unit 12 to be described later may extract an information pair including a unique expression accompanied by a pattern candidate at the highest score value.

また、本発明の一実施形態によれば、上記scoreの値の高い順にパターンの候補を所定の数選択し、該選択されたパターンの候補それぞれが付随する上記固有表現の種類と該パターンの候補それぞれが付随しない上記固有表現の種類とを主要表現とするようにしてもよい。   In addition, according to an embodiment of the present invention, a predetermined number of pattern candidates are selected in descending order of the score value, and the types of the unique expressions and the pattern candidates to which the selected pattern candidates are attached respectively. You may make it make it the main expression the kind of said specific expression which each does not accompany.

また、本発明の一実施形態によれば、主要表現抽出部11が、上記scoreの値の高い順にパターンの候補を所定の数選択し、該選択されたパターンの候補をリストとして表示し、該リストとして表示されたパターンの候補からユーザの指定入力に従って指定したパターンの候補が付随する固有表現の種類と該パターンの候補が付随しない固有表現の種類とを主要表現とするようにしてもよい。   Further, according to an embodiment of the present invention, the main expression extraction unit 11 selects a predetermined number of pattern candidates in descending order of the score value, displays the selected pattern candidates as a list, and The types of specific expressions accompanied by the pattern candidates designated according to the user's designated input from the pattern candidates displayed as a list and the types of unique expressions not accompanied by the pattern candidates may be used as the main expressions.

なお、本発明においては、上述した方法以外の、主要表現の決定方法を用いるようにしてもよい。   In the present invention, a method for determining a main expression other than the method described above may be used.

本発明の一実施形態によれば、上記scoreの値を利用する方法で、前述した数値表現に付随する最終的なパターンを決定するようにしてもよい。この場合は、例えば、上記scoreの値を利用する方法において、固有表現の種類を単位表現、固有表現を数値表現(数値、数値データ)として、数値表現同士の類似度を、数値の近さを示すものとして定義すればよい。例えば、数値表現同士の差を、数値表現同士の差の最大値で割った値を求め、1から該求まった値を引いたものを、数値表現同士の類似度とする。このようにして定義される数値表現同士の類似度と、各々の数値表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値(score=Σ2つの数値表現の類似度×f(第1の数値表現,第2の数値表現)に基づいて、例えば、最も高いscoreの値のときのパターンの候補が付随する単位表現と該パターンの候補が付随しない単位表現とを主要表現とする。   According to an embodiment of the present invention, a final pattern associated with the numerical expression described above may be determined by a method using the score value. In this case, for example, in the method using the score value described above, the type of specific expression is unit expression, the specific expression is a numerical expression (numerical value, numerical data), and the similarity between the numerical expressions is expressed as the closeness of the numerical value. It can be defined as shown. For example, a value obtained by dividing the difference between the numerical expressions by the maximum value of the difference between the numerical expressions is obtained, and a value obtained by subtracting the obtained value from 1 is set as the similarity between the numerical expressions. A score value (score = Σsimilarity between two numerical expressions) determined based on the similarity between the numerical expressions defined in this way and information indicating whether or not the extracted word is attached to each numerical expression. Based on degree × f (first numerical expression, second numerical expression), for example, a unit expression accompanied by a pattern candidate at the highest score value and a unit expression not accompanied by the pattern candidate. The main expression.

但し、上記スコア値を示す式において、Σは、関連記事DB14において出現する、数値表現のあらゆる2つの組合せ毎に加算する処理である。f(第1の数値表現,第2の数値表現)は、第1の数値表現と第2の数値表現とで共にパターンの候補が出現した(付随する)場合、又は共にパターンの候補が出現しなかった場合は1、どちらか一方のみに上記パターンの候補が出現した場合は−1である関数である。   However, in the formula indicating the score value, Σ is a process of adding every two combinations of numerical expressions that appear in the related article DB 14. f (first numerical expression, second numerical expression) is a case where a pattern candidate appears (attached) in both the first numerical expression and the second numerical expression, or a pattern candidate appears. The function is 1 when there is no pattern, and is -1 when a candidate for the pattern appears only in one of them.

なお、本発明の一実施形態によれば、上記数値表現同士の類似度を、値が大きい方の数値表現を値が小さい方の数値表現で除算した値と定義するようにしてもよい。   According to one embodiment of the present invention, the similarity between the numerical expressions may be defined as a value obtained by dividing the numerical expression having a larger value by the numerical expression having a smaller value.

また、本発明の一実施形態によれば、上記主要表現抽出部11が、更に、以下に示すクラスタリングの方法を用いて、上記関連記事DB14から、該関連記事DB14の記事群中の単語が属するクラスターを抽出して、該抽出された各クラスターを、主要表現としての固有表現の種類とするようにしてもよい。   In addition, according to an embodiment of the present invention, the main expression extraction unit 11 further includes a word in an article group of the related article DB 14 from the related article DB 14 by using the following clustering method. Clusters may be extracted, and each extracted cluster may be a kind of unique expression as a main expression.

以下に、クラスタリングの方法の例について説明する。
(階層クラスタリングによる方法)
クラスターの成員のうち、距離が最も近い成員同士を結合していき、クラスターを作る。そして、距離が最も近いクラスター同士を結合する。クラスター間の距離の定義は様々ある。例えば、クラスターAとクラスターBとの距離を、クラスターAの成員(すなわち、クラスターAに属する単語)とクラスターBの成員(すなわち、クラスターBに属する単語)との距離の中で最も小さいものとしてもよい。ここで、ある成員と他の成員との距離とは、ある成員の位置ベクトルと他の成員の位置ベクトルとの間の距離である。位置ベクトルとは、ベクトル空間上における成員の位置を示すベクトルである。また、例えば、クラスターAとクラスターBとの距離を、クラスターAの成員とクラスターBの成員との距離の中で最も大きいものとしてもよい。また、例えば、クラスターAとクラスターBとの距離を、全てのクラスターAの成員とクラスターBの成員との距離の平均としてもよい。また、全てのクラスターAの成員の位置の平均をクラスターAの位置とし、全てのクラスターBの成員の位置の平均をクラスターBの位置とし、当該クラスターAの位置とクラスターBの位置との距離をクラスターAとクラスターBとの距離としてもよい。
(ウォード法による方法)
以下に示すWを定義する。
W = ΣΣ(x(i,j)−ave_x(i))^2
^は指数を意味する。例えば、上記の式における1つ目のΣは、i=1からi=gまでの加算、2つ目のΣは、j=1からj=niまでの加算を意味する。また、x(i,j)は、i番目のクラスターのj番目の成員の位置、ave_x(i)は、i番目のクラスターの全ての成員の位置の平均を意味する。クラスター同士を結合していくと、Wの値が増加するが、ウォード法では、Wの値がなるべく大きくならないようにクラスター同士を結合していく。
Hereinafter, an example of a clustering method will be described.
(Method by hierarchical clustering)
Among the members of a cluster, members who are closest to each other are joined together to form a cluster. Then, the clusters having the shortest distance are combined. There are various definitions of the distance between clusters. For example, the distance between cluster A and cluster B may be the smallest of the distances between members of cluster A (ie, words belonging to cluster A) and members of cluster B (ie, words belonging to cluster B). Good. Here, the distance between a certain member and another member is the distance between the position vector of a certain member and the position vector of another member. The position vector is a vector indicating the position of the member in the vector space. For example, the distance between cluster A and cluster B may be the largest of the distances between members of cluster A and cluster B. Further, for example, the distance between the cluster A and the cluster B may be an average of the distances between all the members of the cluster A and the members of the cluster B. Also, the average of the positions of all the members of cluster A is the position of cluster A, the average of the positions of all the members of cluster B is the position of cluster B, and the distance between the position of cluster A and the position of cluster B is It may be the distance between cluster A and cluster B.
(Method by Ward method)
The following W is defined.
W = ΣΣ (x (i, j) −ave_x (i)) ^ 2
^ Means exponent. For example, the first Σ in the above equation means the addition from i = 1 to i = g, and the second Σ means the addition from j = 1 to j = ni. Further, x (i, j) means the position of the j-th member of the i-th cluster, and ave_x (i) means the average of the positions of all the members of the i-th cluster. When the clusters are joined together, the value of W increases, but in the Ward method, the clusters are joined together so that the value of W does not become as large as possible.

(クラスタリングの終了条件)
予めクラスターの個数を決めておいて、クラスターの個数が当該予め決められた数になったときに、クラスター同士を結合するのをやめるようにしてもよい。また、予め距離の閾値を決めておいて、その閾値以上離れているクラスター同士を結合するのをやめるようにしてもよい。
(Ending condition for clustering)
The number of clusters may be determined in advance, and when the number of clusters reaches the predetermined number, it is possible to stop joining the clusters. Alternatively, a threshold value for the distance may be determined in advance, and the clusters that are separated by the threshold value or more may be stopped.

(各成員の位置)
各成員(単語)の位置は、各成員に関する種々の情報(例えば、各成員の属性情報)を用いて求める。各成員の属性情報としては、例えば、各成員(単語)に含まれる文字の種類(例えば、ひらがな、カタカナ、漢字、それ以外が、それぞれあるかないか) 、単語の長さ、単語の語義等を用いる。
(Position of each member)
The position of each member (word) is obtained by using various information related to each member (for example, attribute information of each member). The attribute information of each member includes, for example, the type of characters (for example, whether there are hiragana, katakana, kanji, and others), the length of the word, the meaning of the word, etc. Use.

本発明の一実施形態によれば、例えば、主要表現抽出部11が、関連記事DB14内の記事群に含まれる記事、又は、該記事のタイトルや記事の先頭文から、公知のキーワード抽出技術を用いて単語を抽出する。そして、各単語(成員)の位置をベクトル(位置ベクトル)で表現する。成員の位置を示す位置ベクトルの要素の値は、例えば、各単語の出現頻度や、当該単語のOkapiの式(例えば上述した式(1)で示される値)、当該単語のtfidf(前述した式(1)の値にlogN/DFを乗じた値)等としてもよい。なお、例えば、位置ベクトルの次元を単位表現や時間表現の個数分増やして、当該記事において単位表現、時間表現に隣接して記事中に出現している数値を成員の位置ベクトルの要素の値としてもよい。   According to one embodiment of the present invention, for example, the main expression extraction unit 11 uses a known keyword extraction technique from an article included in an article group in the related article DB 14 or the title of the article and the head sentence of the article. To extract words. Then, the position of each word (member) is expressed by a vector (position vector). The value of the element of the position vector indicating the position of the member includes, for example, the appearance frequency of each word, the Okapi expression of the word (for example, the value indicated by the above-described expression (1)), the tfidf of the word (the expression described above) (The value obtained by multiplying the value of (1) by logN / DF). For example, the position vector dimension is increased by the number of unit expressions and time expressions, and the numerical value appearing in the article adjacent to the unit expression and time expression in the article is used as the element value of the member position vector. Also good.

主要表現抽出部11が、複数の記事中の単語(成員)の位置を位置ベクトルで表現し、記事間の距離を、それぞれの記事の成員同士の距離の中で最も小さいものとして、距離が最も近い記事同士を結合して、クラスターを作ってもよい。   The main expression extraction unit 11 expresses the position of a word (member) in a plurality of articles as a position vector, and sets the distance between articles as the smallest of the distances between members of each article, and the distance is the longest. You may create a cluster by combining nearby articles.

次にトップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
(最大距離アルゴリズムによるクラスタリング)
ある成員と、当該成員と距離が最も離れた成員を求め、これらの成員をそれぞれのクラスターの中心とする。次に、それぞれのクラスターの中心と各成員との距離の最小値を各成員の距離とし、その距離が最も大きい成員を新たなクラスターの中心とする。当該クラスターの中心を求める処理を繰り返す。例えば、予め定めた数のクラスターになったときに、当該クラスターの中心を求める処理の繰り返しをやめる。また、例えば、クラスター間の距離が予め定めた数以下になったときに、当該クラスターの中心を求める処理の繰り返しをやめる。
Next, a method of top-down clustering (non-hierarchical clustering) will be described.
(Clustering with maximum distance algorithm)
Find a member and the member farthest away from the member, and make these members the center of each cluster. Next, the minimum value of the distance between the center of each cluster and each member is set as the distance of each member, and the member having the largest distance is set as the center of the new cluster. The process for obtaining the center of the cluster is repeated. For example, when the number of clusters reaches a predetermined number, the process for obtaining the center of the cluster is not repeated. Further, for example, when the distance between the clusters is equal to or less than a predetermined number, the process of obtaining the center of the cluster is stopped.

また、クラスターの良さを例えばAIC情報量基準などで評価して、評価によって求まった値と予め定めた閾値との比較結果に基づいて、当該クラスターの中心を求める処理の繰り返しをやめるようにしてもよい。上記の最大距離アルゴリズムによるクラスタリングによれば、各成員は、各成員と最も近いクラスター中心を持つクラスターの成員となる。
(k平均法)
例えば、以下に示すk平均法によって、予め定めた個数(k個)にクラスタリングする。まず、k個の成員をランダムに選択し、選択されたk個の成員をクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。
In addition, the goodness of the cluster is evaluated based on, for example, an AIC information amount standard, and the repetition of the process of obtaining the center of the cluster is stopped based on the comparison result between the value obtained by the evaluation and a predetermined threshold value. Good. According to the clustering by the above maximum distance algorithm, each member becomes a member of a cluster having a cluster center closest to each member.
(K-average method)
For example, clustering is performed to a predetermined number (k) by the following k-average method. First, k members are selected at random, and the selected k members are set as the center of the cluster. Each member is a member of a cluster having a cluster center closest to each member.

次に、クラスター内の各成員の平均の位置に最も近い成員を、それぞれのクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。また、クラスター内の各成員の平均の位置に最も近い成員をそれぞれのクラスターの中心とする。上記のクラスターの中心を求める処理を繰り返し、クラスターの中心が移動しなくなったときに、クラスターの中心を求める処理の繰り返しをやめる。本発明の一実施形態によれば、予め定めた回数だけクラスターの中心を求める処理を繰り返してやめるようにしてもよい。そして、最終的なクラスター中心を持つクラスターを決定する。そして、各成員を、当該各成員が最も近いクラスター中心を持つクラスターの成員とする。上記の手法によって、成員のクラスタリングをする。本発明において用いるクラスタリングの方法は、上述した方法に限定されるものではない。   Next, the member closest to the average position of each member in the cluster is set as the center of each cluster. Each member is a member of a cluster having a cluster center closest to each member. The member closest to the average position of each member in the cluster is set as the center of each cluster. The process for obtaining the center of the cluster is repeated, and when the center of the cluster stops moving, the process for obtaining the center of the cluster is stopped. According to an embodiment of the present invention, the process for obtaining the center of the cluster may be repeated for a predetermined number of times. Then, the cluster having the final cluster center is determined. Each member is a member of a cluster having the closest cluster center. Cluster members by the above method. The clustering method used in the present invention is not limited to the method described above.

本発明に係る情報抽出装置1は、上述したクラスタリングの方法以外の様々な方法を用いて、クラスタリングをするようにしてもよい。例えば、予め情報抽出装置1内の記憶手段(図示を省略)内に、単語と単語が属するクラスター(例えば、当該単語を含む記事の文)との対応情報を予め記憶させておき、主要表現抽出部11が、関連記事DB14中の記事群から特定の単語を選択し、当該記憶手段内の、当該選択された単語と当該選択された単語が属するクラスター(例えば、当該単語を含む記事の文)との対応情報に基づいて、上記選択された単語が属するクラスターを決定し、該決定されたクラスターを、主要表現としての固有表現の種類としてもよい。   The information extraction apparatus 1 according to the present invention may perform clustering using various methods other than the above-described clustering method. For example, correspondence information between a word and a cluster to which the word belongs (for example, a sentence of an article including the word) is stored in advance in a storage unit (not shown) in the information extraction apparatus 1, and main expression extraction is performed. The unit 11 selects a specific word from the group of articles in the related article DB 14, and the selected word and a cluster to which the selected word belongs in the storage unit (for example, a sentence of an article including the word). Based on the correspondence information, the cluster to which the selected word belongs is determined, and the determined cluster may be the type of the unique expression as the main expression.

また、本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従って、項目表現を入力し、入力された項目表現と共起して出現する単位表現を関連記事DB14中の記事群または予め記憶手段に記憶された書誌データから抽出し、上記項目表現と抽出した単位表現を主要表現とするようにしてもよい。そして、情報対抽出部12が、上記主要表現に基づいて、当該記事群を構成する記事から上記単位表現に関連する数値表現と当該項目表現との対を情報対として抽出し、表示部13が、上記主要表現に基づいて抽出された情報対をグラフ表示する際に、項目表現を、当該項目表現と偏って共起して出現する単位表現と対応付けてグラフ表示するようにしてもよい。   Further, according to an embodiment of the present invention, the main expression extraction unit 11 inputs an item expression in accordance with a user's designation input, and displays a unit expression that co-occurs with the input item expression in the related article DB 14. May be extracted from the article group or bibliographic data previously stored in the storage means, and the item expression and the extracted unit expression may be used as the main expression. Then, the information pair extraction unit 12 extracts a pair of the numerical expression related to the unit expression and the item expression as an information pair from the articles constituting the article group based on the main expression, and the display unit 13 When the information pair extracted based on the main expression is displayed in a graph, the item expression may be displayed in a graph in association with a unit expression that appears in co-occurrence with the item expression.

また、本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従って、項目表現を入力し、入力された項目表現と共起して出現する単位表現を関連記事DB14中の記事群または予め記憶手段に記憶された書誌データから抽出し、上記項目表現と抽出した単位表現を主要表現とするようにしてもよい。そして、情報対抽出部12が、上記主要表現に基づいて、当該記事群を構成する記事から上記単位表現に関連する数値表現と当該項目表現との対を情報対として抽出するようにしてもよい。   Further, according to an embodiment of the present invention, the main expression extraction unit 11 inputs an item expression in accordance with a user's designation input, and displays a unit expression that co-occurs with the input item expression in the related article DB 14. May be extracted from the article group or bibliographic data previously stored in the storage means, and the item expression and the extracted unit expression may be used as the main expression. Then, the information pair extraction unit 12 may extract a pair of the numerical expression related to the unit expression and the item expression as an information pair from the articles constituting the article group based on the main expression. .

また、本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従って、項目表現を入力し、入力された項目表現と共起して出現する固有表現を関連記事DB14中の記事群または予め記憶手段に記憶された書誌データから抽出し、上記項目表現と抽出した固有表現が属する固有表現の種類とを主要表現とするようにしてもよい。そして、情報対抽出部12が、上記主要表現に基づいて、当該記事群を構成する記事から固有表現と項目表現との対を情報対として抽出するようにしてもよい。   According to one embodiment of the present invention, the main expression extraction unit 11 inputs an item expression in accordance with a user's designation input, and the unique expression that appears along with the input item expression is included in the related article DB 14. The above-mentioned item expression and the kind of specific expression to which the extracted specific expression belongs may be used as the main expression. Then, the information pair extraction unit 12 may extract a pair of the unique expression and the item expression as an information pair from the articles constituting the article group based on the main expression.

ここで、一般に、表現Bと偏って共起して出現する単語Aの抽出方法(共起語抽出方法)について説明する。当該共起語抽出方法を用いれば、例えば、項目表現「観客動員数」から単位表現「人」を求めることができる。また、逆に、単位表現「人」から項目表現「観客動員数」などを求めることができる。また、当該共起語抽出方法を用いれば、例えば、項目表現「選手」から固有表現「北島康介」を求めることができる。また、逆に、固有表現「北島康介」から項目表現「選手」などを求めることができる。   Here, a method of extracting a word A that appears co-occurring with the expression B in general (co-occurrence word extraction method) will be described. If the co-occurrence word extraction method is used, for example, the unit expression “person” can be obtained from the item expression “number of spectators mobilized”. Conversely, the item expression “number of spectators” can be obtained from the unit expression “people”. Further, if the co-occurrence word extraction method is used, for example, the unique expression “Kousuke Kitajima” can be obtained from the item expression “player”. Conversely, the item expression “player” or the like can be obtained from the unique expression “Kosuke Kitajima”.

例えば、項目表現「観客動員数」から単位表現「人」を求める場合は、単位表現の候補を取り出し,それぞれをAとして以下の計算をする。単位表現「人」から項目表現「観客動員数」などを求める場合は、項目表現の候補を取り出し、それぞれをAとして以下の計算をする。また、例えば、項目表現「選手」から固有表現「北島康介」を求める場合は、固有表現の候補を取り出し,それぞれをAとして以下の計算をする。固有表現「北島康介」から項目表現「選手」などを求める場合は、項目表現の候補を取り出し、それぞれをAとして以下の計算をする。   For example, when the unit expression “person” is obtained from the item expression “number of spectators”, candidates for the unit expression are extracted and the following calculation is performed by setting each as A. When the item expression “number of spectators” is obtained from the unit expression “people”, the item expression candidates are extracted, and the following calculation is performed with each of them as A. Also, for example, when the specific expression “Kousuke Kitajima” is obtained from the item expression “player”, the specific expression candidates are extracted, and the following calculation is performed with each set as A. When the item expression “player” or the like is obtained from the unique expression “Kousuke Kojima”, candidate item expressions are taken out and A is used for each of the following expressions.

C中のAの出現率、B中のAの出現率を求める。ここで、
C中のAの出現率=C中のAの出現回数/C中の単語総数
B中のAの出現率=B中のAの出現回数/B中の単語総数
である。そして、B中のAの出現率/C中のAの出現率を求めて、この値が大きいものほど、単語Aを、表現Bに偏って共起して出現する単語とする。
The appearance rate of A in C and the appearance rate of A in B are obtained. here,
Appearance rate of A in C = Number of appearances of A in C / Total number of words in C. Appearance rate of A in B = Number of appearances of A in B / Total number of words in B. Then, the appearance rate of A in B / the appearance rate of A in C is obtained, and the larger this value, the word A becomes a word that appears co-occurring with a bias toward expression B.

B中のAの出現率とは、BとAが共起している場合のAの出現率という意味であり、C中のAの出現率とは、予め記憶手段に記憶された書誌データにおけるAの出現率または出現回数という意味である。   The appearance rate of A in B means the appearance rate of A when B and A co-occur, and the appearance rate of A in C is the bibliographic data stored in the storage means in advance. It means the appearance rate or the number of appearances of A.

本発明の他の実施形態によれば、B中のAの出現率とは、関連記事DB14中の記事群における、BとAが共起している場合のAの出現率という意味であり、C中のAの出現率とは、関連記事DB14中の記事群におけるAの出現率または出現回数という意味としてもよい。   According to another embodiment of the present invention, the appearance rate of A in B means the appearance rate of A when B and A co-occur in the article group in the related article DB 14, The appearance rate of A in C may mean the appearance rate or the number of appearances of A in the article group in the related article DB 14.

なお、本発明の一実施形態によれば、例えば、複数の選手名から項目表現「選手」を求めるようにしてもよい。例えば、各選手名毎に、よく偏って多く出現する表現Fを偏り度合いとともに求め、全ての選手について表現F毎に偏り度合いを加算したものや、乗じたもの(ゼロのものの場合はゼロを乗じずに例えば0.000001等の微小値を乗じる)をスコアとして、該スコアの最も大きい表現Fを項目表現とするようにしてもよい。偏り度合いは、例えば、よく共起するものを算出する時に使った値等を用いる。   According to an embodiment of the present invention, for example, the item expression “player” may be obtained from a plurality of player names. For example, for each player name, an expression F that often appears biased and frequently appears together with the degree of bias, and for all players, the sum of the degree of bias for each expression F, or a product (multiply zero for zero). For example, the expression F having the largest score may be used as the item expression. As the degree of bias, for example, a value used when calculating a co-occurrence is used.

表現Bと偏って共起して出現する単語Aの抽出方法として、以下のように、有意差検定を利用する方法を用いてもよい。
(二項検定の場合)
AのCでの出現数をN、AのBでの出現数をN1、N2=N−N1とする。AがCに現れたときに、それがB中に現れる確率を0.5と仮定して、Nの総出現のうち、N2回以下、AがCに出現してBに出現しなかった確率を求める。
As a method for extracting the word A that appears co-occurring with the expression B, a method using a significant difference test may be used as follows.
(In case of binomial test)
The number of occurrences of A at C is N, the number of occurrences of A at B is N1, and N2 = N−N1. Probability that when A appears in C, the probability that it appears in B is 0.5, and out of N total occurrences, N appears less than N2 times and A appears in C and does not appear in B Ask for.

この確率は、P1=ΣC(N1+N2,x)*0.5(x) *0.5(N1+N2-x)
である。ただし、上記式において、Σは、x=0〜x=N2の和であり、C(N1+N2,x)は、N1+N2個の異なったものからx個のものを取り出す場合の数を示す。
This probability is, P1 = ΣC (N1 + N2 , x) * 0.5 (x) * 0.5 (N1 + N2-x)
It is. However, in the above equation, Σ is the sum of x = 0 to x = N2, and C (N1 + N2, x) represents the number when x pieces are extracted from N1 + N2 different pieces.

上記の式で示される確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち、N1がN2に比べて有意に大きいことと判断できる。5%検定なら、P1が5%よりも小さいこと、10%検定なら、P1が10%よりも小さいことが、有意に大きいかどうかの判断基準になる。   If the probability value expressed by the above equation is sufficiently small, it can be determined that N1 and N2 are not equivalent probabilities, that is, N1 is significantly larger than N2. If it is 5% test, P1 is smaller than 5%, and if it is 10% test, P1 is smaller than 10%.

例えば、N1がN2に比べて有意に大きいと判断されたものを、表現Bに偏ってよく共起して出現する単語とする。また、P1が小さいものほど、表現Bに偏ってよく共起して出現する単語とする。
(カイ二乗検定の場合)
B中のAの出現回数をN1、B中の単語の総出現数をF1、CにあってBにない、Aの出現回数をN2、CにあってBにない、単語の総出現数をF2とする。R1=F1/N1、R2=F2/N2とする。
For example, words in which N1 is determined to be significantly larger than N2 are words that appear well co-occurring with the expression B. In addition, a word having a smaller P1 is more likely to be biased toward the expression B and appear co-occurring.
(Chi-square test)
The number of occurrences of A in B is N1, the total number of occurrences of words in B is in F1, C and not in B, the number of occurrences of A is in N2, and the total number of occurrences in C is not in B Let it be F2. It is assumed that R1 = F1 / N1 and R2 = F2 / N2.

ここで、N=N1+N2として、
カイ二乗値=(N*(F1*(N2−F2)−(N1−F1)*F2)2 )/((F1+F2)*(N−(F1+F2))*N1*N2)
を求める。
Here, N = N1 + N2
Chi-square value = (N * (F1 * (N2−F2) − (N1−F1) * F2) 2 ) / ((F1 + F2) * (N− (F1 + F2)) * N1 * N2)
Ask for.

そして、求めたカイ二乗値が大きいほど、R1とR2は有意差があると言え、カイ二乗値が3.84よりも大きいとき、危険率5%の有意差があると言え、カイ二乗値が6.63よりも大きいとき、危険率1%の有意差があると言える。   Then, it can be said that the larger the obtained chi-square value is, the more significant difference between R1 and R2 is. If the chi-square value is larger than 3.84, it can be said that there is a significant difference of 5% of the risk rate, and the chi-square value is When it is larger than 6.63, it can be said that there is a significant difference of 1% of the risk rate.

例えば、N1>N2でかつカイ二乗値が大きいものほど、表現Bに偏ってよく共起して出現する単語とする。
(比の検定(比率の差の検定))
p=(F1+F2)/(N1+N2)、p1=R1、p2=R2として、
Z=|p1−p2|/sqrt(p*(1−p)*(1/N1+1/N2))
を求める。sqrtは、ルートを意味する。
For example, a word having N1> N2 and a larger chi-square value is more likely to be biased toward the expression B and appear co-occurring.
(Ratio test (ratio difference test))
p = (F1 + F2) / (N1 + N2), p1 = R1, p2 = R2,
Z = | p1-p2 | / sqrt (p * (1-p) * (1 / N1 + 1 / N2))
Ask for. sqrt means the root.

そして、Zが大きいほど、R1とR2は有意差があると言え、Zが1.96よりも大きいとき、危険率5%の有意差があると言え、Zが2.58よりも大きいとき、危険率1%の有意差があると言える。   And as Z is larger, it can be said that R1 and R2 are significantly different. When Z is larger than 1.96, it can be said that there is a significant difference of 5% of the risk rate. When Z is larger than 2.58, It can be said that there is a significant difference in the risk rate of 1%.

例えば、N1>N2でかつZが大きいものほど、表現Bに偏ってよく共起して出現する単語とする。   For example, a word having N1> N2 and a larger Z is more likely to be biased toward the expression B and appear co-occurring.

上記の3つの検定の方法と、前述した、単純にB中のAの出現率/C中のAの出現率を求めて判定する方法を組み合わせてもよい。例えば、危険率5%以上有意差があるもののうち、B中のAの出現率/C中のAの出現率の値が大きいものほど表現Bに偏ってよく共起して出現する単語とする。
(情報対抽出部12)
情報対抽出部12は、関連記事DB14に格納された記事群において、主要表現抽出部11によって抽出された表現(例えば項目表現と固有表現の種類)が例えば同時に出現している箇所を特定し、例えば、その箇所に記載されている項目表現と固有表現との対を情報対とする。上記情報対に含まれる固有表現は、固有表現の種類に属する固有表現である。当該固有表現は、上述した固有表現抽出技術を用いて抽出される。
The above-described three test methods may be combined with the above-described method of simply determining and determining the appearance rate of A in B / the appearance rate of A in C. For example, among those having a significant difference of 5% or more in risk rate, the larger the value of the appearance rate of A in B / the appearance rate of A in C, the more likely to appear in co-occurrence with a bias toward expression B .
(Information pair extraction unit 12)
The information pair extraction unit 12 specifies, for example, a part where the expressions (for example, item expression and specific expression type) extracted by the main expression extraction unit 11 appear simultaneously in the article group stored in the related article DB 14, For example, a pair of an item expression and a specific expression described in the place is an information pair. The specific expression included in the information pair is a specific expression belonging to the type of specific expression. The specific expression is extracted using the specific expression extraction technique described above.

また、例えば、情報対抽出部12は、主要表現抽出部11によって抽出された表現(例えば項目表現と固有表現の種類と単位表現)が例えば同時に出現している箇所を特定し、例えば、その箇所に記載されている項目表現と固有表現と上記単位表現に関連する数値表現との対を情報対とする。上記単位表現に関連する数値表現とは、例えば、単位表現に隣接して記事中に出現している数値と単位表現とをあわせて得られる表現である。   In addition, for example, the information pair extraction unit 12 identifies a place where the expressions extracted by the main expression extraction unit 11 (for example, item expression and specific expression type and unit expression) appear simultaneously, for example, A pair of an item expression, a unique expression, and a numerical expression related to the unit expression described above is an information pair. The numerical expression related to the unit expression is, for example, an expression obtained by combining the numerical value appearing in the article adjacent to the unit expression and the unit expression.

本発明の実施の形態においては、例えば、句点、改行、文書の切れ目を示す特殊記号を切れ目とし、これらをはさまずに同時に主要表現が出現した箇所を、同時に出現した箇所とする。   In the embodiment of the present invention, for example, a special symbol indicating a punctuation mark, a line feed, or a document break is defined as a break, and a place where the main expression appears at the same time is defined as a place where it appears simultaneously.

本発明の一実施形態によれば、情報対抽出部12が、更に、主要表現抽出部11によって抽出された主要表現のうち、特定の主要表現を選択し、上記選択された特定の主要表現に基づいて、前記記事群から情報対を抽出するようにしてもよい。   According to an embodiment of the present invention, the information pair extraction unit 12 further selects a specific main expression from the main expressions extracted by the main expression extraction unit 11, and sets the selected specific main expression as the selected specific main expression. Based on this, information pairs may be extracted from the article group.

本発明の一実施例によれば、情報対抽出部12が、ユーザによって予め指定された固有表現の種類(例えば、LOCATION)に基づいて、(上述した固有表現抽出技術を用いて)関連記事DB14から該固有表現の種類に属する固有表現を抽出し、関連記事DB14において主要表現抽出部11によって抽出された項目表現と該抽出された固有表現とが同時に出現している箇所に記載されている項目表現と固有表現との対を情報対として抽出するようにしてもよい。   According to one embodiment of the present invention, the information pair extraction unit 12 uses the related article DB 14 (using the above-described specific expression extraction technique) based on the specific expression type (for example, LOCATION) specified in advance by the user. The unique expression belonging to the type of the specific expression is extracted from the item, and the item described in the location where the item expression extracted by the main expression extracting unit 11 and the extracted specific expression appear at the same time in the related article DB 14 A pair of an expression and a specific expression may be extracted as an information pair.

本発明の一実施形態によれば、情報対抽出部12が、更に、機械学習の手法を用いて、上記情報対を抽出するようにしてもよい。   According to an embodiment of the present invention, the information pair extraction unit 12 may further extract the information pair using a machine learning technique.

また、本発明の一実施形態によれば、情報対抽出部12が、主要表現抽出部11において抽出された複数の主要表現に基づいて情報対抽出部12が抽出した複数種類の情報対から、各主要表現についての所定の評価値に基づいて、主要な情報対を選択(例えば、評価値が最も大きい情報対を選択)するようにしてもよい。   Moreover, according to one Embodiment of this invention, the information pair extraction part 12 is based on the several types of information pair which the information pair extraction part 12 extracted based on the some main expression extracted in the main expression extraction part 11. Based on a predetermined evaluation value for each main expression, a main information pair may be selected (for example, an information pair having the largest evaluation value is selected).

図2は、本発明の実施の形態において、機械学習の手法を用いて情報対を抽出する構成を採る場合の、情報対抽出部12の構成例を示す図である。情報対抽出部12は、教師データ記憶手段121、解−素性対抽出手段122、機械学習手段123、学習結果記憶手段124、表現対抽出手段125、素性抽出手段126、解推定手段127、情報対抽出手段128を備える。   FIG. 2 is a diagram illustrating a configuration example of the information pair extraction unit 12 when a configuration for extracting information pairs using a machine learning technique is employed in the embodiment of the present invention. The information pair extraction unit 12 includes a teacher data storage unit 121, a solution-feature pair extraction unit 122, a machine learning unit 123, a learning result storage unit 124, an expression pair extraction unit 125, a feature extraction unit 126, a solution estimation unit 127, an information pair Extraction means 128 is provided.

教師データ記憶手段121は、機械学習処理において使用される教師データとなるテキストデータを記憶する。例えば、項目表現をai(i=1,2,3,...)、固有表現の種類に属する固有表現をbi(i=1,2,3,...)、単位表現に関連する数値表現をci(i=1,2,3,...)とすると、教師データとして、テキストデータの文中に出現しているai、bi、ciの対(表現対)を問題、情報対として抽出するべき表現対であるか否かの情報を解とする事例を記憶する。具体的には、テキストデータ中に現れるあらゆるai、bi、ciの対について、情報対として抽出すべき表現対(正例)であるか、抽出するべきでない表現対(負例)かのいずれかの解を示すタグを人手によって付与する。   The teacher data storage unit 121 stores text data serving as teacher data used in the machine learning process. For example, the item expression is ai (i = 1, 2, 3,...), The specific expression belonging to the type of specific expression is bi (i = 1, 2, 3,...), And the numerical value related to the unit expression. Assuming that the expression is ci (i = 1, 2, 3,...), A pair of ai, bi, and ci (expression pair) appearing in the text data sentence is extracted as a problem and information pair as teacher data. A case where the information on whether or not the expression pair is to be made is a solution is stored. Specifically, for every ai, bi, ci pair appearing in text data, either an expression pair to be extracted as an information pair (positive example) or an expression pair that should not be extracted (negative example) A tag indicating the solution is manually attached.

すなわち、本発明の実施の形態においては、例えば、
(a1,b1,c1)−解 「正例」
(a1,b2,c1)−解 「負例」



(a2,b2,c2)−解 「負例」
といった、表現対と解との組を生成する。
That is, in the embodiment of the present invention, for example,
(A1, b1, c1)-solution "positive example"
(A1, b2, c1)-solution "negative example"



(A2, b2, c2)-solution "negative example"
A pair of expression pair and solution is generated.

解−素性対抽出手段122は、教師データ記憶手段121内に記憶されているテキストデータの事例から、解と素性の集合との組を抽出する。素性は、機械学習処理で使用する情報である。解−素性対抽出手段122は、素性として、例えば、あるテキストデータ中の、解が付与された各表現対についての、aiとbi、biとci、aiとciの間の距離(文字または単語数等)や、テキストデータ中におけるaiとbiとciの表現対を含む範囲や、ai、bi、ciそれぞれの前後の文字列、単語、品詞情報等を用いる。また、解−素性対抽出手段122は、例えば、ai,bi,ciがテキストデータのタイトルに含まれるか等の情報や、aiとbi、biとci、aiとciの間に出現する品詞の情報等を素性としてもよい。また、本発明の実施の形態においては、記事中におけるai、bi、ciそれぞれの位置情報を素性としてもよい。例えば、新聞等の記事においては、最初に出現する主要表現が重要となることが多いからである。   The solution-feature pair extraction unit 122 extracts a set of a solution and a set of features from an example of text data stored in the teacher data storage unit 121. The feature is information used in the machine learning process. The solution-feature pair extraction unit 122 uses, as a feature, for example, the distance (character or word) between ai and bi, bi and ci, and ai and ci for each expression pair to which a solution is given in certain text data. A range including the expression pairs of ai, bi, and ci in text data, character strings before and after each of ai, bi, and ci, words, parts of speech information, and the like. In addition, the answer-feature pair extraction unit 122 may include information such as whether ai, bi, and ci are included in the title of text data, and parts of speech that appear between ai and bi, bi and ci, and ai and ci. Information or the like may be used as a feature. In the embodiment of the present invention, the position information of ai, bi, and ci in an article may be a feature. For example, in articles such as newspapers, the first main expression that appears first is often important.

機械学習手段123は、解−素性対抽出手段122によって抽出された解と素性の集合との組から、どのような素性のときにどのような解になりやすいかを、教師あり機械学習法により学習する。その学習結果は、学習結果記憶手段124内に記憶される。   The machine learning means 123 uses a supervised machine learning method to determine what kind of solution is likely to be generated from a set of the solution extracted by the solution-feature pair extraction means 122 and the feature set. learn. The learning result is stored in the learning result storage unit 124.

表現対抽出手段125は、主要表現抽出部11によって抽出された主要表現(例えば、項目表現、固有表現の種類、単位表現)を用いて、関連記事DB14中の各記事に含まれるai(項目表現)、bi(固有表現の種類に属する固有表現)、ci(単位表現に関連する数値表現)という3種類の表現のあらゆる組み合わせ(表現対)を抽出する。なお、単位表現と連接して記事中に出現する数値と当該単位表現との組み合わせを数値表現とする。   The expression pair extraction unit 125 uses a main expression (for example, item expression, type of specific expression, unit expression) extracted by the main expression extraction unit 11 to use ai (item expression) included in each article in the related article DB 14. ), Bi (specific expression belonging to the type of specific expression), and ci (numerical expression related to unit expression), all combinations (expression pairs) of three types of expressions are extracted. A combination of a numerical value appearing in an article connected to the unit expression and the unit expression is a numerical expression.

素性抽出手段126は、解−素性対抽出手段122と同様の処理によって、表現対抽出手段125によって抽出された各表現対について、素性を抽出する。   The feature extraction unit 126 extracts a feature for each expression pair extracted by the expression pair extraction unit 125 by the same processing as the solution-feature pair extraction unit 122.

解推定手段127は、学習結果記憶手段124の学習結果を参照して、各表現対について、その素性の集合の場合に、どのような解(分類先)になりやすいかの度合いを推定する。   The solution estimation unit 127 refers to the learning result of the learning result storage unit 124, and estimates the degree of the solution (classification destination) that is likely to be obtained in the case of a set of features for each expression pair.

情報対抽出手段128は、解推定手段127の推定結果に基づいて、情報対として抽出すべき表現対(正例)となる度合いが高いと推定されたものを、情報対として抽出する。   Based on the estimation result of the solution estimation unit 127, the information pair extraction unit 128 extracts an information pair that is estimated to have a high degree of expression pair (positive example) to be extracted as an information pair.

ここで、機械学習手段123による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の参考文献(5)〜参考文献(7)参照)。   Here, a machine learning method by the machine learning means 123 will be described. The machine learning method prepares many sets of problem-solution pairs, learns them, learns what kind of solution the problem becomes, and uses the learning result to create a new problem. This is a method that makes it possible to guess the solution (for example, see the following references (5) to (7)).

参考文献(5):村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献(6):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(7):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
Reference (5): Masaki Murata, Language Processing Based on Machine Learning, Faculty of Science and Engineering, Ryukoku University. Invited lecture. 2004.http: //www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
Reference (6): Japanese-English translation of tense aspect modality using support vector machine, Maki Murata, Mao, Kiyotaka Uchimoto, Hitoshi Isahara, IEICE Language Understanding and Communication Study Group NLC2000-78, 2001 Year.
Reference (7): CRL's efforts in the SENSEVAL2J dictionary task, Masaki Murata, Masao Uchiyama, Kiyotaka Uchimoto, Ma Aoi, Hitoshi Isahara, IEICE Language Understanding and Communication Study Group NLC2001-40, 2001.
In order to convey the problem situation to the machine, what kind of problem is required, features (elements constituting the problem with information used for analysis) are required. The problem is expressed by the feature. For example, in the problem of estimating the tense of Japanese sentence ending expressions, the problem: “He speaks.” --- If the solution “present” is given, an example of a feature is “He speaks.” . "" Speaking. "" Su "". "

すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。   In other words, the machine learning method prepares many sets of feature set-solution pairs, performs learning, learns what kind of solution the feature set becomes, and uses the learning result. This is a method of extracting a set of features from a new problem and inferring a solution in the case of the feature.

機械学習手段123は、機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。   The machine learning unit 123 uses a technique such as a k-nearest neighbor method, a simple Bayes method, a decision list method, a maximum entropy method, or a support vector machine method as a machine learning method.

k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。   The k-nearest neighbor method is a method for obtaining a classification destination (solution) by using the k most similar cases instead of the most similar case, and by majority decision of the k cases. k is a predetermined integer number, and generally an odd number between 1 and 9 is used.

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。   The Simple Bayes method is a method of estimating the probability of each classification based on Bayes' theorem and determining the classification having the highest probability value as a classification destination.

シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の式(4)で与えられる。   In the simple Bayes method, the probability of outputting the classification a in the context b is given by the following equation (4).

Figure 0005182845
Figure 0005182845

ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi |a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fi を持つ確率を意味する。P(fi |a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式(5)の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の式(6)を用いてスームージングを行ったものを用いる。 Here, the context b is a set of features f j (εF, 1 ≦ j ≦ k) set in advance. p (b) is the appearance probability of the context b. Here, since it is independent of the classification a and is a constant, it is not calculated. P (a) (where P is a tilde at the top of p) and P (f i | a) are the probabilities estimated from the teacher data, respectively, and the appearance probability of class a, and the feature f for class a means the probability of having i . When a value obtained by performing maximum likelihood estimation as P (f i | a) is used, the value often becomes zero, and it may be difficult to determine the classification destination because the value of Equation (5) is zero. Therefore, smoothing is performed. Here, what smoothed using the following formula | equation (6) is used.

Figure 0005182845
Figure 0005182845

ただし、freq(fi ,a)は、素性fi を持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。 Here, freq (f i , a) means the number of cases having the feature f i and the classification a, and freq (a) means the number of cases having the classification a.

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。   The decision list method uses features and combinations of classification destinations as rules, stores them in the list in a predetermined priority order, and when input to be detected is given, from the highest priority in the list This is a method in which input data is compared with the feature of the rule, and the classification destination of the rule having the same feature is set as the classification destination of the input.

決定リスト方法では、あらかじめ設定しておいた素性fj ( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。 In the decision list method, the probability value of each classification is obtained using only one of the features f j (εF, 1 ≦ j ≦ k) set in advance as a context. The probability of outputting classification a in a context b is given by

p(a|b)=p(a|fmax ) 式(7)
ただし、fmax は以下の式によって与えられる。
p (a | b) = p (a | fmax) Equation (7)
However, fmax is given by the following equation.

Figure 0005182845
Figure 0005182845

また、P(ai |fj )(ここでPはpの上部にチルダ)は、素性fj を文脈に持つ場合の分類ai の出現の割合である。 P (a i | f j ) (where P is a tilde at the top of p) is the rate of appearance of the classification a i when the feature f j is in the context.

最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(式(9))を満足しながらエントロピーを意味する式(10)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。 In the maximum entropy method, when a set of preset features f j (1 ≦ j ≦ k) is F, an expression (entropy) that satisfies a predetermined conditional expression (equation (9)) below ( In this method, the probability distribution p (a, b) when 10) is maximized is obtained, and the classification having the largest probability value is obtained from the probabilities of the respective classifications obtained according to the probability distribution.

Figure 0005182845
Figure 0005182845

ただし、A、Bは分類と文脈の集合を意味し、gj (a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai |fj )(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。 However, A and B mean a set of classifications and contexts, and g j (a, b) is a function that is 1 if the context b has a feature f j and the classification is a, and is 0 otherwise. means. Further, P (a i | f j ) (where P is a tilde at the top of p) means the rate of appearance of (a, b) in the known data.

式(9)は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の参考文献(8)および参考文献(9)に記載されている。   Formula (9) is to obtain the expected value of the frequency of the output and feature pair by multiplying the probability p and the function g meaning the appearance of the pair of output and feature. And the expected value calculated based on the probability distribution calculated on the left side is the constraint, entropy maximization (smoothing of the probability distribution) is performed to determine the probability distribution of the output and the context. Details of the maximum entropy method are described in the following references (8) and (9).

参考文献(8):Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997
参考文献(9):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998) )
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
Reference (8): Eric Sven Ristad, Maximum Entropy Modeling for Natural Language, (ACL / EACL Tutorial Program, Madrid, 1997
(9): Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998))
The support vector machine method is a method of classifying data composed of two classifications by dividing a space by a hyperplane.

図3にサポートベクトルマシン法のマージン最大化の概念を示す。図3において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図3(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図3(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。   FIG. 3 shows the concept of margin maximization in the support vector machine method. In FIG. 3, a white circle means a positive example, a black circle means a negative example, a solid line means a hyperplane that divides the space, and a broken line means a surface that represents the boundary of the margin area. 3A is a conceptual diagram when the interval between the positive example and the negative example is small (small margin), and FIG. 3B is a conceptual diagram when the interval between the positive example and the negative example is wide (large margin). is there.

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図3(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。   At this time, if the two classifications consist of positive and negative examples, the larger the interval (margin) between the positive and negative examples in the learning data, the less likely it is to make an incorrect classification with open data. As shown in FIG. 3B, a hyperplane that maximizes this margin is obtained, and classification is performed using it.

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。   Basically, it is as described above. Usually, an extension of the method that the training data may contain a small number of cases in the inner area of the margin, or an extension that makes the linear part of the hyperplane nonlinear ( The one with the introduction of the kernel function is used.

この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。   This extended method is equivalent to classification using the following discriminant function, and the two classes can be discriminated depending on whether the output value of the discriminant function is positive or negative.

Figure 0005182845
Figure 0005182845

ただし、xは識別したい事例の文脈(素性の集合) を、xi とyj (i=1,…,l,yj ∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise )
であり、また、各αi は式(13)と式(14)の制約のもと式(12)を最大にする場合のものである。
Where x is the context (set of features) to be identified, and x i and y j (i = 1,..., L, y j ∈ {1, -1}) mean the context and classification destination of the learning data. And the function sgn is
sgn (x) = 1 (x ≧ 0)
-1 (otherwise)
Each α i is for maximizing the expression (12) under the constraints of the expressions (13) and (14).

Figure 0005182845
Figure 0005182845

また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。   The function K is called a kernel function, and various functions are used. In this embodiment, the following polynomial is used.

K(x,y)=(x・y+1)d 式(15)
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi >0となるxi は、サポートベクトルと呼ばれ、通常、式(11)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
K (x, y) = (x · y + 1) d Equation (15)
C and d are constants set experimentally. For example, C was fixed at 1 throughout all treatments. Moreover, two types of 1 and 2 are tried for d. Here, x i where α i > 0 is called a support vector, and the portion taking the sum of Expression (11) is usually calculated using only this case. That is, only actual cases called support vectors are used for actual analysis.

なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献(10)および参考文献(11)に記載されている。   The details of the extended support vector machine method are described in the following references (10) and (11).

参考文献(10):Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献(11):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
Reference (10): Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods, (Cambridge University Press, 2000)
Reference (11): Taku Kudoh, Tinysvm: Support Vector machines, (http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM / index.html, 2000)
The support vector machine method handles data with two classifications. Therefore, when handling cases with three or more classifications, a pair-wise method or a one-VS rest method is usually used in combination with this.

ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。   In the pairwise method, in the case of data having n classifications, every pair (n (n-1) / 2) of two different classification destinations is generated, and a binary classifier indicates which is better for each pair. That is, it is obtained by the support vector machine method processing module and finally obtains the classification destination by majority decision of the classification destination by n (n−1) / 2 binary classification.

ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、a と推定する。   For example, when there are three classification destinations a, b, and c, the one VS rest method generates three sets of classification destination a and other, classification destination b and other, classification destination c and other, The learning process is performed on the set of the support vector machine method. Then, in the estimation process based on the learning result, the learning results of the three sets of support vector machines are used. See how the three support vector machines are estimated as candidates to be estimated. Of the three support vector machines, it is the non-other classification target and the separation plane of the support vector machine. This is a method for obtaining a classification destination of a thing farthest from the object. For example, when a candidate is farthest from the separation plane in the support vector machine created by the learning process of “classification destination a and other”, the candidate classification destination is estimated as a.

解推定手段127が推定する、各表現対についての、どのような解(分類先)になりやすいかの度合いの求め方は、機械学習手段123が機械学習の手法として用いる様々な方法によって異なる。   The method of determining the level of the solution (classification destination) that is likely to be the solution (classification destination) for each expression pair estimated by the solution estimation unit 127 differs depending on various methods used by the machine learning unit 123 as a machine learning method.

例えば、本発明の実施の形態において、機械学習手段123が、機械学習の手法としてk近傍法を用いる場合、機械学習手段123は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段124に記憶しておく。   For example, in the embodiment of the present invention, when the machine learning means 123 uses the k-nearest neighbor method as a machine learning technique, the machine learning means 123 sets the feature data extracted from the cases among the cases of the teacher data. The similarity between cases based on the ratio of overlapping features (the number of the same features) is defined, and the defined similarity and the case are stored in the learning result storage means 124 as learning result information. Keep it.

そして、解推定手段127は、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段124において定義された類似度と事例を参照して、表現対抽出手段125によって抽出された表現対の候補について、その候補の類似度が高い順にk個の事例を学習結果記憶手段124の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、表現対の候補の分類先(解)として推定する。すなわち、解推定手段127では、各表現対についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数、ここでは「抽出するべき」という分類が獲得した票数とする。   Then, when a new expression pair (candidate) is extracted by the expression pair extraction unit 125, the solution estimation unit 127 refers to the similarity and the case defined in the learning result storage unit 124, and the expression pair extraction unit 127 For the candidates of the expression pairs extracted by 125, k cases are selected from the cases in the learning result storage means 124 in descending order of the similarity of the candidates, and the classification destinations determined by the majority vote in the selected k cases are selected. Estimated as the classification target (solution) of the expression pair candidate. That is, in the solution estimation means 127, the degree of what kind of solution (classification destination) is likely to be obtained for each expression pair is the number of votes of the majority vote in the selected k cases, here “to be extracted”. The number of votes obtained by classification.

また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習手段123は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段124に記憶する。そして、解推定手段127は、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段124の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて素性抽出手段126で取得した表現対の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その表現対の候補の素性の分類(解)と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。   When the simple Bayes method is used as the machine learning method, the machine learning unit 123 stores, in the learning result storage unit 124, a set of a solution of the case and a set of features as learning result information for the example of the teacher data. Remember. Then, the solution estimation means 127, when a new expression pair (candidate) is extracted by the expression pair extraction means 125, based on the combination of the learning result information solution and the feature set in the learning result storage means 124. Based on Bayes' theorem, the probability of becoming each classification in the case of the feature pair of the expression pair candidates acquired by the feature extraction means 126 is calculated, and the classification having the largest probability value is selected as the candidate of the expression pair. It is estimated as the classification (solution) of the features of. That is, in the solution estimation means 127, the degree of the likelihood of becoming a certain solution in the case of a set of features of expression pair candidates is set as the probability of becoming each classification, here, the probability of becoming the classification “to be extracted”.

また、機械学習手法として決定リスト法を用いる場合には、機械学習手段123は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを学習結果記憶手段124に記憶する。そして、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。   When the decision list method is used as the machine learning method, the machine learning unit 123 stores, in the learning result storage unit 124, a list in which rules of features and classification destinations are arranged in a predetermined priority order with respect to examples of teacher data. Remember. Then, when a new expression pair (candidate) is extracted by the expression pair extraction unit 125, the solution estimation unit 127 selects candidate expression pairs extracted in descending order of priority in the list of the learning result storage unit 124. The feature is compared with the feature of the rule, and the classification destination of the rule having the identical feature is estimated as the candidate classification destination (solution). That is, the solution estimation means 127 assigns the degree of the likelihood of becoming a solution in the case of a set of candidate features of the expression pair to a predetermined priority or a numerical value or scale corresponding thereto, in this case, “to be extracted”. Priority in the list of probabilities.

また、機械学習手法として最大エントロピー法を使用する場合には、機械学習手段123は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて学習結果記憶手段124に記憶する。そして、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124の確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。   When the maximum entropy method is used as the machine learning method, the machine learning means 123 specifies a class that can be a solution from the example of the teacher data, and maximizes an expression that satisfies a predetermined conditional expression and shows entropy. A probability distribution consisting of a set of features and a class that can be a solution is obtained and stored in the learning result storage means 124. When a new expression pair (candidate) is extracted by the expression pair extraction unit 125, the solution estimation unit 127 uses the probability distribution of the learning result storage unit 124 to identify the features of the extracted expression pair candidate. The probability of the classification that can be the solution for the set of is determined, the classification that can be the solution having the largest probability value is identified, and the identified classification is estimated as the candidate solution. That is, in the solution estimation means 127, the degree of the likelihood of becoming a certain solution in the case of a set of features of expression pair candidates is set as the probability of becoming each classification, here, the probability of becoming the classification “to be extracted”.

また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習手段123は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段124に記憶する。そして表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124の超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(抽出するべき表現対)の空間への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。なお、上記では、情報対抽出部12が、主要表現としての項目表現、固有表現の種類、単位表現を用いて、機械学習の手法によって情報対を抽出する例を説明したが、上記と同様の機械学習の手法を用いて、情報対抽出部12が、主要表現としての項目表現、固有表現の種類を用いて情報対を抽出するようにしてもよい。   When the support vector machine method is used as the machine learning method, the machine learning unit 123 specifies a class that can be a solution from the example of the teacher data, divides the class into a positive example and a negative example, A hyperplane that maximizes the interval between the positive and negative examples of a case and divides the positive and negative examples by a hyperplane in a space whose dimension is a set of case features according to a predetermined execution function using Is stored in the learning result storage means 124. Then, when a new expression pair (candidate) is extracted by the expression pair extraction unit 125, the solution estimation unit 127 uses the hyperplane of the learning result storage unit 124 to identify the feature of the extracted expression pair candidate. Whether the set is on the positive example side or the negative example side in the space divided by the hyperplane is specified, and the classification determined based on the specified result is estimated as the candidate solution. That is, in the solution estimation means 127, the degree of the likelihood of being a solution in the case of a set of candidate expression pairs is the distance from the separation plane to the space of the positive example (expression pair to be extracted). . More specifically, when the expression pair to be extracted is a positive example and the expression pair that should not be extracted is a negative example, the case located in the space on the positive example side with respect to the separation plane is referred to as “example to be extracted”. The distance from the separation plane of the case is determined as the degree of the case. In the above description, an example in which the information pair extraction unit 12 extracts an information pair by the machine learning method using the item expression as the main expression, the type of the unique expression, and the unit expression has been described. Using the machine learning technique, the information pair extraction unit 12 may extract the information pair using the item expression as the main expression and the kind of specific expression.

本発明の一実施形態によれば、情報対抽出部12が、更に、抽出された情報対のうち、最終的に抽出対象とする情報対を正例、最終的に抽出対象としない情報対を負例として決定し、該決定された正例及び負例とを教師データとして、上述した機械学習の手法を用いて上記抽出された情報対について機械学習して、最終的に抽出対象とする情報対を決定するようにしてもよい。   According to an embodiment of the present invention, the information pair extraction unit 12 further selects an information pair that is finally targeted for extraction from the extracted information pairs, and an information pair that is not finally targeted for extraction. Information that is determined as a negative example, machine-learned about the extracted information pair using the above-described machine learning technique, using the determined positive example and negative example as teacher data, and finally extracted. You may make it determine a pair.

例えば、情報対抽出部12が、100個の情報対を抽出した後、ユーザの指定入力に従って、該100個の情報対に含まれる6個の情報対のうちの3個を、最終的に抽出対象とする情報対(正例)とし、残りの3個を、最終的に抽出対象としない情報対(負例)として決定する。そして、上記正例又は負例として決定された6個の情報対を教師データとして、上述した機械学習を行い、その学習結果を用いて、残りの94個の情報対を正例又は負例に分類する。そして、上記ユーザの指定入力に従って正例とされた3個の情報対と、上記正例に分類された情報対とを最終的に抽出対象とする情報対として決定する。
(表示部13)
表示部13は、情報対抽出部12によって抽出された情報対を整理して、例えばグラフ化して表示する。
For example, after extracting 100 information pairs, the information pair extracting unit 12 finally extracts 3 of 6 information pairs included in the 100 information pairs in accordance with a user's designated input. The target information pair (positive example) is determined, and the remaining three are finally determined as information pairs not to be extracted (negative example). Then, the above-described machine learning is performed using the six information pairs determined as positive examples or negative examples as teacher data, and the remaining 94 information pairs are converted into positive examples or negative examples using the learning results. Classify. Then, the three information pairs determined as positive examples according to the user's designated input and the information pairs classified as positive examples are finally determined as information pairs to be extracted.
(Display unit 13)
The display unit 13 organizes the information pairs extracted by the information pair extraction unit 12 and displays them in a graph, for example.

本発明の一実施形態によれば、例えば、主要表現抽出部11において抽出された複数の主要表現に基づいて情報対抽出部12が抽出した複数種類の情報対から、表示部13が、各主要表現についての所定の評価値に基づいて、主要な情報対を選択(例えば、評価値が最も大きい情報対を選択)した上で、選択した主要な情報対をグラフ化する構成を採ってもよい。   According to an embodiment of the present invention, for example, the display unit 13 may select each main information from a plurality of types of information pairs extracted by the information pair extraction unit 12 based on a plurality of main expressions extracted by the main expression extraction unit 11. A configuration may be adopted in which a main information pair is selected (for example, an information pair having the largest evaluation value is selected) based on a predetermined evaluation value for expression, and then the selected main information pair is graphed. .

上記評価値の算出方法としては、例えば、以下の評価値の4種類の算出式のうちのいずれか1つを用いる。ここでは、主要表現抽出部11によって抽出された主要表現が1つの項目表現と2つの固有表現の種類と1つの単位表現である場合を例にとって説明する。
(方法1):数値表現の頻度と主要表現のスコアを用いる。
As the evaluation value calculation method, for example, any one of the following four evaluation value calculation formulas is used. Here, a case where the main expressions extracted by the main expression extraction unit 11 are one item expression, two types of unique expressions, and one unit expression will be described as an example.
(Method 1): Frequency of numerical expression and score of main expression are used.

評価値M=Freq×S1×S2×S2’×S3
(方法2):数値表現の頻度と主要表現のスコアを用いる。
Evaluation value M = Freq × S1 × S2 × S2 ′ × S3
(Method 2): The numerical expression frequency and the main expression score are used.

評価値M=Freq×(S1×S2×S2’×S3)
(方法3):数値表現の頻度を用いる。
Evaluation value M = Freq × (S1 × S2 × S2 ′ × S3)
(Method 3): The frequency of numerical expression is used.

評価値M=Freq
(方法4):主要表現のスコアを用いる。
Evaluation value M = Freq
(Method 4): The score of the main expression is used.

評価値M=S1×S2×S2’×S3
ここで、Freqは、当該主要表現に基づいて情報対抽出部12によって抽出された数値表現の数、S1は、項目表現についての前述した式(1)〜式(3)に示すようなスコアの値、S2、S2’は、2つの固有表現の種類のそれぞれについての前述した式(1)〜式(3)に示すようなスコアの値、S3は、単位表現についての前述した式(1)〜式(3)に示すようなスコアの値である。
Evaluation value M = S1 × S2 × S2 ′ × S3
Here, Freq is the number of numerical expressions extracted by the information pair extraction unit 12 based on the main expression, and S1 is a score as shown in the above-described expressions (1) to (3) for the item expression. The values S2, S2 ′ are the score values as shown in the above-described formulas (1) to (3) for each of the two types of proper expressions, and S3 is the above-described formula (1) for the unit representation. It is a score value as shown in Formula (3).

本発明の一実施形態によれば、例えば、主要表現抽出部11が、項目表現、固有表現の種類、単位表現について、それぞれ、前述したスコアの値が高いものから所定の数ずつ選択する。そして、表示部13が、上記選択された項目表現、固有表現の種類、単位表現の中から、例えば項目表現を1つ、固有表現の種類を2つ、単位表現を1つ選択し、その全ての組み合わせに対して上記の評価値Mの計算をして得られる評価値Mが大きいものほど有用なグラフと判断し、情報対抽出部12によって抽出された情報対のうち、例えば、評価値Mが最も大きい1つの項目表現と1つの固有表現の種類と1つの単位表現とに基づいて抽出された情報対をグラフ表示する。   According to one embodiment of the present invention, for example, the main expression extraction unit 11 selects a predetermined number of item expressions, types of specific expressions, and unit expressions from the above-described high score values. Then, the display unit 13 selects, for example, one item expression, two types of specific expressions, and one unit expression from the selected item expressions, types of specific expressions, and unit expressions, and all of them. As the evaluation value M obtained by calculating the evaluation value M with respect to the combination of is larger, it is determined that the graph is more useful, and among the information pairs extracted by the information pair extraction unit 12, for example, the evaluation value M An information pair extracted based on one item expression, one unique expression type, and one unit expression having the largest is displayed in a graph.

なお、本発明の一実施形態によれば、情報抽出装置1が、更に、情報対抽出部12によって抽出された情報対について相関分析を行う手段(図1では図示を省略)を備えるようにしてもよい。また、表示部13が、上記相関分析を行い、該相関分析結果を表示するようにしてもよい。   According to one embodiment of the present invention, the information extracting apparatus 1 further includes means (not shown in FIG. 1) for performing a correlation analysis on the information pair extracted by the information pair extracting unit 12. Also good. Further, the display unit 13 may perform the correlation analysis and display the correlation analysis result.

図4は、本発明の実施の形態における情報抽出処理フローの一例を示す図である。まず、情報抽出装置1は、関連記事DB14中の記事群から主要表現を抽出する(ステップS1)。次に、情報抽出装置1は、抽出された主要表現を用いて、情報対を抽出する(ステップS2)。そして、情報抽出装置1は、抽出された情報対を表示する(ステップS3)。   FIG. 4 is a diagram showing an example of an information extraction processing flow in the embodiment of the present invention. First, the information extraction apparatus 1 extracts a main expression from an article group in the related article DB 14 (step S1). Next, the information extraction device 1 extracts an information pair using the extracted main expression (step S2). Then, the information extraction device 1 displays the extracted information pair (step S3).

図5乃至14は、表示部による表示例を示す図である。図5に示す表示例は、主要表現としての項目表現が「末端価格」、固有表現の種類が「LOCATION」と「ORGANIZATION」、単位表現が「キロ」と「円」である場合の情報対の表示例を示している。図5に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。   5 to 14 are diagrams showing examples of display by the display unit. The display example shown in FIG. 5 is an information pair in the case where the item expression as the main expression is “end price”, the types of specific expressions are “LOCATION” and “ORGANIZATION”, and the unit expressions are “kilo” and “yen”. A display example is shown. The item “sentence” in the table shown in FIG. 5 indicates a sentence in which each information pair appears simultaneously.

図6に示す表示例は、主要表現としての項目表現が「弾道ミサイル」、固有表現の種類が「ARTIFACT」と「LOCATION」である場合の情報対の表示例を示している。図6に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。   The display example shown in FIG. 6 shows a display example of an information pair when the item expression as the main expression is “ballistic missile” and the types of specific expressions are “ARTIFACT” and “LOCATION”. The item “sentence” in the table shown in FIG. 6 indicates a sentence in which each information pair appears simultaneously.

図7に示す表示例は、主要表現としての項目表現が「毎日新聞社主催」、固有表現の種類が「DATE」と「LOCATION」と「ORGANIZATION」と「PERSON」と「TIME」である場合の情報対の表示例を示している。図7に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。   In the display example shown in FIG. 7, the item expression as the main expression is “sponsored by Mainichi Shimbun”, and the types of unique expressions are “DATE”, “LOCATION”, “ORGANIZATION”, “PERSON”, and “TIME”. The example of a display of an information pair is shown. The item “sentence” in the table shown in FIG. 7 indicates a sentence in which each information pair appears simultaneously.

図8に示す表示例は、主要表現としての項目表現が「台風」、固有表現の種類が「LOCATION」、単位表現が「号」と「キロ」である場合の情報対の表示例を示している。図8に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。   The display example shown in FIG. 8 shows a display example of an information pair when the item expression as the main expression is “typhoon”, the type of specific expression is “LOCATION”, and the unit expressions are “No.” and “Kilo”. Yes. The item “sentence” in the table shown in FIG. 8 indicates a sentence in which each information pair appears simultaneously.

図9に示す表示例は、主要表現としての項目表現が「中前打」、固有表現の種類が「ORGANIZATION」と「PERSON」、単位表現が「回」と「点」である場合の情報対の表示例を示している。図9に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。   The display example shown in FIG. 9 is an information pair in which the item expression as the main expression is “middle advance”, the types of specific expressions are “ORGANIZATION” and “PERSON”, and the unit expressions are “times” and “points”. A display example is shown. The item “sentence” in the table shown in FIG. 9 indicates a sentence in which each information pair appears simultaneously.

図10に示す表示例は、主要表現としての項目表現が「無職」、固有表現の種類が「PERSON」と「TIME」、単位表現が「階」と「階建て」である場合の情報対の表示例を示している。図10に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。   The display example shown in FIG. 10 is an information pair in which the item expression as the main expression is “unemployed”, the types of specific expressions are “PERSON” and “TIME”, and the unit expressions are “floor” and “floor”. A display example is shown. The item “sentence” in the table shown in FIG. 10 indicates a sentence in which each information pair appears simultaneously.

図11に示す表示例は、主要表現としての項目表現が「男子」、固有表現の種類が「LOCATION」と「ORGANIZATION」と「PERSON」、単位表現が「位」と「メートル」である場合の情報対の表示例を示している。図11に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。   In the display example shown in FIG. 11, the item expression as the main expression is “male”, the types of specific expressions are “LOCATION”, “ORGANIZATION”, “PERSON”, and the unit expressions are “rank” and “meter”. The example of a display of an information pair is shown. The item “sentence” in the table shown in FIG. 11 indicates a sentence in which each information pair appears simultaneously.

図12に示す表示例は、主要表現としての項目表現が「収賄罪」、固有表現の種類が「DATE」と「LOCATION」と「MONEY」と「PERSON」、単位表現が「人」と「円」である場合の情報対の表示例を示している。図12に示す表中の「文」という項目は、各々の情報対が同時に出現した文を示している。   In the display example shown in FIG. 12, the item expression as the main expression is “bribery crime”, the types of specific expressions are “DATE”, “LOCATION”, “MONEY” and “PERSON”, and the unit expressions are “people” and “yen” ”Is a display example of information pairs. The item “sentence” in the table shown in FIG. 12 indicates a sentence in which each information pair appears simultaneously.

図13に示す表示例は、主要表現としての項目表現が「台風」、固有表現の種類が「LOCATION」、単位表現が「号」と「キロ」である場合の、情報対のグラフ表示例を示している。図13には、上記図8に示す表示例における第1行目の情報対(4号−210キロ−南大東島)のグラフ表示例が示される。図13を示す表示例を参照すると、台風4号が南大東島から210キロの地点にあることがわかる。   The display example shown in FIG. 13 is a graph display example of an information pair when the item expression as the main expression is “typhoon”, the specific expression type is “LOCATION”, and the unit expressions are “No.” and “Kilo”. Show. FIG. 13 shows a graph display example of the information pair (No. 4-210 km-Minamidaitojima) in the first row in the display example shown in FIG. Referring to the display example shown in FIG. 13, it can be seen that Typhoon No. 4 is 210 km from Minami Daitojima.

図14は、主要表現としての項目表現が「末端価格」、固有表現の種類が「LOCATION」と「ORGANIZATION」、単位表現が「キロ」と「円」である場合の情報対のグラフ表示例を示している。図14に示す表示例は、大阪税関伏木税関支署が、ロシア船籍の船から末端価格740,000円の覚醒剤を9.3キロ押収したことを示している。   FIG. 14 is a graph display example of information pairs when the item expression as the main expression is “end price”, the types of specific expressions are “LOCATION” and “ORGANIZATION”, and the unit expressions are “kilo” and “yen”. Show. The display example shown in FIG. 14 indicates that the Osaka Customs Fushiki Customs Branch seized 9.3 kilos of stimulant with a terminal price of 740,000 yen from a Russian flag ship.

本発明の変形例について説明する。本発明の変形例においては、情報対抽出部12が、情報対が抽出された記事群を構成する各記事を各記事が属するクラスターにクラスタリングする。そして、表示部13が、各クラスターに属する記事から抽出された情報対について、クラスター毎に相関分析を行い、当該相関分析の結果に基づいて、各クラスターに属する記事から抽出された情報対をクラスター毎にグラフ化して表示する。相関分析とは、例えば、2つのデータの相関を分析することをいう。例えば、本発明において、x軸、y軸の2軸のグラフ上に情報対のプロットが並んでいる場合において、x軸に対応するデータ(例えば数値表現)とy軸に対応するデータ(例えば数値表現)とに相関があるかといった相関分析を行う。また、例えば、本発明において、x軸、y軸の2軸のグラフ上に情報対のプロットが並んでいる場合において、x軸に対応するデータ(例えばDATEという固有表現の種類に属する固有表現)とy軸に対応するデータ(例えば数値表現)とに相関があるかといった相関分析を行う。   A modification of the present invention will be described. In the modification of the present invention, the information pair extraction unit 12 clusters each article constituting the article group from which the information pair is extracted into a cluster to which each article belongs. Then, the display unit 13 performs correlation analysis for each cluster on the information pairs extracted from the articles belonging to each cluster, and the information pairs extracted from the articles belonging to each cluster are clustered based on the correlation analysis result. Each graph is displayed. Correlation analysis refers to, for example, analyzing the correlation between two data. For example, in the present invention, when information pairs are plotted on a two-axis graph of x-axis and y-axis, data corresponding to the x-axis (for example, numerical expression) and data corresponding to the y-axis (for example, numerical values) Correlation analysis is performed to see if there is a correlation with the expression. Further, for example, in the present invention, when information pair plots are arranged on a two-axis graph of x-axis and y-axis, data corresponding to the x-axis (for example, a specific expression belonging to the specific expression type DATE) And a correlation analysis is performed to determine whether there is a correlation between the data corresponding to the y axis (for example, a numerical expression).

グラフのプロットの並びが直線に近くなっていれば相関があると言える。表示部13は、例えば、グラフのプロットについて相関分析を行う際に、2つのデータが、どの程度直線的な関係にあるかを示す相関係数を算出してもよい。   It can be said that there is a correlation if the plot of the graph is close to a straight line. For example, when the correlation analysis is performed on the plot of the graph, the display unit 13 may calculate a correlation coefficient indicating how linear the two data are.

表示部13は、各クラスターに属する記事から抽出された情報対に基づいて生成するクラスター毎のグラフデータにおいて、x軸に対応する数値表現とy軸に対応する数値表現とに相関があるかを分析し、当該分析の結果、相関があるとされたグラフデータ、又は、相関係数が所定の値以上のグラフデータのみをグラフ化して表示するようにしてもよい。   The display unit 13 determines whether or not there is a correlation between the numerical expression corresponding to the x axis and the numerical expression corresponding to the y axis in the graph data for each cluster generated based on the information pairs extracted from the articles belonging to each cluster. Analysis may be performed, and only graph data that is determined to be correlated as a result of the analysis or graph data having a correlation coefficient equal to or greater than a predetermined value may be displayed as a graph.

また、表示部13は、各クラスターに属する記事から抽出された情報対に基づいて生成するクラスター毎のグラフデータにおいて、x軸に対応する固有表現とy軸に対応する数値表現とに相関があるかを分析し、当該分析の結果、相関があるとされたグラフデータ、又は、相関係数が所定の値以上のグラフデータのみをグラフ化して表示するようにしてもよい。   Further, the display unit 13 has a correlation between the specific expression corresponding to the x axis and the numerical expression corresponding to the y axis in the graph data for each cluster generated based on the information pairs extracted from the articles belonging to each cluster. As a result of the analysis, only graph data determined to be correlated or graph data having a correlation coefficient equal to or greater than a predetermined value may be displayed in a graph.

なお、表示部13は、当該相関分析の結果、相関があるとされたグラフデータ、又は、相関係数が所定の値以上のグラフデータを、当該グラフデータに対応する情報対の前述した評価値Mが大きい順にソートし、各グラフデータをグラフとして表示するようにしてもよい。   The display unit 13 displays the above-described evaluation value of the information pair corresponding to the graph data, the graph data determined to be correlated as a result of the correlation analysis, or the graph data having a correlation coefficient equal to or greater than a predetermined value. Sorting may be performed in descending order of M, and each graph data may be displayed as a graph.

また、本発明の一実施形態によれば、表示部13が、情報対抽出部12によって抽出された情報対について相関分析を行い、相関分析の結果に基づいて、上記情報対をグラフ化して表示するようにしてもよい。例えば、表示部13は、5種類の数値表現と5種類の項目表現との組合せの数(25個)だけの種類の情報対について前述した相関分析を行い、当該相関分析の結果、相関があるとされた情報対、又は、相関係数が所定の値以上である情報対のみをグラフ化して表示するようにしてもよい。また、例えば、表示部13は、5種類の固有表現と5種類の項目表現との組合せの数(25個)だけの種類の情報対について前述した相関分析を行い、当該相関分析の結果、相関があるとされた情報対、又は、相関係数が所定の値以上である情報対のみをグラフ化して表示するようにしてもよい。   In addition, according to an embodiment of the present invention, the display unit 13 performs correlation analysis on the information pair extracted by the information pair extraction unit 12, and graphs and displays the information pair based on the result of the correlation analysis. You may make it do. For example, the display unit 13 performs the above-described correlation analysis with respect to the information pairs of the number of combinations (25) of the five types of numerical expressions and the five types of item expressions, and there is a correlation as a result of the correlation analysis. Only the information pairs that are determined to be or the information pair whose correlation coefficient is equal to or greater than a predetermined value may be displayed in a graph. In addition, for example, the display unit 13 performs the above-described correlation analysis for the number of types of information pairs (25) of the combinations of the five types of specific expressions and the five types of item expressions. Only information pairs that are determined to be present or only information pairs having a correlation coefficient equal to or greater than a predetermined value may be displayed in a graph.

なお、固有表現をグラフのx軸などに表示する場合、表示部13は、固有表現の表示の順番を決定した上でグラフ上に表示する。表示の順番の決め方には以下の(1)〜(5)までの5通りがある。
(1)予め人手で表示の順番を決めておき、該表示の順番を表形式のデータとして記憶手段に記憶しておく。該記憶手段に記憶された表形式のデータを参照して順番を決める。
(2)固有表現と、それと共起する単語( 例えば、大規模コーパスでその固有表現と同一文にある単語)を抽出し、その共起回数を求め、この結果を以下のような表形式にまとめる。
When displaying the specific expression on the x-axis of the graph, the display unit 13 determines the display order of the specific expression and displays it on the graph. There are five ways of determining the display order: (1) to (5) below.
(1) The display order is determined manually in advance, and the display order is stored in the storage means as tabular data. The order is determined with reference to tabular data stored in the storage means.
(2) A specific expression and a word that co-occurs with it (for example, a word in the same sentence as the specific expression in a large corpus) are extracted, and the number of co-occurrence is obtained. To summarize.

単語1 単語2 単語3
固有表現1 2 0 1
固有表現2 3 2 1
固有表現3 1 0 0
上記表形式のデータに対して、主成分分析や、双対尺度法などの数値解析を実行する。(例えば、参考文献(12):「図解でわかる多変量解析」(日本実業出版社)、参考文献(13):「実践ワークショップExcel 徹底活用多変量解析」(秀和システム)参照)。
Word 1 word 2 word 3
Proper expression 1 2 0 1
Proper expression 2 3 2 1
Proper expression 3 1 0 0
A numerical analysis such as principal component analysis or dual scaling is performed on the tabular data. (See, for example, Reference (12): “Multivariate analysis understood by illustration” (Nippon Jitsugyo Publishing Co., Ltd.), Reference (13): “Practical Workshop Excel Thorough Use Multivariate Analysis” (Hidewa System)).

第一固有値に対応するそれぞれの値の順に、固有表現を並べ替えて、それを固有表現の順番とする。
(3)固有表現と、それと共起する単語(例えば、大規模コーパスでその固有表現と同一文にある単語)を抽出し、その共起回数を求める。この結果を以下のような表形式にまとめる。
The unique expressions are rearranged in the order of the values corresponding to the first eigenvalues, and this is used as the order of the unique expressions.
(3) A specific expression and a word that co-occurs with it (for example, a word in the same sentence as the specific expression in a large corpus) are extracted, and the number of co-occurrence is obtained. The results are summarized in the following table format.

単語1 単語2 単語3
固有表現1 2 0 1
固有表現2 3 2 1
固有表現3 1 0 0
共起する単語の種類をベクトルの次元、共起する単語の共起した回数をベクトルの要素とするベクトルを固有表現ごとに作成する。2つのベクトル(例えばv1とv2)の内積又はCos(v1,v2)を固有表現同士の類似度とする。類似度が大きい固有表現同士を順につなげていく。ただし、一つの固有表現は、多くても二つの固有表現としかつながらないようにする。全ての固有表現がつながったら、それを一直線に伸ばして、その端から順に、固有表現の並び順を固有表現の順番とする。
(4)固有表現の表示の順番を50音順とする。
(5)各固有表現を文字列長の長い順に並べ、該並んだ順番を固有表現の表示の順番とする。
Word 1 word 2 word 3
Proper expression 1 2 0 1
Proper expression 2 3 2 1
Proper expression 3 1 0 0
For each unique expression, a vector is created with the type of co-occurring words as the vector dimension and the number of co-occurring words as the vector elements. The inner product of two vectors (for example, v1 and v2) or Cos (v1, v2) is set as the similarity between the proper expressions. The specific expressions with large similarity are connected in order. However, at most one unique expression should be two unique expressions. When all the proper expressions are connected, they are stretched in a straight line, and the order of proper expressions is set as the order of proper expressions from the end.
(4) The display order of the unique expressions is set to the order of the Japanese syllabary.
(5) The unique expressions are arranged in the order of the longest character string length, and the arranged order is set as the display order of the unique expressions.

図15乃至24は、本発明を用いて抽出された情報対の評価例を示している。図15は、情報対の評価数を示す図である。図15に示す表に記述されている数の情報対だけ人手で評価する。NEx(x=1〜8)は、x個の固有表現と1個の項目表現を示す。また、記事数Xは、X個の記事数を持つ記事群を示す。すなわち、記事数Xが記述されている列とNExが記述されている行とが交差するセルに記述されている数は、記事数がX個の記事群から抽出されたx個の固有表現と1個の項目表現とからなる情報対の数を示している。   FIGS. 15 to 24 show evaluation examples of information pairs extracted using the present invention. FIG. 15 is a diagram showing the number of evaluations of information pairs. Only the number of information pairs described in the table shown in FIG. 15 is manually evaluated. NEx (x = 1 to 8) indicates x number of unique expressions and one item expression. The number of articles X indicates an article group having X articles. That is, the number described in the cell where the column in which the number of articles X is described and the row in which NEx is described intersects with the x number of unique expressions extracted from the group of articles whose number of articles is X. It shows the number of information pairs consisting of one item expression.

図16(A)、(B)、図17(A)、(B)は、図15に示す表に記述されている数の情報対についての評価結果の一例を示す図である。図16(A)は、本発明を用いて抽出された情報対が75%以上正しい(例えば、情報対が記事中に同時に出現する)場合の、当該情報対の数を示し、図16(B)は、図16(A)に示す評価結果に示す情報対の数を前述した図15に示す対応する情報対の評価数で除算した結果を示す。   FIGS. 16A, 16B, 17A, and 17B are diagrams showing an example of evaluation results for the number of information pairs described in the table shown in FIG. FIG. 16A shows the number of information pairs when information pairs extracted using the present invention are more than 75% correct (for example, information pairs appear simultaneously in an article). ) Shows the result of dividing the number of information pairs shown in the evaluation result shown in FIG. 16A by the evaluation number of the corresponding information pair shown in FIG.

また、図17(A)は、本発明を用いて抽出された情報対が50%以上正しい(例えば、情報対が記事中に同時に出現する)場合の、当該情報対の数を示し、図17(B)は、図17(A)に示す評価結果に示す情報対の数を前述した図15に示す対応する情報対の評価数で除算した結果を示す。なお、図18は、上記図16(B)に示す評価結果を示すグラフであり、図19は、上記図17(B)に示す評価結果を示すグラフである。   FIG. 17A shows the number of information pairs when the information pairs extracted using the present invention are 50% or more correct (for example, information pairs appear simultaneously in an article). (B) shows the result of dividing the number of information pairs shown in the evaluation result shown in FIG. 17A by the evaluation number of the corresponding information pair shown in FIG. 18 is a graph showing the evaluation results shown in FIG. 16B, and FIG. 19 is a graph showing the evaluation results shown in FIG. 17B.

図20は、情報対の評価数を示す図である。図20に示す表に記述されている数の情報対だけ人手で評価する。NEx(x=1〜8)は、x個の固有表現と1個の項目表現と2個の数値表現(単位表現に関連する数値表現)を示す。また、記事数Xは、X個の記事数を持つ記事群を示す。すなわち、記事数Xが記述されている列とNExが記述されている行とが交差するセルに記述されている数は、記事数がX個の記事群から抽出されたx個の固有表現と1個の項目表現と2個の数値表現からなる情報対の数を示している。   FIG. 20 is a diagram illustrating the number of evaluations of information pairs. Only the number of information pairs described in the table shown in FIG. 20 is manually evaluated. NEx (x = 1 to 8) indicates x unique expressions, one item expression, and two numerical expressions (numerical expressions related to the unit expression). The number of articles X indicates an article group having X articles. That is, the number described in the cell where the column in which the number of articles X is described and the row in which NEx is described intersects with the x number of unique expressions extracted from the group of articles whose number of articles is X. The number of information pairs consisting of one item expression and two numerical expressions is shown.

図21(A)、(B)、図22(A)、(B)は、図20に示す表に記述されている数の情報対についての評価結果の一例を示す図である。図21(A)は、本発明を用いて抽出された情報対が75%以上正しい(例えば、情報対が記事中に同時に出現する)場合の、当該情報対の数を示し、図21(B)は、図21(A)に示す評価結果に示す情報対の数を前述した図20に示す対応する情報対の評価数で除算した結果を示す。   FIGS. 21A, 21B, 22A, and 22B are diagrams showing an example of evaluation results for the number of information pairs described in the table shown in FIG. FIG. 21A shows the number of information pairs when the information pairs extracted by using the present invention are 75% or more correct (for example, information pairs appear simultaneously in an article). ) Shows the result of dividing the number of information pairs shown in the evaluation result shown in FIG. 21A by the evaluation number of the corresponding information pair shown in FIG.

また、図22(A)は、本発明を用いて抽出された情報対が50%以上正しい(例えば、情報対が記事中に同時に出現する)場合の、当該情報対の数を示し、図22(B)は、図22(A)に示す評価結果に示す情報対の数を前述した図20に示す対応する情報対の評価数で除算した結果を示す。なお、図23は、上記図21(B)に示す評価結果を示すグラフであり、図24は、上記図22(B)に示す評価結果を示すグラフである。   22A shows the number of information pairs when the information pairs extracted using the present invention are 50% or more correct (for example, information pairs appear simultaneously in an article). (B) shows the result of dividing the number of information pairs shown in the evaluation result shown in FIG. 22A by the evaluation number of the corresponding information pair shown in FIG. FIG. 23 is a graph showing the evaluation results shown in FIG. 21B, and FIG. 24 is a graph showing the evaluation results shown in FIG. 22B.

本発明における実験について更に述べる。本発明の情報抽出装置により、主要表現として項目表現と固有表現の種類を用いた場合の情報対の抽出実験を行った。ここでは、1998年と1999年の2年分の毎日新聞の記事群(220,078記事)を利用した。この実験では、抽出された情報対全体を実験対象とし、評価はそのうちいくつかを選んで人手で評価した。評価結果を図25乃至28に示す。図25、図26は、固有表現のみを主要表現として用いた場合の、情報対の評価結果であり(図25は、精度、図26は抽出総数を示す)、図27、図28は、1〜6個の固有表現と1個の単位(数値)表現を主要表現として用いた場合の、情報対の評価結果である(図27は、精度、図28は、抽出総数を示す)。図25乃至28中のNExは、x個の固有表現を用いる場合を意味する。評価は、抽出記事数(主要表現が同時に出現した1文を持つ記事の数)がちょうど10,30,50,70,90であったデータからそれぞれ10個ずつランダムに取り出し、それが正解かどうかを人手で調べた。「評価A」は、抽出記事数個取り出した数値・固有表現の情報対のうち75%がある一つのトピックについて正しい情報を示す場合にそのデータを正しいと判断し、その正しいとされたデータの割合を意味する。「評価B」は、抽出記事数個取り出した数値・固有表現の情報対のうち、50%がある一つのトピックについて正しい情報を示す場合にそのデータを正しいと判断し、その正しいとされたデータの割合を意味する。但し、同一文に複数の同種の固有表現が出現した場合はそのどれかが正解として解釈できるものであれば正解とした。図27では評価Bの結果のみ示す。評価Aでは全体データで固有表現情報のみの場合0.084、数値・固有表現情報の場合0.018であった。図26と図27にはデータの抽出総数を示す。   The experiment in the present invention will be further described. With the information extraction apparatus of the present invention, an information pair extraction experiment was performed when the types of item expression and specific expression were used as the main expression. Here, we used the articles (220,078 articles) of the Mainichi Shimbun for two years of 1998 and 1999. In this experiment, the entire extracted information pair was the subject of the experiment, and some of them were selected and evaluated manually. The evaluation results are shown in FIGS. 25 and 26 show the evaluation results of the information pair when only the specific expression is used as the main expression (FIG. 25 shows the accuracy, FIG. 26 shows the total number of extractions), and FIGS. FIG. 27 shows the evaluation results of information pairs when ˜6 unique expressions and one unit (numerical value) expression are used as main expressions (FIG. 27 shows accuracy, and FIG. 28 shows the total number of extractions). NEx in FIGS. 25 to 28 means a case where x number of unique expressions are used. Evaluation is based on the number of extracted articles (the number of articles with one sentence in which the main expression appears at the same time) taken at random from each of the data that was exactly 10, 30, 50, 70, 90. Was examined manually. “Evaluation A” indicates that the data is correct when the correct information is shown for one topic having 75% of the information pairs of the numerical value / specific expression extracted from the number of extracted articles, and the correct data Mean percentage. “Evaluation B” is the data that is determined to be correct when it shows correct information for one topic with 50% of the information pairs of numerical values and specific expressions extracted from several extracted articles. Means the percentage of However, if multiple equivalent expressions of the same type appear in the same sentence, any of them can be interpreted as a correct answer. In FIG. 27, only the result of evaluation B is shown. In the evaluation A, the total data was 0.084 in the case of only unique expression information, and 0.018 in the case of numerical value / specific expression information. 26 and 27 show the total number of extracted data.

評価Aで取り出せたデータの個数は、固有表現のみを用いた場合、数値・固有表現を用いた場合の両方を合わせて24個であった。また、評価Bの全体データでの精度は固有表現のみを用いた場合0.28で数値・固有表現の情報を用いた場合0.26であった。また、抽出総数と精度をかけあわせて合計どのくらい有用なデータを抽出できるかを見積もった。これは、例えば21〜40の記事数のNE2の抽出総数と記事数30の精度の積を1〜40の記事数のNE2の場合の抽出できる有用データとする手順で求めた。この見積もりでは抽出可能な評価Aのデータは固有表現のみを用いた場合、数値・固有表現を用いた場合の両方を合わせて約2万個であった。   The number of data that can be extracted in evaluation A was 24 when both the numerical expression and the specific expression were used when only the specific expression was used. The accuracy of the entire evaluation B data was 0.28 when only the specific expression was used, and 0.26 when the numerical value / specific expression information was used. We also estimated how much useful data can be extracted by multiplying the total number of extractions and accuracy. For example, the product of the total number of extractions of NE2 with the number of articles of 21 to 40 and the accuracy of the number of articles 30 is obtained by a procedure to obtain useful data that can be extracted in the case of NE2 with the number of articles of 1 to 40. In this estimation, the data of evaluation A that can be extracted is about 20,000 when only the specific expression is used and when both the numerical value and the specific expression are used.

本発明の情報抽出装置1により抽出したデータ(情報対)を図29、図30に示す。図29には固有表現と項目表現を主要表現とした場合に得られた情報対を示す。図29(A)は、項目表現「スライダー」、人名と組織名の固有表現の種類を主要表現セットとした場合の情報対である。図29(A)から、当時スライダーを投げていた選手とそのチーム名がわかる。図29(B)は、項目表現「弾道ミサイル」、人工物名と地名の固有表現の種類を主要表現とした場合の情報対である。図29(B)から、当時の弾道ミサイルに関係するミサイル名とそのミサイルの保有国がわかる。その他、囲碁将棋などの毎日新聞社主催行事の開催時期・場所・主催団体・棋士名のデータ、家宅捜索を受けた組織・日付・場所・人・金額・関連する法律のデータなど多様なデータが得られる。   Data (information pairs) extracted by the information extraction apparatus 1 of the present invention are shown in FIGS. FIG. 29 shows information pairs obtained when the specific expression and the item expression are the main expressions. FIG. 29A shows an information pair in the case where the item expression “slider” and the type of the unique expression of the person name and the organization name are the main expression set. From FIG. 29 (A), the player who was throwing the slider at that time and the team name can be seen. FIG. 29B shows an information pair in the case where the main expression is the item expression “ballistic missile” and the type of the unique expression of the artifact name and the place name. From FIG. 29 (B), the missile name related to the ballistic missile at that time and the country of possession of the missile are known. In addition, there are various data such as the date, place, sponsoring organization, name of the name of the person sponsored by the Mainichi Shimbun, such as Go Shogi, the data of the organization, date, place, person, amount of money, and related laws that received the house search. can get.

図30は、固有表現と項目表現を主要表現とした場合に得られた情報対の表示例である。項目表現「収賄罪」、単位表現「人」、「円」、人名と地名の固有表現の種類を主要表現とした場合のものである。図30の横軸は、収賄罪をおかした人数、縦軸は収賄罪の金額を示す。各プロットには人名と関連する場所を記載した。但し、人名はシステムではとれているがここでは匿名で表示している。その他、何階建ての何階で火事が起きたかとその住民の氏名と時間、スポーツ競技の順位とその競技のメートル数・選手・組織・場所などを示す多様なグラフを得た。   FIG. 30 is a display example of information pairs obtained when the specific expression and the item expression are the main expressions. This is the case where the main expression is the item expression “bribery crime”, the unit expressions “people”, “yen”, and the unique expressions of person names and place names. The horizontal axis in FIG. 30 indicates the number of people who committed bribery, and the vertical axis indicates the amount of bribery. Each plot lists the location associated with the person's name. However, although the name of the person is taken in the system, it is displayed anonymously here. In addition, we obtained a variety of graphs showing how many floors and how many fires occurred, the names and times of the residents, the ranking of sports competitions, the number of athletes, the players, the organization, and the location.

本発明の他の変形例を説明する。この例では、表示部13が、情報対抽出部12が抽出した情報対を含む文を関連記事DB14中の記事群から抽出し、当該抽出した文において、情報対を強調表示する。   Another modification of the present invention will be described. In this example, the display unit 13 extracts a sentence including the information pair extracted by the information pair extraction unit 12 from the article group in the related article DB 14, and highlights the information pair in the extracted sentence.

例えば、情報対抽出部12が抽出した情報対(数値表現、固有表現、項目表現の対)が、「○号」、「○日」、「台風」であるとすると、表示部13は、この三つの表現が同時に出現している文を抽出し、該抽出された文において、該三つの表現を強調表示する。同一文において複数の表現がある場合は、例えば最初に出現しているものを二重線でそれ以外を一重線で強調表示する。その結果を図31に示す。上記三つの表現を適宜色分けして表示する構成を採ってもよい。   For example, if the information pair (number expression, specific expression, item expression pair) extracted by the information pair extraction unit 12 is “◯ No.”, “○ day”, “typhoon”, the display unit 13 A sentence in which the three expressions appear simultaneously is extracted, and the three expressions are highlighted in the extracted sentence. When there are a plurality of expressions in the same sentence, for example, the first appearing is highlighted with a double line and the others are highlighted with a single line. The result is shown in FIG. A configuration may be adopted in which the above three expressions are appropriately color-coded and displayed.

抽出した文は、そのときの台風の様子を端的に示しており、要約の研究における重要文抽出と同等の効果を持つ文を抽出できていると思われる。すなわち、台風が通った地名、また場合によって被害状況も記述されており、その台風に関する重要な記述が抽出した文に含まれている。   The extracted sentence clearly shows the state of the typhoon at that time, and it seems that the sentence having the same effect as the important sentence extraction in the summary research can be extracted. In other words, the name of the place through which the typhoon passed and the damage situation are also described, and an important description about the typhoon is included in the extracted sentence.

また、図中の7個目のデータには、台風7号と台風8号の複数のデータが含まれるが、抽出した情報以外に、現在着目している主要表現があればそれも一重の下線で強調表示することで、その複数データがそのデータにあることがすぐにわかる。また、取り出すべき情報対の組をシステムが誤る場合があるが、この強調表示はその誤りを早く見つけることにも役に立つ。ここでは、抽出した文のみで強調表示を行ったが、記事中に抽出すべき文が残っている可能性もある。記事全体で同様の強調表示を行えば、そういう漏れも抽出できる可能性がある。そこで、元の記事全体で強調表示をする構成を採ってもよい。   In addition, the seventh data in the figure includes a plurality of data of typhoon No. 7 and typhoon No. 8. In addition to the extracted information, if there is a main expression currently focused on, it is also a single underline. By highlighting with, you can immediately see that the data is in the data. In addition, the system may mistake the set of information pairs to be retrieved, but this highlighting helps to find the error early. Here, only the extracted sentence is highlighted, but there is a possibility that the sentence to be extracted remains in the article. If the same highlighting is applied to the entire article, such a leak may be extracted. Thus, a configuration may be adopted in which the entire original article is highlighted.

次に、本発明の一実施形態において、主要表現抽出部11が、前述したように、抽出された固有表現の種類の前又は後、又は、上記抽出された単位表現に関連する数値表現の前又は後に付随する単語を抽出し、該抽出された単語から選択された単語が付随する固有表現の種類、又は該抽出された単語から選択された単語が付随する数値表現に関連する単位表現を上記主要表現とする処理を行う場合において、どのようにして上記単語が選択されるかについて説明する。   Next, in one embodiment of the present invention, as described above, the main expression extraction unit 11 performs before or after the type of the extracted unique expression or before the numerical expression related to the extracted unit expression. Or a word associated with a numerical expression associated with a type of a unique expression accompanied by a word selected from the extracted word or a word selected from the extracted word, or a unit expression associated with a numerical expression accompanied by a word selected from the extracted word A description will be given of how the word is selected in the case of performing processing as the main expression.

図32及び図33は、抽出された固有表現の種類の前又は後に付随する単語、抽出された単位表現に関連する数値表現の前又は後に付随する単語を出現頻度に並べた表を示す図である。図32及び図33に示す例では、固有表現の種類又は数値表現の前後3文字までの単語を出現頻度順に並べた結果を示している。   FIG. 32 and FIG. 33 are diagrams showing a table in which appearance words are arranged with words attached before or after the type of the extracted unique expression and words attached before or after the numerical expression related to the extracted unit expression. is there. In the example shown in FIG. 32 and FIG. 33, the result of arranging words up to 3 characters before and after the kind of numerical expression or numerical expression is arranged in order of appearance frequency.

例えば、図32中の「キロ」という単位表現に関連する数値表現「9.3キロ|9.3キロ|120キロ|・・・」の後ろ3文字として付随する単語は「(末端」であり、「ARTIFACT」という固有表現の種類に属する固有表現「玉丸|シテロワテ・・・」の前1文字として付随する単語は「船」である。主要表現抽出部11は、例えば、上記図32に示すような表を作成して表示し、該表示を見たユーザの指定入力に従って、「船」という単語を選択する。   For example, the word attached as the last three letters of the numerical expression “9.3 kg | 9.3 kg | 120 kg |...” Related to the unit expression “kilo” in FIG. , The word that accompanies the specific expression “Tamamaru | Citeirote ...” that belongs to the type of specific expression “ARTIFACT” is “ship.” For example, the main expression extraction unit 11 is shown in FIG. A table as shown is created and displayed, and the word “ship” is selected in accordance with the designation input by the user who saw the display.

また、図33を参照すると、例えば、「キロ」という単位表現に関連する数値表現「4号|5号|6号|・・・」の前2文字として付随する単語は「台風」であり、「キロ」という単位表現に関連する数値表現「15キロ|25キロ|75キロ」の前2文字として付随する単語は「時速」である。主要表現抽出部11は、例えば、上記図33に示すような表を作成して表示し、該表示を見たユーザの指定入力に従って、「時速」という単語を選択する。   Referring to FIG. 33, for example, the word accompanying the first two letters of the numerical expression “No. 4 | No. 5 | No. 6 | ...” related to the unit expression “kilo” is “typhoon”. The word attached as the first two letters of the numerical expression “15 km | 25 km | 75 km” related to the unit expression “kilo” is “speed”. The main expression extracting unit 11 creates and displays a table as shown in FIG. 33, for example, and selects the word “speed” according to the designation input by the user who saw the display.

次に、本発明の情報抽出装置1による情報対の抽出結果を、情報抽出装置1が相関分析した実験について説明する。データの相関を表す指標としては、一般に、相関係数が用いられる。データxi、yi(i=1,2,3,・・・n)が与えられたとき、xとyの相関係数rは、   Next, an experiment in which the information extraction apparatus 1 performs a correlation analysis on the information pair extraction result by the information extraction apparatus 1 of the present invention will be described. In general, a correlation coefficient is used as an index representing the correlation of data. Given data xi, yi (i = 1, 2, 3,... N), the correlation coefficient r between x and y is

Figure 0005182845
Figure 0005182845

となる。
ここで、
It becomes.
here,

Figure 0005182845
Figure 0005182845

である。 It is.

rは常に−1と1の間の値をとり、1(あるいは−1)に近いとき、強い相関があり、0に近いとき相関がないといえる。相関係数が正の値のときは正の相関があり、xが増加するとyも増加する。相関係数が負の値のときは負の相関あり、xが増加するとyが減少する。相関の有無の判定は、例えばt検定等の検定を用いて行う。   r always takes a value between -1 and 1, and there is a strong correlation when close to 1 (or -1), and no correlation when close to 0. When the correlation coefficient is a positive value, there is a positive correlation, and as x increases, y also increases. When the correlation coefficient is a negative value, there is a negative correlation, and when x increases, y decreases. The determination of the presence or absence of correlation is performed using a test such as a t test.

例えば、情報抽出装置1が、新聞2年分などの大規模データから複数セット(マラソン、台風、収賄など様々な分野のセット)に関連する情報対を抽出し、該抽出された情報対について相関分析し、情報抽出装置1が情報対の抽出結果について相関分析する。   For example, the information extraction apparatus 1 extracts information pairs related to a plurality of sets (a set of various fields such as marathon, typhoon, bribery) from large-scale data such as newspapers for two years, and correlates the extracted information pairs. The information extraction apparatus 1 performs correlation analysis on the information pair extraction result.

例えば図34に示すような相関分析結果が得られる。図34に示すデータにおける相関係数は、単位表現に関連する数値表現の間の相関係数である。検定で相関ありとされたデータについては、フラグ「1」を立てている。   For example, a correlation analysis result as shown in FIG. 34 is obtained. The correlation coefficient in the data shown in FIG. 34 is a correlation coefficient between numerical expressions related to unit expressions. A flag “1” is set for data that has been correlated in the test.

例えば、図34中の第6番目のデータ(項目表現が「間」、単位表現が「区」と「キロ」、固有表現の種類が「ORGANIZATION」であるデータ)の元データ(相関分析の対象とした元のデータ)である情報対の抽出結果を図35に示す。   For example, the original data of the sixth data in FIG. 34 (data in which the item expression is “between”, the unit expression is “ku” and “kilo”, and the type of specific expression is “ORGANIZATION”) FIG. 35 shows the extraction result of the information pair that is the original data).

図36は、図35中に示す単位表現「区」に関連する数値表現と、単位表現「キロ」に関連する数値表現とについての相関分析結果を示すグラフである。単位表現「区」に関連する数値表現と、単位表現「キロ」に関連する数値表現との間の相関係数は正(約0.783)である。また、図36に示すグラフから、例えば、どういう「区」の数値が増加すると「キロ」の数値(例えば駅伝の走行距離)が伸びるかということがわかる。   FIG. 36 is a graph showing a correlation analysis result for the numerical expression related to the unit expression “ku” shown in FIG. 35 and the numerical expression related to the unit expression “kilo”. The correlation coefficient between the numerical expression related to the unit expression “ku” and the numerical expression related to the unit expression “kilo” is positive (about 0.783). In addition, from the graph shown in FIG. 36, for example, it can be seen that when the numerical value of “K” increases, the numerical value of “kilometers” (for example, the distance traveled by relay stations) increases.

情報抽出装置1による相関分析処理によれば、相関を有している一連のデータを簡単に抽出することができる。   According to the correlation analysis process by the information extraction device 1, a series of data having correlation can be easily extracted.

なお、本発明の一実施形態によれば、情報抽出装置1が、一つの分野(例えば台風という分野)のデータから、複数種類の主要表現のセットを抽出し、相関分析に基づいて、該抽出された主要表現のセットから最終的に抽出対象とする主要表現を決定するようにしてもよい。   According to an embodiment of the present invention, the information extraction apparatus 1 extracts a set of a plurality of types of main expressions from data in one field (for example, a field called typhoon), and extracts the extracted data based on correlation analysis. The main expression to be extracted may be finally determined from the set of the main expressions.

次に、本発明の情報抽出装置1を用いた他の実験について説明する。図37は、前又は後にパターンの候補(単語又は文字列)が付随する固有表現毎のscoreを示す図である。ここで、パターンの候補とは、記事群中において固有表現の種類の前又は後に出現する単語又は文字列をいう。   Next, another experiment using the information extraction apparatus 1 of the present invention will be described. FIG. 37 is a diagram illustrating a score for each unique expression accompanied by a pattern candidate (word or character string) before or after. Here, the pattern candidate means a word or a character string that appears before or after the type of the unique expression in the article group.

すなわち、図37は、項目表現を「末端価格」、単位表現を「キロ」と「円」、固有表現の種類を「LOCATION」と「ORGANIZATION」としたときの情報抽出装置1による情報対の抽出結果に基づいて、固有表現の種類「LOCATION(地名)」について、前又は後にパターンの候補が付随する固有表現毎のscoreを示している。図37中では、scoreの大きい順にデータを表示している。   That is, FIG. 37 shows information pair extraction by the information extraction apparatus 1 when the item expression is “end price”, the unit expression is “kilo” and “yen”, and the types of specific expressions are “LOCATION” and “ORGANIZATION”. Based on the result, the score for each unique expression accompanied by a pattern candidate before or after the specific expression type “LOCATION (location name)” is shown. In FIG. 37, data is displayed in descending order of score.

図37中において、「表現」という項目は、前又は後にパターンの候補が付随する固有表現、「score」という項目は該固有表現毎のscore、「例」という項目は該固有表現の具体例を示している。   In FIG. 37, the item “expression” is a specific expression accompanied by a pattern candidate before or after, the item “score” is a score for each specific expression, and the item “example” is a specific example of the specific expression. Show.

例えば、図37中の第1番目のデータは、単語「人」が後ろ1文字として付随する固有表現のscoreが798であることを示すとともに、該固有表現の具体例がブータン|ブータン|コロンビア|コロンビア|中国|・・・であることを示している。   For example, the first data in FIG. 37 indicates that the score of the specific expression accompanying the word “person” as the last character is 798, and a specific example of the specific expression is Bhutan | Bhutan | Colombia | Colombia | China |.

上記scoreは、前述した、以下に示す式
score=Σ2つの固有表現の類似度×f(第1の固有表現,第2の固有表現)
に基づいて算出する。
The above score is the above-described formula score = Σsimilarity between two specific expressions × f (first specific expression, second specific expression)
Calculate based on

上記「2つの固有表現の類似度」は、図37中に示す「例」の項目に表示された固有表現から得られる各々の2つの固有表現(第1の固有表現と第2の固有表現)の類似度である。例えば、固有表現同士が両方とも国名、又は両方とも国名以外なら当該固有表現同士の類似度を1、固有表現同士の一方が国名で他方が国名以外なら当該固有表現同士の類似度を−1とする。   The above “similarity between two unique expressions” indicates two specific expressions (first specific expression and second specific expression) obtained from the specific expressions displayed in the item “example” shown in FIG. The degree of similarity. For example, if the unique expressions are both country names, or both are other than country names, the similarity between the specific expressions is 1, and if one of the unique expressions is a country name and the other is not a country name, the similarity between the specific expressions is -1. To do.

本発明の一実施形態によれば、固有表現同士の類似度を所定の変換式を用いて変換し、変換された類似度を用いてscoreを算出するようにしてもよい。例えば、2つの固有表現同士の類似度を、所定のベクトル生成手法によって決まる固有表現に応じたベクトル同士の角度(またはcos)とする場合、0から1の類似度を持つので、例えば、該cosの値を2倍して1を減じる等して求まる値を2つの固有表現同士の類似度とするようにしてもよい。本発明においては、他の任意の類似度の変換手法を用いるようにしてもよい。   According to an embodiment of the present invention, the similarity between specific expressions may be converted using a predetermined conversion formula, and the score may be calculated using the converted similarity. For example, when the similarity between two specific expressions is an angle (or cos) between vectors according to the specific expression determined by a predetermined vector generation method, since the similarity is 0 to 1, for example, the cos The value obtained by doubling the value of 1 and subtracting 1 may be used as the similarity between the two unique expressions. In the present invention, any other conversion method of similarity may be used.

また、f(第1の固有表現,第2の固有表現)は、第1の固有表現と第2の固有表現とで共にパターンの候補が出現した(付随する)場合、又は共にパターンの候補が出現しなかった場合は1、どちらか一方のみに上記パターンの候補が出現した場合は−1である関数である。   In addition, f (first specific expression, second specific expression) is the case where pattern candidates appear (accompany) in both the first specific expression and the second specific expression, or in which both the pattern candidates are The function is 1 when it does not appear, and is -1 when the pattern candidate appears only in one of them.

図37において、同一の「表現」に対応する2行分のデータは、上の行がパターンの候補が出現した固有表現についてのデータ、下の行がパターンの候補が出現した固有表現についてのデータである。   In FIG. 37, the data for two lines corresponding to the same “expression” includes data for a unique expression in which a pattern candidate appears in the upper line, and data for a unique expression in which the pattern candidate appears in the lower line. It is.

例えば、図37中の第1番目のデータ中の「例」の項目に表示されている固有表現「ブータン|ブータン|コロンビア|コロンビア|中国|・・・」は、パターンの候補「人」が後ろ1文字として付随する固有表現の具体例を示し、第2番目のデータ中の「例」の項目に表示されている固有表現「ロシア|伏木港|ロシア|成田空港|・・・」は、パターンの候補「人」が後ろ1文字として付随しない固有表現の具体例を示している。   For example, the specific expression “Bhutan | Bhutan | Colombia | Colombia | China | ...” displayed in the item “example” in the first data in FIG. 37 is followed by the pattern candidate “people”. The specific expression “Russia | Fushiki Port | Russia | Narita Airport |...” Displayed in the “example” item in the second data is a pattern. A specific example of a specific expression in which the candidate “person” is not attached as the last character is shown.

図37に表示されたデータを見れば、情報対として抽出される固有表現を分ける(グループ分けする)のに役立つパターン(例えば「人」や「国籍」など)を自動で取得することができていることがわかる。   By looking at the data displayed in FIG. 37, it is possible to automatically acquire patterns (for example, “people”, “nationality”, etc.) useful for separating (grouping) specific expressions extracted as information pairs. I understand that.

本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。   The present invention can also be implemented as a program that is read and executed by a computer. The program for realizing the present invention can be stored in an appropriate recording medium such as a portable medium memory, a semiconductor memory, or a hard disk, which can be read by a computer, provided by being recorded on these recording media, or communication. It is provided by transmission / reception using a network via an interface.

本発明のシステム構成の一例を示す図である。It is a figure which shows an example of the system configuration | structure of this invention. 情報対抽出部の構成例を示す図である。It is a figure which shows the structural example of an information pair extraction part. サポートベクトルマシン法のマージン最大化の概念を示す図である。It is a figure which shows the concept of margin maximization of a support vector machine method. 情報抽出処理フローの一例を示す図である。It is a figure which shows an example of an information extraction process flow. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 表示部による表示例を示す図である。It is a figure which shows the example of a display by a display part. 情報対の評価数を示す図である。It is a figure which shows the evaluation number of an information pair. 情報対についての評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示すグラフである。It is a graph which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示すグラフである。It is a graph which shows an example of the evaluation result about an information pair. 情報対の評価数を示す図である。It is a figure which shows the evaluation number of an information pair. 情報対についての評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示すグラフである。It is a graph which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示すグラフである。It is a graph which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result about an information pair. 情報対についての評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result about an information pair. 情報対を示す図である。It is a figure which shows an information pair. 情報対を示す図である。It is a figure which shows an information pair. 情報対の強調表示の例を示す図である。It is a figure which shows the example of the highlight display of an information pair. 抽出された固有表現の種類の前又は後に付随する単語、抽出された単位表現に関連する数値表現の前又は後に付随する単語を出現頻度に並べた表を示す図である。It is a figure which shows the table | surface which arranged the word which accompanies before or after the type of the extracted specific expression, and the word which accompanies before or after the numerical expression relevant to the extracted unit expression in appearance frequency. 抽出された固有表現の種類の前又は後に付随する単語、抽出された単位表現に関連する数値表現の前又は後に付随する単語を出現頻度に並べた表を示す図である。It is a figure which shows the table | surface which arranged the word which accompanies before or after the type of the extracted specific expression, and the word which accompanies before or after the numerical expression relevant to the extracted unit expression in appearance frequency. 相関分析結果を示す図である。It is a figure which shows a correlation analysis result. 情報対の抽出結果を示す図である。It is a figure which shows the extraction result of an information pair. 相関分析結果を示すグラフである。It is a graph which shows a correlation analysis result. 前又は後にパターンの候補が付随する固有表現毎のscoreを示す図である。It is a figure which shows score for every specific expression with which the pattern candidate precedes or follows.

符号の説明Explanation of symbols

1 情報抽出装置
11 主要表現抽出部
12 情報対抽出部
13 表示部
14 関連記事DB
111 主要単位表現抽出部
112 主要項目表現抽出部
113 主要固有表現抽出部
121 教師データ記憶手段
122 解−素性対抽出手段
123 機械学習手段
124 学習結果記憶手段
125 表現対抽出手段
126 素性抽出手段
127 解推定手段
128 情報対抽出手段
DESCRIPTION OF SYMBOLS 1 Information extraction apparatus 11 Main expression extraction part 12 Information pair extraction part 13 Display part 14 Related article DB
111 Main Unit Expression Extraction Unit 112 Main Item Expression Extraction Unit 113 Main Specific Expression Extraction Unit 121 Teacher Data Storage Unit 122 Solution-Feature Pair Extraction Unit 123 Machine Learning Unit 124 Learning Result Storage Unit 125 Expression Pair Extraction Unit 126 Feature Extraction Unit 127 Solution Estimating means 128 Information pair extracting means

Claims (9)

情報抽出装置であって、
項目表現と固有表現の種類を主要表現とし、主要表現である項目表現と、主要表現である固有表現の種類に属する固有表現を記事群から抽出する主要表現抽出手段と、
前記記事群から前記項目表現と前記固有表現の種類に属する固有表現が同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記固有表現との対を情報対として抽出する情報対抽出手段とを備え、
前記主要表現抽出手段が、更に、機械学習により正解のデータの素性を利用して学習し新しいデータである前記記事群から固有名詞を推定し、この推定により得られた固有名詞を含む固有表現を、前記固有表現の種類に属する固有表現として抽出し、かつ、前記固有表現の種類に属する前記固有表現の前または後に予め決められた単語が付随するか否かに基づいて前記固有表現の種類を分類し、該分類された各々の固有表現の種類のうちの少なくとも一つを主要な固有表現の種類とし、
前記情報対抽出手段が、更に、前記記事群から前記項目表現と前記主要な固有表現の種類に属する固有表現とが同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記主要な固有表現の種類に属する固有表現との対を情報対として抽出する
ことを特徴とする情報抽出装置。
An information extraction device,
The main expression extraction means for extracting from the article group the item expression that is the main expression, the item expression that is the main expression, and the specific expression that belongs to the type of the specific expression that is the main expression,
The location where the item representation and the specific representation belonging to the type of the specific representation appear simultaneously from the article group, and the pair of the item representation and the specific representation described in the identified location is information An information pair extracting means for extracting as a pair,
The main expression extraction means further uses machine learning to make use of the correct data feature to estimate proper nouns from the article group as new data, and obtains proper expressions including proper nouns obtained by the estimation. The specific expression type is extracted as a specific expression belonging to the specific expression type, and the specific expression type is determined based on whether a predetermined word is attached before or after the specific expression belonging to the specific expression type. Classifying and defining at least one of the classified proper expression types as a main proper expression type,
The information pair extraction means further identifies a location where the item representation and the specific representation belonging to the type of the main specific representation appear simultaneously from the article group, and is described in the identified location A pair of the item expression and a specific expression belonging to the type of the main specific expression is extracted as an information pair.
請求項1に記載の情報抽出装置において、
前記主要表現抽出手段が、更に、前記固有表現の種類に属するものとして抽出された前記固有表現の前又は後に付随する単語を抽出し、前記固有表現の種類に属するものとして抽出された前記固有表現同士の類似度を求め、前記求まった固有表現同士の類似度と各々の固有表現に前記抽出された単語が付随するか否かを示す情報とに基づいて決まるスコア値に基づいて、固有表現に付随した場合と付随しない場合とにおける前記固有表現の区分けの度合いが高くなる単語を決定し、該決定された単語が付随する固有表現の種類と該単語が付随しない前記固有表現の種類とをそれぞれ異なる前記主要表現の種類と分類し、該分類された固有表現の種類のうちの少なくとも一つを主要な固有表現の種類とする
ことを特徴とする情報抽出装置。
The information extraction device according to claim 1,
The main expression extraction means further extracts a word attached before or after the specific expression extracted as belonging to the specific expression type, and the specific expression extracted as belonging to the specific expression type Based on the score value determined based on the similarity between the obtained unique expressions and information indicating whether or not the extracted word is attached to each unique expression, the unique expressions are obtained. A word having a high degree of classification of the specific expression in the case where it is attached and a case where it is not attached is determined, and the type of the specific expression to which the determined word is attached and the kind of the specific expression to which the word is not attached are respectively determined. An information extraction apparatus, wherein the information is classified into different types of main expressions, and at least one of the classified types of specific expressions is set as a type of main specific expressions.
請求項1又は2に記載の情報抽出装置において、
前記主要表現抽出手段が、更に、前記記事群から、該記事群中の単語が属するクラスターを抽出して、該抽出された各クラスターを前記固有表現の種類とする
ことを特徴とする情報抽出装置。
In the information extraction device according to claim 1 or 2,
The main expression extracting means further extracts a cluster to which a word in the article group belongs from the article group, and sets each extracted cluster as a type of the unique expression. .
請求項1乃至3のいずれか1項に記載の情報抽出装置において、
前記情報対抽出手段が、更に、機械学習の手法を用いて、前記情報対を抽出する
ことを特徴とする情報抽出装置。
In the information extraction device according to any one of claims 1 to 3,
The information pair extracting unit further extracts the information pair by using a machine learning technique.
請求項1乃至4のいずれか1項に記載の情報抽出装置において、
前記情報対抽出手段が、更に、抽出した情報対の中から、所定の評価値算出式に基づいて算出される評価値に基づいて情報対を選択する
ことを特徴とする情報抽出装置。
In the information extraction device according to any one of claims 1 to 4,
The information pair extraction unit further selects an information pair from the extracted information pairs based on an evaluation value calculated based on a predetermined evaluation value calculation formula.
請求項1乃至5のいずれか1項に記載の情報抽出装置が、更に、
前記情報対抽出手段によって抽出された情報対について相関分析を行う手段を備える
ことを特徴とする情報抽出装置。
The information extraction device according to any one of claims 1 to 5, further comprising:
An information extraction apparatus comprising: means for performing correlation analysis on the information pair extracted by the information pair extraction means.
請求項1乃至6のいずれか1項に記載の情報抽出装置において、
前記情報対抽出手段によって抽出された情報対をグラフ化して表示する表示手段を備える
ことを特徴とする情報抽出装置。
In the information extraction device according to any one of claims 1 to 6,
An information extraction apparatus comprising: display means for displaying the information pairs extracted by the information pair extraction means in a graph.
情報抽出方法であって、
項目表現と固有表現の種類を主要表現とし、主要表現である項目表現と、主要表現である固有表現の種類に属する固有表現を記事群から抽出する主要表現抽出手段が、更に、機械学習により正解のデータの素性を利用して学習し新しいデータである前記記事群から固有名詞を推定し、この推定により得られた固有名詞を含む固有表現を、前記固有表現の種類に属する固有表現として抽出し、かつ、前記固有表現の種類に属する前記固有表現の前または後に予め決められた単語が付随するか否かに基づいて前記固有表現の種類を分類し、該分類された各々の固有表現の種類のうちの少なくとも一つを主要な固有表現の種類とし、
前記記事群から前記項目表現と前記固有表現の種類に属する固有表現が同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記固有表現との対を情報対として抽出する情報対抽出手段が、更に、前記記事群から前記項目表現と前記主要な固有表現の種類に属する固有表現とが同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記主要な固有表現の種類に属する固有表現との対を情報対として抽出する
ことを特徴とする情報抽出方法。
An information extraction method,
The main expression extraction means that extracts the item expression and the specific expression from the article group as the main expression, the item expression that is the main expression, and the specific expression belonging to the type of the specific expression that is the main expression. The proper noun is estimated from the article group which is new data by learning using the feature of the data, and the proper expression including the proper noun obtained by this estimation is extracted as the proper expression belonging to the type of the proper expression. And classifying the types of the specific expressions based on whether or not a predetermined word is attached before or after the specific expressions belonging to the types of the specific expressions, and the types of the classified specific expressions At least one of
The location where the item representation and the specific representation belonging to the type of the specific representation appear simultaneously from the article group, and the pair of the item representation and the specific representation described in the identified location is information The information pair extraction means for extracting as a pair further identifies a location where the item representation and the specific representation belonging to the type of the main specific representation appear simultaneously from the article group, and describes the identified location An information extraction method comprising: extracting, as an information pair, a pair of the item expression and the specific expression belonging to the main specific expression type.
情報抽出プログラムであって、
コンピュータに、
項目表現と固有表現の種類を主要表現とし、主要表現である項目表現と、主要表現である固有表現の種類に属する固有表現を記事群から抽出する処理と、
更に、機械学習により正解のデータの素性を利用して学習し新しいデータである前記記事群から固有名詞を推定し、この推定により得られた固有名詞を含む固有表現を、前記固有表現の種類に属する固有表現として抽出し、かつ、前記固有表現の種類に属する前記固有表現の前または後に予め決められた単語が付随するか否かに基づいて前記固有表現の種類を分類し、該分類された各々の固有表現の種類のうちの少なくとも一つを主要な固有表現の種類とする処理と、
更に、前記記事群から前記項目表現と前記主要な固有表現の種類に属する固有表現とが同時に出現している箇所を特定し、該特定された箇所に記載されている前記項目表現と前記主要な固有表現の種類に属する固有表現との対を情報対として抽出する処理とを実行させる
ことを特徴とする情報抽出プログラム。
An information extraction program,
On the computer,
The type of item expression and specific expression is the main expression, the item expression that is the main expression, and the specific expression belonging to the type of specific expression that is the main expression from the article group,
Further, the proper nouns are estimated from the article group as new data by learning using the features of correct data by machine learning, and the proper expressions including the proper nouns obtained by this estimation are converted into the types of the proper expressions. The specific expression type is extracted based on whether or not a predetermined word is attached before or after the specific expression belonging to the specific expression type. A process in which at least one of the types of specific expressions is a type of main specific expressions;
Furthermore, the part where the item expression and the specific expression belonging to the type of the main specific expression appear simultaneously from the article group, and the item expression and the main expression described in the specified part are specified. An information extraction program for executing a process of extracting a pair with a specific expression belonging to a type of specific expression as an information pair.
JP2007130218A 2007-05-16 2007-05-16 Information extraction apparatus, information extraction method, and information extraction program Expired - Fee Related JP5182845B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007130218A JP5182845B2 (en) 2007-05-16 2007-05-16 Information extraction apparatus, information extraction method, and information extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007130218A JP5182845B2 (en) 2007-05-16 2007-05-16 Information extraction apparatus, information extraction method, and information extraction program

Publications (2)

Publication Number Publication Date
JP2008287388A JP2008287388A (en) 2008-11-27
JP5182845B2 true JP5182845B2 (en) 2013-04-17

Family

ID=40147065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007130218A Expired - Fee Related JP5182845B2 (en) 2007-05-16 2007-05-16 Information extraction apparatus, information extraction method, and information extraction program

Country Status (1)

Country Link
JP (1) JP5182845B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171071B2 (en) 2010-03-26 2015-10-27 Nec Corporation Meaning extraction system, meaning extraction method, and recording medium
CN111026937B (en) * 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 Method, device and equipment for extracting POI name and computer storage medium
JP7363577B2 (en) * 2020-02-28 2023-10-18 株式会社村田製作所 Document classification device, learning method, and learning program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258723A (en) * 2003-02-24 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> Topic extraction device, topic extraction method and program

Also Published As

Publication number Publication date
JP2008287388A (en) 2008-11-27

Similar Documents

Publication Publication Date Title
Sadegh et al. Opinion mining and sentiment analysis: A survey
Alam et al. Cyberbullying detection: an ensemble based machine learning approach
Khandelwal et al. Gender prediction in english-hindi code-mixed social media content: Corpus and baseline system
US9836455B2 (en) Apparatus, method and computer-accessible medium for explaining classifications of documents
Ahmed Detecting opinion spam and fake news using n-gram analysis and semantic similarity
Tariq et al. Exploiting topical perceptions over multi-lingual text for hashtag suggestion on twitter
Shah et al. A hybridized feature extraction approach to suicidal ideation detection from social media post
Nabil et al. Labr: A large scale arabic sentiment analysis benchmark
Raghuvanshi et al. A brief review on sentiment analysis
Mozafari et al. Emotion detection by using similarity techniques
JP4849596B2 (en) Question answering apparatus, question answering method, and question answering program
Lamba et al. A survey on plagiarism detection techniques for indian regional languages
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus
Chandio et al. Sentiment analysis of roman Urdu on e-commerce reviews using machine learning
Al-Saqqa et al. Stemming effects on sentiment analysis using large arabic multi-domain resources
KR101593371B1 (en) Propensity classification device for text data and Decision support systems using the same
CN102662987A (en) Classification method of web text semantic based on Baidu Baike
Najibullah Indonesian text summarization based on naïve bayes method
JP2009237640A (en) Information extraction device, information extraction method, and information extraction program
JP5182845B2 (en) Information extraction apparatus, information extraction method, and information extraction program
Hussain et al. A technique for perceiving abusive bangla comments
AbuRa'ed et al. What sentence are you referring to and why? identifying cited sentences in scientific literature
CN112949287B (en) Hot word mining method, system, computer equipment and storage medium
JP4919386B2 (en) Information extraction / display device
Perevalov et al. Question embeddings based on shannon entropy: Solving intent classification task in goal-oriented dialogue system

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090428

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090428

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120706

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130110

R150 Certificate of patent or registration of utility model

Ref document number: 5182845

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees