JP5542732B2 - Data extraction apparatus, data extraction method, and program thereof - Google Patents
Data extraction apparatus, data extraction method, and program thereof Download PDFInfo
- Publication number
- JP5542732B2 JP5542732B2 JP2011094885A JP2011094885A JP5542732B2 JP 5542732 B2 JP5542732 B2 JP 5542732B2 JP 2011094885 A JP2011094885 A JP 2011094885A JP 2011094885 A JP2011094885 A JP 2011094885A JP 5542732 B2 JP5542732 B2 JP 5542732B2
- Authority
- JP
- Japan
- Prior art keywords
- entity
- attribute
- positive
- target
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、テキストデータの集合からデータを抽出する技術に関し、特に、特定の内容と関連を持つ文字列を入力として同じような関連を持つ文字列をテキストデータの集合から抽出する技術に関する。 The present invention relates to a technique for extracting data from a set of text data, and more particularly to a technique for extracting a character string having a similar relationship from a set of text data using a character string having a relationship with a specific content as an input.
現在様々な自然言語処理技術の研究開発が進み、WEBのような膨大な知識源から必要な情報を抽出する手法が多く存在している。そのような手法の一つに、特定の内容と何らかの関連を持つ文字列(例えば<広島>や<阪神>など)を入力として、大量のテキストデータ(例えば文書データ)から同じような関連を持つ文字列(例えば<ヤクルト>など)を収集するものがある。このような手法を「set expansion」と呼ぶ。また、set expansionで扱われる文字列を「エンティティ」と呼び、抽出対象のエンティティを「正例エンティティ」と呼び、抽出しない(抽出対象としない)エンティティを「負例エンティティ」と呼ぶ。さらに、set expansionにおいて最初に入力されるエンティティを「シードエンティティ」と呼び、正例のシードエンティティを「正例シードエンティティ」と呼び、負例のシードエンティティを「負例シードエンティティ」と呼ぶ。 Currently, various natural language processing technologies are being researched and developed, and there are many methods for extracting necessary information from a vast knowledge source such as WEB. One of such methods is to input a character string (for example, <Hiroshima>, <Hanshin>, etc.) that has some relationship with specific contents, and have a similar relationship from a large amount of text data (for example, document data). Some collect character strings (eg <Yakult>). Such a method is called “set expansion”. A character string handled in set expansion is called an “entity”, an extraction target entity is called a “positive example entity”, and an entity that is not extracted (not an extraction target) is called a “negative example entity”. Furthermore, the entity that is input first in the set expansion is called “seed entity”, the positive seed entity is called “positive seed entity”, and the negative seed entity is called “negative seed entity”.
以下、従来のset expansionの一例を概説する。
ステップI:正例エンティティ(例えば<広島>や<阪神>など)を含むテキストデータを用いて当該正例エンティティの素性を抽出し、負例エンティティ(例えば<彗星>)を含むテキストデータを用いて当該負例エンティティの素性を抽出(素性化)する。なお、正例エンティティの初期値は正例シードエンティティであり、負例エンティティの初期値は負例シードエンティティである。
ステップII:ステップIで得られた正例エンティティの素性と負例エンティティの素性とを学習データとし、任意のエンティティが正例エンティティであるか負例エンティティであるかを識別するための識別モデルを生成する。
ステップIII:テキストデータから識別前のエンティティ(例えば<ヤクルト>)とその素性と抽出し、ステップIIで得られた識別モデルを用いて当該未知のエンティティの識別を行う。
ステップIV:正例エンティティであると識別されたエンティティのうち信頼度の高いものの素性と、負例エンティティであると推定されたエンティティのうち信頼度の低いものの素性とを学習データに加える。
ステップV:収束条件を満たすか否かを判定し、満たさない場合はステップIに戻って処理を繰り返す。収束条件を満たす場合は処理を終了する。このように一度学習したモデルに基づいて識別を行い、それを新たな学習データとして用いていく繰り返し学習の枠組みをブートストラップ法と呼ぶ。
Hereinafter, an example of a conventional set expansion will be outlined.
Step I: Using text data containing positive example entities (eg <Hiroshima>, <Hanshin>, etc.) The feature of the negative example entity is extracted (featured). The initial value of the positive example entity is a positive example seed entity, and the initial value of the negative example entity is a negative example seed entity.
Step II: Using the identity of the positive example entity and the identity of the negative example entity obtained in Step I as learning data, an identification model for identifying whether any entity is a positive example entity or a negative example entity Generate.
Step III: An entity before identification (for example, <Yakult>) and its features are extracted from text data, and the unknown entity is identified using the identification model obtained in Step II.
Step IV: Add the features of the entities that are identified as positive example entities with high reliability and the features of the entities that are estimated to be negative example entities with low reliability to the learning data.
Step V: Determine whether or not the convergence condition is satisfied. If not, return to Step I and repeat the process. If the convergence condition is satisfied, the process is terminated. A framework for iterative learning in which identification is performed based on a once learned model and used as new learning data is called a bootstrap method.
次に、set expansionの他の例であるTChai(例えば、非特許文献1参照)を概説する。TChaiでは、リソースとして検索クエリログ(以下クエリログ)が用いられる。クエリログとは、キーワード検索に用いられるユーザからのクエリ(数単語からなるキーワード)の集合である。
ステップA:正例シードエンティティと共起する単語であるパターンpをクエリログから抽出し、それらを正例シードエンティティの素性とする。このステップは最初の一回のみ行う。
ステップB:正例エンティティであるかが未知のエンティティeとそれと共起するパターンpとの2項におけるPMI(Pointwise Mutual Information)を計算する。
また、このエンティティeに対し、エンティティ信頼度rEとパターン信頼度rPを計算する。rE, rPは以下で定義される。
ステップC:エンティティ信頼度rEに基づきエンティティeを新たな正例エンティティとするか否かを判定する。
ステップD:必要な数の正例エンティティが得られていない場合にはステップBに戻って処理を繰り返す。必要な数の正例エンティティが得られた場合には処理を終了する。
Next, TChai which is another example of set expansion (for example, see Non-Patent Document 1) will be outlined. In TChai, a search query log (hereinafter referred to as query log) is used as a resource. A query log is a set of queries (keywords consisting of several words) from a user used for keyword search.
Step A: The pattern p, which is a word that co-occurs with the positive seed entity, is extracted from the query log, and is used as a feature of the positive seed entity. This step is only performed once.
Step B: PMI (Pointwise Mutual Information) in two terms of the entity e unknown to be a positive example entity and the pattern p co-occurring with it is calculated.
In addition, an entity reliability r E and a pattern reliability r P are calculated for this entity e. r E and r P are defined below.
Step C: It is determined whether or not the entity e is a new positive entity based on the entity reliability r E.
Step D: If the required number of positive entity is not obtained, return to Step B and repeat the process. If the required number of positive entity is obtained, the process is terminated.
従来のset expansionにはセマンティックドリフトという課題が存在する。
例えば球団名を表す<広島><阪神>という正例シードエンティティに対して、従来のset expansionにより正例エンティティ<ヤクルト>が獲得できたとする。<ヤクルト>は飲料名でもあるので、<ヤクルト>を新たに正例エンティティに追加することで次のイテレーションでは<コーラ>等の飲料系のエンティティが正例エンティティとして獲得されるようになり、獲得される正例エンティティの話題がシフトしていく可能性がある。このように獲得される正例エンティティの話題がシフトしていく現象をセマンティックドリフトと呼ぶ。
TChaiではセマンティックドリフトの影響を抑えるために、前述した信頼度を用い、どのクエリにも共通して出やすい一般性の強いエンティティ及びパターンを選択しないアルゴリズムとなっている。しかし、TChaiにおいてもなおセマンティックドリフトは起こり得るため、別な観点からのセマンティックドリフト軽減が望まれる。
The conventional set expansion has a problem of semantic drift.
For example, suppose that the positive entity <Yakult> can be acquired by the conventional set expansion for the positive seed entity <Hiroshima><Hanshin> representing the team name. <Yakult> is also a beverage name, so by adding <Yakult> to a new example entity, a beverage-type entity such as <Cola> will be acquired as a normal entity in the next iteration. There is a possibility that the topic of positive example entities will shift. The phenomenon that the topic of positive entity acquired in this way shifts is called semantic drift.
In TChai, in order to suppress the influence of semantic drift, the above-mentioned reliability is used, and an algorithm that does not select general entities and patterns that tend to appear in any query in common is used. However, semantic drift can still occur in TChai, so it is desirable to reduce semantic drift from another perspective.
本発明はこのような点に鑑みてなされたものであり、セマンティックドリフトを軽減することが可能な技術を提供することを目的とする。 The present invention has been made in view of such a point, and an object thereof is to provide a technique capable of reducing the semantic drift.
本発明の第1態様では、テキストデータに対する複数のトピックの候補の適切さを指標値として表すトピック情報と、当該テキストデータとの関係を記述するトピックモデルを、テキストデータから得られる教師なし学習データを用いて学習し、抽出対象の文字列である正例エンティティを含むテキストデータのトピックに対応してトピックモデルから抽出した正例トピック情報を正例エンティティの素性の少なくとも一部とし、抽出対象としない文字列である負例エンティティを含むテキストデータのトピックに対応してトピックモデルから抽出した負例トピック情報を負例エンティティの素性の少なくとも一部とし、正例エンティティの素性と負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成し、テキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択したテキストデータのトピックに対応してトピックモデルから抽出したトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を識別モデルに入力して対象エンティティが正例エンティティか負例エンティティかを識別し、対象エンティティが正例エンティティであると識別した場合に対象エンティティを正例エンティティとし、対象エンティティが負例エンティティであると識別した場合に対象エンティティを負例エンティティとする。 In the first aspect of the present invention, unsupervised learning data obtained from text data is a topic model that describes the relationship between topic information representing the appropriateness of a plurality of topic candidates for text data as an index value and the text data. The example topic information extracted from the topic model corresponding to the topic of the text data including the example entity that is the character string to be extracted is used as at least part of the features of the example entity, The negative example topic information extracted from the topic model corresponding to the topic of the text data containing the negative example entity that is a non-character string is set as at least part of the negative example entity feature, and the positive example entity feature and the negative example entity feature By using the learning process with supervised learning data, An entity that is a character string included in text data selected from a set of text data by generating an identification model that is a function that outputs information for identifying whether the entity is a positive example entity or negative example entity Is the target entity, the topic information extracted from the topic model corresponding to the topic of the selected text data is used as at least a part of the feature of the target entity, and the feature of the target entity is input to the identification model. Identify positive entity or negative entity, identify target entity as positive entity when target entity is identified as positive entity, and negative target entity when target entity is identified as negative entity Example entity To.
本発明の第2態様では、抽出対象の文字列である正例エンティティの集合から選択した第1正例エンティティと正例エンティティの属性を表す文字列である正例属性の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアと、抽出対象としない文字列である負例エンティティの集合から選択した第1負例エンティティと負例エンティティの属性を表す文字列である負例属性の集合から選択した第1負例属性との組である第1負例エンティティ−負例属性ペアとを生成し、テキストデータの集合から、第1正例エンティティと第1正例属性との組を含む文字列を選択し、選択した当該文字列に対する第1正例エンティティ−正例属性ペアの特徴を表す情報を当該第1正例エンティティ−正例属性ペアの素性の少なくとも一部とし、テキストデータの集合から、第1負例エンティティと第1負例属性との組を含む文字列を選択し、選択した当該文字列に対する第1負例エンティティ−負例属性ペアの特徴を表す情報を当該第1負例エンティティ−負例属性ペアの素性の少なくとも一部とし、第1正例エンティティ−正例属性ペアの素性と第1負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第1識別モデルを生成し、テキストデータの集合から何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティとして選択し、選択した当該テキストデータから当該第1対象エンティティと異なる文字列を第1対象属性として選択し、第1対象エンティティと第1対象属性との組を第1対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での第1対象エンティティ−対象属性ペアの特徴を表す情報を当該第1対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第1対象エンティティ−対象属性ペアの素性を第1識別モデルに入力して当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、第1対象属性を正例属性の集合に追加し、当該第1対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、第1対象属性を負例属性の集合に追加し、正例エンティティの集合から選択した第2正例エンティティと正例属性の集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアと、負例エンティティの集合から選択した第2負例エンティティと負例属性の集合から選択した第2負例属性との組である第2負例エンティティ−負例属性ペアとを生成し、テキストデータの集合から、第2正例エンティティと第2正例属性との組を含む文字列を選択し、選択した当該文字列に対する第2正例エンティティ−正例属性ペアの特徴を表す情報を当該第2正例エンティティ−正例属性ペアの素性の少なくとも一部とし、テキストデータの集合から、第2負例エンティティと第2負例属性との組を含む文字列を選択し、選択した当該文字列に対する第2負例エンティティ−負例属性ペアの特徴を表す情報を当該第2負例エンティティ−負例属性ペアの素性の少なくとも一部とし、第2正例エンティティ−正例属性ペアの素性と第2負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第2識別モデルを生成し、テキストデータの集合から何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティとして選択し、選択した当該テキストデータから当該第2対象エンティティと異なる文字列を第2対象属性として選択し、第2対象エンティティと第2対象属性との組を第2対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での第2対象エンティティ−対象属性ペアの特徴を表す情報を当該第2対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第2対象エンティティ−対象属性ペアの素性を第2識別モデルに入力して当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、第2エンティティを正例エンティティの集合に追加し、当該第2対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、第2対象エンティティを負例エンティティの集合に追加する。 In the second aspect of the present invention, the first positive example entity selected from the set of positive example entities that are the character strings to be extracted and the first selected from the set of positive example attributes that are character strings representing the attributes of the positive example entities. Characters representing the attributes of the first negative example entity and the negative example entity selected from the set of the first positive example entity-positive example attribute pair that is a pair with the positive example attribute and the negative example entity that is a character string that is not to be extracted. A first negative example entity-negative example attribute pair that is a set with a first negative example attribute selected from a set of negative example attributes that are columns is generated, and the first positive example entity and the first are generated from the set of text data. A character string including a pair with a positive example attribute is selected, and information indicating the characteristics of the first positive example entity-positive example attribute pair for the selected character string is used as the feature of the first positive example entity-positive example attribute pair. Less From the set of text data, a character string including a pair of the first negative example entity and the first negative example attribute is selected, and the first negative example entity-negative example attribute pair for the selected character string is selected. Information representing the characteristics is at least part of the features of the first negative example entity-negative example attribute pair, and the features of the first positive example entity-positive example attribute pair and the features of the first negative example entity-negative example attribute pair Through the learning process using supervised learning data as an input, the entity-attribute pair is a positive example entity-positive example attribute by inputting the identity of the entity-attribute pair that is a set of an entity that is an arbitrary character string and the attribute of the entity. A first identification model, which is a function for outputting information for identifying a pair or a negative example entity-negative example attribute pair, is generated, and is selected from a set of text data. Select text data, select a character string included in the selected text data as a first target entity, select a character string different from the first target entity from the selected text data as a first target attribute, A set of the target entity and the first target attribute is defined as a first target entity-target attribute pair, and information representing the characteristics of the first target entity-target attribute pair in the selected text data is the first target entity-target. At least part of the feature of the attribute pair, the feature of the first target entity-target attribute pair is input to the first identification model, and the first target entity-target attribute pair is a positive entity-positive attribute pair or negative Identify whether it is an example entity-negative example attribute pair, and the first target entity-target attribute pair is a positive example entity -When it is identified as a positive example attribute pair, the first target attribute is added to the set of positive example attributes, and the first target entity-target attribute pair is identified as a negative example entity-negative example attribute pair. The first target attribute is added to the set of negative example attributes, and the second positive example entity selected from the set of positive example entities and the second positive example attribute selected from the set of positive example attributes A second negative example entity-negative that is a set of two positive example entity-positive example attribute pairs, a second negative example entity selected from the set of negative example entities, and a second negative example attribute selected from the set of negative example attributes An example attribute pair is generated, a character string including a pair of a second positive example entity and a second positive example attribute is selected from a set of text data, and a second positive example entity-positive example for the selected character string is selected. Information representing the characteristics of attribute pairs Is selected as a character string that includes a pair of the second negative example entity and the second negative example attribute from the set of text data, and at least part of the feature of the second positive example entity-positive example attribute pair. Information representing the characteristics of the second negative example entity-negative example attribute pair for the character string is at least part of the features of the second negative example entity-negative example attribute pair, and the second positive example entity-positive example attribute pair The feature of the entity-attribute pair that is a set of an entity that is an arbitrary character string and the attribute of the entity is obtained by learning processing using the feature and the feature of the second negative example entity-negative example attribute pair as supervised learning data. A function that outputs information for identifying whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair. A second identification model is generated, any text data is selected from a set of text data, a character string included in the selected text data is selected as a second target entity, and the second target is selected from the selected text data. A character string different from the entity is selected as a second target attribute, and a set of the second target entity and the second target attribute is set as a second target entity-target attribute pair, and the second target entity in the selected text data- Information representing the characteristics of the target attribute pair is set as at least a part of the feature of the second target entity-target attribute pair, and the feature of the second target entity-target attribute pair is input to the second identification model, and the second target Identifies whether the entity-target attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair; When the second target entity-target attribute pair is identified as a positive entity-positive attribute pair, the second entity is added to the set of positive entities, and the second target entity-target attribute pair is negative. If it is identified as an example entity-negative example attribute pair, the second target entity is added to the set of negative example entities.
上述のように本発明では、トピック情報及び属性の少なくとも一方がエンティティの識別に反映されるため、セマンティックドリフトを軽減できる。 As described above, in the present invention, since at least one of topic information and attributes is reflected in entity identification, semantic drift can be reduced.
以下、図面を参照して本発明の実施形態を説明する。
〔第1実施形態〕
<構成>
図1は、第1実施形態のデータ抽出装置1の機能構成を例示するためのブロック図である。
図1に例示するように、データ抽出装置1は、記憶部11a−11e、トピック付与部12、素性抽出部13、トピック情報抽出部14、識別学習部15、エンティティ識別部16、収束判定部17、出力部18、及び制御部19を有し、制御部19の制御のもと各処理を実行する。なお、データ抽出装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)及びROM(read-only memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。例えば、記憶部11a−11eは、ハードディスクや半導体メモリなどであり、トピック付与部12、素性抽出部13、トピック情報抽出部14、識別学習部15、エンティティ識別部16、収束判定部17、出力部18、及び制御部19は、特別なプログラムが読み込まれたCPUなどである。また、これらの少なくとも一部が集積回路などによって構成されてもよい。また、図1に表記された矢印は情報の流れを表すが、表記の都合上一部の矢印が省略されている(以降に述べる他のブロック図も同様)。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
<Configuration>
FIG. 1 is a block diagram for illustrating a functional configuration of a
As illustrated in FIG. 1, the
<事前処理>
事前処理として、記憶部11aにテキストデータの集合Dが格納され、記憶部11bにトピックモデルTM0が格納される。
テキストデータとは、文字テキストを含むデータを意味する。テキストデータの例は、文書データ、クエリ、語句を含む図表データ、フレーズデータ、単語列データなどである。本形態では、形態素解析、固有表現抽出、係り受け解析、文境界同定などの前処理を行った後の文書データをテキストデータとした例を示す。
<Pre-processing>
As pre-processing, a set D of text data stored in the
Text data means data including character text. Examples of text data are document data, queries, chart data including phrases, phrase data, word string data, and the like. In this embodiment, an example is shown in which document data after preprocessing such as morphological analysis, specific expression extraction, dependency analysis, sentence boundary identification, and the like is used as text data.
「トピックモデルTM0」とは、テキストデータに対応するトピックに対応するトピック情報とそのテキストデータが含む文字列との関係を記述するモデル(関数、数式)を意味する。「文字列」の具体例は、単語、単語列、フレーズ、文、文字、記号などである。テキストデータに対応するトピックとは、テキストデータのトピック(題目、話題、事柄、出来事、論題、分類など)を意味する。テキストデータがトピックを表す単語そのものを含んでいるとは限らない。また、トピック情報は、テキストデータに対応するトピックに対応する情報であればどのようなものであってもよい。例えば、テキストデータに対応するトピックの候補(例えば<球団名>や<企業名>など)ごとに、当該テキストデータに対する各トピックの候補の適切さを表す指標(例えば、確率、重み係数、確率や重み係数の関数値であるスコアなど)が与えられ、それらの指標の少なくとも一部が当該テキストデータのトピック情報とされてもよい。 “Topic model TM 0 ” means a model (function, formula) describing the relationship between topic information corresponding to a topic corresponding to text data and a character string included in the text data. Specific examples of the “character string” include a word, a word string, a phrase, a sentence, a character, and a symbol. The topic corresponding to the text data means a topic (text, topic, matter, event, topic, classification, etc.) of the text data. The text data does not always include the word representing the topic itself. The topic information may be any information as long as it corresponds to the topic corresponding to the text data. For example, for each topic candidate corresponding to the text data (for example, <Team name> or <Company name>), an index (for example, probability, weight coefficient, probability, A score which is a function value of the weighting coefficient) is given, and at least a part of the indices may be the topic information of the text data.
トピックモデルは、事前に教師なし学習データ(トピック情報との関係が特定されていないテキストデータから得られる学習データ)から獲得しておく。例えば、WEB上の100万個の文書データから所望のエンティティを獲得したい場合には、これら100万個の文書データから得られた学習データを用いてトピックモデルを学習しておく。
トピックモデルTM0の具体例は、UM(Unigram Mixtures)(Andrew K. McCallum, Kamal Nigam, "Employing EM and Pool-Based Active Learning for Text Classification", ICML'98, 1998等参照)、LDA(Latent Dirichlet Allocation)、DM(Dirichlet Mixtures)などである。以下にトピックモデルTM0としてUMを用いる例を示す。
この場合のトピックモデルTM0は以下の形で定義される。
Specific examples of Topic Model TM 0 are UM (Unigram Mixtures) (Andrew K. McCallum, Kamal Nigam, "Employing EM and Pool-Based Active Learning for Text Classification", ICML'98, 1998, etc.), LDA (Latent Dirichlet Allocation) and DM (Dirichlet Mixtures). An example of using the UM as topic models TM 0 below.
Topic model TM 0 in this case is defined by the following form.
トピックモデルTM0の学習は繰り返し最適化手法の1種であるEMアルゴリズムを用いて行われ、学習によってパラメータp(z), p(v|z)が得られる。得られた各パラメータp(z), p(v|z)はトピックモデルTM0を特定する情報として記憶部11bに格納される。これはトピックモデルTM0が記憶部11bに格納されることと同等である。
Learning topic model TM 0 is performed using the EM algorithm is a type of iterative optimization techniques, parameters by learning p (z), p (v | z) is obtained. Each resulting parameters p (z), p (v | z) is stored in the
なお、本形態ではテキストデータが含む文字列を「エンティティ」と呼び、抽出対象のエンティティを「正例エンティティ」と呼び、抽出しない(抽出対象としない)エンティティを「負例エンティティ」と呼ぶ。また、最初に入力されるエンティティを「シードエンティティ」と呼び、正例のシードエンティティを「正例シードエンティティ」と呼び、負例のシードエンティティを「負例シードエンティティ」と呼ぶ。 In this embodiment, a character string included in text data is referred to as an “entity”, an extraction target entity is referred to as a “positive example entity”, and an entity that is not extracted (not extracted) is referred to as a “negative example entity”. Also, the first input entity is called “seed entity”, the positive seed entity is called “positive seed entity”, and the negative seed entity is called “negative seed entity”.
<データ抽出処理>
図3は、第1実施形態のデータ抽出装置1のデータ抽出処理を例示するための図である。以下、図3を用いてデータ抽出装置1のデータ抽出処理を例示する。
《初期化:ステップS11》
制御部19がjの値をj=1に初期化する。
《トピック付与:ステップS12》
トピック付与部12が、記憶部11bに格納されたトピックモデルTM0を用い、記憶部11aに格納されたテキストデータの集合Dが含む各テキストデータのトピックに対応するトピック情報をそれぞれ生成する。トピック付与部12は、生成した各トピック情報をそれに対応する各テキストデータに対応付け、テキストデータとトピック情報とを含むトピック情報付きテキストデータを生成する。生成されたトピック情報付きテキストデータの集合D'は記憶部11cに格納される。なお、各テキストデータのトピックに対応する情報であれば、どのような情報をトピック情報としてもよい。以下に、UMをトピックモデルTM0として生成されるトピック情報を例示する。
<Data extraction process>
FIG. 3 is a diagram for illustrating data extraction processing of the
<< Initialization: Step S11 >>
The
<< Topic Assignment: Step S12 >>
[トピック情報の例]
トピック付与部12は、記憶部11bに格納されたトピックモデルTM0のパラメータp(z), p(v|z)とテキストデータd及び文字列vから得られるndvを用い、式(4)に従って、記憶部11aに格納されたテキストデータの集合Dに属するテキストデータdに対応するp(d)を計算できる。また、確率の乗法定理より、トピック付与部12は、p(z), p(v|z)を用い、z, vについての同時確率p(z,v)を以下のように求めることができる。
p(z,v)=p(z)p(v|z) …(5)
また、トピック付与部12は、p(z,v)及びndvを用い、z, dについての同時確率p(z,d)を以下のように求めることができる。
p(d|z)=p(z,d)/p(z) …(7)
またさらに、ベイズの定理より、トピック付与部12は、得られたp(d), p(d|z)及びp(z)を用い、テキストデータdが与えられたときの隠れ変数zの事後確率p(z|d)を以下のように求めることができる。
p(z|d)=p(d|z)p(z)/p(d) …(8)
[Example of topic information]
The
p (z, v) = p (z) p (v | z)… (5)
Also, the
p (d | z) = p (z, d) / p (z) (7)
Furthermore, according to Bayes' theorem, the
p (z | d) = p (d | z) p (z) / p (d)… (8)
すなわち、トピック付与部12は、記憶部11bに格納されたトピックモデルTM0のパラメータp(z), p(v|z)を用い、任意のテキストデータdに対する隠れ変数zの事後確率p(z|d)を計算できる。なお、事後確率p(z|d)の計算手順は上記のものに限定されない。最終的にp(z|d)が得られるのであればどのような計算手順で事後確率p(z|d)が計算されてもよい。
That is, the
事後確率p(z|d)はトピックの候補の適切さを表す指標であり、これらをトピック情報とすることができる。以下、このようなトピック情報を例示する。
トピック情報の例1:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、事後確率の大きな上位N個の隠れ変数zn'とそれらにそれぞれ対応する事後確率p(zn'|d)又は当該事後確率p(zn'|d)の写像との組をテキストデータdのトピック情報とする。なお、Nは1以上Z以下の自然数定数である。例えば、N=1であり、p(z5|d)=0.95が最大の事後確率である場合、隠れ変数z5と事後確率p(z5|d)=0.95との組をテキストデータdのトピック情報とする。
The posterior probability p (z | d) is an index representing the appropriateness of the topic candidates, and these can be used as topic information. Hereinafter, such topic information will be exemplified.
Topic information example 1: Among the posterior probabilities p (z n | d) (n = 1,..., Z) corresponding to the hidden variables z n corresponding to the candidates for each topic, the top having the largest posterior probability The topic information of the text data d is a set of N hidden variables z n ′ and corresponding posterior probabilities p (z n ′ | d) or mappings of the posterior probabilities p (z n ′ | d). . N is a natural number constant between 1 and Z. For example, if N = 1 and p (z 5 | d) = 0.95 is the maximum posterior probability, the set of hidden variable z 5 and posterior probability p (z 5 | d) = 0.95 Use topic information.
トピック情報の例2:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、事後確率の大きな上位N個の隠れ変数zn'又は当該隠れ変数zn'の写像をテキストデータdのトピック情報とする。例えば、N=1であり、p(z5|d)=0.95が最大の事後確率である場合、隠れ変数z5をテキストデータdのトピック情報とする。 Topic information example 2: Among the posterior probabilities p (z n | d) (n = 1,..., Z) corresponding to the hidden variables z n corresponding to the candidates for each topic, the top with the largest posterior probability Let N hidden variables z n ′ or a map of the hidden variables z n ′ be topic information of the text data d. For example, if N = 1 and p (z 5 | d) = 0.95 is the maximum posterior probability, the hidden variable z 5 is set as the topic information of the text data d.
トピック情報の例3:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、上位N個の事後確率p(zn'|d)又は当該事後確率p(zn'|d)の写像をそれぞれn'次元目の要素とし、他のZ-N個の要素を0としたZ次元ベクトルをテキストデータdのトピック情報とする。例えばN=1であり、p(z2|d)=0.95が最大の事後確率である場合、Z次元ベクトル(0, 0.95, 0,...,0)をテキストデータdのトピック情報とする。 Topic information example 3: Top N posteriors of each posterior probability p (z n | d) (n = 1, ..., Z) corresponding to each hidden variable z n corresponding to each topic candidate A mapping of probability p (z n ' | d) or posterior probability p (z n' | d) to each element of the n'th dimension and a Z-dimensional vector with the other ZN elements to 0 as text data d Topic information. For example, if N = 1 and p (z 2 | d) = 0.95 is the maximum posterior probability, the Z-dimensional vector (0, 0.95, 0, ..., 0) is used as the topic information of the text data d. .
トピック情報の例4:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、上位N個の事後確率p(zn'|d)にそれぞれ対応するn'次元目の要素を第1定数(例えば1)とし、他のZ-N個の要素を第2定数(例えば0)としたZ次元ベクトルをテキストデータdのトピック情報とする。例えばN=1であり、p(z2|d)=0.95が最大の事後確率である場合、Z次元ベクトル(0, 1, 0,...,0)をテキストデータdのトピック情報とする。 Topic information example 4: The top N posteriors of the posterior probabilities p (z n | d) (n = 1,..., Z) corresponding to the hidden variables z n corresponding to the candidate candidates. A Z-dimensional vector with the n'th element corresponding to each probability p (z n ' | d) as the first constant (eg 1) and the other ZN elements as the second constant (eg 0) as text The topic information of data d. For example, when N = 1 and p (z 2 | d) = 0.95 is the maximum posterior probability, the Z-dimensional vector (0, 1, 0, ..., 0) is used as topic information of the text data d. .
トピック情報の例5:トピック情報の例1又は2において、「事後確率の大きな上位N個の隠れ変数zn'」を「事後確率が閾値以上となる隠れ変数zn'」に置換した方法でテキストデータdのトピック情報を定める。 Topic information example 5: In the topic information example 1 or 2, “the top N hidden variables z n ′ having a large posterior probability” are replaced with “hidden variables z n ′ having a posterior probability equal to or greater than a threshold”. Define topic information for text data d.
トピック情報の例6:トピック情報の例3又は4において、「上位N個の事後確率p(zn'|d)」を「閾値以上の事後確率p(zn'|d)」に置換した方法でテキストデータdのトピック情報を定める。 Examples of topical information 6: In Example 3 or 4 topic information, "top N posterior probability p (z n was replaced with '| | d)" and "(z n threshold or more posterior probability p' d)" The topic information of the text data d is determined by the method.
図4は、記憶部11aに格納されたテキストデータの集合Dを例示した図であり、図5Aは、トピック情報付きテキストデータの集合D'を例示した図である。図4に例示したテキストデータの集合Dは、前処理を行った後の文書データであるテキストデータと当該テキストデータのIDとが対応付けされたデータである。また、図5Aに例示したトピック情報付きテキストデータの集合D'は、テキストデータと、当該テキストデータのIDと、当該テキストデータに対してトピック情報の例1によって生成されたトピック情報とが対応付けされたデータである。このように、トピック情報はテキストデータごとに付与されており、同じテキストデータ内に表れるエンティティには同じトピック情報が対応する。
なお、予めテキストデータにトピック情報が付与されている場合には、そのトピック情報を用いればよい。また、事前にトピック情報付きテキストデータの集合D'が生成されている場合にはステップS12の処理を実行しなくてもよい([トピック情報の例]の説明終わり)。
FIG. 4 is a diagram illustrating a set D of text data stored in the
If topic information is previously assigned to text data, the topic information may be used. Further, when the set D ′ of text data with topic information is generated in advance, the process of step S12 may not be executed (end of description of [example of topic information]).
《素性抽出:ステップS13》
ユーザが欲するエンティティの例が正例シードエンティティRPe 0として素性抽出部13に入力される。例えば、<広島>などが正例シードエンティティとして入力される。また、負例シードエンティティRNe 0が素性抽出部13に入力される。例えば、<日本>などが負例シードエンティティとして入力される。正例シードエンティティRPe 0は初回の処理(j=1)における正例エンティティであり、負例シードエンティティRNe 0は初回の処理(j=1)における負例エンティティである。
<< Feature Extraction: Step S13 >>
An example of an entity that the user desires is input to the
正例シードエンティティRPe 0は、ユーザによって選択されたものである。負例シードエンティティRNe 0は、ユーザによって選択されたものであってもよいし、テキストデータの集合Dから半自動または全自動で生成されたものであってもよい。以下に負例シードエンティティRNe 0を半自動または全自動で生成する方法を例示する。 The positive seed entity RP e 0 has been selected by the user. The negative example seed entity RN e 0 may be selected by the user, or may be generated semi-automatically or fully automatically from the text data set D. A method for generating the negative example seed entity RN e 0 semi-automatically or fully automatically will be exemplified below.
[負例シードエンティティRNe 0の半自動生成方法の例]
負例シードエンティティ生成部(図示せず)が、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから1つずつランダムに名詞を選択し、それらを負例エンティティ候補として出力する。表示部(図示せず)はこれらの負例エンティティ候補を表示し、これらから負例シードエンティティを選択するようにユーザに促す表示を行う。ユーザによる選択内容は負例シードエンティティ生成部に入力され、負例シードエンティティ生成部は、選択された負例エンティティ候補を負例シードエンティティRNe 0として出力する([負例シードエンティティRNe 0の半自動生成方法の例]の説明終わり)。
[Example of semi-automatic generation of negative example seed entity RN e 0 ]
A negative example seed entity generation unit (not shown) extracts a predetermined number of text data not including any positive example seed entity RP e 0 from the set D of text data, and randomly selects one from each extracted text data Select nouns and output them as negative entity candidates. A display unit (not shown) displays these negative example entity candidates, and performs a display prompting the user to select a negative example seed entity from them. The selection content by the user is input to the negative example seed entity generation unit, and the negative example seed entity generation unit outputs the selected negative example entity candidate as the negative example seed entity RN e 0 ([negative example seed entity RN e 0 Example of semi-automatic generation method]
[負例シードエンティティRNe 0の自動生成方法の例]
<方法1>
この例のデータ抽出装置1は、負例シードエンティティRNe 0を自動生成する自動生成部110を有する(図1)。自動生成部110は、正例分布処理部111、負例トピック決定部112、及び負例シードエンティティ生成部113を有する(図2A)。
[Example of automatic generation method of negative example seed entity RN e 0 ]
<
The
まず、正例分布処理部111が、記憶部11aに格納されたテキストデータの集合Dのうち、正例シードエンティティRPe 0を含むテキストデータの集合PDに含まれる全エンティティの出現確率分布である正例確率分布を表す情報(パラメータ)を得る。正例確率分布の代表例は、Bag-of-Wordsの仮定に従う全エンティティの多項分布である。以下に単語などの文字列をエンティティとし、Bag-of-Wordsの仮定に従う全エンティティの多項分布を正例確率分布とする例を示す。
この例での正例確率分布を表すパラメータは、エンティティである文字列vの生成確率p(v)である。生成確率p(v)は以下の関係を満たす。
この例のデータ抽出装置1は、各文字列v=v1,...,vV∈Vに対応する各生成確率p(v1),..., p(vV)を正例確率分布のパラメータβp={p(v1),..., p(vV)}として出力する。
First, the positive example distribution processing unit 111 is the appearance probability distribution of all entities included in the text data set PD including the positive example seed entity RP e 0 among the text data set D stored in the
The parameter representing the positive example probability distribution in this example is the generation probability p (v) of the character string v that is an entity. The generation probability p (v) satisfies the following relationship.
The
次に、負例トピック決定部112が、同一のトピック情報に対応するテキストデータの集合が含むエンティティの出現確率分布であるトピック確率分布を表す情報をトピック情報ごとに得て、正例確率分布を表す情報及びトピック確率分布を表す情報を用いて得られる正例確率分布とトピック確率分布との距離に基づいて、少なくとも一部のトピック情報を負例トピック情報として選択する。すなわち、負例トピック決定部112は、正例確率分布とトピック確率分布との情報量距離を求めて、情報量距離の大きなトピック確率分布に対応するトピック情報の中から負例トピック情報を選択する。 Next, the negative example topic determination unit 112 obtains, for each topic information, information representing a topic probability distribution that is an appearance probability distribution of entities included in a set of text data corresponding to the same topic information. At least a part of topic information is selected as negative example topic information based on the distance between the positive example probability distribution and the topic probability distribution obtained using the information and the topic probability distribution. That is, the negative example topic determination unit 112 obtains an information amount distance between the positive example probability distribution and the topic probability distribution, and selects negative example topic information from the topic information corresponding to the topic probability distribution having a large information amount distance. .
以下に正例確率分布のパラメータが上述したβp={p(v1),..., p(vV)}であり、トピック確率分布を表す情報(パラメータ)がβt={p(v1|zt),..., p(vV|zt)}(t=1,...,T、Tは正整数)である場合の例を示す。確率分布間の距離尺度にはKL-divergenceやJS-divergenceが用いられるが、ここでは距離の対称性のあるJS-divergenceが用いられる。2つの確率分布p,qの間のJS-divergence DJS(q||p)は以下のように定義される。
この場合、負例トピック決定部112は、p=βP、q∈{β1, β2, … , βT}とし、βPと各βt(t=1,2,…,T)との間のJS-divergenceを計算する。負例トピック決定部112は、例えば、(1)正例確率分布とのJS-divergenceがある一定の閾値以上のパラメータβtに対応するトピック情報、或いは(2)正例確率分布とのJS-divergenceの大きな方から順にN個のパラメータβtに対応するトピック情報を負例トピック情報とする。負例トピック決定部112は、負例トピック情報を特定する情報(例えばt)を出力する。
The parameter of the positive probability distribution is β p = {p (v 1 ), ..., p (v V )} described above, and information (parameter) representing the topic probability distribution is β t = {p ( v 1 | z t ), ..., p (v V | z t )} (t = 1,..., T and T are positive integers). KL-divergence and JS-divergence are used as the distance measure between probability distributions, but here JS-divergence with symmetric distance is used. JS-divergence D JS (q || p) between two probability distributions p and q is defined as follows.
In this case, the negative example topic determination unit 112 sets p = β P , q∈ {β 1, β 2, ..., Β T }, and β P and each β t (t = 1, 2,..., T) Calculate JS-divergence between The negative example topic determination unit 112 may, for example, (1) Topic information corresponding to a parameter β t having a certain threshold value or more with a JS-divergence with a positive example probability distribution, or (2) JS- Topic information corresponding to N parameters β t in order from the largest divergence is set as negative example topic information. The negative example topic determination unit 112 outputs information for specifying negative example topic information (for example, t).
負例トピック情報を特定する情報は、負例シードエンティティ生成部113に入力される。負例シードエンティティ生成部113は、負例トピック決定部112で選択された負例トピック情報に対応するエンティティを負例シードエンティティRNe 0として選択する。このような負例シードエンティティRNe 0の選択方法の例は以下の通りである。
(選択方法1)単語などの文字列が負例シードエンティティRNe 0として選択される。
(選択方法2)文書などのテキストデータが負例シードエンティティとして選択される。
何れの選択方法の場合も負例トピック情報との関連性が強い(負例トピックの寄与度の高い)エンティティが負例シードエンティティRNe 0とされる。以下に選択方法1,2の具体例を示す。
(選択方法1)単語などの文字列vが負例シードエンティティRNe 0として選択される場合、負例シードエンティティ生成部113は、負例トピック情報に対応するパラメータβtからp(zt|v)を以下のように計算する。
p(zt|v)=p(vt|z)p(z)/Σz p(v|z)p(z)
負例シードエンティティ生成部113は、この値p(zt|v)の大きな文字列vを負例シードエンティティRNe 0として選択する。例えば、負例シードエンティティ生成部113は、p(zt|v)の大きい順に所定個のp(zt|v)を選択し、選択したp(zt|v)に対応する文字列vを負例シードエンティティRNe 0とする。或いは、負例シードエンティティ生成部113は、例えば、閾値よりも大きなp(zt|v)を選択し、選択したp(zt|v)に対応する文字列vを負例シードエンティティRNe 0とする。
(選択方法2)文書などのテキストデータが負例シードエンティティRNe 0として選択される場合、例えば、あらかじめ全テキストデータdに対応するトピック情報である事後確率p(z|d)を計算しておき、トピックごと(隠れ変数zごと)にp(z|d)の値の大きなテキストデータdを記憶部11aに格納しておく。例えば、トピックごとにp(z|d)の大きい順に所定個のテキストデータdを選択しておき、それらを記憶部11aに格納しておく、又は、トピックzごとに閾値よりも大きなp(z|d)に対応するテキストデータdを選択しておき、それらを記憶部11aに格納しておく。負例シードエンティティ生成部113は、このように記憶部11aに格納しておいたテキストデータdから、負例トピック決定部112で得られた負例トピック情報に対応するp(zt|d)に対応するテキストデータdを負例シードエンティティRNe 0として選択する(<方法1>の説明終わり)。
Information specifying negative example topic information is input to the negative example seed entity generation unit 113. The negative example seed entity generation unit 113 selects an entity corresponding to the negative example topic information selected by the negative example topic determination unit 112 as the negative example seed entity RN e 0 . An example of a method for selecting such a negative example seed entity RN e 0 is as follows.
(Selection Method 1) A character string such as a word is selected as a negative example seed entity RN e 0 .
(Selection Method 2) Text data such as a document is selected as a negative example seed entity.
In any of the selection methods, an entity that is strongly related to the negative example topic information (a negative example topic has a high degree of contribution) is set as a negative example seed entity RN e 0 . Specific examples of the
(Selection Method 1) When a character string v such as a word is selected as the negative example seed entity RN e 0 , the negative example seed entity generation unit 113 uses the parameters β t to p (z t | corresponding to the negative example topic information. v) is calculated as follows.
p (z t | v) = p (v t | z) p (z) / Σ z p (v | z) p (z)
The negative example seed entity generation unit 113 selects a character string v having a large value p (z t | v) as the negative example seed entity RN e 0 . For example, the negative examples seed entity generating unit 113, p | predetermined number in descending order of (z t v) of p (z t | v) is selected, the selected p (z t | v) string corresponding to v Is a negative seed entity RN e 0 . Alternatively, the negative example seed entity generation unit 113 selects, for example, p (z t | v) larger than the threshold, and sets the character string v corresponding to the selected p (z t | v) as the negative example seed entity RN e. Set to 0 .
(Selection method 2) When text data such as a document is selected as a negative example seed entity RN e 0 , for example, a posteriori probability p (z | d) that is topic information corresponding to all text data d is calculated in advance. The text data d having a large value of p (z | d) is stored in the
<方法2>
この例のデータ抽出装置1は、負例シードエンティティRNe 0を自動生成する自動生成部120を有する(図1)。自動生成部120は、シード正例トピックスコア生成部121、負例トピック決定部122、及び負例シードエンティティ生成部113を有する(図2B)。
<
The
まずシード正例トピックスコア作成部121が、正例シードエンティティRPe 0を含むテキストデータdに対する各トピックzの適切さを表すシード正例トピック情報を当該トピックごと(隠れ変数zごと)に集計し、それによって得られる当該トピックごと(隠れ変数zごと)の集計結果を当該トピックのシード正例トピックスコアとして得る。例えば、シード正例トピックスコア作成部121は、トピック付与部12で得られた事後確率p(z|d)のうち正例文書PDに対応するものの和、すなわちΣ_d∈PD p(z|d)をトピックごと(隠れ変数zごと)に計算し、それを当該トピック(隠れ変数z)に対するシード正例トピックスコアとする。或いは、例えばΣ_d∈PD p(z|d)の単調増加関数値が当該トピック(隠れ変数z)に対するシード正例トピックスコアとされてもよい。
First, the seed positive example topic
次に、負例トピック決定部122は、トピックのシード正例トピックスコアの大きさに基づいて選択したトピックに対応するトピック情報を負例トピック情報とする。例えば、負例トピック決定部122は、シード正例トピックスコアの低い順に所定個のトピック(隠れ変数z)を選択し、選択したトピックに対応するトピック情報を負例トピック情報とする。或いは、負例トピック決定部122は、シード正例トピックスコアが所定の閾値以下となるトピック(隠れ変数z)を選択し、選択したトピックに対応するトピック情報を負例トピック情報とする。負例トピック決定部122は、負例トピック情報を特定する情報(例えば隠れ変数ztに対応するt)を出力する。 Next, the negative example topic determination unit 122 sets topic information corresponding to the topic selected based on the magnitude of the topic seed positive example topic score as negative example topic information. For example, the negative example topic determination unit 122 selects a predetermined number of topics (hidden variable z) in ascending order of the seed positive example topic score, and sets topic information corresponding to the selected topic as negative example topic information. Alternatively, the negative example topic determination unit 122 selects a topic (hidden variable z) whose seed positive example topic score is equal to or less than a predetermined threshold, and sets topic information corresponding to the selected topic as negative example topic information. The negative example topic determination unit 122 outputs information specifying negative example topic information (for example, t corresponding to the hidden variable z t).
その後、<方法1>と同様に、負例シードエンティティ生成部113が、負例トピック決定部122で選択された負例トピック情報に対応するエンティティを負例シードエンティティRNe 0として選択する(<方法2>の説明終わり)。
Thereafter, as in <
以上の負例シードエンティティRNe 0の自動生成方法によれば、正例エンティティとの関連性が低いトピック情報から負例の初期集合(負例シードエンティティ)が自動生成されるため、早期にセマンティックドリフトが起こる可能性を減らすことができ、結果として最終的に得られるエンティティ集合の精度を高めることができる。 According to the method for automatically generating the negative example seed entity RN e 0 described above, an initial set of negative examples (negative example seed entity) is automatically generated from topic information having low relevance to the positive example entity. The possibility of drifting can be reduced and the accuracy of the resulting entity set can be increased.
素性抽出部13は、記憶部11aに格納されたテキストデータの集合Dから、何れかの正例エンティティRPe j-1(初期の正例エンティティRPe 0は正例シードエンティティRPe 0)を含む文字列である「正例テキスト」を抽出する。正例テキストの例は、テキストデータが含む文、フレーズ、単語列などでである。正例テキストは、正例エンティティRPe j-1とテキストデータとの組に対して1個以上抽出される。素性抽出部13は、抽出した正例テキストとの関係で定まる正例エンティティRPe j-1の特徴を表す素性fP'e jを抽出する。この例では、正例エンティティRPe j-1を含む正例テキストごとに当該正例エンティティRPe j-1の素性fP'e jが抽出される。以下に、正例エンティティRPe j-1の素性fP'e jを例示する。
The
[正例エンティティRPe j-1の素性fP'e jの例]
正例エンティティRPe j-1の素性fP'e jは、正例テキスト(正例エンティティRPe j-1を含む文字列であってテキストデータが含むもの)に対応し、正例テキストと当該正例エンティティRPe j-1との関係を表す情報を含む。このような情報であればどのようなものを素性として用いてもよい。
例えば、何れかの正例エンティティRPe j-1を含むテキストデータ内における当該正例エンティティRPe j-1に一致するエンティティ(一致エンティティ)から前後所定単語数以内(正例テキスト内)に位置する単語(周辺単語)の表記と当該一致エンティティに対する当該周辺単語の相対位置を表す情報との組(表層素性)、一致エンティティ又は周辺単語の品詞情報(品詞素性)や固有名詞情報(固有名詞素性)や構文情報(構文素性)、テキストデータ内での正例エンティティRPe j-1の出現回数やテキストデータの集合D内での正例エンティティRPe j-1の出現回数(出現回数素性)のうち、少なくとも一つに対応する情報を素性fP'e jとすることができる。
[Example of feature fP ' e j of positive entity RP e j-1 ]
Positive example entity RP e j-1 of a feature fP 'e j corresponds to the positive examples text (positive example entity RP e j-1 that contains the text data to a string containing a) positive example text and the Contains information representing the relationship with the positive entity RP e j-1 . Any information may be used as a feature as long as it is such information.
For example, the position in the entity (matching entities) from within the front and rear predetermined number of words (positive examples in the text) that matches the positive examples entity RP e j-1 in the text data including either positive examples entity RP e j-1 A pair of information indicating the relative position of the surrounding word with respect to the matching entity (surface feature), part of speech information (part of speech feature) and proper noun information (proprietary noun feature) of the matching entity or surrounding word ) or syntax information (syntax feature), positive cases entity RP e positive example entity RP e j-1 of the number of occurrences of at j-1 number of occurrences and the set D of the text data in the text data (number of occurrences feature) Among them, information corresponding to at least one of them can be set as a feature fP ′ e j .
表層素性の例は「ex+1="は"」「ex-1="で"」などであり、これらは周辺単語(前者の例では「は」)と一致エンティティに対する周辺単語の相対位置(前者の例では「ex+1」)を表す情報との組を特定する情報である。「ex」は一致エンティティを表し、「ex+β」は一致エンティティexのβ単語後の単語を表し、「ex-β」は一致エンティティexのβ単語前の単語を表す。品詞素性の例は「ex+1=POS:助詞」「ex=POS:名詞」などであり、これらは一致エンティティに対する周辺単語の相対位置(前者の例では「ex+1」、後者の例では「ex」)と一致エンティティ又は周辺単語の品詞との組を特定する情報である。固有名詞素性の例は「ex=ORG」「ex-1=ORG」などであり、これらは一致エンティティに対する周辺単語の相対位置と一致エンティティ又は周辺単語の固有名詞との組を特定する情報である。構文素性の例は、正例テキスト内での一致エンティティの「係り受けの階層」を表す情報である。出現回数素性の例は、テキストデータやテキストデータの集合Dが含む正例エンティティRPe j-1の個数である([正例エンティティRPe j-1の素性fP'e jの例]の説明終わり)。 Examples of surface features are "ex + 1 =" is "", "ex-1 =" in "", etc., and these are relative words ("wa" in the former example) and relative positions of the surrounding words relative to the matching entity ( In the former example, it is information that identifies a pair with information representing “ex + 1”). “Ex” represents a matching entity, “ex + β” represents a word after β words of the matching entity ex, and “ex-β” represents a word before β words of the matching entity ex. Examples of part-of-speech features are “ex + 1 = POS: particle” and “ex = POS: noun”, which are relative positions of surrounding words relative to the matching entity (“ex + 1” in the former example and “ex + 1” in the latter example) “Ex”) and information that identifies a set of matching entities or parts of speech of surrounding words. Examples of proper noun features are “ex = ORG”, “ex-1 = ORG”, etc., which are information that identifies the relative position of the surrounding word relative to the matching entity and the matching entity or the proper noun of the surrounding word. . An example of the syntactic feature is information indicating the “dependency hierarchy” of the matching entity in the positive example text. Examples of Occurrences feature is described in a positive example number of entities RP e j-1, including a set D of the text data and the text data (Example of positive example entity RP e j-1 of a feature fP 'e j] the end).
同様に、素性抽出部13は、記憶部11aに格納されたテキストデータの集合Dから、何れかの負例エンティティRNe j-1(初期の負例エンティティRNe 0は負例シードエンティティRNe 0)を含む文字列である「負例テキスト」を抽出する。負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。負例テキストは、負例エンティティRNe j-1とテキストデータとの組に対して一つ以上抽出される。素性抽出部13は、抽出した負例テキストとの関係で定まる負例エンティティRNe j-1の特徴を表す素性fN'e jを抽出する。負例エンティティRNe j-1の素性fN'e jは、負例テキスト(負例エンティティRNe j-1を含む文字列であってテキストデータが含むもの)に対応し、負例テキストと当該負例エンティティRNe j-1との関係を表す情報を含む。この例では、負例エンティティRNe j-1を含む負例テキストごとに当該負例エンティティRNe j-1の素性fN'e jが抽出される。負例エンティティRNe j-1の素性fN'e jの具体例は、上述した正例エンティティRPe j-1の素性fP'e jの場合と同様である。例えば、上述した正例エンティティRPe j-1の素性fP'e jの具体例の「正例」が「負例」に「RPe j-1」が「RNe j-1」に「fP'e j-1」が「fN'e j-1」にそれぞれ置換されたものである。
素性抽出部13は、正例エンティティRPe j-1の素性fP'e jと正例を表すラベル<+1>との組(fP'e j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fN'e j, <-1>)を出力する。
Similarly, the
The
《トピック情報抽出:ステップS14》
正例エンティティRPe j-1、負例エンティティRNe j-1、正例エンティティRPe j-1の素性fP'e jと正例を表すラベル<+1>との組(fP'e j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fN'e j, <-1>)がトピック情報抽出部14に入力される。
トピック情報抽出部14は、記憶部11cに格納されたトピック情報付きテキストデータの集合D'から、正例エンティティRPe j-1を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報(正例エンティティRPe j-1を含むテキストデータに対応するトピック情報)を選択する。このように選択されたトピック情報を、正例エンティティRPe j-1とテキストデータとの組に対応する「正例トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各正例テキストには、同じ正例トピック情報が対応する。トピック情報抽出部14は、正例エンティティRPe j-1とテキストデータとの組に対応する正例トピック情報を、当該テキストデータが含む各正例テキストに対応する各正例エンティティRPe j-1の素性fP'e jに加え、各正例テキストに対応する各正例エンティティRPe j-1の素性をfPe jに更新する。すなわち、正例テキストに対応する正例エンティティRPe j-1の素性fPe jは、当該正例テキストに対応する正例エンティティRPe j-1の素性fP'e jと正例トピック情報とを含む。このように正例トピック情報は素性fPe jの一部とされる。
<< Topic Information Extraction: Step S14 >>
A pair of a positive example entity RP e j−1 , a negative example entity RN e j−1 , a feature fP ′ e j of the positive example entity RP e j−1 and a label <+1> representing the positive example (fP ′ e j , <+1>), and a pair (fN ' e j , <-1>) of the feature fN e j of the negative example entity RN e j-1 and the label <-1> representing the negative example Input to the unit 14.
The topic information extraction unit 14 uses the topic information (correct information) included in the text data with topic information including the text data including the positive entity RP e j-1 from the set D ′ of text data with topic information stored in the
同様に、トピック情報抽出部14は、記憶部11cに格納されたトピック情報付きテキストデータの集合D'から、負例エンティティRNe j-1を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報(負例エンティティRNe j-1を含むテキストデータに対応するトピック情報)を選択する。このように選択されたトピック情報を、負例エンティティRNe j-1とテキストデータとの組に対応する「負例トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各負例テキストには、同じ負例トピック情報が対応する。トピック情報抽出部14は、負例エンティティRNe j-1とテキストデータとの組に対応する負例トピック情報を、当該テキストデータが含む各負例テキストに対応する各負例エンティティRNe j-1の素性fN'e jに加え、各負例テキストに対応する各負例エンティティRNe j-1の素性をfNe jに更新する。すなわち、負例テキストに対応する負例エンティティRNe j-1の素性fNe jは、負例テキストに対応する負例エンティティRNe j-1の素性fN'e jと負例トピック情報とを含む。このように負例トピック情報は素性fNe jの一部とされる。
Similarly, the topic information extraction unit 14 includes topics included in the text data with topic information including text data including the negative entity RN e j-1 from the set D ′ of text data with topic information stored in the
なお、トピック情報付きテキストデータの集合D'が含むすべての正例テキストや負例テキストに対応する素性fPe j,fNe jが生成されてもよいし、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成されてもよい。以下に、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成される例を示す。
[一部の正例テキストや負例テキストに対応する素性のみが生成される例]
多義的な正例エンティティRPe j-1が素性抽出部13に入力される場合がある。例えば<阪神>のような正例エンティティRPe j-1は、球団名として用いられる場合もあれば、企業名として用いられる場合もある。この例では、トピック情報付きテキストデータの集合D'において正例エンティティRPe j-1がどのような意味で使用されることが多いのかを推定し、当該推定された意味で正例エンティティRPe j-1が使用されていると推定される文字列(正例テキスト及び負例テキスト)のみを対象として正例トピック情報及び負例トピック情報を選択し、正例エンティティRPe j-1の素性fPe jや負例エンティティRNe j-1の素性fNe jを生成する。これにより、後述する識別学習部15での学習精度やエンティティ識別部16での識別精度の向上が見込まれる。
Note that features fP e j and fN e j corresponding to all positive example texts and negative example texts included in the set D ′ of text data with topic information may be generated, or some positive example texts and negative examples Only the features fP e j and fN e j corresponding to the text may be generated. Hereinafter, an example in which only the features fP e j and fN e j corresponding to some positive example texts and negative example texts are generated will be described.
[Example of generating only features corresponding to some positive texts and negative texts]
The ambiguous positive example entity RP e j-1 may be input to the
まず、トピック情報付きテキストデータの集合D'において正例エンティティRPe j-1がどのような意味で使用されているかを推定するために、素性抽出部13は、トピック情報付きテキストデータの集合D'が含む各テキストデータが含む文字列(正例テキスト及び負例テキスト)に、当該文字列のトピックの候補と、当該トピックの候補それぞれの当該文字列に対する適切さを表すトピック候補スコアとを与える。トピック候補スコアは、例えば、前述のトピックモデルTM0を用いて計算されるか、前述のステップS12の過程で得られた情報から計算され、記憶部11cに格納される。以下に、各トピックの候補に対応するzn(n=1,...,Z)とテキストデータが含む文字列vとに対応するトピック候補スコアs(zn,v)を例示する。
s(zn,v)=p(zn|v)=p(v|zn)p(zn)/p(v) …(9)
なお、p(v|zn), p(zn)は、z=znでのトピックモデルTM0のパラメータとして得られ、p(v)は、z=znでの式(5)の同時確率p(zn,v)とパラメータp(zn)=Σz p(v|z)p(zn)とから得られる。
First, in order to estimate what the positive example entity RP e j-1 is used in the set D ′ of text data with topic information, the
s (z n , v) = p (z n | v) = p (v | z n ) p (z n ) / p (v)… (9)
Note that p (v | z n ) and p (z n ) are obtained as parameters of the topic model TM 0 at z = z n , and p (v) is obtained from equation (5) at z = z n . It is obtained from the joint probability p (z n , v) and the parameter p (z n ) = Σ z p (v | z) p (z n ).
また、以下のトピック候補スコアs(zn,v)を用いてもよい。
次に素性抽出部13は、同一のトピックの候補に対応するトピック候補スコアを集計し、当該トピックの候補ごとの集計結果を当該トピックの候補それぞれの正例トピックスコアとする。例えば、素性抽出部13は、式(11)に従ってトピックの候補のそれぞれに対応する各正例トピックスコアS(zn) (n=1,...,Z)を計算し、記憶部11cに格納する。なお、Vpは正例テキストの集合を表す。
次に素性抽出部13は、各正例トピックスコアS(zn)(n=1,...,Z)が特定の基準を満たすトピックの候補を選択し、それを正例基準トピックSeとして記憶部11cに格納する。選択される正例基準トピックSeの個数は1個であってもよいし2個以上であってもよい。例えば、最も値の大きな正例トピックスコアS(zn)に対応するトピックの候補が正例基準トピックSeとされてもよいし、値の大きな順に選択された所定個の正例トピックスコアS(zn)にそれぞれ対応するトピックの候補が正例基準トピックSeとされてもよいし、基準値以上の正例トピックスコアS(zn)に対応するトピックの候補が正例基準トピックSeとされてもよい。
Next, the
素性抽出部13は、例えば、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが特定の基準を満たす正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、素性抽出部13は、例えば、正例基準トピックSeの何れかと同一のトピックの候補に対応する負例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが特定の基準を満たす負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。
以下に具体的な素性生成例を示す。
素性生成例1:素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、例えば、素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する負例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該負例テキストに対応するトピック候補スコアの中で最大となる負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。
A specific feature generation example is shown below.
Feature Generation Example 1:
素性生成例2:素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、例えば、素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する負例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。
Feature Generation Example 2:
素性生成例3:素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。一方、負例エンティティRNe j-1の素性fNe jについては、すべての負例テキストに対応する負例エンティティRNe j-1の素性fNe jが生成される。
Feature Generation Example 3:
素性生成例4:素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。一方、負例エンティティRNe j-1の素性fNe jについては、すべての負例テキストに対応する負例エンティティRNe j-1の素性fNe jが生成される([一部の正例テキストや負例テキストに対応する素性のみが生成される例]の説明終わり)。
Feature Generation Example 4:
トピック情報抽出部14は、正例エンティティRPe j-1の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)を出力する。 The topic information extraction unit 14 includes a pair (fP e j , <+1>) of the feature fP e j of the positive example entity RP e j-1 and the label <+1> representing the positive example, and the negative example entity RN A pair (fN e j , <-1>) of a feature fN e j of e j-1 and a label <-1> representing a negative example is output.
図5Bは、トピック情報抽出部14が出力する組(fPe j, <+1>)及び組(fNe j, <-1>)を例示した図である。なお、「POS」は品詞素性を表し、「BOS」は対応する位置に単語が存在しないことを表す。例えば、テキストデータ<T1>が含む正例テキストに対応する正例エンティティex=<広島>の素性はfPe j=(ex-2="ヤクルト", ex-2=POS:名詞, ex-1="VS", ex-1=POS:名詞, ex+1="の", ex+1=POS:助詞, ex+2="ヤクルト", ex+2=POS:助詞, トピック情報=(z2,08))である。 FIG. 5B is a diagram illustrating a pair (fP e j , <+1>) and a pair (fN e j , <-1>) output from the topic information extraction unit 14. “POS” represents a part-of-speech feature, and “BOS” represents that no word exists at the corresponding position. For example, the identity of the example entity ex = <Hiroshima> corresponding to the example text included in the text data <T1> is fP e j = (ex-2 = "Yakult", ex-2 = POS: noun, ex-1 = "VS", ex-1 = POS: noun, ex + 1 = "no", ex + 1 = POS: particle, ex + 2 = "Yakult", ex + 2 = POS: particle, topic information = (z 2 , 08)).
《識別学習:ステップS15》
正例エンティティRPe j-1の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)は識別学習部15に入力される。正例エンティティRPe j-1の素性fPe jは正例に対する教師あり学習データとして利用でき、負例エンティティRNe j-1の素性fNe jは負例に対する教師あり学習データとして利用できる。識別学習部15は、正例エンティティRPe j-1の素性fPe jと負例エンティティRNe j-1の素性fNe jとを教師あり学習データとした学習処理によって、識別モデルMEe jを生成する。この識別モデルMEe jは、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である。このような識別モデルMEe jであればどのようなモデルであってもよい。
識別モデルMEe jの例は、正則化項付き最大エントロピーモデル(参考文献1「Berger, A.L. , Pietra, V.J.D. and Pietra, "A maximum entropy approach to natural language processing", S.A.D. 1996.」)、正則化項付きの条件付きランダム場(CRFs、参考文献2「Lafferty, J. and McCallum, A. and Pereira, F. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", MACHINE LEARNING, pp. 282-289, 2001.」、サポートベクタマシン(SVMs、参考文献3「Vapnik, V. N. "The nature of statistical learning theory", Springer Verlag, 1995.」)などである。各例の識別モデルMEe jの学習では、教師あり学習データとして用いられた正例エンティティRPe j-1の素性fPe j及び負例エンティティRNe j-1の素性fNe jに対し、当該識別モデルMEe jへの影響度の大きさを表す指標(素性に対する重み)が付され、これらが識別モデルMEe jを特定するパラメータとなる。特に参考文献1−3で例示したようなモデルは、すべての素性に対して重みが付されるモデル(例えば正則化項のない最大エントロピーモデル)ではなく、識別に有効と判断された素性のみについて重みが付される。以下、正則化項付き最大エントロピーモデルの具体例を示す。
<< Identification Learning: Step S15 >>
A pair (fP e j , <+1>) of the feature fP e j of the positive example entity RP e j-1 and the label <+1> representing the positive example, and the feature fN of the negative example entity RN e j-1 A set (fN e j , <-1>) of e j and a label <−1> representing a negative example is input to the
An example of the discriminant model ME e j is the maximum entropy model with regularization term (
正則化項付き最大エントロピーモデルが用いられる場合、識別学習部15は、(x,y)∈{(fPe j, <+1>), (fNe j, <-1>)}を学習データとして用い、条件付確率
ここで、各重みλqはqに対応する学習データ(x,y)の素性fPe j又はfNe jの識別モデルMEe jへの影響度の大きさを表す指標となる。また、正則化項付き最大エントロピーモデルの例では、すべての学習データ(x,y)の素性fPe j又はfNe jに対して重みλqが付されるわけではなく、重要度の低い素性に対応する重みλqは付されない。すなわち、重要度の低い素性に対応する重みλqは0とされる。 Here, each weight λ q serves as an index representing the magnitude of the influence of the feature fP e j or fN e j of the learning data (x, y) corresponding to q on the identification model ME e j . In the example of the maximum entropy model with regularization terms, the weight λ q is not assigned to the feature fP e j or fN e j of all the learning data (x, y), and the feature with low importance The weight λ q corresponding to is not attached. That is, the weight λ q corresponding to the feature of low importance is set to 0.
また、ステップS14で一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成されていた場合には、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jに対応する(x,y)∈{(fPe j, <+1>), (fNe j, <-1>)}のみが学習データとされる。例えば、前述した「一部の正例テキストや負例テキストに対応する素性のみが生成される例」のように素性fPe j,fNe jが生成された場合には、前述した正例基準トピックの何れかと同一のトピック候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストに対応する正例エンティティ及び/又は負例エンティティの素性のみが教師あり学習データとされる。
学習処理によって生成された識別モデルMEe jは記憶部11dに格納される。例えば、学習処理によって生成された識別モデルMEe jのパラメータが記憶部11dに格納される。
If only the features fP e j and fN e j corresponding to some positive example texts and negative example texts are generated in step S14, the features corresponding to some positive example texts and negative example texts are generated. Only (x, y) ε {(fP e j , <+1>), (fN e j , <-1>)} corresponding to fP e j and fN e j is used as learning data. For example, when the features fP e j and fN e j are generated as in the above-mentioned “example in which only features corresponding to some positive example texts and negative example texts are generated”, the above-described positive example criteria Positive example text corresponding to the same topic candidate as any of the topics (a character string included in the text data) and corresponding to the positive example text in which the topic candidate score of the same topic candidate satisfies a specific criterion Only the features of entities and / or negative example entities are taken as supervised learning data.
The identification model ME e j generated by the learning process is stored in the
《エンティティ識別:ステップS16》
エンティティ識別部16は、記憶部11cに格納されたトピック情報付きテキストデータの集合D'から何れかのトピック情報付きテキストデータを選択し、選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRDe jとする。
<< Entity Identification: Step S16 >>
The
なお、トピック情報付きテキストデータの集合D'からすべてのトピック情報付きテキストデータが選択されてもよいが、すべてのテキストデータを識別対象とすることは計算効率上好ましくない。そのため、特定の方法で識別対象を限定して選択を行うことが望ましい。以下にその具体例を示す。 Note that all the text data with topic information may be selected from the set D ′ of text data with topic information, but it is not preferable in terms of calculation efficiency to make all the text data to be identified. For this reason, it is desirable to select an identification target by a specific method. Specific examples are shown below.
[選択方法の例]
選択方法の例1:
選択方法の例1では、エンティティ識別部16は、識別学習部15で教師あり学習データとして用いられた正例エンティティRPe j-1の素性fPe j及び負例エンティティRNe j-1の素性fNe jのうち、それらから生成された識別モデルMEe jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該識別モデルMEe jへの影響度が大きな素性fPe j及び/又はfNe jを選択する。例えば、エンティティ識別部16は、前述の重みλqの絶対値が閾値よりも大きな素性fPe j及び/又はfNe jを選択する。
また、エンティティ識別部16は、選択した素性fPe j及び/又はfNe jに対応する文字列を含むテキストデータを含むトピック情報付きテキストデータを選択し、当該選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRDe jとする。例えば、エンティティ識別部16は、選択した素性fPe j及び/又はfNe jから表層素性の単語を抽出し、当該表層素性の単語を含むテキストデータを含むトピック情報付きテキストデータを選択する。一例を挙げると、選択された素性がエンティティexの前2単語が表層素性と品詞素性の組み合わせで成り立つ素性FNC(x−2=“POS:名詞”, x−1=“で”)(FNCは関数)であった場合、エンティティ識別部16は、選択した素性FNC(x−2=“POS:名詞”, x−1=“で”)から表層素性の単語“で”を抽出し、単語“で”を含むテキストデータを含むトピック情報付きテキストデータを選択する。
[Example of selection method]
Selection method example 1:
In example 1 of the selection method, the
In addition, the
選択方法の例2:
選択方法の例2では、エンティティ識別部16は、前述した正例基準トピックSeの何れかと同一のトピック候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストが含むエンティティを対象エンティティRDe jとする。
例えば、エンティティ識別部16は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストが含むエンティティを対象エンティティRDe jとする。
或いは、例えば、エンティティ識別部16は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストが含むエンティティを対象エンティティRDe jとする([選択方法の例]の説明終わり)。
Selection method example 2:
Example 2 selection method,
For example, the
Alternatively, for example, the
素性抽出部13は、記憶部11aに格納されたテキストデータの集合Dから、対象エンティティRDe jを含む文字列である「対象テキスト」を抽出する。対象テキストの例は、テキストデータが含む文、フレーズ、単語列などである。対象テキストは、対象エンティティRDe jとテキストデータとの組に対して1個以上抽出される。
素性抽出部13は、抽出した対象テキストとの関係で定まる対象エンティティRDe jの特徴を表す素性fD'e jを抽出する。対象エンティティRDe jの素性fD'e jは、対象テキスト(対象エンティティRDe jを含む文字列であってテキストデータに含まれるもの)に対応し、対象テキストと当該対象エンティティRDe jとの関係を表す情報を含む。具体的な処理は、前述した正例エンティティRPe j-1の素性fP'e jを抽出する場合と同様である。例えば、「正例エンティティRPe j」が「対象エンティティRDe j」に「素性fP'e j」が「素性fD'e j」に「正例テキスト」が「対象テキスト」に置換される以外は、前述した正例エンティティRPe j-1の素性fP'e jを抽出する処理と同じである。
The
対象テキストに対応する対象エンティティRDe jの素性fD'e jは、トピック情報抽出部14に入力される。トピック情報抽出部14は、記憶部11cから、対象テキストを含むトピック情報付きテキストデータが含むトピック情報(対象テキストに対応するトピック情報)を選択する。このように選択されたトピック情報を、対象エンティティRDe jとテキストデータとの組に対応する「対象トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各対象テキストには、同じ対象トピック情報が対応する。トピック情報抽出部14は、対象エンティティRDe jとテキストデータとの組に対応する対象トピック情報を、当該テキストデータが含む各対象テキストに対応する各対象エンティティRDe jの素性fD'e jに加え、各対象テキストに対応する各対象エンティティRDe jの素性をfDe jに更新する。すなわち、対象テキストに対応する対象エンティティRDe jの素性fDe jは、当該対象テキストに対応する対象エンティティRDe jの素性fD'e jと対象トピック情報とを含む。このように対象トピック情報は素性fDe jの一部とされる。
The feature fD ′ e j of the target entity RD e j corresponding to the target text is input to the topic information extraction unit 14. The topic information extraction unit 14 selects topic information (topic information corresponding to the target text) included in the text data with topic information including the target text from the
対象エンティティRDe jの素性fDe jは、エンティティ識別部16に入力される。エンティティ識別部16は、対象エンティティRDe jの素性fDe jを記憶部11dから読み出した識別モデルMEe jに入力し、対象エンティティRDe jが正例エンティティか負例エンティティかを識別する。例えば、識別モデルMEe jとして正則化項付き最大エントロピーモデルが用いられる場合には、x=fDe jを識別モデルMEe jであるP(y|x)に代入してP(1|x)とP(-1|x)とを求め、それらに対応する指標(信頼度など)と閾値とを比較することで、対象エンティティRDe jが正例エンティティか負例エンティティかを識別する。
Feature fD e j of the target entity RD e j is input to the
ここで、対象エンティティが正例エンティティであると識別された場合、エンティティ識別部16は、対象エンティティRDe jを新たな正例エンティティRPe jとして記憶部11eに格納する。一方、対象エンティティが負例エンティティであると識別された場合、エンティティ識別部16は、対象エンティティRDe jを新たな負例エンティティRNe jして記憶部11eに格納する。
If the target entity is identified as a positive entity, the
《収束判定:ステップS17−S19》
収束判定部17は、収束条件を満たしたかを判定する。以下に収束条件を例示する。
[収束条件の例]
収束条件の例1:この例の収束判定部17は、正例エンティティRPe jに新たに割り当てられる対象エンティティRDe jが存在しない場合に、収束条件を満たしたと判断する。
収束条件の例2:この例の収束判定部17は、ステップS13からS17のイテレーションを基準回数以上繰り返しても新たに割り当てられる対象エンティティRDe j-1が存在しない場合に、収束条件を満たしたと判断する。
収束条件の例3:この例の収束判定部17は、jの値が基準値以上となった場合に収束条件を満たしたと判断する([収束条件の例]の説明終わり/ステップS17)。
収束判定部17が収束条件を満たしたと判断した場合、ステップS13からS17のイテレーションが終了し、出力部18が記憶部11eに格納されているすべての正例エンティティRPj eを出力して処理を終了する(ステップS19)。それ以外の場合は、制御部19がj+1を新たなjの値とし(ステップS18)、記憶部11eに格納されている正例エンティティRPj e 及び負例エンティティRNj e を素性抽出部13に入力し、ステップS13からS16のイテレーションが実行される。
<< Convergence determination: steps S17 to S19 >>
The
[Example of convergence condition]
Example of convergence condition 1: The
Convergence condition example 2: The
Example 3 of convergence condition: The
When the
<識別事例>
第1実施形態における具体的な識別事例を例示する。
この例では2つのトピックの候補に対応するトピックモデルTM0を用いる。具体的には「球団名」と「企業名」とがトピックの候補とされたトピックモデルTM0を用いる。また、正例シードエンティティが<広島>であり、負例シードエンティティが<毎日新聞>であり、ユーザは球団名についてのエンティティのセットを要求していると仮定する。
また、トピックモデルTM0を用いて計算された、正例シードエンティティ<広島>を含むテキストデータd1に対するトピック「球団名」の事後確率がp(球団名|d1)=0.9であり、当該テキストデータd1に対するトピック「企業名」の事後確率がp(企業名|d1)=0.1であったとする。一方、負例シードエンティティ<毎日新聞>を含むテキストデータd2に対するトピック「球団名」の事後確率がp(球団名|d2)=0.1であり、当該テキストデータd2に対するトピック「企業名」の事後確率がp(企業名|d2)=0.9であったとする。ここで前述の「トピック情報の例1(N=2)」のようにトピック情報が定められていたとすると、テキストデータd1に対するトピック情報は((球団名,0.9), (企業名,0.1))となり、テキストデータd2に対するトピック情報は((球団名,0.1), (企業名,0.9))となる(ステップS12)。
<Identification examples>
The specific identification example in 1st Embodiment is illustrated.
In this example using the topic models TM 0 corresponding to the candidate of the two topics. Specifically, a topic model TM 0 in which “Team name” and “Company name” are topic candidates is used. Also assume that the positive seed entity is <Hiroshima>, the negative seed entity is <Mainichi Newspaper>, and the user is requesting a set of entities for the team name.
Further, the posterior probability of the topic “team name” for the text data d 1 including the positive seed entity <Hiroshima>, calculated using the topic model TM 0 , is p (team name | d 1 ) = 0.9, and Assume that the posterior probability of the topic “company name” for the text data d 1 is p (company name | d 1 ) = 0.1. On the other hand, the posterior probability of the topic “Team Name” for the text data d 2 including the negative seed entity <Mainichi Shimbun> is p (Team name | d 2 ) = 0.1, and the topic “Company Name” for the text data d 2 Is the posterior probability of p (company name | d 2 ) = 0.9. Here, when the topic information as described above, "Example topic information 1 (N = 2)" was established, topic information for the text data d 1 is ((team name, 0.9), (company name, 0.1) ), and the topic information for the text data d 2 ((team name, 0.1), and (company name, 0.9)) (step S12).
この例ではステップS13の素性抽出が行われず、トピック情報のみが素性として用いられたとする。その場合、正例シードエンティティ<広島>の素性は((球団名,0.9), (企業名,0.1))となり、負例シードエンティティ<毎日新聞>の素性は((球団名,0.1), (企業名,0.9))となる。よって、学習データは
(((球団名,0.9), (企業名,0.1)), <+1>)
(((球団名,0.1), (企業名,0.9)), <-1>)
となる(ステップS14)。
このような学習データを元に識別モデルを学習する(ステップS15)。学習の結果、「球団名」に対して正例側の重みが大きく、「企業名」に対して正例側の重みの小さな識別モデルが得られるであろう。
In this example, it is assumed that the feature extraction in step S13 is not performed and only topic information is used as a feature. In this case, the identity of the positive seed entity <Hiroshima> is ((Team name, 0.9), (Company name, 0.1)), and the identity of the negative seed entity <Mainichi Shimbun> is ((Team name, 0.1), ( Company name, 0.9)). Therefore, the learning data is
(((Team name, 0.9), (Company name, 0.1)), <+1>)
(((Team name, 0.1), (Company name, 0.9)), <-1>)
(Step S14).
An identification model is learned based on such learning data (step S15). As a result of the learning, an identification model having a large weight on the positive side with respect to “Team name” and a small weight on the positive side with respect to “Company name” will be obtained.
次に、シードエンティティに含まれない対象エンティティ<阪神>が入力されたとする。ここで、上記と同様に計算された、対象エンティティ<阪神>を含むテキストデータd3に対するトピック「球団名」の事後確率がp(球団名|d1)=0.8であり、当該テキストデータd3に対するトピック「企業名」の事後確率がp(企業名|d1)=0.2であったとする。その場合、対象エンティティ<阪神>の素性は((球団名,0.8), (企業名,0.2))となる。この素性((球団名,0.8), (企業名,0.2))を上記の識別モデルに識別させてみると、その結果から素性((球団名,0.8), (企業名,0.2))は正例エンティティに対応すると判断できる(ステップS16)。 Next, it is assumed that the target entity <Hanshin> not included in the seed entity is input. Here, the posterior probability of the topic “team name” for the text data d 3 including the target entity <Hanshin>, calculated in the same manner as described above, is p (ball team name | d 1 ) = 0.8, and the text data d 3 The posterior probability of the topic “company name” for p is (company name | d 1 ) = 0.2. In this case, the identity of the target entity <Hanshin> is ((Team name, 0.8), (Company name, 0.2)). When this feature ((Team name, 0.8), (Company name, 0.2)) is identified by the above identification model, the result ((Team name, 0.8), (Company name, 0.2)) is correct. It can be determined that it corresponds to the example entity (step S16).
このようにトピック情報を素性の少なくとも一部として用いることで、ユーザの要求を表した正例シードエンティティ及び負例シードエンティティに沿った識別が適切に行われ、セマンティックドリフトを抑えたエンティティの抽出が可能となる。これがトピック情報を用いるメリットである。特にset expansionでは表した正例シードエンティティの数が少ない場合が多く、利用できる情報が非常に限られるため、周辺文脈だけを素性としたのではデータが疎となり、識別精度が低下する場合が多い。トピック情報は、このように利用可能なデータの少ない場面での識別において有効な素性として作用する。 By using topic information as at least part of the feature in this way, identification along the positive seed entity and negative seed entity representing the user's request is performed appropriately, and the extraction of the entity with suppressed semantic drift can be performed. It becomes possible. This is an advantage of using topic information. In particular, in the case of set expansion, the number of positive seed entities represented is often small, and the information that can be used is very limited. Therefore, if only the surrounding context is used as the feature, the data becomes sparse and the identification accuracy often decreases. . The topic information acts as an effective feature in identification in a scene where there is little data available in this way.
<第1実施形態の特徴>
以上のように、本形態の方法ではトピック情報を素性の少なくとも一部として用いたため、セマンティックドリフトを抑制することができる。また、本形態の方法はリソースであるテキストデータの種類によらず利用でき、適用範囲が広い。
<Features of First Embodiment>
As described above, since the topic information is used as at least part of the feature in the method of the present embodiment, the semantic drift can be suppressed. The method of this embodiment can be used regardless of the type of text data that is a resource, and has a wide range of applications.
〔第2実施形態〕
第2実施形態は第1実施形態の変形例であり、エンティティの属性を用いてセマンティックドリフトを抑制する。「属性」とは、エンティティの特徴を表すテキストデータ中の文字列である。このような文字列の例は、名詞、単語、単語列、フレーズ、文などである。属性の具体例はエンティティの前後W単語以内に存在する名詞である。なお、Wはウィンドウサイズを表す1以上の整数である。例えば「阪神の試合速報・・・」というテキストデータ中の<阪神>がエンティティであり、ウィンドウサイズをW=3とした場合、<試合>と<速報>がエンティティ<阪神>の属性の候補とされる。
[Second Embodiment]
The second embodiment is a modification of the first embodiment, and suppresses the semantic drift using the attribute of the entity. An “attribute” is a character string in text data that represents the characteristics of an entity. Examples of such character strings are nouns, words, word strings, phrases, sentences, and the like. A specific example of the attribute is a noun existing within W words before and after the entity. W is an integer greater than or equal to 1 representing the window size. For example, if <Hanshin> in the text data "Hanshin game breaking news ..." is an entity and the window size is set to W = 3, <match> and <breaking news> are attribute candidates for the entity <Hanshin>. Is done.
互いに関連のある複数のエンティティには同一の属性が対応する。例えば、球団名であるエンティティ<広島>と同じく球団名であるエンティティ<ヤクルト>とは、同じ<試合>や<投手>などの属性が対応する。そのため、属性は探索対象となるエンティティが満たすべき制約条件となる。このことを利用し、第2実施形態では、エンティティとその属性との組を用いてエンティティの識別を行う。例えば、正例シードエンティティを球団名である<広島>とし、同じく球団名である<ヤクルト>というエンティティを獲得することを狙っていると仮定する。この場合、これらのエンティティに共通する属性は<試合>や<投手>などであり、例えば、正例シードエンティティ<広島>とその属性<試合>との組を用いてエンティティの識別が行われる。ここで、球団名である<ヤクルト>は正例エンティティであるが、<ヤクルト>には飲料名としての意味もある(例えば、図5AのT5)。よって<ヤクルト>はセマンティックドリフトが起こりやすいエンティティである。しかしながら、飲料名であるエンティティ<ヤクルト>の属性は<試合>や<投手>などではなく<乳酸菌>や<飲料>などである。本形態では、エンティティとその属性との組を用いることでエンティティがどのような意味を指すかを特定でき、セマンティックドリフトを軽減できる。
以下では第1実施形態の相違点を中心に説明し、第1実施形態と共通する事項については説明を省略する。また、第1実施形態と共通する部分については第1実施形態と同じ参照番号を用いる。
The same attribute corresponds to a plurality of entities related to each other. For example, the entity <Yakult> having the same team name as the entity <Hiroshima> having the team name corresponds to the same attributes such as <match> and <pitcher>. For this reason, the attribute is a constraint condition to be satisfied by the entity to be searched. Using this fact, in the second embodiment, an entity is identified using a set of an entity and its attribute. For example, suppose that the positive seed entity is <Hiroshima>, which is a team name, and that it aims to acquire an entity, <Yakult>, which is also a team name. In this case, attributes common to these entities are <match>, <pitcher>, and the like. For example, the entity is identified using a pair of a positive seed entity <Hiroshima> and its attribute <match>. Here, <Yakult> which is a team name is a positive entity, but <Yakult> also has a meaning as a beverage name (for example, T5 in FIG. 5A). Therefore, <Yakult> is an entity that is prone to semantic drift. However, the attribute of the entity <Yakult>, which is the beverage name, is not <Game> or <Pitcher> but <Lactic acid bacteria> or <Beverage>. In this embodiment, by using a set of an entity and its attribute, it is possible to specify what the entity means and to reduce semantic drift.
Below, it demonstrates centering around the difference of 1st Embodiment, and abbreviate | omits description about the matter which is common in 1st Embodiment. Further, the same reference numerals as those in the first embodiment are used for portions common to the first embodiment.
<構成>
図6は、第2実施形態のデータ抽出装置2の機能構成を例示するためのブロック図である。
図6に例示するように、データ抽出装置2は、記憶部11a,11d,11e,21d,21e、初期属性集合生成部22、属性識別用素性抽出部23a、エンティティ識別用素性抽出部23b、属性識別学習部25a、エンティティ識別学習部25b、属性識別部26a、エンティティ識別部26b、収束判定部17、出力部18、及び制御部19を有し、制御部19の制御のもと各処理を実行する。
なお、データ抽出装置2は、例えば、公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。例えば、記憶部11a,11d,11e,21d,21eは、ハードディスクや半導体メモリなどであり、初期属性集合生成部22、属性識別用素性抽出部23a、エンティティ識別用素性抽出部23b、属性識別学習部25a、エンティティ識別学習部25b、属性識別部26a、エンティティ識別部26b、収束判定部17、出力部18、及び制御部19は、特別なプログラムが読み込まれたCPUなどである。また、これらの少なくとも一部が集積回路などによって構成されてもよい。
<Configuration>
FIG. 6 is a block diagram for illustrating a functional configuration of the
As illustrated in FIG. 6, the
Note that the
<事前処理>
事前処理として、記憶部11aにテキストデータの集合Dが格納される。テキストデータの集合Dは第1実施形態と同様である。
<Pre-processing>
As pre-processing, a set D of text data is stored in the
<データ抽出処理>
図7は、第2実施形態のデータ抽出装置2のデータ抽出処理を例示するための図である。本形態では、エンティティと属性の更新を交互に行うco-training方式を用いる。すなわち、ステップS22−S24では正例及び負例エンティティの更新は行われず、正例及び負例属性の更新のみが行われる。一方ステップS25−S27では正例及び負例属性の更新は行われず、正例及び負例エンティティの更新のみが行われる。以下、図7を用いてデータ抽出装置2のデータ抽出処理を例示する。
<Data extraction process>
FIG. 7 is a diagram for illustrating a data extraction process of the
《初期化:ステップS11》
制御部19がjの値をj=1に初期化する。
《初期属性集合生成:ステップS21》
正例シードエンティティRPe 0と負例シードエンティティRNe 0とが初期属性集合生成部22に入力される。例えば、正例シードエンティティとしてRPe 0=<広島>、負例シードエンティティとしてRNe 0=<日本>が入力される。正例シードエンティティRPe 0は、ユーザによって選択されたものである。負例シードエンティティRNe 0は、ユーザによって選択されたものであってもよいし、テキストデータの集合Dから半自動で生成されたものであってもよい。以下に負例シードエンティティRNe 0を半自動で生成する方法を例示する。
<< Initialization: Step S11 >>
The
<< Initial attribute set generation: Step S21 >>
The positive example seed entity RP e 0 and the negative example seed entity RN e 0 are input to the initial attribute set
[負例シードエンティティRNe 0の半自動生成方法の例]
負例シードエンティティ生成部(図示せず)が、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も後述する正例属性RPa 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから1つずつランダムに名詞を選択し、それらを負例エンティティ候補として出力する。表示部(図示せず)はこれらの負例エンティティ候補を表示し、これらから負例シードエンティティを選択するようにユーザに促す表示を行う。ユーザによる選択内容は負例シードエンティティ生成部に入力され、負例シードエンティティ生成部は、選択された負例エンティティ候補を正例シードエンティティRPe 0として出力する([負例シードエンティティRNe 0の半自動生成方法の例]の説明終わり)。
初期属性集合生成部22は、入力された正例シードエンティティRPe 0と負例シードエンティティRNe 0と記憶部11aに格納されたテキストデータの集合Dとを用い、正例シードエンティティRPe 0の属性を表す文字列である正例属性RPa 0の集合と、負例シードエンティティRNe 0の属性を表す文字列である負例属性RNa 0の集合とを生成する。
[Example of semi-automatic generation of negative example seed entity RN e 0 ]
A negative example seed entity generation unit (not shown) extracts and extracts a predetermined number of text data that does not contain any positive example seed entity RP e 0 or a positive example attribute RP a 0 described later from the text data set D. The nouns are selected at random from each of the text data and are output as negative example entity candidates. A display unit (not shown) displays these negative example entity candidates, and performs a display prompting the user to select a negative example seed entity from them. The selection by the user is input to the negative example seed entity generation unit, and the negative example seed entity generation unit outputs the selected negative example entity candidate as the positive example seed entity RP e 0 ([negative example seed entity RN e 0 End of description of semi-automatic generation method example].
The initial attribute set
(A)まず初期属性集合生成部22が、正例シードエンティティRPe 0を含むテキストデータの集合から当該正例エンティティRPe 0以外の何れかの文字列を正例属性候補として選択する。例えば、初期属性集合生成部22は、記憶部11aから正例シードエンティティRPe 0を含む正例テキストを所定数取得し、各正例テキストにおいて正例シードエンティティRPe 0と直接又は1文節を挟む係り受け関係にある単語のみを正例属性候補として抽出する。
(A) First, the initial attribute set
(B)次に初期属性集合生成部22は、正例シードエンティティRPe 0を含む文字列の集合内に当該正例属性候補が含まれる頻度とすべてのテキストデータからなる集合D内に当該正例属性候補が含まれる頻度との違いの大きさを表す指標(統計量)を求め、当該指標が大きいものから所定数の正例属性候補、つまり、これらの頻度の違いが大きい当該正例属性候補を正例属性RPa 0(正例属性の初期値)とする。これらの頻度の違いが大きい正例属性候補ほど正例シードエンティティRPe 0との関連が強く、正例シードエンティティRPe 0の正例属性RPa 0にふさわしいといえる。以下にこのような指標を例示するが、その他の統計量を用いてもかまわない。
(B) Next, the initial attribute set
[指標の例]
指標の例1:
指標の例1では、以下のχ2値を指標として用いる。
Indicator example 1:
In index example 1, the following χ 2 values are used as indices.
指標の例2:
指標の例2では、正例シードエンティティRPe 0と正例属性候補αとの2項における以下のPMIを指標として用いる。
PMI値が大きい正例属性候補αほど、正例シードエンティティRPe 0と関係の深い、即ち属性としてふさわしいといえる。よって、この例の初期属性集合生成部22は、PMI値が大きな正例属性候補αを正例属性RPa 0として抽出する。例えば、PMI値が基準値以上となる正例属性候補αを正例属性RPa 0とする([指標の例]の説明終わり)。
Indicator example 2:
In the index example 2, the following PMIs in the two terms of the positive example seed entity RP e 0 and the positive example attribute candidate α are used as the index.
It can be said that the positive example attribute candidate α having a larger PMI value is more closely related to the positive example seed entity RP e 0 , that is, suitable as an attribute. Therefore, the initial attribute set
この方法では、まず(A)で構文情報を用いて正例属性候補を粗く絞り込むため、(B)での計算時間を大幅に削減することができる。また、上記(A),(B)により正例属性RPa 0(正例属性の初期値)を抽出した後、適切な属性が選択されているか否かを人手によりチェックし、最終的な正例属性RPa 0を決定してもよい。 In this method, first, the correct attribute candidate is roughly narrowed down using the syntax information in (A), so that the calculation time in (B) can be greatly reduced. Further, after extracting the positive example attribute RP a 0 (initial value of the positive example attribute) by the above (A) and (B), it is manually checked whether or not an appropriate attribute is selected, and the final positive attribute is selected. The example attribute RP a 0 may be determined.
初期属性集合生成部22は、負例シードエンティティRNe 0についても同様の処理を行い、負例属性RNa 0を抽出する。すなわち、初期属性集合生成部22は、負例シードエンティティRNe 0を含むテキストデータの集合から当該負例シードエンティティRNe 0以外の何れかの文字列を負例属性候補として選択し、負例シードエンティティRNe 0を含む文字列の集合内に当該負例属性候補が含まれる頻度とすべてのテキストデータからなる集合D内に当該負例属性候補が含まれる頻度との違いの大きさを表す指標が条件を満たす負例属性候補、つまり、これらの頻度の違いが大きな当該負例属性候補を負例属性RNa 0(負例属性の初期値)とする。
Initial attribute set
また、上述した方法の代わりに、初期属性集合生成部22が、負例シードエンティティRNe 0とそれに対応する負例属性RNa 0とを半自動で選択してもよい。例えば、初期属性集合生成部22は、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も正例属性RPa 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから2つずつランダムに名詞を選択し、一方を負例エンティティ候補、他方を負例属性候補として出力する。表示部(図示せず)はこれらを表示し、これらから負例シードエンティティRNe 0とそれに対応する負例属性RNa 0とを選択するようにユーザに促す表示を行う。ユーザによる選択内容は初期属性集合生成部22に入力され、初期属性集合生成部22は選択された負例シードエンティティRNe 0及び負例属性RNa 0の集合を出力する。
Instead of the method described above, the initial attribute set
初期属性集合生成部22は、正例シードエンティティRPe 0の集合、負例シードエンティティRNe 0の集合、抽出した正例属性RPa 0の集合、及び負例属性RNa 0の集合を出力する。例えば、初期属性集合生成部22は、図4のテキストデータの中から、正例シードエンティティRPe 0を含むテキストとしてT1,T2,T10に対応するものを取得し、上記の処理によってT1,T2に対応するテキストが含む正例属性RPa 0の集合{<VS>,<第1戦>,<投手>}を抽出して出力する。同様に初期属性集合生成部22は、例えば、負例シードエンティティRNe 0を含むテキストとしてT7に対応するものを取得し、負例属性RNa 0の集合R{<人口>}を抽出して出力する。
The initial attribute set
《属性識別用素性抽出:ステップS22》
正例エンティティRPe j-1の集合、負例エンティティRNe j-1の集合、正例属性RPa j-1の集合、及び負例属性RNa j-1の集合が、属性識別用素性抽出部23aに入力される。
属性識別用素性抽出部23aは、正例エンティティRPe j-1の集合から選択した第1正例エンティティと正例属性RPa j-1の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアPP1(RPe j-1,RPa j-1)と、負例エンティティRNe j-1の集合から選択した第1負例エンティティと負例属性RNa j-1の集合から選択した第1負例属性との組である第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)とを生成する。PP1(RPe j-1,RPa j-1)やPN1(RNe j-1,RNa j-1)は、RPe j-1とRPa j-1やRNe j-1とRNa j-1の採り得るすべての組み合わせについて生成されてもよいし、それらの一部の組み合わせのみについて生成されてもよい。
次に属性識別用素性抽出部23aは、記憶部11aに格納されたテキストデータの集合Dから、PP1(RPe j-1,RPa j-1)の正例エンティティRPe j-1と正例属性RPa j-1との組を含む文字列である「第1正例テキスト」を選択する。第1正例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第1正例テキストは、第1正例エンティティ−正例属性ペアPP1(RPe j-1,RPa j-1)とテキストデータとの組に対して1個以上抽出される。
属性識別用素性抽出部23aは、第1正例テキストに対する第1正例エンティティ−正例属性ペアPP1(RPe j-1,RPa j-1)の特徴を表す情報を当該第1正例エンティティ−正例属性ペアPP1(RPe j-1,RPa j-1)の素性fPa jとする。この例では、第1正例テキストごとにPP1(RPe j-1,RPa j-1)の素性fPa jが抽出される。PP1(RPe j-1,RPa j-1)の素性fPa jの例は、第1正例テキスト(正例エンティティRPe j-1及び正例属性RPa j-1を含む文字列であってテキストデータに含まれるもの)と当該第1正例エンティティRPe j-1及び第1正例属性RPa j-1との関係を表す情報である。
<< Attribute Identification Feature Extraction: Step S22 >>
A set of positive entity RP e j-1, a set of negative example entity RN e j-1, a set of positive example attributes RP a j-1 , and a set of negative example attributes RN a j-1 are attribute identification features. The data is input to the extraction unit 23a.
The attribute identifying feature extraction unit 23a is a set of a first positive example entity selected from the set of positive example entities RP e j-1 and a first positive example attribute selected from the set of positive example attributes RP a j-1. A first negative example entity and a positive example attribute selected from a set of a first positive example entity-positive example attribute pair PP 1 (RP e j-1 , RP a j-1 ) and a negative example entity RN e j-1 first negative example entity is a set of a first negative example selected attributes from the set of RN a j-1 - to produce a negative example attribute pair PN 1 (RN e j-1 , RN a j-1). PP 1 (RP e j-1 , RP a j-1 ) and PN 1 (RN e j-1 , RN a j-1 ) are RP e j-1 , RP a j-1 , RN e j-1 And RN a j-1 may be generated for all possible combinations, or only some of them may be generated.
Next, the attribute identifying feature extracting unit 23a determines the positive entity RP e j-1 of PP 1 (RP e j-1 , RP a j-1 ) from the text data set D stored in the
The attribute identifying feature extraction unit 23a uses the first positive example entity-positive example attribute pair PP 1 (RP e j-1 , RP a j-1 ) for the first positive example text as the first positive example information. The feature fP a j of the example entity-positive example attribute pair PP 1 (RP e j−1 , RP a j−1 ) is assumed. In this example, the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) is extracted for each first positive example text. An example of the feature fP a j of PP 1 (RP e j-1 , RP a j-1 ) is a character including the first example text (the example entity RP e j-1 and the example attribute RP a j-1) Information included in the text data) and the first positive example entity RP e j-1 and the first positive example attribute RP a j-1 .
例えば、何れかの正例エンティティRPe j-1及び正例属性RPa j-1を含むテキストデータ内における当該正例属性RPa j-1に一致する文字列(一致属性)から前後所定単語数以内(第1正例テキスト内)に位置する単語(周辺単語)の表記と当該一致属性に対する当該周辺単語の相対位置を表す情報との組(表層素性)、一致属性又は周辺単語の品詞情報(品詞素性)や固有名詞情報(固有名詞素性)や構文情報(構文素性)、テキストデータ内での一致属性の出現回数やテキストデータの集合D内での一致属性の出現回数(出現回数素性)のうち、少なくとも一つに対応する情報を素性fPa jとすることができる。この具体例は、正例属性を基準とする以外、第1実施形態の[正例エンティティRPe j-1の素性fP'e jの例]と同様である。例えば、正例エンティティRPe j-1がex=<阪神>であり、正例属性RPa j-1がey=<投手>であり、第1正例テキストが「阪神/は/投手/陣/が/好調」であるとすると、抽出される素性fPa jの例は以下のようになる。ここでは素性抽出の範囲をエンティティ及び属性の前後2単語以内と仮定している。
表層素性:「ex+1="は"」「ex+2=ey」「ey−2=ex」,「ey−1="は"」,「ey+1="陣"」,「ey+2="が"」
品詞素性:「ex+1=助詞」「ey−1=助詞」,「ey + 1=名詞」,「ey + 1=助詞」
固有名詞素性:「ex=ORG(組織名)」「ey−2=ORG(組織名)」
構文素性:「exの階層=eyの階層」(両方「好調」に係る)
For example, a predetermined word before and after a character string (matching attribute) that matches the positive example attribute RP a j-1 in text data including any positive example entity RP e j-1 and the positive example attribute RP a j-1 A pair (surface layer feature) of notation of words (neighboring words) located within a few (in the first example text) and information indicating the relative position of the neighboring words with respect to the matching attribute, part of speech information of matching attributes or surrounding words (Part of speech feature), proper noun information (proprietary noun feature), syntax information (syntactic feature), the number of appearances of matching attributes in text data, and the number of appearances of matching attributes in text data set D (appearance frequency feature) Among them, information corresponding to at least one of them can be set as a feature fP a j . This specific example is the same as [Example of feature fP ′ e j of positive example entity RP e j−1 ] of the first embodiment, except that the positive example attribute is used as a reference. For example, the positive example entity RP e j-1 is ex = <Hanshin>, the positive example attribute RP a j-1 is ey = <Pitcher>, and the first positive example text is “Hanshin / Ha / Pitcher / Team”. Assuming that “/ is good”, an example of the extracted feature fP a j is as follows. Here, it is assumed that the feature extraction range is within two words before and after the entity and attribute.
Surface features: "ex + 1 =" is """ex + 2 = ey""ey-2 = ex", "ey-1 =" is "", "ey + 1 =" camp "", "ey + 2 = "is""
Part-of-speech features: “ex + 1 = particle”, “ey−1 = particle”, “ey + 1 = noun”, “ey + 1 = particle”
Proper noun features: “ex = ORG (organization name)” “ey-2 = ORG (organization name)”
Syntactic feature: “ex hierarchy = ey hierarchy” (both related to “good”)
同様に、属性識別用素性抽出部23aは、記憶部11aに格納されたテキストデータの集合Dから、PN1(RNe j-1,RNa j-1)の負例エンティティRNe j-1と負例属性RNa j-1との組を含む文字列である「第1負例テキスト」を選択する。第1負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第1負例テキストは、第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)とテキストデータとの組に対して1個以上抽出される。
属性識別用素性抽出部23aは、第1負例テキストに対する第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)の特徴を表す情報を当該第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)の素性fNa jとする。この例では、第1負例テキストごとにPN1(RNe j-1,RNa j-1)の素性fNa jが抽出される。PN1(RNe j-1,RNa j-1)の素性fNa jの例は、第1負例テキスト(負例エンティティRNe j-1及び負例属性RNa j-1を含む文字列であってテキストデータに含まれるもの)と当該第1負例エンティティRNe j-1及び第1負例属性RNa j-1との関係を表す情報である。その具体例は、上述した正例に対応するPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。
Similarly, the attribute identifying feature extraction unit 23a extracts the negative example entity RN e j-1 of PN 1 (RN e j-1 , RN a j-1 ) from the text data set D stored in the
The attribute identifying feature extracting unit 23a uses the first negative example entity-negative example attribute pair PN 1 (RN e j−1 , RN a j−1 ) for the first negative example text as the first negative example. The feature fN a j of the example entity-negative example attribute pair PN 1 (RN e j−1 , RN a j−1 ) is assumed. In this example, the feature fN a j of PN 1 (RN e j−1 , RN a j−1 ) is extracted for each first negative example text. An example of a feature fN a j of PN 1 (RN e j-1 , RN a j-1 ) is a character including the first negative example text (negative example entity RN e j-1 and negative example attribute RN a j-1 Information included in the text data) and the first negative example entity RN e j-1 and the first negative example attribute RN a j-1 . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) corresponding to the positive example described above.
属性識別用素性抽出部23aは、PP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)を出力する。
図8Aは、属性識別用素性抽出部23aが出力する組(fPa j, <+1>)及び組(fNa j, <-1>)を例示した図である。この例では、エンティティ(ex)と属性(ey)の前後2単語の表記を素性としている。
The attribute identifying feature extraction unit 23a sets a pair (fP a j , <+1) of a feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) and a label <+1> representing a positive example. >) And a pair (fN a j , <-1>) of the feature fN a j of PN 1 (RN e j-1 , RN a j-1 ) and the label <-1> representing a negative example To do.
FIG. 8A is a diagram illustrating a pair (fP a j , <+1>) and a pair (fN a j , <−1>) output by the attribute identifying feature extraction unit 23a. In this example, the notation of two words before and after the entity (ex) and the attribute (ey) is used as a feature.
《属性識別学習:ステップS23》
PP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)が属性識別学習部25aに入力される。属性識別学習部25aは、PP1(RPe j-1,RPa j-1)の素性fPa jとPN1(RNe j-1,RNa j-1)の素性fNa jとを教師あり学習データとした学習処理によって、第1識別モデルMEa jを生成する。この第1識別モデルMEa jは、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である。このような識別モデルMEe jであればどのようなモデルであってもよい。例えば、前述の識別モデルMEe jと同様に第1識別モデルMEa jを生成すればよい。
学習処理によって生成された第1識別モデルMEa jは記憶部21dに格納される。例えば、学習処理によって生成された第1識別モデルMEa jのパラメータが記憶部21dに格納される。
<< Attribute Identification Learning: Step S23 >>
A pair (fP a j , <+1>) of a feature fP a j of PP 1 (RP e j-1 , RP a j-1 ) and a label <+1> representing a positive example, and PN 1 (RN A pair (fN a j , <-1>) of a feature fN a j of e j−1 , RN a j−1 ) and a label <−1> representing a negative example is input to the attribute
The first identification model ME a j generated by the learning process is stored in the
《属性識別:ステップS24》
属性識別部26aは、記憶部11aに格納されたテキストデータの集合Dから何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティRDe jとして選択する。また属性識別部26aは、選択した当該テキストデータから当該第1対象エンティティRDe jと異なる文字列を第1対象属性RDa jとして選択する。そして属性識別部26aは、第1対象エンティティRDe jと第1対象属性RDa jとの組を第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)とする。
<< Attribute Identification: Step S24 >>
The
なお、テキストデータの集合Dからすべてのテキストデータが選択されてもよいが、すべてのテキストデータを対象とすることは計算効率上好ましくない。そのため、特定の方法で対象を限定して選択を行うことが望ましい。以下にその具体例を示す。 Note that all text data may be selected from the text data set D, but it is not preferable in terms of computational efficiency to target all text data. For this reason, it is desirable to select a target by a specific method. Specific examples are shown below.
[選択方法の例]
第1条件:
属性識別部26aは、何れかの正例エンティティRPj-1 e又は負例エンティティRNj-1 eを含み、かつ当該エンティティRPj-1 e又RNj-1 eから任意のウィンドウサイズ内(ここでは3単語とする)に名詞を含むテキストデータを選択し、当該ウィンドウサイズ内の名詞を属性候補とする。
[Example of selection method]
First condition:
The
第2条件:
第1条件だけでは対象の数が膨大になる場合があるため、属性識別部26aは、属性識別学習部25aで教師あり学習データとして用いられたPP1(RPe j-1,RPa j-1)の素性fPa jとPN1(RNe j-1,RNa j-1)の素性fNa jのうち、それらから生成された第1識別モデルMEa jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該第1識別モデルMEa jへの影響度が大きな素性fPa j及び/又はfNa jを選択する。例えば、属性識別部26aは、前述の重みλqの絶対値が閾値よりも大きな素性fPa j及び/又はfNa jを選択する。
Second condition:
Since the number of objects may become enormous under the first condition alone, the
属性識別部26aは、選択した素性fPa j及び/又はfNa jに対応する文字列を含むテキストデータを、第1条件で選択されたテキストデータの集合から選択する。属性識別部26aは、当該選択したテキストデータが含む文字列を第1対象エンティティRDe j及び第1対象属性RDa jとする。例えば、属性識別部26aは、選択した素性fPa j及び/又はfNa jから表層素性の単語を抽出し、当該表層素性の単語を含むテキストデータを第1条件で選択されたテキストデータの集合から選択し、当該選択したテキストデータが含む文字列を第1対象エンティティRDe j及び第1対象属性RDa jとする。
The
一例を挙げると、選択された素性がエンティティexの前2単語が表層素性と品詞素性の組み合わせで成り立つ素性FNC(x−2=“POS:名詞”, x−1=“VS”)であった場合、属性識別部26aは、選択した素性FNC(x−2=“POS:名詞”, x−1=“VS”)から表層素性の単語“VS”を抽出し、第1条件で選択されたテキストデータの集合から、単語“VS”を含むテキストデータを選択する([選択方法の例]の説明終わり)。
For example, the selected feature was a feature FNC (x-2 = “POS: noun”, x−1 = “VS”) in which the two words before entity ex consisted of a combination of surface features and part-of-speech features. In this case, the
属性識別用素性抽出部23aは、記憶部11aに格納されたテキストデータの集合Dから、第1対象エンティティRDe jと第1対象属性RDa jとの組を含む文字列である「第1対象テキスト」を選択する。第1対象テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第1対象テキストは、第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)とテキストデータとの組に対して1個以上抽出される。
The attribute identifying feature extraction unit 23a is a character string that includes a set of the first target entity RD e j and the first target attribute RD a j from the text data set D stored in the
属性識別用素性抽出部23aは、第1対象テキストに対する第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)の特徴を表す情報を当該第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)の素性fDa jとする。この例では、第1対象テキストごとにPD1(RDe j,RDa j)の素性fDa jが抽出される。PD1(RDe j,RDa j)の素性fDa jの例は、第1対象テキスト(第1対象エンティティRDe j及び第1対象属性RDa j-1を含む文字列であってテキストデータに含まれるもの)と第1対象エンティティRDe j及び第1対象属性RDa j-1との関係を表す情報である。その具体例は、上述した正例に対応するPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。 Attribute identification feature extracting unit 23a, the first target entity for a first target text - target attribute pair PD 1 (RD e j, RD a j) the first target entity information indicating features of the - target attribute pair PD 1 The feature fD a j of (RD e j , RD a j ) is assumed. In this example, the feature fD a j of PD 1 (RD e j , RD a j ) is extracted for each first target text. An example of the feature fD a j of PD 1 (RD e j , RD a j ) is a text including a first target text (a first target entity RD e j and a first target attribute RD a j−1). Information included in the data), the first target entity RD e j, and the first target attribute RD a j-1 . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) corresponding to the positive example described above.
第1対象テキストに対応するPD1(RDe j,RDa j)の素性fDa jは、属性識別部26aに入力される。属性識別部26aは、PD1(RDe j,RDa j)の素性fDa jを記憶部21dから読み出した第1識別モデルMEa jに入力し、PD1(RDe j,RDa j)が正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別する。
ここで、属性識別部26aは、PD1(RDe j,RDa j)を正例エンティティ−正例属性ペアであると識別した場合、当該PD1(RDe j,RDa j)の第1対象属性RDa jを正例属性RPa jとして記憶部21eに格納し、正例属性RPa jの集合に追加する。また、属性識別部26aは、PD1(RDe j,RDa j)が負例エンティティ−負例属性ペアであると識別した場合、当該PD1(RDe j,RDa j)の第1対象属性RDa jを負例属性RNa jとして記憶部21eに格納し、負例属性RNa jの集合に追加する。すなわち、ステップS22−S24では正例及び負例エンティティの更新は行われず、正例及び負例属性の更新のみが行われる。
The feature fD a j of PD 1 (RD e j , RD a j ) corresponding to the first target text is input to the
Here, when the
例えば、属性識別部26aが図4のテキストデータの集合Dから、T10のテキストデータを選択し、当該テキストデータが含む単語<広島>を第1対象エンティティRDe jとし、単語<戦>を第1対象属性RDa jとして選択したとする。この場合、属性識別用素性抽出部23aは、例えば、<広島>と<戦>との組を含むT10のテキストデータを第1対象テキストとし、T10のテキストデータに対するPD1(RDe j,RDa j)="<広島>−<戦>"の素性fDa jを抽出する。属性識別部26aは、PD1(RDe j,RDa j)="<広島>−<戦>"の素性fDa jを第1識別モデルMEa jに入力し、PD1(RDe j,RDa j)が正例エンティティ−正例属性ペアであるか負例エンティティ−負例属性ペアであるかが識別される。例えば、"<広島>−<戦>"が正例エンティティ−正例属性ペアであると識別したとすると、<戦>という属性が正例属性RPa jの集合に追加される。なお、正例又は負例と識別されたPD1(RDe j,RDa j)のうち、閾値を超える信頼度が付与されたものの第1対象属性RDa jのみを、正例属性RPa j又は負例属性RNa jの集合に追加してもよい。上述の例では{<VS>,<第1戦>,<投手>,<戦>}が正例属性RPj aの集合に追加される。
For example, the
《エンティティ識別用素性抽出:ステップS25》
正例エンティティRPe j-1の集合、負例エンティティRNe j-1の集合、上記のように更新された正例属性RPa jの集合及び負例属性RNa jの集合がエンティティ識別用素性抽出部23bに入力される。
エンティティ識別用素性抽出部23bは、正例エンティティRPe j-1の集合から選択した第2正例エンティティと正例属性RPa jの集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアPP2(RPe j-1,RPa j)と、負例エンティティRNe j-1の集合から選択した第2負例エンティティと負例属性RNa jの集合から選択した第2負例属性との組である第2負例エンティティ−負例属性ペアPN2(RNe j-1,RNa j)とを生成する。PP2(RPe j-1,RPa j)やPN2(RNe j-1,RNa j)は、RPe j-1とRPa jやRNe j-1とRNa jの採り得るすべての組み合わせについて生成されてもよいし、それらの一部の組み合わせのみについて生成されてもよい。
次にエンティティ識別用素性抽出部23bは、記憶部11aに格納されたテキストデータの集合Dから、PP2(RPe j-1,RPa j)の正例エンティティRPe j-1と正例属性RPa jとの組を含む文字列である「第2正例テキスト」を選択する。第2正例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第2正例テキストは、第2正例エンティティ−正例属性ペアPP2(RPe j-1,RPa j)とテキストデータとの組に対して1個以上抽出される。
エンティティ識別用素性抽出部23bは、第2正例テキストに対する第2正例エンティティ−正例属性ペアPP2(RPe j-1,RPa j)の特徴を表す情報を当該第2正例エンティティ−正例属性ペアPP2(RPe j-1,RPa j)の素性fPe jとする。この例では、第2正例テキストごとにPP2(RPe j-1,RPa j)の素性fPe jが抽出される。PP2(RPe j-1,RPa j)の素性fPe jの例は、第2正例テキスト(正例エンティティRPe j-1及び正例属性RPa jを含む文字列であってテキストデータに含まれるもの)と当該第2正例エンティティRPe j-1及び第2正例属性RPa jとの関係を表す情報である。その具体例は、前述(ステップS22)したPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。
<< Entity Identification Feature Extraction: Step S25 >>
The set of positive entity RP e j-1, the set of negative example entity RN e j-1 , the set of positive example attributes RP a j and the set of negative example attributes RN a j updated as described above are for entity identification. It is input to the feature extraction unit 23b.
The entity identifying feature extraction unit 23b is a set of a second positive example entity selected from the set of positive example entities RP e j-1 and a second positive example attribute selected from the set of positive example attributes RP a j . Two positive example entities—positive example attribute pair PP 2 (RP e j−1 , RP a j ) and a second negative example entity selected from the set of negative example entities RN e j−1 and negative example attribute RN a j A second negative example entity-negative example attribute pair PN 2 (RN e j−1 , RN a j ) that is a pair with the second negative example attribute selected from the set is generated. PP 2 (RP e j-1 , RP a j ) and PN 2 (RN e j-1 , RN a j ) are taken from RP e j-1 , RP a j , RN e j-1, and RN a j It may be generated for all possible combinations, or only some of those combinations.
Next, the entity identifying feature extraction unit 23b extracts the positive example entity RP e j-1 and the positive example of PP 2 (RP e j-1 , RP a j ) from the text data set D stored in the
The entity identifying feature extraction unit 23b obtains information representing the characteristics of the second positive example entity-positive example attribute pair PP 2 (RP e j−1 , RP a j ) with respect to the second positive example text. A feature fP e j of the positive attribute pair PP 2 (RP e j−1 , RP a j ). In this example, the feature fP e j of PP 2 (RP e j−1 , RP a j ) is extracted for each second positive example text. An example of the feature fP e j of PP 2 (RP e j−1 , RP a j ) is a character string that includes the second positive example text (the positive example entity RP e j−1 and the positive example attribute RP a j). Information included in the text data) and the second positive example entity RP e j-1 and the second positive example attribute RP a j . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) described above (step S22).
同様に、エンティティ識別用素性抽出部23bは、記憶部11aに格納されたテキストデータの集合Dから、何れかの負例エンティティRNe j-1と負例属性RNa jとの組を含む文字列である「第2負例テキスト」を選択する。第2負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第2負例テキストは、第2負例エンティティ−負例属性ペアPN2(RNe j-1,RNa j)とテキストデータとの組に対して1個以上抽出される。
エンティティ識別用素性抽出部23bは、第2負例テキストに対する第2負例エンティティ−負例属性ペアPN2(RNe j-1,RNa j)の特徴を表す情報を当該第2負例エンティティ−負例属性ペアPN2(RNe j-1,RNa j)の素性fNe jとする。この例では、第2負例テキストごとにPN2(RNe j-1,RNa j)の素性fNe jが抽出される。PN2(RNe j-1,RNa j)の素性fNe jの例は、第2負例テキスト(負例エンティティRNe j-1及び負例属性RNa jを含む文字列であってテキストデータに含まれるもの)と当該第2負例エンティティRNe j-1及び第2負例属性RNa jとの関係を表す情報である。その具体例は、前述(ステップS22)したPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。
Similarly, the entity identifying feature extraction unit 23b reads from the text data set D stored in the
The entity identifying feature extraction unit 23b obtains information representing the characteristics of the second negative example entity-negative example attribute pair PN 2 (RN e j−1 , RN a j ) with respect to the second negative example text. A feature fN e j of the negative example attribute pair PN 2 (RN e j−1 , RN a j ). In this example, the feature fN e j of PN 2 (RN e j−1 , RN a j ) is extracted for each second negative example text. An example of a feature fN e j of PN 2 (RN e j−1 , RN a j ) is a character string including a second negative example text (negative example entity RN e j−1 and negative example attribute RN a j) Information included in the text data) and the second negative example entity RN e j-1 and the second negative example attribute RN a j . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) described above (step S22).
エンティティ識別用素性抽出部23bは、PP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)を出力する。 The entity identifying feature extraction unit 23b sets (fP e j , <+1>) a feature fP e j of PP 2 (RP e j−1 , RP a j ) and a label <+1> representing a positive example. And a pair (fN e j , <-1>) of a feature fN e j of PN 2 (RN e j−1 , RN a j ) and a label <−1> representing a negative example.
図8Bは、エンティティ識別用素性抽出部23bが出力する組(fPe j, <+1>)及び組(fNe j, <-1>)を例示した図である。この例では、エンティティ(ex)と属性(ey)の前後2単語の表記を素性としている。
《エンティティ識別学習:ステップS26》
PP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)がエンティティ識別学習部25bに入力される。エンティティ識別学習部25bは、PP2(RPe j-1,RPa j)の素性fPe jとPN2(RNe j-1,RNa j)の素性fNe jとを教師あり学習データとした学習処理によって、第2識別モデルMEe jを生成する。この2識別モデルMEe jは、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である。このような第2識別モデルMEe jであればどのようなモデルであってもよい。例えば、前述の識別モデルMEe jと同様に第2識別モデルMEe jを生成すればよい。
学習処理によって生成された第2識別モデルMEe jは記憶部11dに格納される。例えば、学習処理によって生成された第2識別モデルMEe jのパラメータが記憶部11dに格納される。
FIG. 8B is a diagram illustrating a pair (fP e j , <+1>) and a pair (fN e j , <-1>) output by the entity identifying feature extraction unit 23b. In this example, the notation of two words before and after the entity (ex) and the attribute (ey) is used as a feature.
<< Entity Identification Learning: Step S26 >>
A pair (fP e j , <+1>) of a feature fP e j of PP 2 (RP e j−1 , RP a j ) and a label <+1> representing a positive example, and PN 2 (RN e j −1 , RN a j ) of the feature fN e j and a negative example label <-1> (fN e j , <-1>) is input to the entity
Second identification model ME e j generated by the learning processing is stored in the
《エンティティ識別:ステップS27》
エンティティ識別部26bは、記憶部11aに格納されたテキストデータの集合Dから何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティRDe jとして選択する。またエンティティ識別部26bは、選択した当該テキストデータから当該第2対象エンティティRDe jと異なる文字列を第2対象属性RDa jとして選択する。そしてエンティティ識別部26bは、第2対象エンティティRDe jと第2対象属性RDa jとの組を第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)とする。
<< Entity Identification: Step S27 >>
なお、テキストデータの集合Dからすべてのテキストデータが選択されてもよいが、すべてのテキストデータを対象とすることは計算効率上好ましくない。そのため、特定の方法で対象を限定して選択を行うことが望ましい。以下にその具体例を示す。 Note that all text data may be selected from the text data set D, but it is not preferable in terms of computational efficiency to target all text data. For this reason, it is desirable to select a target by a specific method. Specific examples are shown below.
[選択方法の例]
第1条件:
エンティティ識別部26bは、何れかの正例属性RPj a又は負例属性RNj aを含み、かつ当該属性RPj a又RNj aから任意のウィンドウサイズ内(ここでは3単語とする)に名詞を含むテキストデータを抽出し、ウィンドウサイズ内の名詞をエンティティ候補とする。
[Example of selection method]
First condition:
第2条件:
第1条件だけでは対象の数が膨大になる場合があるため、エンティティ識別部26bは、エンティティ識別学習部25bで教師あり学習データとして用いられたPP2(RPe j-1,RPa j)の素性fPe jとPN2(RNe j-1,RNa j)の素性fNe jのうち、それらから生成された第2識別モデルMEe jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該第2識別モデルMEe jへの影響度が大きな素性fPe j及び/又はfNe jを選択する。例えば、エンティティ識別部26bは、前述の重みλqの絶対値が閾値よりも大きな素性fPe j及び/又はfNe jを選択する。
Second condition:
Since the number of targets may become enormous under the first condition alone, the
エンティティ識別部26bは、選択した素性fPe j及び/又はfNe jに対応する文字列を含むテキストデータを、第1条件で選択されたテキストデータの集合から選択する。エンティティ識別部26bは、当該選択したテキストデータが含む文字列を第2対象エンティティRDe j及び第2対象属性RDa jとする。例えば、エンティティ識別部26bは、選択した素性fPe j及び/又はfNe jから表層素性の単語を抽出し、当該表層素性の単語を含むテキストデータを第1条件で選択されたテキストデータの集合から選択する。([選択方法の例]の説明終わり)。
The
エンティティ識別用素性抽出部23bは、記憶部11aに格納されたテキストデータの集合Dから、第2対象エンティティRDe jと第2対象属性RDa jとの組を含む文字列である「第2対象テキスト」を選択する。第2対象テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第2対象テキストは、第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)とテキストデータとの組に対して1個以上抽出される。
The entity identifying feature extraction unit 23b is a character string that includes a set of the second target entity RD e j and the second target attribute RD a j from the text data set D stored in the
エンティティ識別用素性抽出部23bは、第2対象テキストに対する第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)の特徴を表す情報を当該第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)の素性fDe jとする。この例では、第2対象テキストごとにPD2(RDe j,RDa j)の素性fDe jが抽出される。PD2(RDe j,RDa j)の素性fDe jの例は、第2対象テキスト(第2対象エンティティRDe j及び第2対象属性RDa j-1を含む文字列であってテキストデータに含まれるもの)と第2対象エンティティRDe j及び第2対象属性RDa j-1との関係を表す情報である。その具体例は、前述(ステップS22)したPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。 Entity identification feature extracting unit 23b, the second target entity for a second target text - target attribute pair PD 2 (RD e j, RD a j) said second target entity information indicating features of the - target attribute pair PD 2 A feature fD e j of (RD e j , RD a j ) is assumed. In this example, the feature fD e j of PD 2 (RD e j , RD a j ) is extracted for each second target text. An example of the feature fD e j of PD 2 (RD e j , RD a j ) is a text that includes the second target text (second target entity RD e j and second target attribute RD a j-1). Information included in the data), the second target entity RD e j, and the second target attribute RD a j-1 . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) described above (step S22).
第2対象テキストに対応するPD2(RDe j,RDa j)の素性fDe jは、エンティティ識別部26bに入力される。エンティティ識別部26bは、PD2(RDe j,RDa j)の素性fDe jを記憶部11dから読み出した第2識別モデルMEe jに入力し、PD2(RDe j,RDa j)が正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別する。
The feature fD e j of PD 2 (RD e j , RD a j ) corresponding to the second target text is input to the
ここで、エンティティ識別部26bは、PD2(RDe j,RDa j)を正例エンティティ−正例属性ペアであると識別した場合、当該PD2(RDe j,RDa j)の第2対象エンティティRDe jを正例エンティティRPe jとして記憶部11eに格納し、正例エンティティRPe jの集合に追加する。また、エンティティ識別部26bは、PD2(RDe j,RDa j)が負例エンティティ−負例属性ペアであると識別した場合、当該PD2(RDe j,RDa j)の第2対象エンティティRDe jを負例エンティティRNe jとして記憶部11eに格納し、負例エンティティRNe jの集合に追加する。すなわち、ステップS25−S27では正例及び負例属性の更新は行われず、正例及び負例エンティティの更新のみが行われる。
Here, when the
《収束判定:ステップS17−S19》
収束判定部17は、第1実施形態と同様に、収束条件を満たしたかを判定する(ステップS17)。
収束判定部17が収束条件を満たしたと判断した場合、ステップS22からS27のイテレーションが終了し、出力部18が記憶部11eに格納されているすべての正例エンティティRPj eを出力して処理を終了する(ステップS19)。それ以外の場合は、制御部19がj+1を新たなjの値とし(ステップS18)、記憶部11eに格納されている正例エンティティRPj e 及び負例エンティティRNj e 、記憶部21eに格納されている正例属性RPj a 及び負例属性RNj aを属性識別用素性抽出部23aに入力し、ステップS22からS27のイテレーションが実行される。
<< Convergence determination: steps S17 to S19 >>
The
When the
<第2実施形態の特徴>
以上のように、本形態の方法ではエンティティとその属性との組を用いて識別を行うこととしたため、セマンティックドリフトを抑制することができる。例えばエンティティ<阪神>には曖昧性があり、エンティティ<阪神>の素性のみでは、エンティティ<阪神>が鉄道名と球団名のどちらを指すか識別できない。しかし、<試合>や<乗務員>の属性を付加した<阪神>−<試合>や<阪神>−<乗務員>を制約条件とすれば、それぞれの<阪神>が異なる意味で用いられていることを識別できる。
<Features of Second Embodiment>
As described above, in the method according to the present embodiment, identification is performed using a pair of an entity and its attribute, so that semantic drift can be suppressed. For example, the entity <Hanshin> has ambiguity, and the entity <Hanshin> alone cannot identify whether the entity <Hanshin> indicates a railroad name or a team name. However, if <Hanshin>-<Game> or <Hanshin>-<Crew> with attributes of <Game> or <Crew> are used as constraints, each <Hanshin> is used in a different meaning. Can be identified.
また、本形態では、co-training方式を用いるため、精度の高い識別が可能となる。なお、上記では正例及び負例属性の更新(ステップS22−S24)を行った後に、正例及び負例エンティティの更新(S25−S27)を行う例を示した。しかし、正例及び負例エンティティの更新を行った後に正例及び負例属性の更新を行ってもよい。 In this embodiment, since the co-training method is used, highly accurate identification is possible. In the above description, the example in which the positive example and the negative example entity are updated (S25 to S27) after the positive example and negative example attributes are updated (steps S22 to S24) is shown. However, the positive example and negative example attributes may be updated after the positive example and negative example entities are updated.
なお、エンティティ−属性ペアを扱う関係抽出技術としてespressoが知られている(参考文献4「Patrick Pantel and Marco Pennacchiotti., "Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations.", COLING-ACL, 2006.」)。espressoの場合は、エンティティ−属性ペアを獲得するのが目的であるため、予めエンティティ−属性ペアを正例及び負例として与えておく必要がある。これに対し、本形態はエンティティ獲得のために属性を用いるので、初期値としてはエンティティだけを与えれば良い。 Note that espresso is known as a relation extraction technique that handles entity-attribute pairs (Reference 4 “Patrick Pantel and Marco Pennacchiotti.,“ Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations. ”, COLING-ACL, 2006. "). In the case of espresso, since the purpose is to acquire an entity-attribute pair, it is necessary to give entity-attribute pairs as positive examples and negative examples in advance. On the other hand, since this embodiment uses an attribute for acquiring an entity, only an entity need be given as an initial value.
また、espressoはエンティティと属性のペアについての信頼度を計算するイテレーションと、素性に対する信頼度計算のイテレーションから構成されるのに対し、本形態ではエンティティの信頼度を計算するイテレーションと属性の信頼度を計算するイテレーションから構成されている。今我々が欲しているのはエンティティのみであり、属性情報は付加的に獲得されるにすぎない。つまり属性についての網羅性は高い必要がなく、十分に信頼でき、かつセマンティックドリフトを抑えるに足る量の属性のみを用いれば良い。本形態の目的からすれば、espressoのようにペアで信頼度を得るよりも、エンティティ/属性それぞれの信頼度を直接評価できる本形態の手法の方が適切であると言える。 In addition, espresso consists of an iteration that calculates the reliability of an entity / attribute pair and an iteration of a reliability calculation for the feature, whereas in this form it is an iteration that calculates the reliability of the entity and the reliability of the attribute. It consists of iterations that calculate Now all we want is an entity, and attribute information is only acquired additionally. In other words, it is not necessary to have high completeness of attributes, and it is sufficient to use only a sufficient amount of attributes that are sufficiently reliable and can suppress the semantic drift. For the purpose of this embodiment, it can be said that the method of this embodiment that can directly evaluate the reliability of each entity / attribute is more appropriate than the reliability obtained in pairs as in espresso.
さらに、espressoで100個の新規エンティティ-属性ペアを獲得しようとした場合、その中には新規エンティティ、新規属性がそれぞれいくつ含まれるかを制御できない。例えば、1エンティティ×100属性といった適切でない状況も起こり得る。本形態の手法では、エンティティの信頼度を計算するイテレーションと属性の信頼度を計算するイテレーションとが別個に実行されるため、エンティティの数と属性の数を別個に自由に制御できる。本形態では、例えば、エンティティを100個、属性を10個といったように細かく制御することも可能である。
その他、第1実施形態と同様、本形態の方法はリソースであるテキストデータの種類によらず利用でき、適用範囲が広い。
In addition, if you try to acquire 100 new entity-attribute pairs with espresso, you cannot control how many new entities and new attributes are included in each. For example, an inappropriate situation such as 1 entity × 100 attributes may occur. In the method of this embodiment, the iteration for calculating the reliability of the entity and the iteration for calculating the reliability of the attribute are executed separately, so that the number of entities and the number of attributes can be freely controlled separately. In the present embodiment, it is possible to finely control, for example, 100 entities and 10 attributes.
In addition, as in the first embodiment, the method of this embodiment can be used regardless of the type of text data that is a resource, and has a wide range of applications.
〔第3実施形態〕
第3実施形態は、第1実施形態と第2実施形態とを組み合わせた形態である。つまり、トピック情報と属性の両方を用いて識別モデルの学習及び識別モデルによる識別を行う。以下では、第1及び第2実施形態との相違点を中心に説明する。また、第1及び第2実施形態と共通する部分については第1及び第2実施形態と同じ参照番号を用いる。
[Third Embodiment]
The third embodiment is a combination of the first embodiment and the second embodiment. In other words, learning of the identification model and identification by the identification model are performed using both topic information and attributes. Below, it demonstrates centering around difference with 1st and 2nd embodiment. In addition, the same reference numerals as those in the first and second embodiments are used for portions common to the first and second embodiments.
<構成>
図9は、第3実施形態のデータ抽出装置3の機能構成を例示するためのブロック図である。
図9に例示するように、データ抽出装置3は、記憶部11a−11e,21d,21e、初期属性集合生成部22、属性識別用素性抽出部23a、エンティティ識別用素性抽出部23b、トピック情報抽出部34a,34b、属性識別学習部35a、エンティティ識別学習部35b、属性識別部36a、エンティティ識別部36b、収束判定部17、出力部18、及び制御部19を有し、制御部19の制御のもと各処理を実行する。なお、データ抽出装置3は、例えば、公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。
<Configuration>
FIG. 9 is a block diagram for illustrating a functional configuration of the
As illustrated in FIG. 9, the
<事前処理>
第1実施形態と同様である。
<データ抽出処理>
図10は、第3実施形態のデータ抽出装置3のデータ抽出処理を例示するための図である。
まず、第1及び第2実施形態のステップS11,S12,S21,S22と同じ処理が実行される。
<Pre-processing>
This is the same as in the first embodiment.
<Data extraction process>
FIG. 10 is a diagram for illustrating data extraction processing of the
First, the same processing as steps S11, S12, S21, and S22 of the first and second embodiments is executed.
《トピック情報抽出:ステップS321》
ステップS22で生成されたPP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)がトピック情報抽出部34aに入力される。混乱を避けるため、以下ではこれらを組(fP''a j, <+1>)及び組(fN''a j, <-1>)と表記する。
<< Topic Information Extraction: Step S321 >>
A pair (fP a j , <+1>) of the feature fP a j of PP 1 (RP e j-1 , RP a j-1 ) generated in step S22 and a label <+1> representing a positive example, The topic information extraction unit is a set (fN a j , <-1>) of the feature fN a j of PN 1 (RN e j-1 , RN a j-1 ) and the label <-1> representing a negative example 34a. In order to avoid confusion, these are expressed as a pair (fP '' a j , <+1>) and a pair (fN '' a j , <-1>) below.
トピック情報抽出部34aは、前述したステップS14と同様な処理により、第1正例エンティティRPe j-1と第1正例属性RPa j-1との組を含むテキストデータに対応する第1正例トピック情報を抽出する。トピック情報抽出部34aは、当該テキストデータが含む各第1正例テキストに対応するPP1(RPe j-1,RPa j-1)の素性fP''a jに当該第1正例トピック情報加えたものを、各第1正例テキストに対応する各PP1(RPe j-1,RPa j-1)の新たな素性fPa jとする。すなわち、トピック情報抽出部34aによって生成された当該PP1(RPe j-1,RPa j-1)の素性fPa jは、トピック情報付きテキストデータの集合D'から選択された、第1正例エンティティRPe j-1と第1正例属性RPa j-1との組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む(例えば図5A参照)。 The topic information extraction unit 34a performs first processing corresponding to the text data including the set of the first positive example entity RP e j-1 and the first positive example attribute RP a j-1 by the same process as in step S14 described above. Extract positive topic information. The topic information extraction unit 34a applies the first positive example topic to the feature fP ″ a j of PP 1 (RP e j−1 , RP a j−1 ) corresponding to each first positive example text included in the text data. The information added is set as a new feature fP a j of each PP 1 (RP e j−1 , RP a j−1 ) corresponding to each first positive example text. That is, the feature fP a j of the PP 1 (RP e j−1 , RP a j−1 ) generated by the topic information extraction unit 34a is selected from the set D ′ of text data with topic information. It includes topic information included in text data with topic information including text data including a set of a positive example entity RP e j-1 and a first positive example attribute RP a j-1 .
同様に、トピック情報抽出部34aは、前述したステップS14と同様な処理により、負例エンティティRNe j-1と第1負例属性RNa j-1との組を含むテキストデータに対応する第1負例トピック情報を抽出する。トピック情報抽出部34aは、当該テキストデータが含む各第1負例テキストに対応するPN1(RNe j-1,RNa j-1)の素性fN''a jに当該第1負例トピック情報を加えたものを、各第1負例テキストに対応する各PN1(RNe j-1,RNa j-1)の新たな素性fNa jとする。すなわち、トピック情報抽出部34aによって生成された当該PN1(RNe j-1,RNa j-1)の素性fNa jは、トピック情報付きテキストデータの集合D'から選択された、第1負例エンティティRNe j-1と第1負例属性RNa j-1との組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む。
トピック情報抽出部34aは、生成したPP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)を出力する。
Similarly, the topic information extraction unit 34a performs processing similar to that in step S14 described above, and performs processing corresponding to text data including a set of the negative example entity RN e j-1 and the first negative example attribute RN a j-1 . 1 Negative topic information is extracted. The topic information extraction unit 34a applies the first negative example topic to the feature fN ″ a j of PN 1 (RN e j−1 , RN a j−1 ) corresponding to each first negative example text included in the text data. The information added is set as a new feature fN a j of each PN 1 (RN e j−1 , RN a j−1 ) corresponding to each first negative example text. That is, the feature fN a j of the PN 1 (RN e j−1 , RN a j−1 ) generated by the topic
The topic information extraction unit 34a sets a pair (fP a j , <+1) of the feature fP a j of the generated PP 1 (RP e j−1 , RP a j−1 ) and a label <+1> representing a positive example. >) And a pair (fN a j , <-1>) of the feature fN a j of PN 1 (RN e j-1 , RN a j-1 ) and the label <-1> representing a negative example To do.
《属性識別学習:ステップS33》
PP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)が属性識別学習部35aに入力される。属性識別学習部35aはこれらを教師あり学習データとし、前述のステップS23と同様に第1識別モデルMEa jを生成し、記憶部21dに格納する。
<< Attribute Identification Learning: Step S33 >>
A pair (fP a j , <+1>) of a feature fP a j of PP 1 (RP e j-1 , RP a j-1 ) and a label <+1> representing a positive example, and PN 1 (RN A set (fN a j , <-1>) of the feature fN a j of e j−1 , RN a j−1 ) and a label <−1> representing a negative example is input to the attribute
《属性識別:ステップS34》
属性識別部36aは、まず、ステップS24と同様に第1対象テキストに対応するPD1(RDe j,RDa j)の素性fDa jを生成する。以下では、混乱を避けるため、ステップS24と同様に作成された第1対象テキストに対応するPD1(RDe j,RDa j)の素性fDa jをfD''a jと表記する。次に、属性識別部36aは、ステップS15と同様に、対象エンティティRDe jと第1対象属性RDa jとの組を含むテキストデータに対応する第1対象トピック情報を抽出する。属性識別部36aは、当該テキストデータが含む各第1対象テキストに対応する各PD1(RDe j,RDa j)の素性fD''a jに当該第1対象トピック情報を加えたものを、各第1対象テキストに対応する各PD1(RDe j,RDa j)の素性fDe jとする。すなわち、属性識別部36aによって生成されたPD1(RDe j,RDa j)の素性fDe jは、トピック情報付きテキストデータの集合D'から選択された、第1対象エンティティRDe jと第1対象属性RDa jとの組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む(例えば図5A参照)。
<< Attribute Identification: Step S34 >>
The
属性識別部36aは、ステップS24と同様に、PD1(RDe j,RDa j)の素性fDa jを記憶部21dから読み出した第1識別モデルMEa jに入力し、PD1(RDe j,RDa j)が正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別する。属性識別部36aは、PD1(RDe j,RDa j)を正例エンティティ−正例属性ペアであると識別した場合、当該PD1(RDe j,RDa j)の第1対象属性RDa jを正例属性RPa jとして記憶部21eに格納し、正例属性RPa jの集合に追加する。また、属性識別部36aは、PD1(RDe j,RDa j)が負例エンティティ−負例属性ペアであると識別した場合、当該PD1(RDe j,RDa j)の第1対象属性RDa jを負例属性RNa jとして記憶部21eに格納し、負例属性RNa jの集合に追加する。
Similarly to step S24, the
《トピック情報抽出:ステップS351》
次に、前述したステップS25の処理が実行され、それによって得られたPP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)がトピック情報抽出部34bに入力される。混乱を避けるため、以下ではこれらを組(fP''e j, <+1>)及び組(fN''e j, <-1>)と表記する。
<< Topic Information Extraction: Step S351 >>
Next, the process of step S25 described above is executed, and a pair of the feature fP e j of PP 2 (RP e j−1 , RP a j ) obtained thereby and a label <+1> representing a positive example ( fP e j , <+1>) and a pair of features fN e j of PN 2 (RN e j-1 , RN a j ) and a label <-1> representing a negative example (fN e j , <- 1>) is input to the topic
トピック情報抽出部34bは、前述したステップS14と同様な処理により、第2正例エンティティRPe j-1と第2正例属性RPa jとの組を含むテキストデータとの組に対応する第2正例トピック情報を抽出する。トピック情報抽出部34bは、当該テキストデータが含む各第2正例テキストに対応するPP2(RPe j-1,RPa j)の素性fP''e jに当該第2正例トピック情報を加えたものを、各第2正例テキストに対応する各PP2(RPe j-1,RPa j)の新たな素性fPe jとする。すなわち、トピック情報抽出部34bによって生成された当該PP2(RPe j-1,RPa j)の素性fPe jは、トピック情報付きテキストデータの集合D'から選択された、第2正例エンティティRPe j-1と第2正例属性RPa jとの組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む(例えば図5A参照)。
The topic
同様に、トピック情報抽出部34bは、前述したステップS14と同様な処理により、第2負例エンティティRNe j-1と第2負例属性RNa jとの組を含むテキストデータに対応する第2負例トピック情報を抽出する。トピック情報抽出部34bは、当該テキストデータが含む各第2負例テキストに対応するPN2(RNe j-1,RNa j)の素性fN''e jに当該第2負例トピック情報を加えたものを、各第2負例テキストに対応する各PN2(RNe j-1,RNa j)の新たな素性fNe jとする。すなわち、トピック情報抽出部34bによって生成された当該PN2(RNe j-1,RNa j)の素性fNe jは、トピック情報付きテキストデータの集合D'から選択された、第2負例エンティティRNe j-1と第2負例属性RNa jとの組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む。
Similarly, the topic
トピック情報抽出部34bは、生成したPP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)を出力する。
The topic
《エンティティ識別学習:ステップS36》
PP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)がエンティティ識別学習部35bに入力される。エンティティ識別学習部35bはこれらを教師あり学習データとし、前述のステップS26と同様に第2識別モデルMEe jを生成し、記憶部11dに格納する。
<< Entity Identification Learning: Step S36 >>
A pair (fP e j , <+1>) of a feature fP e j of PP 2 (RP e j−1 , RP a j ) and a label <+1> representing a positive example, and PN 2 (RN e j −1 , RN a j ) of the feature fN e j and a negative example label <-1> (fN e j , <-1>) is input to the entity
《エンティティ識別:ステップS37》
エンティティ識別部36bは、まず、ステップS27と同様に第2対象テキストに対応するPD2(RDe j,RDa j)の素性fDe jを生成する。以下では、混乱を避けるため、ステップS27と同様に作成された第2対象テキストに対応するPD2(RDe j,RDa j)の素性fDe jをfD''e jと表記する。
<< Entity Identification: Step S37 >>
The
次に、エンティティ識別部36bは、ステップS15と同様に、対象エンティティRDe jと第2対象属性RDa jとの組を含むテキストデータに対応する第2対象トピック情報を抽出する。エンティティ識別部36bは、当該テキストデータが含む各第2対象テキストに対応する各PD2(RDe j,RDa j)の素性fD''e jに当該第2対象トピック情報を加えたものを、各第2対象テキストに対応する各PD2(RDe j,RDa j)の素性fDe jとする。すなわち、エンティティ識別部36bによって生成されたPD2(RDe j,RDa j)の素性fDe jは、トピック情報付きテキストデータの集合D'から選択された、第2対象エンティティRDe jと第2対象属性RDa jとの組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む(例えば図5A参照)。
Next, the
エンティティ識別部36bは、ステップS27と同様に、PD2(RDe j,RDa j)の素性fDe jを記憶部11dから読み出した第2識別モデルMEe jに入力し、PD2(RDe j,RDa j)が正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別する。エンティティ識別部36bは、PD2(RDe j,RDa j)を正例エンティティ−正例属性ペアであると識別した場合、当該PD2(RDe j,RDa j)の第2対象エンティティRDe jを正例エンティティRPe jとして記憶部11eに格納し、正例エンティティRPe jの集合に追加する。また、エンティティ識別部36bは、PD2(RDe j,RDa j)が負例エンティティ−負例属性ペアであると識別した場合、当該PD2(RDe j,RDa j)の第2対象エンティティRDe jを負例エンティティRNe jとして記憶部11eに格納し、負例エンティティRNe jの集合に追加する。
その後、前述したステップS17−S19の処理が実行される。
As in step S27, the
Thereafter, the processing of steps S17 to S19 described above is executed.
〔その他の変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、第1実施形態においてステップS13を実行せず、トピック情報のみを素性としてもよい。また、トピックモデルや学習モデルが上述した具体例に限定されないのは上述の通りである。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[Other variations, etc.]
The present invention is not limited to the embodiment described above. For example, step S13 may not be executed in the first embodiment, and only topic information may be used as a feature. Further, the topic model and the learning model are not limited to the specific examples described above, as described above. In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.
The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads the program stored in its own recording device and executes the process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
1−3 データ抽出装置 1-3 Data extraction device
Claims (16)
抽出対象の文字列である正例エンティティを含む前記テキストデータのトピックに対応して前記トピックモデルから抽出した正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象としない文字列である負例エンティティを含むテキストデータのトピックに対応して前記トピックモデルから抽出した負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出部と、
前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習部と、
テキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータのトピックに対応して前記トピックモデルから抽出したトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティとし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティとするエンティティ識別部と、
を有するデータ抽出装置。 A pre-processing unit that learns topic information representing the appropriateness of a plurality of topic candidates for text data as an index value and a topic model that describes the relationship between the text data using unsupervised learning data obtained from the text data When,
The positive example topic information extracted from the topic models in response to the topic of the text data containing the extracted target positive cases entity is a character string and at least part of the identity of the positive examples entity, not subject to extraction string A topic information extraction unit that takes negative example topic information extracted from the topic model corresponding to a topic of text data including a negative example entity as at least part of the features of the negative example entity;
Information for identifying whether an entity is a positive example entity or a negative example entity by inputting a feature of an arbitrary entity by learning processing using the features of the positive example entity and the features of the negative example entity as supervised learning data An identification learning unit that generates an identification model that is a function that outputs
An entity that is a character string included in text data selected from a set of text data is set as a target entity, and topic information extracted from the topic model corresponding to a topic of the selected text data is at least one of the features of the target entity. When the identity of the target entity is input to the identification model to identify whether the target entity is a positive example entity or a negative example entity, and the target entity is identified as a positive example entity, An entity identification unit that sets the target entity as the negative example entity when the positive entity is identified and the target entity is identified as a negative entity;
A data extraction device.
前記正例エンティティの素性は、前記正例エンティティを含む文字列であって当該正例エンティティを含むテキストデータに含まれるものに対応し、当該文字列と当該正例エンティティとの関係を表す情報を含み、
前記負例エンティティの素性は、前記負例エンティティを含む文字列であって当該負例エンティティを含むテキストデータに含まれるものに対応し、当該文字列と当該負例エンティティとの関係を表す情報を含み、
前記対象エンティティの素性は、前記対象エンティティを含む文字列であって当該対象エンティティを含むテキストデータに含まれるものに対応し、当該文字列と当該対象エンティティとの関係を表す情報を含む、
ことを特徴とするデータ抽出装置。 The data extraction device according to claim 1, comprising:
The identity of the positive example entity corresponds to a character string that includes the positive example entity and is included in text data that includes the positive example entity, and includes information indicating a relationship between the character string and the positive example entity. Including
The feature of the negative example entity corresponds to a character string that includes the negative example entity and is included in the text data that includes the negative example entity, and includes information indicating a relationship between the character string and the negative example entity. Including
The feature of the target entity corresponds to a character string that includes the target entity and is included in text data that includes the target entity, and includes information that represents a relationship between the character string and the target entity.
A data extraction apparatus characterized by that.
前記テキストデータが含む文字列には、当該テキストデータが含む文字列のトピックの候補と、当該トピックの候補それぞれの当該テキストデータが含む文字列に対する適切さを表すトピック候補スコアとが対応し、同一の前記トピックの候補に対応する前記トピック候補スコアを集計して得られる当該トピックの候補ごとの集計結果が当該トピックの候補それぞれの正例トピックスコアとされ、当該トピックの候補の中から当該正例トピックスコアが特定の基準を満たすものが正例基準トピックとされ、
前記識別学習部は、前記正例基準トピックの何れかと同一のトピックの候補に対応する前記テキストデータが含む文字列であり、なおかつ、当該同一のトピックの候補に対応する前記トピック候補スコアが特定の基準を満たす文字列に対応する前記正例エンティティの素性を前記教師あり学習データとする、
ことを特徴とするデータ抽出装置。 The data extraction device according to claim 2, wherein
The character string included in the text data corresponds to the topic candidate of the character string included in the text data and the topic candidate score indicating the appropriateness of each of the candidate candidates for the character string included in the text data. The aggregation result for each candidate for the topic obtained by aggregating the topic candidate scores corresponding to the topic candidates is set as a positive example topic score for each of the topic candidates, and the positive example is selected from the topic candidates. If the topic score meets certain criteria, it is considered a positive reference topic,
The identification learning unit is a character string included in the text data corresponding to the same topic candidate as any one of the positive example reference topics, and the topic candidate score corresponding to the same topic candidate is specified. The feature of the positive example entity corresponding to the character string satisfying the criterion is the supervised learning data,
A data extraction apparatus characterized by that.
前記テキストデータが含む文字列には、当該テキストデータが含む文字列のトピックの候補と、当該トピックの候補それぞれの当該テキストデータが含む文字列に対する適切さを表すトピック候補スコアとが対応し、同一の前記トピックの候補に対応する前記トピック候補スコアを集計して得られる当該トピックの候補ごとの集計結果が当該トピックの候補それぞれの正例トピックスコアとされ、当該トピックの候補の中から当該正例トピックスコアが特定の基準を満たすものが正例基準トピックとされ、
前記エンティティ識別部は、前記正例基準トピックの何れかと同一のトピックの候補に対応する前記テキストデータが含む文字列であり、なおかつ、当該同一のトピックの候補に対応する前記トピック候補スコアが特定の基準を満たす文字列が含むエンティティを前記対象エンティティとする、
ことを特徴とするデータ抽出装置。 The data extraction device according to claim 2 or 3,
The character string included in the text data corresponds to the topic candidate of the character string included in the text data and the topic candidate score indicating the appropriateness of each of the candidate candidates for the character string included in the text data. The aggregation result for each candidate for the topic obtained by aggregating the topic candidate scores corresponding to the topic candidates is set as a positive example topic score for each of the topic candidates, and the positive example is selected from the topic candidates. If the topic score meets certain criteria, it is considered a positive reference topic,
The entity identification unit is a character string included in the text data corresponding to the same topic candidate as any one of the positive reference topics, and the topic candidate score corresponding to the same topic candidate is specified. An entity included in a character string that satisfies the criteria is the target entity.
A data extraction apparatus characterized by that.
前記エンティティ識別部は、
前記識別学習部で前記教師あり学習データとして用いられた前記正例エンティティの素性及び前記負例エンティティの素性のうち、それらから生成された前記識別モデルへの影響度の大きさを表す指標が特定の基準を満たす素性を選択し、選択した素性に対応する文字列を含む前記テキストデータが含む文字列であるエンティティを前記対象エンティティとする、
ことを特徴とするデータ抽出装置。 The data extraction device according to any one of claims 1 to 4,
The entity identifier is
Among the features of the positive example entity and the negative example entity used as the supervised learning data in the identification learning unit, an index indicating the magnitude of the degree of influence on the identification model generated therefrom is specified An entity that is a character string included in the text data including the character string corresponding to the selected feature is selected as the target entity.
A data extraction apparatus characterized by that.
前記第1正例エンティティ−正例属性ペアの素性と前記第1負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第1識別モデルを生成する属性識別学習部と、
前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティとして選択し、選択した当該テキストデータから当該第1対象エンティティと異なる文字列を第1対象属性として選択し、前記第1対象エンティティと前記第1対象属性との組を第1対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第1対象エンティティ−対象属性ペアの特徴を表す情報を当該第1対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第1対象エンティティ−対象属性ペアの素性を前記第1識別モデルに入力して当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、前記第1対象属性を前記正例属性の集合に追加し、当該第1対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、前記第1対象属性を前記負例属性の集合に追加する属性識別部と、
前記正例エンティティの集合から選択した第2正例エンティティと前記正例属性の集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアと、前記負例エンティティの集合から選択した第2負例エンティティと前記負例属性の集合から選択した第2負例属性との組である第2負例エンティティ−負例属性ペアとを生成し、前記テキストデータの集合から、前記第2正例エンティティと前記第2正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2正例エンティティ−正例属性ペアの特徴を表す情報を当該第2正例エンティティ−正例属性ペアの素性の少なくとも一部とし、前記テキストデータの集合から、前記第2負例エンティティと前記第2負例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2負例エンティティ−負例属性ペアの特徴を表す情報を当該第2負例エンティティ−負例属性ペアの素性の少なくとも一部とするエンティティ識別用素性抽出部と、
前記第2正例エンティティ−正例属性ペアの素性と前記第2負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第2識別モデルを生成するエンティティ識別学習部と、
前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティとして選択し、選択した当該テキストデータから当該第2対象エンティティと異なる文字列を第2対象属性として選択し、前記第2対象エンティティと前記第2対象属性との組を第2対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第2対象エンティティ−対象属性ペアの特徴を表す情報を当該第2対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第2対象エンティティ−対象属性ペアの素性を前記第2識別モデルに入力して当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、前記第2エンティティを前記正例エンティティの集合に追加し、当該第2対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、前記第2対象エンティティを前記負例エンティティの集合に追加するエンティティ識別部と、
を有するデータ抽出装置。 A set of a first positive example entity selected from a set of positive example entities that are character strings to be extracted and a first positive example attribute selected from a set of positive example attributes that are character strings representing attributes of the positive example entities A first positive example entity-positive example attribute pair, a first negative example entity selected from a set of negative example entities that are not extracted, and a negative example attribute that is a character string representing an attribute of the negative example entity Generating a first negative example entity-negative example attribute pair that is a set with a first negative example attribute selected from the set of: and from the set of text data, the first positive example entity and the first positive example attribute; A character string including the set of the first positive entity entity-positive example attribute pair with respect to the selected character string, and information indicating characteristics of the first positive example entity-positive example attribute pair at least. A character string including a set of the first negative example entity and the first negative example attribute is selected from the set of text data, and the first negative example entity-negative example for the selected character string is selected. An attribute identifying feature extraction unit having information representing the characteristics of the attribute pair as at least part of the features of the first negative example entity-negative example attribute pair;
The learning process using the features of the first positive example entity-positive example attribute pair and the features of the first negative example entity-negative example attribute pair as supervised learning data, and the entity of an arbitrary character string and the entity A function that outputs the information for identifying whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair, using the identity of the entity-attribute pair that is a pair with the attribute as an input. An attribute identification learning unit for generating a certain first identification model;
One of the text data is selected from the set of text data, a character string included in the selected text data is selected as a first target entity, and a character string different from the first target entity is selected from the selected text data. The first target attribute is selected as a first target entity and the first target attribute is set as a first target entity-target attribute pair, and the first target entity-target attribute pair in the selected text data is selected. The information representing the characteristics of the first target entity-target attribute pair is at least part of the feature, and the first target entity-target attribute pair feature is input to the first identification model, and the first target entity- Identify whether the target attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair, When the first target entity-target attribute pair is identified as a positive entity-positive attribute pair, the first target attribute is added to the set of positive attribute, and the first target entity-target attribute An attribute identifying unit that adds the first target attribute to the set of negative example attributes when the pair is identified as a negative example entity-negative example attribute pair;
A second positive example entity-positive example attribute pair that is a set of a second positive example entity selected from the set of positive example entities and a second positive example attribute selected from the set of positive example attributes; and the negative example entity Generating a second negative example entity-negative example attribute pair which is a set of a second negative example entity selected from the set of the negative example attributes and a second negative example attribute selected from the set of the negative example attributes; To select a character string including a set of the second positive example entity and the second positive example attribute, and information indicating characteristics of the second positive example entity-positive example attribute pair for the selected character string A character string including a pair of the second negative example entity and the second negative example attribute is selected and selected from at least a part of the feature of the second positive example entity-positive example attribute pair. Shi And entities identifying feature extracting section for at least part of the identity of the negative examples attribute pair, - negative sample attribute pair information the second negative example entities that represent characteristics of - the second negative example entity for the character string
The learning process using the features of the second positive example entity-positive example attribute pair and the features of the second negative example entity-negative example attribute pair as supervised learning data, and the entity of an arbitrary character string and the entity A function that outputs the information for identifying whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair, using the identity of the entity-attribute pair that is a pair with the attribute as an input. An entity identification learning unit for generating a second identification model;
One of the text data is selected from the set of text data, a character string included in the selected text data is selected as a second target entity, and a character string different from the second target entity is selected from the selected text data. The second target attribute is selected as a second target entity, and a pair of the second target entity and the second target attribute is set as a second target entity-target attribute pair, and the second target entity-target attribute pair in the selected text data is selected. Information representing the characteristics of the second target entity-at least part of the feature of the target attribute pair, and input the feature of the second target entity-target attribute pair to the second identification model to input the second target entity- Identify whether the target attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair, When the second target entity-target attribute pair is identified as a positive entity-positive attribute pair, the second entity is added to the set of positive entity, and the second target entity-target attribute pair An entity identifier that adds the second target entity to the set of negative example entities when identified as a negative example entity-negative example attribute pair;
A data extraction device.
前記第1正例エンティティ−正例属性ペアの素性は、前記第1正例エンティティ及び前記第1正例属性を含む文字列であって当該第1正例エンティティ及び当該第1正例属性を含むテキストデータに含まれるものと当該第1正例エンティティ及び当該第1正例属性との関係を表す情報を含み、
前記第1負例エンティティ−負例属性ペアの素性は、前記第1負例エンティティ及び前記第1負例属性を含む文字列であって当該第1負例エンティティ及び当該第1負例属性を含むテキストデータに含まれるものと当該第1負例エンティティ及び当該第1負例属性との関係を表す情報を含み、
前記第1対象エンティティ−対象属性ペアの素性は、前記第1対象エンティティ及び前記第1対象属性を含む文字列であって当該第1対象エンティティ及び当該第1対象属性を含むテキストデータに含まれるものと当該第1対象エンティティ及び当該第1対象属性との関係を表す情報を含み、
前記第2正例エンティティ−正例属性ペアの素性は、前記第2正例エンティティ及び前記第2正例属性を含む文字列であって当該第2正例エンティティ及び当該第2正例属性を含むテキストデータに含まれるものと当該第2正例エンティティ及び当該第2正例属性との関係を表す情報を含み、
前記第2負例エンティティ−負例属性ペアの素性は、前記第2負例エンティティ及び前記第2負例属性を含む文字列であって当該第2負例エンティティ及び当該第2負例属性を含むテキストデータに含まれるものと当該第2負例エンティティ及び当該第2負例属性との関係を表す情報を含み、
前記第2対象エンティティ−対象属性ペアの素性は、前記第2対象エンティティ及び前記第2対象属性を含む文字列であって当該第2対象エンティティ及び当該第2対象属性を含むテキストデータに含まれるものと当該第2対象エンティティ及び当該第2対象属性との関係を表す情報を含む、
ことを特徴とするデータ抽出装置。 The data extraction device according to claim 6, comprising:
The feature of the first positive example entity-positive example attribute pair is a character string including the first positive example entity and the first positive example attribute, and includes the first positive example entity and the first positive example attribute. Including information representing the relationship between what is included in the text data and the first example entity and the first example attribute,
The feature of the first negative example entity-negative example attribute pair is a character string including the first negative example entity and the first negative example attribute, and includes the first negative example entity and the first negative example attribute. Including information representing the relationship between the text data and the first negative example entity and the first negative example attribute,
The feature of the first target entity-target attribute pair is a character string including the first target entity and the first target attribute, and is included in text data including the first target entity and the first target attribute. And information representing the relationship between the first target entity and the first target attribute,
The feature of the second positive example entity-positive example attribute pair is a character string including the second positive example entity and the second positive example attribute, and includes the second positive example entity and the second positive example attribute. Including information representing the relationship between the text data and the second positive entity and the second positive attribute,
The feature of the second negative example entity-negative example attribute pair is a character string including the second negative example entity and the second negative example attribute, and includes the second negative example entity and the second negative example attribute. Including information representing a relationship between the text data and the second negative example entity and the second negative example attribute,
The feature of the second target entity-target attribute pair is a character string including the second target entity and the second target attribute, and is included in text data including the second target entity and the second target attribute. Including information indicating the relationship between the second target entity and the second target attribute,
A data extraction apparatus characterized by that.
前記正例エンティティを含むテキストデータの集合から当該正例エンティティ以外の何れかの文字列を正例属性候補として選択し、前記正例エンティティを含む文字列の集合内に当該正例属性候補が含まれる頻度とすべてのテキストデータからなる集合内に当該正例属性候補が含まれる頻度との違いの大きさを表す指標が大きいものから所定数の正例属性候補を前記正例属性の初期値とし、
前記負例エンティティを含むテキストデータの集合から当該負例エンティティ以外の何れかの文字列を負例属性候補として選択し、前記負例エンティティを含む文字列の集合内に当該負例属性候補が含まれる頻度とすべてのテキストデータからなる集合内に当該負例属性候補が含まれる頻度との違いの大きさを表す指標が大きいものから所定数の負例属性候補を前記負例属性の初期値とする初期属性集合生成部をさらに有する、
ことを特徴とするデータ抽出装置。 The data extraction device according to claim 6 or 7,
A character string other than the positive example entity is selected as a positive example attribute candidate from the set of text data including the positive example entity, and the positive example attribute candidate is included in the set of character strings including the positive example entity. A predetermined number of positive example attribute candidates as the initial value of the positive example attribute from a large index indicating the magnitude of the difference between the frequency and the frequency at which the positive example attribute candidate is included in the set of all text data ,
A character string other than the negative example entity is selected as a negative example attribute candidate from the set of text data including the negative example entity, and the negative example attribute candidate is included in the set of character strings including the negative example entity. A predetermined number of negative example attribute candidates from a large index indicating the magnitude of the difference between the frequency and the frequency at which the negative example attribute candidate is included in the set of all text data and the initial value of the negative example attribute An initial attribute set generation unit
A data extraction apparatus characterized by that.
前記属性識別部は、
前記属性識別学習部で前記教師あり学習データとして用いられた前記第1正例エンティティ−正例属性ペアの素性と前記第1負例エンティティ−負例属性ペアの素性のうち、それらから生成された前記第1識別モデルへの影響度の大きさを表す指標が特定の基準よりも大きな素性を選択し、選択した素性に対応する文字列を含む前記テキストデータを選択し、当該選択したテキストデータが含む文字列を前記第1対象エンティティ及び前記第1対象属性とする、
ことを特徴とするデータ抽出装置。 The data extraction device according to any one of claims 6 to 8,
The attribute identification unit
Of the features of the first positive example entity-positive example attribute pair and the features of the first negative example entity-negative example attribute pair used as the supervised learning data in the attribute identification learning unit, generated from them Select a feature whose index indicating the degree of influence on the first identification model is greater than a specific criterion, select the text data including a character string corresponding to the selected feature, and the selected text data is A character string including the first target entity and the first target attribute,
A data extraction apparatus characterized by that.
前記エンティティ識別部は、
前記エンティティ識別学習部で前記教師あり学習データとして用いられた前記第2正例エンティティ−正例属性ペアの素性と前記第2負例エンティティ−負例属性ペアの素性のうち、それらから生成された前記第2識別モデルへの影響度の大きさを表す指標が特定の基準よりも大きな素性を選択し、選択した素性に対応する文字列を含む前記テキストデータを選択し、当該選択したテキストデータが含む文字列を前記第2対象エンティティ及び前記第2対象属性とする、
ことを特徴とするデータ抽出装置。 The data extraction device according to any one of claims 6 to 9,
The entity identifier is
Of the features of the second positive example entity-positive example attribute pair and the features of the second negative example entity-negative example attribute pair used as the supervised learning data in the entity identification learning unit, generated from them Select a feature whose index indicating the degree of influence on the second identification model is greater than a specific criterion, select the text data including a character string corresponding to the selected feature, and the selected text data A character string including the second target entity and the second target attribute,
A data extraction apparatus characterized by that.
前記第1正例エンティティ−正例属性ペアの素性は、前記第1正例エンティティと前記第1正例属性との組を含むテキストデータのトピックに対応するトピック情報を含み、
前記第1負例エンティティ−負例属性ペアの素性は、前記第1負例エンティティと前記第1負例属性との組を含むテキストデータのトピックに対応するトピック情報を含み、
前記第1対象エンティティ−対象属性ペアの素性は、前記第1対象エンティティと前記第1対象属性との組を含むテキストデータのトピックに対応するトピック情報を含み、
前記第2正例エンティティ−正例属性ペアの素性は、前記第2正例エンティティと前記第2正例属性との組を含むテキストデータのトピックに対応するトピック情報を含み、
前記第2負例エンティティ−負例属性ペアの素性は、前記第2負例エンティティと前記第2負例属性との組を含む前記テキストデータのトピックに対応するトピック情報を含み、
前記第2対象エンティティ−対象属性ペアの素性は、前記第2対象エンティティと前記第2対象属性との組を含む前記テキストデータのトピックに対応するトピック情報を含む、
ことを特徴とするデータ抽出装置。 The data extraction device according to any one of claims 6 to 10,
The feature of the first positive example entity-positive example attribute pair includes topic information corresponding to a topic of text data including a set of the first positive example entity and the first positive example attribute,
The feature of the first negative example entity-negative example attribute pair includes topic information corresponding to a topic of text data including a set of the first negative example entity and the first negative example attribute,
The feature of the first target entity-target attribute pair includes topic information corresponding to a topic of text data including a set of the first target entity and the first target attribute,
The feature of the second positive example entity-positive example attribute pair includes topic information corresponding to a topic of text data including a set of the second positive example entity and the second positive example attribute,
The feature of the second negative example entity-negative example attribute pair includes topic information corresponding to a topic of the text data including a set of the second negative example entity and the second negative example attribute;
The feature of the second target entity-target attribute pair includes topic information corresponding to a topic of the text data including a set of the second target entity and the second target attribute.
A data extraction apparatus characterized by that.
正例シードエンティティを含むテキストデータの集合に含まれる全エンティティの出現確率分布である正例確率分布を表す情報を得る正例分布処理部と、
同一のトピック情報に対応するテキストデータの集合が含む全エンティティの出現確率分布であるトピック確率分布を表す情報を前記トピック情報ごとに得て、前記正例確率分布を表す情報及び前記トピック確率分布を表す情報を用いて得られる前記正例確率分布と前記トピック確率分布との距離に基づいて、少なくとも一部の前記トピック情報を前記負例トピック情報として選択する負例トピック決定部と、
前記負例トピック決定部で選択された前記負例トピック情報に対応するエンティティを負例シードエンティティとして選択する負例シードエンティティ生成部と、を有し、
前記トピック情報抽出部と前記識別学習部と前記エンティティ識別部とによる処理は1回以上繰り返され、
前記正例シードエンティティは、前記トピック情報抽出部による初回の処理における前記正例エンティティであり、
前記負例シードエンティティは、前記トピック情報抽出部による初回の処理における前記負例エンティティである、データ抽出装置。 The data extraction device according to any one of claims 1 to 5,
A positive example distribution processing unit for obtaining information representing a positive example probability distribution that is an appearance probability distribution of all entities included in a set of text data including a positive example seed entity;
Information representing a topic probability distribution, which is an appearance probability distribution of all entities included in a set of text data corresponding to the same topic information, is obtained for each topic information, and the information representing the positive example probability distribution and the topic probability distribution are obtained. A negative example topic determination unit that selects at least a part of the topic information as the negative example topic information based on a distance between the positive example probability distribution obtained using information to represent and the topic probability distribution;
A negative example seed entity generation unit that selects, as a negative example seed entity, an entity corresponding to the negative example topic information selected by the negative example topic determination unit;
The processing by the topic information extraction unit, the identification learning unit, and the entity identification unit is repeated one or more times,
The positive seed entity is the positive entity in the initial processing by the topic information extraction unit,
The negative example seed entity is the data extraction device, which is the negative example entity in the initial processing by the topic information extraction unit.
正例シードエンティティを含むテキストデータに対する各トピックの適切さを表すシード正例トピック情報を当該トピックごとに集計し、それによって得られる当該トピックごとの集計結果を当該トピックのシード正例トピックスコアとして得るシード正例トピックスコア作成部と、
前記トピックのシード正例トピックスコアの大きさに基づいて選択したトピックに対応するトピック情報を前記負例トピック情報とする負例トピック決定部と、
前記負例トピック決定部で選択された前記負例トピック情報に対応するエンティティを負例シードエンティティとして選択する負例シードエンティティ生成部と、を有し、
前記トピック情報抽出部と前記識別学習部と前記エンティティ識別部とによる処理は1回以上繰り返され、
前記正例シードエンティティは、前記トピック情報抽出部による初回の処理で使用される前記正例エンティティであり、
前記負例シードエンティティは、前記トピック情報抽出部による初回の処理で使用される前記負例エンティティである、データ抽出装置。 The data extraction device according to any one of claims 1 to 5,
The seed positive example topic information indicating the appropriateness of each topic with respect to the text data including the positive seed entity is aggregated for each topic, and the obtained aggregation result for each topic is obtained as the seed positive example topic score of the topic. Seed positive example topic score creation part,
A negative example topic determination unit that uses the topic information corresponding to the topic selected based on the magnitude of the seed positive example topic score of the topic as the negative example topic information;
A negative example seed entity generation unit that selects, as a negative example seed entity, an entity corresponding to the negative example topic information selected by the negative example topic determination unit;
The processing by the topic information extraction unit, the identification learning unit, and the entity identification unit is repeated one or more times,
The positive seed entity is the positive entity used in the initial processing by the topic information extraction unit,
The negative example seed entity is the data extraction device, which is the negative example entity used in the initial processing by the topic information extraction unit.
事前処理部が、テキストデータに対する複数のトピックの候補の適切さを指標値として表すトピック情報と、当該テキストデータとの関係を記述するトピックモデルを、テキストデータから得られる教師なし学習データを用いて学習する事前処理ステップと、
トピック情報抽出部が、抽出対象の文字列である正例エンティティを含む前記テキストデータのトピックに対応して前記トピックモデルから抽出した正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象としない文字列である負例エンティティを含むテキストデータのトピックに対応して前記トピックモデルから抽出した負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出ステップと、
識別学習部が、前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習ステップと、
エンティティ識別部が、テキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータのトピックに対応して前記トピックモデルから抽出したトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティとし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティとするエンティティ識別ステップと、
を有するデータ抽出方法。 A data extraction method executed by a data extraction device,
A pre-processing unit uses topic data representing the appropriateness of a plurality of topic candidates for text data as an index value and a topic model that describes the relationship between the text data and unsupervised learning data obtained from the text data. Preprocessing steps to learn;
Topic information extraction unit, the positive example topic information in response to the topic of the text data extracted from the topic model that includes a target of extracting positive cases entity is a character string and at least part of the identity of the positive examples entity, A topic information extraction step in which negative example topic information extracted from the topic model corresponding to a topic of text data including a negative example entity that is a character string not to be extracted is at least part of the features of the negative example entity;
The discriminating and learning unit performs learning processing using the features of the positive entity and the negative entity as supervised learning data. An identification learning step for generating an identification model that is a function for outputting information for identification;
An entity that is a character string included in text data selected from a set of text data by the entity identification unit is a target entity, and topic information extracted from the topic model corresponding to the topic of the selected text data is the target entity. When the identity of the target entity is input to the identification model to identify whether the target entity is a positive entity or a negative entity, and the target entity is identified as a positive entity Identifying the target entity as the positive example entity, and identifying the target entity as the negative example entity when the target entity is identified as a negative example entity;
A data extraction method comprising:
属性識別用素性抽出部が、抽出対象の文字列である正例エンティティの集合から選択した第1正例エンティティと前記正例エンティティの属性を表す文字列である正例属性の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアと、抽出対象としない文字列である負例エンティティの集合から選択した第1負例エンティティと前記負例エンティティの属性を表す文字列である負例属性の集合から選択した第1負例属性との組である第1負例エンティティ−負例属性ペアとを生成し、テキストデータの集合から、前記第1正例エンティティと前記第1正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第1正例エンティティ−正例属性ペアの特徴を表す情報を当該第1正例エンティティ−正例属性ペアの素性の少なくとも一部とし、前記テキストデータの集合から、前記第1負例エンティティと前記第1負例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第1負例エンティティ−負例属性ペアの特徴を表す情報を当該第1負例エンティティ−負例属性ペアの素性の少なくとも一部とする属性識別用素性抽出ステップと、
属性識別学習部が、前記第1正例エンティティ−正例属性ペアの素性と前記第1負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第1識別モデルを生成する属性識別学習ステップと、
属性識別部が、前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティとして選択し、選択した当該テキストデータから当該第1対象エンティティと異なる文字列を第1対象属性として選択し、前記第1対象エンティティと前記第1対象属性との組を第1対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第1対象エンティティ−対象属性ペアの特徴を表す情報を当該第1対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第1対象エンティティ−対象属性ペアの素性を前記第1識別モデルに入力して当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、前記第1対象属性を前記正例属性の集合に追加し、当該第1対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、前記第1対象属性を前記負例属性の集合に追加する属性識別ステップと、
エンティティ識別用素性抽出部が、前記正例エンティティの集合から選択した第2正例エンティティと前記正例属性の集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアと、前記負例エンティティの集合から選択した第2負例エンティティと前記負例属性の集合から選択した第2負例属性との組である第2負例エンティティ−負例属性ペアとを生成し、前記テキストデータの集合から、前記第2正例エンティティと前記第2正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2正例エンティティ−正例属性ペアの特徴を表す情報を当該第2正例エンティティ−正例属性ペアの素性の少なくとも一部とし、前記テキストデータの集合から、前記第2負例エンティティと前記第2負例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2負例エンティティ−負例属性ペアの特徴を表す情報を当該第2負例エンティティ−負例属性ペアの素性の少なくとも一部とするエンティティ識別用素性抽出ステップと、
エンティティ識別学習部が、前記第2正例エンティティ−正例属性ペアの素性と前記第2負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第2識別モデルを生成するエンティティ識別学習ステップと、
エンティティ識別部が、前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティとして選択し、選択した当該テキストデータから当該第2対象エンティティと異なる文字列を第2対象属性として選択し、前記第2対象エンティティと前記第2対象属性との組を第2対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第2対象エンティティ−対象属性ペアの特徴を表す情報を当該第2対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第2対象エンティティ−対象属性ペアの素性を前記第2識別モデルに入力して当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、前記第2エンティティを前記正例エンティティの集合に追加し、当該第2対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、前記第2対象エンティティを前記負例エンティティの集合に追加するエンティティ識別ステップと、
を有するデータ抽出方法。 A data extraction method executed by a data extraction device,
The attribute identifying feature extraction unit selects the first positive example entity selected from the set of positive example entities that are character strings to be extracted and the first example attribute selected from the set of positive example attributes that are character strings representing the attributes of the positive example entities. A first positive example entity-positive example attribute pair that is a set of one positive example attribute, a first negative example entity selected from a set of negative example entities that are character strings not to be extracted, and attributes of the negative example entity Generating a first negative example entity-negative example attribute pair that is a set with a first negative example attribute selected from a set of negative example attributes that is a character string to represent the first positive example entity from the set of text data And a character string including a pair of the first positive example attribute, and information indicating characteristics of the first positive example entity-positive example attribute pair for the selected character string is used as the first positive example entity-positive example. A character string including at least a part of a feature of a sex pair and including a set of the first negative example entity and the first negative example attribute from the set of text data, and selecting the first character string for the selected character string An attribute identifying feature extraction step in which information representing the characteristics of the negative example entity-negative example attribute pair is at least part of the features of the first negative example entity-negative example attribute pair;
The attribute identification learning unit performs an arbitrary character string by learning processing using the feature of the first positive example entity-positive example attribute pair and the feature of the first negative example entity-negative example attribute pair as supervised learning data. To identify whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair by inputting the identity of an entity-attribute pair that is a set of an entity and the attribute of the entity An attribute identification learning step for generating a first identification model which is a function for outputting information;
The attribute identification unit selects any one of the text data from the set of text data, selects a character string included in the selected text data as a first target entity, and selects the first target entity from the selected text data. The first target attribute is selected as a first target attribute, and a set of the first target entity and the first target attribute is set as a first target entity-target attribute pair, and the first target in the selected text data is selected. Information representing the characteristics of the entity-target attribute pair is set as at least a part of the feature of the first target entity-target attribute pair, and the feature of the first target entity-target attribute pair is input to the first identification model. The first target entity-target attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair. When the first target entity-target attribute pair is identified as a positive entity-positive attribute pair, the first target attribute is added to the set of positive attribute, An attribute identifying step of adding the first target attribute to the set of negative example attributes when the target entity-target attribute pair is identified as a negative example entity-negative example attribute pair;
A second positive example entity-positive example , in which the entity identifying feature extraction unit is a set of a second positive example entity selected from the positive example entity set and a second positive example attribute selected from the positive example attribute set. A second negative example entity-negative example attribute pair that is a set of an attribute pair, a second negative example entity selected from the set of negative example entities, and a second negative example attribute selected from the set of negative example attributes. Generating and selecting a character string including a set of the second positive example entity and the second positive example attribute from the set of text data, and the second positive example entity-positive example attribute for the selected character string. Information representing the characteristics of the pair is at least a part of the feature of the second positive example entity-positive example attribute pair, and the second negative example entity and the second negative example attribute are obtained from the set of text data. A character string including a pair is selected, and information indicating the characteristics of the second negative example entity-negative example attribute pair for the selected character string is used as at least part of the features of the second negative example entity-negative example attribute pair. An entity identification feature extraction step,
The entity identification learning unit performs an arbitrary character string by learning processing using the feature of the second positive example entity-positive example attribute pair and the feature of the second negative example entity-negative example attribute pair as supervised learning data. To identify whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair by inputting the identity of an entity-attribute pair that is a set of an entity and the attribute of the entity An entity identification learning step for generating a second identification model which is a function for outputting information;
The entity identification unit selects any one of the text data from the set of text data, selects a character string included in the selected text data as a second target entity, and selects the second target entity from the selected text data. A character string different from the second target attribute is selected as a second target attribute, and a set of the second target entity and the second target attribute is set as a second target entity-target attribute pair, and the second target in the selected text data is selected. Information representing the characteristics of the entity-target attribute pair is set as at least a part of the feature of the second target entity-target attribute pair, and the feature of the second target entity-target attribute pair is input to the second identification model Second target entity-target attribute pair is positive entity-positive attribute pair or negative entity-negative And when the second target entity-target attribute pair is identified as an example entity-example attribute pair, the second entity is added to the set of example entities, An entity identification step of adding the second target entity to the set of negative example entities when the two target entity-target attribute pairs are identified as negative example entity-negative example attribute pairs;
A data extraction method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011094885A JP5542732B2 (en) | 2010-10-29 | 2011-04-21 | Data extraction apparatus, data extraction method, and program thereof |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010243950 | 2010-10-29 | ||
JP2010243950 | 2010-10-29 | ||
JP2011094885A JP5542732B2 (en) | 2010-10-29 | 2011-04-21 | Data extraction apparatus, data extraction method, and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012108867A JP2012108867A (en) | 2012-06-07 |
JP5542732B2 true JP5542732B2 (en) | 2014-07-09 |
Family
ID=46494392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011094885A Active JP5542732B2 (en) | 2010-10-29 | 2011-04-21 | Data extraction apparatus, data extraction method, and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5542732B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6549500B2 (en) * | 2016-02-26 | 2019-07-24 | トヨタ自動車株式会社 | Topic estimation learning apparatus and topic estimation learning method |
US11238363B2 (en) * | 2017-04-27 | 2022-02-01 | Accenture Global Solutions Limited | Entity classification based on machine learning techniques |
CN112148895B (en) | 2020-09-25 | 2024-01-23 | 北京百度网讯科技有限公司 | Training method, device, equipment and computer storage medium for retrieval model |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3692399B2 (en) * | 2001-12-26 | 2005-09-07 | 独立行政法人情報通信研究機構 | Notation error detection processing apparatus using supervised machine learning method, its processing method, and its processing program |
JP5360414B2 (en) * | 2007-06-06 | 2013-12-04 | 日本電気株式会社 | Keyword extraction model learning system, method and program |
US8165985B2 (en) * | 2007-10-12 | 2012-04-24 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
-
2011
- 2011-04-21 JP JP2011094885A patent/JP5542732B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012108867A (en) | 2012-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10860808B2 (en) | Method and system for generation of candidate translations | |
CN109815308B (en) | Method and device for determining intention recognition model and method and device for searching intention recognition | |
RU2628431C1 (en) | Selection of text classifier parameter based on semantic characteristics | |
RU2628436C1 (en) | Classification of texts on natural language based on semantic signs | |
Sordoni et al. | A hierarchical recurrent encoder-decoder for generative context-aware query suggestion | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
US8359190B2 (en) | Identifying semantic positions of portions of a text | |
KR101754473B1 (en) | Method and system for automatically summarizing documents to images and providing the image-based contents | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
CN110457708B (en) | Vocabulary mining method and device based on artificial intelligence, server and storage medium | |
CN110717038B (en) | Object classification method and device | |
US11263400B2 (en) | Identifying entity attribute relations | |
US11544317B1 (en) | Identifying content items in response to a text-based request | |
CN114997288A (en) | Design resource association method | |
JP5542732B2 (en) | Data extraction apparatus, data extraction method, and program thereof | |
WO2015125209A1 (en) | Information structuring system and information structuring method | |
JP5379813B2 (en) | Data extraction apparatus, data extraction method, and program | |
US11755671B2 (en) | Projecting queries into a content item embedding space | |
JP5379812B2 (en) | Data extraction apparatus, data extraction method, and program | |
JP5175585B2 (en) | Document processing apparatus, electronic medical chart apparatus, and document processing program | |
JP5342574B2 (en) | Topic modeling apparatus, topic modeling method, and program | |
CN110598209A (en) | Method, system and storage medium for extracting keywords | |
CN117112858B (en) | Object screening method based on association rule mining, processor and storage medium | |
Esmailzadeh et al. | Cognitive-aware Short-text Understanding for Inferring Professions | |
ATTAPORN | A Study on Detecting Domain-Specific Senses and its Application to Text Categorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130722 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140430 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5542732 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |