JP5542732B2 - Data extraction apparatus, data extraction method, and program thereof - Google Patents

Data extraction apparatus, data extraction method, and program thereof Download PDF

Info

Publication number
JP5542732B2
JP5542732B2 JP2011094885A JP2011094885A JP5542732B2 JP 5542732 B2 JP5542732 B2 JP 5542732B2 JP 2011094885 A JP2011094885 A JP 2011094885A JP 2011094885 A JP2011094885 A JP 2011094885A JP 5542732 B2 JP5542732 B2 JP 5542732B2
Authority
JP
Japan
Prior art keywords
entity
attribute
positive
target
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011094885A
Other languages
Japanese (ja)
Other versions
JP2012108867A (en
Inventor
九月 貞光
玄一郎 菊井
邦子 齋藤
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011094885A priority Critical patent/JP5542732B2/en
Publication of JP2012108867A publication Critical patent/JP2012108867A/en
Application granted granted Critical
Publication of JP5542732B2 publication Critical patent/JP5542732B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキストデータの集合からデータを抽出する技術に関し、特に、特定の内容と関連を持つ文字列を入力として同じような関連を持つ文字列をテキストデータの集合から抽出する技術に関する。   The present invention relates to a technique for extracting data from a set of text data, and more particularly to a technique for extracting a character string having a similar relationship from a set of text data using a character string having a relationship with a specific content as an input.

現在様々な自然言語処理技術の研究開発が進み、WEBのような膨大な知識源から必要な情報を抽出する手法が多く存在している。そのような手法の一つに、特定の内容と何らかの関連を持つ文字列(例えば<広島>や<阪神>など)を入力として、大量のテキストデータ(例えば文書データ)から同じような関連を持つ文字列(例えば<ヤクルト>など)を収集するものがある。このような手法を「set expansion」と呼ぶ。また、set expansionで扱われる文字列を「エンティティ」と呼び、抽出対象のエンティティを「正例エンティティ」と呼び、抽出しない(抽出対象としない)エンティティを「負例エンティティ」と呼ぶ。さらに、set expansionにおいて最初に入力されるエンティティを「シードエンティティ」と呼び、正例のシードエンティティを「正例シードエンティティ」と呼び、負例のシードエンティティを「負例シードエンティティ」と呼ぶ。   Currently, various natural language processing technologies are being researched and developed, and there are many methods for extracting necessary information from a vast knowledge source such as WEB. One of such methods is to input a character string (for example, <Hiroshima>, <Hanshin>, etc.) that has some relationship with specific contents, and have a similar relationship from a large amount of text data (for example, document data). Some collect character strings (eg <Yakult>). Such a method is called “set expansion”. A character string handled in set expansion is called an “entity”, an extraction target entity is called a “positive example entity”, and an entity that is not extracted (not an extraction target) is called a “negative example entity”. Furthermore, the entity that is input first in the set expansion is called “seed entity”, the positive seed entity is called “positive seed entity”, and the negative seed entity is called “negative seed entity”.

以下、従来のset expansionの一例を概説する。
ステップI:正例エンティティ(例えば<広島>や<阪神>など)を含むテキストデータを用いて当該正例エンティティの素性を抽出し、負例エンティティ(例えば<彗星>)を含むテキストデータを用いて当該負例エンティティの素性を抽出(素性化)する。なお、正例エンティティの初期値は正例シードエンティティであり、負例エンティティの初期値は負例シードエンティティである。
ステップII:ステップIで得られた正例エンティティの素性と負例エンティティの素性とを学習データとし、任意のエンティティが正例エンティティであるか負例エンティティであるかを識別するための識別モデルを生成する。
ステップIII:テキストデータから識別前のエンティティ(例えば<ヤクルト>)とその素性と抽出し、ステップIIで得られた識別モデルを用いて当該未知のエンティティの識別を行う。
ステップIV:正例エンティティであると識別されたエンティティのうち信頼度の高いものの素性と、負例エンティティであると推定されたエンティティのうち信頼度の低いものの素性とを学習データに加える。
ステップV:収束条件を満たすか否かを判定し、満たさない場合はステップIに戻って処理を繰り返す。収束条件を満たす場合は処理を終了する。このように一度学習したモデルに基づいて識別を行い、それを新たな学習データとして用いていく繰り返し学習の枠組みをブートストラップ法と呼ぶ。
Hereinafter, an example of a conventional set expansion will be outlined.
Step I: Using text data containing positive example entities (eg <Hiroshima>, <Hanshin>, etc.) The feature of the negative example entity is extracted (featured). The initial value of the positive example entity is a positive example seed entity, and the initial value of the negative example entity is a negative example seed entity.
Step II: Using the identity of the positive example entity and the identity of the negative example entity obtained in Step I as learning data, an identification model for identifying whether any entity is a positive example entity or a negative example entity Generate.
Step III: An entity before identification (for example, <Yakult>) and its features are extracted from text data, and the unknown entity is identified using the identification model obtained in Step II.
Step IV: Add the features of the entities that are identified as positive example entities with high reliability and the features of the entities that are estimated to be negative example entities with low reliability to the learning data.
Step V: Determine whether or not the convergence condition is satisfied. If not, return to Step I and repeat the process. If the convergence condition is satisfied, the process is terminated. A framework for iterative learning in which identification is performed based on a once learned model and used as new learning data is called a bootstrap method.

次に、set expansionの他の例であるTChai(例えば、非特許文献1参照)を概説する。TChaiでは、リソースとして検索クエリログ(以下クエリログ)が用いられる。クエリログとは、キーワード検索に用いられるユーザからのクエリ(数単語からなるキーワード)の集合である。
ステップA:正例シードエンティティと共起する単語であるパターンpをクエリログから抽出し、それらを正例シードエンティティの素性とする。このステップは最初の一回のみ行う。
ステップB:正例エンティティであるかが未知のエンティティeとそれと共起するパターンpとの2項におけるPMI(Pointwise Mutual Information)を計算する。

Figure 0005542732
ここで|e, p|はエンティティeとそれと共起するパターンpとの組のクエリログ中での出現頻度を表す。また、*はp又はeのワイルドカードを表す。すなわち、|e, *|はエンティティeと何れかのパターン*との組のクエリログ中での出現頻度を表し、|*, p|は何れかのエンティティ*とパターンpとの組のクエリログ中での出現頻度を表す。
また、このエンティティeに対し、エンティティ信頼度rEとパターン信頼度rPを計算する。rE, rPは以下で定義される。
Figure 0005542732
ここで|E|及び|P|はそれぞれエンティティe及びパターンpの総数を表す。また、maxe pmiはエンティティをeに固定した場合のPMIの最大値を表し、maxppmiはパターンをpに固定した場合のPMIの最大値を表す。
ステップC:エンティティ信頼度rEに基づきエンティティeを新たな正例エンティティとするか否かを判定する。
ステップD:必要な数の正例エンティティが得られていない場合にはステップBに戻って処理を繰り返す。必要な数の正例エンティティが得られた場合には処理を終了する。 Next, TChai which is another example of set expansion (for example, see Non-Patent Document 1) will be outlined. In TChai, a search query log (hereinafter referred to as query log) is used as a resource. A query log is a set of queries (keywords consisting of several words) from a user used for keyword search.
Step A: The pattern p, which is a word that co-occurs with the positive seed entity, is extracted from the query log, and is used as a feature of the positive seed entity. This step is only performed once.
Step B: PMI (Pointwise Mutual Information) in two terms of the entity e unknown to be a positive example entity and the pattern p co-occurring with it is calculated.
Figure 0005542732
Here, | e, p | represents the appearance frequency in the query log of a set of the entity e and the pattern p co-occurring with it. * Represents a p or e wildcard. That is, | e, * | represents the frequency of occurrence in the query log of the pair of entity e and any pattern *, and | *, p | is the query log of the pair of any entity * and pattern p. Represents the appearance frequency of
In addition, an entity reliability r E and a pattern reliability r P are calculated for this entity e. r E and r P are defined below.
Figure 0005542732
Here, | E | and | P | represent the total number of entities e and patterns p, respectively. Max e pmi represents the maximum value of PMI when the entity is fixed to e, and max p pmi represents the maximum value of PMI when the pattern is fixed to p.
Step C: It is determined whether or not the entity e is a new positive entity based on the entity reliability r E.
Step D: If the required number of positive entity is not obtained, return to Step B and repeat the process. If the required number of positive entity is obtained, the process is terminated.

小町守,鈴木久美,「検索ログからの半教師あり意味知識獲得の改善」,人工知能学会論文誌,Vol. 23,No. 3,2008,p. 217-225Mamoru Komachi, Kumi Suzuki, “Improvement of Semi-Supervised Semantic Knowledge Acquisition from Search Logs”, Transactions of the Japanese Society for Artificial Intelligence, Vol. 23, No. 3, 2008, p. 217-225

従来のset expansionにはセマンティックドリフトという課題が存在する。
例えば球団名を表す<広島><阪神>という正例シードエンティティに対して、従来のset expansionにより正例エンティティ<ヤクルト>が獲得できたとする。<ヤクルト>は飲料名でもあるので、<ヤクルト>を新たに正例エンティティに追加することで次のイテレーションでは<コーラ>等の飲料系のエンティティが正例エンティティとして獲得されるようになり、獲得される正例エンティティの話題がシフトしていく可能性がある。このように獲得される正例エンティティの話題がシフトしていく現象をセマンティックドリフトと呼ぶ。
TChaiではセマンティックドリフトの影響を抑えるために、前述した信頼度を用い、どのクエリにも共通して出やすい一般性の強いエンティティ及びパターンを選択しないアルゴリズムとなっている。しかし、TChaiにおいてもなおセマンティックドリフトは起こり得るため、別な観点からのセマンティックドリフト軽減が望まれる。
The conventional set expansion has a problem of semantic drift.
For example, suppose that the positive entity <Yakult> can be acquired by the conventional set expansion for the positive seed entity <Hiroshima><Hanshin> representing the team name. <Yakult> is also a beverage name, so by adding <Yakult> to a new example entity, a beverage-type entity such as <Cola> will be acquired as a normal entity in the next iteration. There is a possibility that the topic of positive example entities will shift. The phenomenon that the topic of positive entity acquired in this way shifts is called semantic drift.
In TChai, in order to suppress the influence of semantic drift, the above-mentioned reliability is used, and an algorithm that does not select general entities and patterns that tend to appear in any query in common is used. However, semantic drift can still occur in TChai, so it is desirable to reduce semantic drift from another perspective.

本発明はこのような点に鑑みてなされたものであり、セマンティックドリフトを軽減することが可能な技術を提供することを目的とする。   The present invention has been made in view of such a point, and an object thereof is to provide a technique capable of reducing the semantic drift.

本発明の第1態様では、テキストデータに対する複数のトピックの候補の適切さを指標値として表すトピック情報と、当該テキストデータとの関係を記述するトピックモデルを、テキストデータから得られる教師なし学習データを用いて学習し、抽出対象の文字列である正例エンティティを含むテキストデータのトピックに対応してトピックモデルから抽出した正例トピック情報を正例エンティティの素性の少なくとも一部とし、抽出対象としない文字列である負例エンティティを含むテキストデータのトピックに対応してトピックモデルから抽出した負例トピック情報を負例エンティティの素性の少なくとも一部とし、正例エンティティの素性と負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成し、テキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択したテキストデータのトピックに対応してトピックモデルから抽出したトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を識別モデルに入力して対象エンティティが正例エンティティか負例エンティティかを識別し、対象エンティティが正例エンティティであると識別した場合に対象エンティティを正例エンティティとし、対象エンティティが負例エンティティであると識別した場合に対象エンティティを負例エンティティとする。 In the first aspect of the present invention, unsupervised learning data obtained from text data is a topic model that describes the relationship between topic information representing the appropriateness of a plurality of topic candidates for text data as an index value and the text data. The example topic information extracted from the topic model corresponding to the topic of the text data including the example entity that is the character string to be extracted is used as at least part of the features of the example entity, The negative example topic information extracted from the topic model corresponding to the topic of the text data containing the negative example entity that is a non-character string is set as at least part of the negative example entity feature, and the positive example entity feature and the negative example entity feature By using the learning process with supervised learning data, An entity that is a character string included in text data selected from a set of text data by generating an identification model that is a function that outputs information for identifying whether the entity is a positive example entity or negative example entity Is the target entity, the topic information extracted from the topic model corresponding to the topic of the selected text data is used as at least a part of the feature of the target entity, and the feature of the target entity is input to the identification model. Identify positive entity or negative entity, identify target entity as positive entity when target entity is identified as positive entity, and negative target entity when target entity is identified as negative entity Example entity To.

本発明の第2態様では、抽出対象の文字列である正例エンティティの集合から選択した第1正例エンティティと正例エンティティの属性を表す文字列である正例属性の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアと、抽出対象としない文字列である負例エンティティの集合から選択した第1負例エンティティと負例エンティティの属性を表す文字列である負例属性の集合から選択した第1負例属性との組である第1負例エンティティ−負例属性ペアとを生成し、テキストデータの集合から、第1正例エンティティと第1正例属性との組を含む文字列を選択し、選択した当該文字列に対する第1正例エンティティ−正例属性ペアの特徴を表す情報を当該第1正例エンティティ−正例属性ペアの素性の少なくとも一部とし、テキストデータの集合から、第1負例エンティティと第1負例属性との組を含む文字列を選択し、選択した当該文字列に対する第1負例エンティティ−負例属性ペアの特徴を表す情報を当該第1負例エンティティ−負例属性ペアの素性の少なくとも一部とし、第1正例エンティティ−正例属性ペアの素性と第1負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第1識別モデルを生成し、テキストデータの集合から何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティとして選択し、選択した当該テキストデータから当該第1対象エンティティと異なる文字列を第1対象属性として選択し、第1対象エンティティと第1対象属性との組を第1対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での第1対象エンティティ−対象属性ペアの特徴を表す情報を当該第1対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第1対象エンティティ−対象属性ペアの素性を第1識別モデルに入力して当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、第1対象属性を正例属性の集合に追加し、当該第1対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、第1対象属性を負例属性の集合に追加し、正例エンティティの集合から選択した第2正例エンティティと正例属性の集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアと、負例エンティティの集合から選択した第2負例エンティティと負例属性の集合から選択した第2負例属性との組である第2負例エンティティ−負例属性ペアとを生成し、テキストデータの集合から、第2正例エンティティと第2正例属性との組を含む文字列を選択し、選択した当該文字列に対する第2正例エンティティ−正例属性ペアの特徴を表す情報を当該第2正例エンティティ−正例属性ペアの素性の少なくとも一部とし、テキストデータの集合から、第2負例エンティティと第2負例属性との組を含む文字列を選択し、選択した当該文字列に対する第2負例エンティティ−負例属性ペアの特徴を表す情報を当該第2負例エンティティ−負例属性ペアの素性の少なくとも一部とし、第2正例エンティティ−正例属性ペアの素性と第2負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第2識別モデルを生成し、テキストデータの集合から何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティとして選択し、選択した当該テキストデータから当該第2対象エンティティと異なる文字列を第2対象属性として選択し、第2対象エンティティと第2対象属性との組を第2対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での第2対象エンティティ−対象属性ペアの特徴を表す情報を当該第2対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第2対象エンティティ−対象属性ペアの素性を第2識別モデルに入力して当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、第2エンティティを正例エンティティの集合に追加し、当該第2対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、第2対象エンティティを負例エンティティの集合に追加する。   In the second aspect of the present invention, the first positive example entity selected from the set of positive example entities that are the character strings to be extracted and the first selected from the set of positive example attributes that are character strings representing the attributes of the positive example entities. Characters representing the attributes of the first negative example entity and the negative example entity selected from the set of the first positive example entity-positive example attribute pair that is a pair with the positive example attribute and the negative example entity that is a character string that is not to be extracted. A first negative example entity-negative example attribute pair that is a set with a first negative example attribute selected from a set of negative example attributes that are columns is generated, and the first positive example entity and the first are generated from the set of text data. A character string including a pair with a positive example attribute is selected, and information indicating the characteristics of the first positive example entity-positive example attribute pair for the selected character string is used as the feature of the first positive example entity-positive example attribute pair. Less From the set of text data, a character string including a pair of the first negative example entity and the first negative example attribute is selected, and the first negative example entity-negative example attribute pair for the selected character string is selected. Information representing the characteristics is at least part of the features of the first negative example entity-negative example attribute pair, and the features of the first positive example entity-positive example attribute pair and the features of the first negative example entity-negative example attribute pair Through the learning process using supervised learning data as an input, the entity-attribute pair is a positive example entity-positive example attribute by inputting the identity of the entity-attribute pair that is a set of an entity that is an arbitrary character string and the attribute of the entity. A first identification model, which is a function for outputting information for identifying a pair or a negative example entity-negative example attribute pair, is generated, and is selected from a set of text data. Select text data, select a character string included in the selected text data as a first target entity, select a character string different from the first target entity from the selected text data as a first target attribute, A set of the target entity and the first target attribute is defined as a first target entity-target attribute pair, and information representing the characteristics of the first target entity-target attribute pair in the selected text data is the first target entity-target. At least part of the feature of the attribute pair, the feature of the first target entity-target attribute pair is input to the first identification model, and the first target entity-target attribute pair is a positive entity-positive attribute pair or negative Identify whether it is an example entity-negative example attribute pair, and the first target entity-target attribute pair is a positive example entity -When it is identified as a positive example attribute pair, the first target attribute is added to the set of positive example attributes, and the first target entity-target attribute pair is identified as a negative example entity-negative example attribute pair. The first target attribute is added to the set of negative example attributes, and the second positive example entity selected from the set of positive example entities and the second positive example attribute selected from the set of positive example attributes A second negative example entity-negative that is a set of two positive example entity-positive example attribute pairs, a second negative example entity selected from the set of negative example entities, and a second negative example attribute selected from the set of negative example attributes An example attribute pair is generated, a character string including a pair of a second positive example entity and a second positive example attribute is selected from a set of text data, and a second positive example entity-positive example for the selected character string is selected. Information representing the characteristics of attribute pairs Is selected as a character string that includes a pair of the second negative example entity and the second negative example attribute from the set of text data, and at least part of the feature of the second positive example entity-positive example attribute pair. Information representing the characteristics of the second negative example entity-negative example attribute pair for the character string is at least part of the features of the second negative example entity-negative example attribute pair, and the second positive example entity-positive example attribute pair The feature of the entity-attribute pair that is a set of an entity that is an arbitrary character string and the attribute of the entity is obtained by learning processing using the feature and the feature of the second negative example entity-negative example attribute pair as supervised learning data. A function that outputs information for identifying whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair. A second identification model is generated, any text data is selected from a set of text data, a character string included in the selected text data is selected as a second target entity, and the second target is selected from the selected text data. A character string different from the entity is selected as a second target attribute, and a set of the second target entity and the second target attribute is set as a second target entity-target attribute pair, and the second target entity in the selected text data- Information representing the characteristics of the target attribute pair is set as at least a part of the feature of the second target entity-target attribute pair, and the feature of the second target entity-target attribute pair is input to the second identification model, and the second target Identifies whether the entity-target attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair; When the second target entity-target attribute pair is identified as a positive entity-positive attribute pair, the second entity is added to the set of positive entities, and the second target entity-target attribute pair is negative. If it is identified as an example entity-negative example attribute pair, the second target entity is added to the set of negative example entities.

上述のように本発明では、トピック情報及び属性の少なくとも一方がエンティティの識別に反映されるため、セマンティックドリフトを軽減できる。   As described above, in the present invention, since at least one of topic information and attributes is reflected in entity identification, semantic drift can be reduced.

図1は、第1実施形態のデータ抽出装置の機能構成を例示するためのブロック図である。FIG. 1 is a block diagram for illustrating a functional configuration of the data extraction device according to the first embodiment. 図2A及び図2Bは、自動生成部の機能構成を例示するためのブロック図である。2A and 2B are block diagrams for illustrating the functional configuration of the automatic generation unit. 図3は、第1実施形態のデータ抽出装置のデータ抽出処理を例示するための図である。FIG. 3 is a diagram for illustrating a data extraction process of the data extraction apparatus according to the first embodiment. 図4は、記憶部に格納されたテキストデータの集合Dを例示した図である。FIG. 4 is a diagram illustrating a set D of text data stored in the storage unit. 図5Aは、トピック情報付きテキストデータの集合D'を例示した図である。図5Bは、トピック情報抽出部が出力する組(fPe j, <+1>)及び組(fNe j, <-1>)を例示した図である。FIG. 5A is a diagram illustrating a set D ′ of text data with topic information. FIG. 5B is a diagram illustrating a pair (fP e j , <+1>) and a pair (fN e j , <-1>) output by the topic information extraction unit. 図6は、第2実施形態のデータ抽出装置の機能構成を例示するためのブロック図である。FIG. 6 is a block diagram for illustrating a functional configuration of the data extraction apparatus according to the second embodiment. 図7は、第2実施形態のデータ抽出装置のデータ抽出処理を例示するための図である。FIG. 7 is a diagram for illustrating the data extraction processing of the data extraction device of the second embodiment. 図8Aは、属性識別用素性抽出部が出力する組(fPa j, <+1>)及び組(fNa j, <-1>)を例示した図である。図8Bは、エンティティ識別用素性抽出部が出力する組(fPe j, <+1>)及び組(fNe j, <-1>)を例示した図である。FIG. 8A is a diagram illustrating a pair (fP a j , <+1>) and a pair (fN a j , <-1>) output by the attribute identifying feature extraction unit. FIG. 8B is a diagram illustrating a pair (fP e j , <+1>) and a pair (fN e j , <−1>) output by the entity identifying feature extraction unit. 図9は、第3実施形態のデータ抽出装置3の機能構成を例示するためのブロック図である。FIG. 9 is a block diagram for illustrating a functional configuration of the data extraction device 3 of the third embodiment. 図10は、第3実施形態のデータ抽出装置3のデータ抽出処理を例示するための図である。FIG. 10 is a diagram for illustrating data extraction processing of the data extraction device 3 according to the third embodiment.

以下、図面を参照して本発明の実施形態を説明する。
〔第1実施形態〕
<構成>
図1は、第1実施形態のデータ抽出装置1の機能構成を例示するためのブロック図である。
図1に例示するように、データ抽出装置1は、記憶部11a−11e、トピック付与部12、素性抽出部13、トピック情報抽出部14、識別学習部15、エンティティ識別部16、収束判定部17、出力部18、及び制御部19を有し、制御部19の制御のもと各処理を実行する。なお、データ抽出装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)及びROM(read-only memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。例えば、記憶部11a−11eは、ハードディスクや半導体メモリなどであり、トピック付与部12、素性抽出部13、トピック情報抽出部14、識別学習部15、エンティティ識別部16、収束判定部17、出力部18、及び制御部19は、特別なプログラムが読み込まれたCPUなどである。また、これらの少なくとも一部が集積回路などによって構成されてもよい。また、図1に表記された矢印は情報の流れを表すが、表記の都合上一部の矢印が省略されている(以降に述べる他のブロック図も同様)。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
<Configuration>
FIG. 1 is a block diagram for illustrating a functional configuration of a data extraction apparatus 1 according to the first embodiment.
As illustrated in FIG. 1, the data extraction device 1 includes a storage unit 11 a-11 e, a topic assignment unit 12, a feature extraction unit 13, a topic information extraction unit 14, an identification learning unit 15, an entity identification unit 16, and a convergence determination unit 17. , And an output unit 18 and a control unit 19, and execute each process under the control of the control unit 19. The data extraction apparatus 1 is configured by reading a special program into a known or dedicated computer including, for example, a CPU (central processing unit), a RAM (random-access memory), a ROM (read-only memory), and the like. It is a special device. For example, the storage unit 11a-11e is a hard disk, a semiconductor memory, or the like, and includes a topic assignment unit 12, a feature extraction unit 13, a topic information extraction unit 14, an identification learning unit 15, an entity identification unit 16, a convergence determination unit 17, and an output unit. 18 and the control unit 19 are a CPU in which a special program is read. Further, at least a part of these may be configured by an integrated circuit or the like. In addition, although the arrows shown in FIG. 1 indicate the flow of information, some arrows are omitted for the sake of description (the same applies to other block diagrams described below).

<事前処理>
事前処理として、記憶部11aにテキストデータの集合Dが格納され、記憶部11bにトピックモデルTM0が格納される。
テキストデータとは、文字テキストを含むデータを意味する。テキストデータの例は、文書データ、クエリ、語句を含む図表データ、フレーズデータ、単語列データなどである。本形態では、形態素解析、固有表現抽出、係り受け解析、文境界同定などの前処理を行った後の文書データをテキストデータとした例を示す。
<Pre-processing>
As pre-processing, a set D of text data stored in the storage unit 11a, topic models TM 0 is stored in the storage unit 11b.
Text data means data including character text. Examples of text data are document data, queries, chart data including phrases, phrase data, word string data, and the like. In this embodiment, an example is shown in which document data after preprocessing such as morphological analysis, specific expression extraction, dependency analysis, sentence boundary identification, and the like is used as text data.

「トピックモデルTM0」とは、テキストデータに対応するトピックに対応するトピック情報とそのテキストデータが含む文字列との関係を記述するモデル(関数、数式)を意味する。「文字列」の具体例は、単語、単語列、フレーズ、文、文字、記号などである。テキストデータに対応するトピックとは、テキストデータのトピック(題目、話題、事柄、出来事、論題、分類など)を意味する。テキストデータがトピックを表す単語そのものを含んでいるとは限らない。また、トピック情報は、テキストデータに対応するトピックに対応する情報であればどのようなものであってもよい。例えば、テキストデータに対応するトピックの候補(例えば<球団名>や<企業名>など)ごとに、当該テキストデータに対する各トピックの候補の適切さを表す指標(例えば、確率、重み係数、確率や重み係数の関数値であるスコアなど)が与えられ、それらの指標の少なくとも一部が当該テキストデータのトピック情報とされてもよい。 “Topic model TM 0 ” means a model (function, formula) describing the relationship between topic information corresponding to a topic corresponding to text data and a character string included in the text data. Specific examples of the “character string” include a word, a word string, a phrase, a sentence, a character, and a symbol. The topic corresponding to the text data means a topic (text, topic, matter, event, topic, classification, etc.) of the text data. The text data does not always include the word representing the topic itself. The topic information may be any information as long as it corresponds to the topic corresponding to the text data. For example, for each topic candidate corresponding to the text data (for example, <Team name> or <Company name>), an index (for example, probability, weight coefficient, probability, A score which is a function value of the weighting coefficient) is given, and at least a part of the indices may be the topic information of the text data.

トピックモデルは、事前に教師なし学習データ(トピック情報との関係が特定されていないテキストデータから得られる学習データ)から獲得しておく。例えば、WEB上の100万個の文書データから所望のエンティティを獲得したい場合には、これら100万個の文書データから得られた学習データを用いてトピックモデルを学習しておく。
トピックモデルTM0の具体例は、UM(Unigram Mixtures)(Andrew K. McCallum, Kamal Nigam, "Employing EM and Pool-Based Active Learning for Text Classification", ICML'98, 1998等参照)、LDA(Latent Dirichlet Allocation)、DM(Dirichlet Mixtures)などである。以下にトピックモデルTM0としてUMを用いる例を示す。
この場合のトピックモデルTM0は以下の形で定義される。

Figure 0005542732
ここでdはテキストデータの集合Dに属するテキストデータd∈Dを表し、p(d)はテキストデータの集合Dにおけるテキストデータdの出現確率を表す。z∈Zは隠れ変数であり、各zが1つのトピックの候補に対応する。Zは隠れ変数zの集合を表す。以下ではzを1以上Z以下の自然数とし、Zを隠れ変数の総数(トピックの候補の総数)とする。p(z)は隠れ変数zに対する確率であり、
Figure 0005542732
を満たす。vは文字列を表し、Vは文字列vの集合を表す。p(v|z)は隠れ変数zにおける文字列vの生成確率(隠れ変数zが与えられたときの文字列vの事後確率)であり、
Figure 0005542732
を満たす。ndvはテキストデータd中に文字列vが出現した回数である。 The topic model is acquired in advance from unsupervised learning data (learning data obtained from text data whose relationship with topic information is not specified). For example, when it is desired to acquire a desired entity from 1 million document data on the web, a topic model is learned using learning data obtained from these 1 million document data.
Specific examples of Topic Model TM 0 are UM (Unigram Mixtures) (Andrew K. McCallum, Kamal Nigam, "Employing EM and Pool-Based Active Learning for Text Classification", ICML'98, 1998, etc.), LDA (Latent Dirichlet Allocation) and DM (Dirichlet Mixtures). An example of using the UM as topic models TM 0 below.
Topic model TM 0 in this case is defined by the following form.
Figure 0005542732
Here, d represents text data dεD belonging to the text data set D, and p (d) represents the appearance probability of the text data d in the text data set D. z∈Z is a hidden variable, and each z corresponds to one candidate topic. Z represents a set of hidden variables z. In the following, z is a natural number between 1 and Z, and Z is the total number of hidden variables (total number of topic candidates). p (z) is the probability for the hidden variable z
Figure 0005542732
Meet. v represents a character string, and V represents a set of character strings v. p (v | z) is the generation probability of the character string v in the hidden variable z (the posterior probability of the character string v when the hidden variable z is given),
Figure 0005542732
Meet. n dv is the number of times the character string v appears in the text data d.

トピックモデルTM0の学習は繰り返し最適化手法の1種であるEMアルゴリズムを用いて行われ、学習によってパラメータp(z), p(v|z)が得られる。得られた各パラメータp(z), p(v|z)はトピックモデルTM0を特定する情報として記憶部11bに格納される。これはトピックモデルTM0が記憶部11bに格納されることと同等である。 Learning topic model TM 0 is performed using the EM algorithm is a type of iterative optimization techniques, parameters by learning p (z), p (v | z) is obtained. Each resulting parameters p (z), p (v | z) is stored in the storage unit 11b as the information for identifying the topic model TM 0. This is equivalent to the topic model TM 0 is stored in the storage unit 11b.

なお、本形態ではテキストデータが含む文字列を「エンティティ」と呼び、抽出対象のエンティティを「正例エンティティ」と呼び、抽出しない(抽出対象としない)エンティティを「負例エンティティ」と呼ぶ。また、最初に入力されるエンティティを「シードエンティティ」と呼び、正例のシードエンティティを「正例シードエンティティ」と呼び、負例のシードエンティティを「負例シードエンティティ」と呼ぶ。   In this embodiment, a character string included in text data is referred to as an “entity”, an extraction target entity is referred to as a “positive example entity”, and an entity that is not extracted (not extracted) is referred to as a “negative example entity”. Also, the first input entity is called “seed entity”, the positive seed entity is called “positive seed entity”, and the negative seed entity is called “negative seed entity”.

<データ抽出処理>
図3は、第1実施形態のデータ抽出装置1のデータ抽出処理を例示するための図である。以下、図3を用いてデータ抽出装置1のデータ抽出処理を例示する。
《初期化:ステップS11》
制御部19がjの値をj=1に初期化する。
《トピック付与:ステップS12》
トピック付与部12が、記憶部11bに格納されたトピックモデルTM0を用い、記憶部11aに格納されたテキストデータの集合Dが含む各テキストデータのトピックに対応するトピック情報をそれぞれ生成する。トピック付与部12は、生成した各トピック情報をそれに対応する各テキストデータに対応付け、テキストデータとトピック情報とを含むトピック情報付きテキストデータを生成する。生成されたトピック情報付きテキストデータの集合D'は記憶部11cに格納される。なお、各テキストデータのトピックに対応する情報であれば、どのような情報をトピック情報としてもよい。以下に、UMをトピックモデルTM0として生成されるトピック情報を例示する。
<Data extraction process>
FIG. 3 is a diagram for illustrating data extraction processing of the data extraction device 1 of the first embodiment. Hereinafter, the data extraction process of the data extraction apparatus 1 will be exemplified with reference to FIG.
<< Initialization: Step S11 >>
The control unit 19 initializes the value of j to j = 1.
<< Topic Assignment: Step S12 >>
Topics imparting unit 12, using the topic models TM 0 stored in the storage unit 11b, and the topic information corresponding to the topic of the text data set D of text data stored in the storage unit 11a includes generating respectively. The topic assigning unit 12 associates each generated topic information with each corresponding text data, and generates text data with topic information including text data and topic information. The generated set D ′ of text data with topic information is stored in the storage unit 11c. Any information may be used as topic information as long as it corresponds to the topic of each text data. The following illustrates the topic information generated a UM as topic models TM 0.

[トピック情報の例]
トピック付与部12は、記憶部11bに格納されたトピックモデルTM0のパラメータp(z), p(v|z)とテキストデータd及び文字列vから得られるndvを用い、式(4)に従って、記憶部11aに格納されたテキストデータの集合Dに属するテキストデータdに対応するp(d)を計算できる。また、確率の乗法定理より、トピック付与部12は、p(z), p(v|z)を用い、z, vについての同時確率p(z,v)を以下のように求めることができる。
p(z,v)=p(z)p(v|z) …(5)
また、トピック付与部12は、p(z,v)及びndvを用い、z, dについての同時確率p(z,d)を以下のように求めることができる。

Figure 0005542732
さらに、確率の乗法定理より、トピック付与部12は、p(z,d)及びp(z)を用い、隠れ変数zが与えられたときのテキストデータdの事後確率p(d|z)を、以下のように求めることができる。
p(d|z)=p(z,d)/p(z) …(7)
またさらに、ベイズの定理より、トピック付与部12は、得られたp(d), p(d|z)及びp(z)を用い、テキストデータdが与えられたときの隠れ変数zの事後確率p(z|d)を以下のように求めることができる。
p(z|d)=p(d|z)p(z)/p(d) …(8) [Example of topic information]
The topic assignment unit 12 uses the parameters p (z) and p (v | z) of the topic model TM 0 stored in the storage unit 11b, n dv obtained from the text data d and the character string v, and uses the equation (4). Accordingly, p (d) corresponding to the text data d belonging to the text data set D stored in the storage unit 11a can be calculated. Also, from the probability multiplication theorem, the topic assigning unit 12 can obtain the joint probability p (z, v) for z and v using p (z) and p (v | z) as follows. .
p (z, v) = p (z) p (v | z)… (5)
Also, the topic assigning unit 12 can obtain the joint probability p (z, d) for z and d using p (z, v) and n dv as follows.
Figure 0005542732
Further, according to the probability multiplication theorem, the topic assignment unit 12 uses p (z, d) and p (z), and calculates the posterior probability p (d | z) of the text data d when the hidden variable z is given. The following can be obtained.
p (d | z) = p (z, d) / p (z) (7)
Furthermore, according to Bayes' theorem, the topic assigning unit 12 uses the obtained p (d), p (d | z), and p (z), and the posterior of the hidden variable z when the text data d is given. The probability p (z | d) can be obtained as follows.
p (z | d) = p (d | z) p (z) / p (d)… (8)

すなわち、トピック付与部12は、記憶部11bに格納されたトピックモデルTM0のパラメータp(z), p(v|z)を用い、任意のテキストデータdに対する隠れ変数zの事後確率p(z|d)を計算できる。なお、事後確率p(z|d)の計算手順は上記のものに限定されない。最終的にp(z|d)が得られるのであればどのような計算手順で事後確率p(z|d)が計算されてもよい。 That is, the topic assigning unit 12 uses the parameters p (z) and p (v | z) of the topic model TM 0 stored in the storage unit 11b, and uses the posterior probability p (z of the hidden variable z for any text data d. | d) can be calculated. Note that the procedure for calculating the posterior probability p (z | d) is not limited to the above. As long as p (z | d) is finally obtained, the posterior probability p (z | d) may be calculated by any calculation procedure.

事後確率p(z|d)はトピックの候補の適切さを表す指標であり、これらをトピック情報とすることができる。以下、このようなトピック情報を例示する。
トピック情報の例1:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、事後確率の大きな上位N個の隠れ変数zn'とそれらにそれぞれ対応する事後確率p(zn'|d)又は当該事後確率p(zn'|d)の写像との組をテキストデータdのトピック情報とする。なお、Nは1以上Z以下の自然数定数である。例えば、N=1であり、p(z5|d)=0.95が最大の事後確率である場合、隠れ変数z5と事後確率p(z5|d)=0.95との組をテキストデータdのトピック情報とする。
The posterior probability p (z | d) is an index representing the appropriateness of the topic candidates, and these can be used as topic information. Hereinafter, such topic information will be exemplified.
Topic information example 1: Among the posterior probabilities p (z n | d) (n = 1,..., Z) corresponding to the hidden variables z n corresponding to the candidates for each topic, the top having the largest posterior probability The topic information of the text data d is a set of N hidden variables z n ′ and corresponding posterior probabilities p (z n ′ | d) or mappings of the posterior probabilities p (z n ′ | d). . N is a natural number constant between 1 and Z. For example, if N = 1 and p (z 5 | d) = 0.95 is the maximum posterior probability, the set of hidden variable z 5 and posterior probability p (z 5 | d) = 0.95 Use topic information.

トピック情報の例2:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、事後確率の大きな上位N個の隠れ変数zn'又は当該隠れ変数zn'の写像をテキストデータdのトピック情報とする。例えば、N=1であり、p(z5|d)=0.95が最大の事後確率である場合、隠れ変数z5をテキストデータdのトピック情報とする。 Topic information example 2: Among the posterior probabilities p (z n | d) (n = 1,..., Z) corresponding to the hidden variables z n corresponding to the candidates for each topic, the top with the largest posterior probability Let N hidden variables z n ′ or a map of the hidden variables z n ′ be topic information of the text data d. For example, if N = 1 and p (z 5 | d) = 0.95 is the maximum posterior probability, the hidden variable z 5 is set as the topic information of the text data d.

トピック情報の例3:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、上位N個の事後確率p(zn'|d)又は当該事後確率p(zn'|d)の写像をそれぞれn'次元目の要素とし、他のZ-N個の要素を0としたZ次元ベクトルをテキストデータdのトピック情報とする。例えばN=1であり、p(z2|d)=0.95が最大の事後確率である場合、Z次元ベクトル(0, 0.95, 0,...,0)をテキストデータdのトピック情報とする。 Topic information example 3: Top N posteriors of each posterior probability p (z n | d) (n = 1, ..., Z) corresponding to each hidden variable z n corresponding to each topic candidate A mapping of probability p (z n ' | d) or posterior probability p (z n' | d) to each element of the n'th dimension and a Z-dimensional vector with the other ZN elements to 0 as text data d Topic information. For example, if N = 1 and p (z 2 | d) = 0.95 is the maximum posterior probability, the Z-dimensional vector (0, 0.95, 0, ..., 0) is used as the topic information of the text data d. .

トピック情報の例4:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、上位N個の事後確率p(zn'|d)にそれぞれ対応するn'次元目の要素を第1定数(例えば1)とし、他のZ-N個の要素を第2定数(例えば0)としたZ次元ベクトルをテキストデータdのトピック情報とする。例えばN=1であり、p(z2|d)=0.95が最大の事後確率である場合、Z次元ベクトル(0, 1, 0,...,0)をテキストデータdのトピック情報とする。 Topic information example 4: The top N posteriors of the posterior probabilities p (z n | d) (n = 1,..., Z) corresponding to the hidden variables z n corresponding to the candidate candidates. A Z-dimensional vector with the n'th element corresponding to each probability p (z n ' | d) as the first constant (eg 1) and the other ZN elements as the second constant (eg 0) as text The topic information of data d. For example, when N = 1 and p (z 2 | d) = 0.95 is the maximum posterior probability, the Z-dimensional vector (0, 1, 0, ..., 0) is used as topic information of the text data d. .

トピック情報の例5:トピック情報の例1又は2において、「事後確率の大きな上位N個の隠れ変数zn'」を「事後確率が閾値以上となる隠れ変数zn'」に置換した方法でテキストデータdのトピック情報を定める。 Topic information example 5: In the topic information example 1 or 2, “the top N hidden variables z n ′ having a large posterior probability” are replaced with “hidden variables z n ′ having a posterior probability equal to or greater than a threshold”. Define topic information for text data d.

トピック情報の例6:トピック情報の例3又は4において、「上位N個の事後確率p(zn'|d)」を「閾値以上の事後確率p(zn'|d)」に置換した方法でテキストデータdのトピック情報を定める。 Examples of topical information 6: In Example 3 or 4 topic information, "top N posterior probability p (z n was replaced with '| | d)" and "(z n threshold or more posterior probability p' d)" The topic information of the text data d is determined by the method.

図4は、記憶部11aに格納されたテキストデータの集合Dを例示した図であり、図5Aは、トピック情報付きテキストデータの集合D'を例示した図である。図4に例示したテキストデータの集合Dは、前処理を行った後の文書データであるテキストデータと当該テキストデータのIDとが対応付けされたデータである。また、図5Aに例示したトピック情報付きテキストデータの集合D'は、テキストデータと、当該テキストデータのIDと、当該テキストデータに対してトピック情報の例1によって生成されたトピック情報とが対応付けされたデータである。このように、トピック情報はテキストデータごとに付与されており、同じテキストデータ内に表れるエンティティには同じトピック情報が対応する。
なお、予めテキストデータにトピック情報が付与されている場合には、そのトピック情報を用いればよい。また、事前にトピック情報付きテキストデータの集合D'が生成されている場合にはステップS12の処理を実行しなくてもよい([トピック情報の例]の説明終わり)。
FIG. 4 is a diagram illustrating a set D of text data stored in the storage unit 11a, and FIG. 5A is a diagram illustrating a set D ′ of text data with topic information. The text data set D illustrated in FIG. 4 is data in which text data, which is document data after preprocessing, is associated with an ID of the text data. Further, in the set D ′ of text data with topic information illustrated in FIG. 5A, the text data, the ID of the text data, and the topic information generated by the topic information example 1 are associated with the text data. Data. Thus, topic information is assigned to each text data, and the same topic information corresponds to entities appearing in the same text data.
If topic information is previously assigned to text data, the topic information may be used. Further, when the set D ′ of text data with topic information is generated in advance, the process of step S12 may not be executed (end of description of [example of topic information]).

《素性抽出:ステップS13》
ユーザが欲するエンティティの例が正例シードエンティティRPe 0として素性抽出部13に入力される。例えば、<広島>などが正例シードエンティティとして入力される。また、負例シードエンティティRNe 0が素性抽出部13に入力される。例えば、<日本>などが負例シードエンティティとして入力される。正例シードエンティティRPe 0は初回の処理(j=1)における正例エンティティであり、負例シードエンティティRNe 0は初回の処理(j=1)における負例エンティティである。
<< Feature Extraction: Step S13 >>
An example of an entity that the user desires is input to the feature extraction unit 13 as a positive example seed entity RP e 0 . For example, <Hiroshima> is entered as a positive seed entity. Further, the negative example seed entity RN e 0 is input to the feature extraction unit 13. For example, <Japan> etc. is entered as a negative example seed entity. The positive example seed entity RP e 0 is a positive example entity in the first process (j = 1), and the negative example seed entity RN e 0 is a negative example entity in the first process (j = 1).

正例シードエンティティRPe 0は、ユーザによって選択されたものである。負例シードエンティティRNe 0は、ユーザによって選択されたものであってもよいし、テキストデータの集合Dから半自動または全自動で生成されたものであってもよい。以下に負例シードエンティティRNe 0を半自動または全自動で生成する方法を例示する。 The positive seed entity RP e 0 has been selected by the user. The negative example seed entity RN e 0 may be selected by the user, or may be generated semi-automatically or fully automatically from the text data set D. A method for generating the negative example seed entity RN e 0 semi-automatically or fully automatically will be exemplified below.

[負例シードエンティティRNe 0の半自動生成方法の例]
負例シードエンティティ生成部(図示せず)が、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから1つずつランダムに名詞を選択し、それらを負例エンティティ候補として出力する。表示部(図示せず)はこれらの負例エンティティ候補を表示し、これらから負例シードエンティティを選択するようにユーザに促す表示を行う。ユーザによる選択内容は負例シードエンティティ生成部に入力され、負例シードエンティティ生成部は、選択された負例エンティティ候補を負例シードエンティティRNe 0として出力する([負例シードエンティティRNe 0の半自動生成方法の例]の説明終わり)。
[Example of semi-automatic generation of negative example seed entity RN e 0 ]
A negative example seed entity generation unit (not shown) extracts a predetermined number of text data not including any positive example seed entity RP e 0 from the set D of text data, and randomly selects one from each extracted text data Select nouns and output them as negative entity candidates. A display unit (not shown) displays these negative example entity candidates, and performs a display prompting the user to select a negative example seed entity from them. The selection content by the user is input to the negative example seed entity generation unit, and the negative example seed entity generation unit outputs the selected negative example entity candidate as the negative example seed entity RN e 0 ([negative example seed entity RN e 0 Example of semi-automatic generation method]

[負例シードエンティティRNe 0の自動生成方法の例]
<方法1>
この例のデータ抽出装置1は、負例シードエンティティRNe 0を自動生成する自動生成部110を有する(図1)。自動生成部110は、正例分布処理部111、負例トピック決定部112、及び負例シードエンティティ生成部113を有する(図2A)。
[Example of automatic generation method of negative example seed entity RN e 0 ]
<Method 1>
The data extraction apparatus 1 of this example includes an automatic generation unit 110 that automatically generates a negative example seed entity RN e 0 (FIG. 1). The automatic generation unit 110 includes a positive example distribution processing unit 111, a negative example topic determination unit 112, and a negative example seed entity generation unit 113 (FIG. 2A).

まず、正例分布処理部111が、記憶部11aに格納されたテキストデータの集合Dのうち、正例シードエンティティRPe 0を含むテキストデータの集合PDに含まれる全エンティティの出現確率分布である正例確率分布を表す情報(パラメータ)を得る。正例確率分布の代表例は、Bag-of-Wordsの仮定に従う全エンティティの多項分布である。以下に単語などの文字列をエンティティとし、Bag-of-Wordsの仮定に従う全エンティティの多項分布を正例確率分布とする例を示す。
この例での正例確率分布を表すパラメータは、エンティティである文字列vの生成確率p(v)である。生成確率p(v)は以下の関係を満たす。

Figure 0005542732
ここでdはPDに含まれるある1テキストデータを示し、P(PD)はテキストデータの集合PDの出現確率を表す。vは単語などの文字列を表し、Vは文字列vの集合を表す。p(v)は文字列vの生成確率であり、以下の関係を満たす。
Figure 0005542732
ここでndvはテキストデータd中に文字列vが出現した回数である。この生成確率p(v)(正例確率分布を表すパラメータ)は最尤推定法を用いて容易に求めることができる。具体的には、生成確率p(v)は以下の式によって計算され得る。
Figure 0005542732
ここでnPDvはテキストデータの集合PD中に文字列vが出現した回数を表す。NPDはテキストデータの集合PDに含まれる文字列の総数(例えば、総単語数)を表し、NPD=Σv nPDvである。これらの値は、記憶部11aに格納されたテキストデータの集合Dから得ることができる。
この例のデータ抽出装置1は、各文字列v=v1,...,vV∈Vに対応する各生成確率p(v1),..., p(vV)を正例確率分布のパラメータβp={p(v1),..., p(vV)}として出力する。 First, the positive example distribution processing unit 111 is the appearance probability distribution of all entities included in the text data set PD including the positive example seed entity RP e 0 among the text data set D stored in the storage unit 11a. Information (parameters) representing the positive probability distribution is obtained. A typical example of a positive probability distribution is a multinomial distribution of all entities according to the Bag-of-Words assumption. The following shows an example in which a character string such as a word is an entity, and the multinomial distribution of all entities according to the Bag-of-Words assumption is a positive probability distribution.
The parameter representing the positive example probability distribution in this example is the generation probability p (v) of the character string v that is an entity. The generation probability p (v) satisfies the following relationship.
Figure 0005542732
Here, d indicates one text data included in the PD, and P (PD) indicates the appearance probability of the text data set PD. v represents a character string such as a word, and V represents a set of character strings v. p (v) is the generation probability of the character string v and satisfies the following relationship.
Figure 0005542732
Here, n dv is the number of times the character string v appears in the text data d. The generation probability p (v) (a parameter representing a positive example probability distribution) can be easily obtained using the maximum likelihood estimation method. Specifically, the generation probability p (v) can be calculated by the following equation.
Figure 0005542732
Here, n PDv represents the number of occurrences of the character string v in the text data set PD. N PD represents the total number of character strings (for example, the total number of words) included in the text data set PD, and N PD = Σ v n PDv . These values can be obtained from a set D of text data stored in the storage unit 11a.
The data extraction apparatus 1 in this example uses the generation probabilities p (v 1 ), ..., p (v V ) corresponding to the character strings v = v 1 , ..., v V ∈V as positive example probabilities. Output as distribution parameters β p = {p (v 1 ), ..., p (v V )}.

次に、負例トピック決定部112が、同一のトピック情報に対応するテキストデータの集合が含むエンティティの出現確率分布であるトピック確率分布を表す情報をトピック情報ごとに得て、正例確率分布を表す情報及びトピック確率分布を表す情報を用いて得られる正例確率分布とトピック確率分布との距離に基づいて、少なくとも一部のトピック情報を負例トピック情報として選択する。すなわち、負例トピック決定部112は、正例確率分布とトピック確率分布との情報量距離を求めて、情報量距離の大きなトピック確率分布に対応するトピック情報の中から負例トピック情報を選択する。   Next, the negative example topic determination unit 112 obtains, for each topic information, information representing a topic probability distribution that is an appearance probability distribution of entities included in a set of text data corresponding to the same topic information. At least a part of topic information is selected as negative example topic information based on the distance between the positive example probability distribution and the topic probability distribution obtained using the information and the topic probability distribution. That is, the negative example topic determination unit 112 obtains an information amount distance between the positive example probability distribution and the topic probability distribution, and selects negative example topic information from the topic information corresponding to the topic probability distribution having a large information amount distance. .

以下に正例確率分布のパラメータが上述したβp={p(v1),..., p(vV)}であり、トピック確率分布を表す情報(パラメータ)がβt={p(v1|zt),..., p(vV|zt)}(t=1,...,T、Tは正整数)である場合の例を示す。確率分布間の距離尺度にはKL-divergenceやJS-divergenceが用いられるが、ここでは距離の対称性のあるJS-divergenceが用いられる。2つの確率分布p,qの間のJS-divergence DJS(q||p)は以下のように定義される。

Figure 0005542732
ただし、0≦λ≦1であり、DKLはKL-divergenceを表す。確率分布p,qの間のKL-divergenceは以下のように定義される。
Figure 0005542732
ただし、xは確率変数を表す。
この場合、負例トピック決定部112は、p=βP、q∈{β1, β2, … , βT}とし、βPと各βt(t=1,2,…,T)との間のJS-divergenceを計算する。負例トピック決定部112は、例えば、(1)正例確率分布とのJS-divergenceがある一定の閾値以上のパラメータβtに対応するトピック情報、或いは(2)正例確率分布とのJS-divergenceの大きな方から順にN個のパラメータβtに対応するトピック情報を負例トピック情報とする。負例トピック決定部112は、負例トピック情報を特定する情報(例えばt)を出力する。 The parameter of the positive probability distribution is β p = {p (v 1 ), ..., p (v V )} described above, and information (parameter) representing the topic probability distribution is β t = {p ( v 1 | z t ), ..., p (v V | z t )} (t = 1,..., T and T are positive integers). KL-divergence and JS-divergence are used as the distance measure between probability distributions, but here JS-divergence with symmetric distance is used. JS-divergence D JS (q || p) between two probability distributions p and q is defined as follows.
Figure 0005542732
However, 0 ≦ λ ≦ 1, and D KL represents KL-divergence. The KL-divergence between the probability distributions p and q is defined as follows.
Figure 0005542732
Where x represents a random variable.
In this case, the negative example topic determination unit 112 sets p = β P , q∈ {β 1, β 2, ..., Β T }, and β P and each β t (t = 1, 2,..., T) Calculate JS-divergence between The negative example topic determination unit 112 may, for example, (1) Topic information corresponding to a parameter β t having a certain threshold value or more with a JS-divergence with a positive example probability distribution, or (2) JS- Topic information corresponding to N parameters β t in order from the largest divergence is set as negative example topic information. The negative example topic determination unit 112 outputs information for specifying negative example topic information (for example, t).

負例トピック情報を特定する情報は、負例シードエンティティ生成部113に入力される。負例シードエンティティ生成部113は、負例トピック決定部112で選択された負例トピック情報に対応するエンティティを負例シードエンティティRNe 0として選択する。このような負例シードエンティティRNe 0の選択方法の例は以下の通りである。
(選択方法1)単語などの文字列が負例シードエンティティRNe 0として選択される。
(選択方法2)文書などのテキストデータが負例シードエンティティとして選択される。
何れの選択方法の場合も負例トピック情報との関連性が強い(負例トピックの寄与度の高い)エンティティが負例シードエンティティRNe 0とされる。以下に選択方法1,2の具体例を示す。
(選択方法1)単語などの文字列vが負例シードエンティティRNe 0として選択される場合、負例シードエンティティ生成部113は、負例トピック情報に対応するパラメータβtからp(zt|v)を以下のように計算する。
p(zt|v)=p(vt|z)p(z)/Σz p(v|z)p(z)
負例シードエンティティ生成部113は、この値p(zt|v)の大きな文字列vを負例シードエンティティRNe 0として選択する。例えば、負例シードエンティティ生成部113は、p(zt|v)の大きい順に所定個のp(zt|v)を選択し、選択したp(zt|v)に対応する文字列vを負例シードエンティティRNe 0とする。或いは、負例シードエンティティ生成部113は、例えば、閾値よりも大きなp(zt|v)を選択し、選択したp(zt|v)に対応する文字列vを負例シードエンティティRNe 0とする。
(選択方法2)文書などのテキストデータが負例シードエンティティRNe 0として選択される場合、例えば、あらかじめ全テキストデータdに対応するトピック情報である事後確率p(z|d)を計算しておき、トピックごと(隠れ変数zごと)にp(z|d)の値の大きなテキストデータdを記憶部11aに格納しておく。例えば、トピックごとにp(z|d)の大きい順に所定個のテキストデータdを選択しておき、それらを記憶部11aに格納しておく、又は、トピックzごとに閾値よりも大きなp(z|d)に対応するテキストデータdを選択しておき、それらを記憶部11aに格納しておく。負例シードエンティティ生成部113は、このように記憶部11aに格納しておいたテキストデータdから、負例トピック決定部112で得られた負例トピック情報に対応するp(zt|d)に対応するテキストデータdを負例シードエンティティRNe 0として選択する(<方法1>の説明終わり)。
Information specifying negative example topic information is input to the negative example seed entity generation unit 113. The negative example seed entity generation unit 113 selects an entity corresponding to the negative example topic information selected by the negative example topic determination unit 112 as the negative example seed entity RN e 0 . An example of a method for selecting such a negative example seed entity RN e 0 is as follows.
(Selection Method 1) A character string such as a word is selected as a negative example seed entity RN e 0 .
(Selection Method 2) Text data such as a document is selected as a negative example seed entity.
In any of the selection methods, an entity that is strongly related to the negative example topic information (a negative example topic has a high degree of contribution) is set as a negative example seed entity RN e 0 . Specific examples of the selection methods 1 and 2 are shown below.
(Selection Method 1) When a character string v such as a word is selected as the negative example seed entity RN e 0 , the negative example seed entity generation unit 113 uses the parameters β t to p (z t | corresponding to the negative example topic information. v) is calculated as follows.
p (z t | v) = p (v t | z) p (z) / Σ z p (v | z) p (z)
The negative example seed entity generation unit 113 selects a character string v having a large value p (z t | v) as the negative example seed entity RN e 0 . For example, the negative examples seed entity generating unit 113, p | predetermined number in descending order of (z t v) of p (z t | v) is selected, the selected p (z t | v) string corresponding to v Is a negative seed entity RN e 0 . Alternatively, the negative example seed entity generation unit 113 selects, for example, p (z t | v) larger than the threshold, and sets the character string v corresponding to the selected p (z t | v) as the negative example seed entity RN e. Set to 0 .
(Selection method 2) When text data such as a document is selected as a negative example seed entity RN e 0 , for example, a posteriori probability p (z | d) that is topic information corresponding to all text data d is calculated in advance. The text data d having a large value of p (z | d) is stored in the storage unit 11a for each topic (for each hidden variable z). For example, a predetermined number of text data d is selected for each topic in descending order of p (z | d) and stored in the storage unit 11a, or p (z larger than the threshold for each topic z The text data d corresponding to | d) is selected and stored in the storage unit 11a. The negative example seed entity generation unit 113 thus stores p (z t | d) corresponding to the negative example topic information obtained by the negative example topic determination unit 112 from the text data d stored in the storage unit 11a. Is selected as a negative example seed entity RN e 0 (end of description of <Method 1>).

<方法2>
この例のデータ抽出装置1は、負例シードエンティティRNe 0を自動生成する自動生成部120を有する(図1)。自動生成部120は、シード正例トピックスコア生成部121、負例トピック決定部122、及び負例シードエンティティ生成部113を有する(図2B)。
<Method 2>
The data extraction apparatus 1 of this example includes an automatic generation unit 120 that automatically generates a negative example seed entity RN e 0 (FIG. 1). The automatic generation unit 120 includes a seed positive example topic score generation unit 121, a negative example topic determination unit 122, and a negative example seed entity generation unit 113 (FIG. 2B).

まずシード正例トピックスコア作成部121が、正例シードエンティティRPe 0を含むテキストデータdに対する各トピックzの適切さを表すシード正例トピック情報を当該トピックごと(隠れ変数zごと)に集計し、それによって得られる当該トピックごと(隠れ変数zごと)の集計結果を当該トピックのシード正例トピックスコアとして得る。例えば、シード正例トピックスコア作成部121は、トピック付与部12で得られた事後確率p(z|d)のうち正例文書PDに対応するものの和、すなわちΣ_d∈PD p(z|d)をトピックごと(隠れ変数zごと)に計算し、それを当該トピック(隠れ変数z)に対するシード正例トピックスコアとする。或いは、例えばΣ_d∈PD p(z|d)の単調増加関数値が当該トピック(隠れ変数z)に対するシード正例トピックスコアとされてもよい。 First, the seed positive example topic score creation unit 121 aggregates seed positive example topic information indicating the appropriateness of each topic z with respect to the text data d including the positive example seed entity RP e 0 for each topic (for each hidden variable z). Then, the tabulation result for each topic (for each hidden variable z) obtained thereby is obtained as a seed positive example topic score for the topic. For example, the seed positive example topic score creating unit 121 sums the posterior probabilities p (z | d) obtained by the topic assigning unit 12 corresponding to the positive example document PD, that is, Σ_dεPD p (z | d ) Is calculated for each topic (for each hidden variable z), and is used as a seed positive example topic score for the topic (hidden variable z). Alternatively, for example, a monotonically increasing function value of Σ_dεPD p (z | d) may be used as a seed positive example topic score for the topic (hidden variable z).

次に、負例トピック決定部122は、トピックのシード正例トピックスコアの大きさに基づいて選択したトピックに対応するトピック情報を負例トピック情報とする。例えば、負例トピック決定部122は、シード正例トピックスコアの低い順に所定個のトピック(隠れ変数z)を選択し、選択したトピックに対応するトピック情報を負例トピック情報とする。或いは、負例トピック決定部122は、シード正例トピックスコアが所定の閾値以下となるトピック(隠れ変数z)を選択し、選択したトピックに対応するトピック情報を負例トピック情報とする。負例トピック決定部122は、負例トピック情報を特定する情報(例えば隠れ変数ztに対応するt)を出力する。 Next, the negative example topic determination unit 122 sets topic information corresponding to the topic selected based on the magnitude of the topic seed positive example topic score as negative example topic information. For example, the negative example topic determination unit 122 selects a predetermined number of topics (hidden variable z) in ascending order of the seed positive example topic score, and sets topic information corresponding to the selected topic as negative example topic information. Alternatively, the negative example topic determination unit 122 selects a topic (hidden variable z) whose seed positive example topic score is equal to or less than a predetermined threshold, and sets topic information corresponding to the selected topic as negative example topic information. The negative example topic determination unit 122 outputs information specifying negative example topic information (for example, t corresponding to the hidden variable z t).

その後、<方法1>と同様に、負例シードエンティティ生成部113が、負例トピック決定部122で選択された負例トピック情報に対応するエンティティを負例シードエンティティRNe 0として選択する(<方法2>の説明終わり)。 Thereafter, as in <Method 1>, the negative example seed entity generation unit 113 selects the entity corresponding to the negative example topic information selected by the negative example topic determination unit 122 as the negative example seed entity RN e 0 (< End of description of Method 2>).

以上の負例シードエンティティRNe 0の自動生成方法によれば、正例エンティティとの関連性が低いトピック情報から負例の初期集合(負例シードエンティティ)が自動生成されるため、早期にセマンティックドリフトが起こる可能性を減らすことができ、結果として最終的に得られるエンティティ集合の精度を高めることができる。 According to the method for automatically generating the negative example seed entity RN e 0 described above, an initial set of negative examples (negative example seed entity) is automatically generated from topic information having low relevance to the positive example entity. The possibility of drifting can be reduced and the accuracy of the resulting entity set can be increased.

素性抽出部13は、記憶部11aに格納されたテキストデータの集合Dから、何れかの正例エンティティRPe j-1(初期の正例エンティティRPe 0は正例シードエンティティRPe 0)を含む文字列である「正例テキスト」を抽出する。正例テキストの例は、テキストデータが含む文、フレーズ、単語列などでである。正例テキストは、正例エンティティRPe j-1とテキストデータとの組に対して1個以上抽出される。素性抽出部13は、抽出した正例テキストとの関係で定まる正例エンティティRPe j-1の特徴を表す素性fP'e jを抽出する。この例では、正例エンティティRPe j-1を含む正例テキストごとに当該正例エンティティRPe j-1の素性fP'e jが抽出される。以下に、正例エンティティRPe j-1の素性fP'e jを例示する。 The feature extraction unit 13 extracts any positive example entity RP e j-1 (the initial positive example entity RP e 0 is the positive example seed entity RP e 0 ) from the text data set D stored in the storage unit 11a. The “original text” that is the character string to be included is extracted. Examples of the positive example text are sentences, phrases, word strings, and the like included in the text data. One or more positive example texts are extracted for a set of positive example entities RP e j-1 and text data. The feature extraction unit 13 extracts a feature fP ′ e j representing the feature of the positive example entity RP e j−1 determined by the relationship with the extracted positive example text. In this example, the positive example entity RP e j-1 of a feature fP 'e j is extracted for each positive example text containing positive example entity RP e j-1. In the following, the feature fP ′ e j of the positive example entity RP e j−1 is exemplified.

[正例エンティティRPe j-1の素性fP'e jの例]
正例エンティティRPe j-1の素性fP'e jは、正例テキスト(正例エンティティRPe j-1を含む文字列であってテキストデータが含むもの)に対応し、正例テキストと当該正例エンティティRPe j-1との関係を表す情報を含む。このような情報であればどのようなものを素性として用いてもよい。
例えば、何れかの正例エンティティRPe j-1を含むテキストデータ内における当該正例エンティティRPe j-1に一致するエンティティ(一致エンティティ)から前後所定単語数以内(正例テキスト内)に位置する単語(周辺単語)の表記と当該一致エンティティに対する当該周辺単語の相対位置を表す情報との組(表層素性)、一致エンティティ又は周辺単語の品詞情報(品詞素性)や固有名詞情報(固有名詞素性)や構文情報(構文素性)、テキストデータ内での正例エンティティRPe j-1の出現回数やテキストデータの集合D内での正例エンティティRPe j-1の出現回数(出現回数素性)のうち、少なくとも一つに対応する情報を素性fP'e jとすることができる。
[Example of feature fP ' e j of positive entity RP e j-1 ]
Positive example entity RP e j-1 of a feature fP 'e j corresponds to the positive examples text (positive example entity RP e j-1 that contains the text data to a string containing a) positive example text and the Contains information representing the relationship with the positive entity RP e j-1 . Any information may be used as a feature as long as it is such information.
For example, the position in the entity (matching entities) from within the front and rear predetermined number of words (positive examples in the text) that matches the positive examples entity RP e j-1 in the text data including either positive examples entity RP e j-1 A pair of information indicating the relative position of the surrounding word with respect to the matching entity (surface feature), part of speech information (part of speech feature) and proper noun information (proprietary noun feature) of the matching entity or surrounding word ) or syntax information (syntax feature), positive cases entity RP e positive example entity RP e j-1 of the number of occurrences of at j-1 number of occurrences and the set D of the text data in the text data (number of occurrences feature) Among them, information corresponding to at least one of them can be set as a feature fP ′ e j .

表層素性の例は「ex+1="は"」「ex-1="で"」などであり、これらは周辺単語(前者の例では「は」)と一致エンティティに対する周辺単語の相対位置(前者の例では「ex+1」)を表す情報との組を特定する情報である。「ex」は一致エンティティを表し、「ex+β」は一致エンティティexのβ単語後の単語を表し、「ex-β」は一致エンティティexのβ単語前の単語を表す。品詞素性の例は「ex+1=POS:助詞」「ex=POS:名詞」などであり、これらは一致エンティティに対する周辺単語の相対位置(前者の例では「ex+1」、後者の例では「ex」)と一致エンティティ又は周辺単語の品詞との組を特定する情報である。固有名詞素性の例は「ex=ORG」「ex-1=ORG」などであり、これらは一致エンティティに対する周辺単語の相対位置と一致エンティティ又は周辺単語の固有名詞との組を特定する情報である。構文素性の例は、正例テキスト内での一致エンティティの「係り受けの階層」を表す情報である。出現回数素性の例は、テキストデータやテキストデータの集合Dが含む正例エンティティRPe j-1の個数である([正例エンティティRPe j-1の素性fP'e jの例]の説明終わり)。 Examples of surface features are "ex + 1 =" is "", "ex-1 =" in "", etc., and these are relative words ("wa" in the former example) and relative positions of the surrounding words relative to the matching entity ( In the former example, it is information that identifies a pair with information representing “ex + 1”). “Ex” represents a matching entity, “ex + β” represents a word after β words of the matching entity ex, and “ex-β” represents a word before β words of the matching entity ex. Examples of part-of-speech features are “ex + 1 = POS: particle” and “ex = POS: noun”, which are relative positions of surrounding words relative to the matching entity (“ex + 1” in the former example and “ex + 1” in the latter example) “Ex”) and information that identifies a set of matching entities or parts of speech of surrounding words. Examples of proper noun features are “ex = ORG”, “ex-1 = ORG”, etc., which are information that identifies the relative position of the surrounding word relative to the matching entity and the matching entity or the proper noun of the surrounding word. . An example of the syntactic feature is information indicating the “dependency hierarchy” of the matching entity in the positive example text. Examples of Occurrences feature is described in a positive example number of entities RP e j-1, including a set D of the text data and the text data (Example of positive example entity RP e j-1 of a feature fP 'e j] the end).

同様に、素性抽出部13は、記憶部11aに格納されたテキストデータの集合Dから、何れかの負例エンティティRNe j-1(初期の負例エンティティRNe 0は負例シードエンティティRNe 0)を含む文字列である「負例テキスト」を抽出する。負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。負例テキストは、負例エンティティRNe j-1とテキストデータとの組に対して一つ以上抽出される。素性抽出部13は、抽出した負例テキストとの関係で定まる負例エンティティRNe j-1の特徴を表す素性fN'e jを抽出する。負例エンティティRNe j-1の素性fN'e jは、負例テキスト(負例エンティティRNe j-1を含む文字列であってテキストデータが含むもの)に対応し、負例テキストと当該負例エンティティRNe j-1との関係を表す情報を含む。この例では、負例エンティティRNe j-1を含む負例テキストごとに当該負例エンティティRNe j-1の素性fN'e jが抽出される。負例エンティティRNe j-1の素性fN'e jの具体例は、上述した正例エンティティRPe j-1の素性fP'e jの場合と同様である。例えば、上述した正例エンティティRPe j-1の素性fP'e jの具体例の「正例」が「負例」に「RPe j-1」が「RNe j-1」に「fP'e j-1」が「fN'e j-1」にそれぞれ置換されたものである。
素性抽出部13は、正例エンティティRPe j-1の素性fP'e jと正例を表すラベル<+1>との組(fP'e j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fN'e j, <-1>)を出力する。
Similarly, the feature extraction unit 13 extracts any negative example entity RN e j-1 (the initial negative example entity RN e 0 is a negative example seed entity RN e) from the text data set D stored in the storage unit 11a. “Negative text” that is a character string including “ 0” ) is extracted. Examples of negative example text are sentences, phrases, word strings, etc. included in the text data. One or more negative example texts are extracted for a set of negative example entity RN e j-1 and text data. The feature extraction unit 13 extracts a feature fN ′ e j representing the characteristics of the negative example entity RN e j−1 determined by the relationship with the extracted negative example text. Negative examples entity RN e j-1 of a feature fN 'e j corresponds to the negative sample text (a negative example entity RN string containing e j-1 that contains the text data), a negative sample text and the Contains information representing the relationship with the negative entity RN e j-1 . In this example, the negative examples entity RN e j-1 of a feature fN 'e j is extracted for each negative example text containing a negative example entity RN e j-1. A specific example of the feature fN ′ e j of the negative example entity RN e j−1 is the same as the case of the feature fP ′ e j of the positive example entity RP e j−1 described above. For example, "fP to" positive cases "to" negative examples "" RP e j-1 "is" RN e j-1 "in the specific example of the positive sample entity RP e j-1 of a feature fP 'e j described above ' e j-1 ' is replaced by 'fN' e j-1 '.
The feature extraction unit 13 includes a pair (fP ′ e j , <+1>) of a feature fP ′ e j of the positive example entity RP e j−1 and a label <+1> representing the positive example, and a negative example entity A pair (fN ' e j , <-1>) of a feature fN e j of RN e j-1 and a label <-1> representing a negative example is output.

《トピック情報抽出:ステップS14》
正例エンティティRPe j-1、負例エンティティRNe j-1、正例エンティティRPe j-1の素性fP'e jと正例を表すラベル<+1>との組(fP'e j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fN'e j, <-1>)がトピック情報抽出部14に入力される。
トピック情報抽出部14は、記憶部11cに格納されたトピック情報付きテキストデータの集合D'から、正例エンティティRPe j-1を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報(正例エンティティRPe j-1を含むテキストデータに対応するトピック情報)を選択する。このように選択されたトピック情報を、正例エンティティRPe j-1とテキストデータとの組に対応する「正例トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各正例テキストには、同じ正例トピック情報が対応する。トピック情報抽出部14は、正例エンティティRPe j-1とテキストデータとの組に対応する正例トピック情報を、当該テキストデータが含む各正例テキストに対応する各正例エンティティRPe j-1の素性fP'e jに加え、各正例テキストに対応する各正例エンティティRPe j-1の素性をfPe jに更新する。すなわち、正例テキストに対応する正例エンティティRPe j-1の素性fPe jは、当該正例テキストに対応する正例エンティティRPe j-1の素性fP'e jと正例トピック情報とを含む。このように正例トピック情報は素性fPe jの一部とされる。
<< Topic Information Extraction: Step S14 >>
A pair of a positive example entity RP e j−1 , a negative example entity RN e j−1 , a feature fP ′ e j of the positive example entity RP e j−1 and a label <+1> representing the positive example (fP ′ e j , <+1>), and a pair (fN ' e j , <-1>) of the feature fN e j of the negative example entity RN e j-1 and the label <-1> representing the negative example Input to the unit 14.
The topic information extraction unit 14 uses the topic information (correct information) included in the text data with topic information including the text data including the positive entity RP e j-1 from the set D ′ of text data with topic information stored in the storage unit 11c. Example Topic information corresponding to text data including entity RP e j-1 is selected. The topic information selected in this way will be referred to as “normal topic information” corresponding to a set of the positive entity RP e j-1 and text data. Since topic information is given for each text data, the same example topic information corresponds to each example text included in the same text data. The topic information extraction unit 14 sets positive example topic information corresponding to a set of the positive example entity RP e j-1 and text data, and each positive example entity RP e j− corresponding to each positive example text included in the text data. In addition to the feature fP ′ e j of 1, the feature of each positive example entity RP e j−1 corresponding to each positive example text is updated to fP e j . That is, positive example entity RP e j-1 of a feature fP e j corresponding to positive cases text is a positive example entity RP e j-1 of a feature fP 'e j and positive sample topic information corresponding to the positive example text including. Thus, the positive example topic information is made part of the feature fP e j .

同様に、トピック情報抽出部14は、記憶部11cに格納されたトピック情報付きテキストデータの集合D'から、負例エンティティRNe j-1を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報(負例エンティティRNe j-1を含むテキストデータに対応するトピック情報)を選択する。このように選択されたトピック情報を、負例エンティティRNe j-1とテキストデータとの組に対応する「負例トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各負例テキストには、同じ負例トピック情報が対応する。トピック情報抽出部14は、負例エンティティRNe j-1とテキストデータとの組に対応する負例トピック情報を、当該テキストデータが含む各負例テキストに対応する各負例エンティティRNe j-1の素性fN'e jに加え、各負例テキストに対応する各負例エンティティRNe j-1の素性をfNe jに更新する。すなわち、負例テキストに対応する負例エンティティRNe j-1の素性fNe jは、負例テキストに対応する負例エンティティRNe j-1の素性fN'e jと負例トピック情報とを含む。このように負例トピック情報は素性fNe jの一部とされる。 Similarly, the topic information extraction unit 14 includes topics included in the text data with topic information including text data including the negative entity RN e j-1 from the set D ′ of text data with topic information stored in the storage unit 11c. Select information (topic information corresponding to text data including negative example entity RN e j-1 ). The topic information selected in this way will be referred to as “negative example topic information” corresponding to the set of negative example entity RN e j−1 and text data. Since topic information is provided for each text data, the same negative example topic information corresponds to each negative example text included in the same text data. The topic information extraction unit 14 sets negative example topic information corresponding to a set of negative example entity RN e j-1 and text data, and each negative example entity RN e j− corresponding to each negative example text included in the text data. In addition to the feature fN ′ e j of 1, the feature of each negative example entity RN e j−1 corresponding to each negative example text is updated to fN e j . That is, the negative examples entity RN e j-1 of a feature fN e j corresponding to the negative example text, a negative example entity RN e j-1 of a feature fN 'e j and negative cases topic information corresponding to the negative sample text Including. Thus, the negative example topic information is part of the feature fN e j .

なお、トピック情報付きテキストデータの集合D'が含むすべての正例テキストや負例テキストに対応する素性fPe j,fNe jが生成されてもよいし、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成されてもよい。以下に、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成される例を示す。
[一部の正例テキストや負例テキストに対応する素性のみが生成される例]
多義的な正例エンティティRPe j-1が素性抽出部13に入力される場合がある。例えば<阪神>のような正例エンティティRPe j-1は、球団名として用いられる場合もあれば、企業名として用いられる場合もある。この例では、トピック情報付きテキストデータの集合D'において正例エンティティRPe j-1がどのような意味で使用されることが多いのかを推定し、当該推定された意味で正例エンティティRPe j-1が使用されていると推定される文字列(正例テキスト及び負例テキスト)のみを対象として正例トピック情報及び負例トピック情報を選択し、正例エンティティRPe j-1の素性fPe jや負例エンティティRNe j-1の素性fNe jを生成する。これにより、後述する識別学習部15での学習精度やエンティティ識別部16での識別精度の向上が見込まれる。
Note that features fP e j and fN e j corresponding to all positive example texts and negative example texts included in the set D ′ of text data with topic information may be generated, or some positive example texts and negative examples Only the features fP e j and fN e j corresponding to the text may be generated. Hereinafter, an example in which only the features fP e j and fN e j corresponding to some positive example texts and negative example texts are generated will be described.
[Example of generating only features corresponding to some positive texts and negative texts]
The ambiguous positive example entity RP e j-1 may be input to the feature extraction unit 13. For example, a positive entity RP e j-1 such as <Hanshin> may be used as a team name or a company name. In this example, the positive examples entity in the set D 'topic information with text data RP e j-1 is estimated what kind of are often used in the sense, positive cases entities in the estimated mean RP e Select positive example topic information and negative example topic information only for character strings (positive example text and negative example text) that are assumed to be used by j-1, and identify the positive example entity RP e j-1 Generate features fN e j of fP e j and negative entity RN e j-1 . Thereby, the improvement of the learning precision in the identification learning part 15 mentioned later and the identification precision in the entity identification part 16 is anticipated.

まず、トピック情報付きテキストデータの集合D'において正例エンティティRPe j-1がどのような意味で使用されているかを推定するために、素性抽出部13は、トピック情報付きテキストデータの集合D'が含む各テキストデータが含む文字列(正例テキスト及び負例テキスト)に、当該文字列のトピックの候補と、当該トピックの候補それぞれの当該文字列に対する適切さを表すトピック候補スコアとを与える。トピック候補スコアは、例えば、前述のトピックモデルTM0を用いて計算されるか、前述のステップS12の過程で得られた情報から計算され、記憶部11cに格納される。以下に、各トピックの候補に対応するzn(n=1,...,Z)とテキストデータが含む文字列vとに対応するトピック候補スコアs(zn,v)を例示する。
s(zn,v)=p(zn|v)=p(v|zn)p(zn)/p(v) …(9)
なお、p(v|zn), p(zn)は、z=znでのトピックモデルTM0のパラメータとして得られ、p(v)は、z=znでの式(5)の同時確率p(zn,v)とパラメータp(zn)=Σz p(v|z)p(zn)とから得られる。
First, in order to estimate what the positive example entity RP e j-1 is used in the set D ′ of text data with topic information, the feature extraction unit 13 sets the set D of text data with topic information. The character strings (positive example text and negative example text) included in each text data included in 'are given a topic candidate of the character string and a topic candidate score indicating the appropriateness of the topic candidate for the character string. . Topic Candidate scores, for example, either be calculated using the topic models TM 0 described above, is calculated from the information obtained in the process in step S12 described above are stored in the storage unit 11c. Hereinafter, topic candidate scores s (z n , v) corresponding to z n (n = 1,..., Z) corresponding to each topic candidate and a character string v included in the text data will be exemplified.
s (z n , v) = p (z n | v) = p (v | z n ) p (z n ) / p (v)… (9)
Note that p (v | z n ) and p (z n ) are obtained as parameters of the topic model TM 0 at z = z n , and p (v) is obtained from equation (5) at z = z n . It is obtained from the joint probability p (z n , v) and the parameter p (z n ) = Σ z p (v | z) p (z n ).

また、以下のトピック候補スコアs(zn,v)を用いてもよい。

Figure 0005542732
その他、式(9)(10)の写像をトピック候補スコアs(zn,v)としてもよい。 Further, the following topic candidate scores s (z n , v) may be used.
Figure 0005542732
In addition, the mapping of equations (9) and (10) may be used as the topic candidate score s (z n , v).

次に素性抽出部13は、同一のトピックの候補に対応するトピック候補スコアを集計し、当該トピックの候補ごとの集計結果を当該トピックの候補それぞれの正例トピックスコアとする。例えば、素性抽出部13は、式(11)に従ってトピックの候補のそれぞれに対応する各正例トピックスコアS(zn) (n=1,...,Z)を計算し、記憶部11cに格納する。なお、Vpは正例テキストの集合を表す。

Figure 0005542732
その他、トピック候補スコアs(zn,v)(v∈Vp)の単調増加関数値を各正例トピックスコアS(zn)(n=1,...,Z)とするなど、その他の集計方法で正例トピックスコアS(zn)が計算されてもよい。 Next, the feature extraction unit 13 totals the topic candidate scores corresponding to the same topic candidates, and sets the total result for each topic candidate as a positive example topic score for each of the topic candidates. For example, the feature extraction unit 13 calculates each positive example topic score S (z n ) (n = 1,..., Z) corresponding to each of the topic candidates according to the equation (11), and stores it in the storage unit 11c. Store. V p represents a set of positive example texts.
Figure 0005542732
In addition, the monotonically increasing function value of the topic candidate score s (z n , v) (v∈V p ) is set as each positive example topic score S (z n ) (n = 1, ..., Z), etc. The positive example topic score S (z n ) may be calculated by the aggregation method.

次に素性抽出部13は、各正例トピックスコアS(zn)(n=1,...,Z)が特定の基準を満たすトピックの候補を選択し、それを正例基準トピックSeとして記憶部11cに格納する。選択される正例基準トピックSeの個数は1個であってもよいし2個以上であってもよい。例えば、最も値の大きな正例トピックスコアS(zn)に対応するトピックの候補が正例基準トピックSeとされてもよいし、値の大きな順に選択された所定個の正例トピックスコアS(zn)にそれぞれ対応するトピックの候補が正例基準トピックSeとされてもよいし、基準値以上の正例トピックスコアS(zn)に対応するトピックの候補が正例基準トピックSeとされてもよい。 Next, the feature extraction unit 13 selects a candidate for a topic in which each positive example topic score S (z n ) (n = 1,..., Z) satisfies a specific criterion, and selects it as a positive criterion reference topic S e. Is stored in the storage unit 11c. The number of positive cases reference topic S e to be selected may be two or more may be one. For example, most to a large positive example topic score S (z n) in the candidate corresponding topic values may be a positive example reference topic S e, a predetermined number of positive cases topic score S for a large order chosen value A candidate for a topic corresponding to each of (z n ) may be set as a positive example reference topic S e , or a candidate for a topic corresponding to a positive example topic score S (z n ) greater than or equal to a reference value is a positive example reference topic S It may be e .

素性抽出部13は、例えば、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが特定の基準を満たす正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、素性抽出部13は、例えば、正例基準トピックSeの何れかと同一のトピックの候補に対応する負例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが特定の基準を満たす負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。 Feature extraction unit 13, for example, a positive sample text corresponding to the candidate of the same topic and one of positive cases reference topic S e (string containing the text data), yet, corresponding to the candidate of the same topic Generates the feature fP e j of the positive example entity RP e j-1 corresponding to the positive example text whose topic candidate score satisfies a certain criterion, but does not generate the features of the positive example entity corresponding to other positive example texts . Further, feature extraction unit 13 is, for example, a negative example text corresponding to the candidate of the same topic and one of positive cases reference topic S e (string containing the text data), yet, the candidate of the same topic Generates the feature fN e j of the negative example entity RN e j-1 corresponding to the negative example text whose corresponding topic candidate score satisfies a certain criterion, but the negative example entity corresponding to other negative example texts Do not generate.

以下に具体的な素性生成例を示す。
素性生成例1:素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、例えば、素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する負例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該負例テキストに対応するトピック候補スコアの中で最大となる負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。
A specific feature generation example is shown below.
Feature Generation Example 1: feature extraction unit 13 is a positive example text corresponding to the same topic candidates either positive cases reference topic S e, yet, topic candidate score corresponding to the candidate of the same topic the Generates the feature fP e j of the positive example entity RP e j-1 corresponding to the maximum positive example text among the topic candidate scores corresponding to the positive example text, but positive examples corresponding to other positive example texts Do not generate entity features. Further, e.g., feature extraction unit 13 is a negative example text corresponding to the candidate of the same topic and one of positive cases reference topic S e, yet, topic candidate score corresponding to the candidate of the same topic the negative negative sample entity but generates a negative example entity RN e j-1 of a feature fN e j corresponding to the negative example text with the maximum in the topic candidate score corresponding to the example text corresponding to the other negative sample text Do not generate features of.

素性生成例2:素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、例えば、素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する負例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。 Feature Generation Example 2: feature extraction unit 13 is a positive example text corresponding to the same topic candidates either positive cases reference topic S e, yet, topic candidate score corresponding to the candidate of the same topic reference The feature fP e j of the positive example entity RP e j-1 corresponding to the positive example text that is greater than or equal to the value is generated, but the feature of the positive example entity corresponding to the other positive example text is not generated. Further, for example, feature extraction unit 13, positive example reference topic is negative example text corresponding to the candidate of the same topic and one of S e, yet, topic candidate score reference value corresponding to the candidate of the same topic The feature fN e j of the negative example entity RN e j-1 corresponding to the negative example text as described above is generated, but the feature of the negative example entity corresponding to other negative example texts is not generated.

素性生成例3:素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。一方、負例エンティティRNe j-1の素性fNe jについては、すべての負例テキストに対応する負例エンティティRNe j-1の素性fNe jが生成される。 Feature Generation Example 3: feature extraction unit 13 is a positive example text corresponding to the same topic candidates either positive cases reference topic S e, yet, topic candidate score corresponding to the candidate of the same topic the Generates the feature fP e j of the positive example entity RP e j-1 corresponding to the maximum positive example text among the topic candidate scores corresponding to the positive example text, but positive examples corresponding to other positive example texts Do not generate entity features. On the other hand, the negative examples entity RN e j-1 of a feature fN e j, all negative examples entity RN corresponding to negative sample text e j-1 of a feature fN e j is generated.

素性生成例4:素性抽出部13は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。一方、負例エンティティRNe j-1の素性fNe jについては、すべての負例テキストに対応する負例エンティティRNe j-1の素性fNe jが生成される([一部の正例テキストや負例テキストに対応する素性のみが生成される例]の説明終わり)。 Feature Generation Example 4: feature extraction unit 13 is a positive example text corresponding to the same topic candidates either positive cases reference topic S e, yet, topic candidate score corresponding to the candidate of the same topic reference The feature fP e j of the positive example entity RP e j-1 corresponding to the positive example text that is greater than or equal to the value is generated, but the feature of the positive example entity corresponding to the other positive example text is not generated. On the other hand, the negative examples entity RN e j-1 of a feature fN e j, negative examples entity RN e j-1 of a feature fN e j are generated for all of the negative sample text ([part of the positive examples End of description of example] [Only features corresponding to text and negative example text are generated].

トピック情報抽出部14は、正例エンティティRPe j-1の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)を出力する。 The topic information extraction unit 14 includes a pair (fP e j , <+1>) of the feature fP e j of the positive example entity RP e j-1 and the label <+1> representing the positive example, and the negative example entity RN A pair (fN e j , <-1>) of a feature fN e j of e j-1 and a label <-1> representing a negative example is output.

図5Bは、トピック情報抽出部14が出力する組(fPe j, <+1>)及び組(fNe j, <-1>)を例示した図である。なお、「POS」は品詞素性を表し、「BOS」は対応する位置に単語が存在しないことを表す。例えば、テキストデータ<T1>が含む正例テキストに対応する正例エンティティex=<広島>の素性はfPe j=(ex-2="ヤクルト", ex-2=POS:名詞, ex-1="VS", ex-1=POS:名詞, ex+1="の", ex+1=POS:助詞, ex+2="ヤクルト", ex+2=POS:助詞, トピック情報=(z2,08))である。 FIG. 5B is a diagram illustrating a pair (fP e j , <+1>) and a pair (fN e j , <-1>) output from the topic information extraction unit 14. “POS” represents a part-of-speech feature, and “BOS” represents that no word exists at the corresponding position. For example, the identity of the example entity ex = <Hiroshima> corresponding to the example text included in the text data <T1> is fP e j = (ex-2 = "Yakult", ex-2 = POS: noun, ex-1 = "VS", ex-1 = POS: noun, ex + 1 = "no", ex + 1 = POS: particle, ex + 2 = "Yakult", ex + 2 = POS: particle, topic information = (z 2 , 08)).

《識別学習:ステップS15》
正例エンティティRPe j-1の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)は識別学習部15に入力される。正例エンティティRPe j-1の素性fPe jは正例に対する教師あり学習データとして利用でき、負例エンティティRNe j-1の素性fNe jは負例に対する教師あり学習データとして利用できる。識別学習部15は、正例エンティティRPe j-1の素性fPe jと負例エンティティRNe j-1の素性fNe jとを教師あり学習データとした学習処理によって、識別モデルMEe jを生成する。この識別モデルMEe jは、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である。このような識別モデルMEe jであればどのようなモデルであってもよい。
識別モデルMEe jの例は、正則化項付き最大エントロピーモデル(参考文献1「Berger, A.L. , Pietra, V.J.D. and Pietra, "A maximum entropy approach to natural language processing", S.A.D. 1996.」)、正則化項付きの条件付きランダム場(CRFs、参考文献2「Lafferty, J. and McCallum, A. and Pereira, F. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", MACHINE LEARNING, pp. 282-289, 2001.」、サポートベクタマシン(SVMs、参考文献3「Vapnik, V. N. "The nature of statistical learning theory", Springer Verlag, 1995.」)などである。各例の識別モデルMEe jの学習では、教師あり学習データとして用いられた正例エンティティRPe j-1の素性fPe j及び負例エンティティRNe j-1の素性fNe jに対し、当該識別モデルMEe jへの影響度の大きさを表す指標(素性に対する重み)が付され、これらが識別モデルMEe jを特定するパラメータとなる。特に参考文献1−3で例示したようなモデルは、すべての素性に対して重みが付されるモデル(例えば正則化項のない最大エントロピーモデル)ではなく、識別に有効と判断された素性のみについて重みが付される。以下、正則化項付き最大エントロピーモデルの具体例を示す。
<< Identification Learning: Step S15 >>
A pair (fP e j , <+1>) of the feature fP e j of the positive example entity RP e j-1 and the label <+1> representing the positive example, and the feature fN of the negative example entity RN e j-1 A set (fN e j , <-1>) of e j and a label <−1> representing a negative example is input to the identification learning unit 15. The feature fP e j of the positive example entity RP e j-1 can be used as supervised learning data for the positive example, and the feature fN e j of the negative example entity RN e j-1 can be used as supervised learning data for the negative example. The identification learning unit 15 performs the identification model ME e j by learning processing using the feature fP e j of the positive example entity RP e j-1 and the feature fN e j of the negative example entity RN e j-1 as supervised learning data. Is generated. This identification model ME e j is a function that outputs the information for identifying whether the entity is a positive example entity or a negative example entity with the feature of an arbitrary entity as an input. Any model may be used as long as it is such an identification model ME e j .
An example of the discriminant model ME e j is the maximum entropy model with regularization term (Reference 1 “Berger, AL, Pietra, VJD and Pietra,“ A maximum entropy approach to natural language processing ”, SAD 1996.”), regularization Conditional random fields with terms (CRFs, Ref. 2, "Lafferty, J. and McCallum, A. and Pereira, F." Conditional random fields: Probabilistic models for segmenting and labeling sequence data ", MACHINE LEARNING, pp. 282- 289, 2001. ", support vector machines (SVMs, reference 3" Vapnik, VN "the nature of statistical learning theory", Springer Verlag, 1995. "), and the like. in the learning of the identification model ME e j of each example , For the feature fP e j of the positive example entity RP e j-1 and the feature fN e j of the negative example entity RN e j-1 used as supervised learning data, the degree of influence on the identification model ME e j attached indicator representing the magnitude (weight for feature) is, they identify the identification model ME e j In particular, the model as exemplified in References 1-3 is not a model in which all features are weighted (for example, a maximum entropy model without a regularization term), and is determined to be effective for identification. Only specific features are weighted, and a specific example of a maximum entropy model with a regularization term is shown below.

正則化項付き最大エントロピーモデルが用いられる場合、識別学習部15は、(x,y)∈{(fPe j, <+1>), (fNe j, <-1>)}を学習データとして用い、条件付確率

Figure 0005542732
に対するエントロピー
Figure 0005542732
を最大化する各重み(パラメータ)λqに対応するPλ(y|x)であるP(y|x)を識別モデルMEe jとする。ただし、
Figure 0005542732
であり、qは各学習データ(x,y)の組にそれぞれ対応するラベルであり、p'(x)は学習データ(x,y)におけるxの出現頻度であり、fq(x,y)はqに対応する素性関数(feature function)である。 When the maximum entropy model with a regularization term is used, the discriminative learning unit 15 uses (x, y) ∈ {(fP e j , <+1>), (fN e j , <-1>)} as learning data. As a conditional probability
Figure 0005542732
Entropy for
Figure 0005542732
P (y | x) that is P λ (y | x) corresponding to each weight (parameter) λ q that maximizes is set as an identification model ME e j . However,
Figure 0005542732
Q is a label corresponding to each set of learning data (x, y), p ′ (x) is the frequency of occurrence of x in the learning data (x, y), and f q (x, y ) Is a feature function corresponding to q.

ここで、各重みλqはqに対応する学習データ(x,y)の素性fPe j又はfNe jの識別モデルMEe jへの影響度の大きさを表す指標となる。また、正則化項付き最大エントロピーモデルの例では、すべての学習データ(x,y)の素性fPe j又はfNe jに対して重みλqが付されるわけではなく、重要度の低い素性に対応する重みλqは付されない。すなわち、重要度の低い素性に対応する重みλqは0とされる。 Here, each weight λ q serves as an index representing the magnitude of the influence of the feature fP e j or fN e j of the learning data (x, y) corresponding to q on the identification model ME e j . In the example of the maximum entropy model with regularization terms, the weight λ q is not assigned to the feature fP e j or fN e j of all the learning data (x, y), and the feature with low importance The weight λ q corresponding to is not attached. That is, the weight λ q corresponding to the feature of low importance is set to 0.

また、ステップS14で一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成されていた場合には、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jに対応する(x,y)∈{(fPe j, <+1>), (fNe j, <-1>)}のみが学習データとされる。例えば、前述した「一部の正例テキストや負例テキストに対応する素性のみが生成される例」のように素性fPe j,fNe jが生成された場合には、前述した正例基準トピックの何れかと同一のトピック候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストに対応する正例エンティティ及び/又は負例エンティティの素性のみが教師あり学習データとされる。
学習処理によって生成された識別モデルMEe jは記憶部11dに格納される。例えば、学習処理によって生成された識別モデルMEe jのパラメータが記憶部11dに格納される。
If only the features fP e j and fN e j corresponding to some positive example texts and negative example texts are generated in step S14, the features corresponding to some positive example texts and negative example texts are generated. Only (x, y) ε {(fP e j , <+1>), (fN e j , <-1>)} corresponding to fP e j and fN e j is used as learning data. For example, when the features fP e j and fN e j are generated as in the above-mentioned “example in which only features corresponding to some positive example texts and negative example texts are generated”, the above-described positive example criteria Positive example text corresponding to the same topic candidate as any of the topics (a character string included in the text data) and corresponding to the positive example text in which the topic candidate score of the same topic candidate satisfies a specific criterion Only the features of entities and / or negative example entities are taken as supervised learning data.
The identification model ME e j generated by the learning process is stored in the storage unit 11d. For example, the parameter identification model ME e j generated by the learning processing is stored in the storage unit 11d.

《エンティティ識別:ステップS16》
エンティティ識別部16は、記憶部11cに格納されたトピック情報付きテキストデータの集合D'から何れかのトピック情報付きテキストデータを選択し、選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRDe jとする。
<< Entity Identification: Step S16 >>
The entity identifying unit 16 selects any text data with topic information from the set D ′ of topic data with topic information stored in the storage unit 11c, and a character string included in the text data included in the selected text data with topic information. Is an entity RD e j .

なお、トピック情報付きテキストデータの集合D'からすべてのトピック情報付きテキストデータが選択されてもよいが、すべてのテキストデータを識別対象とすることは計算効率上好ましくない。そのため、特定の方法で識別対象を限定して選択を行うことが望ましい。以下にその具体例を示す。   Note that all the text data with topic information may be selected from the set D ′ of text data with topic information, but it is not preferable in terms of calculation efficiency to make all the text data to be identified. For this reason, it is desirable to select an identification target by a specific method. Specific examples are shown below.

[選択方法の例]
選択方法の例1:
選択方法の例1では、エンティティ識別部16は、識別学習部15で教師あり学習データとして用いられた正例エンティティRPe j-1の素性fPe j及び負例エンティティRNe j-1の素性fNe jのうち、それらから生成された識別モデルMEe jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該識別モデルMEe jへの影響度が大きな素性fPe j及び/又はfNe jを選択する。例えば、エンティティ識別部16は、前述の重みλqの絶対値が閾値よりも大きな素性fPe j及び/又はfNe jを選択する。
また、エンティティ識別部16は、選択した素性fPe j及び/又はfNe jに対応する文字列を含むテキストデータを含むトピック情報付きテキストデータを選択し、当該選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRDe jとする。例えば、エンティティ識別部16は、選択した素性fPe j及び/又はfNe jから表層素性の単語を抽出し、当該表層素性の単語を含むテキストデータを含むトピック情報付きテキストデータを選択する。一例を挙げると、選択された素性がエンティティexの前2単語が表層素性と品詞素性の組み合わせで成り立つ素性FNC(x−2=“POS:名詞”, x−1=“で”)(FNCは関数)であった場合、エンティティ識別部16は、選択した素性FNC(x−2=“POS:名詞”, x−1=“で”)から表層素性の単語“で”を抽出し、単語“で”を含むテキストデータを含むトピック情報付きテキストデータを選択する。
[Example of selection method]
Selection method example 1:
In example 1 of the selection method, the entity identification unit 16 uses the feature fP e j of the positive example entity RP e j-1 and the feature of the negative example entity RN e j-1 used as the supervised learning data by the identification learning unit 15. Among the fN e j , an index (for example, the above-mentioned weight λ q ) indicating the degree of influence on the identification model ME e j generated from the features satisfies a specific criterion, that is, the identification model ME e j A feature fP e j and / or fN e j that has a large influence on is selected. For example, the entity identification unit 16 selects a feature fP e j and / or fN e j in which the absolute value of the weight λ q is larger than a threshold value.
In addition, the entity identification unit 16 selects text data with topic information including text data including a character string corresponding to the selected feature fP e j and / or fN e j , and the selected text data with topic information includes. An entity that is a character string included in the text data is set as a target entity RD e j . For example, the entity identification unit 16 extracts a surface feature word from the selected feature fP e j and / or fN e j, and selects text data with topic information including text data including the surface feature word. For example, the feature FNC (x−2 = “POS: noun”, x−1 = “in”) where the selected features consist of a combination of surface features and part-of-speech features before the entity ex (FNC is If it is a function), the entity identification unit 16 extracts the surface feature word “de” from the selected feature FNC (x−2 = “POS: noun”, x−1 = “de”), and the word “ Select text data with topic information that includes text data containing "

選択方法の例2:
選択方法の例2では、エンティティ識別部16は、前述した正例基準トピックSeの何れかと同一のトピック候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストが含むエンティティを対象エンティティRDe jとする。
例えば、エンティティ識別部16は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストが含むエンティティを対象エンティティRDe jとする。
或いは、例えば、エンティティ識別部16は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストが含むエンティティを対象エンティティRDe jとする([選択方法の例]の説明終わり)。
Selection method example 2:
Example 2 selection method, entity identification unit 16 is a positive example text corresponding to the same topic candidates either positive cases reference topic S e previously described (string containing the text data), yet, of the same An entity included in a positive example text whose topic candidate score satisfies a specific criterion is set as a target entity RD e j .
For example, the entity identification unit 16 is a positive example text corresponding to the same topic candidates either positive cases reference topic S e, yet, topic candidate score is the positive example text corresponding to the candidate of the same topic The entity included in the positive example text that is the largest among the topic candidate scores corresponding to is the target entity RD e j .
Alternatively, for example, the entity identification unit 16 is a positive example text corresponding to the same topic candidates either positive cases reference topic S e, yet, topic candidate score reference value corresponding to the candidate of the same topic The entity included in the above-described positive example text is set as a target entity RD e j (end of the description of [example of selection method]).

素性抽出部13は、記憶部11aに格納されたテキストデータの集合Dから、対象エンティティRDe jを含む文字列である「対象テキスト」を抽出する。対象テキストの例は、テキストデータが含む文、フレーズ、単語列などである。対象テキストは、対象エンティティRDe jとテキストデータとの組に対して1個以上抽出される。
素性抽出部13は、抽出した対象テキストとの関係で定まる対象エンティティRDe jの特徴を表す素性fD'e jを抽出する。対象エンティティRDe jの素性fD'e jは、対象テキスト(対象エンティティRDe jを含む文字列であってテキストデータに含まれるもの)に対応し、対象テキストと当該対象エンティティRDe jとの関係を表す情報を含む。具体的な処理は、前述した正例エンティティRPe j-1の素性fP'e jを抽出する場合と同様である。例えば、「正例エンティティRPe j」が「対象エンティティRDe j」に「素性fP'e j」が「素性fD'e j」に「正例テキスト」が「対象テキスト」に置換される以外は、前述した正例エンティティRPe j-1の素性fP'e jを抽出する処理と同じである。
Feature extraction unit 13, from the set D of text data stored in the storage unit 11a, extracts the "target text" is a string containing the target entity RD e j. Examples of the target text are sentences, phrases, word strings, and the like included in the text data. One or more target texts are extracted for a set of the target entity RD e j and text data.
The feature extraction unit 13 extracts a feature fD ′ e j representing the characteristics of the target entity RD e j determined by the relationship with the extracted target text. Feature fD 'e j of the target entity RD e j corresponds to the (those contained in the text data to a string containing the target entity RD e j) target text, the target text and the relevant target entity RD e j Contains information representing the relationship. The specific process is the same as the case of extracting the feature fP ′ e j of the positive entity RP e j−1 described above. For example, “positive entity RP e j ” is replaced with “target entity RD e j ”, “feature fP ' e j ” is replaced with “feature fD' e j ”, and “positive text” is replaced with “target text”. Is the same as the process of extracting the feature fP ′ e j of the positive entity RP e j−1 described above.

対象テキストに対応する対象エンティティRDe jの素性fD'e jは、トピック情報抽出部14に入力される。トピック情報抽出部14は、記憶部11cから、対象テキストを含むトピック情報付きテキストデータが含むトピック情報(対象テキストに対応するトピック情報)を選択する。このように選択されたトピック情報を、対象エンティティRDe jとテキストデータとの組に対応する「対象トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各対象テキストには、同じ対象トピック情報が対応する。トピック情報抽出部14は、対象エンティティRDe jとテキストデータとの組に対応する対象トピック情報を、当該テキストデータが含む各対象テキストに対応する各対象エンティティRDe jの素性fD'e jに加え、各対象テキストに対応する各対象エンティティRDe jの素性をfDe jに更新する。すなわち、対象テキストに対応する対象エンティティRDe jの素性fDe jは、当該対象テキストに対応する対象エンティティRDe jの素性fD'e jと対象トピック情報とを含む。このように対象トピック情報は素性fDe jの一部とされる。 The feature fD ′ e j of the target entity RD e j corresponding to the target text is input to the topic information extraction unit 14. The topic information extraction unit 14 selects topic information (topic information corresponding to the target text) included in the text data with topic information including the target text from the storage unit 11c. Thus the selected topic information, corresponding to the set of target entities RD e j and text data is referred to as a "target topic information". Since topic information is given for each text data, the same target topic information corresponds to each target text included in the same text data. The topic information extraction unit 14 converts the target topic information corresponding to the set of the target entity RD e j and the text data into the feature fD ′ e j of each target entity RD e j corresponding to each target text included in the text data. In addition, the feature of each target entity RD e j corresponding to each target text is updated to fD e j . That is, feature fD e j of the target entity RD e j corresponding to the target text includes a feature fD 'e j and the target topic information of the target entity RD e j corresponding to the target text. In this way, the target topic information is part of the feature fD e j .

対象エンティティRDe jの素性fDe jは、エンティティ識別部16に入力される。エンティティ識別部16は、対象エンティティRDe jの素性fDe jを記憶部11dから読み出した識別モデルMEe jに入力し、対象エンティティRDe jが正例エンティティか負例エンティティかを識別する。例えば、識別モデルMEe jとして正則化項付き最大エントロピーモデルが用いられる場合には、x=fDe jを識別モデルMEe jであるP(y|x)に代入してP(1|x)とP(-1|x)とを求め、それらに対応する指標(信頼度など)と閾値とを比較することで、対象エンティティRDe jが正例エンティティか負例エンティティかを識別する。 Feature fD e j of the target entity RD e j is input to the entity identification unit 16. The entity identification unit 16 inputs the feature fD e j of the target entity RD e j to the identification model ME e j read from the storage unit 11d, and identifies whether the target entity RD e j is a positive example entity or a negative example entity. For example, the identification model ME e when j maximum entropy model with regularization term is used as a, x = fD e j identification model ME e is j P | is substituted into (y x) P (1 | x ) And P (−1 | x), and by comparing an index (such as reliability) corresponding to them with a threshold value, the target entity RD e j is identified as a positive example entity or a negative example entity.

ここで、対象エンティティが正例エンティティであると識別された場合、エンティティ識別部16は、対象エンティティRDe jを新たな正例エンティティRPe jとして記憶部11eに格納する。一方、対象エンティティが負例エンティティであると識別された場合、エンティティ識別部16は、対象エンティティRDe jを新たな負例エンティティRNe jして記憶部11eに格納する。 If the target entity is identified as a positive entity, the entity identifying unit 16 stores the target entity RD e j as a new positive entity RP e j in the storage unit 11e. On the other hand, when the target entity is identified as a negative example entity, the entity identification unit 16 stores the target entity RD e j as a new negative example entity RN e j in the storage unit 11e.

《収束判定:ステップS17−S19》
収束判定部17は、収束条件を満たしたかを判定する。以下に収束条件を例示する。
[収束条件の例]
収束条件の例1:この例の収束判定部17は、正例エンティティRPe jに新たに割り当てられる対象エンティティRDe jが存在しない場合に、収束条件を満たしたと判断する。
収束条件の例2:この例の収束判定部17は、ステップS13からS17のイテレーションを基準回数以上繰り返しても新たに割り当てられる対象エンティティRDe j-1が存在しない場合に、収束条件を満たしたと判断する。
収束条件の例3:この例の収束判定部17は、jの値が基準値以上となった場合に収束条件を満たしたと判断する([収束条件の例]の説明終わり/ステップS17)。
収束判定部17が収束条件を満たしたと判断した場合、ステップS13からS17のイテレーションが終了し、出力部18が記憶部11eに格納されているすべての正例エンティティRPj eを出力して処理を終了する(ステップS19)。それ以外の場合は、制御部19がj+1を新たなjの値とし(ステップS18)、記憶部11eに格納されている正例エンティティRPj e 及び負例エンティティRNj e を素性抽出部13に入力し、ステップS13からS16のイテレーションが実行される。
<< Convergence determination: steps S17 to S19 >>
The convergence determination unit 17 determines whether the convergence condition is satisfied. Examples of convergence conditions are given below.
[Example of convergence condition]
Example of convergence condition 1: The convergence determination unit 17 of this example determines that the convergence condition is satisfied when there is no target entity RD e j newly assigned to the positive example entity RP e j .
Convergence condition example 2: The convergence determination unit 17 in this example satisfies the convergence condition when there is no newly allocated target entity RD e j-1 even if the iterations of steps S13 to S17 are repeated more than the reference number of times. to decide.
Example 3 of convergence condition: The convergence determination unit 17 in this example determines that the convergence condition is satisfied when the value of j is equal to or greater than the reference value (end of explanation of [example of convergence condition] / step S17).
When the convergence determination unit 17 determines that the convergence condition is satisfied, the iterations from step S13 to S17 are completed, and the output unit 18 outputs all the positive example entities RP j e stored in the storage unit 11e for processing. The process ends (step S19). Otherwise, the control unit 19 sets j + 1 as a new value of j (step S18), and the positive example entity RP j e and the negative example entity RN j e stored in the storage unit 11e are used as a feature extraction unit. 13 and the iterations of steps S13 to S16 are executed.

<識別事例>
第1実施形態における具体的な識別事例を例示する。
この例では2つのトピックの候補に対応するトピックモデルTM0を用いる。具体的には「球団名」と「企業名」とがトピックの候補とされたトピックモデルTM0を用いる。また、正例シードエンティティが<広島>であり、負例シードエンティティが<毎日新聞>であり、ユーザは球団名についてのエンティティのセットを要求していると仮定する。
また、トピックモデルTM0を用いて計算された、正例シードエンティティ<広島>を含むテキストデータd1に対するトピック「球団名」の事後確率がp(球団名|d1)=0.9であり、当該テキストデータd1に対するトピック「企業名」の事後確率がp(企業名|d1)=0.1であったとする。一方、負例シードエンティティ<毎日新聞>を含むテキストデータd2に対するトピック「球団名」の事後確率がp(球団名|d2)=0.1であり、当該テキストデータd2に対するトピック「企業名」の事後確率がp(企業名|d2)=0.9であったとする。ここで前述の「トピック情報の例1(N=2)」のようにトピック情報が定められていたとすると、テキストデータd1に対するトピック情報は((球団名,0.9), (企業名,0.1))となり、テキストデータd2に対するトピック情報は((球団名,0.1), (企業名,0.9))となる(ステップS12)。
<Identification examples>
The specific identification example in 1st Embodiment is illustrated.
In this example using the topic models TM 0 corresponding to the candidate of the two topics. Specifically, a topic model TM 0 in which “Team name” and “Company name” are topic candidates is used. Also assume that the positive seed entity is <Hiroshima>, the negative seed entity is <Mainichi Newspaper>, and the user is requesting a set of entities for the team name.
Further, the posterior probability of the topic “team name” for the text data d 1 including the positive seed entity <Hiroshima>, calculated using the topic model TM 0 , is p (team name | d 1 ) = 0.9, and Assume that the posterior probability of the topic “company name” for the text data d 1 is p (company name | d 1 ) = 0.1. On the other hand, the posterior probability of the topic “Team Name” for the text data d 2 including the negative seed entity <Mainichi Shimbun> is p (Team name | d 2 ) = 0.1, and the topic “Company Name” for the text data d 2 Is the posterior probability of p (company name | d 2 ) = 0.9. Here, when the topic information as described above, "Example topic information 1 (N = 2)" was established, topic information for the text data d 1 is ((team name, 0.9), (company name, 0.1) ), and the topic information for the text data d 2 ((team name, 0.1), and (company name, 0.9)) (step S12).

この例ではステップS13の素性抽出が行われず、トピック情報のみが素性として用いられたとする。その場合、正例シードエンティティ<広島>の素性は((球団名,0.9), (企業名,0.1))となり、負例シードエンティティ<毎日新聞>の素性は((球団名,0.1), (企業名,0.9))となる。よって、学習データは
(((球団名,0.9), (企業名,0.1)), <+1>)
(((球団名,0.1), (企業名,0.9)), <-1>)
となる(ステップS14)。
このような学習データを元に識別モデルを学習する(ステップS15)。学習の結果、「球団名」に対して正例側の重みが大きく、「企業名」に対して正例側の重みの小さな識別モデルが得られるであろう。
In this example, it is assumed that the feature extraction in step S13 is not performed and only topic information is used as a feature. In this case, the identity of the positive seed entity <Hiroshima> is ((Team name, 0.9), (Company name, 0.1)), and the identity of the negative seed entity <Mainichi Shimbun> is ((Team name, 0.1), ( Company name, 0.9)). Therefore, the learning data is
(((Team name, 0.9), (Company name, 0.1)), <+1>)
(((Team name, 0.1), (Company name, 0.9)), <-1>)
(Step S14).
An identification model is learned based on such learning data (step S15). As a result of the learning, an identification model having a large weight on the positive side with respect to “Team name” and a small weight on the positive side with respect to “Company name” will be obtained.

次に、シードエンティティに含まれない対象エンティティ<阪神>が入力されたとする。ここで、上記と同様に計算された、対象エンティティ<阪神>を含むテキストデータd3に対するトピック「球団名」の事後確率がp(球団名|d1)=0.8であり、当該テキストデータd3に対するトピック「企業名」の事後確率がp(企業名|d1)=0.2であったとする。その場合、対象エンティティ<阪神>の素性は((球団名,0.8), (企業名,0.2))となる。この素性((球団名,0.8), (企業名,0.2))を上記の識別モデルに識別させてみると、その結果から素性((球団名,0.8), (企業名,0.2))は正例エンティティに対応すると判断できる(ステップS16)。 Next, it is assumed that the target entity <Hanshin> not included in the seed entity is input. Here, the posterior probability of the topic “team name” for the text data d 3 including the target entity <Hanshin>, calculated in the same manner as described above, is p (ball team name | d 1 ) = 0.8, and the text data d 3 The posterior probability of the topic “company name” for p is (company name | d 1 ) = 0.2. In this case, the identity of the target entity <Hanshin> is ((Team name, 0.8), (Company name, 0.2)). When this feature ((Team name, 0.8), (Company name, 0.2)) is identified by the above identification model, the result ((Team name, 0.8), (Company name, 0.2)) is correct. It can be determined that it corresponds to the example entity (step S16).

このようにトピック情報を素性の少なくとも一部として用いることで、ユーザの要求を表した正例シードエンティティ及び負例シードエンティティに沿った識別が適切に行われ、セマンティックドリフトを抑えたエンティティの抽出が可能となる。これがトピック情報を用いるメリットである。特にset expansionでは表した正例シードエンティティの数が少ない場合が多く、利用できる情報が非常に限られるため、周辺文脈だけを素性としたのではデータが疎となり、識別精度が低下する場合が多い。トピック情報は、このように利用可能なデータの少ない場面での識別において有効な素性として作用する。   By using topic information as at least part of the feature in this way, identification along the positive seed entity and negative seed entity representing the user's request is performed appropriately, and the extraction of the entity with suppressed semantic drift can be performed. It becomes possible. This is an advantage of using topic information. In particular, in the case of set expansion, the number of positive seed entities represented is often small, and the information that can be used is very limited. Therefore, if only the surrounding context is used as the feature, the data becomes sparse and the identification accuracy often decreases. . The topic information acts as an effective feature in identification in a scene where there is little data available in this way.

<第1実施形態の特徴>
以上のように、本形態の方法ではトピック情報を素性の少なくとも一部として用いたため、セマンティックドリフトを抑制することができる。また、本形態の方法はリソースであるテキストデータの種類によらず利用でき、適用範囲が広い。
<Features of First Embodiment>
As described above, since the topic information is used as at least part of the feature in the method of the present embodiment, the semantic drift can be suppressed. The method of this embodiment can be used regardless of the type of text data that is a resource, and has a wide range of applications.

〔第2実施形態〕
第2実施形態は第1実施形態の変形例であり、エンティティの属性を用いてセマンティックドリフトを抑制する。「属性」とは、エンティティの特徴を表すテキストデータ中の文字列である。このような文字列の例は、名詞、単語、単語列、フレーズ、文などである。属性の具体例はエンティティの前後W単語以内に存在する名詞である。なお、Wはウィンドウサイズを表す1以上の整数である。例えば「阪神の試合速報・・・」というテキストデータ中の<阪神>がエンティティであり、ウィンドウサイズをW=3とした場合、<試合>と<速報>がエンティティ<阪神>の属性の候補とされる。
[Second Embodiment]
The second embodiment is a modification of the first embodiment, and suppresses the semantic drift using the attribute of the entity. An “attribute” is a character string in text data that represents the characteristics of an entity. Examples of such character strings are nouns, words, word strings, phrases, sentences, and the like. A specific example of the attribute is a noun existing within W words before and after the entity. W is an integer greater than or equal to 1 representing the window size. For example, if <Hanshin> in the text data "Hanshin game breaking news ..." is an entity and the window size is set to W = 3, <match> and <breaking news> are attribute candidates for the entity <Hanshin>. Is done.

互いに関連のある複数のエンティティには同一の属性が対応する。例えば、球団名であるエンティティ<広島>と同じく球団名であるエンティティ<ヤクルト>とは、同じ<試合>や<投手>などの属性が対応する。そのため、属性は探索対象となるエンティティが満たすべき制約条件となる。このことを利用し、第2実施形態では、エンティティとその属性との組を用いてエンティティの識別を行う。例えば、正例シードエンティティを球団名である<広島>とし、同じく球団名である<ヤクルト>というエンティティを獲得することを狙っていると仮定する。この場合、これらのエンティティに共通する属性は<試合>や<投手>などであり、例えば、正例シードエンティティ<広島>とその属性<試合>との組を用いてエンティティの識別が行われる。ここで、球団名である<ヤクルト>は正例エンティティであるが、<ヤクルト>には飲料名としての意味もある(例えば、図5AのT5)。よって<ヤクルト>はセマンティックドリフトが起こりやすいエンティティである。しかしながら、飲料名であるエンティティ<ヤクルト>の属性は<試合>や<投手>などではなく<乳酸菌>や<飲料>などである。本形態では、エンティティとその属性との組を用いることでエンティティがどのような意味を指すかを特定でき、セマンティックドリフトを軽減できる。
以下では第1実施形態の相違点を中心に説明し、第1実施形態と共通する事項については説明を省略する。また、第1実施形態と共通する部分については第1実施形態と同じ参照番号を用いる。
The same attribute corresponds to a plurality of entities related to each other. For example, the entity <Yakult> having the same team name as the entity <Hiroshima> having the team name corresponds to the same attributes such as <match> and <pitcher>. For this reason, the attribute is a constraint condition to be satisfied by the entity to be searched. Using this fact, in the second embodiment, an entity is identified using a set of an entity and its attribute. For example, suppose that the positive seed entity is <Hiroshima>, which is a team name, and that it aims to acquire an entity, <Yakult>, which is also a team name. In this case, attributes common to these entities are <match>, <pitcher>, and the like. For example, the entity is identified using a pair of a positive seed entity <Hiroshima> and its attribute <match>. Here, <Yakult> which is a team name is a positive entity, but <Yakult> also has a meaning as a beverage name (for example, T5 in FIG. 5A). Therefore, <Yakult> is an entity that is prone to semantic drift. However, the attribute of the entity <Yakult>, which is the beverage name, is not <Game> or <Pitcher> but <Lactic acid bacteria> or <Beverage>. In this embodiment, by using a set of an entity and its attribute, it is possible to specify what the entity means and to reduce semantic drift.
Below, it demonstrates centering around the difference of 1st Embodiment, and abbreviate | omits description about the matter which is common in 1st Embodiment. Further, the same reference numerals as those in the first embodiment are used for portions common to the first embodiment.

<構成>
図6は、第2実施形態のデータ抽出装置2の機能構成を例示するためのブロック図である。
図6に例示するように、データ抽出装置2は、記憶部11a,11d,11e,21d,21e、初期属性集合生成部22、属性識別用素性抽出部23a、エンティティ識別用素性抽出部23b、属性識別学習部25a、エンティティ識別学習部25b、属性識別部26a、エンティティ識別部26b、収束判定部17、出力部18、及び制御部19を有し、制御部19の制御のもと各処理を実行する。
なお、データ抽出装置2は、例えば、公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。例えば、記憶部11a,11d,11e,21d,21eは、ハードディスクや半導体メモリなどであり、初期属性集合生成部22、属性識別用素性抽出部23a、エンティティ識別用素性抽出部23b、属性識別学習部25a、エンティティ識別学習部25b、属性識別部26a、エンティティ識別部26b、収束判定部17、出力部18、及び制御部19は、特別なプログラムが読み込まれたCPUなどである。また、これらの少なくとも一部が集積回路などによって構成されてもよい。
<Configuration>
FIG. 6 is a block diagram for illustrating a functional configuration of the data extraction device 2 of the second embodiment.
As illustrated in FIG. 6, the data extraction device 2 includes storage units 11a, 11d, 11e, 21d, and 21e, an initial attribute set generation unit 22, an attribute identification feature extraction unit 23a, an entity identification feature extraction unit 23b, an attribute It has an identification learning unit 25a, an entity identification learning unit 25b, an attribute identification unit 26a, an entity identification unit 26b, a convergence determination unit 17, an output unit 18, and a control unit 19, and executes each process under the control of the control unit 19 To do.
Note that the data extraction device 2 is a special device configured by, for example, reading a special program into a known or dedicated computer. For example, the storage units 11a, 11d, 11e, 21d, and 21e are hard disks, semiconductor memories, and the like, and include an initial attribute set generation unit 22, an attribute identification feature extraction unit 23a, an entity identification feature extraction unit 23b, and an attribute identification learning unit. 25a, the entity identification learning unit 25b, the attribute identification unit 26a, the entity identification unit 26b, the convergence determination unit 17, the output unit 18, and the control unit 19 are a CPU or the like in which a special program is read. Further, at least a part of these may be configured by an integrated circuit or the like.

<事前処理>
事前処理として、記憶部11aにテキストデータの集合Dが格納される。テキストデータの集合Dは第1実施形態と同様である。
<Pre-processing>
As pre-processing, a set D of text data is stored in the storage unit 11a. The text data set D is the same as in the first embodiment.

<データ抽出処理>
図7は、第2実施形態のデータ抽出装置2のデータ抽出処理を例示するための図である。本形態では、エンティティと属性の更新を交互に行うco-training方式を用いる。すなわち、ステップS22−S24では正例及び負例エンティティの更新は行われず、正例及び負例属性の更新のみが行われる。一方ステップS25−S27では正例及び負例属性の更新は行われず、正例及び負例エンティティの更新のみが行われる。以下、図7を用いてデータ抽出装置2のデータ抽出処理を例示する。
<Data extraction process>
FIG. 7 is a diagram for illustrating a data extraction process of the data extraction device 2 of the second embodiment. In this embodiment, a co-training method that alternately updates entities and attributes is used. That is, in steps S22 to S24, the positive example and negative example entities are not updated, and only the positive example and negative example attributes are updated. On the other hand, in steps S25-S27, the positive and negative example attributes are not updated, and only the positive and negative example entities are updated. Hereinafter, the data extraction processing of the data extraction device 2 will be illustrated with reference to FIG.

《初期化:ステップS11》
制御部19がjの値をj=1に初期化する。
《初期属性集合生成:ステップS21》
正例シードエンティティRPe 0と負例シードエンティティRNe 0とが初期属性集合生成部22に入力される。例えば、正例シードエンティティとしてRPe 0=<広島>、負例シードエンティティとしてRNe 0=<日本>が入力される。正例シードエンティティRPe 0は、ユーザによって選択されたものである。負例シードエンティティRNe 0は、ユーザによって選択されたものであってもよいし、テキストデータの集合Dから半自動で生成されたものであってもよい。以下に負例シードエンティティRNe 0を半自動で生成する方法を例示する。
<< Initialization: Step S11 >>
The control unit 19 initializes the value of j to j = 1.
<< Initial attribute set generation: Step S21 >>
The positive example seed entity RP e 0 and the negative example seed entity RN e 0 are input to the initial attribute set generation unit 22. For example, RP e 0 = <Hiroshima> is input as a positive example seed entity, and RN e 0 = <Japan> is input as a negative example seed entity. The positive seed entity RP e 0 has been selected by the user. The negative example seed entity RN e 0 may be selected by the user, or may be generated semi-automatically from the text data set D. A method for generating the negative seed entity RN e 0 semi-automatically will be illustrated below.

[負例シードエンティティRNe 0の半自動生成方法の例]
負例シードエンティティ生成部(図示せず)が、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も後述する正例属性RPa 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから1つずつランダムに名詞を選択し、それらを負例エンティティ候補として出力する。表示部(図示せず)はこれらの負例エンティティ候補を表示し、これらから負例シードエンティティを選択するようにユーザに促す表示を行う。ユーザによる選択内容は負例シードエンティティ生成部に入力され、負例シードエンティティ生成部は、選択された負例エンティティ候補を正例シードエンティティRPe 0として出力する([負例シードエンティティRNe 0の半自動生成方法の例]の説明終わり)。
初期属性集合生成部22は、入力された正例シードエンティティRPe 0と負例シードエンティティRNe 0と記憶部11aに格納されたテキストデータの集合Dとを用い、正例シードエンティティRPe 0の属性を表す文字列である正例属性RPa 0の集合と、負例シードエンティティRNe 0の属性を表す文字列である負例属性RNa 0の集合とを生成する。
[Example of semi-automatic generation of negative example seed entity RN e 0 ]
A negative example seed entity generation unit (not shown) extracts and extracts a predetermined number of text data that does not contain any positive example seed entity RP e 0 or a positive example attribute RP a 0 described later from the text data set D. The nouns are selected at random from each of the text data and are output as negative example entity candidates. A display unit (not shown) displays these negative example entity candidates, and performs a display prompting the user to select a negative example seed entity from them. The selection by the user is input to the negative example seed entity generation unit, and the negative example seed entity generation unit outputs the selected negative example entity candidate as the positive example seed entity RP e 0 ([negative example seed entity RN e 0 End of description of semi-automatic generation method example].
The initial attribute set generation unit 22 uses the input positive example seed entity RP e 0 , the negative example seed entity RN e 0, and the text data set D stored in the storage unit 11a, and uses the positive example seed entity RP e 0. A set of positive example attributes RP a 0 that are character strings representing the attributes of the negative example attribute and a set of negative example attributes RN a 0 that are character strings representing the attributes of the negative example seed entity RN e 0 are generated.

(A)まず初期属性集合生成部22が、正例シードエンティティRPe 0を含むテキストデータの集合から当該正例エンティティRPe 0以外の何れかの文字列を正例属性候補として選択する。例えば、初期属性集合生成部22は、記憶部11aから正例シードエンティティRPe 0を含む正例テキストを所定数取得し、各正例テキストにおいて正例シードエンティティRPe 0と直接又は1文節を挟む係り受け関係にある単語のみを正例属性候補として抽出する。 (A) First, the initial attribute set generation unit 22 selects any character string other than the positive example entity RP e 0 as a positive example attribute candidate from a set of text data including the positive example seed entity RP e 0 . For example, the initial attribute set generation unit 22 obtains a predetermined number of positive example texts including the positive example seed entity RP e 0 from the storage unit 11a, and directly or one phrase with the positive example seed entity RP e 0 in each positive example text. Only words that are in the relationship of being held are extracted as positive example attribute candidates.

(B)次に初期属性集合生成部22は、正例シードエンティティRPe 0を含む文字列の集合内に当該正例属性候補が含まれる頻度とすべてのテキストデータからなる集合D内に当該正例属性候補が含まれる頻度との違いの大きさを表す指標(統計量)を求め、当該指標が大きいものから所定数の正例属性候補、つまり、これらの頻度の違いが大きい当該正例属性候補を正例属性RPa 0(正例属性の初期値)とする。これらの頻度の違いが大きい正例属性候補ほど正例シードエンティティRPe 0との関連が強く、正例シードエンティティRPe 0の正例属性RPa 0にふさわしいといえる。以下にこのような指標を例示するが、その他の統計量を用いてもかまわない。 (B) Next, the initial attribute set generation unit 22 sets the correct attribute in the set D including all the text data and the frequency that the correct attribute candidate is included in the set of character strings including the correct example seed entity RP e 0. An index (statistic) indicating the magnitude of the difference from the frequency of including example attribute candidates is obtained, and a predetermined number of positive example attribute candidates from the one with the large index, that is, the positive example attribute having a large difference in frequency. Let the candidate be the positive example attribute RP a 0 (initial value of the positive example attribute). As there is a large difference between the positive example attribute candidates of these frequencies positive examples seed entity RP e 0 and related strongly, deserves its positive example attribute RP a 0 of the positive sample seed entity RP e 0. Examples of such indices are given below, but other statistics may be used.

[指標の例]
指標の例1:
指標の例1では、以下のχ2値を指標として用いる。

Figure 0005542732
Figure 0005542732
χ2値が高い正例属性候補αほど、正例シードエンティティRPe 0と関係の深い、即ち属性としてふさわしいといえる。よって、この例の初期属性集合生成部22は、χ2値が高い正例属性候補αを正例属性RPa 0として抽出する。例えば、χ2値が基準値以上となる正例属性候補αを正例属性RPa 0とする。 [Example of metrics]
Indicator example 1:
In index example 1, the following χ 2 values are used as indices.
Figure 0005542732
Figure 0005542732
It can be said that the positive example attribute candidate α having a higher χ 2 value is more closely related to the positive example seed entity RP e 0 , that is, suitable as an attribute. Therefore, the initial attribute set generation unit 22 of this example extracts the positive example attribute candidate α having a high χ 2 value as the positive example attribute RP a 0 . For example, a positive example attribute candidate α whose χ 2 value is greater than or equal to a reference value is set as a positive example attribute RP a 0 .

指標の例2:
指標の例2では、正例シードエンティティRPe 0と正例属性候補αとの2項における以下のPMIを指標として用いる。

Figure 0005542732
ここで|RPe 0, α|は正例シードエンティティRPe 0の集合と正例属性候補αとの組の出現頻度を表す。また、*はRPe 0又はαのワイルドカードを表す。
PMI値が大きい正例属性候補αほど、正例シードエンティティRPe 0と関係の深い、即ち属性としてふさわしいといえる。よって、この例の初期属性集合生成部22は、PMI値が大きな正例属性候補αを正例属性RPa 0として抽出する。例えば、PMI値が基準値以上となる正例属性候補αを正例属性RPa 0とする([指標の例]の説明終わり)。 Indicator example 2:
In the index example 2, the following PMIs in the two terms of the positive example seed entity RP e 0 and the positive example attribute candidate α are used as the index.
Figure 0005542732
Here, | RP e 0 , α | represents the appearance frequency of a set of a set of positive example seed entities RP e 0 and a positive example attribute candidate α. * Represents an RP e 0 or α wild card.
It can be said that the positive example attribute candidate α having a larger PMI value is more closely related to the positive example seed entity RP e 0 , that is, suitable as an attribute. Therefore, the initial attribute set generation unit 22 in this example extracts the positive example attribute candidate α having a large PMI value as the positive example attribute RP a 0 . For example, a positive example attribute candidate α having a PMI value equal to or higher than a reference value is set as a positive example attribute RP a 0 (end of description of [index example]).

この方法では、まず(A)で構文情報を用いて正例属性候補を粗く絞り込むため、(B)での計算時間を大幅に削減することができる。また、上記(A),(B)により正例属性RPa 0(正例属性の初期値)を抽出した後、適切な属性が選択されているか否かを人手によりチェックし、最終的な正例属性RPa 0を決定してもよい。 In this method, first, the correct attribute candidate is roughly narrowed down using the syntax information in (A), so that the calculation time in (B) can be greatly reduced. Further, after extracting the positive example attribute RP a 0 (initial value of the positive example attribute) by the above (A) and (B), it is manually checked whether or not an appropriate attribute is selected, and the final positive attribute is selected. The example attribute RP a 0 may be determined.

初期属性集合生成部22は、負例シードエンティティRNe 0についても同様の処理を行い、負例属性RNa 0を抽出する。すなわち、初期属性集合生成部22は、負例シードエンティティRNe 0を含むテキストデータの集合から当該負例シードエンティティRNe 0以外の何れかの文字列を負例属性候補として選択し、負例シードエンティティRNe 0を含む文字列の集合内に当該負例属性候補が含まれる頻度とすべてのテキストデータからなる集合D内に当該負例属性候補が含まれる頻度との違いの大きさを表す指標が条件を満たす負例属性候補、つまり、これらの頻度の違いが大きな当該負例属性候補を負例属性RNa 0(負例属性の初期値)とする。 Initial attribute set generation unit 22 performs the same processing for the negative sample seed entity RN e 0, extracting a negative sample attribute RN a 0. That is, the initial attribute set generation unit 22 selects one of the strings from the set of text data other than the negative examples seed entity RN e 0 containing a negative example seed entity RN e 0 as a negative example attribute candidate, a negative sample This represents the magnitude of the difference between the frequency that the negative example attribute candidate is included in the set of character strings including the seed entity RN e 0 and the frequency that the negative example attribute candidate is included in the set D consisting of all text data. The negative example attribute candidate that satisfies the index, that is, the negative example attribute candidate having a large difference in frequency is set as a negative example attribute RN a 0 (initial value of the negative example attribute).

また、上述した方法の代わりに、初期属性集合生成部22が、負例シードエンティティRNe 0とそれに対応する負例属性RNa 0とを半自動で選択してもよい。例えば、初期属性集合生成部22は、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も正例属性RPa 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから2つずつランダムに名詞を選択し、一方を負例エンティティ候補、他方を負例属性候補として出力する。表示部(図示せず)はこれらを表示し、これらから負例シードエンティティRNe 0とそれに対応する負例属性RNa 0とを選択するようにユーザに促す表示を行う。ユーザによる選択内容は初期属性集合生成部22に入力され、初期属性集合生成部22は選択された負例シードエンティティRNe 0及び負例属性RNa 0の集合を出力する。 Instead of the method described above, the initial attribute set generation unit 22 may select the negative example seed entity RN e 0 and the negative example attribute RN a 0 corresponding thereto semi-automatically. For example, the initial attribute set generation unit 22 extracts a predetermined number of text data that does not include any positive example seed entity RP e 0 or positive example attribute RP a 0 from the text data set D, and extracts each text data from the extracted text data Two nouns are selected at random, and one is output as a negative example entity candidate and the other as a negative example attribute candidate. A display unit (not shown) displays these and displays to prompt the user to select a negative example seed entity RN e 0 and a corresponding negative example attribute RN a 0 from these. The content selected by the user is input to the initial attribute set generation unit 22, and the initial attribute set generation unit 22 outputs a set of the selected negative example seed entity RN e 0 and negative example attribute RN a 0 .

初期属性集合生成部22は、正例シードエンティティRPe 0の集合、負例シードエンティティRNe 0の集合、抽出した正例属性RPa 0の集合、及び負例属性RNa 0の集合を出力する。例えば、初期属性集合生成部22は、図4のテキストデータの中から、正例シードエンティティRPe 0を含むテキストとしてT1,T2,T10に対応するものを取得し、上記の処理によってT1,T2に対応するテキストが含む正例属性RPa 0の集合{<VS>,<第1戦>,<投手>}を抽出して出力する。同様に初期属性集合生成部22は、例えば、負例シードエンティティRNe 0を含むテキストとしてT7に対応するものを取得し、負例属性RNa 0の集合R{<人口>}を抽出して出力する。 The initial attribute set generation unit 22 outputs a set of positive example seed entities RP e 0, a set of negative example seed entities RN e 0, a set of extracted positive example attributes RP a 0 , and a set of negative example attributes RN a 0 To do. For example, the initial attribute set generation unit 22 acquires text corresponding to T1, T2, and T10 as text including the positive seed entity RP e 0 from the text data of FIG. 4, and T1, T2 by the above processing. A set {<VS>, <First game>, <Pitcher>} of positive example attributes RP a 0 included in the text corresponding to is extracted and output. Similarly, the initial attribute set generation unit 22 acquires, for example, a text corresponding to T7 as a text including the negative example seed entity RN e 0 , and extracts a set R {<population>} of the negative example attribute RN a 0. Output.

《属性識別用素性抽出:ステップS22》
正例エンティティRPe j-1の集合、負例エンティティRNe j-1の集合、正例属性RPa j-1の集合、及び負例属性RNa j-1の集合が、属性識別用素性抽出部23aに入力される。
属性識別用素性抽出部23aは、正例エンティティRPe j-1の集合から選択した第1正例エンティティと正例属性RPa j-1の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアPP1(RPe j-1,RPa j-1)と、負例エンティティRNe j-1の集合から選択した第1負例エンティティと負例属性RNa j-1の集合から選択した第1負例属性との組である第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)とを生成する。PP1(RPe j-1,RPa j-1)やPN1(RNe j-1,RNa j-1)は、RPe j-1とRPa j-1やRNe j-1とRNa j-1の採り得るすべての組み合わせについて生成されてもよいし、それらの一部の組み合わせのみについて生成されてもよい。
次に属性識別用素性抽出部23aは、記憶部11aに格納されたテキストデータの集合Dから、PP1(RPe j-1,RPa j-1)の正例エンティティRPe j-1と正例属性RPa j-1との組を含む文字列である「第1正例テキスト」を選択する。第1正例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第1正例テキストは、第1正例エンティティ−正例属性ペアPP1(RPe j-1,RPa j-1)とテキストデータとの組に対して1個以上抽出される。
属性識別用素性抽出部23aは、第1正例テキストに対する第1正例エンティティ−正例属性ペアPP1(RPe j-1,RPa j-1)の特徴を表す情報を当該第1正例エンティティ−正例属性ペアPP1(RPe j-1,RPa j-1)の素性fPa jとする。この例では、第1正例テキストごとにPP1(RPe j-1,RPa j-1)の素性fPa jが抽出される。PP1(RPe j-1,RPa j-1)の素性fPa jの例は、第1正例テキスト(正例エンティティRPe j-1及び正例属性RPa j-1を含む文字列であってテキストデータに含まれるもの)と当該第1正例エンティティRPe j-1及び第1正例属性RPa j-1との関係を表す情報である。
<< Attribute Identification Feature Extraction: Step S22 >>
A set of positive entity RP e j-1, a set of negative example entity RN e j-1, a set of positive example attributes RP a j-1 , and a set of negative example attributes RN a j-1 are attribute identification features. The data is input to the extraction unit 23a.
The attribute identifying feature extraction unit 23a is a set of a first positive example entity selected from the set of positive example entities RP e j-1 and a first positive example attribute selected from the set of positive example attributes RP a j-1. A first negative example entity and a positive example attribute selected from a set of a first positive example entity-positive example attribute pair PP 1 (RP e j-1 , RP a j-1 ) and a negative example entity RN e j-1 first negative example entity is a set of a first negative example selected attributes from the set of RN a j-1 - to produce a negative example attribute pair PN 1 (RN e j-1 , RN a j-1). PP 1 (RP e j-1 , RP a j-1 ) and PN 1 (RN e j-1 , RN a j-1 ) are RP e j-1 , RP a j-1 , RN e j-1 And RN a j-1 may be generated for all possible combinations, or only some of them may be generated.
Next, the attribute identifying feature extracting unit 23a determines the positive entity RP e j-1 of PP 1 (RP e j-1 , RP a j-1 ) from the text data set D stored in the storage unit 11a. The “first positive example text”, which is a character string including a pair with the positive example attribute RP a j−1 , is selected. Examples of the first positive example text are sentences, phrases, word strings, etc. included in the text data. One or more first example texts are extracted for a set of first example entity-example example attribute pair PP 1 (RP e j−1 , RP a j−1 ) and text data.
The attribute identifying feature extraction unit 23a uses the first positive example entity-positive example attribute pair PP 1 (RP e j-1 , RP a j-1 ) for the first positive example text as the first positive example information. The feature fP a j of the example entity-positive example attribute pair PP 1 (RP e j−1 , RP a j−1 ) is assumed. In this example, the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) is extracted for each first positive example text. An example of the feature fP a j of PP 1 (RP e j-1 , RP a j-1 ) is a character including the first example text (the example entity RP e j-1 and the example attribute RP a j-1) Information included in the text data) and the first positive example entity RP e j-1 and the first positive example attribute RP a j-1 .

例えば、何れかの正例エンティティRPe j-1及び正例属性RPa j-1を含むテキストデータ内における当該正例属性RPa j-1に一致する文字列(一致属性)から前後所定単語数以内(第1正例テキスト内)に位置する単語(周辺単語)の表記と当該一致属性に対する当該周辺単語の相対位置を表す情報との組(表層素性)、一致属性又は周辺単語の品詞情報(品詞素性)や固有名詞情報(固有名詞素性)や構文情報(構文素性)、テキストデータ内での一致属性の出現回数やテキストデータの集合D内での一致属性の出現回数(出現回数素性)のうち、少なくとも一つに対応する情報を素性fPa jとすることができる。この具体例は、正例属性を基準とする以外、第1実施形態の[正例エンティティRPe j-1の素性fP'e jの例]と同様である。例えば、正例エンティティRPe j-1がex=<阪神>であり、正例属性RPa j-1がey=<投手>であり、第1正例テキストが「阪神/は/投手/陣/が/好調」であるとすると、抽出される素性fPa jの例は以下のようになる。ここでは素性抽出の範囲をエンティティ及び属性の前後2単語以内と仮定している。
表層素性:「ex+1="は"」「ex+2=ey」「ey−2=ex」,「ey−1="は"」,「ey+1="陣"」,「ey+2="が"」
品詞素性:「ex+1=助詞」「ey−1=助詞」,「ey + 1=名詞」,「ey + 1=助詞」
固有名詞素性:「ex=ORG(組織名)」「ey−2=ORG(組織名)」
構文素性:「exの階層=eyの階層」(両方「好調」に係る)
For example, a predetermined word before and after a character string (matching attribute) that matches the positive example attribute RP a j-1 in text data including any positive example entity RP e j-1 and the positive example attribute RP a j-1 A pair (surface layer feature) of notation of words (neighboring words) located within a few (in the first example text) and information indicating the relative position of the neighboring words with respect to the matching attribute, part of speech information of matching attributes or surrounding words (Part of speech feature), proper noun information (proprietary noun feature), syntax information (syntactic feature), the number of appearances of matching attributes in text data, and the number of appearances of matching attributes in text data set D (appearance frequency feature) Among them, information corresponding to at least one of them can be set as a feature fP a j . This specific example is the same as [Example of feature fP ′ e j of positive example entity RP e j−1 ] of the first embodiment, except that the positive example attribute is used as a reference. For example, the positive example entity RP e j-1 is ex = <Hanshin>, the positive example attribute RP a j-1 is ey = <Pitcher>, and the first positive example text is “Hanshin / Ha / Pitcher / Team”. Assuming that “/ is good”, an example of the extracted feature fP a j is as follows. Here, it is assumed that the feature extraction range is within two words before and after the entity and attribute.
Surface features: "ex + 1 =" is """ex + 2 = ey""ey-2 = ex", "ey-1 =" is "", "ey + 1 =" camp "", "ey + 2 = "is""
Part-of-speech features: “ex + 1 = particle”, “ey−1 = particle”, “ey + 1 = noun”, “ey + 1 = particle”
Proper noun features: “ex = ORG (organization name)” “ey-2 = ORG (organization name)”
Syntactic feature: “ex hierarchy = ey hierarchy” (both related to “good”)

同様に、属性識別用素性抽出部23aは、記憶部11aに格納されたテキストデータの集合Dから、PN1(RNe j-1,RNa j-1)の負例エンティティRNe j-1と負例属性RNa j-1との組を含む文字列である「第1負例テキスト」を選択する。第1負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第1負例テキストは、第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)とテキストデータとの組に対して1個以上抽出される。
属性識別用素性抽出部23aは、第1負例テキストに対する第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)の特徴を表す情報を当該第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)の素性fNa jとする。この例では、第1負例テキストごとにPN1(RNe j-1,RNa j-1)の素性fNa jが抽出される。PN1(RNe j-1,RNa j-1)の素性fNa jの例は、第1負例テキスト(負例エンティティRNe j-1及び負例属性RNa j-1を含む文字列であってテキストデータに含まれるもの)と当該第1負例エンティティRNe j-1及び第1負例属性RNa j-1との関係を表す情報である。その具体例は、上述した正例に対応するPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。
Similarly, the attribute identifying feature extraction unit 23a extracts the negative example entity RN e j-1 of PN 1 (RN e j-1 , RN a j-1 ) from the text data set D stored in the storage unit 11a. And “first negative example text” which is a character string including a pair of the negative example attribute RN a j−1 . Examples of the first negative example text are sentences, phrases, word strings, and the like included in the text data. One or more first negative example texts are extracted for a set of first negative example entity-negative example attribute pair PN 1 (RN e j−1 , RN a j−1 ) and text data.
The attribute identifying feature extracting unit 23a uses the first negative example entity-negative example attribute pair PN 1 (RN e j−1 , RN a j−1 ) for the first negative example text as the first negative example. The feature fN a j of the example entity-negative example attribute pair PN 1 (RN e j−1 , RN a j−1 ) is assumed. In this example, the feature fN a j of PN 1 (RN e j−1 , RN a j−1 ) is extracted for each first negative example text. An example of a feature fN a j of PN 1 (RN e j-1 , RN a j-1 ) is a character including the first negative example text (negative example entity RN e j-1 and negative example attribute RN a j-1 Information included in the text data) and the first negative example entity RN e j-1 and the first negative example attribute RN a j-1 . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) corresponding to the positive example described above.

属性識別用素性抽出部23aは、PP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)を出力する。
図8Aは、属性識別用素性抽出部23aが出力する組(fPa j, <+1>)及び組(fNa j, <-1>)を例示した図である。この例では、エンティティ(ex)と属性(ey)の前後2単語の表記を素性としている。
The attribute identifying feature extraction unit 23a sets a pair (fP a j , <+1) of a feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) and a label <+1> representing a positive example. >) And a pair (fN a j , <-1>) of the feature fN a j of PN 1 (RN e j-1 , RN a j-1 ) and the label <-1> representing a negative example To do.
FIG. 8A is a diagram illustrating a pair (fP a j , <+1>) and a pair (fN a j , <−1>) output by the attribute identifying feature extraction unit 23a. In this example, the notation of two words before and after the entity (ex) and the attribute (ey) is used as a feature.

《属性識別学習:ステップS23》
PP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)が属性識別学習部25aに入力される。属性識別学習部25aは、PP1(RPe j-1,RPa j-1)の素性fPa jとPN1(RNe j-1,RNa j-1)の素性fNa jとを教師あり学習データとした学習処理によって、第1識別モデルMEa jを生成する。この第1識別モデルMEa jは、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である。このような識別モデルMEe jであればどのようなモデルであってもよい。例えば、前述の識別モデルMEe jと同様に第1識別モデルMEa jを生成すればよい。
学習処理によって生成された第1識別モデルMEa jは記憶部21dに格納される。例えば、学習処理によって生成された第1識別モデルMEa jのパラメータが記憶部21dに格納される。
<< Attribute Identification Learning: Step S23 >>
A pair (fP a j , <+1>) of a feature fP a j of PP 1 (RP e j-1 , RP a j-1 ) and a label <+1> representing a positive example, and PN 1 (RN A pair (fN a j , <-1>) of a feature fN a j of e j−1 , RN a j−1 ) and a label <−1> representing a negative example is input to the attribute identification learning unit 25a. The attribute identification learning unit 25a uses the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) and the feature fN a j of PN 1 (RN e j−1 , RN a j−1 ). A first identification model ME a j is generated by learning processing using supervised learning data. The first identification model ME a j is input with the feature of an entity-attribute pair that is a set of an entity that is an arbitrary character string and an attribute of the entity, and the pair is a positive entity-positive example attribute pair or a negative example. This is a function for outputting information for identifying an entity-negative example attribute pair. Any model may be used as long as it is such an identification model ME e j . For example, the first identification model ME a j may be generated in the same manner as the above-described identification model ME e j .
The first identification model ME a j generated by the learning process is stored in the storage unit 21d. For example, parameters of the first identification model ME a j generated by the learning processing is stored in the storage unit 21d.

《属性識別:ステップS24》
属性識別部26aは、記憶部11aに格納されたテキストデータの集合Dから何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティRDe jとして選択する。また属性識別部26aは、選択した当該テキストデータから当該第1対象エンティティRDe jと異なる文字列を第1対象属性RDa jとして選択する。そして属性識別部26aは、第1対象エンティティRDe jと第1対象属性RDa jとの組を第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)とする。
<< Attribute Identification: Step S24 >>
The attribute identification unit 26a selects any text data from the set D of text data stored in the storage unit 11a, and selects a character string included in the selected text data as the first target entity RD e j . The attribute identifying unit 26a selects a character string different from the first target entity RD e j from the selected text data as the first target attribute RD a j . Then, the attribute identifying unit 26a sets a pair of the first target entity RD e j and the first target attribute RD a j as the first target entity-target attribute pair PD 1 (RD e j , RD a j ).

なお、テキストデータの集合Dからすべてのテキストデータが選択されてもよいが、すべてのテキストデータを対象とすることは計算効率上好ましくない。そのため、特定の方法で対象を限定して選択を行うことが望ましい。以下にその具体例を示す。   Note that all text data may be selected from the text data set D, but it is not preferable in terms of computational efficiency to target all text data. For this reason, it is desirable to select a target by a specific method. Specific examples are shown below.

[選択方法の例]
第1条件:
属性識別部26aは、何れかの正例エンティティRPj-1 e又は負例エンティティRNj-1 eを含み、かつ当該エンティティRPj-1 e又RNj-1 eから任意のウィンドウサイズ内(ここでは3単語とする)に名詞を含むテキストデータを選択し、当該ウィンドウサイズ内の名詞を属性候補とする。
[Example of selection method]
First condition:
The attribute identifying unit 26a includes any positive example entity RP j-1 e or negative example entity RN j-1 e , and within an arbitrary window size from the entity RP j-1 e or RN j-1 e ( Here, text data including nouns is selected, and nouns within the window size are set as attribute candidates.

第2条件:
第1条件だけでは対象の数が膨大になる場合があるため、属性識別部26aは、属性識別学習部25aで教師あり学習データとして用いられたPP1(RPe j-1,RPa j-1)の素性fPa jとPN1(RNe j-1,RNa j-1)の素性fNa jのうち、それらから生成された第1識別モデルMEa jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該第1識別モデルMEa jへの影響度が大きな素性fPa j及び/又はfNa jを選択する。例えば、属性識別部26aは、前述の重みλqの絶対値が閾値よりも大きな素性fPa j及び/又はfNa jを選択する。
Second condition:
Since the number of objects may become enormous under the first condition alone, the attribute identification unit 26a uses the PP 1 (RP e j−1 , RP a j−) used as supervised learning data in the attribute identification learning unit 25a. of feature fP a j and PN 1 (RN e j-1 , RN a j-1) of a feature fN a j 1), first identification model ME magnitude of the degree of influence on a j generated from them feature that index representing (e.g. aforementioned weight lambda q) satisfies certain criteria, i.e., influence of the the first identification model ME a j selects a large feature fP a j and / or fN a j. For example, the attribute identifying unit 26a selects a feature fP a j and / or fN a j in which the absolute value of the weight λ q is larger than a threshold value.

属性識別部26aは、選択した素性fPa j及び/又はfNa jに対応する文字列を含むテキストデータを、第1条件で選択されたテキストデータの集合から選択する。属性識別部26aは、当該選択したテキストデータが含む文字列を第1対象エンティティRDe j及び第1対象属性RDa jとする。例えば、属性識別部26aは、選択した素性fPa j及び/又はfNa jから表層素性の単語を抽出し、当該表層素性の単語を含むテキストデータを第1条件で選択されたテキストデータの集合から選択し、当該選択したテキストデータが含む文字列を第1対象エンティティRDe j及び第1対象属性RDa jとする。 The attribute identifying unit 26a selects text data including a character string corresponding to the selected feature fP a j and / or fN a j from the set of text data selected under the first condition. The attribute identifying unit 26a sets the character string included in the selected text data as the first target entity RD e j and the first target attribute RD a j . For example, the attribute identifying unit 26a extracts a surface feature word from the selected feature fP a j and / or fN a j , and sets the text data including the surface feature word as a set of text data selected under the first condition. The character string included in the selected text data is set as the first target entity RD e j and the first target attribute RD a j .

一例を挙げると、選択された素性がエンティティexの前2単語が表層素性と品詞素性の組み合わせで成り立つ素性FNC(x−2=“POS:名詞”, x−1=“VS”)であった場合、属性識別部26aは、選択した素性FNC(x−2=“POS:名詞”, x−1=“VS”)から表層素性の単語“VS”を抽出し、第1条件で選択されたテキストデータの集合から、単語“VS”を含むテキストデータを選択する([選択方法の例]の説明終わり)。   For example, the selected feature was a feature FNC (x-2 = “POS: noun”, x−1 = “VS”) in which the two words before entity ex consisted of a combination of surface features and part-of-speech features. In this case, the attribute identification unit 26a extracts the surface feature word “VS” from the selected feature FNC (x−2 = “POS: noun”, x−1 = “VS”), and is selected under the first condition. Select text data including the word “VS” from the set of text data (end of description of [example of selection method]).

属性識別用素性抽出部23aは、記憶部11aに格納されたテキストデータの集合Dから、第1対象エンティティRDe jと第1対象属性RDa jとの組を含む文字列である「第1対象テキスト」を選択する。第1対象テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第1対象テキストは、第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)とテキストデータとの組に対して1個以上抽出される。 The attribute identifying feature extraction unit 23a is a character string that includes a set of the first target entity RD e j and the first target attribute RD a j from the text data set D stored in the storage unit 11a. Select Target text. Examples of the first target text are sentences, phrases, word strings, and the like included in the text data. One or more first target texts are extracted for a set of first target entity-target attribute pair PD 1 (RD e j , RD a j ) and text data.

属性識別用素性抽出部23aは、第1対象テキストに対する第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)の特徴を表す情報を当該第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)の素性fDa jとする。この例では、第1対象テキストごとにPD1(RDe j,RDa j)の素性fDa jが抽出される。PD1(RDe j,RDa j)の素性fDa jの例は、第1対象テキスト(第1対象エンティティRDe j及び第1対象属性RDa j-1を含む文字列であってテキストデータに含まれるもの)と第1対象エンティティRDe j及び第1対象属性RDa j-1との関係を表す情報である。その具体例は、上述した正例に対応するPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。 Attribute identification feature extracting unit 23a, the first target entity for a first target text - target attribute pair PD 1 (RD e j, RD a j) the first target entity information indicating features of the - target attribute pair PD 1 The feature fD a j of (RD e j , RD a j ) is assumed. In this example, the feature fD a j of PD 1 (RD e j , RD a j ) is extracted for each first target text. An example of the feature fD a j of PD 1 (RD e j , RD a j ) is a text including a first target text (a first target entity RD e j and a first target attribute RD a j−1). Information included in the data), the first target entity RD e j, and the first target attribute RD a j-1 . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) corresponding to the positive example described above.

第1対象テキストに対応するPD1(RDe j,RDa j)の素性fDa jは、属性識別部26aに入力される。属性識別部26aは、PD1(RDe j,RDa j)の素性fDa jを記憶部21dから読み出した第1識別モデルMEa jに入力し、PD1(RDe j,RDa j)が正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別する。
ここで、属性識別部26aは、PD1(RDe j,RDa j)を正例エンティティ−正例属性ペアであると識別した場合、当該PD1(RDe j,RDa j)の第1対象属性RDa jを正例属性RPa jとして記憶部21eに格納し、正例属性RPa jの集合に追加する。また、属性識別部26aは、PD1(RDe j,RDa j)が負例エンティティ−負例属性ペアであると識別した場合、当該PD1(RDe j,RDa j)の第1対象属性RDa jを負例属性RNa jとして記憶部21eに格納し、負例属性RNa jの集合に追加する。すなわち、ステップS22−S24では正例及び負例エンティティの更新は行われず、正例及び負例属性の更新のみが行われる。
The feature fD a j of PD 1 (RD e j , RD a j ) corresponding to the first target text is input to the attribute identifying unit 26a. The attribute identification unit 26a inputs the feature fD a j of PD 1 (RD e j , RD a j ) to the first identification model ME a j read from the storage unit 21d, and PD 1 (RD e j , RD a j ) Identifies a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair.
Here, when the attribute identifying unit 26a identifies PD 1 (RD e j , RD a j ) as a positive entity-positive example attribute pair, the attribute identifying unit 26a determines the first PD 1 (RD e j , RD a j ). 1 target attribute RD a j stored in the storage unit 21e as positive examples attribute RP a j, is added to the set of positive examples attribute RP a j. Further, when the attribute identifying unit 26a identifies that PD 1 (RD e j , RD a j ) is a negative entity-negative example attribute pair, the attribute identifying unit 26a determines the first PD 1 (RD e j , RD a j ). stored in the storage unit 21e target attribute RD a j as a negative example attribute RN a j, is added to the set of negative examples attribute RN a j. That is, in steps S22 to S24, the positive example and negative example entities are not updated, and only the positive example and negative example attributes are updated.

例えば、属性識別部26aが図4のテキストデータの集合Dから、T10のテキストデータを選択し、当該テキストデータが含む単語<広島>を第1対象エンティティRDe jとし、単語<戦>を第1対象属性RDa jとして選択したとする。この場合、属性識別用素性抽出部23aは、例えば、<広島>と<戦>との組を含むT10のテキストデータを第1対象テキストとし、T10のテキストデータに対するPD1(RDe j,RDa j)="<広島>−<戦>"の素性fDa jを抽出する。属性識別部26aは、PD1(RDe j,RDa j)="<広島>−<戦>"の素性fDa jを第1識別モデルMEa jに入力し、PD1(RDe j,RDa j)が正例エンティティ−正例属性ペアであるか負例エンティティ−負例属性ペアであるかが識別される。例えば、"<広島>−<戦>"が正例エンティティ−正例属性ペアであると識別したとすると、<戦>という属性が正例属性RPa jの集合に追加される。なお、正例又は負例と識別されたPD1(RDe j,RDa j)のうち、閾値を超える信頼度が付与されたものの第1対象属性RDa jのみを、正例属性RPa j又は負例属性RNa jの集合に追加してもよい。上述の例では{<VS>,<第1戦>,<投手>,<戦>}が正例属性RPj aの集合に追加される。 For example, the attribute identification unit 26a selects the text data of T10 from the text data set D in FIG. 4, the word <Hiroshima> included in the text data is set as the first target entity RD e j , and the word <war> is the first. It is assumed that one target attribute RD a j is selected. In this case, for example, the attribute identifying feature extraction unit 23a sets the text data of T10 including the set of <Hiroshima> and <war> as the first target text, and PD 1 (RD e j , RD for the text data of T10 a j ) The feature fD a j of “<Hiroshima> − <war>” is extracted. The attribute identification unit 26a inputs the feature fD a j of PD 1 (RD e j , RD a j ) = "<Hiroshima>-<war >> into the first identification model ME a j and PD 1 (RD e j , RD a j ) is identified as a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair. For example, if “<Hiroshima>-<Battle>” is identified as a positive entity-positive case attribute pair, an attribute <Battle> is added to the set of positive case attributes RP a j . Of the PDs 1 (RD e j , RD a j ) identified as positive examples or negative examples, only the first target attribute RD a j to which the reliability exceeding the threshold is given is used as the positive example attribute RP a. It may be added to the set of j or negative example attributes RN a j . In the above example {<VS>, <first leg>, <pitcher>, <War>} are added to the set of positive examples attribute RP j a.

《エンティティ識別用素性抽出:ステップS25》
正例エンティティRPe j-1の集合、負例エンティティRNe j-1の集合、上記のように更新された正例属性RPa jの集合及び負例属性RNa jの集合がエンティティ識別用素性抽出部23bに入力される。
エンティティ識別用素性抽出部23bは、正例エンティティRPe j-1の集合から選択した第2正例エンティティと正例属性RPa jの集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアPP2(RPe j-1,RPa j)と、負例エンティティRNe j-1の集合から選択した第2負例エンティティと負例属性RNa jの集合から選択した第2負例属性との組である第2負例エンティティ−負例属性ペアPN2(RNe j-1,RNa j)とを生成する。PP2(RPe j-1,RPa j)やPN2(RNe j-1,RNa j)は、RPe j-1とRPa jやRNe j-1とRNa jの採り得るすべての組み合わせについて生成されてもよいし、それらの一部の組み合わせのみについて生成されてもよい。
次にエンティティ識別用素性抽出部23bは、記憶部11aに格納されたテキストデータの集合Dから、PP2(RPe j-1,RPa j)の正例エンティティRPe j-1と正例属性RPa jとの組を含む文字列である「第2正例テキスト」を選択する。第2正例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第2正例テキストは、第2正例エンティティ−正例属性ペアPP2(RPe j-1,RPa j)とテキストデータとの組に対して1個以上抽出される。
エンティティ識別用素性抽出部23bは、第2正例テキストに対する第2正例エンティティ−正例属性ペアPP2(RPe j-1,RPa j)の特徴を表す情報を当該第2正例エンティティ−正例属性ペアPP2(RPe j-1,RPa j)の素性fPe jとする。この例では、第2正例テキストごとにPP2(RPe j-1,RPa j)の素性fPe jが抽出される。PP2(RPe j-1,RPa j)の素性fPe jの例は、第2正例テキスト(正例エンティティRPe j-1及び正例属性RPa jを含む文字列であってテキストデータに含まれるもの)と当該第2正例エンティティRPe j-1及び第2正例属性RPa jとの関係を表す情報である。その具体例は、前述(ステップS22)したPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。
<< Entity Identification Feature Extraction: Step S25 >>
The set of positive entity RP e j-1, the set of negative example entity RN e j-1 , the set of positive example attributes RP a j and the set of negative example attributes RN a j updated as described above are for entity identification. It is input to the feature extraction unit 23b.
The entity identifying feature extraction unit 23b is a set of a second positive example entity selected from the set of positive example entities RP e j-1 and a second positive example attribute selected from the set of positive example attributes RP a j . Two positive example entities—positive example attribute pair PP 2 (RP e j−1 , RP a j ) and a second negative example entity selected from the set of negative example entities RN e j−1 and negative example attribute RN a j A second negative example entity-negative example attribute pair PN 2 (RN e j−1 , RN a j ) that is a pair with the second negative example attribute selected from the set is generated. PP 2 (RP e j-1 , RP a j ) and PN 2 (RN e j-1 , RN a j ) are taken from RP e j-1 , RP a j , RN e j-1, and RN a j It may be generated for all possible combinations, or only some of those combinations.
Next, the entity identifying feature extraction unit 23b extracts the positive example entity RP e j-1 and the positive example of PP 2 (RP e j-1 , RP a j ) from the text data set D stored in the storage unit 11a. The “second positive example text” that is a character string including a pair with the attribute RP a j is selected. Examples of the second positive example text are sentences, phrases, word strings, and the like included in the text data. One or more second positive example texts are extracted for a set of the second positive example entity-positive example attribute pair PP 2 (RP e j−1 , RP a j ) and text data.
The entity identifying feature extraction unit 23b obtains information representing the characteristics of the second positive example entity-positive example attribute pair PP 2 (RP e j−1 , RP a j ) with respect to the second positive example text. A feature fP e j of the positive attribute pair PP 2 (RP e j−1 , RP a j ). In this example, the feature fP e j of PP 2 (RP e j−1 , RP a j ) is extracted for each second positive example text. An example of the feature fP e j of PP 2 (RP e j−1 , RP a j ) is a character string that includes the second positive example text (the positive example entity RP e j−1 and the positive example attribute RP a j). Information included in the text data) and the second positive example entity RP e j-1 and the second positive example attribute RP a j . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) described above (step S22).

同様に、エンティティ識別用素性抽出部23bは、記憶部11aに格納されたテキストデータの集合Dから、何れかの負例エンティティRNe j-1と負例属性RNa jとの組を含む文字列である「第2負例テキスト」を選択する。第2負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第2負例テキストは、第2負例エンティティ−負例属性ペアPN2(RNe j-1,RNa j)とテキストデータとの組に対して1個以上抽出される。
エンティティ識別用素性抽出部23bは、第2負例テキストに対する第2負例エンティティ−負例属性ペアPN2(RNe j-1,RNa j)の特徴を表す情報を当該第2負例エンティティ−負例属性ペアPN2(RNe j-1,RNa j)の素性fNe jとする。この例では、第2負例テキストごとにPN2(RNe j-1,RNa j)の素性fNe jが抽出される。PN2(RNe j-1,RNa j)の素性fNe jの例は、第2負例テキスト(負例エンティティRNe j-1及び負例属性RNa jを含む文字列であってテキストデータに含まれるもの)と当該第2負例エンティティRNe j-1及び第2負例属性RNa jとの関係を表す情報である。その具体例は、前述(ステップS22)したPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。
Similarly, the entity identifying feature extraction unit 23b reads from the text data set D stored in the storage unit 11a a character including a set of any negative example entity RN e j-1 and negative example attribute RN a j. Select the column "second negative example text". Examples of the second negative example text are sentences, phrases, word strings, and the like included in the text data. One or more second negative example texts are extracted for a pair of second negative example entity-negative example attribute pair PN 2 (RN e j−1 , RN a j ) and text data.
The entity identifying feature extraction unit 23b obtains information representing the characteristics of the second negative example entity-negative example attribute pair PN 2 (RN e j−1 , RN a j ) with respect to the second negative example text. A feature fN e j of the negative example attribute pair PN 2 (RN e j−1 , RN a j ). In this example, the feature fN e j of PN 2 (RN e j−1 , RN a j ) is extracted for each second negative example text. An example of a feature fN e j of PN 2 (RN e j−1 , RN a j ) is a character string including a second negative example text (negative example entity RN e j−1 and negative example attribute RN a j) Information included in the text data) and the second negative example entity RN e j-1 and the second negative example attribute RN a j . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) described above (step S22).

エンティティ識別用素性抽出部23bは、PP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)を出力する。 The entity identifying feature extraction unit 23b sets (fP e j , <+1>) a feature fP e j of PP 2 (RP e j−1 , RP a j ) and a label <+1> representing a positive example. And a pair (fN e j , <-1>) of a feature fN e j of PN 2 (RN e j−1 , RN a j ) and a label <−1> representing a negative example.

図8Bは、エンティティ識別用素性抽出部23bが出力する組(fPe j, <+1>)及び組(fNe j, <-1>)を例示した図である。この例では、エンティティ(ex)と属性(ey)の前後2単語の表記を素性としている。
《エンティティ識別学習:ステップS26》
PP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)がエンティティ識別学習部25bに入力される。エンティティ識別学習部25bは、PP2(RPe j-1,RPa j)の素性fPe jとPN2(RNe j-1,RNa j)の素性fNe jとを教師あり学習データとした学習処理によって、第2識別モデルMEe jを生成する。この2識別モデルMEe jは、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である。このような第2識別モデルMEe jであればどのようなモデルであってもよい。例えば、前述の識別モデルMEe jと同様に第2識別モデルMEe jを生成すればよい。
学習処理によって生成された第2識別モデルMEe jは記憶部11dに格納される。例えば、学習処理によって生成された第2識別モデルMEe jのパラメータが記憶部11dに格納される。
FIG. 8B is a diagram illustrating a pair (fP e j , <+1>) and a pair (fN e j , <-1>) output by the entity identifying feature extraction unit 23b. In this example, the notation of two words before and after the entity (ex) and the attribute (ey) is used as a feature.
<< Entity Identification Learning: Step S26 >>
A pair (fP e j , <+1>) of a feature fP e j of PP 2 (RP e j−1 , RP a j ) and a label <+1> representing a positive example, and PN 2 (RN e j −1 , RN a j ) of the feature fN e j and a negative example label <-1> (fN e j , <-1>) is input to the entity identification learning unit 25b. The entity identification learning unit 25b uses the feature fP e j of PP 2 (RP e j−1 , RP a j ) and the feature fN e j of PN 2 (RN e j−1 , RN a j ) as supervised learning data. Through the learning process described above, the second identification model ME e j is generated. This two-discriminating model ME e j receives the identity of an entity-attribute pair that is a set of an entity that is an arbitrary character string and an attribute of the entity, and the pair is a positive entity-positive attribute pair or a negative entity. A function that outputs information for identifying a negative example attribute pair. Any model may be used as long as it is such a second identification model ME e j . For example, the second identification model ME e j may be generated in the same manner as the above-described identification model ME e j .
Second identification model ME e j generated by the learning processing is stored in the storage unit 11d. For example, the parameters of the second identification model ME e j generated by the learning processing is stored in the storage unit 11d.

《エンティティ識別:ステップS27》
エンティティ識別部26bは、記憶部11aに格納されたテキストデータの集合Dから何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティRDe jとして選択する。またエンティティ識別部26bは、選択した当該テキストデータから当該第2対象エンティティRDe jと異なる文字列を第2対象属性RDa jとして選択する。そしてエンティティ識別部26bは、第2対象エンティティRDe jと第2対象属性RDa jとの組を第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)とする。
<< Entity Identification: Step S27 >>
Entity identification unit 26b selects one of the text data from the set D of text data stored in the storage unit 11a, selects a character string included in the text data selected as a second target entity RD e j. The entity identifying unit 26b selects a character string different from the second target entity RD e j from the selected text data as the second target attribute RD a j . Then, the entity identification unit 26b sets the pair of the second target entity RD e j and the second target attribute RD a j as the second target entity-target attribute pair PD 2 (RD e j , RD a j ).

なお、テキストデータの集合Dからすべてのテキストデータが選択されてもよいが、すべてのテキストデータを対象とすることは計算効率上好ましくない。そのため、特定の方法で対象を限定して選択を行うことが望ましい。以下にその具体例を示す。   Note that all text data may be selected from the text data set D, but it is not preferable in terms of computational efficiency to target all text data. For this reason, it is desirable to select a target by a specific method. Specific examples are shown below.

[選択方法の例]
第1条件:
エンティティ識別部26bは、何れかの正例属性RPj a又は負例属性RNj aを含み、かつ当該属性RPj a又RNj aから任意のウィンドウサイズ内(ここでは3単語とする)に名詞を含むテキストデータを抽出し、ウィンドウサイズ内の名詞をエンティティ候補とする。
[Example of selection method]
First condition:
Entity identification unit 26b includes one positive cases attribute RP j a and negative examples attribute RN j a, and to the attribute RP j a The RN j a from within any window size (here, 3 words) Text data including nouns is extracted, and nouns within the window size are used as entity candidates.

第2条件:
第1条件だけでは対象の数が膨大になる場合があるため、エンティティ識別部26bは、エンティティ識別学習部25bで教師あり学習データとして用いられたPP2(RPe j-1,RPa j)の素性fPe jとPN2(RNe j-1,RNa j)の素性fNe jのうち、それらから生成された第2識別モデルMEe jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該第2識別モデルMEe jへの影響度が大きな素性fPe j及び/又はfNe jを選択する。例えば、エンティティ識別部26bは、前述の重みλqの絶対値が閾値よりも大きな素性fPe j及び/又はfNe jを選択する。
Second condition:
Since the number of targets may become enormous under the first condition alone, the entity identification unit 26b uses PP 2 (RP e j−1 , RP a j ) used as supervised learning data in the entity identification learning unit 25b. Of the features fP e j and PN 2 (RN e j−1 , RN a j ) of the features fN e j of the, and an index indicating the degree of influence on the second identification model ME e j generated from them ( for example feature the aforementioned weight lambda q) satisfies certain criteria, i.e., influence of the to the second identification model ME e j selects a large feature fP e j and / or fN e j. For example, the entity identifying unit 26b selects a feature fP e j and / or fN e j in which the absolute value of the weight λ q is larger than a threshold value.

エンティティ識別部26bは、選択した素性fPe j及び/又はfNe jに対応する文字列を含むテキストデータを、第1条件で選択されたテキストデータの集合から選択する。エンティティ識別部26bは、当該選択したテキストデータが含む文字列を第2対象エンティティRDe j及び第2対象属性RDa jとする。例えば、エンティティ識別部26bは、選択した素性fPe j及び/又はfNe jから表層素性の単語を抽出し、当該表層素性の単語を含むテキストデータを第1条件で選択されたテキストデータの集合から選択する。([選択方法の例]の説明終わり)。 The entity identification unit 26b selects text data including a character string corresponding to the selected feature fP e j and / or fN e j from the set of text data selected under the first condition. The entity identifying unit 26b sets the character string included in the selected text data as the second target entity RD e j and the second target attribute RD a j . For example, the entity identification unit 26b extracts a surface feature word from the selected feature fP e j and / or fN e j , and sets text data including the surface feature word as a set of text data selected under the first condition. Select from. (End of description of [Example of selection method]).

エンティティ識別用素性抽出部23bは、記憶部11aに格納されたテキストデータの集合Dから、第2対象エンティティRDe jと第2対象属性RDa jとの組を含む文字列である「第2対象テキスト」を選択する。第2対象テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第2対象テキストは、第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)とテキストデータとの組に対して1個以上抽出される。 The entity identifying feature extraction unit 23b is a character string that includes a set of the second target entity RD e j and the second target attribute RD a j from the text data set D stored in the storage unit 11a. Select Target text. Examples of the second target text are sentences, phrases, word strings, and the like included in the text data. One or more second target texts are extracted for a set of the second target entity-target attribute pair PD 2 (RD e j , RD a j ) and text data.

エンティティ識別用素性抽出部23bは、第2対象テキストに対する第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)の特徴を表す情報を当該第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)の素性fDe jとする。この例では、第2対象テキストごとにPD2(RDe j,RDa j)の素性fDe jが抽出される。PD2(RDe j,RDa j)の素性fDe jの例は、第2対象テキスト(第2対象エンティティRDe j及び第2対象属性RDa j-1を含む文字列であってテキストデータに含まれるもの)と第2対象エンティティRDe j及び第2対象属性RDa j-1との関係を表す情報である。その具体例は、前述(ステップS22)したPP1(RPe j-1,RPa j-1)の素性fPa jの場合と同様である。 Entity identification feature extracting unit 23b, the second target entity for a second target text - target attribute pair PD 2 (RD e j, RD a j) said second target entity information indicating features of the - target attribute pair PD 2 A feature fD e j of (RD e j , RD a j ) is assumed. In this example, the feature fD e j of PD 2 (RD e j , RD a j ) is extracted for each second target text. An example of the feature fD e j of PD 2 (RD e j , RD a j ) is a text that includes the second target text (second target entity RD e j and second target attribute RD a j-1). Information included in the data), the second target entity RD e j, and the second target attribute RD a j-1 . The specific example is the same as the case of the feature fP a j of PP 1 (RP e j−1 , RP a j−1 ) described above (step S22).

第2対象テキストに対応するPD2(RDe j,RDa j)の素性fDe jは、エンティティ識別部26bに入力される。エンティティ識別部26bは、PD2(RDe j,RDa j)の素性fDe jを記憶部11dから読み出した第2識別モデルMEe jに入力し、PD2(RDe j,RDa j)が正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別する。 The feature fD e j of PD 2 (RD e j , RD a j ) corresponding to the second target text is input to the entity identification unit 26b. The entity identification unit 26b inputs the feature fD e j of PD 2 (RD e j , RD a j ) into the second identification model ME e j read from the storage unit 11d, and PD 2 (RD e j , RD a j ) Identifies a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair.

ここで、エンティティ識別部26bは、PD2(RDe j,RDa j)を正例エンティティ−正例属性ペアであると識別した場合、当該PD2(RDe j,RDa j)の第2対象エンティティRDe jを正例エンティティRPe jとして記憶部11eに格納し、正例エンティティRPe jの集合に追加する。また、エンティティ識別部26bは、PD2(RDe j,RDa j)が負例エンティティ−負例属性ペアであると識別した場合、当該PD2(RDe j,RDa j)の第2対象エンティティRDe jを負例エンティティRNe jとして記憶部11eに格納し、負例エンティティRNe jの集合に追加する。すなわち、ステップS25−S27では正例及び負例属性の更新は行われず、正例及び負例エンティティの更新のみが行われる。 Here, when the entity identifying unit 26b identifies PD 2 (RD e j , RD a j ) as a positive example entity-positive example attribute pair, the entity identifying unit 26b determines the second PD 2 (RD e j , RD a j ). 2 target entities RD e j stored in the storage unit 11e as positive examples entity RP e j, to add to the set of positive examples entity RP e j. Further, when the entity identifying unit 26b identifies that PD 2 (RD e j , RD a j ) is a negative example entity-negative example attribute pair, the entity identifying unit 26b sets the second PD 2 (RD e j , RD a j ). stored in the storage unit 11e target entity RD e j as a negative example entity RN e j, to add to the set of negative examples entity RN e j. That is, in steps S25-S27, the positive example and negative example attributes are not updated, and only the positive example and negative example entities are updated.

《収束判定:ステップS17−S19》
収束判定部17は、第1実施形態と同様に、収束条件を満たしたかを判定する(ステップS17)。
収束判定部17が収束条件を満たしたと判断した場合、ステップS22からS27のイテレーションが終了し、出力部18が記憶部11eに格納されているすべての正例エンティティRPj eを出力して処理を終了する(ステップS19)。それ以外の場合は、制御部19がj+1を新たなjの値とし(ステップS18)、記憶部11eに格納されている正例エンティティRPj e 及び負例エンティティRNj e 、記憶部21eに格納されている正例属性RPj a 及び負例属性RNj aを属性識別用素性抽出部23aに入力し、ステップS22からS27のイテレーションが実行される。
<< Convergence determination: steps S17 to S19 >>
The convergence determination unit 17 determines whether the convergence condition is satisfied as in the first embodiment (step S17).
When the convergence determination unit 17 determines that the convergence condition is satisfied, the iterations from step S22 to S27 are finished, and the output unit 18 outputs all the positive example entities RP j e stored in the storage unit 11e for processing. The process ends (step S19). In other cases, the control unit 19 sets j + 1 as a new value of j (step S18), the positive example entity RP j e and the negative example entity RN j e stored in the storage unit 11e, and the storage unit 21e. enter a positive example attribute RP j a and negative cases attribute RN j a is stored in the attribute identifying feature extraction unit 23a, iterations of steps S22 S27 is executed.

<第2実施形態の特徴>
以上のように、本形態の方法ではエンティティとその属性との組を用いて識別を行うこととしたため、セマンティックドリフトを抑制することができる。例えばエンティティ<阪神>には曖昧性があり、エンティティ<阪神>の素性のみでは、エンティティ<阪神>が鉄道名と球団名のどちらを指すか識別できない。しかし、<試合>や<乗務員>の属性を付加した<阪神>−<試合>や<阪神>−<乗務員>を制約条件とすれば、それぞれの<阪神>が異なる意味で用いられていることを識別できる。
<Features of Second Embodiment>
As described above, in the method according to the present embodiment, identification is performed using a pair of an entity and its attribute, so that semantic drift can be suppressed. For example, the entity <Hanshin> has ambiguity, and the entity <Hanshin> alone cannot identify whether the entity <Hanshin> indicates a railroad name or a team name. However, if <Hanshin>-<Game> or <Hanshin>-<Crew> with attributes of <Game> or <Crew> are used as constraints, each <Hanshin> is used in a different meaning. Can be identified.

また、本形態では、co-training方式を用いるため、精度の高い識別が可能となる。なお、上記では正例及び負例属性の更新(ステップS22−S24)を行った後に、正例及び負例エンティティの更新(S25−S27)を行う例を示した。しかし、正例及び負例エンティティの更新を行った後に正例及び負例属性の更新を行ってもよい。   In this embodiment, since the co-training method is used, highly accurate identification is possible. In the above description, the example in which the positive example and the negative example entity are updated (S25 to S27) after the positive example and negative example attributes are updated (steps S22 to S24) is shown. However, the positive example and negative example attributes may be updated after the positive example and negative example entities are updated.

なお、エンティティ−属性ペアを扱う関係抽出技術としてespressoが知られている(参考文献4「Patrick Pantel and Marco Pennacchiotti., "Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations.", COLING-ACL, 2006.」)。espressoの場合は、エンティティ−属性ペアを獲得するのが目的であるため、予めエンティティ−属性ペアを正例及び負例として与えておく必要がある。これに対し、本形態はエンティティ獲得のために属性を用いるので、初期値としてはエンティティだけを与えれば良い。   Note that espresso is known as a relation extraction technique that handles entity-attribute pairs (Reference 4 “Patrick Pantel and Marco Pennacchiotti.,“ Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations. ”, COLING-ACL, 2006. "). In the case of espresso, since the purpose is to acquire an entity-attribute pair, it is necessary to give entity-attribute pairs as positive examples and negative examples in advance. On the other hand, since this embodiment uses an attribute for acquiring an entity, only an entity need be given as an initial value.

また、espressoはエンティティと属性のペアについての信頼度を計算するイテレーションと、素性に対する信頼度計算のイテレーションから構成されるのに対し、本形態ではエンティティの信頼度を計算するイテレーションと属性の信頼度を計算するイテレーションから構成されている。今我々が欲しているのはエンティティのみであり、属性情報は付加的に獲得されるにすぎない。つまり属性についての網羅性は高い必要がなく、十分に信頼でき、かつセマンティックドリフトを抑えるに足る量の属性のみを用いれば良い。本形態の目的からすれば、espressoのようにペアで信頼度を得るよりも、エンティティ/属性それぞれの信頼度を直接評価できる本形態の手法の方が適切であると言える。   In addition, espresso consists of an iteration that calculates the reliability of an entity / attribute pair and an iteration of a reliability calculation for the feature, whereas in this form it is an iteration that calculates the reliability of the entity and the reliability of the attribute. It consists of iterations that calculate Now all we want is an entity, and attribute information is only acquired additionally. In other words, it is not necessary to have high completeness of attributes, and it is sufficient to use only a sufficient amount of attributes that are sufficiently reliable and can suppress the semantic drift. For the purpose of this embodiment, it can be said that the method of this embodiment that can directly evaluate the reliability of each entity / attribute is more appropriate than the reliability obtained in pairs as in espresso.

さらに、espressoで100個の新規エンティティ-属性ペアを獲得しようとした場合、その中には新規エンティティ、新規属性がそれぞれいくつ含まれるかを制御できない。例えば、1エンティティ×100属性といった適切でない状況も起こり得る。本形態の手法では、エンティティの信頼度を計算するイテレーションと属性の信頼度を計算するイテレーションとが別個に実行されるため、エンティティの数と属性の数を別個に自由に制御できる。本形態では、例えば、エンティティを100個、属性を10個といったように細かく制御することも可能である。
その他、第1実施形態と同様、本形態の方法はリソースであるテキストデータの種類によらず利用でき、適用範囲が広い。
In addition, if you try to acquire 100 new entity-attribute pairs with espresso, you cannot control how many new entities and new attributes are included in each. For example, an inappropriate situation such as 1 entity × 100 attributes may occur. In the method of this embodiment, the iteration for calculating the reliability of the entity and the iteration for calculating the reliability of the attribute are executed separately, so that the number of entities and the number of attributes can be freely controlled separately. In the present embodiment, it is possible to finely control, for example, 100 entities and 10 attributes.
In addition, as in the first embodiment, the method of this embodiment can be used regardless of the type of text data that is a resource, and has a wide range of applications.

〔第3実施形態〕
第3実施形態は、第1実施形態と第2実施形態とを組み合わせた形態である。つまり、トピック情報と属性の両方を用いて識別モデルの学習及び識別モデルによる識別を行う。以下では、第1及び第2実施形態との相違点を中心に説明する。また、第1及び第2実施形態と共通する部分については第1及び第2実施形態と同じ参照番号を用いる。
[Third Embodiment]
The third embodiment is a combination of the first embodiment and the second embodiment. In other words, learning of the identification model and identification by the identification model are performed using both topic information and attributes. Below, it demonstrates centering around difference with 1st and 2nd embodiment. In addition, the same reference numerals as those in the first and second embodiments are used for portions common to the first and second embodiments.

<構成>
図9は、第3実施形態のデータ抽出装置3の機能構成を例示するためのブロック図である。
図9に例示するように、データ抽出装置3は、記憶部11a−11e,21d,21e、初期属性集合生成部22、属性識別用素性抽出部23a、エンティティ識別用素性抽出部23b、トピック情報抽出部34a,34b、属性識別学習部35a、エンティティ識別学習部35b、属性識別部36a、エンティティ識別部36b、収束判定部17、出力部18、及び制御部19を有し、制御部19の制御のもと各処理を実行する。なお、データ抽出装置3は、例えば、公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。
<Configuration>
FIG. 9 is a block diagram for illustrating a functional configuration of the data extraction device 3 of the third embodiment.
As illustrated in FIG. 9, the data extraction device 3 includes storage units 11a-11e, 21d, and 21e, an initial attribute set generation unit 22, an attribute identification feature extraction unit 23a, an entity identification feature extraction unit 23b, and topic information extraction. Units 34 a and 34 b, attribute identification learning unit 35 a, entity identification learning unit 35 b, attribute identification unit 36 a, entity identification unit 36 b, convergence determination unit 17, output unit 18, and control unit 19. Originally, each process is executed. The data extraction device 3 is a special device configured by, for example, reading a special program into a known or dedicated computer.

<事前処理>
第1実施形態と同様である。
<データ抽出処理>
図10は、第3実施形態のデータ抽出装置3のデータ抽出処理を例示するための図である。
まず、第1及び第2実施形態のステップS11,S12,S21,S22と同じ処理が実行される。
<Pre-processing>
This is the same as in the first embodiment.
<Data extraction process>
FIG. 10 is a diagram for illustrating data extraction processing of the data extraction device 3 according to the third embodiment.
First, the same processing as steps S11, S12, S21, and S22 of the first and second embodiments is executed.

《トピック情報抽出:ステップS321》
ステップS22で生成されたPP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)がトピック情報抽出部34aに入力される。混乱を避けるため、以下ではこれらを組(fP''a j, <+1>)及び組(fN''a j, <-1>)と表記する。
<< Topic Information Extraction: Step S321 >>
A pair (fP a j , <+1>) of the feature fP a j of PP 1 (RP e j-1 , RP a j-1 ) generated in step S22 and a label <+1> representing a positive example, The topic information extraction unit is a set (fN a j , <-1>) of the feature fN a j of PN 1 (RN e j-1 , RN a j-1 ) and the label <-1> representing a negative example 34a. In order to avoid confusion, these are expressed as a pair (fP '' a j , <+1>) and a pair (fN '' a j , <-1>) below.

トピック情報抽出部34aは、前述したステップS14と同様な処理により、第1正例エンティティRPe j-1と第1正例属性RPa j-1との組を含むテキストデータに対応する第1正例トピック情報を抽出する。トピック情報抽出部34aは、当該テキストデータが含む各第1正例テキストに対応するPP1(RPe j-1,RPa j-1)の素性fP''a jに当該第1正例トピック情報加えたものを、各第1正例テキストに対応する各PP1(RPe j-1,RPa j-1)の新たな素性fPa jとする。すなわち、トピック情報抽出部34aによって生成された当該PP1(RPe j-1,RPa j-1)の素性fPa jは、トピック情報付きテキストデータの集合D'から選択された、第1正例エンティティRPe j-1と第1正例属性RPa j-1との組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む(例えば図5A参照)。 The topic information extraction unit 34a performs first processing corresponding to the text data including the set of the first positive example entity RP e j-1 and the first positive example attribute RP a j-1 by the same process as in step S14 described above. Extract positive topic information. The topic information extraction unit 34a applies the first positive example topic to the feature fP ″ a j of PP 1 (RP e j−1 , RP a j−1 ) corresponding to each first positive example text included in the text data. The information added is set as a new feature fP a j of each PP 1 (RP e j−1 , RP a j−1 ) corresponding to each first positive example text. That is, the feature fP a j of the PP 1 (RP e j−1 , RP a j−1 ) generated by the topic information extraction unit 34a is selected from the set D ′ of text data with topic information. It includes topic information included in text data with topic information including text data including a set of a positive example entity RP e j-1 and a first positive example attribute RP a j-1 .

同様に、トピック情報抽出部34aは、前述したステップS14と同様な処理により、負例エンティティRNe j-1と第1負例属性RNa j-1との組を含むテキストデータに対応する第1負例トピック情報を抽出する。トピック情報抽出部34aは、当該テキストデータが含む各第1負例テキストに対応するPN1(RNe j-1,RNa j-1)の素性fN''a jに当該第1負例トピック情報を加えたものを、各第1負例テキストに対応する各PN1(RNe j-1,RNa j-1)の新たな素性fNa jとする。すなわち、トピック情報抽出部34aによって生成された当該PN1(RNe j-1,RNa j-1)の素性fNa jは、トピック情報付きテキストデータの集合D'から選択された、第1負例エンティティRNe j-1と第1負例属性RNa j-1との組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む。
トピック情報抽出部34aは、生成したPP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)を出力する。
Similarly, the topic information extraction unit 34a performs processing similar to that in step S14 described above, and performs processing corresponding to text data including a set of the negative example entity RN e j-1 and the first negative example attribute RN a j-1 . 1 Negative topic information is extracted. The topic information extraction unit 34a applies the first negative example topic to the feature fN ″ a j of PN 1 (RN e j−1 , RN a j−1 ) corresponding to each first negative example text included in the text data. The information added is set as a new feature fN a j of each PN 1 (RN e j−1 , RN a j−1 ) corresponding to each first negative example text. That is, the feature fN a j of the PN 1 (RN e j−1 , RN a j−1 ) generated by the topic information extraction unit 34 a is selected from the set D ′ of text data with topic information. It includes topic information included in text data with topic information including text data including a set of a negative example entity RN e j-1 and a first negative example attribute RN a j-1 .
The topic information extraction unit 34a sets a pair (fP a j , <+1) of the feature fP a j of the generated PP 1 (RP e j−1 , RP a j−1 ) and a label <+1> representing a positive example. >) And a pair (fN a j , <-1>) of the feature fN a j of PN 1 (RN e j-1 , RN a j-1 ) and the label <-1> representing a negative example To do.

《属性識別学習:ステップS33》
PP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)が属性識別学習部35aに入力される。属性識別学習部35aはこれらを教師あり学習データとし、前述のステップS23と同様に第1識別モデルMEa jを生成し、記憶部21dに格納する。
<< Attribute Identification Learning: Step S33 >>
A pair (fP a j , <+1>) of a feature fP a j of PP 1 (RP e j-1 , RP a j-1 ) and a label <+1> representing a positive example, and PN 1 (RN A set (fN a j , <-1>) of the feature fN a j of e j−1 , RN a j−1 ) and a label <−1> representing a negative example is input to the attribute identification learning unit 35a. The attribute identification learning unit 35a uses these as supervised learning data, generates the first identification model ME a j as in step S23 described above, and stores it in the storage unit 21d.

《属性識別:ステップS34》
属性識別部36aは、まず、ステップS24と同様に第1対象テキストに対応するPD1(RDe j,RDa j)の素性fDa jを生成する。以下では、混乱を避けるため、ステップS24と同様に作成された第1対象テキストに対応するPD1(RDe j,RDa j)の素性fDa jをfD''a jと表記する。次に、属性識別部36aは、ステップS15と同様に、対象エンティティRDe jと第1対象属性RDa jとの組を含むテキストデータに対応する第1対象トピック情報を抽出する。属性識別部36aは、当該テキストデータが含む各第1対象テキストに対応する各PD1(RDe j,RDa j)の素性fD''a jに当該第1対象トピック情報を加えたものを、各第1対象テキストに対応する各PD1(RDe j,RDa j)の素性fDe jとする。すなわち、属性識別部36aによって生成されたPD1(RDe j,RDa j)の素性fDe jは、トピック情報付きテキストデータの集合D'から選択された、第1対象エンティティRDe jと第1対象属性RDa jとの組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む(例えば図5A参照)。
<< Attribute Identification: Step S34 >>
The attribute identifying unit 36a first generates a feature fD a j of PD 1 (RD e j , RD a j ) corresponding to the first target text as in step S24. Hereinafter, in order to avoid confusion, the feature fD a j of PD 1 (RD e j , RD a j ) corresponding to the first target text created in the same manner as in step S24 is denoted as fD ″ a j . Next, the attribute identifying unit 36a extracts first target topic information corresponding to text data including a set of the target entity RD e j and the first target attribute RD a j , as in step S15. The attribute identification unit 36a is obtained by adding the first target topic information to the feature fD ″ a j of each PD 1 (RD e j , RD a j ) corresponding to each first target text included in the text data. , The feature fD e j of each PD 1 (RD e j , RD a j ) corresponding to each first target text. That is, the feature fD e j of PD 1 (RD e j , RD a j ) generated by the attribute identifying unit 36a is the first target entity RD e j selected from the set D ′ of text data with topic information. It includes topic information included in text data with topic information including text data including a set with the first target attribute RD a j (see, for example, FIG. 5A).

属性識別部36aは、ステップS24と同様に、PD1(RDe j,RDa j)の素性fDa jを記憶部21dから読み出した第1識別モデルMEa jに入力し、PD1(RDe j,RDa j)が正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別する。属性識別部36aは、PD1(RDe j,RDa j)を正例エンティティ−正例属性ペアであると識別した場合、当該PD1(RDe j,RDa j)の第1対象属性RDa jを正例属性RPa jとして記憶部21eに格納し、正例属性RPa jの集合に追加する。また、属性識別部36aは、PD1(RDe j,RDa j)が負例エンティティ−負例属性ペアであると識別した場合、当該PD1(RDe j,RDa j)の第1対象属性RDa jを負例属性RNa jとして記憶部21eに格納し、負例属性RNa jの集合に追加する。 Similarly to step S24, the attribute identification unit 36a inputs the feature fD a j of PD 1 (RD e j , RD a j ) to the first identification model ME a j read from the storage unit 21d, and PD 1 (RD e j , RD a j ) identifies whether it is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair. When the attribute identifying unit 36a identifies PD 1 (RD e j , RD a j ) as a positive entity-positive example attribute pair, the first target attribute of the PD 1 (RD e j , RD a j ) the RD a j stored in the storage unit 21e as positive examples attribute RP a j, is added to the set of positive examples attribute RP a j. Further, when the attribute identifying unit 36a identifies that PD 1 (RD e j , RD a j ) is a negative entity-negative example attribute pair, the attribute identifying unit 36a determines the first PD 1 (RD e j , RD a j ). stored in the storage unit 21e target attribute RD a j as a negative example attribute RN a j, is added to the set of negative examples attribute RN a j.

《トピック情報抽出:ステップS351》
次に、前述したステップS25の処理が実行され、それによって得られたPP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)がトピック情報抽出部34bに入力される。混乱を避けるため、以下ではこれらを組(fP''e j, <+1>)及び組(fN''e j, <-1>)と表記する。
<< Topic Information Extraction: Step S351 >>
Next, the process of step S25 described above is executed, and a pair of the feature fP e j of PP 2 (RP e j−1 , RP a j ) obtained thereby and a label <+1> representing a positive example ( fP e j , <+1>) and a pair of features fN e j of PN 2 (RN e j-1 , RN a j ) and a label <-1> representing a negative example (fN e j , <- 1>) is input to the topic information extraction unit 34b. In order to avoid confusion, these are expressed as a pair (fP '' e j , <+1>) and a pair (fN '' e j , <-1>) below.

トピック情報抽出部34bは、前述したステップS14と同様な処理により、第2正例エンティティRPe j-1と第2正例属性RPa jとの組を含むテキストデータとの組に対応する第2正例トピック情報を抽出する。トピック情報抽出部34bは、当該テキストデータが含む各第2正例テキストに対応するPP2(RPe j-1,RPa j)の素性fP''e jに当該第2正例トピック情報を加えたものを、各第2正例テキストに対応する各PP2(RPe j-1,RPa j)の新たな素性fPe jとする。すなわち、トピック情報抽出部34bによって生成された当該PP2(RPe j-1,RPa j)の素性fPe jは、トピック情報付きテキストデータの集合D'から選択された、第2正例エンティティRPe j-1と第2正例属性RPa jとの組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む(例えば図5A参照)。 The topic information extraction unit 34b performs a process similar to that in step S14 described above, and corresponds to a set of text data including a set of the second positive example entity RP e j-1 and the second positive example attribute RP a j . 2. Extract the example topic information. The topic information extraction unit 34b adds the second positive example topic information to the feature fP ″ e j of PP 2 (RP e j−1 , RP a j ) corresponding to each second positive example text included in the text data. The addition is set as a new feature fP e j of each PP 2 (RP e j−1 , RP a j ) corresponding to each second example text. That is, the feature fP e j of the PP 2 (RP e j−1 , RP a j ) generated by the topic information extraction unit 34b is selected from the set D ′ of text data with topic information. The topic information included in the text data with topic information including the text data including the set of the entity RP e j-1 and the second positive example attribute RP a j is included (see, for example, FIG. 5A).

同様に、トピック情報抽出部34bは、前述したステップS14と同様な処理により、第2負例エンティティRNe j-1と第2負例属性RNa jとの組を含むテキストデータに対応する第2負例トピック情報を抽出する。トピック情報抽出部34bは、当該テキストデータが含む各第2負例テキストに対応するPN2(RNe j-1,RNa j)の素性fN''e jに当該第2負例トピック情報を加えたものを、各第2負例テキストに対応する各PN2(RNe j-1,RNa j)の新たな素性fNe jとする。すなわち、トピック情報抽出部34bによって生成された当該PN2(RNe j-1,RNa j)の素性fNe jは、トピック情報付きテキストデータの集合D'から選択された、第2負例エンティティRNe j-1と第2負例属性RNa jとの組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む。 Similarly, the topic information extraction unit 34b performs a process similar to that in step S14 described above, and performs processing corresponding to text data including a set of the second negative example entity RN e j-1 and the second negative example attribute RN a j . 2 Negative example topic information is extracted. The topic information extraction unit 34b adds the second negative example topic information to the feature fN ″ e j of PN 2 (RN e j−1 , RN a j ) corresponding to each second negative example text included in the text data. The addition is set as a new feature fN e j of each PN 2 (RN e j−1 , RN a j ) corresponding to each second negative example text. That is, the feature fN e j of the PN 2 (RN e j−1 , RN a j ) generated by the topic information extraction unit 34b is selected from the set D ′ of text data with topic information. It includes topic information included in text data with topic information including text data including a set of an entity RN e j-1 and a second negative example attribute RN a j .

トピック情報抽出部34bは、生成したPP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)を出力する。 The topic information extraction unit 34b generates a set (fP e j , <+1>) of the feature fP e j of the generated PP 2 (RP e j−1 , RP a j ) and a label <+1> representing a positive example. And a pair (fN e j , <-1>) of a feature fN e j of PN 2 (RN e j−1 , RN a j ) and a label <−1> representing a negative example.

《エンティティ識別学習:ステップS36》
PP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)がエンティティ識別学習部35bに入力される。エンティティ識別学習部35bはこれらを教師あり学習データとし、前述のステップS26と同様に第2識別モデルMEe jを生成し、記憶部11dに格納する。
<< Entity Identification Learning: Step S36 >>
A pair (fP e j , <+1>) of a feature fP e j of PP 2 (RP e j−1 , RP a j ) and a label <+1> representing a positive example, and PN 2 (RN e j −1 , RN a j ) of the feature fN e j and a negative example label <-1> (fN e j , <-1>) is input to the entity identification learning unit 35b. Entity identification learning unit 35b is these and supervised learning data to generate second identification model ME e j similarly to step S26 described above, and stores in the storage unit 11d.

《エンティティ識別:ステップS37》
エンティティ識別部36bは、まず、ステップS27と同様に第2対象テキストに対応するPD2(RDe j,RDa j)の素性fDe jを生成する。以下では、混乱を避けるため、ステップS27と同様に作成された第2対象テキストに対応するPD2(RDe j,RDa j)の素性fDe jをfD''e jと表記する。
<< Entity Identification: Step S37 >>
The entity identification unit 36b first generates a feature fD e j of PD 2 (RD e j , RD a j ) corresponding to the second target text, as in step S27. Hereinafter, in order to avoid confusion, the feature fD e j of PD 2 (RD e j , RD a j ) corresponding to the second target text created in the same manner as in step S27 is denoted as fD ″ e j .

次に、エンティティ識別部36bは、ステップS15と同様に、対象エンティティRDe jと第2対象属性RDa jとの組を含むテキストデータに対応する第2対象トピック情報を抽出する。エンティティ識別部36bは、当該テキストデータが含む各第2対象テキストに対応する各PD2(RDe j,RDa j)の素性fD''e jに当該第2対象トピック情報を加えたものを、各第2対象テキストに対応する各PD2(RDe j,RDa j)の素性fDe jとする。すなわち、エンティティ識別部36bによって生成されたPD2(RDe j,RDa j)の素性fDe jは、トピック情報付きテキストデータの集合D'から選択された、第2対象エンティティRDe jと第2対象属性RDa jとの組を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報を含む(例えば図5A参照)。 Next, the entity identifying unit 36b extracts second target topic information corresponding to text data including a set of the target entity RD e j and the second target attribute RD a j , as in step S15. Entity identification unit 36b, the PD 2 (RD e j, RD a j) corresponding to each of the second target text to which the text data includes a plus the second target topic information on the identity fD '' e j of And the feature fD e j of each PD 2 (RD e j , RD a j ) corresponding to each second target text. That is, the feature fD e j of PD 2 (RD e j , RD a j ) generated by the entity identification unit 36b is the second target entity RD e j selected from the set D ′ of text data with topic information. The topic information included in the text data with topic information including the text data including the pair with the second target attribute RD a j is included (see, for example, FIG. 5A).

エンティティ識別部36bは、ステップS27と同様に、PD2(RDe j,RDa j)の素性fDe jを記憶部11dから読み出した第2識別モデルMEe jに入力し、PD2(RDe j,RDa j)が正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別する。エンティティ識別部36bは、PD2(RDe j,RDa j)を正例エンティティ−正例属性ペアであると識別した場合、当該PD2(RDe j,RDa j)の第2対象エンティティRDe jを正例エンティティRPe jとして記憶部11eに格納し、正例エンティティRPe jの集合に追加する。また、エンティティ識別部36bは、PD2(RDe j,RDa j)が負例エンティティ−負例属性ペアであると識別した場合、当該PD2(RDe j,RDa j)の第2対象エンティティRDe jを負例エンティティRNe jとして記憶部11eに格納し、負例エンティティRNe jの集合に追加する。
その後、前述したステップS17−S19の処理が実行される。
As in step S27, the entity identification unit 36b inputs the feature fD e j of PD 2 (RD e j , RD a j ) to the second identification model ME e j read from the storage unit 11d, and outputs PD 2 (RD e j , RD a j ) identifies whether it is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair. When the entity identification unit 36b identifies PD 2 (RD e j , RD a j ) as a positive entity-positive example attribute pair, the second target entity of the PD 2 (RD e j , RD a j ) the RD e j stored in the storage unit 11e as positive examples entity RP e j, to add to the set of positive examples entity RP e j. Further, when the entity identifying unit 36b identifies that PD 2 (RD e j , RD a j ) is a negative example entity-negative example attribute pair, the entity identifying unit 36b determines the second PD 2 (RD e j , RD a j ). stored in the storage unit 11e target entity RD e j as a negative example entity RN e j, to add to the set of negative examples entity RN e j.
Thereafter, the processing of steps S17 to S19 described above is executed.

〔その他の変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、第1実施形態においてステップS13を実行せず、トピック情報のみを素性としてもよい。また、トピックモデルや学習モデルが上述した具体例に限定されないのは上述の通りである。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[Other variations, etc.]
The present invention is not limited to the embodiment described above. For example, step S13 may not be executed in the first embodiment, and only topic information may be used as a feature. Further, the topic model and the learning model are not limited to the specific examples described above, as described above. In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.
The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads the program stored in its own recording device and executes the process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

1−3 データ抽出装置 1-3 Data extraction device

Claims (16)

テキストデータに対する複数のトピックの候補の適切さを指標値として表すトピック情報と、当該テキストデータとの関係を記述するトピックモデルを、テキストデータから得られる教師なし学習データを用いて学習する事前処理部と、
抽出対象の文字列である正例エンティティを含む前記テキストデータのトピックに対応して前記トピックモデルから抽出した正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象としない文字列である負例エンティティを含むテキストデータのトピックに対応して前記トピックモデルから抽出した負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出部と、
前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習部と、
テキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータのトピックに対応して前記トピックモデルから抽出したトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティとし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティとするエンティティ識別部と、
を有するデータ抽出装置。
A pre-processing unit that learns topic information representing the appropriateness of a plurality of topic candidates for text data as an index value and a topic model that describes the relationship between the text data using unsupervised learning data obtained from the text data When,
The positive example topic information extracted from the topic models in response to the topic of the text data containing the extracted target positive cases entity is a character string and at least part of the identity of the positive examples entity, not subject to extraction string A topic information extraction unit that takes negative example topic information extracted from the topic model corresponding to a topic of text data including a negative example entity as at least part of the features of the negative example entity;
Information for identifying whether an entity is a positive example entity or a negative example entity by inputting a feature of an arbitrary entity by learning processing using the features of the positive example entity and the features of the negative example entity as supervised learning data An identification learning unit that generates an identification model that is a function that outputs
An entity that is a character string included in text data selected from a set of text data is set as a target entity, and topic information extracted from the topic model corresponding to a topic of the selected text data is at least one of the features of the target entity. When the identity of the target entity is input to the identification model to identify whether the target entity is a positive example entity or a negative example entity, and the target entity is identified as a positive example entity, An entity identification unit that sets the target entity as the negative example entity when the positive entity is identified and the target entity is identified as a negative entity;
A data extraction device.
請求項1のデータ抽出装置であって、
前記正例エンティティの素性は、前記正例エンティティを含む文字列であって当該正例エンティティを含むテキストデータに含まれるものに対応し、当該文字列と当該正例エンティティとの関係を表す情報を含み、
前記負例エンティティの素性は、前記負例エンティティを含む文字列であって当該負例エンティティを含むテキストデータに含まれるものに対応し、当該文字列と当該負例エンティティとの関係を表す情報を含み、
前記対象エンティティの素性は、前記対象エンティティを含む文字列であって当該対象エンティティを含むテキストデータに含まれるものに対応し、当該文字列と当該対象エンティティとの関係を表す情報を含む、
ことを特徴とするデータ抽出装置。
The data extraction device according to claim 1, comprising:
The identity of the positive example entity corresponds to a character string that includes the positive example entity and is included in text data that includes the positive example entity, and includes information indicating a relationship between the character string and the positive example entity. Including
The feature of the negative example entity corresponds to a character string that includes the negative example entity and is included in the text data that includes the negative example entity, and includes information indicating a relationship between the character string and the negative example entity. Including
The feature of the target entity corresponds to a character string that includes the target entity and is included in text data that includes the target entity, and includes information that represents a relationship between the character string and the target entity.
A data extraction apparatus characterized by that.
請求項2のデータ抽出装置であって、
前記テキストデータが含む文字列には、当該テキストデータが含む文字列のトピックの候補と、当該トピックの候補それぞれの当該テキストデータが含む文字列に対する適切さを表すトピック候補スコアとが対応し、同一の前記トピックの候補に対応する前記トピック候補スコアを集計して得られる当該トピックの候補ごとの集計結果が当該トピックの候補それぞれの正例トピックスコアとされ、当該トピックの候補の中から当該正例トピックスコアが特定の基準を満たすものが正例基準トピックとされ、
前記識別学習部は、前記正例基準トピックの何れかと同一のトピックの候補に対応する前記テキストデータが含む文字列であり、なおかつ、当該同一のトピックの候補に対応する前記トピック候補スコアが特定の基準を満たす文字列に対応する前記正例エンティティの素性を前記教師あり学習データとする、
ことを特徴とするデータ抽出装置。
The data extraction device according to claim 2, wherein
The character string included in the text data corresponds to the topic candidate of the character string included in the text data and the topic candidate score indicating the appropriateness of each of the candidate candidates for the character string included in the text data. The aggregation result for each candidate for the topic obtained by aggregating the topic candidate scores corresponding to the topic candidates is set as a positive example topic score for each of the topic candidates, and the positive example is selected from the topic candidates. If the topic score meets certain criteria, it is considered a positive reference topic,
The identification learning unit is a character string included in the text data corresponding to the same topic candidate as any one of the positive example reference topics, and the topic candidate score corresponding to the same topic candidate is specified. The feature of the positive example entity corresponding to the character string satisfying the criterion is the supervised learning data,
A data extraction apparatus characterized by that.
請求項2又は3のデータ抽出装置であって、
前記テキストデータが含む文字列には、当該テキストデータが含む文字列のトピックの候補と、当該トピックの候補それぞれの当該テキストデータが含む文字列に対する適切さを表すトピック候補スコアとが対応し、同一の前記トピックの候補に対応する前記トピック候補スコアを集計して得られる当該トピックの候補ごとの集計結果が当該トピックの候補それぞれの正例トピックスコアとされ、当該トピックの候補の中から当該正例トピックスコアが特定の基準を満たすものが正例基準トピックとされ、
前記エンティティ識別部は、前記正例基準トピックの何れかと同一のトピックの候補に対応する前記テキストデータが含む文字列であり、なおかつ、当該同一のトピックの候補に対応する前記トピック候補スコアが特定の基準を満たす文字列が含むエンティティを前記対象エンティティとする、
ことを特徴とするデータ抽出装置。
The data extraction device according to claim 2 or 3,
The character string included in the text data corresponds to the topic candidate of the character string included in the text data and the topic candidate score indicating the appropriateness of each of the candidate candidates for the character string included in the text data. The aggregation result for each candidate for the topic obtained by aggregating the topic candidate scores corresponding to the topic candidates is set as a positive example topic score for each of the topic candidates, and the positive example is selected from the topic candidates. If the topic score meets certain criteria, it is considered a positive reference topic,
The entity identification unit is a character string included in the text data corresponding to the same topic candidate as any one of the positive reference topics, and the topic candidate score corresponding to the same topic candidate is specified. An entity included in a character string that satisfies the criteria is the target entity.
A data extraction apparatus characterized by that.
請求項1から4の何れかのデータ抽出装置であって、
前記エンティティ識別部は、
前記識別学習部で前記教師あり学習データとして用いられた前記正例エンティティの素性及び前記負例エンティティの素性のうち、それらから生成された前記識別モデルへの影響度の大きさを表す指標が特定の基準を満たす素性を選択し、選択した素性に対応する文字列を含む前記テキストデータが含む文字列であるエンティティを前記対象エンティティとする、
ことを特徴とするデータ抽出装置。
The data extraction device according to any one of claims 1 to 4,
The entity identifier is
Among the features of the positive example entity and the negative example entity used as the supervised learning data in the identification learning unit, an index indicating the magnitude of the degree of influence on the identification model generated therefrom is specified An entity that is a character string included in the text data including the character string corresponding to the selected feature is selected as the target entity.
A data extraction apparatus characterized by that.
抽出対象の文字列である正例エンティティの集合から選択した第1正例エンティティと前記正例エンティティの属性を表す文字列である正例属性の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアと、抽出対象としない文字列である負例エンティティの集合から選択した第1負例エンティティと前記負例エンティティの属性を表す文字列である負例属性の集合から選択した第1負例属性との組である第1負例エンティティ−負例属性ペアとを生成し、テキストデータの集合から、前記第1正例エンティティと前記第1正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第1正例エンティティ−正例属性ペアの特徴を表す情報を当該第1正例エンティティ−正例属性ペアの素性の少なくとも一部とし、前記テキストデータの集合から、前記第1負例エンティティと前記第1負例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第1負例エンティティ−負例属性ペアの特徴を表す情報を当該第1負例エンティティ−負例属性ペアの素性の少なくとも一部とする属性識別用素性抽出部と、
前記第1正例エンティティ−正例属性ペアの素性と前記第1負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第1識別モデルを生成する属性識別学習部と、
前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティとして選択し、選択した当該テキストデータから当該第1対象エンティティと異なる文字列を第1対象属性として選択し、前記第1対象エンティティと前記第1対象属性との組を第1対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第1対象エンティティ−対象属性ペアの特徴を表す情報を当該第1対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第1対象エンティティ−対象属性ペアの素性を前記第1識別モデルに入力して当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、前記第1対象属性を前記正例属性の集合に追加し、当該第1対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、前記第1対象属性を前記負例属性の集合に追加する属性識別部と、
前記正例エンティティの集合から選択した第2正例エンティティと前記正例属性の集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアと、前記負例エンティティの集合から選択した第2負例エンティティと前記負例属性の集合から選択した第2負例属性との組である第2負例エンティティ−負例属性ペアとを生成し、前記テキストデータの集合から、前記第2正例エンティティと前記第2正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2正例エンティティ−正例属性ペアの特徴を表す情報を当該第2正例エンティティ−正例属性ペアの素性の少なくとも一部とし、前記テキストデータの集合から、前記第2負例エンティティと前記第2負例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2負例エンティティ−負例属性ペアの特徴を表す情報を当該第2負例エンティティ−負例属性ペアの素性の少なくとも一部とするエンティティ識別用素性抽出部と、
前記第2正例エンティティ−正例属性ペアの素性と前記第2負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第2識別モデルを生成するエンティティ識別学習部と、
前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティとして選択し、選択した当該テキストデータから当該第2対象エンティティと異なる文字列を第2対象属性として選択し、前記第2対象エンティティと前記第2対象属性との組を第2対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第2対象エンティティ−対象属性ペアの特徴を表す情報を当該第2対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第2対象エンティティ−対象属性ペアの素性を前記第2識別モデルに入力して当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、前記第2エンティティを前記正例エンティティの集合に追加し、当該第2対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、前記第2対象エンティティを前記負例エンティティの集合に追加するエンティティ識別部と、
を有するデータ抽出装置。
A set of a first positive example entity selected from a set of positive example entities that are character strings to be extracted and a first positive example attribute selected from a set of positive example attributes that are character strings representing attributes of the positive example entities A first positive example entity-positive example attribute pair, a first negative example entity selected from a set of negative example entities that are not extracted, and a negative example attribute that is a character string representing an attribute of the negative example entity Generating a first negative example entity-negative example attribute pair that is a set with a first negative example attribute selected from the set of: and from the set of text data, the first positive example entity and the first positive example attribute; A character string including the set of the first positive entity entity-positive example attribute pair with respect to the selected character string, and information indicating characteristics of the first positive example entity-positive example attribute pair at least. A character string including a set of the first negative example entity and the first negative example attribute is selected from the set of text data, and the first negative example entity-negative example for the selected character string is selected. An attribute identifying feature extraction unit having information representing the characteristics of the attribute pair as at least part of the features of the first negative example entity-negative example attribute pair;
The learning process using the features of the first positive example entity-positive example attribute pair and the features of the first negative example entity-negative example attribute pair as supervised learning data, and the entity of an arbitrary character string and the entity A function that outputs the information for identifying whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair, using the identity of the entity-attribute pair that is a pair with the attribute as an input. An attribute identification learning unit for generating a certain first identification model;
One of the text data is selected from the set of text data, a character string included in the selected text data is selected as a first target entity, and a character string different from the first target entity is selected from the selected text data. The first target attribute is selected as a first target entity and the first target attribute is set as a first target entity-target attribute pair, and the first target entity-target attribute pair in the selected text data is selected. The information representing the characteristics of the first target entity-target attribute pair is at least part of the feature, and the first target entity-target attribute pair feature is input to the first identification model, and the first target entity- Identify whether the target attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair, When the first target entity-target attribute pair is identified as a positive entity-positive attribute pair, the first target attribute is added to the set of positive attribute, and the first target entity-target attribute An attribute identifying unit that adds the first target attribute to the set of negative example attributes when the pair is identified as a negative example entity-negative example attribute pair;
A second positive example entity-positive example attribute pair that is a set of a second positive example entity selected from the set of positive example entities and a second positive example attribute selected from the set of positive example attributes; and the negative example entity Generating a second negative example entity-negative example attribute pair which is a set of a second negative example entity selected from the set of the negative example attributes and a second negative example attribute selected from the set of the negative example attributes; To select a character string including a set of the second positive example entity and the second positive example attribute, and information indicating characteristics of the second positive example entity-positive example attribute pair for the selected character string A character string including a pair of the second negative example entity and the second negative example attribute is selected and selected from at least a part of the feature of the second positive example entity-positive example attribute pair. Shi And entities identifying feature extracting section for at least part of the identity of the negative examples attribute pair, - negative sample attribute pair information the second negative example entities that represent characteristics of - the second negative example entity for the character string
The learning process using the features of the second positive example entity-positive example attribute pair and the features of the second negative example entity-negative example attribute pair as supervised learning data, and the entity of an arbitrary character string and the entity A function that outputs the information for identifying whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair, using the identity of the entity-attribute pair that is a pair with the attribute as an input. An entity identification learning unit for generating a second identification model;
One of the text data is selected from the set of text data, a character string included in the selected text data is selected as a second target entity, and a character string different from the second target entity is selected from the selected text data. The second target attribute is selected as a second target entity, and a pair of the second target entity and the second target attribute is set as a second target entity-target attribute pair, and the second target entity-target attribute pair in the selected text data is selected. Information representing the characteristics of the second target entity-at least part of the feature of the target attribute pair, and input the feature of the second target entity-target attribute pair to the second identification model to input the second target entity- Identify whether the target attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair, When the second target entity-target attribute pair is identified as a positive entity-positive attribute pair, the second entity is added to the set of positive entity, and the second target entity-target attribute pair An entity identifier that adds the second target entity to the set of negative example entities when identified as a negative example entity-negative example attribute pair;
A data extraction device.
請求項6のデータ抽出装置であって、
前記第1正例エンティティ−正例属性ペアの素性は、前記第1正例エンティティ及び前記第1正例属性を含む文字列であって当該第1正例エンティティ及び当該第1正例属性を含むテキストデータに含まれるものと当該第1正例エンティティ及び当該第1正例属性との関係を表す情報を含み、
前記第1負例エンティティ−負例属性ペアの素性は、前記第1負例エンティティ及び前記第1負例属性を含む文字列であって当該第1負例エンティティ及び当該第1負例属性を含むテキストデータに含まれるものと当該第1負例エンティティ及び当該第1負例属性との関係を表す情報を含み、
前記第1対象エンティティ−対象属性ペアの素性は、前記第1対象エンティティ及び前記第1対象属性を含む文字列であって当該第1対象エンティティ及び当該第1対象属性を含むテキストデータに含まれるものと当該第1対象エンティティ及び当該第1対象属性との関係を表す情報を含み、
前記第2正例エンティティ−正例属性ペアの素性は、前記第2正例エンティティ及び前記第2正例属性を含む文字列であって当該第2正例エンティティ及び当該第2正例属性を含むテキストデータに含まれるものと当該第2正例エンティティ及び当該第2正例属性との関係を表す情報を含み、
前記第2負例エンティティ−負例属性ペアの素性は、前記第2負例エンティティ及び前記第2負例属性を含む文字列であって当該第2負例エンティティ及び当該第2負例属性を含むテキストデータに含まれるものと当該第2負例エンティティ及び当該第2負例属性との関係を表す情報を含み、
前記第2対象エンティティ−対象属性ペアの素性は、前記第2対象エンティティ及び前記第2対象属性を含む文字列であって当該第2対象エンティティ及び当該第2対象属性を含むテキストデータに含まれるものと当該第2対象エンティティ及び当該第2対象属性との関係を表す情報を含む、
ことを特徴とするデータ抽出装置。
The data extraction device according to claim 6, comprising:
The feature of the first positive example entity-positive example attribute pair is a character string including the first positive example entity and the first positive example attribute, and includes the first positive example entity and the first positive example attribute. Including information representing the relationship between what is included in the text data and the first example entity and the first example attribute,
The feature of the first negative example entity-negative example attribute pair is a character string including the first negative example entity and the first negative example attribute, and includes the first negative example entity and the first negative example attribute. Including information representing the relationship between the text data and the first negative example entity and the first negative example attribute,
The feature of the first target entity-target attribute pair is a character string including the first target entity and the first target attribute, and is included in text data including the first target entity and the first target attribute. And information representing the relationship between the first target entity and the first target attribute,
The feature of the second positive example entity-positive example attribute pair is a character string including the second positive example entity and the second positive example attribute, and includes the second positive example entity and the second positive example attribute. Including information representing the relationship between the text data and the second positive entity and the second positive attribute,
The feature of the second negative example entity-negative example attribute pair is a character string including the second negative example entity and the second negative example attribute, and includes the second negative example entity and the second negative example attribute. Including information representing a relationship between the text data and the second negative example entity and the second negative example attribute,
The feature of the second target entity-target attribute pair is a character string including the second target entity and the second target attribute, and is included in text data including the second target entity and the second target attribute. Including information indicating the relationship between the second target entity and the second target attribute,
A data extraction apparatus characterized by that.
請求項6又は7のデータ抽出装置であって、
前記正例エンティティを含むテキストデータの集合から当該正例エンティティ以外の何れかの文字列を正例属性候補として選択し、前記正例エンティティを含む文字列の集合内に当該正例属性候補が含まれる頻度とすべてのテキストデータからなる集合内に当該正例属性候補が含まれる頻度との違いの大きさを表す指標が大きいものから所定数の正例属性候補を前記正例属性の初期値とし、
前記負例エンティティを含むテキストデータの集合から当該負例エンティティ以外の何れかの文字列を負例属性候補として選択し、前記負例エンティティを含む文字列の集合内に当該負例属性候補が含まれる頻度とすべてのテキストデータからなる集合内に当該負例属性候補が含まれる頻度との違いの大きさを表す指標が大きいものから所定数の負例属性候補を前記負例属性の初期値とする初期属性集合生成部をさらに有する、
ことを特徴とするデータ抽出装置。
The data extraction device according to claim 6 or 7,
A character string other than the positive example entity is selected as a positive example attribute candidate from the set of text data including the positive example entity, and the positive example attribute candidate is included in the set of character strings including the positive example entity. A predetermined number of positive example attribute candidates as the initial value of the positive example attribute from a large index indicating the magnitude of the difference between the frequency and the frequency at which the positive example attribute candidate is included in the set of all text data ,
A character string other than the negative example entity is selected as a negative example attribute candidate from the set of text data including the negative example entity, and the negative example attribute candidate is included in the set of character strings including the negative example entity. A predetermined number of negative example attribute candidates from a large index indicating the magnitude of the difference between the frequency and the frequency at which the negative example attribute candidate is included in the set of all text data and the initial value of the negative example attribute An initial attribute set generation unit
A data extraction apparatus characterized by that.
請求項6から8の何れかのデータ抽出装置であって、
前記属性識別部は、
前記属性識別学習部で前記教師あり学習データとして用いられた前記第1正例エンティティ−正例属性ペアの素性と前記第1負例エンティティ−負例属性ペアの素性のうち、それらから生成された前記第1識別モデルへの影響度の大きさを表す指標が特定の基準よりも大きな素性を選択し、選択した素性に対応する文字列を含む前記テキストデータを選択し、当該選択したテキストデータが含む文字列を前記第1対象エンティティ及び前記第1対象属性とする、
ことを特徴とするデータ抽出装置。
The data extraction device according to any one of claims 6 to 8,
The attribute identification unit
Of the features of the first positive example entity-positive example attribute pair and the features of the first negative example entity-negative example attribute pair used as the supervised learning data in the attribute identification learning unit, generated from them Select a feature whose index indicating the degree of influence on the first identification model is greater than a specific criterion, select the text data including a character string corresponding to the selected feature, and the selected text data is A character string including the first target entity and the first target attribute,
A data extraction apparatus characterized by that.
請求項6から9の何れかのデータ抽出装置であって、
前記エンティティ識別部は、
前記エンティティ識別学習部で前記教師あり学習データとして用いられた前記第2正例エンティティ−正例属性ペアの素性と前記第2負例エンティティ−負例属性ペアの素性のうち、それらから生成された前記第2識別モデルへの影響度の大きさを表す指標が特定の基準よりも大きな素性を選択し、選択した素性に対応する文字列を含む前記テキストデータを選択し、当該選択したテキストデータが含む文字列を前記第2対象エンティティ及び前記第2対象属性とする、
ことを特徴とするデータ抽出装置。
The data extraction device according to any one of claims 6 to 9,
The entity identifier is
Of the features of the second positive example entity-positive example attribute pair and the features of the second negative example entity-negative example attribute pair used as the supervised learning data in the entity identification learning unit, generated from them Select a feature whose index indicating the degree of influence on the second identification model is greater than a specific criterion, select the text data including a character string corresponding to the selected feature, and the selected text data A character string including the second target entity and the second target attribute,
A data extraction apparatus characterized by that.
請求項6から10の何れかのデータ抽出装置であって、
前記第1正例エンティティ−正例属性ペアの素性は、前記第1正例エンティティと前記第1正例属性との組を含むテキストデータのトピックに対応するトピック情報を含み、
前記第1負例エンティティ−負例属性ペアの素性は、前記第1負例エンティティと前記第1負例属性との組を含むテキストデータのトピックに対応するトピック情報を含み、
前記第1対象エンティティ−対象属性ペアの素性は、前記第1対象エンティティと前記第1対象属性との組を含むテキストデータのトピックに対応するトピック情報を含み、
前記第2正例エンティティ−正例属性ペアの素性は、前記第2正例エンティティと前記第2正例属性との組を含むテキストデータのトピックに対応するトピック情報を含み、
前記第2負例エンティティ−負例属性ペアの素性は、前記第2負例エンティティと前記第2負例属性との組を含む前記テキストデータのトピックに対応するトピック情報を含み、
前記第2対象エンティティ−対象属性ペアの素性は、前記第2対象エンティティと前記第2対象属性との組を含む前記テキストデータのトピックに対応するトピック情報を含む、
ことを特徴とするデータ抽出装置。
The data extraction device according to any one of claims 6 to 10,
The feature of the first positive example entity-positive example attribute pair includes topic information corresponding to a topic of text data including a set of the first positive example entity and the first positive example attribute,
The feature of the first negative example entity-negative example attribute pair includes topic information corresponding to a topic of text data including a set of the first negative example entity and the first negative example attribute,
The feature of the first target entity-target attribute pair includes topic information corresponding to a topic of text data including a set of the first target entity and the first target attribute,
The feature of the second positive example entity-positive example attribute pair includes topic information corresponding to a topic of text data including a set of the second positive example entity and the second positive example attribute,
The feature of the second negative example entity-negative example attribute pair includes topic information corresponding to a topic of the text data including a set of the second negative example entity and the second negative example attribute;
The feature of the second target entity-target attribute pair includes topic information corresponding to a topic of the text data including a set of the second target entity and the second target attribute.
A data extraction apparatus characterized by that.
請求項1から5の何れかのデータ抽出装置であって、
正例シードエンティティを含むテキストデータの集合に含まれる全エンティティの出現確率分布である正例確率分布を表す情報を得る正例分布処理部と、
同一のトピック情報に対応するテキストデータの集合が含む全エンティティの出現確率分布であるトピック確率分布を表す情報を前記トピック情報ごとに得て、前記正例確率分布を表す情報及び前記トピック確率分布を表す情報を用いて得られる前記正例確率分布と前記トピック確率分布との距離に基づいて、少なくとも一部の前記トピック情報を前記負例トピック情報として選択する負例トピック決定部と、
前記負例トピック決定部で選択された前記負例トピック情報に対応するエンティティを負例シードエンティティとして選択する負例シードエンティティ生成部と、を有し、
前記トピック情報抽出部と前記識別学習部と前記エンティティ識別部とによる処理は1回以上繰り返され、
前記正例シードエンティティは、前記トピック情報抽出部による初回の処理における前記正例エンティティであり、
前記負例シードエンティティは、前記トピック情報抽出部による初回の処理における前記負例エンティティである、データ抽出装置。
The data extraction device according to any one of claims 1 to 5,
A positive example distribution processing unit for obtaining information representing a positive example probability distribution that is an appearance probability distribution of all entities included in a set of text data including a positive example seed entity;
Information representing a topic probability distribution, which is an appearance probability distribution of all entities included in a set of text data corresponding to the same topic information, is obtained for each topic information, and the information representing the positive example probability distribution and the topic probability distribution are obtained. A negative example topic determination unit that selects at least a part of the topic information as the negative example topic information based on a distance between the positive example probability distribution obtained using information to represent and the topic probability distribution;
A negative example seed entity generation unit that selects, as a negative example seed entity, an entity corresponding to the negative example topic information selected by the negative example topic determination unit;
The processing by the topic information extraction unit, the identification learning unit, and the entity identification unit is repeated one or more times,
The positive seed entity is the positive entity in the initial processing by the topic information extraction unit,
The negative example seed entity is the data extraction device, which is the negative example entity in the initial processing by the topic information extraction unit.
請求項1から5の何れかのデータ抽出装置であって、
正例シードエンティティを含むテキストデータに対する各トピックの適切さを表すシード正例トピック情報を当該トピックごとに集計し、それによって得られる当該トピックごとの集計結果を当該トピックのシード正例トピックスコアとして得るシード正例トピックスコア作成部と、
前記トピックのシード正例トピックスコアの大きさに基づいて選択したトピックに対応するトピック情報を前記負例トピック情報とする負例トピック決定部と、
前記負例トピック決定部で選択された前記負例トピック情報に対応するエンティティを負例シードエンティティとして選択する負例シードエンティティ生成部と、を有し、
前記トピック情報抽出部と前記識別学習部と前記エンティティ識別部とによる処理は1回以上繰り返され、
前記正例シードエンティティは、前記トピック情報抽出部による初回の処理で使用される前記正例エンティティであり、
前記負例シードエンティティは、前記トピック情報抽出部による初回の処理で使用される前記負例エンティティである、データ抽出装置。
The data extraction device according to any one of claims 1 to 5,
The seed positive example topic information indicating the appropriateness of each topic with respect to the text data including the positive seed entity is aggregated for each topic, and the obtained aggregation result for each topic is obtained as the seed positive example topic score of the topic. Seed positive example topic score creation part,
A negative example topic determination unit that uses the topic information corresponding to the topic selected based on the magnitude of the seed positive example topic score of the topic as the negative example topic information;
A negative example seed entity generation unit that selects, as a negative example seed entity, an entity corresponding to the negative example topic information selected by the negative example topic determination unit;
The processing by the topic information extraction unit, the identification learning unit, and the entity identification unit is repeated one or more times,
The positive seed entity is the positive entity used in the initial processing by the topic information extraction unit,
The negative example seed entity is the data extraction device, which is the negative example entity used in the initial processing by the topic information extraction unit.
データ抽出装置が実行するデータ抽出方法であって、
事前処理部が、テキストデータに対する複数のトピックの候補の適切さを指標値として表すトピック情報と、当該テキストデータとの関係を記述するトピックモデルを、テキストデータから得られる教師なし学習データを用いて学習する事前処理ステップと、
トピック情報抽出部が、抽出対象の文字列である正例エンティティを含む前記テキストデータのトピックに対応して前記トピックモデルから抽出した正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象としない文字列である負例エンティティを含むテキストデータのトピックに対応して前記トピックモデルから抽出した負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出ステップと、
識別学習部が、前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習ステップと、
エンティティ識別部が、テキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータのトピックに対応して前記トピックモデルから抽出したトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティとし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティとするエンティティ識別ステップと、
を有するデータ抽出方法。
A data extraction method executed by a data extraction device,
A pre-processing unit uses topic data representing the appropriateness of a plurality of topic candidates for text data as an index value and a topic model that describes the relationship between the text data and unsupervised learning data obtained from the text data. Preprocessing steps to learn;
Topic information extraction unit, the positive example topic information in response to the topic of the text data extracted from the topic model that includes a target of extracting positive cases entity is a character string and at least part of the identity of the positive examples entity, A topic information extraction step in which negative example topic information extracted from the topic model corresponding to a topic of text data including a negative example entity that is a character string not to be extracted is at least part of the features of the negative example entity;
The discriminating and learning unit performs learning processing using the features of the positive entity and the negative entity as supervised learning data. An identification learning step for generating an identification model that is a function for outputting information for identification;
An entity that is a character string included in text data selected from a set of text data by the entity identification unit is a target entity, and topic information extracted from the topic model corresponding to the topic of the selected text data is the target entity. When the identity of the target entity is input to the identification model to identify whether the target entity is a positive entity or a negative entity, and the target entity is identified as a positive entity Identifying the target entity as the positive example entity, and identifying the target entity as the negative example entity when the target entity is identified as a negative example entity;
A data extraction method comprising:
データ抽出装置が実行するデータ抽出方法であって、
属性識別用素性抽出部が、抽出対象の文字列である正例エンティティの集合から選択した第1正例エンティティと前記正例エンティティの属性を表す文字列である正例属性の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアと、抽出対象としない文字列である負例エンティティの集合から選択した第1負例エンティティと前記負例エンティティの属性を表す文字列である負例属性の集合から選択した第1負例属性との組である第1負例エンティティ−負例属性ペアとを生成し、テキストデータの集合から、前記第1正例エンティティと前記第1正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第1正例エンティティ−正例属性ペアの特徴を表す情報を当該第1正例エンティティ−正例属性ペアの素性の少なくとも一部とし、前記テキストデータの集合から、前記第1負例エンティティと前記第1負例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第1負例エンティティ−負例属性ペアの特徴を表す情報を当該第1負例エンティティ−負例属性ペアの素性の少なくとも一部とする属性識別用素性抽出ステップと、
属性識別学習部が、前記第1正例エンティティ−正例属性ペアの素性と前記第1負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第1識別モデルを生成する属性識別学習ステップと、
属性識別部が、前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティとして選択し、選択した当該テキストデータから当該第1対象エンティティと異なる文字列を第1対象属性として選択し、前記第1対象エンティティと前記第1対象属性との組を第1対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第1対象エンティティ−対象属性ペアの特徴を表す情報を当該第1対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第1対象エンティティ−対象属性ペアの素性を前記第1識別モデルに入力して当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、前記第1対象属性を前記正例属性の集合に追加し、当該第1対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、前記第1対象属性を前記負例属性の集合に追加する属性識別ステップと、
エンティティ識別用素性抽出部が、前記正例エンティティの集合から選択した第2正例エンティティと前記正例属性の集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアと、前記負例エンティティの集合から選択した第2負例エンティティと前記負例属性の集合から選択した第2負例属性との組である第2負例エンティティ−負例属性ペアとを生成し、前記テキストデータの集合から、前記第2正例エンティティと前記第2正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2正例エンティティ−正例属性ペアの特徴を表す情報を当該第2正例エンティティ−正例属性ペアの素性の少なくとも一部とし、前記テキストデータの集合から、前記第2負例エンティティと前記第2負例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2負例エンティティ−負例属性ペアの特徴を表す情報を当該第2負例エンティティ−負例属性ペアの素性の少なくとも一部とするエンティティ識別用素性抽出ステップと、
エンティティ識別学習部が、前記第2正例エンティティ−正例属性ペアの素性と前記第2負例エンティティ−負例属性ペアの素性とを教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である第2識別モデルを生成するエンティティ識別学習ステップと、
エンティティ識別部が、前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティとして選択し、選択した当該テキストデータから当該第2対象エンティティと異なる文字列を第2対象属性として選択し、前記第2対象エンティティと前記第2対象属性との組を第2対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第2対象エンティティ−対象属性ペアの特徴を表す情報を当該第2対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第2対象エンティティ−対象属性ペアの素性を前記第2識別モデルに入力して当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別し、当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであると識別した場合に、前記第2エンティティを前記正例エンティティの集合に追加し、当該第2対象エンティティ−対象属性ペアが負例エンティティ−負例属性ペアであると識別した場合に、前記第2対象エンティティを前記負例エンティティの集合に追加するエンティティ識別ステップと、
を有するデータ抽出方法。
A data extraction method executed by a data extraction device,
The attribute identifying feature extraction unit selects the first positive example entity selected from the set of positive example entities that are character strings to be extracted and the first example attribute selected from the set of positive example attributes that are character strings representing the attributes of the positive example entities. A first positive example entity-positive example attribute pair that is a set of one positive example attribute, a first negative example entity selected from a set of negative example entities that are character strings not to be extracted, and attributes of the negative example entity Generating a first negative example entity-negative example attribute pair that is a set with a first negative example attribute selected from a set of negative example attributes that is a character string to represent the first positive example entity from the set of text data And a character string including a pair of the first positive example attribute, and information indicating characteristics of the first positive example entity-positive example attribute pair for the selected character string is used as the first positive example entity-positive example. A character string including at least a part of a feature of a sex pair and including a set of the first negative example entity and the first negative example attribute from the set of text data, and selecting the first character string for the selected character string An attribute identifying feature extraction step in which information representing the characteristics of the negative example entity-negative example attribute pair is at least part of the features of the first negative example entity-negative example attribute pair;
The attribute identification learning unit performs an arbitrary character string by learning processing using the feature of the first positive example entity-positive example attribute pair and the feature of the first negative example entity-negative example attribute pair as supervised learning data. To identify whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair by inputting the identity of an entity-attribute pair that is a set of an entity and the attribute of the entity An attribute identification learning step for generating a first identification model which is a function for outputting information;
The attribute identification unit selects any one of the text data from the set of text data, selects a character string included in the selected text data as a first target entity, and selects the first target entity from the selected text data. The first target attribute is selected as a first target attribute, and a set of the first target entity and the first target attribute is set as a first target entity-target attribute pair, and the first target in the selected text data is selected. Information representing the characteristics of the entity-target attribute pair is set as at least a part of the feature of the first target entity-target attribute pair, and the feature of the first target entity-target attribute pair is input to the first identification model. The first target entity-target attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair. When the first target entity-target attribute pair is identified as a positive entity-positive attribute pair, the first target attribute is added to the set of positive attribute, An attribute identifying step of adding the first target attribute to the set of negative example attributes when the target entity-target attribute pair is identified as a negative example entity-negative example attribute pair;
A second positive example entity-positive example , in which the entity identifying feature extraction unit is a set of a second positive example entity selected from the positive example entity set and a second positive example attribute selected from the positive example attribute set. A second negative example entity-negative example attribute pair that is a set of an attribute pair, a second negative example entity selected from the set of negative example entities, and a second negative example attribute selected from the set of negative example attributes. Generating and selecting a character string including a set of the second positive example entity and the second positive example attribute from the set of text data, and the second positive example entity-positive example attribute for the selected character string. Information representing the characteristics of the pair is at least a part of the feature of the second positive example entity-positive example attribute pair, and the second negative example entity and the second negative example attribute are obtained from the set of text data. A character string including a pair is selected, and information indicating the characteristics of the second negative example entity-negative example attribute pair for the selected character string is used as at least part of the features of the second negative example entity-negative example attribute pair. An entity identification feature extraction step,
The entity identification learning unit performs an arbitrary character string by learning processing using the feature of the second positive example entity-positive example attribute pair and the feature of the second negative example entity-negative example attribute pair as supervised learning data. To identify whether the entity-attribute pair is a positive entity-positive example attribute pair or a negative example entity-negative example attribute pair by inputting the identity of an entity-attribute pair that is a set of an entity and the attribute of the entity An entity identification learning step for generating a second identification model which is a function for outputting information;
The entity identification unit selects any one of the text data from the set of text data, selects a character string included in the selected text data as a second target entity, and selects the second target entity from the selected text data. A character string different from the second target attribute is selected as a second target attribute, and a set of the second target entity and the second target attribute is set as a second target entity-target attribute pair, and the second target in the selected text data is selected. Information representing the characteristics of the entity-target attribute pair is set as at least a part of the feature of the second target entity-target attribute pair, and the feature of the second target entity-target attribute pair is input to the second identification model Second target entity-target attribute pair is positive entity-positive attribute pair or negative entity-negative And when the second target entity-target attribute pair is identified as an example entity-example attribute pair, the second entity is added to the set of example entities, An entity identification step of adding the second target entity to the set of negative example entities when the two target entity-target attribute pairs are identified as negative example entity-negative example attribute pairs;
A data extraction method comprising:
請求項1から13の何れかのデータ抽出装置の各部としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as each unit of the data extraction device according to claim 1.
JP2011094885A 2010-10-29 2011-04-21 Data extraction apparatus, data extraction method, and program thereof Active JP5542732B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011094885A JP5542732B2 (en) 2010-10-29 2011-04-21 Data extraction apparatus, data extraction method, and program thereof

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010243950 2010-10-29
JP2010243950 2010-10-29
JP2011094885A JP5542732B2 (en) 2010-10-29 2011-04-21 Data extraction apparatus, data extraction method, and program thereof

Publications (2)

Publication Number Publication Date
JP2012108867A JP2012108867A (en) 2012-06-07
JP5542732B2 true JP5542732B2 (en) 2014-07-09

Family

ID=46494392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011094885A Active JP5542732B2 (en) 2010-10-29 2011-04-21 Data extraction apparatus, data extraction method, and program thereof

Country Status (1)

Country Link
JP (1) JP5542732B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6549500B2 (en) * 2016-02-26 2019-07-24 トヨタ自動車株式会社 Topic estimation learning apparatus and topic estimation learning method
US11238363B2 (en) * 2017-04-27 2022-02-01 Accenture Global Solutions Limited Entity classification based on machine learning techniques
CN112148895B (en) 2020-09-25 2024-01-23 北京百度网讯科技有限公司 Training method, device, equipment and computer storage medium for retrieval model

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3692399B2 (en) * 2001-12-26 2005-09-07 独立行政法人情報通信研究機構 Notation error detection processing apparatus using supervised machine learning method, its processing method, and its processing program
JP5360414B2 (en) * 2007-06-06 2013-12-04 日本電気株式会社 Keyword extraction model learning system, method and program
US8165985B2 (en) * 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes

Also Published As

Publication number Publication date
JP2012108867A (en) 2012-06-07

Similar Documents

Publication Publication Date Title
US10860808B2 (en) Method and system for generation of candidate translations
CN109815308B (en) Method and device for determining intention recognition model and method and device for searching intention recognition
RU2628431C1 (en) Selection of text classifier parameter based on semantic characteristics
RU2628436C1 (en) Classification of texts on natural language based on semantic signs
Sordoni et al. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion
US11210468B2 (en) System and method for comparing plurality of documents
US8359190B2 (en) Identifying semantic positions of portions of a text
KR101754473B1 (en) Method and system for automatically summarizing documents to images and providing the image-based contents
JP5710581B2 (en) Question answering apparatus, method, and program
CN110457708B (en) Vocabulary mining method and device based on artificial intelligence, server and storage medium
CN110717038B (en) Object classification method and device
US11263400B2 (en) Identifying entity attribute relations
US11544317B1 (en) Identifying content items in response to a text-based request
CN114997288A (en) Design resource association method
JP5542732B2 (en) Data extraction apparatus, data extraction method, and program thereof
WO2015125209A1 (en) Information structuring system and information structuring method
JP5379813B2 (en) Data extraction apparatus, data extraction method, and program
US11755671B2 (en) Projecting queries into a content item embedding space
JP5379812B2 (en) Data extraction apparatus, data extraction method, and program
JP5175585B2 (en) Document processing apparatus, electronic medical chart apparatus, and document processing program
JP5342574B2 (en) Topic modeling apparatus, topic modeling method, and program
CN110598209A (en) Method, system and storage medium for extracting keywords
CN117112858B (en) Object screening method based on association rule mining, processor and storage medium
Esmailzadeh et al. Cognitive-aware Short-text Understanding for Inferring Professions
ATTAPORN A Study on Detecting Domain-Specific Senses and its Application to Text Categorization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140507

R150 Certificate of patent or registration of utility model

Ref document number: 5542732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150