JP5441173B2 - Related information extraction apparatus, method and program thereof - Google Patents

Related information extraction apparatus, method and program thereof Download PDF

Info

Publication number
JP5441173B2
JP5441173B2 JP2010129081A JP2010129081A JP5441173B2 JP 5441173 B2 JP5441173 B2 JP 5441173B2 JP 2010129081 A JP2010129081 A JP 2010129081A JP 2010129081 A JP2010129081 A JP 2010129081A JP 5441173 B2 JP5441173 B2 JP 5441173B2
Authority
JP
Japan
Prior art keywords
information
relationship
related information
candidate
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010129081A
Other languages
Japanese (ja)
Other versions
JP2011257790A (en
Inventor
徹 平野
久子 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010129081A priority Critical patent/JP5441173B2/en
Publication of JP2011257790A publication Critical patent/JP2011257790A/en
Application granted granted Critical
Publication of JP5441173B2 publication Critical patent/JP5441173B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力されたテキストを要約する要約システム等において重要な役割を果たす、複数の固有表現に関係する情報を抽出する技術に関する。   The present invention relates to a technique for extracting information related to a plurality of specific expressions, which plays an important role in a summarization system or the like that summarizes input text.

従来、複数の固有表現に関係する情報を抽出する技術として、入力テキストの係り受け構造と、入力テキストに含まれる単語が固有表現間の関係を示すものとして用いられやすいか否かを表す情報とを素性とした機械学習により、関係情報を抽出するものが知られている(例えば非特許文献1参照)。   Conventionally, as a technique for extracting information related to a plurality of specific expressions, a dependency structure of input text, and information indicating whether or not words included in the input text are easily used as a relationship between specific expressions, There is known one that extracts relational information by machine learning using a feature as a feature (see, for example, Non-Patent Document 1).

例えば、「日本の鳩山首相は来月韓国を訪問する。」というテキストと、「鳩山」及び「日本」という固有表現の組とが入力されると、「日本の」という文節が「鳩山首相は」という文節に係っているという係り受け構造と、「首相」という単語が人物と組織の関係を示すものとして用いられやすい単語であるという情報に基づいて、「首相」という情報が上記固有表現の組の関係を示す情報として抽出される。   For example, if the text “Japan's Prime Minister Hatoyama will visit Korea next month” and a set of unique expressions “Hatoyama” and “Japan” are entered, the phrase “Japan” The information “Prime” is based on the dependency structure that is related to the phrase “Prime” and the information that the word “Prime” is easy to use as an indication of the relationship between the person and the organization. It is extracted as information indicating the relationship of the pair.

また、上記の関係情報抽出技術を用いた場合には、「鳩山」及び「韓国」という固有表現の組が入力された場合に、「訪問する」という情報が関係情報として抽出される。   In addition, when the relation information extraction technique described above is used, when a set of specific expressions “Hatoyama” and “Korea” is input, the information “visit” is extracted as the relation information.

平野 徹、他2名、“関係名詞らしさを用いた固有表現間の関係同定”、言語処理学会第15回年次大会講演論文集、2009年3月、D5−5Toru Hirano and two others, “Identification of relations between proper expressions using relative nounness”, Proc. Of the 15th Annual Conference of the Association for Natural Language Processing, March 2009, D5-5

しかしながら、非特許文献1記載の技術では、文節間の係り受け構造等の文法的情報と、固有表現間の関係を示すものとして用いられやすい情報であるか否かという語彙的情報のみを素性として用いているため、例えば誤った文法及び語彙からなる大規模テキストデータを用いた機械学習を行った場合には、最適な関係情報を抽出することができないおそれがあることから、関係情報の抽出精度を向上させることが困難であった。   However, the technology described in Non-Patent Document 1 uses only grammatical information such as dependency structure between clauses and lexical information on whether or not the information is easy to be used as an indication of the relationship between specific expressions. For example, if machine learning is performed using large-scale text data consisting of incorrect grammar and vocabulary, the optimal relationship information may not be extracted. It was difficult to improve.

本発明は前記問題点に鑑みてなされたものであり、その目的とするところは、複数の固有表現間の関係情報を高精度で抽出可能な装置、その方法及びプログラムを提供することにある。   The present invention has been made in view of the above problems, and an object of the present invention is to provide an apparatus, a method, and a program that can extract relation information between a plurality of specific expressions with high accuracy.

本発明の関係情報抽出装置は、前記目的を達成するために、入力された複数の固有表現に関係する情報を抽出する装置であって、前記各固有表現を含むテキストと、当該各固有表現からなる固有表現の組とが入力されると、入力テキストを形態素解析し、入力テキストを構成する文節の係り受けとともに前記固有表現の組を解析する解析処理部と、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析処理部による解析結果に基づき前記固有表現の組の種類に対応するモデルを選択し、解析処理部による解析結果及び変化情報に基づいて関係情報候補が前記固有表現の組の関係情報か否かを前記モデルを用いて判別し、関係情報を抽出する関係情報抽出処理部とを備えている。 In order to achieve the above object, the related information extracting apparatus of the present invention is an apparatus for extracting information related to a plurality of input specific expressions, and includes a text including each of the specific expressions, and each of the specific expressions. When a specific expression set is input, the input text is morphologically analyzed , and the analysis processing unit that analyzes the specific expression set together with the dependency of the clauses constituting the input text, and obtains the analysis result by the analysis processing unit Then, at least one independent word included in the input text is extracted as a related information candidate, and it is estimated that past related information used in the past as related information of each unique expression has changed to the related information candidate over time. the change information indicating the degree to get every extracted related information candidates, select the model corresponding to the set type of the named entities based on the analysis result by the analysis unit, Based on the analysis result and the change information by the analysis processing unit each related information candidate whether the set of relationship information named entities determined by using the model, a relationship information extraction processing section for extracting relationship information ing.

また、本発明の関係情報抽出方法は、前記目的を達成するために、入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、前記コンピュータは、各固有表現を含むテキストと、当該各固有表現からなる固有表現の組とが入力されると、入力テキストを形態素解析し、入力テキストを構成する文節の係り受けとともに前記固有表現の組を解析し、前記コンピュータは、前記解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果に基づき前記固有表現の組の種類に対応するモデルを選択し、解析結果及び変化情報に基づいて関係情報候補が前記固有表現の組の関係情報か否かを前記モデルを用いて判別し、関係情報を抽出している。 Further, the related information extraction method of the present invention is a method for extracting information related to a plurality of input specific expressions using a computer in order to achieve the object, wherein the computer And a set of specific expressions composed of the specific expressions , the input text is subjected to morphological analysis , the set of specific expressions is analyzed together with the dependency of clauses constituting the input text, and the computer When the analysis result is acquired, at least one independent word included in the input text is extracted as a related information candidate, and past related information used in the past as related information of each unique expression is extracted as the related information candidate. the change information indicating the degree that is estimated to have changed with time, and obtained for each extracted related information candidate pairs to a set of types of the named entities based on the analysis result A model that was selected, the analysis results and the related information candidates based on the change information whether a set of related information of the named entities determined by using the model, and extracting the relationship information.

さらに、本発明のプログラムは、コンピュータを、上記関係情報抽出装置の各手段として機能させるためのものである。   Furthermore, the program of the present invention is for causing a computer to function as each means of the related information extracting apparatus.

さらにまた、本発明のプログラムは、コンピュータに、上記関係情報抽出方法の各処理を実行させるためのものである。   Furthermore, the program of the present invention is for causing a computer to execute each process of the related information extraction method.

これにより、各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報と解析結果とに基づいて、関係情報候補から関係情報が抽出されることから、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することが可能となる。   As a result, based on the change information indicating the degree to which the past relationship information used in the past as the relationship information of each unique expression is estimated to have changed over time to the relationship information candidate, and the analysis result, the relationship information from the relationship information candidate Therefore, it is possible to extract the relationship information in consideration of the change in the relationship between the specific expressions over time.

本発明の関係情報抽出装置、その方法及びプログラムによれば、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することができるので、例えば「Aさん」と「Bさん」という固有表現の組の過去の関係情報が「交際」であって、入力テキストから抽出された関係情報候補の集合が{結婚、会う、食べる、飲む、ライバル}であった場合には、人と人との間における「交際」、「婚約」、「結婚」というような典型的な関係の遷移に基づいて、関係情報候補のうち「結婚」を関係情報として抽出することができる。従って、複数の固有表現間の関係情報を高精度で抽出することができる。   According to the related information extracting apparatus, method and program of the present invention, it is possible to extract related information in consideration of changes in the relationship over time between each unique expression, so for example, “Mr. A” and “Mr. B” If the past related information of the specific expression set is “companion” and the set of related information candidates extracted from the input text is {marriage, meet, eat, drink, rival} Based on the transition of typical relationships such as “dating”, “engagement”, and “marriage” between people and people, “marriage” can be extracted as relationship information. Therefore, it is possible to extract relation information between a plurality of unique expressions with high accuracy.

本発明の一実施形態における関係情報抽出装置の構成図1 is a configuration diagram of a related information extraction device according to an embodiment of the present invention. 関係情報抽出処理のフロー図Relationship information extraction process flow chart 係り受け解析部による解析結果の概要を示す図Diagram showing the summary of analysis results by the dependency analysis unit 固有表現対応付け部による処理結果の概要を示す図The figure which shows the outline | summary of the processing result by a specific expression matching part 係り受け構造情報取得部による処理結果の概要を示す図The figure which shows the outline of the processing result by the dependency structure information acquisition section 係り受け構造情報取得部による処理結果の概要を示す図The figure which shows the outline of the processing result by the dependency structure information acquisition section 係り受け構造情報取得部による処理結果の概要を示す図The figure which shows the outline of the processing result by the dependency structure information acquisition section 関係推定情報取得部による処理結果の概要を示す図The figure which shows the outline of the processing result by the relation estimation information acquisition part 変化情報記憶部に記憶される情報のデータ構造の一例を示す図The figure which shows an example of the data structure of the information memorize | stored in a change information storage part 変化情報記憶部に記憶される情報のデータ構造の一例を示す図The figure which shows an example of the data structure of the information memorize | stored in a change information storage part 変化情報記憶部に記憶される情報のデータ構造の一例を示す図The figure which shows an example of the data structure of the information memorize | stored in a change information storage part 変化情報記憶部に記憶される情報のデータ構造の一例を示す図The figure which shows an example of the data structure of the information memorize | stored in a change information storage part 変化情報記憶部に記憶される情報のデータ構造の一例を示す図The figure which shows an example of the data structure of the information memorize | stored in a change information storage part 変化情報記憶部に記憶される情報のデータ構造の一例を示す図The figure which shows an example of the data structure of the information memorize | stored in a change information storage part 変化情報取得部による処理結果の概要を示す図The figure which shows the outline of the processing result by change information acquisition section

図1乃至図15は本発明の一実施形態を示すもので、図1は本発明の一実施形態における関係情報抽出装置の構成図、図2は関係情報抽出処理のフロー図、図3は係り受け解析部による解析結果の概要を示す図、図4は固有表現対応付け部による処理結果の概要を示す図、図5乃至図7は係り受け構造情報取得部による処理結果の概要を示す図、図8は関係推定情報取得部による処理結果の概要を示す図、図9乃至図14は変化情報記憶部に記憶される情報のデータ構造の一例を示す図、図15は変化情報取得部による処理結果の概要を示す図である。   FIG. 1 to FIG. 15 show an embodiment of the present invention. FIG. 1 is a configuration diagram of a related information extracting apparatus according to an embodiment of the present invention, FIG. 2 is a flowchart of related information extraction processing, and FIG. The figure which shows the outline of the analysis result by the receiving analysis part, FIG. 4 is the figure which shows the outline of the processing result by the specific expression matching part, FIG. 5 thru | or FIG. 7 is the figure which shows the outline of the processing result by the dependency structure information acquisition part, 8 is a diagram showing an overview of the processing results obtained by the relationship estimation information acquisition unit, FIGS. 9 to 14 are diagrams showing examples of the data structure of information stored in the change information storage unit, and FIG. 15 is a process performed by the change information acquisition unit. It is a figure which shows the outline | summary of a result.

以下、図面を参照して本発明の関係情報抽出装置及びその方法の概要を説明する。   The outline of the related information extracting apparatus and method according to the present invention will be described below with reference to the drawings.

本発明の関係情報抽出装置は、周知のCPUを主体として構成されたコンピュータ装置からなり、モニタ等の表示手段、キーボード等の入力手段、ハードディスクやメモリ等の記憶手段及び外部ネットワークに接続可能な通信装置等(何れも図示省略)を備えている。また、本発明の関係情報抽出装置には、解析処理部10と、関係情報抽出処理部20と、関係推定情報記憶部30と、変化情報記憶部40と、過去関係情報記憶部50と、モデル記憶部60とが設けられている。   The related information extracting apparatus of the present invention comprises a computer device mainly composed of a well-known CPU, and can be connected to display means such as a monitor, input means such as a keyboard, storage means such as a hard disk and memory, and an external network. A device (not shown) is provided. Further, the relationship information extraction apparatus of the present invention includes an analysis processing unit 10, a relationship information extraction processing unit 20, a relationship estimation information storage unit 30, a change information storage unit 40, a past relationship information storage unit 50, a model. A storage unit 60 is provided.

解析処理部10は、図1に示すように形態素解析部11、係り受け解析部12及び固有表現対応付け部13からなり、2つの固有表現からなる固有表現の組と、テキストと、テキストの作成日付とが入力手段を用いて入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受け関係を解析するようになっている。   As shown in FIG. 1, the analysis processing unit 10 includes a morphological analysis unit 11, a dependency analysis unit 12, and a specific expression association unit 13, and a set of specific expressions composed of two specific expressions, text, and creation of text When a date is input using an input means, the input text is analyzed by morpheme and the dependency relation of clauses constituting the input text is analyzed.

形態素解析部11は、入力テキストを取得すると(図2のステップS1)、入力テキストに対して周知の形態素解析処理を行うことにより入力テキストを単語分割し、分割した各単語に品詞を付与して出力する(図2のステップS2)。例えば、「小泉純一郎は東京駅で、小沢一郎は大阪駅で演説した。」という文が入力された場合には、形態素解析部11による処理結果は、「小泉純一郎(名詞)/は(格助詞)/東京駅(名詞)/で(助詞)/、(読点)/小沢一郎(名詞)/は(助詞)/大阪駅(名詞)/で(助詞)/演説(動詞)/した(接尾辞)/。(句点)」となる。   When the morpheme analysis unit 11 acquires the input text (step S1 in FIG. 2), the input text is divided into words by performing a well-known morpheme analysis process, and parts of speech are assigned to the divided words. Output (step S2 in FIG. 2). For example, if a sentence “Junichiro Koizumi gave a speech at Tokyo Station and Ichiro Ozawa at Osaka Station” is input, the processing result by the morphological analysis unit 11 is “Junichiro Koizumi (noun) / ha (case particle). ) / Tokyo Station (noun) / de (particle) /, (reading) / Ichiro Ozawa (noun) / ha (particle) / Osaka station (noun) / de (particle) / speech (verb) / suffix (suffix) /. (Punctuation) ".

係り受け解析部12は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の係り受け解析処理を行うことにより、該テキストを文節に分割し、分割された複数の文節間の係り受け関係を解析して出力する(図2のステップS3)。この場合、例示した入力テキストが係り受け解析部12によって解析されると、図3に示すような係り受け構造を表す情報(係り受け木)が解析結果として出力される。ここで、「小泉純一郎/は」という文節と、「東京駅/で/、」という文節と、「小沢一郎/は」という文節と、「大阪駅/で」という文節とは、それぞれ「演説/した/。」という文節に係っており、これらの係り受け関係をデータとして実装する場合には、例えば「(演説した。(小泉純一郎は)(東京駅で、)(小沢一郎は)(大阪駅で)」というように表現される。また、これらの係り受け関係には、周知の係り受け解析技術において定義された係り受けタイプ情報(通常の係り受け関係を表す「D」、並列の係り受け関係を表す「P」、「同格の係り受け関係を表す「A」または自己係りの関係を表す「Q」)が付与される。   The dependency analysis unit 12 divides the text into phrases by performing a well-known dependency analysis process on the input text that has been obtained from the morpheme analysis unit 11 and has been subjected to morpheme analysis. The dependency relationship is analyzed and output (step S3 in FIG. 2). In this case, when the illustrated input text is analyzed by the dependency analysis unit 12, information representing a dependency structure (dependency tree) as shown in FIG. 3 is output as an analysis result. Here, the phrase “Junichiro Koizumi / Ha”, the phrase “Tokyo Station / De /,”, the phrase “Ichiro Ozawa / Ha”, and the phrase “Osaka Station / De” are respectively “Speech / In the case of implementing these dependency relationships as data, for example, “(Speech. (Junichiro Koizumi) (At Tokyo Station)” (Ichiro Ozawa) (Osaka) In addition, these dependency relationships include dependency type information defined in a well-known dependency analysis technique (“D” representing a normal dependency relationship, parallel dependency). "P" representing the receiving relationship, "A" representing the receiving relationship of the same rank, or "Q" indicating the relationship of the self-related).

固有表現対応付け部13は、入力された固有表現の組と係り受け解析部12の解析結果とを用いて固有表現対応付け処理を行うためのものである。具体的に説明すると、固有表現対応付け部13は、入力手段を用いて入力された固有表現の組及び係り受け解析部12で解析された入力テキストを取得すると(図2のステップS4)、入力された各固有表現に対応する固有表現を入力テキストから抽出し、抽出された固有表現に対して固有表現を表す固有表現識別子を付与する(図2のステップS5)。例えば、「小泉純一郎」という固有表現が入力された場合には、入力テキスト中の「小泉純一郎」は「<PSN>小泉純一郎</PSN>」と表記される。ここで、「PSN」は人名を表す固有表現識別子であり、本実施形態では、周知の固有表現抽出技術において定義された8種類の固有表現識別子(人名を表す「PSN」、組織名を表す「ORG」、地名を表す「LOC」、人工物名を表す「ART」、金額を表す「MNY」、割合を表す「PNT」、時刻を表す「TIM」及び日付を表す「DAT」)が用いられている。   The specific expression association unit 13 is for performing a specific expression association process using the input set of specific expressions and the analysis result of the dependency analysis unit 12. More specifically, when the specific expression association unit 13 acquires a set of specific expressions input using the input unit and the input text analyzed by the dependency analysis unit 12 (step S4 in FIG. 2), the input is performed. A unique expression corresponding to each unique expression is extracted from the input text, and a unique expression identifier representing the specific expression is assigned to the extracted specific expression (step S5 in FIG. 2). For example, when a specific expression “Junichiro Koizumi” is input, “Junichiro Koizumi” in the input text is expressed as “<PSN> Junichiro Koizumi </ PSN>”. Here, “PSN” is a unique expression identifier representing a person name. In this embodiment, eight types of unique expression identifiers (“PSN” representing a person name and “PSN” representing an organization name defined in a well-known unique expression extraction technique). ORG ”,“ LOC ”representing place name,“ ART ”representing artifact name,“ MNY ”representing amount,“ PNT ”representing percentage,“ TIM ”representing time, and“ DAT ”representing date) ing.

なお、本実施形態では、固有表現の組を「小泉純一郎:東京駅」のように表記する。この場合、固有表現の組のうち入力テキストにおいて先に現れる固有表現が前方固有表現として「:」の左側に表され、後に現れる固有表現が後方固有表現として「:」の右側に表される。また、「小泉純一郎:東京駅」という固有表現の組が入力されたときには、固有表現対応付け部13の処理結果は図4のように示される。   In the present embodiment, a set of unique expressions is expressed as “Junichiro Koizumi: Tokyo Station”. In this case, the specific expression that appears first in the input text in the set of specific expressions is represented as the front specific expression on the left side of “:”, and the specific expression that appears later is displayed on the right side of “:” as the backward specific expression. Further, when a specific expression set of “Junichiro Koizumi: Tokyo Station” is input, the processing result of the specific expression association unit 13 is shown in FIG.

次に、関係情報抽出処理部20の概要を説明する。関係情報抽出処理部20は、関係情報候補抽出部21と、係り受け構造情報取得部22と、関係推定情報取得部23と、変化情報取得部24と、モデル選択部25と、分類器26と、関係情報抽出部27とからなり、解析処理部10から取得した解析結果に基づいて固有表現の組の関係情報を抽出するようになっている。   Next, an outline of the relationship information extraction processing unit 20 will be described. The relationship information extraction processing unit 20 includes a relationship information candidate extraction unit 21, a dependency structure information acquisition unit 22, a relationship estimation information acquisition unit 23, a change information acquisition unit 24, a model selection unit 25, and a classifier 26. The relation information extracting unit 27 extracts relation information of a set of specific expressions based on the analysis result acquired from the analysis processing unit 10.

関係情報候補抽出部21は、解析処理部10による解析結果を固有表現対応付け部13から取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出する(図2のステップS6)。ここで、関係情報候補抽出部21は、入力テキストにおいて固有表現の組が同一文節に含まれる場合に、固有表現の組のうち前方固有表現の前方に隣接する自立語と、各固有表現間に存在する自立語と、後方固有表現の後方に隣接する自立語とを関係情報候補として抽出する。例えば、「<PSN>石原</PSN><LOC>東京都</LOC>知事が」というように、「石原:東京都」という固有表現の組が同一文節に含まれている場合には、後方固有表現「東京都」の後方に隣接する「知事」という自立語が関係情報候補として抽出される。   When the analysis result obtained by the analysis processing unit 10 is acquired from the specific expression association unit 13, the related information candidate extraction unit 21 extracts at least one independent word included in the input text as a related information candidate (step S6 in FIG. 2). . Here, the relationship information candidate extraction unit 21, when a set of specific expressions is included in the same phrase in the input text, between the independent words adjacent to the front of the front specific expression in the specific expressions and each specific expression The existing independent words and the independent words that are adjacent to the rear of the backward unique expression are extracted as related information candidates. For example, when a set of specific expressions “Ishihara: Tokyo” is included in the same phrase, such as “<PSN> Ishihara </ PSN> <LOC> Tokyo </ LOC> governor”, An independent word “governor” adjacent to the back of the backward proper expression “Tokyo” is extracted as a candidate for related information.

また、関係情報候補抽出部21は、入力テキストにおいて固有表現の組が互いに異なる文節に含まれる場合に、固有表現の組のうち前方固有表現の前方又は後方に隣接する自立語と、後方固有表現の前方又は後方に隣接する自立語とを関係情報候補として抽出する。例えば、「<ORG>自民党</ORG>総裁には」というように、「小泉純一郎:自民党」という固有表現の組が互いに異なる文節に含まれている場合には、後方固有表現「自民党」の後方に隣接する「総裁」という自立語が関係情報候補として抽出される。   In addition, the related information candidate extraction unit 21, when the set of specific expressions in the input text is included in different clauses, the independent word adjacent to the front or rear of the front specific expression in the set of specific expressions, and the rear specific expression Independent words adjacent to the front or rear of the are extracted as related information candidates. For example, if the set of specific expressions “Joiichiro Koizumi: Liberal Democratic Party” is included in different clauses, such as “<ORG> Liberal Democratic Party </ ORG> Governors”, the backward proper expression “Liberal Democratic Party” An independent word “Governor” adjacent to the rear is extracted as a related information candidate.

さらに、関係情報候補抽出部21は、固有表現の組が含まれていない文節の主辞が自立語である場合に、該文節の先頭から主辞までの形態素を関係情報候補として抽出する。例えば、「演説した。」という文節のように、主辞「演説」が自立語である場合には、「演説」という形態素が関係情報候補として抽出される。   Furthermore, when the main word of the phrase that does not include the specific expression pair is an independent word, the related information candidate extraction unit 21 extracts the morphemes from the head of the phrase to the main word as related information candidates. For example, when the main sentence “Speech” is an independent word as in the phrase “Speech”, the morpheme “Speech” is extracted as a related information candidate.

なお、本実施形態では、図4に示した解析結果が入力されると、「小沢一郎」、「大阪駅」及び「演説」の3つが関係情報候補として抽出される。また、本実施形態では、上記3つの関係情報候補抽出方法を用いたが、各関係情報候補抽出方法のうち何れか1つ又は2つの方法を用いて関係情報候補の抽出処理を行ってもよい。   In the present embodiment, when the analysis result shown in FIG. 4 is input, “Ichiro Ozawa”, “Osaka Station”, and “Speech” are extracted as related information candidates. Further, in the present embodiment, the above three relational information candidate extraction methods are used. However, any one or two of the relational information candidate extraction methods may be used to perform the relational information candidate extraction process. .

係り受け構造情報取得部22は、解析処理部10による解析結果を固有表現対応付け部13から取得するとともに、関係情報候補を関係情報候補抽出部21から取得すると、固有表現の組と関係情報候補を含む最小の係り受け木を抽出する。また、係り受け構造情報取得部22は、抽出した係り受け木と、各文節の主辞の品詞・係り受けタイプ・助詞と、固有表現の組の固有表現識別子と、関係情報候補の形態素の表記及び品詞とを用いて木構造情報を生成することにより、係り受け構造情報を取得する(図2のステップS7)。例えば、「小泉純一郎:東京駅」という固有表現の組と、「小沢一郎」という関係情報候補とから生成された木構造情報は、図5のように示される。また、「小泉純一郎:東京駅」という固有表現の組と、「大阪駅」という関係情報候補とから生成された木構造情報は、図6のように示され、「小泉純一郎:東京駅」という固有表現の組と、「演説」という関係情報候補とから生成された木構造情報は、図7のように示される。なお、本実施形態では、助詞が文節に含まれていないことを、「φ」を用いて表現している。例えば、図5乃至図7の木構造情報では、助詞が「演説した。」という文節に含まれていないことが表されている。   When the dependency structure information acquisition unit 22 acquires the analysis result by the analysis processing unit 10 from the specific expression association unit 13 and acquires the related information candidate from the related information candidate extraction unit 21, the set of specific expressions and the related information candidate Extract the smallest dependency tree that contains. In addition, the dependency structure information acquisition unit 22 includes the extracted dependency tree, the part of speech / dependency type / participant of the main part of each clause, the specific expression identifier of the set of specific expressions, the notation of the morphemes of the related information candidates, The dependency structure information is acquired by generating the tree structure information using the part of speech (step S7 in FIG. 2). For example, the tree structure information generated from the unique expression set “Junichiro Koizumi: Tokyo Station” and the related information candidate “Ichiro Ozawa” is shown in FIG. Further, the tree structure information generated from the unique expression set “Junichiro Koizumi: Tokyo Station” and the related information candidate “Osaka Station” is shown in FIG. 6 and is called “Junichiro Koizumi: Tokyo Station”. The tree structure information generated from the set of proper expressions and the related information candidate “speech” is shown in FIG. In the present embodiment, “φ” is used to express that the particle is not included in the phrase. For example, the tree structure information in FIGS. 5 to 7 indicates that the particle is not included in the phrase “Speaked”.

関係推定情報取得部23は、係り受け構造情報取得部22によって生成された各関係情報候補の係り受け構造情報を取得すると、関係情報候補が関係情報であると推定される度合を表す関係推定情報を、関係推定情報記憶部30から取得する(図2のステップS8)。関係推定情報記憶部30には、例えば「小沢一郎=0.1」、「大阪駅=0.2」、「演説=1」というように、複数の形態素それぞれに対応する複数の関係推定情報が事前に記憶されており、各関係推定情報は、人的または後述の算出方法により作成されている。関係推定情報取得部23は、図7に示した係り受け構造情報を取得すると、関係推定情報記憶部30に記憶された各関係推定情報のうち、「演説」という関係情報候補に対応する関係推定情報を検索し、該当する関係推定情報「1」を抽出する。そして、関係推定情報取得部23は、抽出した関係推定情報を、図8に示すように、係り受け構造情報における候補ノードの子ノードとして追加する。なお、関係推定情報取得部23は、関係情報候補抽出部21にて抽出された他の関係情報候補(「小沢一郎」及び「大阪駅」)についても同様の処理を行う。   When the relationship estimation information acquisition unit 23 acquires the dependency structure information of each relationship information candidate generated by the dependency structure information acquisition unit 22, the relationship estimation information indicating the degree to which the relationship information candidate is estimated to be the relationship information. Is acquired from the relationship estimation information storage unit 30 (step S8 in FIG. 2). The relationship estimation information storage unit 30 has a plurality of relationship estimation information corresponding to each of a plurality of morphemes, for example, “Ichiro Ozawa = 0.1”, “Osaka Station = 0.2”, “Speech = 1”. Each relationship estimation information is stored in advance, and is created by a human or a calculation method described later. When the relationship estimation information acquisition unit 23 acquires the dependency structure information illustrated in FIG. 7, among the relationship estimation information stored in the relationship estimation information storage unit 30, the relationship estimation corresponding to the relationship information candidate “speech” Information is searched, and relevant relationship estimation information “1” is extracted. Then, the relationship estimation information acquisition unit 23 adds the extracted relationship estimation information as a child node of the candidate node in the dependency structure information as illustrated in FIG. The relationship estimation information acquisition unit 23 performs the same process on the other relationship information candidates (“Ichiro Ozawa” and “Osaka Station”) extracted by the relationship information candidate extraction unit 21.

なお、関係情報の推定度合を大規模コーパスから算出する技術については、田中他、「意味範疇の散らばりに基づいた名詞の統語範疇の分類」、情報処理学会論文誌、vol.40、no.9、pp.3387−3396、1999年9月を参照されたい。   As for the technique for calculating the estimated degree of related information from a large corpus, Tanaka et al., “Classification of syntactic categories of nouns based on the dispersion of semantic categories”, Transactions of Information Processing Society of Japan, vol. 40, no. 9, pp. 3387-3396, September 1999.

変化情報取得部24は、入力テキストの作成日付と、関係推定情報取得部23の処理結果とを取得すると、各固有表現の関係情報として過去に用いられた過去関係情報が関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得する(図2のステップS9)。具体的に説明すると、変化情報取得部24は、所定のテキスト集合としての大規模テキストデータから事前に抽出された各固有表現の関係情報のうち、入力テキストの作成日付よりも過去に作成されたテキストから抽出された関係情報を過去関係情報Rm として取得する。そして、変化情報取得部24は、過去関係情報Rm と変化情報記憶部40に記憶されている情報とに基づいて、変化情報としての確率PT (rn |Rm )及び順位RankPT (rn |Rm )を取得する。なお、確率PT (rn |Rm )及び順位RankPT (rn |Rm )の詳細については後述する。 When the change information acquisition unit 24 acquires the creation date of the input text and the processing result of the relationship estimation information acquisition unit 23, the past relationship information used in the past as the relationship information of each unique expression changes to the relationship information candidate over time. Change information representing the degree of estimation that is estimated is acquired for each extracted relational information candidate (step S9 in FIG. 2). More specifically, the change information acquisition unit 24 is created in the past from the creation date of the input text among the relationship information of each specific expression extracted in advance from large-scale text data as a predetermined text set. acquires related information extracted from the text as the past related information R m. Then, the change information acquisition unit 24, based on the past relationship information R m and the information stored in the change information storage unit 40, the probability P T (r n | R m ) and the rank Rank P T ( r n | R m ) is acquired. Details of the probability P T (r n | R m ) and the rank Rank P T (r n | R m ) will be described later.

ここで、変化情報記憶部40に記憶されている情報について説明する。変化情報記憶部40には、図9乃至図14に示すように、2つの関係情報rm ,rn の共起数Count(rm ,rn )と、関係情報rm から関係情報rn への経時変化を表した確率モデルであるトリガーモデルPT (rn |rm )とが、固有表現の組の種類毎に事前に記憶されている。例えば、図9には「人名:人名」という固有表現の組の種類におけるデータ構造の一例が示され、図10には「人名:組織名」という固有表現の組の種類におけるデータ構造の一例が示されている。また、図11及び図12には「組織名:組織名」という固有表現の組の種類について、図13には「人名:地名」という固有表現の組の種類について、図14には「地名:地名」という固有表現の組の種類についてデータ構造の一例が示されている。 Here, information stored in the change information storage unit 40 will be described. The change information storing section 40, as shown in FIGS. 9 to 14, the two related information r m, co-occurrence count Count (r m, r n) of the r n and the relationship information r m from the relationship information r n A trigger model P T (r n | r m ), which is a probability model representing the change over time, is stored in advance for each type of set of proper expressions. For example, FIG. 9 shows an example of the data structure in the type of the unique expression set “person name: person name”, and FIG. 10 shows an example of the data structure in the type of the set of specific expression “person name: organization name”. It is shown. 11 and 12 show the type of the unique expression set “organization name: organization name”, FIG. 13 shows the type of the specific expression set “person name: place name”, and FIG. An example of the data structure is shown for the type of the unique expression set “place name”.

共起数Count(rm ,rn )は、大規模テキストデータ内の各テキストにおいて関係情報rm ,rn が共起した数を表したものである。共起数のカウント方法について具体的に説明すると、まず、テキストにおいて何らかの関係を有する固有表現の組と当該組の各固有表現に対応する複数の関係情報とが、大規模テキストデータから事前に抽出される。ここで、複数の関係情報のそれぞれには、テキストの作成年月日が付されており、各関係情報は作成年月日の古い順に配列される。そして、複数の関係情報のうち作成年月日の異なる2つの関係情報からなる組合せについて、時間的に前後して共起したものとみなしてカウントする。例えば、「人名:人名」という固有表現の組の種類に該当する「Aさん:Bさん」という固有表現の組に対応した3つの関係情報(1998年1月10日 交際、2001年2月15日 婚約、2001年12月24日 結婚)が抽出されている場合には、(交際、婚約)、(交際、結婚)及び(婚約、結婚)という関係情報の組合せの共起数Count(交際,婚約)、Count(交際,結婚)及びCount(婚約,結婚)がそれぞれカウントされる。 The co-occurrence number Count (r m , r n ) represents the number of occurrences of the relationship information r m and r n in each text in the large-scale text data. Specifically, the co-occurrence counting method will be described. First, a set of specific expressions having some relationship in the text and a plurality of relation information corresponding to each specific expression of the set are extracted in advance from large-scale text data. Is done. Here, the date of creation of the text is attached to each of the plurality of pieces of relation information, and each piece of relation information is arranged in the order of creation date. Then, a combination of two pieces of relation information having different creation dates among a plurality of pieces of relation information is counted as being co-occurring before and after time. For example, three pieces of relational information corresponding to a set of specific expressions “Mr. A: Mr. B” corresponding to a type of specific expression set “person name: person name” (January 10, 1998 dating, February 15, 2001) Day engagement, December 24, 2001 marriage) is extracted, the co-occurrence number Count (dating, dating, engagement), (engagement, marriage) and (engagement, marriage) related information combination (Engagement), Count (dating, marriage) and Count (engagement, marriage) are counted.

なお、テキスト内において何らかの関係を有する固有表現の組と当該組の各固有表現の関係情報とを大規模テキストデータから抽出する技術については、非特許文献1、及び、平野他、「文脈的素性を用いた固有表現間の関係性判定」、自然言語処理、vol.15、no.4、pp.43−58、2008年を参照されたい。また、本発明者は、当該技術を用いることにより、1991年1月1日から2006年6月30日までの間に作成された8,320,042のテキストから、固有表現の組及び当該組の各固有表現に対応する3つの関係情報の組合せが10,463,232個抽出されることを見出した。   As for the technology for extracting from a large-scale text data a set of specific expressions having some relationship in the text and the relationship information of each specific expression of the set, Non-Patent Document 1, Hirano et al. Determination of relationship between proper expressions using natural language ”, natural language processing, vol. 15, no. 4, pp. 43-58, 2008. In addition, the present inventor, by using the technique, from the 8,320,042 text created between January 1, 1991 and June 30, 2006, the group of the proper expression and the group. It has been found that 10,463,232 combinations of three relational information corresponding to each unique expression are extracted.

また、抽出された固有表現の組及び当該組の各固有表現に対応する3つの関係情報の組合せを過去関係情報記憶部50に事前に記憶しておくことで、図2のステップS9における変化情報取得処理の処理時間を短縮化することが可能である。   Also, the change information in step S9 in FIG. 2 can be obtained by storing in advance in the past relationship information storage unit 50 a combination of the extracted unique expressions and a combination of three relationship information corresponding to each unique expression of the set. It is possible to shorten the processing time of the acquisition process.

次に、トリガーモデルPT (rn |rm )は、共起数Count(rm ,rn )を、固有表現の組の種類毎(例えば「人名:人名」、「人名:組織名」、「人名:地名」等)に集計することによってもとめられる。ここで、集計処理には、前述した8つの固有表現識別子を用いることが可能である。この場合、トリガーモデルPT (rn |rm )は以下の式(1)でもとめられる。

Figure 0005441173
次に、変化情報取得部24は、取得した過去関係情報Rm と、変化情報記憶部40に記憶されているトリガーモデルPT (rn |rm )と、関係推定情報取得部23の処理結果に含まれる関係情報候補とを用いて、関係情報候補が過去関係情報Rm から経時変化したものであると推定される確率PT (rn |Rm )を、関係情報候補毎にもとめる。具体的には、確率PT (rn |Rm )は以下の式(2)でもとめられる。
Figure 0005441173
例えば、過去関係情報Rm ={交際、婚約}で、関係情報候補={結婚、会う、食べる、飲む、ライバル}の場合には、関係情報候補「結婚」の確率PT (結婚|Rm )は以下の式(3)でもとめられる。
Figure 0005441173
ここで、図9を参照すると、PT (結婚|交際)は0.049827331であり、PT (結婚|婚約)は0.156917548であるから、PT (結婚|Rm )は0.156917548となる。また、関係情報候補「会う」の確率PT (会う|Rm )は以下の式(4)でもとめられる。
Figure 0005441173
そして、変化情報取得部24は、各関係情報候補毎にもとめられた確率PT (rn |Rm )について、値の大きい順に順位RankPT (rn |Rm )を付与する。例えば、関係情報候補「結婚」の順位RankPT (結婚|Rm )には「1」が付与され、関係情報候補「会う」の順位RankPT (会う|Rm )には「2」が付与される。 Next, the trigger model P T (r n | r m ) determines the co-occurrence number Count (r m , r n ) for each type of proper expression (for example, “person name: person name”, “person name: organization name”). , “Person name: place name”). Here, the eight unique expression identifiers described above can be used for the aggregation process. In this case, the trigger model P T (r n | r m ) is also obtained by the following equation (1).
Figure 0005441173
Next, the change information acquisition unit 24 processes the acquired past relationship information R m , the trigger model P T (r n | r m ) stored in the change information storage unit 40, and the process of the relationship estimation information acquisition unit 23. Using the relationship information candidate included in the result, the probability P T (r n | R m ) that the relationship information candidate is estimated to have changed with time from the past relationship information R m is determined for each relationship information candidate. . Specifically, the probability P T (r n | R m ) can be determined by the following equation (2).
Figure 0005441173
For example, if the past relationship information R m = {dating, engagement} and the relationship information candidate = {marriage, meet, eat, drink, rival}, the probability P T (marriage | R m ) Can also be stopped by the following equation (3).
Figure 0005441173
Here, referring to FIG. 9, P T (marriage | dating) is 0.049827331, and P T (marriage | engagement) is 0.155917548, so P T (marriage | R m ) is 0.156397548. It becomes. Further, the probability P T (meet | R m ) of the related information candidate “meet” can be obtained by the following equation (4).
Figure 0005441173
Then, the change information acquisition unit 24 assigns rank RankP T (r n | R m ) in descending order of the probability P T (r n | R m ) determined for each relationship information candidate. For example, “1” is assigned to the rank RankP T (marriage | R m ) of the relationship information candidate “marriage”, and “2” is assigned to the rank RankP T (meet | R m ) of the relationship information candidate “meet”. Is done.

なお、上記式(2)乃至(4)では、各トリガーモデルの最大値を求めているが、各トリガーモデルの最小値や平均値を求めるようにしてもよい。   In the above formulas (2) to (4), the maximum value of each trigger model is obtained, but the minimum value and the average value of each trigger model may be obtained.

また、変化情報取得部24は、図8に示した係り受け構造情報を取得すると、過去関係情報Rm から関係情報候補(「演説」)に経時変化したと推定される確率(PT (演説|Rm )=0.83)及び当該確率の順位(RankPT (演説|Rm )=1)のそれぞれを変化情報として取得し、図15に示すように、取得した変化情報を係り受け構造情報における候補ノードの子ノードとして追加する。また、変化情報取得部24は、他の関係情報候補(「小沢一郎」及び「大阪駅」)についても同様の処理を行う。 Further, when the change information acquisition unit 24 acquires the dependency structure information shown in FIG. 8, the probability (P T (speech) that it is estimated that the relationship information candidate (“speech”) has changed over time from the past relationship information R m. | R m ) = 0.83) and the rank of the probability (RankP T (speech | R m ) = 1) are obtained as change information, and the obtained change information is modified as shown in FIG. Add as a child node of a candidate node in the information. In addition, the change information acquisition unit 24 performs the same process on other related information candidates (“Ichiro Ozawa” and “Osaka Station”).

このようにして、大規模テキストデータ内の各テキストにおいて過去関係情報(ここではrm とする)と関係情報候補(ここではrn とする)が共起した数Count(rm ,rn )に基づいて確率PT (rn |rm )をもとめ、当該確率に基づいて変化情報を取得することが可能となる。 Thus, in each text in the large-scale text data, the number Count (r m , r n ) in which past relationship information (here, r m ) and relationship information candidates (here, r n ) co-occur. Based on the probability P T (r n | r m ), the change information can be acquired based on the probability.

モデル選択部25は、変化情報取得部24の処理結果を取得すると、固有表現対応付け部13によって付与された固有表現識別子に基づいて固有表現の組を分類するとともに、後述の分類器26によって抽出されるモデルの種類を選択する(図2のステップS10)。例えば、固有表現の組として「小泉純一郎:東京駅」が入力された場合には、モデル選択部25は固有表現の組を「人名:地名」という種類に分類し、分類された固有表現の組の種類を出力する。   When the model selection unit 25 acquires the processing result of the change information acquisition unit 24, the model selection unit 25 classifies the set of proper expressions based on the specific expression identifier assigned by the specific expression association unit 13 and extracts it by a classifier 26 described later. The type of model to be selected is selected (step S10 in FIG. 2). For example, when “Joiichiro Koizumi: Tokyo Station” is input as a set of specific expressions, the model selection unit 25 classifies the set of specific expressions into a type of “person name: place name” and sets the classified specific expressions. The type of output.

分類器26は、変化情報取得部24の処理結果と、モデル選択部25の処理結果とを取得すると、モデル選択部25で選択された固有表現の組の種類に基づいて、複数のモデルが記憶されたモデル記憶部60からモデルを抽出する。そして、分類器26は、各関係情報候補が固有表現の組の関係情報となるか否かを、抽出したモデルを用いて判別する(図2のステップS11)。   When the classifier 26 acquires the processing result of the change information acquisition unit 24 and the processing result of the model selection unit 25, a plurality of models are stored based on the type of the unique expression selected by the model selection unit 25. A model is extracted from the model storage unit 60 thus obtained. Then, the classifier 26 determines whether or not each relation information candidate becomes relation information of a set of unique expressions using the extracted model (step S11 in FIG. 2).

ここで、モデルは、所定の固有表現の組に対応する関係情報について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて解析処理部10及び関係情報抽出処理20から事前に抽出された情報とを用いて周知の機械学習を行うことにより予め生成されている。また、所定の固有表現の組についての判別結果は人的な判断に基づいて事前になされている。なお、各モデルを、例えば「人名:地名」や「人名:人名」等のように固有表現の組の種類に応じて構成してもよいし、種類を区別することなく構成してもよい。   Here, the model uses the analysis processing unit 10 and the result including the result determined in advance for the relationship information corresponding to the predetermined specific expression set and the text including each specific expression corresponding to the predetermined specific expression set, and It is generated in advance by performing well-known machine learning using information extracted in advance from the relationship information extraction process 20. In addition, the discrimination result for a predetermined set of specific expressions is made in advance based on human judgment. Note that each model may be configured according to the type of set of unique expressions, such as “person name: place name”, “person name: name”, or the like, or may be configured without distinguishing the types.

この場合、分類器26による判別には、変化情報取得部24によって付与された変化情報が利用されていることから、過去関係情報が該関係情報候補に経時変化したと推定される度合に基づき各関係情報候補が固有表現の組の関係情報となるか否か判別することができる。本実施形態では、各関係情報候補のうち「演説」という関係情報候補が、「小泉純一郎:東京駅」という固有表現の組の関係情報であると判別される。   In this case, since the change information given by the change information acquisition unit 24 is used for the discrimination by the classifier 26, each of the past relationship information is estimated based on the degree to which the relationship information candidate is estimated to have changed over time. It is possible to determine whether or not the relationship information candidate is related information of a set of unique expressions. In the present embodiment, it is determined that the relationship information candidate “speech” among the relationship information candidates is the relationship information of the specific expression group “Junichiro Koizumi: Tokyo Station”.

なお、分類器25を、関係情報となる否かという判別結果の他に、関係情報となり得る度合を表す数値を出力するように構成してもよい。また、機械学習としては、周知のものを用いることが可能であるが、木構造やグラフ構造のデータを直接入力して学習可能に構成されたものを用いることが望ましい。   Note that the classifier 25 may be configured to output a numerical value indicating the degree of possible relation information in addition to the determination result of whether or not the relation information is obtained. As machine learning, a well-known machine can be used. However, it is desirable to use a machine that can learn by directly inputting data of a tree structure or a graph structure.

関係情報抽出部27は、各関係情報候補のうち、固有表現の組の関係情報であると分類器26によって判別された関係情報候補を関係情報として抽出し、抽出された関係情報を表示手段に出力する(図2のステップS12)。なお、分類器26が、関係情報となり得る度合を表す数値を出力するように構成されている場合には、関係情報抽出部27は、該数値が最も大きい関係情報候補を関係情報として抽出するようにしてもよいし、該数値が所定の閾値より大きい関係情報候補を関係情報として抽出するようにしてもよい。   The relationship information extraction unit 27 extracts the relationship information candidate determined by the classifier 26 as the relationship information from among the relationship information candidates as the relationship information of the set of specific expressions, and uses the extracted relationship information as a display unit. Output (step S12 in FIG. 2). In addition, when the classifier 26 is configured to output a numerical value indicating the degree that can be related information, the related information extraction unit 27 extracts a related information candidate having the largest numerical value as related information. Alternatively, relationship information candidates whose numerical values are larger than a predetermined threshold value may be extracted as relationship information.

このようにして、「小泉純一郎は東京駅で、小沢一郎は大阪駅で演説した。」というテキストと、「小泉純一郎:東京駅」という固有表現の組と、テキストの作成日付とが入力されると、「演説」という関係情報が抽出される。   In this way, the text “Junichiro Koizumi gave a speech at Tokyo Station and Ichiro Ozawa at Osaka Station”, a unique expression pair “Junichiro Koizumi: Tokyo Station”, and the text creation date are entered. Then, the relation information “speech” is extracted.

なお、本発明者は、前述した非特許文献1記載の技術の性能評価を行ったところ、最適な関係情報の抽出精度を表す適合率が67.2%、同一の事例における関係情報の再現率が43.9%との評価結果が得られた。一方、本実施形態について性能評価を行った場合には、適合率が70.7%と向上するとともに、再現率が48.6%に向上するという格別の効果が得られた。   The inventor conducted performance evaluation of the technique described in Non-Patent Document 1 described above, and found that the relevance rate representing the extraction accuracy of the optimum relationship information was 67.2%, and the reproduction rate of the relationship information in the same case. And an evaluation result of 43.9% was obtained. On the other hand, when performance evaluation was performed for this embodiment, a special effect was obtained in which the precision was improved to 70.7% and the recall was improved to 48.6%.

前述したように上記実施形態では、入力テキストに含まれる少なくとも一つの自立語が関係情報候補として抽出され、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報及び解析結果に基づき関係情報候補から関係情報が抽出されることから、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することができる。従って、例えば「Aさん」と「Bさん」という固有表現の組の過去の関係情報が「交際」であって、入力テキストから抽出された関係情報候補の集合が{結婚、会う、食べる、飲む、ライバル}であった場合には、人と人との間における「交際」、「婚約」、「結婚」というような典型的な関係の遷移に基づいて、関係情報候補のうち「結婚」を関係情報として抽出することができることから、複数の固有表現間の関係情報を高精度で抽出することができる。   As described above, in the above embodiment, at least one independent word included in the input text is extracted as a related information candidate, and past related information used in the past as related information of each unique expression is stored in the related information candidate over time. Since relation information is extracted from relation information candidates based on change information representing the degree of estimated change and analysis results, relation information is extracted in consideration of changes in the relationship over time between each specific expression Can do. Therefore, for example, the past relationship information of the unique expression set of “Mr. A” and “Mr. B” is “Dating”, and a set of relationship information candidates extracted from the input text is {marriage, meet, eat, drink , Rival}, based on the transition of typical relationships such as “dating”, “engagement”, “marriage” between people, Since it can be extracted as the relationship information, the relationship information between a plurality of unique expressions can be extracted with high accuracy.

さらに、解析処理部10による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出するので、変化情報とともに関係情報候補が関係情報であると推定される度合を素性として用いることができるので、適合率及び再現率をさらに向上させることができる。   Further, when the analysis result obtained by the analysis processing unit 10 is acquired, at least one independent word included in the input text is extracted as a related information candidate, and a relationship estimation indicating the degree to which the related information candidate is estimated to be related information Information and the change information are acquired for each extracted related information candidate, and the related information is extracted from the related information candidate based on the analysis result, the relationship estimation information, and the change information. Since the degree estimated to be information can be used as a feature, the precision and recall can be further improved.

なお、本実施形態では、前述した非特許文献1記載の技術と比較して、最適な関係情報の抽出精度を表す適合率が67.2%から70.7%と向上するとともに、同一の事例における関係情報の再現率が43.9%から48.6%に向上するという格別の効果が得られた。   In this embodiment, compared with the technique described in Non-Patent Document 1 described above, the relevance ratio representing the extraction accuracy of the optimum relationship information is improved from 67.2% to 70.7%, and the same case In particular, the reproducibility of the relational information in 4 is increased from 43.9% to 48.6%.

さらにまた、大規模テキストデータ内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得するので、大規模テキストデータにおける過去関係情報と関係情報候補の関係に基づいて関係情報を抽出することができ、最適な関係情報の抽出精度を向上させることができる。   Furthermore, since change information is acquired based on the number of past occurrences of past relationship information and relationship information candidates in each text in large-scale text data, it is based on the relationship between past relationship information and relationship information candidates in large-scale text data. The relationship information can be extracted, and the extraction accuracy of the optimum relationship information can be improved.

また、過去関係情報が関係情報候補に経時変化した確率を、大規模テキストデータ内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得するので、過去関係情報が関係情報候補複に変化した確率に基づいて関係情報を抽出することができ、最適な関係情報の抽出精度を更に向上させることができる。   In addition, the probability that the past relationship information has changed to the related information candidate with time is determined based on the number of past occurrences of the related information candidate and the related information candidate in each text in the large-scale text data, and the change information is determined based on the probability. Since it is acquired, it is possible to extract the relationship information based on the probability that the past relationship information has changed to the relationship information candidates, and the extraction accuracy of the optimum relationship information can be further improved.

なお、上記実施形態は本発明の具体例に過ぎず、本発明が上記実施形態のみに限定されることはない。例えば、本発明は、周知のコンピュータに記録媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムあるいは図2のフローに示された手順を備えるプログラムをインストールすることによっても実現可能である。   In addition, the said embodiment is only a specific example of this invention, and this invention is not limited only to the said embodiment. For example, the present invention installs a program for realizing the functions shown in the configuration diagram of FIG. 1 or a program having the procedure shown in the flow of FIG. 2 via a recording medium or a communication line in a known computer. This is also possible.

また、関係情報候補抽出部21を、所定の助詞が、連続する文節のうち入力テキストにおいて先に現れる一方の文節の最後尾に含まれるとともに、所定の動詞が、該連続する文節のうち他方の文節の先頭に含まれる場合に、一方の文節と、他方の文節の先頭から主辞までの形態素とからなる形態素列を関係情報候補として抽出するように構成してもよい。例えば、関係情報候補抽出部21は、「及ぼす」という機能動詞と、該機能動詞に対応する「を」という助詞とを記憶している。そして、「影響を」という文節と「及ぼす」という文節が入力テキスト内で連続して現れる場合には、関係情報候補抽出部21は、「影響を」という一方の文節と、「及ぼす」という他方の文節の先頭から主辞までの形態素即ち「及ぼす」とからなる形態素列「影響を及ぼす」を関係情報候補として抽出する。   In addition, the related information candidate extracting unit 21 includes a predetermined particle included at the end of one of the consecutive clauses that appears first in the input text, and a predetermined verb included in the other of the consecutive clauses. When included in the beginning of a phrase, a morpheme sequence including one phrase and a morpheme from the beginning of the other phrase to the main word may be extracted as a related information candidate. For example, the relationship information candidate extraction unit 21 stores a functional verb “effect” and a particle “wo” corresponding to the functional verb. When the phrase “influence” and the phrase “influence” appear consecutively in the input text, the relationship information candidate extraction unit 21 selects one of the phrases “influence” and the other “influence”. The morpheme from the beginning of the clause to the main word, that is, the morpheme string “influence” consisting of “influence” is extracted as a candidate of related information.

この場合、所定の助詞と機能動詞の組合せからなる形態素列を関係情報候補として抽出することができるので、関係情報候補の数を増加させることができ、最適な関係情報の抽出精度を向上させることができる。   In this case, since a morpheme sequence consisting of a combination of a predetermined particle and a functional verb can be extracted as related information candidates, the number of related information candidates can be increased, and the extraction accuracy of optimum related information can be improved. Can do.

10…解析処理部、11…形態素解析部、12…係り受け解析部、20…関係情報抽出処理部、21…関係情報候補抽出部、23…関係推定情報取得部、24…変化情報取得部、27…関係情報抽出部、40…変化情報記憶部、50…過去関係情報記憶部   DESCRIPTION OF SYMBOLS 10 ... Analysis process part, 11 ... Morphological analysis part, 12 ... Dependency analysis part, 20 ... Relation information extraction process part, 21 ... Relation information candidate extraction part, 23 ... Relation estimation information acquisition part, 24 ... Change information acquisition part, 27: Relationship information extraction unit, 40: Change information storage unit, 50: Past relationship information storage unit

Claims (10)

入力された複数の固有表現に関係する情報を抽出する装置であって、
前記各固有表現を含むテキストと、当該各固有表現からなる固有表現の組とが入力されると、入力テキストを形態素解析し、入力テキストを構成する文節の係り受けとともに前記固有表現の組を解析する解析処理部と、
解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析処理部による解析結果に基づき前記固有表現の組の種類に対応するモデルを選択し、解析処理部による解析結果及び変化情報に基づいて関係情報候補が前記固有表現の組の関係情報か否かを前記モデルを用いて判別し、関係情報を抽出する関係情報抽出処理部とを備えた
ことを特徴とする関係情報抽出装置。
An apparatus for extracting information related to a plurality of input proper expressions,
When a text including each unique expression and a set of specific expressions including the specific expressions are input , the input text is subjected to morphological analysis, and the set of specific expressions is analyzed together with the dependency of the clauses constituting the input text. An analysis processing unit to
When the analysis result by the analysis processing unit is acquired, at least one independent word included in the input text is extracted as a related information candidate, and past related information used in the past as related information of each specific expression is extracted as the related information candidate Change information indicating the degree of change estimated to have changed over time is obtained for each extracted relational information candidate, and a model corresponding to the type of the specific expression set is selected and analyzed based on the analysis result by the analysis processing unit. A relational information extraction processing unit that determines whether each relational information candidate is relational information of the set of specific expressions based on the analysis result and change information by the processing unit , and extracts the relational information. The relationship information extraction apparatus characterized by this.
前記関係情報抽出処理部は、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析処理部による解析結果に基づき前記固有表現の組の種類に対応するモデルを選択し、解析処理部による解析結果、関係推定情報及び変化情報に基づいて関係情報候補が前記固有表現の組の関係情報か否かを前記モデルを用いて判別し、関係情報を抽出する
ことを特徴とする請求項1記載の関係情報抽出装置。
When the relation information extraction processing unit acquires an analysis result by the analysis processing unit, the relation information extraction processing unit extracts at least one independent word included in the input text as a related information candidate, and the related information candidate is estimated to be related information. The relationship estimation information indicating the degree and the change information are acquired for each extracted relationship information candidate, and a model corresponding to the type of the specific expression set is selected based on the analysis result by the analysis processing unit, and the analysis processing unit The relationship information is extracted by determining whether each relationship information candidate is the relationship information of the set of specific expressions based on the analysis result, relationship estimation information, and change information by using the model. The related information extracting apparatus according to 1.
前記関係情報抽出処理部は、所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得する
ことを特徴とする請求項1または2記載の関係情報抽出装置。
3. The relationship according to claim 1, wherein the relationship information extraction processing unit acquires change information based on the number of past relationship information and relationship information candidates that co-occur in each text in a predetermined text set. Information extraction device.
前記関係情報抽出処理部は、過去関係情報が関係情報候補に経時変化した確率を、前記所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得する
ことを特徴とする請求項3記載の関係情報抽出装置。
The related information extraction processing unit determines the probability that the past related information has changed to the related information candidate with time based on the number of past related information and related information candidates that co-occurred in each text in the predetermined text set, Change information is acquired based on probability. The relation information extraction device according to claim 3 characterized by things.
入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、
前記コンピュータは、各固有表現を含むテキストと、当該各固有表現からなる固有表現の組とが入力されると、入力テキストを形態素解析し、入力テキストを構成する文節の係り受けとともに前記固有表現の組を解析し、
前記コンピュータは、前記解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果に基づき前記固有表現の組の種類に対応するモデルを選択し、解析結果及び変化情報に基づいて関係情報候補が前記固有表現の組の関係情報か否かを前記モデルを用いて判別し、関係情報を抽出する
ことを特徴とする関係情報抽出方法。
A method of extracting information related to a plurality of input unique expressions using a computer,
When a text including each specific expression and a set of specific expressions composed of the specific expressions are input, the computer performs morphological analysis on the input text, and includes the dependency of the phrase constituting the input text and the specific expression. Analyzing the tuple ,
When the computer obtains the analysis result, the computer extracts at least one independent word included in the input text as a related information candidate, and past related information used in the past as related information of each specific expression is the related information. Change information indicating the degree of change estimated to have been changed over time for each candidate is obtained for each extracted relational information candidate, and a model corresponding to the type of the specific expression set is selected based on the analysis result. A relation information extraction method characterized by discriminating, using the model, whether each relation information candidate is relation information of the set of specific expressions based on information, and extracting relation information.
前記コンピュータは、前記解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果に基づき前記固有表現の組の種類に対応するモデルを選択し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補が前記固有表現の組の関係情報か否かを前記モデルを用いて判別し、関係情報を抽出する
ことを特徴とする請求項5記載の関係情報抽出方法。
When the computer acquires the analysis result, the computer extracts at least one independent word included in the input text as a related information candidate, and relationship estimation information representing a degree that the related information candidate is estimated to be related information; The change information is acquired for each extracted relationship information candidate , a model corresponding to the type of the specific expression set is selected based on the analysis result, and each relationship based on the analysis result, the relationship estimation information, and the change information is selected. 6. The relation information extraction method according to claim 5, wherein the information candidate is discriminated using the model to determine whether or not the information candidate is relation information of the set of the specific expressions .
前記コンピュータは、所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得する
ことを特徴とする請求項5または6記載の関係情報抽出方法。
The relation information extraction method according to claim 5, wherein the computer acquires change information based on a number of past relation information and relation information candidates that co-occur in each text in a predetermined text set.
前記コンピュータは、過去関係情報が関係情報候補に経時変化した確率を、前記所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得する
ことを特徴とする請求項7記載の関係情報抽出方法。
The computer determines the probability that the past relationship information has changed to the related information candidate over time based on the number of past relationship information and the related information candidate that co-occurred in each text in the predetermined text set, and based on the probability Change information is acquired. The relationship information extraction method of Claim 7 characterized by the above-mentioned.
コンピュータを、請求項1乃至4何れか1項記載の関係情報抽出装置の各手段として機能させるためのプログラム。   The program for functioning a computer as each means of the related information extraction apparatus in any one of Claims 1 thru | or 4. コンピュータに、請求項5乃至8何れか1項記載の関係情報抽出方法の各処理を実行させるためのプログラム。   A program for causing a computer to execute each process of the related information extraction method according to any one of claims 5 to 8.
JP2010129081A 2010-06-04 2010-06-04 Related information extraction apparatus, method and program thereof Active JP5441173B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010129081A JP5441173B2 (en) 2010-06-04 2010-06-04 Related information extraction apparatus, method and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010129081A JP5441173B2 (en) 2010-06-04 2010-06-04 Related information extraction apparatus, method and program thereof

Publications (2)

Publication Number Publication Date
JP2011257790A JP2011257790A (en) 2011-12-22
JP5441173B2 true JP5441173B2 (en) 2014-03-12

Family

ID=45473950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010129081A Active JP5441173B2 (en) 2010-06-04 2010-06-04 Related information extraction apparatus, method and program thereof

Country Status (1)

Country Link
JP (1) JP5441173B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6502807B2 (en) * 2015-09-15 2019-04-17 株式会社東芝 Information extraction apparatus, information extraction method and information extraction program
US10229687B2 (en) * 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4780361B2 (en) * 2000-10-06 2011-09-28 株式会社豊田中央研究所 Lithium secondary battery
JP4146326B2 (en) * 2003-10-24 2008-09-10 株式会社東芝 Time series activity data analysis apparatus, method and program
CN101419731A (en) * 2008-11-25 2009-04-29 浙江亨力电子有限公司 Banknote counting-checking cash register

Also Published As

Publication number Publication date
JP2011257790A (en) 2011-12-22

Similar Documents

Publication Publication Date Title
JP5990178B2 (en) System and method for keyword extraction
JP6466952B2 (en) Sentence generation system
Plank Domain adaptation for parsing
JP2001075966A (en) Data analysis system
JP5370680B2 (en) Predicate function expression normalization method, apparatus and program thereof
CN108319583A (en) Method and system for extracting knowledge from Chinese language material library
JP4534666B2 (en) Text sentence search device and text sentence search program
Glass et al. A naive salience-based method for speaker identification in fiction books
JP6830971B2 (en) Systems and methods for generating data for sentence generation
Villavicencio et al. Discovering multiword expressions
JP6250833B2 (en) Document search system, debate system, document search program
Bassa et al. GerIE-An Open Information Extraction System for the German Language.
JP5441173B2 (en) Related information extraction apparatus, method and program thereof
JP2003167898A (en) Information retrieving system
Litvak et al. Multilingual Text Analysis: Challenges, Models, and Approaches
JP5142395B2 (en) Related information extraction apparatus, method, program, and recording medium
JP4671440B2 (en) Reputation relationship extraction device, method and program thereof
JP2005202924A (en) Translation determination system, method, and program
JP5225219B2 (en) Predicate term structure analysis method, apparatus and program thereof
JP2011257791A (en) Relational information extracting device, its method and its program
US20230071799A1 (en) System and method for extracting suggestions from review text
RU2769427C1 (en) Method for automated analysis of text and selection of relevant recommendations to improve readability thereof
Lodhi et al. Detecting Urdu Text Plagiarism Using Similarity Matching Techniques
Moghadam et al. Investigating Lexical and Syntactic Differences in Written and Spoken English Corpora
Hay et al. Filtering a Reference Corpus to Generalize Stylometric Representations.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131212

R150 Certificate of patent or registration of utility model

Ref document number: 5441173

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350