JP4793931B2 - Apparatus and method for extracting sets of interrelated specific expressions - Google Patents

Apparatus and method for extracting sets of interrelated specific expressions Download PDF

Info

Publication number
JP4793931B2
JP4793931B2 JP2007058766A JP2007058766A JP4793931B2 JP 4793931 B2 JP4793931 B2 JP 4793931B2 JP 2007058766 A JP2007058766 A JP 2007058766A JP 2007058766 A JP2007058766 A JP 2007058766A JP 4793931 B2 JP4793931 B2 JP 4793931B2
Authority
JP
Japan
Prior art keywords
specific
expressions
specific expressions
feature
dependency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007058766A
Other languages
Japanese (ja)
Other versions
JP2008225560A (en
Inventor
徹 平野
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007058766A priority Critical patent/JP4793931B2/en
Publication of JP2008225560A publication Critical patent/JP2008225560A/en
Application granted granted Critical
Publication of JP4793931B2 publication Critical patent/JP4793931B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、入力されたテキストを要約する要約システム等において重要な役割を果たす、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する装置及びその方法に関する。   The present invention relates to an apparatus and method for extracting a set of specific expressions composed of a plurality of related specific expressions, which play an important role in a summarization system for summarizing input text, and the like.

まず、相互に関係する固有表現の具体例を以下に説明する。   First, specific examples of interrelated specific expressions will be described below.

例えば、「長澤まさみは渋谷で、速水もこみちは新宿で新作映画の舞台挨拶を行なった。」というテキストにおいて、人名を表す「長澤まさみ」及び「速水もこみち」という固有表現と、地名を表す「渋谷」及び「新宿」という固有表現との間で固有表現の組み合わせを考える。ここで、上記テキストから「長澤まさみは渋谷で新作映画の舞台挨拶を行なった」と解釈されるので、「長澤まさみ」と「渋谷」には「行なった」という関係がある。また、「速水もこみちは新宿で新作映画の舞台挨拶を行なった」と解釈されるから、「速水もこみち」と「新宿」には「行なった」という関係がある。しかし、「長澤まさみ」と「新宿」及び「速水もこみち」と「渋谷」にはそれぞれ関係がない。従って、入力テキストを要約する要約システムや大量のテキストデータから必要な情報を得る検索システム等では、互いに関係する固有表現の組を抽出することが重要となる。   For example, in the text “Masami Nagasawa was in Shibuya and Mokomichi Hayami gave a stage greeting for a new movie in Shinjuku.” ”And“ Shinjuku ”are considered as combinations of specific expressions. Here, from the above text, it is interpreted that “Masami Nagasawa made a new stage greeting in Shibuya”, so there is a relationship “I did” between “Masami Nagasawa” and “Shibuya”. In addition, it is interpreted that “Hayami Mokomichi gave a stage greeting of a new movie in Shinjuku”, so “Hayami Mokomichi” and “Shinjuku” have a relationship “I did”. However, “Masami Nagasawa” and “Shinjuku” and “Hayami Mokomichi” and “Shibuya” are not related. Therefore, in a summarization system that summarizes input text, a search system that obtains necessary information from a large amount of text data, and the like, it is important to extract sets of specific expressions related to each other.

従来、この種の相互に関係する固有表現の組抽出装置及びその方法として、2つの固有表現間に存在する単語情報を素性とした機械学習を用いたものが知られている(例えば非特許文献1参照)。   2. Description of the Related Art Conventionally, as a device and method for extracting a group of interrelated specific expressions, one using machine learning based on word information existing between two specific expressions is known (for example, non-patent literature). 1).

この固有表現抽出装置では、「長澤まさみ」と「新宿」との間に関係があるか否かを判別する場合に、各固有表現の間に存在する「は渋谷で、速水もこみちは」という情報が素性として用いられている。
Kambhatla、“Combining Lexical, Syntactic, and Semantic Features with Maximum Entropy Models for Extracting Relations”、The Companion Volume to the Proceedings of 42st Annual Meeting of the Association for Computational Linguistics、Association for Computational Linguistics、2004年7月、p.178−181
In this specific expression extraction device, when determining whether or not there is a relationship between “Masami Nagasawa” and “Shinjuku”, the information “Hashibuya, Hayami Mokomichiha” exists between each specific expression. Is used as a feature.
Kambhatla, “Combining Lexical, Syntactic, and Semantic Features with Maximum Entropy Models for Extracting Relations”, The Companion Volume to the Proceedings of 42st Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, July 2004, p. 178 -181

しかしながら、従来の固有表現の組抽出装置は、英語によるテキストを対象に提案されたものであり、「主語、述語、目的語」といった英語の特徴的な語順を利用して各固有表現間の関係を判断することができるものの、その一方で、日本語によるテキストでは「主語、目的語、述語」という語順が一般的に用いられていることから、例示したテキストにおいて「長澤まさみ」と「渋谷」との関係を判断するための情報が「は」という単語のみとなり、各固有表現間に関係があるか否かを判断することが困難であった。   However, the conventional unique expression pair extraction device was proposed for English texts, and the relationship between each unique expression using the characteristic word order of English such as "subject, predicate, object". On the other hand, since the word order of “subject, object, predicate” is generally used in Japanese text, “Masami Nagasawa” and “Shibuya” in the illustrated text The information for determining the relationship between the unique expression is only the word “ha”, and it is difficult to determine whether there is a relationship between the specific expressions.

本発明は前記問題点に鑑みてなされたものであり、その目的とするところは、個々の事例に応じて相互に関係する固有表現の組を抽出可能な装置及びその方法を提供することにある。   The present invention has been made in view of the above problems, and an object of the present invention is to provide an apparatus and method for extracting a set of specific expressions related to each other according to each case. .

本発明の相互に関係する固有表現の組抽出装置は、前記目的を達成するために、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する装置であって、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する固有表現抽出処理部と、固有表現抽出処理部によって抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、入力テキストを構成する文節の係り受けを解析した結果を表す係り受け木から固有表現の組に対応する各固有表現のそれぞれを含む文節間の最短経路を表す部分木を取得し、該部分木を少なくとも含む素性を抽出する素性抽出処理部と、素性抽出処理部によって抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する判別処理部とを備えている。 In order to achieve the above-mentioned object, the inter-specific-expression-specific group extraction apparatus of the present invention is an apparatus for extracting a specific-expression group consisting of a plurality of inter-specific expressions from an input text. When input, a specific expression extraction processing unit that morphologically analyzes the input text and extracts a plurality of specific expressions included in the input text, and a plurality of specific expressions extracted by the specific expression extraction processing unit For each set of specific expressions, a subtree representing the shortest path between clauses including each of the specific expressions corresponding to the set of specific expressions from the dependency tree representing the result of analyzing the dependency of the phrases constituting the input text. acquired, and the feature extraction processing unit for extracting at least includes feature the subtree, and feature extracted by the feature extraction processing unit, the relationship between the specific representation corresponding to a set of predetermined named entities Based on the result determined in advance for the presence or absence and the pre-feature extracted in advance from the feature extraction processing unit using the text including each specific expression corresponding to the predetermined specific expression set, the set of specific expressions And a discrimination processing unit that discriminates for each set of proper expressions whether or not there is a relationship between the specific expressions corresponding to.

また、本発明の相互に関係する固有表現の組抽出方法は、前記目的を達成するために、コンピュータを用いて、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する方法であって、前記コンピュータは、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する第1のステップと、抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、入力テキストを構成する文節の係り受けを解析した結果を表す係り受け木から固有表現の組に対応する各固有表現のそれぞれを含む文節間の最短経路を表す部分木を取得し、該部分木を少なくとも含む素性を抽出する第2のステップと、抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第2のステップを行うことにより抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する第3のステップとを行っている。 According to another aspect of the present invention, there is provided a method for extracting a set of related specific expressions, wherein a set of specific expressions composed of a plurality of related specific expressions is extracted from an input text using a computer. In the method, when a text is input, the computer combines a first step of morphological analysis of the input text to extract a plurality of specific expressions included in the input text, and each extracted specific expression The shortest path between clauses including each of the specific expressions corresponding to the set of specific expressions from the dependency tree representing the result of analyzing the dependency of the clauses constituting the input text for each set of multiple specific expressions. get the subtree representing, chromatic relationship between the second step of extracting at least includes feature the subtree, and feature extracted, each unique representation corresponding to a set of predetermined named entities Based on the result determined in advance and the pre-feature extracted by performing the second step in advance using text including each specific expression corresponding to the set of specific specific expressions. And a third step of determining, for each set of unique expressions, whether or not there is a relationship between the specific expressions corresponding to each set.

これにより、入力テキストを構成する文節の係り受けを解析した結果から固有表現の組に対応する各固有表現のそれぞれを含む文節間の係り受け関係を表す情報が素性に含まれ、その素性を用いて各固有表現間の関係が判別されることから、各固有表現のそれぞれを含む文節間の係り受け関係に基づいて各固有表現間に関係があるか否かを判別することが可能となる。   As a result, information indicating the dependency relationship between clauses including each of the specific expressions corresponding to the set of specific expressions is included in the feature from the analysis result of the dependency of the clauses constituting the input text, and the feature is used. Thus, it is possible to determine whether there is a relationship between the unique expressions based on the dependency relationship between the clauses including each of the specific expressions.

本発明の相互に関係する固有表現の組抽出装置及びその方法によれば、各固有表現のそれぞれを含む文節間の係り受け関係に基づいて各固有表現間に関係があるか否かを判別することができるので、例えば「長澤まさみは渋谷で、速水もこみちは新宿で新作映画の舞台挨拶を行なった。」というテキストにおいて、「長澤まさみ」を含む文節と「渋谷」を含む文節は共に「行なった。」という文節に係るという情報を用いて各固有表現間の関係を判別することができ、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。   According to the apparatus and method for extracting sets of specific expressions related to each other according to the present invention, it is determined whether or not there is a relationship between the specific expressions based on the dependency relationship between clauses including each of the specific expressions. So, for example, in the text “Masami Nagasawa made a stage greeting of a new movie in Shibuya and Mokomichi Hayami in Shinjuku”, both the phrase containing “Masami Nagasawa” and the phrase containing “Shibuya” It is possible to discriminate the relationship between each unique expression using the information related to the phrase “.” And to extract a set of specific expressions related to each other according to each case.

図1乃至図7は本発明の第1の実施形態を示すもので、図1は相互に関係する固有表現の組抽出装置の構成図、図2は固有表現の組抽出処理のフロー図、図3は係り受け解析部による解析結果の概要を示す図、図4は基盤解析結果合成部による処理結果の概要を示す図、図5は固有表現間情報抽出部による処理結果の一例を示す図、図6及び図7は部分木の一例を示す図である。   FIGS. 1 to 7 show a first embodiment of the present invention. FIG. 1 is a block diagram of a specific expression set extraction apparatus. FIG. 2 is a flowchart of a specific expression set extraction process. 3 is a diagram showing an overview of the analysis result by the dependency analysis unit, FIG. 4 is a diagram showing an overview of the processing result by the base analysis result synthesizing unit, FIG. 5 is a diagram showing an example of the processing result by the inter-specific expression information extraction unit, 6 and 7 are diagrams illustrating an example of a subtree.

以下、図面を参照して本発明の相互に関係する固有表現の組抽出装置及びその方法の概要を説明する。   DESCRIPTION OF THE PREFERRED EMBODIMENTS An overview of an apparatus and method for extracting sets of related expressions according to the present invention will be described below with reference to the drawings.

本発明の相互に関係する固有表現の組抽出装置(以下、抽出装置と称する。)は、周知のCPUを主体として構成されたコンピュータ装置からなり、モニタ等の表示手段、キーボード等の入力手段、ハードディスクやメモリ等の記憶手段及び外部ネットワークに接続可能な通信装置等(何れも図示省略)を備えている。また、本発明の抽出装置には、固有表現抽出処理部10、素性抽出処理部20、判別処理部30及びモデル記憶部40が設けられている。   A mutual expression group extraction device (hereinafter referred to as an extraction device) according to the present invention includes a computer device mainly composed of a well-known CPU, and includes display means such as a monitor, input means such as a keyboard, It includes storage means such as a hard disk and a memory, and a communication device that can be connected to an external network (both not shown). Further, the extraction apparatus of the present invention is provided with a specific expression extraction processing unit 10, a feature extraction processing unit 20, a discrimination processing unit 30, and a model storage unit 40.

固有表現抽出処理部10は、図1に示すように形態素解析部11、固有表現抽出部12、係り受け解析部13、基盤解析結果合成部14及び固有表現ペア生成部15からなり、入力手段を用いて入力されたテキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出するようになっている。   As shown in FIG. 1, the specific expression extraction processing unit 10 includes a morphological analysis unit 11, a specific expression extraction unit 12, a dependency analysis unit 13, a base analysis result synthesis unit 14, and a specific expression pair generation unit 15. The input text is used for morphological analysis to extract a plurality of specific expressions included in the input text.

形態素解析部11は、入力テキストを取得すると(図2のステップS1)、入力テキストに対して周知の形態素解析処理を行うことにより入力テキストを単語分割し、分割した各単語に品詞を付与して出力する(図2のステップS2)。例えば、「長澤まさみは渋谷で、速水もこみちは新宿で新作映画の舞台挨拶を行なった。」というテキストが入力された場合には、形態素解析部11による処理結果は、「長澤まさみ(名詞)/は(助詞)/渋谷(名詞)/で(格助詞)/、(読点)/速水もこみち(名詞)/は(助詞)/新宿(名詞)/で(格助詞)/新作(名詞)/映画(名詞)/の(格助詞)/舞台(名詞)/挨拶(動作名詞)/を(格助詞)/行な(動詞)/っ(動詞活用語尾)/た(動詞活用語尾)/。(句点)」となる。   When the morpheme analysis unit 11 acquires the input text (step S1 in FIG. 2), the input text is divided into words by performing a well-known morpheme analysis process, and parts of speech are assigned to the divided words. Output (step S2 in FIG. 2). For example, if the text “Masami Nagasawa gave a stage greeting of a new movie in Shibuya and Mokomichi Hayami in Shinjuku” was entered, the processing result by the morphological analysis unit 11 is “Masami Nagasawa (noun) / Ha (particle) / Shibuya (noun) / de (case particle) /, (reading) / Mokomichi Hayami (noun) / ha (particle) / Shinjuku (noun) / de (case particle) / new work (noun) / movie ( (Noun) / no (case particle) / stage (noun) / greeting (motion noun) / to (case particle) / yuna (verb) / tsu (verb inflection ending) / ta (verb inflection ending) /. "

固有表現抽出部12は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の固有表現抽出処理を行うことにより固有表現を抽出するとともに、抽出された固有表現に対して人名や地名等の固有表現の種類を付与した後に該固有表現を出力する(図2のステップS3)。ここで、例示した形態素解析済みの入力テキストが固有表現抽出部12に入力されると、「長澤まさみ(人名)」、「渋谷(地名)」、「速水もこみち(人名)」及び「新宿(地名)」という情報が出力される。   The specific expression extraction unit 12 extracts a specific expression by performing a well-known specific expression extraction process on the input text obtained from the morphological analysis unit 11 and has been subjected to morpheme analysis. After assigning a kind of specific expression such as a place name, the specific expression is output (step S3 in FIG. 2). Here, when the illustrated morpheme-analyzed input text is input to the specific expression extraction unit 12, “Nagasawa Masami (person name)”, “Shibuya (place name)”, “Hayami Mokomichi (person name)” and “Shinjuku (place name) ) "Is output.

係り受け解析部13は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の係り受け解析処理を行うことにより、該テキストを文節に分割し、分割された複数の文節間の係り受け関係を解析して出力する(図2のステップS4)。この場合、例示した入力テキストが係り受け解析部13によって解析されると、図3に示すような係り受け構造を表す情報(係り受け木)が解析結果として出力される。ここで、「長澤まさみ/は」、「渋谷/で/、」、「速水もこみち/は」、「新宿/で」及び「舞台/挨拶/を」という文節は、それぞれ「行な/っ/た/。」という文節に係っており、「新作/映画/の」という文節は「舞台/挨拶/を」という文節に係っている。これらの係り受け関係をデータとして実装する場合には、例えば「(行なった。(長澤まさみは)(渋谷で)(速水もこみちは)(新宿で)(舞台挨拶を(新作映画の)))」というように表現される。   The dependency analysis unit 13 divides the text into phrases by performing a well-known dependency analysis process on the morpheme-analyzed input text acquired from the morpheme analysis unit 11, and between the plurality of divided phrases. The dependency relationship is analyzed and output (step S4 in FIG. 2). In this case, when the input text illustrated is analyzed by the dependency analysis unit 13, information representing a dependency structure (dependency tree) as shown in FIG. 3 is output as an analysis result. Here, the phrases "Masami Nagasawa / ha", "Shibuya / de /,", "Momichi Hayami / ha", "Shinjuku / de" and "stage / greeting / to" are respectively "Gina / tsu / ta". The phrase “new work / movie / no” is related to the phrase “stage / greeting / to”. When implementing these dependency relationships as data, for example, “(Done. (Masami Nagasawa) (in Shibuya) (Momichi Hayami) (in Shinjuku) (Greeting on stage (new movie)))” It is expressed as follows.

基盤解析結果合成部14は、固有表現抽出部12から出力された情報と、係り受け解析部13から出力された情報とを合成する処理を行う(図2のステップS5)。具体的には、基盤解析結果合成部14は、固有表現抽出部12及び係り受け解析部13から情報を取得すると、各固有表現に対して固有表現を表すタグを付与する。例えば、「長澤まさみ」と「速水もこみち」の前後には人名を示す<PSN>というタグが付与され、「渋谷」と「新宿」の前後には地名を示す<LOC>というタグが付与される。この場合、解析結果合成部14の処理結果は図4のように示される。   The base analysis result synthesizing unit 14 performs a process of synthesizing the information output from the specific expression extraction unit 12 and the information output from the dependency analysis unit 13 (step S5 in FIG. 2). Specifically, when the base analysis result synthesis unit 14 acquires information from the specific expression extraction unit 12 and the dependency analysis unit 13, the base analysis result synthesis unit 14 gives a tag representing the specific expression to each specific expression. For example, the tag <PSN> indicating the name of the person is assigned before and after “Masami Nagasawa” and “Hayami Mokomichi”, and the tag <LOC> indicating the place name is assigned before and after “Shibuya” and “Shinjuku”. . In this case, the processing result of the analysis result combining unit 14 is shown as in FIG.

固有表現ペア生成部15は、基盤解析結果合成部14の処理結果を取得すると、処理結果に含まれる全ての固有表現を組合わせることにより複数の固有表現の組(ペア)を生成する(図2のステップS6)。なお、本実施形態では、固有表現の組を、人名を表す固有表現と地名を表す固有表現の2つの固有表現から構成されるものとし、固有表現の組を「長澤まさみ:渋谷」のように表記する。この場合、各固有表現のうちテキストにおいて先に出現する固有表現が前方固有表現として「:」の左側に表され、後に出現する固有表現が後方固有表現として「:」の右側に表される。なお、例示した入力テキストからは、「長澤まさみ:渋谷」、「長澤まさみ:新宿」、「渋谷:速水もこみち」及び「速水もこみち:新宿」という4つの固有表現の組が出力される。   When the specific expression pair generation unit 15 acquires the processing result of the base analysis result synthesis unit 14, the specific expression pair generation unit 15 generates a plurality of specific expression pairs by combining all the specific expressions included in the processing result (FIG. 2). Step S6). In the present embodiment, a set of proper expressions is composed of two specific expressions, i.e., a specific expression that represents a person name and a specific expression that represents a place name, and the set of specific expressions is “Masami Nagasawa: Shibuya”. write. In this case, among the specific expressions, the specific expression that appears first in the text is represented on the left side of “:” as the forward specific expression, and the specific expression that appears later is represented on the right side of “:” as the backward specific expression. From the illustrated input text, a set of four unique expressions “Masami Nagasawa: Shibuya”, “Masami Nagasawa: Shinjuku”, “Shibuya: Mokomichi Hayami” and “Mayamichi Hayami: Shinjuku” are output.

次に、素性抽出処理部20の概要を説明する。素性抽出処理部20は、固有表現間情報抽出部21と係り受け構造情報抽出部22からなり、固有表現ペア生成部15によって生成された複数の固有表現の組毎に、該組に含まれる各固有表現間の素性を抽出するようになっている(図2のステップS7)。   Next, an overview of the feature extraction processing unit 20 will be described. The feature extraction processing unit 20 includes an inter-specific expression information extraction unit 21 and a dependency structure information extraction unit 22, and each of a plurality of specific expressions generated by the specific expression pair generation unit 15 is included in each set. Features between specific expressions are extracted (step S7 in FIG. 2).

固有表現間情報抽出部21は、基盤解析結果合成部14の処理結果と、固有表現ペア生成部15によって生成された固有表現の組とを取得すると、入力テキストにおいて固有表現の組に対応する各固有表現間に存在する単語、品詞、該単語の数及び各固有表現間に存在する固有表現の数と、各固有表現のそれぞれを含む文節の係り先文節の単語及び品詞、各固有表現が同一文節に存在するか否か及び各固有表現を含む文節間の最短経路の距離を抽出する。ここで、固有表現間情報抽出部21の処理内容を具体的に説明する例として、図4に示した基盤解析結果合成部14の処理結果と、「長澤まさみ:渋谷」という固有表現の組とを用いる。まず、入力テキストにおいて固有表現の組に対応する各固有表現間に存在する単語、品詞、該単語数及び各固有表現間に存在する固有表現の数は、それぞれ「は」、「助詞」、「1」及び「0」である。また、「長澤まさみ/は」という文節の係り先文節の単語及び品詞は、それぞれ「行な/っ/た/。」及び「動詞語幹/動詞活用語尾/動詞接尾辞/句点」であり、「渋谷/で/、」という文節についても同様である。さらに、各固有表現が同一文節に存在するか否かについては、「長澤まさみ」と「渋谷」がそれぞれ異なる文節に含まれていることから、「NO」となる、。また、各固有表現を含む文節間の最短経路の距離は、係り受け木における「長澤まさみ/は」という文節と「渋谷/で/、」という文節との最短経路の距離で表される。この場合、「長澤まさみ/は」という文節は、「行な/っ/た/。」という文節を介して「渋谷/で/、」という文節に到達し、他に到達する経路がないことから、各文節間の最短経路は「長澤まさみ/は」→「行な/っ/た/。」→「渋谷/で/、」となり、その距離は2となる。従って、上記の例を用いた場合の固有表現間情報抽出部21の処理結果は図5のように示される。   When the inter-specific expression information extraction unit 21 acquires the processing result of the base analysis result synthesis unit 14 and the set of specific expressions generated by the specific expression pair generation unit 15, each corresponding to the set of specific expressions in the input text. Words and parts of speech that exist between proper expressions, the number of such words and the number of specific expressions that exist between each specific expression, and the words and parts of speech of the clauses that include each specific expression are the same. Whether or not the phrase exists in the phrase and the distance of the shortest path between the phrases including each unique expression are extracted. Here, as an example for specifically explaining the processing contents of the inter-specific expression information extraction unit 21, the processing result of the base analysis result synthesis unit 14 illustrated in FIG. 4 and a set of specific expressions “Masami Nagasawa: Shibuya” Is used. First, in the input text, words, parts of speech, the number of words, and the number of specific expressions existing between the specific expressions corresponding to the specific expressions in the input text are “ha”, “particle”, “ 1 ”and“ 0 ”. In addition, the words and parts of speech of the related clause of the phrase “Nagasawa Masami / ha” are “behavior / tsu / ta /.” And “verb stem / verb inflection ending / verb suffix / phrase”, respectively. The same applies to the phrase “Shibuya / de /,”. Further, whether or not each unique expression exists in the same phrase is “NO” because “Masami Nagasawa” and “Shibuya” are included in different phrases, respectively. The distance of the shortest path between clauses including each unique expression is represented by the distance of the shortest route between the phrase “Masami Nagasawa / ha” and the phrase “Shibuya / de /,” in the dependency tree. In this case, the phrase “Masami Nagasawa / ha” reaches the phrase “Shibuya / de /,” via the phrase “Gina / tsu / ta /.”, And there is no other route to reach. , The shortest path between each phrase is “Masami Nagasawa / ha” → “Gina ////” → “Shibuya / de /,” and the distance is 2. Therefore, the processing result of the inter-specific expression information extraction unit 21 when the above example is used is shown in FIG.

係り受け構造情報抽出部22は、基盤解析結果合成部14の処理結果と、固有表現ペア生成部15によって生成された固有表現の組とを取得すると、固有表現の組に対応する各固有表現のそれぞれを含む文節間の最短経路を表す部分木を抽出する。ここで、図4に示した基盤解析結果合成部14の処理結果と「長澤まさみ:渋谷」という固有表現の組とを用いて説明すると、前述のとおり「長澤まさみ/は」という文節と「渋谷/で/、」という文節の最短経路の距離は2であるから、最短経路を表す部分木は図6のように示される。この場合、部分木は、「長澤まさみ/は」という文節と「渋谷/で/、」という文節が共に「行な/っ/た/。」という文節に係っているという各文節間の係り受け関係を表している。なお、この部分木をデータとして実装する場合には、「(行なった。(長澤まさみは)(渋谷で))」というように表現される。   When the dependency structure information extraction unit 22 acquires the processing result of the base analysis result synthesis unit 14 and the set of unique expressions generated by the specific expression pair generation unit 15, each dependency expression corresponding to the set of specific expressions is obtained. Extract a subtree representing the shortest path between clauses containing each. Here, the processing result of the base analysis result synthesis unit 14 shown in FIG. 4 and the set of specific expressions “Masami Nagasawa: Shibuya” will be described. As described above, the phrase “Masami Nagasawa / ha” and “Shibuya” Since the distance of the shortest path of the phrase “/ de /,” is 2, the subtree representing the shortest path is shown in FIG. In this case, the sub-tree is related to each clause that the phrase “Masami Nagasawa / ha” and the phrase “Shibuya / de /,” are both related to the phrase “gyo / tsu / ta /.”. Represents a relationship. When this subtree is implemented as data, it is expressed as “(Done. (Masami Nagasawa) (in Shibuya))”.

次に、判別処理部30の概要を説明する。判別処理部30は、モデル選択部31、分類器32及び固有表現ペア出力部33からなり、素性抽出処理部20から取得した素性等に基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別するようになっている。   Next, an outline of the discrimination processing unit 30 will be described. The discrimination processing unit 30 includes a model selection unit 31, a classifier 32, and a specific expression pair output unit 33. Based on the features acquired from the feature extraction processing unit 20, a discrimination processing unit 30 is provided between each specific expression corresponding to a set of specific expressions. Whether or not there is a relationship is determined for each set of proper expressions.

モデル選択部31は、固有表現の組毎に固有表現間情報抽出部21及び係り受け構造情報抽出部22の処理結果を取得すると、基盤解析結果合成部14によって付与されたタグに基づいて固有表現の組を分類するとともに、後述の分類器32によって抽出されるモデルの種類を選択する(図2のステップS8)。例えば、固有表現の組として「長澤まさみ:渋谷」が入力された場合には、モデル選択部31は固有表現の組を「人名:地名」という種類に分類し、素性抽出処理部20から取得した素性とともに固有表現の組の種類を出力する。   When the model selection unit 31 acquires the processing results of the inter-specific expression information extraction unit 21 and the dependency structure information extraction unit 22 for each set of specific representations, the model selection unit 31 executes the specific expression based on the tag given by the base analysis result synthesis unit 14. And the model type extracted by the classifier 32 described later is selected (step S8 in FIG. 2). For example, when “Masami Nagasawa: Shibuya” is input as a specific expression set, the model selection unit 31 classifies the specific expression set into a type of “person name: place name” and acquires it from the feature extraction processing unit 20. Outputs the type of proper expression along with the features.

分類器32は、モデル選択部31から出力された情報を取得すると、モデル選択部31で選択された固有表現の組の種類に基づいて、複数のモデルが記憶されたモデル記憶部40からモデルを抽出し、抽出したモデルを用いて固有表現の組に対応する各固有表現間に関係があるか否かを判別する(図2のステップS9)。   When the classifier 32 acquires the information output from the model selection unit 31, the classifier 32 selects a model from the model storage unit 40 in which a plurality of models are stored based on the type of the unique expression selected by the model selection unit 31. Using the extracted model, it is determined whether or not there is a relationship between each of the specific expressions corresponding to the set of specific expressions (step S9 in FIG. 2).

ここで、モデルは、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて固有表現抽出処理部10及び素性抽出処理部20から事前に抽出された情報とを用いて周知の機械学習を行うことにより予め生成されている。また、所定の固有表現の組についての判別結果は人的な判断に基づいて事前になされている。なお、各モデルを、例えば「人名:地名」や「人名:人名」等のように固有表現の組の種類に応じて構成してもよいし、種類を区別することなく構成してもよい。   Here, the model uses a result determined in advance as to whether or not there is a relationship between each specific expression corresponding to a predetermined specific expression set, and text including each specific expression corresponding to the predetermined specific expression set. The information is previously generated by performing well-known machine learning using information extracted in advance from the specific expression extraction processing unit 10 and the feature extraction processing unit 20. In addition, the discrimination result for a predetermined set of specific expressions is made in advance based on human judgment. Note that each model may be configured according to the type of set of unique expressions, such as “person name: place name”, “person name: name”, or the like, or may be configured without distinguishing the types.

この場合、分類器32による判別には、係り受け構造情報抽出部22から取得した部分木も利用されていることから、例えば「長澤まさみ:渋谷」という固有表現の組について関係があるか否かを判別する場合には、「行なった。」という各固有表現間の関係を表す情報も用いられている。   In this case, since the subtree acquired from the dependency structure information extraction unit 22 is also used for the determination by the classifier 32, for example, whether or not there is a relationship with respect to the specific expression set “Masami Nagasawa: Shibuya”. Is also used, the information indicating the relationship between the specific expressions “performed” is used.

なお、分類器32は、関係あるか否かという判定結果の他に関係度を表す数値を出力するように構成してもよい。また、機械学習としては、周知のものを用いることが可能であるが、木構造やグラフ構造のデータを直接入力して学習可能に構成されたものを用いることが望ましい。   The classifier 32 may be configured to output a numerical value representing the degree of relationship in addition to the determination result of whether or not there is a relationship. As machine learning, a well-known machine can be used. However, it is desirable to use a machine that can learn by directly inputting data of a tree structure or a graph structure.

固有表現ペア出力部33は、各固有表現間に関係があると分類器32によって判別された固有表現の組を表示手段に出力する(図2のステップS10)。なお、分類器32が関係度を表す数値を出力するようになっている場合には、固有表現ペア出力部33は、関係度が予め設定された所定の閾値より大きいときにのみ固有表現の組を出力するようにしてもよい。   The specific expression pair output unit 33 outputs the set of specific expressions determined by the classifier 32 as having a relationship between the specific expressions to the display unit (step S10 in FIG. 2). When the classifier 32 outputs a numerical value indicating the degree of relation, the specific expression pair output unit 33 sets the combination of specific expressions only when the degree of relation is larger than a predetermined threshold value. May be output.

前述したように上記実施形態では、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出し、各固有表現を組み合せてなる複数の固有表現の組毎に、固有表現の組に対応する各固有表現のそれぞれを含む文節間の係り受け関係を表す部分木を少なくとも含む素性を抽出し、抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別するので、各固有表現のそれぞれを含む文節間の係り受け関係に基づいて各固有表現間に関係があるか否かを判別することができ、例えば「長澤まさみは渋谷で、速水もこみちは新宿で新作映画の舞台挨拶を行なった。」というテキストにおいて、「長澤まさみ」を含む文節と「渋谷」を含む文節は共に「行なった。」という文節に係るという情報を用いて各固有表現間の関係を判別することができる。従って、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。   As described above, in the above embodiment, when a text is input, a morphological analysis is performed on the input text to extract a plurality of specific expressions included in the input text, and a combination of a plurality of specific expressions formed by combining the specific expressions. For each feature, a feature including at least a subtree representing a dependency relationship between clauses including each of the feature representations corresponding to the feature representation pair is extracted, and the feature corresponding to the feature feature extracted and a predetermined feature representation pair is extracted. Based on the result determined in advance for the presence or absence of the relationship between each specific expression and the features extracted in advance from the feature extraction processing unit using text including each specific expression corresponding to the predetermined specific expression set Therefore, it is determined for each set of specific expressions whether or not there is a relationship between the specific expressions corresponding to the set of specific expressions, so that each specific expression is based on the dependency relationship between clauses including each specific expression. Relationship between For example, in the text “Masami Nagasawa made a stage greeting for a new movie in Shibuya and Mokomichi Hayami in Shinjuku”, the phrase containing “Masami Nagasawa” and “Shibuya” It is possible to determine the relationship between each proper expression by using the information that the clauses that are included are related to the clause “I did it”. Therefore, it is possible to extract a set of specific expressions related to each other according to each case.

なお、上記実施形態では、係り受け構造情報抽出部22が各固有表現のそれぞれを含む文節間の最短経路を表す部分木を抽出するものを示したが、部分木における係り先のない文節、即ち部分木のルート文節に対して係り元となる文節を係り受け木から取得し、該文節を部分木とともに出力するようにしてもよい。例えば、例示したテキストと「長澤まさみ:渋谷」という固有表現の組を用いて説明すると、各固有表現を含む文節間の最短経路を表す部分木は図6に示されており、部分木のルート文節は「行な/っ/た/。」となる。また、図3において「行な/っ/た/。」という文節に対して係り元となる文節は、「長澤まさみ/は」、「渋谷/で/、」、「速水もこみち/は」、「新宿/で」及び「舞台/挨拶/を」の5つであるから、係り受け構造情報抽出部22は、これら5つの文節を部分木とともに出力する。この場合、分類器32は、部分木のルート文節に係る文節も利用して各固有表現間の関係の有無を判別する。これにより、相互に関係する固有表現の組の抽出精度を向上させることができる。   In the above-described embodiment, the dependency structure information extraction unit 22 extracts the subtree representing the shortest path between clauses including each of the unique expressions. It may be possible to obtain from the dependency tree a clause that is a dependency source for the root clause of the subtree, and output the clause together with the subtree. For example, a description will be given using a combination of the exemplified text and the unique expression “Masami Nagasawa: Shibuya”. The subtree representing the shortest path between clauses including each specific expression is shown in FIG. The phrase will be "Don't do ////". Also, in FIG. 3, the phrases that are the source of the phrase “Gina / tsu / ta /.” Are “Masami Nagasawa / ha”, “Shibuya / de /,”, “Momichi Hayami / ha”, “ Since there are five “Shinjuku / de” and “stage / greeting / to”, the dependency structure information extraction unit 22 outputs these five phrases together with the subtree. In this case, the classifier 32 also determines the presence / absence of a relationship between the unique expressions using the clause related to the root clause of the subtree. Thereby, it is possible to improve the extraction accuracy of sets of specific expressions related to each other.

また、係り受け構造情報抽出部22を、部分木におけるルート文節に対して係り元となる文節内の固有表現を係り受け木から取得して、該固有表現を部分木とともに出力するように構成してもよい。例えば、上記の5つの文節内に存在する固有表現は「長澤まさみ」、「渋谷」、「速水もこみち」及び「新宿」の4つである。この場合、分類器32は、部分木のルート文節に係る文節内の固有表現も利用して各固有表現間の関係の有無を判別する。これにより、相互に関係する固有表現の組の抽出精度を向上させることができる。   In addition, the dependency structure information extraction unit 22 is configured to acquire a specific expression in a dependency phrase from a dependency tree with respect to a root clause in the subtree, and output the specific expression together with the subtree. May be. For example, there are four proper expressions existing in the above five clauses, “Masami Nagasawa”, “Shibuya”, “Momichi Hayami” and “Shinjuku”. In this case, the classifier 32 also determines whether or not there is a relationship between the unique expressions by using the specific expressions in the clause related to the root clause of the subtree. Thereby, it is possible to improve the extraction accuracy of sets of specific expressions related to each other.

さらに、係り受け構造情報抽出部22を、各固有表現を含む文節間の最短経路を表す部分木に存在する全ての固有表現を取得して、これらの固有表現を部分木とともに出力するように構成してもよい。この場合、部分木に存在する全ての固有表現も利用して各固有表現間の関係の有無を判別することが可能となることから、相互に関係する固有表現の組の抽出精度を向上させることができる。   Further, the dependency structure information extraction unit 22 is configured to acquire all the specific expressions existing in the subtree representing the shortest path between clauses including each specific expression, and output these specific expressions together with the subtree. May be. In this case, it is possible to determine the presence or absence of the relationship between each specific expression using all the specific expressions existing in the subtree, so that the extraction accuracy of the set of related specific expressions is improved. Can do.

さらにまた、係り受け構造情報抽出部22を、固有表現の組に対応する各固有表現のそれぞれを含む文節が係り受け木において共に同一文節に係っているか否かを表す情報を部分木とともに出力するように構成してもよい。例えば、「長澤まさみ:渋谷」という固有表現の組についてみると、「長澤まさみ/は」という文節と「渋谷/で/、」という文節は共に「行な/っ/た/。」という文節に係っているので、同一文節に係っているか否かを表す情報は「YES」となる。このように、各固有表現を含む文節が共に同一の文節に係っているか否かを素性に含めることで、各固有表現間の係り受け構造を容易に判別することができ、固有表現の組の抽出精度を向上させることができる。   In addition, the dependency structure information extraction unit 22 outputs, together with the subtree, information indicating whether or not the phrase including each of the specific expressions corresponding to the set of specific expressions is related to the same phrase in the dependency tree. You may comprise. For example, in the case of a specific expression group “Masami Nagasawa: Shibuya”, the phrase “Masami Nagasawa / ha” and the phrase “Shibuya / de /,” are both in the phrase “Gina / tsu / ta /.” Since it is related, the information indicating whether or not it is related to the same phrase is “YES”. In this way, by including whether or not the clauses including each specific expression are related to the same phrase, the dependency structure between the specific expressions can be easily determined, and the combination of the specific expressions is determined. The extraction accuracy can be improved.

また、係り受け構造情報抽出部22を、固有表現の組に対応する各固有表現のそれぞれを含む文節のうち一方の文節が係り受け解析結果において直接的または間接的に他方の文節に係るか否かを表す情報を部分木とともに出力するように構成してもよい。例えば、「横須賀で育った小泉さんは、・・・」というテキストを用いた場合、このテキストの係り受け解析結果は図7のように示される。そして「横須賀:小泉」という固有表現の組についてみると、「横須賀で」という文節が「小泉さんは」という文節に間接的に係っているので、直接的または間接的に他方の文節に係るか否かを表す情報は「YES」となる。このように、各固有表現のそれぞれを含む文節のうち一方の文節が係り受け解析結果において直接的または間接的に他方の文節に係るか否かを素性に含めることで、各固有表現間の係り受け構造を容易に判別することができ、固有表現の組の抽出精度を向上させることができる。なお、上記の例において、「小泉さんは」という文節は、部分木のルート文節となる。   In addition, the dependency structure information extraction unit 22 determines whether one of the clauses including each of the specific expressions corresponding to the set of specific expressions is directly or indirectly related to the other clause in the dependency analysis result. It may be configured to output information representing such information together with the subtree. For example, when the text “Mr. Koizumi who grew up in Yokosuka is ...” is used, the dependency analysis result of this text is shown in FIG. And if you look at the specific expression group “Yokosuka: Koizumi”, the phrase “Yokosuka de” is indirectly related to the phrase “Mr. Koizumi is”, so it directly or indirectly relates to the other phrase. The information indicating whether or not is “YES”. In this way, by including whether or not one of the clauses including each of the specific expressions directly or indirectly relates to the other clause in the dependency analysis result, the relationship between the specific expressions is included. The receiving structure can be easily discriminated, and the extraction accuracy of the set of specific expressions can be improved. In the above example, the phrase “Mr. Koizumi is” becomes the root phrase of the subtree.

以下に本発明の第2の実施形態に係る抽出装置について説明する。本実施形態が第1の実施形態と異なる点は、固有表現の組に含まれる各固有表現間の関係の有無が判別処理部30によって判別される毎に判別結果を記憶する判別結果記憶部50を備え、判別処理部30を、固有表現の組に対応する素性が抽出されると判別結果記憶部50に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に抽出された素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別するように構成した点にある。他の構成及び動作については第1の実施形態と同様なので、ここでは相違点のみを図8乃至図12を参照して説明する。   The extraction device according to the second embodiment of the present invention will be described below. The present embodiment is different from the first embodiment in that a discrimination result storage unit 50 that stores a discrimination result every time the discrimination processing unit 30 discriminates whether or not there is a relationship between each unique expression included in a set of unique expressions. When the feature corresponding to the set of specific expressions is extracted, the discrimination processing unit 30 acquires the discrimination result stored in the discrimination result storage unit 50, the discrimination result, the extracted feature, and a predetermined feature A result determined in advance as to whether or not there is a relationship between each specific expression corresponding to the set of specific expressions, and a feature extracted in advance using text including each specific expression corresponding to the set of specific specific expressions On the basis of this, it is configured to determine whether or not there is a relationship between each unique expression corresponding to a set of specific expressions. Since other configurations and operations are the same as those in the first embodiment, only the differences will be described with reference to FIGS.

本実施形態の素性抽出処理部20は、固有表現抽出処理部10の固有表現ペア生成部15によって生成された固有表現の組の並び替えを行う固有表現ペア並び替え部23を有している。   The feature extraction processing unit 20 according to the present embodiment includes a specific expression pair rearrangement unit 23 that rearranges a set of specific expressions generated by the specific expression pair generation unit 15 of the specific expression extraction processing unit 10.

また、本実施形態の判別処理部30は、分類器32によって判別された各固有表現間の関係の有無についての結果を判別結果記憶部50に記憶するとともに、判別結果記憶部50に記憶された判別結果を取得する判別結果取得部34を有している。   In addition, the discrimination processing unit 30 according to the present embodiment stores a result of the presence / absence of a relationship between each unique expression discriminated by the classifier 32 in the discrimination result storage unit 50 and also stored in the discrimination result storage unit 50. It has a discrimination result acquisition unit 34 for acquiring a discrimination result.

本実施形態の抽出装置について、素性抽出処理部20及び判別処理部30の動作を第1の実施形態において例示した入力テキスト及び図9のフローを用いて説明する。なお、各固有表現には、入力テキストにおける出現順に固有表現IDが付与されている。例えば、「長澤まさみ」、「渋谷」、「速水もこみち」及び「新宿」には、それぞれ「ID1」、「ID2」、「ID3」及び「ID4」という固有表現IDが付与される。また、判別結果記憶部50には、当初何も記憶されていない。   With respect to the extraction apparatus of this embodiment, the operations of the feature extraction processing unit 20 and the discrimination processing unit 30 will be described using the input text exemplified in the first embodiment and the flow of FIG. Each unique expression is given a unique expression ID in the order of appearance in the input text. For example, “Nagasawa Masami”, “Shibuya”, “Hayami Mokomichi”, and “Shinjuku” are assigned unique expression IDs “ID1”, “ID2”, “ID3”, and “ID4”, respectively. Also, nothing is initially stored in the discrimination result storage unit 50.

まず、固有表現の組が図10に示される順で固有表現抽出処理部10の固有表現ペア生成部15から出力されると、固有表現ペア並び替え部23は、固有表現の組を並び替え規則に基づいて並び替える(ステップS11)。ここで、本実施形態では、「固有表現IDの絶対値差分が小さい順に並び替え、絶対値差分が等しい場合には、固有表現IDの和が小さい順に並び替える。」という並び替え規則を用いている。また、固有表現IDの絶対値差分及び和は図11のように示されている。これにより、固有表現の組は図12に示すように並び替えられる。   First, when the specific expression pairs are output from the specific expression pair generation unit 15 of the specific expression extraction processing unit 10 in the order shown in FIG. 10, the specific expression pair rearrangement unit 23 sorts the specific expression pairs. Rearrange based on (step S11). Here, in the present embodiment, the rearrangement rule “rearranged in descending order of the absolute value difference of the unique expression ID and rearrange in the order of smaller sum of the specific expression IDs when the absolute value difference is equal” is used. Yes. Further, the absolute value difference and the sum of the unique expression ID are shown in FIG. As a result, the sets of specific expressions are rearranged as shown in FIG.

次に、固有表現間情報抽出部21及び係り受け構造情報抽出部22は、並び替えられた固有表現の組から先頭の固有表現の組(「ID1−ID2」)を処理対象として抽出し(ステップS12)、処理対象の固有表現の組について素性抽出処理を行う(ステップS13)。なお、素性抽出処理の内容は第1の実施形態と同様である。   Next, the inter-specific expression information extraction unit 21 and the dependency structure information extraction unit 22 extract the first specific expression pair ("ID1-ID2") as a processing target from the rearranged specific expression group (step 1). S12), a feature extraction process is performed for a set of specific expressions to be processed (step S13). The contents of the feature extraction process are the same as those in the first embodiment.

次いで、判別処理部30の判別結果取得部34は、判別結果記憶部50に判別結果が記憶されているか否か判別し(ステップS14)、判別結果が記憶されている場合には判別結果記憶部50に記憶されている全ての判別結果を取得する(ステップS15)。なお、処理対象が「ID1−ID2」であるときには、判別結果記憶部50に何も記憶されていないので、ステップS16に処理が移行する。   Next, the discrimination result acquisition unit 34 of the discrimination processing unit 30 discriminates whether or not the discrimination result is stored in the discrimination result storage unit 50 (step S14). If the discrimination result is stored, the discrimination result storage unit All the discrimination results stored in 50 are acquired (step S15). When the processing target is “ID1-ID2”, nothing is stored in the determination result storage unit 50, and thus the process proceeds to step S16.

そして、モデル選択部31が固有表現の組を分類すると(ステップS16)、分類器32は、固有表現の組に対応する各固有表現間の関係の有無を判別するとともに(ステップS17)、判別結果を固有表現ペア出力部33に出力する(ステップS18)。なお、固有表現ペア出力部33は、各固有表現間に関係があると分類器32によって判別された場合には、固有表現の組を表示手段に出力する。そして、判別結果取得部34は、処理対象として抽出されていない固有表現の組が存在する場合には、固有表現の組とその関係の判別結果を判別結果記憶部50に記憶してステップS12の処理に移行させる(ステップS19,S20)。この場合、次の処理対象は並び替えられた順に従う。   When the model selection unit 31 classifies the set of proper expressions (step S16), the classifier 32 determines whether or not there is a relationship between the specific expressions corresponding to the set of specific expressions (step S17) and the determination result. Is output to the specific expression pair output unit 33 (step S18). The specific expression pair output unit 33 outputs a set of specific expressions to the display means when the classifier 32 determines that there is a relationship between the specific expressions. Then, when there is a set of unique expressions that are not extracted as processing targets, the discrimination result acquisition unit 34 stores the discrimination results of the unique expressions and their relations in the discrimination result storage unit 50, and in step S12. The process proceeds (steps S19 and S20). In this case, the next processing target follows the rearranged order.

なお、上記ステップS15では、判別結果記憶部50から全ての判別結果が取得されるようになっているが、固有表現の組に関連する判別結果のみを取得することも可能であり、その取得方法を以下に3つ示す。   In step S15, all the determination results are acquired from the determination result storage unit 50. However, it is also possible to acquire only the determination results related to the set of specific expressions. Three are shown below.

まず、第1の方法として、処理対象の固有表現の組に対応する固有表現IDと同一の固有表現IDを有する固有表現の組の判別結果を判別結果記憶部50から取得する。例えば、処理対象の固有表現の組が「ID1−ID4」であった場合には、既に判別された固有表現の組のうち「ID1−ID2」、「ID3−ID4」、「ID1−ID3」及び「ID2−ID4」に対応する判別結果が取得される。   First, as a first method, a discrimination result of a specific expression group having the same specific expression ID as the specific expression ID corresponding to the specific expression set to be processed is acquired from the determination result storage unit 50. For example, when the set of specific expressions to be processed is “ID1-ID4”, “ID1-ID2”, “ID3-ID4”, “ID1-ID3”, A determination result corresponding to “ID2-ID4” is acquired.

また、第2の方法として、処理対象の固有表現の組に対応する各固有表現ID間に存在する固有表現IDを有する固有表現の組の判別結果を判別結果記憶部50から取得する。例えば、処理対象の固有表現の組が「ID1−ID4」であった場合には、各固有表現ID間に存在する固有表現IDは「ID2」及び「ID3」となる。従って、既に判別された固有表現の組のうち「ID1−ID2」、「ID3−ID4」、「ID1−ID3」及び「ID2−ID4」に対応する判別結果が取得される。   As a second method, a discrimination result of a set of unique expressions having a unique expression ID existing between each unique expression ID corresponding to the set of unique expressions to be processed is acquired from the discrimination result storage unit 50. For example, when the set of unique expressions to be processed is “ID1-ID4”, the unique expression IDs existing between the unique expression IDs are “ID2” and “ID3”. Therefore, the discrimination results corresponding to “ID1-ID2”, “ID3-ID4”, “ID1-ID3”, and “ID2-ID4” are acquired from the already-identified combinations of unique expressions.

さらに、第3の方法として、係り受け木において処理対象の固有表現の組に対応する各固有表現間の最短経路を抽出し、その最短経路上に存在する固有表現を含む固有表現の組の判別結果を判別結果記憶部50から取得する。例えば、処理対象のお固有表現の組が「ID1−ID4」であった場合には、「長澤まさみ」を含む文節と「新宿」を含む文節との図3の係り受け木における最短経路上には固有表現を含む文節が存在しないので、判別結果が取得されない。   Further, as a third method, the shortest path between each specific expression corresponding to the set of specific expressions to be processed in the dependency tree is extracted, and a set of specific expressions including the specific expressions existing on the shortest path is determined. The result is acquired from the discrimination result storage unit 50. For example, if the specific expression pair to be processed is “ID1-ID4”, the phrase including “Masami Nagasawa” and the phrase including “Shinjuku” on the shortest path in the dependency tree of FIG. Since there are no clauses that contain specific expressions, no discrimination results are obtained.

なお、3つの方法を組み合わせて判別結果を取得するように構成してもよい。   In addition, you may comprise so that a discrimination | determination result may be acquired combining three methods.

また、判別結果が判別結果記憶部50から取得された場合には、分類器32は、上記フローのステップS17において、取得した判別結果、各固有表現間の素性及びモデル記憶部40から取得したモデルに基づいて、各固有表現間に関係があるか否かを判別する。   Further, when the discrimination result is acquired from the discrimination result storage unit 50, the classifier 32, in step S17 of the above flow, the acquired discrimination result, the feature between each unique expression, and the model acquired from the model storage unit 40. Based on the above, it is determined whether or not there is a relationship between the unique expressions.

さらに、上記フローでは説明を省略したが、本実施形態で用いられるモデルは、複数の所定の固有表現の組を用いて図9のフローに従って作成される。この場合、ステップS17における各固有表現間の判別処理は人的な判断に基づいてなされ、人的に判別された結果と、各固有表現間の素性と、ステップS15において判別結果記憶部60から取得された判別結果とが訓練事例として所定の記憶部に記憶される。そして、ステップS19において、全ての固有表現の組とその関係の判別結果が得られた場合には、訓練事例を用いてモデルが作成される。なお、モデルを作成する際には、ステップS18の処理は省略される。   Furthermore, although the description is omitted in the above flow, the model used in the present embodiment is created according to the flow of FIG. 9 using a plurality of predetermined sets of specific expressions. In this case, the discrimination process between each unique expression in step S17 is performed based on human judgment, and the result of human discrimination, the feature between each unique expression, and the discrimination result storage unit 60 obtained in step S15. The determined determination result is stored in a predetermined storage unit as a training example. Then, in step S19, if all the unique expression pairs and their relationship determination results are obtained, a model is created using the training examples. When creating a model, the process of step S18 is omitted.

このように上記実施形態では、固有表現の組に対応する各固有表現間の関係の有無が判別される毎に、判別結果を判別結果記憶部50に記憶し、固有表現の組に対応する素性が抽出されると判別結果記憶部50に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に抽出された素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別するので、判別対象となる固有表現の組に関連する固有表現の組の判別結果を容易に利用することができる。   As described above, in the above-described embodiment, each time the presence / absence of the relationship between the unique expressions corresponding to the set of specific expressions is determined, the determination result is stored in the determination result storage unit 50, and the feature corresponding to the set of specific expressions Is extracted, the determination result stored in the determination result storage unit 50 is acquired, and the presence / absence of the relationship between the determination result, the extracted feature, and each specific expression corresponding to a predetermined specific expression set is determined in advance. Based on the determined result and the feature extracted in advance using the text including each specific expression corresponding to the predetermined specific expression set, there is a relationship between each specific expression corresponding to the specific expression set. Since it is determined whether or not there is, it is possible to easily use the determination result of the set of specific expressions related to the set of specific expressions to be determined.

なお、上記第1及び第2の実施形態は本発明の具体例に過ぎず、本発明が上記実施形態のみに限定されることはない。例えば、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1や図8の構成図に示された機能を実現するプログラムあるいは図2や図9のフローに示された手順を備えるプログラムをインストールすることによっても実現可能である。   In addition, the said 1st and 2nd embodiment is only a specific example of this invention, and this invention is not limited only to the said embodiment. For example, the present invention includes a program for realizing the functions shown in the configuration diagrams of FIGS. 1 and 8 or the procedures shown in the flows of FIGS. 2 and 9 via a medium or communication line in a known computer. It can also be realized by installing a program.

また、上記実施形態では、固有表現間情報抽出部21が図5に示した素性を出力するものを示したが、図13に示すように各固有表現を含む文節内の固有表現以外の単語や、その単語の品詞を素性に含めて出力させてもよい。この場合、固有表現として用いることのない「日本文化」という単語に対して「日本」のみが地名を表す固有表現として抽出され、他の固有表現との関係の有無について判別されることを防止することができる。   Further, in the above-described embodiment, the inter-specific expression information extraction unit 21 outputs the feature shown in FIG. 5, but as shown in FIG. 13, a word other than the specific expression in the clause including each specific expression, The part of speech of the word may be included in the feature and output. In this case, with respect to the word “Japanese culture” that is not used as a specific expression, only “Japan” is extracted as a specific expression representing the place name, and it is prevented that it is determined whether there is a relationship with other specific expressions. be able to.

さらに、固有表現間情報抽出部21を、図14に示すように各固有表現の直後に名詞句があるか否かを素性に含めて出力させてもよい。この場合、前記と同様に「日本文化」という単語に対して「日本」のみが地名を表す固有表現として抽出され、他の固有表現との関係の有無について判別されることを防止することができる。   Furthermore, the inter-specific expression information extraction unit 21 may output whether or not there is a noun phrase immediately after each proper expression as shown in FIG. In this case, as in the case described above, only “Japan” is extracted as a unique expression representing a place name for the word “Japanese culture”, and it is possible to prevent the presence or absence of a relationship with another specific expression from being determined. .

さらにまた、固有表現間情報抽出部21を、図15に示すように各固有表現の間に存在する他の固有表現が各固有表現の一方と同一表記もしくは部分表記であるか否かを素性に含めて出力させてもよい。この場合、関係の判別対象となる固有表現が誤って抽出されることを防止することができる。   Furthermore, the inter-specific expression information extraction unit 21 makes a feature whether or not another specific expression existing between the specific expressions is the same notation or a partial notation as one of the specific expressions as shown in FIG. It may be included and output. In this case, it is possible to prevent a proper expression that is a target for determining the relationship from being erroneously extracted.

本発明の第1の実施形態における固有表現の組抽出装置の構成図1 is a configuration diagram of a unique expression set extraction apparatus according to the first embodiment of the present invention. 固有表現の組抽出処理のフロー図Flow chart of specific expression group extraction processing 係り受け解析部による解析結果の概要を示す図Diagram showing the summary of analysis results by the dependency analysis unit 基盤解析結果合成部による処理結果の概要を示す図The figure which shows the summary of the processing result by the base analysis result composition section 固有表現間情報抽出部による処理結果の一例を示す図The figure which shows an example of the processing result by the information extraction part between proper expressions 部分木の一例を示す図Figure showing an example of a subtree 部分木の一例を示す図Figure showing an example of a subtree 本発明の第2の実施形態における固有表現の組抽出装置の構成図Configuration diagram of proper expression set extraction apparatus in the second embodiment of the present invention 素性抽出処理部及び判別処理部の動作を示すフロー図Flow diagram showing operation of feature extraction processing unit and discrimination processing unit 処理対象リストを示す図Diagram showing processing target list 固有表現IDの絶対値差分及び和を示す図The figure which shows the absolute value difference and sum of specific expression ID 並び替え処理後の処理対象リストを示す図The figure which shows the processing target list after the rearrangement processing 固有表現間情報抽出部による処理結果の変形例を示す図The figure which shows the modification of the processing result by the information extraction part between proper expressions 固有表現間情報抽出部による処理結果の変形例を示す図The figure which shows the modification of the processing result by the information extraction part between proper expressions 固有表現間情報抽出部による処理結果の変形例を示す図The figure which shows the modification of the processing result by the information extraction part between proper expressions

符号の説明Explanation of symbols

10…固有表現抽出処理部、11…形態素解析部、12…係り受け解析部、20…素性抽出処理部、22…係り受け構造情報抽出部、30…判別処理部、32…分類器、50…判別結果記憶部。   DESCRIPTION OF SYMBOLS 10 ... Specific expression extraction process part, 11 ... Morphological analysis part, 12 ... Dependency analysis part, 20 ... Feature extraction process part, 22 ... Dependency structure information extraction part, 30 ... Discrimination process part, 32 ... Classifier, 50 ... A discrimination result storage unit.

Claims (12)

相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する装置であって、
テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する固有表現抽出処理部と、
固有表現抽出処理部によって抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、入力テキストを構成する文節の係り受けを解析した結果を表す係り受け木から固有表現の組に対応する各固有表現のそれぞれを含む文節間の最短経路を表す部分木を取得し、該部分木を少なくとも含む素性を抽出する素性抽出処理部と、
素性抽出処理部によって抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する判別処理部とを備えた
ことを特徴とする相互に関係する固有表現の組抽出装置。
A device that extracts a set of specific expressions composed of a plurality of related specific expressions from input text,
When a text is input, a specific expression extraction processing unit that morphologically analyzes the input text and extracts a plurality of specific expressions included in the input text;
Corresponds to a set of specific expressions from a dependency tree that represents the result of analyzing the dependency of the clauses that make up the input text for each set of multiple specific expressions that are combined with each specific expression extracted by the specific expression extraction processing unit. a feature extraction processing unit which obtains the subtree representing the shortest path between clauses, to extract at least includes feature the subtree containing each of the named entities that,
The feature extracted by the feature extraction processing unit, the result of determining in advance whether or not there is a relationship between each specific expression corresponding to a predetermined specific expression set, and each specific expression corresponding to the predetermined specific expression set For each set of specific expressions, it is determined whether there is a relationship between each specific expression corresponding to the set of specific expressions based on the pre-extracted features from the feature extraction processing unit using text including An apparatus for extracting sets of interrelated specific expressions, characterized by comprising a discrimination processing unit.
前記素性抽出処理部は、固有表現の組に対応する各固有表現のそれぞれを含む文節間の係り受け関係において係り先のない文節に対して係り元となる文節を係り受け解析結果から取得し、取得した文節と前記係り受け関係を表す情報とを少なくとも含む情報を素性として抽出する
ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。
The feature extraction processing unit obtains a clause that is a dependency source from a dependency analysis result for a clause having no dependency in a dependency relationship between clauses including each of the specific expressions corresponding to the set of specific expressions, 2. The inter-relevant-specific-expression group extraction device according to claim 1, wherein information including at least the acquired clause and information representing the dependency relationship is extracted as a feature.
前記素性抽出処理部は、固有表現の組に対応する各固有表現のそれぞれを含む文節間の係り受け関係において係り先のない文節に対して係り元となる文節内の固有表現を係り受け解析結果から取得し、該固有表現と前記係り受け関係を表す情報とを少なくとも含む情報を素性として抽出する
ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。
The feature extraction processing unit performs dependency analysis on a specific expression in a clause that is a dependency source for a clause having no dependency in a dependency relationship between clauses including each of the specific expressions corresponding to the set of specific expressions. 2. The apparatus for extracting a set of interrelated specific expressions according to claim 1, wherein information including at least the specific expression and information representing the dependency relationship is extracted as a feature.
前記素性抽出処理部は、前記係り受け関係を表す情報と、固有表現の組に対応する各固有表現のそれぞれを含む文節が係り受け解析結果において共に同一文節に係っているか否かを表す情報とを少なくとも含む情報を素性として抽出する
ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。
The feature extraction processing unit includes information indicating the dependency relationship and information indicating whether or not a clause including each of the specific expressions corresponding to the set of specific expressions is related to the same phrase in the dependency analysis result. The information including at least information as a feature is extracted as a feature.
前記素性抽出処理部は、前記係り受け関係を表す情報と、固有表現の組に対応する各固有表現のそれぞれを含む文節のうち一方の文節が係り受け解析結果において直接的または間接的に他方の文節に係るか否かを表す情報とを少なくとも含む情報を素性として抽出する
ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。
The feature extraction processing unit directly or indirectly selects one of the clauses including the information representing the dependency relationship and each of the specific expressions corresponding to the set of specific expressions in the dependency analysis result. The apparatus for extracting a set of interrelated specific expressions according to claim 1, wherein information including at least information indicating whether or not the phrase is related is extracted as a feature.
前記各固有表現の組に含まれる各固有表現間の関係の有無が判別処理部によって判別される毎に判別結果を記憶する判別結果記憶部を備え、
判別処理部は、固有表現の組に対応する素性が素性抽出処理部によって抽出されると判別結果記憶部に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別する
ことを特徴とする請求項1乃至5何れか1項記載の相互に関係する固有表現の組抽出装置。
A determination result storage unit that stores a determination result each time the determination processing unit determines whether or not there is a relationship between each unique expression included in each set of specific expressions,
The discrimination processing unit obtains the discrimination result stored in the discrimination result storage unit when the feature corresponding to the set of specific expressions is extracted by the feature extraction processing unit, and the discrimination result, the extracted feature, and a predetermined feature Extracted in advance from the feature extraction processing unit using the result determined in advance as to whether or not there is a relationship between each specific expression corresponding to the specific expression set and text including each specific expression corresponding to the predetermined specific expression set 6. The interrelationship according to claim 1, wherein it is determined whether or not there is a relationship between each of the specific expressions corresponding to the set of specific expressions on the basis of the obtained prior feature. Specific expression set extraction device.
コンピュータを用いて、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する方法であって、
前記コンピュータは、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する第1のステップと、
抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、入力テキストを構成する文節の係り受けを解析した結果を表す係り受け木から固有表現の組に対応する各固有表現のそれぞれを含む文節間の最短経路を表す部分木を取得し、該部分木を少なくとも含む素性を抽出する第2のステップと、
抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第2のステップを行うことにより抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する第3のステップとを行う
ことを特徴とする相互に関係する固有表現の組抽出方法。
A method of extracting a set of specific expressions consisting of a plurality of related specific expressions from an input text using a computer,
A first step of extracting a plurality of specific expressions included in the input text by performing morphological analysis on the input text when the text is input;
Each of the specific expressions corresponding to the set of specific expressions from the dependency tree representing the result of analyzing the dependency of the clauses constituting the input text for each of the multiple specific expression combinations obtained by combining the extracted specific expressions a second step of acquiring a partial tree that represents the shortest path between clauses, to extract at least includes feature the subtree including,
Using the extracted features, the result of the determination in advance regarding the presence or absence of the relationship between each specific expression corresponding to the predetermined specific expression set, and text including each specific expression corresponding to the predetermined specific expression set And determining whether or not there is a relationship between the specific expressions corresponding to the set of specific expressions for each set of specific expressions based on the pre-features extracted by performing the second step in advance. A method of extracting a set of interrelated expressions characterized by performing the following steps.
前記コンピュータは、第2のステップにおいて、固有表現の組に対応する各固有表現のそれぞれを含む文節間の係り受け関係において係り先のない文節に対して係り元となる文節を係り受け解析結果から取得し、取得した文節と前記係り受け関係を表す情報とを少なくとも含む情報を素性として抽出する
ことを特徴とする請求項7記載の相互に関係する固有表現の組抽出方法。
In the second step, in the second step, the computer uses the dependency analysis result for the clause that is the source of the clause having no dependency in the dependency relationship between the clauses including each of the specific expressions corresponding to the set of specific expressions. The method for extracting a set of interrelated specific expressions according to claim 7, wherein information including at least the acquired phrase and the information indicating the dependency relationship is extracted as a feature.
前記コンピュータは、第2のステップにおいて、固有表現の組に対応する各固有表現のそれぞれを含む文節間の係り受け関係において係り先のない文節に対して係り元となる文節内の固有表現を係り受け解析結果から取得し、該固有表現と前記係り受け関係を表す情報とを少なくとも含む情報を素性として抽出する
ことを特徴とする請求項7記載の相互に関係する固有表現の組抽出方法。
In the second step, the computer relates the specific expression in the phrase that is the source of the relation to the unrelated phrase in the dependency relation between the phrases including each of the specific expressions corresponding to the set of specific expressions. 8. The method for extracting a set of interrelated specific expressions according to claim 7, wherein information including at least the specific expression and information representing the dependency relation is acquired as a feature.
前記コンピュータは、第2のステップにおいて、前記係り受け関係を表す情報と、固有表現の組に対応する各固有表現のそれぞれを含む文節が係り受け解析結果において共に同一文節に係っているか否かを表す情報とを少なくとも含む情報を素性として抽出する
ことを特徴とする請求項7記載の相互に関係する固有表現の組抽出方法。
In the second step, in the second step, the computer determines whether or not a phrase including each of the information representing the dependency relationship and each specific expression corresponding to the set of specific expressions is related to the same phrase in the dependency analysis result. The method of extracting a set of interrelated specific expressions according to claim 7, wherein information including at least information representing the feature information is extracted as a feature.
前記コンピュータは、第2のステップにおいて、前記係り受け関係を表す情報と、固有表現の組に対応する各固有表現のそれぞれを含む文節のうち一方の文節が係り受け解析結果において直接的または間接的に他方の文節に係るか否かを表す情報とを少なくとも含む情報を素性として抽出する
ことを特徴とする請求項7記載の相互に関係する固有表現の組抽出方法。
In the second step, in the second step, one of the phrases including information representing the dependency relationship and each of the specific expressions corresponding to the set of specific expressions is directly or indirectly included in the dependency analysis result. 8. The method for extracting sets of interrelated specific expressions according to claim 7, wherein information including at least information indicating whether or not the other clause is included is extracted as a feature.
前記コンピュータは、第3のステップにおいて各固有表現の組に対応する各固有表現間の関係の有無が判別される毎に、判別結果を所定の判別結果記憶部に記憶する第4のステップを行い、
第3のステップにおいて、固有表現の組に対応する素性が抽出されると判別結果記憶部に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第2のステップを行うことにより抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別する
ことを特徴とする請求項7乃至11何れか1項記載の相互に関係する固有表現の組抽出方法。
The computer performs a fourth step of storing a determination result in a predetermined determination result storage unit every time it is determined in the third step whether or not there is a relationship between each specific expression corresponding to each set of specific expressions. ,
In the third step, when a feature corresponding to a set of specific expressions is extracted, a determination result stored in the determination result storage unit is acquired, and the set of the determination result, the extracted feature, and a predetermined specific expression Is extracted by performing the second step in advance using the result determined in advance as to whether or not there is a relationship between the respective specific expressions corresponding to, and the text including each specific expression corresponding to the predetermined set of specific expressions. 12. The mutually related uniqueness according to claim 7, wherein it is determined whether or not there is a relationship between each of the specific expressions corresponding to the set of specific expressions based on the prior feature. Expression set extraction method.
JP2007058766A 2007-03-08 2007-03-08 Apparatus and method for extracting sets of interrelated specific expressions Active JP4793931B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007058766A JP4793931B2 (en) 2007-03-08 2007-03-08 Apparatus and method for extracting sets of interrelated specific expressions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007058766A JP4793931B2 (en) 2007-03-08 2007-03-08 Apparatus and method for extracting sets of interrelated specific expressions

Publications (2)

Publication Number Publication Date
JP2008225560A JP2008225560A (en) 2008-09-25
JP4793931B2 true JP4793931B2 (en) 2011-10-12

Family

ID=39844154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007058766A Active JP4793931B2 (en) 2007-03-08 2007-03-08 Apparatus and method for extracting sets of interrelated specific expressions

Country Status (1)

Country Link
JP (1) JP4793931B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876981B (en) * 2009-04-29 2015-09-23 阿里巴巴集团控股有限公司 A kind of method and device building knowledge base
JP5331023B2 (en) * 2010-02-12 2013-10-30 日本電信電話株式会社 Important word extraction device, important word extraction method, and important word extraction program
JP7032582B1 (en) 2021-01-29 2022-03-08 Kpmgコンサルティング株式会社 Information analysis program, information analysis method and information analysis device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256447A (en) * 2002-02-26 2003-09-12 Kyoji Umemura Related term extraction method and device
JP2006178671A (en) * 2004-12-21 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for extracting synonym pair, and medium recording the program
JP4694258B2 (en) * 2005-05-31 2011-06-08 株式会社エヌ・ティ・ティ・データ Information extraction apparatus, information extraction method, and program
JP4565106B2 (en) * 2005-06-23 2010-10-20 独立行政法人情報通信研究機構 Binary Relation Extraction Device, Information Retrieval Device Using Binary Relation Extraction Processing, Binary Relation Extraction Processing Method, Information Retrieval Processing Method Using Binary Relation Extraction Processing, Binary Relation Extraction Processing Program, and Binary Relation Extraction Retrieval processing program using processing

Also Published As

Publication number Publication date
JP2008225560A (en) 2008-09-25

Similar Documents

Publication Publication Date Title
RU2679988C1 (en) Extracting information objects with the help of a classifier combination
RU2601166C2 (en) Anaphora resolution based on a deep analysis technology
JP2006244262A (en) Retrieval system, method and program for answer to question
KR20160138077A (en) Machine translation system and method
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
JP2009140466A (en) Method and system for providing conversation dictionary services based on user created dialog data
Jung et al. A scalable hybrid approach for extracting head components from web tables
JP4793931B2 (en) Apparatus and method for extracting sets of interrelated specific expressions
JP2010061176A (en) Text mining device, text mining method, and text mining program
JP5117744B2 (en) Word meaning tag assigning device and method, program, and recording medium
JP4793932B2 (en) Apparatus and method for extracting sets of interrelated specific expressions
JP2008225565A (en) Device and method for extracting set of interrelated unique expression
JP4646078B2 (en) Apparatus and method for extracting sets of interrelated specific expressions
JP4646328B2 (en) Related information extraction apparatus and method
JP2009003811A (en) Attribute determination device, interaction device and program
JP4671440B2 (en) Reputation relationship extraction device, method and program thereof
CN114299525A (en) Picture processing method and device and electronic equipment
JP2006190146A (en) System, method and program for acquiring paraphrasing expression
JP5142395B2 (en) Related information extraction apparatus, method, program, and recording medium
JP6881077B2 (en) Discrimination program, discrimination device and discrimination method
JP5441173B2 (en) Related information extraction apparatus, method and program thereof
JP2009140113A (en) Dictionary editing device, dictionary editing method, and computer program
Novák A model of computational morphology and its application to Uralic languages
JP2019194759A (en) Dialogue system reinforcement device and computer program
JP2000250913A (en) Example type natural language translation method, production method and device for list of bilingual examples and recording medium recording program of the production method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110720

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110722

R150 Certificate of patent or registration of utility model

Ref document number: 4793931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350