JP2008225566A - Device and method for extracting related information - Google Patents

Device and method for extracting related information Download PDF

Info

Publication number
JP2008225566A
JP2008225566A JP2007058802A JP2007058802A JP2008225566A JP 2008225566 A JP2008225566 A JP 2008225566A JP 2007058802 A JP2007058802 A JP 2007058802A JP 2007058802 A JP2007058802 A JP 2007058802A JP 2008225566 A JP2008225566 A JP 2008225566A
Authority
JP
Japan
Prior art keywords
specific expression
phrase
specific
expression
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007058802A
Other languages
Japanese (ja)
Other versions
JP4646328B2 (en
Inventor
Toru Hirano
徹 平野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007058802A priority Critical patent/JP4646328B2/en
Publication of JP2008225566A publication Critical patent/JP2008225566A/en
Application granted granted Critical
Publication of JP4646328B2 publication Critical patent/JP4646328B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a device and a method for extracting related information among a plurality of unique expressions in response to individual examples. <P>SOLUTION: Since the device includes an analysis processing unit 10 applying morpheme analysis to the inputted text to analyze modifications of phrases consisting of the text; and a related information processing unit 20 extracting independent words included in route paragraphs of partial trees when each unique expression is included in the same sentence and extracting independent words differing from a rear unique expression from phrases including rear unique expressions among each unique expression as the related information when each of the unique expressions is included in sentences differing one another, the device may extract the related information of each unique expression from the text and may extract the related information among unique expressions corresponding to individual cases. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、入力されたテキストを要約する要約システム等において重要な役割を果たす、複数の固有表現に関係する情報を抽出する装置及びその方法に関する。   The present invention relates to an apparatus and method for extracting information related to a plurality of specific expressions, which plays an important role in a summarization system or the like that summarizes input text.

従来、この種の関係情報抽出装置及びその方法として、2つの固有表現を含む多数の文を所定の記憶装置に予め格納し、これらの文に対して各固有表現間に存在する単語または各固有表現それぞれの前後所定数の文字以内に存在する単語を検索して、最も多く検索された単語を関係情報として抽出するものが知られている(例えば非特許文献1参照)。   Conventionally, as this type of relational information extraction apparatus and method, a large number of sentences including two specific expressions are stored in advance in a predetermined storage device, and words existing between the specific expressions or specific names are stored for these sentences. It is known to search for words existing within a predetermined number of characters before and after each expression and extract the most frequently searched words as related information (see Non-Patent Document 1, for example).

このような関係情報抽出装置は、図10に示すように、記憶部31と、テキスト取得部32と、対象抽出部33と、関係情報抽出部34とを備えている。   As shown in FIG. 10, such a relationship information extraction device includes a storage unit 31, a text acquisition unit 32, a target extraction unit 33, and a relationship information extraction unit 34.

記憶部31には、周知の形態素解析処理がなされた複数の文が予め記憶されている。テキスト取得部32は、キーボード等の入力手段を用いて入力された2つの固有表現を含む文を記憶部から取得する。例えば、「小泉」と「日本」という2つの固有表現が入力された場合には、テキスト取得部32は、「日本の首相である小泉氏は来月韓国を訪問する。」や「日本の小泉首相は先月訪米しブッシュ米大統領と会談した。」等の文を記憶部から取得する。この場合、記憶部から取得された文は、「日本(名詞)/の(格助詞)/首相(名詞)/で(助詞)/ある(動詞)/小泉(名詞)/氏(接尾辞)/は(助詞)/来月(名詞)/韓国(名詞)/を(格助詞)/訪問(動詞)/する(接尾辞)/。(句点)」や「日本(名詞)/の(格助詞)/小泉(名詞)/首相(名詞)/は(助詞)/先月(名詞)/訪米(動詞)/し(接尾辞)/ブッシュ(名詞)/米(名詞)/大統領(名詞)/と(助詞)/会談(動詞)/した(接尾辞)/。(句点)」等のように形態素解析処理がなされている。   The storage unit 31 stores in advance a plurality of sentences that have been subjected to a known morphological analysis process. The text acquisition unit 32 acquires, from the storage unit, a sentence including two specific expressions input using an input unit such as a keyboard. For example, when two unique expressions “Koizumi” and “Japan” are input, the text acquisition unit 32 reads “Mr. Koizumi, the prime minister of Japan, will visit Korea next month.” The Prime Minister visited the US last month and met with US President Bush. ” In this case, the sentence acquired from the storage unit is “Japan (noun) / no (case particle) / prime (noun) / de (particle) / ar (verb) / Koizumi (noun) / Mr. (Suffix) / Is (participant) / next month (noun) / Korea (noun) / do (case particle) / visit (verb) / do (suffix) /. (Phrase) ”or“ Japan (noun) / no (case particle) ” / Koizumi (noun) / prime minister (noun) / ha (particle) / last month (noun) / visiting the United States (verb) / shi (suffix) / bush (noun) / rice (noun) / president (noun) / and (particle) ) / Conversation (verb) / done (suffix) /. (Punctuation) ”and so on.

対象抽出部33は、前記2つの固有表現を用いて、テキスト取得部32で取得した文から各固有表現間に存在する単語と各固有表現それぞれの前後10文字以内に存在する単語とを抽出する。ここで、例として抽出された各文を用いて説明すると、各固有表現間に存在する単語として「首相」及び「ある」が抽出され、各固有表現それぞれの前後10文字以内に存在する単語として「来月」、「韓国」、「訪問」、「首相」、「先月」、「訪米」及び「ブッシュ」が抽出される。   The target extraction unit 33 uses the two specific expressions to extract words existing between the specific expressions and words existing within 10 characters before and after each specific expression from the sentence acquired by the text acquisition unit 32. . Here, using each extracted sentence as an example, “Prime” and “A” are extracted as words existing between each unique expression, and words existing within 10 characters before and after each specific expression. “Next month”, “Korea”, “Visit”, “Prime Minister”, “Last month”, “Visit America” and “Bush” are extracted.

次に、対象抽出部33は、抽出された各単語それぞれの抽出回数をカウントして、各単語とその抽出回数を出力する。前記の抽出結果を用いて説明すると、「首相」という単語が2回抽出され、その他の単語はそれぞれ1回抽出されている。   Next, the target extraction unit 33 counts the number of extractions of each extracted word and outputs each word and the number of extractions. If it explains using the above-mentioned extraction result, the word "Prime Minister" is extracted twice, and the other words are extracted once each.

関係情報抽出部34は、対象抽出部33から各単語及びその抽出回数を取得すると、最も抽出回数の多い単語を関係情報として出力する。この場合、「首相」という単語が関係情報として出力される。   When the relationship information extraction unit 34 acquires each word and the number of extractions from the target extraction unit 33, the relationship information extraction unit 34 outputs the word with the largest number of extractions as the relationship information. In this case, the word “Prime Minister” is output as the relationship information.

このようにして、「小泉」と「日本」という2つの固有表現の関係情報として「首相」という単語が抽出される。
森 純一郎、他3名、“Webからのエンティティ間の関係情報の抽出”、[online]、平成18年12月、人工知能学会、[平成19年1月22日検索]、インターネット<URL:http://www.jstage.jst.go.jp/article/pjsai/JSAI06/0/12/#pdf/-char/ja/>
In this way, the word “Prime Minister” is extracted as the relation information of the two unique expressions “Koizumi” and “Japan”.
Junichiro Mori and three others, “Extraction of relationship information between entities from the Web”, [online], December 2006, Japan Society for Artificial Intelligence, [searched on January 22, 2007], Internet <URL: http : //www.jstage.jst.go.jp/article/pjsai/JSAI06/0/12/#pdf/-char/en/>

従来の関係情報抽出処理では、例えば「小泉」と「日本」という2つの固有表現を含む多数のテキストを予め記憶部31に記憶することにより関係情報の抽出精度を向上させることが可能であり、それ故に「小泉」と「日本」という2つの固有表現に対して「首相」や「総理」等の潜在的な関係を表す情報を抽出することができるものの、例えば「小泉純一郎が東京駅で演説した。」という事例における「小泉純一郎」と「東京駅」との一時的な関係を表す情報を抽出することが困難であった。   In the conventional relation information extraction process, for example, it is possible to improve the extraction accuracy of the relation information by storing a large number of texts including two specific expressions “Koizumi” and “Japan” in the storage unit 31 in advance, Therefore, although it is possible to extract information representing potential relationships such as “Prime Minister” and “Prime Minister” for the two unique expressions “Koizumi” and “Japan”, for example, “Junichiro Koizumi gave a speech at Tokyo Station It was difficult to extract information representing the temporary relationship between “Joiichiro Koizumi” and “Tokyo Station” in the case of

本発明は前記問題点に鑑みてなされたものであり、その目的とするところは、個々の事例に応じた複数の固有表現間の関係情報を抽出可能な装置及びその方法を提供することにある。   The present invention has been made in view of the above problems, and an object of the present invention is to provide an apparatus and method for extracting relation information between a plurality of specific expressions corresponding to individual cases. .

本発明の関係情報抽出装置は、前記目的を達成するために、入力された複数の固有表現に関係する情報を抽出する装置であって、前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部と、解析処理部による解析結果を取得するとともに、前記各固有表現が同一文に含まれている場合には、各固有表現のそれぞれを含む文節間の係り受け解析結果において係り先のない文節に含まれる自立語を関係情報として抽出し、各固有表現のそれぞれが互いに異なる文に含まれている場合には、各固有表現のうち一方の固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出する関係情報抽出処理部とを備えている。   In order to achieve the above object, the related information extracting apparatus of the present invention is an apparatus for extracting information related to a plurality of input specific expressions, and when a text including each of the specific expressions is input, When the morphological analysis of the text and the analysis processing unit that analyzes the dependency of the clause constituting the input text, and the analysis result by the analysis processing unit, and when each of the specific expressions is included in the same sentence, In the dependency analysis result between clauses including each of the specific expressions, the independent words included in the unrelated clauses are extracted as relational information, and when each of the specific expressions is included in different sentences, A relational information extraction processing unit that extracts independent words different from the one of the specific expressions from the phrase including one of the specific expressions as the related information;

また、本発明の関係情報抽出方法は、前記目的を達成するために、入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、前記コンピュータは、各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、前記各固有表現が同一文に含まれている場合には、各固有表現のそれぞれを含む文節間の係り受け解析結果において係り先のない文節に含まれる自立語を関係情報として抽出し、各固有表現のそれぞれが互いに異なる文に含まれている場合には、各固有表現のうち一方の固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出している。   Further, the related information extraction method of the present invention is a method for extracting information related to a plurality of input specific expressions using a computer in order to achieve the object, wherein the computer Is input, morphological analysis is performed on the input text, and the dependency of the clauses constituting the input text is analyzed. In the result of dependency analysis between clauses that contain, independent words included in unrelated clauses are extracted as relational information, and each of the specific expressions is included in a different sentence. An independent word different from one of the unique expressions is extracted as related information from the phrase including one of the unique expressions.

これにより、入力テキストを構成する文節に含まれる自立語であって、各固有表現のそれぞれを含む文節間の係り受け解析結果において係り先のない文節に含まれる自立語または各固有表現のうち一方の固有表現を含む文節内の自立語が関係情報として抽出されることから、各固有表現間の関係情報を入力テキストから抽出することが可能となる。   As a result, it is an independent word included in the clause constituting the input text, and one of the independent word or each unique expression included in the unrelated clause in the dependency analysis result between the phrases including each specific expression. Since the independent words in the phrase including the specific expressions are extracted as the relationship information, the relationship information between the specific expressions can be extracted from the input text.

本発明の関係情報抽出装置及びその方法によれば、各固有表現の関係情報を入力テキストから抽出することができるので、例えば「小泉純一郎が東京駅で演説した。」という事例において「小泉純一郎」と「東京駅」に対して「演説」という一時的な関係を表す情報を抽出することができ、個々の事例に応じた固有表現間の関係情報を抽出することができる。   According to the related information extracting apparatus and method of the present invention, the related information of each unique expression can be extracted from the input text. For example, in the case of “Junichiro Koizumi made a speech at Tokyo Station”, “Junichiro Koizumi” And “Tokyo Station” can be extracted information representing a temporary relationship, and relationship information between specific expressions can be extracted according to individual cases.

図1乃至図5は本発明の第1の実施形態を示すもので、図1は関係情報抽出装置の構成図、図2は関係情報抽出処理のフロー図、図3は係り受け解析部による解析結果の概要を示す図、図4は固有表現対応付け部による処理結果の概要を示す図、図5は関係情報抽出処理部の動作を示すフロー図である。   FIGS. 1 to 5 show a first embodiment of the present invention. FIG. 1 is a configuration diagram of a related information extraction apparatus, FIG. 2 is a flow chart of related information extraction processing, and FIG. 3 is an analysis by a dependency analysis unit. FIG. 4 is a diagram showing an overview of the results, FIG. 4 is a diagram showing an overview of the processing results by the specific expression association unit, and FIG.

以下、図面を参照して本発明の関係情報抽出装置及びその方法の概要を説明する。   The outline of the related information extracting apparatus and method according to the present invention will be described below with reference to the drawings.

本発明の関係情報抽出装置は、周知のCPUを主体として構成されたコンピュータ装置からなり、モニタ等の表示手段、キーボード等の入力手段、ハードディスクやメモリ等の記憶手段及び外部ネットワークに接続可能な通信装置等(何れも図示省略)を備えている。また、本発明の関係情報抽出装置には、解析処理部10と関係情報抽出処理部20とが設けられている。   The related information extracting apparatus of the present invention comprises a computer device mainly composed of a well-known CPU, and can be connected to display means such as a monitor, input means such as a keyboard, storage means such as a hard disk and memory, and an external network. A device (not shown) is provided. Further, the relationship information extraction apparatus of the present invention is provided with an analysis processing unit 10 and a relationship information extraction processing unit 20.

解析処理部10は、図1に示すように形態素解析部11、係り受け解析部12及び固有表現対応付け部13からなり、入力手段を用いて入力されたテキストを形態素解析するとともに入力テキストを構成する文節の係り受け関係を解析するようになっている。   As shown in FIG. 1, the analysis processing unit 10 includes a morphological analysis unit 11, a dependency analysis unit 12, and a specific expression association unit 13. The analysis processing unit 10 performs morphological analysis on the text input using the input unit and configures the input text. It is designed to analyze the dependency relations of phrases.

形態素解析部11は、入力テキストを取得すると(図2のステップS1)、入力テキストに対して周知の形態素解析処理を行うことにより入力テキストを単語分割し、分割した各単語に品詞を付与して出力する(図2のステップS2)。例えば、「小泉純一郎が東京駅で演説した。」という文が入力された場合には、形態素解析部11による処理結果は、「小泉純一郎(名詞)/が(格助詞)/東京駅(名詞)/で(助詞)/演説(動詞)/した(接尾辞)/。(句点)」となる。   When the morpheme analysis unit 11 acquires the input text (step S1 in FIG. 2), the input text is divided into words by performing a well-known morpheme analysis process, and parts of speech are assigned to the divided words. Output (step S2 in FIG. 2). For example, when a sentence “Junichiro Koizumi has made a speech at Tokyo Station” is input, the processing result by the morphological analysis unit 11 is “Junichiro Koizumi (noun) / ga (case particle) / Tokyo station (noun)”. / De (particle) / speech (verb) / do (suffix) /.

係り受け解析部12は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の係り受け解析処理を行うことにより、該テキストを文節に分割し、分割された複数の文節間の係り受け関係を解析して出力する(図2のステップS3)。この場合、例示した入力テキストが係り受け解析部12によって解析されると、図3に示すような係り受け構造を表す情報(係り受け木)が解析結果として出力される。ここで、「小泉純一郎/が」という文節と「東京駅/で」という文節は、共に「演説/した/。」という文節に係っており、これらの係り受け関係をデータとして実装する場合には、例えば「(演説した。(小泉純一郎が)(東京駅で))」というように表現される。また、「演説/した/。」という文節は係り受け木におけるルート文節であり、係り先文節が存在しない。   The dependency analysis unit 12 divides the text into phrases by performing a well-known dependency analysis process on the input text that has been obtained from the morpheme analysis unit 11 and has been subjected to morpheme analysis. The dependency relationship is analyzed and output (step S3 in FIG. 2). In this case, when the illustrated input text is analyzed by the dependency analysis unit 12, information representing a dependency structure (dependency tree) as shown in FIG. 3 is output as an analysis result. Here, the phrase “Joiichiro Koizumi / ga” and the phrase “Tokyo station / de” are both related to the phrase “speech / done /.”, And when these dependency relationships are implemented as data Is expressed as, for example, “(Speaked. (Junichiro Koizumi) (at Tokyo Station))”. The phrase “Speech / Done /.” Is a root phrase in the dependency tree, and there is no dependency phrase.

固有表現対応付け部13は、2つの固有表現からなる固有表現の組を取得するとともに係り受け解析部12の解析結果を用いて固有表現対応付け処理を行うためのものである。具体的に説明すると、固有表現対応付け部13は、入力手段を用いて入力された固有表現の組及び係り受け解析部12で解析された入力テキストを取得すると(図2のステップS4)、入力された各固有表現に対応する固有表現を入力テキストから抽出し、抽出された固有表現に対して固有表現を表す固有表現識別子を付与する(図2のステップS5)。例えば、「東京駅」という固有表現が入力された場合には、入力テキスト中の「東京駅」は「<NE>東京駅</NE>」と表記される。   The specific expression association unit 13 is for acquiring a set of specific expressions composed of two specific expressions and performing a specific expression association process using the analysis result of the dependency analysis unit 12. More specifically, when the specific expression association unit 13 acquires a set of specific expressions input using the input unit and the input text analyzed by the dependency analysis unit 12 (step S4 in FIG. 2), the input is performed. A unique expression corresponding to each unique expression is extracted from the input text, and a unique expression identifier representing the specific expression is assigned to the extracted specific expression (step S5 in FIG. 2). For example, when a specific expression “Tokyo Station” is input, “Tokyo Station” in the input text is expressed as “<NE> Tokyo Station </ NE>”.

なお、本実施形態では、固有表現の組を「小泉純一郎:東京駅」のように表記する。この場合、各固有表現のうちテキストにおいて先に出現する固有表現が前方固有表現として「:」の左側に表され、後に出現する固有表現が後方固有表現として「:」の右側に表される。また、「小泉純一郎:東京駅」という固有表現の組が入力されたときには、固有表現対応付け部13の処理結果は図4のように示される。   In the present embodiment, a set of unique expressions is expressed as “Junichiro Koizumi: Tokyo Station”. In this case, among the specific expressions, the specific expression that appears first in the text is represented on the left side of “:” as the forward specific expression, and the specific expression that appears later is represented on the right side of “:” as the backward specific expression. Further, when a specific expression set of “Junichiro Koizumi: Tokyo Station” is input, the processing result of the specific expression association unit 13 is shown in FIG.

次に、関係情報抽出処理部20の概要を説明する。関係情報抽出処理部20は、種類判断部21と関係情報抽出部22からなり、解析処理部10から取得した情報に基づいて固有表現間の関係情報を抽出するようになっている。   Next, an outline of the relationship information extraction processing unit 20 will be described. The relationship information extraction processing unit 20 includes a type determination unit 21 and a relationship information extraction unit 22, and extracts relationship information between specific expressions based on information acquired from the analysis processing unit 10.

種類判断部21は、固有表現対応付け部13から取得した情報に基づいて入力テキストの種類を判別するものである。まず、入力テキストの種類について説明すると、入力テキストは、入力された固有表現の組を構成する2つの固有表現それぞれが互いに異なる文に含まれる「非同一文型」と、各固有表現が同一文に含まれる「同一文型」に分類される。種類判断部21は、固有表現識別子が付与された入力テキストを固有表現対応付け部13から取得すると、入力テキストがどの種類に属するか判別し、判別結果及び入力テキストを出力する(図2のステップ6)。   The type determination unit 21 determines the type of the input text based on the information acquired from the specific expression association unit 13. First, the types of input text will be explained. The input text is a “non-identical sentence type” in which each of the two specific expressions constituting the set of input specific expressions is included in different sentences, and each specific expression is the same sentence. It is classified into the “same sentence pattern” included. When the type determination unit 21 acquires the input text to which the unique expression identifier is assigned from the specific expression association unit 13, the type determination unit 21 determines which type the input text belongs to, and outputs the determination result and the input text (step in FIG. 2). 6).

関係情報抽出部22は、種類判断部21から取得した情報に基づいて入力テキストから関係情報を抽出し、抽出した関係情報を出力する(図2のステップS7)。   The relationship information extraction unit 22 extracts relationship information from the input text based on the information acquired from the type determination unit 21, and outputs the extracted relationship information (step S7 in FIG. 2).

以下に、関係情報抽出処理部20の詳細な動作について図5のフローを参照して説明する。   The detailed operation of the relationship information extraction processing unit 20 will be described below with reference to the flow of FIG.

まず、種類判断部21は、固有表現対応付け部13から出力された情報を取得すると、固有表現の組を構成する各固有表現、即ち固有表現識別子が付与された各固有表現が同一文内に存在するか否かを判別する(ステップS11)。そして、種類判断部21は、各固有表現が同一文内に存在しない場合には入力テキストの種類を「非同一文型」と判別し、各固有表現が同一文内に存在する場合には入力テキストの種類を「同一文型」と判別する。なお、例示した入力テキストと「小泉純一郎:東京駅」という固有表現の組が入力された場合、入力テキストは「同一文型」と判別される。   First, when the type determination unit 21 acquires the information output from the specific expression association unit 13, each specific expression constituting the set of specific expressions, that is, each specific expression to which a specific expression identifier is assigned is included in the same sentence. It is determined whether or not it exists (step S11). Then, the type determining unit 21 determines that the type of the input text is “non-identical sentence type” when each specific expression does not exist in the same sentence, and the input text when each specific expression exists in the same sentence. Is identified as “same sentence pattern”. In addition, when the input text illustrated and the combination of specific expressions “Joiichiro Koizumi: Tokyo Station” are input, the input text is determined as “same sentence pattern”.

関係情報抽出部22は、種類判断部21が入力テキストの種類を「非同一文型」と判別すると、後方固有表現を含む文節から後方固有表現とは異なる自立語を関係情報として抽出する(ステップS12)。ここで、自立語が該文節内に含まれていない場合には(ステップS13)、関係情報抽出部22は、後方固有表現を含む文節の係り先文節に含まれる自立語を関係情報として抽出する(ステップS14)。そして、係り先文節にも自立語が含まれていない場合には(ステップS15)、関係情報抽出部22は、前方固有表現を含む文節から前方固有表現とは異なる自立語を関係情報として抽出する(ステップS16)。   When the type determining unit 21 determines that the type of the input text is “non-identical sentence type”, the related information extracting unit 22 extracts an independent word different from the backward specific expression from the phrase including the backward specific expression as the related information (step S12). ). Here, when the independent word is not included in the phrase (step S13), the relation information extracting unit 22 extracts the independent word included in the related phrase of the phrase including the backward specific expression as the relation information. (Step S14). If the independent phrase is not included in the related clause (step S15), the relationship information extraction unit 22 extracts the independent word different from the forward unique expression from the phrase including the forward specific expression as the related information. (Step S16).

なお、ステップS16において文節内に抽出すべき自立語が存在しない場合には、NULLが出力される。   If there is no independent word to be extracted in the phrase in step S16, NULL is output.

また、上記ステップS11において種類判断部21が入力テキストの種類を「同一文型」と判別すると、各固有表現のそれぞれを含む文節間の係り受け解析結果において係り先のない文節に含まれる自立語を関係情報として抽出する(ステップS17)。具体的に説明すると、各固有表現のそれぞれを含む文節間の係り受け解析結果は、係り受け解析部12の解析結果における各文節間の最短経路を示す部分木で表される。例えば、例示した入力テキストと「小泉純一郎:東京駅」という固有表現の組が入力された場合、「小泉純一郎/が」という文節は、「演説/した/。」という文節を介して「東京駅/で」という文節に到達し、他に到達する経路がないことから、各文節間の最短経路は「小泉純一郎/が」→「演説/した/。」→「東京駅/で」と表される。従って、この最短経路を示す部分木は図3の係り受け木と同様に表される。また、この部分木は、「小泉純一郎/が」という文節と「東京駅/で」という文節が共に「演説/した/。」という文節に係っているという各文節間の係り受け関係を表している。よって、上記の場合には、部分木において係り先のない文節、即ち部分木のルート文節は「演説/した/。」という文節であるから、該ルート文節に含まれる自立語「演説」が関係情報として抽出される。   When the type determining unit 21 determines that the type of the input text is “same sentence type” in step S <b> 11, the independent words included in the unrelated phrases in the dependency analysis result between the phrases including each of the specific expressions are obtained. Extracted as relationship information (step S17). More specifically, the dependency analysis result between clauses including each of the specific expressions is represented by a subtree indicating the shortest path between the clauses in the analysis result of the dependency analysis unit 12. For example, when the example input text and the combination of the unique expression “Joiichiro Koizumi: Tokyo Station” are input, the phrase “Junichiro Koizumi / ga” is changed to “Tokyo Station” via the phrase “Speech / Done /.”. Since the phrase “/ de” is reached and there is no other route, the shortest path between each phrase is expressed as “Junichiro Koizumi / ga” → “Speech / Done /.” → “Tokyo Station / de”. The Therefore, the subtree indicating the shortest path is represented in the same manner as the dependency tree of FIG. In addition, this subtree represents the dependency relationship between each clause that the phrase “Junichiro Koizumi / ga” and the phrase “Tokyo Station / de” are both related to the phrase “speech / de /.”. ing. Therefore, in the above-mentioned case, since there is an unrelated clause in the sub-tree, that is, the root clause of the sub-tree is a clause “Speech / Done /.”, The independent word “speech” included in the root clause is related. Extracted as information.

また、ステップS17において、部分木のルート文節に自立語が存在しない場合には、NULLが出力される。   In step S17, if no independent word exists in the root clause of the subtree, NULL is output.

前述したように上記実施形態では、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、各固有表現が同一文に含まれている場合には、部分木のルート文節に含まれる自立語を関係情報として抽出し、各固有表現のそれぞれが互いに異なる文に含まれている場合には、各固有表現のうち後方固有表現を含む文節から後方固有表現とは異なる自立語を関係情報として抽出するので、各固有表現の関係情報を入力テキストから抽出することができ、個々の事例に応じた固有表現間の関係情報を抽出することができる。   As described above, in the above embodiment, the input text is subjected to morphological analysis and the dependency of the clauses constituting the input text is analyzed, and if each unique expression is included in the same sentence, When independent words included are extracted as relational information and each unique expression is included in a sentence different from each other, an independent word different from the backward proper expression is selected from the clause including the backward proper expression. Since it is extracted as the relationship information, the relationship information of each unique expression can be extracted from the input text, and the relationship information between the specific expressions corresponding to each case can be extracted.

また、各固有表現のそれぞれが互いに異なる文に含まれ、且つ後方固有表現とは異なる自立語が後方固有表現を含む文節に含まれていない場合に、後方固有表現を含む文節の係り先文節に含まれる自立語を関係情報として抽出するので、関係情報を確実に抽出することが可能となる。   In addition, if each proper expression is included in a sentence different from each other and an independent word different from the backward specific expression is not included in the phrase including the backward specific expression, the dependency clause of the phrase including the backward specific expression is Since the contained independent words are extracted as related information, the related information can be reliably extracted.

さらに、前記一方の固有表現を含む文節の係り先文節に自立語が含まれていない場合に、各固有表現のうち他方の固有表現を含む文節から他方の固有表現とは異なる自立語を関係情報として抽出するので、関係情報を確実に抽出することが可能となる。   In addition, when the independent clause is not included in the dependency clause of the clause including the one specific expression, the independent information different from the specific expression of the other specific expression from the phrase including the other specific expression is related information. Therefore, it is possible to reliably extract the related information.

なお、本実施形態では、入力テキストの種類が「非同一文型」である場合に、ステップS12からステップS16までの処理を行うものを示したが、ステップS13以降またはステップS15以降の処理を省略してもよい。   In the present embodiment, the processing from step S12 to step S16 is performed when the type of the input text is “non-identical sentence type”. However, the processing after step S13 or step S15 is omitted. May be.

以下に本発明の第2の実施形態に係る関係情報抽出装置について説明する。本実施形態が第1の実施形態と異なる点は、関係情報抽出処理部20において、入力された各固有表現が同一文に含まれる場合に各固有表現が所定の位置関係を有するか否か判別するように構成した点にある。他の構成及び動作については第1の実施形態と同様なので、ここでは相違点のみを図6のフローを参照して説明する。   A related information extraction apparatus according to the second embodiment of the present invention will be described below. This embodiment is different from the first embodiment in that the relation information extraction processing unit 20 determines whether each specific expression has a predetermined positional relationship when each input specific expression is included in the same sentence. It is in the point configured to do. Since other configurations and operations are the same as those of the first embodiment, only the differences will be described with reference to the flowchart of FIG.

種類判断部21は、入力された各固有表現が同一文に含まれる場合に各固有表現が所定の位置関係を有するか否かを判別する(ステップS21)。そして、種類判断部21は、前記ステップS4で取得した各固有表現が互いに所定の位置関係を有する場合には、入力テキストの種類を「テンプレート型」と判別する。ここで、所定の位置関係を有するか否かは、入力テキスト中における各固有表現の位置が予め記憶手段(図示省略)に記憶された雛形にあてはまるか否かによって判別される。例えば、「前方固有表現(後方固有表現)」という雛形が記憶されている場合に、「小泉:横須賀」という固有表現の組と「小泉(横須賀出身)は、・・・」という文が入力されたときには、種類判断部21は、雛形にあてはまると判別して、関係情報抽出部22に処理を移行する。   The type determining unit 21 determines whether each specific expression has a predetermined positional relationship when each input specific expression is included in the same sentence (step S21). Then, the type determining unit 21 determines that the type of the input text is “template type” when the specific expressions acquired in step S4 have a predetermined positional relationship with each other. Here, whether or not it has a predetermined positional relationship is determined by whether or not the position of each unique expression in the input text applies to a template stored in advance in storage means (not shown). For example, when a template “front specific expression (rear specific expression)” is stored, a specific expression set “Koizumi: Yokosuka” and a sentence “Koizumi (from Yokosuka) is ...” are input. If it is determined, the type determination unit 21 determines that the template is applicable, and shifts the processing to the relationship information extraction unit 22.

関係情報抽出部22は、種類判断部21が入力テキストの種類を「テンプレート型」と判別すると、後方固有表現を含む文節から後方固有表現とは異なる自立語を関係情報として抽出する(ステップS22)。ここで、自立語が該文節内に含まれていない場合には(ステップS23)、関係情報抽出部22は、前方固有表現を含む文節から前方固有表現とは異なる自立語を関係情報として抽出する(ステップS24)。例えば、「小泉:横須賀」という固有表現の組と「小泉(横須賀出身)は、・・・」という文が入力された場合には、ステップS22において「出身」という自立語が関係情報として抽出される。   When the type determining unit 21 determines that the type of the input text is “template type”, the related information extracting unit 22 extracts an independent word different from the backward specific expression as related information from the phrase including the backward specific expression (step S22). . Here, when an independent word is not included in the phrase (step S23), the relation information extraction unit 22 extracts an independent word different from the forward specific expression from the phrase including the forward specific expression as related information. (Step S24). For example, when a unique expression pair “Koizumi: Yokosuka” and a sentence “Koizumi (from Yokosuka) ...” are input, an independent word “born” is extracted as relation information in step S22. The

なお、ステップS24において文節内に抽出すべき自立語が存在しない場合には、NULLが出力される。   If there is no independent word to be extracted in the phrase in step S24, NULL is output.

また、ステップS21において各固有表現が所定の位置関係を有していない場合には、ステップS17の処理に移行する。   On the other hand, if each unique expression does not have a predetermined positional relationship in step S21, the process proceeds to step S17.

このように上記実施形態では、各固有表現が同一文に含まれるとともに互いに所定の位置関係を有する場合に、後方固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出するので、入力テキストに特殊な書式が含まれている場合でも、確実に関係情報を抽出することが可能となる。   As described above, in the above-described embodiment, when each specific expression is included in the same sentence and has a predetermined positional relationship with each other, an independent word different from one specific expression is extracted as relation information from the clause including the backward specific expression. Therefore, even when the input text includes a special format, the related information can be surely extracted.

また、後方固有表現とは異なる自立語が後方固有表現を含む文節に含まれていない場合に、前方固有表現を含む文節から前方固有表現とは異なる自立語を関係情報として抽出するので、関係情報を確実に抽出することが可能となる。   In addition, when an independent word different from the backward proper expression is not included in the clause including the backward proper expression, an independent word different from the forward specific expression is extracted as related information from the clause including the forward specific expression. Can be reliably extracted.

なお、本実施形態では、入力テキストの種類が「テンプレート型」である場合に、ステップS22からステップS24までの処理を行うものを示したが、ステップS23以降の処理を省略してもよい。   In the present embodiment, the processing from step S22 to step S24 is performed when the type of the input text is “template type”, but the processing after step S23 may be omitted.

以下に、本発明の第3の実施形態に係る関係情報抽出装置について説明する。本実施形態が第1及び第2の実施形態と異なる点は、関係情報抽出処理部20において、入力された各固有表現が同一文に含まれる場合に各固有表現が同一文節に含まれるか否か判別するように構成した点にある。他の構成及び動作については第1及び第2の実施形態と同様なので、ここでは相違点のみを図7のフローを参照して説明する。   The relationship information extracting apparatus according to the third embodiment of the present invention will be described below. The difference between the present embodiment and the first and second embodiments is that, in the relationship information extraction processing unit 20, whether each unique expression is included in the same phrase when each input specific expression is included in the same sentence. It is in the point comprised so that it may discriminate | determine. Since other configurations and operations are the same as those in the first and second embodiments, only the differences will be described with reference to the flowchart of FIG.

種類判断部21は、入力された各固有表現が同一文に含まれ、且つ各固有表現が所定の位置関係を有していない場合に各固有表現が同一文節内に存在するか否かを判別する(ステップS31)。そして、種類判断部21は、前記ステップS4で取得した各固有表現が同一文節内に存在する場合には、入力テキストの種類を「同一文節型」と判別する。例えば、「石原:東京都」という固有表現の組と「石原東京都知事は、・・・」という文が入力されたときには、種類判断部21は、入力テキストの種類を「同一文節型」と判別して、関係情報抽出部22に処理を移行する。   The type determination unit 21 determines whether each unique expression exists in the same phrase when each input specific expression is included in the same sentence and each specific expression does not have a predetermined positional relationship. (Step S31). Then, the type determining unit 21 determines that the type of the input text is “same phrase type” when each unique expression acquired in step S4 is present in the same phrase. For example, when a set of unique expressions “Ishihara: Tokyo” and a sentence “Ishihara Governor of Tokyo is ...” are input, the type determination unit 21 sets the type of the input text to “same phrase type”. Then, the process proceeds to the relationship information extraction unit 22.

関係情報抽出部22は、種類判断部21が入力テキストの種類を「同一文節型」と判別すると、後方固有表現を含む文節から各固有表現のそれぞれとは異なる自立語を関係情報として抽出する(ステップS32)。例えば、「石原:東京都」という固有表現の組と「石原東京都知事は、・・・」という文が入力された場合には、ステップS32において「知事」という自立語が関係情報として抽出される。   When the type determination unit 21 determines that the type of the input text is “same phrase type”, the relationship information extraction unit 22 extracts independent words different from each of the specific expressions from the phrase including the backward specific expression as the relationship information ( Step S32). For example, when a combination of a unique expression “Ishihara: Tokyo” and a sentence “Ishihara Governor of Tokyo is ...”, an independent word “Governor” is extracted as related information in step S32. The

なお、ステップS32において文節内に抽出すべき自立語が存在しない場合には、NULLが出力される。   If there is no independent word to be extracted in the phrase in step S32, NULL is output.

また、ステップS31において各固有表現が所定の位置関係を有していない場合には、ステップS17の処理に移行する。   On the other hand, if each unique expression does not have a predetermined positional relationship in step S31, the process proceeds to step S17.

このように上記実施形態では、各固有表現が同一文、且つ同一文節に含まれる場合に、該文節から各固有表現のそれぞれとは異なる自立語を関係情報として抽出するので、各固有表現が同一の文節を構成する場合でも確実に関係情報を抽出することが可能となる。   As described above, in the above embodiment, when each specific expression is included in the same sentence and the same phrase, an independent word different from each specific expression is extracted from the phrase as relation information, and thus each specific expression is the same. It is possible to extract the relational information with certainty even when the above phrase is constructed.

なお、本実施形態では、ステップS21の処理の後にステップS31の処理を行ったものを示したが、ステップS31の処理をステップS21の処理の前に行ってもよい。   In the present embodiment, the processing in step S31 is performed after the processing in step S21. However, the processing in step S31 may be performed before the processing in step S21.

以下に、本発明の第4の実施形態に係る関係情報抽出装置について説明する。本実施形態が第1乃至第3の実施形態と異なる点は、関係情報抽出処理部20において、入力された各固有表現が同一文に含まれる場合に各固有表現のうち一方の固有表現を含む文節が他方の固有表現を含む文節に対して直接的または間接的に係るか否か判別するように構成した点にある。他の構成及び動作については第1乃至第3の実施形態と同様なので、ここでは相違点のみを図8のフローを参照して説明する。   The relationship information extracting apparatus according to the fourth embodiment of the present invention will be described below. This embodiment is different from the first to third embodiments in that the relation information extraction processing unit 20 includes one of the specific expressions when each input specific expression is included in the same sentence. The phrase is configured to determine whether or not the phrase is directly or indirectly related to the phrase including the other specific expression. Since other configurations and operations are the same as those in the first to third embodiments, only the differences will be described with reference to the flowchart of FIG.

種類判断部21は、入力された各固有表現が同一文に含まれるとともに各固有表現が所定の位置関係を有しておらず、且つ各固有表現が同一文節内に存在しない場合に、各固有表現が係り受け関係にあるか否かを判別する(ステップS41)。ここで、各固有表現が係り受け関係にあるか否かは、各固有表現のうち一方の固有表現を含む文節が他方の固有表現を含む文節に対して直接的または間接的に係るか否か、即ち係り受け木において一方の固有表現を含む文節が他方の固有表現を含む文節の子孫ノードであるか否かによって判別される。そして、種類判断部21は、前記ステップS4で取得した一方の固有表現を含む文節が他方の固有表現を含む文節の子孫ノードである場合には、入力テキストの種類を「係り受け関係型」と判別する。例えば、「横須賀:小泉」という固有表現の組と「横須賀で育った小泉さんは、・・・」という文が入力された場合に、「横須賀で育った小泉さんは、」の部分についての係り受け木は図9のように示される。ここで、前方固有表現「横須賀」を含む文節は、後方固有表現「小泉」を含む文節の孫ノードであることから、種類判断部21は、入力テキストの種類を「係り受け関係型」と判別して、関係情報抽出部22に処理を移行する。   The type determination unit 21 determines whether each unique expression is included in the same sentence, each specific expression does not have a predetermined positional relationship, and each specific expression does not exist in the same phrase. It is determined whether or not the expression has a dependency relationship (step S41). Here, whether each specific expression is in a dependency relationship is whether or not a clause including one specific expression is directly or indirectly related to a phrase including the other specific expression. That is, in the dependency tree, it is determined whether or not a clause including one specific expression is a descendant node of a phrase including the other specific expression. Then, the type determining unit 21 determines that the type of the input text is “dependency relation type” when the clause including one specific expression acquired in step S4 is a descendant node of the phrase including the other specific expression. Determine. For example, if a specific expression group of “Yokosuka: Koizumi” and a sentence “Mr. Koizumi who grew up in Yokosuka is ...” is entered, “Koizumi who grew up in Yokosuka is” The acceptor tree is shown in FIG. Here, since the clause including the forward specific expression “Yokosuka” is a grandchild node of the phrase including the backward specific expression “Koizumi”, the type determination unit 21 determines the type of the input text as “dependency relation type”. Then, the process proceeds to the relationship information extraction unit 22.

関係情報抽出部22は、種類判断部21が入力テキストの種類を「係り受け関係型」と判別すると、後方固有表現を含む文節から後方固有表現とは異なる自立語を関係情報として抽出する(ステップS42)。ここで、自立語が該文節内に含まれていない場合には(ステップS43)、関係情報抽出部22は、後方固有表現を含む文節の係り先文節に含まれる自立語を関係情報として抽出する(ステップS44)。そして、係り先文節にも自立語が含まれていない場合には(ステップS45)、関係情報抽出部22は、入力テキストにおいて各固有表現の間に存在する自立語を関係情報として抽出する(ステップS46)。例えば、「横須賀:小泉」という固有表現の組と「横須賀で育った小泉さんは、・・・」という文が入力された場合には、ステップS46において「育った」という自立語が関係情報として抽出される。   When the type determination unit 21 determines that the type of the input text is “dependency relationship type”, the relationship information extraction unit 22 extracts an independent word different from the backward specific representation from the phrase including the backward specific representation as the related information (step S42). Here, when the independent word is not included in the phrase (step S43), the relation information extracting unit 22 extracts the independent word included in the related phrase of the phrase including the backward unique expression as the relation information. (Step S44). If the independent phrase is not included in the related clause (step S45), the relation information extracting unit 22 extracts the independent words existing between the unique expressions in the input text as the relation information (step S45). S46). For example, when a combination of a unique expression “Yokosuka: Koizumi” and a sentence “Mr. Koizumi who grew up in Yokosuka is ...” is input, the independent word “I grew up” is the relevant information in step S46. Extracted.

なお、ステップS46において各固有表現間に抽出すべき自立語が存在しない場合には、NULLが出力される。   Note that if there is no independent word to be extracted between each unique expression in step S46, NULL is output.

また、ステップS41において各固有表現が所定の位置関係を有していない場合には、ステップS17の処理に移行する。   On the other hand, if each unique expression does not have a predetermined positional relationship in step S41, the process proceeds to step S17.

このように上記実施形態では、各固有表現が同一文に含まれ、且つ後方固有表現を含む文節が前方固有表現を含む文節の子孫ノードである場合に、後方固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出するので、各固有表現のそれぞれを含む文節間が係り受け関係を有している場合でも確実に関係情報を抽出することが可能となる。   As described above, in the above embodiment, when each specific expression is included in the same sentence and the clause including the backward specific expression is a descendant node of the clause including the forward specific expression, one specific element is selected from the phrase including the backward specific expression. Since independent words different from the expressions are extracted as the relationship information, the relationship information can be surely extracted even when the clauses including each of the specific expressions have a dependency relationship.

また、後方固有表現とは異なる自立語が後方固有表現を含む文節に含まれていない場合に、後方固有表現を含む文節の係り先文節に含まれる自立語を関係情報として抽出するので、関係情報を確実に抽出することが可能となる。   In addition, when an independent word different from the backward specific expression is not included in the clause including the backward specific expression, the independent word included in the related clause of the phrase including the backward specific expression is extracted as the related information. Can be reliably extracted.

さらに、後方固有表現を含む文節の係り先文節に自立語が含まれていない場合に、各固有表現を含む文において各固有表現の間に存在する自立語を関係情報として抽出するので、関係情報を確実に抽出することが可能となる。   In addition, if the independent clause is not included in the clause containing the backward specific expression, the independent word existing between each specific expression in the sentence including each specific expression is extracted as the related information. Can be reliably extracted.

なお、本実施形態では、ステップS21及びステップS31の処理の後にステップS41の処理を行ったものを示したが、ステップS21、ステップS31及びステップS41の処理の順序は問わない。   In the present embodiment, the processing of step S41 after the processing of step S21 and step S31 is shown, but the order of the processing of step S21, step S31, and step S41 does not matter.

また、本実施形態では、入力テキストの種類が「係り受け関係型」である場合に、ステップS42からステップS46までの処理を行うものを示したが、ステップS43以降またはステップS45以降の処理を省略してもよい。   In the present embodiment, the processing from step S42 to step S46 is performed when the type of the input text is “dependency relationship type”. However, the processing after step S43 or step S45 is omitted. May be.

さらに、上記第1乃至第4の実施形態は本発明の具体例に過ぎず、本発明が上記実施形態のみに限定されることはない。例えば、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムあるいは図2のフローに示された手順を備えるプログラムをインストールすることによっても実現可能である。   Furthermore, the first to fourth embodiments are merely examples of the present invention, and the present invention is not limited to only the above-described embodiments. For example, the present invention installs a program for realizing the functions shown in the configuration diagram of FIG. 1 or a program having the procedure shown in the flow of FIG. 2 via a medium or a communication line in a known computer. Is also feasible.

本発明の第1の実施形態における関係情報抽出装置の構成図1 is a configuration diagram of a relationship information extraction device according to a first embodiment of the present invention. 関係情報抽出処理のフロー図Relationship information extraction process flow chart 係り受け解析部による解析結果の概要を示す図Diagram showing the summary of analysis results by the dependency analysis unit 固有表現対応付け部による処理結果の概要を示す図The figure which shows the outline | summary of the processing result by a specific expression matching part 関係情報抽出処理部の動作を示すフロー図Flow diagram showing the operation of the related information extraction processing unit 本発明の第2の実施形態における関係情報抽出処理部の動作を示すフロー図The flowchart which shows operation | movement of the related information extraction process part in the 2nd Embodiment of this invention. 本発明の第3の実施形態における関係情報抽出処理部の動作を示すフロー図The flowchart which shows operation | movement of the related information extraction process part in the 3rd Embodiment of this invention. 本発明の第4の実施形態における関係情報抽出処理部の動作を示すフロー図The flowchart which shows operation | movement of the related information extraction process part in the 4th Embodiment of this invention. 係り受け解析部による解析結果の一部概要を示す図Diagram showing a partial outline of the analysis results by the dependency analysis unit 従来の関係情報抽出装置の構成を示す図The figure which shows the structure of the conventional related information extraction apparatus.

符号の説明Explanation of symbols

10…解析処理部、11…形態素解析部、12…係り受け解析部、20…関係情報抽出処理部、21…種類判断部、22…関係情報抽出部。   DESCRIPTION OF SYMBOLS 10 ... Analysis process part, 11 ... Morphological analysis part, 12 ... Dependency analysis part, 20 ... Relation information extraction process part, 21 ... Type judgment part, 22 ... Relation information extraction part.

Claims (18)

入力された複数の固有表現に関係する情報を抽出する装置であって、
前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部と、
解析処理部による解析結果を取得するとともに、前記各固有表現が同一文に含まれている場合には、各固有表現のそれぞれを含む文節間の係り受け解析結果において係り先のない文節に含まれる自立語を関係情報として抽出し、各固有表現のそれぞれが互いに異なる文に含まれている場合には、各固有表現のうち一方の固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出する関係情報抽出処理部とを備えた
ことを特徴とする関係情報抽出装置。
An apparatus for extracting information related to a plurality of input proper expressions,
When the text including each of the specific expressions is input, an analysis processing unit that analyzes morphological analysis of the input text and a dependency of a clause constituting the input text;
When the analysis result obtained by the analysis processing unit is acquired and each of the specific expressions is included in the same sentence, the dependency analysis result between the phrases including each of the specific expressions is included in the unrelated phrase. When independent words are extracted as relational information, and each proper expression is included in a sentence different from each other, an independent word that is different from one proper expression is selected from a clause including one specific expression among the specific expressions. A relational information extraction apparatus comprising a relational information extraction processing unit that extracts relational information.
前記関係情報抽出処理部は、各固有表現のそれぞれが互いに異なる文に含まれ、且つ前記一方の固有表現とは異なる自立語が一方の固有表現を含む文節に含まれていない場合に、一方の固有表現を含む文節の係り先文節に含まれる自立語を関係情報として抽出する
ことを特徴とする請求項1記載の関係情報抽出装置。
The relational information extraction processing unit, when each of the specific expressions is included in a sentence different from each other and an independent word different from the one of the specific expressions is not included in a clause including the one specific expression, The related information extracting apparatus according to claim 1, wherein a self-supporting word included in a destination clause of a phrase including a specific expression is extracted as related information.
前記関係情報抽出処理部は、前記一方の固有表現を含む文節の係り先文節に自立語が含まれていない場合に、各固有表現のうち他方の固有表現を含む文節から他方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする請求項2記載の関係情報抽出装置。
The relation information extraction processing unit, when the independent phrase is not included in the related clause of the phrase including the one specific expression, from the phrase including the other specific expression to the other specific expression among the specific expressions The related information extracting apparatus according to claim 2, wherein different independent words are extracted as related information.
前記関係情報抽出処理部は、各固有表現が同一文に含まれるとともに互いに所定の位置関係を有する場合に、前記一方の固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする請求項1、2または3記載の関係情報抽出装置。
The related information extraction processing unit uses, as related information, independent words that are different from one specific expression from a phrase including the one specific expression when each specific expression is included in the same sentence and has a predetermined positional relationship with each other. The related information extracting apparatus according to claim 1, wherein the relation information is extracted.
前記関係情報抽出処理部は、前記一方の固有表現とは異なる自立語が一方の固有表現を含む文節に含まれていない場合に、各固有表現のうち他方の固有表現を含む文節から他方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする請求項4記載の関係情報抽出装置。
When the independent information different from the one specific expression is not included in the phrase including the one specific expression, the relation information extraction processing unit may change the specific expression from the phrase including the other specific expression to the other specific expression. The related information extracting apparatus according to claim 4, wherein an independent word different from the expression is extracted as related information.
前記関係情報抽出処理部は、各固有表現が同一文、且つ同一文節に含まれる場合に、該文節から各固有表現のそれぞれとは異なる自立語を関係情報として抽出する
ことを特徴とする請求項1、2、3、4または5記載の関係情報抽出装置。
The relation information extraction processing unit, when each specific expression is included in the same sentence and the same phrase, extracts an independent word different from each of the specific expressions from the clause as the relation information. The related information extracting device according to 1, 2, 3, 4 or 5.
前記関係情報抽出処理部は、各固有表現が同一文に含まれ、且つ一方の固有表現を含む文節が他方の固有表現を含む文節に対して直接的または間接的に係る場合に、前記一方の固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする請求項1、2、3、4、5または6記載の関係情報抽出装置。
The related information extraction processing unit, when each specific expression is included in the same sentence and a clause including one specific expression directly or indirectly relates to a clause including the other specific expression, The related information extraction apparatus according to claim 1, 2, 3, 4, 5 or 6, wherein a self-supporting word different from one of the specific expressions is extracted as related information from a phrase including the specific expression.
前記関係情報抽出処理部は、前記一方の固有表現とは異なる自立語が一方の固有表現を含む文節に含まれていない場合に、一方の固有表現を含む文節の係り先文節に含まれる自立語を関係情報として抽出する
ことを特徴とする請求項7記載の関係情報抽出装置。
When the independent information different from the one specific expression is not included in the phrase including one specific expression, the relation information extraction processing unit includes the independent word included in the related phrase of the phrase including one specific expression. The relation information extracting apparatus according to claim 7, wherein the relation information is extracted as relation information.
前記関係情報抽出処理部は、前記一方の固有表現を含む文節の係り先文節に自立語が含まれていない場合に、各固有表現を含む文において各固有表現の間に存在する自立語を関係情報として抽出する
ことを特徴とする請求項8記載の関係情報抽出装置。
The relation information extraction processing unit relates independent words that exist between the specific expressions in the sentence including each specific expression when the independent phrase is not included in the related phrase of the phrase including the one specific expression. The related information extracting apparatus according to claim 8, wherein the information is extracted as information.
入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、
前記コンピュータは、各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、
前記各固有表現が同一文に含まれている場合には、各固有表現のそれぞれを含む文節間の係り受け解析結果において係り先のない文節に含まれる自立語を関係情報として抽出し、各固有表現のそれぞれが互いに異なる文に含まれている場合には、各固有表現のうち一方の固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする関係情報抽出方法。
A method of extracting information related to a plurality of input unique expressions using a computer,
When the text including each unique expression is input, the computer morphologically analyzes the input text and analyzes the dependency of the clause constituting the input text,
When each of the specific expressions is included in the same sentence, the independent words included in the unrelated clauses are extracted as relation information in the dependency analysis result between the phrases including each of the specific expressions. When each expression is included in a different sentence, a relation that extracts independent words that are different from one of the specific expressions from the clause that includes one of the specific expressions as relation information Information extraction method.
前記コンピュータは、各固有表現のそれぞれが互いに異なる文に含まれ、且つ前記一方の固有表現とは異なる自立語が一方の固有表現を含む文節に含まれていない場合に、一方の固有表現を含む文節の係り先文節に含まれる自立語を関係情報として抽出する
ことを特徴とする請求項10記載の関係情報抽出方法。
The computer includes one specific expression when each specific expression is included in a sentence different from each other and an independent word different from the one specific expression is not included in a clause including the one specific expression. The related information extracting method according to claim 10, further comprising: extracting independent words included in the clauses related to the clause as related information.
前記コンピュータは、前記一方の固有表現を含む文節の係り先文節に自立語が含まれていない場合に、各固有表現のうち他方の固有表現を含む文節から他方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする請求項11記載の関係情報抽出方法。
When the independent clause is not included in the dependency clause of the clause including the one specific expression, the computer selects an independent word that is different from the other specific expression from the clause including the other specific expression. It extracts as relationship information. The relationship information extraction method of Claim 11 characterized by the above-mentioned.
前記コンピュータは、各固有表現が同一文に含まれるとともに互いに所定の位置関係を有する場合に、前記一方の固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする請求項10、11または12記載の関係情報抽出方法。
The computer, when each specific expression is included in the same sentence and has a predetermined positional relationship with each other, extracts independent words different from the one specific expression from the phrase including the one specific expression as relation information. The method for extracting relational information according to claim 10, 11 or 12, characterized by the above.
前記コンピュータは、前記一方の固有表現とは異なる自立語が一方の固有表現を含む文節に含まれていない場合に、各固有表現のうち他方の固有表現を含む文節から他方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする請求項13記載の関係情報抽出方法。
The computer is different from the one including the other specific expression from the one including the other specific expression when the independent word different from the one specific expression is not included in the phrase including the one specific expression. The related information extraction method according to claim 13, wherein an independent word is extracted as related information.
前記コンピュータは、各固有表現が同一文、且つ同一文節に含まれる場合に、該文節から各固有表現のそれぞれとは異なる自立語を関係情報として抽出する
ことを特徴とする請求項10、11、12、13または14記載の関係情報抽出方法。
The computer, when each specific expression is included in the same sentence and the same phrase, extracts an independent word different from each of the specific expressions from the phrase as relation information. The related information extraction method according to 12, 13, or 14.
前記コンピュータは、各固有表現が同一文に含まれ、且つ一方の固有表現を含む文節が他方の固有表現を含む文節に対して直接的または間接的に係る場合に、前記一方の固有表現を含む文節から一方の固有表現とは異なる自立語を関係情報として抽出する
ことを特徴とする請求項10、11、12、13、14または15記載の関係情報抽出方法。
The computer includes the one specific expression when each specific expression is included in the same sentence and the clause including one specific expression directly or indirectly relates to the clause including the other specific expression. 16. The related information extracting method according to claim 10, 11, 12, 13, 14, or 15, wherein a self-supporting word different from one specific expression is extracted from the phrase as related information.
前記コンピュータは、前記一方の固有表現とは異なる自立語が一方の固有表現を含む文節に含まれていない場合に、一方の固有表現を含む文節の係り先文節に含まれる自立語を関係情報として抽出する
ことを特徴とする請求項16記載の関係情報抽出方法。
When the independent word different from the one specific expression is not included in the phrase including the one specific expression, the computer uses the independent word included in the related phrase of the phrase including the one specific expression as the related information. The relation information extraction method according to claim 16, wherein the relation information is extracted.
前記コンピュータは、前記一方の固有表現を含む文節の係り先文節に自立語が含まれていない場合に、各固有表現を含む文において各固有表現の間に存在する自立語を関係情報として抽出する
ことを特徴とする請求項17記載の関係情報抽出方法。
The computer extracts, as related information, independent words that exist between the specific expressions in the sentence including each specific expression when the independent phrase is not included in the related phrase of the phrase including the one specific expression. The relation information extraction method according to claim 17, wherein:
JP2007058802A 2007-03-08 2007-03-08 Related information extraction apparatus and method Active JP4646328B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007058802A JP4646328B2 (en) 2007-03-08 2007-03-08 Related information extraction apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007058802A JP4646328B2 (en) 2007-03-08 2007-03-08 Related information extraction apparatus and method

Publications (2)

Publication Number Publication Date
JP2008225566A true JP2008225566A (en) 2008-09-25
JP4646328B2 JP4646328B2 (en) 2011-03-09

Family

ID=39844160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007058802A Active JP4646328B2 (en) 2007-03-08 2007-03-08 Related information extraction apparatus and method

Country Status (1)

Country Link
JP (1) JP4646328B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010117832A (en) * 2008-11-12 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> Related information extraction device, related information extraction method, program, and recording medium
JP2011085986A (en) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> Text summarization method, its device, and program
CN106528534A (en) * 2016-11-09 2017-03-22 天津赛因哲信息技术有限公司 Relevant word extraction method based on proper nouns

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112969A (en) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd Information extractor
JP2008171109A (en) * 2007-01-10 2008-07-24 Nec Corp Information retrieval system, information retrieval method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112969A (en) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd Information extractor
JP2008171109A (en) * 2007-01-10 2008-07-24 Nec Corp Information retrieval system, information retrieval method and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CSNG200700141010, 数原良彦 他2名, "話題語を手がかりとしたブログからのイベントマイニングの検討", 情報処理学会研究報告, 20061122, 2006−NL−176, 67−73頁, JP, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010117832A (en) * 2008-11-12 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> Related information extraction device, related information extraction method, program, and recording medium
JP2011085986A (en) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> Text summarization method, its device, and program
CN106528534A (en) * 2016-11-09 2017-03-22 天津赛因哲信息技术有限公司 Relevant word extraction method based on proper nouns

Also Published As

Publication number Publication date
JP4646328B2 (en) 2011-03-09

Similar Documents

Publication Publication Date Title
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
JP4646328B2 (en) Related information extraction apparatus and method
US9218336B2 (en) Efficient implementation of morphology for agglutinative languages
JP5489872B2 (en) Claim structure information generation apparatus, claim structure information generation method, and program
JP6538563B2 (en) INPUT SUPPORT DEVICE, INPUT SUPPORT METHOD, AND PROGRAM
JP4476609B2 (en) Chinese analysis device, Chinese analysis method and Chinese analysis program
JP4793931B2 (en) Apparatus and method for extracting sets of interrelated specific expressions
JP5085584B2 (en) Article feature word extraction device, article feature word extraction method, and program
JP5142395B2 (en) Related information extraction apparatus, method, program, and recording medium
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
JP2009176148A (en) Unknown word determining system, method and program
JP5160120B2 (en) Information search apparatus, information search method, and information search program
JP2015225412A (en) Document summarizing device, method, and program
JP4646078B2 (en) Apparatus and method for extracting sets of interrelated specific expressions
JP4203102B2 (en) Chinese analysis device, Chinese analysis method and Chinese analysis program
JP5068356B2 (en) Blog body identification device and blog body identification method
JP4933118B2 (en) Sentence extraction device and program
JP2009140056A (en) Language knowledge acquisition device and language knowledge acquisition program
JP2008225561A (en) Device and method for extracting set of interrelated unique expression
JP2009230705A (en) Template preparation device, device and method for preparing document data, and program
JP2007316834A (en) Japanese sentence modification device, japanese sentence modification method, and program for japanese sentence modification
JP4071657B2 (en) Text processing device
JP6476638B2 (en) Specific term candidate extraction device, specific term candidate extraction method, and specific term candidate extraction program
JP5367099B2 (en) Difference location extraction apparatus and program
JP2002351871A (en) Morpheme analysis device, morpheme analysis method, program, and recording medium

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4646328

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350