JP4646078B2 - Apparatus and method for extracting sets of interrelated specific expressions - Google Patents
Apparatus and method for extracting sets of interrelated specific expressions Download PDFInfo
- Publication number
- JP4646078B2 JP4646078B2 JP2007058780A JP2007058780A JP4646078B2 JP 4646078 B2 JP4646078 B2 JP 4646078B2 JP 2007058780 A JP2007058780 A JP 2007058780A JP 2007058780 A JP2007058780 A JP 2007058780A JP 4646078 B2 JP4646078 B2 JP 4646078B2
- Authority
- JP
- Japan
- Prior art keywords
- specific
- expressions
- specific expression
- expression
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、入力されたテキストを要約する要約システム等において重要な役割を果たす、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する装置及びその方法に関する。 The present invention relates to an apparatus and method for extracting a set of specific expressions composed of a plurality of related specific expressions, which play an important role in a summarization system for summarizing input text, and the like.
まず、相互に関係する固有表現の具体例を以下に説明する。 First, specific examples of interrelated specific expressions will be described below.
例えば、「長澤まさみは渋谷で、速水もこみちは新宿で新作映画の舞台挨拶を行なった。」というテキストにおいて、人名を表す「長澤まさみ」及び「速水もこみち」という固有表現と、地名を表す「渋谷」及び「新宿」という固有表現との間で固有表現の組み合わせを考える。ここで、上記テキストから「長澤まさみは渋谷で新作映画の舞台挨拶を行なった」と解釈されるので、「長澤まさみ」と「渋谷」には「行なった」という関係がある。また、「速水もこみちは新宿で新作映画の舞台挨拶を行なった」と解釈されるから、「速水もこみち」と「新宿」には「行なった」という関係がある。しかし、「長澤まさみ」と「新宿」及び「速水もこみち」と「渋谷」にはそれぞれ関係がない。従って、入力テキストを要約する要約システムや大量のテキストデータから必要な情報を得る検索システム等では、互いに関係する固有表現の組を抽出することが重要となる。 For example, in the text “Masami Nagasawa was in Shibuya and Mokomichi Hayami gave a stage greeting for a new movie in Shinjuku.” ”And“ Shinjuku ”are considered as combinations of specific expressions. Here, from the above text, it is interpreted that “Masami Nagasawa made a new stage greeting in Shibuya”, so there is a relationship “I did” between “Masami Nagasawa” and “Shibuya”. In addition, it is interpreted that “Hayami Mokomichi gave a stage greeting of a new movie in Shinjuku”, so “Hayami Mokomichi” and “Shinjuku” have a relationship “I did”. However, “Masami Nagasawa” and “Shinjuku” and “Hayami Mokomichi” and “Shibuya” are not related. Therefore, in a summarization system that summarizes input text, a search system that obtains necessary information from a large amount of text data, and the like, it is important to extract sets of specific expressions related to each other.
従来、この種の固有表現の組抽出装置及びその方法として、2つの固有表現間に存在する単語情報を素性とした機械学習を用いたものが知られている(例えば非特許文献1参照)。 2. Description of the Related Art Conventionally, as this kind of specific expression pair extraction apparatus and method, one using machine learning based on word information existing between two specific expressions is known (see, for example, Non-Patent Document 1).
この固有表現の組抽出装置では、「長澤まさみ」と「新宿」との間に関係があるか否かを判別する場合に、各固有表現の間に存在する「は渋谷で、速水もこみちは」という情報が素性として用いられている。
ところで、上記要約システムや検索システムに用いられるテキストには複数の話題が記載されている場合が多く、例えばテキストの前半にはスポーツの話題が記載され、テキストの後半には政治の話題が記載されていることがある。この場合、同一のテキストであったとしても、スポーツの話題に含まれている固有表現と政治の話題に含まれている固有表現とは互いに関係する可能性が低い。 By the way, there are many cases where a plurality of topics are described in the text used in the summarization system and the search system. For example, the first half of the text describes sports topics, and the second half of the text describes political topics. There may be. In this case, even if the texts are the same, the specific expression included in the sports topic and the specific expression included in the political topic are unlikely to be related to each other.
しかしながら、従来の装置は、単に各固有表現間に存在する単語情報を素性として用いているので、上記のように各固有表現がそれぞれ異なる話題に含まれる場合には、各固有表現間に存在する文字列に基づいて各固有表現間の関係の有無を判別しなければならず、各固有表現間に関係があるか否かを適切に判断することが困難であった。 However, since the conventional apparatus simply uses word information existing between each unique expression as a feature, if each specific expression is included in a different topic as described above, it exists between each specific expression. Whether or not there is a relationship between the unique expressions must be determined based on the character string, and it is difficult to appropriately determine whether or not there is a relationship between the specific expressions.
本発明は前記問題点に鑑みてなされたものであり、その目的とするところは、個々の事例に応じて相互に関係する固有表現の組を抽出可能な装置及びその方法を提供することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide an apparatus and method for extracting a set of specific expressions related to each other according to each case. .
本発明の相互に関係する固有表現の組抽出装置は、前記目的を達成するために、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する装置であって、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する固有表現抽出処理部と、固有表現抽出処理部によって抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前後の文それぞれにおける話題が変化したと想定される位置が入力テキストの各固有表現間に存在するか否かを表す話題区切り情報を少なくとも含む素性を抽出する素性抽出処理部と、素性抽出処理部によって抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する判別処理部とを備えている。 In order to achieve the above-mentioned object, the inter-specific-expression-specific group extraction apparatus of the present invention is an apparatus for extracting a specific-expression group consisting of a plurality of inter-specific expressions from an input text. When input, a specific expression extraction processing unit that morphologically analyzes the input text and extracts a plurality of specific expressions included in the input text, and a plurality of specific expressions extracted by the specific expression extraction processing unit A feature extraction process that extracts at least feature information that includes topic delimiter information that indicates whether or not a position where the topic in each of the preceding and following sentences is assumed to have changed between each named entity of each input text. Part, the features extracted by the feature extraction processing unit, the result of the determination in advance about the presence or absence of a relationship between each specific expression corresponding to a predetermined specific expression set, and the predetermined Whether there is a relationship between the specific expressions corresponding to the set of specific expressions based on the pre-features extracted in advance from the feature extraction processing unit using the text including each specific expression corresponding to the set of real expressions And a discrimination processing unit that discriminates each set of proper expressions.
また、本発明の相互に関係する固有表現の組抽出方法は、前記目的を達成するために、コンピュータを用いて、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する方法であって、前記コンピュータは、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する第1のステップと、抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前後の文それぞれにおける話題が変化したと想定される位置が入力テキストの各固有表現間に存在するか否かを表す話題区切り情報を少なくとも含む素性を抽出する第2のステップと、抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第2のステップを行うことにより抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する第3のステップとを行っている。 According to another aspect of the present invention, there is provided a method for extracting a set of related specific expressions, wherein a set of specific expressions composed of a plurality of related specific expressions is extracted from an input text using a computer. In the method, when a text is input, the computer combines a first step of morphological analysis of the input text to extract a plurality of specific expressions included in the input text, and each extracted specific expression Extract features that include at least topic delimiter information that indicates whether or not the position where the topic in each of the preceding and following sentences has changed is present between each of the specific expressions in the input text. A second step, a result determined in advance as to whether or not there is a relationship between the extracted features, each specific expression corresponding to the predetermined specific expression set, and the predetermined specific expression There is a relationship between each specific expression corresponding to the set of specific expressions based on the prior features extracted by performing the second step in advance using text including each specific expression corresponding to the current set. And a third step of determining whether or not each unique expression is set.
これにより、前後の文それぞれにおける話題が変化したと想定される位置が入力テキストの各固有表現間に存在するか否かを表す話題区切り情報が素性に含まれ、該素性を用いて各固有表現間の関係が判別されることから、入力テキストの各固有表現間において話題が変化しているか否かという情報に基づいて各固有表現間に関係があるか否かを判別することが可能となる。 As a result, the feature includes topic delimiter information indicating whether or not the position where the topic is assumed to have changed in each of the preceding and following sentences exists between the respective unique representations of the input text. It is possible to determine whether or not there is a relationship between each unique expression based on information on whether or not the topic has changed between each specific expression of the input text. .
本発明の相互に関係する固有表現の組抽出装置及びその方法によれば、入力テキストの各固有表現間において話題が変化しているか否かという情報に基づいて各固有表現間に関係があるか否かを判別することができるので、例えば各固有表現がそれぞれ異なる話題に含まれている場合でも各固有表現間の関係を適切に判別することができ、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。 According to the related-specific-specific-expression group extraction apparatus and method of the present invention, whether there is a relationship between the specific expressions based on information about whether the topic has changed between the specific expressions of the input text or not. For example, even if each proper expression is included in a different topic, the relationship between each proper expression can be properly determined, and they are related to each other according to each case. A set of specific expressions can be extracted.
図1乃至図7は本発明の第1の実施形態を示すもので、図1は固有表現の組抽出装置の構成図、図2は固有表現の組抽出処理のフロー図、図3は係り受け解析部による解析結果の概要を示す図、図4は基盤解析結果合成部による処理結果の概要を示す図、図5は固有表現間情報抽出処理部による処理結果の一例を示す図、図6は結束度の概要を示す図、図7は話題区切り情報抽出部による処理結果の一例を示す図である。 FIGS. 1 to 7 show a first embodiment of the present invention. FIG. 1 is a configuration diagram of a unique expression set extraction apparatus, FIG. 2 is a flowchart of a unique expression set extraction process, and FIG. 3 is a dependency. FIG. 4 is a diagram showing an overview of analysis results by the analysis unit, FIG. 4 is a diagram showing an overview of processing results by the base analysis result synthesis unit, FIG. 5 is a diagram showing an example of processing results by the inter-specific expression information extraction processing unit, and FIG. FIG. 7 is a diagram showing an outline of the cohesion degree, and FIG. 7 is a diagram showing an example of a processing result by the topic break information extracting unit.
以下、図面を参照して本発明の相互に関係する固有表現の組抽出装置及びその方法の概要を説明する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS An overview of an apparatus and method for extracting sets of related expressions according to the present invention will be described below with reference to the drawings.
本発明の相互に関係する固有表現の組抽出装置(以下、抽出装置と称する。)は、周知のCPUを主体として構成されたコンピュータ装置からなり、モニタ等の表示手段、キーボード等の入力手段、ハードディスクやメモリ等の記憶手段及び外部ネットワークに接続可能な通信装置等(何れも図示省略)を備えている。また、本発明の抽出装置には、固有表現抽出処理部10、素性抽出処理部20、判別処理部30及びモデル記憶部40が設けられている。
A mutual expression group extraction device (hereinafter referred to as an extraction device) according to the present invention includes a computer device mainly composed of a well-known CPU, and includes display means such as a monitor, input means such as a keyboard, It includes storage means such as a hard disk and a memory, and a communication device that can be connected to an external network (both not shown). Further, the extraction apparatus of the present invention is provided with a specific expression
固有表現抽出処理部10は、図1に示すように形態素解析部11、固有表現抽出部12、係り受け解析部13、基盤解析結果合成部14及び固有表現ペア生成部15からなり、入力手段を用いて入力されたテキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出するようになっている。
As shown in FIG. 1, the specific expression
形態素解析部11は、入力テキストを取得すると(図2のステップS1)、入力テキストに対して周知の形態素解析処理を行うことにより入力テキストを単語分割し、分割した各単語に品詞を付与して出力する(図2のステップS2)。例えば、「長澤まさみは渋谷で、速水もこみちは新宿で新作映画の舞台挨拶を行なった。」というテキストが入力された場合には、形態素解析部11による処理結果は、「長澤まさみ(名詞)/は(助詞)/渋谷(名詞)/で(格助詞)/、(読点)/速水もこみち(名詞)/は(助詞)/新宿(名詞)/で(格助詞)/新作(名詞)/映画(名詞)/の(格助詞)/舞台(名詞)/挨拶(動作名詞)/を(格助詞)/行な(動詞)/っ(動詞活用語尾)/た(動詞活用語尾)/。(句点)」となる。
When the
固有表現抽出部12は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の固有表現抽出処理を行うことにより固有表現を抽出するとともに、抽出された固有表現に対して人名や地名等の固有表現の種類を付与した後に該固有表現を出力する(図2のステップS3)。ここで、例示した形態素解析済みの入力テキストが固有表現抽出部12に入力されると、「長澤まさみ(人名)」、「渋谷(地名)」、「速水もこみち(人名)」及び「新宿(地名)」という情報が出力される。
The specific
係り受け解析部13は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の係り受け解析処理を行うことにより、該テキストを文節に分割し、分割された複数の文節間の係り受け関係を解析して出力する(図2のステップS4)。この場合、例示した入力テキストが係り受け解析部13によって解析されると、図3に示すような係り受け構造を表す情報(係り受け木)が解析結果として出力される。ここで、「長澤まさみ/は」、「渋谷/で/、」、「速水もこみち/は」、「新宿/で」及び「舞台/挨拶/を」という文節は、それぞれ「行な/っ/た/。」という文節に係っており、「新作/映画/の」という文節は「舞台/挨拶/を」という文節に係っている。これらの係り受け関係をデータとして実装する場合には、例えば「(行なった。(長澤まさみは)(渋谷で)(速水もこみちは)(新宿で)(舞台挨拶を(新作映画の)))」というように表現される。
The
基盤解析結果合成部14は、固有表現抽出部12から出力された情報と、係り受け解析部13から出力された情報とを合成する処理を行う(図2のステップS5)。具体的には、基盤解析結果合成部14は、固有表現抽出部12及び係り受け解析部13から情報を取得すると、各固有表現に対して固有表現を表すタグを付与する。例えば、「長澤まさみ」と「速水もこみち」の前後には人名を示す<PSN>というタグが付与され、「渋谷」と「新宿」の前後には地名を示す<LOC>というタグが付与される。この場合、基盤解析結果合成部14の処理結果は図4のように示される。
The base analysis result synthesizing
固有表現ペア生成部15は、基盤解析結果合成部14の処理結果を取得すると、処理結果に含まれる全ての固有表現を組合わせることにより複数の固有表現の組(ペア)を生成する(図2のステップS6)。なお、本実施形態では、固有表現の組を、人名を表す固有表現と地名を表す固有表現の2つの固有表現から構成されるものとし、固有表現の組を「長澤まさみ:渋谷」のように表記する。この場合、各固有表現のうちテキストにおいて先に出現する固有表現が前方固有表現として「:」の左側に表され、後に出現する固有表現が後方固有表現として「:」の右側に表される。なお、例示した入力テキストからは、「長澤まさみ:渋谷」、「長澤まさみ:新宿」、「渋谷:速水もこみち」及び「速水もこみち:新宿」という4つの固有表現の組が出力される。
When the specific expression
次に、素性抽出処理部20の概要を説明する。素性抽出処理部20は、固有表現間情報抽出部21と話題区切り情報抽出部22からなり、固有表現ペア生成部15によって生成された複数の固有表現の組毎に、該組に含まれる各固有表現間の素性を抽出するようになっている(図2のステップS7)。
Next, an overview of the feature
固有表現間情報抽出部21は、基盤解析結果合成部14の処理結果と、固有表現ペア生成部15によって生成された固有表現の組とを取得すると、入力テキストにおいて固有表現の組に対応する各固有表現間に存在する単語、品詞、該単語の数及び各固有表現間に存在する固有表現の数と、各固有表現のそれぞれを含む文節の係り先文節の単語及び品詞、各固有表現が同一文節に存在するか否か及び各固有表現を含む文節間の最短経路の距離を抽出する。ここで、固有表現間情報抽出部21の処理内容を具体的に説明する例として、図4に示した基盤解析結果合成部14の処理結果と、「長澤まさみ:渋谷」という固有表現の組とを用いる。まず、入力テキストにおいて固有表現の組に対応する各固有表現間に存在する単語、品詞、該単語数及び各固有表現間に存在する固有表現の数は、それぞれ「は」、「助詞」、「1」及び「0」である。また、「長澤まさみ/は」という文節の係り先文節の単語及び品詞は、それぞれ「行な/っ/た/。」及び「動詞語幹/動詞活用語尾/動詞接尾辞/句点」であり、「渋谷/で/、」という文節についても同様である。さらに、各固有表現が同一文節に存在するか否かについては、「長澤まさみ」と「渋谷」がそれぞれ異なる文節に含まれていることから、「NO」となる、。また、各固有表現を含む文節間の最短経路の距離は、係り受け木における「長澤まさみ/は」という文節と「渋谷/で/、」という文節との最短経路の距離で表される。この場合、「長澤まさみ/は」という文節は、「行な/っ/た/。」という文節を介して「渋谷/で/、」という文節に到達し、他に到達する経路がないことから、各文節間の最短経路は「長澤まさみ/は」→「行な/っ/た/。」→「渋谷/で/、」となり、その距離は2となる。従って、上記の例を用いた場合の固有表現間情報抽出部21の処理結果は図5のように示される。
When the inter-specific expression
話題区切り情報抽出部22は、基盤解析結果合成部14の処理結果と、固有表現ペア生成部15によって生成された固有表現の組とを取得すると、前後の文の話題が変化したと想定される位置が入力テキストの各固有表現間に存在するか否かを表す話題区切り情報を少なくとも含む素性を抽出する。具体的に説明すると、まず、話題区切り情報抽出部22は、入力テキストを構成する複数の文それぞれの境界位置において、前後の文の話題の類似度(結束度)を求めることにより前後の話題が変化したか否かを判別する。この結束度は、各文の境界において、前後所定数(例えば30)の単語の窓を設け、各窓に含まれる単語の出現頻度ベクトルの余弦測度を計算することにより求められる。例えば、図6に示すように文の境界の位置をi、境界位置iにおける左側の窓をbl、境界位置iにおける右側の窓をbr、各窓bl,brにおける単語tの出現頻度をそれぞれwt_bl,wt_brとすると、境界位置iにおける結束度Ci は以下の式(1)で求められる。
When the topic delimiter
上記の式により求められる結束度Ci は、その値が大きくなると、境界位置iの前後の文の内容が類似している即ち境界位置iにおいて話題が変化していない可能性が高いということを表し、その値が小さくなると、境界位置iの前後の文の内容が変化している即ち境界位置iにおいて話題が変化している可能性が高いということを表している。ここで、結束度が極小点となる境界位置を、前後の文の話題が変化したと想定される話題区切り候補とする。また、話題区切り候補の左側において結束度の単調減少が開始する位置をl、話題区切り後方の右側において結束度の単調増加が終了する位置をrとし、各位置l,rにおける結束度をそれぞれCl,Crとすると、話題区切り候補(境界位置i)における位置l,rとの間の話題の変化の大きさを表すスコアdiは、以下の式(2)で求められる。 If the cohesion degree C i obtained by the above equation increases, the content of sentences before and after the boundary position i is similar, that is, it is highly likely that the topic has not changed at the boundary position i. When the value becomes smaller, it indicates that the content of the sentence before and after the boundary position i has changed, that is, the possibility that the topic has changed at the boundary position i is high. Here, the boundary position where the cohesion degree becomes the minimum point is set as a topic break candidate that is assumed that the topic of the preceding and following sentences has changed. Further, the position where monotonic decrease of cohesion degree starts on the left side of the topic break candidate is l, the position where monotonic increase of cohesion degree ends on the right side after the topic break is r, and the cohesion degree at each position l and r is Cl. , Cr, a score di representing the magnitude of topic change between the positions l and r in the topic break candidate (boundary position i) is obtained by the following equation (2).
この場合、前後の話題が大きく変化するとスコアdiが大きくなるので、複数の話題区切り候補が抽出された場合には、スコアの大きい順に話題区切り候補を上位に順位付けることが可能となる。 In this case, the score di increases when the preceding and following topics change significantly. Therefore, when a plurality of topic break candidates are extracted, the topic break candidates can be ranked in descending order of score.
そして、話題区切り情報抽出部22は、固有表現の組に対応する各固有表現間に話題区切り候補が存在するか否か、各固有表現間に存在する話題区切り候補の数、各話題区切り候補の結束度、各話題区切り候補のスコア及び各話題区切り候補のスコアに基づく順位を素性として抽出する。なお、話題区切り情報抽出部22による処理結果の一例は図7のように示される。
Then, the topic break
次に、判別処理部30の概要を説明する。判別処理部30は、モデル選択部31、分類器32及び固有表現ペア出力部33からなり、素性抽出処理部20から取得した素性等に基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別するようになっている。
Next, an outline of the
モデル選択部31は、固有表現の組毎に固有表現間情報抽出部21及び話題区切り情報抽出部22の処理結果を取得すると、基盤解析結果合成部14によって付与されたタグに基づいて固有表現の組を分類するとともに、後述の分類器32によって抽出されるモデルの種類を選択する(図2のステップS8)。例えば、固有表現の組として「長澤まさみ:渋谷」が入力された場合には、モデル選択部31は固有表現の組を「人名:地名」という種類に分類し、素性抽出処理部20から取得した素性とともに固有表現の組の種類を出力する。
When the
分類器32は、モデル選択部31から出力された情報を取得すると、モデル選択部31で選択された固有表現の組の種類に基づいて、複数のモデルが記憶されたモデル記憶部40からモデルを抽出し、抽出したモデルを用いて固有表現の組に対応する各固有表現間に関係があるか否かを判別する(図2のステップS9)。
When the
ここで、モデルは、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて固有表現抽出処理部10及び素性抽出処理部20から事前に抽出された情報とを用いて周知の機械学習を行うことにより予め生成されている。また、所定の固有表現の組についての判別結果は人的な判断に基づいて事前になされている。なお、各モデルを、例えば「人名:地名」や「人名:人名」等のように固有表現の組の種類に応じて構成してもよいし、種類を区別することなく構成してもよい。
Here, the model uses a result determined in advance as to whether or not there is a relationship between each specific expression corresponding to a predetermined specific expression set, and text including each specific expression corresponding to the predetermined specific expression set. The information is previously generated by performing well-known machine learning using information extracted in advance from the specific expression
この場合、分類器32による判別には、話題区切り情報抽出部22から取得した情報も利用されていることから、各固有表現がそれぞれ異なる話題に含まれている可能性が高いか否かという情報に基づいて各固有表現間の関係を判別することができる。
In this case, since the information acquired from the topic delimiter
なお、分類器32は、関係あるか否かという判定結果の他に関係度を表す数値を出力するように構成してもよい。また、機械学習としては、周知のものを用いることが可能であるが、木構造やグラフ構造のデータを直接入力して学習可能に構成されたものを用いることが望ましい。
The
固有表現ペア出力部33は、各固有表現間に関係があると分類器32によって判別された固有表現の組を表示手段に出力する(図2のステップS10)。なお、分類器32が関係度を表す数値を出力するようになっている場合には、固有表現ペア出力部33は、関係度が予め設定された所定の閾値より大きいときにのみ固有表現の組を出力するようにしてもよい。
The specific expression
前述したように上記実施形態では、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出し、抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前後の文の話題が変化したと想定される話題区切り候補が入力テキストの各固有表現間に存在するか否かを表す情報を少なくとも含む素性を抽出し、抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第2のステップを行うことにより抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別するので、入力テキストの各固有表現間において話題が変化しているか否かという情報に基づいて各固有表現間に関係があるか否かを判別することができ、例えば各固有表現がそれぞれ異なる話題に含まれている場合でも各固有表現間の関係を適切に判別することができる。従って、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。
As described above, in the above embodiment, when text is input, morphological analysis is performed on the input text to extract a plurality of specific expressions included in the input text, and a plurality of specific expressions formed by combining the extracted specific expressions. For each set of expressions, a feature that includes at least information indicating whether topic break candidates that are assumed to have changed the topic of the sentence before and after exist between each unique expression of the input text is extracted, and the extracted features And a result determined in advance as to whether or not there is a relationship between each specific expression corresponding to the predetermined specific expression set, and a text including each specific expression corresponding to the predetermined specific expression set. Since it is determined for each set of specific expressions whether or not there is a relationship between each specific expression corresponding to the set of specific expressions based on the prior features extracted by performing
また、入力テキストの各固有表現間に存在する話題区切り候補の数と、話題区切り候補が入力テキストの各固有表現間に存在するか否かを表す情報とを少なくとも含む情報を素性として抽出するので、各固有表現間に存在する話題区切り候補の数に基づいて各固有表現間の関係の有無を判別することができ、相互に関係する固有表現の組の抽出精度が向上する。 In addition, information including at least the number of topic break candidates existing between each unique expression of the input text and information indicating whether the topic break candidate exists between each unique expression of the input text is extracted as a feature. In addition, it is possible to determine whether or not there is a relationship between the specific expressions based on the number of topic break candidates existing between the specific expressions, and the extraction accuracy of a set of specific expressions related to each other is improved.
さらに、入力テキストの各固有表現間に存在する話題区切り候補の前後所定範囲内における所定の単語の出現頻度に基づいて求められた結束度と、話題区切り候補が入力テキストの各固有表現間に存在するか否かを表す情報とを少なくとも含む情報を素性として抽出するので、話題区切り候補の前後の文の類似度に基づいて各固有表現間の関係の有無を判別することができ、相互に関係する固有表現の組の抽出精度が向上する。 Furthermore, the degree of cohesion obtained based on the appearance frequency of a predetermined word within a predetermined range before and after the topic break candidate existing between each unique expression of the input text, and the topic break candidate exists between each unique expression of the input text. Information including at least information indicating whether or not to do so is extracted as a feature, so it is possible to determine whether there is a relationship between each specific expression based on the similarity of sentences before and after the topic break candidate, and The extraction accuracy of a set of proper expressions is improved.
さらにまた、入力テキストの各固有表現間に存在する話題区切り候補と話題区切り候補の前後それぞれの所定位置との間の話題の変化の大きさを表すスコアと、話題区切り候補が入力テキストの各固有表現間に存在するか否かを表す情報とを少なくとも含む情報を素性として抽出するので、話題区切り候補の前後の文における話題の変化の大きさに基づいて各固有表現間の関係の有無を判別することができ、相互に関係する固有表現の組の抽出精度が向上する。 Furthermore, a topic delimiter candidate that exists between each unique representation of the input text and a score that indicates the magnitude of topic change between the respective positions before and after the topic delimiter candidate, and the topic delimiter candidate is unique to each input text Since information that includes at least information indicating whether or not it exists between expressions is extracted as a feature, whether or not there is a relationship between each specific expression based on the magnitude of topic change in sentences before and after the topic break candidate This can improve the extraction accuracy of a set of specific expressions related to each other.
以下に本発明の第2の実施形態に係る抽出装置について説明する。本実施形態が第1の実施形態と異なる点は、固有表現の組に含まれる各固有表現間の関係の有無が判別処理部30によって判別される毎に判別結果を記憶する判別結果記憶部50を備え、判別処理部30を、固有表現の組に対応する素性が抽出されると判別結果記憶部50に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別するように構成した点にある。他の構成及び動作については第1の実施形態と同様なので、ここでは相違点のみを図8乃至図12を参照して説明する。
The extraction device according to the second embodiment of the present invention will be described below. The present embodiment is different from the first embodiment in that a discrimination
本実施形態の素性抽出処理部20は、固有表現抽出処理部10の固有表現ペア生成部15によって生成された固有表現の組の並び替えを行う固有表現ペア並び替え部23を有している。
The feature
また、本実施形態の判別処理部30は、分類器32によって判別された各固有表現間の関係の有無についての結果を判別結果記憶部50に記憶するとともに、判別結果記憶部50に記憶された判別結果を取得する判別結果取得部34を有している。
In addition, the
本実施形態の抽出装置について、素性抽出処理部20及び判別処理部30の動作を第1の実施形態において例示した入力テキスト及び図9のフローを用いて説明する。なお、各固有表現には、入力テキストにおける出現順に固有表現IDが付与されている。例えば、「長澤まさみ」、「渋谷」、「速水もこみち」及び「新宿」には、それぞれ「ID1」、「ID2」、「ID3」及び「ID4」という固有表現IDが付与される。また、判別結果記憶部50には、当初何も記憶されていない。
With respect to the extraction apparatus of this embodiment, the operations of the feature
まず、固有表現の組が図10に示される順で固有表現抽出処理部10の固有表現ペア生成部15から出力されると、固有表現ペア並び替え部23は、固有表現の組を並び替え規則に基づいて並び替える(ステップS11)。ここで、本実施形態では、「固有表現IDの絶対値差分が小さい順に並び替え、絶対値差分が等しい場合には、固有表現IDの和が小さい順に並び替える。」という並び替え規則を用いている。また、固有表現IDの絶対値差分及び和は図11のように示されている。これにより、固有表現の組は図12に示すように並び替えられる。
First, when the specific expression pairs are output from the specific expression
次に、固有表現間情報抽出部21及び話題区切り情報抽出部22は、並び替えられた固有表現の組から先頭の固有表現の組(「ID1−ID2」)を処理対象として抽出し(ステップS12)、処理対象の固有表現の組について素性抽出処理を行う(ステップS13)。なお、素性抽出処理の内容は第1の実施形態と同様である。
Next, the inter-specific expression
次いで、判別処理部30の判別結果取得部34は、判別結果記憶部50に判別結果が記憶されているか否か判別し(ステップS14)、判別結果が記憶されている場合には判別結果記憶部50に記憶されている全ての判別結果を取得する(ステップS15)。なお、処理対象が「ID1−ID2」であるときには、判別結果記憶部50に何も記憶されていないので、ステップS16に処理が移行する。
Next, the discrimination
そして、モデル選択部31が固有表現の組を分類すると(ステップS16)、分類器32は、固有表現の組に対応する各固有表現間の関係の有無を判別するとともに(ステップS17)、判別結果を固有表現ペア出力部33に出力する(ステップS18)。なお、固有表現ペア出力部33は、各固有表現間に関係があると分類器32によって判別された場合には、固有表現の組を表示手段に出力する。そして、判別結果取得部34は、処理対象として抽出されていない固有表現の組が存在する場合には、固有表現の組とその関係の判別結果を判別結果記憶部50に記憶してステップS12の処理に移行させる(ステップS19,S20)。この場合、次の処理対象は並び替えられた順に従う。
When the
なお、上記ステップS15では、判別結果記憶部50から全ての判別結果が取得されるようになっているが、固有表現の組に関連する判別結果のみを取得することも可能であり、その取得方法を以下に3つ示す。
In step S15, all the determination results are acquired from the determination
まず、第1の方法として、処理対象の固有表現の組に対応する固有表現IDと同一の固有表現IDを有する固有表現の組の判別結果を判別結果記憶部50から取得する。例えば、処理対象の固有表現の組が「ID1−ID4」であった場合には、既に判別された固有表現の組のうち「ID1−ID2」、「ID3−ID4」、「ID1−ID3」及び「ID2−ID4」に対応する判別結果が取得される。
First, as a first method, a discrimination result of a specific expression group having the same specific expression ID as the specific expression ID corresponding to the specific expression set to be processed is acquired from the determination
また、第2の方法として、処理対象の固有表現の組に対応する各固有表現ID間に存在する固有表現IDを有する固有表現の組の判別結果を判別結果記憶部50から取得する。例えば、処理対象の固有表現の組が「ID1−ID4」であった場合には、各固有表現ID間に存在する固有表現IDは「ID2」及び「ID3」となる。従って、既に判別された固有表現の組のうち「ID1−ID2」、「ID3−ID4」、「ID1−ID3」及び「ID2−ID4」に対応する判別結果が取得される。
As a second method, a discrimination result of a set of unique expressions having a unique expression ID existing between each unique expression ID corresponding to the set of unique expressions to be processed is acquired from the discrimination
さらに、第3の方法として、係り受け木において処理対象の固有表現の組に対応する各固有表現間の最短経路を抽出し、その最短経路上に存在する固有表現を含む固有表現の組の判別結果を判別結果記憶部50から取得する。例えば、処理対象のお固有表現の組が「ID1−ID4」であった場合には、「長澤まさみ」を含む文節と「新宿」を含む文節との図3の係り受け木における最短経路上には固有表現を含む文節が存在しないので、判別結果が取得されない。
Further, as a third method, the shortest path between each specific expression corresponding to the set of specific expressions to be processed in the dependency tree is extracted, and a set of specific expressions including the specific expressions existing on the shortest path is determined. The result is acquired from the discrimination
なお、3つの方法を組み合わせて判別結果を取得するように構成してもよい。 In addition, you may comprise so that a discrimination | determination result may be acquired combining three methods.
また、判別結果が判別結果記憶部50から取得された場合には、分類器32は、上記フローのステップS17において、取得した判別結果、各固有表現間の素性及びモデル記憶部40から取得したモデルに基づいて、各固有表現間に関係があるか否かを判別する。
Further, when the discrimination result is acquired from the discrimination
さらに、上記フローでは説明を省略したが、本実施形態で用いられるモデルは、複数の所定の固有表現の組を用いて図9のフローに従って作成される。この場合、ステップS17における各固有表現間の判別処理は人的な判断に基づいてなされ、人的に判別された結果と、各固有表現間の素性と、ステップS15において判別結果記憶部50から取得された判別結果とが訓練事例として所定の記憶部に記憶される。そして、ステップS19において、全ての固有表現の組とその関係の判別結果が得られた場合には、訓練事例を用いてモデルが作成される。なお、モデルを作成する際には、ステップS18の処理は省略される。
Furthermore, although the description is omitted in the above flow, the model used in the present embodiment is created according to the flow of FIG. 9 using a plurality of predetermined sets of specific expressions. In this case, the discrimination processing between each unique expression in step S17 is performed based on human judgment, and the result of human discrimination, the feature between each unique expression, and the discrimination
このように上記実施形態では、固有表現の組に対応する各固有表現間の関係の有無が判別される毎に、判別結果を判別結果記憶部50に記憶し、固有表現の組に対応する素性が抽出されると判別結果記憶部50に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に抽出された素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別するので、判別対象となる固有表現の組に関連する固有表現の組の判別結果を容易に利用することができる。
As described above, in the above-described embodiment, each time the presence / absence of the relationship between the unique expressions corresponding to the set of specific expressions is determined, the determination result is stored in the determination
なお、上記第1及び第2の実施形態は本発明の具体例に過ぎず、本発明が上記実施形態のみに限定されることはない。例えば、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1や図8の構成図に示された機能を実現するプログラムあるいは図2や図9のフローに示された手順を備えるプログラムをインストールすることによっても実現可能である。 In addition, the said 1st and 2nd embodiment is only a specific example of this invention, and this invention is not limited only to the said embodiment. For example, the present invention includes a program for realizing the functions shown in the configuration diagrams of FIGS. 1 and 8 or the procedures shown in the flows of FIGS. 2 and 9 via a medium or communication line in a known computer. It can also be realized by installing a program.
また、上記実施形態では、固有表現間情報抽出部21が図5に示した素性を出力するものを示したが、図13に示すように各固有表現を含む文節内の固有表現以外の単語や、その単語の品詞を素性に含めて出力させてもよい。この場合、固有表現として用いることのない「日本文化」という単語に対して「日本」のみが地名を表す固有表現として抽出され、他の固有表現との関係の有無について判別されることを防止することができる。
Further, in the above-described embodiment, the inter-specific expression
さらに、固有表現間情報抽出部21を、図14に示すように各固有表現の直後に名詞句があるか否かを素性に含めて出力させてもよい。この場合、前記と同様に「日本文化」という単語に対して「日本」のみが地名を表す固有表現として抽出され、他の固有表現との関係の有無について判別されることを防止することができる。
Furthermore, the inter-specific expression
さらにまた、固有表現間情報抽出部21を、図15に示すように各固有表現の間に存在する他の固有表現が各固有表現の一方と同一表記もしくは部分表記であるか否かを素性に含めて出力させてもよい。この場合、関係の判別対象となる固有表現が誤って抽出されることを防止することができる。
Furthermore, the inter-specific expression
10…固有表現抽出処理部、11…形態素解析部、12…係り受け解析部、20…素性抽出処理部、22…話題区切り情報抽出部、30…判別処理部、32…分類器、50…判別結果記憶部。
DESCRIPTION OF
Claims (10)
テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する固有表現抽出処理部と、
固有表現抽出処理部によって抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前後の文の話題が変化したと想定される位置が入力テキストの各固有表現間に存在するか否かを表す話題区切り情報を少なくとも含む素性を抽出する素性抽出処理部と、
素性抽出処理部によって抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する判別処理部とを備えた
ことを特徴とする相互に関係する固有表現の組抽出装置。 A device that extracts a set of specific expressions composed of a plurality of related specific expressions from input text,
When the text is input, a specific expression extraction processing unit that morphologically analyzes the input text and extracts a plurality of specific expressions included in the input text;
Whether there is a position between the specific expressions in the input text that is assumed to have changed the topic of the sentence before and after each specific expression set that is a combination of the specific expressions extracted by the specific expression extraction processing unit A feature extraction processing unit for extracting features including at least topic break information indicating whether or not,
The feature extracted by the feature extraction processing unit, the result of determining in advance whether or not there is a relationship between each specific expression corresponding to a predetermined specific expression set, and each specific expression corresponding to the predetermined specific expression set For each set of specific expressions, it is determined whether there is a relationship between each specific expression corresponding to the set of specific expressions based on the pre-extracted features from the feature extraction processing unit using text including An apparatus for extracting sets of interrelated specific expressions, characterized by comprising a discrimination processing unit.
ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。 2. The interrelationship according to claim 1, wherein the feature extraction processing unit extracts, as features, information including at least the number of assumed positions existing between each unique expression of the input text and the topic break information. Specific expression set extraction device.
ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。 The feature extraction processing unit obtains the topic similarity obtained based on the frequency of appearance of a predetermined word within a predetermined range before and after the assumed position existing between the unique expressions of the input text, and the topic delimiter information. The apparatus for extracting sets of interrelated specific expressions according to claim 1, wherein at least information included is extracted as a feature.
ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。 The feature extraction processing unit includes a value representing a magnitude of a topic change between the assumed position existing between each unique expression of the input text and a predetermined position before and after the assumed position, and the topic delimiter information, The apparatus for extracting a set of interrelated specific expressions according to claim 1, wherein information including at least is extracted as a feature.
判別処理部は、固有表現の組に対応する素性が素性抽出処理部によって抽出されると判別結果記憶部に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別する
ことを特徴とする請求項1乃至4何れか1項記載の相互に関係する固有表現の組抽出装置。 A determination result storage unit that stores a determination result every time the determination processing unit determines whether or not there is a relationship between each unique expression included in the set of each specific expression,
The discrimination processing unit obtains the discrimination result stored in the discrimination result storage unit when the feature corresponding to the set of specific expressions is extracted by the feature extraction processing unit, and the discrimination result, the extracted feature, and a predetermined feature Extracted in advance from the feature extraction processing unit using the result determined in advance as to whether or not there is a relationship between each specific expression corresponding to the specific expression set and text including each specific expression corresponding to the predetermined specific expression set 5. The interrelationship according to claim 1, wherein it is determined whether or not there is a relationship between each of the specific expressions corresponding to the set of specific expressions based on the prior feature that has been set. Specific expression set extraction device.
前記コンピュータは、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する第1のステップと、
抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前後の文の話題が変化したと想定される位置が入力テキストの各固有表現間に存在するか否かを表す話題区切り情報を少なくとも含む素性を抽出する第2のステップと、
抽出された素性と、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第2のステップを行うことにより抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する第3のステップとを行う
ことを特徴とする相互に関係する固有表現の組抽出方法。 A method of extracting a set of specific expressions consisting of a plurality of related specific expressions from an input text using a computer,
A first step of extracting a plurality of specific expressions included in the input text by performing morphological analysis on the input text when the text is input;
Topic delimiter that indicates whether or not the position where the topic of the sentence before and after is changed is present between each specific expression of the input text for each set of multiple specific expressions that are combined with each extracted specific expression A second step of extracting features comprising at least information;
Using the extracted features, the result of the determination in advance regarding the presence or absence of the relationship between each specific expression corresponding to the predetermined specific expression set, and text including each specific expression corresponding to the predetermined specific expression set And determining whether or not there is a relationship between the specific expressions corresponding to the set of specific expressions for each set of specific expressions based on the pre-features extracted by performing the second step in advance. A method of extracting a set of interrelated expressions characterized by
ことを特徴とする請求項6記載の相互に関係する固有表現の組抽出方法。 7. The computer according to claim 6, wherein in the second step, the computer extracts, as features, information including at least the number of assumed positions existing between the unique expressions of the input text and the topic break information. A method for extracting sets of specific expressions related to
ことを特徴とする請求項6記載の相互に関係する固有表現の組抽出方法。 The computer, in the second step, the topic similarity determined based on the frequency of appearance of a predetermined word within a predetermined range before and after the assumed position existing between each unique representation of the input text, the topic break The method for extracting a set of interrelated specific expressions according to claim 6, wherein information including at least information is extracted as a feature.
ことを特徴とする請求項6記載の相互に関係する固有表現の組抽出方法。 In the second step, the computer, in the second step, the value representing the magnitude of a topic change between the assumed position existing between each unique representation of the input text and a predetermined position before and after the assumed position, and the topic The method for extracting a set of interrelated specific expressions according to claim 6, wherein information including at least delimiter information is extracted as a feature.
第3のステップにおいて、固有表現の組に対応する素性が抽出されると判別結果記憶部に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第2のステップを行うことにより抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別する
ことを特徴とする請求項6乃至9何れか1項記載の相互に関係する固有表現の組抽出方法。 The computer performs a fourth step of storing a determination result in a predetermined determination result storage unit every time it is determined in the third step whether or not there is a relationship between each specific expression corresponding to each set of specific expressions. ,
In the third step, when a feature corresponding to a set of specific expressions is extracted, a determination result stored in the determination result storage unit is acquired, and the set of the determination result, the extracted feature, and a predetermined specific expression Is extracted by performing the second step in advance using the result determined in advance as to whether or not there is a relationship between the respective specific expressions corresponding to, and the text including each specific expression corresponding to the predetermined set of specific expressions. 10. The mutually related uniqueness according to claim 6, wherein it is determined whether or not there is a relationship between the specific expressions corresponding to the set of specific expressions based on the prior features. Expression set extraction method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007058780A JP4646078B2 (en) | 2007-03-08 | 2007-03-08 | Apparatus and method for extracting sets of interrelated specific expressions |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007058780A JP4646078B2 (en) | 2007-03-08 | 2007-03-08 | Apparatus and method for extracting sets of interrelated specific expressions |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008225563A JP2008225563A (en) | 2008-09-25 |
JP4646078B2 true JP4646078B2 (en) | 2011-03-09 |
Family
ID=39844157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007058780A Active JP4646078B2 (en) | 2007-03-08 | 2007-03-08 | Apparatus and method for extracting sets of interrelated specific expressions |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4646078B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5265445B2 (en) * | 2009-04-28 | 2013-08-14 | 日本放送協会 | Topic boundary detection device and computer program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002117019A (en) * | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | Device and method for dividing document according to semantic group |
JP2007004458A (en) * | 2005-06-23 | 2007-01-11 | National Institute Of Information & Communication Technology | Binomial relation extraction apparatus, information retrieving apparatus using binomial relation extraction processing, method for binomial relation extraction processing, information retrieving processing method using binomial relation extraction processing, binomial relation extraction processing program, and information retrieving processing program using binomial relation extraction processing |
-
2007
- 2007-03-08 JP JP2007058780A patent/JP4646078B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002117019A (en) * | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | Device and method for dividing document according to semantic group |
JP2007004458A (en) * | 2005-06-23 | 2007-01-11 | National Institute Of Information & Communication Technology | Binomial relation extraction apparatus, information retrieving apparatus using binomial relation extraction processing, method for binomial relation extraction processing, information retrieving processing method using binomial relation extraction processing, binomial relation extraction processing program, and information retrieving processing program using binomial relation extraction processing |
Also Published As
Publication number | Publication date |
---|---|
JP2008225563A (en) | 2008-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016151700A1 (en) | Intention understanding device, method and program | |
CN112784598A (en) | Method, device and equipment for generating thinking guide graph and storage medium | |
Aliwy | Tokenization as preprocessing for Arabic tagging system | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
Chen et al. | A Chinese Dataset for Identifying Speakers in Novels. | |
JP2009295052A (en) | Compound word break estimating device, method, and program for estimating break position of compound word | |
Onyenwe et al. | Toward an effective igbo part-of-speech tagger | |
JP4793931B2 (en) | Apparatus and method for extracting sets of interrelated specific expressions | |
CN111680146A (en) | Method and device for determining new words, electronic equipment and readable storage medium | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
US20230069113A1 (en) | Text Summarization Method and Text Summarization System | |
JP2008225846A (en) | Word meaning tag application device and method, program, and recording medium | |
JP4646078B2 (en) | Apparatus and method for extracting sets of interrelated specific expressions | |
WO2010103916A1 (en) | Device for presentation of characteristic words in document and program giving priority of characteristic words | |
JP2010067021A (en) | Machine translation device and machine translation program | |
JP5085584B2 (en) | Article feature word extraction device, article feature word extraction method, and program | |
JP4793932B2 (en) | Apparatus and method for extracting sets of interrelated specific expressions | |
CN114299525A (en) | Picture processing method and device and electronic equipment | |
JP5506482B2 (en) | Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program | |
JP2008225565A (en) | Device and method for extracting set of interrelated unique expression | |
JP5142395B2 (en) | Related information extraction apparatus, method, program, and recording medium | |
KR20040018008A (en) | Apparatus for tagging part of speech and method therefor | |
JP6451151B2 (en) | Question answering apparatus, question answering method, program | |
JP2008225566A (en) | Device and method for extracting related information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4646078 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |