JP2008225561A - 相互に関係する固有表現の組抽出装置及びその方法 - Google Patents

相互に関係する固有表現の組抽出装置及びその方法 Download PDF

Info

Publication number
JP2008225561A
JP2008225561A JP2007058771A JP2007058771A JP2008225561A JP 2008225561 A JP2008225561 A JP 2008225561A JP 2007058771 A JP2007058771 A JP 2007058771A JP 2007058771 A JP2007058771 A JP 2007058771A JP 2008225561 A JP2008225561 A JP 2008225561A
Authority
JP
Japan
Prior art keywords
specific
expressions
phrase
specific expression
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007058771A
Other languages
English (en)
Other versions
JP4793932B2 (ja
Inventor
Toru Hirano
徹 平野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007058771A priority Critical patent/JP4793932B2/ja
Publication of JP2008225561A publication Critical patent/JP2008225561A/ja
Application granted granted Critical
Publication of JP4793932B2 publication Critical patent/JP4793932B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】個々の事例に応じて相互に関係する固有表現の組を抽出可能な装置及びその方法を提供する。
【解決手段】テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出した後に、抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、入力テキストに含まれる名詞句を、その名詞句に伴う助詞にそれぞれ対応する領域を有する語句記憶部30に順に記憶するとともに、固有表現の組に対応する各固有表現のうち後方固有表現を含む語句を読み出したときに語句記憶部30における前方固有表現の格納状態を表す情報を取得して、該情報を少なくとも含む素性を抽出し、抽出された素性とモデル記憶部50に記憶されたモデルに基づいて固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する。
【選択図】図1

Description

本発明は、入力されたテキストを要約する要約システム等において重要な役割を果たす、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する装置及びその方法に関する。
まず、相互に関係する固有表現の具体例を以下に説明する。
例えば、「小泉首相は中国を訪れ、胡錦濤国家主席と会談する。その後アメリカに渡りブッシュ大統領と会談を予定している。」というテキストにおいて、人名を表す「小泉」、「胡錦濤」及び「ブッシュ」という固有表現と、地名を表す「中国」及び「アメリカ」という固有表現との間で固有表現の組み合わせを考える。ここで、上記テキストにおいて「小泉首相は中国を訪れ、胡錦濤国家主席と会談する。」という記載から、「小泉」と「中国」には「訪れ」という関係がある。また、「その後小泉首相はアメリカに渡りブッシュ大統領と会談を予定している。」と解釈されるから、「小泉」と「アメリカ」には「渡り」という関係がある。しかし、「胡錦濤」と「アメリカ」及び「ブッシュ」と「中国」にはそれぞれ関係がない。従って、入力テキストを要約する要約システムや大量のテキストデータから必要な情報を得る検索システム等では、互いに関係する固有表現の組を抽出することが重要となる。
従来、この種の固有表現の組抽出装置及びその方法として、2つの固有表現間に存在する単語情報を素性とした機械学習を用いたものが知られている(例えば非特許文献1参照)。
Kambhatla、"Combining Lexical, Syntactic, and Semantic Features with Maximum Entropy Models for Extracting Relations"、The Companion Volume to the Proceedings of 42st Annual Meeting of the Association for Computational Linguistics、Association for Computational Linguistics、2004年7月、p.178−181
しかしながら、従来の固有表現の組抽出装置は、単に各固有表現間に存在する単語情報を素性として用いているので、例示したテキストのように第二文の主語、即ち「小泉首相は」が省略されている場合には、「小泉」という固有表現と「アメリカ」という固有表現との関係を判断するための情報が「首相は中国を訪れ、胡錦濤国家主席と会談する。その後」という文字列となる。この場合、第二文の主語が何であるかを適切に判別することができないことから、各固有表現間に関係があるか否かを判断することが困難であった。
本発明は前記問題点に鑑みてなされたものであり、その目的とするところは、個々の事例に応じて相互に関係する固有表現の組を抽出可能な装置及びその方法を提供することにある。
本発明の相互に関係する固有表現の組抽出装置は、前記目的を達成するために、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する装置であって、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する固有表現抽出処理部と、複数の助詞のそれぞれに対応する領域を有し、入力テキストに含まれる名詞句を、その名詞句に伴う助詞の対応領域に順に記憶する語句記憶部と、固有表現抽出処理部によって抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前記名詞句を入力テキストの文頭から順に読み出して語句記憶部に記憶するとともに、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、語句記憶部における他方の固有表現の格納状態を表す情報を取得して、該情報を少なくとも含む素性を抽出する素性抽出処理部と、素性抽出処理部によって抽出された素性、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果及び該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性に基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する判別処理部とを備えている。
また、本発明の相互に関係する固有表現の組抽出方法は、前記目的を達成するために、コンピュータを用いて、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する方法であって、前記コンピュータは、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する第1のステップと、複数の助詞のそれぞれに対応する領域を有する所定の語句記憶部に対して、入力テキストに含まれる名詞句を、該名詞句に伴う助詞の対応領域に順に記憶する第2のステップと、抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前記名詞句を入力テキストの文頭から順に読み出して第2のステップを行うとともに、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、語句記憶部における他方の固有表現の格納状態を表す情報を取得して、該情報を少なくとも含む素性を抽出する第3のステップと、抽出された素性、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果及び該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第3のステップを行うことにより抽出された事前素性に基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する第4のステップとを行っている。
これにより、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句が読み出されたときに、語句記憶部における他方の固有表現の格納状態を表す情報が素性に含まれ、該素性を用いて各固有表現間の関係が判別されることから、例えば、他方の固有表現を含む語句がどの助詞を伴っているか等の情報に基づいて各固有表現間に関係があるか否かを判別することが可能となる。
本発明の相互に関係する固有表現の組抽出装置及びその方法によれば、他方の固有表現を含む語句がどの助詞を伴っているか等の情報に基づいて各固有表現間に関係があるか否かを判別することができるので、例えば「小泉首相は中国を訪れ、胡錦濤国家主席と会談する。その後アメリカに渡りブッシュ大統領と会談を予定している。」というテキストにおいて、「小泉首相」という語句は「は」という助詞を伴っているという情報を用いて各固有表現間の関係を判別することができる。従って、他方の固有表現を含む語句が省略された文を用いた場合でも、省略された語句を判断して各固有表現間の関係を判別可能であることから、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。
図1乃至図7は本発明の第1の実施形態を示すもので、図1は固有表現の組抽出装置の構成図、図2は固有表現の組抽出処理のフロー図、図3は係り受け解析部による解析結果の概要を示す図、図4は基盤解析結果合成部による処理結果の概要を示す図、図5は固有表現間情報抽出部による処理結果の一例を示す図、図6は語句記憶部の構成を示す図、図7は省略情報抽出部による処理結果の一例を示す図である。
以下、図面を参照して本発明の相互に関係する固有表現の組抽出装置及びその方法の概要を説明する。
本発明の相互に関係する固有表現の組抽出装置(以下、抽出装置と称する。)は、周知のCPUを主体として構成されたコンピュータ装置からなり、モニタ等の表示手段、キーボード等の入力手段、ハードディスクやメモリ等の記憶手段及び外部ネットワークに接続可能な通信装置等(何れも図示省略)を備えている。また、本発明の抽出装置には、固有表現抽出処理部10、素性抽出処理部20、語句記憶部30、判別処理部40及びモデル記憶部50が設けられている。
固有表現抽出処理部10は、図1に示すように形態素解析部11、固有表現抽出部12、係り受け解析部13、基盤解析結果合成部14及び固有表現ペア生成部15からなり、入力手段を用いて入力されたテキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出するようになっている。
形態素解析部11は、入力テキストを取得すると(図2のステップS1)、入力テキストに対して周知の形態素解析処理を行うことにより入力テキストを単語分割し、分割した各単語に品詞を付与して出力する(図2のステップS2)。例えば、「小泉首相は中国を訪れ、胡錦濤国家主席と会談する。その後アメリカに渡りブッシュ大統領と会談を予定している。」というテキストが入力された場合には、形態素解析部11による処理結果は、「小泉(名詞)/首相(名詞)/は(助詞)/中国(名詞)/を(格助詞)/訪れ(動詞)/、(読点)/胡錦濤(名詞)/国家(名詞)/主席(名詞)/と(格助詞)/会談(動詞)/する(動詞)/。(句点)/その後(接続詞)/アメリカ(名詞)/に(格助詞)/渡り(動詞)/ブッシュ(名詞)/大統領(名詞)/と(格助詞)/会談(動詞)/を(格助詞)/予定(動詞)/し(動詞)/て(接続助詞)/いる(動詞)/。(句点)」となる。
固有表現抽出部12は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の固有表現抽出処理を行うことにより固有表現を抽出するとともに、抽出された固有表現に対して人名や地名等の固有表現の種類を付与した後に該固有表現を出力する(図2のステップS3)。ここで、例示した形態素解析済みの入力テキストが固有表現抽出部12に入力されると、「小泉(人名)」、「中国(地名)」、「胡錦濤(人名)」、「アメリカ(地名)」及び「ブッシュ(人名)」という情報が出力される。
係り受け解析部13は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の係り受け解析処理を行うことにより、該テキストを文節に分割し、分割された複数の文節間の係り受け関係を解析して出力する(図2のステップS4)。この場合、例示した入力テキストが係り受け解析部13によって解析されると、図3に示すような係り受け構造を表す情報(係り受け木)が解析結果として出力される。
基盤解析結果合成部14は、固有表現抽出部12から出力された情報と、係り受け解析部13から出力された情報とを合成する処理を行う(図2のステップS5)。具体的には、基盤解析結果合成部14は、固有表現抽出部12及び係り受け解析部13から情報を取得すると、各固有表現に対して固有表現を表すタグを付与する。例えば、「小泉」、「胡錦濤」及び「ブッシュ」の前後には人名を示す<PSN>というタグが付与され、「中国」と「アメリカ」の前後には地名を示す<LOC>というタグが付与される。この場合、解析結果合成部14の処理結果は図4のように示される。
固有表現ペア生成部15は、基盤解析結果合成部14の処理結果を取得すると、処理結果に含まれる全ての固有表現を組合わせることにより複数の固有表現の組(ペア)を生成する(図2のステップS6)。なお、本実施形態では、固有表現の組を、人名を表す固有表現と地名を表す固有表現の2つの固有表現から構成されるものとし、固有表現の組を「小泉:アメリカ」のように表記する。この場合、各固有表現のうちテキストにおいて先に出現する固有表現が前方固有表現として「:」の左側に表され、後に出現する固有表現が後方固有表現として「:」の右側に表される。なお、例示した入力テキストからは、「小泉:中国」、「小泉:アメリカ」、「中国:胡錦濤」、「胡錦濤:アメリカ」、「中国:ブッシュ」及び「アメリカ:ブッシュ」という6つの固有表現の組が出力される。
次に、素性抽出処理部20の概要を説明する。素性抽出処理部20は、固有表現間情報抽出部21と省略情報抽出部22からなり、固有表現ペア生成部15によって生成された複数の固有表現の組毎に、該組に含まれる各固有表現間の素性を抽出するようになっている(図2のステップS7)。
固有表現間情報抽出部21は、基盤解析結果合成部14の処理結果と、固有表現ペア生成部15によって生成された固有表現の組とを取得すると、入力テキストにおいて固有表現の組に対応する各固有表現間に存在する単語、該単語の数及び各固有表現間に存在する固有表現の数と、各固有表現のそれぞれを含む文節の係り先文節の単語及び品詞及び各固有表現が同一文節に存在するか否かを抽出する。ここで、固有表現間情報抽出部21の処理内容を具体的に説明する例として、図4に示した基盤解析結果合成部14の処理結果と、「小泉:アメリカ」という固有表現の組とを用いる。まず、入力テキストにおいて固有表現の組に対応する各固有表現間に存在する単語は図5に示すとおりであり、該単語数及び各固有表現間に存在する固有表現の数は、それぞれ「10」及び「2」である。また、「小泉/首相/は」という文節の係り先文節の単語及び品詞は、それぞれ「会談/する/。」及び「動詞/動詞/句点」であり、「アメリカ/に」という文節の係り先文節の単語及び品詞は、それぞれ「渡り」及び「動詞」である。さらに、各固有表現が同一文節に存在するか否かについては、「小泉」と「アメリカ」がそれぞれ異なる文節に含まれていることから、「No」となる。従って、固有表現間情報抽出部21の処理結果は図5のように示される。
なお、固有表現間情報抽出部21を、各固有表現を含む文節間の最短経路の距離も抽出するように構成してもよい。ここで、各固有表現を含む文節間の最短経路の距離とは、係り受け木における各固有表現を含む文節の最短経路の距離で表される。例えば、「小泉/首相/は」という文節と「中国/を」という文節についてみてみると、「小泉/首相/は」という文節は、「会談/する/。」及び「訪れ/、」という文節を介して「中国/を」という文節に到達し、他に到達する経路がないことから、各文節間の最短経路は「小泉/首相/は」→「会談/する/。」→「訪れ/、」→「中国/を」となる。従って、最短経路の距離は3となる。また、「小泉/首相/は」という文節と「アメリカ/で」という文節はそれぞれ異なる係り受け木に存在するので、最短経路を求めることができない。
省略情報抽出部22は、基盤解析結果合成部14の処理結果と、固有表現ペア生成部15によって生成された固有表現の組とを取得すると、入力テキストに含まれる名詞句を入力テキストの文頭から順に読み出し、読み出した名詞句を語句記憶部30に記憶する。また、省略情報抽出部22は、固有表現の組に対応する各固有表現のうち後方固有表現を含む語句を読み出したときに、語句記憶部30における前方固有表現の格納状態を表す情報を取得して、該情報を少なくとも含む素性を抽出する。
ここで、語句記憶部30の構成及び省略情報抽出部22の動作の詳細を、「小泉:アメリカ」という固有表現の組についての素性を抽出する例を用いて説明する。語句記憶部30は、図6に示すように複数の格助詞のそれぞれに対応する記憶領域を有し、名詞句を各記憶領域毎にスタック形式で記憶するようになっている。各記憶領域は、主語として用いられる可能性が高い格助詞の順に区画されており、本実施形態では「は」という格助詞を最上位の格助詞として用いている。また、語句記憶部30は、新たに記憶される名詞句が、その名詞句に対応する記憶領域において最上位に記憶されるようになっている。
省略情報抽出部22は、入力テキストから「小泉首相」という名詞句を読み出すと、図6(a)に示すように、語句記憶部30において該名詞句に伴う格助詞「は」に対応する記憶領域の1番目のレコードとして「小泉首相」という名詞句を記憶する。次に、省略情報抽出部22は、「中国」という名詞句を読み出すと、図6(b)に示すように、語句記憶部30において該名詞句に伴う格助詞「を」に対応する記憶領域の1番目のレコードとして「中国」という名詞句を記憶する。さらに、省略情報抽出部22は、入力テキストから「胡錦濤国家主席」という名詞句を読み出すと、図6(c)に示すように、語句記憶部30において該名詞句に伴う格助詞「と」に対応する記憶領域(この場合、「他」として区画された領域)の1番目のレコードとして「胡錦濤国家主席」という名詞句を記憶する。
そして、省略情報抽出部22は、後方固有表現「アメリカ」を読み出すと、前方固有表現「小泉」が語句記憶部30に存在するか否か、前方固有表現「小泉」がどの格助詞と対応する領域に記憶されているか、その領域の何番目のレコードとして記憶されているか、前方固有表現「小泉」が最上位の格助詞に対応する領域に記憶されているか否か及び後方固有表現から前方固有表現までの経路を、語句記憶部30における前方固有表現「小泉」の格納状態を表す情報として取得する。まず、前方固有表現「小泉」が語句記憶部30に存在するかについては、図6より「Yes」となる。また、前方固有表現「小泉」は、格助詞「は」に対応する領域に記憶されている。さらに、前方固有表現「小泉」は、格助詞「は」に対応する領域の1番目のレコードに記憶されている。さらにまた、格助詞「は」は、最上位の格助詞として用いられているので、前方固有表現「小泉」が最上位の格助詞に対応する領域に記憶されているか否かについては「Yes」となる。また、後方固有表現から前方固有表現までの経路とは、後方固有表現に、前方固有表現が格納された記憶領域に対応する格助詞と、前方固有表現を含む単語とを組み合わせた情報であり、「アメリカ→は→小泉首相」となる。従って、上記の例を用いた場合の省略情報抽出部22の処理結果は図7のように示される。なお、後方固有表現から前方固有表現までの経路に固有表現を表すタグを付加してもよい。この場合、「<LOC>アメリカ</LOC>→は→<PSN>小泉</PSN>首相」という情報が素性として抽出される。
次に、判別処理部40の概要を説明する。判別処理部40は、モデル選択部41、分類器42及び固有表現ペア出力部43からなり、素性抽出処理部20から取得した素性等に基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別するようになっている。
モデル選択部41は、固有表現の組毎に固有表現間情報抽出部21及び省略情報抽出部22の処理結果を取得すると、基盤解析結果合成部14によって付与されたタグに基づいて固有表現の組を分類するとともに、後述の分類器42によって抽出されるモデルの種類を選択する(図2のステップS8)。例えば、「小泉:アメリカ」という固有表現の組が入力された場合には、モデル選択部41は固有表現の組を「人名:地名」という種類に分類し、素性抽出処理部20から取得した素性とともに固有表現の組の種類を出力する。
分類器42は、モデル選択部41から出力された情報を取得すると、モデル選択部41で選択された固有表現の組の種類に基づいて、複数のモデルが記憶されたモデル記憶部50からモデルを抽出し、抽出したモデルを用いて固有表現の組に対応する各固有表現間に関係があるか否かを判別する(図2のステップS9)。
ここで、モデルは、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて固有表現抽出処理部10及び素性抽出処理部20から事前に抽出された情報とを用いて周知の機械学習を行うことにより予め生成されている。また、所定の固有表現の組についての判別結果は人的な判断に基づいて事前になされている。なお、各モデルを、例えば「人名:地名」や「人名:人名」等のように固有表現の組の種類に応じて構成してもよいし、種類を区別することなく構成してもよい。
この場合、分類器42による判別には、省略情報抽出部22から取得した情報も利用されていることから、例えば「小泉:アメリカ」という固有表現の組について関係があるか否かを判別する場合には、前方固有表現「小泉」を含む名詞句に「は」という格助詞が伴っているという情報を利用することができる。
なお、分類器42は、関係あるか否かという判定結果の他に関係度を表す数値を出力するように構成してもよい。また、機械学習としては、周知のものを用いることが可能であるが、木構造やグラフ構造のデータを直接入力して学習可能に構成されたものを用いることが望ましい。
固有表現ペア出力部43は、各固有表現間に関係があると分類器42によって判別された固有表現の組を表示手段に出力する(図2のステップS10)。なお、分類器42が関係度を表す数値を出力するようになっている場合には、固有表現ペア出力部43は、関係度が予め設定された所定の閾値より大きいときにのみ固有表現の組を出力するようにしてもよい。
前述したように上記実施形態では、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出した後に、抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、入力テキストに含まれる名詞句を、その名詞句に伴う助詞にそれぞれ対応する領域を有する語句記憶部に順に記憶するとともに、固有表現の組に対応する各固有表現のうち後方固有表現を含む語句を読み出したときに語句記憶部における前方固有表現の格納状態を表す情報を取得して、該情報を少なくとも含む素性を抽出し、抽出された素性と、モデル記憶部50のモデル即ち所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果及び該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に抽出された素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別するので、前方固有表現を含む語句がどの格助詞を伴っているか等の情報に基づいて各固有表現間に関係があるか否かを判別することができ、例えば「小泉首相は中国を訪れ、胡錦濤国家主席と会談する。その後アメリカに渡りブッシュ大統領と会談を予定している。」というテキストにおいて、「小泉首相」という名詞句は「は」という格助詞を伴っているという情報を用いて各固有表現間の関係を判別することができる。従って、前方固有表現を含む語句が省略された文を用いた場合でも、省略された語句を判断して各固有表現間の関係を判別可能であることから、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。
また、固有表現の組に対応する各固有表現のうち後方固有表現を含む語句を読み出したときに、前方固有表現を含む語句が語句記憶部30に記憶されているか否かを表す情報を少なくとも含む情報を素性として抽出するので、前方固有表現を含む語句が省略された文を用いた場合でも、省略された語句を判断して各固有表現間の関係を判別可能であることから、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。
さらに、固有表現の組に対応する各固有表現のうち後方固有表現を含む語句を読み出したときに、語句記憶部30において前方固有表現を含む語句が記憶された領域に対応する格助詞を少なくとも含む情報を素性として抽出するので、前方固有表現を含む語句が省略された文を用いた場合でも、省略された語句を判断して各固有表現間の関係を判別可能であることから、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。
さらにまた、固有表現の組に対応する各固有表現のうち後方固有表現を含む語句を読み出したときに、前方固有表現を含む語句が記憶された領域に対応する格助詞が、語句記憶部30の領域に対応する格助詞のうち主語として最も用いられる格助詞であるか否かを表す情報を少なくとも含む情報を素性として抽出するので、前方固有表現を含む語句が主語として省略された文を用いた場合でも、省略された主語を判断して各固有表現間の関係を判別可能であることから、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。
また、固有表現の組に対応する各固有表現のうち後方固有表現を含む語句を読み出したときに、各固有表現のそれぞれを含む語句と、語句記憶部30において前方固有表現が記憶された領域に対応する格助詞とを組み合わせた情報を少なくとも含む情報を素性として抽出するので、省略された語句を判断して各固有表現間の関係を判別可能であることから、個々の事例に応じて相互に関係する固有表現の組を抽出することができる。
以下に本発明の第2の実施形態に係る抽出装置について説明する。本実施形態が第1の実施形態と異なる点は、固有表現の組に含まれる各固有表現間の関係の有無が判別処理部40によって判別される毎に判別結果を記憶する判別結果記憶部60を備え、判別処理部40を、固有表現の組に対応する素性が抽出されると判別結果記憶部60に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別するように構成した点にある。他の構成及び動作については第1の実施形態と同様なので、ここでは相違点のみを図8乃至図12を参照して説明する。
本実施形態の素性抽出処理部20は、固有表現抽出処理部10の固有表現ペア生成部15によって生成された固有表現の組の並び替えを行う固有表現ペア並び替え部23を有している。
また、本実施形態の判別処理部40は、分類器42によって判別された各固有表現間の関係の有無についての結果を判別結果記憶部60に記憶するとともに、判別結果記憶部60に記憶された判別結果を取得する判別結果取得部44を有している。
本実施形態の抽出装置について、素性抽出処理部20及び判別処理部40の動作を第1の実施形態において例示した入力テキスト及び図9のフローを用いて説明する。なお、各固有表現には、入力テキストにおける出現順に固有表現IDが付与されている。例えば、「小泉」、「中国」、「胡錦濤」、「アメリカ」及び「ブッシュ」には、それぞれ「ID1」、「ID2」、「ID3」、「ID4」及び「ID5」という固有表現IDが付与される。また、判別結果記憶部60には、当初何も記憶されていない。
まず、固有表現の組が図10に示される順で固有表現抽出処理部10の固有表現ペア生成部15から出力されると、固有表現ペア並び替え部23は、固有表現の組を並び替え規則に基づいて並び替える(ステップS11)。ここで、本実施形態では、「固有表現IDの絶対値差分が小さい順に並び替え、絶対値差分が等しい場合には、固有表現IDの和が小さい順に並び替える。」という並び替え規則を用いている。また、固有表現IDの絶対値差分及び和は図11のように示されている。これにより、固有表現の組は図12に示すように並び替えられる。
次に、固有表現間情報抽出部21及び省略情報抽出部22は、並び替えられた固有表現の組から先頭の固有表現の組(「ID1−ID2」)を処理対象として抽出し(ステップS12)、処理対象の固有表現の組について素性抽出処理を行う(ステップS13)。なお、素性抽出処理の内容は第1の実施形態と同様である。
次いで、判別処理部40の判別結果取得部44は、判別結果記憶部60に判別結果が記憶されているか否か判別し(ステップS14)、判別結果が記憶されている場合には判別結果記憶部60に記憶されている全ての判別結果を取得する(ステップS15)。なお、処理対象が「ID1−ID2」であるときには、判別結果記憶部60に何も記憶されていないので、ステップS16に処理が移行する。
そして、モデル選択部41が固有表現の組を分類すると(ステップS16)、分類器42は、固有表現の組に対応する各固有表現間の関係の有無を判別するとともに(ステップS17)、判別結果を固有表現ペア出力部43に出力する(ステップS18)。なお、固有表現ペア出力部43は、各固有表現間に関係があると分類器42によって判別された場合には、固有表現の組を表示手段に出力する。そして、判別結果取得部44は、処理対象として抽出されていない固有表現の組が存在する場合には、固有表現の組とその関係の判別結果を判別結果記憶部60に記憶してステップS12の処理に移行させる(ステップS19,S20)。この場合、次の処理対象は並び替えられた順に従う。
なお、上記ステップS15では、判別結果記憶部60から全ての判別結果が取得されるようになっているが、固有表現の組に関連する判別結果のみを取得することも可能であり、その取得方法を以下に3つ示す。
まず、第1の方法として、処理対象の固有表現の組に対応する固有表現IDと同一の固有表現IDを有する固有表現の組の判別結果を判別結果記憶部60から取得する。例えば、処理対象の固有表現の組が「ID1−ID5」であった場合には、既に判別された固有表現の組のうち「ID1−ID2」、「ID4−ID5」、「ID1−ID3」、「ID3−ID5」、「ID1−ID4」及び「ID2−ID5」に対応する判別結果が取得される。
また、第2の方法として、処理対象の固有表現の組に対応する各固有表現ID間に存在する固有表現IDを有する固有表現の組の判別結果を判別結果記憶部60から取得する。例えば、処理対象の固有表現の組が「ID1−ID5」であった場合には、各固有表現ID間に存在する固有表現IDは「ID2」、「ID3」及び「ID4」となる。従って、既に判別された固有表現の組のうち「ID1−ID2」、「ID2−ID3」、「ID3−ID4」、「ID4−ID5」、「ID1−ID3」、「ID2−ID4」、「ID3−ID5」、「ID1−ID4」及び「ID2−ID5」に対応する判別結果が取得される。
さらに、第3の方法として、係り受け木において処理対象の固有表現の組に対応する各固有表現間の最短経路を抽出し、その最短経路上に存在する固有表現を含む固有表現の組の判別結果を判別結果記憶部60から取得する。例えば、処理対象の固有表現の組が「ID1−ID5」であった場合には、「小泉」を含む文節と「アメリカ」を含む文節との間には図3の係り受け木における最短経路が存在しないので、判別結果が取得されない。
なお、3つの方法を組み合わせて判別結果を取得するように構成してもよい。
また、判別結果が判別結果記憶部60から取得された場合には、分類器42は、上記フローのステップS17において、取得した判別結果、各固有表現間の素性及びモデル記憶部50から取得したモデルに基づいて、各固有表現間に関係があるか否かを判別する。
このように上記実施形態では、固有表現の組に対応する各固有表現間の関係の有無が判別される毎に、判別結果を判別結果記憶部60に記憶し、固有表現の組に対応する素性が抽出されると判別結果記憶部60に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に抽出された素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別するので、判別対象となる固有表現の組に関連する固有表現の組の判別結果を容易に利用することができる。
なお、上記第1及び第2の実施形態は本発明の具体例に過ぎず、本発明が上記実施形態のみに限定されることはない。例えば、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1や図8の構成図に示された機能を実現するプログラムあるいは図2や図9のフローに示された手順を備えるプログラムをインストールすることによっても実現可能である。
また、上記実施形態では、固有表現間情報抽出部21が図5に示した素性を出力するものを示したが、図13に示すように各固有表現を含む文節内の固有表現以外の単語や、その単語の品詞を素性に含めて出力させてもよい。この場合、固有表現として用いることのない「日本文化」という単語に対して「日本」のみが地名を表す固有表現として抽出され、他の固有表現との関係の有無について判別されることを防止することができる。
さらに、固有表現間情報抽出部21を、図14に示すように各固有表現の直後に名詞句があるか否かを素性に含めて出力させてもよい。この場合、前記と同様に「日本文化」という単語に対して「日本」のみが地名を表す固有表現として抽出され、他の固有表現との関係の有無について判別されることを防止することができる。
さらにまた、固有表現間情報抽出部21を、図15に示すように各固有表現の間に存在する他の固有表現が各固有表現の一方と同一表記もしくは部分表記であるか否かを素性に含めて出力させてもよい。この場合、関係の判別対象となる固有表現が誤って抽出されることを防止することができる。
本発明の第1の実施形態における固有表現の組抽出装置の構成図 固有表現の組抽出処理のフロー図 係り受け解析部による解析結果の概要を示す図 基盤解析結果合成部による処理結果の概要を示す図 固有表現間情報抽出部による処理結果の一例を示す図 語句記憶部の構成を示す図 省略情報抽出部による処理結果の一例を示す図 本発明の第2の実施形態における固有表現の組抽出装置の構成図 素性抽出処理部及び判別処理部の動作を示すフロー図 処理対象リストを示す図 固有表現IDの絶対値差分及び和を示す図 並び替え処理後の処理対象リストを示す図 固有表現間情報抽出部による処理結果の変形例を示す図 固有表現間情報抽出部による処理結果の変形例を示す図 固有表現間情報抽出部による処理結果の変形例を示す図
符号の説明
10…固有表現抽出処理部、11…形態素解析部、20…素性抽出処理部、22…省略情報抽出部、30…語句記憶部、40…判別処理部、42…分類器、60…判別結果記憶部。

Claims (12)

  1. 相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する装置であって、
    テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する固有表現抽出処理部と、
    複数の助詞のそれぞれに対応する領域を有し、入力テキストに含まれる名詞句を、その名詞句に伴う助詞の対応領域に順に記憶する語句記憶部と、
    固有表現抽出処理部によって抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前記名詞句を入力テキストの文頭から順に読み出して語句記憶部に記憶するとともに、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、語句記憶部における他方の固有表現の格納状態を表す情報を取得して、該情報を少なくとも含む素性を抽出する素性抽出処理部と、
    素性抽出処理部によって抽出された素性、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果及び該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性に基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する判別処理部とを備えた
    ことを特徴とする相互に関係する固有表現の組抽出装置。
  2. 前記素性抽出処理部は、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、他方の固有表現を含む語句が語句記憶部に記憶されているか否かを表す情報を少なくとも含む情報を素性として抽出する
    ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。
  3. 前記素性抽出処理部は、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、語句記憶部において他方の固有表現を含む語句が記憶された領域に対応する助詞を少なくとも含む情報を素性として抽出する
    ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。
  4. 前記素性抽出処理部は、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、他方の固有表現を含む語句が記憶された領域に対応する助詞が、語句記憶部の領域に対応する各助詞のうち主語として最も用いられる助詞であるか否かを表す情報を少なくとも含む情報を素性として抽出する
    ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。
  5. 前記素性抽出処理部は、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、各固有表現のそれぞれを含む語句と、語句記憶部において他方の固有表現が記憶された領域に対応する助詞とを組み合わせた情報を少なくとも含む情報を素性として抽出する
    ことを特徴とする請求項1記載の相互に関係する固有表現の組抽出装置。
  6. 前記各固有表現の組に含まれる各固有表現間の関係の有無が判別処理部によって判別される毎に判別結果を記憶する判別結果記憶部を備え、
    判別処理部は、固有表現の組に対応する素性が素性抽出処理部によって抽出されると判別結果記憶部に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて素性抽出処理部から事前に抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別する
    ことを特徴とする請求項1乃至5何れか1項記載の相互に関係する固有表現の組抽出装置。
  7. コンピュータを用いて、相互に関係する複数の固有表現からなる固有表現の組を入力テキストから抽出する方法であって、
    前記コンピュータは、テキストが入力されると、入力テキストを形態素解析して該入力テキストに含まれる複数の固有表現を抽出する第1のステップと、
    複数の助詞のそれぞれに対応する領域を有する所定の語句記憶部に対して、入力テキストに含まれる名詞句を、該名詞句に伴う助詞の対応領域に順に記憶する第2のステップと、
    抽出された各固有表現を組み合せてなる複数の固有表現の組毎に、前記名詞句を入力テキストの文頭から順に読み出して第2のステップを行うとともに、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、語句記憶部における他方の固有表現の格納状態を表す情報を取得して、該情報を少なくとも含む素性を抽出する第3のステップと、
    抽出された素性、所定の固有表現の組に対応する各固有表現間の関係の有無について事前に判別された結果及び該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第3のステップを行うことにより抽出された事前素性に基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを固有表現の組毎に判別する第4のステップとを行う
    ことを特徴とする相互に関係する固有表現の組抽出方法。
  8. 前記コンピュータは、第3のステップにおいて、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、他方の固有表現を含む語句が語句記憶部に記憶されているか否かを表す情報を少なくとも含む情報を素性として抽出する
    ことを特徴とする請求項7記載の相互に関係する固有表現の組抽出方法。
  9. 前記コンピュータは、第3のステップにおいて、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、語句記憶部において他方の固有表現を含む語句が記憶された領域に対応する助詞を少なくとも含む情報を素性として抽出する
    ことを特徴とする請求項7記載の相互に関係する固有表現の組抽出方法。
  10. 前記コンピュータは、第3のステップにおいて、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、他方の固有表現を含む語句が記憶された領域に対応する助詞が、語句記憶部の領域に対応する各助詞のうち主語として最も用いられる助詞であるか否かを表す情報を少なくとも含む情報を素性として抽出する
    ことを特徴とする請求項7記載の相互に関係する固有表現の組抽出方法。
  11. 前記コンピュータは、第3のステップにおいて、固有表現の組に対応する各固有表現のうち入力テキストにおいて後に現れる一方の固有表現を含む語句を読み出したときに、各固有表現のそれぞれを含む語句と、語句記憶部において他方の固有表現が記憶された領域に対応する助詞とを組み合わせた情報を少なくとも含む情報を素性として抽出する
    ことを特徴とする請求項7記載の相互に関係する固有表現の組抽出方法。
  12. 前記コンピュータは、第4のステップにおいて各固有表現の組に対応する各固有表現間の関係の有無が判別される毎に、判別結果を所定の判別結果記憶部に記憶する第5のステップを行い、
    第4のステップにおいて、固有表現の組に対応する素性が抽出されると判別結果記憶部に記憶された判別結果を取得し、該判別結果と、抽出された素性と、所定の固有表現の組に対応する各固有表現の関係の有無について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて事前に第3のステップを行うことにより抽出された事前素性とに基づいて、固有表現の組に対応する各固有表現間に関係があるか否かを判別する
    ことを特徴とする請求項7乃至11何れか1項記載の相互に関係する固有表現の組抽出方法。
JP2007058771A 2007-03-08 2007-03-08 相互に関係する固有表現の組抽出装置及びその方法 Active JP4793932B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007058771A JP4793932B2 (ja) 2007-03-08 2007-03-08 相互に関係する固有表現の組抽出装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007058771A JP4793932B2 (ja) 2007-03-08 2007-03-08 相互に関係する固有表現の組抽出装置及びその方法

Publications (2)

Publication Number Publication Date
JP2008225561A true JP2008225561A (ja) 2008-09-25
JP4793932B2 JP4793932B2 (ja) 2011-10-12

Family

ID=39844155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007058771A Active JP4793932B2 (ja) 2007-03-08 2007-03-08 相互に関係する固有表現の組抽出装置及びその方法

Country Status (1)

Country Link
JP (1) JP4793932B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257791A (ja) * 2010-06-04 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法及びプログラム
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004458A (ja) * 2005-06-23 2007-01-11 National Institute Of Information & Communication Technology 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004458A (ja) * 2005-06-23 2007-01-11 National Institute Of Information & Communication Technology 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257791A (ja) * 2010-06-04 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法及びプログラム
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
US9558462B2 (en) 2013-08-12 2017-01-31 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes

Also Published As

Publication number Publication date
JP4793932B2 (ja) 2011-10-12

Similar Documents

Publication Publication Date Title
JP5229226B2 (ja) 情報共有システム、情報共有方法、および情報共有プログラム
CN111597351A (zh) 可视化文档图谱构建方法
JP2002215617A (ja) 品詞タグ付けをする方法
RU2601166C2 (ru) Разрешение анафоры на основе технологии глубинного анализа
JP4600045B2 (ja) 意見抽出用学習装置及び意見抽出用分類装置
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
JP2020035036A (ja) 試験計画策定支援装置、試験計画策定支援方法及びプログラム
JP6239344B2 (ja) テキスト処理装置、テキスト処理方法およびプログラム
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP4793931B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
JP4793932B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
CN114970543A (zh) 一种众包设计资源的语义分析方法
JP2008225565A (ja) 相互に関係する固有表現の組抽出装置及びその方法
CN114299525A (zh) 图片处理方法、装置及电子设备
JP4646078B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
JP4646328B2 (ja) 関係情報抽出装置及びその方法
JP5142395B2 (ja) 関係情報抽出装置、その方法、プログラム及び記録媒体
JP5441174B2 (ja) 関係情報抽出装置、その方法及びプログラム
JP5441173B2 (ja) 関係情報抽出装置、その方法及びプログラム
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP2009140048A (ja) 評判関係抽出装置、その方法およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110720

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110722

R150 Certificate of patent or registration of utility model

Ref document number: 4793932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350