JP2009015796A

JP2009015796A - テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体

Info

Publication number: JP2009015796A
Application number: JP2007180312A
Authority: JP
Inventors: Naoto Abe; 直人阿部; Toshiro Uchiyama; 俊郎内山; Tadashi Uchiyama; 匡内山; Yasuhisa Kato; 泰久加藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-07-09
Filing date: 2007-07-09
Publication date: 2009-01-22
Anticipated expiration: 2027-07-09
Also published as: JP4873739B2

Abstract

【課題】学習データを必要とせずに、トピックを得ることができ、しかも、極めて広い範囲からトピックを得ることができ、常に安定したトピック推定精度を得ることができるテキストの多重トピック抽出装置を提供することを目的とする。
【解決手段】入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部とを有するテキストの多重トピック抽出装置である。
【選択図】図２

Description

本発明は、テキストを計算機上で利用する分野において、テキストに記述されている複数の内容（トピック）を自動的に抽出する技術に関する。

近年、急速な計算機の性能向上に伴い莫大なテキスト（ここでは、文字列だけで構成される文の集合）を蓄積し、データベースを構築することが可能である。一方、保存されているテキストを人手で整理・管理することは、一般的に困難となりつつある。そこで、データベースに格納されているテキストを解析し、テキストに書かれている内容を自動的に判定する研究が行われている。たとえば、テキストの内容に基づいて、複数の分野を同時に判定する（たとえば、政治と経済の内容が書かれていると判定する）多重トピック抽出技術が提案されている(たとえば、特許文献１および非特許文献１参照)。

上記従来例技術では、多重トピック抽出を行う場合、事前に学習データを作成する必要がある。上記「学習データ」は、単語と、この単語に対応する分野との組が、複数個記述されているデータである。また、「スポーツ」や「政治」等の分類名を与える単語を予め決めておく。従来の多重トピック抽出技術では、学習データを大量に作成することによって、トピック抽出の精度を向上させ、また、幅広い分野へ対応できるようにしている。
特開２００４−０４６６２１号公報 Hearst, M.A., : Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16(1994)

しかし、上記従来例において、学習データに含まれていない分野のテキストについては、トピックを適切に抽出することができないという問題がある。たとえば、学習データに「政治」や「経済」に関する情報が蓄積されている場合、「スポーツ」の分野のテキストについては、トピックを抽出することが困難である。また、予め決められている分類名を使用して、トピックを出力するので、入力されたテキストに、必ずしも適切な分類名が付与されるとは限らないという問題がある。

本発明は、学習データを必要とせずに、トピックを得ることができ、しかも、極めて広い範囲からトピックを得ることができ、常に安定したトピック推定精度を得ることができるテキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体を提供することを目的とする。

本発明は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部とを有するテキストの多重トピック抽出装置である。

本発明によれば、テキストから多重トピックを抽出する場合、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がなく、しかも、極めて広い範囲からトピック名称を得ることができ、常に安定したトピック推定精度を得ることができるという効果を奏する。

発明を実施するための最良の形態は、以下の実施例である。

図１は、本発明の実施例１であるテキストの多重トピック抽出装置１００を示すブロック図である。

テキストの多重トピック抽出装置１００は、入力したテキストに基づいてウェブ検索し、このウェブ検索されたテキストから、多重トピックを抽出する装置であり、コンピュータで構成されている。

上記「トピック」は、テキストＴ１の内容を代表する名詞である。上記実施例では、トピック抽出部４が作成したキーワード集合から、トピックを抽出する。具体的には、複数のキーワード集合において共通して現われる単語をトピックとして抽出する。また、上記「多重トピック」は、複数のトピックという意味であり、後述の図９に示すように、テキストＴ１に２つのブロックが記載され、この場合、２つのブロックのそれぞれにトピックが存在している。つまり、「多重トピック」は、１つのテキストに複数のブロックが記載されている場合、上記複数のブロックのそれぞれにトピックが存在していることである。

また、テキストの多重トピック抽出装置１００は、コンピュータ上でテキスト（各種記事や物語等の文章）中の各文の意味内容を推定し、上記テキストに含まれている複数のトピックを抽出する装置である。

テキストの多重トピック抽出装置１００は、テキスト分解部１と、検索語抽出部２と、関連語取得部３と、トピック抽出部４と、分解文章記憶部Ｍ１と、検索語記憶部Ｍ２と、関連語記憶部Ｍ３と、抽出トピック記憶部Ｍ４と、入力部５と、制御部６と、出力部７とを有する。

テキスト分解部１は、入力したテキストＴ１を、文単位に分解する。

検索語抽出部２は、テキスト分解部１が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する。

関連語取得部３は、検索語抽出部２が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する。

トピック抽出部４は、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出する。

上記「複数のキーワード集合に共通して現われる単語」は、たとえば、後述の図８に示すキーワード集合５１〜５５において、「ゴルフ」や「ボール」という単語が共通して現われている単語である。この共通して現れる単語を、テキストのトピックを表す単語とみなす。

入力部５は、テキストＴ１を入力する。制御部６は、テキストの多重トピック抽出装置１００の全体を制御する。

出力部７は、トピック抽出部４が抽出したテキストを出力する。分解文章記憶部Ｍ１は、テキスト分割部１が分割した文を記憶する。検索語記憶部Ｍ２は、検索語抽出部２が抽出した検索語を記憶する。関連語記憶部Ｍ３は、関連語取得部３が取得した関連語を記憶する。抽出トピック記憶部Ｍ４は、トピック抽出部４が抽出したトピックを格納する。

テキストの多重トピック抽出装置１００に、ネットワークＮＷ１が接続され、ウェブＷ１に、アクセスすることができる。

ウェブＷ１には、複数のＨＴＭＬやＸＭＬ等の構造化言語で記述されているテキストが蓄積されている。テキストＴ２は、ウェブＷ１からウェブ検索によって収集されているテキストであって、構造化言語で記述されているテキストである。テキストＴ１は、テキストの多重トピック抽出装置１００の入力部５に入力されるテキストである。

表示部Ｄ１は、出力部７を介して、制御部６が出力し結果を表示する装置である。

次に、テキストの多重トピック抽出装置１００の動作について説明する。

図２は、テキストの多重トピック抽出装置１００における処理手順の概要を示す図である。

Ｓ１で、テキストから多重トピックを抽出する対象であるテキストＴ１を入力する。このテキストが「入力したテキスト」Ｔ１である。Ｓ２で、テキスト分解部１が、入力したテキストＴ１を、文単位に分割する。Ｓ３で、分割された文から、名詞を抽出し、この抽出された名詞を検索語として使用する。Ｓ４で、検索語を用いて、ウェブ上で検索し、この検索されたテキストＴ２に含まれている名詞を関連語として使用する。

Ｓ５で、検索語と関連語とを組にしてキーワード集合を作り、このキーワード集合に基づいて、入力したテキストＴ１から、トピックを抽出する。Ｓ６で、トピック抽出結果を出力する。

次に、テキストから多重トピックを抽出する処理手順を、より具体的に説明する。

まず、入力部５を通じて、テキストＴ１を入力すると、制御部６が、テキスト分解部１を呼び出し、テキスト分解部１が、テキストＴ１を１文字ずつ読み込み、文単位で切り出し、Ｎ個の文を得る。そして、切り出されたＮ個の文を、制御部６が、分解文章記憶部Ｍ１に格納する。ここで、「文」は、句点「。」で区切られている一文である。

図３は、本発明の実施例１において、入力したテキストＴ１の一例を示す図である。

図４は、実施例１における分解文章記憶部Ｍ１に格納されている文の一例を示す図である。

テキストＴ１は、１番目の文１１と、２番目の文１２と、３番目の文１３と、４番目の文１４と、５番目の文１５と、６番目の文１６と、７番目の文１７と、８番目の文１８と、９番目の文１９とを有する。

図３に示すテキストＴ１を、テキスト分解部１が分解し、図４に示すように、文単位に分解された９つの文１１〜１９が生成され、分解文章記憶部Ｍ１に格納される。

テキスト分解部１が生成した文の個数は、入力したテキストＴ１によって異なる。また、意味的に複数に続く文である（句点「。」を使用せずに、複数の文が続く）場合や、句点「。」の入力ミスがある場合には、複数の文が１つの文として扱われる。

次に、制御部６が、分解文章記憶部Ｍ１に格納されている各文から、検索語抽出部２に検索語を抽出させる。ここで、「検索語」は、ウェブ上で検索を行う際に入力する１つまたは複数の名詞である。検索語抽出部２は、最初に入力された文に、形態素解析を行う。そして、形態素解析によって名詞に分類された複数の単語を、検索語として取り出す。この取り出された検索語を、制御部６が、検索語記憶部Ｍ２に格納する。ただし、名詞を取り出すだけでは、「年」や「時」のように、一般的に使用される単語（検索語として意味がない単語）も抽出される。そこで、「年」や「時」等の不要語からなるリストである不要語リストＬ１を予め作成し、不要語リストＬ１に登録されていない名詞を検索語として扱う。

図５は、実施例１における不要語リストＬ１の一例を示す図である。

不要語リストＬ１には、不要単語が登録されている。

検索語記憶部Ｍ２に格納されている検索語は、不要語リストＬ１によって変わる。

また、ウェブ検索を行う際、適切な個数の単語でＡＮＤ検索をすることが好ましい。そこで、名詞として抽出された単語の個数が、閾値Ｓ_Ｔ未満である場合、検索語抽出部２は、検索語を抽出せず、検索語記憶部Ｍ２には、何も単語を格納しない。

逆に、名詞の個数Ｓが閾値Ｔ以上である場合、Ｓ個の検索語からＴ個の検索語をランダムに選択し、検索語記憶部Ｍ２に格納する。Ｔ＝１０、Ｓ_Ｔ＝２である場合、検索語抽出部２が検索語を抽出すると、検索語が、検索語記憶部Ｍ２に格納される。

図６は、実施例１において、検索語記憶部Ｍ２に格納されている検索語の一例を示す図である。

検索語記憶部Ｍ２に格納されている検索語は、文１１に対応する検索語２１と、文１２に対応する検索語２２と、文１３に対応する検索語２３と、文１４に対応する検索語２４と、文１５に対応する検索語２５と、文１６に対応する検索語２６と、文１７に対応する検索語２７と、文１８に対応する検索語２８と、文１９に対応する検索語２９とである。

文１１〜１８に対応する検索語２１〜２９を作成した後に、制御部６が、関連語取得部３を呼び出す。制御部６を介して、検索語抽出部２が抽出した検索語を、検索語記憶部Ｍ２から取り出し、関連語取得部３に入力する。

関連語取得部３に入力された検索語を用い、ネットワークＮＷ１を介して接続されているウェブＷ１上でＡＮＤ検索する。ＡＮＤ検索することによって、検索語が全て含まれているテキストをウェブＷ１で検索することができる。ここで、ウェブＷ１で検索を行う際、検索結果は、検索語が入力された順序に影響しない。

そして、検索されたテキストが作成された時期と、入力したテキストＴ１が作成された時期との差が少ない順に、検索されたテキストの中から、Ｐ個のテキストＴ２を取得する。ウェブＷ１に存在しているテキストには、通常、それが作成された日付が記録されているので、テキストＴ１が作成された日付との時間的な差を求めることができる。この時間的な差が少ないテキストを取得することによって、テキストＴ１との間で、より強く関連する記事（テキスト）を、ウェブＷ１から収集することができる。

ここで、検索語記憶部Ｍ２に、検索語が存在しなければ、関連語取得部３がウェブ検索をせず、関連語記憶部Ｍ３に、何も格納しない。また、検索語の個数ＳがＴと同じである場合、ウェブ検索を行わず、関連語記憶部Ｍ３に関連語を格納しない。

次に、時間順に収集されたＰ個のテキストＴ２から、本文のテキストを抽出する。テキストＴ２はＨＴＭＬやＸＭＬ等の構造化言語で記述されているので、テキストＴ２内において本文の場所を示すタグ（タグは、「＜」と、「＞」と、これらによって囲まれている文字列とで構成されている）が付与されている。したがって、得られたテキストＴ２について、タグを解析することによって、テキストＴ２から本文のテキストを抽出することができる。

そして、抽出された本文のテキストに、関連語取得部３が、形態素解析し、名詞を抽出する。ウェブ検索されたテキストＴ２に含まれている名詞が、関連語である。関連語の個数は、ウェブ検索した場合における検索語や、収集されたテキストＴ２の個数によって変わる。

また、形態素解析によって抽出された名詞を全て関連語として使用すると、検索語抽出部２が抽出した場合と同様に、「年」や「月」等、普遍的に使用される単語が関連語として扱われる場合がある。そこで、関連語取得部３では、検索語抽出部２における処理と同様に、不要語リストＬ１を参照し、不要語を除く。そして、検索語がＳ個である場合、Ｐ個の本文のテキストから抽出した単語のうちで、出現頻度の高い順に、Ｔ−Ｓ個の単語を関連語とする。

なお、Ｔは、予め与えられている数である。Ｓは、検索語の数である。上記Ｔ−Ｓ個の関連語を、制御部６を介して、関連語記憶部Ｍ３に格納する。つまり、各文において抽出された検索語と関連語との合計個数は、予め与えられた値Ｔになるようにする。このように、各文において抽出された検索語と関連語との合計個数を予め与えられた値Ｔになるようにするのは、どの文についても、連結性を平等に評価するためである。

適切な関連語を得るためには、ウェブ検索で得られたテキストＴ２の数が、できるだけ多いことが望ましい。そこで、ウェブ検索によって得られたテキストＴ２の個数Ｐが、目標の個数であるＰ_Ｔ未満であれば、検索語を修正し、ウェブ上で再びＡＮＤ検索し、テキストＴ２を収集する。

検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、再びテキストＴ２をＰ個検索し、収集する。たとえば、検索語が「富士山」、「ドライブ」、「スポーツ」である場合、Ｓ＝３であり、Ｓ−１＝２個の検索語を選ぶと、「ドライブ」、「スポーツ」の組み合わせ、「富士山」、「スポーツ」の組み合わせ、「富士山」、「ドライブ」の組み合わせができ、合計、３つの組み合わせができる。この３つの組み合わせで検索件数が最も多いものを使って、ウェブＷ１上で再びＡＮＤ検索を行う。

そして、テキストＴ２の個数ＰがＰ_Ｔ以上になるまで、検索語の修正とウェブ検索とを繰り返し、Ｐ≧Ｐ_Ｔになれば、テキストＴ２からＴ−Ｓ個の関連語を抽出する。

検索語を修正しても、収集されるテキストＴ２の個数がＰ_Ｔ以上にならなければ、元のＳ個の検索語を、検索語記憶部Ｍ２に残し、関連語記憶部Ｍ３には、関連語として何も格納しない。

図６に示す検索語２１〜２９について、予め与えられた値Ｔ＝１０、検索されたテキストＴ２の個数Ｐ＝２０、ウェブ検索によるテキストＴ２の目標検索件数Ｐ_Ｔ＝２０であるとした場合、関連語取得部３が関連語を取得する。

図７は、実施例１において、関連語記憶部Ｍ３に格納されている関連語の一例を示す図である。

図７に示す関連語記憶部Ｍ３に格納されている関連語は、検索語２１に対応する関連語３１と、検索語２２に対応する関連語３２と、検索語２３に対応する関連語３３と、検索語２４に対応する関連語３４と、検索語２５に対応する関連語３５と、検索語２６に対応する関連語３６と、検索語２７に対応する関連語３７と、検索語２８に対応する関連語３８と、検索語２９に対応する関連語３９とである。

そして、分解文章記憶部Ｍ１に格納されている全ての文に対して、検索語抽出部２による検索語抽出と、関連語取得部３による関連語取得とが終了すると、制御部６は、トピック抽出部４に、分割された文同士の連結性を判定させる。つまり、トピック抽出部４は、検索語記憶部Ｍ２に格納されている検索語と、関連語記憶部Ｍ３に格納されている関連語とを、制御部６を介して、読み出し、これらを組み合わせて、キーワード集合を作成する。つまり、上記キーワード集合は、検索語と関連語との組み合わせである。

図８は、実施例１において、トピック抽出部４が作成したキーワード集合の一例を示す図である。

図８に示すキーワード集合は、キーワード集合５１、５２、５３、５４、５５、５６、５７、５８、５９である。キーワード集合５１は、検索語２１と関連語３１との組によって生成されたキーワード集合である。キーワード集合５２は、検索語２２と関連語３２との組によって生成されたキーワード集合である。キーワード集合５３は、検索語２３と関連語３３との組によって生成されたキーワード集合である。

キーワード集合５４は、検索語２４と関連語３４との組によって生成されたキーワード集合である。キーワード集合５５は、検索語２５と関連語３５との組によって生成されたキーワード集合である。キーワード集合５６は、検索語２６と関連語３６との組によって生成されたキーワード集合である。キーワード集合５７は、検索語２７と関連語３７との組によって生成されたキーワード集合である。キーワード集合５８は、検索語２８と関連語３８との組によって生成されたキーワード集合である。キーワード集合５９は、検索語２９と関連語３９との組によって生成されたキーワード集合である。

検索語がなければ、検索語に対応する関連語も存在しないので、トピック抽出部４は、キーワード集合を作成しない。また、検索語が存在するが、関連語が存在しない場合、検索語のみによって、キーワード集合を作成する。

キーワード集合は、本文の内容を反映する単語である。テキストＴ１のうちで、最初の文１１から、文１２、１３、…………と進むに従って、各キーワード集合に含まれている単語が変化し、この単語を調べることによって、テキストＴ１の本文における内容の変化を捉えることができる。

そこで、トピック抽出部４は、生成された複数のキーワード集合を、互いに比較する。生成された複数のキーワード集合に含まれている単語の中で、共通して現われる単語は、テキストＴ１の本文の内容を表している代表的な単語である。トピック抽出部４は、生成されたキーワード集合を比較し、キーワード集合の中で共通して現われる単語であるトピックを見つける。この抽出されたトピックは、制御部６を通じて、抽出トピック記憶部Ｍ４に格納される。

キーワード集合を互いに比較する場合、テキストは先頭から順に書かれていることが一般的であるので、テキストの先頭から順に、複数のキーワード集合を互いに比較する。具体的には、ｉ番目のキーワード集合を基準にし、ｉ＋１−ｂ番目（１≦ｂ）からｉ番目までのキーワード集合が含まれているブロックＢ１と、ｉ＋１番目からｉ＋ｂ番目までのキーワード集合が含まれているブロックＢ２を作成する。ここで、ｂは、ブロック（少なくとも１つの文を有する塊）に含まれているキーワード集合の個数であり、つまり、ブロックの幅である。

すなわち、基準の文であるｉ番目の文の前後の複数の文に対応するキーワード集合を見ることによって、本文の内容を解析する。

ここで、ブロックＢ１とＢ２とを作成する際に、単語が存在しないキーワード集合は無視する。

２つのブロックＢ１とＢ２とを作成した後に、各ブロックについて、キーワード集合に含まれている単語ｔの頻度ｗ_ｔを計算する。そして、２つのブロックに含まれている全ての単語の頻度を求めた後に、ｉ番目の文とｉ＋１番目の文との連結度（類似している度合）Ｃ_ｉ ^ｂを、単語ｔの頻度ｗ_ｔを用い、以下の式（１）で評価する。

ｗ_ｔ ^Ｂ１は、ブロックＢ１における単語ｔの出現頻度であり、ｗ_ｔ ^Ｂ２は、ブロックＢ２における単語ｔの出現頻度である。また、ｆ^Ｂ１、ｆ^Ｂ２は、それぞれブロックＢ１、Ｂ２に含まれている空でないキーワード集合の個数である。ｉ番目の文とｉ＋１番目の文との連結度Ｃ_ｉ ^ｂは、０以上１以下の値を取り、１に近いほど、ブロックＢ１とＢ２とに含まれている単語が同じである。つまり、連結度Ｃ_ｉ ^ｂが１に近いほど、ブロックＢ１とＢ２とに含まれている単語のうちで、互いに同じ単語の割合が多い。トピック抽出部４は、ｉ＝｛１，２，…，Ｎ｝と変化させ、Ｃ_１ ^ｂ，Ｃ_２ ^ｂ，…，Ｃ_Ｎ ^ｂを計算する。さらに、ブロックの幅ｂが

であると設定し、各ブロック幅に対して、連結度Ｃ_ｉ ^ｂを計算し、この計算された平均値が、ｉ番目の文と、ｉ＋１番目の文とにおける平均連結度Ｃ_ｉであるとする。

＃ｂは、ブロック幅のパラメータｂの個数であり、パラメータｂに含まれている要素数である。たとえば、Ｎ＝１０である場合、式（２）に記載されているｂ_ｍａｘの条件式から、ｂ_ｍａｘ＝２である。この結果、上記「数２」に示す式から、ｂ＝｛１，２，４｝であり、パラメータｂには、３個のパラメータが設定される。したがって、＃ｂ＝３になる。

ここで、ブロックＢ１とＢ２とのそれぞれにおいて、ブロックに含まれている空ではないキーワード集合の個数が、ｂに満たない場合、重み（ｂ／ｆ^Ｂ）によって、頻度ｗ_ｔ ^Ｂが調整される。具体的には、たとえばｉ＝１、ｂ＝２であるときに、ブロックＢ１には、空でないキーワード集合が１つしか含まれないので、単語の頻度が２倍される。

平均連結度Ｃ_ｉ（但し、ｉ＝｛１，２，…，Ｎ｝）を用い、Ｃ_１から順に、平均連結度が閾値Ｃ_Ｔを超えるかどうかを調べることによって、入力したテキストＴ１に記載されている内容の変化を解析する。具体的には、平均連結度Ｃ_ｉが、閾値Ｃ_Ｔ以上であれば、ｉ番目の文と、ｉ＋１番目の文との内容は同じであると判断し、変数Ｇに文の番号ｉを追加する。一方で、閾値Ｃ_Ｔ未満であれば、ｉ番目の文と、ｉ＋１番目の文とで、内容が変化したと判断する。

この場合、変数Ｇに保存されている文番号のキーワード集合を参照し、単語の頻度を計算した後に、頻度Ｆ_Ｔ以上の単語をｊ番目の話題のトピックとして、制御部６を介して、抽出トピック記憶部Ｍ４に格納する。そして、変数Ｇの内容を初期化し、ｊ＝ｊ＋１として、ｉ＋１番目の平均連結度から上記の処理を再び開始する。また、トピック抽出部４が、平均連結度Ｃ_Ｎの値を調べ、トピックを出力すると、トピック抽出部４は、比較処理を終了する。さらに、変数ｊと変数Ｇとは、制御部６を通じて、トピック抽出部４がトピックを抽出する際に初期化される。Ｃ_Ｔ＝０．１、Ｆ_Ｔ＝２とし、図８に示すキーワード集合５１〜５９を用いて、トピック抽出部４がトピックを抽出する。

図９は、実施例１において、抽出トピック記憶部Ｍ４に格納されているトピック４１、４２の一例を示す図である。

つまり、図９は、Ｃ_Ｔ＝０．１とし、図８に示すキーワード集合５１〜５９を用いて、トピック抽出部４が連結性を判定した結果を示す図である。

図９において、トピック４１は、トピック抽出部４において検出された１つ目の話題に属するキーワード集合から抽出したトピックである、トピック４２は、トピック抽出部４において検出された２つ目の話題に属するキーワード集合から抽出したトピックである。

トピック抽出部４がトピックの抽出を終了すると、制御部６が出力部７を呼び出し、テキストＴ１についてのトピックを表示部Ｄ１に表示する。具体的には、抽出トピック記憶部Ｍ４を参照し、格納されているトピックを表示する。たとえば、トピック４１と４２を表示してもよく、話題番号とともにトピック４１と４２とを同時に表示するようにしてもよい。

本発明におけるテキスト多重分類の処理手順を具体例とともに詳細に説明する。

ここで、２番目のキーワード集合は、空であるので、無視する。

トピック抽出部４が処理を終了すると、制御部６が出力部７を呼び出し、テキストＴ１についてテキストから多重トピックを抽出した結果を、表示部Ｄ１に表示する。具体的には、抽出トピック記憶部Ｍ４を参照し、抽出トピック記憶部Ｍ４に格納されているトピックを表示する。たとえば、符号４１と４２とが示すトピックを表示するようにしてもよく、意味段落番号とともに、符号４１と４２とが示すトピックを同時に表示するようにしてもよい。

パラメータＴ、Ｓ_Ｔ、Ｐ、Ｐ_Ｔ、Ｃ_Ｔを変化することによって、上記実施例における計算時間や精度を調整することができる。つまり、パラメータＴと、Ｓ_Ｔ、Ｐ_Ｔ、Ｐとを調整すれば、ウェブ検索で得られた関連語の抽出精度や計算時間を調整することができる。また、パラメータＣ_Ｔによって、本文における内容の変化を捉える敏感さを、調整することができ、パラメータＦ_Ｔによって、トピックの抽出度合いを調整することができる。

上記実施例において、ウェブ検索する際に、入力したテキストＴ１の作成時期との差が少ない順に、テキストを収集するので、入力したテキストＴ１の内容に関連性の高い単語を収集することができる。なお、時間的な差を考慮せずに、得られた検索結果で、参照されているＰ個のテキストＴ２を使用すれば、ある程度の精度で関連語を収集することができる。

また、ウェブ検索で得られたテキストＴ２の個数ＰがＰ_Ｔ未満である場合、検索語を修正し、再検索を行うので、各文に検索語と関連語との組からなるキーワード集合を割り当てることができる。

さらに、上記実施例によれば、ウェブ検索で得られたテキストＴ２の個数ＰがＰ_Ｔ未満である場合、再検索を行わず検索語だけを用いてキーワード集合を作成するようにしてもよい。この場合、基準となる文に対して、前後に所定の複数のキーワード集合を考慮しているので、少ない計算時間で、実用的な精度で、本文の内容を解析し、テキストから多重トピックを抽出することができる。

上記実施例によれば、テキストから多重トピックを抽出において、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がない。

また、上記実施例は、莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの管理・更新を自動的に行う支援策として応用できる。

また、上記実施例は、解析対象となるテキストに関して、学習データを使用せずに、ウェブ検索によって、幅広い分野における関連語を収集できるので、記述内容や作成時期に制約が少ないという利点がある。

さらに、上記実施例は、内容的なまとまりに分割されているので、所定のキーワードを含み、内容的に関連のある文章だけを、収集する技術に利用することができる。

つまり、テキストの多重トピック抽出装置１００は、各文に対応するキーワード集合に基づいて、文間の意味的連続性を評価し、話題毎にキーワード集合からトピックを抽出する装置である。

ここで、ウェブ上で検索を行う概念に着目をした新しい多重トピック抽出技術について説明する。「ウェブ」は、インターネット等のネットワークを介してアクセスできるＨＴＭＬやＸＭＬ等の構造化言語で記述されたテキストの集合を意味する。現在、ウェブ上には膨大な情報が蓄積され、最新のブロックも常に提供されている。つまり、ウェブは様々な情報を持つ辞書として捉えることができる。実際、我々はある事に関して調べる際、検索サイトで検索語を入力し、ウェブ上で検索し、単語の意味や物事の内容を調べる。この観点から、学習データを使用しなくてもウェブ上にある情報を適切に利用すれば、「サッカー」や「野球」に対応する概念として、「スポーツ」や「ボール」という概念を取得できる。その結果、ウェブ上に存在している様々な情報に基づいて、入力したテキストの記述内容に応じた単語を取得することができ、文同士の関連性を幅広く比較し、文の内容を追跡することができる。したがって、事前に学習データを用意する必要がなく、様々な分野に対応する多重トピックを抽出することができる。

上記実施例によれば、ウェブで検索する概念を利用することで学習データを事前に用意する必要がない多重分類技術が期待できる。この技術は莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの管理・更新を自動的に行う支援策として応用できる。また、解析対象となるテキストに関して、ウェブ検索により幅広い分野における関連語を収集できるという点から記述内容や作成時期に制約が少ないという利点がある。さらに、ウェブ検索を利用することでテキスト内に存在しない単語も本文の内容を表す単語として付与することができる。

つまり、上記実施例は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部とを有するテキストの多重トピック抽出装置の例である。

この場合、入力したテキストの作成時期との差が少ない順に、テキストを収集する。

また、上記実施例は、検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。

また、上記テキストの多重トピック抽出装置は、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する手段とを有する。

さらに、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストの多重トピック抽出方法であって、上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と、上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と、上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出し、記憶装置に記憶するトピック抽出工程とを有するテキストの多重トピック抽出方法の例である。

しかも、上記実施例は、検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。

そして、上記実施例は、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する。

また、上記実施例は、請求項５〜請求項７記載のいずれか１つの方法をコンピュータに実行させるプログラムである。

さらに、上記実施例は、請求項８記載のプログラムを記録したコンピュータ読取可能な記録媒体である。

本発明の実施例１であるテキストの多重トピック抽出装置１００を示すブロック図である。テキストの多重トピック抽出装置１００における処理手順の概要を示す図である。本発明の実施例１において、入力したテキストＴ１の一例を示す図である。実施例１における分解文章記憶部Ｍ１に格納されている文の一例を示す図である。実施例１における不要語リストＬ１の一例を示す図である。実施例１において、検索語記憶部Ｍ２に格納されている検索語の一例を示す図である。実施例１において、関連語記憶部Ｍ３に格納されている関連語の一例を示す図である。実施例１において、トピック抽出部４が作成したキーワード集合の一例を示す図である。実施例１において、抽出トピック記憶部Ｍ４に格納されているトピックの一例を示す図である。

符号の説明

１００…テキストの多重トピック抽出装置、
１…テキスト分解部、
２…検索語抽出部、
３…関連語取得部、
４…トピック抽出部、
Ｍ１…分解文章記憶部、
Ｍ２…検索語記憶部、
Ｍ３…関連語記憶部、
Ｍ４…抽出トピック記憶部、
５…入力部、
６…制御部、
７…出力部、
ＮＷ１…ネットワーク、
Ｗ１…ウェブ、
Ｔ１…入力部から入力されるテキスト、
Ｔ２…ウェブ検索して得たテキスト、
Ｌ１…不要語リスト、
Ｔ…予め与えられている数、
Ｓ…検索語の数。

Claims

入力したテキストを、文単位に分解するテキスト分解部と；
上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と；
上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と；
検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部と；
を有することを特徴とするテキストの多重トピック抽出装置。
請求項１において、
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストの多重トピック抽出装置。
請求項１において、
検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストの多重トピック抽出装置。
請求項１において、
検索不要語リストと；
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストの多重トピック抽出装置。
入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストの多重トピック抽出方法であって、
上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と；
上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と；
上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と；
検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出し、記憶装置に記憶するトピック抽出工程と；
を有することを特徴とするテキストの多重トピック抽出方法。
請求項５において、
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストの多重トピック抽出方法。
請求項５において、
検索語がＳ個である場合、Ｓ−１個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストの多重トピック抽出方法。
請求項５において、
検索不要語リストと；
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストの多重トピック抽出方法。
請求項５〜請求項７記載のいずれか１つの方法をコンピュータに実行させるプログラム。
請求項８記載のプログラムを記録したコンピュータ読取可能な記録媒体。