JP2009015796A - テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 - Google Patents

テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2009015796A
JP2009015796A JP2007180312A JP2007180312A JP2009015796A JP 2009015796 A JP2009015796 A JP 2009015796A JP 2007180312 A JP2007180312 A JP 2007180312A JP 2007180312 A JP2007180312 A JP 2007180312A JP 2009015796 A JP2009015796 A JP 2009015796A
Authority
JP
Japan
Prior art keywords
search
text
word
topic
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007180312A
Other languages
English (en)
Other versions
JP4873739B2 (ja
Inventor
Naoto Abe
直人 阿部
Toshiro Uchiyama
俊郎 内山
Tadashi Uchiyama
匡 内山
Yasuhisa Kato
泰久 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007180312A priority Critical patent/JP4873739B2/ja
Publication of JP2009015796A publication Critical patent/JP2009015796A/ja
Application granted granted Critical
Publication of JP4873739B2 publication Critical patent/JP4873739B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】学習データを必要とせずに、トピックを得ることができ、しかも、極めて広い範囲からトピックを得ることができ、常に安定したトピック推定精度を得ることができるテキストの多重トピック抽出装置を提供することを目的とする。
【解決手段】入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部とを有するテキストの多重トピック抽出装置である。
【選択図】図2

Description

本発明は、テキストを計算機上で利用する分野において、テキストに記述されている複数の内容(トピック)を自動的に抽出する技術に関する。
近年、急速な計算機の性能向上に伴い莫大なテキスト(ここでは、文字列だけで構成される文の集合)を蓄積し、データベースを構築することが可能である。一方、保存されているテキストを人手で整理・管理することは、一般的に困難となりつつある。そこで、データベースに格納されているテキストを解析し、テキストに書かれている内容を自動的に判定する研究が行われている。たとえば、テキストの内容に基づいて、複数の分野を同時に判定する(たとえば、政治と経済の内容が書かれていると判定する)多重トピック抽出技術が提案されている(たとえば、特許文献1および非特許文献1参照)。
上記従来例技術では、多重トピック抽出を行う場合、事前に学習データを作成する必要がある。上記「学習データ」は、単語と、この単語に対応する分野との組が、複数個記述されているデータである。また、「スポーツ」や「政治」等の分類名を与える単語を予め決めておく。従来の多重トピック抽出技術では、学習データを大量に作成することによって、トピック抽出の精度を向上させ、また、幅広い分野へ対応できるようにしている。
特開2004−046621号公報 Hearst, M.A., : Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16(1994)
しかし、上記従来例において、学習データに含まれていない分野のテキストについては、トピックを適切に抽出することができないという問題がある。たとえば、学習データに「政治」や「経済」に関する情報が蓄積されている場合、「スポーツ」の分野のテキストについては、トピックを抽出することが困難である。また、予め決められている分類名を使用して、トピックを出力するので、入力されたテキストに、必ずしも適切な分類名が付与されるとは限らないという問題がある。
本発明は、学習データを必要とせずに、トピックを得ることができ、しかも、極めて広い範囲からトピックを得ることができ、常に安定したトピック推定精度を得ることができるテキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体を提供することを目的とする。
本発明は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部とを有するテキストの多重トピック抽出装置である。
本発明によれば、テキストから多重トピックを抽出する場合、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がなく、しかも、極めて広い範囲からトピック名称を得ることができ、常に安定したトピック推定精度を得ることができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1であるテキストの多重トピック抽出装置100を示すブロック図である。
テキストの多重トピック抽出装置100は、入力したテキストに基づいてウェブ検索し、このウェブ検索されたテキストから、多重トピックを抽出する装置であり、コンピュータで構成されている。
上記「トピック」は、テキストT1の内容を代表する名詞である。上記実施例では、トピック抽出部4が作成したキーワード集合から、トピックを抽出する。具体的には、複数のキーワード集合において共通して現われる単語をトピックとして抽出する。また、上記「多重トピック」は、複数のトピックという意味であり、後述の図9に示すように、テキストT1に2つのブロックが記載され、この場合、2つのブロックのそれぞれにトピックが存在している。つまり、「多重トピック」は、1つのテキストに複数のブロックが記載されている場合、上記複数のブロックのそれぞれにトピックが存在していることである。
また、テキストの多重トピック抽出装置100は、コンピュータ上でテキスト(各種記事や物語等の文章)中の各文の意味内容を推定し、上記テキストに含まれている複数のトピックを抽出する装置である。
テキストの多重トピック抽出装置100は、テキスト分解部1と、検索語抽出部2と、関連語取得部3と、トピック抽出部4と、分解文章記憶部M1と、検索語記憶部M2と、関連語記憶部M3と、抽出トピック記憶部M4と、入力部5と、制御部6と、出力部7とを有する。
テキスト分解部1は、入力したテキストT1を、文単位に分解する。
検索語抽出部2は、テキスト分解部1が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する。
関連語取得部3は、検索語抽出部2が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する。
トピック抽出部4は、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出する。
上記「複数のキーワード集合に共通して現われる単語」は、たとえば、後述の図8に示すキーワード集合51〜55において、「ゴルフ」や「ボール」という単語が共通して現われている単語である。この共通して現れる単語を、テキストのトピックを表す単語とみなす。
入力部5は、テキストT1を入力する。制御部6は、テキストの多重トピック抽出装置100の全体を制御する。
出力部7は、トピック抽出部4が抽出したテキストを出力する。分解文章記憶部M1は、テキスト分割部1が分割した文を記憶する。検索語記憶部M2は、検索語抽出部2が抽出した検索語を記憶する。関連語記憶部M3は、関連語取得部3が取得した関連語を記憶する。抽出トピック記憶部M4は、トピック抽出部4が抽出したトピックを格納する。
テキストの多重トピック抽出装置100に、ネットワークNW1が接続され、ウェブW1に、アクセスすることができる。
ウェブW1には、複数のHTMLやXML等の構造化言語で記述されているテキストが蓄積されている。テキストT2は、ウェブW1からウェブ検索によって収集されているテキストであって、構造化言語で記述されているテキストである。テキストT1は、テキストの多重トピック抽出装置100の入力部5に入力されるテキストである。
表示部D1は、出力部7を介して、制御部6が出力し結果を表示する装置である。
次に、テキストの多重トピック抽出装置100の動作について説明する。
図2は、テキストの多重トピック抽出装置100における処理手順の概要を示す図である。
S1で、テキストから多重トピックを抽出する対象であるテキストT1を入力する。このテキストが「入力したテキスト」T1である。S2で、テキスト分解部1が、入力したテキストT1を、文単位に分割する。S3で、分割された文から、名詞を抽出し、この抽出された名詞を検索語として使用する。S4で、検索語を用いて、ウェブ上で検索し、この検索されたテキストT2に含まれている名詞を関連語として使用する。
S5で、検索語と関連語とを組にしてキーワード集合を作り、このキーワード集合に基づいて、入力したテキストT1から、トピックを抽出する。S6で、トピック抽出結果を出力する。
次に、テキストから多重トピックを抽出する処理手順を、より具体的に説明する。
まず、入力部5を通じて、テキストT1を入力すると、制御部6が、テキスト分解部1を呼び出し、テキスト分解部1が、テキストT1を1文字ずつ読み込み、文単位で切り出し、N個の文を得る。そして、切り出されたN個の文を、制御部6が、分解文章記憶部M1に格納する。ここで、「文」は、句点「。」で区切られている一文である。
図3は、本発明の実施例1において、入力したテキストT1の一例を示す図である。
図4は、実施例1における分解文章記憶部M1に格納されている文の一例を示す図である。
テキストT1は、1番目の文11と、2番目の文12と、3番目の文13と、4番目の文14と、5番目の文15と、6番目の文16と、7番目の文17と、8番目の文18と、9番目の文19とを有する。
図3に示すテキストT1を、テキスト分解部1が分解し、図4に示すように、文単位に分解された9つの文11〜19が生成され、分解文章記憶部M1に格納される。
テキスト分解部1が生成した文の個数は、入力したテキストT1によって異なる。また、意味的に複数に続く文である(句点「。」を使用せずに、複数の文が続く)場合や、句点「。」の入力ミスがある場合には、複数の文が1つの文として扱われる。
次に、制御部6が、分解文章記憶部M1に格納されている各文から、検索語抽出部2に検索語を抽出させる。ここで、「検索語」は、ウェブ上で検索を行う際に入力する1つまたは複数の名詞である。検索語抽出部2は、最初に入力された文に、形態素解析を行う。そして、形態素解析によって名詞に分類された複数の単語を、検索語として取り出す。この取り出された検索語を、制御部6が、検索語記憶部M2に格納する。ただし、名詞を取り出すだけでは、「年」や「時」のように、一般的に使用される単語(検索語として意味がない単語)も抽出される。そこで、「年」や「時」等の不要語からなるリストである不要語リストL1を予め作成し、不要語リストL1に登録されていない名詞を検索語として扱う。
図5は、実施例1における不要語リストL1の一例を示す図である。
不要語リストL1には、不要単語が登録されている。
検索語記憶部M2に格納されている検索語は、不要語リストL1によって変わる。
また、ウェブ検索を行う際、適切な個数の単語でAND検索をすることが好ましい。そこで、名詞として抽出された単語の個数が、閾値S未満である場合、検索語抽出部2は、検索語を抽出せず、検索語記憶部M2には、何も単語を格納しない。
逆に、名詞の個数Sが閾値T以上である場合、S個の検索語からT個の検索語をランダムに選択し、検索語記憶部M2に格納する。T=10、S=2である場合、検索語抽出部2が検索語を抽出すると、検索語が、検索語記憶部M2に格納される。
図6は、実施例1において、検索語記憶部M2に格納されている検索語の一例を示す図である。
検索語記憶部M2に格納されている検索語は、文11に対応する検索語21と、文12に対応する検索語22と、文13に対応する検索語23と、文14に対応する検索語24と、文15に対応する検索語25と、文16に対応する検索語26と、文17に対応する検索語27と、文18に対応する検索語28と、文19に対応する検索語29とである。
文11〜18に対応する検索語21〜29を作成した後に、制御部6が、関連語取得部3を呼び出す。制御部6を介して、検索語抽出部2が抽出した検索語を、検索語記憶部M2から取り出し、関連語取得部3に入力する。
関連語取得部3に入力された検索語を用い、ネットワークNW1を介して接続されているウェブW1上でAND検索する。AND検索することによって、検索語が全て含まれているテキストをウェブW1で検索することができる。ここで、ウェブW1で検索を行う際、検索結果は、検索語が入力された順序に影響しない。
そして、検索されたテキストが作成された時期と、入力したテキストT1が作成された時期との差が少ない順に、検索されたテキストの中から、P個のテキストT2を取得する。ウェブW1に存在しているテキストには、通常、それが作成された日付が記録されているので、テキストT1が作成された日付との時間的な差を求めることができる。この時間的な差が少ないテキストを取得することによって、テキストT1との間で、より強く関連する記事(テキスト)を、ウェブW1から収集することができる。
ここで、検索語記憶部M2に、検索語が存在しなければ、関連語取得部3がウェブ検索をせず、関連語記憶部M3に、何も格納しない。また、検索語の個数SがTと同じである場合、ウェブ検索を行わず、関連語記憶部M3に関連語を格納しない。
次に、時間順に収集されたP個のテキストT2から、本文のテキストを抽出する。テキストT2はHTMLやXML等の構造化言語で記述されているので、テキストT2内において本文の場所を示すタグ(タグは、「<」と、「>」と、これらによって囲まれている文字列とで構成されている)が付与されている。したがって、得られたテキストT2について、タグを解析することによって、テキストT2から本文のテキストを抽出することができる。
そして、抽出された本文のテキストに、関連語取得部3が、形態素解析し、名詞を抽出する。ウェブ検索されたテキストT2に含まれている名詞が、関連語である。関連語の個数は、ウェブ検索した場合における検索語や、収集されたテキストT2の個数によって変わる。
また、形態素解析によって抽出された名詞を全て関連語として使用すると、検索語抽出部2が抽出した場合と同様に、「年」や「月」等、普遍的に使用される単語が関連語として扱われる場合がある。そこで、関連語取得部3では、検索語抽出部2における処理と同様に、不要語リストL1を参照し、不要語を除く。そして、検索語がS個である場合、P個の本文のテキストから抽出した単語のうちで、出現頻度の高い順に、T−S個の単語を関連語とする。
なお、Tは、予め与えられている数である。Sは、検索語の数である。上記T−S個の関連語を、制御部6を介して、関連語記憶部M3に格納する。つまり、各文において抽出された検索語と関連語との合計個数は、予め与えられた値Tになるようにする。このように、各文において抽出された検索語と関連語との合計個数を予め与えられた値Tになるようにするのは、どの文についても、連結性を平等に評価するためである。
適切な関連語を得るためには、ウェブ検索で得られたテキストT2の数が、できるだけ多いことが望ましい。そこで、ウェブ検索によって得られたテキストT2の個数Pが、目標の個数であるP未満であれば、検索語を修正し、ウェブ上で再びAND検索し、テキストT2を収集する。
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、再びテキストT2をP個検索し、収集する。たとえば、検索語が「富士山」、「ドライブ」、「スポーツ」である場合、S=3であり、S−1=2個の検索語を選ぶと、「ドライブ」、「スポーツ」の組み合わせ、「富士山」、「スポーツ」の組み合わせ、「富士山」、「ドライブ」の組み合わせができ、合計、3つの組み合わせができる。この3つの組み合わせで検索件数が最も多いものを使って、ウェブW1上で再びAND検索を行う。
そして、テキストT2の個数PがP以上になるまで、検索語の修正とウェブ検索とを繰り返し、P≧Pになれば、テキストT2からT−S個の関連語を抽出する。
検索語を修正しても、収集されるテキストT2の個数がP以上にならなければ、元のS個の検索語を、検索語記憶部M2に残し、関連語記憶部M3には、関連語として何も格納しない。
図6に示す検索語21〜29について、予め与えられた値T=10、検索されたテキストT2の個数P=20、ウェブ検索によるテキストT2の目標検索件数P=20であるとした場合、関連語取得部3が関連語を取得する。
図7は、実施例1において、関連語記憶部M3に格納されている関連語の一例を示す図である。
図7に示す関連語記憶部M3に格納されている関連語は、検索語21に対応する関連語31と、検索語22に対応する関連語32と、検索語23に対応する関連語33と、検索語24に対応する関連語34と、検索語25に対応する関連語35と、検索語26に対応する関連語36と、検索語27に対応する関連語37と、検索語28に対応する関連語38と、検索語29に対応する関連語39とである。
そして、分解文章記憶部M1に格納されている全ての文に対して、検索語抽出部2による検索語抽出と、関連語取得部3による関連語取得とが終了すると、制御部6は、トピック抽出部4に、分割された文同士の連結性を判定させる。つまり、トピック抽出部4は、検索語記憶部M2に格納されている検索語と、関連語記憶部M3に格納されている関連語とを、制御部6を介して、読み出し、これらを組み合わせて、キーワード集合を作成する。つまり、上記キーワード集合は、検索語と関連語との組み合わせである。
図8は、実施例1において、トピック抽出部4が作成したキーワード集合の一例を示す図である。
図8に示すキーワード集合は、キーワード集合51、52、53、54、55、56、57、58、59である。キーワード集合51は、検索語21と関連語31との組によって生成されたキーワード集合である。キーワード集合52は、検索語22と関連語32との組によって生成されたキーワード集合である。キーワード集合53は、検索語23と関連語33との組によって生成されたキーワード集合である。
キーワード集合54は、検索語24と関連語34との組によって生成されたキーワード集合である。キーワード集合55は、検索語25と関連語35との組によって生成されたキーワード集合である。キーワード集合56は、検索語26と関連語36との組によって生成されたキーワード集合である。キーワード集合57は、検索語27と関連語37との組によって生成されたキーワード集合である。キーワード集合58は、検索語28と関連語38との組によって生成されたキーワード集合である。キーワード集合59は、検索語29と関連語39との組によって生成されたキーワード集合である。
検索語がなければ、検索語に対応する関連語も存在しないので、トピック抽出部4は、キーワード集合を作成しない。また、検索語が存在するが、関連語が存在しない場合、検索語のみによって、キーワード集合を作成する。
キーワード集合は、本文の内容を反映する単語である。テキストT1のうちで、最初の文11から、文12、13、…………と進むに従って、各キーワード集合に含まれている単語が変化し、この単語を調べることによって、テキストT1の本文における内容の変化を捉えることができる。
そこで、トピック抽出部4は、生成された複数のキーワード集合を、互いに比較する。生成された複数のキーワード集合に含まれている単語の中で、共通して現われる単語は、テキストT1の本文の内容を表している代表的な単語である。トピック抽出部4は、生成されたキーワード集合を比較し、キーワード集合の中で共通して現われる単語であるトピックを見つける。この抽出されたトピックは、制御部6を通じて、抽出トピック記憶部M4に格納される。
キーワード集合を互いに比較する場合、テキストは先頭から順に書かれていることが一般的であるので、テキストの先頭から順に、複数のキーワード集合を互いに比較する。具体的には、i番目のキーワード集合を基準にし、i+1−b番目(1≦b)からi番目までのキーワード集合が含まれているブロックB1と、i+1番目からi+b番目までのキーワード集合が含まれているブロックB2を作成する。ここで、bは、ブロック(少なくとも1つの文を有する塊)に含まれているキーワード集合の個数であり、つまり、ブロックの幅である。
すなわち、基準の文であるi番目の文の前後の複数の文に対応するキーワード集合を見ることによって、本文の内容を解析する。
ここで、ブロックB1とB2とを作成する際に、単語が存在しないキーワード集合は無視する。
2つのブロックB1とB2とを作成した後に、各ブロックについて、キーワード集合に含まれている単語tの頻度wを計算する。そして、2つのブロックに含まれている全ての単語の頻度を求めた後に、i番目の文とi+1番目の文との連結度(類似している度合)C を、単語tの頻度wを用い、以下の式(1)で評価する。
Figure 2009015796
B1は、ブロックB1における単語tの出現頻度であり、w B2は、ブロックB2における単語tの出現頻度である。また、fB1、fB2は、それぞれブロックB1、B2に含まれている空でないキーワード集合の個数である。i番目の文とi+1番目の文との連結度C は、0以上1以下の値を取り、1に近いほど、ブロックB1とB2とに含まれている単語が同じである。つまり、連結度C が1に近いほど、ブロックB1とB2とに含まれている単語のうちで、互いに同じ単語の割合が多い。トピック抽出部4は、i={1,2,…,N}と変化させ、C ,C ,…,C を計算する。さらに、ブロックの幅bが
Figure 2009015796
であると設定し、各ブロック幅に対して、連結度C を計算し、この計算された平均値が、i番目の文と、i+1番目の文とにおける平均連結度Cであるとする。
Figure 2009015796
#bは、ブロック幅のパラメータbの個数であり、パラメータbに含まれている要素数である。たとえば、N=10である場合、式(2)に記載されているbmaxの条件式から、bmax=2である。この結果、上記「数2」に示す式から、b={1,2,4}であり、パラメータbには、3個のパラメータが設定される。したがって、#b=3になる。
ここで、ブロックB1とB2とのそれぞれにおいて、ブロックに含まれている空ではないキーワード集合の個数が、bに満たない場合、重み(b/f)によって、頻度w が調整される。具体的には、たとえばi=1、b=2であるときに、ブロックB1には、空でないキーワード集合が1つしか含まれないので、単語の頻度が2倍される。
平均連結度C(但し、i={1,2,…,N})を用い、Cから順に、平均連結度が閾値Cを超えるかどうかを調べることによって、入力したテキストT1に記載されている内容の変化を解析する。具体的には、平均連結度Cが、閾値C以上であれば、i番目の文と、i+1番目の文との内容は同じであると判断し、変数Gに文の番号iを追加する。一方で、閾値C未満であれば、i番目の文と、i+1番目の文とで、内容が変化したと判断する。
この場合、変数Gに保存されている文番号のキーワード集合を参照し、単語の頻度を計算した後に、頻度F以上の単語をj番目の話題のトピックとして、制御部6を介して、抽出トピック記憶部M4に格納する。そして、変数Gの内容を初期化し、j=j+1として、i+1番目の平均連結度から上記の処理を再び開始する。また、トピック抽出部4が、平均連結度Cの値を調べ、トピックを出力すると、トピック抽出部4は、比較処理を終了する。さらに、変数jと変数Gとは、制御部6を通じて、トピック抽出部4がトピックを抽出する際に初期化される。C=0.1、F=2とし、図8に示すキーワード集合51〜59を用いて、トピック抽出部4がトピックを抽出する。
図9は、実施例1において、抽出トピック記憶部M4に格納されているトピック41、42の一例を示す図である。
つまり、図9は、C=0.1とし、図8に示すキーワード集合51〜59を用いて、トピック抽出部4が連結性を判定した結果を示す図である。
図9において、トピック41は、トピック抽出部4において検出された1つ目の話題に属するキーワード集合から抽出したトピックである、トピック42は、トピック抽出部4において検出された2つ目の話題に属するキーワード集合から抽出したトピックである。
トピック抽出部4がトピックの抽出を終了すると、制御部6が出力部7を呼び出し、テキストT1についてのトピックを表示部D1に表示する。具体的には、抽出トピック記憶部M4を参照し、格納されているトピックを表示する。たとえば、トピック41と42を表示してもよく、話題番号とともにトピック41と42とを同時に表示するようにしてもよい。
本発明におけるテキスト多重分類の処理手順を具体例とともに詳細に説明する。
ここで、2番目のキーワード集合は、空であるので、無視する。
トピック抽出部4が処理を終了すると、制御部6が出力部7を呼び出し、テキストT1についてテキストから多重トピックを抽出した結果を、表示部D1に表示する。具体的には、抽出トピック記憶部M4を参照し、抽出トピック記憶部M4に格納されているトピックを表示する。たとえば、符号41と42とが示すトピックを表示するようにしてもよく、意味段落番号とともに、符号41と42とが示すトピックを同時に表示するようにしてもよい。
パラメータT、S、P、P、Cを変化することによって、上記実施例における計算時間や精度を調整することができる。つまり、パラメータTと、S、P、Pとを調整すれば、ウェブ検索で得られた関連語の抽出精度や計算時間を調整することができる。また、パラメータCによって、本文における内容の変化を捉える敏感さを、調整することができ、パラメータFによって、トピックの抽出度合いを調整することができる。
上記実施例において、ウェブ検索する際に、入力したテキストT1の作成時期との差が少ない順に、テキストを収集するので、入力したテキストT1の内容に関連性の高い単語を収集することができる。なお、時間的な差を考慮せずに、得られた検索結果で、参照されているP個のテキストT2を使用すれば、ある程度の精度で関連語を収集することができる。
また、ウェブ検索で得られたテキストT2の個数PがP未満である場合、検索語を修正し、再検索を行うので、各文に検索語と関連語との組からなるキーワード集合を割り当てることができる。
さらに、上記実施例によれば、ウェブ検索で得られたテキストT2の個数PがP未満である場合、再検索を行わず検索語だけを用いてキーワード集合を作成するようにしてもよい。この場合、基準となる文に対して、前後に所定の複数のキーワード集合を考慮しているので、少ない計算時間で、実用的な精度で、本文の内容を解析し、テキストから多重トピックを抽出することができる。
上記実施例によれば、テキストから多重トピックを抽出において、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がない。
また、上記実施例は、莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの管理・更新を自動的に行う支援策として応用できる。
また、上記実施例は、解析対象となるテキストに関して、学習データを使用せずに、ウェブ検索によって、幅広い分野における関連語を収集できるので、記述内容や作成時期に制約が少ないという利点がある。
さらに、上記実施例は、内容的なまとまりに分割されているので、所定のキーワードを含み、内容的に関連のある文章だけを、収集する技術に利用することができる。
つまり、テキストの多重トピック抽出装置100は、各文に対応するキーワード集合に基づいて、文間の意味的連続性を評価し、話題毎にキーワード集合からトピックを抽出する装置である。
ここで、ウェブ上で検索を行う概念に着目をした新しい多重トピック抽出技術について説明する。「ウェブ」は、インターネット等のネットワークを介してアクセスできるHTMLやXML等の構造化言語で記述されたテキストの集合を意味する。現在、ウェブ上には膨大な情報が蓄積され、最新のブロックも常に提供されている。つまり、ウェブは様々な情報を持つ辞書として捉えることができる。実際、我々はある事に関して調べる際、検索サイトで検索語を入力し、ウェブ上で検索し、単語の意味や物事の内容を調べる。この観点から、学習データを使用しなくてもウェブ上にある情報を適切に利用すれば、「サッカー」や「野球」に対応する概念として、「スポーツ」や「ボール」という概念を取得できる。その結果、ウェブ上に存在している様々な情報に基づいて、入力したテキストの記述内容に応じた単語を取得することができ、文同士の関連性を幅広く比較し、文の内容を追跡することができる。したがって、事前に学習データを用意する必要がなく、様々な分野に対応する多重トピックを抽出することができる。
上記実施例によれば、ウェブで検索する概念を利用することで学習データを事前に用意する必要がない多重分類技術が期待できる。この技術は莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの管理・更新を自動的に行う支援策として応用できる。また、解析対象となるテキストに関して、ウェブ検索により幅広い分野における関連語を収集できるという点から記述内容や作成時期に制約が少ないという利点がある。さらに、ウェブ検索を利用することでテキスト内に存在しない単語も本文の内容を表す単語として付与することができる。
つまり、上記実施例は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部とを有するテキストの多重トピック抽出装置の例である。
この場合、入力したテキストの作成時期との差が少ない順に、テキストを収集する。
また、上記実施例は、検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。
また、上記テキストの多重トピック抽出装置は、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する手段とを有する。
さらに、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストの多重トピック抽出方法であって、上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と、上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と、上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出し、記憶装置に記憶するトピック抽出工程とを有するテキストの多重トピック抽出方法の例である。
この場合、入力したテキストの作成時期との差が少ない順に、テキストを収集する。
しかも、上記実施例は、検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。
そして、上記実施例は、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する。
また、上記実施例は、請求項5〜請求項7記載のいずれか1つの方法をコンピュータに実行させるプログラムである。
さらに、上記実施例は、請求項8記載のプログラムを記録したコンピュータ読取可能な記録媒体である。
本発明の実施例1であるテキストの多重トピック抽出装置100を示すブロック図である。 テキストの多重トピック抽出装置100における処理手順の概要を示す図である。 本発明の実施例1において、入力したテキストT1の一例を示す図である。 実施例1における分解文章記憶部M1に格納されている文の一例を示す図である。 実施例1における不要語リストL1の一例を示す図である。 実施例1において、検索語記憶部M2に格納されている検索語の一例を示す図である。 実施例1において、関連語記憶部M3に格納されている関連語の一例を示す図である。 実施例1において、トピック抽出部4が作成したキーワード集合の一例を示す図である。 実施例1において、抽出トピック記憶部M4に格納されているトピックの一例を示す図である。
符号の説明
100…テキストの多重トピック抽出装置、
1…テキスト分解部、
2…検索語抽出部、
3…関連語取得部、
4…トピック抽出部、
M1…分解文章記憶部、
M2…検索語記憶部、
M3…関連語記憶部、
M4…抽出トピック記憶部、
5…入力部、
6…制御部、
7…出力部、
NW1…ネットワーク、
W1…ウェブ、
T1…入力部から入力されるテキスト、
T2…ウェブ検索して得たテキスト、
L1…不要語リスト、
T…予め与えられている数、
S…検索語の数。

Claims (10)

  1. 入力したテキストを、文単位に分解するテキスト分解部と;
    上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と;
    上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と;
    検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部と;
    を有することを特徴とするテキストの多重トピック抽出装置。
  2. 請求項1において、
    入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストの多重トピック抽出装置。
  3. 請求項1において、
    検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストの多重トピック抽出装置。
  4. 請求項1において、
    検索不要語リストと;
    上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストの多重トピック抽出装置。
  5. 入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストの多重トピック抽出方法であって、
    上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と;
    上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と;
    上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と;
    検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出し、記憶装置に記憶するトピック抽出工程と;
    を有することを特徴とするテキストの多重トピック抽出方法。
  6. 請求項5において、
    入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストの多重トピック抽出方法。
  7. 請求項5において、
    検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストの多重トピック抽出方法。
  8. 請求項5において、
    検索不要語リストと;
    上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストの多重トピック抽出方法。
  9. 請求項5〜請求項7記載のいずれか1つの方法をコンピュータに実行させるプログラム。
  10. 請求項8記載のプログラムを記録したコンピュータ読取可能な記録媒体。
JP2007180312A 2007-07-09 2007-07-09 テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 Expired - Fee Related JP4873739B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007180312A JP4873739B2 (ja) 2007-07-09 2007-07-09 テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007180312A JP4873739B2 (ja) 2007-07-09 2007-07-09 テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009015796A true JP2009015796A (ja) 2009-01-22
JP4873739B2 JP4873739B2 (ja) 2012-02-08

Family

ID=40356593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007180312A Expired - Fee Related JP4873739B2 (ja) 2007-07-09 2007-07-09 テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4873739B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076264A (ja) * 2009-09-29 2011-04-14 Ntt Communications Kk 検索制御装置、検索制御方法、及びプログラム
JP2011134334A (ja) * 2009-12-23 2011-07-07 Palo Alto Research Center Inc ショートテキスト通信のトピックを識別するためのシステムおよび方法
CN103123624A (zh) * 2011-11-18 2013-05-29 阿里巴巴集团控股有限公司 确定中心词的方法及装置、搜索方法及装置
JP2014106550A (ja) * 2012-11-22 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> デイリーワード学習装置、デイリーワード抽出装置、方法、及びプログラム
JP2014197300A (ja) * 2013-03-29 2014-10-16 株式会社Jvcケンウッド テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN110852068A (zh) * 2019-10-15 2020-02-28 武汉工程大学 一种基于BiLSTM-CRF的体育新闻主题词提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334106A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334106A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076264A (ja) * 2009-09-29 2011-04-14 Ntt Communications Kk 検索制御装置、検索制御方法、及びプログラム
JP2011134334A (ja) * 2009-12-23 2011-07-07 Palo Alto Research Center Inc ショートテキスト通信のトピックを識別するためのシステムおよび方法
CN103123624A (zh) * 2011-11-18 2013-05-29 阿里巴巴集团控股有限公司 确定中心词的方法及装置、搜索方法及装置
CN103123624B (zh) * 2011-11-18 2015-12-02 阿里巴巴集团控股有限公司 确定中心词的方法及装置、搜索方法及装置
JP2014106550A (ja) * 2012-11-22 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> デイリーワード学習装置、デイリーワード抽出装置、方法、及びプログラム
JP2014197300A (ja) * 2013-03-29 2014-10-16 株式会社Jvcケンウッド テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN110852068A (zh) * 2019-10-15 2020-02-28 武汉工程大学 一种基于BiLSTM-CRF的体育新闻主题词提取方法

Also Published As

Publication number Publication date
JP4873739B2 (ja) 2012-02-08

Similar Documents

Publication Publication Date Title
US9009134B2 (en) Named entity recognition in query
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
US8027977B2 (en) Recommending content using discriminatively trained document similarity
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US20100205198A1 (en) Search query disambiguation
US20140298199A1 (en) User Collaboration for Answer Generation in Question and Answer System
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
CN109213925B (zh) 法律文本搜索方法
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
US8812504B2 (en) Keyword presentation apparatus and method
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
KR101377114B1 (ko) 뉴스 요약문 생성 시스템 및 방법
JP4873739B2 (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
Nualart et al. How we draw texts: a review of approaches to text visualization and exploration
JP4873738B2 (ja) テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
Gentile et al. Explore and exploit. Dictionary expansion with human-in-the-loop
Najadat et al. Automatic keyphrase extractor from arabic documents
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
JP5215051B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Jha et al. Hsas: Hindi subjectivity analysis system
KR101429621B1 (ko) 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees