JP5330046B2

JP5330046B2 - 共起表現抽出装置及び共起表現抽出方法

Info

Publication number: JP5330046B2
Application number: JP2009070819A
Authority: JP
Inventors: 康太中田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-03-23
Filing date: 2009-03-23
Publication date: 2013-10-30
Anticipated expiration: 2029-03-23
Also published as: JP2010224823A

Description

本発明は、テキストマイニングの分野において大量の時系列テキストから冗長な表現を除いた有効な共起表現の抽出を行う共起表現抽出装置及び共起抽出方法に関する。

近年、ウェブ掲示板などでますます大量のテキストが電子的に蓄えられている。例えば薄型テレビに関するある風評の掲示板では１年間で２０，０００件を越える記事が書き込まれており、含まれる文章の数は１００，０００文を上回っている。これらの大量のテキストは話題の対象に関する重要な知見を含んでいると考えられる一方、その大量さから人間がすべてを監視し客観的に知識を抽出することは非常に難しくなっている。そのため、大量のテキストの具体的な内容を把握するための方法として、テキストマイニングの手法は重要な技術であると言える。このテキストマイニング技術を用いてウェブサイトから話題を抽出する方法も多く提案されており、例えば、キーワード抽出とキーワードの階層化を用いて具体的な話題を抽出する技術が行われている(特許文献１参照)。

ここで、テキストから内容についての知識を得るためのよりシンプルな手法として、共起表現の抽出が挙げられる。共起表現の抽出は、一般的に頻出する表現と共に共起する表現であって、例えば、テキストに頻出する単語と基に共起する単語を抽出することによって、テキストの内容を表す単語の組合せを自動抽出する手法である。このような手法を用いることで、大量のテキストから一定の基準で共起表現を抽出することが可能となり、テキストの話題を具体的に知ることができる。

一方、テキストにおいて出現頻度の高い単語は一般的な語である場合が多い。よって従来の頻度に基づいた共起表現抽出方法では、上位の一般的な語の同士の冗長な共起表現が多く取り出され、重要な話題を見逃してしまう可能性が高い。

冗長な組合せの例として、あるメーカーのテレビについて風評ウェブサイト掲示板から頻度の高い共起表現を抽出した結果を図１４に示す。図１４では「録画−ＨＤＤ」「ＬＡＮ−ＨＤＤ」といった具体的な話題を表す組合せも抽出されているものの、大半は「う−こと」など意味のない組合せになってしまっていることが分かる。

このような冗長な表現を取り除く有力な方法の１つとして差分解析が挙げられる。差分解析は注目するテキストとその他のテキストにおいて出現頻度の差が大きい単語を抽出する手法である。差分解析により注目するテキストとその他のテキストの両方に現れる一般的な語を取り除き、注目するテキストに偏って現れる特徴的な単語のみを抽出することが可能になる。

通常、差分解析における注目するテキストとその他のテキストは、テキストに関する事前知識を用いて決定される。代表的な例としては、意見ラベルに注目した差分解析が挙げられる。例えばあるアンケートの意見ラベル「要望・悪い意見」の記述に特有の話題を抽出したい場合、「要望・悪い意見」のテキストと「良い意見・その他の感想」のテキストで差分解析を行うことが有効であると考えられる。

しかし、例えば風評ウェブサイトの掲示板のようなテキストにおいて共起表現の抽出を行う際には、同様の差分解析を用いることは難しい。

風評ウェブサイトの掲示板のテキストでは、必ずしも記事に「良い意見」「悪い意見」といったラベルが付与されていないことがあり、単純に差分解析を行えない場合が考えられる。前述のようにウェブサイト上のテキストは大量に存在するため、記事のすべてにラベルを付与されることは難しい。

風評ウェブサイトの掲示板の記事全てにラベルが付与されているケースとしては、書き手が自ら記事にラベルを付与している場合が考えられる。近年の掲示板ではこのような書き込み方法が採用されていることも多く、サイト内のすべての記事に意見ラベルが付与されていることも期待できる。しかし、仮にすべての記事に対して意見ラベルが付与されている場合でも、風評ウェブサイトの性質から書き込まれた記事の多くは「感想」や「質問」であり、「良い意見」といったその他のテキストが非常に少量しか存在しない場合が多い。テキストの量がアンバランスである場合には差分解析は有効に機能しないことが多いため、書き手により意見ラベルが与えられている場合でも差分解析を用いることは難しいと言える。

前述のように、テレビのような製品に関する風評であればメーカー間の差分解析による抽出も考えられる。しかし、単語の抽出と異なり、共起表現の抽出ではメーカーの特有の単語と一般的な単語の組合せが多く生じてしまい、結果的には多くの冗長な組合せが生じてしまう。

ここで、図１５にて、テレビについての風評ウェブサイト掲示板から、差分解析によりあるメーカーに特有の共起表現を抽出した結果を示す。製品Ａは注目したメーカーの製品である。製品Ａを含む共起表現の組合せは、他のメーカーの記事ではほとんど出現しないため、ここではメーカーに特有の共起表現として抽出される。しかし、実際には製品Ａと共起する語には一般的な語が多く含まれているため、図１５に示すように、多くの冗長な組合せを含んでしまっている。

一方で、メーカーに特有な語同士の共起表現のみを抽出した場合、例えば「製品Ａ−故障」といった重要な話題を見落としてしまう可能性がある。

他の事前知識を利用した差分解析においても同様の問題が発生するため、風評ウェブサイトの掲示板のようなテキストから差分解析を用いて冗長な共起表現を取り除くことは難しい。

以上の説明から、従来では、風評ウェブサイトの掲示板のような大量の時系列テキストデータに対して従来の頻度や差分解析により共起表現の抽出を行った場合、冗長な組合せが多く取り出されてしまい、重要な話題が見逃されてしまう可能性が高いという問題があった。

特開２００８−４０６３６号

本発明はこのような問題を考慮してなされたもので、ウェブ掲示板の書き込みのように時系列情報を持つテキストデータから抽出される候補語に対して時間変化を基準に特徴区間を付与し、特徴区間と非特徴区間のテキストで差分解析を行うことで、冗長な組合せを大きく削減した共起抽出を実現する共起表現抽出装置を提供することを目的とする。

上記目的を達成するために、本発明の共起表現抽出装置は、「記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータを格納する時系列テキストデータ格納部と、抽出対象となる単語の品詞情報を格納した対象品詞格納部と、前記時系列テキストデータ格納部の記事内容から、前記対象品詞格納部に格納された前記品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する頻出候補語抽出部と、前記頻出候補語抽出部にて抽出された候補語を含むリストを格納する頻出候補単語リスト格納部と、特徴区間を定義するフィルタを格納した特徴区間フィルタ格納部と、前記候補語ごとに、前記時間情報に対応する複数の区間において前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求めるともに、前記時系列ヒストグラム及び前記フィルタを用いて時間的に特徴のある区間を示す区間情報を付与する特徴区間付与部と、前記特徴区間付与部にて区間情報を付与された各単語を格納する特徴区間付き単語リスト格納部と、前記特徴区間付き単語リスト格納部にて格納された前記単語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する区間差分解析部と、前記共起表現リストを表示する結果表示部と、を具備する」ことを特徴としている。

また、本発明の共起表現抽出方法は、「記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータの記事内容から、抽出対象となる単語の品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する工程と、前記抽出された候補語ごとに、前記時間情報に対応する複数の区間において、前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求める工程と、前記候補語ごとに、前記時系列ヒストグラム及び特徴区間を定義するフィルタを用いて時間的に特徴のある区間を示す区間情報を付与する工程と、前記区間情報を付与された候補語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する工程と、前記共起表現リストを表示する工程と、を具備する」ことを特徴としている。

本発明によれば、大量の時系列テキストデータにおける共起表現抽出において、自動的に冗長な組合せを取り除き重要な組合せを抽出することができる。

本発明の実施形態に係る共起表現抽出装置の全体構成を示すブロック図。本発明の実施形態に係る時系列テキストデータを形態素解析して得られた記事内容の例を示すテーブル。本発明の実施形態に係る頻出候補単語リスト格納部に格納されている頻出候補語リストの例を示すテーブル。本発明の実施形態に係る対象品詞格納部の例を示すテーブル。本発明の実施形態に係る特徴区間付き単語リスト格納部に格納されているリストの例を示すテーブル。本発明の実施形態に係る頻出候補抽出部の処理を示すフローチャート図。本発明の実施形態に係る特徴区間付与部の処理を示すフローチャート図。本発明の実施形態に係る時系列ヒストグラムの例を示す図。本発明の実施形態に係る時系列ヒストグラム生成Ｓ５３の処理を示すフローチャート図。本発明の実施形態に係る特徴区間フィルタの例を示す図。本発明の実施形態に係る区間差分解析部の処理を示すフローチャート図。本発明の実施形態に係る結果表示部にて表示された例を示すテーブル。本発明の実施形態に係る区間差分改正部の詳細な処理を示すフローチャート図。従来技術における風評ウェブサイト掲示板から頻度の高い共起表現を抽出した例を示すテーブル。従来技術における差分解析により得られた特有の共起表現を抽出した例を示すテーブル。

以下、本発明の実施形態について図面を用いて説明する。

図１は、本発明の一実施形態に係る共起表現抽出装置１の全体構成例を示すブロック図である。図１に示されるように、本発明の実施形態に係る共起表現抽出装置１は、時系列テキストデータ格納部１１、頻出候補語抽出部１２、頻出候補単語リスト格納部１３、対象品詞格納部１４、特徴区間付与部１５、特徴区間付き単語リスト格納部１６、特徴区間フィルタ格納部１７、区間差分解析部１８、および結果表示部１９から構成されている。

時系列テキストデータ格納部１１は、時系列テキストデータを格納する。時系列テキストデータとは、記事のＩＤと記事内容と記事が生成された時間情報からなるデータを示す。図２に本発明の実施形態に係る時系列テキストデータの例を示す。図２に示すように、時系列テキストデータ格納部１１は、ＩＤ、時間帯、記事内容の項目を有するテーブルが保存されている。ここで記事内容は形態素解析により語尾の変化などを吸収した形で単語に切り分けられていることが望ましい。

頻出候補語抽出部１２は、注目する区間全ての時系列テキストデータの記事内容に出現する単語の出現回数を計算し、後述の対象品詞格納部１４に格納されている対象品詞であり、かつ出現回数がある閾値以上を満たす単語を頻出候補単語として抽出する。

頻出候補単語リスト格納部１３は、頻出候補単語抽出部１２により抽出された単語とその出現回数を格納する。頻出候補語格納部１３に格納されている頻出候補語リストの例を図３に示す。

図３に示すように、頻出候補単語リスト格納部１３は、順位、頻出候補語及び出現回数の項目を有するテーブルが保存されている。頻出候補単語リスト格納部１３では、対象品詞を話題や評価を表す品詞に限ることで、共起表現の抽出に用いる候補語を削減することができる。また、後述するように、ある程度冗長な組合せを減らすことが可能になっている。また単語の最低出現回数を小さくしておくことで、綴りの間違えや珍しい固有名詞のみを候補語から除くことができ、同様にある程度冗長な組合せを減らすことが可能になっている。

対象品詞格納部１４は、共起表現の候補として抽出するべき対象品詞を格納する。この対象品詞は、例えば話題として用いられる名詞や具体的な評価を表す形容詞などを選択しておくと、冗長な組合せの候補が削減できるため好適である。図４に対象品詞の例を示す。

図４に示すように、対象品詞格納部１４は、＜＞内の名称は形態素解析において品詞を表す名称で、例えば＜名＞は名詞、＜形＞は形容詞を表している。ここで、二つの品詞が「／」で繋がれた場合には、この品詞が組み合わさった場合の複合語を１語と扱い取り出すことになる。例えば＜頭＞／＜名＞では接頭語と名詞の組合せを表しており、例として「新システム」や「他メーカー」などが挙げられる。このように対象品詞を設定することで、例えば接頭語の「新」や「他」など単独では意味を持ちにくい語を削除することが可能になり、冗長な組合せが発生しにくくなる。

特徴区間付与部１５は、候補語読込部１５１、ヒストグラム生成部１５２、フィルタ作用部１５３にて構成されている。

特徴区間付与部１５は、後述の特徴区間フィルタ格納部１７に格納されている特徴区間フィルタを読み込み、頻出候補単語リスト格納部１３に格納されている頻出候補語を順番に選択し、各頻出候補語の出現に基づく時系列ヒストグラムを生成し、時系列ヒストグラムが特徴区間フィルタの基準を満たしている区間を特徴区間として単語に付与する。

具体的には、候補語読込部１５１は、後述するように、頻出候補単語格納リスト格納部１３の頻出候補語を順番に選択する。また、ヒストグラム生成部１５２は、後述するように、候補語読込部１５１にて選択された各候補語の一定区間ごとの出現率を計算し、時系列テキストデータ格納部１１を読み込んで、時間情報と出現率からなる時系列ヒストグラムを一時的に各候補語に付与する。フィルタ作用部１５３は、後述するように、特徴区間フィルタ格納部１７に格納されている特徴区間フィルタを読み込み、ヒストグラム生成部１５２にて候補語に付与された時系列ヒストグラムの時間情報と出現率を用いて、時系列ヒストグラムから特徴区間を抽出して候補語に付与し、特徴区間付き単語リスト格納部１６に出力する。

特徴区間付き単語リスト格納部１６は、特徴区間付与部１５により特徴区間を付与された単語を格納する。

ここで、特徴区間付き単語リスト格納部１６に格納されている特徴区間付き単語リストの例を図５に示す。ここで特徴区間「ｗ＊」は各頻出候補語が特徴的に出現する区間を表している。特徴区間数は、各頻出候補語の特徴区間の数を表している。

図５に示すように、ユーザが最低区間数を設定することで、特徴的に出現する回数が少なく重要でないと考えられる頻出候補語を候補から削除することができ、共起表現抽出時にある程度冗長な組合せを減らすことが可能になっている。例えば最小区間数を１０と設定すると、図５の例では「購入」、「テレビ」、「価格」が特徴区間付き単語リストから除外されることになる。

特徴区間フィルタ格納部１７は、単語の出現に基づく時系列ヒストグラムにおける特徴区間を定義するフィルタを格納する。特徴区間フィルタとして、例えば選択された単語のある区間での出現回数が、その単語の出現回数の平均と標準偏差の和を大きく上回った区間を特徴区間として抽出するというフィルタが考えられる。

区間差分解析部１８は、特徴区間付き単語リスト格納部１６に格納された特徴区間付き単語を選択し、時系列テキストデータ格納部１１に格納された各特徴区間と非特徴区間における時系列テキストデータを用いて差分解析を行うことで、各特徴区間に特有の共起表現を抽出する。

結果表示部１９は区間差分解析部１８により抽出された共起表現と特徴区間を表示する。

以下、共起表現抽出装置１における動作を図面を用いて説明する。なお、本発明形態においては時系列テキストデータの記事内容は図２のように形態素解析済みの形で得られており、記事内容中の各単語には対応する品詞が付与されているものとする。また、時系列テキストデータは２００７年１月７日から２００８年５月１８日までの７２週間が対象であるとする。

図６は、頻出候補語抽出部１２における処理の具体例を示すフローチャートである。

まず、頻出候補語抽出部１２は、全ての時系列テキストデータの記事内容中で選択されていない単語が存在するか否かを判断する(Ｓ２１)。もし記事内容に選択する単語があって選択されていない単語が存在すれば(Ｓ２１のＹｅｓ)、頻出候補語抽出部１２は、時系列テキストデータ格納部１１に格納されている記事内容から、未だに選択されていない単語を選択する(Ｓ２２)。

次に、頻出候補語抽出部１２は、選択された単語の品詞が対象品詞格納部１４に格納されている対象品詞であるか否かを判断する(Ｓ２３)。もし対象品詞であれば(Ｓ２３のＹｅｓ)、頻出候補語抽出部１２は、選択された単語がすでに頻出候補語リストに登録済みか否かを判断する(Ｓ２４)。一方、選択された単語が対象品詞でない場合には(Ｓ２３のＮｏ)、頻出候補語抽出部１２は、全ての時系列テキストデータの記事内容中で選択されていない単語が存在するか否かを判断する(Ｓ２１)。

さらに、頻出候補語抽出部１２は、選択された単語がすでに頻出候補語リストに登録済みか否かを判断する(Ｓ２４)。もし選択された単語がすでに頻出候補語リストに登録されていなければ(Ｓ２４のＮｏ)、頻出候補語抽出部１２は、選択された単語を頻出候補語リストに加え、出現回数を１回とする(Ｓ２５)。一方、選択された単語が登録済みであれば(Ｓ２４のＹｅｓ)、頻出候補語抽出部１２は、選択された単語の頻出候補語リスト上の出現回数に１を加える(Ｓ２６)。

もし記事内容に選択する単語がなくて全ての単語が選択済みであれば(Ｓ２１のＮｏ)、頻出候補語抽出部１２は、出現回数がユーザの設定した最低出現回数を下回った単語を頻出候補語リストから除外する(Ｓ２７)。

そして、頻出候補語抽出部１２は、単語とその出現回数からなる頻出候補語リストを頻出候補語リスト格納部１３に格納し、処理を終了する(Ｓ２８)。

以上の処理により、時系列テキストデータから頻出候補語リストを抽出することができる。

図７は、特徴区間付与部１５における処理の具体例を示すフローチャートである。

まず、特徴区間付与部１５の候補単語読込部１５１は、時系列テキストデータ格納部１１１を読み込み、頻出候補単語格納部１３に格納されている頻出候補単語の中で選択されていない単語が存在するか否かを判断する(Ｓ５１)。もし選択されていない単語が存在すれば(Ｓ５１のＹｅｓ)、特徴区間付与部１５の候補単語読込部１５１は、頻出候補単語格納部１３に格納されている頻出候補単語を１つ選択する(Ｓ５２)。ここでは選択された単語をajで表す。一方、もし全ての単語が選択済みであれば(Ｓ５１のＮｏ)、特徴区間付与部１５の候補単語読込部１５１は、処理を終了する。

次に、特徴区間付与部１５のヒストグラム生成部１５２は、選択された単語の時系列ヒストグラムを図９のフローによって生成する(Ｓ５３)。時系列ヒストグラムは、選択された単語がどの時期にどの程度出現したかを時系列で表したものである。時系列ヒストグラムの一例を図８に示す。図８の例では横軸は時間、縦軸は出現率となっている。

図８の時系列ヒストグラムを生成する手段について、図９のフローチャートを用いて説明する。

まず、特徴区間付与部１５のヒストグラム生成部１５２は、共起表現抽出の対象となる時系列テキストデータの含まれる区間を候補区間に分割する(Ｓ５３１)。候補区間の長さは図８の横軸の１点に相当する。本実施例では時系列テキストデータの区間は７２週間であるため、候補区間の長さを１週間とすると候補区間の数は７２となる。この例では２００７年１月７日から数えて第i週の候補区間を以下の式で表すこととする。

次に、特徴区間付与部１５のヒストグラム生成部１５２は、未選択の候補区間が存在するか否かを判別する(Ｓ５３２)。もし未選択の候補区間が存在した場合には(Ｓ５３２のＹｅｓ)、特徴区間付与部１５のヒストグラム生成部１５２は、１つの候補区間を選択する(Ｓ５３３)。ここでは候補区間Wiが選択されたとする。一方、全ての候補区間が選択済みの場合には(Ｓ５３３のＮｏ)、特徴区間付与部１５のヒストグラム生成部１５２は、処理を終了する。

また、特徴区間付与部１５のヒストグラム生成部１５２は、選択された候補区間に含まれる時系列テキストデータを抽出する(Ｓ５３４)。この抽出には時系列テキストデータの時間情報を用いる。

さらに、特徴区間付与部１５のヒストグラム生成部１５２は、選択された候補区間において、Ｓ５２において選択された単語aの出現率FRi^(aj)を計算する(Ｓ５３５)。ここでFRi^(aj)は、例えば候補区間iに含まれる時系列テキストデータ数fiと、同じく候補区間iに出現する単語aj数fi^(aj)を用いて以下の式で表される。

以上の処理により、単語ajに関する出現率の時系列ヒストグラムが生成される。

図７に戻って、特徴区間付与部１５のフィルタ作用部１５３は、特徴区間フィルタ格納部１７に格納されている特徴区間フィルタにより、単語ajに関する出現率の時系列ヒストグラムを検査することで、基準を満たす特徴区間を決定する。なお、特徴区間付与部１５のフィルタ作用部１５３は、時系列ヒストグラムの平均と標準偏差の値を求めておく。(Ｓ５４)。

ここで、特徴区間フィルタ格納部１７に保存されている特徴区間フィルタと検査方法の具体例を図１０に示す。図１０に示すように、特徴区間フィルタはある単語の出現率が平均と標準偏差の和を上回ったときの区間を特徴区間として抽出する。図１０の例では、単語ajの出現率について検査を行い出現率がフィルタの条件を満たした候補区間i1、i2、i3を特徴区間としている。この特徴区間フィルタは、単語ajに関する議論が急激に盛り上がった場合を特徴区間とみなすことを表している。ウェブサイトの掲示板のようなテキストデータでは、ある書き込みに対してレスと呼ばれる書き込みが連続して連なるケースがあるため、このようなフィルタは現実的であると言える。

図７に戻って、特徴区間付与部１５のフィルタ作用部１５３は、抽出された特徴区間の数がユーザが設定した最小区間数以上であるか否かを判別する(Ｓ５５)。もし特徴区間の数が最小区間数以上である場合には(Ｓ５５のＹｅｓ)、特徴区間付与部１５のフィルタ作用部１５３は、単語ajに特徴区間を付与し特徴区間付き単語リスト格納部に出力する(Ｓ５６)。ここで、前述の議論が急激に盛り上がった場合を特徴区間とみなす特徴区間フィルタを用いた場合には、最小区間数は、７２週間でajが何回話題として盛り上がったときにＳ５６に進むかを表す数になる。ユーザは、例えば最小区間数を１８とすることで月に１度程度盛り上がるajを特徴区間付き単語リストに出力するといった設定が可能である。話題として急激に頻度が上がることが少ないajは特徴区間付き単語リストには含まれないため、共起表現抽出に用いる冗長な候補を削減することが可能である。

一方、もし特徴区間の数が最小区間数未満である場合には(Ｓ５５のＮｏ)、Ｓ５１に戻る。

以上の処理により、頻出候補語リストから、図５に示すような単語が特徴的に出現する特徴区間を付与した特徴区間付き単語リストを出力することができる。ここで、特徴区間付き単語とは、単語が特徴的に出現する特徴区間と頻出候補語を組み合わせたものをいう。

図１１は、区間差分解析部１８における処理の具体例を示すフローチャートである。

まず、区間差分解析部１８は、特徴区間付き単語リスト格納部１６に格納されている特徴区間付き単語リスト中で選択されていない単語が存在するか否かを判断する(Ｓ８１)。もし選択されていない単語が存在すれば(Ｓ８１のＹｅｓ)、区間差分解析部１８は、未選択の特徴区間付き単語を１つ選択する(Ｓ８２)。ここでは選択された単語をAjとする。一方、全ての単語が選択済みであれば(Ｓ８１のＮｏ)、区間差分解析部１８は、処理を終了する。

次に、区間差分解析部１８は、選択された特徴区間付き単語を用いて、各特徴区間に特有の共起表現リストを抽出し、結果表示部１９に出力する(Ｓ８３)。

この処理により結果表示部１９に出力される共起表現リストの例を図１２に示す。

図１２に示すように、結果表示部１９では、抽出された共起表現とその共起表現が特徴的に出現している特徴区間が示されている。ここで、特徴区間内の括弧内の４つの数字（A/B/C/D）は、Ａが特徴区間における共起表現の出現頻度、Ｂが単語１の特徴区間における出現頻度、Ｃが単語２の特徴区間における出現頻度、Ｄが特徴区間内の全テキスト数を表している。例えば、「ＵＳＢ−ＨＤＤ」の共起表現に注目すると、この共起表現はW56とＷ59とＷ71の３つの特徴区間で特徴的に出現していることが分かる。「ＵＳＢ−ＨＤＤ」の単語１と単語２はそれぞれ「ＵＳＢ」「ＨＤＤ」となり、例えばＷ56において「ＵＳＢ−ＨＤＤ」は４２回、「ＵＳＢ」は５９回、「ＨＤＤ」は１０４回、全テキストは１５４６文であったことが分かる。一般的には「ＵＳＢ」は様々な用いられ方をするデバイス名であるが、特徴区間W56では「ＵＳＢ」が出現した５９回のうち「ＨＤＤ」と４２回共起しており、「ＵＳＢ−ＨＤＤ」が特に話題になっていたことが分かる。

また、図１２の例を抽出するための特徴区間特有話題抽出ステップＳ８３の具体的な処理について、図１３のフローチャートを用いて説明する。

まず、区間差分解析部１８は、単語に付与されている特徴区間の中で未選択のものがあるか否かを判断する(Ｓ８３１)。もし特徴区間の中で未選択のものがあれば(Ｓ８３１のＹｅｓ)、区間差分解析部１８は、未選択の特徴区間を１つ選択する(S８３２)。ここでは選択された特徴区間をWiとする。一方、もしすべての特徴区間が選択済みであれば(Ｓ８３１のＮｏ)、区間差分解析部１８は、処理を終了する。

次に、区間差分解析部１８は、選択された特徴区間における共起頻度と、非特徴区間における共起頻度の差分D(Aj, B)を計算する(Ｓ８３３)。ここで非特徴区間とは、Ajに特徴区間として付与されている区間を除いた全ての候補区間を表している。差分D(Aj, B)は例えば以下の式を用いて計算される。ただし、以下の式において、特徴区間Wiにおけるテキスト数をf_Wi、Wiにおける単語Ajと単語Bが共起する回数をf_Wi^(Aj∩B)、非特徴区間におけるテキスト数をf_N、非特徴区間で単語Ajと単語Bが共起する回数をf_N^(Aj∩B)としている。

さらに、区間差分解析部１８は、差分D(Aj, B)があらかじめ定められた最小共起率差よりも大きいか否かを判断する(Ｓ８３４)。もしD(Aj, B)が最小共起率差よりも大きければ(Ｓ８３４のＹｅｓ)、区間差分解析部１８は、共起表現と選択されている特徴区間Wiを結果表示部１９に出力する(S８３５)。一方で、もしD(Aj, B)が最小共起率差未満であれば(Ｓ８３４のＮｏ)、S８３１に戻る。

以上の処理により、特徴区間付き単語リストから、差分解析により特徴区間に特徴的に出現する共起表現を抽出することができる。特徴区間と非特徴区間の差分解析を行うことで、フィルタの条件を満たした記事に特有の共起表現を抽出していることになる。

以上のように、本実施例では、フィルタは話題が急激に盛り上がった区間を特徴区間としているため、本処理を行うことで話題が盛り上がった区間でどのようなことが話題になっているかを抽出できると考えられる。また同一の掲示板情報の異なる区間を用いて差分解析を行っているため、掲示板の全テキストで共通に出現する共起表現は削除されることになり、冗長な組合せを大きく削減することができる。

(比較例)
実際に、従来技術によって得られた図１４や図１５の結果と本発明によって得られた図１２の結果を比較すると、本発明によって、数万にも及ぶ組合せの中から、有効な１２組の共起表現が抽出できていることが分かる。

なお、本発明は、上記した各実施の形態には限定されず、種々変形して実施できることは言うまでもない。例えば、上記実施形態では、特徴区間フィルタ格納部１７において、特徴区間フィルタとして出現率の急激な増加を表すために出現率の平均と標準偏差を用いたが、ここに統計的な検定の基準を用いることも可能である。また急激な変化だけでなく、段階的な変化を特徴区間とする特徴区間フィルタを用いることも可能である。また区間差分解析部１８において、特徴区間と非特徴区間の差分を計算したが、例えば特徴区間同士を比較し差分解析を行うことも可能である。

要するに、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより、種々の形態を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１…共起表現抽出装置
１１…時系列テキストデータ格納部
１２…頻出候補語抽出部
１３…頻出候補単語リスト格納部
１４…対象品詞格納部
１５…特徴区間付与部
１６…特徴区間付き単語リスト格納部
１７…特徴区間フィルタ格納部
１８…区間差分解析部
１９…結果表示部
１５１…候補単語読込部
１５２…ヒストグラム生成部
１５３…フィルタ作用部

Claims

記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータを格納する時系列テキストデータ格納部と、
抽出対象となる単語の品詞情報を格納した対象品詞格納部と、
前記時系列テキストデータ格納部の記事内容から、前記対象品詞格納部に格納された前記品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する頻出候補語抽出部と、
前記頻出候補語抽出部にて抽出された候補語を含むリストを格納する頻出候補単語リスト格納部と、
特徴区間を定義するフィルタを格納した特徴区間フィルタ格納部と、
前記候補語ごとに、前記時間情報に対応する複数の区間において前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求めるともに、前記時系列ヒストグラム及び前記フィルタを用いて時間的に特徴のある区間を示す区間情報を付与する特徴区間付与部と、
前記特徴区間付与部にて区間情報を付与された各単語を格納する特徴区間付き単語リスト格納部と、
前記特徴区間付き単語リスト格納部にて格納された前記単語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する区間差分解析部と、
前記共起表現リストを表示する結果表示部と、
を具備することを特徴とする共起表現抽出装置。
前記区間差分解析部は、選択された単語に付与された特徴区間に含まれるテキストとその他の区間に含まれるテキストを用いて差分解析を行うことを特徴とする請求項１記載の共起表現抽出装置。
前記特徴区間付与部は、選択された単語に対して前記フィルタにより決定される基準を満たした区間の時間情報を付与することを特徴とする請求項１の共起表現抽出装置。
前記特徴区間付与部は、
前記頻出候補単語リスト格納部の候補語を順番に選択する候補語読込部と、
前記候補語読込部にて選択された各候補語の一定区間ごとの出現率を計算し、前記時系列テキストデータに基づいて、時間情報と出現率からなる時系列ヒストグラムを各候補語に付与するヒストグラム生成部と、
前記フィルタに基づき、前記ヒストグラム生成部にて候補語に付与された時系列ヒストグラムの時間情報と出現率を用いて、前記時系列ヒストグラムから特徴区間を抽出して前記候補語に付与するフィルタ作用部と、
を具備することを特徴とする請求項１記載の共起表現抽出装置。
記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータの記事内容から、抽出対象となる単語の品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する工程と、
前記抽出された候補語ごとに、前記時間情報に対応する複数の区間において、前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求める工程と、
前記候補語ごとに、前記時系列ヒストグラム及び特徴区間を定義するフィルタを用いて時間的に特徴のある区間を示す区間情報を付与する工程と、
前記区間情報を付与された候補語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する工程と、
前記共起表現リストを表示する工程と、
を具備することを特徴とするコンピュータが実行する共起表現抽出方法。