JP2011164791A

JP2011164791A - 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム

Info

Publication number: JP2011164791A
Application number: JP2010024718A
Authority: JP
Inventors: Tsutomu Matsunaga; 務松永; Takashi Suenaga; 高志末永
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2010-02-05
Filing date: 2010-02-05
Publication date: 2011-08-25
Anticipated expiration: 2030-02-05
Also published as: JP5331723B2

Abstract

【課題】特定のカテゴリに対応する適切な特徴語を効率的に抽出する。
【解決手段】複数の文書データに含まれる単語対が共起する文書データの数を示す第１の出現頻度と、指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第２の出現頻度とを算出し、第２の出現頻度から第１の出現頻度を除算した値を共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをＮ×Ｎの対称行列である行列データとして生成し、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出し、単語毎のクラスタに対する帰属度を算出し、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出する。
【選択図】図１

Description

本発明は、文書データに含まれる単語から、カテゴリ判定のための適切な特徴語を抽出する技術に関する。

近年では、様々な情報が電子化された文書データがコンピュータによって処理されており、このような文書データを、その内容に応じてカテゴリ毎に分類する技術が研究されている。例えば、予め定められた複数のカテゴリ毎に、そのカテゴリの文書データに特徴的に現れる語である特徴語を定めておき、カテゴリの判定対象となる文書データに含まれる語と定められた特徴語とを比較して、特徴語が含まれるか否かを判定することにより判定対象の文書データがそのカテゴリに属するか否かを判定する。このような技術を用いれば、例えば、様々なジャンルのニュース記事を、その内容に応じて「スポーツ」、「経済」などのカテゴリに分類したり、医療に関する記述が含まれる医療文書データを、「癌」、「糖尿病」などのカテゴリに分類したりすることができる。このような技術は、例えばテキストマイニングなどに利用することができる。ここで、特定のカテゴリに対応する特徴語は予め定めておく必要があるが、文書データに現れる語の表記は統一されたものであるとは限らない。また、カテゴリ判定のための適切な特徴語を選定することには専門知識が必要である上に、社会情勢などによっても変化する。このため、特定のカテゴリに対応する適切な特徴語を効率的に抽出する技術が望まれている。

例えば、特許文献１には、予めカテゴリが対応付けられた複数の文書データについて、その文書データ内に現れる単語の出現頻度を算出し、算出した出現頻度に基づいて、そのカテゴリに対する各単語の重要度を算出する技術が記載されている。これによれば、カテゴリ毎に算出された重要度に基づいて、カテゴリに対応する単語を判定することができる。ここで単語の出現頻度に基づいて重要度を算出する際には、様々な統計尺度が用いられる。例えば、非特許文献１や非特許文献２に示されるように、カテゴリ間で出現頻度の偏りの大きな単語、例えば注目するカテゴリにおいては出現頻度が高いがその他のカテゴリにおいては出現頻度が低い単語の重要度を高くし、いずれのカテゴリにも同様に出現する単語の重要度を低くするような、相互情報量や情報利得といった統計尺度が用いられている。

特開２００７−２４１６３６号公報

田中他、「コーパスによる難解語・重要語の抽出−医療用語を例に−」、社会言語科学会、２００８年ＳＥＢＡＳＴＩＡＮＩＦ．、「Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｉｎａｕｔｏｍａｔｅｄｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ」、ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ、３４、１−４７、２００２

しかしながら、単語の出現頻度の偏りに着目する判定方法では、単語の出願頻度が低くなるに従って結果の信頼性が低下する傾向がある。例えば、特定のカテゴリにおいて他のカテゴリよりも相対的に出現頻度が高い「アナフィキラシー」や「カドミウム」などの具体的な単語と、同様にそのカテゴリにおいて他のカテゴリよりも相対的に出現頻度が高い「適当」のような一般的な単語とは、同様に重要度が高くなる。このとき、「適当」のような一般的な単語よりも、「アナフィキラシー」や「カドミウム」のような具体的な単語の方が、そのカテゴリをより特徴的に表す単語であると考えられる。そこで、特定のカテゴリに対応する適切な特徴語をより効率的に抽出する技術が望まれる。

本発明は、このような状況に鑑みてなされたもので、特定のカテゴリに対応する適切な特徴語をより効率的に抽出する特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラムを提供する。

上述した課題を解決するために、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部と、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第１の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第２の出現頻度とを算出し、算出した第２の出現頻度から第１の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをＮ×Ｎの対称行列である行列データとして生成する単語処理部と、単語処理部によって生成された行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するクラスタ抽出部と、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出する帰属度算出部と、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出する特徴語抽出部と、を備えることを特徴とする。

また、本発明は、単語処理部が、クラスタ抽出部によって抽出されたクラスタの数は抽出することが予め定められたクラスタ数未満であると判定すると、クラスタへの帰属度に基づいてネットワークデータを更新し、クラスタ抽出部は、更新されたネットワークデータに基づいてクラスタを抽出することを特徴とする。

また、本発明は、帰属度算出部が、固有ベクトルのうち最大値をもつ固有ベクトルに対応する要素を規格定数として、固有ベクトルの要素と規格定数との比である帰属度を算出することを特徴とする。

また、本発明は、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置の特徴語抽出方法であって、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第１の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第２の出現頻度とを算出し、算出した第２の出現頻度から第１の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをＮ×Ｎの対称行列である行列データとして生成するステップと、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出するステップと、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するステップと、を備えることを特徴とする。

また、本発明は、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置のコンピュータに、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第１の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第２の出現頻度とを算出し、算出した第２の出現頻度から第１の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをＮ×Ｎの対称行列である行列データとして生成するステップと、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出するステップと、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するステップと、を実行させる特徴語抽出プログラムである。

以上説明したように、本発明によれば、複数の文書データに含まれる単語対が共起する文書データの数を示す第１の出現頻度と、指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第２の出現頻度とを算出し、第２の出現頻度から第１の出現頻度を除算した値を共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをＮ×Ｎの対称行列である行列データとして生成し、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出し、単語毎のクラスタに対する帰属度を算出し、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するようにしたので、特定のカテゴリに対応する適切な特徴語を効率的に抽出する特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラムを提供することができる。

本発明の一実施形態による特徴語抽出装置の構成例を示すブロック図である。本発明の一実施形態による文書データの例を示す図である。本発明の一実施形態による文書毎単語リストのデータ例を示す図である。本発明の一実施形態による文書データ記憶部に記憶される行列データのデータ例を示す図である。本発明の一実施形態によるネットワークデータの概念を示す図である。本発明の一実施形態によるクラスタの概念を示す図である。本発明の一実施形態による帰属度記憶部に記憶される帰属度のデータ例を示す図である。本発明の一実施形態によるカテゴリ別特徴語記憶部に記憶されるカテゴリ毎の特徴語のデータ例を示す図である。本発明の一実施形態による特徴語抽出装置の動作例を示すフローチャートである。本発明の一実施形態による特徴語抽出装置のクラスタ抽出処理を示すフローチャートである。本発明の一実施形態による特徴語抽出装置の固有値展開処理を示すフローチャートである。本発明の一実施形態による帰属度記憶部に記憶される帰属度のデータ例を示す図である。本発明の一実施形態によるカテゴリ別特徴語記憶部に記憶されるカテゴリ毎の特徴語のデータ例を示す図である。

以下、本発明の一実施形態について、図面を参照して説明する。
図１は、本実施形態による特徴語抽出装置１００の構成を示すブロック図である。特徴語抽出装置１００は、記憶部１１０と、入力部１２０と、形態素解析部１３０と、単語処理部１４０と、クラスタ抽出部１５０と、帰属度算出部１６０と、特徴語抽出部１７０と、結果表示部１８０とを備えている。

記憶部１１０には、特徴語抽出処理のために用いる情報が記憶される。記憶部１１０は、文書データ記憶部１１１と、文書毎単語リスト記憶部１１２と、カテゴリ別ネットワークデータ記憶部１１３と、帰属度記憶部１１４と、カテゴリ別特徴語記憶部１１５とを備えている。
文書データ記憶部１１１には、複数の単語が含まれる複数の文書データと、その文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される。図２は、文書データ記憶部１１１に記憶される文書データの例を示す図である。文書データには、文書ＩＤと、文書カテゴリと、文書内容との情報が含まれる。文書ＩＤは、文書データを識別する識別情報である。文書カテゴリは、対応する文書内容に応じたカテゴリを示す情報である。カテゴリとは、文書データに含まれる語の内容に応じた分類を示し、例えば、新聞記事における「スポーツ」や「経済」などのジャンルである。あるいは、例えば医療文書における「栄養障害」や「内分泌・代謝疾患」、「消化器疾患」等の疾患分野である。文書内容には、複数の単語や文が含まれる。

文書毎単語リスト記憶部１１２には、複数の文書データ毎に、その文書データに含まれる複数の単語が対応付けられて記憶される。図３は、文書毎単語リスト記憶部１１２に記憶される文書毎単語リストのデータ例を示す図である。このように、文書毎単語リスト記憶部１１２には、文書データ記憶部１１１に記憶された文書データを示す文書ＩＤ毎に、その文書データの文書内容が形態素解析されて抽出された単語が対応付けられて記憶される。

カテゴリ別ネットワークデータ記憶部１１３には、カテゴリ毎に、文書データに含まれる単語間の関連の強さを示す共起度を要素としたＮ×Ｎの行列データが記憶される。図４は、カテゴリ別ネットワークデータ記憶部１１３に記憶される行列データの例を示す図である。ここでは、例えばＡ、Ｂ、Ｃ、・・・は文書データに含まれる単語を示し、行列の要素は単語間の関連の強さを０から１までの値で示す共起度である。０は、そのカテゴリ内で一度も出現していないことを示す。このような行列データは、図５に示すようなネットワークデータを構成する。ここで、ネットワークデータにおける各ノード（丸印）は各語Ａ〜Ｊに相当し、単語間の共起度はエッジに相当する。この例では、語Ａは、語Ｂ、Ｃ、Ｄ、Ｆと共起があり、語Ｂは、語Ａ、Ｃ、Ｅと共起があり、語Ｃは、語Ａ、Ｂと共起があり、・・・、語Ｇは、語Ｉ、Ｊと共起があることを示している。

帰属度記憶部１１４には、各クラスタに対する各単語の帰属度を示す情報が記憶される。例えば、図５に示したネットワークデータは、単語を示すノード間の共起度に応じて、図６に示すようなクラスタ１とクラスタ２とに分割することができる。帰属度記憶部１１４には、このように分類されたクラスタ毎に、クラスタへの単語の帰属度が対応付けられて記憶される。図７は、帰属度記憶部１１４に記憶される帰属度のデータ例を示す図である。帰属度は、クラスタ内における各ノードに対応する要素の相対的な関係を示す値である。

カテゴリ別特徴語記憶部１１５には、複数のカテゴリ毎に、各クラスタへの帰属度に応じて抽出された特徴語が対応付けられて記憶される。図８は、カテゴリ別特徴語記憶部１１５に記憶されるカテゴリ別特徴語のデータ例を示す図である。カテゴリ別特徴語は、特徴語抽出部１７０によって帰属度記憶部１１４から抽出されて記憶される。

図１に戻り、入力部１２０は、キーボードやマウスなどの入力デバイスであり、ユーザからの情報入力を受付ける。入力部１２０には、例えば、カテゴリから抽出するクラスタ数Ｃ、帰属度の閾値τ、特徴語を抽出する指定カテゴリなどの情報が入力される。指定カテゴリは、文書データ記憶部１１１に記憶されている文書データに基づいて特徴語を抽出する対象となるカテゴリを示す情報である。

形態素解析部１３０は、入力部１２０に指定カテゴリが入力されると、文書データ記憶部１１１に記憶される文書データを全て読み出す。形態素解析部１３０は、読み出した文書データに含まれる文書内容を対象に形態素解析を行い、文書内容を形態素に分割してその品詞を判別する。形態素解析部１３０は、分割した形態素のうち助詞等の予め定められた品詞の形態素を処理対象から除外する。ここでは、予め定められた品詞の形態素を処理対象から除外した形態素のそれぞれを単語という。形態素解析部１３０は、文書ＩＤと、その文書ＩＤが示す文書データから抽出した単語とを対応付けた文書毎単語リストを、文書毎単語リスト記憶部１１２に記憶させる。

単語処理部１４０は、複数の文書データのうち、定められた単語のペアである単語対が共起する文書データの数を示す第１の出現頻度（文書データ数）と、指定カテゴリに対応する複数の文書データのうち、定められた単語のペアである単語対が共起する文書データの数を示す第２の出現頻度（文書データ数）とを算出する。また、単語処理部１４０は、算出した第２の出現頻度から第１の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出する。すなわち、共起度は以下式（１）により定義される。

共起度＝第２の出現頻度（所定のカテゴリにおける文書データにおいて共起する単語対の出現頻度）／第１の出現頻度（全文書データにおいて共起する単語対の出現頻度）
・・・（１）

また、単語処理部１４０は、各語をノードとし、共起度をエッジとしたネットワークデータを、Ｎ×Ｎの対称行列である行列データとして生成し、カテゴリ別ネットワークデータ記憶部１１３に記憶させる。ここで、行列データは、例えばｉ、ｊを単語のＩＤ、単語ｉをノードとしたとき、単語ｉと単語ｊとの関係を要素ｅ_ｉｊとする隣接行列Ｅを構成する。

クラスタ抽出部１５０は、単語処理部１４０によって生成されカテゴリ別ネットワークデータ記憶部１１３に記憶された行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出する。ここで、クラスタ抽出部１５０は、定められた複数のクラスタを抽出するようにしても良い。クラスタ抽出部１５０は、カテゴリ別ネットワークデータ記憶部１１３に記憶された行列データにおいて、クラスタの抽出対象となる語数をｎとし、ノードｉのクラスタへの帰属度をｘ_ｉとしたとき、クラスタの凝集度を次式（２）で評価する。凝集度とは、最大固有値で定義される。

ここで、ｘの右肩のＴはｘの転置を表す。Ｅ＝ｅ_ｉｊ（ｅ_ｉｉ＝０とする）は、重み付き隣接行列であり、この凝集度が最大となるｘ＝［ｘ_ｉ、・・・、ｘ_ｎ］を求める。ただし、｜ｘ｜^２＝１である。ここに、凝集度が最も高いクラスタは、次式（３）に示す、行列データ（隣接行列Ｅ）の固有値問題を解くこと、すなわち固有値展開を行うことによって得られる最大固有値の固有ベクトルにより決定される。固有値展開は、例えばヤコビ法を用いて行うことができる。

固有ベクトルｘの要素は、隣接行列Ｅが非負対称行列であることから非負値で与えられる。また、固有ベクトルｘは、最大固有値に対する一列の行列（ベクトル）からなる。クラスタ抽出部１５０は、このように算出した固有ベクトルｘに対応する複数の単語（ノード）群を、同一のクラスタに帰属する単語であると判定する。このように、クラスタ抽出部１５０はクラスタを抽出して単語の集合を得る。

帰属度算出部１６０は、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語対毎のクラスタに対する帰属度を算出する。ここで、帰属度算出部１６０は、クラスタ抽出部１５０が算出した固有ベクトルｘの要素のうち、最大値を持つｉ_＊の要素ｘ_ｉ＊を規格化定数とし、次式（４）により、最大値を１として帰属度ｍ_ｉを算出する。

ここで、帰属度算出部１６０は、所定の数のクラスタが得られるまで帰属度算出処理を繰り返し、そのカテゴリにおける、複数のクラスタに対する各要素の帰属度を算出する。このように、固有ベクトル［ｘ_ｉ、・・・、ｘ_ｎ］を最大の要素ｘ_ｉ＊で規格化することにより、そのベクトルにおける、各ノードに対応する要素の相対的な関係を帰属度として算出する。

特徴語抽出部１７０は、カテゴリに対する単語の帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを、指定カテゴリの特徴を表す特徴語として抽出する。ここで、予め定められた閾値τは入力部１２０に入力され、自身の記憶領域に記憶されている。
結果表示部１８０は、特徴語抽出部１７０によって抽出された特徴語が表示されるディスプレイである。結果表示部１８０には、抽出された特徴語のカテゴリに対する帰属度が高い順序に並び替えて表示されるようにしても良い。

次に、本実施形態による特徴語抽出装置１００の動作例を説明する。図９は、特徴語抽出装置１００による特徴語抽出処理を示すフローチャートである。
まず、入力部１２０に指定カテゴリが入力されると、形態素解析部１３０は、文書データ記憶部１１１に記憶された複数の文書データを読み出し（ステップＳ１００）、読み出した文書データ毎に含まれる文の形態素解析を行う。形態素解析部１３０は、文書データを識別する文書ＩＤに、形態素解析により分割した単語を対応付けた文書毎単語リストを文書毎単語リスト記憶部１１２に記憶させる（ステップＳ２００）。

そして、単語処理部１４０は、文書毎単語リスト記憶部１１２に記憶された文書毎単語リストに基づいて、単語の共起関係を算出し、ネットワークデータである行列データを生成し、カテゴリ別ネットワークデータ記憶部１１３に記憶させる（ステップＳ３００）。次に、クラスタ抽出部１５０がクラスタ抽出処理を行う（ステップＳ４００）。図１０は、クラスタ抽出部１５０によるクラスタ抽出処理を示すフローチャートである。入力部１２０は、ユーザからパラメータ（クラスタ数Ｃ、閾値τ）の入力を受付ける（ステップＳ４１０）。クラスタ抽出部１５０は、カテゴリ別ネットワークデータ記憶部１１３からネットワークデータを読み出し、固有値展開処理を行う（ステップＳ４２０）。

図１１は、固有値展開の代表的アルゴリズムであるヤコビ法を示すフローチャートである。ヤコビ法では、まず、データ（処理対象行列）をＥ（ｎ×ｎ）＝ｅ_ｉｊとし、収束判定パラメータｅｐｓを０に近い値（０．００１等）を設定し、さらに、固有ベクトル格納用のＸ（ｎ×ｎ）＝ｘ_ｉｊを用意する（ステップＳ４２１）。次に、Ａの非対角要素（ｉ≠ｊ）中で最大の値を持つ要素ａ_ＩＪ及びその要素の位置情報Ｉ，Ｊをサーチする（ステップＳ４２２）。

次に、収束したか否か（ｅ_ＩＪ＜ｅｐｓ）を判定し（ステップＳ４２３）、収束していない場合には（ステップＳ４２３：ＮＯ）、θを計算し（ステップＳ４２４）、ａ_Ｉｊ及びａ_Ｊｊ（ｊ＝１，２，…，ｎ）を更新し（ステップＳ４２５）、ｅ_ｉＩ及びｅ_ｉＪ（ｉ＝１，２，…，ｎ）を更新し（ステップＳ４２６）、さらに、ｘ_ｉＩ及びｘ_ｉＪ（ｉ＝１，２，…，ｎ）を更新し（ステップＳ４２７）、ステップＳ４２２に戻り、収束するまで繰り返す。そして、収束すると（ステップＳ４２３：ＹＥＳ）、Ｖを固有ベクトル、Ａの対角部分を固有値として出力し（ステップＳ４２８）、固有値展開処理を終了する。

このような固有値展開処理により、クラスタ抽出部１５０は、ｎ個の固有値と、ｎ×ｎの固有ベクトルを算出する。このように算出したｎ個の固有値のうち最大固有値である凝集度に対応する固有ベクトルｘを以降の処理に用いる。固有ベクトルｘは、最大固有値に対する一列の行列（ベクトル）からなる。これにより、複数の単語（ノード）群からなるクラスタが構成される。凝集度は、クラスタ抽出部１５０の記憶領域に記憶される。

図１０に戻り、帰属度算出部１６０は、固有ベクトルｘを、ｘの要素の最大値ｘ^＊によって除算することで各単語のクラスタへの帰属度を算出し、例えば図１２に示すように帰属度記憶部１１４に記憶させる（ステップＳ４３０）。ここで、複数のクラスタを抽出する場合には、一回目のクラスタ抽出処理により当初のネットワークデータにおいて最も代表的なクラスタを抽出しており、２番目以降のクラスタは１（ｔ−１）回目のクラスタへの影響を除外したネットワークデータにより抽出する。このため、クラスタ抽出部１５０は、第２目以降のクラスタを抽出する際、入力データを再度変換し、カテゴリ別ネットワークデータ記憶部１１３に記憶されたネットワークデータを更新する（ステップＳ４４０）。ここで、クラスタ抽出部１５０は、ネットワークデータの要素ｅ_ｉｊを、帰属度ｍを用いた以下式（５）により更新する。これにより、第ｔ番目までに得られた帰属度を除去したネットワークデータが得られる。

ここで、ｔは、繰り返し回数に対応する。次に、抽出したいクラスタ数Ｃが示す数のクラスタを抽出したか否かを判定し（ステップＳ４５０）、抽出したクラスタがクラスタ数Ｃに達していない場合には（ステップＳ４５０：ＮＯ）、ステップＳ４２０に戻り、上述した処理を繰り返す。そして、クラスタ数Ｃに達すると（ステップＳ４５０：ＹＥＳ）、処理を終了する。このように、クラスタの算出時には、行列から第ｔ番目までに得られる帰属度を除去することにより、既に抽出したクラスタの影響を除外して第ｔ＋１番目のクラスタを得ることで、逐次的にクラスタを抽出することができる。

図９に戻り、特徴語抽出部１７０は、各クラスタにおいて閾値τを超える帰属度をもつ語を特徴語として抽出し、例えば図１３に示すようにカテゴリ別特徴語記憶部１１５に記憶させる（ステップＳ５００）。特徴語抽出部１７０は、抽出した特徴語を結果表示部１８０に表示させる（ステップＳ６００）。

なお、本実施形態では、カテゴリから抽出するクラスタ数Ｃは、ユーザから入力されるとしたが、所定の数の特徴語を抽出するまでクラスタを抽出するようにしても良いし、凝集度の変化に応じてクラスタ数を定めるようにしても良い。例えば、ｔ番目とｔ＋１番目の凝集度を比較した際に、ほとんど変化がないような場合にクラスタの抽出を止めるようにしても良い。

また、本実施形態では、予めカテゴリが付与された文書データについてカテゴリの抽出を行ったが、特徴語を抽出すべき文書データの一群が示されれば、同様に特徴語を抽出することが可能である。例えば、ニュース記事などの文書データに対し、全体に対する一定の時期を区切って、その区間の特徴語を抽出しても良い。このようにすれば、例えば、内容が未知であるテキスト群から特徴語を抽出することにより、内容を理解しやすい語を付与することも可能になる。

このように、本実施形態によれば、指定カテゴリにおいて共起する単語を多く持つ単語を抽出することができるため、多様な文脈に応じた代表的な単語（例えば、代謝において糖尿病やホルモン、インスリンなど）を取得することが可能となる。これにより、例えば作業に割り当てられるコストの制約のために一部の単語しか確認できない状況においても、特徴語としてより適切な単語をより多く辞書に登録することが可能となる。このような辞書をネットワーク上の文書の収集に用いた場合、従来の技術により構築された辞書と比べて適切な単語がより多く辞書に登録されることから、より多くの適切な文書を収集可能となる。

なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより特徴語の抽出を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

１００特徴語抽出装置
１１０記憶部
１１１文書データ記憶部
１１２文書毎単語リスト記憶部
１１３カテゴリ別ネットワークデータ記憶部
１１４帰属度記憶部
１１５カテゴリ別特徴語記憶部
１２０入力部
１３０形態素解析部
１４０単語処理部
１５０クラスタ抽出部
１６０帰属度算出部
１７０特徴語抽出部
１８０結果表示部

Claims

複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、
複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部と、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第１の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第２の出現頻度とを算出し、算出した第２の出現頻度から第１の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをＮ×Ｎの対称行列である行列データとして生成する単語処理部と、
前記単語処理部によって生成された前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するクラスタ抽出部と、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出する帰属度算出部と、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出する特徴語抽出部と、
を備えることを特徴とする特徴語抽出装置。
前記単語処理部は、前記クラスタ抽出部によって抽出された前記クラスタの数が、抽出することが予め定められたクラスタ数未満であると判定すると、前記クラスタへの帰属度に基づいて前記ネットワークデータを更新し、
前記クラスタ抽出部は、更新された前記ネットワークデータに基づいて前記クラスタを抽出する
ことを特徴とする請求項１に記載の特徴語抽出装置。
前記帰属度算出部は、前記固有ベクトルのうち最大値をもつ固有ベクトルに対応する要素を規格定数として、前記固有ベクトルの要素と前記規格定数との比である前記帰属度を算出する
ことを特徴とする請求項１または請求項２に記載の特徴語抽出装置。
複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置の特徴語抽出方法であって、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第１の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第２の出現頻度とを算出し、算出した第２の出現頻度から第１の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをＮ×Ｎの対称行列である行列データとして生成するステップと、
生成した前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出するステップと、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出するステップと、
を備えることを特徴とする特徴語抽出方法。
複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置のコンピュータに、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第１の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第２の出現頻度とを算出し、算出した第２の出現頻度から第１の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをＮ×Ｎの対称行列である行列データとして生成するステップと、
生成した前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出するステップと、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出するステップと、
を実行させる特徴語抽出プログラム。