JP2011164791A - 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム - Google Patents

特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム Download PDF

Info

Publication number
JP2011164791A
JP2011164791A JP2010024718A JP2010024718A JP2011164791A JP 2011164791 A JP2011164791 A JP 2011164791A JP 2010024718 A JP2010024718 A JP 2010024718A JP 2010024718 A JP2010024718 A JP 2010024718A JP 2011164791 A JP2011164791 A JP 2011164791A
Authority
JP
Japan
Prior art keywords
word
document data
degree
words
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010024718A
Other languages
English (en)
Other versions
JP5331723B2 (ja
Inventor
Tsutomu Matsunaga
務 松永
Takashi Suenaga
高志 末永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2010024718A priority Critical patent/JP5331723B2/ja
Publication of JP2011164791A publication Critical patent/JP2011164791A/ja
Application granted granted Critical
Publication of JP5331723B2 publication Critical patent/JP5331723B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特定のカテゴリに対応する適切な特徴語を効率的に抽出する。
【解決手段】複数の文書データに含まれる単語対が共起する文書データの数を示す第1の出現頻度と、指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、第2の出現頻度から第1の出現頻度を除算した値を共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成し、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出し、単語毎のクラスタに対する帰属度を算出し、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出する。
【選択図】図1

Description

本発明は、文書データに含まれる単語から、カテゴリ判定のための適切な特徴語を抽出する技術に関する。
近年では、様々な情報が電子化された文書データがコンピュータによって処理されており、このような文書データを、その内容に応じてカテゴリ毎に分類する技術が研究されている。例えば、予め定められた複数のカテゴリ毎に、そのカテゴリの文書データに特徴的に現れる語である特徴語を定めておき、カテゴリの判定対象となる文書データに含まれる語と定められた特徴語とを比較して、特徴語が含まれるか否かを判定することにより判定対象の文書データがそのカテゴリに属するか否かを判定する。このような技術を用いれば、例えば、様々なジャンルのニュース記事を、その内容に応じて「スポーツ」、「経済」などのカテゴリに分類したり、医療に関する記述が含まれる医療文書データを、「癌」、「糖尿病」などのカテゴリに分類したりすることができる。このような技術は、例えばテキストマイニングなどに利用することができる。ここで、特定のカテゴリに対応する特徴語は予め定めておく必要があるが、文書データに現れる語の表記は統一されたものであるとは限らない。また、カテゴリ判定のための適切な特徴語を選定することには専門知識が必要である上に、社会情勢などによっても変化する。このため、特定のカテゴリに対応する適切な特徴語を効率的に抽出する技術が望まれている。
例えば、特許文献1には、予めカテゴリが対応付けられた複数の文書データについて、その文書データ内に現れる単語の出現頻度を算出し、算出した出現頻度に基づいて、そのカテゴリに対する各単語の重要度を算出する技術が記載されている。これによれば、カテゴリ毎に算出された重要度に基づいて、カテゴリに対応する単語を判定することができる。ここで単語の出現頻度に基づいて重要度を算出する際には、様々な統計尺度が用いられる。例えば、非特許文献1や非特許文献2に示されるように、カテゴリ間で出現頻度の偏りの大きな単語、例えば注目するカテゴリにおいては出現頻度が高いがその他のカテゴリにおいては出現頻度が低い単語の重要度を高くし、いずれのカテゴリにも同様に出現する単語の重要度を低くするような、相互情報量や情報利得といった統計尺度が用いられている。
特開2007−241636号公報
田中他、「コーパスによる難解語・重要語の抽出−医療用語を例に−」、社会言語科学会、2008年 SEBASTIANI F.、「Machine learning in automated text categorization」、ACM Computing Surveys、34、1−47、2002
しかしながら、単語の出現頻度の偏りに着目する判定方法では、単語の出願頻度が低くなるに従って結果の信頼性が低下する傾向がある。例えば、特定のカテゴリにおいて他のカテゴリよりも相対的に出現頻度が高い「アナフィキラシー」や「カドミウム」などの具体的な単語と、同様にそのカテゴリにおいて他のカテゴリよりも相対的に出現頻度が高い「適当」のような一般的な単語とは、同様に重要度が高くなる。このとき、「適当」のような一般的な単語よりも、「アナフィキラシー」や「カドミウム」のような具体的な単語の方が、そのカテゴリをより特徴的に表す単語であると考えられる。そこで、特定のカテゴリに対応する適切な特徴語をより効率的に抽出する技術が望まれる。
本発明は、このような状況に鑑みてなされたもので、特定のカテゴリに対応する適切な特徴語をより効率的に抽出する特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラムを提供する。
上述した課題を解決するために、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部と、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成する単語処理部と、単語処理部によって生成された行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するクラスタ抽出部と、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出する帰属度算出部と、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出する特徴語抽出部と、を備えることを特徴とする。
また、本発明は、単語処理部が、クラスタ抽出部によって抽出されたクラスタの数は抽出することが予め定められたクラスタ数未満であると判定すると、クラスタへの帰属度に基づいてネットワークデータを更新し、クラスタ抽出部は、更新されたネットワークデータに基づいてクラスタを抽出することを特徴とする。
また、本発明は、帰属度算出部が、固有ベクトルのうち最大値をもつ固有ベクトルに対応する要素を規格定数として、固有ベクトルの要素と規格定数との比である帰属度を算出することを特徴とする。
また、本発明は、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置の特徴語抽出方法であって、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出するステップと、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するステップと、を備えることを特徴とする。
また、本発明は、複数の単語が含まれる複数の文書データと、文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の文書データ毎に、文書データに含まれる複数の単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置のコンピュータに、複数の文書データに含まれる単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数のカテゴリのうち定められた指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語毎のクラスタに対する帰属度を算出するステップと、帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するステップと、を実行させる特徴語抽出プログラムである。
以上説明したように、本発明によれば、複数の文書データに含まれる単語対が共起する文書データの数を示す第1の出現頻度と、指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、第2の出現頻度から第1の出現頻度を除算した値を共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成し、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出し、単語毎のクラスタに対する帰属度を算出し、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出するようにしたので、特定のカテゴリに対応する適切な特徴語を効率的に抽出する特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラムを提供することができる。
本発明の一実施形態による特徴語抽出装置の構成例を示すブロック図である。 本発明の一実施形態による文書データの例を示す図である。 本発明の一実施形態による文書毎単語リストのデータ例を示す図である。 本発明の一実施形態による文書データ記憶部に記憶される行列データのデータ例を示す図である。 本発明の一実施形態によるネットワークデータの概念を示す図である。 本発明の一実施形態によるクラスタの概念を示す図である。 本発明の一実施形態による帰属度記憶部に記憶される帰属度のデータ例を示す図である。 本発明の一実施形態によるカテゴリ別特徴語記憶部に記憶されるカテゴリ毎の特徴語のデータ例を示す図である。 本発明の一実施形態による特徴語抽出装置の動作例を示すフローチャートである。 本発明の一実施形態による特徴語抽出装置のクラスタ抽出処理を示すフローチャートである。 本発明の一実施形態による特徴語抽出装置の固有値展開処理を示すフローチャートである。 本発明の一実施形態による帰属度記憶部に記憶される帰属度のデータ例を示す図である。 本発明の一実施形態によるカテゴリ別特徴語記憶部に記憶されるカテゴリ毎の特徴語のデータ例を示す図である。
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による特徴語抽出装置100の構成を示すブロック図である。特徴語抽出装置100は、記憶部110と、入力部120と、形態素解析部130と、単語処理部140と、クラスタ抽出部150と、帰属度算出部160と、特徴語抽出部170と、結果表示部180とを備えている。
記憶部110には、特徴語抽出処理のために用いる情報が記憶される。記憶部110は、文書データ記憶部111と、文書毎単語リスト記憶部112と、カテゴリ別ネットワークデータ記憶部113と、帰属度記憶部114と、カテゴリ別特徴語記憶部115とを備えている。
文書データ記憶部111には、複数の単語が含まれる複数の文書データと、その文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される。図2は、文書データ記憶部111に記憶される文書データの例を示す図である。文書データには、文書IDと、文書カテゴリと、文書内容との情報が含まれる。文書IDは、文書データを識別する識別情報である。文書カテゴリは、対応する文書内容に応じたカテゴリを示す情報である。カテゴリとは、文書データに含まれる語の内容に応じた分類を示し、例えば、新聞記事における「スポーツ」や「経済」などのジャンルである。あるいは、例えば医療文書における「栄養障害」や「内分泌・代謝疾患」、「消化器疾患」等の疾患分野である。文書内容には、複数の単語や文が含まれる。
文書毎単語リスト記憶部112には、複数の文書データ毎に、その文書データに含まれる複数の単語が対応付けられて記憶される。図3は、文書毎単語リスト記憶部112に記憶される文書毎単語リストのデータ例を示す図である。このように、文書毎単語リスト記憶部112には、文書データ記憶部111に記憶された文書データを示す文書ID毎に、その文書データの文書内容が形態素解析されて抽出された単語が対応付けられて記憶される。
カテゴリ別ネットワークデータ記憶部113には、カテゴリ毎に、文書データに含まれる単語間の関連の強さを示す共起度を要素としたN×Nの行列データが記憶される。図4は、カテゴリ別ネットワークデータ記憶部113に記憶される行列データの例を示す図である。ここでは、例えばA、B、C、・・・は文書データに含まれる単語を示し、行列の要素は単語間の関連の強さを0から1までの値で示す共起度である。0は、そのカテゴリ内で一度も出現していないことを示す。このような行列データは、図5に示すようなネットワークデータを構成する。ここで、ネットワークデータにおける各ノード(丸印)は各語A〜Jに相当し、単語間の共起度はエッジに相当する。この例では、語Aは、語B、C、D、Fと共起があり、語Bは、語A、C、Eと共起があり、語Cは、語A、Bと共起があり、・・・、語Gは、語I、Jと共起があることを示している。
帰属度記憶部114には、各クラスタに対する各単語の帰属度を示す情報が記憶される。例えば、図5に示したネットワークデータは、単語を示すノード間の共起度に応じて、図6に示すようなクラスタ1とクラスタ2とに分割することができる。帰属度記憶部114には、このように分類されたクラスタ毎に、クラスタへの単語の帰属度が対応付けられて記憶される。図7は、帰属度記憶部114に記憶される帰属度のデータ例を示す図である。帰属度は、クラスタ内における各ノードに対応する要素の相対的な関係を示す値である。
カテゴリ別特徴語記憶部115には、複数のカテゴリ毎に、各クラスタへの帰属度に応じて抽出された特徴語が対応付けられて記憶される。図8は、カテゴリ別特徴語記憶部115に記憶されるカテゴリ別特徴語のデータ例を示す図である。カテゴリ別特徴語は、特徴語抽出部170によって帰属度記憶部114から抽出されて記憶される。
図1に戻り、入力部120は、キーボードやマウスなどの入力デバイスであり、ユーザからの情報入力を受付ける。入力部120には、例えば、カテゴリから抽出するクラスタ数C、帰属度の閾値τ、特徴語を抽出する指定カテゴリなどの情報が入力される。指定カテゴリは、文書データ記憶部111に記憶されている文書データに基づいて特徴語を抽出する対象となるカテゴリを示す情報である。
形態素解析部130は、入力部120に指定カテゴリが入力されると、文書データ記憶部111に記憶される文書データを全て読み出す。形態素解析部130は、読み出した文書データに含まれる文書内容を対象に形態素解析を行い、文書内容を形態素に分割してその品詞を判別する。形態素解析部130は、分割した形態素のうち助詞等の予め定められた品詞の形態素を処理対象から除外する。ここでは、予め定められた品詞の形態素を処理対象から除外した形態素のそれぞれを単語という。形態素解析部130は、文書IDと、その文書IDが示す文書データから抽出した単語とを対応付けた文書毎単語リストを、文書毎単語リスト記憶部112に記憶させる。
単語処理部140は、複数の文書データのうち、定められた単語のペアである単語対が共起する文書データの数を示す第1の出現頻度(文書データ数)と、指定カテゴリに対応する複数の文書データのうち、定められた単語のペアである単語対が共起する文書データの数を示す第2の出現頻度(文書データ数)とを算出する。また、単語処理部140は、算出した第2の出現頻度から第1の出現頻度を除算した値を、単語対の単語間の関連の強さを示す共起度として算出する。すなわち、共起度は以下式(1)により定義される。
共起度=第2の出現頻度(所定のカテゴリにおける文書データにおいて共起する単語対の出現頻度)/第1の出現頻度(全文書データにおいて共起する単語対の出現頻度)
・・・(1)
また、単語処理部140は、各語をノードとし、共起度をエッジとしたネットワークデータを、N×Nの対称行列である行列データとして生成し、カテゴリ別ネットワークデータ記憶部113に記憶させる。ここで、行列データは、例えばi、jを単語のID、単語iをノードとしたとき、単語iと単語jとの関係を要素eijとする隣接行列Eを構成する。
クラスタ抽出部150は、単語処理部140によって生成されカテゴリ別ネットワークデータ記憶部113に記憶された行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出する。ここで、クラスタ抽出部150は、定められた複数のクラスタを抽出するようにしても良い。クラスタ抽出部150は、カテゴリ別ネットワークデータ記憶部113に記憶された行列データにおいて、クラスタの抽出対象となる語数をnとし、ノードiのクラスタへの帰属度をxとしたとき、クラスタの凝集度を次式(2)で評価する。凝集度とは、最大固有値で定義される。
Figure 2011164791
ここで、xの右肩のTはxの転置を表す。E=eij(eii=0とする)は、重み付き隣接行列であり、この凝集度が最大となるx=[x、・・・、x]を求める。ただし、|x|=1である。ここに、凝集度が最も高いクラスタは、次式(3)に示す、行列データ(隣接行列E)の固有値問題を解くこと、すなわち固有値展開を行うことによって得られる最大固有値の固有ベクトルにより決定される。固有値展開は、例えばヤコビ法を用いて行うことができる。
Figure 2011164791
固有ベクトルxの要素は、隣接行列Eが非負対称行列であることから非負値で与えられる。また、固有ベクトルxは、最大固有値に対する一列の行列(ベクトル)からなる。クラスタ抽出部150は、このように算出した固有ベクトルxに対応する複数の単語(ノード)群を、同一のクラスタに帰属する単語であると判定する。このように、クラスタ抽出部150はクラスタを抽出して単語の集合を得る。
帰属度算出部160は、固有ベクトルにおける最大要素と、ノードに対応する要素とに基づいて、単語対毎のクラスタに対する帰属度を算出する。ここで、帰属度算出部160は、クラスタ抽出部150が算出した固有ベクトルxの要素のうち、最大値を持つiの要素xi*を規格化定数とし、次式(4)により、最大値を1として帰属度mを算出する。
Figure 2011164791
ここで、帰属度算出部160は、所定の数のクラスタが得られるまで帰属度算出処理を繰り返し、そのカテゴリにおける、複数のクラスタに対する各要素の帰属度を算出する。このように、固有ベクトル[x、・・・、x]を最大の要素xi*で規格化することにより、そのベクトルにおける、各ノードに対応する要素の相対的な関係を帰属度として算出する。
特徴語抽出部170は、カテゴリに対する単語の帰属度と、予め定められた閾値とを比較して、閾値を超える帰属度をもつ複数のノードを、指定カテゴリの特徴を表す特徴語として抽出する。ここで、予め定められた閾値τは入力部120に入力され、自身の記憶領域に記憶されている。
結果表示部180は、特徴語抽出部170によって抽出された特徴語が表示されるディスプレイである。結果表示部180には、抽出された特徴語のカテゴリに対する帰属度が高い順序に並び替えて表示されるようにしても良い。
次に、本実施形態による特徴語抽出装置100の動作例を説明する。図9は、特徴語抽出装置100による特徴語抽出処理を示すフローチャートである。
まず、入力部120に指定カテゴリが入力されると、形態素解析部130は、文書データ記憶部111に記憶された複数の文書データを読み出し(ステップS100)、読み出した文書データ毎に含まれる文の形態素解析を行う。形態素解析部130は、文書データを識別する文書IDに、形態素解析により分割した単語を対応付けた文書毎単語リストを文書毎単語リスト記憶部112に記憶させる(ステップS200)。
そして、単語処理部140は、文書毎単語リスト記憶部112に記憶された文書毎単語リストに基づいて、単語の共起関係を算出し、ネットワークデータである行列データを生成し、カテゴリ別ネットワークデータ記憶部113に記憶させる(ステップS300)。次に、クラスタ抽出部150がクラスタ抽出処理を行う(ステップS400)。図10は、クラスタ抽出部150によるクラスタ抽出処理を示すフローチャートである。入力部120は、ユーザからパラメータ(クラスタ数C、閾値τ)の入力を受付ける(ステップS410)。クラスタ抽出部150は、カテゴリ別ネットワークデータ記憶部113からネットワークデータを読み出し、固有値展開処理を行う(ステップS420)。
図11は、固有値展開の代表的アルゴリズムであるヤコビ法を示すフローチャートである。ヤコビ法では、まず、データ(処理対象行列)をE(n×n)=eijとし、収束判定パラメータepsを0に近い値(0.001等)を設定し、さらに、固有ベクトル格納用のX(n×n)=xijを用意する(ステップS421)。次に、Aの非対角要素(i≠j)中で最大の値を持つ要素aIJ及びその要素の位置情報I,Jをサーチする(ステップS422)。
次に、収束したか否か(eIJ<eps)を判定し(ステップS423)、収束していない場合には(ステップS423:NO)、θを計算し(ステップS424)、aIj及びaJj(j=1,2,…,n)を更新し(ステップS425)、eiI及びeiJ(i=1,2,…,n)を更新し(ステップS426)、さらに、xiI及びxiJ(i=1,2,…,n)を更新し(ステップS427)、ステップS422に戻り、収束するまで繰り返す。そして、収束すると(ステップS423:YES)、Vを固有ベクトル、Aの対角部分を固有値として出力し(ステップS428)、固有値展開処理を終了する。
このような固有値展開処理により、クラスタ抽出部150は、n個の固有値と、n×nの固有ベクトルを算出する。このように算出したn個の固有値のうち最大固有値である凝集度に対応する固有ベクトルxを以降の処理に用いる。固有ベクトルxは、最大固有値に対する一列の行列(ベクトル)からなる。これにより、複数の単語(ノード)群からなるクラスタが構成される。凝集度は、クラスタ抽出部150の記憶領域に記憶される。
図10に戻り、帰属度算出部160は、固有ベクトルxを、xの要素の最大値xによって除算することで各単語のクラスタへの帰属度を算出し、例えば図12に示すように帰属度記憶部114に記憶させる(ステップS430)。ここで、複数のクラスタを抽出する場合には、一回目のクラスタ抽出処理により当初のネットワークデータにおいて最も代表的なクラスタを抽出しており、2番目以降のクラスタは1(t−1)回目のクラスタへの影響を除外したネットワークデータにより抽出する。このため、クラスタ抽出部150は、第2目以降のクラスタを抽出する際、入力データを再度変換し、カテゴリ別ネットワークデータ記憶部113に記憶されたネットワークデータを更新する(ステップS440)。ここで、クラスタ抽出部150は、ネットワークデータの要素eijを、帰属度mを用いた以下式(5)により更新する。これにより、第t番目までに得られた帰属度を除去したネットワークデータが得られる。
Figure 2011164791
ここで、tは、繰り返し回数に対応する。次に、抽出したいクラスタ数Cが示す数のクラスタを抽出したか否かを判定し(ステップS450)、抽出したクラスタがクラスタ数Cに達していない場合には(ステップS450:NO)、ステップS420に戻り、上述した処理を繰り返す。そして、クラスタ数Cに達すると(ステップS450:YES)、処理を終了する。このように、クラスタの算出時には、行列から第t番目までに得られる帰属度を除去することにより、既に抽出したクラスタの影響を除外して第t+1番目のクラスタを得ることで、逐次的にクラスタを抽出することができる。
図9に戻り、特徴語抽出部170は、各クラスタにおいて閾値τを超える帰属度をもつ語を特徴語として抽出し、例えば図13に示すようにカテゴリ別特徴語記憶部115に記憶させる(ステップS500)。特徴語抽出部170は、抽出した特徴語を結果表示部180に表示させる(ステップS600)。
なお、本実施形態では、カテゴリから抽出するクラスタ数Cは、ユーザから入力されるとしたが、所定の数の特徴語を抽出するまでクラスタを抽出するようにしても良いし、凝集度の変化に応じてクラスタ数を定めるようにしても良い。例えば、t番目とt+1番目の凝集度を比較した際に、ほとんど変化がないような場合にクラスタの抽出を止めるようにしても良い。
また、本実施形態では、予めカテゴリが付与された文書データについてカテゴリの抽出を行ったが、特徴語を抽出すべき文書データの一群が示されれば、同様に特徴語を抽出することが可能である。例えば、ニュース記事などの文書データに対し、全体に対する一定の時期を区切って、その区間の特徴語を抽出しても良い。このようにすれば、例えば、内容が未知であるテキスト群から特徴語を抽出することにより、内容を理解しやすい語を付与することも可能になる。
このように、本実施形態によれば、指定カテゴリにおいて共起する単語を多く持つ単語を抽出することができるため、多様な文脈に応じた代表的な単語(例えば、代謝において糖尿病やホルモン、インスリンなど)を取得することが可能となる。これにより、例えば作業に割り当てられるコストの制約のために一部の単語しか確認できない状況においても、特徴語としてより適切な単語をより多く辞書に登録することが可能となる。このような辞書をネットワーク上の文書の収集に用いた場合、従来の技術により構築された辞書と比べて適切な単語がより多く辞書に登録されることから、より多くの適切な文書を収集可能となる。
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより特徴語の抽出を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
100 特徴語抽出装置
110 記憶部
111 文書データ記憶部
112 文書毎単語リスト記憶部
113 カテゴリ別ネットワークデータ記憶部
114 帰属度記憶部
115 カテゴリ別特徴語記憶部
120 入力部
130 形態素解析部
140 単語処理部
150 クラスタ抽出部
160 帰属度算出部
170 特徴語抽出部
180 結果表示部

Claims (5)

  1. 複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、
    複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部と、
    前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成する単語処理部と、
    前記単語処理部によって生成された前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するクラスタ抽出部と、
    前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出する帰属度算出部と、
    前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出する特徴語抽出部と、
    を備えることを特徴とする特徴語抽出装置。
  2. 前記単語処理部は、前記クラスタ抽出部によって抽出された前記クラスタの数が、抽出することが予め定められたクラスタ数未満であると判定すると、前記クラスタへの帰属度に基づいて前記ネットワークデータを更新し、
    前記クラスタ抽出部は、更新された前記ネットワークデータに基づいて前記クラスタを抽出する
    ことを特徴とする請求項1に記載の特徴語抽出装置。
  3. 前記帰属度算出部は、前記固有ベクトルのうち最大値をもつ固有ベクトルに対応する要素を規格定数として、前記固有ベクトルの要素と前記規格定数との比である前記帰属度を算出する
    ことを特徴とする請求項1または請求項2に記載の特徴語抽出装置。
  4. 複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置の特徴語抽出方法であって、
    前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、
    生成した前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、
    前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出するステップと、
    前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出するステップと、
    を備えることを特徴とする特徴語抽出方法。
  5. 複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置のコンピュータに、
    前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、
    生成した前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、
    前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出するステップと、
    前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出するステップと、
    を実行させる特徴語抽出プログラム。
JP2010024718A 2010-02-05 2010-02-05 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム Expired - Fee Related JP5331723B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010024718A JP5331723B2 (ja) 2010-02-05 2010-02-05 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010024718A JP5331723B2 (ja) 2010-02-05 2010-02-05 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム

Publications (2)

Publication Number Publication Date
JP2011164791A true JP2011164791A (ja) 2011-08-25
JP5331723B2 JP5331723B2 (ja) 2013-10-30

Family

ID=44595422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010024718A Expired - Fee Related JP5331723B2 (ja) 2010-02-05 2010-02-05 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム

Country Status (1)

Country Link
JP (1) JP5331723B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016538611A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド ナレッジポイント関係強度を測定する方法及びシステム
JP2019117484A (ja) * 2017-12-27 2019-07-18 株式会社日立社会情報サービス テキストマイニング装置およびテキストマイニング方法
KR20190110428A (ko) * 2018-03-20 2019-09-30 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870575B (zh) * 2014-03-19 2017-10-27 北京百度网讯科技有限公司 一种提取领域关键词的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JP2004030202A (ja) * 2002-06-25 2004-01-29 Fujitsu Ltd 特徴語抽出システム
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JP2004030202A (ja) * 2002-06-25 2004-01-29 Fujitsu Ltd 特徴語抽出システム
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016538611A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド ナレッジポイント関係強度を測定する方法及びシステム
JP2019117484A (ja) * 2017-12-27 2019-07-18 株式会社日立社会情報サービス テキストマイニング装置およびテキストマイニング方法
JP7064871B2 (ja) 2017-12-27 2022-05-11 株式会社日立社会情報サービス テキストマイニング装置およびテキストマイニング方法
KR20190110428A (ko) * 2018-03-20 2019-09-30 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
KR102162779B1 (ko) 2018-03-20 2020-10-07 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치

Also Published As

Publication number Publication date
JP5331723B2 (ja) 2013-10-30

Similar Documents

Publication Publication Date Title
JP6398510B2 (ja) 実体のリンク付け方法及び実体のリンク付け装置
US8280877B2 (en) Diverse topic phrase extraction
US8027977B2 (en) Recommending content using discriminatively trained document similarity
Chen et al. Mining fuzzy frequent itemsets for hierarchical document clustering
US7467079B2 (en) Cross lingual text classification apparatus and method
US8321418B2 (en) Information processor, method of processing information, and program
Lu et al. Enhancing text categorization with semantic-enriched representation and training data augmentation
US9164981B2 (en) Information processing apparatus, information processing method, and program
CN106681985A (zh) 基于主题自动匹配的多领域词典构建系统
JP2008077163A (ja) 検索システム、検索方法及び検索プログラム
US8762300B2 (en) Method and system for document classification
CN110717038A (zh) 对象分类方法及装置
JP5331723B2 (ja) 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
He et al. Automatic labeling of topic models using graph-based ranking
Chen et al. A method for Chinese text classification based on apparent semantics and latent aspects
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
Barrena et al. Alleviating poor context with background knowledge for named entity disambiguation
Dawar et al. Text categorization by content using Naïve Bayes approach
El-Hajj et al. An optimal approach for text feature selection
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2015036892A (ja) 情報処理装置、情報処理方法、及び、プログラム
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
Rajkumar et al. An efficient feature extraction with bidirectional long short term memory based deep learning model for Tamil document classification
Alotaibi et al. A Comparison of Topic Modeling Algorithms on Visual Social Media Networks
JP2002056009A (ja) 文書分類方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120315

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130729

R150 Certificate of patent or registration of utility model

Ref document number: 5331723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees