JP2010157102A - 単語抽出装置、単語抽出方法およびプログラム - Google Patents

単語抽出装置、単語抽出方法およびプログラム Download PDF

Info

Publication number
JP2010157102A
JP2010157102A JP2008335080A JP2008335080A JP2010157102A JP 2010157102 A JP2010157102 A JP 2010157102A JP 2008335080 A JP2008335080 A JP 2008335080A JP 2008335080 A JP2008335080 A JP 2008335080A JP 2010157102 A JP2010157102 A JP 2010157102A
Authority
JP
Japan
Prior art keywords
word
importance
words
extraction
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008335080A
Other languages
English (en)
Other versions
JP4994358B2 (ja
Inventor
Takashi Suenaga
高志 末永
Shuhei Kuwata
修平 桑田
Tsutomu Matsunaga
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2008335080A priority Critical patent/JP4994358B2/ja
Publication of JP2010157102A publication Critical patent/JP2010157102A/ja
Application granted granted Critical
Publication of JP4994358B2 publication Critical patent/JP4994358B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の観点に応じた単語の重要度判断基準に基づき、カテゴリに応じた単語を抽出する単語抽出装置、単語抽出方法およびプログラムを提供することにある。
【解決手段】任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた各単語の重要度を算出し、重要度判断基準ごとに重要度に応じて単語が順位付けられた重要順位情報を、文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部4と、重要順位情報に基づいて、所定の抽出基準によりカテゴリごとに予め指定された個数の前記単語を抽出する単語抽出部5とを備えることを特徴とする。
【選択図】図1

Description

本発明は、文書データに含まれる複数の単語の属性を解析し、属性に応じた単語を抽出する単語抽出装置、単語抽出方法およびプログラムに関する。
文書分類や文書検索を行う場合、分類や検索に用いる単語の選択が重要である。例えば、ニュース記事のように「政治」、「ビジネス」、「スポーツ」などの複数のカテゴリのうち、いずれかのカテゴリに属する複数の文書データにおいて、ある文書データがどのカテゴリに属するかを判断する場合、文書データ内の単語が、カテゴリを特徴づける単語に属するか否かを判断することにより、文書データが属するカテゴリを判断する技術がある。
具体的に説明すると、「スポーツ」のカテゴリにおいて、「野球」という単語は、「スポーツ」に関連する単語である可能性が高く、「スポーツ」のカテゴリに属すると判断するために重要な単語、つまり、「カテゴリを関連づける単語」と言える。
一方、「円高」という単語は、「スポーツ」のカテゴリに関連しない単語である可能性が高く、「円高」という単語を含む文書データを、「スポーツ」のカテゴリに属さない単語であると判断するために重要な単語、つまり、「カテゴリと関連づけない単語」と言える。
しかし、「交代」という単語は、「スポーツ」のカテゴリでは「選手交代」として、「ビジネス」のカテゴリでは「世代交代」として、それぞれ異なるカテゴリにおいて共に使用される可能性の高く、文書データの「カテゴリを判断するために適さない単語」と言える。
また、このような「カテゴリを関連づける単語」、あるいは「カテゴリと関連づけない単語」の両方が、文書をカテゴリ分けする文書分類において重要であり、この目的に対して、カテゴリの判断に適した複数の単語を抽出する技術がある。
例えば、カテゴリ情報を含む複数の文書データに基づき、文書データ内に出現する単語の出現頻度を計算し、計算された単語の出現頻度に応じて、共通するカテゴリに属する文書データにおける各単語の重要度の値をひとつの基準に基づき計算する。そして、この単語の重要度の値が大きい単語を、文書データのカテゴリを判断するために適する単語として、カテゴリごとに抽出するものがある(特許文献1参照)。
上述の基準に基づき計算する場合、「χ二乗値」、「相互情報量」あるいは「オッズ比」などの基準に基づき、単語の重要度を算出する方法がある(非特許文献1参照)。
特開2007−241636号公報 F. Sebastiani : Machine Learning in Automated Text Categorization, ACM Computing Surveys, 2002.
しかしながら、単語の重要度を算出する基準として、あるひとつの基準を選択し、このひとつの基準に基づいて複数のカテゴリごとにカテゴリを判断するために適した単語を抽出すると、基準ごとに観点が異なるため、単語ごとにカテゴリに応じた最適な重要度を算出することが困難であった。
例えば、上述で説明した「スポーツ」のカテゴリにおいて、「相互情報量」の基準に従って重要度を算出する場合、「野球」のようなカテゴリを関連づける単語を検出することはできるが、「円高」のようなカテゴリと関連づけない単語を検出することは困難であった。またこれとは逆に、「オッズ比」の基準に従って重要度を算出した場合、「円高」のようなカテゴリと関連づけない単語を検出することはできるが、「野球」のようなカテゴリを関連づける単語を検出することは困難であった。
このように単語の重要度を算出するための基準は、それぞれの観点に応じたメリットとデメリットを備え、カテゴリに応じた各単語の重要度を算出するために適した基準を選択するためには、試行錯誤が必要であり、作業効率が悪いという問題があった。
また、複数の基準ごとの結果を比較し、検討し、試行錯誤しても、それぞれの基準はそれぞれ固有の観点を有するため、一意に適切な基準でこれら複数の観点を達成することは困難であるという問題があった。
本発明は、このような事情を考慮し、上記の問題を解決すべくなされたものであって、その目的は、複数の観点に応じた単語の重要度判断基準に基づき、カテゴリに応じた単語を抽出する単語抽出装置、単語抽出方法およびプログラムを提供することにある。
上記問題を解決するために、本発明は、任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を、前記文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部と、前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出する単語抽出部とを備えることを特徴とする単語抽出装置である。
また、本発明にかかる単語抽出装置は、前記単語抽出部は、前記重要順位情報に基づき算出される、前記複数の重要度判断基準にわたる前記各単語の前記重要度の順位のばらつきを表す分散値あるいは標準偏差値に基づき、前記予め指定された個数の単語を抽出する分散値抽出設定、前記重要順位情報の上位から順に、前記予め指定された個数の単語を抽出する上位抽出設定、あるいは、前記重要順位情報に基づき算出される、前記複数の重要度判断基準における前記各単語の前記重要度の順位の平均値に基づき、前記予め指定された個数の単語を抽出する平均値抽出設定、のうちいずれか1つの前記抽出基準に従って、前記カテゴリから前記予め指定された個数の単語を抽出することを特徴とする。
また、本発明にかかる単語抽出装置は、前記単語抽出部は、分散値抽出設定において、前記分散値あるいは標準偏差値の大きい順に前記単語が順位付けされた分散値順位情報を前記カテゴリごとに生成し、前記分散値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする。
また、本発明にかかる単語抽出装置は、前記単語抽出部は、上位抽出設定において、前記複数の重要順位情報の上位から順に、前記カテゴリごとに予め指定された個数であって、互いに異なる前記単語を前記カテゴリごとに抽出することを特徴とする。
また、本発明にかかる単語抽出装置は、前記単語抽出部は、平均値抽出設定において、前記平均値の小さい順に前記単語が順位付けされた平均値順位情報を前記カテゴリごとに生成し、前記平均値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする。
また、本発明は、任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出する単語抽出装置における単語抽出方法において、前記単語抽出装置の重要順位情報生成部が、前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成し、前記単語抽出装置の単語抽出部が、前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出することを特徴とする単語抽出方法である。
また、本発明は、任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出するコンピュータに、前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成させる重要順位情報生成手段と、前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出させる単語抽出手段とを実行させるためのプログラムである。
本発明に係る単語抽出装置は、任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた各単語の重要度を算出し、重要度判断基準ごとに重要度に応じて単語が順位付けられた重要順位情報を、文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部と、重要順位情報に順位付けられている前記単語の順位に基づいて、前記カテゴリから予め指定された個数の単語を抽出する単語抽出部とを備える。この構成により、単語抽出装置は、利用した複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、あるひとつの基準に従って抽出された単語に比べて、例えば、よりカテゴリに適した単語を抽出でき、カテゴリの判断に適さない単語を誤って抽出してしまう割合を減少することができる。これにより、単語抽出装置は、例えば、相互情報量とオッズ比のように背反する観点を有する基準に基づき単語を抽出することができる。
以下、図面を参照して、本発明の一実施形態について説明する。図1は、本実施形態に係る単語抽出装置の一例を示す概略ブロック図である。図2は、図1に示す単語出現頻度算出部によって生成された出現頻度情報の一例を示す概略図である。図3は、図1に示す重要順位情報生成部および単語抽出部によって生成される情報の一例を示す概略図である。
図1に示すように、単語抽出装置100は、入力部1と、形態素解析部2と、単語出現頻度算出部3と、重要順位情報生成部4と、単語抽出部5と、出力部6と、記憶部7とを備える。
入力部1は、複数のカテゴリA、B、Cごとに分類された複数の文書データA1、B1、C1が入力される。ここで、カテゴリとは、複数の文書データA1〜C1のそれぞれに付与されている区分範囲であって、文書データの内容(属性)に応じ、例えばユーザによって予め決定されている。本実施の形態においては、カテゴリA〜Cの3つの例について説明するが、複数であればこれ以外の個数であってもよい。
形態素解析部2は、入力部1から入力された複数の文書データA1〜C1に対して、それぞれ形態素解析を実行し、文書データA1〜C1のそれぞれについて、複数の単語単位に分割する。形態素解析部2は、それぞれのカテゴリA〜Cごとに、分割された複数の単語からなる分割単語群A2、B2、C2を作成し、単語出現頻度算出部3に出力する。これにより、カテゴリAの文書データA1から分割単語群A2が、カテゴリBの文書データB1から分割単語群B2が、カテゴリCの文書データC1から分割単語群C2が得られる。
単語出現頻度算出部3は、形態素解析部2から入力された各カテゴリA〜Cに関して、各カテゴリA〜Cに属する分割単語群A2〜C2に出現する単語ごとの出現回数をカウントする。また、単語出現頻度算出部3は、この出現回数に応じた出現頻度を表す出現頻度情報A3、B3、C3をカテゴリA〜Cごとに生成し、重要順位情報生成部4に出力する。
この出現頻度情報A3〜C3として、単語出現頻度算出部3は、例えば、図2に示すような出現頻度数F1、F2、F3、F4を算出する。なお、出現頻度数F1は、任意のカテゴリcの文書データ内に出現した任意の単語tの個数、出現頻度数F2は、当該カテゴリc以外の文書データ内に出現した当該単語tの個数、出現頻度数F3は、当該カテゴリcの文書データ内に出現した当該単語t以外の個数、出現頻度数F4は、当該カテゴリc以外の文書データ内に出現した当該単語tの個数を表す。また、tは、任意の単語、cは、任意のカテゴリ、tバー( ̄)は、t以外の全ての単語、cバー( ̄)は、c以外の全てのカテゴリを意味している。さらに、文書データA1〜C1に含まれる全ての単語の個数は、出現頻度数F1〜F4の全てを加算した全単語数F5で表される。
重要順位情報生成部4は、単語出現頻度算出部3から入力されたカテゴリA〜Cごとの出現頻度情報A3〜C3に基づき、複数の重要度判断基準に応じた各単語の重要度を算出する。重要度判断基準とは、例えば、χ二乗値、相互情報量、オッズ比等の、それぞれ固有の観点に基づき任意のカテゴリに対する単語の重要度を算出する基準であって、重要度とは、それぞれの重要度判断基準の観点に応じて出現頻度に基づき重み付けされる尺度を表すものである。以下、χ二乗値、相互情報量、オッズ比のそれぞれの重要度を算出する演算式を式1〜3に示す。
Figure 2010157102
Figure 2010157102
Figure 2010157102
重要順位情報生成部4は、これら式1〜3に従って、複数の重要度判断基準に応じた各単語の重要度を算出し、算出された重要度に応じて単語が順位付けられた複数の重要度順位表(重要度順位情報)A4、B4、C4をカテゴリA〜Cごとに生成する。この重要度順位表A4〜C4は、単語とその単語の順位からなり、それぞれ重要度判断基準の数に等しい数だけ、重要度順位表を含む。
すなわち、重要順位情報生成部4は、式1に示されるχ二乗値の演算式に従い、χ二乗値における重要度I1を単語ごとに算出し、この重要度I1に応じて各単語が順位付けられた重要度順位表をカテゴリA〜Cごとに生成する。同様にして、重要順位情報生成部4は、式2に示される相互情報量の演算式に従い、相互情報量における重要度I2を単語ごとに算出し、この重要度I2に応じて各単語が順位付けられた重要度順位表をカテゴリA〜Cごとに生成する。また、重要順位情報生成部4は、式3に示されるオッズ比の演算式に従い、オッズ比における重要度I3を単語ごとに算出し、この重要度I3に応じて各単語が順位付けられた重要度順位表をカテゴリA〜Cごとに生成する。
ここで、本実施の形態における複数の重要度判断基準は、上述の通り、χ二乗値、相互情報量、オッズ比であって、それぞれ、χ二乗値を基準S1、相互情報量を基準S2、オッズ比を基準S3とする。重要順位情報生成部4は、例えば、図3に示すとおり、基準S1に基づいて算出されるカテゴリA〜Cの重要度順位表A4−1、B4−1、C4−1と、基準S2に基づいて算出されるカテゴリA〜Cの重要度順位表A4−2、B4−2、C4−2とを生成する。
また、図3に示す通り、重要順位情報生成部4は、異なる観点に応じた重要度判断基準に基づき重要度順位表を作成するため、同じカテゴリであっても、基準S1と基準S2の単語順位は異なる。
次に、重要度判断基準ごとの観点について説明する。なお、観点を説明する際、「抽出性」と「適合性」という評価指数があるが、「抽出性」とは、特定のカテゴリにおいて頻出する単語であり、その単語が出現する文書は当該カテゴリに属する可能性が高いため、当該カテゴリに属すると判断するために重要な単語、つまり、「カテゴリを関連づける単語」を抽出する割合をいう。また、「適合性」とは、特定のカテゴリにおいてほとんど発生せず、その単語が出現する文書は当該カテゴリに属しない可能性が高いため、カテゴリに属さない単語であると判断するために重要な単語、つまり、「カテゴリと関連づけない単語」のことを指す。ここで基準の観点とは、基準ごとに固有のメリットとデメリットを有し、ある文書データがあるカテゴリに属する、もしくは属さないと、いずれかの判断を行う際に利用される単語として、適した単語を抽出するための考え方をいう。
本実施の形態においてχ二乗値は、式1に示したP(t)<<1/2のため、分子が同じ値の場合は、P(t)が小さい値の方が上位に順位付けされる傾向にある。つまり、特定のカテゴリにおいてよく出現する単語を抽出する「抽出性」、および、カテゴリと関連づけない単語を抽出する「適合性」が概ね適した値となる傾向にある。
また、相互情報量は、式2に示したP(t)が大きく、かつ、P(t,c)が小さい値が上位に選ばれる傾向にある。すなわち、相互情報量は、出現頻度の高い単語で、かつ、カテゴリと関連しない単語が上位に順位付けされる傾向がある。言い換えると、相互情報量は、抽出された単語を利用してある文書データがどのカテゴリに属するかを判断する場合、この文書データ内にある単語tが発生したとき、その文書データがカテゴリcに属さない可能性が高い単語を上位に順位付ける傾向が高く、つまり「適合性」が高い傾向にある。
さらに、オッズ比は、式3に示したP(t)には関係なく、ある単語tのときにカテゴリcである確率が高い単語が選ばれる傾向にある。すなわち、オッズ比は、抽出された単語を利用してある文書データがどのカテゴリに属するかを判断する場合、この文書データ内にある単語tが発生したとき、その文書データがカテゴリcに属する可能性が高い単語を上位に順位付ける傾向が高く、つまり「抽出性」が高い傾向にある。
すなわち、抽出された単語を利用してある文書データが、あるカテゴリtに属するかを否かを判断する際、相互情報量に従って抽出された単語が当該文書データ内に含まれている場合、当該文書データはカテゴリcに属さないと判断される可能性が高くなる。一方、オッズ比に従って抽出された単語が当該文書データ内に含まれている場合、当該文書データはカテゴリcに属すると判断される可能性が高くなる。このように、相互情報量とオッズ比は背反する観点に基づく重要度判断基準である。
なお、本実施の形態において、χ二乗値、相互情報量、オッズ比では、全体文書内での単語の出現確率が考慮されない重要度判断基準である。このため、例えば、重要順位情報生成部4は、TFIDF値に基づく重要度判断基準を基準S4としてさらに利用する構成であってもよい。このTFIDF値とは、例えば、ある単語の出現頻度数(出現回数)/全単語数F5で算出される重要度を算出するものであって、これにより、重要順位情報生成部4は、文書全体において出現頻度の多い単語を順に並べた重要度順位表を生成することができる。
また、式1〜3に示す、P(x)は、文書データA1〜C1に含まれる全単語数F5における任意の単語の単語数xであって、x=tで表されるP(t)は、
「P(t)=全カテゴリに出現する単語tの個数(F1+F2)/全単語数F5」
と表される。
同様にして、x=(t,c)で表されるP(t、c)=F1/F5、x=cで表されるP(c)=(F1+F3)/F5であって、t以外(tバー)、c以外(cバー)の場合も同様である。
重要順位情報生成部4は、このようにして生成された重要度順位情報A4〜C4を、後述する所定の抽出基準に基づき、単語抽出部5に出力する。
単語抽出部5は、重要順位情報生成部4から入力されたカテゴリA〜Cごとの重要度順位表A4〜C4に基づき、カテゴリA〜Cごとに予め指定された個数(=k個)の単語を、例えばユーザによって設定される、任意の抽出設定(抽出基準)に従って抽出し、カテゴリA〜Cごとに単語リストA5、B5、C5を生成する。
出力部6は、単語抽出部5によって生成された単語リストA5〜C5を、単語抽出装置100の外部装置に出力する。
記憶部7は、単語抽出部5によって生成された単語リストA5〜C5を記憶する。
図3を用いて詳細に説明すると、例えば、抽出基準として上位抽出が設定され、全カテゴリA〜Cの抽出する単語の個数としてk=4個と設定されている場合、単語抽出部5は、カテゴリAの複数の重要度順位情報A4−1、A4−2に含まれる単語のうち、それぞれの上位2位を選択し、k=4個の単語(Aa,Ab,Az,Ax,)を抽出してカテゴリAの単語リストA5−1を生成する。すなわち、単語抽出部5は、各カテゴリに含まれる単語の中から、抽出された単語がk個になるように、各カテゴリの単語の上位から順に抽出する。また同様にして、単語抽出部5は、カテゴリBの複数の重要度順位情報B4−1、B4−2に基づき、それぞれの上位2位を選択し、k=4個の単語(Bc,Bd,Be,Bf,)を抽出してカテゴリBの単語リストB5−1を生成し、また、カテゴリCの複数の重要度順位情報C4−1、C4−2に基づき、それぞれの上位2位を選択し、k=4個の単語(Cy,Cz,Co,Cp,)を抽出してカテゴリCの単語リストC5−1を生成する。
この単語の抽出方法として単語抽出部5に設定されている抽出基準とは、重要度順位表A4〜C4から予め指定された個数(k個)の単語を抽出する方法の設定であって、例えば、単語の重要度の順位のばらつきを表す分散値あるいは標準偏差値に基づいて抽出する(1)分散値抽出設定、単語の重症度の順位の上位から順に抽出する(2)上位抽出設定、あるいは単語の重要度の順位の平均値に基づいて抽出する(3)平均値抽出設定等が利用可能である。なお、詳細については、図4〜6を用いて、次に説明する。なお、以下図4〜6を用いて説明する際に使用する重要度順位表C4−3〜C4−11は、重要度順位表C4−1、C4−2と同様、重要度順位表C4の一例である。
まず、(1)分散値抽出設定について、図4を用いて説明する。
図4は、単語抽出部5において、(1)分散値抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図4に示す通り、例えば、重要順位情報生成部4が、カテゴリCの出現頻度情報C4に基づき、基準S1、基準S2、基準S3のそれぞれに従って重要度を算出し、それぞれの基準S1〜3による重要度順位表C4−3、C4−4、C4−5を生成する。基準S1による重要度順位表C4−3には、1位に単語Crが、600位に単語Csが、800位に単語Ctが順位付けられている。また、基準S2による重要度順位表C4−4には、10位に単語Crが、400位に単語Ctが、600位に単語Csが順位付けられ、基準S3による重要度順位表C4−5には、400位に単語Ctが、500位に単語Csが、800位に単語Crが順位付けられている。
単語抽出部5は、複数の重要度判断基準にわたる各単語の重要度の順位のばらつきを表す分散値あるいは標準偏差値をカテゴリA〜Cごとに算出し、分散値あるいは標準偏差値の大きい順に順位付けされた分散値順位表(分散値順位情報)をカテゴリA〜Cごとに生成する。なお、分散値を算出するためにはいずれの計算方法を用いてもよく、例えば、式4の不偏分散を用いる。分散にルート(√)を取ったものが標準偏差値であり、この標準偏差値を用いてもよい。単語抽出部5は、例えば、カテゴリCの重要度順位表C4−3、C4−4、C4−5に基づき、下の式4に従って、基準S1〜3における各単語の重要度の順位の分散値を算出する。
Figure 2010157102
なお、式4において、「σ ct」は分散値、「i」は任意の重要度判断基準、「N」は重要度判断基準の数、「xcit」は任意のカテゴリcにおける任意の重要度判断基準iの任意の単語tの重要度の順位、「xctバー」は任意のカテゴリcにおける任意の単語tの重要度の順位の平均値、を表す。
つまり、単語Crは、重要度順位表C4−3〜C4−5において、1位、10位、800位であるため、重要度の順位の分散値は210430となる。また、単語Ctは、重要度順位表C4−3〜C4−5において、800位、400位、400位であるため、重要度の順位の分散値は53333となり、単語Csは、重要度順位表C4−3〜C4−5において、600位、600位、500位であるため、重要度の順位の分散値は3333となる。なお、標準偏差値を用いた場合、単語Crは459、単語Ctは231、単語Csは58となる。
単語抽出部5は、各単語の重要度の順位の分散値あるいは標準偏差値を算出すると、算出された分散値あるいは標準偏差値を順位付けした分散値順位表をカテゴリA〜Cごとに生成し、例えば、カテゴリCの分散値順位表C400を生成する。また、単語抽出部5は、カテゴリCにおいて予め指定された個数(例えば、k=9個)の単語を分散値順位表C400の上位から順に抽出し、カテゴリCの単語リストC5−3を生成する。
また、単語抽出部5は、カテゴリA、Bにおいても同様に、各カテゴリA、Bの各単語の重要度の順位に基づき分散値あるいは標準偏差値を算出し、算出された分散値あるいは標準偏差値が大きい順に順位付けられた分散値順位表を生成し、カテゴリA、Bごとに予め指定された個数(例えば、カテゴリAはk=5個、カテゴリBはk=7個)の単語を分散値順位表の上位から順に抽出し、カテゴリA、Bの単語リストA5−3、B5−3を生成する。
このように、分散値抽出設定に基づき生成される単語リストA5−3、B5−3、C5−3では、全ての重要度判断基準において支持された単語ではないが、複数の重要度判断基準にわたって支持された単語が、分散値順位表において上位に順位付けされ、抽出される。
次に、(2)上位抽出設定について、図5を用いて説明する。
図5は、単語抽出部5において、上位抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図5に示す通り、例えば、重要順位情報生成部4によって、基準S1、基準S2、基準S3のそれぞれに従って算出された重要度に基づき、基準S1〜3による重要度順位表C4−6、C4−7、C4−8が生成される。基準S1による重要度順位表C4−6には、1位に単語Cyが、2位に単語Czが、3位に単語Cxが、4位に単語Coが順位付けられている。また、基準S2による重要度順位表C4−7には、1位に単語Cyが、2位に単語Cpが、3位に単語Cqが、4位に単語Crが順位付けられ、基準S3による重要度順位表C4−8には、1位に単語Cmが、2位に単語Cjが、3位に単語Cfが、4位に単語Csが順位付けられている。
単語抽出部5は、カテゴリA〜Cごとに、それぞれの重要度順位表の上位から順に、カテゴリA〜Cごとに予め指定された個数(k個)であって、互いに異なる単語を抽出する。すなわち、単語抽出部5は、カテゴリCの単語を抽出する場合、重要度順位表C4−6、C4−7、C4−8から、重複する単語を選択しないよう、それぞれの1位から順に単語を選択し、全体として指定された個数(k個)を抽出する。つまり、単語抽出部5は、カテゴリCにおいてk=9個と設定されている場合、重要度順位表C4−6、C4−7、C4−8のぞれぞれの上位3位と、重要度順位表C4−64位の単語を選択し、それぞれ異なる単語(Cy,Cm,Cz,Cp,Cj,Cx,Cq,Cf,Co)を抽出し、カテゴリCの単語リストC5−6を生成する。なお、本実施形態において、重要度順位表C4−6、C4−7の1位は同じ単語であるため、重要度順位表C4−6の4位を抽出したが、本発明はこれに限られず、他の重要度順位表C4−7、C4−8の4位から抽出されるものであってもよく、重複する単語を除く抽出方法については図9を用いて後述する。
同様にして、単語抽出部5は、カテゴリA、Bにおいても、カテゴリA、Bごとに予め指定された個数(例えば、カテゴリAはk=5語、カテゴリBはk=7個)の単語を、複数の重要度順位表の上位から順に、重複する単語を選択しないように抽出し、カテゴリA、Bの単語リストA5−6、B5−6を生成する。
このように、上位抽出設定に基づき生成される単語リストA5−6、B5−6、C5−6としては、それぞれの基準S1〜3において支持された単語、すなわち、それぞれの基準S1〜3に基づくいずれかの観点に適した単語が選択される。
次に、(3)平均値抽出設定について、図6を用いて説明する。
図6は、単語抽出部5において、分散値抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図6に示す通り、例えば、重要順位情報生成部4が、カテゴリCの出現頻度情報C3に基づき、基準S1、基準S2、基準S3のそれぞれに従って重要度を算出し、それぞれの基準S1〜3による重要度順位表C4−9、C4−10、C4−11を生成する。基準S1による重要度順位表C4−9には、1位に単語Cyが、2位に単語Czが、3位に単語Cxが順位付けられている。また、基準S2による重要度順位表C4−10には、1位に単語Cyが、10位に単語Czが、40位に単語Cxが順位付けられ、基準S3による重要度順位表C4−11には、10位に単語Cyが、15位に単語Czが、50位に単語Cxが順位付けられている。
単語抽出部5は、カテゴリA〜Cごとに、複数の重要度判断基準における各単語の重要度の順位の平均値を算出し、平均値の小さい順に順位付けされた平均値順位表を生成する。単語抽出部5は、例えば、カテゴリCの重要度順位表C4−9、C4−10、C4−11に基づき、下の式5に従って、基準S1〜3における各単語の重要度の順位の平均値を算出する。
Figure 2010157102
つまり、単語Cyは、重要度順位表C4−9〜C4−11において、1位、1位、10位であるため、重要度の順位の平均値は4.0となる。また、単語Czは、重要度順位表C4−9〜C4−11において、2位、10位、15位であるため、重要度の順位の平均値は9.0となり、単語Cxは、重要度順位表C4−9〜C4−11において、3位、40位、50位であるため、重要度の順位の平均値は31.0となる。
単語抽出部5は、各単語の重要度の順位の平均値を算出すると、算出された平均値を順位付けした平均値順位表をカテゴリA〜Cごとに生成し、例えば、カテゴリCの平均値順位表C401を生成する。また、単語抽出部5は、カテゴリCにおいて予め指定された個数(例えば、k=9個)の単語を平均値順位表C401の上位から順に抽出し、カテゴリCの単語リストC5−9を生成する。
また、単語抽出部5は、カテゴリA、Bにおいても同様に、各カテゴリA、Bの各単語の重要度の順位に基づき平均値を算出し、算出された平均値が小さい順に順位付けられた平均値順位表を生成し、カテゴリA、Bごとに予め指定された個数(例えば、カテゴリAはk=5、カテゴリBはk=7個)の単語を平均値順位表の上位から順に抽出し、カテゴリA、Bの単語リストA5−9、B5−9を生成する。
このように、平均値抽出設定に基づき生成される単語リストA5−9、B5−9、C5−9では、全ての基準において平均的に支持された単語が、平均値順位表において上位に順位付けされ、抽出される。
次に、図7〜10を用いて、本実施形態に係る単語抽出装置の単語抽出方法の一例について説明する。
図7は、図1に示した単語抽出装置100の単語抽出方法の一例について説明するためのフローチャートである。
図7に示すとおり、単語抽出装置100は、入力部1を介して、複数のカテゴリA〜Cごとに分類された複数の文書データA1〜C1が入力される(ステップST11)。形態素解析部2は、この文書データA1〜C1に対して形態素解析を実行し、単語単位に分割された複数の単語からなる分割単語群A2〜C2を作成し、単語出現頻度算出部3に出力する(ステップST12)。単語出現頻度算出部3は、分割単語群A2〜C2に基づき、カテゴリA〜Cごとに単語の出現回数をカウントする。そして、単語出現頻度算出部3は、この出現回数に基づき、各カテゴリA〜Cの出現頻度情報A3〜C3を生成し、重要順位情報生成部4に出力する(ステップST13)。
重要順位情報生成部4は、カテゴリA〜Cごとの出現頻度情報A3〜C3に基づき、複数の重要度判断基準(基準S1〜3)に応じた単語の重要度を算出する。そして、重要順位情報生成部4は、基準S1〜3ごとに重要度に応じて単語が順位付けされた重要順位表A4〜C4を、カテゴリA〜Cごとに複数生成し、単語抽出部5に出力する(ステップST14)。単語抽出部5は、重要順位情報生成部4から出力された重要度順位表A4〜C4に基づいて、予め設定されている分散値抽出設定、上位抽出設定、あるいは平均値抽出設定のいずれか1つに従って、予め指定された個数の単語をカテゴリA〜Cごとに抽出し、各カテゴリA〜Cの単語リストA5〜C5を生成する(ステップST15)。
重要順位情報生成部4および単語抽出部5は、全てのカテゴリA〜Cにおける単語リストA5〜C5が生成されるまで、ステップST15における単語リストA5〜C5の生成を繰り返し(ステップST16−NO)、全てのカテゴリA〜Cにおける単語リストA5〜C5を生成する(ステップST16−YES)。生成された単語リストA5〜C5は、出力部6を介して単語抽出装置100の外部に出力され、あるいは、記憶部7に記憶される。
このようにして、単語抽出装置100の重要順位情報生成部4は、複数の基準に応じた複数の重要度順位表を作成し、単語抽出部5が、複数の基準によって複数の観点で順位付けされた単語を所定の抽出基準に従い抽出して単語リストを生成する。これにより、単語抽出装置100は、重要順位情報生成部4によって利用された複数の重要度判断基準のそれぞれの良い点(観点)、すなわち、基準S1のχ二乗値や基準S3のオッズ比によって得られる高い抽出性と、基準S1のχ二乗値や基準S2の相互情報量によって得られる高い適合性の両方を実現する単語を抽出することができる。よって、本実施形態に係る単語抽出装置100は、あるひとつの基準に従って抽出された単語に比べて、よりカテゴリに適した単語を抽出でき、カテゴリに適さない単語を誤って抽出してしまう割合を減少することができる。
次に、図8を用いて、単語抽出部5の抽出基準として、分散値抽出設定が設定されている場合の単語抽出方法の一例について、上述の図4で説明した実施形態を適用して説明する。図8は、図7のステップST15の抽出基準として、分散値抽出設定が設定されている場合の単語抽出方法の一例について説明するためのフローチャートである。
図8に示す通り、単語抽出部5の抽出基準として、分散値抽出設定が設定された場合(ステップST21)、カテゴリA〜Cごとに予め指定された個数として、抽出に必要な単語の個数(k個)がユーザによって設定される(ステップST22)。本実施の形態においては、図4で説明した通り、カテゴリAはk=5個、カテゴリBはk=7個、カテゴリCはk=9個と設定される。
単語抽出部5は、重要順位情報生成部4によって生成された重要度順位表A4〜C4に基づいて、複数の重要度判断基準における各単語の重要度の順位の分散値あるいは標準偏差値を算出する(ステップST23)。そして、単語抽出部5は、算出された分散値あるいは標準偏差値の大きい順に順位付けした分散値順位表をカテゴリA〜Cごとに生成する(ステップST24)。
すなわち、図4の例を用いて説明すると、単語抽出部5は、複数の基準S1〜3のそれぞれに対応する重要度順位表C4−3〜C4−5に基づき、各単語(Cr,Ct,Cs・・・)の重要度の順位の分散値(210430,53333,3333・・・)を算出し、カテゴリCの分散値順位表C400を生成する。そして、単語抽出部5は、ステップST22において設定されているカテゴリCにおいて予め指定された個数(k個=9)の単語を、分散値順位表C400の上位から順に抽出し、単語リストC5−3を生成する(ステップST25)。
単語抽出部5は、全てのカテゴリA〜Cにおける単語リストA5〜C5が生成されるまで、ステップST22に戻って、ステップST22〜ST25の工程を繰り返し(ステップST26−NO)、全てのカテゴリA〜Cにおける単語リストA5〜C5を生成する(ステップST26−YES)。
次に、図9を用いて、単語抽出部5の抽出基準として、上位抽出設定が設定されている場合の単語抽出方法の一例について、上述の図5で説明した実施形態を適用して説明する。図9は、図7のステップST15の抽出基準として、上位抽出設定が設定されている場合の単語抽出方法の一例について説明するためのフローチャートである。
図9に示す通り、単語抽出部5の抽出基準として、上位抽出設定が設定されている場合(ステップST31)、カテゴリA〜Cごとに予め指定された個数として、抽出に必要な単語の個数(k個)が設定される(ステップST32)。本実施の形態においては、図5で説明した通り、カテゴリAはk=5個、カテゴリBはk=7個、カテゴリCはk=9個と設定される。
単語抽出部5は、重要順位情報生成部4によって生成された重要度順位表A4〜C4の上位から順に、カテゴリA〜Cごとに予め指定された個数(k個)であって、互いに異なる単語を抽出する。
すなわち、単語抽出部5は、カテゴリCの単語を抽出する場合、重要度順位表C4−6、C4−7、C4−8のそれぞれ上位から順に、全体としてk個の単語を抽出し(ステップST33)、この抽出したk=9個の単語の中に同じ単語が含まれているか否かを検出する(ステップST34)。
図5に示した例において、単語抽出部5は、重要度順位表C4−6、C4−7、C4−8の上位3位までの単語を抽出し、同じ単語が含まれているか否かを検出する。図5に示す通り、重要度順位表C4−6の1位と、重要度順位表C4−7の1位が、同じ単語Cyであるため(ステップST34−YES)、単語抽出部5は、重要度順位表C4−6、C4−7のそれぞれから抽出された単語Cyを1つの単語として抽出し、重要度順位表C4−6、C4−7、C4−8の上位3位から8個の単語を抽出する(ステップST35)。
単語抽出部5は、重要度順位表C4−6、C4−7、C4−8の上位から順に、互い異なる単語をk個抽出するまで、ステップST33に戻ってステップST33〜ST35の工程を繰り返し(ステップST36−NO)、例えば、重要度順位表C4−6の4位の単語CoをステップST35において抽出した8個の単語に加えて、合計9個の単語(単語Cy,Cm,Cz,Cp,Cj,Cx,Cq,Cf,Co)を抽出し(ステップST36−YES)、カテゴリCの単語リストC5−6を生成する(ステップST37)。
単語抽出部5は、全てのカテゴリA〜Cにおける単語リストA5〜C5が生成されるまで、ステップST32に戻って、ステップST32〜ST36の工程を繰り返し(ステップST38−NO)、全てのカテゴリA〜Cにおける単語リストA5〜C5を生成する(ステップST38−YES)。
なお、本実施の形態において、ステップST33で重要度順位表C4−6、C4−7、C4−8の上位から単語を抽出する場合、9個目の単語として、基準S1による重要度順位表C4−6の4位の単語Coを抽出する例を説明したが、本発明はこれに限られず、他の基準S2あるいは基準S3による重要度順位表C4−7、C4−8の4位の単語を抽出する構成であってもよい。
次に、図10を用いて、単語抽出部5の抽出基準として、平均値抽出設定が設定されている場合の単語抽出方法の一例について、上述の図6で説明した実施形態を適用して説明する。図10は、図7のステップST15の抽出基準として、平均値抽出設定が設定されている場合の単語抽出方法の一例について説明するためのフローチャートである。
図10に示す通り、単語抽出部5の抽出基準として、平均値抽出設定が設定された場合(ステップST41)、カテゴリA〜Cごとに予め指定された個数として、抽出に必要な単語の個数(k個)が設定される(ステップST42)。本実施の形態においては、図6で説明した通り、カテゴリAはk=5個、カテゴリBはk=7個、カテゴリCはk=9個と設定される。
単語抽出部5は、重要順位情報生成部4によって生成された重要度順位表A4〜C4に基づいて、複数の重要度判断基準における各単語の重要度の順位の平均値を算出する(ステップST43)。そして、単語抽出部5は、算出された平均値を小さい順に順位付けした平均値順位表をカテゴリA〜Cごとに生成する(ステップST44)。
すなわち、図6の例を用いて説明すると、単語抽出部5は、複数の基準S1〜3のそれぞれに対応する重要度順位表C4−9〜C4−11に基づき、各単語(Cy,Cz,Cx・・・)の重要度の順位の平均値(4.0,9.0,31.0・・・)を算出し、カテゴリCの平均値順位表C401を生成する。そして、単語抽出部5は、ステップST42において設定されているカテゴリCにおいて予め指定された個数(k個=9)の単語を、平均値順位表C401の上位から順に抽出し、単語リストC5−9を生成する(ステップST45)。
単語抽出部5は、全てのカテゴリA〜Cにおける単語リストA5〜C5が生成されるまで、ステップST42に戻って、ステップST42〜ST45の工程を繰り返し(ステップST46−NO)、全てのカテゴリA〜Cにおける単語リストA5〜C5を生成する(ステップST46−YES)。
上述の通り、本実施の形態に係る単語抽出装置100は、複数の重要度判断基準に従って順位付けされた重要度順位表に基づき、k個の単語を抽出し、カテゴリごとの単語リストを作成することができる。この構成により、単語抽出装置100は、利用した複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、あるひとつの基準に従って抽出された単語に比べて、例えば、よりカテゴリに適した単語を抽出でき、カテゴリに適さない単語を誤って抽出してしまう割合を減少することができる。
さらに、本実施の形態に係る単語抽出装置100は、複数の重要度判断基準として、相互情報量とオッズ比のように背反する観点を有する基準を利用することができる。このような背反する観点の基準で単語を抽出することは、ひとつの基準に従って単語を抽出する構成においては実現し得ない効果である。
すなわち、オッズ比では、該当カテゴリに属する可能性の高い単語に優先順位を付与するため、オッズ比は、抽出性の観点において重要な重要度判断基準である。しかし、オッズ比で選ばれた単語は、相互情報量のように適合性の観点を有していないため、他のカテゴリにおいても頻出する単語を排除する観点を備えず、オッズ比で抽出された単語においては適合性が低下する傾向にある。
つまり、ある文書データがあるカテゴリに属するか否かの判断において、オッズ比に従って抽出された単語が利用された場合、該当カテゴリに加えて適切でないカテゴリにも属すると判断される可能性が高くなる。
また、これら各重要度判断基準に従って算出される重要度は、相関係数はゼロに近い値となる傾向があるため、重要度同士はほとんど関係しない場合が多い。よって、複数の基準ごとの結果を比較し、検討し、試行錯誤しても、一意に適切な基準でこれら複数の観点を達成することは困難である。
これに対し、本実施の形態に係る単語抽出装置100によると、複数の重要度判断基準を利用することができるため、カテゴリごとに適した重要度判断基準を選択する必要がなく、複数の重要度判断基準を利用することができるため、試行錯誤が必要なく、作業効率を改善することができる。
これにより、例えば、文書の審査業務において、本実施の形態に係る単語抽出装置100によって抽出された単語が利用されることにより、あるカテゴリごとに構成された審査員のチームに対して、当該カテゴリと判断された文書を提供することができる。これにより、審査員のチームは、不要な文書を判断する手間が省け、作業効率の向上に貢献することができる。
次に、本実施の形態に係る単語抽出装置100における評価実験を行った結果について説明する。
なお、この評価実験は、入力部1から入力される文書データとして、英文の新聞記事データ(reuters 21578)であって、文書数が8612、単語の種類が11822、カテゴリ数が8、全単語数が472619である文書データについて行った。
まず、図11、図12を用いて、本実施の形態に係る単語抽出装置100において抽出される単語に基づいて行われた文書分類の誤抽出率と誤排除率について、χ二乗値、相互情報量、オッズ比の1つ重要度判断基準に従って抽出した場合とを比較しながら説明する。
図11は、単語抽出装置100において抽出される単語に基づいて行われた文書分類の誤抽出率と単一の重要度判断基準に従って抽出された単語に基づいて行われた文書分類の誤抽出率との比較を表すグラフである。
図11に示す通り、T1はχ二乗値、T2は相互情報量、T3はオッズ比に従って抽出された単語に基づいて文書分類が行われた場合の誤抽出率をそれぞれ表し、T4は、本実施の形態に係る単語抽出装置100によって抽出された単語に基づいて行われた文書分類の誤抽出率を表す。なお誤抽出率とは、カテゴリに属さない文書を誤って抽出してしまう割合である。
T1〜T3に示す通り、それぞれひとつの重要度判断基準に従って単語を抽出した場合、抽出する単語が増加するに伴い、誤抽出率は低下する傾向にあるが、全体として誤抽出率は高く、約50%以上である。なお、重要度判断基準に従って単語を抽出する方法としては、重要順位情報生成部4と同様に、それぞれの重要度判断基準によって算出される重要度に従って順位付けされた重要度順位表を作成し、この重要度順位表の上位から順に指定された個数の単語を抽出する方法を利用する。
一方、T4に示される通り、単語抽出装置100によって、χ二乗値、相互情報量およびオッズ比の全ての基準に従って作成される重要度順位表から、分散値抽出設定に基づき抽出されたk個の単語に基づいて文書分類が行われた場合、誤抽出率は低下する傾向にあり、全体として誤抽出率は低い。特に、抽出する単語の個数kが2000個以上の場合においては、誤抽出率は約40%以下である。
このように、単語抽出装置100によって単語を抽出することによって、複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、ひとつの基準に従って抽出された単語に比べて、よりカテゴリに適した単語を抽出でき、カテゴリに属さない文書を誤って抽出してしまう誤抽出率を低減することができる。
次いで、図12を用いて誤排除率について説明する。
図12は、単語抽出装置100において抽出される単語に基づいて行われた文書分類の誤排除率と単一の重要度判断基準に従って抽出された単語に基づいて行われた文書分類の誤排除率との比較を表すグラフである。
図12に示す通り、H1はχ二乗値、H2は相互情報量、H3はオッズ比に従って抽出された単語に基づいて文書分類が行われた場合の誤排除率をそれぞれ表し、H4は、本実施の形態に係る単語抽出装置100によって抽出された単語に基づいて行われた文書分類の誤排除率を表す。なお誤排除率とは、カテゴリに属する文書を誤って排除してしまった文書の割合である。
H1、H2に示される通り、それぞれひとつの重要度判断基準(χ二乗値、相互情報量)に従って単語を抽出した場合、全体として誤排除率は高く、約30〜50%である。また、H3に示される通り、ひとつの重要度判断基準であるオッズ比に従って単語を抽出した場合、抽出する単語が増加するに伴い誤排除率は低下する傾向にあるが、抽出する単語の個数kが1000個の場合は、著しく誤排除率が高くなり約40%である。
一方、H4に示される通り、単語抽出装置100によって、χ二乗値、相互情報量およびオッズ比の全ての基準に従って作成される重要度順位表から、分散値抽出設定に基づき指定された個数(k個)が抽出された場合、誤排除率は全体的に低く、約5%未満である。よって、H3に示すオッズ比の誤排除率は低いものの、H4に示す単語抽出装置100による誤排除率の方が全体的にさらに低く、誤排除率もほぼ一定値を維持し安定している。
このように、単語抽出装置100によって単語を抽出することによって、複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、ひとつの基準に従って抽出された単語に比べて、カテゴリに属さない文書を誤って抽出してしまう誤抽出率を低減することができる。
また、上述において、本実施の形態係る単語抽出装置100は、任意に設定される抽出設定に従って抽出された単語で、カテゴリごとの単語リストを作成する例について説明したが、以下、(1)分散値抽出設定、(2)上位抽出設定、あるいは(3)平均値抽出設定において抽出される単語に基づいて行われた文書分類の誤抽出率あるいは誤排除率について比較したものを図13,14に示し、以下説明する。
図13は、(1)〜(3)の抽出設定に従って単語抽出装置100により抽出される単語に基づいて行われた文書分類の誤抽出率の比較を表すグラフである。
図13に示す通り、T5は上位抽出設定、T6は平均値抽出設定、T7は分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合の誤抽出率をそれぞれ表す。
T7に示される通り、分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合、全体として誤抽出率は低く、特に、抽出する単語の個数kが2000個以上の場合においては、誤抽出率は約40%以下を維持して安定している。
また、T5、T6に示される通り、上位抽出設定あるいは平均値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合、抽出する単語が少ないときに誤抽出率が高くなることがあるが、抽出する単語が増加するに従って誤抽出率は低くなり、T7とほぼ同等の誤抽出率となる。
次いで、図14を用いて誤排除率について説明する。
図14は、(1)〜(3)の抽出基準に従って単語抽出装置100により抽出される単語に基づいて行われた文書分類の誤排除率の比較を表すグラフである。
図14に示す通り、H5は上位抽出設定、H6は平均値抽出設定、H7は分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合の誤排除率をそれぞれ表す。
H7に示される通り、分散値抽出設定に従って抽出した単語に基づいて文書分類が行われた場合、誤排除率は全体的に低く、約5%未満であり、ほぼ一定値を維持し安定している。
また、H5、H6に示される通り、上位抽出設定あるいは平均値抽出設定に従って抽出した単語に基づいて文書分類が行われた場合、抽出する単語が少ないときに誤排除率が高くなることがあるが、抽出する単語が増加するに従って誤排除率は低くなり、H7とほぼ同等の誤排除率となる。
上述の通り、抽出基準として、(1)〜(3)のいずれが設定された場合であっても、抽出する単語が多ければ、誤抽出率および誤排除率を低く抑えることができるが、これらの設定の中では、(1)分散値抽出設定が最も好ましく、安定して低い誤抽出率および誤排除率を実現することができる。
これは、複数の重要度判断基準において算出される単語の重要度の相関係数が低い場合が多く、(1)分散値抽出設定によると、複数の重要度判断基準によって支持された単語が抽出されるためである。従って、単語の重要度の相関係数が高い場合は、(2)上位抽出設定や、(3)平均値抽出設定においても、カテゴリに応じた単語を抽出することができる。
また、上述の単語抽出装置100における動作の過程は、コンピュータに実行させるためのプログラムや、このプログラムとしてコンピュータ読み取り可能な記録媒体として利用可能であり、コンピュータシステムが読み出して実行することによって、上記処理が行われる。なお、ここでいう「コンピュータシステム」とは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に記憶したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本実施の形態に係る単語抽出装置100の一例を示すブロック図である。 図1に示す単語出現頻度算出部によって算出される情報の一例を示す概念図である。 本実施の形態に係る単語抽出装置100の単語の抽出について説明する概念図である。 図3に示す単語の抽出の一例について説明する概念図である。 図3に示す単語の抽出の他の例について説明する概念図である。 図3に示す単語の抽出の他の例について説明する概念図である。 本実施の形態に係る単語抽出装置100の処理フローの一例について説明するフローチャートである。 本実施の形態に係る単語抽出装置100の単語の抽出フローの一例について説明するフローチャートである。 本実施の形態に係る単語抽出装置100の単語の抽出フローの他の例について説明するフローチャートである。 本実施の形態に係る単語抽出装置100の単語の抽出フローの他の例について説明するフローチャートである。 本実施の形態に係る単語抽出装置100に基づいて行われた文書分類の誤抽出率と他の単語抽出に基づいて行われた文書分類による誤抽出率との比較を表すグラフである。 本実施の形態に係る単語抽出装置100に基づいて行われた文書分類の誤排除率と他の単語抽出に基づいて行われた文書分類による誤排除率との比較を表すグラフである。 本実施の形態に係る単語抽出装置100において異なる抽出基準で抽出された単語に基づいて行われた文書分類の誤抽出率の比較を表すグラフである。 本実施の形態に係る単語抽出装置100において異なる抽出基準で抽出された単語に基づいて行われた文書分類の誤排除率の比較を表すグラフである。
符号の説明
1 入力部
2 形態素解析部
3 単語出現頻度算出部
4 重要順位情報生成部
5 単語抽出部
6 出力部
100 単語抽出装置

Claims (7)

  1. 任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を、前記文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部と、
    前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出する単語抽出部と
    を備えることを特徴とする単語抽出装置。
  2. 前記単語抽出部は、
    前記重要順位情報に基づき算出される、前記複数の重要度判断基準にわたる前記各単語の前記重要度の順位のばらつきを表す分散値あるいは標準偏差値に基づき、前記予め指定された個数の単語を抽出する分散値抽出設定、
    前記重要順位情報の上位から順に、前記予め指定された個数の単語を抽出する上位抽出設定、あるいは
    前記重要順位情報に基づき算出される、前記複数の重要度判断基準における前記各単語の前記重要度の順位の平均値に基づき、前記予め指定された個数の単語を抽出する平均値抽出設定
    のうちいずれか1つの前記抽出基準に従って、前記カテゴリから前記予め指定された個数の単語を抽出することを特徴とする請求項1に記載の単語抽出装置。
  3. 前記単語抽出部は、分散値抽出設定において、
    前記分散値あるいは標準偏差値の大きい順に前記単語が順位付けされた分散値順位情報を前記カテゴリごとに生成し、前記分散値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする請求項2に記載の単語抽出装置。
  4. 前記単語抽出部は、上位抽出設定において、
    前記複数の重要順位情報の上位から順に、前記カテゴリごとに予め指定された個数であって、互いに異なる前記単語を前記カテゴリごとに抽出することを特徴とする請求項2に記載の単語抽出装置。
  5. 前記単語抽出部は、平均値抽出設定において、
    前記平均値の小さい順に前記単語が順位付けされた平均値順位情報を前記カテゴリごとに生成し、前記平均値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする請求項2に記載の単語抽出装置。
  6. 任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出する単語抽出装置における単語抽出方法において、
    前記単語抽出装置の重要順位情報生成部が、
    前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成し、
    前記単語抽出装置の単語抽出部が、
    前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出することを特徴とする単語抽出方法。
  7. 任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出するコンピュータに、
    前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成させる重要順位情報生成手段と、
    前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出させる単語抽出手段とを実行させるためのプログラム。
JP2008335080A 2008-12-26 2008-12-26 単語抽出装置、単語抽出方法およびプログラム Expired - Fee Related JP4994358B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008335080A JP4994358B2 (ja) 2008-12-26 2008-12-26 単語抽出装置、単語抽出方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008335080A JP4994358B2 (ja) 2008-12-26 2008-12-26 単語抽出装置、単語抽出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010157102A true JP2010157102A (ja) 2010-07-15
JP4994358B2 JP4994358B2 (ja) 2012-08-08

Family

ID=42574996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008335080A Expired - Fee Related JP4994358B2 (ja) 2008-12-26 2008-12-26 単語抽出装置、単語抽出方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4994358B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073804A (ja) * 2010-09-28 2012-04-12 Toshiba Corp キーワード提示装置、方法及びプログラム
KR101505546B1 (ko) 2014-04-11 2015-03-26 고려대학교 산학협력단 텍스트 마이닝을 이용한 키워드 도출 방법
JP2016099750A (ja) * 2014-11-20 2016-05-30 日本電信電話株式会社 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029882A (ja) * 1998-07-08 2000-01-28 Dainippon Screen Mfg Co Ltd 要約文作成装置
JP2002055689A (ja) * 2000-08-11 2002-02-20 Taito Corp 順位生成機能を有するアミューズメント装置、順位生成装置
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029882A (ja) * 1998-07-08 2000-01-28 Dainippon Screen Mfg Co Ltd 要約文作成装置
JP2002055689A (ja) * 2000-08-11 2002-02-20 Taito Corp 順位生成機能を有するアミューズメント装置、順位生成装置
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073804A (ja) * 2010-09-28 2012-04-12 Toshiba Corp キーワード提示装置、方法及びプログラム
US8812504B2 (en) 2010-09-28 2014-08-19 Kabushiki Kaisha Toshiba Keyword presentation apparatus and method
KR101505546B1 (ko) 2014-04-11 2015-03-26 고려대학교 산학협력단 텍스트 마이닝을 이용한 키워드 도출 방법
JP2016099750A (ja) * 2014-11-20 2016-05-30 日本電信電話株式会社 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム

Also Published As

Publication number Publication date
JP4994358B2 (ja) 2012-08-08

Similar Documents

Publication Publication Date Title
JP5531395B2 (ja) 単語親和度による単語クラスタの識別
US8099418B2 (en) Information search support method and information search support device
KR102046096B1 (ko) 자원 효율적인 문서 검색
US7945668B1 (en) System and method for content-aware co-clustering algorithm based on hourglass model
Yan Research dynamics, impact, and dissemination: A topic‐level analysis
JP5621773B2 (ja) 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
US20100313258A1 (en) Identifying synonyms of entities using a document collection
US20200125674A1 (en) Reducing storage required for an indexing structure through index merging
US20090094021A1 (en) Determining A Document Specificity
US10146775B2 (en) Apparatus, system and method for string disambiguation and entity ranking
JP5594145B2 (ja) 検索装置、検索方法、及びプログラム
CN103279513A (zh) 产生内容标签的方法、提供多媒体内容信息的方法及装置
JP5494126B2 (ja) 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム
EP2045732A2 (en) Determining the depths of words and documents
JP2015500525A (ja) 情報検索のための方法および装置
JP2011165131A (ja) 情報処理装置および方法、並びにプログラム
KR20120049551A (ko) 사용자 선호도와 컨텐츠 내용을 고려한 컨텐츠 추천 방법
JP4994358B2 (ja) 単語抽出装置、単語抽出方法およびプログラム
US9552415B2 (en) Category classification processing device and method
JP2013174988A (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
US9400789B2 (en) Associating resources with entities
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP2010238041A (ja) 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法
JP7341090B2 (ja) 文献検索システム及び方法
JP6015417B2 (ja) クラスタ処理方法、クラスタ処理装置およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120508

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4994358

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees