JP2010157102A

JP2010157102A - 単語抽出装置、単語抽出方法およびプログラム

Info

Publication number: JP2010157102A
Application number: JP2008335080A
Authority: JP
Inventors: Takashi Suenaga; 高志末永; Shuhei Kuwata; 修平桑田; Tsutomu Matsunaga; 務松永
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2010-07-15
Anticipated expiration: 2028-12-26
Also published as: JP4994358B2

Abstract

【課題】複数の観点に応じた単語の重要度判断基準に基づき、カテゴリに応じた単語を抽出する単語抽出装置、単語抽出方法およびプログラムを提供することにある。
【解決手段】任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた各単語の重要度を算出し、重要度判断基準ごとに重要度に応じて単語が順位付けられた重要順位情報を、文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部４と、重要順位情報に基づいて、所定の抽出基準によりカテゴリごとに予め指定された個数の前記単語を抽出する単語抽出部５とを備えることを特徴とする。
【選択図】図１

Description

本発明は、文書データに含まれる複数の単語の属性を解析し、属性に応じた単語を抽出する単語抽出装置、単語抽出方法およびプログラムに関する。

文書分類や文書検索を行う場合、分類や検索に用いる単語の選択が重要である。例えば、ニュース記事のように「政治」、「ビジネス」、「スポーツ」などの複数のカテゴリのうち、いずれかのカテゴリに属する複数の文書データにおいて、ある文書データがどのカテゴリに属するかを判断する場合、文書データ内の単語が、カテゴリを特徴づける単語に属するか否かを判断することにより、文書データが属するカテゴリを判断する技術がある。
具体的に説明すると、「スポーツ」のカテゴリにおいて、「野球」という単語は、「スポーツ」に関連する単語である可能性が高く、「スポーツ」のカテゴリに属すると判断するために重要な単語、つまり、「カテゴリを関連づける単語」と言える。
一方、「円高」という単語は、「スポーツ」のカテゴリに関連しない単語である可能性が高く、「円高」という単語を含む文書データを、「スポーツ」のカテゴリに属さない単語であると判断するために重要な単語、つまり、「カテゴリと関連づけない単語」と言える。
しかし、「交代」という単語は、「スポーツ」のカテゴリでは「選手交代」として、「ビジネス」のカテゴリでは「世代交代」として、それぞれ異なるカテゴリにおいて共に使用される可能性の高く、文書データの「カテゴリを判断するために適さない単語」と言える。

また、このような「カテゴリを関連づける単語」、あるいは「カテゴリと関連づけない単語」の両方が、文書をカテゴリ分けする文書分類において重要であり、この目的に対して、カテゴリの判断に適した複数の単語を抽出する技術がある。
例えば、カテゴリ情報を含む複数の文書データに基づき、文書データ内に出現する単語の出現頻度を計算し、計算された単語の出現頻度に応じて、共通するカテゴリに属する文書データにおける各単語の重要度の値をひとつの基準に基づき計算する。そして、この単語の重要度の値が大きい単語を、文書データのカテゴリを判断するために適する単語として、カテゴリごとに抽出するものがある（特許文献１参照）。
上述の基準に基づき計算する場合、「χ二乗値」、「相互情報量」あるいは「オッズ比」などの基準に基づき、単語の重要度を算出する方法がある（非特許文献１参照）。
特開２００７−２４１６３６号公報 F. Sebastiani : Machine Learning in Automated Text Categorization, ACM Computing Surveys, 2002.

しかしながら、単語の重要度を算出する基準として、あるひとつの基準を選択し、このひとつの基準に基づいて複数のカテゴリごとにカテゴリを判断するために適した単語を抽出すると、基準ごとに観点が異なるため、単語ごとにカテゴリに応じた最適な重要度を算出することが困難であった。
例えば、上述で説明した「スポーツ」のカテゴリにおいて、「相互情報量」の基準に従って重要度を算出する場合、「野球」のようなカテゴリを関連づける単語を検出することはできるが、「円高」のようなカテゴリと関連づけない単語を検出することは困難であった。またこれとは逆に、「オッズ比」の基準に従って重要度を算出した場合、「円高」のようなカテゴリと関連づけない単語を検出することはできるが、「野球」のようなカテゴリを関連づける単語を検出することは困難であった。

このように単語の重要度を算出するための基準は、それぞれの観点に応じたメリットとデメリットを備え、カテゴリに応じた各単語の重要度を算出するために適した基準を選択するためには、試行錯誤が必要であり、作業効率が悪いという問題があった。
また、複数の基準ごとの結果を比較し、検討し、試行錯誤しても、それぞれの基準はそれぞれ固有の観点を有するため、一意に適切な基準でこれら複数の観点を達成することは困難であるという問題があった。

本発明は、このような事情を考慮し、上記の問題を解決すべくなされたものであって、その目的は、複数の観点に応じた単語の重要度判断基準に基づき、カテゴリに応じた単語を抽出する単語抽出装置、単語抽出方法およびプログラムを提供することにある。

上記問題を解決するために、本発明は、任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を、前記文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部と、前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出する単語抽出部とを備えることを特徴とする単語抽出装置である。

また、本発明にかかる単語抽出装置は、前記単語抽出部は、前記重要順位情報に基づき算出される、前記複数の重要度判断基準にわたる前記各単語の前記重要度の順位のばらつきを表す分散値あるいは標準偏差値に基づき、前記予め指定された個数の単語を抽出する分散値抽出設定、前記重要順位情報の上位から順に、前記予め指定された個数の単語を抽出する上位抽出設定、あるいは、前記重要順位情報に基づき算出される、前記複数の重要度判断基準における前記各単語の前記重要度の順位の平均値に基づき、前記予め指定された個数の単語を抽出する平均値抽出設定、のうちいずれか１つの前記抽出基準に従って、前記カテゴリから前記予め指定された個数の単語を抽出することを特徴とする。

また、本発明にかかる単語抽出装置は、前記単語抽出部は、分散値抽出設定において、前記分散値あるいは標準偏差値の大きい順に前記単語が順位付けされた分散値順位情報を前記カテゴリごとに生成し、前記分散値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする。

また、本発明にかかる単語抽出装置は、前記単語抽出部は、上位抽出設定において、前記複数の重要順位情報の上位から順に、前記カテゴリごとに予め指定された個数であって、互いに異なる前記単語を前記カテゴリごとに抽出することを特徴とする。

また、本発明にかかる単語抽出装置は、前記単語抽出部は、平均値抽出設定において、前記平均値の小さい順に前記単語が順位付けされた平均値順位情報を前記カテゴリごとに生成し、前記平均値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする。

また、本発明は、任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出する単語抽出装置における単語抽出方法において、前記単語抽出装置の重要順位情報生成部が、前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成し、前記単語抽出装置の単語抽出部が、前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出することを特徴とする単語抽出方法である。

また、本発明は、任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出するコンピュータに、前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成させる重要順位情報生成手段と、前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出させる単語抽出手段とを実行させるためのプログラムである。

本発明に係る単語抽出装置は、任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた各単語の重要度を算出し、重要度判断基準ごとに重要度に応じて単語が順位付けられた重要順位情報を、文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部と、重要順位情報に順位付けられている前記単語の順位に基づいて、前記カテゴリから予め指定された個数の単語を抽出する単語抽出部とを備える。この構成により、単語抽出装置は、利用した複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、あるひとつの基準に従って抽出された単語に比べて、例えば、よりカテゴリに適した単語を抽出でき、カテゴリの判断に適さない単語を誤って抽出してしまう割合を減少することができる。これにより、単語抽出装置は、例えば、相互情報量とオッズ比のように背反する観点を有する基準に基づき単語を抽出することができる。

以下、図面を参照して、本発明の一実施形態について説明する。図１は、本実施形態に係る単語抽出装置の一例を示す概略ブロック図である。図２は、図１に示す単語出現頻度算出部によって生成された出現頻度情報の一例を示す概略図である。図３は、図１に示す重要順位情報生成部および単語抽出部によって生成される情報の一例を示す概略図である。

図１に示すように、単語抽出装置１００は、入力部１と、形態素解析部２と、単語出現頻度算出部３と、重要順位情報生成部４と、単語抽出部５と、出力部６と、記憶部７とを備える。
入力部１は、複数のカテゴリＡ、Ｂ、Ｃごとに分類された複数の文書データＡ１、Ｂ１、Ｃ１が入力される。ここで、カテゴリとは、複数の文書データＡ１〜Ｃ１のそれぞれに付与されている区分範囲であって、文書データの内容（属性）に応じ、例えばユーザによって予め決定されている。本実施の形態においては、カテゴリＡ〜Ｃの３つの例について説明するが、複数であればこれ以外の個数であってもよい。

形態素解析部２は、入力部１から入力された複数の文書データＡ１〜Ｃ１に対して、それぞれ形態素解析を実行し、文書データＡ１〜Ｃ１のそれぞれについて、複数の単語単位に分割する。形態素解析部２は、それぞれのカテゴリＡ〜Ｃごとに、分割された複数の単語からなる分割単語群Ａ２、Ｂ２、Ｃ２を作成し、単語出現頻度算出部３に出力する。これにより、カテゴリＡの文書データＡ１から分割単語群Ａ２が、カテゴリＢの文書データＢ１から分割単語群Ｂ２が、カテゴリＣの文書データＣ１から分割単語群Ｃ２が得られる。

単語出現頻度算出部３は、形態素解析部２から入力された各カテゴリＡ〜Ｃに関して、各カテゴリＡ〜Ｃに属する分割単語群Ａ２〜Ｃ２に出現する単語ごとの出現回数をカウントする。また、単語出現頻度算出部３は、この出現回数に応じた出現頻度を表す出現頻度情報Ａ３、Ｂ３、Ｃ３をカテゴリＡ〜Ｃごとに生成し、重要順位情報生成部４に出力する。
この出現頻度情報Ａ３〜Ｃ３として、単語出現頻度算出部３は、例えば、図２に示すような出現頻度数Ｆ１、Ｆ２、Ｆ３、Ｆ４を算出する。なお、出現頻度数Ｆ１は、任意のカテゴリｃの文書データ内に出現した任意の単語ｔの個数、出現頻度数Ｆ２は、当該カテゴリｃ以外の文書データ内に出現した当該単語ｔの個数、出現頻度数Ｆ３は、当該カテゴリｃの文書データ内に出現した当該単語ｔ以外の個数、出現頻度数Ｆ４は、当該カテゴリｃ以外の文書データ内に出現した当該単語ｔの個数を表す。また、ｔは、任意の単語、ｃは、任意のカテゴリ、ｔバー（￣）は、ｔ以外の全ての単語、ｃバー（￣）は、ｃ以外の全てのカテゴリを意味している。さらに、文書データＡ１〜Ｃ１に含まれる全ての単語の個数は、出現頻度数Ｆ１〜Ｆ４の全てを加算した全単語数Ｆ５で表される。

重要順位情報生成部４は、単語出現頻度算出部３から入力されたカテゴリＡ〜Ｃごとの出現頻度情報Ａ３〜Ｃ３に基づき、複数の重要度判断基準に応じた各単語の重要度を算出する。重要度判断基準とは、例えば、χ二乗値、相互情報量、オッズ比等の、それぞれ固有の観点に基づき任意のカテゴリに対する単語の重要度を算出する基準であって、重要度とは、それぞれの重要度判断基準の観点に応じて出現頻度に基づき重み付けされる尺度を表すものである。以下、χ二乗値、相互情報量、オッズ比のそれぞれの重要度を算出する演算式を式１〜３に示す。

重要順位情報生成部４は、これら式１〜３に従って、複数の重要度判断基準に応じた各単語の重要度を算出し、算出された重要度に応じて単語が順位付けられた複数の重要度順位表（重要度順位情報）Ａ４、Ｂ４、Ｃ４をカテゴリＡ〜Ｃごとに生成する。この重要度順位表Ａ４〜Ｃ４は、単語とその単語の順位からなり、それぞれ重要度判断基準の数に等しい数だけ、重要度順位表を含む。
すなわち、重要順位情報生成部４は、式１に示されるχ二乗値の演算式に従い、χ二乗値における重要度Ｉ１を単語ごとに算出し、この重要度Ｉ１に応じて各単語が順位付けられた重要度順位表をカテゴリＡ〜Ｃごとに生成する。同様にして、重要順位情報生成部４は、式２に示される相互情報量の演算式に従い、相互情報量における重要度Ｉ２を単語ごとに算出し、この重要度Ｉ２に応じて各単語が順位付けられた重要度順位表をカテゴリＡ〜Ｃごとに生成する。また、重要順位情報生成部４は、式３に示されるオッズ比の演算式に従い、オッズ比における重要度Ｉ３を単語ごとに算出し、この重要度Ｉ３に応じて各単語が順位付けられた重要度順位表をカテゴリＡ〜Ｃごとに生成する。

ここで、本実施の形態における複数の重要度判断基準は、上述の通り、χ二乗値、相互情報量、オッズ比であって、それぞれ、χ二乗値を基準Ｓ１、相互情報量を基準Ｓ２、オッズ比を基準Ｓ３とする。重要順位情報生成部４は、例えば、図３に示すとおり、基準Ｓ１に基づいて算出されるカテゴリＡ〜Ｃの重要度順位表Ａ４−１、Ｂ４−１、Ｃ４−１と、基準Ｓ２に基づいて算出されるカテゴリＡ〜Ｃの重要度順位表Ａ４−２、Ｂ４−２、Ｃ４−２とを生成する。
また、図３に示す通り、重要順位情報生成部４は、異なる観点に応じた重要度判断基準に基づき重要度順位表を作成するため、同じカテゴリであっても、基準Ｓ１と基準Ｓ２の単語順位は異なる。

次に、重要度判断基準ごとの観点について説明する。なお、観点を説明する際、「抽出性」と「適合性」という評価指数があるが、「抽出性」とは、特定のカテゴリにおいて頻出する単語であり、その単語が出現する文書は当該カテゴリに属する可能性が高いため、当該カテゴリに属すると判断するために重要な単語、つまり、「カテゴリを関連づける単語」を抽出する割合をいう。また、「適合性」とは、特定のカテゴリにおいてほとんど発生せず、その単語が出現する文書は当該カテゴリに属しない可能性が高いため、カテゴリに属さない単語であると判断するために重要な単語、つまり、「カテゴリと関連づけない単語」のことを指す。ここで基準の観点とは、基準ごとに固有のメリットとデメリットを有し、ある文書データがあるカテゴリに属する、もしくは属さないと、いずれかの判断を行う際に利用される単語として、適した単語を抽出するための考え方をいう。

本実施の形態においてχ二乗値は、式１に示したＰ（ｔ）＜＜１／２のため、分子が同じ値の場合は、Ｐ（ｔ）が小さい値の方が上位に順位付けされる傾向にある。つまり、特定のカテゴリにおいてよく出現する単語を抽出する「抽出性」、および、カテゴリと関連づけない単語を抽出する「適合性」が概ね適した値となる傾向にある。
また、相互情報量は、式２に示したＰ（ｔ）が大きく、かつ、Ｐ（ｔ，ｃ）が小さい値が上位に選ばれる傾向にある。すなわち、相互情報量は、出現頻度の高い単語で、かつ、カテゴリと関連しない単語が上位に順位付けされる傾向がある。言い換えると、相互情報量は、抽出された単語を利用してある文書データがどのカテゴリに属するかを判断する場合、この文書データ内にある単語ｔが発生したとき、その文書データがカテゴリｃに属さない可能性が高い単語を上位に順位付ける傾向が高く、つまり「適合性」が高い傾向にある。
さらに、オッズ比は、式３に示したＰ（ｔ）には関係なく、ある単語ｔのときにカテゴリｃである確率が高い単語が選ばれる傾向にある。すなわち、オッズ比は、抽出された単語を利用してある文書データがどのカテゴリに属するかを判断する場合、この文書データ内にある単語ｔが発生したとき、その文書データがカテゴリｃに属する可能性が高い単語を上位に順位付ける傾向が高く、つまり「抽出性」が高い傾向にある。

すなわち、抽出された単語を利用してある文書データが、あるカテゴリｔに属するかを否かを判断する際、相互情報量に従って抽出された単語が当該文書データ内に含まれている場合、当該文書データはカテゴリｃに属さないと判断される可能性が高くなる。一方、オッズ比に従って抽出された単語が当該文書データ内に含まれている場合、当該文書データはカテゴリｃに属すると判断される可能性が高くなる。このように、相互情報量とオッズ比は背反する観点に基づく重要度判断基準である。

なお、本実施の形態において、χ二乗値、相互情報量、オッズ比では、全体文書内での単語の出現確率が考慮されない重要度判断基準である。このため、例えば、重要順位情報生成部４は、ＴＦＩＤＦ値に基づく重要度判断基準を基準Ｓ４としてさらに利用する構成であってもよい。このＴＦＩＤＦ値とは、例えば、ある単語の出現頻度数（出現回数）／全単語数Ｆ５で算出される重要度を算出するものであって、これにより、重要順位情報生成部４は、文書全体において出現頻度の多い単語を順に並べた重要度順位表を生成することができる。

また、式１〜３に示す、Ｐ（ｘ）は、文書データＡ１〜Ｃ１に含まれる全単語数Ｆ５における任意の単語の単語数ｘであって、ｘ＝ｔで表されるＰ（ｔ）は、
「Ｐ（ｔ）＝全カテゴリに出現する単語ｔの個数（Ｆ１＋Ｆ２）／全単語数Ｆ５」
と表される。
同様にして、ｘ＝（ｔ，ｃ）で表されるＰ（ｔ、ｃ）＝Ｆ１／Ｆ５、ｘ＝ｃで表されるＰ（ｃ）＝（Ｆ１＋Ｆ３）／Ｆ５であって、ｔ以外（ｔバー）、ｃ以外（ｃバー）の場合も同様である。
重要順位情報生成部４は、このようにして生成された重要度順位情報Ａ４〜Ｃ４を、後述する所定の抽出基準に基づき、単語抽出部５に出力する。

単語抽出部５は、重要順位情報生成部４から入力されたカテゴリＡ〜Ｃごとの重要度順位表Ａ４〜Ｃ４に基づき、カテゴリＡ〜Ｃごとに予め指定された個数（＝ｋ個）の単語を、例えばユーザによって設定される、任意の抽出設定（抽出基準）に従って抽出し、カテゴリＡ〜Ｃごとに単語リストＡ５、Ｂ５、Ｃ５を生成する。
出力部６は、単語抽出部５によって生成された単語リストＡ５〜Ｃ５を、単語抽出装置１００の外部装置に出力する。
記憶部７は、単語抽出部５によって生成された単語リストＡ５〜Ｃ５を記憶する。

図３を用いて詳細に説明すると、例えば、抽出基準として上位抽出が設定され、全カテゴリＡ〜Ｃの抽出する単語の個数としてｋ＝４個と設定されている場合、単語抽出部５は、カテゴリＡの複数の重要度順位情報Ａ４−１、Ａ４−２に含まれる単語のうち、それぞれの上位２位を選択し、ｋ＝４個の単語（Ａａ，Ａｂ，Ａｚ，Ａｘ，）を抽出してカテゴリＡの単語リストＡ５−１を生成する。すなわち、単語抽出部５は、各カテゴリに含まれる単語の中から、抽出された単語がｋ個になるように、各カテゴリの単語の上位から順に抽出する。また同様にして、単語抽出部５は、カテゴリＢの複数の重要度順位情報Ｂ４−１、Ｂ４−２に基づき、それぞれの上位２位を選択し、ｋ＝４個の単語（Ｂｃ，Ｂｄ，Ｂｅ，Ｂｆ，）を抽出してカテゴリＢの単語リストＢ５−１を生成し、また、カテゴリＣの複数の重要度順位情報Ｃ４−１、Ｃ４−２に基づき、それぞれの上位２位を選択し、ｋ＝４個の単語（Ｃｙ，Ｃｚ，Ｃｏ，Ｃｐ，）を抽出してカテゴリＣの単語リストＣ５−１を生成する。

この単語の抽出方法として単語抽出部５に設定されている抽出基準とは、重要度順位表Ａ４〜Ｃ４から予め指定された個数（ｋ個）の単語を抽出する方法の設定であって、例えば、単語の重要度の順位のばらつきを表す分散値あるいは標準偏差値に基づいて抽出する（１）分散値抽出設定、単語の重症度の順位の上位から順に抽出する（２）上位抽出設定、あるいは単語の重要度の順位の平均値に基づいて抽出する（３）平均値抽出設定等が利用可能である。なお、詳細については、図４〜６を用いて、次に説明する。なお、以下図４〜６を用いて説明する際に使用する重要度順位表Ｃ４−３〜Ｃ４−１１は、重要度順位表Ｃ４−１、Ｃ４−２と同様、重要度順位表Ｃ４の一例である。

まず、（１）分散値抽出設定について、図４を用いて説明する。
図４は、単語抽出部５において、（１）分散値抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図４に示す通り、例えば、重要順位情報生成部４が、カテゴリＣの出現頻度情報Ｃ４に基づき、基準Ｓ１、基準Ｓ２、基準Ｓ３のそれぞれに従って重要度を算出し、それぞれの基準Ｓ１〜３による重要度順位表Ｃ４−３、Ｃ４−４、Ｃ４−５を生成する。基準Ｓ１による重要度順位表Ｃ４−３には、１位に単語Ｃｒが、６００位に単語Ｃｓが、８００位に単語Ｃｔが順位付けられている。また、基準Ｓ２による重要度順位表Ｃ４−４には、１０位に単語Ｃｒが、４００位に単語Ｃｔが、６００位に単語Ｃｓが順位付けられ、基準Ｓ３による重要度順位表Ｃ４−５には、４００位に単語Ｃｔが、５００位に単語Ｃｓが、８００位に単語Ｃｒが順位付けられている。

単語抽出部５は、複数の重要度判断基準にわたる各単語の重要度の順位のばらつきを表す分散値あるいは標準偏差値をカテゴリＡ〜Ｃごとに算出し、分散値あるいは標準偏差値の大きい順に順位付けされた分散値順位表（分散値順位情報）をカテゴリＡ〜Ｃごとに生成する。なお、分散値を算出するためにはいずれの計算方法を用いてもよく、例えば、式４の不偏分散を用いる。分散にルート（√）を取ったものが標準偏差値であり、この標準偏差値を用いてもよい。単語抽出部５は、例えば、カテゴリＣの重要度順位表Ｃ４−３、Ｃ４−４、Ｃ４−５に基づき、下の式４に従って、基準Ｓ１〜３における各単語の重要度の順位の分散値を算出する。

なお、式４において、「σ^２ _ｃｔ」は分散値、「ｉ」は任意の重要度判断基準、「Ｎ」は重要度判断基準の数、「ｘ_ｃｉｔ」は任意のカテゴリｃにおける任意の重要度判断基準ｉの任意の単語ｔの重要度の順位、「ｘ_ｃｔバー」は任意のカテゴリｃにおける任意の単語ｔの重要度の順位の平均値、を表す。

つまり、単語Ｃｒは、重要度順位表Ｃ４−３〜Ｃ４−５において、１位、１０位、８００位であるため、重要度の順位の分散値は２１０４３０となる。また、単語Ｃｔは、重要度順位表Ｃ４−３〜Ｃ４−５において、８００位、４００位、４００位であるため、重要度の順位の分散値は５３３３３となり、単語Ｃｓは、重要度順位表Ｃ４−３〜Ｃ４−５において、６００位、６００位、５００位であるため、重要度の順位の分散値は３３３３となる。なお、標準偏差値を用いた場合、単語Ｃｒは４５９、単語Ｃｔは２３１、単語Ｃｓは５８となる。

単語抽出部５は、各単語の重要度の順位の分散値あるいは標準偏差値を算出すると、算出された分散値あるいは標準偏差値を順位付けした分散値順位表をカテゴリＡ〜Ｃごとに生成し、例えば、カテゴリＣの分散値順位表Ｃ４００を生成する。また、単語抽出部５は、カテゴリＣにおいて予め指定された個数（例えば、ｋ＝９個）の単語を分散値順位表Ｃ４００の上位から順に抽出し、カテゴリＣの単語リストＣ５−３を生成する。
また、単語抽出部５は、カテゴリＡ、Ｂにおいても同様に、各カテゴリＡ、Ｂの各単語の重要度の順位に基づき分散値あるいは標準偏差値を算出し、算出された分散値あるいは標準偏差値が大きい順に順位付けられた分散値順位表を生成し、カテゴリＡ、Ｂごとに予め指定された個数（例えば、カテゴリＡはｋ＝５個、カテゴリＢはｋ＝７個）の単語を分散値順位表の上位から順に抽出し、カテゴリＡ、Ｂの単語リストＡ５−３、Ｂ５−３を生成する。
このように、分散値抽出設定に基づき生成される単語リストＡ５−３、Ｂ５−３、Ｃ５−３では、全ての重要度判断基準において支持された単語ではないが、複数の重要度判断基準にわたって支持された単語が、分散値順位表において上位に順位付けされ、抽出される。

次に、（２）上位抽出設定について、図５を用いて説明する。
図５は、単語抽出部５において、上位抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図５に示す通り、例えば、重要順位情報生成部４によって、基準Ｓ１、基準Ｓ２、基準Ｓ３のそれぞれに従って算出された重要度に基づき、基準Ｓ１〜３による重要度順位表Ｃ４−６、Ｃ４−７、Ｃ４−８が生成される。基準Ｓ１による重要度順位表Ｃ４−６には、１位に単語Ｃｙが、２位に単語Ｃｚが、３位に単語Ｃｘが、４位に単語Ｃｏが順位付けられている。また、基準Ｓ２による重要度順位表Ｃ４−７には、１位に単語Ｃｙが、２位に単語Ｃｐが、３位に単語Ｃｑが、４位に単語Ｃｒが順位付けられ、基準Ｓ３による重要度順位表Ｃ４−８には、１位に単語Ｃｍが、２位に単語Ｃｊが、３位に単語Ｃｆが、４位に単語Ｃｓが順位付けられている。

単語抽出部５は、カテゴリＡ〜Ｃごとに、それぞれの重要度順位表の上位から順に、カテゴリＡ〜Ｃごとに予め指定された個数（ｋ個）であって、互いに異なる単語を抽出する。すなわち、単語抽出部５は、カテゴリＣの単語を抽出する場合、重要度順位表Ｃ４−６、Ｃ４−７、Ｃ４−８から、重複する単語を選択しないよう、それぞれの１位から順に単語を選択し、全体として指定された個数（ｋ個）を抽出する。つまり、単語抽出部５は、カテゴリＣにおいてｋ＝９個と設定されている場合、重要度順位表Ｃ４−６、Ｃ４−７、Ｃ４−８のぞれぞれの上位３位と、重要度順位表Ｃ４−６４位の単語を選択し、それぞれ異なる単語（Ｃｙ，Ｃｍ，Ｃｚ，Ｃｐ，Ｃｊ，Ｃｘ，Ｃｑ，Ｃｆ，Ｃｏ）を抽出し、カテゴリＣの単語リストＣ５−６を生成する。なお、本実施形態において、重要度順位表Ｃ４−６、Ｃ４−７の１位は同じ単語であるため、重要度順位表Ｃ４−６の４位を抽出したが、本発明はこれに限られず、他の重要度順位表Ｃ４−７、Ｃ４−８の４位から抽出されるものであってもよく、重複する単語を除く抽出方法については図９を用いて後述する。

同様にして、単語抽出部５は、カテゴリＡ、Ｂにおいても、カテゴリＡ、Ｂごとに予め指定された個数（例えば、カテゴリＡはｋ＝５語、カテゴリＢはｋ＝７個）の単語を、複数の重要度順位表の上位から順に、重複する単語を選択しないように抽出し、カテゴリＡ、Ｂの単語リストＡ５−６、Ｂ５−６を生成する。
このように、上位抽出設定に基づき生成される単語リストＡ５−６、Ｂ５−６、Ｃ５−６としては、それぞれの基準Ｓ１〜３において支持された単語、すなわち、それぞれの基準Ｓ１〜３に基づくいずれかの観点に適した単語が選択される。

次に、（３）平均値抽出設定について、図６を用いて説明する。
図６は、単語抽出部５において、分散値抽出設定が設定されている場合の単語の抽出について説明する概念図である。
図６に示す通り、例えば、重要順位情報生成部４が、カテゴリＣの出現頻度情報Ｃ３に基づき、基準Ｓ１、基準Ｓ２、基準Ｓ３のそれぞれに従って重要度を算出し、それぞれの基準Ｓ１〜３による重要度順位表Ｃ４−９、Ｃ４−１０、Ｃ４−１１を生成する。基準Ｓ１による重要度順位表Ｃ４−９には、１位に単語Ｃｙが、２位に単語Ｃｚが、３位に単語Ｃｘが順位付けられている。また、基準Ｓ２による重要度順位表Ｃ４−１０には、１位に単語Ｃｙが、１０位に単語Ｃｚが、４０位に単語Ｃｘが順位付けられ、基準Ｓ３による重要度順位表Ｃ４−１１には、１０位に単語Ｃｙが、１５位に単語Ｃｚが、５０位に単語Ｃｘが順位付けられている。

単語抽出部５は、カテゴリＡ〜Ｃごとに、複数の重要度判断基準における各単語の重要度の順位の平均値を算出し、平均値の小さい順に順位付けされた平均値順位表を生成する。単語抽出部５は、例えば、カテゴリＣの重要度順位表Ｃ４−９、Ｃ４−１０、Ｃ４−１１に基づき、下の式５に従って、基準Ｓ１〜３における各単語の重要度の順位の平均値を算出する。

つまり、単語Ｃｙは、重要度順位表Ｃ４−９〜Ｃ４−１１において、１位、１位、１０位であるため、重要度の順位の平均値は４．０となる。また、単語Ｃｚは、重要度順位表Ｃ４−９〜Ｃ４−１１において、２位、１０位、１５位であるため、重要度の順位の平均値は９．０となり、単語Ｃｘは、重要度順位表Ｃ４−９〜Ｃ４−１１において、３位、４０位、５０位であるため、重要度の順位の平均値は３１．０となる。

単語抽出部５は、各単語の重要度の順位の平均値を算出すると、算出された平均値を順位付けした平均値順位表をカテゴリＡ〜Ｃごとに生成し、例えば、カテゴリＣの平均値順位表Ｃ４０１を生成する。また、単語抽出部５は、カテゴリＣにおいて予め指定された個数（例えば、ｋ＝９個）の単語を平均値順位表Ｃ４０１の上位から順に抽出し、カテゴリＣの単語リストＣ５−９を生成する。
また、単語抽出部５は、カテゴリＡ、Ｂにおいても同様に、各カテゴリＡ、Ｂの各単語の重要度の順位に基づき平均値を算出し、算出された平均値が小さい順に順位付けられた平均値順位表を生成し、カテゴリＡ、Ｂごとに予め指定された個数（例えば、カテゴリＡはｋ＝５、カテゴリＢはｋ＝７個）の単語を平均値順位表の上位から順に抽出し、カテゴリＡ、Ｂの単語リストＡ５−９、Ｂ５−９を生成する。
このように、平均値抽出設定に基づき生成される単語リストＡ５−９、Ｂ５−９、Ｃ５−９では、全ての基準において平均的に支持された単語が、平均値順位表において上位に順位付けされ、抽出される。

次に、図７〜１０を用いて、本実施形態に係る単語抽出装置の単語抽出方法の一例について説明する。
図７は、図１に示した単語抽出装置１００の単語抽出方法の一例について説明するためのフローチャートである。
図７に示すとおり、単語抽出装置１００は、入力部１を介して、複数のカテゴリＡ〜Ｃごとに分類された複数の文書データＡ１〜Ｃ１が入力される（ステップＳＴ１１）。形態素解析部２は、この文書データＡ１〜Ｃ１に対して形態素解析を実行し、単語単位に分割された複数の単語からなる分割単語群Ａ２〜Ｃ２を作成し、単語出現頻度算出部３に出力する（ステップＳＴ１２）。単語出現頻度算出部３は、分割単語群Ａ２〜Ｃ２に基づき、カテゴリＡ〜Ｃごとに単語の出現回数をカウントする。そして、単語出現頻度算出部３は、この出現回数に基づき、各カテゴリＡ〜Ｃの出現頻度情報Ａ３〜Ｃ３を生成し、重要順位情報生成部４に出力する（ステップＳＴ１３）。

重要順位情報生成部４は、カテゴリＡ〜Ｃごとの出現頻度情報Ａ３〜Ｃ３に基づき、複数の重要度判断基準（基準Ｓ１〜３）に応じた単語の重要度を算出する。そして、重要順位情報生成部４は、基準Ｓ１〜３ごとに重要度に応じて単語が順位付けされた重要順位表Ａ４〜Ｃ４を、カテゴリＡ〜Ｃごとに複数生成し、単語抽出部５に出力する（ステップＳＴ１４）。単語抽出部５は、重要順位情報生成部４から出力された重要度順位表Ａ４〜Ｃ４に基づいて、予め設定されている分散値抽出設定、上位抽出設定、あるいは平均値抽出設定のいずれか１つに従って、予め指定された個数の単語をカテゴリＡ〜Ｃごとに抽出し、各カテゴリＡ〜Ｃの単語リストＡ５〜Ｃ５を生成する（ステップＳＴ１５）。
重要順位情報生成部４および単語抽出部５は、全てのカテゴリＡ〜Ｃにおける単語リストＡ５〜Ｃ５が生成されるまで、ステップＳＴ１５における単語リストＡ５〜Ｃ５の生成を繰り返し（ステップＳＴ１６−ＮＯ）、全てのカテゴリＡ〜Ｃにおける単語リストＡ５〜Ｃ５を生成する（ステップＳＴ１６−ＹＥＳ）。生成された単語リストＡ５〜Ｃ５は、出力部６を介して単語抽出装置１００の外部に出力され、あるいは、記憶部７に記憶される。

このようにして、単語抽出装置１００の重要順位情報生成部４は、複数の基準に応じた複数の重要度順位表を作成し、単語抽出部５が、複数の基準によって複数の観点で順位付けされた単語を所定の抽出基準に従い抽出して単語リストを生成する。これにより、単語抽出装置１００は、重要順位情報生成部４によって利用された複数の重要度判断基準のそれぞれの良い点（観点）、すなわち、基準Ｓ１のχ二乗値や基準Ｓ３のオッズ比によって得られる高い抽出性と、基準Ｓ１のχ二乗値や基準Ｓ２の相互情報量によって得られる高い適合性の両方を実現する単語を抽出することができる。よって、本実施形態に係る単語抽出装置１００は、あるひとつの基準に従って抽出された単語に比べて、よりカテゴリに適した単語を抽出でき、カテゴリに適さない単語を誤って抽出してしまう割合を減少することができる。

次に、図８を用いて、単語抽出部５の抽出基準として、分散値抽出設定が設定されている場合の単語抽出方法の一例について、上述の図４で説明した実施形態を適用して説明する。図８は、図７のステップＳＴ１５の抽出基準として、分散値抽出設定が設定されている場合の単語抽出方法の一例について説明するためのフローチャートである。
図８に示す通り、単語抽出部５の抽出基準として、分散値抽出設定が設定された場合（ステップＳＴ２１）、カテゴリＡ〜Ｃごとに予め指定された個数として、抽出に必要な単語の個数（ｋ個）がユーザによって設定される（ステップＳＴ２２）。本実施の形態においては、図４で説明した通り、カテゴリＡはｋ＝５個、カテゴリＢはｋ＝７個、カテゴリＣはｋ＝９個と設定される。

単語抽出部５は、重要順位情報生成部４によって生成された重要度順位表Ａ４〜Ｃ４に基づいて、複数の重要度判断基準における各単語の重要度の順位の分散値あるいは標準偏差値を算出する（ステップＳＴ２３）。そして、単語抽出部５は、算出された分散値あるいは標準偏差値の大きい順に順位付けした分散値順位表をカテゴリＡ〜Ｃごとに生成する（ステップＳＴ２４）。
すなわち、図４の例を用いて説明すると、単語抽出部５は、複数の基準Ｓ１〜３のそれぞれに対応する重要度順位表Ｃ４−３〜Ｃ４−５に基づき、各単語（Ｃｒ，Ｃｔ，Ｃｓ・・・）の重要度の順位の分散値（２１０４３０，５３３３３，３３３３・・・）を算出し、カテゴリＣの分散値順位表Ｃ４００を生成する。そして、単語抽出部５は、ステップＳＴ２２において設定されているカテゴリＣにおいて予め指定された個数（ｋ個＝９）の単語を、分散値順位表Ｃ４００の上位から順に抽出し、単語リストＣ５−３を生成する（ステップＳＴ２５）。

単語抽出部５は、全てのカテゴリＡ〜Ｃにおける単語リストＡ５〜Ｃ５が生成されるまで、ステップＳＴ２２に戻って、ステップＳＴ２２〜ＳＴ２５の工程を繰り返し（ステップＳＴ２６−ＮＯ）、全てのカテゴリＡ〜Ｃにおける単語リストＡ５〜Ｃ５を生成する（ステップＳＴ２６−ＹＥＳ）。

次に、図９を用いて、単語抽出部５の抽出基準として、上位抽出設定が設定されている場合の単語抽出方法の一例について、上述の図５で説明した実施形態を適用して説明する。図９は、図７のステップＳＴ１５の抽出基準として、上位抽出設定が設定されている場合の単語抽出方法の一例について説明するためのフローチャートである。
図９に示す通り、単語抽出部５の抽出基準として、上位抽出設定が設定されている場合（ステップＳＴ３１）、カテゴリＡ〜Ｃごとに予め指定された個数として、抽出に必要な単語の個数（ｋ個）が設定される（ステップＳＴ３２）。本実施の形態においては、図５で説明した通り、カテゴリＡはｋ＝５個、カテゴリＢはｋ＝７個、カテゴリＣはｋ＝９個と設定される。

単語抽出部５は、重要順位情報生成部４によって生成された重要度順位表Ａ４〜Ｃ４の上位から順に、カテゴリＡ〜Ｃごとに予め指定された個数（ｋ個）であって、互いに異なる単語を抽出する。
すなわち、単語抽出部５は、カテゴリＣの単語を抽出する場合、重要度順位表Ｃ４−６、Ｃ４−７、Ｃ４−８のそれぞれ上位から順に、全体としてｋ個の単語を抽出し（ステップＳＴ３３）、この抽出したｋ＝９個の単語の中に同じ単語が含まれているか否かを検出する（ステップＳＴ３４）。
図５に示した例において、単語抽出部５は、重要度順位表Ｃ４−６、Ｃ４−７、Ｃ４−８の上位３位までの単語を抽出し、同じ単語が含まれているか否かを検出する。図５に示す通り、重要度順位表Ｃ４−６の１位と、重要度順位表Ｃ４−７の１位が、同じ単語Ｃｙであるため（ステップＳＴ３４−ＹＥＳ）、単語抽出部５は、重要度順位表Ｃ４−６、Ｃ４−７のそれぞれから抽出された単語Ｃｙを１つの単語として抽出し、重要度順位表Ｃ４−６、Ｃ４−７、Ｃ４−８の上位３位から８個の単語を抽出する（ステップＳＴ３５）。

単語抽出部５は、重要度順位表Ｃ４−６、Ｃ４−７、Ｃ４−８の上位から順に、互い異なる単語をｋ個抽出するまで、ステップＳＴ３３に戻ってステップＳＴ３３〜ＳＴ３５の工程を繰り返し（ステップＳＴ３６−ＮＯ）、例えば、重要度順位表Ｃ４−６の４位の単語ＣｏをステップＳＴ３５において抽出した８個の単語に加えて、合計９個の単語（単語Ｃｙ，Ｃｍ，Ｃｚ，Ｃｐ，Ｃｊ，Ｃｘ，Ｃｑ，Ｃｆ，Ｃｏ）を抽出し（ステップＳＴ３６−ＹＥＳ）、カテゴリＣの単語リストＣ５−６を生成する（ステップＳＴ３７）。
単語抽出部５は、全てのカテゴリＡ〜Ｃにおける単語リストＡ５〜Ｃ５が生成されるまで、ステップＳＴ３２に戻って、ステップＳＴ３２〜ＳＴ３６の工程を繰り返し（ステップＳＴ３８−ＮＯ）、全てのカテゴリＡ〜Ｃにおける単語リストＡ５〜Ｃ５を生成する（ステップＳＴ３８−ＹＥＳ）。
なお、本実施の形態において、ステップＳＴ３３で重要度順位表Ｃ４−６、Ｃ４−７、Ｃ４−８の上位から単語を抽出する場合、９個目の単語として、基準Ｓ１による重要度順位表Ｃ４−６の４位の単語Ｃｏを抽出する例を説明したが、本発明はこれに限られず、他の基準Ｓ２あるいは基準Ｓ３による重要度順位表Ｃ４−７、Ｃ４−８の４位の単語を抽出する構成であってもよい。

次に、図１０を用いて、単語抽出部５の抽出基準として、平均値抽出設定が設定されている場合の単語抽出方法の一例について、上述の図６で説明した実施形態を適用して説明する。図１０は、図７のステップＳＴ１５の抽出基準として、平均値抽出設定が設定されている場合の単語抽出方法の一例について説明するためのフローチャートである。
図１０に示す通り、単語抽出部５の抽出基準として、平均値抽出設定が設定された場合（ステップＳＴ４１）、カテゴリＡ〜Ｃごとに予め指定された個数として、抽出に必要な単語の個数（ｋ個）が設定される（ステップＳＴ４２）。本実施の形態においては、図６で説明した通り、カテゴリＡはｋ＝５個、カテゴリＢはｋ＝７個、カテゴリＣはｋ＝９個と設定される。

単語抽出部５は、重要順位情報生成部４によって生成された重要度順位表Ａ４〜Ｃ４に基づいて、複数の重要度判断基準における各単語の重要度の順位の平均値を算出する（ステップＳＴ４３）。そして、単語抽出部５は、算出された平均値を小さい順に順位付けした平均値順位表をカテゴリＡ〜Ｃごとに生成する（ステップＳＴ４４）。
すなわち、図６の例を用いて説明すると、単語抽出部５は、複数の基準Ｓ１〜３のそれぞれに対応する重要度順位表Ｃ４−９〜Ｃ４−１１に基づき、各単語（Ｃｙ，Ｃｚ，Ｃｘ・・・）の重要度の順位の平均値（４．０，９．０，３１．０・・・）を算出し、カテゴリＣの平均値順位表Ｃ４０１を生成する。そして、単語抽出部５は、ステップＳＴ４２において設定されているカテゴリＣにおいて予め指定された個数（ｋ個＝９）の単語を、平均値順位表Ｃ４０１の上位から順に抽出し、単語リストＣ５−９を生成する（ステップＳＴ４５）。

単語抽出部５は、全てのカテゴリＡ〜Ｃにおける単語リストＡ５〜Ｃ５が生成されるまで、ステップＳＴ４２に戻って、ステップＳＴ４２〜ＳＴ４５の工程を繰り返し（ステップＳＴ４６−ＮＯ）、全てのカテゴリＡ〜Ｃにおける単語リストＡ５〜Ｃ５を生成する（ステップＳＴ４６−ＹＥＳ）。

上述の通り、本実施の形態に係る単語抽出装置１００は、複数の重要度判断基準に従って順位付けされた重要度順位表に基づき、ｋ個の単語を抽出し、カテゴリごとの単語リストを作成することができる。この構成により、単語抽出装置１００は、利用した複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、あるひとつの基準に従って抽出された単語に比べて、例えば、よりカテゴリに適した単語を抽出でき、カテゴリに適さない単語を誤って抽出してしまう割合を減少することができる。

さらに、本実施の形態に係る単語抽出装置１００は、複数の重要度判断基準として、相互情報量とオッズ比のように背反する観点を有する基準を利用することができる。このような背反する観点の基準で単語を抽出することは、ひとつの基準に従って単語を抽出する構成においては実現し得ない効果である。
すなわち、オッズ比では、該当カテゴリに属する可能性の高い単語に優先順位を付与するため、オッズ比は、抽出性の観点において重要な重要度判断基準である。しかし、オッズ比で選ばれた単語は、相互情報量のように適合性の観点を有していないため、他のカテゴリにおいても頻出する単語を排除する観点を備えず、オッズ比で抽出された単語においては適合性が低下する傾向にある。
つまり、ある文書データがあるカテゴリに属するか否かの判断において、オッズ比に従って抽出された単語が利用された場合、該当カテゴリに加えて適切でないカテゴリにも属すると判断される可能性が高くなる。
また、これら各重要度判断基準に従って算出される重要度は、相関係数はゼロに近い値となる傾向があるため、重要度同士はほとんど関係しない場合が多い。よって、複数の基準ごとの結果を比較し、検討し、試行錯誤しても、一意に適切な基準でこれら複数の観点を達成することは困難である。
これに対し、本実施の形態に係る単語抽出装置１００によると、複数の重要度判断基準を利用することができるため、カテゴリごとに適した重要度判断基準を選択する必要がなく、複数の重要度判断基準を利用することができるため、試行錯誤が必要なく、作業効率を改善することができる。

これにより、例えば、文書の審査業務において、本実施の形態に係る単語抽出装置１００によって抽出された単語が利用されることにより、あるカテゴリごとに構成された審査員のチームに対して、当該カテゴリと判断された文書を提供することができる。これにより、審査員のチームは、不要な文書を判断する手間が省け、作業効率の向上に貢献することができる。

次に、本実施の形態に係る単語抽出装置１００における評価実験を行った結果について説明する。
なお、この評価実験は、入力部１から入力される文書データとして、英文の新聞記事データ（reuters 21578）であって、文書数が８６１２、単語の種類が１１８２２、カテゴリ数が８、全単語数が４７２６１９である文書データについて行った。
まず、図１１、図１２を用いて、本実施の形態に係る単語抽出装置１００において抽出される単語に基づいて行われた文書分類の誤抽出率と誤排除率について、χ二乗値、相互情報量、オッズ比の１つ重要度判断基準に従って抽出した場合とを比較しながら説明する。
図１１は、単語抽出装置１００において抽出される単語に基づいて行われた文書分類の誤抽出率と単一の重要度判断基準に従って抽出された単語に基づいて行われた文書分類の誤抽出率との比較を表すグラフである。

図１１に示す通り、Ｔ１はχ二乗値、Ｔ２は相互情報量、Ｔ３はオッズ比に従って抽出された単語に基づいて文書分類が行われた場合の誤抽出率をそれぞれ表し、Ｔ４は、本実施の形態に係る単語抽出装置１００によって抽出された単語に基づいて行われた文書分類の誤抽出率を表す。なお誤抽出率とは、カテゴリに属さない文書を誤って抽出してしまう割合である。
Ｔ１〜Ｔ３に示す通り、それぞれひとつの重要度判断基準に従って単語を抽出した場合、抽出する単語が増加するに伴い、誤抽出率は低下する傾向にあるが、全体として誤抽出率は高く、約５０％以上である。なお、重要度判断基準に従って単語を抽出する方法としては、重要順位情報生成部４と同様に、それぞれの重要度判断基準によって算出される重要度に従って順位付けされた重要度順位表を作成し、この重要度順位表の上位から順に指定された個数の単語を抽出する方法を利用する。

一方、Ｔ４に示される通り、単語抽出装置１００によって、χ二乗値、相互情報量およびオッズ比の全ての基準に従って作成される重要度順位表から、分散値抽出設定に基づき抽出されたｋ個の単語に基づいて文書分類が行われた場合、誤抽出率は低下する傾向にあり、全体として誤抽出率は低い。特に、抽出する単語の個数ｋが２０００個以上の場合においては、誤抽出率は約４０％以下である。
このように、単語抽出装置１００によって単語を抽出することによって、複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、ひとつの基準に従って抽出された単語に比べて、よりカテゴリに適した単語を抽出でき、カテゴリに属さない文書を誤って抽出してしまう誤抽出率を低減することができる。

次いで、図１２を用いて誤排除率について説明する。
図１２は、単語抽出装置１００において抽出される単語に基づいて行われた文書分類の誤排除率と単一の重要度判断基準に従って抽出された単語に基づいて行われた文書分類の誤排除率との比較を表すグラフである。
図１２に示す通り、Ｈ１はχ二乗値、Ｈ２は相互情報量、Ｈ３はオッズ比に従って抽出された単語に基づいて文書分類が行われた場合の誤排除率をそれぞれ表し、Ｈ４は、本実施の形態に係る単語抽出装置１００によって抽出された単語に基づいて行われた文書分類の誤排除率を表す。なお誤排除率とは、カテゴリに属する文書を誤って排除してしまった文書の割合である。

Ｈ１、Ｈ２に示される通り、それぞれひとつの重要度判断基準（χ二乗値、相互情報量）に従って単語を抽出した場合、全体として誤排除率は高く、約３０〜５０％である。また、Ｈ３に示される通り、ひとつの重要度判断基準であるオッズ比に従って単語を抽出した場合、抽出する単語が増加するに伴い誤排除率は低下する傾向にあるが、抽出する単語の個数ｋが１０００個の場合は、著しく誤排除率が高くなり約４０％である。
一方、Ｈ４に示される通り、単語抽出装置１００によって、χ二乗値、相互情報量およびオッズ比の全ての基準に従って作成される重要度順位表から、分散値抽出設定に基づき指定された個数（ｋ個）が抽出された場合、誤排除率は全体的に低く、約５％未満である。よって、Ｈ３に示すオッズ比の誤排除率は低いものの、Ｈ４に示す単語抽出装置１００による誤排除率の方が全体的にさらに低く、誤排除率もほぼ一定値を維持し安定している。

このように、単語抽出装置１００によって単語を抽出することによって、複数の重要度判断基準のそれぞれの観点に基づき選択された単語を抽出することができ、ひとつの基準に従って抽出された単語に比べて、カテゴリに属さない文書を誤って抽出してしまう誤抽出率を低減することができる。

また、上述において、本実施の形態係る単語抽出装置１００は、任意に設定される抽出設定に従って抽出された単語で、カテゴリごとの単語リストを作成する例について説明したが、以下、（１）分散値抽出設定、（２）上位抽出設定、あるいは（３）平均値抽出設定において抽出される単語に基づいて行われた文書分類の誤抽出率あるいは誤排除率について比較したものを図１３，１４に示し、以下説明する。

図１３は、（１）〜（３）の抽出設定に従って単語抽出装置１００により抽出される単語に基づいて行われた文書分類の誤抽出率の比較を表すグラフである。
図１３に示す通り、Ｔ５は上位抽出設定、Ｔ６は平均値抽出設定、Ｔ７は分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合の誤抽出率をそれぞれ表す。
Ｔ７に示される通り、分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合、全体として誤抽出率は低く、特に、抽出する単語の個数ｋが２０００個以上の場合においては、誤抽出率は約４０％以下を維持して安定している。
また、Ｔ５、Ｔ６に示される通り、上位抽出設定あるいは平均値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合、抽出する単語が少ないときに誤抽出率が高くなることがあるが、抽出する単語が増加するに従って誤抽出率は低くなり、Ｔ７とほぼ同等の誤抽出率となる。

次いで、図１４を用いて誤排除率について説明する。
図１４は、（１）〜（３）の抽出基準に従って単語抽出装置１００により抽出される単語に基づいて行われた文書分類の誤排除率の比較を表すグラフである。
図１４に示す通り、Ｈ５は上位抽出設定、Ｈ６は平均値抽出設定、Ｈ７は分散値抽出設定に従って抽出された単語に基づいて文書分類が行われた場合の誤排除率をそれぞれ表す。
Ｈ７に示される通り、分散値抽出設定に従って抽出した単語に基づいて文書分類が行われた場合、誤排除率は全体的に低く、約５％未満であり、ほぼ一定値を維持し安定している。
また、Ｈ５、Ｈ６に示される通り、上位抽出設定あるいは平均値抽出設定に従って抽出した単語に基づいて文書分類が行われた場合、抽出する単語が少ないときに誤排除率が高くなることがあるが、抽出する単語が増加するに従って誤排除率は低くなり、Ｈ７とほぼ同等の誤排除率となる。

上述の通り、抽出基準として、（１）〜（３）のいずれが設定された場合であっても、抽出する単語が多ければ、誤抽出率および誤排除率を低く抑えることができるが、これらの設定の中では、（１）分散値抽出設定が最も好ましく、安定して低い誤抽出率および誤排除率を実現することができる。
これは、複数の重要度判断基準において算出される単語の重要度の相関係数が低い場合が多く、（１）分散値抽出設定によると、複数の重要度判断基準によって支持された単語が抽出されるためである。従って、単語の重要度の相関係数が高い場合は、（２）上位抽出設定や、（３）平均値抽出設定においても、カテゴリに応じた単語を抽出することができる。

また、上述の単語抽出装置１００における動作の過程は、コンピュータに実行させるためのプログラムや、このプログラムとしてコンピュータ読み取り可能な記録媒体として利用可能であり、コンピュータシステムが読み出して実行することによって、上記処理が行われる。なお、ここでいう「コンピュータシステム」とは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に記憶したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本実施の形態に係る単語抽出装置１００の一例を示すブロック図である。図１に示す単語出現頻度算出部によって算出される情報の一例を示す概念図である。本実施の形態に係る単語抽出装置１００の単語の抽出について説明する概念図である。図３に示す単語の抽出の一例について説明する概念図である。図３に示す単語の抽出の他の例について説明する概念図である。図３に示す単語の抽出の他の例について説明する概念図である。本実施の形態に係る単語抽出装置１００の処理フローの一例について説明するフローチャートである。本実施の形態に係る単語抽出装置１００の単語の抽出フローの一例について説明するフローチャートである。本実施の形態に係る単語抽出装置１００の単語の抽出フローの他の例について説明するフローチャートである。本実施の形態に係る単語抽出装置１００の単語の抽出フローの他の例について説明するフローチャートである。本実施の形態に係る単語抽出装置１００に基づいて行われた文書分類の誤抽出率と他の単語抽出に基づいて行われた文書分類による誤抽出率との比較を表すグラフである。本実施の形態に係る単語抽出装置１００に基づいて行われた文書分類の誤排除率と他の単語抽出に基づいて行われた文書分類による誤排除率との比較を表すグラフである。本実施の形態に係る単語抽出装置１００において異なる抽出基準で抽出された単語に基づいて行われた文書分類の誤抽出率の比較を表すグラフである。本実施の形態に係る単語抽出装置１００において異なる抽出基準で抽出された単語に基づいて行われた文書分類の誤排除率の比較を表すグラフである。

符号の説明

１入力部
２形態素解析部
３単語出現頻度算出部
４重要順位情報生成部
５単語抽出部
６出力部
１００単語抽出装置

Claims

任意の文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を、前記文書情報の内容に応じて付与されている複数のカテゴリごとに生成する重要順位情報生成部と、
前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出する単語抽出部と
を備えることを特徴とする単語抽出装置。
前記単語抽出部は、
前記重要順位情報に基づき算出される、前記複数の重要度判断基準にわたる前記各単語の前記重要度の順位のばらつきを表す分散値あるいは標準偏差値に基づき、前記予め指定された個数の単語を抽出する分散値抽出設定、
前記重要順位情報の上位から順に、前記予め指定された個数の単語を抽出する上位抽出設定、あるいは
前記重要順位情報に基づき算出される、前記複数の重要度判断基準における前記各単語の前記重要度の順位の平均値に基づき、前記予め指定された個数の単語を抽出する平均値抽出設定
のうちいずれか１つの前記抽出基準に従って、前記カテゴリから前記予め指定された個数の単語を抽出することを特徴とする請求項１に記載の単語抽出装置。
前記単語抽出部は、分散値抽出設定において、
前記分散値あるいは標準偏差値の大きい順に前記単語が順位付けされた分散値順位情報を前記カテゴリごとに生成し、前記分散値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする請求項２に記載の単語抽出装置。
前記単語抽出部は、上位抽出設定において、
前記複数の重要順位情報の上位から順に、前記カテゴリごとに予め指定された個数であって、互いに異なる前記単語を前記カテゴリごとに抽出することを特徴とする請求項２に記載の単語抽出装置。
前記単語抽出部は、平均値抽出設定において、
前記平均値の小さい順に前記単語が順位付けされた平均値順位情報を前記カテゴリごとに生成し、前記平均値順位情報の上位から順に前記予め指定された個数の単語を抽出することを特徴とする請求項２に記載の単語抽出装置。
任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出する単語抽出装置における単語抽出方法において、
前記単語抽出装置の重要順位情報生成部が、
前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成し、
前記単語抽出装置の単語抽出部が、
前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出することを特徴とする単語抽出方法。
任意の文書情報から、前記文書情報の内容に応じて付与される複数のカテゴリごとに、複数の単語を抽出するコンピュータに、
前記文書情報内に出現する単語の出現回数に基づき、複数の重要度判断基準に応じた前記各単語の重要度を算出し、前記重要度判断基準ごとに前記重要度に応じて前記単語が順位付けられた重要順位情報を前記カテゴリごとに生成させる重要順位情報生成手段と、
前記重要順位情報に順位付けられている前記単語の順位に基づいて、所定の抽出基準により前記カテゴリから予め指定された個数の前記単語を抽出させる単語抽出手段とを実行させるためのプログラム。