JP5965260B2

JP5965260B2 - 文書分類プログラム及び文書分類装置

Info

Publication number: JP5965260B2
Application number: JP2012199662A
Authority: JP
Inventors: 健治江澤; 威智朗加古; 敦阿部
Original assignee: 株式会社日立アドバンストシステムズ
Priority date: 2012-09-11
Filing date: 2012-09-11
Publication date: 2016-08-03
Anticipated expiration: 2032-09-11
Also published as: JP2014056331A

Description

本発明は、日本語の文書を利用者があらかじめ指定した所定のカテゴリに分類する文書分類技術に関するものである。

文書分類は、与えられた文書をあらかじめ定められたいくつかの分類対象、カテゴリに分類することである。カテゴリとは、例えば、政治、経済、事件、社会等をいう。従来の文書分類方法として、ベクトル空間法、ナイーブベイズ法等が提案されている。特許文献１には、テキストデータをカテゴリ別に分類可能とする情報分類方法が開示されている。

文書分類においては、文書を形態素解析し、特徴となる単語を抽出して使用する。一般に、文中の出現位置や係り受け構造を考慮しないbag−of−wordsとして抽出する方法が用いられている。bag−of−wordsとは、並び順を無視した単語の集合として文書を表現する手法である。

また、特徴単語に重要度を付与することで分類精度を向上させる方法も提案されている（例えば、非特許文献１を参照）。

特徴単語に対する重要度の計算方法として、相互情報量やカイ２乗値等の統計指標が用いられることもある。未分類の文書に対してこれらを計算する場合には、正解のカテゴリに依存しない計算方法が必要であることから、すべてのカテゴリに対して計算した結果の平均値や最大値等が用いられる（例えば、非特許文献２を参照）。

また、表層的に一致しない特徴単語同士を比較するために、シソーラス辞書により同義語の定義をあらかじめ整備しておき、同義語をもとに比較する方法がある（例えば、非特許文献３を参照）。

特開２００５−１９０２８４号公報

福本文代、鈴木良弥：「語の重み付け学習を用いた文書の自動分類」、情報処理学会論文誌、Ｖｏｌ．４０、Ｎｏ．４、ｐｐ．１７８２−１７９１、１９９９．高村大也、奥村学：「言語処理のための機械学習入門」、コロナ社、ｐｐ．１３８−１４３、２０１０．上嶋宏、三浦孝夫、塩谷勇：「同義語、多義語の考慮による文書分類の精度向上」、電子情報通信学会論文誌、Ｖｏｌ．Ｊ８７−Ｄ１、Ｎｏ．２、ｐｐ．１３７−１４４、２００４．河原大輔、黒橋禎夫：「大規模格フレームに基づく構文・格解析の統合的確率モデル」、自然言語処理、Ｖｏｌ．１４、Ｎｏ．４、ｐｐ．６７−８１、２００７．

特徴単語の抽出方法で最も良く用いられる「bag−of−words」では、文中から単語をばらばらに取ってくるため、文の意味構造を捉えた比較ができない。

未分類文書の特徴単語に対する重要度の計算方法として、すべてのカテゴリに対して計算した結果の平均値や最大値を用いる方法では、それぞれのカテゴリに対する計算結果の影響が残ってしまい、特徴単語のカテゴリへの関係性が明確とならないという問題がある。

表層的に一致しない特徴単語同士を比較するために同義語辞書を用いる方法では、同義語の定義を事前に整備する労力が必要となる。

このような背景の下、本発明は、上述の問題点の少なくとも１つ以上を解消し、ニュース記事や雑誌の記事等の日本語テキスト文書を解析し、該当するカテゴリに文書を分類する文書分類方法において、精度良く分類できる文書分類技術を提供することを目的とする。

本発明は、与えられた文書を精度良く分類できるよう、特徴単語を修飾構造及び意味構造の単位で抽出し、未分類文書の特徴単語に対する重要度として尤もらしいカテゴリを予測した重み付けを行い、特徴単語同士を潜在的意味空間における上位概念において比較することを特徴とする。

本発明の実施形態において、文構造を解析した結果から係り受け構造の表層格と述語の関係を抽出し、文の修飾構造及び意味構造の単位で前記特徴単語を抽出する。

本発明の実施形態において、未分類文書の特徴単語に対する重要度の計算方法は、分類すべきカテゴリとの依存の度合いが高く、特定のカテゴリに偏って出現する単語が最も多い頻度で現れたカテゴリを尤もらしいカテゴリと推定し、当該カテゴリに対する統計指標の計算結果を特徴単語の重要度として使用する。

本発明の実施形態において、前記特徴単語の比較方法は、文書を潜在的意味空間に変換して、単語の上位概念に基づく語彙の辞書を自動的に構築したうえで、上位概念同士を比較する。

本発明によれば、与えられた文書を該当するカテゴリに分類する文書分類方法において、精度良く分類できる文書分類技術を提供することができる。

また、本発明の文書分類方法は、文構造を解析した結果から係り受け構造の表層格と述語の関係を抽出し、文の修飾構造及び意味構造の単位で特徴単語を抽出するようにしたので、意味的構造が似ている文書同士を比較することができる。

また、本発明の文書分類方法は、未分類文書に対する重要度の計算方法として、相互情報量やカイ２乗値等の統計指標を計算する際、尤もらしいカテゴリを推定し、推定したカテゴリに対する統計指標の計算を行うようにしたので、より適切な重要度を特徴単語に割り当てることができる。

また、本発明の文書分類方法は、文書を潜在的意味空間に変換するようにしたので、単語の概念に基づく語彙の辞書を自動的に構築することができ、意味的に似ている単語同士を比較することができる。

本発明は、明細書に記載され又は示唆される、様々な新規の特徴及び組み合わせ、並びに顕著な効果を有する特徴及び組み合わせをも、その範囲に含み得ることに留意されたい。

本発明に係る文書分類方法の構成を示す機能ブロック図である。本発明に係る文書分類方法の学習処理手順を示すフローチャートである。本発明に係る文書分類方法の分類処理手順を示すフローチャートである。重要度計算部の処理手順を示すフローチャートである。重要度計算部におけるカテゴリの選択手順を示すフローチャートである。本発明に係る文書分類方法における学習文書データの一例を示す図である。本発明に係る文書分類方法における未分類文書データの一例を示す図である。本発明に係る文構造解析部における文構造解析結果（形態素解析結果）の一例を示す図である。本発明に係る文構造解析部における文構造解析結果（係り受け解析結果）の一例を示す図である。本発明に係る格要素抽出部における格要素抽出結果の一例を示す図である。本発明に係る格要素抽出部における特徴単語抽出結果の一例を示す図である。本発明に係る重要度計算部における特徴単語及び重要度の組の一例を示す図である。本発明に係る重要度計算部において、尤もらしいカテゴリを選択する一例を示す図である。本発明に係る重要度計算用学習辞書の一例を示す図である。本発明に係る分類計算用学習辞書の一例を示す図である。本発明に係る単語を上位概念に変換した語彙の辞書の一例を示す図である。本発明に係る分類処理部における類似性比較方法の一例を示す図である。本発明に係る分類処理部における類似度計算の一例を示す図である。本発明に係るシステムのハードウェア構成を示す図である。

ニュース記事や雑誌の記事等の日本語テキスト文書を解析し、該当するカテゴリに文書を分類する文書分類方法において、精度良く分類できる文書分類技術を提供するという目的を、特徴単語の抽出方法として修飾構造及び意味構造の単位で抽出し、未分類文書の特徴単語に対する重要度の計算方法として尤もらしいカテゴリを予測した重み付けを行い、特徴単語の比較方法として潜在的意味空間における上位概念を比較することにより実現した。

以下、本発明の好適な実施例を、添付図面を参照しつつ詳細に説明する。

図１は、ここで説明される実施例の文書分類方法の構成を示す機能ブロック図である。同図に示すように、文書分類方法は、入力処理部１１０と、文書解析部１２１と、格要素抽出部１２２と、重要度計算部１３０と、学習処理部１４０と、重要度計算用学習辞書１５１と、分類計算用学習辞書１５２と、特徴量作成部１６１と、潜在的意味解析部１６２と、分類処理部１６３と、出力処理部１７０と、を備えている。

入力処理部１１０は、利用者による文書データの入力を受け付け、テキストを取り込む処理部である。ここで、入力処理部１１０に投入される文書データ１８０には予め正解のカテゴリが付与された複数の文書データである学習文書データと、カテゴリが付与されていない文書データである未分類文書データの２種類が存在する。

文書解析部１２１は、入力処理部１１０によって入力された文書データ１８０に対して、形態素解析及び係り受け解析を実行し、文構造解析結果を出力する処理部である。なお、形態素解析及び係り受け解析については公知の技術であり、形態素解析は、MeCab（和布蕪）（http://code.google.com/p/mecab）等の形態素解析システムを用いることにより実現可能であり、係り受け解析は、CaboCha（南瓜）（http://code.google.com/p/cabocha）等の係り受け解析器を用いることにより実現可能であるため、ここでは説明を省略する。

格要素抽出部１２２は、文書解析部１２１から受け取った文構造解析結果から、述語と、当該述語に係る格要素を抽出し、格要素及び述語ごとに特徴単語を出力する処理部である。

具体的には、文構造解析結果から文節の係り受け関係に着目し、係り元の文節が名詞句と表層格の組で構成されており、係り先の文節が動詞、形容詞、名詞句と助動詞「ダ」の組、もしくは文末の名詞句で構成されているものを見付け、係り元の文節を格要素、係り先の文節を述語として抽出する。なお、非特許文献４に開示されているように、格フレームを用いた格解析を行い、格要素を抽出することとしてもよい。

前述の表層格として、日本語の表層格である「ガ格」、「ヲ格」、「ニ格」、「カラ格」、「ヘ格」、「ト格」、「ヨリ格」、「マデ格」、「デ格」を用いる。また、表層格ではないが主語を示す助詞「ハ」についても、「ガ格」として抽出する。

また、前述の格要素の抽出方法において、格要素として抽出した文節を構成する単語のうち、品詞が内容語（普通名詞、固有名詞、サ変名詞、形容詞的名詞、動詞、形容詞）である単語を特徴単語として出力する。なお、動詞及び形容詞については活用形により語幹が変化するため、原形を使用する。

また、前述の格要素の抽出方法において、格要素の文節を更に修飾する係り元の文節が存在し、その文節が抽出済みの述語ではない場合は連結して一つの格要素に含めることとする。このようにすることで、文の修飾構造を含めた情報を利用することができる。

文書データ１８０として学習文書データを用いる場合、格要素抽出部１２２は、上記の方法により特徴単語を抽出したのち、特徴単語と、当該特徴単語が出現したカテゴリに対する文書数を重要度計算用学習辞書１５１に登録する。

重要度計算部１３０は、格要素抽出部１２２によって得られた特徴単語と、重要度計算用学習辞書１５１に登録された統計情報に基づき、特徴単語の重要度を計算し、特徴単語と、当該特徴単語に対する重要度の組を出力する処理部である。ここで、重要度計算の統計指標としては、tf＊idf、相互情報量、カイ２乗値、情報利得等が挙げられる。

学習処理部１４０は、文書データ１８０として学習文書データを用いる場合に実行され、重要度計算部１３０によって得られた特徴単語と、当該特徴単語に対する重要度の組から、格要素及び述語ごとのそれぞれについて特徴量を作成し、当該特徴量を学習文書単位で分類計算用学習辞書１５２に登録する処理部である。ここで、学習処理部１４０によって作成された特徴量を以下では学習特徴量と呼ぶこととする。

特徴量作成部１６１は、重要度計算部１３０によって得られた特徴単語と、当該特徴単語に対する重要度の組、及び分類計算用学習辞書１５２から取得した学習特徴量を基に、分類計算に使用する特徴量を作成する処理部である。ここで、特徴量作成部１６１によって作成された特徴量を以下では評価特徴量と呼ぶこととし、特徴量作成部１６１は、評価特徴量及び学習特徴量を出力する。

潜在的意味解析部１６２は、特徴量作成部１６１において取得した学習特徴量を基に、潜在的意味空間における語彙辞書を構築し、特徴量作成部１６１から受け取った評価特徴量及び学習特徴量を潜在的意味空間における特徴量に変換し、出力する処理部である。

分類処理部１６３は、潜在的意味解析部１６２によって潜在的意味空間に変換された評価特徴量及び学習特徴量を基に、所定の分類アルゴリズムに従って分類対象のカテゴリを決定する処理部である。また、分類処理部１６３は格要素及び述語ごとの意味構造単位で、潜在的意味空間における上位概念による比較計算を行う。

出力処理部１７０は、分類処理部１６３によって得られた分類対象のカテゴリを利用者へ出力する処理部である。

次に、本実施の形態に係る文書分類方法で行われる文書分類手順について図２〜図５を用いて説明する。本実施の形態における文書分類方法は、学習と分類の２段階で処理を行う。

まず、学習の処理手順について図２を用いて説明する。

図２は、文書分類方法の学習手順を示すフロー図である。

学習文書データ２００に対してはあらかじめ人手により正解となるカテゴリが付与されており、以下では複数の学習文書データを一括で学習する実施例を挙げる。

まず、入力処理部１１０は、学習文書データ２００を１件読み込む（ステップＳ２０１）。

文書解析部１２１は、読み込まれた学習文書データ２００に対し、形態素解析および係り受け解析を実行し、文構造解析結果２０１を出力する（ステップＳ２０２）。例えば、図６に示す例文は、形態素解析により図８に示す結果となり、係り受け解析により図９に示す結果となる。

格要素抽出部１２２は、ステップＳ２０２によって抽出した文構造解析結果２０１から格要素および述語を抽出し、格要素抽出結果２０２を出力する（ステップＳ２０３）。例えば、図６に示す例文は、格要素抽出により図１０に示す結果となる。

また、格要素抽出部１２２は、格要素抽出結果２０２から、内容語の品詞（普通名詞、固有名詞、サ変名詞、形容詞的名詞、動詞、形容詞）を選択し、特徴単語抽出結果２０３を抽出する（ステップＳ２０４）。例えば、図６に示す例文は、特徴単語抽出により図１１に示す結果となる。図１１に示すように、特徴単語抽出結果２０３は、学習文書データ２００に付与されたカテゴリと、格要素及び述語ごとに抽出した特徴単語が出力され、学習文書ごとに作成される。

また、格要素抽出部１２２は、抽出した特徴単語抽出結果２０３と、当該特徴単語が学習文書データ２００に付与されたカテゴリに出現する文書数を重要度計算用学習辞書１５１の該当する箇所に１つ加算して登録する（ステップＳ２０５）。図１４は重要度計算用に用いる学習辞書の例を示したものである。同図に示すように、重要度計算用学習辞書１５１は、格要素抽出部１２２によって抽出された特徴単語と、当該特徴単語が出現したカテゴリに対する文書数を保持している。

全ての学習文書データを処理したか否かを判断する（ステップＳ２０６）。

ステップＳ２０６において、全ての学習文書データを処理していないと判断した場合（ステップＳ２０６：ＮＯ）は、ステップＳ２０１の処理に戻る。

ステップＳ２０６において、全ての学習文書データを処理したと判断した場合（ステップＳ２０６：ＹＥＳ）、重要度計算部１３０は、ステップＳ２０４によって抽出した特徴単語抽出結果２０３と重要度計算用学習辞書１５１を用い、後述の計算式により重要度計算を実行し、特徴単語と、当該特徴単語に対する重要度の組２０４を出力する（ステップＳ２０７）。例えば、図６に示す例文は、重要度計算により図１２に示す結果となる。このとき、図１２に示す特徴単語と、当該特徴単語に対する重要度の組２０４は学習文書ごとに作成される。

ここで、ステップＳ２０７の重要度計算実行処理について、図４を参照しながら詳細に説明する。

図４は、重要度計算の詳細な処理手順を説明するフローチャートである。ここでは特徴単語に対する重要度として、統計指標による重み付けを行う。本実施例では、重要度計算の統計指標として、単語とカテゴリとのカイ２乗値を用いる。

まず、特徴単語抽出結果４０１を１件読み込む（ステップＳ４０１）。なお、ここでいう特徴単語抽出結果４０１はステップＳ２０４によって抽出した特徴単語抽出結果２０３に対応するものを表す。

統計指標の計算対象をカテゴリｃと呼び、これを選択する。学習文書データはあらかじめ正解のカテゴリが付与されているため、特徴単語抽出結果４０１に付与された正解のカテゴリを選択する（ステップＳ４０２）。

重要度計算用学習辞書１５１から、特徴単語抽出結果４０１に含まれる特徴単語ｗ_ｉがカテゴリｃに出現した文書数Ｎ_１１を取得する（ステップＳ４０３）。

単語ｗ_ｉを含み、かつカテゴリｃに属する文書数Ｎ_１１と、単語ｗ_ｉを含み、かつカテゴリｃに属さない文書数Ｎ_１０と、単語ｗ_ｉを含まず、かつカテゴリｃに属する文書数Ｎ_０１と、単語ｗ_ｉを含まず、かつカテゴリｃに属さない文書数Ｎ_００と、全文書数Ｎにより、単語ｗ_ｉとカテゴリｃとのカイ２乗値χ^２（ｔ，ｃ）を次の式で計算する（ステップＳ４０４）。

単語ｗ_ｉの重要度に、（１）、（２）式で計算した単語ｗ_ｉとカテゴリｃのカイ２乗値χ^２（ｔ，ｃ）を割り当て、特徴単語と、当該特徴単語に対する重要度の組４０２を出力する（ステップＳ４０５）。

特徴単語抽出結果４０１に含まれる全ての特徴単語ｗ_ｉを処理したか否かを判断する（ステップＳ４０６）。

ステップＳ４０６において、全ての特徴単語ｗ_ｉを処理していないと判断した場合（ステップＳ４０６：ＮＯ）は、ステップＳ４０３の処理に戻る。

ステップＳ４０６において、全ての特徴単語ｗ_ｉを処理したと判断した場合（ステップＳ４０６：ＹＥＳ）は、全ての特徴単語抽出結果４０１を処理したか否かを判断する（ステップＳ４０７）。

ステップＳ４０７において、全ての特徴単語抽出結果４０１を処理していないと判断した場合（ステップＳ４０７：ＮＯ）は、ステップＳ４０１の処理に戻る。

ステップＳ４０７において、全ての特徴単語抽出結果４０１を処理したと判断した場合（ステップＳ４０７：ＹＥＳ）は、重要度計算処理を終了する。

以上のように、すべての学習文書データから抽出されたすべての特徴単語について重要度を割り当て、特徴単語と、当該特徴単語に対する重要度の組４０２を出力する。図１４に示すように、同じ単語でもカテゴリによりカイ２乗値、つまり特徴単語の重要度が異なるため、これにより、そのカテゴリと関連の高い単語には、重要度が高くなるように計算される。なお、ここでいう特徴単語と、当該特徴単語に対する重要度の組４０２はステップＳ２０７で出力される特徴単語と、当該特徴単語に対する重要度の組２０４に対応するものを表す。

再び図２に戻り、学習処理部１４０は、ステップＳ２０７で抽出した特徴単語と、当該特徴単語に対する重要度の組２０４を用い、格要素および述語ごとに特徴量を構成する（ステップＳ２０８）。

このとき、前記特徴量は、各行に一つの特徴単語を対応付け、特徴単語の重要度を要素値とする、多次元ベクトルにおける列ベクトルを構成する。

しかる後、学習処理部１４０は、すべての学習文書に現れる格要素および述語ごとに抽出したすべての特徴単語と、当該特徴単語に対する重要度を要素値としたベクトルを学習文書単位で列方向に追加していくことで、学習特徴量として学習文書行列２０５を構成する（ステップＳ２０８）。

学習処理部１４０は、ステップＳ２０８によって作成した学習文書行列２０５を分類計算用学習辞書１５２に行列形式で登録する（ステップＳ２０９）。

図１５は分類計算用に用いる学習辞書の例を示したものである。同図に示すように、分類計算用学習辞書１５２は、学習処理部１４０によって作成された学習特徴量を学習文書単位で保持している。

以上、学習の処理手順を説明したが、次に、分類の処理手順について図３を用いて説明する。

図３は、文書分類方法の分類手順を示すフロー図である。

未分類文書データ３００に対してはカテゴリが付与されておらず、以下では１件の未分類文書データを分類する実施例を挙げる。

まず、入力処理部１１０は、未分類文書データ３００を読み込む（ステップＳ３０１）。

文書解析部１２１は、入力された未分類文書データ３００に対し、形態素解析および係り受け解析を実行し、文構造解析結果３０１を出力する（ステップＳ３０２）。

格要素抽出部１２２は、ステップＳ３０２によって抽出した文構造解析結果３０１から格要素および述語を抽出し、格要素抽出結果３０２を出力する（ステップＳ３０３）。

また、格要素抽出部１２２は、格要素抽出結果３０２から、内容語の品詞（普通名詞、固有名詞、サ変名詞、形容詞的名詞、動詞、形容詞）を選択し、特徴単語抽出結果３０３を出力する（ステップＳ３０４）。このとき、特徴単語抽出結果３０３には、格要素及び述語ごとに抽出した特徴単語が出力される。

重要度計算部１３０は、抽出した特徴単語抽出結果３０３と重要度計算用学習辞書１５１を用い、重要度計算を実行し、特徴単語と、当該特徴単語に対する重要度の組３０４を出力する（ステップＳ３０５）。

ここで、ステップＳ３０５の重要度計算実行処理について、図４〜図５を参照しながら詳細に説明する。

図４は、重要度計算の詳細な処理手順を説明するフローチャートである。

まず、特徴単語抽出結果４０１を読み込む（ステップＳ４０１）。なお、ここでいう特徴単語抽出結果４０１はステップＳ３０４によって抽出した特徴単語抽出結果３０３に対応するものを表す。

統計指標の計算対象として、カテゴリｃを選択する（ステップＳ４０２）。未分類文書データはカテゴリに依存しない指標が必要なため、カテゴリの選択手順について図５を用いて説明する。

図５は、未分類文書の重要度計算におけるカテゴリの選択手順を説明するフローチャートである。

まず、特徴単語抽出結果５０１を読み込む（ステップＳ５０１）。なお、ここでいう特徴単語抽出結果５０１はステップＳ４０１によって抽出した特徴単語抽出結果４０１に対応するものを表す。

重要度計算用学習辞書１５１から、特徴単語抽出結果４０１に含まれる特徴単語ｗ_ｉが、あるカテゴリｃ_ｊに出現した文書数Ｎ_１１を取得する（ステップＳ５０２）。

単語ｗ_ｉを含み、かつカテゴリc_ｊに属する文書数Ｎ_１１と、単語ｗ_ｉを含み、かつカテゴリc_ｊに属さない文書数Ｎ_１０と、単語ｗ_ｉを含まず、かつカテゴリc_ｊに属する文書数Ｎ_０１と、単語ｗ_ｉを含まず、かつカテゴリc_ｊに属さない文書数Ｎ_００と、全文書数Ｎにより、単語ｗ_ｉとカテゴリc_ｊとの相互情報量Ｉ（Ｕ，Ｃ）を次の式で計算する（ステップＳ５０３）。

カテゴリc_ｊのスコアに、（３）〜（６）式で計算した単語ｗ_ｉとカテゴリc_ｊの相互情報量Ｉ（Ｕ，Ｃ）を加算し、特徴単語ｗ_ｉとカテゴリc_ｊの依存度５０２を出力する（ステップＳ５０４）。

全てのカテゴリc_ｊを処理したか否かを判断する（ステップＳ５０５）。

ステップＳ５０５において、全てのカテゴリc_ｊを処理していないと判断した場合（ステップＳ５０５：ＮＯ）は、ステップＳ５０３の処理に戻る。

ステップＳ５０５において、全てのカテゴリc_ｊを処理したと判断した場合（ステップＳ５０５：ＹＥＳ）は、特徴単語ｗ_ｉが多岐のカテゴリに渡り出現する単語か否かを判断する（ステップＳ５０６）。本実施例では、次の式により得られるＶ（ｗ_ｉ）の値がある閾値ε（ε≧０）以下となる単語を分類多岐語と呼ぶこととする。

ステップＳ５０６において、単語ｗ_ｉが分類多岐語であると判断した場合（ステップＳ５０６：ＮＯ）は、ステップＳ５０８まで処理を進める。

ステップＳ５０６において、単語ｗ_ｉが分類多岐語ではないと判断した場合（ステップＳ５０６：ＹＥＳ）は、特徴単語ｗ_ｉとカテゴリc_ｊの依存度５０２のうち、相互情報量の最大値を記録したカテゴリを見付け、カテゴリc_ｊの最大値観測頻度５０３にカウントアップして出力する（ステップＳ５０７）。

このように、すべての単語ｗ_ｉについて相互情報量が最大となったカテゴリの頻度を計測していく。

全ての特徴単語ｗ_ｉを処理したか否かを判断する（ステップＳ５０８）。

ステップＳ５０８において、全ての特徴単語ｗ_ｉを処理していないと判断した場合（ステップＳ５０８：ＮＯ）は、ステップＳ５０２の処理に戻る。

ステップＳ５０８において、全ての特徴単語ｗ_ｉを処理したと判断した場合（ステップＳ５０８：ＹＥＳ）は、カテゴリｃ_ｊのスコア×カテゴリc_ｊの最大値観測頻度が最も大きくなったカテゴリｃを未分類文書の予測カテゴリとして出力する（ステップＳ５０９）。

以上のように、すべてのカテゴリに対する相互情報量を計算した例を図１３に示す。図１３に示すように、相互情報量は単語とカテゴリとの相互依存の度合いを数値化したものとなっており、カテゴリとの依存の度合いが高く、特定のカテゴリに偏って出現する単語が最も多い頻度で現れたカテゴリを、分野未分類の文書データに対する尤もらしいカテゴリとして選択する。

図４に戻り、重要度計算用学習辞書１５１から、特徴単語抽出結果４０１に含まれる特徴単語ｗ_ｉがカテゴリｃに出現した文書数Ｎ_１１を取得する（ステップＳ４０３）。

単語ｗ_ｉを含み、かつカテゴリｃに属する文書数Ｎ_１１と、単語ｗ_ｉを含み、かつカテゴリｃに属さない文書数Ｎ_１０と、単語ｗ_ｉを含まず、かつカテゴリｃに属する文書数Ｎ_０１と、単語ｗ_ｉを含まず、かつカテゴリｃに属さない文書数Ｎ_００と、全文書数Ｎにより、単語ｗ_ｉとカテゴリｃとのカイ２乗値χ^２（ｔ，ｃ）を（１）〜（５）式で計算する（ステップＳ４０４）。

単語ｗ_ｉの重要度に、（１）、（２）式で計算した単語ｗ_ｉとカテゴリｃのカイ２乗値χ^２（ｔ，ｃ）を割り当て、特徴単語と、当該特徴単語に対する重要度の組９０４を出力する（ステップＳ４０５）。

ステップＳ４０７において、全ての特徴単語抽出結果４０１を処理したと判断され（ステップＳ４０７：ＹＥＳ）、重要度計算処理を終了する。

以上のように、未分類文書から抽出されたすべての特徴単語について重要度を割り当て、特徴単語と、当該特徴単語に対する重要度の組４０２を出力する。なお、ここでいう特徴単語と、当該特徴単語に対する重要度の組４０２はステップＳ３０５で出力される特徴単語と、当該特徴単語に対する重要度の組２０４に対応するものを表す。

再び図３に戻り、特徴量作成部１６１は、ステップＳ３０５で抽出した特徴単語と、当該特徴単語に対する重要度の組３０４に対して、分類計算用学習辞書１５２から取得した学習文書行列を基に、格要素および述語ごとに特徴量を構成する（ステップＳ３０６）。

潜在的意味解析部１６２は、ステップＳ３０６で取得した文書ベクトル及び学習文書行列を基に、特異値分解を利用して学習文書行列を低次元の行列に圧縮することで、単語を上位概念に変換した語彙の辞書を構築し、ステップＳ３０６から受け取った文書ベクトル及び学習文書行列を潜在的意味空間における特徴量に変換する（ステップＳ３０７）。

図１６は、単語を上位概念に変換した語彙の辞書の例を示したものである。同図に示すように、単語を上位概念に変換した語彙の辞書は、潜在的意味解析部１６２によって作成された圧縮済み学習文書行列を保持している。圧縮済み学習文書行列は、特徴単語が潜在的意味空間に畳み込まれた上位概念と各学習文書データにおいて当該上位概念の重みとの関係を表す行列となっている。

ここで、ステップＳ３０７の学習文書行列の特異値分解を利用して低次元の行列に圧縮する方法を利用し、文書ベクトル及び学習文書行列３０５を潜在的意味空間における特徴量に変換する処理について詳細に説明する。

学習文書行列をｍ×ｎ行列Ｄとしたとき、Ｄを次式のように特異値分解する。

ここで、Ｕはｍ×ｍ直交行列、Ｖはｎ×ｎ直交行列、Σはｍ×ｎ行列であり、ｒａｎｋ（Ｄ）＝ｒとすると、ｒ個の特異値（σ_１≧σ_２≧…≧σ_ｒ＞０）を対角成分とする対角行列となる。

（８）式に対し、左特異行列Ｕから最初のｋ個（ｋ＜ｒ）の左特異ベクトルを取り出したｍ×ｋ行列Ｕ_ｋ、右特異行列Ｖから最初のｋ個の右特異ベクトルを取り出したｎ×ｋ行列Ｖ_ｋ、特異値行列Σの上位ｋ個の特異値のみから構成されるｋ×ｋ対角行列Σ_ｋにより、学習文書行列Ｄは以下のように低階数行列に近似できる。

ｍ次元の学習文書行列Ｄをｋ次元の学習文書行列Ｄ^（ｋ）に圧縮するためには、次式の通りＵ_ｋの張る空間への射影を考えればよい。

これにより、学習文書行列を低次元に圧縮することができる。圧縮済み文書行列Ｄ^（ｋ）は、特徴単語が潜在的意味空間に畳み込まれた上位概念と各学習文書データにおいて当該上位概念の重みとの関係を表す行列となっている。

次に、文書ベクトルをｍ行の列ベクトルqとしたとき、ｍ×ｋ左特異行列Ｕ_ｋを用い、次の式により低次元のベクトルに圧縮する。

以上により、文書ベクトル及び学習文書行列３０５を潜在的意味空間における特徴量に変換することができる。

しかる後、分類処理部１６３は、ステップＳ３０７で変換した文書ベクトル圧縮結果ｑ^（ｋ）及び学習文書行列圧縮結果Ｄ^（ｋ）を用いて類似度計算を行い、分類結果３０７を出力する（ステップＳ３０８）。

前記類似度計算は、文書ベクトル圧縮結果ｑ^（ｋ）と、学習文書行列圧縮結果Ｄ^（ｋ）のカテゴリ毎に線形和を取ったベクトルｄ_ｊ ^（ｋ）を用いて、次の式によりコサイン類似度を計算する。

（１２）式により最もコサイン類似度が高くなったｄ_ｊ ^（ｋ）のカテゴリを分類結果３０７として出力する。

図１７は、図６に示す例文と図７に示す例文を比較した例である。修飾構造および意味構造の単位で類似性を比較し、図１８に示すように類似度計算される。

最後に、出力処理部１７０は、ステップＳ３０８によって得られた分類結果のカテゴリ３０８を利用者へ出力する（ステップＳ３０９）。

上述のように、本発明の実施の形態を、図面を参照しながら説明してきたが、本実施の形態における処理は、プログラムで実現しても良い。

図１９は、本発明の実施形態に係る文書分類プログラムのハードウェア構成を示すブロック図である。同図に示すように、本文書分類プログラムは、バス１９１０に接続された入力部１９２０と、出力部１９３０と、補助記憶部１９４０と、主記憶部１９５０と、演算処理部１９６０と、外部記憶部１９７０と、通信制御部１９８０とで構成される情報端末１９００に搭載される。

バス１９１０は、各ハードウェア間の制御信号、データ信号等の授受を媒介する経路である。

入力部１９２０は、利用者がデータの入力を行うキーボードやマウス等の入力装置である。

出力部１９３０は、処理結果を出力するプリンタやディスプレイ等の出力装置である。

補助記憶部１９４０は、文書分類プログラム１９４１や文書分類プログラム１９４１を実行するために必要なデータを記憶する、ＨＤＤ（ハードディスクドライブ）等の記憶装置である。

主記憶部１９５０は、補助記憶部１９４０からロードしたデータやプログラムを記憶するＲＡＭ（Random Access Memory）等の記憶装置である。

演算処理部１９６０は、主記憶部１４５０上のデータやプログラムを読み出して実行するＣＰＵ（Central Processing Ｕnit）等の演算処理装置である。

外部記憶部１９７０は、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、光磁気ディスク等の記憶媒体である。

通信制御部１９８０は、ネットワーク等に接続するための制御装置である。

本発明の機能は、情報端末１９００が補助記憶部１９４０に記憶された文書分類プログラム１９４１のプログラムコードを読み出し、演算処理部１９６０によって実行する構成としても達成することができる。

また、本発明の機能は、文書分類プログラム１９４１を外部記憶装置１９７０の記憶媒体等に記憶しておき、プログラムを読み出し、演算処理装置１９６０によって実行する構成としても達成することができる。

また、本発明の機能は、通信回線を介して通信制御装置１９８０が文書分類プログラム１９４１をダウンロードし演算処理装置１９６０によって実行する構成としても達成することができる。

以上、本発明の各実施形態について説明したが、本発明は、上述の実施の形態に限定されるものではなく、種々の変更が可能である。

１１０入力処理部
１２０解析処理部
１２１文書解析部
１２２格要素抽出部
１３０重要度計算部
１４０学習処理部
１５１重要度計算用学習辞書
１５２分類計算用学習辞書
１６１特徴量作成部
１６２潜在的意味解析部
１６３分類処理部
１７０出力処理部
１８０文書データ

Claims

予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する手順と、
前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単語を抽出する手順と、
前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する手順と、
前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する手順と、
前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する手順と、
前記格要素と述語ごとに作成された特徴量を記憶する手順と、
前記格要素と述語ごとに作成された特徴量を第２の特徴量に変換する手順と、
前記第２の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する手順と、
をコンピュータに実行させ、文書データを特定のカテゴリに分類する文書分類プログラム。
文書データを特定のカテゴリに分類する文書分類装置であって、
予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する構造解析手段と、
前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単を抽出する格要素等抽出手段と、
前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する重要度計算用学習辞書と、
前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する重要度計算手段と、
前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する特徴量作成手段と、
前記格要素と述語ごとに作成された特徴量を記憶する分類計算用学習辞書と、
前記格要素と述語ごとに作成された特徴量を第２の特徴量に変換する特徴量変換手段と、
前記第２の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する分類処理手段と、
を有することを特徴とする文書分類装置。