JP2010146222A

JP2010146222A - 文書分類装置、文書分類方法およびプログラム

Info

Publication number: JP2010146222A
Application number: JP2008321725A
Authority: JP
Inventors: Hisao Mase; 久雄間瀬; Takanori Kanai; 隆範金井; Keiko Yagi; 敬宏八木
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-12-18
Filing date: 2008-12-18
Publication date: 2010-07-01
Anticipated expiration: 2028-12-18
Also published as: JP4521459B2

Abstract

【課題】利用者が直感的に理解できる形で、文書分類結果の分類スコアを算出し、利用者に提示可能な文書分類方法およびこれを実施する文書分類装置を提供する。
【解決手段】文書解析部２と検索インデクス生成部３と類似文書検索部９と分類特定部１２とを備えた文書分類装置において、学習用文書の集合を構成する各学習用文書を対象として、前記学習用文書毎の分類情報が格納された学習用文書−分類対応テーブル１３を参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブル１７に格納し、該スコア補正値テーブル１７を参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する。
【選択図】図１

Description

本発明は、文書を分類する方法およびこれを実施する文書分類装置に関する。

特許や論文、新聞記事、Ｗｅｂページのように、テキスト情報を含む大量の文書の中から所望の文書を検索する際には、文書の形式や書誌、内容に応じて予め分類を付与しておき、検索条件の中で分類を指定することによって、検索範囲を絞り込む方法が有効である。しかし、大量の文書に分類を付与する作業や、時代の流れに応じて分類体系を常に最適な状態に更新する作業、分類を更新した場合に過去の大量の文書に付与された分類を付与し直す作業などに多大な労力を要しているのが現状である。
そこで、これらの作業にかかる作業者の負担を軽減する技術として文書分類技術が注目されている。分類アルゴリズムとしては、特開２００７−３２３４５４号公報に開示されているように、予め人手によって分類が付与された文書集合を学習用文書集合として用意し、まだ分類が付与されていない文書に対して、これに類似する学習用文書を検索し、検索結果上位の学習用文書に付与された分類の付与状況を統計解析して分類スコアを分類毎に算出し、当該分類スコアの大小に応じて付与すべき分類を特定するという、ｋ近傍法（K-Nearest Neighbors法）と呼ばれる方法が一般的である（以下、本明細書では、ＫＮＮ法と呼ぶこととする）。ＫＮＮ法では、検索結果上位Ｋ件（ＫＮＮのＫ）の学習用文書の多くに付与された分類は何か、より上位の学習用文書に付与された分類は何かなどに基づいて分類スコアを分類毎に算出し、分類スコアの高い順に分類を出力する。

従来の分類スコアの算出方法は、大きく３種類に分けられる。一つは、絶対値による算出である。その分類が付与された文書に対して類似文書検索が算出した類似度や、その分類が付与された文書が類似文書検索結果において何位に出力されたかという順位の値や、その分類が付与された文書が類似文書検索結果に何件出力されたかという文書件数などから、その分類に対する分類スコアを算出する。例えば、上記特開２００７−３２３４５４号公報に開示されているように、類似文書の類似度から、分類（Ｆ−ｔｅｒｍ１）の分類スコアが２６７．５、分類（Ｆ−ｔｅｒｍ２）の分類スコアが８９．１というように、特に数値の正規化をせずに、分類スコアの絶対値を算出してそのまま出力する。

二つ目は、特開平５−５４０３７号公報に開示されているように、確率的手法などにより、分類スコアを０から１までの範囲の中で、絶対値として算出するものである。すなわち、「文章ＡはカテゴリＸに３０％の確率で分類される」というように出力する。

三つ目は、相対値による算出方法である。上記の例の場合、仮に分類（Ｆ−ｔｅｒｍ１）の分類スコア２６７．５が最も高いとした場合、他の分類の分類スコアを、分類（Ｆ−ｔｅｒｍ１）の分類スコア２６７．５で割ることにより、値を正規化する。この結果、分類（Ｆ−ｔｅｒｍ１）の分類スコアは１．０に、分類（Ｆ−ｔｅｒｍ２）の分類スコアは０．３３に正規化される。このように正規化することによって、分類間の分類スコアの違いを相対的に比較することが容易になるのが長所である。このような正規化は、文書分類システムにおける分類スコアに対してだけでなく、文書検索システムにおける文書間の類似度や、文書から抽出する単語の重みの値などに対しても適用されている公知の技術である。

特開２００７−３２３４５４号公報特開平５−５４０３７号公報

上述したように、従来の文書分類システムにおいては、分類結果を分類スコア付きで出力するものが一般的である。しかし、上記従来技術では、この分類スコアの数値にどのような意味があるのかの定義が明確にされていない、または、明確に定義されていても、それが利用者に直感的に理解されない定義である場合がほとんどである。

上記特許文献１に開示されているように、絶対値により分類スコアを算出する場合、２６７．５という数値が何を意味しているのかを利用者は直感的に理解することができない。また、分類（Ｆ−ｔｅｒｍ１）の分類スコア２６７．５と分類（Ｆ−ｔｅｒｍ２）の分類スコア８９．１が相対的にどのくらい違っているのかを評価するためには、８９．１÷２６７．５という割算をしなければならないため、分類間の分類スコアの相対比較も容易ではない。

また上記特許文献２に開示されているように、確率的手法を用いた絶対値により分類スコアを算出する場合、文章ＡはカテゴリＸに３０％の確率で分類されるという形で分類スコアを出力するが、人間が分類した場合と比べた時の分類精度に基づいて出力されておらず、単語の出現傾向（出現頻度）から算出された分類スコアであるため、「人間が分類した場合と比べた時の分類精度が３０％である」ということを示してはいない（その結果、この分類スコアが実際の分類精度とは乖離した値となることが多い）ため、利用者がこの分類スコアを正確に理解することができない。

また上記相対値により補正スコアを算出する場合、最も分類スコアの高い分類の分類スコアが必ず１．０になるため、この１．０という数値が絶対的に見てどういう意味があるのかについては依然として不明であるため、利用者が分類スコアを直感的に理解することができない。

本発明の目的は、利用者が直感的に理解できる形で、文書分類結果の分類スコアを算出し、利用者に提示可能な文書分類方法およびこれを実施する文書分類装置を提供することにある。

そこで本発明では、利用者が理解しやすい分類スコアを算出するという課題を解決するために、分類スコアの値に意味を持たせる。すなわち、分類スコアを、「実際に人間が付与した際の分類精度を近似した値」として定義することにより、分類スコアの意味を利用者が直感的に理解できるようにする。例えば、「文書Ｄに分類Ａが付与された時の分類スコアが０．８である」とは、「人間も８０％の割合で文書Ｄに分類Ａを付与する」という意味であるとする。

本発明のポイントの一つは、人間による分類精度を踏まえた上で、分類スコアを算出している点にある。しかし、付与すべき正解分類が未知である分類対象文書に対して、付与された分類が正しいか否かを前もって正しく評価することは直接にはできない。そこで本発明では、既に分類が付与されている学習用文書を分類対象文書とした時の分類精度で近似する。すなわち、学習用文書を分類対象文書とした時の分類精度を分類スコアの値の範囲毎に算出しておき、分類スコアと分類精度との間の乖離度合いに応じて、分類がまだ付与されていない文書に対して算出された分類スコアを補正する。さらに具体的に言うと、学習用文書とその正解分類を対応付けたテーブルを参照して、学習用文書を対象として分類スコアを分類毎に算出して分類した時の分類精度を分類スコアの値の範囲毎に算出し、この分類精度を分類スコアの値の範囲と対応付けてスコア補正値テーブルに格納する。そして、スコア補正値テーブルを参照して、分類対象文書に対して算出された分類スコアと分類精度の間の乖離度合いに応じて分類スコアを補正する。

本発明のポイントのもう一つは、本発明が、学習用文書を分類対象文書とした時の分類精度と、分類がまだ付与されていない分類対象文書に対する分類精度が、ほぼ同じ傾向を示すという知見に基づいていることにある。もし、両者の分類精度の傾向が大きく異なる場合、学習用文書に対する分類精度を使って、分類対象文書に対する分類スコアを補正することはできない。

本発明によれば、利用者が直感的に理解できる形で、文書分類結果の分類スコアを算出し、利用者に提示可能な文書分類方法およびこれを実施する文書分類装置を提供することができる。

以下、本発明の実施の形態を、図面を用いて詳細に説明する。

本実施形態では、文書分類装置であるコンピュータが、テキストを含む文書を入力として、予め定義された分類体系の中から適切な分類を特定し、分類スコア付きで出力する文書分類方法について説明する。本実施形態では日本語で書かれた文書を対象としているが、英語等の外国語で書かれた文書にも適用可能である。

本実施形態では、入力された文書と内容が類似している文書を、学習用文書の中から検索し、その検索結果上位の文書に付与された分類の付与状況を統計解析して付与すべき分類を決定するＫＮＮ法を用いて文書を分類する。

ＫＮＮ法では、既に分類が付与された学習用文書集合が必要である。学習用文書は、分類対象文書集合の中から一定の割合の件数だけ選定される。一般に、学習用文書の選定件数の割合が高いほど、分類精度は高くなる。しかし一方で、学習用文書に対して正解となる分類を人手で付与する作業が必要となるため、作業者の負担は増大する。このように、分類精度と作業者負担はトレードオフの関係にあるため、文書分類の目標精度や許容できる作業者負担を考慮して、学習用文書の選定件数の割合を決める必要がある。なお、学習文書の選定件数の割合は、一般的には１０％から２０％が現実的であると言われている。

文書分類システムの利用場面としては、以下の２種類が挙げられる。

［場面１］出願特許へ特許分類を付与する場合のように、過去に分類が付与された大量の文書を学習用文書として、新しく入ってきた直近の文書に対して分類を付与する場合である。この場合、分類対象文書は、学習用文書に比べて時系列的に新しいという制約が課される。

［場面２］分類体系が改正・更新された際に、その改正内容に応じて、過去に付与された分類を付与し直す場合である。この場合、分類を付与する対象となる文書集合は固定されるので、学習用文書をうまく選定すれば、分類対象文書が学習用文書に比べて時系列に新しいという制約はなくなる。

本発明による分類スコア補正は、学習用文書を分類対象文書とした場合の分類スコアと分類精度との間の乖離度合いを用いて、学習用文書以外の文書における分類スコアの値を補正し、分類スコアが分類精度に等しくなるようにするものである。この補正により、分類スコアの値の意味を利用者が容易に解釈できるようにすることを目的としている。

この目的から考察するに、本方式は上記場面２の利用場面において特に効果が高い。なぜなら、時系列的に見てランダムに学習用文書を選定できるため、記載内容の時間的変化による分類精度劣化の影響を受けにくく、その結果、学習用文書における分類精度が、それ以外の文書における分類精度と同一の傾向を見せる確率がより高いからである。これに対して上記場面１では、時系列的に新しい文書に書かれた内容が、古い文書に書かれた内容に比べて大きく変わる可能性があるため、分類精度が同一の傾向を示さない恐れがある。しかし、この場合でも、分類付与対象文書と時系列的に近い文書を学習用文書として用いるなどの工夫をすることにより、上記場面２の利用場面とほぼ同等の効果を得られると考えられるので、本発明を適用することは可能である。

図１は、本実施形態における文書分類装置の機能概要を説明する図である。各々のデータおよび処理部についての詳細は、図２以降の説明の中で詳述する。

分類対象文書集合１は、分類を付与すべき対象となる文書集合であり、既に分類が付与された文書からなる学習用文書７と、まだ分類が付与されていない分類対象文書８を合わせた文書集合である。文書解析部２は、分類対象文書集合１に含まれる各々の文書から、その文書を特徴付ける単語（特徴語）およびその重要度に相当する重みを抽出する。文章を単語に切り分ける際には形態素解析モジュール（プログラム）が呼び出される。形態素解析モジュールは、単語辞書５を参照して文章を単語に分割する。形態素解析モジュールは、分割された単語のうち、名詞、動詞など特定の品詞を持つ単語を特徴語として認定する。特徴語の重みは、当該文書の中に出現する頻度と、当該特徴語が分類対象文書集合１の中の何件の文書に出現するかという出現文書数に基づいて、ＴＦＩＤＦ法と呼ばれる公知の手法を採用することにより算出される。検索インデクス生成部３は、文書番号と特徴語およびその重みを対応付けた検索インデクス４を生成し、記憶部の検索インデクス４の格納エリアに格納する。分類対象文書集合１から検索インデクス４を生成するまでの処理は、一般の文書検索システムや文書分類システムで広く採用されている公知技術であるため、これ以上の説明は省略する。

文書選定部６は、利用者からの指示に応じて、処理に用いる文書集合を選定する。学習用文書７を選定するよう利用者から指示があった場合は、分類対象文書集合１から学習用文書のみを抽出して、学習用文書７に格納する。学習用文書７以外の分類対象文書８を選定するよう利用者から指示があった場合は、分類対象文書集合１から分類対象文書を抽出し、これを記憶部の分類対象文書８の格納エリアに格納する。

上述したように、学習用文書７を入力文書として分類した場合の分類精度と、分類対象文書８を入力文書として分類した場合の分類精度は、同じ傾向にある必要がある。そのため、分類対象文書集合１から学習用文書７を抽出する方法を工夫する必要がある。例えば上記場面１では、時系列的に見てランダムに抽出するとか、文書ＩＤが時系列に付けられた番号である場合には、番号の下１桁が特定の数字である文書を抽出するとか、文書を時系列に並べて、文書をＮ個おきに抜き出すとかの方法により、学習用文書７を抽出することができる。

類似文書検索部９は、学習用文書７または分類対象文書８に含まれる文書を入力として、その文書に記載された内容に類似する文書を、学習用文書７の中から検索して、その類似性を数値化した類似度を算出し、類似度の高い順に文書を出力する。類似文書検索部９は、入力文書が学習用文書７に含まれる文書である場合は、類似文書検索結果１０に、入力文書が分類対象文書８に含まれる文書である場合は、類似文書検索結果１１に検索結果をそれぞれ格納する。なお、入力文書が学習用文書７に含まれる文書である場合、その文書が検索結果の上位に出力されることがしばしばあるため、この場合、入力文書を検索結果から削除するという処理が加わる。

分類特定部１２は、学習用文書に付与されている分類（正解分類）に関するデータを格納した学習用文書−分類対応テーブル１３を参照して、類似文書検索結果１０または類似文書検索結果１１の上位Ｋ件に付与されている分類の傾向を統計解析することによって、その確からしさを示す分類スコアを算出して、分類スコアの高い順に分類を出力する。分類を特定した結果は、入力が学習用文書７に含まれる文書である場合は分類結果１４に、入力文書が分類対象文書８に含まれる文書である場合はスコア補正前分類結果１５にそれぞれ格納する。

スコア補正値算出部１６は、学習用文書７に対する分類結果１４に対して、学習用文書−分類対応テーブル１３を参照して、分類スコアの値の範囲毎に分類精度を算出して、スコア補正値テーブル１７に格納する。

スコア補正部１８は、分類対象文書８に対するスコア補正前分類結果１５に対して、スコア補正値テーブル１７を参照して、分類スコアと分類精度の間の乖離度合いを算出して分類スコアを補正する。補正結果は、スコア補正部１８により記憶装置のスコア補正後分類結果１９の格納エリアに格納される。また、スコア補正後分類結果１９である分類および分類スコアは、ディスプレイ等の出力装置に出力画面として出力され、利用者に提示される。この際、分類スコアの値の範囲と出力メッセージまたは出力態様との対応関係を予め利用者またはシステム管理者が定義しておき、この定義情報を参照することにより、分類結果（分類スコア）とともに出力メッセージを出力装置に出力して、利用者に提示することも可能である。例えば、分類スコアが０．９以上である場合に、分類スコアの値の範囲および「この分類は無条件に文書に付与されます」といった出力メッセージを出力装置に出力したり、分類結果を他と色やフォントなどの態様を変えて出力装置に出力したりすることが可能である。

図２は、本実施形態における分類スコアと分類精度の間の関係を示した図である。本実施の形態では、ある入力文書（学習用文書７または分類対象文書８）に対して適切な分類結果２２を出力するが、その際に分類スコア２３が算出され、分類結果２２に対応付けて出力される。学習用文書７については正解分類２４が既知であるので、分類結果２２と正解分類２４を比較することにより、分類結果の適合性２５を評価することができる。

一般に、分類スコアが高い分類は、正解分類と一致する確率が高い、すなわち、分類精度が高い傾向にある。しかし、実際に横軸に分類スコア、縦軸に分類精度をとり、分類スコアの値の範囲別（図２に示すグラフでは、分類スコアの取り得る０から１までの範囲を０．１刻みに１０分割した時のそれぞれの範囲別）に分類精度を算出してみると、黒三角印のようにプロットされる。これらを結んでみると、一本の直線で近似できることもあれば、ジグザグの直線や、曲線に近似できることもある。しかし、分類スコアそのものの意味付けがなされていない場合、分類スコアを出力できても、利用者はその分類スコアが何を意味しているのかを把握することができない。

そこで本実施の形態では、分類スコアに対して、その分類が正しく付与されている確率（分類精度）という意味を付加することにより、分類スコアの意味を利用者が直感的に把握できるようにする。すなわち、学習用文書から得られる分類スコア−分類精度曲線３２と、分類スコア＝分類付与精度となる理想的な曲線３１（傾きが４５度の直線）との乖離度合いを保持する。図２では、ある分類に対する分類スコアが０．７の時の乖離度合いについて示している。分類スコアが０．７であるのに対して、分類精度が０．４であることから、０．３の乖離３３があることがわかる。この乖離度合いをスコア補正値テーブル１７に保持しておき、スコア補正部１８はこの乖離度合いを利用して、分類特定部１２により分類対象文書に対して算出された分類スコアを補正する。

このように、何も意味付けがなされていなかった分類スコアを、分類精度に対応付ける形で補正することにより、利用者は分類付与結果の妥当性を容易にチェックできるようになる。また、分類スコアの意味付けが明確であるため、一つの文書に付与する分類の数を決める際の分類スコアの閾値の設定も容易になる効果が期待できる。

図３は、本実施形態における文書分類装置のハードウェア構成例を示すブロック図である。本システムは大きく、計算処理を実行する処理装置５０、利用者が操作内容またはデータを入力するためのキーボード５１およびマウス５２等の入力装置、計算処理結果を利用者に出力するための出力モニタ（出力装置）５３、処理装置５０における処理に関するプログラムおよびデータを格納する記憶装置６０から構成される。入出力データを別の計算機とやりとりする場合には、入出力データはネットワーク５４を介して送受信する。

記憶装置６０はさらに、処理装置５０における処理データを一時的に格納するワーキングエリア６１と、分類対象文書集合格納エリア６２、文書解析部格納エリア６３、単語辞書格納エリア６４、検索インデクス生成部格納エリア６５、検索インデクス格納エリア６６、文書選定部格納エリア６７、分類対象文書格納エリア６８、学習用文書格納エリア６９、類似文書検索部格納エリア７０、類似文書検索結果格納エリア７１、分類特定部格納エリア７２、学習用文書−分類対応テーブル格納エリア７３、分類結果格納エリア７４、スコア補正前分類結果格納エリア７５、スコア補正値算出部格納エリア７６、スコア補正値テーブル格納エリア７７、スコア補正部格納エリア７８、スコア補正後分類結果格納エリア７９から構成される。処理装置５０は、記憶装置６０から必要なプログラムおよびデータをロードし、実行した結果を記憶装置６０に格納することを繰り返すことにより処理が行われる。また、この実行結果は出力装置５３に出力可能である。

図４は、学習用文書７に対する類似文書検索結果１０と、分類対象文書８に対する類似文書検索結果１１のデータ構成例を示す図である。両者は、入力となる文書の種別が学習用文書７であるか分類対象文書８であるかが違うだけであり、類似文書検索結果のデータ構成は同様の構成である。図４に示すように、類似文書検索結果１０、１１は、入力文書を一意に識別する入力文書番号１０１と、当該文書に対する類似文書検索の検索順位１０２と、類似文書を一意に識別する類似文書番号１０４と、当該類似文書の入力文書に対する類似度１０３とから構成される。ここで、類似文書検索として出力されるのは、既に分類が付与されている学習用文書のみである。

文書間の類似度を算出する方法については、従来の類似文書検索システムに適用されている。一般的な方法としては、入力文書から抽出された重み付き特徴語で構成される特徴語ベクトルと、類似文書から抽出された重み付き特徴語で構成される特徴語ベクトルとの間の内積値や、二つのベクトルで作られる角の余弦値（コサイン）を類似度とするものなどが知られている。本実施形態による文書間の類似度の算出方法は、この従来による類似度算出方法を採用することが可能である。

図５は、学習用文書−分類対応テーブル１３のデータ構成例を示す図である。学習用文書−分類対応テーブル１３には、学習用文書７に属する文書の文書番号１１１とその文書に付与された分類１１２が対になって格納されている。なお、図示していないが、一つの文書番号に対して複数の分類が付与されることもある。

図６は、分類特定部１２で生成し、参照する中間データの構成例を示す図である。この中間データは、図４に示した類似文書検索結果と図５に示した学習用文書−分類対応テーブルを、類似文書番号１０４および文書番号１１１をキーとしてテーブル結合したものである。類似文書検索結果として出力された学習用文書の各々に、どの分類が付与されているのかが対応付けられている。

図７は、分類結果１４と、スコア補正前分類結果１５のデータ構成例を示す図である。分類結果１４とスコア補正前分類結果１５のそれぞれのデータ構成は同じであり、入力文書番号１１０と、順位１１２と、順位に該当する分類１１１と、正規化前類似度１１３と、相対類似度１１４と、分類スコア１１５とから構成される。分類結果１４およびスコア補正前分類結果１５は、類似文書検索結果１０，１１および学習用文書−分類対応テーブル１３に基づいて生成される。具体的には、分類結果１４およびスコア補正前分類結果１５は、分類特定部１２が以下の処理を行うことにより生成される。

図１１は、分類特定部１２の処理の一例を示すフローチャートである。

まず、分類特定部１２は、上述したように、類似文書検索結果１０、１１と学習用文書−分類対応テーブル１３を、類似文書番号をキーとしてテーブル結合した中間データを生成し、類似文書とそれに付与された分類の対応関係を特定する（ステップ５０１）。

次に、分類特定部１２は、検索順位がＮ位（本実施形態ではＮ＝１０とする）までの類似文書の中で、特定の分類が付与された文書の類似度を足し合わせた数値を分類毎に算出し、これを正規化前類似度１１３として分類結果１４またはスコア補正前分類結果１５に格納する（ステップ５０２）。例えば、分類Ａは図６より、１、３、５、８、９、１０位の文書に付与されているので、これらの類似度である０．９５、０．８５、０．７３、０．５９、０．５７、０．５２を足し合わせた４．２１が分類Ａの正規化前類似度１１３となる。このように、正規化前類似度１１３は、より多くの類似文書に付与されている分類ほど、また、より上位の類似文書に付与されている分類ほど、値が高くなる。

次に、分類特定部１２は、各分類の正規化前類似度を、最も高い正規化類似度で割って正規化し、これを相対類似度１１４として分類結果１４またはスコア補正前分類結果１５に格納する（ステップ５０３）。図７の場合、分類Ａの正規化前類似度（４．２１）が最も高いので、各分類の正規化前類似度１１３を４．２１で割る。例えば、分類Ｂでは１．５０を４．２１で割って０．３６に正規化する。

次に、スコアの算出精度を上げるために、分類特定部１２は以下の計算を行うことにより、補正前の分類スコア１１５を算出する。

まず、分類特定部１２は、相対類似度１１４の最も高い分類（図７の場合、分類Ａ）に対して、図６に示した中間データにおいて何位の文書に付与されているかをチェックし、付与されている文書の検索順位１０２の逆数の総和を算出する（ステップ５０４）。図６に示す例では、分類Ａは、１、３、５、８、９、１０位の文書に付与されているので、１／１＋１／３＋１／５＋１／８＋１／９＋１／１０＝６７３／３６０となる。

次に、分類特定部１２は、上位Ｎ位（本実施形態ではＮ＝１０）までの検索順位の逆数の総和を求める（ステップ５０５）。図６に示す例では、この求めた結果は、１／１＋１／２＋・・・＋１／１０＝７３８０／２５２０となる。この値はＮが決まれば一定値となるので、Ｎが固定である場合は、予め一度だけ計算しておけば良い。

次に、分類特定部１２は、ステップ５０４で算出した、相対類似度１１４の最も高い分類が付与された文書の検索順位の逆数の総和（６７３／３６０）を、ステップ５０５で算出した、上位Ｎ位までの検索順位の逆数の総和（７３８０／２５２０）で割った値を算出し、これを相対類似度１１４の最も高い分類（分類Ａ）の分類スコア１１５（０．６４）とする（ステップ５０６）。

最後に、分類特定部１２は、他の分類の相対類似度１１４に、この分類スコア（０．６４）を乗ずることにより、分類スコア１１５をそれぞれ算出する（ステップ５０７）。なお、上記の分類スコア算出方法はあくまで一例であり、分類スコアと実際の分類精度との乖離を少しでも小さくするための算出方法の一つである。したがって、類似文書検索の類似度や検索順位などの値を用いた別の算出方法であっても良い。ただし、分類精度が０から１までの間であることを踏まえ、分類スコアも０から１までの範囲の値であることが望ましい。

図８は、スコア補正値テーブル１７のデータ構成を示す図である。スコア補正値テーブル１７は、スコア補正値算出部１６が学習用文書７に対する分類結果１４を参照して、以下の処理を行うことにより生成される。

図１２は、スコア補正値算出部１６の処理の一例を示すフローチャートである。

まず、スコア補正値算出部１６は、分類スコアの取り得る０から１までの値の範囲をＮ個（本実施形態では１０個）に分割する（ステップ６０１）。本実施の形態では、分類スコアを０．１ずつに刻んだ１０個の分類スコア範囲に分割する。１０個という数値自体は、利用者またはシステム管理者が設定する。なお、本実施形態では１０個に分割しているが、学習用文書の件数が多い／少ない場合は、１０個以上／以下に分割しても良い。また、分類スコア範囲は一定幅である必要はない。

次に、スコア補正値算出部１６は、各分類スコア範囲について、その代表値となる値を設定する（ステップ６０２）。本実施形態では、図８に示すように各分類スコア範囲の中間値１１２を採用するが、各分類スコア範囲の最低値または最高値などであっても良い。

次に、スコア補正値算出部１６は、学習用文書７に対する各分類結果１４に対して、各分類スコア範囲に属する分類スコアを持つ分類結果を収集する（ステップ６０３）。例えば図７に示す例では、分類Ａは分類スコア１１５が０．６４なので、図８における分類スコア範囲１１１が「０．６−０．７」である範囲に割り振る。分類Ｂは０．２３なので、「０．２−０．３」である範囲に割り振る。

次に、スコア補正値算出部１６は、学習用文書−分類対応テーブル１３を参照して、分類スコア範囲毎に分類精度を算出する。本実施の形態では、分類精度としては、「分類結果として出力された延べ分類数の中に含まれる正解分類の数」を「分類結果として出力された延べ分類数」で割った値である適合率（最近では単に精度とも呼ばれる）を用いる。算出した分類精度（適合率）の値は、スコア補正値算出部１６により該分類スコア範囲に属する分類の分類精度１１３に格納される。

図８に示すように、分類スコア範囲の中間値１１２と、該分類スコア範囲に属する分類の分類精度１１３は、理想的にはこれらの値が一致することが望ましいが、実際には値が乖離していることがほとんどである。そこで、次に述べるスコア補正部１８がこの乖離を補正し、分類スコアとして出力された値が、その分類が付与された時の分類精度に等しくなるように補正する。

図９は、スコア補正部１８の処理概要を説明する図であり、図２に示したグラフを詳細化した図である。スコア補正部１８は、まだ分類が付与されていない文書に対して分類された結果（分類とその分類スコア）に対して、学習用文書の分類結果から算出されたスコア補正値テーブル１７を参照して、分類スコアを補正する。なお、スコア補正部１８は、まだ分類が付与されていない分類対象文書８に対する分類結果に対して行われる処理であり、以下の処理を行うことにより分類スコアを補正する（処理の流れを図１３に示す）。

図１３は、スコア補正部１８の処理の一例を示すフローチャートである。

まず、スコア補正部１８は、スコア補正値テーブル１７を参照して、補正対象となる分類スコアに最も近くかつ分類スコアよりも小さい中間値１１２（Ｍ）と、当該分類スコアに最も近くかつ分類スコアよりも大きい中間値１１２（Ｎ）とをそれぞれ特定する（ステップ７０１）。図９に示す具体例では、分類スコアが０．６４である場合に、この分類スコアがどのように補正されるかについて示している。図８に示したスコア補正値テーブル１７における分類スコア範囲の中間値１１２において、０．６４に最も近くかつこれより小さい中間値Ｍは０．５５であり、大きい中間値Ｎは０．６５である。すなわち、０．６４は０．５５と０．６５の間にある。この時、中間値Ｍ（０．５５）における分類精度１１３は０．５０であり、中間値Ｎ（０．６５）における分類精度１１３は０．５９である。これを図９のグラフ上にプロットするとそれぞれ点Ａ，点Ｂとなる。

次に、スコア補正部１８は、中間値Ｍとその分類精度、および、中間値Ｎとその分類精度から、当該分類スコアに対応する分類精度を算出する（ステップ７０２）。具体的には、中間値Ｍの分類精度＋（中間値Ｎの分類精度−中間値Ｍの分類精度）／（中間値Ｎ−中間値Ｍ）という演算によって算出できる。これを図９のグラフ上で説明する。点Ａと点Ｂを直線で結び、分類スコア０．６４の場合の分類精度の値を直線ＡＢ上にプロットすると点Ｃとなる。すなわち、分類スコア０．６４の場合の分類精度（点ＣのＹ座標）は、点Ａ，点Ｂの値から得られる相対的割合から、０．５０＋（０．５９−０．５０）×（０．６４−０．５５）／（０．６５−０．５５）＝０．５８と算出することができる。

スコア補正部１８は、上式で求めた、分類スコアに対する分類精度の値を分類スコアとし、スコア補正後分類結果１９に格納する（ステップ７０３）。すなわち、補正前の分類スコア０．６４が、この処理によって０．５８に補正されたことになる。この０．５８という値は、点Ｃから直線Ｙ＝Ｘ上に向かって横軸に平行移動した点Ｄにおける分類精度になる。したがって、この０．５８を補正後の分類スコアとすることにより、分類スコアを分類精度と一致させることができる。

図１０は、スコア補正後分類結果１９のデータ構成を示す図である。スコア補正後分類結果１９は、入力文書番号１１０と、順位１１２と、順位に該当する分類１１１と、正規化前類似度１１３と、相対類似度１１４と、補正前の分類スコア１１５と、補正後の分類スコア１１６から構成される。
（他実施の形態）
次に、本発明の他実施の形態について述べる。

図８に示したスコア補正値テーブル１７において、分類スコア範囲に属する分類の分類精度の算出を、分類毎に分けて算出することが可能である。すなわち、図１４に示すように、スコア補正テーブル１７を、対象とする分類の数だけ個別に生成し、各テーブルがどの分類に関するものかをラベル付けしておく。スコア補正部１８における処理（図１３）においては、分類スコアを補正する対象となる分類に対応するスコア補正テーブル１７を選択するステップをステップ７０１の前に加えれば良い。本実施の形態により、分類スコアと分類精度の間の乖離の度合いが分類毎に異なっている場合でも、分類スコアを適切に補正することができる。

以上本発明の実施の形態を説明したが、上記実施の形態によれば、利用者が直感的に理解できる形で、文書分類結果の分類スコアを算出し、利用者に提示可能な文書分類方法およびこれを実施する文書分類装置を提供することができる。

また、上記実施の形態によれば、利用者は、算出した分類スコアを参照することにより、分類結果の妥当性をより効率良くチェックできるようになる。

さらに、上記実施の形態によれば、分類スコアの意味付けが明確であるため、一文書に付与する分類の数を機械的に設定するための、分類スコアの閾値の設定も容易になる。

なお、本発明は上記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。

本実施形態における文書分類装置の機能概要を説明する図である。本発明の実施形態における分類スコア補正処理の概要を説明する図である。本発明の実施形態における文書分類装置のハードウェア構成例を示すブロック図である。本発明の実施形態における類似文書検索結果１０、１１のデータ構成例を示す図である。本発明の実施形態における学習用文書−分類対応テーブル１３のデータ構成例を示す図である。本発明の実施形態における分類特定部１２で用いる中間データの構成例を示す図である。本発明の実施形態における分類結果１４またはスコア補正前分類結果１５のデータ構成例を示す図である。本発明の実施形態におけるスコア補正値テーブル１７のデータ構成例を示す図である。本発明の実施形態におけるスコア補正部１８の処理概要を説明する図である。本発明の実施形態におけるスコア補正後分類結果１９のデータ構成例を示す図である。本発明の実施形態における分類特定部１２の処理の一例を示すフローチャートである。本発明の実施形態におけるスコア補正値算出部１６の処理の一例を示すフローチャートである。本発明の実施形態におけるスコア補正部１８の処理の一例を示すフローチャートである。本発明の実施形態におけるスコア補正値テーブル１７の他のデータ構成例を示す図である。

符号の説明

１…分類対象文書集合、２…文書解析部、３…検索インデクス生成部、４…検索インデクス、５…単語辞書、６…文書選定部、７…学習用文書、８…分類対象文書、９…類似文書検索部、１０…学習用文書に対する類似文書検索結果、１１…分類対象文書に対する類似文書検索結果、１２…分類特定部、１３…学習用文書−分類対応テーブル、１４…学習用文書に対する分類結果、１５…分類対象文書に対するスコア補正前分類結果、１６…スコア補正値算出部、１７…スコア補正値テーブル、１８…スコア補正部、１９…分類対象文書に対するスコア補正後分類結果。

次に、スコア補正部１８は、中間値Ｍとその分類精度、および、中間値Ｎとその分類精度から、当該分類スコアに対応する分類精度を算出する（ステップ７０２）。具体的には、中間値Ｍの分類精度＋（中間値Ｎの分類精度−中間値Ｍの分類精度）×（分類スコアー中間値Ｍ）／（中間値Ｎ−中間値Ｍ）という演算によって算出できる。これを図９のグラフ上で説明する。点Ａと点Ｂを直線で結び、分類スコア０．６４の場合の分類精度の値を直線ＡＢ上にプロットすると点Ｃとなる。すなわち、分類スコア０．６４の場合の分類精度（点ＣのＹ座標）は、点Ａ，点Ｂの値から得られる相対的割合から、０．５０＋（０．５９−０．５０）×（０．６４−０．５５）／（０．６５−０．５５）＝０．５８と算出することができる。

Claims

既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置において、
前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納するスコア補正値算出部と、
前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正するスコア補正部とを備えた、
ことを特徴とする文書分類装置。
既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置における文書分類方法であって、
前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、
該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、
該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納し、
前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する、
ことを特徴とする文書分類方法。
既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置において、
前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類特定部で特定された分類毎および前記分類スコアの値の範囲毎に算出し、前記分類特定部で特定された分類毎に、前記分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納するスコア補正値算出部と、
前記分類対象文書に対して算出された分類に対応する前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正するスコア補正部とを備えた、
ことを特徴とする文書分類装置。
既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置における文書分類方法であって、
前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、
該分類時の分類精度を前記分類特定部で特定された分類毎および前記分類スコアの値の範囲毎に算出し、
前記分類特定部で特定された分類毎に、前記分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納し、
前記分類対象文書に対して算出された分類に対応する前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する、
ことを特徴とする文書分類方法。