JP2015056020A

JP2015056020A - 文書分類装置

Info

Publication number: JP2015056020A
Application number: JP2013188860A
Authority: JP
Inventors: 秀樹岩崎; Hideki Iwasaki; 後藤　和之; Kazuyuki Goto; 和之後藤; 博司平; Hiroshi Taira; 泰成宮部; Yasunari Miyabe; 松本　茂; Shigeru Matsumoto; 茂松本
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2013-09-11
Filing date: 2013-09-11
Publication date: 2015-03-23
Anticipated expiration: 2033-09-11
Also published as: JP6173848B2

Abstract

【課題】ユーザの観点に適した分類構造を生成し、ユーザの目的にあった分類と分析を可能とする。
【解決手段】文書分類装置１００は、分類の観点とするカテゴリと対象カテゴリの入力を受け、対象カテゴリに含まれる文書データからなる対象文書データ集合の特徴を表す単語を選択すると、分類の観点とするカテゴリの下位カテゴリを軸カテゴリとし、選択した単語毎に、軸カテゴリに含まれる対象文書データ集合における単語の出現頻度に基づく統計量を算出し、統計量を各軸カテゴリに対応する要素の値とする傾向ベクトルを生成する。そして、傾向ベクトルの類似性に基づいて単語をクラスタリングすると、クラスタ毎に、対象カテゴリを上位カテゴリとし、クラスタに属する単語をフィルタ語に用いた分類ルールの特徴語カテゴリを生成する。文書分類装置１００は、軸カテゴリを第１軸の分類項目とし、特徴語カテゴリを第２軸の分類項目とした２軸マップを表示させる。
【選択図】図１

Description

本発明の実施形態は、文書分類装置に関する。

近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された文書を計算機システムに大量に記憶管理して利用することが可能である。ここでいう文書とは、例えば、帳票、企画書、設計書、議事録といった業務文書や、マニュアル、特許、技術文献、法令、規程、ニュース記事、電子メール、ウェブページ、書籍などを指す。大量の文書を未整理のまま計算機のファイルシステムやデータベースに記憶するだけでは、どこにどのような情報が存在するかが分からなくなるため、せっかくの情報が利用できなくなるという問題が生じる。

このような問題に対し、文書を内容や用途に応じて分類・整理しておくことで、情報の有効活用や共有の促進を図るということが行われている。また、例えば日々作成され、蓄積される日報や週報などの報告書や、顧客から送付されてくる問い合わせ、製品等の不具合情報、特許・技術文献等の知的財産などを、分析・調査して、内容の傾向を把握したり、新たな知見を得たりするためにも、互いに内容が類似した文書同士をグルーピングすることが行われている。このような文書の分類作業を人手で行うには労力がかかるため、従来から、文書を自動的に分類する文書分類技術が開発されている。

文書分類技術の一例として、ユーザがあらかじめ分類の基準となるルールやカテゴリを用意せずに、分類対象の文書データ集合から、何らかの共通点や類似性のある文書同士のまとまり（すなわちクラスタ）を自動的に生成するクラスタリングがある。このクラスタリングには、代表的な方法が二つある。
クラスタリングの第一の方法では、各々の文書が持つ特徴を特徴ベクトルによって表し、文書同士の類似度を各文書の特徴ベクトル同士の類似度（例えば内積や余弦）によって定義する。そして、定義された類似度が大きい文書同士のまとまりとして、クラスタを生成する（例えば、特許文献１参照）。この方法を文書クラスタリングと呼ぶ。文書の特徴は、文書のテキスト中に出現する単語の頻度を用いて表現することが多く、この場合の特徴ベクトルは、単語ベクトルと呼ばれる。

クラスタリングの第二の方法は、文書中に出現する単語に着目する方法である。この方法では、分類対象の文書データ集合の中で、各単語が出現する文書数（すなわち出現頻度）や、複数の単語が共通に出現する文書の個数（すなわち共起頻度）に基づいて、まず、その文書の内容をよく表す重要な単語や、単語間の関連、あるいは出現傾向が類似した単語のまとまりなどを抽出する。この抽出結果に基づき、各々の単語と、これが出現する文書を対応付けることで、文書のまとまりを自動的に生成する（例えば、特許文献２参照）。この方法を、単語クラスタリングと呼ぶ。

また、分類構造を利用して、内容の傾向を把握したり、新たな知見を得たりするための分析方法として、２軸マップ（クロス集計とも呼ばれる）がある。この方法によれば、２つの分類軸を選び、各分類軸の項目である各カテゴリ同士で、文書の積集合（すなわち両カテゴリにともに分類されている文書データ集合）を求め、その文書数をマトリックス状に表示する。これにより、文書データ集合の全体像が把握でき、各カテゴリの相関関係などについての知見を得ることができる。２軸マップに関する従来技術としては、文書に含まれる項目の内容ごと（特許文書なら「要約」や「請求項」など）でクラスタリングを行い、そのクラスタリング結果を用いて２軸マップを行うものや（例えば、特許文献３参照）、互いに異なる観点や分類手法で作成した分類階層上で、ユーザが任意の部分を選択して２軸マップを行えるようにしたものがある(例えば、特許文献４参照）。

特開平７−３６８９７号公報特開２０００−２３１５６０号公報特開２００７−１０８８６７号公報特開２００４−８６３５０号公報

特許文献１や特許文献２のような単語クラスタリングや文書クラスタリングでは、ある文書集合に対して、単語の有意性や内容の類似性によって分類構造が生成されるが、その際、２軸マップで利用する分類軸は考慮されない。そのため、特許文献３のようにクラスタリング結果を用いて２軸マップを構成しても、必ずしもユーザの目的に合った分類のマップとはならない。例えば、ユーザが横軸を「出願年別」として特許文書集合の２軸マップを見たい場合には、ユーザは、時系列的な出願傾向を把握して技術の潮流を分析したいという要求があると考えられる。また、「出願人別」を横軸とした場合には、ユーザは、各社の強みや弱みといった技術傾向を分析したいという要求があると考えられる。このようなニーズに対しては、それぞれの場合に応じて２軸マップにおける分類軸を考慮してクラスタリングを行う必要があるが、従来技術ではそれができない。
そして、特許文献３や特許文献４では、クラスタリング結果やその時の分類構造を利用して２軸マップの表示を行うという１方向での処理である（ただし、特許文献４では分類軸の絞り込みは可能）。そのため、２軸マップ上で分析の目的やユーザの認識に合わせた分類構造を生成したいというニーズがあるものの、従来技術ではそれができない。

本発明が解決しようとする課題は、ユーザの観点に適した分類構造を生成し、ユーザの目的にあった分類と分析を可能とする文書分類装置を提供することである。

実施形態の文書分類装置は、文書記憶部と、カテゴリ記憶部と、カテゴリ操作部と、特徴度算出部と、傾向ベクトル生成部と、クラスタリング部と、カテゴリ生成処理部と、２軸マップ表示部とを具備する。文書記憶部は、文書データを記憶する。カテゴリ記憶部は、カテゴリの階層構造と、文書データをカテゴリへ分類する際の分類ルールとを記憶する。カテゴリ操作部は、分類の観点とするカテゴリと分類対象のカテゴリである対象カテゴリとの入力を受け、カテゴリ記憶部から分類の観点とするカテゴリの下位のカテゴリである軸カテゴリの集合を軸カテゴリ集合として読み出す。特徴度算出部は、文書記憶部に記憶されている文書データのうち、対象カテゴリの分類ルールを満たす文書データの集合を対象文書データ集合とし、対象文書データ集合に含まれる単語の特徴度を算出する。傾向ベクトル生成部は、特徴度算出部が算出した特徴度に基づいて対象文書データ集合の特徴を表す単語を選択し、選択した単語それぞれについて、当該軸カテゴリ集合中の各軸カテゴリの分類ルールを満たす対象文書データにおける当該単語の出現頻度に基づく統計量を算出し、前記統計量を当該軸カテゴリに対応する要素の値として設定した傾向ベクトルを生成する。クラスタリング部は、傾向ベクトル生成部が生成した傾向ベクトルの類似性に基づいて単語をクラスタリングする。カテゴリ生成処理部は、クラスタリング部によるクラスタリングの結果得られたクラスタごとに、対象カテゴリを上位のカテゴリとし、クラスタに属する単語をフィルタ語に用いた分類ルールを有する特徴語カテゴリを生成してカテゴリ記憶部に登録する。２軸マップ表示部は、軸カテゴリ集合に含まれる各カテゴリを第１軸の分類項目とし、カテゴリ生成処理部によって生成された特徴語カテゴリを第２軸の分類項目とした２軸マップの各セルに、文書記憶部に記憶されている文書データのうち、当該セルに対応した軸カテゴリの分類ルールと当該セルに対応した特徴語カテゴリの分類ルールとを満たす文書データの数を表す情報を表示させる。

実施形態に係る文書分類装置の構成を示すブロック図である。実施形態に係る文書記憶部に記憶される文書データの例を示す図である。実施形態に係るカテゴリ記憶部に記憶されるカテゴリデータの例を示す図である。実施形態に係るカテゴリ記憶部に記憶される特徴語カテゴリデータの例を示す図である。実施形態に係る特徴度データ記憶部に記憶される特徴度データの例を示す図である。実施形態に係る着目語設定部が内部に記憶する着目語リストデータの例を示す図である。実施形態に係る文書分類処理の流れを示すフローチャートである。実施形態に係る初期２軸マップを表示させる処理の流れを示すフローチャートである。実施形態に係る２軸マップ上のカテゴリ操作に対する処理の流れを示すフローチャートである。実施形態に係る特徴度を算出する処理の流れを示すフローチャートである。実施形態に係る着目語を設定する処理の流れを示すフローチャートである。実施形態に係る補正特徴度を求める処理の流れを示すフローチャートである。実施形態に係る特徴度データを取得する処理の流れを示すフローチャートである。実施形態に係る傾向ベクトルを求める処理の流れを示すフローチャートである。実施形態に係る特徴語クラスタリングの処理の流れを示すフローチャートである。実施形態に係る特徴語カテゴリを生成する処理の流れを示すフローチャートである。実施形態に係る２軸マップを表示させる処理の流れを示すフローチャートである。実施形態に係る特徴語カテゴリのフィルタ語の追加または削除の処理の流れを示すフローチャートである。実施形態に係るカテゴリ記憶部の初期状態として記憶されたカテゴリ構造の例を示す図である。実施形態に係る２軸マップ表示の実行画面の表示例を示す図である。実施形態に係る２軸マップの初期テーブルの表示例を示す図である。実施形態に係る２軸マップの初期表示例を示す図である。実施形態に係る特徴語クラスタリングの実行画面及び着目語の設定画面の表示例を示す図である。実施形態に係る特徴語クラスタリング実行後のカテゴリ構造の表示例を示す図である。実施形態に係る特徴語クラスタリング実行後の２軸マップの表示例を示す図である。実施形態に係るフィルタ語選択時の２軸マップの表示例を示す図である。実施形態に係る２軸マップにおける特徴語カテゴリの編集操作とその画面の表示例を示す図である。実施形態に係る特徴語カテゴリの編集操作後の２軸マップの表示例を示す図である。実施形態に係る２軸マップを折れ線グラフで表現したときの表示例を示す図である。

以下、本発明の実施形態について、図面を参照しながら説明する。
図１は、本発明の実施形態に係る文書分類装置１００の構成を示すブロック図である。同図に示すように、文書分類装置１００は、文書記憶部１、カテゴリ記憶部２、文書分類部３、特徴度データ記憶部４、及びユーザインターフェース部５を備えて構成される。

文書記憶部１は、文書分類装置１００による文書分類処理の対象となる文書データを格納する。文書記憶部１は、例えばファイルシステムや文書データベースなどによって実現される。もしくは計算機ネットワークによって接続した複数の記憶手段によって、文書記憶部１を構成してもよい。

カテゴリ記憶部２は、文書データの分類に用いられるカテゴリのデータを記憶する。カテゴリのデータは、カテゴリの名称や、カテゴリの階層構造、カテゴリの分類ルールを示す。カテゴリの階層構造は、カテゴリ間の上位と下位の関係を表す。分類ルールは、文書データをカテゴリに分類する際に用いられるルールであり、例えば、文書データの属性、作成日や作成者、ジャンルといった書誌情報などが利用される。もしくは、既存のクラスタリングによって文書データをカテゴリに分類してもよい。
さらに、カテゴリ記憶部２は、後述する文書分類部３によって生成される特徴語カテゴリのデータも記憶する。特徴語カテゴリは、文書を分類する際の観点となるカテゴリである軸カテゴリ集合に対して出現傾向が類似した特徴語を分類ルールとして分類されるカテゴリである。

後述する図１９では、カテゴリ記憶部２の初期状態として記憶されたカテゴリの階層構造の全体像を表す画面表示例を示しており、後述する図３では、カテゴリ記憶部２に記憶されるカテゴリのデータを示している。
図１９において、ユーザインターフェース部５（具体的には、後述する２軸マップ表示部５１）は、上位カテゴリが設定されていないカテゴリデータ３００のカテゴリ名３０３「ルート」（図３）を、ルート階層の「ルート」カテゴリ１６００として表示させる。また、ユーザインターフェース部５（後述する２軸マップ表示部５１）は、カテゴリデータ３００を上位カテゴリとするカテゴリデータ３１０、３２０、３３０のカテゴリ名３１３、３２３、３３３に設定されている「出願人別」、「出願年別」、「内容別」（図３）を、「ルート」カテゴリ１６００の下位階層である「出願人別」カテゴリ１６０１、「出願年別」カテゴリ１６０２、「内容別」カテゴリ１６０３として表示させる。このような全体像を表示させる前提で、以下の説明を行なう。

図１に示す文書分類部３は、軸カテゴリ集合と対象カテゴリを入力として受け取る。軸カテゴリ集合は、２軸マップにおいて一方の軸となるカテゴリの子カテゴリ（軸カテゴリ）の集合であり、上述したように、分類における観点とするカテゴリ集合である。なお、子カテゴリとは、あるカテゴリに対して１つ下位のカテゴリであり、軸カテゴリ集合に含まれる子カテゴリ（軸カテゴリ）の数は１以上である。対象カテゴリは、２軸マップにおける他方の軸となるカテゴリであり、文書分類の観点となるカテゴリに対して分類対象となるカテゴリである。すなわち、本実施形態では、軸カテゴリ集合を分類における観点として、この軸カテゴリ集合に基づいて、対象カテゴリに含まれる文書データを分類する。ここで、文書分類部３は、軸カテゴリに分類された文書データについて、対象カテゴリを用いて分類する。例えば、「内容別」カテゴリに分類された文書データ集合を年代別の観点で分類したい場合、対象カテゴリに「内容別」カテゴリを指定し、観点とするカテゴリには「年代別」カテゴリを指定する。このとき、軸カテゴリ集合は、「年代別」カテゴリの子カテゴリである「２００４年」，「２００５年」，「２００６年」，「２００７年」，「２００８年」の各集合（図１９におけるカテゴリ１６２１〜１６２５）となる。そして、この内容を２軸マップで表する場合は、一方の軸が「年代別」カテゴリとなり、他方の軸が「内容別」カテゴリとなる。
この分類に用いられる特徴語を決定するため、文書分類部３は、入力された対象カテゴリに分類される文書データ集合（対象文書データ集合）に出現する単語について特徴度を算出する。特徴度とは、単語が対象文書データ集合の特徴をどの程度表しているかを定量的に示す指標値である。なお、対象文書データ集合に含まれる文書データの数は、１以上である。また、文書分類部３は、対象カテゴリの子カテゴリとして、軸カテゴリ集合に対して出現傾向が類似した特徴語のグループに基づく特徴語カテゴリを生成する。

文書分類部３は、特徴度算出部３１、特徴度補正部３２、及び特徴語カテゴリ生成部３３を備えて構成される。
特徴度算出部３１は、対象カテゴリに分類された文書データの集合である対象文書データ集合に出現する単語について、所定の文書データ集合における出現頻度の統計的有意性に基づき特徴度を算出し、特徴度データ記憶部４に記憶する。
特徴度補正部３２は、後述するユーザインターフェース部５の着目語設定部５３から、ユーザが選択した着目語を複数集めた着目語集合を入力として受取る。着目語とは、対象カテゴリの子カテゴリとして特徴語カテゴリを生成する際にユーザが着目対象として選択した単語である。特徴度補正部３２は、特徴度データ記憶部４に記憶された各単語の特徴度を、該単語と着目語集合との共起度に基づいて補正する。

特徴語カテゴリ生成部３３は、軸カテゴリ集合に対して出現傾向の類似した特徴語のグループに基づいて特徴語カテゴリを生成し、生成した特徴語カテゴリのデータをカテゴリ記憶部２に記憶する。特徴語カテゴリ生成部３３は、傾向ベクトル生成部３４、クラスタリング部３５、及びカテゴリ生成処理部３６を備えて構成される。傾向ベクトル生成部３４は、特徴度データ記憶部４に記憶された特徴度が所定の値より大きい単語の集合を特徴語集合とする。傾向ベクトル生成部３４は、特徴語集合に含まれる各単語について、対象文書データ集合中での各軸カテゴリにおける出現頻度を算出し、算出した各軸カテゴリにおける出現頻度に基づく統計量を、その軸カテゴリに対応した要素の値とする傾向ベクトルを生成して特徴度データ記憶部４に記憶する。クラスタリング部３５は、生成した傾向ベクトルの類似性に基づきクラスタリングを行い、関連の強い単語のグループである特徴語クラスタを抽出する。カテゴリ生成処理部３６は、特徴語クラスタに含まれる単語である特徴語をフィルタ語とし、そのフィルタ語を分類の条件とする特徴語カテゴリを生成する。カテゴリ生成処理部３６は、生成した特徴語カテゴリのデータをカテゴリ記憶部２に記憶する。

特徴度データ記憶部４は、対象文書データ集合に含まれる各単語についての特徴度データを格納する手段である。特徴度データは、文書分類部３によって生成された特徴度と、軸カテゴリ集合に対する傾向ベクトルとを含む。

ユーザインターフェース部５は、２軸マップの横軸となるカテゴリ（以下、「横軸カテゴリと記載する）と縦軸となるカテゴリ（以下、「縦軸カテゴリ」と記載する）との２つのカテゴリの入力を受け、ユーザに対して２軸マップを提示する。実際のこの提示の際には、インターネットを介して通信し、パーソナルコンピュータ（ＰＣ）のディスプレイ上に表されたブラウザなどの汎用的な機器を用いることが多い。また、ユーザインターフェース部５は、ユーザからの特徴語クラスタリングの実行要求や、着目語集合の設定、特徴語カテゴリの編集操作を受け付ける。ユーザインターフェース部５は、例えば、グラフィカル・ユーザ・インタフェース（以下、「ＧＵＩ」と記載する）によって実現される。

ユーザインターフェース部５は、２軸マップ表示部５１、カテゴリ操作部５２、及び着目語設定部５３を備えて構成される。
２軸マップ表示部５１は、横軸カテゴリと縦軸カテゴリの２つのカテゴリの入力を受け、それらカテゴリの下位カテゴリをそれぞれ行と列の項目とした２軸マップをパーソナルコンピュータのディスプレイなどに表示させる（例えば、後述する図２２や図２５）。２軸マップ表示部５１は、パーソナルコンピュータ（ＰＣ）のディスプレイを通じて２軸マップを表示させる際、２軸マップの各セルに、そのセルが対応する行の項目のカテゴリと列の項目のカテゴリとの両カテゴリに分類された文書データの数に応じたグラフを表示させる。さらに、２軸マップ表示部５１は、２軸マップ上において、特徴語カテゴリのタイトル行のセル（例えば、後述する図２５のセル２１０１）に、該特徴語カテゴリのフィルタ語を表示させる。また、２軸マップ表示部５１は、２軸マップ上でユーザが選択したフィルタ語の入力を受けると、フィルタ語が選択された行について、横軸カテゴリの各下位カテゴリと、フィルタ語が選択された行の特徴語カテゴリとの両カテゴリに分類された文書データ集合中で、選択されたフィルタ語を含む文書データの数を上記のグラフとは区別して表示させる（例えば、後述する図２６）。

カテゴリ操作部５２は、２軸マップ上でユーザからの特徴語クラスタリングの実行要求を受け付け、この実行要求を文書分類部３に出力する。また、カテゴリ操作部５２は、２軸マップ上でユーザによる特徴語カテゴリの選択を受け、選択された特徴語カテゴリの特徴語を表示させる（例えば、後述する図２７の特徴語追加画面２３１０）。さらに、カテゴリ操作部５２は、ユーザから特徴語カテゴリに対するフィルタ語の追加・削除といった編集操作を受け付け、カテゴリ記憶部２に記憶されている該特徴語カテゴリのデータをその編集操作に応じて更新する。

着目語設定部５３は、分類にあたり着目する複数の単語を着目語集合としてユーザから受け付けて、文書分類部３に出力する。文書分類部３は、着目語設定部５３から着目語集合の入力を受け、特徴度データ記憶部４に記憶された各単語の特徴度データに対して特徴度の補正を行い、補正された特徴度に基づいて選択した単語を特徴語として特徴語カテゴリを生成する。これにより、文書分類部３は、生成される特徴語カテゴリと、カテゴリ操作部５２によって提示されるカテゴリの特徴語とを、ユーザが着目した単語に則したものとすることができる。

文書分類装置１００は上述したように構成され、例えばパーソナルコンピュータ（ＰＣ）によって実現される。ＰＣは、例えばＣＰＵ（central processing unit）、メモリ、ハードディスクドライブ（ＨＤＤ）、液晶ディスプレイ、キーボード、マウス等で構成される。

図２は、文書記憶部１に記憶される文書データの一例を示す図である。文書記憶部１には複数の文書データが記憶される。各文書データは、図２（ａ）の文書データ２００ａに示すように、ユニークな識別子である文書番号２０１のデータを含む。
さらに、文書データ２００ａは、その目的や形式に従った属性のデータを含む。例えば、図２（ａ）は、特許情報を記述した文書の例を示しており、出願日２０３、出願人２０４などの属性のデータを含む。また、文書データ２００ａは、文書のテキストデータ、すなわち、日本語や英語などの自然言語で記述されたデータとして、文書名２０２、本文２０５などのテキストを含む。加えて、文書データ２００ａは、その文書データ２００ａに含まれる各単語の出現数（出現頻度ｔｆ）を要素とする単語ベクトル２０６のデータを保持する。この単語ベクトル２０６は、文書分類部３によって算出される。なお、単語ベクトル２０６は、文書データ２００ａと対応する形で、元の文書データが保持されている文書データベースとは異なるデータベースに保持されてもよい。

図２（ｂ）に示す文書データ２００ｂは、図２（ａ）に示す文書データ２００ａをＸＭＬ（extensible markup language）形式で記述した場合の例である。この場合、文書データ２００ｂには、文書データ２００ａにおける文書番号、各属性、各テキスト、単語ベクトルに相当するデータが、ＸＭＬの要素（タグ）や属性を用いて記述される。

図３は、カテゴリ記憶部２に記憶されるカテゴリデータの一例を示す図である。なお、後述する図１９に、カテゴリの階層構造の一例を示している。
図３においては、カテゴリデータ３００、３１０、３２０、３３０、３４０、３５０の６つの例を示している。各カテゴリデータはそれぞれ、ユニークな識別子であるカテゴリ番号３０１、３１１、３２１、３３１、３４１、３５１のデータを含む。ここでは、文書記憶部１に記憶された文書データ２００ａ（または文書データ２００ｂ）の属性を示す出願人２０４、出願日２０３のそれぞれにより、出願人別、出願年別にカテゴリが作成されている。

本実施形態の文書分類装置１００では、複数のカテゴリによってツリー形式の階層構造を構成する（例えば、後述する図１９）。そのため、各カテゴリデータはそれぞれ、カテゴリの上位と下位の関係を表すデータとして上位カテゴリ３０２、３１２、３２２、３３２、３４２、３５２のデータを有する。ただし、カテゴリデータ３００は階層構造のルートにあたるカテゴリを表すため、上位カテゴリ３０２には「（なし）」が設定される。また、「出願人別」カテゴリの上位カテゴリは「ルート」カテゴリである。そのため、「出願人別」カテゴリに対応したカテゴリデータ３１０の上位カテゴリ３１２には、「ルート」カテゴリに対応したカテゴリデータ３００のカテゴリ番号３０１の設定値「Ｃ０００」が設定される。また、各カテゴリデータ３００、３１０、３２０、３３０、３４０、３５０はそれぞれ、カテゴリ名３０３、３１３、３２３、３３３、３４３、３５３のデータを有する。

また、カテゴリの分類の基準は分類ルール３０４、３１４、３２４、３３４、３４４、３５４に記述される。例えば、「ルート」カテゴリのカテゴリデータ３００は、階層構造のルートのカテゴリを表すため、その分類基準である分類ルール３０４は、「ｔｒｕｅ（恒真）」とする。分類ルール３０４が「ｔｒｕｅ（恒真）」であるとは、全ての文書データが条件を満足するというルールが設定されていることを示す。また、例えば、カテゴリデータ３４０の分類ルール３４４は、「．／出願人＝”Ａ社”」である。この分類ルール３４４は、文書記憶部１に記憶された文書データ２００ａが持つ属性の出願人２０４が「Ａ社」であることを条件としたルールである。

なお、分類ルール３０４、３１４、３２４、３３４、３４４、３５４は、ＸＭＬ形式で記述した文書データ２００ｂについての条件の記述、すなわち、ＸＱｕｅｒｙ（もしくはＸＰａｔｈ）と呼ばれる問い合わせに言語を用いて記述した例である。分類ルール３０４、３１４、３２４、３３４、３４４、３５４の記述形式は、文書記憶部１の実現方法や、文書データの形式に応じて定めればよく、例えばＳＱＬなどを用いてもよい。

カテゴリデータ３５０の分類ルール３５４もＸＱｕｅｒｙの条件式を用いて記述した例であり、文書データの「出願日」属性が「２００８年」であることを条件としたルールである。この分類ルールは、カテゴリの階層構造に対して、ＡＮＤ条件として作用する。例えば、図３に示す例とは異なるが、カテゴリデータ３４０に示す「Ａ社」カテゴリの下位カテゴリとして、カテゴリデータ３５０に示す「２００８年」カテゴリが存在した場合を想定する。この場合、「２００８年」カテゴリに分類される文書データは、「Ａ社」カテゴリの分類ルール「．／出願人=”Ａ社”」と、その下位カテゴリである「２００８年」カテゴリの分類ルール「．／出願日＞＝”２００８／０１／０１” ａｎｄ．／出願日＜＝”２００８／１２／３１”」とのＡＮＤ条件「（．／出願人＝”Ａ社”）ａｎｄ（．／出願日＞＝”２００８／０１／０１” ａｎｄ．／出願日＜＝”２００８／１２／３１）」にマッチする文書データ、すなわち、出願人が「Ａ社」であり、かつ、出願年が「２００８年」の文書データとなる。

図４は、文書分類部３によって生成される特徴語カテゴリのカテゴリデータである特徴語カテゴリデータの一例である。
特徴語カテゴリデータは、図３に示す他のカテゴリデータと同様にカテゴリ記憶部２に格納される。図４には、特徴語カテゴリデータ４００、４１０の２つの例を示している。特徴語カテゴリデータ４００、４１０はそれぞれ、図３に示したような他のカテゴリデータと同様に、カテゴリ番号４０１、４１１、上位カテゴリ４０２、４１２、カテゴリ名４０３、４１３、分類ルール４０４、４１４のデータを含む。さらに、特徴語カテゴリデータ４００、４１０は、カテゴリ生成処理部３６によって抽出された特徴語クラスタに含まれる特徴語を示すフィルタ語４０５、４１５のデータを有する。

特徴語カテゴリデータに含まれる分類ルール４０４、４１４は、カテゴリ生成処理部３６によって、フィルタ語４０５、４１５に基づいて生成される。例えば、カテゴリ生成処理部３６は、文書データのテキスト情報にフィルタ語４０５、４１５が含まれることを示す条件を分類ルールとして生成する。同図に示す特徴語カテゴリデータ４００のフィルタ語４０５には、「分類」と「知識」と「共有」が設定されている。従って、特徴語カテゴリデータ４００の分類ルール４０４には、文書データ２００ａのテキスト情報である本文２０５にこれらのフィルタ語４０５が含まれるという条件、つまり、「ｃｏｎｔａｉｎｓ（．／本文，“分析”）ａｎｄｃｏｎｔａｉｎｓ（．／本文，“知識”）ａｎｄｃｏｎｔａｉｎｓ（．／本文，“共有”）」が設定される。

図５は、文書分類部３によって生成され、特徴度データ記憶部４に格納される特徴度データの一例である。同図に示す特徴度データ５００−１、５００−２、…は、文書分類部３において対象文書データ集合から抽出された各単語に対応し、単語５１０と、文書頻度５０１と、特徴度５０２と、補正特徴度５０３と、軸カテゴリ（カテゴリ番号）に対する頻度ベクトル／傾向ベクトル５０４のデータを有する。なお、特徴度データ５００−１、５００−２、…を総称して、特徴度データ５００と記載する。

文書頻度５０１は、対象文書データ集合中で単語５１０が出現する文書データの数である文書数（文書頻度ｄｆ）を示す。特徴度５０２は、特徴度算出部３１によって算出される特徴度を示す。補正特徴度５０３は、ユーザから指定された着目語集合に基づき特徴度補正部３２が特徴度を補正した値を示す。軸カテゴリ（カテゴリ番号）に対する頻度ベクトル／傾向ベクトル５０４は、頻度ベクトル５１１及び傾向ベクトル５１２のデータを有する。特徴度データ５００−ｉ（ｉ＝１、２、…）の頻度ベクトル５１１及び傾向ベクトル５１２をそれぞれ、頻度ベクトル５１１−ｉ及び傾向ベクトル５１２−ｉとする。頻度ベクトル５１１は、対象文書データ集合と軸カテゴリ集合中の各軸カテゴリとの共通集合中に単語５１０が出現する文書データの数である文書数（ｃｆ）を要素（成分）の値とする。傾向ベクトル５１２は、対象文書データ集合に対する前述の共通集合中における単語５１０の出現割合（ｃｐ）を各要素の値とする。ただし、傾向ベクトル生成部３４は、補正特徴度が所定の値以下の単語は、特徴語クラスタの対象外とするため、頻度ベクトルと傾向ベクトルを求めない。図５においては、単語５１０「探索」と「メール」とが特徴語クラスタの対象外となった例であり、これらの単語の特徴度データ５００−３、５００−５の頻度ベクトル５１１−３、５１１−５と傾向ベクトル５１２−３、５１２−５は空となる。

図６は、着目語設定部５３が内部に記憶する着目語リストデータの一例を示す図である。図６に示す着目語リストデータ６００の着目語候補６０１には、２軸マップ上でユーザが着目語として選択したフィルタ語、もしくは、ユーザが着目語として入力した文字列のリストが設定される。着目語候補６０１には、文書分類部３において実際に着目語として適用するか否かを示すフラグである着目語設定６０２が付与される。本実施形態では、着目語設定６０２が「１」ならば着目語として適用し、「０」ならば非適用であることを示す。

以下、図７〜図２９を参照して、本発明の実施形態に係る文書分類装置が行う文書分類処理の一例を説明する。
図７は、本実施形態の文書分類装置１００が行う文書分類処理の流れの一例を示すフローチャートである。まず、ユーザインターフェース部５の２軸マップ表示部５１は、ユーザの操作により、２軸マップの横軸カテゴリ及び縦軸カテゴリの入力を受け、初期２軸マップ表示処理を行う（ステップＳ１）。初期２軸マップ表示処理において、２軸マップ表示部５１は、カテゴリ記憶部２から横軸カテゴリの子カテゴリの集合と縦軸カテゴリの子カテゴリの集合を取得する。２軸マップ表示部５１は、横軸カテゴリの子カテゴリ（以下、「横軸子カテゴリ」と記載する）を横軸の各項目とし、縦軸カテゴリの子カテゴリ（以下、「縦軸子カテゴリ」と記載する）を縦軸の各項目とした２軸マップを表示させる。なお、横軸カテゴリに子カテゴリがない場合は、横軸カテゴリを横軸の項目とし、縦軸カテゴリに子カテゴリがない場合は、縦軸カテゴリを縦軸の項目とする（例えば、後述する図２２）。

続いて、カテゴリ操作部５２は、ユーザからクラスタリング要求と対象カテゴリの入力を受ける（ステップＳ２）。例えば、ユーザは、ステップＳ１において表示させた２軸マップの横軸カテゴリ、または、縦軸カテゴリの中から対象カテゴリを選択する。カテゴリ操作部５２は、入力された対象カテゴリと軸カテゴリ集合を文書分類部３に出力する。軸カテゴリ集合は、対象カテゴリとして選択されなかった横軸カテゴリの下位カテゴリの集合、または、縦軸カテゴリの下位カテゴリの集合である。文書分類部３の特徴度算出部３１は、対象カテゴリに分類された文書データの集合である対象文書データ集合から、所定の品詞であり、かつ、不要語ではない単語を抽出して特徴度を算出し、特徴度データ記憶部４に書き込む（ステップＳ３）。カテゴリ操作部５２は、ユーザから着目語の入力を受け（例えば、後述する図２３の着目語設定フォーム１９１０）、文書分類部３に出力する（ステップＳ４）。文書分類部３の特徴度補正部３２は、ステップＳ３において特徴度データ記憶部４に記憶された各単語の特徴度を、対象文書データ集合における該単語と着目語集合との共起度に基づいて補正する（ステップＳ５）。

傾向ベクトル生成部３４は、補正された特徴度が所定の値より大きい単語について傾向ベクトルを生成し、特徴度データ記憶部４に記憶する（ステップＳ６）。クラスタリング部３５は、傾向ベクトルの類似性に基づき単語のクラスタリングを行い、関連の強い単語のグループである特徴語クラスタを抽出する（ステップＳ７）。カテゴリ生成処理部３６は、特徴語クラスタに含まれる単語である特徴語をフィルタ語とし、そのフィルタ語を分類の条件とする特徴語カテゴリを生成する。カテゴリ生成処理部３６は、生成した特徴語カテゴリのデータ（例えば、図４の特徴語カテゴリデータ４００、４１０）をカテゴリ記憶部２に記憶する（ステップＳ８）。これにより、カテゴリ構造が更新される（例えば、後述する図２４）。

２軸マップ表示部５１は、軸カテゴリ集合と、ステップＳ８において生成された特徴語カテゴリ集合とを２軸とする２軸マップを表示させる（ステップＳ９）。このとき、２軸マップ表示部５１は、特徴語カテゴリそれぞれのフィルタ語を表示させる（例えば、後述する図２５）。

カテゴリ操作部５２は、ユーザからのフィルタ語の追加や削除などの編集操作を受け付け（例えば、後述する図２７）、カテゴリ記憶部２に記憶されている特徴語カテゴリデータを更新する（ステップＳ１０）。２軸マップ表示部５１は、軸カテゴリ集合と、ステップＳ１０において更新された特徴語カテゴリデータに基づく特徴語カテゴリ集合とを２軸とする２軸マップ（例えば、後述する図２８）を表示させる（ステップＳ１１）。

続いて、図７の各処理ステップにおける詳細な処理について説明する。
図８は、初期２軸マップを表示させる処理の流れを示すフローチャートである。同図に示すフローチャートは、図７のステップＳ１における初期２軸マップ表示処理の詳細な処理の一例を示す。

最初に、２軸マップ表示部５１は、ユーザによる２軸マップの横軸カテゴリｘＡｘｉｓＣａｔと、縦軸カテゴリｙＡｘｉｓＣａｔとの入力を受ける（ステップＳ１００１）。この入力のため、本実施形態では、２軸マップ表示部５１は、カテゴリ記憶部２に記憶されているカテゴリデータ及び特徴語カテゴリデータに基づいて、カテゴリ構造を表す画面を表示させる。ここでは、図４に示す特徴語カテゴリデータ４００、４１０がまだ生成されていないものとする。

図１９は、カテゴリ記憶部２の初期状態として記憶されたカテゴリ構造の画面表示例を示す図である。２軸マップ表示部５１は、上位カテゴリが設定されていないカテゴリデータ３００のカテゴリ名３０３「ルート」を、ルート階層の「ルート」カテゴリ１６００として表示させる。さらに、２軸マップ表示部５１は、カテゴリデータ３００のカテゴリ番号３０１「Ｃ０００」が上位カテゴリに設定されているカテゴリデータ３１０、３２０、３３０を特定する。２軸マップ表示部５１は、これらカテゴリデータ３１０、３２０、３３０のカテゴリ名３１３、３２３、３３３に設定されている「出願人別」、「出願年別」、「内容別」を、「ルート」カテゴリ１６００の下位階層である「出願人別」カテゴリ１６０１、「出願年別」カテゴリ１６０２、「内容別」カテゴリ１６０３として表示させる。

さらに、２軸マップ表示部５１は、カテゴリデータ３１０のカテゴリ番号３０１「Ｃ０００１」が上位カテゴリに設定されているカテゴリデータを特定する。２軸マップ表示部５１は、特定したカテゴリデータが示すカテゴリ名「Ａ社」、「Ｂ社」、「Ｃ社」、「Ｄ社」、「Ｅ社」を、「出願人別」カテゴリ１６０１の下位階層である「Ａ社」カテゴリ１６１１、「Ｂ社」カテゴリ１６１２、「Ｃ社」カテゴリ１６１３、「Ｄ社」カテゴリ１６１４、「Ｅ社」カテゴリ１６１５として表示させる。

同様に、２軸マップ表示部５１は、カテゴリデータ３２０のカテゴリ番号３２１「Ｃ０００２」が上位カテゴリに設定されているカテゴリデータを特定する。２軸マップ表示部５１は、特定したカテゴリデータが示すカテゴリ名「２００４年」、「２００５年」、「２００６年」、「２００７年」、「２００８年」を、「出願年別」カテゴリ１６０２の下位階層である「２００４年」カテゴリ１６２１、「２００５年」カテゴリ１６２２、「２００６年」カテゴリ１６２３、「２００７年」カテゴリ１６２４、「２００８年」カテゴリ１６２５として表示させる。「Ａ社」カテゴリ１６１１及び「２００８年」カテゴリ１６２５はそれぞれ、図３に示すカテゴリデータ３４０、３５０に対応する。
そして、カテゴリデータ３３０のカテゴリ番号３３１「Ｃ０００３」を上位カテゴリとするカテゴリデータがないため、２軸マップ表示部５１は、「内容別」カテゴリ１６０３には下位カテゴリを表示させない。

さらに、２軸マップ表示部５１は、カテゴリ記憶部２に記憶されている各カテゴリのカテゴリデータ（または特徴語カテゴリデータ）から分類ルールを読み出す。２軸マップ表示部５１は、読み出した分類ルールを用いて各カテゴリに分類された文書データ数をカウントし、そのカウント数を表示させる。なお、２軸マップ表示部５１は、各カテゴリのカテゴリデータ（または特徴語カテゴリデータ）に、当該カテゴリに分類された文書データの文書番号を対応付けて記憶しておいてもよい。

続いて、図１９の表示を用いて横軸カテゴリｘＡｘｉｓＣａｔと、縦軸カテゴリｙＡｘｉｓＣａｔとを入力する方法の一例について説明する。
図２０は、２軸マップ表示の実行画面の表示例を示す図であり、図１９の表示を用いて横軸カテゴリｘＡｘｉｓＣａｔと縦軸カテゴリｙＡｘｉｓＣａｔを入力する場合の表示例を示す。まず、ユーザは２軸マップ表示部５１が表示させたカテゴリ構造に対して、２軸マップにおいて横軸と縦軸にする２つのカテゴリを選択する。ここでは、ユーザは図２０において「出願年別」カテゴリ１６０２と「内容別」カテゴリ１６０３を選択する。

２軸マップ表示部５１は、選択された２つのカテゴリの入力を受けると、これら２つのカテゴリのうち、いずれを分類観点である横軸カテゴリｘＡｘｉｓＣａｔとするかを選択させる画面１７１０を表示させる。ユーザは、分類観点とするカテゴリのラジオボタン１７１１を選択して実行ボタン１７１２を押す。これにより、２軸マップ表示部５１は、横軸カテゴリｘＡｘｉｓＣａｔとして、ユーザが選択した「出願年別」カテゴリ１６０２の入力を受ける。縦軸カテゴリｙＡｘｉｓＣａｔは、ユーザが選択しなかった「内容別」カテゴリ１６０３となる。

上記のようにして、２軸マップ表示部５１は、ユーザが選択した横軸カテゴリｘＡｘｉｓＣａｔと、縦軸カテゴリｙＡｘｉｓＣａｔの入力を受ける。なお、本実施形態では、２軸マップへの入力方法として図１９及び図２０に示すようなＧＵＩを使用した例を示したが、２軸マップを表示させる上で、カテゴリ記憶部２が記憶しているカテゴリデータまたは特徴語カテゴリデータが示すカテゴリのうちいずれを、横軸カテゴリｘＡｘｉｓＣａｔ、および縦軸カテゴリｙＡｘｉｓＣａｔとするかを入力できればよい。そのため、ＧＵＩの使用に限らず、コンピュータシステムのコマンドラインからの入力としてもよい。

図８において、２軸マップ表示部５１は、カテゴリ記憶部２に記憶されているカテゴリデータ及び特徴語カテゴリデータに基づいて、横軸カテゴリｘＡｘｉｓＣａｔの子カテゴリの集合である横軸子カテゴリ集合ｘＣａｔｓと、縦軸カテゴリｙＡｘｉｓＣａｔの子カテゴリの集合である縦軸子カテゴリ集合ｙＣａｔｓを取得する（ステップＳ１００２）。なお、横軸カテゴリｘＡｘｉｓＣａｔの子カテゴリを横軸子カテゴリｘＣａｔとし、縦軸カテゴリｙＡｘｉｓＣａｔの子カテゴリを縦軸子カテゴリｙＣａｔとする。横軸子カテゴリｘＣａｔは、横軸カテゴリｘＡｘｉｓＣａｔのカテゴリデータまたは特徴語カテゴリデータのカテゴリ番号が上位カテゴリに設定されているカテゴリデータまたは特徴語カテゴリデータに対応する。同様に、縦軸子カテゴリｙＣａｔは、縦軸カテゴリｙＡｘｉｓＣａｔのカテゴリデータまたは特徴語カテゴリデータのカテゴリ番号が上位カテゴリに設定されているカテゴリデータまたは特徴語カテゴリデータに対応する。

図２０に示す例の場合、２軸マップ表示部５１は、横軸子カテゴリ集合ｘＣａｔｓとして、横軸カテゴリｘＡｘｉｓＣａｔである「出願年別」カテゴリ１６０２の子カテゴリの集合｛「２００４年」カテゴリ１６２１、「２００５年」カテゴリ１６２２、「２００６年」カテゴリ１６２３、「２００７年」カテゴリ１６２４、「２００８年」カテゴリ１６２５｝を取得する。横軸子カテゴリｘＣａｔは、「出願年別」カテゴリ１６０２に対応したカテゴリデータ３２０のカテゴリ番号３２１が、上位カテゴリに設定されているカテゴリデータに対応する。また、縦軸カテゴリｙＡｘｉｓＣａｔである「内容別」カテゴリ１６０３は子カテゴリを持たないため、２軸マップ表示部５１は、縦軸子カテゴリ集合ｙＣａｔｓとして空集合を取得する。つまり、「内容別」カテゴリ１６０３に対応したカテゴリデータ３３０のカテゴリ番号３３１が上位カテゴリに設定されているカテゴリデータや特徴語カテゴリデータは、カテゴリ記憶部２に記憶されていない。

２軸マップ表示部５１は、縦軸カテゴリｙＡｘｉｓＣａｔと、縦軸子カテゴリ集合ｙＣａｔｓに含まれる各縦軸子カテゴリｙＣａｔとを行とし、横軸子カテゴリ集合ｘＣａｔｓに含まれる各横軸子カテゴリｘＣａｔを列として２軸マップ初期テーブルを作成し、表示させる（ステップＳ１００３）。

図２１は、ステップＳ１００３で作成される２軸マップ初期テーブル１８００を示す。２軸マップ初期テーブル１８００は、カテゴリを表示させるタイトル行及びタイトル列も含むため、行数が（１＋縦軸カテゴリ数＋縦軸子カテゴリ数）、列数が（１＋横軸子カテゴリ数）のテーブルである。本実施形態では縦軸子カテゴリがないために行数が（１＋縦軸カテゴリ数）となっている。同様に横軸子カテゴリがない場合、列数は（１＋横軸カテゴリ数）となる。２軸マップ初期テーブル１８００の１行目（セル１８０２を含む行）がタイトル行であり、１列目（セル１８０１を含む行）がタイトル列である。

図８において、２軸マップ表示部５１は、作成した２軸マップ初期テーブル１８００における全てのセル（以下、「ｃｅｌｌ」と記載する）を１つずつ選択し、選択したｃｅｌｌについてステップＳ１００５〜ステップＳ１０１０の処理を繰り返す（ステップＳ１００４−ＮＯ）。

まず、２軸マップ表示部５１は、ｃｅｌｌが先頭行（１行目）もしくは先頭列（１列目）であるか否か判定する（ステップＳ１００５）。ｃｅｌｌが先頭行（１行目）もしくは先頭列（１列目）であると判定した場合（ステップＳ１００５−ＹＥＳ）、２軸マップ表示部５１は、ステップＳ１００６〜ステップＳ１００８の処理を行う。ステップＳ１００６〜ステップＳ１００８の処理では、先頭行や先頭列をテーブルのタイトル行もしくはタイトル列として、ｃｅｌｌに対応するカテゴリのカテゴリ名とフィルタ語を表示させる。

すなわち、２軸マップ表示部５１は、処理中のｃｅｌｌが先頭行もしくは先頭列の場合、当該ｃｅｌｌに対応するカテゴリｃａｔ（縦軸カテゴリｙＡｘｉｓＣａｔ、縦軸子カテゴリｙＣａｔ、または、横軸子カテゴリｘＣａｔ）のカテゴリ名を表示させる（ステップＳ１００６）。２軸マップ表示部５１は、カテゴリ名を、ｃｅｌｌに対応したカテゴリのカテゴリデータまたは特徴語カテゴリデータから読み出す。さらに、２軸マップ表示部５１は、ｃｅｌｌに対応するカテゴリｃａｔがフィルタ語集合ｆｉｌｔｅｒｓを持つか否か判定する（ステップＳ１００７）。具体的には、２軸マップ表示部５１は、カテゴリｃａｔが特徴語カテゴリデータに対応しており、かつ、フィルタ語が設定されているか否かによりフィルタ語集合ｆｉｌｔｅｒｓを持つか否かにより判定する。

カテゴリｃａｔがフィルタ語集合ｆｉｌｔｅｓを持つと判定した場合（ステップＳ１００７−ＹＥＳ）、２軸マップ表示部５１は、フィルタ語集合ｆｉｌｔｅｒｓに含まれるフィルタ語をｃｅｌｌに表示させる（ステップＳ１００８）。このフィルタ語集合ｆｉｌｔｅｒｓは、ｃｅｌｌに対応したカテゴリｃａｔの特徴語カテゴリデータに設定されているフィルタ語の集合である。カテゴリｃａｔがフィルタ語集合ｆｉｌｔｅｓを持たないと判定した場合（ステップＳ１００７−ＮＯ）、あるいは、ステップＳ１００８の処理の後、２軸マップ表示部５１は、ステップＳ１００４に戻り、未選択のｃｅｌｌを選択して処理を繰り返す。

ステップＳ１００５において、ｃｅｌｌが先頭行（１行目）でも先頭列（１列目）でもないと判定した場合（ステップＳ１００５−ＮＯ）、２軸マップ表示部５１は、ｃｅｌｌの行に対応する縦軸カテゴリｙＡｘｉｓＣａｔまたは縦軸子カテゴリｙＣａｔと、ｃｅｌｌの列に対応する横軸子カテゴリｘＣａｔとの両方に分類された文書データの数である文書数ｄｎを求める（ステップＳ１００９）。

文書数ｄｎは、文書データがＸＭＬの場合は、ＸＱｕｅｒｙにおいて、条件式の積を用いることで求めることができる。例えば、後述する図２２のセル１８０３の場合、対応する縦軸カテゴリｙＡｘｉｓＣａｔ＝「内容別」カテゴリの分類ルールと横軸子カテゴリｘＣａｔ＝「２００４年」カテゴリの分類ルールとの論理積を満たす文書データの数をカウントする。

「内容別」カテゴリのカテゴリデータ３３０に設定されている分類ルール３３４は「ｔｒｕｅ」であり、その上位カテゴリ「ルート」カテゴリデータ３００に設定されている分類ルール３０４は「ｔｒｕｅ」である。よって、縦軸カテゴリｙＡｘｉｓＣａｔ「内容別」カテゴリの分類ルールは、「（ｔｒｕｅ）ａｎｄ（ｔｒｕｅ）」である。

一方、「２００４年」カテゴリのカテゴリデータに設定されている分類ルールは「．／出願日＞＝”２００４／０１／０１” ａｎｄ．／出願日＜＝”２００４／１２／３１”」であり、その上位カテゴリ「ルート」のカテゴリデータ３００に設定されている分類ルール３０４は「ｔｒｕｅ」である。よって、横軸子カテゴリｘＣａｔ「２００４年」カテゴリの分類ルールは「（ｔｒｕｅ）ａｎｄ (．／出願日＞＝”２００４／０１／０１” ａｎｄ．／出願日＜＝”２００４／１２／３１”)」である。

従って、２軸マップ表示部５１は、縦軸カテゴリｙＡｘｉｓＣａｔ「内容別」カテゴリの分類ルールと横軸子カテゴリｘＣａｔ「２００４年」カテゴリの分類ルールとの論理積「｛（ｔｒｕｅ）ａｎｄ（ｔｒｕｅ）｝ａｎｄ｛（ｔｒｕｅ）ａｎｄ (．／出願日＞＝”２００４／０１／０１” ａｎｄ．／出願日＜＝”２００４／１２／３１”)｝」を満たす文書データの数をカウントし、文書数ｄｎとする。文書数ｄｎは、ＸＱｕｅｒｙのｃｏｕｎｔ（）関数を利用することで算出することができる。

次に、２軸マップ表示部５１は、ステップＳ１００３において作成したテーブルのｃｅｌｌに、ステップＳ１００９において算出した文書数ｄｎに応じた大きさの円ｃｈａｒｔを表示させる（ステップＳ１０１０）。２軸マップ表示部５１は、ステップＳ１００４に戻り、未選択のｃｅｌｌを選択して処理を繰り返す。

そして、２軸マップ表示部５１は、２軸マップ初期テーブル１８００における全てのｃｅｌｌに対してステップＳ１００５〜ステップＳ１０１０の処理を終了すると（ステップＳ１００４−ＹＥＳ）、図８の処理を終了する。

図２２は、上記の処理終了時に２軸マップ表示部５１が表示させる２軸マップの初期表示例を示す図である。ここでは、「内容別」カテゴリの下位に特徴語カテゴリが生成されていない初期状態の２軸マップのため、同図に示すように、縦軸の１列目には「内容別」カテゴリのみが表示されている。

図９は、カテゴリ操作部５２が実行する２軸マップ上のカテゴリ操作に対する処理の流れを示すフローチャートである。同図に示す処理により、カテゴリ操作部５２は、図７のステップＳ２〜ステップＳ１１の処理の流れを制御する。ユーザは、カテゴリ操作部５２を介して対象カテゴリを入力することによって、特徴語クラスタリングの実行を要求する。例えば、カテゴリ操作部５２は、２軸マップ表示部５１が図９の初期２軸マップ表示処理により表示させた初期２軸マップ上でユーザからの特徴語クラスタリングの実行要求を受け付ける。また、カテゴリ操作部５２は、特徴語クラスタリングにより生成された特徴語カテゴリの選択を受ける。カテゴリ操作部５２は、選択された特徴語カテゴリにフィルタ語として用いられている特徴語を表示させ（例えば、後述する図２７の特徴語追加画面２３１０）、ユーザから特徴語カテゴリに対するフィルタ語の追加・削除といった編集操作を受け付ける。カテゴリ操作部５２は、受け付けた編集操作に応じてカテゴリ記憶部２に記憶された特徴語カテゴリのカテゴリデータを更新する。

そこで、カテゴリ操作部５２は、２軸マップにおいてユーザが選択したカテゴリｃａｔの入力を受けた場合（ステップＳ１１０１−ＹＥＳ）、さらに、ユーザからの特徴語クラスタリングの実行要求の入力を受けたか（ステップＳ１１０２）、フィルタ語の追加要求の入力を受けたか（ステップＳ１１０５）、あるいは、フィルタ語の削除要求の入力を受けたか（ステップＳ１１１１）に応じて、それぞれの処理を行う。以下、図９の処理を詳細に説明する。

まず、カテゴリ操作部５２は、ユーザが選択したカテゴリｃａｔの入力を受ける（ステップＳ１１０１−ＹＥＳ）。
図２３は、特徴語クラスタリングの実行要求画面及び着目語の設定画面の表示例を示す図である。ここでは、ユーザは、２軸マップ表示部５１が初期２軸マップ表示処理において図２２のように表示させた２軸マップ初期テーブル上で、クラスタリングの対象カテゴリを選択している。同図では、ユーザは、セル１８０１を選択することにより、縦軸カテゴリである「内容別」カテゴリを対象カテゴリとして選択している。これにより、カテゴリ操作部５２は、カテゴリｃａｔとして、ユーザが選択した「内容別」カテゴリの入力を受ける。さらに、カテゴリ操作部５２は、ユーザから特徴語クラスタリングの実行要求の入力を受けると、特徴語クラスタリングの実行確認画面１９３０を表示させる。

図９において、カテゴリ操作部５２は、ユーザが実行確認画面１９３０の「実行」ボタン１９３１を選択した旨の入力を受けると（ステップＳ１１０２−ＹＥＳ）、ステップＳ１１０３の処理を行う。つまり、カテゴリ操作部５２は、対象カテゴリとして入力されたカテゴリｃａｔと、２軸マップにおいて対象カテゴリとして入力されなかった他の軸の子カテゴリの集合である軸カテゴリ集合を文書分類部３に出力し、特徴語クラスタリングの実行を指示する（ステップＳ１１０３）。本実施形態では、対象カテゴリとして縦軸カテゴリが入力されるため、カテゴリ操作部５２は、軸カテゴリ集合として、横軸子カテゴリｘＣａｔの集合である横軸子カテゴリ集合ｘＣａｔｓを文書分類部３に出力する。横軸子カテゴリ集合ｘＣａｔｓは、分類における観点とする軸カテゴリ集合である。図２３に示すように、ユーザが「内容別」カテゴリを選択し、特徴語クラスタリングの実行を選択した場合、カテゴリ操作部５２は、文書分類部３にカテゴリｃａｔとして「内容別」カテゴリを出力し、横軸子カテゴリ集合ｘＣａｔｓとして｛「２００４年」カテゴリ、「２００５年」カテゴリ、「２００６年」カテゴリ、「２００７年」カテゴリ、「２００８年」カテゴリ｝を出力する。ステップＳ１１０１〜ステップＳ１１０３の処理は、図７におけるステップＳ２のカテゴリ操作処理に相当する。

ステップＳ１１０３においてカテゴリｃａｔと横軸子カテゴリ集合ｘＣａｔｓの入力を受けた文書分類部３が、特徴語クラスタリングを実行し、図７におけるステップＳ３〜ステップＳ８までの処理を終了する。カテゴリ操作部５２は、現在の２軸マップの横軸カテゴリｘＡｘｉｓＣａｔと、縦軸カテゴリｙＡｘｉｓＣａｔを２軸マップ表示部５１に出力し、２軸マップの表示を更新する（ステップＳ１１０４）。例えば、図２３に示すように、ユーザがセル１８０１を選択し、特徴語クラスタリングの実行要求を入力した場合、横軸カテゴリｘＡｘｉｓＣａｔは「出願年別」カテゴリであり、縦軸カテゴリｙＡｘｉｓＣａｔは「内容別」カテゴリである。これにより、文書分類部３による特徴語クラスタリングの結果を２軸マップに反映する。ステップＳ１１０４の処理は、図７におけるステップＳ９の処理に相当する。カテゴリ操作部５２は、ステップＳ１１０１からの処理を繰り返す。

そして、カテゴリ操作部５２は、ユーザにより選択されたカテゴリｃａｔの入力を受け（ステップＳ１１０１−ＹＥＳ）、さらに、フィルタ語の追加要求の入力を受けた場合は（ステップＳ１１０２−ＮＯ、ステップＳ１１０５−ＹＥＳ）、ステップＳ１１０６〜ステップＳ１１１０の処理を行い、フィルタ語の削除要求の入力を受けた場合は（ステップＳ１１０２、ステップＳ１１０５−ＮＯ、ステップＳ１１１１−ＹＥＳ）、ステップＳ１１１２の処理を行う。カテゴリ操作部５２は、ステップＳ１１１０またはステップＳ１１１２の処理の終了後、表示させている２軸マップの横軸カテゴリｘＡｘｉｓＣａｔと、縦軸カテゴリｙＡｘｉｓＣａｔを２軸マップ表示部５１に出力し、２軸マップの表示を更新する（ステップＳ１１０４）。ステップＳ１１０５〜ステップＳ１１１２の処理は、図７におけるステップＳ１０の処理に相当し、その後のステップＳ１１０４の処理は、図７におけるステップＳ１１の処理に相当する。カテゴリ操作部５２は、ステップＳ１１０１からの処理を繰り返す。これらの処理の詳細については、後述する。

カテゴリ操作部５２は、カテゴリの選択が入力されない場合（ステップＳ１１０１−ＮＯ）、あるいは、カテゴリの選択が入力された後（ステップＳ１１０１−ＹＥＳ）、ユーザから特徴語クラスタリングの実行要求、フィルタ語の追加要求、フィルタ語の削除要求、終了要求のいずれも入力されない場合は（ステップＳ１１０２、ステップＳ１１０５、ステップＳ１１１１、ステップＳ１１１３−ＮＯ）、ステップＳ１１０１からの処理を繰り返し、終了要求が入力された場合は（ステップＳ１１０２、ステップＳ１１０５、ステップＳ１１１１−ＮＯ、ステップＳ１１１３−ＹＥＳ）、処理を終了する。

続いて、図７のステップＳ３〜ステップＳ９の処理の詳細について説明する。この処理は、図９のステップＳ１１０３〜ステップＳ１１０４の処理に相当する。

図１０は、特徴度算出部３１が特徴度を算出する処理の流れを示すフローチャートである。同図に示すフローチャートは、図７のステップＳ３における特徴度算出処理の詳細な処理の一例である。この処理において、特徴度算出部３１は、文書記憶部１に記憶されている対象文書データ集合のテキスト情報を形態素解析して単語を抽出し、抽出した単語について算出した特徴度を設定した特徴度データを特徴度データ記憶部４に記憶する。

まず、文書分類部３は、ユーザインターフェース部５のカテゴリ操作部５２から分類の対象カテゴリｔｇｔＣａｔを受信する（ステップＳ１２０１）。つまり、文書分類部３は、図９のステップＳ１１０３においてカテゴリ操作部５２が出力したカテゴリｃａｔを対象カテゴリｔｇｔＣａｔとして受信する。例えば、図２３に示すように、ユーザが、セル１８０１を選択し、特徴語クラスタリングの実行要求を入力した場合、対象カテゴリｔｇｔＣａｔは「内容別」カテゴリとなる。

特徴度算出部３１は、対象カテゴリｔｇｔＣａｔに分類された文書データ集合ｔｇｔＤｏｃｓを取得する。具体的には、特徴度算出部３１は、カテゴリ記憶部２を参照し、対象カテゴリｔｇｔＣａｔに対応したカテゴリデータと、そのカテゴリデータの上位カテゴリデータとから分類ルールを読み出す。特徴度算出部３１は、文書記憶部１に記憶される文書データの中から、読み出した分類ルールを全て満たす文書データｄを選択し、選択した文書データｄからなる集合を文書データ集合ｔｇｔＤｏｃｓとする。特徴度算出部３１は、文書データ集合ｔｇｔＤｏｃｓに含まれる全ての文書データｄから分析対象とするテキスト情報を取得する（ステップＳ１２０２）。本実施形態では、文書記憶部１に記憶されている文書データは、図２に示す文書データ２００ａまたは２００ｂと同様のデータ形式であり、分析対象とするテキスト情報は、本文２０５とする。

特徴度算出部３１は、ステップＳ１２０２において取得したテキスト情報である本文２０５を形態素解析する（ステップＳ１２０３）。特徴度算出部３１は、形態素解析の結果得られた全ての単語（形態素）ｔを１つずつ選択し、選択した単語ｔについてステップＳ１２０５〜ステップＳ１２０９の処理を行う（ステップＳ１２０４−ＮＯ）。

特徴度算出部３１は、単語ｔの品詞が、単語ベクトルに含めるべき所定の品詞の単語であり、かつ、不要語ではないか否かを判定する（ステップＳ１２０５）。例えば、特徴度算出部３１は、単語ｔの品詞が名詞やサ変名詞、固有名詞などである単語は単語ベクトルに含め、接続詞や副詞などは特徴ベクトルに含めないといった単語の選別を行う。また、特徴度算出部３１は、あらかじめ文書データの特徴を示さない単語として登録された不要語と単語ｔを比較する。例えば、特許文書を処理対象とする場合には、「装置」、「手段」といった単語は文書の特徴を表さないため、不要語とする。選択した単語ｔの品詞が、単語ベクトルに含めるべき所定の品詞の単語でない、もしくは、不要語であると判定した場合（ステップＳ１２０５−ＮＯ）、特徴度算出部３１は、ステップＳ１２０４に戻り、未選択の単語ｔを選択して処理を繰り返す。

一方、選択した単語ｔの品詞が、単語ベクトルに含めるべき所定の品詞の単語であり、かつ、不要語でないと判定した場合（ステップＳ１２０５−ＹＥＳ）、特徴度算出部３１は、ステップＳ１２０２において取得した文書データ集合ｔｇｔＤｏｃｓのテキスト情報に単語ｔが出現する数である出現頻度ｔｆを算出する（ステップＳ１２０６）。さらに、特徴度算出部３１は、文書データ集合ｔｇｔＤｏｃｓに含まれる文書データのうち、テキスト情報（本文２０５）に単語ｔが出現する文書データの数である文書頻度ｄｆを算出する（ステップＳ１２０７）。特徴度算出部３１は、単語ｔの特徴度ｓ（ｔ）を以下の計算式（１）に基づいて算出する（ステップＳ１２０８）。

ｓ（ｔ）＝ｔｆ×（ｌｏｇ（｜ｔｇｔＤｏｃｓ｜／ｄｆ）＋１） …（１）

計算式（１）において、｜ｔｇｔＤｏｃｓ｜は、対象文書データ集合ｔｇｔＤｏｃｓに含まれる文書データｄの数（文書数）である。この計算式は一般にＴＦ・ＩＤＦと呼ばれ、従来から情報検索や文書分類の分野で広く使用されている。すなわち、単語ｔが文書データｄに出現する頻度が多い（ｔｆが大きい）ほど、もしくは、全文書データのうち単語ｔを含む文書が少ない（ｄｆが小さい）ほど、当該単語ｔは文書データｄの特徴をよく表す単語であるとみなされる。本発明では、このＴＦ・ＩＤＦを対象文書データ集合について、単語の特徴度を算出するために用いる。

特徴度算出部３１は、単語ｔと、当該単語ｔについて算出した文書頻度ｄｆ及び特徴度ｓ（ｔ）とをそれぞれ、単語５１０、文書頻度５０１、及び特徴度５０２に設定した特徴度データを生成し、特徴度データ記憶部４に記憶する（ステップＳ１２０９）。特徴度算出部３１は、ステップＳ１２０４に戻り、未選択の単語ｔを選択して処理を繰り返す。
そして、形態素解析の結果得られた全ての単語ｔについてステップＳ１２０５〜ステップＳ１２０９の処理を行ったと判定した場合（ステップＳ１２０４−ＹＥＳ）、特徴度算出部３１は、処理を終了する。

図１１は、着目語設定部５３が着目語を設定する処理の流れを示すフローチャートである。同図に示すフローチャートは、図７のステップＳ４における着目語設定処理の詳細な処理の一例を示す。この処理において、着目語設定部５３は、特徴語カテゴリを分類するにあたり、着目する複数の単語を着目語としてユーザから受け付けて、文書分類部３に出力する。

まず、着目語設定部５３は、例えば、図２３に示すように、ユーザが着目語を設定するための着目語設定フォーム１９１０を表示させる（ステップＳ１３０１）。着目語設定フォーム１９１０には、着目語入力フィールド１９１１と、着目語リストデータ６００の内容の一覧が表示された着目語リスト１９１３とが含まれる。さらに、着目語設定フォーム１９１０は、着目語入力フィールド１９１１に入力された文字列を着目語リストに追加するための「リストに追加」ボタン１９１２、着目語リスト１９１３において選択した単語を着目語に設定するための「着目語に設定」ボタン１９１４、及び、着目語の設定操作をキャンセルするための「キャンセル」ボタン１９１５を含む。

着目語リストデータ６００の着目語候補６０１には、２軸マップ上でユーザが着目語として選択したフィルタ語、もしくは、着目語入力フィールド１９１１にユーザが入力した文字列のリストが設定される。ただし、着目語リストデータ６００の初期値は空のリストである。なお、着目語設定部５３は、特徴度データ記憶部４に記憶されている特徴度データに設定された単語のリストを初期値として着目語候補６０１に設定してもよい。この場合、着目語設定６０２の初期値は全て「０」としてもよく、全て「１」としてもよい。

着目語リスト１９１３には、着目語候補６０１として登録されている単語の前に、実際に着目語とするか否かを示すチェックボックスが表示されている。着目語設定部５３は、着目語設定フォーム１９１０が初期表示される場合、着目語リストデータ６００の着目語設定６０２に「１」が設定されている着目語候補６０１に対応するチェックボックスにデフォルトでチェックを設定して表示させる。

次に、図１１において、着目語設定部５３は、ユーザから着目語の入力または着目語の選択を受け付ける（ステップＳ１３０２）。ここで、ユーザは、着目語設定フォーム１９１０の着目語リスト１９１３に表示されている着目語候補の中から実際に着目語として使用する単語を選択する（チェックボックスにチェックをつける）こともできるし、着目する単語が着目語リスト１９１３にない場合は直接その単語（文字列）を着目語入力フィールド１９１１により入力することもできる。

着目語設定部５３は、ユーザからの着目語の追加要求を受けた場合、つまり、ユーザが着目語入力フィールド１９１１に文字列を入力して、「リストに追加」ボタン１９１２を選択した場合（ステップＳ１３０３−ＹＥＳ）、着目語入力フィールド１９１１に入力された文字列を着目語リスト１９１３に追加表示させ（ステップＳ１３０４）、ステップＳ１３０２の処理に遷移する。ユーザからのリストへの着目語の追加要求がない場合、着目語設定部５３は、ステップＳ１３０５の処理に遷移する（ステップＳ１３０３−ＮＯ）。

リストへの着目語の追加要求がなく（ステップＳ１３０３−ＮＯ）、かつ、ユーザからの着目語の設定要求を受けた場合、つまり、ユーザが「着目語に設定」ボタン１９１４を選択した場合、着目語設定部５３は、ステップＳ１３０６とステップＳ１３０７の処理を行う（ステップＳ１３０５−[着目語の設定]）。
すなわち、着目語設定部５３は、着目語リスト１９１３の内容を着目語リストデータ６００として記憶する（ステップＳ１３０６）。具体的には、着目語設定部５３は、着目語リスト１９１３に含まれる単語を着目語候補６０１に設定する。このとき、着目語設定部５３は、着目語リスト１９１３でユーザによってチェックボックスにチェックがつけられた単語には、着目語設定６０２にフラグを立て（本実施例では「１」）、チェックされなかった単語については、フラグを立てずに（本実施例では「０」）、着目語リストデータ６００に格納する。着目語設定部５３は、ステップＳ１３０６において更新した着目語リストデータ６００において、着目語設定６０２にフラグが立っている着目語候補６０１に設定された単語を読み出す。着目語設定部５３は、読み出した単語の集合を着目語集合として、文書分類部３に出力し（ステップＳ１３０７）、図１１の着目語設定処理を終了する。

なお、ステップＳ１３０５において、着目語の設定要求またはキャンセル要求のいずれも入力されない場合、着目語設定部５３は、ステップＳ１３０２の処理に遷移する（ステップＳ１３０５−［要求なし］）。あるいは、ステップＳ１３０５において、キャンセル要求があった場合、つまり、ユーザが「キャンセル」ボタン１９１５を選択した場合、着目語設定部５３は、図１１の着目語設定処理を終了する（ステップＳ１３０５−[キャンセル]）。

図１２は、特徴度補正部３２が補正特徴度を求める処理の流れを示すフローチャートである。同図に示すフローチャートは、図７のステップＳ５における特徴度補正処理の詳細な処理の一例を示す。この処理において、特徴度補正部３２は、ユーザインターフェース部５の着目語設定部５３から着目語集合を受信し、特徴度データ記憶部４に記憶された特徴度データに補正特徴度を設定する。

最初に、特徴度補正部３２は、ユーザインターフェース部５の着目語設定部５３を介してユーザが指定した着目語ａｔの集合である着目語集合ａｔｓを受信する（ステップＳ１４０１）。具体的には、特徴度補正部３２は、図１１のステップＳ１３０７において着目語設定部５３が出力した着目語集合を受信し、着目語集合ａｔｓとする。このユーザによる着目語集合ａｔｓの入力は、図９のステップＳ１１０３における対象カテゴリ（カテゴリｃａｔ）の入力と同時でもよいし、別のタイミングで行われてもよい。

特徴度補正部３２は、受信した着目語集合ａｔｓ中の全ての着目語ａｔを１つずつ選択し、ステップＳ１４０３の処理を繰り返す（ステップＳ１４０２−ＮＯ）。すなわち、特徴度補正部３２は、着目語ａｔに対応する特徴度データを取得する特徴度データ取得処理を行う（ステップＳ１４０３）。この処理により、特徴度補正部３２は、特徴度データ記憶部４に着目語ａｔの特徴度データが登録されている場合にはそれを取得し、登録されていない場合は着目語ａｔの特徴度データを生成して特徴度データ記憶部４に登録する。特徴度データが登録されていない着目語ａｔは、例えば、図１０に示す特徴度算出処理において形態素解析により取得されなかった複合語などの単語である。特徴度データ取得処理の詳細については後述する図１３のフローチャートにおいて説明する。

着目語集合ａｔｓ中の全ての着目語ａｔについて特徴度データ取得処理が終了すると（ステップＳ１４０２−ＹＥＳ）、特徴度補正部３２は、特徴度データ記憶部４に特徴度データが登録されている全ての単語ｔの中から１つずつ選択し、選択した単語ｔについて以下のステップＳ１４０５〜ステップＳ１４１０の処理を繰り返す（ステップＳ１４０４−ＮＯ）。

まず、特徴度補正部３２は、特徴度データ記憶部４から単語ｔに対応する特徴度データｋｄを取得する特徴度データ取得処理を行う（ステップＳ１４０５）。特徴度データ取得処理の詳細については後述する図１３のフローチャートにおいて説明する。特徴度補正部３２は、ステップＳ１４０５において取得した特徴度データｋｄから特徴度ｓ（ｔ）を取得し、以下の計算式（２）のように、単語ｔの補正特徴度ｍｓ（ｔ）の初期値とする（ステップＳ１４０６）。

ｍｓ（ｔ）＝ｓ（ｔ） …（２）

続いて、特徴度補正部３２は、着目語集合ａｔｓに含まれる全ての着目語ａｔを１つずつ選択し、選択した着目語ａｔについて、ステップＳ１４０８とステップＳ１４０９の処理を繰り返す（ステップＳ１４０７−ＮＯ）。
まず、特徴度補正部３２は、対象カテゴリに分類された文書データ集合ｔｇｔＤｏｃｓにおける単語ｔと着目語ａｔとの共起度ｃｏ（ｔ，ａｔ）を算出する（ステップＳ１４０８）。文書データ集合ｔｇｔＤｏｃｓは、図１０のステップＳ１２０２と同様の処理により取得するか、図１０のステップＳ１２０２において特徴度算出部３１が取得したものを用いることができる。ここで、文書データ集合ｔｇｔＤｏｃｓにおける単語ｔと着目語ａｔとの共起度ｃｏ（ｔ，ａｔ）は、以下の計算式（３）〜（７）のいずれかによって算出される値である。

共起数＝｜ｔ∩ａｔ｜ …（３）
Ｄｉｃｅ係数Ｄ＝｜ｔ∩ａｔ｜／（｜ｔ｜＋｜ａｔ｜） …（４）
Ｊａｃｃａｒｄ係数Ｊ＝｜ｔ∩ａｔ｜／｜ｔ∪ａｔ｜ …（５）
Ｓｉｍｐｓｏｎ係数Ｓ＝｜ｔ∩ａｔ｜／ｍｉｎ（ｔ，ａｔ） …（６）
Ｃｏｓｉｎｅ係数Ｃ＝｜ｔ∩ａｔ｜／ｓｑｒｔ（｜ｔ｜×｜ａｔ｜） …（７）

上記では、文書データ集合ｔｇｔＤｏｃｓにおいて、テキスト情報に単語ｔを含んだ文書データｄの数（以下、「生起数」という）を｜ｔ｜とし、文書データ集合ｔｇｔＤｏｃｓにおける着目語ａｔの生起数を｜ａｔ｜とする。また、文書データ集合ｔｇｔＤｏｃｓにおいて、単語ｔと着目語ａｔをともにテキスト情報に含んだ文書データｄの数（以下、「共起数」という）を｜ｔ∩ａｔ｜とし、単語ｔと着目語ａｔのうち少なくとも１つをテキスト情報に含んだ文書データｄの数を｜ｔ∪ａｔ｜とする。また、ｍｉｎ（ｔ，ａｔ）は、単語ｔの生起数と着目語ａｔの生起数のうち少ないほうを示し、ｓｑｒｔは平方根を求めることを示す。

特徴度補正部３２は、ステップＳ１４０８において算出した単語ｔと着目語ａｔとの共起度ｃｏ（ｔ，ａｔ）を用いて、以下の計算式（８）に基づいて、補正特徴度ｍｓ（ｔ）を更新する（ステップＳ１４０９）。

ｍｓ（ｔ）＝ｍｓ（ｔ）×ｃｏ（ｔ，ａｔ）・・・（８）

ステップＳ１４０９の処理の後、特徴度補正部３２は、ステップＳ１４０７からの処理に戻り、着目語集合ａｔｓ中の未選択の着目語ａｔを選択して処理を繰り返す。そして、全ての着目語ａｔについてステップＳ１４０８及びステップＳ１４０９の繰り返し処理が終了すると（ステップＳ１４０７−ＹＥＳ）、特徴度補正部３２は、ステップＳ１４０５において取得した特徴度データｋｄの補正特徴度５０３に補正特徴度ｍｓ（ｔ）を挿入する。特徴度補正部３２は、特徴度データ記憶部４に現在記憶されている単語ｔの特徴度データを、補正特徴度５０３を設定した特徴度データｋｄにより更新する（ステップＳ１４１０）。

ステップＳ１４１０の後、特徴度補正部３２はステップＳ１４０４に戻り、未選択の単語ｔを選択して処理を繰り返す。全ての単語ｔについてステップＳ１４０５〜ステップＳ１４１０の処理が終了すると（ステップＳ１４０４−ＹＥＳ）、特徴度補正部３２は特徴度補正処理を終了する。

上記においては、特徴度補正部３２は、着目語設定部５３から着目語集合を受信して上記の特徴度補正処理を行っているが、着目語設定部５３に着目語が１つ入力されるたびにその着目語を受信することにより、上記の特徴度補正処理を逐次実行してもよい。

図１３は、特徴度補正部３２が特徴度データを取得する処理の流れを示すフローチャートである。同図に示すフローチャートは、図１２のステップＳ１４０３及びステップＳ１４０５における特徴度データ取得処理の一例を示す。この処理において、特徴度補正部３２は、特徴度データ記憶部４から所定の単語ｋの特徴度データを取得する。単語ｋは、ステップＳ１４０３の処理の場合は着目語ａｔであり、ステップＳ１４０５の処理の場合は、単語ｔである。

特徴度補正部３２は、単語ｋの特徴度データ取得要求を受信すると（ステップＳ１５０１）、特徴度データ記憶部４に単語ｋの特徴度データが存在するか否かを判定する（ステップＳ１５０２）。特徴度データ記憶部４に単語ｋに対する特徴度データが記憶されていないと判定した場合（ステップＳ１５０２−ＮＯ）、特徴度補正部３２は、以下のステップＳ１５０３〜ステップＳ１５０７の処理を行い、単語ｋに対する特徴度データｋｄを生成する。

ステップＳ１５０３〜ステップＳ１５０７は、特徴度算出部３１による形態素解析では得られなかった単語を特徴語カテゴリの生成に利用するための処理である。形態素解析によって抽出される（対象とする品詞かつ不要語でない）単語ｔであれば、その単語ｔに対する特徴度データは、図１０示す特徴度算出部３１の処理において生成される。しかし、ユーザインターフェース部５の着目語設定部５３においてユーザは任意の文字列を着目語ａｔとして設定できる。このとき、ユーザが指定する着目語ａｔは、形態素解析によって抽出される単語ｔに含まれるとは限らない。例えば、ユーザが”内部統制”という文字列を着目語ａｔとして設定した場合、特徴度算出部３１が抽出した形態素が”内部”と”統制”であれば、この２つの単語に対応する特徴度データは生成されているが、”内部統制”という単語としては、特徴度データは生成されない。このような問題は、特に”内部統制”のように複数の単語を１つの単語として扱う複合語において生じる。ステップＳ１５０３〜ステップＳ１５０７の処理は、この問題に対処するための処理である。

具体的には、特徴度補正部３２は、対象カテゴリに分類された文書データ集合ｔｇｔＤｏｃｓの中に含まれる全ての文書データｄのテキスト情報（本文２０５）において単語ｋが出現する数である出現頻度ｋｆを算出する（ステップＳ１５０３）。文書データ集合ｔｇｔＤｏｃｓは、図１０のステップＳ１２０２と同様の処理により取得するか、図１０のステップＳ１２０２において特徴度算出部３１が取得したものを用いることができる。ここで、単語ｋは上述の通り形態素解析によって抽出されない単語であるため、特徴度補正部３２は、形態素解析結果から出現頻度をカウントするのではなく、文字列検索などを使ってカウントする。

次に、特徴度補正部３２は文書データ集合ｔｇｔＤｏｃｓの中で単語ｋがテキストデータ（本文２０５）に出現する文書データｄの数である文書頻度ｄｆを算出する（ステップＳ１５０４）。特徴度補正部３２は、ステップＳ１２０９における計算式（１）と同様の以下の計算式（９）を用いて単語ｋの特徴度ｓ（ｋ）を算出する（ステップＳ１５０５）。

ｓ（ｋ）＝ｋｆ×（ｌｏｇ（｜ｔｇｔＤｏｃｓ｜／ｄｆ）＋１） …（９）

特徴度補正部３２は、単語ｋと、算出した文書頻度ｄｆ及び特徴度ｓ（ｋ）とをそれぞれ、単語５１０、文書頻度５０１、及び特徴度５０２に設定した特徴度データｋｄを生成し（ステップＳ１５０６）、特徴度データ記憶部４に格納する（ステップＳ１５０７）。特徴度補正部３２は、生成した特徴度データｋｄを特徴度データ取得要求元に出力する（ステップＳ１５０９）。

一方、ステップＳ１５０２において、単語ｋの特徴度データが特徴度データ記憶部４に記憶されていると判定した場合（ステップＳ１５０２−ＹＥＳ）、特徴度補正部３２は、特徴度データ記憶部４から単語ｋの特徴度データｋｄを取得する（ステップＳ１５０８）。特徴度補正部３２は、取得した特徴度データｋｄを特徴度データ取得要求元に出力する（ステップＳ１５０９）。

図１２及び図１３の処理により、図７に示す特徴度補正処理（ステップＳ５）が終了すると、特徴語カテゴリ生成部３３において、傾向ベクトル生成部３４が、傾向ベクトル生成処理を行い（ステップＳ６）、クラスタリング部３５はクラスタリング処理を行い（ステップＳ７）、カテゴリ生成処理部３６が特徴語カテゴリ生成処理を行う（ステップＳ８）。このように、ステップＳ６〜ステップＳ８において、特徴語カテゴリ生成部３３は、特徴度データ記憶部４に記憶されている特徴度データを用いて、軸カテゴリ集合に対して出現傾向の類似した特徴語のグループに基づく特徴語カテゴリを生成する。

図１４は、特徴語カテゴリ生成部３３の傾向ベクトル生成部３４が傾向ベクトルを求める処理の流れを示すフローチャートである。同図に示すフローチャートは、図７のステップＳ６における傾向ベクトル生成処理の詳細な処理の一例を示す。この処理において、傾向ベクトル生成部３４は、特徴度データ記憶部４に記憶されている特徴度データに基づいて特徴語集合を抽出し、抽出された特徴語集合に含まれる各特徴語について傾向ベクトルを生成して特徴度データ記憶部４に記憶する。

最初に、傾向ベクトル生成部３４は、空の特徴語リストｔｌを生成する（ステップＳ１６０１）。傾向ベクトル生成部３４は、特徴度データ記憶部４に特徴度データが格納されている全ての単語ｔを１つずつ選択し、選択した単語ｔについてステップＳ１６０３〜ステップＳ１６０５の処理を行う（ステップＳ１６０２−ＮＯ）。ステップＳ１６０３〜ステップＳ１６０５において、傾向ベクトル生成部３４は、特徴語を抽出し、抽出した特徴語の集合を特徴語リストｔｌに格納する。

具体的には、傾向ベクトル生成部３４は、特徴度データ記憶部４に記憶されている単語ｔの特徴度データを読み出し、読み出した特徴度データから補正特徴度５０３に設定されている補正特徴度ｍｓ（ｔ）を取得する（ステップＳ１６０３）。取得した補正特徴度ｍｓ（ｔ）があらかじめ設定された一定のしきい値ｍｉｎｍｓより大きい（ｍｉｎｍｓ＜ｍｓ（ｔ））場合（ステップＳ１６０４−ＹＥＳ）、傾向ベクトル生成部３４は、当該単語ｔを特徴語リストｔｌに追加する（ステップＳ１６０５）。取得した補正特徴度ｍｓ（ｔ）がしきい値ｍｉｎｍｓ以下（ｍｉｎｍｓ≧ｍｓ（ｔ））の場合（ステップＳ１６０４−ＮＯ）、あるいは、ステップＳ１６０５の処理の後、傾向ベクトル生成部３４は、ステップＳ１６０２に戻り、未選択の単語ｔを選択して処理を繰り返す。

ここで、しきい値ｍｉｎｍｓは、単語ｔに対する補正特徴度ｍｓ（ｔ）の最小値であり、システム側で事前に設定する値である。このしきい値ｍｉｎｍｓによって、特徴語が抽出される。ただし、本実施形態ではしきい値を補正特徴度ｍｓ（ｔ）の最小値として設定したが、これに限らず、傾向ベクトル生成部３４は、ｍｓ（ｔ）が上位から所定個の単語ｔを特徴語とするという個数指定により特徴語を抽出してもよい。

特徴度データ記憶部４に特徴度データが格納されている全て単語ｔについて繰り返し処理を終了すると（ステップＳ１６０２−ＹＥＳ）、傾向ベクトル生成部３４は、特徴語リストｔｌに含まれる全ての特徴語ｔを１つずつ選択し、選択した特徴語ｔについて、ステップＳ１６０７〜ステップＳ１６１２の処理を繰り返す（ステップＳ１６０６−ＮＯ）。

まず、傾向ベクトル生成部３４は、特徴度データ記憶部４から特徴語ｔの特徴度データｋｄを取得する（ステップＳ１６０７）。さらに、傾向ベクトル生成部３４は、カテゴリ操作部５２から入力された横軸子カテゴリ集合ｘＣａｔｓに含まれるカテゴリ数（横軸子カテゴリｘＣａｔの数）と同じ次元数の頻度ベクトルｖｃｆと傾向ベクトルｖｐｔｎを生成する（ステップＳ１６０８）。頻度ベクトルｖｃｆ及び傾向ベクトルｖｐｔｎの各要素は横軸子カテゴリｘＣａｔに対応する。

傾向ベクトル生成部３４は、横軸子カテゴリ集合ｘＣａｔｓに含まれる全ての横軸子カテゴリｘＣａｔを１つずつ選択し、選択した横軸子カテゴリｘＣａｔについてステップＳ１６１０、及びステップＳ１６１１の処理を繰り返す（ステップＳ１６０９−ＮＯ）。
つまり、傾向ベクトル生成部３４は、対象カテゴリｔｇｔＣａｔと横軸子カテゴリｘＣａｔに共通して含まれる文書データ集合について、特徴語ｔがテキスト情報（本文２０５）に出現する文書データの数（以下、「カテゴリ内頻度」という）ｃｆを算出する（ステップＳ１６１０）。対象カテゴリｔｇｔＣａｔと横軸子カテゴリｘＣａｔに共通して含まれる文書データ集合は、対象カテゴリｔｇｔＣａｔの分類ルールと横軸子カテゴリｘＣａｔの分類ルールとの論理積を満たす文書データであり、図８のステップＳ１００９と同様の処理により得られる。傾向ベクトル生成部３４は、特徴度データｋｄから特徴語ｔの文書頻度ｄｆとして文書頻度５０１を取得する。傾向ベクトル生成部３４は、頻度ベクトルｖｃｆの横軸子カテゴリｘＣａｔに対応した要素の値を、ステップＳ１６１０において算出したカテゴリ内頻度ｃｆとし、傾向ベクトルｖｐｔｎの横軸子カテゴリｘＣａｔに対応した要素の値を、ｃｆ／（ｄｆ＋１）とする（ステップＳ１６１１）。傾向ベクトル生成部３４は、ステップＳ１６０９に戻り、未選択の横軸子カテゴリｘＣａｔを選択して処理を繰り返す。

傾向ベクトル生成部３４は、全ての横軸子カテゴリｘＣａｔについてステップＳ１６０９〜ステップＳ１６１１の処理を行ったと判定した場合（ステップＳ１６０９−ＹＥＳ）、各横軸子カテゴリｘＣａｔについてステップＳ１６１１で算出した要素を並べた頻度ベクトルｖｃｆと傾向ベクトルｖｐｔｎを、特徴度データｋｄの軸カテゴリ（カテゴリ番号）に対する頻度ベクトル／傾向ベクトル５０４に格納する。傾向ベクトル生成部３４は、特徴度データ記憶部４に現在記憶されている特徴語ｔの特徴度データを、頻度ベクトルｖｃｆと傾向ベクトルｖｐｔｎを格納した特徴度データｋｄにより更新する（ステップＳ１６１２）。その後、傾向ベクトル生成部３４は、ステップＳ１６０６に戻り、未選択の特徴語ｔを選択して処理を繰り返す。
そして、ステップＳ１６０６において、特徴語リストｔｌに含まれる全ての単語（特徴語）ｔについて、ステップＳ１６０７〜ステップＳ１６１２の処理を行ったと判定した場合（ステップＳ１６０６−ＹＥＳ）、傾向ベクトル生成部３４は傾向ベクトル生成処理を終了する。

なお、本実施形態においては、傾向ベクトルの要素の値をｃｆ／（ｄｆ＋１）、つまり対象カテゴリｔｇｔＣａｔに対する横軸子カテゴリｘＣａｔでの単語ｔの「出現割合」としたが、単純に文書頻度（ｄｆ）やカテゴリ内頻度（ｃｆ）としてもよい。もしくは以下のような自己相互情報量やイエーツ補正χ２乗値といった統計量に基づく値でもよい。統計量は従来の技術で算出される。傾向ベクトルの要素の値は、クラスタリング処理において各特徴語の重みづけとなり、クラスタリング結果に反映される。

自己相互情報量ＰＭＩは以下の計算式（１０）で算出される。

自己相互情報量ＰＭＩ＝ｌｏｇ（ａｎ／（（ａ＋ｂ）（ａ＋ｃ））） …（１０）

また、イエーツ補正χ２乗値Ｙａｔｅｓは以下の計算式（１１）で算出される。

Ｙａｔｅｓ’＝ｎ（｜ａｄ−ｂｃ｜−ｎ／２）＾２／（（ａ＋ｂ）（ｃ＋ｄ）（ａ＋ｃ）（ｂ＋ｄ））
ｉｆ（（ａｄ−ｂｄ）＜０）Ｙａｔｅｓ＝−Ｙａｔｅｓ’
ｅｌｓｅＹａｔｅｓ＝Ｙａｔｅｓ’ …（１１）

なお、計算式（１０）、（１１）において、｜ｘＣａｔ｜は、横軸子カテゴリｘＣａｔに分類された文書数、｜ｔｇｔＣａｔ｜は対象カテゴリｔｇｔＣａｔに分類された文書数であり、ａ、ｂ、ｃ、ｄ、ｎは以下のとおりである。

ａ＝ｃｆ
ｂ＝ｄｆ−ｃｆ
ｃ＝｜ｘＣａｔ｜−ｃｆ
ｄ＝｜ｔｇｔＣａｔ｜−ｄｆ）−｜ｘＣａｔ｜＋ｃｆ
ｎ＝ａ＋ｂ＋ｃ＋ｄ＝｜ｔｇｔＣａｔ｜

自己相互情報量ＰＭＩでは、対象カテゴリｔｇｔＣａｔ中での出現確率と、横軸子カテゴリｘＣａｔ中での出現確率とで偏りの大きい特徴語を高く評価する。また、低頻度語を過大評価する傾向があるため、自己相互情報量ＰＭＩを利用する場合は、文書頻度ｄｆが極端に小さい単語は、特徴語から排除するなどの処理が必要となる。
一方、イエーツ補正χ２乗値Ｙａｔｅｓは、対象カテゴリｔｇｔＣａｔ中での出現確率に対し、横軸子カテゴリｘＣａｔ中での出現確率が高い単語を高く評価する。結果として、クラスタリングにおいて比較的低頻度の特徴語が強く重みづけされる。しかし、自己相互情報量ＰＭＩと比べるとその傾向は小さい。

図１５は、特徴語カテゴリ生成部３３のクラスタリング部３５が実行する特徴語クラスタリングの処理の流れを示すフローチャートである。同図に示すフローチャートは、図７のステップＳ７におけるクラスタリング処理の詳細な処理の一例である。この処理において、クラスタリング部３５は、上述した図１４の傾向ベクトル生成処理において生成された傾向ベクトルを用いて、特徴語の類似性に基づく特徴語のクラスタリングを行い、関連の強い特徴語グループである特徴語クラスタを生成する。

なお、本実施形態では、クラスタリング手法として、文書クラスタリング手法を応用する。従来の文書クラスタリング手法は、例えば各々の文書データが備える特徴を、特徴ベクトル（ベクトル要素には文書内の単語の出現頻度などが用いられる）によって表し、この特徴ベクトルの類似度（例えば内積や余弦）に基づき、文書同士のまとまりである文書クラスタを生成するという方法である。

本実施形態のクラスタリング部３５は、抽出された特徴語の傾向ベクトルの類似度に基づき、特徴語クラスタを生成する。クラスタリングの手法としては、従来から様々なものが考案されているが、本実施形態では、ｌｅａｄｅｒ−ｆｏｌｌｏｗｅｒ法と呼ばれる比較的単純なクラスタリング手法を用いる。ただし、このクラスタリング手法に限定はされない。

最初に、クラスタリング部３５は、軸カテゴリ（カテゴリ番号）に対する頻度ベクトル／傾向ベクトル５０４に傾向ベクトル５１２が設定されている特徴度データｋｄの集合である特徴度データ集合ｋｄｓを特徴度データ記憶部４から取得する（ステップＳ１７０１）。クラスタリング部３５は、取得した特徴度データ集合ｋｄｓに含まれる単語ｔをクラスタリング対象の単語集合Ｔとし、分類先である特徴語クラスタ集合Ｃの初期値を空集合とする（ステップＳ１７０２）。特徴度データ集合ｋｄｓに含まれる単語ｔとは、特徴度データｋｄに単語５１０として設定されている単語である。クラスタリング部３５は、単語集合Ｔに含まれる全ての単語ｔを１つずつ選択し、選択した単語ｔについてステップＳ１７０４〜ステップＳ１７１５の処理を繰り返す（ステップＳ１７０３−ＮＯ）。

まず、クラスタリング部３５は、特徴度データ集合ｋｄｓから単語ｔの傾向ベクトルｖｐｔｎを取得する（ステップＳ１７０４）。クラスタリング部３５は、単語ｔの分類先の特徴語クラスタである分類先特徴語クラスタｃｍａｘの初期値を「なし」とし、単語ｔの類似度の最大値ｓｍａｘの初期値を０とする（ステップＳ１７０５）。

クラスタリング部３５は、特徴語クラスタ集合Ｃに含まれる全ての特徴語クラスタｃを１つずつ選択し、選択した特徴語クラスタｃについてステップＳ１７０７〜ステップＳ１７０９の処理を繰り返す（ステップＳ１７０６−ＮＯ）。クラスタリング部３５は、特徴語クラスタ集合Ｃに含まれる全ての特徴語クラスタｃについて処理を終了すると（ステップＳ１７０６−ＹＥＳ）、ステップＳ１７１０の処理を行う。

ただし、最初の単語ｔについての処理の場合、Ｃは初期値の空集合であるため、クラスタリング部３５は特徴語クラスタ集合Ｃに含まれる全ての特徴語クラスタｃについて処理が終了したと判定し（ステップＳ１７０６−ＹＥＳ）、分類先特徴語クラスタｃｍａｘが存在するか否かを判定する（ステップＳ１７１０）。分類先特徴語クラスタｃｍａｘが初期値「なし」であるため（ステップＳ１７１０−ＮＯ）、クラスタリング部３５は、新たな特徴語クラスタｃである特徴語クラスタｃｎｅｗを新規に作成し、作成した特徴語クラスタｃｎｅｗを特徴語クラスタ集合Ｃに追加する（ステップＳ１７１３）。クラスタリング部３５は、作成した特徴語クラスタｃｎｅｗに、単語ｔの傾向ベクトルｖｐｔｎを分類する（ステップＳ１７１４）。そして、クラスタリング部３５は、特徴語クラスタｃｎｅｗの特徴ベクトルｖｃを単語ｔの傾向ベクトルｖｐｔｎとする（ステップＳ１７１５）。すなわちこの時点では、特徴語クラスタｃｎｅｗに分類されている単語は単語ｔ１つであるため、特徴語クラスタｃｎｅｗの特徴ベクトルｖｃは、単語ｔの傾向ベクトルｖｐｔｎと同じとなる。ステップＳ１７１５の処理が終了すると、クラスタリング部３５は、ステップＳ１７０３に戻り、未選択の単語ｔを選択して処理を繰り返す。

２回目以降のステップＳ１７０３からの繰り返し処理においては特徴語クラスタ集合Ｃが空き集合ではないため、ステップＳ１７０６において、クラスタリング部３５は、クラスタリング部３５は特徴語クラスタ集合Ｃに含まれる全ての特徴語クラスタｃを１つずつ選択し、ステップＳ１７０７〜ステップＳ１７０９の処理を繰り返す（ステップＳ１７０６−ＮＯ）。

具体的には、クラスタリング部３５は、単語ｔの傾向ベクトルｖｐｔｎと、特徴語クラスタｃの特徴ベクトルｖｃとを用いて、単語ｔと特徴語クラスタｃの類似度ｓを算出する（ステップＳ１７０７）。特徴語クラスタｃの特徴ベクトルｖｃは、ステップＳ１７１５においてこの特徴語クラスタｃに最初に分類された単語の傾向ベクトルを初期として生成され、後述のステップＳ１７１０〜ステップＳ１７１５においてこの特徴語クラスタに追加で分類された単語の傾向ベクトルを用いて更新されるベクトルである。クラスタリング部３５は、単語ｔと特徴語クラスタｃの類似度ｓを、単語ｔの傾向ベクトルｖｐｔｎと特徴語クラスタｃの特徴ベクトルｖｃとの類似度により算出する。この類似度は、例えばベクトルの余弦、すなわち、（ｖｐｔｎ・ｖｃ）／（｜ｖｐｔｎ｜×｜ｖｃ｜）を用いて算出される。なお、ｖｐｔｎ・ｖｃは傾向ベクトルｖｐｔｎと特徴ベクトルｖｃの内積を表し、｜ｖｐｔｎ｜、｜ｖｃ｜はそれぞれ、傾向ベクトルｖｐｔｎ、特徴ベクトルｖｃのノルムを表す。

クラスタリング部３５は、単語ｔと特徴語クラスタｃの類似度ｓがあらかじめ設定された所定のしきい値ｓｍｉｎ以上であり、かつ、単語ｔの類似度の最大値ｓｍａｘより大きい場合（ステップＳ１７０８−ＹＥＳ）、分類先特徴語クラスタｃｍａｘに特徴語クラスタｃを設定し、単語ｔの類似度の最大値ｓｍａｘに特徴語クラスタｃとの類似度ｓを設定する（ステップＳ１７０９）。クラスタリング部３５は、ステップＳ１７０６に戻り処理を繰り返す。一方、クラスタリング部３５は、単語ｔと特徴語クラスタｃの類似度ｓがあらかじめ設定された所定のしきい値ｓｍｉｎ未満である、もしくは、単語ｔの類似度の最大値ｓｍａｘ以下である場合（ステップＳ１７０８−ＮＯ）、そのままステップＳ１７０６に戻り処理を繰り返す。

ステップＳ１７０６の繰り返し処理の終了後（ステップＳ１７０６−ＹＥＳ）、クラスタリング部３５は、分類先特徴語クラスタｃｍａｘが存在するか否か判定する（ステップＳ１７１０）。クラスタリング部３５は、分類先特徴語クラスタｃｍａｘが存在する、すなわち、既存の特徴語クラスタｃのうち、単語ｔとの類似度ｓが最大であり、かつ、その類似度がしきい値以上のクラスタが存在する場合（ステップＳ１７１０−ＹＥＳ）、クラスタリング部３５は、分類先特徴語クラスタｃｍａｘに単語ｔを分類する（ステップＳ１７１１）。クラスタリング部３５は、分類先特徴語クラスタｃｍａｘの特徴ベクトルｖｃに単語ｔの傾向ベクトルｖｐｔｎを加え、特徴ベクトルｖｃを再計算する（ステップＳ１７１２）。すなわち、分類先特徴語クラスタｃｍａｘとなっている特徴語クラスタｃの特徴ベクトルｖｃは、当該特徴語クラスタｃに分類された単語ｔの傾向ベクトルの和となる。そのため、分類先特徴語クラスタｃｍａｘとなっている特徴語クラスタｃの特徴ベクトルｖｃに単語ｔの傾向ベクトルｖｐｔｎを加えた結果が、単語ｔを分類した後の当該特徴語クラスタｃの特徴ベクトルとなる。

一方、ステップＳ１７１０にて、分類先特徴語クラスタｃｍａｘが存在しない場合（ステップＳ１７１０−ＮＯ）、クラスタリング部３５は、上記と同様にステップＳ１７１３〜ステップＳ１７１５の処理を行う。すなわち、クラスタリング部３５は、特徴語クラスタｃｎｅｗを新規に作成して特徴語クラスタ集合Ｃに追加するとともに（ステップＳ１７１３）、特徴語クラスタｃｎｅｗに単語ｔの傾向ベクトルｖｐｔｎを分類する（ステップＳ１７１４）。クラスタリング部３５は、特徴語クラスタｃｎｅｗの特徴ベクトルｖｃを単語ｔの傾向ベクトルｖｐｔｎとする（ステップＳ１７１５）。

ステップＳ１７１２もしくはステップＳ１７１５が終了すると、クラスタリング部３５は、ステップＳ１７０３に戻り処理を繰り返す。単語集合Ｔに含まれる全ての単語ｔについて繰り返し処理が終了すると（ステップＳ１７０３−ＹＥＳ）、クラスタリング部３５は、図１５のクラスタリング処理を終了する。

このように、図１５に示すクラスタリング部３５のクラスタリング処理によって、図１４に示す傾向ベクトル生成処理において傾向ベクトルが生成された単語、つまり特徴語として判定された単語について、傾向ベクトルが互いに類似し合う特徴語のまとまりである特徴語クラスタが生成される。

図１０における特徴度算出処理においては形態素解析によって単語を抽出しているため、文書分類部３で自動生成される特徴語（フィルタ語）は形態素単位となる。一方、着目語設定部５３において、ユーザが直接入力する着目語は形態素単位である必要はなく、任意の文字列を着目語として設定することが可能である。そして、図１１における着目語設定処理においてユーザが着目語として設定した文字列が形態素単位でない場合でも、図１３に示す特徴度データ取得処理によって、それ以降は単語として扱われることになる。さらに、図１２における特徴度補正処理において、文書分類部３の特徴度補正部３２は、着目語設定部５３から入力された着目語集合に応じて単語の特徴度を補正し、図１５において、クラスタリング部３５は、ユーザが着目する単語に則した特徴語クラスタリングを実現する。

図１６は、特徴語カテゴリ生成部３３のカテゴリ生成処理部３６が特徴語カテゴリを生成する処理の流れを示すフローチャートである。同図に示すフローチャートは、図７のステップＳ８における特徴語カテゴリ生成処理の詳細な処理の一例を示す。この処理において、カテゴリ生成処理部３６は、上述した図１５のクラスタリング処理により生成された特徴語クラスタに含まれる単語をフィルタ語とし、フィルタ語を分類の条件とする特徴語カテゴリのデータを生成してカテゴリ記憶部２に記憶する。

カテゴリ生成処理部３６は、図１５に示すクラスタリングにより生成された特徴語クラスタ集合Ｃを受信する（ステップＳ１８０１）。カテゴリ生成処理部３６は、特徴語クラスタ集合Ｃ中のクラスタに含まれる全ての単語の特徴度データｋｄの集合である特徴度データ集合ｋｄｓを特徴度データ記憶部４から取得する（ステップＳ１８０２）。カテゴリ生成処理部３６は、特徴語クラスタ集合Ｃに含まれる全て特徴語クラスタｃを１つずつ選択し、選択した特徴語クラスタｃについてステップＳ１８０４〜ステップＳ１８０７の処理を繰り返す（ステップＳ１８０３−ＮＯ）。

まず、カテゴリ生成処理部３６は、特徴語クラスタｃに含まれる単語ｔの集合をフィルタ語集合ｔｓとし、特徴度データ集合ｋｄｓを参照してフィルタ語集合ｔｓの中で補正特徴度が最も大きい単語ｔをカテゴリ名ｃｎとする（ステップＳ１８０４）。例えば、特徴語クラスタｃの単語ｔの集合が｛“検索”，“分類”，“管理”｝であるとする。この場合、カテゴリ生成処理部３６は、｛“検索”，“分類”，“管理”｝を特徴語クラスタｃのフィルタ語集合ｔｓとし、フィルタ語集合ｔｓ中で最も補正特徴度が大きい単語である“検索”をカテゴリ名ｃｎとする。

カテゴリ生成処理部３６は、フィルタ語集合ｔｓに基づいて分類ルールｒを生成する（ステップＳ１８０５）。分類ルールｒは、例えば図４の特徴語カテゴリデータ４００、４１０に示すように、「文書データの本文２０５（テキスト情報）にフィルタ語集合ｔｓが含まれること」を条件として、文書を特徴語カテゴリに分類するためのルールとして生成される。

なお、対象とする文書データが図２の文書データ２００ｂに示すようなＸＭＬ文書の場合、分類ルールは、ＸＱｕｅｒｙもしくはＸＰａｔｈで表現する。上記の例で文書データ２００ｂの「本文」要素がテキスト情報である場合、特徴語クラスタｃの分類ルールは「ｃｏｎｔａｉｎｓ（．／本文，“検索”）ａｎｄｃｏｎｔａｉｎｓ（．／本文，“分類”）ａｎｄｃｏｎｔａｉｎｓ（．／本文，“管理”）」となる。

カテゴリ生成処理部３６は、生成した分類ルールｒに該当する文書データｄの集合である文書データ集合ｄｏｃｓを文書記憶部１から取得する（ステップＳ１８０６）。カテゴリ生成処理部３６は、対象カテゴリｔｇｔＣａｔ、カテゴリ名ｃｎ、フィルタ語集合ｔｓ、及び分類ルールｒに基づいて、特徴語カテゴリデータを生成し、カテゴリ記憶部２に記憶する（ステップＳ１８０７）。すなわち、カテゴリ生成処理部３６は、図４に示す特徴語カテゴリデータ４００、４１０と同様の形式で特徴語カテゴリデータを生成する。具体的には、カテゴリ生成処理部３６は、特徴語カテゴリデータのカテゴリ番号、上位カテゴリ、カテゴリ名、分類ルール、フィルタ語にそれぞれ、新たに付与した任意の番号、対象カテゴリｔｇｔＣａｔのカテゴリデータまたは特徴語カテゴリデータのカテゴリ番号、カテゴリ名ｃｎ、分類ルールｒ、フィルタ語集合ｔｓを設定する。さらに、カテゴリ生成処理部３６は、生成した特徴語カテゴリデータに、文書データ集合ｄｏｃｓを対応付けて書き込む。例えば、文書データ集合ｄｏｃｓは、文書データの文書番号により示される。その後、カテゴリ生成処理部３６は、ステップＳ１８０３からの処理に戻り、未選択の特徴語クラスタｃを選択して処理を繰り返す。

ステップＳ１８０３において、特徴語クラスタ集合Ｃ中の特徴語クラスタｃ全てにステップＳ１８０４〜ステップＳ１８０７の繰り返し処理が終了すると（ステップＳ１８０３−ＹＥＳ）、カテゴリ生成処理部３６は、特徴語カテゴリ生成処理を終了する。

図２４は、図１６の特徴語クラスタリング処理の実行により特徴語カテゴリが生成された後のカテゴリ構造の表示例を示す図である。同図に示すように、「内容別」カテゴリ１６０３の下位カテゴリには、特徴語カテゴリとして、カテゴリ２０３１、「検索」カテゴリ２０３２、及び「マイニング」カテゴリ２０３３が生成されている。「分析」カテゴリ２０３１、「マイニング」カテゴリ２０３３に対応するカテゴリデータはそれぞれ、図４に示す特徴語カテゴリデータ４００、４１０である。

図１０〜図１６の処理が終了すると、ユーザインターフェース部５のカテゴリ操作部５２は、図９のステップＳ１１０４の処理を行い、２軸マップ表示部５１に２軸マップ表示を指示する。２軸マップ表示部５１は、カテゴリ操作部５２からの指示を受け、図７のステップＳ６における２軸マップ表示処理を行う。

図１７は、２軸マップ表示部５１が２軸マップを表示させる処理の流れを示すフローチャートである。同図に示すフローチャートは、図７のステップＳ９における２軸マップ表示処理の詳細な処理の一例を示す。

２軸マップ表示部５１は、カテゴリ操作部５２から２軸マップの横軸カテゴリｘＡｘｉｓＣａｔと、縦軸カテゴリｙＡｘｉｓＣａｔとの入力を受ける（ステップＳ１９０１）。２軸マップ表示部５１は、図８のステップＳ１００２と同様の処理により、カテゴリ記憶部２に記憶されているカテゴリデータ及び特徴語カテゴリデータに基づいて、横軸カテゴリｘＡｘｉｓＣａｔの横軸子カテゴリｘＣａｔの集合である横軸子カテゴリ集合ｘＣａｔｓと、縦軸カテゴリｙＡｘｉｓＣａｔの縦軸子カテゴリｙＣａｔの集合である縦軸子カテゴリ集合ｙＣａｔｓを取得する（ステップＳ１９０２）。

具体的には、図２４のようなカテゴリ構造である場合、２軸マップ表示部５１は、横軸子カテゴリ集合ｘＣａｔｓとして、横軸カテゴリｘＡｘｉｓＣａｔである「出願年別」カテゴリ１６０２の子カテゴリの集合｛「２００４年」カテゴリ１６２１、「２００５年」カテゴリ１６２２、「２００６年」カテゴリ１６２３、「２００７年」カテゴリ１６２４、「２００８年」カテゴリ１６２５｝を取得する。また、２軸マップ表示部５１は、縦軸カテゴリｙＡｘｉｓＣａｔである「内容別」カテゴリ１６０３の子カテゴリの集合｛「分析」カテゴリ２０３１、「検索」カテゴリ２０３２、「マイニング」カテゴリ２０３３｝を取得する。

２軸マップ表示部５１は、縦軸カテゴリｙＡｘｉｓＣａｔと、縦軸子カテゴリ集合ｙＣａｔｓに含まれる各縦軸子カテゴリｙＣａｔを行とし、横軸子カテゴリ集合ｘＣａｔｓに含まれる各横軸子カテゴリｘＣａｔを列として２軸マップテーブルを作成し、表示させる（ステップＳ１９０３）。２軸マップテーブルは、カテゴリが表示されるタイトル行及びタイトル列も含むため、行数が（１＋縦軸カテゴリ数＋縦軸子カテゴリ数）、列数が（１＋横軸子カテゴリ数）のテーブルである。

２軸マップ表示部５１は、作成した２軸マップテーブルにおける全てのｃｅｌｌを１つずつ選択し、選択したｃｅｌｌについてステップＳ１９０５〜ステップＳ１９１０の処理を繰り返す（ステップＳ１９０４−ＮＯ）。ステップＳ１９０５〜ステップＳ１９１０の処理は、図８のステップＳ１００５〜ステップＳ１０１０と同様の処理である。

まず、２軸マップ表示部５１はｃｅｌｌが先頭行（１行目）もしくは先頭列（１列目）であるか否か判定する（ステップＳ１９０５）。ｃｅｌｌが先頭行（１行目）もしくは先頭列（１列目）であると判定した場合（ステップＳ１９０５−ＹＥＳ）、２軸マップ表示部５１は、ステップＳ１９０６〜ステップＳ１９０８の処理を行う。すなわち、２軸マップ表示部５１は、選択したｃｅｌｌに対応するカテゴリｃａｔ（縦軸カテゴリｙＡｘｉｓＣａｔ、縦軸子カテゴリｙＣａｔ、または、横軸子カテゴリｘＣａｔ）のカテゴリ名を表示させる（ステップＳ１９０６）。さらに、２軸マップ表示部５１は、ｃｅｌｌに対応するカテゴリｃａｔがフィルタ語集合ｆｉｌｔｅｒｓを持つか否かを判定する（ステップＳ１９０７）。カテゴリｃａｔがフィルタ語集合ｆｉｌｔｅｒｓを持つと判定した場合（ステップＳ１９０７−ＹＥＳ）、２軸マップ表示部５１は、フィルタ語集合ｆｉｌｔｅｒｓに含まれるフィルタ語を当該ｃｅｌｌに表示させる（ステップＳ１９０８）。カテゴリｃａｔがフィルタ語集合ｆｉｌｔｅｒｓを持たないと判定した場合（ステップＳ１９０７−ＮＯ）、あるいは、ステップＳ１９０８の処理の後、２軸マップ表示部５１は、ステップＳ１９０４に戻り、未選択のｃｅｌｌを選択して処理を繰り返す。

ステップＳ１９０５において、ｃｅｌｌが先頭行（１行目）でも先頭列（１列目）でもないと判定した場合（ステップＳ１９０５−ＮＯ）、２軸マップ表示部５１は、ｃｅｌｌの行に対応する縦軸カテゴリｙＡｘｉｓＣａｔまたは縦軸子カテゴリｙＣａｔと、ｃｅｌｌの列に対応する横軸子カテゴリｘＣａｔとの両方に分類された文書データの数である文書数ｄｎを求める（ステップＳ１９０９）。２軸マップ表示部５１は、ステップＳ１９０３で作成した２軸マップテーブルのｃｅｌｌに、ステップＳ１９０９において算出した文書数ｄｎに応じた大きさの円ｃｈａｒｔを表示させる（ステップＳ１９１０）。その後、２軸マップ表示部５１は、ステップＳ１９０４に戻り、未選択のｃｅｌｌを選択して処理を繰り返す。

２軸マップ表示部５１は、ステップＳ１９０４において全てのｃｅｌｌに対してステップＳ１９０５〜ステップＳ１９１０の処理を終了すると（ステップＳ１９０４−ＹＥＳ）、ステップＳ１９１１の処理を行う。

図２５は、図１６の特徴語クラスタリング処理の実行により特徴語カテゴリが生成された後に図２４に示すカテゴリ構造となった場合に、ステップＳ１９０４までの処理の終了時に２軸マップ表示部５１が表示させる２軸マップテーブルの表示例を示す図である。同図に示す２軸マップの横軸カテゴリ（軸カテゴリ）は、図２２に示す２軸マップと同じである。縦軸には対象カテゴリである「内容別」カテゴリと、「内容別」カテゴリについて生成された下位カテゴリである特徴語カテゴリ「分析」、「検索」、及び「マイニング」とが含まれ、これら特徴語カテゴリそれぞれのフィルタ語が表示されている。例えば、特徴語カテゴリ「マイニング」のセル２１０１には、フィルタ語「マイニング、解析、関連語」が表示されている。また、２軸マップを表示させる際、２軸マップ表示部５１は、２軸マップの各セルに、そのセルが対応する行の項目のカテゴリと列の項目のカテゴリとの両カテゴリに分類された文書数に応じたグラフを表示させている。

ステップＳ１９０４の繰り返し終了後、ユーザがあるカテゴリｃａｔのフィルタ語集合ｆｉｌｔｅｓの中からフィルタ語ｆを選択した場合（ステップＳ１９１１−ＹＥＳ）、２軸マップ表示部５１は、ステップＳ１９１２〜ステップＳ１９１５の処理を行う。

２軸マップ表示部５１は、フィルタ語ｆが選択されたカテゴリｃａｔの親カテゴリｐｃａｔをカテゴリ記憶部２から取得する（ステップＳ１９１２）。２軸マップ表示部５１は、このカテゴリｃａｔに該当する行内のタイトル列以外の全てのｃｅｌｌを１つずつ選択し、選択したｃｅｌｌについてステップＳ１９１４及びステップＳ１９１５の処理を繰り返す（ステップＳ１９１３−ＮＯ）。

２軸マップ表示部５１は、選択したｃｅｌｌに対応する横軸子カテゴリｘＣａｔのカテゴリデータ（または特徴カテゴリデータ）と横軸子カテゴリｘＣａｔの上位カテゴリのカテゴリデータ（または特徴カテゴリデータ）とから分類ルールを読み出し、読み出した分類ルールの論理積を横軸子カテゴリｘＣａｔの分類ルールｘｒとする。さらに、２軸マップ表示部５１は、親カテゴリｐｃａｔのカテゴリデータ（または特徴カテゴリデータ）から分類ルールｐｒを読み出す。２軸マップ表示部５１は、文書記憶部１を参照し、横軸子カテゴリｘＣａｔの分類ルールｘｒと、親カテゴリｐｃａｔの分類ルールｐｒと、選択されたフィルタ語ｆとに基づき、選択したｃｅｌｌにおいてフィルタ語を含んだ対象文書データの数である文書数ｆｄｎを求める（ステップＳ１９１４）。この文書数ｆｄｎは、上述のｄｎ同様に条件式の積で求めることができ、その条件式は「ｘｒａｎｄｐｒａｎｄ（ｃｏｎｔａｉｎｓ（．／本文，ｆ））」となる。

２軸マップ表示部５１は、表示させた２軸マップテーブルにおいて選択されたｃｅｌｌに、ステップＳ１９１０において表示させた円ｃｈａｒｔとは異なる色により、文書数ｆｄｎに応じた大きさの円ｃｈａｒｔを表示させる（ステップＳ１９１５）。カテゴリ操作部５２は、ステップＳ１９１３に戻り、未選択のｃｅｌｌを選択して処理を繰り返す。
そして、フィルタ語ｆが選択されたカテゴリｃａｔに該当する行内のタイトル列以外の全てのｃｅｌｌについて処理を終了すると（ステップＳ１９１３−ＹＥＳ）、カテゴリ操作部５２は、ステップＳ１９１１に戻る。

以上のステップＳ１９１２〜ステップＳ１９１５の処理では、ユーザが２軸マップ上でフィルタ語を選択した場合に、２軸マップ表示部５１は、フィルタ語が選択された行の各列のｃｅｌｌに、フィルタ語を含む文書数の円ｃｈａｒｔを、ステップＳ１９１０において表示させた円ｃｈａｒｔとは区別して表示させる。

図２６は、フィルタ語選択時の２軸マップの表示例を示す図である。図２６の例では、図２５の表示の後、ユーザが、縦軸子カテゴリ「マイニング」が表示されているセル２２０１においてフィルタ語「関連語」を選択した場合を示している。２軸マップ表示部５１は、フィルタ語が選択されたセル２２０１が含まれる行については、横軸子カテゴリ「２００４年」、「２００５年」、「２００６年」、「２００７年」、「２００８年」のそれぞれに対応した列のセルに、網掛けの部分により「関連語」を含む文書データの数を表わしている。例えば、セル２２２２には、セル２２０１に対応した特徴語カテゴリ「マイニング」とセル２２１１に対応した横軸子カテゴリ「２００４年」との両カテゴリに含まれる文書データの中で、「関連語」を含む文書データの数を表している。

図１７のステップＳ１９１１において、２軸マップ表示部５１は、フィルタ語の選択が入力されていないと判定した場合（ステップＳ１９１１−ＮＯ）、ユーザから終了要求が入力されないときには（ステップＳ１９１６−ＮＯ）、ステップＳ１９１１の処理に戻り、終了要求の入力を受けたときには処理を終了する（ステップＳ１９１６−ＹＥＳ）。

続いて、図７のステップＳ１０及びステップＳ１１の詳細な処理について、図９及び後述する図１８の処理フローを用いて説明する。
図９のステップＳ１１０４において、２軸マップ表示部５１が、カテゴリ操作部５２からの指示を受け、図１７の処理により図２５に示すような２軸マップを表示させると、カテゴリ操作部５２は、ステップＳ１１０１の処理に戻る。カテゴリ操作部５２は、現在表示されている２軸マップ上でユーザが選択したカテゴリｃａｔの入力を受け（ステップＳ１１０１−ＹＥＳ）、さらに、フィルタ語の追加要求の入力を受けた場合（ステップＳ１１０２−ＮＯ、ステップＳ１１０５−ＹＥＳ）、ステップＳ１１０６〜ステップＳ１１１０の処理を行う。

まず、カテゴリ操作部５２は、特徴度データ記憶部４に記憶されている特徴度データのうち、傾向ベクトルが設定されている特徴度データｋｄを読み出し、読み出した特徴度データｋｄの集合である特徴度データ集合ｋｄｓを取得する（ステップＳ１１０６）。この特徴度データ集合ｋｄｓは、文書分類部３において特徴語と判定された単語の特徴度データの集合である。カテゴリ操作部５２は、特徴度データ集合ｋｄｓ中の単語を補正特徴度順に表示させる（ステップＳ１１０７）。本実施形態では、上述の通り特徴語の表示を補正特徴度順としたが、これに限らず、単に文書頻度順や特徴度順としてもよい。

図２７は、２軸マップにおける特徴語カテゴリの編集操作とその画面の表示例を示す図である。同図において、カテゴリ操作部５２は、ステップＳ１１０１において選択されたセル２３０３に対応した特徴語カテゴリ「マイニング」の特徴語追加画面２３１０を表示させている。カテゴリ操作部５２は、特徴語追加画面２３１０の特徴語リスト表示フィールド２３１１に、ステップＳ１１０６において取得した特徴度データ集合ｋｄｓに含まれる単語である特徴語の一覧を表示させている。このとき、カテゴリ操作部５２は、それぞれの特徴語にチェックボックスをつけて表示させる。また、カテゴリ操作部５２は、初期表示として、選択されたカテゴリｃａｔのフィルタ語になっている特徴語に対応したチェックボックスにはチェックをつけて表示させる。特徴語追加画面２３１０は、選択されたｃａｔのフィルタ語としてユーザが任意の文字列を入力するための入力フィールド２３１２と、ユーザがフィルタ語の追加の実行を要求するための「フィルタ語に追加」ボタン２３１３を含む。

カテゴリ操作部５２は、特徴語の表示に対してユーザからのフィルタ語の選択、もしくは入力を受け付ける（ステップＳ１１０８）。具体的には、ユーザは、入力フィールド２３１２にフィルタ語として追加すべき文字列を入力するか、特徴語リスト表示フィールド２３１１においてフィルタ語として追加すべき特徴語に対応したチェックボックスにチェックをつける。カテゴリ操作部５２は、ユーザからフィルタ語ｆの追加の実行要求が入力されない場合（ステップＳ１１０９−ＮＯ）、ステップＳ１１０５からの処理を繰り返す。

ステップＳ１１０９において、ユーザからフィルタ語ｆの追加の実行要求を受けた場合、具体的には、ユーザが図２７の「フィルタ語に追加」ボタン２３１３を選択した場合（ステップＳ１１０９−ＹＥＳ）、カテゴリ操作部５２は、選択されたカテゴリｃａｔの特徴語カテゴリデータへフィルタ語ｆを追加する処理を行う（ステップＳ１１１０）。フィルタ語ｆは、ステップＳ１１０８において、ユーザが入力フィールド２３１２に入力した文字列、または、特徴語リスト表示フィールド２３１１においてチェックをつけた特徴語である。このフィルタ語ｆの追加処理の詳細については、後述する図１８のフィルタ語の追加・削除処理の流れで説明する。

ステップＳ１１１０の処理の後、カテゴリ操作部５２は、上述したステップＳ１１０４の処理を行って２軸マップの更新を２軸マップ表示部５１に指示する。２軸マップ表示部５１は、カテゴリ操作部５２から現在表示させている２軸マップの横軸カテゴリｘＡｘｉｓＣａｔと、縦軸カテゴリｙＡｘｉｓＣａｔの入力を受けて図１７の処理を行い、フィルタ語の追加を２軸マップに反映する。カテゴリ操作部５２は、ステップＳ１１０１の処理に戻る。

カテゴリ操作部５２は、ユーザにより選択されたカテゴリｃａｔの入力を受け（ステップＳ１１０１−ＹＥＳ）、さらに、ユーザからフィルタ語ｆの削除要求を受けた場合（ステップＳ１１０２、ステップＳ１１０５−ＮＯ、ステップＳ１１１１−ＹＥＳ）、選択されたカテゴリｃａｔの特徴語カテゴリデータからフィルタ語ｆを削除する処理を行う（ステップＳ１１１２）。このフィルタ語ｆの削除処理の詳細については、後述する図１８のフィルタ語の追加・削除処理の流れで説明する。

ステップＳ１１１２の処理の後、カテゴリ操作部５２は、上述したステップＳ１１０４の処理を行って２軸マップの更新を２軸マップ表示部５１に指示する。２軸マップ表示部５１は、カテゴリ操作部５２から現在表示させている２軸マップの横軸カテゴリｘＡｘｉｓＣａｔと、縦軸カテゴリｙＡｘｉｓＣａｔの入力を受けて図１７の処理を行い、フィルタ語の削除を２軸マップに反映する。カテゴリ操作部５２は、ステップＳ１１０１の処理に戻る。

図１８は、カテゴリ操作部５２における特徴語カテゴリのフィルタ語の追加または削除の処理の流れを示すフローチャートである。同図に示すフローチャートは、図９のステップＳ１１１０及びステップＳ１１１２における詳細な処理の一例を示す。

まず、カテゴリ操作部５２は、追加もしくは削除する単語ｔと、カテゴリｃａｔを入力として受け取る（ステップＳ２００１）。カテゴリｃａｔは、図９のステップＳ１１０１において選択されたカテゴリであり、追加する単語ｔは、図９のステップＳ１１０８においてユーザが選択もしくは入力したフィルタ語であり、削除する単語は、図９のステップＳ１１１１において削除が要求されたフィルタ語ｆである。カテゴリ操作部５２は、カテゴリ記憶部２に記憶されているカテゴリｃａｔの特徴語カテゴリデータを特定し、特定した特徴語カテゴリデータに設定されているフィルタ語の集合であるフィルタ語集合ｆｓを取得する。

フィルタ語の追加の場合（ステップＳ２００２−[追加]）、カテゴリ操作部５２は、フィルタ語集合ｆｓに単語ｔを追加する（ステップＳ２００３）。ただし、フィルタ語集合ｆｓに、すでに単語ｔが存在する場合、カテゴリ操作部５２は何もしない。一方、フィルタ語の削除の場合（ステップＳ２００２−[削除]）、カテゴリ操作部５２は、フィルタ語集合ｆｓから単語ｔを削除する（ステップＳ２００４）。ただし、フィルタ語集合ｆｓに単語ｔが存在しない場合、カテゴリ操作部５２は何もしない。

ステップＳ２００３またはステップＳ２００４の処理の後、カテゴリ操作部５２は、フィルタ語集合ｆｓに基づいて分類ルールｒを生成し、カテゴリｃａｔの分類ルールを更新する（ステップＳ２００５）。分類ルールの生成方法については、図１６のステップＳ１８０５の説明を参照されたい。カテゴリ操作部５２は、カテゴリ記憶部２に格納されているカテゴリｃａｔの特徴語カテゴリデータに設定されている分類ルール、及びフィルタ語をそれぞれ、ステップＳ２００５に更新した分類ルールｒ、及びステップＳ２００３またはステップＳ２００４において更新したフィルタ語集合ｆｓに更新する（ステップＳ２００６）。

本実施形態では、フィルタ語の追加・削除処理について述べたが、追加・削除を組み合わせることで、カテゴリ操作部５２は、あるカテゴリのフィルタ語を他のカテゴリのフィルタ語として移動もしくは複写することが可能となる。

図２８は、特徴語カテゴリの編集操作後の２軸マップの表示例を示す図であり、図２７に示す２軸マップにおいて、ユーザが以下の（１）及び（２）の編集操作を行った後の表示例である。
（１）ユーザが、セル２３０２に表示されている「検索」カテゴリのフィルタ語“管理”を、セル２３０１に表示されている「分析」カテゴリに移動する。
（２）ユーザが、セル２３０３に表示されている「マイニング」カテゴリのフィルタ語“関連語”を削除する。

上述した図９のステップＳ１１０５〜ステップＳ１１１２の処理によって、ユーザは２軸マップ上で、文書分類部３で自動生成された特徴語カテゴリに対して、簡単に編集を行うことができる。従って、文書分類装置１００は、ユーザの分類・分析の意図や目的に合わせてカテゴリ構造を構成することが可能となる。また、この際にユーザがフィルタ語を選択することによって、文書分類装置１００は、図２６に示すような表示を行う。この表示により、ユーザは、選択されたフィルタ語に関する出現傾向を把握することができる。従って、文書分類装置１００は、ユーザが指定した横軸カテゴリ（図２６では「出願年別」カテゴリ）を基軸とした分類・分析作業を支援することが可能となる。

なお、本実施形態においては、２軸マップの各セルには、文書数ｄｎを円の大きさで表示させる、いわゆるバブルチャートで表現したが、文書数ｄｎの表示はこれに限らない。例えば、各セルに対応する文書数ｄｎを、折れ線グラフや棒グラフで表現してもよい。

図２９は、２軸マップを折れ線グラフで表現したときの表示例を示す図である。同図に示すように、折れ線グラフを利用した場合は、特許文献なら出願傾向の遷移の様子を把握するなど、時系列的な傾向変化を捉えるのに有効である。このとき、同図に示すように、フィルタ語については異なる線種のグラフで文書数ｄｎを表現することで、さらに各フィルタ語に対する出現傾向の把握を容易にすることができる。

また、上記実施形態においては、特徴語とする単語を補正特徴度に基づいて選択しているが、特徴度に基づいて選択してもよい。この場合、特徴度データは、補正特徴度のデータを有せず、特徴度補正部３２は、図１２のステップＳ１４０４〜ステップＳ１４１０までの処理は行わない。そして、図１４のステップＳ１６０３において、傾向ベクトル生成部３４は、特徴度データ記憶部４に記憶されている特徴度データから単語ｔの特徴度を取得する。ステップＳ１６０４において、傾向ベクトル生成部３４は、取得した特徴度があらかじめ設定された一定のしきい値より大きい場合は、ステップＳ１６０５の処理を行い、しきい値より小さい場合は、ステップＳ１６０２に戻る。

また、上記実施形態においては、ユーザからの着目語の入力を受けているが、着目語の入力がなくてもよい。着目語の入力がない場合、図１２の処理において、特徴度補正部３２は、ステップＳ１４０１〜ステップＳ１４０３、及びステップＳ１４０７〜ステップＳ１４０９の繰り返し処理を行わない。そして、特徴度補正部３２は、ステップＳ１４０６で補正特徴度ｍｓ（ｔ）を算出すると、算出した補正特徴度ｍｓ（ｔ）を特徴度データに格納するステップＳ１４１０の処理を行い、ステップＳ１４０４に戻る処理となる。

また、着目語の入力を受けない場合、文書分類装置１００が、着目語設定部５３を設けない構成とすることもできる。この場合、図１２の処理は行われず、図１４のステップＳ１６０３において、傾向ベクトル生成部３４は、特徴度データ記憶部４に記憶されている特徴度データから単語ｔの特徴度を取得する。そして、ステップＳ１６０４において、傾向ベクトル生成部３４は、取得した特徴度があらかじめ設定された一定のしきい値より大きい場合は、ステップＳ１６０５の処理を行い、しきい値より小さい場合は、ステップＳ１６０２に戻る。

なお、上記実施形態では横軸を軸カテゴリ、縦軸を対象カテゴリとした例を示しているが、縦軸を軸カテゴリ、横軸を対象カテゴリとしてもよい。

以上述べた少なくともひとつの実施形態の文書分類装置１００によれば、カテゴリ操作部５２、及び特徴語カテゴリ生成部３３を持つことにより、ユーザが指定した２つのカテゴリを２軸とする２軸マップにおいてユーザが選択した分類軸に対する単語の出現傾向に基づき特徴語を選択し、選択した特徴語を用いて特徴語カテゴリを生成する。これにより、ユーザは、現在生成されているクラスタリング結果や分類構造を利用した２軸マップを見ながら分類軸を選択することができるため、文書分類装置１００は、ユーザの観点に適した分類構造を生成し、ユーザの目的にあった分類と分析を支援することが可能となる。

また、従来の単語クラスタリングでは、クラスタの生成に用いる単語を適切に選定し、比較的小さい計算量によって処理を行っていたが、この単語の選定は、文書に出現する単語の統計的な出現傾向に基づいて自動的に行われていた。そのため、文書集合の内容をあまりよく表さない単語や、ユーザの意図や分析の目的に合わない単語がクラスタの生成に用いる単語として選定されてしまうことも多かった。このような場合には、ユーザは、不要な単語を除外したり、重要な単語を登録したりといった作業を行って、ユーザの目的にあったクラスタの生成に用いるために、分類装置に対して所望の単語が選定されるよう指示する必要があり、この作業には熟練や労力を要していた。
しかし、以上述べた少なくともひとつの実施形態の文書分類装置１００によれば、着目語設定部５３を持つことによりユーザによる着目語の指定を受け、指定された着目語と関連が強い特徴語に基づき特徴語カテゴリを生成する。さらに、文書分類装置１００は、カテゴリ操作部５２を持つことにより、生成された特徴語カテゴリに対するフィルタ語の編集を受け、編集語のフィルタ語を用いて２軸マップを更新する。これらにより、クラスタ生成のために重要な単語をユーザが選定するための労力を軽減しながら、ユーザの関心に合わせた特徴語による分類構造の生成と修正を実現する。

なお、上述の各実施形態における図１の文書分類装置１００の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより文書分類装置１００として動作させるようにしてもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…文書記憶部
２…カテゴリ記憶部
３…文書分類部
３１…特徴度算出部
３２…特徴度補正部
３３…特徴語カテゴリ生成部
３４…傾向ベクトル生成部
３５…クラスタリング部
３６…カテゴリ生成処理部
４…特徴度データ記憶部
５…ユーザインターフェース部
５１…２軸マップ表示部
５２…カテゴリ操作部
５３…着目語設定部
１００…文書分類装置

Claims

文書データを記憶する文書記憶部と、
カテゴリの階層構造と、前記文書データを前記カテゴリへ分類する際の分類ルールとを記憶するカテゴリ記憶部と、
分類の観点とするカテゴリと分類対象のカテゴリである対象カテゴリとの入力を受け、前記カテゴリ記憶部から分類の観点とする前記カテゴリの下位のカテゴリである軸カテゴリの集合を軸カテゴリ集合として読み出すカテゴリ操作部と、
前記文書記憶部に記憶されている文書データのうち、前記対象カテゴリの前記分類ルールを満たす前記文書データの集合を対象文書データ集合とし、前記対象文書データ集合に含まれる単語の特徴度を算出する特徴度算出部と、
前記特徴度算出部が算出した前記特徴度に基づいて文書の特徴を表す前記単語を選択し、選択した前記単語それぞれについて、前記軸カテゴリ集合中の各軸カテゴリの前記分類ルールを満たす前記対象文書データ集合における前記単語の出現頻度に基づく統計量を算出し、前記統計量を当該軸カテゴリに対応する要素の値として設定した傾向ベクトルを生成する傾向ベクトル生成部と、
前記傾向ベクトル生成部が生成した前記傾向ベクトルの類似性に基づいて前記単語をクラスタリングするクラスタリング部と、
前記クラスタリング部によるクラスタリングの結果得られたクラスタごとに、前記対象カテゴリを上位のカテゴリとし、前記クラスタに属する単語をフィルタ語に用いた分類ルールを有する特徴語カテゴリを生成して前記カテゴリ記憶部に登録するカテゴリ生成処理部と、
前記軸カテゴリを第１軸の分類項目とし、前記特徴語カテゴリを第２軸の分類項目とした２軸マップの各セルに、前記文書記憶部に記憶されている前記文書データのうち、前記セルに対応した前記軸カテゴリの前記分類ルールと前記セルに対応した前記特徴語カテゴリの前記分類ルールとを満たす前記文書データの数を表す情報を表示させる２軸マップ表示部と、
を具備することを特徴とする文書分類装置。
前記２軸マップ表示部は、
前記特徴語カテゴリの前記分類ルールに用いられている前記フィルタ語を表示させ、表示させた前記フィルタ語の中から選択された前記フィルタ語の入力を受けた場合に、前記文書記憶部に記憶されている前記文書データのうち、前記軸カテゴリの前記分類ルールを満たし、かつ、選択された前記フィルタ語を含む前記文書データの数を表す情報を表示させる、
ことを特徴とする請求項１に記載の文書分類装置。
前記２軸マップ表示部は、
前記特徴語カテゴリの前記分類ルールに用いられている前記フィルタ語を表示させ、前記特徴語カテゴリに対する前記フィルタ語の編集操作を受けた場合に、編集操作を受けた前記特徴語カテゴリの前記分類ルールを前記編集操作に基づいて変更し、
前記２軸マップの各セルに、前記文書記憶部に記憶されている前記文書データのうち、前記セルに対応した前記軸カテゴリの前記分類ルールと前記セルに対応した前記特徴語カテゴリの変更後の前記分類ルールとを満たす前記文書データの数を表す情報を表示させる、
ことを特徴とする請求項１または請求項２のいずれか１項に記載の文書分類装置。
前記文書データを分類にあたり着目する単語である着目語の入力を受ける着目語設定部と、
前記特徴度算出部が算出した前記単語の特徴度を、前記対象文書データ集合における前記単語と前記着目語との共起度に基づいて補正する特徴度補正部とをさらに備え、
前記傾向ベクトル生成部は、前記特徴度補正部により補正された前記特徴度に基づいて文書の特徴を表す前記単語を選択し、選択した前記単語それぞれについて、前記軸カテゴリ集合中の各軸カテゴリの前記分類ルールを満たす前記対象文書データ集合における前記単語の出現頻度に基づく統計量を算出し、前記統計量を当該軸カテゴリに対応する要素の値として設定した傾向ベクトルを生成する、
ことを特徴とする前記請求項１から請求項３のいずれか１項に記載の文書分類装置。
前記２軸マップ表示部は、横軸となるカテゴリ及び縦軸となるカテゴリの入力を受け、前記カテゴリ記憶部から横軸となる前記カテゴリの下位のカテゴリである横軸子カテゴリを読み出すとともに縦軸となる前記カテゴリの下位のカテゴリである縦軸子カテゴリを読み出し、前記横軸子カテゴリが読み出された場合は前記横軸子カテゴリを、読み出されなかった場合は前記横軸となるカテゴリを列の項目とし、前記縦軸子カテゴリが読み出された場合は前記縦軸子カテゴリを、読み出されなかった場合は前記縦軸となるカテゴリを行の項目とした２軸マップの各セルに、前記セルの列の項目に対応した前記カテゴリの前記分類ルール及び前記セルの行の項目に対応した前記カテゴリの前記分類ルールを満たす前記文書データの数を表す情報を表示させ、
前記カテゴリ操作部は、行の項目に対応した前記カテゴリと列の項目に対応した前記カテゴリのいずれを分類の観点とするカテゴリまたは対象カテゴリとするかの入力を受ける、
ことを特徴とする請求項１から請求項４のいずれか１項に記載の文書分類装置。