JP2007241636A

JP2007241636A - 文書データ解析装置および文書データ解析プログラム

Info

Publication number: JP2007241636A
Application number: JP2006062903A
Authority: JP
Inventors: Toshiyuki Kano; 敏行加納; Shigeru Matsumoto; 茂松本; Hiroshi Taira; 博司平; Kunitake So; 国威祖
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2006-03-08
Filing date: 2006-03-08
Publication date: 2007-09-20

Abstract

【課題】専門的な知識を要することなく文書データの各カテゴリへの分類のためのキーワードを決定する。
【解決手段】入力部１はカテゴリ情報を含む複数の文書データを入力する。文書解析部２は入力部１から入力した文書データに含まれるカテゴリ情報を認識する。文書解析部２は入力部１が入力した文書データに含まれる文章の各単語を切り出す。文書解析部２は文書データに含まれる単語をその頻度をそれぞれの文書データについて計算して単語頻度データを生成し、これを単語頻度記憶部３に記憶させる。単語重要度算出部４は単語頻度記憶部３に記憶された単語頻度データをもとに、共通のカテゴリに属する文書データにおける各単語の重要度の値をそれぞれのカテゴリについて計算する。出力部５は単語重要度算出部４による計算結果をもとに、各カテゴリについて単語重要度の値が大きい単語をカテゴリごとに抽出する。
【選択図】図１

Description

本発明は、文書データに含まれる単語を解析する文書データ解析装置および文書データ解析プログラムに関する。

従来、記憶装置に蓄積されている文書データから所望の文書データを検索するために用いる文書データ検索システムがある。このシステムは１つあるいは２つ以上の検索キーワードを入力するとこの入力したキーワードを含む文書データを記憶装置から検索する。

また、このような文書データ検索システムには文書データを分類する機能を有するものがある。具体的には、このシステムは予め設定された検索用キーワードを含む文書データを記憶装置から検索し、この検索した文書データを当該キーワードの属するカテゴリに分類する。このようなシステムとして例えば電子メールのフィルタリングシステムがある。

このようなフィルタリングシステムは各カテゴリの文書データに一般的に含まれるキーワードをユーザがカテゴリごとに予め設定した後に当該キーワードを含んだ文書データを検索する。

このキーワードを決定するための技術として、例えば特許文献１に開示されるように抽出用知識データベースと入力文書データとを照合することで当該入力文書データに含まれるキーワードをインデックスとして抽出するインデックス抽出支援システムがある。
特公平７−６９９１８号公報

しかし、前述したインデックス抽出支援システムではデータベースを構築して文書データからキーワードを精度良く抽出するためには当該文書データのカテゴリに関する専門的な知識が必要となるので手間とコストがかかる。

また、前述したようなフィルタリングシステムにおいて、ユーザは文書データのカテゴリ毎に適切な検索用キーワードをカテゴリ分類済の文書データの内容を参照するなどして予め決定する必要がある。

ユーザはこの検索用キーワードを決定する際、単一のカテゴリに属する文書データに含まれる可能性が高く他のカテゴリに属する文書データに含まれる可能性の低いキーワードをカテゴリごとに把握する必要がある。つまりユーザはフィルタリングの対象となる文書データのあらゆるカテゴリの内容を熟知する必要がある。以上のように検索用キーワードを決定するには時間と手間がかかり、適切なキーワードを短時間に用意することは非常に困難である。

そこで、本発明の目的は、専門的な知識を要することなく文書データの各カテゴリへの分類のためのキーワードを決定することが可能になる文書データ解析装置および文書データ解析プログラムを提供することにある。

すなわち、本発明に係わる文書データ解析装置は、複数種類のうちいずれかの種類のカテゴリに属する複数の文書データを取得し、この取得した文書データに含まれる単語を認識し、この取得した文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前述のように認識した単語のそれぞれおよび複数種類のカテゴリのそれぞれについて計算し、前述のように取得した文書データのうち共通のカテゴリに属する文書データの数を複数種類のカテゴリのそれぞれについて計算し、前述のように取得した文書データのうち単一種類の単語を共通して含む文書データの数を前述のように認識した単語のそれぞれについて計算し、これらの計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データに含まれる前記認識した単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語を複数種類のカテゴリのそれぞれについて解析することを特徴とする。

本発明に係わる文書データ解析装置では、複数種類のうちいずれかの種類のカテゴリに属する複数の文書データを取得し、この取得した文書データに含まれる単語を認識し、この取得した文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前述のように認識した単語のそれぞれおよび複数種類のカテゴリのそれぞれについて計算し、前述のように取得した文書データのうち共通のカテゴリに属する文書データの数を複数種類のカテゴリのそれぞれについて計算し、前述のように取得した文書データのうち単一種類の単語を共通して含む文書データの数を前述のように認識した単語のそれぞれについて計算し、これらの計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データに含まれる前記認識した単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語を複数種類のカテゴリのそれぞれについて解析するので、専門的な知識を要することなく文書データの各カテゴリへの分類のためのキーワードを決定することができる。

以下図面により本発明の実施形態について説明する。
図１は、本発明の実施形態にしたがった文書データ解析装置の構成例を示すブロック図である。
この文書データ解析装置は、属するカテゴリが既に判明している文書データをもとに、それぞれのカテゴリに属する文書データに関する重要単語を導出する装置である。

本発明の実施形態にしたがった文書データ解析装置は入力部１、文書解析部２、単語頻度記憶部３、単語重要度算出部４および出力部５を備える。
入力部１は既に属するカテゴリが判明している複数の文書データを入力し、これらを文書解析部２に出力する。

文書解析部２は入力部１からの各文書データに含まれる各文章を単語に切り分け、単語頻度データを生成する。この単語頻度データについては後述する。
単語頻度記憶部３は例えばハードディスクドライブや不揮発性メモリなどの記憶媒体であり、文書解析部２が生成した単語頻度データを記憶する。

単語重要度算出部４は単語頻度記憶部３に記憶された単語頻度データをもとに各カテゴリにおける各単語の単語重要度を算出する。単語重要度とは、複数種類のうち共通のカテゴリに属する文書データに含まれる単一種類の単語の出現度合と他のカテゴリに属する文書データ中の当該単一種類の単語と同一の単語の出現度合との関連を示す値である。

出力部５は単語重要度算出部４が算出した単語重要度をもとに各カテゴリに属する文書データに含まれる重要単語を出力する。重要単語とは、複数種類のうち共通のカテゴリに属する文書データに含まれる単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語である。

次に、図１に示した構成の文書データ解析装置の動作について説明する。
図２は本発明の実施形態にしたがった文書データ解析装置の動作の一例を示すフローチャートである。

まず、入力部１は前述したようにカテゴリ情報を含む複数の文書データを入力し（ステップＳ１）、これら入力した文書データを文書解析部２に順次出力する。この文書データはカテゴリ情報を含む。このカテゴリ情報は当該文書データが属するカテゴリの名称を示す情報である。カテゴリの名称とは例えば「会議用」、「連絡用」、「その他」などである。

以後、カテゴリは“Ａ”、“Ｂ”および“Ｃ”の３種類であるとして説明する。
文書解析部２は入力部１から入力した文書データに含まれるカテゴリ情報をもとに文書カテゴリデータベースを生成してこれを内部メモリに記憶する（ステップＳ２）。

図３は、本発明の実施形態にしたがった文書データ解析装置の文書解析部２に記憶された文書カテゴリデータベースの一例を表形式で示す図である。
図３に示した文書カテゴリデータベースでは、文書解析部２が入力部１から入力した各文書データの文書ナンバ名の情報および当該文書データが属するカテゴリ名の情報が対応付けられて管理される。

図３に示した例では、文書カテゴリデータベースは文書ナンバ“１”がファイル名として付された文書データおよび文書ナンバ“２”がファイル名として付された文書データが属するカテゴリが“Ａ”であることを示す。

また、この文書カテゴリデータベースは文書ナンバ“３”がファイル名として付された文書データおよび文書ナンバ“４”がファイル名として付された文書データが属するカテゴリが“Ｂ”であることを示す。また、文書カテゴリデータベースは文書ナンバ“５”がファイル名として付された文書データおよび文書ナンバ“６”がファイル名として付された文書データが属するカテゴリが“Ｃ”であることを示す。
この例では１つの文書データが属するカテゴリは１つであるが、１つの文書データが属するカテゴリが複数種類であってもよい。

文書解析部２は入力部１が入力した各文書データに含まれる文章に対して必要に応じて形態素解析を行ない、この文章の各単語を切り出す（ステップＳ３）。
なお、文書解析部２は入力部１からの文書データに含まれる文章が英語の場合にはこの文章の空白や句読点をもとに各単語を切り出す。つまりこの場合には文書解析部２は形態素解析を行なう必要はない。

ここでは文書解析部２が切り出した単語は“Ｗａ”、“Ｗｂ”、“Ｗｃ”、“Ｗｄ”、“Ｗｅ”、“Ｗｆ”、“Ｗｇ”、“Ｗｈ”、“Ｗｉ”、“Ｗｊ”、“Ｗｋ”、“Ｗｌ”、“Ｗｍ”、…であるとする。

文書解析部２は、文書データに含まれる単語をその頻度をそれぞれの文書データについて計算して単語頻度データを生成する（ステップＳ４）。
単語頻度データは単語頻度第１テーブル、単語頻度第２テーブルおよび単語頻度第３テーブルでなる。

図４は本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第１テーブルの構成例を表形式で示す図である。
図５は本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第２テーブルの構成例を表形式で示す図である。
図６は本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第３テーブルの構成例を表形式で示す図である。

具体的には文書解析部２は第１の計算として、各文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前述のように切り出した単語のそれぞれおよび各カテゴリのそれぞれについて計算する。文書解析部２はこれらの計算結果をもとに単語頻度第１テーブルを生成し、これを単語頻度記憶部３に記憶させる。

図４に示した単語頻度第１テーブルでは、カテゴリ“Ａ”に属して単一種類の単語を共通して含む文書データの数、カテゴリ“Ｂ”に属して単一種類の単語を共通して含む文書データの数およびカテゴリ“Ｃ”に属して単一種類の単語を共通して含む文書データの数が“Ｗａ”〜“Ｗｍ”を含む各単語のそれぞれについて示される。

また、文書解析部２は第２の計算として、各文書データのうち共通のカテゴリに属する文書データの数を各カテゴリのそれぞれについて計算する。文書解析部２はこれらの計算結果をもとに単語頻度第２テーブルを生成し、これを単語頻度記憶部３に記憶させる。

図５に示した単語頻度第２テーブルでは、カテゴリ“Ａ”に属する文書データの数、カテゴリ“Ｂ”に属する文書データの数およびカテゴリ“Ｃ”に属する文書データの数が示される。

また、文書解析部２は第３の計算として、各文書データのうち単一種類の単語を共通して含む文書データの数を前述のように切り出した単語のそれぞれについて計算する。文書解析部２はこれらの計算結果をもとに単語頻度第３テーブルを生成し、これを単語頻度記憶部３に記憶させる。
図６に示した単語頻度第３テーブルでは、全文書データのうち単一種類の単語を共通して含む文書データの数が“Ｗａ”〜“Ｗｍ”を含む各単語のそれぞれについて示される。
図４乃至図６に示した各テーブルによれば、カテゴリ“Ａ”に属して単語“Ｗａ”を含む文書データの数は１０であり、カテゴリ“Ａ”に属する文書データの数は１０であり、単語“Ｗａ”を含む文書データの数は３０である。

単語重要度算出部４は、単語頻度記憶部３に記憶される第１乃至第３単語頻度テーブルを参照し、この参照した内容をもとに共通のカテゴリに属する文書データにおける各単語の重要度の値をそれぞれのカテゴリについて計算する（ステップＳ５）。

具体的には、単語重要度算出部４は共通のカテゴリに属する文書データにおける単一の単語の単語重要度を以下の式（１）にしたがって計算する。

式（１）で示された“ｃ”および“ｔ”は変数である。また、式（１）で示されたＰ（ｔ，ｃ）は以下の式（２）にしたがって計算される。

式（１）で示されたＰ（ｔ）は以下の式（３）にしたがって計算される。

式（１）で示されたＰ（ｃ）は以下の式（４）にしたがって計算される。

式（１）においてＰ（ｔ，ｃ）＝０の場合には単語重要度は０とする。また、式（２）によればＰ（Ｗａ，Ａ）＝１０／３０＝１／３であり、式（３）によればＰ（Ｗａ）＝３０／３０＝１であり、式（４）によればＰ（Ａ）＝１０／３０＝１／３であるので、カテゴリ“Ａ”に属する文書データにおける単語“Ｗａ”の単語重要度は１／３×Ｉｎ（１／３／１×３）＝０となる。

また、Ｐ（Ｗｂ，Ａ）＝１０／３０＝１／３であり、Ｐ（Ｗｂ）＝１０／３０＝１／３であり、Ｐ（Ａ）＝１／３であるので、カテゴリ“Ａ”に属する文書データにおける単語“Ｗｂ”の単語重要度は１／３×Ｉｎ（１／３×３×３）≒０.３６６２となる。

単語重要度算出部４は、このような計算を前述のように切り出した単語のそれぞれおよび各カテゴリのそれぞれについて行なって単語重要度テーブルを生成し、これを出力部５に出力する。

図７は本発明の実施形態にしたがった文書データ解析装置の単語重要度算出部４が生成した単語重要度テーブルの構成例を表形式で示す図である。
この計算により得られた単語重要度の値が大きいほど、当該単語重要度と関わる単語は、当該単語重要度と関わるカテゴリと同一カテゴリに属する文書データに含まれる他の単語および当該単語重要度と関わるカテゴリと異なるカテゴリに属する文書データに含まれる同一単語に対する偏った出現度合が高いことを示す。

図７に示すように、カテゴリ“Ｂ”に属する文書データにおける単語“Ｗｂ”の単語重要度およびカテゴリ“Ｃ”に属する文書データにおける単語“Ｗｂ”の単語重要度は０である。よって、カテゴリ“Ａ”に属する文書データにおける単語“Ｗｂ”の単語重要度はカテゴリ“Ｂ”に属する文書データにおける単語“Ｗｂ”の単語重要度およびカテゴリ“Ｃ”に属する文書データにおける単語“Ｗｂ”の単語重要度と比較して大きい。

これはカテゴリ“Ａ”に属する文書データが単語“Ｗｂ”を含む確率がカテゴリ“Ｂ”に属する文書データが単語“Ｗｂ”を含む確率およびカテゴリ“Ｃ”に属する文書データが単語“Ｗｂ”を含む確率と比較して高いことを意味する。

また、単語重要度算出部４は前述した式（１）にしたがって単語重要度を算出すると説明したが、これに限らず、単語重要度算出部４は当該単語重要度と関わるカテゴリに属する文書データへの単一種類の単語の１文書あたりの平均出現頻度と他のカテゴリに属する文書データへの同一単語の１文書あたりの平均出現頻度との差を示す値であれば例えばχ２乗値やその他の値を単語重要度として算出してもよい。

また、単語頻度第１テーブル、単語頻度第２テーブルおよび単語頻度第３テーブルで管理する文書データの数を単語の出現頻度としてもよい。この場合には、図４に示した単語頻度第１テーブルのエリア１１で管理される値はカテゴリ“Ｃ”に属する文書データ中の単語“Ｗａ”の出現頻度となる。

また、図５に示した単語頻度第２テーブルのエリア１２で管理される値はカテゴリ“Ａ”に属する文書データ中の各単語の出現頻度となり、図６に示した単語頻度第３テーブルのエリア１３で管理される値は全文書データ中の単語“Ｗａ”の出現頻度となる。ここで説明した各単語とは文書解析部２が切り出したそれぞれの単語である。

そして、式（２）、式（３）および式（４）の右辺の分母は“全文書中の各単語の出現頻度”となり、式（２）の右辺の分子は“カテゴリｃに属する文書中の単語ｔの出現頻度”となり、式（３）の右辺の分子は“全文書中の単語ｔの出現頻度”となり、式（４）の右辺の分子は“カテゴリｃに属する文書中の各単語の出現頻度”となる。

また、単語頻度第１テーブル、単語頻度第２テーブルおよび単語頻度第３テーブルで管理する文書データの数は単語の出現頻度と各文書データのサイズとの比であってもよい。この場合には、単語頻度第１テーブルのエリア１１で管理される値はカテゴリ“Ｃ”に属する文書データ中の単語“Ｗａ”の出現頻度とカテゴリ“Ｃ”に属する各文書データのサイズの合計との比となる。

また、単語頻度第２テーブルのエリア１２で管理される値はカテゴリ“Ａ”に属する文書データ中の各単語の出現頻度とカテゴリ“Ａ”に属する各文書データのサイズの合計との比となり、単語頻度第３テーブルのエリア１３で管理される値は全文書データ中の単語“Ｗａ”の出現頻度と全文書データのサイズの合計との比となる。

そして、式（２）の右辺の分子は“カテゴリｃに属する文書中の単語ｔの出現頻度／カテゴリｃに属する各文書のデータサイズの合計”となり、式（３）の右辺の分子は“全文書中の単語ｔの出現頻度／全文書のデータサイズの合計”となり、式（４）の右辺の分子は“カテゴリｃに属する文書中の各単語の出現頻度／全文書のデータサイズの合計”となり、式（２）、式（３）および式（４）の右辺の分母は“全文書中の各単語の出現頻度／全文書のデータサイズの合計”となる。

出力部５は単語重要度算出部４からの単語頻度テーブルで示される単語重要度のうち値が大きい複数の単語重要度と関わる単語をカテゴリごとに抽出する。ただし、抽出対象となる単語は、これと関わる単語重要度の値が他のカテゴリに属する同一単語に関する単語重要度の値より高い単語である。あるいは、単語重要度の値が他のカテゴリに属する同一単語より高くない単語も出力するとしてもよい。

出力部５が抽出する単語数はユーザがシステム設定により任意に指定することができる。ここでは、カテゴリごとの抽出単語数が４と指定されたと仮定する。ここでは出力部５は単語“Ｗｂ”、単語“Ｗｃ”、単語“Ｗｈ”および単語“Ｗｍ”をカテゴリ“Ａ”に属する文書データにおける重要単語として抽出する。
また、出力部５は単語“Ｗｄ”、単語“Ｗｅ”、単語“Ｗｊ”および単語“Ｗｋ”をカテゴリ“Ｂ”に属する文書データにおける重要単語として抽出する。

また、出力部５は単語“Ｗｆ”、単語“Ｗｇ”、単語“Ｗｉ”および単語“Ｗｌ”をカテゴリ“Ｃ”に属する文書データにおける重要単語として抽出する。
出力部５はこれらの抽出結果をもとに重要単語テーブルを生成してこれを別途設ける図示しない文書データ分類システムに出力する（ステップＳ６）。

図８は本発明の実施形態にしたがった文書データ解析装置の出力部５が生成した重要単語テーブルの一例を表形式で示す図である。このテーブルでは各カテゴリに属する文書データの重要単語が管理される。

また、出力部５は各カテゴリについて単語重要度の値が大きい単語を予め定めた数だけカテゴリごとに抽出すると説明したが、これに代えて単語重要度が予め定められた基準値を超える単語をカテゴリごとに抽出するようにしてもよいし、単語重要度の値が大きい単語のうち予め定められた基準値を超える単語をカテゴリごとに抽出するようにしてもよい。

前述した文書データ分類システムは出力部５からの重要単語テーブルを入力した後にカテゴリが未知である文書データを入力した場合には、この文書データに含まれる単語を解析し、この単語と前述した重要単語テーブルとを照合することで、当該文書データが属するカテゴリを判別する。

以上説明したように、本発明の実施形態にしたがった文書データ解析システムでは、カテゴリ分類が済んでいる複数の文書データを取得し、この取得した文書データに含まれる単語とその頻度を解析し、この頻度に基づいて共通のカテゴリに属する文書データにおける各単語の重要度をカテゴリごとに算出し、この算出結果に基づいて各カテゴリに属する文書データにおける重要単語を出力するので、幾つかのカテゴリ分類済の文書データを用意すれば、これらの文書データに含まれる文章や各カテゴリに関する専門的な知識を要することなくカテゴリを特徴づけるキーワードを効率良く且つ精度よく抽出することができる。

なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

本発明の実施形態にしたがった文書データ検索装置の構成例を示すブロック図。本発明の実施形態にしたがった文書データ解析装置の動作の一例を示すフローチャート。本発明の実施形態にしたがった文書データ解析装置の文書解析部に記憶された文書カテゴリデータベースの一例を表形式で示す図。本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第１テーブルの構成例を表形式で示す図。本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第２テーブルの構成例を表形式で示す図。本発明の実施形態にしたがった文書データ解析装置の単語頻度記憶部に記憶された単語頻度第３テーブルの構成例を表形式で示す図。本発明の実施形態にしたがった文書データ解析装置の単語重要度算出部が生成した単語重要度テーブルの構成例を表形式で示す図。本発明の実施形態にしたがった文書データ解析装置の出力部が生成した重要単語テーブルの一例を表形式で示す図。

符号の説明

１…入力部、２…文書解析部、３…単語頻度記憶部、４…単語重要度算出部、５…出力部。

Claims

複数種類のうちいずれかの種類のカテゴリに属する複数の文書データを取得する取得手段と、
この取得手段により取得した文書データに含まれる単語を認識する認識手段と、
前記取得手段により取得した文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前記認識手段により認識した単語のそれぞれおよび前記複数種類のカテゴリのそれぞれについて計算する第１の計算手段と、
前記取得手段により取得した文書データのうち共通のカテゴリに属する文書データの数を前記複数種類のカテゴリのそれぞれについて計算する第２の計算手段と、
前記取得手段により取得した文書データのうち単一種類の単語を共通して含む文書データの数を前記認識手段により認識した単語のそれぞれについて計算する第３の計算手段と、
前記第１乃至第３の計算手段による計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データに含まれる前記認識した単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語を前記複数種類のカテゴリのそれぞれについて解析する単語解析手段と
を備えたことを特徴とする文書データ解析装置。
前記単語解析手段は、
前記第１乃至第３の計算手段による計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データにおける単一種類の単語の出現度合と他のカテゴリに属する文書データ中の前記単一種類の単語と同一の単語の出現度合との関連を示す値を前記認識した単語のそれぞれおよび前記複数種類のカテゴリのそれぞれについて計算し、前記共通のカテゴリに属する文書データにおける出現度合が他の各カテゴリに属する文書データにおける同一単語の出現度合より高い単語を前記計算した値をもとに前記複数種類のカテゴリのそれぞれについて解析する
ことを特徴とする請求項１に記載の文書データ解析装置。
コンピュータを、
複数種類のうちいずれかの種類のカテゴリに属する複数の文書データを取得する取得手段、
この取得手段により取得した文書データに含まれる単語を認識する認識手段、
前記取得手段により取得した文書データのうち共通のカテゴリに属して単一種類の単語を共通して含む文書データの数を前記認識手段により認識した単語のそれぞれおよび前記複数種類のカテゴリのそれぞれについて計算する第１の計算手段、
前記取得手段により取得した文書データのうち共通のカテゴリに属する文書データの数を前記複数種類のカテゴリのそれぞれについて計算する第２の計算手段、
前記取得手段により取得した文書データのうち単一種類の単語を共通して含む文書データの数を前記認識手段により認識した単語のそれぞれについて計算する第３の計算手段、
前記第１乃至第３の計算手段による計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データに含まれる前記認識した単語のうち他のカテゴリに属する文書データ中の同一単語と比較して偏って出現する単語を前記複数種類のカテゴリのそれぞれについて解析する単語解析手段として機能させるようにした、コンピュータ読み取り可能な文書データ解析プログラム。
前記単語解析手段は、
前記第１乃至第３の計算手段による計算結果にもとづいて、前記複数種類のうち共通のカテゴリに属する文書データにおける単一種類の単語の出現度合と他のカテゴリに属する文書データ中の前記単一種類の単語と同一の単語の出現度合との関連を示す値を前記認識した単語のそれぞれおよび前記複数種類のカテゴリのそれぞれについて計算し、前記共通のカテゴリに属する文書データにおける出現度合が他の各カテゴリに属する文書データにおける同一単語の出現度合より高い単語を前記計算した値をもとに前記複数種類のカテゴリのそれぞれについて解析する
ことを特徴とする請求項３に記載の文書データ解析プログラム。