JP5178357B2

JP5178357B2 - 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム

Info

Publication number: JP5178357B2
Application number: JP2008174835A
Authority: JP
Inventors: 正柳原; 一則松本; 智弘小野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-07-03
Filing date: 2008-07-03
Publication date: 2013-04-10
Anticipated expiration: 2028-07-03
Also published as: JP2010015395A

Description

本発明は、電子文書に含まれるテキスト情報の内容が、任意のラベルに該当するか否かを判定するために最適な単語を判定する単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラムに関する。

従来、ブログ等のテキストベースのウェブコンテンツや、ワープロソフトなどによって生成される文書ファイルなどの電子文書に対して、その電子文書に含まれるテキスト情報の内容がどのような性質をもつものであるかを判定し、その内容に応じたラベルを付与して電子文書を分類する文書ラベル判定システムが利用されている。ラベルには、例えば、スポーツ、経済などの電子文書のトピックを示すラベルがある。このようなラベルのうち、任意のラベルにラベル判定対象の電子文書が該当するか否かを判定する際には、そのラベルに関連性の高い複数の索引語が対応付けられた辞書データが用いられる。例えば、ラベルが「経済」である場合には、索引語として「財務省」、「為替」などの単語が対応付けられた辞書データが予め記憶される。文書ラベル判定システムは、辞書データに含まれる索引語に一致する単語をラベル判定対象の電子文書から検出し、その一致の度合いに応じて、その電子文書が任意のラベルに該当するか否かを判定する。

特許文献１には、電子文書中に出現する単語を評価して、その電子文書の内容を示す特徴的な単語を検出して電子文書の要約をする技術が示されている。ここでは、電子文書中に出現する複数の単語の組み合わせに応じてその電子文書に出現する単語にスコア付けを行い、スコアに応じて単語を評価することにより、信頼性の高い単語重要度を算出している。
また、特許文献２には、情報基準量に基づくモデル検定を行って単語重要度を算出する技術が提案されている。ここでは、独立モデルにより算出するスコアから、従属モデルにより算出するスコアを差し引いて算出された値が０よりも大きな単語を、重要な単語として選び出している。
また、非特許文献１には、情報量基準に基づくモデル検定を行い、トピックに該当するかを判定する上で重要な単語のみを選出する技術が提案されている。
特開２００５−１４１４２８号公報特開２００５−２８４２０９号公報 Kazunori Matsumoto, Kazuo Hashimoto, "Schema Design for Causal Law Mining from Incomplete Database", Discovery Science, Second International Conference, DS '99, Tokyo, Japan, December, 1999,Proceedings. Lecture Notes in Computer Science 1721 Springer, pp.92-102,1999.

しかしながら、ある電子文書が特定のラベルに該当するか否かを判定する際に参照する辞書データは、ユーザにより任意に作成された辞書データが用いられる場合がある。このような辞書データでは、そのラベルに最適な索引語が対応付けられているとは限らず、また索引語が固定されるため、時事的に変化する電子文書の内容の変化に応じて柔軟に索引語を変化させるのは困難である。
そこで、特定のラベルに該当すると判定された複数の電子文書から、その電子文書に含まれる単語を事後的に解析して、その電子文書に含まれる単語に応じて辞書データの内容を再帰的に更新する方法が考えられる。例えば、電子文書中に索引語の候補となる任意の単語が出現する割合と、その他の単語との割合とに応じて候補単語にスコア付けを行い、そのスコアに応じて索引語として採用するかどうかを決定することが考えられる。ただし、この方法は、電子文書中に出現する単語がそれぞれに独立して出現する回数に応じてスコア付けを行うものであるが、電子文書中の単語は、他の単語との対応関係や関連性により意味内容や重要度が異なる場合があり、必ずしも精度の良い索引語を検出できるとはいえない。ここで、特許文献１に示される技術を応用し、索引語検出の精度を上げるために、複数の単語の組み合わせによりその単語のスコア付けを行って辞書データを生成する方法も考えられるが、これでは、索引語候補が多くなるとその組み合わせ数が爆発的に増加し、計算量が多くなるという問題がある。

また、特許文献１に示される技術は、スコアの計算にｘ２検定の手法を使用するものであるが、ｘ２検定による解析では、解析するデータの資質によってパラメータを調整する必要がある。また、特許文献２に示される技術では、トピックに該当するか否かを判定する上で重要である単語を検出することはできない。また、特許文献２、特許文献３は、特許文献１と同様に、複数の単語の組み合わせの重要度を求める際には組み合わせ数が爆発的に増大するという問題がある。

本発明は、このような状況に鑑みてなされたもので、電子文書中に出現する単語のうち、その内容を特徴的に表し、特定の性質に関連する単語を、その電子文書中に出現する他の単語との関連性を考慮し、かつ少ない計算量で検出する単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラムを提供する。

上述した課題を解決するために、本発明は、複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第１の電子文書集合と、定められた性質に関連しないと判定された電子文書の集合である第２の電子文書集合とが記憶される第１の記憶部と、定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第２の記憶部と、第１の電子文書集合のうち単語集に含まれる特定の単語が含まれる電子文書の第１の電子文書数と、第２の電子文書集合のうち特定の単語が含まれる電子文書の第２の電子文書数と、第１の電子文書集合のうち特定の単語が含まれない電子文書の第３の電子文書数と、第２の電子文書集合のうち特定の単語が含まれない電子文書の第４の電子文書数とが含まれる第１の分割表を算出する第１の分割表算出部と、第１の電子文書数と、第２の電子文書数と、第３の電子文書数と、第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、第１の情報量基準量と第２の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第１のスコアとして算出する第１のスコア算出部と、単語集に含まれる複数の単語のそれぞれについて第１のスコア算出部により第１のスコアが算出された複数の単語の集合を判定対象の集合とし、判定対象の集合に含まれる単語のうち最も第１のスコアが大きい第１の単語と、判定対象の集合に含まれる第２の単語との組み合わせについて、第１の電子文書集合のうち第１の単語と第２の単語との組み合わせが含まれる電子文書の第１の電子文書数と、第２の電子文書集合のうち第１の単語と第２の単語との組み合わせが含まれる電子文書の第２の電子文書数と、第１の電子文書集合のうち第１の単語と第２の単語との組み合わせが含まれない電子文書の第３の電子文書数と、第２の電子文書集合のうち第１の単語と第２の単語との組み合わせが含まれない電子文書の第４の電子文書数とが含まれる第２の分割表を算出する第２の分割表算出部と、第２の分割表算出部により算出された第２の分割表に含まれる第１の電子文書数と、第２の電子文書数と、第３の電子文書数と、第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、第１の情報量基準量と、第２の情報量基準量との差を、第１の単語と第２の単語との組み合わせと定められた性質との関連度を示す第２のスコアとして算出する第２のスコア算出部と、を備えることを特徴とする。

また、本発明は、単語集に含まれる複数の単語の組み合わせのそれぞれについて第２のスコア算出部により第２のスコアが算出された複数の単語の組み合わせの集合を判定対象の集合とし、判定対象の集合に含まれる単語の組み合わせのうち最も第２のスコアが大きい第１の単語の組み合わせを求め、判定対象の集合に含まれる第２の単語の組み合わせについて第２の分割表算出部で算出された第２の分割表に含まれる第１の電子文書数から第１の電子文書集合のうち第１の単語の組み合わせと第２の単語の組み合わせとが含まれる電子文書数を減算し、第２の分割表に含まれる第２の電子文書数から第２の電子文書集合のうち第１の単語の組み合わせと第２の単語の組み合わせとが含まれる電子文書数を減算し、第２の分割表に含まれる第１の電子文書数から第１の電子文書集合のうち第１の単語の組み合わせと第２の単語の組み合わせとが含まれない電子文書数を減算し、第２の分割表に含まれる第４の電子文書数から第２の電子文書集合のうち第１の単語の組み合わせと第２の単語の組み合わせとが含まれない電子文書数を減算した第３の分割表を算出する第３の分割表算出部と、第３の分割表算出部により算出された第３の分割表に含まれる第１の電子文書数と、第２の電子文書数と、第３の電子文書数と、第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、第１の情報量基準量と、第２の情報量基準量との差を、第１の単語の組み合わせと定められた性質との関連度を示す第３のスコアとして算出する第３のスコア算出部と、を備えることを特徴とする。

また、本発明は、複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第１の電子文書集合と、定められた性質に関連しないと判定された電子文書の集合である第２の電子文書集合とが記憶される第１の記憶部と、定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第２の記憶部と、第１の電子文書集合のうち単語集に含まれる特定の単語が含まれる電子文書の第１の電子文書数と、第２の電子文書集合のうち特定の単語が含まれる電子文書の第２の電子文書数と、第１の電子文書集合のうち特定の単語が含まれない電子文書の第３の電子文書数と、第２の電子文書集合のうち特定の単語が含まれない電子文書の第４の電子文書数とが含まれる第１の分割表を算出する第１の分割表算出部と、第１の電子文書数と、第２の電子文書数と、第３の電子文書数と、第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、第１の情報量基準量と第２の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第１のスコアとして算出する第１のスコア算出部と、単語集に含まれる複数の単語のそれぞれについて第１のスコア算出部により第１のスコアが算出された複数の単語の集合を判定対象の集合とし、判定対象の集合に含まれる単語のうち最も第１のスコアが大きい第１の単語を求め、判定対象の集合に含まれる第２の単語について第１の分割表算出部で算出された第１の分割表に含まれる第１の電子文書数から第１の電子文書集合のうち第１の単語と第２の単語とが含まれる電子文書数を減算し、第１の分割表に含まれる第２の電子文書数から第２の電子文書集合のうち第１の単語と第２の単語とが含まれる電子文書数を減算し、第１の分割表に含まれる第１の電子文書数から第１の電子文書集合のうち第１の単語と第２の単語とが含まれない電子文書数を減算し、第１の分割表に含まれる第４の電子文書数から第２の電子文書集合のうち第１の単語と第２の単語とが含まれない電子文書数を減算した第４の分割表を算出する第４の分割表算出部と、第４の分割表算出部により算出された第４の分割表に含まれる第１の電子文書数と、第２の電子文書数と、第３の電子文書数と、第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、第１の情報量基準量と、第２の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第４のスコアとして算出する第４のスコア算出部と、を備えることを特徴とする。

また、本発明は、上述の単語スコア算出装置のうちいずれかの単語スコア算出装置と、第２の記憶部に記憶される単語集に含まれる複数の単語のそれぞれについて、定められた性質を表すラベルと、単語スコア算出装置によってスコアが算出された単語のうち、ラベルが表す定められた性質との関連度を示すスコアが大きい単語から定められた数の単語とが対応付けられた辞書データが記憶される辞書データベースと、入力される電子文書に含まれる単語と、辞書データベースに記憶された辞書データに含まれる単語とに基づいて、電子文書がラベルに該当するか否かを判定するラベル判定装置と、を備えることを特徴とする。

また、本発明は、複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第１の電子文書集合と、定められた性質に関連しないと判定された電子文書の集合である第２の電子文書集合とが記憶される第１の記憶部と、定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第２の記憶部とを備える単語スコア算出装置のコンピュータに、第１の電子文書集合のうち単語集に含まれる特定の単語が含まれる電子文書の第１の電子文書数と、第２の電子文書集合のうち特定の単語が含まれる電子文書の第２の電子文書数と、第１の電子文書集合のうち特定の単語が含まれない電子文書の第３の電子文書数と、第２の電子文書集合のうち特定の単語が含まれない電子文書の第４の電子文書数とが含まれる第１の分割表を算出するステップと、第１の電子文書数と、第２の電子文書数と、第３の電子文書数と、第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、第１の情報量基準量と第２の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第１のスコアとして算出するステップと、単語集に含まれる複数の単語のそれぞれについて第１のスコアが算出された複数の単語の集合を判定対象の集合とし、判定対象の集合に含まれる単語のうち最も第１のスコアが大きい第１の単語と、判定対象の集合に含まれる第２の単語との組み合わせについて、第１の電子文書集合のうち第１の単語と第２の単語との組み合わせが含まれる電子文書の第１の電子文書数と、第２の電子文書集合のうち第１の単語と第２の単語との組み合わせが含まれる電子文書の第２の電子文書数と、第１の電子文書集合のうち第１の単語と第２の単語との組み合わせが含まれない電子文書の第３の電子文書数と、第２の電子文書集合のうち第１の単語と第２の単語との組み合わせが含まれない電子文書の第４の電子文書数とが含まれる第２の分割表を算出するステップと、第２の分割表に含まれる第１の電子文書数と、第２の電子文書数と、第３の電子文書数と、第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、第１の情報量基準量と、第２の情報量基準量との差を、第１の単語と第２の単語との組み合わせと定められた性質との関連度を示す第２のスコアとして算出するステップと、を実行させる単語スコア算出プログラムである。

以上説明したように、本発明によれば、定められた性質に関連すると判定された第１の電子文書集合と、関連しないと判定された第２の電子文書集合と、複数の単語が含まれる単語集とについて、第１の電子文書集合のうち単語集に含まれる特定の単語が含まれる第１の電子文書数と、第２の電子文書集合のうち特定の単語が含まれる第２の電子文書数と、第１の電子文書集合のうち特定の単語が含まれない第３の電子文書数と、第２の電子文書集合のうち特定の単語が含まれない第４の電子文書数とが含まれる第１の分割表を算出し、第１の電子文書数と、第２の電子文書数と、第３の電子文書数と、第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、第１の情報量基準量と第２の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第１のスコアとして算出し、単語集に含まれる複数の単語のそれぞれについて第１のスコアが算出された複数の単語の集合を判定対象の集合とし、判定対象の集合に含まれる単語のうち最も第１のスコアが大きい第１の単語と、判定対象の集合に含まれる第２の単語との組み合わせについて第２の分割表を算出し、因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量との差を、第１の単語と第２の単語との組み合わせと定められた性質との関連度を示す第２のスコアとして算出するようにしたので、複数の電子文書の集合のうち、特定の単語と他の単語との組み合わせが含まれる電子文書と、特定の単語と他の単語との組み合わせが含まれない電子文書との因果関係に基づいて、定められた性質と電子文書中に出現する特定の単語と他の単語との組み合わせとの関連度を求める単語スコア算出装置を提供することが可能となる。また、これによれば、第１のスコア算出部により算出された第１のスコアに応じて算出された分割表を用いて関連度を算出するため、特定の単語の組み合わせと他の単語の組み合わせとの関連度を総当りで算出するよりも少ない演算量で、関連度を求めることが可能となる。

また、本発明によれば、単語集に含まれる複数の単語の組み合わせのそれぞれについて第３のスコアが算出された複数の単語の組み合わせの集合を判定対象の集合とし、判定対象の集合に含まれる単語の組み合わせのうち最も第２のスコアが大きい第１の単語の組み合わせと、判定対象の集合に含まれる第２の単語の組み合わせとのそれぞれの第３の分割表に基づいて第３の分割表を算出し、因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量との差を、第１の単語の組み合わせと定められた性質との関連度を示す第３のスコアとして算出するようにしたので、複数の電子文書の集合のうち、特定の単語の組み合わせが含まれる電子文書と、特定の単語の組み合わせが含まれない電子文書との因果関係を、特定の単語の組み合わせと他の単語の組み合わせとのそれぞれの第２のスコアの大きさに応じて算出する第３の分割表に基づいて、定められた性質と電子文書中に出現する特定の単語の組み合わせとの関連度を求める単語スコア算出装置を提供することが可能となる。

また、本発明によれば、第１のスコア算出部により第１のスコアが算出された複数の単語の集合を判定対象の集合に含まれる単語のうち、最も第１のスコアが大きい第１の単語と、判定対象の集合に含まれる第２の単語とのそれぞれの第１の分割表に基づいて第４の分割表を算出し、因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量との差を、特定の単語と定められた性質との関連度を示す第４のスコアとして算出するようにしたので、複数の電子文書の集合のうち、特定の単語が含まれる電子文書と、特定の単語が含まれない電子文書との因果関係を、特定の単語と他の単語とのそれぞれの第１のスコアの大きさに応じて算出する第４の分割表に基づいて、定められた性質と電子文書中に出現する特定の単語との関連度を求める単語スコア算出装置を提供することが可能となる。また、これによれば、第１のスコア算出部により算出された第１のスコアに応じて算出された分割表を用いて関連度を算出するため、特定の単語と他の単語との関連度を総当りで算出するよりも少ない演算量で、関連度を求めることが可能となる。

また、本発明によれば、単語集に含まれる複数の単語のそれぞれについて、定められた性質を表すラベルと、上述した単語スコア算出装置のうちいずれかの単語スコア算出装置によって算出されたスコアの大きい単語から定められた数の単語とが対応付けられた辞書データが辞書データベースに記憶され、入力される電子文書に含まれる単語と、辞書データに含まれる前記単語とに基づいて、電子文書がラベルに該当するか否かを判定するようにしたので、複数の電子文書に出現する特定の単語と他の単語との関連性に応じて算出されたスコアに基づいて、定められた性質を表すラベルに電子文書が該当するか否かを判定することが可能となる。

以下、本発明の一実施形態について、図面を参照して説明する。
図１は、本実施形態による文書ラベル判定システム１のシステム構成を示す図である。文書ラベル判定システム１は、ラベル判定装置２００と、辞書データベース３００と、索引語スコア算出装置１００とを備えている。

辞書データベース３００は、辞書データが記憶される記憶装置である。辞書データは、定められた単語等のラベルと、そのラベルに関連性の高い複数の索引語とが対応付けられた情報である。例えば、ラベルが「経済」であれば、その索引語として「財務省」、「為替」、「相場」、「動向」、「ドル」・・・などの単語が対応付けられる。辞書データは、「政治」、「スポーツ」などのトピックを示すそれぞれのラベルに対応付けられた複数の索引語を含むこととして良い。さらに、「スポーツ」のなかでも「サッカー」、「野球」などに階層化されたトピックをラベルとして索引語が対応付けられた辞書データを含むこととしても良い。また、辞書データには、例えば「有害」のラベルに、１８歳未満には適切でないと思われる単語を索引語として対応付けたものを含んでも良い。辞書データベース３００に記憶される辞書データは、ラベル判定装置２００が電子文書のラベル判定処理を行う際に読み出される。辞書データベース３００は、独立したコンピュータ装置を適用しても良いし、ラベル判定装置２００にインストールされたデータベースアプリケーションなどを適用しても良い。

ラベル判定装置２００は、辞書データベース３００に記憶されている辞書データを読み出し、読み出した辞書データと、入力される電子文書とを比較、解析して電子文書に対応するラベルを判定するコンピュータ装置である。ここで、入力される電子文書とは、例えば、ブログ等のテキストベースのウェブコンテンツや、ワープロソフトなどによって生成される文書ファイルなどの電子文書である。ラベル判定装置２００は、ラベル判定対象となる電子文書の入力を受付け、辞書データベース３００から読み出した辞書データに含まれるラベル毎に、そのラベルに対応する索引語に一致する単語が電子文書に含まれるか否かを判定し、その電子文書が任意のラベルに該当するか否かを判定するラベル判定処理を行う。例えば、ラベル判定装置２００は、辞書データのラベルに対応する単語を、判定対象とする電子文書に含まれるテキストデータのうちから定められた閾値を超えて検出した場合には、そのラベルをその電子文書のラベルと判定する。また、例えば、ラベル判定装置２００は、ひとつの電子文書が複数のラベルに該当するか否かをそれぞれに判定し、ひとつの電子文書に該当する複数のラベルを割り当てるようにしても良い。

索引語スコア算出装置１００は、ラベル判定装置２００がラベル判定を行った電子文書とそのラベルに基づいて、そのラベルに対応する最適な索引語を再帰的に算出し、辞書データベース３００に記憶される辞書データを更新して記憶させるコンピュータ装置である。すなわち、辞書データベース３００に記憶された辞書データが、初期状態ではラベルに対して例えばユーザによって任意に定められた索引語の群が対応付けられたものであるとしても、その辞書データによりラベルに対応すると判定された電子文書から、最適な索引語を再帰的に検出して辞書データを生成することにより、例えば時事的に重要単語が変化するウェブ上のブログサイトやニュースサイトに対しても、その変化に合わせた最適なラベルを判定するための辞書データを生成することが可能となる。

索引語スコア算出装置１００は、ラベル判定結果記憶部１１０と、正規化処理部１２０と、形態素解析部１３０と、形態素解析用辞書記憶部１４０と、単語分布算出部１５０と、単語分布表記憶部１６０と、索引語スコア算出部１７０と、辞書登録部１８０とを備えている。
ラベル判定結果記憶部１１０には、ラベル判定装置２００によりラベル判定が行われた電子文書と、その電子文書が特定のラベルに該当すると判定されたか否かを示すラベル判定結果が記憶される。ここで、ラベル判定結果記憶部１１０に記憶される電子文書には、その電子文書がブログデータである場合には、ブログ記事のテキスト本文、絵文字、ＨＴＭＬ（HyperText Markup Language）タグなどが含まれるが、画像データは含まれない。

正規化処理部１２０は、ラベル判定結果記憶部１１０に記憶されているラベル判定済みの電子文書とラベル判定結果とを入力とし、正規化処理を行って正規化済電子文書を出力する。正規化処理部１２０が行う正規化処理は、例えば、以下の処理を含む。まず、ハイフン、マイナス記号、長音記号などの類似する記号を、定められたルールセットに従って正規化する。ここでは、例えばこれら全てをハイフンに変換することにより正規化する。また、半角文字を全て全角文字に変換する。また、タブ文字を全て空白文字に変換する。また、絵文字を特定の文字記号（例えば、０ｘＡ２Ａ２）に変換する。また、電子文書がブログ記事等のウェブデータである場合には、ウェブデータからＨＴＭＬタグを取り除く。また、日本語の小文字は大文字に変換する。ここでは、例えば、小文字である「ィ」を大文字の「イ」に変換する。ただし、後述する形態素解析用辞書記憶部１４０に記憶される単語で、形態素解析用辞書記憶部１４０には小文字が含まれる状態で記憶されている場合には、小文字から大文字への変換は行わない。また、ここでは、英文字の小文字は小文字のままとし、大文字へは変換しない。

形態素解析部１３０は、正規化処理部１２０により出力される正規化済電子文書と、その電子文書に対するラベル判定結果と、形態素解析用辞書記憶部１４０から読み出す形態素解析用辞書とを入力とし、正規化済電子文書の形態素解析処理を行って、ドキュメントベクトルテーブルを出力する。ここで、ドキュメントベクトルテーブルとは、例えば、電子文書に「私の名前は中村です」というテキストが含まれる場合に、これらを形態素解析し、「私」、「の」、「名前」、「は」、「中村」、「です」、などのように、テキストデータを形態素（意味のある最小単位）に分割し、またそれぞれの品詞を判定して品詞情報が対応付けられたデータである。

単語分布算出部１５０は、形態素解析部１３０による形態素解析処理で生成されるドキュメントベクトルテーブルに基づいて、単語分布表を生成して出力する。単語分布表は、形態素解析部１３０によってテキストデータが形態素に分割されたドキュメントベクトルテーブルから、例えば助詞や助動詞などの特定の品詞を取り除き、索引語の対象とする名詞等の単語のみを抽出した単語リストのそれぞれの単語に、電子文書中での出現頻度を示す度数が対応付けられた表である。ここで、単語分布算出部１５０は、電子文書から抽出した単語の正規化処理を行う。例えば、英単語の正規化処理を行い、英単語の小文字を大文字へ変換する。また、カタカナ単語の表記揺れの変換を行い、例えば、「タイヤモンド」なとの単語があれば、「ダイヤモンド」の文字データに変換する。このように、形態素解析処理の後に単語レベルでの正規化処理を行うことにより、例えば「西日本」などの表記がある場合、この語が「西日本」の一単語であるか、「西日」と「本」との二単語により構成される語であるのかを的確に検出することができる。

ここで、単語分布算出部１５０は、複数の電子文書に対してひとつの単語分布表を生成することとし、正規化後の文字列が単語分布表に含まれていなければ、その正規化済み単語を単語分布表に新たに追加する。単語分布算出部１５０が生成する単語分布表において、正規化済み単語のそれぞれに対応付けられる出現回数の度数の計算方式には、特定の単語が同一の電子文書中に出現した回数に応じて度数を加算する方式（ｔｆ：ｔｅｒｍｆｒｅｑｕｅｎｃｙ）と、同一の電子文書中に出現した回数に関わらず、特定の単語がひとつの電子文書中に出現したか否かにより度数を算出する方式（ｄｆ：ｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）とのいずれかを適用することができる。本実施形態では、複数の電子文書中のそれぞれに単語が出現したか否かにより度数を算出するｄｆの方式を適用する。単語分布算出部１５０は、生成した単語分布表を単語分布表記憶部１６０に記憶させる。
単語分布表記憶部１６０には、単語分布算出部１５０により生成される単語分布表が記憶される。単語分布表は、上述したように、索引語の候補となる単語ごとに、その単語の電子文書中での出現頻度を示す度数が対応付けられたデータ表である。

索引語スコア算出部１７０は、ラベル判定結果記憶部１１０に記憶されるラベル判定結果と、単語分布表記憶部１６０に記憶される単語分布表とに基づいて、電子文書中に任意の単語が含まれるか否かについての２×２分割表を生成し、単語分布表に含まれる各単語のスコアを算出する。索引語スコア算出部１７０は、ＳＳＳ算出部１７１と、ＭＳＳ算出部１７２と、ＭＤＳ算出部１７３と、ＳＤＳ算出部１７４とを備えている。

ＳＳＳ算出部１７１は、ラベル判定結果記憶部１１０に記憶されるラベル判定結果と、単語分布表記憶部１６０に記憶される単語分布表とを読み出し、電子文書中に任意の単語が含まれるか否かについての２×２分割表を生成し、生成した２×２分割表に基づいたシングルスタティックスコアの単語リストＳＳＳ（Ｗ）を算出する。

図２は、ＳＳＳ算出部１７１が生成する２×２分割表の概念を示す図である。ここでは、ラベル判定装置２００により任意のラベルについてラベル判定対象となった全ての全電子文書の数をＮ_ＡＬＬとし、Ｎ_ＡＬＬのうち任意のラベルに該当すると判定された電子文書の数をＮ_ＯＫとし、Ｎ_ＡＬＬのうち任意のラベルに該当しないと判定された電子文書の数をＮ_ＮＧとする。また、単語分布表に含まれる全ての単語の集合を単語集合Ｗとし、単語集合Ｗに含まれるそれぞれの単語をｗとする。ここで、任意のラベルに該当すると判定されたＮ_ＯＫ個の電子文書のうち、任意の単語ｗが含まれる文書の数をＮ１１（ｗ）とする。また、任意のラベルに該当しないと判定されたＮ_ＮＧ個の電子文書のうち、任意の単語ｗが含まれる文書の数をＮ１２（ｗ）とする。また、任意のラベルに該当すると判定されたＮ_ＯＫ個の電子文書のうち、任意の単語ｗが含まれない文書の数をＮ２１（ｗ）とする。また、任意のラベルに該当しないと判定されたＮ_ＮＧ個の電子文書のうち、任意の単語ｗが含まれない文書の数をＮ２２（ｗ）とする。

このとき、以下の式が成り立つ。
・Ｎ１１（ｗ）＋Ｎ１２（ｗ）＝ｄｆ（ｗ）（Ｎ_ＡＬＬのうち、単語ｗを含む文書の数）
・Ｎ２１（ｗ）＋Ｎ２２（ｗ）＝Ｎ_ＡＬＬ−ｄｆ（ｗ）
・Ｎ１１（ｗ）＋Ｎ２１（ｗ）＝Ｎ_ＯＫ
・Ｎ１１（ｗ）＋Ｎ２２（ｗ）＝Ｎ_ＮＧ
以下の説明において、Ｎ１１（ｗ）＋Ｎ１２（ｗ）を、ｑと表す。また、Ｎ１１（ｗ）＋Ｎ２１（ｗ）を、ｒと表す。また、Ｎ１１（ｗ）＋Ｎ１２（ｗ）＋Ｎ２１（ｗ）＋Ｎ２２（ｗ）を、ｚと表す。

ＳＳＳ算出部１７１は、生成した２×２分割表に基づいて、以下式（１）により、因果関係有りと仮定した場合の対数尤度値ＭＬＬ_１を求め、情報量基準量であるＡＩＣ（ＩＭ）値を算出する。以下、ｌｏｇの底である１０は省略して表記する。

さらに、以下式（２）により、因果関係無しと仮定した場合の対数尤度値ＭＬＬ_２を求め、情報量基準量であるＡＩＣ（ＤＭ）値を算出する。

ここで、上記式（１）と式（２）とによって算出されたＡＩＣ（ＩＭ）値とＡＩＣ（ＤＭ）値とに基づいて、単語重要度Ｅ（ｗ）を以下式（３）または以下式（４）により算出する。

そして、単語集合Ｗに含まれる全ての単語ｗについての単語重要度Ｅ（ｗ）を算出した後、単語重要度Ｅ（ｗ）の値を降順に並べ替えた単語リストＳＳＳ（Ｗ）を生成する。このとき、単語リストＳＳＳ（Ｗ）の単語ｗの並びは、ｗ_１、ｗ_２、・・・ｗ_ＮＡＬＬとなり、ｉ番目の単語ｗ_ｉに対するシングルスタティックスコアｓｓｓ（ｗ_ｉ）はＥ（ｗ_ｉ）となる。このようにして、ｓｓｓ（ｗ_ｉ）を降順に並べた単語リストＳＳＳ（Ｗ）を生成する。

ＳＤＳ算出部１７４は、ＳＳＳ算出部１７１が算出した単語リストＳＳＳ（Ｗ）と、単語集合Ｗに含まれるそれぞれの単語ｗ_ｉに対応する２×２分割表とを入力として、単語集合Ｗに含まれるそれぞれの単語ｗ_ｉについてのシングルダイナミックスコアｓｄｓ（ｗ_ｉ）の単語リストＳＤＳ（Ｗ）を算出する。ここで、ＳＳＳ算出部１７１によってシングルススタティックスコアｓｓｓ（ｗ_ｉ）が降順に並べられた単語リストであるＳＳＳ（Ｗ）を、集合Ｃ（Ｃ＝｛ｗ_１、ｗ_２、・・・ｗ_ＮＡＬＬ｝）とする。また、単語集合Ｗに含まれるそれぞれの単語ｗ_ｉをｓｄｓ（ｗ_ｉ）の値により降順に並べる単語の集合をＬとする。初期状態では、Ｌ＝｛｝（空集合）である。

ＳＤＳ算出部１７４は、集合Ｃの中から、ｓｓｓ（ｗ_ｉ）が最大となるｗ_ｉを求める。そして、Ｃからｗ_ｉを除き（Ｃ＝Ｃ−｛ｗ_ｉ｝）、ｓｓｓ（ｗ_ｉ）を仮のｓｄｓ（ｗ_ｉ）とする（ｓｄｓ（ｗ_ｉ）＝ｓｓｓ（ｗ_ｉ））。ここで、任意のラベルに該当すると判定されたＮ_ＯＫ個の電子文書のうち、単語ｗ_ｉと他の任意の単語ｗ_ｊとが含まれる文書の数をｎ_１１（_ｉｊ）とする。また、任意のラベルに該当しないと判定されたＮ_ＮＧ個の電子文書のうち、単語ｗ_ｉと他の任意の単語ｗ_ｊとが含まれる文書の数をｎ_１２（_ｉｊ）とする。また、任意のラベルに該当すると判定されたＮ_ＯＫ個の電子文書のうち、単語ｗ_ｉと他の任意の単語ｗ_ｊとが含まれない文書の数をｎ_２１（_ｉｊ）とする。また、任意のラベルに該当しないと判定されたＮ_ＮＧ個の電子文書のうち、単語ｗ_ｉと他の任意の単語ｗ_ｊとが含まれない文書の数をｎ_２２（_ｉｊ）とする。そして、Ｃのうちの他の単語ｗ_ｊについて、ＳＳＳ算出部１７１が生成した２×２分割表の各値を、以下のように更新する。

・Ｎ１１（ｗ_ｊ）＝Ｎ１１（ｗ_ｊ）−ｎ_１１（_ｉｊ）
・Ｎ１２（ｗ_ｊ）＝Ｎ１２（ｗ_ｊ）−ｎ_１２（_ｉｊ）
・Ｎ２１（ｗ_ｊ）＝Ｎ２１（ｗ_ｊ）−ｎ_２１（_ｉｊ）
・Ｎ２２（ｗ_ｊ）＝Ｎ２２（ｗ_ｊ）−ｎ_２２（_ｉｊ）

そして、単語ｗ_ｊについての２×２分割表から、上記式（１）、上記式（２）、上記式（３）、上記式（４）に倣って単語重要度Ｅ（ｗ_ｊ）を算出する。ＳＤＳ算出部１７４は、Ｃに含まれる単語のうち、単語重要度Ｅ（ｗ_ｊ）の値が最も大きくなるｗ_ｊを求め、単語重要度Ｅ（ｗ_ｊ）を、ｓｄｓ（ｗ_ｊ）として集合Ｌに追加する（Ｌ＝Ｌ＋｛ｗ_ｊ｝）。
ＳＤＳ算出部１７４は、集合Ｃが空集合になるまで、集合Ｃの中からｓｓｓ（ｗ_ｉ）が最大となるｗ_ｉを求める処理から、最もｓｄｓ（ｗ_ｊ）の値が大きくなるｗ_ｊを集合Ｌに追加するまでの処理を繰り返す。これにより、ｓｄｓ（ｗ）を降順に並べた単語リストＳＤＳ（Ｗ）を求めることができる。この単語リストＳＤＳ（Ｗ）は、全ての単語ｗについて、その単語ｗより上位の単語の影響を除いた状態でのスコア順に並べられたリストとなる。

ＭＳＳ算出部１７２は、ＳＳＳ算出部１７１が算出したＳＳＳ（Ｗ）と、単語集合Ｗに含まれるそれぞれの単語ｗ_ｉに対応する２×２分割表とを入力として、単語集合Ｗに含まれるそれぞれの単語ｗ_ｉについてのマルチスタティックスコアの単語リストＭＳＳ（Ｗ）を算出する。ここで、単語集合Ｗに含まれる任意の単語の組み合わせωの集合をＧとする。初期状態では、Ｇ＝｛｝（空集合）である。また、Ｇに追加した組み合わせωの数を示す変数をｕとする。初期状態では、ｕ＝０である。

ＭＳＳ算出部１７２は、単語集合Ｗのうち、ｓｓｓ（ｗ_ｉ）が最も大きい単語ｗ_ｉを求める。また、単語ｗ_ｉ以外に、シングルスタティックスコアが大きいｍ個の単語ｗ_１〜ｗ_ｍを求める（ｍは、定められた任意の数）。そして、単語ｗ_ｉと任意の単語ｗ_ｊ（１≦ｊ≦ｍ）との組み合わせω_ｊに対するそれぞれの２×２分割表を算出する。ここでは、任意のラベルに該当すると判定されたＮ_ＯＫ個の電子文書のうち、単語ｗ_ｉと任意の単語ｗ_ｊとの組み合わせω_ｊが含まれる文書の数をＮ１１（ω_ｊ）とする。また、任意のラベルに該当しないと判定されたＮ_ＮＧ個の電子文書のうち、単語ｗ_ｉと任意の単語ｗ_ｊとの組み合わせω_ｊが含まれる文書の数をＮ１２（ω_ｊ）とする。また、任意のラベルに該当すると判定されたＮ_ＯＫ個の電子文書のうち、単語ｗ_ｉと任意の単語ｗ_ｊとの組み合わせω_ｊが含まれない文書の数をＮ２１（ω_ｊ）とする。また、任意のラベルに該当しないと判定されたＮ_ＮＧ個の電子文書のうち、単語ｗ_ｉと任意の単語ｗ_ｊとの組み合わせω_ｊが含まれない文書の数をＮ２２（ω_ｊ）とする。

このとき、以下の式が成り立つ。
・Ｎ１１（ω_ｊ）＋Ｎ１２（ω_ｊ）＝ｄｆ（ω_ｊ）（Ｎ_ＡＬＬのうち、組み合わせω_ｊを含む文書の数）
・Ｎ２１（ω_ｊ）＋Ｎ２２（ω_ｊ）＝Ｎ_ＡＬＬ−ｄｆ（ω_ｊ）
・Ｎ１１（ω_ｊ）＋Ｎ２１（ω_ｊ）＝Ｎ_ＯＫ
・Ｎ１１（ω_ｊ）＋Ｎ２２（ω_ｊ）＝Ｎ_ＮＧ

ここで、単語ｗ_ｉごとに繰り返して組み合わせω_ｊについての２×２分割表を算出する処理中に、既にｗ_ｉとｗ_ｊとの組み合わせω_ｊに対する２×２分割表についての算出を行っている場合には、再算出しない。このように同一の組み合わせについて重複して２×２分割表を算出しないようにすれば、演算量を減らすことができる。そして、上記式（１）、上記式（２）、上記式（３）、上記式（４）に倣って算出する重要度Ｅ（ω_ｊ）を、ＭＳＳ（ω_ｊ）とし、単語ｗ_ｉと単語ｗ_ｊ（１≦ｊ≦ｍ）の組み合わせω_ｊのうち、最もＭＳＳ（ω_ｊ）の値が大きくなるω_ｊを求める。ここで、ω_ｊを、組み合わせ集合Ｇに追加する（Ｇ＝Ｇ＋｛ω_ｊ｝）。また、変数ｕをインクリメントする（ｕ＝ｕ＋１）。ここで、単語ｗ_ｉを除く単語集合Ｗに含まれる単語ｗ_ｋのうち、ｓｓｓ（ｗ_ｋ）が最も大きい単語ｗ_ｋを、重要度判定対象の単語ｗ_ｉとして、単語ｗ_ｉ以外にシングルスタティックスコアｓｓｓ（ｗ_ｊ）が大きいｍ個の単語ｗ_１〜ｗ_ｍを求める処理から、最もＭＳＳ（ω_ｊ）の値が大きくなる単語の組み合わせを求めて組み合わせ集合Ｇに追加する処理を繰り返す。これにより、ｍｓｓ（ｗ）をスコアの降順に並べた単語リストＭＳＳ（Ｗ）を求めることができる。

ＭＤＳ算出部１７３は、ＭＳＳ算出部１７２が算出した単語リストＭＳＳ（Ｗ）と、Ｗに含まれる単語ｗ_ｉと単語ｗ_ｊとの組み合わせω_ｊに対する２×２分割表とを入力として、単語集合Ｗに含まれるそれぞれの単語ｗ_ｉと他の単語との組み合わせω_ｉについてのマルチダイナミックスコアｍｄｓ（ω_ｉ）の単語リストＭＤＳ（Ｗ）を算出する。ここで、ＭＳＳ算出部１７２によってマルチスタティックスコアｓｓｓ（ｗ_ｉ）が降順に並べられた単語リストであるＭＳＳ（Ｗ）を、集合Ｃ（Ｃ＝｛ω_１、ω_２、・・・ω_ＮＡＬＬ｝）とする。また、単語の組み合わせωについてのｍｄｓ（ω_ｉ）の値により降順に並べる単語の集合をＬとする。初期状態では、Ｌ＝｛｝（空集合）である。

ＭＤＳ算出部１７３は、集合Ｃの中から、ｍｄｓ（ω_ｉ）が最大となるω_ｉを求める。そして、Ｃからω_ｉを除き（Ｃ＝Ｃ−｛ω_ｉ｝）、ｍｓｓ（ω_ｉ）を仮のｍｄｓ（ω_ｉ）とする（ｍｄｓ（ω_ｉ）＝ｍｓｓ（ω_ｉ））。ここで、任意のラベルに該当すると判定されたＮ_ＯＫ個の電子文書のうち、単語の組み合わせω_ｉと他の任意の単語の組み合わせω_ｊとが含まれる文書の数をｎ_１１（_ｉｊ）とする。また、任意のラベルに該当しないと判定されたＮ_ＮＧ個の電子文書のうち、単語の組み合わせω_ｉと他の任意の単語の組み合わせω_ｊとが含まれる文書の数をｎ_１２（_ｉｊ）とする。また、任意のラベルに該当すると判定されたＮ_ＯＫ個の電子文書のうち、単語の組み合わせω_ｉと他の任意の単語の組み合わせω_ｊとが含まれない文書の数をｎ_２１（_ｉｊ）とする。また、任意のラベルに該当しないと判定されたＮ_ＮＧ個の電子文書のうち、単語の組み合わせω_ｉと他の任意の単語の組み合わせω_ｊとが含まれない文書の数をｎ_２２（_ｉｊ）とする。そして、Ｃのうちの他の単語の組み合わせｗ_ｊについて、ＭＳＳ算出部１７２が生成した２×２分割表の各値を、以下のように更新する。

そして、更新した単語の組み合わせｗ_ｊについての２×２分割表から、上記式（１）、上記式（２）、上記式（３）、上記式（４）に倣って単語重要度Ｅ（ω_ｊ）を算出する。ＳＤＳ算出部１７４は、Ｃに含まれる単語の組み合わせのうち、単語重要度Ｅ（ω_ｊ）の値が最も大きくなるｗ_ｊを求め、単語重要度Ｅ（ω_ｊ）を、ｍｄｓ（ω_ｊ）として集合Ｌに追加する（Ｌ＝Ｌ＋｛ω_ｊ｝）。

ＭＤＳ算出部１７３は、集合Ｃが空集合になるまで、集合Ｃの中からｍｓｓ（ω_ｉ）が最大となるω_ｉを求める処理から、最もｍｄｓ（ω_ｊ）の値が大きくなるω_ｊを集合Ｌに追加するまでの処理を繰り返す。これにより、ｍｄｓ（ω）を降順に並べた単語リストＭＤＳ（Ｗ）を求めることができる。この単語リストＭＤＳ（Ｗ）は、全ての単語の組み合わせωについて、その単語の組み合わせωより上位の単語の影響を除いた状態でのスコア順に並べられたリストとなる。

辞書登録部１８０は、索引語スコア算出部１７０により算出された単語リストＳＳＳ（Ｗ）、ＳＤＳ（Ｗ）、ＭＳＳ（Ｗ）、ＭＤＳ（Ｓ）のうちいずれかまたは複数の単語リストのうち、スコアの大きい定められた複数の単語を、辞書データベース３００に辞書データとして記憶させる。

次に、図３を参照して、本発明による索引語スコア算出装置１００が、ラベル判定結果に基づいて辞書データベース３００に記憶された辞書データを更新する動作例を説明する。
ラベル判定装置２００は、例えば、インターネットを介して取得し記憶した複数のテキストベースのウェブコンテンツを、ラベル判定対象の電子文書として読み出す。そして、ラベル判定装置２００は、辞書データベース３００から読み出した辞書データに含まれるラベルに対応する一定数以上の単語が、ラベル判定対象のウェブコンテンツに含まれるか否かを判定し、そのラベルにそのウェブコンテンツが該当するか否かを判定する。ラベル判定装置２００は、ラベル判定処理を行ったウェブコンテンツと、その判定結果を示す情報とを、ラベル判定結果記憶部１１０に記憶させる。

正規化処理部１２０は、ラベル判定結果記憶部１１０に記憶されているラベル判定済みのウェブコンテンツとラベル判定結果とを読み出し（ステップＳ１）、ウェブコンテンツの正規化処理を行う（ステップＳ２）。形態素解析部１３０は、ステップＳ２でウェブコンテンツが正規化された電子文書と、形態素解析用辞書記憶部１４０から読み出す形態素解析用辞書とに基づいて、正規化済電子文書の形態素解析処理を行い、ドキュメントベクトルテーブルを生成する（ステップＳ３）。

単語分布算出部１５０は、ステップＳ３で形態素解析部１３０により生成されたドキュメントベクトルテーブルに基づいて、単語分布表を生成する（ステップＳ４）。ここで、索引語スコア算出装置１００は、ラベル判定結果記憶部１１０に単語分布表の更新の対象としていないウェブコンテンツと判定結果とがラベル判定結果記憶部１１０に存在すれば（ステップＳ５：ＹＥＳ）、ステップＳ１からステップＳ４までの処理を繰り返す。

単語分布算出部１５０が、ラベル判定結果記憶部１１０に記憶されたウェブコンテンツと判定結果との全てに基づいて、単語分布表の更新を行った場合には（ステップＳ５：ＮＯ）、索引語スコア算出部１７０のＳＳＳ算出部１７１は、上述したＳＳＳ算出処理を行う。ＳＤＳ算出部１７４は、ＳＳＳ算出部１７１が算出したＳＳＳ（Ｗ）に基づいて、ＳＤＳ算出処理を行い、各単語のＳＤＳを求めた単語リストＳＤＳ（Ｗ）を算出する（ステップＳ７）。一方、ＭＳＳ算出部１７２は、ＳＳＳ算出部１７１が算出したＳＳＳ（Ｗ）に基づいて、ＭＳＳ算出処理を行い、各単語のＭＳＳを求めた単語リストＭＳＳ（Ｗ）を算出する（ステップＳ８）。そして、ＭＤＳ算出部１７３は、ＭＳＳ算出部１７２が算出したＭＳＳ（Ｗ）に基づいて、ＭＤＳ算出処理を行い、各単語のＭＤＳを求めた単語リストＭＤＳ（Ｗ）を算出する（ステップＳ９）。辞書登録部１８０は、算出された単語リストＳＳＳ（Ｗ）、ＳＤＳ（Ｗ）、ＭＳＳ（Ｗ）、ＭＤＳ（Ｓ）のうちいずれかまたは複数の単語リストのうち、スコアの大きい定められた複数の単語を、辞書データベース３００に辞書データとして記憶させる（ステップＳ１０）。

このように、本実施形態によれば、定められたラベルに関する辞書データを用いて、ラベル判定対象の電子文書がそのラベルに該当するか否かを判定する際に、単一の単語を用いて判定処理を行ってフィルタリングを行うよりも、トピック抽出の精度を向上させることが可能となる。さらに、２×２分割表を用いた情報量基準量を算出することで、単語の組み合わせを総当りで判定するよりも少ない計算量で、最適な複数単語の組み合わせを検出することが可能となる。

なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより索引語スコアの算出を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明の一実施形態による文書ラベル判定システムのシステム構成を示す図である。本発明の一実施形態により作成される分割表の概念を示す図である。本発明の一実施形態による文書ラベル判定システムの動作例を示すフローチャートである。

符号の説明

１文書ラベル判定システム
１００索引語スコア算出装置
１１０ラベル判定結果記憶部
１２０正規化処理部
１３０形態素解析部
１４０形態素解析用辞書記憶部
１５０単語分布算出部
１６０単語分布表記憶部
１７０索引語スコア算出部
１７１ＳＳＳ算出部
１７２ＭＳＳ算出部
１７３ＭＤＳ算出部
１７４ＳＤＳ算出部
１８０辞書登録部
２００ラベル判定装置
３００辞書データベース

Claims

複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第１の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第２の電子文書集合とが記憶される第１の記憶部と、
前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第２の記憶部と、
前記第１の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第１の電子文書数と、前記第２の電子文書集合のうち前記特定の単語が含まれる電子文書の第２の電子文書数と、前記第１の電子文書集合のうち前記特定の単語が含まれない電子文書の第３の電子文書数と、前記第２の電子文書集合のうち前記特定の単語が含まれない電子文書の第４の電子文書数とが含まれる第１の分割表を算出する第１の分割表算出部と、
前記第１の電子文書数と、前記第２の電子文書数と、前記第３の電子文書数と、前記第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、前記第１の情報量基準量と前記第２の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第１のスコアとして算出する第１のスコア算出部と、
前記単語集に含まれる複数の単語のそれぞれについて前記第１のスコア算出部により前記第１のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第１のスコアが大きい第１の単語と、前記判定対象の集合に含まれる第２の単語との組み合わせについて、前記第１の電子文書集合のうち前記第１の単語と前記第２の単語との組み合わせが含まれる電子文書の第１の電子文書数と、前記第２の電子文書集合のうち前記第１の単語と前記第２の単語との組み合わせが含まれる電子文書の第２の電子文書数と、前記第１の電子文書集合のうち前記第１の単語と前記第２の単語との組み合わせが含まれない電子文書の第３の電子文書数と、前記第２の電子文書集合のうち前記第１の単語と前記第２の単語との組み合わせが含まれない電子文書の第４の電子文書数とが含まれる第２の分割表を算出する第２の分割表算出部と、
当該第２の分割表算出部により算出された前記第２の分割表に含まれる前記第１の電子文書数と、前記第２の電子文書数と、前記第３の電子文書数と、前記第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、前記第１の情報量基準量と、前記第２の情報量基準量との差を、前記第１の単語と前記第２の単語との組み合わせと前記定められた性質との関連度を示す第２のスコアとして算出する第２のスコア算出部と、
を備えることを特徴とする単語スコア算出装置。
前記単語集に含まれる複数の単語の組み合わせのそれぞれについて前記第２のスコア算出部により前記第２のスコアが算出された当該複数の単語の組み合わせの集合を判定対象の集合とし、当該判定対象の集合に含まれる単語の組み合わせのうち最も前記第２のスコアが大きい第１の単語の組み合わせを求め、前記判定対象の集合に含まれる第２の単語の組み合わせについて前記第２の分割表算出部で算出された前記第２の分割表に含まれる前記第１の電子文書数から前記第１の電子文書集合のうち前記第１の単語の組み合わせと前記第２の単語の組み合わせとが含まれる電子文書数を減算し、前記第２の分割表に含まれる前記第２の電子文書数から前記第２の電子文書集合のうち前記第１の単語の組み合わせと前記第２の単語の組み合わせとが含まれる電子文書数を減算し、前記第２の分割表に含まれる前記第１の電子文書数から前記第１の電子文書集合のうち前記第１の単語の組み合わせと前記第２の単語の組み合わせとが含まれない電子文書数を減算し、前記第２の分割表に含まれる前記第４の電子文書数から前記第２の電子文書集合のうち前記第１の単語の組み合わせと前記第２の単語の組み合わせとが含まれない電子文書数を減算した第３の分割表を算出する第３の分割表算出部と、
当該第３の分割表算出部により算出された前記第３の分割表に含まれる前記第１の電子文書数と、前記第２の電子文書数と、前記第３の電子文書数と、前記第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、前記第１の情報量基準量と、前記第２の情報量基準量との差を、前記第１の単語の組み合わせと前記定められた性質との関連度を示す第３のスコアとして算出する第３のスコア算出部と、
を備えることを特徴とする請求項１に記載の単語スコア算出装置。
複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第１の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第２の電子文書集合とが記憶される第１の記憶部と、
前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第２の記憶部と、
前記第１の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第１の電子文書数と、前記第２の電子文書集合のうち前記特定の単語が含まれる電子文書の第２の電子文書数と、前記第１の電子文書集合のうち前記特定の単語が含まれない電子文書の第３の電子文書数と、前記第２の電子文書集合のうち前記特定の単語が含まれない電子文書の第４の電子文書数とが含まれる第１の分割表を算出する第１の分割表算出部と、
前記第１の電子文書数と、前記第２の電子文書数と、前記第３の電子文書数と、前記第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、前記第１の情報量基準量と前記第２の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第１のスコアとして算出する第１のスコア算出部と、
前記単語集に含まれる複数の単語のそれぞれについて前記第１のスコア算出部により前記第１のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第１のスコアが大きい第１の単語を求め、前記判定対象の集合に含まれる第２の単語について前記第１の分割表算出部で算出された前記第１の分割表に含まれる前記第１の電子文書数から前記第１の電子文書集合のうち前記第１の単語と前記第２の単語とが含まれる電子文書数を減算し、前記第１の分割表に含まれる前記第２の電子文書数から前記第２の電子文書集合のうち前記第１の単語と前記第２の単語とが含まれる電子文書数を減算し、前記第１の分割表に含まれる前記第１の電子文書数から前記第１の電子文書集合のうち前記第１の単語と前記第２の単語とが含まれない電子文書数を減算し、前記第１の分割表に含まれる前記第４の電子文書数から前記第２の電子文書集合のうち前記第１の単語と前記第２の単語とが含まれない電子文書数を減算した第４の分割表を算出する第４の分割表算出部と、
当該第４の分割表算出部により算出された前記第４の分割表に含まれる前記第１の電子文書数と、前記第２の電子文書数と、前記第３の電子文書数と、前記第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、前記第１の情報量基準量と、前記第２の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第４のスコアとして算出する第４のスコア算出部と、
を備えることを特徴とする単語スコア算出装置。
請求項１から請求項３までのいずれか１項に記載の単語スコア算出装置と、
前記第２の記憶部に記憶される前記単語集に含まれる前記複数の単語のそれぞれについて、前記定められた性質を表すラベルと、前記単語スコア算出装置によってスコアが算出された前記単語のうち、前記ラベルが表す定められた性質との関連度を示す前記スコアが大きい単語から定められた数の単語とが対応付けられた辞書データが記憶される辞書データベースと、
入力される電子文書に含まれる単語と、前記辞書データベースに記憶された前記辞書データに含まれる前記単語とに基づいて、当該電子文書が前記ラベルに該当するか否かを判定するラベル判定装置と、
を備えることを特徴とする文書ラベル判定システム。
複数の電子文書のうち、定められた性質に関連すると判定された電子文書の集合である第１の電子文書集合と、前記定められた性質に関連しないと判定された電子文書の集合である第２の電子文書集合とが記憶される第１の記憶部と、前記定められた性質との関連度を示すスコアの算出対象となる複数の単語が含まれる単語集が記憶される第２の記憶部とを備える単語スコア算出装置のコンピュータに、
前記第１の電子文書集合のうち前記単語集に含まれる特定の単語が含まれる電子文書の第１の電子文書数と、前記第２の電子文書集合のうち前記特定の単語が含まれる電子文書の第２の電子文書数と、前記第１の電子文書集合のうち前記特定の単語が含まれない電子文書の第３の電子文書数と、前記第２の電子文書集合のうち前記特定の単語が含まれない電子文書の第４の電子文書数とが含まれる第１の分割表を算出するステップと、
前記第１の電子文書数と、前記第２の電子文書数と、前記第３の電子文書数と、前記第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、前記第１の情報量基準量と前記第２の情報量基準量との差を、前記特定の単語と前記定められた性質との関連度を示す第１のスコアとして算出するステップと、
前記単語集に含まれる複数の単語のそれぞれについて前記第１のスコアが算出された当該複数の単語の集合を判定対象の集合とし、当該判定対象の集合に含まれる単語のうち最も前記第１のスコアが大きい第１の単語と、前記判定対象の集合に含まれる第２の単語との組み合わせについて、前記第１の電子文書集合のうち前記第１の単語と前記第２の単語との組み合わせが含まれる電子文書の第１の電子文書数と、前記第２の電子文書集合のうち前記第１の単語と前記第２の単語との組み合わせが含まれる電子文書の第２の電子文書数と、前記第１の電子文書集合のうち前記第１の単語と前記第２の単語との組み合わせが含まれない電子文書の第３の電子文書数と、前記第２の電子文書集合のうち前記第１の単語と前記第２の単語との組み合わせが含まれない電子文書の第４の電子文書数とが含まれる第２の分割表を算出するステップと、
前記第２の分割表に含まれる前記第１の電子文書数と、前記第２の電子文書数と、前記第３の電子文書数と、前記第４の電子文書数との間に因果関係有りと仮定した場合の第１の情報量基準量と、因果関係無しと仮定した場合の第２の情報量基準量とを算出し、前記第１の情報量基準量と、前記第２の情報量基準量との差を、前記第１の単語と前記第２の単語との組み合わせと前記定められた性質との関連度を示す第２のスコアとして算出するステップと、
を実行させる単語スコア算出プログラム。