JP5739352B2

JP5739352B2 - 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム

Info

Publication number: JP5739352B2
Application number: JP2012005454A
Authority: JP
Inventors: 服部　元; 元服部; 正柳原; 小野　智弘; 智弘小野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2012-01-13
Filing date: 2012-01-13
Publication date: 2015-06-24
Anticipated expiration: 2032-01-13
Also published as: JP2013145461A

Description

本発明は、辞書生成装置、文書ラベル判定システム及びコンピュータプログラムに関する。

従来、ブログ等のテキストベースのウェブコンテンツや、ワープロソフトなどによって生成される文書ファイルなどの電子文書に対して、その電子文書に含まれるテキスト情報の内容がどのような性質を持つものであるかを判定し、その内容に応じたラベルを付与して電子文書を分類する文書ラベル判定システムが利用されている。ラベルには、例えば、スポーツ、経済などの電子文書のトピックを示すラベルがある。このようなラベルのうち、特定のラベルにラベル判定対象の電子文書が該当するか否かを判定する際には、その特定のラベルに関連性の高い複数の索引語が対応付けられた辞書データが用いられる。例えば、ラベルが「経済」である場合には、索引語として「財務省」、「為替」などの単語が対応付けられた辞書データが予め準備される。文書ラベル判定システムは、辞書データに含まれる索引語に一致する単語をラベル判定対象の電子文書から検出し、その一致の度合いに応じて、その電子文書が特定のラベルに該当するか否かを判定する。

特許文献１に記載の従来の辞書生成技術では、スコア付き単語に係るモデル検定を行ってスコア付き単語のみによる辞書を作成すると共に、スコア付き単語の組み合わせに係るモデル検定を行ってスコア付き単語の組み合わせのみによる辞書を作成している。又、非特許文献１には、情報量基準に基づくモデル検定を行い、トピックに該当するかを判定する上で重要な単語のみを選出する技術が提案されている。

特開２０１０−０１５３９５号公報

Kazunori Matsumoto, Kazuo Hashimoto, "Schema Design for Causal Law Mining from Incomplete Database", Discovery Science, Second International Conference, DS '99, Tokyo, Japan, December, 1999,Proceedings. Lecture Notes in Computer Science 1721 Springer, pp.92-102, 1999.

しかし、上述した従来の辞書生成技術では、スコア付き単語に係るモデル検定とスコア付き単語の組み合わせに係るモデル検定とを独立に行っているために、両者のモデル検定結果を同等に扱うことができず、従ってスコア付き単語のみによる辞書とスコア付き単語の組み合わせのみによる辞書とを混在させることができない。

さらに、あるトピックｘに該当する文書集合において、特定の内容の文書が偏って多く存在する場合に、フィルタリング用辞書に登録する単語として、その多く存在する文書に出現する単語が多く選択されてしまう。これによって、本来特定の文書を判定する上で不要となるはずの単語または単語の組み合わせが、上記辞書に登録される場合がある。その場合、トピックｘに該当するかどうかを判定するのではなく特定の内容の文書を判定することとなり、結果として文書ラベル判定システムが本来特定のトピックに該当しない文書を特定のトピックに該当すると誤って判定してしまう。
特許文献1では、単語の組み合わせを形成する際にこの問題を解決しているが、辞書に単語または単語の組み合わせが登録される場合には、特許文献１の手法を適用することができなかった。

本発明は、このような事情を考慮してなされたもので、スコア付き単語のみによる辞書とスコア付き単語の組み合わせのみによる辞書とを混在させることができ、かつ同じ単語または同じ単語の組み合わせが辞書に重複して登録されることを防ぐ辞書生成装置、文書ラベル判定システム及びコンピュータプログラムを提供することを課題とする。

上記の課題を解決するために、本発明に係る辞書生成装置は、特定の性質に関係する正解文書の集合と前記性質に関係しない不正解文書の集合とを用いて、前記性質に関係する文書であるか否かを判定するためのフィルタリング辞書を生成する辞書生成装置において、前記正解文書又は前記不正解文書に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するスコア計算部と、前記情報量基準量に基づき、フィルタリング辞書に登録する単語または連続する単語の組み合わせである辞書登録候補を選択する辞書登録候補選択部と、前記辞書登録候補選択部により選択された辞書登録候補を該当する前記情報量基準量に基づいたスコアとともに前記辞書に登録する辞書登録部と、前記辞書登録候補選択部が選択した辞書登録候補を含む前記正解文書及び前記不正解文書を、前記正解文書の集合及び前記不正解文書の集合から削除し、新たな正解文書の集合及び不正解文書の集合を構築する入力文書フィルタ部と、を備え、前記スコア計算部は、前記入力文書フィルタ部が構築した新たな正解文書の集合及び不正解文書の集合に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出することを特徴とする。

上記に記載の辞書生成装置において、本発明の一態様は、前記入力文書フィルタ部は、前記正解文書および前記不正解文書の集合の中から、前記フィルタリング辞書に既に登録されている単語で、トピック判定装置が正解文書として判定可能な文書を取り除くことを特徴とする。

上記に記載の辞書生成装置において、本発明の一態様は、前記辞書登録候補選択部は、連続する単語の組み合わせが前記不正解文書中よりも前記正解文書中により多く含まれる場合にのみ連続する単語の組み合わせをフィルタリング辞書に登録する単語として選択することを特徴とする。

上記に記載の辞書生成装置において、本発明の一態様は、前記辞書登録部は、同じ辞書登録候補が複数選択されている場合に、該複数の辞書登録候補に係るスコアのうち最小のスコアを当該辞書登録候補のスコアとすることを特徴とする。

上記に記載の辞書生成装置において、本発明の一態様は、前記スコア計算部は、前記正解文書および不正解文書に含まれる連続する二つ以上の単語を抽出し、それらの単語が単独で出現する場合、および、二つ以上連続して出現する場合それぞれについて、前記正解文書および不正解文書内に含まれる回数を算出し、算出した前記回数に基づき前記連続する二つ以上の単語の組み合わせに対する情報量基準量を算出することを特徴とする。

本発明の一態様は、上記に記載の辞書生成装置と、入力文書に対してテキストデータ以外のデータの削除を行う文書正規化部を備えたことを特徴とする多様な入力文書に対応可能な辞書生成装置である。

本発明の一態様は、上記に記載の辞書生成装置と、前記辞書生成装置によって生成された、特定の性質を表すラベルに対応付けてスコア付き単語及びスコア付き単語の組み合わせを格納するフィルタリング辞書と、前記フィルタリング辞書を用いて入力文書に対応するラベルを判定するトピック判定装置と、を備えたことを特徴とする文書ラベル判定システムである。

本発明の一態様は、特定の性質に関係する正解文書の集合と前記性質に関係しない不正解文書の集合とを用いて、前記性質に関係する文書であるか否かを判定するための辞書を生成する処理を行うためのコンピュータプログラムであって、前記正解文書又は前記不正解文書に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するステップと、前記情報量基準量に基づき、フィルタリング辞書に登録する単語または連続する単語の組み合わせである辞書登録候補を選択する辞書登録候補選択ステップと、前記辞書登録候補選択ステップにより選択された辞書登録候補を該当する前記情報量基準量に基づいたスコアとともに前記辞書に登録するステップと、前記辞書登録候補選択ステップが選択した辞書登録候補を含む前記正解文書及び前記不正解文書を、前記正解文書の集合及び前記不正解文書の集合から削除し、新たな正解文書の集合及び不正解文書の集合を構築するステップと、前記構築した新たな正解文書の集合及び不正解文書の集合に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するステップと、をコンピュータに実行させるためのコンピュータプログラムである。

本発明の一態様は、特定の性質に関係する正解文書の集合と前記性質に関係しない不正解文書の集合とを用いて、前記性質に関係する文書であるか否かを判定するための辞書を生成する処理を行うためのコンピュータプログラムであって、前記正解文書および不正解文書に含まれる連続する二つ以上の単語を抽出し、それらの単語が単独で出現する場合、および、二つ以上連続して出現する場合それぞれについて、前記正解文書および不正解文書内に含まれる回数を算出し、算出した前記回数に基づき前記連続する二つ以上の単語の組み合わせに対する情報量基準量を算出し、前記情報量基準量に基づき辞書登録候補を選択することをコンピュータに実行させるためのコンピュータプログラムである。
これにより、上述の辞書生成装置がコンピュータを利用して実現できるようになる。

本発明によれば、トピックｘに該当する文書集合において、特定の内容の文書が偏って多く存在する場合に、フィルタリング用辞書に登録する単語として、その多く存在する文書に出現する単語が多く選択されてしまうことを防止することができるという効果が得られる。あるいは、比較的少ない種類の文書からも単語を選択することができるという効果が得られる。

本発明の一実施形態に係る文書ラベル判定システムの構成を示すブロック図である。同実施形態に係る辞書生成処理の流れを示すフローチャートである。２×２分割表の構成例である。２×４分割表の構成例である。本発明の一実施形態に係る辞書登録候補選択処理のプログラムの例である。

以下、図面を参照し、本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る文書ラベル判定システムの構成を示すブロック図である。図１において、トピック判定装置３２は、フィルタリング用辞書３０を用いて、データ（テキストデータ）１００から成る入力文書に対応するラベルを判定する。ラベルは、トピックなど、文書の性質を示す。本実施形態では、ラベルは、文書のトピックを示すものとして定義されているとする。

トピック判定装置３２は、ラベル判定結果として、特定のトピックｘに該当する文章（正解文書）１１０と、特定のトピックｘに該当しない文章（不正解文書）１２０とを出力する。この出力データ（特定のトピックｘに関係する正解文書の集合、及び特定のトピックｘに関係しない不正解文書の集合）は、辞書生成装置２に入力される。

なお、辞書生成装置２に入力するデータ（特定のトピックｘに関係する正解文書の集合、及び特定のトピックｘに関係しない不正解文書の集合）は、トピック判定装置３２以外のトピック判定手段（例えば人間）が生成してもよい。

辞書生成装置２は、特定のトピックｘに関係する正解文書の集合と特定のトピックｘに関係しない不正解文書の集合とを用いて、特定のトピックｘに関係する文書であるか否かを判定するためのフィルタリング用辞書３０を生成する。フィルタリング用辞書３０は、特定のトピックｘを表すラベルに対応付けてスコア付き単語及びスコア付き単語の組み合わせを格納する辞書データベースである。

辞書生成装置２は、文書正規化部４と形態素解析部６とスコア計算部１２と辞書登録候補選択部１６と入力文章フィルタ部１７と、辞書登録部１８とを有する。

以下、図２を参照して、図１に示す辞書生成装置２の動作を説明する。図２は、本実施形態に係る辞書生成処理の流れを示すフローチャートである。

［ステップＳ１：文書の正規化作業］
文書正規化部４は、正解文書及び不正解文書に対して文書の正規化を行う。文書の正規化では、所定の規則に従って、表記の揺れを統一したり又はタグを除去したりする。

ここで、文書の正規化作業の具体例を挙げる。
入力文書は、ブログ記事（本文（テキストデータ、絵文字を含む、ＨＴＭＬ（HyperText Markup Language）タグを含む）、画像は無し）と、ブログコメント（本文（テキストデータ、ＨＴＭＬタグを含む）、画像は無し）であるとする。文書正規化部４は、所定の正規化規則に従って入力文書の本文を正規化理し、正規化処理後の文書を出力する。以下に正規化規則の例を示す。
（正規化規則の例）
・ハイフン「‐」、マイナス記号「−」及び長音記号「ー」を所定の記号（例えば「−」）に統一する。
・半角文字を全角文字に変換する。
・タブ文字を空白に置き換える。
・絵文字を特定の文字記号（０ｘＡ２Ａ２）に置き換える。
・ＨＴＭＬタグを削除する。
・日本語の小文字を大文字に変換する。例えば「ィ」を「イ」に変換する。但し、不図示の形態素解析用辞書において、小文字有りの状態で登録されている場合には変換しないで小文字のまま残す。

［ステップＳ２：文書の形態素処理］
形態素解析部６は、文書正規化部４から出力された正規化後の正解文書及び不正解文書に対して文書の形態素処理を行う。文書の形態素処理では、不図示の形態素解析用辞書を用いて、文章を単語単位に分割し、各単語に品詞を割り当てる。そして、所定の品詞が割り当てられた単語を抽出する。

ここで、文書の形態素処理の具体例を挙げる。
入力文書は、正規化後のブログ記事（本文（正規化済みのテキストデータ））と、正規化後のブログコメント（本文（正規化済みのテキストデータ））であるとする。形態素解析部６は、不図示の形態素解析用辞書を用いて、正規化後のブログ記事及びブログコメントに対し、文章を単語単位に分割して各単語に品詞を割り当てる。次いで、形態素解析部６は、所定の品詞（例えば、名詞）が割り当てられた単語を抽出する。次いで、形態素解析部６は、抽出した単語に対して、英単語の正規化（例えば、小文字を大文字に変換する)を行ったり、カタカナの単語の正規化（例えば、「コンピューター」を「コンピュータ」に変換する）を行ったりする。形態素解析部６は、正規化後の単語を頻度計算対象単語表に格納する。但し、同じ単語が頻度計算対象単語表に重複して格納されないようにする。

［ステップＳ３：ＳＳＳ（シングルスタティックスコア）、ＭＳＳ（マルチスタティックスコア）の計算］
スコア計算部１２は、形態素解析部６から出力された頻度計算対象単語表に格納される各単語を対象にして、ＳＳＳに関する図３に示される２×２分割表を作成する。図３において、単語ｗに関するａ、ｂ、ｃ、ｄは以下の値である。
ａ：正解文書の集合ＤＯＣ_Ｍのうち、単語ｗを含んでいる文書の数
ｂ：正解文書の集合ＤＯＣ_Ｍのうち、単語ｗを含んでいない文書の数
ｃ：不正解文書の集合ＤＯＣ_Ｎのうち、単語ｗを含んでいる文書の数
ｄ：不正解文書の集合ＤＯＣ_Ｎのうち、単語ｗを含んでいない文書の数

スコア計算部１２は、形態素解析部６から出力された頻度計算対象単語表に格納される各単語を対象にして、ＭＳＳに関する図４に示される２×４分割表を作成する。図４において、単語ｗ_１と単語ｗ_２の組み合わせに関するＮ１１、Ｎ１２、Ｎ１３、Ｎ１４、Ｎ２１、Ｎ２２、Ｎ２３、Ｎ２４は以下の値である。
Ｎ１１：正解文書の集合ＤＯＣ_Ｍのうち、単語ｗ_１を含む且つ単語ｗ_２を含む文書の数
Ｎ１２：正解文書の集合ＤＯＣ_Ｍのうち、単語ｗ_１を含む且つ単語ｗ_２を含まない文書の数
Ｎ１３：正解文書の集合ＤＯＣ_Ｍのうち、単語ｗ_１を含まない且つ単語ｗ_２を含む文書の数
Ｎ１４：正解文書の集合ＤＯＣ_Ｍのうち、単語ｗ_１を含まない且つ単語ｗ_２を含まない文書の数
Ｎ２１：不正解文書の集合ＤＯＣ_Ｎのうち、単語ｗ_１を含む且つ単語ｗ_２を含む文書の数
Ｎ２２：不正解文書の集合ＤＯＣ_Ｎのうち、単語ｗ_１を含む且つ単語ｗ_２を含まない文書の数
Ｎ２３：不正解文書の集合ＤＯＣ_Ｎのうち、単語ｗ_１を含まない且つ単語ｗ_２を含む文書の数
Ｎ２４：不正解文書の集合ＤＯＣ_Ｎのうち、単語ｗ_１を含まない且つ単語ｗ_２を含まない文書の数

なお、Ｎ１２、Ｎ１３、Ｎ２２及びＮ２３に関して、図３に示される２×２分割表中のａ及びｃ、並びにＮ１１との間で以下の関係式が成り立つ。但し、単語ｗ_１に係る２×２分割表中のａ、ｃをａ（ｗ_１）、ｃ（ｗ_１）とし、単語ｗ_２に係る２×２分割表中のａ、ｃをａ（ｗ_２）、ｃ（ｗ_２）とする。
Ｎ１２＝ａ（ｗ_１）−Ｎ１１
Ｎ１３＝ａ（ｗ_２）−Ｎ１１
Ｎ２２＝ｃ（ｗ_１）−Ｎ１１
Ｎ２３＝ｃ（ｗ_２）−Ｎ１１

又、文書の総数Ｚは以下の関係式となる。
Ｚ＝Ｎ１１＋Ｎ１２＋Ｎ１３＋Ｎ１４＋Ｎ２１＋Ｎ２２＋Ｎ２３＋Ｎ２４

［ステップＳ４：ＡＩＣ（情報量基準量）の計算］
スコア計算部１２は、上記で算出した第１から第８の文書数（Ｎ１１、Ｎ１２、Ｎ１３、Ｎ１４、Ｎ２１、Ｎ２２、Ｎ２３、Ｎ２４）を用いて、第１から第４の情報量基準量（ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）、ＡＩＣ（Ｍ０））を算出する。

ＡＩＣ（Ｍ１）は、単語ｗ_１が特定のトピックｘに関係ありの度合いを示す。ＡＩＣ（Ｍ１）は、式（１）により算出される。但し、このＡＩＣ（Ｍ１）は、値が小さいほど、特定のトピックｘに関係ありの度合いが大きい。なお、以下、ｌｏｇの底である１０は省略して表記する。

ＡＩＣ（Ｍ２）は、単語ｗ_２が特定のトピックｘに関係ありの度合いを示す。ＡＩＣ（Ｍ２）は、式（２）により算出される。但し、このＡＩＣ（Ｍ２）は、値が小さいほど、特定のトピックｘに関係ありの度合いが大きい。

ＡＩＣ（Ｍ３）は、単語ｗ_１と単語ｗ_２の組み合わせが特定のトピックｘに関係ありの度合いを示す。ＡＩＣ（Ｍ３）は、式（３）により算出される。但し、このＡＩＣ（Ｍ３）は、値が小さいほど、特定のトピックｘに関係ありの度合いが大きい。

ＡＩＣ（Ｍ０）は、単語ｗ_１も、単語ｗ_２も、単語ｗ_１と単語ｗ_２の組み合わせも、全てが特定のトピックｘに関係なしである度合いを示す。ＡＩＣ（Ｍ０）は、式（４）により算出される。但し、このＡＩＣ（Ｍ０）は、値が小さいほど、特定のトピックｘに関係なしの度合いが大きい。

すなわち、スコア計算部１２は、正解文書および不正解文書に含まれる連続する二つ以上の単語を抽出し、それらの単語が単独で出現する場合、および、二つ以上連続して出現する場合それぞれについて、正解文書および不正解文書内に含まれる回数を算出し、算出した回数に基づき連続する二つ以上の単語の組み合わせに対する情報量基準量を算出し、算出した情報量基準量に基づき辞書登録候補を選択する。
［ステップＳ５：辞書登録候補の選択］
辞書登録候補選択部１６は、スコア計算部１２が算出した第１から第４の情報量基準量（ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）、ＡＩＣ（Ｍ０））を用いて、辞書登録候補を選択する。辞書登録候補は、単語ｗ_１、単語ｗ_２、及び単語ｗ_１と単語ｗ_２の組み合わせである。以下、本実施形態に係る辞書登録候補選択処理を説明する。

本実施形態では、情報基準量に基づくモデル検定を行って辞書登録候補を選択する。ＡＩＣ（Ｍ１）は、単語ｗ_１に係る従属関係のモデルの情報基準量であり、特定のトピックｘに係る判定の際に単語ｗ_１のみを使うべきであることを示す尺度となる。ＡＩＣ（Ｍ２）は、単語ｗ_２に係る従属関係のモデルの情報基準量であり、特定のトピックｘに係る判定の際に単語ｗ_２のみを使うべきであることを示す尺度となる。ＡＩＣ（Ｍ３）は、単語ｗ_１及び単語ｗ_２の両方に係る従属関係のモデルの情報基準量であり、特定のトピックｘに係る判定の際に単語ｗ_１及び単語ｗ_２の両方を使うべきであることを示す尺度となる。ＡＩＣ（Ｍ０）は、独立モデルの情報基準量であり、特定のトピックｘに係る判定の際に単語ｗ_１も単語ｗ_２も単語ｗ_１と単語ｗ_２の組み合わせも使うべきではないことを示す尺度となる。

まず、辞書登録候補選択部１６は、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）及びＡＩＣ（Ｍ０）をそれぞれ比較し、値が最小であるものを選択する。この選択結果がＡＩＣ（Ｍ０）であった場合には、辞書登録候補選択処理を終了する。一方、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）又はＡＩＣ（Ｍ３）のいずれかが選択された場合には、その選択結果に該当する辞書登録候補を選択する。但し、辞書登録候補を選択する際に以下の制約（１）、（２）、（３）及び（４）を設ける。

（１）ＡＩＣ（Ｍ１）が最小である場合において、単語ｗ_１が不正解文書中よりも正解文書中により多く含まれるときにのみ単語ｗ_１を選択する。具体的には、次式が成立する場合にのみ、単語ｗ_１を選択する。
（Ｎ１１＋Ｎ１２）÷（Ｎ１１＋Ｎ１２＋Ｎ２１＋Ｎ２２）＞（Ｎ１３＋Ｎ１４）÷（Ｎ１３＋Ｎ１４＋Ｎ２３＋Ｎ２４）

（２）ＡＩＣ（Ｍ２）が最小である場合において、単語ｗ_２が不正解文書中よりも正解文書中により多く含まれるときにのみ単語ｗ_２を選択する。具体的には、次式が成立する場合にのみ、単語ｗ_２を選択する。
（Ｎ１１＋Ｎ１３）÷（Ｎ１１＋Ｎ１３＋Ｎ２１＋Ｎ２３）＞（Ｎ１２＋Ｎ１４）÷（Ｎ１２＋Ｎ１４＋Ｎ２２＋Ｎ２４）

（３）ＡＩＣ（Ｍ３）が最小である場合において、単語ｗ_１と単語ｗ_２の組み合わせが不正解文書中よりも正解文書中により多く含まれるときにのみ単語ｗ_１と単語ｗ_２の組み合わせを選択する。具体的には、次式が成立する場合にのみ、単語ｗ_１と単語ｗ_２の組み合わせを選択する。
Ｎ１１÷（Ｎ１１＋Ｎ２１）＞（Ｎ１２＋Ｎ１３＋Ｎ１４）÷（Ｎ１２＋Ｎ１３＋Ｎ１４＋Ｎ２２＋Ｎ２３＋Ｎ２４）

次いで、辞書登録候補選択部１６は、選択結果の辞書登録候補に関するスコアを計算する。各辞書登録候補のスコアの計算式を以下に示す。
単語ｗ_１のスコアＥ（Ｍ１）＝ＡＩＣ（Ｍ０）−ＡＩＣ（Ｍ１）
単語ｗ_２のスコアＥ（Ｍ２）＝ＡＩＣ（Ｍ０）−ＡＩＣ（Ｍ２）
単語ｗ_１と単語ｗ_２の組み合わせのスコアＥ（Ｍ３）＝ＡＩＣ（Ｍ０）−ＡＩＣ（Ｍ３）

次いで、辞書登録候補選択部１６は、選択結果の辞書登録候補とそのスコアを記録する。

次いで、辞書登録候補選択部１６は、既に選択した情報量基準量以外の情報量基準量を対象にして、値が最小であるものを選択し、上記と同様に辞書登録候補の選択を行う。辞書登録候補選択部１６は、ＡＩＣ（Ｍ０）を選択するまで、上記した辞書登録候補選択処理を繰り返す。

図５は、本実施形態に係る辞書登録候補選択処理のプログラムの例である。図５に示すプログラムはＣ言語で記述されている。

次いで、辞書登録候補選択部１６は、記録された辞書登録候補の中に、同じ辞書登録候補が複数あるかを調べる。この結果、同じ辞書登録候補が複数ある場合には、辞書登録候補選択部１６は、該複数の辞書登録候補に係るスコアのうち最小のスコアを当該辞書登録候補のスコアとする。本実施形態では、スコアの値が大きいほど、良いスコアであるので、最小のスコアを採用する。これにより、フィルタリング用辞書３０を用いた文書ラベル判定において、特定のトピックｘに該当する正解文書が過剰に検出されることを防止する効果が得られる。

［ステップＳ６：文書集合の更新］
入力文書フィルタ部１７は、辞書登録候補選択部１６が選択した辞書登録候補を含む正解文書及び不正解文書を正解文書の集合ＤＯＣ_Ｍ及び不正解文書の集合ＤＯＣ_Ｎから削除し、正解文書の集合ＤＯＣ_Ｍ及び不正解文書の集合ＤＯＣ_Ｎを更新する。すなわち、入力文書フィルタ部１７は、辞書登録候補選択部が選択した辞書登録候補を含む正解文書及び不正解文書を、正解文書の集合及び不正解文書の集合から削除し、新たな正解文書の集合及び不正解文書の集合を構築する。そして、スコア計算部１２は、入力文書フィルタ部１７が構築した新たな正解文書の集合及び不正解文書の集合に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する単語の情報量基準量を算出する。
これにより、以降の処理において、既に選択された辞書登録候補を含まない正解文書及び不正解文書から新たな辞書登録候補を選択することを保証することができる。従って、同じ辞書登録候補を重複して選択することを防ぐことができる。

［ステップＳ７：辞書登録候補判定処理の終了判定処理］
辞書登録候補選択部１６は、頻度計算対象単語表に格納される全ての単語に対して、辞書登録候補にするか否かを判定したかを判断する。この結果、頻度計算対象単語表に格納される全ての単語に対して辞書登録候補にするか否かを判定した場合には（ステップＳ７、ＹＥＳ）、ステップＳ８に進む。一方、未だ判定していない単語が残っている場合には（ステップＳ７、ＮＯ）、ステップＳ３に戻る。

［ステップＳ８：辞書登録作業］
辞書登録部１８は、辞書登録候補選択部１６が選択して記録した辞書登録候補及びスコアをフィルタリング用辞書３０に登録する。この登録の対象となる辞書登録候補及びスコアは、単語ｗ_１とそのスコアＥ（Ｍ１）の組（スコア付き単語）、単語ｗ_２とそのスコアＥ（Ｍ２）の組（スコア付き単語）、及び単語ｗ_１と単語ｗ_２の組み合わせとそのスコアＥ（Ｍ３）の組（スコア付き単語の組み合わせ）である。

ステップＳ８の辞書登録作業の結果、フィルタリング用辞書３０には、特定のトピックｘを表すラベルに対応付けてスコア付き単語及びスコア付き単語の組み合わせが格納される。

なお、フィルタリング用辞書３０に登録する辞書登録候補をスコアに基づいて絞り込むようにしてもよい。例えば、スコア上位の所定数の辞書登録候補のみをフィルタリング用辞書３０に登録したり、又は、所定の条件を満たす良スコアの辞書登録候補のみをフィルタリング用辞書３０に登録したりしてもよい。
なお、入力文書フィルタ部１７は、スコア計算部１２および辞書登録候補選択部１６が特定の文書集合に偏った単語選択が行われることを避けることを目的とした、正解文書および不正解文書の集合の中から、フィルタリング用辞書３０に既に登録されている単語で、トピック判定装置３２が正解文書として判定可能な文書を取り除いてもよい。

上述した実施形態によれば、スコア付き単語のみによる辞書とスコア付き単語の組み合わせのみによる辞書とを混在させることができる。これにより、フィルタリング用辞書３０を用いた文書ラベル判定において、スコア付き単語がフィルタリング用辞書３０に格納されていることから特定のトピックｘに該当する正解文書を取り損なうことを防ぐと共に、スコア付き単語の組み合わせがフィルタリング用辞書３０に格納されていることから特定のトピックｘに該当する正解文書を過剰に検出してしまうことを防ぐ効果が期待できる。この結果として、文書ラベル判定の精度向上に寄与することができるようになる。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述の実施形態では、単語ｗ_１と単語ｗ_２の組み合わせを辞書登録候補としたが、辞書登録候補として３つ以上の単語の組み合わせに対しても同様に適用可能である。

また、図２に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、辞書生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disk）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

２…辞書生成装置、４…文書正規化部、６…形態素解析部、１２…スコア計算部、１６…辞書登録候補選択部、１７…入力文章フィルタ部、１８…辞書登録部、３０…フィルタリング用辞書、３２…トピック判定装置

Claims

特定の性質に関係する正解文書の集合と前記性質に関係しない不正解文書の集合とを用いて、前記性質に関係する文書であるか否かを判定するためのフィルタリング辞書を生成する辞書生成装置において、
前記正解文書又は前記不正解文書に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するスコア計算部と、
前記情報量基準量に基づき、フィルタリング辞書に登録する単語または連続する単語の組み合わせである辞書登録候補を選択する辞書登録候補選択部と、
前記辞書登録候補選択部により選択された辞書登録候補を該当する前記情報量基準量に基づいたスコアとともに前記辞書に登録する辞書登録部と、
前記辞書登録候補選択部が選択した辞書登録候補を含む前記正解文書及び前記不正解文書を、前記正解文書の集合及び前記不正解文書の集合から削除し、新たな正解文書の集合及び不正解文書の集合を構築する入力文書フィルタ部と、
を備え、
前記スコア計算部は、前記入力文書フィルタ部が構築した新たな正解文書の集合及び不正解文書の集合に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出することを特徴とする辞書生成装置。
前記入力文書フィルタ部は、前記正解文書および前記不正解文書の集合の中から、前記フィルタリング辞書に既に登録されている単語で、トピック判定装置が正解文書として判定可能な文書を取り除くことを特徴とする請求項１に記載の辞書生成装置。
前記辞書登録候補選択部は、
連続する単語の組み合わせが前記不正解文書中よりも前記正解文書中により多く含まれる場合にのみ連続する単語の組み合わせをフィルタリング辞書に登録する単語として選択することを特徴とする請求項１または２に記載の辞書生成装置。
前記辞書登録部は、同じ辞書登録候補が複数選択されている場合に、該複数の辞書登録候補に係るスコアのうち最小のスコアを当該辞書登録候補のスコアとすることを特徴とする請求項１から３のいずれか１項に記載の辞書生成装置。
前記スコア計算部は、前記正解文書および不正解文書に含まれる連続する二つ以上の単語を抽出し、それらの単語が単独で出現する場合、および、二つ以上連続して出現する場合それぞれについて、前記正解文書および不正解文書内に含まれる回数を算出し、算出した前記回数に基づき前記連続する二つ以上の単語の組み合わせに対する情報量基準量を算出することを特徴とする請求項１から４のいずれか１項に記載の辞書生成装置。
請求項１から３のいずれか１項に記載の辞書生成装置と、
入力文書に対してテキストデータ以外のデータの削除を行う文書正規化部を備えたことを特徴とする多様な入力文書に対応可能な辞書生成装置。
請求項１から３のいずれか１項に記載の辞書生成装置と、
前記辞書生成装置によって生成された、特定の性質を表すラベルに対応付けてスコア付き単語及びスコア付き単語の組み合わせを格納するフィルタリング辞書と、
前記フィルタリング辞書を用いて入力文書に対応するラベルを判定するトピック判定装置と、
を備えたことを特徴とする文書ラベル判定システム。
特定の性質に関係する正解文書の集合と前記性質に関係しない不正解文書の集合とを用いて、前記性質に関係する文書であるか否かを判定するための辞書を生成する処理を行うためのコンピュータプログラムであって、
前記正解文書又は前記不正解文書に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するステップと、
前記情報量基準量に基づき、フィルタリング辞書に登録する単語または連続する単語の組み合わせである辞書登録候補を選択する辞書登録候補選択ステップと、
前記辞書登録候補選択ステップにより選択された辞書登録候補を該当する前記情報量基準量に基づいたスコアとともに前記辞書に登録するステップと、
前記辞書登録候補選択ステップが選択した辞書登録候補を含む前記正解文書及び前記不正解文書を、前記正解文書の集合及び前記不正解文書の集合から削除し、新たな正解文書の集合及び不正解文書の集合を構築するステップと、
前記構築した新たな正解文書の集合及び不正解文書の集合に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するステップと、をコンピュータに実行させるためのコンピュータプログラム。