JP2012155394A

JP2012155394A - 文書分類学習制御装置、文書分類装置およびコンピュータプログラム

Info

Publication number: JP2012155394A
Application number: JP2011011905A
Authority: JP
Inventors: Tadashi Yanagihara; 正柳原; Kazunori Matsumoto; 一則松本; Hajime Hattori; 元服部; Toshihiro Ono; 智弘小野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2011-01-24
Filing date: 2011-01-24
Publication date: 2012-08-16
Anticipated expiration: 2031-01-24
Also published as: JP5518757B2

Abstract

【課題】文書分類装置に使用される識別器の文書分類能力を高める学習の効率を向上させることを図る。
【解決手段】識別部１２に対して学習データ１１０（ラベル有）を入力するか、又は、強化学習データ１２０（ラベル無）を入力するか、又は、学習データ１１０（ラベル有）とアノテーション対象データ３１０（ラベル有）とを入力するか、を切り替える入力制御部１１と、識別部１２によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部１４と、グループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部１５とを備える。
【選択図】図１

Description

本発明は、文書分類学習制御装置、文書分類装置およびコンピュータプログラムに関する。

従来、電子文書がどのような種類の情報に関係するのかを判定し、その種類に応じたラベルを電子文書に付与して電子文書を分類する文書分類装置が知られている。文書分類装置としては、学習データを用いた能動学習（Active Learning）を行うことによって文書分類能力を高める識別器を利用するものがある。

識別器Ｃに対する能動学習では、まず、学習データＬを用いて、識別器Ｃに対して学習を行う。学習データは、正例ラベルが付された文書から成る。正例ラベルは、特定の種類の情報に関係する正例文書であることを示す。次いで、識別器Ｃを用いて、ラベルが付されていない文書から成る強化学習データＵが正例文書であるか又は正例文書に該当しない負例文書であるかを判定する。次いで、強化学習データＵに対する判定結果の事例うち信頼性が低い（曖昧な）事例（アノテーション対象データ）のみに対して、人がラベル付け（アノテーション）を行う。次いで、ラベルが付されたアノテーション対象データと学習データＬとを新たな学習データとして更新し、識別器Ｃに対する学習を繰り返す。この能動学習の処理は、終了条件を満たすまで繰り返される。

例えば非特許文献１には、ＳＶＭ（Support Vector Machine）を利用した識別器に関する技術が記載されている。ＳＶＭを利用した識別器は、正例側ソフトマージン及び負例側ソフトマージンを出力する。正例側ソフトマージンは、正例文書か負例文書かを判定するときの境界面からの正例側の範囲であって、判定結果の信頼性が低い範囲である。負例側ソフトマージンは、境界面からの負例側の範囲であって、判定結果の信頼性が低い範囲である。

非特許文献１に記載の従来技術では、識別器が強化学習データを判定した結果のうち、正例側ソフトマージン内にある文書（正例事例）と負例側ソフトマージン内にある文書（負例事例）との両方の事例を対象にして、k-means法を用いて類似する文書をグループ化する。そして、各クラスタにおいて重心点（centroid）の事例または重心点に最も近い事例を抽出し、この抽出した事例のみをアノテーション対象データとしている。

Z. Xu, K. Yu, V. Tresp, X. Xu, and J. Wang, "Representative Sampling for Text Classification using Support Vector Machines.", In Proceedings of the 25th European Conference on IR Research (ECIR'03) pp. 393-407. 2003.

しかし、上述した非特許文献１に記載の従来技術では、クラスタ内において正例事例と負例事例の分布に偏りがあるときに、識別器の学習効率が不十分であるという課題がある。図５は、従来のアノテーション対象データの生成方法を示す概念図である。図５において、正例側ソフトマージン内にある正例事例（○印）と負例側ソフトマージン内にある負例事例（×印）との両方の事例を対象にして、k-means法を用いて類似する文書がグループ化されている。このグループ化の結果として作成されたクラスタＧ１００では、重心点に最も近い事例Ｐ１００がアノテーション対象データとなるが、重心点が正例側ソフトマージン内にあって正例に帰属しているのに対して事例Ｐ１００は負例側ソフトマージン内にあって負例に帰属しており、アノテーション対象データである事例Ｐ１００が当該グループＧ１００を代表していないものとなる。又、グループＧ１２０では、重心点に最も近い事例Ｐ１２０がアノテーション対象データとなるが、事例Ｐ１２０よりも境界面に近くて判定結果の信頼性がより低い事例Ｐ１２１がアノテーション対象データにならない。又、グループＧ１３０についても同様に、重心点に最も近くてアノテーション対象データとなる事例Ｐ１３０よりも、境界面に近くて判定結果の信頼性がより低い事例Ｐ１３１がアノテーション対象データにならない。これらの事例は、識別器の学習効率を上げる妨げとなり得る。

本発明は、このような事情を考慮してなされたもので、文書分類装置に使用される識別器の文書分類能力を高める学習の効率を向上させることを課題とする。

上記の課題を解決するために、本発明に係る文書分類学習制御装置は、
特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御装置において、前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替える入力制御部と、前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部と、前記クラスタリング部によってグループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部と、を備えたことを特徴とする。

本発明に係る文書分類学習制御装置においては、前記判定された強化学習データに対して、文書毎に、前記境界面からの距離が近いほど大きい重み係数を計算する重み係数計算部を備え、前記グループ化される文書に対して前記重み係数を用いた重み付けを行うことを特徴とする。

本発明に係る文書分類学習制御装置において、前記重み係数計算部は、前記境界面からの距離を用いて正例への帰属度及び負例への帰属度を計算し、正例への帰属度又は負例への帰属度のうち大きい方を重み係数に用いることを特徴とする。

本発明に係る文書分類学習制御装置において、前記データ分類部は、前記クラスタ内の重心に最も近い文書をアノテーション対象データとすることを特徴とする。

本発明に係る文書分類装置は、特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器と、上述のいずれかの文書分類学習制御装置と、を備えたことを特徴とする。

本発明に係るコンピュータプログラムは、特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御処理を行うためのコンピュータプログラムであって、前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替えるステップと、前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するステップと、前記グループ化されたクラスタ内の文書をアノテーション対象データとするステップと、をコンピュータに実行させるためのコンピュータプログラムであることを特徴とする。
これにより、前述の文書分類学習制御装置がコンピュータを利用して実現できるようになる。

本発明によれば、識別器に対する能動学習を行う際に、クラスタ内において正例事例と負例事例の分布に偏りがあるときでも、クラスタの重心点と同じラベルを持つ事例をアノテーション対象データとして確実に選択することができる。又、識別器による判定結果の信頼性が低いデータがアノテーション対象データとして選択されやすくすることが可能となる。これにより、文書分類装置に使用される識別器の文書分類能力を高める学習の効率を向上させることができるという効果が得られる。

本発明の一実施形態に係る文書分類装置１０の構成を示すブロック図である。本発明の一実施形態に係る文書分類学習制御方法のフローチャートである。本発明の一実施形態に係るアノテーション対象データの生成方法を示す概念図である。本発明の一実施形態に係るアノテーション対象データの生成方法を示す概念図である。従来のアノテーション対象データの生成方法を示す概念図である。

以下、図面を参照し、本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る文書分類装置１０の構成を示すブロック図である。図１において、文書分類装置１０は、入力制御部１１と識別部１２と重み係数計算部１３とクラスタリング部１４とデータ分類部１５とを備える。

文書分類装置１０には、学習データ１１０（ラベル有）と強化学習データ１２０（ラベル無）とアノテーション対象データ３１０（ラベル有）とが入力される。学習データ１１０は、正例ラベルが付された文書から成る。正例ラベルは、特定の種類の情報に関係する正例文書であることを示す。強化学習データ１２０は、ラベルが付されていない文書から成る。アノテーション対象データ３１０は、文書分類装置１０が出力したアノテーション対象データ２１０に対して人がラベル付け（アノテーション）を行った結果、正例ラベルが付けられた文書から成る。

なお、本実施形態では、学習データ１１０として、正例ラベルが付された文書を使用するが、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書を使用してもよい。又は、学習データ１１０として、正例ラベルが付された文書と負例ラベルが付された文書とを使用してもよい。

又、本実施形態では、アノテーション対象データ３１０として、アノテーション対象データ２１０に正例ラベルが付けられた文書を使用するが、アノテーション対象データ２１０に負例ラベルが付けられた文書を使用してもよい。又は、アノテーション対象データ３１０として、アノテーション対象データ２１０に正例ラベルが付けられた文書と、アノテーション対象データ２１０に負例ラベルが付けられた文書とを使用してもよい。

入力制御部１１は、識別部１２に対して、学習データ１１０（ラベル有）を入力するか、又は、強化学習データ１２０（ラベル無）を入力するか、又は、学習データ１１０（ラベル有）とアノテーション対象データ３１０（ラベル有）とを入力するか、を切り替える。

識別部１２は、入力文書が正例文書であるか又は正例文書に該当しない負例文書であるかを判定し、判定結果を出力する。又、識別部１２は、正例側ソフトマージン及び負例側ソフトマージンを出力する。識別部１２は、正例文書か負例文書かを判定するときの境界面を有する。正例側ソフトマージンは、境界面からの正例側の範囲であって、判定結果の信頼性が低い範囲である。負例側ソフトマージンは、境界面からの負例側の範囲であって、判定結果の信頼性が低い範囲である。又、識別部１２は、正例ラベルが付された文書から成る学習データを使用して、判定能力を高める学習を行う。本実施形態では、識別部１２として、ＳＶＭ（Support Vector Machine）を利用する。

クラスタリング部１４は、識別部１２によって正例文書か負例文書かが判定された強化学習データ１２０に対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化する。

データ分類部１５は、クラスタリング部１４によってグループ化されたクラスタ内の文書をアノテーション対象データ２１０とする。データ分類部１５は、識別部１２によって正例文書か負例文書かが判定された強化学習データ１２０のうち、アノテーション対象データ２１０以外の文書を非アノテーション対象データ２２０とする。データ分類部１５は、アノテーション対象データ２１０及び非アノテーション対象データ２２０を出力する。

重み係数計算部１３は、識別部１２によって正例文書か負例文書かが判定された強化学習データ１２０に対して、文書毎に、境界面からの距離が近いほど大きい重み係数を計算する。この重み係数は、クラスタリング部１４に出力される。

図２は、本実施形態に係る文書分類学習制御方法のフローチャートである。以下、図２を参照して図１に示す文書分類装置１０に係る文書分類学習制御動作を説明する。

ステップＳ１：入力制御部１１は、学習データ１１０（ラベル有）を識別部１２に入力する。そして、識別部１２は、学習データ１１０（ラベル有）を用いて学習する。

ステップＳ２：入力制御部１１は、強化学習データ１２０（ラベル無）を識別部１２に入力する。そして、識別部１２は、強化学習データ１２０（ラベル無）内の各文書に対して、正例文書であるか又は正例文書に該当しない負例文書であるかを判定し、判定結果を出力する。本実施形態では、識別部１２は、強化学習データ１２０内の各文書に対し、判定結果に応じて、正例文書には正例ラベル「＋１」を付け、正例文書に該当しない負例文書には負例ラベル「−１」を付ける。

又、識別部１２は、正例側ソフトマージン及び負例側ソフトマージンを出力する。これにより、強化学習データ１２０内の文書の中から、正例側ソフトマージン内にある文書と負例側ソフトマージン内にある文書とを特定することができる。

ステップＳ３：重み係数計算部１３は、識別部１２によってラベル付けされた強化学習データ１２０内のそれぞれの文書（事例）に対して、識別部１２が正例文書か負例文書かを判定するときの境界面からの距離を帰属度に変換する。識別部１２は、事例毎に該距離を出力する。本実施形態では識別部１２としてＳＶＭを利用しているが、ＳＶＭでは、事例ｘの距離ｆ（ｘ）は式（１）で計算する。式（１）は、シグモイド分布を仮定して帰属度を求めるものである。なお、シグモイド分布が成り立たない場合には、境界面から最も離れた事例と境界面との距離を等間隔に分割し、分割された各区間に含まれる事例の数で分布を作成し、帰属度を求めてもよい。

但し、Ｎは事例数である。α_ｉは事例ｘ_ｉに対する重みである。ｙ_ｉは事例ｘ_ｉに付けられたラベルの値（＋１又は−１）である。ｋ（ｘ_ｉ，ｘ）は事例ｘのカーネル関数である。ｂは定数である。

事例ｘの距離ｆ（ｘ）に対して、正例（＋１）への帰属度Ｐ（ｙ＝＋１｜ｆ（ｘ））は式（２）で計算する。事例ｘの距離ｆ（ｘ）に対して、負例（−１）への帰属度Ｐ（ｙ＝−１｜ｆ（ｘ））は式（３）で計算する。

但し、Ａ及びＢの値の組合せは、Ｐ（ｙ＝＋１｜ｆ（ｘ））及びＰ（ｙ＝−１｜ｆ（ｘ））のそれぞれを最大化する値の組合せである。Ａ及びＢの値の組合せは、一般的にニュートン法に代表される最尤度推定手法を用いて求めることができる。

ステップＳ４：重み係数計算部１３は、識別部１２によってラベル付けされた強化学習データ１２０内のそれぞれの文書（事例）に対して、重み係数を計算する。事例ｘ_ｉの重み係数ｗ_ｉは式（４）で計算する。

上記式（４）の分母では、帰属度Ｐ（ｙ＝＋１｜ｆ（ｘ_ｉ））又はＰ（ｙ＝−１｜ｆ（ｘ_ｉ））のうち値が大きい方を選択し、選択した帰属度から０．５を引いた値である。これは、上記式（１）、式（２）及び式（３）によれば、境界面が帰属度「０．５」となるので、帰属度から０．５を引くことによって距離が求まるからである。

ステップＳ５：クラスタリング部１４は、識別部１２によってラベル付けされた強化学習データ１２０内のそれぞれの文書（事例）に対して、k-means法を用いて類似する文書をグループ化する。

本実施形態に係るk-means法を用いた文書クラスタリング処理を説明する。文書クラスタリング処理は、正例側ソフトマージン内にある文書（正例事例）と、負例側ソフトマージン内にある文書（負例事例）と、を別個に行う。以下、正例側ソフトマージン内にある文書（正例事例）のみを対象にしてクラスタリングする場合を説明するが、負例側ソフトマージン内にある文書（負例事例）のみを対象にしてクラスタリングする場合も同様である。

（１）まず、識別部１２によってラベル付けされた強化学習データ１２０から、正例側ソフトマージン内にある文書（正例事例）を全て抽出し、抽出した全ての正例事例から成る文書集合Ｄを作成する。
（２）次いで、文書集合Ｄ内の各事例ｘに対して、ｋ個（ｋは２以上の自然数）のクラスタＩＤ（１からｋまでのいずれかの値とする）の中から無作為にいずれかのクラスタＩＤを割り当てる。
（３）次いで、同一のクラスタＩＤが付与された各事例ｘを表すベクトルに対して、それぞれの重み係数ｗ_Ｘを乗ずる。このとき、同一のクラスタＩＤが付与された各事例ｘを表すベクトルの重み係数ｗ_Ｘを、該重み係数ｗ_Ｘの総和で割ることによって、重み係数の値を正規化してもよい。
（４）次いで、同一のクラスタＩＤが付与された各事例ｘの重み付けされたベクトルを用いて、重心点を求める。この重心点とは、同一のクラスタＩＤが付与された各事例ｘの重み付けされたベクトルを用いてベクトルの各要素値の平均値を計算し、各平均値を各要素値として持つベクトルである。
（５）各クラスタＩＤについて、重心点との距離が最も近い事例を代表点とする。これにより、ｋ個の各クラスタＩＤについて一つずつの代表点が決まるので、合計ｋ個の代表点が得られる。
（６）文書集合Ｄ内の全事例に対して、事例毎に、最も近い重心点のクラスタＩＤにクラスタＩＤを変更する。この後、（２）に戻り処理を繰り返し、（６）で変化がなければ終了する。

上記の文書クラスタリング処理によって、正例側のｋ個のクラスタが得られる。又、負例側についても、同様の文書クラスタリング処理によって、ｊ個（ｊは２以上の自然数）のクラスタが得られる。

説明を図２に戻す。
ステップＳ６：データ分類部１５は、クラスタリング部１４によって作成されたクラスタ毎に、重心点に距離が最も近い事例を選択してアノテーション対象データ２１０とする。ここでは、重心点のベクトルと各事例のベクトルとの類似度を計算し、最大の類似度の事例をアノテーション対象データ２１０とする。ベクトル間の類似度としては、式（５）で表されるコサイン類似度を用いることができる。

上記式（５）によれば、ｎ次元のベクトルであるｘとｙに対して、ｙを重心点としたときに、同一のクラスタ内で、式（５）のコサイン値を最大化する事例ｘを探して発見されたる事例ｘをアノテーション対象データ２１０とする。

データ分類部１５は、正例側のｋ個のクラスタについてそれぞれ一つずつ合計ｋ個の文書（正例事例）をアノテーション対象データ２１０に含める。又、データ分類部１５は、負例側のｊ個のクラスタについてそれぞれ一つずつ合計ｊ個の文書（負例事例）をアノテーション対象データ２１０に含める。これにより、アノテーション対象データ２１０は、ｋ個の文書（正例事例）とｊ個の文書（負例事例）を有する。データ分類部１５は、アノテーション対象データ２１０以外の文書を非アノテーション対象データ２２０に含める。

アノテーション対象データ２１０内の（ｋ＋ｊ）個の文書に対しては、ユーザがラベルを付ける。文書分類装置１０には、アノテーション対象データ２１０内の文書のうちユーザが正例ラベルを付けた文書から成るアノテーション対象データ３１０が入力される。

ステップＳ７：入力制御部１１は、学習データ１１０（ラベル有）とアノテーション対象データ３１０（ラベル有）とを識別部１２へ入力する。そして、識別部１２は、学習データ１１０（ラベル有）とアノテーション対象データ３１０（ラベル有）とを用いて学習する。

ステップＳ８：入力制御部１１は、所定の終了条件を満足するかを判定する。この結果、終了条件を満足する場合は図２の処理を終了する。一方、終了条件を満足しない場合はステップＳ２に戻る。

図３、図４は、本実施形態に係るアノテーション対象データの生成方法を示す概念図である。図３において、正例側ソフトマージン内にある正例事例（○印）のみを対象にして、類似する文書がグループ化されている。又、負例側ソフトマージン内にある負例事例（×印）のみを対象にして、類似する文書がグループ化されている。このグループ化の結果として作成された正例側のクラスタＧ１では、重心点も重心点に距離が最も近い事例Ｐ１も正例側ソフトマージン内にあって正例に帰属することになるので、重心点に距離が最も近い事例Ｐ１は、アノテーション対象データとして当該グループＧ１を代表するものとなる。同様に、正例側のクラスタＧ２では、重心点も重心点に距離が最も近い事例Ｐ２も正例側ソフトマージン内にあって正例に帰属することになるので、重心点に距離が最も近い事例Ｐ２は、アノテーション対象データとして当該グループＧ２を代表するものとなる。又、負例側のクラスタＧ３では、重心点も重心点に距離が最も近い事例Ｐ３も負例側ソフトマージン内にあって負例に帰属することになるので、重心点に距離が最も近い事例Ｐ３は、アノテーション対象データとして当該グループＧ３を代表するものとなる。同様に、負例側のクラスタＧ４では、重心点も重心点に距離が最も近い事例Ｐ４も負例側ソフトマージン内にあって負例に帰属することになるので、重心点に距離が最も近い事例Ｐ４は、アノテーション対象データとして当該グループＧ４を代表するものとなる。これにより、識別部１２の文書分類能力を高める学習の効率を向上させることができる。

図４においては、図３においてグループ化の対象となる各事例（文書）に対して、重み係数を用いた重み付けを行っている。重み係数は、事例（文書）毎に、境界面からの距離が近いほど大きくなるように算出される。この結果、図４において、各クラスタＧ１、Ｇ２、Ｇ３、Ｇ４の重心点（重み付け有）は、図３の場合の重心点よりも境界面に近づく。これにより、図４においては、図３の場合よりも境界面に近くて判定結果の信頼性がより低い事例がアノテーション対象データとなる可能性が高くなる。図４の例において、正例側のクラスタＧ１では、元の重心点に距離が最も近い事例Ｐ１よりも境界面に近い事例Ｐ１１がアノテーション対象データとなる。正例側のクラスタＧ２では、元の重心点に距離が最も近い事例Ｐ２よりも境界面に近い事例Ｐ１２がアノテーション対象データとなる。負例側のクラスタＧ３では、元の重心点に距離が最も近い事例Ｐ３よりも境界面に近い事例Ｐ１３がアノテーション対象データとなる。負例側のクラスタＧ４では、元の重心点に距離が最も近い事例Ｐ４よりも境界面に近い事例Ｐ１４がアノテーション対象データとなる。これにより、識別部１２の文書分類能力を高める学習の効率をさらに向上させることができる。

なお、図２に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、文書分類学習制御処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disk）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

１０…文書分類装置、１１…入力制御部、１２…識別部、１３…重み係数計算部、１４…クラスタリング部、１５…データ分類部

Claims

特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御装置において、
前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替える入力制御部と、
前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部と、
前記クラスタリング部によってグループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部と、
を備えたことを特徴とする文書分類学習制御装置。
前記判定された強化学習データに対して、文書毎に、前記境界面からの距離が近いほど大きい重み係数を計算する重み係数計算部を備え、
前記グループ化される文書に対して前記重み係数を用いた重み付けを行うことを特徴とする請求項１に記載の文書分類学習制御装置。
前記重み係数計算部は、前記境界面からの距離を用いて正例への帰属度及び負例への帰属度を計算し、正例への帰属度又は負例への帰属度のうち大きい方を重み係数に用いることを特徴とする請求項２に記載の文書分類学習制御装置。
前記データ分類部は、前記クラスタ内の重心に最も近い文書をアノテーション対象データとすることを特徴とする請求項１から３のいずれか１項に記載の文書分類学習制御装置。
特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器と、
請求項１から４のいずれか１項に記載の文書分類学習制御装置と、
を備えたことを特徴とする文書分類装置。
特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御処理を行うためのコンピュータプログラムであって、
前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替えるステップと、
前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するステップと、
前記グループ化されたクラスタ内の文書をアノテーション対象データとするステップと、
をコンピュータに実行させるためのコンピュータプログラム。