JP2009259250A

JP2009259250A - 文書の分類器を生成する方法とそのシステム

Info

Publication number: JP2009259250A
Application number: JP2009097929A
Authority: JP
Inventors: Jianqiang Li; ジェチャンリイ; Yu Zhao; ユウジャオ
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2008-04-18
Filing date: 2009-04-14
Publication date: 2009-11-05
Anticipated expiration: 2029-04-14
Also published as: JP4926198B2; CN101561805A; CN101561805B

Abstract

【課題】分類器を生成する方法およびシステムを提供する。
【解決手段】分類器を生成する方法は、オブジェクト集合についてクラスタリング結果の取得し、ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成し、最終的な分類器を生成するためにクラスタリング結果でラフなカテゴリ分類結果を調整する。１つの実施例では、ラフなカテゴリ分類結果は、整合モジュールによってクラスタリング結果と整合することが可能である。このように、カテゴリ名称および対応する意味論的解析から生じる可能な限りのる偏りを制御することが可能である。本発明の分類器生成方法およびシステムによれば、文書分類の精度および拡張性は非常に改善される。
【選択図】図１

Description

本発明は、情報検索（information retrieval：ＩＲ）およびテキストデータマイニングに関し、特に、分類してない文書集合の基礎となるデータ分布とカテゴリ名称の用語に包含された意味的な情報を組み合わせることにより、高精度な文書分類を提供する自動文書分類のための文書分類器を生成する方法およびシステムに関する。

近年、利用可能な電子文書の急成長は、普通の人々にそのような大量の情報を理解させ有利に利用させる。それは、利用者が大量の情報を整理し、かつ効果的かつ効率的な方法で興味のある部分を見つけるのを支援する興味深い作業である。

情報検索（ＩＲ）は、文書集合における情報を検索する科学である。情報検索（ＩＲ）は、さらに、文書に含まれている１片の情報を検索すること、文書自体を検索すること、文書について記述するメタデータを検索すること、スタンド・アロンのリレーショナルデータベース、テキスト、音、イメージあるいはデータについてインターネットやイントラネットでネットワーク化されたハイパーテキストデータベース等のデータベース内で検索することに分けることができる。テキストデータマイニングは、一般にプレーンテキストから高品質情報を構築する処理手順に関する技術であり、テキスト分類、テキストクラスタリング、コンセプト／エンティティ抽出、文書要約などに分けられる。最も役に立つ情報がテキストあるいは文書として一般に格納されているので、情報検索およびテキストデータマイニングは高い商品価値を有すると考えられる。文書分類は、予め定義された集合から主題カテゴリを有する自然言語テキストを分類する（ラベル付けする）作業であり、例えば、語義曖昧性解消、文書編成、テキストフィルタリングおよびウェブページ検索等のＩＲおよびテキストデータマイニングの多くの利用実態に適用することが可能である。

増大する電子情報の有用性は、情報検索およびテキストデータマイニングの重要性を決定する。自動文書分類は、それら両方のための基礎技術の１つで、当時に、大量の電子情報の高効果的で高効率的な利用に主要な役割を果たす。

現在、機械学習（ＭＬ）をベースとしたアプローチは、自動文書分類のための主要な１つである。機械学習（ＭＬ）をベースとしたアプローチの最適な性能は、手作業でラベル付けされた大量のトレーニングデータに強く依存する。しかしながら、何百又は何千ものカテゴリがある場合、データラベル付けの作業は、特に複雑な文書分類において、面倒で費用がかかる。

多くの研究がトレーニングモデルの正確さを改善するためラベル付けしていないデータを利用するために行なわれている。しかしながら、既存の方法は、トレーニングデータが役に立たないケースを扱うことができない。さらに、学習工程が少数のトレーニング標本に非常に依存するので、分類結果がトレーニングデータによって容易に偏ることになる。そのため、実際のシステムのために十分良い性能が得られていない。

本発明の調査研究は、従来の研究で広く検討されている情報検索およびテキストデータマイニングに関する研究（特に文書分類）に密接に関連する。基本的に、自動的な文書分類に対する一般のアプローチは、教師あり文書の分類、半教師あり文書の分類および教師なし文書の分類の３種類に分けることができる。それらの実施は一般に基本的な２つのステップ、すなわち、分類学習ステップおよび文書分類ステップを含む。

教師あり文書分類アプローチは、シンボリックラベルとしてのみカテゴリ名称を扱い、それらの意味についての付加的な知識を仮定しない。また、外生的な知識は分類器を構築する際の支援に利用することができる。学習段階では、あらかじめ手作業で(例えば、分野専門家によって)分類された文書集合の特性を観察することにより、カテゴリについて自動的に分類器を構築する一般の帰納的な処理手順を利用する。その後、文書分類段階では、分類器は、対応するカテゴリの下に分類するために新規の文書が有する特性を取得する。文書分類器の帰納的な構築のための様々な異なる方法が、以前の研究で検討されている。最も一般的な方法は、確率的な分類器、デシジョンツリー、ニューラル・ネット、サポートベクターマシン(SVM)および回帰法を含んでいる。文書のための正確な分類に関する知識が分類器学習を管理するために使用されるので、全てのカテゴリについて手作業でラベル付けされた大量のトレーニング標本は正確な学習に必要とされる。

トレーニングデータのラベル付け（分類）に対する人的な労力を減らすために、数の少ないラベル付けされたデータを含むドキュメント分類用の半教師あり文書分類アプローチが、ますます多くの注目を引いている。それらはラベル付けされたトレーニングデータサンプルとラベル付けされていないトレーニングデータサンプルの両方を利用する。ラベル付けされていないデータは、不十分なトレーニングデータを含む教師あり学習の不十分な性能を向上するために利用される。これまで、半教師あり文書分類アプローチに関する作業は、大きく、生成的手法、識別的手法（Discriminative method）及び自己学習手法に類別することができる。

生成的な方法は、識別可能な混合配分（例えばガウスの混合モデル：Gaussian mixture models）から文書例が生成されると仮定する。大量のラベル付けされていないデータによって、混合モデルの未知パラメータを識別することが可能である。代表的な方法は期待値最大化（ＥＭ：Expectation-Maximization）アルゴリズムである。同じ方法に沿って、文書クラスタリングは、テキスト分類を改善するために分類してない文書を使用するのに利用される、ここで、各々のクラスタは、実際に「擬似混合モデル」として役立つ。クラスタリング処理は、それらのクラスタから抽出した新たな特徴を分類されたデータと分類されていないデータ中のパターンに導入して、分類されたデータと分類されていないデータに適用することができる。

識別的手法（Discriminative method）は、種々のクラスに分類されていないデータは大きなマージンを持って分離されるという考えから考案される。この仮定に基づいて、ＴｒａｎｓｄｕｃｔｉｖｅＳＶＭ（ＴＳＶＭ）（トランスダクティブサポートベクターマシン）は、分類してないデータを有する標準サポートベクターマシンを拡張し、特定の文書の誤った分類を最小限にすることにより、「分類してないデータマージン」を最大にしようとする。ＳＶＭの一般形態であるロジスティックスの回帰モデルも半教師ありテキスト分類のために採用される。最近、一連の新規な半教師あり学習のアプローチが、グラフ表現から起こっている。ここでは、ラベル付けされたインスタンスが、頂点として表わされ、ラベル付けされていないインスタンスが、インスタンス間の類似度を符号化する辺として表される。

自己学習方法は、分類器自身の高い信頼度予測が正確であると仮定する。この仮定から派生した２つの代表的な方法がある。自己トレーニングおよび共トレーニングである。自己トレーニングは以下のように実現される：１）ラベル付けされた少量の文書が分類器トレーニングのために使用される、２）得られた分類器は分類してない文書を分類するために利用される、３）各反復において高い確信度で選択されている新しくラベル付けされた文書の信頼できる集合は、分類器を繰り返し再教育するために利用される。この反復中に、分類器は、独習するためにそれ自身の高い信頼度予測を利用する。同様の技術として、特許文献１（特開２００２−１３３３８９号公報）は、数の少ないトレーニングデータで反復学習の精度を改善するためにテストデータの配布を使用する促進メカニズムを提供する。共同トレーニングは以下のように実現される。１）まず、特徴集合が、２つの分類器を訓練するために利用される２つの十分かつ条件付きの独立した集合にそれぞれ分割される；２）その後、分類器はそれぞれラベル付けされていないデータを分類し、他方の分類器のトレーニングデータを拡張するためにいくつかの信頼できる標本選択する；３）両方の分類器は、追加のトレーニング標本で再教育され、この処理を繰り返す。

文書分類のための文書集合に包含された知識を利用する教師あり及び半教師あり学習方法と異なり、いわゆる教師なしアプローチは、自動文書分類のためのカテゴリ名称の概念に包含された知識を主に利用する。それらは、手作業によってトレーニング文書を生成せずに、主に初期の予め定義されたキーワードリストか、カテゴリ名称に根源として出現したキーワードを利用し、一定のブートストラップメカニズム（bootstrapping mechanisms）を採用する。代わりの解決策は、文書を文に分割することによって、各カテゴリのキーワードリストを利用してトレーニング文集合を生成することである。同時に、分類された文は、文書分類のための利用される。

特開２００２−１３３３８９号公報

しかしながら、以下のように、既存の方法について解決すべき問題点がまだある。

まず、教師ありアプローチについて、教師ありアプローチのために十分なトレーニングデータを作成することは非常にコストがかかる。教師あり文書分類アプローチは、各文書集合あるいは問題ドメインのために有効な大量のトレーニングデータに必要とする。しかしながら、それらは経験を積んだ注釈者の労力を必要とするので、多くの場合困難であり、高コストであり、ラベル付けされたデータを取得するための時間を消費する。何百あるいは何千もの分類がある複雑なタスクあるいはドメインについては、特に問題となる。

次に、半教師ありのアプローチの文書分類結果は、数の少ないトレーニングデータによって偏りが生じる傾向にある。半教師ありの学習の考えは、ラベル付けさされたトレーニングデータから学習するだけでなく、さらに加えて利用可能なラベル付けされていないデータ中の構造的情報を利用することである。トレーニングデータの有効性の問題が部分的に取り組まれている。ラベル付けされたデータが希薄であるので、精度が十分でないだけでなく、その頑強性がこれらの方法の適用に対して大きな問題である。

さらに、教師なしアプローチについて、それらの文書分類結果は、予め定義されたキーワードリストによって偏りが生じる傾向にある。いわゆる教師なしアプローチにおいては、カテゴリ名称あるいは各カテゴリのキーワードリストが、自動テキスト分類に対するブートストラップメカニズムのための根源として役立つ。このアプローチは人間によって定義された初期のキーワードリストに強く依存し、かつ偏り制御機構はないので、精度および分類結果の頑強性が一般に十分ではない。さらに、初期の根源単語を手作業で集める必要があり、それは複雑なタスクにとってさらに冗長で高コストなタスクである。

最後に、教師ありアプローチ、半教師ありのアプローチあるいは教師なしアプローチにとって、それらの適応性およびスケーラビリティが不十分である。上記の３つのすべてのアプローチを経て訓練された分類器は、ドメインまたは文書集合に依存する。すなわち、文書集合かドメインが変更されると、分類器を再度訓練する必要がある。教師あり及び半教師ありのアプローチについては、トレーニングデータとして一定の量の文書にラベル付けするための追加の人間の労力が必要であることを意味する。いわゆる教師なしアプローチについては、ドメインが変更されると、対応するカテゴリに関係のある初期のキーワードリストを定義する必要がある。さらに、追加学習の労力が、変更されたドメインか文書集合のために必要となる。

上記の問題を考慮すると、特にラベル付けされたデータが利用可能でない場合に対して、文書分類の精度およびスケーラビリティを改善する自動文書分類のための新方式及びシステムが必要となる。

（発明の目的）
本発明は、この技術分野における既存の文書分類アプローチの前述の課題に鑑みて提案された。

本発明において、文書分類器生成方法は、自動文書分類のために提案されている。対象の文書集合についてのデータ配布知識、およびカテゴリ名称によって包含された意味的な情報は、文書分類の精度およびスケーラビリティを改善するために、特にトレーニングデータが役に立たない場合のために利用される。

概して、混成の文書分類器形成方法は主に、（１）初期のトレーニングデータ生成、（２）反復分類器学習、（３）最終的な分類器構築の３つのステップを含んでいる。

まず、初期のトレーニングデータ生成において、初期のトレーニングデータは、外部知識源を用いたカテゴリ名称の意味解析に基づいて生成される。例えば、実施例において、プロファイルに基づいた方法が、分類器の形成のために設計されている。ここで、カテゴリはそれぞれ、カテゴリの代表的なプロファイルとして役立つ意味的に関連する特徴集合を有する。初期の分類器によって、肯定的な標本と否定的な標本を初期のトレーニングデータ（ラベル付けされた文書）は、次の反復の分類器学習のために生成される。

次に、反復の分類器学習の段階において、各反復における最後の反復からの分類器の分類結果は、その反復のトレーニングデータの構築のために利用される（ラベルがラベルを付けられたデータとして高い確信度で分類された結果を選択する）。その後、新たな分類器は、更新されたトレーニングデータ（ラベル付けさえたデータ）から作成される。最後に、新たな分類器が、最後の反復からの分類器と交代し、残りの文書を分類するために利用される。全ての文書が分類された場合、分類器の形成集合が収束し、あるいは、他の終了条件が満たされると、反復が終了する。

最終的な分類器形成処理において、反復学習が終了した後、結果として生じた全ての分類器から、最もクラスタリング結果と一致している分類器が最終的な分類器として選択される。本発明は、トレーニングデータがないことを想定するので、分類器選択のための解決策として最尤法（maximal likelihood estimation）を主に利用する。

機械学習処理中に、ベイズのモデルを採用することが可能である場合、トレーニングデータ選択（反復学習における初期のトレーニングデータ生成および中間のトレーニングデータ生成を含む）は、クラスタリングと分類の結果の整合に基づくことに留意する必要がある。その目的は、カテゴリ名称、外部知識源あるいは反復分類器学習処理におけるノイズデータから生じる可能性のある偏りを軽減することである。

本発明による分類器を生成する方法は、オブジェクト集合についてクラスタリング結果の取得し、ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成し、最終的な分類器を生成するために前記クラスタリング結果でラフな前記カテゴリ分類結果を調整する。好ましい形態によれば、ラフな分類器は、トレーニングデータ（それは手作業でラベル付けされたトレーニングデータとして外部から取得することが可能であり、あるいは、外部知識源を参照してドメイン関連のカテゴリ名称に応じて自動的に生成することが可能である）で分類器を学習することにより生成することができる。さらに、ある形態によれば、ラフな分類結果は、前もって取得されたクラスタリング結果へラフな分類結果を整合させることにより調整することが可能である。この調整処理は反復方法において実現することが可能である。トレーニングデータを反復して更新することによって、中間の分類器の聚合を学習することが可能であり、それらから、クラスタリング結果と最も一致している最適な分類器を最終的な分類器として選択する。

本発明による分類器を生成するシステムは、オブジェクト集合についてクラスタリング結果の取得する取得手段と、ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成するラフなカテゴリ化手段と、最終的な分類器を生成するために前記クラスタリング結果でラフな前記カテゴリ分類結果を調整する調整・生成手段とを備える。

本発明において、クラスタリングと分類の結果間の整合解析は、初期のトレーニングデータ形成の処理だけでなく反復分類器学習の処理において実施され統合される。これにより、カテゴリ名称と対応する意味解析から生じする可能性のある偏りが制御される。それは、結果として生じたトレーニングデータと同時に最終的な分類結果の改良された精度を保証する。

さらに、本発明による方法は、トレーニングデータあるいは文書分類のための初期の予め定義されたキーワードリストを必要としない。代わりに、既存の外部知識源によるカテゴリ名称の意味解析（同時出現キーワード抽出のための隠れた意味解析を含む）は、初期のトレーニングデータ形成のために利用される。既存の外部知識源が複数定義域をカバーすることが可能であるので、ドメインか文書集合が変更された場合でも、本発明の方法は、追加のラベル付け労力の大幅な軽減に加えて、多数の様々な種類のドメイン／文書集合に容易に適用することが可能である。

さらに、最終の分類器形成のために提供されるメカニズムは、特に特徴的な分類器（例えば、ＳＶＭ（Support Vector Machine：サポートベクターマシン）、ロジスティック回帰（Logistic regression））について、反復分類器学習処理におけるノイズデータによって偏りが分類器に過度にかけられるという危険を軽減することが可能である。さらに、それは、文書分類の最終結果の精度改良に対する本発明の重要な貢献である。

本発明によるによる文書分類システム１００（分類器生成サブシステム１０の内部構成はその中で詳細に示される）の全体的なブロック図である。図１に示される文書分類システム１００の動作処理の例を示すフローチャートである。図１に示す分類器生成サブシステム１０における調整・生成手段１０３の内部構成例を示すためのブロック図である。図１に示す分類器生成サブシステム１０におけるラフカテゴリ化手段１０２の実装例４００Ａの内部構成を示すブロック図であり、実装例４００Ａにおいては、外部から取得した手作業でラベル付けされたトレーニングデータが分類器学習のための直接利用される。図１に示す分類器生成サブシステム１０におけるラフカテゴリ化手段１０２の実装例４００Ｂの内部構成を示すブロック図であり、実装例４００Ｂにおいては、トレーニングデータは、分類器学習のために自動的に生成される。自動的にトレーニングデータを生成する場合における、図５に示すトレーニングデータ生成ユニット４０１Ｂの内部構成を示すブロック図である。図６に示すトレーニングデータ生成ユニットにおける分類部５０４の内部構成例を示すブロック図である。図６に示すトレーニングデータを自動的に生成する場合における、トレーニングデータ生成ユニットの動作処理７００の例を示すフローチャートである。図６に示す中間の分類結果に基づいてトレーニングデータを生成するためのトレーニングデータ生成部５０５の内部構成例を示すブロック図であり、文書集合に対するクラスタリング結果は中間の分類結果の調整のために取得される。本発明による、図１に示す分類器生成サブシステム１０における反復分類器学習のめの調整・生成手段１０３の動作処理９００を示すフローチャートである。本発明を実現するために利用されるコンピュータ・システムの概略ブロック図である。

本発明の前述の特徴とその他の特徴および効果は、添付図面と組み合わせた以下の説明からより明白になるであろう。本発明の範囲が、ここで説明された実施例あるいは特定の実施の形態に制限されないことは言うまでもない。

本発明の前述した特徴及びその他の特徴は、添付図面と共に以下の説明を読むことでより完全に理解されるであろう。

本発明による分類生成方法およびシステムは、テキストフィルタリング、文書推薦、探索結果クラスタリング、ウェブページ検索およびウェブマイニングシステム等に適用することができる。

図1は、本発明による文書分類システム１００の全体を示すブロック図である。図１には、分類器生成サブシステム１０の内部構成が詳細に示されている。図に示すように、文書ベース１０５から受信された文書セットは、文書クラスタリング手段１０７によって前もって多数のグループへクラスタ化され、そのクラスタリング結果はクラスタリング結果ベース１０４に格納される。クラスタリング結果ベース１０４に格納された文書セットに関するクラスタリング結果は、後で本発明による分類機生成サブシステム１０、あるいは他の情報検索に関連したアプリケーションによって消費される。文書クラスタリング方法に関しては、当業者にとって広く知られている多くの既存アプローチを本発明について使用することができる。これらは本発明の主要な特徴ではないので、ここでは詳細に記述しない。当業者にとって容易に利用可能であれば、どのような文書クラスタリング方法をも必要書類クラスタリング結果の取得に使用することができる。例えば、図１に示した本発明による分類生成サブシステム１０は、取得手段１０１、ラフカテゴリ化手段１０２および調整・生成手段１０３を含む。

図２は、図１に示した文書分類システム１００の動作処理手順の例を示すフローチャートである。

図２に示す処理手順２００はステップ２０１から始まり、ここで、分類生成サブシステム１０が、文書ベース１０５から分類すべき文書集合を取得する。
取得した文書集合は、ステップ２０２に示すように、ラフなカテゴリ化結果（つまり、ラフな分類器）を生成するために、ラフカテゴリ化のためのラフカテゴリ化手段１０２に提供される。例えば、既存の教師あり文書分類、半教師あり文書分類あるいは背景技術で説明したような教師なし文書分類方法のうちの何れかが、ラフなかカテゴリ化の目的を実施するために適用することができる。ある実施の形態においては、例えば、後述するように、トレーニングデータを含む分類を学習する方法が、ラフな分類を生成するために採用することができる。異なるアプリケーション要求に従って、分類器を学習するためのトレーニングデータは、手作業でラベル付けされたトレーニングデータとして外部から入力することができ、あるいは、外部知識源からのカテゴリ名称に関する意味的な情報を参照することにより自動的に生成することができる。トレーニングデータの生成処理手順の詳細については、後述する。

同時に、ステップ２０３において、取得手段１０１は、同じ文書集合について予め格納されたクラスタリング結果をクラスタリング結果ベース１０４から取得する。当業者に知られているように、クラスタリング結果は、文書集合の基礎となるデータ分布を反映している。このため、クラスタリング結果は、ラフな分類結果において起こり得る偏りを抑制するために使用される。ラフカテゴリ化手段１０２から文書集合に関するラフな分類結果と取得手段１０１によって取得されたクラスタリング結果の両方が、調整・生成手段１０３に供給される。次に、ステップ２０４において、調整・生成手段１０３は、取得手段１０１からクラスタリング結果を利用することにより、ラフカテゴリ化手段１０２からのラフな分類結果（すなわち、ラフな分類器）を調整し、その結果、最終的な分類器１０６を生成する。クラスタリング結果の使用してラフな分類結果を調整する原理および処理手順については、図３を参照して説明する。更に、後述するように、クラスタリング結果の使用によりラフな分類結果を調整するこの考えは、中間の分類器のグループを生成し、それらから１つの最適な分類器を最終的な分類器として選択する反復方式に拡張することが可能である。このような方法により、文書分類の精度をよりさらに改善することが可能である。分類学習の特定の反復処理については後述する。その後、ステップ２０５において、ステップ２０１で取得した文書集合が、生成された最終的な分類器１０６に供給され、生成された最終的な分類器１０６は順番に各文書を少なくとも１つの適切なカテゴリに分類する。文書の最終的な分類結果は、文書分類結果ベース１０８に格納される。その後、処理手順２００が終了する。

図３は、図１に示す分類器生成サブシステム１０の調整・生成手段１０３の内部構成の例を示すブロック図である。この例において、ラフカテゴリ化手段１０２がクエリに基づいた方法によってラフな分類を処理するものと想定する。また、ラフな分類結果は、一連の順位スコアとして表わされる。調整・生成手段１０３は、ラフな分類結果とクラスタリング結果の間の整合を実行するためにベイズ推測に基づいた整合モデルを設定する。このように、より正確な分類結果（つまり最終分類器１０６）を実現することができる。クラスタリング結果を含むラフな分類結果を調整する方法については、図３において示されるようなベイズ推測モデルに基づいた整合例に制限されない。他の調整方法も同様に文書分類の精度を改善する目的を達成するために適用することができることを当業者が理解するのは容易である。

図３で示される例において、調整・生成手段１０３は、事前確率計算部３０１と整合部３０２を含む。

事前確率計算部３０１においては、ラフなカテゴリ分類結果に対応する事前確率を最初に計算する必要がある。
上述のように、ラフなカテゴリ分類結果が一連の順位スコアとして表わされるものと仮定する。
Ｃをカテゴリ集合とする。文書ｄ_ｉ∈Ｄとカテゴリｃ_ｉ∈Ｃに対して、順位スコアｓ（ｄ_ｉ、ｃ_ｊ）は、ｄ_ｉがｃ_ｊに属する可能性を暗黙に示している。よって、式１によってスコアを正規化する。

その結果、Ｐ（ｃ_ｊ｜ｄ_ｉ）＝ｓ'（ｄ_ｉ、ｃ_ｊ）と見なすことができる。

その後、整合部３０２において、整合モデルはベイズの推論に基づいて設定される。Ｃ’をクラスタ集合とする。文書ｄ_ｉがクラスターc'_k∈C'にクラスタリングされたことをクラスタリング結果が示すならば、その後、整合結果は以下のように事後確率によって示される。

ここで、事前確率Ｐ（ｃ_ｊ｜ｄ_ｉ）はラフな分類結果から得る。
明らかに、基礎的統計を利用することにより可能性を以下のように計算することができる。

よって、最終の整合モデルは以下のように示すことができる。

式５に示すような整合モデルによれば、クラスタリング結果によって調節された最終分類器を達成することができる。式１において示されるラフな分類器と比較して、最終分類器は、最終のカテゴリ分類結果の向上した精度を保証する。さらに、カテゴリ名称および対応する意味解析から派生する偏りは、クラスタリング結果に基づいたカテゴリ分類結果調整の導入により効果的に制御することができる。

以下、分類器生成サブシステム１０のラフカテゴリ化手段１０２の内部構成について、図４と図５を参照してより詳細に説明する。上述のように、ある実施の形態では、ラフな分類器は、トレーニングデータを有する分類学習方法の採用により生成することができる。本発明に採用されたトレーニングデータは、外部から直接入力した手作業でラベル付けされたトレーニングデータであるか、あるいは、システムによって自動的に生成することができる。図４と図５は、手作業でラベル付けされたトレーニングデータを使用するか、あるいはシステムによってトレーニングデータを自動的に生成する場合において、トレーニングデータの学習によるラフな分類器の生成をそれぞれ示す２つの例を提供する。もちろん、ラフな分類器の生成はトレーニングデータ学習に制限されるものではなく、当業者によって知られているような他の分類器生成方法も、本発明に適用することができる。

まず、図４を参照すると、この例では、ラフカテゴリ化手段１０２が、トレーニングデータ生成ユニット４０１Ａと学習ユニット４０２を含む。トレーニングデータ生成ユニット４０１Ａは、手作業でラベル付けされたトレーニングデータを外部から取得し、分類学習のために学習ユニット４０２にそれを直接供給する。その後、学習ユニット４０２は、ラフな分類器を学習するために使用される。トレーニングデータと共に分類器を学習する処理手順については、本発明の属する技術分野において周知の技術であるので、その詳細な説明をここで省略する。

図５を参照すると、この例では、ラフカテゴリ化手段１０２が、トレーニングデータ生成ユニット４０１Ｂと学習ユニット４０２を含む。トレーニングデータ生成ユニット４０１Ｂとトレーニングデータ生成ユニット４０１Ａの間の差異は、トレーニングデータ生成ユニット４０１Ｂでは、外部知識源４０４からのカテゴリ名称についての意味的な情報を参照して、トレーニングデータを自動的に生成することである。その後、図４のように、生成されたトレーニングデータは、分類器を学習するための学習ユニット４０２に供給される。

以下、図６から図９を用いて、図５で示すトレーニングデータ生成ユニット４０１Ｂによるトレーニングデータの自動生成の原理および処理手順をより詳しく説明する。

まず、図６に示すように、トレーニングデータ生成ユニット４０１Ｂは、例えば、カテゴリ名称取得部５０１、語義曖昧性解消部５０２、キーワード生成部５０３、分類部５０４及びトレーニングデータ生成部５０５を含む。さらに、図６に示すように、文書ベース１０５に加えて、トレーニングデータ生成ユニット４０１Ｂは、カテゴリ名称ベース４０３及びトレーニングデータの自動生成の実施のためのカテゴリ名称に関する外部知識源４０４にも接続されている。

図６に示すトレーニングデータ生成ユニット４０１Ｂによるトレーニングデータの自動生成処理７００について、図８のフローチャートを参照して説明する。

処理手順７００はステップ７０１から開始する。ステップ７０１では、カテゴリ名称取得部５０１は、カテゴリ名称ベース４０３からの文書の集合に関する所定のカテゴリ名称を取得する。カテゴリ名称中の単語は様々なケースにおいて様々な意味を持つので、ステップ７０２において、語義曖昧性解消部５０２は、最初に、外部知識源４０４の補助によって取得したカテゴリ名称について語義曖昧性解消を行なう。その後、ステップ７０３において、語義曖昧性解消後のカテゴリ名称はキーワード生成部５０３に供給され、そこで、識別された単語意味に基づいて、適切なキーワードが生成される。ここで、適切なキーワードは、カテゴリ名称と同時に出現する可能性の高い単語を含むかもしれない。それは隠れた意味解析によって識別することが可能である。さらに、それらは、カテゴリ名称に出現するキーワードの下位語、類義語あるいは同義語を含んでいる。それらは、外部知識源４０４によって見つけ出すことができるかもしれない。

ここで、理解を容易にするために、語義曖昧性解消および同義語選択の例を示す。
単語「スパム」は、ＷｏｒｄＮｅｔにおいて２つの意味を有することができる。すなわち、（意味１）：主として豚肉から作られた缶詰肉と、（意味２）：不要な電子メールである。
我々は、製品プロファイル分類のための「スパム」の同義語を選ぶためにそれらを区別する必要がある。したがって、「スパム＋主として豚肉から作られた缶詰肉」と「スパム＋不要な電子メール」は、文書集合（すなわち製品プロファイル集合）に送られる２つのクエリとして使用することができる。
前者のクエリに対して、２０のヒットがあり、後者のクエリに対して、１００のヒットがあったとする。１００＞２０であるので、この分類タスクの文脈中の「スパム」が意味２を有すると判断することができる。その後、意味２の同義語（すなわち「ジャンク電子メール」）が選択される。

図８に戻り、ステップ７０４において、生成された適切なキーワードは、中間の分類結果（すなわち中間の分類器）を取得するために、文書の集合を分類するための分類部５０４に供給される。次に、ステップ７０５において、中間の分類結果は必要なトレーニングデータの生成のためにトレーニングデータ生成部５０５に供給される。その後、処理手順７００が終了する。

図７は、図６で示したトレーニングデータ生成ユニットにおける分類部５０４の内部構成例を示す。この例において、プロファイルに基づいたフィルタリング方法を、中間の分類結果を生成するために利用する。すなわち、文書集合を検索するために、カテゴリ名称関連キーワードをクエリとして利用する。また、ヒットリスト中の文書が、対応するカテゴリとしてラベル付けされる。
図７に示すように、この例において、分類部５０４は、検索部６０１およびカテゴリラベル付け部６０２を含む。再び図８におけるステップ７０４を参照すると、ステップ７０４は、いくつかのサブステップを含んでいることを示している。まず、サブステップ７０４１において、検索部６０１はキーワード生成部５０３からカテゴリ名称関連キーワードを受け取り、文書の集合を検索するために代表的なプロファイルとしてキーワードを利用する。その後、ステップ７０４２において、探索結果がそうであるように、ヒットリストはカテゴリラベル付け部６０２に送った。ラベルは、文書分類を達成するために対応するカテゴリにヒットリスト中のすべてあるいはいくつかの（例えば、最初の２００）文書をラベルを付けられる。

一般に、ラベルがラベルを付けられた文書が高い信頼をもって正確であることを確かめるために、ヒットリストの一番上の文書だけが選択される。
例えば、「ａｎｔｉ＿ｓｐａｍ」の製品カテゴリについて、「Ｓｐａｍ＋Junk email」が、検索のための文書集合に関連するキーワードとして送られる。
ここで、「スパム」は、カテゴリ名称（すなわち「ａｎｔｉ＿ｓｐａｍ」）から識別される。また、「ジャンク電子メール」はＷｏｒｄＮｅｔから選択された同義語である。
ヒットリストにおいて返された結果が１０００あると仮定すると、「ａｎｔｉ＿ｓｐａｍ」製品の代表的な製品概要として上位の２００の項目を選択するかもしれない。
上位の２００の製品概要が、製品がａｎｔｉ＿ｓｐａｍ機能を有するか、あるいは製品が「ａｎｔｉ＿ｓｐａｍ」カテゴリに属するかどうかを人が判断するために利用する全ての必要な特徴を保持すると思われる。

上述したように、中間の分類結果（すなわち中間の分類器）を取得した後、中間の分類結果はトレーニングデータの生成のためにトレーニングデータ生成部５０５に供給される。当業者に知られている様々なトレーニングデータ生成す方法を、本発明に適用することが可能である。しかしながら、トレーニングデータを生成する処理手順において、さらに文書分類の精度を改良するために、中間の分類結果についても、クラスタリング結果の採用により（例えば、ベイズの推論モデルの利用により）調整することができる。図９は、トレーニングデータ生成部５０５の内部構成例を示す。トレーニングデータ生成部５０５においては、文書の集合に関するクラスタリング結果が中間の分類結果を調整するために使用される。

図９のブロック図は、図３に示した調整・生成手段１０３の内部構成に多少類似していることを理解できる。すなわち、この実施例において、トレーニングデータ生成部５０５は、中間の分類結果を調整するために図３の調整・生成手段１０３と類似した方法を利用する。その詳細については、図３に関する説明を参考にすることができる。その後、調整された（整合された）中間の分類結果は望ましいトレーニングデータを選択するためにトレーニングデータ選択部８０２に供給される。

本発明による分類器生成サブシステム１００の構成および動作原理は、図１から図９を参照して説明した。上述したように、文書分類の精度をさらに改良するために、クラスタリング結果と共にラフな分類結果を調整する処理手順が、反復方法で実施される。詳細な処理手順について、図１０を参照して以下に説明する。

まず、ステップ９０１において、ラフな分類結果を生成する処理手順中に生成されたトレーニングデータは、初期のトレーニングデータとして取得される。各反復サイクル中に、ある分類学習方法（例えば、ＮＢ（ナイーブベイジアン）に基づく多項モデル）は、トレーニングデータと共に新たな中間の分類器を学習するために利用される（ステップ９０２）。その後、ステップ９０３において、新たな中間の分類結果を取得するため、新たな分類器は文書ベース１０５の文書を分類するために利用される。ステップ９０４において、反復終了条件を満たしているかどうかが決定される。反復終了条件につていは、利用者によって予め決定することが可能である。例えば、反復処理中に生成された中間の分類器がすべて次第に収束するならば、トレーニングデータの状態が安定に向かうことを反復終了条件として選択することができる。あるいは、文書ベース１０５の全ての文書が対応するカテゴリに分類されていることを、反復終了条件としてを利用することが可能である。ステップ９０４において、反復終了条件を満たしていると判定さない場合（すなわち、ステップ９０４で「ＮＯ」）、処理手順はステップ９０５に進む。ステップ９０５において、一連の反復において生成された中間の分類結果は、新たなトレーニングデータを生成するために次の反復サイクルのための利用される。ここで、中間の分類結果に従って新たなトレーニングデータを生成する方法は、図９のそれに類似している。上述したように、中間の分類結果は、整合モデル（例えばベイズの整合モデル）に基づいたクラスタリング結果と整合させる。
図９の方法との差異は事前確率の計算にある。
種々の分類器からの文書分類結果について一定の特別の方法を採用することができるかもしれない。例えば、ＮＢ分類器が採用されるとき、事前確率は、分類器から直接返される各対のカテゴリｃ_ｊおよび文書ｄ_ｉについてＰ（ｃ_ｊ｜ｄ_ｉ）である。

実施例としてＮＢ分類器を利用すると、この反復的アルゴリズムは以下のように設計することが可能である。
（ａ）初期のトレーニングデータＴ：Ｃ→Ｐｏｗｅｒｓｅｔ（Ｄ）（すなわち、ラベル付けされた文書部分集合）の入力；
（ｂ）ＴによりＮＢ分類器の学習、また各カテゴリ文書対(c,d) ∈C×Dに対してＰ（ｃ｜ｄ）を取得するためにその学習結果を利用；
（ｃ）各（ｃ、ｄ）∈C×Dに対して、ｄ∈C’がクラスタリング結果内であれば、整合モデルによりＰ（ｃ｜ｄ、ｃ’）を計算するために、Ｐ’（ｃ｜ｄ）＝Ｐ（ｃ｜ｄ、ｃ’）とする；
（ｄ）データＴ’：Ｃ→Ｐｏｗｅｒｓｅｔ（Ｄ）をトレーニングするためのいくつかの新たなラベル付けされた文書を生成；
ここで、各ｃ∈Ｃ，Ｔ’（ｃ）は、文書集合Ｄ−ｄｏｍａｉｎ（Ｔ）（Ｄ間の差集合およびＴのドメイン集合）の内でＰ’（ｃ｜ｄ）が最も上位である文書を含んでいる。
（ｅ）T'=Φであるなら反復処理を終了し、そうでなければ、T:=T+T'とし、ステップｂ）にジャンプし、次の反復を開始する。

実施例としてＮＢ分類器を挙げて、図１０に示されるようにステップ９０１−９０５における分類器を学習する反復処理について詳細に説明した。
反復学習処理中に、反復サイクルはそれぞれ、カテゴリ文書対Ｐ’（ｃ｜ｄ）の事後確率関数によって表わすことが可能な分類器を生成する。もちろん、本発明に関する分類器はＮＢ分類器に制限ではない。他の種類の分類器は、明らかに本発明に適用することが可能である。

図１０に戻り、ステップ９０４において反復終了条件を満たすと判定された場合（すなわち、ステップ９０４で「Ｙｅｓ」）、処理手順はステップ９０６に進む。ステップ９０６において、反復処理中に生成された分類器のグループを保存する。それから、ステップ９０７において、この分類器のグループから、最適な分類器を最終分類器として選択する。ここで、最適な分類器の代表的な選択方法としては、与えられた文書集合に応じて適切なものを選択する方法がある。反復学習処理の間、クラスタリング結果が不十分なトレーニングデータの偏りを減らすと思われる。したがって、さらに最も適切な分類器を評価し選択するためにクラスタリング結果を利用することが可能である。一例として、ベイズのモデルは最適な分類器を選択するために利用される。

例えば、中間の分類器をF_k, ｋ＝１、２、…（Ｎ）とする。ここで、Ｎは、反復の時間を示す。
ベイジアンモデルを含む次のような式を有する

最大尤度法に基づいて、Ｐ（Ｃ’｜Ｆ_ｋ）を最大にする特定のＦ_ｋを見つけ出す。
言うまでもなく、お互いに独立した文書とすると、次のように表すことができる。

ここで、ｃ’（ｄ）が文書ｄが属するクラスターであり、ｃ（ｄ）はｄが分類器Ｆ_ｋに属するカテゴリである。

同様に、上述した整合モデルの尤度計算として、Ｆ_ｋの尤度関数は以下の通
りである。

そして、最終分類器は、

として導かれる。

その後、最終分類器が選択されると、処理手順９００が終了する。

図１１は、本発明を実現するために利用されるコンピュータ・システム１０００の概略ブロック図である。図示のように、コンピュータ・システム１０００は、ＣＰＵ１００１、ユーザインターフェース１００２、周辺装置１００３、メモリ１００５、外部記憶措置１００６および上記構成要素を互いに接続する内部バス１００４を含んでいる。メモリ１００５は、さらにドメインおよびＰＯＳ解析モジュール、自動文書分類モジュール、文書クラスタリングモジュール、ＩＲ関連システム、オペレーティングシステム（ＯＳ）などを含んでいる。本発明は、主に自動文書分類モジュールに関するものである。それは、例えば図１に示した文書分類システム１００である。文書クラスタリングモジュールは、文書集合についてクラスタリング処理を行ない、適切なクラスタリング結果ベース（例えば、クラスタリング結果ベース１０４）へクラスタリング結果を格納する。外部記憶装置１００６は、クラスタリング結果ベース１０４、文書ベース１０５、文書分類結果ベース１０８、カテゴリ名前ベース４０３、外部知識源４０４などのような本発明に関する様々なデータベースを格納する。

以上、本発明による文書分類方法およびシステムについて、添附の図面を参照して説明した。上記の説明に基づいて、本発明の効果について、以下に述べる。

本発明においては、クラスタリングと分類の結果間の整合解析は、初期のトレーニングデータ形成の処理だけでなく反復類学習の処理で実施され統合される。この処理において、カテゴリ名称および対応する意味解析から発生する可能性のある偏りが制御される。それは、結果として生じたトレーニングデータと同時に最終の分類結果の精度の向上を保証する。

さらに、本発明による方法は、文書分類のためのトレーニングデータあるいは初期の予め定義されたキーワードリストを必要としない。代わりに、既存の外部知識源の補助によるカテゴリ名称の意味解析（同時出現キーワード抽出のための隠れた意味解析を含む）が、初期のトレーニングデータ形成のために利用される。既存の外部知識源が複数定義域をカバーすることが可能であるので、ドメインか文書集合が変更される場合、本発明の方法は、大幅に縮小された追加のラベル付け労力と共に多数の様々な種類のドメイン／文書集合に容易に適用することが可能である。

さらに、最終的な分類器形成のために提供されるメカニズムは、特に特徴的な分類器（例えば、ＳＶＭ（Support Vector Machine：サポートベクターマシン）、ロジスティック回帰（Logistic regression））について、反復分類器学習処理におけるノイズデータによって偏りが分類器に過度にかけられるという危険を軽減することが可能である。さらに、それは、文書分類の最終結果の精度改良に対する本発明の重要な貢献である。

本発明の特定の実施の形態について、上記のように添付の図面を参照して説明した。しかしながら、本発明は、添付の図面中で示される特定の構成および処理に限定されない。上記の実施の形態において、いくつかの特定のステップは具体例として示されかつ説明されている。しかしながら、本発明の方法処理はこれらの特定のステップに限定されない。当業者は、これらのステップを変更し、修正し、補足することが可能であり、あるいは、いくつかのステップの順序を、本発明の精神および本質的な機能から外れずに変更することが可能であることを理解するだろう。

本発明の要素は、ハードウェア、ソフトウェア、ファームウェアあるいはそれの組合せにおいて実装することが可能であり、システム、サブシステム、コンポーネントあるいはサブコンポーネントにおいて利用することが可能である。ソフトウェアの中で実施された場合、本発明の要素は、必要なタスクを実行するためのプログラム、あるいはコードセグメントである。プログラムまたはコードセグメントは、コンピュータ読み取り可能な媒体に格納するか、あるいは伝送ケーブルか通信リンク上の搬送波に包含されたデータ信号によって送信することが可能である。コンピュータ読み取り可能な媒体には、情報を格納するか転送することが可能であるすべての媒体を含む。コンピュータ読み取り可能な媒の具体例は、電子回路、半導体記憶装置、ＲＯＭ、フラッシュ・メモリー、消去可能ＲＯＭ（ＥＲＯＭ）、フレキシブル・ディスク、ＣＤ−ＲＯＭ光ディスク、ハードディスク、光ファイバー媒体、無線周波数（ＲＦ）リンクなどを含む。コードセグメントは、インターネット、イントラネットなどのようなコンピュータネットワークを経由してダウンロードすることも可能である。

以上、特定の実施の形態を参照して本発明を説明したが、本発明は、図面中で示される上記の特定の実施の形態および特定の構成に限定されない。例えば、示されたいくつかの構成要素は、１つの構成要素としてお互いと組み合わせるかもしれない。あるいは、１つの構成要素はいくつかのサブコンポーネントに分割されるかもしれないし、他の既知の構成要素も加えられるかもしれない。動作処理も実施例において示されるものに限定されない。当業者は、本発明が、本発明の精神および本質的な機能から外れずに、他の特定の形態で実装可能であることを理解するだろう。従って、現在の実施の形態は、全ての点において例示でありかつ限定的でないとして考慮されるべきである。本発明の範囲は、前述の説明によってではなく添付された請求項によって示される。また、したがって、請求項と同等の意味と範囲の内で生ずる変更は全て本発明の範囲に包含される。

１００：文書分類システム
１０：分類器生成サブシステム
１０１：取得手段１０１
１０２：ラフカテゴリ化手段
１０３：調整・生成手段
１０４：クラスタリング結果ベース
１０５：文書ベース
１０７：文書クラスタリング手段
１０８：文書分類結果ベース
１０６：最終分類器
３０１：事前確率計算ユニット
３０２：整合ユニット
４０１Ａ：トレーニングデータ生成ユニット
４０２：学習ユニット
４０１Ｂ：トレーニングデータ生成ユニット
４０２：学習ユニット
４０３：カテゴリ名称ベース
４０４：外部知識源
５０１：カテゴリ名称取得部
５０２：語義曖昧性解消部
５０３：キーワード生成部
５０４：分類部
５０５：トレーニングデータ生成部
５０４：分類部
６０１：検索部
６０２：カテゴリラベル付け部
５０５：トレーニングデータ生成部
８０１１：事前確率計算ユニット
８０１２：整合ユニット
８０２：トレーニングデータ選択部
８０３：分類器

Claims

分類器を生成する方法であって、
オブジェクト集合についてクラスタリング結果の取得し、
ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成し、
最終的な分類器を生成するために前記クラスタリング結果でラフな前記カテゴリ分類結果を調整する
ことを特徴とする分類器の生成方法。
前記ラフなカテゴリ分類結果を調整するステップが、
前記ラフなカテゴリ分類結果に対応する事前確率を計算するステップと、
整合結果に対応する事後確率を生成する確率方法によって、前記クラスタリング結果に対して前記ラフなカテゴリ分類結果を整合させるステップと、
前記事後確率によって前記最終的な分類器を生成するステップとを含むことを特徴とする請求項１に記載の分類器の生成方法。
前記確率方法が、ベイズの推論方法であることを特徴とする請求項２に記載の分類器の生成方法。
前記ラフな分類器を得るために前記ラフなカテゴリ分類結果を生成するステップは、
トレーニングデータを取得するステップと、
前記トレーニングデータにより前記ラフな分類器を学習するステップとを含むことを特徴とする請求項１に記載の分類器の生成方法。
前記トレーニングデータは、手作業でラベル付けされたトレーニングデータであることを特徴とする請求項４に記載の分類器の生成方法。
前記トレーニングデータは、
前記オブジェクト集合に関するカテゴリ名称を取得するステップと、
前記カテゴリ名称に基づいて関連するキーワードを生成するステップと、
中間のカテゴリ分類結果を取得するために前記関連するキーワードで前記オブジェクト集合を分類するステップと、
前記中間のカテゴリ分類結果から前記トレーニングデータを取得するステップとにより、
自動的に生成されることを特徴とする請求項４に記載の分類器の生成方法。
前記関連するキーワードを生成するステップは、さらに、
外部知識源を参照して取得した前記カテゴリ名称について語義曖昧性解消を実行するステップと、
語義曖昧性解消の後に前記カテゴリ名称に基づいて前記関連するキーワードを生成するステップとを含むことを特徴とする請求項６に記載の分類器の生成方法。
前記キーワードは、代表的なプロファイルとして使用され、
前記中間のカテゴリ分類結果を取得するステップは、
前記オブジェクト集合を検索するために前記代表的なプロファイルをクエリ用語として利用するステップと、
対応するカテゴリに対する探索結果としてのヒットリストにおけるオブジェクトにラベルを付けるステップとを含むことを特徴とする請求項６に記載の分類器の生成方法。
前記ヒットリスト中の上位の所定数のオブジェクトが対応するカテゴリにレベル付けされることを特徴とする請求項８に記載の分類器の生成方法。
前記中間のカテゴリ分類結果からのトレーニングデータを取得するステップは、
中間の分類器を生成するために前記クラスタリング結果で中間のカテゴリ分類結果を調整するステップと、
生成された中間の分類器に対応する調整されたカテゴリ分類結果から選ばれたトレーニングデータを取得するステップとを含むことを特徴とする請求項６に記載の分類器の生成方法。
前記最終的な分類器を生成するために前記クラスタリング結果でラフなカテゴリ分類結果を調整するステップにおいて、
トレーニングデータを初期のトレーニングデータとして使用し、ラフな分類器を初期の分類器として使用するにより、反復分類器学習が実行され、
それにより、中間の分類器のグループが生成され、当該中間の分類器のグループから最適な分類器が最終的な分類器として選択されることを特徴とする請求項４に記載の分類器の生成方法。
前記最適な分類器は、クラスタリング結果に最も一致する分類器であることを特徴とする請求項１１に記載の分類器の生成方法。
前記反復分類器学習における反復の１サイクルが、
反復の前のサイクルで生成されたトレーニングデータで反復の現在のサイクルに対応する中間の分類器を学習するステップと、
反復の現在のサイクルの中間のカテゴリ分類結果を取得するために、反復の現在のサイクルに対応する学習された中間の分類器を使用することにより、オブジェクト集合を分類するステップと、
反復の次のサイクルのために使用されるトレーニングデータを生成するために、クラスタリング結果で反復の現在のサイクルの中間のカテゴリ分類結果を調整するステップとを含むことを特徴とする請求項１１に記載の分類器の生成方法。
分類器を生成するシステムであって、
オブジェクト集合についてクラスタリング結果の取得する取得手段と、
ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成するラフなカテゴリ化手段と、
最終的な分類器を生成するために前記クラスタリング結果でラフな前記カテゴリ分類結果を調整する調整・生成手段と
を備えることを特徴とする分類器生成システム。
前記調整・生成手段が、
前記ラフなカテゴリ分類結果に対応する事前確率を計算する事前確率計算ユニットと、
整合結果に対応する事後確率を生成する確率方法によって、前記クラスタリング結果に対して前記ラフなカテゴリ分類結果を整合させ、前記事後確率によって前記最終的な分類器を生成するる整合ユニットとを備えることを特徴とする請求項１４に記載の分類器生成システム。
前記確率方法が、ベイズの推論方法であることを特徴とする請求項１５に記載の分類器生成システム。
前記ラフなカテゴリ化手段が、
トレーニングデータを取得するトレーニングデータ生成ユニットと、
前記トレーニングデータにより前記ラフな分類器を学習する学習ユニットとを備えることを特徴とする請求項１４に記載の分類器生成システム。
前記トレーニングデータ生成ユニットは、外部から手作業でラベル付けされたトレーニングデータを取得することを特徴とする請求項１７に記載の分類器生成システム。
カテゴリ名称に関するドメインを格納するカテゴリ名称ベースを備え、
前記トレーニングデータ生成ユニットが、
前記オブジェクト集合に関するカテゴリ名称を取得するカテゴリ名称取得部と、
前記カテゴリ名称に基づいて関連するキーワードを生成するキーワード生成部と、
中間のカテゴリ分類結果を取得するために前記関連するキーワードで前記オブジェクト集合を分類する分類部と、
前記中間のカテゴリ分類結果から前記トレーニングデータを取得するトレーニングデータ生成部とを備え、自動的に前記トレーニングデータを生成することを特徴とする請求項１７に記載の分類器生成システム。
前記カテゴリ名称に関する知識を格納する外部知識源をさらに備え、
前記トレーニングデータ生成ユニットは、前記外部知識源を参照して取得したカテゴリ名称について語義曖昧性解消を実行する語義曖昧性解消部を備え、
前記トレーニングデータ生成部は、語義曖昧性解消の後にカテゴリ名称に基づいて関連するキーワードを生成することを特徴とする請求項１９に記載の分類器生成システム。
前記キーワードは、代表的なプロファイルとして使用され、
前記分類部は、
前記オブジェクト集合を検索するために前記代表的なプロファイルをクエリ用語として利用する検索部と、
対応するカテゴリに対する探索結果としてのヒットリストにおけるオブジェクトにラベルを付けるカテゴリラベル付け部とを備えることを特徴とする請求項１９に記載の分類器生成システム。
前記カテゴリラベル付け部は、前記ヒットリスト中の上位の所定数のオブジェクトを対応するカテゴリにレベル付けすることを特徴とする請求項２１に記載の分類器生成システム。
前記トレーニングデータ生成部は、
中間の分類器を生成するために前記クラスタリング結果で中間のカテゴリ分類結果を調整する調整・生成部と、
生成された中間の分類器に対応する調整されたカテゴリ分類結果から選ばれたトレーニングデータを取得するトレーニングデータ選択部とを備えることを特徴とする請求項１９に記載の分類器生成システム。
前記調整・生成手段は、トレーニングデータを初期のトレーニングデータとして使用し、ラフな分類器を初期の分類器として使用するにより、反復分類器学習を実行し、中間の分類器のグループを生成し、当該中間の分類器のグループから最適な分類器を最終的な分類器として選択することを特徴とする請求項１７に記載の分類器生成システム。
前記最適な分類器は、クラスタリング結果に最も一致する分類器であることを特徴とする請求項２４に記載の分類器生成システム。