JP2009259250A - 文書の分類器を生成する方法とそのシステム - Google Patents

文書の分類器を生成する方法とそのシステム Download PDF

Info

Publication number
JP2009259250A
JP2009259250A JP2009097929A JP2009097929A JP2009259250A JP 2009259250 A JP2009259250 A JP 2009259250A JP 2009097929 A JP2009097929 A JP 2009097929A JP 2009097929 A JP2009097929 A JP 2009097929A JP 2009259250 A JP2009259250 A JP 2009259250A
Authority
JP
Japan
Prior art keywords
classifier
training data
result
rough
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009097929A
Other languages
English (en)
Other versions
JP4926198B2 (ja
Inventor
Jianqiang Li
ジェチャン リイ
Yu Zhao
ユウ ジャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2009259250A publication Critical patent/JP2009259250A/ja
Application granted granted Critical
Publication of JP4926198B2 publication Critical patent/JP4926198B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 分類器を生成する方法およびシステムを提供する。
【解決手段】 分類器を生成する方法は、オブジェクト集合についてクラスタリング結果の取得し、ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成し、最終的な分類器を生成するためにクラスタリング結果でラフなカテゴリ分類結果を調整する。1つの実施例では、ラフなカテゴリ分類結果は、整合モジュールによってクラスタリング結果と整合することが可能である。このように、カテゴリ名称および対応する意味論的解析から生じる可能な限りのる偏りを制御することが可能である。本発明の分類器生成方法およびシステムによれば、文書分類の精度および拡張性は非常に改善される。
【選択図】 図1

Description

本発明は、情報検索(information retrieval:IR)およびテキストデータマイニングに関し、特に、分類してない文書集合の基礎となるデータ分布とカテゴリ名称の用語に包含された意味的な情報を組み合わせることにより、高精度な文書分類を提供する自動文書分類のための文書分類器を生成する方法およびシステムに関する。
近年、利用可能な電子文書の急成長は、普通の人々にそのような大量の情報を理解させ有利に利用させる。それは、利用者が大量の情報を整理し、かつ効果的かつ効率的な方法で興味のある部分を見つけるのを支援する興味深い作業である。
情報検索(IR)は、文書集合における情報を検索する科学である。情報検索(IR)は、さらに、文書に含まれている1片の情報を検索すること、文書自体を検索すること、文書について記述するメタデータを検索すること、スタンド・アロンのリレーショナルデータベース、テキスト、音、イメージあるいはデータについてインターネットやイントラネットでネットワーク化されたハイパーテキストデータベース等のデータベース内で検索することに分けることができる。テキストデータマイニングは、一般にプレーンテキストから高品質情報を構築する処理手順に関する技術であり、テキスト分類、テキストクラスタリング、コンセプト/エンティティ抽出、文書要約などに分けられる。最も役に立つ情報がテキストあるいは文書として一般に格納されているので、情報検索およびテキストデータマイニングは高い商品価値を有すると考えられる。文書分類は、予め定義された集合から主題カテゴリを有する自然言語テキストを分類する(ラベル付けする)作業であり、例えば、語義曖昧性解消、文書編成、テキストフィルタリングおよびウェブページ検索等のIRおよびテキストデータマイニングの多くの利用実態に適用することが可能である。
増大する電子情報の有用性は、情報検索およびテキストデータマイニングの重要性を決定する。自動文書分類は、それら両方のための基礎技術の1つで、当時に、大量の電子情報の高効果的で高効率的な利用に主要な役割を果たす。
現在、機械学習(ML)をベースとしたアプローチは、自動文書分類のための主要な1つである。機械学習(ML)をベースとしたアプローチの最適な性能は、手作業でラベル付けされた大量のトレーニングデータに強く依存する。しかしながら、何百又は何千ものカテゴリがある場合、データラベル付けの作業は、特に複雑な文書分類において、面倒で費用がかかる。
多くの研究がトレーニングモデルの正確さを改善するためラベル付けしていないデータを利用するために行なわれている。しかしながら、既存の方法は、トレーニングデータが役に立たないケースを扱うことができない。さらに、学習工程が少数のトレーニング標本に非常に依存するので、分類結果がトレーニングデータによって容易に偏ることになる。そのため、実際のシステムのために十分良い性能が得られていない。
本発明の調査研究は、従来の研究で広く検討されている情報検索およびテキストデータマイニングに関する研究(特に文書分類)に密接に関連する。基本的に、自動的な文書分類に対する一般のアプローチは、教師あり文書の分類、半教師あり文書の分類および教師なし文書の分類の3種類に分けることができる。それらの実施は一般に基本的な2つのステップ、すなわち、分類学習ステップおよび文書分類ステップを含む。
教師あり文書分類アプローチは、シンボリックラベルとしてのみカテゴリ名称を扱い、それらの意味についての付加的な知識を仮定しない。また、外生的な知識は分類器を構築する際の支援に利用することができる。学習段階では、あらかじめ手作業で(例えば、分野専門家によって)分類された文書集合の特性を観察することにより、カテゴリについて自動的に分類器を構築する一般の帰納的な処理手順を利用する。その後、文書分類段階では、分類器は、対応するカテゴリの下に分類するために新規の文書が有する特性を取得する。文書分類器の帰納的な構築のための様々な異なる方法が、以前の研究で検討されている。最も一般的な方法は、確率的な分類器、デシジョンツリー、ニューラル・ネット、サポートベクターマシン(SVM)および回帰法を含んでいる。文書のための正確な分類に関する知識が分類器学習を管理するために使用されるので、全てのカテゴリについて手作業でラベル付けされた大量のトレーニング標本は正確な学習に必要とされる。
トレーニングデータのラベル付け(分類)に対する人的な労力を減らすために、数の少ないラベル付けされたデータを含むドキュメント分類用の半教師あり文書分類アプローチが、ますます多くの注目を引いている。それらはラベル付けされたトレーニングデータサンプルとラベル付けされていないトレーニングデータサンプルの両方を利用する。ラベル付けされていないデータは、不十分なトレーニングデータを含む教師あり学習の不十分な性能を向上するために利用される。これまで、半教師あり文書分類アプローチに関する作業は、大きく、生成的手法、識別的手法(Discriminative method)及び自己学習手法に類別することができる。
生成的な方法は、識別可能な混合配分(例えばガウスの混合モデル:Gaussian mixture models)から文書例が生成されると仮定する。大量のラベル付けされていないデータによって、混合モデルの未知パラメータを識別することが可能である。代表的な方法は期待値最大化(EM:Expectation-Maximization)アルゴリズムである。同じ方法に沿って、文書クラスタリングは、テキスト分類を改善するために分類してない文書を使用するのに利用される、ここで、各々のクラスタは、実際に「擬似混合モデル」として役立つ。クラスタリング処理は、それらのクラスタから抽出した新たな特徴を分類されたデータと分類されていないデータ中のパターンに導入して、分類されたデータと分類されていないデータに適用することができる。
識別的手法(Discriminative method)は、種々のクラスに分類されていないデータは大きなマージンを持って分離されるという考えから考案される。この仮定に基づいて、TransductiveSVM(TSVM)(トランスダクティブサポートベクターマシン)は、分類してないデータを有する標準サポートベクターマシンを拡張し、特定の文書の誤った分類を最小限にすることにより、「分類してないデータマージン」を最大にしようとする。SVMの一般形態であるロジスティックスの回帰モデルも半教師ありテキスト分類のために採用される。最近、一連の新規な半教師あり学習のアプローチが、グラフ表現から起こっている。ここでは、ラベル付けされたインスタンスが、頂点として表わされ、ラベル付けされていないインスタンスが、インスタンス間の類似度を符号化する辺として表される。
自己学習方法は、分類器自身の高い信頼度予測が正確であると仮定する。この仮定から派生した2つの代表的な方法がある。自己トレーニングおよび共トレーニングである。自己トレーニングは以下のように実現される:1)ラベル付けされた少量の文書が分類器トレーニングのために使用される、2)得られた分類器は分類してない文書を分類するために利用される、3)各反復において高い確信度で選択されている新しくラベル付けされた文書の信頼できる集合は、分類器を繰り返し再教育するために利用される。この反復中に、分類器は、独習するためにそれ自身の高い信頼度予測を利用する。同様の技術として、特許文献1(特開2002−133389号公報)は、数の少ないトレーニングデータで反復学習の精度を改善するためにテストデータの配布を使用する促進メカニズムを提供する。共同トレーニングは以下のように実現される。1)まず、特徴集合が、2つの分類器を訓練するために利用される2つの十分かつ条件付きの独立した集合にそれぞれ分割される;2)その後、分類器はそれぞれラベル付けされていないデータを分類し、他方の分類器のトレーニングデータを拡張するためにいくつかの信頼できる標本選択する;3)両方の分類器は、追加のトレーニング標本で再教育され、この処理を繰り返す。
文書分類のための文書集合に包含された知識を利用する教師あり及び半教師あり学習方法と異なり、いわゆる教師なしアプローチは、自動文書分類のためのカテゴリ名称の概念に包含された知識を主に利用する。それらは、手作業によってトレーニング文書を生成せずに、主に初期の予め定義されたキーワードリストか、カテゴリ名称に根源として出現したキーワードを利用し、一定のブートストラップメカニズム(bootstrapping mechanisms)を採用する。代わりの解決策は、文書を文に分割することによって、各カテゴリのキーワードリストを利用してトレーニング文集合を生成することである。同時に、分類された文は、文書分類のための利用される。
特開2002−133389号公報
しかしながら、以下のように、既存の方法について解決すべき問題点がまだある。
まず、教師ありアプローチについて、教師ありアプローチのために十分なトレーニングデータを作成することは非常にコストがかかる。教師あり文書分類アプローチは、各文書集合あるいは問題ドメインのために有効な大量のトレーニングデータに必要とする。しかしながら、それらは経験を積んだ注釈者の労力を必要とするので、多くの場合困難であり、高コストであり、ラベル付けされたデータを取得するための時間を消費する。何百あるいは何千もの分類がある複雑なタスクあるいはドメインについては、特に問題となる。
次に、半教師ありのアプローチの文書分類結果は、数の少ないトレーニングデータによって偏りが生じる傾向にある。半教師ありの学習の考えは、ラベル付けさされたトレーニングデータから学習するだけでなく、さらに加えて利用可能なラベル付けされていないデータ中の構造的情報を利用することである。トレーニングデータの有効性の問題が部分的に取り組まれている。ラベル付けされたデータが希薄であるので、精度が十分でないだけでなく、その頑強性がこれらの方法の適用に対して大きな問題である。
さらに、教師なしアプローチについて、それらの文書分類結果は、予め定義されたキーワードリストによって偏りが生じる傾向にある。いわゆる教師なしアプローチにおいては、カテゴリ名称あるいは各カテゴリのキーワードリストが、自動テキスト分類に対するブートストラップメカニズムのための根源として役立つ。このアプローチは人間によって定義された初期のキーワードリストに強く依存し、かつ偏り制御機構はないので、精度および分類結果の頑強性が一般に十分ではない。さらに、初期の根源単語を手作業で集める必要があり、それは複雑なタスクにとってさらに冗長で高コストなタスクである。
最後に、教師ありアプローチ、半教師ありのアプローチあるいは教師なしアプローチにとって、それらの適応性およびスケーラビリティが不十分である。上記の3つのすべてのアプローチを経て訓練された分類器は、ドメインまたは文書集合に依存する。すなわち、文書集合かドメインが変更されると、分類器を再度訓練する必要がある。教師あり及び半教師ありのアプローチについては、トレーニングデータとして一定の量の文書にラベル付けするための追加の人間の労力が必要であることを意味する。いわゆる教師なしアプローチについては、ドメインが変更されると、対応するカテゴリに関係のある初期のキーワードリストを定義する必要がある。さらに、追加学習の労力が、変更されたドメインか文書集合のために必要となる。
上記の問題を考慮すると、特にラベル付けされたデータが利用可能でない場合に対して、文書分類の精度およびスケーラビリティを改善する自動文書分類のための新方式及びシステムが必要となる。
(発明の目的)
本発明は、この技術分野における既存の文書分類アプローチの前述の課題に鑑みて提案された。
本発明において、文書分類器生成方法は、自動文書分類のために提案されている。対象の文書集合についてのデータ配布知識、およびカテゴリ名称によって包含された意味的な情報は、文書分類の精度およびスケーラビリティを改善するために、特にトレーニングデータが役に立たない場合のために利用される。
概して、混成の文書分類器形成方法は主に、(1)初期のトレーニングデータ生成、(2)反復分類器学習、(3)最終的な分類器構築の3つのステップを含んでいる。
まず、初期のトレーニングデータ生成において、初期のトレーニングデータは、外部知識源を用いたカテゴリ名称の意味解析に基づいて生成される。例えば、実施例において、プロファイルに基づいた方法が、分類器の形成のために設計されている。ここで、カテゴリはそれぞれ、カテゴリの代表的なプロファイルとして役立つ意味的に関連する特徴集合を有する。初期の分類器によって、肯定的な標本と否定的な標本を初期のトレーニングデータ(ラベル付けされた文書)は、次の反復の分類器学習のために生成される。
次に、反復の分類器学習の段階において、各反復における最後の反復からの分類器の分類結果は、その反復のトレーニングデータの構築のために利用される(ラベルがラベルを付けられたデータとして高い確信度で分類された結果を選択する)。その後、新たな分類器は、更新されたトレーニングデータ(ラベル付けさえたデータ)から作成される。最後に、新たな分類器が、最後の反復からの分類器と交代し、残りの文書を分類するために利用される。全ての文書が分類された場合、分類器の形成集合が収束し、あるいは、他の終了条件が満たされると、反復が終了する。
最終的な分類器形成処理において、反復学習が終了した後、結果として生じた全ての分類器から、最もクラスタリング結果と一致している分類器が最終的な分類器として選択される。本発明は、トレーニングデータがないことを想定するので、分類器選択のための解決策として最尤法(maximal likelihood estimation)を主に利用する。
機械学習処理中に、ベイズのモデルを採用することが可能である場合、トレーニングデータ選択(反復学習における初期のトレーニングデータ生成および中間のトレーニングデータ生成を含む)は、クラスタリングと分類の結果の整合に基づくことに留意する必要がある。その目的は、カテゴリ名称、外部知識源あるいは反復分類器学習処理におけるノイズデータから生じる可能性のある偏りを軽減することである。
本発明による分類器を生成する方法は、オブジェクト集合についてクラスタリング結果の取得し、ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成し、最終的な分類器を生成するために前記クラスタリング結果でラフな前記カテゴリ分類結果を調整する。好ましい形態によれば、ラフな分類器は、トレーニングデータ(それは手作業でラベル付けされたトレーニングデータとして外部から取得することが可能であり、あるいは、外部知識源を参照してドメイン関連のカテゴリ名称に応じて自動的に生成することが可能である)で分類器を学習することにより生成することができる。さらに、ある形態によれば、ラフな分類結果は、前もって取得されたクラスタリング結果へラフな分類結果を整合させることにより調整することが可能である。この調整処理は反復方法において実現することが可能である。トレーニングデータを反復して更新することによって、中間の分類器の聚合を学習することが可能であり、それらから、クラスタリング結果と最も一致している最適な分類器を最終的な分類器として選択する。
本発明による分類器を生成するシステムは、オブジェクト集合についてクラスタリング結果の取得する取得手段と、ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成するラフなカテゴリ化手段と、最終的な分類器を生成するために前記クラスタリング結果でラフな前記カテゴリ分類結果を調整する調整・生成手段とを備える。
本発明において、クラスタリングと分類の結果間の整合解析は、初期のトレーニングデータ形成の処理だけでなく反復分類器学習の処理において実施され統合される。これにより、カテゴリ名称と対応する意味解析から生じする可能性のある偏りが制御される。それは、結果として生じたトレーニングデータと同時に最終的な分類結果の改良された精度を保証する。
さらに、本発明による方法は、トレーニングデータあるいは文書分類のための初期の予め定義されたキーワードリストを必要としない。代わりに、既存の外部知識源によるカテゴリ名称の意味解析(同時出現キーワード抽出のための隠れた意味解析を含む)は、初期のトレーニングデータ形成のために利用される。既存の外部知識源が複数定義域をカバーすることが可能であるので、ドメインか文書集合が変更された場合でも、本発明の方法は、追加のラベル付け労力の大幅な軽減に加えて、多数の様々な種類のドメイン/文書集合に容易に適用することが可能である。
さらに、最終の分類器形成のために提供されるメカニズムは、特に特徴的な分類器(例えば、SVM(Support Vector Machine:サポートベクターマシン)、ロジスティック回帰(Logistic regression))について、反復分類器学習処理におけるノイズデータによって偏りが分類器に過度にかけられるという危険を軽減することが可能である。さらに、それは、文書分類の最終結果の精度改良に対する本発明の重要な貢献である。
本発明によるによる文書分類システム100(分類器生成サブシステム10の内部構成はその中で詳細に示される)の全体的なブロック図である。 図1に示される文書分類システム100の動作処理の例を示すフローチャートである。 図1に示す分類器生成サブシステム10における調整・生成手段103の内部構成例を示すためのブロック図である。 図1に示す分類器生成サブシステム10におけるラフカテゴリ化手段102の実装例400Aの内部構成を示すブロック図であり、実装例400Aにおいては、外部から取得した手作業でラベル付けされたトレーニングデータが分類器学習のための直接利用される。 図1に示す分類器生成サブシステム10におけるラフカテゴリ化手段102の実装例400Bの内部構成を示すブロック図であり、実装例400Bにおいては、トレーニングデータは、分類器学習のために自動的に生成される。 自動的にトレーニングデータを生成する場合における、図5に示すトレーニングデータ生成ユニット401Bの内部構成を示すブロック図である。 図6に示すトレーニングデータ生成ユニットにおける分類部504の内部構成例を示すブロック図である。 図6に示すトレーニングデータを自動的に生成する場合における、トレーニングデータ生成ユニットの動作処理700の例を示すフローチャートである。 図6に示す中間の分類結果に基づいてトレーニングデータを生成するためのトレーニングデータ生成部505の内部構成例を示すブロック図であり、文書集合に対するクラスタリング結果は中間の分類結果の調整のために取得される。 本発明による、図1に示す分類器生成サブシステム10における反復分類器学習のめの調整・生成手段103の動作処理900を示すフローチャートである。 本発明を実現するために利用されるコンピュータ・システムの概略ブロック図である。
本発明の前述の特徴とその他の特徴および効果は、添付図面と組み合わせた以下の説明からより明白になるであろう。本発明の範囲が、ここで説明された実施例あるいは特定の実施の形態に制限されないことは言うまでもない。
本発明の前述した特徴及びその他の特徴は、添付図面と共に以下の説明を読むことでより完全に理解されるであろう。
本発明による分類生成方法およびシステムは、テキストフィルタリング、文書推薦、探索結果クラスタリング、ウェブページ検索およびウェブマイニングシステム等に適用することができる。
図1は、本発明による文書分類システム100の全体を示すブロック図である。図1には、分類器生成サブシステム10の内部構成が詳細に示されている。図に示すように、文書ベース105から受信された文書セットは、文書クラスタリング手段107によって前もって多数のグループへクラスタ化され、そのクラスタリング結果はクラスタリング結果ベース104に格納される。クラスタリング結果ベース104に格納された文書セットに関するクラスタリング結果は、後で本発明による分類機生成サブシステム10、あるいは他の情報検索に関連したアプリケーションによって消費される。文書クラスタリング方法に関しては、当業者にとって広く知られている多くの既存アプローチを本発明について使用することができる。これらは本発明の主要な特徴ではないので、ここでは詳細に記述しない。当業者にとって容易に利用可能であれば、どのような文書クラスタリング方法をも必要書類クラスタリング結果の取得に使用することができる。例えば、図1に示した本発明による分類生成サブシステム10は、取得手段101、ラフカテゴリ化手段102および調整・生成手段103を含む。
図2は、図1に示した文書分類システム100の動作処理手順の例を示すフローチャートである。
図2に示す処理手順200はステップ201から始まり、ここで、分類生成サブシステム10が、文書ベース105から分類すべき文書集合を取得する。
取得した文書集合は、ステップ202に示すように、ラフなカテゴリ化結果(つまり、ラフな分類器)を生成するために、ラフカテゴリ化のためのラフカテゴリ化手段102に提供される。例えば、既存の教師あり文書分類、半教師あり文書分類あるいは背景技術で説明したような教師なし文書分類方法のうちの何れかが、ラフなかカテゴリ化の目的を実施するために適用することができる。ある実施の形態においては、例えば、後述するように、トレーニングデータを含む分類を学習する方法が、ラフな分類を生成するために採用することができる。異なるアプリケーション要求に従って、分類器を学習するためのトレーニングデータは、手作業でラベル付けされたトレーニングデータとして外部から入力することができ、あるいは、外部知識源からのカテゴリ名称に関する意味的な情報を参照することにより自動的に生成することができる。トレーニングデータの生成処理手順の詳細については、後述する。
同時に、ステップ203において、取得手段101は、同じ文書集合について予め格納されたクラスタリング結果をクラスタリング結果ベース104から取得する。当業者に知られているように、クラスタリング結果は、文書集合の基礎となるデータ分布を反映している。このため、クラスタリング結果は、ラフな分類結果において起こり得る偏りを抑制するために使用される。ラフカテゴリ化手段102から文書集合に関するラフな分類結果と取得手段101によって取得されたクラスタリング結果の両方が、調整・生成手段103に供給される。次に、ステップ204において、調整・生成手段103は、取得手段101からクラスタリング結果を利用することにより、ラフカテゴリ化手段102からのラフな分類結果(すなわち、ラフな分類器)を調整し、その結果、最終的な分類器106を生成する。クラスタリング結果の使用してラフな分類結果を調整する原理および処理手順については、図3を参照して説明する。更に、後述するように、クラスタリング結果の使用によりラフな分類結果を調整するこの考えは、中間の分類器のグループを生成し、それらから1つの最適な分類器を最終的な分類器として選択する反復方式に拡張することが可能である。このような方法により、文書分類の精度をよりさらに改善することが可能である。分類学習の特定の反復処理については後述する。その後、ステップ205において、ステップ201で取得した文書集合が、生成された最終的な分類器106に供給され、生成された最終的な分類器106は順番に各文書を少なくとも1つの適切なカテゴリに分類する。文書の最終的な分類結果は、文書分類結果ベース108に格納される。その後、処理手順200が終了する。
図3は、図1に示す分類器生成サブシステム10の調整・生成手段103の内部構成の例を示すブロック図である。この例において、ラフカテゴリ化手段102がクエリに基づいた方法によってラフな分類を処理するものと想定する。また、ラフな分類結果は、一連の順位スコアとして表わされる。調整・生成手段103は、ラフな分類結果とクラスタリング結果の間の整合を実行するためにベイズ推測に基づいた整合モデルを設定する。このように、より正確な分類結果(つまり最終分類器106)を実現することができる。クラスタリング結果を含むラフな分類結果を調整する方法については、図3において示されるようなベイズ推測モデルに基づいた整合例に制限されない。他の調整方法も同様に文書分類の精度を改善する目的を達成するために適用することができることを当業者が理解するのは容易である。
図3で示される例において、調整・生成手段103は、事前確率計算部301と整合部302を含む。
事前確率計算部301においては、ラフなカテゴリ分類結果に対応する事前確率を最初に計算する必要がある。
上述のように、ラフなカテゴリ分類結果が一連の順位スコアとして表わされるものと仮定する。
Cをカテゴリ集合とする。文書d∈Dとカテゴリc∈Cに対して、順位スコアs(d、c)は、dがcに属する可能性を暗黙に示している。よって、式1によってスコアを正規化する。


Figure 2009259250



その結果、P(c|d)=s'(d、c)と見なすことができる。
その後、整合部302において、整合モデルはベイズの推論に基づいて設定される。C’をクラスタ集合とする。文書dがクラスターc'k∈C'にクラスタリングされたことをクラスタリング結果が示すならば、その後、整合結果は以下のように事後確率によって示される。


Figure 2009259250


ここで、事前確率P(c|d)はラフな分類結果から得る。
明らかに、基礎的統計を利用することにより可能性を以下のように計算することができる。

Figure 2009259250


Figure 2009259250

よって、最終の整合モデルは以下のように示すことができる。

Figure 2009259250

式5に示すような整合モデルによれば、クラスタリング結果によって調節された最終分類器を達成することができる。式1において示されるラフな分類器と比較して、最終分類器は、最終のカテゴリ分類結果の向上した精度を保証する。さらに、カテゴリ名称および対応する意味解析から派生する偏りは、クラスタリング結果に基づいたカテゴリ分類結果調整の導入により効果的に制御することができる。
以下、分類器生成サブシステム10のラフカテゴリ化手段102の内部構成について、図4と図5を参照してより詳細に説明する。上述のように、ある実施の形態では、ラフな分類器は、トレーニングデータを有する分類学習方法の採用により生成することができる。本発明に採用されたトレーニングデータは、外部から直接入力した手作業でラベル付けされたトレーニングデータであるか、あるいは、システムによって自動的に生成することができる。図4と図5は、手作業でラベル付けされたトレーニングデータを使用するか、あるいはシステムによってトレーニングデータを自動的に生成する場合において、トレーニングデータの学習によるラフな分類器の生成をそれぞれ示す2つの例を提供する。もちろん、ラフな分類器の生成はトレーニングデータ学習に制限されるものではなく、当業者によって知られているような他の分類器生成方法も、本発明に適用することができる。
まず、図4を参照すると、この例では、ラフカテゴリ化手段102が、トレーニングデータ生成ユニット401Aと学習ユニット402を含む。トレーニングデータ生成ユニット401Aは、手作業でラベル付けされたトレーニングデータを外部から取得し、分類学習のために学習ユニット402にそれを直接供給する。その後、学習ユニット402は、ラフな分類器を学習するために使用される。トレーニングデータと共に分類器を学習する処理手順については、本発明の属する技術分野において周知の技術であるので、その詳細な説明をここで省略する。
図5を参照すると、この例では、ラフカテゴリ化手段102が、トレーニングデータ生成ユニット401Bと学習ユニット402を含む。トレーニングデータ生成ユニット401Bとトレーニングデータ生成ユニット401Aの間の差異は、トレーニングデータ生成ユニット401Bでは、外部知識源404からのカテゴリ名称についての意味的な情報を参照して、トレーニングデータを自動的に生成することである。その後、図4のように、生成されたトレーニングデータは、分類器を学習するための学習ユニット402に供給される。
以下、図6から図9を用いて、図5で示すトレーニングデータ生成ユニット401Bによるトレーニングデータの自動生成の原理および処理手順をより詳しく説明する。
まず、図6に示すように、トレーニングデータ生成ユニット401Bは、例えば、カテゴリ名称取得部501、語義曖昧性解消部502、キーワード生成部503、分類部504及びトレーニングデータ生成部505を含む。さらに、図6に示すように、文書ベース105に加えて、トレーニングデータ生成ユニット401Bは、カテゴリ名称ベース403及びトレーニングデータの自動生成の実施のためのカテゴリ名称に関する外部知識源404にも接続されている。
図6に示すトレーニングデータ生成ユニット401Bによるトレーニングデータの自動生成処理700について、図8のフローチャートを参照して説明する。
処理手順700はステップ701から開始する。ステップ701では、カテゴリ名称取得部501は、カテゴリ名称ベース403からの文書の集合に関する所定のカテゴリ名称を取得する。カテゴリ名称中の単語は様々なケースにおいて様々な意味を持つので、ステップ702において、語義曖昧性解消部502は、最初に、外部知識源404の補助によって取得したカテゴリ名称について語義曖昧性解消を行なう。その後、ステップ703において、語義曖昧性解消後のカテゴリ名称はキーワード生成部503に供給され、そこで、識別された単語意味に基づいて、適切なキーワードが生成される。ここで、適切なキーワードは、カテゴリ名称と同時に出現する可能性の高い単語を含むかもしれない。それは隠れた意味解析によって識別することが可能である。さらに、それらは、カテゴリ名称に出現するキーワードの下位語、類義語あるいは同義語を含んでいる。それらは、外部知識源404によって見つけ出すことができるかもしれない。
ここで、理解を容易にするために、語義曖昧性解消および同義語選択の例を示す。
単語「スパム」は、WordNetにおいて2つの意味を有することができる。すなわち、(意味1):主として豚肉から作られた缶詰肉と、(意味2):不要な電子メールである。
我々は、製品プロファイル分類のための「スパム」の同義語を選ぶためにそれらを区別する必要がある。したがって、「スパム+主として豚肉から作られた缶詰肉」と「スパム+不要な電子メール」は、文書集合(すなわち製品プロファイル集合)に送られる2つのクエリとして使用することができる。
前者のクエリに対して、20のヒットがあり、後者のクエリに対して、100のヒットがあったとする。100>20であるので、この分類タスクの文脈中の「スパム」が意味2を有すると判断することができる。その後、意味2の同義語(すなわち「ジャンク電子メール」)が選択される。

図8に戻り、ステップ704において、生成された適切なキーワードは、中間の分類結果(すなわち中間の分類器)を取得するために、文書の集合を分類するための分類部504に供給される。次に、ステップ705において、中間の分類結果は必要なトレーニングデータの生成のためにトレーニングデータ生成部505に供給される。その後、処理手順700が終了する。
図7は、図6で示したトレーニングデータ生成ユニットにおける分類部504の内部構成例を示す。この例において、プロファイルに基づいたフィルタリング方法を、中間の分類結果を生成するために利用する。すなわち、文書集合を検索するために、カテゴリ名称関連キーワードをクエリとして利用する。また、ヒットリスト中の文書が、対応するカテゴリとしてラベル付けされる。
図7に示すように、この例において、分類部504は、検索部601およびカテゴリラベル付け部602を含む。再び図8におけるステップ704を参照すると、ステップ704は、いくつかのサブステップを含んでいることを示している。まず、サブステップ7041において、検索部601はキーワード生成部503からカテゴリ名称関連キーワードを受け取り、文書の集合を検索するために代表的なプロファイルとしてキーワードを利用する。その後、ステップ7042において、探索結果がそうであるように、ヒットリストはカテゴリラベル付け部602に送った。ラベルは、文書分類を達成するために対応するカテゴリにヒットリスト中のすべてあるいはいくつかの(例えば、最初の200)文書をラベルを付けられる。
一般に、ラベルがラベルを付けられた文書が高い信頼をもって正確であることを確かめるために、ヒットリストの一番上の文書だけが選択される。
例えば、「anti_spam」の製品カテゴリについて、「Spam+Junk email」が、検索のための文書集合に関連するキーワードとして送られる。
ここで、「スパム」は、カテゴリ名称(すなわち「anti_spam」)から識別される。また、「ジャンク電子メール」はWordNetから選択された同義語である。
ヒットリストにおいて返された結果が1000あると仮定すると、「anti_spam」製品の代表的な製品概要として上位の200の項目を選択するかもしれない。
上位の200の製品概要が、製品がanti_spam機能を有するか、あるいは製品が「anti_spam」カテゴリに属するかどうかを人が判断するために利用する全ての必要な特徴を保持すると思われる。
上述したように、中間の分類結果(すなわち中間の分類器)を取得した後、中間の分類結果はトレーニングデータの生成のためにトレーニングデータ生成部505に供給される。当業者に知られている様々なトレーニングデータ生成す方法を、本発明に適用することが可能である。しかしながら、トレーニングデータを生成する処理手順において、さらに文書分類の精度を改良するために、中間の分類結果についても、クラスタリング結果の採用により(例えば、ベイズの推論モデルの利用により)調整することができる。図9は、トレーニングデータ生成部505の内部構成例を示す。トレーニングデータ生成部505においては、文書の集合に関するクラスタリング結果が中間の分類結果を調整するために使用される。
図9のブロック図は、図3に示した調整・生成手段103の内部構成に多少類似していることを理解できる。すなわち、この実施例において、トレーニングデータ生成部505は、中間の分類結果を調整するために図3の調整・生成手段103と類似した方法を利用する。その詳細については、図3に関する説明を参考にすることができる。その後、調整された(整合された)中間の分類結果は望ましいトレーニングデータを選択するためにトレーニングデータ選択部802に供給される。
本発明による分類器生成サブシステム100の構成および動作原理は、図1から図9を参照して説明した。上述したように、文書分類の精度をさらに改良するために、クラスタリング結果と共にラフな分類結果を調整する処理手順が、反復方法で実施される。詳細な処理手順について、図10を参照して以下に説明する。
まず、ステップ901において、ラフな分類結果を生成する処理手順中に生成されたトレーニングデータは、初期のトレーニングデータとして取得される。各反復サイクル中に、ある分類学習方法(例えば、NB(ナイーブベイジアン)に基づく多項モデル)は、トレーニングデータと共に新たな中間の分類器を学習するために利用される(ステップ902)。その後、ステップ903において、新たな中間の分類結果を取得するため、新たな分類器は文書ベース105の文書を分類するために利用される。ステップ904において、反復終了条件を満たしているかどうかが決定される。反復終了条件につていは、利用者によって予め決定することが可能である。例えば、反復処理中に生成された中間の分類器がすべて次第に収束するならば、トレーニングデータの状態が安定に向かうことを反復終了条件として選択することができる。あるいは、文書ベース105の全ての文書が対応するカテゴリに分類されていることを、反復終了条件としてを利用することが可能である。ステップ904において、反復終了条件を満たしていると判定さない場合(すなわち、ステップ904で「NO」)、処理手順はステップ905に進む。ステップ905において、一連の反復において生成された中間の分類結果は、新たなトレーニングデータを生成するために次の反復サイクルのための利用される。ここで、中間の分類結果に従って新たなトレーニングデータを生成する方法は、図9のそれに類似している。上述したように、中間の分類結果は、整合モデル(例えばベイズの整合モデル)に基づいたクラスタリング結果と整合させる。
図9の方法との差異は事前確率の計算にある。
種々の分類器からの文書分類結果について一定の特別の方法を採用することができるかもしれない。例えば、NB分類器が採用されるとき、事前確率は、分類器から直接返される各対のカテゴリcおよび文書dについてP(c|d)である。
実施例としてNB分類器を利用すると、この反復的アルゴリズムは以下のように設計することが可能である。
(a)初期のトレーニングデータT:C→Powerset(D)(すなわち、ラベル付けされた文書部分集合)の入力;
(b)TによりNB分類器の学習、また各カテゴリ文書対(c,d) ∈C×Dに対してP(c|d)を取得するためにその学習結果を利用;
(c)各(c、d)∈C×Dに対して、d∈C’がクラスタリング結果内であれば、整合モデルによりP(c|d、c’)を計算するために、P’(c|d)=P(c|d、c’)とする;
(d)データT’:C→Powerset(D)をトレーニングするためのいくつかの新たなラベル付けされた文書を生成;
ここで、各c∈C, T’(c)は、文書集合D−domain(T)(D間の差集合およびTのドメイン集合)の内でP’(c|d)が最も上位である文書を含んでいる。
(e)T'=Φであるなら反復処理を終了し、そうでなければ、T:=T+T'とし、ステップb)にジャンプし、次の反復を開始する。
実施例としてNB分類器を挙げて、図10に示されるようにステップ901−905における分類器を学習する反復処理について詳細に説明した。
反復学習処理中に、反復サイクルはそれぞれ、カテゴリ文書対P’(c|d)の事後確率関数によって表わすことが可能な分類器を生成する。もちろん、本発明に関する分類器はNB分類器に制限ではない。他の種類の分類器は、明らかに本発明に適用することが可能である。
図10に戻り、ステップ904において反復終了条件を満たすと判定された場合(すなわち、ステップ904で「Yes」)、処理手順はステップ906に進む。ステップ906において、反復処理中に生成された分類器のグループを保存する。それから、ステップ907において、この分類器のグループから、最適な分類器を最終分類器として選択する。ここで、最適な分類器の代表的な選択方法としては、与えられた文書集合に応じて適切なものを選択する方法がある。反復学習処理の間、クラスタリング結果が不十分なトレーニングデータの偏りを減らすと思われる。したがって、さらに最も適切な分類器を評価し選択するためにクラスタリング結果を利用することが可能である。一例として、ベイズのモデルは最適な分類器を選択するために利用される。
例えば、中間の分類器をFk, k=1、2、…(N)とする。ここで、Nは、反復の時間を示す。
ベイジアンモデルを含む次のような式を有する

Figure 2009259250

最大尤度法に基づいて、P(C’|F)を最大にする特定のFを見つけ出す。
言うまでもなく、お互いに独立した文書とすると、次のように表すことができる。

Figure 2009259250

ここで、c’(d)が文書dが属するクラスターであり、c(d)はdが分類器Fに属するカテゴリである。

同様に、上述した整合モデルの尤度計算として、Fの尤度関数は以下の通
りである。

Figure 2009259250


そして、最終分類器は、

Figure 2009259250


として導かれる。
その後、最終分類器が選択されると、処理手順900が終了する。
図11は、本発明を実現するために利用されるコンピュータ・システム1000の概略ブロック図である。図示のように、コンピュータ・システム1000は、CPU1001、ユーザインターフェース1002、周辺装置1003、メモリ1005、外部記憶措置1006および上記構成要素を互いに接続する内部バス1004を含んでいる。メモリ1005は、さらにドメインおよびPOS解析モジュール、自動文書分類モジュール、文書クラスタリングモジュール、IR関連システム、オペレーティングシステム(OS)などを含んでいる。本発明は、主に自動文書分類モジュールに関するものである。それは、例えば図1に示した文書分類システム100である。文書クラスタリングモジュールは、文書集合についてクラスタリング処理を行ない、適切なクラスタリング結果ベース(例えば、クラスタリング結果ベース104)へクラスタリング結果を格納する。外部記憶装置1006は、クラスタリング結果ベース104、文書ベース105、文書分類結果ベース108、カテゴリ名前ベース403、外部知識源404などのような本発明に関する様々なデータベースを格納する。
以上、本発明による文書分類方法およびシステムについて、添附の図面を参照して説明した。上記の説明に基づいて、本発明の効果について、以下に述べる。
本発明においては、クラスタリングと分類の結果間の整合解析は、初期のトレーニングデータ形成の処理だけでなく反復類学習の処理で実施され統合される。この処理において、カテゴリ名称および対応する意味解析から発生する可能性のある偏りが制御される。それは、結果として生じたトレーニングデータと同時に最終の分類結果の精度の向上を保証する。
さらに、本発明による方法は、文書分類のためのトレーニングデータあるいは初期の予め定義されたキーワードリストを必要としない。代わりに、既存の外部知識源の補助によるカテゴリ名称の意味解析(同時出現キーワード抽出のための隠れた意味解析を含む)が、初期のトレーニングデータ形成のために利用される。既存の外部知識源が複数定義域をカバーすることが可能であるので、ドメインか文書集合が変更される場合、本発明の方法は、大幅に縮小された追加のラベル付け労力と共に多数の様々な種類のドメイン/文書集合に容易に適用することが可能である。
さらに、最終的な分類器形成のために提供されるメカニズムは、特に特徴的な分類器(例えば、SVM(Support Vector Machine:サポートベクターマシン)、ロジスティック回帰(Logistic regression))について、反復分類器学習処理におけるノイズデータによって偏りが分類器に過度にかけられるという危険を軽減することが可能である。さらに、それは、文書分類の最終結果の精度改良に対する本発明の重要な貢献である。
本発明の特定の実施の形態について、上記のように添付の図面を参照して説明した。しかしながら、本発明は、添付の図面中で示される特定の構成および処理に限定されない。上記の実施の形態において、いくつかの特定のステップは具体例として示されかつ説明されている。しかしながら、本発明の方法処理はこれらの特定のステップに限定されない。当業者は、これらのステップを変更し、修正し、補足することが可能であり、あるいは、いくつかのステップの順序を、本発明の精神および本質的な機能から外れずに変更することが可能であることを理解するだろう。
本発明の要素は、ハードウェア、ソフトウェア、ファームウェアあるいはそれの組合せにおいて実装することが可能であり、システム、サブシステム、コンポーネントあるいはサブコンポーネントにおいて利用することが可能である。ソフトウェアの中で実施された場合、本発明の要素は、必要なタスクを実行するためのプログラム、あるいはコードセグメントである。プログラムまたはコードセグメントは、コンピュータ読み取り可能な媒体に格納するか、あるいは伝送ケーブルか通信リンク上の搬送波に包含されたデータ信号によって送信することが可能である。コンピュータ読み取り可能な媒体には、情報を格納するか転送することが可能であるすべての媒体を含む。コンピュータ読み取り可能な媒の具体例は、電子回路、半導体記憶装置、ROM、フラッシュ・メモリー、消去可能ROM(EROM)、フレキシブル・ディスク、CD−ROM光ディスク、ハードディスク、光ファイバー媒体、無線周波数(RF)リンクなどを含む。コードセグメントは、インターネット、イントラネットなどのようなコンピュータネットワークを経由してダウンロードすることも可能である。
以上、特定の実施の形態を参照して本発明を説明したが、本発明は、図面中で示される上記の特定の実施の形態および特定の構成に限定されない。例えば、示されたいくつかの構成要素は、1つの構成要素としてお互いと組み合わせるかもしれない。あるいは、1つの構成要素はいくつかのサブコンポーネントに分割されるかもしれないし、他の既知の構成要素も加えられるかもしれない。動作処理も実施例において示されるものに限定されない。当業者は、本発明が、本発明の精神および本質的な機能から外れずに、他の特定の形態で実装可能であることを理解するだろう。従って、現在の実施の形態は、全ての点において例示でありかつ限定的でないとして考慮されるべきである。本発明の範囲は、前述の説明によってではなく添付された請求項によって示される。また、したがって、請求項と同等の意味と範囲の内で生ずる変更は全て本発明の範囲に包含される。
100:文書分類システム
10:分類器生成サブシステム
101:取得手段101
102:ラフカテゴリ化手段
103:調整・生成手段
104:クラスタリング結果ベース
105:文書ベース
107:文書クラスタリング手段
108:文書分類結果ベース
106:最終分類器
301:事前確率計算ユニット
302:整合ユニット
401A:トレーニングデータ生成ユニット
402:学習ユニット
401B:トレーニングデータ生成ユニット
402:学習ユニット
403:カテゴリ名称ベース
404:外部知識源
501:カテゴリ名称取得部
502:語義曖昧性解消部
503:キーワード生成部
504:分類部
505:トレーニングデータ生成部
504:分類部
601:検索部
602:カテゴリラベル付け部
505:トレーニングデータ生成部
8011:事前確率計算ユニット
8012:整合ユニット
802:トレーニングデータ選択部
803:分類器

Claims (25)

  1. 分類器を生成する方法であって、
    オブジェクト集合についてクラスタリング結果の取得し、
    ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成し、
    最終的な分類器を生成するために前記クラスタリング結果でラフな前記カテゴリ分類結果を調整する
    ことを特徴とする分類器の生成方法。
  2. 前記ラフなカテゴリ分類結果を調整するステップが、
    前記ラフなカテゴリ分類結果に対応する事前確率を計算するステップと、
    整合結果に対応する事後確率を生成する確率方法によって、前記クラスタリング結果に対して前記ラフなカテゴリ分類結果を整合させるステップと、
    前記事後確率によって前記最終的な分類器を生成するステップとを含むことを特徴とする請求項1に記載の分類器の生成方法。
  3. 前記確率方法が、ベイズの推論方法であることを特徴とする請求項2に記載の分類器の生成方法。
  4. 前記ラフな分類器を得るために前記ラフなカテゴリ分類結果を生成するステップは、
    トレーニングデータを取得するステップと、
    前記トレーニングデータにより前記ラフな分類器を学習するステップとを含むことを特徴とする請求項1に記載の分類器の生成方法。
  5. 前記トレーニングデータは、手作業でラベル付けされたトレーニングデータであることを特徴とする請求項4に記載の分類器の生成方法。
  6. 前記トレーニングデータは、
    前記オブジェクト集合に関するカテゴリ名称を取得するステップと、
    前記カテゴリ名称に基づいて関連するキーワードを生成するステップと、
    中間のカテゴリ分類結果を取得するために前記関連するキーワードで前記オブジェクト集合を分類するステップと、
    前記中間のカテゴリ分類結果から前記トレーニングデータを取得するステップとにより、
    自動的に生成されることを特徴とする請求項4に記載の分類器の生成方法。
  7. 前記関連するキーワードを生成するステップは、さらに、
    外部知識源を参照して取得した前記カテゴリ名称について語義曖昧性解消を実行するステップと、
    語義曖昧性解消の後に前記カテゴリ名称に基づいて前記関連するキーワードを生成するステップとを含むことを特徴とする請求項6に記載の分類器の生成方法。
  8. 前記キーワードは、代表的なプロファイルとして使用され、
    前記中間のカテゴリ分類結果を取得するステップは、
    前記オブジェクト集合を検索するために前記代表的なプロファイルをクエリ用語として利用するステップと、
    対応するカテゴリに対する探索結果としてのヒットリストにおけるオブジェクトにラベルを付けるステップとを含むことを特徴とする請求項6に記載の分類器の生成方法。
  9. 前記ヒットリスト中の上位の所定数のオブジェクトが対応するカテゴリにレベル付けされることを特徴とする請求項8に記載の分類器の生成方法。
  10. 前記中間のカテゴリ分類結果からのトレーニングデータを取得するステップは、
    中間の分類器を生成するために前記クラスタリング結果で中間のカテゴリ分類結果を調整するステップと、
    生成された中間の分類器に対応する調整されたカテゴリ分類結果から選ばれたトレーニングデータを取得するステップとを含むことを特徴とする請求項6に記載の分類器の生成方法。
  11. 前記最終的な分類器を生成するために前記クラスタリング結果でラフなカテゴリ分類結果を調整するステップにおいて、
    トレーニングデータを初期のトレーニングデータとして使用し、ラフな分類器を初期の分類器として使用するにより、反復分類器学習が実行され、
    それにより、中間の分類器のグループが生成され、当該中間の分類器のグループから最適な分類器が最終的な分類器として選択されることを特徴とする請求項4に記載の分類器の生成方法。
  12. 前記最適な分類器は、クラスタリング結果に最も一致する分類器であることを特徴とする請求項11に記載の分類器の生成方法。
  13. 前記反復分類器学習における反復の1サイクルが、
    反復の前のサイクルで生成されたトレーニングデータで反復の現在のサイクルに対応する中間の分類器を学習するステップと、
    反復の現在のサイクルの中間のカテゴリ分類結果を取得するために、反復の現在のサイクルに対応する学習された中間の分類器を使用することにより、オブジェクト集合を分類するステップと、
    反復の次のサイクルのために使用されるトレーニングデータを生成するために、クラスタリング結果で反復の現在のサイクルの中間のカテゴリ分類結果を調整するステップとを含むことを特徴とする請求項11に記載の分類器の生成方法。
  14. 分類器を生成するシステムであって、
    オブジェクト集合についてクラスタリング結果の取得する取得手段と、
    ラフな分類器を取得するためにオブジェクト集合についてラフなカテゴリ分類結果を生成するラフなカテゴリ化手段と、
    最終的な分類器を生成するために前記クラスタリング結果でラフな前記カテゴリ分類結果を調整する調整・生成手段と
    を備えることを特徴とする分類器生成システム。
  15. 前記調整・生成手段が、
    前記ラフなカテゴリ分類結果に対応する事前確率を計算する事前確率計算ユニットと、
    整合結果に対応する事後確率を生成する確率方法によって、前記クラスタリング結果に対して前記ラフなカテゴリ分類結果を整合させ、前記事後確率によって前記最終的な分類器を生成するる整合ユニットとを備えることを特徴とする請求項14に記載の分類器生成システム。
  16. 前記確率方法が、ベイズの推論方法であることを特徴とする請求項15に記載の分類器生成システム。
  17. 前記ラフなカテゴリ化手段が、
    トレーニングデータを取得するトレーニングデータ生成ユニットと、
    前記トレーニングデータにより前記ラフな分類器を学習する学習ユニットとを備えることを特徴とする請求項14に記載の分類器生成システム。
  18. 前記トレーニングデータ生成ユニットは、外部から手作業でラベル付けされたトレーニングデータを取得することを特徴とする請求項17に記載の分類器生成システム。
  19. カテゴリ名称に関するドメインを格納するカテゴリ名称ベースを備え、
    前記トレーニングデータ生成ユニットが、
    前記オブジェクト集合に関するカテゴリ名称を取得するカテゴリ名称取得部と、
    前記カテゴリ名称に基づいて関連するキーワードを生成するキーワード生成部と、
    中間のカテゴリ分類結果を取得するために前記関連するキーワードで前記オブジェクト集合を分類する分類部と、
    前記中間のカテゴリ分類結果から前記トレーニングデータを取得するトレーニングデータ生成部とを備え、自動的に前記トレーニングデータを生成することを特徴とする請求項17に記載の分類器生成システム。
  20. 前記カテゴリ名称に関する知識を格納する外部知識源をさらに備え、
    前記トレーニングデータ生成ユニットは、前記外部知識源を参照して取得したカテゴリ名称について語義曖昧性解消を実行する語義曖昧性解消部を備え、
    前記トレーニングデータ生成部は、語義曖昧性解消の後にカテゴリ名称に基づいて関連するキーワードを生成することを特徴とする請求項19に記載の分類器生成システム。
  21. 前記キーワードは、代表的なプロファイルとして使用され、
    前記分類部は、
    前記オブジェクト集合を検索するために前記代表的なプロファイルをクエリ用語として利用する検索部と、
    対応するカテゴリに対する探索結果としてのヒットリストにおけるオブジェクトにラベルを付けるカテゴリラベル付け部とを備えることを特徴とする請求項19に記載の分類器生成システム。
  22. 前記カテゴリラベル付け部は、前記ヒットリスト中の上位の所定数のオブジェクトを対応するカテゴリにレベル付けすることを特徴とする請求項21に記載の分類器生成システム。
  23. 前記トレーニングデータ生成部は、
    中間の分類器を生成するために前記クラスタリング結果で中間のカテゴリ分類結果を調整する調整・生成部と、
    生成された中間の分類器に対応する調整されたカテゴリ分類結果から選ばれたトレーニングデータを取得するトレーニングデータ選択部とを備えることを特徴とする請求項19に記載の分類器生成システム。
  24. 前記調整・生成手段は、トレーニングデータを初期のトレーニングデータとして使用し、ラフな分類器を初期の分類器として使用するにより、反復分類器学習を実行し、中間の分類器のグループを生成し、当該中間の分類器のグループから最適な分類器を最終的な分類器として選択することを特徴とする請求項17に記載の分類器生成システム。
  25. 前記最適な分類器は、クラスタリング結果に最も一致する分類器であることを特徴とする請求項24に記載の分類器生成システム。

JP2009097929A 2008-04-18 2009-04-14 文書の分類器を生成する方法とそのシステム Expired - Fee Related JP4926198B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200810094208.9 2008-04-18
CN200810094208.9A CN101561805B (zh) 2008-04-18 2008-04-18 文档分类器生成方法和系统

Publications (2)

Publication Number Publication Date
JP2009259250A true JP2009259250A (ja) 2009-11-05
JP4926198B2 JP4926198B2 (ja) 2012-05-09

Family

ID=41220612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009097929A Expired - Fee Related JP4926198B2 (ja) 2008-04-18 2009-04-14 文書の分類器を生成する方法とそのシステム

Country Status (2)

Country Link
JP (1) JP4926198B2 (ja)
CN (1) CN101561805B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198137A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 文書分類装置およびプログラム
JP2013161330A (ja) * 2012-02-07 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> 学習データ生成装置、検索装置、学習データ生成方法、検索方法及びそのプログラム
WO2014097670A1 (ja) * 2012-12-21 2014-06-26 富士ゼロックス株式会社 文書分類装置及びプログラム
JP2015520901A (ja) * 2012-05-25 2015-07-23 クリムゾン・ヘキサゴン・インコーポレイテッドCrimson Hexagon, Inc. カテゴリー割合を算出するシステムおよび方法
WO2020122286A1 (ko) * 2018-12-13 2020-06-18 (주)한국플랫폼서비스기술 자동 분류저장 기술을 이용한 dbms-ai 프레임 워크 및 이를 이용한 자동분류저장 방법
CN113474769A (zh) * 2019-02-20 2021-10-01 日立产业控制解决方案有限公司 图像检索装置以及监督数据提取方法
CN113934848A (zh) * 2021-10-22 2022-01-14 马上消费金融股份有限公司 一种数据分类方法、装置和电子设备

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012095971A1 (ja) * 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
CN102789449B (zh) * 2011-05-20 2016-08-03 日电(中国)有限公司 对评论文本进行评价的方法和装置
CN103246670B (zh) 2012-02-09 2016-02-17 深圳市腾讯计算机系统有限公司 微博排序、搜索、展示方法和系统
CN103246685B (zh) * 2012-02-14 2016-12-14 株式会社理光 将对象实例的属性规则化为特征的方法和设备
CN103324632B (zh) * 2012-03-22 2016-08-03 日电(中国)有限公司 一种基于协同学习的概念识别方法及装置
CN103678643B (zh) * 2013-12-20 2017-02-08 公安部第三研究所 一种针对关联关系的语义区分能力度量方法
CN104809131B (zh) * 2014-01-27 2021-06-25 董靖 电子文档的自动分类系统和方法
CN105631488A (zh) * 2014-09-23 2016-06-01 无锡卓识科技有限公司 一种数字对象分类器生成方法
CA3008462A1 (en) * 2016-04-05 2017-10-12 Thomson Reuters Global Resources Unlimited Company Self-service classification system
CN108536791B (zh) * 2018-03-30 2019-07-30 北京百度网讯科技有限公司 基于神经网络的搜索方法、设备及存储介质
CN109726288A (zh) * 2018-12-28 2019-05-07 上海点融信息科技有限责任公司 基于人工智能处理的文本分类方法和装置
CN109754020B (zh) * 2019-01-10 2020-08-04 东华理工大学 融合多层级渐进策略和非监督学习的地面点云提取方法
CN110399544A (zh) * 2019-06-27 2019-11-01 迪安诊断技术集团股份有限公司 电子病历数字对象分类器生成方法以及最终分类器系统
CN111709293B (zh) * 2020-05-18 2023-10-03 杭州电子科技大学 一种基于ResUNet神经网络的化学结构式分割方法
CN111931875B (zh) * 2020-10-10 2021-10-08 北京世纪好未来教育科技有限公司 数据处理方法、电子设备及计算机可读介质
TWI777496B (zh) * 2021-04-16 2022-09-11 台達電子工業股份有限公司 知識實體識別方法及知識實體識別裝置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078971A (ja) * 1996-09-02 1998-03-24 Canon Inc 文書分類装置及び文書分類方法
JP2001195379A (ja) * 2000-01-14 2001-07-19 Nippon Telegr & Teleph Corp <Ntt> 多数決予測機械の構成方法、多数決予測機械及びその記録媒体
JP2003132332A (ja) * 2001-10-26 2003-05-09 Fujitsu Ltd 学習データ作成支援装置
JP2005182611A (ja) * 2003-12-22 2005-07-07 Fuji Xerox Co Ltd 文書分類方法、文書分類装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1766871A (zh) * 2004-10-29 2006-05-03 中国科学院研究生院 基于上下文的半结构化数据语义提取的处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078971A (ja) * 1996-09-02 1998-03-24 Canon Inc 文書分類装置及び文書分類方法
JP2001195379A (ja) * 2000-01-14 2001-07-19 Nippon Telegr & Teleph Corp <Ntt> 多数決予測機械の構成方法、多数決予測機械及びその記録媒体
JP2003132332A (ja) * 2001-10-26 2003-05-09 Fujitsu Ltd 学習データ作成支援装置
JP2005182611A (ja) * 2003-12-22 2005-07-07 Fuji Xerox Co Ltd 文書分類方法、文書分類装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198137A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 文書分類装置およびプログラム
JP2013161330A (ja) * 2012-02-07 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> 学習データ生成装置、検索装置、学習データ生成方法、検索方法及びそのプログラム
JP2015520901A (ja) * 2012-05-25 2015-07-23 クリムゾン・ヘキサゴン・インコーポレイテッドCrimson Hexagon, Inc. カテゴリー割合を算出するシステムおよび方法
WO2014097670A1 (ja) * 2012-12-21 2014-06-26 富士ゼロックス株式会社 文書分類装置及びプログラム
JP2014123286A (ja) * 2012-12-21 2014-07-03 Fuji Xerox Co Ltd 文書分類装置及びプログラム
AU2013365452B2 (en) * 2012-12-21 2017-05-25 Fujifilm Business Innovation Corp. Document classification device and program
US10353925B2 (en) 2012-12-21 2019-07-16 Fuji Xerox Co., Ltd. Document classification device, document classification method, and computer readable medium
WO2020122286A1 (ko) * 2018-12-13 2020-06-18 (주)한국플랫폼서비스기술 자동 분류저장 기술을 이용한 dbms-ai 프레임 워크 및 이를 이용한 자동분류저장 방법
CN113474769A (zh) * 2019-02-20 2021-10-01 日立产业控制解决方案有限公司 图像检索装置以及监督数据提取方法
CN113934848A (zh) * 2021-10-22 2022-01-14 马上消费金融股份有限公司 一种数据分类方法、装置和电子设备

Also Published As

Publication number Publication date
JP4926198B2 (ja) 2012-05-09
CN101561805A (zh) 2009-10-21
CN101561805B (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
JP4926198B2 (ja) 文書の分類器を生成する方法とそのシステム
Yih et al. Semantic parsing via staged query graph generation: Question answering with knowledge base
Sordoni et al. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion
Yang et al. Large-scale high-precision topic modeling on twitter
Gao et al. Visual-textual joint relevance learning for tag-based social image search
Blanco et al. Entity recommendations in web search
US9846836B2 (en) Modeling interestingness with deep neural networks
US9542652B2 (en) Posterior probability pursuit for entity disambiguation
US8027977B2 (en) Recommending content using discriminatively trained document similarity
US8538898B2 (en) Interactive framework for name disambiguation
Miotto et al. A generative context model for semantic music annotation and retrieval
Zhou et al. A survey on multi-modal social event detection
US8620837B2 (en) Determination of a basis for a new domain model based on a plurality of learned models
JP7257585B2 (ja) 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法
Duan et al. One size does not fit all: Customizing ontology alignment using user feedback
Samadi et al. Openeval: Web information query evaluation
Peng et al. Multimodal ensemble fusion for disambiguation and retrieval
Lin et al. E-commerce product query classification using implicit user’s feedback from clicks
WO2023057988A1 (en) Generation and use of content briefs for network content authoring
Bing et al. Learning a unified embedding space of web search from large-scale query log
Adami et al. Clustering documents into a web directory for bootstrapping a supervised classification
Belattar et al. CBIR using relevance feedback: comparative analysis and major challenges
Manjula et al. Visual and tag-based social image search based on hypergraph ranking method
CN107341169B (zh) 一种基于信息检索的大规模软件信息站标签推荐方法
Anusha et al. Multi-classification and automatic text summarization of Kannada news articles

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110520

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees