JP4774073B2

JP4774073B2 - 文書のクラスタリング又は範疇化のための方法

Info

Publication number: JP4774073B2
Application number: JP2008095354A
Authority: JP
Inventors: ミッシェルレンダースジーン; プリバルトカロリネ; メヌーゲルドビック
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2007-04-06
Filing date: 2008-04-01
Publication date: 2011-09-14
Anticipated expiration: 2028-04-01
Also published as: JP2008257732A; US7711747B2; EP1988478A1; US20080249999A1

Description

本発明は、文書の組織化、検索および保存技術、機械学習技術により生成される確率的範疇化またはクラスタリングモデルのクリーンアップまたは調整、範疇化または分類全般のモデルのクリーンアップまたは調整、ある文書がその分類方式にどれだけうまく適合しているかのランタイム（実行時）評価その他に関する。

一般的に使用される情報組織化手法は、範疇化(カテゴリー化：categorization)とクラスタリングの２つである。範疇化においては、クラス群が事前に定義され、文書は内容の類似度に基づいて各クラスに分けられる。クラスタリングも同様であるが、事前に定義されたクラスがなく、文書は類似性に基づいてグループ分けまたはクラスタリングされ、類似した文書のグループがそのクラス群となる。

確率的手法の一例において、文書はそれぞれ、“ｔｈｅ”や“ａｎ”等の特定の頻出する一般に意味論的に重要でない単語を除くキーワード、単語、トークンまたはその他のテキストの塊の出現回数を保存する単語集合（ｂａｇ−ｏｆ−ｗｏｒｄｓ）によって表される。文書の類似性と相違性は、単語数、比率または頻度の点で測定される。教師ありの手法によれば、モデルはアノテーション付き(annotated)訓練文書の集合に基づいた教師ありの訓練によって生成される。教師なしの手法において、訓練文書は類似性と相違性に基づいて、各種のクラスに分割（パーティショニング: partitioning）される。訓練またはパーティショニングは、クラスを特徴付ける単語数、比率または頻度を示す確率的モデルパラメータを生成する。範疇化はクラスタリングと似ているが、訓練文書をクラスに分類するのではなく、訓練文書が各々に事前にアノテーション(annotation：注釈、注記又はコメント)付けされた識別情報によってクラスに予め割り当てられる点が異なる。範疇化は、「教師あり学習」とも呼ばれる。

米国特許出願公開第２００３／０１０１１８７Ａ１号明細書米国特許出願第１１／３９１，８６４号明細書 "A hierarchical model for clustering and categorizing documents" in Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02), March 25-27, 2002（Computer Science 2291, pp. 229-247に掲載のスプリンガの講義ノート）

自動分類またはクラスタリングでは、結果として得られるモデルは通常良好であるが、文書の中にはそのクラスのいずれにも十分に適合しないものもある。これは、その文書が文書分類スキームに不適当であることを意味する場合とそうでない場合がある、たとえば、その文書は文書分類スキームによってカバーされない主題に関するという点で不適切な場合と、あるいはその文書はカバーされるべき主題に関係しているかもしれないが、その主題が訓練文書集合の中の過少代表である（過小評価されている）ため、過少代表の文書は訓練文書から導き出されたどのクラスのパラメータにも適合しない場合である。範疇化の場合、文書の中には、その文書がアノテーションに基づいて割り当てられるクラス以外のクラスのほうにより適合するように思われるものもある。これは、クラスのアノテーションが誤っている場合とそうでない場合がある。

本願で説明する特定の態様によれば、文書クラスタリングまたは範疇化システムは、文書をクラスに関連付けるモデルを生成するように構成される。この文書クラスタリングまたは範疇化システムは、確率的クラスタラ(clusterer：クラスタリング手段)または確率的カテゴライザ(categorer：範疇化手段)と、アウトライヤ（異常値又は外れ値）度計算機と、グラフィカルユーザインタフェースを備えるコントローラとを備える。コントローラは、（ｉ）文書集合に対して確率的クラスタラまたはカテゴライザを呼び出すことにより、文書をクラスに関連付けるモデルを生成し、（ii）アウトライヤ度計算機を呼び出すことにより、各文書について、その文書が確率的クラスタラまたはカテゴライザにより生成されたモデルにどれだけ適合しているかを示すアウトライヤ度を計算し、（iii）ユーザがグラフィカルユーザインタフェースを使って選択したアウトライヤ基準を満たすアウトライヤ度を有するアウトライヤ文書をグラフィカルユーザインタフェースによってユーザに明示するように構成される。

本願で説明する特定の態様によれば、複数の文書の確率的クラスタリングまたは確率的範疇化を実施して、文書をクラスに関連付けるモデルを生成するステップと、各文書がモデルにどれだけ適合しているかを示す、文書のアウトライヤ度を計算するステップと、計算されたアウトライヤ度とユーザが選択したアウトライヤ基準に基づいて、ユーザに対してアウトライヤ文書を明示するステップを含む方法が提案される。

本願で説明する特定の態様によれば、複数の文書をクラスタリングまたは範疇化して、文書をクラスに関連付けるモデルを生成するステップと、そのモデルの下で各文書が類似性を有するクラス数を表す文書の曖昧度を計算するステップと、その複数の文書の中で、対応する計算された曖昧度により示される、２つまたはそれ以上のクラスとの類似性を有する文書としてユーザに曖昧文書を明示するステップを含む文書クラスタリングまたは範疇化方法が提案される。

図１を参照すると、訓練文書集合１０が文書選択と任意のアノテーション付けインタフェース１２に入力される。ユーザは、グラフィカルユーザインタフェース１４を備えるコントローラを通じて、クラスタリングまたは範疇化プロセスを制御することができ、ユーザインタフェース１４は、図の実施例において、適当なグラフィカルユーザインタフェース（ＧＵＩ）ソフトウェア１８を実行するコンピュータ１６として構成されている。コンピュータ１６は、デスクトップコンピュータ、ラップトップまたはノートブックコンピュータ、ダム端末（dumb terminal:端末専用機）を通じてアクセス可能なメインフレームコンピュータその他とすることができる。ＧＵＩソフトウェアは、たとえば、Ｘウィンドウ環境を実行するＬｉｎｕｘ，ＵＮＩＸ（登録商標）またはその他のグラフィクスに基づくオペレーティングシステムや、ＭａｃＯＳ（カリフォルニア州クパチーノのＡｐｐｌｅ社製）またはＷｉｎｄｏｗｓ（登録商標）オペレーティングシステム（ワシントン州レッドモンドのＭｉｃｒｏｓｏｆｔ社製）の下で動作するユーザインタフェースソフトウェアとすることができる。あるいは、ＧＵＩソフトウェア１８は、統合されアノテーションラフィカル表示機能を有してもよく、コマンドラインに基づくオペレーティングシステム上で実行してもよい。１回目のパス（pass:実行、走査）において、ユーザは文書選択インタフェース１２を使って、訓練文書集合１０を構成する文書を選択する。文書選択インタフェース１２は、更に、訓練文書集合１０の事前フィルタリングによって分類に適していない文書を排除する等、他の機能を実行してもよい。たとえば、分類が英語の文書について行われる場合、事前フィルタリングによって英語以外の言語で書かれた文書が排除される。同様に、事前フィルタリングにより、選択された日付範囲以外の文書、あるいはその他の不要な特性を有する文書を取り除くことができる。クラス識別で事前にアノテーション付けされた文書を使って教師ありの文書範疇化を行う場合、ユーザは文書選択インタフェース１２からそのアノテーション（注釈）を適切に適用する。ある実施例では、文書集合の中の一部の文書だけがクラスアノテーションによって事前にアノテーション付けされており、この場合は半教師あり学習となる。

必須ではないがその一部または全部がクラスアノテーションを有する文書が、確率的カテゴライザすなわち確率的分類器２０（以下、確率的カテゴライザまたは分類器２０、と呼ぶ）に入力される。ある実施例において、確率的カテゴライザまたは分類器２０は、確率的潜在意味解析（ＰＬＳＡ:probabilistic latent semantic analysis）を使ってクラスタリングを行う。別の実施例において、確率的カテゴライザまたは分類器２０は、確率的潜在的範疇化（ＰＬＣ: probabilistic latent categorization）を使って分類を行う。確率的カテゴライザまたは分類器２０は、ある実施例において、２つのモードで動作する。つまり、範疇化を実行する教師あり学習モードと、クラスタリングを実行する教師なし学習モードである。ある実施例においては、半教師あり学習を提供する中間的モードも利用できる。ある実施例において、動作モードは、文書に対する制約によって決定される。つまり、すべての文書が学習の制約となるクラス識別で事前にアノテーション付けされている場合は、教師あり学習または範疇化が行われる。事前にアノテーション付けされた文書がなければ、クラスタリングが行われる。クラス識別で事前にアノテーション付けされた文書とされていない文書がある場合、半教師付き学習モードが実行される。ある実施例においては、単純ベイズ(naive Bayes)生成モデリングまたは潜在的ディリクレ割当（ＬＤＡ: latent Dirichlet allocation）生成モデリング等、別のクラスタリングまたは分類アルゴルリズムが使用される。ある実施例において、階層的ＰＬＳＡ（ＨＰＬＳＡ: Hierarchical PLSA）等の階層的クラスタリングまたは分類アルゴリズムが使用される。確率的カテゴライザまたは分類器２０は、事前設定された潜在クラス数または事前にアノテーション付けされた文書クラス識別等のモデリングパラメータ２２を考慮して、訓練文書集合１０を処理し、クラス群３０を含むモデル２４を生成する。生成されたモデルには、各クラス３０に関する確率的または統計的情報が含まれており、更に親子のノード間のリンクに関する情報等、他のパラメータや情報が含まれていてもよい。

ＰＬＳＡまたはＰＬＣクラスタラまたはカテゴライザの一例において、文書は「単語集合（ｂａｇ−ｏｆ−ｗｏｒｄｓ）」フォーマットで表される。ある文書について、その単語集合表現は、語彙中の単語(vocabulary words：以下「語彙単語」という)とその単語に対応する出現回数との集合又は集まりである。語彙単語またはトークン(token：字句単位)の集まりは、その文書内のすべての単語またはトークンを含む集合であってもよく、また、文書中から選ばれた単語またはトークンの部分集合であってもよい。後者の場合の部分集合は、例えばその文書の中に少なくとも基準回数は出現する単語またはトークンからなる部分集合、或いは“ａｎｄ”や“ｔｈｅ”等の特定の一般的単語またはトークンを除いたその文書中の単語またはトークンからなる部分集合、或いは基準値を超える数の文字を含む単語からなる部分集合、等々である。本願において、「単語」や「トークン」という用語は、確率的または統計的解析のために文書を分解するのに用いられるあらゆる選択された文字列またはテキストの塊を包含するように、広く、相互交換可能に解釈されるものとする。たとえば、「単語」または「トークン」は、本願においては、本明細書中で使用している通り、単独の言語学的単語、句（フレーズ）、文（センテンス）、ｎグラム（n-gram: ｎ個の連続する単語のグループ）、名詞句または固有表現(named entity)等の自然言語の文法的要素、その他に対応する。ある実施例において、ＰＬＳＡまたはＰＬＣフレームワークは、クラス３０に関連付けられたクラス確率Ｐ（Ｃ）（本願において、クラスは総括的に記号“Ｃ”または“ｃ”で表す）、クラス条件付き文書確率（またはプロファイル）Ｐ（ｄ｜Ｃ）（本願において、文書は総括的に記号“ｄ”で表す）およびクラス条件付き単語確率（またはプロファイル）Ｐ（ｗ｜Ｃ）（本願において、語彙単語またはトークンは総括的に記号“ｗ”で表す）の確率的または統計的パラメータを利用する。ある確率的または統計的パラメータの定義を（１）式に示す。
ここで、Ｎは文書集合１０の全体における語彙単語の出現回数（１つの単語が複数回反復される場合は延べ回数とする）、Ｎ_Cはカテゴリ“Ｃ”に属するすべての文書における単語の出現回数、｜ｄ｜は文書“ｄ”における単語の出現回数、Ｎ_wCは、カテゴリ“Ｃ”に属する文書における特定の単語“ｗ”の出現回数である。同様に、モデルは確率的パラメータＰ（ｄ）とＰ（ｃ｜ｄ）（つまり、文書ｄがクラスｃに属する可能性）を用いることができる。これらは例であり、別の、あるいは他の確率的または統計的モデルパラメータを使用してもよい。「最尤法」(maximum likelihood)の手法は、確率的または統計的パラメータの計算方法の一例である。最大事後確率判定法(maximum a posteriori approach)等、その他の手法を用いれば、別の確率的または統計的パラメータ式が得られる。ある実施例において、確率的または統計的モデルパラメータは正規化またはその他の方法で修正され、計算面が改善される。（１）式の確率的または統計的パラメータは比率である。しかしながら、記憶された確率的または統計的モデルパラメータは、Ｎ_Cまたは｜ｄ｜等の実際のカウント値であり、所望の比率が実際のカウント値から容易に計算できることがわかる。

フラット(flat：一律的)な範疇化では、訓練文書１０は事前にアノテーション付けされており、（１）式のパラメータに含まれるようなパラメータは容易に計算できる。文書のクラス割当が事前アノテーション付けから完全に決定されないようなクラスタリングその他の学習の場合、文書は、選択された期待値最大化（ＥＭ:expectation maximization）等の最適化基準を満足するように、潜在クラスにクラスタリングされる。クラスタリングアルゴリズムは、各クラスの文書が実質的に類似の単語集合表現（bag-of-words representation)を有することとなるよう、文書の集まりを複数のクラスにグループ分けまたはクラスタリングすることを試みる。あるクラスのクラス条件付き単語確率は、そのクラスに属する他の文書の単語集合表現について何が期待されるかを示す確率的または統計的な期待値となる。ハードクラスタリング(hard clustering)またはソフトクラスタリング(soft clustering)のいずれを使用してもよい。ハードクスタリングの場合、各文書は１つのクラスに割り当てられる。（１）式に関して、ハードクラスタリングでは文書“ｄ”が割り当てられていないすべてのクラスはＰ（ｃ｜ｄ）＝０という結果となり、文書“ｄ”が割り当てられたクラスについてはＰ（ｃ｜ｄ）＝１となる。ソフトクラスタリングの場合、文書は部分的に複数のクラスに属することがあり、この場合、Ｐ（ｃ｜ｄ）は０と１の間の数値を有し、数値が大きいほど、文書“ｄ”がそのクラスに分類される確率が高いことを示す。

結果として得られるモデル２４は、クラス条件付き単語確率Ｐ（ｗ｜Ｃ）等の選択された確率的または統計的パラメータをそれぞれ有するクラス群３０を含む。文書集合１０が代表として適当であれば、クラスＣ₁の例のクラス条件付き単語確率、Ｐ（ｗ｜Ｃ₁）は、クラスＣ₁の文書の代表であるはずである。範疇化の場合、文書１０が代表であることに加え、アノテーション付けがされたクラス識別が正しいという条件にも当てはまらなければならず、つまり、アノテーション付けによってあるクラスに割り当てられた文書はそのクラスの代表であるはずである。

生成されたモデル２４は、訓練文書集合１０に含まれていなかった新しい文書“ｄ_new”を分類するのに使用できる。新しい文書“ｄ_new”は、文書条件付き単語確率Ｐ（ｗ｜ｄ_new）を有し、Ｐ（ｗ｜ｄ_new）は文書ｄ_newの中での語彙単語“ｗ”の出現回数を文書“ｄnewス群３０の中のクラスＣ₁に属する場合、文書条件付き単語確率Ｐ（ｗ｜ｄ_new）は対応するクラス条件付き単語確率Ｐ（ｗ｜Ｃ₁）に類似しているべきである、という状況に従うはずである。このモデルによって、新しい文書“ｄ_new”を、ハードパーティショニングの場合にはクラス３０の中の最も近い１つに、またソフトパーティショニングの場合は最も近い１つまたは複数のクラスに割り当てるための確率的または統計的根拠または尺度が得られる。

一般に文書集合１０は実質的に代表的であると期待され、（範疇化の場合）アノテーション付けされたクラス識別情報が正しいと期待されるものの、本願においては、これに当てはまらない場合がある点を認める。たとえば、ある無関係の文書が訓練文書集合１０に含められているかもしれない。このようなケースの例として、スポーツに関する訓練文書集合に政治に関する文書が１つ偶然に含まれてしまった場合を考える。政治に関する文書はクラス３０の中のどれにもあまり適合しそうもない。同様に、ある範疇化の例において、ゴルフに関する文書に誤ってテニス関連とアノテーション付けされた場合、誤ってラベリングされたゴルフ関連の文書に関する文書条件付け単語確率Ｐ（ｗ｜ｄ）は、テニスのクラスのクラス条件付け単語確率から大きく逸脱する可能性が高い。

別の例として、スポーツに関する文書のクラスタリングで、「テニス」、「ゴルフ」、「クリケット」、「野球」、「バスケットボール」、「サッカー」の６つのスポーツに関する文書があり、事前設定されたクラス数２２が５つしかない場合を考える。詳細なクラスタリング処理によって異なるが、考えられる結果の１つとして、「テニス」、「ゴルフ」、「クリケット」、「野球」、「バスケットボール」の５つのスポーツに関する文書は設定されている５つの潜在クラスに適正にクラスタリングされるが、６番目のスポーツである「サッカー」に関する文書については当てはまるクラスがないため、不適正ではあるが、５つの既存の潜在クラスに入れられる。このような場合、「テニス」、「ゴルフ」、「クリケット」、「野球」、「バスケットボール」に関する文書はそれぞれカテゴリに良好に適合する（つまり、文書条件付き単語確率が対応するクラス条件付き単語確率と良好に整合する）が、「サッカー」に関する文書は実質的に、それらほど良好には適合しない。

さらに図１を参照すると、文書集合１０あるいはモデリングパラメータ２２におけるこのような不備は、クラスタリング後に下記のようなクリーンアップシステムによって対処される。アウトライヤ度計算機３２が文書集合１０中の文書に関するアウトライヤ度を計算し、このアウトライヤ度に基づいて、アウトライヤ閾値処理装置(outlier thresholder)３４またはその他のアウトライヤ識別アルゴリズムがアウトライヤ度によって示されるモデル２４に不適合なアウトライヤ（外れ）文書を対話的に特定する。ある実施例において、アウトライヤ閾値処理装置３４は、ユーザ自身がアウトライヤ度と比較してどの文書をアウトライヤとみなすかを判断するためのアウトライヤ閾値を選択できるという意味で対話的に動作する。アウトライヤ閾値処理装置３４またはその他のアウトライヤ識別アルゴリズムは、アウトライヤ文書識別情報３６を出力し、これがＧＵＩインタフェース１４を通じてユーザに表示または提示される。

アウトライヤ度計算機３２に加え、曖昧度計算機４２を設けてもよい。曖昧度計算機４２は、文書が確率的または統計的にモデルの複数のクラスに類似するという点で曖昧であるかを示す、文書の曖昧度を計算する。アウトライヤ文書と曖昧文書の違いは、アウトライヤ文書がモデル２４のどのクラスにも適合しないのに対し、曖昧文書はモデル２４の複数のクラスに適合する点である。曖昧文書は、単位元(unity：例えば「１」)等の閾値より高い曖昧度を持つ。曖昧性閾値処理装置４４またはその他の識別アルゴリズムが曖昧度に基づいて曖昧な文書４６を識別し、識別された曖昧文書４６が任意でＧＵＩインタフェース１４を通じて表示されるか、その他の方法でユーザに示される。

教師ありまたは半教師あり学習の場合、文書はクラスラベルでアノテーション付けされることがある。このような場合、クラスラベルの正確さも任意で考慮される。ミスラベリング可能性識別装置(possible mislabeling identifier)５０は、ラベリングされたクラスより他のクラスのほうによりよく適合する文書をミスラベリング（ラベル付け誤り）の可能性がある文書として識別するために、ミスラベリング被疑文書(possible mislabeling document)５２を識別し、よりよく適合するクラスが修正クラスラベルとして提案される。

アウトライヤ文書識別情報３６、曖昧文書識別情報４６およびミスラベリング可能性識別情報５２（ただし情報４６及び５２は必須ではない）は、ＧＵＩインタフェース１４を通じてユーザに表示される。アウトライヤ文書は、これらがアウトライヤ度によって示されるように、モデル２４に適合しないという点でアウトライヤである。しかしながら、アウトライヤの状態の程度は容易にはわからない。アウトライヤ文書は訓練文書集合１０の中に含まれるべきではなかった文書とする場合がある。たとえば訓練文書集合はスポーツ関連の文書で、アウトライヤ文書は、その中に含められるべきではない金融関連の文書という場合である。これに対し、アウトライヤ文書は、含められるべきものであるが、訓練文書集合１０中で過少代表である（過小評価された）クラスに属する文書という場合もある。たとえば、訓練文書集合はスポーツ関連文書で、アウトライヤ文書はクリケットに関する１つの文書または数個の文書であり、文書のサンプルが少なすぎて「クリケット」のクラスの項目の十分な代表とはならない。このような場合、修復措置として適切なのは排除することではなく、訓練文書集合にクリケットに関する別の文書を追加して、クリケットを含むスポーツという主題の分野全体をよりよく代表するような、新たな訓練文書集合１０を作ることである。さらに別の可能性として、クラスタリングが適用され、事前設定されたクラスの数が訓練文書集合１０の中の実際のクラスの数より少ない場合は、訓練文書集合１０において十分な代表といえる分野の文書であっても、モデル２４に適合しない。たとえば、訓練文書集合はスポーツ関連の文書で、アウトライヤ文書はクリケットに関する文書の十分なサンプリングであるが、事前設定されたクラス数が少ないと、これらのクリケット関連の文書は、他の種類のスポーツを代表するその他のクラスに割り当てられる可能性があり、その結果、モデル２４についてのアウトライヤとなる。この場合、最善の修復措置は、クリケット文書の排除でも、別のクリケット文書の追加でもなく、事前設定されたクラス数を増やし、クリケット文書を収容できるようにすることである。

アウトライヤ文書の処理方法を自動的に決定しようとする代わりに、アウトライヤ文書識別情報３６をＧＵＩインタフェース１４からユーザに提示する。するとユーザは、排除すべきアウトライヤ文書を選択するか、あるいは訓練文書集合１０に別の文書を追加してより代表的な新しい文書集合を作ることを選択するか、あるいは事前設定されたクラス数２２またはその他のモデルパラメータを変更することを選択するか、等の処理を行うことができる。曖昧文書識別が行われる範疇化の場合には、ユーザは曖昧文書を別のクラスに割り当てることを選択できる。ユーザが選択した変更を行うと、確率的分類器またはカテゴライザ２０は、ユーザによる変更を取り入れた訓練文書集合について再び呼び出され（すなわち再び処理を実行し）、文書集合１０のよりよい代表となる新たなモデルが生成される。文書集合は再び、新たなモデルを使って解析されることで、アウトライヤ文書が識別される。また、必須ではないが、曖昧文書が識別されるようにしてもよい。このプロセスは任意で２回またはそれ以上反復されることで、最終的にユーザが結果として得られるモデルに満足し、モデルを受け入れられるようにする。受け入れられたモデルはその後の文書の検索、新規文書の分類その他に利用できる。

図１を参照してクリーンアップ（片づけ）コンポーネントを有する文書組織化システムを説明したところで、次にいくつかの実施例について詳細に説明する。

以下に説明する実施例は、クラスタラまたはカテゴライザ２０として確率的潜在カテゴライザ（範疇化用）または確率的潜在意味解析器（クラスタリング用）を使用する。｛項、文書｝マトリックス（すなわち、観察したものからなる総数により正規化した後の「項と単語との経験な同時分布(empirical joint distribution)」）は、多項式の混合を使ってモデル化される。
この実施例について用いられる確率的または統計的モデルパラメータは、各クラスＣについての確率Ｐ（Ｃ）、各クラスＣに対する各文書ｄの確率Ｐ（ｄ｜Ｃ）、各クラスＣに対する各単語ｗの確率Ｐ（ｗ｜Ｃ）であり、クラスの「プロファイル」とも呼ばれる。代数的定義は（１）式で示される。これらのパラメータは、教師なし、半教師あり、または教師あり訓練段階中に、期待値最大化アルゴリズムの変形またはその他の適当な最適化手段を使ってデータの可能性を最大化することによって得られる。たとえば、このような周知の技術の説明はゴシエ(Gaussier)らの"A hierarchical model for clustering and categorizing documents" in Advances in Information Retrieval - Proceedings of the 24^th BCS-IRSG European Colloquium on IR Research (ECIR-02), March 25-27, 2002（スプリンガ(Springer)によるComputer Science 2291, pp. 229-247に掲載の講義ノート）を参照のこと。

モデル２４には、たとえば木構造として配置された階層的なクラス群３０を含めてもよい。クラスタリングで階層的構造を提供するための方法の一例によれば、クラスタラまたはカテゴライザ２０がクラスタリングモードで使用され、文書をクラスタリングしてフラットモデル(flat model)を生成し、次に、それぞれ２つまたはそれ以上の葉クラスを包含する中間クラスであってそれら２以上の葉クラスについてのノードとして機能する中間クラスを追加することにより、フラットモデルのクラスを階層的に組織化する。教師なしの訓練では、フラットクラスに関する確率的または統計的モデリングパラメータを生成し、これが木状の階層構造における葉にあたる。階層の葉クラスは直接文書に関連付けられる。葉クラスが直接または間接的に依存する中間クラスもまた、確率Ｐ（ｃ），Ｐ（ｄ｜ｃ），Ｐ（ｗ｜ｃ）（ただし、ここで小文字の“ｃ”は非葉(non-leaf)クラス（葉でないクラス）を示す）等の関連付けられた確率的モデリングパラメータを有する。非葉クラスに関する１つの計算的に簡単な方法において、すべての非葉クラスｃについてＰ（ｃ）＝０であり、非葉クラスｃにはどの文書も直接含まれず、Ｐ（ｄ｜ｃ）とＰ（ｗ｜ｃ）はその子または子孫の対応するパラメータの加重平均である。つまり、
（ただし、Ｃ↓ｃはＣがｃの子孫であることを示す）・・・（３）
であり、
（ただし、Ｃ↓ｃはＣがｃの子孫であることを示す）・・・（４）
となる。階層構造を生成するための別の方法では、初期クラスタリング動作の後に、２つまたは複数の話題（トピック）を包含する選択されたクラスについて、クラスタラ２０の処理を再実行し、葉クラスを生成する。選択されたクラスの文書は次に、葉クラスに移動され、選択されたクラスが空になるようにし、文書は生成された葉クラスに含められる。範疇化に適したさらに別の手法において、葉ノードまたは葉クラスと非葉ノードまたは非葉クラスを含む階層構造全体が、ユーザによって、文書集合に関するクラスアノテーションとともにア・プリオリに提供され、教師あり訓練は、階層構造に一切変更を加えることなく、ユーザによって提供されたクラスアノテーションと階層的リンクを尊重する。この場合の教師あり学習の結果は本来的に階層的であるが、これは、ユーザが提供した階層が、教師あり学習プロセスにおいて尊重されるからである。ゴシエらの米国特許出願公開第２００３／０１０１１８７Ａ１号は、その他のソフト階層クラスタリング方式を開示している。上記のものは単に例にすぎず、モデルを階層化するその他の方式も使用できる。

クラスタラまたはカテゴライザ２０を最初に実行させた後に、各文書はいわゆるbag-of-words（単語集合）の表現（以下、ｂｏｗと略す）をサポートする（利用できる）処理済みの形態にある。ｂｏｗでは、文書は単語頻度ベクトル、リストその他によって表現され、文書中の単語の位置は無視される。たとえば、適当な単語頻度ベクトル表現は、
であり、ここで、ｗ_iは単語、ｎ（ｗ_i）は文書ｄにおけるこの単語の出現回数である。Ｗをモデルの辞書または語彙集、つまり、文書集合またはグループ１０内のすべての単語集合について出現する語彙単語の集合とする。ある実施例においては、頻度が少ない単語、あるいは短い単語、等の一部の単語は取り除かれ、モデル構築時に辞書または語彙集の中に含められない。また、ある実施例においては、語彙単語以外の単語はｂｏｗ表現の中に保持され、ｂｏｗ表現が語彙集Ｗの中の含まれないいくつかの単語ｗ_iを含むことになる。必須のことではないが、計算の効率化のためにこれらの排除された複数の単語を「未知の単語」と呼ばれる１つの架空の単語としてまとめてもよく、この場合、語彙に含まれない単語の数をカウントするだけでよく、メモリに残しておかなくてよいことになる。

引き続き図１を参照しながら、クリーンアップ（片づけ、あるいは整頓）とモデル適合品質解析のさまざまな面、つまり、アウトライヤ解析、曖昧文書解析およびミスラベリング被疑文書解析を上記のモデル例に関してひとつずつ説明する。

まず、アウトライヤ性(outlierness)の尺度の例を考えると、確率マトリクスｐ（ｃ｜ｄ）は、（文書の）集まりの中の各文書ｄに関するモデルからア・ポステリオリ（事後的）に適切に計算される。これらの確率を用い、文書ｄがデータセットからどれだけ離れているか、あるいは言い換えれば、訓練集合１０全体とモデル２４を見て、どれだけ似ているかを示すアウトライヤ度を計算する。２つのアウトライヤ度計算式の例をここで示す。一つは、文書ｄの経験的単語分布とモデル２４によって予想される分布との間のクロスエントロピーまたは負の対数尤度(negative log-likelihood)に基づくので、
であり、もう一方は、これらの２つの分布の間のカルバック・ライブラー・ダイバージェンス(Kullbach-Leibler divergence)に基づくので、
、ただし、H(d)はエントロピーであり、
である。一般に、１つのアウトライヤ度公式（たとえば、ＣＥまたはＫＬあるいはその他の選択されたアウトライヤ度公式）を用いて、アウトライヤ度を計算する。ＣＥとＫＬは両方とも本願において、２つの異なる例を挙げるために示される。（６）式、（７）式における総和演算はすべての単語にわたっての総和、すなわち語彙集Ｗと架空の「未知の」単語の両方にわたっての総和である。文書の長さ｜ｄ｜は、文書“ｄ”における単語出現総数（すなわち単語の総出現回数）であり、「未知の」単語の出現も含まれる。項
は次のように生じる。たとえばＰＬＳＡまたはＰＬＣ解析では、平滑化メカニズムは含まれない。項
は、「未知の」単語の存在を考慮に入れている。適当な方法において、ジェリネク・マーサー(Jelinek-Mercer)平滑化方式を適用し、項
は次のように定義される。
ディリクレ平滑化または絶対ディスカウンティング(absolute discounting)等、その他の手法も利用できる。（８）式において、ｐ（ｗ_i｜ｃ）は、非平滑化(non-smoothed)ＰＬＳＡアルゴリズムによって予想されるパラメータ値である。項ｐ（ｗ_i｜ｃ）は、架空の「未知の」単語についてはゼロである。項ｐ_b（ｗ_i）は、単語に関するバックオフ(back-off)分布である。バックオフ分布ｐ_b（ｗ_i）については各種の合理的な選択があり、たとえば、未知の単語についてはｐ_b（ｗ_i）＝１、すべての語彙単語Ｗについてはゼロ、あるいはすべての指数ｉについて均一に
とすることができる。これらのバックオフ分布の例はどちらも、（８）式のためのα平滑化係数を適正に選択した場合と同様の結果が得られることがわかっている。

（６）式のアウトライヤ度計算式を使って計算されたアウトライヤ度、あるいは（７）式のアウトライヤ度計算式を使って計算されたアウトライヤ度は、文書ｄが、文書集合１０に内在する分布すなわちモデル２４によって生成される可能性がどれだけあるかを評価するものである。（６）式と（７）式の２つのアウトライヤ度計算式の例はどちらも０から＋∞の範囲であり、「（モデル２４により生成される）可能性が高い」文書の数値は理論的にはゼロであり、可能性が低い文書、つまりアウトライヤ文書の数値は大きくなる。カルバック・ライブラー・ダイバージェンスＫＬ（ｄ）は、特徴空間における文書ｄの経験的位置と理想的位置（つまり、モデル２４によって平滑化または予想される位置）との間の距離として見ることができる。

アウトライヤ度計算式の例のいずれも、アウトライヤ度計算機３２によって適切に計算され、訓練文書集合１０の文書のランク付けが行われる。次に、アウトライヤ閾値処理装置３４は、そのアウトライヤ度が閾値を超える文書として、アウトライヤ文書識別情報３６を発生する。閾値は一定で、たとえばＫＬ（ｄ）＞Ｔ（ただし、Ｔは固定閾値）とすることができる。あるいは、閾値は、そのアウトライヤ度が、たとえば上位１％または５％などと、訓練文書１０のうちの選択された上位パーセンタイル値（百分位数値）にあたるように選択するものと定義される可変閾値とすることができる。アウトライヤ文書識別情報３６は、ＧＵＩインタフェース１４を通じてユーザに提示される。

図２を参照すると、クロスエントロピーアウトライヤ度の累積ヒストグラム（（６）式に示されるＣＥ（ｄ））が、１７３２個の文書の訓練集合についてプロットされる。この文書集合に関して求められた最大のＣＥアウトライヤ度は８．２９であり、文書の１００％において、関連するアウトライヤ度は１．７９またはそれより大きかった。このような累積ヒストグラムにより、たとえば、そのアウトライヤ度が４である文書の「可能性」のパーセンテージはほぼ８０％（つまり、アウトライヤ性は２０％）である。図２のデータセットについて、ＣＥ（ｄ）＞６．１５のアウトライヤ閾値は、そのアウトライヤ度が上位５パーセンタイルに入るようにアウトライヤ文書を定義することに対応する。

次に、曖昧性測定の例について以下に説明する。任意の曖昧性計算機４２の中にはクラスエントロピーの指数関数を利用しているものがあり、期待値最大化アルゴリズムを通じてＰＬＳＡまたはＰＬＣ解析によって特定される文書ｄについてのＰ（ｃ｜ｄ）の数値を使用する。結果として得られる曖昧度計算式の例は、
であり、
Ａｍｂｉ（ｄ）は文書ｄの曖昧度である。この曖昧度の数値例は、１またはそれ以上である。Ａｍｂｉ（ｄ）＝１の場合、文書ｄはそのモデルの下での１つのクラスに完全に割り当てられ、曖昧性なしの限界を表す。この式を使用した最大曖昧度は、Ａｍｂｉ（ｄ）＝Ｋ（Ｋはクラスの数）であり、これは文書ｄがそのモデルの下でクラス３０のいずれに属する可能性も同じであることを示す。実際、曖昧度は、文書がそのモデルの下で類似性を有するクラスの数を示し、曖昧性のない分類の場合、この曖昧度は１に近いはずである。

次に、ミスラベリング可能性識別の例について説明する。教師ありまたは半教師あり学習の場合、文書のラベル付けが誤っていると、曖昧度を使ってこの状況を検出し、これをユーザに提示することができる。適当な手法によって確率的モデルが生成される。次に、文書集合１０の各文書ｄについて、モデル２４を使って
の予想値、アウトライヤ度（たとえば、（６）式に示されるＣＥまたは（７）式に示されるＫＬを使用する）および曖昧度Ａｍｂｉ（ｄ）を計算する。
の数値は、クラスｃに沿って数値の大きいほうから小さいほうにランク付けされる。次に、ｃ_labelをｄに相互に割り当てられたカテゴリラベルの指標、ｒ_labelを分類された
リストにおけるそのランクとして定義して、ミスラベリング可能性識別装置５０によって次のアルゴリズムが適用される。アウトライヤ閾値処理装置３４が、文書ｄはアウトライヤ文書ではないと示した場合、およびさらに、曖昧度閾値処理装置４４が（ｒ_label−Ａｍｂｉ（ｄ））＞Ｔａ（Ｔａは曖昧さについての選択された閾値）（たとえば、（９）式の曖昧度計算式を使って適当なＴａ＝０．５）であると示した場合、文書ｄはミスラベリングの可能性があると考えられ、文書ｄの識別は、ミスラベリング被疑文書識別６２の集合に含まれる。この場合、別のクラス
がＧＵＩインタフェース１４を通じて、修正のための別カテゴリ（修正の候補）としてユーザに提案される。条件（ｒ_label−Ａｍｂｉ（ｄ））＞Ｔａが満たされない場合、文書ｄはラベルが適正に貼られている可能性があるとみなされる。ある実施例において、ミスラベリング文書識別に関する修正措置は、ユーザが、ミスラベリング被疑文書ｄについてのモデル提案ｃ₁を確認（採用）または無効化（不採用）できるようにすることである。その後、新しい範疇化において、新しいクラス割当ｃ₁を事前設定されたモデルパラメータとして使用する。

階層モデルでは、コンポーネントの単語プロファイルは、階層の異なる段階から導出される。つまり、ある文書において使用される単語は、葉ノードまたは葉クラスと関連付けられるだけでなく、木構造クラス階層内の葉クラスの階層的先祖とも関連付けられる。ある実施例において、階層モデルは、
として示され、ｖ≧ｃはｃそのものを含むノードｃのすべての先祖を示す。階層レベルは、異なる語彙レベルと考えることができ、これはアウトライヤ度の拡張と階層化のための閾値処理に関して興味深く、有用な面を提供する。訓練文書集合１０に関してまったく無関係な文書を考える。この文書は、英語で書かれているという事実以外、それが他の文書と類似性を持たないという意味でまったく関係がない。しかしながら、言語の共通性により、これらの文書は本来的に訓練集合１０の文書と何らかの類似性を共有することが確認される。なぜなら、これらはすべて英語で書かれているからである。「一般的な英語」という類似性要素を排除することにより、アウトライヤ検出アルゴリズムの精度を高めることができる。より一般的には、この手法は、階層の異なるレベルまたは部分に適用することができる。たとえば、アウトライヤ文書は、階層木構造のうちのいくつかの選択された枝（branch）の中に検出されるかもしれない。たとえば、ある文書が何らかの広い話題に属すると事前に知っている場合、その文書がその広い話題におけるアウトライヤ文書か否かを判断することが有益であろう。以下において、アウトライヤ分析は、高位ノードμに関して条件付けされる。高位ノードμは、根ノード、あるいは中間ノードとすることができる。以下の階層拡張子は、それぞれの例のＣＥとＫＬのアウトライヤ度について次のように導出することができる。
ただし、
、また、
アウトライヤ度計算機３２、曖昧性計算機４２およびミスラベリング被疑文書識別装置５０のいくつかの例を示したところで、次に、ＧＵＩインタフェース１４のユーザ応答構成の例を紹介する。アウトライヤ文書に関しては、考えられる応答として、（i）アウト
ライヤ文書を排除する（カタログに入れられる予定の主題とは関係がない場合に適当な応答）、（ii）アウトライヤ文書に類似する別の文書を追加する（アウトライヤ文書が文書
集合１０の過少代表である主題と関係がある場合に適当な応答）、アウトライヤ文書をグループにまとめる（生成されたモデルがアウトライヤ文書により代表されるクラスを捕捉しなかったと思われる場合に適当な応答）、あるいは潜在クラスの数を変更する。曖昧文書の場合、ユーザは曖昧文書にラベルを肯定的に割り当てることができる。ラベリングが誤っている文書の場合、ユーザは修正ラベルを割り当てることができる。このようなユーザによる調整が行われると、更に、変更された文書集合（つまり、ユーザが特定のアウトライヤ文書を削除するか、ユーザが別の文書を追加したもの）についてモデリング（モデル化）を繰り返してもよく、更に、ユーザが追加した制約条件（特定の文書に関する修正済みまたは追加されたクラスラベルまたは変更された潜在クラスの数等）を用いてモデリングを繰り返してもよい。モデリングを繰り返すことによって新たなモデルが得られ、このモデルは再びアウトライヤ文書、曖昧文書およびミスラベリング被疑文書について解析され、ユーザにとって容認できるモデルが得られるまで、この工程が繰り返される。

図３を参照すると、ユーザに、アウトライヤ文書識別３６がユーザの入力によって反復的に行われるプロセスレポートを提供するのに適したＧＵＩディスプレイが描かれている。ディスプレイの主要部分には、５つのタイトルがつけられた欄、つまり、「文書名」７０、「信頼スコア（％）」７２、「クラスタ／カテゴリ」７４、「確率」７６、「ミスラベリング」７８がある。「文書名」の欄７０は、文書を特定する情報である。「信頼スコア（％）」の欄７２は、パーセンテージで表されるアウトライヤ度を表し、ディスプレイの右下隅のスライダ７９によって設定される閾値より低い数値はグレー表示され、グレーの量が信頼性の欠如を示す。「クラスタ／カテゴリ」の欄７４は、その文書が割り当てられるクラスを表す。このクラスは、教師なしモード（つまり、クラスタリングモード）におけるモデルによって計算されたクラスタか、あるいは教師ありモード（つまり、範疇化モード）においてユーザにより割り当てられた事前アノテーション付けされたカテゴリのいずれかである。「確率」の欄７６は、ア・ポステリオリ（事後）確率をパーセンテージで明示する。ア・ポステリオリ確率とは、モデルにより計算される、文書が欄７４において特定されたクラスに属する確率Ｐ（ｃ｜ｄ）である。「ミスラベリング」の欄７８は、教師ありまたは半教師あり学習のみにおいて、ミスラベリング可能性識別装置５０が文書をミスラベリング可能性ありと識別した場合に提案される新しいクラス割当を示す。ディスプレイにはまた、右側に選択ボタンがあり、たとえば、「ファイルを追加して再構築」ボタン８０、「選択された文書を削除して再構築」ボタン８２、「アウトライヤをグループにまとめて再構築」ボタン８４（クラスタリング動作に適している）、「クラスタ数を変更して再構築」ボタン８６、「アウトライヤにラベルを貼って再構築」ボタン８８（半教師ありクラスタリング動作に適する）、「ミスラベルを修正して再構築」ボタン９０（教師あり範疇化動作に適する）がある。チェックボックス欄９２は各文書名の左側のチェックボックスであり、ユーザはどの動作をどの文書に適用するかを選択できる（つまり、追加、排除、まとめ、ラベリング、またはミスラベリング修正）。

図３のＧＵＩディスプレイによって実現する半自動工程では、アウトライヤ文書（そして任意でミスラベリング被疑文書）の識別が自動化されるが、これらの識別されたアウトライヤまたはミスラベリング被疑文書について何をするかの選択は、ユーザにゆだねられる。この考えは、完全自動化工程を実現するのではなく、ユーザに対して文書集合１０の中の特定の文書を指し示し、ユーザが修正または調整を行ってから、新しいクラスタリングまたは範疇化工程を実行して、新たなモデルを構築することができるようにするものである。完全自動化された工程は本来的に、クラスの数や文書のグループ分け等のモデル構造が正しいという前提にたっているため、機械学習によってモデルが導き出すもとになった文書またはモデルパラメータの中の欠点を推測するのに、このように正しいことを前提としたモデルを使用することは逆説的である。したがって、説明したような半自動工程が有利であると考えられる。

図３のＧＵＩディスプレイにおいて、アウトライヤ閾値処理装置３４によって使用されるアウトライヤ閾値は、右下のスライダ７９から選択可能である。訓練集合１０の大きさに応じて、約１％から約５％の範囲の閾値は良好な代表的数値であると思われる。ユーザは図３のＧＵＩディスプレイを使い、チェックボックス欄９２で１つまたは複数の文書を開き、チェックすることができ、その後、各種の右側の選択ボタン８０，８２，８４，８６，８８，９０のいずれかを選択することができる。

「選択された文書を排除して再構築」ボタン８２を選択すると、ユーザはチェックされた文書が訓練文書集合１０から排除されるべきであることを確認できる。すると、コントローラは、文書の集合から選択された１つまたは複数のアウトライヤ文書を除いたものについて、クラスタラまたは分類器２０を動作させる。

「アウトライヤをまとめて再構築」ボタン８４は、クラスタリングまたは半教師あり学習モードでのみ選択でき、これによってユーザは、チェックされた文書がアウトライヤ（外れ文書）であるが、これらは、モデルの一部にすべき文書であることを確認できる。ユーザは、提供すべき類似のサンプル文書を持たないが、チェックされた文書を特定のクラス（たとえば、「その他」というデフォルト名を有するもの）にまとめるようにすることができる。クラスタリングは、同じ文書集合１０について再実行されるが、これはチェックされた文書に共通の事前にアノテーション付けされたクラス名のラベルをつけることを含め、事前設定されたモデルパラメータを使って行われる。これは実際には、チェックされた文書のグループ分けを考慮した半教師ありモードである。その効果として、チェックされたアウトライヤ文書をまとめ、それによってこれらが次のクラスタリング反復中に同じ潜在クラスに入れられるように制約を受けることを意味する。おそらく、半教師ありクラスタリングでは、チェックされた文書が割り当てられる共通クラス（たとえば、デフォルト名「その他」のクラス）にさらに別の文書が移動されるかもしれない。

「アウトライヤにラベルをつけて再構築」ボタン８８は、クラスタリングモードでのみ選択でき、これによってユーザは、チェックされた文書がアウトライヤであるが、モデルの一部とすべき文書であることを確認（指示）できる。ユーザはチェックされた文書にクラスラベルでラベリングする。コントローラはクラスタ２０を再起動し、モデル２４を再構築する。

「ファイルを追加して再構築」ボタン８０を選択することにより、ユーザは、文書集合１０に別の文書を追加して、文書集合をより代表的（典型的）なものとすることができる。この場合、ユーザは、例えば、アウトライヤ文書群が、モデルに含められるべき１つのタイプであるが、現在は文書集合１０において過少代表である（過小評価されている）ことに気づく。そこで、ユーザはこのタイプの１つまたは複数の文書を集まり（集合）に追加する（教師ありモードの場合、対応するラベルをつける）。追加する文書の選択は、ファイル選択ダイアログボックス（図示せず）を使って適切に行われる。ＧＵＩインタフェースソフトウェア１８がＬｉｎｕｘ／Ｘ−Ｗｉｎｄｏｗ，ＭａｃＯＳまたはＷｉｎｄｏｗｓ（登録商標）等の汎用オペレーティングシステムの下で実行する場合、ファイル選択ダイアログボックスは、そのオペレーティングシステムのファイル選択ダイアログボックスのスタイルに適合することが好ましいが、カスタム構成によるファイル選択ダイアログボックスも利用できる。「ファイルを追加して再構築」ボタン８０を選択すると、クラスタラまたはカテゴライザ２０は、文書集合に１つまたは複数の別文書を追加したものに関して起動し、新たなモデルを生成する。

「クラスタ数を変更して再構築」ボタン８６はクラスタリング時にのみ選択できる。このボタンを選択することは、ユーザが訓練文書集合１０を変更せず、クラスの数を調整したいと考えていることを示す。このボタンを選択すると、ユーザがクラス数を増減するために選択できるダイアログボックス（図示せず）が表示される。ある実施例において、ダイアログボックスによって、クラス数を数字で入力できるため、ユーザはクラス数をいくつにでも自由に選択できる（クラス数を１つより大きく、文書総数より小さくする等、現実的な考慮事項によって限定してもよい）。別の実施例として、ダイアログボックスに、クラス数を１ずつ増やすためのボタンまたはクラス数を１ずつ減らす別のボタンを含めてもよい。この方式では、利便性を向上させるために柔軟性が幾分犠牲となる。他のダイアログ構成も利用できる。クラス数が調整されると、コントローラはクラスタラまたは分類器２０の起動を繰返し、修正されていない文書集合１０について、事前設定されたモデリングパラメータ等として、異なるクラス数を用いてクラスタリングを行う。たとえば、クラス数を増やすことにより、アウトライヤはより小さな、「よりよく適合する」と思われるクラスに移動できる。

「ミスラベリングを修正して再構築」ボタン９０を選択すると、ユーザは図３のディスプレイの一番右側の「ミスラベリング」の欄７８に表示された新しいクラス割当提案を確認または無効化することができる。チェックボックス欄９２を通じてチェックされた文書は、提案されたラベルを使ってまとめてアノテーション付けされ、チェックされていない文書について提案ラベルは廃棄される。より複雑な実施例において、各チェックボックスについて、ダイアログウィンドウ（図示せず）がユーザに対して表示され、ユーザが、デフォルトオプションとして設定された、あるいは提案されたクラスがハイライトされた状態、あるいはダイアログウィンドウの中でその他の方法で強調された状態で、リストから修正のためのクラスアノテーション付けを選択できる。カテゴライザ２０は、これらの新たなクラスアノテーション付けを使って再起動される。このオプションはまた、クラスタリングにおいても使用され、この場合、半教師ありクラスタリングが行われ、新しいモデルが生成され、クラスタリングは選択された新しいクラス割当提案によって制約される。

以上の是正または調整のためのユーザによる選択は例示的なものにすぎない。上記の実施例において、修正動作または調整を選択するとクラスタラまたはカテゴライザ２０は自動的に起動して更新を開始し、１回の反復実行（iteration)で１回の調整を行う。別の実現可能な実施例において、２つまたはそれ以上のこうした修正または調整を１回の反復実行で行うことができる。これは、たとえばＧＵＩインタフェースを変更してユーザが複数の修正措置または調整を実行することができるようにし、その後別の「再構築」ボタン（図示せず）を使ってクラスタラまたはカテゴライザ２０を起動させ、モデルを再構築することができる。たとえば、このような実施例によれば、ユーザは特定のアウトライヤ文書の排除、別文書の追加、クラス数の増加を選択し、これら３つの選択を行った後にのみ、「再構築」ボタンを使って次回のクラスタリングまたは範疇化を行うことができる。

説明した例以外の是正措置もまた可能である。有利な点として、アウトライヤ文書はハイライトされ（たとえば、図３においてはグレー表示されている）、ユーザが、修正動作または調整を行う可能性が最も高い文書であるアウトリア文書に注目できるようにする。図３において、グレーの濃さは、文書のアウトライヤ度がアウトライヤ閾値よりどれだけ高いかを示す。別の実施例では、すべてのアウトライヤ文書が特定のアウトライヤ度に関係なく、たとえば「文書名」の欄７０に示された各アウトライヤ文書の名前の前にアステリスクをつけること等によって、同様に示される（この機能は図示されない）。

ユーザにアウトリア文書の識別情報（そして、場合によってはミスラベリング被疑文書の識別情報も）を提示するための上記の方法のさらに別の利点は、ユーザが文書の集合とこれらの文書によって代表される内容をよりよく理解できる点である。図３の実施例において、アウトライヤ文書はハイライトされているものの、アウトライヤ度の定量的数値を表示する「信頼スコア」の欄とともにすべての文書について利用できるチェックボックスがあるため、ユーザは識別されたアウトライヤ文書に対するものではない調整を行うこともできる。たとえば、ユーザはアウトライヤ閾値処理装置３４によりアウトライヤ文書として識別されていない文書を排除することを選択できる。別の実施例において、ユーザの選択をアウトライヤ文書に限定し、あるいはアウトライヤまたはミスラベリング被疑文書に限定してもよい。

また、モデル２４が構造的に更新されるときに、クラスタリングと範疇化を再実行することなく、アウトライヤ度を調整することもできる。このような構造的更新には、たとえば、クラスを２つまたはそれ以上のより小さなクラスに分割すること、２つまたはそれ以上のクラスを単独のより大きなクラスにまとめること、文書を１つのクラスから別のクラスに移すこと等である。このような構造的更新は、ある場合において、クラスタリングまたは範疇化を再実行することなく実行でき、あるいはクラスタリングまたは範疇化をクラス構造の関係部分にのみ適用して実行することもできる。たとえば、１つのクラスを２つの別のクラスに分割するのは、クラスタリングを分割対象クラスの文書に限定して行うことによっても実行できる。別の例として、文書を１つのクラスから別のクラスに移すのは、関係するクラスとその先祖にあたるクラスについてのみ（１）式のパラメータを代数的に更新することによって実行される。完全な再構築を行わないこのような構造的更新のその他の例は、本願と同時係属中の出願である２００６年３月２９日出願のゲラッツ(Guerraz)の米国特許出願第１１／３９１，８６４号において開示されており、（１１）式または（１２）式を一緒に適用し、アウトライヤ度を更新できる。

ある実施例において、アウトライヤ度の更新は、ソフトクラスタリングスコアをハードクラスタリングスコアにより近似する（概算する）ことによって適切に行われる。サンプルコーパス（言語資料）群について行ったトライアルの結果、ソフトパーティショニングに基づくアウトライヤ度分布からハードパーティショニングに基づく分布に移行させても、性能に大きな影響を与えないことが示唆された。

階層構造の更新の場合、構造的な更新に関わったクラスだけのアウトライヤ度を更新することで十分であることがわかる。適当な方式によれば、モデルパラメータは、関係するクラスについて更新され、新しい
のプロファイルが関係するクラスについて計算される。これらの新しい確率的または統計的モデルパラメータを使って、関係するアウトライヤ度を、クロスエントロピーアウトライヤ度計算式の例では、
、にしたがって、また、カルバック・ライブラー・ダイバージェンスアウトライヤ度計算式の例では、
にしたがって、それぞれ調整する。

上記において、アウトライヤおよび曖昧度は、モデル２４の反復的構築中に適用された。しかしながら、これらの尺度は、ランタイム（実行時）、たとえば、最初（オリジナル）の訓練用文書集合１０に含まれない新しい文書を範疇化するためにモデルを使用するとき、に使用できる。このような場合、反復的な期待値最大化（ＥＭ）アルゴリズムまたはその他の範疇化アルゴリズムを使って、新しい文書を（ハードパーティショニングの場合）最適なクラスに分類し、（ソフトパーティショニングの場合）１つまたは複数の最適なクラスに確率的に分類する。更に、新しい文書についてのクロスエントロピー、ダイバージェンスまたはその他の適当なアウトライヤ度をアウトライヤ度計算機３２によって計算してもよく、アウトライヤ閾値処理装置３４によってユーザの選択したアウトライヤ閾値（これは、反復的なモデル構築処理に使用されたものとは異なる閾値であってもよい）と比較することで新たに範疇化された文書がそのモデル２４に関してアウトライヤ文書であるか否かが判断してもよい。このような場合、ＧＵＩインタフェース１４により、新規文書はそのモデルの下での最適なクラスに割り当てられているものの、アウトライヤ度が示すように適合度が低いということがユーザに示される。

同様に、ランタイム中に、曖昧度計算機４２は、新たに範疇化された文書に関する曖昧度を計算してもよい。曖昧度がその文書は１つのクラスではなく、複数のクラスによく適合することを示していると、ＧＵＩインタフェースはユーザに対し、新規文書はモデルの下で最適なクラスに割り当てられているが、その文書は別のクラス（おそらく、曖昧度の数値に応じて２つまたはそれ以上の別のクラス）にもよく適合することを知らせる。
＜補遺＞
以下に示すような態様も考えられる。
《態様１》
文書のクラスタリングまたは範疇化のための方法であって、
複数の文書に対して確率的クラスタリングまたは確率的範疇化を行うことにより、各文書をクラスに関連付けるモデルを生成するステップと、
前記複数の文書について、各文書が前記モデルにどれだけよく適合するかを示すアウトライヤ度を計算するステップと、
計算されたアウトライヤ度とユーザが選択したアウトライヤ基準とに基づいて、ユーザに対してアウトライヤ文書を特定するステップと、
を含むことを特徴とする方法。
《態様２》
態様１に記載の方法であって、さらに、
前記ユーザから、前記複数の文書における変更、あるいは前記確率的クラスタリングまたは確率的範疇化についての制約、を選択するユーザ入力を受け取るステップであって、前記ユーザ入力は少なくとも、
（１）前記特定されたアウトライヤ文書のうち排除すべき１つまたは複数、
（２）前記複数の文書に追加すべき１つまたは複数の文書、
（３）クラス数、
（４）選択されたアウトライヤ文書をひとつにまとめるという制約、
のうちの少なくともひとつを選択する入力であるステップと、
前記受け取ったユーザ入力に基づいて前記クラスタリングまたは範疇化を反復して行い、文書をクラスに関連付ける新しいモデルを生成するステップと、
を含むことを特徴とする方法。
《態様３》
態様１に記載の方法であって、さらに、
１つのクラスではなく２つまたはそれ以上のクラスに対し確率的または統計的に類似する曖昧文書、を特定するステップを含むことを特徴とする方法。
《態様４》
態様１に記載の方法であって、
前記確率的クラスタリングまたは確率的範疇化を行うステップにおいて前記複数の文書の中のアノテーション付けされた文書はラベルクラスに制約されており、前記方法はさらに、
前記生成されたモデルに基づいて前記アノテーション付けされた文書に対して最も適合するクラスを特定するステップと、
前記最も適合するクラスが前記ラベルクラスとは異なる場合に、前記最も適合するクラスを、前記アノテーション付けされた文書の修正のためのラベルクラスの候補として特定するステップと、
を含むことを特徴とする方法。
《態様５》
態様４に記載の方法であって、
前記修正のためのラベルクラスの候補を特定するステップが実行されるためには、前記アノテーション付けされた文書がアウトライヤ文書として特定されていないことを条件とすることを特徴とする方法。

文書クラスタリングまたは分類システムの例を示す概略図である。クラスタリングまたは範疇化によってモデル付けされ、その後クロスエントロピーに基づくアウトライヤ度計算式を使ってアウトライヤ解析された文書集合に関するアウトライヤ度の累積ヒストグラムを示す概略図である。図１のシステムのグラフィカルユーザインタフェースのディスプレイであって、ユーザが対話的に特定されたアウトライヤ文書と自動的に特定された曖昧文書に基づいて修正や調整を行うことができるようにするディスプレイの一例を示す図である。

符号の説明

１０訓練文書集合、１２文書選択、１４グラフィカルユーザインタフェース、１６コンピュータ、２０分類器、カテゴライザ、２２モデリングパラメータ、２４モデル、３０クラス群、３４アウトライヤ閾値処理装置、３６アウトライヤ文書識別、４２曖昧度計算機、４４曖昧度閾値処理装置、４６曖昧文書、５０ミスラベリング可能性識別、５２ミスラベリング被疑文書。

Claims

文書クラスタリング又は範疇化システムであって、
確率的クラスタリング又は範疇化手段と、
アウトライヤ度計算機と、
グラフィカルユーザインタフェースを備えるコントローラと、
を備え、前記コントローラは、
(i) 文書の集合に対して前記確率的クラスタリング又は範疇化手段を呼び出すことにより、それら文書をクラスに関連付けるモデルを生成し、
(ii) 前記アウトライヤ度計算機を呼び出すことにより、各文書について、その文書が前記確率的クラスタリング又は範疇化手段により生成されたモデルにどれだけ適合しているかを示すアウトライヤ度を計算し、
(iii) ユーザが前記グラフィカルユーザインタフェースを使って選択したアウトライヤ基準を満たすアウトライヤ度を有するアウトライヤ文書を、前記グラフィカルユーザインタフェースによってユーザに対して提示し、
(iv) 前記(iii)の提示に続いて、前記グラフィカルユーザインタフェースを介してユーザから前記文書の集合の変更、前記確率的クラスタリング又は範疇化手段についての制約、又は前記モデルの受け入れ、を選択するユーザ入力を受け取り、
(v) 前記ユーザ入力により調整された前記文書の集合に対して、前記確率的クラスタリング又は範疇化手段を呼び出すことにより、前記モデルを更新し、
(vi) 前記ユーザ入力が前記モデルの受け入れを選択するものとなるまで、前記(ii)〜(v)の処理を繰り返す、
文書クラスタリング又は範疇化システム。
前記文書の集合の少なくとも１つは、ラベルクラスをアノテーションとして付加されたラベル付きの文書であり、
前記文書クラスタリング又は範疇化システムは、更に、
前記モデルの下で確率的又は統計的にみて前記ラベルクラスとは別のクラスに対してより類似している、誤ってラベル付けされた可能性のある文書を識別するように構成されたラベル付け誤り文書識別手段、を備え、
前記コントローラは、更に、前記ラベル付け誤り文書識別手段を呼び出すことにより、ユーザに対して、前記グラフィカルユーザインタフェースを介して、誤ってラベル付けされた可能性のある文書を提示する、
請求項１に記載の文書クラスタリング又は範疇化システム。
前記モデルの下で確率的又は統計的にみて２以上のクラスに類似している曖昧文書を識別するように構成された曖昧文書識別手段、を更に備え、
前記コントローラは、更に、前記曖昧文書識別手段を呼び出すことにより、ユーザに対して、前記グラフィカルユーザインタフェースを介して曖昧文書を提示する、
請求項１に記載の文書クラスタリング又は範疇化システム。
確率的クラスタリング又は範疇化手段と、
アウトライヤ度計算機と、
グラフィカルユーザインタフェースを備えるコントローラと、
を備える文書クラスタリング又は範疇化システムにおける、文書クラスタリング又は範疇化方法であって、
前記コントローラが、
複数の文書に対して前記確率的クラスタリング又は範疇化手段を呼び出して確率的クラスタリング又は確率的範疇化を行うことにより、各文書をクラスに関連付けるモデルを生成するステップと、
前記アウトライヤ度計算機を呼び出すことにより、前記複数の文書について、各文書が前記モデルにどれだけよく適合するかを示すアウトライヤ度を計算するステップと、
計算されたアウトライヤ度とユーザが選択したアウトライヤ基準とに基づいてアウトライヤ文書を特定し、特定したアウトライヤ文書を前記グラフィカルユーザインタフェースによってユーザに対して提示するステップと、
グラフィカルユーザインタフェースを介してユーザから前記文書の集合の変更、前記確率的クラスタリング又は範疇化についての制約、又は前記モデルの受け入れ、を選択するユーザ入力を受け取るステップと、
受け取ったユーザ入力に基づいて調整された文書の集合に対して、前記確率的クラスタリング又は範疇化手段を呼び出して前記確率的クラスタリング又は範疇化の実行を繰り返すことにより、各文書をクラスに関連付ける更新されたモデルを生成するステップと、
前記アウトライヤ度の計算のステップと、前記アウトライヤ文書の特定及び提示のステップと、前記ユーザ入力の受け取りのステップと、前記確率的クラスタリング又は範疇化の実行の繰り返しのステップと、を前記ユーザが更新されたモデルを受け入れるまで反復するステップと、
を含む方法。