JP4774073B2 - 文書のクラスタリング又は範疇化のための方法 - Google Patents

文書のクラスタリング又は範疇化のための方法 Download PDF

Info

Publication number
JP4774073B2
JP4774073B2 JP2008095354A JP2008095354A JP4774073B2 JP 4774073 B2 JP4774073 B2 JP 4774073B2 JP 2008095354 A JP2008095354 A JP 2008095354A JP 2008095354 A JP2008095354 A JP 2008095354A JP 4774073 B2 JP4774073 B2 JP 4774073B2
Authority
JP
Japan
Prior art keywords
document
outlier
documents
clustering
categorization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008095354A
Other languages
English (en)
Other versions
JP2008257732A (ja
JP2008257732A5 (ja
Inventor
ミッシェル レンダース ジーン
プリバルト カロリネ
メヌーゲ ルドビック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2008257732A publication Critical patent/JP2008257732A/ja
Publication of JP2008257732A5 publication Critical patent/JP2008257732A5/ja
Application granted granted Critical
Publication of JP4774073B2 publication Critical patent/JP4774073B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書の組織化、検索および保存技術、機械学習技術により生成される確率的範疇化またはクラスタリングモデルのクリーンアップまたは調整、範疇化または分類全般のモデルのクリーンアップまたは調整、ある文書がその分類方式にどれだけうまく適合しているかのランタイム(実行時)評価その他に関する。
一般的に使用される情報組織化手法は、範疇化(カテゴリー化:categorization)とクラスタリングの2つである。範疇化においては、クラス群が事前に定義され、文書は内容の類似度に基づいて各クラスに分けられる。クラスタリングも同様であるが、事前に定義されたクラスがなく、文書は類似性に基づいてグループ分けまたはクラスタリングされ、類似した文書のグループがそのクラス群となる。
確率的手法の一例において、文書はそれぞれ、“the”や“an”等の特定の頻出する一般に意味論的に重要でない単語を除くキーワード、単語、トークンまたはその他のテキストの塊の出現回数を保存する単語集合(bag−of−words)によって表される。文書の類似性と相違性は、単語数、比率または頻度の点で測定される。教師ありの手法によれば、モデルはアノテーション付き(annotated)訓練文書の集合に基づいた教師ありの訓練によって生成される。教師なしの手法において、訓練文書は類似性と相違性に基づいて、各種のクラスに分割(パーティショニング: partitioning)される。訓練またはパーティショニングは、クラスを特徴付ける単語数、比率または頻度を示す確率的モデルパラメータを生成する。範疇化はクラスタリングと似ているが、訓練文書をクラスに分類するのではなく、訓練文書が各々に事前にアノテーション(annotation:注釈、注記又はコメント)付けされた識別情報によってクラスに予め割り当てられる点が異なる。範疇化は、「教師あり学習」とも呼ばれる。
米国特許出願公開第2003/0101187A1号明細書 米国特許出願第11/391,864号明細書 "A hierarchical model for clustering and categorizing documents" in Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02), March 25-27, 2002(Computer Science 2291, pp. 229-247に掲載のスプリンガの講義ノート)
自動分類またはクラスタリングでは、結果として得られるモデルは通常良好であるが、文書の中にはそのクラスのいずれにも十分に適合しないものもある。これは、その文書が文書分類スキームに不適当であることを意味する場合とそうでない場合がある、たとえば、その文書は文書分類スキームによってカバーされない主題に関するという点で不適切な場合と、あるいはその文書はカバーされるべき主題に関係しているかもしれないが、その主題が訓練文書集合の中の過少代表である(過小評価されている)ため、過少代表の文書は訓練文書から導き出されたどのクラスのパラメータにも適合しない場合である。範疇化の場合、文書の中には、その文書がアノテーションに基づいて割り当てられるクラス以外のクラスのほうにより適合するように思われるものもある。これは、クラスのアノテーションが誤っている場合とそうでない場合がある。
本願で説明する特定の態様によれば、文書クラスタリングまたは範疇化システムは、文書をクラスに関連付けるモデルを生成するように構成される。この文書クラスタリングまたは範疇化システムは、確率的クラスタラ(clusterer:クラスタリング手段)または確率的カテゴライザ(categorer:範疇化手段)と、アウトライヤ(異常値又は外れ値)度計算機と、グラフィカルユーザインタフェースを備えるコントローラとを備える。コントローラは、(i)文書集合に対して確率的クラスタラまたはカテゴライザを呼び出すことにより、文書をクラスに関連付けるモデルを生成し、(ii)アウトライヤ度計算機を呼び出すことにより、各文書について、その文書が確率的クラスタラまたはカテゴライザにより生成されたモデルにどれだけ適合しているかを示すアウトライヤ度を計算し、(iii)ユーザがグラフィカルユーザインタフェースを使って選択したアウトライヤ基準を満たすアウトライヤ度を有するアウトライヤ文書をグラフィカルユーザインタフェースによってユーザに明示するように構成される。
本願で説明する特定の態様によれば、複数の文書の確率的クラスタリングまたは確率的範疇化を実施して、文書をクラスに関連付けるモデルを生成するステップと、各文書がモデルにどれだけ適合しているかを示す、文書のアウトライヤ度を計算するステップと、計算されたアウトライヤ度とユーザが選択したアウトライヤ基準に基づいて、ユーザに対してアウトライヤ文書を明示するステップを含む方法が提案される。
本願で説明する特定の態様によれば、複数の文書をクラスタリングまたは範疇化して、文書をクラスに関連付けるモデルを生成するステップと、そのモデルの下で各文書が類似性を有するクラス数を表す文書の曖昧度を計算するステップと、その複数の文書の中で、対応する計算された曖昧度により示される、2つまたはそれ以上のクラスとの類似性を有する文書としてユーザに曖昧文書を明示するステップを含む文書クラスタリングまたは範疇化方法が提案される。
図1を参照すると、訓練文書集合10が文書選択と任意のアノテーション付けインタフェース12に入力される。ユーザは、グラフィカルユーザインタフェース14を備えるコントローラを通じて、クラスタリングまたは範疇化プロセスを制御することができ、ユーザインタフェース14は、図の実施例において、適当なグラフィカルユーザインタフェース(GUI)ソフトウェア18を実行するコンピュータ16として構成されている。コンピュータ16は、デスクトップコンピュータ、ラップトップまたはノートブックコンピュータ、ダム端末(dumb terminal:端末専用機)を通じてアクセス可能なメインフレームコンピュータその他とすることができる。GUIソフトウェアは、たとえば、Xウィンドウ環境を実行するLinux,UNIX(登録商標)またはその他のグラフィクスに基づくオペレーティングシステムや、Mac OS(カリフォルニア州クパチーノのApple社製)またはWindows(登録商標)オペレーティングシステム(ワシントン州レッドモンドのMicrosoft社製)の下で動作するユーザインタフェースソフトウェアとすることができる。あるいは、GUIソフトウェア18は、統合されアノテーションラフィカル表示機能を有してもよく、コマンドラインに基づくオペレーティングシステム上で実行してもよい。1回目のパス(pass:実行、走査)において、ユーザは文書選択インタフェース12を使って、訓練文書集合10を構成する文書を選択する。文書選択インタフェース12は、更に、訓練文書集合10の事前フィルタリングによって分類に適していない文書を排除する等、他の機能を実行してもよい。たとえば、分類が英語の文書について行われる場合、事前フィルタリングによって英語以外の言語で書かれた文書が排除される。同様に、事前フィルタリングにより、選択された日付範囲以外の文書、あるいはその他の不要な特性を有する文書を取り除くことができる。クラス識別で事前にアノテーション付けされた文書を使って教師ありの文書範疇化を行う場合、ユーザは文書選択インタフェース12からそのアノテーション(注釈)を適切に適用する。ある実施例では、文書集合の中の一部の文書だけがクラスアノテーションによって事前にアノテーション付けされており、この場合は半教師あり学習となる。
必須ではないがその一部または全部がクラスアノテーションを有する文書が、確率的カテゴライザすなわち確率的分類器20(以下、確率的カテゴライザまたは分類器20、と呼ぶ)に入力される。ある実施例において、確率的カテゴライザまたは分類器20は、確率的潜在意味解析(PLSA:probabilistic latent semantic analysis)を使ってクラスタリングを行う。別の実施例において、確率的カテゴライザまたは分類器20は、確率的潜在的範疇化(PLC: probabilistic latent categorization)を使って分類を行う。確率的カテゴライザまたは分類器20は、ある実施例において、2つのモードで動作する。つまり、範疇化を実行する教師あり学習モードと、クラスタリングを実行する教師なし学習モードである。ある実施例においては、半教師あり学習を提供する中間的モードも利用できる。ある実施例において、動作モードは、文書に対する制約によって決定される。つまり、すべての文書が学習の制約となるクラス識別で事前にアノテーション付けされている場合は、教師あり学習または範疇化が行われる。事前にアノテーション付けされた文書がなければ、クラスタリングが行われる。クラス識別で事前にアノテーション付けされた文書とされていない文書がある場合、半教師付き学習モードが実行される。ある実施例においては、単純ベイズ(naive Bayes)生成モデリングまたは潜在的ディリクレ割当(LDA: latent Dirichlet allocation)生成モデリング等、別のクラスタリングまたは分類アルゴルリズムが使用される。ある実施例において、階層的PLSA(HPLSA: Hierarchical PLSA)等の階層的クラスタリングまたは分類アルゴリズムが使用される。確率的カテゴライザまたは分類器20は、事前設定された潜在クラス数または事前にアノテーション付けされた文書クラス識別等のモデリングパラメータ22を考慮して、訓練文書集合10を処理し、クラス群30を含むモデル24を生成する。生成されたモデルには、各クラス30に関する確率的または統計的情報が含まれており、更に親子のノード間のリンクに関する情報等、他のパラメータや情報が含まれていてもよい。
PLSAまたはPLCクラスタラまたはカテゴライザの一例において、文書は「単語集合(bag−of−words)」フォーマットで表される。ある文書について、その単語集合表現は、語彙中の単語(vocabulary words:以下「語彙単語」という)とその単語に対応する出現回数との集合又は集まりである。語彙単語またはトークン(token:字句単位)の集まりは、その文書内のすべての単語またはトークンを含む集合であってもよく、また、文書中から選ばれた単語またはトークンの部分集合であってもよい。後者の場合の部分集合は、例えばその文書の中に少なくとも基準回数は出現する単語またはトークンからなる部分集合、或いは“and”や“the”等の特定の一般的単語またはトークンを除いたその文書中の単語またはトークンからなる部分集合、或いは基準値を超える数の文字を含む単語からなる部分集合、等々である。本願において、「単語」や「トークン」という用語は、確率的または統計的解析のために文書を分解するのに用いられるあらゆる選択された文字列またはテキストの塊を包含するように、広く、相互交換可能に解釈されるものとする。たとえば、「単語」または「トークン」は、本願においては、本明細書中で使用している通り、単独の言語学的単語、句(フレーズ)、文(センテンス)、nグラム(n-gram: n個の連続する単語のグループ)、名詞句または固有表現(named entity)等の自然言語の文法的要素、その他に対応する。ある実施例において、PLSAまたはPLCフレームワークは、クラス30に関連付けられたクラス確率P(C)(本願において、クラスは総括的に記号“C”または“c”で表す)、クラス条件付き文書確率(またはプロファイル)P(d|C)(本願において、文書は総括的に記号“d”で表す)およびクラス条件付き単語確率(またはプロファイル)P(w|C)(本願において、語彙単語またはトークンは総括的に記号“w”で表す)の確率的または統計的パラメータを利用する。ある確率的または統計的パラメータの定義を(1)式に示す。
ここで、Nは文書集合10の全体における語彙単語の出現回数(1つの単語が複数回反復される場合は延べ回数とする)、NCはカテゴリ“C”に属するすべての文書における単語の出現回数、|d|は文書“d”における単語の出現回数、NwCは、カテゴリ“C”に属する文書における特定の単語“w”の出現回数である。同様に、モデルは確率的パラメータP(d)とP(c|d)(つまり、文書dがクラスcに属する可能性)を用いることができる。これらは例であり、別の、あるいは他の確率的または統計的モデルパラメータを使用してもよい。「最尤法」(maximum likelihood)の手法は、確率的または統計的パラメータの計算方法の一例である。最大事後確率判定法(maximum a posteriori approach)等、その他の手法を用いれば、別の確率的または統計的パラメータ式が得られる。ある実施例において、確率的または統計的モデルパラメータは正規化またはその他の方法で修正され、計算面が改善される。(1)式の確率的または統計的パラメータは比率である。しかしながら、記憶された確率的または統計的モデルパラメータは、NCまたは|d|等の実際のカウント値であり、所望の比率が実際のカウント値から容易に計算できることがわかる。
フラット(flat:一律的)な範疇化では、訓練文書10は事前にアノテーション付けされており、(1)式のパラメータに含まれるようなパラメータは容易に計算できる。文書のクラス割当が事前アノテーション付けから完全に決定されないようなクラスタリングその他の学習の場合、文書は、選択された期待値最大化(EM:expectation maximization)等の最適化基準を満足するように、潜在クラスにクラスタリングされる。クラスタリングアルゴリズムは、各クラスの文書が実質的に類似の単語集合表現(bag-of-words representation)を有することとなるよう、文書の集まりを複数のクラスにグループ分けまたはクラスタリングすることを試みる。あるクラスのクラス条件付き単語確率は、そのクラスに属する他の文書の単語集合表現について何が期待されるかを示す確率的または統計的な期待値となる。ハードクラスタリング(hard clustering)またはソフトクラスタリング(soft clustering)のいずれを使用してもよい。ハードクスタリングの場合、各文書は1つのクラスに割り当てられる。(1)式に関して、ハードクラスタリングでは文書“d”が割り当てられていないすべてのクラスはP(c|d)=0という結果となり、文書“d”が割り当てられたクラスについてはP(c|d)=1となる。ソフトクラスタリングの場合、文書は部分的に複数のクラスに属することがあり、この場合、P(c|d)は0と1の間の数値を有し、数値が大きいほど、文書“d”がそのクラスに分類される確率が高いことを示す。
結果として得られるモデル24は、クラス条件付き単語確率P(w|C)等の選択された確率的または統計的パラメータをそれぞれ有するクラス群30を含む。文書集合10が代表として適当であれば、クラスC1の例のクラス条件付き単語確率、P(w|C1)は、クラスC1の文書の代表であるはずである。範疇化の場合、文書10が代表であることに加え、アノテーション付けがされたクラス識別が正しいという条件にも当てはまらなければならず、つまり、アノテーション付けによってあるクラスに割り当てられた文書はそのクラスの代表であるはずである。
生成されたモデル24は、訓練文書集合10に含まれていなかった新しい文書“dnew”を分類するのに使用できる。新しい文書“dnew”は、文書条件付き単語確率P(w|dnew)を有し、P(w|dnew)は文書dnewの中での語彙単語“w”の出現回数を文書“dnewス群30の中のクラスC1に属する場合、文書条件付き単語確率P(w|dnew)は対応するクラス条件付き単語確率P(w|C1)に類似しているべきである、という状況に従うはずである。このモデルによって、新しい文書“dnew”を、ハードパーティショニングの場合にはクラス30の中の最も近い1つに、またソフトパーティショニングの場合は最も近い1つまたは複数のクラスに割り当てるための確率的または統計的根拠または尺度が得られる。
一般に文書集合10は実質的に代表的であると期待され、(範疇化の場合)アノテーション付けされたクラス識別情報が正しいと期待されるものの、本願においては、これに当てはまらない場合がある点を認める。たとえば、ある無関係の文書が訓練文書集合10に含められているかもしれない。このようなケースの例として、スポーツに関する訓練文書集合に政治に関する文書が1つ偶然に含まれてしまった場合を考える。政治に関する文書はクラス30の中のどれにもあまり適合しそうもない。同様に、ある範疇化の例において、ゴルフに関する文書に誤ってテニス関連とアノテーション付けされた場合、誤ってラベリングされたゴルフ関連の文書に関する文書条件付け単語確率P(w|d)は、テニスのクラスのクラス条件付け単語確率から大きく逸脱する可能性が高い。
別の例として、スポーツに関する文書のクラスタリングで、「テニス」、「ゴルフ」、「クリケット」、「野球」、「バスケットボール」、「サッカー」の6つのスポーツに関する文書があり、事前設定されたクラス数22が5つしかない場合を考える。詳細なクラスタリング処理によって異なるが、考えられる結果の1つとして、「テニス」、「ゴルフ」、「クリケット」、「野球」、「バスケットボール」の5つのスポーツに関する文書は設定されている5つの潜在クラスに適正にクラスタリングされるが、6番目のスポーツである「サッカー」に関する文書については当てはまるクラスがないため、不適正ではあるが、5つの既存の潜在クラスに入れられる。このような場合、「テニス」、「ゴルフ」、「クリケット」、「野球」、「バスケットボール」に関する文書はそれぞれカテゴリに良好に適合する(つまり、文書条件付き単語確率が対応するクラス条件付き単語確率と良好に整合する)が、「サッカー」に関する文書は実質的に、それらほど良好には適合しない。
さらに図1を参照すると、文書集合10あるいはモデリングパラメータ22におけるこのような不備は、クラスタリング後に下記のようなクリーンアップシステムによって対処される。アウトライヤ度計算機32が文書集合10中の文書に関するアウトライヤ度を計算し、このアウトライヤ度に基づいて、アウトライヤ閾値処理装置(outlier thresholder)34またはその他のアウトライヤ識別アルゴリズムがアウトライヤ度によって示されるモデル24に不適合なアウトライヤ(外れ)文書を対話的に特定する。ある実施例において、アウトライヤ閾値処理装置34は、ユーザ自身がアウトライヤ度と比較してどの文書をアウトライヤとみなすかを判断するためのアウトライヤ閾値を選択できるという意味で対話的に動作する。アウトライヤ閾値処理装置34またはその他のアウトライヤ識別アルゴリズムは、アウトライヤ文書識別情報36を出力し、これがGUIインタフェース14を通じてユーザに表示または提示される。
アウトライヤ度計算機32に加え、曖昧度計算機42を設けてもよい。曖昧度計算機42は、文書が確率的または統計的にモデルの複数のクラスに類似するという点で曖昧であるかを示す、文書の曖昧度を計算する。アウトライヤ文書と曖昧文書の違いは、アウトライヤ文書がモデル24のどのクラスにも適合しないのに対し、曖昧文書はモデル24の複数のクラスに適合する点である。曖昧文書は、単位元(unity:例えば「1」)等の閾値より高い曖昧度を持つ。曖昧性閾値処理装置44またはその他の識別アルゴリズムが曖昧度に基づいて曖昧な文書46を識別し、識別された曖昧文書46が任意でGUIインタフェース14を通じて表示されるか、その他の方法でユーザに示される。
教師ありまたは半教師あり学習の場合、文書はクラスラベルでアノテーション付けされることがある。このような場合、クラスラベルの正確さも任意で考慮される。ミスラベリング可能性識別装置(possible mislabeling identifier)50は、ラベリングされたクラスより他のクラスのほうによりよく適合する文書をミスラベリング(ラベル付け誤り)の可能性がある文書として識別するために、ミスラベリング被疑文書(possible mislabeling document)52を識別し、よりよく適合するクラスが修正クラスラベルとして提案される。
アウトライヤ文書識別情報36、曖昧文書識別情報46およびミスラベリング可能性識別情報52(ただし情報46及び52は必須ではない)は、GUIインタフェース14を通じてユーザに表示される。アウトライヤ文書は、これらがアウトライヤ度によって示されるように、モデル24に適合しないという点でアウトライヤである。しかしながら、アウトライヤの状態の程度は容易にはわからない。アウトライヤ文書は訓練文書集合10の中に含まれるべきではなかった文書とする場合がある。たとえば訓練文書集合はスポーツ関連の文書で、アウトライヤ文書は、その中に含められるべきではない金融関連の文書という場合である。これに対し、アウトライヤ文書は、含められるべきものであるが、訓練文書集合10中で過少代表である(過小評価された)クラスに属する文書という場合もある。たとえば、訓練文書集合はスポーツ関連文書で、アウトライヤ文書はクリケットに関する1つの文書または数個の文書であり、文書のサンプルが少なすぎて「クリケット」のクラスの項目の十分な代表とはならない。このような場合、修復措置として適切なのは排除することではなく、訓練文書集合にクリケットに関する別の文書を追加して、クリケットを含むスポーツという主題の分野全体をよりよく代表するような、新たな訓練文書集合10を作ることである。さらに別の可能性として、クラスタリングが適用され、事前設定されたクラスの数が訓練文書集合10の中の実際のクラスの数より少ない場合は、訓練文書集合10において十分な代表といえる分野の文書であっても、モデル24に適合しない。たとえば、訓練文書集合はスポーツ関連の文書で、アウトライヤ文書はクリケットに関する文書の十分なサンプリングであるが、事前設定されたクラス数が少ないと、これらのクリケット関連の文書は、他の種類のスポーツを代表するその他のクラスに割り当てられる可能性があり、その結果、モデル24についてのアウトライヤとなる。この場合、最善の修復措置は、クリケット文書の排除でも、別のクリケット文書の追加でもなく、事前設定されたクラス数を増やし、クリケット文書を収容できるようにすることである。
アウトライヤ文書の処理方法を自動的に決定しようとする代わりに、アウトライヤ文書識別情報36をGUIインタフェース14からユーザに提示する。するとユーザは、排除すべきアウトライヤ文書を選択するか、あるいは訓練文書集合10に別の文書を追加してより代表的な新しい文書集合を作ることを選択するか、あるいは事前設定されたクラス数22またはその他のモデルパラメータを変更することを選択するか、等の処理を行うことができる。曖昧文書識別が行われる範疇化の場合には、ユーザは曖昧文書を別のクラスに割り当てることを選択できる。ユーザが選択した変更を行うと、確率的分類器またはカテゴライザ20は、ユーザによる変更を取り入れた訓練文書集合について再び呼び出され(すなわち再び処理を実行し)、文書集合10のよりよい代表となる新たなモデルが生成される。文書集合は再び、新たなモデルを使って解析されることで、アウトライヤ文書が識別される。また、必須ではないが、曖昧文書が識別されるようにしてもよい。このプロセスは任意で2回またはそれ以上反復されることで、最終的にユーザが結果として得られるモデルに満足し、モデルを受け入れられるようにする。受け入れられたモデルはその後の文書の検索、新規文書の分類その他に利用できる。
図1を参照してクリーンアップ(片づけ)コンポーネントを有する文書組織化システムを説明したところで、次にいくつかの実施例について詳細に説明する。
以下に説明する実施例は、クラスタラまたはカテゴライザ20として確率的潜在カテゴライザ(範疇化用)または確率的潜在意味解析器(クラスタリング用)を使用する。{項、文書}マトリックス(すなわち、観察したものからなる総数により正規化した後の「項と単語との経験な同時分布(empirical joint distribution)」)は、多項式の混合を使ってモデル化される。
この実施例について用いられる確率的または統計的モデルパラメータは、各クラスCについての確率P(C)、各クラスCに対する各文書dの確率P(d|C)、各クラスCに対する各単語wの確率P(w|C)であり、クラスの「プロファイル」とも呼ばれる。代数的定義は(1)式で示される。これらのパラメータは、教師なし、半教師あり、または教師あり訓練段階中に、期待値最大化アルゴリズムの変形またはその他の適当な最適化手段を使ってデータの可能性を最大化することによって得られる。たとえば、このような周知の技術の説明はゴシエ(Gaussier)らの"A hierarchical model for clustering and categorizing documents" in Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02), March 25-27, 2002(スプリンガ(Springer)によるComputer Science 2291, pp. 229-247に掲載の講義ノート)を参照のこと。
モデル24には、たとえば木構造として配置された階層的なクラス群30を含めてもよい。クラスタリングで階層的構造を提供するための方法の一例によれば、クラスタラまたはカテゴライザ20がクラスタリングモードで使用され、文書をクラスタリングしてフラットモデル(flat model)を生成し、次に、それぞれ2つまたはそれ以上の葉クラスを包含する中間クラスであってそれら2以上の葉クラスについてのノードとして機能する中間クラスを追加することにより、フラットモデルのクラスを階層的に組織化する。教師なしの訓練では、フラットクラスに関する確率的または統計的モデリングパラメータを生成し、これが木状の階層構造における葉にあたる。階層の葉クラスは直接文書に関連付けられる。葉クラスが直接または間接的に依存する中間クラスもまた、確率P(c),P(d|c),P(w|c)(ただし、ここで小文字の“c”は非葉(non-leaf)クラス(葉でないクラス)を示す)等の関連付けられた確率的モデリングパラメータを有する。非葉クラスに関する1つの計算的に簡単な方法において、すべての非葉クラスcについてP(c)=0であり、非葉クラスcにはどの文書も直接含まれず、P(d|c)とP(w|c)はその子または子孫の対応するパラメータの加重平均である。つまり、
(ただし、C↓cはCがcの子孫であることを示す)・・・(3)
であり、
(ただし、C↓cはCがcの子孫であることを示す)・・・(4)
となる。階層構造を生成するための別の方法では、初期クラスタリング動作の後に、2つまたは複数の話題(トピック)を包含する選択されたクラスについて、クラスタラ20の処理を再実行し、葉クラスを生成する。選択されたクラスの文書は次に、葉クラスに移動され、選択されたクラスが空になるようにし、文書は生成された葉クラスに含められる。範疇化に適したさらに別の手法において、葉ノードまたは葉クラスと非葉ノードまたは非葉クラスを含む階層構造全体が、ユーザによって、文書集合に関するクラスアノテーションとともにア・プリオリに提供され、教師あり訓練は、階層構造に一切変更を加えることなく、ユーザによって提供されたクラスアノテーションと階層的リンクを尊重する。この場合の教師あり学習の結果は本来的に階層的であるが、これは、ユーザが提供した階層が、教師あり学習プロセスにおいて尊重されるからである。ゴシエらの米国特許出願公開第2003/0101187A1号は、その他のソフト階層クラスタリング方式を開示している。上記のものは単に例にすぎず、モデルを階層化するその他の方式も使用できる。
クラスタラまたはカテゴライザ20を最初に実行させた後に、各文書はいわゆるbag-of-words(単語集合)の表現(以下、bowと略す)をサポートする(利用できる)処理済みの形態にある。bowでは、文書は単語頻度ベクトル、リストその他によって表現され、文書中の単語の位置は無視される。たとえば、適当な単語頻度ベクトル表現は、
であり、ここで、wiは単語、n(wi)は文書dにおけるこの単語の出現回数である。Wをモデルの辞書または語彙集、つまり、文書集合またはグループ10内のすべての単語集合について出現する語彙単語の集合とする。ある実施例においては、頻度が少ない単語、あるいは短い単語、等の一部の単語は取り除かれ、モデル構築時に辞書または語彙集の中に含められない。また、ある実施例においては、語彙単語以外の単語はbow表現の中に保持され、bow表現が語彙集Wの中の含まれないいくつかの単語wiを含むことになる。必須のことではないが、計算の効率化のためにこれらの排除された複数の単語を「未知の単語」と呼ばれる1つの架空の単語としてまとめてもよく、この場合、語彙に含まれない単語の数をカウントするだけでよく、メモリに残しておかなくてよいことになる。
引き続き図1を参照しながら、クリーンアップ(片づけ、あるいは整頓)とモデル適合品質解析のさまざまな面、つまり、アウトライヤ解析、曖昧文書解析およびミスラベリング被疑文書解析を上記のモデル例に関してひとつずつ説明する。
まず、アウトライヤ性(outlierness)の尺度の例を考えると、確率マトリクスp(c|d)は、(文書の)集まりの中の各文書dに関するモデルからア・ポステリオリ(事後的)に適切に計算される。これらの確率を用い、文書dがデータセットからどれだけ離れているか、あるいは言い換えれば、訓練集合10全体とモデル24を見て、どれだけ似ているかを示すアウトライヤ度を計算する。2つのアウトライヤ度計算式の例をここで示す。一つは、文書dの経験的単語分布とモデル24によって予想される分布との間のクロスエントロピーまたは負の対数尤度(negative log-likelihood)に基づくので、
であり、もう一方は、これらの2つの分布の間のカルバック・ライブラー・ダイバージェンス(Kullbach-Leibler divergence)に基づくので、
、ただし、H(d)はエントロピーであり、
である。一般に、1つのアウトライヤ度公式(たとえば、CEまたはKLあるいはその他の選択されたアウトライヤ度公式)を用いて、アウトライヤ度を計算する。CEとKLは両方とも本願において、2つの異なる例を挙げるために示される。(6)式、(7)式における総和演算はすべての単語にわたっての総和、すなわち語彙集Wと架空の「未知の」単語の両方にわたっての総和である。文書の長さ|d|は、文書“d”における単語出現総数(すなわち単語の総出現回数)であり、「未知の」単語の出現も含まれる。項
は次のように生じる。たとえばPLSAまたはPLC解析では、平滑化メカニズムは含まれない。項
は、「未知の」単語の存在を考慮に入れている。適当な方法において、ジェリネク・マーサー(Jelinek-Mercer)平滑化方式を適用し、項
は次のように定義される。
ディリクレ平滑化または絶対ディスカウンティング(absolute discounting)等、その他の手法も利用できる。(8)式において、p(wi|c)は、非平滑化(non-smoothed)PLSAアルゴリズムによって予想されるパラメータ値である。項p(wi|c)は、架空の「未知の」単語についてはゼロである。項pb(wi)は、単語に関するバックオフ(back-off)分布である。バックオフ分布pb(wi)については各種の合理的な選択があり、たとえば、未知の単語についてはpb(wi)=1、すべての語彙単語Wについてはゼロ、あるいはすべての指数iについて均一に
とすることができる。これらのバックオフ分布の例はどちらも、(8)式のためのα平滑化係数を適正に選択した場合と同様の結果が得られることがわかっている。
(6)式のアウトライヤ度計算式を使って計算されたアウトライヤ度、あるいは(7)式のアウトライヤ度計算式を使って計算されたアウトライヤ度は、文書dが、文書集合10に内在する分布すなわちモデル24によって生成される可能性がどれだけあるかを評価するものである。(6)式と(7)式の2つのアウトライヤ度計算式の例はどちらも0から+∞の範囲であり、「(モデル24により生成される)可能性が高い」文書の数値は理論的にはゼロであり、可能性が低い文書、つまりアウトライヤ文書の数値は大きくなる。カルバック・ライブラー・ダイバージェンスKL(d)は、特徴空間における文書dの経験的位置と理想的位置(つまり、モデル24によって平滑化または予想される位置)との間の距離として見ることができる。
アウトライヤ度計算式の例のいずれも、アウトライヤ度計算機32によって適切に計算され、訓練文書集合10の文書のランク付けが行われる。次に、アウトライヤ閾値処理装置34は、そのアウトライヤ度が閾値を超える文書として、アウトライヤ文書識別情報36を発生する。閾値は一定で、たとえばKL(d)>T(ただし、Tは固定閾値)とすることができる。あるいは、閾値は、そのアウトライヤ度が、たとえば上位1%または5%などと、訓練文書10のうちの選択された上位パーセンタイル値(百分位数値)にあたるように選択するものと定義される可変閾値とすることができる。アウトライヤ文書識別情報36は、GUIインタフェース14を通じてユーザに提示される。
図2を参照すると、クロスエントロピーアウトライヤ度の累積ヒストグラム((6)式に示されるCE(d))が、1732個の文書の訓練集合についてプロットされる。この文書集合に関して求められた最大のCEアウトライヤ度は8.29であり、文書の100%において、関連するアウトライヤ度は1.79またはそれより大きかった。このような累積ヒストグラムにより、たとえば、そのアウトライヤ度が4である文書の「可能性」のパーセンテージはほぼ80%(つまり、アウトライヤ性は20%)である。図2のデータセットについて、CE(d)>6.15のアウトライヤ閾値は、そのアウトライヤ度が上位5パーセンタイルに入るようにアウトライヤ文書を定義することに対応する。
次に、曖昧性測定の例について以下に説明する。任意の曖昧性計算機42の中にはクラスエントロピーの指数関数を利用しているものがあり、期待値最大化アルゴリズムを通じてPLSAまたはPLC解析によって特定される文書dについてのP(c|d)の数値を使用する。結果として得られる曖昧度計算式の例は、
であり、
Ambi(d)は文書dの曖昧度である。この曖昧度の数値例は、1またはそれ以上である。Ambi(d)=1の場合、文書dはそのモデルの下での1つのクラスに完全に割り当てられ、曖昧性なしの限界を表す。この式を使用した最大曖昧度は、Ambi(d)=K(Kはクラスの数)であり、これは文書dがそのモデルの下でクラス30のいずれに属する可能性も同じであることを示す。実際、曖昧度は、文書がそのモデルの下で類似性を有するクラスの数を示し、曖昧性のない分類の場合、この曖昧度は1に近いはずである。
次に、ミスラベリング可能性識別の例について説明する。教師ありまたは半教師あり学習の場合、文書のラベル付けが誤っていると、曖昧度を使ってこの状況を検出し、これをユーザに提示することができる。適当な手法によって確率的モデルが生成される。次に、文書集合10の各文書dについて、モデル24を使って
の予想値、アウトライヤ度(たとえば、(6)式に示されるCEまたは(7)式に示されるKLを使用する)および曖昧度Ambi(d)を計算する。
の数値は、クラスcに沿って数値の大きいほうから小さいほうにランク付けされる。次に、clabelをdに相互に割り当てられたカテゴリラベルの指標、rlabelを分類された
リストにおけるそのランクとして定義して、ミスラベリング可能性識別装置50によって次のアルゴリズムが適用される。アウトライヤ閾値処理装置34が、文書dはアウトライヤ文書ではないと示した場合、およびさらに、曖昧度閾値処理装置44が(rlabel−Ambi(d))>Ta(Taは曖昧さについての選択された閾値)(たとえば、(9)式の曖昧度計算式を使って適当なTa=0.5)であると示した場合、文書dはミスラベリングの可能性があると考えられ、文書dの識別は、ミスラベリング被疑文書識別62の集合に含まれる。この場合、別のクラス
がGUIインタフェース14を通じて、修正のための別カテゴリ(修正の候補)としてユーザに提案される。条件(rlabel−Ambi(d))>Taが満たされない場合、文書dはラベルが適正に貼られている可能性があるとみなされる。ある実施例において、ミスラベリング文書識別に関する修正措置は、ユーザが、ミスラベリング被疑文書dについてのモデル提案c1を確認(採用)または無効化(不採用)できるようにすることである。その後、新しい範疇化において、新しいクラス割当c1を事前設定されたモデルパラメータとして使用する。
階層モデルでは、コンポーネントの単語プロファイルは、階層の異なる段階から導出される。つまり、ある文書において使用される単語は、葉ノードまたは葉クラスと関連付けられるだけでなく、木構造クラス階層内の葉クラスの階層的先祖とも関連付けられる。ある実施例において、階層モデルは、
として示され、v≧cはcそのものを含むノードcのすべての先祖を示す。階層レベルは、異なる語彙レベルと考えることができ、これはアウトライヤ度の拡張と階層化のための閾値処理に関して興味深く、有用な面を提供する。訓練文書集合10に関してまったく無関係な文書を考える。この文書は、英語で書かれているという事実以外、それが他の文書と類似性を持たないという意味でまったく関係がない。しかしながら、言語の共通性により、これらの文書は本来的に訓練集合10の文書と何らかの類似性を共有することが確認される。なぜなら、これらはすべて英語で書かれているからである。「一般的な英語」という類似性要素を排除することにより、アウトライヤ検出アルゴリズムの精度を高めることができる。より一般的には、この手法は、階層の異なるレベルまたは部分に適用することができる。たとえば、アウトライヤ文書は、階層木構造のうちのいくつかの選択された枝(branch)の中に検出されるかもしれない。たとえば、ある文書が何らかの広い話題に属すると事前に知っている場合、その文書がその広い話題におけるアウトライヤ文書か否かを判断することが有益であろう。以下において、アウトライヤ分析は、高位ノードμに関して条件付けされる。高位ノードμは、根ノード、あるいは中間ノードとすることができる。以下の階層拡張子は、それぞれの例のCEとKLのアウトライヤ度について次のように導出することができる。
ただし、
、また、
アウトライヤ度計算機32、曖昧性計算機42およびミスラベリング被疑文書識別装置50のいくつかの例を示したところで、次に、GUIインタフェース14のユーザ応答構成の例を紹介する。アウトライヤ文書に関しては、考えられる応答として、(i)アウト
ライヤ文書を排除する(カタログに入れられる予定の主題とは関係がない場合に適当な応答)、(ii)アウトライヤ文書に類似する別の文書を追加する(アウトライヤ文書が文書
集合10の過少代表である主題と関係がある場合に適当な応答)、アウトライヤ文書をグループにまとめる(生成されたモデルがアウトライヤ文書により代表されるクラスを捕捉しなかったと思われる場合に適当な応答)、あるいは潜在クラスの数を変更する。曖昧文書の場合、ユーザは曖昧文書にラベルを肯定的に割り当てることができる。ラベリングが誤っている文書の場合、ユーザは修正ラベルを割り当てることができる。このようなユーザによる調整が行われると、更に、変更された文書集合(つまり、ユーザが特定のアウトライヤ文書を削除するか、ユーザが別の文書を追加したもの)についてモデリング(モデル化)を繰り返してもよく、更に、ユーザが追加した制約条件(特定の文書に関する修正済みまたは追加されたクラスラベルまたは変更された潜在クラスの数等)を用いてモデリングを繰り返してもよい。モデリングを繰り返すことによって新たなモデルが得られ、このモデルは再びアウトライヤ文書、曖昧文書およびミスラベリング被疑文書について解析され、ユーザにとって容認できるモデルが得られるまで、この工程が繰り返される。
図3を参照すると、ユーザに、アウトライヤ文書識別36がユーザの入力によって反復的に行われるプロセスレポートを提供するのに適したGUIディスプレイが描かれている。ディスプレイの主要部分には、5つのタイトルがつけられた欄、つまり、「文書名」70、「信頼スコア(%)」72、「クラスタ/カテゴリ」74、「確率」76、「ミスラベリング」78がある。「文書名」の欄70は、文書を特定する情報である。「信頼スコア(%)」の欄72は、パーセンテージで表されるアウトライヤ度を表し、ディスプレイの右下隅のスライダ79によって設定される閾値より低い数値はグレー表示され、グレーの量が信頼性の欠如を示す。「クラスタ/カテゴリ」の欄74は、その文書が割り当てられるクラスを表す。このクラスは、教師なしモード(つまり、クラスタリングモード)におけるモデルによって計算されたクラスタか、あるいは教師ありモード(つまり、範疇化モード)においてユーザにより割り当てられた事前アノテーション付けされたカテゴリのいずれかである。「確率」の欄76は、ア・ポステリオリ(事後)確率をパーセンテージで明示する。ア・ポステリオリ確率とは、モデルにより計算される、文書が欄74において特定されたクラスに属する確率P(c|d)である。「ミスラベリング」の欄78は、教師ありまたは半教師あり学習のみにおいて、ミスラベリング可能性識別装置50が文書をミスラベリング可能性ありと識別した場合に提案される新しいクラス割当を示す。ディスプレイにはまた、右側に選択ボタンがあり、たとえば、「ファイルを追加して再構築」ボタン80、「選択された文書を削除して再構築」ボタン82、「アウトライヤをグループにまとめて再構築」ボタン84(クラスタリング動作に適している)、「クラスタ数を変更して再構築」ボタン86、「アウトライヤにラベルを貼って再構築」ボタン88(半教師ありクラスタリング動作に適する)、「ミスラベルを修正して再構築」ボタン90(教師あり範疇化動作に適する)がある。チェックボックス欄92は各文書名の左側のチェックボックスであり、ユーザはどの動作をどの文書に適用するかを選択できる(つまり、追加、排除、まとめ、ラベリング、またはミスラベリング修正)。
図3のGUIディスプレイによって実現する半自動工程では、アウトライヤ文書(そして任意でミスラベリング被疑文書)の識別が自動化されるが、これらの識別されたアウトライヤまたはミスラベリング被疑文書について何をするかの選択は、ユーザにゆだねられる。この考えは、完全自動化工程を実現するのではなく、ユーザに対して文書集合10の中の特定の文書を指し示し、ユーザが修正または調整を行ってから、新しいクラスタリングまたは範疇化工程を実行して、新たなモデルを構築することができるようにするものである。完全自動化された工程は本来的に、クラスの数や文書のグループ分け等のモデル構造が正しいという前提にたっているため、機械学習によってモデルが導き出すもとになった文書またはモデルパラメータの中の欠点を推測するのに、このように正しいことを前提としたモデルを使用することは逆説的である。したがって、説明したような半自動工程が有利であると考えられる。
図3のGUIディスプレイにおいて、アウトライヤ閾値処理装置34によって使用されるアウトライヤ閾値は、右下のスライダ79から選択可能である。訓練集合10の大きさに応じて、約1%から約5%の範囲の閾値は良好な代表的数値であると思われる。ユーザは図3のGUIディスプレイを使い、チェックボックス欄92で1つまたは複数の文書を開き、チェックすることができ、その後、各種の右側の選択ボタン80,82,84,86,88,90のいずれかを選択することができる。
「選択された文書を排除して再構築」ボタン82を選択すると、ユーザはチェックされた文書が訓練文書集合10から排除されるべきであることを確認できる。すると、コントローラは、文書の集合から選択された1つまたは複数のアウトライヤ文書を除いたものについて、クラスタラまたは分類器20を動作させる。
「アウトライヤをまとめて再構築」ボタン84は、クラスタリングまたは半教師あり学習モードでのみ選択でき、これによってユーザは、チェックされた文書がアウトライヤ(外れ文書)であるが、これらは、モデルの一部にすべき文書であることを確認できる。ユーザは、提供すべき類似のサンプル文書を持たないが、チェックされた文書を特定のクラス(たとえば、「その他」というデフォルト名を有するもの)にまとめるようにすることができる。クラスタリングは、同じ文書集合10について再実行されるが、これはチェックされた文書に共通の事前にアノテーション付けされたクラス名のラベルをつけることを含め、事前設定されたモデルパラメータを使って行われる。これは実際には、チェックされた文書のグループ分けを考慮した半教師ありモードである。その効果として、チェックされたアウトライヤ文書をまとめ、それによってこれらが次のクラスタリング反復中に同じ潜在クラスに入れられるように制約を受けることを意味する。おそらく、半教師ありクラスタリングでは、チェックされた文書が割り当てられる共通クラス(たとえば、デフォルト名「その他」のクラス)にさらに別の文書が移動されるかもしれない。
「アウトライヤにラベルをつけて再構築」ボタン88は、クラスタリングモードでのみ選択でき、これによってユーザは、チェックされた文書がアウトライヤであるが、モデルの一部とすべき文書であることを確認(指示)できる。ユーザはチェックされた文書にクラスラベルでラベリングする。コントローラはクラスタ20を再起動し、モデル24を再構築する。
「ファイルを追加して再構築」ボタン80を選択することにより、ユーザは、文書集合10に別の文書を追加して、文書集合をより代表的(典型的)なものとすることができる。この場合、ユーザは、例えば、アウトライヤ文書群が、モデルに含められるべき1つのタイプであるが、現在は文書集合10において過少代表である(過小評価されている)ことに気づく。そこで、ユーザはこのタイプの1つまたは複数の文書を集まり(集合)に追加する(教師ありモードの場合、対応するラベルをつける)。追加する文書の選択は、ファイル選択ダイアログボックス(図示せず)を使って適切に行われる。GUIインタフェースソフトウェア18がLinux/X−Window,Mac OSまたはWindows(登録商標)等の汎用オペレーティングシステムの下で実行する場合、ファイル選択ダイアログボックスは、そのオペレーティングシステムのファイル選択ダイアログボックスのスタイルに適合することが好ましいが、カスタム構成によるファイル選択ダイアログボックスも利用できる。「ファイルを追加して再構築」ボタン80を選択すると、クラスタラまたはカテゴライザ20は、文書集合に1つまたは複数の別文書を追加したものに関して起動し、新たなモデルを生成する。
「クラスタ数を変更して再構築」ボタン86はクラスタリング時にのみ選択できる。このボタンを選択することは、ユーザが訓練文書集合10を変更せず、クラスの数を調整したいと考えていることを示す。このボタンを選択すると、ユーザがクラス数を増減するために選択できるダイアログボックス(図示せず)が表示される。ある実施例において、ダイアログボックスによって、クラス数を数字で入力できるため、ユーザはクラス数をいくつにでも自由に選択できる(クラス数を1つより大きく、文書総数より小さくする等、現実的な考慮事項によって限定してもよい)。別の実施例として、ダイアログボックスに、クラス数を1ずつ増やすためのボタンまたはクラス数を1ずつ減らす別のボタンを含めてもよい。この方式では、利便性を向上させるために柔軟性が幾分犠牲となる。他のダイアログ構成も利用できる。クラス数が調整されると、コントローラはクラスタラまたは分類器20の起動を繰返し、修正されていない文書集合10について、事前設定されたモデリングパラメータ等として、異なるクラス数を用いてクラスタリングを行う。たとえば、クラス数を増やすことにより、アウトライヤはより小さな、「よりよく適合する」と思われるクラスに移動できる。
「ミスラベリングを修正して再構築」ボタン90を選択すると、ユーザは図3のディスプレイの一番右側の「ミスラベリング」の欄78に表示された新しいクラス割当提案を確認または無効化することができる。チェックボックス欄92を通じてチェックされた文書は、提案されたラベルを使ってまとめてアノテーション付けされ、チェックされていない文書について提案ラベルは廃棄される。より複雑な実施例において、各チェックボックスについて、ダイアログウィンドウ(図示せず)がユーザに対して表示され、ユーザが、デフォルトオプションとして設定された、あるいは提案されたクラスがハイライトされた状態、あるいはダイアログウィンドウの中でその他の方法で強調された状態で、リストから修正のためのクラスアノテーション付けを選択できる。カテゴライザ20は、これらの新たなクラスアノテーション付けを使って再起動される。このオプションはまた、クラスタリングにおいても使用され、この場合、半教師ありクラスタリングが行われ、新しいモデルが生成され、クラスタリングは選択された新しいクラス割当提案によって制約される。
以上の是正または調整のためのユーザによる選択は例示的なものにすぎない。上記の実施例において、修正動作または調整を選択するとクラスタラまたはカテゴライザ20は自動的に起動して更新を開始し、1回の反復実行(iteration)で1回の調整を行う。別の実現可能な実施例において、2つまたはそれ以上のこうした修正または調整を1回の反復実行で行うことができる。これは、たとえばGUIインタフェースを変更してユーザが複数の修正措置または調整を実行することができるようにし、その後別の「再構築」ボタン(図示せず)を使ってクラスタラまたはカテゴライザ20を起動させ、モデルを再構築することができる。たとえば、このような実施例によれば、ユーザは特定のアウトライヤ文書の排除、別文書の追加、クラス数の増加を選択し、これら3つの選択を行った後にのみ、「再構築」ボタンを使って次回のクラスタリングまたは範疇化を行うことができる。
説明した例以外の是正措置もまた可能である。有利な点として、アウトライヤ文書はハイライトされ(たとえば、図3においてはグレー表示されている)、ユーザが、修正動作または調整を行う可能性が最も高い文書であるアウトリア文書に注目できるようにする。図3において、グレーの濃さは、文書のアウトライヤ度がアウトライヤ閾値よりどれだけ高いかを示す。別の実施例では、すべてのアウトライヤ文書が特定のアウトライヤ度に関係なく、たとえば「文書名」の欄70に示された各アウトライヤ文書の名前の前にアステリスクをつけること等によって、同様に示される(この機能は図示されない)。
ユーザにアウトリア文書の識別情報(そして、場合によってはミスラベリング被疑文書の識別情報も)を提示するための上記の方法のさらに別の利点は、ユーザが文書の集合とこれらの文書によって代表される内容をよりよく理解できる点である。図3の実施例において、アウトライヤ文書はハイライトされているものの、アウトライヤ度の定量的数値を表示する「信頼スコア」の欄とともにすべての文書について利用できるチェックボックスがあるため、ユーザは識別されたアウトライヤ文書に対するものではない調整を行うこともできる。たとえば、ユーザはアウトライヤ閾値処理装置34によりアウトライヤ文書として識別されていない文書を排除することを選択できる。別の実施例において、ユーザの選択をアウトライヤ文書に限定し、あるいはアウトライヤまたはミスラベリング被疑文書に限定してもよい。
また、モデル24が構造的に更新されるときに、クラスタリングと範疇化を再実行することなく、アウトライヤ度を調整することもできる。このような構造的更新には、たとえば、クラスを2つまたはそれ以上のより小さなクラスに分割すること、2つまたはそれ以上のクラスを単独のより大きなクラスにまとめること、文書を1つのクラスから別のクラスに移すこと等である。このような構造的更新は、ある場合において、クラスタリングまたは範疇化を再実行することなく実行でき、あるいはクラスタリングまたは範疇化をクラス構造の関係部分にのみ適用して実行することもできる。たとえば、1つのクラスを2つの別のクラスに分割するのは、クラスタリングを分割対象クラスの文書に限定して行うことによっても実行できる。別の例として、文書を1つのクラスから別のクラスに移すのは、関係するクラスとその先祖にあたるクラスについてのみ(1)式のパラメータを代数的に更新することによって実行される。完全な再構築を行わないこのような構造的更新のその他の例は、本願と同時係属中の出願である2006年3月29日出願のゲラッツ(Guerraz)の米国特許出願第11/391,864号において開示されており、(11)式または(12)式を一緒に適用し、アウトライヤ度を更新できる。
ある実施例において、アウトライヤ度の更新は、ソフトクラスタリングスコアをハードクラスタリングスコアにより近似する(概算する)ことによって適切に行われる。サンプルコーパス(言語資料)群について行ったトライアルの結果、ソフトパーティショニングに基づくアウトライヤ度分布からハードパーティショニングに基づく分布に移行させても、性能に大きな影響を与えないことが示唆された。
階層構造の更新の場合、構造的な更新に関わったクラスだけのアウトライヤ度を更新することで十分であることがわかる。適当な方式によれば、モデルパラメータは、関係するクラスについて更新され、新しい
のプロファイルが関係するクラスについて計算される。これらの新しい確率的または統計的モデルパラメータを使って、関係するアウトライヤ度を、クロスエントロピーアウトライヤ度計算式の例では、
、にしたがって、また、カルバック・ライブラー・ダイバージェンスアウトライヤ度計算式の例では、
にしたがって、それぞれ調整する。
上記において、アウトライヤおよび曖昧度は、モデル24の反復的構築中に適用された。しかしながら、これらの尺度は、ランタイム(実行時)、たとえば、最初(オリジナル)の訓練用文書集合10に含まれない新しい文書を範疇化するためにモデルを使用するとき、に使用できる。このような場合、反復的な期待値最大化(EM)アルゴリズムまたはその他の範疇化アルゴリズムを使って、新しい文書を(ハードパーティショニングの場合)最適なクラスに分類し、(ソフトパーティショニングの場合)1つまたは複数の最適なクラスに確率的に分類する。更に、新しい文書についてのクロスエントロピー、ダイバージェンスまたはその他の適当なアウトライヤ度をアウトライヤ度計算機32によって計算してもよく、アウトライヤ閾値処理装置34によってユーザの選択したアウトライヤ閾値(これは、反復的なモデル構築処理に使用されたものとは異なる閾値であってもよい)と比較することで新たに範疇化された文書がそのモデル24に関してアウトライヤ文書であるか否かが判断してもよい。このような場合、GUIインタフェース14により、新規文書はそのモデルの下での最適なクラスに割り当てられているものの、アウトライヤ度が示すように適合度が低いということがユーザに示される。
同様に、ランタイム中に、曖昧度計算機42は、新たに範疇化された文書に関する曖昧度を計算してもよい。曖昧度がその文書は1つのクラスではなく、複数のクラスによく適合することを示していると、GUIインタフェースはユーザに対し、新規文書はモデルの下で最適なクラスに割り当てられているが、その文書は別のクラス(おそらく、曖昧度の数値に応じて2つまたはそれ以上の別のクラス)にもよく適合することを知らせる。
<補遺>
以下に示すような態様も考えられる。
《態様1》
文書のクラスタリングまたは範疇化のための方法であって、
複数の文書に対して確率的クラスタリングまたは確率的範疇化を行うことにより、各文書をクラスに関連付けるモデルを生成するステップと、
前記複数の文書について、各文書が前記モデルにどれだけよく適合するかを示すアウトライヤ度を計算するステップと、
計算されたアウトライヤ度とユーザが選択したアウトライヤ基準とに基づいて、ユーザに対してアウトライヤ文書を特定するステップと、
を含むことを特徴とする方法。
《態様2》
態様1に記載の方法であって、さらに、
前記ユーザから、前記複数の文書における変更、あるいは前記確率的クラスタリングまたは確率的範疇化についての制約、を選択するユーザ入力を受け取るステップであって、前記ユーザ入力は少なくとも、
(1)前記特定されたアウトライヤ文書のうち排除すべき1つまたは複数、
(2)前記複数の文書に追加すべき1つまたは複数の文書、
(3)クラス数、
(4)選択されたアウトライヤ文書をひとつにまとめるという制約、
のうちの少なくともひとつを選択する入力であるステップと、
前記受け取ったユーザ入力に基づいて前記クラスタリングまたは範疇化を反復して行い、文書をクラスに関連付ける新しいモデルを生成するステップと、
を含むことを特徴とする方法。
《態様3》
態様1に記載の方法であって、さらに、
1つのクラスではなく2つまたはそれ以上のクラスに対し確率的または統計的に類似する曖昧文書、を特定するステップを含むことを特徴とする方法。
《態様4》
態様1に記載の方法であって、
前記確率的クラスタリングまたは確率的範疇化を行うステップにおいて前記複数の文書の中のアノテーション付けされた文書はラベルクラスに制約されており、前記方法はさらに、
前記生成されたモデルに基づいて前記アノテーション付けされた文書に対して最も適合するクラスを特定するステップと、
前記最も適合するクラスが前記ラベルクラスとは異なる場合に、前記最も適合するクラスを、前記アノテーション付けされた文書の修正のためのラベルクラスの候補として特定するステップと、
を含むことを特徴とする方法。
《態様5》
態様4に記載の方法であって、
前記修正のためのラベルクラスの候補を特定するステップが実行されるためには、前記アノテーション付けされた文書がアウトライヤ文書として特定されていないことを条件とすることを特徴とする方法。

文書クラスタリングまたは分類システムの例を示す概略図である。 クラスタリングまたは範疇化によってモデル付けされ、その後クロスエントロピーに基づくアウトライヤ度計算式を使ってアウトライヤ解析された文書集合に関するアウトライヤ度の累積ヒストグラムを示す概略図である。 図1のシステムのグラフィカルユーザインタフェースのディスプレイであって、ユーザが対話的に特定されたアウトライヤ文書と自動的に特定された曖昧文書に基づいて修正や調整を行うことができるようにするディスプレイの一例を示す図である。
符号の説明
10 訓練文書集合、12 文書選択、14 グラフィカルユーザインタフェース、16 コンピュータ、20 分類器、カテゴライザ、22 モデリングパラメータ、24 モデル、30 クラス群、34 アウトライヤ閾値処理装置、36 アウトライヤ文書識別、42 曖昧度計算機、44 曖昧度閾値処理装置、46 曖昧文書、50 ミスラベリング可能性識別、52 ミスラベリング被疑文書。

Claims (4)

  1. 文書クラスタリング又は範疇化システムであって、
    確率的クラスタリング又は範疇化手段と、
    アウトライヤ度計算機と、
    グラフィカルユーザインタフェースを備えるコントローラと、
    を備え、前記コントローラは、
    (i) 文書の集合に対して前記確率的クラスタリング又は範疇化手段を呼び出すことにより、それら文書をクラスに関連付けるモデルを生成し、
    (ii) 前記アウトライヤ度計算機を呼び出すことにより、各文書について、その文書が前記確率的クラスタリング又は範疇化手段により生成されたモデルにどれだけ適合しているかを示すアウトライヤ度を計算し、
    (iii) ユーザが前記グラフィカルユーザインタフェースを使って選択したアウトライヤ基準を満たすアウトライヤ度を有するアウトライヤ文書を、前記グラフィカルユーザインタフェースによってユーザに対して提示し、
    (iv) 前記(iii)の提示に続いて、前記グラフィカルユーザインタフェースを介してユーザから前記文書の集合の変更、前記確率的クラスタリング又は範疇化手段についての制約、又は前記モデルの受け入れ、を選択するユーザ入力を受け取り、
    (v) 前記ユーザ入力により調整された前記文書の集合に対して、前記確率的クラスタリング又は範疇化手段を呼び出すことにより、前記モデルを更新し、
    (vi) 前記ユーザ入力が前記モデルの受け入れを選択するものとなるまで、前記(ii)〜(v)の処理を繰り返す、
    文書クラスタリング又は範疇化システム。
  2. 前記文書の集合の少なくとも1つは、ラベルクラスをアノテーションとして付加されたラベル付きの文書であり、
    前記文書クラスタリング又は範疇化システムは、更に、
    前記モデルの下で確率的又は統計的にみて前記ラベルクラスとは別のクラスに対してより類似している、誤ってラベル付けされた可能性のある文書を識別するように構成されたラベル付け誤り文書識別手段、を備え、
    前記コントローラは、更に、前記ラベル付け誤り文書識別手段を呼び出すことにより、ユーザに対して、前記グラフィカルユーザインタフェースを介して、誤ってラベル付けされた可能性のある文書を提示する、
    請求項1に記載の文書クラスタリング又は範疇化システム。
  3. 前記モデルの下で確率的又は統計的にみて2以上のクラスに類似している曖昧文書を識別するように構成された曖昧文書識別手段、を更に備え、
    前記コントローラは、更に、前記曖昧文書識別手段を呼び出すことにより、ユーザに対して、前記グラフィカルユーザインタフェースを介して曖昧文書を提示する、
    請求項1に記載の文書クラスタリング又は範疇化システム。
  4. 確率的クラスタリング又は範疇化手段と、
    アウトライヤ度計算機と、
    グラフィカルユーザインタフェースを備えるコントローラと、
    を備える文書クラスタリング又は範疇化システムにおける、文書クラスタリング又は範疇化方法であって、
    前記コントローラが、
    複数の文書に対して前記確率的クラスタリング又は範疇化手段を呼び出して確率的クラスタリング又は確率的範疇化を行うことにより、各文書をクラスに関連付けるモデルを生成するステップと、
    前記アウトライヤ度計算機を呼び出すことにより、前記複数の文書について、各文書が前記モデルにどれだけよく適合するかを示すアウトライヤ度を計算するステップと、
    計算されたアウトライヤ度とユーザが選択したアウトライヤ基準とに基づいてアウトライヤ文書を特定し特定したアウトライヤ文書を前記グラフィカルユーザインタフェースによってユーザに対して提示するステップと、
    グラフィカルユーザインタフェースを介してユーザから前記文書の集合の変更、前記確率的クラスタリング又は範疇化についての制約、又は前記モデルの受け入れ、を選択するユーザ入力を受け取るステップと、
    受け取ったユーザ入力に基づいて調整された文書の集合に対して、前記確率的クラスタリング又は範疇化手段を呼び出して前記確率的クラスタリング又は範疇化の実行を繰り返すことにより、各文書をクラスに関連付ける更新されたモデルを生成するステップと、
    前記アウトライヤ度の計算のステップと、前記アウトライヤ文書の特定及び提示のステップと、前記ユーザ入力の受け取りのステップと、前記確率的クラスタリング又は範疇化の実行の繰り返しのステップと、を前記ユーザが更新されたモデルを受け入れるまで反復するステップと、
    を含む方法。
JP2008095354A 2007-04-06 2008-04-01 文書のクラスタリング又は範疇化のための方法 Expired - Fee Related JP4774073B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/784,321 2007-04-06
US11/784,321 US7711747B2 (en) 2007-04-06 2007-04-06 Interactive cleaning for automatic document clustering and categorization

Publications (3)

Publication Number Publication Date
JP2008257732A JP2008257732A (ja) 2008-10-23
JP2008257732A5 JP2008257732A5 (ja) 2010-12-16
JP4774073B2 true JP4774073B2 (ja) 2011-09-14

Family

ID=39766857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008095354A Expired - Fee Related JP4774073B2 (ja) 2007-04-06 2008-04-01 文書のクラスタリング又は範疇化のための方法

Country Status (3)

Country Link
US (1) US7711747B2 (ja)
EP (1) EP1988478A1 (ja)
JP (1) JP4774073B2 (ja)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9182932B2 (en) 2007-11-05 2015-11-10 Hewlett-Packard Development Company, L.P. Systems and methods for printing content associated with a website
US8775441B2 (en) * 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8296301B2 (en) 2008-01-30 2012-10-23 Commvault Systems, Inc. Systems and methods for probabilistic data classification
US8285719B1 (en) * 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
US8447120B2 (en) * 2008-10-04 2013-05-21 Microsoft Corporation Incremental feature indexing for scalable location recognition
CN103810527B (zh) 2008-10-23 2017-08-08 起元技术有限责任公司 数据操作执行、数据质量度量和数据元素联接方法和系统
US20110066955A1 (en) * 2008-12-01 2011-03-17 VeraCarta Corporation System and Method for Managing a Written Transaction
US8339680B2 (en) * 2009-04-02 2012-12-25 Xerox Corporation Printer image log system for document gathering and retention
US8386437B2 (en) * 2009-04-02 2013-02-26 Xerox Corporation Apparatus and method for document collection and filtering
US8165974B2 (en) 2009-06-08 2012-04-24 Xerox Corporation System and method for assisted document review
US9405456B2 (en) * 2009-06-08 2016-08-02 Xerox Corporation Manipulation of displayed objects by virtual magnetism
US8515957B2 (en) 2009-07-28 2013-08-20 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via injection
EP2471009A1 (en) 2009-08-24 2012-07-04 FTI Technology LLC Generating a reference set for use during document review
US8171049B2 (en) 2009-09-18 2012-05-01 Xerox Corporation System and method for information seeking in a multimedia collection
US8566349B2 (en) 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
US20120197910A1 (en) * 2009-10-11 2012-08-02 Patrick Sander Walsh Method and system for performing classified document research
CA2777506C (en) * 2009-10-15 2016-10-18 Rogers Communications Inc. System and method for grouping multiple streams of data
US8392432B2 (en) * 2010-04-12 2013-03-05 Microsoft Corporation Make and model classifier
US8359279B2 (en) 2010-05-26 2013-01-22 Microsoft Corporation Assisted clustering
US8666915B2 (en) 2010-06-02 2014-03-04 Sony Corporation Method and device for information retrieval
US9703895B2 (en) * 2010-06-11 2017-07-11 Microsoft Technology Licensing, Llc Organizing search results based upon clustered content
US20110314010A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Keyword to query predicate maps for query translation
US20120011112A1 (en) * 2010-07-06 2012-01-12 Yahoo! Inc. Ranking specialization for a search
US10089390B2 (en) 2010-09-24 2018-10-02 International Business Machines Corporation System and method to extract models from semi-structured documents
US8510257B2 (en) * 2010-10-19 2013-08-13 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
US8484245B2 (en) * 2011-02-08 2013-07-09 Xerox Corporation Large scale unsupervised hierarchical document categorization using ontological guidance
US8756503B2 (en) 2011-02-21 2014-06-17 Xerox Corporation Query generation from displayed text documents using virtual magnets
US9152357B2 (en) 2011-02-23 2015-10-06 Hewlett-Packard Development Company, L.P. Method and system for providing print content to a client
JP6066086B2 (ja) * 2011-02-28 2017-01-25 日本電気株式会社 データ判別装置、方法及びプログラム
US9137394B2 (en) 2011-04-13 2015-09-15 Hewlett-Packard Development Company, L.P. Systems and methods for obtaining a resource
US8903712B1 (en) * 2011-09-27 2014-12-02 Nuance Communications, Inc. Call steering data tagging interface with automatic semantic clustering
JP5684084B2 (ja) * 2011-10-04 2015-03-11 日本電信電話株式会社 誤分類検出装置、方法、及びプログラム
US8881007B2 (en) 2011-10-17 2014-11-04 Xerox Corporation Method and system for visual cues to facilitate navigation through an ordered set of documents
US9454528B2 (en) 2011-10-17 2016-09-27 Xerox Corporation Method and system for creating ordered reading lists from unstructured document sets
US9489161B2 (en) 2011-10-25 2016-11-08 Hewlett-Packard Development Company, L.P. Automatic selection of web page objects for printing
US9361355B2 (en) 2011-11-15 2016-06-07 Ab Initio Technology Llc Data clustering based on candidate queries
US9183293B2 (en) * 2011-12-13 2015-11-10 Xerox Corpoation Systems and methods for scalable topic detection in social media
US8860763B2 (en) 2012-01-31 2014-10-14 Xerox Corporation Reversible user interface component
US9292793B1 (en) * 2012-03-31 2016-03-22 Emc Corporation Analyzing device similarity
US8880525B2 (en) 2012-04-02 2014-11-04 Xerox Corporation Full and semi-batch clustering
US9189473B2 (en) 2012-05-18 2015-11-17 Xerox Corporation System and method for resolving entity coreference
US8972312B2 (en) * 2012-05-29 2015-03-03 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
US9773214B2 (en) 2012-08-06 2017-09-26 Hewlett-Packard Development Company, L.P. Content feed printing
US9348899B2 (en) * 2012-10-31 2016-05-24 Open Text Corporation Auto-classification system and method with dynamic user feedback
US20140180934A1 (en) * 2012-12-21 2014-06-26 Lex Machina, Inc. Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters
US9418148B2 (en) * 2012-12-31 2016-08-16 Nuance Communications, Inc. System and method to label unlabeled data
US8923608B2 (en) 2013-03-04 2014-12-30 Xerox Corporation Pre-screening training data for classifiers
WO2015040110A1 (en) * 2013-09-19 2015-03-26 L'oréal Sa Systems and methods for measuring and categorizing colors and spectra of surfaces
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
JP6044963B2 (ja) 2014-02-12 2016-12-14 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
US9183285B1 (en) * 2014-08-27 2015-11-10 Next It Corporation Data clustering system and methods
US10599953B2 (en) 2014-08-27 2020-03-24 Verint Americas Inc. Method and system for generating and correcting classification models
US9679024B2 (en) * 2014-12-01 2017-06-13 Facebook, Inc. Social-based spelling correction for online social networks
WO2016105334A1 (en) 2014-12-22 2016-06-30 Hewlett-Packard Development Company, L.P. Providing a print-ready document
CN107851097B (zh) 2015-03-31 2021-10-01 株式会社Fronteo 数据分析系统、数据分析方法、数据分析程序及存储介质
US11074529B2 (en) 2015-12-04 2021-07-27 International Business Machines Corporation Predicting event types and time intervals for projects
TWI571756B (zh) 2015-12-11 2017-02-21 財團法人工業技術研究院 用以分析瀏覽記錄及其文件之方法及其系統
US11120460B2 (en) 2015-12-21 2021-09-14 International Business Machines Corporation Effectiveness of service complexity configurations in top-down complex services design
US10896381B2 (en) * 2016-03-18 2021-01-19 Fair Isaac Corporation Behavioral misalignment detection within entity hard segmentation utilizing archetype-clustering
WO2017171826A1 (en) 2016-04-01 2017-10-05 Intel Corporation Entropic classification of objects
AU2017274558B2 (en) 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
US10929872B2 (en) 2016-06-24 2021-02-23 International Business Machines Corporation Augmenting missing values in historical or market data for deals
US10902446B2 (en) 2016-06-24 2021-01-26 International Business Machines Corporation Top-down pricing of a complex service deal
US11042579B2 (en) * 2016-08-25 2021-06-22 Lakeside Software, Llc Method and apparatus for natural language query in a workspace analytics system
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10515379B2 (en) * 2016-12-20 2019-12-24 Adobe Inc. Computerized detection and semantic characterization of trends in digital media content
CN107690659B (zh) * 2016-12-27 2021-08-10 达闼机器人有限公司 一种图像识别系统及图像识别方法
CN108875760A (zh) * 2017-05-11 2018-11-23 阿里巴巴集团控股有限公司 聚类方法和装置
KR101888683B1 (ko) * 2017-07-28 2018-08-14 펜타시큐리티시스템 주식회사 비정상 트래픽을 탐지하는 방법 및 장치
WO2019033032A2 (en) * 2017-08-11 2019-02-14 Ancestry.Com Dna, Llc EVALUATION OF DIVERSITY IN GENEALOGICAL RESEARCH
US11182833B2 (en) 2018-01-02 2021-11-23 International Business Machines Corporation Estimating annual cost reduction when pricing information technology (IT) service deals
US20210012158A1 (en) * 2018-02-16 2021-01-14 Nippon Telegraph And Telephone Corporation Learning apparatus, identification apparatus, methods thereof, and program
US10162850B1 (en) * 2018-04-10 2018-12-25 Icertis, Inc. Clause discovery for validation of documents
JP6952660B2 (ja) * 2018-08-28 2021-10-20 株式会社東芝 更新支援装置、更新支援方法およびプログラム
US11347812B2 (en) * 2018-08-30 2022-05-31 Google Llc Percentile linkage clustering
US10936974B2 (en) 2018-12-24 2021-03-02 Icertis, Inc. Automated training and selection of models for document analysis
US10726374B1 (en) 2019-02-19 2020-07-28 Icertis, Inc. Risk prediction based on automated analysis of documents
US11361034B1 (en) 2021-11-30 2022-06-14 Icertis, Inc. Representing documents using document keys
US11977841B2 (en) 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents
US11526261B1 (en) * 2022-02-18 2022-12-13 Kpmg Llp System and method for aggregating and enriching data

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003027A (en) * 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US7444308B2 (en) 2001-06-15 2008-10-28 Health Discovery Corporation Data mining platform for bioinformatics and other knowledge discovery
US6424971B1 (en) 1999-10-29 2002-07-23 International Business Machines Corporation System and method for interactive classification and analysis of data
US6751600B1 (en) 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
US7043492B1 (en) 2001-07-05 2006-05-09 Requisite Technology, Inc. Automated classification of items using classification mappings
US7644102B2 (en) 2001-10-19 2010-01-05 Xerox Corporation Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
US7020642B2 (en) * 2002-01-18 2006-03-28 Pavilion Technologies, Inc. System and method for pre-processing input data to a support vector machine
US7050932B2 (en) 2002-08-23 2006-05-23 International Business Machines Corporation Method, system, and computer program product for outlier detection
US7139754B2 (en) 2004-02-09 2006-11-21 Xerox Corporation Method for multi-class, multi-label categorization using probabilistic hierarchical modeling
US7426497B2 (en) 2004-08-31 2008-09-16 Microsoft Corporation Method and apparatus for analysis and decomposition of classifier data anomalies
US20060069667A1 (en) 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US7457808B2 (en) 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US7849087B2 (en) 2005-06-29 2010-12-07 Xerox Corporation Incremental training for probabilistic categorizer
US7630977B2 (en) 2005-06-29 2009-12-08 Xerox Corporation Categorization including dependencies between different category systems

Also Published As

Publication number Publication date
JP2008257732A (ja) 2008-10-23
US7711747B2 (en) 2010-05-04
EP1988478A1 (en) 2008-11-05
US20080249999A1 (en) 2008-10-09

Similar Documents

Publication Publication Date Title
JP4774073B2 (ja) 文書のクラスタリング又は範疇化のための方法
CN109446338B (zh) 基于神经网络的药物疾病关系分类方法
US9317569B2 (en) Displaying search results with edges/entity relationships in regions/quadrants on a display device
US7813919B2 (en) Class description generation for clustering and categorization
Culotta et al. Corrective feedback and persistent learning for information extraction
EP1840772A1 (en) Hierarchical clustering with real-time updating
US10678769B2 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
WO2020198855A1 (en) Method and system for mapping text phrases to a taxonomy
CN112352243A (zh) 专家报告编辑器
WO2020161505A1 (en) Improved method and system for text based searching
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
US20140244293A1 (en) Method and system for propagating labels to patient encounter data
CN111259156A (zh) 一种面向时间序列的热点聚类方法
Heidary et al. Automatic text summarization using genetic algorithm and repetitive patterns
JP5379813B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
JP2010267017A (ja) 文書分類装置、文書分類方法および文書分類プログラム
Deschacht et al. Efficient hierarchical entity classifier using conditional random fields
CN108984726B (zh) 一种基于扩展的sLDA模型对图像进行标题注释的方法
CN112698831A (zh) 一种代码自动生成质量评估方法
Kuttiyapillai et al. Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques
Zervakis et al. On refining bert contextualized embeddings using semantic lexicons
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
US11868313B1 (en) Apparatus and method for generating an article
CN117688354B (zh) 一种基于进化算法的文本特征选择方法及系统
US11727215B2 (en) Searchable data structure for electronic documents

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101027

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20101027

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20101111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110314

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110624

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4774073

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees