JP2003140942A - 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品 - Google Patents

共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品

Info

Publication number
JP2003140942A
JP2003140942A JP2002300829A JP2002300829A JP2003140942A JP 2003140942 A JP2003140942 A JP 2003140942A JP 2002300829 A JP2002300829 A JP 2002300829A JP 2002300829 A JP2002300829 A JP 2002300829A JP 2003140942 A JP2003140942 A JP 2003140942A
Authority
JP
Japan
Prior art keywords
document
hierarchy
collection
cluster
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002300829A
Other languages
English (en)
Other versions
JP4384398B2 (ja
Inventor
Eric Gaussier
ガウシール エリック
Francine R Chen
アール チェン フランシン
Ashok C Popat
シー ポパット アショク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2003140942A publication Critical patent/JP2003140942A/ja
Application granted granted Critical
Publication of JP4384398B2 publication Critical patent/JP4384398B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7625Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 任意の対象を階層における1つ以上のクラス
タに割当てることができるように対象を階層的にクラス
タリングする。 【解決手段】 コンピュータ100は、(文書、単語)
ペアの共起の統計的モデリングに基づき、テキストデー
タの階層的トピッククラスタリングを実施する。コンピ
ュータ100は、各文書が複数の単語を含む文書コレク
ションを受取り、このコレクションに対して、修正され
た確定的アニーリング期待値最大化(EM)処理を実行
して、ソフト割当てされたノードの階層を生成する。こ
の処理では、文書及び文書のフラグメントを、これらの
文書に含まれる単語に基づき階層内の多数のノードに割
当て、1つの文書が階層に含まれる任意の祖先ノードに
割当てられるようにすることで、文書の階層へのハード
割当てを解消する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は対象の階層的クラス
タリングに関し、より詳細には対象ペアの共起(co-occ
urrence)に基づく、対象の階層的ソフトクラスタリン
グのための製造の方法、装置及び製品に関する。
【0002】
【従来の技術】データ分類は依然としてその魅力が増し
ているが、これはほとんどその一部が、多数のアクセス
媒体、例えばインターネットを通じてデータが利用でき
ることによる。このような媒体の人気が高まるにつれ、
データプロバイダがすばやくかつ効率的なデータアクセ
スを提供する責任も増す。したがって、これらのプロバ
イダは種々の技術を駆使して、効率的なデータアクセス
を保証している。かかる技術の1つがクラスタリングを
用いたデータ管理である。クラスタリングにより、デー
タをその特性に基づいて階層的に分類する(クラスタリ
ングする)ことができる。このようなクラスタリング技
術の前提として、互いに類似する対象、例えば文書にお
けるテキストデータなどが、ある階層の共通クラスタに
配置される。例えば、データプロバイダ、例えばYah
oo(商標)が提供するサブジェクトカタログは、クラ
スタの階層を生成することによりデータを類別できる。
このクラスタの階層においては、一般的なカテゴリクラ
スタは最上層レベルに位置し、より下層のクラスタリー
フはより特定的なトピックに関連付けられている。
【0003】
【発明が解決しようとする課題】従来の管理技術、例え
ば階層的クラスタリングでは、共通する対象をまとめる
ことはできるが、この結果得られる階層は一般に対象の
クラスタへのハード(厳密な)割当て(hard assignmen
t)を含んでいる。ここで、ハード割当てとは、対象を
階層におけるただ1つのクラスタに割当てる手法を意味
する。このような割当て形式では、対象、例えばテキス
ト文書を1つ以上のクラスタに関連付けることのできる
潜在性が制限されてしまう。例えば、ある文書コレクシ
ョンに対するトピックを生成するシステムにおいては、
文書(対象)をクラスタ(トピック)にハード割当てす
ることにより、その文書が他のクラスタ(トピック)に
含まれることは禁じられる。このように、テキストデー
タなどの対象をハード割当てする結果となる階層的クラ
スタリング技術では、特定の処理、例えばある文書コレ
クションに関するテキスト検索などにおいて、これらの
対象が効率的に配置されることを妨げる可能性がある。
【0004】したがって、所与の任意の対象を階層にお
ける1つ以上のクラスタに割当てることができるように
対象を階層的にクラスタリングする方法及び装置が望ま
れている。
【0005】
【課題を解決するための手段】本発明に関する特定の原
理による製造の方法、装置および製品により、コンピュ
ータ装置は、各文書が複数の単語を含む文書のコレクシ
ョンを受信し、ある文書の部分を、各部分と該文書に含
まれる1つ以上の単語との共起にもとづき、階層におけ
る1つ以上のクラスタに割当てることができる。本発明
に関する特定の原理による製造の方法、装置及び製品
は、コレクションの各文書を第1の対象(例えば
「i」)と定め、所与の文書の単語を第2の対象(例え
ば、「j」)と定めることにより上述の割当て特性を実
行することができる。まず始めに、コレクションを、階
層の単一ルートクラスタを表すことのできる単一のクラ
スに割当てることできる。本発明に関する特定原理によ
る、修正された期待値最大化(EM:Expectation-Maxi
mization)法を、ルートクラスが2つの子クラスに分裂
するまで、該クラスにおいて定められた各対象ペア
(i,j)に基づき実行することができる。次に、各子
クラスが再びさらに2つの子クラスに分裂するまで、各
子クラスに対して同一の修正EM処理を行う。階層に関
する選択された制約が満たされるまで、例えば階層が最
大数のリーフクラスタに達するまで、この処理を繰り返
す。生成される階層に含まれる各クラスタは、それぞれ
が互いに祖先(ancestors)ではないクラスタを含む、
階層の他のクラスタに割当てられた対象を含んでもよ
い。
【0006】
【発明の実施の形態】本発明の特性及び原理による製造
の方法、装置及び製品により、演算(コンピュータ)装
置は、任意の文書が、該文書に含まれる単語に基づき、
トピック階層における1つ以上のトピックに割当てられ
るように、文書コレクションの階層的ソフトクラスタリ
ングを実行できる。
【0007】本発明の特性に係る方法、装置及び製品
は、文書と単語のそれぞれを表す対象のペアに関して、
修正された期待値最大化(EM)処理を実行し、対象の
所与のクラスがトピック階層のすべてのノードにわた
り、文書のトピックへの割当てが該所与のクラスのどの
祖先にも基づくようにすることで上記の機能を実施する
ことができる。さらに、階層の任意のトピックへの所与
の文書の割当ては、その処理において考慮される特定の
(文書、単語)ペアに基づいてもよい。本発明に関する
特定原理による製造の方法、装置及び製品は、トピック
階層に関連する選択された制約が満たされるまで、ある
祖先クラスから生成されるすべての子クラスに対し、修
正されたEM処理を行ってもよい。結果的に生成される
トピッククラスタの階層表示が作成され、文書コレクシ
ョンのトピックを要求するエンティティに対してこれを
利用可能にすることができる。
【0008】図1には、本発明による特定の特性及び原
理を実施できるコンピュータ装置環境の一例が示されて
いる。図示されるように、演算装置環境はコンピュータ
装置100を含んでもよい。このコンピュータ装置10
0は、デスクトップコンピュータ、ワークステーショ
ン、メインフレーム、クライアントサーバ、ラップトッ
プ、パーソナルディジタルアシスタント、または当業界
で知られる同様の汎用またはアプリケーション特定コン
ピュータシステムでもよい。例えば、コンピュータ10
0は、プロセッサ102と、メインメモリ104と、補
助メモリ106と、バス108と、コンピュータ装置に
おいて利用できる他の多くの要素及び機能を含んでもよ
い。これらの要素は、バス108を介して種々の入出力
装置、例えばキーボード110、ディスプレイ112、
ネットワークコネクタ114、及び大容量記憶装置11
6に関連付けることができる。
【0009】プロセッサ102は、本発明に関する特定
の特性による論理的及び数学的演算を実行する、当業界
で周知の任意の汎用または専用プロセッサでよい。さら
に、プロセッサ102を、マルチタスク処理を行う複数
のプロセッサに置換えても、これらで補ってもよい。
【0010】メインメモリ104及び補助メモリ106
は、データを記憶する既知の任意のタイプの記憶装置で
よい。メインメモリ104は及び補助メモリ106に
は、磁気、半導体、光学の少なくともいずれかのタイプ
の記憶装置を含んでもよいが、これらに限定されない。
補助メモリ106は、さらに、プロセッサ102のデー
タに対する迅速なアクセスを可能にする記憶装置、例え
ばキャッシュメモリなどでもよい。本発明に関する選択
された特性による1構成においては、メインメモリ10
4及び補助メモリ106は、クラスタリングするデー
タ、クラスタリングされたデータ、プログラム命令の少
なくともいずれかを記憶し、本発明に関する特定の特性
による方法を実施することができる。
【0011】バス108は、単一及び/または複数バス
構成であり、コンピュータ100の要素と外部要素、例
えば、キーボード110、ディスプレイ112、ネット
ワークコネクタ114及び大容量記憶装置116を含む
出入力装置などとの間のデータ転送を可能にする。キー
ボード110により、コンピュータ装置環境のユーザは
コンピュータ100と接続が可能になる。キーボード1
10は、他の入力装置、例えばマウス、タッチスクリー
ン要素などで置換えたり、これらで補ったりしてもよ
い。ディスプレイ112は、当業界で知られるように、
ユーザに対して情報を表示することができる。ネットワ
ークコネクタ114は、ローカルエリアネットワークな
どのネットワークまたはインターネットに対してコンピ
ュータ100を接続したり、情報交換したりできるよう
にする。大容量記憶装置116は、コンピュータ100
の外部に設けられた、データを記憶する任意の既知の記
憶装置でよい。この大容量記憶装置116は、磁気、半
導体、光学、テープの少なくともいずれかのタイプの記
憶装置でよく、クラスタリングするデータ、クラスタリ
ングされたデータ、プロセッサ102により実行可能な
プログラム命令の少なくともいずれかを記憶し、本発明
に関する特定の特性による方法を実行することができ
る。
【0012】コンピュータ100は、対象、例えばそれ
ぞれが複数の単語を含むテキスト文書などの階層的ソフ
トクラスタリングを実行すべく構成することができる。
階層的ソフトクラスタリングを実行する方法は、例え
ば、最大尤度及び期待値最大化(EM)アルゴリズムの
確定的変型(deterministic variant)を使用する方法
など複数の方法がある。最大尤度技術は、データ観測
(observe)尤度を最大化するパラメータ値を求める技
術であり、クラスタリング技術の自然なフレームワーク
である。EMアルゴリズムは最大尤度内の確率的モデル
のパラメータを知るために使用される既知のアルゴリズ
ムである。EMアルゴリズムについては、G.J.マク
ラクラン(G.J.McLachlan)及びT.クリシュナン(T.K
rishnan)による”The EM Algorithm and Extension
s”, Wiley, New York, 1997(その開示内容を本願明細
書の一部として援用する)にさらなる記載がある。確定
的アニーリングEM(deterministic annealing EM)と
して知られる、EMアルゴリズムの変型(variant)
は、対象の階層的クラスタリングを実行する。しかしな
がら、特定の例では、このような階層的クラスタリング
が対象のハード割当てを行う結果になることもある。確
定的アニーリングEMについては、ローズ他(Rose et
al.)による”Statistical Mechanics and Phase Trans
itions in Clustering”, Physical Review Letters, V
ol. 65, No. 8, American Physical Society,August 2
0, 1990, pages 945-48(その開示内容を本願明細書の
一部として援用する)にさらなる情報が記載されてい
る。
【0013】確定的アニーリングEMは、標準EMアル
ゴリズムに比して複数の利点がある。以下、このEMア
ルゴリズムの変型について簡単に説明する。
【0014】確定的アニーリングEM 観測可能なデータサンプルx(∈X)が与えられ、密度
がp(x;Θ)(Θは推定される密度分布のパラメー
タ)である場合、Xに対応する観測不可能データの測度
空間Yが存在する。
【0015】さらに、不完全データサンプル{X=x
|r=1,...,L}が与えられた場合、EMアルゴ
リズムの目標は、尤度関数を最大化するΘの最尤推定値
を算出することである。これは、Lで示される完全デ
ータ対数尤度関数の最大化に等しく、次式により定めら
れる。
【0016】
【数1】 さらに、Θの初期推定値から始まり、次の2つのステッ
プを交互にする反復手順が、(完全データ)対数尤度関
数の局所最大値に収束することが示されている。この手
順をEMアルゴリズムと呼ぶ。
【0017】Eステップ:Q関数を下記のように計算す
る。
【0018】
【数2】 Mステップ:Θ(t+1)をΘと等しく設定し、Q
β(Θ;Θ(t))を最大にする。
【0019】L(Θ;X)を置き換えることにより、
β(Θ;Θ(t))を次式のように書き換えることが
できる。
【0020】
【数3】 さらに、次式により、
【数4】 Q(Θ;Θ(t))が求められ、次式のように書くこと
ができる。
【0021】
【数5】 EMアルゴリズムの確定的アニーリング変型は、次式の
ように、p(y|x ;Θ(t))における事後確率
のパラメータβによるパラメータ表示を含む。
【0022】
【数6】 このように、βが1であれば、f(y|x;Θ)=
p(y|x;Θ)である。したがって、Q(Θ;Θ
(t))を求める式において定められる確率p(y
;Θ(t))を、f(y|x;Θ(t))で置
き換えると、関数Qβは、EMアルゴリズムのQ関数に
一致する。これは確定的アニーリングEMアルゴリズム
が示唆している。確定的アニーリングEMアルゴリズム
の特性については、ウエダ他(Ueda et al.)による”A
dvances in Neural InformationProcessing Systems
7”, Chapter on Deterministic Annealing variant of
the EM Algorithm, MIT Press, 1995に記載される。こ
こでは、処理を以下ように記載している。 1.β=βminに設定する。0<βmin<<1 2.初期推定値Θ(0)を任意に選択し、t=0に設定
する。
【0023】3.収束するまで次の2つのステップを反
復する。
【0024】Eステップ:次式を計算する。
【0025】
【数7】 Mステップ:Θ(t+1)をΘと等しく設定し、これに
よりQβ(Θ;Θ(t )を最大にする。
【0026】4.βを増加させる 5.β<βmaxであれば、t=t+1に設定し、処理
をステップ3から繰り返す。β<βmaxでなければ、
処理を停止する。
【0027】上記の確定的アニーリングEM処理は、標
準的なEMアルゴリズムに優る3つの主な利点を有す
る。すなわち、(1)標準EMアルゴリズムに比べて、
大域最大値(global maximum)に収束しやすく、(2)
βmax<1に設定することにより、オーバーフィッテ
ィング(over fitting)が回避され、(3)データを説
明するために必要なクラスタの数がβに依存するので、
クラスタ階層を誘導する。
【0028】対象の階層の誘導を助けるために確定的ア
ニーリングEMのバリエーションが提案されている。階
層的非対称クラスタリングモデル(HACM:Hierarch
icalAsymmetric Clustering Model)と呼ばれるこのよ
うなモデルの1つには、分布クラスタリング(distribu
tional clustering)と呼ばれる技術が含まれる。HA
CMに関するさらなる情報が、ホフマン他(Hofmann et
al.)による”Statistical Models for Co-Occurrence
Data”, A.I. Memo No. 1625, MassachusettsInstitut
e of Technology, 1998に記載されている。HACMは
2つの隠れた変数に依拠している。第1の変数、Iiα
は、対象「i」のクラスαへの割当てを示す。第2の変
数Vrανは、クラスαと対象i及びjが与えられた場
合の階層におけるクラスνの選択を示す。(i,j)
は、対象iが対象jと共に起きること(joint occurren
ce)を示す。ここで、(i,j)∈IXJであり、すべ
てのデータに番号が付けられ、サンプル集合S=(i
(r),j(r),r):1≦r≦Lに収集される。2
つの変数、Iiα及びVrανを2値化することによ
り、尤度関数を簡素化することができる。
【0029】図2のブロック図は、ホフマン他による”
Statistical Models for Co-Occurrence Data”, A.I.
Memo No. 1625, Massachusetts Institute of Technolo
gy,1998に示されるように、HACMがどのように機能
するかを例示する。図2に示されるように、階層200
は、祖先ノード210−220及びリーフノード222
−228を含む複数ノードを含む。HACMによれば、
各対象iは、変数I αを使用して、階層200の1リ
ーフノードに割当てられる。例えば、リーフノード22
6は、対象iが割当てられたとして黒で示されている。
さらに、あるリーフノード、例えばノード226に割当
てられた任意の対象iに対して対象jのレベルを生成す
るための選択は、割当てられたリーフノードから階層の
ルートまでのアクティブ垂直パスに限定されている。ま
た、nで示される、ある対象iに関連するすべての対
象が同一の垂直パスから生成され、変数Vijανがそ
の垂直パスにおけるノードの選択を制御する。例えば、
図2に示されるように、対象jは、図において影をつけ
ていないノード210から216を含むノードのパスか
らのみ、変数Vijανに基づき選択可能である。
【0030】HACMをさらに説明するため、図3にこ
のモデルの例示的な表示を示す。HACMに対する依存
(dependencies)には、観測及び非観測データを含む。
HACMはサンプル集合Sの生成を直接モデリング
し、サンプル集合Sは、I(対象iを含む集合)に関
する経験分布nj|iを表す。ここで、 である。図示されるように、HACMにより、対象i
を、iに依存する確率p(i)を介して生成することが
できる。さらに、i(r)=iとなるよう、任意の組み
合わせ(i(r),j(r))に対する対象jの生成
は、Iiαを使用しクラスαにより決定する。したがっ
て、対象jの生成は、変換Vrαvにより、i及びαの
祖先の集合に依存することがわかる。
【0031】HACMは次の確率に基づく。
【0032】
【数8】 上式において、α(i)は、所与のiに対してSを生
成するのに使用するクラスを表し、ν(r)は、α
(i)が与えられた場合にj(r)を生成するために使
用されるクラスを表している。
【0033】しかしながら、i(r)=iであるのはち
ょうどnの対象であり、さらに、Vrανは二値化さ
れ、j(r)の生成に使用される(未知の)クラスν
(r)を除いて0に等しいので、p(S|α(i))
は次式のように書き換えることができる。
【0034】
【数9】 p(S)に対する完全モデル式(complete model for
mula)は、α(i)に関する加算(summing)により求
められ、次式のように表すことができる。
【0035】
【数10】 νがαとi(p(ν|α,i)=p(ν|α)によって
ではなく、αだけによって条件付けられているので、上
記の確率p(S)は、HACMの簡素化されたバージ
ョンを表しているが、当業者であれば、ここに記載され
たHACMの特徴及び処理が複雑なバージョンにも同様
に適用されることがわかるであろう。
【0036】なお、積は(i,j)のペアに関して求め
られ、ここで、iは固定値である。したがって、この積
はjにのみ関するものとして見ることができる。上記の
モデルから、p(S)を求める式は完全データ対数尤
度Lであり、以下のように表すことができる。
【0037】確定的アニーリングEMの別の変形につい
て、L.D.ベーカ他(L.D. Bakeret al.)による”A
Hierarchical Probabilistic Model for Novelty Detec
tion in Text,” Neural Information Processing Syst
ems, 1998に記載されている。ベーカ他に記載されるモ
デルは、階層的マルコフモデル(HMLM)と呼ぶこと
ができる。HACMと同様に、HMLMも次式に基づい
てp(S)を直接モデリングする。
【0038】
【数11】 完全データの対数尤度は、p(S)からHMLMに対
して求めることができ、以下のように表すことができ
る。
【0039】
【数12】 図4には、HMLMが例示的に示されている。図示され
るように、HACMとHMLMの唯一の相違点は、HM
LMでは、集合Sを観測する事前確率p(i)を使用
しない点である。しかしながら、当業者であれば、特定
のアプリケーション、例えばトレーニング集合における
文書に関して優先度が与えられないテキスト分類などで
は、集合Sに対する均一の事前確率が望ましいことが
わかるであろう。このような場合には、HMLMとHA
CMとの上記の差異は除去される。
【0040】HACM及びHMLMは対象の階層的ソフ
トクラスタリングを提供できるが、これらのモデルは、
モデルに関連する2つの特性のために、依然としてハー
ド割当てとなる可能性があることに留意すべきである。
2つの特性とは、第1に、クラスαが階層のリーフのみ
の範囲にわたり、クラスνがαの祖先にのみわたること
である。第2に、対象jからの寄与(contributions)
は直接、積(product)に収集される。第1の特性は、
対象iが、誘導階層のリーフにのみ割当てられることを
示している。例えば、図2を参照すると、HACM及び
HMLMでは、対象iをノード224から228にのみ
割当てる。第2の特性は、対象iが与えられた場合、対
象iに関連する全対象jが同一のリーフαの祖先により
説明されなければならないことを示している。すなわ
ち、iに関連する対象jをαのどの祖先によっても説明
できない場合には、iをαに割当てることはできない。
したがって、iの割当てに関するこのような制限の結
果、一般に、対象iとjのいずれかまたは両方が、誘導
階層にハード割当てされることになる。よって、テキス
ト分類システムでは、HACM及びHMLMを実施する
ことにより、文書とその文書の単語の少なくともいずれ
かの特定クラスタへのハード割当てに基づき、粒度が限
定されたトピックが形成される可能性がある。
【0041】本発明に関する特定の原理による製造の方
法、装置及び製品は、リーフノードだけに対する依存を
解消し、任意の集合Sを、誘導階層に含まれる任意の
リーフノード及び/または祖先ノードの組み合わせによ
り説明可能にする。すなわち、対象iをブロックと考え
るのではなく、それらと共起する任意の対象jに基づい
て階層に割当てられるピースと考えることができる。例
えば、本発明に関する特定の特性及び原理による1構成
においては、コンピュータ100により実行されるトピ
ック的クラスタリングアプリケーションにより、ある文
書iの部分を、その文書iに含まれる異なる単語jに対
する誘導階層内の異なるノードに割当てることができ
る。これは、各文書iが、その文書iに含まれるすべて
の単語jに対する階層中の同一リーフノードに関連する
ことが想定されるHACM及びHMLMとは対照的であ
る。
【0042】本発明の1実施形態は、変数Irα(文書
の階層への割当てを制御する)を、トピック的クラスタ
リング処理において考慮される特定の文書と単語のペア
(i,j)に依存するように定義することにより、共起
する任意の対象ペア、例えば文書と単語のペア(i,
j)などを観測する確率を直接的にモデリングできる。
本発明に関する特定の原理による1構成においては、ク
ラスαは誘導階層における全ノードにわたり、文書(対
象i)をリーフノードだけでなく、その階層における任
意のノードに割当てることができる。さらに、クラスν
を階層におけるαの任意の祖先として定義してもよい。
νに関する制約により、ノードが階層的に組織されてい
ることが保証される。
【0043】図5は、本発明の1実施形態により実施さ
れたモデルを例示的に示す図である。上述のモデルと本
発明の1実施形態との1つの相違点は、本発明では、H
ACM及びHMLMの場合のような確率p(Si)では
なく、確率p(i(r),j(r))をモデリングす
る。
【0044】
【数13】 式p(i(r),j(r))の代替式は、p(α)p
(i(r)|α)をp(i(r))p(α|i(r)
(いずれもp(α,i(r))に等しい)で置き換え
る。よって、代替式は次のようになる。
【0045】
【数14】 ワークアラウンドにより、同等の代替式を使用して、p
(i(r),j(r))の本来の式と同じ結果を得るこ
とができる。
【0046】前述のモデルと本発明との差をより明確に
説明するために、p(S)=П :i(r)=i
(i(r),j(r))により、p(S)を本発明に
対して求めることができる。したがって、p(S)を
次のように表すことができる。
【0047】
【数15】 完全データ対数尤度は、次式により与えられる。
【0048】
【数16】 p(S)の上記求められた式からわかるように、所与
のαに対し、対象jは、HACM及びHMLMの場合の
ように積に収集されず、本発明では、積がすべてのクラ
スαにわたる混合の後にのみ得られるように確率p(S
)を決定する。よって、ある誘導階層の異なる垂直パ
スから異なる対象jが生成できる。すなわち、Iiα
非ヌル値に関連する階層中のパスから生成できる。すべ
ての対象jはある階層の同じ垂直パスから生成されなけ
ればならないという、HACM及びHMLMにおける制
約は、Iiαが二値を有することを強いる。図5に示さ
れるモデルを実施する製造方法、装置及び製品では、H
ACM及びHMLMに共通するこの制約を除去し、隠れ
た変数Iiαのすべての例が、以下に説明する修正版E
M処理を使用した再推定の後に実際の値を求めることが
できる。さらに、αは階層におけるどのノードでもよい
ので、対象iを階層の異なるレベルに割当てることがで
きる。したがって、図5に示す方法によってモデルを実
施することにより、i及びjの対象のハード割当てを解
消し、これらの対象のいずれにも純粋な階層的ソフトク
ラスタリングを行うことができる。
【0049】すでに述べたように、本発明の1実施形態
では、修正された確定的アニーリングEM処理を実行し
て、図5に示されるモデルを実施することができる。本
発明に関する特定の原理による1構成においては、確率
p(x,y:Θ)におけるΘは、確率p(i
(r),j(r))により求められる現在の推定値の集
合に関連付けられる。本発明の特性及び原理によるQ関
数は、次のように定義できる。
【0050】
【数17】 ここで、
【数18】 本発明の特性による製造の方法、装置及び製品は、さら
に、確定的アニーリングEM処理の修正されたE及びM
ステップを実施して、図5に示されるモデルに関する確
率を決定することもできる。例えば、Eステップ処理は
βから直接求められ、iが与えられれば、Iiαは1
つのαを除きすべてに対してゼロに等しく、i,j及び
αが与えられれば、Vijανは1つのνを除きすべて
に対してゼロと等しいので、Q関数Qβ(Θ;
Θ(t))=A+Bである。ここで、
【数19】 及び
【数20】 しかしながら、
【数21】 これにより、上式におけるAを次のように定義すること
ができる。
【0051】
【数22】 ここで、
【数23】 Aの決定と同様に、Bは次の形式で求めることができ
る。
【0052】
【数24】 ここで、
【数25】 上記のように、<Iijαβ及び<Iijα
ijανβは、本発明に関する特定の原理による修正
された確定的アニーリングEM処理のEステップ処理に
対応する。さらに、<Iijαijανβは、α
が与えられた場合の、誘導階層における任意の祖先への
割当てに対応する。
【0053】本発明の1実施形態により実行される、修
正されたMステップ処理は、Qβ(Θ;Θ(t))を最
大にするパラメータΘを求めることを目的とする。この
ような確率分布において固有なのは、次の形式を有する
制約に関連する制約された最適化限定(constrained op
timization restriction)である。
【0054】
【数26】Σp(x;Θ)=1 本発明に関する特定の原理による1構成においては、ラ
グランジェ乗数法を用いて対応する非制約最大値を検索
することができる。例えば、図5に示されるモデルにお
いて実施された確率p(α)を求めるために、ラグラン
ジェ乗数法が導入され、次のようにp(x;Θ)を求め
る。
【0055】
【数27】 これは、制約Σp(α;Θ)=1を利用することによ
り、次に示す結果となる。
【0056】
【数28】 上記と同じ原理を用いて、図5に示されるモデルで実施
された残りの確率を求めることができる。結果は次の通
りである。
【0057】
【数29】
【数30】
【数31】 上記のように、確率p(α;Θ),p(i|α;Θ),
p(ν|α;Θ),p(j|ν;Θ)は、本発明により
実施される修正された確定的アニーリングEM処理にお
いて使用されるMステップ再推定処理を定義する。
【0058】本発明に関する特定の原理による製造の方
法、装置及び製品を、対象i及びjに与えられた意味に
よって、異なるアプリケーションに対し、図5に示され
たモデルを実施すべく構成することもできる。このよう
な1つ構成は、トピック検出に基づく文書クラスタリン
グに適用することが可能である。このような構成では、
対象iが文書を表し、対象jが文書に含まれる単語を表
し、文書のクラスタとトピックの少なくともいずれか
が、誘導階層のリーフとノードの一方または両方により
与えられる。文書コレクションに関連するトピックは、
任意のクラスタを図5に示される単語確率分布p(j|
ν)により定められるトピックと解釈することにより得
ることができる。本発明に関する特定原理による階層的
ソフトモデルは、クラスタの解釈に際し、複数の特性を
考慮することができる。複数の特性とは、例えば、
(1)ある文書は複数のトピックをカバーすることがで
きる(または複数のトピックにより説明できる)。(p
(i|α)により提供される対象iのソフト割当て)、
(2)トピックは、多義性(複数の異なるが、関連のあ
る意味を表す単語の特性)及び特殊性のために異なるト
ピックに属することができる単語の集合により最適に記
述される(p(j|ν)により提供される対象jのソフ
ト割当て)、及び(3)トピックは階層的に組織でき、
これはクラスタに関して誘導された階層に対応する。本
発明に関する特定原理による1構成においては、階層に
対する一般的な確率モデルが、トピックを階層的に組織
できない文書コレクションを処理できる(すなわち、平
坦な(flat)モデル)。この場合、確率p(ν|α)
は、ν=αに集中し、この結果、トピックは階層ではな
く平坦な集合となる。
【0059】図6は、本発明の1実施形態により実行で
きる文書クラスタリング処理の例を表すフローチャート
である。本発明に関する特定原理による1構成では、コ
ンピュータ100は、文書(対象i)の集合またはコレ
クションによってカバーされるトピックを識別すること
により文書をクラスタリングすべく構成できる。この場
合、各文書は複数の単語(対象j)を含むことができ
る。コンピュータ100は、要求発行者(requesting e
ntity)からの要求に基づき、本発明に関する特定原理
によるクラスタリング特性を実行できる。要求発行者
は、図1のコンピュータ装置に関連する入出力要素を介
してコンピュータに接続するユーザでもよいし、コンピ
ュータ100から隔てて位置するユーザでもよい。遠隔
ユーザは、遠隔位置、例えばネットワークに接続された
別のコンピュータ装置から、ネットワークコネクタ11
4によりコンピュータ100に接続できる。さらに、要
求発行者は、コンピュータ100のサービスを要求する
方法(process)または演算者(computing entity)で
もよい。例えば、要求発行者は、文書コレクションに関
連するクラスタリング処理を要求する別のコンピュータ
装置(ネットワークを介して遠隔配置される、またはバ
ス108に局所的に接続される)に関連付けてもよい。
例えば、文書コレクションに関連する検索処理を提供す
るサーバがコンピュータ100に対し、特定の文書コレ
クションのトピックを決めるよう要求してもよい。この
例では、コンピュータ100は、文書コレクションのク
ラスタリングの要求を受け、クラスタリング処理の結果
を要求発行者に対して利用可能にすることができる。な
お、当業者であれば、異なるタイプの多数の要求発行者
及び要求タイプを、本発明の範囲を逸脱することなく実
施できることがわかるであろう。
【0060】文書コレクションは、メモリ104,10
6及び116のいずれにも配置することができる。ま
た、文書コレクションを、図1に示されるコンピュータ
環境から隔てて、例えばネットワークに接続されたサー
バに配置してもよい。このような場合には、コンピュー
タ100は、ネットワークコネクタ114を介して文書
コレクションを受信するよう構成できる。当業者であれ
ば、文書コレクションの位置は上記の例に限定されず、
コンピュータ100は、当業界で知られた方法及び装置
を使用してこれらの位置に対してアクセスできるよう構
成可能であることがわかるであろう。
【0061】図6を参照すると、本発明に関する特定原
理による1構成においては、コンピュータ100は、誘
導可能な階層(ツリー)に関連する1つ以上の条件を定
めることにより、本発明に関する特定原理によるクラス
タリング技術を開始することができる(ステップ60
5)。この条件により、コンピュータ100は、誘導階
層がそこに定められるクラスタに関する所望の構造にい
つ達するかを決定することが可能になる。例えば、(本
発明の特性による階層的ソフトモデルを実施するための
命令及び/またはプログラムコードを実行することので
きる)プロセッサ102に、クラスタリングされている
文書コレクションにおいて共起する対象(i,j)の検
索の停止を命令するという条件を定めてもよい。このよ
うな条件は、所定数のリーフと誘導階層のレベルの少な
くともいずれかに基づくことができる。本発明に関する
特定原理による1構成においては、コンピュータ100
は、ユーザからキーボード110などの入出力装置を介
してこれらの条件を受信してもよい。例えば、コンピュ
ータ100によりユーザに条件を提供するよう促しても
よいし、文書コレクションのサイズに基づき、ユーザが
コンピュータ100に自発的に条件を決定するよう命令
してもよい。当業者であれば、本発明の範囲を逸脱する
ことなく、他の多数の条件を実施可能であることがわか
るであろう。
【0062】図6を再び参照すると、1つ以上の条件が
決定すると、コンピュータ100は、クラスタリングの
対象である文書コレクションを受信(または検索)する
ことができる(ステップ610)。文書コレクションに
コンピュータ100がアクセス可能になると、プロセッ
サ102は文書コレクション全体をクラスαに割当てる
ことができる(ステップ615)。まず、クラスαは、
文書コレクションに関連する単数または複数のメイント
ピックを表すルートノードまたはクラスタを表すことが
できる。また、プロセッサ102は、パラメータβを初
期値に設定することができる(ステップ620)。1実
施形態においては、パラメータβは、目的関数の複雑性
を制御してクラスタの数によって最適化を行い、かつパ
ラメータ値自体の計算を制御する値であってもよい。β
の初期値は、1までの非常に低い値で(すなわち、.0
1)、これに対して、目的関数の一義的な(unique)最
大値を求めるためには、1つのクラスタのみが要求され
る。βの値は、コレクションのサイズに基づき、プロセ
ッサ102によって自発的に決定してもよいし、キーボ
ード110などの入出力装置を介してユーザが提供して
もよい。
【0063】次に、プロセッサ102は、本発明に関す
る特定原理による修正された確定的アニーリングEM処
理における修正されたEステップを実行することができ
る(ステップ625)。よって、クラスα及び決定した
パラメータβの値が与えられれば、Qβ(Θ;
Θ(t))を、本発明に関する特性及び原理による上記
の式にしたがって計算することができる。(すなわち、
β(Θ;Θ(t))=A+B) さらに、プロセッサ102は、クラスα及びパラメータ
βの決定値が与えられれば、本発明に関する特定の原理
にしたがって、最大化処理を実行することができる(ス
テップ630)。すなわち、確率分布p(α;Θ),p
(i|α;Θ),p(ν|α;Θ),p(j|ν;Θ)
を決定する。本発明に関する特定原理による修正された
確定的アニーリングEM処理が実行されると、プロセッ
サ102は、クラスαが2つの子クラスに分裂している
かを決定することができる(ステップ635)。
【0064】本発明に関する特定原理による1構成にお
いては、プロセッサ102は、確率分布p(i|α)に
基づき、クラスαの分裂を認識することができる。ま
ず、パラメータβが非常に低い値に設定された場合に
は、文書コレクションに含まれるすべての文書及び単語
(i及びj)は、クラスαに割当てられる同じ確率を有
する。しかしながら、パラメータβの値が増すにつれ、
異なる文書に関するこの同じ確率は、これらの文書に含
まれる異なる単語に基づき互いに分岐し始める。この分
岐の結果、文書の2つのクラス(またはクラスタ)が、
ある祖先クラスから実現する。これにより各子クラスに
は、各文書に含まれる異なる単語に基づき同様の確率p
(i|α)を有する文書が含まれることになる。例え
ば、ステップ615において、まずクラスαに割当てら
れた文書コレクションが、単語W1,W2及びW3を含
む文書DOC1と、単語W4,W5及びW6を含む文書
DOC2とを含むと想定する。DOC1及びDOC2を
含むこの初期クラスαは、パラメータβの初期値におい
ては、このコレクションの各文書の単語に基づき、該各
文書に対して同じ確率p(i|α)を生成することがで
きる。しかしながら、βの値が高くなると、この同じク
ラスαでも、W1に基づいた場合にはDOC1に関して
第1の確率p(i|α)となり、W2の基づいた場合に
はDOC1に対して第2の確率となる。同様に、より高
いβの値では、DOC2は、W4,W5,W6に基づ
き、第1の確率に関連付けることができる。ここで、本
発明に関する特定原理によれば、単一の文書、例えばD
OC1を、同一文書内に含まれる単語に基づいて2つの
クラス(またはクラスタ)に割当てることができる。
【0065】ステップ635において、確率p(i|
α)がコレクションの各文書に関して同一であるか、ま
たはコレクションの残りの文書に対応する、2つの確率
値の一方にあたるかを決定すべく構成することができ
る。クラスαの分裂があったと判断すると(ステップ6
35;YES)、プロセッサ102は、ステップ605
において決めた条件が満たされているかを決定すること
ができる(ステップ640)。処理におけるこの段階に
おいて、階層が誘導されている(すなわち、クラスαの
2つの子クラスへの分裂)。したがって、プロセッサ1
02が、条件(例えば、リーフの最大数など)が満たさ
れていると判断すると(ステップ640;YES)、誘
導階層が完成し、文書は、各文書に含まれる単語に関連
するトピックに基づきクラスタリングされ、クラスタリ
ング処理が終了する(ステップ645)。
【0066】一方、プロセッサ102が、現在のパラメ
ータβの値では初期クラスαが分裂していないと判断す
ると(ステップ635;NO)、パラメータβの値を増
加することができ(ステップ650)、処理はパラメー
タβの増加した値と共にステップ625に戻る。パラメ
ータβを増加する方法は、ステップ値を用いて制御しも
よい。このステップ値は、ユーザにより予め定めてもよ
いし、パラメータβの初期値及びユーザにより提供され
るさらなるパラメータ(すなわち、クラスタの数、階層
の深さなど)から計算してもよい。さらに、初期クラス
αは2つのクラス(それぞれが個別のクラスαとして定
義される)に分裂しているが(ステップ635;YE
S)、階層の条件が満たされていない場合(ステップ6
40;NO)には、プロセッサ102は、各新しい子ク
ラスαに対するパラメータβを、初期クラスαを分裂さ
せた値に設定する(ステップ655)。続いて、プロセ
ッサ102は、階層の条件が満たされるまで(ステップ
640;YES)、新しい子クラスαのそれぞれに対し
て同じステップを実行し(ステップ625−655)、
クラスタリング処理を終了する(ステップ645)。
【0067】本発明に関する特定原理による1構成にお
いては、クラスタ処理の終了(ステップ645)を、コ
ンピュータ100による、誘導階層に関連する表示を生
成により行い、この表示をメモリ(すなわち、メモリ1
06,104及び/または116)に記憶してもよい。
この表示は、クラスタリングされた文書コレクションに
関するトピックを反映することができ、種々の形式、例
えば、階層とクラスタの少なくともいずれかに関する1
つ以上の表、リスト、チャート、グラフ、及び文書コレ
クションのトピックに関連する誘導階層及びクラスタを
反映する他の任意のタイプの表示として生成できるが、
これらの限定されるものではない。コンピュータ100
は、クラスタリング処理を実行する(すなわち、文書コ
レクションのトピックを決定する)ための要求に応じ
て、既に説明したように、記憶された表示を要求発行者
が利用可能にすることができる。表示は、ネットワーク
コネクタ114またはバス108を介して発行者に利用
できるようにしてもよい。さらに、表示をコンピュータ
100によって送信してもよいし、発行者が検索しても
よい。さらに、階層の表示を、発行者による検索及び/
または使用のためにメモリ(例えばデータベース)に送
信するようにコンピュータ100を構成してもよい。例
えば、コンピュータ100から隔てて位置するサーバ
が、コンピュータ100により提供される1つ以上の階
層に関する表示を1つ以上含むデータベースにアクセス
することもできる。階層は、1つ以上の文書コレクショ
ンに関連するトピックのクラスタを含んでもよい。例え
ば、サーバは、データベースにアクセスし、特定の文書
コレクションに関して検索動作を処理することができ
る。本発明に関する特定原理による別の実施形態におい
ては、コンピュータ100はディスプレイ112を介し
て表示をユーザに対して利用可能にしてもよい。この構
成では、コンピュータ100は、誘導階層及び階層のク
ラスタが表すトピックを反映するグラフ表示を生成し、
この表示を、ユーザが見られるようにディプレイ112
に供給することができる。
【0068】本発明による特定の構成をさらに説明する
ために、図7には、本発明により生成できる、例示的な
文書コレクションに対する例示的なトピック階層700
が示されている。階層700は、オクラホマシティの爆
破に関するニュース記事に関連付けられた特定数の文書
(すなわち、273の別々の文書)を含む文書コレクシ
ョンを反映することができる。この例では、文書は76
84の異なる空でない(non-empty)単語を含んでもよ
い。空の単語とは、限定詞、前置詞などを表し、当業界
で知られた技術、例えばストップリストなどを用いて、
コレクションから省くことができる。階層700の生成
に先立ち、プロセッサ102は、誘導階層700に対し
て最大4つのリーフという階層条件を定めていてもよ
い。
【0069】図示されるように、階層700は7つのノ
ード(710から770)と4つのリーフ(740から
770)を含む。各ノードを、p(j|ν)が最高であ
る、コレクションの最初の5つの単語に関連付けること
ができる。本発明による階層700の生成において、ノ
ード710(パラメータβで、クラスαに定義され
ている)に関連付けられた文書コレクションは、パラメ
ータβの値の増加に続いてクラスαの分裂を決定し
た際に、2つの子トピック/クラスタに分割されていて
もよい。この例示的な階層700においては、この2つ
の子トピック/クラスタは、クラスα11及びα12
よってそれぞれ定められるノード720と730に関連
付けられ、クラスαの分裂がパラメータ値βで発生
している。
【0070】さらなる生成の間に、パラメータ値がβ
からβに増加した際に、α11及びα12の各クラス
が、2つの子トピック/クラスタに分裂してる。図示さ
れるように、クラスα11で定められるノード720
は、クラスα21及びα22によってそれぞれ定められ
るノード740と750とに分裂している。一方、クラ
スα12で定められるノード730は、クラスα23
びα24によってそれぞれ定められるノード760と7
70とに分裂されている。
【0071】図7よりわかるように、本発明では、例示
的な文書コレクションを、(文書、単語)のペアの共起
に基づき、選択されたトピックにクラスタリングするこ
とができる。例えば、階層700においては、ノード7
20は爆破の調査に関するトピック/クラスタを反映す
ることができ、ノード730は爆破事件そのものに関連
するトピック/クラスタを反映してもよい。ノード72
0は、さらに2つのトピック、すなわち、調査自体に関
連するトピック(740)と爆破に関する裁判に関連す
るトピック(750)とに分裂してもよい。一方、ノー
ド730は、2つのトピック、すなわち爆破の説明及び
死傷者に関するトピック(ノード760)と、爆破現場
における救助チームの働きに関するトピック(770)
とに分裂していてもよい。例示的な階層700では、上
位レベルのノードを用いて、p(ν|α)及びp(j|
ν)により、所与のトピックを記載した。したがって、
コレクションの全文書において頻繁に現れる単語、例え
ば「オクラホマ」は、これらを階層700における多く
のトピック/クラスタに割当てることにより最適に説明
される。
【0072】なお、1実施形態においては、階層700
の各クラスタ/ノードに関連するトピックの「タイトル
(名称)」をユーザが提供することもできる。例えば、
ユーザに、各クラスタ/ノードに関するN個の最も確率
の高い単語を与えることができる。ユーザはこれらの単
語からあるトピックに関連するクラスタ/ノードに対す
る「タイトル」を推定することができる。あるいは、各
クラスタ/ノードに対する「タイトル」をプロセッサ1
02が自動的に決めることもできる。この構成では、プ
ロセッサ102は、特定のクラスタ/ノードに関連付け
られた文書から最頻のnグラムを抽出し、抽出したnグ
ラムに基づいて、そのクラスタ/ノードに対する「タイ
トル」を決定することができる。
【0073】本発明に関する特定原理による1構成にお
いては、コンピュータ100を、本発明の1実施形態に
より誘導されたトピック階層の妥当性を評価すべく構成
してもよい。この構成においては、プロセッサ102
は、テスト文書コレクションに基づく誘導階層に含まれ
るクラスタを、予めこのテストコレクションに割当てら
れたマニュアルラベルの集合と比較することを可能にす
る命令またはプログラムコードを実行できる。この評価
を行うため、プロセッサ102は、誘導階層に含まれる
ラベル及びクラスタに関するGini(ジニ)関数の平
均を使用することができ、ジニ関数は次式のように定め
られる。
【0074】
【数32】 及び
【数33】 上記のGini関数において、Lは異なるラベルの数を
表し、Λは異なるクラスタの数を表す。さらに、G
ラベルlに関する、求められたクラスタαの純度を測定
し、Gαに対しては相互的である。Gini関数G
びGαの値が小さいほど、よい結果を表すが、これはク
ラスタとラベルがより密接に対応しているためである。
すなわち、データクラスタとラベルクラスタが同じ重み
の同じ文書を含む場合には、Gini指数は0である。
Gini関数G及びGαはそれぞれが、上限値1を有
する。
【0075】したがって、コンピュータシステム100
が、本発明に関する特定原理による階層的ソフトクラス
タリング動作の有効性を評価しようとする際には、テス
ト文書コレクションにアクセスし、図6に示される処理
をこのコレクションに関して行い、トピック階層を生成
することができる。クラスタに関するGini関数の実
施結果は、Gini指数の形で提供することができる。
プロセッサ102は、Gini関数の結果を分析して、
本発明の特性によるクラスタリング処理が適正なトピッ
ク結果を生み出しているかを決定するよう構成すること
ができる。
【0076】本発明に関する特定原理による1構成にお
いては、図6に示された処理に関するGini指数を、
他のクラスタリング処理、例えばHMLMや、分離混合
モデル(SMM;Separable Mixture Model)など、文
書を誘導階層のリーフにのみ割当てる平坦なクラスタリ
ングモデルに関するGini指数と比較することができ
る。例えば、表1は、本発明の特性による階層的ソフト
クラスタリング処理、HMLMに基づくクラスタリング
処理、及びSMMクラスタリング処理を使用してプロセ
ッサ102によりクラスタリングされたテスト文書コレ
クションに関する例示的なGini指数テーブルを示す
ものである。表1に示されるように、本発明の特性によ
る階層的ソフトクラスタリング処理に関するGini指
数は、他の2つのモデル(HMLM及びラベル)に関す
るGini指数より小さい。このような結果は、コンピ
ュータシステム100に、他のクラスタリング処理に比
べ、本発明に関する特定原理によるクラスタリング処理
を実行して生成されたトピッククラスタがより効率的で
あることを示すことができる。
【0077】
【表1】 以上のように、本発明によれば、コンピュータシステム
は、文書及び単語のコレクションからトピッククラスタ
を生成し、各クラスタを別のクラスタに割当てられた文
書にも関連付づけることができる。しがって、誘導クラ
スタ階層における対象のハード割当てを回避することが
できる。
【0078】本発明は、上記の実施及び構成例に限定さ
れるものではない。例えば、本発明により、ある文書コ
レクションに関連するトピッククラスタの階層を、この
コレクションに追加される単数または複数の新しい文書
に基づき更新することができる。この構成においては、
コンピュータ100は、1つ以上の新しい文書の追加時
に文書コレクションを更新し、この修正されたコレクシ
ョンに関して本発明に関する特定原理によるクラスタリ
ング動作を実行することができる。したがって、本発明
の実施により、新しい1文書(または文書の集合)が文
書コレクションに追加されるたびごとに、その文書コレ
クションに関するトピック階層を修正することができ
る。
【0079】さらに、本発明を使用して、ある文書コレ
クションに関してそのユーザが実行する行動(例えば、
書込み、プリント、ブラウジング)に基づきユーザをク
ラスタリングすることもできる。この構成では、対象
「i」がユーザを表し、対象「j」が文書を表す。さら
に、本発明を使用し、画像を、その画像に関連づけられ
たテキストに基づきクラスタリングすることもできる。
例えば、関連付けられたテキストは画像のタイトルであ
ってもよいし、例えばウェブページのように画像の周囲
のテキストであってもよい。この構成では、対象「i」
は画像を表し、対象「j」は各画像のタイトルに含まれ
る単語を表す。さらに、本発明を使用し、企業の活動領
域または消費者関係に基づき企業をクラスタリングする
こともできる。例えば、後者の例の場合、「i」は企業
を表し、「j」は企業と消費者との関係(例えば、「販
売(sells to)」)を表す。すなわち、1つ以上の企業
には、それらの企業から異なるタイプの製品及び/また
はサービスを購入した消費者の集合を有することができ
る。したがって、本発明の特定の態様によれば、階層の
クラスタにより、これらの企業から類似するタイプの製
品及び/またはサービスを購入した(例えば、ハードウ
ェアの購入、コンピュータソフトウェアの購入、ルータ
部品の購入など)消費者のグループを表すことができ
る。よって、この構成においては、「i」が消費者を表
すことができ、「j」によって企業を表してもよい。あ
るいは、別の構成に、特定のタイプの企業から種々のタ
イプの製品及び/またはサービスを購入した消費者の集
合を含んでもよい。この構成では、階層のクラスタが、
製品及び/またはサービスのタイプ(ハードウェアの販
売、コンピュータソフトウェアの販売、紙製品の販売な
ど)のグループを表すことができる。この構成において
は、「i」により企業を表し、「j」により消費者を表
すことができる。このように、当業者であれば、本発明
を任意のタイプの共起する対象のクラスタリングに適用
できることが理解できるであろう。
【図面の簡単な説明】
【図1】 コンピュータ装置環境の例を示す図であり、
これにより本発明の特定原理による製造の方法、装置及
び製品を実施することができる。
【図2】 第1の階層的クラスタリングモデルの作用
(behavior)を表す例示的なブロック図である。
【図3】 第2の階層的クラスタリングモデルに関連す
るモデルを表す例示的なブロック図である。
【図4】 第3の階層的クラスタリングモデルを表す例
示的なブロック図である。
【図5】 本発明に関する特定の特性及び原理による、
階層的クラスタリングモデルに関連する例示的なブロッ
ク図である。
【図6】 本発明に関する特定の特性及び原理による製
造の方法、装置及び製品により実施可能な例示的な処理
を表すフローチャートである。
【図7】 本発明に関する特定の特性による製造の方
法、装置、及び製品により製造できる、文書コレクショ
ンに関連する例示的なトピック階層を示す図である。
【符号の説明】
100 コンピュータ装置、102 プロセッサ、10
4 メインメモリ、106 補助メモリ、108 バ
ス、110 キーボード、112 ディスプレイ、11
4 ネットワークコネクタ、116 大容量記憶装置。
フロントページの続き (72)発明者 フランシン アール チェン アメリカ合衆国 カリフォルニア メンロ ー パーク シャーマン アベニュー 975 (72)発明者 アショク シー ポパット アメリカ合衆国 カリフォルニア サン カルロス セダー ストリート 625 ア パートメント ケイ Fターム(参考) 5B082 EA01

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書を、複数のクラスタで構成さ
    れる階層的データ構造にクラスタリングする、コンピュ
    ータにより実施される方法であって、各文書は複数の単
    語を含み、前記方法は、 文書コレクションにアクセスするステップと、 前記コレクションの文書の分類を反映するクラスタの階
    層を、文書に含まれる単語に基づき作成するクラスタリ
    ング処理を実行するステップであって、前記コレクショ
    ンの任意の文書は各文書の第1セグメントに基づき前記
    階層の第1クラスタに割当てることができ、各文書は該
    各文書の第2セグメントに基づき前記階層の第2クラス
    タに割当てることができ、前記第1及び第2のクラスタ
    は前記階層の異なるパスに関連づけられているステップ
    と、 クラスタの階層の表示をメモリに記憶するステップと、
    前記表示を、前記文書コレクションに関連付けられた要
    求に応じて、エンティティに対して利用可能にするステ
    ップと、を含む方法。
  2. 【請求項2】 請求項1に記載の方法において、前記ク
    ラスタリング処理を実行するステップは、 前記文書コレクションを第1クラスに割当てるステップ
    と、 確率パラメータを初期値に設定するステップと、 前記パラメータの値にある、前記コレクションの各文書
    に対し、前記コレクションの文書が前記階層のあるクラ
    スタに割当てられる確率を、該文書に含まれる単語及び
    前記第1クラスに基づき決定するステップと、 を含む方法。
  3. 【請求項3】 複数の画像を、その画像に関連するテキ
    ストに基づき、複数のサブノードに関連付けられたルー
    トノードを含む階層的データ構造にクラスタリングす
    る、コンピュータで実施される方法であって、各サブノ
    ードは異なるトピックを表し、前記方法は、 画像コレクションにアクセスするステップと、 前記階層的データ構造を作成するクラスタリング処理を
    実行するステップと、を含み、前記クラスタリング処理
    は、 第1の画像を、該第1の画像に関連付けられたテキスト
    の第1部分に基づき第1サブノードに関連付けるステッ
    プと、 前記第1の画像を、該第1の画像に関連付けられたテキ
    ストの第2部分に基づき第2サブノードに関連付けるス
    テップと、を含み、 前記第1及び第2サブノードは前記階層的データ構造の
    異なる子孫パスに関連づけられ、 前記方法は、さらに、 前記階層的データ構造の表示をメモリに記憶するステッ
    プと、 前記表示を、前記画像コレクションに関連づけられた要
    求に応じてエンティティに対して利用可能にするステッ
    プと、 を含む方法。
JP2002300829A 2001-10-19 2002-10-15 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品 Expired - Fee Related JP4384398B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/982,236 2001-10-19
US09/982,236 US7644102B2 (en) 2001-10-19 2001-10-19 Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects

Publications (2)

Publication Number Publication Date
JP2003140942A true JP2003140942A (ja) 2003-05-16
JP4384398B2 JP4384398B2 (ja) 2009-12-16

Family

ID=25528969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002300829A Expired - Fee Related JP4384398B2 (ja) 2001-10-19 2002-10-15 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品

Country Status (4)

Country Link
US (1) US7644102B2 (ja)
EP (1) EP1304627B1 (ja)
JP (1) JP4384398B2 (ja)
BR (1) BRPI0204257B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272892A (ja) * 2006-03-29 2007-10-18 Xerox Corp リアルタイムアップデートを行う階層的クラスタリング
WO2011004529A1 (ja) * 2009-07-06 2011-01-13 日本電気株式会社 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7617184B2 (en) * 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7831467B1 (en) * 2000-10-17 2010-11-09 Jpmorgan Chase Bank, N.A. Method and system for retaining customer loyalty
US8090717B1 (en) * 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US20040117366A1 (en) * 2002-12-12 2004-06-17 Ferrari Adam J. Method and system for interpreting multiple-term queries
US7395256B2 (en) 2003-06-20 2008-07-01 Agency For Science, Technology And Research Method and platform for term extraction from large collection of documents
US8175908B1 (en) 2003-09-04 2012-05-08 Jpmorgan Chase Bank, N.A. Systems and methods for constructing and utilizing a merchant database derived from customer purchase transactions data
US20070244690A1 (en) * 2003-11-21 2007-10-18 Koninklijke Philips Electronic, N.V. Clustering of Text for Structuring of Text Documents and Training of Language Models
JP4637113B2 (ja) * 2003-11-28 2011-02-23 キヤノン株式会社 階層データの好ましいビューを構築するための方法
US7139754B2 (en) * 2004-02-09 2006-11-21 Xerox Corporation Method for multi-class, multi-label categorization using probabilistic hierarchical modeling
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US7630980B2 (en) * 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US20070050388A1 (en) * 2005-08-25 2007-03-01 Xerox Corporation Device and method for text stream mining
US8019752B2 (en) * 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US8676802B2 (en) * 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US20080140707A1 (en) * 2006-12-11 2008-06-12 Yahoo! Inc. System and method for clustering using indexes
US7711747B2 (en) * 2007-04-06 2010-05-04 Xerox Corporation Interactive cleaning for automatic document clustering and categorization
US8108392B2 (en) 2007-10-05 2012-01-31 Fujitsu Limited Identifying clusters of words according to word affinities
US9317593B2 (en) * 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
US8543380B2 (en) 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
US7856434B2 (en) 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
US8189930B2 (en) * 2008-07-17 2012-05-29 Xerox Corporation Categorizer with user-controllable calibration
JP4636141B2 (ja) * 2008-08-28 2011-02-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8126891B2 (en) * 2008-10-21 2012-02-28 Microsoft Corporation Future data event prediction using a generative model
US8386437B2 (en) * 2009-04-02 2013-02-26 Xerox Corporation Apparatus and method for document collection and filtering
US8339680B2 (en) 2009-04-02 2012-12-25 Xerox Corporation Printer image log system for document gathering and retention
US8165974B2 (en) 2009-06-08 2012-04-24 Xerox Corporation System and method for assisted document review
US8566349B2 (en) 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
EP2488970A4 (en) * 2009-10-15 2016-03-16 Rogers Comm Tnc SYSTEM AND METHOD FOR CLASSIFYING MULTIPLE DATA STREAMS
US8356045B2 (en) * 2009-12-09 2013-01-15 International Business Machines Corporation Method to identify common structures in formatted text documents
US8407228B1 (en) * 2010-03-26 2013-03-26 Cadence Design Systems, Inc Method and mechanism for maintaining existence information for electronic layout data
US8509537B2 (en) 2010-08-05 2013-08-13 Xerox Corporation Learning weights of fonts for typed samples in handwritten keyword spotting
WO2013133844A1 (en) 2012-03-08 2013-09-12 New Jersey Institute Of Technology Image retrieval and authentication using enhanced expectation maximization (eem)
WO2013142852A1 (en) * 2012-03-23 2013-09-26 Sententia, LLC Method and systems for text enhancement
US8880525B2 (en) 2012-04-02 2014-11-04 Xerox Corporation Full and semi-batch clustering
US9189473B2 (en) 2012-05-18 2015-11-17 Xerox Corporation System and method for resolving entity coreference
US9569327B2 (en) 2012-10-03 2017-02-14 Xerox Corporation System and method for labeling alert messages from devices for automated management
US8930181B2 (en) 2012-12-06 2015-01-06 Prashant Parikh Automatic dynamic contextual data entry completion
US9639881B2 (en) * 2013-05-20 2017-05-02 TCL Research America Inc. Method and system for personalized video recommendation based on user interests modeling
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
US9483738B2 (en) * 2014-01-17 2016-11-01 Hulu, LLC Topic model based media program genome generation
US9992209B1 (en) * 2016-04-22 2018-06-05 Awake Security, Inc. System and method for characterizing security entities in a computing environment
US10997231B2 (en) 2019-01-17 2021-05-04 International Business Machines Corporation Image-based ontology refinement using clusters
CN110377823A (zh) * 2019-06-28 2019-10-25 厦门美域中央信息科技有限公司 一种Hadoop框架下的热点挖掘系统的构建
US11675766B1 (en) 2020-03-03 2023-06-13 Amazon Technologies, Inc. Scalable hierarchical clustering
US11514321B1 (en) 2020-06-12 2022-11-29 Amazon Technologies, Inc. Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis
US11423072B1 (en) 2020-07-31 2022-08-23 Amazon Technologies, Inc. Artificial intelligence system employing multimodal learning for analyzing entity record relationships
US11620558B1 (en) 2020-08-25 2023-04-04 Amazon Technologies, Inc. Iterative machine learning based techniques for value-based defect analysis in large data sets

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3669016B2 (ja) 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US5761418A (en) * 1995-01-17 1998-06-02 Nippon Telegraph And Telephone Corp. Information navigation system using clusterized information resource topology
US5864855A (en) * 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
EP1486891A3 (en) * 1997-02-12 2005-03-09 Kokusai Denshin Denwa Co., Ltd Document retrieval apparatus
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6154213A (en) * 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6556958B1 (en) * 1999-04-23 2003-04-29 Microsoft Corporation Fast clustering with sparse data
US6460025B1 (en) * 1999-07-27 2002-10-01 International Business Machines Corporation Intelligent exploration through multiple hierarchies using entity relevance
US20020129038A1 (en) * 2000-12-18 2002-09-12 Cunningham Scott Woodroofe Gaussian mixture models in a data mining system
US7039638B2 (en) * 2001-04-27 2006-05-02 Hewlett-Packard Development Company, L.P. Distributed data clustering system and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272892A (ja) * 2006-03-29 2007-10-18 Xerox Corp リアルタイムアップデートを行う階層的クラスタリング
WO2011004529A1 (ja) * 2009-07-06 2011-01-13 日本電気株式会社 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
US8732173B2 (en) 2009-07-06 2014-05-20 Nec Corporation Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program
JP5621773B2 (ja) * 2009-07-06 2014-11-12 日本電気株式会社 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム

Also Published As

Publication number Publication date
EP1304627A3 (en) 2007-03-07
BR0204257A (pt) 2003-09-16
US20030101187A1 (en) 2003-05-29
US7644102B2 (en) 2010-01-05
JP4384398B2 (ja) 2009-12-16
EP1304627B1 (en) 2014-04-02
EP1304627A2 (en) 2003-04-23
BRPI0204257B1 (pt) 2016-05-17

Similar Documents

Publication Publication Date Title
JP4384398B2 (ja) 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品
Qi et al. Finding all you need: web APIs recommendation in web of things through keywords search
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
US8612369B2 (en) System and methods for finding hidden topics of documents and preference ranking documents
US20050044487A1 (en) Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US20080097937A1 (en) Distributed method for integrating data mining and text categorization techniques
US11023503B2 (en) Suggesting text in an electronic document
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
CN107507028B (zh) 用户偏好确定方法、装置、设备及存储介质
US11182540B2 (en) Passively suggesting text in an electronic document
Varfolomeyev et al. Smart personal assistant for historical tourism
Lin et al. NL2API: A framework for bootstrapping service recommendation using natural language queries
Pavlov et al. Collaborative filtering with maximum entropy
Bagheri Integrating word status for joint detection of sentiment and aspect in reviews
George et al. Comparison of LDA and NMF topic modeling techniques for restaurant reviews
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Tu et al. PhraseMap: Attention-based keyphrases recommendation for information seeking
CN111931034A (zh) 数据搜索方法、装置、设备及存储介质
JP2004240887A (ja) 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム
Reddy et al. Manta ray optimized deep contextualized bi-directional long short-term memory based adaptive galactic swarm optimization for complex question answering
CN111783808B (zh) 用于生成信息的方法和装置
JP2014182421A (ja) クラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラム
Hirchoua et al. Topic hierarchies for knowledge capitalization using hierarchical Dirichlet processes in big data context
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법
JP7456923B2 (ja) 検索装置、プログラムおよび検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090901

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4384398

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131002

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees