JP4384398B2 - 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品 - Google Patents
共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品 Download PDFInfo
- Publication number
- JP4384398B2 JP4384398B2 JP2002300829A JP2002300829A JP4384398B2 JP 4384398 B2 JP4384398 B2 JP 4384398B2 JP 2002300829 A JP2002300829 A JP 2002300829A JP 2002300829 A JP2002300829 A JP 2002300829A JP 4384398 B2 JP4384398 B2 JP 4384398B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- hierarchy
- collection
- cluster
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は対象の階層的クラスタリングに関し、より詳細には対象ペアの共起(co-occurrence)に基づく、対象の階層的ソフトクラスタリングのための製造の方法、装置及び製品に関する。
【0002】
【従来の技術】
データ分類は依然としてその魅力が増しているが、これはほとんどその一部が、多数のアクセス媒体、例えばインターネットを通じてデータが利用できることによる。このような媒体の人気が高まるにつれ、データプロバイダがすばやくかつ効率的なデータアクセスを提供する責任も増す。したがって、これらのプロバイダは種々の技術を駆使して、効率的なデータアクセスを保証している。かかる技術の1つがクラスタリングを用いたデータ管理である。クラスタリングにより、データをその特性に基づいて階層的に分類する(クラスタリングする)ことができる。このようなクラスタリング技術の前提として、互いに類似する対象、例えば文書におけるテキストデータなどが、ある階層の共通クラスタに配置される。例えば、データプロバイダ、例えばYahoo(商標)が提供するサブジェクトカタログは、クラスタの階層を生成することによりデータを類別できる。このクラスタの階層においては、一般的なカテゴリクラスタは最上層レベルに位置し、より下層のクラスタリーフはより特定的なトピックに関連付けられている。
【0003】
【発明が解決しようとする課題】
従来の管理技術、例えば階層的クラスタリングでは、共通する対象をまとめることはできるが、この結果得られる階層は一般に対象のクラスタへのハード(厳密な)割当て(hard assignment)を含んでいる。ここで、ハード割当てとは、対象を階層におけるただ1つのクラスタに割当てる手法を意味する。このような割当て形式では、対象、例えばテキスト文書を1つ以上のクラスタに関連付けることのできる潜在性が制限されてしまう。例えば、ある文書コレクションに対するトピックを生成するシステムにおいては、文書(対象)をクラスタ(トピック)にハード割当てすることにより、その文書が他のクラスタ(トピック)に含まれることは禁じられる。このように、テキストデータなどの対象をハード割当てする結果となる階層的クラスタリング技術では、特定の処理、例えばある文書コレクションに関するテキスト検索などにおいて、これらの対象が効率的に配置されることを妨げる可能性がある。
【0004】
したがって、所与の任意の対象を階層における1つ以上のクラスタに割当てることができるように対象を階層的にクラスタリングする方法及び装置が望まれている。
【0005】
【課題を解決するための手段】
本発明に関する特定の原理による製造の方法、装置および製品により、コンピュータ装置は、各文書が複数の単語を含む文書のコレクションを受信し、ある文書の部分を、各部分と該文書に含まれる1つ以上の単語との共起にもとづき、階層における1つ以上のクラスタに割当てることができる。本発明に関する特定の原理による製造の方法、装置及び製品は、コレクションの各文書を第1の対象(例えば「i」)と定め、所与の文書の単語を第2の対象(例えば、「j」)と定めることにより上述の割当て特性を実行することができる。まず始めに、コレクションを、階層の単一ルートクラスタを表すことのできる単一のクラスに割当てることできる。本発明に関する特定原理による、修正された期待値最大化(EM:Expectation-Maximization)法を、ルートクラスが2つの子クラスに分裂するまで、該クラスにおいて定められた各対象ペア(i,j)に基づき実行することができる。次に、各子クラスが再びさらに2つの子クラスに分裂するまで、各子クラスに対して同一の修正EM処理を行う。階層に関する選択された制約が満たされるまで、例えば階層が最大数のリーフクラスタに達するまで、この処理を繰り返す。生成される階層に含まれる各クラスタは、それぞれが互いに祖先(ancestors)ではないクラスタを含む、階層の他のクラスタに割当てられた対象を含んでもよい。
【0006】
【発明の実施の形態】
本発明の特性及び原理による製造の方法、装置及び製品により、演算(コンピュータ)装置は、任意の文書が、該文書に含まれる単語に基づき、トピック階層における1つ以上のトピックに割当てられるように、文書コレクションの階層的ソフトクラスタリングを実行できる。
【0007】
本発明の特性に係る方法、装置及び製品は、文書と単語のそれぞれを表す対象のペアに関して、修正された期待値最大化(EM)処理を実行し、対象の所与のクラスがトピック階層のすべてのノードにわたり、文書のトピックへの割当てが該所与のクラスのどの祖先にも基づくようにすることで上記の機能を実施することができる。さらに、階層の任意のトピックへの所与の文書の割当ては、その処理において考慮される特定の(文書、単語)ペアに基づいてもよい。本発明に関する特定原理による製造の方法、装置及び製品は、トピック階層に関連する選択された制約が満たされるまで、ある祖先クラスから生成されるすべての子クラスに対し、修正されたEM処理を行ってもよい。結果的に生成されるトピッククラスタの階層表示が作成され、文書コレクションのトピックを要求するエンティティに対してこれを利用可能にすることができる。
【0008】
図1には、本発明による特定の特性及び原理を実施できるコンピュータ装置環境の一例が示されている。図示されるように、演算装置環境はコンピュータ装置100を含んでもよい。このコンピュータ装置100は、デスクトップコンピュータ、ワークステーション、メインフレーム、クライアントサーバ、ラップトップ、パーソナルディジタルアシスタント、または当業界で知られる同様の汎用またはアプリケーション特定コンピュータシステムでもよい。例えば、コンピュータ100は、プロセッサ102と、メインメモリ104と、補助メモリ106と、バス108と、コンピュータ装置において利用できる他の多くの要素及び機能を含んでもよい。これらの要素は、バス108を介して種々の入出力装置、例えばキーボード110、ディスプレイ112、ネットワークコネクタ114、及び大容量記憶装置116に関連付けることができる。
【0009】
プロセッサ102は、本発明に関する特定の特性による論理的及び数学的演算を実行する、当業界で周知の任意の汎用または専用プロセッサでよい。さらに、プロセッサ102を、マルチタスク処理を行う複数のプロセッサに置換えても、これらで補ってもよい。
【0010】
メインメモリ104及び補助メモリ106は、データを記憶する既知の任意のタイプの記憶装置でよい。メインメモリ104は及び補助メモリ106には、磁気、半導体、光学の少なくともいずれかのタイプの記憶装置を含んでもよいが、これらに限定されない。補助メモリ106は、さらに、プロセッサ102のデータに対する迅速なアクセスを可能にする記憶装置、例えばキャッシュメモリなどでもよい。本発明に関する選択された特性による1構成においては、メインメモリ104及び補助メモリ106は、クラスタリングするデータ、クラスタリングされたデータ、プログラム命令の少なくともいずれかを記憶し、本発明に関する特定の特性による方法を実施することができる。
【0011】
バス108は、単一及び/または複数バス構成であり、コンピュータ100の要素と外部要素、例えば、キーボード110、ディスプレイ112、ネットワークコネクタ114及び大容量記憶装置116を含む出入力装置などとの間のデータ転送を可能にする。キーボード110により、コンピュータ装置環境のユーザはコンピュータ100と接続が可能になる。キーボード110は、他の入力装置、例えばマウス、タッチスクリーン要素などで置換えたり、これらで補ったりしてもよい。ディスプレイ112は、当業界で知られるように、ユーザに対して情報を表示することができる。ネットワークコネクタ114は、ローカルエリアネットワークなどのネットワークまたはインターネットに対してコンピュータ100を接続したり、情報交換したりできるようにする。大容量記憶装置116は、コンピュータ100の外部に設けられた、データを記憶する任意の既知の記憶装置でよい。この大容量記憶装置116は、磁気、半導体、光学、テープの少なくともいずれかのタイプの記憶装置でよく、クラスタリングするデータ、クラスタリングされたデータ、プロセッサ102により実行可能なプログラム命令の少なくともいずれかを記憶し、本発明に関する特定の特性による方法を実行することができる。
【0012】
コンピュータ100は、対象、例えばそれぞれが複数の単語を含むテキスト文書などの階層的ソフトクラスタリングを実行すべく構成することができる。階層的ソフトクラスタリングを実行する方法は、例えば、最大尤度及び期待値最大化(EM)アルゴリズムの確定的変型(deterministic variant)を使用する方法など複数の方法がある。最大尤度技術は、データ観測(observe)尤度を最大化するパラメータ値を求める技術であり、クラスタリング技術の自然なフレームワークである。EMアルゴリズムは最大尤度内の確率的モデルのパラメータを知るために使用される既知のアルゴリズムである。EMアルゴリズムについては、G.J.マクラクラン(G.J.McLachlan)及びT.クリシュナン(T.Krishnan)による”The EM Algorithm and Extensions”, Wiley, New York, 1997(その開示内容を本願明細書の一部として援用する)にさらなる記載がある。確定的アニーリングEM(deterministic annealing EM)として知られる、EMアルゴリズムの変型(variant)は、対象の階層的クラスタリングを実行する。しかしながら、特定の例では、このような階層的クラスタリングが対象のハード割当てを行う結果になることもある。確定的アニーリングEMについては、ローズ他(Rose et al.)による”Statistical Mechanics and Phase Transitions in Clustering”, Physical Review Letters, Vol. 65, No. 8, American Physical Society, August 20, 1990, pages 945-48(その開示内容を本願明細書の一部として援用する)にさらなる情報が記載されている。
【0013】
確定的アニーリングEMは、標準EMアルゴリズムに比して複数の利点がある。以下、このEMアルゴリズムの変型について簡単に説明する。
【0014】
確定的アニーリングEM
観測可能なデータサンプルx(∈X)が与えられ、密度がp(x;Θ)(Θは推定される密度分布のパラメータ)である場合、Xに対応する観測不可能データの測度空間Yが存在する。
【0015】
さらに、不完全データサンプル{X=xr|r=1,...,L}が与えられた場合、EMアルゴリズムの目標は、尤度関数を最大化するΘの最尤推定値を算出することである。これは、Lcで示される完全データ対数尤度関数の最大化に等しく、次式により定められる。
【0016】
【数1】
さらに、Θの初期推定値から始まり、次の2つのステップを交互にする反復手順が、(完全データ)対数尤度関数の局所最大値に収束することが示されている。この手順をEMアルゴリズムと呼ぶ。
【0017】
Eステップ:Q関数を下記のように計算する。
【0018】
【数2】
Mステップ:Θ(t+1)をΘと等しく設定し、Qβ(Θ;Θ(t))を最大にする。
【0019】
Lc(Θ;X)を置き換えることにより、Qβ(Θ;Θ(t))を次式のように書き換えることができる。
【0020】
【数3】
さらに、次式により、
【数4】
Q(Θ;Θ(t))が求められ、次式のように書くことができる。
【0021】
【数5】
EMアルゴリズムの確定的アニーリング変型は、次式のように、p(yr|xr;Θ(t))における事後確率のパラメータβによるパラメータ表示を含む。
【0022】
【数6】
このように、βが1であれば、f(yr|xr;Θ)=p(yr|xr;Θ)である。したがって、Q(Θ;Θ(t))を求める式において定められる確率p(yr|xr;Θ(t))を、f(yr|xr;Θ(t))で置き換えると、関数Qβは、EMアルゴリズムのQ関数に一致する。これは確定的アニーリングEMアルゴリズムが示唆している。確定的アニーリングEMアルゴリズムの特性については、ウエダ他(Ueda et al.)による”Advances in Neural Information Processing Systems 7”, Chapter on Deterministic Annealing variant of the EM Algorithm, MIT Press, 1995に記載される。ここでは、処理を以下ように記載している。
1.β=βminに設定する。0<βmin<<1
2.初期推定値Θ(0)を任意に選択し、t=0に設定する。
【0023】
3.収束するまで次の2つのステップを反復する。
【0024】
Eステップ:次式を計算する。
【0025】
【数7】
Mステップ:Θ(t+1)をΘと等しく設定し、これによりQβ(Θ;Θ(t))を最大にする。
【0026】
4.βを増加させる
5.β<βmaxであれば、t=t+1に設定し、処理をステップ3から繰り返す。β<βmaxでなければ、処理を停止する。
【0027】
上記の確定的アニーリングEM処理は、標準的なEMアルゴリズムに優る3つの主な利点を有する。すなわち、(1)標準EMアルゴリズムに比べて、大域最大値(global maximum)に収束しやすく、(2)βmax<1に設定することにより、オーバーフィッティング(over fitting)が回避され、(3)データを説明するために必要なクラスタの数がβに依存するので、クラスタ階層を誘導する。
【0028】
対象の階層の誘導を助けるために確定的アニーリングEMのバリエーションが提案されている。階層的非対称クラスタリングモデル(HACM:Hierarchical Asymmetric Clustering Model)と呼ばれるこのようなモデルの1つには、分布クラスタリング(distributional clustering)と呼ばれる技術が含まれる。HACMに関するさらなる情報が、ホフマン他(Hofmann et al.)による”Statistical Models for Co-Occurrence Data”, A.I. Memo No. 1625, Massachusetts Institute of Technology, 1998に記載されている。HACMは2つの隠れた変数に依拠している。第1の変数、Iiαは、対象「i」のクラスαへの割当てを示す。第2の変数Vrανは、クラスαと対象i及びjが与えられた場合の階層におけるクラスνの選択を示す。(i,j)は、対象iが対象jと共に起きること(joint occurrence)を示す。ここで、(i,j)∈IXJであり、すべてのデータに番号が付けられ、サンプル集合S=(i(r),j(r),r):1≦r≦Lに収集される。2つの変数、Iiα及びVrανを2値化することにより、尤度関数を簡素化することができる。
【0029】
図2のブロック図は、ホフマン他による”Statistical Models for Co-Occurrence Data”, A.I. Memo No. 1625, Massachusetts Institute of Technology, 1998に示されるように、HACMがどのように機能するかを例示する。図2に示されるように、階層200は、祖先ノード210−220及びリーフノード222−228を含む複数ノードを含む。HACMによれば、各対象iは、変数Ii αを使用して、階層200の1リーフノードに割当てられる。例えば、リーフノード226は、対象iが割当てられたとして黒で示されている。さらに、あるリーフノード、例えばノード226に割当てられた任意の対象iに対して対象jのレベルを生成するための選択は、割当てられたリーフノードから階層のルートまでのアクティブ垂直パスに限定されている。また、niで示される、ある対象iに関連するすべての対象が同一の垂直パスから生成され、変数Vijανがその垂直パスにおけるノードの選択を制御する。例えば、図2に示されるように、対象jは、図において影をつけていないノード210から216を含むノードのパスからのみ、変数Vijανに基づき選択可能である。
【0030】
HACMをさらに説明するため、図3にこのモデルの例示的な表示を示す。HACMに対する依存(dependencies)には、観測及び非観測データを含む。HACMはサンプル集合Siの生成を直接モデリングし、サンプル集合Siは、I(対象iを含む集合)に関する経験分布nj|iを表す。ここで、
である。図示されるように、HACMにより、対象iを、iに依存する確率p(i)を介して生成することができる。さらに、i(r)=iとなるよう、任意の組み合わせ(i(r),j(r))に対する対象jの生成は、Iiαを使用しクラスαにより決定する。したがって、対象jの生成は、変換Vrαvにより、i及びαの祖先の集合に依存することがわかる。
【0031】
HACMは次の確率に基づく。
【0032】
【数8】
上式において、α(i)は、所与のiに対してSiを生成するのに使用するクラスを表し、ν(r)は、α(i)が与えられた場合にj(r)を生成するために使用されるクラスを表している。
【0033】
しかしながら、i(r)=iであるのはちょうどniの対象であり、さらに、Vrανは二値化され、j(r)の生成に使用される(未知の)クラスν(r)を除いて0に等しいので、p(Si|α(i))は次式のように書き換えることができる。
【0034】
【数9】
p(Si)に対する完全モデル式(complete model formula)は、α(i)に関する加算(summing)により求められ、次式のように表すことができる。
【0035】
【数10】
νがαとi(p(ν|α,i)=p(ν|α)によってではなく、αだけによって条件付けられているので、上記の確率p(Si)は、HACMの簡素化されたバージョンを表しているが、当業者であれば、ここに記載されたHACMの特徴及び処理が複雑なバージョンにも同様に適用されることがわかるであろう。
【0036】
なお、積は(i,j)のペアに関して求められ、ここで、iは固定値である。したがって、この積はjにのみ関するものとして見ることができる。上記のモデルから、p(Si)を求める式は完全データ対数尤度Lcであり、以下のように表すことができる。
【0037】
確定的アニーリングEMの別の変形について、L.D.ベーカ他(L.D. Baker et al.)による”A Hierarchical Probabilistic Model for Novelty Detection in Text,” Neural Information Processing Systems, 1998に記載されている。ベーカ他に記載されるモデルは、階層的マルコフモデル(HMLM)と呼ぶことができる。HACMと同様に、HMLMも次式に基づいてp(Si)を直接モデリングする。
【0038】
【数11】
完全データの対数尤度は、p(Si)からHMLMに対して求めることができ、以下のように表すことができる。
【0039】
【数12】
図4には、HMLMが例示的に示されている。図示されるように、HACMとHMLMの唯一の相違点は、HMLMでは、集合Siを観測する事前確率p(i)を使用しない点である。しかしながら、当業者であれば、特定のアプリケーション、例えばトレーニング集合における文書に関して優先度が与えられないテキスト分類などでは、集合Siに対する均一の事前確率が望ましいことがわかるであろう。このような場合には、HMLMとHACMとの上記の差異は除去される。
【0040】
HACM及びHMLMは対象の階層的ソフトクラスタリングを提供できるが、これらのモデルは、モデルに関連する2つの特性のために、依然としてハード割当てとなる可能性があることに留意すべきである。2つの特性とは、第1に、クラスαが階層のリーフのみの範囲にわたり、クラスνがαの祖先にのみわたることである。第2に、対象jからの寄与(contributions)は直接、積(product)に収集される。第1の特性は、対象iが、誘導階層のリーフにのみ割当てられることを示している。例えば、図2を参照すると、HACM及びHMLMでは、対象iをノード224から228にのみ割当てる。第2の特性は、対象iが与えられた場合、対象iに関連する全対象jが同一のリーフαの祖先により説明されなければならないことを示している。すなわち、iに関連する対象jをαのどの祖先によっても説明できない場合には、iをαに割当てることはできない。したがって、iの割当てに関するこのような制限の結果、一般に、対象iとjのいずれかまたは両方が、誘導階層にハード割当てされることになる。よって、テキスト分類システムでは、HACM及びHMLMを実施することにより、文書とその文書の単語の少なくともいずれかの特定クラスタへのハード割当てに基づき、粒度が限定されたトピックが形成される可能性がある。
【0041】
本発明に関する特定の原理による製造の方法、装置及び製品は、リーフノードだけに対する依存を解消し、任意の集合Siを、誘導階層に含まれる任意のリーフノード及び/または祖先ノードの組み合わせにより説明可能にする。すなわち、対象iをブロックと考えるのではなく、それらと共起する任意の対象jに基づいて階層に割当てられるピースと考えることができる。例えば、本発明に関する特定の特性及び原理による1構成においては、コンピュータ100により実行されるトピック的クラスタリングアプリケーションにより、ある文書iの部分を、その文書iに含まれる異なる単語jに対する誘導階層内の異なるノードに割当てることができる。これは、各文書iが、その文書iに含まれるすべての単語jに対する階層中の同一リーフノードに関連することが想定されるHACM及びHMLMとは対照的である。
【0042】
本発明の1実施形態は、変数Irα(文書の階層への割当てを制御する)を、トピック的クラスタリング処理において考慮される特定の文書と単語のペア(i,j)に依存するように定義することにより、共起する任意の対象ペア、例えば文書と単語のペア(i,j)などを観測する確率を直接的にモデリングできる。本発明に関する特定の原理による1構成においては、クラスαは誘導階層における全ノードにわたり、文書(対象i)をリーフノードだけでなく、その階層における任意のノードに割当てることができる。さらに、クラスνを階層におけるαの任意の祖先として定義してもよい。νに関する制約により、ノードが階層的に組織されていることが保証される。
【0043】
図5は、本発明の1実施形態により実施されたモデルを例示的に示す図である。上述のモデルと本発明の1実施形態との1つの相違点は、本発明では、HACM及びHMLMの場合のような確率p(Si)ではなく、確率p(i(r),j(r))をモデリングする。
【0044】
【数13】
式p(i(r),j(r))の代替式は、p(α)p(i(r)|α)をp(i(r))p(α|i(r)(いずれもp(α,i(r))に等しい)で置き換える。よって、代替式は次のようになる。
【0045】
【数14】
ワークアラウンドにより、同等の代替式を使用して、p(i(r),j(r))の本来の式と同じ結果を得ることができる。
【0046】
前述のモデルと本発明との差をより明確に説明するために、p(Si)=Пr:i(r)=ip(i(r),j(r))により、p(Si)を本発明に対して求めることができる。したがって、p(Si)を次のように表すことができる。
【0047】
【数15】
完全データ対数尤度は、次式により与えられる。
【0048】
【数16】
p(Si)の上記求められた式からわかるように、所与のαに対し、対象jは、HACM及びHMLMの場合のように積に収集されず、本発明では、積がすべてのクラスαにわたる混合の後にのみ得られるように確率p(Si)を決定する。よって、ある誘導階層の異なる垂直パスから異なる対象jが生成できる。すなわち、Iiαの非ヌル値に関連する階層中のパスから生成できる。すべての対象jはある階層の同じ垂直パスから生成されなければならないという、HACM及びHMLMにおける制約は、Iiαが二値を有することを強いる。図5に示されるモデルを実施する製造方法、装置及び製品では、HACM及びHMLMに共通するこの制約を除去し、隠れた変数Iiαのすべての例が、以下に説明する修正版EM処理を使用した再推定の後に実際の値を求めることができる。さらに、αは階層におけるどのノードでもよいので、対象iを階層の異なるレベルに割当てることができる。したがって、図5に示す方法によってモデルを実施することにより、i及びjの対象のハード割当てを解消し、これらの対象のいずれにも純粋な階層的ソフトクラスタリングを行うことができる。
【0049】
すでに述べたように、本発明の1実施形態では、修正された確定的アニーリングEM処理を実行して、図5に示されるモデルを実施することができる。本発明に関する特定の原理による1構成においては、確率p(xr,yr:Θ)におけるΘは、確率p(i(r),j(r))により求められる現在の推定値の集合に関連付けられる。本発明の特性及び原理によるQ関数は、次のように定義できる。
【0050】
【数17】
ここで、
【数18】
本発明の特性による製造の方法、装置及び製品は、さらに、確定的アニーリングEM処理の修正されたE及びMステップを実施して、図5に示されるモデルに関する確率を決定することもできる。例えば、Eステップ処理はQβから直接求められ、iが与えられれば、Iiαは1つのαを除きすべてに対してゼロに等しく、i,j及びαが与えられれば、Vijανは1つのνを除きすべてに対してゼロと等しいので、Q関数Qβ(Θ;Θ(t))=A+Bである。ここで、
【数19】
及び
【数20】
しかしながら、
【数21】
これにより、上式におけるAを次のように定義することができる。
【0051】
【数22】
ここで、
【数23】
Aの決定と同様に、Bは次の形式で求めることができる。
【0052】
【数24】
ここで、
【数25】
上記のように、<Iijα>β及び<Iijα Vijαν>βは、本発明に関する特定の原理による修正された確定的アニーリングEM処理のEステップ処理に対応する。さらに、<Iijα Vijαν>βは、αが与えられた場合の、誘導階層における任意の祖先への割当てに対応する。
【0053】
本発明の1実施形態により実行される、修正されたMステップ処理は、Qβ(Θ;Θ(t))を最大にするパラメータΘを求めることを目的とする。このような確率分布において固有なのは、次の形式を有する制約に関連する制約された最適化限定(constrained optimization restriction)である。
【0054】
【数26】
Σxp(x;Θ)=1
本発明に関する特定の原理による1構成においては、ラグランジェ乗数法を用いて対応する非制約最大値を検索することができる。例えば、図5に示されるモデルにおいて実施された確率p(α)を求めるために、ラグランジェ乗数法が導入され、次のようにp(x;Θ)を求める。
【0055】
【数27】
これは、制約Σxp(α;Θ)=1を利用することにより、次に示す結果となる。
【0056】
【数28】
上記と同じ原理を用いて、図5に示されるモデルで実施された残りの確率を求めることができる。結果は次の通りである。
【0057】
【数29】
【数30】
【数31】
上記のように、確率p(α;Θ),p(i|α;Θ),p(ν|α;Θ),p(j|ν;Θ)は、本発明により実施される修正された確定的アニーリングEM処理において使用されるMステップ再推定処理を定義する。
【0058】
本発明に関する特定の原理による製造の方法、装置及び製品を、対象i及びjに与えられた意味によって、異なるアプリケーションに対し、図5に示されたモデルを実施すべく構成することもできる。このような1つ構成は、トピック検出に基づく文書クラスタリングに適用することが可能である。このような構成では、対象iが文書を表し、対象jが文書に含まれる単語を表し、文書のクラスタとトピックの少なくともいずれかが、誘導階層のリーフとノードの一方または両方により与えられる。文書コレクションに関連するトピックは、任意のクラスタを図5に示される単語確率分布p(j|ν)により定められるトピックと解釈することにより得ることができる。本発明に関する特定原理による階層的ソフトモデルは、クラスタの解釈に際し、複数の特性を考慮することができる。複数の特性とは、例えば、(1)ある文書は複数のトピックをカバーすることができる(または複数のトピックにより説明できる)。(p(i|α)により提供される対象iのソフト割当て)、(2)トピックは、多義性(複数の異なるが、関連のある意味を表す単語の特性)及び特殊性のために異なるトピックに属することができる単語の集合により最適に記述される(p(j|ν)により提供される対象jのソフト割当て)、及び(3)トピックは階層的に組織でき、これはクラスタに関して誘導された階層に対応する。本発明に関する特定原理による1構成においては、階層に対する一般的な確率モデルが、トピックを階層的に組織できない文書コレクションを処理できる(すなわち、平坦な(flat)モデル)。この場合、確率p(ν|α)は、ν=αに集中し、この結果、トピックは階層ではなく平坦な集合となる。
【0059】
図6は、本発明の1実施形態により実行できる文書クラスタリング処理の例を表すフローチャートである。本発明に関する特定原理による1構成では、コンピュータ100は、文書(対象i)の集合またはコレクションによってカバーされるトピックを識別することにより文書をクラスタリングすべく構成できる。この場合、各文書は複数の単語(対象j)を含むことができる。コンピュータ100は、要求発行者(requesting entity)からの要求に基づき、本発明に関する特定原理によるクラスタリング特性を実行できる。要求発行者は、図1のコンピュータ装置に関連する入出力要素を介してコンピュータに接続するユーザでもよいし、コンピュータ100から隔てて位置するユーザでもよい。遠隔ユーザは、遠隔位置、例えばネットワークに接続された別のコンピュータ装置から、ネットワークコネクタ114によりコンピュータ100に接続できる。さらに、要求発行者は、コンピュータ100のサービスを要求する方法(process)または演算者(computing entity)でもよい。例えば、要求発行者は、文書コレクションに関連するクラスタリング処理を要求する別のコンピュータ装置(ネットワークを介して遠隔配置される、またはバス108に局所的に接続される)に関連付けてもよい。例えば、文書コレクションに関連する検索処理を提供するサーバがコンピュータ100に対し、特定の文書コレクションのトピックを決めるよう要求してもよい。この例では、コンピュータ100は、文書コレクションのクラスタリングの要求を受け、クラスタリング処理の結果を要求発行者に対して利用可能にすることができる。なお、当業者であれば、異なるタイプの多数の要求発行者及び要求タイプを、本発明の範囲を逸脱することなく実施できることがわかるであろう。
【0060】
文書コレクションは、メモリ104,106及び116のいずれにも配置することができる。また、文書コレクションを、図1に示されるコンピュータ環境から隔てて、例えばネットワークに接続されたサーバに配置してもよい。このような場合には、コンピュータ100は、ネットワークコネクタ114を介して文書コレクションを受信するよう構成できる。当業者であれば、文書コレクションの位置は上記の例に限定されず、コンピュータ100は、当業界で知られた方法及び装置を使用してこれらの位置に対してアクセスできるよう構成可能であることがわかるであろう。
【0061】
図6を参照すると、本発明に関する特定原理による1構成においては、コンピュータ100は、誘導可能な階層(ツリー)に関連する1つ以上の条件を定めることにより、本発明に関する特定原理によるクラスタリング技術を開始することができる(ステップ605)。この条件により、コンピュータ100は、誘導階層がそこに定められるクラスタに関する所望の構造にいつ達するかを決定することが可能になる。例えば、(本発明の特性による階層的ソフトモデルを実施するための命令及び/またはプログラムコードを実行することのできる)プロセッサ102に、クラスタリングされている文書コレクションにおいて共起する対象(i,j)の検索の停止を命令するという条件を定めてもよい。このような条件は、所定数のリーフと誘導階層のレベルの少なくともいずれかに基づくことができる。本発明に関する特定原理による1構成においては、コンピュータ100は、ユーザからキーボード110などの入出力装置を介してこれらの条件を受信してもよい。例えば、コンピュータ100によりユーザに条件を提供するよう促してもよいし、文書コレクションのサイズに基づき、ユーザがコンピュータ100に自発的に条件を決定するよう命令してもよい。当業者であれば、本発明の範囲を逸脱することなく、他の多数の条件を実施可能であることがわかるであろう。
【0062】
図6を再び参照すると、1つ以上の条件が決定すると、コンピュータ100は、クラスタリングの対象である文書コレクションを受信(または検索)することができる(ステップ610)。文書コレクションにコンピュータ100がアクセス可能になると、プロセッサ102は文書コレクション全体をクラスαに割当てることができる(ステップ615)。まず、クラスαは、文書コレクションに関連する単数または複数のメイントピックを表すルートノードまたはクラスタを表すことができる。また、プロセッサ102は、パラメータβを初期値に設定することができる(ステップ620)。1実施形態においては、パラメータβは、目的関数の複雑性を制御してクラスタの数によって最適化を行い、かつパラメータ値自体の計算を制御する値であってもよい。βの初期値は、1までの非常に低い値で(すなわち、.01)、これに対して、目的関数の一義的な(unique)最大値を求めるためには、1つのクラスタのみが要求される。βの値は、コレクションのサイズに基づき、プロセッサ102によって自発的に決定してもよいし、キーボード110などの入出力装置を介してユーザが提供してもよい。
【0063】
次に、プロセッサ102は、本発明に関する特定原理による修正された確定的アニーリングEM処理における修正されたEステップを実行することができる(ステップ625)。よって、クラスα及び決定したパラメータβの値が与えられれば、Qβ(Θ;Θ(t))を、本発明に関する特性及び原理による上記の式にしたがって計算することができる。(すなわち、Qβ(Θ;Θ(t))=A+B)
さらに、プロセッサ102は、クラスα及びパラメータβの決定値が与えられれば、本発明に関する特定の原理にしたがって、最大化処理を実行することができる(ステップ630)。すなわち、確率分布p(α;Θ),p(i|α;Θ),p(ν|α;Θ),p(j|ν;Θ)を決定する。本発明に関する特定原理による修正された確定的アニーリングEM処理が実行されると、プロセッサ102は、クラスαが2つの子クラスに分裂しているかを決定することができる(ステップ635)。
【0064】
本発明に関する特定原理による1構成においては、プロセッサ102は、確率分布p(i|α)に基づき、クラスαの分裂を認識することができる。まず、パラメータβが非常に低い値に設定された場合には、文書コレクションに含まれるすべての文書及び単語(i及びj)は、クラスαに割当てられる同じ確率を有する。しかしながら、パラメータβの値が増すにつれ、異なる文書に関するこの同じ確率は、これらの文書に含まれる異なる単語に基づき互いに分岐し始める。この分岐の結果、文書の2つのクラス(またはクラスタ)が、ある祖先クラスから実現する。これにより各子クラスには、各文書に含まれる異なる単語に基づき同様の確率p(i|α)を有する文書が含まれることになる。例えば、ステップ615において、まずクラスαに割当てられた文書コレクションが、単語W1,W2及びW3を含む文書DOC1と、単語W4,W5及びW6を含む文書DOC2とを含むと想定する。DOC1及びDOC2を含むこの初期クラスαは、パラメータβの初期値においては、このコレクションの各文書の単語に基づき、該各文書に対して同じ確率p(i|α)を生成することができる。しかしながら、βの値が高くなると、この同じクラスαでも、W1に基づいた場合にはDOC1に関して第1の確率p(i|α)となり、W2の基づいた場合にはDOC1に対して第2の確率となる。同様に、より高いβの値では、DOC2は、W4,W5,W6に基づき、第1の確率に関連付けることができる。ここで、本発明に関する特定原理によれば、単一の文書、例えばDOC1を、同一文書内に含まれる単語に基づいて2つのクラス(またはクラスタ)に割当てることができる。
【0065】
ステップ635において、確率p(i|α)がコレクションの各文書に関して同一であるか、またはコレクションの残りの文書に対応する、2つの確率値の一方にあたるかを決定すべく構成することができる。クラスαの分裂があったと判断すると(ステップ635;YES)、プロセッサ102は、ステップ605において決めた条件が満たされているかを決定することができる(ステップ640)。処理におけるこの段階において、階層が誘導されている(すなわち、クラスαの2つの子クラスへの分裂)。したがって、プロセッサ102が、条件(例えば、リーフの最大数など)が満たされていると判断すると(ステップ640;YES)、誘導階層が完成し、文書は、各文書に含まれる単語に関連するトピックに基づきクラスタリングされ、クラスタリング処理が終了する(ステップ645)。
【0066】
一方、プロセッサ102が、現在のパラメータβの値では初期クラスαが分裂していないと判断すると(ステップ635;NO)、パラメータβの値を増加することができ(ステップ650)、処理はパラメータβの増加した値と共にステップ625に戻る。パラメータβを増加する方法は、ステップ値を用いて制御しもよい。このステップ値は、ユーザにより予め定めてもよいし、パラメータβの初期値及びユーザにより提供されるさらなるパラメータ(すなわち、クラスタの数、階層の深さなど)から計算してもよい。さらに、初期クラスαは2つのクラス(それぞれが個別のクラスαとして定義される)に分裂しているが(ステップ635;YES)、階層の条件が満たされていない場合(ステップ640;NO)には、プロセッサ102は、各新しい子クラスαに対するパラメータβを、初期クラスαを分裂させた値に設定する(ステップ655)。続いて、プロセッサ102は、階層の条件が満たされるまで(ステップ640;YES)、新しい子クラスαのそれぞれに対して同じステップを実行し(ステップ625−655)、クラスタリング処理を終了する(ステップ645)。
【0067】
本発明に関する特定原理による1構成においては、クラスタ処理の終了(ステップ645)を、コンピュータ100による、誘導階層に関連する表示を生成により行い、この表示をメモリ(すなわち、メモリ106,104及び/または116)に記憶してもよい。この表示は、クラスタリングされた文書コレクションに関するトピックを反映することができ、種々の形式、例えば、階層とクラスタの少なくともいずれかに関する1つ以上の表、リスト、チャート、グラフ、及び文書コレクションのトピックに関連する誘導階層及びクラスタを反映する他の任意のタイプの表示として生成できるが、これらの限定されるものではない。コンピュータ100は、クラスタリング処理を実行する(すなわち、文書コレクションのトピックを決定する)ための要求に応じて、既に説明したように、記憶された表示を要求発行者が利用可能にすることができる。表示は、ネットワークコネクタ114またはバス108を介して発行者に利用できるようにしてもよい。さらに、表示をコンピュータ100によって送信してもよいし、発行者が検索してもよい。さらに、階層の表示を、発行者による検索及び/または使用のためにメモリ(例えばデータベース)に送信するようにコンピュータ100を構成してもよい。例えば、コンピュータ100から隔てて位置するサーバが、コンピュータ100により提供される1つ以上の階層に関する表示を1つ以上含むデータベースにアクセスすることもできる。階層は、1つ以上の文書コレクションに関連するトピックのクラスタを含んでもよい。例えば、サーバは、データベースにアクセスし、特定の文書コレクションに関して検索動作を処理することができる。本発明に関する特定原理による別の実施形態においては、コンピュータ100はディスプレイ112を介して表示をユーザに対して利用可能にしてもよい。この構成では、コンピュータ100は、誘導階層及び階層のクラスタが表すトピックを反映するグラフ表示を生成し、この表示を、ユーザが見られるようにディプレイ112に供給することができる。
【0068】
本発明による特定の構成をさらに説明するために、図7には、本発明により生成できる、例示的な文書コレクションに対する例示的なトピック階層700が示されている。階層700は、オクラホマシティの爆破に関するニュース記事に関連付けられた特定数の文書(すなわち、273の別々の文書)を含む文書コレクションを反映することができる。この例では、文書は7684の異なる空でない(non-empty)単語を含んでもよい。空の単語とは、限定詞、前置詞などを表し、当業界で知られた技術、例えばストップリストなどを用いて、コレクションから省くことができる。階層700の生成に先立ち、プロセッサ102は、誘導階層700に対して最大4つのリーフという階層条件を定めていてもよい。
【0069】
図示されるように、階層700は7つのノード(710から770)と4つのリーフ(740から770)を含む。各ノードを、p(j|ν)が最高である、コレクションの最初の5つの単語に関連付けることができる。本発明による階層700の生成において、ノード710(パラメータβ1で、クラスα1に定義されている)に関連付けられた文書コレクションは、パラメータβ1の値の増加に続いてクラスα1の分裂を決定した際に、2つの子トピック/クラスタに分割されていてもよい。この例示的な階層700においては、この2つの子トピック/クラスタは、クラスα11及びα12によってそれぞれ定められるノード720と730に関連付けられ、クラスα1の分裂がパラメータ値β2で発生している。
【0070】
さらなる生成の間に、パラメータ値がβ2からβ3に増加した際に、α11及びα12の各クラスが、2つの子トピック/クラスタに分裂してる。図示されるように、クラスα11で定められるノード720は、クラスα21及びα22によってそれぞれ定められるノード740と750とに分裂している。一方、クラスα12で定められるノード730は、クラスα23及びα24によってそれぞれ定められるノード760と770とに分裂されている。
【0071】
図7よりわかるように、本発明では、例示的な文書コレクションを、(文書、単語)のペアの共起に基づき、選択されたトピックにクラスタリングすることができる。例えば、階層700においては、ノード720は爆破の調査に関するトピック/クラスタを反映することができ、ノード730は爆破事件そのものに関連するトピック/クラスタを反映してもよい。ノード720は、さらに2つのトピック、すなわち、調査自体に関連するトピック(740)と爆破に関する裁判に関連するトピック(750)とに分裂してもよい。一方、ノード730は、2つのトピック、すなわち爆破の説明及び死傷者に関するトピック(ノード760)と、爆破現場における救助チームの働きに関するトピック(770)とに分裂していてもよい。例示的な階層700では、上位レベルのノードを用いて、p(ν|α)及びp(j|ν)により、所与のトピックを記載した。したがって、コレクションの全文書において頻繁に現れる単語、例えば「オクラホマ」は、これらを階層700における多くのトピック/クラスタに割当てることにより最適に説明される。
【0072】
なお、1実施形態においては、階層700の各クラスタ/ノードに関連するトピックの「タイトル(名称)」をユーザが提供することもできる。例えば、ユーザに、各クラスタ/ノードに関するN個の最も確率の高い単語を与えることができる。ユーザはこれらの単語からあるトピックに関連するクラスタ/ノードに対する「タイトル」を推定することができる。あるいは、各クラスタ/ノードに対する「タイトル」をプロセッサ102が自動的に決めることもできる。この構成では、プロセッサ102は、特定のクラスタ/ノードに関連付けられた文書から最頻のnグラムを抽出し、抽出したnグラムに基づいて、そのクラスタ/ノードに対する「タイトル」を決定することができる。
【0073】
本発明に関する特定原理による1構成においては、コンピュータ100を、本発明の1実施形態により誘導されたトピック階層の妥当性を評価すべく構成してもよい。この構成においては、プロセッサ102は、テスト文書コレクションに基づく誘導階層に含まれるクラスタを、予めこのテストコレクションに割当てられたマニュアルラベルの集合と比較することを可能にする命令またはプログラムコードを実行できる。この評価を行うため、プロセッサ102は、誘導階層に含まれるラベル及びクラスタに関するGini(ジニ)関数の平均を使用することができ、ジニ関数は次式のように定められる。
【0074】
【数32】
及び
【数33】
上記のGini関数において、Lは異なるラベルの数を表し、Λは異なるクラスタの数を表す。さらに、Glはラベルlに関する、求められたクラスタαの純度を測定し、Gαに対しては相互的である。Gini関数Gl及びGαの値が小さいほど、よい結果を表すが、これはクラスタとラベルがより密接に対応しているためである。すなわち、データクラスタとラベルクラスタが同じ重みの同じ文書を含む場合には、Gini指数は0である。Gini関数Gl及びGαはそれぞれが、上限値1を有する。
【0075】
したがって、コンピュータシステム100が、本発明に関する特定原理による階層的ソフトクラスタリング動作の有効性を評価しようとする際には、テスト文書コレクションにアクセスし、図6に示される処理をこのコレクションに関して行い、トピック階層を生成することができる。クラスタに関するGini関数の実施結果は、Gini指数の形で提供することができる。プロセッサ102は、Gini関数の結果を分析して、本発明の特性によるクラスタリング処理が適正なトピック結果を生み出しているかを決定するよう構成することができる。
【0076】
本発明に関する特定原理による1構成においては、図6に示された処理に関するGini指数を、他のクラスタリング処理、例えばHMLMや、分離混合モデル(SMM;Separable Mixture Model)など、文書を誘導階層のリーフにのみ割当てる平坦なクラスタリングモデルに関するGini指数と比較することができる。例えば、表1は、本発明の特性による階層的ソフトクラスタリング処理、HMLMに基づくクラスタリング処理、及びSMMクラスタリング処理を使用してプロセッサ102によりクラスタリングされたテスト文書コレクションに関する例示的なGini指数テーブルを示すものである。表1に示されるように、本発明の特性による階層的ソフトクラスタリング処理に関するGini指数は、他の2つのモデル(HMLM及びラベル)に関するGini指数より小さい。このような結果は、コンピュータシステム100に、他のクラスタリング処理に比べ、本発明に関する特定原理によるクラスタリング処理を実行して生成されたトピッククラスタがより効率的であることを示すことができる。
【0077】
【表1】
以上のように、本発明によれば、コンピュータシステムは、文書及び単語のコレクションからトピッククラスタを生成し、各クラスタを別のクラスタに割当てられた文書にも関連付づけることができる。しがって、誘導クラスタ階層における対象のハード割当てを回避することができる。
【0078】
本発明は、上記の実施及び構成例に限定されるものではない。例えば、本発明により、ある文書コレクションに関連するトピッククラスタの階層を、このコレクションに追加される単数または複数の新しい文書に基づき更新することができる。この構成においては、コンピュータ100は、1つ以上の新しい文書の追加時に文書コレクションを更新し、この修正されたコレクションに関して本発明に関する特定原理によるクラスタリング動作を実行することができる。したがって、本発明の実施により、新しい1文書(または文書の集合)が文書コレクションに追加されるたびごとに、その文書コレクションに関するトピック階層を修正することができる。
【0079】
さらに、本発明を使用して、ある文書コレクションに関してそのユーザが実行する行動(例えば、書込み、プリント、ブラウジング)に基づきユーザをクラスタリングすることもできる。この構成では、対象「i」がユーザを表し、対象「j」が文書を表す。さらに、本発明を使用し、画像を、その画像に関連づけられたテキストに基づきクラスタリングすることもできる。例えば、関連付けられたテキストは画像のタイトルであってもよいし、例えばウェブページのように画像の周囲のテキストであってもよい。この構成では、対象「i」は画像を表し、対象「j」は各画像のタイトルに含まれる単語を表す。さらに、本発明を使用し、企業の活動領域または消費者関係に基づき企業をクラスタリングすることもできる。例えば、後者の例の場合、「i」は企業を表し、「j」は企業と消費者との関係(例えば、「販売(sells to)」)を表す。すなわち、1つ以上の企業には、それらの企業から異なるタイプの製品及び/またはサービスを購入した消費者の集合を有することができる。したがって、本発明の特定の態様によれば、階層のクラスタにより、これらの企業から類似するタイプの製品及び/またはサービスを購入した(例えば、ハードウェアの購入、コンピュータソフトウェアの購入、ルータ部品の購入など)消費者のグループを表すことができる。よって、この構成においては、「i」が消費者を表すことができ、「j」によって企業を表してもよい。あるいは、別の構成に、特定のタイプの企業から種々のタイプの製品及び/またはサービスを購入した消費者の集合を含んでもよい。この構成では、階層のクラスタが、製品及び/またはサービスのタイプ(ハードウェアの販売、コンピュータソフトウェアの販売、紙製品の販売など)のグループを表すことができる。この構成においては、「i」により企業を表し、「j」により消費者を表すことができる。このように、当業者であれば、本発明を任意のタイプの共起する対象のクラスタリングに適用できることが理解できるであろう。
【図面の簡単な説明】
【図1】 コンピュータ装置環境の例を示す図であり、これにより本発明の特定原理による製造の方法、装置及び製品を実施することができる。
【図2】 第1の階層的クラスタリングモデルの作用(behavior)を表す例示的なブロック図である。
【図3】 第2の階層的クラスタリングモデルに関連するモデルを表す例示的なブロック図である。
【図4】 第3の階層的クラスタリングモデルを表す例示的なブロック図である。
【図5】 本発明に関する特定の特性及び原理による、階層的クラスタリングモデルに関連する例示的なブロック図である。
【図6】 本発明に関する特定の特性及び原理による製造の方法、装置及び製品により実施可能な例示的な処理を表すフローチャートである。
【図7】 本発明に関する特定の特性による製造の方法、装置、及び製品により製造できる、文書コレクションに関連する例示的なトピック階層を示す図である。
【符号の説明】
100 コンピュータ装置、102 プロセッサ、104 メインメモリ、106 補助メモリ、108 バス、110 キーボード、112 ディスプレイ、114 ネットワークコネクタ、116 大容量記憶装置。
Claims (3)
- 複数の文書を、階層的に組織化された複数のクラスタで構成される構造にクラスタリングする、コンピュータにより実施される方法であって、各文書は複数の単語を含み、かつ、(文書,単語)ペアのセットとして表現され、前記方法は、
入出力要素、ネットワークコネクタ、あるいはバスの少なくともいずれか1つによって文書コレクションにアクセスするステップと、
前記コレクションの文書の分類を反映するクラスタの階層を、文書に含まれる単語に基づき作成するクラスタリング処理をコンピュータのプロセッサにより実行するステップであって、前記コレクションの任意の文書は各文書の第1セグメントに基づき前記階層の第1クラスタに割当てることができ、各文書は該各文書の第2セグメントに基づき前記階層の第2クラスタに割当てることができ、前記第1及び第2のクラスタは前記階層の異なるパスに関連づけられているステップと、
クラスタの階層の表示をメモリに記憶するステップと、
ネットワークコネクタ、バス、あるいはディスプレイの少なくともいずれか1つによって前記表示を、前記文書コレクションに関連付けられた要求に応じて、エンティティに対して利用可能にするステップと、を含む方法。 - 請求項1に記載の方法において、前記クラスタリング処理を実行するステップは、
前記文書コレクションを第1クラスに割当てるステップと、
確率パラメータを初期値に設定するステップと、
前記パラメータの値にある、前記コレクションの各文書に対し、前記コレクションの文書が前記階層のあるクラスタに割当てられる確率を、該文書に含まれる単語及び前記第1クラスに基づき決定するステップと、を含む方法。 - 複数の画像を、その画像に関連するテキストに基づき、複数のサブノードに関連付けられたルートノードを含む階層的データ構造にクラスタリングする、コンピュータで実施される方法であって、各画像は(画像,テキスト特徴)ペアのセットとして表現され、各サブノードは異なるトピックを表し、前記方法は、
入出力要素、ネットワークコネクタ、あるいはバスの少なくともいずれか1つによって画像コレクションにアクセスするステップと、
前記階層的データ構造を作成するクラスタリング処理をコンピュータのプロセッサにより実行するステップと、を含み、前記クラスタリング処理は、
第1の画像を、該第1の画像に関連付けられたテキストの第1部分に基づき第1サブノードに関連付けるステップと、
前記第1の画像を、該第1の画像に関連付けられたテキストの第2部分に基づき第2サブノードに関連付けるステップと、を含み、
前記第1及び第2サブノードは前記階層的データ構造の異なる子孫パスに関連づけられ、
前記方法は、さらに、
前記階層的データ構造の表示をメモリに記憶するステップと、
ネットワークコネクタ、バス、あるいはディスプレイの少なくともいずれか1つによって前記表示を、前記画像コレクションに関連づけられた要求に応じてエンティティに対して利用可能にするステップと、を含む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/982,236 | 2001-10-19 | ||
US09/982,236 US7644102B2 (en) | 2001-10-19 | 2001-10-19 | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003140942A JP2003140942A (ja) | 2003-05-16 |
JP4384398B2 true JP4384398B2 (ja) | 2009-12-16 |
Family
ID=25528969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002300829A Expired - Fee Related JP4384398B2 (ja) | 2001-10-19 | 2002-10-15 | 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7644102B2 (ja) |
EP (1) | EP1304627B1 (ja) |
JP (1) | JP4384398B2 (ja) |
BR (1) | BRPI0204257B1 (ja) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7617184B2 (en) * | 2000-05-18 | 2009-11-10 | Endeca Technologies, Inc. | Scalable hierarchical data-driven navigation system and method for information retrieval |
US7035864B1 (en) * | 2000-05-18 | 2006-04-25 | Endeca Technologies, Inc. | Hierarchical data-driven navigation system and method for information retrieval |
US7831467B1 (en) * | 2000-10-17 | 2010-11-09 | Jpmorgan Chase Bank, N.A. | Method and system for retaining customer loyalty |
US8090717B1 (en) * | 2002-09-20 | 2012-01-03 | Google Inc. | Methods and apparatus for ranking documents |
US20040117366A1 (en) * | 2002-12-12 | 2004-06-17 | Ferrari Adam J. | Method and system for interpreting multiple-term queries |
US7395256B2 (en) * | 2003-06-20 | 2008-07-01 | Agency For Science, Technology And Research | Method and platform for term extraction from large collection of documents |
US8175908B1 (en) | 2003-09-04 | 2012-05-08 | Jpmorgan Chase Bank, N.A. | Systems and methods for constructing and utilizing a merchant database derived from customer purchase transactions data |
US20070244690A1 (en) * | 2003-11-21 | 2007-10-18 | Koninklijke Philips Electronic, N.V. | Clustering of Text for Structuring of Text Documents and Training of Language Models |
JP4637113B2 (ja) * | 2003-11-28 | 2011-02-23 | キヤノン株式会社 | 階層データの好ましいビューを構築するための方法 |
US7139754B2 (en) * | 2004-02-09 | 2006-11-21 | Xerox Corporation | Method for multi-class, multi-label categorization using probabilistic hierarchical modeling |
US7457808B2 (en) * | 2004-12-17 | 2008-11-25 | Xerox Corporation | Method and apparatus for explaining categorization decisions |
US7630980B2 (en) * | 2005-01-21 | 2009-12-08 | Prashant Parikh | Automatic dynamic contextual data entry completion system |
US7672830B2 (en) * | 2005-02-22 | 2010-03-02 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
US20070050388A1 (en) * | 2005-08-25 | 2007-03-01 | Xerox Corporation | Device and method for text stream mining |
US8019752B2 (en) * | 2005-11-10 | 2011-09-13 | Endeca Technologies, Inc. | System and method for information retrieval from object collections with complex interrelationships |
US7720848B2 (en) * | 2006-03-29 | 2010-05-18 | Xerox Corporation | Hierarchical clustering with real-time updating |
US8676802B2 (en) * | 2006-11-30 | 2014-03-18 | Oracle Otc Subsidiary Llc | Method and system for information retrieval with clustering |
US20080140707A1 (en) * | 2006-12-11 | 2008-06-12 | Yahoo! Inc. | System and method for clustering using indexes |
US7711747B2 (en) * | 2007-04-06 | 2010-05-04 | Xerox Corporation | Interactive cleaning for automatic document clustering and categorization |
US8543380B2 (en) * | 2007-10-05 | 2013-09-24 | Fujitsu Limited | Determining a document specificity |
US9317593B2 (en) | 2007-10-05 | 2016-04-19 | Fujitsu Limited | Modeling topics using statistical distributions |
US8108392B2 (en) | 2007-10-05 | 2012-01-31 | Fujitsu Limited | Identifying clusters of words according to word affinities |
US7856434B2 (en) | 2007-11-12 | 2010-12-21 | Endeca Technologies, Inc. | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
US8189930B2 (en) * | 2008-07-17 | 2012-05-29 | Xerox Corporation | Categorizer with user-controllable calibration |
JP4636141B2 (ja) * | 2008-08-28 | 2011-02-23 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US8126891B2 (en) * | 2008-10-21 | 2012-02-28 | Microsoft Corporation | Future data event prediction using a generative model |
US8339680B2 (en) | 2009-04-02 | 2012-12-25 | Xerox Corporation | Printer image log system for document gathering and retention |
US8386437B2 (en) * | 2009-04-02 | 2013-02-26 | Xerox Corporation | Apparatus and method for document collection and filtering |
US8165974B2 (en) | 2009-06-08 | 2012-04-24 | Xerox Corporation | System and method for assisted document review |
WO2011004529A1 (ja) * | 2009-07-06 | 2011-01-13 | 日本電気株式会社 | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム |
US8566349B2 (en) | 2009-09-28 | 2013-10-22 | Xerox Corporation | Handwritten document categorizer and method of training |
CA2777506C (en) * | 2009-10-15 | 2016-10-18 | Rogers Communications Inc. | System and method for grouping multiple streams of data |
US8356045B2 (en) * | 2009-12-09 | 2013-01-15 | International Business Machines Corporation | Method to identify common structures in formatted text documents |
US8407228B1 (en) * | 2010-03-26 | 2013-03-26 | Cadence Design Systems, Inc | Method and mechanism for maintaining existence information for electronic layout data |
US8509537B2 (en) | 2010-08-05 | 2013-08-13 | Xerox Corporation | Learning weights of fonts for typed samples in handwritten keyword spotting |
WO2013133844A1 (en) | 2012-03-08 | 2013-09-12 | New Jersey Institute Of Technology | Image retrieval and authentication using enhanced expectation maximization (eem) |
US20130253910A1 (en) * | 2012-03-23 | 2013-09-26 | Sententia, LLC | Systems and Methods for Analyzing Digital Communications |
US8880525B2 (en) | 2012-04-02 | 2014-11-04 | Xerox Corporation | Full and semi-batch clustering |
US9189473B2 (en) | 2012-05-18 | 2015-11-17 | Xerox Corporation | System and method for resolving entity coreference |
US9569327B2 (en) | 2012-10-03 | 2017-02-14 | Xerox Corporation | System and method for labeling alert messages from devices for automated management |
US8930181B2 (en) | 2012-12-06 | 2015-01-06 | Prashant Parikh | Automatic dynamic contextual data entry completion |
US9639881B2 (en) * | 2013-05-20 | 2017-05-02 | TCL Research America Inc. | Method and system for personalized video recommendation based on user interests modeling |
US20150127323A1 (en) * | 2013-11-04 | 2015-05-07 | Xerox Corporation | Refining inference rules with temporal event clustering |
US9483738B2 (en) * | 2014-01-17 | 2016-11-01 | Hulu, LLC | Topic model based media program genome generation |
US9992209B1 (en) * | 2016-04-22 | 2018-06-05 | Awake Security, Inc. | System and method for characterizing security entities in a computing environment |
US10997231B2 (en) | 2019-01-17 | 2021-05-04 | International Business Machines Corporation | Image-based ontology refinement using clusters |
CN110377823A (zh) * | 2019-06-28 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种Hadoop框架下的热点挖掘系统的构建 |
US11675766B1 (en) | 2020-03-03 | 2023-06-13 | Amazon Technologies, Inc. | Scalable hierarchical clustering |
US11514321B1 (en) | 2020-06-12 | 2022-11-29 | Amazon Technologies, Inc. | Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis |
US11423072B1 (en) | 2020-07-31 | 2022-08-23 | Amazon Technologies, Inc. | Artificial intelligence system employing multimodal learning for analyzing entity record relationships |
US11620558B1 (en) | 2020-08-25 | 2023-04-04 | Amazon Technologies, Inc. | Iterative machine learning based techniques for value-based defect analysis in large data sets |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3669016B2 (ja) | 1994-09-30 | 2005-07-06 | 株式会社日立製作所 | 文書情報分類装置 |
US6460036B1 (en) * | 1994-11-29 | 2002-10-01 | Pinpoint Incorporated | System and method for providing customized electronic newspapers and target advertisements |
US5761418A (en) * | 1995-01-17 | 1998-06-02 | Nippon Telegraph And Telephone Corp. | Information navigation system using clusterized information resource topology |
US5864855A (en) * | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
US6078913A (en) * | 1997-02-12 | 2000-06-20 | Kokusai Denshin Denwa Co., Ltd. | Document retrieval apparatus |
JPH10228486A (ja) * | 1997-02-14 | 1998-08-25 | Nec Corp | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
US5819258A (en) * | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
US6154213A (en) * | 1997-05-30 | 2000-11-28 | Rennison; Earl F. | Immersive movement-based interaction with large complex information structures |
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US6742003B2 (en) * | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
US6556958B1 (en) * | 1999-04-23 | 2003-04-29 | Microsoft Corporation | Fast clustering with sparse data |
US6460025B1 (en) * | 1999-07-27 | 2002-10-01 | International Business Machines Corporation | Intelligent exploration through multiple hierarchies using entity relevance |
US20020129038A1 (en) * | 2000-12-18 | 2002-09-12 | Cunningham Scott Woodroofe | Gaussian mixture models in a data mining system |
US7039638B2 (en) * | 2001-04-27 | 2006-05-02 | Hewlett-Packard Development Company, L.P. | Distributed data clustering system and method |
-
2001
- 2001-10-19 US US09/982,236 patent/US7644102B2/en not_active Expired - Fee Related
-
2002
- 2002-10-15 JP JP2002300829A patent/JP4384398B2/ja not_active Expired - Fee Related
- 2002-10-18 EP EP02023413.4A patent/EP1304627B1/en not_active Expired - Fee Related
- 2002-10-18 BR BRPI0204257A patent/BRPI0204257B1/pt not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US20030101187A1 (en) | 2003-05-29 |
EP1304627B1 (en) | 2014-04-02 |
JP2003140942A (ja) | 2003-05-16 |
US7644102B2 (en) | 2010-01-05 |
BRPI0204257B1 (pt) | 2016-05-17 |
BR0204257A (pt) | 2003-09-16 |
EP1304627A2 (en) | 2003-04-23 |
EP1304627A3 (en) | 2007-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4384398B2 (ja) | 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品 | |
Sumathi et al. | Introduction to data mining and its applications | |
US7904455B2 (en) | Cascading cluster collages: visualization of image search results on small displays | |
Blei et al. | The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
US7668847B2 (en) | Semi-structured data storage schema selection | |
EP1678635B1 (en) | Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy | |
US11574201B2 (en) | Enhancing evolutionary optimization in uncertain environments by allocating evaluations via multi-armed bandit algorithms | |
Ghosh et al. | A tutorial review on Text Mining Algorithms | |
US11023503B2 (en) | Suggesting text in an electronic document | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
JP2003167914A (ja) | マルチメディア情報検索方法、プログラム、記録媒体及びシステム | |
JP2012160201A (ja) | レビュー処理方法およびシステム | |
JP2005063332A (ja) | 情報体系対応付け装置および対応付け方法。 | |
US11182540B2 (en) | Passively suggesting text in an electronic document | |
JP6680956B1 (ja) | 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法 | |
George et al. | Comparison of LDA and NMF topic modeling techniques for restaurant reviews | |
Jeong et al. | Discovery of research interests of authors over time using a topic model | |
Golemati et al. | A context-based adaptive visualization environment | |
JP5787924B2 (ja) | クラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラム | |
US20060167835A1 (en) | Optimization-based media allocation | |
Dobrovolskyi et al. | Probabilistic topic modelling for controlled snowball sampling in citation network collection | |
Cunningham et al. | Applying connectionist models to information retrieval | |
Choo et al. | VisIRR: interactive visual information retrieval and recommendation for large-scale document data | |
Kushwaha et al. | Inclusion of semantic and time-variant information using matrix factorization approach for implicit rating of last. fm dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081014 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090901 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090925 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4384398 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |