JP7006403B2

JP7006403B2 - クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Info

Publication number: JP7006403B2
Application number: JP2018047064A
Authority: JP
Inventors: 裕司溝渕; 訓治高山
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2022-01-24
Anticipated expiration: 2038-03-14
Also published as: US20190286639A1; JP2019159934A

Description

本発明は、クラスタリングプログラム、クラスタリング方法およびクラスタリング装置に関する。

ニュースなど類似する文書から効率的な情報収集を行うためや、インシデントの原因や対処の多角的な情報分析を行うために、文書クラスタリングが行われている。例えば、同一クラスに入るべき文書間に付与されるラベルである「must-link」や異なるクラスに入るべき文書間に付与されるラベルである「cannot-link」の制約を満たすように、k－means手法によるクラスタリングが利用されている。

近年では、教師有学習を用いたクラスタリング手法が知られている。例えば、「must-link」や「cannot－link」などのラベルを用いて、多次元空間の各特徴の重みを学習した後に、k－means手法などによってクラスタリングを行う手法が知られている。また、多次元空間でのクラスタリングにおいて、予め用意された教師データ（must-link、cannot-link）に合致するように各次元の重みを調整しつつ、階層クラスタリングを行い、エラー率が収束するまで繰り返す手法が知られている。また、凝集型クラスタリングのデンドログラムのどの高さ（距離）をリグレッション回帰モデルのような判別モデルで学習して文書間の関係の有無を推定し、推定結果に基づいて、類似する文書を同一クラスタに分類する手法が知られている。

特開２０１３－１３４７５２号公報特開２０１２－２４３２１４号公報国際公開第２０１３／０１８９３号

しかしながら、上記技術では、クラスタリング対象の要素である複数の文書において、類似関係にある文書が多段に繋がる場合、クラスタリングの過程で内容の変化が起き、同一クラスタに全く異なる内容の文書が属することが起きうるので、クラスタリングによって適切な結果が得られるとは限らない。

例えば、文書間の類似関係は、条件付きであり、ある観点（トピック）においては類似していても別の観点では類似していないことがある。しかし、上記手法では、人手に依るラベルにそのような情報が付与されていない。このため、観点が統一されていない類似関係を教師データとして学習することとなり、類似判別処理は観点の境界を無視して関係辺を繋ぎ続けることがおきてしまう。

図９は、一般的な文書クラスタリングを説明する図である。図９は、文書内の単語の重複度によってクラスタリングを行った例である。図９に示すように、類似関係にある文書が多段に繋がる場合、その過程で内容の変化が起き、同一クラスタに全く異なる内容の文書が属することが起きうる。具体的には、図９に（１）から（６）の隣り合う文書間では一文字の違いで類似度が「0.667」と高いことから、全て同一クラスタになる可能性がある。しかし、（１）と（６）とでは、内容が全く違うため、類似度が「0.111」と低く、異なるクラスタに分類される方が好ましい。同様に、（１）と（５）や（２）と（６）についても、類似する内容とは言い難く、異なるクラスタに分類される方が好ましい。

一つの側面では、複数の要素に対するクラスタリングを適切に実行することができるクラスタリングプログラム、クラスタリング方法およびクラスタリング装置を提供することを目的とする。

第１の案では、クラスタリングプログラムは、一部の要素間についての関係に関する関係データが与えられた、複数の要素に対するクラスタリングプログラムであって、前記複数の要素間の関連度を、前記複数の要素それぞれの属性を用いて算出する処理をコンピュータに実行させる。クラスタリングプログラムは、前記関係データが与えられた要素の組それぞれについての、前記関連度および前記関係データに基づき、前記要素間のリンク属性を識別する閾値を算出する処理をコンピュータに実行させる。クラスタリングプログラムは、前記閾値に基づき、前記複数の要素間のリンク種別を判別する処理をコンピュータに実行させる。クラスタリングプログラムは、判別結果に基づきクラスタリングを行う処理をコンピュータに実行させる。

一実施形態によれば、複数の要素に対するクラスタリングを適切に実行することができる。

図１は、実施例１にかかるクラスタリング装置を説明する図である。図２は、実施例１にかかるクラスタリング装置の機能構成を示す機能ブロック図である。図３は、教師データＤＢに記憶される情報の例を示す図である。図４は、文書間の関係性の抽出を説明する図である。図５は、文書間の関係性の推定を説明する図である。図６は、クラスタリングの結果を説明する図である。図７は、クラスタリング処理の流れを示すフローチャートである。図８は、ハードウェア構成例を示す図である。図９は、一般的な文書クラスタリングを説明する図である。

以下に、本願の開示するクラスタリングプログラム、クラスタリング方法およびクラスタリング装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
図１は、実施例１にかかるクラスタリング装置を説明する図である。図１に示すように、クラスタリング装置１０は、文書クラスタリングによる一連の処理の流れとして、教師データを読み込んでラベルを学習し、判別器を用いて分類対象の文書群を分類して、クラスタを生成する。

具体的には、クラスタリング装置１０は、ユーザ等によってラベル「must-link」が付与された文書を含む教師データを読み込む。そして、クラスタリング装置１０は、教師データに存在するラベル「must-link」にしたがって、ラベル「must-link」で直接つながってはいないが、ある第三のノード（文書）を介してラベル「must-link」でつながっているノード間の関係であるラベル「may-link」を抽出する。例えば、クラスタリング装置１０は、文書１と文書２、文書２と文書３のそれぞれにラベル「must-link」が付与されている場合に、必ずしもラベル「must-link」ほど強い関係ではないが、文書１と文書３の間は「must-link」であると指定されていなくても、ある程度の類似性があると考えられることから、ラベル「may-link」として抽出する。

その後、クラスタリング装置１０は、「must-link」と「may-link」で学習した関係判別器を使い、（条件１）クラスタ内のノードは少なくとも１本の「must-link」でつながっている、（条件２）クラスタ内の他の全てのノードと「may-link」もしくは「must-link」でつながっている、を満たすノードを同一クラスタとして構成する。

すなわち、クラスタリング装置１０は、実際の人が付与した「must-link」でつながるクラスタは、人手が付与していない「may-link」という辺で構成される完全グラフになっており、何かしらの観点（文脈、トピック）に基づいてクラスタとなっていると判定する。また、クラスタリング装置１０は、「may-link」で完全グラフとならない箇所は、観点がずれていることを意味し、「may-link」で完全グラフとなるかどうかを通じて観点の切れ目をさがすことと等価となると判定する。

この結果、クラスタリング装置１０は、最短距離法で階層化されたクラスタで「must-link」で学習した閾値以下で作成されうるクラスタの集合と、重複を許すクラスタ候補のうち「may-link」で学習した閾値以下で完全グラフを成すクラスタの集合との積集合を求めることとなる。したがって、クラスタリング装置１０は、複数の文書に対するクラスタリングを適切に実行することができる。

［機能構成］
図２は、実施例１にかかるクラスタリング装置１０の機能構成を示す機能ブロック図である。図２に示すように、クラスタリング装置１０は、通信部１１、記憶部１２、制御部２０を有する。

通信部１１は、他の装置の間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部１１は、管理者端末から処理の開始指示や教師データなどを受信し、クラスタリング結果などを指定端末に送信する。

記憶部１２は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１２は、教師データＤＢ１３とクラスタリング結果ＤＢ１４を記憶する。

教師データＤＢ１３は、ラベル「must-link」が付与された、クラスタリング対象の複数の文書を記憶するデータベースである。具体的には、教師データＤＢ１３は、教師データである文書を記憶する。図３は、教師データＤＢ１３に記憶される情報の例を示す図である。図３に示すように、教師データＤＢ１３は、（１）から（５）の５つの文書を記憶する。

（１）の文書は、「明日太郎とご飯を食べに行く」であり、（２）の文書は、「明日花子とご飯を食べに行く」であり、（３）の文書は、「明日花子と寿司を食べに行く」である。（４）の文書は、「明日花子と寿司を握りに行く」であり、（５）の文書は、「来月花子と寿司を握りに行く」である。

図３では、（１）と（２）の文書間に「must-link」が設定されており、（２）と（３）の文書間に「must-link」が設定されている。なお、文書の数やラベルの設定は、あくまで一例であり、任意に変更することができる。また、ここで記憶される情報は、文書そのものであってもよく、文書に形態素解析を実行して形態素に分解した状態であってもよい。

クラスタリング結果ＤＢ１４は、クラスタリング結果を記憶するデータベースである。具体的には、クラスタリング結果ＤＢ１４は、後述する制御部２０によって生成された、文書のクラスタリングを記憶する。なお、詳細は後述するので、ここでは省略する。

制御部２０は、クラスタリング装置１０全体を司る処理部であり、例えばプロセッサなどである。この制御部２０は、抽出部２１、基準学習部２２、推定部２３、分類部２４を有する。抽出部２１、基準学習部２２、推定部２３、分類部２４は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。なお、抽出部２１は、第１算出部の一例であり、基準学習部２２は、第２算出部の一例であり、推定部２３は、判別部の一例であり、分類部２４は、分類部の一例である。

抽出部２１は、入力文書から、各文書間の関係性を抽出する処理部である。具体的には、抽出部２１は、教師データＤＢ１３に記憶されている複数の文書を読み出し、予め設定されている「must-link」を抽出するとともに、「must-link」を用いて「may-link」を抽出する。

図４は、文書間の関係性の抽出を説明する図である。図４に示すように、抽出部２１は、文書（１）と文書（２）の間に設定される「must-link」と、文書（２）と文書（３）の間に設定される「must-link」とを抽出する。さらに、抽出部２１は、「must-link」で直接つながってはいないが、文書（２）を介して文書（１）と文書（３）が「must-link」でつながっていることから、文書（１）と文書（３）の間に「may-link」を抽出する。

そして、抽出部２１は、「must-link」の抽出結果である「must-links＝｛（１，２）、（２，３）｝」と、「may-link」の抽出結果である「may-links＝｛（１，３）｝」とを基準学習部２２に出力する。

基準学習部２２は、抽出部２１による抽出結果を用いて文書間の類似度を関連度として算出し、文書間の関係の判別基準を学習する処理部である。具体的には、基準学習部２２は、抽出部２１から入力された「must-link」の抽出結果に基づいて、「must-link」と判断可能な閾値を算出し、抽出部２１から入力された「may-link」の抽出結果に基づいて、「may-link」と判断可能な閾値を算出する。そして、基準学習部２２は、算出した各閾値を推定部２３に出力する。

上記例で説明すると、基準学習部２２は、「must-link」である文書（１）と文書（２）について、文書（１）に形態素解析や単語抽出などの既存の解析を実行して得られた「明日、太郎と、ご飯を、食べに、行く」と、同様に文書（２）から得られた「明日、花子と、ご飯を、食べに、行く」とから、文書（１）と（２）には、「明日、太郎と、ご飯を、食べに、行く」と「花子と」の６個の単語があることを特定する。続いて、基準学習部２２は、文書（１）と（２）では、６個の単語のうち「明日、ご飯を、食べに、行く」の４つが共通することから、類似度を「４／６≒０．６６７」と算出する。

同様に、基準学習部２２は、「must-link」である文書（２）と文書（３）についても、文書（２）から得られた「明日、花子と、ご飯を、食べに、行く」と、文書（３）から得られた「明日、花子と、寿司を、食べに、行く」とから、文書（２）と（３）には、「明日、花子と、ご飯を、食べに、行く」と「寿司を」の６個の単語があることを特定する。続いて、基準学習部２２は、文書（２）と（３）では、６個の単語のうち「明日、花子と、食べに、行く」の４つが共通することから、類似度を「４／６≒０．６６７」と算出する。

そして、基準学習部２２は、「must-ink」が設定される文書間の類似度がいずれも「０．６６７」であることから、「must-link」の閾値（基準値）である「c_must（＝must-link-criteria）＝０．６６７」と設定する。なお、「must-ink」が設定される文書間の類似度が異なる場合、厳密性が要求されるときは高い方の類似度を閾値に設定し、厳密性が要求されないときは低い方の類似度を閾値に設定したり、平均値を設定したりするなど、任意に選択することができる。

また、基準学習部２２は、「may-link」である文書（１）と文書（３）について、文書（１）から得られた「明日、太郎と、ご飯を、食べに、行く」と、文書（３）から得られた「明日、花子と、寿司を、食べに、行く」とから、文書（１）と（３）には、「明日、太郎と、ご飯を、食べに、行く」と「花子と、寿司を」の７個の単語があることを特定する。続いて、基準学習部２２は、文書（１）と（３）では、７個の単語のうち「明日、食べに、行く」の３つが共通することから、類似度を「３／７≒０．４３９」と算出する。

そして、基準学習部２２は、「may-link」が設定される文書間の類似度が「０．４３９」かつ「must-ink」の閾値が「０．６６７」であることから、「may-link」の閾値（基準値）である「c_may（＝may-link-criteria）」を、「０．４３９≦c_may＜０．６６７」と設定する。なお、「may-link」が設定される文書間の類似度が複数ある場合、「must-link」と同様の手法により決定することができる。

推定部２３は、文書間の関係の判別基準を用いて、文書間の関係を推定する処理部である。具体的には、推定部２３は、「must-link」や「may-link」などのラベルが付与されていない文書間の類似度を算出し、算出した各類似度と基準学習部２２が算出した「c_must」や「c_may」とを比較して、ラベルが未付与の文書間に対して「must-link」や「may-link」を推定する。そして、推定部２３は、抽出部２１による抽出結果と、推定結果とを分類部２４に出力する。

図５は、文書間の関係性の推定を説明する図である。図５に示すように、推定部２３は、文書（１）から（５）のうち、ラベルが付与されていない文書間として、文書（３）と文書（４）、文書（４）と文書（５）、文書（２）と文書（４）、文書（３）と文書（５）を抽出する。そして、推定部２３は、文書（３）と文書（４）とについて、上記手法と同様の手法で、類似度「４／６≒０．６６７」を算出する。その後、推定部２３は、文書（３）と文書（４）の類似度「０．６６７」が「c_must＝０．６６７」以上であることから、文書（３）と文書（４）の関係性を「must-link（must-link-estimated）」と推定する。

同様に、推定部２３は、文書（４）と文書（５）とについて、上記手法と同様の手法で、類似度「４／６≒０．６６７」を算出する。その後、推定部２３は、文書（４）と文書（５）の類似度「０．６６７」が「c_must＝０．６６７」以上であることから、文書（４）と文書（５）の関係性を「must-link（must-link-estimated）」と推定する。

同様に、推定部２３は、文書（２）と文書（４）とについて、上記手法と同様の手法で、類似度「３／７≒０．４３９」を算出する。その後、推定部２３は、文書（２）と文書（４）の類似度「０．４３９」が「０．４３９≦c_may＜０．６６７」の範囲内であることから、文書（２）と文書（４）の関係性を「may-link（may-link-estimated）」と推定する。

同様に、推定部２３は、文書（３）と文書（５）とについて、上記手法と同様の手法で、類似度「３／７≒０．４３９」を算出する。その後、推定部２３は、文書（３）と文書（５）の類似度「０．４３９」が「０．４３９≦c_may＜０．６６７」の範囲内であることから、文書（３）と文書（５）の関係性を「may-link（may-link-estimated）」と推定する。

これらの結果、推定部２３は、「must-link」の推定結果である「must-link-estimated＝｛（３，４）、（４，５）｝」と、「may-link」の推定結果である「may-link-estimated＝｛（２，４）、（３，５）｝」とを生成する。そして、推定部２３は、「must-links＝｛（１，２）、（２，３）｝」と、「may-links＝｛（１，３）｝」と、「must-link-estimated＝｛（３，４）、（４，５）｝」と、「may-link-estimated＝｛（２，４）、（３，５）｝」とを分類部２４に出力する。

分類部２４は、抽出部２１による抽出結果と推定部２３による推定結果とを用いて、文書をクラスタリングする処理部である。具体的には、分類部２４は、「must-link」と「must-link-estimated」でつながる範囲で、「may-link」または「may-link-estimated」を使うと完全グラフになる部分グラフを抽出する。

図６は、クラスタリングの結果を説明する図である。図６に示すように、分類部２４は、文書（１）と文書（２）とが「must-link」で接続され、文書（２）と文書（３）とが「must-link」で接続されるとともに、文書（１）と文書（３）とが「may-link」で接続されることから、文書（１）と文書（２）と文書（３）とが完全グラフになると判定する。このため、分類部２４は、文書（１）と文書（２）と文書（３）をクラスタ１に分類する。

同様に、分類部２４は、文書（２）と文書（３）とが「must-link」で接続され、文書（３）と文書（４）とが「must-link-estimated」で接続されるとともに、文書（２）と文書（４）とが「may-link-estimated」で接続されることから、文書（２）と文書（３）と文書（４）とが完全グラフになると判定する。このため、分類部２４は、文書（２）と文書（３）と文書（４）をクラスタ２に分類する。

同様に、分類部２４は、文書（３）と文書（４）とが「must-link-estimated」で接続され、文書（４）と文書（５）とが「must-link-estimated」で接続されるとともに、文書（３）と文書（５）とが「may-link-estimated」で接続されることから、文書（３）と文書（４）と文書（５）とが完全グラフになると判定する。このため、分類部２４は、文書（３）と文書（４）と文書（５）をクラスタ３に分類する。

これらの結果、分類部２４は、クラスタリング結果である「cluster＝｛（１，２，３）、（２，３，４）、（３，４，５）｝」を生成して、クラスタリング結果ＤＢ１４に格納する。

［処理の流れ］
図７は、クラスタリング処理の流れを示すフローチャートである。図７に示すように、抽出部２１は、処理開始が指示されると（Ｓ１０１：Ｙｅｓ）、文書である学習用データを教師データＤＢ１３から抽出し（Ｓ１０２）、文書間に設定される「must-link」を用いて文書間の「may-link」を抽出する（Ｓ１０３）。

続いて、基準学習部２２は、「must-link」が設定される文書間の類似度と、「may-link」が設定される文書間の類似度とを算出し（Ｓ１０４）、各類似度を用いて、「must-link」と「may-link」の各判断基準（閾値）を設定する（Ｓ１０５）。

その後、推定部２３は、学習用データである各文書についてラベルが未設定である各文書間の類似度を算出する（Ｓ１０６）。そして、推定部２３は、ラベルが未設定である各文書間の類似度と、各判断基準とを用いて、文書間の関係性を推定する（Ｓ１０７）。その後、分類部２４は、推定結果を用いて、「must-link」と「must-link-estimated」でつながる範囲で、「may-link」または「may-link-estimated」を使うと完全グラフになる部分グラフを抽出して、文書をクラスタリングする（Ｓ１０８）。

［効果］
上述したように、クラスタリング装置１０は、一部の要素間についての関係に関する関係データが与えられた、複数の要素である複数の文書に対するクラスタリングを実行する。具体的には、クラスタリング装置１０は、複数の文書間の関連度を、複数の文書それぞれの属性である、文書内の単語を用いて算出する。そして、クラスタリング装置１０は、関係データが与えられた文書の組それぞれについての、関連度および関係データに基づき、文書間のリンク属性を識別する閾値を算出する。その後、クラスタリング装置１０は、閾値に基づき、複数の文書間のリンク種別を判別し、判別結果に基づきクラスタリングを行う。

したがて、クラスタリング装置１０は、クラスタに属する基準を複数用意することで、クラスタの高精度化が図れ、複数の要素に対するクラスタリングを適切に実行することができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［学習］
実施例１では、学習対象の文書から「must-link」や「may-link」などの各リンクの判断基準を生成し、生成した判断基準を用いて、学習対象の文書をクラスタリングする例を説明したが、これに限定されるものではない。例えば、クラスタリング装置１０は、分類対象とは別の学習対象の文書を用いて、「must-link」や「may-link」などの各リンクの判断基準（閾値）を機械学習などで学習した後、学習結果を用いて、分類対象の文書を分類することもできる。

すなわち、上記例で説明すると、「must-link」や「may-link」をラベルとして、教師あり学習器等によって文書間の類似度を、機械学習や深層学習等によって学習することもできる。具体的には、「must-link」と「may-link」それぞれの距離関係を保つように特徴空間を学習し、特徴空間を使って「must-link」や「may-link」を予測するモデルを学習し、学習したモデルを使って判別対象となるドキュメント群でのドキュメント間の関係（must-linkやmay-link）を判別し、ドキュメント間の関係のつながり方を考慮したクラスタリングを行う。

また、上記実施例１において、学習対象の文書と分類対象の文書とは別々のデータであってもよい。また、上記類似度は、関連度の一例である。また、類似度の算出手法は、実施例１で説明した手法に限らず、公知の様々な手法を採用することができる。また、分類対象は、文書に限らず、種別や特徴量を抽出して判別することができればよく、例えば画像などであってもよい。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、アイテムを表示する処理部と、選好を推定する処理部とを別々の筐体で実現することもできる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
図８は、ハードウェア構成例を示す図である。図８に示すように、クラスタリング装置１０は、ネットワーク接続装置１０ａ、入力装置１０ｂ、ＨＤＤ（Hard Disk Drive）１０ｃ、メモリ１０ｄ、プロセッサ１０ｅを有する。また、図８に示した各部は、バス等で相互に接続される。

ネットワーク接続装置１０ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。入力装置１０ｂは、マウスやキーボードなどであり、ユーザから各種指示などを受け付ける。ＨＤＤ１０ｃは、図２に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｅは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｃ等から読み出してメモリ１０ｄに展開することで、図２等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、クラスタリング装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｅは、抽出部２１、基準学習部２２、推定部２３、分類部２４等と同様の機能を有するプログラムをＨＤＤ１０ｃ等から読み出す。そして、プロセッサ１０ｅは、抽出部２１、基準学習部２２、推定部２３、分類部２４等と同様の処理を実行するプロセスを実行する。

１０クラスタリング装置
１１通信部
１２記憶部
１３教師データＤＢ
１４クラスタリング結果ＤＢ
２０制御部
２１抽出部
２２基準学習部
２３推定部
２４分類部

Claims

一部の要素間についての関係に関する関係データが与えられた、複数の要素に対するクラスタリングプログラムであって、
前記複数の要素間の関連度を、前記複数の要素それぞれの属性を用いて算出し、
前記関係データが与えられた要素の組それぞれについての、前記関連度および前記関係データに基づき、前記要素間のリンク属性を識別する閾値を算出し、
前記閾値に基づき、前記複数の要素間のリンク種別を判別し、
判別結果に基づきクラスタリングを行う
処理をコンピュータに実行させるクラスタリングプログラム。
第１の関係データが与えられた複数の要素間から、前記第１の関係データが与えられていないが他の要素を介して前記第１の関係データが与えられる要素間に第２の関係データを付与し、
クラスタリング対象の要素間それぞれに対して、前記第１の関係データまたは前記第２の関係データを判別し、
クラスタ内の少なくとも１つが前記第１の関係データを有する、かつ、クラスタ内の各要素が前記第１の関係データまたは前記第２の関係データを有するように、前記クラスタリング対象の要素をクラスタリングする処理をコンピュータに実行させる請求項１に記載のクラスタリングプログラム。
前記第１の関係データが与えられた要素間の類似度を第１の関連度として算出し、前記第２の関係データが与えられた要素間の類似度を第２の関連度として算出し、
前記第１の関係データを判別する第１の閾値に前記第１の関連度を設定し、前記第２の関係データを判別する第２の閾値を前記第２の関連度以上かつ前記第１の関連度未満と設定し、
前記クラスタリング対象の要素間それぞれについて、要素間の類似度を算出して、算出した類似度を前記第１の閾値および前記第２の閾値と比較して、前記第１の関係データまたは前記第２の関係データを判別する処理をコンピュータに実行させる請求項２に記載のクラスタリングプログラム。
前記クラスタリング対象の複数の要素それぞれが文書である場合、前記文書に含まれる形態素の類似度を用いて、前記第１の関連度と前記第２の関連度とを算出する処理をコンピュータに実行させる請求項３に記載のクラスタリングプログラム。
一部の要素間についての関係に関する関係データが与えられた、複数の要素に対するクラスタリング方法であって、
前記複数の要素間の関連度を、前記複数の要素それぞれの属性を用いて算出し、
前記関係データが与えられた要素の組それぞれについての、前記関連度および前記関係データに基づき、前記要素間のリンク属性を識別する閾値を算出し、
前記閾値に基づき、前記複数の要素間のリンク種別を判別し、
判別結果に基づきクラスタリングを行う
処理をコンピュータが実行するクラスタリング方法。
一部の要素間についての関係に関する関係データが与えられた、複数の要素に対するクラスタリング装置であって、
前記複数の要素間の関連度を、前記複数の要素それぞれの属性を用いて算出する第１算出部と、
前記関係データが与えられた要素の組それぞれについての、前記関連度および前記関係データに基づき、前記要素間のリンク属性を識別する閾値を算出する第２算出部と、
前記閾値に基づき、前記複数の要素間のリンク種別を判別する判別部と、
判別結果に基づきクラスタリングを行う分類部と
を有するクラスタリング装置。