JP7006403B2 - クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 - Google Patents

クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 Download PDF

Info

Publication number
JP7006403B2
JP7006403B2 JP2018047064A JP2018047064A JP7006403B2 JP 7006403 B2 JP7006403 B2 JP 7006403B2 JP 2018047064 A JP2018047064 A JP 2018047064A JP 2018047064 A JP2018047064 A JP 2018047064A JP 7006403 B2 JP7006403 B2 JP 7006403B2
Authority
JP
Japan
Prior art keywords
elements
clustering
document
link
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018047064A
Other languages
English (en)
Other versions
JP2019159934A (ja
Inventor
裕司 溝渕
訓治 高山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018047064A priority Critical patent/JP7006403B2/ja
Priority to US16/351,777 priority patent/US20190286639A1/en
Publication of JP2019159934A publication Critical patent/JP2019159934A/ja
Application granted granted Critical
Publication of JP7006403B2 publication Critical patent/JP7006403B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クラスタリングプログラム、クラスタリング方法およびクラスタリング装置に関する。
ニュースなど類似する文書から効率的な情報収集を行うためや、インシデントの原因や対処の多角的な情報分析を行うために、文書クラスタリングが行われている。例えば、同一クラスに入るべき文書間に付与されるラベルである「must-link」や異なるクラスに入るべき文書間に付与されるラベルである「cannot-link」の制約を満たすように、k-means手法によるクラスタリングが利用されている。
近年では、教師有学習を用いたクラスタリング手法が知られている。例えば、「must-link」や「cannot-link」などのラベルを用いて、多次元空間の各特徴の重みを学習した後に、k-means手法などによってクラスタリングを行う手法が知られている。また、多次元空間でのクラスタリングにおいて、予め用意された教師データ(must-link、cannot-link)に合致するように各次元の重みを調整しつつ、階層クラスタリングを行い、エラー率が収束するまで繰り返す手法が知られている。また、凝集型クラスタリングのデンドログラムのどの高さ(距離)をリグレッション回帰モデルのような判別モデルで学習して文書間の関係の有無を推定し、推定結果に基づいて、類似する文書を同一クラスタに分類する手法が知られている。
特開2013-134752号公報 特開2012-243214号公報 国際公開第2013/01893号
しかしながら、上記技術では、クラスタリング対象の要素である複数の文書において、類似関係にある文書が多段に繋がる場合、クラスタリングの過程で内容の変化が起き、同一クラスタに全く異なる内容の文書が属することが起きうるので、クラスタリングによって適切な結果が得られるとは限らない。
例えば、文書間の類似関係は、条件付きであり、ある観点(トピック)においては類似していても別の観点では類似していないことがある。しかし、上記手法では、人手に依るラベルにそのような情報が付与されていない。このため、観点が統一されていない類似関係を教師データとして学習することとなり、類似判別処理は観点の境界を無視して関係辺を繋ぎ続けることがおきてしまう。
図9は、一般的な文書クラスタリングを説明する図である。図9は、文書内の単語の重複度によってクラスタリングを行った例である。図9に示すように、類似関係にある文書が多段に繋がる場合、その過程で内容の変化が起き、同一クラスタに全く異なる内容の文書が属することが起きうる。具体的には、図9に(1)から(6)の隣り合う文書間では一文字の違いで類似度が「0.667」と高いことから、全て同一クラスタになる可能性がある。しかし、(1)と(6)とでは、内容が全く違うため、類似度が「0.111」と低く、異なるクラスタに分類される方が好ましい。同様に、(1)と(5)や(2)と(6)についても、類似する内容とは言い難く、異なるクラスタに分類される方が好ましい。
一つの側面では、複数の要素に対するクラスタリングを適切に実行することができるクラスタリングプログラム、クラスタリング方法およびクラスタリング装置を提供することを目的とする。
第1の案では、クラスタリングプログラムは、一部の要素間についての関係に関する関係データが与えられた、複数の要素に対するクラスタリングプログラムであって、前記複数の要素間の関連度を、前記複数の要素それぞれの属性を用いて算出する処理をコンピュータに実行させる。クラスタリングプログラムは、前記関係データが与えられた要素の組それぞれについての、前記関連度および前記関係データに基づき、前記要素間のリンク属性を識別する閾値を算出する処理をコンピュータに実行させる。クラスタリングプログラムは、前記閾値に基づき、前記複数の要素間のリンク種別を判別する処理をコンピュータに実行させる。クラスタリングプログラムは、判別結果に基づきクラスタリングを行う処理をコンピュータに実行させる。
一実施形態によれば、複数の要素に対するクラスタリングを適切に実行することができる。
図1は、実施例1にかかるクラスタリング装置を説明する図である。 図2は、実施例1にかかるクラスタリング装置の機能構成を示す機能ブロック図である。 図3は、教師データDBに記憶される情報の例を示す図である。 図4は、文書間の関係性の抽出を説明する図である。 図5は、文書間の関係性の推定を説明する図である。 図6は、クラスタリングの結果を説明する図である。 図7は、クラスタリング処理の流れを示すフローチャートである。 図8は、ハードウェア構成例を示す図である。 図9は、一般的な文書クラスタリングを説明する図である。
以下に、本願の開示するクラスタリングプログラム、クラスタリング方法およびクラスタリング装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[全体構成]
図1は、実施例1にかかるクラスタリング装置を説明する図である。図1に示すように、クラスタリング装置10は、文書クラスタリングによる一連の処理の流れとして、教師データを読み込んでラベルを学習し、判別器を用いて分類対象の文書群を分類して、クラスタを生成する。
具体的には、クラスタリング装置10は、ユーザ等によってラベル「must-link」が付与された文書を含む教師データを読み込む。そして、クラスタリング装置10は、教師データに存在するラベル「must-link」にしたがって、ラベル「must-link」で直接つながってはいないが、ある第三のノード(文書)を介してラベル「must-link」でつながっているノード間の関係であるラベル「may-link」を抽出する。例えば、クラスタリング装置10は、文書1と文書2、文書2と文書3のそれぞれにラベル「must-link」が付与されている場合に、必ずしもラベル「must-link」ほど強い関係ではないが、文書1と文書3の間は「must-link」であると指定されていなくても、ある程度の類似性があると考えられることから、ラベル「may-link」として抽出する。
その後、クラスタリング装置10は、「must-link」と「may-link」で学習した関係判別器を使い、(条件1)クラスタ内のノードは少なくとも1本の「must-link」でつながっている、(条件2)クラスタ内の他の全てのノードと「may-link」もしくは「must-link」でつながっている、を満たすノードを同一クラスタとして構成する。
すなわち、クラスタリング装置10は、実際の人が付与した「must-link」でつながるクラスタは、人手が付与していない「may-link」という辺で構成される完全グラフになっており、何かしらの観点(文脈、トピック)に基づいてクラスタとなっていると判定する。また、クラスタリング装置10は、「may-link」で完全グラフとならない箇所は、観点がずれていることを意味し、「may-link」で完全グラフとなるかどうかを通じて観点の切れ目をさがすことと等価となると判定する。
この結果、クラスタリング装置10は、最短距離法で階層化されたクラスタで「must-link」で学習した閾値以下で作成されうるクラスタの集合と、重複を許すクラスタ候補のうち「may-link」で学習した閾値以下で完全グラフを成すクラスタの集合との積集合を求めることとなる。したがって、クラスタリング装置10は、複数の文書に対するクラスタリングを適切に実行することができる。
[機能構成]
図2は、実施例1にかかるクラスタリング装置10の機能構成を示す機能ブロック図である。図2に示すように、クラスタリング装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置の間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、管理者端末から処理の開始指示や教師データなどを受信し、クラスタリング結果などを指定端末に送信する。
記憶部12は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部12は、教師データDB13とクラスタリング結果DB14を記憶する。
教師データDB13は、ラベル「must-link」が付与された、クラスタリング対象の複数の文書を記憶するデータベースである。具体的には、教師データDB13は、教師データである文書を記憶する。図3は、教師データDB13に記憶される情報の例を示す図である。図3に示すように、教師データDB13は、(1)から(5)の5つの文書を記憶する。
(1)の文書は、「明日太郎とご飯を食べに行く」であり、(2)の文書は、「明日花子とご飯を食べに行く」であり、(3)の文書は、「明日花子と寿司を食べに行く」である。(4)の文書は、「明日花子と寿司を握りに行く」であり、(5)の文書は、「来月花子と寿司を握りに行く」である。
図3では、(1)と(2)の文書間に「must-link」が設定されており、(2)と(3)の文書間に「must-link」が設定されている。なお、文書の数やラベルの設定は、あくまで一例であり、任意に変更することができる。また、ここで記憶される情報は、文書そのものであってもよく、文書に形態素解析を実行して形態素に分解した状態であってもよい。
クラスタリング結果DB14は、クラスタリング結果を記憶するデータベースである。具体的には、クラスタリング結果DB14は、後述する制御部20によって生成された、文書のクラスタリングを記憶する。なお、詳細は後述するので、ここでは省略する。
制御部20は、クラスタリング装置10全体を司る処理部であり、例えばプロセッサなどである。この制御部20は、抽出部21、基準学習部22、推定部23、分類部24を有する。抽出部21、基準学習部22、推定部23、分類部24は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。なお、抽出部21は、第1算出部の一例であり、基準学習部22は、第2算出部の一例であり、推定部23は、判別部の一例であり、分類部24は、分類部の一例である。
抽出部21は、入力文書から、各文書間の関係性を抽出する処理部である。具体的には、抽出部21は、教師データDB13に記憶されている複数の文書を読み出し、予め設定されている「must-link」を抽出するとともに、「must-link」を用いて「may-link」を抽出する。
図4は、文書間の関係性の抽出を説明する図である。図4に示すように、抽出部21は、文書(1)と文書(2)の間に設定される「must-link」と、文書(2)と文書(3)の間に設定される「must-link」とを抽出する。さらに、抽出部21は、「must-link」で直接つながってはいないが、文書(2)を介して文書(1)と文書(3)が「must-link」でつながっていることから、文書(1)と文書(3)の間に「may-link」を抽出する。
そして、抽出部21は、「must-link」の抽出結果である「must-links={(1,2)、(2,3)}」と、「may-link」の抽出結果である「may-links={(1,3)}」とを基準学習部22に出力する。
基準学習部22は、抽出部21による抽出結果を用いて文書間の類似度を関連度として算出し、文書間の関係の判別基準を学習する処理部である。具体的には、基準学習部22は、抽出部21から入力された「must-link」の抽出結果に基づいて、「must-link」と判断可能な閾値を算出し、抽出部21から入力された「may-link」の抽出結果に基づいて、「may-link」と判断可能な閾値を算出する。そして、基準学習部22は、算出した各閾値を推定部23に出力する。
上記例で説明すると、基準学習部22は、「must-link」である文書(1)と文書(2)について、文書(1)に形態素解析や単語抽出などの既存の解析を実行して得られた「明日、太郎と、ご飯を、食べに、行く」と、同様に文書(2)から得られた「明日、花子と、ご飯を、食べに、行く」とから、文書(1)と(2)には、「明日、太郎と、ご飯を、食べに、行く」と「花子と」の6個の単語があることを特定する。続いて、基準学習部22は、文書(1)と(2)では、6個の単語のうち「明日、ご飯を、食べに、行く」の4つが共通することから、類似度を「4/6≒0.667」と算出する。
同様に、基準学習部22は、「must-link」である文書(2)と文書(3)についても、文書(2)から得られた「明日、花子と、ご飯を、食べに、行く」と、文書(3)から得られた「明日、花子と、寿司を、食べに、行く」とから、文書(2)と(3)には、「明日、花子と、ご飯を、食べに、行く」と「寿司を」の6個の単語があることを特定する。続いて、基準学習部22は、文書(2)と(3)では、6個の単語のうち「明日、花子と、食べに、行く」の4つが共通することから、類似度を「4/6≒0.667」と算出する。
そして、基準学習部22は、「must-ink」が設定される文書間の類似度がいずれも「0.667」であることから、「must-link」の閾値(基準値)である「c_must(=must-link-criteria)=0.667」と設定する。なお、「must-ink」が設定される文書間の類似度が異なる場合、厳密性が要求されるときは高い方の類似度を閾値に設定し、厳密性が要求されないときは低い方の類似度を閾値に設定したり、平均値を設定したりするなど、任意に選択することができる。
また、基準学習部22は、「may-link」である文書(1)と文書(3)について、文書(1)から得られた「明日、太郎と、ご飯を、食べに、行く」と、文書(3)から得られた「明日、花子と、寿司を、食べに、行く」とから、文書(1)と(3)には、「明日、太郎と、ご飯を、食べに、行く」と「花子と、寿司を」の7個の単語があることを特定する。続いて、基準学習部22は、文書(1)と(3)では、7個の単語のうち「明日、食べに、行く」の3つが共通することから、類似度を「3/7≒0.439」と算出する。
そして、基準学習部22は、「may-link」が設定される文書間の類似度が「0.439」かつ「must-ink」の閾値が「0.667」であることから、「may-link」の閾値(基準値)である「c_may(=may-link-criteria)」を、「0.439≦c_may<0.667」と設定する。なお、「may-link」が設定される文書間の類似度が複数ある場合、「must-link」と同様の手法により決定することができる。
推定部23は、文書間の関係の判別基準を用いて、文書間の関係を推定する処理部である。具体的には、推定部23は、「must-link」や「may-link」などのラベルが付与されていない文書間の類似度を算出し、算出した各類似度と基準学習部22が算出した「c_must」や「c_may」とを比較して、ラベルが未付与の文書間に対して「must-link」や「may-link」を推定する。そして、推定部23は、抽出部21による抽出結果と、推定結果とを分類部24に出力する。
図5は、文書間の関係性の推定を説明する図である。図5に示すように、推定部23は、文書(1)から(5)のうち、ラベルが付与されていない文書間として、文書(3)と文書(4)、文書(4)と文書(5)、文書(2)と文書(4)、文書(3)と文書(5)を抽出する。そして、推定部23は、文書(3)と文書(4)とについて、上記手法と同様の手法で、類似度「4/6≒0.667」を算出する。その後、推定部23は、文書(3)と文書(4)の類似度「0.667」が「c_must=0.667」以上であることから、文書(3)と文書(4)の関係性を「must-link(must-link-estimated)」と推定する。
同様に、推定部23は、文書(4)と文書(5)とについて、上記手法と同様の手法で、類似度「4/6≒0.667」を算出する。その後、推定部23は、文書(4)と文書(5)の類似度「0.667」が「c_must=0.667」以上であることから、文書(4)と文書(5)の関係性を「must-link(must-link-estimated)」と推定する。
同様に、推定部23は、文書(2)と文書(4)とについて、上記手法と同様の手法で、類似度「3/7≒0.439」を算出する。その後、推定部23は、文書(2)と文書(4)の類似度「0.439」が「0.439≦c_may<0.667」の範囲内であることから、文書(2)と文書(4)の関係性を「may-link(may-link-estimated)」と推定する。
同様に、推定部23は、文書(3)と文書(5)とについて、上記手法と同様の手法で、類似度「3/7≒0.439」を算出する。その後、推定部23は、文書(3)と文書(5)の類似度「0.439」が「0.439≦c_may<0.667」の範囲内であることから、文書(3)と文書(5)の関係性を「may-link(may-link-estimated)」と推定する。
これらの結果、推定部23は、「must-link」の推定結果である「must-link-estimated={(3,4)、(4,5)}」と、「may-link」の推定結果である「may-link-estimated={(2,4)、(3,5)}」とを生成する。そして、推定部23は、「must-links={(1,2)、(2,3)}」と、「may-links={(1,3)}」と、「must-link-estimated={(3,4)、(4,5)}」と、「may-link-estimated={(2,4)、(3,5)}」とを分類部24に出力する。
分類部24は、抽出部21による抽出結果と推定部23による推定結果とを用いて、文書をクラスタリングする処理部である。具体的には、分類部24は、「must-link」と「must-link-estimated」でつながる範囲で、「may-link」または「may-link-estimated」を使うと完全グラフになる部分グラフを抽出する。
図6は、クラスタリングの結果を説明する図である。図6に示すように、分類部24は、文書(1)と文書(2)とが「must-link」で接続され、文書(2)と文書(3)とが「must-link」で接続されるとともに、文書(1)と文書(3)とが「may-link」で接続されることから、文書(1)と文書(2)と文書(3)とが完全グラフになると判定する。このため、分類部24は、文書(1)と文書(2)と文書(3)をクラスタ1に分類する。
同様に、分類部24は、文書(2)と文書(3)とが「must-link」で接続され、文書(3)と文書(4)とが「must-link-estimated」で接続されるとともに、文書(2)と文書(4)とが「may-link-estimated」で接続されることから、文書(2)と文書(3)と文書(4)とが完全グラフになると判定する。このため、分類部24は、文書(2)と文書(3)と文書(4)をクラスタ2に分類する。
同様に、分類部24は、文書(3)と文書(4)とが「must-link-estimated」で接続され、文書(4)と文書(5)とが「must-link-estimated」で接続されるとともに、文書(3)と文書(5)とが「may-link-estimated」で接続されることから、文書(3)と文書(4)と文書(5)とが完全グラフになると判定する。このため、分類部24は、文書(3)と文書(4)と文書(5)をクラスタ3に分類する。
これらの結果、分類部24は、クラスタリング結果である「cluster={(1,2,3)、(2,3,4)、(3,4,5)}」を生成して、クラスタリング結果DB14に格納する。
[処理の流れ]
図7は、クラスタリング処理の流れを示すフローチャートである。図7に示すように、抽出部21は、処理開始が指示されると(S101:Yes)、文書である学習用データを教師データDB13から抽出し(S102)、文書間に設定される「must-link」を用いて文書間の「may-link」を抽出する(S103)。
続いて、基準学習部22は、「must-link」が設定される文書間の類似度と、「may-link」が設定される文書間の類似度とを算出し(S104)、各類似度を用いて、「must-link」と「may-link」の各判断基準(閾値)を設定する(S105)。
その後、推定部23は、学習用データである各文書についてラベルが未設定である各文書間の類似度を算出する(S106)。そして、推定部23は、ラベルが未設定である各文書間の類似度と、各判断基準とを用いて、文書間の関係性を推定する(S107)。その後、分類部24は、推定結果を用いて、「must-link」と「must-link-estimated」でつながる範囲で、「may-link」または「may-link-estimated」を使うと完全グラフになる部分グラフを抽出して、文書をクラスタリングする(S108)。
[効果]
上述したように、クラスタリング装置10は、一部の要素間についての関係に関する関係データが与えられた、複数の要素である複数の文書に対するクラスタリングを実行する。具体的には、クラスタリング装置10は、複数の文書間の関連度を、複数の文書それぞれの属性である、文書内の単語を用いて算出する。そして、クラスタリング装置10は、関係データが与えられた文書の組それぞれについての、関連度および関係データに基づき、文書間のリンク属性を識別する閾値を算出する。その後、クラスタリング装置10は、閾値に基づき、複数の文書間のリンク種別を判別し、判別結果に基づきクラスタリングを行う。
したがて、クラスタリング装置10は、クラスタに属する基準を複数用意することで、クラスタの高精度化が図れ、複数の要素に対するクラスタリングを適切に実行することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[学習]
実施例1では、学習対象の文書から「must-link」や「may-link」などの各リンクの判断基準を生成し、生成した判断基準を用いて、学習対象の文書をクラスタリングする例を説明したが、これに限定されるものではない。例えば、クラスタリング装置10は、分類対象とは別の学習対象の文書を用いて、「must-link」や「may-link」などの各リンクの判断基準(閾値)を機械学習などで学習した後、学習結果を用いて、分類対象の文書を分類することもできる。
すなわち、上記例で説明すると、「must-link」や「may-link」をラベルとして、教師あり学習器等によって文書間の類似度を、機械学習や深層学習等によって学習することもできる。具体的には、「must-link」と「may-link」それぞれの距離関係を保つように特徴空間を学習し、特徴空間を使って「must-link」や「may-link」を予測するモデルを学習し、学習したモデルを使って判別対象となるドキュメント群でのドキュメント間の関係(must-linkやmay-link)を判別し、ドキュメント間の関係のつながり方を考慮したクラスタリングを行う。
また、上記実施例1において、学習対象の文書と分類対象の文書とは別々のデータであってもよい。また、上記類似度は、関連度の一例である。また、類似度の算出手法は、実施例1で説明した手法に限らず、公知の様々な手法を採用することができる。また、分類対象は、文書に限らず、種別や特徴量を抽出して判別することができればよく、例えば画像などであってもよい。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、アイテムを表示する処理部と、選好を推定する処理部とを別々の筐体で実現することもできる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図8は、ハードウェア構成例を示す図である。図8に示すように、クラスタリング装置10は、ネットワーク接続装置10a、入力装置10b、HDD(Hard Disk Drive)10c、メモリ10d、プロセッサ10eを有する。また、図8に示した各部は、バス等で相互に接続される。
ネットワーク接続装置10aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。入力装置10bは、マウスやキーボードなどであり、ユーザから各種指示などを受け付ける。HDD10cは、図2に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10eは、図2に示した各処理部と同様の処理を実行するプログラムをHDD10c等から読み出してメモリ10dに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、クラスタリング装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10eは、抽出部21、基準学習部22、推定部23、分類部24等と同様の機能を有するプログラムをHDD10c等から読み出す。そして、プロセッサ10eは、抽出部21、基準学習部22、推定部23、分類部24等と同様の処理を実行するプロセスを実行する。
10 クラスタリング装置
11 通信部
12 記憶部
13 教師データDB
14 クラスタリング結果DB
20 制御部
21 抽出部
22 基準学習部
23 推定部
24 分類部

Claims (6)

  1. 一部の要素間についての関係に関する関係データが与えられた、複数の要素に対するクラスタリングプログラムであって、
    前記複数の要素間の関連度を、前記複数の要素それぞれの属性を用いて算出し、
    前記関係データが与えられた要素の組それぞれについての、前記関連度および前記関係データに基づき、前記要素間のリンク属性を識別する閾値を算出し、
    前記閾値に基づき、前記複数の要素間のリンク種別を判別し、
    判別結果に基づきクラスタリングを行う
    処理をコンピュータに実行させるクラスタリングプログラム。
  2. 第1の関係データが与えられた複数の要素間から、前記第1の関係データが与えられていないが他の要素を介して前記第1の関係データが与えられる要素間に第2の関係データを付与し、
    クラスタリング対象の要素間それぞれに対して、前記第1の関係データまたは前記第2の関係データを判別し、
    クラスタ内の少なくとも1つが前記第1の関係データを有する、かつ、クラスタ内の各要素が前記第1の関係データまたは前記第2の関係データを有するように、前記クラスタリング対象の要素をクラスタリングする処理をコンピュータに実行させる請求項1に記載のクラスタリングプログラム。
  3. 前記第1の関係データが与えられた要素間の類似度を第1の関連度として算出し、前記第2の関係データが与えられた要素間の類似度を第2の関連度として算出し、
    前記第1の関係データを判別する第1の閾値に前記第1の関連度を設定し、前記第2の関係データを判別する第2の閾値を前記第2の関連度以上かつ前記第1の関連度未満と設定し、
    前記クラスタリング対象の要素間それぞれについて、要素間の類似度を算出して、算出した類似度を前記第1の閾値および前記第2の閾値と比較して、前記第1の関係データまたは前記第2の関係データを判別する処理をコンピュータに実行させる請求項2に記載のクラスタリングプログラム。
  4. 前記クラスタリング対象の複数の要素それぞれが文書である場合、前記文書に含まれる形態素の類似度を用いて、前記第1の関連度と前記第2の関連度とを算出する処理をコンピュータに実行させる請求項3に記載のクラスタリングプログラム。
  5. 一部の要素間についての関係に関する関係データが与えられた、複数の要素に対するクラスタリング方法であって、
    前記複数の要素間の関連度を、前記複数の要素それぞれの属性を用いて算出し、
    前記関係データが与えられた要素の組それぞれについての、前記関連度および前記関係データに基づき、前記要素間のリンク属性を識別する閾値を算出し、
    前記閾値に基づき、前記複数の要素間のリンク種別を判別し、
    判別結果に基づきクラスタリングを行う
    処理をコンピュータが実行するクラスタリング方法。
  6. 一部の要素間についての関係に関する関係データが与えられた、複数の要素に対するクラスタリング装置であって、
    前記複数の要素間の関連度を、前記複数の要素それぞれの属性を用いて算出する第1算出部と、
    前記関係データが与えられた要素の組それぞれについての、前記関連度および前記関係データに基づき、前記要素間のリンク属性を識別する閾値を算出する第2算出部と、
    前記閾値に基づき、前記複数の要素間のリンク種別を判別する判別部と、
    判別結果に基づきクラスタリングを行う分類部と
    を有するクラスタリング装置。
JP2018047064A 2018-03-14 2018-03-14 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 Active JP7006403B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018047064A JP7006403B2 (ja) 2018-03-14 2018-03-14 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
US16/351,777 US20190286639A1 (en) 2018-03-14 2019-03-13 Clustering program, clustering method, and clustering apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018047064A JP7006403B2 (ja) 2018-03-14 2018-03-14 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Publications (2)

Publication Number Publication Date
JP2019159934A JP2019159934A (ja) 2019-09-19
JP7006403B2 true JP7006403B2 (ja) 2022-01-24

Family

ID=67904005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018047064A Active JP7006403B2 (ja) 2018-03-14 2018-03-14 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Country Status (2)

Country Link
US (1) US20190286639A1 (ja)
JP (1) JP7006403B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301786A (ja) 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法
US20100161611A1 (en) 2008-12-18 2010-06-24 Nec Laboratories America, Inc. Systems and methods for characterizing linked documents using a latent topic model
JP2011048583A (ja) 2009-08-26 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置、クラスタリング方法、およびプログラム
WO2011078186A1 (ja) 2009-12-22 2011-06-30 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法および記録媒体
WO2013161850A1 (ja) 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
JP2013242804A (ja) 2012-05-22 2013-12-05 Kddi Corp Id割当装置、方法及びプログラム
JP2015162246A (ja) 2014-02-26 2015-09-07 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated グラフクラスタリングのための効率的なリンク管理
JP2017187980A (ja) 2016-04-07 2017-10-12 トヨタ自動車株式会社 グラフクラスタリング用プログラム及びグラフクラスタリング方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
JPH11272710A (ja) * 1998-03-20 1999-10-08 Omron Corp 情報検索システム、情報検索方法および記録媒体
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US8583419B2 (en) * 2007-04-02 2013-11-12 Syed Yasin Latent metonymical analysis and indexing (LMAI)
US8954440B1 (en) * 2010-04-09 2015-02-10 Wal-Mart Stores, Inc. Selectively delivering an article
US20120130771A1 (en) * 2010-11-18 2012-05-24 Kannan Pallipuram V Chat Categorization and Agent Performance Modeling
US8543577B1 (en) * 2011-03-02 2013-09-24 Google Inc. Cross-channel clusters of information
EP2728518A4 (en) * 2011-06-28 2016-07-06 Ibm INFORMATION PROCESSING DEVICE, METHOD, AND PROGRAM FOR OBTAINING SIZE WEIGHT VALUE IN SUBJECTIVE HIERARCHICAL GROUP
US10437869B2 (en) * 2014-07-14 2019-10-08 International Business Machines Corporation Automatic new concept definition
US9514414B1 (en) * 2015-12-11 2016-12-06 Palantir Technologies Inc. Systems and methods for identifying and categorizing electronic documents through machine learning
US10803245B2 (en) * 2016-09-06 2020-10-13 Microsoft Technology Licensing, Llc Compiling documents into a timeline per event

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301786A (ja) 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法
US20100161611A1 (en) 2008-12-18 2010-06-24 Nec Laboratories America, Inc. Systems and methods for characterizing linked documents using a latent topic model
JP2011048583A (ja) 2009-08-26 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置、クラスタリング方法、およびプログラム
WO2011078186A1 (ja) 2009-12-22 2011-06-30 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法および記録媒体
WO2013161850A1 (ja) 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
JP2013242804A (ja) 2012-05-22 2013-12-05 Kddi Corp Id割当装置、方法及びプログラム
JP2015162246A (ja) 2014-02-26 2015-09-07 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated グラフクラスタリングのための効率的なリンク管理
JP2017187980A (ja) 2016-04-07 2017-10-12 トヨタ自動車株式会社 グラフクラスタリング用プログラム及びグラフクラスタリング方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高間 康史、外1名,FISH VIEWシステム:概念体系に基づく視点情報を活用した文書整理支援,情報処理学会論文誌,日本,社団法人情報処理学会,2000年07月15日,第41巻,第7号,p.1976-1986

Also Published As

Publication number Publication date
US20190286639A1 (en) 2019-09-19
JP2019159934A (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
US10621027B2 (en) IT system fault analysis technique based on configuration management database
US20170315855A1 (en) Method of detecting anomalies on appliances and system thereof
US7716152B2 (en) Use of sequential nearest neighbor clustering for instance selection in machine condition monitoring
US20080126556A1 (en) System and method for classifying data streams using high-order models
US11860721B2 (en) Utilizing automatic labelling, prioritizing, and root cause analysis machine learning models and dependency graphs to determine recommendations for software products
US9122995B2 (en) Classification of stream-based data using machine learning
US7636698B2 (en) Analyzing mining pattern evolutions by comparing labels, algorithms, or data patterns chosen by a reasoning component
US10135723B2 (en) System and method for supervised network clustering
KR102222564B1 (ko) 인공지능 기반의 유사 디자인 검색 장치
JP7332949B2 (ja) 評価方法、評価プログラム、および情報処理装置
US20220253725A1 (en) Machine learning model for entity resolution
de Faria et al. Evaluation of multiclass novelty detection algorithms for data streams
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
Shahbazi et al. A survey on techniques for identifying and resolving representation bias in data
KR20190094068A (ko) 온라인 게임에서 게이머 행동 유형을 분류하는 분류기의 학습 방법 및 상기 분류기를 포함하는 장치
US20230214679A1 (en) Extracting and classifying entities from digital content items
CN113723542A (zh) 一种日志聚类处理方法及系统
US20100005043A1 (en) Active learning system, active learning method and program for active learning
JP7006403B2 (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
TWM555499U (zh) 產品分類系統
JP7006402B2 (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
TWI665566B (zh) 產品分類系統與方法
US20230237371A1 (en) Systems and methods for providing predictions with supervised and unsupervised data in industrial systems
US20230237072A1 (en) Apparatus, system, and method for classifying and neutralizing bias in an application
Guo et al. Embedding undersampling rotation forest for imbalanced problem

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 7006403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150