JP2024041946A - クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム - Google Patents
クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム Download PDFInfo
- Publication number
- JP2024041946A JP2024041946A JP2024005074A JP2024005074A JP2024041946A JP 2024041946 A JP2024041946 A JP 2024041946A JP 2024005074 A JP2024005074 A JP 2024005074A JP 2024005074 A JP2024005074 A JP 2024005074A JP 2024041946 A JP2024041946 A JP 2024041946A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- document
- inter
- similarity
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007621 cluster analysis Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000004891 communication Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000012447 hatching Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】集合を跨ったクラスタ間の関連を理解させることができるクラスタ解析方法、システム及びプログラムを提供する。【解決手段】文書データベースと、情報端末と、サーバとが、通信網を介して接続されているクラスタ解析システムにおいて、方法は、サーバが、複数の文書から、時間情報を用いた条件により集合を抽出する集合抽出ステップ(S1)と、当該集合に含まれる一の文書の内容と他の文書の内容との文書間類似度を算出する文書間類似度算出ステップ(S2)と、当該集合の中で、文書間類似度に基づいて類似する文書で複数のクラスタに分類するクラスタ分類ステップ(S3)と、複数の集合のクラスタ間におけるクラスタ間類似度を算出するクラスタ間類似度算出ステップ(S6)と、クラスタ間類似度に基づいて集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップ(S7)と、を実行する。【選択図】図6
Description
本発明は、複数の文書をその内容に応じてクラスタに分類し、且つ時系列に応じたクラスタ間の関連を示す表示データを生成するクラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラムに関する。
従来、多数の学術論文や文献等の文書を解析する場合、人が文書を読んで内容ごとに分類する、あるいは要約を作成していた。人による解析では、時間がかかる上、複数の人が解析を行う場合、作業者の経験や知識によって分類や要約作成の精度にばらつきが生じる傾向がある。
また、学術論文のように、複雑で専門性の高い文書は、内容を理解するために高度な専門知識を必要とする。しかし、そのような専門知識を持たない者でも最新の情報を容易に取得して理解し、活用したいという要請がある。
例えば、概念検索により検索された技術文献に対して形態素解析を行い、そこから得られた各単語にウェイトを付与して、各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスタにまとめるクラスタ解析方法が提案されている(例えば、「特許文献1」。)。
このような技術により、情報をクラスタに分類することが可能だが、異なる時間軸に基づいてクラスタを生成すること、異なるクラスタ間の関係を理解するところまでは至っていない。
本発明は、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つクラスタの時系列的な関連等、他の集合におけるクラスタ間の関連を把握できるようにすることで、集合を跨ったクラスタ間の関連を理解することができるクラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラムを提供することを目的とする。
すなわち、本発明は、コンピュータが、複数の文書を、その内容に応じてクラスタに分類するクラスタ解析方法であって、前記複数の文書から、第1の条件により第1の集合を抽出する第1の集合抽出ステップと、前記第1の集合に含まれる一の文書の内容と、前記第1の集合に含まれる他の文書の内容との文書間類似度を算出する第1の文書間類似度算出ステップと、前記第1の集合の中で、第1の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類する第1のクラスタ分類ステップと、前記複数の文書から、前記第1の条件とは異なる第2の条件により第2の集合を抽出する第2の集合抽出ステップと、前記第2の集合に含まれる一の文書の内容と、前記第2の集合に含まれる他の文書の内容との文書間類似度を算出する第2の文書間類似度算出ステップと、前記第2の集合の中で、第2の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類を行う第2のクラスタ分類ステップと、前記第1のクラスタ分類ステップにて分類されたクラスタと、前記第2のクラスタ分類ステップにて分類されたクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出ステップと、前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度に基づいて、前記第1の集合と第2の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップと、を備えるクラスタ解析方法である。
本発明により、多数の文書、特に膨大な数の文書を、類似する文書から構成される文書群(クラスタ)に分類し、且つクラスタの時系列的な関連等、他の集合におけるクラスタ間の関連を把握できるようにすることで、クラスタ間の関連を理解することが可能となる。
以下、本発明の一実施形態を図面に基づき説明する。
図1は本発明の一実施形態に係るクラスタ解析システムを示した全体構成図であり、同図に基づき本実施形態の構成について説明する。
図1に示すように、本実施形態に係るクラスタ解析システム1は、文書データベース2(以下、データベースを「DB」と表記する。)と、情報端末3と、サーバ4とが通信網Nを介して接続されている。通信網Nは、例えばインターネット、イントラネット、VPN(Virtual Private Network)等、であり、有線又は無線の通信手段を用いて、情報を双方向に伝達可能な通信網である。また図1では、説明の簡略化のため一つの文書DB2及び一つの情報端末3が、一つのサーバ4に接続されているが、サーバ4は、複数の文書DB及び複数の情報端末3と接続可能である。
文書DB2は、例えば、学術論文、特許文献、雑誌、書籍、及び新聞記事等の文書の情報を格納したデータベースであり、格納された文書を限定された者又は非限定の者に公開している。本実施形態において、文書DB2は、医学文献の情報を格納した文書DBの例として説明する。しかしながら、本発明の文書DBに格納可能な文書の内容、分野、及び種類に制限はない。本実施形態において、医学文献の情報には、著者名や出版年月日(時間情報)、著者の所属機関等の書誌的事項、論文の題目、要旨及び本文等の論文の内容的事項、引用・被引用の件数や文献名等の引用・被引用情報、文献が掲載された学会名、雑誌名、又は出版社名等の掲載情報等が含まれる。
情報端末3は、例えばパーソナルコンピュータ(以下、「PC」という。)や、スマートフォン、タブレットPC、及び携帯電話のような携帯端末であり、出力部10、及び入力部11を有している。
出力部10は、例えばディスプレイやプリンタのような装置であり、サーバ4で生成された表示データを視認可能に表示することができる。
入力部11は、例えばキーボードやマウスのような装置であり、情報の入力や操作が可能である。出力部10と入力部11は、一体となって、例えばタッチパネルを構成してもよい。
情報端末3を使用する者(ユーザ)は、サーバ4で生成された表示データを出力部10にて確認可能であるとともに、入力部11を介してサーバ4に各種指示を出すことが可能である。
サーバ4は、複数の文書を、その内容に応じてクラスタに分類し、且つ各文書の関連を示す表示データを生成する一以上のサーバ(コンピュータ)から構成されている。サーバ4は各種演算部及び記憶部を有しており、例えば文書記憶部20、集合抽出部21、文書間類似度算出部22、クラスタ分類部23、指標算出部24、ネットワーク記憶部25、クラスタ間類似度算出部26、クラスタ関連付け部27、表示データ生成部28を有している。
詳しくは、文書記憶部20は、通信網Nを介して文書DB2と接続され、文書DB2から必要な文書の情報を取得して格納する記憶部である。例えば本実施形態では、医学文献を文書DB2から取得して格納している。文書記憶部20は、文書DB2で文書の追加や削除等の更新が行われると、これに同期して自動的に文書記憶部20内の文書の更新を行う機能も有している。
集合抽出部21は、文書記憶部20から時間情報を用いた条件により集合を抽出する機能を有している。例えば集合抽出部21は、文書の出版年月日を用いて、所定の期間(例えば所定の年)に出版された医学文献に絞った集合を抽出可能である。集合を抽出する条件は、時間情報だけでなく、他の条件を使用、または他の条件を追加してもよい。例えば、特定の疾患に関する医学文献、特定の学会で発表された医学文献等の条件を使用、または追加する、あるいはこれらのうち複数の条件を使用してもよい。さらに、一つの集合に含まれる文書の数を所定の件数に絞り込むことも可能である。また、集合抽出部21は、文書記憶部20において文書の更新が行われると、更新後の情報に基づいて再度条件に当てはまる文書を抽出する。
文書間類似度算出部22は、集合抽出部21で抽出された集合内の文書について一の文書の内容と他の文書の内容との類似度を算出する機能を有している。類似度の算出には、例えばTF-IDFやコサイン類似度を用いることができる。つまり、文書間類似度算出部22は、各文書の内容について使用されている単語を抽出し、各単語に対して文書内での出現頻度(TF:Term Frequency)と、他の文書で使用されている単語に対する希少性(IDF:Inverse Document Frequency)の積から単語の重み付けを行い、文書のベクトル化を行う。そして、文書間類似度算出部22は、ベクトル化された文書間のコサイン(cos)の値を当該文書間の類似度の値として算出する。例えば第1の文書と第2の文書との類似度は0.856、第1の文書と第3の文書との類似度は0.732というように類似度は0から1の間の値で表され、1に近いほど類似した文書であることを示す。
クラスタ分類部23は、文書間類似度算出部22にて算出された類似度に基づいて各文書を含めて線(以下、「エッジ」という。)で結んだネットワークを生成し、類似する文書でクラスタ(文書群)に分類する。クラスタ分けのアルゴリズムは特に限定されないが、例えばエッジを切り離しても、ノード同士の接続性が極力保たれるようなクラスタを反復的な計算で特定するアルゴリズム(いわゆるGirvan-Newmanアルゴリズム)を用いることができる。
指標算出部24は、クラスタ分類部23にて生成されたネットワークにおける各文書の中心性を示す中心性指標を算出する機能を有している。中心性指標を算出するアルゴリズムは特に限定されないが、例えば固有ベクトル中心性、PageRank、媒介中心性、及び次数中心性等を用いることができる。本実施形態では、固有ベクトル中心性を用いる。固有ベクトル中心性は、ネットワーク上における一つの文書(以下「ノード」という。)に関し、当該ネットワーク中の任意のノードから出発して、エッジをたどることを繰り返した場合に、当該ノードを通る確率で示される。
ネットワーク記憶部25は、集合抽出部21にて抽出された文書の集合ごとに、クラスタ分けした後のネットワーク情報を格納する記憶部である。例えば集合抽出部21にて、文書の出版年に基づき各年の集合が生成された場合には、各年のネットワーク情報がネットワーク記憶部25に格納されることとなる。ここに格納されている各ネットワーク情報は、表示データ生成部28にてネットワーク表示データに変換され、情報端末3の出力部10にて表示可能である。
図2は情報端末の出力部に表示されるクラスタ解析結果としての一つのネットワークの表示例であり、図3はネットワークの説明図である。これらの図に基づき一つの集合におけるネットワークの表示について説明する。
図2、図3に示すように、一つの集合におけるネットワークは、集合内における各文書について、中心性指標に応じた表現、クラスタの種類に応じた表現、及び各文書間での類似度の大きさに応じた表現、により示される。
具体的には、図3に示すように、ネットワーク上の一つの文書(ノード)は一つの円で示され、中心性指標は円の大きさで表現され、クラスタの種類は色で表現され、類似度の大きさはエッジの太さで表現される。
図3には、10のノード30aから30j(以下、まとめて「ノード30」とも称する。)が表示されており、左上の四つのノード30aから30dが第1のクラスタに所属し、右下の六つのノード30eから30jが第2のクラスタに所属している。なお、第1のクラスタと第2のクラスタは異なる色で示すことができる。図3では色の違いをハッチングの違いで示している。
ノード30の大きさは中心性の大きさを示しており、図3においてはノード30a、ノード30eが中心性の高い文書であることが分かる。また、ノード30を結ぶエッジ32の太さが当該エッジ32で結ばれている文書間類似度の大きさを示している。したがって図3においては、ノード30aとノード30cとの間や、ノード30eとノード30hとの間のエッジ32が太いため、これらのノード間の文書間類似度が高いことが分かる。
ネットワーク記憶部25には、このようなネットワーク表示の基となるネットワーク情報が集合ごとに格納されている。
クラスタ間類似度算出部26は、ネットワーク記憶部25に格納された複数の集合のクラスタ間におけるクラスタ間類似度を算出する機能を有している。クラスタ間類似度の算出については、文書間類似度算出部22と同様にTF-IDFやコサイン類似度を用いることができる。つまり、クラスタ間類似度算出部26は、各集合における各クラスタ内の文書の内容について使用されている単語を抽出し、各単語に対してクラスタ内での出現頻度(TF:Term Frequency)と、他のクラスタで使用されている単語に対する希少性(IDF:Inverse Document Frequency)の積から単語の重み付けを行い、各クラスタのベクトル化を行う。そして、クラスタ間類似度算出部26は、第1の集合においてベクトル化されたクラスタと第2の集合においてベクトル化されたクラスタとの間のコサイン(cos)の値を当該クラスタ間類似度の値として算出する。
クラスタ関連付け部27は、クラスタ間類似度が所定の閾値以上のクラスタ同士を関連性のあるクラスタであるものとして、クラスタの関連付け情報を生成する機能を有している。つまり、クラスタ関連付け部27は、集合を跨って関連性のあるクラスタ同士を紐づける。
表示データ生成部28は、上述したネットワーク記憶部25に格納されたネットワーク情報に基づくネットワーク表示データを生成可能であり、且つクラスタ関連付け部27において関連付けられた集合を跨ったクラスタ間の関係を示す時系列表示データを生成する機能を有している。
図4は、集合を跨ったクラスタ間の関係性を、図5は時系列表示データの表示例を、それぞれ示す。
図4は、上記図3で示した集合におけるネットワークを2018年に出版された医学文献の集合を示したネットワークの例として示している。さらに、図4は、2017年、及び2016年に出版された医学文献の集合を示したネットワークを時系列で並べている。
クラスタ間類似度算出部26は、図4において集合間に延びる実線及び点線で示すように、2018年の集合のクラスタ内の文書と、2017年の集合のクラスタ内の文書との類似度から、集合を跨ったクラスタ間の類似度を算出している。また、クラスタ間類似度算出部26は、2017年の集合と2016年の集合についても同様の処理を行うことで、時系列的なクラスタ間の類似度を算出可能である。
図5の時系列表示は、2014年から2018年の各年に出版された医学文献の集合に属する主要なクラスタを年代順に並べたものである。クラスタは円で示されており、円の大きさによりクラスタに属する文献数が表現され、円内に記載された数字が文献数を示している。
図5は、最新の2018年を基準としてクラスタの関連付けを行っている。2018年において文献数の多い四つのクラスタ40aから40dが表示されており、これらのクラスタを基準として過去のクラスタとの関連性が線(エッジ50、51)で示されている。なお、図3と同様に各クラスタは異なる色で示されているが、図5では色の違いをハッチングの違いで示している。
エッジ50、51の太さはクラスタ間の類似度の高さを示しており、表示データ生成部28では、所定の閾値以上の類似度のみを表示するよう表示データを生成する。またエッジには、基準のクラスタに対して最も類似度の高いクラスタを接続するメインエッジ50と、それ以外の2番目以降の類似度のクラスタを接続するサブエッジ51の2種類がある。メインエッジ50で接続されるクラスタは同じ属性のクラスタであるとして同じ色(ハッチング)で示される。一方、サブエッジ51は異なる属性のクラスタ間を接続している。なお、クラスタの属性は、医学文献であれば例えば研究テーマに相当する。
このようにして、各年のクラスタがエッジ50、51により接続されて示された図4が医学文献における時系列表示データであった場合は、以下のようなことが推測できる。
例えば2018年において文献数1位のクラスタ40aの属性は、2017年、2016年においても1位(クラスタ41a、42a)であるが、2015年、2014年では2位(クラスタ43a、44a)であり、2015年から2016年にかけて文献数が急増している。そのため、当該クラスタ40aの研究テーマは従来から注目されていたが、特に2015年から2016年にかけて、より注目される事象が生じたことが推測できる。
一方、2018年において文献数2位のクラスタ40bは、2015年から2016年にかけて文献数が低下していることから、この期間でクラスタ40bの研究テーマにおける治療法が確立したこと等が推測できる。また、この研究テーマは2014年から2015年にかけて、及び2017年から2018年にかけて、文献数3位のクラスタ43c、40cとサブエッジ51で接続されていることから、研究テーマが分岐していることが推測される。
また、2018年において文献数3位のクラスタ40cは、2014年から常に、文献数の順位は3位であるが、文献の数は増加傾向にあり、今後も発展する可能性のある研究テーマであることが推測できる。
2018年において、文献数4位のクラスタ40dについては、2017年から発生した属性であり、比較的新しい研究テーマであることがわかる。さらに、2016年から2014年において文献数4位のクラスタ42d、43d、44dは、2017年には文献数2位のクラスタ41bに統合されていることが推測できる。
このように、集合を跨いだクラスタ間の関連性を示すことで、クラスタの変遷が見て取れるようになる。
表示データ生成部28は、生成したネットワーク表示データや時系列表示データを、サーバ4と通信網Nを介して接続された情報端末3に送信する。
このように構成されたクラスタ解析システム1では、例えばユーザが情報端末3の入力部11を介してサーバ4に対して特定の疾患名等の医学文献に関する情報を入力すると、サーバ4から入力情報に応じた図2、3で示したようなネットワーク表示データや図5で示したような時系列表示データを情報端末3の出力部10に出力する。
図6は、クラスタ解析システム1のサーバ4で実行される時系列表示データを生成するクラスタ解析ルーチンのフローチャートを示す。以下同フローチャートに沿って、本実施形態のクラスタ解析方法について詳しく説明する。
サーバ4は、情報端末3から特定の疾患名や時系列の期間や期間の区切り方等の入力情報を受信すると、ステップS1として、集合抽出部21が文書記憶部20から条件に適合した文書の集合を抽出する。例えば上述した図5の時系列表示を要求された場合には、まず2018年に出版された医学文献の集合(第1の集合)を抽出する。
続くステップS2では、文書間類似度算出部22が、ステップS1で抽出した集合を構成する文書間の文書間類似度を算出する。
ステップS3では、クラスタ分類部23が、ステップS2で算出された類似度に基づいて文書間のネットワークを生成し、類似する文書の集合がクラスタを構成するように分類する。
ステップS4では、指標算出部24が、ステップS3で生成されたネットワークにおける文書の中心性を示す中心性指標を算出する。これにより、ステップS1で抽出した集合に係るネットワーク情報が生成され、ネットワーク記憶部25に格納される。
ステップS5では、クラスタ間類似度算出部26が、ネットワーク記憶部25に条件に合った集合のネットワークが記憶されているか否かを判定する。当該判定結果が偽(No)である場合はステップS1に戻る。例えば上述した図5の時系列表示の場合であれば、2014年から2018年の各年の集合についてネットワークが生成されていない場合には、ステップS1に戻り、生成されていない年の集合を抽出し、上記ステップS2からS4を実行してネットワークを生成する。
ステップS5の判定結果が真(Yes)となった場合、即ち条件に合った集合のネットワークが生成された場合には、ステップS6に進む。
ステップS6では、クラスタ間類似度算出部26が、ネットワーク記憶部25に格納された複数の集合のクラスタ間におけるクラスタ間類似度を算出する。例えば、図5の時系列表示の場合は、2018年と2017年の集合のクラスタ間のクラスタ間類似度を算出し、続いて2017年と2016年、2016年と2015年、2015年と2014年の集合のクラスタ間のクラスタ間類似度を算出していく。
ステップS7では、クラスタ関連付け部27が、クラスタ間類似度が所定の閾値以上のクラスタ同士を関連性のあるクラスタであるものとして、クラスタの関連付け情報を生成する。例えば、図5の時系列表示の場合は、各年のクラスタ間で所定の閾値以上のクラスタ同士をエッジ50、51で接続する。
ステップS8では、表示データ生成部28が、図5で示したような時系列データを生成し、情報端末3に送信して当該ルーチンを終了する。
以上のように、本実施形態におけるクラスタ解析システム1では、時間的条件の異なる複数の集合を抽出し、この集合内において文書間類似度に基づいてネットワークを形成し、類似する文書のクラスタを形成して、クラスタ間類似度を算出して集合を跨ったクラスタの関連付けを行っている。これにより、時間的なクラスタの変遷を示すことができるようになる。
また、クラスタの関連付けはクラスタ間類似度が所定の閾値以上のクラスタを対象とすることで余計な情報を削減し、サーバ4の処理の負担を軽減することができ、且つ情報端末3への情報量を削減することができる。
さらに、図5で示したような、関連付けられた各集合を跨ったクラスタ間の関係を示した時系列表示データを生成することで、クラスタの変遷を俯瞰できるようにすることができる。
このように本実施形態によれば、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つ各クラスタの時系列的な関連を把握できるようにすることで、クラスタ間の経緯まで理解することができる。
以上、本発明の一実施形態について具体的に説明したが、本発明は当該実施形態に限定されるものではなく、それらにおける様々な変更および改変が、当業者によって、添付の特許請求の範囲に規定される本発明の範囲または趣旨から逸脱することなく実行され得ることが理解される。
上記実施形態では、表示データ生成部28は時系列表示を、図5で示したように、クラスタを円で表現し、文献数を円の大きさで表現し、クラスタ間類似度をエッジの太さで表現したが、時系列表示の表現はこれに限られるものではなく、他の表現で示してもよい。
また、上記実施形態におけるクラスタ解析システム1では、集合を抽出する条件として時間情報を用いた条件とすることで集合を跨った各クラスタの時系列的な関連を把握できるようにしているが、集合を抽出する条件は時間情報に限られるものではない。例えば、医学文献であれば、対象とする疾患や医薬品の種類を条件に集合を抽出することで、疾患や医薬品に関するクラスタ間の関連性を可視化できる。又は、技術文献であれば、技術分野を条件に集合を抽出することで、特定の技術に関するクラスタ間の関連性を可視化できる。このように集合を抽出する条件に応じて、種々の集合におけるクラスタ間の関連を把握できるようにすることにより、異なる集合における対応するクラスタ間の関連を理解することができる。
1 クラスタ解析システム
2 文書DB
3 情報端末
4 サーバ
10 出力部
11 入力部
20 文書記憶部
21 集合抽出部
22 文書間類似度算出部
23 クラスタ分類部
24 指標算出部
25 ネットワーク記憶部
26 クラスタ間類似度算出部
27 クラスタ関連付け部
28 表示データ生成部
2 文書DB
3 情報端末
4 サーバ
10 出力部
11 入力部
20 文書記憶部
21 集合抽出部
22 文書間類似度算出部
23 クラスタ分類部
24 指標算出部
25 ネットワーク記憶部
26 クラスタ間類似度算出部
27 クラスタ関連付け部
28 表示データ生成部
Claims (9)
- コンピュータが、複数の文書を、その内容に応じてクラスタに分類するクラスタ解析方法であって、
前記複数の文書から、第1の条件により第1の集合を抽出する第1の集合抽出ステップと、
前記第1の集合に含まれる一の文書の内容と、前記第1の集合に含まれる他の文書の内容との文書間類似度を算出する第1の文書間類似度算出ステップと、
前記第1の集合の中で、第1の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類する第1のクラスタ分類ステップと、
前記第1のクラスタ分類ステップにて分類されたクラスタにおける各文書の中心性を示す中心性指標を算出し、前記第1の集合に係るネットワーク情報を生成する第1の指標算出ステップと、
前記複数の文書から、前記第1の条件とは異なる第2の条件により第2の集合を抽出する第2の集合抽出ステップと、
前記第2の集合に含まれる一の文書の内容と、前記第2の集合に含まれる他の文書の内容との文書間類似度を算出する第2の文書間類似度算出ステップと、
前記第2の集合の中で、第2の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類を行う第2のクラスタ分類ステップと、
前記第2のクラスタ分類ステップにて分類されたクラスタにおける各文書の中心性を示す中心性指標を算出し、前記第2の集合に係るネットワーク情報を生成する第2の指標算出ステップと、
前記第1の指標算出にて生成された第1の集合に係るネットワーク情報のクラスタと、前記第2の指標算出ステップにて生成された第2の集合に係るネットワーク情報のクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出ステップと、
前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度に基づいて、前記第1の集合と第2の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップと、
を備えるクラスタ解析方法。 - 前記複数の文書には時間情報が紐づけられており、前記第1の条件及び前記第2の条件は前記時間情報を用いた条件が含まれる請求項1に記載のクラスタ解析方法。
- 前記クラスタ関連付けステップでは、前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度が所定の閾値以上のクラスタ同士を紐づける請求項1又は2記載のクラスタ解析方法。
- さらに、前記クラスタ関連付けステップにて、関連付けられた各集合を跨ったクラスタ間の関係を示す表示データを生成する表示データ生成ステップを備える請求項1から3のいずれか一項に記載のクラスタ解析方法。
- 前記表示データ生成ステップでは、前記第1の集合のクラスタ及び前記第2の集合のクラスタを時系列順に並べ、前記第1の集合と第2の集合に跨って関連性のあるクラスタ同士を線で接続した前記表示データを生成する請求項4記載のクラスタ解析方法。
- 前記表示データ生成ステップでは、前記クラスタを円で表現し、クラスタに属する文書の数を円の大きさで表現し、前記クラスタ間類似度を前記線の太さで表現した前記表示データを生成する請求項5記載のクラスタ解析方法。
- 複数の文書を、その内容に応じてクラスタに分類するクラスタ解析システムであって、
前記複数の文書から、第1の条件により第1の集合を抽出し、且つ前記第1の条件とは異なる第2の条件により第2の集合を抽出する集合抽出部と、
前記第1の集合に含まれる一の文書の内容と、前記第1の集合に含まれる他の文書の内容との文書間類似度を算出し、且つ前記第2の集合に含まれる一の文書の内容と、前記第2の集合に含まれる他の文書の内容との文書間類似度を算出する文書間類似度算出部と、
前記第1の集合の中で、前記文書間類似度算出部により算出された文書間類似度に基づいて各文書について複数のクラスタに分類し、且つ前記第2の集合の中で、前記文書間類似度算出部により算出された類似度に基づいて各文書について複数のクラスタに分類を行うクラスタ分類部と、
前記第1の集合の中で分類されたクラスタにおける各文書の中心性を示す中心性指標を算出して前記第1の集合に係るネットワーク情報を生成し、前記第2の集合の中で分類されたクラスタにおける各文書の中心性を示す中心性指標を算出して前記第2の集合に係るネットワーク情報を生成する指標算出部と、
前記第1の集合に係るネットワーク情報のクラスタと、前記第2の集合に係るネットワーク情報のクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出部と、
前記クラスタ間類似度算出部で算出されたクラスタ間類似度に基づいて、記第1の集合と第2の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付け部と、
を備えるクラスタ解析システム。 - コンピュータに、複数の文書を、その内容に応じてクラスタに分類させるクラスタ解析プログラムであって、
前記複数の文書から、第1の条件により第1の集合を抽出する第1の集合抽出ステップと、
前記第1の集合に含まれる一の文書の内容と、前記第1の集合に含まれる他の文書の内容との文書間類似度を算出する第1の文書間類似度算出ステップと、
前記第1の集合の中で、第1の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類する第1のクラスタ分類ステップと、
前記第1のクラスタ分類ステップにて分類されたクラスタにおける各文書の中心性を示す中心性指標を算出し、前記第1の集合に係るネットワーク情報を生成する第1の指標算出ステップと、
前記複数の文書から、前記第1の条件とは異なる第2の条件により第2の集合を抽出する第2の集合抽出ステップと、
前記第2の集合に含まれる一の文書の内容と、前記第2の集合に含まれる他の文書の内容との文書間類似度を算出する第2の文書間類似度算出ステップと、
前記第2の集合の中で、第2の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類を行う第2のクラスタ分類ステップと、
前記第2のクラスタ分類ステップにて分類されたクラスタにおける各文書の中心性を示す中心性指標を算出し、前記第2の集合に係るネットワーク情報を生成する第2の指標算出ステップと、
前記第1の指標算出ステップにて生成された第1のネットワーク情報におけるクラスタと、前記第2の指標算出ステップにて生成された第2のネットワーク情報におけるクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出ステップと、
前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度に基づいて、前記第1の集合と第2の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップと、
を実行させる解析プログラム。 - コンピュータが、複数の文書を、その内容に応じてクラスタに分類するクラスタ解析方法であって、
前記複数の文書から抽出された第1の集合の中で分類されたクラスタにおける各文書の中心性を示す中心性指標を算出して前記第1の集合に係るネットワーク情報を生成し、前記複数の文書から抽出された第1の集合とは異なる第2の集合の中で分類されたクラスタにおける各文書の中心性を示す中心性指標を算出して前記第2の集合に係るネットワーク情報を生成する指標算出ステップと、
前記指標算出ステップにて生成された第1の集合に係るネットワーク情報のクラスタと、前記第2の集合に係るネットワーク情報のクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出ステップと、
前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度に基づいて、前記第1の集合と第2の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップと、
を備えるクラスタ解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024005074A JP2024041946A (ja) | 2019-05-17 | 2024-01-17 | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021520502A JPWO2020234930A1 (ja) | 2019-05-17 | 2019-05-17 | |
PCT/JP2019/019725 WO2020234930A1 (ja) | 2019-05-17 | 2019-05-17 | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム |
JP2024005074A JP2024041946A (ja) | 2019-05-17 | 2024-01-17 | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021520502A Division JPWO2020234930A1 (ja) | 2019-05-17 | 2019-05-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024041946A true JP2024041946A (ja) | 2024-03-27 |
Family
ID=73459205
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021520502A Pending JPWO2020234930A1 (ja) | 2019-05-17 | 2019-05-17 | |
JP2024005074A Pending JP2024041946A (ja) | 2019-05-17 | 2024-01-17 | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021520502A Pending JPWO2020234930A1 (ja) | 2019-05-17 | 2019-05-17 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11989222B2 (ja) |
JP (2) | JPWO2020234930A1 (ja) |
WO (1) | WO2020234930A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098690B (zh) * | 2022-08-24 | 2023-02-24 | 中信天津金融科技服务有限公司 | 一种基于聚类分析的多数据文档分类方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10154150A (ja) | 1996-11-25 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 情報潮流提示方法及びその装置 |
JP2000242652A (ja) | 1999-02-18 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 |
JP2005092443A (ja) | 2003-09-16 | 2005-04-07 | Mitsubishi Research Institute Inc | クラスター分析装置およびクラスター分析方法 |
JP2011086032A (ja) * | 2009-10-14 | 2011-04-28 | Hitachi Solutions Ltd | 変化話題抽出装置または変化話題抽出方法 |
JP5683037B2 (ja) * | 2010-09-29 | 2015-03-11 | 株式会社帝国データバンク | 取引関係マップ生成システム及びプログラム |
JP2015004996A (ja) * | 2012-02-14 | 2015-01-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 複数の文書をクラスタリングする装置 |
US20160314184A1 (en) * | 2015-04-27 | 2016-10-27 | Google Inc. | Classifying documents by cluster |
US9836183B1 (en) | 2016-09-14 | 2017-12-05 | Quid, Inc. | Summarized network graph for semantic similarity graphs of large corpora |
US11023774B2 (en) * | 2018-01-12 | 2021-06-01 | Thomson Reuters Enterprise Centre Gmbh | Clustering and tagging engine for use in product support systems |
-
2019
- 2019-05-17 WO PCT/JP2019/019725 patent/WO2020234930A1/ja active Application Filing
- 2019-05-17 US US17/595,151 patent/US11989222B2/en active Active
- 2019-05-17 JP JP2021520502A patent/JPWO2020234930A1/ja active Pending
-
2024
- 2024-01-17 JP JP2024005074A patent/JP2024041946A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220222287A1 (en) | 2022-07-14 |
US11989222B2 (en) | 2024-05-21 |
WO2020234930A1 (ja) | 2020-11-26 |
JPWO2020234930A1 (ja) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017152802A1 (zh) | 将文本类医疗报告转换为结构化数据的智能系统及方法 | |
CN104199855B (zh) | 一种针对中医药学信息的检索系统和方法 | |
JP2024041946A (ja) | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム | |
US20240111943A1 (en) | Summary creation method, summary creation system, and summary creation program | |
Dao et al. | Latent sentiment topic modelling and nonparametric discovery of online mental health-related communities | |
González-Márquez et al. | The landscape of biomedical research | |
Thandaga Jwalanaiah et al. | Effective deep learning based multimodal sentiment analysis from unstructured big data | |
Burkhardt et al. | Towards identifying drug side effects from social media using active learning and crowd sourcing | |
Liu et al. | Context-aware experience extraction from online health forums | |
Yesha et al. | A graph-based method for analyzing electronic medical records | |
Hulliyah et al. | A Benchmark of Modeling for Sentiment Analysis of The Indonesian Presidential Election in 2019 | |
JP7490241B2 (ja) | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム | |
Kaur et al. | Development of human face literature database using text mining approach: phase I | |
Weerasundara et al. | Comparative analysis of named entity recognition in the dungeons and dragons domain | |
Gangopadhyay et al. | Knowledge discovery in clinical data | |
Luling et al. | COVID-19 literature mining and analysis research | |
Hada et al. | A novel recommendation system for vaccines using hybrid machine learning model | |
Venkatesh et al. | A review on biomedical mining | |
Daru et al. | Depression detection using hybrid transformer networks | |
Reddy et al. | High-performanceintelligent Models for Faster Ailments Extraction Over the Big Healthcare Data | |
Senthilkumar et al. | A unified approach to detect the record duplication using bat algorithm and fuzzy classifier for health informatics | |
Umar | Maleria Prevention Using Social Media and Text Mining | |
JP6745686B2 (ja) | 名寄せ処理方法 | |
Alsahly | COVID-19 Vaccine Sentiment Analysis for Arabic Tweets Using Machine Learning Algorithms | |
Lim | Mining of Social Networks from Classic Books and Visualization. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240117 |