JP2024041946A

JP2024041946A - クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Info

Publication number: JP2024041946A
Application number: JP2024005074A
Authority: JP
Inventors: 邦利山▲崎▼; Kunitoshi Yamazaki; 竜一細谷; Ryuichi Hosoya
Original assignee: Aixs Inc
Current assignee: Aixs Inc
Priority date: 2019-05-17
Filing date: 2024-01-17
Publication date: 2024-03-27
Also published as: US20220222287A1; US11989222B2; WO2020234930A1; JPWO2020234930A1

Abstract

【課題】集合を跨ったクラスタ間の関連を理解させることができるクラスタ解析方法、システム及びプログラムを提供する。【解決手段】文書データベースと、情報端末と、サーバとが、通信網を介して接続されているクラスタ解析システムにおいて、方法は、サーバが、複数の文書から、時間情報を用いた条件により集合を抽出する集合抽出ステップ（Ｓ１）と、当該集合に含まれる一の文書の内容と他の文書の内容との文書間類似度を算出する文書間類似度算出ステップ（Ｓ２）と、当該集合の中で、文書間類似度に基づいて類似する文書で複数のクラスタに分類するクラスタ分類ステップ（Ｓ３）と、複数の集合のクラスタ間におけるクラスタ間類似度を算出するクラスタ間類似度算出ステップ（Ｓ６）と、クラスタ間類似度に基づいて集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップ（Ｓ７）と、を実行する。【選択図】図６

Description

本発明は、複数の文書をその内容に応じてクラスタに分類し、且つ時系列に応じたクラスタ間の関連を示す表示データを生成するクラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラムに関する。

従来、多数の学術論文や文献等の文書を解析する場合、人が文書を読んで内容ごとに分類する、あるいは要約を作成していた。人による解析では、時間がかかる上、複数の人が解析を行う場合、作業者の経験や知識によって分類や要約作成の精度にばらつきが生じる傾向がある。

また、学術論文のように、複雑で専門性の高い文書は、内容を理解するために高度な専門知識を必要とする。しかし、そのような専門知識を持たない者でも最新の情報を容易に取得して理解し、活用したいという要請がある。

例えば、概念検索により検索された技術文献に対して形態素解析を行い、そこから得られた各単語にウェイトを付与して、各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスタにまとめるクラスタ解析方法が提案されている（例えば、「特許文献１」。）。

このような技術により、情報をクラスタに分類することが可能だが、異なる時間軸に基づいてクラスタを生成すること、異なるクラスタ間の関係を理解するところまでは至っていない。

特開２００５－９２４４３号公報

本発明は、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つクラスタの時系列的な関連等、他の集合におけるクラスタ間の関連を把握できるようにすることで、集合を跨ったクラスタ間の関連を理解することができるクラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラムを提供することを目的とする。

すなわち、本発明は、コンピュータが、複数の文書を、その内容に応じてクラスタに分類するクラスタ解析方法であって、前記複数の文書から、第１の条件により第１の集合を抽出する第１の集合抽出ステップと、前記第１の集合に含まれる一の文書の内容と、前記第１の集合に含まれる他の文書の内容との文書間類似度を算出する第１の文書間類似度算出ステップと、前記第１の集合の中で、第１の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類する第１のクラスタ分類ステップと、前記複数の文書から、前記第１の条件とは異なる第２の条件により第２の集合を抽出する第２の集合抽出ステップと、前記第２の集合に含まれる一の文書の内容と、前記第２の集合に含まれる他の文書の内容との文書間類似度を算出する第２の文書間類似度算出ステップと、前記第２の集合の中で、第２の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類を行う第２のクラスタ分類ステップと、前記第１のクラスタ分類ステップにて分類されたクラスタと、前記第２のクラスタ分類ステップにて分類されたクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出ステップと、前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度に基づいて、前記第１の集合と第２の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップと、を備えるクラスタ解析方法である。

本発明により、多数の文書、特に膨大な数の文書を、類似する文書から構成される文書群（クラスタ）に分類し、且つクラスタの時系列的な関連等、他の集合におけるクラスタ間の関連を把握できるようにすることで、クラスタ間の関連を理解することが可能となる。

本発明の一実施形態に係るクラスタ解析システムの全体構成図である。情報端末の出力部に表示されるクラスタ解析結果の表示例である。表示データの説明図である。集合を跨ったクラスタ間の関係性を示す説明図である。各クラスタの時系列マップの一例を示す説明図である。本発明の一実施形態におけるクラスタ解析システムのサーバで実行されるクラスタ解析制御ルーチンを示すフローチャートである。

以下、本発明の一実施形態を図面に基づき説明する。

図１は本発明の一実施形態に係るクラスタ解析システムを示した全体構成図であり、同図に基づき本実施形態の構成について説明する。

図１に示すように、本実施形態に係るクラスタ解析システム１は、文書データベース２（以下、データベースを「ＤＢ」と表記する。）と、情報端末３と、サーバ４とが通信網Ｎを介して接続されている。通信網Ｎは、例えばインターネット、イントラネット、ＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）等、であり、有線又は無線の通信手段を用いて、情報を双方向に伝達可能な通信網である。また図１では、説明の簡略化のため一つの文書ＤＢ２及び一つの情報端末３が、一つのサーバ４に接続されているが、サーバ４は、複数の文書ＤＢ及び複数の情報端末３と接続可能である。

文書ＤＢ２は、例えば、学術論文、特許文献、雑誌、書籍、及び新聞記事等の文書の情報を格納したデータベースであり、格納された文書を限定された者又は非限定の者に公開している。本実施形態において、文書ＤＢ２は、医学文献の情報を格納した文書ＤＢの例として説明する。しかしながら、本発明の文書ＤＢに格納可能な文書の内容、分野、及び種類に制限はない。本実施形態において、医学文献の情報には、著者名や出版年月日（時間情報）、著者の所属機関等の書誌的事項、論文の題目、要旨及び本文等の論文の内容的事項、引用・被引用の件数や文献名等の引用・被引用情報、文献が掲載された学会名、雑誌名、又は出版社名等の掲載情報等が含まれる。

情報端末３は、例えばパーソナルコンピュータ（以下、「ＰＣ」という。）や、スマートフォン、タブレットＰＣ、及び携帯電話のような携帯端末であり、出力部１０、及び入力部１１を有している。

出力部１０は、例えばディスプレイやプリンタのような装置であり、サーバ４で生成された表示データを視認可能に表示することができる。

入力部１１は、例えばキーボードやマウスのような装置であり、情報の入力や操作が可能である。出力部１０と入力部１１は、一体となって、例えばタッチパネルを構成してもよい。

情報端末３を使用する者（ユーザ）は、サーバ４で生成された表示データを出力部１０にて確認可能であるとともに、入力部１１を介してサーバ４に各種指示を出すことが可能である。

サーバ４は、複数の文書を、その内容に応じてクラスタに分類し、且つ各文書の関連を示す表示データを生成する一以上のサーバ（コンピュータ）から構成されている。サーバ４は各種演算部及び記憶部を有しており、例えば文書記憶部２０、集合抽出部２１、文書間類似度算出部２２、クラスタ分類部２３、指標算出部２４、ネットワーク記憶部２５、クラスタ間類似度算出部２６、クラスタ関連付け部２７、表示データ生成部２８を有している。

詳しくは、文書記憶部２０は、通信網Ｎを介して文書ＤＢ２と接続され、文書ＤＢ２から必要な文書の情報を取得して格納する記憶部である。例えば本実施形態では、医学文献を文書ＤＢ２から取得して格納している。文書記憶部２０は、文書ＤＢ２で文書の追加や削除等の更新が行われると、これに同期して自動的に文書記憶部２０内の文書の更新を行う機能も有している。

集合抽出部２１は、文書記憶部２０から時間情報を用いた条件により集合を抽出する機能を有している。例えば集合抽出部２１は、文書の出版年月日を用いて、所定の期間（例えば所定の年）に出版された医学文献に絞った集合を抽出可能である。集合を抽出する条件は、時間情報だけでなく、他の条件を使用、または他の条件を追加してもよい。例えば、特定の疾患に関する医学文献、特定の学会で発表された医学文献等の条件を使用、または追加する、あるいはこれらのうち複数の条件を使用してもよい。さらに、一つの集合に含まれる文書の数を所定の件数に絞り込むことも可能である。また、集合抽出部２１は、文書記憶部２０において文書の更新が行われると、更新後の情報に基づいて再度条件に当てはまる文書を抽出する。

文書間類似度算出部２２は、集合抽出部２１で抽出された集合内の文書について一の文書の内容と他の文書の内容との類似度を算出する機能を有している。類似度の算出には、例えばＴＦ－ＩＤＦやコサイン類似度を用いることができる。つまり、文書間類似度算出部２２は、各文書の内容について使用されている単語を抽出し、各単語に対して文書内での出現頻度（ＴＦ：ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と、他の文書で使用されている単語に対する希少性（ＩＤＦ：ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の積から単語の重み付けを行い、文書のベクトル化を行う。そして、文書間類似度算出部２２は、ベクトル化された文書間のコサイン（ｃｏｓ）の値を当該文書間の類似度の値として算出する。例えば第１の文書と第２の文書との類似度は０．８５６、第１の文書と第３の文書との類似度は０．７３２というように類似度は０から１の間の値で表され、１に近いほど類似した文書であることを示す。

クラスタ分類部２３は、文書間類似度算出部２２にて算出された類似度に基づいて各文書を含めて線（以下、「エッジ」という。）で結んだネットワークを生成し、類似する文書でクラスタ（文書群）に分類する。クラスタ分けのアルゴリズムは特に限定されないが、例えばエッジを切り離しても、ノード同士の接続性が極力保たれるようなクラスタを反復的な計算で特定するアルゴリズム（いわゆるＧｉｒｖａｎ－Ｎｅｗｍａｎアルゴリズム）を用いることができる。

指標算出部２４は、クラスタ分類部２３にて生成されたネットワークにおける各文書の中心性を示す中心性指標を算出する機能を有している。中心性指標を算出するアルゴリズムは特に限定されないが、例えば固有ベクトル中心性、ＰａｇｅＲａｎｋ、媒介中心性、及び次数中心性等を用いることができる。本実施形態では、固有ベクトル中心性を用いる。固有ベクトル中心性は、ネットワーク上における一つの文書（以下「ノード」という。）に関し、当該ネットワーク中の任意のノードから出発して、エッジをたどることを繰り返した場合に、当該ノードを通る確率で示される。

ネットワーク記憶部２５は、集合抽出部２１にて抽出された文書の集合ごとに、クラスタ分けした後のネットワーク情報を格納する記憶部である。例えば集合抽出部２１にて、文書の出版年に基づき各年の集合が生成された場合には、各年のネットワーク情報がネットワーク記憶部２５に格納されることとなる。ここに格納されている各ネットワーク情報は、表示データ生成部２８にてネットワーク表示データに変換され、情報端末３の出力部１０にて表示可能である。

図２は情報端末の出力部に表示されるクラスタ解析結果としての一つのネットワークの表示例であり、図３はネットワークの説明図である。これらの図に基づき一つの集合におけるネットワークの表示について説明する。

図２、図３に示すように、一つの集合におけるネットワークは、集合内における各文書について、中心性指標に応じた表現、クラスタの種類に応じた表現、及び各文書間での類似度の大きさに応じた表現、により示される。

具体的には、図３に示すように、ネットワーク上の一つの文書（ノード）は一つの円で示され、中心性指標は円の大きさで表現され、クラスタの種類は色で表現され、類似度の大きさはエッジの太さで表現される。

図３には、１０のノード３０ａから３０ｊ（以下、まとめて「ノード３０」とも称する。）が表示されており、左上の四つのノード３０ａから３０ｄが第１のクラスタに所属し、右下の六つのノード３０ｅから３０ｊが第２のクラスタに所属している。なお、第１のクラスタと第２のクラスタは異なる色で示すことができる。図３では色の違いをハッチングの違いで示している。

ノード３０の大きさは中心性の大きさを示しており、図３においてはノード３０ａ、ノード３０ｅが中心性の高い文書であることが分かる。また、ノード３０を結ぶエッジ３２の太さが当該エッジ３２で結ばれている文書間類似度の大きさを示している。したがって図３においては、ノード３０ａとノード３０ｃとの間や、ノード３０ｅとノード３０ｈとの間のエッジ３２が太いため、これらのノード間の文書間類似度が高いことが分かる。

ネットワーク記憶部２５には、このようなネットワーク表示の基となるネットワーク情報が集合ごとに格納されている。

クラスタ間類似度算出部２６は、ネットワーク記憶部２５に格納された複数の集合のクラスタ間におけるクラスタ間類似度を算出する機能を有している。クラスタ間類似度の算出については、文書間類似度算出部２２と同様にＴＦ－ＩＤＦやコサイン類似度を用いることができる。つまり、クラスタ間類似度算出部２６は、各集合における各クラスタ内の文書の内容について使用されている単語を抽出し、各単語に対してクラスタ内での出現頻度（ＴＦ：ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と、他のクラスタで使用されている単語に対する希少性（ＩＤＦ：ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の積から単語の重み付けを行い、各クラスタのベクトル化を行う。そして、クラスタ間類似度算出部２６は、第１の集合においてベクトル化されたクラスタと第２の集合においてベクトル化されたクラスタとの間のコサイン（ｃｏｓ）の値を当該クラスタ間類似度の値として算出する。

クラスタ関連付け部２７は、クラスタ間類似度が所定の閾値以上のクラスタ同士を関連性のあるクラスタであるものとして、クラスタの関連付け情報を生成する機能を有している。つまり、クラスタ関連付け部２７は、集合を跨って関連性のあるクラスタ同士を紐づける。

表示データ生成部２８は、上述したネットワーク記憶部２５に格納されたネットワーク情報に基づくネットワーク表示データを生成可能であり、且つクラスタ関連付け部２７において関連付けられた集合を跨ったクラスタ間の関係を示す時系列表示データを生成する機能を有している。

図４は、集合を跨ったクラスタ間の関係性を、図５は時系列表示データの表示例を、それぞれ示す。

図４は、上記図３で示した集合におけるネットワークを２０１８年に出版された医学文献の集合を示したネットワークの例として示している。さらに、図４は、２０１７年、及び２０１６年に出版された医学文献の集合を示したネットワークを時系列で並べている。

クラスタ間類似度算出部２６は、図４において集合間に延びる実線及び点線で示すように、２０１８年の集合のクラスタ内の文書と、２０１７年の集合のクラスタ内の文書との類似度から、集合を跨ったクラスタ間の類似度を算出している。また、クラスタ間類似度算出部２６は、２０１７年の集合と２０１６年の集合についても同様の処理を行うことで、時系列的なクラスタ間の類似度を算出可能である。

図５の時系列表示は、２０１４年から２０１８年の各年に出版された医学文献の集合に属する主要なクラスタを年代順に並べたものである。クラスタは円で示されており、円の大きさによりクラスタに属する文献数が表現され、円内に記載された数字が文献数を示している。

図５は、最新の２０１８年を基準としてクラスタの関連付けを行っている。２０１８年において文献数の多い四つのクラスタ４０ａから４０ｄが表示されており、これらのクラスタを基準として過去のクラスタとの関連性が線（エッジ５０、５１）で示されている。なお、図３と同様に各クラスタは異なる色で示されているが、図５では色の違いをハッチングの違いで示している。

エッジ５０、５１の太さはクラスタ間の類似度の高さを示しており、表示データ生成部２８では、所定の閾値以上の類似度のみを表示するよう表示データを生成する。またエッジには、基準のクラスタに対して最も類似度の高いクラスタを接続するメインエッジ５０と、それ以外の２番目以降の類似度のクラスタを接続するサブエッジ５１の２種類がある。メインエッジ５０で接続されるクラスタは同じ属性のクラスタであるとして同じ色（ハッチング）で示される。一方、サブエッジ５１は異なる属性のクラスタ間を接続している。なお、クラスタの属性は、医学文献であれば例えば研究テーマに相当する。

このようにして、各年のクラスタがエッジ５０、５１により接続されて示された図４が医学文献における時系列表示データであった場合は、以下のようなことが推測できる。

例えば２０１８年において文献数１位のクラスタ４０ａの属性は、２０１７年、２０１６年においても１位（クラスタ４１ａ、４２ａ）であるが、２０１５年、２０１４年では２位（クラスタ４３ａ、４４ａ）であり、２０１５年から２０１６年にかけて文献数が急増している。そのため、当該クラスタ４０ａの研究テーマは従来から注目されていたが、特に２０１５年から２０１６年にかけて、より注目される事象が生じたことが推測できる。

一方、２０１８年において文献数２位のクラスタ４０ｂは、２０１５年から２０１６年にかけて文献数が低下していることから、この期間でクラスタ４０ｂの研究テーマにおける治療法が確立したこと等が推測できる。また、この研究テーマは２０１４年から２０１５年にかけて、及び２０１７年から２０１８年にかけて、文献数３位のクラスタ４３ｃ、４０ｃとサブエッジ５１で接続されていることから、研究テーマが分岐していることが推測される。

また、２０１８年において文献数３位のクラスタ４０ｃは、２０１４年から常に、文献数の順位は３位であるが、文献の数は増加傾向にあり、今後も発展する可能性のある研究テーマであることが推測できる。

２０１８年において、文献数４位のクラスタ４０ｄについては、２０１７年から発生した属性であり、比較的新しい研究テーマであることがわかる。さらに、２０１６年から２０１４年において文献数４位のクラスタ４２ｄ、４３ｄ、４４ｄは、２０１７年には文献数２位のクラスタ４１ｂに統合されていることが推測できる。

このように、集合を跨いだクラスタ間の関連性を示すことで、クラスタの変遷が見て取れるようになる。

表示データ生成部２８は、生成したネットワーク表示データや時系列表示データを、サーバ４と通信網Ｎを介して接続された情報端末３に送信する。

このように構成されたクラスタ解析システム１では、例えばユーザが情報端末３の入力部１１を介してサーバ４に対して特定の疾患名等の医学文献に関する情報を入力すると、サーバ４から入力情報に応じた図２、３で示したようなネットワーク表示データや図５で示したような時系列表示データを情報端末３の出力部１０に出力する。

図６は、クラスタ解析システム１のサーバ４で実行される時系列表示データを生成するクラスタ解析ルーチンのフローチャートを示す。以下同フローチャートに沿って、本実施形態のクラスタ解析方法について詳しく説明する。

サーバ４は、情報端末３から特定の疾患名や時系列の期間や期間の区切り方等の入力情報を受信すると、ステップＳ１として、集合抽出部２１が文書記憶部２０から条件に適合した文書の集合を抽出する。例えば上述した図５の時系列表示を要求された場合には、まず２０１８年に出版された医学文献の集合（第１の集合）を抽出する。

続くステップＳ２では、文書間類似度算出部２２が、ステップＳ１で抽出した集合を構成する文書間の文書間類似度を算出する。

ステップＳ３では、クラスタ分類部２３が、ステップＳ２で算出された類似度に基づいて文書間のネットワークを生成し、類似する文書の集合がクラスタを構成するように分類する。

ステップＳ４では、指標算出部２４が、ステップＳ３で生成されたネットワークにおける文書の中心性を示す中心性指標を算出する。これにより、ステップＳ１で抽出した集合に係るネットワーク情報が生成され、ネットワーク記憶部２５に格納される。

ステップＳ５では、クラスタ間類似度算出部２６が、ネットワーク記憶部２５に条件に合った集合のネットワークが記憶されているか否かを判定する。当該判定結果が偽（Ｎｏ）である場合はステップＳ１に戻る。例えば上述した図５の時系列表示の場合であれば、２０１４年から２０１８年の各年の集合についてネットワークが生成されていない場合には、ステップＳ１に戻り、生成されていない年の集合を抽出し、上記ステップＳ２からＳ４を実行してネットワークを生成する。

ステップＳ５の判定結果が真（Ｙｅｓ）となった場合、即ち条件に合った集合のネットワークが生成された場合には、ステップＳ６に進む。

ステップＳ６では、クラスタ間類似度算出部２６が、ネットワーク記憶部２５に格納された複数の集合のクラスタ間におけるクラスタ間類似度を算出する。例えば、図５の時系列表示の場合は、２０１８年と２０１７年の集合のクラスタ間のクラスタ間類似度を算出し、続いて２０１７年と２０１６年、２０１６年と２０１５年、２０１５年と２０１４年の集合のクラスタ間のクラスタ間類似度を算出していく。

ステップＳ７では、クラスタ関連付け部２７が、クラスタ間類似度が所定の閾値以上のクラスタ同士を関連性のあるクラスタであるものとして、クラスタの関連付け情報を生成する。例えば、図５の時系列表示の場合は、各年のクラスタ間で所定の閾値以上のクラスタ同士をエッジ５０、５１で接続する。

ステップＳ８では、表示データ生成部２８が、図５で示したような時系列データを生成し、情報端末３に送信して当該ルーチンを終了する。

以上のように、本実施形態におけるクラスタ解析システム１では、時間的条件の異なる複数の集合を抽出し、この集合内において文書間類似度に基づいてネットワークを形成し、類似する文書のクラスタを形成して、クラスタ間類似度を算出して集合を跨ったクラスタの関連付けを行っている。これにより、時間的なクラスタの変遷を示すことができるようになる。

また、クラスタの関連付けはクラスタ間類似度が所定の閾値以上のクラスタを対象とすることで余計な情報を削減し、サーバ４の処理の負担を軽減することができ、且つ情報端末３への情報量を削減することができる。

さらに、図５で示したような、関連付けられた各集合を跨ったクラスタ間の関係を示した時系列表示データを生成することで、クラスタの変遷を俯瞰できるようにすることができる。

このように本実施形態によれば、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つ各クラスタの時系列的な関連を把握できるようにすることで、クラスタ間の経緯まで理解することができる。

以上、本発明の一実施形態について具体的に説明したが、本発明は当該実施形態に限定されるものではなく、それらにおける様々な変更および改変が、当業者によって、添付の特許請求の範囲に規定される本発明の範囲または趣旨から逸脱することなく実行され得ることが理解される。

上記実施形態では、表示データ生成部２８は時系列表示を、図５で示したように、クラスタを円で表現し、文献数を円の大きさで表現し、クラスタ間類似度をエッジの太さで表現したが、時系列表示の表現はこれに限られるものではなく、他の表現で示してもよい。

また、上記実施形態におけるクラスタ解析システム１では、集合を抽出する条件として時間情報を用いた条件とすることで集合を跨った各クラスタの時系列的な関連を把握できるようにしているが、集合を抽出する条件は時間情報に限られるものではない。例えば、医学文献であれば、対象とする疾患や医薬品の種類を条件に集合を抽出することで、疾患や医薬品に関するクラスタ間の関連性を可視化できる。又は、技術文献であれば、技術分野を条件に集合を抽出することで、特定の技術に関するクラスタ間の関連性を可視化できる。このように集合を抽出する条件に応じて、種々の集合におけるクラスタ間の関連を把握できるようにすることにより、異なる集合における対応するクラスタ間の関連を理解することができる。

１クラスタ解析システム
２文書ＤＢ
３情報端末
４サーバ
１０出力部
１１入力部
２０文書記憶部
２１集合抽出部
２２文書間類似度算出部
２３クラスタ分類部
２４指標算出部
２５ネットワーク記憶部
２６クラスタ間類似度算出部
２７クラスタ関連付け部
２８表示データ生成部

Claims

コンピュータが、複数の文書を、その内容に応じてクラスタに分類するクラスタ解析方法であって、
前記複数の文書から、第１の条件により第１の集合を抽出する第１の集合抽出ステップと、
前記第１の集合に含まれる一の文書の内容と、前記第１の集合に含まれる他の文書の内容との文書間類似度を算出する第１の文書間類似度算出ステップと、
前記第１の集合の中で、第１の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類する第１のクラスタ分類ステップと、
前記第１のクラスタ分類ステップにて分類されたクラスタにおける各文書の中心性を示す中心性指標を算出し、前記第１の集合に係るネットワーク情報を生成する第１の指標算出ステップと、
前記複数の文書から、前記第１の条件とは異なる第２の条件により第２の集合を抽出する第２の集合抽出ステップと、
前記第２の集合に含まれる一の文書の内容と、前記第２の集合に含まれる他の文書の内容との文書間類似度を算出する第２の文書間類似度算出ステップと、
前記第２の集合の中で、第２の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類を行う第２のクラスタ分類ステップと、
前記第２のクラスタ分類ステップにて分類されたクラスタにおける各文書の中心性を示す中心性指標を算出し、前記第２の集合に係るネットワーク情報を生成する第２の指標算出ステップと、
前記第１の指標算出にて生成された第１の集合に係るネットワーク情報のクラスタと、前記第２の指標算出ステップにて生成された第２の集合に係るネットワーク情報のクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出ステップと、
前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度に基づいて、前記第１の集合と第２の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップと、
を備えるクラスタ解析方法。
前記複数の文書には時間情報が紐づけられており、前記第１の条件及び前記第２の条件は前記時間情報を用いた条件が含まれる請求項１に記載のクラスタ解析方法。
前記クラスタ関連付けステップでは、前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度が所定の閾値以上のクラスタ同士を紐づける請求項１又は２記載のクラスタ解析方法。
さらに、前記クラスタ関連付けステップにて、関連付けられた各集合を跨ったクラスタ間の関係を示す表示データを生成する表示データ生成ステップを備える請求項１から３のいずれか一項に記載のクラスタ解析方法。
前記表示データ生成ステップでは、前記第１の集合のクラスタ及び前記第２の集合のクラスタを時系列順に並べ、前記第１の集合と第２の集合に跨って関連性のあるクラスタ同士を線で接続した前記表示データを生成する請求項４記載のクラスタ解析方法。
前記表示データ生成ステップでは、前記クラスタを円で表現し、クラスタに属する文書の数を円の大きさで表現し、前記クラスタ間類似度を前記線の太さで表現した前記表示データを生成する請求項５記載のクラスタ解析方法。
複数の文書を、その内容に応じてクラスタに分類するクラスタ解析システムであって、
前記複数の文書から、第１の条件により第１の集合を抽出し、且つ前記第１の条件とは異なる第２の条件により第２の集合を抽出する集合抽出部と、
前記第１の集合に含まれる一の文書の内容と、前記第１の集合に含まれる他の文書の内容との文書間類似度を算出し、且つ前記第２の集合に含まれる一の文書の内容と、前記第２の集合に含まれる他の文書の内容との文書間類似度を算出する文書間類似度算出部と、
前記第１の集合の中で、前記文書間類似度算出部により算出された文書間類似度に基づいて各文書について複数のクラスタに分類し、且つ前記第２の集合の中で、前記文書間類似度算出部により算出された類似度に基づいて各文書について複数のクラスタに分類を行うクラスタ分類部と、
前記第１の集合の中で分類されたクラスタにおける各文書の中心性を示す中心性指標を算出して前記第１の集合に係るネットワーク情報を生成し、前記第２の集合の中で分類されたクラスタにおける各文書の中心性を示す中心性指標を算出して前記第２の集合に係るネットワーク情報を生成する指標算出部と、
前記第１の集合に係るネットワーク情報のクラスタと、前記第２の集合に係るネットワーク情報のクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出部と、
前記クラスタ間類似度算出部で算出されたクラスタ間類似度に基づいて、記第１の集合と第２の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付け部と、
を備えるクラスタ解析システム。
コンピュータに、複数の文書を、その内容に応じてクラスタに分類させるクラスタ解析プログラムであって、
前記複数の文書から、第１の条件により第１の集合を抽出する第１の集合抽出ステップと、
前記第１の集合に含まれる一の文書の内容と、前記第１の集合に含まれる他の文書の内容との文書間類似度を算出する第１の文書間類似度算出ステップと、
前記第１の集合の中で、第１の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類する第１のクラスタ分類ステップと、
前記第１のクラスタ分類ステップにて分類されたクラスタにおける各文書の中心性を示す中心性指標を算出し、前記第１の集合に係るネットワーク情報を生成する第１の指標算出ステップと、
前記複数の文書から、前記第１の条件とは異なる第２の条件により第２の集合を抽出する第２の集合抽出ステップと、
前記第２の集合に含まれる一の文書の内容と、前記第２の集合に含まれる他の文書の内容との文書間類似度を算出する第２の文書間類似度算出ステップと、
前記第２の集合の中で、第２の類似度算出ステップにて算出された文書間類似度に基づいて各文書について複数のクラスタに分類を行う第２のクラスタ分類ステップと、
前記第２のクラスタ分類ステップにて分類されたクラスタにおける各文書の中心性を示す中心性指標を算出し、前記第２の集合に係るネットワーク情報を生成する第２の指標算出ステップと、
前記第１の指標算出ステップにて生成された第１のネットワーク情報におけるクラスタと、前記第２の指標算出ステップにて生成された第２のネットワーク情報におけるクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出ステップと、
前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度に基づいて、前記第１の集合と第２の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップと、
を実行させる解析プログラム。
コンピュータが、複数の文書を、その内容に応じてクラスタに分類するクラスタ解析方法であって、
前記複数の文書から抽出された第１の集合の中で分類されたクラスタにおける各文書の中心性を示す中心性指標を算出して前記第１の集合に係るネットワーク情報を生成し、前記複数の文書から抽出された第１の集合とは異なる第２の集合の中で分類されたクラスタにおける各文書の中心性を示す中心性指標を算出して前記第２の集合に係るネットワーク情報を生成する指標算出ステップと、
前記指標算出ステップにて生成された第１の集合に係るネットワーク情報のクラスタと、前記第２の集合に係るネットワーク情報のクラスタとの間のクラスタ間類似度を算出するクラスタ間類似度算出ステップと、
前記クラスタ間類似度算出ステップで算出されたクラスタ間類似度に基づいて、前記第１の集合と第２の集合に跨って関連のあるクラスタ同士を紐づけた関連付け情報を生成するクラスタ関連付けステップと、
を備えるクラスタ解析方法。