JP6852941B1 - クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム - Google Patents

クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム Download PDF

Info

Publication number
JP6852941B1
JP6852941B1 JP2020567619A JP2020567619A JP6852941B1 JP 6852941 B1 JP6852941 B1 JP 6852941B1 JP 2020567619 A JP2020567619 A JP 2020567619A JP 2020567619 A JP2020567619 A JP 2020567619A JP 6852941 B1 JP6852941 B1 JP 6852941B1
Authority
JP
Japan
Prior art keywords
document
index
display data
documents
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020567619A
Other languages
English (en)
Other versions
JPWO2020235468A1 (ja
Inventor
邦利 山▲崎▼
邦利 山▲崎▼
竜一 細谷
竜一 細谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AIXS, INC.
Original Assignee
AIXS, INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AIXS, INC. filed Critical AIXS, INC.
Priority to JP2021034140A priority Critical patent/JP7490241B2/ja
Application granted granted Critical
Publication of JP6852941B1 publication Critical patent/JP6852941B1/ja
Publication of JPWO2020235468A1 publication Critical patent/JPWO2020235468A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Generation (AREA)
  • Devices For Executing Special Programs (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

サーバ4が、一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップ(S2)と、算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書でクラスタ分けを行うクラスタ分類ステップ(S3)と、ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出ステップ(S4)と、ネットワークにおける第1の指標と異なる、文書の重要性を示す第2の指標を算出する第2の指標算出ステップ(S5)と、文書に関して、第1の指標に応じたノードのオブジェクトの大きさの表現、第2の指標に応じたオブジェクトの形状に対応した形状のゲージ及びゲージの長さの表現、クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現で、ネットワークを示す第1の表示データを生成する表示データ生成ステップと(S6)と、を実行する。

Description

本発明は、複数の文書をその内容に応じてクラスタに分類し、且つ文書の関連を示す表示データを生成するクラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラムに関する。
従来、多数の学術論文や文献等の文書を解析する場合、人が文書を読んで内容ごとに分類する、あるいは要約を作成していた。人による解析では、時間がかかる上、複数の人が解析を行う場合、作業者の経験や知識によって分類や要約作成の精度にばらつきが生じる傾向がある。
また、学術論文のように、複雑で専門性の高い文書は、内容を理解するために高度な専門知識を必要とする。しかし、そのような専門知識を持たない者でも最新の情報を容易に取得して理解し、活用したいという要請がある。
例えば、概念検索により検索された技術文献に対して形態素解析を行い、そこから得られた各単語にウェイトを付加して、各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスタにまとめるクラスタ解析方法が提案されている(例えば、「特許文献1」。)。
このような技術により、情報をクラスタに分類することは可能だが、文書間の関係やクラスタ間の関係等を理解するところまでは至っていない。
特開2005−92443号公報
本発明は、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つ文書間の関連を俯瞰できるようにすることで、より短時間で効率的に多数の文書の要旨を理解することができるクラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラムを提供することを目的とする。
すなわち、本発明は、コンピュータが、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成するクラスタ解析方法であって、一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書から構成されるクラスタに分類するクラスタ分類ステップと、前記ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出ステップと、前記ネットワークにおける前記第1の指標と異なる第2の指標を算出する第2の指標算出ステップと、文書に関して、前記第1の指標に応じたノードのオブジェクトの大きさの表現、前記第2の指標に応じた前記オブジェクトの形状に対応した形状のゲージ及び前記ゲージの長さの表現、前記クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現で、前記ネットワークを示す第1の表示データを生成する表示データ生成ステップと、を備えるクラスタ解析方法である。
また、本発明は、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成するクラスタ解析システムであって、一の文書の内容と他の文書の内容との類似度を算出する類似度算出部と、算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書をクラスタに分類するクラスタ分類部と、ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出部と、ネットワークにおける第1の指標と異なる、文書の重要性を示す第2の指標を算出する第2の指標算出部と、文書について、第1の指標に応じたノードのオブジェクトの大きさの表現、第2の指標に応じたオブジェクトの形状に対応した形状のゲージ及びゲージの長さの表現、クラスタの種類に応じた表現、文書間の類似度の大きさに応じた表現で、ネットワークを示す第1の表示データを生成する表示データ生成部と、を備えるクラスタ解析システムである。
また、本発明は、コンピュータに、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成させるクラスタ解析プログラムであって、一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書をクラスタに分類するクラスタ分類ステップと、ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出ステップと、
ネットワークにおける第1の指標と異なる第2の指標を算出する第2の指標算出ステップと、文書について、第1の指標に応じたノードのオブジェクト の大きさの表現、第2の指標に応じたオブジェクトの形状に対応した形状のゲージ及びゲージの長さの表現、クラスタの種類に応じた表現、文書間の類似度の大きさに応じた表現で、ネットワークを示す第1の表示データを生成する表示データ生成ステップと、
を実行させるクラスタ解析プログラムである。
本発明により、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つ文書間の関連を俯瞰できるようにすることで、より短時間で効率的に多数の文書(特に膨大な数の文書)の要旨を理解することが可能となる。
本発明の一実施形態に係るクラスタ解析システムの全体構成図である。 情報端末の出力部に表示されるクラスタ解析結果の表示例である。 第1の表示データの説明図である。 本発明の一実施形態におけるクラスタ解析システムのサーバで実行されるクラスタ解析制御ルーチンを示すフローチャートである。 本発明の一実施形態におけるクラスタ解析システムのサーバで実行されるクラスタ解析制御ルーチンを示すフローチャートである。
以下、本発明の一実施形態を図面に基づき説明する。
図1は本発明の一実施形態に係るクラスタ解析システムを示した全体構成図であり、同図に基づき本実施形態の構成について説明する。
図1に示すように、本実施形態に係るクラスタ解析システム1は、文書データベース2(以下、データベースを「DB」と表記する。)と、情報端末3と、サーバ4とが通信網Nを介して接続されている。通信網Nは、例えばインターネット、イントラネット、VPN(Virtual Private Network)等、であり、有線又は無線の通信手段を用いて、情報を双方向に伝達可能な通信網である。また図1では、説明の簡略化のため一つの文書DB2及び一つの情報端末3が、一つのサーバ4に接続されているが、サーバ4は、複数の文書DB及び複数の情報端末3と接続可能である。
文書DB2は、例えば、学術論文、特許文献、雑誌、書籍、新聞記事等の文書の情報を格納したデータベースであり、格納された文書を限定された又は非限定の者に公開している。本実施形態において、文書DB2は、医学文献の情報を格納した文書DBの例として説明する。しかしながら、本発明の文書DBに格納可能な文書の内容、分野、及び種類に制限はない。本実施形態において、医学文献の情報には、著者名や出版年、著者の所属機関等の書誌的事項、論文の題目、要旨及び本文等の論文の内容的事項、引用・被引用の件数や文献名等の引用・被引用情報、文献が掲載された学会名、雑誌名、又は出版社名等の掲載情報等が含まれる。
本明細書において、「文書」(a document)は、「文章」(sentences)から構成され、「文章」は、二以上の「文」(a sentence)から構成され、そして「文」は、二以上の「単語」(a word)から構成される。本明細書において、「要旨」(abstract)は、一の文書の冒頭や末尾に予め配置された、その文書の概要や特徴を表現した文章である。本明細書において、「要約」又は「要約文」(いずれもsummary)は、ある対象から抽出した、その対象の概要や特徴を表現する一以上の文である。ここで、対象は、文章、文書、又はクラスタでありうる。
また、文書DB2は、通信網Nを介してアクセス可能なネットワーク上のウェブサイトであってよく、文書記憶部20はアクセス可能なウェブサイトに記載されているテキストを文書として取得することもできる。
ウェブサイトを文書として取得する場合には、所定の件数を上限としてウェブ検索エンジンによる検索結果を取得することができる。例えば所定の検索問い合わせに対して上位500件のウェブサイトを取得することができる。
情報端末3は、例えばパーソナルコンピュータ(以下、「PC」という。)や、スマートフォン、タブレットPC、及び携帯電話のような携帯端末であり、出力部10、及び入力部11を有している。
出力部10は、例えばディスプレイやプリンタのような装置であり、サーバ4で生成された表示データを視認可能に表示することができる。
入力部11は、例えばキーボードやマウスのような装置であり、情報の入力や操作が可能である。出力部10と入力部11は、一体となって、例えばタッチパネルを構成してもよい。
情報端末3を使用する者(ユーザ)は、サーバ4で生成された表示データを出力部10にて確認可能であるとともに、入力部11を介してサーバ4に各種指示を出すことが可能である。
サーバ4は、複数の文書に対して、文書の内容に応じてクラスタに分類(クラスタ分け)し、且つ各文書の関連を示す表示データを生成する1又は複数のサーバ(コンピュータ)から構成されている。サーバ4は各種演算部及び記憶部を有しており、例えば文書記憶部20、類似度算出部21、クラスタ分類部22、第1の指標算出部23、第2の指標算出部24、表示データ統合部25(表示データ生成部)、学習システム26を有している。
詳しくは、文書記憶部20は、通信網Nを介して文書DB2と接続され、文書DB2から必要な文書の情報を取得して格納する記憶部である。例えば本実施形態では、医学文献を文書DB2から取得して格納している。また文書記憶部20は検索機能を有しており、格納されている文書から特定のキーワードを含む文書を抽出すること、又は日付により特定した文書を抽出することにより、クラスタに分類する文書の母集団を取得することが可能である。文書記憶部20は、文書DB2で文書の追加や削除等の更新が行われると、これに同期して自動的に文書記憶部20内の文書の更新を行う機能も有している。
類似度算出部21は、文書記憶部20に格納された文書又は生成された文書の母集団について一の文書の内容と他の文書の内容との類似度を算出する機能を有している。類似度の算出には、例えばTF−IDFやコサイン類似度を用いることができる。つまり、類似度算出部21は、各文書の内容について使用されている単語を抽出し、各単語に対して文書内での出現頻度(TF:Term Frequency)と、他の文書で使用されている単語に対する希少性(IDF:Inverse Document Frequency)の積から単語の重み付けを行い、文書のベクトル化を行う。そして、類似度算出部21は、ベクトル化された文書間のコサイン(cos)の値を当該文書間の類似度の値として算出する。例えば第1の文書と第2の文書との類似度は0.856、第1の文書と第3の文書との類似度は0.732というように類似度は0から1の間の値で表され、1に近いほど類似した文書であることを示す。
クラスタ分類部22は、類似度算出部21にて算出された類似度に基づいて各文書を含めて線(以下、「エッジ」という。)で結んだネットワークを生成し、類似する文書でクラスタに分類する。クラスタ分けのアルゴリズムは特に限定されないが、例えばエッジを切り離しても、ノード同士の接続性が極力保たれるようなクラスタを反復的な計算で特定するアルゴリズム(いわゆるGirvan−Newmanアルゴリズム)を用いることができる。
第1の指標算出部23は、クラスタ分類部22にて生成されたネットワークにおける各文書の中心性を示す第1の指標を算出する機能を有している。中心性を算出するアルゴリズムは特に限定されないが、例えば固有ベクトル中心性、PageRank、及び媒介中心性、次数中心性等を用いることができる。本実施形態では、固有ベクトル中心性を用いる。固有ベクトル中心性は、ネットワーク上における一つの文書(以下、「ノード」という。)に関して、当該ネットワーク中の任意のノードから出発して、エッジをたどることを繰り返した場合に、当該ノードを通る確率で示される。
第2の指標算出部24は、文書記憶部20から、各文書について、第1の指標と異なる第2の指標を算出する機能を有している。第2の指標は例えば、引用・被引用情報に基づく被引用件数や、掲載情報に基づく文書が掲載された学会等のランク等に応じて算出される、いわゆるインパクトファクタである。このように、第2の指標は、ネットワークとは関係なく文書の絶対的な重要性を示す指標であってよく、例えばインパクトファクタは、クラリベイト社のウェブサイト(https://clarivate.jp/products/journal-citation-reports/impact-factor/)に掲載された説明によれば、文書が掲載されたジャーナル(学術雑誌)の影響度を数値化して評価するために、そのジャーナルが掲載したすべて論文の被引用回数の合計値(=論文群の総影響度)を、論文の掲載本数で割って算出したものである。なお、第2の指標は、その文書が示す重要性について個別に付与されるものであってよく、例えば文書の引用情報に基づき算出されたものであってよい。
第2の指標を算出するための引用情報は、文書に含まれている情報を参照して取得することができる。また、文書が掲載された学術雑誌の情報をもとに、インパクトファクタのような既知の指標を別の情報源から入手してもよい。
また、文書が学術論文ではなくウェブサイトである場合には、第2の指標としてウェブサイトへのアクセス数などを文書の重要性をあらわす指標として、用いることができる。
表示データ統合部25は、各文書に関する各種の表示データを生成する機能を有しており、表示データに応じて第1の表示データ生成部25a、第2の表示データ生成部25b、及び第3の表示データ生成部25cを有している。
図2は、情報端末の出力部に表示されるクラスタ解析結果の表示例である。同図に示すように、第1の範囲Aに示される表示データが第1の表示データであり、第2の範囲Bに示される表示データが第2の表示データであり、及び第3の範囲Cに示される表示データが第3の表示データである。
第1の表示データ生成部25aは、各文書について、第1の指標に応じた表現、第2の指標に応じた表現、クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現により、前記ネットワークを示す第1の表示データを生成する機能を有している。
具体的には、図3に示すように、第1の表示データ生成部25aは、ネットワーク上の一つの文書(以下、「ノード」という。)を一つの円で示し、第1の指標を円の大きさで表現し、クラスタの種類を色で表現し、類似度の大きさをエッジの太さで表現する。また、第1の表示データ生成部25aは、第2の指標を円弧の長さで表現する。
なお、ノードは一の文書のみを包含するものに限らず複数の文書が包含されるノードであってもよい。例えば、一つのノードは類似度の高い複数の文書同士が併合されたノードであってもよい。
なお、ノードの形状をあらわすオブジェクトは円に限らず、例えば三角形、四角形、五角形などの多角形、楕円など円に準じた形状、ハート型、星型などマークとしてよく利用される形状であってもよい。第1の指標の大きさをオブジェクトの大きさで表現してもよい。
第2の指標の大きさは、ノードをあらわすオブジェクトの外側に配置されるゲージ、及びゲージの長さによって表現されていてよい。好ましくは、オブジェクト形状に対応したゲージ、ゲージの長さによって第2の指標の大きさをあらわすことができる。例えばノードをあらわすオブジェクトが円である場合には、円の形状に対応したゲージの形状は円弧であり、ゲージは上記のように円弧の長さで第2の指標をあらわすことができる。この場合におけるゲージである円弧の長さは、例えばネットワーク中におけるノードのうち第2の指標の最大値を有するノードを基準として、最大値であるノードの第2の指標のゲージの表現が円であるようにし、それより第2の指標が小さいノードのゲージの表現が第2の指標の大きさに応じた円弧の長さであるように表現することができる。
図3には、10のノード30aから30j(以下、まとめて「ノード30」とも称する。)が表示されており、左上の4つのノード30aから30dが第1のクラスタに所属し、右下の6つのノード30eから30jが第2のクラスタに所属している。なお、第1のクラスタと第2のクラスタは、第1の範囲Aにおいては異なる色で示されるが、図3では色の違いをハッチングの違いで示している。
ノード30の大きさは中心性の大きさを示しており、図3においてはノード30a、ノード30eが他のノードより大きく、中心性のより高い文書であることが分かる。またノード30には、同心の円弧31の長さにより第2の指標(例えばインパクトファクタ)が示されている。したがって図3においては、ノード30aの円弧31a、ノード30gの円弧31gが比較的長い円弧であるため、インパクトファクタがより大きい文書であることがわかる。
また、ノード30を結ぶエッジ32の太さが当該エッジ32で結ばれている文書間の類似度の大きさを示している。したがって図3においては、ノード30aとノード30cとの間や、ノード30eとノード30hとの間のエッジ32が比較的太いため、これらのノード間の類似度がより高いことが分かる。
さらに、第1の表示データ生成部25aは、ネットワークの拡大表示及び縮小表示が可能であって、当該拡大表示及び縮小表示に応じて、表示するエッジの数を増減して、第1の表示データを生成する。例えば、第1の表示データ生成部25aは、縮小表示するほど値が高くなる閾値を設定し、類似度が当該閾値以上のエッジのみを表示する。これにより、ネットワークを縮小表示させるほど、表示されるノードの数は増えるのに対して、一つのノードに接続されるエッジの表示数が減少する。
また、ネットワークの拡大表示及び縮小表示の際に、類似度が高く隣接する複数のノードを併合して表示してもよい。これにより、ネットワークを縮小表示させてもノードの数を増やさずに表示することができる。
また、第1の表示データ生成部25aは、各ノードの位置、及び間隔、即ちエッジの長さを力学モデルによる描画アルゴリズムを用いて決定している。例えば、第1の表示データ生成部25aは、多くのエッジが接続されているノードと、当該ノードと直接接続されているノードには引力を働かせ、近くにまとまった島を形成するよう描画する。一方、島同士には反発力を生じさせて、互いに遠ざかった位置に配置されるよう描画する。このような力学モデルを用いて各ノードの位置、及び間隔を決定することで、各ノードが重複することなく適度な間隔で配置する。
さらに、第1の表示データ生成部25aは、図2の第4の範囲aに示すように、凡例として、各クラスタの色と、当該クラスタの要約文を表示する。具体的には、第1の表示データ生成部25aは、例えば同一クラスタ内の文書について、医学文献における各項目(研究の位置づけ、研究の背景、先行研究の課題、研究の目的、研究の貢献、研究の意義等)を構成する文章に分解し、一の又は複数の特定の項目(研究の目的、研究の意義)を構成する文章を要約要素として抽出する。そして、第1の表示データ生成部25aは、抽出した要約要素に基づいて要約文を作成する。この各文書を各項目に分解する処理は、各文書を各項目に分解する処理を機械学習したAIを用いてもよい。また、要約要素に基づいて要約文を作成する処理は、要約要素に基づいて要約文を作成するAIを用いてもよい。
また、文書がウェブサイトである場合には、ウェブサイトに掲載されているテキストに基づいて要約文を作成してもよい。ウェブサイトは複数の文書の集合体である場合もあるので、複数の文書から構成された一つのウェブサイトをまとまりのある一つのノードとしてもよい。
第2の表示データ生成部25bは、一のクラスタに属する文書の題目、要旨、本文の少なくとも一つに含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じた大きさで当該単語を表示する第2の表示データを生成する機能を有している。具体的には、図2の第2の範囲Bに示すように、円形の枠内に、第1の範囲Aにて指定した一のクラスタ内で頻出している単語ほど大きなフォントで表現されている。例えば図2では、「clinical」という文字が最も大きく示され、続いて「Vedolizumab」、「infliximab」、「remission」、「endoscopic」、「Cohort」が大きく示されている。それぞれの単語は、他の単語と重ならないように、横方向や縦方向等、あらゆる位置関係で配置されうる。
第3の表示データ生成部25cは、一のクラスタに属する文書の前記題目、要旨、本文の少なくとも一つに含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じて順番に当該単語を表示する第3の表示データを生成する機能を有している。つまり、第3の表示データ生成部25cは、第2の表示データ生成部25bにおいても抽出した指定された一のクラスタ内で頻出する単語を、出現頻度に応じて表示(いわゆるランキング表示)する。例えば図2では、「clinical」を最上位に配置し、続いてその下に「Vedolizumab」、「infliximab」、「remission」、「endoscopic」、「Cohort」を配置する。さらに、第3の表示データ生成部25cは、「clinical 100%」、「Vedolizumab 88%」のように、指定したクラスタ内の文書における単語の使用率も表示データに含むことが可能である。
また、類似度算出部21、及びクラスタ分類部22は、抽出した出現頻度の高い単語等の特定の単語が含まれる文書を解析から除外し、再度解析した分析結果を出力し、第1の表示データ、第2の表示データ、第3の表示データに反映させる機能を有する。
また、類似度算出部21、及びクラスタ分類部22は、抽出した出現頻度の高い単語等の、特定の単語が含まれる文書を示すノードについて、第1の表示データで示すネットワーク上で強調表示する機能を有する。
ノードの強調方法としては、ノードの色彩を変化させたり、視覚効果を加えたりするなど、種々の方法により、選択された単語が含まれていることを表示することができる。
表示データ統合部25は、これら第1の表示データ生成部25a、第2の表示データ生成部25b、第3の表示データ生成部25cにて生成した各表示データを図2に示すような一画面に統合した表示データを生成して、サーバ4と通信網Nを介して接続された情報端末3に送信する。
学習システム26は、上述した第1の表示データ生成部25aにおける各文書を各項目に分解するAI、要約要素に基づいて要約文を作成するAIを供給する機能を有している。詳しくは、学習システム26は、予め各項目が判明している文書のデータを学習用データ(教師データ)として機械学習(例えばディープラーニングやニューラルネットワーク)させることで、文書を、その構成要素である項目に分解するAI(学習済みモデル)を生成する。予め要約要素を用いた要約文を学習用データとして機械学習(例えばディープラーニングやニューラルネットワーク)させることで、要約要素に基づいて要約文を作成するAI(学習済みモデル)を生成する。
このように構成されたクラスタ解析システム1では、例えばユーザが情報端末3の入力部11を介してサーバ4に対して特定の疾患名等の情報を入力すると、サーバ4から入力情報に応じた図2で示したような各表示データを情報端末3の出力部10に出力する。
図4は、クラスタ解析システム1のサーバ4で実行されるクラスタ解析制御ルーチンのフローチャートを示す。以下同フローチャートに沿って、本実施形態のクラスタ解析方法について詳しく説明する。
サーバ4は、情報端末3から特定の疾患名等の入力情報を受信すると、ステップS1として、文書記憶部20から当該入力情報に対応する文書の母集団を取得する。
続くステップS2では、類似度算出部21が母集団を構成する文書間の類似度を算出する。
また、ステップS3では、クラスタ分類部22が、ステップS2で算出された類似度に基づいて文書間のネットワークを生成し、類似する文書の集合がクラスタを構成するように分類する。
ステップS4では、第1の指標算出部23が、ステップS3で生成されたネットワークにおける文書の中心性を示す第1の指標を算出する。
ステップS5では、第2の指標算出部24が、第2の指標を算出する。第2の指標は、例えばジャーナルのインパクトファクタである。
ステップS6では、第1の表示データ生成部25aが第1の表示データを、第2の表示データ生成部25bが第2の表示データを、第3の表示データ生成部25cが第3の表示データを、それぞれ生成し、表示データ統合部25がこれらの各表示データを統合した表示データを生成する。そして、表示データ統合部25は統合した表示データを、情報端末3に送信して、当該ルーチンを終了する。
図5は、特定の単語を除外して再解析を行う場合の、クラスタ解析システム1のサーバ4で実行されるクラスタ解析制御ルーチンのフローチャートを示す。なお、上記と同様のフローについては説明を省略する。
サーバ4は、ステップS9として、情報端末3の出力部10等に第3の表示データに含まれる出現頻度の高い単語等の、文書の母集団から除外すべき文書が含む単語の候補を表示する。
ステップS10として、ユーザは情報端末3の入力部11等を用いて、除外すべき単語を入力、又は選択する。サーバ4は、単語の入力、又は選択を受け付ける。
ステップS11として、ステップS10で除外すべき単語が選択されると、除外すべき単語を含む文書を除いた文書の母集団を取得する。これ以降のステップS12〜S16の処理の流れは、上記で説明したステップS2〜S6の処理の流れと同様であるから説明を省略する。
以上のように、本実施形態におけるクラスタ解析システム1では、文書の内容に対する自然言語処理のみによる文書間の類似度に基づいてネットワークを形成し、類似する文書のクラスタを形成し、中心性を示す第1の指標に応じた表現と、クラスタの種類に応じた表現と、類似度の大きさに応じた表現とにより、当該ネットワークを示す第1の表示データを生成することによって、各文書の情報から、文書間の関連性までを一つの表示として把握することができる。すなわち、本実施形態の第1の表示データのネットワークは、文書の引用・被引用情報を用いることなく、これら情報を除く、文書の内容のみに基づいて形成されているため、文書の内容の類似度に応じたクラスタを形成することができる。
さらに、第1の表示データに、文書の内容に基づく第1の指標とは異なるインパクトファクタ等の第2の指標を併せて示すことで、容易に且つ多面的に、文書の位置づけや重要性を把握することができる。
また、第1の表示データでは、第1の指標を、文書を示すノードのオブジェクトの大きさで表現し、第2の指標をオブジェクトの形状に応じた形状のゲージ、及びゲージの長さに応じて表現することで、文書の中心性と重要性を同時に直感的に把握することができる。
また、文書に含まれる出願頻度の高い単語の中から指定された単語を含む文書を解析の対象から除外し、再度解析を行うことで、出現頻度が高くても関心の低い文書を除外して、より関心の高い文書を抽出して把握することができる。
また、文書に含まれる出願頻度の高い単語から指定された単語を含む文書を示すノードについてネットワーク中で強調表示することにより、関心のある単語を含む文書がネットワーク上でどこに位置するか把握することができる。
また、第1の表示データでは、ネットワーク上での各文書の配置を、複数の文書が重って示されないよう力学モデルを用いて決定することで、視認性を向上させることができる。
さらに、第1の表示データでは、ネットワークの拡大表示及び縮小表示が可能であって、当該拡大表示及び縮小表示に応じて、表示するエッジの数を増減している。これにより、ネットワークの拡大表示及び縮小表示に応じて、エッジが煩雑に表示されることを避け、閲覧性を向上させることができる。また、これにより、ネットワークの拡大表示及び縮小表示に応じて、情報量が最適化されることから、サーバ4の処理の負担軽減及び情報端末3への情報量の削減ができ、スムーズな表示変更を行うことができる。
また、クラスタに属する文書に含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じた大きさで当該単語を表示する第2の表示データや、当該出現頻度に応じて順番に当該単語を表示する第3の表示データを第1の表示データとともに生成することで、各クラスタの内容をより容易に把握することができる。特に、第2の表示データ及び第3の表示データでは、文書の少なくとも題目、要旨、本文の一つを対象として出現頻度を抽出することで、例えば題目と要旨のみしか取得できない文書、あるいは題目や要旨がなく本文のみの文書であっても出現頻度を抽出することができ、クラスタを表すのにより適切な単語を抽出することができる。
このように本実施形態によれば、多数の文書、特に膨大な数の文書を、類似する文書から構成されるクラスタに分類し、且つ文書間の関連を俯瞰できるようにすることで、より短時間で効率的に多数の文書の要旨を理解することができる。
以上、本発明の一実施形態について具体的に説明したが、本発明は当該実施形態に限定されるものではなく、それらにおける様々な変更及び改変が、当業者によって、添付の特許請求の範囲に規定される本発明の範囲又は趣旨から逸脱することなく実行され得ることが理解される。
上記実施形態では、第1の表示データ生成部25aは、図3で示したように、第1の指標を円の大きさで表現し、第2の指標を円弧の長さで表現した。第1の指標及び第2の指標の表現はこれに限られるものではなく、例えば、一の色で示した第1の指標を内側に、他の色で示した第2の指標を外側に配置した、二重の同心円として示すこともできる。
また、上記実施形態では、類似度の算出にTF−IDFとコサイン類似度を、クラスタ分けのアルゴリズムとしてGirvan−Newmanアルゴリズムを、及び中心性を算出するアルゴリズムとして固有ベクトル中心性を用いている。類似度、クラスタ分け、及び中心性のそれぞれの算出手法は、これらのアルゴリズムに限られるものではなく、例えば、それぞれ他のアルゴリズムを用いてもよいし、類似度、クラスタ分け、及び中心性をまとめて、1つのアルゴリズムを用いて処理してもよい。
1 クラスタ解析システム
2 文書DB
3 情報端末
4 サーバ
10 出力部
11 入力部
20 文書記憶部
21 類似度算出部
22 クラスタ分類部
23 第1の指標算出部
24 第2の指標算出部
25 表示データ統合部(表示データ生成部)
25a 第1の表示データ生成部
25b 第2の表示データ生成部
25c 第3の表示データ生成部
26 学習システム
30(30a〜30j) ノード
31(31a〜31j) 円弧
N 通信網
A 第1の範囲
B 第2の範囲
C 第3の範囲
a 第4の範囲

Claims (15)

  1. コンピュータが、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成するクラスタ解析方法であって、
    一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、
    算出された類似度に基づいて文書又はクラスタをノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書から構成されるクラスタに分類するクラスタ分類ステップと、
    前記ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出ステップと、
    前記ネットワークにおける前記第1の指標と異なる、文書の重要性を示す第2の指標を算出する第2の指標算出ステップと、
    文書に関して、前記第1の指標に応じたノードのオブジェクトの大きさの表現、前記第2の指標に応じた前記オブジェクトの形状に対応した形状のゲージ及び前記ゲージの長さの表現、前記クラスタの種類に応じた表現、及び文書間の類似度の大きさに応じた表現で、前記ネットワークを示す第1の表示データを生成する表示データ生成ステップと、
    を備えるクラスタ解析方法。
  2. 前記表示データ生成ステップでは、第1の指標のオブジェクトを円で表現し、前記第2の指標のゲージを前記第1の指標の円と同心の円弧、及び前記円弧の長さで表現する表示データを生成する請求項1記載のクラスタ解析方法。
  3. 前記文書は、その構成要素として、題目、要旨、及び本文の少なくとも一つを有し、
    前記表示データ生成ステップは、さらに、一のクラスタに属する文書の題目、要旨、及び本文の少なくとも一つに含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じた大きさで当該単語を表示する第2の表示データを生成する請求項1又は2記載のクラスタ解析方法。
  4. 前記文書は、その構成要素として、題目、要旨、及び本文の少なくとも一つを有し、
    前記表示データ生成ステップは、さらに、一のクラスタに属する文書の題目、要旨、及び本文の少なくとも一つに含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じて順番に当該単語を表示する第3の表示データを生成する請求項1から3のいずれか一項に記載のクラスタ解析方法。
  5. 前記文書は、学術雑誌に掲載された文書であり、前記第2の指標は、前記文書の引用に応じて算出されたものである、請求項1から4のいずれか一項に記載のクラスタ解析方法。
  6. 前記文書は、ウェブ検索により所定の件数を上限として取得されたウェブサイトに記載の文書である、請求項1から4のいずれか一項に記載のクラスタ解析方法。
  7. 前記第2の指標は、前記ウェブサイトへのアクセス数に応じて算出されたものである、請求項6に記載のクラスタ解析方法。
  8. 前記文書に含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じた大きさで当該単語を表示する第2の表示データを生成する請求項6又は7記載のクラスタ解析方法。
  9. 前記文書に含まれる出現頻度の高い単語を抽出し、当該出現頻度に応じて順番に当該単語を表示する第3の表示データを生成する請求項6から8のいずれか一項に記載のクラスタ解析方法。
  10. 前記文書に含まれる出願頻度の高い単語の中から指定された単語を含む文書を解析の対象から除外し、再度解析を行うステップをさらに備える請求項1から9のいずれか一項に記載のクラスタ解析方法。
  11. 前記文書に含まれる出願頻度の高い単語の中から指定された単語を含む文書又はクラスタを示すノードについてネットワーク中で強調表示する第1の表示データを生成するステップをさらに備える請求項1から9のいずれか一項に記載のクラスタ解析方法。
  12. 前記表示データ生成ステップは、前記ネットワーク上での文書の配置を、複数の文書が重って表示されないように、力学モデルを用いて決定する請求項1から4のいずれか一項に記載のクラスタ解析方法。
  13. 前記表示データ生成ステップは、前記文書間の類似度の大きさに応じた表現を、文書と文書を結ぶ線の太さで表現し、且つ前記ネットワークを拡大及び縮小して表示することが可能であり、当該拡大及び縮小表示に応じて、前記線の表示数を増減して、前記第1の表示データを生成する請求項1から5のいずれか一項に記載のクラスタ解析方法。
  14. 複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成するクラスタ解析システムであって、
    一の文書の内容と他の文書の内容との類似度を算出する類似度算出部と、
    算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書をクラスタに分類するクラスタ分類部と、
    前記ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出部と、
    前記ネットワークにおける前記第1の指標と異なる、文書の重要性を示す第2の指標を算出する第2の指標算出部と、
    文書について、前記第1の指標に応じたノードのオブジェクトの大きさの表現、前記第2の指標に応じた前記オブジェクトの形状に対応した形状のゲージ及び前記ゲージの長さの表現、前記クラスタの種類に応じた表現、文書間の類似度の大きさに応じた表現で、前記ネットワークを示す第1の表示データを生成する表示データ生成部と、
    を備えるクラスタ解析システム。
  15. コンピュータに、複数の文書を、その内容に応じてクラスタに分類し、且つ文書間の関連を示す表示データを生成させるクラスタ解析プログラムであって、
    一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、
    算出された類似度に基づいて文書をノードとし、類似するノード間をエッジで結んだネットワークを生成し、類似する文書をクラスタに分類するクラスタ分類ステップと、
    前記ネットワークにおける文書の中心性を示す第1の指標を算出する第1の指標算出ステップと、
    前記ネットワークにおける前記第1の指標と異なる第2の指標を算出する第2の指標算出ステップと、
    文書について、前記第1の指標に応じたノードのオブジェクト の大きさの表現、前記第2の指標に応じた前記オブジェクトの形状に対応した形状のゲージ及び前記ゲージの長さの表現、前記クラスタの種類に応じた表現、文書間の類似度の大きさに応じた表現で、前記ネットワークを示す第1の表示データを生成する表示データ生成ステップと、
    を実行させるクラスタ解析プログラム。
JP2020567619A 2019-05-17 2020-05-15 クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム Active JP6852941B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021034140A JP7490241B2 (ja) 2019-05-17 2021-03-04 クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019019715 2019-05-17
JPPCT/JP2019/019715 2019-05-17
PCT/JP2020/019406 WO2020235468A1 (ja) 2019-05-17 2020-05-15 クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021034140A Division JP7490241B2 (ja) 2019-05-17 2021-03-04 クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Publications (2)

Publication Number Publication Date
JP6852941B1 true JP6852941B1 (ja) 2021-03-31
JPWO2020235468A1 JPWO2020235468A1 (ja) 2021-06-10

Family

ID=73459424

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020567619A Active JP6852941B1 (ja) 2019-05-17 2020-05-15 クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
JP2021034140A Active JP7490241B2 (ja) 2019-05-17 2021-03-04 クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021034140A Active JP7490241B2 (ja) 2019-05-17 2021-03-04 クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Country Status (6)

Country Link
US (2) US11636144B2 (ja)
EP (1) EP3882786A4 (ja)
JP (2) JP6852941B1 (ja)
CN (2) CN113015971B (ja)
TW (2) TWI806069B (ja)
WO (1) WO2020235468A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667810B (zh) * 2020-12-25 2024-07-23 平安科技(深圳)有限公司 文献聚类、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129593A (ja) * 1993-09-08 1995-05-19 Toshiba Corp テキスト選定装置
JP2008052494A (ja) * 2006-08-24 2008-03-06 Sony Corp ネットワーク分析支援装置および方法、プログラム並びに記録媒体
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2009093564A (ja) * 2007-10-11 2009-04-30 Fuji Xerox Co Ltd 文書抽出装置および文書抽出プログラム
JP2014191757A (ja) * 2013-03-28 2014-10-06 Fujitsu Ltd 情報処理方法、装置及びプログラム
JP2018018118A (ja) * 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US6298174B1 (en) * 1996-08-12 2001-10-02 Battelle Memorial Institute Three-dimensional display of document set
US6154213A (en) * 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US6256648B1 (en) * 1998-01-29 2001-07-03 At&T Corp. System and method for selecting and displaying hyperlinked information resources
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
JP4025443B2 (ja) 1998-12-04 2007-12-19 富士通株式会社 文書データ提供装置及び文書データ提供方法
JP4128431B2 (ja) 2002-11-27 2008-07-30 富士通株式会社 有向グラフ解析方法、解析装置及びそのプログラム
GB2403636A (en) 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
JP2005092443A (ja) 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc クラスター分析装置およびクラスター分析方法
CN101084496B (zh) * 2004-05-04 2012-11-21 波士顿咨询集团公司 用于选择、分析以及将相关数据库记录可视化为网络的方法
US7356777B2 (en) * 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US20090169110A1 (en) * 2005-04-20 2009-07-02 Hiroaki Masuyama Index term extraction device and document characteristic analysis device for document to be surveyed
US20060242190A1 (en) * 2005-04-26 2006-10-26 Content Analyst Comapny, Llc Latent semantic taxonomy generation
US7475072B1 (en) * 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
NO323257B1 (no) * 2005-10-28 2007-02-19 Telenor Asa Fremgangsmater for a analysere strukturen av et nettverk
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
US8122026B1 (en) * 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
WO2009018223A1 (en) * 2007-07-27 2009-02-05 Sparkip, Inc. System and methods for clustering large database of documents
US9384186B2 (en) * 2008-05-20 2016-07-05 Aol Inc. Monitoring conversations to identify topics of interest
US8224848B2 (en) * 2009-03-16 2012-07-17 Guidance Software, Inc. System and method for entropy-based near-match analysis
US8396870B2 (en) * 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US8713018B2 (en) * 2009-07-28 2014-04-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
US10324598B2 (en) * 2009-12-18 2019-06-18 Graphika, Inc. System and method for a search engine content filter
JP5533091B2 (ja) * 2010-03-18 2014-06-25 株式会社リコー 座標平面におけるデータ点分布領域の識別方法及びその識別プログラム
US8359279B2 (en) * 2010-05-26 2013-01-22 Microsoft Corporation Assisted clustering
GB2486490A (en) * 2010-12-17 2012-06-20 Royal Holloway & Bedford New College Method for structuring a network
JP5813052B2 (ja) 2013-05-14 2015-11-17 Necパーソナルコンピュータ株式会社 情報処理装置、方法及びプログラム
US20150066933A1 (en) * 2013-09-03 2015-03-05 String Enterprises, Inc. Computer-implemented methods and systems for generating visual representations of complex and voluminous marketing and sales and other data
WO2016133529A1 (en) * 2015-02-20 2016-08-25 Hewlett-Packard Development Company, L.P. Citation explanations
WO2016157467A1 (ja) * 2015-03-31 2016-10-06 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
JP6524790B2 (ja) * 2015-05-14 2019-06-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN105589948B (zh) * 2015-12-18 2018-10-12 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
WO2017214266A1 (en) * 2016-06-07 2017-12-14 Panoramix Solutions Systems and methods for identifying and classifying text
US9836183B1 (en) * 2016-09-14 2017-12-05 Quid, Inc. Summarized network graph for semantic similarity graphs of large corpora
US9911211B1 (en) * 2017-04-13 2018-03-06 Quid, Inc. Lens-based user-interface for visualizations of graphs
US10956790B1 (en) * 2018-05-29 2021-03-23 Indico Graphical user interface tool for dataset analysis
CA3046020A1 (en) * 2018-06-14 2019-12-14 Zero31Skytech Inc. Apparatus, system and method to limit access to open networks by requiring the consensus of pre-existing nodes to admit candidate nodes
CN109376236B (zh) * 2018-07-27 2021-10-26 中山大学 一种基于聚类分析的学术论文作者权重分析方法
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
CN109376238B (zh) * 2018-09-14 2021-01-05 大连理工大学 一种基于参考文献列表重叠度的论文相关度量化方法
US11113327B2 (en) * 2019-02-13 2021-09-07 Optum Technology, Inc. Document indexing, searching, and ranking with semantic intelligence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129593A (ja) * 1993-09-08 1995-05-19 Toshiba Corp テキスト選定装置
JP2008052494A (ja) * 2006-08-24 2008-03-06 Sony Corp ネットワーク分析支援装置および方法、プログラム並びに記録媒体
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2009093564A (ja) * 2007-10-11 2009-04-30 Fuji Xerox Co Ltd 文書抽出装置および文書抽出プログラム
JP2014191757A (ja) * 2013-03-28 2014-10-06 Fujitsu Ltd 情報処理方法、装置及びプログラム
JP2018018118A (ja) * 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Also Published As

Publication number Publication date
JP7490241B2 (ja) 2024-05-27
CN113015971B (zh) 2022-06-07
US20220043851A1 (en) 2022-02-10
TW202139053A (zh) 2021-10-16
TW202044101A (zh) 2020-12-01
US20230119422A1 (en) 2023-04-20
CN114911935A (zh) 2022-08-16
CN113015971A (zh) 2021-06-22
EP3882786A1 (en) 2021-09-22
WO2020235468A1 (ja) 2020-11-26
JP2021099847A (ja) 2021-07-01
TWI806069B (zh) 2023-06-21
TWI733453B (zh) 2021-07-11
US11636144B2 (en) 2023-04-25
EP3882786A4 (en) 2022-03-23
JPWO2020235468A1 (ja) 2021-06-10

Similar Documents

Publication Publication Date Title
JP6646184B2 (ja) 検索用資料情報記憶装置
CN107704996B (zh) 一种基于情感分析的教师评价系统
JP6555704B1 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
Roth et al. Is the future a political economy? Functional analysis of three leading foresight and futures studies journals
JP2024041946A (ja) クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
US20230119422A1 (en) Cluster analysis method, cluster analysis system, and cluster analysis program
US20240111943A1 (en) Summary creation method, summary creation system, and summary creation program
Ohge et al. Introduction: Computation and Digital Text Analysis at Melville's Marginalia Online
Lipphardt et al. Visibility matters: Diagrammatic renderings of human evolution and diversity in physical, serological and molecular anthropology
JP7549977B2 (ja) テキストマイニング装置およびテキストマイニング方法
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
Narynov et al. Machine learning approach to identifying depression related posts on social media
JP7431379B1 (ja) データ処理装置及びデータ処理方法
van Hoek et al. Assessing visualization techniques for the search process in digital libraries
Yan et al. An Intelligent Visualization Method for Classic and Famous Prescriptions Based on Big Data
Alghazal Talent Acquisition Process Optimization Using Machine Learning in Resumes’ Ranking and Matching to Job Descriptions
Şahin Real-Time Live Insult Analysis on Twitter-X Social Media Platform
JP2020173759A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
Katarzyna et al. Sentiment analysis of opinions about hotels extracted from the Internet

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201203

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201203

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210304

R150 Certificate of patent or registration of utility model

Ref document number: 6852941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250