JP2023162306A - 要約作成方法、要約作成システム、及び要約作成プログラム - Google Patents
要約作成方法、要約作成システム、及び要約作成プログラム Download PDFInfo
- Publication number
- JP2023162306A JP2023162306A JP2023135560A JP2023135560A JP2023162306A JP 2023162306 A JP2023162306 A JP 2023162306A JP 2023135560 A JP2023135560 A JP 2023135560A JP 2023135560 A JP2023135560 A JP 2023135560A JP 2023162306 A JP2023162306 A JP 2023162306A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- research
- sentences
- document
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000011160 research Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 238000004891 communication Methods 0.000 abstract description 8
- 201000010099 disease Diseases 0.000 description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 229940079593 drug Drugs 0.000 description 8
- 239000003814 drug Substances 0.000 description 8
- 238000002560 therapeutic procedure Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000007621 cluster analysis Methods 0.000 description 5
- 238000013264 cohort analysis Methods 0.000 description 5
- 238000002651 drug therapy Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011257 definitive treatment Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】一の文章から精度の高い要約を作成することができる要約作成方法、要約作成システム及び要約作成プログラムを提供する。
【解決手段】文書データベースと、情報端末と、サーバとが、インターネット、イントラネット、VPN等の通信網を介して接続されている要約作成システムにおいて、要約作成方法は、サーバが、一の文章を文に分解する文章分解ステップ(S6)と、前記分解された文の内容に応じたラベルを付与するラベル付与ステップ(S7)と、所定のラベルが付与された文を要約要素として抽出する要約要素抽出ステップ(S8)と、前記要約要素に基づいた要約を作成する要約作成ステップ(S9)と、を実行する。
【選択図】図5
【解決手段】文書データベースと、情報端末と、サーバとが、インターネット、イントラネット、VPN等の通信網を介して接続されている要約作成システムにおいて、要約作成方法は、サーバが、一の文章を文に分解する文章分解ステップ(S6)と、前記分解された文の内容に応じたラベルを付与するラベル付与ステップ(S7)と、所定のラベルが付与された文を要約要素として抽出する要約要素抽出ステップ(S8)と、前記要約要素に基づいた要約を作成する要約作成ステップ(S9)と、を実行する。
【選択図】図5
Description
本発明は、文章から要約を作成する要約作成方法、要約作成システム、及び要約作成プログラムに関する。
従来、多数の学術論文や文献等の文書を解析する場合、人が文書を読んで内容ごとに分類する、あるいは要約を作成していた。人による解析では、時間がかかる上、複数の人が解析を行う場合、作業者の経験や知識によって分類や要約作成の精度にばらつきが生じる傾向がある。
また、学術論文のように、複雑で専門性の高い文書は、内容を理解するために高度な専門知識を必要とする。しかし、そのような専門知識を持たない者でも最新の情報を容易に取得して理解し、活用したいという要請がある。
例えば、概念検索により検索された技術文献に対して形態素解析を行い、そこから得られた各単語にウェイトを付与して、各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスタにまとめるクラスタ解析方法が提案されている(例えば、「特許文献1」。)。
特許文献1では、クラスタごとの重要単語を抽出してウェイトの高い順にいくつか表示することで、クラスタの要旨を把握できるようにしている。ここでのウェイトは、一のクラスタにおいて頻出するが、他のクラスタにおいては出現頻度が低い単語に、より大きな値を付与している。しかし、このようにクラスタを構成する文書内での頻出単語を抽出する場合、ノイズが増加し、必ずしもクラスタの要旨を示す単語が抽出されるとは限らない。また、単語だけを並べた場合は、その分野の専門家でない限り、そのクラスタの要旨を理解するのは困難である。
本発明は、一の文章から精度の高い要約を作成することができ、より効率的に文章の要旨を理解することができる要約作成方法、要約作成システム、及び要約作成プログラムを提供することを目的とする。本明細書において、「文書」(a document)は、「文章」(sentences)から構成され、「文章」は、二以上の「文」(a sentence)から構成され、そして「文」は、二以上の「単語」(a word)から構成される。本明細書において、「要旨」(abstract)は、一の文書の冒頭や末尾に予め配置された、その文書の概要や特徴を表現した文章である。本明細書において、「要約」(summary)は、ある対象から抽出した、その対象の概要や特徴を表現する一以上の文である。ここで、対象は、文章、文書、又はクラスタでありうる。
すなわち、本発明は、コンピュータが、一の文章から要約を作成する要約作成方法であって、文章を文に分解する文章分解ステップと、前記分解された文の内容に応じたラベルを付与するラベル付与ステップと、所定のラベルが付与された文を要約要素として抽出する要約要素抽出ステップと、前記要約要素に基づいた要約を作成する要約作成ステップと、を備える要約作成方法である。
本発明により、文章から精度の高い要約を作成することができ、より効率的に文章の要旨を理解することができる。
以下、本発明の一実施形態を図面に基づき説明する。
図1は本発明の一実施形態に係る要約作成システムを示した全体構成図である。同図に基づき本実施形態の構成について説明する。
図1に示すように、本実施形態に係る要約作成システム1は、文書データベース2(以下、データベースを「DB」と表記する。)と、情報端末3と、サーバ4とが通信網Nを介して接続されている。通信網Nは、例えばインターネット、イントラネット、VPN(Virtual Private Network)等、であり、有線又は無線の通信手段を用いて、情報を双方向に伝達可能な通信網である。また図1では、説明の簡略化のため一つの文書DB2及び一つの情報端末3が、一つのサーバ4に接続されているが、サーバ4は、複数の文書DB及び複数の情報端末3と接続可能である。
文書DB2は、例えば、学術論文、特許文献、雑誌、書籍、及び新聞記事等の文書の情報を格納したデータベースであり、格納された文書を限定された者又は非限定の者に公開している。本実施形態において、文書DB2は、医学文献の情報を格納した文書DBの例として説明する。しかしながら、本発明の文書DBに格納可能な文書の内容、分野、及び種類に制限はない。本実施形態において、医学文献の情報には、著者名や出版年、著者の所属機関等の書誌的事項、論文の題目、要旨及び本文等の論文の内容的事項、引用・被引用の件数や文献名等の引用・被引用情報、文献が掲載された学会名、雑誌名、又は出版社名等の掲載情報等が含まれる。
情報端末3は、例えばパーソナルコンピュータ(以下、「PC」という。)や、スマートフォン、タブレットPC、及び携帯電話のような携帯端末であり、出力部10、及び入力部11を有している。
出力部10は、例えばディスプレイやプリンタのような装置であり、サーバ4で生成された表示データを視認可能に表示することができる。
入力部11は、例えばキーボードやマウスのような装置であり、情報の入力や操作が可能である。出力部10と入力部11は、一体となって、例えばタッチパネルを構成してもよい。
情報端末3を使用する者(ユーザ)は、サーバ4で生成された表示データを出力部10にて確認可能であるとともに、入力部12を介してサーバ4に各種指示を出すことが可能である。
サーバ4は、一以上の文書に含まれる一以上の文章に対して、文章を分解し、要約(要約文)を生成する一以上のサーバ(コンピュータ)から構成されている。サーバ4は各種演算部及び記憶部を有しており、例えば文書記憶部20、類似度算出部21、クラスタ分類部22、指標算出部23、文書選択部24、文章分解部25、ラベル付与部26、要約要素抽出部27、要約作成部28、表示データ生成部29、及び学習システム30を有している。
詳しくは、文書記憶部20は、通信網Nを介して文書DB2と接続され、文書DB2から必要な文書の情報を取得して格納する記憶部である。例えば本実施形態では、医学文献を文書DB2から取得して格納している。また文書記憶部20は検索機能を有しており、格納されている文書から特定のキーワードを含む文書を抽出すること、又は日付により特定した文書を抽出することにより、クラスタに分類する文書の母集団を取得することが可能である。文書記憶部20は、文書DB2で文書の追加や削除等の更新が行われると、これに同期して自動的に文書記憶部20内の文書の更新を行う機能も有している。
類似度算出部21は、文書記憶部20に格納された文書又は生成された文書の母集団について一の文書の内容と他の文書の内容との類似度を算出する機能を有している。類似度の算出には、例えばTF-IDFやコサイン類似度を用いることができる。つまり、類似度算出部21は、各文書の内容について使用されている単語を抽出し、各単語に対して文書内での出現頻度(TF:Term Frequency)と、他の文書で使用されている単語に対する希少性(IDF:Inverse Document Frequency)の積から単語の重み付けを行い、文書のベクトル化を行う。そして、類似度算出部21は、ベクトル化された文書間のコサイン(cos)の値を当該文書間の類似度の値として算出する。例えば第1の文書と第2の文書との類似度は0.856、第1の文書と第3の文書との類似度は0.732というように類似度は0から1の間の値で表され、1に近いほど類似した文書であることを示す。
クラスタ分類部22は、類似度算出部21にて算出された類似度に基づいて各文書を含めて線(以下、「エッジ」という。)で結んだネットワークを生成し、類似する文書でクラスタ(文書群)に分類する。クラスタ分けのアルゴリズムは特に限定されないが、例えばエッジを切り離しても、ノード同士の接続性が極力保たれるようなクラスタを反復的な計算で特定するアルゴリズム(いわゆるGirvan-Newmanアルゴリズム)を用いることができる。
指標算出部23は、クラスタ分類部22にて生成されたネットワークにおける各文書の中心性を示す第1の指標を算出する機能を有している。中心性を算出するアルゴリズムは特に限定されないが、例えば固有ベクトル中心性、PageRank、媒介中心性、及び次数中心性等を用いることができる。本実施形態では、固有ベクトル中心性を用いる。固有ベクトル中心性は、ネットワーク上における一つの文書(以下、「ノード」という。)に関して、当該ネットワーク中の任意のノードから出発して、エッジをたどることを繰り返した場合に、当該ノードを通る確率で示される。
文書選択部24は、指標算出部23で算出された中心性指標を用いて、文書記憶部20からクラスタ中の中心性が高い文書を選択する機能を有している。
文章分解部25は、文書選択部24で選択された文書に含まれる要旨の文章を文毎に分解する機能を有している。例えば図2は、要旨の文章が、「本研究は○○病の投薬療法の有効性に関するコホート研究である。○○病は決定的な治療法が知られていない難病である。しかし、近年、病状の進行を遅らせる投薬療法の進歩が目覚ましい。しかし、投薬療法は、それが有効である罹患者と、ほとんど有効性を示さない罹患者とに分かれることが知られている。そこで本研究は、罹患者のいくつかの身体的及び生活習慣上のいくつかの要因に着目し、それらが薬療法の有効性に及ぼす影響を5年にわたるコホート分析によって評価した。分析の対象は、5名の○○病罹患者であり、○○○法に従ってコホート分析を行った。分析の結果、投薬療法の有効性に及ぶ要因として、次の二つを特定した:□□及び△△。本研究は、これまで知られていなかったこれらの要因を明らかにすることにより、○○病の投薬療法の効果を、患者ごとに予め予測することを可能にするものである。」である場合について説明する。文章分解部25は、当該文章を「本研究は○○病の投薬療法の有効性に関するコホート研究である。」「○○病は決定的な治療法が知られていない難病である。」・・・「本研究は、これまで知られていなかったこれらの要因を明らかにすることにより、○○病の投薬療法の効果を、患者ごとに予め予測することを可能にするものである。」のように文の単位に分解する。なお、文章分解部25は、後述する学習システム30により文章を文に分解することができる。
ラベル付与部26は、文章分解部25で分解された各文に対して予め定められたラベルを付与する機能を有している。例えば図2で説明する文章においては、文1から文7のラベルが付される。図2は、研究論文の要旨に付すことを想定されて予め定められるラベルを示しており、文1から文7は、「研究の位置づけ」「研究の背景」「先行研究の課題」「研究の目的」「研究の方法」「研究の貢献」「研究の意義」の内容に対応する。ラベル付与部26は、後述する学習システム30を用いて、文章分解部25で分解された文と、各ラベルとの対応付けを行い、ラベルを付与することができる。
要約要素抽出部27は、文章分解部25で分解された文のうち、特定のラベルが付された文を要約要素として抽出する機能を有している。例えば、図2で説明する文章においては、文4と文7のラベルが付された文である「そこで本研究は、罹患者のいくつかの身体的及び生活習慣上のいくつかの要因に着目し、それらが薬療法の有効性に及ぼす影響を5年にわたるコホート分析によって評価した。」と「本研究は、これまで知られていなかったこれらの要因を明らかにすることにより、○○病の投薬療法の効果を、患者ごとに予め予測することを可能にするものである。」を要約要素として抽出する。なお、特定のラベルは、文書の分野に応じて個別に設定することができる。
要約作成部28は、要約要素抽出部27で抽出された要約要素から要約を作成する。例えば、図2で説明する文書では、要約要素である「そこで本研究は、罹患者のいくつかの身体的及び生活習慣上のいくつかの要因に着目し、それらが薬療法の有効性に及ぼす影響を5年にわたるコホート分析によって評価した。」と「本研究は、これまで知られていなかったこれらの要因を明らかにすることにより、○○病の投薬療法の効果を、患者ごとに予め予測することを可能にするものである。」から、一文の要約として、「要因が投薬療法の有効性に及ぼす影響をコホート分析によって評価することで、○○病の投薬療法の効果を、患者ごとに予め予測することを可能にする。」を作成する。要約作成部28は、後述する学習システム30を用いて、要約要素から要約を作成することができる。
表示データ生成部29は、各文書について、中心性指標に応じた表示、クラスタの種類に応じた表示、各文書間での類似度の大きさに応じた表示により、前記ネットワークを示す表示データを生成する機能を有している。また、表示データ生成部29は、各クラスタ中の中心性が高い文書の要約を表示するためのデータを生成する機能を有している。表示データ生成部29は、表示データ等を、通信網Nを介して接続された情報端末3に送信する。
図3は、情報端末の出力部に表示されるクラスタ解析結果及び要約作成結果の表示例である。同図に示すように、範囲Aにクラスタ解析結果が表示され、及び範囲Bに要約作成結果が表示されている。
具体的には、図4に示すように表示データ生成部29は、ネットワーク上の一つの文書(以下、「ノード」という。)を一つの円で示し、中心性指標を円の大きさで表現し、クラスタの種類を色で表現し、類似度の大きさをエッジの太さで表現する。
図4には、10のノード40aから40j(以下、まとめて「ノード40」とも称する。)が表示されており、左上の四つのノード40aから40dが第1のクラスタに所属し、右下の六つのノード40eから40jが第2のクラスタに所属している。なお、第1のクラスタと第2のクラスタは異なる色で示すことができる。図4では色の違いをハッチングの違いで示している。
ノード40の大きさは中心性の大きさを示しており、図4においてはノード40a、ノード40eが中心性の高い文書であることが分かる。
また、ノード40を結ぶエッジ41の太さが当該エッジ41で結ばれている文書間の類似度の大きさを示している。したがって図3においては、ノード40aとノード40cとの間や、ノード40eとノード40hとの間のエッジ41が太いため、これらのノード間の類似度が高いことが分かる。
範囲Bに示すように、凡例として、各クラスタの色と、当該クラスタの要約である要約作成部28が作成した要約を更に短縮したものを表示する。なお、凡例として表示する要約は、要約作成部28が作成した要約そのものであっても構わない。
学習システム30は、上記した文章分解部25おける各文書を各項目に分解するAI、ラベル付与部26における文の内容に応じたラベルを付与するAI、及び要約作成部28における要約要素に基づいて要約文を作成するAIを供給する機能を有している。詳しくは、学習システム30は、予め文書を各項目の文に分解したデータを学習用データ(教師データ)として機械学習(例えばディープラーニングやニューラルネットワーク)させることで、文書をその構成要素である項目に分解するAI(学習済みモデル)を生成する。そして、分解された各文の内容に応じたラベルを付与するデータを学習用データ(教師データ)として機械学習(例えばディープラーニングやニューラルネットワーク)させることで、分解された文の内容に応じたラベルを付与するAI(学習済みモデル)を生成する。更に、予め要約要素を用いた要約文を学習用データとして機械学習(例えばディープラーニングやニューラルネットワーク)させることで、要約要素に基づいて要約文を作成するAI(学習済みモデル)を生成する。
図5は、要約作成システム1のサーバ4で実行される要約作成制御ルーチンを示すフローチャートである。以下、同フローチャートに沿って、本実施形態の要約作成方法について詳しく説明する。
サーバ4は、情報端末3から特定の疾患名等の入力情報を受信すると、ステップS1として、文書記憶部20から当該入力情報に対応する文書の母集団を取得する。
続くステップS2では、類似度算出部21が母集団を構成する文書間の類似度を算出する。
ステップS3では、クラスタ分類部22が、ステップS2で算出された類似度に基づいて文書間のネットワークを生成し、類似する文書の集合がクラスタを構成するように分類する。
ステップS4では、指標算出部23が、ステップS3で生成されたネットワークにおける文書の中心性を示す指標を算出する。
ステップS5として、文書選択部24が、文書記憶部20から指標算出部23で算出した指標に基づいて文書を取得する。
ステップS6では、文章分解部25が、取得した文書に含まれる文章を文に分解する。
ステップS7では、ラベル付与部26が、分解された各文にラベルを付与する。
ステップS8では、要約要素抽出部27が、ラベルを選択し、選択されたラベルが付与された文を要約要素として分解した文の中から抽出する。
ステップS9では、要約作成部28が、抽出された要約要素に基づいて要約を作成する。
ステップS10では、サーバ4は、すべてのクラスタで要約作成が終了したか否かを判別する。サーバ4は、要約作成が終了していない(No)と判別した場合、ステップS5に処理を戻す。また、サーバ4は、要約作成が終了した(Yes)と判別した場合、当該ルーチンを終了する。
以上のように、本実施形態における要約作成システム1では、文章を文に分解し、分解された文の内容に応じたラベルを付与し、所定のラベルが付与された文を要約要素として抽出し、抽出された要約要素に基づいた要約を作成することで、一の文章から精度の高い要約を作成することができる。
ここで、本発明の要約作成方法を他の方法と比較する。他の方法として自動要約アルゴリズムLexRankを例として説明する。LexRankは、複数の文書のうち、関連する文書の集合(クラスタ)に含まれる複数の文章を文ごとに分解し、文の集合を生成し、前述したTF-IDFとコサイン類似度を用いて、文の集合中で多くの文との類似度の高い文を特定し、その文を要約文とみなして抽出するアルゴリズムである。しかし、特に学術論文においては、論文の要旨は、その全体が論文の概要や特徴を表現しており、要旨を構成する特定の一文が論文全体の概要や特徴を表現しているわけではない。そのため、LexRankによる要約の作成は、そのクラスタの要約としての正確性を欠く恐れがある。
これに対して、本発明の要約作成方法は、文書間の内容の類似度に基づいてネットワークを形成し、類似する文書から構成されるクラスタに分類し、そのクラスタから中心性を示す中心性指標に応じた文章を抽出し、抽出した一つの文章から要約を作成するものである。そのため、そのクラスタの典型性や代表性を備えた文書の要旨から要約を作成することができ、そのクラスタ全体の要約としての精度を高めることができる。
また、ラベル付与部26は、ラベルを付与するAIを用いて機能するため、例えば、文書の執筆者により、要旨を構成する文の配列が異なる場合でも、適切な項目に適切なラベルを付与することができる。
このように本実施形態によれば、クラスタ内の中心性の高い一つの文章から精度の高い要約を作成することができ、それによりユーザは、より効率的にクラスタ内の文章の要旨を理解することができる
以上、本発明の一実施形態について具体的に説明したが、本発明は当該実施形態に限定されるものではなく、それらにおける様々な変更及び改変が、当業者によって、添付の特許請求の範囲に規定される本発明の範囲又は趣旨から逸脱することなく実行され得ることが理解される。
上記実施形態では、ラベルとして、文1、文2のような名称を付与したが、ラベルの表現はこれに限られるものではない。例えば、0x01、0x02のような16進数で表現してもよいし、アルファベット等の文字、あるいは数字又は記号等による名称を付与してもよい。
また、上記実施形態では、学習システム30において、文書を各項目に分解するAI、分解した文の内容に応じたラベルを付与するAIを生成しているが、文章を文に分解し、分解された各文の内容に応じたラベルを付与するAIを生成してもよい。このAIは、予め文書が分割され且つラベルが付与された文書のデータを学習用データ(教師データ)として機械学習(例えばディープラーニングやニューラルネットワーク)させることで生成される。そして、文章分解部及びラベル付与部にて、この分解した文の内容に応じたラベルを付与するAIを用いて、文章を文に分解し、分解された文の内容に応じたラベルを付与してもよい。
1 要約作成システム
2 文書DB
3 情報端末
4 サーバ
10 出力部
11 入力部
20 文書記憶部
21 類似度算出部
22 クラスタ分類部
23 指標算出部
24 文書選択部
25 文章分解部
26 ラベル付与部
27 要約要素抽出部
28 要約作成部
29 表示データ生成部
30 学習システム
N 通信網
2 文書DB
3 情報端末
4 サーバ
10 出力部
11 入力部
20 文書記憶部
21 類似度算出部
22 クラスタ分類部
23 指標算出部
24 文書選択部
25 文章分解部
26 ラベル付与部
27 要約要素抽出部
28 要約作成部
29 表示データ生成部
30 学習システム
N 通信網
Claims (6)
- コンピュータが、研究論文に関する一の文章から要約を作成する要約作成方法であって、
文章を文に分解する文章分解ステップと、
前記研究論文に付することを想定されて、少なくとも研究の目的又は研究の意義に相当するラベルを含む、予め定められたラベルの中から、予め分解された各文の内容に応じたラベルを付与するデータを学習用データとして機械学習させて生成された学習済みモデルを用いて、前記分解された文の内容に応じたラベルを付与するラベル付与ステップと、
前記予め定められたラベルのうち、前記研究の目的又は前記研究の意義に相当する所定のラベルが付与された文を要約要素として抽出する要約要素抽出ステップと、
予め要約要素を用いた要約文を学習用データとして機械学習させて生成された学習済みモデルを用いて、前記要約要素抽出ステップにて抽出した前記要約要素に基づいた要約を作成する要約作成ステップと、
を備える要約作成方法。 - 複数の文書の中の一の文書の内容と他の文書の内容との類似度を算出する類似度算出ステップと、
算出された類似度に基づいて各文書を含んだネットワークを生成し、類似する文書をクラスタに分類するクラスタ分類ステップと、
前記ネットワークにおける各文書の中心性を示す中心性指標を算出する指標算出ステップと、
を更に備え、
前記文章分解ステップで分解する文章は、クラスタに含まれる文章から中心性指標を用いて抽出された文書に含まれる請求項1記載の要約作成方法。 - 要約要素抽出ステップは、要約要素となる文を複数抽出し、
前記要約作成ステップは、要約要素となる複数の文に基づいた要約を一文で作成する請求項1又は2に記載の要約作成方法。 - 前記研究論文は医学文献である請求項1から3のいずれか一項に記載の要約作成方法。
- 研究論文に関する一の文章から要約を作成する要約作成システムであって、
文章を文に分解する文章分解部と、
前記研究論文に付することを想定されて、少なくとも研究の目的又は研究の意義に相当するラベルを含む、予め定められたラベルの中から、予め分解された各文の内容に応じたラベルを付与するデータを学習用データとして機械学習させて生成された学習済みモデルを用いて、前記分解された文の内容に応じたラベルを付与するラベル付与部と、
前記予め定められたラベルのうち、前記研究の目的又は前記研究の意義に相当する所定のラベルが付与された文を要約要素として抽出する要約要素抽出部と、
予め要約要素を用いた要約文を学習用データとして機械学習させて生成された学習済みモデルを用いて、前記要約要素抽出部が抽出した前記要約要素に基づいた要約を作成する要約作成部と、
を備える要約作成システム。 - コンピュータに、研究論文に関する一の文章から要約の作成を実行させるプログラムであって、
文章を文に分解する文章分解ステップと、
前記研究論文に付することを想定されて、少なくとも研究の目的又は研究の意義に相当するラベルを含む、予め定められたラベルの中から、予め分解された各文の内容に応じたラベルを付与するデータを学習用データとして機械学習させて生成された学習済みモデルを用いて、前記分解された文の内容に応じたラベルを付与するラベル付与ステップと、
前記予め定められたラベルのうち、前記研究の目的又は前記研究の意義に相当する所定のラベルが付与された文を要約要素として抽出する要約要素抽出ステップと、
予め要約要素を用いた要約文を学習用データとして機械学習させて生成された学習済みモデルを用いて、前記要約要素抽出ステップにて抽出した前記要約要素に基づいた要約を作成する要約作成ステップと、
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023135560A JP2023162306A (ja) | 2019-05-17 | 2023-08-23 | 要約作成方法、要約作成システム、及び要約作成プログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021520501A JPWO2020234929A1 (ja) | 2019-05-17 | 2019-05-17 | |
PCT/JP2019/019721 WO2020234929A1 (ja) | 2019-05-17 | 2019-05-17 | 要約作成方法、要約作成システム、及び要約作成プログラム |
JP2023135560A JP2023162306A (ja) | 2019-05-17 | 2023-08-23 | 要約作成方法、要約作成システム、及び要約作成プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021520501A Division JPWO2020234929A1 (ja) | 2019-05-17 | 2019-05-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023162306A true JP2023162306A (ja) | 2023-11-08 |
JP2023162306A5 JP2023162306A5 (ja) | 2024-01-30 |
Family
ID=73459211
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021520501A Pending JPWO2020234929A1 (ja) | 2019-05-17 | 2019-05-17 | |
JP2023135560A Pending JP2023162306A (ja) | 2019-05-17 | 2023-08-23 | 要約作成方法、要約作成システム、及び要約作成プログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021520501A Pending JPWO2020234929A1 (ja) | 2019-05-17 | 2019-05-17 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11816421B2 (ja) |
JP (2) | JPWO2020234929A1 (ja) |
WO (1) | WO2020234929A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11630958B2 (en) * | 2021-06-02 | 2023-04-18 | Microsoft Technology Licensing, Llc | Determining topic labels for communication transcripts based on a trained generative summarization model |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2638187B2 (ja) * | 1989-03-09 | 1997-08-06 | 松下電器産業株式会社 | 文章要約装置 |
JP2005092443A (ja) | 2003-09-16 | 2005-04-07 | Mitsubishi Research Institute Inc | クラスター分析装置およびクラスター分析方法 |
US8566360B2 (en) * | 2010-05-28 | 2013-10-22 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
US9792277B2 (en) * | 2010-12-09 | 2017-10-17 | Rage Frameworks, Inc. | System and method for determining the meaning of a document with respect to a concept |
JP6216873B2 (ja) | 2014-05-30 | 2017-10-18 | 株式会社日立製作所 | 検索方法及び装置並びに記憶媒体 |
MY192047A (en) * | 2016-05-27 | 2022-07-25 | Univ Malaysia Teknologi | Plagiarism detection based on semantic role labelling |
US11138378B2 (en) * | 2019-02-28 | 2021-10-05 | Qualtrics, Llc | Intelligently summarizing and presenting textual responses with machine learning |
-
2019
- 2019-05-17 US US17/595,154 patent/US11816421B2/en active Active
- 2019-05-17 JP JP2021520501A patent/JPWO2020234929A1/ja active Pending
- 2019-05-17 WO PCT/JP2019/019721 patent/WO2020234929A1/ja active Application Filing
-
2023
- 2023-08-23 JP JP2023135560A patent/JP2023162306A/ja active Pending
- 2023-10-09 US US18/483,284 patent/US20240111943A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220253593A1 (en) | 2022-08-11 |
WO2020234929A1 (ja) | 2020-11-26 |
US20240111943A1 (en) | 2024-04-04 |
JPWO2020234929A1 (ja) | 2020-11-26 |
US11816421B2 (en) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Marshakova-Shaikevich | Bibliometric maps of field of science | |
JP2023162306A (ja) | 要約作成方法、要約作成システム、及び要約作成プログラム | |
Fabregat et al. | Deep neural models for extracting entities and relationships in the new RDD corpus relating disabilities and rare diseases | |
JP2024041946A (ja) | クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム | |
US20230119422A1 (en) | Cluster analysis method, cluster analysis system, and cluster analysis program | |
Lea | Digitizing Diagnosis: Medicine, Minds, and Machines in Twentieth-century America | |
Goh et al. | Monitoring youth depression risk in Web 2.0 | |
Zlabinger et al. | Medical entity corpus with PICO elements and sentiment analysis | |
Thanigaivel et al. | Review on heart disease prediction system using data mining techniques | |
Yesha et al. | A graph-based method for analyzing electronic medical records | |
Makhortykh et al. | This Is What Pandemic Looks Like: Visual Framing of COVID-19 on Search Engines | |
Ruiz et al. | Understanding how and when human factors are used in the software process: a text-mining based literature review | |
Ge et al. | Octvis: ontology-based comparison of topic models | |
Gangopadhyay et al. | Knowledge discovery in clinical data | |
Maruf et al. | Covid-19 vaccine sentiment detection and analysis using machine learning technique and nlp | |
Hada et al. | A novel recommendation system for vaccines using hybrid machine learning model | |
Panahiazar et al. | Context aware recommendation engine for metadata submission | |
Ring | In the Law's Hands: S/M Pleasure in Der Proceß, a Queer Reading | |
Sarkar | Challenges in identification of potential phytotherapies from contemporary biomedical literature | |
JP7020736B1 (ja) | 介護に関する計画書の作成を支援する装置、方法及びプログラム | |
Mehanović et al. | Covid-19 Twitter Data Analysis Using Natural Language Processing | |
Vatian et al. | Adaptation of algorithms for medical information retrieval for working on Russian-language text content | |
Ahmad et al. | Exploring the Impact of COVID-19 on Individuals’ Mental Health Through Cluster Analysis | |
Probierz et al. | Emotion Detection from Text in Social Networks | |
Zhu | Prediction model and case analysis of college students' psychological depression based on multi-source online comment mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240119 |