JP2018190188A - 要約生成装置、要約生成方法及びコンピュータプログラム - Google Patents

要約生成装置、要約生成方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2018190188A
JP2018190188A JP2017092146A JP2017092146A JP2018190188A JP 2018190188 A JP2018190188 A JP 2018190188A JP 2017092146 A JP2017092146 A JP 2017092146A JP 2017092146 A JP2017092146 A JP 2017092146A JP 2018190188 A JP2018190188 A JP 2018190188A
Authority
JP
Japan
Prior art keywords
text
word
word vector
sequence
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017092146A
Other languages
English (en)
Other versions
JP6842167B2 (ja
Inventor
龍 飯田
Ryu Iida
龍 飯田
健太郎 鳥澤
Kentaro Torisawa
健太郎 鳥澤
鍾勲 呉
Jong Hoon Oh
鍾勲 呉
カナサイ クルンカライ
Canasai Kruengkrai
カナサイ クルンカライ
仁彦 淺尾
Yoshihiko Asao
仁彦 淺尾
阿部 憲幸
Noriyuki Abe
憲幸 阿部
淳太 水野
Junta MIZUNO
淳太 水野
ジュリアン クロエツェー
Kloetzer Julien
ジュリアン クロエツェー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2017092146A priority Critical patent/JP6842167B2/ja
Priority to US16/610,916 priority patent/US11106714B2/en
Priority to PCT/JP2018/017606 priority patent/WO2018207723A1/ja
Publication of JP2018190188A publication Critical patent/JP2018190188A/ja
Application granted granted Critical
Publication of JP6842167B2 publication Critical patent/JP6842167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】テキスト内に存在する特定の注目記述を高精度に自動検出し、検出された記述に着目してテキストを自動要約する技術を提供する。
【解決手段】要約生成装置は、テキストを、その注目箇所を示す情報とともに記憶するテキスト記憶装置と、テキストの各単語をベクトル化し、当該単語が注目箇所か否かを示す要素をベクトルに追加して、テキストを単語ベクトル列に変換するための単語ベクトル変換部834及び836と、シーケンス・ツー・シーケンス型の変換を行うニューラルネットワークからなり、単語ベクトル列の各単語ベクトルが所定の順番で入力されたことに応答して、当該単語ベクトル列が表す単語からなるテキストの要約を出力するよう、予め機械学習により学習済のLSTMと、単語ベクトル列の各単語ベクトルを所定の順番でニューラルネットワークに入力する入力部838〜848とを含む。
【選択図】図18

Description

この発明は、人工知能及び自然言語処理技術の分野に関し、特に、文章中に出現する問題のような特定の事項に関する記述に基づき、その文章の要約を自動的に作成する装置及びその装置の学習装置に関する。
ある文章内に記載されている何らかの問題を記載した箇所(問題記述)を検出する技術、及びそうして検出された問題記述を中心に文章を要約する技術は、今後発展することが予想される人工知能(AI)による社会問題等の自動検出、及びその解決策の提示といった、AIの具体的な社会応用のために必須の技術である。しかし、既存の問題自動検出の技術については実用に足る十分な性能が得られているとは言えない。また、自動要約技術に関しても、要約したい対象を適切に要約する処理が未成熟であり、十分な品質の要約結果を得ることができない。
例えば、後掲の非特許文献1に開示の技術は、名詞の意味クラス辞書、語の肯定・否定極性辞書、トラブル名詞辞書、活性・不活性辞書といった様々な言語資源を用いて、対象とする問題候補表現に関する特徴量を機械学習の学習時に利用し、得られたモデルにより問題記述を自動的に検出することを行っている。この従来手法ではテキスト中の<名詞、助詞、述語>が分類対象となる。その分類の際、例えば、分類対象となる名詞が肯定的な名詞なのか、否定的な名詞なのか(非トラブル名詞かトラブル名詞か)、分類対象となる<助詞、述語>が活性側なのか、不活性側なのか、などの手がかりを活性辞書に基づいて人手で選別して、それらの特徴を利用している。ただし、これらの特徴の取捨選択を人手で列挙することには限界があり、列挙された多種多様な素性の重みを限られた量の学習データで推定することはSVM(Support Vector Machine)のような汎化能力の高い機械学習アルゴリズムを用いても困難である。
一方、自動要約に関しては、これまでは技術的に困難であった抽象型の要約、つまり、文を抜粋するのではなく、自然な文として要約を「生成」する技術の開発がニューラルネットワークの発展にともない進められている(後掲の非特許文献2)。ただし、これらの自動要約技術は一般的な要約(general summarization)と呼ばれる、テキスト中の特定の内容に着目することなく、要約結果を生成する技術である。このため、この既存技術を利用した場合、テキスト中のある特定の事項(例えば問題記述)に着目してテキストの要約を行うことは困難である。
Istvan Varga, Motoki Sano, Kentaro Torisawa, Chikara Hashimoto,Kiyonori Ohtake, Takao Kawai, Jong-Hoon Oh, and Stijn De Saeger. 2013. Aid isout there: Looking for help from tweets during a large scale disaster. InProceedings of the 51st Annual Meeting of the Association for ComputationalLinguistics. pages 1619-1629. Alexander M. Rush, Sumit Chopra, and Jason Weston. 2015. A neuralattention model for abstractive sentence summarization. In Proceedings of the 2015 Conference on Empirical Methods inNatural Language Processing. pages 379-389.
したがって、本発明は、テキスト内に存在する問題記述のような特定の注目すべき記述を高精度に自動検出し、検出された記述に着目してテキストを自動要約する技術を提供することを目的とする。
本発明の第1の局面に係る要約生成装置は、テキストの要約を生成する要約生成装置であって、テキストを、当該テキストの内の注目箇所を示す情報とともに記憶するテキスト記憶装置と、テキストの各単語を、予め定める方法によりベクトル化し、さらに、当該単語が注目箇所か否かを示す要素をベクトルに追加することにより、テキストを単語ベクトル列に変換するための単語ベクトル変換手段と、シーケンス・ツー・シーケンス型の変換を行うニューラルネットワークからなり、単語ベクトル列の各単語ベクトルが所定の順番で入力されたことに応答して、当該単語ベクトル列が表す単語からなるテキストの要約を出力するよう、予め機械学習により学習済の要約手段と、単語ベクトル変換手段により変換された単語ベクトル列の各単語ベクトルを所定の順番でニューラルネットワークに入力するための入力手段とを含む。
好ましくは、テキスト記憶装置は、テキストとともに、当該テキストの複数箇所の注目箇所を示す情報を記憶可能である。
より好ましくは、ニューラルネットワークは、再帰型ニューラルネットワークである。
さらに好ましくは、再帰型ニューラルネットワークはLSTM(Long Short-Term Memory)である。
本発明の第2の局面に係る要約生成方法は、コンピュータを用いてテキストの要約を生成する要約生成方法であって、コンピュータが、テキストを、当該テキストの内の注目箇所を示す情報とともにテキスト記憶装置に記憶するステップと、コンピュータが、テキスト記憶装置に記憶されたテキストの各単語を、予め定める方法によりベクトル化し、さらに、当該単語が注目箇所か否かを示す要素をベクトルに追加することにより、テキストを単語ベクトル列に変換するステップと、コンピュータが、シーケンス・ツー・シーケンス型の変換を行うニューラルネットワークからなり、単語ベクトル列の各単語ベクトルが所定の順番で入力されたことに応答して、当該単語ベクトル列が表す単語からなるテキストの要約を出力するよう、予め機械学習により学習済の要約プログラムを呼び出すステップと、コンピュータが、単語ベクトル列の各単語ベクトルを所定の順番でニューラルネットワークに入力し、当該入力に応答してニューラルネットワークの出力する単語列をテキストの要約として得るステップとを含む。
本発明の第3の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの装置の各手段として機能させる。
本発明の1実施の形態に係るテキスト要約システムの全体構成及び学習過程を説明するブロック図である。 図1に示すテキスト要約システムのうち、問題記述候補抽出器を実現するコンピュータプログラムの制御構造を示すフローチャートである。 図1に示すテキスト要約システムのうち、問題記述判定器に含まれるMulti-column Convolutional Neural Network(MCNN)の学習部の概略構成を示すブロック図である。 図3に示す学習データ生成部の構成を示すブロック図である。 本願発明の実施の形態でテキスト中の問題記述、重要箇所等の識別に使用される単語列を説明するための模式図である。 本願発明の実施の形態でテキスト中の問題記述、重要箇所等の識別に使用される他の単語列を説明するための模式図である。 本願発明の実施の形態でテキスト中の問題記述、重要箇所等の識別に使用されるさらに他の単語列を説明するための模式図である。 本願発明の実施の形態で単語ベクトル列を入力として問題記述、重要箇所等の識別を行うMCNNの構成を模式的に示す図である。 MCNNの動作原理を説明する模式図である。 図1に示す問題記述判定器を実現するコンピュータプログラムの制御構造を示すフローチャートである。 図1に示す重要箇所抽出器MCNN学習部58を実現するコンピュータプログラムの制御構造を示すフローチャートである。 人手で作成した要約から重要箇所を抽出する処理を説明するための模式図である。 図11に示す重要箇所選択部を実現するためのコンピュータプログラムの制御構造を示すフローチャートである。 図11に示す学習データ生成部を実現するためのコンピュータプログラムの制御構造を示すフローチャートである。 図1に示す重要箇所抽出器を実現するためのコンピュータプログラムの制御構造を示すフローチャートである。 図1に示す要約器を実現する再帰型ニューラルネットワークの一種である長・短期記憶の構成と学習時及び要約時の動作を説明するための模式図である。 図1に示す要約器LSTM学習部を実現するためのコンピュータプログラム野制御構造を示すフローチャートである。 図1に示す要約器を実現するコンピュータプログラムの制御構造を示すフローチャートである。 本発明の実施の形態に係るテキスト要約システム30を実現するコンピュータシステムの外観図である。 図19に示すコンピュータシステムの内部ハードウェア構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態では、注目箇所の例として何らかの問題を記述した箇所(問題記述)、及びその箇所に記述された問題という観点から見て重要な箇所を用いる。
[第1の実施の形態]
<構成>
図1を参照して、以下に述べる第1の実施の形態に係るテキスト要約システム30は、テキスト集合記憶装置40に記憶されたテキストに含まれる、問題を記述した箇所の候補(問題記述候補)を問題記述候補抽出器46により抽出した後、それら問題記述候補が真に問題を記述しているか否かをMCNNからなる問題記述判定器50により判定する。MCNNについては後述する。なお、本実施の形態では特定の事項として問題記述を検出し、それに基づいて要約を作成する。しかし本発明はそのような実施の形態には限定されない。様々な手法で検出できる特定事項であれば、それに基づいて要約を作成できる。
問題記述候補抽出器46による問題記述候補の検出には、名詞が何らかのトラブルを表す名詞か、それ以外かを示す情報(極性)を記憶した名詞極性辞書42と、名詞と組み合わされる、助詞+述語からなる、述語テンプレートと呼ぶ言語単位をそれらの極性とともに記憶したテンプレート極性辞書44とを用いる。本実施の形態では、名詞が何らかのトラブルを表す場合にはその極性は負、トラブル以外を表す場合はその極性は正とする。述語テンプレートは、名詞と結び付いてフレーズを構成する。述語テンプレートには、活性及び不活性という分類に従って活性の向き及びその大きさを表す活性値を付与することが可能である。活性とは、その述語テンプレートが、当該述語テンプレートと組み合わされた名詞の指す対象の機能又は効果を発揮させる方向の出来事を記述することを示す。不活性とは、当該述語テンプレートと組み合わされた名詞の指す対象の機能又は効果を発揮させない方向の出来事を記述することを示す。述語テンプレートに関する活性及び不活性の区別を述語テンプレートの極性と呼ぶ。本明細書では、極性が活性であることを正の極性といい、極性が不活性であることを負の極性と呼ぶ。以上の考え方から、例えば極性が正の名詞と極性が負の述語テンプレートが組み合わされた場合、及び極性が負の名詞と極性が正の述語テンプレートが組み合わされた場合には何らかの問題を表している可能性が高い。問題記述候補抽出器46は、このように名詞及び述語テンプレートの極性を利用して問題記述候補を抽出する。
しかしこのようにして抽出された問題記述候補が常に正しく問題を記述しているとは限らない。その精度を高めるために、本実施の形態では、問題記述判定器50を用いて問題記述箇所が真に問題を記述しているか否かを判定する。前述したとおり問題記述判定器50はMCNNを用いている。したがって、問題記述判定器50については予め問題記述判定器MCNN学習部52による学習を行う。
テキスト要約システム30はさらに、問題記述判定器50により問題記述の可能性が高いと判定された箇所が特定された要約対象テキストを記憶するための要約対象テキスト記憶装置54と、重要箇所抽出器56と、重要箇所抽出器56の学習を行う重要箇所抽出器MCNN学習部58と、重要箇所抽出器56により重要箇所がマークされた要約対象テキストを記憶するためのマーク済要約対象テキスト記憶装置60と、マーク済要約対象テキスト記憶装置60に記憶されたマーク済要約対象テキストについてLSTMを用いて要約を作成し要約結果66として出力する要約器62と、要約器62の実体であるLSTMの学習を行うための要約器LSTM学習部64とを含む。LSTMは、再帰型ニューラルネットワークの一種であり、後述するようにシーケンス・ツー・シーケンス型の変換を伴う推定等に用いられる。
図2に、問題記述候補抽出器46を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。このプログラムは、テキスト要約システム30による要約作成時にも、問題記述判定器50の学習時にも利用される。図2を参照して、このプログラムは、テキスト集合記憶装置40に記憶された全てのテキストに対して、問題記述の候補を検出する処理82を実行するステップ80を含む。
処理82は、対象のテキストを記憶装置から読出すステップ90と、読出したテキストを句点で文に分割するステップ92と、処理対象のテキストの全ての文に対して問題記述の候補を探す処理98を実行するステップ96とを含む。
処理98は、テキストを形態素解析するステップ110、テキストの係り受け解析を行うステップ112、係り受け解析されたテキストの中で、互いに係り受け関係にある名詞と述語テンプレートとの組み合わせの各々について、名詞極性辞書42及びテンプレート極性辞書44を参照して、それらの極性の積を算出するステップ114、積が負になるものがあるか否かを判定するステップ116、及び、判定結果が肯定のとき(即ち、積が負になるものがあるとき)に、その文と前後の文からなるあわせて3文を要約対象テキスト候補として出力するステップ118を含む。
図3は、図1に示す問題記述判定器MCNN学習部52の構成を、学習に用いられる他の資源とともに示すブロック図である。図3を参照して、問題記述判定器MCNN学習部52は、学習用の多数のテキストからなるテキスト集合を記憶するテキスト集合記憶装置130、図1に示す名詞極性辞書42及びテンプレート極性辞書44とそれぞれ同様の名詞極性辞書132及びテンプレート極性辞書134を用いて問題記述判定器50に含まれるMCNNの学習を行う。
問題記述判定器MCNN学習部52は、テキスト集合記憶装置130に記憶されたテキストの中から、名詞極性辞書132とテンプレート極性辞書134を参照して問題記述の候補と思われるものを抽出し、その箇所を含む前後3文を問題記述候補として出力する問題記述候補抽出器140と、問題記述候補抽出器140により抽出された文を記憶するための問題記述候補記憶装置142とを含む。問題記述判定器MCNN学習部52はさらに、問題記述候補記憶装置142に記憶された問題記述候補のうち、人手による分類処理144で正しい問題記述箇所であると判定されたものを学習のための正例として記憶するための正例記憶装置146と、誤った問題記述箇所であると判定されたものを学習のための負例として記憶するための負例記憶装置148とを含む。
問題記述判定器MCNN学習部52はさらに、正例記憶装置146及び負例記憶装置148に記憶された正例及び負例から問題記述判定器50のための学習データを生成するための学習データ生成部150と、学習データ生成部150により生成された学習データを記憶するための学習データ記憶装置152と、学習データ記憶装置152に記憶された学習データを用いて問題記述判定器50の学習を行うための学習処理部154とを含む。
図4は、図3に示す学習データ生成部150のより詳細な構成を示すブロック図である。図4を参照して、学習データ生成部150は、正例と負例とによる学習データ生成を切替えるための制御部160と、制御部160による制御にしたがって、テキストの読出先を正例記憶装置146及び負例記憶装置148のいずれかに切替えるセレクタ162と、セレクタ162を介して正例記憶装置146又は負例記憶装置148からテキストを1つずつ順番に読出すためのテキスト読出部164と、テキスト読出部164により読み出されたテキストに対して形態素解析を行う形態素解析部166と、形態素解析部166により形態素解析が行われたテキストに対して係り受け関係解析を行い、係り受け情報が付された解析後文170を出力するための係り受け関係解析部168とを含む。
学習データ生成部150はさらに、解析後文170を構成する単語列から、問題記述判定器50に含まれるMCNNのカラム(後述するように11カラムある。)に与える入力となる11個の単語列を生成するための第1−第11の単語列生成部172と、第1−第11の単語列生成部172により生成された11個の単語列をそれぞれ単語ベクトル列に変換するための単語ベクトル変換部174と、ある入力テキストに対して単語ベクトル変換部174が出力する11個の単語ベクトル列について、そのテキストが正例記憶装置146からのものであるときには正例であることを示す値のフラグを、負例記憶装置148からのものであるときには負例であることを示す値のフラグを、それぞれ付すことにより学習データを生成するフラグ付加部176と、フラグ付加部176から出力される、フラグが付加された後の単語ベクトル群を一組の学習データとして学習データ記憶装置152に出力するための学習データ出力部178とを含む。フラグ付加部176が単語ベクトル群に付加するフラグとしては、制御部160がセレクタ162を制御するための値をそのまま用いれば良い。
MCNNへの入力となる単語列は以下のとおりである。ただしこの表で、TNPは問題記述候補に含まれる問題記述候補の名詞を含む文節を表し、PREDは問題記述候補に含まれる述語テンプレートの述語を含む文節を表す。
Figure 2018190188
これら単語列はいずれも、文全体から抽出される。なお、本実施の形態では、要約対象テキストは3文からなる。したがってTNPとPREDが別文に存在することもあり得る。本実施の形態では、そうした場合でも上記した単語列が得られるようにするために、3文の係り受け木のルートを仮想的なルートノードで互いに結合し、1つの係り受け木を用いて上記単語列を得るようにした。
第1の単語列生成部は、問題記述候補に含まれる名詞と述語の対から単語列を抽出しBase単語列として出力する。図4に示す単語ベクトル変換部174が、この単語列から単語ベクトル列であるBaseベクトル列を生成する。本実施の形態では、単語の出現順序を保存し、かつ演算量を少なくするために以下の全ての単語ベクトルとして単語埋め込みベクトルを使用する。
図5を参照して、単語列生成部172のうち、第2−第4の単語列生成部が抽出する単語列は、文200中での単語列の出現順序に基づき、文頭から問題記述候補の名詞を含む文節250までの単語列260、文節250と述語202の間の単語列262、及び述語202の後、文末までの単語列264を含む。したがって、SurfSeqベクトル列は3つの単語埋め込みベクトル列として得られる。
図6を参照して、単語列生成部172のうち、第5−第8の単語列生成部が抽出する単語列は、文200の係り受け木に基づき、問題記述候補の名詞を含む文節250に係る部分木280、述語202の係り先の部分木282、文節250と述語202の間の係り受けパス284、及びその他286からそれぞれ得られる単語列を含む。したがってこの例ではDepTreeベクトル列は4つの単語埋め込みベクトル列として得られる。
図7を参照して、単語列生成部172のうち、第9−第11の単語列生成部が抽出する単語列は、文200において、述語202の前の単語列300と、後の単語列302とを含む。したがってこの場合、PredContextベクトル列は2つの単語埋め込みベクトル列として得られる。
図8を参照して、本実施の形態では、問題記述判定器50を構成するMCNN214は、第1〜第4の畳み込みニューラルネットワーク群360、362、364、366からなるニューラルネットワーク層340と、ニューラルネットワーク層340内の各ニューラルネットワークの出力を線形に連結する連結層342と、連結層342の出力するベクトルに対してSoftmax関数を適用して、問題記述候補が真の問題記述か否かを0〜1の間のスコアで評価し出力するSoftmax層344とを含む。
第1の畳み込みニューラルネットワーク群360は、Baseベクトルを受ける第1カラムのサブネットワークを含む。第2の畳み込みニューラルネットワーク群362は、3つのSurfSeqベクトル列をそれぞれ受ける第2、第3及び第4カラムのサブネットワークを含む。第3の畳み込みニューラルネットワーク群364は、4つのDepTreeベクトル列をそれぞれ受ける第5、第6、第7、及び第8カラムのサブネットワークを含む。第4の畳み込みニューラルネットワーク群366は、2つのPredContextベクトル列を受ける第9及び第10カラムのサブネットワークを含む。これらサブネットワークは、いずれも畳み込みニューラルネットワークである。
ニューラルネットワーク層340の各畳み込みニューラルネットワークの出力は連結層342で単純に線形に連結され、Softmax層344への入力ベクトルとなる。
MCNN214についてその機能をより詳細に説明する。図9に、代表として1つの畳み込みニューラルネットワーク390を示す。ここでは、説明を分かりやすくするために、畳み込みニューラルネットワーク390が、入力層400、畳み込み層402、及びプーリング層404のみからなっているものとするが、この3つの層を複数個備えているものでもよい。
入力層400には、学習データのうち、単語ベクトル変換部174が出力した単語ベクトル列X、X、…、X|t|が入力される。この単語ベクトル列X、X、…、X|t|は、行列T=[X、X、…、X|t|として表される。この行列Tに対して、M個の素性マップが適用される。素性マップはベクトルであって、各素性マップの要素であるベクトルOは連続する単語ベクトルからなるNグラムに対してfj(1≦j≦M)で示されるフィルタを適用しながらNグラム410を移動させることにより計算される。Nは任意の自然数だが、本実施の形態ではN=3とする。すなわちOは次の式により表される。
Figure 2018190188
なお、素性マップの全体にわたりNを等しくしてもよいし、異なるものがあってもよい。Nとしては、2、3、4及び5程度が適当であろう。本実施の形態では、重み行列は各カラムセット内の畳み込みニューラルネットワークにおいて等しくしてある。これらは互いに異なっていても良いが、実際、このように等しくした方が、各重み行列を独立に学習する場合より精度が高くなる。なお、畳み込みニューラルネットワークで使用するフィルタとしては、どのようなものを用いることもできる。画像処理で用いるフィルタを流用してもよい。
この素性マップの各々について、次のプーリング層404は、いわゆるマックスプーリングを行う。すなわち、プーリング層404は、例えば素性マップfの要素のうち、最大の要素420を選択し、要素430として取出す。これを素性マップの各々に対して行うことによって、要素432、…、430を取出し、これらをfからfの順番に連接して連結層342にベクトル442として出力する。各畳み込みニューラルネットワークからはこのようにして得られたベクトル440、…、442、…、444が連結層342に出力される。連結層342は、ベクトル440、…、442、…、444を単純に線形に連結してSoftmax層344に与える。なお、プーリング層404としてはマックスプーリングを行うものの方が平均値を採用するものよりも精度が高いと言われている。しかし、もちろん平均値を採用するようにしてもよいし、下位の層の性質をよく表現するものであれば、他の代表値を用いるようにしてもよい。
学習データは、上記した11種類の単語ベクトル列と、その単語ベクトル列が得られたテキストが正例か負例かを示すフラグとからなる。学習時には、MCNN214の各カラムにはそれぞれの各カラムへの入力ベクトルが与えられ、MCNN214の出力がそのテキストのフラグと比較され、通常の誤差逆伝播方式によって、誤差関数の値が小さくなる方向にMCNN214を構成する各ウェイトとバイアスの値が修正される。
図10を参照して、問題記述判定器50のうち、MCNN以外の部分を実現するコンピュータプログラムは、テキスト集合記憶装置40に記憶されたテキストのうちの問題記述候補の各々に対して以下の処理462を実行するステップ460を含む。なお、この処理の前に、このテキストに対しては形態素解析及び係り受け解析が行われている。
処理462は、解析後のテキストに基づいて、上記テーブル1に示した11個のカラムへの入力となる単語ベクトル列を作成するステップ470と、ステップ470で得られた11個の単語ベクトル列をMCNN214に入力し、MCNN214の出力を得るステップ472と、MCNN214の出力により、処理対象の問題記述候補が正しい問題記述であるか否かを判定し、判定結果に従って制御の流れを分岐させるステップ474と、ステップ474の判定が肯定であるとき(即ち、正しい問題記述であるとき)に、その問題記述候補を含む前後の3文を要約対象テキストとして出力して処理462を終了するステップ476と、ステップ474の判定がNOであるときに、その問題記述候補が誤りであるという情報を出力して処理462を終了するステップ478とを含む。
図11を参照して、重要箇所抽出器56の学習を行うための重要箇所抽出器MCNN学習部58は、学習のための要約対象テキストを記憶する要約対象テキスト記憶装置500と、要約対象テキスト記憶装置500に記憶された各対象テキストに対して人手により要約を作成する要約作成502と、作成された要約を記憶する要約記憶装置504とを含む。本実施の形態では、1つの要約対象テキストに対して、3人が合計で3個の要約を人手で作成することにしているが、より多くの要約を作るようにしても良い。
重要箇所抽出器MCNN学習部58はさらに、各要約対象テキストについて、3人が作成した要約のうち、少なくとも2つの要約に共通に含まれる単語を重要箇所として選択する重要箇所選択部506と、各要約対象テキストのうち、重要箇所選択部506が選択した単語を重要箇所としてマークしマーク済要約対象テキストを出力する要約対象テキストマーキング部508と、要約対象テキストマーキング部508の出力するマーク済の要約対象テキストを記憶するためのマーク済要約対象テキスト記憶装置510と、マーク済要約対象テキスト記憶装置510からマーク済の要約対象テキストを読出し、テキスト中の問題記述中の述語テンプレートと、重要箇所との前後関係に応じた方法で学習データを生成し、第1の学習データ記憶装置514又は第2の学習データ記憶装置516のいずれかに出力する学習データ生成部512とを含む。
学習データを生成する際に、テキスト中の問題記述中の述語テンプレートと、重要箇所との双方が単語ベクトル生成に関係する場合、これらの前後関係に応じて学習データを異なる方法で生成する必要がある。本実施の形態では、表1と同様の考え方で単語ベクトルを生成するが、以下のように変更する。すなわち、重要箇所又はその候補をCANDで表すと、マーク済の要約対象テキスト中でPREDより前にCANDが現れる場合には、表1のTNPをCANDで置換する(第1の方法)。もしもPREDがCANDより前に現れる場合には、表1においてCANDとPREDの位置を交換する(第2の方法)。本実施の形態では、学習データの生成においてPREDより前にCANDが現れる場合には第1の方法により学習データを生成して第1の学習データ記憶装置514に出力し、逆の場合には第2の方法により学習データを生成して第2の学習データ記憶装置516に出力する。
重要箇所抽出器MCNN学習部58はさらに、第1の学習データ記憶装置514に記憶された学習データを用いて、MCNNを含む第1の重要箇所検出器520の学習を行う第1の学習処理部518と、第2の学習データ記憶装置516に記憶された学習データを用いて、MCNNを含む第2の重要箇所検出器524の学習を行う第2の学習処理部522とを含む。
重要箇所選択部506の機能について、図12を参照して説明する。要約対象テキスト530について、3人の要約作成者が別々に要約532、要約534及び要約536を作成したものとする。重要箇所選択部506は、これら3つの要約の各々から内容語を抽出し、2つ以上に使用されている内容後を重要箇所として選択する。例えば、図12に示す例では、「4月1日現在」、「引き取り手がない110人」、及び「老人福祉施設」という内容語が2つの要約で使用されている。さらに、「残っている」という単語列が3つの要約に共通に現れている。したがって、これら4つの部分が重要箇所として抽出され、これらが重要箇所としてマークされた要約対象テキスト538が生成される。
このようにして重要語が抽出された後、要約対象テキスト530でその重要語が使用されている箇所を正例、それ以外の箇所を負例として、学習データを生成する。
なお、人手による要約の作成には、上記した目的にかなうように注意が必要である。そのためには様々な制約を課す必要がある。例えば、要約を作成する際には最初に要約対象テキストの中で重要と思われる単語をコピーして新たな文書を作成し、そこに適切な機能語を追加するという方法を採ることが好ましい。もとのテキストに出現してない内容語は要約に使用しない。要約は40文字以内とする。さらに、要約の末尾は統一した形(例えば「…こと」)で終了する、という制約を課してもよい。
図13は、図11に示す重要箇所選択部506を実現するプログラムの制御構造を示すフローチャートである。図13を参照して、このプログラムは。全ての要約対象テキストに対し、処理542を実行するステップ540を含む。
処理542は、要約対象テキストを読出すステップ550、このテキストに対して形態素解析及び係り受け解析を行うステップ552、各形態素に対応した要素を持つ配列を準備するステップ554、及び各要約者の要約に対して以下の処理558を実行することにより、要約対象テキストの各形態素がいくつの要約において使用されているかをカウントし、対応する配列に格納するステップ556と、ステップ556でカウントされた数を含む配列を係り受け後の要約対象テキストと関連付けて出力するステップ560とを含む。
処理558は、要約者の要約のマーク箇所に対して処理572を実行するステップ570を含む。処理572は、要約対象テキストの各形態素に対して処理582を実行するステップ580を含む。処理582では、各形態素に対応する配列の値に1を加算する。すなわち、この処理582により各形態素を採用した要約の数が算出される。
図14は、図11に示す学習データ生成部512を実現するコンピュータプログラムの制御構造を示すフローチャートである。図14を参照して、このプログラムは、それぞれ第1の学習データ記憶装置514及び第2の学習データ記憶装置516に格納される第1の学習データファイルと第2の学習データファイルを初期化するステップ600と、マーク済の全要約対象テキストに対して以下の処理604を実行するステップ602とを含む。
処理604は、処理対象の要約テキストを読むステップ610と、読み込んだテキスト中の問題記述の位置を特定するステップ612と、問題記述以外の各要素に対して、以下の処理616を実行するステップ614とを含む。
処理616は、処理対象の要素が問題記述中の述語テンプレートの述語より前に有るか否かを判定するステップ620と、ステップ620の判定が肯定であるとき(即ち、要素が問題記述の述語より前にあるとき)に、第1のパターンにより学習データを生成するステップ622と、処理対象の要素に重要箇所のマークが付されているかを判定するステップ624と、ステップ624の判定が肯定であるとき(即ち、重要箇所のマークが付されているとき)に学習データを正例として第1の学習データファイルに追加するステップ628と、ステップ624の判定が否定であるとき(即ち、重要箇所のマークが付されていないとき)に、学習データを負例として第1の学習データファイルに追加するステップ626とを含む。
処理616はさらに、ステップ620の判定が否定であるとき(即ち、要素が問題記述の述語より後ろにあるとき)に、第2のパターンにより学習データを生成するステップ632と、処理対象の要素に重要箇所のマークが付されているか否かを判定するステップ634と、ステップ634の判定が肯定であるとき(即ち、重要箇所のマークが付されているとき)に、学習データを正例として第2の学習データファイルに追加するステップ636と、ステップ634の判定が否定であるとき(即ち、重要箇所のマークが付されていないとき)に、学習データを負例として第2の学習データファイルに追加するステップ638とを含む。
図15は、図1に示す重要箇所抽出器56を実現するプログラムの制御構造を示すフローチャートである。図15を参照して、このプログラムは、要約を作成する対象であるテキストを読むステップ650と、読み込んだテキストに対して形態素解析を行うステップ652と、形態素解析の結果に基づいてテキストの係り受け解析を行うステップ654と、テキスト中で問題記述の箇所としてマークされている部分の述語テンプレートを特定するステップ656と、テキスト中の内容語を重要箇所の候補とし、その各々に対して処理660を実行するステップ658とを含む。
処理660は、処理対象の候補が問題記述の述語の前か否かを判定し、制御の流れを分岐させるステップ670と、ステップ670の判定が肯定のとき(即ち、処理対象の候補が問題記述の述語の前にあるとき)に、第1の方法によりMCNNの各カラムへの入力となる単語ベクトル列を入力テキストから作成するステップ672と、ステップ672で作成された単語ベクトル列を第1の重要箇所検出器520のMCNNに入力しその判定結果を得るステップ674と、ステップ670の判定が否定のとき(即ち、処理対象の候補が問題記述の述語の後にあるとき)に、第2の方法によりMCNNの各カラムへの入力となる単語ベクトル列を入力テキストから作成するステップ676と、ステップ676で作成された単語ベクトル列を第2の重要箇所検出器524のMCNNに入力し、その判定結果を得るステップ678とを含む。
処理660はさらに、ステップ674又は678の結果、MCNNにより処理中の要素が重要箇所と判定されたか否かを判定して制御の流れを分岐させるステップ680と、ステップ680の判定が肯定のとき(即ち、正しい重要箇所であったとき)に、処理中の要素のフラグをセットして処理660を終了するステップ682と、ステップ680の判定が否定のとき(即ち、正しい重要箇所でなかったとき)に、処理中の要素のフラグをリセットして処理660を終了するステップ684とを含む。
図16は、図1に示す要約器62の概略構成を示す図である。図16を参照して、この要約器62は、リカレント型ニューラルネットワークの一種であり、入力層を形成するLSTM700と、LSTM700からの出力を受けるように接続されたアテンション層704と、アテンション層704の出力を受けるように接続されたLSTM706とを含む。LSTMは機械翻訳、要約作成等で既に使用されており、その基本的構成及び動作はたとえばMinh-Thang Luong、Hieu Pham、Christopher D. Manning.Effective Approaches to Attention-based Neural Machine Translation.Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1412-1421, Lisbon, Portugal, 17-21 September 2015.に詳述されている。要約器62を構成するLSTMも基本的にはこの文献に記載のものと同様である。ただし、本実施の形態に係る要約器62では、LSTMに入力される各単語ベクトルに、その単語が重要箇所又は問題記述か否かを示すフラグを付す点に特徴がある。
図16に示すのは要約作成時のLSTMの動作を示す図であるが、学習時のLSTMの動作も途中までは要約作成時と同じである。すなわち、学習時には、LSTM700には、要約対象テキスト702を構成する単語列の単語ベクトル列の各単語ベクトルが所定の順番で与えられ、LSTM700、アテンション層704及びLSTM706の学習が行われる。図16に示す例では、要約対象テキスト702を構成する各単語の単語ベクトル710、712、714、…、716がLSTM700に順番に与えられる。このとき、単語ベクトルの末尾要素として、その単語が重要箇所か又は問題記述であるときには1を、それ以外のときには0となるフラグが付されている。もちろんこの要素の値には、単語が重要箇所か否かを判定できるものであればどのようなものを選んでもよい。単語ベクトルを与える順番として、学習時には通常の語順にしたがって与え、要約作成時には逆順にして与えることがよく行われる。ここでも同様の手法を用いる。
さらに、要約対象テキスト702の全ての単語及びフラグからなる単語ベクトルの入力が完了すると、入力の終了を示す値「<EOS>」がLSTM700に入力される。このとき、LSTM706の出力に人手で作成された要約の最初の単語が得られるよう、LSTM700、アテンション層704及びLSTM706の学習が行われる。
学習時には、図16と異なり、この後、LSTM700には人手で作成された要約の各単語の単語ベクトルが順に入力され、LSTM700、アテンション層704、及びLSTM706の学習が行われる。人手で作成された要約の各単語ベクトルのLSTM700への入力が終了したときに、LSTM706の出力に「<EOS>」が得られるよう、LSTM700、アテンション層704、及びLSTM706の学習が行われる。
要約作成時には学習時と一部異なった動作が行われる。要約作成時の要約対象テキスト702の要約器62への入力は、学習時と同様に行われる。ただし、要約作成時には単語の入力順序を逆転させてもよいことが知られている。要約対象テキストの末尾まで入力が終われば、「<EOS>」を示すベクトル718がLSTM700に入力される。このベクトル718に対してLSTM706が出力する単語が要約の1番目の単語となる。次に、LSTM706の出力として得られたこの単語をLSTM700への入力720として与える。これに応答してLSTM706の出力に得られる単語が要約の2番目の単語となる。以下同様に、LSTM706の出力をLSTM700への入力722とする処理を繰返す。LSTM700への入力に対してLSTM706の出力に「<EOS>」が得られると処理は終了する。この間にLSTM706の出力として得られた単語列708が、入力された要約対象テキスト702の要約となる。
図17は、要約器62の実体を構成する要約器LSTMの学習を行う、要約器LSTM学習部64を実現するためのプログラムの制御構造をフローチャート形式で示す。図17を参照して、このプログラムは、全ての学習データに対して、その学習データを用いてLSTMの学習を行う処理742を実行するステップ740を含む。
処理742は、要約対象テキストを記憶装置から読むステップ750と、要約対象テキストを構成する各単語を単語ベクトルに変換して記憶装置に保存する処理754を実行するステップ752と、処理対象の要約対象テキストに対して人手で作成した要約(本実施の形態では3個)の各々を用いてLSTMの学習を行う処理758を実行するステップ756とを含む。
処理754は、処理対象の単語を単語ベクトルに変換するステップ770と、この単語ベクトルの末尾に、この単語が重要単語又は問題記述箇所の単語であるときにはそれを示す第1の値を、そうでないときには第1の値と異なる第2の値をとる1次元のランダムベクトルからなる新たな要素をフラグとして追加するステップ772と、こうして変換された単語ベクトルを、直前の単語に対応する単語ベクトルの次に追加して記憶装置に保存するステップ774とを含む。
処理758は、処理754により記憶装置に保存された単語ベクトル列を読出し、順番にLSTM700に入力し要約器62を学習させるステップ780と、全ての単語ベクトルがLSTM700に入力された後、<EOS>を表す単語ベクトルをLSTM700に入力し要約器62を学習させるステップ782と、人手で作成された処理対象の要約文を記憶装置から読出すステップ784と、この要約文に含まれる各単語を単語ベクトルに変換してLSTM700に順番に入力する処理788を実行するステップ786と、要約文の末尾を示す<EOS>をLSTM700に入力するステップ790とを含む。
処理788は、処理対象の単語を単語ベクトルに変換するステップ800と、この単語ベクトルをLSTM700に入力し要約器62を学習させるステップ802とを含む。
図18は、上述のようにして学習が行われた要約器62を用いて要約対象テキストの要約を作成する、図1に示すテキスト要約システム30を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。図18を参照して、このプログラムは、要約対象テキストを記憶装置から読出すステップ810と、この要約対象テキストについて、図1に示す問題記述候補抽出器46に相当する処理(図2)を実行することにより、問題記述の候補を抽出するステップ812と、ステップ812により抽出された問題記述の候補に対して、図1に示す問題記述判定器50に相当する処理(図10)を実行することにより、正しい問題記述か否かを判定するステップ814と、ステップ814で正しい問題記述であると判定された箇所の各々について、要約を作成する処理818を実行するステップ816とを含む。
処理818は、要約対象テキストから、重要箇所抽出器56(図1参照)に相当する処理により重要箇所を抽出するステップ830と、抽出された重要箇所にフラグをセットするステップ832と、要約対象テキストの各単語を単語ベクトルに変換することにより単語ベクトル列を生成するステップ834と、生成された各単語ベクトルに、その単語が重要箇所又は問題記述であるときには1を、そうでないときには0をとる要素を付加するステップ836とを含む。
処理818はさらに、ステップ834及び836で生成された単語ベクトル列を順番にLSTM700に入力するステップ838と、ステップ838により全ての単語ベクトルがLSTM700に入力された後に、<EOS>をLSTM700に入力するステップ840と、このときのLSTM706の出力を読むステップ842と、以後、LSTM706から<EOS>が出力されるまで、LSTM706から出力される単語列を記憶する処理846を実行するステップ844と、LSTM706から<EOS>が出力され、ステップ844が終了したことに応答して、処理846により記憶された単語列を要約対象テキストの要約として出力するステップ848とを含む。
処理846は、LSTM706から出力される単語を、これまでの単語列の末尾に追加して記憶するステップ860と、ステップ860でLSTM706から出力された単語をLSTM700に入力として与えるステップ862とを含む。
<動作>
以上、構成を説明したテキスト要約システム30は以下のように動作する。テキスト要約システム30の動作フェーズは大きく分けて2つある。第1は学習フェーズ、第2は要約作成フェーズである。
〈学習フェーズ〉
学習フェーズはさらに3つに分かれる。第1は問題記述判定器50の学習であり、第2は重要箇所抽出器56の学習であり、第3は要約器62の学習である。
−問題記述判定器50の学習−
問題記述判定器50の学習は以下のようにして行われる。図3を参照して、最初に、学習用のテキストをテキスト集合記憶装置130に記憶し、名詞極性辞書132及びテンプレート極性辞書134を準備する。問題記述候補抽出器140が以下のようにしてテキスト集合記憶装置130の各テキストを読み、名詞極性辞書132とテンプレート極性辞書134を参照してこれらテキスト中で問題記述の候補を見つけ、その箇所を含む前後の3文からなる問題記述候補を抽出する。
すなわち、図2を参照して、問題記述候補抽出器46を実現するコンピュータプログラムは、対象のテキストを記憶装置から読出し(ステップ90)、読出したテキストを句点で文に分割する(ステップ92)。さらに、処理対象のテキストの全ての文に対して問題記述の候補を探す処理98を実行する(ステップ96)。
処理98では、テキストを形態素解析し(ステップ110)、テキストの係り受け解析を行う(ステップ112)。その後、係り受け解析されたテキストの中で、互いに係り受け関係にある名詞と述語テンプレートとの組み合わせの各々について、名詞極性辞書42及びテンプレート極性辞書44を参照して、それらの極性の積を算出する(ステップ114)。これらのうち、積が負になるものがあれば(ステップ116で肯定)、その文と前後の文からなるあわせて3文を要約対象テキスト候補として出力する(ステップ118)。この処理98を全てのテキストに対して実行することで、問題記述の候補が複数個得られる。
再び図3を参照して、こうして得られた問題記述候補は問題記述候補記憶装置142に記憶される。これら問題記述候補を人手で調べ、正しい問題記述箇所とそうでないものとに分類する(分類処理144)。正しい問題記述箇所は正例記憶装置146に、そうでないものは負例記憶装置148に、それぞれ記憶される。
学習データ生成部150は、正例記憶装置146及び負例記憶装置148に記憶された正例及び負例から問題記述判定器50のための学習データを生成する。生成された学習データは学習データ記憶装置152に記憶される。学習処理部154は、この学習データを用いて問題記述判定器50のMCNNの学習を行う。
図4を参照して、学習データ生成部150の制御部160は、正例を処理するときは正例記憶装置146の出力がテキスト読出部164の入力に接続され、負例を処理するときは負例記憶装置148の出力がテキスト読出部164の入力に接続されるようにセレクタ162を切替える。テキスト読出部164はセレクタ162を介して正例記憶装置146又は負例記憶装置148からテキストを1つずつ順番に読出す。形態素解析部166がこのテキストに対して形態素解析を行い、係り受け関係解析部168が係り受け関係解析を行い、係り受け情報が付された解析後文170を出力する。
第1−第11の単語列生成部172はそれぞれ、問題記述判定器50のMCNN(図3参照)の各カラムに対応した11個の単語列を生成し単語ベクトル変換部174に与える。単語ベクトル変換部174はこれら11個の単語列を構成する単語の各々を単語ベクトルに変換し、生成された11個の単語ベクトル列をフラグ付加部176に与える。フラグ付加部176は、制御部160がセレクタ162を制御するために出力している信号を受信し、その値を学習データの正例又は負例を表すものとして11個の単語ベクトル列からなる学習データにフラグを付加する。学習データ出力部178は、こうして得られた学習データを学習データ記憶装置152に格納する。
正例記憶装置146に記憶された正例及び負例記憶装置148に記憶された負例の全てについて学習データが生成されると学習データ生成部150による学習データの準備が終了する。
第1−第11の単語列生成部172により生成される11個の単語ベクトル列については、図5−図7を参照して前述したとおりである。
図8を参照して、各学習データの第1の単語ベクトル列は問題記述判定器50を構成するMCNN214の第1カラムの畳み込みニューラルネットワーク群360の第1カラムに与えられる。第2〜第4の単語ベクトル列は、MCNN214の第2カラムの畳み込みニューラルネットワーク群362の3つのサブネットワークにそれぞれ与えられる。第5〜第8の単語ベクトル列は、第3カラムの畳み込みニューラルネットワーク群364の4つのサブネットワークにそれぞれ与えられる。第9〜第11の単語ベクトル列は、第4の畳み込みニューラルネットワーク群366の3つのサブネットワークにそれぞれ与えられる。MCNN214の学習は、通常のニューラルネットワークと同様、誤差逆伝播により行われる。
―重要箇所抽出器56の学習―
図11に示す重要箇所抽出器MCNN学習部58により図1に示す重要箇所抽出器56の学習を行うためには、図11を参照して、最初に複数の要約対象テキストを集め、要約対象テキスト記憶装置500に記憶させておく。これら要約対象テキストの各々について、複数人(本実施の形態では3人)の要約作成者により要約を作成する(要約作成処理502)。作成された要約は、要約対象テキストに関連付けて要約記憶装置504に記憶させる。この要約作成の際には、ある制約にしたがって行うことは前述したとおりである。
重要箇所選択部506が、各要約対象テキストについて、その要約対象テキストの3つの要約のうち、少なくとも2つの要約に共通に含まれる単語を重要箇所として選択する。要約対象テキストマーキング部508が、各要約対象テキストのうち、重要箇所選択部506が選択した単語を重要箇所としてマークしマーク済要約対象テキストを出力する。要約対象テキストマーキング部508の出力するマーク済の要約対象テキストはマーク済要約対象テキスト記憶装置510に記憶される。学習データ生成部512が、マーク済要約対象テキスト記憶装置510からマーク済の要約対象テキストを読出し、テキスト中の問題記述中の述語テンプレートと、重要箇所との前後関係に応じて学習データを生成し、第1の学習データ記憶装置514又は第2の学習データ記憶装置516のいずれかに出力する。重要箇所又はその候補CANDが要約対象テキスト中でPREDより前に現れる場合には、表1のTNPをCANDで置換する(第1の方法)。もしもPREDがCANDより前に現れる場合には、表1においてCANDとPREDの位置を交換する(第2の方法)。このとき、要約対象テキスト530のうちでその重要語が使用されている箇所を正例、それ以外の箇所を負例として、学習データを生成する。
第1の学習処理部518は、第1の学習データ記憶装置514に記憶された学習データを用いて重要箇所検出器520のMCNNの学習を行う。第2の学習処理部522は、第2の学習データ記憶装置516に記憶された学習データを用いて重要箇所検出器524のMCNNの学習を行う。
―要約器62の学習―
図17を参照して、要約器62の実体を構成する要約器LSTMの学習を行う処理(要約器LSTM学習部64に相当)は以下のように行われる。この処理に先立って、要約対象テキストと、各要約対象テキストに対して人手で3つずつ作成された要約とが記憶装置に記憶されている必要がある。要約対象テキストの各々の各単語には、問題記述の箇所と重要箇所とをそれ以外に対して識別するフラグが付されている。
まず、全ての学習データに対して処理742を実行する。処理742では、要約対象テキストを記憶装置から読み(ステップ750)、要約対象テキストを構成する各単語を単語ベクトルに変換して記憶装置に保存する処理754を実行する(ステップ752)。この後、処理対象の要約対象テキストに対して人手で作成した要約の各々を用いてLSTMの学習を行う処理758を実行する(ステップ756)。
処理754では、処理対象の単語を単語ベクトルに変換し(ステップ770)、この単語ベクトルの末尾に、この単語が重要単語又は問題記述箇所の単語であるときには第1の値を、そうでないときには第2の値をとるフラグからなる新たな要素を追加する(ステップ772)。こうして変換された単語ベクトルを、直前の単語に対応する単語ベクトルの次に追加して記憶装置に保存する(ステップ774)。
処理758では、処理754により記憶装置に保存された単語ベクトル列を読出し、順番にLSTM700に入力し要約器62に学習させる(ステップ780)。全ての単語ベクトルがLSTM700に入力された後、<EOS>を表す単語ベクトルをLSTM700に入力し要約器62を学習させる(ステップ782)。この後、人手で作成された処理対象の要約文を記憶装置から読出し(ステップ784)、処理788でこの要約文に含まれる各単語を単語ベクトルに変換してLSTM700に順番に入力する(ステップ786)。要約文の入力が終わったら、その末尾を示す<EOS>をLSTM700に入力する(ステップ790)。
処理788は、処理対象の単語を単語ベクトルに変換し(ステップ800)、この単語ベクトルをLSTM700に入力し要約器62を学習させる(ステップ802)。
以上の一連の処理により、問題記述判定器50、重要箇所抽出器56、及び要約器62の学習が終了し、テキスト要約システム30による要約の作成が可能になる。
〈要約作成フェーズ〉
図1を参照して、テキスト集合記憶装置40に要約作成の対象となるテキストを格納し、名詞極性辞書42とテンプレート極性辞書44を予め準備しておく。テキスト集合記憶装置40に格納された各文に対して、問題記述候補抽出器46が名詞極性辞書42及びテンプレート極性辞書44を参照しながら問題記述の候補を抽出し、問題記述の候補を含む文とその前後の文からなる3文を要約対象テキスト候補として抽出し問題記述候補記憶装置48に格納する。
問題記述判定器50は、問題記述候補記憶装置48に格納された要約対象テキスト候補の問題記述の箇所が正しい問題記述であるか否かを判定し、正しいもののみを要約対象テキストとして要約対象テキスト記憶装置54に格納し、それ以外の候補は破棄する。
重要箇所抽出器56は要約対象テキスト記憶装置54に記憶された各要約対象テキストの各単語について、その単語と問題記述との関係に応じて2種類ある重要箇所抽出用のMCNNを用いてその単語が重要箇所か否かを判定し、重要箇所である単語があるときにはその単語に重要箇所であることを示すマークを付してマーク済要約対象テキスト記憶装置60に出力する。
要約器62はマーク済要約対象テキスト記憶装置60に記憶されたマーク済の要約対象テキストの各単語を単語ベクトルに変換し、さらに各単語ベクトルに、その単語が重要箇所又は問題記述か否かを示すフラグを付して要約器62のLSTM700に順番に入力し、さらに最後に<EOS>を示す単語ベクトルをLSTM700に入力する。要約器62はさらに、このときにLSTM706から出力された単語を記憶するとともにLSTM700への入力とする。この入力に応じてLSTM706から出力された単語を追加して記憶し、さらにLSTM700に入力する。要約器62はこのような動作をLSTM706から<EOS>が出力されるまで行う。<EOS>が出力されると、それまでにLSTM706から出力された単語列を処理対象の要約対象テキストの要約として出力する。
要約器62は、マーク済要約対象テキスト記憶装置60に記憶された要約対象テキストの全てに対し、上記した動作を繰返す。
[コンピュータによる実現]
上記実施の形態に係る要約作成システム及びその各構成要素は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図19はこのコンピュータシステム930の外観を示し、図20はコンピュータシステム930の内部構成を示す。
図19を参照して、このコンピュータシステム930は、メモリポート952及びDVD(Digital Versatile Disc)ドライブ950を有するコンピュータ940と、キーボード946と、マウス948と、モニタ942とを含む。
図20を参照して、コンピュータ940は、メモリポート952及びDVDドライブ950に加えて、CPU(中央処理装置)956と、CPU956、メモリポート952及びDVDドライブ950に接続されたバス966と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)958と、バス966に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)960とを含む。コンピュータシステム930はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)944を含む。ネットワークI/F944は、インターネット968に接続されてもよい。
コンピュータシステム930を上記した各実施の形態の要約作成システム、又はその各機能部として機能させるためのコンピュータプログラムは、DVDドライブ950又はメモリポート952に装着されるDVD962又はリムーバブルメモリ964に記憶され、さらにハードディスク954に転送される。又は、プログラムはネットワークI/F944を通じてコンピュータ940に送信されハードディスク954に記憶されてもよい。プログラムは実行の際にRAM960にロードされる。DVD962から、リムーバブルメモリ964から、又はネットワークI/F944を介して、直接にRAM960にプログラムをロードしてもよい。
このプログラムは、コンピュータ940を、上記各実施の形態に係る要約作成システム又はその各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ940上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又は、コンピュータ940にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の要約作成システムを実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記した要約作成システム又はその各機能部としての機能を実現する命令のみを含んでいればよい。コンピュータシステム930の動作は周知である。したがってここでは繰返さない。
なお、要約対象テキスト等のテキスト類は、上記実施の形態ではハードディスク954に記憶され、適宜RAM960に展開される。MCNN及びLSTMのためのモデルパラメータ等はいずれもRAM960に記憶される。最終的に最適化されたモデルパラメータ等はRAM960からハードディスク954、DVD962又はリムーバブルメモリ964に格納される。またはモデルパラメータはネットワークI/F944を介して別の装置に送信してもよいし、別の装置から受信してもよい。
[実施の形態の効果]
上記した実施の形態のテキスト要約システム30によれば、要約対象テキストから要約を作成するにあたり、要約対象テキスト中の問題記述の箇所と、さらにその問題記述に対して重要な箇所とが特定され、他の単語と区別したフラグが付された単語ベクトルとしてLSTMへの入力が行われる。その結果、要約対象テキストに含まれる問題記述に関連した視点から要約が作成され、従来よりもテキストの内容をより適切に表す要約を得ることができる。
上記実施の形態では、問題記述判定器50及び重要箇所抽出器56にはいずれもMCNNが使用されている。しかし本発明はそのような実施の形態には限定されない。MCNN以外にも、SVM、LSTM等を用いることが可能である。また上記実施の形態では、名詞極性辞書をテンプレート極性辞書とを用い、注目記述として問題が記述された箇所の候補を抽出している。その際、名詞の極性としていわゆるトラブル名詞か否かという観点を用いている。しかし本発明はそのような実施の形態には限定されない。名詞の極性としては、興味の対象である名詞の属性であればどのようなものを用いても良い。
本発明の他の局面に係る注目箇所抽出装置は、対象テキスト内のある観点にしたがって注目すべき記述がされた箇所である注目記述を抽出するための注目箇所抽出装置であって、複数の名詞の各々について、ある観点から見た極性を記録した名詞極性辞書と、名詞と組み合わされることによりフレーズを形成する述語テンプレートを、当該述語テンプレートと組み合わされた名詞の指す対象の機能又は効果を発揮させることを意味するか否かという観点から見た極性を記憶するテンプレート極性辞書と、入力されるテキスト内で組み合わされている名詞と述語テンプレートとの組み合わせの各々について、当該組み合わせの極性を名詞極性辞書とテンプレート極性辞書とを参照して決定し、その極性が所定の条件を充足したものを、その文脈情報とともに注目記述の候補として抽出する候補抽出手段と、候補抽出手段により抽出された注目記述の候補の各々について、当該候補の文脈情報から複数通りの方法で生成した複数通りの単語ベクトル列を生成する単語ベクトル列生成手段と、単語ベクトル列生成手段により生成された単語ベクトル列が入力されたことに応答して、当該単語ベクトル列に対応する注目記述の候補が真の注目記述である度合いを示すスコアを出力するように予め学習済の注目記述スコア算出手段を含む。
本発明のさらに他の局面に係る重要箇所検出装置は、注目すべき事項が記述された箇所である注目記述にマークが付された対象テキストを記憶するためのテキスト記憶装置と、テキスト記憶装置に記憶された対象テキストについて、注目記述との関連で重要である箇所を検出するための検出手段とを含み、検出手段は、対象テキスト内で所定の条件を満たす単語列の各々について、当該単語列に関する文脈から複数通りの方法で生成した複数通りの単語ベクトル列を生成する単語ベクトル列生成手段と、単語ベクトル列生成手段により生成された単語ベクトル列が入力されたことに応答して、当該単語ベクトル列に対応する単語列が注目記述との関連で重要である箇所であることを示すスコアを出力するように、予め学習済のスコア算出手段と、単語列の内で、スコア算出手段のスコアが最も高いものを注目記述との関連で重要であるとしてマークする重要箇所マーク手段とを含む。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30 テキスト要約システム
42、132 名詞極性辞書
44、134 テンプレート極性辞書
46、140 問題記述候補抽出器
50 問題記述判定器
52 問題記述判定器MCNN学習部
56 重要箇所抽出器
58 重要箇所抽出器MCNN学習部
60、510 マーク済要約対象テキスト記憶装置
62 要約器
64 要約器LSTM学習部
130 テキスト集合記憶装置
144 人手による分類処理
150、512 学習データ生成部
152、514、516 学習データ記憶装置
160 制御部
164 テキスト読出部
166 形態素解析部
168 係り受け関係解析部
170 解析後文
172 第1−第11の単語列生成部
174 単語ベクトル変換部
176 フラグ付加部
178 学習データ出力部
214 MCNN
504 要約記憶装置
506 重要箇所選択部
508 要約対象テキストマーキング部
518、522 学習処理部
520、524 重要箇所検出器
540、702 要約対象テキスト
700、706 LSTM
704 アテンション層
708 単語列

Claims (6)

  1. テキストの要約を生成する要約生成装置であって、
    前記テキストを、当該テキストの内の注目箇所を示す情報とともに記憶するテキスト記憶装置と、
    前記テキストの各単語を、予め定める方法によりベクトル化し、さらに、当該単語が前記注目箇所か否かを示す要素を前記ベクトルに追加することにより、前記テキストを単語ベクトル列に変換するための単語ベクトル変換手段と、
    シーケンス・ツー・シーケンス型の変換を行うニューラルネットワークからなり、単語ベクトル列の各単語ベクトルが所定の順番で入力されたことに応答して、当該単語ベクトル列が表す単語からなるテキストの要約を出力するよう、予め機械学習により学習済の要約手段と、
    前記単語ベクトル変換手段により変換された単語ベクトル列の各単語ベクトルを前記所定の順番で前記ニューラルネットワークに入力するための入力手段とを含む、要約生成装置。
  2. 前記テキスト記憶装置は、前記テキストとともに、当該テキストの複数箇所の前記注目箇所を示す情報を記憶可能である、請求項1に記載の要約生成装置。
  3. 前記ニューラルネットワークは、再帰型ニューラルネットワークである、請求項1又は請求項2に記載の要約生成装置。
  4. 前記再帰型ニューラルネットワークはLSTMである、請求項3に記載の要約生成装置。
  5. コンピュータを用いてテキストの要約を生成する要約生成方法であって、
    コンピュータが、前記テキストを、当該テキストの内の注目箇所を示す情報とともにテキスト記憶装置に記憶するステップと、
    コンピュータが、前記テキスト記憶装置に記憶された前記テキストの各単語を、予め定める方法によりベクトル化し、さらに、当該単語が前記注目箇所か否かを示す要素を前記ベクトルに追加することにより、前記テキストを単語ベクトル列に変換するステップと、
    コンピュータが、シーケンス・ツー・シーケンス型の変換を行うニューラルネットワークからなり、単語ベクトル列の各単語ベクトルが所定の順番で入力されたことに応答して、当該単語ベクトル列が表す単語からなるテキストの要約を出力するよう、予め機械学習により学習済の要約プログラムを呼び出すステップと、
    コンピュータが、前記単語ベクトル列の各単語ベクトルを前記所定の順番で前記ニューラルネットワークに入力し、当該入力に応答して前記ニューラルネットワークの出力する単語列を前記テキストの要約として得るステップとを含む、要約生成方法。
  6. コンピュータに、請求項5に記載の要約生成方法を実行するよう機能させる、コンピュータプログラム。
JP2017092146A 2017-05-08 2017-05-08 要約生成装置、要約生成方法及びコンピュータプログラム Active JP6842167B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017092146A JP6842167B2 (ja) 2017-05-08 2017-05-08 要約生成装置、要約生成方法及びコンピュータプログラム
US16/610,916 US11106714B2 (en) 2017-05-08 2018-05-07 Summary generating apparatus, summary generating method and computer program
PCT/JP2018/017606 WO2018207723A1 (ja) 2017-05-08 2018-05-07 要約生成装置、要約生成方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017092146A JP6842167B2 (ja) 2017-05-08 2017-05-08 要約生成装置、要約生成方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2018190188A true JP2018190188A (ja) 2018-11-29
JP6842167B2 JP6842167B2 (ja) 2021-03-17

Family

ID=64104725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017092146A Active JP6842167B2 (ja) 2017-05-08 2017-05-08 要約生成装置、要約生成方法及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US11106714B2 (ja)
JP (1) JP6842167B2 (ja)
WO (1) WO2018207723A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN111178053A (zh) * 2019-12-30 2020-05-19 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN111274793A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 一种文本处理方法、装置以及计算设备
JP2020101936A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 提供装置、提供方法、及び提供プログラム
JP2020520492A (ja) * 2018-03-08 2020-07-09 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co.,Ltd. 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
JP2020140469A (ja) * 2019-02-28 2020-09-03 富士ゼロックス株式会社 学習装置及び学習プログラム並びに文生成装置及び文生成プログラム
KR20210043406A (ko) * 2019-10-11 2021-04-21 숭실대학교산학협력단 문서 맥락 기반 커버리지를 이용한 자동 요약 방법, 이를 수행하기 위한 기록 매체 및 장치
WO2021176549A1 (ja) * 2020-03-03 2021-09-10 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム
JP2022511593A (ja) * 2019-10-28 2022-02-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664472B2 (en) * 2018-06-27 2020-05-26 Bitdefender IPR Management Ltd. Systems and methods for translating natural language sentences into database queries
CN109766434B (zh) * 2018-12-29 2020-12-11 北京百度网讯科技有限公司 摘要生成方法及装置
US20200402116A1 (en) * 2019-06-19 2020-12-24 Reali Inc. System, method, computer program product or platform for efficient real estate value estimation and/or optimization
US11281854B2 (en) * 2019-08-21 2022-03-22 Primer Technologies, Inc. Limiting a dictionary used by a natural language model to summarize a document
CN110716964A (zh) * 2019-09-19 2020-01-21 卓尔智联(武汉)研究院有限公司 基于gru网络的新生儿取名方法、电子设备及存储介质
US20220343076A1 (en) * 2019-10-02 2022-10-27 Nippon Telegraph And Telephone Corporation Text generation apparatus, text generation learning apparatus, text generation method, text generation learning method and program
CN111026861B (zh) * 2019-12-10 2023-07-04 腾讯科技(深圳)有限公司 文本摘要的生成方法、训练方法、装置、设备及介质
CN111046168B (zh) * 2019-12-19 2023-12-01 智慧芽信息科技(苏州)有限公司 用于生成专利概述信息的方法、装置、电子设备和介质
CN111461904B (zh) * 2020-04-17 2022-06-21 支付宝(杭州)信息技术有限公司 对象类别的分析方法及装置
CN111538829B (zh) * 2020-04-27 2021-04-20 众能联合数字技术有限公司 一种新的工程机械租赁场景网页文本关键内容提取方法
US10885436B1 (en) * 2020-05-07 2021-01-05 Google Llc Training text summarization neural networks with an extracted segments prediction objective
US11397892B2 (en) * 2020-05-22 2022-07-26 Servicenow Canada Inc. Method of and system for training machine learning algorithm to generate text summary
CN111813924B (zh) * 2020-07-09 2021-04-09 四川大学 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN111858914B (zh) * 2020-07-27 2021-07-30 湖南大学 一种基于句级评估的文本摘要生成方法和系统
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN113806627A (zh) * 2021-03-12 2021-12-17 京东科技控股股份有限公司 兴趣点的类型识别方法、装置、计算机设备及存储介质
CN113076127B (zh) * 2021-04-25 2023-08-29 南京大学 编程环境下问答内容的提取方法、系统、电子设备及介质
US11586805B2 (en) * 2021-07-26 2023-02-21 Atlassian Pty Ltd. Machine-learning-based natural language processing techniques for low-latency document summarization
CN113761934B (zh) * 2021-07-29 2023-03-31 华为技术有限公司 一种基于自注意力机制的词向量表示方法及自注意力模型

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153396A (ja) * 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2011221728A (ja) * 2010-04-08 2011-11-04 Hitachi Ltd 文書分析装置及び文書分析方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP2002169834A (ja) * 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
JP2002236681A (ja) * 2001-02-09 2002-08-23 Inst Of Physical & Chemical Res 日常言語コンピューティングシステムおよびその方法
WO2010035412A1 (ja) * 2008-09-25 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
US10146751B1 (en) * 2014-12-31 2018-12-04 Guangsheng Zhang Methods for information extraction, search, and structured representation of text data
JP6775935B2 (ja) * 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
US10509860B2 (en) * 2016-02-10 2019-12-17 Weber State University Research Foundation Electronic message information retrieval system
US20180033425A1 (en) * 2016-07-28 2018-02-01 Fujitsu Limited Evaluation device and evaluation method
US10402495B1 (en) * 2016-09-01 2019-09-03 Facebook, Inc. Abstractive sentence summarization
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
CN108509413A (zh) * 2018-03-08 2018-09-07 平安科技(深圳)有限公司 文摘自动提取方法、装置、计算机设备及存储介质
US10909157B2 (en) * 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
US11380300B2 (en) * 2019-10-11 2022-07-05 Samsung Electronics Company, Ltd. Automatically generating speech markup language tags for text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153396A (ja) * 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2011221728A (ja) * 2010-04-08 2011-11-04 Hitachi Ltd 文書分析装置及び文書分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吉岡 重紀 外: "生成型一文要約のためのマルチアテンションモデルの提案", 第8回データ工学と情報マネジメントに関するフォーラム (第14回日本データベース学会年次大会) [O, JPN6020041473, 2 March 2016 (2016-03-02), JP, pages 1 - 7, ISSN: 0004376414 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020520492A (ja) * 2018-03-08 2020-07-09 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co.,Ltd. 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
CN111274793A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 一种文本处理方法、装置以及计算设备
JP2020101936A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 提供装置、提供方法、及び提供プログラム
JP7142559B2 (ja) 2018-12-20 2022-09-27 ヤフー株式会社 提供装置、提供方法、及び提供プログラム
JP7322428B2 (ja) 2019-02-28 2023-08-08 富士フイルムビジネスイノベーション株式会社 学習装置及び学習プログラム並びに文生成装置及び文生成プログラム
JP2020140469A (ja) * 2019-02-28 2020-09-03 富士ゼロックス株式会社 学習装置及び学習プログラム並びに文生成装置及び文生成プログラム
CN110348016B (zh) * 2019-07-15 2022-06-14 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
KR102501446B1 (ko) * 2019-10-11 2023-02-21 숭실대학교 산학협력단 문서 맥락 기반 커버리지를 이용한 자동 요약 방법, 이를 수행하기 위한 기록 매체 및 장치
KR20210043406A (ko) * 2019-10-11 2021-04-21 숭실대학교산학협력단 문서 맥락 기반 커버리지를 이용한 자동 요약 방법, 이를 수행하기 위한 기록 매체 및 장치
JP2022511593A (ja) * 2019-10-28 2022-02-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
JP7214949B2 (ja) 2019-10-28 2023-01-31 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
US11709999B2 (en) 2019-10-28 2023-07-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for acquiring POI state information, device and computer storage medium
CN111178053A (zh) * 2019-12-30 2020-05-19 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
WO2021176549A1 (ja) * 2020-03-03 2021-09-10 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム
JP7405234B2 (ja) 2020-03-03 2023-12-26 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム

Also Published As

Publication number Publication date
WO2018207723A1 (ja) 2018-11-15
US11106714B2 (en) 2021-08-31
US20200159755A1 (en) 2020-05-21
JP6842167B2 (ja) 2021-03-17

Similar Documents

Publication Publication Date Title
WO2018207723A1 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
Wang et al. Mathdqn: Solving arithmetic word problems via deep reinforcement learning
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
KR20180062321A (ko) 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
JP2004110161A (ja) テキスト文比較装置
Lin et al. Deep structured scene parsing by learning with image descriptions
US10528664B2 (en) Preserving and processing ambiguity in natural language
CN106778878B (zh) 一种人物关系分类方法及装置
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
US20220414463A1 (en) Automated troubleshooter
Banik et al. Gru based named entity recognition system for bangla online newspapers
KR20210034679A (ko) 엔티티-속성 관계 식별
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
JP2006330935A (ja) 学習データ作成プログラム、学習データ作成方法および学習データ作成装置
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
Zhang et al. Modeling the relationship between user comments and edits in document revision
CN113392220B (zh) 一种知识图谱生成方法、装置、计算机设备及存储介质
KR102299001B1 (ko) 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치
CN114201957A (zh) 文本情感分析方法、装置及计算机可读存储介质
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
CN113011141A (zh) 佛经注解模型训练方法、佛经注解生成方法及相关设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210212

R150 Certificate of patent or registration of utility model

Ref document number: 6842167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250