JP7142435B2 - 要約装置、要約方法、及び要約プログラム - Google Patents

要約装置、要約方法、及び要約プログラム Download PDF

Info

Publication number
JP7142435B2
JP7142435B2 JP2017255133A JP2017255133A JP7142435B2 JP 7142435 B2 JP7142435 B2 JP 7142435B2 JP 2017255133 A JP2017255133 A JP 2017255133A JP 2017255133 A JP2017255133 A JP 2017255133A JP 7142435 B2 JP7142435 B2 JP 7142435B2
Authority
JP
Japan
Prior art keywords
sentence
compressed
sentences
important
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017255133A
Other languages
English (en)
Other versions
JP2019121139A (ja
Inventor
佑磨 林
幹 森岡
素紀 二宗
弘明 高津
Original Assignee
Airev株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Airev株式会社 filed Critical Airev株式会社
Priority to JP2017255133A priority Critical patent/JP7142435B2/ja
Publication of JP2019121139A publication Critical patent/JP2019121139A/ja
Application granted granted Critical
Publication of JP7142435B2 publication Critical patent/JP7142435B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、要約装置、要約方法、及び要約プログラムに関する。
従来から、ニュースなどの文書を自動的に要約する技術が知られている。
下記特許文献1には、原文に基づいて要約を自動生成する文書要約装置が開示されている。この装置は、原文に含まれる複数の文と、これらの文のうち2文を融合した融合文と、文を分割した分割文とを圧縮前候補文とし、この圧縮前候補文を圧縮して要約候補文を生成している。そして、文書要約装置は、生成された複数の要約候補文から、所定の要約長さを満たす要約候補文を選択し要約を生成している。
下記非特許文献1には、文書の一部、例えば文、句、単語を抽出し、単語の共起、重要度、関連度などに基づいて要約を生成する抽出型要約モデルが開示されている。この抽出型要約モデルにおいては、生成された要約は、元の文書から出力する表現を抽出しているので、元の文書に現れた単語で構成されるとともに、文法的な要約を作成可能である。
下記非特許文献2には、教師データを用いた学習モデルにより、文書に現れない単語を使った要約を生成する生成型要約モデルが開示されている。この生成型要約モデルの教師データには、様々な長さの文で構成された要約が含まれているので、要約の構造情報の注釈を簡単に付けることができない。その結果、生成された要約は、文法的に不自然なものになってしまう、あるいは文書とは矛盾する内容になってしまう。
特開2017-151863号公報
Ramesh Nallapati, Bowen Zhow, Cicero dos Santos, Caglar Gulcehre, Bing Xiang : Abstructive Text Summarization using Sequence-to-sequence RNNs and Beyond, Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning(CoNLL), pp. 280-290, Berlin, Germany, August 7-12,2016. Rush, A. M., Chopra, S. and Weston, J.: A Neural Attention Model for Abstractive Sentence Summarization, Proceedings of EMNLP 2015, pp. 379-389(2015)
従来の抽出型要約モデルでは、例えば200文字ほどのニュース記事から、その記事の主題を押さえた重要度及び関連度が高い文を、文法的な構成を保ったまま抽出することができる。しかしながら、このモデルでは、要約における特徴的な技法の1つである表現の置き換えが適切に行われず、読みやすい要約を得ることができないという問題がある。
一方、生成型要約モデルでは、上述のように、文書に現れない単語を使った要約を生成することができるものの、文法構造としては適正ではなく、または原文とは矛盾する要約が多くなり、読みやすい要約を得ることができないという問題がある。
本発明は、読みやすい要約を生成できる要約装置、要約方法、及び要約プログラムを提供することにある。
本発明は、文書から要約を生成する要約装置において、文書に対して、形態素解析により生成された分かち書き済みの文章データに基づいて構文解析を行った構文解析済み文書データを生成する文書解析部と、前記文書解析部により解析された構文解析済み文書データから、重要スコアが高い順に上位N番目(Nは2以上の整数)までの複数の文を重要文としてそれぞれ抽出する重要文抽出部と、前記重要文抽出部により抽出された前記重要文をそれぞれ文圧縮して、当該重要文に対応する圧縮文をM行(は2以上の整数)生成する圧縮文生成部と、前記各重要文に対応する前記M行の圧縮文から、要約スコアが最も高い前記圧縮文をそれぞれ選択して要約を生成する要約生成部と、を有し、前記圧縮文生成部は、前記重要文の意味を抽出し、その意味から単語を生成して、前記重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成することを特徴とする。
また、要約生成部は、前記各圧縮文に対して、形態素解析により生成された分かち書き済みの圧縮文データに基づいて構文解析を行った構文解析済み圧縮文データをそれぞれ生成する圧縮文解析部と、前記構文解析済み圧縮文データから抽出された特徴量に基づいて要約スコアを算出するスコア算出部と、を有することができる。
また、前記重要文抽出部は、前記重要文に含まれる固有表現を抽出することができる。
また、前記圧縮部は、ニューラルネットワークを用いて前記重要文を文圧縮し、前記ニューラルネットワークの学習モデルは、複数の学習用文と前記複数の学習用文の各々に対する圧縮文とから予め学習されたものであることができる。
別の発明は、文書から要約を生成する要約方法であって、文書解析部が、文書に対して、形態素解析により生成された分かち書き済みの文章データに基づいて構文解析を行った構文解析済み文書データを生成する文書解析ステップと、重要文抽出部が、前記文書解析ステップにより解析された構文解析済み文書データから、スコアが高い順に上位N番目(Nは2以上の整数)までの高い複数の文を重要文としてそれぞれ抽出する重要文抽出ステップと、圧縮文生成部が、前記重要文抽出ステップにより抽出された前記重要文をそれぞれ文圧縮して、当該重要文に対応する圧縮文をM行(は2以上の整数)生成する圧縮文生成ステップと、要約生成部が、前記各重要文に対応する前記M行の圧縮文から、要約スコアが最も高い前記圧縮文をそれぞれ選択して要約を生成する要約生成ステップと、を有し、前記圧縮文生成部は、前記重要文の意味を抽出し、その意味から単語を生成して、前記重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成することを特徴とする。
さらに、別の発明は、コンピュータを、請求項1から5の何れか1つに記載の要約装置の各部として機能させるためのプログラムである。
本発明の要約装置、要約方法、及び要約プログラムによれば、読みやすい要約を生成できる。
本実施形態に係る要約装置の構成を示す図である。 本実施形態に係る学習装置の構成を示す図である。 要約装置が実行する処理の流れを示すフロー図である。 文書解析部が実行する処理の流れを示すフロー図である。 重要文抽出部が実行する処理の流れを示すフロー図である。 圧縮文生成部が実行する処理の流れを示すフロー図である。 要約生成部が実行する処理の流れを示すフロー図である。 本実施形態に係る要約装置のハードウェア構成を示す図である。
以下、要約装置、要約方法、及び要約プログラムの実施の形態について、図を用いて説明する。
[要約装置の構成]
本発明の実施の形態に係る要約装置の構成について図1を用い説明する。図1は、本実施形態に係る要約装置の構成を示す図である。
要約装置10は、情報が入力される入力部12と、入力部12に入力された情報を演算する演算部14と、演算部14による演算された情報を出力する出力部16とを有する。
入力部12は、要約対象となる文書を受け付ける。文書には、複数の文、すなわちテキストデータが含まれる。
演算部14は、文書解析部18と重要文抽出部20と圧縮文生成部22と要約生成部24とを有する。また、演算部14は、入力部12に入力された文書が記憶される記憶部26を有する。
文書解析部18は、記憶部26に記憶された文書を解析して文書データを生成する。具体的には、文書解析部18は、文書に対して形態素解析を行い、分かち書き済みの文書データを生成する。形態素解析により、文書に含まれる文は、意味を持つ最小の言語単位である形態素に分けられ、さらに、その形態素に対する品詞、読み、意味、原形(活用のある単語のみ)などの情報が付加される。そして、文書解析部18は、分かち書き済みの文書データに基づいて構文解析を行い、各々の文について構文解析済みの文書データを生成する。
重要文抽出部20は、文書解析部18により解析された文書データから、重要スコアが高い複数の文を重要文としてそれぞれ抽出する。具体的には、重要文抽出部20は、文章データの特徴量を抽出し、その特徴量に基づいて重要スコアを付与する。重要スコアの付与には、後述する学習装置40により生成されたモデルが用いられる。重要スコアを算出するための特徴量には、例えば、文書全体における文の位置、文の長さ、単語の出現頻度(共起)、単語の重要度、主題への関連度、文と文との類似度、単語の固有表現、文に含まれる動詞の情報が用いられる。例えば、単語の出現頻度が高いほど、単語の重要度の高いほど、または主題への関連度が高いほど、重要スコアを高くなるように設定することができる。また、重要文抽出部20は、予め設定された制約条件に基づいて重要文を抽出することもできる。制約条件とは、重要スコア以外で、重要文の抽出の自由度を制限する条件であり、文の長さ、固有表現を含む。文が冗長である、または短すぎると要約に適さないので、重要文抽出部20は、文の長さが所定の範囲以内である場合に限って、重要文を抽出する。また、人物、時間、場所、事柄などの固有表現は要約には必須の項目であるので、重要文抽出部20は、所定の固有表現を含む場合に限って、重要文を抽出することができる。これらの制約条件は任意に設定可能であり、重要スコアに基づく重要文の抽出と組み合わせることで、要約になりうる精度の良い重要文を抽出することができる。
文章データの特徴量は、文章データに含まれる素性を要素とする特徴ベクトルであり、所定の単位の特徴情報をベクトル化したものである。所定の単位とは、形態素またはN-gramである。形態素は、上述のように意味を持つ最小の言語単位である。N-gramは、N言語単位が隣接して生じる言語単位である。所定の単位の特徴情報には、品詞、読み、意味、原形(活用のある単語のみ)の情報の少なくとも1つが含まれる。ベクトルに基づくスコアは、二値(0又は1)、出現数、TF-IDF(Term Frequency-Inverse Document Frequency)の値、LDA(Latent Dirichlet Allocation)の値などであり、任意に設定可能である。例えば、TF-IDFは、単語の類似度がスコア化できるので、単語の重要度を示す指標として有用である。LDAは、推論されたトピックの類似度をスコア化できるので、主題の関連度、または文と文との類似度を示す指標として有用である。
また、重要文抽出部20では、文書データから重要文をN行(Nは2以上の整数)抽出することが予め設定されている。この数値Nは任意に設定可能である。この設定により、重要スコアが高い順に、上位N番目までの重要文を抽出する。また、抽出される複数の重要文において、類似度が高い2つの重要文が含まれている場合、重要文抽出部20は、それらの重要文の中から重要スコアの低い一方の重要文を抽出対象から除外し、上位N+1番目の重要文を抽出することができる。これにより、重要文抽出部20、抽出された複数の重要文に、重複した内容の文が含まれるのを防ぎ、かつ、重要スコアが高いにもかかわらず抽出漏れした重要文を抽出することができる。類似度の判定は、互いの重要文の特徴量が所定の範囲内であるとすることもでき、また、重要文に含まれる単語の一致率が所定値以上とすることもできる。なお、本実施形態では類似度の高い重要文の数が2行である場合について説明したが、本発明はこの構成に限定されず類似度の高い重要文がk行(kは3以上の整数)以上になってもよい。この場合、重要文抽出部20は、それらの重要文の中から重要スコアの低いk-1行の重要文を抽出対象から除外し、上位N+k番目の重要文を抽出することができる。
圧縮文生成部22は、重要文抽出部20により抽出された重要文をそれぞれ文圧縮して、それらの重要文に対応する圧縮文を複数生成する。具体的には、圧縮文生成部22は、重要文の意味を抽出し、その意味から単語を生成して、重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成する。重要文の意味抽出と、その意味からの単語生成とには、ニューラルネットワーク、例えばEncoder-Decoder翻訳モデルやRNN(Recurrent Neural Network)が用いられ、そのモデルは、後述する学習装置40により生成される。
また、圧縮文生成部22では、1つの重要文から圧縮文をM行(Mは2以上の整数)生成することが予め設定されている。この数値Mは任意に設定可能であり、上述した数値Nとは独立している。
要約生成部24は、圧縮文生成部22により生成された各重要文に対応する複数の圧縮文から、要約スコアが最も高い圧縮文をそれぞれ選択して要約を生成する。具体的には、要約生成部24は、各圧縮文を解析して圧縮文データをそれぞれ生成する圧縮文解析部28と、圧縮文解析部28により生成された圧縮文データから抽出された特徴量に基づいて要約スコアを算出するスコア算出部30とを有する。
圧縮文解析部28は、圧縮文に対して形態素解析を行い、分かち書き済みの圧縮文データを生成する。形態素解析により、文書に含まれる文は、意味を持つ最小の言語単位である形態素に分けられ、さらに、その形態素に対する品詞、読み、意味、原形(活用のある単語のみ)などの情報が付加される。そして、圧縮文解析部28は、分かち書き済みの圧縮文データに基づいて構文解析を行い、各圧縮文について構文解析済みの圧縮文データを生成する。
スコア算出部30は、圧縮文データの特徴量を抽出し、その特徴量に基づいて要約スコアを付与する。要約スコアの付与には、後述する学習装置40により生成されたモデルが用いられる。要約スコアを算出するための特徴量には、例えば、文書のジャンル、文の長さ、単語の出現頻度(共起)、単語の重要度、単語の固有表現、文に含まれる動詞、品詞の関連性、文字列、単語列及び品詞列の情報が用いられる。品詞の関連性とは、主語の品詞と述語の品詞との対などである。要約スコアは、主語と述語の主従関係が正しくなるほど高くなるように設定されてもよい。また、要約スコアに、品詞列を用いることができる。具体的には、圧縮文における文末の品詞列パターンが、教師データに用いられる要約における文末の品詞列パターンに似ているほど高い要約スコアを付与する。要約特有の文末の品詞列パターンには、体言止め、常体、ですます調、特有の助詞がある。特有の助詞とは「など」である。例えば、重要文が「グレープフルーツやレモンなど、柑橘系の香りは甘い物食べたい時のイライラを軽減してくれます」であり、この重要文から生成される圧縮文は、「柑橘系の香りは甘い物が食べたい時のイライラを軽減してくれます」、「柑橘系の香りは甘い物が食べたい時のイライラを軽減してくれる」、「レモンなど、柑橘系の香りは甘い物が食べたい時のイライラを軽減してくれる」の3通りであるとする。一方、教師データに含まれる要約には、「柑橘系の香りは、甘い物が食べたい時のイライラを軽減してくれる」がある。この場合の圧縮文における重要スコアは、文末の品詞列パターンの類似度から、順に、0.94,1.00、0.94となり、文末の品詞列パターンが教師データのものと同じである2番目の圧縮文に対して高い要約スコアが付与される。この品詞列による重要スコアの付与は一例であり、上記他の特徴量と組み合わせることで、要約に適する圧縮文を選択することができる。
圧縮文データの特徴量は、圧縮文データに含まれる素性を要素とする特徴ベクトルであり、所定の単位の特徴情報をベクトル化したものである。所定の単位とは、形態素およびN-gramである。形態素は、上述のように意味を持つ最小の言語単位である。N-gramは、N言語単位が隣接して生じる言語単位である。所定の単位の特徴情報には、品詞、読み、意味、原形(活用のある単語のみ)の情報の少なくとも1つが含まれる。ベクトルに基づくスコアは、二値(0又は1)、出現数、TF-IDF(Term Frequency-Inverse Document Frequency)の値、LDA(Latent Dirichlet Allocation)の値などであり、任意に設定可能である。例えば、TF-IDFは、単語の類似度がスコア化できるので、単語の重要度を示す指標として有用である。
要約生成部24は、M行の圧縮文から、要約スコアが最も高い圧縮文1行を選択する。N行の重要文があるので、要約生成部24により選択される圧縮文はN行となる。そして、要約生成部24は、それらの選択された圧縮文から要約を生成する。このとき、要約生成部24は、文書全体における各重要文の位置と、これらの重要文に対応する圧縮文との関係に基づいて、各重要文の順番どおりに、選択された圧縮文を並べて、要約の生成とすることができる。また、要約生成部24は、要約生成部24は、予め設定された制約条件に基づいて圧縮文を選択することもできる。制約条件とは、要約スコア以外で、圧縮文の選択の自由度を制限する条件であり、文の長さ、固有表現を含む。文が冗長である、または短すぎると要約に適さないので、要約生成部24は、文の長さが所定の範囲以内である場合に限って、圧縮文を選択する。また、人物、時間、場所、事柄などの固有表現は要約には必須の項目であるので、要約生成部24は、所定の固有表現を含む場合に限って、圧縮文を選択することができる。これらの制約条件は任意に設定可能であり、要約スコアに基づく圧縮文の選択と組み合わせることで、要約になりうる精度の良い圧縮文を選択することができる。
出力部16は、生成された要約を出力する。出力は、モニタによるテキスト表示であってもよく、要約をテキストデータとして外部環境に送信しても良い。
このような構成により、重要文抽出部20において、原文である文書の主題をおさえた重要度及び関連度が高い文を抽出することができる。また、圧縮文生成部22において、文書に現れない単語を使った文を生成することができる。さらに、要約生成部24では、文法構造が崩れた又は文法的に適切ではない圧縮文が取り除かれ、文書とは矛盾しない要約を生成することができる。その結果、その要約装置10によれば、読みやすい要約を得ることができる。
さらに、圧縮文生成部22は、文圧縮の前に、重要文に含まれる固有表現を抽出して任意のラベルを付与する。そして、要約生成部24は、選択した圧縮文に含まれる任意のラベルに対し、これに対応する固有表現を置き換える。このように、文圧縮前に、固有表現に対してラベルを付与し、要約となった後にラベルに対応する固有表現に置換することにより、圧縮時における不用意な単語の変換を防止することができる。
記憶部26は、入力部12に入力された文書を記憶する構成について説明したが、この構成に限定されない。記憶部26は、構文解析済みの文書データ、重要文、圧縮文、要約、重要及び要約スコア、固有表現とラベルの対抗関係なども記憶することができる。
[学習装置の構成]
次に実施の形態に係る要約装置の構成について図2を用い説明する。図2は、本実施形態に係る学習装置の構成を示す図である。
学習装置40は、情報が入力される入力部42と、入力部42に入力された情報を演算する演算部44と、演算部44による演算された情報を出力する出力部46とを有する。
入力部42は、学習対象となる複数の学習用文書を受け付ける。また、入力部42は、学習用文書に対する要約を受け付ける。要約は複数の文を含む。
演算部44は、学習用文書解析部48と特徴量抽出部50とモデル学習部52と記憶部54とを有する。
学習用文書解析部48は、学習用文書を解析して学習用文書データを生成する。具体的には、学習用文書解析部48は、学習用文書に対して形態素解析を行い、分かち書き済みの学習用文書データを生成する。形態素解析により、文書に含まれる文は、意味を持つ最小の言語単位である形態素に分けられ、さらに、その形態素に対する品詞、読み、意味、原形(活用のある単語のみ)などの情報が付加される。そして、学習用文書解析部48は、分かち書き済みの学習用文書データに基づいて構文解析を行い、各々の文について構文解析済みの学習用文書データを生成する。
学習用文書は、例えば、オンラインでのメディアサイトのニュース記事であり、そのテキストデータが取得されて記憶部54に格納される。ニュース記事は、政治、経済、スポーツ、テクノロジー、天気、芸能などであり、これらの1つのカテゴリであってもよく、複数のカテゴリであってもよい。なお、学習用文章は、ニュース記事に限らず、他のテキストデータ、例えば論文や電子メールの内容であってもよい。
特徴量抽出部50は、構文解析済みの学習用文書データの特徴量を抽出する。特徴量は、学習用文書データの素性を要素とする特徴ベクトルであり、各文が含む所定の単位の特徴情報を、機械学習用にベクトル化したものである。特徴ベクトルは、特徴量として記憶部54に格納される。所定の単位とは、形態素またはN-gramである。形態素は、意味を持つ最小の言語単位である。N-gramは、N言語単位が隣接して生じる言語単位である。所定の単位の特徴情報には、品詞、読み、意味、原形(活用のある単語のみ)の情報の少なくとも1つが含まれる。特徴量に含まれる素性のスコアは、二値(0又は1)、出現数、TF-IDF(Term Frequency-Inverse Document Frequency)の値、LDA(Latent Dirichlet Allocation)の値などである。
特徴量抽出部50は、辞書等を利用することで同義語、上位・下位語を同一素性として扱う、またはTF-IDF値に閾値を設けるなど統計の取りやすい特徴量を設計することが好適である。これにより、特徴量の特徴ベクトルの次元の低減が可能になるとともに、ノイズに対して頑健になる。
モデル学習部52は、特徴量を入力とし、要約を推定するモデルを学習する。要約は、1つの学習用文書に対して複数の文からなる。モデル学習部52による学習で生成されたモデルは、記憶部54に格納される。
モデルの学習には、教師用データと所定の機械学習のアルゴリズムとが用いられる。教師用データは学習用文書と要約であり、具体的には、学習用文書から特徴量抽出部50により抽出された特徴量と、この学習用文書に対応する要約とである。これらの対応関係は、人を介して学習用文書から要約が作られているので、正しい関係であり、教師用データとして適している。特徴量が、モデルを学習するための説明変数となる。一方、要約が、モデルを学習するための目的変数となる。よって、特徴量を入力とし、要約を出力とすることで、モデル学習部52は、説明変数によって目的変数が説明できるかを学習し、定量的に分析可能なモデルを学習および生成することができる。
所定の機械学習のアルゴリズムは、線形回帰、決定木、ロジスティック回帰、ニューラルネットワーク、k-means法、Nearest Neighbor法、SVM(Support vector machine)等を利用することができる。本実施形態の圧縮文生成部22に使用されるモデルには、ニューラルネットワークが用いられる。また、機械学習のアルゴリズムとして、逐一を学習できるオンライン線形識別器を用いることができる。このアルゴリズムは、要約装置10の運用後、利用者からのフィードバック情報を即時にモデルに反映させたい場合、特に有用である。オンライン線形識別器には、パーセプトロン、CW(Confidence Weighted Online Learning)、AROW(Adaptive Regularization of Weight Vectors)などがある。
出力部46は、生成されたモデルを出力する。モデルは、重要文抽出部20と圧縮文生成部22と要約生成部24に用いられる。これらの各構成20,22,24のモデルは、同一モデルであってもよく、各用途に応じて異なるアルゴリズムを用いて生成されたモデルであってもよい。
[要約生成の処理フロー]
次に、図3を用いて、要約装置10が実行する処理の流れについて説明する。
まず、ステップS01において、文書解析部18は、文書を解析して文書データを生成する。
そして、ステップS02では、重要文抽出部20は、前記文書解析ステップにより解析された文書データから、スコアが高い複数の文を重要文としてそれぞれ抽出する。
次に、ステップS03において、圧縮文生成部22は、重要文抽出ステップにより抽出された重要文をそれぞれ文圧縮して、その重要文に対応する圧縮文を複数生成する。
最後に、ステップS04において、要約生成部24は、各重要文に対応する複数の圧縮文から、要約スコアが最も高い圧縮文をそれぞれ選択して要約を生成し、この処理が終了する。
次に、図4を用いて、文書解析部18が実行する処理の流れについて、具体的に説明する。
まず、ステップS11において、文書解析部18は、記憶部24に記憶された文書に対して形態素解析を行い、分かち書き済みの文書データを生成する。
そして、ステップS12では、文書解析部18は、分かち書き済みの文書データに基づいて構文解析を行い、各々の文について構文解析済みの文書データを生成し、この処理を終了する。
次に、図5を用いて、重要文抽出部20が実行する処理の流れについて、具体的に説明する。この処理では、文書データから重要文をN行(Nは2以上の整数)抽出することが予め設定されている。
まず、ステップS21において、重要文抽出部20は、文章データの特徴量を抽出し、その特徴量に基づいて重要スコアを付与する。
そして、ステップ22では、重要文抽出部20は、重要スコアが高い順に、上位N番目までの重要文を抽出する。ここで、抽出される複数の重要文において、類似度が高い重要文が含まれている場合、重要文抽出部20は、その中から重要スコアの低い重要文を抽出対象から除外し、上位N+1番目の重要文を抽出する。N行の重要文が抽出されると、この処理が終了する。
次に、図6を用いて、圧縮文生成部22が実行する処理の流れについて、具体的に説明する。この処理では、1つの重要文から圧縮文をM行(Mは2以上の整数)生成することが予め設定されている。なお、この数値Mは任意に設定可能であり、上述した数値Nとは独立している。
まず、ステップS31において、圧縮文生成部22は、文圧縮の前に、重要文に含まれる固有表現を抽出して任意のラベルを付与する。
そして、ステップ32では、圧縮文生成部22は、重要文の意味を解析し、その意味から単語を生成して、重要文とは単語及び構文が相違しつつ意味が同じ圧縮文を生成し、この処理を終了する。
次に、図7を用いて、要約生成部24が実行する処理の流れについて、具体的に説明する。要約生成部24は、圧縮文解析部28とスコア算出部30を有し、これらの構成とともに実行する。
まず、ステップS41において、圧縮文解析部28は、各圧縮文を解析して圧縮文データをそれぞれ生成する。具体的には、圧縮文解析部28は、圧縮文に対して形態素解析を行い、分かち書き済みの圧縮文データを生成する。そして、圧縮文解析部28は、分かち書き済みの圧縮文データに基づいて構文解析を行い、各圧縮文について構文解析済みの圧縮文データを生成する。
そして、ステップS42では、スコア算出部30は、圧縮文解析部28により生成された圧縮文データから抽出された特徴量に基づいて要約スコアを算出する。具体的には、スコア算出部30は、圧縮文データの特徴量を抽出し、その特徴量に基づいて要約スコアを付与する。
さらに、ステップS43では、要約生成部24は、M行の圧縮文から、要約スコアが最も高い圧縮文1行を選択する。N行の重要文がある場合、要約生成部24は、N回の処理を行い、N行の圧縮文を選択する。
最後に、ステップS44では、要約生成部24は、それらの選択された圧縮文から要約を生成する。このとき、要約生成部24は、文書全体における各重要文の位置と、これらの重要文に対応する圧縮文との関係に基づいて、その順番に、選択された圧縮文を並べて、要約の生成とすることができる。
上述した一連の処理を実行することができる機能を要約装置10が備えていればよく、本発明は図1に示す機能的構成に限定されない。上記一連の処理は、ハードウェアにより実行させることも、ソフトウェアにより実行させることもできる。また、1つの機能ブロックは、ハードウェア単体で構成されてもよいし、ソフトウェア単体で構成されてもよく、またはこれらの組み合わせで構成されてもよい。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータなどにネットワークや記憶媒体からインストールされる。なお、プログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理を含むことができる。
[要約装置のハードウェア構成]
次に、本実施形態の要約装置10のハードウェア構成について図8を用いて説明する。
要約装置10は、一般的なコンピュータの構成を有しており、例えば、CPU(Central Processing Unit)100、RAM(Random Access Memory)102、ROM(Read Only Memory)104と、記憶部106と、ネットワークI/F(Interface)部108、入力部110、表示部112、及びバス114等を有する。
CPU100は、ROM104や記憶部106等に記憶されたプログラムやデータをRAM102上に読み出し、処理を実行することにより、装置10全体の制御や機能を実現する演算装置である。RAM102は、CPU100のワークエリア等として用いられる揮発性のメモリである。ROM104は、例えば、要約装置10の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定等が記憶された不揮発性のメモリである。
記憶部106は、OS(Operating System)や、各種のアプリケーションプログラム等を記憶する、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等のストレージ装置である。
ネットワークI/F部108は、要約装置10をネットワークに接続し、外部の情報端末等(図示せず)と通信を行うための通信インタフェースである。
入力部110は、例えばキーボードやマウス等の入力装置であり、要約装置10の運用者が、要約装置10に各種操作信号を入力するために用いられる。表示部112は、例えばディスプレイ等の表示装置であり、要約装置10による処理結果等を表示する。なお、入力部110、表示部112等は、必要なときに、要約装置10に接続して利用する形態であってもよい。
バス114は、上記の各構成に共通に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝達する。
なお、本実施形態の要約装置10は、上記構成に限定されず、ハードウェアの構成が別々のコンピュータにより実現されてもよい。また、要約装置10としての機能が、情報端末にインストールされたアプリケーションにより動作する場合、本実施形態の要約装置10のハードウェア構成の一部が情報端末のハードウェアによって実現されてもよい。
10 要約装置、12 入力部、14 演算部、16 出力部、18 文書解析部、20 重要文抽出部、22 圧縮文生成部,24 要約生成部、26 記憶部、28 圧縮文解析部、30 スコア算出部、40 学習装置、42 入力部、44 演算部、46 出力部、48 学習用文書解析部、50 特徴量抽出部、52 モデル学習部、54 記憶部。

Claims (6)

  1. 文書から要約を生成する要約装置において、
    文書に対して、形態素解析により生成された分かち書き済みの文章データに基づいて構文解析を行った構文解析済み文書データを生成する文書解析部と、
    前記文書解析部により解析された構文解析済み文書データから、重要スコアが高い順に上位N番目(Nは2以上の整数)までの複数の文を重要文としてそれぞれ抽出する重要文抽出部と、
    前記重要文抽出部により抽出された前記重要文をそれぞれ文圧縮して、当該重要文に対応する圧縮文をM行(は2以上の整数)生成する圧縮文生成部と、
    前記各重要文に対応する前記M行の圧縮文から、要約スコアが最も高い前記圧縮文をそれぞれ選択して要約を生成する要約生成部と、
    を有し、
    前記圧縮文生成部は、前記重要文の意味を抽出し、その意味から単語を生成して、前記重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成する、
    ことを特徴とする要約装置。
  2. 請求項1に記載の要約装置であって、
    要約生成部は、
    前記各圧縮文に対して、形態素解析により生成された分かち書き済みの圧縮文データに基づいて構文解析を行った構文解析済み圧縮文データをそれぞれ生成する圧縮文解析部と、
    前記構文解析済み圧縮文データから抽出された特徴量に基づいて要約スコアを算出するスコア算出部と、
    を有することを特徴とする要約装置。
  3. 請求項1または2に記載の要約装置であって、
    前記圧縮文生成部は、文圧縮の前に、前記重要文に含まれる固有表現を抽出して任意のラベルを付与し、
    前記要約生成部は、選択した前記圧縮文に含まれる前記任意のラベルに対し、これに対応する前記固有表現を置き換える、
    ことを特徴とする要約装置。
  4. 請求項1から3のいずれか1つに記載の要約装置であって、
    前記圧縮文生成部は、ニューラルネットワークを用いて前記重要文を文圧縮し、
    前記ニューラルネットワークの学習モデルは、複数の学習用文書と前記複数の学習用文書の各々に対する要約とから予め学習されたものである、
    ことを特徴とする要約装置。
  5. 文書から要約を生成する要約方法であって、
    文書解析部が、文書に対して、形態素解析により生成された分かち書き済みの文章データに基づいて構文解析を行った構文解析済み文書データを生成する文書解析ステップと、
    重要文抽出部が、前記文書解析ステップにより解析された構文解析済み文書データから、スコアが高い順に上位N番目(Nは2以上の整数)までの高い複数の文を重要文としてそれぞれ抽出する重要文抽出ステップと、
    圧縮文生成部が、前記重要文抽出ステップにより抽出された前記重要文をそれぞれ文圧縮して、当該重要文に対応する圧縮文をM行(は2以上の整数)生成する圧縮文生成ステップと、
    要約生成部が、前記各重要文に対応する前記M行の圧縮文から、要約スコアが最も高い前記圧縮文をそれぞれ選択して要約を生成する要約生成ステップと、
    を有し、
    前記圧縮文生成部は、前記重要文の意味を抽出し、その意味から単語を生成して、前記重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成する、
    ことを特徴とする要約方法。
  6. コンピュータを、請求項1から4の何れか1つに記載の要約装置の各部として機能させるためのプログラム。
JP2017255133A 2017-12-29 2017-12-29 要約装置、要約方法、及び要約プログラム Active JP7142435B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017255133A JP7142435B2 (ja) 2017-12-29 2017-12-29 要約装置、要約方法、及び要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017255133A JP7142435B2 (ja) 2017-12-29 2017-12-29 要約装置、要約方法、及び要約プログラム

Publications (2)

Publication Number Publication Date
JP2019121139A JP2019121139A (ja) 2019-07-22
JP7142435B2 true JP7142435B2 (ja) 2022-09-27

Family

ID=67306352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017255133A Active JP7142435B2 (ja) 2017-12-29 2017-12-29 要約装置、要約方法、及び要約プログラム

Country Status (1)

Country Link
JP (1) JP7142435B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7279753B2 (ja) 2021-09-01 2023-05-23 信越半導体株式会社 シリコンウェーハの洗浄方法および製造方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632976A (zh) * 2019-09-20 2021-04-09 株式会社Ntt都科摩 文本处理装置、方法、设备以及计算机可读存储介质
US20220343076A1 (en) * 2019-10-02 2022-10-27 Nippon Telegraph And Telephone Corporation Text generation apparatus, text generation learning apparatus, text generation method, text generation learning method and program
KR102565149B1 (ko) * 2020-05-27 2023-08-09 정치훈 문서의 요약문 제공 장치 및 방법
KR20220023211A (ko) * 2020-08-20 2022-03-02 삼성전자주식회사 대화 텍스트에 대한 요약 정보를 생성하는 전자 장치 및 그 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009104613A1 (ja) 2008-02-19 2009-08-27 日本電気株式会社 テキスト変換装置、方法、プログラム
JP2010262511A (ja) 2009-05-08 2010-11-18 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法、その装置およびプログラム
JP2017111190A (ja) 2015-12-14 2017-06-22 株式会社日立製作所 対話テキスト要約装置及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009104613A1 (ja) 2008-02-19 2009-08-27 日本電気株式会社 テキスト変換装置、方法、プログラム
JP2010262511A (ja) 2009-05-08 2010-11-18 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法、その装置およびプログラム
JP2017111190A (ja) 2015-12-14 2017-06-22 株式会社日立製作所 対話テキスト要約装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7279753B2 (ja) 2021-09-01 2023-05-23 信越半導体株式会社 シリコンウェーハの洗浄方法および製造方法

Also Published As

Publication number Publication date
JP2019121139A (ja) 2019-07-22

Similar Documents

Publication Publication Date Title
JP7142435B2 (ja) 要約装置、要約方法、及び要約プログラム
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
US10606946B2 (en) Learning word embedding using morphological knowledge
JP6676110B2 (ja) 発話文生成装置とその方法とプログラム
Sampath et al. Data set creation and empirical analysis for detecting signs of depression from social media postings
Yüksel et al. Turkish tweet classification with transformer encoder
Kumar et al. Analysis of users’ sentiments from kannada web documents
Tiwari et al. Ensemble approach for twitter sentiment analysis
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
Nasim et al. Cluster analysis of urdu tweets
CN115238039A (zh) 文本生成方法、电子设备及计算机可读存储介质
Thakur et al. A review on text based emotion recognition system
EP1503295A1 (en) Text generation method and text generation device
Saha et al. Vader vs. bert: A comparative performance analysis for sentiment on coronavirus outbreak
Zhang et al. Multi-document extractive summarization using window-based sentence representation
Chhabra et al. Deep learning model for personality traits classification from text emphasis on data slicing
JP5782487B2 (ja) 行動目的抽出方法及び装置
Liu et al. Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation
Naseem Hybrid Words Representation for the classification of low quality text
Riemer et al. A deep learning and knowledge transfer based architecture for social media user characteristic determination
KR101987605B1 (ko) 음악 감성 인식 방법 및 장치
Praveena et al. Chunking based malayalam paraphrase identification using unfolding recursive autoencoders
GeethaRamani et al. Identification of emotions in text articles through data pre-processing and data mining techniques
Dangol et al. Automated news classification using n-gram model and key features of nepali language
Maciołek et al. Using shallow semantic analysis and graph modelling for document classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220913

R150 Certificate of patent or registration of utility model

Ref document number: 7142435

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150