JP7142435B2

JP7142435B2 - 要約装置、要約方法、及び要約プログラム

Info

Publication number: JP7142435B2
Application number: JP2017255133A
Authority: JP
Inventors: 佑磨林; 幹森岡; 素紀二宗; 弘明高津
Original assignee: Ａｉｒｅｖ株式会社
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2022-09-27
Anticipated expiration: 2037-12-29
Also published as: JP2019121139A

Description

本発明は、要約装置、要約方法、及び要約プログラムに関する。

従来から、ニュースなどの文書を自動的に要約する技術が知られている。

下記特許文献１には、原文に基づいて要約を自動生成する文書要約装置が開示されている。この装置は、原文に含まれる複数の文と、これらの文のうち２文を融合した融合文と、文を分割した分割文とを圧縮前候補文とし、この圧縮前候補文を圧縮して要約候補文を生成している。そして、文書要約装置は、生成された複数の要約候補文から、所定の要約長さを満たす要約候補文を選択し要約を生成している。

下記非特許文献１には、文書の一部、例えば文、句、単語を抽出し、単語の共起、重要度、関連度などに基づいて要約を生成する抽出型要約モデルが開示されている。この抽出型要約モデルにおいては、生成された要約は、元の文書から出力する表現を抽出しているので、元の文書に現れた単語で構成されるとともに、文法的な要約を作成可能である。

下記非特許文献２には、教師データを用いた学習モデルにより、文書に現れない単語を使った要約を生成する生成型要約モデルが開示されている。この生成型要約モデルの教師データには、様々な長さの文で構成された要約が含まれているので、要約の構造情報の注釈を簡単に付けることができない。その結果、生成された要約は、文法的に不自然なものになってしまう、あるいは文書とは矛盾する内容になってしまう。

特開２０１７－１５１８６３号公報

Ramesh Nallapati, Bowen Zhow, Cicero dos Santos, Caglar Gulcehre, Bing Xiang : Abstructive Text Summarization using Sequence-to-sequence RNNs and Beyond, Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning(CoNLL), pp. 280-290, Berlin, Germany, August 7-12,2016. Rush, A. M., Chopra, S. and Weston, J.: A Neural Attention Model for Abstractive Sentence Summarization, Proceedings of EMNLP 2015, pp. 379-389(2015)

従来の抽出型要約モデルでは、例えば２００文字ほどのニュース記事から、その記事の主題を押さえた重要度及び関連度が高い文を、文法的な構成を保ったまま抽出することができる。しかしながら、このモデルでは、要約における特徴的な技法の１つである表現の置き換えが適切に行われず、読みやすい要約を得ることができないという問題がある。

一方、生成型要約モデルでは、上述のように、文書に現れない単語を使った要約を生成することができるものの、文法構造としては適正ではなく、または原文とは矛盾する要約が多くなり、読みやすい要約を得ることができないという問題がある。

本発明は、読みやすい要約を生成できる要約装置、要約方法、及び要約プログラムを提供することにある。

本発明は、文書から要約を生成する要約装置において、文書に対して、形態素解析により生成された分かち書き済みの文章データに基づいて構文解析を行った構文解析済み文書データを生成する文書解析部と、前記文書解析部により解析された構文解析済み文書データから、重要スコアが高い順に上位Ｎ番目（Ｎは２以上の整数）までの複数の文を重要文としてそれぞれ抽出する重要文抽出部と、前記重要文抽出部により抽出された前記重要文をそれぞれ文圧縮して、当該重要文に対応する圧縮文をＭ行（Ｍは２以上の整数）生成する圧縮文生成部と、前記各重要文に対応する前記Ｍ行の圧縮文から、要約スコアが最も高い前記圧縮文をそれぞれ選択して要約を生成する要約生成部と、を有し、前記圧縮文生成部は、前記重要文の意味を抽出し、その意味から単語を生成して、前記重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成することを特徴とする。

また、要約生成部は、前記各圧縮文に対して、形態素解析により生成された分かち書き済みの圧縮文データに基づいて構文解析を行った構文解析済み圧縮文データをそれぞれ生成する圧縮文解析部と、前記構文解析済み圧縮文データから抽出された特徴量に基づいて要約スコアを算出するスコア算出部と、を有することができる。

また、前記重要文抽出部は、前記重要文に含まれる固有表現を抽出することができる。

また、前記圧縮部は、ニューラルネットワークを用いて前記重要文を文圧縮し、前記ニューラルネットワークの学習モデルは、複数の学習用文と前記複数の学習用文の各々に対する圧縮文とから予め学習されたものであることができる。

別の発明は、文書から要約を生成する要約方法であって、文書解析部が、文書に対して、形態素解析により生成された分かち書き済みの文章データに基づいて構文解析を行った構文解析済み文書データを生成する文書解析ステップと、重要文抽出部が、前記文書解析ステップにより解析された構文解析済み文書データから、スコアが高い順に上位Ｎ番目（Ｎは２以上の整数）までの高い複数の文を重要文としてそれぞれ抽出する重要文抽出ステップと、圧縮文生成部が、前記重要文抽出ステップにより抽出された前記重要文をそれぞれ文圧縮して、当該重要文に対応する圧縮文をＭ行（Ｍは２以上の整数）生成する圧縮文生成ステップと、要約生成部が、前記各重要文に対応する前記Ｍ行の圧縮文から、要約スコアが最も高い前記圧縮文をそれぞれ選択して要約を生成する要約生成ステップと、を有し、前記圧縮文生成部は、前記重要文の意味を抽出し、その意味から単語を生成して、前記重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成することを特徴とする。

さらに、別の発明は、コンピュータを、請求項１から５の何れか１つに記載の要約装置の各部として機能させるためのプログラムである。

本発明の要約装置、要約方法、及び要約プログラムによれば、読みやすい要約を生成できる。

本実施形態に係る要約装置の構成を示す図である。本実施形態に係る学習装置の構成を示す図である。要約装置が実行する処理の流れを示すフロー図である。文書解析部が実行する処理の流れを示すフロー図である。重要文抽出部が実行する処理の流れを示すフロー図である。圧縮文生成部が実行する処理の流れを示すフロー図である。要約生成部が実行する処理の流れを示すフロー図である。本実施形態に係る要約装置のハードウェア構成を示す図である。

以下、要約装置、要約方法、及び要約プログラムの実施の形態について、図を用いて説明する。

［要約装置の構成］
本発明の実施の形態に係る要約装置の構成について図１を用い説明する。図１は、本実施形態に係る要約装置の構成を示す図である。

要約装置１０は、情報が入力される入力部１２と、入力部１２に入力された情報を演算する演算部１４と、演算部１４による演算された情報を出力する出力部１６とを有する。

入力部１２は、要約対象となる文書を受け付ける。文書には、複数の文、すなわちテキストデータが含まれる。

演算部１４は、文書解析部１８と重要文抽出部２０と圧縮文生成部２２と要約生成部２４とを有する。また、演算部１４は、入力部１２に入力された文書が記憶される記憶部２６を有する。

文書解析部１８は、記憶部２６に記憶された文書を解析して文書データを生成する。具体的には、文書解析部１８は、文書に対して形態素解析を行い、分かち書き済みの文書データを生成する。形態素解析により、文書に含まれる文は、意味を持つ最小の言語単位である形態素に分けられ、さらに、その形態素に対する品詞、読み、意味、原形（活用のある単語のみ）などの情報が付加される。そして、文書解析部１８は、分かち書き済みの文書データに基づいて構文解析を行い、各々の文について構文解析済みの文書データを生成する。

重要文抽出部２０は、文書解析部１８により解析された文書データから、重要スコアが高い複数の文を重要文としてそれぞれ抽出する。具体的には、重要文抽出部２０は、文章データの特徴量を抽出し、その特徴量に基づいて重要スコアを付与する。重要スコアの付与には、後述する学習装置４０により生成されたモデルが用いられる。重要スコアを算出するための特徴量には、例えば、文書全体における文の位置、文の長さ、単語の出現頻度（共起）、単語の重要度、主題への関連度、文と文との類似度、単語の固有表現、文に含まれる動詞の情報が用いられる。例えば、単語の出現頻度が高いほど、単語の重要度の高いほど、または主題への関連度が高いほど、重要スコアを高くなるように設定することができる。また、重要文抽出部２０は、予め設定された制約条件に基づいて重要文を抽出することもできる。制約条件とは、重要スコア以外で、重要文の抽出の自由度を制限する条件であり、文の長さ、固有表現を含む。文が冗長である、または短すぎると要約に適さないので、重要文抽出部２０は、文の長さが所定の範囲以内である場合に限って、重要文を抽出する。また、人物、時間、場所、事柄などの固有表現は要約には必須の項目であるので、重要文抽出部２０は、所定の固有表現を含む場合に限って、重要文を抽出することができる。これらの制約条件は任意に設定可能であり、重要スコアに基づく重要文の抽出と組み合わせることで、要約になりうる精度の良い重要文を抽出することができる。

文章データの特徴量は、文章データに含まれる素性を要素とする特徴ベクトルであり、所定の単位の特徴情報をベクトル化したものである。所定の単位とは、形態素またはＮ－ｇｒａｍである。形態素は、上述のように意味を持つ最小の言語単位である。Ｎ－ｇｒａｍは、Ｎ言語単位が隣接して生じる言語単位である。所定の単位の特徴情報には、品詞、読み、意味、原形（活用のある単語のみ）の情報の少なくとも１つが含まれる。ベクトルに基づくスコアは、二値（０又は１）、出現数、ＴＦ－ＩＤＦ（Term Frequency-Inverse Document Frequency）の値、ＬＤＡ（Latent Dirichlet Allocation）の値などであり、任意に設定可能である。例えば、ＴＦ－ＩＤＦは、単語の類似度がスコア化できるので、単語の重要度を示す指標として有用である。ＬＤＡは、推論されたトピックの類似度をスコア化できるので、主題の関連度、または文と文との類似度を示す指標として有用である。

また、重要文抽出部２０では、文書データから重要文をＮ行（Ｎは２以上の整数）抽出することが予め設定されている。この数値Ｎは任意に設定可能である。この設定により、重要スコアが高い順に、上位Ｎ番目までの重要文を抽出する。また、抽出される複数の重要文において、類似度が高い２つの重要文が含まれている場合、重要文抽出部２０は、それらの重要文の中から重要スコアの低い一方の重要文を抽出対象から除外し、上位Ｎ＋１番目の重要文を抽出することができる。これにより、重要文抽出部２０、抽出された複数の重要文に、重複した内容の文が含まれるのを防ぎ、かつ、重要スコアが高いにもかかわらず抽出漏れした重要文を抽出することができる。類似度の判定は、互いの重要文の特徴量が所定の範囲内であるとすることもでき、また、重要文に含まれる単語の一致率が所定値以上とすることもできる。なお、本実施形態では類似度の高い重要文の数が２行である場合について説明したが、本発明はこの構成に限定されず類似度の高い重要文がｋ行（ｋは３以上の整数）以上になってもよい。この場合、重要文抽出部２０は、それらの重要文の中から重要スコアの低いｋ－１行の重要文を抽出対象から除外し、上位Ｎ＋ｋ番目の重要文を抽出することができる。

圧縮文生成部２２は、重要文抽出部２０により抽出された重要文をそれぞれ文圧縮して、それらの重要文に対応する圧縮文を複数生成する。具体的には、圧縮文生成部２２は、重要文の意味を抽出し、その意味から単語を生成して、重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成する。重要文の意味抽出と、その意味からの単語生成とには、ニューラルネットワーク、例えばEncoder-Decoder翻訳モデルやＲＮＮ（Recurrent Neural Network）が用いられ、そのモデルは、後述する学習装置４０により生成される。

また、圧縮文生成部２２では、１つの重要文から圧縮文をＭ行（Ｍは２以上の整数）生成することが予め設定されている。この数値Ｍは任意に設定可能であり、上述した数値Ｎとは独立している。

要約生成部２４は、圧縮文生成部２２により生成された各重要文に対応する複数の圧縮文から、要約スコアが最も高い圧縮文をそれぞれ選択して要約を生成する。具体的には、要約生成部２４は、各圧縮文を解析して圧縮文データをそれぞれ生成する圧縮文解析部２８と、圧縮文解析部２８により生成された圧縮文データから抽出された特徴量に基づいて要約スコアを算出するスコア算出部３０とを有する。

圧縮文解析部２８は、圧縮文に対して形態素解析を行い、分かち書き済みの圧縮文データを生成する。形態素解析により、文書に含まれる文は、意味を持つ最小の言語単位である形態素に分けられ、さらに、その形態素に対する品詞、読み、意味、原形（活用のある単語のみ）などの情報が付加される。そして、圧縮文解析部２８は、分かち書き済みの圧縮文データに基づいて構文解析を行い、各圧縮文について構文解析済みの圧縮文データを生成する。

スコア算出部３０は、圧縮文データの特徴量を抽出し、その特徴量に基づいて要約スコアを付与する。要約スコアの付与には、後述する学習装置４０により生成されたモデルが用いられる。要約スコアを算出するための特徴量には、例えば、文書のジャンル、文の長さ、単語の出現頻度（共起）、単語の重要度、単語の固有表現、文に含まれる動詞、品詞の関連性、文字列、単語列及び品詞列の情報が用いられる。品詞の関連性とは、主語の品詞と述語の品詞との対などである。要約スコアは、主語と述語の主従関係が正しくなるほど高くなるように設定されてもよい。また、要約スコアに、品詞列を用いることができる。具体的には、圧縮文における文末の品詞列パターンが、教師データに用いられる要約における文末の品詞列パターンに似ているほど高い要約スコアを付与する。要約特有の文末の品詞列パターンには、体言止め、常体、ですます調、特有の助詞がある。特有の助詞とは「など」である。例えば、重要文が「グレープフルーツやレモンなど、柑橘系の香りは甘い物食べたい時のイライラを軽減してくれます」であり、この重要文から生成される圧縮文は、「柑橘系の香りは甘い物が食べたい時のイライラを軽減してくれます」、「柑橘系の香りは甘い物が食べたい時のイライラを軽減してくれる」、「レモンなど、柑橘系の香りは甘い物が食べたい時のイライラを軽減してくれる」の３通りであるとする。一方、教師データに含まれる要約には、「柑橘系の香りは、甘い物が食べたい時のイライラを軽減してくれる」がある。この場合の圧縮文における重要スコアは、文末の品詞列パターンの類似度から、順に、０．９４，１．００、０．９４となり、文末の品詞列パターンが教師データのものと同じである２番目の圧縮文に対して高い要約スコアが付与される。この品詞列による重要スコアの付与は一例であり、上記他の特徴量と組み合わせることで、要約に適する圧縮文を選択することができる。

圧縮文データの特徴量は、圧縮文データに含まれる素性を要素とする特徴ベクトルであり、所定の単位の特徴情報をベクトル化したものである。所定の単位とは、形態素およびＮ－ｇｒａｍである。形態素は、上述のように意味を持つ最小の言語単位である。Ｎ－ｇｒａｍは、Ｎ言語単位が隣接して生じる言語単位である。所定の単位の特徴情報には、品詞、読み、意味、原形（活用のある単語のみ）の情報の少なくとも１つが含まれる。ベクトルに基づくスコアは、二値（０又は１）、出現数、ＴＦ－ＩＤＦ（Term Frequency-Inverse Document Frequency）の値、ＬＤＡ（Latent Dirichlet Allocation）の値などであり、任意に設定可能である。例えば、ＴＦ－ＩＤＦは、単語の類似度がスコア化できるので、単語の重要度を示す指標として有用である。

要約生成部２４は、Ｍ行の圧縮文から、要約スコアが最も高い圧縮文１行を選択する。Ｎ行の重要文があるので、要約生成部２４により選択される圧縮文はＮ行となる。そして、要約生成部２４は、それらの選択された圧縮文から要約を生成する。このとき、要約生成部２４は、文書全体における各重要文の位置と、これらの重要文に対応する圧縮文との関係に基づいて、各重要文の順番どおりに、選択された圧縮文を並べて、要約の生成とすることができる。また、要約生成部２４は、要約生成部２４は、予め設定された制約条件に基づいて圧縮文を選択することもできる。制約条件とは、要約スコア以外で、圧縮文の選択の自由度を制限する条件であり、文の長さ、固有表現を含む。文が冗長である、または短すぎると要約に適さないので、要約生成部２４は、文の長さが所定の範囲以内である場合に限って、圧縮文を選択する。また、人物、時間、場所、事柄などの固有表現は要約には必須の項目であるので、要約生成部２４は、所定の固有表現を含む場合に限って、圧縮文を選択することができる。これらの制約条件は任意に設定可能であり、要約スコアに基づく圧縮文の選択と組み合わせることで、要約になりうる精度の良い圧縮文を選択することができる。

出力部１６は、生成された要約を出力する。出力は、モニタによるテキスト表示であってもよく、要約をテキストデータとして外部環境に送信しても良い。

このような構成により、重要文抽出部２０において、原文である文書の主題をおさえた重要度及び関連度が高い文を抽出することができる。また、圧縮文生成部２２において、文書に現れない単語を使った文を生成することができる。さらに、要約生成部２４では、文法構造が崩れた又は文法的に適切ではない圧縮文が取り除かれ、文書とは矛盾しない要約を生成することができる。その結果、その要約装置１０によれば、読みやすい要約を得ることができる。

さらに、圧縮文生成部２２は、文圧縮の前に、重要文に含まれる固有表現を抽出して任意のラベルを付与する。そして、要約生成部２４は、選択した圧縮文に含まれる任意のラベルに対し、これに対応する固有表現を置き換える。このように、文圧縮前に、固有表現に対してラベルを付与し、要約となった後にラベルに対応する固有表現に置換することにより、圧縮時における不用意な単語の変換を防止することができる。

記憶部２６は、入力部１２に入力された文書を記憶する構成について説明したが、この構成に限定されない。記憶部２６は、構文解析済みの文書データ、重要文、圧縮文、要約、重要及び要約スコア、固有表現とラベルの対抗関係なども記憶することができる。

［学習装置の構成］
次に実施の形態に係る要約装置の構成について図２を用い説明する。図２は、本実施形態に係る学習装置の構成を示す図である。

学習装置４０は、情報が入力される入力部４２と、入力部４２に入力された情報を演算する演算部４４と、演算部４４による演算された情報を出力する出力部４６とを有する。

入力部４２は、学習対象となる複数の学習用文書を受け付ける。また、入力部４２は、学習用文書に対する要約を受け付ける。要約は複数の文を含む。

演算部４４は、学習用文書解析部４８と特徴量抽出部５０とモデル学習部５２と記憶部５４とを有する。

学習用文書解析部４８は、学習用文書を解析して学習用文書データを生成する。具体的には、学習用文書解析部４８は、学習用文書に対して形態素解析を行い、分かち書き済みの学習用文書データを生成する。形態素解析により、文書に含まれる文は、意味を持つ最小の言語単位である形態素に分けられ、さらに、その形態素に対する品詞、読み、意味、原形（活用のある単語のみ）などの情報が付加される。そして、学習用文書解析部４８は、分かち書き済みの学習用文書データに基づいて構文解析を行い、各々の文について構文解析済みの学習用文書データを生成する。

学習用文書は、例えば、オンラインでのメディアサイトのニュース記事であり、そのテキストデータが取得されて記憶部５４に格納される。ニュース記事は、政治、経済、スポーツ、テクノロジー、天気、芸能などであり、これらの１つのカテゴリであってもよく、複数のカテゴリであってもよい。なお、学習用文章は、ニュース記事に限らず、他のテキストデータ、例えば論文や電子メールの内容であってもよい。

特徴量抽出部５０は、構文解析済みの学習用文書データの特徴量を抽出する。特徴量は、学習用文書データの素性を要素とする特徴ベクトルであり、各文が含む所定の単位の特徴情報を、機械学習用にベクトル化したものである。特徴ベクトルは、特徴量として記憶部５４に格納される。所定の単位とは、形態素またはＮ－ｇｒａｍである。形態素は、意味を持つ最小の言語単位である。Ｎ－ｇｒａｍは、Ｎ言語単位が隣接して生じる言語単位である。所定の単位の特徴情報には、品詞、読み、意味、原形（活用のある単語のみ）の情報の少なくとも１つが含まれる。特徴量に含まれる素性のスコアは、二値（０又は１）、出現数、ＴＦ－ＩＤＦ（Term Frequency-Inverse Document Frequency）の値、ＬＤＡ（Latent Dirichlet Allocation）の値などである。

特徴量抽出部５０は、辞書等を利用することで同義語、上位・下位語を同一素性として扱う、またはＴＦ－ＩＤＦ値に閾値を設けるなど統計の取りやすい特徴量を設計することが好適である。これにより、特徴量の特徴ベクトルの次元の低減が可能になるとともに、ノイズに対して頑健になる。

モデル学習部５２は、特徴量を入力とし、要約を推定するモデルを学習する。要約は、１つの学習用文書に対して複数の文からなる。モデル学習部５２による学習で生成されたモデルは、記憶部５４に格納される。

モデルの学習には、教師用データと所定の機械学習のアルゴリズムとが用いられる。教師用データは学習用文書と要約であり、具体的には、学習用文書から特徴量抽出部５０により抽出された特徴量と、この学習用文書に対応する要約とである。これらの対応関係は、人を介して学習用文書から要約が作られているので、正しい関係であり、教師用データとして適している。特徴量が、モデルを学習するための説明変数となる。一方、要約が、モデルを学習するための目的変数となる。よって、特徴量を入力とし、要約を出力とすることで、モデル学習部５２は、説明変数によって目的変数が説明できるかを学習し、定量的に分析可能なモデルを学習および生成することができる。

所定の機械学習のアルゴリズムは、線形回帰、決定木、ロジスティック回帰、ニューラルネットワーク、ｋ－ｍｅａｎｓ法、ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ法、ＳＶＭ（Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）等を利用することができる。本実施形態の圧縮文生成部２２に使用されるモデルには、ニューラルネットワークが用いられる。また、機械学習のアルゴリズムとして、逐一を学習できるオンライン線形識別器を用いることができる。このアルゴリズムは、要約装置１０の運用後、利用者からのフィードバック情報を即時にモデルに反映させたい場合、特に有用である。オンライン線形識別器には、パーセプトロン、ＣＷ（Confidence Weighted Online Learning）、ＡＲＯＷ（Adaptive Regularization of Weight Vectors）などがある。

出力部４６は、生成されたモデルを出力する。モデルは、重要文抽出部２０と圧縮文生成部２２と要約生成部２４に用いられる。これらの各構成２０，２２，２４のモデルは、同一モデルであってもよく、各用途に応じて異なるアルゴリズムを用いて生成されたモデルであってもよい。

［要約生成の処理フロー］
次に、図３を用いて、要約装置１０が実行する処理の流れについて説明する。

まず、ステップＳ０１において、文書解析部１８は、文書を解析して文書データを生成する。

そして、ステップＳ０２では、重要文抽出部２０は、前記文書解析ステップにより解析された文書データから、スコアが高い複数の文を重要文としてそれぞれ抽出する。

次に、ステップＳ０３において、圧縮文生成部２２は、重要文抽出ステップにより抽出された重要文をそれぞれ文圧縮して、その重要文に対応する圧縮文を複数生成する。

最後に、ステップＳ０４において、要約生成部２４は、各重要文に対応する複数の圧縮文から、要約スコアが最も高い圧縮文をそれぞれ選択して要約を生成し、この処理が終了する。

次に、図４を用いて、文書解析部１８が実行する処理の流れについて、具体的に説明する。

まず、ステップＳ１１において、文書解析部１８は、記憶部２４に記憶された文書に対して形態素解析を行い、分かち書き済みの文書データを生成する。

そして、ステップＳ１２では、文書解析部１８は、分かち書き済みの文書データに基づいて構文解析を行い、各々の文について構文解析済みの文書データを生成し、この処理を終了する。

次に、図５を用いて、重要文抽出部２０が実行する処理の流れについて、具体的に説明する。この処理では、文書データから重要文をＮ行（Ｎは２以上の整数）抽出することが予め設定されている。

まず、ステップＳ２１において、重要文抽出部２０は、文章データの特徴量を抽出し、その特徴量に基づいて重要スコアを付与する。

そして、ステップ２２では、重要文抽出部２０は、重要スコアが高い順に、上位Ｎ番目までの重要文を抽出する。ここで、抽出される複数の重要文において、類似度が高い重要文が含まれている場合、重要文抽出部２０は、その中から重要スコアの低い重要文を抽出対象から除外し、上位Ｎ＋１番目の重要文を抽出する。Ｎ行の重要文が抽出されると、この処理が終了する。

次に、図６を用いて、圧縮文生成部２２が実行する処理の流れについて、具体的に説明する。この処理では、１つの重要文から圧縮文をＭ行（Ｍは２以上の整数）生成することが予め設定されている。なお、この数値Ｍは任意に設定可能であり、上述した数値Ｎとは独立している。

まず、ステップＳ３１において、圧縮文生成部２２は、文圧縮の前に、重要文に含まれる固有表現を抽出して任意のラベルを付与する。

そして、ステップ３２では、圧縮文生成部２２は、重要文の意味を解析し、その意味から単語を生成して、重要文とは単語及び構文が相違しつつ意味が同じ圧縮文を生成し、この処理を終了する。

次に、図７を用いて、要約生成部２４が実行する処理の流れについて、具体的に説明する。要約生成部２４は、圧縮文解析部２８とスコア算出部３０を有し、これらの構成とともに実行する。

まず、ステップＳ４１において、圧縮文解析部２８は、各圧縮文を解析して圧縮文データをそれぞれ生成する。具体的には、圧縮文解析部２８は、圧縮文に対して形態素解析を行い、分かち書き済みの圧縮文データを生成する。そして、圧縮文解析部２８は、分かち書き済みの圧縮文データに基づいて構文解析を行い、各圧縮文について構文解析済みの圧縮文データを生成する。

そして、ステップＳ４２では、スコア算出部３０は、圧縮文解析部２８により生成された圧縮文データから抽出された特徴量に基づいて要約スコアを算出する。具体的には、スコア算出部３０は、圧縮文データの特徴量を抽出し、その特徴量に基づいて要約スコアを付与する。

さらに、ステップＳ４３では、要約生成部２４は、Ｍ行の圧縮文から、要約スコアが最も高い圧縮文１行を選択する。Ｎ行の重要文がある場合、要約生成部２４は、Ｎ回の処理を行い、Ｎ行の圧縮文を選択する。

最後に、ステップＳ４４では、要約生成部２４は、それらの選択された圧縮文から要約を生成する。このとき、要約生成部２４は、文書全体における各重要文の位置と、これらの重要文に対応する圧縮文との関係に基づいて、その順番に、選択された圧縮文を並べて、要約の生成とすることができる。

上述した一連の処理を実行することができる機能を要約装置１０が備えていればよく、本発明は図１に示す機能的構成に限定されない。上記一連の処理は、ハードウェアにより実行させることも、ソフトウェアにより実行させることもできる。また、１つの機能ブロックは、ハードウェア単体で構成されてもよいし、ソフトウェア単体で構成されてもよく、またはこれらの組み合わせで構成されてもよい。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータなどにネットワークや記憶媒体からインストールされる。なお、プログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理を含むことができる。

［要約装置のハードウェア構成］
次に、本実施形態の要約装置１０のハードウェア構成について図８を用いて説明する。

要約装置１０は、一般的なコンピュータの構成を有しており、例えば、ＣＰＵ（Central Processing Unit）１００、ＲＡＭ（Random Access Memory）１０２、ＲＯＭ（Read Only Memory）１０４と、記憶部１０６と、ネットワークＩ／Ｆ（Interface）部１０８、入力部１１０、表示部１１２、及びバス１１４等を有する。

ＣＰＵ１００は、ＲＯＭ１０４や記憶部１０６等に記憶されたプログラムやデータをＲＡＭ１０２上に読み出し、処理を実行することにより、装置１０全体の制御や機能を実現する演算装置である。ＲＡＭ１０２は、ＣＰＵ１００のワークエリア等として用いられる揮発性のメモリである。ＲＯＭ１０４は、例えば、要約装置１０の起動時に実行されるＢＩＯＳ（Basic Input/Output System）、及び各種設定等が記憶された不揮発性のメモリである。

記憶部１０６は、ＯＳ（Operating System）や、各種のアプリケーションプログラム等を記憶する、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等のストレージ装置である。

ネットワークＩ／Ｆ部１０８は、要約装置１０をネットワークに接続し、外部の情報端末等（図示せず）と通信を行うための通信インタフェースである。

入力部１１０は、例えばキーボードやマウス等の入力装置であり、要約装置１０の運用者が、要約装置１０に各種操作信号を入力するために用いられる。表示部１１２は、例えばディスプレイ等の表示装置であり、要約装置１０による処理結果等を表示する。なお、入力部１１０、表示部１１２等は、必要なときに、要約装置１０に接続して利用する形態であってもよい。

バス１１４は、上記の各構成に共通に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝達する。

なお、本実施形態の要約装置１０は、上記構成に限定されず、ハードウェアの構成が別々のコンピュータにより実現されてもよい。また、要約装置１０としての機能が、情報端末にインストールされたアプリケーションにより動作する場合、本実施形態の要約装置１０のハードウェア構成の一部が情報端末のハードウェアによって実現されてもよい。

１０要約装置、１２入力部、１４演算部、１６出力部、１８文書解析部、２０重要文抽出部、２２圧縮文生成部，２４要約生成部、２６記憶部、２８圧縮文解析部、３０スコア算出部、４０学習装置、４２入力部、４４演算部、４６出力部、４８学習用文書解析部、５０特徴量抽出部、５２モデル学習部、５４記憶部。

Claims

文書から要約を生成する要約装置において、
文書に対して、形態素解析により生成された分かち書き済みの文章データに基づいて構文解析を行った構文解析済み文書データを生成する文書解析部と、
前記文書解析部により解析された構文解析済み文書データから、重要スコアが高い順に上位Ｎ番目（Ｎは２以上の整数）までの複数の文を重要文としてそれぞれ抽出する重要文抽出部と、
前記重要文抽出部により抽出された前記重要文をそれぞれ文圧縮して、当該重要文に対応する圧縮文をＭ行（Ｍは２以上の整数）生成する圧縮文生成部と、
前記各重要文に対応する前記Ｍ行の圧縮文から、要約スコアが最も高い前記圧縮文をそれぞれ選択して要約を生成する要約生成部と、
を有し、
前記圧縮文生成部は、前記重要文の意味を抽出し、その意味から単語を生成して、前記重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成する、
ことを特徴とする要約装置。
請求項１に記載の要約装置であって、
要約生成部は、
前記各圧縮文に対して、形態素解析により生成された分かち書き済みの圧縮文データに基づいて構文解析を行った構文解析済み圧縮文データをそれぞれ生成する圧縮文解析部と、
前記構文解析済み圧縮文データから抽出された特徴量に基づいて要約スコアを算出するスコア算出部と、
を有することを特徴とする要約装置。
請求項１または２に記載の要約装置であって、
前記圧縮文生成部は、文圧縮の前に、前記重要文に含まれる固有表現を抽出して任意のラベルを付与し、
前記要約生成部は、選択した前記圧縮文に含まれる前記任意のラベルに対し、これに対応する前記固有表現を置き換える、
ことを特徴とする要約装置。
請求項１から３のいずれか１つに記載の要約装置であって、
前記圧縮文生成部は、ニューラルネットワークを用いて前記重要文を文圧縮し、
前記ニューラルネットワークの学習モデルは、複数の学習用文書と前記複数の学習用文書の各々に対する要約とから予め学習されたものである、
ことを特徴とする要約装置。
文書から要約を生成する要約方法であって、
文書解析部が、文書に対して、形態素解析により生成された分かち書き済みの文章データに基づいて構文解析を行った構文解析済み文書データを生成する文書解析ステップと、
重要文抽出部が、前記文書解析ステップにより解析された構文解析済み文書データから、スコアが高い順に上位Ｎ番目（Ｎは２以上の整数）までの高い複数の文を重要文としてそれぞれ抽出する重要文抽出ステップと、
圧縮文生成部が、前記重要文抽出ステップにより抽出された前記重要文をそれぞれ文圧縮して、当該重要文に対応する圧縮文をＭ行（Ｍは２以上の整数）生成する圧縮文生成ステップと、
要約生成部が、前記各重要文に対応する前記Ｍ行の圧縮文から、要約スコアが最も高い前記圧縮文をそれぞれ選択して要約を生成する要約生成ステップと、
を有し、
前記圧縮文生成部は、前記重要文の意味を抽出し、その意味から単語を生成して、前記重要文とは単語及び構文が相違しつつ、意味が同じまたは類似の圧縮文を生成する、
ことを特徴とする要約方法。
コンピュータを、請求項１から４の何れか１つに記載の要約装置の各部として機能させるためのプログラム。