JP2014225158A - 文書要約装置、方法、及びプログラム - Google Patents

文書要約装置、方法、及びプログラム Download PDF

Info

Publication number
JP2014225158A
JP2014225158A JP2013104523A JP2013104523A JP2014225158A JP 2014225158 A JP2014225158 A JP 2014225158A JP 2013104523 A JP2013104523 A JP 2013104523A JP 2013104523 A JP2013104523 A JP 2013104523A JP 2014225158 A JP2014225158 A JP 2014225158A
Authority
JP
Japan
Prior art keywords
sentence
score
sentences
length
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013104523A
Other languages
English (en)
Inventor
仁 西川
Hitoshi Nishikawa
仁 西川
牧野 俊朗
Toshiaki Makino
俊朗 牧野
松尾 義博
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013104523A priority Critical patent/JP2014225158A/ja
Publication of JP2014225158A publication Critical patent/JP2014225158A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】計算量を抑制し、かつ、文間のつながりを考慮して、入力文書に対応する要約を生成することができるようにする。【解決手段】特徴量抽出部22によって、入力文書の各文について、文スコアを算出し、入力文書の各文のペアの各々について、当該ペアの2つの文の文間スコアを算出する。そして、文選択部23によって、予め定められた長さの上限Kまでの長さkの各々について昇順に、入力文書の各文iについて、長さkから文iの長さを減算した長さ以下の長さについて既に選択された選択結果を用いて、長さk以下となり、かつ、要約スコアが最大となるように、文iを含む少なくとも1つの文を、文i以前に出現する文から選択することを繰り返し、繰り返し選択された選択結果に基づいて、予め定められた長さの上限K以下となり、かつ、要約スコアが最大となるように、入力文書の各文のうちの少なくとも1つを要約構成文として選択する。【選択図】図1

Description

本発明は、文書要約装置、方法、及びプログラムに関し、特に、入力文書に対応する要約を生成する文書要約装置、方法、及びプログラムに関する。
近年、電子化された文書(テキスト)が大量に流通するようになった。そのため、それらの文書に記述された情報を迅速に把握するための要約技術の重要性が高まっている。
現在、文書を機械に要約させる際には、要約にふさわしい文(以下、重要文)を要約の対象とする文書のうちから1つ以上選び出し、それらを並び替え連結することによって要約が作られることが多い。重要文を選択する際には、何らかの方法によって文のスコアを定義し、そのスコアに従って選択することが多い。また、文書を構成している文を元の文より短い形に書き換え、それらを含めて重要文を選択することもできる。単一の文書を要約の対象とする場合、文を選択する際には、元の文とは別に元の文を短く書き換えたものを複数用意しておき、これらをナップサック問題の一種として定式化することで要約を作成することができる(非特許文献1)。
また、文書内の文同士のつながりの良さは、文書の一貫性を担保するということが知られており(非特許文献2)、この文同士のつながりのよさを加味した要約を作成することで、特に要約の読みやすさ(可読性)の点においてよりよい要約を作成することができる可能性がある。
また、文間のつながりを加味して要約を作成する際には、要約問題は整数計画問題として定式化され、分枝限定法のような汎用的な問題解決アルゴリズムが用いられて解が求められている(非特許文献3)。
平尾努、鈴木潤、磯崎秀樹、「最適化問題としての文書要約」、人工知能学会論文誌、2009年、Vol.24,No.2、p.223-231 横野光、奥村学、「テキスト結束性を考慮したentity gridに基づく局所的一貫性モデル」、自然言語処理、2010年、Vol.17,No.1、p.161-182 西川仁、長谷川隆明、松尾義博、菊井玄一郎、「文の選択と順序付けを同時に行う評価文書要約モデル」、人工知能学会論文誌、2013年、Vol.28,No.1、p.88-99
しかし、非特許文献1記載の方法では、文そのもののスコアを加味することができるものの、文間のスコアを加味することができない。例えば、文1と文2が元の文書において強い関わりを持っている場合は、文1と文2が要約に同時に含まれている際には文1と文2それぞれのスコアとは別にスコアを加算する、というようなことができない。
これに対し、非特許文献2の技術では、文書内の文同士のつながりの良さを考慮している。そして、非特許文献3の技術では、文間のつながりを加味して要約を作成する際に、要約問題は整数計画問題として定式化し、分枝限定法のような汎用的な問題解決アルゴリズムが用いて解を求めているが、問題を整数計画問題とみなして定式化を行うと求解に多大な時間を要するため、速度の点で問題がある。
本発明は、上記の事情を鑑みてなされたもので、計算量を抑制し、かつ、文間のつながりを考慮して、入力文書に対応する要約を生成することができる文書要約装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る文書要約装置は、入力文書から、予め定められた長さの上限K以下となるように、前記入力文書の各文のうちの少なくとも1つを要約構成文として選択して、前記入力文書に対応する要約を生成する文書要約装置であって、前記入力文書の各文について、前記文の重要度を表すスコアである文スコアを算出し、前記入力文書の各文のペアの各々について、前記ペアの2つの文のつながりの良さを表すスコアである文間スコアを算出する特徴量抽出手段と、前記特徴量抽出手段によって算出された各文の前記文スコア及び各ペアの前記文間スコアに基づいて、予め定められた長さの上限K以下となり、かつ、前記要約構成文の各々の前記文スコアと、前記要約構成文の各々についての前記要約構成文の直前に出現する要約構成文とのペアの前記文間スコアとに基づいて算出される前記要約スコアが最大となるように、前記入力文書の各文のうちの少なくとも1つを要約構成文として選択する文選択手段と、前記文選択手段によって選択された前記要約構成文を連結して、前記入力文書に対応する要約を生成する生成手段と、を含み、前記文選択手段は、前記予め定められた長さの上限Kまでの長さkの各々について昇順に、前記入力文書の各文iについて、前記長さkから前記文iの長さを減算した長さ以下の長さについて既に選択された選択結果を用いて、前記長さk以下となり、かつ、前記要約スコアが最大となるように、前記文iを含む前記少なくとも1つの文を、前記文i以前に出現する文から選択することを繰り返し、前記繰り返し選択された選択結果に基づいて、前記予め定められた長さの上限K以下となり、かつ、前記要約スコアが最大となるように、前記入力文書の各文のうちの少なくとも1つを前記要約構成文として選択する。
本発明に係る文書要約方法は、特徴量抽出手段、文選択手段、及び生成手段を含み、入力文書から、予め定められた長さの上限K以下となるように、前記入力文書の各文のうちの少なくとも1つを要約構成文として選択して、前記入力文書に対応する要約を生成する文書要約装置における文書要約方法であって、前記特徴量抽出手段によって、前記入力文書の各文について、前記文の重要度を表すスコアである文スコアを算出し、前記入力文書の各文のペアの各々について、前記ペアの2つの文のつながりの良さを表すスコアである文間スコアを算出するステップと、前記文選択手段によって、前記特徴量抽出手段によって算出された各文の前記文スコア及び各ペアの前記文間スコアに基づいて、予め定められた長さの上限K以下となり、かつ、前記要約構成文の各々の前記文スコアと、前記要約構成文の各々についての前記要約構成文の直前に出現する要約構成文とのペアの前記文間スコアとに基づいて算出される前記要約スコアが最大となるように、前記入力文書の各文のうちの少なくとも1つを要約構成文として選択するステップと、前記生成手段によって、前記文選択手段によって選択された前記要約構成文を連結して、前記入力文書に対応する要約を生成するステップと、を含み、前記文選択手段によって選択するステップは、前記予め定められた長さの上限Kまでの長さkの各々について昇順に、前記入力文書の各文iについて、前記長さkから前記文iの長さを減算した長さ以下の長さについて既に選択された選択結果を用いて、前記長さk以下となり、かつ、前記要約スコアが最大となるように、前記文iを含む前記少なくとも1つの文を、前記文i以前に出現する文から選択することを繰り返し、前記繰り返し選択された選択結果に基づいて、前記予め定められた長さの上限K以下となり、かつ、前記要約スコアが最大となるように、前記入力文書の各文のうちの少なくとも1つを前記要約構成文として選択する。
本発明に係る前記文選択手段は、前記予め定められた長さの上限Kまでの長さkの各々について昇順に、前記入力文書の各文iについて、前記文iの長さlが、長さk以下であれば、前記文iより前に出現した文jであって、jの長さlが、前記長さkから前記文iの長さlを減算した長さ以下となる文jの各々のうち、前記文jを含み、かつ、前記長さk−l以下となり、かつ、前記要約スコアが最大となるように、前記文jを含む前記少なくとも1つの文を、前記文j以前に出現する文から選択した結果における要約スコアS[k−l][j]と、文iについての前記文スコアsと、文iについての文jとの前記文間スコアcj,iとの和が最大となる文jを探索し、探索した文jを、文iの直前の要約構成文を示すポインタP[k][i]に格納し、探索した文jについての要約スコアS[k−l][j]と、前記文スコアsと、前記文間スコアcj,iとの和を、前記要約スコアS[k−l][j]に格納することを繰り返し行うようにすることができる。
本発明に係る前記文選択手段は、前記予め定められた長さの上限Kまでの長さkの各々について昇順に、前記入力文書の各文iについて、前記文iを含み、かつ、前記長さk以下となり、かつ、前記要約スコアが最大となるように、前記文iを含む前記少なくとも1つの文を、前記文i以前に出現する文から選択することを繰り返し、前記予め定められた長さの上限K及び各文iについて選択された選択結果に基づいて、前記入力文書の各文iのうち、前記上限K及び前記文iについて選択された選択結果における最大の要約スコアと、前記文iについての要約の末尾に出現する仮想的な末尾文との前記文間スコアとの和が最大となる文iを探索し、探索した文iを、最後に出現する要約構成文として選択するようにすることができる。
本発明は、前記入力文書の各文iについて、前記文を変形させた複数の変形文を作成する変形文作成手段を更に含み、前記特徴量抽出手段は、前記入力文書の各文と前記変形文作成手段によって作成された複数の変形文の各文とについて、前記文の前記文スコアを算出し、前記各文のペアの各々について、前記ペアの前記文間スコアを算出し、前記文選択手段は、前記特徴量抽出手段によって算出された各文の前記文スコア及び各ペアの前記文間スコアに基づいて、前記予め定められた長さの上限K以下となり、かつ、前記要約スコアが最大となるように、前記入力文書の各文及び各変形文のうちの少なくとも1つを要約構成文として選択するようにすることができる。
本発明に係るプログラムは、コンピュータを、本発明に係る文書要約装置の各手段として機能させるためのプログラムである。
予め定められた長さの上限Kまでの長さkの各々について昇順に、入力文書の各文iについて、長さkから文iの長さを減算した長さ以下の長さについて既に選択された選択結果を用いて、長さk以下となり、かつ、文スコアと文間スコアとに基づいて算出される要約スコアが最大となるように、文iを含む少なくとも1つの文を、文i以前に出現する文から選択することを繰り返し、繰り返し選択された選択結果に基づいて、予め定められた長さの上限K以下となり、かつ、要約スコアが最大となるように、入力文書の各文のうちの少なくとも1つを要約構成文として選択することにより、計算量を抑制し、かつ、文間のつながりを考慮して、入力文書に対応する要約を生成することができる、という効果が得られる。
本発明の第1の実施の形態に係る文書要約装置の一構成例を示すブロック図である。 本発明の実施の形態に係る文書要約装置に入力される文書データの一例を示す図である。 本実施の形態に係る文書要約装置で用いる内容性パラメータの一例を示す図である。 本実施の形態に係る文書要約装置で用いる可読性パラメータの一例を示す図である。 本発明の実施の形態に係る文書要約装置における文選択のアルゴリズムを示す図である。 本発明の実施の形態に係る文書要約装置における文書要約処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る文書要約装置における文選択処理ルーチンの前半部分の内容を示すフローチャートである。 本発明の実施の形態に係る文書要約装置における文選択処理ルーチンの後半部分の内容を示すフローチャートである。 本発明の第2の実施の形態に係る文書要約装置の一構成例を示すブロック図である。 本発明の第2の実施の形態に係る文書要約装置における、文の短縮文を加味した文選択のアルゴリズムを示す図である。
[第1の実施の形態]
<システム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の実施の形態に係る文書要約装置10を示すブロック図である。文書要約装置10は、入力文書から、予め定められた長さの上限以下となるように、入力文書の各文のうちの少なくとも1つを要約構成文として選択して、入力文書に対応する要約を生成する。文書要約装置10は、CPUと、RAMと、後述する文書要約処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係る文書要約装置10は、図1に示すように、入力部1と、演算部2と、出力部3とを備えている。
入力部1は、要約対象の入力文書の文書(テキスト)データの入力を受け付ける。
入力部1に入力される文書データの形式の一例を図2に示す。図2では、文書に対して形態素解析が行われた結果を示す文書データが入力として与えられた場合を示している。図2に示す表の各行がそれぞれ一形態素に対応しており、表記、品詞、読み、標準形(標準形がある場合)が表示されている。この例以外にも、係り受け解析の結果など、目的に応じて異なる情報が付与された形態の文書データを入力することができる。
また、入力部1は、予め定められた要約の長さの上限K(以下、要約長Kと称する。)の入力を受け付ける。要約の長さは、文字数、文数、及び単語数の何れかであればよく、本実施の形態では、要約の長さとして、文字数を用いた場合を例に説明する。
演算部2は、内容性パラメータデータベース20と、可読性パラメータデータベース21と、特徴量抽出部22と、文選択部23、生成部24とを備えている。
内容性パラメータデータベース20には、要約の内容に関する内容性パラメータが格納されている。要約の内容に関する内容性パラメータの一例を図3に示す。例えば、入力された文書データの各単語に対して重みを付与する場合は、図3に示すように、単語に対する重みが、内容性パラメータとして、内容性パラメータデータベース20に格納されている。
可読性パラメータデータベース21には、要約の可読性に関する可読性パラメータが格納されている。可読性パラメータの一例を図4に示す。例えば、図4に示すように、可読性に関する特徴量(文間の類似度に関する特徴量、文の言語尤度に関する特徴量、及び上記非特許文献2に示すエンティティ・グリッドに関する特徴量)の各々に対する重みを、可読性パラメータとすることができる。文間の類似度に関する特徴量、文の言語尤度に関する特徴量、及びエンティティ・グリッドに関する特徴量は、後述する特徴量抽出部22によって、入力された文書データから抽出される。
特徴量抽出部22は、入力部1により入力された文書データの各文について、形態素解析結果に基づいて、当該文の要約としての重要度を表すスコアである文スコアを計算する。具体的には、特徴量抽出部22は、入力された文書データの文yの形態素解析結果から得られる各単語と、内容性パラメータデータベース20に格納されている各単語に対する重みとに基づいて、関数f(y)に従って、文yの文スコアを計算する。関数f(y)は文yの要約としての重要度を表すスコアである文スコアを計算する関数であり、例えば、出現する単語の出現頻度に、当該単語に対する重みを乗算した値を、出現する単語毎に足し合わせた値を、文スコアとして計算する。
なお、関数f(y)は、文を単語の集合として表現しtf−idfなどの尺度を用いて文スコアを計算してもよいし、あるいは参照要約を教師事例とし、機械学習などの手法を用いて文スコアを計算してもよい。
また、特徴量抽出部22は、入力部1により入力された文書データの文のペアの各々について、形態素解析結果に基づいて、当該ペアの文間の類似度に関する特徴量、当該ペアの文の言語尤度に関する特徴量、及び当該ペアの文のエンティティ・グリッドに関する特徴量を各々抽出する。
ここで、文間の類似度とは、文書を構成する複数の文同士の類似度である。本実施の形態では、文間の類似度の和、及び文間の類似度の平均値を、文間の類似度に関する特徴量として、各々抽出する。
言語尤度とは、ある単語列の文としての尤もらしさを表す数値である。本実施の形態では、ペアの文の言語尤度の和と、ペアの文の言語尤度の平均値とを、ペアの文の言語尤度に関する特徴量として、各々抽出する。
エンティティ・グリッドとは、文中に出現する名詞句の構文役割の変遷を利用して、文書の可読性を評価する方法である(上記非特許文献2を参照)。本実施の形態では、ペアの文のエンティティ・グリッドを表わすベクトルの各要素についての和を、ペアの文のエンティティ・グリッドに関する特徴量として各々抽出する。なお、上記図4に示す「SS」「SO」「SX」「S−」「OS」「OO」「OX」は、エンティティ・グリッドを表わすベクトルの各要素を示している。
上記の特徴量は一例であって、上に述べた文間の類似度に関する特徴量、言語尤度に関する特徴量、エンティティ・グリッドに関する特徴量以外の、他の任意の特徴量を抽出してもよい。
そして、特徴量抽出部22は、入力された文書データの文iと文jのペアの各々について、抽出された、文間の類似度に関する特徴量、文の言語尤度に関する特徴量、及びエンティティ・グリッドに関する特徴量と、可読性パラメータデータベース21に格納されている可読性に関する特徴量の各々に対する重みとに基づいて、関数g(i,j)に従って、文iと文jとの文間スコアを計算する。関数g(i,j)は文iと文jとのつながりの良さを表すスコアである文間スコアを計算する関数である。
文選択部23は、特徴量抽出部22によって計算された各文の文スコア、及び各ペアの文間スコアに基づいて、要約長の上限K以下であって、要約スコアが最大となるように、入力された文書データの各文から、要約構成文を選択する。
m個の文からなる要約y^=y,y,…,yに対する要約スコアは、関数f(y)によって計算される文スコアと、関数g(yi−1, y)によって計算される文間スコアとに基づいて、以下の(1)式に従って計算される。
Figure 2014225158
ここで、λはfとgとの重みを調整する予め定められたパラメータである。
上記(1)式で計算される要約スコアを、目的関数として、以下の(2)式に示すように、要約長Kと、入力された文書データを構成するn個の文が与えられたとき、m個の文からなる要約y^=y,y,…,yのうち、要約長K以内で要約スコアが最大となるものを要約y^として、要約y^の要約構成文を選択する。なお、記号の後ろに付された「^」は、当該記号が行列または多次元配列またはベクトルであることを示す。
Figure 2014225158
次に、文選択部23が要約構成文を選択する際の繰り返し処理について以下で説明する。ここでは、繰り返し処理のアルゴリズムに即して説明するために、便宜上、入力文書データの各文を文i、文iの文スコアをs、文iの長さをl、文iと文jとの文間スコアをci,jとして説明する。また、文iの要約の先頭文としての良さを表現する文間スコアをc0,i、要約の末尾文としての良さを表現する文間スコアをci,n+1とする。
文選択部23は、要約長Kまでの長さk=1,・・・,Kの各々について昇順に、入力文書データの各文iについて、長さkから文iの長さlを減算した長さk−l以下の長さについて既に選択された選択結果を用いて、長さk以下となり、かつ、要約スコアが最大となるように、文iを含む少なくとも1つの文を、文i以前に出現する文から選択することを繰り返す。そして、文選択部23は要約長Kについて選択された選択結果に基づいて、要約長K以下となり、かつ、要約スコアが最大となるように、入力文書データの各文のうちの少なくとも1つを要約構成文として選択する。
具体的には、文選択部23は、上記(2)式の最適解、すなわちn個の文の中から要約長Kを満たし、かつ、上記(2)式に示す目的関数を最大化する文の列を探索する。探索は、図5に示すアルゴリズムで行うことができる。アルゴリズムの基本的な手続きは、2次元の表B^、P^、S^を埋めていくことで、最大要約長がkの時点の要約スコアの最大値を求め、これを利用してk+1の時点での要約スコアの最大値を求める。最大要約長が1のときの要約スコアの最大値は要約の長さが0のときの要約スコア(このときのスコアは0)から求めることができ、要約長Kのときの最大値はK−1時点の要約スコアの最大値を利用して求めることができる。ベクトルx^の要素xは、文iが要約構成文として選択さされた際に1となり、要約構成文として選択されない際に0となる決定変数とする。ベクトルx^が得られたら、x^を構成する決定変数のうち、1となっているものから文番号が小さいものを順にy^に加え、最後にy^の先頭に要約の先頭を表す仮想的な文を、y^の末尾に要約の末尾を表す仮想的な文を追加することでy^を得ることができる。
また、上記(1)式に従って要約y^の要約スコアを計算する際には、yの要約の先頭としてのよさ、yの要約の末尾としてのよさを測るために、便宜的に要約の先頭を表す仮想的な文yおよび末尾を表す仮想的な文ym+1を導入し、文yと文yのつながりのよさ、文yと文ym+1のつながりのよさを計算する。
上記図5に示すアルゴリズム全体は、大きく3つに分かれる。
1行目から7行目にかけて表B^、P^、S^を初期化する。B[k][i]は最大要約長がkの時点で文iを要約に含めることができるか否かを記録する2値変数である。P[k][i]は最大要約長がkの時点で文iを要約に含めるとき、当該要約において文iの前に存在する文の番号を記録するポインタである。文iが先頭であるときは0を記録する。S[k][i]は最大要約長がkの時点で文iを要約に含めたときの要約スコアの最大値を記録する。
8行目から29行目にかけて、表B^、P^、S^を埋めていく。最大要約長がkの時点で文iを要約に含めることができればB[k][i]に1を記録し、S[k][i]に文iのスコアを記録する(10行目から13行目)。
14行目から20行目にかけて、文iを要約に加える際、その前に存在する文との文間スコアを加味して要約スコアを計算し、最大要約長がkの時点で文iを要約に加える際に達成しうる最大の要約スコアをS[k][i]に記録し、P[k][i]に文iの前に存在する文へのポインタを記録する。
すなわち、文選択部23は、要約長Kまでの長さk=1,・・・,Kの各々について昇順に、入力文書データの文i=1,・・・,nの各々について、以下の処理を繰り返す。
文iの長さlが長さk以下であれば、文iより前に出現した文j(j<i)であって、jの長さlが長さk−l以下となる文j(B[k−l][j]=1)の各々のうち、要約スコアS[k−l][j]と、文スコアsと、文間スコアcj,iとの和が最大となる文jを探索する。そして、探索した文jを、要約において文iの直前の文となる文を示すポインタP[k][i]に格納し、探索した文jについての要約スコアS[k−l][j]と、文スコアsと、文間スコアcj,iとの和を、要約スコアS[k−l][j]に格納する。
24行目から29行目にかけて、要約の末尾に加える仮想的な文とのつながりの良さを計算する。
すなわち、文選択部23は、要約長K及び各文iについて選択された選択結果に基づいて、入力文書データの各文iのうち、要約スコアS[k][i]と、仮想的な末尾文との文間スコアci,n+1との和が最大となる文iを探索し、探索した文iを、仮想的な末尾文n+1の直前の文(すわなち、最後に出現する要約構成文)となる文を示すポインタP[K+1][n+1]に格納する。
30行目から39行目にかけて、要約の末尾からポインタを要約の先方に向けて辿り、要約に含まれる文iに対応する決定変数xを1としていくことで、要約スコアが最大の要約を復元する。
生成部24は、文選択部23によって選択された要約構成文(文選択部23によって出力されたx^のうちx=1となる各文i)を連結して、入力文書データに対応する要約を生成する。
出力部3は、生成部24によって生成された、入力された文書データに対応する要約を出力する。
<文書要約装置の作用>
次に、本実施の形態に係る文書要約装置10の作用について説明する。形態素解析済みの要約対象の文書の文書データと、要約長Kとが文書要約装置10に入力されると、文書要約装置10によって、図6に示す文書要約処理ルーチンが実行される。
まず、ステップS100において、入力部1により入力された要約対象の文書の文書データを受け付ける。また、入力部1により要約長Kを受け付ける。
次に、ステップS102において、特徴量抽出部22によって、内容性パラメータデータベース20に格納されている内容性パラメータと、可読性パラメータデータベース21に格納されている可読性パラメータとを読み込む。
ステップS104において、特徴量抽出部22によって、上記ステップS100で受け付けた文書データの各文について、上記ステップS102で読み込んだ内容性パラメータと、当該文の形態素解析結果とに基づいて、当該文の文スコアを算出する。また、特徴量抽出部22によって、上記ステップS100で受け付けた文書データの文の各ペアについて、上記ステップS102で読み込んだ可読性パラメータと、当該ペアの各文の形態素解析結果とに基づいて、当該ペアの文間スコアを算出する。
ステップS106において、文選択部23によって、上記ステップS104で算出された文スコア及び文間スコアに基づいて、文選択処理が行われる。ステップS106は、図7及び図8に示す文選択処理ルーチンによって実現される。
<文選択処理ルーチン>
まず、ステップS200において、全ての時点k及び全ての文i(文番号i)について、B[k][i]、P[k][i]、S[k][i]を初期化する。
次に、ステップS202において、kに1を代入する。
ステップS204において、iに1を代入する。
ステップS206において、文iの長さlがk以下であるか否かを判定する。そして、文iの長さlがk以下である場合には、ステップS208へ進む。一方、文iの長さlがkより大きい場合には、ステップS224へ進む。
ステップS208において、B[k][i]に1を代入する。また、ステップS208において、S[k][i]に、上記ステップS104で算出された文iの文スコアsを代入する。
ステップS210において、jに0を代入する。
ステップS212において、jがiより小さいか否かを判定する。そして、jがiより小さい場合には、ステップS214へ進む。一方、jがi以上である場合には、ステップS224へ進む。
ステップS214において、jが0であるか否かを判定する。そして、jが0である場合には、ステップS216へ進む。一方、jが0でない場合には、ステップS218へ進む。
ステップS216において、B[k−l][j]に1を代入する。
ステップS218において、B[k][i]=1であって、かつS[k−l][j]+s+cj,i>S[k][i]であるとの条件を満たすか否かを判定する。そして、当該条件を満たす場合には、S[k−l][j]+s+cj,iが、最後に文iを含む要約の最大要約長がkの時点で最大スコアであると判断し、ステップS220へ進む。一方、当該条件を満たさない場合には、ステップS222において、jをインクリメントして、上記ステップS212へ戻る。なお、cj,iは、上記ステップS102で読み込まれた可読性パラメータと上記ステップS104で抽出された特徴量に基づき算出された、文iと文jとの文間スコアである。
ステップS220において、P[k][i]にjを代入して、要約における文kの直前の文を示すポインタを更新する。また、ステップS220において、S[k][i]にS[k−l][j]+s+cj,iの値を代入して、要約スコアS[k][i]を更新する。
ステップS222において、jをインクリメントして、上記ステップS212へ戻る。
ステップS224において、i=nであるか否かを判定する。nは上記ステップS100で入力を受け付けた文書データの文の総数である。そして、i=nである場合には、ステップS228へ進む。一方、i=nでない場合には、ステップS226において、iをインクリメントして、上記ステップS206へ戻る。
ステップS228において、k=Kであるか否かを判定する。Kは上記ステップS100で入力を受け付けた要約長である。そして、k=Kである場合には、図8のステップS300へ進む。一方、k=Kでない場合には、ステップS230において、kをインクリメントして、上記ステップS204へ戻る。
ステップS300において、S[K+1][n+1]に0を代入する。
ステップS302において、iに1を代入する。
ステップS304において、S[K][i]+ci,n+1≧S[K+1][n+1]との条件を満たすか否かを判定する。そして、当該条件を満たす場合には、S[K][i]+ci,n+1が、仮想的な末尾文n+1を含む要約の最大要約長がK+1の時点で最大スコアであると判断し、ステップS306へ進む。一方、当該条件を満たさない場合には、ステップS308へ進む。
ステップS306において、P[K+1][n+1]にiを代入して、要約における仮想的な末尾文n+1の直前の文を示すポインタを更新する。また、ステップS306において、S[K+1][n+1]にS[K][i]+ci,n+1を代入して、要約スコアS[K+1][n+1]を更新する。
ステップS308において、i=nであるか否かを判定する。そして、i=nである場合には、ステップS312へ進む。一方、i=nでない場合には、ステップS310において、iをインクリメントして、上記ステップS304へ戻る。
ステップS312において、kにK+1を代入する。そして、iにn+1を代入する。そして、ln+1に1を代入する。
ステップS314において、P[k][i]が0より大きいか否かを判定する。そして、P[k][i]が0より大きい場合には、ステップS316へ進む。一方、P[k][i]が0以下の場合には、文iが要約における先頭の文であると判断し、ステップS322へ進む。
ステップS316において、仮変数aにk−lを代入する。そして、仮変数bにP[k][i]を代入する。
ステップS318において、xに1を代入する。ここで、xは、文iが要約構成文として含まれる際に1となる決定変数である。
ステップS320において、kに上記ステップS316で得られたaを代入する。そして、iに上記ステップS316で得られたbを代入する。
ステップS322において、上記ステップS318で得られたxを出力して、文選択処理ルーチンを終了する。
次に、文書要約処理ルーチンに戻り、ステップS108において、出力部3によって、上記ステップS106で出力されたxに基づいて、xのうち1となっているものを要約構成文として選択し、選択された要約構成文を文番号iが小さいものから順に連結する。そして、連結された文書の先頭に要約の先頭を表す仮想的な文を、末尾に要約の末尾を表す仮想的な文を連結し、要約y^を生成する。
ステップS110において、出力部3によって、上記ステップS108で生成された要約y^を出力して、文書要約処理ルーチンを終了する。
以上説明したように、本実施の形態によれば、要約長Kまでの長さkの各々について昇順に、入力文書データの各文iについて、長さkから文iの長さを減算した長さ以下の長さについて既に選択された選択結果を用いて、長さk以下となり、かつ、文スコアと文間スコアとに基づいて算出される要約スコアが最大となるように、文iを含む少なくとも1つの文を、文i以前に出現する文から選択することを繰り返し、繰り返し選択された選択結果に基づいて、要約長K以下となり、かつ、要約スコアが最大となるように、入力文書データの各文のうちの少なくとも1つを要約構成文として選択することにより、計算量を抑制し、かつ、文間のつながりを考慮して、入力文書データに対応する要約を生成することができる。
また、要約対象の文書に含まれる文のうち要約にふさわしいものを単に選択するのではなく、前後の文とのつながりも加味しつつ動的計画法を用いることにより、より可読性に優れた要約を素早く作成することが可能となる。
また、要約対象の文書が与えられた際に、要約中において隣接する文の文間スコアを加味しつつ、高速に最適解を求め、よりよい要約を生成することができる。
また、文書の要約を生成する際に、目的関数に可読性に関するパラメータを導入して可読性に関わる要素が導入された目的関数を最適化し、前後の文脈を加味できるナップサック問題を解くことにより、文脈を加味しつつ、入力文書に対応する要約を高速に得ることができる。
[第2の実施の形態]
次に、第2の実施の形態について説明する。第2の実施の形態は、文iだけではなく、文短縮器などを用いて文iの変形文の集合を作成し、文iを選択する際には文iの変形文の集合も選択の候補に加え、k時点において最大の要約スコアを達成するものを選び出すことで、変形文も利用して要約を作成する点が、第1の実施の形態と異なる。なお、第2の実施の形態に係る文書要約装置110について、第1の実施の形態に係る文書要約装置10と同一の構成については、同一符号を付して、詳細な説明を省略する。
第2の実施の形態に係る文書要約装置110は、第1の実施の形態に係る文書要約装置10と同様に、CPUと、RAMと、ROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図9に示すように、入力部1と、演算部4と、出力部3とを含んだ構成で表すことができる。
演算部4は、変形文作成部40と、内容性パラメータデータベース20と、可読性パラメータデータベース21と、特徴量抽出部22と、文選択部23とを備えている。
変形文作成部40は、入力文書データの各文iについて、文短縮器を用いて、当該文を短縮させた複数の短縮文を作成する。なお、短縮文が、変形文の一例である。
特徴量抽出部22は、入力文書データの各文、及び変形文作成部40によって作成された各文についての各短縮について、形態素解析結果及び内容性パラメータに基づいて、第1の実施の形態と同様に、文スコアを算出する。また、特徴量抽出部22は、入力文書データの各文及び変形文作成部40によって作成された各短縮文を組み合わせたペアの各々について、形態素解析結果及び可読性パラメータに基づいて、第1の実施の形態と同様に、文間スコアを算出する。
文選択部23は、特徴量抽出部22によって算出された各文の文スコア及び各ペアの文間スコアに基づいて、要約長K以下となり、かつ、要約スコアが最大となるように、入力文書データの各文及び各短縮文のうちの少なくとも1つを要約構成文として選択する。
すなわち、文選択部23は、文iを選択する際には文iの短縮文の集合も選択の候補に加え、k時点において最大の要約スコアを達成するものを選び出す。
具体的には、文選択部23は、図10のアルゴリズムに示すように、文iの文の長さを文li,1に格納し、文iの1番目の短縮文からm‐1番目の短縮文の長さを、li,2からli,mに各々格納する。同様に、文iの文スコアはsi,1に、文iの各短縮文hのスコアについてはsi,2からsi,mに各々格納する。cj,v,i,hは、文j又はその短縮文vと、文i又はその短縮文hとのつながりの良さを表す文間スコアである。上記図10はこのような文の短縮文を加味した場合の文選択アルゴリズムの一例である。上記図5と異なるのは、10行目にあるように、ある文がある長さにおいて要約に入り得るかを検査する際に、文の短縮文も候補として加味する点にある。12行目では、ある時点で文又は短縮文を要約に採用し得るか検査したのち、どの文又は短縮文が採用されたかをB[k][i]に格納しておく。21行目では文又は短縮文同士の文間スコアcj,v,i,hを考慮する。最後に要約を復元する際には、48行目のように、どの文及び短縮文を要約に採用したかをxに格納する。
なお、第2の実施の形態に係る文書要約装置の他の構成については、第1の実施の形態と同様であるため、説明を省略する。また、第2の実施の形態に係る作用については、上記図6に示す文書要約処理ルーチンの上記ステップS106において、上記図10に示すアルゴリズムに従って文選択処理ルーチンが実行され、入力文書データの各文及び各短縮文のうちの少なくとも1つが要約構成文として選択される。そして、選択された要約構成文に基づいて生成された要約y^が出力される。
以上説明したように、第2の実施の形態に係る文書要約装置によれば、入力文書データの各文iについて、当該文を変形させた複数の変形文を作成し、入力文書データの各文について、形態素解析結果に基づいて、当該文の文スコアを算出すると共に、変形文作成部40によって作成された各文についての複数の変形文について、形態素解析結果に基づいて、変形文の文スコアを算出し、文又は変形文からなる各ペアの文間スコアを算出し、算出した文スコア及び文間スコアに基づいて、要約長K以下となり、かつ、要約スコアが最大となるように、入力文書データの各文及び各変形文のうちの少なくとも1つを要約構成文として選択することにより、計算量を抑制し、かつ、文間のつながりを考慮して、より短い要約を生成することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、内容性パラメータデータベース20及び可読性パラメータデータベース21は、外部に設けられ、文書要約装置とネットワークで接続されていてもよい。
また、入力部1に入力される文書は図2に示すような形態素解析済みの文書でなくてもよく、通常の文書の形態であってもよい。この場合には、入力された文書に対して、形態素解析を行ってから、文スコア及び文間スコアを算出すればよい。
上述の文書要約装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 入力部
2、4 演算部
3 出力部
20 内容性パラメータデータベース
21 可読性パラメータデータベース
22 特徴量抽出部
23 文選択部
24 生成部
40 変形文作成部
10、110 文書要約装置

Claims (6)

  1. 入力文書から、予め定められた長さの上限K以下となるように、前記入力文書の各文のうちの少なくとも1つを要約構成文として選択して、前記入力文書に対応する要約を生成する文書要約装置であって、
    前記入力文書の各文について、前記文の重要度を表すスコアである文スコアを算出し、前記入力文書の各文のペアの各々について、前記ペアの2つの文のつながりの良さを表すスコアである文間スコアを算出する特徴量抽出手段と、
    前記特徴量抽出手段によって算出された各文の前記文スコア及び各ペアの前記文間スコアに基づいて、予め定められた長さの上限K以下となり、かつ、前記要約構成文の各々の前記文スコアと、前記要約構成文の各々についての前記要約構成文の直前に出現する要約構成文とのペアの前記文間スコアとに基づいて算出される前記要約スコアが最大となるように、前記入力文書の各文のうちの少なくとも1つを要約構成文として選択する文選択手段と、
    前記文選択手段によって選択された前記要約構成文を連結して、前記入力文書に対応する要約を生成する生成手段と、
    を含み、
    前記文選択手段は、
    前記予め定められた長さの上限Kまでの長さkの各々について昇順に、前記入力文書の各文iについて、前記長さkから前記文iの長さを減算した長さ以下の長さについて既に選択された選択結果を用いて、前記長さk以下となり、かつ、前記要約スコアが最大となるように、前記文iを含む前記少なくとも1つの文を、前記文i以前に出現する文から選択することを繰り返し、
    前記繰り返し選択された選択結果に基づいて、前記予め定められた長さの上限K以下となり、かつ、前記要約スコアが最大となるように、前記入力文書の各文のうちの少なくとも1つを前記要約構成文として選択する
    文書要約装置。
  2. 前記文選択手段は、前記予め定められた長さの上限Kまでの長さkの各々について昇順に、前記入力文書の各文iについて、前記文iの長さlが、長さk以下であれば、前記文iより前に出現した文jであって、jの長さlが、前記長さkから前記文iの長さlを減算した長さ以下となる文jの各々のうち、前記文jを含み、かつ、前記長さk−l以下となり、かつ、前記要約スコアが最大となるように、前記文jを含む前記少なくとも1つの文を、前記文j以前に出現する文から選択した結果における要約スコアS[k−l][j]と、文iについての前記文スコアsと、文iについての文jとの前記文間スコアcj,iとの和が最大となる文jを探索し、探索した文jを、文iの直前の要約構成文を示すポインタP[k][i]に格納し、探索した文jについての要約スコアS[k−l][j]と、前記文スコアsと、前記文間スコアcj,iとの和を、前記要約スコアS[k−l][j]に格納することを繰り返し行う請求項1記載の文書要約装置。
  3. 前記文選択手段は、
    前記予め定められた長さの上限Kまでの長さkの各々について昇順に、前記入力文書の各文iについて、前記文iを含み、かつ、前記長さk以下となり、かつ、前記要約スコアが最大となるように、前記文iを含む前記少なくとも1つの文を、前記文i以前に出現する文から選択することを繰り返し、
    前記予め定められた長さの上限K及び各文iについて選択された選択結果に基づいて、前記入力文書の各文iのうち、前記上限K及び前記文iについて選択された選択結果における最大の要約スコアと、前記文iについての要約の末尾に出現する仮想的な末尾文との前記文間スコアとの和が最大となる文iを探索し、探索した文iを、最後に出現する要約構成文として選択する請求項1又は2の文書要約装置。
  4. 前記入力文書の各文iについて、前記文を変形させた複数の変形文を作成する変形文作成手段を更に含み、
    前記特徴量抽出手段は、前記入力文書の各文と前記変形文作成手段によって作成された複数の変形文の各文とについて、前記文の前記文スコアを算出し、前記各文のペアの各々について、前記ペアの前記文間スコアを算出し、
    前記文選択手段は、前記特徴量抽出手段によって算出された各文の前記文スコア及び各ペアの前記文間スコアに基づいて、前記予め定められた長さの上限K以下となり、かつ、前記要約スコアが最大となるように、前記入力文書の各文及び各変形文のうちの少なくとも1つを要約構成文として選択する請求項1〜請求項3の何れか1項記載の文書要約装置。
  5. 特徴量抽出手段、文選択手段、及び生成手段を含み、入力文書から、予め定められた長さの上限K以下となるように、前記入力文書の各文のうちの少なくとも1つを要約構成文として選択して、前記入力文書に対応する要約を生成する文書要約装置における文書要約方法であって、
    前記特徴量抽出手段によって、前記入力文書の各文について、前記文の重要度を表すスコアである文スコアを算出し、前記入力文書の各文のペアの各々について、前記ペアの2つの文のつながりの良さを表すスコアである文間スコアを算出するステップと、
    前記文選択手段によって、前記特徴量抽出手段によって算出された各文の前記文スコア及び各ペアの前記文間スコアに基づいて、予め定められた長さの上限K以下となり、かつ、前記要約構成文の各々の前記文スコアと、前記要約構成文の各々についての前記要約構成文の直前に出現する要約構成文とのペアの前記文間スコアとに基づいて算出される前記要約スコアが最大となるように、前記入力文書の各文のうちの少なくとも1つを要約構成文として選択するステップと、
    前記生成手段によって、前記文選択手段によって選択された前記要約構成文を連結して、前記入力文書に対応する要約を生成するステップと、
    を含み、
    前記文選択手段によって選択するステップは、
    前記予め定められた長さの上限Kまでの長さkの各々について昇順に、前記入力文書の各文iについて、前記長さkから前記文iの長さを減算した長さ以下の長さについて既に選択された選択結果を用いて、前記長さk以下となり、かつ、前記要約スコアが最大となるように、前記文iを含む前記少なくとも1つの文を、前記文i以前に出現する文から選択することを繰り返し、
    前記繰り返し選択された選択結果に基づいて、前記予め定められた長さの上限K以下となり、かつ、前記要約スコアが最大となるように、前記入力文書の各文のうちの少なくとも1つを前記要約構成文として選択する
    文書要約方法。
  6. コンピュータを、請求項1〜請求項4の何れか1項記載の文書要約装置の各手段として機能させるためのプログラム。
JP2013104523A 2013-05-16 2013-05-16 文書要約装置、方法、及びプログラム Pending JP2014225158A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013104523A JP2014225158A (ja) 2013-05-16 2013-05-16 文書要約装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013104523A JP2014225158A (ja) 2013-05-16 2013-05-16 文書要約装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2014225158A true JP2014225158A (ja) 2014-12-04

Family

ID=52123789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013104523A Pending JP2014225158A (ja) 2013-05-16 2013-05-16 文書要約装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2014225158A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5933863B1 (ja) * 2015-05-22 2016-06-15 株式会社Ubic データ分析システム、制御方法、制御プログラム、および記録媒体
US9767193B2 (en) 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767193B2 (en) 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
JP5933863B1 (ja) * 2015-05-22 2016-06-15 株式会社Ubic データ分析システム、制御方法、制御プログラム、および記録媒体
WO2016189606A1 (ja) * 2015-05-22 2016-12-01 株式会社Ubic データ分析システム、制御方法、制御プログラム、および記録媒体
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111241267B (zh) * 2020-01-10 2022-12-06 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质

Similar Documents

Publication Publication Date Title
JP2009129032A (ja) 翻訳装置及び翻訳プログラム
JP4931958B2 (ja) テキスト要約方法、その装置およびプログラム
CN110874536B (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN110287497B (zh) 一种英语文本的语义结构连贯分析方法
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
JP2014225158A (ja) 文書要約装置、方法、及びプログラム
JP6112536B2 (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP6592378B2 (ja) 書き換え装置、方法、及びプログラム
JP2016161967A (ja) パラメタ学習装置、テキスト要約装置、方法、及びプログラム
JP5807966B2 (ja) 文書評価学習装置、文書評価装置、方法、及びプログラム
JP5604465B2 (ja) テキスト要約装置、方法、及びプログラム
JP6804913B2 (ja) 表構造推定システムおよび方法
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
US20240020642A1 (en) Patent valuation using artificial intelligence
JP2002269120A (ja) 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体
JP2013156815A (ja) ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム
JP5366709B2 (ja) 情報処理装置、共通文字列出力方法及びプログラム
JP5836981B2 (ja) 文書評価パラメータ調整装置、方法、及びプログラム
CN113449490B (zh) 一种文档信息汇总方法、系统、电子设备及介质
JP5521670B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP7198492B2 (ja) パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム