JP2013097722A

JP2013097722A - テキスト要約装置、方法及びプログラム

Info

Publication number: JP2013097722A
Application number: JP2011242528A
Authority: JP
Inventors: Hitoshi Nishikawa; 仁西川; Toshiaki Makino; 俊朗牧野; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-11-04
Filing date: 2011-11-04
Publication date: 2013-05-20
Anticipated expiration: 2031-11-04
Also published as: JP5623369B2

Abstract

【課題】複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減する。
【解決手段】第１記憶部14に記憶された訓練事例データベース12には、テキストｘ_ｉとテキストｘ_ｉから予め生成された要約ｙ_ｉとを対応付けた複数のドメインの訓練事例が各々格納され、パラメタ推定部16は、ドメインの数をｄ、個々のドメインの個々の特徴ベクトルｆ(ｘ,ｙ)の次元数をｎとしたときに次元数がｎ×(ｄ＋１)次元で、最初のｎ次元は全てのドメインで前記特徴ベクトルが要素として設定され、以降のｎ次元ずつのｄ組の要素は各組毎に異なるドメインのみ前記特徴ベクトルが要素として設定され、他のドメインは同じ組の要素の値に全て０が設定された、拡張された特徴ベクトルを用いてパラメタを学習し、パラメタデータベース18に格納する。格納されたパラメタは、テキスト要約部24による要約対象のテキストｘからの要約ｙの生成に用いられる。
【選択図】図１

Description

本発明はテキスト要約装置、テキスト要約方法及びテキスト要約プログラムに関する。

近年、電子化されたテキストが大量に流通するようになってきたことを背景として、それらのテキストに記述されている情報を迅速に把握するために、コンピュータ等の機械によってテキストを要約させる(要約を生成させる)技術に対するニーズが高まっている。

機械によってテキストを要約させる技術では、一般に、要約対象のテキストから、その内容を代表していると思われる文(重要文)、或いは、そのような文の集合(重要文集合)を１つ以上選び出し、それらを連結することで要約が生成される。文、或いは文の集合に対して要約対象のテキストの内容を代表しているか否かを評価する際には、各々の文、或いは文の集合を特徴ベクトルとして表現し、この特徴ベクトルと、予め何らかの方法で推定した重みベクトル(以下、パラメタともいう)と、の内積がスコアとして算出される(例えば非特許文献１も参照)。

文、或いは文の集合を表現した特徴ベクトルとの内積を求めるパラメタは、要約対象のテキスト、或いは要約対象のテキストの集合と、それらに対応する要約と、から成るペアの集合(以下、訓練事例という)に基づいて学習される。このため、学習によって適正なパラメタを得るためには、十分な量の訓練事例を予め用意しておく必要がある。

また、要約対象のテキストの種類(以下、ドメインと称する)が相違している場合、ドメイン毎に別々に訓練事例を用意してパラメタの学習を行う必要がある(図１３参照)。例えば要約対象のテキストが新聞記事の場合、新聞記事の要約に用いるパラメタは、新聞記事とその要約を含む訓練事例を予め用意しておき、当該訓練事例から学習する必要があり、要約対象のテキストが技術文献の場合、技術文献の要約に用いるパラメタは、技術文献とその要約を含む訓練事例を予め用意しておき、当該訓練事例から学習する必要がある。

Wen-tau Yih,Joshua Goodman,Lucy Vanderwende and Hisami Suzuki、"Multi-Document Summarization by Maximizing Informative Content-Words."、In Proceedings of International Joint Conference on Artificial Intelligence(IJCAI),2007. Koby Crammer,Ofel Dekel,Joseph Keshet,Shai Shalev-Shwartz and Yoram Singer、"Online Passive-Aggressive Algorithms."、Journal of Machine Learning Research,Vol.7,2006.

ところで、一般に訓練事例は、作業者が要約対象のテキスト、或いは要約対象のテキスト集合を読み、その中から重要文、或いは重要文の集合を要約として選び出すか、要約となる文章を直接記述することで要約を作成する、という煩雑な作業を行うことによって作成される。このため、適正なパラメタを得るために必要十分な量の訓練事例を用意するためには多大なコストを要する。そして、前述のように複数のドメインのテキストから要約を各々生成する場合には、複数のドメインについて訓練事例を各々用意する必要があるので、訓練事例を用意するためのコストが非常に嵩むことになる、という課題があった。

本発明は上記事実を考慮して成されたもので、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減できるテキスト要約装置、テキスト要約方法及びテキスト要約プログラムを得ることが目的である。

本発明に係るテキスト要約装置は、特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースを記憶する第１記憶部と、要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をｎ、ドメインの数をｄとしたときの次元数がｎ(ｄ＋１)で、最初のｎ次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のｎ次元ずつのｄ組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が０とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部と、を含んで構成されている。

また、本発明において、前記パラメタ推定部は、更新前の前記パラメタの値をｗ_ｏｌｄ、前記任意のドメインの訓練事例に含まれる前記テキストをｘ_ｉ、前記任意のドメインの訓練事例に含まれる前記要約をｙ_ｉ、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストｘ_ｉから生成された要約をｙ'、前記拡張した前記任意のドメインの特徴ベクトルをｆ_ｄ(ｘ,ｙ)としたときに、要約ｙ_ｉ≠要約ｙ'の場合に、

ｗ_ｎｅｗ＝ｗ_ｏｌｄ＋ｆ_ｄ(ｘ_ｉ,ｙ_ｉ)−ｆ_ｄ(ｘ_ｉ,ｙ') …(１)
上記(１)に従って更新後の前記パラメタの値ｗ_ｎｅｗを演算することを複数のドメインのｍ個の訓練事例を各々用いてＴ回繰り返した後に、演算したパラメタｗを訓練事例の数ｎ及び繰り返し回数Ｔで各々除算することで、前記パラメタを推定することができる。

また、本発明において、前記パラメタ推定部は、更新前の前記パラメタの値をｗ_ｏｌｄ、前記任意のドメインの訓練事例に含まれる前記テキストをｘ_ｉ、前記任意のドメインの訓練事例に含まれる前記要約をｙ_ｉ、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストｘ_ｉから生成された要約をｙ'、前記拡張した前記任意のドメインの特徴ベクトルをｆ_ｄ(ｘ,ｙ)、前記評価尺度をＲＯＵＧＥ、前記誤差をloss(ｙ';ｙ_ｉ)としたときに、

であり、

loss(ｙ';ｙ_ｉ)＝１−ＲＯＵＧＥ(ｙ';ｙ_ｉ) …(４)
上記(２)〜(４)式に従って更新後の前記パラメタの値ｗ_ｎｅｗを演算することで前記パラメタを推定することができる。

また、本発明は、前記パラメタ推定部によって各々推定された前記パラメタを格納するパラメタ・データベースを記憶する第２記憶部と、要約対象のテキストを受け付けるテキスト入力部と、前記テキスト入力部によって受け付けされた前記要約対象のテキストと、前記パラメタ・データベースに格納された前記パラメタと、に基づいて、前記要約対象のテキストの要約を生成するテキスト要約部と、前記テキスト要約部によって生成された要約をテキストとして出力するテキスト出力部と、を更に備えることができる。

本発明に係るテキスト要約方法は、特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースが第１記憶部に記憶された状態で、要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をｎ、ドメインの数をｄとしたときの次元数がｎ(ｄ＋１)で、最初のｎ次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のｎ次元ずつのｄ組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が０とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部ステップを含んでいる。

本発明に係るテキスト要約プログラムは、コンピュータを、請求項１〜請求項４の何れか１項記載のテキスト要約装置を構成する各手段として機能させる。

以上説明したように本発明は、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減できる、という効果を有する。

実施形態で説明したテキスト要約装置を示すブロック図である。テキスト要約装置として機能するコンピュータの概略ブロック図である。テキスト要約処理の概略を示すフローチャートである。訓練事例データベースに格納される訓練事例の一例を示す図表である。 (Ａ)はテキスト及び要約の一例を示す図表、(Ｂ)は(Ａ)に示すテキスト及び要約に対応する特徴ベクトルの一例を示す説明図である。 (Ａ),(Ｃ)はテキスト及び要約の一例を各々示す図表、(Ｂ)は(Ａ)、(Ｄ)は(Ｃ)に示すテキスト及び要約に対応する特徴ベクトルの一例を各々示す説明図である。ドメイン適応の一例を説明するための概念図である。パラメタ学習処理のアルゴリズムの一例を示すフローチャートである。パラメタ・データベースの一例を示す図表である。要約対象のテキストの入力形式の一例を示す図表である。要約生成処理のアルゴリズムの一例を示すフローチャートである。パラメタ学習処理のアルゴリズムの一例を示すフローチャートである。複数のドメインのテキストから要約を各々生成する場合の従来のパラメタの学習を示す概略図である。

以下、図面を参照して本発明の実施形態の一例を詳細に説明する。

〔第１実施形態〕

図１には本実施形態に係るテキスト要約装置１０が示されている。テキスト要約装置１０は、パラメタ(本実施形態では重みベクトルｗ)を推定するために必要となる訓練事例を格納した訓練事例データベース１２を記憶する第１記憶部１４と、訓練事例データベース１２に格納された訓練事例を受け付けてパラメタを推定するパラメタ推定部１６と、パラメタ推定部１６で推定されたパラメタを格納したパラメタ・データベース１８を記憶する第２記憶部２０と、要約の対象とするテキストを受け付けるテキスト入力部２２と、テキスト入力部２２で受け付けられた要約対象のテキストとパラメタ・データベース１８に格納されたパラメタを入力として要約を生成するテキスト要約部２４と、テキスト要約部２４によって生成された要約を出力するテキスト出力部２６と、を備えている。

テキスト要約装置１０は、例えば図２に示すコンピュータ３０で実現することができる。コンピュータ３０はＣＰＵ３２、メモリ３４、不揮発性の記憶部３６、キーボード３８、マウス４０、ディスプレイ４２を備え、これらはバス４４を介して互いに接続されている。なお、記憶部３６はＨＤＤ(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部３６には、コンピュータ３０をテキスト要約装置１０として機能させるためのテキスト要約プログラム４６、訓練事例データベース１２、パラメタ・データベース１８が各々記憶されている。ＣＰＵ３２は、テキスト要約プログラム４６を記憶部３６から読み出してメモリ３４に展開し、テキスト要約プログラム４６が有するプロセスを順次実行する。

テキスト要約プログラム４６は、テキスト入力プロセス５０、パラメタ推定プロセス５２、テキスト要約プロセス５４及びテキスト出力プロセス５６を有する。ＣＰＵ３２は、テキスト入力プロセス５０を実行することで、図１に示すテキスト入力部２２として動作する。またＣＰＵ３２は、パラメタ推定プロセス５２を実行することで、図１に示すパラメタ推定部１６として動作する。またＣＰＵ３２は、テキスト出力プロセス５６を実行することで、図１に示すテキスト出力部２６として動作する。なお、テキスト要約プログラム４６は本発明に係るテキスト要約プログラムの一例である。

テキスト要約装置１０がコンピュータ３０で実現される場合、訓練事例データベース１２を記憶する記憶部３６は第１記憶部１４として用いられ、メモリ３４の一部領域は訓練事例データベース１２として用いられる。また、パラメタ・データベース１８を記憶する記憶部３６は第２記憶部２０として用いられ、メモリ３４の一部領域はパラメタ・データベース１８として用いられる。これにより、テキスト要約プログラム４６を実行したコンピュータ３０が、テキスト要約装置１０として機能することになる。

次に本実施形態の作用として、まず図３を参照し、コンピュータ３０のＣＰＵ３２でテキスト要約プログラム４６が実行されることで実現されるテキスト要約処理の概略を説明する。テキスト要約処理のステップ６０において、パラメタ推定部１６は、訓練事例データベース１２から訓練事例を受け付け、受け付けた訓練事例に基づいてパラメタの学習を行う(パラメタ学習の詳細は後述)。また、次のステップ６２において、パラメタ推定部１６は、学習したパラメタをパラメタ・データベース１８に格納する。

次のステップ６４において、テキスト入力部２２は、入力された要約対象のテキストを受け付ける。なお、要約対象のテキストは、例えばキーボード３８を介して入力されたテキストでもよいし、例えば記憶部３６に予め記憶されたテキストでもよいし、例えば通信回線を介してコンピュータ３０と接続された他の機器から受信したテキストでもよい。

また、ステップ６６において、テキスト要約部２４は、テキスト入力部２２によって受け付けされた要約対象のテキストと、パラメタ・データベース１８に格納されたパラメタと、から要約を生成する(要約生成の詳細は後述)。

そしてステップ６８において、テキスト出力部２６は、テキスト要約部２４によって生成された要約を外部へ出力する。要約の出力は、例えばディスプレイ４２にテキストとして表示してもよいし、要約を読み上げる音声として出力してもよいし、テキストデータとして記録メディアに記録するか他の機器へ送信するようにしてもよい。

また、図３では、パラメタの学習及びパラメタ・データベース１８への格納(ステップ６０,６２)と、要約の生成・出力(ステップ６４〜６８)と、を一連の処理として示しているが、パラメタの学習及びパラメタ・データベース１８への格納を行った後、時間を空けて要約の生成・出力を行ってもよい。

次に、テキスト要約処理の詳細を説明するにあたり、まず、訓練事例データベース１２に格納される訓練事例について、図４を参照して説明する。図４には、訓練事例データベース１２に格納される訓練事例の一例が示されている。図４において、訓練事例データベース１２は、各レコードに１つの訓練事例を各々格納している。訓練事例データベース１２の各レコードに格納されているそれぞれの訓練事例は、個々の訓練事例を識別するための事例番号、個々の訓練事例が属するドメインを識別するための記号、要約対象のテキスト、及び、当該要約対象のテキストから生成された要約の各情報を含んでいる。なお、訓練事例に含まれる要約は、例えば人手によって作成され、後述するパラメタ(重みベクトルｗ)の学習における基準として用いることが可能な正しい要約である。また図４では、新聞記事をドメインＡ、技術文献をドメインＢとした例を示している。

続いて、パラメタ(重みベクトルｗ)を用いた要約の生成について説明する。要約対象のテキストをｘ、要約対象のテキストｘから生成された要約をｙとする。ここで、要約対象のテキストｘからは様々な要約ｙが生成され得る。例えば要約対象のテキストｘから最初の一文だけを抜き出して要約ｙとしてもよいし、要約対象のテキストｘから２つの文を抜き出して要約ｙとしてもよい。要約対象のテキストｘが与えられると、要約対象のテキストｘと、要約対象のテキストｘから生成された任意の要約ｙと、から特徴ベクトルｆ(ｘ,ｙ)が得られる。特徴ベクトルｆ(ｘ,ｙ)と、パラメタ(重みベクトルｗ)の内積ｗ・ｆ(ｘ,ｙ)が要約ｙのスコアである。要約を生成する際には、要約対象のテキストｘから生成され得る様々な要約ｙのうち、パラメタ(重みベクトルｗ)と特徴ベクトルｆ(ｘ,ｙ)の内積ｗ・ｆ(ｘ,ｙ)が最大となる要約ｙを要約ｙ’として生成する。上記を式で表すと次の(５)式のようになる。
ｙ'＝ａｒｇ_ｙｍａｘｗ・ｆ(ｘ,ｙ) …(５)

要約の生成方法の一例については後述するが、任意の要約生成方法を適用することができる。

要約対象のテキストｘと当該テキストｘから生成された要約ｙから得られる特徴ベクトルｆ(ｘ,ｙ)は、各要素が互いに異なる単語に対応し、一例として、要約ｙが或る単語を含んでいれば対応する要素の値が１、含んでいなければ対応する要素の値が０となるベクトルを適用することができる。図５(Ａ)に示すテキストｘ及び要約ｙから得られる特徴ベクトルｆ(ｘ,ｙ)の一例を図５(Ｂ)に示す。図５(Ａ)に示す要約ｙは「路上」や「強盗」といった単語を含むため、図５(Ｂ)に示す特徴ベクトルｆ(ｘ,ｙ)では、これらの単語に対応する要素の値が１となっている。一方、図５(Ａ)に示す要約ｙは「道路」や「泥棒」といった単語は含んでいないため、図５(Ｂ)に示す特徴ベクトルｆ(ｘ,ｙ)では、これらの単語に対応する要素の値が０となっている。なお、特徴ベクトルｆ(ｘ,ｙ)の各要素に対応する単語としては、一例として、名詞、動詞、形容詞といった内容語を選択してもよいし、他の基準に従って選択してもよい。

また、特徴ベクトルｆ(ｘ,ｙ)は、要約ｙの一つ一つの文に対してではなく、一つ以上の文の集合に対して構築される。例えば図６(Ａ)に示す要約ｙは「被害者は市内在住の７０歳の男性。」という１文で、図６(Ａ)に示すテキストｘ及び要約ｙから構築される特徴ベクトルｆ(ｘ,ｙ)の一例を図６(Ｂ)に示す。図６(Ｂ)に示す特徴ベクトルｆ(ｘ,ｙ)は、要約ｙに含まれる「被害者」「市内」「在住」といった単語に対応する要素の値が１となっている一方、要約ｙに含まれない「原付」という単語に対応する要素の値が０となっている。一方、図６(Ｃ)に示す要約ｙは「被害者は市内在住の７０歳の男性。被害者の男性によれば男は原付バイクに乗って被害者に近づいたという。」という２文から成る。図６(Ｃ)に示すテキストｘ及び要約ｙから構築される特徴ベクトルｆ(ｘ,ｙ)は、図６(Ｄ)に示すように、要約ｙ全体に含まれる「被害者」「原付」「市内」「在住」といった単語に対応する要素の値が各々１となっている。

ここで、前出の(５)式による要約ｙの生成に用いられるパラメタは訓練事例から学習されるが、仮に、任意の１つのドメインのパラメータの学習に、異なるドメインの訓練事例を組み合わせて用いることができれば、一定の品質の要約を生成するために必要な訓練事例の総数を削減することができ、訓練事例を用意するために要するコストを削減することが可能となる。本実施形態では、異なるドメインの訓練事例も利用してパラメタを学習することをドメイン適応と称する。ドメイン適応の一例を示す図７を、従来のパラメタの学習を示す図１３と比較しても明らかなように、ドメイン適応では、ドメインＢのパラメタの学習に際してドメインＡ,Ｂの訓練事例が利用され、同様にドメインＡのパラメタの学習に際してもドメインＡ,Ｂの訓練事例が各々利用される。

本実施形態では、上記のドメイン適応を行うため、テキストｘ及び要約ｙから構築される特徴ベクトルｆ(ｘ,ｙ)を以下のように拡張する。すなわち、ドメインＡ,Ｂの２つのドメインが存在しており、ドメインＡのテキストｘ及び要約ｙから構築される特徴ベクトルをｆ_Ａ(ｘ,ｙ)、ドメインＢのテキストｘ及び要約ｙから構築される特徴ベクトルをｆ_Ｂ(ｘ,ｙ)とした場合、各ドメインの特徴ベクトルを以下のように拡張する。

ｆ_Ａ(ｘ,ｙ)＝<ｆ(ｘ,ｙ)，ｆ(ｘ,ｙ)，０> …(６)
ｆ_Ｂ(ｘ,ｙ)＝<ｆ(ｘ,ｙ)，０，ｆ(ｘ,ｙ)> …(７)

例えば、元々の特徴ベクトルがｎ次元であり、入力された訓練事例の中にｄ個のドメインが含まれている場合、拡張された特徴ベクトルの次元数はｎ×(ｄ＋１)次元とされる。また、上記(６),(７)式に示すように、最初のｎ次元は全てのドメインにおいて特徴ベクトルｆ(ｘ,ｙ)が要素として設定される。以降のｎ次元ずつのｄ組の要素については、各組毎に異なるドメインのみ特徴ベクトルｆ(ｘ,ｙ)が要素として設定され、他のドメインは同じ組の要素の値に全て０が設定される。例えば、ドメインがＡ、Ｂ、Ｃと３個存在していた場合、特徴ベクトルは次の(８)〜(10)式のように拡張される。

ｆ_Ａ(ｘ,ｙ)＝<ｆ(ｘ,ｙ)，ｆ(ｘ,ｙ)，０，０> …(８)
ｆ_Ｂ(ｘ,ｙ)＝<ｆ(ｘ,ｙ)，０，ｆ(ｘ,ｙ)，０> …(９)
ｆ_Ｃ(ｘ,ｙ)＝<ｆ(ｘ,ｙ)，０，０，ｆ(ｘ,ｙ)> …(10)

次に図８を参照し、パラメタ推定部１６によるパラメタ学習処理(図３に示すテキスト要約処理のステップ６０,６２の詳細)の具体的なアルゴリズムの一例を説明する。パラメタ学習処理のステップ７０において、パラメタ推定部１６は、事例番号ｉが付与されたドメインｄ_ｉの訓練事例に含まれるテキストｘ_ｉ及び要約ｙ_ｉを訓練事例データベース１２からｍ個(事例番号ｉ＝１〜ｍの訓練事例を)取得する。なお、ステップ７０で取得されたｍ個の訓練事例には、複数のドメインの訓練事例が含まれている。またステップ７２において、パラメタ推定部１６は、予め設定された繰り返し回数Ｔを取得する。次のステップ７４において、パラメタ推定部１６は、パラメタ(重みベクトルｗ)を、全ての要素の値が０のベクトルへ初期化する。またステップ７６において、パラメタ推定部１６は変数ｔに１を設定し、次のステップ７８において、パラメタ推定部１６は変数ｉに１を設定する。

次のステップ８０において、パラメタ推定部１６は、事例番号ｉの訓練事例について、現在のパラメタ(重みベクトルｗ)とドメインｄ_ｉの拡張された特徴ベクトルｆ_ｄ(ｘ_ｉ,ｙ)との内積ｗ・ｆ_ｄ(ｘ_ｉ,ｙ)が最大となる要約ｙを、要約ｙ'として生成する(次の(11)式も参照)。
ｙ'＝ａｒｇ_ｙｍａｘｗ・ｆ_ｄ(ｘ_ｉ,ｙ) …(11)

次のステップ８２において、パラメタ推定部１６は、ステップ８０で生成した要約ｙ'が正しい要約ｙ_ｉと相違しているか否かを判定する。ステップ８２の判定が肯定された場合はステップ８４へ移行し、ステップ８４において、パラメタ推定部１６は、前出の(１)式に従い、テキストｘ_ｉと要約ｙ_ｉから構築したドメインｄ_ｉの拡張された特徴ベクトルｆ_ｄ(ｘ_ｉ, ｙ_ｉ)を重みベクトルｗに加えると共に、テキストｘと要約ｙ’から構築したドメインｄ_ｉの拡張された特徴ベクトルｆ_ｄ(ｘ_ｉ,ｙ’)を重みベクトルｗから減じた後に、ステップ８６へ移行する。これにより、要約ｙ_ｉに対する要約ｙ’の誤差が大きくなる程更新の幅が大きくなるようにパラメタ(重みベクトルｗ)が更新される。なお、ステップ８２の判定が否定された場合は、ステップ８４をスキップして(重みベクトルｗを更新することなく)ステップ８６へ移行する。

ステップ８６において、パラメタ推定部１６は、変数ｉが先のステップ７０で取得した訓練事例の総数ｎ以上になったか否か判定する。ステップ８６の判定が否定された場合はステップ８８へ移行し、ステップ８８において、パラメタ推定部１６は変数ｉを１だけインクリメントした後にステップ８０に戻る。これにより、ステップ８６の判定が肯定される迄ステップ８０〜ステップ８８が繰り返され、複数のドメインの訓練事例を含むｍ個の訓練事例を１つずつ用いてパラメタ(重みベクトルｗ)の更新(学習)がｍ回繰り返される。

ステップ８６の判定が肯定されるとステップ９０へ移行する。ステップ９０において、パラメタ推定部１６は、変数ｔが先のステップ７２で取得した繰り返し回数Ｔ以上になったか否か判定する。ステップ９０の判定が否定された場合はステップ９２へ移行し、ステップ９２において、パラメタ推定部１６は変数ｔを１だけインクリメントした後にステップ７８に戻る。これにより、ステップ９０の判定が肯定される迄ステップ７８〜ステップ９２が繰り返され、複数のドメインの訓練事例を含むｍ個の訓練事例が各々Ｔ回ずつ用いられてパラメタ(重みベクトルｗ)の更新(学習)が繰り返される。

ステップ９０の判定が肯定されるとステップ９４へ移行し、ステップ９４において、パラメタ推定部１６は、パラメタ(重みベクトルｗ)を繰り返し回数Ｔ及び訓練事例の個数ｍで各々除算する。そして次のステップ９６において、パラメタ推定部１６は、上記処理で更新(学習)されたパラメタ(重みベクトルｗ)をパラメタ・データベース１８に格納し、パラメタ学習処理を終了する。上記のように、拡張された特徴ベクトルｆ_ｄ(ｘ,ｙ)を用いて複数のドメインの訓練事例からパラメタの学習を行うことにより、単一のドメイン当りの訓練事例の数を削減することができ、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減することができる。

パラメタ・データベース１８の一例を図９に示す。パラメタ・データベース１８は、各レコードに、或る単語を含んでいるか否か等の「特徴」と、当該特徴の「重み」の各情報が設定されている。図９に示すパラメタ・データベース１８における最初のレコードは、単語「道路」を含んでいるという特徴の重みが-0.03であるということを示している。

上述したパラメタ学習処理が行われた後、図３に示すテキスト要約処理のステップ６４において、テキスト入力部２２は、入力された要約対象のテキストｘを受け付ける。テキスト入力部２２によって取得されるテキストｘの入力形式の一例を図１０に示す。図１０に示すテキストｘの入力形式では、テキストｘが一文毎に分割され、更に形態素解析が行われた結果が入力される。図１０において、表の各行は各々単一の形態素に対応しており、個々の形態素毎に「表記」「品詞」「読み」及び「標準形」の各情報が付加されている。

続いて図１１を参照し、テキスト要約部２４による要約生成処理(図３に示すテキスト要約処理のステップ６６の詳細)の具体的なアルゴリズムの一例を説明する。要約生成処理のステップ１００において、テキスト要約部２４は、要約対象のテキストｘ、テキストｘが属するドメインｄ及び要約長Ｋをテキスト入力部２２から取得する。またステップ１０２において、テキスト要約部２４は、パラメタ・データベース１８からパラメタ(重みベクトル)ｗを取得する。また、ステップ１０４において、テキスト要約部２４は、ステップ１００で取得したテキストｘを文の集合Ｕに格納し、次のステップ１０６において、テキスト要約部２４は、要約を表す集合Ｓを空集合φに初期化する。

ステップ１０８において、テキスト要約部２４は、文の集合Ｕが空集合φよりも大きいか(文の集合Ｕに何らかの文が格納されているか)否かを判定する。ステップ１０８の判定が肯定された場合はステップ１１０へ移行する。ステップ１１０において、テキスト要約部２４は、文の集合Ｕに格納されている文の中から、要約の集合Ｓに文ｓ_ｉを入れた時のスコア(＝ドメインｄの拡張された特徴ベクトルｆ_ｄとパラメタｗの内積)と要約の集合Ｓに文ｓ_ｉを入れていない時のスコアの差を、文ｓ_ｉの長さで除した値が最大の文ｓ_ｉ(次の(12)式を満たす文ｓ_ｉ)を選択する。

ｓ_ｉ＝ａｒｇｍａｘ_ｓi∈Ｕ((ｗ・ｆ_ｄ(ｘ,{Ｓ,ｓ_ｉ}−ｗ・ｆ_ｄ(ｘ,Ｓ))/length(ｓ_ｉ))
…(12)

なお、(12)式において、length(ｓ_ｉ)は文ｓ_ｉの長さである。また、拡張された特徴ベクトルｆ_ｄ(ｘ,ｓ_ｉ)は、要約対象のテキストｘが属するドメインｄに応じて構築される。パラメタｗと拡張された特徴ベクトルｆ_ｄ(ｘ,ｓ_ｉ)との計算に際して実質的に用いられるのは、パラメタｗの最初のｎ次元と、以降のｎ次元ずつのｄ組の要素のうちドメインｄに対応する組のｎ次元のみとなる(前出の(６)〜(10)式も参照）。

次のステップ１１２において、テキスト要約部２４は、要約の集合Ｓに既に入っている文の長さに、ステップ１１０で選択した文ｓ_ｉの長さを加えた長さが要約長Ｋ以下か否か判定する(次の(13)式も参照)。
length({Ｓ,ｓ_ｉ})≦Ｋ …(13)

ステップ１１２の判定が肯定された場合はステップ１１４へ移行する。ステップ１１４において、テキスト要約部２４は、ステップ１１０で選択した文ｓ_ｉを要約の集合Ｓに加えた後に(次の(14)式も参照)、ステップ１１６へ移行する。
Ｓ＝{Ｓ,ｓ_ｉ} …(14)

また、ステップ１１２の判定が否定された場合は、ステップ１１４をスキップして(文ｓ_ｉを要約の集合Ｓに加えることなく)ステップ１１６へ移行する。

ステップ１１６において、テキスト要約部２４は、ステップ１１０で選択した文ｓ_ｉを文の集合Ｕから除去する(Ｕ＝Ｕ−ｓ_ｉ)。ステップ１１６の処理を行うとステップ１０８に戻り、ステップ１０８の判定が肯定される迄ステップ１０８〜ステップ１１６を繰り返す。文の集合Ｕが空集合φになると、ステップ１０８の判定が否定されてステップ１１８へ移行する。

ステップ１１８において、テキスト要約部２４は、テキストｘの文の中で、長さが要約長Ｋ以内で、単一の文として最もスコアの高い文ｓ_ｉを文ｖとして選択する(次の(15)式も参照)。
ｖ＝ａｒｇｍａｘ_{ｓi∈ｘ:length(ｓi)≦Ｋ}ｗ・ｆ_ｄ(ｘ,ｓ_ｉ) …(15)

次のステップ１２０において、テキスト要約部２４は、要約の集合Ｓに入っている文のスコアが、先のステップ１１８で選択した文ｖのスコア以上か否か判定する。ステップ１２０の判定が肯定された場合はステップ１２２へ移行する。ステップ１２２において、テキスト要約部２４は、要約の集合Ｓに入っている文をテキストｘの要約として出力し、要約生成処理を終了する。また、ステップ１２０の判定が否定された場合はステップ１２４へ移行する。ステップ１２４において、テキスト要約部２４は、先のステップ１１８で選択した文ｖをテキストｘの要約として出力し、要約生成処理を終了する。

上述した要約生成処理のステップ１２２又はステップ１２４において、テキスト要約部２４によって出力されたテキストｘの要約は、図３に示すテキスト要約処理のステップ６８において、テキスト出力部２６により外部へ出力される。

〔第２実施形態〕
次に本発明の第２実施形態について説明する。なお、本第２実施形態は第１実施形態と同一の構成であるので、各部分に同一の符号を付して構成の説明を省略し、第１実施形態と異なる部分として、本第２実施形態に係るパラメタ推定部１６によるパラメタの学習を説明する。

パラメタｗの下で、テキストｘ_ｉから生成された要約ｙ’と、人手によって作成された正しい要約ｙ_ｉが得られた際に、要約ｙ’の要約としての良さ(品質)は、要約ｙ’を評価するための評価尺度、一例としてＲＯＵＧＥを用い、要約ｙ_ｉを基準とした要約ｙ’のＲＯＵＧＥの値(ＲＯＵＧＥ(ｙ';ｙ_ｉ))として算出できる。ＲＯＵＧＥの値は０〜１の範囲であるので、前出の(４)式のように１からＲＯＵＧＥの値を減算することで、要約ｙ_ｉを基準(正しい要約)としたときの要約ｙ’の悪さ、すなわち要約ｙ_ｉに対する要約ｙ’の誤差が得られる。なお、前出の(４)式では誤差として誤差関数loss(ｙ';ｙ_ｉ)を用いている。

上記の誤差を減らすようにパラメタを更新できれば、より良い要約を生成できるパラメタを得ることができる。そこで、複数のドメインの訓練事例からパラメタを学習することも考慮して拡張された特徴ベクトルｆ_ｄ(ｘ,ｙ)を用い、以下の(16)式のようにパラメタを更新する。

(16)式において、ｗ_ｏｌｄは現在(更新前)のパラメタであり、ｗ_ｎｅｗは更新後のパラメタである。上記の(16)式は、パラメタｗの変化を最小にしつつ、更新後のパラメタｗ_ｎｅｗにおいて、正しい要約ｙ_ｉのスコアが現在(更新前)のパラメタｗ_ｏｌｄを用いて生成された要約ｙ’のスコアより必ず大きくなるように、パラメタｗを更新している。その際、要約ｙ_ｉのスコアから要約ｙ’のスコアを減算した残差が誤差関数loss(ｙ';ｙ_ｉ)以上となるようにしている。上記の(16)式を解くと、前出のパラメタ更新式((２),(３)式)が得られる。

前出の更新式((２),(３)式)では、現在(更新前)のパラメタｗ_ｎｅｗを、誤差関数にＲＯＵＧＥを用いて求めた要約ｙ_ｉに対する要約ｙ’の誤差が大きくなる程更新の幅が大きくなるように更新しているので、パラメタｗの更新に伴ってＲＯＵＧＥの値が直接高くなるようにパラメタｗを更新(学習)することができる。

次に図１２を参照し、本第２実施形態に係るパラメタ推定部１６によるパラメタ学習処理(図３に示すテキスト要約処理のステップ６０,６２の詳細)の具体的なアルゴリズムの一例を説明する。

パラメタ学習処理のステップ１３０において、パラメタ推定部１６は、事例番号ｉが付与されたドメインｄ_ｉの訓練事例に含まれるテキストｘ_ｉ及び要約ｙ_ｉを訓練事例データベース１２からｎ個(事例番号ｉ＝１〜ｎの訓練事例を)取得する。なお、ステップ１３０で取得されたｎ個の訓練事例には、複数のドメインの訓練事例が含まれている。またステップ１３２において、パラメタ推定部１６は、予め設定された繰り返し回数Ｔを取得する。次のステップ１３４において、パラメタ推定部１６は、パラメタ(重みベクトルｗ)を、全ての要素の値が０のベクトルへ初期化する。またステップ１３６において、パラメタ推定部１６は変数ｔに１を設定し、次のステップ１３８において、パラメタ推定部１６は変数ｉに１を設定する。

次のステップ１４０において、パラメタ推定部１６は、事例番号ｉの訓練事例について、現在のパラメタ(重みベクトルｗ)とドメインｄ_ｉの拡張された特徴ベクトルｆ_ｄ(ｘ_ｉ,ｙ)との内積ｗ・ｆ_ｄ(ｘ_ｉ,ｙ)が最大となる要約ｙを、要約ｙ'として生成する(前出の(11)式も参照)。

次のステップ１４２において、パラメタ推定部１６は、まず前出の(４)式により要約ｙ_ｉに対する要約ｙ’の誤差loss(ｙ';ｙ_ｉ)を演算した後に、前出のパラメタ更新式((２),(３)式)によりパラメタ(重みベクトルｗ)を更新する。これにより、要約ｙ_ｉに対する要約ｙ’の誤差が大きくなる程更新の幅が大きくなるようにパラメタ(重みベクトルｗ)が更新される。

ステップ１４４において、パラメタ推定部１６は、変数ｉが先のステップ１３０で取得した訓練事例の総数ｍ以上になったか否か判定する。ステップ１４４の判定が否定された場合はステップ１４６へ移行し、ステップ１４６において、パラメタ推定部１６は変数ｉを１だけインクリメントした後にステップ１４０に戻る。これにより、ステップ１４４の判定が肯定される迄ステップ１４０〜ステップ１４６が繰り返され、複数のドメインの訓練事例を含むｍ個の訓練事例を１つずつ用いてパラメタ(重みベクトルｗ)の更新(学習)がｍ回繰り返される。

ステップ１４４の判定が肯定されるとステップ１４８へ移行する。ステップ１４８において、パラメタ推定部１６は、変数ｔが先のステップ１３２で取得した繰り返し回数Ｔ以上になったか否か判定する。ステップ１４８の判定が否定された場合はステップ１５０へ移行し、ステップ１５０において、パラメタ推定部１６は変数ｔを１だけインクリメントした後にステップ１３８に戻る。これにより、ステップ１４８の判定が肯定される迄ステップ１３８〜ステップ１５０が繰り返され、複数のドメインの訓練事例を含むｍ個の訓練事例が各々Ｔ回ずつ用いられてパラメタ(重みベクトルｗ)の更新(学習)が繰り返される。これにより、要約の品質を評価する評価尺度であるＲＯＵＧＥの値が直接最大化されるようにパラメタ(重みベクトルｗ)が更新(学習)される。

ステップ１４８の判定が肯定されると、パラメタ(重みベクトルｗ)の更新を終了してステップ１５２へ移行し、ステップ１５２において、パラメタ推定部１６は、上記処理で更新(学習)されたパラメタ(重みベクトルｗ)をパラメタ・データベース１８に格納し、パラメタ学習処理を終了する。上記のように、拡張された特徴ベクトルｆ_ｄ(ｘ,ｙ)を用いて複数のドメインの訓練事例からパラメタの学習を行うことにより、単一のドメイン当りの訓練事例の数を削減することができ、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減することができる。

なお、図１１に要約生成処理として示した要約の生成方法は一例であり、本発明におけるパラメタの更新方法は、任意の要約生成方法と組み合わせることが可能である。

また、上記では、図８,１２に示したパラメタ学習処理において、各ドメインに共通に用いるパラメタを学習する態様を説明したが、本発明はこれに限定されるものではなく、個々のドメイン毎にパラメタを学習するようにしてもよい。この場合も、個々のドメイン毎のパラメタの学習にあたって複数のドメインの訓練事例を用いることで、単一のドメイン当りの訓練事例の数を削減することができ、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減することができる。

また、第２実施形態では、要約の品質を評価する評価尺度としてＲＯＵＧＥを用いた態様を説明したが、これに限定されるものではなく、ＲＯＵＧＥ以外の評価尺度を適用することも可能である。

更に、上記では訓練事例データベース１２が、コンピュータ３０に設けられた記憶部３６に記憶されている態様を説明したが、本発明はこれに限定されるものではなく、通信回線を介してコンピュータ３０と接続された別のコンピュータに設けられた記憶部に記憶されていてもよい。この場合、パラメタの学習にあたり、テキストｘ_ｉ及び要約ｙ_ｉを各々含むｍ個の訓練事例は、通信回線を介して前記別のコンピュータから受信するように構成することができる。また、要約対象のテキストｘについても、通信回線を介して前記別のコンピュータから受信する構成であってもよい。

また、上記では、コンピュータ３０がテキスト要約プログラム４６を実行することで、コンピュータ３０がテキスト要約装置１０として機能する態様を説明したが、本発明はこれに限定されるものではなく、図１に示した各機能ブロック(パラメタ推定部１６、テキスト入力部２２、テキスト要約部２４及びテキスト出力部２６)は、それぞれハードウェアで構成することも可能である。

また、上記ではテキスト要約プログラム４６が記憶部３６に予め記憶（インストール）されている態様を説明したが、本発明に係るテキスト要約プログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の記録媒体に記録されている形態で提供することも可能である。

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

１０テキスト要約装置
１２訓練事例データベース
１４第１記憶部
１６パラメタ推定部
１８パラメタ・データベース
２０第２記憶部
２２テキスト入力部
２４テキスト要約部
２６テキスト出力部
３０コンピュータ
３４メモリ
３６記憶部
４６テキスト要約プログラム

Claims

特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースを記憶する第１記憶部と、
要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をｎ、ドメインの数をｄとしたときの次元数がｎ(ｄ＋１)で、最初のｎ次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のｎ次元ずつのｄ組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が０とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部と、
を含むテキスト要約装置。
前記パラメタ推定部は、更新前の前記パラメタの値をｗ_ｏｌｄ、前記任意のドメインの訓練事例に含まれる前記テキストをｘ_ｉ、前記任意のドメインの訓練事例に含まれる前記要約をｙ_ｉ、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストｘ_ｉから生成された要約をｙ'、前記拡張した前記任意のドメインの特徴ベクトルをｆ_ｄ(ｘ,ｙ)としたときに、要約ｙ_ｉ≠要約ｙ'の場合に、
ｗ_ｎｅｗ＝ｗ_ｏｌｄ＋ｆ_ｄ(ｘ_ｉ,ｙ_ｉ)−ｆ_ｄ(ｘ_ｉ,ｙ') …(１)
上記(１)に従って更新後の前記パラメタの値ｗ_ｎｅｗを演算することを複数のドメインのｍ個の訓練事例を各々用いてＴ回繰り返した後に、演算したパラメタｗを訓練事例の数ｎ及び繰り返し回数Ｔで各々除算することで、前記パラメタを推定する請求項１記載のテキスト要約装置。
前記パラメタ推定部は、更新前の前記パラメタの値をｗ_ｏｌｄ、前記任意のドメインの訓練事例に含まれる前記テキストをｘ_ｉ、前記任意のドメインの訓練事例に含まれる前記要約をｙ_ｉ、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストｘ_ｉから生成された要約をｙ'、前記拡張した前記任意のドメインの特徴ベクトルをｆ_ｄ(ｘ,ｙ)、前記評価尺度をＲＯＵＧＥ、前記誤差をloss(ｙ';ｙ_ｉ)としたときに、

であり、
loss(ｙ';ｙ_ｉ)＝１−ＲＯＵＧＥ(ｙ';ｙ_ｉ) …(４)
上記(２)〜(４)式に従って更新後の前記パラメタの値ｗ_ｎｅｗを演算することで前記パラメタを推定する請求項１記載のテキスト要約装置。
前記パラメタ推定部によって各々推定された前記パラメタを格納するパラメタ・データベースを記憶する第２記憶部と、
要約対象のテキストを受け付けるテキスト入力部と、
前記テキスト入力部によって受け付けされた前記要約対象のテキストと、前記パラメタ・データベースに格納された前記パラメタと、に基づいて、前記要約対象のテキストの要約を生成するテキスト要約部と、
前記テキスト要約部によって生成された要約をテキストとして出力するテキスト出力部と、
を更に備えた請求項１〜請求項３の何れか１項記載のテキスト要約装置。
特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースが第１記憶部に記憶された状態で、
要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をｎ、ドメインの数をｄとしたときの次元数がｎ(ｄ＋１)で、最初のｎ次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のｎ次元ずつのｄ組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が０とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定ステップ
を含むテキスト要約方法。
コンピュータを、請求項１〜請求項４の何れか１項記載のテキスト要約装置を構成する各手段として機能させるためのテキスト要約プログラム。