JP2013097722A - テキスト要約装置、方法及びプログラム - Google Patents

テキスト要約装置、方法及びプログラム Download PDF

Info

Publication number
JP2013097722A
JP2013097722A JP2011242528A JP2011242528A JP2013097722A JP 2013097722 A JP2013097722 A JP 2013097722A JP 2011242528 A JP2011242528 A JP 2011242528A JP 2011242528 A JP2011242528 A JP 2011242528A JP 2013097722 A JP2013097722 A JP 2013097722A
Authority
JP
Japan
Prior art keywords
text
parameter
domain
training
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011242528A
Other languages
English (en)
Other versions
JP5623369B2 (ja
Inventor
Hitoshi Nishikawa
仁 西川
Toshiaki Makino
俊朗 牧野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011242528A priority Critical patent/JP5623369B2/ja
Publication of JP2013097722A publication Critical patent/JP2013097722A/ja
Application granted granted Critical
Publication of JP5623369B2 publication Critical patent/JP5623369B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減する。
【解決手段】第1記憶部14に記憶された訓練事例データベース12には、テキストxとテキストxから予め生成された要約yとを対応付けた複数のドメインの訓練事例が各々格納され、パラメタ推定部16は、ドメインの数をd、個々のドメインの個々の特徴ベクトルf(x,y)の次元数をnとしたときに次元数がn×(d+1)次元で、最初のn次元は全てのドメインで前記特徴ベクトルが要素として設定され、以降のn次元ずつのd組の要素は各組毎に異なるドメインのみ前記特徴ベクトルが要素として設定され、他のドメインは同じ組の要素の値に全て0が設定された、拡張された特徴ベクトルを用いてパラメタを学習し、パラメタデータベース18に格納する。格納されたパラメタは、テキスト要約部24による要約対象のテキストxからの要約yの生成に用いられる。
【選択図】図1

Description

本発明はテキスト要約装置、テキスト要約方法及びテキスト要約プログラムに関する。
近年、電子化されたテキストが大量に流通するようになってきたことを背景として、それらのテキストに記述されている情報を迅速に把握するために、コンピュータ等の機械によってテキストを要約させる(要約を生成させる)技術に対するニーズが高まっている。
機械によってテキストを要約させる技術では、一般に、要約対象のテキストから、その内容を代表していると思われる文(重要文)、或いは、そのような文の集合(重要文集合)を1つ以上選び出し、それらを連結することで要約が生成される。文、或いは文の集合に対して要約対象のテキストの内容を代表しているか否かを評価する際には、各々の文、或いは文の集合を特徴ベクトルとして表現し、この特徴ベクトルと、予め何らかの方法で推定した重みベクトル(以下、パラメタともいう)と、の内積がスコアとして算出される(例えば非特許文献1も参照)。
文、或いは文の集合を表現した特徴ベクトルとの内積を求めるパラメタは、要約対象のテキスト、或いは要約対象のテキストの集合と、それらに対応する要約と、から成るペアの集合(以下、訓練事例という)に基づいて学習される。このため、学習によって適正なパラメタを得るためには、十分な量の訓練事例を予め用意しておく必要がある。
また、要約対象のテキストの種類(以下、ドメインと称する)が相違している場合、ドメイン毎に別々に訓練事例を用意してパラメタの学習を行う必要がある(図13参照)。例えば要約対象のテキストが新聞記事の場合、新聞記事の要約に用いるパラメタは、新聞記事とその要約を含む訓練事例を予め用意しておき、当該訓練事例から学習する必要があり、要約対象のテキストが技術文献の場合、技術文献の要約に用いるパラメタは、技術文献とその要約を含む訓練事例を予め用意しておき、当該訓練事例から学習する必要がある。
Wen-tau Yih,Joshua Goodman,Lucy Vanderwende and Hisami Suzuki、"Multi-Document Summarization by Maximizing Informative Content-Words."、In Proceedings of International Joint Conference on Artificial Intelligence(IJCAI),2007. Koby Crammer,Ofel Dekel,Joseph Keshet,Shai Shalev-Shwartz and Yoram Singer、"Online Passive-Aggressive Algorithms."、Journal of Machine Learning Research,Vol.7,2006.
ところで、一般に訓練事例は、作業者が要約対象のテキスト、或いは要約対象のテキスト集合を読み、その中から重要文、或いは重要文の集合を要約として選び出すか、要約となる文章を直接記述することで要約を作成する、という煩雑な作業を行うことによって作成される。このため、適正なパラメタを得るために必要十分な量の訓練事例を用意するためには多大なコストを要する。そして、前述のように複数のドメインのテキストから要約を各々生成する場合には、複数のドメインについて訓練事例を各々用意する必要があるので、訓練事例を用意するためのコストが非常に嵩むことになる、という課題があった。
本発明は上記事実を考慮して成されたもので、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減できるテキスト要約装置、テキスト要約方法及びテキスト要約プログラムを得ることが目的である。
本発明に係るテキスト要約装置は、特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースを記憶する第1記憶部と、要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部と、を含んで構成されている。
また、本発明において、前記パラメタ推定部は、更新前の前記パラメタの値をwold、前記任意のドメインの訓練事例に含まれる前記テキストをx、前記任意のドメインの訓練事例に含まれる前記要約をy、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストxから生成された要約をy'、前記拡張した前記任意のドメインの特徴ベクトルをf(x,y)としたときに、要約y≠要約y'の場合に、
new=wold+f(x,y)−f(x,y') …(1)
上記(1)に従って更新後の前記パラメタの値wnewを演算することを複数のドメインのm個の訓練事例を各々用いてT回繰り返した後に、演算したパラメタwを訓練事例の数n及び繰り返し回数Tで各々除算することで、前記パラメタを推定することができる。
また、本発明において、前記パラメタ推定部は、更新前の前記パラメタの値をwold、前記任意のドメインの訓練事例に含まれる前記テキストをx、前記任意のドメインの訓練事例に含まれる前記要約をy、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストxから生成された要約をy'、前記拡張した前記任意のドメインの特徴ベクトルをf(x,y)、前記評価尺度をROUGE、前記誤差をloss(y';y)としたときに、

であり、
loss(y';y)=1−ROUGE(y';y) …(4)
上記(2)〜(4)式に従って更新後の前記パラメタの値wnewを演算することで前記パラメタを推定することができる。
また、本発明は、前記パラメタ推定部によって各々推定された前記パラメタを格納するパラメタ・データベースを記憶する第2記憶部と、要約対象のテキストを受け付けるテキスト入力部と、前記テキスト入力部によって受け付けされた前記要約対象のテキストと、前記パラメタ・データベースに格納された前記パラメタと、に基づいて、前記要約対象のテキストの要約を生成するテキスト要約部と、前記テキスト要約部によって生成された要約をテキストとして出力するテキスト出力部と、を更に備えることができる。
本発明に係るテキスト要約方法は、特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースが第1記憶部に記憶された状態で、要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部ステップを含んでいる。
本発明に係るテキスト要約プログラムは、コンピュータを、請求項1〜請求項4の何れか1項記載のテキスト要約装置を構成する各手段として機能させる。
以上説明したように本発明は、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減できる、という効果を有する。
実施形態で説明したテキスト要約装置を示すブロック図である。 テキスト要約装置として機能するコンピュータの概略ブロック図である。 テキスト要約処理の概略を示すフローチャートである。 訓練事例データベースに格納される訓練事例の一例を示す図表である。 (A)はテキスト及び要約の一例を示す図表、(B)は(A)に示すテキスト及び要約に対応する特徴ベクトルの一例を示す説明図である。 (A),(C)はテキスト及び要約の一例を各々示す図表、(B)は(A)、(D)は(C)に示すテキスト及び要約に対応する特徴ベクトルの一例を各々示す説明図である。 ドメイン適応の一例を説明するための概念図である。 パラメタ学習処理のアルゴリズムの一例を示すフローチャートである。 パラメタ・データベースの一例を示す図表である。 要約対象のテキストの入力形式の一例を示す図表である。 要約生成処理のアルゴリズムの一例を示すフローチャートである。 パラメタ学習処理のアルゴリズムの一例を示すフローチャートである。 複数のドメインのテキストから要約を各々生成する場合の従来のパラメタの学習を示す概略図である。
以下、図面を参照して本発明の実施形態の一例を詳細に説明する。
〔第1実施形態〕
図1には本実施形態に係るテキスト要約装置10が示されている。テキスト要約装置10は、パラメタ(本実施形態では重みベクトルw)を推定するために必要となる訓練事例を格納した訓練事例データベース12を記憶する第1記憶部14と、訓練事例データベース12に格納された訓練事例を受け付けてパラメタを推定するパラメタ推定部16と、パラメタ推定部16で推定されたパラメタを格納したパラメタ・データベース18を記憶する第2記憶部20と、要約の対象とするテキストを受け付けるテキスト入力部22と、テキスト入力部22で受け付けられた要約対象のテキストとパラメタ・データベース18に格納されたパラメタを入力として要約を生成するテキスト要約部24と、テキスト要約部24によって生成された要約を出力するテキスト出力部26と、を備えている。
テキスト要約装置10は、例えば図2に示すコンピュータ30で実現することができる。コンピュータ30はCPU32、メモリ34、不揮発性の記憶部36、キーボード38、マウス40、ディスプレイ42を備え、これらはバス44を介して互いに接続されている。なお、記憶部36はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部36には、コンピュータ30をテキスト要約装置10として機能させるためのテキスト要約プログラム46、訓練事例データベース12、パラメタ・データベース18が各々記憶されている。CPU32は、テキスト要約プログラム46を記憶部36から読み出してメモリ34に展開し、テキスト要約プログラム46が有するプロセスを順次実行する。
テキスト要約プログラム46は、テキスト入力プロセス50、パラメタ推定プロセス52、テキスト要約プロセス54及びテキスト出力プロセス56を有する。CPU32は、テキスト入力プロセス50を実行することで、図1に示すテキスト入力部22として動作する。またCPU32は、パラメタ推定プロセス52を実行することで、図1に示すパラメタ推定部16として動作する。またCPU32は、テキスト出力プロセス56を実行することで、図1に示すテキスト出力部26として動作する。なお、テキスト要約プログラム46は本発明に係るテキスト要約プログラムの一例である。
テキスト要約装置10がコンピュータ30で実現される場合、訓練事例データベース12を記憶する記憶部36は第1記憶部14として用いられ、メモリ34の一部領域は訓練事例データベース12として用いられる。また、パラメタ・データベース18を記憶する記憶部36は第2記憶部20として用いられ、メモリ34の一部領域はパラメタ・データベース18として用いられる。これにより、テキスト要約プログラム46を実行したコンピュータ30が、テキスト要約装置10として機能することになる。
次に本実施形態の作用として、まず図3を参照し、コンピュータ30のCPU32でテキスト要約プログラム46が実行されることで実現されるテキスト要約処理の概略を説明する。テキスト要約処理のステップ60において、パラメタ推定部16は、訓練事例データベース12から訓練事例を受け付け、受け付けた訓練事例に基づいてパラメタの学習を行う(パラメタ学習の詳細は後述)。また、次のステップ62において、パラメタ推定部16は、学習したパラメタをパラメタ・データベース18に格納する。
次のステップ64において、テキスト入力部22は、入力された要約対象のテキストを受け付ける。なお、要約対象のテキストは、例えばキーボード38を介して入力されたテキストでもよいし、例えば記憶部36に予め記憶されたテキストでもよいし、例えば通信回線を介してコンピュータ30と接続された他の機器から受信したテキストでもよい。
また、ステップ66において、テキスト要約部24は、テキスト入力部22によって受け付けされた要約対象のテキストと、パラメタ・データベース18に格納されたパラメタと、から要約を生成する(要約生成の詳細は後述)。
そしてステップ68において、テキスト出力部26は、テキスト要約部24によって生成された要約を外部へ出力する。要約の出力は、例えばディスプレイ42にテキストとして表示してもよいし、要約を読み上げる音声として出力してもよいし、テキストデータとして記録メディアに記録するか他の機器へ送信するようにしてもよい。
また、図3では、パラメタの学習及びパラメタ・データベース18への格納(ステップ60,62)と、要約の生成・出力(ステップ64〜68)と、を一連の処理として示しているが、パラメタの学習及びパラメタ・データベース18への格納を行った後、時間を空けて要約の生成・出力を行ってもよい。
次に、テキスト要約処理の詳細を説明するにあたり、まず、訓練事例データベース12に格納される訓練事例について、図4を参照して説明する。図4には、訓練事例データベース12に格納される訓練事例の一例が示されている。図4において、訓練事例データベース12は、各レコードに1つの訓練事例を各々格納している。訓練事例データベース12の各レコードに格納されているそれぞれの訓練事例は、個々の訓練事例を識別するための事例番号、個々の訓練事例が属するドメインを識別するための記号、要約対象のテキスト、及び、当該要約対象のテキストから生成された要約の各情報を含んでいる。なお、訓練事例に含まれる要約は、例えば人手によって作成され、後述するパラメタ(重みベクトルw)の学習における基準として用いることが可能な正しい要約である。また図4では、新聞記事をドメインA、技術文献をドメインBとした例を示している。
続いて、パラメタ(重みベクトルw)を用いた要約の生成について説明する。要約対象のテキストをx、要約対象のテキストxから生成された要約をyとする。ここで、要約対象のテキストxからは様々な要約yが生成され得る。例えば要約対象のテキストxから最初の一文だけを抜き出して要約yとしてもよいし、要約対象のテキストxから2つの文を抜き出して要約yとしてもよい。要約対象のテキストxが与えられると、要約対象のテキストxと、要約対象のテキストxから生成された任意の要約yと、から特徴ベクトルf(x,y)が得られる。特徴ベクトルf(x,y)と、パラメタ(重みベクトルw)の内積w・f(x,y)が要約yのスコアである。要約を生成する際には、要約対象のテキストxから生成され得る様々な要約yのうち、パラメタ(重みベクトルw)と特徴ベクトルf(x,y)の内積w・f(x,y)が最大となる要約yを要約y’として生成する。上記を式で表すと次の(5)式のようになる。
y'=argmax w・f(x,y) …(5)
要約の生成方法の一例については後述するが、任意の要約生成方法を適用することができる。
要約対象のテキストxと当該テキストxから生成された要約yから得られる特徴ベクトルf(x,y)は、各要素が互いに異なる単語に対応し、一例として、要約yが或る単語を含んでいれば対応する要素の値が1、含んでいなければ対応する要素の値が0となるベクトルを適用することができる。図5(A)に示すテキストx及び要約yから得られる特徴ベクトルf(x,y)の一例を図5(B)に示す。図5(A)に示す要約yは「路上」や「強盗」といった単語を含むため、図5(B)に示す特徴ベクトルf(x,y)では、これらの単語に対応する要素の値が1となっている。一方、図5(A)に示す要約yは「道路」や「泥棒」といった単語は含んでいないため、図5(B)に示す特徴ベクトルf(x,y)では、これらの単語に対応する要素の値が0となっている。なお、特徴ベクトルf(x,y)の各要素に対応する単語としては、一例として、名詞、動詞、形容詞といった内容語を選択してもよいし、他の基準に従って選択してもよい。
また、特徴ベクトルf(x,y)は、要約yの一つ一つの文に対してではなく、一つ以上の文の集合に対して構築される。例えば図6(A)に示す要約yは「被害者は市内在住の70歳の男性。」という1文で、図6(A)に示すテキストx及び要約yから構築される特徴ベクトルf(x,y)の一例を図6(B)に示す。図6(B)に示す特徴ベクトルf(x,y)は、要約yに含まれる「被害者」「市内」「在住」といった単語に対応する要素の値が1となっている一方、要約yに含まれない「原付」という単語に対応する要素の値が0となっている。一方、図6(C)に示す要約yは「被害者は市内在住の70歳の男性。被害者の男性によれば男は原付バイクに乗って被害者に近づいたという。」という2文から成る。図6(C)に示すテキストx及び要約yから構築される特徴ベクトルf(x,y)は、図6(D)に示すように、要約y全体に含まれる「被害者」「原付」「市内」「在住」といった単語に対応する要素の値が各々1となっている。
ここで、前出の(5)式による要約yの生成に用いられるパラメタは訓練事例から学習されるが、仮に、任意の1つのドメインのパラメータの学習に、異なるドメインの訓練事例を組み合わせて用いることができれば、一定の品質の要約を生成するために必要な訓練事例の総数を削減することができ、訓練事例を用意するために要するコストを削減することが可能となる。本実施形態では、異なるドメインの訓練事例も利用してパラメタを学習することをドメイン適応と称する。ドメイン適応の一例を示す図7を、従来のパラメタの学習を示す図13と比較しても明らかなように、ドメイン適応では、ドメインBのパラメタの学習に際してドメインA,Bの訓練事例が利用され、同様にドメインAのパラメタの学習に際してもドメインA,Bの訓練事例が各々利用される。
本実施形態では、上記のドメイン適応を行うため、テキストx及び要約yから構築される特徴ベクトルf(x,y)を以下のように拡張する。すなわち、ドメインA,Bの2つのドメインが存在しており、ドメインAのテキストx及び要約yから構築される特徴ベクトルをf(x,y)、ドメインBのテキストx及び要約yから構築される特徴ベクトルをf(x,y)とした場合、各ドメインの特徴ベクトルを以下のように拡張する。
(x,y)=<f(x,y),f(x,y),0> …(6)
(x,y)=<f(x,y),0,f(x,y)> …(7)
例えば、元々の特徴ベクトルがn次元であり、入力された訓練事例の中にd個のドメインが含まれている場合、拡張された特徴ベクトルの次元数はn×(d+1)次元とされる。また、上記(6),(7)式に示すように、最初のn次元は全てのドメインにおいて特徴ベクトルf(x,y)が要素として設定される。以降のn次元ずつのd組の要素については、各組毎に異なるドメインのみ特徴ベクトルf(x,y)が要素として設定され、他のドメインは同じ組の要素の値に全て0が設定される。例えば、ドメインがA、B、Cと3個存在していた場合、特徴ベクトルは次の(8)〜(10)式のように拡張される。
(x,y)=<f(x,y),f(x,y),0,0> …(8)
(x,y)=<f(x,y),0,f(x,y),0> …(9)
(x,y)=<f(x,y),0,0,f(x,y)> …(10)
次に図8を参照し、パラメタ推定部16によるパラメタ学習処理(図3に示すテキスト要約処理のステップ60,62の詳細)の具体的なアルゴリズムの一例を説明する。パラメタ学習処理のステップ70において、パラメタ推定部16は、事例番号iが付与されたドメインdの訓練事例に含まれるテキストx及び要約yを訓練事例データベース12からm個(事例番号i=1〜mの訓練事例を)取得する。なお、ステップ70で取得されたm個の訓練事例には、複数のドメインの訓練事例が含まれている。またステップ72において、パラメタ推定部16は、予め設定された繰り返し回数Tを取得する。次のステップ74において、パラメタ推定部16は、パラメタ(重みベクトルw)を、全ての要素の値が0のベクトルへ初期化する。またステップ76において、パラメタ推定部16は変数tに1を設定し、次のステップ78において、パラメタ推定部16は変数iに1を設定する。
次のステップ80において、パラメタ推定部16は、事例番号iの訓練事例について、現在のパラメタ(重みベクトルw)とドメインdの拡張された特徴ベクトルf(x,y)との内積w・f(x,y)が最大となる要約yを、要約y'として生成する(次の(11)式も参照)。
y'=argmax w・f(x,y) …(11)
次のステップ82において、パラメタ推定部16は、ステップ80で生成した要約y'が正しい要約yと相違しているか否かを判定する。ステップ82の判定が肯定された場合はステップ84へ移行し、ステップ84において、パラメタ推定部16は、前出の(1)式に従い、テキストxと要約yから構築したドメインdの拡張された特徴ベクトルf(x, y)を重みベクトルwに加えると共に、テキストxと要約y’から構築したドメインdの拡張された特徴ベクトルf(x,y’)を重みベクトルwから減じた後に、ステップ86へ移行する。これにより、要約yに対する要約y’の誤差が大きくなる程更新の幅が大きくなるようにパラメタ(重みベクトルw)が更新される。なお、ステップ82の判定が否定された場合は、ステップ84をスキップして(重みベクトルwを更新することなく)ステップ86へ移行する。
ステップ86において、パラメタ推定部16は、変数iが先のステップ70で取得した訓練事例の総数n以上になったか否か判定する。ステップ86の判定が否定された場合はステップ88へ移行し、ステップ88において、パラメタ推定部16は変数iを1だけインクリメントした後にステップ80に戻る。これにより、ステップ86の判定が肯定される迄ステップ80〜ステップ88が繰り返され、複数のドメインの訓練事例を含むm個の訓練事例を1つずつ用いてパラメタ(重みベクトルw)の更新(学習)がm回繰り返される。
ステップ86の判定が肯定されるとステップ90へ移行する。ステップ90において、パラメタ推定部16は、変数tが先のステップ72で取得した繰り返し回数T以上になったか否か判定する。ステップ90の判定が否定された場合はステップ92へ移行し、ステップ92において、パラメタ推定部16は変数tを1だけインクリメントした後にステップ78に戻る。これにより、ステップ90の判定が肯定される迄ステップ78〜ステップ92が繰り返され、複数のドメインの訓練事例を含むm個の訓練事例が各々T回ずつ用いられてパラメタ(重みベクトルw)の更新(学習)が繰り返される。
ステップ90の判定が肯定されるとステップ94へ移行し、ステップ94において、パラメタ推定部16は、パラメタ(重みベクトルw)を繰り返し回数T及び訓練事例の個数mで各々除算する。そして次のステップ96において、パラメタ推定部16は、上記処理で更新(学習)されたパラメタ(重みベクトルw)をパラメタ・データベース18に格納し、パラメタ学習処理を終了する。上記のように、拡張された特徴ベクトルf(x,y)を用いて複数のドメインの訓練事例からパラメタの学習を行うことにより、単一のドメイン当りの訓練事例の数を削減することができ、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減することができる。
パラメタ・データベース18の一例を図9に示す。パラメタ・データベース18は、各レコードに、或る単語を含んでいるか否か等の「特徴」と、当該特徴の「重み」の各情報が設定されている。図9に示すパラメタ・データベース18における最初のレコードは、単語「道路」を含んでいるという特徴の重みが-0.03であるということを示している。
上述したパラメタ学習処理が行われた後、図3に示すテキスト要約処理のステップ64において、テキスト入力部22は、入力された要約対象のテキストxを受け付ける。テキスト入力部22によって取得されるテキストxの入力形式の一例を図10に示す。図10に示すテキストxの入力形式では、テキストxが一文毎に分割され、更に形態素解析が行われた結果が入力される。図10において、表の各行は各々単一の形態素に対応しており、個々の形態素毎に「表記」「品詞」「読み」及び「標準形」の各情報が付加されている。
続いて図11を参照し、テキスト要約部24による要約生成処理(図3に示すテキスト要約処理のステップ66の詳細)の具体的なアルゴリズムの一例を説明する。要約生成処理のステップ100において、テキスト要約部24は、要約対象のテキストx、テキストxが属するドメインd及び要約長Kをテキスト入力部22から取得する。またステップ102において、テキスト要約部24は、パラメタ・データベース18からパラメタ(重みベクトル)wを取得する。また、ステップ104において、テキスト要約部24は、ステップ100で取得したテキストxを文の集合Uに格納し、次のステップ106において、テキスト要約部24は、要約を表す集合Sを空集合φに初期化する。
ステップ108において、テキスト要約部24は、文の集合Uが空集合φよりも大きいか(文の集合Uに何らかの文が格納されているか)否かを判定する。ステップ108の判定が肯定された場合はステップ110へ移行する。ステップ110において、テキスト要約部24は、文の集合Uに格納されている文の中から、要約の集合Sに文sを入れた時のスコア(=ドメインdの拡張された特徴ベクトルfとパラメタwの内積)と要約の集合Sに文sを入れていない時のスコアの差を、文sの長さで除した値が最大の文s(次の(12)式を満たす文s)を選択する。
=arg maxsi∈U((w・f(x,{S,s}−w・f(x,S))/length(s))
…(12)
なお、(12)式において、length(s)は文sの長さである。また、拡張された特徴ベクトルf(x,s)は、要約対象のテキストxが属するドメインdに応じて構築される。パラメタwと拡張された特徴ベクトルf(x,s)との計算に際して実質的に用いられるのは、パラメタwの最初のn次元と、以降のn次元ずつのd組の要素のうちドメインdに対応する組のn次元のみとなる(前出の(6)〜(10)式も参照)。
次のステップ112において、テキスト要約部24は、要約の集合Sに既に入っている文の長さに、ステップ110で選択した文sの長さを加えた長さが要約長K以下か否か判定する(次の(13)式も参照)。
length({S,s})≦K …(13)
ステップ112の判定が肯定された場合はステップ114へ移行する。ステップ114において、テキスト要約部24は、ステップ110で選択した文sを要約の集合Sに加えた後に(次の(14)式も参照)、ステップ116へ移行する。
S={S,s} …(14)
また、ステップ112の判定が否定された場合は、ステップ114をスキップして(文sを要約の集合Sに加えることなく)ステップ116へ移行する。
ステップ116において、テキスト要約部24は、ステップ110で選択した文sを文の集合Uから除去する(U=U−s)。ステップ116の処理を行うとステップ108に戻り、ステップ108の判定が肯定される迄ステップ108〜ステップ116を繰り返す。文の集合Uが空集合φになると、ステップ108の判定が否定されてステップ118へ移行する。
ステップ118において、テキスト要約部24は、テキストxの文の中で、長さが要約長K以内で、単一の文として最もスコアの高い文sを文vとして選択する(次の(15)式も参照)。
v=arg maxsi∈x:length(si)≦Kw・f(x,s) …(15)
次のステップ120において、テキスト要約部24は、要約の集合Sに入っている文のスコアが、先のステップ118で選択した文vのスコア以上か否か判定する。ステップ120の判定が肯定された場合はステップ122へ移行する。ステップ122において、テキスト要約部24は、要約の集合Sに入っている文をテキストxの要約として出力し、要約生成処理を終了する。また、ステップ120の判定が否定された場合はステップ124へ移行する。ステップ124において、テキスト要約部24は、先のステップ118で選択した文vをテキストxの要約として出力し、要約生成処理を終了する。
上述した要約生成処理のステップ122又はステップ124において、テキスト要約部24によって出力されたテキストxの要約は、図3に示すテキスト要約処理のステップ68において、テキスト出力部26により外部へ出力される。
〔第2実施形態〕
次に本発明の第2実施形態について説明する。なお、本第2実施形態は第1実施形態と同一の構成であるので、各部分に同一の符号を付して構成の説明を省略し、第1実施形態と異なる部分として、本第2実施形態に係るパラメタ推定部16によるパラメタの学習を説明する。
パラメタwの下で、テキストxから生成された要約y’と、人手によって作成された正しい要約yが得られた際に、要約y’の要約としての良さ(品質)は、要約y’を評価するための評価尺度、一例としてROUGEを用い、要約yを基準とした要約y’のROUGEの値(ROUGE(y';y))として算出できる。ROUGEの値は0〜1の範囲であるので、前出の(4)式のように1からROUGEの値を減算することで、要約yを基準(正しい要約)としたときの要約y’の悪さ、すなわち要約yに対する要約y’の誤差が得られる。なお、前出の(4)式では誤差として誤差関数loss(y';y)を用いている。
上記の誤差を減らすようにパラメタを更新できれば、より良い要約を生成できるパラメタを得ることができる。そこで、複数のドメインの訓練事例からパラメタを学習することも考慮して拡張された特徴ベクトルf(x,y)を用い、以下の(16)式のようにパラメタを更新する。
(16)式において、woldは現在(更新前)のパラメタであり、wnewは更新後のパラメタである。上記の(16)式は、パラメタwの変化を最小にしつつ、更新後のパラメタwnewにおいて、正しい要約yのスコアが現在(更新前)のパラメタwoldを用いて生成された要約y’のスコアより必ず大きくなるように、パラメタwを更新している。その際、要約yのスコアから要約y’のスコアを減算した残差が誤差関数loss(y';y)以上となるようにしている。上記の(16)式を解くと、前出のパラメタ更新式((2),(3)式)が得られる。
前出の更新式((2),(3)式)では、現在(更新前)のパラメタwnewを、誤差関数にROUGEを用いて求めた要約yに対する要約y’の誤差が大きくなる程更新の幅が大きくなるように更新しているので、パラメタwの更新に伴ってROUGEの値が直接高くなるようにパラメタwを更新(学習)することができる。
次に図12を参照し、本第2実施形態に係るパラメタ推定部16によるパラメタ学習処理(図3に示すテキスト要約処理のステップ60,62の詳細)の具体的なアルゴリズムの一例を説明する。
パラメタ学習処理のステップ130において、パラメタ推定部16は、事例番号iが付与されたドメインdの訓練事例に含まれるテキストx及び要約yを訓練事例データベース12からn個(事例番号i=1〜nの訓練事例を)取得する。なお、ステップ130で取得されたn個の訓練事例には、複数のドメインの訓練事例が含まれている。またステップ132において、パラメタ推定部16は、予め設定された繰り返し回数Tを取得する。次のステップ134において、パラメタ推定部16は、パラメタ(重みベクトルw)を、全ての要素の値が0のベクトルへ初期化する。またステップ136において、パラメタ推定部16は変数tに1を設定し、次のステップ138において、パラメタ推定部16は変数iに1を設定する。
次のステップ140において、パラメタ推定部16は、事例番号iの訓練事例について、現在のパラメタ(重みベクトルw)とドメインdの拡張された特徴ベクトルf(x,y)との内積w・f(x,y)が最大となる要約yを、要約y'として生成する(前出の(11)式も参照)。
次のステップ142において、パラメタ推定部16は、まず前出の(4)式により要約yに対する要約y’の誤差loss(y';y)を演算した後に、前出のパラメタ更新式((2),(3)式)によりパラメタ(重みベクトルw)を更新する。これにより、要約yに対する要約y’の誤差が大きくなる程更新の幅が大きくなるようにパラメタ(重みベクトルw)が更新される。
ステップ144において、パラメタ推定部16は、変数iが先のステップ130で取得した訓練事例の総数m以上になったか否か判定する。ステップ144の判定が否定された場合はステップ146へ移行し、ステップ146において、パラメタ推定部16は変数iを1だけインクリメントした後にステップ140に戻る。これにより、ステップ144の判定が肯定される迄ステップ140〜ステップ146が繰り返され、複数のドメインの訓練事例を含むm個の訓練事例を1つずつ用いてパラメタ(重みベクトルw)の更新(学習)がm回繰り返される。
ステップ144の判定が肯定されるとステップ148へ移行する。ステップ148において、パラメタ推定部16は、変数tが先のステップ132で取得した繰り返し回数T以上になったか否か判定する。ステップ148の判定が否定された場合はステップ150へ移行し、ステップ150において、パラメタ推定部16は変数tを1だけインクリメントした後にステップ138に戻る。これにより、ステップ148の判定が肯定される迄ステップ138〜ステップ150が繰り返され、複数のドメインの訓練事例を含むm個の訓練事例が各々T回ずつ用いられてパラメタ(重みベクトルw)の更新(学習)が繰り返される。これにより、要約の品質を評価する評価尺度であるROUGEの値が直接最大化されるようにパラメタ(重みベクトルw)が更新(学習)される。
ステップ148の判定が肯定されると、パラメタ(重みベクトルw)の更新を終了してステップ152へ移行し、ステップ152において、パラメタ推定部16は、上記処理で更新(学習)されたパラメタ(重みベクトルw)をパラメタ・データベース18に格納し、パラメタ学習処理を終了する。上記のように、拡張された特徴ベクトルf(x,y)を用いて複数のドメインの訓練事例からパラメタの学習を行うことにより、単一のドメイン当りの訓練事例の数を削減することができ、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減することができる。
なお、図11に要約生成処理として示した要約の生成方法は一例であり、本発明におけるパラメタの更新方法は、任意の要約生成方法と組み合わせることが可能である。
また、上記では、図8,12に示したパラメタ学習処理において、各ドメインに共通に用いるパラメタを学習する態様を説明したが、本発明はこれに限定されるものではなく、個々のドメイン毎にパラメタを学習するようにしてもよい。この場合も、個々のドメイン毎のパラメタの学習にあたって複数のドメインの訓練事例を用いることで、単一のドメイン当りの訓練事例の数を削減することができ、複数のドメインのテキストから要約を各々生成する場合の訓練事例の作成に要するコストを削減することができる。
また、第2実施形態では、要約の品質を評価する評価尺度としてROUGEを用いた態様を説明したが、これに限定されるものではなく、ROUGE以外の評価尺度を適用することも可能である。
更に、上記では訓練事例データベース12が、コンピュータ30に設けられた記憶部36に記憶されている態様を説明したが、本発明はこれに限定されるものではなく、通信回線を介してコンピュータ30と接続された別のコンピュータに設けられた記憶部に記憶されていてもよい。この場合、パラメタの学習にあたり、テキストx及び要約yを各々含むm個の訓練事例は、通信回線を介して前記別のコンピュータから受信するように構成することができる。また、要約対象のテキストxについても、通信回線を介して前記別のコンピュータから受信する構成であってもよい。
また、上記では、コンピュータ30がテキスト要約プログラム46を実行することで、コンピュータ30がテキスト要約装置10として機能する態様を説明したが、本発明はこれに限定されるものではなく、図1に示した各機能ブロック(パラメタ推定部16、テキスト入力部22、テキスト要約部24及びテキスト出力部26)は、それぞれハードウェアで構成することも可能である。
また、上記ではテキスト要約プログラム46が記憶部36に予め記憶(インストール)されている態様を説明したが、本発明に係るテキスト要約プログラムは、CD−ROMやDVD−ROM等の記録媒体に記録されている形態で提供することも可能である。
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
10 テキスト要約装置
12 訓練事例データベース
14 第1記憶部
16 パラメタ推定部
18 パラメタ・データベース
20 第2記憶部
22 テキスト入力部
24 テキスト要約部
26 テキスト出力部
30 コンピュータ
34 メモリ
36 記憶部
46 テキスト要約プログラム

Claims (6)

  1. 特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースを記憶する第1記憶部と、
    要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部と、
    を含むテキスト要約装置。
  2. 前記パラメタ推定部は、更新前の前記パラメタの値をwold、前記任意のドメインの訓練事例に含まれる前記テキストをx、前記任意のドメインの訓練事例に含まれる前記要約をy、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストxから生成された要約をy'、前記拡張した前記任意のドメインの特徴ベクトルをf(x,y)としたときに、要約y≠要約y'の場合に、
    new=wold+f(x,y)−f(x,y') …(1)
    上記(1)に従って更新後の前記パラメタの値wnewを演算することを複数のドメインのm個の訓練事例を各々用いてT回繰り返した後に、演算したパラメタwを訓練事例の数n及び繰り返し回数Tで各々除算することで、前記パラメタを推定する請求項1記載のテキスト要約装置。
  3. 前記パラメタ推定部は、更新前の前記パラメタの値をwold、前記任意のドメインの訓練事例に含まれる前記テキストをx、前記任意のドメインの訓練事例に含まれる前記要約をy、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストxから生成された要約をy'、前記拡張した前記任意のドメインの特徴ベクトルをf(x,y)、前記評価尺度をROUGE、前記誤差をloss(y';y)としたときに、

    であり、
    loss(y';y)=1−ROUGE(y';y) …(4)
    上記(2)〜(4)式に従って更新後の前記パラメタの値wnewを演算することで前記パラメタを推定する請求項1記載のテキスト要約装置。
  4. 前記パラメタ推定部によって各々推定された前記パラメタを格納するパラメタ・データベースを記憶する第2記憶部と、
    要約対象のテキストを受け付けるテキスト入力部と、
    前記テキスト入力部によって受け付けされた前記要約対象のテキストと、前記パラメタ・データベースに格納された前記パラメタと、に基づいて、前記要約対象のテキストの要約を生成するテキスト要約部と、
    前記テキスト要約部によって生成された要約をテキストとして出力するテキスト出力部と、
    を更に備えた請求項1〜請求項3の何れか1項記載のテキスト要約装置。
  5. 特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースが第1記憶部に記憶された状態で、
    要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定ステップ
    を含むテキスト要約方法。
  6. コンピュータを、請求項1〜請求項4の何れか1項記載のテキスト要約装置を構成する各手段として機能させるためのテキスト要約プログラム。
JP2011242528A 2011-11-04 2011-11-04 テキスト要約装置、方法及びプログラム Expired - Fee Related JP5623369B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011242528A JP5623369B2 (ja) 2011-11-04 2011-11-04 テキスト要約装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011242528A JP5623369B2 (ja) 2011-11-04 2011-11-04 テキスト要約装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013097722A true JP2013097722A (ja) 2013-05-20
JP5623369B2 JP5623369B2 (ja) 2014-11-12

Family

ID=48619565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011242528A Expired - Fee Related JP5623369B2 (ja) 2011-11-04 2011-11-04 テキスト要約装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5623369B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015046043A (ja) * 2013-08-28 2015-03-12 日本電信電話株式会社 オラクル要約探索装置、方法、及びプログラム
JP2016133919A (ja) * 2015-01-16 2016-07-25 日本電信電話株式会社 質問応答方法、装置、及びプログラム
WO2020063347A1 (zh) * 2018-09-26 2020-04-02 杭州大拿科技股份有限公司 针对口算题的题目批改方法、装置、电子设备和存储介质
JP2020532012A (ja) * 2017-08-29 2020-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020078091A1 (en) * 2000-07-25 2002-06-20 Sonny Vu Automatic summarization of a document
JP2003108571A (ja) * 2001-09-28 2003-04-11 Seiko Epson Corp 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2011150515A (ja) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020078091A1 (en) * 2000-07-25 2002-06-20 Sonny Vu Automatic summarization of a document
JP2003108571A (ja) * 2001-09-28 2003-04-11 Seiko Epson Corp 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2011150515A (ja) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG201100776028; 岡田 拓之 他: 'マルチカーネルを用いた半教師付きドメイン適応' 電子情報通信学会技術研究報告 Vol.111 No.275 , 20111102, pp.251-256, 社団法人電子情報通信学会 *
JPN6014019135; 岡田 拓之 他: 'マルチカーネルを用いた半教師付きドメイン適応' 電子情報通信学会技術研究報告 Vol.111 No.275 , 20111102, pp.251-256, 社団法人電子情報通信学会 *
JPN7014001407; Hal Daume, III et al.: 'Frustratingly easy semi-supervised domain adaptation' [online] , 20101231, pp.53-59, the Association for Computing Machinery *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015046043A (ja) * 2013-08-28 2015-03-12 日本電信電話株式会社 オラクル要約探索装置、方法、及びプログラム
JP2016133919A (ja) * 2015-01-16 2016-07-25 日本電信電話株式会社 質問応答方法、装置、及びプログラム
JP2020532012A (ja) * 2017-08-29 2020-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習
JP7002638B2 (ja) 2017-08-29 2022-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習
US11823013B2 (en) 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding
WO2020063347A1 (zh) * 2018-09-26 2020-04-02 杭州大拿科技股份有限公司 针对口算题的题目批改方法、装置、电子设备和存储介质
US11721229B2 (en) 2018-09-26 2023-08-08 Hangzhou Dana Technology Inc. Question correction method, device, electronic equipment and storage medium for oral calculation questions

Also Published As

Publication number Publication date
JP5623369B2 (ja) 2014-11-12

Similar Documents

Publication Publication Date Title
JP5638503B2 (ja) テキスト要約装置、方法及びプログラム
CN101996232B (zh) 信息处理装置和用于处理信息的方法
CN103164463B (zh) 推荐标签的方法和装置
JP2015230570A (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
JP5294086B2 (ja) 重み係数学習システム及び音声認識システム
JP2015201185A (ja) 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
JP5623369B2 (ja) テキスト要約装置、方法及びプログラム
JP5235918B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP2017174059A (ja) 情報処理装置、情報処理方法およびプログラム
JP6365032B2 (ja) データ分類方法、データ分類プログラム、及び、データ分類装置
JP5678836B2 (ja) オノマトペ自動生成システム
Mullen A Braided Narrative for Digital History
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
JP2022158736A (ja) 学習装置、学習方法及び学習プログラム
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
JP6648549B2 (ja) 変異情報処理装置、方法及びプログラム
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6712803B2 (ja) 音象徴語・パーソナリティ情報提供装置、音象徴語・パーソナリティ情報提供方法および音象徴語・パーソナリティ情報提供プログラム
JP2010237864A (ja) アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体
JP5462748B2 (ja) データ可視化装置、データ変換装置、方法、及びプログラム
JP7375096B2 (ja) 分散表現生成システム、分散表現生成方法及び分散表現生成プログラム
JP5824430B2 (ja) スパム特徴算出装置、スパム特徴算出方法、及びプログラム
JP2020071737A (ja) 学習方法、学習プログラム及び学習装置
CN109684442A (zh) 一种文本检索方法、装置、设备及程序产品
JP7198492B2 (ja) パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140924

R150 Certificate of patent or registration of utility model

Ref document number: 5623369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees