JP2013097723A - Text summarization apparatus, method and program - Google Patents

Text summarization apparatus, method and program Download PDF

Info

Publication number
JP2013097723A
JP2013097723A JP2011242529A JP2011242529A JP2013097723A JP 2013097723 A JP2013097723 A JP 2013097723A JP 2011242529 A JP2011242529 A JP 2011242529A JP 2011242529 A JP2011242529 A JP 2011242529A JP 2013097723 A JP2013097723 A JP 2013097723A
Authority
JP
Japan
Prior art keywords
text
parameter
training
unit
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011242529A
Other languages
Japanese (ja)
Other versions
JP5638503B2 (en
Inventor
Hitoshi Nishikawa
仁 西川
Toshiaki Makino
俊朗 牧野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011242529A priority Critical patent/JP5638503B2/en
Publication of JP2013097723A publication Critical patent/JP2013097723A/en
Application granted granted Critical
Publication of JP5638503B2 publication Critical patent/JP5638503B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To learn parameters so as to directly maximize a score in an evaluation scale such as ROUGE, which evaluates quality of a summary.SOLUTION: The text summarization apparatus comprises: a first storage section 14 which stores a training example database 12 storing training examples in which texts xare associated with summaries ypreliminary generated from the texts x; and a parameter estimation section 16 which generates a summary y' from the text xof the training example, obtains an error of the generated summary y' to the summary yof the training example by using an evaluation scale for evaluating quality of a summary, updates parameters used for generating a summary y so that the greater the obtained error is the greater a width of the update is, and stores the updated parameters in a parameter database 18. The parameters stored in the parameter database 18 are used for generating the summary y from the text x to be summarized by a text summarization section 24.

Description

本発明はテキスト要約装置、テキスト要約方法及びテキスト要約プログラムに関する。   The present invention relates to a text summarization device, a text summarization method, and a text summarization program.

近年、電子化されたテキストが大量に流通するようになってきたことを背景として、それらのテキストに記述されている情報を迅速に把握するために、コンピュータ等の機械によってテキストを要約させる(要約を生成させる)技術に対するニーズが高まっている。   In recent years, a large amount of digitized text has been distributed, and in order to quickly grasp the information described in the text, the text is summarized by a machine such as a computer (summary The need for technology to generate

機械によってテキストを要約させる技術では、一般に、要約対象のテキストから、その内容を代表していると思われる文(重要文)、或いは、そのような文の集合(重要文集合)を1つ以上選び出し、それらを連結することで要約が生成される。文、或いは文の集合に対して要約対象のテキストの内容を代表しているか否かを評価する際には、各々の文、或いは文の集合を特徴ベクトルとして表現し、この特徴ベクトルと、予め何らかの方法で推定した重みベクトル(以下、パラメタともいう)と、の内積がスコアとして算出される(例えば非特許文献1も参照)。   In the technology of summarizing text by machine, in general, one or more sentences (important sentences) that are considered to represent the contents of the text to be summarized (important sentences) or one or more such sentences (important sentence set) are represented. A summary is generated by picking and concatenating them. When evaluating whether a sentence or a set of sentences is representative of the content of the text to be summarized, each sentence or set of sentences is expressed as a feature vector, An inner product of a weight vector estimated by some method (hereinafter also referred to as a parameter) and a score is calculated (for example, see also Non-Patent Document 1).

また、文、或いは文の集合を表現した特徴ベクトルとの内積を求めるパラメタは、要約対象のテキスト、或いは要約対象のテキストの集合と、それらに対応する要約と、から成るペアの集合(以下、訓練事例という)に基づいて予め学習される。パラメタの学習に際し、パラメタは何らかの誤差関数を最小化するように学習される。   A parameter for calculating the inner product of a sentence or a feature vector representing a sentence set is a set of pairs consisting of a text to be summarized or a set of text to be summarized and a corresponding summary (hereinafter, Based on training examples). In learning the parameters, the parameters are learned to minimize some error function.

Wen-tau Yih,Joshua Goodman,Lucy Vanderwende and Hisami Suzuki、“Multi-Document Summarization by Maximizing Informative Content-Words.”、In Proceedings of International Joint Conference on Artificial Intelligence(IJCAI),2007.Wen-tau Yih, Joshua Goodman, Lucy Vanderwende and Hisami Suzuki, “Multi-Document Summarization by Maximizing Informative Content-Words.”, In Proceedings of International Joint Conference on Artificial Intelligence (IJCAI), 2007. Koby Crammer,Ofel Dekel,Joseph Keshet,Shai Shalev-Shwartz and Yoram Singer、“Online Passive-Aggressive Algorithms.”、Journal of Machine Learning Research,Vol.7,2006.Koby Crammer, Ofel Dekel, Joseph Keshet, Shai Shalev-Shwartz and Yoram Singer, “Online Passive-Aggressive Algorithms.”, Journal of Machine Learning Research, Vol. 7, 2006.

しかしながら、テキストを要約する技術で用いるパラメタの学習に際し、例えば非特許文献1に記載の技術では、要約の品質が直接最大化されるようなパラメタの学習を行っておらず、要約に含まれ易い文が高いスコアになるようにパラメタの学習を行っている。機械によって生成された要約の品質を評価するための尺度としては、例えばROUGE(非特許文献2を参照)と称される評価尺度が多用されているが、要約に含まれ易い文が高いスコアになるようにパラメタを学習することと、学習したパラメタを用いて生成した要約のROUGE等の評価尺度が高い値になることには直接関係がなく、パラメタの学習精度に関して改善の余地があった。   However, when learning parameters used in a technology for summarizing text, for example, the technology described in Non-Patent Document 1 does not learn parameters that directly maximize the quality of the summary, and is easily included in the summary. The parameters are learned so that the sentence has a high score. As a scale for evaluating the quality of a summary generated by a machine, for example, an evaluation scale called ROUGE (see Non-Patent Document 2) is frequently used, but sentences that are easily included in the summary have a high score. There is no direct relationship between learning the parameters so that the evaluation scale such as ROUGE of the summary generated using the learned parameters has a high value, and there is room for improvement in parameter learning accuracy.

本発明は上記事実を考慮して成されたもので、ROUGE等のような要約の品質を評価する評価尺度の値が直接最大化されるようにパラメタを学習できるテキスト要約装置、テキスト要約方法及びテキスト要約プログラムを得ることが目的である。   The present invention has been made in consideration of the above facts, and is a text summarization apparatus, a text summarization method, and a text summarization method capable of learning parameters so that the value of an evaluation measure for evaluating the quality of summaries such as ROUGE is directly maximized. The purpose is to obtain a text summarization program.

本発明に係るテキスト要約装置は、テキストと、当該テキストから予め生成された要約と、を対応付けた訓練事例を格納した訓練事例データベースを記憶する第1記憶部と、前記訓練事例に含まれ前記テキストと対応付けられた要約の品質に対する、要約対象のテキストからの要約の生成に用いられるパラメタの更新前の値を用いて、前記訓練事例に含まれる前記テキストから生成された要約の品質の誤差を、要約の品質を評価する評価尺度を用いて求め、前記パラメタの更新前の値を、求めた前記誤差が大きくなる程更新の幅が大きくなるように更新することで、前記パラメタを推定するパラメタ推定部と、を含んで構成されている。   A text summarization apparatus according to the present invention includes a first storage unit that stores a training case database storing training cases in which texts and summaries generated in advance from the texts are associated with each other, and is included in the training cases. An error in the quality of the summary generated from the text contained in the training case, using the pre-update values of the parameters used to generate the summary from the text to be summarized relative to the quality of the summary associated with the text Is estimated using an evaluation scale for evaluating the quality of the summary, and the parameter is estimated by updating the value before updating the parameter so that the range of update increases as the calculated error increases. A parameter estimation unit.

また、本発明において、前記パラメタ推定部は、前記パラメタとしての重みベクトルの更新前の値をwold、前記訓練事例に含まれる前記テキストをx、前記訓練事例に含まれる前記要約をy、前記パラメタとしての重みベクトルの更新前の値を用いて前記訓練事例に含まれる前記テキストxから生成された要約をy'、テキストx及び要約yの特徴ベクトルをf(x,y)、前記評価尺度をROUGE、前記誤差をloss(y';y)としたときに、 Further, in the present invention, the parameter estimation unit is configured such that the old value of the weight vector as the parameter is w old , the text included in the training example is x i , and the summary included in the training example is y i. the summary generated from the text x i included in the training set using a value before the update of the weight vector as the parameter y ', the feature vectors of text x and abstract y f (x, y), When the evaluation scale is ROUGE and the error is loss (y ′; y i ),

であり、
loss(y';y)=1−ROUGE(y';y) …(3)
And
loss (y ′; y i ) = 1−ROUGE (y ′; y i ) (3)

上記(1)〜(3)式に従って前記パラメタとしての重みベクトルの更新後の値wnewを演算することで前記パラメタを推定することができる。 The parameter can be estimated by calculating the updated value w new of the weight vector as the parameter according to the above equations (1) to (3).

また、本発明は、前記パラメタ推定部によって推定された前記パラメタを格納するパラメタ・データベースを記憶する第2記憶部と、要約対象のテキストを受け付けるテキスト入力部と、前記テキスト入力部によって受け付けされた前記要約対象のテキストと、前記パラメタ・データベースに格納された前記パラメタと、に基づいて、前記要約対象のテキストの要約を生成するテキスト要約部と、前記テキスト要約部によって生成された要約をテキストとして出力するテキスト出力部と、を更に備えることができる。   The present invention is also received by the second storage unit that stores the parameter database that stores the parameters estimated by the parameter estimation unit, the text input unit that receives the text to be summarized, and the text input unit. Based on the text to be summarized and the parameters stored in the parameter database, a text summarizing unit that generates a summary of the text to be summarized, and the summary generated by the text summarizing unit as text A text output unit for outputting.

本発明に係るテキスト要約方法は、テキストと、当該テキストから予め生成された要約と、を対応付けた訓練事例を格納した訓練事例データベースが第1記憶部に記憶された状態で、前記訓練事例に含まれ前記テキストと対応付けられた要約の品質に対する、要約対象のテキストからの要約の生成に用いられるパラメタの更新前の値を用いて、前記訓練事例に含まれる前記テキストから生成された要約の品質の誤差を、要約の品質を評価する評価尺度を用いて求め、前記パラメタの更新前の値を、求めた前記誤差が大きくなる程更新の幅が大きくなるように更新することで、前記パラメタを推定するパラメタ推定ステップを含んでいる。   In the text summarizing method according to the present invention, a training example database storing training examples in which texts and summaries generated in advance from the texts are associated is stored in the first storage unit. A summary of the summary generated from the text included in the training case using the pre-update values of the parameters used to generate the summary from the summary text for the quality of the summary contained and associated with the text. An error in quality is obtained using an evaluation scale for evaluating the quality of the summary, and the parameter is updated by updating the value before update so that the range of update increases as the obtained error increases. A parameter estimation step of estimating.

本発明に係るテキスト要約プログラムは、コンピュータを、請求項1〜請求項3の何れか1項記載のテキスト要約装置を構成する各手段として機能させる。   The text summarization program according to the present invention causes a computer to function as each means constituting the text summarization device according to any one of claims 1 to 3.

本発明は、ROUGE等のような要約の品質を評価する評価尺度の値が直接最大化されるようにパラメタを学習できる、という効果を有する。   The present invention has the effect that the parameter can be learned so that the value of the evaluation measure for evaluating the quality of the summary such as ROUGE is directly maximized.

実施形態で説明したテキスト要約装置を示すブロック図である。It is a block diagram which shows the text summarizing apparatus demonstrated by embodiment. テキスト要約装置として機能するコンピュータの概略ブロック図である。It is a schematic block diagram of the computer which functions as a text summarization apparatus. テキスト要約処理の概略を示すフローチャートである。It is a flowchart which shows the outline of a text summary process. 訓練事例データベースに格納される訓練事例の一例を示す図表である。It is a chart which shows an example of the training example stored in the training example database. (A)はテキスト及び要約の一例を示す図表、(B)は(A)に示すテキスト及び要約に対応する特徴ベクトルの一例を示す説明図である。(A) is a chart showing an example of a text and a summary, and (B) is an explanatory diagram showing an example of a feature vector corresponding to the text and the summary shown in (A). パラメタ学習処理のアルゴリズムの一例を示すフローチャートである。It is a flowchart which shows an example of the algorithm of a parameter learning process. パラメタ・データベースの一例を示す図表である。It is a chart which shows an example of a parameter database. 要約対象のテキストの入力形式の一例を示す図表である。It is a graph which shows an example of the input format of the text of the summary object. 要約生成処理のアルゴリズムの一例を示すフローチャートである。It is a flowchart which shows an example of the algorithm of a summary production | generation process.

以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図1には本実施形態に係るテキスト要約装置10が示されている。テキスト要約装置10は、パラメタ(本実施形態では重みベクトルw)を推定するために必要となる訓練事例を格納した訓練事例データベース12を記憶する第1記憶部14と、訓練事例データベース12に格納された訓練事例を受け付けてパラメタを推定するパラメタ推定部16と、パラメタ推定部16で推定されたパラメタを格納したパラメタ・データベース18を記憶する第2記憶部20と、要約の対象とするテキストを受け付けるテキスト入力部22と、テキスト入力部22で受け付けられた要約対象のテキストとパラメタ・データベース18に格納されたパラメタを入力として要約を生成するテキスト要約部24と、テキスト要約部24によって生成された要約を出力するテキスト出力部26と、を備えている。   Hereinafter, an example of an embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a text summarizing apparatus 10 according to the present embodiment. The text summarizing apparatus 10 is stored in the training case database 12 and a first storage unit 14 that stores a training case database 12 that stores training cases necessary for estimating parameters (weight vector w in the present embodiment). A parameter estimation unit 16 that accepts training examples and estimates parameters; a second storage unit 20 that stores a parameter database 18 that stores parameters estimated by the parameter estimation unit 16; and accepts text to be summarized A text input unit 22, a text summary unit 24 that generates a summary by using the text to be summarized received by the text input unit 22 and parameters stored in the parameter database 18, and a summary generated by the text summary unit 24 And a text output unit 26 for outputting.

テキスト要約装置10は、例えば図2に示すコンピュータ30で実現することができる。コンピュータ30はCPU32、メモリ34、不揮発性の記憶部36、キーボード38、マウス40、ディスプレイ42を備え、これらはバス44を介して互いに接続されている。なお、記憶部36はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部36には、コンピュータ30をテキスト要約装置10として機能させるためのテキスト要約プログラム46、訓練事例データベース12、パラメタ・データベース18が各々記憶されている。CPU32は、テキスト要約プログラム46を記憶部36から読み出してメモリ34に展開し、テキスト要約プログラム46が有するプロセスを順次実行する。   The text summarizing apparatus 10 can be realized by, for example, a computer 30 shown in FIG. The computer 30 includes a CPU 32, a memory 34, a nonvolatile storage unit 36, a keyboard 38, a mouse 40, and a display 42, which are connected to each other via a bus 44. The storage unit 36 can be realized by an HDD (Hard Disk Drive), a flash memory, or the like. In the storage unit 36 as a recording medium, a text summarizing program 46 for causing the computer 30 to function as the text summarizing device 10, the training example database 12, and the parameter database 18 are stored. The CPU 32 reads the text summary program 46 from the storage unit 36 and expands it in the memory 34, and sequentially executes processes included in the text summary program 46.

テキスト要約プログラム46は、テキスト入力プロセス50、パラメタ推定プロセス52、テキスト要約プロセス54及びテキスト出力プロセス56を有する。CPU32は、テキスト入力プロセス50を実行することで、図1に示すテキスト入力部22として動作する。またCPU32は、パラメタ推定プロセス52を実行することで、図1に示すパラメタ推定部16として動作する。またCPU32は、テキスト出力プロセス56を実行することで、図1に示すテキスト出力部26として動作する。なお、テキスト要約プログラム46は本発明に係るテキスト要約プログラムの一例である。   The text summarization program 46 includes a text input process 50, a parameter estimation process 52, a text summarization process 54, and a text output process 56. The CPU 32 operates as the text input unit 22 shown in FIG. 1 by executing the text input process 50. The CPU 32 operates as the parameter estimation unit 16 illustrated in FIG. 1 by executing the parameter estimation process 52. The CPU 32 operates as the text output unit 26 shown in FIG. 1 by executing the text output process 56. The text summary program 46 is an example of a text summary program according to the present invention.

テキスト要約装置10がコンピュータ30で実現される場合、訓練事例データベース12を記憶する記憶部36は第1記憶部14として用いられ、メモリ34の一部領域は訓練事例データベース12として用いられる。また、パラメタ・データベース18を記憶する記憶部36は第2記憶部20として用いられ、メモリ34の一部領域はパラメタ・データベース18として用いられる。これにより、テキスト要約プログラム46を実行したコンピュータ30が、テキスト要約装置10として機能することになる。   When the text summarizing apparatus 10 is realized by the computer 30, the storage unit 36 that stores the training case database 12 is used as the first storage unit 14, and a partial area of the memory 34 is used as the training case database 12. The storage unit 36 that stores the parameter database 18 is used as the second storage unit 20, and a partial area of the memory 34 is used as the parameter database 18. As a result, the computer 30 that has executed the text summarization program 46 functions as the text summarization apparatus 10.

次に本実施形態の作用として、まず図3を参照し、コンピュータ30のCPU32でテキスト要約プログラム46が実行されることで実現されるテキスト要約処理の概略を説明する。テキスト要約処理のステップ60において、パラメタ推定部16は、訓練事例データベース12から訓練事例を受け付け、受け付けた訓練事例に基づいてパラメタの学習を行う(パラメタ学習の詳細は後述)。また、次のステップ62において、パラメタ推定部16は、学習したパラメタをパラメタ・データベース18に格納する。   Next, as an operation of the present embodiment, an outline of text summarization processing realized by executing the text summarization program 46 by the CPU 32 of the computer 30 will be described first with reference to FIG. In step 60 of the text summarization process, the parameter estimation unit 16 receives a training case from the training case database 12, and learns parameters based on the received training case (details of parameter learning will be described later). In the next step 62, the parameter estimation unit 16 stores the learned parameters in the parameter database 18.

次のステップ64において、テキスト入力部22は、入力された要約対象のテキストを受け付ける。なお、要約対象のテキストは、例えばキーボード38を介して入力されたテキストでもよいし、例えば記憶部36に予め記憶されたテキストでもよいし、例えば通信回線を介してコンピュータ30と接続された他の機器から受信したテキストでもよい。   In the next step 64, the text input unit 22 receives the input text to be summarized. The text to be summarized may be, for example, text input via the keyboard 38, may be text stored in advance in the storage unit 36, or may be another text connected to the computer 30 via, for example, a communication line. It may be text received from the device.

また、ステップ66において、テキスト要約部24は、テキスト入力部22によって受け付けされた要約対象のテキストと、パラメタ・データベース18に格納されたパラメタと、から要約を生成する(要約生成の詳細は後述)。   In step 66, the text summary unit 24 generates a summary from the summary target text received by the text input unit 22 and the parameters stored in the parameter database 18 (details of the summary generation will be described later). .

そしてステップ68において、テキスト出力部26は、テキスト要約部24によって生成された要約を外部へ出力する。要約の出力は、例えばディスプレイ42にテキストとして表示してもよいし、要約を読み上げる音声として出力してもよいし、テキストデータとして記録メディアに記録するか他の機器へ送信するようにしてもよい。   In step 68, the text output unit 26 outputs the summary generated by the text summary unit 24 to the outside. The output of the summary may be displayed as text on the display 42, for example, may be output as a voice that reads the summary, or may be recorded as text data on a recording medium or transmitted to another device. .

また、図3では、パラメタの学習及びパラメタ・データベース18への格納(ステップ60,62)と、要約の生成・出力(ステップ64〜68)と、を一連の処理として示しているが、パラメタの学習及びパラメタ・データベース18への格納を行った後、時間を空けて要約の生成・出力を行ってもよい。   Further, in FIG. 3, parameter learning and storage in the parameter database 18 (steps 60 and 62) and summary generation / output (steps 64 to 68) are shown as a series of processing. After learning and storing in the parameter database 18, a summary may be generated and output after a time interval.

次に、テキスト要約処理の詳細を説明するにあたり、まず、訓練事例データベース12に格納される訓練事例について、図4を参照して説明する。図4には、訓練事例データベース12に格納される訓練事例の一例が示されている。図4において、訓練事例データベース12は、各レコードに1つの訓練事例を各々格納している。訓練事例データベース12の各レコードに格納されているそれぞれの訓練事例は、個々の訓練事例を識別するための事例番号、要約対象のテキスト、及び、当該要約対象のテキストから生成された要約の各情報を含んでいる。なお、訓練事例に含まれる要約は、例えば人手によって作成され、後述するパラメタ(重みベクトルw)の学習における基準として用いることが可能な正しい要約である。   Next, in describing the details of the text summarization process, first, training examples stored in the training example database 12 will be described with reference to FIG. FIG. 4 shows an example of training cases stored in the training case database 12. In FIG. 4, the training case database 12 stores one training case in each record. Each training case stored in each record of the training case database 12 includes a case number for identifying an individual training case, a text to be summarized, and summary information generated from the text to be summarized. Is included. Note that the summary included in the training example is a correct summary that is created manually, for example, and can be used as a reference in learning a parameter (weight vector w) described later.

続いて、パラメタ(重みベクトルw)を用いた要約の生成について説明する。要約対象のテキストをx、要約対象のテキストxから生成された要約をyとする。要約対象のテキストxが与えられると、要約対象のテキストxと、要約対象のテキストxから生成された要約yと、から特徴ベクトルf(x,y)が得られる。特徴ベクトルf(x,y)と、パラメタ(重みベクトルw)の内積w・f(x,y)が要約yのスコアである。要約を生成する際には、要約対象のテキストxから生成される要約yのうち、パラメタ(重みベクトルw)と特徴ベクトルf(x,y)の内積w・f(x,y)が最大となる要約yを要約y’として生成する。上記を式で表すと次の(4)式のようになる。   Subsequently, generation of a summary using a parameter (weight vector w) will be described. Assume that the text to be summarized is x, and the summary generated from the text x to be summarized is y. Given the text x to be summarized, a feature vector f (x, y) is obtained from the text x to be summarized and the summary y generated from the text x to be summarized. The inner product w · f (x, y) of the feature vector f (x, y) and the parameter (weight vector w) is the score of the summary y. When the summary is generated, the inner product w · f (x, y) of the parameter (weight vector w) and the feature vector f (x, y) among the summaries y generated from the text x to be summarized is the maximum. Is generated as a summary y ′. The above is expressed by the following equation (4).

y'=argmax w・f(x,y) …(4)
要約の生成方法の一例については後述するが、任意の要約生成方法を適用することができる。
y ′ = arg y max w · f (x, y) (4)
An example of a summary generation method will be described later, but any summary generation method can be applied.

要約対象のテキストxと当該テキストxから生成された要約yから得られる特徴ベクトルf(x,y)は、各要素が互いに異なる単語に対応し、一例として、要約yが或る単語を含んでいれば対応する要素の値が1、含んでいなければ対応する要素の値が0となるベクトルを適用することができる。図5(A)に示すテキストx及び要約yから得られる特徴ベクトルf(x,y)の一例を図5(B)に示す。図5(A)に示す要約yは「路上」や「強盗」といった単語を含むため、図5(B)に示す特徴ベクトルf(x,y)では、これらの単語に対応する要素の値が1となっている。一方、図5(A)に示す要約yは「道路」や「泥棒」といった単語は含んでいないため、図5(B)に示す特徴ベクトルf(x,y)では、これらの単語に対応する要素の値が0となっている。   The feature vector f (x, y) obtained from the text x to be summarized and the summary y generated from the text x corresponds to a word whose elements are different from each other. For example, the summary y includes a certain word. A vector in which the value of the corresponding element is 1 if it is present and the value of the corresponding element is 0 if it is not included can be applied. An example of the feature vector f (x, y) obtained from the text x and the summary y shown in FIG. 5 (A) is shown in FIG. 5 (B). Since the summary y shown in FIG. 5A includes words such as “on the road” and “robbery”, the feature vector f (x, y) shown in FIG. It is 1. On the other hand, since the summary y shown in FIG. 5A does not include words such as “road” and “thief”, the feature vector f (x, y) shown in FIG. 5B corresponds to these words. The element value is 0.

次に、パラメタ推定部16によって行われるパラメタの学習を説明する。n個の訓練事例が与えられたと仮定し、そのうちのi番目の訓練事例のテキストをx、要約をyとする。例えば事例番号1のテキストをx1、要約をy1とする。 Next, the parameter learning performed by the parameter estimation unit 16 will be described. Assuming that n training cases are given, let the text of the i-th training case be x i and the summary be y i . For example, the text of case number 1 is x1, and the summary is y1.

パラメタの学習に際しては、n個の訓練事例が1つずつ取り上げられる。その時点でのパラメタwの下で、テキストxから生成された要約y’と、人手によって作成された正しい要約yが得られた際に、要約y’の要約としての良さ(品質)は、要約y’を評価するための評価尺度、一例としてROUGEを用い、要約yを基準とした要約y’のROUGEの値(ROUGE(y';y))として算出できる。ROUGEの値は0〜1の範囲であるので、前出の(3)式のように1からROUGEの値を減算することで、要約yを基準(正しい要約)としたときの要約y’の悪さ、すなわち要約yに対する要約y’の誤差が得られる。なお、前出の(3)式では誤差として誤差関数loss(y';y)を用いている。 When learning the parameters, n training examples are picked up one by one. Under the current parameter w, when the summary y ′ generated from the text x i and the correct summary y i created manually are obtained, the goodness (quality) of the summary y ′ as a summary is , summary y value of ROUGE of 'rating scale for evaluating, using ROUGE as an example, reference to digest y summary y i' (ROUGE (y ' ; y i)) can be calculated as. Since the value of ROUGE is in the range of 0 to 1, the summary y ′ when the summary y i is used as the reference (correct summary) by subtracting the value of ROUGE from 1 as shown in the above equation (3). , I.e., the error of summary y ′ with respect to summary y i is obtained. In the above equation (3), the error function loss (y ′; y i ) is used as an error.

上記の誤差を減らすようにパラメタを更新できれば、より良い要約を生成できるパラメタを得ることができる。そこで、以下の(5)式のようにパラメタを更新する。   If the parameter can be updated so as to reduce the above error, a parameter capable of generating a better summary can be obtained. Therefore, the parameter is updated as in the following equation (5).

(5)式において、woldは現在(更新前)のパラメタであり、wnewは更新後のパラメタである。上記の(5)式は、パラメタwの変化を最小にしつつ、更新後のパラメタwnewにおいて、正しい要約yのスコアが現在(更新前)のパラメタwoldを用いて生成された要約y’のスコアより必ず大きくなるように、パラメタwを更新している。その際、要約yのスコアから要約y’のスコアを減算した残差が誤差関数loss(y';y)以上となるようにしている。上記の(5)式を解くと、前出のパラメタ更新式((1),(2)式)が得られる。 In equation (5), w old is a current parameter (before update), and w new is a parameter after update. The above equation (5) indicates that the summary y ′ in which the score of the correct summary y i is generated using the current (before update) parameter w old in the updated parameter w new while minimizing the change of the parameter w. The parameter w is updated so that it always becomes larger than the score of. At this time, the residual obtained by subtracting the score of the summary y ′ from the score of the summary y i is set to be equal to or larger than the error function loss (y ′; y i ). When the above equation (5) is solved, the above-described parameter update equations (equations (1) and (2)) are obtained.

前出の更新式((1),(2)式)では、現在(更新前)のパラメタwnewを、誤差関数にROUGEを用いて求めた要約yに対する要約y’の誤差が大きくなる程更新の幅が大きくなるように更新しているので、パラメタwの更新に伴ってROUGEの値が直接高くなるようにパラメタwを更新(学習)することができる。 In the above update formula (formulas (1) and (2)), the error of the summary y ′ with respect to the summary y i obtained by using ROUGE as the error function for the current (pre-update) parameter w new increases. Since the update is performed so that the range of the update is increased, the parameter w can be updated (learned) so that the value of ROUGE directly increases as the parameter w is updated.

次に図6を参照し、パラメタ推定部16によるパラメタ学習処理(図3に示すテキスト要約処理のステップ60,62の詳細)の具体的なアルゴリズムの一例を説明する。パラメタ学習処理のステップ70において、パラメタ推定部16は、事例番号iが付与された訓練事例に含まれるテキストx及び要約yを訓練事例データベース12からn個(事例番号i=1〜nの訓練事例を)取得する。またステップ72において、パラメタ推定部16は、予め設定された繰り返し回数Tを取得する。次のステップ74において、パラメタ推定部16は、パラメタ(重みベクトルw)を、全ての要素の値が0のベクトルへ初期化する。またステップ76において、パラメタ推定部16は変数tに1を設定し、次のステップ78において、パラメタ推定部16は変数iに1を設定する。 Next, an example of a specific algorithm of the parameter learning process (details of steps 60 and 62 of the text summarization process shown in FIG. 3) by the parameter estimation unit 16 will be described with reference to FIG. In step 70 the parameter learning processing, parameter estimation unit 16, a text x i and abstract y i included in the training set of case number i is assigned from the training case database 12 of n (case number i = 1 to n Acquire training examples). In step 72, the parameter estimation unit 16 acquires a preset repetition count T. In the next step 74, the parameter estimation unit 16 initializes the parameter (weight vector w) to a vector in which all element values are zero. In step 76, the parameter estimation unit 16 sets 1 to the variable t, and in the next step 78, the parameter estimation unit 16 sets 1 to the variable i.

次のステップ80において、パラメタ推定部16は、事例番号iの訓練事例について、現在のパラメタ(重みベクトルw)と特徴ベクトルf(x,y)との内積w・f(x,y)が最大となる要約yを、要約y'として生成する(次の(6)式も参照)。 In the next step 80, the parameter estimation unit 16 calculates the inner product w · f (x i , y) between the current parameter (weight vector w) and the feature vector f (x i , y) for the training example with the case number i. Is generated as a summary y ′ (see also the following equation (6)).

y'=argmax w・f(x,y) …(6) y ′ = arg y max w · f (x i , y) (6)

次のステップ82において、パラメタ推定部16は、まず前出の(3)式により要約yに対する要約y’の誤差loss(y';y)を演算した後に、前出のパラメタ更新式((1),(2)式)によりパラメタ(重みベクトルw)を更新する。これにより、要約yに対する要約y’の誤差が大きくなる程更新の幅が大きくなるようにパラメタ(重みベクトルw)が更新される。 In the next step 82, the parameter estimation unit 16 first calculates the error loss (y ′; y i ) of the summary y ′ with respect to the summary y i according to the above equation (3), and then calculates the parameter update equation ( The parameter (weight vector w) is updated by (1) and (2). As a result, the parameter (weight vector w) is updated so that the update range increases as the error of the summary y ′ with respect to the summary y i increases.

ステップ84において、パラメタ推定部16は、変数iが先のステップ70で取得した訓練事例の総数n以上になったか否か判定する。ステップ84の判定が否定された場合はステップ86へ移行し、ステップ86において、パラメタ推定部16は変数iを1だけインクリメントした後にステップ80に戻る。これにより、ステップ84の判定が肯定される迄ステップ80〜ステップ86が繰り返され、n個の訓練事例を1つずつ用いてパラメタ(重みベクトルw)の更新(学習)がn回繰り返される。   In step 84, the parameter estimation unit 16 determines whether or not the variable i is equal to or greater than the total number n of training examples acquired in the previous step 70. If the determination in step 84 is negative, the process proceeds to step 86. In step 86, the parameter estimation unit 16 increments the variable i by 1, and then returns to step 80. Thus, steps 80 to 86 are repeated until the determination in step 84 is affirmed, and updating (learning) of the parameter (weight vector w) is repeated n times using n training cases one by one.

ステップ84の判定が肯定されるとステップ88へ移行する。ステップ88において、パラメタ推定部16は、変数tが先のステップ72で取得した繰り返し回数T以上になったか否か判定する。ステップ88の判定が否定された場合はステップ90へ移行し、ステップ90において、パラメタ推定部16は変数tを1だけインクリメントした後にステップ78に戻る。これにより、ステップ88の判定が肯定される迄ステップ78〜ステップ90が繰り返され、n個の訓練事例が各々T回ずつ用いられてパラメタ(重みベクトルw)の更新(学習)が繰り返される。これにより、要約の品質を評価する評価尺度であるROUGEの値が直接最大化されるようにパラメタ(重みベクトルw)が更新(学習)される。   If the determination at step 84 is affirmative, the routine proceeds to step 88. In step 88, the parameter estimation unit 16 determines whether or not the variable t has reached the number of repetitions T acquired in the previous step 72. If the determination in step 88 is negative, the process proceeds to step 90. In step 90, the parameter estimation unit 16 increments the variable t by 1, and then returns to step 78. Thereby, step 78 to step 90 are repeated until the determination in step 88 is affirmed, and each of the n training cases is used T times and the update (learning) of the parameter (weight vector w) is repeated. Thereby, the parameter (weight vector w) is updated (learned) so that the value of ROUGE, which is an evaluation measure for evaluating the quality of the summary, is directly maximized.

ステップ88の判定が肯定されると、パラメタ(重みベクトルw)の更新を終了してステップ92へ移行し、ステップ92において、パラメタ推定部16は、上記処理で更新(学習)されたパラメタ(重みベクトルw)をパラメタ・データベース18に格納し、パラメタ学習処理を終了する。パラメタ・データベース18の一例を図7に示す。パラメタ・データベース18は、各レコードに、或る単語を含んでいるか否か等の「特徴」と、当該特徴の「重み」の各情報が設定されている。図7に示すパラメタ・データベース18における最初のレコードは、単語「道路」を含んでいるという特徴の重みが-0.03であるということを示している。   If the determination in step 88 is affirmative, the updating of the parameter (weight vector w) is terminated, and the process proceeds to step 92. In step 92, the parameter estimation unit 16 updates the parameter (weight) updated (learned) by the above processing. The vector w) is stored in the parameter database 18, and the parameter learning process is terminated. An example of the parameter database 18 is shown in FIG. In the parameter database 18, information on “feature” such as whether or not a certain word is included in each record and “weight” of the feature is set. The first record in the parameter database 18 shown in FIG. 7 indicates that the weight of the feature that includes the word “road” is −0.03.

上述したパラメタ学習処理が行われた後、図3に示すテキスト要約処理のステップ64において、テキスト入力部22は、入力された要約対象のテキストxを受け付ける。テキスト入力部22によって取得されるテキストxの入力形式の一例を図8に示す。図8に示すテキストxの入力形式では、テキストxが一文毎に分割され、更に形態素解析が行われた結果が入力される。図8において、表の各行は各々単一の形態素に対応しており、個々の形態素毎に「表記」「品詞」「読み」及び「標準形」の各情報が付加されている。   After the parameter learning process described above is performed, in step 64 of the text summarization process shown in FIG. 3, the text input unit 22 receives the input text x to be summarized. An example of the input format of the text x acquired by the text input unit 22 is shown in FIG. In the input format of the text x shown in FIG. 8, the text x is divided for each sentence, and the result of morphological analysis is input. In FIG. 8, each row of the table corresponds to a single morpheme, and information of “notation”, “part of speech”, “reading”, and “standard form” is added to each morpheme.

続いて図9を参照し、テキスト要約部24による要約生成処理(図3に示すテキスト要約処理のステップ66の詳細)の具体的なアルゴリズムの一例を説明する。要約生成処理のステップ100において、テキスト要約部24は、要約対象のテキストx及び要約長Kをテキスト入力部22から取得する。またステップ102において、テキスト要約部24は、パラメタ・データベース18からパラメタ(重みベクトル)wを取得する。また、ステップ104において、テキスト要約部24は、ステップ100で取得したテキストxを文の集合Uに格納し、次のステップ106において、テキスト要約部24は、要約を表す集合Sを空集合φに初期化する。   Next, an example of a specific algorithm of the summary generation process (details of step 66 of the text summary process shown in FIG. 3) by the text summarizing unit 24 will be described with reference to FIG. In step 100 of the summary generation process, the text summarization unit 24 acquires the text to be summarized x and the summary length K from the text input unit 22. In step 102, the text summarizing unit 24 acquires a parameter (weight vector) w from the parameter database 18. In step 104, the text summarizing unit 24 stores the text x acquired in step 100 in the sentence set U. In the next step 106, the text summarizing unit 24 sets the set S representing the summary to the empty set φ. initialize.

ステップ108において、テキスト要約部24は、文の集合Uが空集合φよりも大きいか(文の集合Uに何らかの文が格納されているか)否かを判定する。ステップ108の判定が肯定された場合はステップ110へ移行する。ステップ110において、テキスト要約部24は、文の集合Uに格納されている文の中から、要約の集合Sに文sを入れた時のスコア(=特徴ベクトルfとパラメタwの内積)と要約の集合Sに文sを入れていない時のスコアの差を、文sの長さで除した値が最大の文s(次の(7)式を満たす文s)を選択する。 In step 108, the text summarizing unit 24 determines whether the sentence set U is larger than the empty set φ (whether any sentence is stored in the sentence set U). If the determination at step 108 is affirmative, the routine proceeds to step 110. In step 110, the text summarizing unit 24 calculates the score (= inner product of the feature vector f and the parameter w) when the sentence s i is put into the summary set S from the sentences stored in the sentence set U. selecting the difference in scores when not put a sentence s i, sentence s i sentence s i divided by the length of the maximum of the (next (7) sentence s i satisfying equation) to a set of abstract S To do.

=arg maxsi∈U((w・f(x,{S,s}−w・f(x,S))/length(s)) …(7)
なお、(7)式において、length(s)は文sの長さである。
s i = arg max siεU ((w · f (x, {S, s i } −w · f (x, S)) / length (s i )) (7)
In equation (7), length (s i ) is the length of sentence s i .

次のステップ112において、テキスト要約部24は、要約の集合Sに既に入っている文の長さに、ステップ110で選択した文sの長さを加えた長さが要約長K以下か否か判定する(次の(8)式も参照)。
length({S,s})≦K …(8)
In the next step 112, the text summarizing unit 24 determines whether or not the length obtained by adding the length of the sentence s i selected in step 110 to the length of the sentence already in the summary set S is equal to or shorter than the summary length K. (See also the following equation (8)).
length ({S, s i }) ≦ K (8)

ステップ112の判定が肯定された場合はステップ114へ移行する。ステップ114において、テキスト要約部24は、ステップ110で選択した文sを要約の集合Sに加えた後に(次の(9)式も参照)、ステップ116へ移行する。
S={S,s} …(9)
If the determination at step 112 is affirmative, the routine proceeds to step 114. In step 114, the text summarizing section 24 adds the sentence s i selected in step 110 to the summary set S (see also the following equation (9)), and then proceeds to step 116.
S = {S, s i } (9)

また、ステップ112の判定が否定された場合は、ステップ114をスキップして(文sを要約の集合Sに加えることなく)ステップ116へ移行する。 If the determination in step 112 is negative, step 114 is skipped (without adding the sentence s i to the summary set S) and the process proceeds to step 116.

ステップ116において、テキスト要約部24は、ステップ110で選択した文sを文の集合Uから除去する(U=U−s)。ステップ116の処理を行うとステップ108に戻り、ステップ108の判定が肯定される迄ステップ108〜ステップ116を繰り返す。文の集合Uが空集合φになると、ステップ108の判定が否定されてステップ118へ移行する。 In step 116, the text summarizing unit 24 removes the sentence s i selected in step 110 from the sentence set U (U = U−s i ). If the process of step 116 is performed, it will return to step 108 and will repeat step 108-step 116 until determination of step 108 is affirmed. When the sentence set U becomes the empty set φ, the determination in step 108 is negative and the process proceeds to step 118.

ステップ118において、テキスト要約部24は、テキストxの文の中で、長さが要約長K以内で、単一の文として最もスコアの高い文sを文vとして選択する(次の(10)式も参照)。
v=arg maxsi∈x:length(si)≦Kw・f(x,s) …(10)
In step 118, the text summarizing unit 24 selects, as a sentence v, a sentence s i having a length within the summary length K and having the highest score as a single sentence among sentences of the text x (next (10 (See also).)
v = arg max siεx: length (si) ≦ K w · f (x, s i ) (10)

次のステップ120において、テキスト要約部24は、要約の集合Sに入っている文のスコアが、先のステップ118で選択した文vのスコア以上か否か判定する。ステップ120の判定が肯定された場合はステップ122へ移行する。ステップ122において、テキスト要約部24は、要約の集合Sに入っている文をテキストxの要約として出力し、要約生成処理を終了する。また、ステップ120の判定が否定された場合はステップ124へ移行する。ステップ124において、テキスト要約部24は、先のステップ118で選択した文vをテキストxの要約として出力し、要約生成処理を終了する。   In the next step 120, the text summarizing unit 24 determines whether the score of the sentence included in the summary set S is equal to or higher than the score of the sentence v selected in the previous step 118. If the determination at step 120 is affirmative, the routine proceeds to step 122. In step 122, the text summarizing unit 24 outputs the sentences contained in the summary set S as a summary of the text x, and ends the summary generation process. If the determination at step 120 is negative, the process proceeds to step 124. In step 124, the text summarizing unit 24 outputs the sentence v selected in the previous step 118 as a summary of the text x, and ends the summary generation process.

上述した要約生成処理のステップ122又はステップ124において、テキスト要約部24によって出力されたテキストxの要約は、図3に示すテキスト要約処理のステップ68において、テキスト出力部26により外部へ出力される。   The summary of the text x output by the text summarization unit 24 in step 122 or step 124 of the summary generation process described above is output to the outside by the text output unit 26 in step 68 of the text summarization process shown in FIG.

なお、図9に要約生成処理として示した要約の生成方法は一例であり、本発明におけるパラメタの更新方法は、任意の要約生成方法と組み合わせることが可能である。   Note that the summary generation method shown as the summary generation process in FIG. 9 is an example, and the parameter update method in the present invention can be combined with any summary generation method.

また、上記では、要約の品質を評価する評価尺度としてROUGEを用いた態様を説明したが、本発明はこれに限定されるものではなく、ROUGE以外の評価尺度を適用することも可能である。   Moreover, although the aspect using ROUGE as an evaluation scale for evaluating the quality of the summary has been described above, the present invention is not limited to this, and an evaluation scale other than ROUGE can be applied.

また、上記では訓練事例データベース12が、コンピュータ30に設けられた記憶部36に記憶されている態様を説明したが、本発明はこれに限定されるものではなく、通信回線を介してコンピュータ30と接続された別のコンピュータに設けられた記憶部に記憶されていてもよい。この場合、パラメタの学習にあたり、テキストx及び要約yを各々含むn個の訓練事例は、通信回線を介して前記別のコンピュータから受信するように構成することができる。また、要約対象のテキストxについても、通信回線を介して前記別のコンピュータから受信する構成であってもよい。 In the above description, the training example database 12 is stored in the storage unit 36 provided in the computer 30. However, the present invention is not limited to this. You may memorize | store in the memory | storage part provided in another connected computer. In this case, when learning the parameters, n training examples each including the text x i and the summary y i can be received from the other computer via the communication line. Further, the text x to be summarized may be received from the other computer via a communication line.

更に、上記では、コンピュータ30がテキスト要約プログラム46を実行することで、コンピュータ30がテキスト要約装置10として機能する態様を説明したが、本発明はこれに限定されるものではなく、図1に示した各機能ブロック(パラメタ推定部16、テキスト入力部22、テキスト要約部24及びテキスト出力部26)は、それぞれハードウェアで構成することも可能である。   Furthermore, in the above description, the mode in which the computer 30 functions as the text summarizing device 10 by the computer 30 executing the text summarizing program 46 has been described. However, the present invention is not limited to this and is shown in FIG. Each functional block (parameter estimation unit 16, text input unit 22, text summarization unit 24, and text output unit 26) can also be configured by hardware.

また、上記ではテキスト要約プログラム46が記憶部36に予め記憶(インストール)されている態様を説明したが、本発明に係るテキスト要約プログラムは、CD−ROMやDVD−ROM等の記録媒体に記録されている形態で提供することも可能である。   In the above description, the text summary program 46 is stored (installed) in the storage unit 36 in advance. However, the text summary program according to the present invention is recorded on a recording medium such as a CD-ROM or a DVD-ROM. It is also possible to provide it in the form.

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。   All documents, patent applications and technical standards mentioned in this specification are to the same extent as if each individual document, patent application and technical standard were specifically and individually stated to be incorporated by reference. Incorporated by reference in the book.

10 テキスト要約装置
12 訓練事例データベース
14 第1記憶部
16 パラメタ推定部
18 パラメタ・データベース
20 第2記憶部
22 テキスト入力部
24 テキスト要約部
26 テキスト出力部
30 コンピュータ
34 メモリ
36 記憶部
46 テキスト要約プログラム
DESCRIPTION OF SYMBOLS 10 Text summary apparatus 12 Training example database 14 1st memory | storage part 16 Parameter estimation part 18 Parameter database 20 2nd memory | storage part 22 Text input part 24 Text summary part 26 Text output part 30 Computer 34 Memory 36 Memory | storage part 46 Text summary program

Claims (5)

テキストと、当該テキストから予め生成された要約と、を対応付けた訓練事例を格納した訓練事例データベースを記憶する第1記憶部と、
前記訓練事例に含まれ前記テキストと対応付けられた要約の品質に対する、要約対象のテキストからの要約の生成に用いられるパラメタの更新前の値を用いて、前記訓練事例に含まれる前記テキストから生成された要約の品質の誤差を、要約の品質を評価する評価尺度を用いて求め、前記パラメタの更新前の値を、求めた前記誤差が大きくなる程更新の幅が大きくなるように更新することで、前記パラメタを推定するパラメタ推定部と、
を含むテキスト要約装置。
A first storage unit that stores a training case database storing training cases in which texts and summaries generated in advance from the texts are associated with each other;
Generated from the text included in the training case using the pre-update values of the parameters used to generate the summary from the text to be summarized for the quality of the summary included in the training case and associated with the text An error in the quality of the summary obtained is obtained using an evaluation scale for evaluating the quality of the summary, and the value before the update of the parameter is updated so that the range of update becomes larger as the obtained error becomes larger. A parameter estimation unit for estimating the parameter;
Text summarization device.
前記パラメタ推定部は、前記パラメタとしての重みベクトルの更新前の値をwold、前記訓練事例に含まれる前記テキストをx、前記訓練事例に含まれる前記要約をy、前記パラメタとしての重みベクトルの更新前の値を用いて前記訓練事例に含まれる前記テキストxから生成された要約をy'、テキストx及び要約yの特徴ベクトルをf(x,y)、前記評価尺度をROUGE、前記誤差をloss(y';y)としたときに、

であり、
loss(y';y)=1−ROUGE(y';y) …(3)
上記(1)〜(3)式に従って前記パラメタとしての重みベクトルの更新後の値wnewを演算することで前記パラメタを推定する請求項1記載のテキスト要約装置。
The parameter estimation unit, w old value before updating the weight vector as the parameter, the text x i included in the training set, the summary of the y i included in the training set, the weights of the said parameter The summary generated from the text x i included in the training example using the values before the update of the vector is y ′, the feature vector of the text x and the summary y is f (x, y), the evaluation measure is ROUGE, When the error is loss (y ′; y i ),

And
loss (y ′; y i ) = 1−ROUGE (y ′; y i ) (3)
(1) to (3) text summarizing apparatus according to claim 1, wherein for estimating the parameter by calculating a value w new new updated weight vector as the parameter according to equation.
前記パラメタ推定部によって推定された前記パラメタを格納するパラメタ・データベースを記憶する第2記憶部と、
要約対象のテキストを受け付けるテキスト入力部と、
前記テキスト入力部によって受け付けされた前記要約対象のテキストと、前記パラメタ・データベースに格納された前記パラメタと、に基づいて、前記要約対象のテキストの要約を生成するテキスト要約部と、
前記テキスト要約部によって生成された要約をテキストとして出力するテキスト出力部と、
を更に備えた請求項1又は請求項2記載のテキスト要約装置。
A second storage unit for storing a parameter database for storing the parameters estimated by the parameter estimation unit;
A text input section that accepts text to be summarized;
A text summarization unit that generates a summary of the text to be summarized based on the text to be summarized received by the text input unit and the parameter stored in the parameter database;
A text output unit for outputting the summary generated by the text summary unit as text;
The text summarization apparatus according to claim 1, further comprising:
テキストと、当該テキストから予め生成された要約と、を対応付けた訓練事例を格納した訓練事例データベースが第1記憶部に記憶された状態で、
前記訓練事例に含まれ前記テキストと対応付けられた要約の品質に対する、要約対象のテキストからの要約の生成に用いられるパラメタの更新前の値を用いて、前記訓練事例に含まれる前記テキストから生成された要約の品質の誤差を、要約の品質を評価する評価尺度を用いて求め、前記パラメタの更新前の値を、求めた前記誤差が大きくなる程更新の幅が大きくなるように更新することで、前記パラメタを推定するパラメタ推定ステップ
を含むテキスト要約方法。
In a state where a training case database storing a training case in which a text is associated with a summary generated in advance from the text is stored in the first storage unit,
Generated from the text included in the training case using the pre-update values of the parameters used to generate the summary from the text to be summarized for the quality of the summary included in the training case and associated with the text An error in the quality of the summary obtained is obtained using an evaluation scale for evaluating the quality of the summary, and the value before the update of the parameter is updated so that the range of update becomes larger as the obtained error becomes larger. A text summarization method comprising: a parameter estimation step for estimating the parameter.
コンピュータを、請求項1〜請求項3の何れか1項記載のテキスト要約装置を構成する各手段として機能させるためのテキスト要約プログラム。   A text summarization program for causing a computer to function as each means constituting the text summarization device according to any one of claims 1 to 3.
JP2011242529A 2011-11-04 2011-11-04 Text summarization apparatus, method and program Active JP5638503B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011242529A JP5638503B2 (en) 2011-11-04 2011-11-04 Text summarization apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011242529A JP5638503B2 (en) 2011-11-04 2011-11-04 Text summarization apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2013097723A true JP2013097723A (en) 2013-05-20
JP5638503B2 JP5638503B2 (en) 2014-12-10

Family

ID=48619566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011242529A Active JP5638503B2 (en) 2011-11-04 2011-11-04 Text summarization apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5638503B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014228993A (en) * 2013-05-21 2014-12-08 日本電信電話株式会社 Information extraction method, device, and program
JP2014229047A (en) * 2013-05-22 2014-12-08 日本電信電話株式会社 Event information extraction device, operating method of the same, and computer program
JP2016062181A (en) * 2014-09-16 2016-04-25 日本電信電話株式会社 Weight vector learning device, summary generation device, method, and program
JP6152199B1 (en) * 2016-06-28 2017-06-21 ヤフー株式会社 Generating device, generating method, and generating program
JP2019160071A (en) * 2018-03-15 2019-09-19 Jcc株式会社 Summary creation system and summary creation method
JP2019191712A (en) * 2018-04-19 2019-10-31 Jcc株式会社 Video recording and reproduction system
JP2020071737A (en) * 2018-10-31 2020-05-07 富士通株式会社 Learning method, learning program and learning device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108571A (en) * 2001-09-28 2003-04-11 Seiko Epson Corp Document summary device, control method of document summary device, control program of document summary device and recording medium
JP2003248676A (en) * 2002-02-22 2003-09-05 Communication Research Laboratory Solution data compiling device and method, and automatic summarizing device and method
US20080189074A1 (en) * 2007-02-06 2008-08-07 Microsoft Corporation Automatic evaluation of summaries
JP2009116770A (en) * 2007-11-09 2009-05-28 Sony Corp Data processing device and method, program, and recording medium
JP2011150515A (en) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Text summarizing system, method of summarizing text, and text summarizing program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108571A (en) * 2001-09-28 2003-04-11 Seiko Epson Corp Document summary device, control method of document summary device, control program of document summary device and recording medium
JP2003248676A (en) * 2002-02-22 2003-09-05 Communication Research Laboratory Solution data compiling device and method, and automatic summarizing device and method
US20080189074A1 (en) * 2007-02-06 2008-08-07 Microsoft Corporation Automatic evaluation of summaries
JP2009116770A (en) * 2007-11-09 2009-05-28 Sony Corp Data processing device and method, program, and recording medium
JP2011150515A (en) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Text summarizing system, method of summarizing text, and text summarizing program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014228993A (en) * 2013-05-21 2014-12-08 日本電信電話株式会社 Information extraction method, device, and program
JP2014229047A (en) * 2013-05-22 2014-12-08 日本電信電話株式会社 Event information extraction device, operating method of the same, and computer program
JP2016062181A (en) * 2014-09-16 2016-04-25 日本電信電話株式会社 Weight vector learning device, summary generation device, method, and program
JP6152199B1 (en) * 2016-06-28 2017-06-21 ヤフー株式会社 Generating device, generating method, and generating program
JP2018005324A (en) * 2016-06-28 2018-01-11 ヤフー株式会社 Generation apparatus, generation method, and generation program
JP2019160071A (en) * 2018-03-15 2019-09-19 Jcc株式会社 Summary creation system and summary creation method
JP2019191712A (en) * 2018-04-19 2019-10-31 Jcc株式会社 Video recording and reproduction system
JP7137815B2 (en) 2018-04-19 2022-09-15 Jcc株式会社 Recording playback system
JP2020071737A (en) * 2018-10-31 2020-05-07 富士通株式会社 Learning method, learning program and learning device

Also Published As

Publication number Publication date
JP5638503B2 (en) 2014-12-10

Similar Documents

Publication Publication Date Title
JP5638503B2 (en) Text summarization apparatus, method and program
CN101996232B (en) Information processing apparatus, method for processing information, and program
JP6231944B2 (en) Learning model creation device, determination system, and learning model creation method
JP5440394B2 (en) Evaluation prediction apparatus, evaluation prediction method, and program
JP2009282686A (en) Apparatus and method for learning classification model
US20100094629A1 (en) Weight coefficient learning system and audio recognition system
JP6365032B2 (en) Data classification method, data classification program, and data classification apparatus
JP5623369B2 (en) Text summarization apparatus, method and program
JP2019139010A (en) Voice recognition accuracy deterioration factor estimation device, voice recognition accuracy deterioration factor estimation method and program
JP2013033351A (en) Onomatopoeia automatic generation system
CN110517656B (en) Lyric rhythm generation method, device, storage medium and apparatus
JP6648549B2 (en) Mutation information processing apparatus, method and program
WO2020148166A1 (en) A computer-implemented method, an apparatus and a computer program product for determining an updated set of words for use in an auditory verbal learning test
JP5008137B2 (en) Word vector generation device, word vector generation method, program, and recording medium recording the program
JP6509391B1 (en) Computer system
JP5244452B2 (en) Document feature expression calculation apparatus and program
JP2020140674A (en) Answer selection device and program
JP2006004103A (en) Method, apparatus and program for matching structure between document classification systems and recording medium recording the program
JP2013238983A (en) Spam classification model generation device, method and program
JP2020071737A (en) Learning method, learning program and learning device
JP2019021206A (en) Learning device, program parameter, learning method and model
JP7375096B2 (en) Distributed representation generation system, distributed representation generation method, and distributed representation generation program
WO2022270163A1 (en) Computer system, and intervention effect prediction method
JP2012053848A (en) Data visualization device, data conversion device, method and program
US11556783B2 (en) Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141022

R150 Certificate of patent or registration of utility model

Ref document number: 5638503

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150