JP6368683B2 - 要約長推定装置、方法、及びプログラム - Google Patents

要約長推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6368683B2
JP6368683B2 JP2015097563A JP2015097563A JP6368683B2 JP 6368683 B2 JP6368683 B2 JP 6368683B2 JP 2015097563 A JP2015097563 A JP 2015097563A JP 2015097563 A JP2015097563 A JP 2015097563A JP 6368683 B2 JP6368683 B2 JP 6368683B2
Authority
JP
Japan
Prior art keywords
summary length
information request
parameter
length estimation
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015097563A
Other languages
English (en)
Other versions
JP2016212741A (ja
Inventor
仁 西川
仁 西川
牧野 俊朗
俊朗 牧野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015097563A priority Critical patent/JP6368683B2/ja
Publication of JP2016212741A publication Critical patent/JP2016212741A/ja
Application granted granted Critical
Publication of JP6368683B2 publication Critical patent/JP6368683B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、要約長を推定するための要約長推定装置、方法、及びプログラムに関するものである。
近年、電子化されたテキストが大量に流通するようになった。そのため、電子化されたテキストに記述されている情報を迅速に把握するため、機械にテキストを要約させる技術が求められている。
現在、テキストを機械に要約させる際には、要約の対象となるテキストの内容を代表していると思われる、要約の対象となるテキストから直接抽出した文、あるいは文短縮などを利用して元の文から書き換えた文(重要文)の集合(重要文集合)を用意し、これらを適切に並び替え連結することによって要約が作られる技術がある(特許文献1)。
要約を機械により生成する際には、何らかの方法で、要約の最大の長さ(以下、要約長)を与えることが多い。このとき、機械は要約長以内の要約を作成しなければならない。要約長は文数や文字数、単語数、バイト数などで与えられる。例えば、要約長を150文字と指定された場合、テキストを要約する機械(以下、要約器)は150文字以内の要約を生成しなければならない。
また、要約長は、典型的には要約を出力する媒体などの性質に応じて、人手で決定される。当該媒体に要約を出力する限り、多くの場合において要約長は一定のものとなる。
特許第5523929号公報
しかし、状況に応じて要約長を動的に変化させなければならない場合が存在する。例えば音声対話システムの応答として要約器が出力した要約が利用される場合を考える。このような場合においては、音声対話システムを利用しているユーザ(以下、ユーザ)の反応に応じて要約長を動的に変化させる必要が生じる。
例えば、ユーザの関心があまりないと思われるトピックの要約を生成する際には短い要約を生成するべきであると思われる。一方、ユーザがその事物について深く知りたいと考えている際には、長い要約長を要約器に与える必要がある。
本発明では、上記問題点を解決するために成されたものであり、ユーザからの情報要求に対して適切な要約長を推定することができる要約長推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る要約長推定装置は、入力された、ユーザからの情報要求について、特徴量を抽出し、前記情報要求について抽出した特徴量と、予め学習された要約長を決定するためのパラメタとに基づいて、前記情報要求に対する応答における要約長を推定する要約長推定部を含んで構成されている。
第2の発明に係る要約長推定方法は、要約長推定部を含む要約長推定装置における要約長推定方法であって、前記要約長推定部は、入力された、ユーザからの情報要求について、特徴量を抽出し、前記情報要求について抽出した特徴量と、予め学習された要約長を決定するためのパラメタとに基づいて、前記情報要求に対する応答における要約長を推定する。
第1及び第2の発明によれば、要約長推定部により、入力された、ユーザからの情報要求について、特徴量を抽出し、情報要求について抽出した特徴量と、予め学習された要約長を決定するためのパラメタとに基づいて、情報要求に対する応答における要約長を推定する。
このように、入力された、ユーザからの情報要求について、特徴量を抽出し、情報要求について抽出した特徴量と、予め学習された要約長を決定するためのパラメタとに基づいて、情報要求に対する応答における要約長を推定することにより精度良く適切な要約長の推定をすることができる。
また、第1及び第2の発明に係る要約長推定装置において、前記パラメタは、ユーザからの情報要求と要約長との複数の組の各々について抽出された前記組に含まれる前記情報要求の前記特徴量と、前記複数の組の各々に含まれる要約長とに基づいて、学習されてもよい。
また、本発明のプログラムは、コンピュータを、上記の要約長推定装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の要約長推定装置、方法、及びプログラムによれば、ユーザからの情報要求について、特徴量を抽出し、情報要求について抽出した特徴量と、予め学習された要約長を決定するためのパラメタとに基づいて、情報要求に対する応答における要約長を推定することによりユーザからの情報要求に対して適切な要約長を推定することができる。
本発明の実施形態に係る要約長推定装置の機能的構成を示すブロック図である。 情報要求の例を示す図である。 訓練事例リストの例を示す図である。 パラメタリストの例を示す図である。 本発明の実施形態に係る要約長推定装置におけるパラメタ推定処理ルーチンを表すフローチャート図である。 本発明の実施形態に係る要約長推定装置における要約長推定処理ルーチンを表すフローチャート図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本発明の原理>
まず、本発明の実施形態に係る要約長推定装置の原理について説明する。
本実施形態においては、事前に、ユーザからの何らかの情報要求と、それに対する最適な要約長の対を用意し、その対から最適な要約長を求める回帰モデルを学習し、未知の情報要求がユーザから出された場合、予め学習しておいた回帰モデルに基づいて最適な要約長を決定する方法を提案する.
<本発明の実施形態に係る要約長推定装置の構成>
次に、本発明の実施形態に係る要約長推定装置の構成について説明する。図1に示すように、本発明の実施形態に係る要約長推定装置100は、CPUと、RAMと、後述するパラメタ推定処理ルーチン及び要約長推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この要約長推定装置100は、機能的には図1に示すように情報要求入力部10と、演算部20と、要約長出力部90とを含んで構成されている。
情報要求入力部10は、ユーザから入力される、図2に示すような情報要求を受け付ける。図2に示す情報要求の例では、ユーザの情報要求はキーワードの集合で表現され、具体的には、例えば「建長寺」と「概念」との2つのキーワードからなる。なお、図2に示す情報要求では、例えば、キーワードは、「,」で区切られている。また、図2に示す情報要求の例においては、「建長寺の概要」を表す要約を生成する際の要約長を推定する際に受け付ける情報要求の一例である。
ここで、情報要求とは、要約の内容に関する情報であり、例えば、少なくとも1つ以上のキーワードの集合として表現することができる。
演算部20は、訓練事例記憶部22と、パラメタ推定部24と、パラメタ記憶部26と、要約長推定部30とを含んで構成されている。
訓練事例記憶部22には、例えば、図3に示すような訓練事例リスト101が記憶されている。ここで、図3の訓練事例リスト101では、1行毎に、情報要求と当該情報要求に対応する最適な要約長との組(以後、訓練事例)が記憶されている。図3の訓練事例リスト101において、「事例番号」の欄は、訓練事例の番号を表す。また、「情報要求」の欄は、情報要求を表す。また、「要約長」の欄は要約長の文字数を表す。
例えば、「事例番号」の欄が「1」である行に対応する訓練事例においては、情報要求は「建長寺」と「概要」とであり、当該情報要求に対する応答における要約は「建長寺の概要」となるものである。一方、当該訓練事例における「要約長」は「52」であり、「建長寺の概要」に対応する要約の最適な要約長は「52」文字であることを表す。このことから、当該訓練事例は、「建長寺の概要」の要約を生成する場合には、52文字以内の要約を生成することが望ましいという事を表す。なお、訓練事例の各々は、例えば、予め人手により作成されているものとする。
パラメタ推定部24は、訓練事例記憶部22に記憶されている訓練事例リスト101に含まれる訓練事例の各々に基づいて、要約長を決定するためのパラメタを推定し、パラメタ記憶部26に記憶する。なお、推定されたパラメタが学習されたパラメタである。
また、本実施形態において推定するパラメタは、下記(1)式に示すベクトル
である。
ここで、上記(1)式における
は、パラメタベクトルであり、xはキーワード集合であり、関数
は、引数xに応じた特徴ベクトルを返す関数とする。この特徴ベクトルは、引数となるキーワード集合xの要素に応じて、ベクトル
の対応する要素の値が1となり、それ以外のベクトルの要素が0となっているものとする。
は、パラメタベクトル
と、特徴ベクトル
との内積であり、yは要約長とする。すなわち、要約長yは、キーワード集合xと当該キーワード集合xの特徴ベクトル
と、パラメタベクトル
とによって定まる。
具体的には、まず、パラメタ推定部24は、訓練事例の各々について、当該訓練事例に含まれる情報要求を表すキーワード集合xの特徴ベクトル
を生成する。そして、パラメタ推定部24は、訓練事例の各々の特徴ベクトル
と、訓練事例の各々の要約長とに基づいて、例えば、サポートベクトル回帰の方法を用いてパラメタベクトル
を推定する(非特許文献1:C. M. ビショップ(著),元田浩ら(監訳).パターン認識と機械学習(下).シュプリンガー・ジャパン,2008.)。
パラメタ記憶部26には、パラメタ推定部24において推定されたパラメタが記憶されている。本実施形態において、パラメタ推定部24において推定されたパラメタは、例えば図4に示すようなパラメタリスト102として記憶されている。図4のパラメタリスト102の「特徴量」の欄は、特徴ベクトル
を構成する要素の特徴量を表す。例えば、特徴量として「建長寺」、「長谷寺」、及び「概念」等の単語がある。また、「重み」の欄は、対応する特徴量の重みを表す。なお、特徴量の重みは、パラメタ推定部24において推定されたパラメタベクトル
の対応する要素の重みである。
要約長推定部30は、情報要求入力部10において受け付けた情報要求を表すキーワード集合xに基づいて、特徴ベクトルを生成し、生成した特徴ベクトルと、パラメタ記憶部26に記憶されているパラメタリスト102とに基づいて、当該情報要求に対する応答における要約の最適な要約長を推定し、要約長出力部90から出力する。なお、要約長推定部30において生成される特徴ベクトルは、パラメタ推定部24において生成された特徴ベクトル
に含まれる特徴量と同一の特徴量からなる特徴ベクトルである。
具体的には、要約長推定部30は、上述のパラメタ推定部24において説明した通り、情報要求に含まれるキーワード集合xの特徴ベクトル
を生成し、当該特徴ベクトル
と、パラメタリスト102において表されているパラメタベクトル
との内積を求めることにより、情報要求入力部10において受け付けた情報要求に対する応答における要約の最適な要約長を推定する。
例えば、情報要求入力部10において受け付けた情報要求が図2に示す情報要求であり、取得したパラメタリスト102が図4に示すパラメタリスト102である場合について説明する。当該場合、情報要求に含まれるキーワードは「建長寺」と「概要」とであり、当該キーワード「建長寺」に対応する重みを、図4に示すパラメタリスト102から取得する。同様に、キーワード「概要」に対応する重みを、図4に示すパラメタリスト102から取得する。
この場合、キーワード「建長寺」に対応する重みは、特徴量「建長寺」に対応する重み「30」であり、キーワード「概要」に対応する重みは、特徴量「概要」に対応する重み「15」であることから、推定される要約長の長さは両キーワードの重みの和である「45」文字となる。
<本発明の実施形態に係る要約長推定装置の作用>
次に、本発明の実施形態に係る要約長推定装置100の作用について説明する。要約長推定装置100は、訓練事例記憶部22に記憶されている訓練事例リスト101に含まれる訓練事例の各々を読み込むと、要約長推定装置によって、図5に示すパラメタ推定処理ルーチンが実行される。また、要約長推定装置100は、情報要求入力部10において情報要求を受け付けると、図6に示す要約長推定装置100によって、要約長推定処理ルーチンが実行される。
始めに、図5に示すパラメタ推定処理ルーチンについて説明する。
まず、図5に示すパラメタ推定処理ルーチンのステップS100で、パラメタ推定部24は、取得した訓練事例の各々について、当該訓練事例に含まれる情報要求を表すキーワード集合xの特徴ベクトル
を生成する。
次に、ステップS102で、パラメタ推定部24は、ステップS100において取得した訓練事例の各々の特徴ベクトル
と、受け付けた訓練事例の各々に含まれる要約長とに基づいて、サポートベクトル回帰の方法を用いてパラメタベクトル
を推定する。
次に、ステップS104で、パラメタ推定部24は、ステップS102において取得したパラメタベクトル
を、パラメタ記憶部26にパラメタリスト102の形式として記憶して、パラメタ推定処理ルーチンを終了する。
次に、図6に示す要約長推定処理ルーチンについて説明する。
まず、図6に示す要約長推定処理ルーチンのステップS200で、要約長推定部30は、パラメタ記憶部26に記憶されているパラメタリスト102を取得する。
次に、ステップS202で、要約長推定部30は、受け付けた情報要求に含まれるキーワード集合xについて特徴ベクトル
を生成する。
次に、ステップS204で、要約長推定部30は、ステップS200において取得したパラメタリスト102と、ステップS202において取得した特徴ベクトル
とに基づいて、受け付けた情報要求に対する応答における要約の適切な要約長を推定する。
次に、ステップS206で、要約長推定部30は、ステップS204において取得した要約長を要約長出力部90から出力して、要約長推定処理ルーチンを終了する。
以上説明したように、本発明の実施形態に係る要約長推定装置によれば、ユーザからの情報要求について、特徴量を抽出し、情報要求について抽出した特徴量と、予め学習された要約長を決定するためのパラメタとに基づいて、情報要求に対する応答における要約長を推定することによりユーザからの情報要求に対して適切な要約長を推定することができる。
また、推定された要約長を用いて、情報要求に対する応答における要約を生成することにより、最適な要約長によって要約を提示することができるようになる。また、最適な要約長がわかることにより、最適な要約長以下の要約を提示することができるようになる。
また、ユーザの情報要求に対する応答として要約を機械が生成するときに、当該要約の要約長を訓練事例に基づいて事前に学習したパラメタに基づいて推定することにより、最適な要約長によって要約を提示することができる。これにより、状況に応じた要約長を得ることができる。
また、ユーザからの何らかの情報要求に対する応答として要約器を動作させる際に、常に同一の要約長で要約を生成するのではなく、ユーザの情報要求に応じて動的に最適な要約長を決定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施形態においては、情報要求をキーワードの集合とする場合について説明したが、これに限定されるものではなく、何らかの論理形式による表現や、自然言語の文、係り受け解析や述語項構造解析の結果として表現してもよい。
また、本実施形態においては、パラメタを要約長推定装置において学習する場合について説明したが、これに限定されるものではない。例えば、要約長推定装置以外の装置において学習されてもよい。また、本実施形態に係る要約長推定装置に含まれる、訓練事例記憶部22と、パラメタ推定部24とを含むパラメタ学習装置を構成し、当該パラメタ学習装置においてパラメタを学習してもよい。
また、本実施形態においては、要約長の単位を文字数とする場合について説明したが、これに限定されるものではない。例えば、要約長の単位を単語数、文数、又はバイト数等としてもよい。
また、本実施形態においては、特徴ベクトルの特徴量として、キーワード集合に含まれているキーワードそのものを用いる場合について説明したが、これに限定されるものではない。例えば、キーワードを構成する単語や文字の表記や、単語の品詞、キーワードが固有表現である場合は、キーワードの固有表現としての種類(人名や地名であるか等)、キーワードと類似する別のキーワードや単語、キーワードの意味的な属性を表す何らかの情報などを利用してもよい。
また、本実施形態においては、学習したパラメタをパラメタリストとして記憶する場合について説明したが、これに限定されるものではない。例えば、学習したパラメタをそのまま記憶してもよい。
また、本実施形態においては、推定される要約長の長さをキーワードの重みの和として推定する場合について説明したが、これに限定されるものではない。例えば、当該キーワードの重みを用いて、任意の方法により要約長を推定してもよい。
また、本実施形態においては、訓練事例及びパラメタの各々を各リスト形式において情報を保持する場合について説明したが、これに限定されるものではない。例えば、訓練事例及びパラメタの各々を他の任意の形式において情報を保持してもよい。
また、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成を示す図に示された機能を実現するプログラムあるいは図5及び図6のフローチャートに示された手順を備えるプログラムをインストールすることによって実現してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 情報要求入力部
20 演算部
22 訓練事例記憶部
24 パラメタ推定部
26 パラメタ記憶部
30 要約長推定部
90 要約長出力部
100 要約長推定装置
101 訓練事例リスト
102 パラメタリスト

Claims (5)

  1. 入力された、ユーザからの情報要求について、特徴量を抽出し、
    前記情報要求について抽出した特徴量と、予め学習された要約長を決定するためのパラメタとに基づいて、前記情報要求に対する応答における要約長を推定する要約長推定部
    を含む、要約長推定装置。
  2. 前記パラメタは、
    ユーザからの情報要求と要約長との複数の組の各々について抽出された前記組に含まれる前記情報要求の前記特徴量と、前記複数の組の各々に含まれる要約長とに基づいて、学習される請求項1記載の要約長推定装置。
  3. 要約長推定部を含む要約長推定装置における要約長推定方法であって、
    前記要約長推定部は、入力された、ユーザからの情報要求について、特徴量を抽出し、
    前記情報要求について抽出した特徴量と、予め学習された要約長を決定するためのパラメタとに基づいて、前記情報要求に対する応答における要約長を推定する
    要約長推定方法。
  4. 前記パラメタは、
    ユーザからの情報要求と要約長との複数の組の各々について抽出された前記組に含まれる前記情報要求の前記特徴量と、前記複数の組の各々に含まれる要約長とに基づいて、学習される請求項3記載の要約長推定方法。
  5. コンピュータを、請求項1又は2記載の要約長推定装置を構成する各部として機能させるためのプログラム。
JP2015097563A 2015-05-12 2015-05-12 要約長推定装置、方法、及びプログラム Active JP6368683B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015097563A JP6368683B2 (ja) 2015-05-12 2015-05-12 要約長推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015097563A JP6368683B2 (ja) 2015-05-12 2015-05-12 要約長推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016212741A JP2016212741A (ja) 2016-12-15
JP6368683B2 true JP6368683B2 (ja) 2018-08-01

Family

ID=57551809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015097563A Active JP6368683B2 (ja) 2015-05-12 2015-05-12 要約長推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6368683B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6415619B2 (ja) * 2017-03-17 2018-10-31 ヤフー株式会社 解析装置、解析方法、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
JP4667356B2 (ja) * 2006-12-27 2011-04-13 シャープ株式会社 映像表示装置及びその制御方法、プログラム、記録媒体
JP5431532B2 (ja) * 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2016212741A (ja) 2016-12-15

Similar Documents

Publication Publication Date Title
WO2020174826A1 (ja) 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
CN109582956B (zh) 应用于句子嵌入的文本表示方法和装置
JP2018190188A (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
JP7095254B2 (ja) 対話システムおよびドメイン決定方法
JP5540335B2 (ja) 自然言語文生成装置及びコンピュータプログラム
US11080480B2 (en) Matrix generation program, matrix generation apparatus, and plagiarism detection program
CN115048938A (zh) 基于语义和句法双通道的语句情感分析方法以及装置
JP2019197366A (ja) コンテンツ評価装置、コンテンツ評価方法、プログラム、および記録媒体
JP2017125921A (ja) 発話選択装置、方法、及びプログラム
WO2020170881A1 (ja) 質問応答装置、学習装置、質問応答方法及びプログラム
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
JP6368683B2 (ja) 要約長推定装置、方法、及びプログラム
KR20200072589A (ko) Gpu 연산 기반의 딥러닝을 이용한 선호 콘텐츠 추천 장치 및 그 방법
JP6180340B2 (ja) 対話文生成装置、対話文生成方法およびプログラム
US20230153630A1 (en) Method and apparatus for training language model for multi-modal dialog
WO2020209072A1 (ja) 対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム
WO2019163752A1 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
JP2015102914A (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
JP6097791B2 (ja) 話題継続願望判定装置、方法、及びプログラム
JP6370281B2 (ja) 情報提供装置、情報提供方法および情報提供プログラム
JP2019079087A (ja) 学習装置、プログラムパラメータおよび学習方法
CN114330321A (zh) 用户先验知识增强的文本风格迁移方法、装置及电子设备
JP5976037B2 (ja) モデル学習装置、ランキング装置、方法、及びプログラム
JP2018077677A (ja) 文字列変換装置、モデル学習装置、方法、及びプログラム
JP5398638B2 (ja) 記号入力支援装置、記号入力支援方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180709

R150 Certificate of patent or registration of utility model

Ref document number: 6368683

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150