JP5623369B2 - テキスト要約装置、方法及びプログラム - Google Patents
テキスト要約装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5623369B2 JP5623369B2 JP2011242528A JP2011242528A JP5623369B2 JP 5623369 B2 JP5623369 B2 JP 5623369B2 JP 2011242528 A JP2011242528 A JP 2011242528A JP 2011242528 A JP2011242528 A JP 2011242528A JP 5623369 B2 JP5623369 B2 JP 5623369B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- parameter
- domain
- training
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G06F17/30—
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
w new =w old +f d (x i ,y i )−f d (x i ,y') …(1)
上記(1)式に従って更新後の前記パラメタの値w new を演算することを複数のドメインのm個の訓練事例を各々用いてT回繰り返した後に、演算したパラメタwを訓練事例の数m及び繰り返し回数Tで各々除算することで、前記パラメタを推定する。
であり、
loss(y';y i )=1−ROUGE(y';y i ) …(4)
上記(2)〜(4)式に従って更新後の前記パラメタの値w new を演算することで前記パラメタを推定する。
w new =w old +f d (x i ,y i )−f d (x i ,y') …(1)
上記(1)式に従って更新後の前記パラメタの値w new を演算することを複数のドメインのm個の訓練事例を各々用いてT回繰り返した後に、演算したパラメタwを訓練事例の数m及び繰り返し回数Tで各々除算することで、前記パラメタを推定する。
であり、
loss(y';y i )=1−ROUGE(y';y i ) …(4)
上記(2)〜(4)式に従って更新後の前記パラメタの値w new を演算することで前記パラメタを推定する。
y'=argymax w・f(x,y) …(5)
fB(x,y)=<f(x,y),0,f(x,y)> …(7)
fB(x,y)=<f(x,y),0,f(x,y),0> …(9)
fC(x,y)=<f(x,y),0,0,f(x,y)> …(10)
y'=argymax w・fd(xi,y) …(11)
…(12)
length({S,si})≦K …(13)
S={S,si} …(14)
v=arg maxsi∈x:length(si)≦Kw・fd(x,si) …(15)
次に本発明の第2実施形態について説明する。なお、本第2実施形態は第1実施形態と同一の構成であるので、各部分に同一の符号を付して構成の説明を省略し、第1実施形態と異なる部分として、本第2実施形態に係るパラメタ推定部16によるパラメタの学習を説明する。
12 訓練事例データベース
14 第1記憶部
16 パラメタ推定部
18 パラメタ・データベース
20 第2記憶部
22 テキスト入力部
24 テキスト要約部
26 テキスト出力部
30 コンピュータ
34 メモリ
36 記憶部
46 テキスト要約プログラム
Claims (6)
- 特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースを記憶する第1記憶部と、
要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部と、
を含み、
前記パラメタ推定部は、更新前の前記パラメタの値をw old 、任意のドメインの訓練事例に含まれるテキストをx i 、前記任意のドメインの訓練事例に含まれる要約をy i 、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれるテキストx i から生成された要約をy'、拡張した前記任意のドメインの特徴ベクトルをf d (x,y)としたときに、要約y i ≠要約y'の場合に、
w new =w old +f d (x i ,y i )−f d (x i ,y') …(1)
上記(1)式に従って更新後の前記パラメタの値w new を演算することを複数のドメインのm個の訓練事例を各々用いてT回繰り返した後に、演算したパラメタwを訓練事例の数m及び繰り返し回数Tで各々除算することで、前記パラメタを推定するテキスト要約装置。 - 特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースを記憶する第1記憶部と、
要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部と、
を含み、
前記パラメタ推定部は、更新前の前記パラメタの値をw old 、任意のドメインの訓練事例に含まれるテキストをx i 、前記任意のドメインの訓練事例に含まれる要約をy i 、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれるテキストx i から生成された要約をy'、拡張した前記任意のドメインの特徴ベクトルをf d (x,y)、評価尺度をROUGE、誤差をloss(y';y i )としたときに、
であり、
loss(y';y i )=1−ROUGE(y';y i ) …(4)
上記(2)〜(4)式に従って更新後の前記パラメタの値w new を演算することで前記パラメタを推定するテキスト要約装置。 - 前記パラメタ推定部によって各々推定された前記パラメタを格納するパラメタ・データベースを記憶する第2記憶部と、
要約対象のテキストを受け付けるテキスト入力部と、
前記テキスト入力部によって受け付けされた前記要約対象のテキストと、前記パラメタ・データベースに格納された前記パラメタと、に基づいて、前記要約対象のテキストの要約を生成するテキスト要約部と、
前記テキスト要約部によって生成された要約をテキストとして出力するテキスト出力部と、
を更に備えた請求項1又は請求項2記載のテキスト要約装置。 - テキスト要約装置が実行するテキスト要約方法であって、
特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースが第1記憶部に記憶された状態で、
パラメタ推定部が、要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定ステップ
を含み、
前記パラメタ推定ステップは、更新前の前記パラメタの値をw old 、任意のドメインの訓練事例に含まれるテキストをx i 、前記任意のドメインの訓練事例に含まれる要約をy i 、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれるテキストx i から生成された要約をy'、拡張した前記任意のドメインの特徴ベクトルをf d (x,y)としたときに、要約y i ≠要約y'の場合に、
w new =w old +f d (x i ,y i )−f d (x i ,y') …(1)
上記(1)式に従って更新後の前記パラメタの値w new を演算することを複数のドメインのm個の訓練事例を各々用いてT回繰り返した後に、演算したパラメタwを訓練事例の数m及び繰り返し回数Tで各々除算することで、前記パラメタを推定するテキスト要約方法。 - テキスト要約装置が実行するテキスト要約方法であって、
特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースが第1記憶部に記憶された状態で、
パラメタ推定部が、要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定ステップ
を含み、
前記パラメタ推定ステップは、更新前の前記パラメタの値をw old 、任意のドメインの訓練事例に含まれるテキストをx i 、前記任意のドメインの訓練事例に含まれる要約をy i 、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれるテキストx i から生成された要約をy'、拡張した前記任意のドメインの特徴ベクトルをf d (x,y)、評価尺度をROUGE、誤差をloss(y';y i )としたときに、
であり、
loss(y';y i )=1−ROUGE(y';y i ) …(4)
上記(2)〜(4)式に従って更新後の前記パラメタの値w new を演算することで前記パラメタを推定するテキスト要約方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載のテキスト要約装置を構成する各手段として機能させるためのテキスト要約プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011242528A JP5623369B2 (ja) | 2011-11-04 | 2011-11-04 | テキスト要約装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011242528A JP5623369B2 (ja) | 2011-11-04 | 2011-11-04 | テキスト要約装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013097722A JP2013097722A (ja) | 2013-05-20 |
JP5623369B2 true JP5623369B2 (ja) | 2014-11-12 |
Family
ID=48619565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011242528A Expired - Fee Related JP5623369B2 (ja) | 2011-11-04 | 2011-11-04 | テキスト要約装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5623369B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5964791B2 (ja) * | 2013-08-28 | 2016-08-03 | 日本電信電話株式会社 | オラクル要約探索装置、方法、及びプログラム |
JP6270747B2 (ja) * | 2015-01-16 | 2018-01-31 | 日本電信電話株式会社 | 質問応答方法、装置、及びプログラム |
US11823013B2 (en) | 2017-08-29 | 2023-11-21 | International Business Machines Corporation | Text data representation learning using random document embedding |
EP3859558A4 (en) | 2018-09-26 | 2022-06-22 | Hangzhou Dana Technology Inc. | ANSWER MARKING PROCEDURE FOR HEADPHONES, DEVICE, ELECTRONIC DEVICE AND STORAGE MEDIA |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020078091A1 (en) * | 2000-07-25 | 2002-06-20 | Sonny Vu | Automatic summarization of a document |
JP2003108571A (ja) * | 2001-09-28 | 2003-04-11 | Seiko Epson Corp | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 |
JP5235918B2 (ja) * | 2010-01-21 | 2013-07-10 | 日本電信電話株式会社 | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム |
-
2011
- 2011-11-04 JP JP2011242528A patent/JP5623369B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013097722A (ja) | 2013-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5638503B2 (ja) | テキスト要約装置、方法及びプログラム | |
JP6231944B2 (ja) | 学習モデル作成装置、判定システムおよび学習モデル作成方法 | |
CN101996232A (zh) | 信息处理装置、用于处理信息的方法及程序 | |
EP2133868A1 (en) | Weight coefficient learning system and audio recognition system | |
JP6365032B2 (ja) | データ分類方法、データ分類プログラム、及び、データ分類装置 | |
JP5623369B2 (ja) | テキスト要約装置、方法及びプログラム | |
JP2017174059A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2019139010A (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
JP7487556B2 (ja) | モデル生成プログラム、モデル生成装置、及びモデル生成方法 | |
JP2022158736A (ja) | 学習装置、学習方法及び学習プログラム | |
JP5678836B2 (ja) | オノマトペ自動生成システム | |
JP5437204B2 (ja) | 言語モデル処理装置および音声認識装置、ならびにプログラム | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP6648549B2 (ja) | 変異情報処理装置、方法及びプログラム | |
JP5008137B2 (ja) | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP2020071737A (ja) | 学習方法、学習プログラム及び学習装置 | |
WO2021181569A1 (ja) | 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム | |
JP5462748B2 (ja) | データ可視化装置、データ変換装置、方法、及びプログラム | |
JP7265837B2 (ja) | 学習装置および学習方法 | |
JP5513985B2 (ja) | 文字列ベクトル生成装置、文字列ベクトル生成方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP2007249050A (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP2020177366A (ja) | 発話ペア獲得装置、発話ペア獲得方法、およびプログラム | |
JP2020140674A (ja) | 回答選択装置及びプログラム | |
WO2019044583A1 (ja) | コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5623369 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |