JP2013097722A - テキスト要約装置、方法及びプログラム - Google Patents
テキスト要約装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2013097722A JP2013097722A JP2011242528A JP2011242528A JP2013097722A JP 2013097722 A JP2013097722 A JP 2013097722A JP 2011242528 A JP2011242528 A JP 2011242528A JP 2011242528 A JP2011242528 A JP 2011242528A JP 2013097722 A JP2013097722 A JP 2013097722A
- Authority
- JP
- Japan
- Prior art keywords
- text
- parameter
- domain
- training
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】第1記憶部14に記憶された訓練事例データベース12には、テキストxiとテキストxiから予め生成された要約yiとを対応付けた複数のドメインの訓練事例が各々格納され、パラメタ推定部16は、ドメインの数をd、個々のドメインの個々の特徴ベクトルf(x,y)の次元数をnとしたときに次元数がn×(d+1)次元で、最初のn次元は全てのドメインで前記特徴ベクトルが要素として設定され、以降のn次元ずつのd組の要素は各組毎に異なるドメインのみ前記特徴ベクトルが要素として設定され、他のドメインは同じ組の要素の値に全て0が設定された、拡張された特徴ベクトルを用いてパラメタを学習し、パラメタデータベース18に格納する。格納されたパラメタは、テキスト要約部24による要約対象のテキストxからの要約yの生成に用いられる。
【選択図】図1
Description
上記(1)に従って更新後の前記パラメタの値wnewを演算することを複数のドメインのm個の訓練事例を各々用いてT回繰り返した後に、演算したパラメタwを訓練事例の数n及び繰り返し回数Tで各々除算することで、前記パラメタを推定することができる。
であり、
上記(2)〜(4)式に従って更新後の前記パラメタの値wnewを演算することで前記パラメタを推定することができる。
y'=argymax w・f(x,y) …(5)
fB(x,y)=<f(x,y),0,f(x,y)> …(7)
fB(x,y)=<f(x,y),0,f(x,y),0> …(9)
fC(x,y)=<f(x,y),0,0,f(x,y)> …(10)
y'=argymax w・fd(xi,y) …(11)
…(12)
length({S,si})≦K …(13)
S={S,si} …(14)
v=arg maxsi∈x:length(si)≦Kw・fd(x,si) …(15)
次に本発明の第2実施形態について説明する。なお、本第2実施形態は第1実施形態と同一の構成であるので、各部分に同一の符号を付して構成の説明を省略し、第1実施形態と異なる部分として、本第2実施形態に係るパラメタ推定部16によるパラメタの学習を説明する。
12 訓練事例データベース
14 第1記憶部
16 パラメタ推定部
18 パラメタ・データベース
20 第2記憶部
22 テキスト入力部
24 テキスト要約部
26 テキスト出力部
30 コンピュータ
34 メモリ
36 記憶部
46 テキスト要約プログラム
Claims (6)
- 特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースを記憶する第1記憶部と、
要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定部と、
を含むテキスト要約装置。 - 前記パラメタ推定部は、更新前の前記パラメタの値をwold、前記任意のドメインの訓練事例に含まれる前記テキストをxi、前記任意のドメインの訓練事例に含まれる前記要約をyi、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストxiから生成された要約をy'、前記拡張した前記任意のドメインの特徴ベクトルをfd(x,y)としたときに、要約yi≠要約y'の場合に、
wnew=wold+fd(xi,yi)−fd(xi,y') …(1)
上記(1)に従って更新後の前記パラメタの値wnewを演算することを複数のドメインのm個の訓練事例を各々用いてT回繰り返した後に、演算したパラメタwを訓練事例の数n及び繰り返し回数Tで各々除算することで、前記パラメタを推定する請求項1記載のテキスト要約装置。 - 前記パラメタ推定部は、更新前の前記パラメタの値をwold、前記任意のドメインの訓練事例に含まれる前記テキストをxi、前記任意のドメインの訓練事例に含まれる前記要約をyi、更新前の前記パラメタの値を用いて前記任意のドメインの訓練事例に含まれる前記テキストxiから生成された要約をy'、前記拡張した前記任意のドメインの特徴ベクトルをfd(x,y)、前記評価尺度をROUGE、前記誤差をloss(y';yi)としたときに、
であり、
loss(y';yi)=1−ROUGE(y';yi) …(4)
上記(2)〜(4)式に従って更新後の前記パラメタの値wnewを演算することで前記パラメタを推定する請求項1記載のテキスト要約装置。 - 前記パラメタ推定部によって各々推定された前記パラメタを格納するパラメタ・データベースを記憶する第2記憶部と、
要約対象のテキストを受け付けるテキスト入力部と、
前記テキスト入力部によって受け付けされた前記要約対象のテキストと、前記パラメタ・データベースに格納された前記パラメタと、に基づいて、前記要約対象のテキストの要約を生成するテキスト要約部と、
前記テキスト要約部によって生成された要約をテキストとして出力するテキスト出力部と、
を更に備えた請求項1〜請求項3の何れか1項記載のテキスト要約装置。 - 特定のドメインに属するテキストと、当該テキストから予め生成された要約と、を対応付けた特定のドメインの訓練事例を複数のドメインについて各々格納した訓練事例データベースが第1記憶部に記憶された状態で、
要約対象のテキストからの要約の生成に用いるパラメタを、個々のドメインの訓練事例から構築される個々の特徴ベクトルの次元数をn、ドメインの数をdとしたときの次元数がn(d+1)で、最初のn次元の要素がドメインに拘わらず前記特徴ベクトルの値とされ、以降のn次元ずつのd組の要素については、ドメイン毎に異なる組の要素が前記特徴ベクトルの値とされ、残余の要素の値が0とされた、拡張した特徴ベクトルに基づいて推定するパラメタ推定ステップ
を含むテキスト要約方法。 - コンピュータを、請求項1〜請求項4の何れか1項記載のテキスト要約装置を構成する各手段として機能させるためのテキスト要約プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011242528A JP5623369B2 (ja) | 2011-11-04 | 2011-11-04 | テキスト要約装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011242528A JP5623369B2 (ja) | 2011-11-04 | 2011-11-04 | テキスト要約装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013097722A true JP2013097722A (ja) | 2013-05-20 |
JP5623369B2 JP5623369B2 (ja) | 2014-11-12 |
Family
ID=48619565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011242528A Expired - Fee Related JP5623369B2 (ja) | 2011-11-04 | 2011-11-04 | テキスト要約装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5623369B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015046043A (ja) * | 2013-08-28 | 2015-03-12 | 日本電信電話株式会社 | オラクル要約探索装置、方法、及びプログラム |
JP2016133919A (ja) * | 2015-01-16 | 2016-07-25 | 日本電信電話株式会社 | 質問応答方法、装置、及びプログラム |
WO2020063347A1 (zh) * | 2018-09-26 | 2020-04-02 | 杭州大拿科技股份有限公司 | 针对口算题的题目批改方法、装置、电子设备和存储介质 |
JP2020532012A (ja) * | 2017-08-29 | 2020-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020078091A1 (en) * | 2000-07-25 | 2002-06-20 | Sonny Vu | Automatic summarization of a document |
JP2003108571A (ja) * | 2001-09-28 | 2003-04-11 | Seiko Epson Corp | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 |
JP2011150515A (ja) * | 2010-01-21 | 2011-08-04 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム |
-
2011
- 2011-11-04 JP JP2011242528A patent/JP5623369B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020078091A1 (en) * | 2000-07-25 | 2002-06-20 | Sonny Vu | Automatic summarization of a document |
JP2003108571A (ja) * | 2001-09-28 | 2003-04-11 | Seiko Epson Corp | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 |
JP2011150515A (ja) * | 2010-01-21 | 2011-08-04 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム |
Non-Patent Citations (3)
Title |
---|
CSNG201100776028; 岡田 拓之 他: 'マルチカーネルを用いた半教師付きドメイン適応' 電子情報通信学会技術研究報告 Vol.111 No.275 , 20111102, pp.251-256, 社団法人電子情報通信学会 * |
JPN6014019135; 岡田 拓之 他: 'マルチカーネルを用いた半教師付きドメイン適応' 電子情報通信学会技術研究報告 Vol.111 No.275 , 20111102, pp.251-256, 社団法人電子情報通信学会 * |
JPN7014001407; Hal Daume, III et al.: 'Frustratingly easy semi-supervised domain adaptation' [online] , 20101231, pp.53-59, the Association for Computing Machinery * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015046043A (ja) * | 2013-08-28 | 2015-03-12 | 日本電信電話株式会社 | オラクル要約探索装置、方法、及びプログラム |
JP2016133919A (ja) * | 2015-01-16 | 2016-07-25 | 日本電信電話株式会社 | 質問応答方法、装置、及びプログラム |
JP2020532012A (ja) * | 2017-08-29 | 2020-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 |
JP7002638B2 (ja) | 2017-08-29 | 2022-01-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 |
US11823013B2 (en) | 2017-08-29 | 2023-11-21 | International Business Machines Corporation | Text data representation learning using random document embedding |
WO2020063347A1 (zh) * | 2018-09-26 | 2020-04-02 | 杭州大拿科技股份有限公司 | 针对口算题的题目批改方法、装置、电子设备和存储介质 |
US11721229B2 (en) | 2018-09-26 | 2023-08-08 | Hangzhou Dana Technology Inc. | Question correction method, device, electronic equipment and storage medium for oral calculation questions |
Also Published As
Publication number | Publication date |
---|---|
JP5623369B2 (ja) | 2014-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5638503B2 (ja) | テキスト要約装置、方法及びプログラム | |
JP6231944B2 (ja) | 学習モデル作成装置、判定システムおよび学習モデル作成方法 | |
CN101996232A (zh) | 信息处理装置、用于处理信息的方法及程序 | |
JP2015201185A (ja) | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 | |
EP2133868A1 (en) | Weight coefficient learning system and audio recognition system | |
JP5623369B2 (ja) | テキスト要約装置、方法及びプログラム | |
JP6365032B2 (ja) | データ分類方法、データ分類プログラム、及び、データ分類装置 | |
JP5235918B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP2017174059A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2022158736A (ja) | 学習装置、学習方法及び学習プログラム | |
JP5678836B2 (ja) | オノマトペ自動生成システム | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
JP6712803B2 (ja) | 音象徴語・パーソナリティ情報提供装置、音象徴語・パーソナリティ情報提供方法および音象徴語・パーソナリティ情報提供プログラム | |
JP6648549B2 (ja) | 変異情報処理装置、方法及びプログラム | |
JP5008137B2 (ja) | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP2014232145A (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP2020071737A (ja) | 学習方法、学習プログラム及び学習装置 | |
JP2010237864A (ja) | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 | |
US11556783B2 (en) | Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program | |
JP5462748B2 (ja) | データ可視化装置、データ変換装置、方法、及びプログラム | |
JP5513985B2 (ja) | 文字列ベクトル生成装置、文字列ベクトル生成方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP6538762B2 (ja) | 類似度計算装置及び類似度計算方法 | |
JP5824430B2 (ja) | スパム特徴算出装置、スパム特徴算出方法、及びプログラム | |
JP7198492B2 (ja) | パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム | |
JP7323669B1 (ja) | オントロジー生成方法及び学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5623369 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |