JP6170891B2 - 重みベクトル学習装置、要約生成装置、方法、及びプログラム - Google Patents
重みベクトル学習装置、要約生成装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6170891B2 JP6170891B2 JP2014188068A JP2014188068A JP6170891B2 JP 6170891 B2 JP6170891 B2 JP 6170891B2 JP 2014188068 A JP2014188068 A JP 2014188068A JP 2014188068 A JP2014188068 A JP 2014188068A JP 6170891 B2 JP6170891 B2 JP 6170891B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- weight vector
- discourse analysis
- single document
- extraction unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本発明の実施の形態に係る重みベクトル学習装置の原理について説明する。本実施の形態に係る重みベクトル学習装置は、2つの主要な部分からなる。1つ目は談話解析部分であり、2つ目は要約部分である。本実施の形態に係る重みベクトル学習装置の独創性は、その包括性にある。
(b)長さ:要素内の単語数
(c)相対位置:ペアにおける第1のものであるかどうか
(d)単語ペア:2つの要素間のベクトル積
次に、本発明の実施の形態に係る重みベクトル学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係る重みベクトル学習装置100は、CPUと、RAMと、後述する重みベクトル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この重みベクトル学習装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部90とを備えている。
次に、本発明の実施の形態に係る要約生成装置の構成について説明する。図5に示すように、本発明の実施の形態に係る要約生成装置200は、CPUと、RAMと、後述する要約生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この要約生成装置200は、機能的には図5に示すように入力部210と、演算部220と、出力部290とを備えている。
次に、本発明の第1の実施の形態に係る重みベクトル学習装置100の作用について説明する。入力部10において単一文書の各々と、単一文書の各々についての標準要約とを受け付けると、単一文書の各々についての標準要約を標準要約記憶部22に記憶すると共に、重みベクトル学習装置100は、図6に示す重みベクトル学習処理ルーチンを実行する。
次に、本発明の実施の形態に係る要約生成装置200の作用について説明する。入力部210において単一文書を受け付けると、要約生成装置200は、図7に示す要約生成処理ルーチンを実行する。
次に、RST-DT、及びTAC2011要約タスクデータについて、それぞれ実験を行った結果について説明する。RST-DTは、WSJからの385件(トレーニング347、テスト38)の文書を含む。385件の文書中、30件には、人間が書いた要約が付されており、150件には、手動で選択したEDUを含む要約が付されている。長い文書は談話解析に長時間を要し、短い文書には有用な情報が含まれていないことから、手動が書いた要約を付した30件の文書、及びあまりに長いかあまりに短い文書を除外して、100件の文書をトレーニング対象として選択し、30件の文書をテストデータとして選択した。
20 演算部
22 標準要約記憶部
24 特徴量抽出部
26 談話解析部
28 要約抽出部
30 要約比較部
32 重みベクトル更新部
34 繰り返し判定部
36 重みベクトル記憶部
90 出力部
100 重みベクトル学習装置
200 要約生成装置
210 入力部
220 演算部
224 特徴量抽出部
226 談話解析部
228 要約抽出部
236 重みベクトル記憶部
290 出力部
Claims (7)
- 入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する談話解析部と、
前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成する要約抽出部と、
前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較する要約比較部と、
前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新する重みベクトル更新部と、
前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す繰り返し判定部と、
を含む、重みベクトル学習装置。 - 前記重みベクトル更新部は、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新する請求項1記載の重みベクトル学習装置。
- 入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出されたペア毎の特徴量と、請求項1又は請求項2の重みベクトル学習装置により更新した前記重みベクトルの値とに基づいて、談話解析木を生成する談話解析部と、
前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する要約抽出部と、
を含む、要約生成装置。 - 特徴量抽出部と、談話解析部と、要約抽出部と、要約比較部と、重みベクトル更新部と、繰り返し判定部と、を含む、重みベクトル学習装置における、重みベクトル学習方法であって、
前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、
前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、
前記要約抽出部は、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成し、
前記要約比較部は、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較し、
前記重みベクトル更新部は、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新し、
前記繰り返し判定部は、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す
重みベクトル学習方法。 - 前記重みベクトル更新部により前記重みベクトルの値を更新することは、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新する請求項4記載の重みベクトル学習方法。
- 特徴量抽出部と、談話解析部と、要約抽出部と、を含む要約生成装置における、要約生成方法であって、
前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、
前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、請求項4又は請求項5の重みベクトル学習方法により更新した前記重みベクトルの値とに基づいて、談話解析木を生成し、
前記要約抽出部は、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する
要約生成方法。 - コンピュータを、請求項1又は2記載の重みベクトル学習装置、若しくは、請求項3記載の要約生成装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014188068A JP6170891B2 (ja) | 2014-09-16 | 2014-09-16 | 重みベクトル学習装置、要約生成装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014188068A JP6170891B2 (ja) | 2014-09-16 | 2014-09-16 | 重みベクトル学習装置、要約生成装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016062181A JP2016062181A (ja) | 2016-04-25 |
JP6170891B2 true JP6170891B2 (ja) | 2017-07-26 |
Family
ID=55797863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014188068A Active JP6170891B2 (ja) | 2014-09-16 | 2014-09-16 | 重みベクトル学習装置、要約生成装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6170891B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
JP2003248676A (ja) * | 2002-02-22 | 2003-09-05 | Communication Research Laboratory | 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法 |
JP5638503B2 (ja) * | 2011-11-04 | 2014-12-10 | 日本電信電話株式会社 | テキスト要約装置、方法及びプログラム |
JP2013167985A (ja) * | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
-
2014
- 2014-09-16 JP JP2014188068A patent/JP6170891B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016062181A (ja) | 2016-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Grishman | Information extraction | |
CN110008335A (zh) | 自然语言处理的方法及装置 | |
CN105868175A (zh) | 摘要生成方法及装置 | |
US9767193B2 (en) | Generation apparatus and method | |
CN114021573B (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
WO2015145981A1 (ja) | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体 | |
KR101860472B1 (ko) | 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법 | |
KR102707314B1 (ko) | 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술 | |
JP6112536B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム | |
JP7384221B2 (ja) | 要約学習方法、要約学習装置及びプログラム | |
CN117574924A (zh) | 翻译模型训练方法、翻译方法、装置、电子设备及介质 | |
US20090216739A1 (en) | Boosting extraction accuracy by handling training data bias | |
CN117151052A (zh) | 一种基于大语言模型和图算法的专利查询报告生成方法 | |
JP6426074B2 (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
JP6170891B2 (ja) | 重みベクトル学習装置、要約生成装置、方法、及びプログラム | |
CN114021572B (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP4937709B2 (ja) | 構造化文書生成方法及び装置及びプログラム | |
JP6509391B1 (ja) | 計算機システム | |
JP2017174009A (ja) | 事態間知識抽出装置、事態間知識抽出方法、及びプログラム | |
JP5503577B2 (ja) | データ極性判定装置、方法、及びプログラム | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170703 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6170891 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |