JP2014153766A - 文書要約方法、装置、及びプログラム - Google Patents
文書要約方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP2014153766A JP2014153766A JP2013020697A JP2013020697A JP2014153766A JP 2014153766 A JP2014153766 A JP 2014153766A JP 2013020697 A JP2013020697 A JP 2013020697A JP 2013020697 A JP2013020697 A JP 2013020697A JP 2014153766 A JP2014153766 A JP 2014153766A
- Authority
- JP
- Japan
- Prior art keywords
- node
- character string
- input document
- document
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】修辞構造木変換部24によって、入力文書のうちの最も重要な文字列単位をルートノードとし、かつ入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する各文字列単位間に対応するノード間をエッジで結合した、入力文書の各文字列単位の依存構造に基づく談話構造木を作成する。そして、依存構造木刈り込み部25によって、作成された依存構造に基づく談話構造木の各ノードに対応する文字列単位の長さ及び文字列単位の重要度に基づいて、依存木構造のルートノードを含む部分木のうち、部分木の各ノードに対応する文字列単位の長さの合計が長さの上限以下であって、重要度の合計が最大となる部分木を求め、入力文書から、求めた部分木の各ノードに対応する文字列単位を選択して、入力文書に対応する要約を生成する。
【選択図】図1
Description
まず、本発明の実施の形態の概要について説明する。
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の実施の形態に係る文書要約装置100を示すブロック図である。文書要約装置100は、CPUと、RAMと、後述する構造木変換処理ルーチン及び構造木刈り込み処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
全ての非終端記号(S又はN)に対し、headを定義する。headとは、その記号の子孫の文の中で一番左のNに対応する文(e)を指す。子孫に、Nに対応する文が存在しない場合、headは未定義とする。上記図2のRST−DTの各非終端記号に、headを定義した場合を、図4に示す。
文(e)の親がSの場合、直近の先祖にheadが定義されているか否かをチェックし、headが定義されている場合、その文を修飾する。
headが定義されていない場合、さらに先祖を辿り、(1−1)が当てはまれば、その文を修飾し、rootまでたどりついた場合には、rootのheadとして定義されている文を修飾する。
文(e)の親がNの場合、直近の先祖のSの兄弟にNがいる場合、Nのheadが定義されているか否かをチェックする。
headが定義されている場合、その文を修飾する。
headが定義されていない場合、さらに先祖を辿り、Sを探し、(2−1)、(2−2)を適用する。
rootまでたどりついた場合には、rootのheadとして定義されている文を修飾する。
例えば、DEP−DTの刈り込みアルゴリズムは以下のステップ[0]〜[2−3]を備えている。
修辞構造木変換部24によって変換されたDEP−DTの全てのノードに対し、長さLmax+1の配列を用意し、配列の全ての要素の重要度スコアをゼロで初期化する。各ノードの配列は、当該ノードを含む部分木のうち、長さの合計が長さi(0≦i≦Lmax)以下の部分木に対応する要約の要約スコアの最大値を格納する。
修辞構造木変換部24によって変換されたDEP−DTをS式で表現し、S式の右側のノードから順に、当該ノードを対象ノードとし、対象ノードの配列の個々の要素の重要度スコアを以下のステップ[2−1]〜[2−3]で決定する。
対象ノードが子ノードを持たない、かつ、対象ノードに対応する文の長さlについてl≦Lmaxならば、対象ノードの配列に対し、添字がlからLmaxまでの要素の値を対象ノードに対応する文の重要度vとする。
対象ノードが子ノードを持つ場合、任意の子ノードを選択し、選択した子ノードの配列から、添字がゼロからLmax−lまでの要素を取り出す。これをベース配列と呼ぶ。
他の子ノードに対し、以下のステップ[2−2−2]〜[2−2−4]の処理を行う。
当該子ノードの配列から、添字がゼロからLmax−lまでの要素を取り出す。取り出した要素からなる配列に格納された値からアイテムを抽出する。取り出した要素からなる配列に格納された値の異なり数だけアイテムは存在する。たとえば、取り出した要素からなる配列が[0、1、1、2、3]であれば、この配列には長さ1、重要度スコア1のアイテム、長さ3、重要度スコア2のアイテム、長さ4、重要度スコア3のアイテムが存在する。
抽出した各アイテムについて、ベース配列と当該アイテムとでナップサック問題を解き、抽出したアイテムの数だけ長さLmax−lの配列を得る。
各添字について、得られた配列群の当該添字の要素から、最大値を取得し、各添字について取得した最大値を記憶した配列を生成し、生成した配列でベース配列を上書きする。
ベース配列に対し、対象ノードに対応する文の長さと重要度スコアを加算する。
次に、本実施の形態に係る文書要約装置100の作用について説明する。要約対象の文書と、要約の長さの上限Lmaxとが文書要約装置100に入力されると、文書要約装置100によって、図5及び図6に示す構造木変換処理ルーチンが実行される。
次に、本実施の形態に係る文書要約装置の実際の動作例を以下で説明する。
動作例として、図9に示すDEP−DTを例に挙げて説明する。上記図9に示すDEP−DTは、既にRST−DTから変換されたものであることを想定する。上記図9の右側の表に、DEP−DTにおける各ノード(文)の重要度(V)と長さlとを示す。なお、要約の長さ制約(長さの上限Lmax)は、Lmax=10とする。
ここで、「ノード6自身の重要度スコア」とは、ノード6の配列の2番目から10番目までの要素に、ノード6の重要度である1を格納したものである(図10中段(2)参照)。また、「ノード6自身の長さl…を足す」とは、ノード6自身の長さl(=2)分だけシフトさせて、上記取り出された配列の要素(0から8までの要素)を足すことを意味する。
2 演算部
3 出力部
20 分割部
21 単語重要度データベース
22 重要度付与部
23 修辞構造解析部
24 修辞構造木変換部
25 依存構造木刈り込み部
100 文書要約装置
Claims (7)
- 構造木作成手段及び要約生成手段を含み、入力文書から、予め定められた長さの上限以下となるように、予め定められた文字列単位を少なくとも1つを選択して、前記入力文書に対応する要約を生成する文書要約装置における文書要約方法であって、
前記構造木作成手段によって、前記入力文書を前記文字列単位に分割した結果に基づいて、前記入力文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合した、前記入力文書の各文字列単位の依存構造に基づく談話構造木を作成するステップと、
前記要約生成手段によって、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存木構造のルートノードを含む部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さの上限以下であって、重要度の合計が最大となる部分木を求め、前記入力文書から、前記求めた部分木の各ノードに対応する前記文字列単位を選択して、前記入力文書に対応する要約を生成するステップと、
を含む文書要約方法。 - 前記要約生成手段によって要約を生成するステップは、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存構造に基づく談話構造木の各ノードについて、葉ノードからボトムアップの順で、前記長さの上限以下の各長さに対して、前記ノードをルートノードとして形成される部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さ以下であって、かつ、重要度の合計が最大となる部分木を、ナップサック問題を解くことにより求め、前記求めた前記依存木構造のルートノードを含む部分木のうち、前記重要度の合計が最大となる部分木について、前記部分木の各ノードに対応する前記文字列単位を前記入力文書から選択して、前記入力文書に対応する要約を生成する請求項1記載の文書要約方法。
- 前記構造木作成手段によって前記依存構造に基づく談話構造木を作成するステップは、修辞構造解析手段及び修辞構造木変換手段を含み、
前記修辞構造解析手段によって、ルートノードが前記入力文書の全体を表し、かつ前記入力文書のうちの少なくとも1つの前記文字列単位からなる文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係を表した、前記入力文書の文字列単位の系列の各々の修辞構造に基づく談話構造木を作成するステップと、
前記修辞構造木変換手段によって、前記修辞構造解析手段によって作成された前記修辞構造に基づく談話構造木を、前記依存構造に基づく談話構造木に変換するステップとを含む請求項1又は2記載の文書要約方法。 - 入力文書から、予め定められた長さの上限以下となるように、予め定められた文字列単位を少なくとも1つを選択して、前記入力文書に対応する要約を生成する文書要約装置であって、
前記入力文書を前記文字列単位に分割した結果に基づいて、前記入力文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合した、前記入力文書の各文字列単位の依存構造に基づく談話構造木を作成する構造木作成手段と、
前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存木構造のルートノードを含む部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さの上限以下であって、重要度の合計が最大となる部分木を求め、前記入力文書から、前記求めた部分木の各ノードに対応する前記文字列単位を選択して、前記入力文書に対応する要約を生成する要約生成手段と、
を含む文書要約装置。 - 前記要約生成手段は、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存構造に基づく談話構造木の各ノードについて、葉ノードからボトムアップの順で、前記長さの上限以下の各長さに対して、前記ノードをルートノードとして形成される部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さ以下であって、かつ、重要度の合計が最大となる部分木を、ナップサック問題を解くことにより求め、前記求めた前記依存木構造のルートノードを含む部分木のうち、前記重要度の合計が最大となる部分木について、前記部分木の各ノードに対応する前記文字列単位を前記入力文書から選択して、前記入力文書に対応する要約を生成する請求項4記載の文書要約装置。
- 前記構造木作成手段は、
ルートノードが前記入力文書の全体を表し、かつ前記入力文書のうちの少なくとも1つの前記文字列単位からなる文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係を表した、前記入力文書の文字列単位の系列の各々の修辞構造に基づく談話構造木を作成する修辞構造解析手段と、
前記修辞構造解析手段によって作成された前記修辞構造に基づく談話構造木を、前記依存構造に基づく談話構造木に変換する修辞構造木変換手段とを含む請求項4又は5記載の文書要約装置。 - 請求項1〜請求項3の何れか1項記載の文書要約方法を構成する各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013020697A JP5921457B2 (ja) | 2013-02-05 | 2013-02-05 | 文書要約方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013020697A JP5921457B2 (ja) | 2013-02-05 | 2013-02-05 | 文書要約方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014153766A true JP2014153766A (ja) | 2014-08-25 |
JP5921457B2 JP5921457B2 (ja) | 2016-05-24 |
Family
ID=51575623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013020697A Active JP5921457B2 (ja) | 2013-02-05 | 2013-02-05 | 文書要約方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5921457B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016148946A (ja) * | 2015-02-10 | 2016-08-18 | 日本電信電話株式会社 | テキスト要約装置、方法、及びプログラム |
JP2016162198A (ja) * | 2015-03-02 | 2016-09-05 | 日本電信電話株式会社 | パラメータ学習方法、装置、及びプログラム |
WO2019163584A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 文書要約装置、方法、及びプログラム |
US11386272B2 (en) | 2018-10-31 | 2022-07-12 | Fujitsu Limited | Learning method and generating apparatus |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044519A1 (en) * | 2002-08-30 | 2004-03-04 | Livia Polanyi | System and method for summarization combining natural language generation with structural analysis |
JP2010055236A (ja) * | 2008-08-27 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体 |
JP2010262511A (ja) * | 2009-05-08 | 2010-11-18 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約方法、その装置およびプログラム |
JP2012181685A (ja) * | 2011-03-01 | 2012-09-20 | Toshiba Corp | 代表文抽出装置およびプログラム |
-
2013
- 2013-02-05 JP JP2013020697A patent/JP5921457B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044519A1 (en) * | 2002-08-30 | 2004-03-04 | Livia Polanyi | System and method for summarization combining natural language generation with structural analysis |
JP2004094946A (ja) * | 2002-08-30 | 2004-03-25 | Fuji Xerox Co Ltd | ソーステキストを要約化する方法、圧縮のための等位関係を選択する方法、ソーステキストを要約化するシステム、及びプログラム |
JP2010055236A (ja) * | 2008-08-27 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体 |
JP2010262511A (ja) * | 2009-05-08 | 2010-11-18 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約方法、その装置およびプログラム |
JP2012181685A (ja) * | 2011-03-01 | 2012-09-20 | Toshiba Corp | 代表文抽出装置およびプログラム |
Non-Patent Citations (2)
Title |
---|
伊藤 潤 他: "係り受け木を用いた日本語文書の重要部分抽出", 情報処理学会研究報告, vol. Vol.2003,No.108(2003-NL-158(4)), JPN6015051819, 7 November 2003 (2003-11-07), JP, pages 19 - 24, ISSN: 0003222780 * |
小林 良輔 他: "修辞構造に基づく法令文の解析", 言語処理学会第14回年次大会発表論文集, JPN6015051820, 17 March 2008 (2008-03-17), JP, pages 608 - 611, ISSN: 0003277338 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016148946A (ja) * | 2015-02-10 | 2016-08-18 | 日本電信電話株式会社 | テキスト要約装置、方法、及びプログラム |
JP2016162198A (ja) * | 2015-03-02 | 2016-09-05 | 日本電信電話株式会社 | パラメータ学習方法、装置、及びプログラム |
WO2019163584A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 文書要約装置、方法、及びプログラム |
US11386272B2 (en) | 2018-10-31 | 2022-07-12 | Fujitsu Limited | Learning method and generating apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP5921457B2 (ja) | 2016-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kalra et al. | Importance of Text Data Preprocessing & Implementation in RapidMiner. | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
JP5239307B2 (ja) | 翻訳装置及び翻訳プログラム | |
KR101790793B1 (ko) | 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델 | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
JP5834883B2 (ja) | 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム | |
JP2004110161A (ja) | テキスト文比較装置 | |
WO2021258491A1 (en) | Methods and systems for generating a reference data structure for anonymization of text data | |
JP2004110200A (ja) | テキスト文比較装置 | |
Zu et al. | Resume information extraction with a novel text block segmentation algorithm | |
JP5921457B2 (ja) | 文書要約方法、装置、及びプログラム | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
JP6062829B2 (ja) | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム | |
Chen et al. | Using latent Dirichlet allocation to improve text classification performance of support vector machine | |
JP2008021270A (ja) | データ変換装置および方法、データベース管理装置および方法、ならびにデータベース検索システムおよび方法 | |
JPH1196177A (ja) | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 | |
JP4937709B2 (ja) | 構造化文書生成方法及び装置及びプログラム | |
Kunanets et al. | Enhanced LSA Method with Ukraine Language Support. | |
JP7227705B2 (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
JP2014112306A (ja) | 要望文抽出装置、要望内容同定モデル学習装置、方法、及びプログラム | |
CN115827829B (zh) | 一种基于本体的搜索意图优化方法及系统 | |
JP4543819B2 (ja) | 情報検索システム、情報検索方法及び情報検索プログラム | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム | |
Misuraca et al. | Network-based dimensionality reduction for textual datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5921457 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |