JP5810052B2 - 要約生成装置及び方法及びプログラム - Google Patents

要約生成装置及び方法及びプログラム Download PDF

Info

Publication number
JP5810052B2
JP5810052B2 JP2012186037A JP2012186037A JP5810052B2 JP 5810052 B2 JP5810052 B2 JP 5810052B2 JP 2012186037 A JP2012186037 A JP 2012186037A JP 2012186037 A JP2012186037 A JP 2012186037A JP 5810052 B2 JP5810052 B2 JP 5810052B2
Authority
JP
Japan
Prior art keywords
sentence
clause
shortening
explanation
necessity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012186037A
Other languages
English (en)
Other versions
JP2014044538A (ja
Inventor
宜仁 安田
宜仁 安田
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012186037A priority Critical patent/JP5810052B2/ja
Publication of JP2014044538A publication Critical patent/JP2014044538A/ja
Application granted granted Critical
Publication of JP5810052B2 publication Critical patent/JP5810052B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、要約生成装置及び方法及びプログラムに係り、特に、自然言語処理技術における、文短縮技術を用いて入力された文書を要約するための要約生成装置及び方法及びプログラムに関する。
従来より、入力された文書を要約する技術が知られている。要約技術は、大きく2種類に分けることができる。一つは、文書中の重要な部分(典型的には重要な文)によって要約を構成する抽出(重要文抽出)と呼ばれる方法であり、もう一つは各文自体を変化させる文短縮あるいは文短縮と呼ばれる方法である。なお、これらは排他的ではなく、非特許文献1に示されるように、組み合わせて使うことが可能である。
特に、出力する要約として求められる長さが短い場合や、入力文書が長く、高い要約率が望まれる場合、文自体の持つ冗長性を排除することができるので、文短縮による要約が用いられる。文短縮の方法としては、係り受け解析によって出来上がる木に対して、根から見て枝にある文節を刈ることによって、係り受け関係を保持したまま文を短縮する方法が広く知られている(例えば、非特許文献2、3参照)。
しかし、文短縮を行う場合、係り受け関係は保存されていたとしても、元の文自体に変更を加えるため、意味が通じない場合があり、特に、短縮率が大きい場合には、この危険性が高まる。かといって一方であまり短縮しないのであれば要約の意味がなく冗長となってしまう。
そこで、マウスによるポイントや、音声による割り込みが行えることを想定し、利用者が不明に感じた部分を、システムに伝えることでその部分について刈り過ぎた文節を復活させ、低い要約率で再度利用者に伝えるような、問い返しによる対話的な要約方法が考えられる。
平尾努,鈴木潤,磯崎秀樹,"最適化問題としての文書要約",人口知能学会論文誌,Vol. 24, No.2, pp. 223-231, 2009年. Kevin Knight, Daniel Marcu, "Summarization beyond sentence extraction: A probabilistic approach to sentence compression", Artificial Interlligence, Volume 139, Issue 1, July 2002, Pages 91-107. Kiwamu Yamagata et al., "Sentence Compression Using Statistical Information About Dependency Path Length", Proceedings of the 9PthP International Conference, TDS 2006/ Lecture Notes in Computer Science, pp. 127 - 134.
しかしながら、利用者が不明と感じた部分について指摘できるとしても、単純に大幅な枝刈りを行った要約を提示したのでは、利用者は繰り返し問い返すことになり、結果として読み直しや聞き返しの手間がかかり、利用者が最終的に文書の内容を掌握するまでの時間がかかるという問題がある。
本発明は、上記の点に鑑みなされたもので、枝刈りによる文短縮を行った際の、文が問い返される可能性とコストを削減した要約生成装置及び方法及びプログラムを提供することを目的とする。
本発明(請求項1)は、提示した要約に対するユーザによる割り込み可能な対話を利用して入力された要約対象文書の要約を生成する要約生成装置であって、
自立語及び自立語の組み合わせについて、どの程度説明を必要とするのかを示す尺度である説明必要度が該自立語及び該自立語の組合せに対応づけて格納された説明必要性記憶手段と、
入力された要約対象文書から短縮対象文を選択する短縮対象文選択手段と、
前記短縮対象文の文節をノードとし、文末を根とし、係り受け関係をエッジで表現する係り受け木を生成し、係り元に相当する枝を葉側から枝刈りして係り受け木の集合を生成し、各係り受け木の文節を根とする部分木に含まれる自立語に基づいて、前記説明必要性記憶手段を参照して得られた必要度に基づいて、根となる文節の期待伝達時間を算出し、該期待伝達時間が最小となる係り受け木を短縮文として出力する文短縮手段と、を有する。
また、本発明(請求項2)は、前記文短縮手段において、
前記係り受け木の文節bを根とする部分木の中に含まれる自立語の集合qに基づいて前記説明必要性記憶手段から取得した説明必要度n q 、該文節bの直下の文節のうち、現在対象としている部分木において存在しない文節の長さの和len d 、該文節bの長さlen b 、該文節bを根とする部分木から該文節bを除いた場合に根となる各文節cを根とする部分木の部分期待伝達時間S c を用いて、前記根となる文節の期待伝達時間を算出する手段を含む。
また、本発明(請求項3)は、前記文短縮手段によって得られた前記短縮文短縮での要約文を出力する要約出力手段を更に有し、
前記文短縮手段は、
前記短縮文内での各文節に係っている部分木を連結した文字列を修正要約記憶手段に格納する手段を含み、
前記要約出力手段は、
前記要約文について、ユーザより指示があった場合には、該ユーザが該要約文に対する修正と判断し、指示された文節位置に対応する修正内容で前記修正要約記憶手段を更新する、または、該ユーザに再出力する手段を含む。
上記のように、本発明は、ユーザによって割り込み可能な対話的な要約を想定し、その要約において、言い直し(読み直し)も含めた期待伝達時間を考慮し、その期待伝達時間を最小化する要約を生成することにより、利用者が元の文書を把握するための時間を少なくすることができる。
本発明の一実施の形態における要約生成装置の構成図である。 本発明の一実施の形態における説明必要性データベースの例である。 本発明の一実施の形態における要約生成装置の処理のフローチャートである。 本発明の一実施の形態における文短縮部の処理のフローチャートである。 本発明の一実施の形態における係り受け木の例である。 本発明の一実施の形態における枝刈り後の係り受け木の例である。 本発明の一実施の形態における修正要約記憶部の内容の例である。
以下、図面と共に本発明の実施の形態を説明する。
図1は、本発明の一実施の形態における要約生成装置の構成を示す。
同図に示す要約生成装置は、説明必要性データベース10、短縮対象文選択部20、文短縮部30、要約出力部40、修正要約記憶部50を有する。
必要性データベース10は、自立語や自立語の組み合わせについて、その語や語の組合せに対してどの程度説明を必要とするのか(説明必要度)を保持するデータベースである。図2に必要性データベース10の例を示す。直感的にはある対象物を説明するために、その語、あるいは語の組み合わせによって構成される文節群を示したときに、大半の人に意味が通じるか通じないかを定量化したものである。説明必要度は0から1の間の数で大きい程説明を必要とすることを意味する。当該必要性データベース10の作成は、主要な語やフレーズについて事前に人手で作成してもよいし、例えば、以下のような手順で作成することが可能である。
十分大きな文書集合を用意し、その中で各自立語の文書頻度、すなわち各自立語が何度出現したのかの値を記録する。総文書数を|D|、各自立語wについて文書頻度をDF w とするとき、以下のIDF w を説明必要度として記録する。
Figure 0005810052
同様に、語の組合せについても、十分大きな文書集合を用意し、自立語の組み合わせcの文内で共起を単位として、そのような共起がいくつの文書で出現したかを記録し、総文書数を|D|とし、自立語の組み合わせcの文書頻度をDF c とするとき、以下の値IDF c を説明必要度として記録する。
Figure 0005810052
図3は、本発明の一実施の形態における要約生成装置の処理のフローチャートである。
短縮対象文選択部20は、要約対象文書群を取得し(ステップ100)、要約対象文から、文短縮の対象とする文を選択する(ステップ200)。これには従来より知られた重要文抽出による要約手法(例えば、H. P. Edmundson: New Methods in Automatic Extracting. ACM 16(2): 264-285 (1969))を利用することができる。
文短縮部30は、短縮対象文選択部20によって選択された各文について、文短縮によって短くした文を出力する(ステップ300)。
図4は、本発明の一実施の形態における文短縮部の処理のフローチャートである。
文短縮部30は、従来から知られている、係り受け解析の結果木の、係り元に相当する枝(文節)を刈る方法(例えば、非特許文献2,3)を基本として実現する。
文短縮部30は、まず、当業者に公知の係り受け解析器(例えば、工藤拓、松本裕治:「チャンキングの段階適用による日本語係り受け解析」情報処理学会論文誌、43-6, pp. 1834-1842 (2002))を用いて係り受け木を作成する(ステップ301)。係り受け木は、文節をノードとし、文末を根とし、係り受け関係をエッジで表現する木となる。図6に例として『新しくNTTに設置されたエボリューション研究所に取引先と向かう途中で、今日の会議について先方と話しあった。』という文に対応する係り受け木を示す。
次に、文短縮部30は、係り元に相当する各枝を葉側から順に刈って構成できる全ての木からなる集合を作成する(ステップ302)。図6に図5の例文についての枝刈りによって構成できる木の例を示す。同図中、点線で囲まれている文節は、元の木から刈られて、この木には存在しないことを示している。
なお、これらの各木は、葉側から文の元の順番を保ったまま辿ることで短縮された文に対応させることができるので、一つの文短縮結果に相当する。
次に、文短縮部30は、上記のステップで作成した各木tについて以下の手順により予測伝達終了時間E t を算出する。
1. 木に残っている各文節bについて、文節bを根とする部分木の部分期待伝達時間Sbを以下の手順により算出する。なお、部分木の伝達時間は葉に近い側から算出し、係り先ではない文節については、その文節のみで構成される部分木を考える。
(a)文節b及びbへの係り元に含まれる全ての文節、すなわち、文節bを根とする部分木の中に含まれる自立語からなる集合をqとする(ステップ303)。
例えば、図6中の1番の「設置された」の場合はq={設置された}となり、7番の「会議について」の場合はq={今日の,会議について}となる。
(b)自立語の集合qに基づいて、説明必要性データベース10を参照する。もし、qと完全に一致するエントリがあれば(ステップ304,Yes)、その値を説明必要度の値n q とする(ステップ305)。もしqと一致するエントリがなければ(ステップ304,No)、qの要素を最も多く含むようなエントリを探し、その値を説明必要度の値をn q とする(ステップ306)。
(c)元の係り受け木を参照し、元の係り受け木において文節bの直下に合った文節のうち、現在対象としている部分木において存在しない文節の長さの和をlen d とする(ステップ307)。例えば、図6中の1番の「設置された」の場合は、「新しく」と「NTTに」の長さの合計である7となり、2番の「EV研」の倍は0となる。
(d)文節bの長さをlen b とする(ステップ308)。
このとき、文節bを根とする部分木の部分期待伝達時間S b は、文節bの直下の各文節、すなわち、bを根とする部分木から、bを除いた場合に根となる各文節cについての、文節cを根とする部分木の部分期待伝達時間S c と、len b と、bの伝達可能性を考慮し、以下の式で定める。なお、α、βは所定の定数である。
Figure 0005810052
2. 根となる文節(文末に相当する文節)の部分期待伝達時間を、木tの期待伝達時間E t とする(ステップ309)。
E t が最も小さくなるような木tに相当する短縮文を文短縮部30の出力とする(ステップ310)。また、この短縮文内の各文節について、短縮文内での当該文節の位置、当該文節の内容、元の係り受け木において当該文節に係っている部分木を連結した文字列を、修正要約記憶部50に格納する(ステップ311)。修正要約記憶部50の例を図7に示す。修正要約記憶部50には、最終的に残った根文節にかかる文節の係り先を連結したものが格納される。
要約出力部40は、文短縮部30によって得られた各文の短縮結果を、音声や画面等、事前に指定されたデバイスに対して出力する(ステップ400)。
出力したあるいは、出力中の要約内容について、マウスによるポイントや、音声によって利用者から指示があった場合(ステップ500,Yes)、その部分が利用者にとって不明であり、ユーザが内容の提示の修正を求めたと判断する。このときには、指示された文節位置に対応する修正内容を、修正要約記憶部50より取り出し、この時点で指示された文節(係り先文節)に対応する修正要約に書き換える、あるいは音声出力し直す(ステップ600)。
なお、上記の図1に示す要約生成装置の構成要素の動作をプログラムとして構築し、要約生成装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
10 説明必要性データベース
20 短縮対象文選択部
30 文短縮部
40 要約出力部
50 修正要約記憶部

Claims (7)

  1. 提示した要約に対するユーザによる割り込み可能な対話を利用して入力された要約対象文書の要約を生成する要約生成装置であって、
    自立語及び自立語の組み合わせについて、どの程度説明を必要とするのかを示す尺度である説明必要度が該自立語及び該自立語の組合せに対応づけて格納された説明必要性記憶手段と、
    入力された要約対象文書から短縮対象文を選択する短縮対象文選択手段と、
    前記短縮対象文の文節をノードとし、文末を根とし、係り受け関係をエッジで表現する係り受け木を生成し、係り元に相当する枝を葉側から枝刈りして係り受け木の集合を生成し、各係り受け木の文節を根とする部分木に含まれる自立語に基づいて、前記説明必要性記憶手段を参照して得られた必要度に基づいて、根となる文節の期待伝達時間を算出し、該期待伝達時間が最小となる係り受け木を短縮文として出力する文短縮手段と、
    を有することを特徴とする要約生成装置。
  2. 前記文短縮手段は、
    前記係り受け木の文節bを根とする部分木の中に含まれる自立語の集合qに基づいて前記説明必要性記憶手段から取得した説明必要度n q 、該文節bの直下の文節のうち、現在対象としている部分木において存在しない文節の長さの和len d 、該文節bの長さlen b 、該文節bを根とする部分木から該文節bを除いた場合に根となる各文節cを根とする部分木の部分期待伝達時間S c を用いて、前記根となる文節の期待伝達時間を算出する手段を含む
    請求項1記載の要約生成装置。
  3. 前記文短縮手段によって得られた前記短縮文短縮での要約文を出力する要約出力手段を更に有し、
    前記文短縮手段は、
    前記短縮文内での各文節に係っている部分木を連結した文字列を修正要約記憶手段に格納する手段を含み、
    前記要約出力手段は、
    前記要約文について、ユーザより指示があった場合には、該ユーザが該要約文に対する修正と判断し、指示された文節位置に対応する修正内容で前記修正要約記憶手段を更新する、または、該ユーザに再出力する手段を含む
    請求項1記載の要約生成装置。
  4. 提示した要約に対するユーザによる割り込み可能な対話を利用して入力された要約対象文書の要約を生成する要約生成方法であって、
    自立語及び自立語の組み合わせについて、どの程度説明を必要とするのかを示す尺度である説明必要度が該自立語及び該自立語の組合せに対応づけて格納された説明必要性記憶手段と、短縮対象文選択手段と、文短縮手段と、を有する装置において、
    前記短縮対象文選択手段が、入力された要約対象文書から短縮対象文を選択する短縮対象文選択ステップと、
    前記文短縮手段が、前記短縮対象文の文節をノードとし、文末を根とし、係り受け関係をエッジで表現する係り受け木を生成し、係り元に相当する枝を葉側から枝刈りして係り受け木の集合を生成し、各係り受け木の文節を根とする部分木に含まれる自立語に基づいて、前記説明必要性記憶手段を参照して得られた必要度に基づいて、根となる文節の期待伝達時間を算出し、該期待伝達時間が最小となる係り受け木を短縮文として出力する文短縮ステップと、
    を行うことを特徴とする要約生成方法。
  5. 前記文短縮ステップにおいて、
    前記係り受け木の文節bを根とする部分木の中に含まれる自立語の集合qに基づいて前記説明必要性記憶手段から取得した説明必要度n q 、該文節bの直下の文節のうち、現在対象としている部分木において存在しない文節の長さの和len d 、該文節bの長さlen b 、該文節bを根とする部分木から該文節bを除いた場合に根となる各文節cを根とする部分木の部分期待伝達時間S c を用いて、前記根となる文節の期待伝達時間を算出する
    請求項4記載の要約生成方法。
  6. 前記装置が、要約出力手段を更に有し、
    前記文短縮ステップにおいて、
    前記短縮文内での各文節に係っている部分木を連結した文字列を修正要約記憶手段に格納するステップを更に行い、
    前記要約出力手段が、前記文短縮ステップによって得られた前記短縮文短縮での要約文を出力するステップと、
    前記要約文について、ユーザより指示があった場合には、該ユーザが該要約文に対する修正と判断し、指示された文節位置に対応する修正内容で前記修正要約記憶手段を更新する、または、該ユーザに再出力するステップを更に行う
    請求項4記載の要約生成方法。
  7. コンピュータを、
    請求項1乃至3のいずれか1項に記載の要約生成装置の各手段として機能させるための要約生成プログラム。
JP2012186037A 2012-08-27 2012-08-27 要約生成装置及び方法及びプログラム Expired - Fee Related JP5810052B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012186037A JP5810052B2 (ja) 2012-08-27 2012-08-27 要約生成装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012186037A JP5810052B2 (ja) 2012-08-27 2012-08-27 要約生成装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014044538A JP2014044538A (ja) 2014-03-13
JP5810052B2 true JP5810052B2 (ja) 2015-11-11

Family

ID=50395764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012186037A Expired - Fee Related JP5810052B2 (ja) 2012-08-27 2012-08-27 要約生成装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5810052B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3937118B2 (ja) * 1999-03-02 2007-06-27 富士ゼロックス株式会社 要約作成装置及び要約作成方法
JP2003281164A (ja) * 2002-03-20 2003-10-03 Fuji Xerox Co Ltd 文書要約装置、文書要約方法、及び文書要約プログラム
JP5058221B2 (ja) * 2008-11-12 2012-10-24 日本電信電話株式会社 文短縮装置、その方法およびプログラム
JP4931958B2 (ja) * 2009-05-08 2012-05-16 日本電信電話株式会社 テキスト要約方法、その装置およびプログラム

Also Published As

Publication number Publication date
JP2014044538A (ja) 2014-03-13

Similar Documents

Publication Publication Date Title
JP4580885B2 (ja) シーン情報抽出方法、シーン抽出方法および抽出装置
CN106649783B (zh) 一种同义词挖掘方法和装置
US6345244B1 (en) System, method, and product for dynamically aligning translations in a translation-memory system
US6345243B1 (en) System, method, and product for dynamically propagating translations in a translation-memory system
US20080071803A1 (en) Methods and systems for real-time citation generation
US20150026556A1 (en) Systems and Methods for Extracting Table Information from Documents
Chowdhury et al. A study on dependency tree kernels for automatic extraction of protein-protein interaction
JP5547254B2 (ja) 対話的要約生成装置及び方法及びプログラム
CN109977370B (zh) 一种基于文档结构树的问答对自动构建方法
CN110309214B (zh) 一种指令执行方法及其设备、存储介质、服务器
JP2019021194A5 (ja)
JP5810052B2 (ja) 要約生成装置及び方法及びプログラム
JP5810053B2 (ja) 要約生成装置及び方法及びプログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP6115487B2 (ja) 情報収集方法、対話システム及び情報収集装置
JPS61278970A (ja) 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
JP6698006B2 (ja) 要約生成装置、方法、及びプログラム
CN112905835A (zh) 一种多模态乐曲标题生成方法、装置及存储介质
KR100886688B1 (ko) 한국어 수량사 생성 방법 및 장치
JP6451414B2 (ja) 情報処理装置、要約文編集方法、及びプログラム
JP2009282903A (ja) 知識抽出・検索装置およびその方法
Leplus et al. Weather report translation using a translation memory
Galley Automatic summarization of conversational multi-party speech
JP2008217529A (ja) テキスト分析装置およびテキスト分析プログラム
JP6565262B2 (ja) 短縮文生成装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150914

R150 Certificate of patent or registration of utility model

Ref document number: 5810052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees