JP2015103101A - テキスト要約装置、方法、及びプログラム - Google Patents

テキスト要約装置、方法、及びプログラム Download PDF

Info

Publication number
JP2015103101A
JP2015103101A JP2013244310A JP2013244310A JP2015103101A JP 2015103101 A JP2015103101 A JP 2015103101A JP 2013244310 A JP2013244310 A JP 2013244310A JP 2013244310 A JP2013244310 A JP 2013244310A JP 2015103101 A JP2015103101 A JP 2015103101A
Authority
JP
Japan
Prior art keywords
text
subset
input text
microblog
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013244310A
Other languages
English (en)
Inventor
仁 西川
Hitoshi Nishikawa
仁 西川
克人 別所
Katsuto Bessho
克人 別所
牧野 俊朗
Toshiaki Makino
俊朗 牧野
松尾 義博
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013244310A priority Critical patent/JP2015103101A/ja
Publication of JP2015103101A publication Critical patent/JP2015103101A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】低コストで、入力テキストに対応する適切な要約を生成することができる。
【解決手段】マイクロブログ収集部22により、マイクロブログサイトから、入力テキストに関して言及しているテキストを収集し、部分集合選択部26により、収集されたテキストに基づいて、前記入力テキストに含まれる文の集合から得られる部分集合の各々から、部分集合に含まれる単語の各々の収集されたテキスト内に出現する頻度を用いて算出される部分集合のスコアが最大となり、かつ、予め定められた長さの上限K以下となる部分集合を選択し、要約生成部28により、選択された部分集合に含まれる文を連結して、入力テキストに対応する要約を生成する。
【選択図】図1

Description

本発明は、テキスト要約装置、方法、及びプログラムに係り、特に、入力テキストから要約を生成するテキスト要約装置、方法、及びプログラムに関する。
近年、電子化されたテキストが大量に流通するようになった。そのため、それらのテキストに記述された情報を迅速に把握するため、機械にテキストを要約させる、要約技術の重要性が高まっている。
現在、テキストを機械に要約させる際には、以下の手続きが取られることが多い。まず、要約の対象となる1つ以上のテキストを、句点で区切るなどの方法で文に分割する。次に、要約対象のテキストから要約にふさわしい文(以下、重要文と呼ぶ)を選び出す。その後、必要があれば、選び出した文のうち冗長な情報を含むものなどを多少書き換える。最後に、選び出されたテキストを適切に順序付け、連結し、1つの要約として出力する。
重要文を選択する際には、何らかの方法によって文のスコアを定義し、そのスコアに従って文を選択することがよく行われる。文のスコアを定義する方法の一例としては、事前に、要約の対象となるテキストに対して人間によって作成された正解となる要約(以下、参照要約と呼ぶ)を作成しておき、その要約と参照要約の組を元に機械学習を行うことによって、要約に含まれやすい情報を持つ文に高いスコアを与えるといったことができる(非特許文献1)。
Tsutomu Hirao, Hideki Isozaki, Eisaku Maeda and Yuji Matsumoto. Extracting Import Sentences with Support Vector Machine. In Proc. of the 19th International Conference on Computational Linguistics, pp. 342--348, 2002.
非特許文献1の方法には、2つの問題がある。1つは、費用の問題である。機械学習を用いた方法を利用するためには、事前にある程度の訓練事例を用意しなければならない。参照要約を作成するには、人間の作業者を用意し、作業者に要約の対象となるテキストを読ませ、その後に適切な要約を記述させる必要がある。この作業は決して安価なものではないため、大量の参照要約の確保は費用の点から問題が生じやすい。
もう1つは、即時性の問題である。事前に学習を行っていた要約器で要約を作成する場合には、未知の話題に対して適切な要約を作成できない可能性がある。例えば、スマートフォンが一般に広く使われる前に作成された参照要約の中に、スマートフォンに関する話題を取り扱ったテキストが入っている可能性は少ない。そのため、仮にスマートフォンに関する記事を、スマートフォンが広く使われる前に作成された参照要約から学習した要約器で要約しようとすると、適切な要約を作成できない恐れがある。
本発明では、上記問題点を解決するために成されたものであり、低コストで、入力テキストに対応する適切な要約を生成することができるテキスト要約装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るテキスト要約装置は、入力テキストから、予め定められた長さの上限K以下となるように、前記入力テキストの各文のうちの少なくとも1つを選択して、前記入力テキストに対応する要約を生成するテキスト要約装置であって、マイクロブログサイトから、前記入力テキストに関して言及しているテキストを収集するマイクロブログ収集手段と、前記マイクロブログ収集手段によって収集された前記テキストに基づいて、前記入力テキストに含まれる文の集合から得られる部分集合の各々から、前記部分集合に含まれる単語の各々の前記収集された前記テキスト内に出現する頻度を用いて算出される前記部分集合のスコアが最大となり、かつ、前記予め定められた長さの上限K以下となる前記部分集合を選択する部分集合選択手段と、前記部分集合選択手段により選択された前記部分集合に含まれる文を連結して、前記入力テキストに対応する要約を生成する生成手段と、を含んで構成されている。
第2の発明に係るテキスト要約方法は、マイクロブログ収集手段、部分集合選択手段、及び生成手段を含み、入力テキストから、予め定められた長さの上限K以下となるように、前記入力テキストの各文のうちの少なくとも1つを選択して、前記入力テキストに対応する要約を生成するテキスト要約装置におけるテキスト要約方法であって、前記マイクロブログ収集手段は、マイクロブログサイトから、前記入力テキストに関して言及しているテキストを収集し、前記部分集合選択手段は、前記マイクロブログ収集手段によって収集された前記テキストに基づいて、前記入力テキストに含まれる文の集合から得られる部分集合の各々から、前記部分集合に含まれる単語の各々の前記収集された前記テキスト内に出現する頻度を用いて算出される前記部分集合のスコアが最大となり、かつ、前記予め定められた長さの上限K以下となる前記部分集合を選択し、前記生成手段は、前記部分集合選択手段により選択された前記部分集合に含まれる文を連結して、前記入力テキストに対応する要約を生成する。
第1及び第2の発明によれば、マイクロブログ収集手段により、マイクロブログサイトから、入力テキストに関して言及しているテキストを収集し、部分集合選択手段により、収集されたテキストに基づいて、入力テキストに含まれる文の集合から得られる部分集合の各々から、部分集合に含まれる単語の各々の収集されたテキスト内に出現する頻度を用いて算出される部分集合のスコアが最大となり、かつ、予め定められた長さの上限K以下となる部分集合を選択し、生成手段により、部分集合選択手段により選択された部分集合に含まれる文を連結して、入力テキストに対応する要約を生成する。
このように、第1及び第2の発明によれば、入力テキストに関して言及しているテキストを収集し、収集されたテキストに基づいて、入力テキストに含まれる文の集合から得られる部分集合を選択し、選択された部分集合に含まれる文を連結して、入力テキストに対応する要約を生成することにより、低コストで、入力テキストに対応する適切な要約を生成することができる。
また、第1の発明において、前記入力テキストは、URIが付加されている新聞記事であって、前記マイクロブログ収集手段は、前記マイクロブログサイトから、前記新聞記事のURIをクエリとして検索することにより、前記入力テキストに関して言及しているテキストを収集してもよい。
また、第2の発明において、前記入力テキストは、URIが付加されている新聞記事であって、前記マイクロブログ収集手段によって収集することは、前記マイクロブログサイトから、前記新聞記事のURIをクエリとして検索することにより、前記入力テキストに関して言及しているテキストを収集してもよい。
また、本発明のプログラムは、コンピュータを、上記のテキスト要約装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明のテキスト要約装置、方法、及びプログラムによれば、低コストで、入力テキストに対応する適切な要約を生成することができる。
本発明の実施の形態に係るテキスト要約装置の機能的構成を示すブロック図である。 入力テキストの一例を示す図である。 解析されたマイクロブログの一例を示す図である。 本発明の実施の形態に係るテキスト要約装置におけるテキスト要約処理ルーチンを示すフローチャート図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<実施の形態に係るテキスト要約装置の構成>
次に、本発明の実施の形態に係るテキスト要約装置の構成について説明する。図1に示すように、本発明の実施の形態に係るテキスト要約装置100は、CPUと、RAMと、後述するテキスト要約処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このテキスト要約装置100は、機能的には図1に示すようにテキスト入力部10と、演算部20と、テキスト出力部50とを備えている。
テキスト入力部10は、要約の対象となる入力テキストとして、形態素解析済みの新聞記事を受け付ける。図2に、受け付ける入力テキストの形式の一例を示す。図2には、形態素解析済みのテキストが入力として与えられた場合であって、「安倍晋三首相は5日午後(日本時間同日夜)、オバマ米大統領と訪問先のロシア・サンクトペテルブルクで会談した。」という文が形態素に分割された場合における、それぞれの形態素の表記、品詞、読み、及び標準形が表示されている。なお、本実施の形態においては、入力テキストとしての新聞記事に当該記事のURIの情報が付加されているものとする。
演算部20は、マイクロブログ収集部22と、マイクロブログ解析部24と、部分集合選択部26と、要約生成部28とを含んで構成されている。
マイクロブログ収集部22は、テキスト入力部10で受け付けられた要約の対象となる新聞記事に基づいて、マイクロブログサイトから、当該新聞記事に関して言及しているマイクロブログを収集する。例えば、収集対象となるマイクロブログとしてツイッター(登録商標)を利用する場合は、当該要約の対象となる新聞記事に付加されている当該記事のURIをクエリとしてツイッター(登録商標)APIなどを利用してWeb上の検索を行うことで、当該新聞記事に関して言及しているツイートの各々を収集する。
これは、近年、インターネットが一般に広く利用されるに従って、ツイッター(登録商標)などのマイクロブログに、新聞記事などに対する反応が広く、しかも素早く投稿されているため、多くのインターネット上の新聞社のサイトでは、記事のURIをキーとして、ある特定の記事に対する反応などを表すツイート等の投稿を収集するための仕組みが備えつけられており、ツイッター(登録商標)などのユーザがある特定の新聞記事にどのような反応をしているのか迅速に知ることができることに基づくものである。
マイクロブログ解析部24は、マイクロブログ収集部22において収集したマイクロブログの各々に対して文分割や形態素解析などの解析を実施する。文分割については句点やスラッシュなどを文境界とすることで実施することができ、形態素解析については公知の既存の方法を利用することで実施することができる(非特許文献2:Takeshi Fuchi and Shinichiro Takagi. Japanese Morphological Analyzer using Word Co-occurrence − JTAG. In Proc. of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (Volume 1), pp. 409--413, 1998.)。一例として、図3に、「ロシアの出方が気になる。」という文が解析された結果を示す。
部分集合選択部26は、テキスト入力部10で受け付けた要約の対象となる新聞記事と、マイクロブログ解析部24で解析されたマイクロブログの各々とに基づいて、要約の対象となる新聞記事に含まれる文の集合から得られる部分集合の各々から、要約としてふさわしい文からなる部分集合を選択する。
具体的には、テキスト入力部10において受け付けた要約の対象となる新聞記事に含まれるn個の文からなる集合D={s…s}の部分集合S⊆Dのうち、要約としてのよしあし(以降、スコアと呼ぶ)を与える関数f(S)を最大化し、かつSに含まれる文の長さの和を与える関数Length(S)が要約のサイズの上限K以下となる部分集合Sを選択する。定式化したものを下記(1)式に示す。なお、下記(1)式のargmax操作の実行には、例えば貪欲法(非特許文献3:Samir Khuller, Anna Moss and Joseph Naor. The Budgeted Maximum Coverage Problem. Information Processing Letters, Vol. 70, No.1, pp. 39--45, 1999.)に基づくアルゴリズムなどが利用できる。
上記(1)式の関数f(S)は、例えば、部分集合Sが網羅する単語tの重要度の和とすることができ、下記(2)式において定式化する。
上記(2)式の関数Words(S)は、部分集合Sに含まれる文の各々に存在する単語のリストを返す関数であり、wは単語tの重要度とする。このとき、wをどのように適切に設定するかということが問題となる。本実施の形態においては、マイクロブログを利用し、下記(3)式のようにwを定義する。
ここで、上記(3)式の関数tf(t)は、マイクロブログ解析部24において解析されたマイクロブログの各々について、単語tが出現する回数である。つまり、マイクロブログ中で頻繁に言及されている単語tは、要約にとって重要な単語であるとの仮定を置く。これによって、マイクロブログ中で頻繁に言及されている情報、すなわちユーザが興味を持ち、重要だと判断した情報に基づいて要約を作成することができる。例えば、図3には「ロシア」という単語があるため、このことからロシアという単語が重要であることがわかる。
要約生成部28は、部分集合選択部26で選択された部分集合Sに含まれる文の各々を適切に並び替え、要約として生成し、単一のテキストとしてテキスト出力部50へ出力する。並び替えは、例えば入力された元の新聞記事の位置に基づいてもよいし、要約の対象となる新聞記事が書かれた、あるいは投稿された時間に基づいてもよいし、あるいは公知の文を並び替える方法を用いてもよい(非特許文献4:Mirella Lapata. Probabilistic Text Structuring: Experiments with Sentence Ordering, In Proc. of the 41st Meeting of the Association for Computational Linguistics, pp. 545--552, 2003.)。
テキスト出力部50は、要約生成部28において生成された要約を出力する。
<第1の実施の形態に係るテキスト要約装置の作用>
次に、本発明の第1の実施の形態に係るテキスト要約装置100の作用について説明する。テキスト入力部10において要約の対象となる新聞記事を受け付けると、テキスト要約装置100は、図4に示すテキスト要約処理ルーチンを実行する。
まず、ステップS100では、テキスト入力部10において受け付けた新聞記事に付加されている当該記事のURIに基づいて、webの検索を行い、マイクロブログサイトから、当該新聞記事に関して言及しているマイクロブログの各々を収集する。
次に、ステップS102では、ステップS100において取得したマイクロブログの各々について、文分割及び形態素解析を行う。
次に、ステップS104では、テキスト入力部10において受け付けた新聞記事と、ステップS102において取得した解析済みのマイクロブログの各々とに基づいて、上記(1)式を用いて、当該新聞記事に含まれる文の集合から得られる部分集合の各々から、要約としてふさわしい文からなる部分集合Sを選択する。
次に、ステップS106では、ステップS104において取得した部分集合Sに含まれる文の各々を、適切な順番に並び替え、単一のテキストからなる要約を生成する。
次に、ステップS108では、ステップS106において取得した要約をテキスト入力部10において受け付けた新聞記事の要約としてテキスト出力部50に出力し、テキスト要約処理ルーチンを終了する。
以上説明したように、本発明の第1の実施の形態に係るテキスト要約装置によれば、低コストで、入力した新聞記事に対応する適切な要約を生成することができる。
また、新聞社のウェブサイト上の新聞記事など、ある特定の記事に対するインターネット上のユーザの反応、典型的には投稿されたツイートの内容に基づき、当該記事の要約を作成する。記事に対するユーザの反応を利用することで、新聞記事に対して参照要約を多数用意することが不要となり、また、既存の参照要約に基づいた学習では適切な要約を作成できない新しい話題などについても適切に要約を作成することができるため、新規の話題に対する要約器の頑健性を得ることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態においては、形態素解析済みの新聞記事を入力として受け付ける場合を例に説明したが、これに限定されるものではなく、形態素解析が行われていない新聞記事を入力として受け付けてもよい。この場合には、入力された新聞記事に対して形態素解析を行うようにすればよい。
また、本実施の形態においては、入力されるテキストが新聞記事の場合を例に説明したが、これに限定されるものではなく、新聞記事以外のテキストが入力されてもよい。
本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
また、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラム、あるいは図4のフローチャートに示された手順を備えるプログラムをインストールすることによって実現してもよい。
10 テキスト入力部
20 演算部
22 マイクロブログ収集部
24 マイクロブログ解析部
26 部分集合選択部
28 要約生成部
50 テキスト出力部
100 テキスト要約装置

Claims (5)

  1. 入力テキストから、予め定められた長さの上限K以下となるように、前記入力テキストの各文のうちの少なくとも1つを選択して、前記入力テキストに対応する要約を生成するテキスト要約装置であって、
    マイクロブログサイトから、前記入力テキストに関して言及しているテキストを収集するマイクロブログ収集手段と、
    前記マイクロブログ収集手段によって収集された前記テキストに基づいて、前記入力テキストに含まれる文の集合から得られる部分集合の各々から、前記部分集合に含まれる単語の各々の前記収集された前記テキスト内に出現する頻度を用いて算出される前記部分集合のスコアが最大となり、かつ、前記予め定められた長さの上限K以下となる前記部分集合を選択する部分集合選択手段と、
    前記部分集合選択手段により選択された前記部分集合に含まれる文を連結して、前記入力テキストに対応する要約を生成する生成手段と、
    を含む、テキスト要約装置。
  2. 前記入力テキストは、URIが付加されている新聞記事であって、
    前記マイクロブログ収集手段は、前記マイクロブログサイトから、前記新聞記事のURIをクエリとして検索することにより、前記入力テキストに関して言及しているテキストを収集する請求項1記載のテキスト要約装置。
  3. マイクロブログ収集手段、部分集合選択手段、及び生成手段を含み、入力テキストから、予め定められた長さの上限K以下となるように、前記入力テキストの各文のうちの少なくとも1つを選択して、前記入力テキストに対応する要約を生成するテキスト要約装置におけるテキスト要約方法であって、
    前記マイクロブログ収集手段は、マイクロブログサイトから、前記入力テキストに関して言及しているテキストを収集し、
    前記部分集合選択手段は、前記マイクロブログ収集手段によって収集された前記テキストに基づいて、前記入力テキストに含まれる文の集合から得られる部分集合の各々から、前記部分集合に含まれる単語の各々の前記収集された前記テキスト内に出現する頻度を用いて算出される前記部分集合のスコアが最大となり、かつ、前記予め定められた長さの上限K以下となる前記部分集合を選択し、
    前記生成手段は、前記部分集合選択手段により選択された前記部分集合に含まれる文を連結して、前記入力テキストに対応する要約を生成する
    テキスト要約方法。
  4. 前記入力テキストは、URIが付加されている新聞記事であって、
    前記マイクロブログ収集手段によって収集することは、前記マイクロブログサイトから、前記新聞記事のURIをクエリとして検索することにより、前記入力テキストに関して言及しているテキストを収集する請求項3記載のテキスト要約方法。
  5. コンピュータを、請求項1又は2記載のテキスト要約装置を構成する各手段として機能させるためのプログラム。
JP2013244310A 2013-11-26 2013-11-26 テキスト要約装置、方法、及びプログラム Pending JP2015103101A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013244310A JP2015103101A (ja) 2013-11-26 2013-11-26 テキスト要約装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013244310A JP2015103101A (ja) 2013-11-26 2013-11-26 テキスト要約装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2015103101A true JP2015103101A (ja) 2015-06-04

Family

ID=53378738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013244310A Pending JP2015103101A (ja) 2013-11-26 2013-11-26 テキスト要約装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2015103101A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147411A (ja) * 2017-03-08 2018-09-20 株式会社Spectee データ処理装置、データ処理方法、データ処理システム及びプログラム
US11386272B2 (en) * 2018-10-31 2022-07-12 Fujitsu Limited Learning method and generating apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147411A (ja) * 2017-03-08 2018-09-20 株式会社Spectee データ処理装置、データ処理方法、データ処理システム及びプログラム
US11386272B2 (en) * 2018-10-31 2022-07-12 Fujitsu Limited Learning method and generating apparatus

Similar Documents

Publication Publication Date Title
US11017179B2 (en) Real-time in-context smart summarizer
US8972413B2 (en) System and method for matching comment data to text data
US9558264B2 (en) Identifying and displaying relationships between candidate answers
Grainger et al. Solr in action
KR20180037987A (ko) 필터링 기준과 스트리밍된 문서의 세트 내의 데이터 아이템 사이의 유사성 레벨을 식별하기 위한 방법 및 시스템
Wu et al. Searching services" on the web": A public web services discovery approach
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
TW201415254A (zh) 語意標註建議方法及其系統
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Zou et al. Assessing software quality through web comment search and analysis
JP2015103101A (ja) テキスト要約装置、方法、及びプログラム
JP5963310B2 (ja) 情報処理装置、情報処理方法、及び、情報処理プログラム
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
JP2014191777A (ja) 語義解析装置、及びプログラム
JP5739352B2 (ja) 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム
WO2015072055A1 (en) Extracting and mining of quote data across multiple languages
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP2011022809A (ja) 重要語抽出方法、装置、プログラム、記録媒体
JP2015225412A (ja) 文書要約装置、方法、及びプログラム
JP2015095180A (ja) 絞り込み検索のためのクエリ語の選択候補を明示するコンテンツ検索プログラム、装置及び方法
Levitt et al. From webometrics to altmetrics: one and a half decades of digital research at Wolverhampton
JP5575075B2 (ja) 代表的文書選択装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2012079121A (ja) マイクロブログテキスト分類装置及び方法及びプログラム
US20150169526A1 (en) Heuristically determining key ebook terms for presentation of additional information related thereto
Švec et al. Slavonic corpus for stylometry research