JP2011150515A - テキスト要約装置、テキスト要約方法及びテキスト要約プログラム - Google Patents

テキスト要約装置、テキスト要約方法及びテキスト要約プログラム Download PDF

Info

Publication number
JP2011150515A
JP2011150515A JP2010010906A JP2010010906A JP2011150515A JP 2011150515 A JP2011150515 A JP 2011150515A JP 2010010906 A JP2010010906 A JP 2010010906A JP 2010010906 A JP2010010906 A JP 2010010906A JP 2011150515 A JP2011150515 A JP 2011150515A
Authority
JP
Japan
Prior art keywords
sentence
score
text
feature
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010010906A
Other languages
English (en)
Other versions
JP5235918B2 (ja
Inventor
Hitoshi Nishikawa
仁 西川
Takaaki Hasegawa
隆明 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010010906A priority Critical patent/JP5235918B2/ja
Publication of JP2011150515A publication Critical patent/JP2011150515A/ja
Application granted granted Critical
Publication of JP5235918B2 publication Critical patent/JP5235918B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】要約を生成する場合、重要文を選択してからそれらを並べ替える方法では、どのように重要文を並び替えても読みやすい要約ができないことがある。
【解決手段】上記の課題を解決するために、本発明に係るテキスト要約技術は、2つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを記憶しておき、入力されるテキストから素性要素を抽出し、各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求め、素性要素抽出部で抽出した素性要素と重みパラメタを用いて、文の連接スコアを求め、内容性スコアと連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索して、入力されるテキストを要約する。
【選択図】図1

Description

本発明は、テキスト(文書)を要約する技術に関する。
近年、電子化されたテキストが大量に流通するようになった。そのため、それらのテキストに記述されている情報を迅速に把握するため、機械にテキストを要約させる技術が求められている。
現在、テキストを機械に要約させる際には、要約の対象となるテキストの内容を代表していると思われる文(以下、「重要文」という)をテキストから1つ以上選び出し、それらを並び替え連結することによって要約が作られることが多い。
重要文を選択する際には、何らかの方法によって、文が持つ情報にスコア(以下、「内容性スコア」という)を定義し、そのスコアに従って文を選択することがよく行われる。非特許文献1は、内容性スコアを定義する要素として文を構成する単語を用いている。
重要文を抽出したのち、それらを並び替えることによって、要約の読みやすさを向上させることができると考えられている。単一の文書を要約する際ならば、要約の対象となるテキストと同じ順序に選択した文を並べればよいが、複数の文書を要約する場合には文を適切に並び替える手段が必要となる。
重要文の抽出元のテキストが書かれた時間に従って文を並び替える従来技術として、非特許文献2が知られている。また、大規模なテキスト集合から文の並べ方を事前に学習しておき、学習の結果に従って並び替える従来技術として、非特許文献3が知られている。
Elena Filatova and Vasileios Hatzivassiloglou, "A formal model for information selection in multi-sentence text extraction", In Proceedings of the 20th International Conference on Computational Linguistics (COLING), Association for Computational Linguistics, 2004. Regina Barzilay, Noemie Elhadad and Kathleen R. McKeown, "Inferring Strategies for Sentence Ordering in Multidocument News Summarization", In Journal of Artificial Intelligence Research (JAIR), AI Access Foundation , 2002, Vol.17, Issue 1, pp.35-55. Mirella Lapata, "Probabilistic Text Structuring: Experiments with Sentence Ordering", In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), Association for Computational Linguistics, 2003, pp.545 - 552.
しかし、重要文を選択してからそれらを並べ替える方法では、どのように重要文を並び替えても読みやすい要約ができない場合があり得る。例えば、非特許文献1に記載の方法で重要文を選択し、その後非特許文献3に記載の方法で重要文を並び替えて要約を生成することを考える。そのような場合、そもそも重要文を選択する段階において、どのように並び替えても読みやすい要約とならないような重要文の組合せが選択されている可能性がある。結果として、選ばれた重要文の内容そのものは要約としてふさわしいかもしれないが、全体としては非常に読みづらい要約が生成されるという問題がある。
上記の課題を解決するために、本発明に係るテキスト要約技術は、2つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを記憶しておき、入力されるテキストから素性要素を抽出し、各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求め、素性要素抽出部で抽出した素性要素と重みパラメタを用いて、文の連接スコアを求め、内容性スコアと連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索して、入力されるテキストを要約する。
本発明は、内容性スコアが高く、かつ読みやすい重要文の並びを探索することにより、読みやすい要約を作成することができる。
テキスト要約装置100の構成例を示す図。 テキスト要約装置100の処理フロー例を示す図。 形態素データの一例を示す図。 素性ベクトルの生成方法を説明するための図。 平均化パーセプトロンを用いた学習アルゴリズムの疑似コード例を示す図。 図5のフローチャート例を示す図。 重みパラメタのデータ例を示す図。 最大値を求める際に用いるHeld and Karp Algorithmの疑似コード例を示す図。 動的計画法及びビームサーチを説明するための図。 重要文順列探索部の処理フロー例を示す図。 テキスト要約装置100のブロック図。 重みパラメタ(条件付き確率)のデータ例を示す図。
以下、本発明の実施の形態について、詳細に説明する。
<テキスト要約装置100>
テキスト要約装置100は、入力された1つ以上の文から構成される1つ以上のテキストから少なくとも1つ以上の文を選択して、入力テキストに対応する要約を生成する。図1及び2を用いて実施例1に係るテキスト要約装置100を説明する。テキスト要約装置100は、記憶部103、素性要素抽出部113、内容性スコア計算部115、連接スコア計算部117、重要文順列探索部119を有する。テキスト入力部131、要約長決定部133やテキスト出力部135を備えてもよい。
<記憶部103>
記憶部103は、2つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを予め記憶しておく。各データの生成方法については、後述する。さらに、記憶部103は入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部103に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。
<素性要素抽出部113>
例えば、テキスト入力部131(例えば、記録媒体の入力インターフェースやLANアダプタ等)からデータが入力され、素性要素抽出部113は、入力されたテキストデータから素性要素を抽出する(s113)。例えば、素性要素として、内容語(名詞、動詞、形容詞)を用いる場合には、形態素分析部113aにおいて形態素解析を行い、テキストデータを形態素単位に分割し、内容語抽出部113bにおいて内容語を抽出する。図3は、形態素データの一例であり、各行がそれぞれ一形態素に対応し、形態素の表記、品詞、読み、標準形等の情報を有する。なお、<EOS>は文境界を示す。
<内容性スコア計算部115>
内容性スコア計算部115は、各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求める(s115)。例えば、文要素として、素性要素を用いる場合には(本実施例では素性要素は内容語)、素性要素抽出部113の出力を、入力とし、内容性スコア計算部115は、入力される内容語に基づき、記憶部103からその内容語に対する文要素スコアを取得し、文に含まれる全ての内容語に対する文要素スコアの和を求める。この和を内容性スコアとし、以下の式で表すことができる。但し、Content(s)は文sの内容性スコアを、Weight(p)は文sが含む内容語pの文要素スコアを表す。
Figure 2011150515
[文要素スコアの算出方法]
各内容語の文要素スコアは、予め記憶部103に記憶しておく。テキスト要約装置100は、例えば、図示しない文要素スコア計算部を有し、文要素スコアを求める。文要素スコアとして、例えば要約の対象とするテキスト中において該単語が出現する回数などを用いることができる。
また例えば、文要素スコア計算部は、予め文要素スコア学習用のテキスト集合を用いて、テキスト集合に含まれる文要素から文要素スコアを求める。例えば、文要素スコア計算部は、予め文要素スコア学習用のテキスト集合を用いて、文要素を含む文の数を数え、その数cntを記録したデータベースを用いて、文要素スコアを求める。
例えば、文要素スコア計算部は、学習用テキスト集合内に、多い文要素ほど重要である場合には、その数cntが大きいほど文要素スコアが大きくなるように文要素スコアを算出する。この場合、文要素スコアはその数cnt自体や、cntの対数等である。また、学習用テキスト集合内に、多い文要素ほど重要でない場合には、その数cntが大きいほど文要素スコアが小さくなるように文要素スコアを算出する。この場合、文要素スコアはテキスト集合に含まれるテキストの数をその数cntで割った値や割った値の対数等である。このような構成とすることによって、要約対象の文の集合に対して適切な内容性スコアを算出することができる。
もちろん、文要素として評価情報等の情報抽出の結果を用いることもできる。その場合、上述した内容語の代わりに「画質がよい」「料理がおいしい」などといった何らかの対象を評価している文言に対して文要素スコアを与え、それらに基づいて文に内容性スコアを与えることができる。
<連接スコア計算部117>
連接スコア計算部117は、素性要素抽出部で抽出した素性要素と重みパラメタwを用いて、2つの文の連接スコアを求める(s117)。2つの文の連接スコアは、その2つの文の繋がりの良さを示す値である。
例えば、「昨日ご飯を食べました」という文と「しかしあまりおいしくありませんでした」という文があったとする。この2つの文は「昨日ご飯を食べました」「しかしあまりおいしくありませんでした」という並びで現れるならば自然であるが、「しかしあまりおいしくありませんでした」「昨日ご飯を食べました」という並びで現れると非常に不自然である。これは「しかしあまりおいしくありませんでした」という文が、暗黙のうちに前の文で食事に関する話題が出現していることを前提にしているからである。
同様に、複数の文を繋ぎ合せて要約を生成する場合、文を適切に並び替えることができなければ、生成された要約は非常に読みづらく不自然なものになる場合がある。
仮に、文の繋がりの良さにスコアを与えることができ、「しかしあまりおいしくありませんでした」「昨日ご飯を食べました」という文の並びよりも、「昨日ご飯を食べました」「しかしあまりおいしくありませんでした」という並びの方に高いスコアを与えることができれば、スコアに従って文を並び替えることができる。つまり、仮に2つの文siとsjを与えられたときには、si、sjの順序と、sj、siの順序それぞれのスコアを計算し、スコアが高い順序を採用する。
そこで、まず、連接スコアを定義する。本実施例では一例として、文siの次に文sjが現れる場合の連接スコアを以下の関数Connect(sj|si)で定義する。
Connect(sj|si)=wTφ(si,sj) (2)
ここで、wは上述した重みパラメタであり、φ(si,sj)は文siと文sjの繋がりを表すバイナリベクトル(以下「素性ベクトル」という)であり、Tは転置を表す。wφ(si,sj)はwとφ(si,sj)の内積である。重みパラメタwは、一例として後述する方法によって事前に計算され、記憶部103に格納され、要約を行う際には記憶部103から呼び出される。
連接スコア計算部117は、例えば、素性ベクトル生成部117aと計算部117bを備える。
(素性ベクトル生成部117a)
素性ベクトル生成部117aは、2つの文si、sjが含む素性要素の直積集合の各要素を該2つの文の素性とし、求めた素性に対応する次元を1とし、他の次元を0とする素性ベクトルφ(si,sj)を生成する。
2つの文の繋がりを表わす素性ベクトルは、一例として、2つの文が含む内容語(名詞、動詞、形容詞)の直積集合として与えられる。図4を用いて説明する。文siが「昨日ご飯を食べました」という文、文sjが「しかしあまりおいしくありませんでした」という文であったとする。文siには「昨日」「ご飯」「食べ」という内容語が含まれ、文sjには「おいし」「あ」という内容語が含まれる。これらの直積集合は図4に示すように「昨日」「おいし」、「昨日」「あ」、「ご飯」「おいし」、「ご飯」「あ」、「食べ」「おいし」「食べ」「あ」の6つの単語の組となる。素性ベクトルφ(si,sj)はこれらの6種類の素性に対応する次元が1となっているバイナリベクトルである。素性ベクトルの次元は、素性の刈り込みを行わなければ、学習の際に用いるテキスト集合中に現れる素性の数と同数となる。そのため実際には遥かに高次元なベクトルとなるが、図4では簡単のため図に示した6種類の素性に対応する6次元のベクトルとしている。素性としては上に示したもの他にも、一例として、単語間の係り受けや固有表現などを用いることもできる。なお、素性の刈り込みとは、重みパラメタを算出する際に、文の繋がりの良さを示すパラメタとして、あまり重要でないと思われる素性については、削除し、素性の数を減らす処理のことである。
(計算部117b)
計算部117bは、重みパラメタwと素性ベクトルφ(si,sj)の内積を、2つの文の連接スコアConnect(sj|si)として求める。つまり、重みパラメタと素性ベクトルを用いて、式(2)の計算を行う。
(3つ以上の文の連接スコアの算出部)
連接スコア計算部117は、2つの文の連接スコアConnect(sj|si)を用いて、3つ以上の文の並びの連接スコアwΦ(x,y)を求める(s117)。この場合、連接スコアとは、3つ以上の文の集合の全体的な繋がりの良さを表す。xは与えられた文の集合を表し、yは文の並びを現す。
例えば文s1、s2、s3が与えられたとき、これらには6通りの並べ方がある。この6通りの並べ方のうち、最も文の並びの連接スコアが高い並びを、与えられた3つの文の並びとする。そのためには3つ以上の文の並びの連接スコアを計算する必要があるが、ここでは、3つ以上の文の並びを2つの文の並びに分解し、分解された2つの文の連接スコアの和を3つ以上の文の並びの連接スコアとする。3つ以上の文の並びの連接スコアwΦ(x,y)を以下のように定義する。
Figure 2011150515
yは文の並びを表わすもので、この例では、与えられた文の集合x={s1,s2,s3}がs2、s3、s1の順に並べられていることを表す。加えて、s0とs4はそれぞれ文書の頭と末尾を表わすもので、即ち文s2が3つの文の先頭に、文s1が3つの文の末尾にあることを示している。s0とs4を導入することで、文書の先頭になりやすい文や、末尾になりやすい文を考慮することが可能になる。
[重みパラメタの算出方法]
重みパラメタwの算出方法について説明する。ここで、人間によって書かれたテキストの文の並びを正解として、その文の並びを再現することができる重みパラメタwがよいパラメタであるという仮定を置く。つまり、文の集合が与えられたとき、それらを読みやすく並べることができるパラメタwは、人手で書かれたあるテキストに含まれる文の集合が与えられたとき、それを元の並びに復元できる、あるいは元の並びに近い並びに並べることができるという仮定を置く。この仮定の下、人手によって書かれたテキスト集合から、パラメタwを推定する。重みパラメタwは、一例としてテキスト集合から図5及び図6に示すアルゴリズムで計算することができる(参考文献1参照)。
[参考文献1]Michael Collins, “Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms”, In Proceedings of the 2002 Conference on Empirical Methods on Natural Language Processing (EMNLP), Association for Computational Linguistics, 2002, Volume 10, pp.1 - 8
テキスト要約装置100は、例えば図示しない重みパラメタ算出部を有し、重みパラメタを求める。重みパラメタ算出部は、Q個のx(文の集合)と各文の集合に対する正しい文の並びyの組からなる訓練データτを入力され、図5に示すアルゴリズムは重みパラメタwを学習する。但し、q=1,2,…,Qである。具体的には、Q個の訓練事例を一つずつ取り上げ、現在のwを用いてx内の文を並べる(図5の4行目)。現在の重みパラメタwを用いて得られる、可能な文の並びのうち連接スコアwΦ(x,y)が最大の文の並びy’を求める(図5の4行目のargmax操作)。argmax操作の詳細については後述する。y≠y’の場合(つまり、連接スコアwΦ(x,y)が最大の文の並びと正しい文の並びが異なる場合)、現在の重みパラメタwでは、正しい並びを再現することができなかったことになる。その時は重みパラメタwを更新し、正しく文を並び替えることができるようにする(図5の5行目)。現在のパラメタwで正しい並びを再現することができたのならば、重みパラメタは更新しない(図5の6行目)。
これをQ個の訓練データに対し行い、さらに、それをN回繰り返すことによって重みパラメタwを更新し、ある瞬間の重みパラメタwの和vを、wを足した回数であるN×Qで割ることによって平均化し、これを最終的な重みパラメタwとし(図5の9行目)、記憶部103に格納する。なお、Nは求めようとする重みパラメタwの性質により異なり、重みパラメタwの算出に先立ち、実験等により適宜求めることができる。また、訓練データτは、文書の頭と末尾、文境界が明示された任意のテキストである。もちろん、要約の対象とするテキストのジャンルと同一ジャンルのテキストのみからパラメタwを学習するなどの工夫をしてもよい。一例として、推定された重みパラメタを図7に示す。図7に示された素性の列が図4に示した素性と対応しており、重みの列が該素性の重みパラメタである。図7によれば、文を並べる際に、「料理」という語を含む文の後には「野菜」、「油」、「友達」といった語を含む文を並べた方が正しい並びとなりやすい。一方、「料理」という語を含む文の後に「夜景」「優雅」という語を含む文を並べると誤りとなりやすい。
(argmax操作)
argmax操作は、文の集合xに含まれる文を用いて可能な文の並びのうち連接スコアが最大となる文の並びy’を求める。これはいわゆる巡回セールスマン問題であり、厳密解を短時間で求めることが難しい。例えば、Q!通りの文の並びから最も連接スコアの高い文の並びを求める必要があり、Qの値が大きくなるに従い、指数的に計算量も増大する。
そのため、一例として、動的計画法とビームサーチを用いて近似解を求め、argmax操作を代替することができる。具体的には、一例として、動的計画法の一種であるHeld and Karp Algorithmを用いる(参考文献2参照)。Held and Karp Algorithmによる文の並びの近似解の探索を図8に示す。
[参考文献2]Michael Held and Richard M. Karp, “A dynamic programming approach to sequencing problems”, In Journal of the Society for Industrial and Applied Mathematics (SIAM), 1962, Vol.10, No.1, pp.196-210
Sは並び替えの対象とする文の集合であり、うちs0を文書の頭を示すもの、s(Q+1)を文書の末尾を示すものとする。すなわち、s0から出発し、s1からsQまでの文を必ず一度通過し、s(Q+1)に到着する全ての経路のうち最もスコアが高い経路を探索する問題となる。MはSに含まれる全ての文の間の連接スコアを格納した行列である。例えばMk,jは文skとsjの連接スコアを示し、即ちwφ(sk,sj)に相当する。H(C,sk)は、既にC⊆Sを通過し、i時点で文skを追加した仮説および該仮説のスコアである。Hは最も文の並びの連接スコアの高い経路である。
Held and Karp Algorithmは、文を並べる際に、最後に選ばれた文と、順序は関係なくそれまでに選ばれた文が同じである仮説が複数ある場合、スコアが最も高い仮説を除く全ての仮説を破棄することによって効率的に探索を行うものである(図8の5行目)。例えば、図9の破線で表す文の並びs1、s2、s3とs2、s1、s3は最後がs3であり、それまでに選ばれた文も同様であるため、これら2つの仮説を両方とも展開する必要はない。例えば、s2、s1、s3の連接スコアが高い場合には、この文の並びに係る仮説のみを展開し、s1、s2、s3に係る仮説は破棄すればよい。
しかし、それでも依然探索空間は広大であるため、i時点において連接スコアが高い上位b件の仮説のみを、展開し、i+1時点の仮説とする(ビームサーチ、図8の4行目)。つまり、上位b件以外の仮説を破棄する。例えば、図9の一点鎖線で表す文の並びs3、s1、s2がi=3時点において、上位b件以内でなければ、この仮説について、i=4以降において展開する必要はない。これにより探索空間を大幅に狭めることができる。これにより、さらに効率的に近似解を探索することができる。
例えば、Q=100とし、b=20としHeld and Karp Algorithmを用いない場合、i=1時点において、生成される100個の仮説のうち、上位20件の仮説のみを展開する。よって、上位20件に対し、それぞれ99件の仮説が展開される。その結果、生成される1980件の仮説のうち、また上位20件の仮説のみを展開するだけでよい。ビームサーチを行わない場合には、100件に対し、それぞれ99件の仮説が展開される。その結果生成される9900件の仮説に対し、それぞれ98件の仮説を展開する。この処理をi=Q時点まで繰り返すため、ビームサーチを用いる場合に比べ演算量が膨大となる。
なお、argmax操作は、重みパラメタwを求める処理の中で行われ(図5の4行目)、その操作中に連接スコアMを用いるが(図8参照)、この連接スコアはargmax操作呼出し時の(更新中の)重みパラメタを用いて、式(2)等を用いて求める。
<重要文順列探索部119>
重要文順列探索部119は、内容性スコアと連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索する(s119)。
重要文順列探索部119は、内容性スコア計算部115で求めた内容性スコアと、連接スコア計算部117で求めた連接スコアを入力とする。要約長Kは、要約長決定部133で求め重要文順列探索部119の入力としてもよいし、要約作成者が所望の要約サイズをキーボード等から重要文順列探索部119に入力してもよい。また、要約長決定部133に予め所定の値として記憶しておいてもよい。要約の制限サイズKは、例えば、選ぼうとしている文の数、文の長さ(バイト数)、文の含む単語数、文字数などから要約作成者等が適宜設定する。
重要文順列探索部119は、連接スコアと内容性スコアを元に、要約の対象とするテキストに含まれる文の並びを、要約の要約長K以内から探し出す。
は内容性スコアと連接スコアの和が最大値、または、最大値の近似値である文の並びとし、Uは要約の対象とするテキストから構成可能な文の並びの全て、SはUに含まれる任意の並びの一つとする。文を選び出す際には単純に文を選ぶのではなく、内容性スコアと、連接スコアの2点を考慮し、最良の文の並びSを、Uから選び出す。一例として、Sは以下のように定義できる。
Figure 2011150515
λは内容性スコアと連接スコアのどちらを重視するか制御するパラメタである。(si,sj)∈Sは、文の並びSにおいて隣接する文siとsjのうち、siがsjの前に現れることを示している。length(S)は文の並びSの長さを示す。
最良の要約Sは、Sが含む全ての文sの内容性スコアContent(s)の合計ΣContent(s)と、それらの文のうち隣接する文間の連接スコアConnect(sj|si)の合計ΣConnect(sj|si)の和が最大のものである。なお、内容性スコアと連接スコアの和の最大値とは、argmax[ΣContent(s)+ΣConnect(sj|si)]だけでなく、λを用いて調整される値argmax[ΣContent(s)+λΣConnect(sj|si)]をも含む。
しかし、このようなSを求める問題、即ち式(4)のargmax操作を行う問題も厳密解を短時間で求めることが難しい。これに対処するため、重みパラメタwを学習する際と同様に、動的計画法とビームサーチを用いて探索を行い、近似解を求める。具体的には、図8のH(C,sk)を連接スコアと内容性スコアの和を表わすものとし(wを学習する際には連接スコアのみを表わす)、この和の高い仮説のみを順次展開するようにする。一方、wを学習した際とは異なり、要約サイズの制限があるため、全ての文を並べる必要はない。そのため、図8に示したHeld and Karp Algorithmとビームサーチを用い探索を行いつつ、いかなる文を追加しても要約サイズを超える仮説は展開を停止し要約候補として別途保存しておく。そして、全ての仮説を展開し終わった後、保存された要約候補の中から最もスコアが高いものを選ぶことによって近似解を得ることができる。
以下、図10を用いて重要文順列探索部119の処理例について説明する。時点iにおけるH(i)個の文の並びの集合をS(i)={S(i,1),S(i,2),…,S(i,H(i))}とする。要約元となるテキストにはQ個の文が含まれ、その集合をZ={s1,s2,…,sQ}と表す。
まず、初期設定を行う(s119a)。i時点の文の並びのS(i,h)が文sqを既に網羅しているか否か判定し(s119b)、網羅していない場合には、S(i,h)に文sqを追加し、文の並びS(i+1,k)を生成する(s119c)。S(i+1,k)の大きさが要約サイズK以下か否かを判定し(s119d)、大きい場合には、文sq追加前の文の並びS(i,h)を保存する(s119e)。以降、この文の並びS(i+1,k)に対する仮説の展開は行わない。例えば、図9において、一点鎖線で表される文の並びS3,S1に対し、S2を追加したときに、要約サイズKを超える場合には、文の並びS3,S1を保存し、文の並びS3,S1,S2に対する仮説の展開は行わない。
この処理をi時点の文の並びS全てに対して行い(s119g、h)、さらに、要約元となるテキストに含まれる全ての文に対して行う(s119i,j)。
生成された文の並びの集合S(i+1)={S(i+1,1),S(i+1,2),…,S(i+1,k)}に含まれる各文の並びの内容性スコアと連接スコアの和sumを求める(s119k)。k’=1,2,…,kとし、各文の並びの内容性スコアをContent(S(i+1,k’))とし、連接スコアをConnect(S(i+1,k’))とすると、
Figure 2011150515
と表すことができる。全てのk’に対応するsum(S(i+1,k’))を求め、最後に追加した文が同一であって、かつ、既に網羅した文の集合が同一の文の並びが存在するか否か判定し、存在する場合には、存在する文の並びの中でsum(S(i+1,k’))が最大か否か判定し(s119m)、最大でない場合には、対応する仮説を破棄する(s119n)。その上で、各sumの値が上位b件に属するか否か判定し(s119p)、属さない場合には対応する仮説を破棄する(s119n)。以降、破棄した文の並びに対する仮説の展開は行わない。
iを更新し(s119q)、上記処理(s119b〜s119q)を繰り返し、通常、Kは要約元のテキストの大きさよりも小さいので、要約元のテキストに含まれる文の全てを並べる前に、全ての仮説は破棄されるか、保存される。そして、保存された仮説の中から最も大きいsumに対応する文の並びをSとする。
テキスト出力部135は、重要文順列探索部119で選ばれた文の並びSを要約として出力する。
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムあるいは図2のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
<効果>
本実施例のテキスト要約装置100によれば、内容性スコアが高く、かつ読みやすい重要文の並びを見つけ出すことができ、要約として十分な情報を保持することができ、単に重要文を選択しその後にそれらの文を並び替えた要約よりも読みやすい要約を作成することができる。
<変形例>
テキスト入力部は、キーボードや通信回線を介してテキストデータを入力されてもよい。
素性要素は、必ずしも形態素単位である必要はなく、文節等、素性を構成することができる単位であればよい。
内容性スコア計算部115は、素性要素とは異なる単位を文要素(例えば、単語等)としてもよい。その場合、素性要素抽出部113の出力を入力とするのではなく、自身の備える文要素抽出部において、入力されたテキストデータから文要素を抽出する。
文要素スコア及び重みパラメタは、他の方法を用いて求めてよいし、他の装置で予め求めたものを記憶部103に記憶してもよい。
重要文順列探索部119は、他に、冗長性を削減する工夫を行うこともできる。式(1)と式(4)によれば、同一の内容語や情報抽出の結果がSに含まれていた場合、それらは何度も内容性スコアに加算される。しかし、一般に、要約に同一の情報が何度も現れることは好ましくないため、同一の内容語や情報抽出の結果は一度しか内容性スコアに加算されない工夫を行うことによって、要約に同一の情報が何度も含まれることを防ぐことができる。
連接スコア計算部117が3つ以上の文の並びの連接スコアwΦ(x,y)を求めているが、連接スコア計算部117は2つの文の連接スコアConnect(sj|si)のみを求め、出力し、重要文順列探索部119で3つ以上の文の並びの連接スコアwΦ(x,y)を求める構成としてもよい。
また、連接スコア計算部117は、2つの文の連接スコアConnect(sj|si)から3つ以上の文の並びの連接スコアwΦ(x,y)を求めているが、3つ以上の文から連接スコアを求め、その連接スコアを用いて、文の並びの連接スコアを求める構成としてもよい。例えば、Connect(sn|si,s(i+1),…,s(n−1))とし、文si,s(i+1),…,s(n−1)の次に文snが続く場合の連接スコアを求める。この場合、重みパラメタ等をこれに併せて適宜設定する。
重みパラメタを算出する際や、重要文順列探索部119において、ビームサーチを用いる場合に、bの値は、テキスト要約装置の演算性能等を加味して適宜設定すればよい(例えば、b=1〜1000)。また、時点iにより、その数を変更してもよい。例えば、iの増加に従い、bを減少させる構成としてもよい。iが大きくなるにつれ、一つの仮説から展開できる仮説の数は少なくなるため、演算量を調整することができる。また、bの値は、定数ではなく、例えば、要約元となるテキストに含まれる文の数Qに応じて変更してもよく、b=Q×0.1等としてもよい。
また、重みパラメタを算出する際や、重要文順列探索部119において、必ずしもビームサーチと動的計画法を用いなくともよい。また、何れか一方のみを用いても、効率化を図ることは可能である。また、他の方法を用いて高いスコアを効率的に求めてもよい。
要約長決定部133は、テキスト入力部135を介して、要約元となるテキストデータ、または、その大きさ(キロバイト)が入力され、その大きさに応じて要約長を決定する。例えば、要約したテキストデータが、要約元となるテキストデータの大きさの5%〜20%以下の大きさとなるように、要約長を決定する。
<シミュレーション結果>
本シミュレーションでは、テキスト要約装置100を用いて作成した要約を内容性と可読性の観点から評価する。シミュレーションのため、ある個人が特定の飲食店を利用した感想が記述された1つ以上のテキスト(以下、評価文書という)に対してテキスト要約装置100を用いて要約を行う。文要素として、評価情報を用いて、内容性スコアを以下のように定義する。
Figure 2011150515
eはSに含まれる評価情報、f(e)は要約の対象とするテキストにおいて評価情報eが現れる回数とする。すなわち、要約の内容性スコアは、文の順列Sが含む評価情報の文要素スコア(この場合は要約の対象とする文書における出現回数)の和とする。但し、Sに同一の評価情報が2つ以上含まれていたとしても、その評価情報に関しては1度しか内容性スコアに加算しない。このことによって、内容性スコアの高い要約の順列を探索する過程において冗長な要約の内容性スコアは相対的に低下するため、冗長な要約が生成されづらくなる。
評価情報eは評価属性aと評価極性p={+1,0,−1}の組e=<a,p>として定義する。評価属性aは何らかの対象を評価する際の観点であり、評価極性はどのような評価を行ったのかを示す指標である。評価対象に対して評価属性が示す観点において、ポジティブな評価が行われている場合評価極性は+1とし、ネガティブな評価が行われている場合は−1、どちらでもない場合は0とする。上述した「料理がおいしい」という評価情報を例とすると、この評価情報の評価属性は「料理」であり、評価極性は+1である。評価対象については、今回は特定の評価対象に紐付いた文書を要約の対象とするため、抽出される評価情報は全て特定の評価対象に対するものとし、抽出しない。
複数の評価文書を要約の対象とするため、要約に矛盾した評価情報が含まれる可能性がある。このため、同一の評価属性を持つが矛盾する評価極性を持つ評価情報(例えば<料理,+1>と<料理,−1>)は同時に要約に含まれないようにした。
評価情報に抽出については、本シミュレーションでは、パタンマッチによる評価情報抽出器を作成し利用する。まず文に対し係り受け解析を行い(参考文献3参照)、係り受け木に対しパタンマッチを行い評価表現を含む文節を特定する。
[参考文献3]今村賢治. 「系列ラベリングによる準話し言葉の日本語係り受け解析」, 言語処理学会第13 回年次大会発表論文集, 2006, pp.548-551
評価表現は、「おいしい」「美しい」などの評価の核となる表現である。評価表現は、参考文献4記載の評価表現辞書を用いて特定する。
[参考文献4]浅野久子,平野徹,小林のぞみ,松尾義博, 「Web上の口コミを分析する評判情報インデクシング技術」, NTT技術ジャーナル,2008, Vol.20, No.6, pp.12-15
評価表現を含む文節が特定されたら、その文節にガ格やハ格、モ格で係る文節、連体修飾の場合はその文節が係る文節を評価属性として抽出する。評価極性は評価表現毎に評価表現辞書に登録されているため、評価属性と評価極性の組が得られる。
なお、同義関係にある評価属性がある場合には冗長な要約が生成される恐れがある。そのため、抽出した評価属性の集合をクラスタリングし、距離の近い評価属性は同一のものとして扱う。
評価文書は、飲食店に対する感想が多く投稿されているWebサイトから100店舗に紐付く2940文書を収集した。1店舗に紐付いている文書の平均サイズは5343バイトであるため、それぞれの店舗に対して300バイトの要約を生成する場合、要約率は約6%となる。
(内容性の評価結果)
内容性の評価にはROUGEを用いる(参考文献5参照)。
[参考文献5]Chin-Yew Lin, "ROUGE: A Package for Automatic Evaluation of Summaries", In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL) Workshop: Text Summarization Branches Out, 2004, pp. 74-81
本シミュレーションではROUGE-2、ROUGE-SU4、ROUGE-SU9を利用した。評価に際しては評価文書を4名の作業者に要約させ、各店舗に4つの参照要約を付与した。システム要約のROUGEスコアは4つの参照要約とのROUGEスコアの平均を取ったものである。ROUGEに用いるNグラムは、ROUGE-2、ROUGE-SU4、ROUGE-SU9何れも全ての単語を用いてNグラムを計算した。また、Nグラムを計算する際には、参照要約、システム要約共に文に分割した後にNグラムを計算するのではなく、それぞれを1つの長い文と見なしてNグラムを計算した。これによって、ROUGE-SU4やROUGE-SU9といった2つの単語の長距離の並びを考慮する尺度を用いて文間の単語の並びを考慮することができるようになる。本シミュレーションでは以下の4種類の手法を評価する。
(1)表層
文のスコアとして内容語のスコアの和を用いる。内容語のスコアは、要約の対象とする文書セット中の単語頻度とした。重要文を選ぶ際にはMMRを用いて冗長性を排除しつつ貪欲に文を選択する(参考文献6参照)。
[参考文献6]Jaime Carbonell and Jade Goldstein, "The use of MMR, diversity-based reranking for reordering documents and producing summaries", In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 1998, pp. 335-356
MMRの類似度にはコサインを用い、新しく選ぶ文の重要度と、既に選んだ文との類似度のトレードオフを制御するパラメタは0.5とした。これをBaselineとする。
(2)表層+組合せ最適化(連接性スコアなし)
Baselineと同様に内容語のスコアを用いる。重要文を選ぶ際にはMMRによる貪欲法ではなく組合せ最適化を用い、スタック・デコーダを用いて探索を行った(参考文献7参照)。
[参考文献7]Wen-tau Yih, Joshua Goodman, Lucy Vanderwende and Hisami Suzuki, "Multi-Document Summarization by Maximizing Informative Content-Words", In Proceeding of the 20th International Joint Conference on Artificial Intelligence (ICJAI), 2007, pp. 1776-1782
冗長性の削減のため、各内容語は1度しか要約のスコアに加算されないようにした。これをMethod1とする。スタックのサイズは10とした。
(3)評価情報+組合せ最適化(連接性スコアなし)
式(4)においてλ=0とした。探索にはMethod1同様スタック・デコーダを利用した。これをMethod2とする。
(4)評価情報+組合せ最適化(連接性スコアあり)
本実施例を用いた手法である。連接性スコアの重みパラメタwは以下のようにして学習する。まず100店舗を20店舗にランダムに分割する。要約を生成する店舗が含まれていない80店舗に紐付く文書と、100店舗とは別の、150店舗に紐付く評価文書を収集し、合計230店舗分の文書からwを学習する。λは開発セットで調整し、6000とし、ビーム幅bは100とした。これをMethod3とする。
なお、人間の要約のパフォーマンスを調べるため、参照要約間のROUGEスコアを計算する。具体的には、4つの参照要約のうち、何れか1つと残りの3つに対してROUGEスコアを計算する。これを4つの参照要約それぞれに行い、平均を取る。これをHumanとする。
結果を以下に示す。
Figure 2011150515

全ての尺度において、Baseline、Method1、Method2、Method3の順にスコアが向上するが、Humanには及ばない。ウィルコクソンの符号順位検定によれば、Baselineに対し他の全ての手法は有意にROUGEスコアが向上している。
連接性スコアのROUGEへの効果を議論する。Method2とMethod3を比較すると、全ての尺度においてROUGEスコアが向上している。ROUGE-SU4やROUGE-SU9といった尺度は長距離の単語の並びを考慮するため参照要約に近い文の並びを持つシステム要約に高いROUGEスコアを与えられると考えられる。そのためMethod3がこれらの尺度においてスコアが高いことは直観的である。一方、Method3はROUGE-2スコアも他の手法より高い。これは、連接性を考慮すると、内容性のみよりも適切に文を選択できることを示唆している。
(可読性の評価結果)
可読性は被験者実験にて評価した。前述の100店舗に紐付く評価文書に対し3種類の方法で要約を生成し、計300のシステム要約を用意した。10名の被験者を用意し、1人の被験者に30のシステム要約を評価させた。評価方法は提示されたシステム要約に対し5段階の評価(1点から5点)を与えるものである。被験者には、実験前に要約の品質の評価基準を提示し、評価基準に従って要約を評価するように指示した。また、被験者には要約を生成した手法は通知されない。比較の対象とするシステム要約は以下の3種類である。
(1)文を選んだ後、文番号順に並び替え
内容性評価におけるMethod2を用いて文を選んだ後、文が抽出された文書の投稿日時が新しく、かつ文書において先頭に出現する文が前になるように並べ替える。これをMethod2とする。
(2)文を選んだ後、連接性スコアを用いて並び替え
内容性評価におけるMethod2を用いて文を選んだ後、前述した連接性スコアを用いて文を並び替える。これをMethod2+とする。
(3)順列を探索
本実施例記載の提案手法である。文を選んだ後にそれらを並び替えるのではなく、最初から順列を探索する。これをMethod3とする。評価の結果を表3に示す。
Figure 2011150515

Method2、Method2+、Method3の順に可読性が向上した。ウィルコクソンの符号順位検定にて検定を行ったところ、Method2とMethod2+に有意差は見られず、Method2とMethod3はp<0.10で有意であった。このことから、まず文を選んだ後に文を並び替えるという方法では必ずしも可読性は向上せず、最初から文の並びを考慮した場合には可読性が向上すると考えられる。
可読性が向上した要因として、要約に含まれる文数の変化が考えられる。Method2およびMethod2+が平均7.23文で構成されるのに対し、Method3は平均6.52文である。この差はp<0.01で有意である。すなわちMethod2及びMethod2+は短い文を選択しやすく、結果としてリストのような要約が生成されることが多く読みづらいが、Method3ではより長い文が選択されやすく、読みやすさが向上したと考えられる。また、全てのシステム要約において、同一の文書の中で隣接していた文がそのままの形で並んでいる回数は、Method2が0回であったのに対しMethod3は12回であった。このことから、連接性を考慮し文を選択することによって、文よりいくらか広い単位で元の文書から情報が抽出されることが増え、結果として要約の可読性が向上したということも考えられる。
<ハードウェア構成>
図11は、本実施例におけるテキスト要約装置100のハードウェア構成を例示したブロック図である。図11に例示するように、この例のテキスト要約装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース、ディスプレイ、プリンタ等である。補助記憶装置14は、例えば、ハードディスク、半導体メモリ等であり、テキスト要約装置100としてコンピュータを機能させるためのプログラムや各種データが格納される。また、RAM16には、上記のプログラムや各種データが展開され、CPU11等から利用される。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
<プログラム構成>
上述のように、補助記憶装置14には、本実施例のテキスト要約装置100の各処理を実行するための各プログラムが格納される。テキスト要約プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
<ハードウェアとプログラムとの協働>
CPU11は、読み込まれたOSプログラムに従い、補助記憶装置14に格納されている上述のプログラムや各種データをRAM16に展開する。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図1は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成されるテキスト要約装置100の機能構成を例示したブロック図である。
ここで、記憶部103は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、素性要素抽出部113、内容性スコア計算部115、連接スコア計算部117及び重要文順列探索部119は、CPU11にテキスト要約プログラムを実行させることにより構成されるものである。
<テキスト要約装置200>
図1及び図12を用いて実施例2に係るテキスト要約装置200を説明する。テキスト要約装置100とは、連接スコア計算部217の構成及び記憶部203の記憶するデータが異なる。
<連接スコア計算部217>
連接スコア計算部217は、素性ベクトル生成部117aを有さず、計算部217bのみを備え、連接スコアを非特許文献3記載の方法を用いても計算する。その場合、一例として、連接スコアは以下のように定義できる。
Figure 2011150515
fikは文siのk番目の素性要素、fjmは文sjのm番目の素性要素である。これはそれぞれ図4の文si、文sjから抽出された素性要素に対応する。p(fjm|fik)は、即ち素性要素fjmが、素性要素fikが与えられた状態で出現する確率である。式(5)によれば、連接スコア計算部217は、文siと文sjの連接スコアとして、それぞれの文の素性要素の直積集合(si,sj)の、各条件付き確率p(fjm|fik)の総積を、直積集合の濃度で正規化したものを求める。p(fjm|fik)は一例として以下のように計算できる。
Figure 2011150515
ここでC(fik,fjm)は素性要素fikと素性要素fjmが、上述の訓練データτ中の隣接する文において、素性要素fikが前の文に、素性要素fjmが後の文に現れる回数である。分母は素性要素fikが訓練データτにおいて現れる数である。式(5)を連接スコアとして用いる場合、例えば、図示しない重みパラメタ算出部は、訓練用データτを用いて、各数をカウントし、式(6)により各条件付き確率を求め、重みパラメタとして、記憶部203に記憶する。図12に推定した条件付き確率の一例を示す。素性の列の左側が素性要素fikに対応し、右側が素性要素fjm、条件付き確率の列がp(fjm|fik)に対応する。
このような構成とすることで、実施例1と同様の効果を得ることができる。
100,200 テキスト要約装置
103,203 記憶部
113 素性要素抽出部
115 内容性スコア計算部
117,217 連接スコア計算部
119 重要文順列探索部

Claims (10)

  1. 入力されるテキストを要約するテキスト要約装置であって、
    2つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを記憶する記憶部と、
    入力されるテキストから素性要素を抽出する素性要素抽出部と、
    各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求める内容性スコア計算部と、
    前記素性要素抽出部で抽出した素性要素と前記重みパラメタを用いて、文の連接スコアを求める連接スコア計算部と、
    前記内容性スコアと前記連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索する重要文順列探索部とを有すること、
    を特徴とするテキスト要約装置。
  2. 請求項1記載のテキスト要約装置であって、
    前記重要文順列探索部は、文の並びを探索する際に、ある時点において選ばれた文が同じであって、かつ、順序は関係なくその時点までに選ばれた文が同じである仮説が複数存在する場合、その時点までの前記内容性スコアと前記連接スコアの和が最も高い仮説を除く全ての仮説を破棄すること、
    を特徴とするテキスト要約装置。
  3. 請求項1または2記載のテキスト要約装置であって、
    前記重要文順列探索部は、文の並びを探索する際に、ある時点における仮説のうち、その時点までの前記内容性スコアと前記連接スコアの和が高い所定数の仮説のみを展開すること、
    を特徴とするテキスト要約装置。
  4. 請求項1から3の何れかに記載のテキスト要約装置であって、
    前記連接スコア計算部は、2つの文が含む素性要素の直積集合の各要素を該2つの文の素性とし、求めた素性に対応する次元を1とし、他の次元を0とする素性ベクトルを生成する素性ベクトル生成部と、
    前記重みパラメタと前記素性ベクトルの内積を、2つの文の連接スコアとして求める計算部を備えること、
    を特徴とするテキスト要約装置。
  5. 請求項4記載のテキスト要約装置であって、
    前記重みパラメタは、文の集合xとその文の集合の正しい並びyの組からなる学習用データτを用いて、算出され、
    文の集合xに対し、その時点の重みパラメタを用いて連接スコアの和が最大値、または、最大値の近似値となる文の並びy’を求め、yとy’が異なる場合には、yとy’を用いて重みパラメタを更新すること、
    を特徴とするテキスト要約装置。
  6. 請求項5記載のテキスト要約装置であって、
    連接スコアの和が最大値、または、最大値の近似値となる文の並びy’を求める際に、ある時点における仮説のうち、その時点までの前記連接スコアの和が高い所定数の仮説のみを展開し、さらに、ある時点において選ばれた文が同じであって、かつ、順序は関係なくその時点までに選ばれた文が同じである仮説が複数存在する場合、その時点までの前記連接スコアの和が最も高い仮説を除く全ての仮説を破棄すること、
    を特徴とするテキスト要約装置。
  7. 請求項1から3の何れかに記載のテキスト要約装置であって、
    前記重みパラメタは、学習用データτを用いて算出され、文sjのm番目の素性要素fjmが、文siのk番目の素性要素fikが与えられた状態で出現する条件付き確率p(fjm|fik)であり、
    前記連接スコア計算部は、2つの文の素性要素fjm、fikの直積集合(si,sj)の、各条件付き確率p(fjm|fik)の総積を、直積集合の濃度で正規化し、連接スコアを求めること、
    を特徴とするテキスト要約装置。
  8. 請求項1から7の何れかに記載のテキスト要約装置であって、
    文要素スコアは、文要素スコア学習用のテキスト集合に含まれる文要素を用いて予め求められ、
    学習用テキスト集合内に、多い文要素ほど重要である場合には、その数cntが大きいほど文要素スコアが大きくなるように文要素スコアを算出し、学習用テキスト集合内に、多い文要素ほど重要でない場合には、その数cntが大きいほど文要素スコアが小さくなるように文要素スコアを算出すること、
    を特徴とするテキスト要約装置。
  9. 入力されるテキストを要約するテキスト要約方法であって、
    2つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを予め記憶しておき、
    入力されるテキストから素性要素を抽出する素性要素抽出ステップと、
    各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求める内容性スコア計算ステップと、
    前記素性要素抽出ステップで抽出した素性要素と前記重みパラメタを用いて、文の連接スコアを求める連接スコア計算ステップと、
    前記内容性スコアと前記連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索する重要文順列探索ステップとを有すること、
    を特徴とするテキスト要約方法。
  10. 請求項1から8の何れかに記載のテキスト要約装置として、コンピュータを機能させるためのプログラム。
JP2010010906A 2010-01-21 2010-01-21 テキスト要約装置、テキスト要約方法及びテキスト要約プログラム Active JP5235918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010010906A JP5235918B2 (ja) 2010-01-21 2010-01-21 テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010010906A JP5235918B2 (ja) 2010-01-21 2010-01-21 テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Publications (2)

Publication Number Publication Date
JP2011150515A true JP2011150515A (ja) 2011-08-04
JP5235918B2 JP5235918B2 (ja) 2013-07-10

Family

ID=44537433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010010906A Active JP5235918B2 (ja) 2010-01-21 2010-01-21 テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Country Status (1)

Country Link
JP (1) JP5235918B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097722A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
JP2013097723A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
JP2013161457A (ja) * 2012-02-08 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法及びプログラム
JP2014528620A (ja) * 2011-10-14 2014-10-27 ヤフー! インコーポレイテッド 電子文書の内容を自動的に要約するための方法及び装置
JP2016186772A (ja) * 2015-03-27 2016-10-27 富士通株式会社 短縮文生成装置、方法、及びプログラム
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
CN111930931A (zh) * 2020-07-20 2020-11-13 桂林电子科技大学 一种摘要评价方法及装置
WO2021169217A1 (zh) * 2020-02-27 2021-09-02 平安科技(深圳)有限公司 摘要提取方法、装置、设备及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112967A (ja) * 1998-10-02 2000-04-21 Nippon Telegr & Teleph Corp <Ntt> 記事要約装置および記事要約処理方法および当該方法を記述したプログラムを記録した記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112967A (ja) * 1998-10-02 2000-04-21 Nippon Telegr & Teleph Corp <Ntt> 記事要約装置および記事要約処理方法および当該方法を記述したプログラムを記録した記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200900092183; 大田浩志: '文書生成のための文の並べ替え' 言語処理学会第15回年次大会発表論文集 , 20090302, pp.813-816, 言語処理学会 *
JPN6013002201; 大田浩志: '文書生成のための文の並べ替え' 言語処理学会第15回年次大会発表論文集 , 20090302, pp.813-816, 言語処理学会 *
JPN6013002203; NIE, Yu: 'An Adjacency Model for Sentence Ordering in Multi-document Summarization' Lecture Notes in Computer Science Vol.4182, 2006, pp 313-322, Springer Berlin Heidelberg *
JPN7013000179; Mirella Lapata: 'Probabilistic text structuring: experiments with sentence ordering' Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1 , 2003, Pages 545-552, Association for Computational Linguistics *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014528620A (ja) * 2011-10-14 2014-10-27 ヤフー! インコーポレイテッド 電子文書の内容を自動的に要約するための方法及び装置
JP2013097722A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
JP2013097723A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
JP2013161457A (ja) * 2012-02-08 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法及びプログラム
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
JP2016186772A (ja) * 2015-03-27 2016-10-27 富士通株式会社 短縮文生成装置、方法、及びプログラム
WO2021169217A1 (zh) * 2020-02-27 2021-09-02 平安科技(深圳)有限公司 摘要提取方法、装置、设备及计算机可读存储介质
CN111930931A (zh) * 2020-07-20 2020-11-13 桂林电子科技大学 一种摘要评价方法及装置
CN111930931B (zh) * 2020-07-20 2024-05-24 桂林电子科技大学 一种摘要评价方法及装置

Also Published As

Publication number Publication date
JP5235918B2 (ja) 2013-07-10

Similar Documents

Publication Publication Date Title
JP5235918B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
KR102371167B1 (ko) 데이터 아이템을 성긴 분포 표현으로 매핑하는 방법 및 시스템
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
CN110020005B (zh) 一种病历中主诉和现病史中症状匹配方法
WO2020123689A1 (en) Suggesting text in an electronic document
WO2020219490A1 (en) Passively suggesting text in an electronic document
CN116501861B (zh) 基于层级bert模型与标签迁移的长文本摘要生成方法
CN111259664A (zh) 医学文本信息的确定方法、装置、设备及存储介质
Chatterjee et al. Studying the effect of syntactic simplification on text summarization
JP7283718B2 (ja) 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
JP2014010634A (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
KR102400689B1 (ko) 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
JP2020187738A (ja) 著者名の曖昧性解消のための情報処理装置、方法及び記憶媒体
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
CN110609997B (zh) 生成文本的摘要的方法和装置
JP6145562B2 (ja) 情報構造化システム及び情報構造化方法
JP5604465B2 (ja) テキスト要約装置、方法、及びプログラム
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Praveena et al. Chunking based malayalam paraphrase identification using unfolding recursive autoencoders
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5235918

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350