JP2009140411A - 文章要約装置および文章要約方法 - Google Patents

文章要約装置および文章要約方法 Download PDF

Info

Publication number
JP2009140411A
JP2009140411A JP2007318560A JP2007318560A JP2009140411A JP 2009140411 A JP2009140411 A JP 2009140411A JP 2007318560 A JP2007318560 A JP 2007318560A JP 2007318560 A JP2007318560 A JP 2007318560A JP 2009140411 A JP2009140411 A JP 2009140411A
Authority
JP
Japan
Prior art keywords
sentence
sentences
similar
important
connection support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007318560A
Other languages
English (en)
Inventor
Toshiyuki Sakai
俊之 坂井
Yoshihide Sato
吉秀 佐藤
Harumi Kawashima
晴美 川島
Hidenori Okuda
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007318560A priority Critical patent/JP2009140411A/ja
Publication of JP2009140411A publication Critical patent/JP2009140411A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】重要部分の網羅性を確保し、また、読みやすさをも確保することができる要約装置および要約方法を提供することを目的とする。
【解決手段】要約対象文章の各文に類似する文を、全て抽出し、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に算出した対応する類似文が出現する類似文章の数に基づいて、類似文出現率を算出し、この類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出し、この抽出された上記重要文同士の連結支持率を算出し、上記隣り合う重要文同士について、上記連結支持率が低いと判断されると、上記重要文同士の間に、非重要文がを挿入された重要文について、上記連結支持率を算出させ、この連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する文章要約装置である。
【選択図】図1

Description

本発明は、電子化されたテキストから、文章の要約を作成する要約作成装置および要約作成方法に関する。
文章中から、重要度の高い文のみを抽出し、これを並べることによって、要約文を作成する方法が従来知られている。しかし、この従来方法では、抽出された重要文を並べたときの文脈の自然さが考慮されていないので、作成された要約文が読み難いという問題がある。
つまり、テキストから、文章要約を作成する代表的な従来技術として、文章中の各文に重要度を与え、重要度の高い文を数文出力する重要文抽出が知られている。この従来方式によって抽出された文に、重要度を与える方法として、文章中に高頻度で出現する単語を持つ文に、高い重要度を与える方法が代表的である。Web上に存在する電子化されたテキストにおいて、重要な単語が、必ずしも高頻度で出現するわけではないので、重要度の高い文を網羅できない場合が多い。
また、要約対象の文章と類似した文章を、Web上から収集し、両文章の各文において抽出された動作主体や動作表現等の事象概念が、要約対象文章と類似文章との両方に存在すれば、要約対象文章中でその事象概念が抽出された文を出力し、要約とすることが知られている(たとえば、特許文献1参照)。
この場合、類似した文章群に共通の事象概念は、重要な事象概念であると言える。
特開2000−011003号公報
特許文献1記載の方式では、類似した文章群に、共通の事象概念を抽出することによって、重要な部分を網羅する。
しかし、要約文の読みやすさという面で見ると、特許文献1記載の発明では、文末を終止形にし、かつ、抽出した文を、要約対象文章における文の並び順に出力するのみであり、文、または文脈のつながり等が考慮されていない。したがって、読みやすさと重要部分の網羅性とを同時に達成することができないという問題がある。
本発明は、重要部分の網羅性を確保し、また、読みやすさをも確保することができる要約装置および要約方法を提供することを目的とする。
本発明は、入力手段が出力した要約対象文章に類似する文章を、文章データベースから検索し、上記収集された類似文章を記憶し、要約対象文章の各文に類似する文を、上記記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に基づいて、類似文出現率を算出し、この算出された類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出し、この抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出し、上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出手段で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する文章要約装置である。
本発明によれば、Web上に存在する文章から、要約対象文章中の文と類似している文を抽出し、この類似文の出現頻度と、類似文同士の連結パターンの出現頻度とを利用することによって、要約文章を作成するので、要約文章としての網羅性と読みやすさとを同時に達成することができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1である文章要約装置100を示す図である。
文章要約装置100は、入力手段A1と、類似文章収集手段A2と、類似文出現率算出手段A3と、重要文抽出手段A4と、連結支持率算出手段A5と、要約文章作成手段A6と、文章データベースB1と、類似文章記憶手段B2と、要約対象文章記憶手段B3と、類似文対応情報記憶手段B4とを有する。
入力手段A1は、要約対象文章を入力する。要約対象文章記憶手段B3は、入力手段A1が出力した要約対象文章を記憶する。
類似文章収集手段A2は、入力手段A1が出力した要約対象文章を受け取り、要約対象文章に類似する文章を、文章データベースB1から検索し、1文章以上収集する。収集する文章は、多いほどよい。
類似文章記憶手段B2は、類似文章収集手段A2が収集した類似文章を記憶する。
類似文出現率算出手段A3は、上記類似文章記憶手段B2に記憶されている全文章から、上記要約対象文章の各文に類似する文を全て抽出する。次に、類似文出現率算出手段A3は、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、この対応付け情報を、類似文対応情報記憶手段B4に渡す。類似文出現率算出手段A3は、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数を使い、後述の式(2)を使用して、類似文出現率を算出し、重要文抽出手段A4に渡す。
重要文抽出手段A4は、類似文出現率算出手段A3が算出した類似文出現率に基づいて、上記要約対象文章の文から、複数の重要文を抽出し、この抽出された重要文を、連結支持率算出手段A5に渡す。
連結支持率算出手段A5は、抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を、後述の式(3)を使用して算出する。つまり、連結支持率算出手段A5は、まず、類似文対応情報記憶手段B4から、文章番号と文番号とに基づいて、要約対象文章の文と類似文とを対応付けている対応付け情報を受け取る。次に、重要文抽出手段A4から、重要文を受け取る。受け取った複数の重要文のうちで、隣り合う2つの重要文を選択し、要約対象文章の文と類似文とを対応付けた対応付け情報を用いて、選択した2つの重要文の類似文が、共に1回以上出現する類似文章を、全て求める。
要約文章作成手段A6は、上記隣り合う重要文同士の連結支持率を所定の閾値と比較し、上記連結支持率が所定の閾値よりも少ないと判断されると、上記隣り合う重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出手段で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する。
つまり、要約文章作成手段A6は、複数の重要文の中から、対応する類似文の文番号が連続し、かつ、重要文の並び順と類似文の並び順とが等しい連続パターンを抽出する。この抽出された連続パターンが出現する類似文章の数に基づいて、連結支持率を算出する。これらの処理(連続パターン抽出処理、連結支持率算出処理)を、全ての隣り合う2つの重要文に対して実行し、算出されたパターンの連結支持率を、要約文章作成手段A6に渡す。
要約文章作成手段A6は、連結支持率算出手段A5から受け取った連結支持率に基づいて、隣り合う重要文同士が繋がるかどうかを決定する。文同士が繋がる(連結支持率が高い)場合、そのまま重要文同士を連結させた文を出力する。
文同士がつながらない場合、繋がりを滑らかにする文を、間に挟んで出力する。この出力された文の集合が、要約文章である。
文章データベースB1は、電子化された文章を大量に記憶している。類似文章は、ここから検索する。類似文章記憶手段B2は、類似文章収集手段A2が収集した類似文章を記憶する。要約対象文章記憶手段B3は、入力手段A1が出力した要約対象文章を記憶する。類似文対応情報記憶手段B4は、類似文出現率算出手段A3が算出した類似文の対応付け情報を記憶する。
次に、文章要約装置100の動作について説明する。
<具体例1>
たとえば、Web上に存在している大量の文章の中から、特定の文章の要約を得ることを考える。この場合、まず、要約対象の文章を、入力手段A1に入力する。同時に、この要約対象の文章を、要約対象文章記憶手段B3に記憶する。
図2は、要約対象文章の例を示す図である。
ただし、図2において、文頭についている文番号は、その文章において何番目の文であるかを示す文番号である。
その後、類似文章収集手段A2が、入力された文章に類似している複数の文章を、文章データベースB1から検索し、収集する。入力された文章に類似している複数の文章を収集する場合、要約対象文章と関係の深いキーワードを、検索キーとして収集する。キーワードを抽出する場合、たとえば、tfidf法を使用する。このtfidf法は、次の式(1)で計算される。
tfidf=tf・(log(N/df)+1) …… 式(1)
ここで、tfは、要約対象文章中において単語が出現する頻度であり、dfは、要約対象文章中に出現した単語が、文章データベースB1内の文章において、いくつの文章に存在するかという頻度を表す。また、Nは、文章データベースB1が記憶している全文章数である。そして、上記tfidfの値が高い単語を、キーワードとみなす。
ただし、上記tfidf法は、一例であり、他の方法でキーワードを抽出するようにしてもよい。
図3は、抽出したキーワードの例を示す図である。
図4は、抽出されたキーワードに基づいて収集した類似文章例を示す図である。
ただし、図4において、文頭についている文番号は、その文章において何番目の文であるかを示す。また、この場合、キーワードとして、概念ベースやシソーラス等の類語辞書を用い、図3のキーワードと類似する意味の単語を、キーワードとして、検索するようにしてもよい。
収集した類似文章を、類似文章記憶手段B2に記憶する。ただし、収集した類似文章に、その文章に固有な文章番号を割り振る。
次に、要約対象文章から、重要文を抜き出す。重要文を抜き出すために、類似文出現率算出手段A3が、要約対象文章の各文と類似する文を、全類似文章から全て抽出する。
次に、要約対象文章の各文と類似する文を全類似文章から抽出する動作について説明する。
まず、要約対象文章と各類似文章との両文章において、全ての両文章間の文の組み合わせについて、類似度を算出する。
この類似度の算出方法として、「単語の頻度統計を用いた文章の類似性の定量化−部分的類似性の考慮−、電子情報通信学会論文誌、D−II Vol.J87−D−II No.2、pp.661−672、2004年」に記載されている方法を使用することが考えられる。
この方法は、文から名詞と動詞とを抜き出し、それぞれの文における出現頻度の差を取る。この差を算出した後に、最も類似度が高く、かつ、閾値よりも類似度の高い文の組み合わせを、類似した文の組み合わせとして対応付け、この対応付けられた情報である対応付け情報を、類似文対応情報記憶手段B4で記憶する。
図5は、対応付け情報の例を示す類似文の対応表を示す図である。
図5に示す類似文の対応表において、アルファベットと数字との組み合わせによって、特定の文を示し、矢印によって、類似の対応を示す。たとえば、要約対象文章X‐1の「X」は、要約対象文章であることを示し、続く数字「1」は、文番号を示す。同様に、類似文章Y‐1‐1の「Y」は、類似文章であることを示し、続く2つの数字「1」、「1」は、それぞれ文章番号と文番号とであることを示す。
つまり、「X‐1←Y‐1‐1」は、文章番号1の類似文章の1番目の文が、要約対象文章の1番目の文に類似していることを示す。この対応付けが終了した後に、要約対象文章中の文毎に、対応する類似文が出現する文章の出現率を算出する。類似文出現率を算出する式(2)は、次の通りである。
類似文出現率=類似文が出現する文章数/全類似文章数 …… 式(2)
ただし、上記「全類似文章数」は、類似文対応情報記憶手段B4に記憶されている全文章数であり、上記「類似文が出現する文章数」は、類似文対応情報記憶手段B4に記憶されている文章のうちで、対応する類似文が出現する文章の数である。要約対象文章中の全ての文について、類似文出現率を算出した後に、重要文抽出手段A4が、閾値以上の類似文出現率を有する文を、重要文として抽出する。
図6は、類似文が出現する類似文章数と類似文章出現頻度と重要性との関係の例を示す図である。
図6に示す例では、閾値を0.5とし、文番号1、2、4、8、9、11の文が重要文である。
そして、抽出された重要文が、文章として自然に繋がっているかどうかを判定する。この判定を行うために、まず、連結支持率算出手段A5が、互いに隣り合っている2つの重要文を選択する。
次に、類似文対応情報記憶手段B4に記憶されている要約対象文章の文と類似文との対応付け情報に基づいて、選択した2つの重要文の類似文が共に出現する類似文章を、全て求める。そして、この求めた類似文書の中から、対応する類似文の文番号が連続し、かつ、重要文の並び順と類似文の並び順とが等しいパターンを含む類似文章の数を求める。
最後に、この求めた類似文書数に基づいて、次の式(3)を使用して、連結支持率を算出する。これを、全ての隣り合う2つの重要文について実行する。
次に、連結支持率の計算の例について説明する。
連結支持率=(連続パターンが抽出された文章の数)/(連結パターンを構成する文の類似文が共に出現する文章の数) …… 式(3)
ここで、たとえば、a、b、cを任意の正の整数とした場合、連結パターンを構成する要約対象文章の文X‐1、X‐3について、それぞれ、類似文章の文Y‐a‐b、Y‐a‐cが出現している場合、上記「(連結パターンを構成する文の類似文が共に出現する文章の数)」は、「1」である。
また、連結パターンを構成する要約対象文章の文X‐1、X‐3の類似文として、それぞれ類似文章の文Y‐a‐b、Y‐a‐b+1が隣り合う文であり、連続パターンである。
連結支持率を算出した後に、要約文章作成手段A6が、重要文が連結可能であるかどうかを判定する。
連結支持率が、予め定めた閾値を超えていれば、そのまま重要文同士を連結した文を出力する。上記閾値を超えていなければ、元の要約対象文章において、該当する2つの重要文の間に存在していた重要文でない文(非重要文)を重要文の間に挟み、その連結パターンの連結支持率を再び求める。
ただし、間に挟む文は、複数でもよく、全てのパターンについて連結支持率を求める。全連結パターンのうちで、連結支持率が閾値以上であり、かつ、最も短いパターンを構成する複数の文を出力する。最も短いパターンを構成する複数の文が、複数存在すれば、連結支持率がもっとも高いものを選び、出力する。
ただし、閾値以上のパターンが見つからなければ、要約対象文章中の2つの重要文の間の文(連続パターン)を全て出力する。要約文章作成手段A6が出力した文の集合が、要約文章である。
図7は、連結パターンと連結支持率と連結性判断の例を示す図である。
図7に示す例では、要約対象文章中の1、2、6番目の文が重要文である。この場合、連結パターン1→2は、連結支持率が閾値(0.5)以上であるので、文番号1、2の文が、要約文の候補として出力される。連結パターン2→6は、図7に示すように、連結支持率が閾値以下であるので、重要文2と6との間に、非重要文を挿入して、図7の3〜9行目に示す連結パターンを構成し、この連結パターンについて、その連結支持率を求める。この結果、連結パターン2→4→6、連結パターン2→3→4→6、連結パターン2→3→4→5→6の連結支持率が、閾値(0.5)以上であるので、その中で最も短い連結パターン2→4→6が、選ばれる。したがって、最終的な文章(要約文章)として、文1、2、4、6が出力される。
<具体例2>
具体例1において、要約文章作成手段A6は、重要文でない文を挟む、挟まないに関わらず、連結パターンの連結支持率が閾値以上であれば、その連結パターンを出力する。しかし、このようにすると、文の繋がりが悪くなることがあり、この場合、文の繋がりを向上させるために、次の2つが考えられる。
文の繋がりが悪くなる1つ目の場合は、文の先頭に接続詞が存在する文を省いた場合である。この場合、話が急に飛ぶので、文の繋がりが悪くなると考えられる。
文の繋がりが悪くなる2つ目の場合は、重要文の先頭に接続詞がある場合である。この場合、接続詞に対応する文が省かれるので、文の繋がりが悪くなると考えられる。
図8は、文の繋がりが悪くなる1つ目の場合における具体例を示す図である。
図9は、文の繋がりが悪くなる2つ目の場合における具体例を示す図である。
図8、図9に示す例では、要約対象文X‐4、X‐6が、それぞれ、類似文Y‐1‐7、Y‐1‐8に対応する重要文であり、要約対象文X‐5が、重要文ではない文(非重要文)である。
この場合、要約対象文X‐4と、X‐6とを、そのまま繋げたのでは、要約対象文X‐4とX‐6との繋がりが悪くなる。このように、文の繋がりが悪くなるのは、類似文章の筆者が、文をうまく書き換えているためであると考えられる。
したがって、この問題を解決するためには、次の方法が考えられる。
連結支持率を算出する部分までは、具体例1と同じことを実行する。その後に、要約文章作成手段A6が、ある連結パターンが連結支持率に基づいて連結可能であると判定した場合、その連結パターンを構成する文を、対応する類似文と置き換える。置き換える類似文のペアを選ぶ場合、最も短いペアを選ぶ。ただし、複数存在する場合、そのいずれかを選ぶ。たとえば、図8、9に示す場合、要約対象文X‐4、X‐6の代わりに、それぞれ、類似文Y‐1‐7、Y‐1‐8を出力する。
つまり、上記実施例において、文章を要約する場合、まず、要約対象文章を入力手段A1に入力する。入力手段A1は、この文章を類似文章収集手段A2、要約対象文章記憶手段B3に渡す。その後、類似文章収集手段A2が、要約対象の文章と類似した文章を、文章データベースB1から収集し、類似文章記憶手段B2に記憶する。
次に、類似文章記憶手段B2に記憶されている全文章の中から、要約対象文章中の各文と類似している文を全て抽出する。
次に、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号を用い、要約対象文章の文とその類似文とを対応付けた対応付け情報を、類似文対応情報記憶手段B4が記憶する。そして、上記対応付け情報に基づいて、要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を求める。その後に、要約対象文章中の全ての文と、求めた類似文章の数とに基づいて、上記式(2)を使用して、類似文出現率を算出する。この算出された類似文出現率を用い、重要文抽出手段A4が、要約対象文章中の文の中で、どの文が重要であるかを決定する。
その後に、選ばれた重要文が文章として自然に繋がるかどうかを判定する。この判定を行うために、まず、連結支持率算出手段A5は、受け取った重要文集合から、隣り合う2つの重要文を選択する。類似文対応情報記憶手段B4に記憶されている情報であって、要約対象文章の文と類似文とが対応付けられている情報から、選択した2つの重要文の類似文が共に出現する類似文章を全て求める。
そして、求めた類似文章の中から、対応する類似文の文番号が連続し、かつ、重要文の並び順と類似文の並び順とが等しいパターンを含む類似文章の数を求める。最後に、この求めた類似文章の数に基づいて、上記式(3)を使用して、連結支持率を算出する。
上記選択した2つの重要文の類似文が共に出現する類似文章を全て求め、これら求めた類似文章の中から、対応する類似文の文番号が連続し、かつ、重要文の並び順と類似文の並び順とが等しいパターンを含む類似文章の数を求め、この求めた類似文章の数に基づいて、上記式(3)を使用して、連結支持率を算出する処理を、隣り合う2つの重要文の全てについて、実行する。この処理結果を、要約文章作成手段A6に渡す。そして、隣り合う重要文同士が繋がるかどうかを、連結支持率算出手段A5から受け取った連結支持率に基づいて決定する。
文同士が繋がると判断されれば、そのまま重要文同士を連結した文を出力し、文同士が繋がらないと判断されれば、繋がりを滑らかにする文を間に挟んで出力する。要約文章作成手段A6が出力した文の集合が、要約文章である。
なお、要約文章作成手段A6は、上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定手段と、上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え手段とを有する手段である。
つまり、上記実施例は、要約対象文章を入力する入力手段と、上記入力手段が出力した上記要約対象文章に類似する文章を、文章データベースから検索し、収集する類似文章収集手段と、上記類似文章収集手段が収集した類似文章を記憶する類似文章記憶手段と、上記要約対象文章の各文に類似する文を、上記類似文章記憶手段に記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に基づいて、類似文出現率を算出する類似文出現率算出手段と、上記類似文出現率算出手段が算出した類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出する重要文抽出手段と、抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出する連結支持率算出手段と、上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出手段で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する要約文章作成手段とを有する文章要約装置の例である。
この場合、上記要約文章作成手段は、上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定手段と、上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え手段とを有する手段である。
また、上記実施例を方法の発明として把握することができる.つまり、上記実施例は、入力された要約対象文章に類似する文章を、文章データベースから検索し、収集し、記憶装置に記憶する類似文章収集工程と、上記類似文章収集工程で収集された類似文章を記憶装置に記憶する類似文章記憶工程と、上記要約対象文章の各文に類似する文を、上記記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に応じて、類似文出現率を求め、記憶装置に記憶する類似文出現率算出工程と、上記類似文出現率算出工程で求められた類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出し、記憶装置に記憶する重要文抽出工程と、抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出し、記憶装置に記憶する連結支持率算出工程と、上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出工程で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する要約文章作成工程とを有する文章要約方法の例である。
この場合、上記要約文章作成工程は、上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定工程と、上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え工程とを有する工程である。
また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、上記文章要約装置を構成する各手段としてコンピュータを機能させるプログラムの例である。
さらに、上記プログラムをコンピュータ読み取り可能な記録媒体に記録するようにしてもよい。この場合、CD、DVD、HD、光ディスク、光磁気ディスク、半導体メモリ等を上記記録媒体として使用することが考えられる。
本発明の実施例1である文章要約装置100を示す図である。 要約対象文章の例を示す図である。 抽出したキーワードの例を示す図である。 抽出されたキーワードに基づいて収集した類似文章例を示す図である。 対応付け情報の例を示す類似文の対応表を示す図である。 類似文が出現する類似文章数と類似文章出現頻度と重要性との関係の例を示す図である。 連結パターンと連結支持率と連結性判断の例を示す図である。 文の繋がりが悪くなる1つ目の場合における具体例を示す図である。 文の繋がりが悪くなる2つ目の場合における具体例を示す図である。
符号の説明
100…文書要約装置、
A1…入力手段、
A2…類似文章収集手段、
A3…類似文出現率算出手段、
A4…重要文抽出手段、
A5…連結支持率算出手段、
A6…要約文章作成手段、
B1…文章データベース、
B2…類似文章記憶手段、
B3…要約対象文章記憶手段、
B4…類似文対応情報記憶手段。

Claims (6)

  1. 要約対象文章を入力する入力手段と;
    上記入力手段が出力した上記要約対象文章に類似する文章を、文章データベースから検索し、収集する類似文章収集手段と;
    上記類似文章収集手段が収集した類似文章を記憶する類似文章記憶手段と;
    上記要約対象文章の各文に類似する文を、上記類似文章記憶手段に記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に基づいて、類似文出現率を算出する類似文出現率算出手段と;
    上記類似文出現率算出手段が算出した類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出する重要文抽出手段と;
    抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出する連結支持率算出手段と;
    上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出手段で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する要約文章作成手段と;
    を有することを特徴とする文章要約装置。
  2. 請求項1において、
    上記要約文章作成手段は、
    上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定手段と;
    上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え手段と;
    を有する手段であることを特徴とする文章要約装置。
  3. 入力された要約対象文章に類似する文章を、文章データベースから検索し、収集し、記憶装置に記憶する類似文章収集工程と;
    上記類似文章収集工程で収集された類似文章を記憶装置に記憶する類似文章記憶工程と;
    上記要約対象文章の各文に類似する文を、上記記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に応じて、類似文出現率を求め、記憶装置に記憶する類似文出現率算出工程と;
    上記類似文出現率算出工程で求められた類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出し、記憶装置に記憶する重要文抽出工程と;
    抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出し、記憶装置に記憶する連結支持率算出工程と;
    上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出工程で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する要約文章作成工程と;
    を有することを特徴とする文章要約方法。
  4. 請求項3において、
    上記要約文章作成工程は、
    上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定工程と;
    上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え工程と;
    を有する工程であることを特徴とする文章要約方法。
  5. 上記請求項1または請求項2記載の文章要約装置を構成する各手段としてコンピュータを機能させるプログラム。
  6. 請求項5記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007318560A 2007-12-10 2007-12-10 文章要約装置および文章要約方法 Pending JP2009140411A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007318560A JP2009140411A (ja) 2007-12-10 2007-12-10 文章要約装置および文章要約方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007318560A JP2009140411A (ja) 2007-12-10 2007-12-10 文章要約装置および文章要約方法

Publications (1)

Publication Number Publication Date
JP2009140411A true JP2009140411A (ja) 2009-06-25

Family

ID=40870921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007318560A Pending JP2009140411A (ja) 2007-12-10 2007-12-10 文章要約装置および文章要約方法

Country Status (1)

Country Link
JP (1) JP2009140411A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138306A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム
JP2020201929A (ja) * 2019-06-06 2020-12-17 楽天株式会社 文抽出システム、文抽出方法、及びプログラム
WO2021234950A1 (ja) * 2020-05-22 2021-11-25 日本電信電話株式会社 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138306A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム
JP2020201929A (ja) * 2019-06-06 2020-12-17 楽天株式会社 文抽出システム、文抽出方法、及びプログラム
US11238219B2 (en) 2019-06-06 2022-02-01 Rakuten Group, Inc. Sentence extraction system, sentence extraction method and information storage medium
WO2021234950A1 (ja) * 2020-05-22 2021-11-25 日本電信電話株式会社 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム
JPWO2021234950A1 (ja) * 2020-05-22 2021-11-25
JP7343050B2 (ja) 2020-05-22 2023-09-12 日本電信電話株式会社 学習用データ生成装置、判定装置、学習用データ生成方法、判定方法、プログラム

Similar Documents

Publication Publication Date Title
US8356032B2 (en) Method, medium, and system retrieving a media file based on extracted partial keyword
JP6335898B2 (ja) 製品認識に基づく情報分類
Suba et al. Hybrid inflectional stemmer and rule-based derivational stemmer for gujarati
KR102217248B1 (ko) 텍스트 문서 요약을 위한 자질 추출 및 학습 방법
Ljubešić et al. Standardizing tweets with character-level machine translation
JP6737151B2 (ja) 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム
Zvonarev et al. A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data.
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
Dubuisson Duplessis et al. Utterance retrieval based on recurrent surface text patterns
JP2009140411A (ja) 文章要約装置および文章要約方法
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
KR101358614B1 (ko) 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법
Kim et al. Extracting clinical relations in electronic health records using enriched parse trees
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Oliveira et al. A concept-based ILP approach for multi-document summarization exploring centrality and position
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP2006215850A (ja) 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体
JP2006318509A (ja) 解データ編集処理装置および処理方法
KR100837797B1 (ko) 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
Al Oudah et al. Wajeez: An extractive automatic arabic text summarisation system
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2004157337A (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム