JP2009140411A

JP2009140411A - 文章要約装置および文章要約方法

Info

Publication number: JP2009140411A
Application number: JP2007318560A
Authority: JP
Inventors: Toshiyuki Sakai; 俊之坂井; Yoshihide Sato; 吉秀佐藤; Harumi Kawashima; 晴美川島; Hidenori Okuda; 英範奥田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-12-10
Filing date: 2007-12-10
Publication date: 2009-06-25

Abstract

【課題】重要部分の網羅性を確保し、また、読みやすさをも確保することができる要約装置および要約方法を提供することを目的とする。
【解決手段】要約対象文章の各文に類似する文を、全て抽出し、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に算出した対応する類似文が出現する類似文章の数に基づいて、類似文出現率を算出し、この類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出し、この抽出された上記重要文同士の連結支持率を算出し、上記隣り合う重要文同士について、上記連結支持率が低いと判断されると、上記重要文同士の間に、非重要文がを挿入された重要文について、上記連結支持率を算出させ、この連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する文章要約装置である。
【選択図】図１

Description

本発明は、電子化されたテキストから、文章の要約を作成する要約作成装置および要約作成方法に関する。

文章中から、重要度の高い文のみを抽出し、これを並べることによって、要約文を作成する方法が従来知られている。しかし、この従来方法では、抽出された重要文を並べたときの文脈の自然さが考慮されていないので、作成された要約文が読み難いという問題がある。

つまり、テキストから、文章要約を作成する代表的な従来技術として、文章中の各文に重要度を与え、重要度の高い文を数文出力する重要文抽出が知られている。この従来方式によって抽出された文に、重要度を与える方法として、文章中に高頻度で出現する単語を持つ文に、高い重要度を与える方法が代表的である。Ｗｅｂ上に存在する電子化されたテキストにおいて、重要な単語が、必ずしも高頻度で出現するわけではないので、重要度の高い文を網羅できない場合が多い。

また、要約対象の文章と類似した文章を、Ｗｅｂ上から収集し、両文章の各文において抽出された動作主体や動作表現等の事象概念が、要約対象文章と類似文章との両方に存在すれば、要約対象文章中でその事象概念が抽出された文を出力し、要約とすることが知られている（たとえば、特許文献１参照）。

この場合、類似した文章群に共通の事象概念は、重要な事象概念であると言える。
特開２０００−０１１００３号公報

特許文献１記載の方式では、類似した文章群に、共通の事象概念を抽出することによって、重要な部分を網羅する。

しかし、要約文の読みやすさという面で見ると、特許文献１記載の発明では、文末を終止形にし、かつ、抽出した文を、要約対象文章における文の並び順に出力するのみであり、文、または文脈のつながり等が考慮されていない。したがって、読みやすさと重要部分の網羅性とを同時に達成することができないという問題がある。

本発明は、重要部分の網羅性を確保し、また、読みやすさをも確保することができる要約装置および要約方法を提供することを目的とする。

本発明は、入力手段が出力した要約対象文章に類似する文章を、文章データベースから検索し、上記収集された類似文章を記憶し、要約対象文章の各文に類似する文を、上記記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に基づいて、類似文出現率を算出し、この算出された類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出し、この抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出し、上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出手段で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する文章要約装置である。

本発明によれば、Ｗｅｂ上に存在する文章から、要約対象文章中の文と類似している文を抽出し、この類似文の出現頻度と、類似文同士の連結パターンの出現頻度とを利用することによって、要約文章を作成するので、要約文章としての網羅性と読みやすさとを同時に達成することができるという効果を奏する。

発明を実施するための最良の形態は、以下の実施例である。

図１は、本発明の実施例１である文章要約装置１００を示す図である。

文章要約装置１００は、入力手段Ａ１と、類似文章収集手段Ａ２と、類似文出現率算出手段Ａ３と、重要文抽出手段Ａ４と、連結支持率算出手段Ａ５と、要約文章作成手段Ａ６と、文章データベースＢ１と、類似文章記憶手段Ｂ２と、要約対象文章記憶手段Ｂ３と、類似文対応情報記憶手段Ｂ４とを有する。

入力手段Ａ１は、要約対象文章を入力する。要約対象文章記憶手段Ｂ３は、入力手段Ａ１が出力した要約対象文章を記憶する。

類似文章収集手段Ａ２は、入力手段Ａ１が出力した要約対象文章を受け取り、要約対象文章に類似する文章を、文章データベースＢ１から検索し、１文章以上収集する。収集する文章は、多いほどよい。

類似文章記憶手段Ｂ２は、類似文章収集手段Ａ２が収集した類似文章を記憶する。

類似文出現率算出手段Ａ３は、上記類似文章記憶手段Ｂ２に記憶されている全文章から、上記要約対象文章の各文に類似する文を全て抽出する。次に、類似文出現率算出手段Ａ３は、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、この対応付け情報を、類似文対応情報記憶手段Ｂ４に渡す。類似文出現率算出手段Ａ３は、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数を使い、後述の式（２）を使用して、類似文出現率を算出し、重要文抽出手段Ａ４に渡す。

重要文抽出手段Ａ４は、類似文出現率算出手段Ａ３が算出した類似文出現率に基づいて、上記要約対象文章の文から、複数の重要文を抽出し、この抽出された重要文を、連結支持率算出手段Ａ５に渡す。

連結支持率算出手段Ａ５は、抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を、後述の式（３）を使用して算出する。つまり、連結支持率算出手段Ａ５は、まず、類似文対応情報記憶手段Ｂ４から、文章番号と文番号とに基づいて、要約対象文章の文と類似文とを対応付けている対応付け情報を受け取る。次に、重要文抽出手段Ａ４から、重要文を受け取る。受け取った複数の重要文のうちで、隣り合う２つの重要文を選択し、要約対象文章の文と類似文とを対応付けた対応付け情報を用いて、選択した２つの重要文の類似文が、共に１回以上出現する類似文章を、全て求める。

要約文章作成手段Ａ６は、上記隣り合う重要文同士の連結支持率を所定の閾値と比較し、上記連結支持率が所定の閾値よりも少ないと判断されると、上記隣り合う重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出手段で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する。

つまり、要約文章作成手段Ａ６は、複数の重要文の中から、対応する類似文の文番号が連続し、かつ、重要文の並び順と類似文の並び順とが等しい連続パターンを抽出する。この抽出された連続パターンが出現する類似文章の数に基づいて、連結支持率を算出する。これらの処理（連続パターン抽出処理、連結支持率算出処理）を、全ての隣り合う２つの重要文に対して実行し、算出されたパターンの連結支持率を、要約文章作成手段Ａ６に渡す。

要約文章作成手段Ａ６は、連結支持率算出手段Ａ５から受け取った連結支持率に基づいて、隣り合う重要文同士が繋がるかどうかを決定する。文同士が繋がる（連結支持率が高い）場合、そのまま重要文同士を連結させた文を出力する。

文同士がつながらない場合、繋がりを滑らかにする文を、間に挟んで出力する。この出力された文の集合が、要約文章である。

文章データベースＢ１は、電子化された文章を大量に記憶している。類似文章は、ここから検索する。類似文章記憶手段Ｂ２は、類似文章収集手段Ａ２が収集した類似文章を記憶する。要約対象文章記憶手段Ｂ３は、入力手段Ａ１が出力した要約対象文章を記憶する。類似文対応情報記憶手段Ｂ４は、類似文出現率算出手段Ａ３が算出した類似文の対応付け情報を記憶する。

次に、文章要約装置１００の動作について説明する。

＜具体例１＞
たとえば、Ｗｅｂ上に存在している大量の文章の中から、特定の文章の要約を得ることを考える。この場合、まず、要約対象の文章を、入力手段Ａ１に入力する。同時に、この要約対象の文章を、要約対象文章記憶手段Ｂ３に記憶する。

図２は、要約対象文章の例を示す図である。

ただし、図２において、文頭についている文番号は、その文章において何番目の文であるかを示す文番号である。

その後、類似文章収集手段Ａ２が、入力された文章に類似している複数の文章を、文章データベースＢ１から検索し、収集する。入力された文章に類似している複数の文章を収集する場合、要約対象文章と関係の深いキーワードを、検索キーとして収集する。キーワードを抽出する場合、たとえば、ｔｆｉｄｆ法を使用する。このｔｆｉｄｆ法は、次の式（１）で計算される。

ｔｆｉｄｆ＝ｔｆ・（ｌｏｇ（Ｎ／ｄｆ）＋１） …… 式（１）
ここで、ｔｆは、要約対象文章中において単語が出現する頻度であり、ｄｆは、要約対象文章中に出現した単語が、文章データベースＢ１内の文章において、いくつの文章に存在するかという頻度を表す。また、Ｎは、文章データベースＢ１が記憶している全文章数である。そして、上記ｔｆｉｄｆの値が高い単語を、キーワードとみなす。

ただし、上記ｔｆｉｄｆ法は、一例であり、他の方法でキーワードを抽出するようにしてもよい。

図３は、抽出したキーワードの例を示す図である。

図４は、抽出されたキーワードに基づいて収集した類似文章例を示す図である。

ただし、図４において、文頭についている文番号は、その文章において何番目の文であるかを示す。また、この場合、キーワードとして、概念ベースやシソーラス等の類語辞書を用い、図３のキーワードと類似する意味の単語を、キーワードとして、検索するようにしてもよい。

収集した類似文章を、類似文章記憶手段Ｂ２に記憶する。ただし、収集した類似文章に、その文章に固有な文章番号を割り振る。

次に、要約対象文章から、重要文を抜き出す。重要文を抜き出すために、類似文出現率算出手段Ａ３が、要約対象文章の各文と類似する文を、全類似文章から全て抽出する。

次に、要約対象文章の各文と類似する文を全類似文章から抽出する動作について説明する。

まず、要約対象文章と各類似文章との両文章において、全ての両文章間の文の組み合わせについて、類似度を算出する。

この類似度の算出方法として、「単語の頻度統計を用いた文章の類似性の定量化−部分的類似性の考慮−、電子情報通信学会論文誌、Ｄ−II Ｖｏｌ．Ｊ８７−Ｄ−II Ｎｏ．２、ｐｐ．６６１−６７２、２００４年」に記載されている方法を使用することが考えられる。

この方法は、文から名詞と動詞とを抜き出し、それぞれの文における出現頻度の差を取る。この差を算出した後に、最も類似度が高く、かつ、閾値よりも類似度の高い文の組み合わせを、類似した文の組み合わせとして対応付け、この対応付けられた情報である対応付け情報を、類似文対応情報記憶手段Ｂ４で記憶する。

図５は、対応付け情報の例を示す類似文の対応表を示す図である。

図５に示す類似文の対応表において、アルファベットと数字との組み合わせによって、特定の文を示し、矢印によって、類似の対応を示す。たとえば、要約対象文章Ｘ‐１の「Ｘ」は、要約対象文章であることを示し、続く数字「１」は、文番号を示す。同様に、類似文章Ｙ‐１‐１の「Ｙ」は、類似文章であることを示し、続く２つの数字「１」、「１」は、それぞれ文章番号と文番号とであることを示す。

つまり、「Ｘ‐１←Ｙ‐１‐１」は、文章番号１の類似文章の１番目の文が、要約対象文章の１番目の文に類似していることを示す。この対応付けが終了した後に、要約対象文章中の文毎に、対応する類似文が出現する文章の出現率を算出する。類似文出現率を算出する式（２）は、次の通りである。

類似文出現率＝類似文が出現する文章数／全類似文章数 …… 式（２）
ただし、上記「全類似文章数」は、類似文対応情報記憶手段Ｂ４に記憶されている全文章数であり、上記「類似文が出現する文章数」は、類似文対応情報記憶手段Ｂ４に記憶されている文章のうちで、対応する類似文が出現する文章の数である。要約対象文章中の全ての文について、類似文出現率を算出した後に、重要文抽出手段Ａ４が、閾値以上の類似文出現率を有する文を、重要文として抽出する。

図６は、類似文が出現する類似文章数と類似文章出現頻度と重要性との関係の例を示す図である。

図６に示す例では、閾値を０．５とし、文番号１、２、４、８、９、１１の文が重要文である。

そして、抽出された重要文が、文章として自然に繋がっているかどうかを判定する。この判定を行うために、まず、連結支持率算出手段Ａ５が、互いに隣り合っている２つの重要文を選択する。

次に、類似文対応情報記憶手段Ｂ４に記憶されている要約対象文章の文と類似文との対応付け情報に基づいて、選択した２つの重要文の類似文が共に出現する類似文章を、全て求める。そして、この求めた類似文書の中から、対応する類似文の文番号が連続し、かつ、重要文の並び順と類似文の並び順とが等しいパターンを含む類似文章の数を求める。

最後に、この求めた類似文書数に基づいて、次の式（３）を使用して、連結支持率を算出する。これを、全ての隣り合う２つの重要文について実行する。

次に、連結支持率の計算の例について説明する。

連結支持率＝（連続パターンが抽出された文章の数）／（連結パターンを構成する文の類似文が共に出現する文章の数） …… 式（３）
ここで、たとえば、ａ、ｂ、ｃを任意の正の整数とした場合、連結パターンを構成する要約対象文章の文Ｘ‐１、Ｘ‐３について、それぞれ、類似文章の文Ｙ‐ａ‐ｂ、Ｙ‐ａ‐ｃが出現している場合、上記「（連結パターンを構成する文の類似文が共に出現する文章の数）」は、「１」である。

また、連結パターンを構成する要約対象文章の文Ｘ‐１、Ｘ‐３の類似文として、それぞれ類似文章の文Ｙ‐ａ‐ｂ、Ｙ‐ａ‐ｂ＋１が隣り合う文であり、連続パターンである。

連結支持率を算出した後に、要約文章作成手段Ａ６が、重要文が連結可能であるかどうかを判定する。

連結支持率が、予め定めた閾値を超えていれば、そのまま重要文同士を連結した文を出力する。上記閾値を超えていなければ、元の要約対象文章において、該当する２つの重要文の間に存在していた重要文でない文（非重要文）を重要文の間に挟み、その連結パターンの連結支持率を再び求める。

ただし、間に挟む文は、複数でもよく、全てのパターンについて連結支持率を求める。全連結パターンのうちで、連結支持率が閾値以上であり、かつ、最も短いパターンを構成する複数の文を出力する。最も短いパターンを構成する複数の文が、複数存在すれば、連結支持率がもっとも高いものを選び、出力する。

ただし、閾値以上のパターンが見つからなければ、要約対象文章中の２つの重要文の間の文（連続パターン）を全て出力する。要約文章作成手段Ａ６が出力した文の集合が、要約文章である。

図７は、連結パターンと連結支持率と連結性判断の例を示す図である。

図７に示す例では、要約対象文章中の１、２、６番目の文が重要文である。この場合、連結パターン１→２は、連結支持率が閾値（０．５）以上であるので、文番号１、２の文が、要約文の候補として出力される。連結パターン２→６は、図７に示すように、連結支持率が閾値以下であるので、重要文２と６との間に、非重要文を挿入して、図７の３〜９行目に示す連結パターンを構成し、この連結パターンについて、その連結支持率を求める。この結果、連結パターン２→４→６、連結パターン２→３→４→６、連結パターン２→３→４→５→６の連結支持率が、閾値（０．５）以上であるので、その中で最も短い連結パターン２→４→６が、選ばれる。したがって、最終的な文章（要約文章）として、文１、２、４、６が出力される。

＜具体例２＞
具体例１において、要約文章作成手段Ａ６は、重要文でない文を挟む、挟まないに関わらず、連結パターンの連結支持率が閾値以上であれば、その連結パターンを出力する。しかし、このようにすると、文の繋がりが悪くなることがあり、この場合、文の繋がりを向上させるために、次の２つが考えられる。

文の繋がりが悪くなる１つ目の場合は、文の先頭に接続詞が存在する文を省いた場合である。この場合、話が急に飛ぶので、文の繋がりが悪くなると考えられる。

文の繋がりが悪くなる２つ目の場合は、重要文の先頭に接続詞がある場合である。この場合、接続詞に対応する文が省かれるので、文の繋がりが悪くなると考えられる。

図８は、文の繋がりが悪くなる１つ目の場合における具体例を示す図である。

図９は、文の繋がりが悪くなる２つ目の場合における具体例を示す図である。

図８、図９に示す例では、要約対象文Ｘ‐４、Ｘ‐６が、それぞれ、類似文Ｙ‐１‐７、Ｙ‐１‐８に対応する重要文であり、要約対象文Ｘ‐５が、重要文ではない文（非重要文）である。

この場合、要約対象文Ｘ‐４と、Ｘ‐６とを、そのまま繋げたのでは、要約対象文Ｘ‐４とＸ‐６との繋がりが悪くなる。このように、文の繋がりが悪くなるのは、類似文章の筆者が、文をうまく書き換えているためであると考えられる。

したがって、この問題を解決するためには、次の方法が考えられる。

連結支持率を算出する部分までは、具体例１と同じことを実行する。その後に、要約文章作成手段Ａ６が、ある連結パターンが連結支持率に基づいて連結可能であると判定した場合、その連結パターンを構成する文を、対応する類似文と置き換える。置き換える類似文のペアを選ぶ場合、最も短いペアを選ぶ。ただし、複数存在する場合、そのいずれかを選ぶ。たとえば、図８、９に示す場合、要約対象文Ｘ‐４、Ｘ‐６の代わりに、それぞれ、類似文Ｙ‐１‐７、Ｙ‐１‐８を出力する。

つまり、上記実施例において、文章を要約する場合、まず、要約対象文章を入力手段Ａ１に入力する。入力手段Ａ１は、この文章を類似文章収集手段Ａ２、要約対象文章記憶手段Ｂ３に渡す。その後、類似文章収集手段Ａ２が、要約対象の文章と類似した文章を、文章データベースＢ１から収集し、類似文章記憶手段Ｂ２に記憶する。

次に、類似文章記憶手段Ｂ２に記憶されている全文章の中から、要約対象文章中の各文と類似している文を全て抽出する。

次に、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号を用い、要約対象文章の文とその類似文とを対応付けた対応付け情報を、類似文対応情報記憶手段Ｂ４が記憶する。そして、上記対応付け情報に基づいて、要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を求める。その後に、要約対象文章中の全ての文と、求めた類似文章の数とに基づいて、上記式（２）を使用して、類似文出現率を算出する。この算出された類似文出現率を用い、重要文抽出手段Ａ４が、要約対象文章中の文の中で、どの文が重要であるかを決定する。

その後に、選ばれた重要文が文章として自然に繋がるかどうかを判定する。この判定を行うために、まず、連結支持率算出手段Ａ５は、受け取った重要文集合から、隣り合う２つの重要文を選択する。類似文対応情報記憶手段Ｂ４に記憶されている情報であって、要約対象文章の文と類似文とが対応付けられている情報から、選択した２つの重要文の類似文が共に出現する類似文章を全て求める。

そして、求めた類似文章の中から、対応する類似文の文番号が連続し、かつ、重要文の並び順と類似文の並び順とが等しいパターンを含む類似文章の数を求める。最後に、この求めた類似文章の数に基づいて、上記式（３）を使用して、連結支持率を算出する。

上記選択した２つの重要文の類似文が共に出現する類似文章を全て求め、これら求めた類似文章の中から、対応する類似文の文番号が連続し、かつ、重要文の並び順と類似文の並び順とが等しいパターンを含む類似文章の数を求め、この求めた類似文章の数に基づいて、上記式（３）を使用して、連結支持率を算出する処理を、隣り合う２つの重要文の全てについて、実行する。この処理結果を、要約文章作成手段Ａ６に渡す。そして、隣り合う重要文同士が繋がるかどうかを、連結支持率算出手段Ａ５から受け取った連結支持率に基づいて決定する。

文同士が繋がると判断されれば、そのまま重要文同士を連結した文を出力し、文同士が繋がらないと判断されれば、繋がりを滑らかにする文を間に挟んで出力する。要約文章作成手段Ａ６が出力した文の集合が、要約文章である。

なお、要約文章作成手段Ａ６は、上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定手段と、上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え手段とを有する手段である。

つまり、上記実施例は、要約対象文章を入力する入力手段と、上記入力手段が出力した上記要約対象文章に類似する文章を、文章データベースから検索し、収集する類似文章収集手段と、上記類似文章収集手段が収集した類似文章を記憶する類似文章記憶手段と、上記要約対象文章の各文に類似する文を、上記類似文章記憶手段に記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に基づいて、類似文出現率を算出する類似文出現率算出手段と、上記類似文出現率算出手段が算出した類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出する重要文抽出手段と、抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出する連結支持率算出手段と、上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出手段で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する要約文章作成手段とを有する文章要約装置の例である。

この場合、上記要約文章作成手段は、上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定手段と、上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え手段とを有する手段である。

また、上記実施例を方法の発明として把握することができる．つまり、上記実施例は、入力された要約対象文章に類似する文章を、文章データベースから検索し、収集し、記憶装置に記憶する類似文章収集工程と、上記類似文章収集工程で収集された類似文章を記憶装置に記憶する類似文章記憶工程と、上記要約対象文章の各文に類似する文を、上記記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に応じて、類似文出現率を求め、記憶装置に記憶する類似文出現率算出工程と、上記類似文出現率算出工程で求められた類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出し、記憶装置に記憶する重要文抽出工程と、抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出し、記憶装置に記憶する連結支持率算出工程と、上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出工程で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する要約文章作成工程とを有する文章要約方法の例である。

この場合、上記要約文章作成工程は、上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定工程と、上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え工程とを有する工程である。

また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、上記文章要約装置を構成する各手段としてコンピュータを機能させるプログラムの例である。

さらに、上記プログラムをコンピュータ読み取り可能な記録媒体に記録するようにしてもよい。この場合、ＣＤ、ＤＶＤ、ＨＤ、光ディスク、光磁気ディスク、半導体メモリ等を上記記録媒体として使用することが考えられる。

本発明の実施例１である文章要約装置１００を示す図である。要約対象文章の例を示す図である。抽出したキーワードの例を示す図である。抽出されたキーワードに基づいて収集した類似文章例を示す図である。対応付け情報の例を示す類似文の対応表を示す図である。類似文が出現する類似文章数と類似文章出現頻度と重要性との関係の例を示す図である。連結パターンと連結支持率と連結性判断の例を示す図である。文の繋がりが悪くなる１つ目の場合における具体例を示す図である。文の繋がりが悪くなる２つ目の場合における具体例を示す図である。

符号の説明

１００…文書要約装置、
Ａ１…入力手段、
Ａ２…類似文章収集手段、
Ａ３…類似文出現率算出手段、
Ａ４…重要文抽出手段、
Ａ５…連結支持率算出手段、
Ａ６…要約文章作成手段、
Ｂ１…文章データベース、
Ｂ２…類似文章記憶手段、
Ｂ３…要約対象文章記憶手段、
Ｂ４…類似文対応情報記憶手段。

Claims

要約対象文章を入力する入力手段と；
上記入力手段が出力した上記要約対象文章に類似する文章を、文章データベースから検索し、収集する類似文章収集手段と；
上記類似文章収集手段が収集した類似文章を記憶する類似文章記憶手段と；
上記要約対象文章の各文に類似する文を、上記類似文章記憶手段に記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に基づいて、類似文出現率を算出する類似文出現率算出手段と；
上記類似文出現率算出手段が算出した類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出する重要文抽出手段と；
抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出する連結支持率算出手段と；
上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出手段で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する要約文章作成手段と；
を有することを特徴とする文章要約装置。
請求項１において、
上記要約文章作成手段は、
上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定手段と；
上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え手段と；
を有する手段であることを特徴とする文章要約装置。
入力された要約対象文章に類似する文章を、文章データベースから検索し、収集し、記憶装置に記憶する類似文章収集工程と；
上記類似文章収集工程で収集された類似文章を記憶装置に記憶する類似文章記憶工程と；
上記要約対象文章の各文に類似する文を、上記記憶されている全文章から、全て抽出し、文章に固有な文章番号と、文章内において何番目の文であるかを示す文番号とを用い、要約対象の文と、その類似文とを対応付けた対応付け情報を作成し、上記要約対象文章中の全ての文について、文毎に、対応する類似文が出現する類似文章の数を算出し、算出した文章数に応じて、類似文出現率を求め、記憶装置に記憶する類似文出現率算出工程と；
上記類似文出現率算出工程で求められた類似文出現率に基づいて、上記要約対象文章の文から、重要文を抽出し、記憶装置に記憶する重要文抽出工程と；
抽出された上記重要文同士であって、隣り合う重要文同士の意味的つながりの自然さを示す連結支持率を算出し、記憶装置に記憶する連結支持率算出工程と；
上記隣り合う重要文同士について、上記連結支持率が所定の閾値よりも少ないと判断されると、上記重要文同士の間に、上記重要文同士の間に存在していた非重要文を挿入し、上記非重要文が挿入された重要文について、上記連結支持率算出工程で上記連結支持率を算出させ、この算出された連結支持率と上記所定の閾値とを比較し、全ての連結支持率が上記閾値以上になると、要約文を出力する要約文章作成工程と；
を有することを特徴とする文章要約方法。
請求項３において、
上記要約文章作成工程は、
上記出力された要約文に含まれていない文または重要文の先頭が、接続詞であるかどうかを判定する接続詞判定工程と；
上記出力された要約文に含まれていない文または重要文の先頭が接続詞であれば、当該重要文を類似文に置き換える置き換え工程と；
を有する工程であることを特徴とする文章要約方法。
上記請求項１または請求項２記載の文章要約装置を構成する各手段としてコンピュータを機能させるプログラム。
請求項５記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。