JP3594701B2

JP3594701B2 - キーセンテンス抽出装置

Info

Publication number: JP3594701B2
Application number: JP18289095A
Authority: JP
Inventors: 雅之亀田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-07-19
Filing date: 1995-07-19
Publication date: 2004-12-02
Anticipated expiration: 2015-07-19
Also published as: JPH0934905A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書から重要文（キーセンテンス）を抽出するキーセンテンス抽出装置に関し、該キーセンテテンス抽出装置を用いた抄録作成や文検索に用いて好適である。
【０００２】
【従来の技術】
文書の要約は、文書の概要を把握する上で重要であり、自動要約装置が期待されている。しかし、人間によっても難しい要約の作成を自動化するのは、さらに難しい。そこで、要約に代わるものとして、文書中のキーセンテンス（重要文）の抽出や、それらの重要文をつないで作成する抄録の自動化の方が実現性が高い。
キーセンテンスの抽出には、高い頻度の単語［１：特開昭６１−１１７６５８号公報（文章抄録装置）］やキーワードの重要度［２：特開平３−２７８２７０号公報（抄録文作成装置）］やキー構文との照合［３：特開昭６１−１００８６１号公報（文書編集装置）］、重要語と原文の論理的な構造［４：特開平２−１８１２６１号公報（自動抄録生成装置）］、重要部分を認識する知識［５：特開平４−７４２５９号公報（文書要約装置）］等に基づく方法等、さまざまな方法がある。
【０００３】
なお、前記特開昭６１−１１７６５８号公報［１］に記載の発明は、文章をパラグラフ毎等の形に順次分割し、該分割した各パラグラフ等中に存在する文単位に用語を夫々分担して当該用語の使用頻度等に基づいて文の重要度を夫々判別し、各パラグラフ毎に最重要度の文を順次つなぐ形で抄録を編集することにより、文章の抄録を自動的に編集するようにしたものである。
【０００４】
また、前記特開平３−２７８２７０号公報［２］に記載の発明は、キーワード抽出評価手段が入力された文書中からキーワード候補を抽出すると共にキーワード候補の重要度を予め設定された所定条件に基づいて算定し、この算定されたキーワードの重要度と入力された文書とから文章評価手段が各文章毎に文書の内容表現に対する適切さを文章評価値として各々算出すると共に文章評価値を予め設定された閾値と比較して所定の文章を選出し、この選出された文章を並べて抄録文を作成するようにしたものである。
【０００５】
また、前記特開昭６１−１００８６１号公報［３］に記載の発明は、入力された文章中の各文を構文的または意味的に解析し、この構文的または意味的に解析された文構造の全体またはその一部分と辞書に予め登録された部分文構造（文のキー構造）とを照合して、上記辞書に登録された部分文構造を含む文を前記入力文章中から抽出し、これらの抽出された文を用いて文章を再構成するようにしたもので、例えば、辞書に登録された部分文構造中の削除規則に該当する文要素を、前記入力文章中から抽出された文中から削除して文を再構成するようにしたものである。
【０００６】
また、前記特開平２−１８１２６１号公報［４］に記載の発明は、日本語辞書を用いて機能語を完全に除去し、一般名詞と固有名詞を対象として、これらの頻度情報および位置情報から、文章の主題や記述の核となる重要語を高精度に抽出するとともに、原文の文章の論理的な構造の解析を行い、文章の構造の情報から著者が重要と思っている内容や強調したい内容に関する記述を抄録の中に含ませるようにしたものである。
【０００７】
更に、前記特開平４−７４２５９号公報［５］に記載の発明は、要約対象とする文書を構成している文をそれぞれ解析し、この解析結果と知識記憶手段に格納されている文書中の重要な部分を認識するための知識、例えば、文字修飾情報とを用いて前記文書中の重要な文を認識判定し、この判定結果に従って前記文書中から重要な文を抽出して要約文を作成するようにしたものである。
【０００８】
【発明が解決しようとする課題】
しかし、上記従来の方法は、外部からの情報［前記公報２，３，４，５］や、構文解析［前記公報３，４，５］を必要としたり、１文ごとの独立した評価を行っており、文書内の文の関連性に重きが置かれていない。なお、特開平６−２５９４２４号公報（文書表示装置及び文書要約装置並びにディジタル複写装置）は、文書内の見出しに限っているが、キーワードの可能性の高い文書内の見出しとの関連性の高い文を見出し内の単語との照合により抽出しており、文脈的な選択となっている。
【０００９】
本発明は、上述のごとき実情に鑑みてなされたもので、特に、文書内のキーセンテンスを抽出するための文の重要度の評価において、文書内の他の文との関連度に基づくことにより、文脈に基づいたより適切な重要度を与え、キーセンテンスの抽出の精度を高めること、また、文の重要度の評価として、外部知識や構文解析等の大きな負担のない簡単な方法を適用可能にすることを目的としてなされたものである。
【００１０】
【課題を解決するための手段】
請求項１の発明は、電子化された文書から文を切り出す「文切り出し手段」と、前記「文切り出し手段」で切り出された各文について、他のそれぞれの文との間の関連度を評価する「文間関連度評価手段」と、前記「文間関連度評価手段」で評価した関連度に基づいて、ある文の重要度を、該文以外の他の文との間の関連度から求める「文重要度評価手段」と、前記「文重要度評価手段」で評価した文の重要度に基づいて、キーセンテンスを抽出する「キーセンテンス抽出手段」とを有すること、
請求項２の発明は、請求項１の発明において、前記「文間関連度評価手段」は、前記文切り出し手段で切り出された各文からキーワード候補単語群を抽出し、文相互間の関連度を、該文に含まれるキーワード候補単語群間の類似度とすること、
請求項３の発明は、請求項２の発明において、前記キーワード候補単語群間の類似度は、文ごとに、キーワード候補単語群の一致した単語数の割合を用いること、
請求項４の発明は、請求項１乃至３の発明において、前記「文重要度評価手段」は、ある文に対して、他の文群との関連度の強さとカバレージ度の一方あるいは双方とによって文の重要度を評価すること、
請求項５の発明は、請求項４の発明において、前記他の文群との関連度の強さとして、他の文との関連度の平均値、前記カバレージ度として、他の文との関連度の有無の平均値を用いること、
請求項６の発明は、請求項４または５の発明において、前記文の重要度として、他の文群との関連度の強さとカバレージ度との積を用いること、
を特徴としたものであり、これら請求項１乃至請求項６の発明により、文書内の文間の関連度に基づいた文の重要度によるキーセンテンスの抽出を可能とし、特に、請求項２乃至請求項６で提供する文間の関連度と文の重要度を評価する方式は、外部知識や構文解析等を用いず、名詞判定程度の解析処理と文字列照合の処理によって簡単に得られる効果的な方法である。
【００１３】
【発明の実施の形態】
図１は、本発明によるキーセンテンス抽出装置を説明するための構成図で、図中、１は電子化文書、２は文切り出し手段、３は文間関連度評価手段、４は文重要度評価手段、５はキーセンテンス抽出手段で、「文切り出し手段」２は、電子化文書１から文を１文づつ切り出す。通常、文書内の文は、句点「。」で１文づつ区切られているか、見出しのように句点なしに１行が１文をなしたりする。一般に、電子化された文書ファイルから文を１文づつ切り出す技術は、機械翻訳システム等で既に実現されている技術であり、ここでは詳細を述べない。図２に、以下の説明に用いる文書の内容を示し、図３には、「文切り出し手段」によって切り出された文を示す（各文の先頭に付加されているのは文番号である。なお、図２に示した原文では、最初の３文が見出しとなっている）。
【００１４】
文間関連度評価手段３では、切り出された各文と他の各文との関連がどの程度あるかを評価し、関連度として求める。文間の関連度を求める方法は、さまざま考えられるが、各文からキーワード候補単語群を抽出し、各々の文に含まれるキーワード候補単語間の類似度に基づき関連度を評価するようにしている。
【００１５】
キーワード候補単語としては、一般には名詞が挙げられる。図４に、各文からキーワードになりにくい日付け等の数名詞や１字漢字の名詞を除く名詞を抽出した結果を示す。名詞の抽出は、従来の日本語文の形態素解析技術に依ることができる。あるいは、漢字、カタカナやアルファベットの文字列を切り出すだけでも、ほぼ同等の結果を得ることができる。
【００１６】
キーワード候補単語の類似に基づき文間の関連度を得る方法もさまざまありえるが、キーワード候補単語間の類似度として、キーワード候補単語の文字列間の文字の重複度を用いる。ここでは、文ｉの文ｊに対する関連度Ｒ（ｉ，ｊ）を、文ｉのキーワード候補単語文字の総数に対する文ｉのキーワード候補単語文字のうち、一方の文ｊのキーワード候補単語の文字と重複する文字の総数の比とする。
【００１７】
たとえば、第５文と第６文のキーワード候補単語は、次のようになっているが、
［５］英米主要先進Ｇ７合意規制イラク対象対共産圏輸出統制委員会ココムリスト
［６］Ｇ７対象品目話し合い冷戦終結輸出規制
両文のキーワード候補単語間の組合せでの部分文字列照合により、容易に重複する文字は「Ｇ７」、「規制」、「対象」、「輸出」であることがわかる。重複する文字の数は８であり、一方、各文のキーワード候補単語の文字の総数は、各々３４と１８であるので、その比は、各文について、
Ｒ（５，６）：８／３４＝０．２３５
Ｒ（６，５）：８／１８＝０．４４４
となる。
【００１８】
図５に第５文の他の文との関連度を示し、図６に文間の関連度をマトリクスで示す（なお、図中、関連度は上記の値を１００倍［パーセント化］し、整数化して示してある）。
上記の方法は、単語文字列の部分一致に基づいているが、キーワード候補単語が一致する単語数の割合をとれば、上記の場合は、「Ｇ７」、「規制」、「対象」の３単語が一致し、一方、各々の単語数は１０と６であるので、次のようになる。
Ｒ（５，６）：３／１０＝０．３０
Ｒ（６，５）：３／６＝０．５０
【００１９】
また、より一般的な関連度としては、たとえば、文ｊに対する文ｉの関連度Ｒ（ｉ，ｊ）を、文ｉ内の単語の文ｊ内の各単語との類似度の和の平均とする等が考えられる。これは、文ｉ内のキーワード候補単語の集合をＷ（ｉ）、単語ｘと単語ｙの類似度をｒ（ｘ，ｙ）［０〜１］、文ｉ内のキーワード候補単語数をＮ（ｉ）とすると、次の式（１）で表わすことができる。
【００２０】
【数１】

【００２１】
単語間の類似度を厳密に考えると、単語間の上位・下位関係が与えられたシソーラス体系を利用する方法等も考えられる。
【００２２】
文重要度評価手段４では、各文について得られた他の文との関連度に基づいて、文の重要度を評価する。
文の重要度は他の文群との関連度の強さ及び他の文群との関連のカバレージによって評価する。前者は、他の文とどれだけ強く関連しているかを示し、後者は、どれだけ広く他の文と関連しているかを示す。
具体的な算出方法としては、他の文群との関連度の強さは、他の文との関連度の平均値、他の文群との関連のカバレージ度は、他の文との関連度の有無の平均値を用いる。
第５文について見れば、表１のようになる。
【００２３】
【表１】

【００２４】
図７に、図６の関連度に基づいた各文の関連度の強さとカバレージとその積の値を示す（いずれも１００倍し、整数化してある。積は‘＝＞’の右に示す）。関連度の強さに着目すると、第２文、第３文が．３３，．２７と高く、第４，６，７，１０文が．１５〜．１７の範囲の第２グループをなしている。
関連のカバレージに着目すると、第５文、第７文が．９１と高く、第４，６文が．７３で続く。
【００２５】
関連度の強さが高い文群は、見出しが高くなっているように、文書のテーマに強く関わっている文であることが想定される。また、関連のカバレージが高い文は、新聞記事等で要約的な内容をもつといわれる第１段落の文を含んでおり、全体の内容を含んでいる可能性が高いことが想定される。逆に、この値が低い文は、非常に個別的な話題を述べている文であると考えられる。このように、いずれの値もキーセンテンスを抽出するための文の重要度として意味のあるものになっている。
【００２６】
さらに、この両者の積によって、双方の効果を加味した文の重要度を与える。この重要度に基づくと、.１０以上では、第２文、第７文、第６文、第４文、第１０文、第５文の順となり、見出し第２文、第１段落の３文（第４，５，６文）、第２段落の第１文（第７文）と最終文（第１０文）がキーセンテンスとして抽出される。
【００２７】
抄録作成は、抽出されたキーセンテンスを順に示して、抄録となすもので、上記の重要度に基づけば、抄録として、図８（上位２文：第２文、第７文）や図９（上位６文：第２文、第４文、第５文、第６文、第７文、第１０文）が得られる。
【００２８】
文検索には、検索要求として与えた文やキーワード群に対して関連する文を本発明の文の関連度により検索するものである。たとえば、見出し文が重要なキーワードを含んでいると考えられることから、見出し文の第１文「通常兵器関連の工業製品」を検索文とすれば、第４文「通常兵器の部品や加工機械に転用できる工業製品の輸出規制が二十日、…」が検索され（図１０）、見出し文の第２文によれば、第１段落の３文と最終段落の第１文が関連度が高い文として検索される（図１１）。
【００２９】
【発明の効果】
本発明により、外部知識や構文解析等を用いず、名詞判定程度の解析処理と文字列照合の処理によって簡単に得られる文書内の文間の関連度に基づいた文の重要度によるキーセンテンスの抽出が可能である。
【００３０】
また、文の重要度の高いキーセンテンスを抽出し、文書内の文の順番に並べることにより、抄録作成を行える。
【００３１】
また、文間の関連度を利用して、文書内から選択した特定の文、外部から与えた検索文やキーワード群と関連の大きい文を検索できる。
【図面の簡単な説明】
【図１】本発明によるキーセンテンス抽出方式、抄録方式、及び、文検索方式を説明するための構成図である。
【図２】本発明の一実施例を説明するための電子化文書の一例（原文）を示す図である。
【図３】図２に示した原文の文切り出し結果を示す図である。
【図４】文ごとのキーワード候補単語を示す図である。
【図５】第５文の他の文との関連度を示す図である。
【図６】文間の関連度マトリクスを示す図である。
【図７】関連度の強さ、関連のカバレージ、及びその積を示す図である。
【図８】抄録の一例（抄録１）を示す図である。
【図９】抄録の他の例（抄録２）を示す図である。
【図１０】見出し第１文による関連文の検索結果を示す図である。
【図１１】見出し第２文による関連文の検索結果を示す図である。
【符号の説明】
１…電子化文書、２…文切り出し手段、３…文間関連度評価手段、４…文重要度評価手段、５…キーセンテンス抽出手段。

Claims

電子化された文書から文を切り出す文切り出し手段と、前記文切り出し手段で切り出された各文について、他のそれぞれの文との間の関連度を評価する文間関連度評価手段と、前記文間関連度評価手段で評価した関連度に基づいて、ある文の重要度を、該文以外の他の文との間の関連度から求める文重要度評価手段と、前記文重要度評価手段で評価した文の重要度に基づいて、キーセンテンスを抽出するキーセンテンス抽出手段とを有することを特徴とするキーセンテンス抽出装置。
前記文間関連度評価手段は、前記文切り出し手段で切り出された各文からキーワード候補単語群を抽出し、文相互間の関連度を、該文に含まれるキーワード候補単語群間の類似度とすることを特徴とする請求項１に記載のキーセンテンス抽出装置。
前記キーワード候補単語群間の類似度は、文ごとに、キーワード候補単語群の一致した単語数の割合を用いることを特徴とする請求項２に記載のキーセンテンス抽出装置。
前記文重要度評価手段は、ある文に対して、他の文群との関連度の強さとカバレージ度の一方あるいは双方とによって文の重要度を評価することを特徴とする請求項１乃至３のいずれかに記載のキーセンテンス抽出装置。
前記他の文群との関連度の強さとして、他の文との関連度の平均値、前記カバレージ度として、他の文との関連度の有無の平均値を用いることを特徴とする請求項４に記載のキーセンテンス抽出装置。
前記文の重要度として、他の文群との関連度の強さとカバレージ度との積を用いることを特徴とする請求項４または５に記載のキーセンテンス抽出装置。