JPH09319768A

JPH09319768A - 要点抽出方法

Info

Publication number: JPH09319768A
Application number: JP8157723A
Authority: JP
Inventors: Junichi Fukumoto; 淳一福本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1996-05-29
Filing date: 1996-05-29
Publication date: 1997-12-12

Abstract

(57)【要約】【課題】文章中の各文中の語句の参照関係や文章の構
造情報等を用いることなく、文章中の重要部分を抽出す
る。【解決手段】要点抽出対象の文章が入力されると（ス
テップＳ１）、形態素解析を行って（ステップＳ２）、
単語を抽出する。次いで、各単語を軸とする単語ベクト
ルを設定すると共に（ステップＳ３）、各単語に重み付
けの値を付与する（ステップＳ４）。更に、各パラグラ
フの類似度を単語ベクトルの値を用いて計算する（ステ
ップＳ５）。このパラグラフの類似度からクラスタを生
成し（ステップＳ６）、その結果を出力する（ステップ
Ｓ７）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然言語で記述さ
れた文章から重要部分を抽出する要点抽出方法に関する
ものである。

【０００２】

【従来の技術】従来の自然言語で記述された文章から重
要部分を抽出する方法においては、文章中の各文の形態
素解析、構文解析を行い、各文中の語句の参照関係に基
づき、他の文から最も多く参照されている文を重要文と
したり、接続語句等を用いた文章の構造情報を用いて重
要部分を判定するといったヒューリスティックスに基づ
く手法が用いられていた。

【０００３】

【発明が解決しようとする課題】しかしながら、一般
に、文章中の各文中の語句の参照関係の解析のために
は、その文章中で用いられる語句に関する上位−下位の
知識等の多くの知識が必要であり、参照関係の解析その
ものが困難であるといった問題があった。また、接続語
句等を用いて得られた文章の構造情報から重要部分を判
定する方法もあるが、そのためには文章の構造を解析す
るための接続語句等の情報を多く登録しておかなければ
ならないといった問題があった。

【０００４】このような点から、文章中の各文中の語句
の参照関係や文章の構造情報等を用いることなく、文章
中の重要部分を抽出することのできる要点抽出方法の実
現が望まれていた。

【０００５】

【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。〈請求項１の構成〉自然言語で記述された文章中の各パ
ラグラフを、その文章中に出現する各単語を軸とし、各
軸に対して、各々のパラグラフに出現する回数を対応さ
せた単語ベクトルで表し、各パラグラフの単語ベクトル
の類似度を計算し、単語ベクトルの最も類似度の高いパ
ラグラフを、文章における最も重要な部分として出力す
ることを特徴とする要点抽出方法である。

【０００６】〈請求項１の説明〉請求項１の発明は、文
章中、重要な部分は、繰り返し述べられていることが多
いという点に着目し、同様な事柄が述べられているパラ
グラフをその文章の要点であると判定するようにしたも
のである。ここで、パラグラフとしては、文章中の章単
位、文単位等、任意の区切りであってもよい。また、軸
とする単語は、文章中に出現する全ての単語を対象とす
るが、適宜選択するようにしてもよい。

【０００７】このように、文章中の単語のみの情報を用
いて、それらの情報の統計的処理により、文章中の重要
なパラグラフを抽出するようにしているため、文章中の
各文中の語句の参照関係や文章の構造情報等を用いるこ
となく、容易かつ正確に重要部分を抽出することが可能
となる。

【０００８】〈請求項２の構成〉請求項１記載の要点抽
出方法において、任意の単語は、予め決められた基準に
より重み付けされることを特徴とする要点抽出方法であ
る。

【０００９】〈請求項２の説明〉予め決められた基準と
は、例えば単語の品詞情報に基づく基準である。即ち、
助詞、助動詞等の付属語は文章中に多く出現するが、こ
れらの付属語情報は文章の重要度の判定には必要ないた
め、低い重み付けの値を設定する。一方、文章中の各単
語のうち、名詞や動詞等の自立語は文章中で重要部分を
判定するために必要であるため、高い重み付けの値を設
定する。これにより、各パラグラフに対して単語の重要
度を考慮した単語ベクトルが設定される。また、この重
み付けの基準は、単語の品詞情報だけでなく、これ以外
にも、ユーザによって特定の単語を指定するといったよ
うに、適宜選択が可能である。

【００１０】

【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて詳細に説明する。図１は本発明の要点抽出方法
を示すフローチャートであるが、この説明に先立ち、本
発明の要点抽出方法を実現するための要点抽出装置を説
明する。

【００１１】図２は、その要点抽出装置を示す構成図で
ある。図の装置は、入力部１、形態素解析処理部２、重
要部分抽出部３、出力部４、重み付け処理部５からな
る。

【００１２】要点抽出装置は、マイクロコンピュータで
構成され、入力部１は、例えば入力インタフェースやキ
ーボードといった解析対象文の入力を行う部分である。
また、形態素解析処理部２は、入力部１に入力された文
を各単語に分割する処理を行う機能を有している。

【００１３】重要部分抽出部３は、形態素解析された単
語情報と各単語に付与された重み付け情報を用いて重要
部分であるパラグラフを抽出する機能を有している。即
ち、この重要部分抽出部３は、重要な部分は、文章中で
繰り返し出現することが多いという点に着目し、同様な
事柄が述べられているパラグラフ、つまり、共通してい
る単語が最も多いパラグラフを、その文章における要点
が記述されているパラグラフとして出力するようにした
ものである。

【００１４】重み付け処理部５は、形態素解析された単
語情報に対して、重み付けの計算を行う機能を有してい
る。また、出力部４は、例えば、表示装置や印刷装置と
いった出力部であり、重要部分抽出部３で抽出された重
要部分の出力を行う機能を有している。尚、上記の形態
素解析処理部２〜重み付け処理部５は、各機能を実現す
るプログラムと、これを実行するマイクロコンピュータ
における中央処理装置やメモリといった制御部により構
成されている。

【００１５】次にこのように構成された要点抽出装置を
用いた要点抽出方法を図１に沿って説明する。先ず、ユ
ーザは、要点抽出を行う文を入力部１に入力する（ステ
ップＳ１）。これにより、形態素解析処理部２は文章中
の各パラグラフにおける単語の認識処理を行う（ステッ
プＳ２）。尚、この形態素解析処理については既知の処
理であるため、ここでの説明は省略する。

【００１６】次に、重要部分抽出部３は、文章中の各パ
ラグラフ中に存在する全ての単語情報に対して、各単語
を軸とする単語ベクトルを設定する（ステップＳ３）。
図３は、各パラグラフの単語ベクトルの説明図である。
この例は、三つの単語で四つのパラグラフの場合を示し
ており、図中、軸６、７、８がそれぞれ、単語１、単語
２、単語３を示し、９〜１２が、各パラグラフに対する
単語ベクトルを示している。

【００１７】また、重要部分の抽出のためには、単語の
重要度が異なるため、重み付け処理部５は、それを表す
重み付けの値を、抽出された各単語に対して付与する
（図１におけるステップＳ４）。この重み付けの値を与
える方法としては、例えば、文章中の各単語の品詞情報
を用いる方法がある。これは、文章中の各単語のうち、
助詞、助動詞等の付属語は文章中に多く出現するが、こ
れらの付属語情報は文章の重要度の判定には必要ないた
め、低い重み付けの値を設定する。一方、文章中の各単
語のうち、名詞や動詞等の自立語は文章中で重要部分を
判定するために必要であるため、高い重み付けの値を設
定する。そして、文章中の各単語の品詞情報から設定さ
れた重み付けの値を文章中の各パラグラフの単語ベクト
ルに対して掛け合わせる。これにより、各パラグラフに
対して単語の重要度を考慮した単語ベクトルが設定され
る。尚、このような重み付けの値の付与は、これ以外に
も、ユーザが、重み付け処理部５に対して特定の単語を
任意の値を指定できるよう構成してもよい。

【００１８】次に、文章中の各パラグラフに対して、類
似度の計算を、上記の重み付けされた単語ベクトルを用
いて行う（ステップＳ５）。即ち、単語ベクトルの値が
類似しているパラグラフを類似度の高いパラグラフであ
ると判断する。尚、このような類似度の計算方法とし
て、例えば「 G．Salton：Automatic Text Processin
g， Addison−Wesley Publishing Company （1989）」C
hapter 10等に示されている方法を用いることができ
る。

【００１９】全てのパラグラフの類似度の計算が済む
と、その類似度を用いて各パラグラフについてクラスタ
リングを行う（ステップＳ６）。そして、クラスタリン
グが終了すると、その結果を、出力部４に出力し（ステ
ップＳ７）、要点抽出処理を終了する。

【００２０】次に、上記の動作を更に詳細に説明する。
文章中の各パラグラフに対して、重み付けされた単語ベ
クトルに基づきその類似度の計算による重要部分の抽出
の手法を以下に示す。

【００２１】図４は、要点抽出処理における演算式の説
明図である。パラグラフの類似度計算の方法としては、
パラグラフの単語ベクトルをＸ＝（ｘ₁，ｘ₂，…，ｘ
_t），Ｙ＝（ｙ₁，ｙ₂，…，ｙ_t）とした場合、単語
ベクトルＸ，Ｙの類似度は、図中の式（１）で表され
る。

【００２２】また、単語１、単語２の単語ベクトルをそ
れぞれＷ１＝（ｗ１₁，ｗ１₂，…，ｗ１_t），Ｗ２＝
（ｗ２₁，ｗ２₂，…，ｗ２_t）とし、単語の重み付け
ベクトルをＡ＝（ａ₁，ａ₂，…，ａ_t）としたとき、
単語ベクトルＷ１，Ｗ２の類似度Ｓ₁₂は、図中の式
（２）で計算される。尚、このとき、ｔは単語の種類数
である。

【００２３】以上の類似度の計算を文章中の全てのパラ
グラフ（１，…，ｎ）について計算した結果は、図中の
配列（３）のように示される。尚、ここで、Ｓ_ijはパラ
グラフｉとパラグラフｊの類似度を計算した値であると
する。但し、Ｓ_ii＝０であるとする。例えば、配列
（４）は、パラグラフ１，２，３，４からなる文章につ
いて得られた配列を示している。

【００２４】次に、以上のようにして得られた各パラグ
ラフ間の類似度の値を用いてパラグラフのクラスタリン
グを行う。このクラスタリングの方法としては、上述し
た「G．Salton：Automatic Text Processing ， Addiso
n−Wesley Publishing Company （1989）」Chapter 10
において示されている方法を用いることが可能である。

【００２５】図５は、クラスタリングの一例を示す図で
ある。この例は、上記図４の配列（４）で示したパラグ
ラフのクラスタリングを示している。即ち、配列（４）
において、類似度の最も高いのは、Ｓ₁₄およびＳ₄₁の
０．９である。従って、文章中、パラグラフ１とパラグ
ラフ４とが最も類似度の高いパラグラフであるため、こ
れらのパラグラフからクラスタを生成する。

【００２６】次に、パラグラフ１またはパラグラフ４の
どちらかのパラグラフと類似度の高いパラグラフを抽出
する。ここで、パラグラフ１と最も類似度の高いパラグ
ラフの値は、パラグラフ２との０．７であり、また、パ
ラグラフ４と最も類似度の高い値は、パラグラフ２との
０．５である。従って、パラグラフ１とパラグラフ４と
で生成したクラスタとパラグラフ２とで上位のクラスタ
を生成する。

【００２７】以下、同様に、生成したクラスタのうち、
いずれかのパラグラフと最も類似度の高いパラグラフ
で、更に上位のクラスタを生成する。ここでは、パラグ
ラフが４個であるため、残りのパラグラフ３によって上
位のクラスタが生成される。尚、クラスタの生成を、い
ずれかのパラグラフの一方との比較ではなく、二つのパ
ラグラフの合成ベクトルとの比較によって行うようにし
てもよい。

【００２８】そして、このようなクラスタリングの結果
が出力部４から出力される。これにより、ユーザは、パ
ラグラフ１とパラグラフ４とが最も重要なパラグラフで
あることを知ることができる。即ち、文章中、パラグラ
フ１とパラグラフ４とで同様の事柄が最も多く述べられ
ているため、これらのパラグラフで文章の要点が記され
ていることが分かる。

【００２９】以上のように、上記具体例では、文章中の
各パラグラフの単語のみの情報を用い、それらの情報の
統計的処理により、パラグラフ間の類似度を計算して、
文章中の重要部分の判定を行うようにしたので、文章中
の各文中の語句の参照関係や文章の構造情報等を用いる
ことなく、容易にかつ正確に要点を抽出することができ
る。

【図面の簡単な説明】

【図１】本発明の要点抽出方法を示すフローチャートで
ある。

【図２】本発明の要点抽出方法を実現するための要点抽
出装置の構成図である。

【図３】本発明の要点抽出方法における各パラグラフと
単語ベクトルの説明図である。

【図４】本発明の要点抽出方法における演算式の説明図
である。

【図５】本発明の要点抽出方法におけるクラスタリング
の一例を示す図である。

【符号の説明】

１入力部２形態素解析処理部３重要部分抽出部４出力部５重み付け処理部

Claims

【特許請求の範囲】

【請求項１】自然言語で記述された文章中の各パラグ
ラフを、当該文章中に出現する各単語を軸とし、各軸に
対して、各々のパラグラフに出現する回数を対応させた
単語ベクトルで表し、各パラグラフの単語ベクトルの類似度を計算し、前記単語ベクトルの最も類似度の高いパラグラフを、前
記文章における最も重要な部分として出力することを特
徴とする要点抽出方法。
【請求項２】請求項１記載の要点抽出方法において、任意の単語は、予め決められた基準により重み付けされ
ることを特徴とする要点抽出方法。