JPH09319768A - 要点抽出方法 - Google Patents

要点抽出方法

Info

Publication number
JPH09319768A
JPH09319768A JP8157723A JP15772396A JPH09319768A JP H09319768 A JPH09319768 A JP H09319768A JP 8157723 A JP8157723 A JP 8157723A JP 15772396 A JP15772396 A JP 15772396A JP H09319768 A JPH09319768 A JP H09319768A
Authority
JP
Japan
Prior art keywords
sentence
word
paragraph
similarity
paragraphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8157723A
Other languages
English (en)
Inventor
Junichi Fukumoto
淳一 福本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8157723A priority Critical patent/JPH09319768A/ja
Publication of JPH09319768A publication Critical patent/JPH09319768A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文章中の各文中の語句の参照関係や文章の構
造情報等を用いることなく、文章中の重要部分を抽出す
る。 【解決手段】 要点抽出対象の文章が入力されると(ス
テップS1)、形態素解析を行って(ステップS2)、
単語を抽出する。次いで、各単語を軸とする単語ベクト
ルを設定すると共に(ステップS3)、各単語に重み付
けの値を付与する(ステップS4)。更に、各パラグラ
フの類似度を単語ベクトルの値を用いて計算する(ステ
ップS5)。このパラグラフの類似度からクラスタを生
成し(ステップS6)、その結果を出力する(ステップ
S7)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語で記述さ
れた文章から重要部分を抽出する要点抽出方法に関する
ものである。
【0002】
【従来の技術】従来の自然言語で記述された文章から重
要部分を抽出する方法においては、文章中の各文の形態
素解析、構文解析を行い、各文中の語句の参照関係に基
づき、他の文から最も多く参照されている文を重要文と
したり、接続語句等を用いた文章の構造情報を用いて重
要部分を判定するといったヒューリスティックスに基づ
く手法が用いられていた。
【0003】
【発明が解決しようとする課題】しかしながら、一般
に、文章中の各文中の語句の参照関係の解析のために
は、その文章中で用いられる語句に関する上位−下位の
知識等の多くの知識が必要であり、参照関係の解析その
ものが困難であるといった問題があった。また、接続語
句等を用いて得られた文章の構造情報から重要部分を判
定する方法もあるが、そのためには文章の構造を解析す
るための接続語句等の情報を多く登録しておかなければ
ならないといった問題があった。
【0004】このような点から、文章中の各文中の語句
の参照関係や文章の構造情報等を用いることなく、文章
中の重要部分を抽出することのできる要点抽出方法の実
現が望まれていた。
【0005】
【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。 〈請求項1の構成〉自然言語で記述された文章中の各パ
ラグラフを、その文章中に出現する各単語を軸とし、各
軸に対して、各々のパラグラフに出現する回数を対応さ
せた単語ベクトルで表し、各パラグラフの単語ベクトル
の類似度を計算し、単語ベクトルの最も類似度の高いパ
ラグラフを、文章における最も重要な部分として出力す
ることを特徴とする要点抽出方法である。
【0006】〈請求項1の説明〉請求項1の発明は、文
章中、重要な部分は、繰り返し述べられていることが多
いという点に着目し、同様な事柄が述べられているパラ
グラフをその文章の要点であると判定するようにしたも
のである。ここで、パラグラフとしては、文章中の章単
位、文単位等、任意の区切りであってもよい。また、軸
とする単語は、文章中に出現する全ての単語を対象とす
るが、適宜選択するようにしてもよい。
【0007】このように、文章中の単語のみの情報を用
いて、それらの情報の統計的処理により、文章中の重要
なパラグラフを抽出するようにしているため、文章中の
各文中の語句の参照関係や文章の構造情報等を用いるこ
となく、容易かつ正確に重要部分を抽出することが可能
となる。
【0008】〈請求項2の構成〉請求項1記載の要点抽
出方法において、任意の単語は、予め決められた基準に
より重み付けされることを特徴とする要点抽出方法であ
る。
【0009】〈請求項2の説明〉予め決められた基準と
は、例えば単語の品詞情報に基づく基準である。即ち、
助詞、助動詞等の付属語は文章中に多く出現するが、こ
れらの付属語情報は文章の重要度の判定には必要ないた
め、低い重み付けの値を設定する。一方、文章中の各単
語のうち、名詞や動詞等の自立語は文章中で重要部分を
判定するために必要であるため、高い重み付けの値を設
定する。これにより、各パラグラフに対して単語の重要
度を考慮した単語ベクトルが設定される。また、この重
み付けの基準は、単語の品詞情報だけでなく、これ以外
にも、ユーザによって特定の単語を指定するといったよ
うに、適宜選択が可能である。
【0010】
【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて詳細に説明する。図1は本発明の要点抽出方法
を示すフローチャートであるが、この説明に先立ち、本
発明の要点抽出方法を実現するための要点抽出装置を説
明する。
【0011】図2は、その要点抽出装置を示す構成図で
ある。図の装置は、入力部1、形態素解析処理部2、重
要部分抽出部3、出力部4、重み付け処理部5からな
る。
【0012】要点抽出装置は、マイクロコンピュータで
構成され、入力部1は、例えば入力インタフェースやキ
ーボードといった解析対象文の入力を行う部分である。
また、形態素解析処理部2は、入力部1に入力された文
を各単語に分割する処理を行う機能を有している。
【0013】重要部分抽出部3は、形態素解析された単
語情報と各単語に付与された重み付け情報を用いて重要
部分であるパラグラフを抽出する機能を有している。即
ち、この重要部分抽出部3は、重要な部分は、文章中で
繰り返し出現することが多いという点に着目し、同様な
事柄が述べられているパラグラフ、つまり、共通してい
る単語が最も多いパラグラフを、その文章における要点
が記述されているパラグラフとして出力するようにした
ものである。
【0014】重み付け処理部5は、形態素解析された単
語情報に対して、重み付けの計算を行う機能を有してい
る。また、出力部4は、例えば、表示装置や印刷装置と
いった出力部であり、重要部分抽出部3で抽出された重
要部分の出力を行う機能を有している。尚、上記の形態
素解析処理部2〜重み付け処理部5は、各機能を実現す
るプログラムと、これを実行するマイクロコンピュータ
における中央処理装置やメモリといった制御部により構
成されている。
【0015】次にこのように構成された要点抽出装置を
用いた要点抽出方法を図1に沿って説明する。先ず、ユ
ーザは、要点抽出を行う文を入力部1に入力する(ステ
ップS1)。これにより、形態素解析処理部2は文章中
の各パラグラフにおける単語の認識処理を行う(ステッ
プS2)。尚、この形態素解析処理については既知の処
理であるため、ここでの説明は省略する。
【0016】次に、重要部分抽出部3は、文章中の各パ
ラグラフ中に存在する全ての単語情報に対して、各単語
を軸とする単語ベクトルを設定する(ステップS3)。
図3は、各パラグラフの単語ベクトルの説明図である。
この例は、三つの単語で四つのパラグラフの場合を示し
ており、図中、軸6、7、8がそれぞれ、単語1、単語
2、単語3を示し、9〜12が、各パラグラフに対する
単語ベクトルを示している。
【0017】また、重要部分の抽出のためには、単語の
重要度が異なるため、重み付け処理部5は、それを表す
重み付けの値を、抽出された各単語に対して付与する
(図1におけるステップS4)。この重み付けの値を与
える方法としては、例えば、文章中の各単語の品詞情報
を用いる方法がある。これは、文章中の各単語のうち、
助詞、助動詞等の付属語は文章中に多く出現するが、こ
れらの付属語情報は文章の重要度の判定には必要ないた
め、低い重み付けの値を設定する。一方、文章中の各単
語のうち、名詞や動詞等の自立語は文章中で重要部分を
判定するために必要であるため、高い重み付けの値を設
定する。そして、文章中の各単語の品詞情報から設定さ
れた重み付けの値を文章中の各パラグラフの単語ベクト
ルに対して掛け合わせる。これにより、各パラグラフに
対して単語の重要度を考慮した単語ベクトルが設定され
る。尚、このような重み付けの値の付与は、これ以外に
も、ユーザが、重み付け処理部5に対して特定の単語を
任意の値を指定できるよう構成してもよい。
【0018】次に、文章中の各パラグラフに対して、類
似度の計算を、上記の重み付けされた単語ベクトルを用
いて行う(ステップS5)。即ち、単語ベクトルの値が
類似しているパラグラフを類似度の高いパラグラフであ
ると判断する。尚、このような類似度の計算方法とし
て、例えば「 G.Salton:Automatic Text Processin
g, Addison−Wesley Publishing Company (1989)」C
hapter 10等に示されている方法を用いることができ
る。
【0019】全てのパラグラフの類似度の計算が済む
と、その類似度を用いて各パラグラフについてクラスタ
リングを行う(ステップS6)。そして、クラスタリン
グが終了すると、その結果を、出力部4に出力し(ステ
ップS7)、要点抽出処理を終了する。
【0020】次に、上記の動作を更に詳細に説明する。
文章中の各パラグラフに対して、重み付けされた単語ベ
クトルに基づきその類似度の計算による重要部分の抽出
の手法を以下に示す。
【0021】図4は、要点抽出処理における演算式の説
明図である。パラグラフの類似度計算の方法としては、
パラグラフの単語ベクトルをX=(x1 ,x2 ,…,x
t ),Y=(y1 ,y2 ,…,yt )とした場合、単語
ベクトルX,Yの類似度は、図中の式(1)で表され
る。
【0022】また、単語1、単語2の単語ベクトルをそ
れぞれW1=(w11 ,w12 ,…,w1t ),W2=
(w21 ,w22 ,…,w2t )とし、単語の重み付け
ベクトルをA=(a1 ,a2 ,…,at )としたとき、
単語ベクトルW1,W2の類似度S12は、図中の式
(2)で計算される。尚、このとき、tは単語の種類数
である。
【0023】以上の類似度の計算を文章中の全てのパラ
グラフ(1,…,n)について計算した結果は、図中の
配列(3)のように示される。尚、ここで、Sijはパラ
グラフiとパラグラフjの類似度を計算した値であると
する。但し、Sii=0であるとする。例えば、配列
(4)は、パラグラフ1,2,3,4からなる文章につ
いて得られた配列を示している。
【0024】次に、以上のようにして得られた各パラグ
ラフ間の類似度の値を用いてパラグラフのクラスタリン
グを行う。このクラスタリングの方法としては、上述し
た「G.Salton:Automatic Text Processing , Addiso
n−Wesley Publishing Company (1989)」Chapter 10
において示されている方法を用いることが可能である。
【0025】図5は、クラスタリングの一例を示す図で
ある。この例は、上記図4の配列(4)で示したパラグ
ラフのクラスタリングを示している。即ち、配列(4)
において、類似度の最も高いのは、S14およびS41
0.9である。従って、文章中、パラグラフ1とパラグ
ラフ4とが最も類似度の高いパラグラフであるため、こ
れらのパラグラフからクラスタを生成する。
【0026】次に、パラグラフ1またはパラグラフ4の
どちらかのパラグラフと類似度の高いパラグラフを抽出
する。ここで、パラグラフ1と最も類似度の高いパラグ
ラフの値は、パラグラフ2との0.7であり、また、パ
ラグラフ4と最も類似度の高い値は、パラグラフ2との
0.5である。従って、パラグラフ1とパラグラフ4と
で生成したクラスタとパラグラフ2とで上位のクラスタ
を生成する。
【0027】以下、同様に、生成したクラスタのうち、
いずれかのパラグラフと最も類似度の高いパラグラフ
で、更に上位のクラスタを生成する。ここでは、パラグ
ラフが4個であるため、残りのパラグラフ3によって上
位のクラスタが生成される。尚、クラスタの生成を、い
ずれかのパラグラフの一方との比較ではなく、二つのパ
ラグラフの合成ベクトルとの比較によって行うようにし
てもよい。
【0028】そして、このようなクラスタリングの結果
が出力部4から出力される。これにより、ユーザは、パ
ラグラフ1とパラグラフ4とが最も重要なパラグラフで
あることを知ることができる。即ち、文章中、パラグラ
フ1とパラグラフ4とで同様の事柄が最も多く述べられ
ているため、これらのパラグラフで文章の要点が記され
ていることが分かる。
【0029】以上のように、上記具体例では、文章中の
各パラグラフの単語のみの情報を用い、それらの情報の
統計的処理により、パラグラフ間の類似度を計算して、
文章中の重要部分の判定を行うようにしたので、文章中
の各文中の語句の参照関係や文章の構造情報等を用いる
ことなく、容易にかつ正確に要点を抽出することができ
る。
【図面の簡単な説明】
【図1】本発明の要点抽出方法を示すフローチャートで
ある。
【図2】本発明の要点抽出方法を実現するための要点抽
出装置の構成図である。
【図3】本発明の要点抽出方法における各パラグラフと
単語ベクトルの説明図である。
【図4】本発明の要点抽出方法における演算式の説明図
である。
【図5】本発明の要点抽出方法におけるクラスタリング
の一例を示す図である。
【符号の説明】
1 入力部 2 形態素解析処理部 3 重要部分抽出部 4 出力部 5 重み付け処理部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で記述された文章中の各パラグ
    ラフを、当該文章中に出現する各単語を軸とし、各軸に
    対して、各々のパラグラフに出現する回数を対応させた
    単語ベクトルで表し、 各パラグラフの単語ベクトルの類似度を計算し、 前記単語ベクトルの最も類似度の高いパラグラフを、前
    記文章における最も重要な部分として出力することを特
    徴とする要点抽出方法。
  2. 【請求項2】 請求項1記載の要点抽出方法において、 任意の単語は、予め決められた基準により重み付けされ
    ることを特徴とする要点抽出方法。
JP8157723A 1996-05-29 1996-05-29 要点抽出方法 Pending JPH09319768A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8157723A JPH09319768A (ja) 1996-05-29 1996-05-29 要点抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8157723A JPH09319768A (ja) 1996-05-29 1996-05-29 要点抽出方法

Publications (1)

Publication Number Publication Date
JPH09319768A true JPH09319768A (ja) 1997-12-12

Family

ID=15655967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8157723A Pending JPH09319768A (ja) 1996-05-29 1996-05-29 要点抽出方法

Country Status (1)

Country Link
JP (1) JPH09319768A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272699A (ja) * 1998-03-20 1999-10-08 Fujitsu Ltd 文書要約装置およびその方法
JP2002197096A (ja) * 2000-12-12 2002-07-12 Nec Corp 文書の一般テキストサマリを作成する方法およびシステム
JP2005322245A (ja) * 2004-04-30 2005-11-17 Microsoft Corp 要約を使用して表示ページを分類する方法およびシステム
WO2021056634A1 (en) * 2019-09-23 2021-04-01 Hong Kong Applied Science and Technology Research Institute Company Limited Method of summarizing text with sentence extraction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JPH0468464A (ja) * 1990-07-10 1992-03-04 Agency Of Ind Science & Technol 文章構造解析装置
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式
JPH09167164A (ja) * 1995-12-14 1997-06-24 Toshiba Corp 情報フィルタリング方法および情報フィルタリング装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JPH0468464A (ja) * 1990-07-10 1992-03-04 Agency Of Ind Science & Technol 文章構造解析装置
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式
JPH09167164A (ja) * 1995-12-14 1997-06-24 Toshiba Corp 情報フィルタリング方法および情報フィルタリング装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272699A (ja) * 1998-03-20 1999-10-08 Fujitsu Ltd 文書要約装置およびその方法
JP2002197096A (ja) * 2000-12-12 2002-07-12 Nec Corp 文書の一般テキストサマリを作成する方法およびシステム
JP2005322245A (ja) * 2004-04-30 2005-11-17 Microsoft Corp 要約を使用して表示ページを分類する方法およびシステム
WO2021056634A1 (en) * 2019-09-23 2021-04-01 Hong Kong Applied Science and Technology Research Institute Company Limited Method of summarizing text with sentence extraction
US11334722B2 (en) 2019-09-23 2022-05-17 Hong Kong Applied Science and Technology Research Institute Company Limited Method of summarizing text with sentence extraction

Similar Documents

Publication Publication Date Title
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
JP2003532194A (ja) 言語間リーディングウィザードを用いたコンピュータ援用リーディングシステムおよび方法
EP1078322B1 (en) System for creating a dictionary
JP2944346B2 (ja) 文書要約装置
CN111428490A (zh) 一种利用语言模型的指代消解弱监督学习方法
Watts et al. Unsupervised continuous-valued word features for phrase-break prediction without a part-of-speech tagger.
JPH09319768A (ja) 要点抽出方法
US20050033566A1 (en) Natural language processing method
JP3363501B2 (ja) テキスト検索装置
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2000285122A (ja) シソーラス生成装置および方法,ならびにシソーラス生成プログラムを記録した記録媒体
JPH0619968A (ja) 専門用語自動抽出装置
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
JP3416918B2 (ja) キーワード自動抽出方法および装置
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3149555B2 (ja) システム設計用目的変換装置
JP2812511B2 (ja) キーワード抽出装置
JPH103478A (ja) 概念の類似性判別方法
JP3324910B2 (ja) 日本語解析装置
JP3507936B2 (ja) 文字列パターン抽出方法及び装置
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP2003173335A (ja) 自然言語対話装置及び方法並びに記憶媒体
JPH11232298A (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
JP4040233B2 (ja) 重要文抽出装置および記憶媒体