JP2002259371A - 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体 - Google Patents

文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体

Info

Publication number
JP2002259371A
JP2002259371A JP2001059065A JP2001059065A JP2002259371A JP 2002259371 A JP2002259371 A JP 2002259371A JP 2001059065 A JP2001059065 A JP 2001059065A JP 2001059065 A JP2001059065 A JP 2001059065A JP 2002259371 A JP2002259371 A JP 2002259371A
Authority
JP
Japan
Prior art keywords
document
calculated
sentence
important part
dividing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001059065A
Other languages
English (en)
Inventor
Tsutomu Hirao
努 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001059065A priority Critical patent/JP2002259371A/ja
Publication of JP2002259371A publication Critical patent/JP2002259371A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 単語の出現密度を考慮した重要性に基づき精
度の高い要約を要約種別に応じて生成し得る文書要約方
法および装置と文書要約プログラムおよび該プログラム
を記録した記録媒体を提供する。 【解決手段】 入力された文書を単語集合抽出装置3で
形態素解析し要約種別に応じて要約の手がかりとして必
要な単語集合を文書から抽出するとともに、文書分割装
置1において文書を複数の意味的なまとまりに分割し、
各意味的なまとまりについて単語集合に含まれる単語の
出現密度の高い重要部分を重要箇所算出装置5で算出
し、この重要部分から要約率に応じて文を要約文抽出装
置7で抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書の要約を要約
種別に応じて生成し得る文書要約方法および装置と文書
要約プログラムおよび該プログラムを記録した記録媒体
に関する。
【0002】
【従来の技術】文書要約方法に使用し得る従来の手法と
して、重要語を多く含む文が重要であると考え、単語の
重要度の和を文の重要度とする手法(自動要約のための
文重要度の比較、自然言語処理、Vol.7, No.4, pp.261-
270, 2000 参照)がある。
【0003】この従来の手法においては、文書中の一文
lの重要度Sc(l) はキーワードの単語集合をKWと
すると以下の式で表される。
【0004】
【数1】 ここで、freq(t,l) は単語tの文lにおける出
現頻度である。w(t) は単語tの重みを表す。重みは
tf・idf法など既存の単語の重み付けの手法などを
利用して算出することができる。また、KWは文書中の
すべての単語に重み付けを施し、高い重みが付与された
単語の集合やタイトルに含まれる単語集合が用いられ
る。
【0005】
【発明が解決しようとする課題】従来の手法では、文書
に対して唯一の要約を作成することを前提として、文書
中の一文を独立したものと考え、重要度をその文に出現
する単語の出現頻度に基づき計算している。このため、
一文中に重要語が近接して出現する場合や連続する数文
に重要語が近接して出現する場合を考慮できないこと
で、十分な精度が得られず、読みやすさも損なわれる
し、また文書中の話題構造も考慮していないという問題
がある。
【0006】本発明は、上記に鑑みてなされたもので、
その目的とするところは、単語の出現密度を考慮した重
要性に基づき精度の高い要約を要約種別に応じて生成し
得る文書要約方法および装置と文書要約プログラムおよ
び該プログラムを記録した記録媒体を提供することにあ
る。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、文書の要約を要約種別に
応じて生成し得る文書要約方法であって、前記文書を形
態素解析し、前記要約種別に応じて要約の手がかりとし
て必要な単語集合を前記文書から抽出し、前記文書を複
数の意味的なまとまりに分割し、各意味的なまとまりに
ついて前記単語集合に含まれる単語の出現密度の高い重
要部分を算出し、この算出した重要部分から所与の要約
率に応じて文を抽出することを要旨とする。
【0008】請求項1記載の本発明にあっては、文書を
形態素解析し要約種別に応じて要約の手がかりとして必
要な単語集合を文書から抽出するとともに文書を複数の
意味的なまとまりに分割し、各意味的なまとまりについ
て単語集合に含まれる単語の出現密度の高い重要部分を
算出し、この重要部分から要約率に応じて文を抽出する
ため、要約種別に応じて原文の代わりとなる要約、情報
検索システムのための要約、質問応答システムのための
要約などを作成できるとともに、重要語が近接して出現
する場合を考慮して十分な精度の要約を作成することが
できる。
【0009】請求項2記載の本発明は、請求項1記載の
発明において、前記意味的なまとまりに分割する処理
が、前記文書を段落毎に分割し、前記重要部分を算出す
る処理が、各意味的なまとまりにおける所定の文字数の
連続した文字列のすべての組み合わせについて該文字列
の中心における重要度をハニング窓関数を用いて算出
し、この算出した重要度の高い文字列部分を前記重要部
分として算出することを要旨とする。
【0010】請求項2記載の本発明にあっては、意味的
なまとまりとして文書を段落毎に分割し、各意味的なま
とまりにおける所定の文字数の連続した文字列のすべて
の組み合わせについて該文字列の中心における重要度を
ハニング窓関数を用いて算出し、この算出した重要度の
高い文字列部分を重要部分として算出する。
【0011】更に、請求項3記載の本発明は、文書の要
約を要約種別に応じて生成し得る文書要約装置であっ
て、前記文書を形態素解析し、前記要約種別に応じて要
約の手がかりとして必要な単語集合を前記文書から抽出
する単語集合抽出手段と、前記文書を複数の意味的なま
とまりに分割する文書分割手段と、各意味的なまとまり
について前記単語集合に含まれる単語の出現密度の高い
重要部分を算出する重要部分算出手段と、この算出した
重要部分から所与の要約率に応じて文を抽出する要約文
抽出手段とを有することを要旨とする。
【0012】請求項3記載の本発明にあっては、文書を
形態素解析し要約種別に応じて要約の手がかりとして必
要な単語集合を文書から抽出するとともに文書を複数の
意味的なまとまりに分割し、各意味的なまとまりについ
て単語集合に含まれる単語の出現密度の高い重要部分を
算出し、この重要部分から要約率に応じて文を抽出する
ため、要約種別に応じて原文の代わりとなる要約、情報
検索システムのための要約、質問応答システムのための
要約などを作成できるとともに、重要語が近接して出現
する場合を考慮して十分な精度の要約を作成することが
できる。
【0013】請求項4記載の本発明は、請求項3記載の
発明において、前記文書分割手段が、前記文書を段落毎
に分割する手段を有し、前記重要部分算出手段が、各意
味的なまとまりにおける所定の文字数の連続した文字列
のすべての組み合わせについて該文字列の中心における
重要度をハニング窓関数を用いて算出し、この算出した
重要度の高い文字列部分を前記重要部分として算出する
手段を有することを要旨とする。
【0014】請求項4記載の本発明にあっては、意味的
なまとまりとして文書を段落毎に分割し、各意味的なま
とまりにおける所定の文字数の連続した文字列のすべて
の組み合わせについて該文字列の中心における重要度を
ハニング窓関数を用いて算出し、この算出した重要度の
高い文字列部分を重要部分として算出する。
【0015】また、請求項5記載の本発明は、文書の要
約を要約種別に応じて生成し得る文書要約プログラムで
あって、前記文書を形態素解析し、前記要約種別に応じ
て要約の手がかりとして必要な単語集合を前記文書から
単語集合抽出手段で抽出し、前記文書を複数の意味的な
まとまりに文書分割手段で分割し、各意味的なまとまり
について前記単語集合に含まれる単語の出現密度の高い
重要部分を重要部分算出手段で算出し、この算出した重
要部分から所与の要約率に応じて文を要約文抽出手段で
抽出することを要旨とする。
【0016】請求項5記載の本発明にあっては、文書を
形態素解析し要約種別に応じて要約の手がかりとして必
要な単語集合を文書から抽出するとともに文書を複数の
意味的なまとまりに分割し、各意味的なまとまりについ
て単語集合に含まれる単語の出現密度の高い重要部分を
算出し、この重要部分から要約率に応じて文を抽出する
ため、要約種別に応じて原文の代わりとなる要約、情報
検索システムのための要約、質問応答システムのための
要約などを作成できるとともに、重要語が近接して出現
する場合を考慮して十分な精度の要約を作成することが
できる。
【0017】更に、請求項6記載の本発明は、請求項5
記載の発明において、前記意味的なまとまりに分割する
処理が、前記文書を段落毎に分割し、前記重要部分を算
出する処理が、各意味的なまとまりにおける所定の文字
数の連続した文字列のすべての組み合わせについて該文
字列の中心における重要度をハニング窓関数を用いて算
出し、この算出した重要度の高い文字列部分を前記重要
部分として算出することを要旨とする。
【0018】請求項6記載の本発明にあっては、意味的
なまとまりとして文書を段落毎に分割し、各意味的なま
とまりにおける所定の文字数の連続した文字列のすべて
の組み合わせについて該文字列の中心における重要度を
ハニング窓関数を用いて算出し、この算出した重要度の
高い文字列部分を重要部分として算出する。
【0019】請求項7記載の本発明は、文書の要約を要
約種別に応じて生成し得る文書要約プログラムを記録し
た記録媒体であって、前記文書を形態素解析し、前記要
約種別に応じて要約の手がかりとして必要な単語集合を
前記文書から抽出し、前記文書を複数の意味的なまとま
りに分割し、各意味的なまとまりについて前記単語集合
に含まれる単語の出現密度の高い重要部分を算出し、こ
の算出した重要部分から所与の要約率に応じて文を抽出
する文書要約プログラムを記録媒体に記録することを要
旨とする。
【0020】請求項7記載の本発明にあっては、文書を
形態素解析し要約種別に応じて要約の手がかりとして必
要な単語集合を文書から抽出するとともに文書を複数の
意味的なまとまりに分割し、各意味的なまとまりについ
て単語集合に含まれる単語の出現密度の高い重要部分を
算出し、この重要部分から要約率に応じて文を抽出する
文書要約プログラムを記録媒体に記録しているため、該
記録媒体を用いて、その流通性を高めることができる。
【0021】また、請求項8記載の本発明は、請求項7
記載の発明において、前記意味的なまとまりに分割する
処理が、前記文書を段落毎に分割し、前記重要部分を算
出する処理が、各意味的なまとまりにおける所定の文字
数の連続した文字列のすべての組み合わせについて該文
字列の中心における重要度をハニング窓関数を用いて算
出し、この算出した重要度の高い文字列部分を前記重要
部分として算出する文書要約プログラムを記録媒体に記
録することを要旨とする。
【0022】請求項8記載の本発明にあっては、意味的
なまとまりとして文書を段落毎に分割し、各意味的なま
とまりにおける所定の文字数の連続した文字列のすべて
の組み合わせについて該文字列の中心における重要度を
ハニング窓関数を用いて算出し、この算出した重要度の
高い文字列部分を重要部分として算出する文書要約プロ
グラムを記録媒体に記録しているため、該記録媒体を用
いて、その流通性を高めることができる。
【0023】
【発明の実施の形態】まず、本発明の文書要約方法の概
要について図1に示す概念図を参照して説明する。本発
明の文書要約方法は、キーワードである単語の集合KW
と文書が与えられると、この文書中の文を要約文として
出力するものであり、単語集合KWに従って、すなわち
要約種別に従って例えば原文の代わりとなる要約、情報
検索システムのための要約、質問応答システムのための
要約などを作成し得るものである。
【0024】このような要約の作成では、図1に示すよ
うに、文書の話題を考慮して、複数の意味的なまとまり
である複数の段落に分割する。この分割された各段落に
は複数の文が含まれることになる。図1の例では、最初
の段落には文p1-1 ,p1- 2 ,p1-3 があり、次の段落
には文p2-1 ,p2-2 ,p2-3 があり、最後の段落には
文pn-1 ,pn-2 ,pn-3 がある。
【0025】このように複数の文からなる各段落に対し
て、単語集合KWに含まれる単語が各文中には図1にお
いて太線で示すように複数存在するが、これらの単語が
密集して出現する部分である各パッセージ毎にキーワー
ドである単語の出現密度を考慮した重要度であるスコア
を算出する。図1の文書例では、例えば最初の段落の文
1-1 にはKWに含まれる4つの単語が近接して出現し
ていて、この文のスコアは0.5となり、また次の段落
の文p2-3 には3つの単語が近接して出現し、スコアは
0.3となり、また最後の段落では文pn-2 と文pn-3
の両方に跨って4つの単語が近接して出現し、そのスコ
アは0.7となる。
【0026】このように算出したスコアの高いパッセー
ジから指定の要約率に従ってスコアの高いパッセージに
相当する文pn-2 、文pn-3 、文p1-1 、文p2-3 が要
約文として抽出される。それから、この抽出された各文
を原文における出現位置の順に並び替えて出力するもの
である。
【0027】また、上述したように、本発明の文書要約
方法では、要約種別に従って例えば原文の代わりとなる
要約、情報検索システムのための要約、質問応答システ
ムのための要約などを作成し得るものであるが、この要
約の種別または種類に対応するキーワードである単語集
合は次の表1のようになる。以下、単語とは自立語を表
すものとする。
【0028】
【表1】 上記表1からわかるように、原文の代わりとなる要約を
作成する場合には、文書中のすべての単語に重み付けを
施した結果、高い重みをもつ単語と文書にタイトルが付
加されているなら、タイトルに含まれる語の集合をKW
とする。情報検索システムに応じた要約を作成するには
検索要求に含まれる語の集合をKWとする。質問応答シ
ステムに応じた要約を作成するには質問文に含まれる語
の集合をKW、質問文を解析して得られる質問種別に合
致する対象文書に含まれる固有表現の集合をNEとする
(質問応答システムに関しては特願2000−3199
98を参照)。
【0029】また、上述したように、本発明の文書要約
方法では、文書に含まれる話題を考慮するために与えら
れた文書を、該文書に付与されている形式段落、すなわ
ち複数の意味的なまとまりである複数の形式段落に分割
する。そして、前記パッセージのスコアは、ハニング窓
関数を用いて計算する。このハニング窓関数は、パッセ
ージの文字数をW、中心位置をlとすると、次式で表さ
れる。
【0030】
【数2】 更に、ハニング窓関数を用いてパッセージのスコアS
(l) を以下の式で定義する。a(i) はパッセージ中の
位置iにおいてKWに含まれる単語が出現した場合にそ
の重みw(t) を考慮する。
【0031】
【数3】 次に、図2を参照して、本発明の文書要約方法を従来手
法と比較して説明する。
【0032】図2(b)に示す文の例では、文1と文2
は同じ単語A,B,Cを含んでいるが、この出現密度は
異なっている。このような文1,2に対して従来の手法
で重要度を算出すると、文1の重要度Sc(1) と文2
の重要度Sc(2) は等しくなり、各文中の単語の密度
を考慮することができない。
【0033】これに対して、本発明の文書要約方法で
は、文書を該文書に付与された形式段落により分割し、
各形式段落に対して固定長の文字数Wを含むパッセージ
を設定し、その重要度をハニング窓関数を利用して、単
語の出現密度を考慮して計算し、各段落から最も高い重
要度を与える窓に含まれる文を要約文候補とする。
【0034】図2の例では、文1と文2に跨る窓を想定
した場合、文1の終端付近と文2の開始付近に単語が密
集しており、このパッセージが重要であることがわか
る。従って、文1と文2を要約文候補とすることができ
る。
【0035】次に、図3を参照して、上述した文書要約
方法を実施する本発明の一実施形態に係る文書要約装置
について説明する。
【0036】図3に示す本実施形態の文書要約装置は、
入力される文書を複数の意味的なまとまりである複数の
形式段落に分割する文書分割手段である文書分割装置
1、前記文書を形態素解析し、検索要求や質問文および
要約種別に応じて要約の手がかりとして必要な単語集合
を文書から抽出する単語集合抽出手段である単語集合抽
出装置3、各意味的なまとまりである各段落について単
語集合に含まれる単語の出現密度の高い重要部分または
重要箇所を算出する重要部分算出手段である重要箇所算
出装置5、およびこの算出した重要部分から所与の要約
率に応じて要約文を抽出する要約文抽出手段である要約
文抽出装置7から構成されている。
【0037】また、重要箇所算出装置5は、後述するよ
うに、各意味的なまとまりである段落における所定の文
字数の連続した部分的文字列のすべての組み合わせであ
る各パッセージについて該文字列であるパッセージの中
心における重要度をハニング窓関数を用いて算出し、こ
の算出した重要度の高い文字列部分を重要部分として算
出するようにしている。
【0038】次に、図4に示すフローチャートを参照し
て、図3に示す実施形態の文書要約装置の作用について
図7に示す文書例、図8に示す文書の分割例、図9に示
す文書のパッセージ例を用いて説明する。
【0039】図4に示すように、図3の文書要約装置に
図7に示すような文書が入力されると(ステップS1
1)、この文書は文書分割装置1と単語集合抽出装置3
に供給される。単語集合抽出装置3は、文書を形態素解
析して、単語に分けるとともに、品詞の情報を取得す
る。ここで、普通名詞、固有名詞などの中で出現頻度の
高い自立語を入力として与える単語集合KWを抽出する
(ステップS13)。なお、文書にタイトルが付与され
ている場合には、タイトルを形態素解析し、自立語を単
語集合KWに追加する。図7に示す文書からは、単語集
合KW={ワクチン、特効薬、エイズ、HIV}が抽出
される。
【0040】次に、文書分割装置1は、入力された文書
を形式段落により図8に示すように複数の段落p1
…,pn に分割する(ステップS15)。
【0041】このように複数の段落に分割されると、重
要箇所算出装置5は、各段落について段落の先頭から末
尾に向かって幅Wのパッセージ(文字数Wの連続した文
字列)を一文字単位で移動させ、その中心1におけるス
コア、すなわち重要度S(l)を単語の集合に基づき算出
する(ステップS17)。但し、幅Wは経験に基づいて
決定され、以下の例ではすべてW=25として説明す
る。
【0042】
【数4】 ここで、a(i) は以下の値をとる。
【0043】
【数5】 但し、w(t) は単語tの重みを表す。重みは、tf・
idf法など既存の単語の重み付けの手法などを使用し
て算出することができる。
【0044】パッセージの例について図9を参照して説
明する。図9では、幅W=25としたパッセージの例を
示している。図9に示すようなW=25のパッセージを
すべての段落について説明する。但し、段落の先頭と末
尾では文字数Wに満たないパッセージとなる。そして、
このように作成された各パッセージのスコアS(l)を上
述したように算出する。このような計算方法を用いる
と、単語集合KWに含まれる単語が密集して出現する場
合に高いスコアが付与されることになる。
【0045】上述したように算出したスコアS(l) の
最大値をSpi(l) とし、Spi(l)を与える位置lを中
心とした幅Wの窓に含まれる文を段落pi における要約
文候補とする。窓が複数の文に跨る場合には複数文を、
単一文の場合にはその一文を要約文候補とする。
【0046】図8の段落1に対しては図9に示すパッセ
ージ1−24のスコアが最も高い。同様に段落2−4に
対しても最も高いスコアのパッセージを特定する。特定
したパッセージをスコアの高いものから順に並べる。図
8に示す段落ではパッセージスコアは高いものから順
に、段落1、段落3、段落2、段落4のパッセージであ
る。ここで、各パッセージに含まれる文を要約文候補と
する。段落1から特定したパッセージに含まれる文は文
1−1、段落3から特定したパッセージに含まれる文は
文3−2、文3−3、段落2から特定したパッセージか
らは文2−1、段落4から特定したパッセージからは文
4−1を順に要約文候補とする。
【0047】次に、指定された要約率に最も近くなるよ
うにSpi(l) の高い順に要約文候補を要約文として採
用する(ステップS19)。要約率を33%とすると文
は全部で9文あるので3文を要約文とする。よって、文
1−1、文3−2、文3−3を要約文とする。そして、
このように採用した要約文を原文での出現順に並べ替え
て出力する(ステップS21)。
【0048】上述したように出力された要約文は、「エ
イズ・ウィルス(HIV)に速効性のあるエイズワクチ
ンを、XXX総合医薬研究所が開発したことを20YY
年MM月DD日に発表した。多くの感染者は早急にワク
チンを必要としている。今回のHIVのワクチン開発は
時期的にまさにグッドタイミングである。」となる。
【0049】次に、図5に示すフローチャートを参照し
て、本発明の他の実施形態に係る文書要約装置について
説明する。同図に示す実施形態は、情報検索システムの
ための要約を作成するものである。
【0050】図5では、まず文書集合を格納し(ステッ
プS31)、情報検索システムのための要約を作成する
ために検索要求を入力する(ステップS33)。そし
て、この入力された検索要求を形態素解析して、単語に
分けるとともに、品詞の情報を取得する。ここで、普通
名詞、固有名詞などの自立語を入力として与える単語集
合KWを抽出する(ステップS35)。検索要求の一例
として「エイズ(HIV)ワクチン」が入力されたとす
ると、KW={エイズ、HIV、ワクチン}となる。
【0051】次に、検索要求により情報検索システムよ
り検索結果の文書集合Dを抽出する(ステップS3
7)。これは既存の情報検索システムにより検索結果を
得ればよい。なお、この文書集合Dには図7に示す文書
が含まれていたとする。
【0052】この文書集合Dに含まれる関連文書を図8
に示すように形式段落によりp1 ,…,pn に分割する
(ステップS39)。この分割された各段落の先頭から
末尾に向かって幅Wの窓、すなわちパッセージ(文字数
Wの連続した文字列)を一文字単位で移動させ、その中
心lにおける重要度S(l) を求める(ステップS4
1)。但し、Wは経験に基づき決定する。
【0053】
【数6】 ここで、a(i) は以下の値をとる。
【0054】
【数7】 但し、w(t) は単語tの重みを表す。重みは、tf・
idf法など既存の単語の重み付けの手法などを使用し
て算出することができる。原文の代わりとなる要約と同
様にS(l) を計算する。
【0055】このように求めたS(l) の最大値をS
pi(l) とし、Spi(l) を与える位置lを中心とした幅
Wの窓に含まれる文を段落pi における要約文候補とす
る。窓が複数の文に跨る場合には複数文を、単一文の場
合にはその一文を要約文候補とする。図8に示す例にお
いては、パッセージスコアの順は高いものから段落1、
段落2、段落3、段落4のそれとなる。ここで各パッセ
ージに含まれる文を要約文候補とすると、文1−1、文
2−1、文3−3、文4−1となる。
【0056】次に、指定された要約率に最も近くなるよ
うにSpi(l) の高い順に要約文候補を要約文として採
用する(ステップS43)。
【0057】要約率を33%とすると文1−1、文2−
1、文3−3を要約文とする。このように採用した要約
文を原文での出現順に並び替えて出力する(ステップS
45)。
【0058】上述したように出力された要約文は、「エ
イズ・ウィルス(HIV)に速効性のあるエイズワクチ
ンを、XXX総合医薬研究所が開発したことを20YY
年MM月DD日に発表した。XXX総合医薬研の研究グ
ループリーダによるとHIVの「急所」を特定すること
がエイズワクチン開発の成功に繋がったという。今回の
HIVのワクチン開発は時期的にまさにグッドタイミン
グである。」となる。
【0059】次に、図6に示すフローチャートを参照し
て、本発明の更に他の実施形態に係る文書要約装置につ
いて説明する。同図に示す実施形態は、質問応答システ
ムのための要約を作成するものである。
【0060】図6では、まず文書集合を格納し(ステッ
プS51)、質問応答システムのための要約を作成する
ために質問文を入力する(ステップS53)。そして、
この入力された質問文を形態素解析し、単語に分けると
ともに品詞の情報を得る。ここで、普通名詞、固有名詞
などの自立語を入力として与える単語集合KWを抽出す
る(ステップS55)。例えば、質問として、「エイズ
ワクチンを開発したのは何という研究所ですか?」が入
力されたとすると、KW={エイズ、ワクチン、開発、
研究所}となる。
【0061】また、質問文を解析して質問種別を得る
(ステップS55)。パターンマッチングにより「〜は
誰?」という表現なら質問種別「who」など(特願20
00−319998を参照)となり、「何という研究所
ですか」というパターンより質問種別は「organizatio
n」となる。
【0062】上述したように抽出した単語集合KWを用
いて情報検索システムより検索結果の文書集合Dを抽出
する(ステップS57)。これは、既存の情報検索シス
テムにより検索結果を得ればよい。なお、この文書集合
Dに図7に示す文書が含まれていたとする。
【0063】次に、文書集合Dに含まれる文書より質問
種別に合致する固有表現の集合NEを抽出する(ステッ
プS61)。例えば、NE={XXX総合医薬研究所}
となる。
【0064】前記文書集合Dに含まれる文書を図8に示
すように形式段落によりp1 ,…,pn に分割する(ス
テップS63)。この分割された各段落の先頭から末尾
に向かって幅Wの窓(文字数Wの連続した文字列)を一
文字単位で移動させ、その中心lにおける重要度S(l)
を求める(ステップS65)。但し、Wは経験に基づ
き決定する。
【0065】
【数8】 ここで、a(i) は以下の値をとる。
【0066】
【数9】 但し、w(t) は単語tの重みを表す。重みは、tf・
idf法など既存の単語の重み付けの手法などを使用し
て算出することができる。
【0067】このように求めたS(l) の最大値をS
pi(l) とし、Spi(l) を与える位置lを中心とした幅
Wの窓に含まれる文を段落pi における要約文候補とす
る。窓が複数の文に跨る場合には複数文を、単一文の場
合にはその一文を要約文候補とする。図8に示す例で
は、スコアの高いパッセージから順に、文1−1、文2
−1、文3−3、文4−1が要約文候補として抽出され
る。
【0068】次に、指定された要約率に最も近くなるよ
うにSpi(l) の高い順に要約文候補を要約文として採
用する(ステップS67)。
【0069】要約率33%とすると文1−1、文2−
1、文3−3を要約文とする。このように採用した要約
文を原文での出現順に並び替えて出力する(ステップS
69)。
【0070】上述したように出力された要約文は、「エ
イズ・ウィルス(HIV)に速効性のあるエイズワクチ
ンを、XXX総合医薬研究所が開発したことを20YY
年MM月DD日に発表した。XXX総合医薬研の研究グ
ループリーダによるとHIVの「急所」を特定すること
がエイズワクチン開発の成功に繋がったという。今回の
HIVのワクチン開発は時期的にまさにグッドタイミン
グである。」となる。
【0071】なお、上記実施形態の文書要約方法の処理
手順をプログラムとして例えばCDやFDなどの記録媒
体に記録して、この記録媒体に記録されたプログラムを
通信回線を介してコンピュータシステムにダウンロード
したり、または記録媒体からインストールし、該プログ
ラムでコンピュータシステムを作動させることにより、
文書要約方法を実施する文書要約装置として機能させる
ことができることは勿論であり、このような記録媒体を
用いることにより、その流通性を高めることができるも
のである。
【0072】
【発明の効果】以上説明したように、本発明によれば、
文書を形態素解析し要約種別に応じて要約の手がかりと
して必要な単語集合を文書から抽出するとともに文書を
複数の意味的なまとまりに分割し、各意味的なまとまり
について単語集合に含まれる単語の出現密度の高い重要
部分を算出し、この重要部分から要約率に応じて文を抽
出するので、要約種別に応じて原文の代わりとなる要
約、情報検索システムのための要約、質問応答システム
のための要約などを作成できるとともに、重要語が近接
して出現する場合を考慮して十分な精度の要約を作成す
ることができる。
【図面の簡単な説明】
【図1】本発明の文書要約方法の概要を説明するための
図である。
【図2】本発明の文書要約方法を従来手法と比較して示
す説明図である。
【図3】本発明の一実施形態に係る文書要約装置の構成
を示すブロック図である。
【図4】図3に示す実施形態の文書要約装置の作用を示
すフローチャートである。
【図5】本発明の他の実施形態に係る文書要約装置の作
用を示すフローチャートである。
【図6】本発明の更に他の実施形態に係る文書要約装置
の作用を示すフローチャートである。
【図7】本発明の文書要約装置の作用の説明に使用され
る文書例を示す図である。
【図8】図7に示した文書を分割した例を示す図であ
る。
【図9】図7に示した文書のパッセージの例を示す図で
ある。
【符号の説明】
1 文書分割装置 3 単語集合抽出装置 5 重要箇所算出装置 7 要約文抽出装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書の要約を要約種別に応じて生成し得
    る文書要約方法であって、 前記文書を形態素解析し、前記要約種別に応じて要約の
    手がかりとして必要な単語集合を前記文書から抽出し、 前記文書を複数の意味的なまとまりに分割し、 各意味的なまとまりについて前記単語集合に含まれる単
    語の出現密度の高い重要部分を算出し、 この算出した重要部分から所与の要約率に応じて文を抽
    出することを特徴とする文書要約方法。
  2. 【請求項2】 前記意味的なまとまりに分割する処理
    は、前記文書を段落毎に分割し、 前記重要部分を算出する処理は、各意味的なまとまりに
    おける所定の文字数の連続した文字列のすべての組み合
    わせについて該文字列の中心における重要度をハニング
    窓関数を用いて算出し、この算出した重要度の高い文字
    列部分を前記重要部分として算出することを特徴とする
    請求項1記載の文書要約方法。
  3. 【請求項3】 文書の要約を要約種別に応じて生成し得
    る文書要約装置であって、 前記文書を形態素解析し、前記要約種別に応じて要約の
    手がかりとして必要な単語集合を前記文書から抽出する
    単語集合抽出手段と、 前記文書を複数の意味的なまとまりに分割する文書分割
    手段と、 各意味的なまとまりについて前記単語集合に含まれる単
    語の出現密度の高い重要部分を算出する重要部分算出手
    段と、 この算出した重要部分から所与の要約率に応じて文を抽
    出する要約文抽出手段とを有することを特徴とする文書
    要約装置。
  4. 【請求項4】 前記文書分割手段は、前記文書を段落毎
    に分割する手段を有し、 前記重要部分算出手段は、各意味的なまとまりにおける
    所定の文字数の連続した文字列のすべての組み合わせに
    ついて該文字列の中心における重要度をハニング窓関数
    を用いて算出し、この算出した重要度の高い文字列部分
    を前記重要部分として算出する手段を有することを特徴
    とする請求項3記載の文書要約装置。
  5. 【請求項5】 文書の要約を要約種別に応じて生成し得
    る文書要約プログラムであって、 前記文書を形態素解析し、前記要約種別に応じて要約の
    手がかりとして必要な単語集合を前記文書から単語集合
    抽出手段で抽出し、 前記文書を複数の意味的なまとまりに文書分割手段で分
    割し、 各意味的なまとまりについて前記単語集合に含まれる単
    語の出現密度の高い重要部分を重要部分算出手段で算出
    し、 この算出した重要部分から所与の要約率に応じて文を要
    約文抽出手段で抽出することを特徴とする文書要約プロ
    グラム。
  6. 【請求項6】 前記意味的なまとまりに分割する処理
    は、前記文書を段落毎に分割し、 前記重要部分を算出する処理は、各意味的なまとまりに
    おける所定の文字数の連続した文字列のすべての組み合
    わせについて該文字列の中心における重要度をハニング
    窓関数を用いて算出し、この算出した重要度の高い文字
    列部分を前記重要部分として算出することを特徴とする
    請求項5記載の文書要約プログラム。
  7. 【請求項7】 文書の要約を要約種別に応じて生成し得
    る文書要約プログラムを記録した記録媒体であって、 前記文書を形態素解析し、前記要約種別に応じて要約の
    手がかりとして必要な単語集合を前記文書から抽出し、 前記文書を複数の意味的なまとまりに分割し、 各意味的なまとまりについて前記単語集合に含まれる単
    語の出現密度の高い重要部分を算出し、 この算出した重要部分から所与の要約率に応じて文を抽
    出することを特徴とする文書要約プログラムを記録した
    記録媒体。
  8. 【請求項8】 前記意味的なまとまりに分割する処理
    は、前記文書を段落毎に分割し、 前記重要部分を算出する処理は、各意味的なまとまりに
    おける所定の文字数の連続した文字列のすべての組み合
    わせについて該文字列の中心における重要度をハニング
    窓関数を用いて算出し、この算出した重要度の高い文字
    列部分を前記重要部分として算出することを特徴とする
    請求項7記載の文書要約プログラムを記録した記録媒
    体。
JP2001059065A 2001-03-02 2001-03-02 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体 Pending JP2002259371A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001059065A JP2002259371A (ja) 2001-03-02 2001-03-02 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001059065A JP2002259371A (ja) 2001-03-02 2001-03-02 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002259371A true JP2002259371A (ja) 2002-09-13

Family

ID=18918688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001059065A Pending JP2002259371A (ja) 2001-03-02 2001-03-02 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002259371A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006030892A (ja) * 2004-07-21 2006-02-02 Nippon Hoso Kyokai <Nhk> 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置
JP2007265068A (ja) * 2006-03-29 2007-10-11 National Institute Of Information & Communication Technology 文書差分検出装置及びプログラム
JP2008511057A (ja) * 2004-08-19 2008-04-10 クラリア コーポレイション エンドユーザの情報要求に応答するための方法及び装置
US8073866B2 (en) 2005-03-17 2011-12-06 Claria Innovations, Llc Method for providing content to an internet user based on the user's demonstrated content preferences
US8078602B2 (en) 2004-12-17 2011-12-13 Claria Innovations, Llc Search engine for a computer network
US8086697B2 (en) 2005-06-28 2011-12-27 Claria Innovations, Llc Techniques for displaying impressions in documents delivered over a computer network
US8170912B2 (en) 2003-11-25 2012-05-01 Carhamm Ltd., Llc Database structure and front end
CN101645083B (zh) * 2009-01-16 2012-07-04 中国科学院声学研究所 一种基于概念符号的文本领域的获取系统及方法
WO2012111226A1 (ja) * 2011-02-15 2012-08-23 日本電気株式会社 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体
US8255413B2 (en) 2004-08-19 2012-08-28 Carhamm Ltd., Llc Method and apparatus for responding to request for information-personalization
JP2012215967A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 時系列情報生成装置および時系列情報生成方法
US8316003B2 (en) 2002-11-05 2012-11-20 Carhamm Ltd., Llc Updating content of presentation vehicle in a computer network
US8689238B2 (en) 2000-05-18 2014-04-01 Carhamm Ltd., Llc Techniques for displaying impressions in documents delivered over a computer network
JP2016133919A (ja) * 2015-01-16 2016-07-25 日本電信電話株式会社 質問応答方法、装置、及びプログラム
US9495446B2 (en) 2004-12-20 2016-11-15 Gula Consulting Limited Liability Company Method and device for publishing cross-network user behavioral data
JP2021174251A (ja) * 2020-04-24 2021-11-01 株式会社日立製作所 計算機システム及び文書の要約生成方法
JP2023002928A (ja) * 2021-06-23 2023-01-11 ウイングアーク1st株式会社 情報検索システム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8689238B2 (en) 2000-05-18 2014-04-01 Carhamm Ltd., Llc Techniques for displaying impressions in documents delivered over a computer network
US8316003B2 (en) 2002-11-05 2012-11-20 Carhamm Ltd., Llc Updating content of presentation vehicle in a computer network
US8170912B2 (en) 2003-11-25 2012-05-01 Carhamm Ltd., Llc Database structure and front end
JP2006030892A (ja) * 2004-07-21 2006-02-02 Nippon Hoso Kyokai <Nhk> 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置
JP2008511057A (ja) * 2004-08-19 2008-04-10 クラリア コーポレイション エンドユーザの情報要求に応答するための方法及び装置
US8255413B2 (en) 2004-08-19 2012-08-28 Carhamm Ltd., Llc Method and apparatus for responding to request for information-personalization
US8078602B2 (en) 2004-12-17 2011-12-13 Claria Innovations, Llc Search engine for a computer network
US9495446B2 (en) 2004-12-20 2016-11-15 Gula Consulting Limited Liability Company Method and device for publishing cross-network user behavioral data
US8073866B2 (en) 2005-03-17 2011-12-06 Claria Innovations, Llc Method for providing content to an internet user based on the user's demonstrated content preferences
US8086697B2 (en) 2005-06-28 2011-12-27 Claria Innovations, Llc Techniques for displaying impressions in documents delivered over a computer network
JP2007265068A (ja) * 2006-03-29 2007-10-11 National Institute Of Information & Communication Technology 文書差分検出装置及びプログラム
CN101645083B (zh) * 2009-01-16 2012-07-04 中国科学院声学研究所 一种基于概念符号的文本领域的获取系统及方法
WO2012111226A1 (ja) * 2011-02-15 2012-08-23 日本電気株式会社 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体
JPWO2012111226A1 (ja) * 2011-02-15 2014-07-03 日本電気株式会社 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
JP5884740B2 (ja) * 2011-02-15 2016-03-15 日本電気株式会社 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
JP2012215967A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 時系列情報生成装置および時系列情報生成方法
JP2016133919A (ja) * 2015-01-16 2016-07-25 日本電信電話株式会社 質問応答方法、装置、及びプログラム
JP2021174251A (ja) * 2020-04-24 2021-11-01 株式会社日立製作所 計算機システム及び文書の要約生成方法
JP2023002928A (ja) * 2021-06-23 2023-01-11 ウイングアーク1st株式会社 情報検索システム

Similar Documents

Publication Publication Date Title
JP2002259371A (ja) 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体
US7333927B2 (en) Method for retrieving similar sentence in translation aid system
US7236923B1 (en) Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0424869A (ja) 文書処理システム
JPH09223161A (ja) コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JP2001318792A (ja) 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Bhat Morpheme segmentation for kannada standing on the shoulder of giants
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Kan et al. Corpus-trained text generation for summarization
JP2008097232A (ja) 音声情報検索プログラムとその記録媒体、音声情報検索システム、並びに音声情報検索方法
JP2001084252A (ja) 類似文書検索システム及び方法並びに類似文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP3500698B2 (ja) キーワード抽出装置及びキーワード抽出方法
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JPH09128402A (ja) 文書類似度計算装置および文書分類装置
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP3528849B2 (ja) キーワード抽出装置およびキーワード抽出方法
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体