JP2944346B2 - 文書要約装置 - Google Patents
文書要約装置Info
- Publication number
- JP2944346B2 JP2944346B2 JP5007427A JP742793A JP2944346B2 JP 2944346 B2 JP2944346 B2 JP 2944346B2 JP 5007427 A JP5007427 A JP 5007427A JP 742793 A JP742793 A JP 742793A JP 2944346 B2 JP2944346 B2 JP 2944346B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- paragraph
- sentence
- input
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、アイデアプロセッサ
や文書作成支援装置やワードプロセッサ等に使用されて
文書作成や発想の支援を行う文書要約装置に関する。
や文書作成支援装置やワードプロセッサ等に使用されて
文書作成や発想の支援を行う文書要約装置に関する。
【0002】
【従来の技術】発想とは既知の情報の新たな組み合わせ
であり、決して無から有を作り出すことはできない。そ
のために、文書作成時における発想に際しては、既存の
文書を参照して引用することが頻繁に行われる。
であり、決して無から有を作り出すことはできない。そ
のために、文書作成時における発想に際しては、既存の
文書を参照して引用することが頻繁に行われる。
【0003】一般に、参考とする既存の文書はその数も
多く、個々の文書中における文章量も多い。したがっ
て、この参考とする既存の文書をそのまま全部読んでい
ては時間や労力を消費してしまい、本来の目的である文
書作成にかける力が減少してしまう。
多く、個々の文書中における文章量も多い。したがっ
て、この参考とする既存の文書をそのまま全部読んでい
ては時間や労力を消費してしまい、本来の目的である文
書作成にかける力が減少してしまう。
【0004】参考とする文書の多さについては、検索装
置を用いて文書内容を絞り込むことによって減らすこと
ができる。また、個々の文書中における文章量の多さに
ついては、要約/要旨抽出装置を用いることによって減
少できる。
置を用いて文書内容を絞り込むことによって減らすこと
ができる。また、個々の文書中における文章量の多さに
ついては、要約/要旨抽出装置を用いることによって減
少できる。
【0005】ここで、個々の文書の文章量を減少させる
ことによって参照の手間を軽減するために、文書から要
約/要旨抽出を抽出する場合を考える。この場合には、
文書の文章量を減少させても元の文書に含まれる重要な
内容が損なわれないような手法を用いる必要がある。
ことによって参照の手間を軽減するために、文書から要
約/要旨抽出を抽出する場合を考える。この場合には、
文書の文章量を減少させても元の文書に含まれる重要な
内容が損なわれないような手法を用いる必要がある。
【0006】従来から提唱されている文書要約の手法と
しては、次の2つの手法がある。第1の手法は、文章を
表層的に解析するものである。この手法には、単語の出
現頻度解析から文章の重要箇所を決定して元の文書に含
まれている単語の組み合わせや文の抽出によって要約文
の生成を行うものや、文の文末表現および用言によって
文章中における強調/主張文を抽出するものが含まれ
る。
しては、次の2つの手法がある。第1の手法は、文章を
表層的に解析するものである。この手法には、単語の出
現頻度解析から文章の重要箇所を決定して元の文書に含
まれている単語の組み合わせや文の抽出によって要約文
の生成を行うものや、文の文末表現および用言によって
文章中における強調/主張文を抽出するものが含まれ
る。
【0007】第2の手法は、文章を意味的に解析するも
のである。この手法には、事前に文章の形式や文脈を仮
定しておいてその仮定に沿って文章を解析して要約を抽
出するものや、文の係り受けの粗密性を用いることによ
って内容の重要性を定義して要約を抽出するものが含ま
れる。
のである。この手法には、事前に文章の形式や文脈を仮
定しておいてその仮定に沿って文章を解析して要約を抽
出するものや、文の係り受けの粗密性を用いることによ
って内容の重要性を定義して要約を抽出するものが含ま
れる。
【0008】
【発明が解決しようとする課題】上述のように、従来の
文書要約の手法には、文章を表層的に解析する第1の手
法と文章を意味的に解析する第2の手法との2つの手法
があり、各手法には夫々以下のような問題点がある。す
なわち、第1の手法の場合は、第2の手法に比べて簡単
に実施できる反面、意味を扱わないので文書中の不要な
箇所を重要な箇所と誤って判断してしまうという問題が
ある。一方、第2の手法の場合は、最初の仮定が当て嵌
まらないようなタイプの文書に対しては全く非力であ
り、内容の重要性の定義自体が困難であるという問題が
ある。しかも、第1の手法に比べて処理が複雑である。
文書要約の手法には、文章を表層的に解析する第1の手
法と文章を意味的に解析する第2の手法との2つの手法
があり、各手法には夫々以下のような問題点がある。す
なわち、第1の手法の場合は、第2の手法に比べて簡単
に実施できる反面、意味を扱わないので文書中の不要な
箇所を重要な箇所と誤って判断してしまうという問題が
ある。一方、第2の手法の場合は、最初の仮定が当て嵌
まらないようなタイプの文書に対しては全く非力であ
り、内容の重要性の定義自体が困難であるという問題が
ある。しかも、第1の手法に比べて処理が複雑である。
【0009】そこで、この発明の目的は、特定の文書形
式や文脈を仮定することなく、簡単な処理によって文書
における質の良い重要部分を要約として抽出できる文書
要約装置を提供することにある。
式や文脈を仮定することなく、簡単な処理によって文書
における質の良い重要部分を要約として抽出できる文書
要約装置を提供することにある。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明の文書要約装置は、単語の特徴ベクトル
が格納された単語辞書と、文書入力部から入力された文
書に対して所定の解析を行って上記入力文書を段落,文
および単語に分割する文書解析部と、上記分割された単
語の特徴ベクトルを上記単語辞書を用いて求め、さらに
この求められた単語の特徴ベクトルに基づいて上記分割
された文および段落と上記入力文書の特徴ベクトルを所
定の手順によって生成する特徴ベクトル生成部と、上記
入力文書,段落および文の特徴ベクトル間の距離を所定
の手順によって算出する距離算出部と、上記算出された
各特徴ベクトル間の距離に基づいて、上記入力文書の要
約を所定の手順によって生成する文書要約生成部を備え
たことを特徴としている。
め、第1の発明の文書要約装置は、単語の特徴ベクトル
が格納された単語辞書と、文書入力部から入力された文
書に対して所定の解析を行って上記入力文書を段落,文
および単語に分割する文書解析部と、上記分割された単
語の特徴ベクトルを上記単語辞書を用いて求め、さらに
この求められた単語の特徴ベクトルに基づいて上記分割
された文および段落と上記入力文書の特徴ベクトルを所
定の手順によって生成する特徴ベクトル生成部と、上記
入力文書,段落および文の特徴ベクトル間の距離を所定
の手順によって算出する距離算出部と、上記算出された
各特徴ベクトル間の距離に基づいて、上記入力文書の要
約を所定の手順によって生成する文書要約生成部を備え
たことを特徴としている。
【0011】また、第2の発明は、上記第1の発明の文
書要約装置であって、上記距離算出部は、上記入力文書
と各段落との特徴ベクトル間距離,上記入力文書と各段
落毎の文との特徴ベクトル間距離,各段落と夫々の段落
内の文との特徴ベクトル間距離または上記入力文書と各
文との特徴ベクトル間距離を算出し、上記文書要約生成
部は、上記算出された各特徴ベクトル間距離に基づい
て、上記入力文書に最も近い段落,上記入力文書に最も
近い各段落毎の文,各段落に最も近い夫々の段落内の文
および上記入力文書に近い複数の文の少なくとも一つを
入力文書の要約として選出することによって上記入力文
書の要約を生成することを特徴としている。
書要約装置であって、上記距離算出部は、上記入力文書
と各段落との特徴ベクトル間距離,上記入力文書と各段
落毎の文との特徴ベクトル間距離,各段落と夫々の段落
内の文との特徴ベクトル間距離または上記入力文書と各
文との特徴ベクトル間距離を算出し、上記文書要約生成
部は、上記算出された各特徴ベクトル間距離に基づい
て、上記入力文書に最も近い段落,上記入力文書に最も
近い各段落毎の文,各段落に最も近い夫々の段落内の文
および上記入力文書に近い複数の文の少なくとも一つを
入力文書の要約として選出することによって上記入力文
書の要約を生成することを特徴としている。
【0012】
【作用】第1の発明では、文書入力部から文書が入力さ
れると、文書解析部によって上記入力文書に対して例え
ば形態素解析等の解析が行われて上記入力文書が段落,
文および単語に分割される。そして、この分割された単
語の特徴ベクトルが特徴ベクトル生成部によって単語辞
書を用いて求められ、さらにこの求められた単語の特徴
ベクトルに基づいて、上記分割された文および段落と上
記入力文書の特徴ベクトルが所定の手順によって生成さ
れる。
れると、文書解析部によって上記入力文書に対して例え
ば形態素解析等の解析が行われて上記入力文書が段落,
文および単語に分割される。そして、この分割された単
語の特徴ベクトルが特徴ベクトル生成部によって単語辞
書を用いて求められ、さらにこの求められた単語の特徴
ベクトルに基づいて、上記分割された文および段落と上
記入力文書の特徴ベクトルが所定の手順によって生成さ
れる。
【0013】そうすると、距離算出部によって、上記入
力文書,段落および文の特徴ベクトル間の距離が所定の
手順によって算出される。そして、この各特徴ベクトル
間の距離に基づいて、文書要約生成部によって、上記入
力文書の要約が所定の手順によって生成される。こうし
て、入力文書が特徴ベクトルを用いて解析されて文書に
おける質の良い重要部が要約として抽出される。
力文書,段落および文の特徴ベクトル間の距離が所定の
手順によって算出される。そして、この各特徴ベクトル
間の距離に基づいて、文書要約生成部によって、上記入
力文書の要約が所定の手順によって生成される。こうし
て、入力文書が特徴ベクトルを用いて解析されて文書に
おける質の良い重要部が要約として抽出される。
【0014】また、第2の発明では、特徴ベクトル生成
部によって生成された入力文書,段落および文の特徴ベ
クトルに基づいて、距離算出部によって、上記入力文書
と各段落との特徴ベクトル間距離,上記入力文書と各段
落毎の文との特徴ベクトル間距離,各段落と夫々の段落
内の文との特徴ベクトル間距離あるいは上記入力文書と
各文との特徴ベクトル間距離が算出される。そして、こ
の算出された各特徴ベクトル間距離に基づいて、文書要
約生成部によって、上記入力文書に最も近い段落,上記
入力文書に最も近い各段落毎の文,各段落に最も近い夫
々の段落内の文および上記入力文書に近い複数の文の少
なくとも一つが入力文書の要約として選出されて上記入
力文書の要約が生成される。
部によって生成された入力文書,段落および文の特徴ベ
クトルに基づいて、距離算出部によって、上記入力文書
と各段落との特徴ベクトル間距離,上記入力文書と各段
落毎の文との特徴ベクトル間距離,各段落と夫々の段落
内の文との特徴ベクトル間距離あるいは上記入力文書と
各文との特徴ベクトル間距離が算出される。そして、こ
の算出された各特徴ベクトル間距離に基づいて、文書要
約生成部によって、上記入力文書に最も近い段落,上記
入力文書に最も近い各段落毎の文,各段落に最も近い夫
々の段落内の文および上記入力文書に近い複数の文の少
なくとも一つが入力文書の要約として選出されて上記入
力文書の要約が生成される。
【0015】
【実施例】以下、この発明を図示の実施例により詳細に
説明する。図1は本実施例の文書要約装置におけるブロ
ック図である。文書入力部1は対話型のキーボードや光
学式文字読み取り装置(OCR)の他に通信回線や着脱式
外部記憶装置で構成され、要約作成の対象となる文書が
入力される。そして、文書入力部1から入力された文書
は文書記憶部2に記憶される。さらに、この文書記憶部
2には生成された要約文も格納される。
説明する。図1は本実施例の文書要約装置におけるブロ
ック図である。文書入力部1は対話型のキーボードや光
学式文字読み取り装置(OCR)の他に通信回線や着脱式
外部記憶装置で構成され、要約作成の対象となる文書が
入力される。そして、文書入力部1から入力された文書
は文書記憶部2に記憶される。さらに、この文書記憶部
2には生成された要約文も格納される。
【0016】文書出力部3は対話型のCRT(カソード・
レイ・チューブ)や液晶表示装置(LCD)の他にプリンタ
や通信回線や着脱式外部記憶装置で構成され、入力文書
や要約文を出力する。
レイ・チューブ)や液晶表示装置(LCD)の他にプリンタ
や通信回線や着脱式外部記憶装置で構成され、入力文書
や要約文を出力する。
【0017】文書処理部4は編集/検索等の一般的な文
書処理を実施する他に、以下に述べる文書解析部5,文
脈ベクトル生成部6及び文脈ベクトル比較部7を制御し
て、入力文書の要旨や要約を生成する。
書処理を実施する他に、以下に述べる文書解析部5,文
脈ベクトル生成部6及び文脈ベクトル比較部7を制御し
て、入力文書の要旨や要約を生成する。
【0018】上記文書解析部5は、文書記憶部2から読
み出した文書を解析して単語,文および段落に分解す
る。その際における文書解析方法としては、形態素解析
を行って文書を単語に分解したり、特定の区切りに注目
して文書を段落や文に分解したりする。上記文脈ベクト
ル生成部6は、上記文書解析部5によって文書を分解し
て得られた段落,文,単語および元の文書の文脈ベクトル
を生成する。
み出した文書を解析して単語,文および段落に分解す
る。その際における文書解析方法としては、形態素解析
を行って文書を単語に分解したり、特定の区切りに注目
して文書を段落や文に分解したりする。上記文脈ベクト
ル生成部6は、上記文書解析部5によって文書を分解し
て得られた段落,文,単語および元の文書の文脈ベクトル
を生成する。
【0019】ここで、上記文脈ベクトルについて簡単に
説明する。何個かの特徴語を用意して特徴空間を定義す
る。上記特徴語としては、例えば次のような単語を定義
する。人間,男,女,機械,知識,活動,経験,政治,
芸術,科学,…上記特徴語の個数は任意であるが、少な
くとも200語〜500語程度は用意しておく方が実用
上は望ましい。また、特徴語の種類や分野についても任
意であり、選択に当たっての厳密さは要求されず、特徴
が相互にオーバーラップしていても構わない。さらに、
要約抽出の対象となる文書の分野が特定の分野である場
合には、その分野に特有の特徴語を充実させることによ
って、この特徴語に基づいて生成される文脈ベクトルの
精度が向上して品質の高い要約を抽出できることにな
る。
説明する。何個かの特徴語を用意して特徴空間を定義す
る。上記特徴語としては、例えば次のような単語を定義
する。人間,男,女,機械,知識,活動,経験,政治,
芸術,科学,…上記特徴語の個数は任意であるが、少な
くとも200語〜500語程度は用意しておく方が実用
上は望ましい。また、特徴語の種類や分野についても任
意であり、選択に当たっての厳密さは要求されず、特徴
が相互にオーバーラップしていても構わない。さらに、
要約抽出の対象となる文書の分野が特定の分野である場
合には、その分野に特有の特徴語を充実させることによ
って、この特徴語に基づいて生成される文脈ベクトルの
精度が向上して品質の高い要約を抽出できることにな
る。
【0020】単語辞書8に文脈ベクトルを生成する際に
使用される単語を格納し、上記単語辞書8に格納された
各単語と上記特徴語との関連の有無(あるいは、関連の
強度)に応じて当該単語を上記特徴空間に配置する。そ
の際における各単語の特徴空間上の位置がその単語の文
脈ベクトルであり、この文脈ベクトルは単語に対応付け
て単語辞書8に格納される。
使用される単語を格納し、上記単語辞書8に格納された
各単語と上記特徴語との関連の有無(あるいは、関連の
強度)に応じて当該単語を上記特徴空間に配置する。そ
の際における各単語の特徴空間上の位置がその単語の文
脈ベクトルであり、この文脈ベクトルは単語に対応付け
て単語辞書8に格納される。
【0021】図2は各単語の文脈ベクトルが定義された
単語辞書8の内容の一例である。上記単語の文脈ベクト
ルは、単語辞書8内に格納されている単語と上記各特徴
語との関連をその有無(あるいは、強度)によって段階的
に表現した数字を要素とするベクトルである。すなわ
ち、図2においては、関連がある場合には要素“1"を
与え、関連が無い場合には要素“0"を与えている。
尚、各要素の配列順序は上述した特徴語の配列順序と同
じである。
単語辞書8の内容の一例である。上記単語の文脈ベクト
ルは、単語辞書8内に格納されている単語と上記各特徴
語との関連をその有無(あるいは、強度)によって段階的
に表現した数字を要素とするベクトルである。すなわ
ち、図2においては、関連がある場合には要素“1"を
与え、関連が無い場合には要素“0"を与えている。
尚、各要素の配列順序は上述した特徴語の配列順序と同
じである。
【0022】したがって、図2に例示された単語の文脈
ベクトルは以下のことを表現している。すなわち、「人
間」という単語は、各特徴語“人間",“男",“女",…と
は関連があり、各特徴語“機械",“知識",“活動",“経
験",“政治",“芸術",“科学",…とは関連が無いと言う
特徴を表現してる。また、「自動車」という単語は、各特
徴語“人間",“男",“女",“知識",“経験",“政治",
“芸術",“科学",…とは関連が無く、各特徴語“機械",
“活動",…とは関連があると言う特徴を表現している
のである。
ベクトルは以下のことを表現している。すなわち、「人
間」という単語は、各特徴語“人間",“男",“女",…と
は関連があり、各特徴語“機械",“知識",“活動",“経
験",“政治",“芸術",“科学",…とは関連が無いと言う
特徴を表現してる。また、「自動車」という単語は、各特
徴語“人間",“男",“女",“知識",“経験",“政治",
“芸術",“科学",…とは関連が無く、各特徴語“機械",
“活動",…とは関連があると言う特徴を表現している
のである。
【0023】尚、本実施例において文脈ベクトルを生成
する際に用いる単語は、“名詞"および“サ変名詞(語尾
に「する」と付けるとサ行変格活用動詞になる名詞)"だけ
である。したがって、単語辞書8に登録されている単語
も名詞およびサ変名詞である。
する際に用いる単語は、“名詞"および“サ変名詞(語尾
に「する」と付けるとサ行変格活用動詞になる名詞)"だけ
である。したがって、単語辞書8に登録されている単語
も名詞およびサ変名詞である。
【0024】上記文脈ベクトル生成部6は、上記文書,
段落,文および単語の文脈ベクトルを生成する際には次
のようにして生成する。すなわち、先ず、上述のように
して予め単語辞書8に格納されている単語の文脈ベクト
ルを参照して、目的とする単語の文脈ベクトルを求め
る。次に、上述のようにして求められた目的とする文を
構成する各単語(名詞およびサ変名詞)の文脈ベクトルを
加算/正規化して、上記目的とする文の文脈ベクトルを
求める。尚、上記文脈ベクトルの正規化とは、文脈ベク
トルの長さを一定の値に揃えることである。
段落,文および単語の文脈ベクトルを生成する際には次
のようにして生成する。すなわち、先ず、上述のように
して予め単語辞書8に格納されている単語の文脈ベクト
ルを参照して、目的とする単語の文脈ベクトルを求め
る。次に、上述のようにして求められた目的とする文を
構成する各単語(名詞およびサ変名詞)の文脈ベクトルを
加算/正規化して、上記目的とする文の文脈ベクトルを
求める。尚、上記文脈ベクトルの正規化とは、文脈ベク
トルの長さを一定の値に揃えることである。
【0025】また、上記段落の文脈ベクトルは、上述の
ようにして求められた目的とする段落を構成する各単語
(名詞およびサ変名詞)の文脈ベクトルを加算/正規化し
て求める。同様に、目的とする文書を構成する各単語の
文脈ベクトルを加算/正規化して、文書全体の文脈ベク
トルを求める。
ようにして求められた目的とする段落を構成する各単語
(名詞およびサ変名詞)の文脈ベクトルを加算/正規化し
て求める。同様に、目的とする文書を構成する各単語の
文脈ベクトルを加算/正規化して、文書全体の文脈ベク
トルを求める。
【0026】上記文脈ベクトル比較部7は、上記文脈ベ
クトル生成部6によって生成された文書と各段落との文
脈ベクトル,文書と各段落毎の文との文脈ベクトル,各段
落と夫々の段落内の文との文脈ベクトルおよび文書と各
文との文脈ベクトルの比較を行って、各文脈ベクトル間
の距離を算出する。その際に、算出される2つの文脈ベ
クトル間の距離としては、正規化された当該両文脈ベク
トルの内積を与える。そして、内積値が大きいほど距離
が遠いとするのである。
クトル生成部6によって生成された文書と各段落との文
脈ベクトル,文書と各段落毎の文との文脈ベクトル,各段
落と夫々の段落内の文との文脈ベクトルおよび文書と各
文との文脈ベクトルの比較を行って、各文脈ベクトル間
の距離を算出する。その際に、算出される2つの文脈ベ
クトル間の距離としては、正規化された当該両文脈ベク
トルの内積を与える。そして、内積値が大きいほど距離
が遠いとするのである。
【0027】そして、上述のようにして算出された各文
脈ベクトル間距離の値に基づいて、上記文書処理部4に
よって文書に近い段落や文および段落に近い文を選出す
ることによって、入力文書の要約が生成されるのであ
る。こうして生成された文書の要約は上記文書記憶部2
に格納され、必要に応じて文書出力部3より出力され
る。
脈ベクトル間距離の値に基づいて、上記文書処理部4に
よって文書に近い段落や文および段落に近い文を選出す
ることによって、入力文書の要約が生成されるのであ
る。こうして生成された文書の要約は上記文書記憶部2
に格納され、必要に応じて文書出力部3より出力され
る。
【0028】すなわち、上記特徴ベクトルは文脈ベクト
ルであって、上記特徴ベクトル生成部を文脈ベクトル生
成部6で構成し、上記距離算出部を文脈ベクトル比較部
7で構成し、上記文書要約生成部を文書処理部4で構成
するのである。
ルであって、上記特徴ベクトル生成部を文脈ベクトル生
成部6で構成し、上記距離算出部を文脈ベクトル比較部
7で構成し、上記文書要約生成部を文書処理部4で構成
するのである。
【0029】図3は上記文書処理部4によって実施され
る要約作成処理動作のフローチャートである。以下、図
3に従って上記要約作成処理動作について詳細に説明す
る。
る要約作成処理動作のフローチャートである。以下、図
3に従って上記要約作成処理動作について詳細に説明す
る。
【0030】ステップS1で、上記文書入力部1から要
約抽出の対象となる文書が入力されて文書記憶部2に記
憶される。ステップS2で、上記文書解析部5によっ
て、文書記憶部2から文書が読み出されて段落単位に分
割される。その際に、例えば改行を段落の区切りとす
る。ステップS3で、上記文書解析部5によって、文書
記憶部2から文書が読み出されて文単位に分割される。
その際に、例えば句点を文の区切りとする。
約抽出の対象となる文書が入力されて文書記憶部2に記
憶される。ステップS2で、上記文書解析部5によっ
て、文書記憶部2から文書が読み出されて段落単位に分
割される。その際に、例えば改行を段落の区切りとす
る。ステップS3で、上記文書解析部5によって、文書
記憶部2から文書が読み出されて文単位に分割される。
その際に、例えば句点を文の区切りとする。
【0031】ステップS4で、上記文書解析部5によっ
て、文書記憶部2から文書が読み出され、この読み出さ
れた文書が形態素解析によって単語に分解される。そし
て、得られた単語のうち名詞およびサ変名詞(以下、両
者を単に単語という)のみが文書,上記ステップS2にお
いて分割された各段落および上記ステップS3において
分割された各文の単位で文脈ベクトル生成部6に送出さ
れる。
て、文書記憶部2から文書が読み出され、この読み出さ
れた文書が形態素解析によって単語に分解される。そし
て、得られた単語のうち名詞およびサ変名詞(以下、両
者を単に単語という)のみが文書,上記ステップS2にお
いて分割された各段落および上記ステップS3において
分割された各文の単位で文脈ベクトル生成部6に送出さ
れる。
【0032】ステップS5で、上記文脈ベクトル生成部
6によって、文書の文脈ベクトル,各段落の文脈ベクト
ルおよび各文の文脈ベクトルが次のようにして生成され
る。すなわち、先ず、上記文書を構成する単語,各段落
を構成する単語および各文を構成する単語の文脈ベクト
ルが上記単語辞書8を引くことによって得られる。次
に、各文を構成する単語の文脈ベクトルが加算され正規
化されて各文の文脈ベクトルが得られる。同様に、各段
落を構成する単語の文脈ベクトルが加算され正規化され
て各段落の文脈ベクトルが得られ、文書を構成する単語
の文脈ベクトルが加算され正規化されて文書の文脈ベク
トルが得られる。
6によって、文書の文脈ベクトル,各段落の文脈ベクト
ルおよび各文の文脈ベクトルが次のようにして生成され
る。すなわち、先ず、上記文書を構成する単語,各段落
を構成する単語および各文を構成する単語の文脈ベクト
ルが上記単語辞書8を引くことによって得られる。次
に、各文を構成する単語の文脈ベクトルが加算され正規
化されて各文の文脈ベクトルが得られる。同様に、各段
落を構成する単語の文脈ベクトルが加算され正規化され
て各段落の文脈ベクトルが得られ、文書を構成する単語
の文脈ベクトルが加算され正規化されて文書の文脈ベク
トルが得られる。
【0033】ステップS6で、上記ステップS5において
得られた文書の文脈ベクトルと各段落の文脈ベクトルと
が比較されて各文脈ベクトル間の距離が算出される。ま
た、文書の文脈ベクトルと各文の文脈ベクトルが各段落
毎に比較されて各文脈ベクトル間の距離が算出される。
また、各段落の文脈ベクトルと夫々の段落内の文の文脈
ベクトルとが比較されて各文脈ベクトル間の距離が算出
される。さらに、文書の文脈ベクトルと各文の文脈ベク
トルとが比較されて各文脈ベクトル間の距離が算出され
る。ステップS7で、上記ステップS6において算出され
た文書と各段落との文脈ベクトル間距離が参照され、文
書の文脈ベクトルに最も近い文脈ベクトルを有する段落
が重要段落と見なされて、この重要段落が入力文書の要
旨として文書記憶部2に格納され、必要に応じ文書出力
部3から出力される。
得られた文書の文脈ベクトルと各段落の文脈ベクトルと
が比較されて各文脈ベクトル間の距離が算出される。ま
た、文書の文脈ベクトルと各文の文脈ベクトルが各段落
毎に比較されて各文脈ベクトル間の距離が算出される。
また、各段落の文脈ベクトルと夫々の段落内の文の文脈
ベクトルとが比較されて各文脈ベクトル間の距離が算出
される。さらに、文書の文脈ベクトルと各文の文脈ベク
トルとが比較されて各文脈ベクトル間の距離が算出され
る。ステップS7で、上記ステップS6において算出され
た文書と各段落との文脈ベクトル間距離が参照され、文
書の文脈ベクトルに最も近い文脈ベクトルを有する段落
が重要段落と見なされて、この重要段落が入力文書の要
旨として文書記憶部2に格納され、必要に応じ文書出力
部3から出力される。
【0034】ステップS8で、上記ステップS6において
算出された文書と各段落毎の文との文脈ベクトル間距離
が参照され、文書の文脈ベクトルに最も近い文脈ベクト
ルを有する各段落毎の文が選出される。そして、選出さ
れた各段落毎の文が元の段落の順番に並べられて入力文
書の要約として文書記憶部2に格納され、必要に応じて
文書出力部3から出力される。ステップS9で、上記ス
テップS6において算出された各段落と夫々の段落内の
文との文脈ベクトル間距離が参照され、各段落の文脈ベ
クトルに最も近い文脈ベクトルを有する夫々の段落内の
文が選出される。そして、上記選出された各段落毎の文
が元の段落の順番に並べられて入力文書の要約として文
書記憶部2に格納され、必要に応じて文書出力部3から
出力される。ステップS10で、上記ステップS6におい
て算出された文書と各文との文脈ベクトル間距離が参照
され、文書の文脈ベクトルに最も近い文脈ベクトルを有
する文から距離の短い順に所定数の文が選出される。そ
して、こうして選出された複数文が入力文書の要旨とし
て文書記憶部2に格納され、必要に応じて文書出力部3
から出力されて要約作成処理動作を終了する。
算出された文書と各段落毎の文との文脈ベクトル間距離
が参照され、文書の文脈ベクトルに最も近い文脈ベクト
ルを有する各段落毎の文が選出される。そして、選出さ
れた各段落毎の文が元の段落の順番に並べられて入力文
書の要約として文書記憶部2に格納され、必要に応じて
文書出力部3から出力される。ステップS9で、上記ス
テップS6において算出された各段落と夫々の段落内の
文との文脈ベクトル間距離が参照され、各段落の文脈ベ
クトルに最も近い文脈ベクトルを有する夫々の段落内の
文が選出される。そして、上記選出された各段落毎の文
が元の段落の順番に並べられて入力文書の要約として文
書記憶部2に格納され、必要に応じて文書出力部3から
出力される。ステップS10で、上記ステップS6におい
て算出された文書と各文との文脈ベクトル間距離が参照
され、文書の文脈ベクトルに最も近い文脈ベクトルを有
する文から距離の短い順に所定数の文が選出される。そ
して、こうして選出された複数文が入力文書の要旨とし
て文書記憶部2に格納され、必要に応じて文書出力部3
から出力されて要約作成処理動作を終了する。
【0035】オペレータは、上記文書出力部3から出力
される2種類の要旨と2種類の要約から自分の目的に応
じたものを選択して、以後の文書作成等に利用する。
される2種類の要旨と2種類の要約から自分の目的に応
じたものを選択して、以後の文書作成等に利用する。
【0036】尚、上記文書出力部3は、通常の文書出力
手段と同じに構成されている。したがって、上述の要旨
/要約のみを出力したり、上述の要旨/要約の箇所がアン
ダーラインや反転等によって強調された文書全体を出力
することが可能である。
手段と同じに構成されている。したがって、上述の要旨
/要約のみを出力したり、上述の要旨/要約の箇所がアン
ダーラインや反転等によって強調された文書全体を出力
することが可能である。
【0037】このように、上記実施例においては、文書
入力部1から入力された文書を文書解析部5によって段
落,文および単語に分解する。そして、文脈ベクトル生
成部6によって上記文書を構成する単語,各段落を構成
する単語および各文を構成する単語の文脈ベクトルを求
め、この各単語の文脈ベクトルに基づいて各文の文脈ベ
クトル,各段落の文脈ベクトルおよび文書の文脈ベクト
ルを得る。そうした後、上記文脈ベクトル比較部7によ
って、各段落と文書との文脈ベクトル間距離,各段落毎
の文と文書との文脈ベクトル間距離,各段落内の文と夫
々の段落との文脈ベクトル間距離および各文と文書との
文脈ベクトル間距離を算出する。
入力部1から入力された文書を文書解析部5によって段
落,文および単語に分解する。そして、文脈ベクトル生
成部6によって上記文書を構成する単語,各段落を構成
する単語および各文を構成する単語の文脈ベクトルを求
め、この各単語の文脈ベクトルに基づいて各文の文脈ベ
クトル,各段落の文脈ベクトルおよび文書の文脈ベクト
ルを得る。そうした後、上記文脈ベクトル比較部7によ
って、各段落と文書との文脈ベクトル間距離,各段落毎
の文と文書との文脈ベクトル間距離,各段落内の文と夫
々の段落との文脈ベクトル間距離および各文と文書との
文脈ベクトル間距離を算出する。
【0038】そして、上記文書処理部4によって、文書
に最も近い段落と文書に近い所定数の文との2種類の要
旨、及び、文書に最も近い各段落毎の文の段落順の羅列
と各段落に最も近い夫々の段落内の文の段落順の羅列と
の2種類の要約を生成して、上記文書出力部3から出力
する。
に最も近い段落と文書に近い所定数の文との2種類の要
旨、及び、文書に最も近い各段落毎の文の段落順の羅列
と各段落に最も近い夫々の段落内の文の段落順の羅列と
の2種類の要約を生成して、上記文書出力部3から出力
する。
【0039】こうして、入力文書を文脈ベクトルを用い
て解析することによって、従来の意味的解析を伴わない
表層的な解析による上記第1の文書要約手法に比較し
て、文書における質の良い重要部分を抽出できる。ま
た、従来の文章を意味的に解析する第2の文書要約手法
に比較して、事前に特定の文書形式や文脈を仮定する必
要がないので、入力文書に対する自由度が大きく種々の
タイプの文書に適用可能である。さらに、入力文書の構
造解析や文脈の意味理解を行って内容の重要性を定義す
る必要がないので、より簡単な処理によって要約の抽出
を実施できる。
て解析することによって、従来の意味的解析を伴わない
表層的な解析による上記第1の文書要約手法に比較し
て、文書における質の良い重要部分を抽出できる。ま
た、従来の文章を意味的に解析する第2の文書要約手法
に比較して、事前に特定の文書形式や文脈を仮定する必
要がないので、入力文書に対する自由度が大きく種々の
タイプの文書に適用可能である。さらに、入力文書の構
造解析や文脈の意味理解を行って内容の重要性を定義す
る必要がないので、より簡単な処理によって要約の抽出
を実施できる。
【0040】上記実施例においては、各段落の文脈ベク
トルは目的とする段落を構成する各単語の文脈ベクトル
に基づいて求め、文書の文脈ベクトルはこの文書を構成
する各単語の文脈ベクトルに基づいて求めている。しか
しながら、この発明はこれに限定されるものではなく、
各段落の文脈ベクトルは目的とする段落を構成する各文
の文脈ベクトルに基づいて求め、文書の文脈ベクトルは
この文書を構成する段落の文脈ベクトルに基づいて求め
てもよい。
トルは目的とする段落を構成する各単語の文脈ベクトル
に基づいて求め、文書の文脈ベクトルはこの文書を構成
する各単語の文脈ベクトルに基づいて求めている。しか
しながら、この発明はこれに限定されるものではなく、
各段落の文脈ベクトルは目的とする段落を構成する各文
の文脈ベクトルに基づいて求め、文書の文脈ベクトルは
この文書を構成する段落の文脈ベクトルに基づいて求め
てもよい。
【0041】上記実施例においては、上記文脈ベクトル
生成部6によって文脈ベクトルを生成する際に用いる単
語辞書8に登録されている単語は名詞およびサ変名詞に
限定しているが、この発明はこれに限定されないことは
言うまでもない。また、上記実施例においては、文脈ベ
クトルの要素として当該単語と各特徴語とに関連がある
場合には“1"を与える一方、関連が無い場合には“0"
を与えている。しかしながら、この発明はこれに限定さ
れるものではなく、関連の強度を段階的に表現した数字
を与えてもよい。また、上記実施例においては、文書に
最も近い段落,文書に近い所定数の文,文書に最も近い各
段落毎の文の段落順の羅列および各段落に最も近い夫々
の段落内の文の段落順の羅列から成る4種類の要旨/要
約を生成して上記文書出力部3から出力するようにして
いるが、その中の幾つかを組み合わせて出力してもよ
い。
生成部6によって文脈ベクトルを生成する際に用いる単
語辞書8に登録されている単語は名詞およびサ変名詞に
限定しているが、この発明はこれに限定されないことは
言うまでもない。また、上記実施例においては、文脈ベ
クトルの要素として当該単語と各特徴語とに関連がある
場合には“1"を与える一方、関連が無い場合には“0"
を与えている。しかしながら、この発明はこれに限定さ
れるものではなく、関連の強度を段階的に表現した数字
を与えてもよい。また、上記実施例においては、文書に
最も近い段落,文書に近い所定数の文,文書に最も近い各
段落毎の文の段落順の羅列および各段落に最も近い夫々
の段落内の文の段落順の羅列から成る4種類の要旨/要
約を生成して上記文書出力部3から出力するようにして
いるが、その中の幾つかを組み合わせて出力してもよ
い。
【0042】上記実施例における文書要約装置は、必ず
しも単独で使用しなければならない訳ではなく、従来か
らの文書要約手法による文書要約装置と併用しても何ら
差し支えない。
しも単独で使用しなければならない訳ではなく、従来か
らの文書要約手法による文書要約装置と併用しても何ら
差し支えない。
【0043】
【発明の効果】以上より明らかなように、第1の発明の
文書要約装置は、文書入力部から入力された文書を文書
解析部で段落,文および単語に分割し、特徴ベクトル生
成部によって、単語辞書を用いて上記単語,文,段落およ
び入力文書の特徴ベクトルを生成し、距離算出部によっ
て、上記入力文書,段落および文の特徴ベクトル間の距
離を所定の手順で算出し、文書要約生成部によって、上
記各特徴ベクトル間距離に基づいて上記入力文書の要約
を所定の手順で生成するので、上記特徴ベクトルを用い
た入力文書の解析結果に基づいて入力文書の要約を生成
できる。したがって、特定の文書形式や文脈を仮定する
ことなく、簡単な処理によって文書における質の良い重
要部を要約として抽出できる。
文書要約装置は、文書入力部から入力された文書を文書
解析部で段落,文および単語に分割し、特徴ベクトル生
成部によって、単語辞書を用いて上記単語,文,段落およ
び入力文書の特徴ベクトルを生成し、距離算出部によっ
て、上記入力文書,段落および文の特徴ベクトル間の距
離を所定の手順で算出し、文書要約生成部によって、上
記各特徴ベクトル間距離に基づいて上記入力文書の要約
を所定の手順で生成するので、上記特徴ベクトルを用い
た入力文書の解析結果に基づいて入力文書の要約を生成
できる。したがって、特定の文書形式や文脈を仮定する
ことなく、簡単な処理によって文書における質の良い重
要部を要約として抽出できる。
【0044】すなわち、この発明によれば、入力文書中
における不要な箇所を重要な箇所と誤ったり、仮定した
文書形式や文脈に当て嵌まらない入力文書に対して全く
非力であったりすることなく、種々のタイプの入力文書
からより適切な要約を抽出できる。
における不要な箇所を重要な箇所と誤ったり、仮定した
文書形式や文脈に当て嵌まらない入力文書に対して全く
非力であったりすることなく、種々のタイプの入力文書
からより適切な要約を抽出できる。
【0045】また、第2の発明の文書要約装置は、距離
算出部によって、入力文書と各段落との特徴ベクトル間
距離,上記入力文書と各段落毎の文との特徴ベクトル間
距離,各段落と夫々の段落内の文との特徴ベクトル間距
離または上記入力文書と各文との特徴ベクトル間距離を
算出し、文書要約生成部によって、上記入力文書に最も
近い段落,上記入力文書に最も近い各段落毎の文,各段落
に最も近い夫々の段落内の文および上記入力文書に近い
複数の文の少なくとも一つを入力文書の要約として選出
するので、更に簡単な処理によって文書における質の良
い重要部を抽出できる。
算出部によって、入力文書と各段落との特徴ベクトル間
距離,上記入力文書と各段落毎の文との特徴ベクトル間
距離,各段落と夫々の段落内の文との特徴ベクトル間距
離または上記入力文書と各文との特徴ベクトル間距離を
算出し、文書要約生成部によって、上記入力文書に最も
近い段落,上記入力文書に最も近い各段落毎の文,各段落
に最も近い夫々の段落内の文および上記入力文書に近い
複数の文の少なくとも一つを入力文書の要約として選出
するので、更に簡単な処理によって文書における質の良
い重要部を抽出できる。
【図1】この発明の文書要約装置におけるブロック図で
ある。
ある。
【図2】単語の文脈ベクトルが定義された単語辞書の内
容の一例を示す図である。
容の一例を示す図である。
【図3】要約作成処理動作のフローチャートである。
1…文書入力部、 2…文書記憶部、 3…文書出力部、 4…文書処理部、 5…文書解析部、 6…文脈ベクトル
生成部、 7…文脈ベクトル比較部、 8…単語辞書。
生成部、 7…文脈ベクトル比較部、 8…単語辞書。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−278270(JP,A) 特開 平2−235176(JP,A) 芥子育雄,「ベクトル空間モデルに基 づくフルテキストサーチシステム」, 1992年度人工知能学会全国大会(第6 回)論文集,No.1,1992年6月24 日,p.343−346 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 G06F 17/27 JICSTファイル(JOIS)
Claims (2)
- 【請求項1】 単語の特徴ベクトルが格納された単語辞
書と、 文書入力部から入力された文書に対して所定の解析を行
って、上記入力文書を段落,文および単語に分割する文
書解析部と、 上記分割された単語の特徴ベクトルを上記単語辞書を用
いて求め、さらにこの求められた単語の特徴ベクトルに
基づいて、上記分割された文および段落と上記入力文書
の特徴ベクトルを所定の手順によって生成する特徴ベク
トル生成部と、上記入力文書,段落および文の特徴ベクト
ル間の距離を所定の手順によって算出する距離算出部
と、 上記算出された各特徴ベクトル間の距離に基づいて、上
記入力文書の要約を所定の手順によって生成する文書要
約生成部を備えたことを特徴とする文書要約装置。 - 【請求項2】 請求項1に記載の文書要約装置であっ
て、 上記距離算出部は、上記入力文書と各段落との特徴ベク
トル間距離,上記入力文書と各段落毎の文との特徴ベク
トル間距離,各段落と夫々の段落内の文との特徴ベクト
ル間距離または上記入力文書と各文との特徴ベクトル間
距離を算出し、上記文書要約生成部は、上記算出された
各特徴ベクトル間距離に基づいて、上記入力文書に最も
近い段落,上記入力文書に最も近い各段落毎の文,各段落
に最も近い夫々の段落内の文および上記入力文書に近い
複数の文の少なくとも一つを入力文書の要約として選出
することによって上記入力文書の要約を生成することを
特徴とする文書要約装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5007427A JP2944346B2 (ja) | 1993-01-20 | 1993-01-20 | 文書要約装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5007427A JP2944346B2 (ja) | 1993-01-20 | 1993-01-20 | 文書要約装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06215049A JPH06215049A (ja) | 1994-08-05 |
JP2944346B2 true JP2944346B2 (ja) | 1999-09-06 |
Family
ID=11665568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5007427A Expired - Fee Related JP2944346B2 (ja) | 1993-01-20 | 1993-01-20 | 文書要約装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2944346B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08251222A (ja) * | 1995-03-14 | 1996-09-27 | Sharp Corp | メッセージ通信システム |
JP3594701B2 (ja) * | 1995-07-19 | 2004-12-02 | 株式会社リコー | キーセンテンス抽出装置 |
JP3612125B2 (ja) * | 1995-12-14 | 2005-01-19 | 株式会社東芝 | 情報フィルタリング方法および情報フィルタリング装置 |
JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
JP3001047B2 (ja) | 1997-04-17 | 2000-01-17 | 日本電気株式会社 | 文書要約装置 |
JPH10301956A (ja) * | 1997-04-30 | 1998-11-13 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
JPH10307837A (ja) * | 1997-05-09 | 1998-11-17 | Sharp Corp | 検索装置並びに検索プログラムを記録した記録媒体 |
JP3470021B2 (ja) * | 1997-09-29 | 2003-11-25 | シャープ株式会社 | 文書要約装置及びコンピュータ読み取り可能な記録媒体 |
JP3614648B2 (ja) * | 1998-03-13 | 2005-01-26 | 富士通株式会社 | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3597697B2 (ja) * | 1998-03-20 | 2004-12-08 | 富士通株式会社 | 文書要約装置およびその方法 |
JP3647283B2 (ja) * | 1998-09-21 | 2005-05-11 | シャープ株式会社 | 文書情報抽出装置 |
JP2001034638A (ja) * | 1999-07-27 | 2001-02-09 | Fujitsu Ltd | 索引生成装置及び方法及び記録媒体 |
US7607083B2 (en) * | 2000-12-12 | 2009-10-20 | Nec Corporation | Test summarization using relevance measures and latent semantic analysis |
US7392474B2 (en) * | 2004-04-30 | 2008-06-24 | Microsoft Corporation | Method and system for classifying display pages using summaries |
JP2007265313A (ja) * | 2006-03-30 | 2007-10-11 | National Institute Of Information & Communication Technology | 文書データ表示装置、文書データ表示方法および文書データ表示プログラム |
US8706724B2 (en) | 2009-06-24 | 2014-04-22 | Nec Corporation | Feature extraction device and feature extraction method |
CN114510563A (zh) * | 2022-02-18 | 2022-05-17 | 杭州数梦工场科技有限公司 | 一种摘要文本抽取方法及装置 |
-
1993
- 1993-01-20 JP JP5007427A patent/JP2944346B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
芥子育雄,「ベクトル空間モデルに基づくフルテキストサーチシステム」,1992年度人工知能学会全国大会(第6回)論文集,No.1,1992年6月24日,p.343−346 |
Also Published As
Publication number | Publication date |
---|---|
JPH06215049A (ja) | 1994-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2944346B2 (ja) | 文書要約装置 | |
JP3067966B2 (ja) | 画像部品を検索する装置及びその方法 | |
JP7381052B2 (ja) | 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体 | |
US9262402B2 (en) | Device, method and program for assessing synonymous expressions | |
JP4034797B2 (ja) | 文章解析装置、文章解析方法、文章解析プログラムおよび記録媒体 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
JP5106431B2 (ja) | 機械翻訳装置、プログラム及び方法 | |
JP3470021B2 (ja) | 文書要約装置及びコンピュータ読み取り可能な記録媒体 | |
JP2009128967A (ja) | 文書検索装置 | |
JP3300142B2 (ja) | 自然言語処理装置 | |
US6178415B1 (en) | Phrase retrieving/selecting method and a computer-readable recording medium with a program making a computer execute each step in the method recorded therein | |
JP2007072841A (ja) | 単語抽出方法、データベース構築方法、データベース構築装置、データベース構築プログラムおよび記録媒体 | |
JPH0635961A (ja) | 文書要約装置 | |
JP3006526B2 (ja) | 類似文書検索方法および類似文書検索装置 | |
JP4074687B2 (ja) | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2006127077A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH09319768A (ja) | 要点抽出方法 | |
JPH08153091A (ja) | 文書作成装置及び注釈付加方法 | |
JP2939348B2 (ja) | 画像処理装置 | |
JP4035128B2 (ja) | 語彙情報抽出装置及び語彙情報抽出プログラム | |
JPH08235180A (ja) | 機械翻訳装置 | |
JPH10149364A (ja) | 訳語選択装置と記憶媒体 | |
JPH09185629A (ja) | 機械翻訳方法 | |
JP3010450B2 (ja) | 画像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090625 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |