JPH06215049A - 文書要約装置 - Google Patents

文書要約装置

Info

Publication number
JPH06215049A
JPH06215049A JP5007427A JP742793A JPH06215049A JP H06215049 A JPH06215049 A JP H06215049A JP 5007427 A JP5007427 A JP 5007427A JP 742793 A JP742793 A JP 742793A JP H06215049 A JPH06215049 A JP H06215049A
Authority
JP
Japan
Prior art keywords
document
paragraph
input
sentence
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5007427A
Other languages
English (en)
Other versions
JP2944346B2 (ja
Inventor
Takao Inui
隆夫 乾
Ikuo Karashi
育雄 芥子
Kenichirou Ishikura
謙一郎 石鞍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP5007427A priority Critical patent/JP2944346B2/ja
Publication of JPH06215049A publication Critical patent/JPH06215049A/ja
Application granted granted Critical
Publication of JP2944346B2 publication Critical patent/JP2944346B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 特定の文書形式や文脈を仮定することなく簡
単な処理によって文書における質の良い重要部分を抽出
する。 【構成】 文書解析部5は文書入力部1から入力された
文書を段落,文および単語に分解する。文脈ベクトル生
成部6は、単語辞書8を用いて文,段落および文書の文
脈ベクトルを生成する。文脈ベクトル比較部7は、文書
と各段落毎の文,文書と各段落,段落と段落内の各文およ
び文書と各文の文脈ベクトルを比較して各文脈ベクトル
間距離算出する。文書処理部4は、各文脈ベクトル間距
離を参照して、文書に最も近い段落と文書に近い複数文
との2種類の要旨及び文書に最も近い各段落毎の文と各
段落に最も近い文との2種類の要約を生成する。このよ
うに、入力文書を文脈ベクトルを用いて解析することに
よって、特定の文書形式や文脈を仮定することなく質の
良い重要部分を簡単な処理で抽出できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、アイデアプロセッサ
や文書作成支援装置やワードプロセッサ等に使用されて
文書作成や発想の支援を行う文書要約装置に関する。
【0002】
【従来の技術】発想とは既知の情報の新たな組み合わせ
であり、決して無から有を作り出すことはできない。そ
のために、文書作成時における発想に際しては、既存の
文書を参照して引用することが頻繁に行われる。
【0003】一般に、参考とする既存の文書はその数も
多く、個々の文書中における文章量も多い。したがっ
て、この参考とする既存の文書をそのまま全部読んでい
ては時間や労力を消費してしまい、本来の目的である文
書作成にかける力が減少してしまう。
【0004】参考とする文書の多さについては、検索装
置を用いて文書内容を絞り込むことによって減らすこと
ができる。また、個々の文書中における文章量の多さに
ついては、要約/要旨抽出装置を用いることによって減
少できる。
【0005】ここで、個々の文書の文章量を減少させる
ことによって参照の手間を軽減するために、文書から要
約/要旨抽出を抽出する場合を考える。この場合には、
文書の文章量を減少させても元の文書に含まれる重要な
内容が損なわれないような手法を用いる必要がある。
【0006】従来から提唱されている文書要約の手法と
しては、次の2つの手法がある。第1の手法は、文章を
表層的に解析するものである。この手法には、単語の出
現頻度解析から文章の重要箇所を決定して元の文書に含
まれている単語の組み合わせや文の抽出によって要約文
の生成を行うものや、文の文末表現および用言によって
文章中における強調/主張文を抽出するものが含まれ
る。
【0007】第2の手法は、文章を意味的に解析するも
のである。この手法には、事前に文章の形式や文脈を仮
定しておいてその仮定に沿って文章を解析して要約を抽
出するものや、文の係り受けの粗密性を用いることによ
って内容の重要性を定義して要約を抽出するものが含ま
れる。
【0008】
【発明が解決しようとする課題】上述のように、従来の
文書要約の手法には、文章を表層的に解析する第1の手
法と文章を意味的に解析する第2の手法との2つの手法
があり、各手法には夫々以下のような問題点がある。す
なわち、第1の手法の場合は、第2の手法に比べて簡単
に実施できる反面、意味を扱わないので文書中の不要な
箇所を重要な箇所と誤って判断してしまうという問題が
ある。一方、第2の手法の場合は、最初の仮定が当て嵌
まらないようなタイプの文書に対しては全く非力であ
り、内容の重要性の定義自体が困難であるという問題が
ある。しかも、第1の手法に比べて処理が複雑である。
【0009】そこで、この発明の目的は、特定の文書形
式や文脈を仮定することなく、簡単な処理によって文書
における質の良い重要部分を要約として抽出できる文書
要約装置を提供することにある。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明の文書要約装置は、単語の特徴ベクトル
が格納された単語辞書と、文書入力部から入力された文
書に対して所定の解析を行って上記入力文書を段落,文
および単語に分割する文書解析部と、上記分割された単
語の特徴ベクトルを上記単語辞書を用いて求め、さらに
この求められた単語の特徴ベクトルに基づいて上記分割
された文および段落と上記入力文書の特徴ベクトルを所
定の手順によって生成する特徴ベクトル生成部と、上記
入力文書,段落および文の特徴ベクトル間の距離を所定
の手順によって算出する距離算出部と、上記算出された
各特徴ベクトル間の距離に基づいて、上記入力文書の要
約を所定の手順によって生成する文書要約生成部を備え
たことを特徴としている。
【0011】また、第2の発明は、上記第1の発明の文
書要約装置であって、上記距離算出部は、上記入力文書
と各段落との特徴ベクトル間距離,上記入力文書と各段
落毎の文との特徴ベクトル間距離,各段落と夫々の段落
内の文との特徴ベクトル間距離または上記入力文書と各
文との特徴ベクトル間距離を算出し、上記文書要約生成
部は、上記算出された各特徴ベクトル間距離に基づい
て、上記入力文書に最も近い段落,上記入力文書に最も
近い各段落毎の文,各段落に最も近い夫々の段落内の文
および上記入力文書に近い複数の文の少なくとも一つを
入力文書の要約として選出することによって上記入力文
書の要約を生成することを特徴としている。
【0012】
【作用】第1の発明では、文書入力部から文書が入力さ
れると、文書解析部によって上記入力文書に対して例え
ば形態素解析等の解析が行われて上記入力文書が段落,
文および単語に分割される。そして、この分割された単
語の特徴ベクトルが特徴ベクトル生成部によって単語辞
書を用いて求められ、さらにこの求められた単語の特徴
ベクトルに基づいて、上記分割された文および段落と上
記入力文書の特徴ベクトルが所定の手順によって生成さ
れる。
【0013】そうすると、距離算出部によって、上記入
力文書,段落および文の特徴ベクトル間の距離が所定の
手順によって算出される。そして、この各特徴ベクトル
間の距離に基づいて、文書要約生成部によって、上記入
力文書の要約が所定の手順によって生成される。こうし
て、入力文書が特徴ベクトルを用いて解析されて文書に
おける質の良い重要部が要約として抽出される。
【0014】また、第2の発明では、特徴ベクトル生成
部によって生成された入力文書,段落および文の特徴ベ
クトルに基づいて、距離算出部によって、上記入力文書
と各段落との特徴ベクトル間距離,上記入力文書と各段
落毎の文との特徴ベクトル間距離,各段落と夫々の段落
内の文との特徴ベクトル間距離あるいは上記入力文書と
各文との特徴ベクトル間距離が算出される。そして、こ
の算出された各特徴ベクトル間距離に基づいて、文書要
約生成部によって、上記入力文書に最も近い段落,上記
入力文書に最も近い各段落毎の文,各段落に最も近い夫
々の段落内の文および上記入力文書に近い複数の文の少
なくとも一つが入力文書の要約として選出されて上記入
力文書の要約が生成される。
【0015】
【実施例】以下、この発明を図示の実施例により詳細に
説明する。図1は本実施例の文書要約装置におけるブロ
ック図である。文書入力部1は対話型のキーボードや光
学式文字読み取り装置(OCR)の他に通信回線や着脱式
外部記憶装置で構成され、要約作成の対象となる文書が
入力される。そして、文書入力部1から入力された文書
は文書記憶部2に記憶される。さらに、この文書記憶部
2には生成された要約文も格納される。
【0016】文書出力部3は対話型のCRT(カソード・
レイ・チューブ)や液晶表示装置(LCD)の他にプリンタ
や通信回線や着脱式外部記憶装置で構成され、入力文書
や要約文を出力する。
【0017】文書処理部4は編集/検索等の一般的な文
書処理を実施する他に、以下に述べる文書解析部5,文
脈ベクトル生成部6及び文脈ベクトル比較部7を制御し
て、入力文書の要旨や要約を生成する。
【0018】上記文書解析部5は、文書記憶部2から読
み出した文書を解析して単語,文および段落に分解す
る。その際における文書解析方法としては、形態素解析
を行って文書を単語に分解したり、特定の区切りに注目
して文書を段落や文に分解したりする。上記文脈ベクト
ル生成部6は、上記文書解析部5によって文書を分解し
て得られた段落,文,単語および元の文書の文脈ベクトル
を生成する。
【0019】ここで、上記文脈ベクトルについて簡単に
説明する。何個かの特徴語を用意して特徴空間を定義す
る。上記特徴語としては、例えば次のような単語を定義
する。人間,男,女,機械,知識,活動,経験,政治,
芸術,科学,…上記特徴語の個数は任意であるが、少な
くとも200語〜500語程度は用意しておく方が実用
上は望ましい。また、特徴語の種類や分野についても任
意であり、選択に当たっての厳密さは要求されず、特徴
が相互にオーバーラップしていても構わない。さらに、
要約抽出の対象となる文書の分野が特定の分野である場
合には、その分野に特有の特徴語を充実させることによ
って、この特徴語に基づいて生成される文脈ベクトルの
精度が向上して品質の高い要約を抽出できることにな
る。
【0020】単語辞書8に文脈ベクトルを生成する際に
使用される単語を格納し、上記単語辞書8に格納された
各単語と上記特徴語との関連の有無(あるいは、関連の
強度)に応じて当該単語を上記特徴空間に配置する。そ
の際における各単語の特徴空間上の位置がその単語の文
脈ベクトルであり、この文脈ベクトルは単語に対応付け
て単語辞書8に格納される。
【0021】図2は各単語の文脈ベクトルが定義された
単語辞書8の内容の一例である。上記単語の文脈ベクト
ルは、単語辞書8内に格納されている単語と上記各特徴
語との関連をその有無(あるいは、強度)によって段階的
に表現した数字を要素とするベクトルである。すなわ
ち、図2においては、関連がある場合には要素“1"を
与え、関連が無い場合には要素“0"を与えている。
尚、各要素の配列順序は上述した特徴語の配列順序と同
じである。
【0022】したがって、図2に例示された単語の文脈
ベクトルは以下のことを表現している。すなわち、「人
間」という単語は、各特徴語“人間",“男",“女",…と
は関連があり、各特徴語“機械",“知識",“活動",“経
験",“政治",“芸術",“科学",…とは関連が無いと言う
特徴を表現してる。また、「自動車」という単語は、各特
徴語“人間",“男",“女",“知識",“経験",“政治",
“芸術",“科学",…とは関連が無く、各特徴語“機械",
“活動",…とは関連があると言う特徴を表現している
のである。
【0023】尚、本実施例において文脈ベクトルを生成
する際に用いる単語は、“名詞"および“サ変名詞(語尾
に「する」と付けるとサ行変格活用動詞になる名詞)"だけ
である。したがって、単語辞書8に登録されている単語
も名詞およびサ変名詞である。
【0024】上記文脈ベクトル生成部6は、上記文書,
段落,文および単語の文脈ベクトルを生成する際には次
のようにして生成する。すなわち、先ず、上述のように
して予め単語辞書8に格納されている単語の文脈ベクト
ルを参照して、目的とする単語の文脈ベクトルを求め
る。次に、上述のようにして求められた目的とする文を
構成する各単語(名詞およびサ変名詞)の文脈ベクトルを
加算/正規化して、上記目的とする文の文脈ベクトルを
求める。尚、上記文脈ベクトルの正規化とは、文脈ベク
トルの長さを一定の値に揃えることである。
【0025】また、上記段落の文脈ベクトルは、上述の
ようにして求められた目的とする段落を構成する各単語
(名詞およびサ変名詞)の文脈ベクトルを加算/正規化し
て求める。同様に、目的とする文書を構成する各単語の
文脈ベクトルを加算/正規化して、文書全体の文脈ベク
トルを求める。
【0026】上記文脈ベクトル比較部7は、上記文脈ベ
クトル生成部6によって生成された文書と各段落との文
脈ベクトル,文書と各段落毎の文との文脈ベクトル,各段
落と夫々の段落内の文との文脈ベクトルおよび文書と各
文との文脈ベクトルの比較を行って、各文脈ベクトル間
の距離を算出する。その際に、算出される2つの文脈ベ
クトル間の距離としては、正規化された当該両文脈ベク
トルの内積を与える。そして、内積値が大きいほど距離
が遠いとするのである。
【0027】そして、上述のようにして算出された各文
脈ベクトル間距離の値に基づいて、上記文書処理部4に
よって文書に近い段落や文および段落に近い文を選出す
ることによって、入力文書の要約が生成されるのであ
る。こうして生成された文書の要約は上記文書記憶部2
に格納され、必要に応じて文書出力部3より出力され
る。
【0028】すなわち、上記特徴ベクトルは文脈ベクト
ルであって、上記特徴ベクトル生成部を文脈ベクトル生
成部6で構成し、上記距離算出部を文脈ベクトル比較部
7で構成し、上記文書要約生成部を文書処理部4で構成
するのである。
【0029】図3は上記文書処理部4によって実施され
る要約作成処理動作のフローチャートである。以下、図
3に従って上記要約作成処理動作について詳細に説明す
る。
【0030】ステップS1で、上記文書入力部1から要
約抽出の対象となる文書が入力されて文書記憶部2に記
憶される。ステップS2で、上記文書解析部5によっ
て、文書記憶部2から文書が読み出されて段落単位に分
割される。その際に、例えば改行を段落の区切りとす
る。ステップS3で、上記文書解析部5によって、文書
記憶部2から文書が読み出されて文単位に分割される。
その際に、例えば句点を文の区切りとする。
【0031】ステップS4で、上記文書解析部5によっ
て、文書記憶部2から文書が読み出され、この読み出さ
れた文書が形態素解析によって単語に分解される。そし
て、得られた単語のうち名詞およびサ変名詞(以下、両
者を単に単語という)のみが文書,上記ステップS2にお
いて分割された各段落および上記ステップS3において
分割された各文の単位で文脈ベクトル生成部6に送出さ
れる。
【0032】ステップS5で、上記文脈ベクトル生成部
6によって、文書の文脈ベクトル,各段落の文脈ベクト
ルおよび各文の文脈ベクトルが次のようにして生成され
る。すなわち、先ず、上記文書を構成する単語,各段落
を構成する単語および各文を構成する単語の文脈ベクト
ルが上記単語辞書8を引くことによって得られる。次
に、各文を構成する単語の文脈ベクトルが加算され正規
化されて各文の文脈ベクトルが得られる。同様に、各段
落を構成する単語の文脈ベクトルが加算され正規化され
て各段落の文脈ベクトルが得られ、文書を構成する単語
の文脈ベクトルが加算され正規化されて文書の文脈ベク
トルが得られる。
【0033】ステップS6で、上記ステップS5において
得られた文書の文脈ベクトルと各段落の文脈ベクトルと
が比較されて各文脈ベクトル間の距離が算出される。ま
た、文書の文脈ベクトルと各文の文脈ベクトルが各段落
毎に比較されて各文脈ベクトル間の距離が算出される。
また、各段落の文脈ベクトルと夫々の段落内の文の文脈
ベクトルとが比較されて各文脈ベクトル間の距離が算出
される。さらに、文書の文脈ベクトルと各文の文脈ベク
トルとが比較されて各文脈ベクトル間の距離が算出され
る。ステップS7で、上記ステップS6において算出され
た文書と各段落との文脈ベクトル間距離が参照され、文
書の文脈ベクトルに最も近い文脈ベクトルを有する段落
が重要段落と見なされて、この重要段落が入力文書の要
旨として文書記憶部2に格納され、必要に応じ文書出力
部3から出力される。
【0034】ステップS8で、上記ステップS6において
算出された文書と各段落毎の文との文脈ベクトル間距離
が参照され、文書の文脈ベクトルに最も近い文脈ベクト
ルを有する各段落毎の文が選出される。そして、選出さ
れた各段落毎の文が元の段落の順番に並べられて入力文
書の要約として文書記憶部2に格納され、必要に応じて
文書出力部3から出力される。ステップS9で、上記ス
テップS6において算出された各段落と夫々の段落内の
文との文脈ベクトル間距離が参照され、各段落の文脈ベ
クトルに最も近い文脈ベクトルを有する夫々の段落内の
文が選出される。そして、上記選出された各段落毎の文
が元の段落の順番に並べられて入力文書の要約として文
書記憶部2に格納され、必要に応じて文書出力部3から
出力される。ステップS10で、上記ステップS6におい
て算出された文書と各文との文脈ベクトル間距離が参照
され、文書の文脈ベクトルに最も近い文脈ベクトルを有
する文から距離の短い順に所定数の文が選出される。そ
して、こうして選出された複数文が入力文書の要旨とし
て文書記憶部2に格納され、必要に応じて文書出力部3
から出力されて要約作成処理動作を終了する。
【0035】オペレータは、上記文書出力部3から出力
される2種類の要旨と2種類の要約から自分の目的に応
じたものを選択して、以後の文書作成等に利用する。
【0036】尚、上記文書出力部3は、通常の文書出力
手段と同じに構成されている。したがって、上述の要旨
/要約のみを出力したり、上述の要旨/要約の箇所がアン
ダーラインや反転等によって強調された文書全体を出力
することが可能である。
【0037】このように、上記実施例においては、文書
入力部1から入力された文書を文書解析部5によって段
落,文および単語に分解する。そして、文脈ベクトル生
成部6によって上記文書を構成する単語,各段落を構成
する単語および各文を構成する単語の文脈ベクトルを求
め、この各単語の文脈ベクトルに基づいて各文の文脈ベ
クトル,各段落の文脈ベクトルおよび文書の文脈ベクト
ルを得る。そうした後、上記文脈ベクトル比較部7によ
って、各段落と文書との文脈ベクトル間距離,各段落毎
の文と文書との文脈ベクトル間距離,各段落内の文と夫
々の段落との文脈ベクトル間距離および各文と文書との
文脈ベクトル間距離を算出する。
【0038】そして、上記文書処理部4によって、文書
に最も近い段落と文書に近い所定数の文との2種類の要
旨、及び、文書に最も近い各段落毎の文の段落順の羅列
と各段落に最も近い夫々の段落内の文の段落順の羅列と
の2種類の要約を生成して、上記文書出力部3から出力
する。
【0039】こうして、入力文書を文脈ベクトルを用い
て解析することによって、従来の意味的解析を伴わない
表層的な解析による上記第1の文書要約手法に比較し
て、文書における質の良い重要部分を抽出できる。ま
た、従来の文章を意味的に解析する第2の文書要約手法
に比較して、事前に特定の文書形式や文脈を仮定する必
要がないので、入力文書に対する自由度が大きく種々の
タイプの文書に適用可能である。さらに、入力文書の構
造解析や文脈の意味理解を行って内容の重要性を定義す
る必要がないので、より簡単な処理によって要約の抽出
を実施できる。
【0040】上記実施例においては、各段落の文脈ベク
トルは目的とする段落を構成する各単語の文脈ベクトル
に基づいて求め、文書の文脈ベクトルはこの文書を構成
する各単語の文脈ベクトルに基づいて求めている。しか
しながら、この発明はこれに限定されるものではなく、
各段落の文脈ベクトルは目的とする段落を構成する各文
の文脈ベクトルに基づいて求め、文書の文脈ベクトルは
この文書を構成する段落の文脈ベクトルに基づいて求め
てもよい。
【0041】上記実施例においては、上記文脈ベクトル
生成部6によって文脈ベクトルを生成する際に用いる単
語辞書8に登録されている単語は名詞およびサ変名詞に
限定しているが、この発明はこれに限定されないことは
言うまでもない。また、上記実施例においては、文脈ベ
クトルの要素として当該単語と各特徴語とに関連がある
場合には“1"を与える一方、関連が無い場合には“0"
を与えている。しかしながら、この発明はこれに限定さ
れるものではなく、関連の強度を段階的に表現した数字
を与えてもよい。また、上記実施例においては、文書に
最も近い段落,文書に近い所定数の文,文書に最も近い各
段落毎の文の段落順の羅列および各段落に最も近い夫々
の段落内の文の段落順の羅列から成る4種類の要旨/要
約を生成して上記文書出力部3から出力するようにして
いるが、その中の幾つかを組み合わせて出力してもよ
い。
【0042】上記実施例における文書要約装置は、必ず
しも単独で使用しなければならない訳ではなく、従来か
らの文書要約手法による文書要約装置と併用しても何ら
差し支えない。
【0043】
【発明の効果】以上より明らかなように、第1の発明の
文書要約装置は、文書入力部から入力された文書を文書
解析部で段落,文および単語に分割し、特徴ベクトル生
成部によって、単語辞書を用いて上記単語,文,段落およ
び入力文書の特徴ベクトルを生成し、距離算出部によっ
て、上記入力文書,段落および文の特徴ベクトル間の距
離を所定の手順で算出し、文書要約生成部によって、上
記各特徴ベクトル間距離に基づいて上記入力文書の要約
を所定の手順で生成するので、上記特徴ベクトルを用い
た入力文書の解析結果に基づいて入力文書の要約を生成
できる。したがって、特定の文書形式や文脈を仮定する
ことなく、簡単な処理によって文書における質の良い重
要部を要約として抽出できる。
【0044】すなわち、この発明によれば、入力文書中
における不要な箇所を重要な箇所と誤ったり、仮定した
文書形式や文脈に当て嵌まらない入力文書に対して全く
非力であったりすることなく、種々のタイプの入力文書
からより適切な要約を抽出できる。
【0045】また、第2の発明の文書要約装置は、距離
算出部によって、入力文書と各段落との特徴ベクトル間
距離,上記入力文書と各段落毎の文との特徴ベクトル間
距離,各段落と夫々の段落内の文との特徴ベクトル間距
離または上記入力文書と各文との特徴ベクトル間距離を
算出し、文書要約生成部によって、上記入力文書に最も
近い段落,上記入力文書に最も近い各段落毎の文,各段落
に最も近い夫々の段落内の文および上記入力文書に近い
複数の文の少なくとも一つを入力文書の要約として選出
するので、更に簡単な処理によって文書における質の良
い重要部を抽出できる。
【図面の簡単な説明】
【図1】この発明の文書要約装置におけるブロック図で
ある。
【図2】単語の文脈ベクトルが定義された単語辞書の内
容の一例を示す図である。
【図3】要約作成処理動作のフローチャートである。
【符号の説明】
1…文書入力部、 2…文書記憶部、 3…文書出力部、 4…文書処理部、 5…文書解析部、 6…文脈ベクトル
生成部、 7…文脈ベクトル比較部、 8…単語辞書。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 単語の特徴ベクトルが格納された単語辞
    書と、 文書入力部から入力された文書に対して所定の解析を行
    って、上記入力文書を段落,文および単語に分割する文
    書解析部と、 上記分割された単語の特徴ベクトルを上記単語辞書を用
    いて求め、さらにこの求められた単語の特徴ベクトルに
    基づいて、上記分割された文および段落と上記入力文書
    の特徴ベクトルを所定の手順によって生成する特徴ベク
    トル生成部と、上記入力文書,段落および文の特徴ベクト
    ル間の距離を所定の手順によって算出する距離算出部
    と、 上記算出された各特徴ベクトル間の距離に基づいて、上
    記入力文書の要約を所定の手順によって生成する文書要
    約生成部を備えたことを特徴とする文書要約装置。
  2. 【請求項2】 請求項1に記載の文書要約装置であっ
    て、 上記距離算出部は、上記入力文書と各段落との特徴ベク
    トル間距離,上記入力文書と各段落毎の文との特徴ベク
    トル間距離,各段落と夫々の段落内の文との特徴ベクト
    ル間距離または上記入力文書と各文との特徴ベクトル間
    距離を算出し、上記文書要約生成部は、上記算出された
    各特徴ベクトル間距離に基づいて、上記入力文書に最も
    近い段落,上記入力文書に最も近い各段落毎の文,各段落
    に最も近い夫々の段落内の文および上記入力文書に近い
    複数の文の少なくとも一つを入力文書の要約として選出
    することによって上記入力文書の要約を生成することを
    特徴とする文書要約装置。
JP5007427A 1993-01-20 1993-01-20 文書要約装置 Expired - Fee Related JP2944346B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5007427A JP2944346B2 (ja) 1993-01-20 1993-01-20 文書要約装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5007427A JP2944346B2 (ja) 1993-01-20 1993-01-20 文書要約装置

Publications (2)

Publication Number Publication Date
JPH06215049A true JPH06215049A (ja) 1994-08-05
JP2944346B2 JP2944346B2 (ja) 1999-09-06

Family

ID=11665568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5007427A Expired - Fee Related JP2944346B2 (ja) 1993-01-20 1993-01-20 文書要約装置

Country Status (1)

Country Link
JP (1) JP2944346B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08251222A (ja) * 1995-03-14 1996-09-27 Sharp Corp メッセージ通信システム
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式
JPH09167164A (ja) * 1995-12-14 1997-06-24 Toshiba Corp 情報フィルタリング方法および情報フィルタリング装置
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
JPH10301956A (ja) * 1997-04-30 1998-11-13 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文書表示方式
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
JPH11102372A (ja) * 1997-09-29 1999-04-13 Sharp Corp 文書要約装置及びコンピュータ読み取り可能な記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11272699A (ja) * 1998-03-20 1999-10-08 Fujitsu Ltd 文書要約装置およびその方法
JP2000099526A (ja) * 1998-09-21 2000-04-07 Sharp Corp 文書情報抽出装置
JP2001034638A (ja) * 1999-07-27 2001-02-09 Fujitsu Ltd 索引生成装置及び方法及び記録媒体
US6338034B2 (en) 1997-04-17 2002-01-08 Nec Corporation Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document
JP2002197096A (ja) * 2000-12-12 2002-07-12 Nec Corp 文書の一般テキストサマリを作成する方法およびシステム
JP2005322245A (ja) * 2004-04-30 2005-11-17 Microsoft Corp 要約を使用して表示ページを分類する方法およびシステム
JP2007265313A (ja) * 2006-03-30 2007-10-11 National Institute Of Information & Communication Technology 文書データ表示装置、文書データ表示方法および文書データ表示プログラム
US8706724B2 (en) 2009-06-24 2014-04-22 Nec Corporation Feature extraction device and feature extraction method
CN114510563A (zh) * 2022-02-18 2022-05-17 杭州数梦工场科技有限公司 一种摘要文本抽取方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08251222A (ja) * 1995-03-14 1996-09-27 Sharp Corp メッセージ通信システム
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式
JPH09167164A (ja) * 1995-12-14 1997-06-24 Toshiba Corp 情報フィルタリング方法および情報フィルタリング装置
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
US6338034B2 (en) 1997-04-17 2002-01-08 Nec Corporation Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document
JPH10301956A (ja) * 1997-04-30 1998-11-13 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文書表示方式
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
JPH11102372A (ja) * 1997-09-29 1999-04-13 Sharp Corp 文書要約装置及びコンピュータ読み取り可能な記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11272699A (ja) * 1998-03-20 1999-10-08 Fujitsu Ltd 文書要約装置およびその方法
JP2000099526A (ja) * 1998-09-21 2000-04-07 Sharp Corp 文書情報抽出装置
JP2001034638A (ja) * 1999-07-27 2001-02-09 Fujitsu Ltd 索引生成装置及び方法及び記録媒体
JP2002197096A (ja) * 2000-12-12 2002-07-12 Nec Corp 文書の一般テキストサマリを作成する方法およびシステム
JP2005322245A (ja) * 2004-04-30 2005-11-17 Microsoft Corp 要約を使用して表示ページを分類する方法およびシステム
JP2007265313A (ja) * 2006-03-30 2007-10-11 National Institute Of Information & Communication Technology 文書データ表示装置、文書データ表示方法および文書データ表示プログラム
US8706724B2 (en) 2009-06-24 2014-04-22 Nec Corporation Feature extraction device and feature extraction method
CN114510563A (zh) * 2022-02-18 2022-05-17 杭州数梦工场科技有限公司 一种摘要文本抽取方法及装置

Also Published As

Publication number Publication date
JP2944346B2 (ja) 1999-09-06

Similar Documents

Publication Publication Date Title
JP2944346B2 (ja) 文書要約装置
JPH0293866A (ja) 要約生成方法および要約生成装置
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP7381052B2 (ja) 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
US9547645B2 (en) Machine translation apparatus, translation method, and translation system
JP2004246440A (ja) 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム
JP2004157931A (ja) 意図文型種別抽出方式
JP4034797B2 (ja) 文章解析装置、文章解析方法、文章解析プログラムおよび記録媒体
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP3470021B2 (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP5106431B2 (ja) 機械翻訳装置、プログラム及び方法
JP2838984B2 (ja) 汎用参照装置
JP7234010B2 (ja) 情報処理装置、および、情報処理方法
WO2020054465A1 (ja) 課題解決支援装置とその方法
JP2915225B2 (ja) 文書作成装置
JPH09185629A (ja) 機械翻訳方法
JP3244286B2 (ja) 翻訳処理装置
JP2006031511A (ja) 翻訳モデル生成装置および方法
JPH1145243A (ja) 索引作成支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH03225468A (ja) 機械翻訳装置
JP4336403B2 (ja) 情報検索装置及びその方法、コンピュータ可読メモリ
JPH08241319A (ja) 機械翻訳装置
JPH11259480A (ja) 文書作成装置、文書作成方法および文書作成プログラムを記憶した媒体
JPH1040267A (ja) 文書要約ビューア
JPH04130577A (ja) 自然言語処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090625

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees