JPH11102372A - 文書要約装置及びコンピュータ読み取り可能な記録媒体 - Google Patents

文書要約装置及びコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH11102372A
JPH11102372A JP9263318A JP26331897A JPH11102372A JP H11102372 A JPH11102372 A JP H11102372A JP 9263318 A JP9263318 A JP 9263318A JP 26331897 A JP26331897 A JP 26331897A JP H11102372 A JPH11102372 A JP H11102372A
Authority
JP
Japan
Prior art keywords
context vector
title
document
distance
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9263318A
Other languages
English (en)
Other versions
JP3470021B2 (ja
Inventor
Hiroshi Ikeuchi
洋 池内
Ikuo Karashi
育雄 芥子
Kenichi Kuromushiya
健一 黒武者
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP26331897A priority Critical patent/JP3470021B2/ja
Publication of JPH11102372A publication Critical patent/JPH11102372A/ja
Application granted granted Critical
Publication of JP3470021B2 publication Critical patent/JP3470021B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 新聞記事から要約を抽出するには、文書の意
味を扱う必要があるが、従来は特定の文書形式や文脈を
仮定する必要があった。 【解決手段】 タイトル抽出部9は文書入力部1から入
力された文書からタイトルと本文を抽出し、文書解析部
5はタイトルを単語に、本文を文および単語に分解す
る。文脈ベクトル生成部6は、単語辞書8を用いてタイ
トルおよび本文中の文の文脈ベクトルを生成する。文脈
ベクトル比較部7は、タイトルと本文中の各文の文脈ベ
クトルを比較して各文脈ベクトル間距離を算出する。文
書処理部4は各文脈ベクトル間距離を参照して、タイト
ルに近い複数文を生成して文書の重要部分とする。この
ように、入力文書を文脈ベクトルを用いて解析すること
によって、特定の文書形式や文脈を仮定することなく、
質の良い重要部分を簡単な処理で抽出できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、電子新聞や情報
検索装置等で用いられ、情報の内容を要約して利用者に
提示する文書要約装置に関するものである。
【0002】
【従来の技術】電子新聞や情報検索装置は、利用者に情
報を提示する装置である。電子新聞は各新聞記事を項目
として利用者に提示し、利用者は提示された項目から、
自分にとって必要と思われるものを選び、その記事内容
を読むことによって情報を得るものである。情報検索装
置は、利用者が与えた検索要求に基づいてデータを検索
し、検索された各データを項目として利用者に提示し、
利用者は電子新聞と同様に、提示された項目から自分に
とって必要と思われるものを選び、そのデータ内容を読
むことによって情報を得るものである。
【0003】特に新聞記事は、その内容は一般に複数の
文からなり、利用者はそのすべてを読むことで、内容を
完全に理解することが出来る。従って利用者にとって、
記事の文章量が多くなるほど、内容を理解するのに時間
と労力が必要とされる。そこで、従来では、利用者の読
むべき文章量を減少させるように文章中から要約を抽出
することがなされていた。
【0004】ここで、個々の文書の文章量を減少させる
ことによって利用者の手間を軽減するために、文書から
要約を抽出する場合を考える。この場合には、文書の文
章量を減少させても元の文書の含まれる重要な内容が損
なわれないような手法を用いる必要がある。
【0005】従来から提唱されている文書要約の手法と
しては、主に次の2つの手法がある。
【0006】第1の手法は、文章を表層的に解析するも
のである。この手法は、単語の出現頻度解析から文章の
重要箇所を決定して元の文書に含まれている単語の組み
合わせや文の抽出によって要約文の生成を行うものや、
文の文末表現および用語によって文章中における主張文
を抽出するものがある。
【0007】第2の手法は、文章を意味的に解析するも
のである。この手法は、事前に文章の形式や文脈を仮定
しておいて、その仮定に沿って文章を解析して要約を抽
出するものや、文の係り受けの粗密性を用いることによ
って内容の重要性を定義して要約を抽出するものがあ
る。
【0008】また、上述とは全く異なる第3の手法とし
て、特開平6−215049号公報に示されるように、
文脈ベクトルによって、全体の文章と最も意味の近い段
落あるいは各段落に最も意味の近い文を求め、それらを
要約として提示するものである。
【0009】
【発明が解決しようとする課題】ところが、第1の手法
と第2の手法には各々以下のような問題がある。すなわ
ち、第1の手法は、第2の手法に比べて簡単に実施でき
る反面、意味を扱わないので文書中の不要な箇所を重要
な箇所と誤って判断してしまうという問題がある。一
方、第2の手法は、最初の仮定が当てはまらないような
タイプの文書に対しては全く非力であり、内容の重要性
の定義自体が困難である上、第1の手法に比べて処理が
複雑であるという問題がある。
【0010】第3の手法は、特定の文書形式や文脈を仮
定することなく、簡単な処理によって文書における重要
部分を要約として抽出できるが、文書全体あるいは段落
全体の文脈ベクトルが、要約を最も良く表すとは限らな
い。特に新聞記事においては、記事全体よりもタイトル
に要約がより良く表現されていると考えられる。
【0011】本発明の目的は、新聞記事のように、タイ
トルとその本文からより精度の高い要約を求めることの
できる文書要約装置を提供することにある。
【0012】
【課題を解決するための手段】請求項1に記載の文書要
約装置は、入力された文書のタイトルと本文から要約を
作成する文書要約装置であって、単語の文脈ベクトルが
格納された単語辞書と、上記タイトルを単語に、上記本
文を文および単語にそれぞれ分解する文書解析手段と、
上記単語辞書を参照して上記タイトルの文脈ベクトル及
び上記分割された文の文脈ベクトルを生成する文脈ベク
トル生成手段と、上記タイトルの文脈ベクトルと上記分
割された文の文脈ベクトルとの距離を算出する距離算出
手段と、上記算出された距離に基づいて上記本文から少
なくとも一つの文を要約として選出する選択手段と、を
備えることを特徴とする。
【0013】請求項2に記載のコンピュータ読み取り可
能な記録媒体は、入力された文書のタイトルと本文から
要約を作成する文書要約装置として機能させるためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体であって、単語の文脈ベクトルが格納された単語辞書
と、上記タイトルを単語に、上記本文を文および単語に
それぞれ分解する文書解析手段と、上記単語辞書を参照
して上記タイトルの文脈ベクトル及び上記分割された文
の文脈ベクトルを生成する文脈ベクトル生成手段と、上
記タイトルの文脈ベクトルと上記分割された文の文脈ベ
クトルとの距離を算出する距離算出手段と、上記算出さ
れた距離に基づいて上記本文から少なくとも一つの文を
要約として選出する選択手段として機能させるためのプ
ログラムを記録している。
【0014】請求項3に記載の文書要約装置は、入力さ
れた文書のタイトルと本文から要約を作成する文書要約
装置であって、単語の文脈ベクトルが格納された単語辞
書と、上記タイトルを単語に、上記本文を文および単語
にそれぞれ分解する文書解析手段と、上記単語辞書を参
照して上記タイトルの文脈ベクトル及び上記分割された
文の文脈ベクトル及び上記文書全体の文脈ベクトルを生
成する文脈ベクトル生成手段と、上記タイトルの文脈ベ
クトルと上記分割された文の文脈ベクトルとの第1の距
離を算出すると共に、上記文書全体の文脈ベクトルと上
記分割された文の文脈ベクトルとの第2の距離を算出す
る距離算出手段と、上記算出された第1の距離に基づい
て上記本文から少なくとも一つの文を要約として選出す
ると共に、上記算出された第2の距離に基づいて上記本
文から少なくとも一つの文を要約として選出する選択手
段と、を備えることを特徴とする。
【0015】請求項4に記載のコンピュータ読み取り可
能な記録媒体は、入力された文書のタイトルと本文から
要約を作成する文書要約装置として機能させるためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体であって、単語の文脈ベクトルが格納された単語辞書
と、上記タイトルを単語に、上記本文を文および単語に
それぞれ分解する文書解析手段と、上記単語辞書を参照
して上記タイトルの文脈ベクトル及び上記分割された文
の文脈ベクトル及び上記文書全体の文脈ベクトルを生成
する文脈ベクトル生成手段と、上記タイトルの文脈ベク
トルと上記分割された文の文脈ベクトルとの第1の距離
を算出すると共に、上記文書全体の文脈ベクトルと上記
分割された文の文脈ベクトルとの第2の距離を算出する
距離算出手段と、上記算出された第1の距離に基づいて
上記本文から少なくとも一つの文を要約として選出する
と共に、上記算出された第2の距離に基づいて上記本文
から少なくとも一つの文を要約として選出する選択手段
として機能させるためのプログラムを記録している。
【0016】請求項5に記載の文書要約装置は、入力さ
れた文書のタイトルと本文から要約を作成する文書要約
装置であって、単語の文脈ベクトルが格納された単語辞
書と、上記タイトルを単語に、上記本文を文および単語
にそれぞれ分解する文書解析手段と、上記単語辞書を参
照して上記タイトルの文脈ベクトル及び上記分割された
文の文脈ベクトル及び上記文書全体の文脈ベクトルを生
成する文脈ベクトル生成手段と、上記タイトルの文脈ベ
クトルと上記分割された文の文脈ベクトルとの第1の距
離を算出すると共に、上記文書全体の文脈ベクトルと上
記分割された文の文脈ベクトルとの第2の距離を算出す
る距離算出手段と、上記算出された第1の距離と第2の
距離の和に基づいて上記本文から少なくとも一つの文を
要約として選出する選択手段と、を備えることを特徴と
する。
【0017】請求項6に記載のコンピュータ読み取り可
能な記録媒体は、入力された文書のタイトルと本文から
要約を作成する文書要約装置として機能させるためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体であって、単語の文脈ベクトルが格納された単語辞書
と、上記タイトルを単語に、上記本文を文および単語に
それぞれ分解する文書解析手段と、上記単語辞書を参照
して上記タイトルの文脈ベクトル及び上記分割された文
の文脈ベクトル及び上記文書全体の文脈ベクトルを生成
する文脈ベクトル生成手段と、上記タイトルの文脈ベク
トルと上記分割された文の文脈ベクトルとの第1の距離
を算出すると共に、上記文書全体の文脈ベクトルと上記
分割された文の文脈ベクトルとの第2の距離を算出する
距離算出手段と、上記算出された第1の距離と第2の距
離の和に基づいて上記本文から少なくとも一つの文を要
約として選出する選択手段として機能させるためのプロ
グラムを記録している。
【0018】請求項7に記載の文書要約装置は、請求項
3または請求項5に記載の文書要約装置において、上記
距離算出手段が、上記タイトルと上記分割された文との
同一単語の比率を考慮して第1の距離を算出するととも
に、上記文書全体と上記分割された文との同一単語の比
率を考慮して第2の距離を算出することを特徴とする。
【0019】請求項8に記載の文書要約装置は、請求項
7に記載の文書要約装置において、上記単語辞書が、単
語の特徴ベクトルと共に単語の重要度を格納し、上記距
離算出手段が、上記同一単語の比率を算出する際に、上
記単語の重要度を用いることを特徴とする。
【0020】
【発明の実施の形態】
(実施の形態1)以下、本実施の形態を図面を用いて説
明する。図1に本実施の形態の文書要約装置におけるブ
ロック図を示す。要約作成の対象となる文書が入力され
る文書入力部1は、キーボードや光学式文字読み取り装
置(OCR)、あるいは着脱式外部記憶装置で構成さ
れ、処理部10に接続されている。この接続は、通信回
線を介して接続されていてもよい。文書記憶部2は、文
書入力部1から入力された文書、及び処理部10で生成
された要約が格納される。入力文書や要約を出力する文
書出力部3は、CRT(カソード・レイ・チューブ)、
液晶表示装置(LCD)、プリンタ、あるいは着脱式外
部記憶装置で構成されている。この接続は、処理部10
に接続され、通信回線を介して接続されていてもよい。
【0021】処理部10内の文書処理部4は、編集や検
索等の一般的な文書処理を実施する他に、以下に述べる
文書解析部5、文脈ベクトル生成部6、文脈ベクトル比
較部7およびタイトル抽出部9を制御して、入力文書の
要約を生成する。
【0022】まず最初に、本発明で用いる特徴ベクトル
としての文脈ベクトルについて簡単に説明する。特徴語
として、例えば次のような複数の単語「人間,男,女,
機械,知識,活動,経験,政治,芸術,科学,…」を用
意して特徴空間を定義する。上記特徴語の個数は任意で
あるが、少なくとも200語〜500語程度は用意して
おく方が実用上は望ましい。また、特徴語の種類や分野
も任意であり、選択に当たっての厳密さは要求されず、
特徴が相互にオーバラップしていても構わない。さら
に、要約抽出の対象となる文書の分野が特定の分野であ
る場合には、その分野に特有の特徴語を予め充実させる
ことによって、より品質の高い要約を抽出できることに
なる。
【0023】単語辞書8には、文脈ベクトルを生成する
際に使用される単語を格納し、単語辞書8に格納された
各単語と上記特徴語との関連の有無に応じて当該単語を
上記特徴空間に配置する。その際における各単語の特徴
空間上の位置がその単語の文脈ベクトルであり、この文
脈ベクトルは単語に対応させて単語辞書8に格納されて
いる。
【0024】図2に、各単語の文脈ベクトルが定義され
た単語辞書8の内容の一例を示す。ここで、各要素の配
列順序は上述した特徴語の配列順序と同じである。各単
語の文脈ベクトルは、単語辞書8内に格納されている単
語と各特徴語との関連をその有無によって表現した数字
を要素とするベクトルである。すなわち、図2におい
て、関連がある場合には要素“1”を与え、関連がない
場合には要素“0”を与えている。ここでは、“1”と
“0”を与えているが、これに限定されるものではな
く、関連の強度を段階的に表現した数字を要素として与
えてもよい。
【0025】図2に例示された単語の文脈ベクトルは以
下のことを表現している。すなわち、「人間」という単
語は、各特徴語“人間”,“男”,“女”,…とは関連
があり、各特徴語“機械”,“知識”,“活動”,“経
験”,“政治”,“芸術”,“科学”,…とは関連がな
いという特徴を表現している。また、「自動車」という
単語は、各特徴語“人間”,“男”,“女”,“知
識”,“経験”,“政治”,“芸術”,“科学”,…と
は関連がなく、各特徴語“機械”,“活動”,…とは関
連があるという特徴を表現しているのである。
【0026】本実施の形態において文脈ベクトルを生成
する際に用いる単語は、“名詞”および“サ変名詞(語
尾に「する」と付けるとサ行変格活用動詞になる名
詞)”だけである。したがって、単語辞書8に登録され
ている単語も名詞およびサ変名詞である。なお、単語辞
書8に登録されている単語は名詞およびサ変名詞にして
いるが、これに限定されるものではない。
【0027】次に、本実施の形態の要約作成処理につい
て図3と図4を用いて説明する。図3は、文書処理部4
による要約作成処理動作のフローチャートである。図4
は、電子化されたタイトルとその本文からなるニュース
記事である。
【0028】まず、ステップS1で、文書入力部1から
要約抽出の対象となる文書が入力されて図4に示す内容
すべてが文書記憶部2に記憶される。ステップS2で、
タイトル抽出部9によってタイトルと本文が抽出され
る。タイトル抽出部9は、文書記憶部2から読み出した
文書を解析してタイトルと本文とを区別して抽出する。
なお、予めタイトルと本文が区別されて入力される場合
には、このステップは不要である。一般に電子化された
ニュース記事では、予め記事本文とタイトル、およびそ
れに付随する記事の作成日時、ジャンルなどの情報が一
定のフォーマットで付加されている。その場合には単に
タイトルに対応する項目と本文に対応する項目から、タ
イトルと本文とを区別できる。また、タイトルは一般に
文の先頭に位置している、あるいはフォントの大きい文
字が使われている等のよく知られている特徴を使ってタ
イトルを抽出し、全文からタイトルを除いたものを本文
とするような方法で区別してもよい。以上の方法で抽出
されたタイトルと本文は、文書記憶部2の中では区別さ
れて記憶されている。
【0029】ステップS3で、文書解析部5によって、
文書記憶部2から本文が読み出されて文単位に分割され
る。その際に、例えば句点を文の区切りとする。
【0030】ステップS4で、文書解析部5によって、
文書記憶部2からタイトルおよび本文が読み出され、こ
の読み出されたタイトルと本文が形態素解析(文章を文
法的に解析して単語に分割し、各単語の品詞や活用形等
の情報を抽出する手法)によって単語に分解される。図
4の例では「ノンバンク整理手続き」がタイトルであ
り、それが「ノンバンク」「整理」「手続き」の3単語
に分解される。文の区切りを句点にして、本文は「日本
債券信用銀行の・・・停止した」「一日にも不良債券処
理の・・・倒産する」等の文に分割され、前者はさらに
「日本」「債券」「信用」「銀行」「の」等の単語に分
割され、後者は「一日」「に」「も」「不良」「債券」
「処理」「の」等の単語に分解される。このようにし
て、文書解析部5によってタイトルを単語に、本文を文
および単語に分解する。なお、本実施の形態では、単語
を抽出する際に形態素解析を行っているが、単語辞書8
にある単語との文字列のマッチングによって単語を抽出
する方法を用いてもよい。
【0031】そして、得られた単語のうち名詞およびサ
変名詞のみが、タイトルおよび上記ステップS3におい
て分割された各文の単位で、文脈ベクトル生成部6に送
出される。
【0032】ステップS5で、文脈ベクトル生成部6に
よって、タイトルの文脈ベクトルと各文の文脈ベクトル
とが次のようにして生成される。上記タイトルを構成す
る単語、及び各文を構成する単語の文脈ベクトルは、単
語辞書8を引くことによって得られ、さらに、タイトル
を構成する単語の文脈ベクトルが加算され正規化されて
タイトルの文脈ベクトルが得られ、同様に各文を構成す
る単語の文脈ベクトルが加算され正規化されて各文の文
脈ベクトルが得られるのである。ここで、文脈ベクトル
の正規化とは、文脈ベクトルの長さを一定の値に揃える
ことである。
【0033】この処理を図4を用いて具体的に説明す
る。タイトルを構成する単語は「ノンバンク」「整理」
「手続き」で、それらは名詞またはサ変名詞である。よ
って、タイトルの文脈ベクトルは、それら3単語の文脈
ベクトルを単語辞書8から取り出して加算し正規化して
得られる。具体的な計算例として、例えば特徴語が12
個で、3単語の文脈ベクトルが(0,0,0,0,1,1,0,1,0,0,
0,0),(0,0,0,1,1,1,1,0,0,0,0,0)(0,0,0,0,1,1,1,
1,0,0,0,0)の時、正規化の際に長さを10に揃えると
すると、まずそれらを加算したものは、(0,0,0,1,3,3,
2,2,0,0,0,0)で、その長さは(02+02+02+12+32
…+020.5=270.5 である。よって、それを正規化し
たタイトルの文脈ベクトルは、10/270.5×(0,0,0,1,
3,3,2,2,0,0,0,0)≒(0.0, 0.0, 0.0, 1.9, 5.8, 5.8,
3.8, 3.8, 0.0, 0.0, 0.0, 0.0)と求められる。本文
についても全く同様にして各文の文脈ベクトルが求めら
る。
【0034】ステップS6で、文脈ベクトル比較部7に
よって、上記ステップS5において得られたタイトルの
文脈ベクトルと各文の文脈タイトルとが比較されて各文
脈ベクトル間の距離が算出される。その際に算出される
2つの文脈ベクトル間の距離は、正規化された当該両文
脈ベクトルの内積を用いる。そして、内積値が大きいほ
ど距離が近いのである。つまり、タイトルとの意味が近
く、要約としてふさわしい文である。
【0035】ステップS7で、文書処理部4によって、
ステップS6において算出されたタイトルと各文との文
脈ベクトル間の距離が参照されて、この距離の近い順に
本文中の各文が所定数だけ入力文書の要約文として文書
記憶部2に格納され、必要に応じて文書出力部3から出
力される。文書出力部3は、この要約文のみを出力した
り、要約文の箇所をアンダーラインや反転等によって強
調された文書全体を出力したりしてユーザの便宜を図る
ことができる。
【0036】このステップS6とステップS7の処理を
具体的に説明する。上述の結果からタイトルの文脈ベク
トルは、 (0.0, 0.0, 0.0, 1.9, 5.8, 5.8, 3.8, 3.8, 0.0, 0.
0, 0.0, 0.0)であり、 ステップS5で求められた、本文中の最初の2文の文脈
ベクトルが (0.0, 0.0, 0.0, 6.4, 2.1, 2.1, 6.4, 2.1, 0.0, 0.
0, 2.1, 0.0) (0.0, 4.2, 0.0, 0.0, 6.3, 2.1, 0.0, 0.0, 0.0, 6.
3, 0.0, 0.0) であるとする。タイトルの文脈ベクトルと本文中の最初
の文の文脈ベクトルとの内積は、 0.0×0.0+0.0×0.0+0.0×0.0+1.9×6.4+5.8×2.1+
5.8×2.1+3.8×6.4+3.8×2.1+0.0×0.0+0.0×0.0+
0.0×2.1+0.0×0.0=68.82 タイトルの文脈ベクトルと本文中の2番目の文の文脈ベ
クトルとの内積は、 0.0×0.0+0.0×4.2+0.0×0.0+1.9×0.0+5.8×6.3+
5.8×2.1+3.8×0.0+3.8×0.0+0.0×0.0+0.0×6.3+
0.0×0.0+0.0×0.0=48.72となる。
【0037】よって、この場合本文中の最初の文の方が
2番目の文よりタイトルに近いと判断する。このような
内積計算を本文中の全ての文について行い、内積の大き
い順に所定数の文が出力されるのである。
【0038】(実施の形態2)本実施の形態は、実施の
形態1と従来の第3の手法とを組合わせて、双方から得
られた要約文を共に出力することで、より要約の精度を
向上させるものである。
【0039】本実施の形態では、実施の形態1の要約処
理に加え、単語辞書8を参照してタイトルと本文の文書
全体に含まれる単語から文書全体の意味を表す文脈ベク
トルを実施の形態1と同様にして生成し、文脈ベクトル
比較部7を用いて文書全体の文脈ベクトルと各文の文脈
ベクトルの内積計算を行って距離を求め、距離の近い文
ほど文書全体の意味に近いものとなる。双方の手法によ
り求めた距離の順に、タイトルとの意味が近い要約文
と、文書全体との意味の近い要約文を共に出力して入力
文書の要約となる。
【0040】(実施の形態3)本実施の形態は、実施の
形態2において双方の手法により求めた特徴ベクトル間
の距離から総合距離を求めて、総合距離の順に得られた
要約文を出力することで、より要約の精度を向上させる
ものである。
【0041】本実施の形態では、タイトルの文脈ベクト
ルと各文の文脈ベクトルとの内積値と文書全体の文脈ベ
クトルと各文の文脈ベクトルとの内積値とを用いること
で実現できる。要約を行う文書の各文に文番号を付け、
文番号iの文脈ベクトルとタイトルの文脈ベクトルとの
内積値をST(i)、文番号iの文脈ベクトルと文書全
体の文脈ベクトルとの内積値をSA(i)とすると、実
施の形態2の2つの方法で計算される距離を総合した総
合距離S(i)は、 S(i)=f(ST(i),SA(i)) となる。ここで、fは何らかの関数であり、単純に加算
もしくはそれらの加重和を取る。具体例としては、 S(i)=α×ST(i)+SA(i) となる。ここで、αは定数である。このようにして求め
た距離S(i)の順に、要約文が出力され、入力文書の
要約となる。αの設定は、文書出力部3の出力結果を見
ながらユーザが文書入力部1から設定できるようにして
もよく、また、出力された要約文の所定順位までのST
(i)の総和とSA(i)の総和とが均等になるように
文書処理部4で自動設定するようにしてもよい。このよ
うにすることで、双方の手法による要約が必ず含まれる
ことになる。なお、α=0の時は、文書全体の文脈ベク
トルとの内積を取った場合と同じになり、α≫1の時は
タイトルの文脈ベクトルとの内積値だけで要約文を選ぶ
場合と同じになる。
【0042】(実施の形態4)本実施の形態は、実施の
形態1の要約処理に加え、比較する文に含まれている単
語の一致する割合を考慮した従来の第1の手法を取り入
れて、タイトルと各文の距離や文書全体と各文の距離を
計算して要約文を出力することで、より要約の精度を向
上させるものである。比較する文に含まれている単語の
一致する割合の計算は文脈ベクトル比較部7で行う。
【0043】具体的には、図4のタイトルに含まれる単
語は、「ノンバンク」、「整理」、「手続き」の3つで
あり、図4の本文の1番目の文に含まれるタイトルに含
まれている単語は「ノンバンク」の1つ、2番目の文に
含まれるタイトルに含まれている単語は「整理」、「手
続き」の2つ、となっていて、i番目の文のタイトルに
含まれている単語と同一の単語を含んでいる割合STK
(i)は、 STK(1)=1/3×100=33 STK(2)=2/3×100=66 となる。同様にして、i番目の文が、タイトルに含まれ
ている単語と同一の単語を含んでいる割合STK(i)
を計算する。i番目の文の文脈ベクトルとタイトルの文
脈ベクトルとの内積値をSTV(i)とすると、i番目
の文とタイトルとの距離ST(i)は、 ST(i)=ft(STK(i),STV(i)) となる。ここでftは、何らかの関数であり、単純に加
算もしくはそれらの加重和を取る。具体例としては、 ST(i)=STK(i)+β×STV(i) となる。ここで、βは定数である。なお、β=0の時
は、タイトルに含まれている単語と同一の単語を含んで
いる割合だけで要約文を選ぶことになり、β≫1の時は
タイトルの文脈ベクトルとの内積値だけで要約文を選ぶ
ことになる。
【0044】また、i番目の文が、文書全体に含まれて
いる単語と同一の単語を含んでいる割合SAK(i)を
計算する。i番目の文の文脈ベクトルと文書全体の文脈
ベクトルとの内積値をSAV(i)とすると、i番目の
文のタイトルとの距離SA(i)は、 SA(i)=fa(SAK(i),SAV(i)) となる。ここでfaは、何らかの関数であり、単純加算
もしくはそれらの加重和を取る。具体例としては、 SA(i)=SAK(i)+γ×SAV(i) が考えられる。ここで、γは定数である。なお、γ=0
の時は、文書全体に含まれている単語と同一の単語を含
んでいる割合だけで要約文を選ぶことになり、γ≫1の
時は文書全体の文脈ベクトルとの内積値だけで要約文を
選ぶことになる。
【0045】以上のようにして求めたST(i)とSA
(i)とを、実施の形態2または実施の形態3と同様に
して距離の順に、要約文が出力され、入力文書の要約と
なる。なお、βやγの設定は、文書出力部3の出力結果
を見ながらユーザが文書入力部1から設定できるように
してもよく、また、出力された要約文の所定順位までの
ST(i)の総和とSA(i)の総和とが均等になるよ
うに文書処理部4で自動設定するようにしてもよい。
【0046】(実施の形態5)本実施の形態は、実施の
形態4において、タイトルに含まれている単語と同一の
単語を含んでいる割合と文書全体に含まれている単語と
同一の単語を含んでいる割合を計算する時に、単語辞書
8に予め設定した単語の重要度を読み出して、含まれて
いる単語の割合の計算に取り入れるというものである。
【0047】上記STK(i),SAK(i)は、 STK(i)=Σpi/Σpt×100 SAK(i)=Σpi/Σpa×100 と表すことができる。ここで、Σpiは文番号iの文に
含まれている単語の単語の重要度の和を、Σptはタイ
トルに含まれている単語の単語の重要度の和を、Σpa
は文書全体に含まれている単語の単語の重要度の和を表
している。
【0048】具体例を示してみると、図4のタイトルに
含まれている単語の重要度を、「ノンバンク」を0.
8、「整理」を0.5、「手続き」を0.6とすると、
本文の1番目の文は「ノンバンク」の1つの単語を含ん
でいるので、 STK(1)=0.8/(0.8+0.5+0.6)×100 =42 となり、2番目の文は「整理」、「手続き」の2つの単
語を含んでいるので、 STK(2)=(0.5+0.6)/(0.8+0.5+0.6)×100 =58 となる。このように、重要度を取り入れることで、より
精度の高い要約を得ることができる。
【0049】以上の実施の形態においては、入力文書を
文脈ベクトルを用いて解析することによって、従来の表
層的な解析による上記第1の手法に比較して、文書にお
ける質の良い重要部分を抽出できる。また、従来の文章
を意味的に解析する第2の手法に比較して、事前に特定
の文書形式や文脈を仮定する必要がないので、入力文書
に対する自由度が大きく種々のタイプの文書に適用可能
である。さらに、入力文書の構造解析や文脈の意味理解
を行って内容の重要性を定義する必要がないので、より
簡単な処理によって要約の抽出を行うことができる。ま
た、上記第3の手法に比較しても、タイトルから要約に
近い文脈ベクトルが構成されるため、より精度の高い要
約文の抽出が可能である。
【0050】なお、上述した要約処理を実行するための
プログラムをフロッピーディスクやCDROM等のコン
ピュータ読み取り可能な記録媒体に予め記録させておい
て、必要に応じてコンピュータにインストールさせて用
いてもよい。
【0051】
【発明の効果】以上より明らかなように、本発明によれ
ば、特定の文書形式や文脈を仮定することなく、簡単な
処理にて意味的に重要な要約を高精度に生成できる。つ
まり、入力文書の中で不要な箇所を重要な箇所と誤った
り、仮定した文書形式や文脈に当て嵌まらない入力文書
に対して全く非力であったりすることなく、種々のタイ
プの文書から適切な要約を抽出できる。
【図面の簡単な説明】
【図1】この発明の文書要約装置におけるブロック図で
ある。
【図2】単語の文脈ベクトルが定義された単語辞書の内
容の一例を示す図である。
【図3】要約作成処理動作のフローチャートである。
【図4】要約作成処理動作を具体的に説明するための新
聞記事の例である。
【符号の説明】
1 文書入力部 2 文書記憶部 3 文書出力部 4 文書処理部 5 文書解析部 6 文脈ベクトル生成部 7 文脈ベクトル比較部 8 単語辞書 9 タイトル抽出部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書のタイトルと本文から要
    約を作成する文書要約装置であって、 単語の文脈ベクトルが格納された単語辞書と、 上記タイトルを単語に、上記本文を文および単語にそれ
    ぞれ分解する文書解析手段と、 上記単語辞書を参照して上記タイトルの文脈ベクトル及
    び上記分割された文の文脈ベクトルを生成する文脈ベク
    トル生成手段と、 上記タイトルの文脈ベクトルと上記分割された文の文脈
    ベクトルとの距離を算出する距離算出手段と、 上記算出された距離に基づいて上記本文から少なくとも
    一つの文を要約として選出する選択手段と、を備えるこ
    とを特徴とする文書要約装置。
  2. 【請求項2】 入力された文書のタイトルと本文から要
    約を作成する文書要約装置として機能させるためのプロ
    グラムを記録したコンピュータ読み取り可能な記録媒体
    であって、 単語の文脈ベクトルが格納された単語辞書と、 上記タイトルを単語に、上記本文を文および単語にそれ
    ぞれ分解する文書解析手段と、 上記単語辞書を参照して上記タイトルの文脈ベクトル及
    び上記分割された文の文脈ベクトルを生成する文脈ベク
    トル生成手段と、 上記タイトルの文脈ベクトルと上記分割された文の文脈
    ベクトルとの距離を算出する距離算出手段と、 上記算出された距離に基づいて上記本文から少なくとも
    一つの文を要約として選出する選択手段として機能させ
    るためのプログラムを記録したコンピュータ読み取り可
    能な記録媒体。
  3. 【請求項3】 入力された文書のタイトルと本文から要
    約を作成する文書要約装置であって、 単語の文脈ベクトルが格納された単語辞書と、 上記タイトルを単語に、上記本文を文および単語にそれ
    ぞれ分解する文書解析手段と、 上記単語辞書を参照して上記タイトルの文脈ベクトル及
    び上記分割された文の文脈ベクトル及び上記文書全体の
    文脈ベクトルを生成する文脈ベクトル生成手段と、 上記タイトルの文脈ベクトルと上記分割された文の文脈
    ベクトルとの第1の距離を算出すると共に、上記文書全
    体の文脈ベクトルと上記分割された文の文脈ベクトルと
    の第2の距離を算出する距離算出手段と、 上記算出された第1の距離に基づいて上記本文から少な
    くとも一つの文を要約として選出すると共に、上記算出
    された第2の距離に基づいて上記本文から少なくとも一
    つの文を要約として選出する選択手段と、を備えること
    を特徴とする文書要約装置。
  4. 【請求項4】 入力された文書のタイトルと本文から要
    約を作成する文書要約装置として機能させるためのプロ
    グラムを記録したコンピュータ読み取り可能な記録媒体
    であって、 単語の文脈ベクトルが格納された単語辞書と、 上記タイトルを単語に、上記本文を文および単語にそれ
    ぞれ分解する文書解析手段と、 上記単語辞書を参照して上記タイトルの文脈ベクトル及
    び上記分割された文の文脈ベクトル及び上記文書全体の
    文脈ベクトルを生成する文脈ベクトル生成手段と、 上記タイトルの文脈ベクトルと上記分割された文の文脈
    ベクトルとの第1の距離を算出すると共に、上記文書全
    体の文脈ベクトルと上記分割された文の文脈ベクトルと
    の第2の距離を算出する距離算出手段と、 上記算出された第1の距離に基づいて上記本文から少な
    くとも一つの文を要約として選出すると共に、上記算出
    された第2の距離に基づいて上記本文から少なくとも一
    つの文を要約として選出する選択手段として機能させる
    ためのプログラムを記録したコンピュータ読み取り可能
    な記録媒体。
  5. 【請求項5】 入力された文書のタイトルと本文から要
    約を作成する文書要約装置であって、 単語の文脈ベクトルが格納された単語辞書と、 上記タイトルを単語に、上記本文を文および単語にそれ
    ぞれ分解する文書解析手段と、 上記単語辞書を参照して上記タイトルの文脈ベクトル及
    び上記分割された文の文脈ベクトル及び上記文書全体の
    文脈ベクトルを生成する文脈ベクトル生成手段と、 上記タイトルの文脈ベクトルと上記分割された文の文脈
    ベクトルとの第1の距離を算出すると共に、上記文書全
    体の文脈ベクトルと上記分割された文の文脈ベクトルと
    の第2の距離を算出する距離算出手段と、 上記算出された第1の距離と第2の距離の和に基づいて
    上記本文から少なくとも一つの文を要約として選出する
    選択手段と、を備えることを特徴とする文書要約装置。
  6. 【請求項6】 入力された文書のタイトルと本文から要
    約を作成する文書要約装置として機能させるためのプロ
    グラムを記録したコンピュータ読み取り可能な記録媒体
    であって、 単語の文脈ベクトルが格納された単語辞書と、 上記タイトルを単語に、上記本文を文および単語にそれ
    ぞれ分解する文書解析手段と、 上記単語辞書を参照して上記タイトルの文脈ベクトル及
    び上記分割された文の文脈ベクトル及び上記文書全体の
    文脈ベクトルを生成する文脈ベクトル生成手段と、 上記タイトルの文脈ベクトルと上記分割された文の文脈
    ベクトルとの第1の距離を算出すると共に、上記文書全
    体の文脈ベクトルと上記分割された文の文脈ベクトルと
    の第2の距離を算出する距離算出手段と、 上記算出された第1の距離と第2の距離の和に基づいて
    上記本文から少なくとも一つの文を要約として選出する
    選択手段として機能させるためのプログラムを記録した
    コンピュータ読み取り可能な記録媒体。
  7. 【請求項7】 上記距離算出手段が、上記タイトルと上
    記分割された文との同一単語の比率を考慮して第1の距
    離を算出するとともに、上記文書全体と上記分割された
    文との同一単語の比率を考慮して第2の距離を算出する
    ことを特徴とする請求項3または請求項5に記載の文書
    要約装置。
  8. 【請求項8】 上記単語辞書が、単語の特徴ベクトルと
    共に単語の重要度を格納し、上記距離算出手段が、上記
    同一単語の比率を算出する際に、上記単語の重要度を用
    いることを特徴とする請求項7に記載の文書要約装置。
JP26331897A 1997-09-29 1997-09-29 文書要約装置及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3470021B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26331897A JP3470021B2 (ja) 1997-09-29 1997-09-29 文書要約装置及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26331897A JP3470021B2 (ja) 1997-09-29 1997-09-29 文書要約装置及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH11102372A true JPH11102372A (ja) 1999-04-13
JP3470021B2 JP3470021B2 (ja) 2003-11-25

Family

ID=17387824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26331897A Expired - Fee Related JP3470021B2 (ja) 1997-09-29 1997-09-29 文書要約装置及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3470021B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197096A (ja) * 2000-12-12 2002-07-12 Nec Corp 文書の一般テキストサマリを作成する方法およびシステム
KR100785927B1 (ko) 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム
JP2017068359A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話制御方法
CN110517689A (zh) * 2019-08-28 2019-11-29 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置及存储介质
CN113836257A (zh) * 2021-10-13 2021-12-24 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197096A (ja) * 2000-12-12 2002-07-12 Nec Corp 文書の一般テキストサマリを作成する方法およびシステム
KR100785927B1 (ko) 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
US7747429B2 (en) 2006-06-02 2010-06-29 Samsung Electronics Co., Ltd. Data summarization method and apparatus
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム
JP2017068359A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話制御方法
CN110517689A (zh) * 2019-08-28 2019-11-29 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置及存储介质
CN110517689B (zh) * 2019-08-28 2023-11-24 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置及存储介质
CN113836257A (zh) * 2021-10-13 2021-12-24 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质
CN113836257B (zh) * 2021-10-13 2024-04-30 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP3470021B2 (ja) 2003-11-25

Similar Documents

Publication Publication Date Title
US11551567B2 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
Weiss et al. Fundamentals of predictive text mining
Weiss et al. Text mining: predictive methods for analyzing unstructured information
Oostdijk Corpus linguistics and the automatic analysis of English
US8060357B2 (en) Linguistic user interface
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
Rayson Matrix: A statistical method and software tool for linguistic analysis through corpus comparison
US5418717A (en) Multiple score language processing system
JP2783558B2 (ja) 要約生成方法および要約生成装置
US20070050352A1 (en) System and method for providing autocomplete query using automatic query transform
JP2001075966A (ja) データ分析システム
JP2944346B2 (ja) 文書要約装置
Mustafa et al. Kurdish stemmer pre-processing steps for improving information retrieval
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
JPWO2008108061A1 (ja) 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
Degaetano-Ortlieb et al. The scientization of literary study
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2002123544A (ja) 検索前処理装置、文書検索装置、検索前処理方法及び文書検索方法
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP4213900B2 (ja) 文書分類装置と記録媒体
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP4098764B2 (ja) 文書処理装置及びプログラム
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030826

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees