JP2002297635A - 要約文作成システム及びその方法 - Google Patents

要約文作成システム及びその方法

Info

Publication number
JP2002297635A
JP2002297635A JP2001101301A JP2001101301A JP2002297635A JP 2002297635 A JP2002297635 A JP 2002297635A JP 2001101301 A JP2001101301 A JP 2001101301A JP 2001101301 A JP2001101301 A JP 2001101301A JP 2002297635 A JP2002297635 A JP 2002297635A
Authority
JP
Japan
Prior art keywords
sentence
vector
word
value
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001101301A
Other languages
English (en)
Inventor
Kazuyoshi Nagaho
和義 長保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001101301A priority Critical patent/JP2002297635A/ja
Publication of JP2002297635A publication Critical patent/JP2002297635A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数の課題を含む文章を要約文作成する際
に、冗漫でなくできるようにしたシステムが望まれてい
た。 【解決手段】 各文内に含まれる名詞や形容動詞等に限
定した単語別の使用頻度等により決まる単語の重み付け
を比較することにより、前記文章に含まれる単語別の重
要度を計算し、前記文章ベクトルに対する各文毎のベク
トルをベクトル内積計算値、前記文章ベクトルに近い度
合いを比較し、それに応じて、複数の文に対する重要性
を序列付けて重要性識別し、前記文章ベクトルから重要
性の高い順にベクトル減算することにより順次新たな文
章ベクトルを生成し、その新たな文章ベクトルに所定の
要約率による要約及び補正し、要約された複数の文を元
通りの順番に整列させ接続詞及び指示代名詞を削除又は
指定語句へ変換することにより、自然さを確保する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、長い文章を短縮し
て要約する要約文作成システム及びその方法に関する。
特に全文検索を行うデータベースでの収録文献の全文の
中から、抄録文に必要な意味情報を含む重要文を抽出し
て抄録文を自動的に作成するのに適する。尚、本明細書
において「文」とは、文頭から「。」あるいは「.」で
区切られて終わるまでの間に、一つのまとまった意味を
表した、一続きの文字列を言う。又、「単語」とは自立
語のことを言う。
【0002】
【従来の技術】従来、この種の「抄録文作成装置」とし
て、特公平7−43717(特開平2−257266,
特願平1−28125)号公報に開示されたものがあっ
た。それは、入力された文章から必要な文を抽出して抄
録文を作成する抄録文作成装置において、入力された全
文の中からキーワードとなる重要語を抽出して、その出
現頻度から最重要語を確定し最重要語を含む文および特
定の文を重要文として抽出し、この抽出した重要文から
不要な語および不要な文を削除することにより、入力さ
れた全文から簡易な形で抄録文を作成し抄録文の作成を
省力化するものである。
【0003】そして、抄録を作成しようとする文章の空
白などを削除して、文の区切りをはっきりさせる前処理
を行う。又、前処理を行った後、「は」とか「には」な
どの助詞の前にある漢字、あるいはカナ文字などの単語
を重要語として抽出する。又、抽出された重要語の使用
頻度を計数し、最も頻度の高い単語を最重要語として確
定する。この確定された最重要語が含まれかつ重要語が
1以上含まれている文および「結果」などの特定の単語
が含まれている文を重要文として抽出する。
【0004】抽出された重要文から、「上記」などの不
要な単語を削除し、また、「表」、「図」等の後に数字
が来るような不要な文を削除する文章整形作業を行い、
抄録文を作成出力する。ざっと前記した従来の技術で
は、最も重要と判断された内容の文のみに着目して要約
しており、文章全体で単一の課題に限定した要約に限
り、良好に機能していた。
【0005】
【発明が解決しようとする課題】しかし、複数の課題を
含む文章を要約した場合に、二番目以降の課題を説明す
る度に、最重要課題の繰り返し説明が避けられなかっ
た。結果的に、要約文であるはずなのに、冗漫さが目立
つ欠点があった。本発明は、複数の課題を含む文章を要
約した場合にも、二番目以降の課題を箇条書き説明にも
近い簡潔明瞭さを徹底するなどして、最重要課題の繰り
返し説明を避け、結果的には冗漫さを極力排除して、し
かも自然で読みやすい要約文を、より簡素で低価格に提
供することを目的としている。
【0006】又、前記目的を達成するために、一連の複
雑な計算を簡単にし、本発明によるシステム及びその方
法を実施するためのプログラム設計やメモリ容量等を簡
素に済ませ、しかも処理速度を上げることも目的として
いる。
【0007】
【課題を解決するための手段】前記目的を達成するため
に、請求項1に係る発明は、入力された文章を文に区切
り単語に分割する形態素解析ステップ(S1)と、前記
文の中から名詞と形容動詞及びそれらに類する単語を抽
出する単語抽出ステップ(S2)と、前記単語の夫々を
座標軸とする多次元ベクトル空間に前記単語の使用頻度
及び/又は重要性の重み付けに応じてベクトルマップし
た単語ベクトルを設定し文ベクトルを計算する文ベクト
ル計算ステップ(S3)と、その文ベクトル計算ステッ
プ(S3)を文章中に含まれる全ての文に対して徹底さ
せる徹底ステップ(S4)と、前記文ベクトル計算ステ
ップ(S3)と同様だが文章全体の単語に対して計算し
た単語ベクトルを文章全体のベクトルとする文章ベクト
ル計算ステップ(S5)と、前記文ベクトルの夫々と前
記文章ベクトルの内積を計算するベクトル内積計算ステ
ップ(S6)と、そのベクトル内積計算ステップ(S
6)の計算値のうち最大値をもたらす文を抽出して重要
文の候補とする内積値最大文抽出ステップ(S7)と、
前記重要文のベクトルを前記文章ベクトルから引くこと
により文章を補正する文章ベクトル補正ステップ(S
8)と、それらのベクトル内積計算ステップ(S6)か
ら内積値最大文抽出ステップ(S7)及び文章ベクトル
補正ステップ(S8)でなる三ステップを適宜繰り返す
ことにより設定自在の要約率に到達させる要約率達成ス
テップ(S9)と、複数の重要文が得られた場合に元の
文章の並び順を踏襲して整列し接続詞及び/又は指示代
名詞が有れば指定の語句に置換又は削除して自然さを確
保する出力文章整形ステップ(S10)を実行するよう
にした。
【0008】このようにしたので、複数の課題を含む文
章を要約した場合にも、二番目以降の課題を箇条書き説
明にも近い簡潔明瞭さを徹底するなどして、最重要課題
の繰り返し説明を避け、結果的には冗漫さを極力排除し
て、しかも自然で読みやすい要約文を提供できる。
【0009】又、請求項2に係る発明は、ある単語が文
の中にどれだけ多く使用されているかという指標TF
(Term Frequency)値と文章全体の中でどれだけ使われ
ていないかという指標IDF(Inverse Document Frequ
ency)値を掛け合わせることでその単語が文章全体の中
での重要度を計算する重要語抽出手段を伴うとともに、
前記要約文作成システムのプログラムを実行するように
した。このようにしたので、より正確に重要文を抽出で
きる。
【0010】又、請求項3に係る発明は、前記文ベクト
ルを正規化する以前の各単語の重要度TFIDF(Term
Frequency Inverse Document Frequency)値、若しく
は正規化した後の前記文ベクトル値に前記要約率の逆数
を掛けた値を得、その値を前記文章ベクトルから引くこ
とにより、文章を補正する文章ベクトル補正ステップ
(S8)とし、前記ベクトル内積計算ステップ(S6)
を実行するようにした。このようにしたので、前記文章
ベクトルと前記文ベクトルが定数になるので、前述した
一連の計算が簡単になり、本発明によるシステム及びそ
の方法を実施するためのプログラム設計やメモリ容量等
が簡素で済み、しかも処理速度が上がる
【0011】
【発明の実施の形態】以下、図面に沿って、本発明によ
る一実施例について説明する。図1は、本発明の実施形
態(以下、「本システム」と称す)を示すブロック図で
あり、本システムに複数の文でなる文章が入力される
と、その文章に対して文末検索、即ち文章に含まれる文
末の句点「。」若しくは「.」で文に区切り、区切られ
たそれら文に対して、言葉の最小単位である単語に分解
する形態素解析部1がある。
【0012】形態素解析部1で単語に分解されると、一
単語を一座標軸とし、それら単語の意味により座標軸の
方向が決まり、即ち類似語であればそれら座標軸の方向
も鋭角にて接近し、逆に反対語であれば相反する180
゜の方向に夫々の座標軸が延び、無関連の単語どうしな
らば90゜の座標軸と想定する。
【0013】ただし、正確に図示できる三次元空間、即
ち人が実生活する場においては、原点を中心として夫々
90゜で交わる座標軸は、その原点から均等な角度差で
放射状に展開しても、上・下と前・後・左・右の最大6
本しか設定できないが、例えばある文章における百種類
の単語に対し、それらに対応する百本の座標を設定した
百次元ベクトル空間を想定した場合、普通の文章であれ
ば夫々の単語がどの組み合わせにおいても、それらの意
味が全く無関連である単語が少なくとも十以上は存在す
ると考えられる。
【0014】しかし、その十の単語に対応した十本の座
標軸を、どの組み合わせにおいても夫々90゜で交わら
せるように存在させるイメージは浮かべ難い、といった
三次元居住者の視覚認識による不合理もあるが、ここ仮
想の多次元ベクトル空間では原点を中心として夫々90
゜で交わる座標軸を、必要に応じた組み合わせの本数だ
け存在させられるものと考える。
【0015】そして、文中に使われている単語の重みT
FIDF値によりベクトル量が増減され、多次元ベクト
ル空間にベクトル展開するベクトルマップ手段(図示せ
ず)がある。このベクトルマップ手段は、ベクトル空間
法に基づく、前記多次元の座標軸において、文書は複数
の単語夫々の重み(頻度)を反映させた次元の値とする
文ベクトルとして表現する。
【0016】ここまでで、各文内に含まれる名詞や形容
動詞等の単語別に、それら単語の重みTFIDF(Term
Frequency Inverse Document Frequency)値を各座標
の成分として文ベクトルを計算する。
【0017】ここで、一文に含まれる単語に関し、それ
ら全部の単語の重みTFIDFを計算し、夫々が各次元
の成分となるベクトルを計算する文ベクトル計算部2が
あり、同様に文章全体の単語の重みから文章ベクトルを
計算する文章ベクトル計算部3がある。そして、前記文
及び文章に関し、夫々ベクトル計算した値を記憶する文
ベクトル記憶部4と、各文と全文章でそれらのベクトル
計算値を比較するベクトル比較部5がある。
【0018】又、異なる複数の文に対する相互の類似度
を比較した場合、ベクトル空間においてそれらが文ベク
トルの方向が一致する文である程に、類似度が高いと言
える。又、周知のベクトル内積計算では余弦計算が含ま
れるので、ベクトル相互間の角度が90゜ならば計算値
がゼロとなり、角度が0゜ならば計算値が最大となる。
要するに、比較する文の意味が無関係ならば文ベクトル
の内積計算は最小値、類似なら最大値を呈する原理であ
る。
【0019】ここで、ベクトル比較部5は、前記文章ベ
クトルに近い度合いに応じて、複数の文に対する重要性
を序列付ける。又、前記文章ベクトルから重要性の高い
順に文ベクトルを減算する。この時、一方では減算され
る重要性の高い文が、最終目的たる要約文の主要な文と
して用いられ、他方では重要性を順次軽減させて新たな
文章ベクトルを生成する。
【0020】そして、一番重要な文を抽出減算された新
たな文章ベクトルからは2番目に重要な文を抽出して減
算し、それと同様に3番目、4番目、5番目と次々に重
要文の抽出減算を繰り返す。一方で抽出減算された重要
性の高い文が出力文章整形部6で再配列されて要約され
る際に、その要約文を構成する複数の文を元通りの順番
に整列させる。そして、接続詞及び指示代名詞を削除又
は指定語句へ変換することにより、自然さを確保するこ
とにより、本発明の目的を達成する。
【0021】図2は、本発明の実施形態の動作を示すフ
ローチャートである。先ず、図示せぬ周知の文章読み取
り手段により、入力された文章の文末を句点「。」又は
「.」により検出して文に区切り、さらにその区切られ
た文を単語に分割する形態素解析ステップ(S1)があ
る。
【0022】そして、前記単語のなかから、名詞と形容
動詞等を抽出する単語抽出ステップ(S2)がある。そ
こで、抽出された前記単語を座標軸とする多次元ベクト
ル空間にベクトルマップした単語ベクトルを設定する。
一単語につき、一座標軸を持つので、例えば100単語
あれば100次元ベクトル空間に及ぶ展開であり、単純
例として、ある語句「太陽」が別の語句「月」の2倍の
頻度で抽出されたならば、「太陽」ベクトルが「月」ベ
クトルの2倍の数値となる。ただし、後述する重み付け
の計算結果を適用する。
【0023】さらに、少ない数の文にしか表れないとす
るIDF(単語が出現した文の数の逆数)値と、使用頻
度TF(文内の単語頻度)値を掛けて算出されるTFI
DF(文ベクトルの各次元の成分にする)値を単語の重
みとし、重要語の目安にするとともに、文ベクトルを計
算する文ベクトル計算ステップ(S3)である。尚、重
み付けの尺度や定義に関するIDF値、TF値及びTF
IDF値の具体的な計算は後述する計算式によるものと
し、文ベクトル計算は文中の語句夫々に重み付けの計算
結果を適用する。
【0024】そして、その文ベクトル計算ステップ(S
3)を、前記文章中の全ての文に対して漏れなく計算し
終わるまで、繰り返し徹底させる徹底ステップ(S4)
がある。全部を計算し終わっていないため残りがあると
判断されている限り、文ベクトル計算ステップ(S3)
を繰り返すようにシステムがプログラムされている。
【0025】全ての文に対して漏れなく計算し終わる
と、その徹底ステップ(S4)の判定により文章全体で
も、各単語について前述のように発生頻度TF値及び重
みTFIDF値を重要語の目安にするとともに、文章ベ
クトルの計算が完了したとみなされる文章ベクトル計算
ステップ(S5)に至る。すると、前記文ベクトルの夫
々と前記文章ベクトルの内積を計算するベクトル内積計
算ステップ(S6)へと移行する。これは、文の数だけ
計算結果が算出される。これは、文の数だけ計算結果が
算出される。尚、ベクトルの内積計算は普遍的かつ周知
なので具体的な計算式の説明は省略する。
【0026】次に、そのベクトル内積計算ステップ(S
6)において、文の数だけ算出された計算値のうち、最
大値をもたらす文を抽出して重要文の候補とする内積値
最大文抽出ステップ(S7)がある。ここで、二つの近
似ベクトルに対する内積計算値と、相反する二つのベク
トルに対する内積計算値とを比較すれば、前記近似ベク
トルに対する内積計算値の方が大きい。前記近似ベクト
ルとは同一の単語を同数用いた文とも言えるので、それ
らの文の意味は近似している。さらに、文章ベクトルに
対する文ベクトルの内積計算値の方が大きい場合は、文
章全体の意味に対する文の意味が近似している。このよ
うに内積計算値が大きい文を重要文と判断している。
【0027】次に、前記重要文のベクトルを前記文章ベ
クトルから引くことにより、一番重要な文を前記文章か
ら抜き取る操作で、文章を補正する文章ベクトル補正ス
テップ(S8)がある。ここで、前記文章が単一の用件
しか含んでいなければ、例えば「真っ赤な太陽が沈ん
だ」が文章の全ての用件であれば、文章ベクトル補正ス
テップ(S8)の経過により、一番重要な文を前記文章
から抜き取る操作で残りはゼロである。
【0028】しかし、本システムは複雑で長い文章を要
約文にまとめるためのシステム及び方法であり、以下の
例文でその要領を説明する。例えば「(1)真っ赤な太
陽が沈んだ。(2)そして十五夜の月が昇り、物語が始
まった。(3)恋の物語はその夜に始まり、明るい月に
照らされるままに、その女の物語も佳境に及んだ。
(4)女は長い髪を解いて、風にたなびかせた。(5)
男は手に汗を握り、たなびく女の髪を間近にすくい寄せ
て、女の耳元に囁き掛けた。」とあれば、(1),
(2),(3),(4),(5)の文に区切られる。
【0029】ここで、主だった単語に対する各指標値
は、以下のように算出できる。 単語 /(各指標値)TF (文章全体) IDF 「月」 2 0.916291 「物語」 3 0.916291 「女」 4 0.510826 「髪」 2 0.916291 ここでは計算の簡略化のため、文内の正規化、文章内の
正規化は行わないで説明する。実際には、文の長短の影
響を排除するため頻度(TF)は後述する正規化を行っ
ている。
【0030】文章全体での単語の重要度は、頻度(T
F)のみで計算するので、「女」、「物語」の順にな
る。「各文の単語の頻度」を調べると以下のようにな
る。 TF 行番号 「月」 「物語」 「女」 「髪」 (1) 0 0 0 0 (2) 1 1 0 0 (3) 1 2 1 0 (4) 0 0 1 1 (5) 0 0 2 1
【0031】これに、各単語のIDF値を掛けることで
TFIDF値を計算できる。 TF 行番号 「月」 「物語」 「女」 「髪」 (1) 0.00 0.00 0.00 0.00 (2) 0.92 0.92 0.00 0.00 (3) 0.92 1.85 0.51 0.00 (4) 0.00 0.00 0.51 0.92 (5) 0.00 0.00 1.02 0.92 上記各行の単語を成分とした4次元ベクトルを想定し、
前述の文章全体の単語頻度を成分とした4次元ベクトル
と比較する。比較する時は内積を計算し、最大の物を最
重要文とする。この様な計算で算出された最重要文は
(3)となる。
【0032】次に、文(3)の単語頻度を文章全体の単
語頻度から引く。そうすると 単語/(各指標値) TF(文章全体) 「月」 1 「物語」 1 「女」 3 「髪」 2 となり、これを新たな文章全体のベクトルとして、前記
「各文の単語の頻度」からの計算と同じように内積を計
算する。この場合、次なる重要文は(4)となる。以
下、同様の計算で内積を算出して行くと、重要文は続い
て(1)、(2)、(5)となる。
【0033】このようにして、1番目に選ばれる文
(3)が全体の要約文であるのに対して、2番目に選ば
れた文(4)こそが本発明の最たる特徴であり、その2
番目に選ばれる文(4)は1番目に選ばれた文(3)と
比べ、「髪」に関する話題を優先して選ばれていること
がわかる。
【0034】そして、ベクトル内積計算ステップ(S
6)から、内積値最大文抽出ステップ(S7)及び文章
ベクトル補正ステップ(S8)でなる三ステップを適宜
繰り返すことになる。前述の例では、(3),(4),
(1),(2),(5)の順に重要な文が抽出され、5
回目の抽出で、文章中に残る文は無くなる。ここで、前
記要約率を1/5に設定し、元の文から1/5の文量若
しくは意味だけを重要文として、抽出すれば目的を達成
したものと仮定する。この例文の場合は、前記三ステッ
プを1回実行するだけで、「(3)恋の物語はその夜に
始まり、明るい月に照らされるままに、その女の物語も
佳境に及んだ。」の文を最重要文と見做して抽出し、
(3)の文をさらに短縮する(図示せず)ことにより、
要約文作成の目的を達成したとして、プログラムは終了
する。
【0035】尚、(3)の文を「(3)’その女の恋の
物語は月の夜に始まった。」程度の要約文に短縮する方
法、即ち個々の文を短縮する方法に関しては、周知なの
で説明を省略する。
【0036】同様に、前記要約率を2/5に設定し、元
の文から2/5の文量若しくは意味だけを重要文とし
て、抽出すれば目的を達成したものと仮定する。この場
合は、前記三ステップを2回実行し、「(3)恋の物語
はその夜に始まり、明るい月に照らされるままに、その
女の物語も佳境に及んだ。(4)女は長い髪を解いて、
風にたなびかせた。」の文を重要文と判断して抽出し、
要約文作成の目的を達成したとして、プログラムは終了
する。
【0037】尚、文中に「そして」が入れば、後述する
出力文章整形ステップ(S10)の補正機能で削除又は
他の表現に変換されるし、「月に照らされる」の後に
「月が昇った」が配列された場合も順番が逆転して奇妙
であり、そのことも後述する方法で修正される。
【0038】ここで、前述した設定自在の要約率に到達
させる要約率達成ステップ(S9)の判定結果により、
予め設定した要約率に到達したものと、判断されたなら
ば、次の出力文章整形ステップ(S10)へ移行する。
【0039】このステップでは前述の例に示したよう
に、複数の重要文(3)と(4)が得られた場合、元の
文章の並び順、即ち(1),(2),(3),(4),
(5)の順番を逆転させないように踏襲して整列する。
この例文の要約率2/5を実行した場合は(3)と
(4)の並び順は逆転していないのでそのままで良い。
この時、要約された文に接続詞「そして」や、指示代名
詞「その」が含まれていれば、出力文章整形ステップ
(S10)により、指定の語句に置換又は削除して自然
さを確保する。ただし、従来から有る周知機能なので、
その詳細説明は省略する。
【0040】このようにしたので、複数の課題を含む文
章を要約した場合にも、二番目以降の課題を箇条書き説
明にも近い簡潔明瞭さを徹底するなどして、最重要課題
の繰り返し説明を避け、結果的には冗漫さを極力排除し
て、しかも自然で読みやすい要約文を提供できる。
【0041】又、文ベクトルを計算する文ベクトル計算
ステップ(S3)では、前記各文内における単語の使用
頻度TF値が文の長さに比例するので何らかの正規化を
する。例えば文ベクトルの長さを1に揃えると、以後の
内積計算値により直ちに文の類似度が判別できる。
【0042】この様に正規化された後であれば、内積値
最大文抽出ステップ(S7)で、文の長短の不公平を除
去し、略公平に重要さが内積計算値に反映されるので、
文が長い程重要視されるという間違った判断を避けられ
る。
【0043】一方、文章ベクトル補正ステップ(S8)
では、前記文章ベクトルを正規化する以前の各単語の発
生頻度TF値、若しくは前記文ベクトルの長さを1に正
規化した後に前記要約率の逆数を掛けた値から、前記重
要文のベクトルを引くことにより、文章を補正する文章
ベクトル補正ステップ(S8)を備えている。
【0044】ここで、前述の例文によれば、要約率を2
/5に設定し、その逆数は5/2である。元の文から2
/5の文量若しくは意味だけを重要文として、抽出すれ
ば目的を達成したものと仮定する。この場合は、前記三
ステップを2回実行するだけで、「(3)恋の物語はそ
の夜に始まり、明るい月に照らされるままに、その女の
物語も佳境に及んだ。(4)女は長い髪を解いて、風に
たなびかせた。」の文を重要文と見做して抽出し、要約
文作成の目的を達成したとして、プロラムは終了する。
【0045】前記文ベクトルの長さを1に正規化するこ
とを、見た目の字面で模擬検討すると、字面が長い
(3)「恋の物語はその夜に始まり、明るい月に照らさ
れるままに、その女の物語も佳境に及んだ。」の文の長
さを、短い文(1),(2),(5),との比較におけ
る不公平を除去すべく、元の文に比べて約2/5に縮め
られた扱いになっている。
【0046】そこで、(3)の文ベクトル値に前記逆数
5/2を掛けて、文の長さを縮尺操作した正規化の害を
取り除いて、前記最重要文のベクトルを引く。即ち、前
記重要文(3)の文の長さを正規化により約2/5に縮
尺しているところを、5/2倍すれば擬似逆正規化の処
理を施したことになり、元通りに近い長さに回復する。
2番目の重要文(4)女は長い髪を解いて、風にたなび
かせた。」にも前記(3)と同様の擬似逆正規化の処理
を施す。
【0047】ただし、実際に正規化する計算方法として
は、前述した字面の長短よりも「文ベクトルの長さ」
(以下、「長さ」と称す)を用いる。その、「長さ」を
1に正規化するとは、先ず各単語のTFIDF値を計算
して、それを成分とする多次元ベクトルの「長さ」を計
算する。そして、前記「長さ」は各単語のTFIDF値
を2乗した値の総和に対する平方根により算出する。そ
のようにして得た「長さ」で、各単語のTFIDF値を
夫々割ることにより正規化する。従って、見た目の長
さ、即ち「字面の長さ」で計算するわけではないが、全
く無関係でもない。
【0048】前述の擬似逆正規化の操作により、前記重
要文(3)の文の「長さ」を元通りに近い「長さ」に回
復した後に、前記文章ベクトルから前記重要文のベクト
ルを引くことにより、文章を補正する文章ベクトル補正
ステップ(S8)を実行するようにした。このようにし
たので、前記文章ベクトルと前記文ベクトルが縮尺換算
の不要な定数になるので、前述した一連の計算が簡単に
なり、本発明によるシステム及びその方法を実施するた
めのプログラム設計やメモリ容量等が簡素で済み、しか
も処理速度が上がる。
【0049】最後に、前記TFIDFによる語句の重要
度判定に関する数式による補足説明をする。先ず、ベク
トル空間法により、文書d,…,d,…,dから
なる文書データベースdbに含まれる全ての語句ter
mt,…,t,…,tを次元とするベクトル空間
を想定する。そこで、以下の通りに定義付ける。
【0050】1) TF(Term Frequency) 文書dにおける、語句termtの頻度freq
ij= tf(d,t) freqij の文書dにおける最大値=max・f
req 文書dにおける、異なるtermの種類数=leng
th ここで、tf(d,t) は文書dの性質、例えば
文書長に依存するので、何らかの正規化する。以下に正
規化の二例をあげる。 c・freqij =K+(1−K)・(freq
ij /max・freq ) n・freqij =[log(freqij
1)/loglength] ただし、ここでc,n,Kは正規化処理における適性定
数とする。
【0051】2) IDF(Inverse Document Frequ
ency) 対象とする文書データベースdbに含まれる文書総数=
DB・size(db) termtが現れる文書データベースdbの文書数=
freq(t,db) idf(t)=log[DB・size(db)/f
req(t,db)]+1でIDF(Inverse Docume
nt Frequency)即ち、少ない文書にしか現れないが重要
である語句との定義付けをし、前記TFと併用する。即
ち1),2)より
【0052】3) TFIDF(Term Frequency Inv
erse Document Frequency) 文書dにおけるtermtの重みw(d,t
を以下の様に定義付けする。 w(d,t)=tf(d,t)・idf(t) ここで、tf(d,t)部分に前記c・freq
ij ,n・freq の何れかを代入しても良
く、 c・freqij を用い、w(d,t)=K+
(1−K)・(freqij /max・freq
・idf(t) n・freqijを用い、w(d,t)=[lo
(freqij +1)/loglengt
]・idf(t ) などとなる。
【0053】本システムでは、文書dの情報検索にお
けるキーワードとして、その基本的尺度となる、重みw
(d,t)の大きなtermtを選ぶことによ
り、要約文の作成に際して、重要語句を拾い出してい
る。尚、前記TF・IDFに関する計算式自体は、周知
事項であるが、各種の変形例も提案されている。従っ
て、本発明で開示した要約文作成システム及びその方法
の技術分野において、前述の代表的な計算式に近似する
計算方法により、前記TF若しくはTF・IDFの技術
思想が含まれている場合は、本発明の要旨に含まれるも
のと看做し得る。
【0054】
【発明の効果】以上説明したように構成したので、請求
項1に係る発明によれば、複数の課題を含む文章を要約
した場合にも、二番目以降の課題を箇条書き説明にも近
い簡潔明瞭さを徹底するなどして、最重要課題の繰り返
し説明を避け、結果的には冗漫さを極力排除して、しか
も自然で読みやすい要約文を提供できる。
【0055】又、請求項2に係る発明によれば、より正
確に重要文を抽出できる。
【0056】又、請求項3に係る発明によれば、前記文
章ベクトルと前記文ベクトルが定数になるので、前述し
た一連の計算が簡単になり、本発明によるシステム及び
その方法を実施するためのプログラム設計やメモリ容量
等が簡素で済み、しかも処理速度が上がる
【図面の簡単な説明】
【図1】 本発明の実施形態を示すブロック図である。
【図2】 本発明の実施形態の動作を示すフローチャー
トである。
【符号の説明】
1, 形態素解析部 2, 文ベクトル計算部 3, 文章ベクトル計算部 4, 文ベクトル記憶部 5, ベクトル比較部 6, 出力文章整形部 S1, 形態素解析ステップ S2, 単語抽出ステップ S3, 文ベクトル計算ステップ S4, 徹底ステップ S5, 文章ベクトル計算ステップ S6, ベクトル内積計算ステップ S7, 内積値最大文抽出ステップ S8, 文章ベクトル補正ステップ S9, 要約率達成ステップ S10,出力文章整形ステップ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力された文章を文に区切り単語に分割
    する形態素解析ステップ(S1)と、前記文の中から名
    詞と形容動詞及びそれらに類する単語を抽出する単語抽
    出ステップ(S2)と、前記単語の夫々を座標軸とする
    多次元ベクトル空間に前記単語の使用頻度及び/又は重
    要性の重み付けに応じてベクトルマップした単語ベクト
    ルを設定し文ベクトルを計算する文ベクトル計算ステッ
    プ(S3)と、その文ベクトル計算ステップ(S3)を
    文章中に含まれる全ての文に対して徹底させる徹底ステ
    ップ(S4)と、前記文ベクトル計算ステップ(S3)
    と同様だが文章全体の単語に対して計算した単語ベクト
    ルを文章全体のベクトルとする文章ベクトル計算ステッ
    プ(S5)と、前記文ベクトルの夫々と前記文章ベクト
    ルの内積を計算するベクトル内積計算ステップ(S6)
    と、そのベクトル内積計算ステップ(S6)の計算値の
    うち最大値をもたらす文を抽出して重要文の候補とする
    内積値最大文抽出ステップ(S7)と、前記重要文のベ
    クトルを前記文章ベクトルから引くことにより文章を補
    正する文章ベクトル補正ステップ(S8)と、それらの
    ベクトル内積計算ステップ(S6)から内積値最大文抽
    出ステップ(S7)及び文章ベクトル補正ステップ(S
    8)でなる三ステップを適宜繰り返すことにより設定自
    在の要約率に到達させる要約率達成ステップ(S9)
    と、複数の重要文が得られた場合に元の文章の並び順を
    踏襲して整列し接続詞及び/又は指示代名詞が有れば指
    定の語句に置換又は削除して自然さを確保する出力文章
    整形ステップ(S10)を実行することを特徴とする要
    約文作成システム及びその方法。
  2. 【請求項2】ある単語が文の中にどれだけ多く使用され
    ているかという指標TF(Term Frequency)値と文章全
    体の中でどれだけ使われていないかという指標IDF
    (Inverse Document Frequency)値を掛け合わせること
    でその単語が文章全体の中での重要度を計算する重要語
    抽出手段を伴うとともに、実行することを特徴とする請
    求項1に記載の要約文作成システム及びその方法。
  3. 【請求項3】 前記文ベクトルを正規化する以前の各単
    語の重要度TFIDF(Term Frequency Inverse Docum
    ent Frequency)値、若しくは正規化した後の前記文ベ
    クトル値に前記要約率の逆数を掛けた値を得、その値を
    前記文章ベクトルから引くことにより、文章を補正する
    文章ベクトル補正ステップ(S8)とし、前記ベクトル
    内積計算ステップ(S6)を実行することを特徴とする
    請求項1又は請求項2に記載の要約文作成システム及び
    その方法。
JP2001101301A 2001-03-30 2001-03-30 要約文作成システム及びその方法 Withdrawn JP2002297635A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001101301A JP2002297635A (ja) 2001-03-30 2001-03-30 要約文作成システム及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001101301A JP2002297635A (ja) 2001-03-30 2001-03-30 要約文作成システム及びその方法

Publications (1)

Publication Number Publication Date
JP2002297635A true JP2002297635A (ja) 2002-10-11

Family

ID=18954639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001101301A Withdrawn JP2002297635A (ja) 2001-03-30 2001-03-30 要約文作成システム及びその方法

Country Status (1)

Country Link
JP (1) JP2002297635A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004298A (ja) * 2004-06-18 2006-01-05 Fuji Xerox Co Ltd 文書処理装置、文書処理方法及び文書処理プログラム
JPWO2010041420A1 (ja) * 2008-10-10 2012-03-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
KR101508260B1 (ko) 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
JP2020035272A (ja) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
CN110968666A (zh) * 2019-11-22 2020-04-07 掌阅科技股份有限公司 基于相似度的标题生成模型的训练方法及计算设备
CN112257430A (zh) * 2020-03-27 2021-01-22 北京来也网络科技有限公司 结合rpa和ai的语句处理方法、电子设备和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004298A (ja) * 2004-06-18 2006-01-05 Fuji Xerox Co Ltd 文書処理装置、文書処理方法及び文書処理プログラム
JPWO2010041420A1 (ja) * 2008-10-10 2012-03-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP5527548B2 (ja) * 2008-10-10 2014-06-18 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
KR101508260B1 (ko) 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
JP2020035272A (ja) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
JP7288293B2 (ja) 2018-08-31 2023-06-07 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
CN110968666A (zh) * 2019-11-22 2020-04-07 掌阅科技股份有限公司 基于相似度的标题生成模型的训练方法及计算设备
CN112257430A (zh) * 2020-03-27 2021-01-22 北京来也网络科技有限公司 结合rpa和ai的语句处理方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
JP3691844B2 (ja) 文書処理方法
US10496756B2 (en) Sentence creation system
EP0953192A1 (en) Natural language parser with dictionary-based part-of-speech probabilities
Gupta et al. Text summarization of Hindi documents using rule based approach
US7184949B2 (en) Basic poetry generation
Al-Taani et al. An extractive graph-based Arabic text summarization approach
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
Yeom et al. Unsupervised-learning-based keyphrase extraction from a single document by the effective combination of the graph-based model and the modified C-value method
CN110889292B (zh) 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
De Boni et al. Implementing clarification dialogues in open domain question answering
CN107239554B (zh) 一种基于匹配度检索英文文本的方法
JP3198932B2 (ja) 文書検索装置
CN113743090B (zh) 一种关键词提取方法及装置
Xiong et al. Extended HMM and ranking models for Chinese spelling correction
JP2003271592A (ja) テキスト生成方法及びテキスト生成装置
Gupta Automatic stemming of words for Punjabi language
JPH01217623A (ja) キーワード自動生成装置
JP2002297635A (ja) 要約文作成システム及びその方法
Kosinov Evaluation of N-grams Conflation Approach in Text-Based Information Retrieval.
JP2002278949A (ja) 表題生成装置及び方法
KR20020036059A (ko) 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
JP2979430B2 (ja) 通信文自動分割蓄積装置
CN108763229B (zh) 一种基于特征性句干提取的机器翻译方法及装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080603