JP2002297635A

JP2002297635A - 要約文作成システム及びその方法

Info

Publication number: JP2002297635A
Application number: JP2001101301A
Authority: JP
Inventors: Kazuyoshi Nagaho; 和義長保
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2001-03-30
Filing date: 2001-03-30
Publication date: 2002-10-11

Abstract

(57)【要約】【課題】複数の課題を含む文章を要約文作成する際
に、冗漫でなくできるようにしたシステムが望まれてい
た。【解決手段】各文内に含まれる名詞や形容動詞等に限
定した単語別の使用頻度等により決まる単語の重み付け
を比較することにより、前記文章に含まれる単語別の重
要度を計算し、前記文章ベクトルに対する各文毎のベク
トルをベクトル内積計算値、前記文章ベクトルに近い度
合いを比較し、それに応じて、複数の文に対する重要性
を序列付けて重要性識別し、前記文章ベクトルから重要
性の高い順にベクトル減算することにより順次新たな文
章ベクトルを生成し、その新たな文章ベクトルに所定の
要約率による要約及び補正し、要約された複数の文を元
通りの順番に整列させ接続詞及び指示代名詞を削除又は
指定語句へ変換することにより、自然さを確保する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、長い文章を短縮し
て要約する要約文作成システム及びその方法に関する。
特に全文検索を行うデータベースでの収録文献の全文の
中から、抄録文に必要な意味情報を含む重要文を抽出し
て抄録文を自動的に作成するのに適する。尚、本明細書
において「文」とは、文頭から「。」あるいは「．」で
区切られて終わるまでの間に、一つのまとまった意味を
表した、一続きの文字列を言う。又、「単語」とは自立
語のことを言う。

【０００２】

【従来の技術】従来、この種の「抄録文作成装置」とし
て、特公平７−４３７１７（特開平２−２５７２６６，
特願平１−２８１２５）号公報に開示されたものがあっ
た。それは、入力された文章から必要な文を抽出して抄
録文を作成する抄録文作成装置において、入力された全
文の中からキーワードとなる重要語を抽出して、その出
現頻度から最重要語を確定し最重要語を含む文および特
定の文を重要文として抽出し、この抽出した重要文から
不要な語および不要な文を削除することにより、入力さ
れた全文から簡易な形で抄録文を作成し抄録文の作成を
省力化するものである。

【０００３】そして、抄録を作成しようとする文章の空
白などを削除して、文の区切りをはっきりさせる前処理
を行う。又、前処理を行った後、「は」とか「には」な
どの助詞の前にある漢字、あるいはカナ文字などの単語
を重要語として抽出する。又、抽出された重要語の使用
頻度を計数し、最も頻度の高い単語を最重要語として確
定する。この確定された最重要語が含まれかつ重要語が
１以上含まれている文および「結果」などの特定の単語
が含まれている文を重要文として抽出する。

【０００４】抽出された重要文から、「上記」などの不
要な単語を削除し、また、「表」、「図」等の後に数字
が来るような不要な文を削除する文章整形作業を行い、
抄録文を作成出力する。ざっと前記した従来の技術で
は、最も重要と判断された内容の文のみに着目して要約
しており、文章全体で単一の課題に限定した要約に限
り、良好に機能していた。

【０００５】

【発明が解決しようとする課題】しかし、複数の課題を
含む文章を要約した場合に、二番目以降の課題を説明す
る度に、最重要課題の繰り返し説明が避けられなかっ
た。結果的に、要約文であるはずなのに、冗漫さが目立
つ欠点があった。本発明は、複数の課題を含む文章を要
約した場合にも、二番目以降の課題を箇条書き説明にも
近い簡潔明瞭さを徹底するなどして、最重要課題の繰り
返し説明を避け、結果的には冗漫さを極力排除して、し
かも自然で読みやすい要約文を、より簡素で低価格に提
供することを目的としている。

【０００６】又、前記目的を達成するために、一連の複
雑な計算を簡単にし、本発明によるシステム及びその方
法を実施するためのプログラム設計やメモリ容量等を簡
素に済ませ、しかも処理速度を上げることも目的として
いる。

【０００７】

【課題を解決するための手段】前記目的を達成するため
に、請求項１に係る発明は、入力された文章を文に区切
り単語に分割する形態素解析ステップ（Ｓ１）と、前記
文の中から名詞と形容動詞及びそれらに類する単語を抽
出する単語抽出ステップ（Ｓ２）と、前記単語の夫々を
座標軸とする多次元ベクトル空間に前記単語の使用頻度
及び／又は重要性の重み付けに応じてベクトルマップし
た単語ベクトルを設定し文ベクトルを計算する文ベクト
ル計算ステップ（Ｓ３）と、その文ベクトル計算ステッ
プ（Ｓ３）を文章中に含まれる全ての文に対して徹底さ
せる徹底ステップ（Ｓ４）と、前記文ベクトル計算ステ
ップ（Ｓ３）と同様だが文章全体の単語に対して計算し
た単語ベクトルを文章全体のベクトルとする文章ベクト
ル計算ステップ（Ｓ５）と、前記文ベクトルの夫々と前
記文章ベクトルの内積を計算するベクトル内積計算ステ
ップ（Ｓ６）と、そのベクトル内積計算ステップ（Ｓ
６）の計算値のうち最大値をもたらす文を抽出して重要
文の候補とする内積値最大文抽出ステップ（Ｓ７）と、
前記重要文のベクトルを前記文章ベクトルから引くこと
により文章を補正する文章ベクトル補正ステップ（Ｓ
８）と、それらのベクトル内積計算ステップ（Ｓ６）か
ら内積値最大文抽出ステップ（Ｓ７）及び文章ベクトル
補正ステップ（Ｓ８）でなる三ステップを適宜繰り返す
ことにより設定自在の要約率に到達させる要約率達成ス
テップ（Ｓ９）と、複数の重要文が得られた場合に元の
文章の並び順を踏襲して整列し接続詞及び／又は指示代
名詞が有れば指定の語句に置換又は削除して自然さを確
保する出力文章整形ステップ（Ｓ１０）を実行するよう
にした。

【０００８】このようにしたので、複数の課題を含む文
章を要約した場合にも、二番目以降の課題を箇条書き説
明にも近い簡潔明瞭さを徹底するなどして、最重要課題
の繰り返し説明を避け、結果的には冗漫さを極力排除し
て、しかも自然で読みやすい要約文を提供できる。

【０００９】又、請求項２に係る発明は、ある単語が文
の中にどれだけ多く使用されているかという指標ＴＦ
（Term Frequency）値と文章全体の中でどれだけ使われ
ていないかという指標ＩＤＦ（Inverse Document Frequ
ency）値を掛け合わせることでその単語が文章全体の中
での重要度を計算する重要語抽出手段を伴うとともに、
前記要約文作成システムのプログラムを実行するように
した。このようにしたので、より正確に重要文を抽出で
きる。

【００１０】又、請求項３に係る発明は、前記文ベクト
ルを正規化する以前の各単語の重要度ＴＦＩＤＦ（Term
Frequency Inverse Document Frequency）値、若しく
は正規化した後の前記文ベクトル値に前記要約率の逆数
を掛けた値を得、その値を前記文章ベクトルから引くこ
とにより、文章を補正する文章ベクトル補正ステップ
（Ｓ８）とし、前記ベクトル内積計算ステップ（Ｓ６）
を実行するようにした。このようにしたので、前記文章
ベクトルと前記文ベクトルが定数になるので、前述した
一連の計算が簡単になり、本発明によるシステム及びそ
の方法を実施するためのプログラム設計やメモリ容量等
が簡素で済み、しかも処理速度が上がる

【００１１】

【発明の実施の形態】以下、図面に沿って、本発明によ
る一実施例について説明する。図１は、本発明の実施形
態（以下、「本システム」と称す）を示すブロック図で
あり、本システムに複数の文でなる文章が入力される
と、その文章に対して文末検索、即ち文章に含まれる文
末の句点「。」若しくは「．」で文に区切り、区切られ
たそれら文に対して、言葉の最小単位である単語に分解
する形態素解析部１がある。

【００１２】形態素解析部１で単語に分解されると、一
単語を一座標軸とし、それら単語の意味により座標軸の
方向が決まり、即ち類似語であればそれら座標軸の方向
も鋭角にて接近し、逆に反対語であれば相反する１８０
゜の方向に夫々の座標軸が延び、無関連の単語どうしな
らば９０゜の座標軸と想定する。

【００１３】ただし、正確に図示できる三次元空間、即
ち人が実生活する場においては、原点を中心として夫々
９０゜で交わる座標軸は、その原点から均等な角度差で
放射状に展開しても、上・下と前・後・左・右の最大６
本しか設定できないが、例えばある文章における百種類
の単語に対し、それらに対応する百本の座標を設定した
百次元ベクトル空間を想定した場合、普通の文章であれ
ば夫々の単語がどの組み合わせにおいても、それらの意
味が全く無関連である単語が少なくとも十以上は存在す
ると考えられる。

【００１４】しかし、その十の単語に対応した十本の座
標軸を、どの組み合わせにおいても夫々９０゜で交わら
せるように存在させるイメージは浮かべ難い、といった
三次元居住者の視覚認識による不合理もあるが、ここ仮
想の多次元ベクトル空間では原点を中心として夫々９０
゜で交わる座標軸を、必要に応じた組み合わせの本数だ
け存在させられるものと考える。

【００１５】そして、文中に使われている単語の重みＴ
ＦＩＤＦ値によりベクトル量が増減され、多次元ベクト
ル空間にベクトル展開するベクトルマップ手段（図示せ
ず）がある。このベクトルマップ手段は、ベクトル空間
法に基づく、前記多次元の座標軸において、文書は複数
の単語夫々の重み（頻度）を反映させた次元の値とする
文ベクトルとして表現する。

【００１６】ここまでで、各文内に含まれる名詞や形容
動詞等の単語別に、それら単語の重みＴＦＩＤＦ（Term
Frequency Inverse Document Frequency）値を各座標
の成分として文ベクトルを計算する。

【００１７】ここで、一文に含まれる単語に関し、それ
ら全部の単語の重みＴＦＩＤＦを計算し、夫々が各次元
の成分となるベクトルを計算する文ベクトル計算部２が
あり、同様に文章全体の単語の重みから文章ベクトルを
計算する文章ベクトル計算部３がある。そして、前記文
及び文章に関し、夫々ベクトル計算した値を記憶する文
ベクトル記憶部４と、各文と全文章でそれらのベクトル
計算値を比較するベクトル比較部５がある。

【００１８】又、異なる複数の文に対する相互の類似度
を比較した場合、ベクトル空間においてそれらが文ベク
トルの方向が一致する文である程に、類似度が高いと言
える。又、周知のベクトル内積計算では余弦計算が含ま
れるので、ベクトル相互間の角度が９０゜ならば計算値
がゼロとなり、角度が０゜ならば計算値が最大となる。
要するに、比較する文の意味が無関係ならば文ベクトル
の内積計算は最小値、類似なら最大値を呈する原理であ
る。

【００１９】ここで、ベクトル比較部５は、前記文章ベ
クトルに近い度合いに応じて、複数の文に対する重要性
を序列付ける。又、前記文章ベクトルから重要性の高い
順に文ベクトルを減算する。この時、一方では減算され
る重要性の高い文が、最終目的たる要約文の主要な文と
して用いられ、他方では重要性を順次軽減させて新たな
文章ベクトルを生成する。

【００２０】そして、一番重要な文を抽出減算された新
たな文章ベクトルからは２番目に重要な文を抽出して減
算し、それと同様に３番目、４番目、５番目と次々に重
要文の抽出減算を繰り返す。一方で抽出減算された重要
性の高い文が出力文章整形部６で再配列されて要約され
る際に、その要約文を構成する複数の文を元通りの順番
に整列させる。そして、接続詞及び指示代名詞を削除又
は指定語句へ変換することにより、自然さを確保するこ
とにより、本発明の目的を達成する。

【００２１】図２は、本発明の実施形態の動作を示すフ
ローチャートである。先ず、図示せぬ周知の文章読み取
り手段により、入力された文章の文末を句点「。」又は
「．」により検出して文に区切り、さらにその区切られ
た文を単語に分割する形態素解析ステップ（Ｓ１）があ
る。

【００２２】そして、前記単語のなかから、名詞と形容
動詞等を抽出する単語抽出ステップ（Ｓ２）がある。そ
こで、抽出された前記単語を座標軸とする多次元ベクト
ル空間にベクトルマップした単語ベクトルを設定する。
一単語につき、一座標軸を持つので、例えば１００単語
あれば１００次元ベクトル空間に及ぶ展開であり、単純
例として、ある語句「太陽」が別の語句「月」の２倍の
頻度で抽出されたならば、「太陽」ベクトルが「月」ベ
クトルの２倍の数値となる。ただし、後述する重み付け
の計算結果を適用する。

【００２３】さらに、少ない数の文にしか表れないとす
るＩＤＦ（単語が出現した文の数の逆数）値と、使用頻
度ＴＦ（文内の単語頻度）値を掛けて算出されるＴＦＩ
ＤＦ（文ベクトルの各次元の成分にする）値を単語の重
みとし、重要語の目安にするとともに、文ベクトルを計
算する文ベクトル計算ステップ（Ｓ３）である。尚、重
み付けの尺度や定義に関するＩＤＦ値、ＴＦ値及びＴＦ
ＩＤＦ値の具体的な計算は後述する計算式によるものと
し、文ベクトル計算は文中の語句夫々に重み付けの計算
結果を適用する。

【００２４】そして、その文ベクトル計算ステップ（Ｓ
３）を、前記文章中の全ての文に対して漏れなく計算し
終わるまで、繰り返し徹底させる徹底ステップ（Ｓ４）
がある。全部を計算し終わっていないため残りがあると
判断されている限り、文ベクトル計算ステップ（Ｓ３）
を繰り返すようにシステムがプログラムされている。

【００２５】全ての文に対して漏れなく計算し終わる
と、その徹底ステップ（Ｓ４）の判定により文章全体で
も、各単語について前述のように発生頻度ＴＦ値及び重
みＴＦＩＤＦ値を重要語の目安にするとともに、文章ベ
クトルの計算が完了したとみなされる文章ベクトル計算
ステップ（Ｓ５）に至る。すると、前記文ベクトルの夫
々と前記文章ベクトルの内積を計算するベクトル内積計
算ステップ（Ｓ６）へと移行する。これは、文の数だけ
計算結果が算出される。これは、文の数だけ計算結果が
算出される。尚、ベクトルの内積計算は普遍的かつ周知
なので具体的な計算式の説明は省略する。

【００２６】次に、そのベクトル内積計算ステップ（Ｓ
６）において、文の数だけ算出された計算値のうち、最
大値をもたらす文を抽出して重要文の候補とする内積値
最大文抽出ステップ（Ｓ７）がある。ここで、二つの近
似ベクトルに対する内積計算値と、相反する二つのベク
トルに対する内積計算値とを比較すれば、前記近似ベク
トルに対する内積計算値の方が大きい。前記近似ベクト
ルとは同一の単語を同数用いた文とも言えるので、それ
らの文の意味は近似している。さらに、文章ベクトルに
対する文ベクトルの内積計算値の方が大きい場合は、文
章全体の意味に対する文の意味が近似している。このよ
うに内積計算値が大きい文を重要文と判断している。

【００２７】次に、前記重要文のベクトルを前記文章ベ
クトルから引くことにより、一番重要な文を前記文章か
ら抜き取る操作で、文章を補正する文章ベクトル補正ス
テップ（Ｓ８）がある。ここで、前記文章が単一の用件
しか含んでいなければ、例えば「真っ赤な太陽が沈ん
だ」が文章の全ての用件であれば、文章ベクトル補正ス
テップ（Ｓ８）の経過により、一番重要な文を前記文章
から抜き取る操作で残りはゼロである。

【００２８】しかし、本システムは複雑で長い文章を要
約文にまとめるためのシステム及び方法であり、以下の
例文でその要領を説明する。例えば「（１）真っ赤な太
陽が沈んだ。（２）そして十五夜の月が昇り、物語が始
まった。（３）恋の物語はその夜に始まり、明るい月に
照らされるままに、その女の物語も佳境に及んだ。
（４）女は長い髪を解いて、風にたなびかせた。（５）
男は手に汗を握り、たなびく女の髪を間近にすくい寄せ
て、女の耳元に囁き掛けた。」とあれば、（１），
（２），（３），（４），（５）の文に区切られる。

【００２９】ここで、主だった単語に対する各指標値
は、以下のように算出できる。単語／（各指標値）ＴＦ（文章全体）ＩＤＦ「月」２０．９１６２９１「物語」３０．９１６２９１「女」４０．５１０８２６「髪」２０．９１６２９１ここでは計算の簡略化のため、文内の正規化、文章内の
正規化は行わないで説明する。実際には、文の長短の影
響を排除するため頻度（ＴＦ）は後述する正規化を行っ
ている。

【００３０】文章全体での単語の重要度は、頻度（Ｔ
Ｆ）のみで計算するので、「女」、「物語」の順にな
る。「各文の単語の頻度」を調べると以下のようにな
る。ＴＦ行番号「月」「物語」「女」「髪」（１）００００（２）１１００（３）１２１０（４）００１１（５）００２１

【００３１】これに、各単語のＩＤＦ値を掛けることで
ＴＦＩＤＦ値を計算できる。ＴＦ行番号「月」「物語」「女」「髪」（１）０．０００．０００．０００．００（２）０．９２０．９２０．０００．００（３）０．９２１．８５０．５１０．００（４）０．０００．０００．５１０．９２（５）０．０００．００１．０２０．９２上記各行の単語を成分とした４次元ベクトルを想定し、
前述の文章全体の単語頻度を成分とした４次元ベクトル
と比較する。比較する時は内積を計算し、最大の物を最
重要文とする。この様な計算で算出された最重要文は
（３）となる。

【００３２】次に、文（３）の単語頻度を文章全体の単
語頻度から引く。そうすると単語／（各指標値）ＴＦ(文章全体) 「月」１「物語」１「女」３「髪」２となり、これを新たな文章全体のベクトルとして、前記
「各文の単語の頻度」からの計算と同じように内積を計
算する。この場合、次なる重要文は（４）となる。以
下、同様の計算で内積を算出して行くと、重要文は続い
て（１）、（２）、（５）となる。

【００３３】このようにして、１番目に選ばれる文
（３）が全体の要約文であるのに対して、２番目に選ば
れた文（４）こそが本発明の最たる特徴であり、その２
番目に選ばれる文（４）は１番目に選ばれた文（３）と
比べ、「髪」に関する話題を優先して選ばれていること
がわかる。

【００３４】そして、ベクトル内積計算ステップ（Ｓ
６）から、内積値最大文抽出ステップ（Ｓ７）及び文章
ベクトル補正ステップ（Ｓ８）でなる三ステップを適宜
繰り返すことになる。前述の例では、（３），（４），
（１），（２），（５）の順に重要な文が抽出され、５
回目の抽出で、文章中に残る文は無くなる。ここで、前
記要約率を１／５に設定し、元の文から１／５の文量若
しくは意味だけを重要文として、抽出すれば目的を達成
したものと仮定する。この例文の場合は、前記三ステッ
プを１回実行するだけで、「（３）恋の物語はその夜に
始まり、明るい月に照らされるままに、その女の物語も
佳境に及んだ。」の文を最重要文と見做して抽出し、
（３）の文をさらに短縮する（図示せず）ことにより、
要約文作成の目的を達成したとして、プログラムは終了
する。

【００３５】尚、（３）の文を「（３）’その女の恋の
物語は月の夜に始まった。」程度の要約文に短縮する方
法、即ち個々の文を短縮する方法に関しては、周知なの
で説明を省略する。

【００３６】同様に、前記要約率を２／５に設定し、元
の文から２／５の文量若しくは意味だけを重要文とし
て、抽出すれば目的を達成したものと仮定する。この場
合は、前記三ステップを２回実行し、「（３）恋の物語
はその夜に始まり、明るい月に照らされるままに、その
女の物語も佳境に及んだ。（４）女は長い髪を解いて、
風にたなびかせた。」の文を重要文と判断して抽出し、
要約文作成の目的を達成したとして、プログラムは終了
する。

【００３７】尚、文中に「そして」が入れば、後述する
出力文章整形ステップ（Ｓ１０）の補正機能で削除又は
他の表現に変換されるし、「月に照らされる」の後に
「月が昇った」が配列された場合も順番が逆転して奇妙
であり、そのことも後述する方法で修正される。

【００３８】ここで、前述した設定自在の要約率に到達
させる要約率達成ステップ（Ｓ９）の判定結果により、
予め設定した要約率に到達したものと、判断されたなら
ば、次の出力文章整形ステップ（Ｓ１０）へ移行する。

【００３９】このステップでは前述の例に示したよう
に、複数の重要文（３）と（４）が得られた場合、元の
文章の並び順、即ち（１），（２），（３），（４），
（５）の順番を逆転させないように踏襲して整列する。
この例文の要約率２／５を実行した場合は（３）と
（４）の並び順は逆転していないのでそのままで良い。
この時、要約された文に接続詞「そして」や、指示代名
詞「その」が含まれていれば、出力文章整形ステップ
（Ｓ１０）により、指定の語句に置換又は削除して自然
さを確保する。ただし、従来から有る周知機能なので、
その詳細説明は省略する。

【００４０】このようにしたので、複数の課題を含む文
章を要約した場合にも、二番目以降の課題を箇条書き説
明にも近い簡潔明瞭さを徹底するなどして、最重要課題
の繰り返し説明を避け、結果的には冗漫さを極力排除し
て、しかも自然で読みやすい要約文を提供できる。

【００４１】又、文ベクトルを計算する文ベクトル計算
ステップ（Ｓ３）では、前記各文内における単語の使用
頻度ＴＦ値が文の長さに比例するので何らかの正規化を
する。例えば文ベクトルの長さを１に揃えると、以後の
内積計算値により直ちに文の類似度が判別できる。

【００４２】この様に正規化された後であれば、内積値
最大文抽出ステップ（Ｓ７）で、文の長短の不公平を除
去し、略公平に重要さが内積計算値に反映されるので、
文が長い程重要視されるという間違った判断を避けられ
る。

【００４３】一方、文章ベクトル補正ステップ（Ｓ８）
では、前記文章ベクトルを正規化する以前の各単語の発
生頻度ＴＦ値、若しくは前記文ベクトルの長さを１に正
規化した後に前記要約率の逆数を掛けた値から、前記重
要文のベクトルを引くことにより、文章を補正する文章
ベクトル補正ステップ（Ｓ８）を備えている。

【００４４】ここで、前述の例文によれば、要約率を２
／５に設定し、その逆数は５／２である。元の文から２
／５の文量若しくは意味だけを重要文として、抽出すれ
ば目的を達成したものと仮定する。この場合は、前記三
ステップを２回実行するだけで、「（３）恋の物語はそ
の夜に始まり、明るい月に照らされるままに、その女の
物語も佳境に及んだ。（４）女は長い髪を解いて、風に
たなびかせた。」の文を重要文と見做して抽出し、要約
文作成の目的を達成したとして、プロラムは終了する。

【００４５】前記文ベクトルの長さを１に正規化するこ
とを、見た目の字面で模擬検討すると、字面が長い
（３）「恋の物語はその夜に始まり、明るい月に照らさ
れるままに、その女の物語も佳境に及んだ。」の文の長
さを、短い文（１），（２），（５），との比較におけ
る不公平を除去すべく、元の文に比べて約２／５に縮め
られた扱いになっている。

【００４６】そこで、（３）の文ベクトル値に前記逆数
５／２を掛けて、文の長さを縮尺操作した正規化の害を
取り除いて、前記最重要文のベクトルを引く。即ち、前
記重要文（３）の文の長さを正規化により約２／５に縮
尺しているところを、５／２倍すれば擬似逆正規化の処
理を施したことになり、元通りに近い長さに回復する。
２番目の重要文（４）女は長い髪を解いて、風にたなび
かせた。」にも前記（３）と同様の擬似逆正規化の処理
を施す。

【００４７】ただし、実際に正規化する計算方法として
は、前述した字面の長短よりも「文ベクトルの長さ」
（以下、「長さ」と称す）を用いる。その、「長さ」を
１に正規化するとは、先ず各単語のＴＦＩＤＦ値を計算
して、それを成分とする多次元ベクトルの「長さ」を計
算する。そして、前記「長さ」は各単語のＴＦＩＤＦ値
を２乗した値の総和に対する平方根により算出する。そ
のようにして得た「長さ」で、各単語のＴＦＩＤＦ値を
夫々割ることにより正規化する。従って、見た目の長
さ、即ち「字面の長さ」で計算するわけではないが、全
く無関係でもない。

【００４８】前述の擬似逆正規化の操作により、前記重
要文（３）の文の「長さ」を元通りに近い「長さ」に回
復した後に、前記文章ベクトルから前記重要文のベクト
ルを引くことにより、文章を補正する文章ベクトル補正
ステップ（Ｓ８）を実行するようにした。このようにし
たので、前記文章ベクトルと前記文ベクトルが縮尺換算
の不要な定数になるので、前述した一連の計算が簡単に
なり、本発明によるシステム及びその方法を実施するた
めのプログラム設計やメモリ容量等が簡素で済み、しか
も処理速度が上がる。

【００４９】最後に、前記ＴＦＩＤＦによる語句の重要
度判定に関する数式による補足説明をする。先ず、ベク
トル空間法により、文書ｄ_１，…，ｄ_ｊ，…，ｄ_Ｎから
なる文書データベースｄｂに含まれる全ての語句ｔｅｒ
ｍｔ_１，…，ｔ_ｊ，…，ｔ_ｍを次元とするベクトル空間
を想定する。そこで、以下の通りに定義付ける。

【００５０】１）ＴＦ（Term Frequency）文書ｄ_ｊにおける、語句ｔｅｒｍｔ_ｉの頻度ｆｒｅｑ
_ｉｊ＝ｔｆ(ｄ_ｊ，ｔ_ｉ) ｆｒｅｑ_ｉｊの文書ｄ_ｊにおける最大値＝ｍａｘ・ｆ
ｒｅｑ_ｊ文書ｄ_ｊにおける、異なるｔｅｒｍの種類数＝ｌｅｎｇ
ｔｈ_ｊここで、ｔｆ(ｄ_ｊ，ｔ_ｉ) は文書ｄ_ｊの性質、例えば
文書長に依存するので、何らかの正規化する。以下に正
規化の二例をあげる。ｃ・ｆｒｅｑ_ｉｊ＝Ｋ＋（１−Ｋ）・（ｆｒｅｑ
_ｉｊ／ｍａｘ・ｆｒｅｑ _ｊ）ｎ・ｆｒｅｑ_ｉｊ＝［ｌｏｇ_２（ｆｒｅｑ_ｉｊ＋
１）／ｌｏｇ_２ｌｅｎｇｔｈ_ｊ］ただし、ここでｃ，ｎ，Ｋは正規化処理における適性定
数とする。

【００５１】２）ＩＤＦ（Inverse Document Frequ
ency）対象とする文書データベースｄｂに含まれる文書総数＝
ＤＢ・ｓｉｚｅ（ｄｂ）ｔｅｒｍｔ_ｉが現れる文書データベースｄｂの文書数＝
ｆｒｅｑ（ｔ_ｉ，ｄｂ）ｉｄｆ（ｔ_ｉ）＝ｌｏｇ［ＤＢ・ｓｉｚｅ（ｄｂ）／ｆ
ｒｅｑ（ｔ_ｉ，ｄｂ）］＋１でＩＤＦ（Inverse Docume
nt Frequency）即ち、少ない文書にしか現れないが重要
である語句との定義付けをし、前記ＴＦと併用する。即
ち１），２）より

【００５２】３）ＴＦＩＤＦ（Term Frequency Inv
erse Document Frequency）文書ｄ_ｊにおけるｔｅｒｍｔ_ｉの重みｗ（ｄ_ｊ，ｔ_ｉ）
を以下の様に定義付けする。ｗ（ｄ_ｊ，ｔ_ｉ）＝ｔｆ(ｄ_ｊ，ｔ_ｉ)・ｉｄｆ（ｔ_ｉ）ここで、ｔｆ(ｄ_ｊ，ｔ_ｉ)部分に前記ｃ・ｆｒｅｑ
_ｉｊ，ｎ・ｆｒｅｑ_ｉ _ｊの何れかを代入しても良
く、ｃ・ｆｒｅｑ_ｉｊを用い、ｗ（ｄ_ｊ，ｔ_ｉ）＝Ｋ＋
（１−Ｋ）・（ｆｒｅｑ_ｉｊ／ｍａｘ・ｆｒｅｑ_ｊ）
・ｉｄｆ（ｔ_ｉ）ｎ・ｆｒｅｑ_ｉｊを用い、ｗ（ｄ_ｊ，ｔ_ｉ）＝［ｌｏ
ｇ_２（ｆｒｅｑ_ｉｊ＋１）／ｌｏｇ_２ｌｅｎｇｔ
ｈ_ｊ］・ｉｄｆ（ｔ _ｉ）などとなる。

【００５３】本システムでは、文書ｄ_ｊの情報検索にお
けるキーワードとして、その基本的尺度となる、重みｗ
（ｄ_ｊ，ｔ_ｉ）の大きなｔｅｒｍｔ_ｉを選ぶことによ
り、要約文の作成に際して、重要語句を拾い出してい
る。尚、前記ＴＦ・ＩＤＦに関する計算式自体は、周知
事項であるが、各種の変形例も提案されている。従っ
て、本発明で開示した要約文作成システム及びその方法
の技術分野において、前述の代表的な計算式に近似する
計算方法により、前記ＴＦ若しくはＴＦ・ＩＤＦの技術
思想が含まれている場合は、本発明の要旨に含まれるも
のと看做し得る。

【００５４】

【発明の効果】以上説明したように構成したので、請求
項１に係る発明によれば、複数の課題を含む文章を要約
した場合にも、二番目以降の課題を箇条書き説明にも近
い簡潔明瞭さを徹底するなどして、最重要課題の繰り返
し説明を避け、結果的には冗漫さを極力排除して、しか
も自然で読みやすい要約文を提供できる。

【００５５】又、請求項２に係る発明によれば、より正
確に重要文を抽出できる。

【００５６】又、請求項３に係る発明によれば、前記文
章ベクトルと前記文ベクトルが定数になるので、前述し
た一連の計算が簡単になり、本発明によるシステム及び
その方法を実施するためのプログラム設計やメモリ容量
等が簡素で済み、しかも処理速度が上がる

【図面の簡単な説明】

【図１】本発明の実施形態を示すブロック図である。

【図２】本発明の実施形態の動作を示すフローチャー
トである。

【符号の説明】

１，形態素解析部２，文ベクトル計算部３，文章ベクトル計算部４，文ベクトル記憶部５，ベクトル比較部６，出力文章整形部Ｓ１，形態素解析ステップＳ２，単語抽出ステップＳ３，文ベクトル計算ステップＳ４，徹底ステップＳ５，文章ベクトル計算ステップＳ６，ベクトル内積計算ステップＳ７，内積値最大文抽出ステップＳ８，文章ベクトル補正ステップＳ９，要約率達成ステップＳ１０，出力文章整形ステップ

Claims

【特許請求の範囲】

【請求項１】入力された文章を文に区切り単語に分割
する形態素解析ステップ（Ｓ１）と、前記文の中から名
詞と形容動詞及びそれらに類する単語を抽出する単語抽
出ステップ（Ｓ２）と、前記単語の夫々を座標軸とする
多次元ベクトル空間に前記単語の使用頻度及び／又は重
要性の重み付けに応じてベクトルマップした単語ベクト
ルを設定し文ベクトルを計算する文ベクトル計算ステッ
プ（Ｓ３）と、その文ベクトル計算ステップ（Ｓ３）を
文章中に含まれる全ての文に対して徹底させる徹底ステ
ップ（Ｓ４）と、前記文ベクトル計算ステップ（Ｓ３）
と同様だが文章全体の単語に対して計算した単語ベクト
ルを文章全体のベクトルとする文章ベクトル計算ステッ
プ（Ｓ５）と、前記文ベクトルの夫々と前記文章ベクト
ルの内積を計算するベクトル内積計算ステップ（Ｓ６）
と、そのベクトル内積計算ステップ（Ｓ６）の計算値の
うち最大値をもたらす文を抽出して重要文の候補とする
内積値最大文抽出ステップ（Ｓ７）と、前記重要文のベ
クトルを前記文章ベクトルから引くことにより文章を補
正する文章ベクトル補正ステップ（Ｓ８）と、それらの
ベクトル内積計算ステップ（Ｓ６）から内積値最大文抽
出ステップ（Ｓ７）及び文章ベクトル補正ステップ（Ｓ
８）でなる三ステップを適宜繰り返すことにより設定自
在の要約率に到達させる要約率達成ステップ（Ｓ９）
と、複数の重要文が得られた場合に元の文章の並び順を
踏襲して整列し接続詞及び／又は指示代名詞が有れば指
定の語句に置換又は削除して自然さを確保する出力文章
整形ステップ（Ｓ１０）を実行することを特徴とする要
約文作成システム及びその方法。
【請求項２】ある単語が文の中にどれだけ多く使用され
ているかという指標ＴＦ（Term Frequency）値と文章全
体の中でどれだけ使われていないかという指標ＩＤＦ
（Inverse Document Frequency）値を掛け合わせること
でその単語が文章全体の中での重要度を計算する重要語
抽出手段を伴うとともに、実行することを特徴とする請
求項１に記載の要約文作成システム及びその方法。
【請求項３】前記文ベクトルを正規化する以前の各単
語の重要度ＴＦＩＤＦ（Term Frequency Inverse Docum
ent Frequency）値、若しくは正規化した後の前記文ベ
クトル値に前記要約率の逆数を掛けた値を得、その値を
前記文章ベクトルから引くことにより、文章を補正する
文章ベクトル補正ステップ（Ｓ８）とし、前記ベクトル
内積計算ステップ（Ｓ６）を実行することを特徴とする
請求項１又は請求項２に記載の要約文作成システム及び
その方法。