JP2002169834A

JP2002169834A - 文書のベクトル解析を行うコンピュータおよび方法

Info

Publication number: JP2002169834A
Application number: JP2000353475A
Authority: JP
Inventors: Takahiko Kawatani; 隆彦川谷
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2000-11-20
Filing date: 2000-11-20
Publication date: 2002-06-14
Also published as: US7562066B2; EP1944756A2; WO2002041557A3; EP1944756A3; CN1470047A; CN1227614C; EP1944757A2; EP1336174A2; EP1944757A3; US8171026B2; WO2002041557A2; EP1336174A4; US20090216759A1; US20040068396A1

Abstract

(57)【要約】【課題】与えられた文書から重要文を抽出する、２つの
文書の類似度を判定するなどの解析を行う方法および文
書の表現方法を提供する。【解決手段】入力文書を適当な単位の文書セグメント
に区分けし、文書セグメントに出現する用語の出現頻度
に応じた値を成分とする文書セグメントのベクトルを生
成し、文書セグメントの平方和行列の固有値および固有
ベクトルを用いて文書セグメントベクトルの集合を表現
する。文書セグメントベクトルのランクがＲで示される
平方和行列の固有ベクトルおよび固有値を求め、前記複
数の固有ベクトルから重要度判定に使用する複数Ｌの固
有ベクトルを選択し、選択されたそれぞれの固有ベクト
ルへのそれぞれの文書セグメントベクトルの射影値の重
み付き自乗和を求め、それぞれの文書セグメントベクト
ルの射影値の自乗和に基づいて重要度の大きい文書セグ
メントを選択する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は文書の検索、分類、
要約をはじめとする自然言語処理に関し、より具体的に
は、文書の表現方法、入力文書から重要な部分を抽出す
る方法、および文書間の類似性を判定する方法に関す
る。

【０００２】

【従来の技術】文書から重要な部分を抽出する処理は文
書の要約処理における重要な処理の一つとなっており、
文書を構成する各文に対して重要度を定量的に与え、重
要度の高い文を抽出するのが基本である。文書の要約処
理に関する最近の動向については、自然言語処理誌第6
巻第6号（1999年7月）に掲載されている「テキスト自動
要約に関する研究動向」（著者：奥村学、難波英嗣）に
詳しい。その中で、重要度評価に用いられる特徴とし
て、(1)文書中の用語の頻度、(2)文書中での位置情報、
(3)文書のタイトル情報、(4)文間の関係を解析したテキ
スト構造など7つの特徴が紹介されている。これらのう
ち、(1)の文書中の用語の頻度情報は、文書中で出現頻
度の高い内容語は文書の主題を示す傾向があることか
ら、基本的な特徴となっている。(1)を用いる具体的な
方法としては、各用語をその文書内での出現頻度によっ
て重みを与え、文の重要度を文に含まれる各用語の重み
の総和によって定義する方法、各用語の重み付けに出現
頻度のみならず文書集合の中で各用語を含む文書の数の
情報も併せて用いる方法などがある。

【０００３】また、上記文献では動的な文書要約につい
ても述べられている。その必要性は、情報検索の際にユ
ーザに検索結果を提示するときに、ユーザの質問に関連
した重要部分を要約の形で表示し、検索された文書がユ
ーザの質問に適ったものかどうかを素早く的確に判断し
てもらうことにある。また、これまで考案された手法の
ひとつとして、文書中の用語の頻度などを用いて求めら
れた文の重要度に、質問文中の用語が対象文の中に出現
する頻度に応じたスコアを加味することによって質問文
との関連を反映した重要文を抽出する方法が紹介されて
いる。

【０００４】また、文書の類似性の判定処理は、文書の
検索、特にユーザの指定した文書と類似する文書を検索
する類似検索、文書の自動分類において不可欠な処理で
ある。文書の類似性の判定処理においては、文書をベク
トルの形で表すことが多く行われている。ここで、文書
全体を用いて作成されたベクトルを文書ベクトル、文書
の一部から作成されたものを文書セグメントベクトル、
特に文から作成されたものを文ベクトルと呼ぶこととす
る。文書ベクトルの成分の値を与える方法としては、対
応する用語の対象文書内での頻度を一定値と比較して１
または０の値を与える方法、頻度そのものを与える方
法、その用語が出現する文書数の全文書数に対する比の
逆数の対数に頻度を乗じた値を与える方法などが知られ
ている。このような文書表現方法は、ベクトル空間モデ
ルとして多く用いられている。

【０００５】このような文書ベクトルはどのような用語
がどの程度その文書に現れるかを示している。どのよう
な用語がどのような比率で文書に現れるかが文書の概念
を表すとみなされるので、求められた文書ベクトルの方
向が概念を表すとみなしてよい。また、用語がどの程度
現れるかはベクトルのノルムと関連しており、求められ
た文書ベクトルのノルムの自乗が文書の強さもしくはエ
ネルギーを表すと解釈できる。

【０００６】ベクトルで表現された２つの文書の類似性
の判定には、多くの場合ベクトル間の余弦を尺度とする
類似度が用いられている。この類似度は、２つのベクト
ルの内積をそれぞれのベクトルのノルムで割った値とし
て定義される。前述のように文書ベクトルの方向が概念
を表すので、この類似度には文書のエネルギーの違いは
反映されず、このように定義された概念の違いのみが反
映される。

【０００７】

【発明が解決しようとする課題】この発明は、与えられ
た文書から重要文を抽出する、２つの文書の類似度を判
定するなどの解析を行う方法とそれらに適した文書の表
現方法を提供することを目的とする。

【０００８】文書からの重要文抽出においては、その文
書が中心的に表している概念に近い概念を表す文を優先
して抽出すべきものと考えられる。このためには文書が
表す中心概念の抽出、各文と文書全体との概念の関係の
把握が必須である。しかしながら、従来の方法において
各用語の重みの総和によって定義された文の重要度がど
れだけ文書の中心的な概念を反映しているかは必ずしも
明確ではなかった。このため、単に長いだけの文が重要
文として抽出される傾向があった。また、各文と文書全
体との概念の関係の把握を試みられていなかった。その
ため、文書本来の概念に近い概念を有する文が必ず抽出
されるとは限らなかった。

【０００９】また、質問文との関連を反映した重要文抽
出においては、質問文中の用語が対象文の中に出現する
頻度に応じたスコアを加味する時に、質問文と対象文と
が同じ用語を共有しないとスコアは0となってしまう。
実際問題としては共通する用語がなくとも、文書中で互
いに共起する用語対の一方が質問文に、他方が対象とす
る文に含まれていれば、0でない関連度が求められるの
が望ましい。例えば、日本を広く紹介し、その中で
“東京”と“銀座”についてもこれらの間の関係を述べ
つつ紹介する文書が存在したとする。ユーザが“東京”
を含む質問文を与えたときに、システムとしては“東
京”を含む文ばかりでなく、“銀座”を含む文も提示で
きるようにすることが望まれる。

【００１０】さらに２つの文書の類似性の判定において
は、従来は文書をひとつのベクトルを用いて表現してい
たため、ベクトルが表す概念が曖昧となるという問題、
及び概念の広がりを表すことができないという問題があ
った。例えば、a、b、c、dが４つの用語を表すものとす
る。この場合、文の中で、a-b、c-dの組み合わせで用い
る文書と、a-c、b-dの組み合わせで用いる文書とは別の
概念を表すと考えられるが、従来のベクトル表現では両
方の文書に対して同じになってしまい、これらを区別す
ることは難しかった。また、用語の組み合わせは１つの
小さな概念を表すと考えられ、文書の概念は小さな概念
の集合から構成されると考えられる。云いかえれば文書
が表す概念には広がりが存在する。しかし、これをひと
つのベクトルで表すことは困難である。このようなこと
から、従来は文書の概念が正確に表されていなかったた
め、文書検索や分類などの処理において文書間の類似性
を正しく求めることは難しかった。

【００１１】

【課題を解決するための手段】上記のような課題を解決
するため、この発明は、一つの側面において、入力文書
に出現する用語を検出し、入力文書を適当な単位の文書
セグメントに区分けし、文書セグメントに出現する用語
の出現頻度を成分とする文書セグメントのベクトルを生
成し、文書セグメントの平方和行列の固有値および固有
ベクトルを用いて文書セグメントベクトルの集合を表現
する。

【００１２】この発明は、もう一つの側面によると、入
力文書から重要な文書セグメントを抽出する。この発明
の形態によると、入力文書に出現する用語を検出し、入
力文書を適当な単位の文書セグメントに区分けし、文書
セグメントに出現する用語の出現頻度に応じた値を成分
とする文書セグメントのベクトルを生成し、文書セグメ
ントベクトルのランクがＲで示される平方和行列の固有
ベクトルおよび固有値を求め、前記複数の固有ベクトル
から重要度判定に使用する複数Ｌの固有ベクトルを選択
し、選択されたそれぞれの固有ベクトルへのそれぞれの
文書セグメントベクトルの射影値の重み付き自乗和を求
め、それぞれの文書セグメントベクトルの射影値の自乗
和に基づいて重要度の大きい文書セグメントを選択す
る。

【００１３】この発明は、さらにもう一つの側面による
と、入力文書から質問文と関連性をもつ文書セグメント
を抽出する。この発明の形態によると、入力文書に出現
する用語を検出し、前記入力文書を適当な単位の文書セ
グメントに区分けし、該文書セグメントに出現する用語
の出現頻度に応じた値を成分とする文書セグメントのベ
クトルを生成し、文書セグメントベクトルの平方和行列
の固有ベクトルおよび固有値を求めて部分空間を決定
し、質問文に出現する用語を検出し、該用語の出現頻度
を成分とする質問文のベクトルを生成し、前記部分空間
に射影したベクトルと、入力文書セグメントベクトルの
それぞれを前記部分空間に射影したベクトルとを照合
し、前記質問文と各文書セグメントとの関連度を算出す
る。

【００１４】この発明は、もう一つの側面によると、与
えられた２つの入力文書の類似性を判定する。この発明
の形態によると、それぞれの入力文書に出現する用語を
検出し、ぞれぞれの入力文書を適当な単位の文書セグメ
ントに区分けし、前記文書セグメントに出現する用語の
出現頻度に応じた値を成分とする文書セグメントのベク
トルを生成し、それぞれの入力文書について、それぞれ
の入力文書に含まれる前記文書セグメントのベクトルの
すべての組み合わせについて内積の自乗を求め、内積の
自乗の和に基づいて入力文書間の類似性を判定する。

【００１５】さらに、２つの入力文書の類似性を判定す
るこの発明のもう一つの形態によると、一方の入力文書
の文書セグメントベクトルの平方和行列の固有ベクトル
および固有値を算出し、前記固有ベクトルから固有値の
大きいものを基底ベクトルとして選択し、他方の文書の
文書セグメントベクトルと前記基底ベクトルとの内積の
自乗を求め、重み付けして加えあわせ、加え合わせられ
た内積の自乗の和から前記２つの入力文書の間の類似性
を判定する。

【００１６】また、２つの入力文書の類似性を判定する
もう一つの形態によると、前記２つの入力文書のそれぞ
れについて文書セグメントの平方和行列の固有ベクトル
および固有値を算出し、前記２つの入力文書のそれぞれ
について前記固有ベクトルから固有値の大きいものを基
底ベクトルとして選択し、選択された基底ベクトルの組
み合わせについて内積の自乗を求め、重み付けして加え
あわせ、加え合わせられた内積の自乗の和から入力文書
間の類似性を判定する。

【００１７】

【発明の実施の形態】文書セグメントの表現および重要
文抽出本発明では先ず入力された文書を構成する各文の概念と
その文書の中心的な概念を定義し、文書の中心的な概念
に対する各文の寄与を求め、その大きさによって各文の
重要度を判定するようにする。この実施形態では、文書
セグメントの単位として文を用いる。各文の概念は、文
書に現れる用語の頻度情報で決まる値を要素とする文ベ
クトルにより表すことができる。基底ベクトルは、各文
ベクトルを射影したときの射影値の自乗和が最大となり
かつ互いに直交するという性質をもつので、文書の中心
的な概念については、複数の基底ベクトルを一定個組み
合わせて形成した部分空間によって定義できる。文書の
中心的な概念に対する各文の寄与は、各文ベクトルの部
分空間への射影値の重み付き自乗和により判定すること
ができる。

【００１８】また、文と質問文との関連度は、まず質問
文ベクトルの各基底ベクトルへの射影値の自乗をもとに
各基底ベクトルに重みを与え、次いで各文ベクトルの部
分空間への射影値の重み付き自乗和を各基底ベクトルの
重みを用いつつ求めるようにする。

【００１９】本発明の一実施形態では文書の中心的な概
念に対する各文の寄与によって重要度を与えるので重要
な文の正確な抽出が容易になる。また、各文の重要度に
よる順位付けが可能となり、全文書に対する抽出文の長
さの割合を制御することができる。さらに、部分空間の
次元数、即ち組み合わせる基底ベクトルの数を変えるこ
とにより文書の中心的な概念の幅が変わるので結果的に
抽出する文の概念の広がりを制御することが出来るよう
になる。部分空間の次元数が少ないほど概念の広がりは
狭くなる。

【００２０】また、文と質問文との関連度の算出におい
ては、文と質問文との概念の共通性がベースとなるの
で、文と質問文とで同じ単語が現れなくても概念が共通
していればゼロでない関連度が得られるようになる。

【００２１】図１は本発明の一つの実施形態の全体的な
処理を示すブロック図である。この発明は、ハードウェ
アとして汎用のコンピュータを用い、この発明を組み込
んだプログラムを走らせることによって実施することが
できる。図１は、このようなプログラムで実行される機
能をブロック化して示している。

【００２２】ブロック11は用語検出部、ブロック12は形
態素解析部、ブロック13は文書セグメント分割部、ブロ
ック14は文書セグメントベクトル作成部、ブロック15は
平方和行列算出部、ブロック16は固有値・固有ベクトル
算出部である。ブロック17は部分空間決定部、ブロック
18は重要度算出部、ブロック19は文書セグメント順位付
け部、ブロック20は文書セグメント選択部を表す。以
下、英文文書を例に実施例を説明する。

【００２３】入力された文書について、先ず用語検出部
11において、文書から単語及び数詞などの記号系列を検
出する。ここでは、単語や記号系列を総称して用語と呼
ぶ。英文の場合、用語同士を分けて書く正書法が確立し
ているので用語の検出は容易である。次に、形態素解析
部12は、用語の品詞付けその他の形態素解析を行う。

【００２４】文書セグメント分割部13は、文書を文書セ
グメントに分割する。文書セグメント分割の最も基本的
な処理は文単位への分割である。英文の場合、文はピリ
オドで終わり、その後ろにスペースが続くので文の切出
しは容易に行うことができる。その他の分割法として
は、用語の数がほぼ同じになるように複数の文をまとめ
て文書セグメントとする方法、文書の先頭から含まれる
用語の数が同じになるように文とは関係なく分割する方
法などがある。

【００２５】文書セグメントベクトル作成部14は、文書
全体に出現する用語から作成すべきベクトルの次元数を
求め、各次元と各用語との対応を決定する。この際に出
現する全ての用語の種類にベクトルの成分を対応させな
ければならないということはなく、品詞付け処理の結果
を用い、例えば名詞と動詞と判定された用語のみを用い
てベクトルを作成するようにしてもよい。次いで、各文
書セグメントで出現する用語の種類とその頻度を求め、
対応するベクトル成分の値を決定して文書セグメントベ
クトルを作成する。さらに、成分の値に重みを与える方
法として従来の方法を用いることができる。

【００２６】Ｎ個の文書セグメントから成り、現れる単
語集合が{w₁,…,w_K}で与えられる文書Dを考える。文書D
の文書セグメントnのベクトルをd_n=(d_n1,…,d_nK) によ
り表すこととする。ここで、d_nkは単語w_kの文nにおける
出現頻度もしくは重み付けされた値である。

【００２７】平方和行列算出部15は、各文書セグメント
ベクトルの平方和行列の算出を行う。平方和行列A=
(A_ab)は、

【数７】により算出することができる。

【００２８】固有値・固有ベクトル算出部16は、行列A
の固有値・固有ベクトルの算出を行う。求められたm次の
固有ベクトル、固有値をΦ_ｍ、λ_ｍとする。Φ_ｍは各用
語の組み合わせで表現されるベクトルなので一種の概念
を表すと見なすことができ、入力文書に固有に決まるの
でm次の固有概念と呼んでもよい。Φ₁は各文書セグメン
トベクトルを射影した時の射影値の自乗和を最大にする
軸であるので、各文書セグメントに最も共通する概念を
表すことになる。また、λ₁はその射影値の自乗和その
ものであり、Φ₁が表す概念の強さ、もしくはエネルギ
ーを表すとみなすことができる。Φ₂はΦ₁と直交すると
言う条件のもとで射影値の自乗和を最大にする軸であ
る。Φ₃以降も同様である。

【００２９】このようにして求められた固有ベクトルが
文書セグメントベクトルの集合を近似する部分空間の基
底ベクトルとなる。固有ベクトルをL次まで用いれば部
分空間の次元数はLとなり、入力文書の概念が互いに直
交するL個の固有概念により展開されたことになる。部
分空間を概念部分空間と呼ぶこともできる。次に、部分
空間決定部17は、Lの値を具体的に決定する。行列Aのラ
ンクをRとするとAからはR個の固有ベクトルが求められ
るので、その文書はR個の概念を有することになる。部
分空間はR個の概念のうちのL個の概念で文書の中心概念
を表わす。中心概念が本来の概念に対してどの程度の割
合を占めていたかは、言い換えると部分空間が文書全体
の概念をどの程度代表するかは、次式により表すことが
できる。

【００３０】

【数８】

【００３１】この式はLの値を実際に決めるときの目安
にすることができる。Lを変えることにより文書の中心
概念の広がりを制御でき、これにより抽出される重要文
書セグメントの概念の広がりを制御できる。

【００３２】重要度算出部18は、各文書セグメントベク
トルの部分空間への射影値の自乗を求めて重要度を算出
する。d_nの射影後のベクトルをz_n =(z_n1, z_n2,.., z_nL)
とすると、m番目の基底ベクトルへの射影値z_nmは、次式
により与えられる。

【００３３】

【数９】

【００３４】また、d_nの部分空間への射影値の自乗和は
次式により与えられる。

【００３５】

【数１０】

【００３６】上記の部分空間への射影値の自乗は文書の
中心概念に対する各文書セグメントの寄与を表す。また
は、基底ベクトルのエネルギーを重みとして用い部分空
間への射影値の自乗和を次式のようにしてもよい。

【００３７】

【数１１】

【００３８】文書セグメント順位付け部19は、重要度の
大きい順に文書セグメントの順位付けを行う。文書セグ
メント選択部20は、上位の文書セグメントを重要なセグ
メントとして選択し、出力する。従って、文書セグメン
トを文書の中心概念への寄与の大きい順に抽出すること
ができる。

【００３９】質問文との関連度算出図2は、入力文書の文書セグメントと質問文との関連度
の算出と文の選択を行う本発明の実施形態のシステムの
全体的構成を示すブロック図である。ブロック21は固有
値・固有ベクトル算出部であり、ブロック22は部分空間
射影部、ブロック23は質問文ベクトル化部である。ブロ
ック24は部分空間射影部、ブロック25は関連度算出部、
ブロック26は文書セグメント順位付け部、ブロック27は
文書セグメント選択部を表す。

【００４０】英文文書を例に実施例を説明する。ブロッ
ク21の個有値・固有ベクトル算出までの処理は図1の実
施形態と同じである。ブロック22はL次元の部分空間へ
の文書セグメントベクトルの射影を行う。図1の場合と
同様に射影後のベクトルをz_nとし、その成分は数３の式
で与えられるものとする。ブロック23は質問文に対する
処理であり、図１のブロック11〜14に相当する処理を行
う。質問文のベクトルをqとする。ブロック24の部分空
間射影ではqを部分空間に射影したベクトルyを求める。
yのm番目の要素y_mは次式で与えられる。

【００４１】

【数１２】

【００４２】ブロック25は関連度算出を行い、n番目の
文書セグメントに対する関連度g_nは次式で求められる。

【００４３】

【数１３】

【００４４】数13の式はz_nのノルムに比例する値を持つ
が、この式をさらに次式で正規化しz_nのノルムに無関係
な値をとるようにしてもよい。

【００４５】

【数１４】

【００４６】数13の式は、質問文と文書セグメントとの
間で共通する単語をもたない場合においても関連度を算
出することができる。この理由は以下のとおりである。
ある文書において文書セグメント中で共起する単語対が
存在するとき、低次の固有ベクトルではそれらの単語に
対する係数は同じ符号を持ち、高次の固有ベクトルで異
なる符号を持つ。言い換えれば単語の違いは低次の固有
ベクトルには現れず、高次の固有ベクトルに反映され
る。L次元の部分空間に単語の違いを反映する高次の固
有ベクトルが含まれなければ、文書中で互いに共起する
単語対の一方が質問文に、他方が対象とする文書セグメ
ントに含まれている時には、数13の式は0でない値をと
る。

【００４７】文書セグメント順位付け部26は、関連度の
大きい順に文書セグメントの順位付けを行い、文書セグ
メント選択部27は、上位の文書セグメントを関連度の高
い文書セグメントとしてとして選択し、出力する。ま
た、関連度を加味しながら重要文を選択する場合には、
ブロック26において図1の手順で求められる重要度と関
連度とを加えた値を用いて文書セグメントの順位付けを
行ってもよい。

【００４８】関連度は次のように算出することも可能で
ある。先ず、ｍ次の固有ベクトルに対する重みs_mを以下
のように定義する。

【００４９】

【数１５】

【００５０】s_mは質問文の全エネルギーに対してm次の
固有ベクトル方向のエネルギーの占める割合を示す。文
書セグメントnに対する関連度g_nを以下のように定義す
ることができる。

【００５１】

【数１６】

【００５２】g_nは文書セグメントnのΦ_m方向のエネルギ
ーのs_mを重みとする加重和となっている。従って重みの
大きい固有ベクトルへの射影値が大きい文は関連度が大
きくなる。また、g_nを文書セグメントnのエネルギーと
無関係にするため、次式で正規化してもよい。

【００５３】

【数１７】

【００５４】類似判定この発明のもう一つの実施形態では、文書を適当な単位
の文書セグメント、たとえば文章単位に分割したうえ
で、それぞれの文書セグメントごとにベクトルを算出
し、２つの文書のそれぞれの文書セグメントベクトルの
全ての組み合わせに対して内積の自乗和を算出して文書
間の類似度を求める。

【００５５】文書が長い場合には、出現する用語の数が
多くなって文書セグメントベクトルの次元が大きくな
り、得られる文書セグメントベクトルの数自体も多くな
る。このため、文書セグメントベクトルの組み合わせの
各々に対して内積を求めるのは処理量、メモリ量の負担
が大きくなる。そこで、一方または両方の文書について
重要文抽出の場合と同じように概念部分空間によって表
現するようにする。

【００５６】一方が文書セグメントベクトルで表され、
他方が概念部分空間で表された２つの文書間の類似度
は、文書セグメントベクトルと基底ベクトルの全ての組
み合わせの内積の重み付き自乗和により算出する。ま
た、両方の文書を概念部分空間で表わす場合には、基底
ベクトル同士の全ての組み合わせの内積の重み付き自乗
和により類似度を算出する。

【００５７】この実施例では、文書は、文書セグメント
ベクトルの集合により、もしくは部分空間により表わさ
れる。これにより文書の概念は文書セグメントの概念の
集合として表されたことになり、ひとつのベクトルで表
す場合に比べより正確に記述できるようになる。また、
両方の文書の全ての文書セグメントの概念が類似度に反
映されるので、文書の概念の広がりも自ずと類似度に反
映される。

【００５８】一方、部分空間は文書セグメントベクトル
集合を近似するものであるが、文書セグメントベクトル
の平方和行列の固有ベクトルを基底ベクトルとする場合
には誤差が最小になることが知られている。従って、一
方の文書の文書セグメントベクトルと他方の文書の選択
された基底ベクトルとの全ての組み合わせから求める類
似度は、文書セグメントベクトル同士の全ての組み合わ
せから求める類似度の最良の近似となっている。前述の
ように、この場合の部分空間は文書の中心概念を表す。
一方の文書の文書セグメントベクトルと他方の文書の選
択された基底ベクトルの全ての組み合わせで類似度を求
めることは、一方の文書セグメントの概念と他方の中心
的な概念との共通概念から類似度を求めることに相当す
る。

【００５９】両方の文書が概念部分空間で表されている
場合にも、求められる類似度は文書セグメントベクトル
同士の全ての組み合わせから求める類似度の近似となっ
ている。この場合は両方の文書の中心的な概念の全ての
組み合わせの共通概念から類似度を求めることになる。
従って、一方、もしくは両方の文書が概念部分空間によ
り表現されている場合も、文書セグメントベクトル同士
の組み合わせから類似度を求める場合と同様、求められ
る類似度はより自然なものになる。また、両方の文書の
全ての文書セグメントの概念が近似的に類似度に反映さ
れるので、文書の概念の広がりも自ずと類似度に反映さ
れる。

【００６０】図３は、文書セグメントベクトル同士の比
較から類似度を求める一実施例のシステムのブロック図
を示す。この発明は、典型的には汎用コンピュータ上で
この発明を組み込んだプログラムを走らせることによっ
て実施することができる。図３は、汎用コンピュータお
よびプログラムで構成されるシステムの機能ブロック図
である。

【００６１】ブロック11から14は、図１に示したものと
同じであり、ブロック11は用語検出部、ブロック12は形
態素解析部、ブロック13は文書セグメント分割部、ブロ
ック14は文書セグメントベクトル作成部である。ブロッ
ク35は文書セグメントベクトル内積演算部、ブロック36
は類似度算出部を表す。以下、英文文書を例に実施例を
説明する。

【００６２】入力された２つの文書について、図１に関
連して説明した用語検出部11から文書セグメントベクト
ル作成部14による処理を経て、文書セグメントベクトル
が作成される。

【００６３】文書セグメントベクトル内積演算部35は、
２つの入力文書の文書セグメントベクトルの全ての組み
合わせに対して内積の値を求め、その値を保持してお
く。ここで、２つの入力文書をS、Tとする。文書S、Tを
合わせた時K個の用語が現れたものとし、文書Sのn番目
の文書セグメントベクトルs_n (n=1,..,N)を(s_n1,
s_n2,.., s_nK)により、文書Tのm番目の文書セグメントベ
クトルt_m (m=1,..,M)を(t_m1,t_m2,.., t_mK)により表す。
そうすると、文書セグメントベクトルs_n とt_mの内積の
値は次式で表される。

【００６４】

【数１８】

【００６５】ここで上付きの添え字tは転置を表す。

【００６６】類似度算出部36は、全組み合わせの内積の
自乗和を求め、文書間の類似度を算出する。類似度をr
とすると、rは次式で与えられる。

【００６７】

【数１９】

【００６８】文書S、T間で共通する用語が無い時には、
類似度は0となり、文書SがTと全く同じであれば類似度
は1.0となる。

【００６９】図４は、文書セグメントベクトルと基底ベ
クトル、もしくは基底ベクトル同士の比較を行って類似
度を求める一実施例のシステムの機能ブロック図であ
る。用語検出部11から固有値・固有ベクトル算出部16
は、図１に示したものと同じである。ブロック37は主要
固有ベクトル選択部、ブロック38は内積計算部、ブロッ
ク39は類似度算出部を表す。

【００７０】前述した２つの入力文書S、Tの間の類似度
を、文書Tの文書セグメントベクトルと文書Sの基底ベク
トルの比較を行って求める。文書ＳおよびＴについて用
語検出部11から文書セグメントベクトル作成部14の処理
を経て文書セグメントベクトルを生成する。次に、入力
文書Sについて、平方和行列算出部15で各文書セグメン
トベクトルの平方和行列を算出する。文書Sの文書セグ
メントベクトルの平方和行列をA=(A_ab)とすると、Aは次
式により算出することができる。

【００７１】

【数２０】

【００７２】内積計算部38は、文書Sの固有ベクトルΦ_n
と文書Ｔの文書セグメントベクトルt_mの間の内積の値を
全てのnとmの組み合わせに対して求める。類似度算出部
39は、算出された内積の値から各次数の固有値を重みと
して用いて次の式により類似度の算出を行う。

【００７３】

【数２１】

【００７４】数１５の式では内積の重み付き自乗和から
類似度が求められているが、文書Tの文書セグメントと
文書Sの間の類似度を文書Tの文書セグメント毎に求め、
その平均を文書TとSの間の類似度とする方法も考えられ
る。この場合には、類似度は次式により与えられる。

【００７５】

【数２２】

【００７６】次に、２つの入力文書S、Tの間の類似度
を、基底ベクトル同士の比較を行って求める実施例につ
いて述べる。この場合には、文書Sだけでなく、文書Tに
対しても平方和行例算出部15から主要固有ベクトル選択
部37の処理を行ってそれぞれの固有値、固有ベクトルを
求め、主要固有ベクトルを基底ベクトルとして選択す
る。文書Ｔについて算出されたn次の固有値、固有ベク
トルをγ_n、τ_nとし、J次までを基底ベクトルとして選
択したとする。内積計算部38は、文書Sの固有ベクトル
Φ_nと文書Ｔの固有ベクトルτ_mの間の内積の値を全ての
nとmの組み合わせに対して求め、保持する。29における
類似度の算出は次式によって行うことができる。

【００７７】

【数２３】

【００７８】数21および数22の式が図３で述べた文書セ
グメントの全ての組み合わせに基づく類似度（数19）の
近似になっていることは、数19の式の分子が次の数24お
よび数25の式に書き直されることからも明らかである。

【００７９】

【数２４】

【００８０】

【数２５】

【００８１】ここで、Bは文書Tの平方和行列であり、ラ
ンクはQとしている。また、上式では次式の関係を用い
ている。

【００８２】

【数２６】

【００８３】数24の式において、文書Sの固有ベクトル
をL次まで用いるようにすれば数21の分子と同じにな
る。さらに数25の式において文書Tの固有ベクトルをJ次
まで用いるようにすれば数23の式の分子と同じになる。

【００８４】類似度判定において、文書セグメント同
士、文書セグメントと基底ベクトル、基底ベクトル同士
のどの組み合わせにするかはユーザが選択する事項であ
るが、長い文書に対しては基底ベクトルを求めた方がメ
モリ量、処理量の点で負担が少ない。また、実施例の説
明で、比較対象の両方の文書について図３または４に示
された処理を行うとしているが、最後の内積や類似度の
計算以外は予め行っておいた処理の結果を用いてもよ
い。

【００８５】固有値、固有ベクトルの観察簡単な模擬実験により、単語間の共起に対して個有値お
よび固有ベクトルがどのように求められるかを示す。
今、単語1〜4が現れる文書を考え、表１のような平方和
行列が得られたとする。

【００８６】

【表１】

【００８７】対角要素は次の式で表される単語エネルギ
ーを示し、単語1が最も大きくなっている。a、b、cはパ
ラメータで、aは単語1、2間、bは単語2、3間、cは単語
3、4間の共起の程度を与える。ここでは文書セグメント
が文で与えられたとする。

【００８８】ここで、文のエネルギーは文ベクトルのノ
ルムの2乗で与えられると考える。そこで、文nのエネル
ギーE(d_n)を次の数27により定義し、単語w_kのエネルギ
ーE(w_k)を数28のように定義する。

【００８９】

【数２７】

【００９０】

【数２８】

【００９１】さらに、文書Dの全エネルギーをE(D)とす
ると次の関係式が成り立ち、文書エネルギーは文エネル
ギーの総和、単語エネルギーの総和と等しくなる。

【００９２】

【数２９】

【００９３】図６は、a、b、cに適当な値を与えた平方
和行列から求めた固有値、固有ベクトルを示す。図６で
は、nを次数としてn次の固有値λ_n、n次の固有ベクトル
の各単語に対する係数、Φ_n1、Φ_n2、Φ_n3、Φ_n4を示
す。この結果から以下のことが言える。なお、ここで
は、概念がｎ次の固有ベクトルの方向で、エネルギーが
ｎ次の固有値で与えられる仮想の文をｎ次の固有文と呼
ぶ。

【００９４】(1) a=b=c=0のとき 4つの単語は共起しないことを意味する。表1ではn次の
固有ベクトルの係数は単語nが1で他は0である。これ
は、各固有ベクトルは各単語の軸そのものであり、固有
文の概念は各単語の概念そのものであることを示す。各
固有値は平方和行列の対角要素の値と等しい。即、各固
有文のエネルギーは各単語エネルギーと等しく、各単語
の頻度で決まる。

【００９５】(2) a=b=0、c=1のとき単語3、4間に単語の共起関係が存在する。その結果、3
次と4次の固有文の概念は単語3、4の組み合わせで決ま
るようになる。従来のベクトル空間モデルでは単語の共
起関係を表現することは出来なかったが、本発明では固
有文の概念に自然な形で単語の共起関係が反映される。
また、3次の固有文のエネルギーはa=b=c=0の時のそれに
比べ、大きくなる。

【００９６】(3) a=b=0、c=3のとき１次の固有ベクトルはΦ₁₃、Φ₁₄が0でない値を持って
おり、単語3、4の組み合わせで概念が決まる固有文のエ
ネルギーが最も大きくなることが分かる。これは固有文
のエネルギーは単語の頻度と単語間の共起の両方から決
まることを示す。

【００９７】(4) a=3、b=0、c=3のとき単語1-2間、単語3-4間で単語は共起し、単語1、2と3、4
の間では共起しない。その結果行列Sは部分行列に分解
される。このような場合、固有文の概念は単語1、2の組
み合わせ、もしくは単語3、4の組み合わせで決まる。

【００９８】(5) a=3、b=1、c=3のとき単語2-3間に共起が存在するようになると、固有文の概
念には全ての単語が拘るようになる。単語1は単語3、4
とは直接的な共起関係はなく、間接的な共起関係にある
と云えるが、このような間接的な共起関係も固有文の概
念に影響を与えることが分かる。実際の文書においても
単語間の直接的な共起だけでなく、間接的な共起の連鎖
が概念の形成に重要な役割を果たしていると考えられ
る。

【００９９】図５は、文数58、総単語数1100の英文ニュ
ース記事から名詞を抽出して146次元の文ベトルを構成
した場合の概念部分空間の代表度と次元数Lの関係を示
す。この場合の平方和行列のランクは58であり、Lの最
大値も58となる。代表度50%、75%を達成する次元数はそ
れぞれ8、20であり、大幅な次元圧縮が可能なことを暗
示している。また、1次の固有文の代表度は12.2%である
が、この文書の平均文ベクトルの代表度（各文の平均ベ
クトルへの射影値の2乗和の文書エネルギーに対する割
合）は10.4%であった。1次の固有文は平均ベクトルを上
回る代表度を有することが確認された。1次の固有文の
代表度は文書が長くなるにつれ低下する傾向にある。

【０１００】以上にこの発明を具体的な例について記述
したが、この発明はこのような具体例に限定されるもの
ではない。

【０１０１】

【発明の効果】この発明によると、与えられた文書から
重要文を抽出する、２つの文書の類似度を判定するなど
の解析を行うに適した文書の表現方法が提供される。

【０１０２】この発明の一つの形態によると、用語の共
起関係を含めて重要文の抽出処理が行われるので、人間
の感覚に近い抽出結果が得られる。また、質問文に対し
関連性をもつ文を抽出する場合、両者に共通する用語が
なくても用語の共起関係に基づいて概念的に関連する文
を抽出することができる。

【０１０３】また、この発明のもう一つの形態による
と、２つの文書の類似度を文書セグメントの全ての組み
合わせから求め、すべての文書セグメントの概念が類似
度に反映されるので、信頼性の高い類似度が求められ
る。

【図面の簡単な説明】

【図１】文書の中から重要文を抽出する本発明のシステ
ムの実施例の機能ブロック図。

【図２】質問文に関連する文書セグメントを抽出する本
発明のシステムの実施例の機能ブロック図。

【図３】２つの文書の類似度を判定する本発明のシステ
ムの実施例の機能ブロック図。

【図４】２つの文書の類似度を判定する本発明のシステ
ムのもう一つの実施例の機能ブロック図。

【図５】文数58、総単語数1100の英文ニュース記事か
ら名詞を抽出して146次元の文ベトルを構成した場合の
概念部分空間の代表度と次元数Lの関係を示す。

【図６】表１に対応する固有値および固有ベクトルの
例を示す図。

【符号の説明】

11 用語検出部 12 形態素解析部 13 文書セグメント分割部 14 文書セグメントベクトル作成部 15 平方和行列算出部 16 固有値・固有ベクトル算出部

Claims

【特許請求の範囲】

【請求項１】入力文書をベクトル表現する方法であっ
て、前記入力文書に出現する用語を検出するステップと、前記入力文書を適当な単位の文書セグメントに区分けす
るステップと、前記文書セグメントに出現する用語の出現頻度に応じた
値を成分とする文書セグメントのベクトルを生成するス
テップと、を含み、文書セグメントの平方和行列の固有値および固有ベクト
ルを用いて文書セグメントベクトルの集合を表現する方
法。
【請求項２】 K個の用語が現れる入力文書がN個の文書
セグメントに分割され、ｄ_niがｉ番目の用語の文書セグ
メントｎにおける出現頻度に応じた値として、n番目の
文書セグメントベクトルd_n (n=1,..,N)を(d_n1, d_n2,..,
d_nK)により表すと、前記平方和行列は、【数１】により算出される請求項１に記載の方法。
【請求項３】入力文書から重要な文書セグメントを抽
出する方法であって、前記入力文書に出現する用語を検出するステップと、前記入力文書を適当な単位の文書セグメントに区分けす
るステップと、前記文書セグメントに出現する用語の出現頻度に応じた
値を成分とする文書セグメントのベクトルを生成するス
テップと、前記文書セグメントベクトルのランクがＲで示される平
方和行列の固有ベクトルおよび固有値を求めるステップ
と、前記複数の固有ベクトルから重要度判定に使用する複数
Ｌの固有ベクトルを選択するステップと、選択されたそれぞれの固有ベクトルへのそれぞれの文書
セグメントベクトルの射影値の重み付き自乗和を求める
ステップと、を含み、それぞれの文書セグメントベクトルの射影値の自乗和に
基づいて重要度の大きい文書セグメントを選択する重要
文抽出方法。
【請求項４】 K個の用語が現れる入力文書がN個の文書
セグメントに分割され、ｄ_niがｉ番目の用語の文書セグ
メントｎにおける出現頻度に応じた値として、n番目の
文書セグメントベクトルd_n (n=1,..,N)を(d_n1, d_n2,..,
d_nK)により表し、ｄnの射影後のベクトルをｚ_n=(z_n1,z
_n2,….,z_nL)とすると、ｍ番目の固有ベクトルへの射影
値は、 z_nm＝Φ_ｍ ^td_n （Φ_ｍはｍ次の固有ベク
トル、tは転置を表す）で与えられ、Ｌ次の部分空間へ
の射影値の自乗和は、【数２】または、【数３】により与えられる請求項３に記載の方法。
【請求項５】前記固有ベクトルおよび固有値は、平方
和行列【数４】から求められ、そのランクＲに対して前記Lは、文書の
中心概念を表す部分空間の次数を示し、【数５】により与えられる前記入力文書の全体的概念に対する中
心概念の割合に基づいてLの値を決める請求項４に記載
の方法。
【請求項６】入力文書から質問文と関連性をもつ文書
セグメントを抽出する方法であって、前記入力文書に出現する用語を検出し、前記入力文書を
適当な単位の文書セグメントに区分けし、該文書セグメ
ントに出現する用語の出現頻度に応じた値を成分とする
文書セグメントのベクトルを生成するステップと、前記文書セグメントベクトルの平方和行列の固有ベクト
ルおよび固有値を求めて部分空間を決定するステップ
と、前記質問文に出現する用語を検出し、該用語の出現頻度
に応じた値を成分とする質問文のベクトルを生成し、前
記部分空間に射影するステップと、前記文書セグメントのベクトルのそれぞれを前記部分空
間に射影し、前記質問文と文書セグメントとの関連度を
算出するステップと、を含む文書セグメントの抽出方
法。
【請求項７】前記文書セグメントのベクトルｄ_ｎの前
記部分空間への射影ベクトルをz_n、前記質問文のベクト
ルｑを前記部分空間に射影したベクトルをｙとすると、
ｎ番目の文書セグメントと質問文との関連度ｇ_ｎは、ｙ
とｚ_ｎの内積ｙ ^ｔｚ_ｎ（ｔは転置）に基づいて求められ
る請求項６に記載の方法。
【請求項８】前記質問文のベクトルをｑとし、ｍ番目
の前記固有ベクトルをΦ_ｍとし、Ｌを前記部分空間の次
数とするとき、ｍ次の固有ベクトルに対する重みs_mを
（Φ_ｍ ^ｔｑ）^２の関数で定義し、文書セグメントnに対
する関連度g_nを【数６】で求める請求項６に記載の方法。
【請求項９】与えられた２つの入力文書の類似性を判定
する文書間類似性判定方法であって、それぞれの入力文書に出現する用語を検出するステップ
と、ぞれぞれの入力文書を適当な単位の文書セグメントに区
分けするステップと、前記文書セグメントに出現する用語の出現頻度に応じた
値を成分とする文書セグメントのベクトルを生成するス
テップと、それぞれの入力文書について、それぞれの入力文書に含
まれる前記文書セグメントのベクトルのすべての組み合
わせについて内積の自乗を求めるステップと、を含み、前記内積の自乗の和に基づいて入力文書間の類似性を判
定する文書間類似性判定方法。
【請求項１０】与えられた２つの入力文書の類似性を判
定する文書間類似性判定方法であって、一方の入力文書の文書セグメントベクトルの平方和行列
の固有ベクトルおよび固有値を算出するステップと、前記固有ベクトルから固有値の大きいものを基底ベクト
ルとして選択するステップと、他方の文書の文書セグメントベクトルと前記基底ベクト
ルとの内積の自乗を求め、重み付けして加えあわせるス
テップと、を含み、加え合わせられた内積の自乗の和から前記２つの入力文
書の間の類似性を判定する文書間類似性判定方法。
【請求項１１】与えられた２つの入力文書の類似性を判
定する文書間類似性判定方法であって、前記２つの入力文書のそれぞれについて文書セグメント
ベクトルの平方和行列の固有ベクトルおよび固有値を算
出するステップと、前記２つの入力文書のそれぞれについて前記固有ベクト
ルから固有値の大きいものを基底ベクトルとして選択す
るステップと、選択された基底ベクトルの組み合わせについて内積の自
乗を求め、重み付けして加えあわせるステップと、を含
み、加え合わせられた内積の自乗の和から入力文書間の類似
性を判定する文書間類似性判定方法。