JP2002197083A

JP2002197083A - 文書分割方法

Info

Publication number: JP2002197083A
Application number: JP2000378015A
Authority: JP
Inventors: Takahiko Kawatani; 隆彦川谷
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2000-12-12
Filing date: 2000-12-12
Publication date: 2002-07-12
Also published as: WO2002048951A1

Abstract

(57)【要約】【課題】入力文書において話題が不連続となる点を見
出し、複数個のブロックに分割する。【解決手段】入力文書に出現する用語を検出し、入力
文書を適当な単位の文書セグメントに区分けし、文書セ
グメントに出現する用語の出現頻度を成分とする文書セ
グメントのベクトルを生成し、文書セグメントベクトル
の平方和行列の固有ベクトルおよび固有値を算出し、固
有ベクトルから、文書分割決定のための部分空間を構成
する基底ベクトルを選択し、文書セグメントベクトルの
それぞれを前記基底ベクトルに射影した値を求め、この
射影値に基づいて文書を分割する。文書セグメントベク
トルの集合に対し特異値分解を実行し、文書セグメント
ベクトルの集合を互いに直交する固有ベクトルおよび固
有値により展開する。固有ベクトルは用語の組合わせに
より表現されるベクトルなのでそれ自体が概念を持つ。
固有値は固有ベクトルの表す概念の強さ、もしくはエネ
ルギーと見なすことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された文書に
おいて話題が前後で不連続となる点を見出して話題境界
を検出し、文書を複数個のブロックに分割する文書分割
方法に関する。

【０００２】

【従来の技術】話題境界の検出による文書分割に関して
は、Hearst法がよく知られている（M.A.Hearst, "Multi
-paragraph segmentation of expository text", in Pr
oceedings of the 32^nd Annual Meeting of Associatio
n for Computational Linguistics, pp.9-16, 199
4.）。この方法では、先ず、話題境界の候補点の前後に
一定の大きさの窓を設け、それぞれの窓の中でどのよう
な用語が出現するかに関する類似性を求める。この類似
性が高ければ、前後の窓の話題の関連性が大きく、候補
点は境界点になりえない。反対に類似性が低ければ前後
の窓の結束性は小さく、話題の境界点になりうる。具体
的には文書の冒頭から末尾まで一定の刻み幅で話題境界
の候補点をずらしながら上記類似性を求め、極小となる
点を検出して話題境界とする。

【０００３】

【発明が解決しようとする課題】上述のHearst法では話
題の不連続を検出するために候補点の前後の窓の中の出
現用語の比較を行っている。この方法には以下のような
問題があった。ひとつは窓の大きさに関する問題であ
る。具体的に窓の大きさをどの程度にとるかは恣意的で
あり、窓を大きくとれば検出される話題境界の間隔、即
ち話題の長さは長くなりがちであり、反対に小さくすれ
ば短くなりがちであった。そのため、複数の話題を含
み、各話題の長さがまちまちであるような文書に対して
は適切に文書を分割することが困難であった。ふたつ目
の問題は前後の窓の話題の類似性の検出方法である。従
来の方法では前後の窓における単語の共有性に基づいて
話題の類似性を判断していたため、前後の窓で同じ単語
が出現しない限り類似性は求められなかった。実際問題
として、文書の中で互いに関連する単語対の一方が前の
窓に、他方が後ろの窓に含まれているような時、話題の
類似性は存在すると考えられる。例えば、野球記事の中
で、“巨人”と“松井”の両方が現れる文が存在したと
すると、“巨人”と“松井”は関連する単語とみなすこ
とができるので、前の窓に“巨人”が、後ろの窓に“松
井”が現れていれば、他に共有する単語はなくとも話題
の類似性は存在すると考えてよい。しかしながら、従来
の技術では単語としての共有性にのみ着目するのでこの
ような類似性は検出できなかった。そのため話題の類似
性に関する的確さに問題があった。

【０００４】

【課題を解決するための手段】上記のような問題を解決
するため、この発明による分割方法は、入力文書に出現
する用語を検出し、入力文書を適当な単位の文書セグメ
ントに区分けし、文書セグメントに出現する用語の出現
頻度を成分とする文書セグメントのベクトルを生成し、
文書セグメントベクトルの平方和行列の固有ベクトルお
よび固有値を算出し、固有ベクトルから、文書分割決定
のための部分空間を構成する基底ベクトルを選択し、文
書セグメントベクトルのそれぞれを前記基底ベクトルに
射影した値を求め、この射影値に基づいて文書を分割す
る。

【０００５】文書セグメントベクトルとは文書セグメン
ト中で各用語が現れる回数すなわち頻度をもとに決定し
た値を成分とするベクトルであり、その文書セグメント
の概念を表す。文書を区分けする最も自然な単位は、文
章である。次いで文書セグメントベクトルの集合に対し
特異値分解を実行し、文書セグメントベクトルの集合を
互いに直交する固有ベクトルおよび固有値により展開す
る。固有ベクトルは用語の組合わせにより表現されるベ
クトルなのでそれ自体が概念を持つ。固有ベクトルは文
書固有に決まるので固有ベクトルが表す概念を固有概念
と呼んでもよい。また、固有値は固有ベクトルの表す概
念の強さ、もしくはエネルギーと見なすことができる。
文書セグメントをある固有ベクトルに射影した値は、文
書セグメントベクトルの表す概念がその固有ベクトルに
対応する固有概念方向に持つ成分であり、射影値を自乗
した値は上記成分のエネルギーを表す。表す概念が似て
いる文書セグメントは各固有概念方向の成分、もしくは
エネルギーに関して同じような値をもつはずである。そ
こで、各文書セグメントと各固有概念との関連性を上記
射影値をもとに求めた後、各文書セグメントの固有概念
との関連性に関する連続性を求め、連続性が最も低くな
る点を話題の境界とする。

【０００６】前述のように本発明では各文書セグメント
ベクトルの各固有ベクトルへの射影を基に話題の連続性
を求めている。平方和行列の固有ベクトルは、低次のそ
れにおいては文書中で共起する単語に対する係数は同じ
符号で近い値を持つという性質を持っている。そのため
低次の固有ベクトルへの射影値は、単語を共有しない文
書セグメントであっても互いに共起する単語対の一方
（例えば前述の“巨人”）が一方の文書セグメントに、
単語対の他方（例えば前述の“松井”）が他方の文書セ
グメントに含まれていればそれぞれの文書セグメントベ
クトルの射影値は関連性を持つようになる。また、この
ような単語対が多く含まれるほど射影値の値は近くな
る。その結果、固有ベクトルを正しく選択することによ
り、もしくは正しく重み付けを行うことにより文書セグ
メント間の類似性が的確に求められるようになり、同じ
話題が長く連続しなくとも境界が正しく求められるよう
になる。

【０００７】

【発明の実施の形態】図１は本発明の実施例を示す。こ
の発明の方法は、汎用コンピュータ上でこの発明を組み
込んだプログラムを走らせることによって実施すること
ができる。図１は、そのようなプログラムのフローチャ
ートである。

【０００８】ブロック11は用語検出部、ブロック12は形
態素解析部、ブロック13は文書セグメント区分け部であ
る。ブロック14は文書セグメントベクトル作成部、ブロ
ック15は平方和行列算出部、ブロック16は固有値・固有
ベクトル算出部、ブロック17は部分空間決定部、ブロッ
ク18は文書セグメントベクトル射影である。また、ブロ
ック19は関連性検出部、ブロック20は話題境界決定部を
表す。以下、英文文書を例に実施例を説明する。

【０００９】入力された文書について、先ず用語検出部
11において、文書から単語及び数詞などの記号系列を検
出する。ここでは、単語や記号系列を総称して用語と呼
ぶ。英文の場合、単語同士を分けて書く正書法が確立し
ているので用語の検出は容易である。次に、形態素解析
部12は、用語の品詞付けなどの形態素解析を行う。次に
文書セグメントへの区分けを行う。文書セグメントへの
最も基本的な単位は文である。英文の場合、文はピリオ
ドで終わり、その後ろにスペースが続くので文の切出し
は容易に行うことができる。その他の文書セグメントへ
の区分け法としては、用語の数がほぼ同じになるように
複数の文をまとめて文書セグメントとする方法、文書の
先頭から含まれる用語の数が同じになるように文とは関
係なく区分けする方法などがある。

【００１０】文書セグメントベクトル作成部14は、先ず
文書全体に出現する用語から作成すべきベクトルの次元
数および各次元と各用語との対応を決定する。この際に
出現する全ての用語の種類にベクトルの成分を対応させ
なければならないということはなく、品詞付け処理の結
果を用い、例えば名詞と動詞と判定された用語のみを用
いてベクトルを作成するようにしてもよい。次いで、各
文書セグメントに出現する用語の種類とその頻度を求
め、その値に重みを付与して対応する成分の値を決定
し、文書セグメントベクトルを作成する。重みの与え方
としては従来の技術を用いることができる。

【００１１】平方和行列算出部15は、各文書セグメント
ベクトルの平方和行列の算出を行う。K個の用語が現れ
る入力文書がN個の文書セグメントに区分けされたとし
て、n番目の文書セグメントベクトルs_n (n=1,..,N)を(s
_n1, s_n2,.., s_nK)により表すと、平方和行列A=(A_ab)
は、次式により算出することができる。

【００１２】

【数８】

【００１３】固有値・固有ベクトル算出部16は、行列A
の固有値・固有ベクトルの算出を行う。求められたm次の
固有ベクトル、固有値をΦ_ｍ、λ_ｍとする。Φ₁は各文
書セグメントベクトルを射影した時の射影値の自乗和を
最大にする軸であるので、各文書セグメントに最も共通
する概念を表すことになる。また、λ₁はその射影値の
自乗和そのものであり、Φ₁が表す概念の強さ、もしく
はエネルギーを表すとみなすことができる。Φ₂はΦ₁と
直交すると言う条件のもとで射影値の自乗和を最大にす
る軸である。Φ₃以降も同様である。このようにして求
められた固有ベクトルが文書セグメントベクトルの集合
を近似する部分空間の基底となる。固有ベクトルをL次
まで用いれば部分空間の次元数はLとなり、入力文書の
概念が互いに直交する概念を持つL個の固有ベクトルに
より展開されたことになる。

【００１４】部分空間決定部17は、Lの値を具体的に決
定する。行列AのランクをRとするとAからはR個の固有ベ
クトルが求められるので、その文書は本来はR個の固有
概念を有することになる。部分空間は、このうちの（R
−L）個の固有概念を捨ててL個の固有概念の組み合わせ
で文書の中心概念を表す。部分空間の基底ベクトルはL
次までの固有ベクトルである。中心概念が本来の概念に
対してどの程度の割合を占めていたかは、次式で表され
る。この式はLの値を実際に決めるときの目安にするこ
とができる。

【００１５】

【数９】

【００１６】文書セグメントベクトル射影部18は、各文
書セグメントベクトルの部分空間への射影値を求める。
s_nの射影後のベクトルをp_n =(p_n1, p_n2,.., p_nL)とす
る。m番目の基底ベクトルへの射影値p_nmは、次式で与え
られる。次式においてTは転置を表す。

【００１７】

【数10】

【００１８】関連性検出部19は、各文書セグメントとそ
れぞれの固有概念すなわち基底ベクトルとの関連度を算
出する。この関連度を算出する手法としては種々考えら
れるが、その一つは次のような方法である。m番目の基
底ベクトルへの射影値の全文書セグメントにわたる平均
および標準偏差を次式により求める。

【００１９】

【数11】

【００２０】ｎ番目の文書セグメントがｍ番目の固有概
念すなわち基底ベクトルに対してもつ正の関連性を示す
変数をπ_nm、負の関連性を示す変数をν_nmとすると、こ
れらの変数を次のように定義することができる。

【００２１】

【数12】

【００２２】ここで、a、bは予め決められた閾値であ
る。ｎ番目の文書セグメントがm番目の固有概念に対し
てもつ関連性が直前の文書セグメントがもつ関連性とど
の程度異なるかを示す関数をh_m(n)とすると、これは次
の式で表すことができる。

【００２３】

【数13】

【００２４】前の2つの項はそれぞれ正、負の関連性が
ｎ番目の文書セグメントから始まったときにそれぞれ1
の値をとり、後ろの2つはぞれぞれ正、負の関連性がｎ-
1番目の文書セグメントで終わったときにそれぞれ1の値
をとる。即ち、m番目の固有概念に関連するような話題
が連続していればh_m(n)は0、不連続であれば1以上の値
をとる。

【００２５】話題境界決定部20は、次式のh(n)を各nに
対して求め、h(n)の極大点を求める。

【００２６】

【数14】

【００２７】h(n)の極大点はL個の固有概念すなわち基
底ベクトルに対する関連性の変化の総計が局所的に大き
くなる点であり、対応する文書セグメントの先頭を話題
の境界とする。こうして、文書が話題の境界点で分割さ
れる。以上述べた実施例では、文書セグメントと固有概
念との関連性の算出に、文書セグメントベクトルの基底
ベクトルへの射影値が用いられていたが、射影値の自乗
を用いても同等の結果を得ることができる。この場合、
p_nmは数１０の代わりに次式で与えられる。

【００２８】

【数15】

【００２９】図2は本発明の別の形態の実施例である。
この発明の方法は、汎用コンピュータ上でこの発明を組
み込んだプログラムを走らせることによって実施するこ
とができる。図2は、そのようなプログラムのフローチ
ャートである。

【００３０】ブロック11から18は図１に示したものと同
じであり、ブロック11は用語検出部、ブロック12は形態
素解析部、ブロック13は文書セグメント区分け部であ
る。ブロック14は文書セグメントベクトル作成部、ブロ
ック15は平方和行列算出部、ブロック16は固有値・固有
ベクトル算出部、ブロック17は部分空間決定部、ブロッ
ク18は文書セグメントベクトル射影である。また、ブロ
ック29は文書セグメント間連続性検出、ブロック30は連
続性最小点検出を表す。

【００３１】ブロック29では、n番目の文書セグメント
の直後を境界点候補としたとき、その直前C個の文書セ
グメントと直後のC個の文書セグメントの全ての組み合
わせに対して部分空間への射影ベクトルに関する演算を
行い、文書セグメント間の話題連続性を算出する。文書
の先頭付近、最後の付近においては境界点候補の前後に
存在する文書セグメントの数がCに達しない場合もあ
る。この場合には存在するだけの文書セグメントを用い
るので、Cは存在するだけの文書セグメントの数を表す
こととする。n番目の文書セグメントs_nの部分空間への
射影ベクトルをp_n =(p_n1, p_n2,.., p_nL)とする。ここ
で、m番目の基底ベクトルへの射影値p_nmは数１０で与え
られるとする。h(n)を連続性の算出結果とすると、h(n)
は次のような式で算出することが可能である。

【００３２】

【数16】

【００３３】

【数17】

【００３４】

【数18】

【００３５】数１６はn番目の文書セグメントの直前C個
の文書セグメントの射影ベクトルと直後のC個の文書セ
グメントの射影ベクトルの全ての組み合わせにつき余弦
類似度を求め、平均をとったものである。数１６におい
ては短い文同士の射影ベクトルの類似度がh(n)に対して
必要以上に影響する可能性があるが、数１６はその影響
を軽減するためのものである。何れの式においても境界
点の前後で話題が連続していれば大きな値を、不連続で
あれば小さな値をとる。

【００３６】連続性最小点検出部30は、h(n)の極小点を
求める処理である。h(n)の極小点は連続性が極小、即ち
不連続性が極大になる点であり、対応する文書セグメン
トの最後を話題の境界とする。こうして、文書が話題の
境界点で分割される。以上述べた実施例では、文書セグ
メントと固有概念との関連性の算出に、文書セグメント
ベクトルの基底ベクトルへの射影値が用いられていた
が、射影値の自乗を用いても同等の結果を得ることがで
きる。この場合、p_nmは数１０の代わりに数1５で与えら
れる。

【００３７】58個の文からなる英文文書から2回以上出
現する44個の名詞を用語として用い、文単位に文書セグ
メントベクトルを作成し、文書の分割を行った場合、図
1、2の発明とも得られた結果は人間の感覚とよく一致し
ており、人間が話題が変化していると判断した個所が話
題境界として抽出されていた。

【００３８】

【発明の効果】この本発明によれば各文の概念の変化を
捉えて話題の境界を検出するので従来に比べ精度が高め
られる。

【図面の簡単な説明】

【図１】本発明の一実施例のフローチャート。

【図２】本発明のもう一つの実施例のフローチャート。

【符号の説明】

11 用語検出部 12 形態素解析部 13 文書セグメント区分け部 14 文書セグメントベクトル作成部 15 平方和行列算出部 16 部分空間決定部 17 固有ベクトル選択部 18 文書セグメントベクトル射影部 19 関連性検出部 20 話題境界決定部

Claims

【特許請求の範囲】

【請求項１】与えられた入力文書を分割する方法であっ
て、入力文書に出現する用語を検出するステップと、入力文書を適当な単位の文書セグメントに区分けするス
テップと、前記文書セグメントに出現する用語の出現頻度に関連し
た値を成分とする文書セグメントのベクトルを生成する
ステップと、前記文書セグメントベクトルの平方和行列の固有ベクト
ルおよび固有値を算出するステップと、前記固有ベクトルから、文書セグメントの話題連続性を
算出するための部分空間を構成する基底ベクトルを選択
するステップと、前記文書セグメントベクトルのそれぞれを前記基底ベク
トルに射影した値に関連した値を成分とするベクトルを
求めるステップと、前記射影したベクトルの連続性に基づいて文書の境界点
を判定するステップと、を含む文書分割方法。
【請求項２】 K個の用語が現れる入力文書がN個の文書
セグメントに分割され、ｓ_niがｉ番目の用語の文書セグ
メントｎにおける出現頻度に応じた値として、n番目の
文書セグメントベクトルｓ_n (n=1,..,N)を(ｓ_n1,
ｓ_n2,.., ｓ_nK)により表すと、前記平方和行列は、【数１】により算出される請求項１に記載の方法。
【請求項３】ｎ番目の文書セグメントのm番目の基底ベ
クトルへの射影値、もしくはその自乗した値をP_nm、ｎ
番目の文書セグメントがｍ番目の基底ベクトルに対して
もつ正の関連性を示す変数をπ_nm、負の関連性を示す変
数をν_nmとし、【数２】と定義して前記文書セグメントの関連性を算出する請求
項１に記載の文書分割方法。
【請求項４】ｎ番目の文書セグメントがm番目の基底ベ
クトルに対してもつ関連性が直前の文書セグメントがも
つ関連性とどの程度異なるかを示す関数h_m(n)を次のよ
うに定義し、【数３】次式のh(n)を各nに対して求め、【数４】 h(n)の極大点に基づいて文書の境界を決定する請求項３
に記載の文書分割方法。
【請求項５】境界点候補の直前の一定個数の文書セグメ
ントベクトルを部分空間に射影したベクトルと、直後の
一定個数の文書セグメントベクトルを部分空間に射影し
たベクトルとの全ての組み合わせから、境界点候補前後
の話題の連続性を算出する請求項１に記載の文書分割方
法。
【請求項６】文書セグメントnの直後を境界点候補と
し、Cを境界点候補前後で処理の対象となる文書セグメ
ントの個数、Lを部分空間の次元数、文書セグメントnの
ベクトルを部分空間に射影したベクトルをp_n =(p_n1, p
_n2,.., p_nL)、Tを転置として、ベクトルp_n+i、p_n+j-1の
間の内積を【数５】で定義するとき、話題の連続性を表す関数h(n)を【数６】または【数７】で算出する請求項５に記載の文書分割方法。
【請求項７】h(n)の極大点に基づいて文書の境界を決定
する請求項５に記載の文書分割方法。