JP2004288168A

JP2004288168A - クラスタリング方法プログラム及び装置

Info

Publication number: JP2004288168A
Application number: JP2004030629A
Authority: JP
Inventors: Takahiko Kawatani; 川谷　隆彦
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2003-03-05
Filing date: 2004-02-06
Publication date: 2004-10-14
Anticipated expiration: 2024-02-06
Also published as: KR20040078896A; US7499923B2; US20040230577A1; EP1455285A2; KR101086510B1; JP4828091B2; EP1455285A3; CN1530857B; CN1530857A

Abstract

【課題】
文書のクラスタリングにおいて、正しい数のクラスターを求めること、及び各文書の帰属するクラスターを精度よく求めることは完全には解決されていない問題であった。
【解決手段】
文書クラスタリングでは同じ話題を述べた文書がグループ化されるので、同じクラスターに属する文書群には何らかの共通性があるはずである。また、各話題には話題特有の用語や用語対が存在する。本発明ではこれらの点に着目し、各文書の着目クラスターへの近さを求めるときに、着目クラスターに特有でない用語や用語対の影響を排除しつつ着目クラスターの共通情報を用いるようにした。
【選択図】図１

Description

本発明は文書のクラスタリングをはじめとする自然言語処理に関するものであり、前記処理の高性能化を図ることによって文書からの情報の抽出を容易にするものである。

文書クラスタリングは入力された文書群を文書の内容、即ち話題によって幾つかのグループに分割する技術である。クラスタリング技術は古くから研究されてきており、これまでに考案された方法についてはC. D. ManningとH. Schutzeによって著されたFoundations of Statistical Natural Language Processing（The MIT Press、1999年）に体系的に紹介されている。先ず、クラスタリングは、各文書が各クラスターに帰属する確率を求めるソフトクラスタリング、各クラスターに帰属するか否かを求めるハードクラスタリングに大別される。後者については、さらに、階層的な手法と非階層的な手法とに分類される。階層的な手法は、さらにボトムアップのアプローチとトップダウンのアプローチに分けられる。前者では、初期状態として各文書をクラスターの核とし、最も近いクラスター同士をマージするという処理を繰り返す。これにより文書集合は木構造で表現されるようになる。クラスター間の近さの尺度、即ち類似度を図る方法として単一リンク法、完全リンク法、グループ平均法が知られている。これらは何れも２文書間の類似度をもとに算出されるものである。後者では、全文書が１つのクラスターに属するという状態から出発し、例えばひとつのクラスター中のあらゆる文書対の中で最も低い類似度が閾値以下の場合、そのクラスターを分割するという処理を繰り返す。

非階層的な手法では、予め指定された数のクラスターが何らかの基準を満たすように作成される。よく知られている方法の例を以下に示す。
ステップ1：指定されたクラスター数の文書をランダムに選択して各クラスターの中心とするステップ、
ステップ2：各文書について各クラスター中心との近さを求め、各文書を最も近いクラスターに帰属させるステップ、
ステップ3：各クラスターに帰属する文書ベクトルの平均により各クラスターの中心を求めるステップ、
ステップ4：ステップ2)の処理を実行し、各文書の帰属するクラスターに変化がなければ終了、そうでなければステップ3へいくステップ、からなる方法である。
X. Liu, Y. Gong, W. Xu and S.Zhu. Document Clustering with Cluster Refinement and Model Selection Capabilities. In Proceedings of the 25th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp.191-198. Tampere, Finland, August, 2002.

従来の文書クラスタリング技術は３つの大きな問題を抱えている。ひとつは求められるクラスターの数の問題である。文書クラスタリングでは求められるクラスターの数は入力された文書集合中の文書が述べている話題の数と同じでなければならない。前述のようにボトムアップの階層的なクラスタリング処理では、各クラスターは一つの文書から成る状態から出発し、最も近いクラスター同士をマージする処理を繰り返して最後は全文書が一つのクラスターに属することになる。従って、話題の数と同じ数のクラスターを得るにはクラスターのマージを打ち切ることが必要となる。これは、クラスターのマージ処理において類似度が閾値以下のクラスター対についてはマージを行わないようにすることにより実現可能である。しかしながら、実際には上述の閾値を如何に決めるかが難しい問題となっている。閾値が不適切であれば正しい数のクラスターは得られない。同様にトップダウンのクラスタリング処理では、ひとつのクラスター中のあらゆる文書対の中で最も低い類似度が閾値以上の場合にはクラスターの分割は行わないようにすれば、原理的には話題の数と同じ数のクラスターが得られる筈である。

しかしながら、この場合にも閾値をどのように決めるかが難しい問題となっている。また、非階層的なクラスタリングでは、ユーザーは与えられた文書集合を何個のクラスターに分割するかの情報を事前に入力することを求められる。しかしながら、クラスター数の情報は入力文書集合の事前の知識なしには正確に与えることは不可能である。このように入力文書集合から正しい数のクラスターを得ることは難しい問題となっている。非階層的なクラスタリングでクラスター数を正しく推測する試みもなされており、性能は向上しているが完璧ではない（非特許文献１）。

２番目の問題はクラスタリングにおける精度の問題である。これは、ひとつのクラスターに属する文書が同じ話題を述べているかどうかの問題である。クラスタリング処理では、通常は文書は、各成分が文書中に現れる各用語の有無、もしくは出現頻度で与えられるベクトルで表現され、２つのクラスター間の類似度は、異なるクラスターに属する文書対の余弦類似度をもとに、ある文書とクラスター間の類似度はその文書のベクトルとそのクラスターに属する文書の平均ベクトルとの間の距離（例えばユークリッド距離）をもとに求められていた。従来のクラスタリング処理では、上記の余弦類似度やユークリッド距離を求めるときに、どのような用語がそのクラスターに重要なのかを検証することなく、各文書で得られたベクトルをそのまま用いることが多かった。そのため、各クラスターに本質的でない情報を表す用語や用語対の存在がクラスタリングの精度に影響を及ぼしえた。

3番目の問題は話題の階層性の抽出である。通常、話題には階層性が存在する。例えば“イラク戦争”という話題を例にとると、“イラク戦争”に関連するニュース記事の中には様々な下位の話題が存在する。例えば、“サダムフセイン”、“国連による大量破壊兵器の査察”、“ブッシュ大統領の態度”、“フランス、ドイツ、ロシアの反対”などが挙げられる。従って、実際のクラスタリングにおいては、ニュース記事の集合全体に対してクラスタリングを行い、その結果として得られるであろう“イラク戦争”に関するニュース記事の集合に対してサブクラスタリングを行って下位の話題に対応する文書のグループが得られるようになることが望まれる。しかしながら、現状の技術では、前述のように、各話題に対応したクラスターを正しく求め、各文書を正しいクラスターにアサインすることは難しかったので、サブクラスタリングも難しい課題として残されていた。

先ず、階層化を伴わないフラットなクラスタリングを考える。文書クラスタリングは各文書が記述する話題によって文書をグループ化するものであるから、ひとつのクラスターに属する文書（クラスター文書集合と呼ぶ）は同じ話題について述べている筈である。従って、クラスター文書集合は何らかの共通性を有する筈である。また、各話題にはその話題には多く出現し、他の話題にはあまり出現しない話題特有の用語や用語対が存在する筈である。従って、各クラスターには用語や用語対の出現傾向に違いが存在する筈である。このようなことから、本発明ではクラスタリングの精度を高めるために、クラスタリングの過程で、
Ａ）：着目クラスター文書集合の共通情報を抽出し、この共通情報との近さにより各文書の着目クラスターに対する近さ（文書共通度）を求める。
Ｂ）：着目クラスターに特有でない用語や用語対を検出し、上記文書共通度の算出においてはそれらの影響を排除する。
という手段を導入する。

従来の階層的な処理では、クラスターのマージや分割が頻繁に繰り返される。また、従来の非階層的な処理では、クラスターのメンバーがやはり頻繁に入れ替わる。このような状況では各クラスターの共通情報、クラスターに非特有な用語や用語対の検出には無理がある。そこで、本発明ではクラスタリングの全体の手順として以下を採用する。

ステップ１：最初の繰り返しにおいては全文書から、２回目以降の繰り返しにおいては、その時点で存在するどのクラスターに対しても文書共通度が一定値以下の文書の中から、クラスターの種の候補となる文書を検出する。
ステップ２：先ず、クラスターの種の各候補文書について、全文書との類似度を求め一定値以上の類似度を有する文書を抽出する。その文書数が最も大きくなる候補文書をクラスターの種とし、その文書集合によりクラスターを形成する。
ステップ３：その時点でのクラスター文書集合と各文書との間で文書共通度を求め、一定値以上の文書共通度を有する文書をそのクラスターに一時的に帰属させることによりクラスターを成長させる。クラスターに一時的に属する文書数が一定になればステップ4へ移行する。そうでなければ本ステップを繰返す。
ステップ４：終了条件を満たせばステップ5へ移行する。そうでなければステップ1に戻って続行する。
ステップ５：各文書について各クラスターへの文書共通度を求め、文書共通度が一定値以上のクラスターに帰属させる。
ステップ６：1つの話題に2つ以上のクラスターが対応していないかどうかを検出する。そのようなクラスターがあれば冗長なクラスターとして削除し、各文書の帰属するクラスターを求めなおす。

上記のクラスタリング手順において、前記Ａ）の共通情報を用いる文書共通度の算出、及びＢ）の着目クラスターに特有でない用語や用語対の検出はステップ３と５において行われることになる。Ａ）については、その時点での着目クラスターに一時的に帰属している文書から共通情報を抽出することになる。共通情報の抽出と利用は特願2002-326157で述べられている方法を援用することができる。基本的な考え方は次の通りである。いま、着目クラスターがR個の文書から成るものとし、各文書から一つづつ文を取り出してR個の文からなる文の組を作ったとする。このような文の組は各文書の文の数の積通り存在することになる。ここでは、着目する文の組において、R個の文のうちのA個以上の文に現れる用語を共通用語、共通用語で構成された文を共通文と呼ぶこととする。A個以上の文書に出現する用語はいずれかの文の組において共通用語となる。ここで、全ての文の組で共通文を作り、共通文の集合を構成したとする。このような共通文の集合は着目クラスターの共通の話題の内容を示すものと考えられる。従って、各文書と共通文集合との間で何らかの手段で類似度を求め、文書共通度とすると、それは各文書の着目クラスターの共通話題への近さを表わすことになる。

さらに、各文書と共通文集合との間の類似度ではA個以上の文書に出現する用語を含む文書のみがゼロでない類似度を有する。ここで、AをA₁、またはA₂（A₁＞A₂）に設定した場合を考えてみる。明らかにA₁個以上の文書に出現する用語の方がA₂個以上の文書に出現する用語よりも着目クラスターにおける共通性は高い。従って、AをA₂に設定した場合、A₁に設定した場合に比べてより共通性の低い用語のみを含む文書もゼロでない類似度を有することになる。また、A₁個以上の文書に出現する用語の何れかを含む文書の数はA₂個以上の文書に出現する用語の何れかを含む文書の数よりも少ない。従って、このような類似度をステップ３と５に適用すると、Aを大きな値に設定した場合、クラスターは話題の揃った少数の文書で構成され、反対にAを小さな値に設定した場合、クラスターは広範な話題を含むより多数の文書で構成されるようになる。本発明ではAの値によりクラスターの話題の揃い方を制御する。

またＢ）の着目クラスターに特有でない用語や用語対の検出は次のような考え方で行うものである。種文書が話題iの着目クラスターの成長の過程を考える。話題iを述べている文書数は、文書集合全体にはc₀個、着目クラスターの文書集合にはc個存在したとする。また、用語mを含む文書数は、文書集合全体ではU⁰ _mm個、着目クラスターの文書集合ではU_mm個存在したとする。用語mが話題iの特有用語の時には用語mは話題iの文書に多く現れるので、

となり、非特有の時には話題i以外の話題の文書にも現れるので、

となる筈である。従って、c₀ /cを適当な方法で求めることができれば用語mが話題iに特有か否かを判断することができる。U⁰ _mm/U_mmを用語mの文書頻度比と呼ぶことにすると、本発明では、着目クラスターの文書集合において最も頻度の高い一定個の用語のうち、文書頻度比の値の小さな一定個は話題iの特有用語とみなし、これらの用語の文書頻度比の平均c'をc₀ /cの推測値とした。結局、αをパラメータとして

を満たす用語mは話題iには特有な用語ではないと判断できる。
同様に、用語m、nを含む文書数は、文書集合全体ではU⁰ _mn個、着目クラスターの文書集合ではU _mn個存在したとして、

を満たす用語対m、nは話題iには特有な用語対ではないと判断できる。
文書共通度は着目クラスターに本質的でない用語や用語対の影響を受けにくくするためには、話題iには特有ではないと判断された用語、用語対は、各文書と着目クラスターの文書集合との文書共通度の算出に用いないようにすればよい。もしくは、

をそれぞれ用語m、用語対m、nの重みとして用いて文書共通度の算出を行ってもよい。このようにすることにより、話題iを述べた文書に対して文書共通度は大きな値をとるようになる。その結果クラスタリングの精度の向上が期待できる。

上記のクラスタリングの全体手順においては、先ずクラスターの種となる文書をひとつ取り出し、ついでその種と同じ話題を記述する文書を検出して種を成長させるという処理を繰り返し行うこととなる。従って、種の文書の数が入力文書における話題の数と過不足なく一致すれば正しい数のクラスターが得られることになる。たとえステップ１において同じ話題に対して２つの種文書が検出されたにしても、ステップ６で冗長なクラスターを検出して除去するので正しい数のクラスターが得られる。また、ステップ１においてある話題に対して種文書が検出されない時にはクラスターの数が不足することになる。このような事態は、クラスタリングの精度が低く、検出されるべき話題の文書がすでに存在するクラスターとの文書類似度が高くなってしまった時に起きる。言い換えれば、このような事態は、クラスタリングの精度が低いために、ひとつのクラスターに本来有すべきでない話題を有する文書が混入することによって引き起こされる。しかしながら、本発明では上記Ａ）、Ｂ）の手段によってクラスタリングの精度を高めているので異なる話題の文書の混入の可能性は低く、求められるクラスターの数が少なくなるという事態は起こりにくい。本発明では正しい数のクラスターが得られる公算が非常に大きい。

また、クラスターの階層化は、前記Aの値を変えつつ、もしくはクラスタリング処理に用いる用語、用語対を選択しつつ、上記クラスタリング方法を再帰的に適用することにより実現する。ここで、色々な話題を含む文書集合が存在する層を第０層、第０層のクラスタリングを行って、“イラク戦争”、“ＳＡＲＳ”などの同じ話題を含む文書集合に分けられた層を第１層、第１層に存在する親の文書集合をサブクラスタリングによって下位の話題で再分類した層を第２層と呼ぶこととする。以下も同様である。階層的なクラスターを求める処理では、先ず第０層の文書集合に対して前記Aの値に適当な値を設定して前述のクラスタリング処理を行う。この処理で得られるひとつの文書集合に属する文書は共通の話題を述べている筈である。

次に、第１層に存在するひとつの文書集合に対するサブクラスタリングでは、Aの値として相対的により大きな値を設定してより話題の揃ったクラスターが得られるようにする。その結果、第１層の既にある程度の共通性を有する文書集合が細分化され、同じ下位の話題を述べた文書集合が得られるようになる。また、第２層で得られるサブクラスターの特有用語、用語対は第１層の親となる文書集合全体においては出現頻度の小さい用語、用語対の筈である。従って、親となる文書集合において出現頻度の高い用語、用語対を除去したうえで前述のクラスタリング処理を施すことにより、第２層で有効なサブクラスターが得られるようになる。第３層以下も同様である。

図１は、本発明の概要を示すブロック図である。１１０は文書入力ブロック、１２０は文書前処理ブロック、１３０は文書情報処理ブロック、１４０は出力ブロックを示す。文書入力ブロック１１０には、処理したい文書集合が入力される。文書前処理ブロック１２０では、入力された文書の用語検出、形態素解析、文書セグメント区分け等が行われる。文書セグメントについて説明する。文書セグメントは文書を構成する要素であり、その最も基本的な単位は文である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。その他の文書セグメントへの区分け法としては、ひとつの文が複文からなる場合主節と従属節に分けておく方法、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく区分けする方法などがある。文書情報処理ブロック１３０は以下に詳細に説明するが、情報処理を行い、種の文書の検出、全文書と着目クラスターとの文書集合共通度の算出、各クラスターの特有でない用語、用語対の検出などクラスタリングに直接関わる処理を行う。出力ブロック１４０は文書情報処理ブロック１３０で得られた結果を、ディスプレー等の出力装置に出力する。

この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図2は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。ブロック21は文書集合入力、ブロック22は文書前処理、ブロック23は全体文書情報抽出処理、ブロック24はクラスターの種文書及び初期クラスターの決定、ブロック25はクラスターの成長処理、ブロック26は残存文書検出、ブロック27は終了条件チェック、ブロック28は残存文書の文書情報抽出処理、ブロック29は帰属クラスター決定、ブロック30は冗長クラスターの検出・除去、である。以下、英文文書を例に実施例を説明する。

先ず、文書集合入力21において対象となる文書集合が入力される。階層的なクラスタリングで第２層以下のサブクラスターを求めるときはこの文書集合は第１層におけるひとつのクラスターに属する文書集合となる。文書前処理22においては各入力文書に対して、用語検出、形態素解析、文書セグメント区分け、文書セグメントベクトル作成などの前処理が行われる。用語検出としては、各入力文書から単語、数式、記号系列などを検出する。ここでは、単語や記号系列などを総称して全て用語と呼ぶ。英文の場合、用語同士を分けて書く正書法が確立しているので用語の検出は容易である。次に、形態素解析では、各入力文書に対して用語の品詞付けなどの形態素解析を行う。文書セグメント区分けにおいて各入力文書に対して文書セグメントへの区分けを行う。文書セグメントベクトル作成では、先ず文書全体に出現する用語から作成すべきベクトルの次元数および各次元と各用語との対応を決定する。この際に出現する全ての用語の種類にベクトルの成分を対応させなければならないということはなく、品詞付け処理の結果を用い、例えば名詞と動詞と判定された用語のみを用いてベクトルを作成するようにしてもよい。次いで、各文書セグメントに出現する用語に対応する成分のみが値1、他は0となるような文書セグメントベクトルを作成する。

全体文書情報抽出処理23では、後段のクラスタリング処理に用いるデータを各文書と入力文書集合全体から求める。求めるデータは各文書の共起行列、前記共通文集合の共起行列（共通共起行列）、入力文書集合全体の文書頻度行列である。各文書の共起行列は用語の出現頻度、用語間の共起頻度を反映する行列である。文を文書セグメントとした場合について説明を続ける。ここでは、現れる用語集合が{w_1,..,w_M}で与えられ、R個の文書から成る入力文書集合Dを考える。さらに、r番目の文書をD_rとすると、D_rはY_r個の文からなるものとし、y番目の文及びその文ベクトルをD_ry、 d_ry=(d_ry1,..,d_ryM)^Tとする。ここで、Tはベクトルの転置を表す。d_ryは2値ベクトルであり、d_rymはm番目の用語の有無を表す。文書のD_rの共起行列をS ^rとすると、これは

で与えられる。式（１）から分かるように、S ^rのmn成分は

より与えられる。従って、S ^r _mmは文書D_rにおいて用語mが生起する文の数、S ^r _mnは用語mとnとが共起する文の数を表すことになる。もし同じ用語が同じ文に2回以上出現しないのであれば、S ^r _mmは文書D_rにおける用語mの出現頻度となる。次に、各文書の共起行列を用いて行列Tを算出する。行列Tのmn成分T_mnは次式で与えられる。

さらに、入力文書集合における各用語、用語共起の文書頻度を格納した行列U⁰を求める。U⁰ _mm、U⁰ _mnはそれぞれ用語mの出現する文書数、用語m、nの共起する文書数となる。このような行列T、U⁰を用いて共通共起行列T^Aを求める。共通共起行列T^Aのmn成分は以下のように決められる。
T ^A _mn= T _mn U⁰ _mn ＞＝Aのとき
T ^A _mn= ０それ以外
Aはパラメータであり、実験的に決められる。

また、mn成分が以下のように与えられる行列Q^Aを
Q^A _mn= log(T^A _mn) T^A _mn ＞ 1のとき
Q^A _mn= ０それ以外
により定義し、共通共起行列として用いてもよい。

なお、階層的なクラスタリングで第２層以下のサブクラスターを求めるときは、U⁰ _mm、U⁰ _mnの値が実験的に決められる閾値以上の場合には0となるようにしてもよい。

クラスターの種文書及び初期クラスターの決定２４では、前記ステップ１及び2に対応する処理を行う。ここで、その時点で存在するどのクラスターに対しても文書共通度が一定値以下の文書の集合を残存文書集合として求める。残存文書集合はその時点で存在するどのクラスターにも属さない公算の大きい文書の集合である。共通共起行列T^A、Q^A、文書頻度行列Uは最初の繰り返しにおいては入力文書集合に基づいて計算され、２回目以降の繰り返しにおいては、残存文書集合に基づいて計算される。一方、クラスターの種となる文書はどの話題の文書が選ばれようと、その話題の中では中心的な文書であることが望ましい。本発明では、残存文書集合の中で最も優勢な話題の文書群において中心的な文書は、残存文書集合との共通度も高いであろうとの仮定のもとに、残存文書集合中の文書と残存文書集合との文書共通度を求め、文書共通度の高い文書をクラスターの種の候補として選択する。任意の文書をP、その共起行列をS^Pとするとき、文書Pと残存文書集合との文書共通度としては例えば以下を用いることができる。

式（２）において行列Q^Aの代わりに行列T^Aを用いることもできる。また、式（２）において、複数の話題に共通する用語の影響を軽減するために、共起行列、共通共起行列の対角成分は用いないようにしてもよい。

クラスターの種文書の候補は、残存文書集合中の全ての文書に対して式（２）により文書共通度を求め、文書共通度の高い一定個の文書を選択することにより求められる。次にクラスターの種文書の決定について説明する。先ず各候補文書について残存文書集合叉は入力文書集合中の全ての文書との類似度を求める。類似度の尺度としては余弦類似度を用いることが出来る。次いで各候補文書について各候補文書との類似度が一定値より大きい文書を各候補文書の近隣文書として求める。近隣文書数が最も大きい文書を候補文書の中から一文書選択することにより、クラスターの種文書が決定される。また、初期クラスターはその種文書の近隣文書で与えられる。

クラスターの成長処理25では、クラスターの初期クラスターと共通度の高い文書を吸収することによりクラスターを成長させる。図3はそのようなクラスターを成長させる処理のブロック図である。31は文書頻度行列作成、32は共通共起行列作成、33は用語・用語対の特有度算出、34は文書共通度算出、35はクラスターメンバー決定、36は終了条件チェックである。

文書頻度行列作成31、共通共起行列作成32では、その時点で一時的に着目クラスターのメンバーとなっている文書集合に対して、図2のブロック23における文書頻度行列作成処理、共通共起行列作成と同等の処理を行う。31で求められた文書頻度行列をUにより表す。32で求められた共通共起行列をT^AもしくはQ^Aにより表す。用語・用語対の特有度算出33では、各用語・用語対の特有度を決定し、重みを決定する。各用語・用語対の特有度の算出はU⁰ _mm、U⁰ _mnの値が0でない用語・用語対に対して実行する。U⁰ _mm、U⁰ _mnの値が0の用語・用語対の特有度は0とする。先ず、前述のように、U⁰ _mm/U_mmを用語mの文書頻度比として求め、Uから求められる最も頻度の高い一定個の用語のうち、文書頻度比の値の小さな一定個を着目クラスターの特有用語として選択する。次いで、これらの用語の文書頻度比の平均を平均文書頻度比c'として求め、用語mの特有度v_mm、用語対m、nの特有度v_mnを以下により決定する。

あるいは、特有用語に限定することなく、特有用語対と特有用語の両方を用いて平均文書頻度比を求めるようにしてもよい。この場合にはU⁰ _mn/U_mnをmとnが等しくないときは用語対m、nの文書頻度比として、mとnが等しいときは用語mの文書頻度比として求め、Uから求められる最も頻度の高い一定個の用語、用語対のうち、文書頻度比の値の小さな一定個を着目クラスターの特有用語または用語対として選択する。次いで、これらの用語、用語対の文書頻度比の平均を平均文書頻度比c'として求めるようにする。

用語m、用語対m、nの重みをそれぞれz_mm 、z_mnとする。これらは、重み決定関数f(x)を用いて、以下のように決定する。

f(x)の決め方は任意であるが、f(x)=x、f(x)=x²のようにするのがひとつの方法である。あるいは、xが一定値よりも大きいときはf(x)=1、そうでないときは
f(x)=0としてもよい。

文書共通度算出34では、全入力文書に対して着目クラスターとの文書共通度を算出する。任意の文書をP、その共起行列をS^Pとするとき、文書Pの文書共通度は、

もしくは、

により求めることができる。上式において行列Q^Aの代わりに行列T^Aを用いることもできる。

クラスターメンバー決定35では、ブロック34で求められた各文書の着目クラスターに対する文書共通度を用いて、一定値以上の文書共通度を有する文書を求め、着目クラスターの一時的なメンバーとする。

終了条件チェック36では、着目クラスターの成長処理を終了するか否かをチェックする。先ず、初回の繰り返し、即ち初めて36に到達したときには無条件に31に戻って処理を繰り返す。2回目以降の繰り返しの時には、上記35で求められた着目クラスターのメンバーの文書数をカウントし、それが前回の繰り返しのメンバー数と等しくない場合には31に戻って処理を繰り返す。等しければ、全入力文書と着目クラスターとの文書共通度を保持し、着目クラスターの成長処理を終了する。

図2に戻って説明を続ける。残存文書検出26では、その時点で存在する全てのクラスターに対する各文書の文書共通度をもとに、どのクラスターに対しても文書共通度が一定値以下の文書を残存文書として抽出する。

終了条件チェック27では、残存文書数をもとにクラスターの種の検出から成長に到る一連の処理を終了するか否かのチェックを行う。例えば、残存文書数が0、もしくは残存文書数が一定値以下でかつ前回の繰り返し時の残存文書数と等しい場合にはブロック29に移行するようにする。もし、このような条件が満たされなければ、ブロック28に移行し、残存文書集合に対してブロック23と同等な処理を行う。

帰属クラスター決定29では、各文書が最終的に求められたクラスターのどれに帰属するかを決定する。これは、図３において各文書について求められた各クラスターに対する文書共通度の情報を用い、各文書は文書共通度が一定値以上のクラスターに帰属させることで実行できる。

冗長クラスターの検出・除去30では、冗長なクラスターが存在するか否かをチェックし、存在する場合には除去する。冗長なクラスターは、ひとつの話題に対して2つ以上のクラスターが求められたときに発生する。そのような時、その話題を記述した文書は２つ以上のクラスターに対して大きな文書共通度を有するようになり、２つ以上のクラスターが重複する格好になる。冗長なクラスター検出のためには、先ず、求められた全てのクラスターと全ての文書との文書共通度を求め、次いで文書共通度が着目クラスターに対しては一定値よりも大きく、他のどのクラスターに対しても一定値よりも小さくなる文書数を求める。

そのような文書数は着目クラスターが他のクラスターと重複しない場合には、その着目クラスターと一定値以上の文書共通度を有する文書数と等しくなる。一方、着目クラスターが他のクラスターと重複する場合には、他のクラスターと重複していない文書数すなわち当該着目クラスターにのみ属する文書数となる。このような文書数を各クラスターの重要度と定義する。重要度は、図４（ａ）の場合「クラスター１」及び「クラスター２」に属する文書数である。重要度は、着目クラスターが他のクラスターと一部重複して存在する場合には、他のクラスターと重複していない文書数となる。すなわち、「クラスター１」に対しては、図４（ｂ）の「ｃ」で示される部分に含まれる文書数を意味する。「クラスター２」に対しては、図４（ｂ）の「ｄ」で示される部分に含まれる文書数を意味する。ひとつのクラスターの重要度が一定値よりも小さい場合は、そのクラスターに属する文書の数がいくら多くとも冗長なクラスターとみなし除去する。そのようなクラスターが複数存在すれば、クラスター重要度が最も小さいクラスターを先ず除去する。その後残されたクラスターについてクラスター重要度の算出を行い、クラスター重要度が最も小さいクラスターを除去する。このような処理を冗長なクラスターが存在しなくなるまで繰り返す。クラスターの削除を行った場合は、除去されたクラスターに属していた文書の帰属クラスターの決定を改めて行う。このときには、各文書は文書共通度が最も高くなるクラスターに帰属させるようにしてもよい。

ここで本発明の効果を説明する為に図２、３の実施例に沿った実験結果を示す。用いたコーパスはTDT2である。TDT2は1998年の1月から6月の間の100個のイベントに関するニュースストーリーの集合であり、6個のニュースソースから採取されている。本報告では同じくTDT2を用いて行われたLiuらの非階層型のクラスタリング（非特許文献１）の結果と比較するため、Liuらが行ったようにABC、CNN、VOAから採取された15イベントに関するニュースストーリーの集合を実験対象とした。表1にそれらの詳細を示す。

表2に実験に用いられた14種類のデータセットとそれに対する提案手法とLiuらの手法のクラスタリングの精度を示す。Liuらの手法の結果はLiuらの論文より再掲したものである。本発明では、ある文書が属するイベントとその文書が帰属するクラスターの種となった文書のイベントが一致するときクラスタリングの結果は正しいとされる。また、全てのクラスターに対して文書共通度が0の文書は誤りとする。精度は正しくクラスタリングされた文書数の全文書数に対する比により求める。Liuらの方法は、混合ガウス分布モデル（Gaussian Mixture Model）に基づき非階層形のクラスタリングを行った後、各クラスターの特有用語を求め、特有用語の投票によって結果を修正している。表2において、テストデータのABC-01-02-15とあるのは、ABCより採取されたイベントIDが01、02、15に属する文書であることを意味している。表２から、精度の高いデータセットの数は、Liuらの方法よりも本発明の方が多く、本発明が優ることが分かる。

また、求められるクラスターの個数も表２のデータに対して全て正しく求められている。
また、Liuらの論文で挙げられている12種類のデータに対してもクラスター数は正しく求められている。一方、Liuらの方法では12種類のうち3種類のデータに対して正しく求められていない。表３にLiuらの方法及び本発明の結果を示す。

このように本発明によれば、入力文書集合から正しい数のクラスターを抽出すること、及び各文書が帰属すべきクラスターを精度よく決定することができ、ユーザの情報獲得の効率性が高められる。
なお、上記実施例は文書を例にとって説明したが、実施例で示した文書と同じ様に表現でき、かつ、同様の性質を有するパターンについても適用できる。すなわち、実施例で示した、文書をパターン、文書の用語をパターンの構成要素、文書セグメントをパターンセグメント、文書頻度行列をパターン頻度行列、文書共起行列をパターン共起行列、文書共通度をパターン共通度等のように置き換えることによって、本願発明がパターン集合に同様に適用できる。

本発明の概略を示すブロック図である。文書集合が入力された段階からクラスターと各文書が帰属するクラスターが決定されるまでの手順を示す図である。一つのクラスターについて初期クラスターの段階からの成長の手順を示す図である。冗長なクラスターを削除する為のクラスターの重要度を説明する図である。

符号の説明

１１０：文書入力ブロック
１２０：文書前処理ブロック
１３０：文書情報処理ブロック
１４０：出力ブロック

Claims

以下の（ａ）から（ｆ）のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る入力文書集合をクラスタリングする方法、
（ａ）入力文書集合に対して、出現する用語の頻度をもとに文書頻度行列を求めるステップと、
（ｂ）その時点で存在するどのクラスターにも含まれない残存文書の集合の中から選択した種文書をもとに、初期状態の着目クラスターを作成するステップと、
（ｃ）前記入力文書集合の文書頻度行列、前記着目クラスターに対して出現する用語の情報をもとに求められるクラスターの文書頻度行列とクラスターの共通共起行列の情報を用いて、入力文書集合に含まれる全文書の前記着目クラスターに対する文書共通度を求め、一定値以上の前記文書共通度を有する文書を着目クラスターに一時的に帰属させるステップと、
（ｄ）（ｃ）のステップを前記着目クラスターに一時的に帰属する文書数が前回の繰り返しと同じになるまで繰返すステップと、
（ｅ）上記（ｂ）から（ｄ）までのステップを、所定の収束条件を満足するまで繰返すステップと、
（ｆ）各文書の各クラスターに対する前記文書共通度をもとに、各文書の帰属するクラスターを決定するステップ。
前記（ａ）入力文書集合の文書頻度行列を求めるステップは、さらに、以下のステップを含む請求項１に記載の方法、
（ａ−１）前記文書セグメント毎に、前記文書セグメントに出現する用語の発生頻度を基に文書セグメントベクトルを生成するステップと、
（ａ−２）入力文書集合の各文書に対して、前記文書セグメントベクトルから共起行列を求めるステップと、
（ａ−３）入力文書集合に対して、各文書の共起行列から文書頻度行列を求めるステップ。
前記（ｂ）初期状態の着目クラスターを作成するステップは、さらに、以下のステップを含む請求項１及び２に記載の方法、
（ｂ−１）その時点で存在するどのクラスターにも含まれない残存文書の集合に対して、共通共起行列を求めるステップと、
（ｂ−２）前記残存文書の集合の中から、前記残存文書の共通共起行列を用いて、前記残存文書集合との共通度の高い文書をクラスターの種として抽出し、前記クラスターの種文書と前記種文書と類似度の高い文書として求められた近隣文書とを合わせて初期状態の着目クラスターを作成するステップ。
前記（ｃ）一定値以上の前記文書共通度を有する文書を着目クラスターに一時的に帰属させるステップは、さらに、以下のステップを含む請求項１から３に記載の方法、
（ｃ−１）前記着目クラスターからクラスターの共通共起行列とクラスターの文書頻度行列を求めるステップと、
（ｃ−２）前記入力文書集合の文書頻度行列と前記クラスターの文書頻度行列を比較して、各用語及び用語対のクラスターに対する特有度を求めるステップと、
（ｃ−３）、前記クラスターの共通共起行列と、前記特有度から求めた各用語及び用語対の重みとを用いて、入力文書集合に含まれる全文書の着目クラスターに対する文書共通度を求め、一定値以上の前記文書共通度を有する文書を着目クラスターに一時的に帰属させるステップと、
前記（ｅ）所定の収束条件を満足するまで繰返すステップは、さらに、各クラスターに対して文書共通度が一定値以下の文書の数が０になるか、もしくはその数が一定値以下でありかつ前回の繰り返しの時と同じになるまで繰返すステップを含む請求項１から４に記載の方法。
前記（ｆ）各文書の帰属するクラスターを決定するステップは、さらに、
冗長なクラスターの有無をチェックし、冗長なクラスターが存在すれば除去したうえで、各文書の帰属するクラスターを決定し直すステップを含む請求項１から５に記載の方法。
前記出現する用語の種類数がMで与えられ、R個の文書からなる文書集合Dにおいて、r番目の文書をD_r、D_rの文書セグメント数をY_r、D_rのy番目の文書セグメントベクトルをd_ry=(d_ry1,.., d_ryM)^Tとすると、ここで、Tはベクトルの転置を表す、文書D_rの前記共起行列S ^rは、

で与えられることを特徴とする請求項１から６に記載の方法。
文書集合Dの文書頻度行列の各成分は、文書集合D中の各文書の共起行列の対応する成分がゼロでない文書数であることを特徴とする請求項１から７に記載の方法。
文書集合Dの共通共起行列は、mn成分が以下のように決定される行列T

及び、文書頻度行列のmn成分U_mnをもとに、mn成分が
T ^A _mn= T _mn U_mn ＞＝ Aの時
T ^A _mn= ０それ以外のとき
によって決定される行列T^Aにより、もしくはmn成分が
Q^A _mn= log(T^A _mn) T^A _mn ＞ 1の時
Q^A _mn= ０それ以外のとき
によって決定される行列Q^Aにより与えられることを特徴とする請求項１から８に記載の方法。
共起行列をS^Pとする文書Pの文書集合Dに対する文書共通度は、z_mm、z_mnをそれぞれ用語m、用語対m、nに対する重みとして

もしくは、

もしくは数式（１）、数式（２）において行列Q^Aの代わりに行列T^Aを用いた式により与えられることを特徴とする請求項１から９に記載の方法。
クラスターの種となる文書を抽出し、初期状態のクラスターを作成するステップは、さらに、以下の（ａ）から（ｄ）のステップを含むことを特徴とする請求項１から１０に記載の方法、
（ａ）前記残存文書集合から求められる残存文書の共通共起行列を用いて、残存文書集合中の各文書の残存文書集合に対する文書共通度を求めるステップと、
（ｂ）前記文書共通度の大きい一定個の文書をクラスターの種の候補として抽出するステップと、
（ｃ）前記抽出された各候補について、入力文書集合もしくは残存文書集合中の各文書との類似度を求め、類似度が一定値以上となる文書を近隣文書として求めるステップと、
（ｄ）前記抽出された各候補の中から前記近隣文書数の最も多い候補を選択してクラスターの種の文書とし、前記選択されたクラスターの種の文書と前記近隣文書とを合わせて初期状態のクラスターとするステップ。
前記特有度及び前記各用語及び用語対の重みを決定するステップは、以下の（ａ）から（ｄ）のステップを含むことを特徴とする請求項１から１１に記載の方法、
（ａ）前記入力文書集合の文書頻度行列の各成分の、前記着目クラスターの文書頻度行列の対応する成分に対する比を求め、対角成分の場合には用語文書頻度比とし、非対角成分の場合には用語対文書頻度比とするステップと、
（ｂ）前記着目クラスターに一時的に帰属する文書集合において、最も文書頻度の高い一定個数の用語や用語対の中で用語文書頻度比もしくは用語対文書頻度比が小さい一定個数の用語や用語対を選択し、前記選択された用語もしくは用語対文書頻度比の平均を平均文書頻度比として求めるステップと、
（ｃ）前記平均文書頻度比を、用語文書頻度比または用語対文書頻度比で除した値を、前記各用語または用語対の特有度として求めるステップと
（ｄ）前記特有度を変数とする所定の関数によって用語または用語対の重みを決定するステップ。
前記入力文書集合に出現する用語や用語対の中で文書頻度の高い用語や用語対を除いて、クラスタリングを行うことを特徴とする請求項１から１２に記載の方法。
クラスタリング後、所定のクラスターに属する文書集合を前記入力文書集合として、再帰的にクラスタリングを行う請求項１から１３に記載の方法。
一つまたは複数の文書セグメントを持つ複数の文書から成る入力文書集合に対して、文書間の関係に基づき前記文書をクラスタリングするために、コンピュータを以下の（ａ）から（ｆ）の手段として機能させるためのプログラム、
（ａ）入力文書集合に対して、出現する用語の頻度をもとに文書頻度行列を求める手段と、
（ｂ）その時点で存在するどのクラスターにも含まれない残存文書の集合の中から選択した種文書をもとに、初期状態の着目クラスターを作成する手段と、
（ｃ）前記入力文書集合の文書頻度行列、前記着目クラスターに対して出現する用語の情報をもとに求められるクラスターの文書頻度行列とクラスターの共通共起行列の情報を用いて、入力文書集合に含まれる全文書の前記着目クラスターに対する文書共通度を求め、一定値以上の前記文書共通度を有する文書を着目クラスターに一時的に帰属させる手段と、
（ｄ）（ｃ）の手段を前記着目クラスターに一時的に帰属する文書数が前回の繰り返しと同じになるまで繰返す手段と、
（ｅ）上記（ｂ）から（ｄ）までの手段を、所定の収束条件を満足するまで繰返す手段と、
（ｆ）各文書の各クラスターに対する前記文書共通度をもとに、各文書の帰属するクラスターを決定する手段。
前記（ａ）入力文書集合の文書頻度行列を求める手段は、さらに、以下の手段を含む請求項１５に記載のプログラム、
（ａ−１）前記文書セグメント毎に、前記文書セグメントに出現する用語の発生頻度を基に文書セグメントベクトルを生成する手段と、
（ａ−２）入力文書集合の各文書に対して、前記文書セグメントベクトルから共起行列を求める手段と、
（ａ−３）入力文書集合に対して、各文書の共起行列から文書頻度行列を求める手段。
前記（ｂ）初期状態の着目クラスターを作成する手段は、さらに、以下の手段を含む請求項１５及び１６に記載のプログラム、
（ｂ−１）その時点で存在するどのクラスターにも含まれない残存文書の集合に対して、共通共起行列を求める手段と、
（ｂ−２）前記残存文書の集合の中から、前記残存文書の共通共起行列を用いて、前記残存文書集合との共通度の高い文書をクラスターの種として抽出し、前記クラスターの種文書と前記種文書と類似度の高い文書として求められた近隣文書とを合わせて初期状態の着目クラスターを作成する手段。
前記（ｃ）一定値以上の前記文書共通度を有する文書を着目クラスターに一時的に帰属させる手段は、さらに、以下の手段を含む請求項１５から１７に記載のプログラム、
（ｃ−１）前記着目クラスターからクラスターの共通共起行列とクラスターの文書頻度行列を求める手段と、
（ｃ−２）前記入力文書集合の文書頻度行列と前記クラスターの文書頻度行列を比較して、各用語及び用語対の着目クラスターに対する特有度を求める手段と、
（ｃ−３）、前記クラスターの共通共起行列と、前記特有度から求めた各用語及び用語対の重みとを用いて、入力文書集合に含まれる全文書の着目クラスターに対する文書共通度を求め、一定値以上の前記文書共通度を有する文書を着目クラスターに一時的に帰属させる手段。
前記（ｅ）所定の収束条件を満足するまで繰返す手段は、さらに、各クラスターに対して文書共通度が一定値以下の文書の数が０になるか、もしくはその数が一定値以下でありかつ前回の繰り返しの時と同じになるまで繰返す手段を含む請求項１５から１８に記載のプログラム。
前記（ｆ）各文書の帰属するクラスターを決定する手段は、さらに、
冗長なクラスターの有無をチェックし、冗長なクラスターが存在すれば除去したうえで、各文書の帰属するクラスターを決定し直す手段を含む請求項１５から１９に記載のプログラム。
以下の（ａ）から（ｆ）の手段を有する、一つまたは複数の文書セグメントを持つ複数の文書から成る入力文書集合に対して、文書間の関係に基づき前記文書をクラスタリングする装置、
（ａ）入力文書集合に対して、出現する用語の頻度をもとに文書頻度行列を求める手段と、
（ｂ）その時点で存在するどのクラスターにも含まれない残存文書の集合の中から選択した種文書をもとに、初期状態の着目クラスターを作成する手段と、
（ｃ）前記入力文書集合の文書頻度行列、前記着目クラスターに対して出現する用語の情報をもとに求められるクラスターの文書頻度行列とクラスターの共通共起行列の情報を用いて、入力文書集合に含まれる全文書の前記着目クラスターに対する文書共通度を求め、一定値以上の前記文書共通度を有する文書を着目クラスターに一時的に帰属させる手段と、
（ｄ）（ｃ）の手段を前記着目クラスターに一時的に帰属する文書数が前回の繰り返しと同じになるまで繰返す手段と、
（ｅ）上記（ｂ）から（ｄ）までの手段を、所定の収束条件を満足するまで繰返す手段と、
（ｆ）各文書の各クラスターに対する前記文書共通度をもとに、各文書の帰属するクラスターを決定する手段。
一つまたは複数のパターンセグメントを持つ複数のパターンから成る入力パターン集合に対して、パターン間の関係に基づき前記パターンをクラスタリングするために、コンピュータを以下の（ａ）から（ｆ）の手段として機能させるためのプログラム、
（ａ）入力パターン集合に対して、出現する構成要素の頻度をもとにパターン頻度行列を求める手段と、
（ｂ）その時点で存在するどのクラスターにも含まれない残存パターンの集合の中から選択した種パターンをもとに、初期状態の着目クラスターを作成する手段と、
（ｃ）前記入力パターン集合のパターン頻度行列、前記着目クラスターに対して出現する構成要素の情報をもとに求められるクラスターのパターン頻度行列とクラスターの共通共起行列の情報を用いて、入力パターン集合に含まれる全パターンの前記着目クラスターに対するパターン共通度を求め、一定値以上の前記パターン共通度を有するパターンを着目クラスターに一時的に帰属させる手段と、
（ｄ）（ｃ）の手段を前記着目クラスターに一時的に帰属するパターン数が前回の繰り返しと同じになるまで繰返す手段と、
（ｅ）上記（ｂ）から（ｄ）までの手段を、所定の収束条件を満足するまで繰返す手段と、
（ｆ）各パターンの各クラスターに対する前記パターン共通度をもとに、各パターンの帰属するクラスターを決定する手段。
前記（ａ）入力パターン集合のパターン頻度行列を求める手段は、さらに、以下の手段を含む請求項２２に記載のプログラム、
（ａ−１）前記パターンセグメント毎に、前記パターンセグメントに出現する構成要素の発生頻度を基にパターンセグメントベクトルを生成する手段と、
（ａ−２）入力パターン集合の各パターンに対して、前記パターンセグメントベクトルから共起行列を求める手段と、
（ａ−３）入力パターン集合に対して、各パターンの共起行列からパターン頻度行列を求める手段。
前記（ｂ）初期状態の着目クラスターを作成する手段は、さらに、以下の手段を含む請求項２２及び２３に記載のプログラム、
（ｂ−１）その時点で存在するどのクラスターにも含まれない残存パターンの集合に対して、共通共起行列を求める手段と、
（ｂ−２）前記残存パターンの集合の中から、前記残存パターンの共通共起行列を用いて、前記残存パターン集合との共通度の高いパターンをクラスターの種として抽出し、前記クラスターの種パターンと前記種パターンと類似度の高いパターンとして求められた近隣パターンとを合わせて初期状態の着目クラスターを作成する手段。
前記（ｃ）一定値以上の前記パターン共通度を有するパターンを着目クラスターに一時的に帰属させる手段は、さらに、以下の手段を含む請求項２２から２４に記載のプログラム、
（ｃ−１）前記着目クラスターからクラスターの共通共起行列とクラスターのパターン頻度行列を求める手段と、
（ｃ−２）前記入力パターン集合のパターン頻度行列と前記クラスターのパターン頻度行列を比較して、各構成要素及び構成要素対の着目クラスターに対する特有度を求める手段と、
（ｃ−３）、前記クラスターの共通共起行列と、前記特有度から求めた各構成要素及び構成要素対の重みとを用いて、入力パターン集合に含まれる全パターンの着目クラスターに対するパターン共通度を求め、一定値以上の前記パターン共通度を有するパターンを着目クラスターに一時的に帰属させる手段。
前記（ｅ）所定の収束条件を満足するまで繰返す手段は、さらに、各クラスターに対してパターン共通度が一定値以下のパターンの数が０になるか、もしくはその数が一定値以下でありかつ前回の繰り返しの時と同じになるまで繰返す手段を含む請求項２２から２５に記載のプログラム。
前記（ｆ）各パターンの帰属するクラスターを決定する手段は、さらに、
冗長なクラスターの有無をチェックし、冗長なクラスターが存在すれば除去したうえで、各パターンの帰属するクラスターを決定し直す手段を含む請求項２２から２６に記載のプログラム。