JP2006031460A

JP2006031460A - データ検索方法及びコンピュータプログラム

Info

Publication number: JP2006031460A
Application number: JP2004210243A
Authority: JP
Inventors: Daichi Mochihashi; 大地持橋; Kenji Kita; 研二北; Genichiro Kikui; 玄一郎菊井
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-07-16
Filing date: 2004-07-16
Publication date: 2006-02-02

Abstract

【課題】素性間の相関を考慮して、何らかの最適化基準にしたがって対象の素性ベクトル間の距離を算出して類似データを検索する方法を提供する。
【解決手段】
データ検索方法は、素性ベクトルと関連付けられたデータ項目を含むコンピュータ読取可能なデータベース７４を準備するステップと、行列Ｍ^1/2による変換後の各クラスタのセントロイドと当該クラスタ内の全素性ベクトルとの間の距離の和を、クラスタの全てにわたって合計した値が最小となるような行列Ｍを算出するステップ７２と、入力素性ベクトル^→ｕに対し、集合中のベクトル^→ｖとの間で次式により定義される距離ｄ_M（^→ｕ，^→ｖ）を算出するステップ９２と、この距離が最小となるベクトル^→ｖを特定し、対応するデータを抽出するステップ９４とを含む。
【数１】

【選択図】図３

Description

この発明は、自然言語処理などにおいて、対象間の距離を算出することによりデータを検索する方法に関し、特に、何らかの素性に関して形成されるベクトル空間モデルにおいて、対象間の距離を最適に算出し、その結果を用いてデータを検索する方法に関する。

自然言語処理において、文、文書、又はパラグラフなどの言語表現間の意味的な距離を計算することは、基礎的でかつ重要な技術である。例えば、情報検索は、検索語または特定の文書と意味的な距離が近い文書を文書集合の中から検索するタスクである。ＴＥＸＴＴＩＬＩＮＧ（非特許文献１）またはその後継にあたるスペクトル法などのテキスト分割法（非特許文献２）においては、いずれもパラグラフ間のコサイン距離がその基礎として使われている。質問応答（ＱＡ）または言換え、若しくは用例ベース機械翻訳の場面でも、文間距離を計算することが基礎的な要素技術となっている。

現在、このような言語表現の比較には大きく分けて以下の二つの方法が存在している。
（ａ）構造的な方法、及び
（ｂ）非構造的な方法。

構造的な方法は、何らかの構文解釈または依存構造解析を用いて二つの言語表現間の厳密な比較を行なうものである。非構造的な方法は、言語表現を実数空間の何らかのベクトルとみなし、コーパス中の大量な言語表現に対し、高速な検索または比較を行なうものである。

近年、（ａ）の構造的な方法では、再帰的なカーネル関数を用いて、カーネル法の枠内では比較が見通しよく扱えるようになっている（非特許文献３、４を参照）。しかし本明細書では、（ｂ）の非構造的な方法に着目する。このように非構造的な方法に着目するのは以下の理由による。

（１）自然言語処理の多くのタスクでは、構造的比較に必要な構文解析、または依存構造解析にかかる計算量が非現実的に大きく、近似的ではあっても高速な比較方法が求められているということ。

（２）構造的な比較においても、再帰の葉においては、非構造的比較（イグザクトマッチまたはベクトルのマッチ）が行なわれるため、非構造的比較が構造的比較の基礎をなすと考えられること。

しかし、それらの場面で使われる非構造的比較は、はじめに述べたコサイン距離（ユークリッド距離）に依存することが多い。コサイン距離を用いる方法では、素性間の相関及び各素性の重み付けの点で問題を残している。以下、まず従来のユークリッド距離とその問題点とを述べる。

自然言語処理において言語表現の非構造的比較を行なう場合、言語表現はしばしば、素性ｉの生起回数ｘ_i（ｉ＝１、…、ｎ）を要素とするベクトル^→ｘ∈Ｒⁿとして表現される。なお、本明細書では、「^→」は、この記号に続く文字がベクトルであることを示すものとする。素性が単純に単語であるとき、このベクトルは単語の袋詰という意味で「Ｂａｇｏｆｗｏｒｄｓ」と呼ばれる（非特許文献５）。しかし一般には素性には単語以外の可能性も考えられるため、以下ではこのベクトルを単に「素性ベクトル」と呼ぶ。

こうしたベクトル^→ｕと^→ｖの間の距離として、従来用いられているのは以下の式で定義されるベクトル間の内積またはユークリッド距離である。

なお、式の右肩の「Ｔ」は転置を表す。しかし、この距離関数は二つの大きな問題を持っている。

（１）素性間の相関が考慮されていない。

（２）素性の最適な重み付けが決定できない。

言語データにおいては、コロケーションまたは構文などを通じて一般に素性間には強い相関が存在する。したがって上記した（１）の問題点は特に重大である。

カーネル法を用いた場合（例えば非特許文献７）、高次の多項式カーネルなど特定のカーネルを用いることで複数の素性間の組合せを考慮することができる。しかし、現在このカーネル法は自然言語処理においては分類問題として多く用いられており、連続的な順序付けを必要とする情報検索またはＱＡなどのための方法は今までのところ提案されていない。

２番目の問題も実際的には重要な問題である。各素性はしばしば単語またはその組合せである。したがって、意味のある比較のためには、内容語には強い重みを、機能語には弱い重みを、というような意味的な重み付けが重要となる。しかし、現在このために行なわれているｔｆ．ｉｄｆ（非特許文献８）などの重みは発見的なものであり、距離に関して何らかの最適化基準に依っているものではない。また、ｔｆ．ｉｄｆの中にもいくつかのバリエーションがあるが、その選択に関する一般的な基準は存在していない。

Ｍ．ハースト、「解説文テキストの複数段落分離」、計算機言語学会第３２回年次大会、ｐｐ．９−１６、１９９４年（M. Hearst: "Multi-paragraph segmentation of expository text", 32nd. Annual Meeting of the Association for Computational Linguistics, pp. 9-16 (1994).）Ｆ．Ｙ．Ｙ．チョイ、「ドメイン独立な線形テキストセグメンテーションの進歩」、ＮＡＡＣＬ−００予稿集、２０００年（F. Y. Y. Choi: "Advances in domain independent linear text segmentation", Proceedings of NAACL-00 (2000).）Ｍ．コリンズ他１名、「自然言語のための畳み込みカーネル」、ＮＩＰＳ２００１、２００１年（M. Collins and N. Duffy: "Convolution Kernels for Natural Language", NIPS 2001 (2001).）Ｊ．スズキ他３名、「階層的有向非周期グラフカーネル：構造化された自然言語データのための方法」、計算言語学学会第４１回年次大会（ＡＣＬ２００３）予稿集、ｐｐ．３２−３９、２００３年（J. Suzuki, T. Hirao, Y. Sasaki and E. Maeda: "Hierarchical Directed Acyclic Graph Kernel: Methods for Structured Natural Language Data", Proc. of the 41th Annual Meeting of Association for Computational Linguistics (ACL2003), pp. 32-39 (2003).）Ｃ．マニング他１名、「統計的自然言語処理の基礎」、ＭＩＴプレス、１９９９年（C. D. Manning and H. Schuetze: "Foundations of Statistical Natural Language Processing", MIT Press (1999).）Ｒ．Ａ．バエザ−イェイツ他１名、「現代情報検索」、ＡＣＭプレス、アディソン・ウェズレイ、１９９９年（R. A. Baeza-Yates and B. A. Ribeiro-Neto: "Modern Information Retrieval", ACM Press / Addison- Wesley (1999).）Ｋ．Ｒ．ミュラー他３名、「カーネルベースの学習アルゴリズム入門」、ＩＥＥＥニューラルネットワークス、１２，２、ｐｐ．１８１−２０１、２００１年（K. R. Mueller, S. Mika, G. Ratsch and K. Tsuda: "An introduction to kernel-based learning algorithms", IEEE Neural Networks, 12, 2, pp. 181-201 (2001).）Ｇ．ソールトン他１名、「自動インデキシングにおける項値の仕様について」、ジャーナル・オブ・ドキュメンテーション、２９、ｐｐ．３５１−３７２、１９７３年（G. Salton and C. S. Yang: "On the specification of term values in automatic indexing", Journal of Documentation, 29, pp. 351-372 (1973).）Ｅ．Ｐ．シン他３名、「距離計量学習、付加情報によるクラスタリングへの応用とともに」、ＮＩＰＳ２００２、２００２年（E. P. Xing, A. Y. Ng, M. I. Jordan and S. Russell: "Distance metric learning, with application to clustering with side-information", NIPS 2002 (2002).）Ｆ．Ｒ．バック他１名、「スペクトラルクラスタリング学習」、神経情報処理システムの進化１６、ＭＩＴプレス、２００４年（F. R. Bach and M. I. Jordan: "Learning Spectral Clustering", Advances in Neural Information Processing Systems 16, MIT Press (2004).）Ｍ．シュルツ他１名、「相対比較からの距離計量学習」、神経情報処理システムの進化１６、ＭＩＴプレス、２００４年（M. Schultz and T. Joachims: "Learning a Distance Metric from Relative Comparisons", Advances in Neural Information Processing Systems 16, MIT Press (2004).）Ｔ．Ｓ．ヤアッコラ他１名、「識別分類器における生成モデルの利用」、神経情報処理システムの進歩に関する１９９８年大会予稿集、ｐｐ．４８７−４９３、１９９９年（T. S. Jaakkola and D. Haussler: "Exploiting generative models in discriminative classifiers", Proc. of the 1998 conference on Advances in Neural Information Processing Systems, pp. 487-493 (1999).）Ｅ．Ｐ．ジアン他１名、「リーマンＳＶＤを用いる情報フィルタリング」、ＩＲＲＥＧＵＬＡＲ’９８予稿集、ｐｐ．３８６−３９５、１９９８年（E. P. Jiang and M. W. Berry: "Information Filtering Using the Riemannian SVD (R-SVD)", Proc. of IRREGULAR '98, pp. 386-395 (1998).）Ｂ．ド・ムーア、「構造化トータル最小二乗及びＬ２近似問題」、システム＆コントロール、線形代数及びその数値的線形代数への応用に関する特別号、１８８−１９８、ｐｐ．１６３−２０７、１９９３年（B. De Moor: "Structured total least squares and L2 approximation problems", Systems & Control, Special Issue of Linear Algebra and its Applications on Numerical Linear Algebra, 188-189, pp. 163-207 (1993).）Ｒ．Ｏ．ドゥーダ他２名、「パターン分類（第２版）」、ジョン・ワイリー・アンド・サンズ、２０００年（R. O. Duda, P. E. Hart and D. G. Stork: "Pattern Classification *Second Edition", John Wiley & Sons (2000).）Ｙ．イシカワ他２名、「マインドリーダ：複数用例を解するデータベース照会」、超大規模データベース第２４回国際会議予稿集、ｐｐ．２１８−２２７、１９９８年（Y. Ishikawa, R. Subramanya and C. Faloutsos: "MindReader: Querying Databases Through Multiple Examples", Proc. 24th Int. Conf. Very Large Data Bases, pp. 218-227 (1998).）Ｆ．スガヤ他３名、「セルにより形成されたレジストレーションによる大規模コーパス獲得法の提案」、ＬＲＥＣ２００２予稿集、Ｖｏｌ．Ｉ、ｐｐ．３２６−３２８、２００２年（F. Sugaya, T. Takezawa, G. Kikui and S. Yamamoto: "Proposal for a very-large-corpus acquisition method by cell-formed registration", Proc. LREC-2002, Vol. I, pp. 326-328 (2002).）Ｓ．ディアウェスタ他２名、「潜在意味分析によるインデキシング」、アメリカ情報科学学会論文誌、４１，６、ｐｐ．３９１−４０７、１９９０年（S. Deerwester, S. T. Dumais and G. W. Furnas: "Indexing by Latent Semantic Analysis", Journal of the American Society of Information Science, 41, 6, pp. 391-407 (1990).）Ｔ．ヨアヒム、「サポートベクターマシンによるテキスト分類：多数の関連素性による学習」、ＥＣＭＬ−９８予稿集、Ｎｏ．１３９８、ｐｐ．１３７−１４２、１９９８年（T. Joachims: "Text categorization with support vector machines: learning with many relevant features", Proceedings of ECML-98, No. 1398, pp. 137-142 (1998).）Ｋ．ラング、「ネットニュースのフィルタリング学習」、機械学習に関する第１２回国際会議予稿集、ｐｐ．３３１−３３９、１９９５年、http://www.ai.mit.edu/~jrennie/20Newsgroups/（K. Lang: "Newsweeder: Learning to filter netnews", Proceedings of the Twelfth International Conference on Machine Learning, pp. 331-339 (1995). http://www.ai.mit.edu/~jrennie/20Newsgroups/.）Ｉ．Ｓ．ディロン他１名、「クラスタリングを用いた大規模かつ疎なテキストデータの概念分解」、機械学習、４２、１／２、ｐｐ．１４３−１７５、２００１年（I. S. Dhillon and D. S. Modha: "Concept Decompositions for Large Sparse Text Data Using Clustering", Machine Learning, 42, 1/2, pp. 143-175 (2001).）Ｃ．Ｌ．ブレーク他１名、「ＵＣＩ機械学習リポジトリ」、１９９８年、http://www.ics.uci.edu/~mlearn/MLRepository.html（C. L. Blake and C. J. Merz: "UCI Repository of machine learning databases" (1998). http://www.ics.uci.edu/~mlearn/MLRepository.html.）Ｅ．Ｗ．ヴァイスシュタイン、「ムーア・ペンローズＭａｔｒｉｘＩｎｖｅｒｓｅ」、２００４年、http://mathworld.wolfram.com/Moore-PenroseMatrixInverse.html（E. W. Weisstein: "Moore-Penrose Matrix Inverse" (2004).http://mathworld.wolfram.com/Moore-PenroseMatrixInverse.html.）

上に述べたような素性の相関および素性の重み付けは、機械学習においてはデータ空間において適切な計量を求める問題と考えることができ、近年特に注目されている問題である。非特許文献９は、本願発明と同様な問題意識に基づいており、「似た」点のペアの集合を訓練データとして、上記したユークリッド距離と異なる計量距離の算出式を導いている。非特許文献１０および非特許文献１１は、それぞれ適切な計量を、スペクトル法によるクラスタリングとＳＶＭ（サポートベクターマシン）における比較データの設定の中で求めている。

また、確率的生成モデルを基にデータ間の内積を与えるカーネルであるＦｉｓｈｅｒＫｅｒｎｅｌ（非特許文献１２）も、原理的には同じ意味を持ったものである。ＦｉｓｈｅｒＫｅｒｎｅｌの定式化においては、データの分布から期待値として導かれるフィッシャー情報量行列の逆行列が、確率モデル空間における計量を与える。しかしこの計算は極めて大きな計算量を必要とするため、実際には単位行列で近似されることが多い。

情報検索の分野では、非特許文献１３及び非特許文献１４が、クエリに対する適合フィードバックの立場からＲ−ＳＶＤ（ＲｉｅｍａｎｎｉａｎＳＶＤ：リーマン特異値分解）を提案している。しかしこれは、大局的な検索距離空間の改良を目指したものではない。

したがって本発明の目的は、素性間の相関を考慮して、何らかの最適化基準にしたがって対象の素性ベクトル間の距離を算出し、その結果を用いてデータを精度良く検索する方法を提供することである。

本発明の第２の目的は、素性間の相関を考慮し、かつそれらの間の重み付けを決定することができ、かつ何らかの最適化基準にしたがって対象の素性ベクトル間の距離を算出した結果を用いてデータを精度良く検索する方法を提供することである。

本発明に係るデータ検索方法は、各々、所定個数のクラスタのいずれかに分類可能な複数の素性ベクトルと関連付けられた複数個のデータ項目を含むコンピュータ読取可能なデータベースを準備するステップと、複数の素性ベクトルの集合において、行列Ｍ^1/2により各素性ベクトルを変換した後の各クラスタのセントロイドと当該クラスタに含まれる全ての素性ベクトルとの間に定義される距離の和を、所定個数のクラスタの全てにわたって合計した値が、所定の条件を充足するような行列Ｍを算出するステップと、入力される素性ベクトル^→ｕに対し、集合中の任意のベクトル^→ｖとの間で以下の式により定義される距離ｄ_M（^→ｕ、^→ｖ）を算出するステップと、

集合中の素性ベクトル^→ｖの内で、入力される素性ベクトル^→ｕとの間で算出された距離ｄ_M（^→ｕ、^→ｖ）が所定の条件を充足する素性ベクトルを特定し、当該抽出された素性ベクトルと関連付けられたデータ項目をデータベース中で検索して抽出するステップとを含む。

上記したような行列Ｍを予め算出し、当該行列Ｍを使用して上記した式にしたがって、入力ベクトル^→ｕとデータベースの各データ項目と関連付けられた素性ベクトル^→ｖとの間の距離ｄ_Mが算出される。行列Ｍによって、素性ベクトルのクラスタを（高次元における）真球のクラスタに近い形状に近づけるような変換をした場合と同様にして入力ベクトルと各素性ベクトルとの間の距離が算出される。この行列Ｍは、素性に対して適切な重みを与え、かつ素性間の相関を適切に捉えると考えられる。したがって、入力される素性ベクトルに対し、素性間の相関を考慮して算出された距離が所定の条件を充足する素性ベクトルを特定し、その素性ベクトルに対応するデータ項目をデータベースから抽出できる。その結果、データ項目の素性間の相関を考慮して、入力された素性ベクトルに対応するデータと最も近いデータ項目を検索できる。

好ましくは、行列Ｍを算出するステップは、行列Ｍ^1/2により各素性ベクトルを変換した後の各クラスタのセントロイドと当該クラスタに含まれる全ての素性ベクトルとの間に定義される距離の和を、所定個数のクラスタの全てにわたって合計した値が、最小となるような行列Ｍを算出するステップを含む。

より好ましくは、最小となるような行列Ｍを算出するステップは、

ただしＸ_i（ｉ＝１〜Ｎ、Ｎはクラスタ数）はｉ番目のクラスタ、^→ｓ_jは素性ベクトル、^→ｃ_iはｉ番目のクラスタのセントロイドベクトル、により行列Ｍを算出するステップを含む。

さらに好ましくは、抽出するステップは、集合中の素性ベクトル^→ｖの内で、入力される素性ベクトル^→ｕとの間で算出された距離ｄ_M（^→ｕ、^→ｖ）が最小となる素性ベクトルを抽出するステップを含む。

この方法はさらに、コンピュータ読取可読なデータベースに含まれる各データ項目から、予め定める素性抽出方法にしたがって素性を抽出し、各データ項目の素性ベクトルを生成することにより、素性ベクトルの集合を作成するステップをさらに含んでもよい。

好ましくは、作成するステップは、データベースに含まれる各データ項目から、予め定める素性抽出方法にしたがって素性を抽出し、かつ各素性ベクトルのノルムが等しくなるように各データ項目の素性ベクトルを生成することにより、素性ベクトルの集合を作成するステップを含む。

より好ましくは、所定のデータ項目はコンピュータ読取可能な電子的文書であり、作成するステップは、電子的文書の各々における、予め定められた種類の単語の生起数を単語に付与された順番にしたがって配列することにより、電子的文書の素性ベクトルを作成するステップを含む。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかのデータ検索方法を実行するように当該コンピュータを動作させるものである。

従来の技術の説明で述べたような距離関数に関する問題を解決するために、データのクラスタ構造に注目する必要がある。ここでいうクラスタ構造とは、個々のデータを、着目する観点にしたがって分類したものである。実際には、同一サイトの文書、同義文の集合、何らかの基準でラベルが割り振られた集合などがクラスタに該当する。訓練データは一般に完全に独立ではなく、データは言語の再帰的構造にしたがって構造化されていることも多い。したがって、このような構造は多くの言語データに関して見られると考えられる。

各クラスタ内のデータを互いに類似したものとみなせば、理想的なベクトル空間において、各データベクトルは集中して分布しているはずである。この性質に基づき、訓練データのクラスタ構造を用いて、最小二乗の意味で最適な距離行列を導出できる。

＜データ分布と計量＞
ベクトル^→ｕ、^→ｖの間の二乗距離として、次のように計量行列Ｍ＝［ｍ_kl］を用いた距離ｄ_Ｍとして求めることを考える。

この式で定義される距離ｄ_Mは一般に画像などの分類問題において用いられるマハラノビス距離である。Ｍ＝Ｉ（単位行列）の特別な場合には式（１）と等しくなる。式（４）から、計量行列Ｍによって任意に各素性の重みおよび素性間の相関が表現できることが分かる。

行列Ｍは対称行列である。このとき、式（３）は式（５）のように書き換えることができる。

この距離は、ベクトル^→ｕ−^→ｖをＭ^1/2によって新しい空間に写像し、その間のユークリッド距離を考えることとも等価である（非特許文献９を参照されたい）。なお、このマハラノビス距離は一般的なものであり、パターン認識における用法には限定されない。パターン認識においては一般に、複数の固定されたクラスタが正規分布を持つと仮定し、クラスタごとにその共分散行列の逆行列をＭにとることで各クラスタへの距離を定義し、分類を行なう（非特許文献１５参照）。しかし、本実施の形態で求めるものは、事前に決まったクラスタへの識別問題ではなく、多数のクラスタより導かれ、一般的に用いることのできる大域的な距離計量だからである。

したがって、ここでは訓練データ全体にわたる最適化が必要となる。一般的に、クラスタ内のデータは理想的な空間内では集中して分布しているべきと考えられるが、実際にはデータおよびその同義クラスタはユークリッド空間において図１の同義クラスタ２０，２２，２４のように楕円対型に分布している。すなわち、ある次元には高い分散３０，３２を、別の次元には低い分散３４を、それぞれ有している。またクラスタ２０，２２，２４の向きは一般にユークリッド距離における基底ベクトルには沿っていない。言語表現の素性ベクトルは非常に高次元であるため、この傾向は特に顕著であると考えられる。

このとき、図２のようにＭ^1/2で写像された空間において、高い分散を抑え、低い分散を拡大することで、こうしたクラスタの歪みを最小化し、同義クラスタ２０，２２，２４を（高次元における）真球のクラスタ５０，５２，５４に近づけるような計量行列Ｍを見出す。もしそのような計量行列Ｍを見出すことができれば、その行列Ｍは素性に対して適切な重みを与え、かつ素性間の相関を適切に捉えるはずである。以下、この意味で最適な行列Ｍについて考える。

＜最適な計量行列の導出＞
各データ（例えば文または文書）^→ｓをＲⁿ上のベクトルとし、その全体がＮ個のクラスタＸ₁、…、Ｘ_Nに分けられていると仮定する。すなわち、ベクトルの次元数はｎ、クラスタ数はＮである。

各クラスタＸ_i（Ｘ₁、…、Ｘ_N）に対して、その重心（セントロイド）を^→ｃ_iとおく。^→ｃ_iは次の式で表される。（｜Ｘ｜はクラスタＸ中の要素数を表す。）

このとき、既に述べたとおり、各クラスタ内でのデータ間の距離の総計を最小にするような計量Ｍを求める。すなわち、各クラスタＸ_iについて、含まれるデータ^→ｓ∈Ｘ_iとセントロイド^→ｃ_iとの距離ｄ_M（^→ｓ,^→ｃ_i）の総和を全クラスタにわたり最小にするようなＭを求めればよい。これは、以下の二次最小化問題として定式化できる。

規格化条件：｜Ｍ｜＝１ (7)
規格化条件は、Ｍ＝０となる縮退した解を持たないための条件である（｜・｜は行列式を表す。）。式（７）の右辺の「１」は任意の定数ｃと替えることもできる。この場合には、ｃ²Ｍが新しい解となる。

この最適化問題は、データベースの分野で提案されたＭｉｎｄＲｅａｄｅｒ（非特許文献１６を参照）の考えを複数クラスタに拡張したものである。この問題は以下の定理で表されるように一意の解を持つ。

［定理］
条件（７）の下で式（６）の最小化問題を満たす行列Ｍは

この定理の証明については発明の詳細な説明の末尾に付録１として添付してある。

式（８）の｜Ａ｜^1/nは定数である。これは、上記最適化問題の解は、各クラス他の分散―共分散行列の総和（平均）の逆行列になっていることを意味している。これは直感的にも妥当と思われる結果である。式（９）は全クラスタにわたる総和となっている。この式から、この計量行列Ｍは大域的に分散の大きい軸を縮小し、分散の小さい軸を拡大することでデータの分散を安定化する働きをもっていることが分かる。

ただし、一般に言語データにおいて素性は高次元かつ非常に疎であり、分散−共分散行列の和Ａは正則でないことが多い。したがって、非特許文献１６と同様、本実施の形態ではＡ^-1としてＭｏｏｒｅ−Ｐｅｎｒｏｓｅの逆行列Ａ^＋を用いる。Ｍｏｏｒｅ−Ｐｅｎｒｏｓｅの逆行列Ａ＋の詳細については、発明の詳細な説明の末尾に付録２として添付してある。

＜クラスタ重みを用いた一般化＞
上の説明では各クラスタを同等に扱っている。しかし一般には、各クラスタに含まれるデータ数に応じてクラスタには強弱がある。また階層的クラスタリングにおいては、上位クラスタほどその意味は薄まると考えられる。この情報は、正規化された各クラスタの重みξ₁，…，ξ_N（Σ_iξ_i＝１）を用いて、最小化する式（６）を以下のように一般化することで実現できる。

これにより、式（９）を同様に重み付けた解が得られる。ただし、後に述べる実験では、各クラスタに含まれるデータ数がほぼ等しいため、この一般化は用いていない。

＜実施の形態に係る装置＞
−構成−
図３は、本実施の形態に係る類似文書検索システムのブロック図である。図３を参照して、本実施の形態に係る類似文書検索システム６０は、大きく分けて、上記した方法（式（８）および式（９））にしたがって文書データベース（ＤＢ）７４の内の訓練用データから計量行列Ｍを導出するための計量行列導出部７２と、入力テキスト７０を受け、計量行列導出部７２によって導出された計量行列を用いて入力テキスト７０と文書ＤＢ７４内の各文書との距離を算出し、最も距離の小さなものから順番に選択して入力テキスト７０に類似する出力テキスト７８として出力するための類似テキスト検索部７６とを含む。

類似テキスト検索部７６は、入力テキスト７０から所定の方法にしたがって素性ベクトルを作成するための素性ベクトル作成部９０と、素性ベクトル作成部９０により作成された素性ベクトルと、文書ＤＢ７４に格納された各文書の素性ベクトルとの間で、計量行列導出部７２により導出された計量行列Ｍを用い、式（３）および式（４）にしたがって距離ｄ_Mを算出するための距離算出部９２と、距離算出部９２により算出された距離の小さなものから順番に文書ＤＢ７４の中の文書を選択し出力テキスト７８として出力するための選択部９４とを含む。

文書ＤＢ７４に含まれる各文書に対しては、予め素性ベクトル作成部９０で行なうのと同じ方法にしたがって素性ベクトルが作成され、保持されている。

計量行列導出部７２は、予め文書ＤＢ７４の文書が含むクラスタに関する情報を用いて、式（８）および式（９）にしたがって計量行列Ｍを算出する機能を持つ。クラスタに関する情報は既知とする。

−動作−
類似文書検索システム６０の動作は大きく二つのフェーズに分けられる。第１は、文書ＤＢ７４の内の訓練用データセットに含まれる文書から、計量行列導出部７２によって計量行列Ｍを導出するフェーズである。このフェーズにおいて計量行列Ｍを導出することにより、同じ文書ＤＢ７４を用いる限り、計量行列導出部７２による計量行列Ｍを再導出する必要はない。

計量行列Ｍが導出された後は、類似テキスト検索部７６による類似テキストの検索処理が可能になる。入力テキスト７０が与えられると、類似テキスト検索部７６の素性ベクトル作成部９０は、入力テキスト７０から素性ベクトルを作成し距離算出部９２に与える。距離算出部９２は、この素性ベクトルと、計量行列導出部７２に含まれる各文書の素性ベクトルとの間で、式（３）および式（４）に示される計算方法にしたがい、計量行列導出部７２によって導出された計量行列Ｍを用いて距離ｄ_M（^→a，^→ｓ_i）（^→aは入力テキスト７０の素性ベクトルを、^→ｓ_i（ｉ＝１〜ｎ）は文書ＤＢ７４の各文書の素性ベクトルを、それぞれ表わす。）を算出する。距離算出部９２は、算出された距離ｄ_Mを選択部９４に与える。

選択部９４は、距離算出部９２から与えられたｎ個の距離の内、値の最も小さなものから所定個数を選び、それらの距離に対応する文書を文書ＤＢ７４から抽出し、距離を示す値と共に出力テキスト７８として出力する。

この実施の形態に係る類似文書検索システム６０によれば、距離算出部９２における距離計算において、単なるユークリッド距離ではなく計量行列導出部７２によって導出された計量行列Ｍを用い、素性間の相関を考慮して算出した距離を用いる。したがって文書ＤＢ７４中の文書に対応する素性ベクトルのクラスタの、ベクトル空間内における各軸に沿った分散の歪みを補正した形で、文書の素性ベクトルの間の距離が計算できる。その結果、入力テキスト７０と類似した文書を文書ＤＢ７４から高い精度で抽出することができる。

なお、上の実施の形態では、文書ＤＢ７４内の各クラスタに含まれる文書数がほぼ等しいことが分かっている。したがって、計量行列導出部７２により計量行列Ｍを導出する際には、式（８）および式（９）を用いている。しかし、各クラスタに含まれる文書数にかなり相違がある場合には、それらの数によって各クラスタの正規化された重みξ_j（ｊ＝１〜クラスタ数Ｎ）を算出し式（１０）にしたがって計量行列Ｍを導出すればよい。

＜実験＞
本実施の形態に係る文書検索システム６０の効果を検証するため、同義文検索タスクを行なった。また、同様の構成を持つシステムにより、機械学習用ベクトルデータのＫ平均クラスタリングを用いた実験を行なった。類似文書検索システム６０のような手法は、自然言語処理にのみ適用可能なわけではなく、汎用性を持つ手法である。したがって、後者のようなデータにもこの手法を適用できる。

実験では、訓練データを用いて計量行列を計算し、テストデータにおける距離計算に適用することでそのクラスタ構造の復元精度を評価する。

−同義文検索−
図３に示すシステム６０において、ある文に類似した文をコーパスまたは用例文集合から検索する問題は、自然言語処理において基礎的な技術である。この技術は、例えば用例ベース機械翻訳、ＱＡにおける質問文からの回答候補の検索などに適用できる。

このような同義文検索実験のため、図３に示す文書ＤＢ７４として出願人が開発した旅行会話ドメインのパラフレーズコーパス（非特許文献１７を参照されたい。）を用いた。このコーパスは、３３，７２３，１６４個の日本語文を含む。これら日本語文は各々、１０，６１０個の英語の文の一つと翻訳関係で対応している。この対応により、ある英文の翻訳である日本語文集合を同義文クラスタとみなすことができる。この中から、本実験では２００個の訓練クラスタと５０個のテストクラスタとからなるデータセットを作成した。一つのクラスタに属する文の数は最大１００とした。これを超えるときはクラスタ内よりランダムに１００文を抽出した。訓練クラスタより計量行列を計算した後、テストデータの中で全ての文を対象として同義文検索を行ない、検索結果中の本来の同クラスタ文の順位分布よりクラスタの復元精度を測定した。

このようなデータセットをさらに１０個作成し、その平均で結果を評価した。

−評価尺度−
クラスタ復元精度の評価尺度としては、情報検索の精度評価に通常用いられる再現率−適合率、その１１点平均精度、及びＲ−精度（非特許文献６を参照されたい。）を用いた。Ｒはここでは、検索文の属するクラスタの持つ総文数にとる。これにより、Ｒ−精度は検索結果の上位Ｒ文が全て同クラスタの文であるとき１、全く含まれないとき０となり、クラスタの復元精度を表現する。上位Ｒ文以下の分布は再現率−適合率曲線および１１点平均精度によって示される。

−素性と次元圧縮−
文の素性としては、ユニグラムおよび機能語のバイグラムを用いた。機能語バイグラムが含まれるのは、対象コーパスが会話文ドメインであるために、機能語の連接が言換えにおいて大きな役割を果たすと考えられるからである。

旅行会話コーパスのため、語彙数は比較的制限されているが、素性の総数はデータ量に応じて数千から数万を超える。そのため、直接に計量行列Ｍを求めることは現実的ではない。また素性が疎であるため、求めた計量も不安定になりやすい。このため、予め素性を特異値分解によって次元削減し、各圧縮率まで圧縮した。これは本質的にＬＳＩ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ：非特許文献１８を参照されたい。）と同じ方法であり、各ベクトル間の内積を最小二乗の意味で最適に保存する。

−結果−
実験による同義文検索結果の例を図４にユークリッド距離を用いたものと対比して示す。計量行列を用いた検索では、従来のユークリッド距離を用いたものと比較してノイズが少なく、高精度な検索を実現できていることが分かる。

図５は、次元圧縮をし過ぎた場合（圧縮率＝０．５％）で、次元間に混入が生じている例である。しかしこの場合でも、ユークリッド距離を用いたものがほとんど無意味な結果を与えているのに比較し、計量行列を用いた検索では上位に適切な結果が含まれており、安定した検索性能が得られることが分かる。

図６に、本実施の形態に係る計量行列を用いた実験において得られた各圧縮率における再現率および適合率の関係を示す。図７に、ユークリッド距離を用いた実験において得られた各圧縮率における再現率および適合率の関係を示す。また図８に１１点平均精度を示す。これらの結果によれば、本実施の形態に係る装置により、従来用いられていたような単純な内積およびｉｄｆで重み付けした内積に比べ、常に高い検索性能が得られることが分かる。

−文書検索−
文書をクラスタに分類するタスクとして文書分類がある。この分野では、ナイーブベイズ法およびＳＶＭなど様々な識別器を用いた研究が盛んに行なわれている（非特許文献１９参照）。しかしこれらはみな文書を事前に決められた少数のカテゴリに分類するものであり、新しいカテゴリ（クラスタ）に対しては識別器を構成することができない。

例えばＷｅｂサイトをクラスタとみなすと、文書に対して可能なクラスタは無数に存在し、かつ常に増え続ける性質がある。したがってこれらに対して一つひとつ識別器を構成するのは現実的でない。このような環境における検索またはクラスタリングには、大域的な距離尺度が必要であり、本実施の形態で示したような計量行列を用いた距離計算が有効だと考えられる。

−２０−Ｎｅｗｓｇｒｏｕｐデータセット−
本実施の形態に係る計量行列を用いた距離計算を、上記したクラスタリングに適用した場合の有効性を測定するために、２０−Ｎｅｗｓｇｒｏｕｐｄａｔａｓｅｔ（非特許文献２０）をデータセットとして用い、以下のような実験を行なった。このデータセットは、標準的なテキスト分類のデータセットの中では、２０と比較的多いクラスタ数を有する。

２０のクラスタ（ニュースグループ）の中から１６クラスタを訓練データ、４クラスタをテストデータとし、５分割交差検定を行なった。１クラスタあたりの文書数は最大１００文書とし、これを超える場合はランダムに１００記事を抽出した。

本実施の形態で使用した距離計算手法では、データ空間におけるベクトルの分布から最適な計量行列を求める。一方、言語データの場合、文書の長さが異なると各文書の素性ベクトルのノルムが一般的には異なる。通常、文書の長さが大きくなるほど素性ベクトルの成分の値も大きくなり、その結果素性ベクトルのノルムが非常に大きくなる。そのように大きくノルムの異なる素性ベクトルから計量行列を求めようとしても適切なものは得られない。

そこで、本実験では、各文書は中央値（１３０語）になるまでサブサンプリングまたはオーバーサンプリングを行なって素性ベクトルのノルムをそろえるようにした。またベースラインとして、ｔｆ．ｉｄｆによる単語重み付けを適用した。

−結果−
表１にこの実験によって得られたＲ−精度および１１点平均精度を示す。

テストセットは４クラスタからなる。したがって精度のベースラインは０．２５である。ｔｆ．ｉｄｆおよびユークリッド距離を採用した場合と比較して、上記した実施の形態で採用した計量行列を用いた場合には、両方の基準で常によい精度を見せることが分かる（ｐ値の平均＝０．０２４３）。

ただし、精度の改善は前述した同義文検索タスクの場合と比較して少ない。この理由の一つは素性圧縮にあると考えられる。本実施の形態では、データ行列Ｘを最初にＸ＝ＵＳＶ^-1と特異値分解した。その後、ｋ個の最大固有値に対応するＶの部分行列Ｖ_kを用いてＸ_k＝Ｖ_kＸとし、ｋ次元に素性を圧縮した。しかし式（５）から、これは、Ｍ^1/2Ｘ_k＝Ｍ^1/2Ｖ_kＸの各列間におけるユークリッド距離とみなすことができる。故に、クラスタ化が弱い場合、前処理においてＶ_kがＭの役割を吸収してしまう可能性がある。したがって、最適な性能のためには、高次元データに対しては計量の導出と次元圧縮を同時に考える必要のあることが分かる。また、いわゆる次元の呪いの存在しないカーネル法を用い、そのヒルベルト空間において同じ基準を考察することも考えられる。

＜一般ベクトルデータおよびクラスタリング＞
計量行列を用いた距離は、情報検索だけでなく、非言語データの検索またはクラスタリングにおいても適用できる。図９〜図１２に、ＵＣＩ機械学習データセット（非特許文献２２参照）におけるＫ平均クラスタリングに上記した計量行列による距離計算を適用した結果を示す。これらの図において、右側の棒が計量行列による距離、左側の棒がユークリッド距離である。Ｋはデータ中のクラスタ数にとり、ランダムに初期化して１００回行ない平均をとっている。クラスタリング精度はランダムに選んだ２つのデータが正しいクラスタリング（同クラスタ／別クラスタ）を持つ確率として非特許文献９と同様に計算した。

２０−Ｎｅｗｓｇｒｏｕｐデータセットについても同様のクラスタリング実験を行ない、表１と同程度の精度の上昇が得られた。

以上のように本実施の形態によれば、訓練データのクラスタ構造に基づき、クラスタ歪みを最小化する二次最適化問題の解として計量行列を求める。この計量行列を用いてデータの素性ベクトル間の距離を算出することにより、ユークリッド距離を用いる場合と比較して安定した検索性能を実現することができる。また、本実施の形態で採用したのと同様の計量行列を用いた距離計算により、クラスタリングを高い精度で行なうことができる。また上記した距離計算の手法における主たる演算は線形演算であり、したがって演算を高速に行なうことができる。また、最適な計量がデータ全てを用いて一度で求められるという効果がある。

なお、上記実施の形態では文書の素性ベクトルを用いて入力文書に類似した文書を文書ＤＢから検索している。しかし本発明はそのような実施の形態のみに限定されるわけではなく、文書以外の情報の検索に適用することもできる。例えば画像データの検索では、画像全体から所定階調数により表した色相、彩度、輝度を抽出し、それらを所定次元のヒストグラムと見てベクトル化することにより素性ベクトルを作成できる。また、画像全体を所定個数の部分画像に均等に分割し、各部分画像に対して色相、彩度、輝度などの特徴量を求め、各部分画像から得られる特徴量から素性ベクトルを作成できる。

これ以外にも、例えば顔画像のようなものであれば、画像処理によって特徴点の座標等を求めた後、それら座標等を要素として素性ベクトルを作成したりすることができる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

＜付録１＞
１．計量行列の導出
実施の形態中で述べた定理を証明する。すなわち、最小化問題

を条件
｜Ｍ｜＝１ (Ａ−２）
の下で満たす計量行列Ｍを求める。

式（Ａ−１）を展開すると

である。ここで、条件（Ａ−２）より、全てのｋについて

すなわち

となる。ここで｜Ｍ_kl｜はＭの第（k,l)-小行列式である。したがって、式（Ａ−３）を式（Ａ−４）の条件の下で最小化すればよい。

ラグランジュ乗数λを導入することにより、

と定義すると、Ｌをｍ_klで微分して０とおくことにより、次の式が得られる。

ここでＭ^-1＝［ｍ_kl ^-1］とおくと、

したがって、

と定義すると（Ａ−６）により

ここでＡは（Ａ−７），（Ａ−８）で定義される行列である。（証明終）
＜付録２＞Ｍｏｏｒｅ−Ｐｅｎｒｏｓｅの擬逆行列
行列ＡのＭｏｏｒｅ−Ｐｅｎｒｏｓｅの擬逆行列Ａ^＋は、行列Ａが非正則な場合でも、ｘ＝Ａ^＋ｙがｙ＝Ａｘの最小二乗かつ最短の解となるという意味で通常の逆行列の性質をもつ一意な行列である（非特許文献２３を参照されたい。）。

擬逆行列Ａ^＋は市販のデータ解析パッケージ（例えばＭＡＴＬＡＢ（登録商標））の関数ｐｉｎｖ等を用いて簡単に求めることができる。または、非特許文献１６の記載にしたがい、正規直交行列ＵおよびΣ＝ｄｉａｇ（σ₁，…，σ_r，０，…，０）（ｒ＝ｒａｎｋ（Ａ））を用いて、行列Ａを
Ａ＝ＵΣＵ^T （Ａ−１１）
と対角化すれば、擬逆行列Ａ^＋は
Ａ⁺＝ＵΣ⁺Ｕ^T （Ａ−１２）
と求められる。ここでΣ⁺＝ｄｉａｇ（１／σ₁，…，１／σ_r，０，…，０）である。したがって、
Ｍ＝（σ₁σ₂…σ_r）^1/rＡ^＋
を得る。

ユークリッド空間において、素性ベクトルのクラスタに歪が存在する場合のクラスタ形状を模式的に示す図である。クラスタの歪を最小化するように素性ベクトルを写像したときの、写像後のクラスタの形状を模式的に示す図である。本発明の一実施の形態に係る類似文書検索システムのブロック図である。本発明の一実施の形態により行なった実験による同義文検索結果の例を、ユークリッド距離を用いたものと対比して表形式で示す図である。本発明の一実施の形態において、図４と比較して次元圧縮を高くした実験による同義文検索結果の例を、ユークリッド距離を用いたものと対比して表形式で示す図である。本発明の一実施の形態に係る計量行列を用いた実験において得られた各圧縮率における再現率および適合率の関係を示す。ユークリッド距離を用いた実験において得られた各圧縮率における再現率および適合率の関係を示す。本発明の一実施の形態を用いて行なった実験での各圧縮率における１１点平均精度を示す。ＵＣＩ機械学習データセット（非特許文献２２参照）の「ｗｉｎｅ」データセットにおけるＫ平均クラスタリングに本発明の一実施の形態に係る計量行列による距離計算を適用した結果を示すグラフである。ＵＣＩ機械学習データセットの内「ｐｒｏｔｅｉｎ」データセットにおけるＫ平均クラスタリングに本発明の一実施の形態に係る計量行列による距離計算を適用した結果を示すグラフである。ＵＣＩ機械学習データセットの内「ｉｒｉｓ」データセットにおけるＫ平均クラスタリングに本発明の一実施の形態に係る計量行列による距離計算を適用した結果を示すグラフである。ＵＣＩ機械学習データセットの内「ｓｏｙｂｅａｎ」データセットにおけるＫ平均クラスタリングに本発明の一実施の形態に係る計量行列による距離計算を適用した結果を示すグラフである。

符号の説明

６０類似文書検索システム、７０入力テキスト、７２計量行列導出部、７４文書ＤＢ、７６類似テキスト検索部、７８出力テキスト、９０素性ベクトル作成部、９２距離算出部、９４選択部

Claims

各々、所定個数のクラスタのいずれかに分類可能な複数の素性ベクトルと関連付けられた複数個のデータ項目を含むコンピュータ読取可能なデータベースを準備するステップと、
前記複数の素性ベクトルの集合において、行列Ｍ^1/2により各素性ベクトルを変換した後の各クラスタのセントロイドと当該クラスタに含まれる全ての素性ベクトルとの間に定義される距離の和を、前記所定個数のクラスタの全てにわたって合計した値が、所定の条件を充足するような行列Ｍを算出するステップと、
入力される素性ベクトル^→ｕに対し、前記集合中の任意のベクトル^→ｖとの間で以下の式により定義される距離ｄ_M（^→ｕ、^→ｖ）を算出するステップと、

前記集合中の素性ベクトル^→ｖの内で、前記入力される素性ベクトル^→ｕとの間で算出された前記距離ｄ_M（^→ｕ、^→ｖ）が所定の条件を充足する素性ベクトルを特定し、当該抽出された素性ベクトルと関連付けられたデータ項目を前記データベース中で検索して抽出するステップとを含む、データ検索方法。
前記行列Ｍを算出するステップは、行列Ｍ^1/2により各素性ベクトルを変換した後の各クラスタのセントロイドと当該クラスタに含まれる全ての素性ベクトルとの間に定義される距離の和を、前記所定個数のクラスタの全てにわたって合計した値が、最小となるような行列Ｍを算出するステップを含む、請求項１に記載のデータ検索方法。
前記最小となるような行列Ｍを算出するステップは、

ただしＸ_i（ｉ＝１〜Ｎ、Ｎはクラスタ数）はｉ番目のクラスタ、^→ｓ_jは素性ベクトル、^→ｃ_iはｉ番目のクラスタのセントロイドベクトル、
により行列Ｍを算出するステップを含む、請求項２に記載のデータ検索方法。
前記抽出するステップは、前記集合中の素性ベクトル^→ｖの内で、前記入力される素性ベクトル^→ｕとの間で算出された前記距離ｄ_M（^→ｕ、^→ｖ）が最小となる素性ベクトルを抽出するステップを含む、請求項１〜請求項３のいずれかに記載のデータ検索方法。
前記コンピュータ読取可読なデータベースに含まれる各データ項目から、予め定める素性抽出方法にしたがって素性を抽出し、各データ項目の素性ベクトルを生成することにより、前記素性ベクトルの集合を作成するステップをさらに含む、請求項１〜請求項４のいずれかに記載のデータ検索方法。
前記作成するステップは、前記データベースに含まれる各データ項目から、予め定める素性抽出方法にしたがって素性を抽出し、かつ各素性ベクトルのノルムが等しくなるように各データ項目の素性ベクトルを生成することにより、前記素性ベクトルの集合を作成するステップを含む、請求項５に記載のデータ検索方法。
コンピュータにより実行されると、請求項１〜請求項６のいずれかに記載のデータ検索方法を実行するように当該コンピュータを動作させる、コンピュータプログラム。