JP2006031460A - データ検索方法及びコンピュータプログラム - Google Patents

データ検索方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2006031460A
JP2006031460A JP2004210243A JP2004210243A JP2006031460A JP 2006031460 A JP2006031460 A JP 2006031460A JP 2004210243 A JP2004210243 A JP 2004210243A JP 2004210243 A JP2004210243 A JP 2004210243A JP 2006031460 A JP2006031460 A JP 2006031460A
Authority
JP
Japan
Prior art keywords
matrix
data
cluster
distance
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004210243A
Other languages
English (en)
Inventor
Daichi Mochihashi
大地 持橋
Kenji Kita
研二 北
Genichiro Kikui
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004210243A priority Critical patent/JP2006031460A/ja
Publication of JP2006031460A publication Critical patent/JP2006031460A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】素性間の相関を考慮して、何らかの最適化基準にしたがって対象の素性ベクトル間の距離を算出して類似データを検索する方法を提供する。
【解決手段】
データ検索方法は、素性ベクトルと関連付けられたデータ項目を含むコンピュータ読取可能なデータベース74を準備するステップと、行列M1/2による変換後の各クラスタのセントロイドと当該クラスタ内の全素性ベクトルとの間の距離の和を、クラスタの全てにわたって合計した値が最小となるような行列Mを算出するステップ72と、入力素性ベクトルuに対し、集合中のベクトルvとの間で次式により定義される距離dMu,v)を算出するステップ92と、この距離が最小となるベクトルvを特定し、対応するデータを抽出するステップ94とを含む。
【数1】
Figure 2006031460

【選択図】 図3

Description

この発明は、自然言語処理などにおいて、対象間の距離を算出することによりデータを検索する方法に関し、特に、何らかの素性に関して形成されるベクトル空間モデルにおいて、対象間の距離を最適に算出し、その結果を用いてデータを検索する方法に関する。
自然言語処理において、文、文書、又はパラグラフなどの言語表現間の意味的な距離を計算することは、基礎的でかつ重要な技術である。例えば、情報検索は、検索語または特定の文書と意味的な距離が近い文書を文書集合の中から検索するタスクである。TEXTTILING(非特許文献1)またはその後継にあたるスペクトル法などのテキスト分割法(非特許文献2)においては、いずれもパラグラフ間のコサイン距離がその基礎として使われている。質問応答(QA)または言換え、若しくは用例ベース機械翻訳の場面でも、文間距離を計算することが基礎的な要素技術となっている。
現在、このような言語表現の比較には大きく分けて以下の二つの方法が存在している。
(a)構造的な方法、及び
(b)非構造的な方法。
構造的な方法は、何らかの構文解釈または依存構造解析を用いて二つの言語表現間の厳密な比較を行なうものである。非構造的な方法は、言語表現を実数空間の何らかのベクトルとみなし、コーパス中の大量な言語表現に対し、高速な検索または比較を行なうものである。
近年、(a)の構造的な方法では、再帰的なカーネル関数を用いて、カーネル法の枠内では比較が見通しよく扱えるようになっている(非特許文献3、4を参照)。しかし本明細書では、(b)の非構造的な方法に着目する。このように非構造的な方法に着目するのは以下の理由による。
(1)自然言語処理の多くのタスクでは、構造的比較に必要な構文解析、または依存構造解析にかかる計算量が非現実的に大きく、近似的ではあっても高速な比較方法が求められているということ。
(2)構造的な比較においても、再帰の葉においては、非構造的比較(イグザクトマッチまたはベクトルのマッチ)が行なわれるため、非構造的比較が構造的比較の基礎をなすと考えられること。
しかし、それらの場面で使われる非構造的比較は、はじめに述べたコサイン距離(ユークリッド距離)に依存することが多い。コサイン距離を用いる方法では、素性間の相関及び各素性の重み付けの点で問題を残している。以下、まず従来のユークリッド距離とその問題点とを述べる。
自然言語処理において言語表現の非構造的比較を行なう場合、言語表現はしばしば、素性iの生起回数xi(i=1、…、n)を要素とするベクトルx∈Rnとして表現される。なお、本明細書では、「」は、この記号に続く文字がベクトルであることを示すものとする。素性が単純に単語であるとき、このベクトルは単語の袋詰という意味で「Bag of words」と呼ばれる(非特許文献5)。しかし一般には素性には単語以外の可能性も考えられるため、以下ではこのベクトルを単に「素性ベクトル」と呼ぶ。
こうしたベクトルuとvの間の距離として、従来用いられているのは以下の式で定義されるベクトル間の内積またはユークリッド距離である。
Figure 2006031460
なお、式の右肩の「T」は転置を表す。しかし、この距離関数は二つの大きな問題を持っている。
(1)素性間の相関が考慮されていない。
(2)素性の最適な重み付けが決定できない。
言語データにおいては、コロケーションまたは構文などを通じて一般に素性間には強い相関が存在する。したがって上記した(1)の問題点は特に重大である。
カーネル法を用いた場合(例えば非特許文献7)、高次の多項式カーネルなど特定のカーネルを用いることで複数の素性間の組合せを考慮することができる。しかし、現在このカーネル法は自然言語処理においては分類問題として多く用いられており、連続的な順序付けを必要とする情報検索またはQAなどのための方法は今までのところ提案されていない。
2番目の問題も実際的には重要な問題である。各素性はしばしば単語またはその組合せである。したがって、意味のある比較のためには、内容語には強い重みを、機能語には弱い重みを、というような意味的な重み付けが重要となる。しかし、現在このために行なわれているtf.idf(非特許文献8)などの重みは発見的なものであり、距離に関して何らかの最適化基準に依っているものではない。また、tf.idfの中にもいくつかのバリエーションがあるが、その選択に関する一般的な基準は存在していない。
M.ハースト、「解説文テキストの複数段落分離」、計算機言語学会第32回年次大会、pp.9−16、1994年(M. Hearst: "Multi-paragraph segmentation of expository text", 32nd. Annual Meeting of the Association for Computational Linguistics, pp. 9-16 (1994).) F.Y.Y.チョイ、「ドメイン独立な線形テキストセグメンテーションの進歩」、NAACL−00予稿集、2000年(F. Y. Y. Choi: "Advances in domain independent linear text segmentation", Proceedings of NAACL-00 (2000).) M.コリンズ他1名、「自然言語のための畳み込みカーネル」、NIPS2001、2001年(M. Collins and N. Duffy: "Convolution Kernels for Natural Language", NIPS 2001 (2001).) J.スズキ他3名、「階層的有向非周期グラフカーネル:構造化された自然言語データのための方法」、計算言語学学会第41回年次大会(ACL2003)予稿集、pp.32−39、2003年(J. Suzuki, T. Hirao, Y. Sasaki and E. Maeda: "Hierarchical Directed Acyclic Graph Kernel: Methods for Structured Natural Language Data", Proc. of the 41th Annual Meeting of Association for Computational Linguistics (ACL2003), pp. 32-39 (2003).) C.マニング他1名、「統計的自然言語処理の基礎」、MITプレス、1999年(C. D. Manning and H. Schuetze: "Foundations of Statistical Natural Language Processing", MIT Press (1999).) R.A.バエザ−イェイツ他1名、「現代情報検索」、ACMプレス、アディソン・ウェズレイ、1999年(R. A. Baeza-Yates and B. A. Ribeiro-Neto: "Modern Information Retrieval", ACM Press / Addison- Wesley (1999).) K.R.ミュラー他3名、「カーネルベースの学習アルゴリズム入門」、IEEEニューラルネットワークス、12,2、pp.181−201、2001年(K. R. Mueller, S. Mika, G. Ratsch and K. Tsuda: "An introduction to kernel-based learning algorithms", IEEE Neural Networks, 12, 2, pp. 181-201 (2001).) G.ソールトン他1名、「自動インデキシングにおける項値の仕様について」、ジャーナル・オブ・ドキュメンテーション、29、pp.351−372、1973年(G. Salton and C. S. Yang: "On the specification of term values in automatic indexing", Journal of Documentation, 29, pp. 351-372 (1973).) E.P.シン他3名、「距離計量学習、付加情報によるクラスタリングへの応用とともに」、NIPS2002、2002年(E. P. Xing, A. Y. Ng, M. I. Jordan and S. Russell: "Distance metric learning, with application to clustering with side-information", NIPS 2002 (2002).) F.R.バック他1名、「スペクトラルクラスタリング学習」、神経情報処理システムの進化16、MITプレス、2004年(F. R. Bach and M. I. Jordan: "Learning Spectral Clustering", Advances in Neural Information Processing Systems 16, MIT Press (2004).) M.シュルツ他1名、「相対比較からの距離計量学習」、神経情報処理システムの進化16、MITプレス、2004年(M. Schultz and T. Joachims: "Learning a Distance Metric from Relative Comparisons", Advances in Neural Information Processing Systems 16, MIT Press (2004).) T.S.ヤアッコラ他1名、「識別分類器における生成モデルの利用」、神経情報処理システムの進歩に関する1998年大会予稿集、pp.487−493、1999年(T. S. Jaakkola and D. Haussler: "Exploiting generative models in discriminative classifiers", Proc. of the 1998 conference on Advances in Neural Information Processing Systems, pp. 487-493 (1999).) E.P.ジアン他1名、「リーマンSVDを用いる情報フィルタリング」、IRREGULAR’98予稿集、pp.386−395、1998年(E. P. Jiang and M. W. Berry: "Information Filtering Using the Riemannian SVD (R-SVD)", Proc. of IRREGULAR '98, pp. 386-395 (1998).) B.ド・ムーア、「構造化トータル最小二乗及びL2近似問題」、システム&コントロール、線形代数及びその数値的線形代数への応用に関する特別号、188−198、pp.163−207、1993年(B. De Moor: "Structured total least squares and L2 approximation problems", Systems & Control, Special Issue of Linear Algebra and its Applications on Numerical Linear Algebra, 188-189, pp. 163-207 (1993).) R.O.ドゥーダ他2名、「パターン分類(第2版)」、ジョン・ワイリー・アンド・サンズ、2000年(R. O. Duda, P. E. Hart and D. G. Stork: "Pattern Classification *Second Edition", John Wiley & Sons (2000).) Y.イシカワ他2名、「マインドリーダ:複数用例を解するデータベース照会」、超大規模データベース第24回国際会議予稿集、pp.218−227、1998年(Y. Ishikawa, R. Subramanya and C. Faloutsos: "MindReader: Querying Databases Through Multiple Examples", Proc. 24th Int. Conf. Very Large Data Bases, pp. 218-227 (1998).) F.スガヤ他3名、「セルにより形成されたレジストレーションによる大規模コーパス獲得法の提案」、LREC2002予稿集、Vol.I、pp.326−328、2002年(F. Sugaya, T. Takezawa, G. Kikui and S. Yamamoto: "Proposal for a very-large-corpus acquisition method by cell-formed registration", Proc. LREC-2002, Vol. I, pp. 326-328 (2002).) S.ディアウェスタ他2名、「潜在意味分析によるインデキシング」、アメリカ情報科学学会論文誌、41,6、pp.391−407、1990年(S. Deerwester, S. T. Dumais and G. W. Furnas: "Indexing by Latent Semantic Analysis", Journal of the American Society of Information Science, 41, 6, pp. 391-407 (1990).) T.ヨアヒム、「サポートベクターマシンによるテキスト分類:多数の関連素性による学習」、ECML−98予稿集、No.1398、pp.137−142、1998年(T. Joachims: "Text categorization with support vector machines: learning with many relevant features", Proceedings of ECML-98, No. 1398, pp. 137-142 (1998).) K.ラング、「ネットニュースのフィルタリング学習」、機械学習に関する第12回国際会議予稿集、pp.331−339、1995年、http://www.ai.mit.edu/~jrennie/20Newsgroups/(K. Lang: "Newsweeder: Learning to filter netnews", Proceedings of the Twelfth International Conference on Machine Learning, pp. 331-339 (1995). http://www.ai.mit.edu/~jrennie/20Newsgroups/.) I.S.ディロン他1名、「クラスタリングを用いた大規模かつ疎なテキストデータの概念分解」、機械学習、42、1/2、pp.143−175、2001年(I. S. Dhillon and D. S. Modha: "Concept Decompositions for Large Sparse Text Data Using Clustering", Machine Learning, 42, 1/2, pp. 143-175 (2001).) C.L.ブレーク他1名、「UCI機械学習リポジトリ」、1998年、http://www.ics.uci.edu/~mlearn/MLRepository.html(C. L. Blake and C. J. Merz: "UCI Repository of machine learning databases" (1998). http://www.ics.uci.edu/~mlearn/MLRepository.html.) E.W.ヴァイスシュタイン、「ムーア・ペンローズMatrix Inverse」、2004年、http://mathworld.wolfram.com/Moore-PenroseMatrixInverse.html(E. W. Weisstein: "Moore-Penrose Matrix Inverse" (2004).http://mathworld.wolfram.com/Moore-PenroseMatrixInverse.html.)
上に述べたような素性の相関および素性の重み付けは、機械学習においてはデータ空間において適切な計量を求める問題と考えることができ、近年特に注目されている問題である。非特許文献9は、本願発明と同様な問題意識に基づいており、「似た」点のペアの集合を訓練データとして、上記したユークリッド距離と異なる計量距離の算出式を導いている。非特許文献10および非特許文献11は、それぞれ適切な計量を、スペクトル法によるクラスタリングとSVM(サポートベクターマシン)における比較データの設定の中で求めている。
また、確率的生成モデルを基にデータ間の内積を与えるカーネルであるFisher Kernel(非特許文献12)も、原理的には同じ意味を持ったものである。Fisher Kernelの定式化においては、データの分布から期待値として導かれるフィッシャー情報量行列の逆行列が、確率モデル空間における計量を与える。しかしこの計算は極めて大きな計算量を必要とするため、実際には単位行列で近似されることが多い。
情報検索の分野では、非特許文献13及び非特許文献14が、クエリに対する適合フィードバックの立場からR−SVD(Riemannian SVD:リーマン特異値分解)を提案している。しかしこれは、大局的な検索距離空間の改良を目指したものではない。
したがって本発明の目的は、素性間の相関を考慮して、何らかの最適化基準にしたがって対象の素性ベクトル間の距離を算出し、その結果を用いてデータを精度良く検索する方法を提供することである。
本発明の第2の目的は、素性間の相関を考慮し、かつそれらの間の重み付けを決定することができ、かつ何らかの最適化基準にしたがって対象の素性ベクトル間の距離を算出した結果を用いてデータを精度良く検索する方法を提供することである。
本発明に係るデータ検索方法は、各々、所定個数のクラスタのいずれかに分類可能な複数の素性ベクトルと関連付けられた複数個のデータ項目を含むコンピュータ読取可能なデータベースを準備するステップと、複数の素性ベクトルの集合において、行列M1/2により各素性ベクトルを変換した後の各クラスタのセントロイドと当該クラスタに含まれる全ての素性ベクトルとの間に定義される距離の和を、所定個数のクラスタの全てにわたって合計した値が、所定の条件を充足するような行列Mを算出するステップと、入力される素性ベクトルuに対し、集合中の任意のベクトルvとの間で以下の式により定義される距離dMu、v)を算出するステップと、
Figure 2006031460
集合中の素性ベクトルvの内で、入力される素性ベクトルuとの間で算出された距離dMu、v)が所定の条件を充足する素性ベクトルを特定し、当該抽出された素性ベクトルと関連付けられたデータ項目をデータベース中で検索して抽出するステップとを含む。
上記したような行列Mを予め算出し、当該行列Mを使用して上記した式にしたがって、入力ベクトルuとデータベースの各データ項目と関連付けられた素性ベクトルvとの間の距離dMが算出される。行列Mによって、素性ベクトルのクラスタを(高次元における)真球のクラスタに近い形状に近づけるような変換をした場合と同様にして入力ベクトルと各素性ベクトルとの間の距離が算出される。この行列Mは、素性に対して適切な重みを与え、かつ素性間の相関を適切に捉えると考えられる。したがって、入力される素性ベクトルに対し、素性間の相関を考慮して算出された距離が所定の条件を充足する素性ベクトルを特定し、その素性ベクトルに対応するデータ項目をデータベースから抽出できる。その結果、データ項目の素性間の相関を考慮して、入力された素性ベクトルに対応するデータと最も近いデータ項目を検索できる。
好ましくは、行列Mを算出するステップは、行列M1/2により各素性ベクトルを変換した後の各クラスタのセントロイドと当該クラスタに含まれる全ての素性ベクトルとの間に定義される距離の和を、所定個数のクラスタの全てにわたって合計した値が、最小となるような行列Mを算出するステップを含む。
より好ましくは、最小となるような行列Mを算出するステップは、
Figure 2006031460
ただしXi(i=1〜N、Nはクラスタ数)はi番目のクラスタ、jは素性ベクトル、iはi番目のクラスタのセントロイドベクトル、により行列Mを算出するステップを含む。
さらに好ましくは、抽出するステップは、集合中の素性ベクトルvの内で、入力される素性ベクトルuとの間で算出された距離dMu、v)が最小となる素性ベクトルを抽出するステップを含む。
この方法はさらに、コンピュータ読取可読なデータベースに含まれる各データ項目から、予め定める素性抽出方法にしたがって素性を抽出し、各データ項目の素性ベクトルを生成することにより、素性ベクトルの集合を作成するステップをさらに含んでもよい。
好ましくは、作成するステップは、データベースに含まれる各データ項目から、予め定める素性抽出方法にしたがって素性を抽出し、かつ各素性ベクトルのノルムが等しくなるように各データ項目の素性ベクトルを生成することにより、素性ベクトルの集合を作成するステップを含む。
より好ましくは、所定のデータ項目はコンピュータ読取可能な電子的文書であり、作成するステップは、電子的文書の各々における、予め定められた種類の単語の生起数を単語に付与された順番にしたがって配列することにより、電子的文書の素性ベクトルを作成するステップを含む。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかのデータ検索方法を実行するように当該コンピュータを動作させるものである。
従来の技術の説明で述べたような距離関数に関する問題を解決するために、データのクラスタ構造に注目する必要がある。ここでいうクラスタ構造とは、個々のデータを、着目する観点にしたがって分類したものである。実際には、同一サイトの文書、同義文の集合、何らかの基準でラベルが割り振られた集合などがクラスタに該当する。訓練データは一般に完全に独立ではなく、データは言語の再帰的構造にしたがって構造化されていることも多い。したがって、このような構造は多くの言語データに関して見られると考えられる。
各クラスタ内のデータを互いに類似したものとみなせば、理想的なベクトル空間において、各データベクトルは集中して分布しているはずである。この性質に基づき、訓練データのクラスタ構造を用いて、最小二乗の意味で最適な距離行列を導出できる。
<データ分布と計量>
ベクトルu、vの間の二乗距離として、次のように計量行列M=[mkl]を用いた距離dとして求めることを考える。
Figure 2006031460
この式で定義される距離dMは一般に画像などの分類問題において用いられるマハラノビス距離である。M=I(単位行列)の特別な場合には式(1)と等しくなる。式(4)から、計量行列Mによって任意に各素性の重みおよび素性間の相関が表現できることが分かる。
行列Mは対称行列である。このとき、式(3)は式(5)のように書き換えることができる。
Figure 2006031460
この距離は、ベクトルu−vをM1/2によって新しい空間に写像し、その間のユークリッド距離を考えることとも等価である(非特許文献9を参照されたい)。なお、このマハラノビス距離は一般的なものであり、パターン認識における用法には限定されない。パターン認識においては一般に、複数の固定されたクラスタが正規分布を持つと仮定し、クラスタごとにその共分散行列の逆行列をMにとることで各クラスタへの距離を定義し、分類を行なう(非特許文献15参照)。しかし、本実施の形態で求めるものは、事前に決まったクラスタへの識別問題ではなく、多数のクラスタより導かれ、一般的に用いることのできる大域的な距離計量だからである。
したがって、ここでは訓練データ全体にわたる最適化が必要となる。一般的に、クラスタ内のデータは理想的な空間内では集中して分布しているべきと考えられるが、実際にはデータおよびその同義クラスタはユークリッド空間において図1の同義クラスタ20,22,24のように楕円対型に分布している。すなわち、ある次元には高い分散30,32を、別の次元には低い分散34を、それぞれ有している。またクラスタ20,22,24の向きは一般にユークリッド距離における基底ベクトルには沿っていない。言語表現の素性ベクトルは非常に高次元であるため、この傾向は特に顕著であると考えられる。
このとき、図2のようにM1/2で写像された空間において、高い分散を抑え、低い分散を拡大することで、こうしたクラスタの歪みを最小化し、同義クラスタ20,22,24を(高次元における)真球のクラスタ50,52,54に近づけるような計量行列Mを見出す。もしそのような計量行列Mを見出すことができれば、その行列Mは素性に対して適切な重みを与え、かつ素性間の相関を適切に捉えるはずである。以下、この意味で最適な行列Mについて考える。
<最適な計量行列の導出>
各データ(例えば文または文書)sをRn上のベクトルとし、その全体がN個のクラスタX1、…、XNに分けられていると仮定する。すなわち、ベクトルの次元数はn、クラスタ数はNである。
各クラスタXi(X1、…、XN)に対して、その重心(セントロイド)をiとおく。iは次の式で表される。(|X|はクラスタX中の要素数を表す。)
Figure 2006031460
このとき、既に述べたとおり、各クラスタ内でのデータ間の距離の総計を最小にするような計量Mを求める。すなわち、各クラスタXiについて、含まれるデータs∈Xiとセントロイドiとの距離dMs,i)の総和を全クラスタにわたり最小にするようなMを求めればよい。これは、以下の二次最小化問題として定式化できる。
Figure 2006031460
規格化条件:|M|=1 (7)
規格化条件は、M=0となる縮退した解を持たないための条件である(|・|は行列式を表す。)。式(7)の右辺の「1」は任意の定数cと替えることもできる。この場合には、c2Mが新しい解となる。
この最適化問題は、データベースの分野で提案されたMindReader(非特許文献16を参照)の考えを複数クラスタに拡張したものである。この問題は以下の定理で表されるように一意の解を持つ。
[定理]
条件(7)の下で式(6)の最小化問題を満たす行列Mは
Figure 2006031460
この定理の証明については発明の詳細な説明の末尾に付録1として添付してある。
式(8)の|A|1/nは定数である。これは、上記最適化問題の解は、各クラス他の分散―共分散行列の総和(平均)の逆行列になっていることを意味している。これは直感的にも妥当と思われる結果である。式(9)は全クラスタにわたる総和となっている。この式から、この計量行列Mは大域的に分散の大きい軸を縮小し、分散の小さい軸を拡大することでデータの分散を安定化する働きをもっていることが分かる。
ただし、一般に言語データにおいて素性は高次元かつ非常に疎であり、分散−共分散行列の和Aは正則でないことが多い。したがって、非特許文献16と同様、本実施の形態ではA-1としてMoore−Penroseの逆行列Aを用いる。Moore−Penroseの逆行列A+の詳細については、発明の詳細な説明の末尾に付録2として添付してある。
<クラスタ重みを用いた一般化>
上の説明では各クラスタを同等に扱っている。しかし一般には、各クラスタに含まれるデータ数に応じてクラスタには強弱がある。また階層的クラスタリングにおいては、上位クラスタほどその意味は薄まると考えられる。この情報は、正規化された各クラスタの重みξ1,…,ξN(Σiξi=1)を用いて、最小化する式(6)を以下のように一般化することで実現できる。
Figure 2006031460
これにより、式(9)を同様に重み付けた解が得られる。ただし、後に述べる実験では、各クラスタに含まれるデータ数がほぼ等しいため、この一般化は用いていない。
<実施の形態に係る装置>
−構成−
図3は、本実施の形態に係る類似文書検索システムのブロック図である。図3を参照して、本実施の形態に係る類似文書検索システム60は、大きく分けて、上記した方法(式(8)および式(9))にしたがって文書データベース(DB)74の内の訓練用データから計量行列Mを導出するための計量行列導出部72と、入力テキスト70を受け、計量行列導出部72によって導出された計量行列を用いて入力テキスト70と文書DB74内の各文書との距離を算出し、最も距離の小さなものから順番に選択して入力テキスト70に類似する出力テキスト78として出力するための類似テキスト検索部76とを含む。
類似テキスト検索部76は、入力テキスト70から所定の方法にしたがって素性ベクトルを作成するための素性ベクトル作成部90と、素性ベクトル作成部90により作成された素性ベクトルと、文書DB74に格納された各文書の素性ベクトルとの間で、計量行列導出部72により導出された計量行列Mを用い、式(3)および式(4)にしたがって距離dMを算出するための距離算出部92と、距離算出部92により算出された距離の小さなものから順番に文書DB74の中の文書を選択し出力テキスト78として出力するための選択部94とを含む。
文書DB74に含まれる各文書に対しては、予め素性ベクトル作成部90で行なうのと同じ方法にしたがって素性ベクトルが作成され、保持されている。
計量行列導出部72は、予め文書DB74の文書が含むクラスタに関する情報を用いて、式(8)および式(9)にしたがって計量行列Mを算出する機能を持つ。クラスタに関する情報は既知とする。
−動作−
類似文書検索システム60の動作は大きく二つのフェーズに分けられる。第1は、文書DB74の内の訓練用データセットに含まれる文書から、計量行列導出部72によって計量行列Mを導出するフェーズである。このフェーズにおいて計量行列Mを導出することにより、同じ文書DB74を用いる限り、計量行列導出部72による計量行列Mを再導出する必要はない。
計量行列Mが導出された後は、類似テキスト検索部76による類似テキストの検索処理が可能になる。入力テキスト70が与えられると、類似テキスト検索部76の素性ベクトル作成部90は、入力テキスト70から素性ベクトルを作成し距離算出部92に与える。距離算出部92は、この素性ベクトルと、計量行列導出部72に含まれる各文書の素性ベクトルとの間で、式(3)および式(4)に示される計算方法にしたがい、計量行列導出部72によって導出された計量行列Mを用いて距離dMa,i)(aは入力テキスト70の素性ベクトルを、i(i=1〜n)は文書DB74の各文書の素性ベクトルを、それぞれ表わす。)を算出する。距離算出部92は、算出された距離dMを選択部94に与える。
選択部94は、距離算出部92から与えられたn個の距離の内、値の最も小さなものから所定個数を選び、それらの距離に対応する文書を文書DB74から抽出し、距離を示す値と共に出力テキスト78として出力する。
この実施の形態に係る類似文書検索システム60によれば、距離算出部92における距離計算において、単なるユークリッド距離ではなく計量行列導出部72によって導出された計量行列Mを用い、素性間の相関を考慮して算出した距離を用いる。したがって文書DB74中の文書に対応する素性ベクトルのクラスタの、ベクトル空間内における各軸に沿った分散の歪みを補正した形で、文書の素性ベクトルの間の距離が計算できる。その結果、入力テキスト70と類似した文書を文書DB74から高い精度で抽出することができる。
なお、上の実施の形態では、文書DB74内の各クラスタに含まれる文書数がほぼ等しいことが分かっている。したがって、計量行列導出部72により計量行列Mを導出する際には、式(8)および式(9)を用いている。しかし、各クラスタに含まれる文書数にかなり相違がある場合には、それらの数によって各クラスタの正規化された重みξj(j=1〜クラスタ数N)を算出し式(10)にしたがって計量行列Mを導出すればよい。
<実験>
本実施の形態に係る文書検索システム60の効果を検証するため、同義文検索タスクを行なった。また、同様の構成を持つシステムにより、機械学習用ベクトルデータのK平均クラスタリングを用いた実験を行なった。類似文書検索システム60のような手法は、自然言語処理にのみ適用可能なわけではなく、汎用性を持つ手法である。したがって、後者のようなデータにもこの手法を適用できる。
実験では、訓練データを用いて計量行列を計算し、テストデータにおける距離計算に適用することでそのクラスタ構造の復元精度を評価する。
−同義文検索−
図3に示すシステム60において、ある文に類似した文をコーパスまたは用例文集合から検索する問題は、自然言語処理において基礎的な技術である。この技術は、例えば用例ベース機械翻訳、QAにおける質問文からの回答候補の検索などに適用できる。
このような同義文検索実験のため、図3に示す文書DB74として出願人が開発した旅行会話ドメインのパラフレーズコーパス(非特許文献17を参照されたい。)を用いた。このコーパスは、33,723,164個の日本語文を含む。これら日本語文は各々、10,610個の英語の文の一つと翻訳関係で対応している。この対応により、ある英文の翻訳である日本語文集合を同義文クラスタとみなすことができる。この中から、本実験では200個の訓練クラスタと50個のテストクラスタとからなるデータセットを作成した。一つのクラスタに属する文の数は最大100とした。これを超えるときはクラスタ内よりランダムに100文を抽出した。訓練クラスタより計量行列を計算した後、テストデータの中で全ての文を対象として同義文検索を行ない、検索結果中の本来の同クラスタ文の順位分布よりクラスタの復元精度を測定した。
このようなデータセットをさらに10個作成し、その平均で結果を評価した。
−評価尺度−
クラスタ復元精度の評価尺度としては、情報検索の精度評価に通常用いられる再現率−適合率、その11点平均精度、及びR−精度(非特許文献6を参照されたい。)を用いた。Rはここでは、検索文の属するクラスタの持つ総文数にとる。これにより、R−精度は検索結果の上位R文が全て同クラスタの文であるとき1、全く含まれないとき0となり、クラスタの復元精度を表現する。上位R文以下の分布は再現率−適合率曲線および11点平均精度によって示される。
−素性と次元圧縮−
文の素性としては、ユニグラムおよび機能語のバイグラムを用いた。機能語バイグラムが含まれるのは、対象コーパスが会話文ドメインであるために、機能語の連接が言換えにおいて大きな役割を果たすと考えられるからである。
旅行会話コーパスのため、語彙数は比較的制限されているが、素性の総数はデータ量に応じて数千から数万を超える。そのため、直接に計量行列Mを求めることは現実的ではない。また素性が疎であるため、求めた計量も不安定になりやすい。このため、予め素性を特異値分解によって次元削減し、各圧縮率まで圧縮した。これは本質的にLSI(Latent Semantic Indexing:非特許文献18を参照されたい。)と同じ方法であり、各ベクトル間の内積を最小二乗の意味で最適に保存する。
−結果−
実験による同義文検索結果の例を図4にユークリッド距離を用いたものと対比して示す。計量行列を用いた検索では、従来のユークリッド距離を用いたものと比較してノイズが少なく、高精度な検索を実現できていることが分かる。
図5は、次元圧縮をし過ぎた場合(圧縮率=0.5%)で、次元間に混入が生じている例である。しかしこの場合でも、ユークリッド距離を用いたものがほとんど無意味な結果を与えているのに比較し、計量行列を用いた検索では上位に適切な結果が含まれており、安定した検索性能が得られることが分かる。
図6に、本実施の形態に係る計量行列を用いた実験において得られた各圧縮率における再現率および適合率の関係を示す。図7に、ユークリッド距離を用いた実験において得られた各圧縮率における再現率および適合率の関係を示す。また図8に11点平均精度を示す。これらの結果によれば、本実施の形態に係る装置により、従来用いられていたような単純な内積およびidfで重み付けした内積に比べ、常に高い検索性能が得られることが分かる。
−文書検索−
文書をクラスタに分類するタスクとして文書分類がある。この分野では、ナイーブベイズ法およびSVMなど様々な識別器を用いた研究が盛んに行なわれている(非特許文献19参照)。しかしこれらはみな文書を事前に決められた少数のカテゴリに分類するものであり、新しいカテゴリ(クラスタ)に対しては識別器を構成することができない。
例えばWebサイトをクラスタとみなすと、文書に対して可能なクラスタは無数に存在し、かつ常に増え続ける性質がある。したがってこれらに対して一つひとつ識別器を構成するのは現実的でない。このような環境における検索またはクラスタリングには、大域的な距離尺度が必要であり、本実施の形態で示したような計量行列を用いた距離計算が有効だと考えられる。
−20−Newsgroupデータセット−
本実施の形態に係る計量行列を用いた距離計算を、上記したクラスタリングに適用した場合の有効性を測定するために、20−Newsgroup dataset(非特許文献20)をデータセットとして用い、以下のような実験を行なった。このデータセットは、標準的なテキスト分類のデータセットの中では、20と比較的多いクラスタ数を有する。
20のクラスタ(ニュースグループ)の中から16クラスタを訓練データ、4クラスタをテストデータとし、5分割交差検定を行なった。1クラスタあたりの文書数は最大100文書とし、これを超える場合はランダムに100記事を抽出した。
本実施の形態で使用した距離計算手法では、データ空間におけるベクトルの分布から最適な計量行列を求める。一方、言語データの場合、文書の長さが異なると各文書の素性ベクトルのノルムが一般的には異なる。通常、文書の長さが大きくなるほど素性ベクトルの成分の値も大きくなり、その結果素性ベクトルのノルムが非常に大きくなる。そのように大きくノルムの異なる素性ベクトルから計量行列を求めようとしても適切なものは得られない。
そこで、本実験では、各文書は中央値(130語)になるまでサブサンプリングまたはオーバーサンプリングを行なって素性ベクトルのノルムをそろえるようにした。またベースラインとして、tf.idfによる単語重み付けを適用した。
−結果−
表1にこの実験によって得られたR−精度および11点平均精度を示す。
Figure 2006031460
テストセットは4クラスタからなる。したがって精度のベースラインは0.25である。tf.idfおよびユークリッド距離を採用した場合と比較して、上記した実施の形態で採用した計量行列を用いた場合には、両方の基準で常によい精度を見せることが分かる(p値の平均=0.0243)。
ただし、精度の改善は前述した同義文検索タスクの場合と比較して少ない。この理由の一つは素性圧縮にあると考えられる。本実施の形態では、データ行列Xを最初にX=USV-1と特異値分解した。その後、k個の最大固有値に対応するVの部分行列Vkを用いてXk=VkXとし、k次元に素性を圧縮した。しかし式(5)から、これは、M1/2k=M1/2VkXの各列間におけるユークリッド距離とみなすことができる。故に、クラスタ化が弱い場合、前処理においてVkがMの役割を吸収してしまう可能性がある。したがって、最適な性能のためには、高次元データに対しては計量の導出と次元圧縮を同時に考える必要のあることが分かる。また、いわゆる次元の呪いの存在しないカーネル法を用い、そのヒルベルト空間において同じ基準を考察することも考えられる。
<一般ベクトルデータおよびクラスタリング>
計量行列を用いた距離は、情報検索だけでなく、非言語データの検索またはクラスタリングにおいても適用できる。図9〜図12に、UCI機械学習データセット(非特許文献22参照)におけるK平均クラスタリングに上記した計量行列による距離計算を適用した結果を示す。これらの図において、右側の棒が計量行列による距離、左側の棒がユークリッド距離である。Kはデータ中のクラスタ数にとり、ランダムに初期化して100回行ない平均をとっている。クラスタリング精度はランダムに選んだ2つのデータが正しいクラスタリング(同クラスタ/別クラスタ)を持つ確率として非特許文献9と同様に計算した。
20−Newsgroupデータセットについても同様のクラスタリング実験を行ない、表1と同程度の精度の上昇が得られた。
以上のように本実施の形態によれば、訓練データのクラスタ構造に基づき、クラスタ歪みを最小化する二次最適化問題の解として計量行列を求める。この計量行列を用いてデータの素性ベクトル間の距離を算出することにより、ユークリッド距離を用いる場合と比較して安定した検索性能を実現することができる。また、本実施の形態で採用したのと同様の計量行列を用いた距離計算により、クラスタリングを高い精度で行なうことができる。また上記した距離計算の手法における主たる演算は線形演算であり、したがって演算を高速に行なうことができる。また、最適な計量がデータ全てを用いて一度で求められるという効果がある。
なお、上記実施の形態では文書の素性ベクトルを用いて入力文書に類似した文書を文書DBから検索している。しかし本発明はそのような実施の形態のみに限定されるわけではなく、文書以外の情報の検索に適用することもできる。例えば画像データの検索では、画像全体から所定階調数により表した色相、彩度、輝度を抽出し、それらを所定次元のヒストグラムと見てベクトル化することにより素性ベクトルを作成できる。また、画像全体を所定個数の部分画像に均等に分割し、各部分画像に対して色相、彩度、輝度などの特徴量を求め、各部分画像から得られる特徴量から素性ベクトルを作成できる。
これ以外にも、例えば顔画像のようなものであれば、画像処理によって特徴点の座標等を求めた後、それら座標等を要素として素性ベクトルを作成したりすることができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
<付録1>
1.計量行列の導出
実施の形態中で述べた定理を証明する。すなわち、最小化問題
Figure 2006031460
を条件
|M|=1 (A−2)
の下で満たす計量行列Mを求める。
式(A−1)を展開すると
Figure 2006031460
である。ここで、条件(A−2)より、全てのkについて
Figure 2006031460
すなわち
Figure 2006031460
となる。ここで|Mkl|はMの第(k,l)-小行列式である。したがって、式(A−3)を式(A−4)の条件の下で最小化すればよい。
ラグランジュ乗数λを導入することにより、
Figure 2006031460
と定義すると、Lをmklで微分して0とおくことにより、次の式が得られる。
Figure 2006031460
ここでM-1=[mkl -1]とおくと、
Figure 2006031460
したがって、
Figure 2006031460
と定義すると(A−6)により
Figure 2006031460
ここでAは(A−7),(A−8)で定義される行列である。(証明終)
<付録2> Moore−Penroseの擬逆行列
行列AのMoore−Penroseの擬逆行列Aは、行列Aが非正則な場合でも、x=Ayがy=Axの最小二乗かつ最短の解となるという意味で通常の逆行列の性質をもつ一意な行列である(非特許文献23を参照されたい。)。
擬逆行列Aは市販のデータ解析パッケージ(例えばMATLAB(登録商標))の関数pinv等を用いて簡単に求めることができる。または、非特許文献16の記載にしたがい、正規直交行列UおよびΣ=diag(σ1,…,σr,0,…,0)(r=rank(A))を用いて、行列Aを
A=UΣUT (A−11)
と対角化すれば、擬逆行列A
+=UΣ+T (A−12)
と求められる。ここでΣ+=diag(1/σ1,…,1/σr,0,…,0)である。したがって、
M=(σ1σ2…σr1/r
を得る。
ユークリッド空間において、素性ベクトルのクラスタに歪が存在する場合のクラスタ形状を模式的に示す図である。 クラスタの歪を最小化するように素性ベクトルを写像したときの、写像後のクラスタの形状を模式的に示す図である。 本発明の一実施の形態に係る類似文書検索システムのブロック図である。 本発明の一実施の形態により行なった実験による同義文検索結果の例を、ユークリッド距離を用いたものと対比して表形式で示す図である。 本発明の一実施の形態において、図4と比較して次元圧縮を高くした実験による同義文検索結果の例を、ユークリッド距離を用いたものと対比して表形式で示す図である。 本発明の一実施の形態に係る計量行列を用いた実験において得られた各圧縮率における再現率および適合率の関係を示す。 ユークリッド距離を用いた実験において得られた各圧縮率における再現率および適合率の関係を示す。 本発明の一実施の形態を用いて行なった実験での各圧縮率における11点平均精度を示す。 UCI機械学習データセット(非特許文献22参照)の「wine」データセットにおけるK平均クラスタリングに本発明の一実施の形態に係る計量行列による距離計算を適用した結果を示すグラフである。 UCI機械学習データセットの内「protein」データセットにおけるK平均クラスタリングに本発明の一実施の形態に係る計量行列による距離計算を適用した結果を示すグラフである。 UCI機械学習データセットの内「iris」データセットにおけるK平均クラスタリングに本発明の一実施の形態に係る計量行列による距離計算を適用した結果を示すグラフである。 UCI機械学習データセットの内「soybean」データセットにおけるK平均クラスタリングに本発明の一実施の形態に係る計量行列による距離計算を適用した結果を示すグラフである。
符号の説明
60 類似文書検索システム、70 入力テキスト、72 計量行列導出部、74 文書DB、76 類似テキスト検索部、78 出力テキスト、90 素性ベクトル作成部、92 距離算出部、94 選択部

Claims (7)

  1. 各々、所定個数のクラスタのいずれかに分類可能な複数の素性ベクトルと関連付けられた複数個のデータ項目を含むコンピュータ読取可能なデータベースを準備するステップと、
    前記複数の素性ベクトルの集合において、行列M1/2により各素性ベクトルを変換した後の各クラスタのセントロイドと当該クラスタに含まれる全ての素性ベクトルとの間に定義される距離の和を、前記所定個数のクラスタの全てにわたって合計した値が、所定の条件を充足するような行列Mを算出するステップと、
    入力される素性ベクトルuに対し、前記集合中の任意のベクトルvとの間で以下の式により定義される距離dMu、v)を算出するステップと、
    Figure 2006031460
    前記集合中の素性ベクトルvの内で、前記入力される素性ベクトルuとの間で算出された前記距離dMu、v)が所定の条件を充足する素性ベクトルを特定し、当該抽出された素性ベクトルと関連付けられたデータ項目を前記データベース中で検索して抽出するステップとを含む、データ検索方法。
  2. 前記行列Mを算出するステップは、行列M1/2により各素性ベクトルを変換した後の各クラスタのセントロイドと当該クラスタに含まれる全ての素性ベクトルとの間に定義される距離の和を、前記所定個数のクラスタの全てにわたって合計した値が、最小となるような行列Mを算出するステップを含む、請求項1に記載のデータ検索方法。
  3. 前記最小となるような行列Mを算出するステップは、
    Figure 2006031460
    ただしXi(i=1〜N、Nはクラスタ数)はi番目のクラスタ、jは素性ベクトル、iはi番目のクラスタのセントロイドベクトル、
    により行列Mを算出するステップを含む、請求項2に記載のデータ検索方法。
  4. 前記抽出するステップは、前記集合中の素性ベクトルvの内で、前記入力される素性ベクトルuとの間で算出された前記距離dMu、v)が最小となる素性ベクトルを抽出するステップを含む、請求項1〜請求項3のいずれかに記載のデータ検索方法。
  5. 前記コンピュータ読取可読なデータベースに含まれる各データ項目から、予め定める素性抽出方法にしたがって素性を抽出し、各データ項目の素性ベクトルを生成することにより、前記素性ベクトルの集合を作成するステップをさらに含む、請求項1〜請求項4のいずれかに記載のデータ検索方法。
  6. 前記作成するステップは、前記データベースに含まれる各データ項目から、予め定める素性抽出方法にしたがって素性を抽出し、かつ各素性ベクトルのノルムが等しくなるように各データ項目の素性ベクトルを生成することにより、前記素性ベクトルの集合を作成するステップを含む、請求項5に記載のデータ検索方法。
  7. コンピュータにより実行されると、請求項1〜請求項6のいずれかに記載のデータ検索方法を実行するように当該コンピュータを動作させる、コンピュータプログラム。
JP2004210243A 2004-07-16 2004-07-16 データ検索方法及びコンピュータプログラム Pending JP2006031460A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004210243A JP2006031460A (ja) 2004-07-16 2004-07-16 データ検索方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004210243A JP2006031460A (ja) 2004-07-16 2004-07-16 データ検索方法及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2006031460A true JP2006031460A (ja) 2006-02-02

Family

ID=35897715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004210243A Pending JP2006031460A (ja) 2004-07-16 2004-07-16 データ検索方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006031460A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334402A (ja) * 2006-06-12 2007-12-27 Hitachi Ltd クラスタリングされたベクトルデータを検索するサーバ、システム及び方法
WO2009104324A1 (ja) * 2008-02-22 2009-08-27 日本電気株式会社 能動計量学習装置、能動計量学習方法およびプログラム
JP2010058903A (ja) * 2008-09-03 2010-03-18 Hitachi Ltd 画像認識装置
WO2010061813A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
CN103455609A (zh) * 2013-09-05 2013-12-18 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
CN114207538A (zh) * 2019-08-01 2022-03-18 三菱电机株式会社 异常诊断方法、异常诊断装置以及异常诊断程序
JP2022126428A (ja) * 2021-02-18 2022-08-30 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334402A (ja) * 2006-06-12 2007-12-27 Hitachi Ltd クラスタリングされたベクトルデータを検索するサーバ、システム及び方法
WO2009104324A1 (ja) * 2008-02-22 2009-08-27 日本電気株式会社 能動計量学習装置、能動計量学習方法およびプログラム
JPWO2009104324A1 (ja) * 2008-02-22 2011-06-16 日本電気株式会社 能動計量学習装置、能動計量学習方法およびプログラム
JP2010058903A (ja) * 2008-09-03 2010-03-18 Hitachi Ltd 画像認識装置
CN101665210B (zh) * 2008-09-03 2013-05-15 株式会社日立制作所 图像识别装置
WO2010061813A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
US8650138B2 (en) 2008-11-26 2014-02-11 Nec Corporation Active metric learning device, active metric learning method, and active metric learning program
JP5477297B2 (ja) * 2008-11-26 2014-04-23 日本電気株式会社 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
CN103455609A (zh) * 2013-09-05 2013-12-18 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
CN114207538A (zh) * 2019-08-01 2022-03-18 三菱电机株式会社 异常诊断方法、异常诊断装置以及异常诊断程序
JP2022126428A (ja) * 2021-02-18 2022-08-30 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
JP7410066B2 (ja) 2021-02-18 2024-01-09 Lineヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム

Similar Documents

Publication Publication Date Title
Grootendorst BERTopic: Neural topic modeling with a class-based TF-IDF procedure
Li et al. Learning query intent from regularized click graphs
Alshari et al. Improvement of sentiment analysis based on clustering of Word2Vec features
Hofmann Probabilistic latent semantic analysis.
Jing et al. Ontology-based distance measure for text clustering
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
Loni A survey of state-of-the-art methods on question classification
JP3870043B2 (ja) 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ
Li et al. Using KCCA for Japanese–English cross-language information retrieval and document classification
CN107145560B (zh) 一种文本分类方法及装置
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
Liu et al. Unsupervised post-processing of word vectors via conceptor negation
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
Barathi Ganesh et al. From vector space models to vector space models of semantics
Basirat et al. Principal word vectors
Iyer et al. Image captioning-based image search engine: An alternative to retrieval by metadata
JP2006031460A (ja) データ検索方法及びコンピュータプログラム
Liu et al. Multilingual short text classification via convolutional neural network
Villegas et al. Vector-based word representations for sentiment analysis: a comparative study
Zhang et al. Multi-document extractive summarization using window-based sentence representation
Jameel et al. Word embedding as maximum a posteriori estimation
John et al. Vertex cover algorithm based multi-document summarization using information content of sentences
Alshari et al. Senti2vec: An effective feature extraction technique for sentiment analysis based on word2vec
Wang et al. Multiscale Analysis of Document Corpora Based on Diffusion Models.
Maria et al. A new model for Arabic multi-document text summarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100406