JP2011085991A - Document retrieval method, document retrieval device, document retrieval program - Google Patents
Document retrieval method, document retrieval device, document retrieval program Download PDFInfo
- Publication number
- JP2011085991A JP2011085991A JP2009236366A JP2009236366A JP2011085991A JP 2011085991 A JP2011085991 A JP 2011085991A JP 2009236366 A JP2009236366 A JP 2009236366A JP 2009236366 A JP2009236366 A JP 2009236366A JP 2011085991 A JP2011085991 A JP 2011085991A
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- feature vector
- document
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書の特徴をその構成要素である単語の特徴ベクトルの加重平均によるベクトルで表現し、ベクトル間の距離に基づいて類似検索を行う時、高速に検索する技術に関する。 The present invention relates to a technique for expressing features of a document by a vector based on a weighted average of feature vectors of words that are constituent elements, and performing a high-speed search when performing a similar search based on a distance between vectors.
インターネットの普及により、膨大な文書を高速で検索するニーズが増している。検索技術においては、文書の特徴をベクトルで表現し、ベクトル間の距離に基づく方法が広く用いられている。 With the spread of the Internet, there is an increasing need to search a huge amount of documents at high speed. In search technology, a method is widely used in which document features are represented by vectors and based on the distance between the vectors.
これまで、多次元ベクトル検索の高速化技術が多数提案されている。1998年以前は、主に木構造を利用した多次元ベクトル検索技術が提案された。 Up to now, many techniques for speeding up multidimensional vector searches have been proposed. Prior to 1998, a multidimensional vector search technique mainly using a tree structure was proposed.
しかし、木構造を用いる多次元ベクトル検索技術は、次元数が大きくなると、いわゆる「次元の呪い」問題が発生し、線形検索と同等のコストが必要である(例えば、非特許文献1参照)。そこで,VA−fileと呼ばれるデータ構造を用いた高速化技術(非特許文献2参照)や、このVA−fileの問題を克服した局所性検知可能ハッシュ(LSH(locality Sensitive Hashing))(非特許文献3参照)が提案されている。LSHは、検索精度を確率的に保障しながら、検索コストは(ハッシュ個数)×(次元数)で済む。理論上、次元数が大きくても機能し、高速に類似検索が可能という特長があり、高速な類似検索技術としては最も有望である。 However, the multidimensional vector search technique using a tree structure causes a so-called “dimensional curse” problem when the number of dimensions increases, and requires a cost equivalent to that of linear search (see, for example, Non-Patent Document 1). Therefore, a high-speed technique using a data structure called VA-file (see Non-Patent Document 2), a locality-detectable hash (LSH (Locality Sensitive Hashing)) that overcomes the problem of VA-file (Non-Patent Document) 3) has been proposed. While LSH guarantees the search accuracy stochastically, the search cost is (hashed number) × (number of dimensions). Theoretically, it functions even when the number of dimensions is large, and has a feature that a similar search can be performed at high speed.
上記の従来技術においては,いずれの方法においても対象とするベクトルの次元数に比例してコストが増大する問題がある。 In the above prior art, there is a problem that the cost increases in proportion to the number of dimensions of the target vector in any method.
本発明は、検索語(文書)の特徴ベクトルが当該検索語の構成要素である単語の特徴ベクトルの加重平均によって計算される場合に、ベクトルの次元数に比例したコストの増大を避け、高速な検索処理を行うことを目的とする。 In the present invention, when the feature vector of a search word (document) is calculated by the weighted average of the feature vectors of the words that are the constituent elements of the search word, an increase in cost proportional to the number of dimensions of the vector is avoided, and high speed is achieved. The purpose is to perform search processing.
本発明は検索語(文書)の構成要素となり得る全ての単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離計算を事前に行っている。そして、前記検索語の特徴ベクトルと検索対象である前記被検索文書の特徴ベクトルとの距離の大小関係が前記単語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の重み付け和の大小関係とが同値関係にあるという性質に基づき、検索時には事前に計算した距離の重み付け和を計算する。これによりベクトルの次元数に比例する計算を回避できる。尚、距離の代わりに類似度と置き換えた場合も同様である。 In the present invention, distance calculation is performed in advance between the feature vectors of all words that can be components of the search word (document) and the feature vectors of the searched document. The magnitude relationship between the distance between the feature vector of the search word and the feature vector of the searched document that is the search target is the magnitude relationship of the weighted sum of the distance between the feature vector of the word and the feature vector of the searched document. Based on the property that is in an equivalence relation, a weighted sum of distances calculated in advance is calculated at the time of retrieval. This avoids calculations proportional to the number of vector dimensions. The same applies when the similarity is replaced instead of the distance.
すなわち、本発明の文書検索方法は、所定の検索語の特徴ベクトルが当該検索語を構成する単語の特徴ベクトルの当該単語の重みを用いた加重平均により表される時に、被検索文書集合から前記検索語の特徴ベクトルとの距離または類似度に基づき被検索文書を選択する文書検索方法であって、検索結果決定手段が、予め算出された所定の検索語を構成する単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度を当該単語の重みを用いて重み付け和することで算出された前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の昇順または類似度の降順に、被検索文書の集合から前記距離または類似度に対応した被検索文書を選択するステップを有する。 That is, the document search method of the present invention is configured such that when a feature vector of a predetermined search word is represented by a weighted average using the weight of the word of the feature vector of the word constituting the search word, A document search method for selecting a document to be searched based on a distance or similarity with a feature vector of a search word, wherein the search result determination means and a feature vector of a word constituting a predetermined search word and a search target The ascending order of the distance or the descending order of the similarity between the feature vector of the search word and the feature vector of the searched document calculated by weighting and summing the distance or similarity with the feature vector of the document using the weight of the word And a step of selecting a searched document corresponding to the distance or similarity from the set of searched documents.
また、本発明の文書検索装置は、所定の検索語の特徴ベクトルが当該検索語を構成する単語の特徴ベクトルの当該単語の重みを用いた加重平均により表される時に、被検索文書集合から前記検索語の特徴ベクトルとの距離または類似度に基づき被検索文書を選択する文書検索装置であって、予め算出された所定の検索語を構成する単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度を当該単語の重みを用いて重み付け和することで算出された前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の昇順または類似度の降順に、被検索文書の集合から前記距離または類似度に対応した被検索文書を選択する検索結果決定手段を備える。 Further, the document search device of the present invention is configured such that when a feature vector of a predetermined search word is represented by a weighted average using the weight of the word of the feature vector of the word constituting the search word, A document search apparatus that selects a document to be searched based on a distance or similarity with a feature vector of a search word, and includes a feature vector of a word constituting a predetermined search word calculated in advance and a feature vector of the document to be searched In the ascending order of the distance between the feature vector of the search word calculated by weighting and summing the distance or the similarity using the weight of the word and the feature vector of the searched document or in descending order of the similarity, Search result determining means for selecting a search target document corresponding to the distance or similarity from the set is provided.
本発明の原理について説明する。まず、検索語(文書)の特徴ベクトルをd、被検索文書(K個あるとする)の特徴ベクトルをgk(k=1,…,K)、検索語(文書)に含まれる単語(n個あるとする)の特徴ベクトルをxi(i=1,…,n)、その単語の重みをTi、総重みをTallと表す。そして、重みの総和を1に正規化した重みをtiで表すと、下記の式が成立する。 The principle of the present invention will be described. First, the feature vector of the search word (document) is d, the feature vector of the search target document (K is assumed) is g k (k = 1,..., K), and the word (n) included in the search word (document). X i (i = 1,..., N), the word weight is represented by T i , and the total weight is represented by T all . Then, when the weight normalized by summing the weights to 1 is represented by t i , the following equation is established.
ここで「重み」とは、単語の出現頻度に基づき計算される「局所的重み」と文書集合全体を考慮した単語の「大域的重み」を掛けて得られるもので、非特許文献4にいくつかの方法が示されている。 Here, the “weight” is obtained by multiplying the “local weight” calculated based on the appearance frequency of the word and the “global weight” of the word in consideration of the entire document set. That way is shown.
本発明が利用できる前提条件の「検索語(文書)の特徴ベクトルが、当該検索語の構成要素である単語の特徴ベクトルの加重平均によって計算される場合」とは、検索語の特徴ベクトルdが当該検索語の構成要素である単語xi(i=1,…,n)とその重みti(i=1,…,n)を用いて下記の式(1)と示されることである。 The precondition “when the feature vector of a search word (document) is calculated by a weighted average of the feature vectors of words that are constituent elements of the search word”, which is a precondition that the present invention can be used, The following expression (1) is shown by using the word x i (i = 1,..., N) and its weight t i (i = 1,..., N), which are constituent elements of the search term.
この時、検索語(文書)の特徴ベクトルdと各被検索文書の特徴ベクトルgkとの距離(あるいは類似度)の大小関係(異なるkに関する)は、いくつかの距離(類似度)定義を用いた場合、前記検索語の構成要素である単語の特徴ベクトルxiと被検索文書の特徴ベクトルgkとの距離(あるいは類似度)の重み付け和になる。 At this time, the characteristic magnitude of the vector d and the distance between the feature vector g k of each of the retrieved documents (or similarities) (for different k) is some distance (similarity) defined search terms (document) When used, this is a weighted sum of the distance (or similarity) between the feature vector x i of the word that is a component of the search term and the feature vector g k of the searched document.
このような関係性が存在する場合、特徴ベクトルxiと特徴ベクトルgkの距離(あるいは類似度)計算にはベクトルの次元数に依存した計算コストを要するが、図1及び図2に示された発明に係る文書検索方法及び文書検索装置のように、事前に算出しておけば、実際の検索の際にはこの計算を回避できる。 When such a relationship exists, calculation of the distance (or similarity) between the feature vector x i and the feature vector g k requires a calculation cost depending on the number of dimensions of the vector. If the calculation is performed in advance as in the document search method and document search apparatus according to the present invention, this calculation can be avoided in the actual search.
すなわち、図1及び図2に示された文書検索方法及びその装置は、所定の検索語(あるいは文書)の特徴ベクトルが当該検索語を構成する単語の特徴ベクトルの当該単語の重みを用いた加重平均により表される時に、被検索文書集合から前記検索語の特徴ベクトルとの距離または類似度に基づき被検索文書を選択する文書検索方法及びその装置であって、検索結果決定手段が、予め算出された所定の検索語を構成する単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度を当該単語の重みを用いて重み付け和することで算出された前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の昇順または類似度の降順に取り出す。前記所定の検索語を構成する単語について、当該単語のベクトルと前記被検索文書の特徴ベクトルとの距離は予め算出される。 That is, the document search method and apparatus shown in FIG. 1 and FIG. 2 are weighted using the feature vector of a predetermined search word (or document) using the weight of the word of the feature vector of the word constituting the search word. A document search method and apparatus for selecting a search target document based on a distance or similarity to a feature vector of the search term from a search target document set when expressed by an average, wherein the search result determination means calculates in advance The feature vector of the search word calculated by weighting and summing the distance or similarity between the feature vector of the word constituting the predetermined search word and the feature vector of the searched document using the weight of the word, and the Extracted in ascending order of the distance from the feature vector of the searched document or descending order of similarity. For words constituting the predetermined search word, the distance between the vector of the word and the feature vector of the searched document is calculated in advance.
上記の文書検索方法の具体的な態様としては、図1に示されたように、入力された所定の検索語を構成する各単語の当該検索語における出現頻度と予め計算して記憶しておいた当該単語の重要度とから当該単語の重みを単語重み算出手段が算出する単語重み算出ステップ(S1)と、前記各単語について予め算出しておいた当該単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離を前記算出した当該単語の重みを用いて重み付け和としたものを前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離として算出する計算を全ての被検索文書について距離算出手段が行う距離算出ステップ(S2)と、検索結果決定手段が前記被検索文書の集合から前記算出された距離のうち昇順に選択された各距離に対応した被検索文書を検索結果とする検索結果決定ステップ(S3)とを有する。距離の代わりに類似度を使い、距離の近さの代わりに類似度の高さを用いてもよい。この場合、算出された類似度のうち降順に選択された各類似度に対応した被検索文書を検索結果とする。 As a specific mode of the above document search method, as shown in FIG. 1, the appearance frequency of each word constituting the inputted predetermined search word in the search word is calculated and stored in advance. A word weight calculating step (S1) in which the word weight calculating means calculates the weight of the word from the importance of the word, the feature vector of the word calculated for each word, and the feature of the searched document The calculation for calculating the distance between the feature vector of the search word and the feature vector of the searched document as the weighted sum using the calculated weight of the word is calculated for all the searched documents. A distance calculating step (S2) performed by the calculating means; and a search result corresponding to each distance selected by the search result determining means in the ascending order of the calculated distances from the set of searched documents. Having a search result determination step (S3) and to search results. Similarity may be used instead of distance, and the height of similarity may be used instead of distance. In this case, a search target document corresponding to each similarity selected in descending order among the calculated similarities is set as a search result.
上記の文書検索方法に対応した文書検索装置の態様としては、所定の検索語を入力する入力手段11と、単語の重要度を記憶する単語重要度記憶手段12と、前記入力された検索語を構成する各単語の当該検索語における出現頻度と単語重要度記憶手段12から引き出した当該単語の重要度とから当該単語の重みを算出する単語重み算出手段13と、前記各単語について予め算出して単語・検索対象間距離記憶手段14に記憶しておいた当該単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離を単語重み算出手段13にて算出された前記単語の重みを用いて重み付け和としたものを前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離として算出する計算を全ての被検索文書について行う距離算出手段15と、前記被検索文書の集合から前記算出された距離のうち最小のものから順に選択された各距離に対応した被検索文書を検索結果とする検索結果決定手段16とを備える。尚、距離の代わりに類似度を使い、距離の近さの代わりに類似度の高さを用いる手段も含まれる。
As an aspect of the document search apparatus corresponding to the document search method, an
以上の発明に係る文書検索方法及びその装置において、前記距離または類似度の指標として、前記所定の検索語の特徴ベクトルと被検索文書の特徴ベクトルの距離または類似度の値の大小関係が当該検索語を構成する単語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離あるいは類似度の重み付け和の値の大小関係と同値関係となる距離または類似度の指標が用いられる。 In the document search method and apparatus according to the above invention, as the distance or similarity index, the magnitude relationship between the distance between the feature vector of the predetermined search word and the feature vector of the searched document or the value of similarity is the search. A distance or similarity index that is equivalent to the distance between the feature vector of the word constituting the word and the feature vector of the document to be searched or the magnitude relation of the weighted sum of the similarities is used.
前記距離の指標としては前記単語の特徴ベクトルと前記被検索文書の特徴ベクトルと間のユークリッド2乗距離、カルバック・ライブラー・ダイバージェンス、このダイバージェンスを用いたクロスエントロピーのいずれかが例示される。前記類似度の指標としては、前記両者の特徴ベクトルの内積が例示される。 Examples of the distance index include any one of Euclidean square distance between the feature vector of the word and the feature vector of the search target document, Cullback liberous divergence, and cross-entropy using this divergence. An example of the similarity index is an inner product of both feature vectors.
すなわち、距離の指標として両ベクトルのユークリッド2乗距離を用いる場合、下記の式(2)となる。 That is, when using the Euclidean square distance of both vectors as a distance index, the following equation (2) is obtained.
以下の例でも、「単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離の重み付け和」を考えるときの「重み」は正規化の前後のいずれを用いても良い。 Also in the following example, “weight” when considering “weighted sum of distance between feature vector of word and feature vector of searched document” may be any before and after normalization.
類似度の指標として両者の特徴ベクトルxi,gkの内積を用いる場合、下記の式(3)となる。 When the inner product of both feature vectors x i and g k is used as an index of similarity, the following equation (3) is obtained.
これはそのまま単語の特徴ベクトルxiと被検索文書の特徴ベクトルgkとの内積の重み付け和になっている。この両者のベクトルの内積の重み付け和は当該両者のベクトルの類似度の重み付け和とみなすことができる。 This is the weighted sum of inner products of the feature vector x i of the word and the feature vector g k of the searched document as it is. The weighted sum of the inner products of both vectors can be regarded as the weighted sum of the similarity between the vectors.
また、距離の指標として両者の特徴ベクトルxi,gkのカルバック・ライブラー・ダイバージェンスを用いる場合、両者の特徴ベクトルxi,gkを確率分布とみなすと、ベクトルgkからベクトルxiへのカルバック・ライブラー・ダイバージェンスの重み付け和がベクトルxiとベクトルgkとの類似度の重み付け和とみなすことができる。すなわち、特徴ベクトルdから特徴ベクトルgkへのカルバック・ライブラー・ダイバージェンスを計算した場合、下記の式(4)となる。 In addition, when using the Cullback / Lailer divergence of both feature vectors x i and g k as an index of distance, if both feature vectors x i and g k are regarded as probability distributions, the vector g k changes to the vector x i . Can be regarded as a weighted sum of the similarity between the vector x i and the vector g k . That is, when the cullback, librarian divergence from the feature vector d to the feature vector g k is calculated, the following equation (4) is obtained.
また、両者の特徴ベクトルxi,gkを確率分布とみなした場合における当該両者の距離の他の指標としては、ベクトルgkからベクトルxiへのカルバック・ライブラー・ダイバージェンスを用いたベクトルxi,gkのクロスエントロピーが挙げられる。このクロスエントロピーの重み付け和もベクトルxiとベクトルgkとの距離の重み付け和とみなすことができる。 In addition, when the feature vectors x i and g k of both are regarded as probability distributions, as another index of the distance between the two, the vector x using the kullback, librarian divergence from the vector g k to the vector x i Cross entropy of i and g k can be mentioned. The weighted sum of the cross entropy can also be regarded as a weighted sum of the distance between the vector x i and the vector g k .
尚、本発明は上記文書検索装置を構成する各手段としてコンピュータを機能させるための文書検索プログラムの態様とすることもできる。 It should be noted that the present invention may be a document search program for causing a computer to function as each means constituting the document search apparatus.
以上の発明によれば検索語を構成する単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度の計算を事前に済ませることができるので当該検索語の検索時の計算コストが削減される。 According to the above invention, since the distance or similarity between the feature vector of the word constituting the search word and the feature vector of the searched document can be calculated in advance, the calculation cost when searching for the search word is reduced. The
以下、図3を参照しながら発明の実施形態に係る文書検索装置100について説明する。
Hereinafter, a
文書検索装置100は図3に示されたようにCPU51とメモリ52とディスプレイ53とキーボード54と処理プログラム55と処理対象記憶手段56とOS57と単語・検索対象間距離記憶手段58と単語重要度記憶手段59とを有する。
As shown in FIG. 3, the
CPU51はOS(オペレーティングシステム)57上で動作する処理プログラム55との協働によって図4に示されたステップS101,S102及び発明に係るステップS103〜S106を実行する各手段として機能する。
The
すなわち、CPU51は、予め算出された所定の検索語を構成する単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離を当該単語の重みを用いて重み付け和することで算出された前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の昇順(小さいものから順)に、被検索文書の集合から前記距離に対応した被検索文書を選択するステップ(S106)を実行する検索結果決定手段として機能する。前記距離の代わりに類似度を適用してもよい。この場合、前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの類似度の降順(高いものから順)に、被検索文書の集合から前記距離に対応した被検索文書が選択される。
That is, the
また、CPU51は、前記所定の検索語を構成する単語について、その重みの算出、及び当該重みを用いた重み付け和による前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の算出が行われていない場合(S103)、前記単語の当該検索語における出現頻度と当該単語の重要度とから当該単語の重みを算出するステップ(S104)を実行する単語重み算出手段として機能する。さらに、CPU51は、前記単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離を前記算出した当該単語の重みを用いて重み付け和としたものを前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離として算出し、この距離の計算を全ての被検索文書について行うステップ(S105)を実行する計算手段として機能する。前記距離の代わりに類似度を適用してもよい。
Further, the
メモリ52は、図2に示された入力手段11の一態様であるキーボード54によって入力された処理対象である検索語(あるいは文書)または処理対象記憶手段56から引き出された前記処理対象を処理プログラム55に係る処理に供するために一時的に記憶する。また、メモリ52は記憶手段58,59からの情報も処理プログラム55に係る処理に供するために一時的に記憶する。
The
ディスプレイ53はキーボード54によって入力された検索語またはこれに基づく後述のステップS101〜S106で得られた検索結果を表示するための表示手段である。
The
処理プログラム55は、上述のようにCPU51にS101〜S106を実行させる機能させるアプリケーションプログラムであって、OS(オペレーティングシステム)57上で動作するように構成されている。前記手順においてS103〜S105はそれぞれ図2に示された機能手段13〜15に対応した手順となっている。処理プログラム55はOS57がインストールされるハードディスク装置に例示される記憶手段に格納される。
The
処理対象記憶手段56はキーボード54によって入力された検索語を処理対象として格納している。処理対象記憶手段56はハードディスク装置やファイルサーバの態様で例示される周知の記憶手段を適用すればよい。
The processing target storage means 56 stores the search term input by the
単語・検索対象間距離記憶手段58は予め算出された単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離を記憶している。距離としては例えば前述の式(2)で定義された2乗距離、前述の式(4)で定義されたダイバージェンス、このダイバージェンスが適用されたクロスエントロピーのいずれかが挙げられる。記憶手段58は前記距離の代わりに前記両者のベクトルの類似度を記憶する。類似度としては、例えば、前述の式(3)で定義された内積が挙げられる。 The word / search target distance storage means 58 stores the distance between the feature vector of the word calculated in advance and the feature vector of the searched document. Examples of the distance include any one of the square distance defined by the above-described equation (2), the divergence defined by the above-described equation (4), and the cross entropy to which this divergence is applied. The storage means 58 stores the similarity between the vectors instead of the distance. As the similarity, for example, the inner product defined by the above-described equation (3) can be given.
単語重要度記憶手段59は前記所定の検索語における出現頻度と当該検索語を構成する単語の重要度とから当該単語の重みを算出するための当該重要度を予め記憶している。重要度としては例えば非特許文献4に開示された「大域的重み」が挙げられる。
The word
記憶手段58,59も記憶手段56と同様に周知の記憶手段を用いればよい。 The storage means 58 and 59 may be a known storage means in the same manner as the storage means 56.
図4に示されたフローチャートを参照しながら文書検索装置100に係るCPU51によって実行されるステップS101〜S106について説明する。S101〜S106においては単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離を予め算出している。前記距離としては例えば前述の式(2)で示される前記両者のベクトルのユークリッド2乗距離が適用される。
Steps S101 to S106 executed by the
S101:処理対象記憶手段56から処理対象である検索語(あるいは文書)を引き出してメモリ52上に読み込む。
S 101: A search word (or document) to be processed is extracted from the processing
S102:メモリ52上の検索語の特徴ベクトルと検索対象(被検索文書)の特徴ベクトルとの距離の配列の全要素を0に初期化する。前記距離の配列Dの要素数は、被検索文書数Kと等しく、各要素はDk(k=1,…,K)で表す。
S102: All elements of the array of distances between the feature vector of the search word on the
S103:メモリ52上に読み込まれた検索語(あるいは文書)を構成する単語のうち、S104,S105の処理を行っていない単語を取り出す。未処理な単語が無い場合はS106へ進む。
S103: The words that are not subjected to the processing of S104 and S105 are extracted from the words constituting the search word (or document) read onto the
S104:処理対象の単語の重要度を単語重要度記憶手段59から引き出して、当該単語の検索語における出現頻度との積を該単語の重さとする。例えば、前記重さの決定にあたり非特許文献4に記載された「索引語」(本発明では「単語」に相当)の重みの決定方法を適用してもよい。 S104: The importance level of the word to be processed is extracted from the word importance level storage means 59, and the product of the word frequency and the appearance frequency in the search word is used as the weight of the word. For example, in determining the weight, a method of determining the weight of “index word” (corresponding to “word” in the present invention) described in Non-Patent Document 4 may be applied.
S105:処理対象の単語について、単語の特徴ベクトルと検索対象である被検索文書の特徴ベクトルとの距離(これは検索対象数Kの要素を持つ配列データ)を単語・検索対象間距離記憶手段58から引き出し、この引き出した距離の各要素にS104で算出された当該単語の重みを掛けたものを検索語の特徴ベクトルと検索対象の特徴ベクトルとの距離を示す配列Dの各要素に加算する。 S105: For the word to be processed, the distance between the feature vector of the word and the feature vector of the search target document that is the search target (this is array data having the number K of search target numbers) is stored as the word / search target distance storage means 58. Then, the value obtained by multiplying each element of the extracted distance by the weight of the word calculated in S104 is added to each element of the array D indicating the distance between the feature vector of the search word and the feature vector of the search target.
本処理は、単語の重みをT、単語の特徴ベクトルと検索対象の特徴ベクトルとの距離のk番目の要素をDW kと表すと、下記の式(5)のように表すことができる。 This processing can be expressed as the following equation (5), where T is the word weight, and D w k is the k-th element of the distance between the word feature vector and the feature vector to be searched.
S103〜S105は検索語を構成する未処理な単語が無くなるまで実行される。 S103 to S105 are executed until there is no unprocessed word constituting the search word.
S106:検索語の特徴ベクトルと検索対象の特徴ベクトルと距離の配列Dの要素値を昇順にソートし、その上位Y件に対応する検索対象を検索結果として出力する。この検索結果はディスプレイ53から出力表示される。尚、件数Yはあらかじめ決めておいてもよい、または、ユーザがキーボード54の操作によって任意の件数を入力して決めておいてもよい。
S106: The element value of the feature vector of the search word, the feature vector of the search target, and the distance array D is sorted in ascending order, and the search target corresponding to the top Y items is output as the search result. This search result is output from the
以上説明したS101〜S106では単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離を予め算出しているが、距離の代わりに類似度を算出するようにしてもよい。この場合、S106では、検索語の特徴ベクトルと検索対象の特徴ベクトルと類似度の配列Dの要素値を降順にソートし、その上位Y件に対応する検索対象を検索結果として出力する。尚、前記類似度の指標としては、例えば、前述の式(3)で示された両者の特徴ベクトルの内積を適用すればよい。また、距離の指標として、ユークリッド2乗距離の代わりに、前述の式(4)で示されたカルバック・ライブラー・ダイバージェンス、このダイバージェンスを用いたクロスエントロピーのいずれかを適用しても良い。 In S101 to S106 described above, the distance between the feature vector of the word and the feature vector of the searched document is calculated in advance, but the similarity may be calculated instead of the distance. In this case, in S106, the element values of the search term feature vector, the search target feature vector, and the similarity array D are sorted in descending order, and the search target corresponding to the top Y items is output as the search result. As the similarity index, for example, the inner product of both feature vectors represented by the above-described equation (3) may be applied. Further, as the distance index, instead of the Euclidean square distance, any of the Cullback-Liber divergence expressed by the above-described equation (4) and the cross entropy using this divergence may be applied.
以上のように発明の実施形態に係る文書検索装置100は、検索語(あるいは検索文書)の特徴ベクトルが単語の特徴ベクトルの加重平均で与えられるとしたとき、単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度の加重平均でもって、検索語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度とみなしている。検索語の特徴ベクトルと被検索文書の特徴ベクトルの距離または類似度の値の大小関係が当該検索語を構成する単語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離または類似度の重み付け和の値の大小関係とが同値関係にあるからである。ゆえに、単語と被検索文書との距離または類似度を事前に計算しておけば、加重平均の大小比較だけで検索ができる。
As described above, the
したがって、文書検索装置100によれば、検索語を構成する単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度の計算のうち計算コストが大きいものを事前に済ませることができ、当該検索語の検索時の計算コストが削減される。
Therefore, according to the
また、前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の昇順または類似度の降順に前記被検索文書の集合から前記距離または類似度に対応した被検索文書が出力されるので、ユーザにとっても効率的な検索が実現する。 In addition, since a search target document corresponding to the distance or similarity is output from the set of search target documents in ascending order of distance between the feature vector of the search word and the feature vector of the search target document or in descending order of similarity. And efficient search for users is realized.
尚、処理プログラム55はコンピュータ読み取り可能な記録媒体に格納された場合、コンピュータによって当該媒体から読み出された当該プログラム自体が本発明に係る文書検索装置を構成する機能手段を実現することになる。したがって、処理プログラム55またはこれを記憶した記録媒体、例えばCD−ROM、DVD−ROM、CD−R、MO、HDD等も本発明の一態様を構成することになる。
When the
12,59…単語重要度記憶手段
13…単語重み算出手段
14,58…単語・検索対象距離記憶手段
15…距離算出手段
16…検索結果決定手段
55…処理プログラム(文書検索プログラム)
100…文書検索装置
12, 59 ... Word importance storage means 13 ... Word weight calculation means 14, 58 ... Word / search target distance storage means 15 ... Distance calculation means 16 ... Search result determination means 55 ... Processing program (document search program)
100: Document search device
Claims (9)
検索結果決定手段が、予め算出された所定の検索語を構成する単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度を当該単語の重みを用いて重み付け和することで算出された前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の昇順または類似度の降順に、被検索文書の集合から前記距離または類似度に対応した被検索文書を選択するステップを
有することを特徴とする文書検索方法。 When the feature vector of a predetermined search word is represented by a weighted average using the weight of the word feature vector constituting the search word, the distance from the search target document set to the feature vector of the search word or the similarity A document search method for selecting a search target document based on a degree,
The search result determination means is calculated by weighting and summing the distance or similarity between the feature vector of the word constituting the predetermined search word calculated in advance and the feature vector of the searched document using the weight of the word Selecting a search target document corresponding to the distance or similarity from a set of search target documents in ascending order of distance between the feature vector of the search term and the feature vector of the search target document or in descending order of similarity. Document search method characterized by
を特徴とする請求項1に記載の文書検索方法。 The word weight calculating means further includes a step of calculating the weight of the word from the appearance frequency of the word in the search word and the importance of the word for the word constituting the predetermined search word. The document search method according to claim 1.
を特徴とする請求項1または2に記載の文書検索方法。 As the distance or similarity index, the feature vector of the word constituting the search word and the search target document are the magnitude relationship between the distance or similarity value of the feature vector of the predetermined search word and the feature vector of the search target document. The document search method according to claim 1, wherein a distance or similarity index that is equivalent to a magnitude relationship of a distance to a feature vector or a weighted sum of similarity values is used.
前記類似度の指標は、前記両者の特徴ベクトルの内積であること
を特徴とする請求項3に記載の文書検索方法。 The index of the distance is any one of a Euclidean square distance between the feature vector of the word and the feature vector of the searched document, Cullback-Liber divergence, and cross-entropy using this divergence,
4. The document search method according to claim 3, wherein the similarity index is an inner product of the feature vectors of the two.
予め算出された所定の検索語を構成する単語の特徴ベクトルと被検索文書の特徴ベクトルとの距離または類似度を当該単語の重みを用いて重み付け和することで算出された前記検索語の特徴ベクトルと前記被検索文書の特徴ベクトルとの距離の昇順または類似度の降順に、被検索文書の集合から前記距離または類似度に対応した被検索文書を選択する検索結果決定手段を備えたこと
を特徴とする文書検索装置。 When a feature vector of a predetermined search word is represented by a weighted average using the weight of the word of the word constituting the search word, the distance or similarity between the search document set and the feature vector of the search word A document search device for selecting a search target document based on a degree,
A feature vector of the search word calculated by weighting and summing the distance or similarity between the feature vector of the word constituting the predetermined search word calculated in advance and the feature vector of the searched document using the weight of the word And a search result determining means for selecting a search target document corresponding to the distance or similarity from a set of search target documents in ascending order of distance between the search target document and a feature vector of the search target document or descending order of similarity. Document retrieval device.
さらに備えたこと
を特徴とする請求項5に記載の文書検索装置。 The word weight calculating means for calculating the weight of the word from the frequency of appearance of the word in the search word and the importance of the word with respect to the word constituting the predetermined search word. 5. The document search device according to 5.
を特徴とする請求項5または6に記載の文書検索装置。 As an index of the distance or similarity, the feature vector of the word constituting the search word and the search target are the magnitude relationship between the distance between the feature vector of the predetermined search word and the feature vector of the searched document or the similarity value. The document search apparatus according to claim 5 or 6, wherein a distance or similarity index that is equivalent to a distance relationship with a feature vector of the document or a magnitude relationship of values of weighted sums of similarity is used.
前記類似度の指標は、前記両者の特徴ベクトルの内積であること
を特徴とする請求項7に記載の文書検索装置。 The index of the distance is any one of a Euclidean square distance between the feature vector of the word and the feature vector of the searched document, Cullback-Liber divergence, and cross-entropy using this divergence,
The document search apparatus according to claim 7, wherein the similarity index is an inner product of the feature vectors of the two.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009236366A JP5345918B2 (en) | 2009-10-13 | 2009-10-13 | Document search method, document search apparatus, and document search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009236366A JP5345918B2 (en) | 2009-10-13 | 2009-10-13 | Document search method, document search apparatus, and document search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011085991A true JP2011085991A (en) | 2011-04-28 |
JP5345918B2 JP5345918B2 (en) | 2013-11-20 |
Family
ID=44078909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009236366A Expired - Fee Related JP5345918B2 (en) | 2009-10-13 | 2009-10-13 | Document search method, document search apparatus, and document search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5345918B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388786A (en) * | 2018-09-30 | 2019-02-26 | 武汉斗鱼网络科技有限公司 | A kind of Documents Similarity calculation method, device, equipment and medium |
CN109684628A (en) * | 2018-11-23 | 2019-04-26 | 武汉烽火众智数字技术有限责任公司 | Case intelligently pushing method and system based on merit semantic analysis |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570046A (en) * | 2016-03-02 | 2017-04-19 | 合网络技术(北京)有限公司 | Method and device for recommending relevant search data based on user operation behavior |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1166086A (en) * | 1997-08-19 | 1999-03-09 | Fujitsu Ltd | Device and method for retrieving similar document |
-
2009
- 2009-10-13 JP JP2009236366A patent/JP5345918B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1166086A (en) * | 1997-08-19 | 1999-03-09 | Fujitsu Ltd | Device and method for retrieving similar document |
Non-Patent Citations (2)
Title |
---|
CSNG200000996002; 熊本 睦: '概念ベースの情報検索への適用' 情報処理学会研究報告 第99巻,第1号, 19990112, page9-16, 社団法人情報処理学会 * |
JPN6013024587; 熊本 睦: '概念ベースの情報検索への適用' 情報処理学会研究報告 第99巻,第1号, 19990112, page9-16, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388786A (en) * | 2018-09-30 | 2019-02-26 | 武汉斗鱼网络科技有限公司 | A kind of Documents Similarity calculation method, device, equipment and medium |
CN109388786B (en) * | 2018-09-30 | 2024-01-23 | 广州财盟科技有限公司 | Document similarity calculation method, device, equipment and medium |
CN109684628A (en) * | 2018-11-23 | 2019-04-26 | 武汉烽火众智数字技术有限责任公司 | Case intelligently pushing method and system based on merit semantic analysis |
Also Published As
Publication number | Publication date |
---|---|
JP5345918B2 (en) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
US7818278B2 (en) | Large scale item representation matching | |
CN103210368A (en) | Software application recognition | |
JP5216063B2 (en) | Method and apparatus for determining categories of unregistered words | |
CN106610972A (en) | Query rewriting method and apparatus | |
JP5079471B2 (en) | Synonym extraction device | |
US9298757B1 (en) | Determining similarity of linguistic objects | |
JP2007323398A (en) | Information processing apparatus, method and program, and recording medium | |
Li et al. | Extracting statistical graph features for accurate and efficient time series classification | |
JP2016018286A (en) | Action type discrimination system, action type discrimination method, and action type discrimination program | |
Raimondi et al. | Ultra-fast global homology detection with discrete cosine transform and dynamic time warping | |
JP5345918B2 (en) | Document search method, document search apparatus, and document search program | |
Li et al. | A local-clustering-based personalized differential privacy framework for user-based collaborative filtering | |
JP2023015340A (en) | Node information estimation method, node information estimation program, and information processing apparatus | |
JP5780036B2 (en) | Extraction program, extraction method and extraction apparatus | |
Azgomi et al. | A Solution for Calculating the False Positive and False Negative in LSH Method to Find Similar Documents | |
KR20230014035A (en) | Method and device for recommending related documents through user search intent analysis | |
KR20070009338A (en) | Image search method and apparatus considering a similarity among the images | |
JP5224537B2 (en) | Locality-detectable hash construction device, similar neighborhood search processing device, and program | |
De Vries et al. | Parallel streaming signature em-tree: A clustering algorithm for web scale applications | |
CN111723286A (en) | Data processing method and device | |
JP2013222418A (en) | Passage division method, device and program | |
US10984005B2 (en) | Database search apparatus and method of searching databases | |
US20180225291A1 (en) | Identifying Documents | |
JP2011159100A (en) | Successive similar document retrieval apparatus, successive similar document retrieval method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5345918 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |