JP5432936B2 - Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function - Google Patents
Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function Download PDFInfo
- Publication number
- JP5432936B2 JP5432936B2 JP2011032317A JP2011032317A JP5432936B2 JP 5432936 B2 JP5432936 B2 JP 5432936B2 JP 2011032317 A JP2011032317 A JP 2011032317A JP 2011032317 A JP2011032317 A JP 2011032317A JP 5432936 B2 JP5432936 B2 JP 5432936B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- database
- model
- ranking
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、文書の検索結果を提示する装置およびその方法に関するものである。 The present invention relates to an apparatus and a method for presenting document search results.
ウェブ検索システムのような検索システムにおいては、TF−IDF(Term Frequency−Inverse Document Frequency)のようなクエリ頻度に基づくスコアや、PageRankのようなリンク解析に基づくスコアなど、多数の要因(スコア要因と呼ぶ)を用いて最終的なランキングに用いる検索スコアを算出する(非特許文献1参照)。そして、算出された検索スコアの降順に並べることによって、ランキングを行った検索結果を提示する方法が広く用いられている。 In a search system such as a web search system, there are many factors (score factors such as a score based on a query frequency such as TF-IDF (Term Frequency-Inverse Document Frequency) and a score based on link analysis such as PageRank). The search score used for the final ranking is calculated (see Non-Patent Document 1). A method of presenting the search results obtained by ranking by arranging the calculated search scores in descending order is widely used.
クエリ毎に最適なランキングモデルが異なるため、クエリ毎に最適なランキングモデルを選択し、適用する方法がある。非特許文献2では,クエリ毎にランキングモデルを生成し、入力されたクエリに対して、当該クエリの特徴表現において、ユークリッド距離が最も短いランキングモデルを選択する。この際、それぞれのランキングモデル生成手法としては、たとえば非特許文献3の技術などを用いる。 Since the optimal ranking model is different for each query, there is a method of selecting and applying the optimal ranking model for each query. In Non-Patent Document 2, a ranking model is generated for each query, and a ranking model with the shortest Euclidean distance is selected for the input query in the feature expression of the query. At this time, for example, the technique of Non-Patent Document 3 is used as each ranking model generation method.
尚、本発明の文書検索装置で利用する変換行列は、下記非特許文献4に記載されている。 Note that the conversion matrix used in the document search apparatus of the present invention is described in Non-Patent Document 4 below.
クエリ毎にランキングモデルを選択するために従来技術で用いられたクエリ類似度の計算方法は、事前に設定された特徴空間における距離であり、入力されたクエリに対して、この特徴空間における最近傍のクエリを用いて生成されたランキングモデルが最適であるという仮定に基づいている。 The query similarity calculation method used in the prior art to select a ranking model for each query is the distance in the feature space set in advance, and the nearest neighbor in this feature space for the input query Is based on the assumption that the ranking model generated using
しかしながら、実際にはクエリの特徴表現における最近傍のモデルと、実際に最適なモデルは一致するとは限らないため、適切に類似度を計算することができず、高精度なランキングを実現する最適なモデルを選択できないという課題がある。 However, since the nearest model in the query feature expression and the actually optimal model do not always match, the similarity cannot be calculated appropriately, and the optimal model that achieves high-precision ranking There is a problem that the model cannot be selected.
本発明は上記課題を解決するものであり、その目的は、入力クエリに対して最適なランキングモデルを選択することができるランキングモデル選択機能を有する文書検索装置、方法、プログラムを提供することにある。 The present invention solves the above-described problems, and an object thereof is to provide a document search apparatus, method, and program having a ranking model selection function capable of selecting an optimal ranking model for an input query. .
上記課題を解決するための本発明のランキングモデル選択機能を有する文書検索装置は、N個のクエリ各々に対してM次元の特徴で表現したクエリ表現データが格納されたクエリ表現データベースと、N個のクエリに対する文書の検索結果の適合度と、M次元のベクトルで表される特徴表現とを有した訓練データが格納された訓練データデータベースと、前記訓練データを入力とし、各クエリの前記特徴表現に対する重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成手段と、前記訓練データおよびランキングモデルを入力とし、前記ランキングモデルデータベース内の全モデルに対して最大の検索評価指標値を与えて、訓練データにおける最高精度を示す訓練時最適ランキングモデルを生成し、該訓練時最適ランキングモデルのクエリと前記訓練データのクエリの対のデータを有した訓練時最適モデルデータベースを構築する訓練時最適モデル選択手段と、前記クエリ表現データベースと訓練時最適モデルデータベースの各データを入力とし、クエリ表現データベース内のクエリと、該クエリに相当する前記訓練時最適モデルデータベース内の訓練時最適ランキングモデルのクエリとの距離が最小となる変換行列を学習して生成し、変換行列データベースを構築する距離学習手段と、前記クエリ表現データベース、ランキングモデルデータベースおよび変換行列データベースの各データを入力とし、クエリ表現データベース内の各クエリについて、前記変換行列を利用して各クエリ間の類似度を計算し、最大の類似度を持つクエリを選択し、該選択されたクエリのランキングモデルを前記ランキングモデルデータベースから取得し、該取得されたランキングモデルをクエリに対する最適モデルとして最適モデルデータベースを構築する最適モデルデータベース作成手段と、予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースと、入力された検索クエリに対する検索結果集合を前記文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理手段と、前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースおよび最適モデルデータベースの各データとを入力とし、前記入力された検索クエリに対応する最適モデルを前記最適モデルデータベースから取得し、該取得された最適モデルのクエリに対応する前記ランキングモデルデータベース内のランキングモデルとしての重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算手段と、前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示手段と、を備えたことを特徴としている。 In order to solve the above problems, a document retrieval apparatus having a ranking model selection function according to the present invention includes a query expression database storing query expression data expressed by M-dimensional features for each of N queries, and N A training data database storing training data having a matching degree of a document search result with respect to a query and a feature expression represented by an M-dimensional vector, and the training data as an input, the feature expression of each query A ranking function generating means for generating a ranking model holding weights for the ranking model database, and the training data and ranking model as inputs, and the maximum search evaluation index value for all models in the ranking model database The optimal ranking model during training showing the highest accuracy in training data A training-time optimal model selection means for generating and building a training-time optimal model database having data of a pair of the training-time optimal ranking model and the training data query; and the query expression database and the training-time optimal model database. And learning and generating a transformation matrix that minimizes the distance between the query in the query expression database and the query of the optimal ranking model for training in the optimal model database for training corresponding to the query. A distance learning means for constructing a transformation matrix database, and input each data of the query expression database, ranking model database and transformation matrix database, and for each query in the query expression database, between the queries using the transformation matrix Calculate the similarity of and have the maximum similarity An optimal model database creating means for selecting an Eri, acquiring a ranking model of the selected query from the ranking model database, and constructing an optimal model database using the acquired ranking model as an optimal model for the query, and a Web page in advance A document index database storing a document index created based on a document collected from the database, a search result set for the input search query is acquired from the document index database, and the search result set and a plurality of score factors A query processing means for calculating a score factor value matrix, a score factor value matrix calculated by the query processing means, and each data of the ranking model database and the optimal model database, and corresponding to the input search query Optimal model to do The search score vector is calculated by accumulating the weight as the ranking model in the ranking model database corresponding to the query of the acquired optimum model and the score factor value matrix. Search score calculation means and search result presentation means for presenting search results for the input query in descending order of the search score calculated by the search score calculation means.
本発明によれば、検索評価指標を最大にするようなクエリを特徴空間における近傍に近づけるクエリ特徴空間の変換を行っているので、入力されたクエリに対する類似度計算が改善され、これにより、ランキングモデルの選択の性能を向上し、検索ランキングの精度向上を実現することができる。 According to the present invention, since the query feature space is converted so that the query that maximizes the search evaluation index is close to the neighborhood in the feature space, the similarity calculation with respect to the input query is improved. The performance of model selection can be improved and the accuracy of search ranking can be improved.
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。まず本発明の一実施形態例の全体構成の概要を図1〜図3とともに説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments. First, an overview of the overall configuration of an embodiment of the present invention will be described with reference to FIGS.
本実施形態例の文書検索装置100は、図1に示すように、予めWebページから収集した文書を基に作成された文書インデクスデータが格納された文書インデクスDB(データベース)107、ランキングモデルのデータが格納されたランキングモデルDB103、最適モデルのデータが格納された最適モデルDB106、クエリ処理手段としてのクエリ処理部150、検索スコア計算手段としての検索スコア計算部160および検索結果提示手段としての検索結果提示部170を備えている。
As shown in FIG. 1, the document search apparatus 100 according to the present embodiment includes a document index DB (database) 107 that stores document index data created based on documents collected in advance from Web pages, ranking model data, and the like. Is stored in the ranking model DB 103, the optimal model DB 106 storing the data of the optimal model, the
図1の最適モデルDB106は、図2に示すクエリ表現DB101、ランキングモデルDB103および変換行列DB105に格納されている各データに基づいて、最適モデルDB作成手段としての最適モデルDB作成部140の処理によって構築される。
The optimum model DB 106 in FIG. 1 is processed by the optimum model
図1のランキングモデルDB103は、図3に示す訓練データDB102に格納されているデータに基づいて、ランキング関数生成手段としてのランキング関数生成部110の処理によって構築される。
The ranking model DB 103 in FIG. 1 is constructed by the processing of the ranking
図2の変換行列DB105は、図3に示すクエリ表現DB101、訓練データDB102、ランキングモデルDB103および訓練時最適モデルDB104に格納される各データに基づいて、ランキング関数生成部110、訓練時最適モデル選択手段としての訓練時最適モデル選択部120および距離学習手段としての距離学習部130の各処理によって構築される。
The
尚、図3のランキングモデルDB103、訓練時最適モデルDB104,ランキング関数生成部110、訓練時最適モデル選択部120および距離学習部130によって変換行列生成装置115を構成している。
Note that the transformation matrix generation device 115 is configured by the ranking model DB 103, the training
図1〜図3に示す文書検索装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、表示装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。 The document search apparatus 100 shown in FIGS. 1 to 3 is configured by a computer, for example, and is a normal computer hardware resource, for example, ROM, RAM, CPU, input device, output device, display device, communication interface, hard disk, recording medium And a driving device thereof.
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、文書検索装置100は、図1〜図3に示すように、クエリ表現DB101、訓練データDB102、ランキングモデルDB103、訓練時最適モデルDB104、変換行列DB105、最適モデルDB106、文書インデクスDB107、ランキング関数生成部110、訓練時最適モデル選択部120、距離学習部130、最適モデルDB作成部140、クエリ処理部150、検索スコア計算部160および検索結果提示部170を実装する。
As a result of the cooperation between the hardware resource and the software resource (OS, application, etc.), as shown in FIGS. 1 to 3, the document search apparatus 100 performs a query expression DB 101, a training data DB 102, a ranking model DB 103, and a training time. Optimal model DB 104,
前記クエリ表現DB101、訓練データDB102、ランキングモデルDB103、訓練時最適モデルDB104、変換行列DB105、最適モデルDB106、文書インデクスDB107は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
The
次に、上記のように構成された装置の詳細を説明する。 Next, details of the apparatus configured as described above will be described.
まず図3において、変換行列生成装置115は、クエリ表現DB101と、訓練データDB102を入力として受け取り、変換行列DB105を生成する。訓練データDB102のデータ構造の例を表1に示す。
First, in FIG. 3, the transformation matrix generation device 115 receives the
この例では、N個のクエリに対する検索結果(文書)それぞれに対して、適合度が付与された訓練データを表している。各行が、当該クエリに対するある文書の適合度と特徴表現を表している。文書は、この例においてはM個の特徴によって表現され、M次元のベクトルを用いて表すことができる。 In this example, training data to which a fitness level is assigned to each of search results (documents) for N queries is shown. Each line represents the degree of conformity and feature expression of a document for the query. The document is represented by M features in this example and can be represented using M-dimensional vectors.
<ランキング関数生成部110>
ランキング関数生成部110は、訓練データDB102を入力として受け取り、ランキングモデルDB103を生成する。ランキング関数生成部110には、例えば非特許文献3の技術を用いることができる。ランキングモデルDB103のデータ構造の例を表2に示す。
<
The ranking
表2において、i番目の行がクエリqiの訓練データをランキング関数生成部110に入力し、得られたランキングモデルを表している。表2は、N個のクエリそれぞれに対するランキングモデルの例である。ランキングモデルは入力された文書の特徴表現に対する重みとして表現することができる。すなわち、表2の例においてwiが表1のxiに対する重みを表している。文書がM次元の特徴表現xで表す場合、ランキングモデルも同様にM次元の重みwで表すことができる。
In Table 2, the i-th line represents the ranking model obtained by inputting the training data of the query qi to the ranking
<訓練時最適モデル選択部120>
訓練時最適モデル選択部120は、訓練データDB102とランキングモデルDB103を入力として受け取り、図4のステップS121〜S124に示す処理を行って訓練時最適モデルDB104を出力する。
<Optimum
The training optimal
前記訓練時最適モデル選択部120が内部で利用するデータ構造の例を表3に示し、訓練時最適モデル選択部120が出力する訓練時最適モデルDB104のデータ構造の例を表4に示す。
Table 3 shows an example of the data structure used internally by the training optimal
まず図4のステップS121において、訓練データDB102から未処理のクエリqを取得する。
First, in step S121 of FIG. 4, an unprocessed query q is acquired from the
次にステップS122において、ランキングモデルDB103に含まれる全てのランキングモデルについて、最大の評価値(検索評価指標値)を与えるクエリpを決定する。 Next, in step S122, a query p that gives the maximum evaluation value (search evaluation index value) is determined for all the ranking models included in the ranking model DB 103.
次にステップS123において、訓練時最適モデルDB104にクエリp(例えば表4の最適モデルのクエリID)とq(例えば表4のクエリID)を出力する。 Next, in step S123, the query p (for example, the query ID of the optimal model in Table 4) and q (for example, the query ID of Table 4) are output to the optimal model DB104 during training.
そしてステップ124において、訓練データDB102内の全てのクエリの処理が終わるまでステップS121〜S123の処理を繰り返し実行する。
In step 124, the processes in steps S121 to S123 are repeatedly executed until all the queries in the
例えば、各クエリ毎に当該クエリを除いた検索評価指標が大きい最上位のクエリの訓練データを用いることができる。ここで検索評価指標は、MAP(Mean Average Precision)やNDCG(Normalized Discounted Cumulative Gain)などを用いることができる。以降、説明のため検索評価指標にはMAPを用いることとする。 For example, the training data of the highest-order query having a large search evaluation index excluding the query can be used for each query. Here, as the search evaluation index, MAP (Mean Average Precision), NDCG (Normalized Disclosed Cumulative Gain), or the like can be used. Hereinafter, for explanation, MAP is used as a search evaluation index.
上記のような処理によって、訓練データ(訓練データDB102)における最高精度を示すランキングモデルの結果を生成する。表3の例では、クエリq1に対して、クエリq2を用いて生成されたランキングモデルによって0.7のMAP値、クエリqNを用いて生成されたランキングモデルによって0.4のMAP値が得られたことを表している。 By the processing as described above, a ranking model result indicating the highest accuracy in the training data (training data DB 102) is generated. In the example of Table 3, for query q 1 , a MAP value of 0.7 by the ranking model generated using query q 2 and a MAP value of 0.4 by the ranking model generated using query q N Indicates that is obtained.
<距離学習部130>
距離学習部130では、クエリ表現DB101と訓練時最適モデルDB104を入力として受け取り、変換行列DB105を出力する。クエリ表現DB101のデータ構造例を表5、変換行列DB105のデータ構造例を表6に示す。
<
The
表5の例では、クエリ表現DB101はN個のクエリの特徴表現を格納しており、あるクエリにおけるfiの値が、当該クエリのi番目の特徴の値を示している。この例では、各クエリがM次元の特徴で表現されている。
In the example of Table 5, the
クエリqiのクエリ表現ベクトルをxi、クエリqjのクエリ表現ベクトルをxjとすると、ふたつのクエリ表現ベクトルの距離は、 When the query expression vector of the query qi is xi and the query expression vector of the query qj is xj, the distance between the two query expression vectors is
を用いて算出することができる。ここで変換行列AはM次元の特徴空間をM次元の特徴空間に写像するM次元正方行列で、A=Iとする場合、ユークリッド距離となる。 Can be used to calculate. Here, the transformation matrix A is an M-dimensional square matrix that maps the M-dimensional feature space to the M-dimensional feature space. When A = I, the transformation matrix A is the Euclidean distance.
表3の例では、q1に対しては、q2を用いて生成されたランキングモデルが最も高いMAP値を示したため、q1のクエリ表現ベクトルx1と、q2のクエリ表現ベクトルx2の距離を小さくするように変換行列Aの学習を行う。このように全てのクエリqi(i=1...N)について最良の結果を示すランキングモデルを選択し、選択されたクエリと当該クエリの距離が最小となるように変換行列の生成を行う。この変換行列Aの生成には、例えば非特許文献4の技術を用いることができる。 Table The third example, for q 1, because the ranking model generated using q 2 showed the highest MAP value, the query expression vectors x 1 of q 1, query representation vector x 2 of q 2 The conversion matrix A is learned so as to reduce the distance of. In this way, a ranking model showing the best result for all the queries qi (i = 1... N) is selected, and a transformation matrix is generated so that the distance between the selected query and the query is minimized. For example, the technique of Non-Patent Document 4 can be used to generate the transformation matrix A.
次に図2の最適モデルDB作成装置の詳細を説明する。 Next, details of the optimum model DB creation apparatus in FIG. 2 will be described.
<最適モデルDB作成部140>
最適モデルDB作成部140は、図3の変換行列生成装置115によって生成された変換行列DB105と、クエリ表現DB101、ランキングモデルDB103を各々入力とし、図5のステップS141〜S146に示す処理を行なって最適モデルDB106を出力する。
<Optimum model
The optimum model
最適モデルDB106のデータ構造の例を表7に示す。
An example of the data structure of the
尚表7は、訓練時最適モデルDB104のクエリ数Nよりも多い件数のクエリqN+Lについて最適モデルを出力した例を示している。このようにqN+L個の最適モデルを構築することにより、後述の文書検索処理時における入力クエリ数がqNよりも多い場合にも対処できる。
Table 7 shows an example in which the optimal model is output for the number of queries q N + L that is larger than the number of queries N in the
まず図5のステップS141において、クエリ表現DB101から未処理のクエリqを取得する。
First, in step S141 in FIG. 5, an unprocessed query q is acquired from the
次にステップS142において、クエリ表現DB101に含まれる各クエリについて、変換行列DB105を利用して類似度dを計算する。
In step S142, the similarity d is calculated using the
次にステップS143において、最大の類似度dを持つクエリpを選択する。 Next, in step S143, the query p having the maximum similarity d is selected.
次にステップS144において、ランキングモデルDB103から、前記選択されたクエリpに相当するランキングモデルwを取得する。
Next, in step S144, the ranking model w corresponding to the selected query p is acquired from the
次にステップS145において、クエリqに対する最適モデルを前記取得されたwとして最適モデルDB106に出力する。
In step S145, the optimal model for the query q is output to the
そしてステップS146において、クエリ表現DB101内の全てのクエリの処理が終わるまでステップS141〜S146の処理を繰り返し実行する。
In step S146, the processes in steps S141 to S146 are repeatedly executed until the processing of all the queries in the
次に図1の文書検索装置100の詳細を図6のフローチャートとともに説明する。 Next, details of the document search apparatus 100 of FIG. 1 will be described with reference to the flowchart of FIG.
<クエリ処理部150>
クエリ処理部150は、検索クエリを入力として受け取り、該検索クエリを含む検索結果集合(文書)を文書インデクスDB107から取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出する(ステップS150)。
<
The
具体的には、M個のスコア要因を用いて、文書インデクスDB107からN件の検索結果集合を取得した際、そのスコア要因値行列は、
Specifically, when N search result sets are acquired from the
と表現する。ここで、Dのi行目がi番目の検索結果のスコア要因値を表している。例えば、d23は、2番目の文書に対する3番目のスコア要因値である。 It expresses. Here, the i-th row of D represents the score factor value of the i-th search result. For example, d 23 is the third score factor value for the second document.
<検索スコア計算部160>
検索スコア計算部160は、クエリ処理部150が出力したスコア要因値行列D、ランキングモデルDB103のデータ、最適モデルDB106のデータ、および入力された検索クエリqinputを各々入力として受け取る。
<Search
The search
検索スコア計算部160は、最適モデルDB106から、入力された検索クエリqinputに対応する最適モデルのクエリIDqbestを取得し、当該最適モデルのクエリの重みw(スコア要因重み)をランキングモデルDB103から取得し、該スコア要因重みとスコア要因値行列Dを元に検索スコアベクトルを計算する(ステップS160)。
The search
検索ランキングに用いるための検索スコアベクトルsは、スコア要因値行列Dと、スコア要因重みw(qbest)の積によって得られる。 The search score vector s for use in the search ranking is obtained by the product of the score factor value matrix D and the score factor weight w (qbest) .
すなわちi番目の文書に対する検索スコアsiは、 That is, the search score si for the i-th document is
によって算出する。 Calculated by
<検索結果提示部170>
検索結果提示部170は、検索スコアベクトルsを受け取り、検索スコアsiの降順に、クエリに対する検索結果を提示する(表示、又はデータとして出力する)(ステップS170)。
<Search
The search
また、本実施形態のランキングモデル選択機能を有する文書検索装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態のランキングモデル選択機能を有する文書検索方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。 In addition, some or all of the functions of each means in the document search apparatus having the ranking model selection function of the present embodiment are configured by a computer program, and the program is executed using the computer to realize the present invention. Of course, it is possible to configure the procedure in the document search method having the ranking model selection function of the present embodiment by a computer program and cause the computer to execute the program. The computer-readable recording medium, for example, FD (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact D) isk) -ROM, DVD (Digital Versatile Disk) -ROM, CD-R, CD-RW, HDD, removable disk, etc., and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or electronic mail.
100…文書検索装置
101…クエリ表現DB
102…訓練データDB
103…ランキングモデルDB
104…訓練時最適モデルDB
105…変換行列DB
106…最適モデルDB
107…文書インデクスDB
110…ランキング関数生成部
120…訓練時最適モデル選択部
130…距離学習部
140…最適モデルDB作成部
150…クエリ処理部
160…検索スコア計算部
170…検索結果提示部
DESCRIPTION OF SYMBOLS 100 ...
102 ... Training data DB
103 ... Ranking model DB
104 ... Optimum model DB for training
105 ... Transformation matrix DB
106 ... Optimal model DB
107 ... Document index DB
DESCRIPTION OF
Claims (3)
N個のクエリに対する文書の検索結果の適合度と、M次元のベクトルで表される特徴表現とを有した訓練データが格納された訓練データデータベースと、
前記訓練データを入力とし、各クエリの前記特徴表現に対する重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成手段と、
前記訓練データおよびランキングモデルを入力とし、前記ランキングモデルデータベース内の全モデルに対して最大の検索評価指標値を与えて、訓練データにおける最高精度を示す訓練時最適ランキングモデルを生成し、該訓練時最適ランキングモデルのクエリと前記訓練データのクエリの対のデータを有した訓練時最適モデルデータベースを構築する訓練時最適モデル選択手段と、
前記クエリ表現データベースと訓練時最適モデルデータベースの各データを入力とし、クエリ表現データベース内のクエリと、該クエリに相当する前記訓練時最適モデルデータベース内の訓練時最適ランキングモデルのクエリとの距離が最小となる変換行列を学習して生成し、変換行列データベースを構築する距離学習手段と、
前記クエリ表現データベース、ランキングモデルデータベースおよび変換行列データベースの各データを入力とし、クエリ表現データベース内の各クエリについて、前記変換行列を利用して各クエリ間の類似度を計算し、最大の類似度を持つクエリを選択し、該選択されたクエリのランキングモデルを前記ランキングモデルデータベースから取得し、該取得されたランキングモデルをクエリに対する最適モデルとして最適モデルデータベースを構築する最適モデルデータベース作成手段と、
予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースと、
入力された検索クエリに対する検索結果集合を前記文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理手段と、
前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースおよび最適モデルデータベースの各データとを入力とし、前記入力された検索クエリに対応する最適モデルを前記最適モデルデータベースから取得し、該取得された最適モデルのクエリに対応する前記ランキングモデルデータベース内のランキングモデルとしての重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算手段と、
前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示手段と、
を備えたことを特徴とするランキングモデル選択機能を有する文書検索装置。 A query expression database storing query expression data expressed by M-dimensional features for each of the N queries;
A training data database in which training data having a matching degree of a document search result with respect to N queries and a feature expression represented by an M-dimensional vector are stored;
Ranking function generating means for generating a ranking model database by generating a ranking model having the training data as an input and holding a weight for the feature expression of each query;
The training data and the ranking model are input, the maximum search evaluation index value is given to all models in the ranking model database, and the training-time optimal ranking model indicating the highest accuracy in the training data is generated. A training optimal model selection means for constructing a training optimal model database having data of a pair of an optimal ranking model query and the training data query;
Each data of the query expression database and the optimal model database for training is input, and the distance between the query in the query expression database and the query of the optimal ranking model for training in the optimal model database for training corresponding to the query is minimum. Distance learning means that learns and generates a transformation matrix and constructs a transformation matrix database;
Using each data of the query expression database, ranking model database, and transformation matrix database as input, for each query in the query expression database, the similarity between the queries is calculated using the transformation matrix, and the maximum similarity is obtained. An optimal model database creating means for acquiring a ranking model of the selected query from the ranking model database and constructing an optimal model database using the acquired ranking model as an optimal model for the query;
A document index database in which a document index created based on a document collected in advance from a Web page is stored;
Query processing means for acquiring a search result set for the input search query from the document index database, and calculating a score factor value matrix from the search result set and a plurality of score factors;
The score factor value matrix calculated by the query processing means and each data of the ranking model database and the optimal model database are input, and an optimal model corresponding to the input search query is acquired from the optimal model database, A search score calculating means for calculating a search score vector by integrating a weight as a ranking model in the ranking model database corresponding to the obtained query of the optimal model and the score factor value matrix;
Search result presenting means for presenting search results for the input query in descending order of the search score calculated by the search score calculating means;
A document retrieval apparatus having a ranking model selection function.
訓練時最適モデル選択手段が、前記訓練データおよびランキングモデルを入力とし、前記ランキングモデルデータベース内の全モデルに対して最大の検索評価指標値を与えて、訓練データにおける最高精度を示す訓練時最適ランキングモデルを生成し、該訓練時最適ランキングモデルのクエリと前記訓練データのクエリの対のデータを有した訓練時最適モデルデータベースを構築する訓練時最適モデル選択ステップと、
距離学習手段が、N個のクエリ各々に対してM次元の特徴で表現したクエリ表現データが格納されたクエリ表現データベースと前記訓練時最適モデルデータベースの各データを入力とし、クエリ表現データベース内のクエリと、該クエリに相当する前記訓練時最適モデルデータベース内の訓練時最適ランキングモデルのクエリとの距離が最小となる変換行列を学習して生成し、変換行列データベースを構築する距離学習ステップと、
最適モデルデータベース作成手段が、前記クエリ表現データベース、ランキングモデルデータベースおよび変換行列データベースの各データを入力とし、クエリ表現データベース内の各クエリについて、前記変換行列を利用して各クエリ間の類似度を計算し、最大の類似度を持つクエリを選択し、該選択されたクエリのランキングモデルを前記ランキングモデルデータベースから取得し、該取得されたランキングモデルをクエリに対する最適モデルとして最適モデルデータベースを構築する最適モデルデータベース作成ステップと、
クエリ処理手段が、入力された検索クエリに対する検索結果集合を、予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理ステップと、
検索スコア計算手段が、前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースおよび最適モデルデータベースの各データとを入力とし、前記入力された検索クエリに対応する最適モデルを前記最適モデルデータベースから取得し、該取得された最適モデルのクエリに対応する前記ランキングモデルデータベース内のランキングモデルとしての重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算ステップと、
検索結果提示手段が、前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示ステップと、
を備えたことを特徴とするランキングモデル選択機能を有する文書検索方法。 The ranking function generation means receives training data in a training data database in which training data having a fitness of a document search result for N queries and a feature expression represented by an M-dimensional vector are stored. A ranking function generation step of generating a ranking model holding weights for the feature expression of each query and constructing a ranking model database;
The training optimal model selection means takes the training data and ranking model as input, gives the maximum search evaluation index value for all models in the ranking model database, and shows the highest accuracy in training data indicating the highest accuracy in training data Generating a model and constructing a training optimal model database having data of a pair of the training optimal ranking model query and the training data query; and a training optimal model selection step;
The distance learning means inputs the query expression database storing query expression data expressed by M-dimensional features for each of the N queries and each data of the optimal model database at the time of training, and queries in the query expression database Learning and generating a transformation matrix that minimizes the distance from the query of the optimal ranking model for training in the optimal model database for training corresponding to the query, and a distance learning step of constructing the transformation matrix database;
Optimal model database creation means inputs each data of the query expression database, ranking model database, and transformation matrix database, and calculates the similarity between each query using the transformation matrix for each query in the query expression database. An optimal model that selects a query having the maximum similarity, acquires a ranking model of the selected query from the ranking model database, and constructs an optimal model database using the acquired ranking model as an optimal model for the query A database creation step;
The query processing means acquires a search result set for the input search query from a document index database in which a document index created based on a document previously collected from a Web page is stored, and the search result set and a plurality of scores A query processing step for calculating a score factor value matrix with factors,
The search score calculation means inputs the score factor value matrix calculated by the query processing means and each data of the ranking model database and the optimal model database, and selects the optimal model corresponding to the input search query as the optimal A search score calculation step of calculating a search score vector by accumulating the weight as a ranking model in the ranking model database corresponding to the acquired query of the optimal model and the score factor value matrix, obtained from the model database When,
A search result presenting step for presenting a search result for the input query in descending order of the search score calculated by the search score calculating unit;
A document retrieval method having a ranking model selection function characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032317A JP5432936B2 (en) | 2011-02-17 | 2011-02-17 | Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032317A JP5432936B2 (en) | 2011-02-17 | 2011-02-17 | Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173794A JP2012173794A (en) | 2012-09-10 |
JP5432936B2 true JP5432936B2 (en) | 2014-03-05 |
Family
ID=46976678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011032317A Expired - Fee Related JP5432936B2 (en) | 2011-02-17 | 2011-02-17 | Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5432936B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6216567B2 (en) * | 2013-08-19 | 2017-10-18 | 株式会社日立製作所 | Biometric signature system |
JP6492141B2 (en) * | 2017-09-25 | 2019-03-27 | 株式会社日立製作所 | Vector conversion system and vector conversion method |
JP7464814B2 (en) * | 2019-10-31 | 2024-04-10 | キヤノンマーケティングジャパン株式会社 | Information processing device, control method, and program |
CN114547251B (en) * | 2022-02-28 | 2024-03-01 | 陕西师范大学 | BERT-based two-stage folk story retrieval method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4332129B2 (en) * | 2005-04-20 | 2009-09-16 | 富士通株式会社 | Document classification program, document classification method, and document classification apparatus |
JP4711761B2 (en) * | 2005-07-08 | 2011-06-29 | 株式会社ジャストシステム | Data search apparatus, data search method, data search program, and computer-readable recording medium |
US8001121B2 (en) * | 2006-02-27 | 2011-08-16 | Microsoft Corporation | Training a ranking function using propagated document relevance |
JP5049223B2 (en) * | 2008-07-29 | 2012-10-17 | ヤフー株式会社 | Retrieval device, retrieval method and program for automatically estimating retrieval request attribute for web query |
JP5084673B2 (en) * | 2008-09-04 | 2012-11-28 | ヤフー株式会社 | Product information retrieval apparatus, method and system |
-
2011
- 2011-02-17 JP JP2011032317A patent/JP5432936B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012173794A (en) | 2012-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Volkovs et al. | Boltzrank: learning to maximize expected ranking gain | |
US8761512B1 (en) | Query by image | |
KR101426765B1 (en) | System and method for supplying collaboration partner search service | |
WO2013066929A1 (en) | Method and apparatus of ranking search results, and search method and apparatus | |
JP6308708B1 (en) | Patent requirement conformity prediction device and patent requirement conformity prediction program | |
JP4711761B2 (en) | Data search apparatus, data search method, data search program, and computer-readable recording medium | |
CN108986872B (en) | Multi-granularity attribute weight Spark method for big data electronic medical record reduction | |
JP2018200621A (en) | Patent requirement propriety prediction device and patent requirement propriety prediction program | |
JP5432936B2 (en) | Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function | |
JP2014059754A (en) | Information processing system, and information processing method | |
CN110046713A (en) | Robustness sequence learning method and its application based on multi-objective particle swarm optimization | |
JP4931111B2 (en) | Document classification apparatus and program | |
Chen et al. | Overview of the NTCIR-16 session search (SS) task | |
JP5497105B2 (en) | Document retrieval apparatus and method | |
JP5355483B2 (en) | Abbreviation Complete Word Restoration Device, Method and Program | |
JP2016018286A (en) | Action type discrimination system, action type discrimination method, and action type discrimination program | |
JP6976178B2 (en) | Extractor, extraction method, and extraction program | |
JP2005092442A (en) | Multi-dimensional space model expressing device and method | |
JPWO2017072890A1 (en) | Data management system, data management method and program | |
CN116932730A (en) | Document question-answering method and related equipment based on multi-way tree and large-scale language model | |
JP6232358B2 (en) | Next utterance candidate ranking apparatus, method, and program | |
JP5820784B2 (en) | Search result output device, search result output method and program | |
KR101592670B1 (en) | Apparatus for searching data using index and method for using the apparatus | |
JP2010128598A (en) | Document retrieving device and method, program and recording medium with program recorded thereon | |
JP2011039977A (en) | Word clustering device, method and program, and recording medium storing the program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5432936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |