JP5432936B2 - Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function - Google Patents

Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function Download PDF

Info

Publication number
JP5432936B2
JP5432936B2 JP2011032317A JP2011032317A JP5432936B2 JP 5432936 B2 JP5432936 B2 JP 5432936B2 JP 2011032317 A JP2011032317 A JP 2011032317A JP 2011032317 A JP2011032317 A JP 2011032317A JP 5432936 B2 JP5432936 B2 JP 5432936B2
Authority
JP
Japan
Prior art keywords
query
database
model
ranking
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011032317A
Other languages
Japanese (ja)
Other versions
JP2012173794A (en
Inventor
良彦 数原
潤 鈴木
宜仁 安田
義昌 小池
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011032317A priority Critical patent/JP5432936B2/en
Publication of JP2012173794A publication Critical patent/JP2012173794A/en
Application granted granted Critical
Publication of JP5432936B2 publication Critical patent/JP5432936B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書の検索結果を提示する装置およびその方法に関するものである。   The present invention relates to an apparatus and a method for presenting document search results.

ウェブ検索システムのような検索システムにおいては、TF−IDF(Term Frequency−Inverse Document Frequency)のようなクエリ頻度に基づくスコアや、PageRankのようなリンク解析に基づくスコアなど、多数の要因(スコア要因と呼ぶ)を用いて最終的なランキングに用いる検索スコアを算出する(非特許文献1参照)。そして、算出された検索スコアの降順に並べることによって、ランキングを行った検索結果を提示する方法が広く用いられている。   In a search system such as a web search system, there are many factors (score factors such as a score based on a query frequency such as TF-IDF (Term Frequency-Inverse Document Frequency) and a score based on link analysis such as PageRank). The search score used for the final ranking is calculated (see Non-Patent Document 1). A method of presenting the search results obtained by ranking by arranging the calculated search scores in descending order is widely used.

クエリ毎に最適なランキングモデルが異なるため、クエリ毎に最適なランキングモデルを選択し、適用する方法がある。非特許文献2では,クエリ毎にランキングモデルを生成し、入力されたクエリに対して、当該クエリの特徴表現において、ユークリッド距離が最も短いランキングモデルを選択する。この際、それぞれのランキングモデル生成手法としては、たとえば非特許文献3の技術などを用いる。   Since the optimal ranking model is different for each query, there is a method of selecting and applying the optimal ranking model for each query. In Non-Patent Document 2, a ranking model is generated for each query, and a ranking model with the shortest Euclidean distance is selected for the input query in the feature expression of the query. At this time, for example, the technique of Non-Patent Document 3 is used as each ranking model generation method.

尚、本発明の文書検索装置で利用する変換行列は、下記非特許文献4に記載されている。   Note that the conversion matrix used in the document search apparatus of the present invention is described in Non-Patent Document 4 below.

竹野浩、井上孝史、「分散型高速情報収集/全文検索システムInfoBee/Evangelist」、NTT R&D Vol.52 No.2 2003、pp.78≡84。Hiroshi Takeno, Takashi Inoue, “Distributed high-speed information collection / full-text search system InfoBee / Evangelist”, NTT R & D Vol. 52 no. 2 2003, pp. 78≡84. Xiubo Geng,Tie−Yan Liu,Tao Qin,Andrew Arnold,Hang Li and Heung−Yeung Shum,“Query Dependent Ranking Using K−Nearest Neighbor”,In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval(SIGIR ’08),2008,pp.115−122.Xiubo Geng, Tie-Yan Liu, Tao Qin, Andrew Arnold, Hang Li and Heung-Yeung Shum, "Query Dependent Ranking Using K-Nearest Neighbor", In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '08), 2008, pp. 115-122. Thorsten Joachims,“Optimizing Search Engines using Clickthrough Data”,In Proceedings of the eighth ACM international conference on Knowledge Discovery and Data mining(KDD ’02),2002,pp.133−142.Thorsten Joachims, “Optimizing Search Engineers using Clickthrough Data”, In Proceedings of the height of the ACM International Conference on Knowledge. 133-142. Eric P. Xing and Andrew Y. Ng and Michael I. Jordan and Stuart Russell,“Distance Metric Learning, with Application to Clustering with Side− Information”,Proceedings of the 16th annual conference on Neural Information Processing Systems(NIPS ’02),2002,pp.505−512.Eric P. Xing and Andrew Y. Ng and Michael I. Jordan and Stuart Russell, “Distance Metric Learning, with Application to Clustering with Side-Information. Proceedings of the 16th Announcement”. 505-512.

クエリ毎にランキングモデルを選択するために従来技術で用いられたクエリ類似度の計算方法は、事前に設定された特徴空間における距離であり、入力されたクエリに対して、この特徴空間における最近傍のクエリを用いて生成されたランキングモデルが最適であるという仮定に基づいている。   The query similarity calculation method used in the prior art to select a ranking model for each query is the distance in the feature space set in advance, and the nearest neighbor in this feature space for the input query Is based on the assumption that the ranking model generated using

しかしながら、実際にはクエリの特徴表現における最近傍のモデルと、実際に最適なモデルは一致するとは限らないため、適切に類似度を計算することができず、高精度なランキングを実現する最適なモデルを選択できないという課題がある。   However, since the nearest model in the query feature expression and the actually optimal model do not always match, the similarity cannot be calculated appropriately, and the optimal model that achieves high-precision ranking There is a problem that the model cannot be selected.

本発明は上記課題を解決するものであり、その目的は、入力クエリに対して最適なランキングモデルを選択することができるランキングモデル選択機能を有する文書検索装置、方法、プログラムを提供することにある。   The present invention solves the above-described problems, and an object thereof is to provide a document search apparatus, method, and program having a ranking model selection function capable of selecting an optimal ranking model for an input query. .

上記課題を解決するための本発明のランキングモデル選択機能を有する文書検索装置は、N個のクエリ各々に対してM次元の特徴で表現したクエリ表現データが格納されたクエリ表現データベースと、N個のクエリに対する文書の検索結果の適合度と、M次元のベクトルで表される特徴表現とを有した訓練データが格納された訓練データデータベースと、前記訓練データを入力とし、各クエリの前記特徴表現に対する重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成手段と、前記訓練データおよびランキングモデルを入力とし、前記ランキングモデルデータベース内の全モデルに対して最大の検索評価指標値を与えて、訓練データにおける最高精度を示す訓練時最適ランキングモデルを生成し、該訓練時最適ランキングモデルのクエリと前記訓練データのクエリの対のデータを有した訓練時最適モデルデータベースを構築する訓練時最適モデル選択手段と、前記クエリ表現データベースと訓練時最適モデルデータベースの各データを入力とし、クエリ表現データベース内のクエリと、該クエリに相当する前記訓練時最適モデルデータベース内の訓練時最適ランキングモデルのクエリとの距離が最小となる変換行列を学習して生成し、変換行列データベースを構築する距離学習手段と、前記クエリ表現データベース、ランキングモデルデータベースおよび変換行列データベースの各データを入力とし、クエリ表現データベース内の各クエリについて、前記変換行列を利用して各クエリ間の類似度を計算し、最大の類似度を持つクエリを選択し、該選択されたクエリのランキングモデルを前記ランキングモデルデータベースから取得し、該取得されたランキングモデルをクエリに対する最適モデルとして最適モデルデータベースを構築する最適モデルデータベース作成手段と、予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースと、入力された検索クエリに対する検索結果集合を前記文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理手段と、前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースおよび最適モデルデータベースの各データとを入力とし、前記入力された検索クエリに対応する最適モデルを前記最適モデルデータベースから取得し、該取得された最適モデルのクエリに対応する前記ランキングモデルデータベース内のランキングモデルとしての重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算手段と、前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示手段と、を備えたことを特徴としている。   In order to solve the above problems, a document retrieval apparatus having a ranking model selection function according to the present invention includes a query expression database storing query expression data expressed by M-dimensional features for each of N queries, and N A training data database storing training data having a matching degree of a document search result with respect to a query and a feature expression represented by an M-dimensional vector, and the training data as an input, the feature expression of each query A ranking function generating means for generating a ranking model holding weights for the ranking model database, and the training data and ranking model as inputs, and the maximum search evaluation index value for all models in the ranking model database The optimal ranking model during training showing the highest accuracy in training data A training-time optimal model selection means for generating and building a training-time optimal model database having data of a pair of the training-time optimal ranking model and the training data query; and the query expression database and the training-time optimal model database. And learning and generating a transformation matrix that minimizes the distance between the query in the query expression database and the query of the optimal ranking model for training in the optimal model database for training corresponding to the query. A distance learning means for constructing a transformation matrix database, and input each data of the query expression database, ranking model database and transformation matrix database, and for each query in the query expression database, between the queries using the transformation matrix Calculate the similarity of and have the maximum similarity An optimal model database creating means for selecting an Eri, acquiring a ranking model of the selected query from the ranking model database, and constructing an optimal model database using the acquired ranking model as an optimal model for the query, and a Web page in advance A document index database storing a document index created based on a document collected from the database, a search result set for the input search query is acquired from the document index database, and the search result set and a plurality of score factors A query processing means for calculating a score factor value matrix, a score factor value matrix calculated by the query processing means, and each data of the ranking model database and the optimal model database, and corresponding to the input search query Optimal model to do The search score vector is calculated by accumulating the weight as the ranking model in the ranking model database corresponding to the query of the acquired optimum model and the score factor value matrix. Search score calculation means and search result presentation means for presenting search results for the input query in descending order of the search score calculated by the search score calculation means.

本発明によれば、検索評価指標を最大にするようなクエリを特徴空間における近傍に近づけるクエリ特徴空間の変換を行っているので、入力されたクエリに対する類似度計算が改善され、これにより、ランキングモデルの選択の性能を向上し、検索ランキングの精度向上を実現することができる。   According to the present invention, since the query feature space is converted so that the query that maximizes the search evaluation index is close to the neighborhood in the feature space, the similarity calculation with respect to the input query is improved. The performance of model selection can be improved and the accuracy of search ranking can be improved.

本発明の一実施形態例の文書検索装置全体の構成図。1 is a configuration diagram of an entire document search apparatus according to an embodiment of the present invention. 図1の最適モデルDBを作成する装置の構成図。The block diagram of the apparatus which produces the optimal model DB of FIG. 図2の変換行列DBを生成する装置の構成図。The block diagram of the apparatus which produces | generates transformation matrix DB of FIG. 図3の訓練時最適モデル選択部120の処理の流れを示すフローチャート。The flowchart which shows the flow of a process of the optimal model selection part 120 at the time of training of FIG. 図2の最適モデルDB作成部140の処理の流れを示すフローチャート。The flowchart which shows the flow of a process of the optimal model DB creation part 140 of FIG. 図1の文書検索装置の処理の流れを示すフローチャート。3 is a flowchart showing a flow of processing of the document search apparatus in FIG. 1.

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。まず本発明の一実施形態例の全体構成の概要を図1〜図3とともに説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments. First, an overview of the overall configuration of an embodiment of the present invention will be described with reference to FIGS.

本実施形態例の文書検索装置100は、図1に示すように、予めWebページから収集した文書を基に作成された文書インデクスデータが格納された文書インデクスDB(データベース)107、ランキングモデルのデータが格納されたランキングモデルDB103、最適モデルのデータが格納された最適モデルDB106、クエリ処理手段としてのクエリ処理部150、検索スコア計算手段としての検索スコア計算部160および検索結果提示手段としての検索結果提示部170を備えている。   As shown in FIG. 1, the document search apparatus 100 according to the present embodiment includes a document index DB (database) 107 that stores document index data created based on documents collected in advance from Web pages, ranking model data, and the like. Is stored in the ranking model DB 103, the optimal model DB 106 storing the data of the optimal model, the query processing unit 150 as the query processing unit, the search score calculation unit 160 as the search score calculation unit, and the search result as the search result presentation unit A presentation unit 170 is provided.

図1の最適モデルDB106は、図2に示すクエリ表現DB101、ランキングモデルDB103および変換行列DB105に格納されている各データに基づいて、最適モデルDB作成手段としての最適モデルDB作成部140の処理によって構築される。   The optimum model DB 106 in FIG. 1 is processed by the optimum model DB creation unit 140 as the optimum model DB creation unit based on the data stored in the query expression DB 101, the ranking model DB 103, and the transformation matrix DB 105 shown in FIG. Built.

図1のランキングモデルDB103は、図3に示す訓練データDB102に格納されているデータに基づいて、ランキング関数生成手段としてのランキング関数生成部110の処理によって構築される。   The ranking model DB 103 in FIG. 1 is constructed by the processing of the ranking function generation unit 110 serving as a ranking function generation unit based on data stored in the training data DB 102 illustrated in FIG.

図2の変換行列DB105は、図3に示すクエリ表現DB101、訓練データDB102、ランキングモデルDB103および訓練時最適モデルDB104に格納される各データに基づいて、ランキング関数生成部110、訓練時最適モデル選択手段としての訓練時最適モデル選択部120および距離学習手段としての距離学習部130の各処理によって構築される。   The transformation matrix DB 105 in FIG. 2 is based on the data stored in the query expression DB 101, the training data DB 102, the ranking model DB 103, and the training optimum model DB 104 shown in FIG. It is constructed by the respective processes of the optimum model selection unit 120 during training as means and the distance learning unit 130 as distance learning means.

尚、図3のランキングモデルDB103、訓練時最適モデルDB104,ランキング関数生成部110、訓練時最適モデル選択部120および距離学習部130によって変換行列生成装置115を構成している。   Note that the transformation matrix generation device 115 is configured by the ranking model DB 103, the training optimal model DB 104, the ranking function generation unit 110, the training optimal model selection unit 120, and the distance learning unit 130 of FIG.

図1〜図3に示す文書検索装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、表示装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。   The document search apparatus 100 shown in FIGS. 1 to 3 is configured by a computer, for example, and is a normal computer hardware resource, for example, ROM, RAM, CPU, input device, output device, display device, communication interface, hard disk, recording medium And a driving device thereof.

このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、文書検索装置100は、図1〜図3に示すように、クエリ表現DB101、訓練データDB102、ランキングモデルDB103、訓練時最適モデルDB104、変換行列DB105、最適モデルDB106、文書インデクスDB107、ランキング関数生成部110、訓練時最適モデル選択部120、距離学習部130、最適モデルDB作成部140、クエリ処理部150、検索スコア計算部160および検索結果提示部170を実装する。   As a result of the cooperation between the hardware resource and the software resource (OS, application, etc.), as shown in FIGS. 1 to 3, the document search apparatus 100 performs a query expression DB 101, a training data DB 102, a ranking model DB 103, and a training time. Optimal model DB 104, transformation matrix DB 105, optimal model DB 106, document index DB 107, ranking function generation unit 110, optimal model selection unit 120 during training, distance learning unit 130, optimal model DB creation unit 140, query processing unit 150, search score calculation Unit 160 and search result presentation unit 170 are implemented.

前記クエリ表現DB101、訓練データDB102、ランキングモデルDB103、訓練時最適モデルDB104、変換行列DB105、最適モデルDB106、文書インデクスDB107は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。   The query expression DB 101, the training data DB 102, the ranking model DB 103, the training optimum model DB 104, the transformation matrix DB 105, the optimum model DB 106, and the document index DB 107 are constructed in storage means / storage means such as a hard disk or RAM. .

次に、上記のように構成された装置の詳細を説明する。   Next, details of the apparatus configured as described above will be described.

まず図3において、変換行列生成装置115は、クエリ表現DB101と、訓練データDB102を入力として受け取り、変換行列DB105を生成する。訓練データDB102のデータ構造の例を表1に示す。   First, in FIG. 3, the transformation matrix generation device 115 receives the query expression DB 101 and the training data DB 102 as inputs, and generates the transformation matrix DB 105. An example of the data structure of the training data DB 102 is shown in Table 1.

Figure 0005432936
Figure 0005432936

この例では、N個のクエリに対する検索結果(文書)それぞれに対して、適合度が付与された訓練データを表している。各行が、当該クエリに対するある文書の適合度と特徴表現を表している。文書は、この例においてはM個の特徴によって表現され、M次元のベクトルを用いて表すことができる。   In this example, training data to which a fitness level is assigned to each of search results (documents) for N queries is shown. Each line represents the degree of conformity and feature expression of a document for the query. The document is represented by M features in this example and can be represented using M-dimensional vectors.

<ランキング関数生成部110>
ランキング関数生成部110は、訓練データDB102を入力として受け取り、ランキングモデルDB103を生成する。ランキング関数生成部110には、例えば非特許文献3の技術を用いることができる。ランキングモデルDB103のデータ構造の例を表2に示す。
<Ranking function generator 110>
The ranking function generation unit 110 receives the training data DB 102 as an input, and generates a ranking model DB 103. For the ranking function generation unit 110, for example, the technique of Non-Patent Document 3 can be used. An example of the data structure of the ranking model DB 103 is shown in Table 2.

Figure 0005432936
Figure 0005432936

表2において、i番目の行がクエリqiの訓練データをランキング関数生成部110に入力し、得られたランキングモデルを表している。表2は、N個のクエリそれぞれに対するランキングモデルの例である。ランキングモデルは入力された文書の特徴表現に対する重みとして表現することができる。すなわち、表2の例においてwiが表1のxiに対する重みを表している。文書がM次元の特徴表現xで表す場合、ランキングモデルも同様にM次元の重みwで表すことができる。   In Table 2, the i-th line represents the ranking model obtained by inputting the training data of the query qi to the ranking function generation unit 110. Table 2 is an example of a ranking model for each of the N queries. The ranking model can be expressed as a weight for the feature expression of the input document. That is, in the example of Table 2, wi represents the weight for xi of Table 1. When a document is represented by an M-dimensional feature expression x, the ranking model can be similarly represented by an M-dimensional weight w.

<訓練時最適モデル選択部120>
訓練時最適モデル選択部120は、訓練データDB102とランキングモデルDB103を入力として受け取り、図4のステップS121〜S124に示す処理を行って訓練時最適モデルDB104を出力する。
<Optimum model selection unit 120 during training>
The training optimal model selection unit 120 receives the training data DB 102 and the ranking model DB 103 as inputs, performs the processing shown in steps S121 to S124 in FIG. 4 and outputs the training optimal model DB 104.

前記訓練時最適モデル選択部120が内部で利用するデータ構造の例を表3に示し、訓練時最適モデル選択部120が出力する訓練時最適モデルDB104のデータ構造の例を表4に示す。   Table 3 shows an example of the data structure used internally by the training optimal model selection unit 120, and Table 4 shows an example of the data structure of the training optimal model DB 104 output by the training optimal model selection unit 120.

Figure 0005432936
Figure 0005432936

Figure 0005432936
Figure 0005432936

まず図4のステップS121において、訓練データDB102から未処理のクエリqを取得する。   First, in step S121 of FIG. 4, an unprocessed query q is acquired from the training data DB 102.

次にステップS122において、ランキングモデルDB103に含まれる全てのランキングモデルについて、最大の評価値(検索評価指標値)を与えるクエリpを決定する。   Next, in step S122, a query p that gives the maximum evaluation value (search evaluation index value) is determined for all the ranking models included in the ranking model DB 103.

次にステップS123において、訓練時最適モデルDB104にクエリp(例えば表4の最適モデルのクエリID)とq(例えば表4のクエリID)を出力する。   Next, in step S123, the query p (for example, the query ID of the optimal model in Table 4) and q (for example, the query ID of Table 4) are output to the optimal model DB104 during training.

そしてステップ124において、訓練データDB102内の全てのクエリの処理が終わるまでステップS121〜S123の処理を繰り返し実行する。   In step 124, the processes in steps S121 to S123 are repeatedly executed until all the queries in the training data DB 102 are processed.

例えば、各クエリ毎に当該クエリを除いた検索評価指標が大きい最上位のクエリの訓練データを用いることができる。ここで検索評価指標は、MAP(Mean Average Precision)やNDCG(Normalized Discounted Cumulative Gain)などを用いることができる。以降、説明のため検索評価指標にはMAPを用いることとする。   For example, the training data of the highest-order query having a large search evaluation index excluding the query can be used for each query. Here, as the search evaluation index, MAP (Mean Average Precision), NDCG (Normalized Disclosed Cumulative Gain), or the like can be used. Hereinafter, for explanation, MAP is used as a search evaluation index.

上記のような処理によって、訓練データ(訓練データDB102)における最高精度を示すランキングモデルの結果を生成する。表3の例では、クエリq1に対して、クエリq2を用いて生成されたランキングモデルによって0.7のMAP値、クエリqNを用いて生成されたランキングモデルによって0.4のMAP値が得られたことを表している。 By the processing as described above, a ranking model result indicating the highest accuracy in the training data (training data DB 102) is generated. In the example of Table 3, for query q 1 , a MAP value of 0.7 by the ranking model generated using query q 2 and a MAP value of 0.4 by the ranking model generated using query q N Indicates that is obtained.

<距離学習部130>
距離学習部130では、クエリ表現DB101と訓練時最適モデルDB104を入力として受け取り、変換行列DB105を出力する。クエリ表現DB101のデータ構造例を表5、変換行列DB105のデータ構造例を表6に示す。
<Distance learning unit 130>
The distance learning unit 130 receives the query expression DB 101 and the training optimal model DB 104 as inputs, and outputs a transformation matrix DB 105. A data structure example of the query expression DB 101 is shown in Table 5, and a data structure example of the transformation matrix DB 105 is shown in Table 6.

Figure 0005432936
Figure 0005432936

Figure 0005432936
Figure 0005432936

表5の例では、クエリ表現DB101はN個のクエリの特徴表現を格納しており、あるクエリにおけるfiの値が、当該クエリのi番目の特徴の値を示している。この例では、各クエリがM次元の特徴で表現されている。   In the example of Table 5, the query expression DB 101 stores feature expressions of N queries, and the value of fi in a certain query indicates the value of the i-th feature of the query. In this example, each query is represented by M-dimensional features.

クエリqiのクエリ表現ベクトルをxi、クエリqjのクエリ表現ベクトルをxjとすると、ふたつのクエリ表現ベクトルの距離は、   When the query expression vector of the query qi is xi and the query expression vector of the query qj is xj, the distance between the two query expression vectors is

Figure 0005432936
Figure 0005432936

を用いて算出することができる。ここで変換行列AはM次元の特徴空間をM次元の特徴空間に写像するM次元正方行列で、A=Iとする場合、ユークリッド距離となる。   Can be used to calculate. Here, the transformation matrix A is an M-dimensional square matrix that maps the M-dimensional feature space to the M-dimensional feature space. When A = I, the transformation matrix A is the Euclidean distance.

表3の例では、q1に対しては、q2を用いて生成されたランキングモデルが最も高いMAP値を示したため、q1のクエリ表現ベクトルx1と、q2のクエリ表現ベクトルx2の距離を小さくするように変換行列Aの学習を行う。このように全てのクエリqi(i=1...N)について最良の結果を示すランキングモデルを選択し、選択されたクエリと当該クエリの距離が最小となるように変換行列の生成を行う。この変換行列Aの生成には、例えば非特許文献4の技術を用いることができる。 Table The third example, for q 1, because the ranking model generated using q 2 showed the highest MAP value, the query expression vectors x 1 of q 1, query representation vector x 2 of q 2 The conversion matrix A is learned so as to reduce the distance of. In this way, a ranking model showing the best result for all the queries qi (i = 1... N) is selected, and a transformation matrix is generated so that the distance between the selected query and the query is minimized. For example, the technique of Non-Patent Document 4 can be used to generate the transformation matrix A.

次に図2の最適モデルDB作成装置の詳細を説明する。   Next, details of the optimum model DB creation apparatus in FIG. 2 will be described.

<最適モデルDB作成部140>
最適モデルDB作成部140は、図3の変換行列生成装置115によって生成された変換行列DB105と、クエリ表現DB101、ランキングモデルDB103を各々入力とし、図5のステップS141〜S146に示す処理を行なって最適モデルDB106を出力する。
<Optimum model DB creation unit 140>
The optimum model DB creation unit 140 receives the transformation matrix DB 105 generated by the transformation matrix generation device 115 of FIG. 3, the query expression DB 101, and the ranking model DB 103, respectively, and performs the processes shown in steps S141 to S146 of FIG. The optimal model DB 106 is output.

最適モデルDB106のデータ構造の例を表7に示す。   An example of the data structure of the optimal model DB 106 is shown in Table 7.

Figure 0005432936
Figure 0005432936

尚表7は、訓練時最適モデルDB104のクエリ数Nよりも多い件数のクエリqN+Lについて最適モデルを出力した例を示している。このようにqN+L個の最適モデルを構築することにより、後述の文書検索処理時における入力クエリ数がqNよりも多い場合にも対処できる。 Table 7 shows an example in which the optimal model is output for the number of queries q N + L that is larger than the number of queries N in the optimal model DB 104 during training. By constructing q N + L optimal models in this way, it is possible to cope with a case where the number of input queries during document search processing described later is greater than q N.

まず図5のステップS141において、クエリ表現DB101から未処理のクエリqを取得する。   First, in step S141 in FIG. 5, an unprocessed query q is acquired from the query expression DB 101.

次にステップS142において、クエリ表現DB101に含まれる各クエリについて、変換行列DB105を利用して類似度dを計算する。   In step S142, the similarity d is calculated using the transformation matrix DB 105 for each query included in the query expression DB 101.

次にステップS143において、最大の類似度dを持つクエリpを選択する。   Next, in step S143, the query p having the maximum similarity d is selected.

次にステップS144において、ランキングモデルDB103から、前記選択されたクエリpに相当するランキングモデルwを取得する。   Next, in step S144, the ranking model w corresponding to the selected query p is acquired from the ranking model DB 103.

次にステップS145において、クエリqに対する最適モデルを前記取得されたwとして最適モデルDB106に出力する。   In step S145, the optimal model for the query q is output to the optimal model DB 106 as the acquired w.

そしてステップS146において、クエリ表現DB101内の全てのクエリの処理が終わるまでステップS141〜S146の処理を繰り返し実行する。   In step S146, the processes in steps S141 to S146 are repeatedly executed until the processing of all the queries in the query expression DB 101 is completed.

次に図1の文書検索装置100の詳細を図6のフローチャートとともに説明する。   Next, details of the document search apparatus 100 of FIG. 1 will be described with reference to the flowchart of FIG.

<クエリ処理部150>
クエリ処理部150は、検索クエリを入力として受け取り、該検索クエリを含む検索結果集合(文書)を文書インデクスDB107から取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出する(ステップS150)。
<Query processing unit 150>
The query processing unit 150 receives a search query as input, acquires a search result set (document) including the search query from the document index DB 107, and calculates a score factor value matrix using the search result set and a plurality of score factors. (Step S150).

具体的には、M個のスコア要因を用いて、文書インデクスDB107からN件の検索結果集合を取得した際、そのスコア要因値行列は、   Specifically, when N search result sets are acquired from the document index DB 107 using M score factors, the score factor value matrix is:

Figure 0005432936
Figure 0005432936

と表現する。ここで、Dのi行目がi番目の検索結果のスコア要因値を表している。例えば、d23は、2番目の文書に対する3番目のスコア要因値である。 It expresses. Here, the i-th row of D represents the score factor value of the i-th search result. For example, d 23 is the third score factor value for the second document.

<検索スコア計算部160>
検索スコア計算部160は、クエリ処理部150が出力したスコア要因値行列D、ランキングモデルDB103のデータ、最適モデルDB106のデータ、および入力された検索クエリqinputを各々入力として受け取る。
<Search score calculation unit 160>
The search score calculation unit 160 receives the score factor value matrix D output from the query processing unit 150, the data of the ranking model DB 103, the data of the optimal model DB 106, and the input search query q input as inputs.

検索スコア計算部160は、最適モデルDB106から、入力された検索クエリqinputに対応する最適モデルのクエリIDqbestを取得し、当該最適モデルのクエリの重みw(スコア要因重み)をランキングモデルDB103から取得し、該スコア要因重みとスコア要因値行列Dを元に検索スコアベクトルを計算する(ステップS160)。 The search score calculation unit 160 obtains the query ID q best of the optimal model corresponding to the input search query q input from the optimal model DB 106, and calculates the weight w (score factor weight) of the query of the optimal model from the ranking model DB 103. The search score vector is obtained based on the score factor weight and the score factor value matrix D (step S160).

検索ランキングに用いるための検索スコアベクトルsは、スコア要因値行列Dと、スコア要因重みw(qbest)の積によって得られる。 The search score vector s for use in the search ranking is obtained by the product of the score factor value matrix D and the score factor weight w (qbest) .

Figure 0005432936
Figure 0005432936

すなわちi番目の文書に対する検索スコアsiは、   That is, the search score si for the i-th document is

Figure 0005432936
Figure 0005432936

によって算出する。   Calculated by

<検索結果提示部170>
検索結果提示部170は、検索スコアベクトルsを受け取り、検索スコアsiの降順に、クエリに対する検索結果を提示する(表示、又はデータとして出力する)(ステップS170)。
<Search result presentation unit 170>
The search result presentation unit 170 receives the search score vector s, and presents the search result for the query in the descending order of the search score si (displays or outputs it as data) (step S170).

また、本実施形態のランキングモデル選択機能を有する文書検索装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態のランキングモデル選択機能を有する文書検索方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。   In addition, some or all of the functions of each means in the document search apparatus having the ranking model selection function of the present embodiment are configured by a computer program, and the program is executed using the computer to realize the present invention. Of course, it is possible to configure the procedure in the document search method having the ranking model selection function of the present embodiment by a computer program and cause the computer to execute the program. The computer-readable recording medium, for example, FD (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact D) isk) -ROM, DVD (Digital Versatile Disk) -ROM, CD-R, CD-RW, HDD, removable disk, etc., and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or electronic mail.

100…文書検索装置
101…クエリ表現DB
102…訓練データDB
103…ランキングモデルDB
104…訓練時最適モデルDB
105…変換行列DB
106…最適モデルDB
107…文書インデクスDB
110…ランキング関数生成部
120…訓練時最適モデル選択部
130…距離学習部
140…最適モデルDB作成部
150…クエリ処理部
160…検索スコア計算部
170…検索結果提示部
DESCRIPTION OF SYMBOLS 100 ... Document search apparatus 101 ... Query expression DB
102 ... Training data DB
103 ... Ranking model DB
104 ... Optimum model DB for training
105 ... Transformation matrix DB
106 ... Optimal model DB
107 ... Document index DB
DESCRIPTION OF SYMBOLS 110 ... Ranking function production | generation part 120 ... Optimum model selection part 130 at the time of training 130 ... Distance learning part 140 ... Optimal model DB creation part 150 ... Query processing part 160 ... Search score calculation part 170 ... Search result presentation part

Claims (3)

N個のクエリ各々に対してM次元の特徴で表現したクエリ表現データが格納されたクエリ表現データベースと、
N個のクエリに対する文書の検索結果の適合度と、M次元のベクトルで表される特徴表現とを有した訓練データが格納された訓練データデータベースと、
前記訓練データを入力とし、各クエリの前記特徴表現に対する重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成手段と、
前記訓練データおよびランキングモデルを入力とし、前記ランキングモデルデータベース内の全モデルに対して最大の検索評価指標値を与えて、訓練データにおける最高精度を示す訓練時最適ランキングモデルを生成し、該訓練時最適ランキングモデルのクエリと前記訓練データのクエリの対のデータを有した訓練時最適モデルデータベースを構築する訓練時最適モデル選択手段と、
前記クエリ表現データベースと訓練時最適モデルデータベースの各データを入力とし、クエリ表現データベース内のクエリと、該クエリに相当する前記訓練時最適モデルデータベース内の訓練時最適ランキングモデルのクエリとの距離が最小となる変換行列を学習して生成し、変換行列データベースを構築する距離学習手段と、
前記クエリ表現データベース、ランキングモデルデータベースおよび変換行列データベースの各データを入力とし、クエリ表現データベース内の各クエリについて、前記変換行列を利用して各クエリ間の類似度を計算し、最大の類似度を持つクエリを選択し、該選択されたクエリのランキングモデルを前記ランキングモデルデータベースから取得し、該取得されたランキングモデルをクエリに対する最適モデルとして最適モデルデータベースを構築する最適モデルデータベース作成手段と、
予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースと、
入力された検索クエリに対する検索結果集合を前記文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理手段と、
前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースおよび最適モデルデータベースの各データとを入力とし、前記入力された検索クエリに対応する最適モデルを前記最適モデルデータベースから取得し、該取得された最適モデルのクエリに対応する前記ランキングモデルデータベース内のランキングモデルとしての重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算手段と、
前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示手段と、
を備えたことを特徴とするランキングモデル選択機能を有する文書検索装置。
A query expression database storing query expression data expressed by M-dimensional features for each of the N queries;
A training data database in which training data having a matching degree of a document search result with respect to N queries and a feature expression represented by an M-dimensional vector are stored;
Ranking function generating means for generating a ranking model database by generating a ranking model having the training data as an input and holding a weight for the feature expression of each query;
The training data and the ranking model are input, the maximum search evaluation index value is given to all models in the ranking model database, and the training-time optimal ranking model indicating the highest accuracy in the training data is generated. A training optimal model selection means for constructing a training optimal model database having data of a pair of an optimal ranking model query and the training data query;
Each data of the query expression database and the optimal model database for training is input, and the distance between the query in the query expression database and the query of the optimal ranking model for training in the optimal model database for training corresponding to the query is minimum. Distance learning means that learns and generates a transformation matrix and constructs a transformation matrix database;
Using each data of the query expression database, ranking model database, and transformation matrix database as input, for each query in the query expression database, the similarity between the queries is calculated using the transformation matrix, and the maximum similarity is obtained. An optimal model database creating means for acquiring a ranking model of the selected query from the ranking model database and constructing an optimal model database using the acquired ranking model as an optimal model for the query;
A document index database in which a document index created based on a document collected in advance from a Web page is stored;
Query processing means for acquiring a search result set for the input search query from the document index database, and calculating a score factor value matrix from the search result set and a plurality of score factors;
The score factor value matrix calculated by the query processing means and each data of the ranking model database and the optimal model database are input, and an optimal model corresponding to the input search query is acquired from the optimal model database, A search score calculating means for calculating a search score vector by integrating a weight as a ranking model in the ranking model database corresponding to the obtained query of the optimal model and the score factor value matrix;
Search result presenting means for presenting search results for the input query in descending order of the search score calculated by the search score calculating means;
A document retrieval apparatus having a ranking model selection function.
ランキング関数生成手段が、N個のクエリに対する文書の検索結果の適合度と、M次元のベクトルで表される特徴表現とを有した訓練データが格納された訓練データデータベース内の訓練データを入力とし、各クエリの前記特徴表現に対する重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成ステップと、
訓練時最適モデル選択手段が、前記訓練データおよびランキングモデルを入力とし、前記ランキングモデルデータベース内の全モデルに対して最大の検索評価指標値を与えて、訓練データにおける最高精度を示す訓練時最適ランキングモデルを生成し、該訓練時最適ランキングモデルのクエリと前記訓練データのクエリの対のデータを有した訓練時最適モデルデータベースを構築する訓練時最適モデル選択ステップと、
距離学習手段が、N個のクエリ各々に対してM次元の特徴で表現したクエリ表現データが格納されたクエリ表現データベースと前記訓練時最適モデルデータベースの各データを入力とし、クエリ表現データベース内のクエリと、該クエリに相当する前記訓練時最適モデルデータベース内の訓練時最適ランキングモデルのクエリとの距離が最小となる変換行列を学習して生成し、変換行列データベースを構築する距離学習ステップと、
最適モデルデータベース作成手段が、前記クエリ表現データベース、ランキングモデルデータベースおよび変換行列データベースの各データを入力とし、クエリ表現データベース内の各クエリについて、前記変換行列を利用して各クエリ間の類似度を計算し、最大の類似度を持つクエリを選択し、該選択されたクエリのランキングモデルを前記ランキングモデルデータベースから取得し、該取得されたランキングモデルをクエリに対する最適モデルとして最適モデルデータベースを構築する最適モデルデータベース作成ステップと、
クエリ処理手段が、入力された検索クエリに対する検索結果集合を、予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理ステップと、
検索スコア計算手段が、前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースおよび最適モデルデータベースの各データとを入力とし、前記入力された検索クエリに対応する最適モデルを前記最適モデルデータベースから取得し、該取得された最適モデルのクエリに対応する前記ランキングモデルデータベース内のランキングモデルとしての重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算ステップと、
検索結果提示手段が、前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示ステップと、
を備えたことを特徴とするランキングモデル選択機能を有する文書検索方法。
The ranking function generation means receives training data in a training data database in which training data having a fitness of a document search result for N queries and a feature expression represented by an M-dimensional vector are stored. A ranking function generation step of generating a ranking model holding weights for the feature expression of each query and constructing a ranking model database;
The training optimal model selection means takes the training data and ranking model as input, gives the maximum search evaluation index value for all models in the ranking model database, and shows the highest accuracy in training data indicating the highest accuracy in training data Generating a model and constructing a training optimal model database having data of a pair of the training optimal ranking model query and the training data query; and a training optimal model selection step;
The distance learning means inputs the query expression database storing query expression data expressed by M-dimensional features for each of the N queries and each data of the optimal model database at the time of training, and queries in the query expression database Learning and generating a transformation matrix that minimizes the distance from the query of the optimal ranking model for training in the optimal model database for training corresponding to the query, and a distance learning step of constructing the transformation matrix database;
Optimal model database creation means inputs each data of the query expression database, ranking model database, and transformation matrix database, and calculates the similarity between each query using the transformation matrix for each query in the query expression database. An optimal model that selects a query having the maximum similarity, acquires a ranking model of the selected query from the ranking model database, and constructs an optimal model database using the acquired ranking model as an optimal model for the query A database creation step;
The query processing means acquires a search result set for the input search query from a document index database in which a document index created based on a document previously collected from a Web page is stored, and the search result set and a plurality of scores A query processing step for calculating a score factor value matrix with factors,
The search score calculation means inputs the score factor value matrix calculated by the query processing means and each data of the ranking model database and the optimal model database, and selects the optimal model corresponding to the input search query as the optimal A search score calculation step of calculating a search score vector by accumulating the weight as a ranking model in the ranking model database corresponding to the acquired query of the optimal model and the score factor value matrix, obtained from the model database When,
A search result presenting step for presenting a search result for the input query in descending order of the search score calculated by the search score calculating unit;
A document retrieval method having a ranking model selection function characterized by comprising:
コンピュータを請求項1に記載の各手段として機能させるランキングモデル選択機能を有する文書検索プログラム。 A document search program having a ranking model selection function for causing a computer to function as each means according to claim 1.
JP2011032317A 2011-02-17 2011-02-17 Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function Expired - Fee Related JP5432936B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011032317A JP5432936B2 (en) 2011-02-17 2011-02-17 Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011032317A JP5432936B2 (en) 2011-02-17 2011-02-17 Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function

Publications (2)

Publication Number Publication Date
JP2012173794A JP2012173794A (en) 2012-09-10
JP5432936B2 true JP5432936B2 (en) 2014-03-05

Family

ID=46976678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011032317A Expired - Fee Related JP5432936B2 (en) 2011-02-17 2011-02-17 Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function

Country Status (1)

Country Link
JP (1) JP5432936B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216567B2 (en) * 2013-08-19 2017-10-18 株式会社日立製作所 Biometric signature system
JP6492141B2 (en) * 2017-09-25 2019-03-27 株式会社日立製作所 Vector conversion system and vector conversion method
JP7464814B2 (en) * 2019-10-31 2024-04-10 キヤノンマーケティングジャパン株式会社 Information processing device, control method, and program
CN114547251B (en) * 2022-02-28 2024-03-01 陕西师范大学 BERT-based two-stage folk story retrieval method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4332129B2 (en) * 2005-04-20 2009-09-16 富士通株式会社 Document classification program, document classification method, and document classification apparatus
JP4711761B2 (en) * 2005-07-08 2011-06-29 株式会社ジャストシステム Data search apparatus, data search method, data search program, and computer-readable recording medium
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
JP5049223B2 (en) * 2008-07-29 2012-10-17 ヤフー株式会社 Retrieval device, retrieval method and program for automatically estimating retrieval request attribute for web query
JP5084673B2 (en) * 2008-09-04 2012-11-28 ヤフー株式会社 Product information retrieval apparatus, method and system

Also Published As

Publication number Publication date
JP2012173794A (en) 2012-09-10

Similar Documents

Publication Publication Date Title
Volkovs et al. Boltzrank: learning to maximize expected ranking gain
US8761512B1 (en) Query by image
KR101426765B1 (en) System and method for supplying collaboration partner search service
WO2013066929A1 (en) Method and apparatus of ranking search results, and search method and apparatus
JP6308708B1 (en) Patent requirement conformity prediction device and patent requirement conformity prediction program
JP4711761B2 (en) Data search apparatus, data search method, data search program, and computer-readable recording medium
CN108986872B (en) Multi-granularity attribute weight Spark method for big data electronic medical record reduction
JP2018200621A (en) Patent requirement propriety prediction device and patent requirement propriety prediction program
JP5432936B2 (en) Document search apparatus having ranking model selection function, document search method having ranking model selection function, and document search program having ranking model selection function
JP2014059754A (en) Information processing system, and information processing method
CN110046713A (en) Robustness sequence learning method and its application based on multi-objective particle swarm optimization
JP4931111B2 (en) Document classification apparatus and program
Chen et al. Overview of the NTCIR-16 session search (SS) task
JP5497105B2 (en) Document retrieval apparatus and method
JP5355483B2 (en) Abbreviation Complete Word Restoration Device, Method and Program
JP2016018286A (en) Action type discrimination system, action type discrimination method, and action type discrimination program
JP6976178B2 (en) Extractor, extraction method, and extraction program
JP2005092442A (en) Multi-dimensional space model expressing device and method
JPWO2017072890A1 (en) Data management system, data management method and program
CN116932730A (en) Document question-answering method and related equipment based on multi-way tree and large-scale language model
JP6232358B2 (en) Next utterance candidate ranking apparatus, method, and program
JP5820784B2 (en) Search result output device, search result output method and program
KR101592670B1 (en) Apparatus for searching data using index and method for using the apparatus
JP2010128598A (en) Document retrieving device and method, program and recording medium with program recorded thereon
JP2011039977A (en) Word clustering device, method and program, and recording medium storing the program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131206

R150 Certificate of patent or registration of utility model

Ref document number: 5432936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees