JP5211000B2 - ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム - Google Patents

ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム Download PDF

Info

Publication number
JP5211000B2
JP5211000B2 JP2009208332A JP2009208332A JP5211000B2 JP 5211000 B2 JP5211000 B2 JP 5211000B2 JP 2009208332 A JP2009208332 A JP 2009208332A JP 2009208332 A JP2009208332 A JP 2009208332A JP 5211000 B2 JP5211000 B2 JP 5211000B2
Authority
JP
Japan
Prior art keywords
case
ranking function
order relation
database
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009208332A
Other languages
English (en)
Other versions
JP2011059947A (ja
Inventor
良彦 数原
幸生 植松
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009208332A priority Critical patent/JP5211000B2/ja
Publication of JP2011059947A publication Critical patent/JP2011059947A/ja
Application granted granted Critical
Publication of JP5211000B2 publication Critical patent/JP5211000B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ウェブ検索システムにおいて,検索結果のランキングを行うスコアを算出するためのランキング関数を生成する技術に関する。
近年、インターネットの普及によって、インターネット上の膨大なWeb文書群(電子文書群)からユーザが必要とする情報を、的確に検索するウェブ検索システムの重要性が高まっている。このウェブ検索システムでは、検索結果のランキングを行うためのスコアを算出する。このスコア算出のためのランキング関数生成には非特許文献1.2の手法が利用されている。
図6に基づき概略を説明すれば、ランキング関数生成装置1は、目標ドメイン事例DB010の格納データを入力とし、順序関係DB生成機能部050,順序関係DB060,弱ランキング関数生成機能部070,事例選択機能部110,弱ランキング関数格納DB090,弱ランキング関数統合機能部100を通じて、ランキング関数120を出力する。このとき目標ドメイン事例DB010には、非特許文献1.2などで用いられる機械学習アルゴリズムをもとに、ランキング関数を生成するために必要な順序関係DB060のデータ構築用の事例データが格納されている。
Yoav Freund,Raj Iyer,Robert E.Schapire,Yoram Singer. "An Efficient Boosting Algorithm for Combining Preferences". Journal of Machine Learning Research, Vol.4, pp. 933≡969, 2003. Thorsten Joachims,"Optimizing Search Engines Using Clickthrough Data", Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), ACM, 2002
従来技術によれば、ランキング関数生成装置1への入力として、人手による評価データもしくは非特許文献2のようにクリックスルーログ、即ち検索クエリに対するユーザのクリック履歴を検索システムが保存したログなどを元に生成された事例データが用いられてきた。
ところが、非特許文献1.2のような教師あり機械学習のアルゴリズムは、このような性質の異なる各事例データを同時に利用するとランキング関数の精度が低下するおそれがあり、その適用が困難な問題があった。
本発明は、上述のような問題点を解決するためになされたものであり、前述のように性質が異なる複数の事例データを複数用いて、ランキング関数の生成を実現することを解決課題としている。
そこで、本発明は、性質が異なる複数の事例データに対して、別ドメイン事例データの中から目標ドメイン事例データに近い事例を選択しながら学習を行うことにより、高精度のランキング関数生成を実現する。
本発明の一態様は、検索キーワードに基づき電子文書群を検索した検索結果をランキングするためのランキング関数を生成する装置であって、複数のドメイン事例データベースに格納された性質の異なる事例データを統合する事例データ統合手段と、前記事例統合手段の統合した事例データに対して事例同士に順序関係を付与して順序関係データベースに保存する順序関係生成手段と、前記順序関係データベースに保存された順序関係をランキングするためのランキング関数を生成するランキング関数生成手段と、前記順序関係データベースの保存データを順次更新し、更新された順序関係に基づき前記ランキング関数生成手段が生成した各ランキング関数を関数格納データベースに保存する事例選択手段と、前記関数格納データベースの保存データを統合し、最終的なランキング関数を生成するランキング関数統合手段と、を備える。
本発明の他の態様は、検索キーワードに基づき電子文書群を検索した検索結果をランキングするためのランキング関数を生成する方法であって、事例データ統合手段が、複数のドメイン事例データベースに格納された性質の異なる事例データを統合する第1ステップと、順序関係生成手段が、前記第1ステップで統合した事例データに対して事例同士に順序関係を付与して順序関係データベースに保存する第2ステップと、ランキング関数生成手段が、前記順序関係データベースに保存された順序関係をランキングするためのランキング関数を生成する第3ステップと、事例選択手段が、前記順序関係データベースに保存された順序関係を順次更新し、前記第3ステップを繰り返して生成された各ランキング関数を関数格納データベースに保存する第4ステップと、ランキング関数統合手段が、前記関数格納データベースの保存データを統合し、最終的なランキング関数を生成する第5ステップと、を有する。
なお、本発明は、前記装置としてコンピュータを機能させるプログラムに構成することができる。このプログラムは記録媒体に記録した態様で提供してもよい。
本発明によれば、性質が異なる複数の事例データ、例えば人手による評価データやクリックスルーログなどから得られる訓練データを用いて、ランキング関数の生成を行うことが可能となる。
本発明の実施形態に係るランキング関数生成装置の構成図。 同 全体処理を示すフローチャート図。 同 事例DB生成機能部の処理を示すフローチャート図。 同 順序関係Db生成機能部の処理を示すフローチャート図。 同 事例選択機能部の処理を示すフローチャート図。 従来例のランキング関数生成装置の構成図。
以下、本発明の実施形態に係るランキング関数生成装置を説明する。このランキング関数生成装置は、好ましくは従来ランキング関数生成に用いられてきた人手評価データなどの評価データを目標ドメイン事例データとし、目標ドメイン事例DBに格納する。一方、目標ドメイン事例データと性質が異なるものの、ランキング関数生成に利用可能なクリックスルーログなどのデータを別ドメイン事例データとし、別ドメイン事例DBに格納する。
ここでドメインが異なることは、データの性質が異なることを示している。この際、目標ドメインデータには、最終的に達成したいとされるスコアが付与された正解を用いるため、人手による評価データを目標ドメインデータに用いることが適切である。
≪装置構成例≫
図1に基づき前記ランキング関数生成装置の構成例を説明する。ここでは前記ランキング関数生成装置2は、図示省略のユーザ端末からの検索指示に応じて電子文書群を検索するWeb検索システム(いわゆる検索エンジン)を構成する。
具体的には前記ランキング関数生成装置2は、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスクドライブ装置,通信インタフェースなどを備える。
このハードウェアリソースとソフトウェアリソースとの協働の結果、前記ランキング関数生成装置2は、前記目標ドメイン事例DB010,前記別ドメイン事例DB020,事例DB生成機能部030,事例DB040,順序関係DB生成機能部050,順序関係DB060,弱ランキング関数生成機能部070,事例選択機能部110,弱ランキング関数格納DB090,弱ランキング関数統合機能部100を有している。ここでは別ドメイン事例DB020,事例DB生成機能部030を有する点で従来技術と相違する。
このうち前記各DB010.020.040.060.090は、前記ハードディスクドライブ装置上に構築されているものとする。なお、前記各ドメイン事例DB010.020は、前記ランキング関数生成装置2に内蔵する必要はなく、データ送受信可能な外部データベースとして構築してもよい。表1.2は、前記各ドメイン事例DB010.020に格納されるデータ構成例を示している。
Figure 0005211000
表1は、前記目標ドメイン事例DB010のデータ構成例を示し、ランキング関数を生成するために用いられる事例データが格納されている。ここでは「qid 1」のクエリにおいて、スコア5の文書はスコア4の文書よりもランキング上位に位置する情報を示している。また、特徴1〜特徴Kは、「qid 1」のクエリによって検索された際の各特徴の値を示している。この特徴は、例えば単語頻度のようにクエリに依存する値や、ページの重要度のように静的に付与されるものがある。ページの重要度は、Webページのリンク情報などを用いて算出される。
Figure 0005211000
表2は、前記別ドメイン事例DB020のデータ構成例を示している。ここでは前記別ドメイン事例DB20は、前記目標ドメイン事例DB010と異なる性質の事例データを保持するデータベースであり、基本的には前記目標ドメイン事例DB10が保持するデータと同じ形式でクエリ,文書に対するスコアが付与されている。別ドメイン事例としては、例えばクリックスルーログ(ユーザのクリック履歴)などが挙げられる。
また、前記各機能部030.050.070.100.110の概略を説明すれば、前記事例DB作成機能部030は、前記各ドメイン事例DB010.020から入力されたデータに基づき目標ドメイン、別ドメインという情報を保持した事例データを前記事例DB40に格納する。また、前記順序関係DB生成機能部050は、前記事例DB040を参照してランキング関数を生成するために、それぞれの順序関係毎に重み初期値を設定する。この重み付き順序関係データを前記順序関係DB060に格納する。
前記弱ランキング関数生成機能部070は、前記順序関係DB060を参照して重み付き順序関係データに基づきランキング関数(以下、最終的に生成されるランキング関数と区別するために弱ランキング関数とする。)を生成する。
前記事例選択機能部110は、前記弱ランキング関数生成機能部070で生成された弱ランキング関数と、前記順序関係DB60の格納データと、前記事例DB40の格納データとを入力として、前記順序関係DB060に格納された順序関係の重みを更新する。この更新された重み付き順序関係データに基づき弱ランキング関数の生成が多数回にわたって試行される。
このとき順序関係の重みの更新は、従来技術とは異なり、前記事例DB040に格納された目標ドメインと別ドメインとで区別することにより、別ドメインデータ中から役立つ順序関係を選択する。すなわち、目標ドメインデータについては生成された弱ランキング関数で誤ってランキングされた順序関係の重みを大きくして更新する。
これにより次回の試行では、前回の試行で良好にランキングできなかった事例に対して有効に働くような弱ランキング関数を生成することができる。また、別ドメインデータについては誤ってランキングされた順序の重みを小さくして更新することによって、次回の試行で目標ドメイン学習のノイズとなるような順序関係の影響を排除することができる。このように各試行の結果生成された弱ランキング関数の情報は、前記事例選択機能部110を通じて前記弱ランキング関数DB090に格納される。
前記弱ランキング関数統合機能部100は、前記弱ランキング関数DB090を参照して各試行の結果生成された弱ランキング関数を統合し、一つの最終的なランキング関数120を生成・出力する。出力されたランキング関数120は、Web検索システム(いわゆる検索エンジン)にて、検索結果をランキングするスコア算出に利用される。
図2は、前記ランキング関数生成装置2の全体的な処理ステップ(S001〜S009)を示している。ここでは処理が開始されると、前記目標ドメイン事例DB010および前記別ドメイン事例DB020の格納データを入力として、前記事例DB生成機能部030を通じて前記事例DB040の格納データが作成される(S001)。また、前記事例DB040の格納データを入力として、前記順序関係DB作成機能部050を通じて、前記順序関係DB060の格納データが作成される(S002)。
つぎに前記弱ランキング関数生成機能部070は、あらかじめ設定された弱ランキング関数生成の総試行数Nに達するまで弱ランキング関数の生成を試行する(S003〜S005)。ここでは弱ランキング関数の生成は、試行回数I=0を初期値とし、「試行回数I<設定総試行数N」である限りS006〜S008の処理が繰り返される(S004.S005)。なお、総試行数Nは、閾値としてプログラムなどに設定しておけばよい。
すなわち、前記順序関係DB060および前記事例DB040の格納データを入力とし、前記弱ランキング関数生成機能部070により弱ランキング関数を生成する(S006)。また、生成された弱ランキング関数と前記順序関係DB060および前記事例DB040の格納データを入力とし、前記事例選択機能部110により前記順序関係DB060および弱ランキング関数格納DB090の格納データを更新する(S007)。
そして、試行回数「I」に「I+1」を代入し(S008)、「試行回数I=設定総試行数N」が成立すれば、S009に進む(S005)。S009では前記弱ランキング関数格納DB090の格納データを入力とし、前記弱ランキング関数統合機能部100によりランキング関数120が生成され、処理を終了する。以下、前記各機能部030.050.070.110.100の具体的な処理内容を説明する。
≪事例DB生成機能部030≫
前記事例DB生成機能部030は、各ドメイン事例DB010.020からの入力データを結合し、前記事例DB040に格納する。このとき連続番号の事例IDとドメイン情報(目標ドメインであるか、別ドメインであるか)という情報を加える。これにより入力データに基づき目標ドメイン(target)、別ドメイン(different)といった情報を保持した前記事例DB040が構築される。この処理内容を図3のフローチャートに基づき説明する。
S101〜S103:まず、処理が開始されると、前記事例DB40に格納する事例IDの番号「i」に「1」を代入し(S101)、前記目標ドメイン事例DB010を参照して入力データ中の未処理レコードを取得する(S102)。ここで取得したレコードの先頭に事例IDの番号「i」,ドメイン(target)のカラムを加えたレコードを前記事例DB40に追加する(S103)。
S104.S105:事例IDの番号「i」に「i+1」を代入し(S104)、前記目標ドメインDB010に未処理レコードが存在するか否かを確認する(S105)。確認の結果、未処理のレコードがあればS102に戻ってS103の処理を繰り返す一方、未処理のレコードが無ければS106に進む。
S106.S107:つぎに前記別ドメイン事例DB020から未処理のレコードを取得する(S106)。ここでは取得したレコードの先頭に事例ID「i」,ドメイン「different」のカラムを加えたレコードを前記事例DB040に追加する(S107)。
S108.S109:事例IDの番号「i」に「i+1」を代入し(S108)、前記別ドメイン事例DB020に未処理レコードが存在するか否かを確認する(S109)。確認の結果、前記別ドメイン事例DB020に未処理のレコードが存在すれば、S106に戻ってS107の処理を繰り返す一方、未処理のレコードが無ければ処理を終了する。
なお、表3は、S101〜S109の処理の結果、前記事例DB040に格納されるレコードの一例を示している。ここでは前記事例DB040には、事例ID毎にドメイン(target/different)やクエリ(qid)、スコア、特徴1〜Kの情報が格納されている。
Figure 0005211000
≪順序関係DB生成機能部050≫
前記順序関係DB作成機能部050は、前記事例DB040の格納データを入力とし、前記順序関係DB060を生成する。ここでは同じクエリ(qid)・同じドメインのレコードについて、スコアに差がある事例同士をひとつの順序関係として,前記順序関係DB060に格納する。
このとき前記順序関係DB060は、事例同士の順序関係の情報(重み)を保持する。重みは、前記弱ランキング関数生成機能部070を用いて、弱ランキング関数を生成する際に用いられる。以下、図4のフローチャートに基づき前記作成機能部050の処理を説明する。ここでは前記事例DB040の格納データ総量(レコード総数)を「M」と表す。
S201.S202:処理が開始されると、まず「M」に「0」を代入し(S201)、前記事例DB040からドメイン毎にクエリ(qid)のユニーク集合を取得する(S202)。ここで取得したクエリ集合をQとする。
S203:S202で取得した集合Qに未処理のクエリ(qid)が存在するか否かを確認する。確認の結果、未処理のクエリ(qid)が存在すればS204に進む一方、存在しなければS211に進む。
S204.S205:クエリ集合Qから次の未処理クエリqとドメインdを抽出する(S204)。つぎに前記事例DB040からクエリqとドメインdを含むレコードを取得し、スコア順にソートし、これを「R」とする(S205)。
S206:S205のソート結果Rに未処理のレコードがあるか否かを確認し、未処理のレコードがあればS207に進み、未処理のレコードが無ければS203に戻って次のクエリ(qid)の処理を実施する。
S207〜209:前記事例DB040からクエリqとドメインdを含む次の未処理レコードを取得する(S207)。取得したレコードを「r」とする。ここではソート結果Rに含まれる「r」以降のレコードのうち、「r」よりもスコアの小さいドメインの等しいレコードを取得する(S208)。取得したレコードを「R’」とする。
この「R’」に含まれる各「r’」について、「target/different」のドメイン、「r」の事例IDを上位事例ID、「r’」の事例IDを下位IDとして前記順序関係DB60に出力する(S209)。
S210.S211:「M」に「M+1」を代入し(S210)、S206に戻って未処理レコードの有無が確認される。このときソート結果Rに未処理のレコードが無ければ、S203にて未処理クエリの有無が確認される。
ここで未処理のクエリが集合Qに無ければ、全てのレコードの重みを1/Mに設定し(S211)、処理を終了する。設定される重みは初期値とする。なお、表4は、S201〜S211の処理の結果、前記順序関係DB060に格納されるレコードの一例を示し、ドメイン(target/different)毎に上位事例ID、下位事例ID、重み(初期値)の情報が格納されている。
Figure 0005211000
≪弱ランキング関数生成機能部070≫
前記弱ランキング関数生成機能部070には,例えば非特許文献1の「WeakLearn」アルゴリズムを利用することができる。ここでは弱ランキング関数生成機能部という名称であるが,通常のランキング関数生成装置を利用できる。
非特許文献1の「WeakLearn」アルゴリズムは、ひとつの特徴に着目し,その値が閾値以上であれば「1」,閾値以下であれば「0」を与えるランキング関数である。したがって、優位度,特徴ID,閾値の3つの情報を保持すれば,弱ランキング関数を再現することが可能である。
具体的には前記弱ランキング関数生成機能部070は、前記順序関係DB060に格納された順序関係の重みを考慮して、弱ランキング関数の生成を行う。このとき前記順序関係DB060において重みの大きい順序関係の誤りコスト(優位度)を大きく,重みの小さい順序関係を誤りコスト(優位度)が小さいとみなすことで、重みの大きい順序関係を適切にランキングするための弱ランキング関数を生成する。
≪事例選択機能部110≫
以下、前記事例選択機能部110の処理内容を、図5のフローチャートに基づき説明する。ここでは前記順序関係DB060に格納された順序関係の重み、即ち弱ランキング関数生成時の重みを順次更新していく。
S301:まず、前記弱ランキング関数生成機能部070を通じて生成された弱ランキング関数の生成元、即ち前記順序関係DB060の順序関係に対する重み付き正解率となる優位度αを算出する。αの算出方法は、例えば非特許文献1の方法などを利用する。
ここでは前記順序関係DB060のドメインが「target」であるレコードのうち、生成された弱ランキング関数によって誤ってランキングされた順序関係の重みの和を全体の重み和で正規化したものを「{ EMBED Equation.3 , }」とすると、式(1)を用いて優位度αを求めることができる。
Figure 0005211000
S302.S302:前記正規化のための正規化総量Zに「0」を代入し(S302)、続いて前記順序関係DB060から未処理のレコードを取得する(S303)。ここで取得したレコードを「p」とする。
S304.S305:弱ランキング関数によってS303で取得したレコードpの上位事例と下位事例とをランキングする(S304)。このランキングは、前記事例DB040から入力された特徴1〜Kを用いる。このときレコードpが、正しくランキングされた場合はS307に進む一方、正しくランキングされていない場合はS306に進む(S305)。
S306:前記順序関係DB060における順序関係のレコードpの重みを更新する。重みの更新方法は、目標ドメイン事例(target)と別ドメイン事例(different)とで異なる。ここでは前回の弱ランキング関数の生成試行における重みを「Wt」とすると、例えば式(2)の更新式で重みを更新することができる。
Figure 0005211000
このとき別ドメインについては重みを下げる。例えば式(2)における「α」を式(3)とする。この式(3)において、「n」は、順序関係DB060の「different」ドメインのレコード数、Nは弱ランキング関数生成の設定総試行数を示している。
Figure 0005211000
S307〜S309:正規化総量Zに「Z+p」の重みを代入し(S307)、未処理のレコードが前記順序関係DB60に存在するか否かを確認する(S308)。確認の結果、未処理のレコードが存在すればS303に戻って以後の処理を再開する一方、未処理のレコードが存在しなければS309に進む。S309では、前記順序関係DB060の全てのレコードの重みを正規化総量Zで除算した値に更新する。このS301〜S309の処理を弱ランキング関数の生成毎に実施することで前記弱ランキング関数DB090が構築される。
Figure 0005211000
表5は、前記弱ランキング関数DB090の格納データ構成例を示している。ここでは非特許文献1のWeakLearn」アルゴリズムを用いて弱ランキング関数を生成したデータ構成例を示している。このデータ構成例では、S306で順次更新された優位度と、弱ランキング関数生成時の閾値と、S304のランキングに用いた特徴IDとが格納されている。
≪弱ランキング関数統合機能部100≫
前記弱ランキング関数統合機能部100は、非特許文献1に示される方法などで弱ランキング関数を統合し、最終的なランキング関数120を生成する。具体的には、前記弱ランキング関数DB090に格納された各弱ランキング関数(表5では試行1〜試行N)を、それぞれの優位度で重み付けして足し合わせてランキング関数120を生成する。
このとき試行1〜Nの全ての弱ランキング関数ではなく、例えば半分以降のN/2からNの弱ランキング関数を足し合わせるなど、足し合わせる数を指定することも可能である。したがって、前記ランキング関数生成装置2によれば、従来技術では実現できなかった性質の異なる複数の事例データ、即ち人手による評価データやクリックスルーログなどから得られる複数の訓練データを用いて、ランキング関数の生成を行うことが可能となる。
なお、生成されたランキング関数120は、Web検索システム(いわゆる検索エンジン)にて、検索キーワードに基づき電子文書群を検索した検索結果をランキングするためのスコア算出に利用され、電子文書群の検索結果がスコアに従ってソートされ、ユーザ端末に返信される。
≪プログラムなど≫
本発明は、前記ランキング関数生成装置2の各構成010.012.030〜070,090.100.110の一部もしくは全部として、コンピュータを機能させるランキング関数生成プログラムに構成することもできる。このプログラムによれば、S001〜S009.S101〜S109.S201〜S211.S301〜S309の全ステップあるいは一部のステップをコンピュータに実行させることができる。
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
2…ランキング関数生成装置
010…目標ドメイン事例DB(ドメイン事例データベース)
012…別ドメイン事例DB(ドメイン事例データベース)
030…事例DB生成機能部(事例データ統合手段)
040…事例DB(事例データベース)
050…順序関係DB生成機能部(順序関係生成手段)
060…順序関係DB(順序関係データベース)
070…弱ランキング関数生成機能部(ランキング関数生成手段)
090…弱ランキング関数格納DB(関数格納データベース)
100…弱ランキング関数統合機能部(ランキング関数統合手段)
110…事例選択機能部(事例選択手段)
120…ランキング関数

Claims (7)

  1. 検索キーワードに基づき電子文書群を検索した検索結果をランキングするためのランキング関数を生成する装置であって、
    複数のドメイン事例データベースに格納された性質の異なる事例データを統合する事例データ統合手段と、
    前記事例データ統合手段の統合した事例データに対して事例同士に順序関係を付与して順序関係データベースに保存する順序関係生成手段と、
    前記順序関係データベースに保存された順序関係をランキングするためのランキング関数を生成するランキング関数生成手段と、
    前記順序関係データベースの保存データを順次更新し、更新された順序関係に基づき前記ランキング関数生成手段が生成した各ランキング関数を関数格納データベースに保存する事例選択手段と、
    前記関数格納データベースの保存データを統合し、最終的なランキング関数を生成するランキング関数統合手段と、
    を備えることを特徴とするランキング関数生成装置。
  2. 前記各ドメイン事例データベースに格納される事例データは、それぞれクエリ毎に各電子文書のスコアとクエリ検索時の特徴値とを有し、
    前記事例データ統合手段は、前記各ドメイン事例データベースに格納された事例データに対して事例毎にドメインの種別を追記して事例データベースに保存し、
    前記順序関係生成手段は、前記事例データベースに格納された同一クエリ・同一ドメインの事例データに対して、スコア差を有する事例同士の順序関係の重み情報をドメイン毎に前記順序関係データベースの保存し、
    前記ランキング関数生成手段は、前記順序関係データベースに保存された重み情報に応じてランキング関数を生成し、
    前記事例選択手段は、前記順序関係データベースに保存された重み情報の更新手法をドメインに応じて区別する
    ことを特徴とする請求項1記載のランキング関数生成装置。
  3. 前記事例選択手段は、前記順序関係データベースの保存データのうち、特定のドメインに対して前記重み情報を大きくして更新する一方、
    他のドメインに対して前記重み情報を小さくして更新することを特徴とする請求項2記載のランキング関数生成装置。
  4. 検索キーワードに基づき電子文書群を検索した検索結果をランキングするためのランキング関数を生成する方法であって、
    事例データ統合手段が、複数のドメイン事例データベースに格納された性質の異なる事例データを統合する第1ステップと、
    順序関係生成手段が、前記第1ステップで統合した事例データに対して事例同士に順序関係を付与して順序関係データベースに保存する第2ステップと、
    ランキング関数生成手段が、前記順序関係データベースに保存された順序関係をランキングするためのランキング関数を生成する第3ステップと、
    事例選択手段が、前記順序関係データベースに保存された順序関係を順次更新し、前記第3ステップを繰り返して生成された各ランキング関数を関数格納データベースに保存する第4ステップと、
    ランキング関数統合手段が、前記関数格納データベースの保存データを統合し、最終的なランキング関数を生成する第5ステップと、
    を有することを特徴とするランキング関数生成方法。
  5. 前記第1ステップは、クエリ毎に各電子文書のスコアとクエリ検索時の特徴値とを含有する前記各ドメイン事例データベースの事例データに対して、事例毎にドメインを付加して事例データベースに保存し、
    前記第2ステップは、前記ドメイン事例データベースに格納された同一クエリ・同一ドメインのレコードに対して、スコア差を有する事例同士の順序関係の重み情報をドメイン毎に前記順序関係データベースの保存し、
    前記第3ステップは、前記順序関係データベースに保存された重み情報に応じてランキング関数を生成し、
    前記第4ステップは、前記順序関係データベースに保存された重み情報の更新手法をドメインに応じて区別する
    ことを特徴とする請求項4記載のランキング関数生成装置。
  6. 前記第4ステップは、前記順序関係データベースの保存データのうち、特定のドメインに対して前記重み情報を大きくして更新する一方、
    他のドメインに対して前記重み情報を小さくして更新することを特徴とする請求項5記載のランキング関数生成方法。
  7. 請求項1〜請求項3のいずれか1項に記載のランキング関数生成装置の各手段としてコンピュータを機能させるためのランキング関数生成プログラム。
JP2009208332A 2009-09-09 2009-09-09 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム Expired - Fee Related JP5211000B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009208332A JP5211000B2 (ja) 2009-09-09 2009-09-09 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009208332A JP5211000B2 (ja) 2009-09-09 2009-09-09 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム

Publications (2)

Publication Number Publication Date
JP2011059947A JP2011059947A (ja) 2011-03-24
JP5211000B2 true JP5211000B2 (ja) 2013-06-12

Family

ID=43947507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009208332A Expired - Fee Related JP5211000B2 (ja) 2009-09-09 2009-09-09 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム

Country Status (1)

Country Link
JP (1) JP5211000B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5442586B2 (ja) * 2010-11-30 2014-03-12 日本電信電話株式会社 情報検索装置、情報検索方法及びそのプログラム
JP6059598B2 (ja) * 2013-05-21 2017-01-11 日本電信電話株式会社 情報抽出方法、情報抽出装置及び情報抽出プログラム
US11636120B2 (en) 2014-11-21 2023-04-25 Microsoft Technology Licensing, Llc Offline evaluation of ranking functions

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance

Also Published As

Publication number Publication date
JP2011059947A (ja) 2011-03-24

Similar Documents

Publication Publication Date Title
KR101557294B1 (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
JP5420243B2 (ja) 所望リポジトリの判定
US7480667B2 (en) System and method for using anchor text as training data for classifier-based search systems
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
US20100262610A1 (en) Identifying Subject Matter Experts
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
US20160078047A1 (en) Method for obtaining search suggestions from fuzzy score matching and population frequencies
CN1573923A (zh) 用于用户模型化以增强对命名实体识别的系统和方法
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US20110231411A1 (en) Topic Word Generation Method and System
CN1295705A (zh) 基于语言模型的信息检索和语音识别
US20070162408A1 (en) Content Object Indexing Using Domain Knowledge
Sisodia et al. Fast prediction of web user browsing behaviours using most interesting patterns
JP6079270B2 (ja) 情報提供装置
JP5211000B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
WO2024078141A1 (zh) 主题文献检索预测方法
CN115062135B (zh) 一种专利筛选方法与电子设备
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP5008137B2 (ja) 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体
JP2011100191A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP5416552B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
US20090319505A1 (en) Techniques for extracting authorship dates of documents
CN109614542B (zh) 公众号推荐方法、装置、计算机设备及存储介质
JP6916136B2 (ja) 検索支援装置、検索支援方法、及び検索支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130225

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5211000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees