JP2013061718A - サポートベクタ選択装置、方法、及びプログラム - Google Patents

サポートベクタ選択装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013061718A
JP2013061718A JP2011198368A JP2011198368A JP2013061718A JP 2013061718 A JP2013061718 A JP 2013061718A JP 2011198368 A JP2011198368 A JP 2011198368A JP 2011198368 A JP2011198368 A JP 2011198368A JP 2013061718 A JP2013061718 A JP 2013061718A
Authority
JP
Japan
Prior art keywords
search
support vector
support
training
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011198368A
Other languages
English (en)
Other versions
JP5684077B2 (ja
Inventor
Yoshihiko Kazuhara
良彦 数原
Jun Suzuki
潤 鈴木
Yoshihito Yasuda
宜仁 安田
Yoshimasa Koike
義昌 小池
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011198368A priority Critical patent/JP5684077B2/ja
Publication of JP2013061718A publication Critical patent/JP2013061718A/ja
Application granted granted Critical
Publication of JP5684077B2 publication Critical patent/JP5684077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ランキング精度の低下を抑制して、サポートベクタの数を減らすことができるようにする。
【解決手段】ランキング関数生成部21によって、訓練データデータベース21に記憶された訓練データに基づいて、ランキング関数における複数のサポートベクタ及びサポートベクタの各ペアに対する重みを学習する。検索評価部25によって、サポートベクタの各ペアについて、該サポートベクタペアを使わないランキング関数により算出される検索スコアに基づいて、各検索クエリに対する検索結果をランキングし、各検索クエリに対してランキングされた検索結果に基づいて、該サポートベクタペアを使わない場合の評価指標の減少への影響を示す影響度スコアを算出する。サポートベクタ選択部27によって、影響度スコアが小さいサポートベクタペアの重みを0に設定する。
【選択図】図1

Description

本発明は、サポートベクタ選択装置、方法、及びプログラムに係り、特に、検索クエリに基づき文書の集合を検索した検索結果をランキングするためのランキング関数で用いるサポートベクタを選択するサポートベクタ選択装置、方法、及びプログラムに関する。
従来より、ウェブ検索システムのような検索システムにおいては、TF−IDFのようなクエリ頻度に基づくスコアや、PageRankのようなリンク解析に基づくスコアなど、多数の要因(スコア要因と呼ぶ)を用いて、最終的なランキングに用いる検索スコアを算出する方法が知られている(例えば、非特許文献1)。また、算出された検索スコアの降順に並べることによって、ランキングを行った検索結果を提示する方法が広く用いられている。
ここで、多数のスコア要因を入力として受け取り、検索スコアを出力する関数をランキング関数と呼ぶ。適合度に沿ったランキングを実現するために、人手によって作成した訓練データを用いて、ランキング関数を生成する技術が知られている(例えば、非特許文献2)。
このランキング関数を生成する技術では、訓練データを文章の順序ペアに落とし込み、順序ペアの誤りを最小化することで、適切にランキングを行うランキング関数を生成している。
中でも、スコア要因の非線形結合を考慮するカーネル法を用いたランキング関数生成手法が知られている(例えば、非特許文献3)。この方法では、訓練データに含まれる文書の順序ペアに対して重みを計算し、保持する。このような順序ペアをサポートベクタと呼んでいる。予測フェーズでは入力文書に対して、入力文書と各サポートベクタとの類似度の重み付け和でスコアを計算する。この類似度計算に用いられる関数をカーネル関数と呼ぶ。
ただし、上記の非特許文献3に記載されているような、逐次的にカーネルを用いた学習を行う手法の場合、サポートベクタ数は増加し続けてしまう。サポートベクタ数が増えると、入力文書の予測に時間がかかるため、学習と予測の処理速度が低下するという問題がある。
そこで、従来技術では、保持するサポートベクタ数に上限を設け、取捨選択を行うことによって、処理速度の低下を防ぐ手法を用いている(例えば、非特許文献4)。これらの方法には、サポートベクタをランダムに選択する手法や訓練データに対する分類誤差に基づいてサポートベクタの取捨選択を行う手法などがある。
竹野浩,井上孝史,「分散型高速情報収集/全文検索システムIn−foBee/Evangelist」,NTT R&D,Vol.52(2),2003,pp・78−84. Thorsten Joachims,"Optimizing serch engines using clickthrough data",In Proceedings of the eighth ACM international conference on Knowledge Discovery and Data mining (KDD’02),pp.133−142,2002. Xue−wen Chen,Haixun Wang, Xiaotong Lin,"Learning to rank with a novel kernel perceptron method", In Proceeding of the 18th ACM conference on Infomation and knowledge management(CIKM ’09),pp.505−512,2009. Zhuang Wang,Slobodan Vucetic,"Online Passive−Aggressive Algo−rithms on a Budget", In Proceedings of the 13th International Conference on Artificial Intelligence and Statistics(AISTATS),pp.908−915,2010.
順序づけられた検索結果の集合に対して、適合性評価をもとに算出される検索評価指標は、検索クエリが含まれる文書を全てランキングしなければ計算することができないため、従来技術では検索評価指標を考慮することができない。このため、上記の非特許文献4に記載の方法を用いてサポートベクタの選択を行った場合は、ランキング精度が低下してしまう、という問題がある。
本発明は、上記の事情を鑑みてなされたもので、ランキング精度の低下を抑制して、サポートベクタの数を減らすことができるサポートベクタ選択装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために第1の発明に係るサポートベクタ選択装置は、入力された検索クエリに基づき文書の集合を検索した検索結果をランキングするための、複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組を生成する装置であって、訓練用検索クエリに対する検索結果の各文書について求められた特徴値及び前記訓練用検索クエリに対する適合度を、各訓練用検索クエリについて記憶した訓練データベースと、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習するランキング関数生成手段と、各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価する検索評価手段と、前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組を、前記暫定ランキング関数から除外したものを、前記検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組とするサポートベクタ選択手段と、を含んで構成されている。
第2の発明に係るサポートベクタ選択方法は、訓練用検索クエリに対する検索結果の各文書について求められた特徴値及び前記訓練用検索クエリに対する適合度を、各訓練用検索クエリについて記憶した訓練データベース、ランキング関数生成手段、検索評価手段、及びサポートベクタ選択手段を含み、入力された検索クエリに基づき文書の集合を検索した検索結果をランキングするための、複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組を生成する装置におけるサポートベクタ選択方法であって、前記装置は、前記ランキング関数生成手段によって、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習するステップと、前記検索評価手段によって、各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価するステップと、前記サポートベクタ選択手段によって、前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組を、前記暫定ランキング関数から除外したものを、前記検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組とするステップと、を含んで実行することを特徴とする。
第1の発明及び第2の発明によれば、ランキング関数生成手段によって、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習する。
そして、前記検索評価手段によって、各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価する。前記サポートベクタ選択手段によって、前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組を、前記暫定ランキング関数から除外したものを、前記検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組とする。
このように、評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組を、ランキング関数で用いるサポートベクタまたはサポートベクタの組から除外することにより、ランキング精度の低下を抑制して、サポートベクタまたはサポートベクタの組の数を減らすことができる。
第3の発明に係るランキング関数生成装置は、入力された検索クエリに基づき文書の集合を検索した検索結果をランキングするための、複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する検索用ランキング関数で用いる重みを生成する装置であって、訓練用検索クエリに対する検索結果の各文書について求められた特徴値及び前記訓練用検索クエリに対する適合度を、各検索クエリについて記憶した訓練データベースと、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習するランキング関数生成手段と、各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価する検索評価手段と、前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組に対する前記重みを0に設定するサポートベクタ選択手段と、を含んで構成されている。
第4の発明に係るランキング関数生成方法は、訓練用検索クエリに対する検索結果の各文書について求められた特徴値及び前記訓練用検索クエリに対する適合度を、各検索クエリについて記憶した訓練データベース、ランキング関数生成手段、検索評価手段、及びサポートベクタ選択手段を含み、入力された検索クエリに基づき文書の集合を検索した検索結果をランキングするための、複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する検索用ランキング関数で用いる重みを生成する装置におけるサポートベクタ選択方法であって、前記装置は、前記ランキング関数生成手段によって、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習するステップと、前記検索評価手段によって、各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価するステップと、前記サポートベクタ選択手段によって、前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組に対する前記重みを0に設定するステップと、を含んで実行することを特徴とする。
第3の発明及び第4の発明によれば、前記ランキング関数生成手段によって、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習する。
そして、前記検索評価手段によって、各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価する。前記サポートベクタ選択手段によって、前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組に対する前記重みを0に設定する。
このように、評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組に対する重みを0に設定することにより、ランキング精度の低下を抑制して、サポートベクタまたはサポートベクタの組の数を減らすことができる。
上記の第1の発明に係る前記検索評価手段は、各サポートベクタまたはサポートベクタの各組について、該サポートベクタまたはサポートベクタの組を使わない前記ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、各訓練用検索クエリに対して該サポートベクタまたはサポートベクタの組を使わない場合の評価指標を算出し、前記評価指標の平均値を、前記評価指標の最大値から減算した値を、該サポートベクタまたはサポートベクタの組の影響度スコアとして算出し、前記サポートベクタ選択手段は、前記検索評価手段によって算出された前記影響度スコアが小さいサポートベクタまたはサポートベクタの組を、前記ランキング関数で用いるサポートベクタまたはサポートベクタの組から除外するようにすることができる。
上記の第3の発明に係る前記検索評価手段は、各サポートベクタまたはサポートベクタの各組について、該サポートベクタまたはサポートベクタの組を使わない前記ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、各訓練用検索クエリに対して該サポートベクタまたはサポートベクタの組を使わない場合の評価指標を算出し、前記評価指標の平均値を、前記評価指標の最大値から減算した値を、該サポートベクタまたはサポートベクタの組の影響度スコアとして算出し、前記サポートベクタ選択手段は、前記検索評価手段によって算出された前記影響度スコアが小さいサポートベクタまたはサポートベクタの組に対する前記重みを0に設定するようにすることができる。
本発明に係るプログラムは、コンピュータを、上記のサポートベクタ選択装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明のサポートベクタ選択装置、方法、及びプログラムによれば、評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組を、ランキング関数で用いるサポートベクタまたはサポートベクタの組から除外することにより、あるいは、評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組に対する重みを0に設定することにより、ランキング精度の低下を抑制して、サポートベクタまたはサポートベクタの組の数を減らすことができる、という効果が得られる。
本発明の第1の実施の形態に係るランキング関数生成装置の構成を示す概略図である。 本発明の第1の実施の形態に係る文書検索装置の構成を示す概略図である。 本発明の第1の実施の形態に係るランキング関数生成装置における検索評価処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係るランキング関数生成装置におけるサポートベクタペア選択処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係る文書検索装置における文書検索処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
〔第1の実施の形態〕
<システム構成>
本発明の第1の実施の形態に係るランキング関数生成装置100は、学習時に学習用として与えられた訓練データを入力として受け取り、後述するサポートベクタデータベース23とサポートベクタペア重みデータベース24の記憶内容を出力する。このランキング関数生成装置100は、CPUと、RAMと、後述する検索評価処理ルーチン及びサポートベクタペア選択処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、ランキング関数生成装置100は、入力部10と、演算部20と、出力部30とを備えている。
入力部10は、入力された訓練データとして、訓練用検索クエリのIDと、検索結果文書の複数の特徴値からなる特徴表現と、訓練用検索クエリに対する適合度とを含むデータを複数受け付ける。
演算部20は、訓練データデータベース21、ランキング関数生成部22、サポートベクタデータベース23、サポートベクタペア重みデータベース24、検索評価部25、サポートベクタペアスコアデータベース26、及びサポートベクタ選択部27を備えている。
訓練データデータベース21は、入力部10により受け付けた複数の訓練データを記憶する。訓練データデータベース21のデータ構造の例を以下の表1に示す。
Figure 2013061718
表1において、それぞれの行が、ある訓練用検索クエリに対する検索結果文書の特徴表現と当該訓練用検索クエリに対する検索結果文書の適合度を表している。適合度が高い方が、当該訓練用検索クエリに対してより適切な検索結果であることを示している。適合度は、訓練用検索クエリ及び当該訓練用検索クエリに対する検索結果文書の組み合わせに対して付与されている。このため、たとえ同じ文書であっても、訓練用検索クエリによっては異なる適合度が付与されることがある。すなわち、同じ文書であっても、表1では複数の行に記載され、検索結果文書の特徴表現としては同じ特徴値を有するものの、それぞれ異なるクエリIDと適合度と組み合わせられて記憶されている。なお、適合度は、検索結果文書が検索クエリに関する情報をどれだけ適切に含んでいるかという観点で、予め付与されるものであり、例えば被験者が判断して付与した多段階(例えば5段階)の値を用いる。各文書はM次元の特徴表現で表され、x、...、xは当該文書の各次元の特徴値を表している。
ランキング関数生成部22は、訓練データデータベース21に記憶された複数の訓練データに基づいて、訓練用検索クエリに対して相対的に高い適合度の文書が、当該訓練用検索クエリの検索結果の上位に提示されるような検索スコアを出力するように、複数のサポートベクタ、及びサポートベクタペアに対する重みを用いた暫定ランキング関数の複数のサポートベクタ、及びサポートベクタペアに対する重みを学習する。例えば、ある訓練用検索クエリに対する検索結果に含まれる2つの文書による組であるサポートベクタペアに対して、当該訓練用検索クエリに対する適合度が相対的に高い文書に対して算出される検索スコアが大きくなるように、当該サポートベクタペアの重みを学習する。学習方法として、例えば、非特許文献(Xue−wen Chen,Haixun Wang, Xiaotong Lin. Learning to rank with a novel kernel perceptron method. In Proceeding of the 18th ACM conference on Infomation and knowledge management(CIKM ’09),pp.505−512,2009.)に記載された方法を用いることができる。
ランキング関数生成部22が求めた複数のサポートベクタは、サポートベクタデータベース23に記憶される。サポートベクタデータベース23のデータの例を表2に示す。
Figure 2013061718
表2に示すように、サポートベクタデータベース23は、サポートベクタとして、訓練データデータベース21に記憶された文書のうちのランキング関数生成部22が求めサポートベクタペアに含まれる文書の特徴表現、すなわちx、...、xに相当する情報と、当該文書のIDであるサポートベクタIDとを対応付けて記憶している。ひとつのサポートベクタペアは2つの文書の特徴表現から構築されるため、サポートベクタデータベース23にランキング関数生成部22が求めた全てのサポートベクタペアを記憶しておくことも可能である。しかし、データベースの冗長性排除のため、本実施の形態では、ランキング関数生成部22が求めたサポートベクタペアに含まれる全ての文書の特徴表現を1文書1行で格納している。
ランキング関数生成部22が求めた各サポートベクタペアに対する重みは、サポートベクタペア重みデータベース24に記憶される。サポートベクタペア重みデータベース24のデータの例を表3に示す。
Figure 2013061718
表3に示すように、サポートベクタペア重みデータベース24は、各サポートベクタペアについて、サポートベクタペアを構成するサポートベクタのIDと、サポートベクタペアに対する重みとを対応付けて記憶している。例えば、表2の1行目と2行目のデータは、それぞれサポートベクタIDが1と2であるため、これらのサポートベクタにより構成されるサポートベクタペアに対する重みは、表3の一行目に格納されている0.3という値である。
検索評価部25は、サポートベクタデータベース23、サポートベクタペア重みデータベース24、及び訓練データデータベース21の各々の記憶内容を入力とし、以下に説明するように、各サポートベクタペアに対する影響度スコアを出力する。検索評価部25は、あるサポートベクタペアを取り除いた際の評価指標の減少値を、当該サポートベクタペアに対する影響度スコアとして算出する。
まず、検索評価部25は、各サポートベクタペアについて、当該サポートベクタペアの重みαijを0とし、他のサポートベクタペアについてはサポートベクタペア重みデータベース24に記憶された重みを用いて、訓練データデータベース21に記憶されている全ての訓練用検索クエリの各々について、検索結果である文書集合のランキングを行う。これは、一時的に、当該サポートベクタペアを除外し、当該サポートベクタペア以外のサポートベクタペアを用いてランキングを行なうことに相当する。
ランキングされた検索結果の文書集合について訓練データデータベース21に記憶された訓練用検索クエリに対する適合度を用いて、検索結果である文書集合のランキングの良し悪し(検索結果の上位に提示されるべき文書が上位にランキングされているか否か)を評価する評価指標を算出する。評価指標としては、例えば、非特許文献(Kalervo Jarvelin and jaana kekalainen.Cumulated gain−based evaluation of IR techniques.ACM Transactions on Infomation Systems,20(4),pp。422−446,2002.)に記載されているNormalized Discounted Cumulative Gain(NDCG)を用いることができる。NDCGは多値の適合度に対して用いられ、適合度を2の指数とした値を、順位の値の対数で割ることによって、検索結果上位の評価結果を重視するよう設計された評価指標である。
例えば、訓練用検索クエリqにおけるi番目の文書の適合度をyq,iとすると、訓練用検索クエリqに対する検索結果上位k件に対するNDCGの値は、以下の(1)式、(2)式に従って計算される。
Figure 2013061718
ここでmaxDCG@kは、訓練用検索クエリqにおいて適合度が高い順番に文書を並べた理想的なランキングに対するDCG@kの値を表す。上記(2)式に示すように、正規化されているため、NDCG∈(0、1]となる。
各訓練用検索クエリについて算出された評価指標の合計値をEとして、以下の式に従って、一時的に除外したサポートベクタペアの影響度スコアを算出する。
影響度スコア=1.0−E/|Q|
ただし、|Q|は訓練データデータベース21に含まれる訓練用検索クエリの数である。
ここで、E/|Q|を、評価指標の最大値である1.0から引いてエラー値としているのは、当該サポートベクタペアのランキング精度に対する影響度を、そのサポートベクタペアを除外した際のエラー値の大きさで表現するためである。すなわち、サポートベクタペアを除外しても評価指標が下がらないものは、影響度スコアが小さく設定されるようにしている。
検索評価部25が出力した各サポートベクタペアに対する影響度スコアは、サポートベクタペアスコアデータベース26に記憶される。サポートベクタペアスコアデータベース26のデータの例を表4に示す。
Figure 2013061718
表4に示すように、サポートベクタペアスコアデータベース26は、各サポートベクタペアについて、当該サポートベクタペアを構成するサポートベクタのIDと、当該サポートベクタペアの影響度を示す影響度スコアとを対応付けて記憶している。
サポートベクタ選択部27は、サポートベクタペアスコアデータベース26の記憶内容を入力とし、サポートベクタペアに対する影響度スコアに基づいて、ランキング精度に対する影響(評価指標の減少への影響)が少ないサポートベクタペアを選択し、サポートベクタペア重みデータベース24に記憶された、選択されたサポートベクタペアに対する重みを0に更新する。
図示しない制御部が、ランキング関数生成部22、検索評価部25、及びサポートベクタ選択部27による一連の処理を、予め定められた回数だけ繰り返し実行するように制御する。最終的に得られたサポートベクタデータベース23及びサポートベクタペア重みデータベース24の記憶内容を、出力部30が出力する。
出力部30が出力したサポートベクタデータベース23及びサポートベクタペア重みデータベース24の記憶内容は、図2に示すような、検索クエリに基づいて文書の集合を検索する文書検索装置150に入力される。
文書検索装置150は、検索クエリを入力として受け取り、検索クエリに基づいて文書の集合を検索し、ランキングに応じて並べた文書の集合を、検索結果として出力する。この文書検索装置150は、CPUと、RAMと、後述する文書検索処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図2に示すように、文書検索装置150は、入力部50と、演算部60と、出力部70とを備えている。
入力部50は、入力された検索クエリを受け付ける。また、入力部50は、入力されたサポートベクタデータベース23及びサポートベクタペア重みデータベース24の記憶内容を受け付ける。
演算部60は、文書インデックスデータベース61、クエリ処理部62、サポートベクタデータベース63、サポートベクタペア重みデータベース64、検索スコア計算部65、及び検索結果提示部66を備えている。
文書インデックスデータベース61は、検索対象の各文書に対して、各単語の出現頻度を示すインデックスを記憶している。
クエリ処理部62は、入力された検索クエリ、及び文書インデックスデータベース61の各文書のインデックスに基づいて、検索クエリを含む文書の集合の取得を行うと共に、取得された文書の集合についてスコア要因値行列Dを算出する。具体的には、文書インデックスデータベース61からk件の検索結果集合を取得した際、そのスコア要因値行列は、M個のスコア要因を用いて、以下の(3)式で表現される。
Figure 2013061718
ここで、dはベクトルdの転置を表す。また、Dのi行列がi番目の検索結果のスコア要因値を表している。たとえば、d23は、2番目の文書に対する3番目のスコア要因値である。また、dはM次元のベクトルで、1番目の文書スコア要因値を表す。
サポートベクタデータベース63は、入力されたサポートベクタデータベース23の記憶内容を記憶する。すなわち、サポートベクタデータベース63は、上記表2に示すように、各サポートベクタとして、文書の特徴表現と、サポートベクタIDとを対応付けて記憶している。
サポートベクタペア重みデータベース64は、入力されたサポートベクタペア重みデータベース24の記憶内容を記憶する。すなわち、サポートベクタペア重みデータベース64は、上記表3に示すように、サポートベクタデータベース63に記憶されたサポートベクタペアを構成するサポートベクタのIDと、サポートベクタペアに対する重みとを対応付けて記憶している。
検索スコア計算部65は、クエリ処理部62が出力したスコア要因値行列D、サポートベクタデータベース63に記憶された各サポートベクタ、及びサポートベクタペア重みデータベース64に記憶された各サポートベクタペアの重みを入力として受けとり、重みが0ではないサポートベクタペアのみを用いて、各文書の検索スコアを計算する。
スコア要因行列の各行要素dのスコア、すなわちk番目の文書に対する検索スコアsは、以下の(4)式に示す検索用ランキング関数に従って計算される。
Figure 2013061718
ここで、K(・,・)は、類似度を計算するためのカーネル関数であり、予め設定されているものとする。また、αijは、サポートベクタペアの重みであり、xi,xjは、サポートベクタペアを構成するサポートベクタそれぞれの特徴表現である。また、svは、重みが0ではないサポートベクタペアを構成するサポートベクタIDの組の集合である。
検索結果提示部66は、検索スコア計算部65より、検索された各文書に対する検索スコアsからなる検索スコアベクトルsを受け取り、検索スコアsの降順に、検索クエリに対する検索結果を提示する。
検索結果提示部66により提示された検索クエリに対する検索結果は、出力部70によりユーザに対して表示される。
<ランキング関数生成装置の作用>
次に、本実施の形態に係るランキング関数生成装置100の作用について説明する。まず、複数の訓練データがランキング関数生成装置100に入力されると、ランキング関数生成装置100によって、入力された複数の訓練データが、訓練データデータベース21へ記憶される。そして、ランキング関数生成装置100において、ランキング関数生成部22によって、訓練データデータベース21の訓練データに基づいて、暫定ランキング関数のサポートベクタ及び各サポートベクタペアの重みが学習され、得られた各サポートベクタのデータがサポートベクタデータベース23に記憶され、各サポートベクタペアの重みがサポートベクタペア重みデータベース24に記憶される。
そして、ランキング関数生成装置100によって、図3に示す検索評価処理ルーチンが実行される。
まず、ステップS101において、サポートベクタデータベース23から、未処理のサポートベクタペアを選択し、サポートベクタペア重みデータベース24に記憶されている、当該選択されたサポートベクタペアの重みαijを0とする。
そして、ステップS102において、当該サポートベクタペアを利用しなかった場合の評価値の計算に用いる変数をEとし、初期値を0とする。次のステップS103では、訓練データデータベース21に登録されている訓練用検索クエリから未処理のクエリqを選択し、訓練用検索クエリqを含む文書集合の検索結果を、訓練データデータベース21から取得し、現在のサポートベクタペアの重み及び上記(4)式の検索スコアを用いて、訓練用検索クエリqの検索結果である文書集合のランキングを行う。
そして、ステップS104では、ランキングされた文書集合に対して、訓練データデータベース21に記憶された、各文書に対する適合度に基づいて、評価指標を算出し、Ecurとする。また、以下の(5)式に従って、変数Eに、Ecurを加算する。
E←E+Ecur ・・・(5)
次のステップS105では、訓練データデータベース21に登録されている訓練用検索クエリのうち、未処理の訓練用検索クエリがあるか否かを判定する。未処理の訓練用検索クエリがある場合には、上記ステップS103へ戻り、未処理の訓練用検索クエリを選択する。一方、未処理の訓練用検索クエリがない場合には、ステップS106へ移行する。
ステップS106では、評価指標の平均値に基づいて、影響度スコアを算出する。
上記の式に従って計算したEの値を、選択したサポートベクタペアの影響度スコアとして、サポートベクタペアスコアデータベース26に記憶する。ここで、Eを最大値である1.0から引いてエラー値としているのは、当該サポートベクタペアの影響度を、そのサポートベクタペアを取り除いた際のエラー値の大きさで表現するためである。すなわち、サポートベクタペアを取り除いても評価指標が下がらないものは、影響度スコアが小さく設定されるようにしている。また、0に設定した、当該選択されたサポートベクタペアの重みαijを、サポートベクタペア重みデータベース24に記憶されている元の重みに戻す。
そして、ステップS107において、サポートベクタペア重みデータベース24に記憶されているサポートベクタペアのうち、未処理のサポートベクタペアがあるか否かを判定する。未処理のサポートベクタペアがある場合には、上記ステップS101へ戻り、当該未処理のサポートベクタペアを選択する。一方、未処理のサポートベクタペアがない場合には、検索評価処理ルーチンを終了する。
上記検索評価処理ルーチンを実行することにより、各サポートベクタペアについて、評価指標の減少への影響を示す影響度スコアが得られ、サポートベクタペアスコアデータベース26に記憶される。
次に、ランキング関数生成装置100によって、図4に示すサポートベクタペア選択処理ルーチンが実行される。
まず、ステップS110において、サポートベクタペア重みデータベース24から、記憶されている重みが0でないサポートベクタペアの数を取得し、事前に設定されたサポートベクタペアの上限数から、削除するサポートベクタペアの数を計算し、vとする。
そして、ステップS111において、サポートベクタペアスコアデータベース26に格納された各行について、影響度スコアの降順に並び替え、事前に設定した下位v件を選択し、集合Pとする。
次のステップS112では、上記ステップS111で選択されたサポートベクタペアの集合Pから、未処理のサポートベクタペアpを取得する。そして、ステップS113では、サポートベクタペア重みデータベース24において、サポートベクタペアpに該当するペア重みを0に設定する。これにより、当該サポートベクタペアを削除し、暫定ランキング関数への影響をなくす。
ステップS114では、未処理のサポートベクタペアが集合Pに存在するか否かを判定する。未処理のサポートベクタペアが存在する場合には、ステップS112へ戻るが、未処理のサポートベクタペアが存在しない場合には、サポートベクタペア選択処理ルーチンを終了する。
上記の暫定ランキング関数の学習処理、上記の検索評価処理ルーチン、及び上記のサポートベクタペア選択処理ルーチンからなる一連の処理が、予め定められた回数だけ、繰り返して行われる。
<文書検索装置の作用>
上記の暫定ランキング関数の学習処理、上記の検索評価処理ルーチンの実行、及び上記のサポートベクタペア選択処理ルーチンの実行が、繰り返し行われると、サポートベクタデータベース23及びサポートベクタペア重みデータベース24の記憶内容が、出力部30により出力され、文書検索装置150に入力される。文書検索装置150のサポートベクタデータベース63及びサポートベクタペア重みデータベース64に、入力されたデータが記憶される。
そして、検索クエリが文書検索装置150に入力されると、文書検索装置150によって、図5に示す文書検索処理ルーチンが実行される。
まず、ステップS120において、入力された検索クエリを受け付け、ステップS121において、文書インデックスデータベース61に記憶された各文書のインデックスに基づいて、入力された検索クエリを含む文書集合を取得する。また、取得した文書集合の各文書について、スコア要因値行列Dを計算する。
次のステップS122では、上記ステップS121で取得した文書集合の各文書について、上記ステップS121で計算したスコア要因値行列D、サポートベクタデータベース63に記憶された各サポートベクタ、及びサポートベクタペア重みデータベース64に記憶された重みが0ではないサポートベクタペアの重みに基づいて、上記(4)式に従って、検索スコアsを算出する。
そして、ステップS123において、上記ステップS122で算出した各文書の検索スコアsに基づいて、検索スコアsの降順に、検索クエリに対する検索結果を提示するデータを生成する。ステップS124において、上記ステップS123で生成された検索結果を提示するデータを、出力部30によりユーザに対して出力して、文書検索処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係るランキング関数生成装置によれば、評価指標の減少への影響を示す影響度スコアが小さいサポートベクタペアに対する重みを0に設定し、重みが0であるサポートベクタペアを検索スコアの算出対象としないことにより、ランキング精度の低下を抑制して、サポートベクタペアの数を減らすことができる。
また、訓練データ全体を用いて、検索結果のランキングに関する評価指標を計算することにより、評価指標に基づいてサポートベクタペアの選択を行うことが可能となり、検索に関する評価指標の観点で最適なランキング関数を生成することが可能となる。よって、検索ランキングの精度の向上が可能となる。
また、訓練データとして、オンライン学習で遂次的にデータが追加される場合であっても、サポートベクタペアの増加を防止することができる。
〔第2の実施の形態〕
次に、第2の実施の形態について説明する。なお、第2実施の形態に係るランキング関数生成装置及び文書検索装置の構成は、サポートベクタペア重みDB24の代わりにサポートベクタ重みDBを備え、サポートベクタペアスコアデータベース26の代わりにサポートベクタスコアデータベースを備える以外は第1の実施の形態と同様であるため、同一符号を付して説明を省略する。
第2の実施の形態では、サポートベクタ毎に与えた重みを用いたランキング関数によって、検索スコアを計算し、影響度スコアが小さいサポートベクタの重みを0にしている点が、第1の実施の形態と異なっている。以下では、第1の実施の形態と異なる部分のみについて説明する。
ランキング関数生成部22は、複数のサポートベクタ及び各サポートベクタに対する重みを用いた暫定ランキング関数の複数のサポートベクタ及び各サポートベクタに対する重みを学習する。例えば、ある訓練用検索クエリに対する検索結果に含まれる1つの文書を示すサポートベクタに対して、当該訓練用検索クエリに対する適合度が相対的に高い文書に対して算出される検索スコアが大きくなるように、当該サポートベクタの重みを学習する。ランキング関数生成部22が求めた各サポートベクタに対する重みは、サポートベクタ重みデータベースに記憶される。サポートベクタ重みデータベースは、各サポートベクタペアについて、サポートベクタのIDと、サポートベクタに対する重みとを対応付けて記憶する。
なお、本実施形態の場合は、サポートベクタデータベース23とサポートベクタ重みデータベースとを統合したものを1つのデータベースとすることもできる。具体的には、統合した1つのデータベースには、サポートベクタのIDと、サポートベクタに対応する文書の特徴表現と、サポートベクタに対する重みとを対応付けて記憶する。そして、以降の処理では、サポートベクタデータベース23とサポートベクタ重みデータベースの代わりに、統合した1つのデータベースを用いる。
検索評価部25は、サポートベクタデータベース23、サポートベクタ重みデータベース、及び訓練データデータベース21の各々の記憶内容を入力とし、各サポートベクタに対する影響度スコアを出力する。検索評価部25は、あるサポートベクタを取り除いた際の評価指標の減少値を、当該サポートベクタに対する影響度スコアとして算出する。検索評価部25が出力した各サポートベクタに対する影響度スコアは、サポートベクタスコアデータベースに記憶される。サポートベクタスコアデータベースは、各サポートベクタについて、当該サポートベクタのIDと、当該サポートベクタの影響度を示す影響度スコアとを対応付けて記憶する。
サポートベクタ選択部27は、サポートベクタスコアデータベースの記憶内容を入力とし、サポートベクタに対する影響度スコアに基づいて、ランキング精度に対する影響(評価指標の減少への影響)が少ないサポートベクタを選択し、サポートベクタ重みデータベースに記憶された、選択されたサポートベクタに対する重みを0に更新する。
図示しない制御部が、ランキング関数生成部22、検索評価部25、及びサポートベクタ選択部27による一連の処理を、予め定められた回数だけ繰り返し実行するように制御する。最終的に得られたサポートベクタデータベース23及びサポートベクタ重みデータベースの記憶内容を、出力部30が出力する。
出力部30が出力したサポートベクタデータベース23及びサポートベクタ重みデータベースの記憶内容は、検索クエリに基づいて文書の集合を検索する文書検索装置に入力される。
入力部50は、入力された検索クエリを受け付ける。また、入力部50は、入力されたサポートベクタデータベース23及びサポートベクタ重みデータベースの記憶内容を受け付ける。
演算部60は、文書インデックスデータベース61、クエリ処理部62、サポートベクタデータベース63、サポートベクタ重みデータベース、検索スコア計算部65、及び検索結果提示部66を備えている。
検索スコア計算部65は、クエリ処理部62が出力したスコア要因値行列D、サポートベクタデータベース63に記憶された各サポートベクタ、及びサポートベクタ重みデータベースに記憶された各サポートベクタの重みを入力として受けとり、重みが0ではないサポートベクタのみを用いて、各文書の検索スコアを計算する。
スコア要因行列の各行要素dのスコア、すなわちk番目の文書に対する検索スコアsは、以下の(5)式に示す検索用ランキング関数に従って計算される。
Figure 2013061718
ここで、K(・,・)は、類似度を計算するためのカーネル関数であり、予め設定されているものとする。また、αiは、サポートベクタの重みであり、xiは、サポートベクタそれぞれの特徴表現である。また、svは、重みが0ではないサポートベクタIDの集合である。
以上説明したように、第2の実施の形態に係るランキング関数生成装置によれば、評価指標の減少への影響を示す影響度スコアが小さいサポートベクタに対する重みを0に設定し、重みが0であるサポートベクタを検索スコアの算出対象としないことにより、ランキング精度の低下を抑制して、サポートベクタの数を減らすことができる。
また、訓練データ全体を用いて、検索結果のランキングに関する評価指標を計算することにより、評価指標に基づいてサポートベクタの選択を行うことが可能となり、検索に関する評価指標の観点で最適なランキング関数を生成することが可能となる。よって、検索ランキングの精度の向上が可能となる。
また、訓練データとして、オンライン学習で遂次的にデータが追加される場合であっても、サポートベクタの増加を防止することができる。
〔第3の実施の形態〕
次に、第3の実施の形態について説明する。なお、第3の実施の形態に係るランキング関数生成装置及び文書検索装置の構成は、第1の実施の形態と同様であるため、同一符号を付して説明を省略する。
第3の実施の形態では、サポートベクタペア重みデータベースから、影響度スコアが小さいサポートベクタペアを削除している点が、第1の実施の形態と異なっている。
第3の実施の形態に係るランキング関数生成装置では、サポートベクタ選択部27は、各サポートベクタペアに対する影響度スコアに基づいて、ランキング精度に対する影響(評価指標の減少への影響)が少ないサポートベクタペアについて、サポートベクタペア重みデータベース24に記憶されたサポートベクタペアの情報、すなわち、当該サポートベクタを構成する各サポートベクタのIDと当該サポートベクタペアに対する重みとの組、を削除する。
また、第2の実施の形態に係る文書検索装置では、検索スコア計算部65は、svをサポートベクタペア重みデータベース64に記憶された全てのサポートベクタペアを構成するサポートベクタIDの組の集合として式(4)により各文書の検索スコアを計算する。
なお、第3の実施の形態に係るランキング関数生成装置及び文書検索装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
このように、第3の実施の形態に係るランキング関数生成装置によれば、評価指標の減少への影響が少ないサポートベクタペアを、ランキング関数で用いるサポートベクタペアから除外することにより、ランキング精度の低下を抑制して、ランキング関数の計算に必要なサポートベクタペアの数を減らし、かつ、サポートベクタペア重みデータベース24に記憶しておくサポートベクタペアの数を減らすことができる。
〔第4の実施の形態〕
次に、第4の実施の形態について説明する。なお、第4の実施の形態に係るランキング関数生成装置及び文書検索装置の構成は、第2の実施の形態と同様であるため、説明を省略する。
第4の実施の形態では、サポートベクタ重みデータベースから、影響度スコアが小さいサポートベクタを削除している点が、第2の実施の形態と異なっている。
第4の実施の形態に係るランキング関数生成装置では、サポートベクタ選択部27は、各サポートベクタに対する影響度スコアに基づいて、ランキング精度に対する影響(評価指標の減少への影響)が少ないサポートベクタについて、サポートベクタ重みデータベースに記憶されたサポートベクタの情報、すなわち、当該サポートベクタのIDと当該サポートベクタに対する重みとの組、を削除する。
また、第4の実施の形態に係る文書検索装置では、検索スコア計算部65は、svをサポートベクタ重みデータベースに記憶された全てのサポートベクタを構成するサポートベクタIDの集合として式(5)により各文書の検索スコアを計算する。
なお、第4の実施の形態に係るランキング関数生成装置及び文書検索装置の他の構成及び作用については、第2の実施の形態と同様であるため、説明を省略する。
このように、第4の実施の形態に係るランキング関数生成装置によれば、評価指標の減少への影響が少ないサポートベクタを、ランキング関数で用いるサポートベクタから除外することにより、ランキング精度の低下を抑制して、ランキング関数の計算に必要なサポートベクタの数を減らし、かつ、サポートベクタ重みデータベースに記憶しておくサポートベクタの数を減らすことができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、3つ以上のサポートベクタによる組毎に与えた重みを用いたランキング関数によって、検索スコアを計算するようにしてもよい。この場合には、影響度スコアが小さいサポートベクタによる組の重みを0にしたり、影響度スコアが小さいサポートベクタによる組を、ランキング関数で用いるサポートベクタによる組から除外するようにすればよい。
なお、第1の実施の形態と第2の実施の形態のランキング関数生成装置は、検索用ランキング関数そのものを生成するものではないが、影響度スコアが小さいサポートベクタまたはサポートベクタの組に対する重みを0にすることは、概念的には影響度スコアが小さいサポートベクタまたはサポートベクタの組を用いない検索用のランキング関数を生成することと等価であるため「ランキング関数生成装置」として説明した。影響度スコアが小さいサポートベクタまたはサポートベクタの組に対する重みを0に設定する装置であることを直接的に表現するのであれば、「ランキング関数生成装置」を「サポートベクタ重み設定装置」と称してもよい。また、影響度スコアが小さいサポートベクタまたはサポートベクタの組に対する重みを0にすることは、概念的には影響度スコアが小さいサポートベクタまたはサポートベクタの組を除外することにより検索用のランキング関数で用いるサポートベクタまたはサポートベクタの組を選択していることと等価であるため、「ランキング関数生成装置」を「サポートベクタ選択装置」と称してもよい。
同様に、第3の実施の形態と第4の実施の形態のランキング関数生成装置も、検索用ランキング関数そのものを生成するものではないが、影響度スコアが小さいサポートベクタまたはサポートベクタの組を削除することは、概念的には影響度スコアが小さいサポートベクタまたはサポートベクタの組を用いない検索用のランキング関数を生成することと等価であるため「ランキング関数生成装置」として説明した。影響度スコアが小さいサポートベクタまたはサポートベクタの組を削除する装置であることを直接的に表現するのであれば、「ランキング関数生成装置」を「サポートベクタ選択装置」と称してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に記憶して提供することも可能である。
21 訓練データデータベース
22 ランキング関数生成部
23 サポートベクタデータベース
24 サポートベクタペア重みデータベース
25 検索評価部
26 サポートベクタペアスコアデータベース
27 サポートベクタ選択部
63 サポートベクタデータベース
64 サポートベクタペア重みデータベース
65 検索スコア計算部
100 ランキング関数生成装置
150 文書検索装置

Claims (7)

  1. 入力された検索クエリに基づき文書の集合を検索した検索結果をランキングするための、複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組を生成する装置であって、
    訓練用検索クエリに対する検索結果の各文書について求められた特徴値及び前記訓練用検索クエリに対する適合度を、各訓練用検索クエリについて記憶した訓練データベースと、
    前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習するランキング関数生成手段と、
    各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価する検索評価手段と、
    前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組を、前記暫定ランキング関数から除外したものを、前記検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組とするサポートベクタ選択手段と、
    を含むサポートベクタ選択装置。
  2. 入力された検索クエリに基づき文書の集合を検索した検索結果をランキングするための、複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する検索用ランキング関数で用いる重みを生成する装置であって、
    訓練用検索クエリに対する検索結果の各文書について求められた特徴値及び前記訓練用検索クエリに対する適合度を、各検索クエリについて記憶した訓練データベースと、
    前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習するランキング関数生成手段と、
    各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価する検索評価手段と、
    前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組に対する前記重みを0に設定するサポートベクタ選択手段と、
    を含むサポートベクタ選択装置。
  3. 前記検索評価手段は、各サポートベクタまたはサポートベクタの各組について、該サポートベクタまたはサポートベクタの組を使わない前記ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、各訓練用検索クエリに対して該サポートベクタまたはサポートベクタの組を使わない場合の評価指標を算出し、前記評価指標の平均値を、前記評価指標の最大値から減算した値を、該サポートベクタまたはサポートベクタの組の影響度スコアとして算出し、
    前記サポートベクタ選択手段は、前記検索評価手段によって算出された前記影響度スコアが小さいサポートベクタまたはサポートベクタの組を、前記ランキング関数で用いるサポートベクタまたはサポートベクタの組から除外する請求項1記載のサポートベクタ選択装置。
  4. 前記検索評価手段は、各サポートベクタまたはサポートベクタの各組について、該サポートベクタまたはサポートベクタの組を使わない前記ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、各訓練用検索クエリに対して該サポートベクタまたはサポートベクタの組を使わない場合の評価指標を算出し、前記評価指標の平均値を、前記評価指標の最大値から減算した値を、該サポートベクタまたはサポートベクタの組の影響度スコアとして算出し、
    前記サポートベクタ選択手段は、前記検索評価手段によって算出された前記影響度スコアが小さいサポートベクタまたはサポートベクタの組に対する前記重みを0に設定する請求項2記載のサポートベクタ選択装置。
  5. 訓練用検索クエリに対する検索結果の各文書について求められた特徴値及び前記訓練用検索クエリに対する適合度を、各訓練用検索クエリについて記憶した訓練データベース、ランキング関数生成手段、検索評価手段、及びサポートベクタ選択手段を含み、入力された検索クエリに基づき文書の集合を検索した検索結果をランキングするための、複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組を生成する装置におけるサポートベクタ選択方法であって、
    前記装置は、
    前記ランキング関数生成手段によって、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習するステップと、
    前記検索評価手段によって、各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価するステップと、
    前記サポートベクタ選択手段によって、前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組を、前記暫定ランキング関数から除外したものを、前記検索用ランキング関数で用いるサポートベクタまたはサポートベクタの組とするステップと、
    を含んで実行することを特徴とするサポートベクタ選択方法。
  6. 訓練用検索クエリに対する検索結果の各文書について求められた特徴値及び前記訓練用検索クエリに対する適合度を、各検索クエリについて記憶した訓練データベース、ランキング関数生成手段、検索評価手段、及びサポートベクタ選択手段を含み、入力された検索クエリに基づき文書の集合を検索した検索結果をランキングするための、複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する検索用ランキング関数で用いる重みを生成する装置におけるサポートベクタ選択方法であって、
    前記装置は、
    前記ランキング関数生成手段によって、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の特徴値及び適合度に基づいて、複数の文書を示す複数のサポートベクタと前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みとを用いて検索スコアを算出する暫定ランキング関数における前記複数のサポートベクタ及び前記複数のサポートベクタの各々または前記サポートベクタの組各々に対する重みを学習するステップと、
    前記検索評価手段によって、各サポートベクタまたはサポートベクタの組について、該サポートベクタまたはサポートベクタの組を使わない前記暫定ランキング関数により算出される検索スコアに基づいて、各訓練用検索クエリに対する検索結果をランキングし、各訓練用検索クエリに対してランキングされた検索結果と、前記訓練データベースに記憶された各訓練用検索クエリに対する検索結果の各文書の適合度とに基づいて、該サポートベクタまたはサポートベクタの組を使わない場合の、ランキングされた検索結果に対する評価を示す評価指標の減少への影響を評価するステップと、
    前記サポートベクタ選択手段によって、前記検索評価手段によって評価された前記評価指標の減少への影響が少ないサポートベクタまたはサポートベクタの組に対する前記重みを0に設定するステップと、
    を含んで実行することを特徴とするサポートベクタ選択方法。
  7. コンピュータを、請求項1〜請求項4の何れか1項記載のサポートベクタ選択装置の各手段として機能させるためのプログラム。
JP2011198368A 2011-09-12 2011-09-12 サポートベクタ選択装置、方法、及びプログラム Active JP5684077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011198368A JP5684077B2 (ja) 2011-09-12 2011-09-12 サポートベクタ選択装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011198368A JP5684077B2 (ja) 2011-09-12 2011-09-12 サポートベクタ選択装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013061718A true JP2013061718A (ja) 2013-04-04
JP5684077B2 JP5684077B2 (ja) 2015-03-11

Family

ID=48186357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011198368A Active JP5684077B2 (ja) 2011-09-12 2011-09-12 サポートベクタ選択装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5684077B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015040860A1 (ja) * 2013-09-18 2015-03-26 日本電気株式会社 分類辞書生成装置、分類辞書生成方法及び記録媒体
JP2020071678A (ja) * 2018-10-31 2020-05-07 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080557A (ja) * 2007-09-25 2009-04-16 Seiko Epson Corp 識別方法及びプログラム
JP2011100302A (ja) * 2009-11-06 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080557A (ja) * 2007-09-25 2009-04-16 Seiko Epson Corp 識別方法及びプログラム
JP2011100302A (ja) * 2009-11-06 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG201100237195; 数原 良彦 他: '評価指標をマージンに反映したオンラインランキング学習' 言語処理学会第17回年次大会発表論文集 Vol.NLP2011,No.F3-5., 20110331, pp.872-875., 言語処理学会 *
JPN6014017460; 数原 良彦 他: '評価指標をマージンに反映したオンラインランキング学習' 言語処理学会第17回年次大会発表論文集 Vol.NLP2011,No.F3-5., 20110331, pp.872-875., 言語処理学会 *
JPN6014017461; Weston et al.,: 'Online (and Offline) on an Even Tighter Budget' AI & Statistics 2005 , 20050106 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015040860A1 (ja) * 2013-09-18 2015-03-26 日本電気株式会社 分類辞書生成装置、分類辞書生成方法及び記録媒体
JPWO2015040860A1 (ja) * 2013-09-18 2017-03-02 日本電気株式会社 分類辞書生成装置、分類辞書生成方法及びプログラム
JP2020071678A (ja) * 2018-10-31 2020-05-07 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP7256357B2 (ja) 2018-10-31 2023-04-12 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Also Published As

Publication number Publication date
JP5684077B2 (ja) 2015-03-11

Similar Documents

Publication Publication Date Title
Volkovs et al. Boltzrank: learning to maximize expected ranking gain
Lucchese et al. Post-learning optimization of tree ensembles for efficient ranking
Culpepper et al. Dynamic cutoff prediction in multi-stage retrieval systems
JP6267199B2 (ja) 検索結果をランク付ける方法およびシステム、ならびに検索結果の順位付けを最適化する方法およびシステム
US8606786B2 (en) Determining a similarity measure between queries
JP5351182B2 (ja) 関心領域についての関連情報の決定
US20200372472A1 (en) Multi-level ranking for mitigating machine learning model bias
US8250092B2 (en) Search result diversification
US9110923B2 (en) Ranking over hashes
US8005774B2 (en) Determining a relevance function based on a query error derived using a structured output learning technique
US20140229476A1 (en) System for Information Discovery &amp; Organization
US7925644B2 (en) Efficient retrieval algorithm by query term discrimination
CN105917364B (zh) 对问答论坛中讨论话题的排名
US20200372435A1 (en) Achieving fairness across multiple attributes in rankings
US20200372304A1 (en) Quantifying bias in machine learning models
JP5831143B2 (ja) 検索支援装置、検索支援方法および検索支援プログラム
US9336495B2 (en) Query generation and time difference features for supervised semantic indexing
JP5682448B2 (ja) 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
JP5684077B2 (ja) サポートベクタ選択装置、方法、及びプログラム
JP5432936B2 (ja) ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム
JP2011232996A (ja) 機械学習方法および機械学習システム
US11093512B2 (en) Automated selection of search ranker
CN116245146A (zh) 基于进化条件生成对抗网络的排序学习方法、系统及应用
US20220108071A1 (en) Information processing device, information processing system, and non-transitory computer readable medium
Ruiz Alonso et al. Hyperparameter tuning for multi-label classification of feedbacks in online courses

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150114

R150 Certificate of patent or registration of utility model

Ref document number: 5684077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150