JP5734820B2 - ランキング関数学習装置、方法、及びプログラム - Google Patents
ランキング関数学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5734820B2 JP5734820B2 JP2011266048A JP2011266048A JP5734820B2 JP 5734820 B2 JP5734820 B2 JP 5734820B2 JP 2011266048 A JP2011266048 A JP 2011266048A JP 2011266048 A JP2011266048 A JP 2011266048A JP 5734820 B2 JP5734820 B2 JP 5734820B2
- Authority
- JP
- Japan
- Prior art keywords
- local
- parameter
- updating
- training data
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<発明の概要>
本発明の処理の枠組は、基本的に分散計算環境を想定する。ここでは、図1に示すように、N個の計算ノードがあるとする。つぎに、M個の訓練データをN個に分割する。この時、分割した訓練データのn番目の部分集合をMnと書く。また、各部分集合は重複するデータを持たないと仮定する。つまり、∪nMn =(1, ... ,M),∩n Mn =空集合である。
本発明の第1の実施の形態に係るランキング関数学習装置100は、学習用として与えられた訓練データを入力として受け取り、ランキング関数に関するパラメータを出力する。このランキング関数学習装置100は、CPUと、RAMと、後述するランキング関数学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図2に示すように、ランキング関数学習装置100は、入力部10と、演算部20と、出力部30とを備えている。
最初の処理として、局所更新部32は、当該計算ノード23nにおけるラグランジュ未定乗数unを更新する。
次に、局所更新部32は、当該計算ノード23nにおける局所的なパラメータvnを更新する。
次に、本実施の形態に係るランキング関数学習装置100の作用について説明する。まず、大量の訓練データからなる訓練データ集合がランキング関数学習装置100に入力されると、ランキング関数学習装置100によって、入力された訓練データ集合が、訓練データ記憶部21へ格納される。そして、ランキング関数学習装置100において、分割部22によって、訓練データ記憶部21の訓練データ集合を、N個の部分集合に分割し、N個の計算ノード231〜23Nに割り当てる。訓練データ集合の各部分集合が、計算ノード231〜23Nの各々の分割データ記憶部31に格納される。
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
ランキング関数生成時に考慮したいこととして、ウェブ検索システムの検索対象となる文書集合は、時々刻々と変化しているため、それらの変化に対応したシステム作りがあげられる。この事象に対応するひとつの方法として、例えば、その時々で適した訓練データを逐次的に増やしていき、ランキング関数を現在の状態により適合したものに更新するという方法が考えられる。また、人間が検索システムを利用しているときに得られるクエリとそのときに選択した文書のペアを訓練データとみなすこともできるため、これらのフィードバックをリアルタイムで反映するといったことも考えられる。
図6に示すように、第2の実施の形態に係るランキング関数学習装置200の演算部220は、訓練データ記憶部21、分割部22、N個の計算ノード231〜23N、及びデータ追加部222を備えている。また、訓練データ記憶部21に新たに訓練データが追加された場合には、演算部220は、訓練データの追加に対応する少なくとも1つ(図6の例では2つ)の計算ノード223N+1、223N+2を備える。なお、計算ノード223N+1、223N+2のうちの任意の計算ノードを示す場合には、計算ノード223と称することとする。
次に、本実施の形態に係るランキング関数学習装置200の作用について説明する。まず、大量の訓練データからなる訓練データ集合がランキング関数学習装置200に入力されると、ランキング関数学習装置200によって、入力された訓練データ集合が、訓練データ記憶部21へ格納される。そして、ランキング関数学習装置200において、分割部22によって、訓練データ記憶部21の訓練データ集合を、N個の部分集合に分割し、N個の計算ノード231〜23Nに割り当てる。
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
図7に示すように、第3の実施の形態に係るランキング関数学習システム300は、学習制御装置301、及びN個の学習装置3021〜302Nを備えている。学習制御装置301及びN個の学習装置3021〜302Nは、ネットワーク303を介して接続されている。なお、学習装置3021〜302Nのうちの任意の学習装置を示す場合には、学習装置302と称することとする。
次に、本実施の形態に係るランキング関数学習システム300の作用について説明する。まず、大量の訓練データからなる訓練データ集合が学習制御装置301に入力されると、学習制御装置301によって、入力された訓練データ集合が、訓練データ記憶部21へ格納される。そして、学習制御装置301において、分割部22によって、訓練データ記憶部21の訓練データ集合を、N個の部分集合に分割し、ネットワーク303を介してN個の学習装置302へ送信して、N個の学習装置302に割り当てる。訓練データ集合の部分集合が、学習装置3021〜302Nの分割データ記憶部31に格納される。
次に、本発明の実施の形態で提案するランキング関数学習方法を用いた実験の結果について説明する。
20、220、320、350演算部
21 訓練データ記憶部
22 分割部
23、223 計算ノード
31 分割データ記憶部
32 局所更新部
33 同期部
34 大域更新部
35 収束判定部
100、200ランキング関数学習装置
231 追加データ記憶部
300 ランキング関数学習システム
301 学習制御装置
302 学習装置
Claims (7)
- 検索クエリに基づき文書の集合を検索した検索結果をランキングするためのランキング関数に関するパラメータを学習する装置であって、
検索クエリに対する検索結果の各文書について求められた特徴値及び前記検索クエリに対する適合度を含む訓練データの集合を記憶した訓練データ記憶手段と、
前記ランキング関数に関するパラメータを学習するN個(Nは2以上の自然数である)の計算ノードと、
前記訓練データ記憶手段に記憶された前記訓練データの集合を、N個の部分集合に分割して前記N個の計算ノードに割り当てる分割手段と、を含み、
前記N個の計算ノードの各々は、
前記分割手段によって割り当てられた前記訓練データの部分集合に基づいて、前記ランキング関数に関するパラメータであって、かつ、局所的なパラメータを更新する局所更新手段と、
前記局所更新手段によって更新された前記局所的なパラメータを、他の計算ノードに通知すると共に、前記他の計算ノードから通知された前記局所的なパラメータを取得する同期手段と、
前記同期手段によって取得した前記他の計算ノードの前記局所的なパラメータ及び前記局所更新手段によって更新された前記局所的なパラメータに基づいて、前記ランキング関数に関するパラメータであって、かつ、各計算ノードの前記局所的なパラメータを一致させるための大域的なパラメータを更新する大域更新手段と、
前記大域的なパラメータの値が収束したか否かを判定し、前記大域的なパラメータの値が収束したと判定するまで、前記局所更新手段による更新、前記同期手段による通知及び取得、並びに前記大域更新手段による更新を繰り返す収束判定手段と
を含むランキング関数学習装置。 - 前記局所更新手段は、前記分割手段によって割り当てられた前記訓練データの部分集合と、前回更新されたラグランジュ未定乗数、前記局所的なパラメータ、及び前記大域的なパラメータとを用いて、予め定められた目的関数の値を最適化するように、前記ラグランジュ未定乗数及び前記局所的なパラメータを更新し、
前記同期手段は、前記局所更新手段によって更新された前記ラグランジュ未定乗数及び前記局所的なパラメータを、他の計算ノードに通知すると共に、前記他の計算ノードから通知された前記ラグランジュ未定乗数及び前記局所的なパラメータを取得し、
前記大域更新手段は、前記同期手段によって取得した前記他の計算ノードの前記ラグランジュ未定乗数及び前記局所的なパラメータ、並びに前記局所更新手段によって更新された前記ラグランジュ未定乗数及び前記局所的なパラメータに基づいて、前記目的関数の値を最適化するように、前記大域的なパラメータを更新する請求項1記載のランキング関数学習装置。 - 前記訓練データ記憶手段に前記訓練データの集合が追加された場合に、前記ランキング関数に関するパラメータを学習する追加の計算ノードを更に含み、
前記追加の計算ノードは、
前記追加された前記訓練データの集合に基づいて、前記局所的なパラメータを更新する局所更新手段と、
前記局所更新手段によって更新された前記局所的なパラメータを、他の計算ノードに通知すると共に、前記他の計算ノードから前記局所的なパラメータを取得する同期手段と、
前記同期手段によって取得した前記他の計算ノードの前記局所的なパラメータに基づいて、前記大域的なパラメータを更新する大域更新手段と、
前記大域的なパラメータの値が収束したか否かを判定し、前記大域的なパラメータの値が収束したと判定するまで、前記局所更新手段による更新、前記同期手段による通知及び取得、並びに前記大域更新手段による更新を繰り返す収束判定手段とを含み、
前記計算ノードの各々の同期手段は、前記局所更新手段によって更新された前記局所的なパラメータを、他の計算ノード及び前記追加の計算ノードに通知すると共に、前記他の計算ノード及び前記追加の計算ノードから通知された前記局所的なパラメータを取得する請求項1又は2記載のランキング関数学習装置。 - 検索クエリに対する検索結果の各文書について求められた特徴値及び前記検索クエリに対する適合度を含む訓練データの集合を記憶した訓練データ記憶手段と、N個(Nは2以上の自然数である)の計算ノードと、分割手段とを含む、検索クエリに基づき文書の集合を検索した検索結果をランキングするためのランキング関数に関するパラメータを学習する装置におけるランキング関数学習方法であって、
前記分割手段によって、前記訓練データ記憶手段に記憶された前記訓練データの集合を、N個の部分集合に分割して前記N個の計算ノードに割り当てるステップと、
前記N個の計算ノードの各々によって、前記ランキング関数に関するパラメータを学習するステップとを含み、
前記計算ノードによって学習するステップは、
局所更新手段によって、前記分割手段によって割り当てられた前記訓練データの部分集合に基づいて、前記ランキング関数に関するパラメータであって、かつ、局所的なパラメータを更新するステップと、
同期手段によって、前記局所更新手段によって更新された前記局所的なパラメータを、他の計算ノードに通知すると共に、前記他の計算ノードから通知された前記局所的なパラメータを取得するステップと、
大域更新手段によって、前記同期手段によって取得した前記他の計算ノードの前記局所的なパラメータ及び前記局所更新手段によって更新された前記局所的なパラメータに基づいて、前記ランキング関数に関するパラメータであって、かつ、各計算ノードの前記局所的なパラメータを一致させるための大域的なパラメータを更新するステップと、
収束判定手段によって、前記大域的なパラメータの値が収束したか否かを判定し、前記大域的なパラメータの値が収束したと判定するまで、前記局所更新手段による更新、前記同期手段による通知及び取得、並びに前記大域更新手段による更新を繰り返すステップと
を含むランキング関数学習方法。 - 前記局所更新手段によって更新するステップは、前記分割手段によって割り当てられた前記訓練データの部分集合と、前回更新されたラグランジュ未定乗数、前記局所的なパラメータ、及び前記大域的なパラメータとを用いて、予め定められた目的関数の値を最適化するように、前記ラグランジュ未定乗数及び前記局所的なパラメータを更新し、
前記同期手段によって通知及び取得するステップは、前記局所更新手段によって更新された前記ラグランジュ未定乗数及び前記局所的なパラメータを、他の計算ノードに通知すると共に、前記他の計算ノードから通知された前記ラグランジュ未定乗数及び前記局所的なパラメータを取得し、
前記大域更新手段によって更新するステップは、前記同期手段によって取得した前記他の計算ノードの前記ラグランジュ未定乗数及び前記局所的なパラメータ、並びに前記局所更新手段によって更新された前記ラグランジュ未定乗数及び前記局所的なパラメータに基づいて、前記目的関数の値を最適化するように、前記大域的なパラメータを更新する請求項4記載のランキング関数学習方法。 - 追加の計算ノードによって、前記訓練データ記憶手段に前記訓練データの集合が追加された場合に、前記ランキング関数に関するパラメータを学習するステップを更に含み、
前記追加の計算ノードによって学習するステップは、
局所更新手段によって、前記追加された前記訓練データの集合に基づいて、前記局所的なパラメータを更新するステップと、
同期手段によって、前記局所更新手段によって更新された前記局所的なパラメータを、他の計算ノードに通知すると共に、前記他の計算ノードから前記局所的なパラメータを取得するステップと、
大域更新手段によって、前記同期手段によって取得した前記他の計算ノードの前記局所的なパラメータに基づいて、前記大域的なパラメータを更新するステップと、
収束判定手段によって、前記大域的なパラメータの値が収束したか否かを判定し、前記大域的なパラメータの値が収束したと判定するまで、前記局所更新手段による更新、前記同期手段による通知及び取得、並びに前記大域更新手段による更新を繰り返すステップとを含み、
前記計算ノードの各々の同期手段によって通知及び取得するステップは、前記局所更新手段によって更新された前記局所的なパラメータを、他の計算ノード及び前記追加の計算ノードに通知すると共に、前記他の計算ノード及び前記追加の計算ノードから通知された前記局所的なパラメータを取得する請求項4又は5記載のランキング関数学習方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載のランキング関数学習装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011266048A JP5734820B2 (ja) | 2011-12-05 | 2011-12-05 | ランキング関数学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011266048A JP5734820B2 (ja) | 2011-12-05 | 2011-12-05 | ランキング関数学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013117921A JP2013117921A (ja) | 2013-06-13 |
JP5734820B2 true JP5734820B2 (ja) | 2015-06-17 |
Family
ID=48712425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011266048A Active JP5734820B2 (ja) | 2011-12-05 | 2011-12-05 | ランキング関数学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5734820B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5530469B2 (ja) * | 2012-03-07 | 2014-06-25 | 日本電信電話株式会社 | 自然言語解析処理装置、方法、及びプログラム |
US20190102670A1 (en) * | 2017-10-02 | 2019-04-04 | Imec Vzw | Secure Broker-Mediated Data Analysis and Prediction |
CN108009668B (zh) * | 2017-10-31 | 2023-08-25 | 中国南方电网有限责任公司 | 一种应用机器学习的大规模地调负荷预测方法 |
WO2019187120A1 (ja) * | 2018-03-30 | 2019-10-03 | 富士通株式会社 | 回答出力プログラム、回答出力方法、情報処理装置および機械学習プログラム |
JP6966395B2 (ja) * | 2018-08-23 | 2021-11-17 | 株式会社日立製作所 | 最適化システム及び最適化方法 |
JP7030296B1 (ja) * | 2021-05-26 | 2022-03-07 | 株式会社エス・ケイ通信 | プログラム、方法、情報処理装置 |
CN113538178A (zh) * | 2021-06-10 | 2021-10-22 | 北京易创新科信息技术有限公司 | 知识产权价值评价方法、装置、电子设备及可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8019763B2 (en) * | 2006-02-27 | 2011-09-13 | Microsoft Corporation | Propagating relevance from labeled documents to unlabeled documents |
JP5202569B2 (ja) * | 2010-04-28 | 2013-06-05 | 株式会社エヌ・ティ・ティ・ドコモ | 機械学習方法および機械学習システム |
JP5143182B2 (ja) * | 2010-04-28 | 2013-02-13 | 株式会社エヌ・ティ・ティ・ドコモ | 機械学習方法および機械学習システム |
-
2011
- 2011-12-05 JP JP2011266048A patent/JP5734820B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013117921A (ja) | 2013-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5734820B2 (ja) | ランキング関数学習装置、方法、及びプログラム | |
Eichner et al. | Semi-cyclic stochastic gradient descent | |
US11423082B2 (en) | Methods and apparatus for subgraph matching in big data analysis | |
Price et al. | FastTree: computing large minimum evolution trees with profiles instead of a distance matrix | |
US10102292B2 (en) | Method and system of processing a search query | |
US20190362267A1 (en) | Method of and system for generating a prediction model and determining an accuracy of a prediction model | |
US9864807B2 (en) | Identifying influencers for topics in social media | |
Boussau et al. | Efficient likelihood computations with nonreversible models of evolution | |
Tyree et al. | Parallel boosted regression trees for web search ranking | |
US20110313844A1 (en) | Real-time-ready behavioral targeting in a large-scale advertisement system | |
EP3847556A1 (en) | End-to-end structure-aware convolutional networks for knowledge base completion | |
WO2017039010A1 (en) | Distributed model-building | |
WO2021003391A1 (en) | Machine learning systems and methods for evaluating sampling bias in deep active classification | |
US20120158740A1 (en) | Caching web documents in two or more caches | |
JP2019519027A (ja) | 履歴ログからの学習と、etlツール内のデータアセットに関するデータベースオペレーションの推奨 | |
Borisyuk et al. | CaSMoS: A framework for learning candidate selection models over structured queries and documents | |
US20130151536A1 (en) | Vertex-Proximity Query Processing | |
Ordentlich et al. | Network-efficient distributed word2vec training system for large vocabularies | |
JP2007317068A (ja) | リコメンド装置およびリコメンドシステム | |
WO2015099810A1 (en) | Learning graph | |
US20200084019A1 (en) | Blockchain Ranking Engine | |
US11256485B2 (en) | Systems and methods for synthesizing code from input and output examples | |
US20130054566A1 (en) | Acceleration of ranking algorithms using a graphics processing unit | |
US11109085B2 (en) | Utilizing one hash permutation and populated-value-slot-based densification for generating audience segment trait recommendations | |
Svore et al. | Large-scale learning to rank using boosted decision trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140930 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5734820 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |