JP5202569B2

JP5202569B2 - 機械学習方法および機械学習システム

Info

Publication number: JP5202569B2
Application number: JP2010103736A
Authority: JP
Inventors: 大祐鳥居
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2010-04-28
Filing date: 2010-04-28
Publication date: 2013-06-05
Anticipated expiration: 2030-04-28
Also published as: JP2011232997A

Description

本発明は、検索システムのランキング関数を得る機械学習方法および機械学習システムに関する。

インターネット技術の進歩によりワールド・ワイド・ウェブ（ＷＷＷ）におけるページ数が爆発的に増え、その結果、ユーザが求める情報を得るための検索システムが必要不可欠のものとなった。さらに、検索システムの進化により、単にＷＷＷ上のページ全体を検索して結果を返すのでなく、ウェブページ（本明細書では単に「ページ」という）をニュースや画像、動画などのカテゴリ別に収集あるいは分類した上で、そのカテゴリ別に検索結果を提示する検索エンジンも登場した。本明細書では、カテゴリ別に格納した収集データを「情報源」という。また、携帯端末の普及により、従来のパーソナルコンピュータ（ＰＣ）での閲覧でなく携帯端末での閲覧を想定して、表示サイズを小さくしたページが多く作成されるようになったため、携帯端末での閲覧に特化したページを検索するための検索エンジンも登場している。

上記のようにページをカテゴリ別に収集あるいは分類する利点として、カテゴリ別に格納した情報源毎に最適化したランキング関数を生成できることがある。具体的には、ランキングに用いる特徴量の情報源間の値域差の問題を解消したり、各情報源に特有の特徴量を導入したりすることで、情報源毎にランキング関数を最適化することが可能である。例えば、ページのランキングに使われる特徴量としてよく知られた検索語頻度（ＴＦ：Term Frequency）はページに含まれる検索語の個数をカウントするものであるが、この特徴量を用いると１ページあたりの文字数が一般に多いＰＣ用ページが文字数の少ない携帯用ページに比べて有利になってしまう。この問題は、情報源別にランキング関数を生成することで解消できる。また、動画のランキングにおいては、動画サイトにおけるユーザのレイティングを利用でき、通常のページとは違う特徴量の利用が可能である。

さて、ページをカテゴリ別に収集あるいは分類するか否かに関わらず、検索システムにおいては検索語（クエリー）に対する適合度の順にページをランク付けする必要がある。このランク付けに対する一つのアプローチとして、機械学習にてランキング関数を生成する手法がある。

機械学習アプローチでは、学習データを用いた学習を行うことで関数を得る。学習データとは、ページをランク付けするための学習（ランキング学習）に用いるデータであり、より具体的には、検索語に対するページの適合度を表したラベル、及びページに関する特徴量や検索語とページとの関連を表した特徴量から成る特徴量ベクトルである。ラベルとしては、適合／不適合の二値や、適合度を数値で複数段階に表現したものなどが一般的である。特徴量としては、例えばページに含まれる検索語の個数やＵＲＬの文字長などがある。ランキング学習の結果として生成される関数としては、特徴量ベクトルに対する適合度をランキングスコアという数値として返すものが一般的であり、このような関数により、検索結果をスコア順に提示することができる。

よく知られたランキング学習としては、ニューラル・ネットワークを利用した手法（下記特許文献１参照）や、サポート・ベクター・マシン（ＳＶＭ）を利用した手法（下記非特許文献１参照）などがある。これらの技術はｎＤＣＧ（normalizedDiscounted Cumulative Gain）などの検索性能指標を間接的に高めようとするアプローチである。これに対して、ブースティングによりｎＤＣＧを直接的に最適化するランキング学習手法も存在する（下記非特許文献２参照）。

特開２００６−２３６３４５号公報

Joachims, T. "Optimizing Search Engines Using ClickthroughData," Proceedings of the ACM Conference on Knowledge Discovery and DataMining (KDD 2002) Valizadegan, H., Jin, R., Zhang, R., Mao, J. "Learning to Rankby Optimizing NDCG Measure," Proceedings of Neural Information ProcessingSystems (NIPS 2010)

携帯用の検索結果を表示する際には、画面領域の制約から情報源の境界なく目的の情報にすばやくアクセスしたいというユーザニーズに応えるため、情報源別の検索結果を一つに統合して表示したい場合がある。例えば、携帯用ページの情報源とＰＣ用ページの情報源とに分けて表示するのでなく、これらを統合して表示することが挙げられる。これを実現するために、上記のような従来技術では、統合対象の情報源に共通して利用できる特徴量のみを利用して統合用ランキング関数を生成する方法を取らざるを得ないが、利用できる特徴量が限られる場合には精度の高いランキング関数を生成するのが難しい場合もある。

そこで本発明は、統合対象の各情報源から生成した各学習データが独自の特徴量を有していたとしても、その特徴量をそのまま利用して統合用のランキング関数を得ることが可能な機械学習方法および機械学習システムを提供することを目的とする。

本発明の機械学習方法は、検索システムのランキング関数を得るための機械学習方法であって、複数の情報源のそれぞれから作成された学習データを統合して成る統合学習データのうち、同一の検索語を含む事例で構成される事例集合において、該同一の検索語を含む事例とその他すべての事例との相対的数値として、事例の重みおよびクラスを算出する第１算出ステップと、第１算出ステップにおいて算出された重みおよびクラスを用いて機械学習を実行することで、複数の情報源それぞれの弱仮説を生成する学習ステップと、学習ステップにおいて生成されたすべての弱仮説に共通の弱仮説重みを算出する第２算出ステップと、学習ステップにおいて生成された弱仮説と、第２算出ステップにおいて生成された弱仮説重みとに基づいて、複数の情報源それぞれのランキング関数を更新する更新ステップと、を含むことを特徴とする。

本発明の機械学習システムは、検索システムのランキング関数を得るための機械学習システムであって、複数の情報源のそれぞれから作成された学習データを統合して成る統合学習データのうち、同一の検索語を含む事例で構成される事例集合において、該同一の検索語を含む事例とその他すべての事例との相対的数値として、事例の重みおよびクラスを算出する第１算出手段と、第１算出手段により算出された重みおよびクラスを用いて機械学習を実行することで、複数の情報源それぞれの弱仮説を生成する学習手段と、学習手段により生成されたすべての弱仮説に共通の弱仮説重みを算出する第２算出手段と、学習手段により生成された弱仮説と、第２算出手段により生成された弱仮説重みとに基づいて、複数の情報源それぞれのランキング関数を更新する更新手段と、を備えることを特徴とする。

このような発明によれば、複数の情報源のそれぞれから作成された学習データを統合して成る統合学習データのうち、同一の検索語を含む事例で構成される事例集合において事例の重みおよびクラスが算出され、当該重みおよびクラスに基づいて各情報源の弱仮説が生成される。そして、各弱仮説と全弱仮説共通の弱仮説重みとに基づいて各情報源のランキング関数が更新される。これにより、各情報源のランキング関数は、各情報源の任意のページに対して、全情報源に共通の尺度を持つランキングスコアを出力できる。すなわち、統合対象の各情報源から生成した各学習データが独自の特徴量を有していたとしても、その特徴量をそのまま利用して統合用のランキング関数を得ることができる。

本発明の機械学習方法では、第１算出ステップ、学習ステップ、第２算出ステップ、及び更新ステップが所定の回数繰り返して実行されてもよい。

本発明の機械学習方法では、学習ステップにおいて、複数の情報源それぞれの学習データ毎に機械学習が実行されてもよい。

このような機械学習方法および機械学習システムによれば、統合対象の各情報源から生成した各学習データが独自の特徴量を有していたとしても、その特徴量をそのまま利用して統合用のランキング関数を得ることができる。

実施形態に係る機械学習システムの機能構成を示すブロック図である。図１に示す機械学習システムのハードウェア構成を示す図である。図１に示す機械学習システムの動作を示すフローチャートである。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。

本発明は、上記非特許文献２と同様に、検索性能指標として知られているｎＤＣＧをブースティングにより直接的に最適化するアプローチである。ただし、本発明は、統合された検索結果のｎＤＣＧを最適化する点で、上記非特許文献２に記載の技術と大きく異なる。実施形態に係る機械学習システムの機能構成を説明する前に、本発明の理論的な前提を説明する。

Ｌ個の情報源Ｓ_１〜Ｓ_Ｌからなる集合Ｓ＝｛Ｓ_１，…，Ｓ_Ｌ｝が存在し、その各情報源から作成された学習データをＴ＝｛Ｔ_１，…，Ｔ_Ｌ｝とする。すべての学習データＴ_１〜Ｔ_Ｌは、共通するＮ個の検索語Ｑ＝｛ｑ^１，…，ｑ^Ｎ｝を含む。情報源Ｓ_ｌから作成した学習データＴ_ｌにおいて、検索語ｑ^ｋを含むページの集合Ｄ^k _lはｍ^k _l個のページを含む。すなわち、

である。なお本明細書では、この式におけるＤ，ｄ，ｍのように、変数等に上付き文字および下付き文字が併存する場合には、例えば「Ｄ^k _l」のように、上付き文字及び下付き文字をずらして表記する場合もある。

集合Ｄ^k _lを構成する各ページには、ｐ_ｌ次元の特徴量ベクトルｘ^k _iと適合度（ラベル）ｒ^k _iとのペアが割り当てられる。すなわち、

である。なお、特徴量ベクトルは一以上の特徴量（ページに関する特徴量や検索語とページとの関連を表した特徴量）から構成され、特徴量ベクトルを構成する特徴量の個数が特徴量ベクトルの次元数に当たる。適合度は学習データに依らず共通の尺度でラベル付けされたものとする。

検索語ｑ^ｋにおける全学習データ

に含まれるページ集合Ｄ^ｋは

個のページを含み、

と表記される。同様に、特徴量ベクトルｘ^k _iと適合度ｒ^k _iとのペアについて

が成立する。

ブースティングは、弱学習器により重み付き学習事例から弱仮説を生成するステップを繰り返す手法である。ここで、弱仮説とは、弱学習器により学習された関数のことをいう。学習ステップｔでは、生成された弱仮説ｆ^ｔの重みα^ｔを決定する。ブースティングにより最終的に得られるランキング関数Ｆは、各ステップｔで決定された弱仮説ｆ^ｔと当該弱仮説の重みα^ｔとの積の総和、すなわち

となる。

本発明では、統合対象の各情報源に対してランキング関数Ｆを生成する。すなわち、Ｌ個の情報源Ｓ＝｛Ｓ_１，…，Ｓ_Ｌ｝を統合対象とすれば、Ｌ個のランキング関数Ｆ＝｛Ｆ_１，…，Ｆ_Ｌ｝が生成されることになる。情報源Ｓ_ｌにおけるページｄ^k _iのランキングスコアはＦ_ｌ（ｄ^k _i）で得られ、このスコアに基づいて統合用の検索結果が生成される。

ブースティングによる学習ステップｔにおいて生成される情報源Ｓ_ｌの弱仮説をｆ^t _lとし、その情報源Ｓ_ｌに含まれるページｄ^k _iをその弱仮説ｆ^t _lにより評価することをｆ^t _l（ｄ^k _i）とする。また、弱仮説の重みをα^ｔとする。重みαは情報源に依らず共通である。したがって、情報源Ｓ_ｌにおけるｔ回の学習ステップを経たランキング関数は

となる。ページｄ^k _iのランキングスコアはＦ^t _l（ｄ^k _i）となる。なお、ｄ^k _iは所属する情報源Ｓ_ｌの弱仮説ｆ_ｌやランキング関数Ｆ_ｌによってのみ評価できるので、ｆ^t _l（ｄ^k _i）やＦ^t _l（ｄ^k _i）と表記した場合には、ｌはｄ^k _i∈Ｓ_ｌを満たしているものとする。

以上の理論を前提として、図１，２を用いて、実施形態に係る機械学習システムの機能及び構成を説明する。機械学習システム１は、検索システム（図示せず）により検索されたウェブページの順位付けを行うランキング関数を得るためのコンピュータシステムである。図１に示すように、機械学習システム１は機能的構成要素として第１算出部（第１算出手段）１１、学習部（学習手段）１２、第２算出部（第２算出手段）１３、及びランキング関数更新部（更新手段）１４を備えている。

図２に示すように、機械学習システム１はＣＰＵ１０１と、ＲＯＭやＲＡＭで構成される主記憶部１０２と、ハードディスクなどで構成される補助記憶部１０３と、データ通信を行う通信制御部１０４と、キーボードやポインティング・デバイスなどで構成される入力部１０５と、モニタなどで構成される出力部１０６とを備えている。図２に示す各機能は、ＣＰＵ１０１又は主記憶部１０２上に所定のプログラムを読み込ませ、ＣＰＵ１０１の制御の下で通信制御部１０４、入力部１０５及び出力部１０６を動作させるとともに、主記憶部１０２又は補助記憶部１０３に対してデータの読み出し又は書き込みを行うことで実現される。以下に示す処理に必要なデータやデータベースは、主記憶部１０２又は補助記憶部１０３に格納されている。

図１に戻って、第１算出部１１は、複数の情報源のそれぞれから作成された学習データを統合して成る統合学習データのうち、同一の検索語を含む事例で構成される事例集合において、該同一の検索語を含む事例とその他すべての事例との相対的数値として、該同一の検索語を含む事例の重みおよびクラスを算出する手段である。第１算出部１１は求めた重みおよびクラスを学習部１２に出力する。ここで、事例とは、学習データにおけるラベルや特徴量ベクトルを一体化したデータのことをいう。

第１算出部１１はまず初期化処理を実行する。なお、この初期化処理をステップ０（ｔ＝０）の処理とする。具体的には、第１算出部１１は、ページ集合Ｄ^ｋに含まれるすべてのページのランキングスコアを０とする。すなわち、Ｆ⁰ _l（ｄ^k _i）＝０とする。第１算出部１１はこのような初期化を行った上でステップ１（ｔ＝１）の処理に移る。

ステップ１において、第１算出部１１は、統合対象である複数の情報源の統合学習データのうち、同一の検索語を含む事例集合において、該同一の検索語を含む事例とその他すべての事例との相対的数値として、事例の重みおよびクラスを算出する。具体的には、第１算出部１１はまず、同一の検索語を持つページ集合Ｄ^ｋにおける任意のページのペアに対して、下記式（１）を計算する。

この式（１）において、γはランキング関数から算出されるランキングスコアに基づく二つのページ間の乖離度ということができ、二つのページのランキングスコアの差が大きいほど、γは小さくなる。また、Ｉは二つのページが同一である場合の乖離度を０にするために導入した関数である。したがってθは、ランキングスコアに基づく、互いに異なる二つのページ間の乖離度といえる。

続いて、第１算出部１１はページ集合Ｄ^ｋに含まれる全ページに対する相対的数値として、ページ（事例）ｄ^k _iの重みｗ（ｄ^k _i）を下記式（２）により求める。

続いて、第１算出部１１は求めた重みに基づいて事例のクラスｙ（ｄ^k _i）を下記式（３）により決定する。

ここで、クラスとは、学習により得られた弱仮説が分類すべきカテゴリである。上記式（３）に示すように、第１算出部１１は重みが正数のときはクラスを＋１（正事例）とし、重みが負数の場合にはクラスを−１（負事例）とする。このように、本実施形態では２種類のクラスが求まる。クラスが−１であることは、ステップｔにおけるランキング関数Ｆにより求まるランキングスコアが、本来のランキングスコア（理想スコア）よりも高いことを意味し、クラスが＋１であることはその逆を意味する。

学習部１２は、第１算出部１１から入力された重みおよびクラスを用いて機械学習することで、複数の情報源それぞれの弱仮説を生成する手段である。

具体的には、学習部１２はｆ（ｘ）：Ｒ^Pl→｛０，１｝となる分類器（各特徴量が実数（Ｒ）であるＰ_ｌ次元の特徴量ベクトルＲ^Plの入力を受けて０または１を出力する関数ｆ（ｘ）を用いる分類器）によるηの最大化を実行する。ここで、関数ｆ（ｘ）は、学習データにおいて正事例のときは１、負事例のときは０を出力することが望まれる関数である。学習部１２により使われる分類器は、ｆ（ｘ）：Ｒ^Pl→｛０，１｝を満たすものであれば何でもよい。

学習部１２はなるべく多くの事例を正しいクラスに分類するような弱仮説ｆ^ｔ＝｛ｆ^t ₁，…，ｆ^t _L｝（ｆ^ｔはステップｔにおける弱仮説のこと）を学習により得ることで、下記式（４）で定義されるηの最大化を実行する。

ηは、正しく分類される事例の個数が多いほど大きな値となる指標である。例えば、クラスｙ（ｄ）＝１に対してｆ（ｄ）＝０であれば点数は加算されず、クラスｙ（ｄ）＝−１に対してｆ（ｄ）＝１であれば点数が減算されてしまう。また、式（４）は、学習部１２が重みの大きな事例をより正しく分類するようにバイアスをかけることも表している。これは、重みの大きな事例を正しく分類するとより高い効果が得られるからである。

具体的な学習方法としては、一つの特徴量を用いた一つの条件によりクラス分けを行うディシジョン・スタンプ（Decision Stump）を分類器に使って、事例数が重みの絶対値｜ｗ（ｄ^k _i）｜の比になるように学習データを再サンプリングした上で学習を行うことが考えられる。本実施形態では、学習部１２は各情報源の学習データ毎に学習を行う。すなわち、学習部１２は

となる

を個別に最大化するアプローチを取る。

学習部１２は、上記式（４）で示されるηを最大化する弱仮説ｆ^ｔ＝｛ｆ^t ₁，…，ｆ^t _L｝を求め、その弱仮説を第２算出部１３及びランキング関数更新部１４に出力する。

第２算出部１３は、学習部１２から入力されたすべての弱仮説に共通の弱仮説重みを算出する手段である。具体的には、第２算出部１３はすべての事例についてｆ^t _l（ｄ^k _i）を求め、入力された弱仮説ｆ^ｔ＝｛ｆ^t ₁，…，ｆ^t _L｝に共通の弱仮説重みα^ｔを下記式（５）により求める。そして、第２算出部１３はその重みα^ｔをランキング関数更新部１４に出力する。

ランキング関数更新部１４は、学習部１２から入力された弱仮説と、第２算出部１３から入力された弱仮説重みとに基づいて、複数の情報源それぞれのランキング関数を更新する手段である。具体的には、ランキング関数更新部１４は情報源Ｓ_ｌに対応するランキング関数Ｆ^t _lを下記式（６）により更新する。

本実施形態では、ランキング関数更新部１４は各ステップの処理で利用するランキング関数Ｆ^t _l（ｄ^k _i）を下記式（７）によりすべての事例に対して求める。

続いて、ランキング関数更新部１４はステップ数ｔが予め設定されている既定回数に達したか否かを判断する。このとき、ｔが既定回数未満であれば、ランキング関数更新部１４は更新後のランキング関数を第１算出部１１に出力し、第１算出部１１に更新後のランキング関数を用いた重みおよびクラスの算出処理を実行させる。この場合には、ｔ＝ｔ＋１となる。一方、ｔが既定回数に達した場合には、ランキング関数更新部１４は求めたランキング関数を最終結果Ｆ＝｛Ｆ_１，…，Ｆ_Ｌ｝として所定の出力先（例えば記憶装置や他のシステムなど）に出力する。

次に、図３を用いて、図１に示す機械学習システム１の動作を説明するとともに本実施形態に係る機械学習方法について説明する。

まず、第１算出部１１が、統合学習データＴのうち同一の検索語を含む事例で構成される事例集合において、事例の重みおよびクラスを求める（ステップＳ１１、第１算出ステップ）。続いて、学習部１２が算出された事例の重みおよびクラスを用いて学習することで、各情報源の弱仮説を求める（ステップＳ１２、学習ステップ）。続いて、第２算出部１３が算出された弱仮説に共通の弱仮説重みを求める（ステップＳ１３、第２算出ステップ）。そして、ランキング関数更新部１４が、学習部１２で算出された弱仮説と第２算出部１３で算出された弱仮説重みとに基づいてランキング関数を更新する（ステップＳ１４、更新ステップ）。

上記ステップＳ１１〜Ｓ１４の処理は既定回数だけ繰り返して実行され（ステップＳ１５）、その繰返し処理が終了すると最終的なランキング関数が得られる。

以上説明したように、本実施形態によれば、複数の情報源のそれぞれから作成された学習データを統合して成る統合学習データのうち、同一の検索語を含む事例で構成される事例集合において事例の重みおよびクラスが算出され、当該重みおよびクラスに基づいて各情報源の弱仮説が生成される。そして、各弱仮説と全弱仮説共通の弱仮説重みとに基づいて各情報源のランキング関数が更新される。これにより、各情報源のランキング関数は、各情報源の任意のページに対して、全情報源に共通の尺度を持つランキングスコアを出力できる。すなわち、統合対象の各情報源から生成した各学習データが独自の特徴量を有していたとしても、その特徴量をそのまま利用して統合用のランキング関数を得ることができる。

本発明は、学習データの持つ特徴量の数に依らず採用できるものである。（ただし、特徴量の数は１以上）。したがって、複数の既存の検索エンジンの結果を統合するために、例えば、各検索エンジンから得られた順位の逆数など、順位が高いほど大きくなるような指標のみを特徴量として用意するだけで学習が可能である。この際には、学習データに関して、各検索エンジンから得られた結果ページに共通尺度のラベル付けを行うことが別途必要である。

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

上記実施形態では図３におけるステップＳ１１〜Ｓ１４の処理が既定回数だけ繰り返し実行されたが、その既定回数を１として、当該処理を繰り返さなくてもよい。

１…機械学習システム、１１…第１算出部（第１算出手段）、１２…学習部（学習手段）、１３…第２算出部（第２算出手段）、１４…ランキング関数更新部（更新手段）。

Claims

検索システムのランキング関数を得るための機械学習方法であって、
複数の情報源のそれぞれから作成された学習データを統合して成る統合学習データのうち、同一の検索語を含む事例で構成される事例集合において、該同一の検索語を含む事例とその他すべての事例との相対的数値として、事例の重みおよびクラスを算出する第１算出ステップと、
前記第１算出ステップにおいて算出された重みおよびクラスを用いて機械学習を実行することで、前記複数の情報源それぞれの弱仮説を生成する学習ステップと、
前記学習ステップにおいて生成されたすべての弱仮説に共通の弱仮説重みを算出する第２算出ステップと、
前記学習ステップにおいて生成された弱仮説と、前記第２算出ステップにおいて生成された弱仮説重みとに基づいて、前記複数の情報源それぞれのランキング関数を更新する更新ステップと、
を含むことを特徴とする機械学習方法。
前記第１算出ステップ、前記学習ステップ、前記第２算出ステップ、及び前記更新ステップが所定の回数繰り返して実行される、
ことを特徴とする請求項１に記載の機械学習方法。
前記学習ステップでは、前記複数の情報源それぞれの前記学習データ毎に前記機械学習が実行される、
請求項１又は２に記載の機械学習方法。
検索システムのランキング関数を得るための機械学習システムであって、
複数の情報源のそれぞれから作成された学習データを統合して成る統合学習データのうち、同一の検索語を含む事例で構成される事例集合において、該同一の検索語を含む事例とその他すべての事例との相対的数値として、事例の重みおよびクラスを算出する第１算出手段と、
前記第１算出手段により算出された重みおよびクラスを用いて機械学習を実行することで、前記複数の情報源それぞれの弱仮説を生成する学習手段と、
前記学習手段により生成されたすべての弱仮説に共通の弱仮説重みを算出する第２算出手段と、
前記学習手段により生成された弱仮説と、前記第２算出手段により生成された弱仮説重みとに基づいて、前記複数の情報源それぞれのランキング関数を更新する更新手段と、
を備えることを特徴とする機械学習システム。