JP5225423B2 - 予測モデル生成装置及び方法 - Google Patents

予測モデル生成装置及び方法 Download PDF

Info

Publication number
JP5225423B2
JP5225423B2 JP2011093877A JP2011093877A JP5225423B2 JP 5225423 B2 JP5225423 B2 JP 5225423B2 JP 2011093877 A JP2011093877 A JP 2011093877A JP 2011093877 A JP2011093877 A JP 2011093877A JP 5225423 B2 JP5225423 B2 JP 5225423B2
Authority
JP
Japan
Prior art keywords
samples
variable
explanatory
prediction model
explanatory variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011093877A
Other languages
English (en)
Other versions
JP2012226573A (ja
Inventor
ペッファコーフェン マルコ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2011093877A priority Critical patent/JP5225423B2/ja
Publication of JP2012226573A publication Critical patent/JP2012226573A/ja
Application granted granted Critical
Publication of JP5225423B2 publication Critical patent/JP5225423B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、説明変数を用いて目的変数の予測モデルを生成する予測モデル生成装置及び方法に関する。
従来、見たい情報やサイトを探すときは、検索サイトを利用して検索することが一般的に行われている。検索サイトでは、ユーザが検索クエリを所定のスペースに入力すると、検索結果を表示し、ユーザが所望するサイトを提示する。このとき、検索サイトでは、検索結果を表示するページ内の一部の領域を広告欄として販売することで運営が行われている。
広告欄を購入する企業(広告主)は、広告を掲載することで自己のホームページへ多数のユーザが訪問することを望むものであり、そのために広告の露出する確率を大きくすることが考えられる。しかしながら、ホームページへの訪問にはクリックという能動的作業を伴う以上、ユーザが積極的な興味や関心を持たなければ自己のホームページへの訪問が適切に行われない。
そこで、近年の検索サイトでは、ユーザの興味に適合した広告を掲載すべく、検索クエリに対応した広告を検索結果ページに露出させる検索連動型広告や、ユーザが閲覧したり検索したりしたホームページの内容に応じて広告を露出させるコンテンツ連動型広告といった手法が行われている(例えば、特許文献1)。
特表2005−537591号公報
ここで、掲載した広告について、広告主が必要とするユーザの訪問数は、広告主の事業規模や対象商品(サービス)あるいは広告の目的によって異なり、少数のユーザに訪問されれば十分な広告もある一方で、多数のユーザから訪問されることを必要とする広告も存在する。そのため、検索サイトの運営者には、広告主のニーズにあった広告を適切に掲載することが要求される。
この点について、近年では、広告の掲載される順位が広告のクリックされる確率と相関することが経験的に知られている。そこで、広告の掲載される順位(説明変数)に基づいて、広告のクリックされる確率(目的変数)を予測する予測モデルを生成することができれば、広告主のニーズにあった広告を適切に掲載(適切な優先順位で掲載)することができる。
ところで、予測モデルを生成する際に、当該予測モデルに要求する精度(誤差の許容度(信頼度))に応じて必要なサンプル数(すなわち、説明変数と当該説明変数に対応する目的変数との既知の組み合わせの数)が決定されるが、このサンプル数が少ない場合、統計上有意でないデータに基づいて誤った予測モデルが生成されてしまうおそれがある。この点、従来では、サンプル数の少ないデータについてユーザがマニュアルで削除することが一般的であったため、生成される予測モデルはユーザの経験や知識に左右されてしまっていた。
本発明は、このような問題に鑑みてなされたものであり、サンプル数が少ない場合であってもユーザのマニュアル作業によることなく自動的に要求される誤差の許容度(信頼度)に応じた予測モデルを生成することのできる予測モデル生成装置及び方法を提供することを目的とする。
(1) 説明変数を用いて目的変数の予測モデルを生成する予測モデル生成装置であって、説明変数及び当該説明変数に対応する目的変数の既知の組み合わせを、予測モデルを生成するためのサンプルとして記憶する統計ログデータベースと、前記予測モデルについて所定の信頼度を満たすための最少サンプル数を算出する最少サンプル数算出手段と、前記統計ログデータベースから前記サンプルを読み出す統計ログ読出手段と、前記統計ログ読出手段が読み出した前記説明変数毎の前記サンプルの数が前記最少サンプル数を満たしているか否かを判定するサンプル数判定手段と、前記サンプル数判定手段により特定の説明変数の前記サンプルの数が前記最少サンプル数に満たないと判定されることを条件に、当該特定の説明変数に隣接する説明変数に係る前記サンプルを加えることで、前記最少サンプル数を満たす範囲の隣接説明変数に係る前記サンプルをグループ化するグループ化手段と、前記グループ化手段によりグループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに基づいて、グループ化後の説明変数を決定する説明変数変更手段と、前記グループ化手段によりグループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに各々対応する前記目的変数に基づいて、グループ化後の前記サンプルに係る、前記説明変数に対応する目的変数を決定する目的変数変更手段と、前記統計ログ読出手段が読み出した前記説明変数及び前記説明変数変更手段が決定した前記説明変数と、当該説明変数に各々対応する前記目的変数とに基づいて、前記目的変数の予測モデルを生成する予測モデル生成手段と、を備える予測モデル生成装置。
(1)の予測モデル生成装置によれば、サンプル数判定手段は、説明変数のサンプル数がユーザから受け付けた予測モデルの信頼度を満たすための最少サンプル数を満たす(超える)か否か判定し、最少サンプル数を満たさない場合には、グループ化手段が、最少サンプル数を満たすまで隣接する説明変数のサンプル数を加算しグループ化する。このとき、説明変数変更手段及び目的変数変更手段は、グループ化された説明変数及び当該説明変数に対応する目的変数を決定する。そして、予測モデル生成手段は、決定された説明変数及び目的変数に基づいて、目的変数の予測モデルを生成する。
これにより、サンプル数がユーザの予定する信頼度を満たすための最少サンプル数に満たない説明変数が存在する場合であっても、統計上有意でないデータを紛れ込ませることがない。このとき、予測モデル生成装置によれば、最少サンプル数に満たない説明変数を自動的にグループ化するため、ユーザの経験や知識に関係なく誤差の少ない予測モデルを自動的に生成することができる。
(2) 前記説明変数変更手段及び前記目的変数変更手段は、前記特定の説明変数のサンプルの数と前記隣接説明変数のサンプルの数とに基づいて重み付けられたグループ化後の説明変数及び対応する目的変数を決定する、(1)に記載の予測モデル生成装置。
(2)の予測モデル生成装置によれば、グループ化された説明変数及び目的変数を決定する際に、特定の説明変数と隣接説明変数とのそれぞれのサンプルの数に基づく所定の重み付けを行う。これにより、グループ化した際の誤差を一定度に抑えることができ、サンプル数が少ない場合であっても誤差の少ない予測モデルを自動的に生成することができる。
(3) 説明変数を用いて目的変数の予測モデルを生成する方法であって、コンピュータが実行する、前記予測モデルについて所定の信頼度を満たすための説明変数及び当該説明変数に対応する目的変数の既知の組み合わせの数である最少サンプル数を算出するステップと、前記説明変数及び当該説明変数に対応する目的変数の既知の組み合わせを、予測モデルを生成するためのサンプルとして記憶する統計ログデータベースから前記サンプルを読み出すステップと、読み出した前記説明変数毎の前記サンプルの数が前記最少サンプル数を満たしているか否かを判定するステップと、特定の説明変数の前記サンプルの数が前記最少サンプル数に満たないと判定されることを条件に、当該特定の説明変数に隣接する説明変数に係る前記サンプルを加えることで、前記最少サンプル数を満たす範囲の隣接説明変数に係る前記サンプルをグループ化するステップと、グループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに基づいて、グループ化後の説明変数を決定するステップと、グループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに各々対応する前記目的変数に基づいて、グループ化後の前記サンプルに係る、前記説明変数に対応する目的変数を決定するステップと、前記統計ログデータベースから読み出した前記説明変数及び決定した前記説明変数と、当該説明変数に各々対応する前記目的変数とに基づいて、前記目的変数の予測モデルを生成するステップと、を含む方法。
(3)の方法によれば、(1)の予測モデル生成装置と同様の効果を奏する。
本発明によれば、サンプル数が少ない場合であってもユーザのマニュアル作業によることなく自動的に要求される誤差の許容度(信頼度)に応じた予測モデルを生成することができる。
本発明の予測モデル生成装置の機能構成を示す図である。 統計ログデータベースに記憶された予測モデル生成用のサンプルデータを示す図である。 図2におけるサンプルデータのグループ化後を示す図である。 本発明の予測モデル生成装置により生成された予測モデルを示す図である。 本発明の予測モデル生成装置の予測モデル生成処理を示す図である。
以下、本発明の予測モデル生成装置1の実施形態について図面を参照して説明する。本発明の予測モデル生成装置1は、説明変数を用いて目的変数の予測モデルを自動的に生成する装置であり、特に、説明変数及び当該説明変数に対応する目的変数の既知の組み合わせであるサンプルの数が少ない場合であっても、ユーザのマニュアル作業によることなく自動的に要求される誤差の許容度(信頼度)に応じた予測モデルを生成することを特徴とする。
本実施形態の予測モデル生成装置1は、「説明変数:検索サイトにおいて表示する広告の表示順序(rank)」に基づいて、「目的変数:ある表示順序で表示された広告のクリックレート(CTR:Click Through Rate)」を予測するための予測モデルを生成する。このとき、本実施形態では、「サンプル数:ある表示順序の広告の表示回数(インプレッション数(impression))」としている。また、本実施形態では、最小二乗法に基づいて予測モデルを生成、すなわち、近似曲線を作成する。
なお、以下に示す実施形態は、本発明の予測モデル生成装置1の一例にすぎず、「説明変数」「目的変数」「サンプル数」として他の要素を用いることとしてもよく、近似曲線の作成を最小二乗法以外の方法により行うこととしてもよい。
[予測モデル生成装置1の構成]
初めに、図1を参照して、本発明の予測モデル生成装置1の構成について説明する。
予測モデル生成装置1は、ユーザ端末30と通信可能に接続され、信頼度パラメータ取得手段11と、最少サンプル数算出手段12と、モデル生成準備手段13と、予測モデル生成手段14と、統計ログデータベース21と、予測モデルデータベース22と、を含んで構成される。
信頼度パラメータ取得手段11は、ユーザ端末30から予測モデルの精度を示す信頼度パラメータを受け付ける。具体的には、信頼度パラメータ取得手段11は、ユーザ端末30のユーザが許容できる誤差の範囲をユーザ端末30から受け付ける。信頼度パラメータ取得手段11が受け付けた信頼度パラメータは、予測モデルを生成するための最少サンプル数の算出に用いられる。
最少サンプル数算出手段12は、信頼度パラメータ取得手段11が受け付けた信頼度パラメータに基づいて、予測モデルを生成するための最少サンプル数を算出する。具体的には、最少サンプル数算出手段12は、例えば、以下の式に基づいて最少サンプル数を算出する。
Figure 0005225423
p:クリックレート(例えば、0.01)
z:信頼度計数(信頼度90%基準で1.65)
E:信頼度パラメータ(許容できる誤差の範囲)
最少サンプル数算出手段12は、上記式に基づいて、ユーザ端末30から受け付けた信頼度パラメータ(E(例えば、クリックレートの20%と受け付けた場合には、0.0002))から最少サンプル数を算出する。
モデル生成準備手段13は、統計ログデータベース21から、広告の表示順序(説明変数)とクリックレート(目的変数)との組み合わせからなる、予測モデルを生成するためのサンプルを読み出し、近似曲線を作成するための数値のセットを行う。このとき、モデル生成準備手段13は、サンプル数の少ないサンプル(広告の表示順序及びクリックレート)を用いることによる誤った予測モデルが生成されてしまうことを自動的に防止するため、統計ログ読出手段131と、サンプル数判定手段132と、グループ化手段133と、説明変数変更手段134と、目的変数変更手段135と、を含む。なお、上述の最少サンプル数を与える式は、予測モデルの対象となるサンプルが正規分布すると仮定した場合の近似式であり、対象となるサンプルのサイズやとCTRによっては、二項分布を仮定した場合の近似式を適用するなどの調整を行う必要がある。
統計ログ読出手段131は、広告の表示順序及び当該表示順序に対応するクリックレートの組み合わせからなる予測モデルを生成するためのサンプルを統計ログデータベース21から読み出す。
ここで、統計ログデータベース21は、広告の表示順序及び当該表示順序に対応するクリックレートの組み合わせを、予測モデルを生成するためのサンプルとして記憶する。具体的には、図2に示すように、検索クエリ毎に、当該検索クエリに基づく検索結果ページにおける広告の表示順序に対応付けて、当該表示順序で表示された広告の数(インプレッション数)及び当該表示順序で表示された広告のクリックレートを記憶する。図2における棒グラフは、広告の表示順序と当該表示順序で表示された広告の数(インプレッション数)との関係を示し、折れ線グラフは、広告の表示順序と当該表示順序で表示された広告のクリックレートを示す。統計ログデータベース21には、検索サイトにおける検索ログやクリックログなどに基づいてリアルタイムで収集された各種情報から所定の周期で集計された統計ログ(サンプル)が、検索クエリ毎に記憶される。
図1に戻り、統計ログ読出手段131は、統計ログデータベース21から検索クエリ毎に設けられた予測モデル生成用のサンプルを読み出す。すなわち、本実施形態の予測モデル生成装置1では、広告の表示順序(説明変数)に基づいて、表示される広告のクリックレート(目的変数)を予測するための予測モデルを、検索クエリ毎に生成する。
サンプル数判定手段132は、統計ログ読出手段131が読み出した広告の表示順序(説明変数)のインプレッション数(サンプル数)が最少サンプル数算出手段12が算出した最少サンプル数を満たしているか否かを表示順序毎に判定する。図2を参照して、例えば、最少サンプル数が「1000回」である場合、表示順序「1.7」のインプレッション数201「500回」は、最少サンプル数を満たさないと判定され、表示順序「3.0」のインプレッション数202「2700回」は、最少サンプル数を満たすと判定される。
このとき、インプレッション数が最少サンプル数を満たしていない表示順序については、後述するようにグループ化手段133によるグループ化が行われた後に予測モデル生成用の数値としてセットされ、最少サンプル数を満たしている表示順序については、そのまま予測モデル生成用の数値としてセットされる。
グループ化手段133は、サンプル数判定手段132によりインプレッション数(サンプル数)が最少サンプル数に満たないと判定された表示順序(特定の説明変数)について、当該表示順序に隣接する表示順序(隣接説明変数)のインプレッション数を加え、グループ化する。このとき、グループ化手段133は、インプレッション数を加えることで、最少サンプル数を満たすと判定される範囲まで隣接する表示順序をグループ化する。すなわち、隣の表示順序のインプレッション数を加えただけでは最少サンプル数に満たない場合には、グループ化手段133は、更に隣(自己の2つ隣)の表示順序のインプレッション数を加える。なお、「隣接する」とは、表示順序の下位又は上位方向への一方向(自己から上位(下位)にのみ広がる)への隣接であってもよく、表示順序の下位及び上位方向への双方向(自己から上位及び下位に広がる)への隣接であってもよい。
図2及び図3を参照して、表示順序「1.7」のインプレッション数201が最少サンプルに満たないと判定された場合、グループ化手段133は、隣接するインプレッション数203(表示順序「2.0」)をインプレッション数201に加えグループ化し、インプレッション数205とする(図3参照)。このとき、インプレッション数201とインプレッション数203とを加算することで最少サンプル数を満たすものとすると、サンプル数が少なかったサンプル(表示順序「1.7」)が最少サンプル数を満たすことになり、適切な近似曲線を作成することができる。
ところで、異なるサンプル(表示順序及びクリックレート)のインプレッション数を加算したまま、近似曲線を作成したのでは、誤った曲線が作成されてしまうおそれがある。そこで、本実施形態の予測モデル生成装置1では、グループ化した表示順序(説明変数)及び当該表示順序に対応するクリックレート(目的変数)をインプレッション数により補正することとしている。
説明変数変更手段134は、グループ化手段133によりグループ化された複数の表示順序(特定の説明変数及び隣接説明変数)に基づいて、グループ化後の表示順序を決定する。このとき、説明変数変更手段134は、グループ化された複数の表示順序の各々のインプレッション数に基づいて重み付けした上で、グループ化後の表示順序を決定する。例えば、第1表示順序と第2表示順序とをグループ化した場合には、グループ化後の表示順序は、以下の式で算出される。
Figure 0005225423
R1:第1表示順序
R2:第2表示順序
I1:第1表示順序のインプレッション数
I2:第2表示順序のインプレッション数
図2を参照して、グループ化した表示順序「1.7」のインプレッション数201は「500」であり、表示順序「2.0」のインプレッション数203は「500」である場合、グループ化後の表示順序は「1.85」となる(図3)。
目的変数変更手段135は、グループ化手段133によりグループ化された複数の表示順序の各々に対応するクリックレート(目的変数)に基づいて、グループ化後のクリックレートを変更する。このとき、目的変数変更手段135は、グループ化された複数の表示順序の各々のインプレッション数に基づいて重み付けした上で、グループ化後のクリックレートを決定する。例えば、第1表示順序と第2表示順序とをグループ化した場合には、グループ化後のクリックレートは、以下の式で算出される。
Figure 0005225423
CTR1:第1表示順序に対応するクリックレート
CTR2:第2表示順序に対応するクリックレート
I1:第1表示順序のインプレッション数
I2:第2表示順序のインプレッション数
図2を参照して、グループ化した表示順序「1.7」に対応するクリックレート211は「4.5」であり、インプレッション数201は「500」である。また、グループ化した表示順序「2.0」に対応するクリックレート213は「6.5」であり、インプレッション数は「500」である。その結果、グループ化後のクリックレート215は「5.5」となる(図3)。
グループ化手段133によりグループ化され説明変数変更手段134及び目的変数変更手段135により変更された表示順序(説明変数)及びクリックレート(目的変数)は、近似曲線を作成するための数値として、グループ化前の表示順序及びクリックレートに変えてセットされる。統計ログデータベース21に記憶された図2に示すサンプルのグループ化後を図3に示す。図3に示すように、最少サンプル数に満たない情報がグループ化され、表示順序及びクリックレートが適宜変更されている。その後、全ての数値がセットされると、予測モデル生成装置1は、近似曲線を作成、すなわち、予測モデルを生成する。
予測モデル生成手段14は、サンプル数判定手段132により最少サンプル数を満たすと判定されてセットされた数値及びグループ化手段133によりグループ化されセットされた数値に基づいて、広告の表示順序(説明変数)に基づいて表示される広告のクリックレート(目的変数)を予測するための予測モデルを生成する。具体的には、予測モデル生成手段14は、セットされた数値から最小二乗法に基づいて近似曲線を作成することで、予測モデルを生成する。
ここで、予測モデル生成手段14は、セットされた数値に対して、所定の重み付けをした上で予測モデルを生成することとしてもよい。重み付けは、任意の要素に基づいて行うことができ、例えば、表示順序に基づいて行うこととしてもよく、ログとして記憶された日時と予測モデルを生成する日時との差に基づいて行うこととしてもよく、インプレッション数に基づいて行うこととしてもよく、これら表示順序、日時及びインプレッション数の組み合わせにより行うこととしてもよい。一例として、表示順序、日時及びインプレッション数に基づいて重み付けを行い予測モデルを生成する際の計算式を以下に示す。
Figure 0005225423
impression:インプレッション数に基づく重み付けである。
x:表示順序(説明変数)
y:クリックレート(目的変数)
予測モデル生成手段14は、上記式により算出されたα及びβから、広告の表示順序(説明変数)に基づいて表示される広告のクリックレート(目的変数)を予測するための予測モデルCTR=f(rank,α,β)を、検索クエリ毎に生成する。
その結果、図3のようにセットされた数値から図4に示す予測モデルが生成される。予測モデル生成手段14により生成された予測モデルは、図示しない予測モデルデータベース22に記憶される。すなわち、予測モデルデータベース22には、広告の表示順序に基づいて表示される広告のクリックレートを予測するための予測モデルが、検索クエリ毎に記憶される。
[予測モデル生成装置1のハードウェア構成]
以上説明した予測モデル生成装置1のハードウェアは、1又は複数の一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、予測モデル生成装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
[予測モデル生成装置1の処理]
続いて、図5を参照して、予測モデル生成装置1の予測モデル生成処理について説明する。予測モデル生成装置1は、予め定められた所定のタイミング又はユーザが指定したタイミングで予測モデル生成処理を実行する。
初めに、信頼度パラメータ取得手段11は、ユーザ端末30からユーザが所望する予測モデルの精度を示す信頼度パラメータを受け付ける(S1)。続いて、最少サンプル数算出手段12は、S1で受け付けた信頼度パラメータに基づいて、予測モデルを生成するための最少サンプル数を算出する。
ここで、信頼度パラメータの受け付けは、検索クエリ毎に個別に受け付けることとしてもよく、複数又は全部の検索クエリに共通して受け付けることとしてもよい。また、S1,S2の処理は、予測モデル生成処理を行う際に常に行うこととしてもよいが、省略することもできる。すなわち、ユーザが所望する予測モデルの精度が変わらない場合には、前回算出しておいた最少サンプル数に基づいて、S3〜S10の処理を行うこととしてもよい。
続いて、統計ログ読出手段131は、統計ログデータベース21から予測モデルを生成するためのサンプルである広告の表示順序及び対応するクリックレートに加え、表示順序毎のインプレッション数(サンプル数)を読み出す(S3)。続いて、サンプル数判定手段132は、S3で読み出したインプレッション数が、S2で算出した最少サンプル数未満であるか否かを判定する(S4)。
このとき、インプレッション数が最少サンプル数未満である場合には(S4でYES)、グループ化手段133は、最少サンプル数に達するまで対応する表示順序に隣接する表示順序のインプレッション数を加算する(S5)。続いて、説明変数変更手段134は、それぞれの表示順序(説明変数)の値をインプレッション数に基づいて重み付けした上で、グループ化後の表示順序の値を決定する(S6)。同様に、目的変数変更手段135は、表示順序のそれぞれに対応するクリックレート(目的変数)の値をインプレッション数に基づいて重み付けした上で、グループ化後のクリックレートの値を決定する(S7)。
S6、S7においてグループ化後の表示順序(説明変数)及びクリックレート(目的変数)を決定すると、決定した表示順序及びクリックレートを予測モデルを生成するための数値としてセットする(S8)。また、S3で読み出したインプレッション数が最少サンプル数以上である場合には(S4でNO)、S3で読み出した表示順序及びクリックレートをそのままセットする(S8)。
続いて、モデル生成準備手段13は、統計ログデータベース21に記憶された全てのサンプルを読み出しセットしたか否かを判定する(S9)。このとき、全てのサンプルのセットが終了していない場合には(S9でNO)、モデル生成準備手段13は、全てのサンプルのセットが終了するまでS4〜S8の処理を繰り返す。一方で、全てのサンプルのセットが終了した場合には(S9でYES)、予測モデル生成手段14は、広告の表示順序(説明変数)に基づいて表示される広告のクリックレート(目的変数)を予測するための予測モデルを、検索クエリ毎に生成し、予測モデルデータベース22に記憶する。
[予測モデル生成装置1の効果]
予測モデル生成装置1によれば、予測モデルを生成する際に、インプレッション数が最少サンプル数に満たない(すなわち、統計上有意でない)広告の表示順序やクリックレートについては、最少サンプル数を満たすまで隣接する範囲でグループ化した上で予測モデルを生成する。
これにより、インプレッション数がユーザの予定する信頼度を満たすための最少サンプル数に満たないサンプル(表示順序及びクリックレート)が存在する場合であっても、ユーザの経験や知識に関係なく誤差の少ない予測モデルを自動的に生成することができる。
このとき、予測モデル生成装置1では、隣接する範囲でグループ化する際に、それぞれのインプレッション数に基づいて重み付けを行った上で、グループ化後の表示順序及びクリックレートを決定する。これにより、グループ化した際の誤差を一定度に抑えることができ、サンプル数が少ない場合であっても誤差の少ない予測モデルを自動的に生成することができる。
以上のような予測モデル生成装置1は、ユーザの経験や知識に関係なく予測モデルを自動的に生成するため、多数の予測モデルを生成する際に、例えば、本実施形態のように検索クエリ毎に予測モデルを生成する際に特に好適である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
例えば、上記実施形態で示した式は、一例にすぎず他の式に基づいて所定の値を算出することとしてもよい。一例として、最少サンプル数を算出する数1の式は、「最少サンプル数×P<5」の場合には精度が十分でなく、他の式により最少サンプル数を算出することが好ましい。
1 予測モデル生成装置
11 信頼度パラメータ取得手段
12 最少サンプル数算出手段
13 モデル生成準備手段
131 統計ログ読出手段
132 サンプル数判定手段
133 グループ化手段
134 説明変数変更手段
135 目的変数変更手段
14 予測モデル生成手段
21 統計ログデータベース
22 予測モデルデータベース

Claims (3)

  1. 説明変数を用いて目的変数の予測モデルを生成する予測モデル生成装置であって、
    説明変数及び当該説明変数に対応する目的変数の既知の組み合わせを、予測モデルを生成するためのサンプルとして記憶する統計ログデータベースと、
    前記予測モデルについて所定の信頼度を満たすための最少サンプル数を算出する最少サンプル数算出手段と、
    前記統計ログデータベースから前記サンプルを読み出す統計ログ読出手段と、
    前記統計ログ読出手段が読み出した前記説明変数毎の前記サンプルの数が前記最少サンプル数を満たしているか否かを判定するサンプル数判定手段と、
    前記サンプル数判定手段により特定の説明変数の前記サンプルの数が前記最少サンプル数に満たないと判定されることを条件に、当該特定の説明変数に隣接する説明変数に係る前記サンプルを加えることで、前記最少サンプル数を満たす範囲の隣接説明変数に係る前記サンプルをグループ化するグループ化手段と、
    前記グループ化手段によりグループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに基づいて、グループ化後の説明変数を決定する説明変数変更手段と、
    前記グループ化手段によりグループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに各々対応する前記目的変数に基づいて、グループ化後の前記サンプルに係る、前記説明変数に対応する目的変数を決定する目的変数変更手段と、前記統計ログ読出手段が読み出した前記説明変数及び前記説明変数変更手段が決定した前記説明変数と、
    当該説明変数に各々対応する前記目的変数とに基づいて、前記目的変数の予測モデルを生成する予測モデル生成手段と、
    を備える予測モデル生成装置。
  2. 前記説明変数変更手段及び前記目的変数変更手段は、前記特定の説明変数のサンプルの数と前記隣接説明変数のサンプルの数とに基づいて重み付けられたグループ化後の説明変数及び対応する目的変数を決定する、
    請求項1に記載の予測モデル生成装置。
  3. 説明変数を用いて目的変数の予測モデルを生成する方法であって、
    コンピュータが実行する、
    前記予測モデルについて所定の信頼度を満たすための説明変数及び当該説明変数に対応する目的変数の既知の組み合わせの数である最少サンプル数を算出するステップと、
    前記説明変数及び当該説明変数に対応する目的変数の既知の組み合わせを、予測モデルを生成するためのサンプルとして記憶する統計ログデータベースから前記サンプルを読み出すステップと、
    読み出した前記説明変数毎の前記サンプルの数が前記最少サンプル数を満たしているか否かを判定するステップと、
    特定の説明変数の前記サンプルの数が前記最少サンプル数に満たないと判定されることを条件に、当該特定の説明変数に隣接する説明変数に係る前記サンプルを加えることで、前記最少サンプル数を満たす範囲の隣接説明変数に係る前記サンプルをグループ化するステップと、
    グループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに基づいて、グループ化後の説明変数を決定するステップと、
    グループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに各々対応する前記目的変数に基づいて、グループ化後の前記サンプルに係る、前記説明変数に対応する目的変数を決定するステップと、
    前記統計ログデータベースから読み出した前記説明変数及び決定した前記説明変数と、当該説明変数に各々対応する前記目的変数とに基づいて、前記目的変数の予測モデルを生成するステップと、
    を含む方法。
JP2011093877A 2011-04-20 2011-04-20 予測モデル生成装置及び方法 Active JP5225423B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011093877A JP5225423B2 (ja) 2011-04-20 2011-04-20 予測モデル生成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011093877A JP5225423B2 (ja) 2011-04-20 2011-04-20 予測モデル生成装置及び方法

Publications (2)

Publication Number Publication Date
JP2012226573A JP2012226573A (ja) 2012-11-15
JP5225423B2 true JP5225423B2 (ja) 2013-07-03

Family

ID=47276665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011093877A Active JP5225423B2 (ja) 2011-04-20 2011-04-20 予測モデル生成装置及び方法

Country Status (1)

Country Link
JP (1) JP5225423B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017135322A1 (ja) * 2016-02-03 2017-08-10 日本電気株式会社 最適化システム、最適化方法、及び、記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4417897B2 (ja) * 2005-09-14 2010-02-17 富士通マイクロエレクトロニクス株式会社 製造データ解析方法及び製造データ解析装置
JP2007199862A (ja) * 2006-01-24 2007-08-09 Nippon Telegr & Teleph Corp <Ntt> エネルギー需要予測方法、予測装置、プログラム、および記録媒体
JP5004551B2 (ja) * 2006-11-06 2012-08-22 株式会社電通 広告診断プログラム、装置及び方法
JP4568786B2 (ja) * 2009-03-26 2010-10-27 シャープ株式会社 要因分析装置および要因分析方法

Also Published As

Publication number Publication date
JP2012226573A (ja) 2012-11-15

Similar Documents

Publication Publication Date Title
US10534845B2 (en) System and method for optimizing electronic document layouts
US9065727B1 (en) Device identifier similarity models derived from online event signals
CN107885868B (zh) 生成渠道贡献的图形化表示的方法、系统及介质
KR101807755B1 (ko) 광고 수익률을 갖는 다수의 속성 모델들
US9076160B2 (en) System and method for suggesting recommended keyword
US20170308609A1 (en) Multi-result ranking exploration
US9026479B1 (en) Predicting user interests
CN106251174A (zh) 信息推荐方法及装置
US20100211568A1 (en) Personalized recommendations on dynamic content
US20160092912A1 (en) Automated optimization of an advertisement placement engine
US10878058B2 (en) Systems and methods for optimizing and simulating webpage ranking and traffic
CN105556512A (zh) 用于分析关注实体特性的设备、系统以及方法
KR20140034180A (ko) 우선순위 차원데이터 컨버젼 경로의 보고
CN110910201B (zh) 信息推荐的控制方法、装置、计算机设备及存储介质
CN102262661A (zh) 一种基于k阶混合马尔可夫模型的Web页面访问预测方法
CN106447419B (zh) 基于特征选择的拜访者标识
CN105701108A (zh) 一种信息推荐方法、装置及服务器
CA3062119A1 (en) Method and device for setting sample weight, and electronic apparatus
JP2009163425A (ja) 広告サーバ及び広告管理方法
CN110766510A (zh) 推荐方法、装置、电子设备及可读存储介质
US9159083B1 (en) Content evaluation based on user&#39;s browsing history
JP5250088B2 (ja) 広告サーバ及び広告管理方法
CN106776757A (zh) 用户完成网银操作的指示方法及装置
EP2469463A1 (en) A method and a system for analysing traffic on a website by means of path analysis
JP5225423B2 (ja) 予測モデル生成装置及び方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130312

R150 Certificate of patent or registration of utility model

Ref document number: 5225423

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250