JP5683622B2 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP5683622B2
JP5683622B2 JP2013047070A JP2013047070A JP5683622B2 JP 5683622 B2 JP5683622 B2 JP 5683622B2 JP 2013047070 A JP2013047070 A JP 2013047070A JP 2013047070 A JP2013047070 A JP 2013047070A JP 5683622 B2 JP5683622 B2 JP 5683622B2
Authority
JP
Japan
Prior art keywords
advertisement
feature vector
click rate
click
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013047070A
Other languages
English (en)
Other versions
JP2014174753A (ja
Inventor
堀田 徹
徹 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013047070A priority Critical patent/JP5683622B2/ja
Publication of JP2014174753A publication Critical patent/JP2014174753A/ja
Application granted granted Critical
Publication of JP5683622B2 publication Critical patent/JP5683622B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、広告のクリックに関するログデータに基づいて、表示する広告を選択するための特徴ベクトルを生成する情報処理装置に関する。
ウェブページにおける広告において、ユーザに対応して広告を選択して表示することが行われている。例えば、閲覧されたウェブページやユーザの興味に応じて、ある広告がどの程度クリックされやすいかを計るために、広告のクリックログを学習データとして、クリック率を予測するモデルが機械学習を用いて構築されている。このクリック予測モデルでは、1つのリクエスト内で、クリックされた広告とクリックされなかった広告の特徴ベクトルの差分を取って、その差分ベクトルを学習データとして予測モデルを構築している。このようにすることで、複数の広告の中からその広告が選ばれたという情報を学習することができ、精度の高い予測モデルを作成することができている。
これに関連する技術として、例えば、特許文献1には、全体の負荷を著しく増大させることなく、必要な広告に対する数値更新頻度を従来よりも改善することを課題とし、CTR計算対象のログデータのうち、全広告のCTRを計算する時間間隔(例えば半日)とは別に、より短い第二の時間間隔(例えば30分)毎に、表示回数が所定の条件を満たす広告についてのみCTRの計算を行うことにより、全体の負荷を著しく増大させることなく、必要な広告に対するCTR更新頻度を従来よりも改善することが可能となることが開示されている。
特開2011−192224号公報
しかしながら、1つのリクエスト内の広告同士の差分を取るため、性別・年令などのデモグラフィック(demographics)情報や曜日・時間帯・場所などのコンテキスト情報が打ち消され、クリック予測の情報として活かせないという問題がある。つまり、クリックされた広告とクリックされなかった広告とでは、デモグラフィック情報又はコンテキスト情報は同じになるので、特徴ベクトルの要素として採用したとしても、相殺していまい、その要素の情報は無いに等しくなってしまう。このため、例えば「男性ならクリックしやすい広告」といった情報を利用してクリック予測モデルを作成していないことになる。
本発明は、このような背景技術の状況の中でなされたもので、差分ベクトルでクリック予測モデルを学習する場合において、クリック毎に共通であるデモグラフィック情報又はコンテキスト情報を反映しているクリック率を用いて、クリック予測モデルの作成に活用できるように特徴ベクトルを生成するようにした情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
(1)広告のクリックに関するログデータに基づいて、広告の特徴を表す関連情報を要素として持つ特徴ベクトルを生成する特徴ベクトル生成手段と、前記ログデータに基づいて、広告に対してクリックを行った者に関する属性毎に、該広告の特徴ベクトルを構成する要素との組み合わせにおけるクリック率を算出する算出手段と、前記算出手段によって算出されたクリック率の中から、前記特徴ベクトルが対象としている広告に対するクリック率であって、該特徴ベクトルを構成する所定の要素及び所定の前記属性に対応するクリック率を抽出する抽出手段と、前記抽出手段によって抽出されたクリック率を前記特徴ベクトル生成手段によって生成された特徴ベクトルの要素として付加する付加手段を具備することを特徴とする情報処理装置である。
(2)前記ログデータを用いて、広告と属性に関するモデルを学習によって生成する第1の学習手段をさらに具備し、前記算出手段は、前記第1の学習手段によって学習されたモデルを用いて、クリック率を算出することを特徴とする(1)に記載の情報処理装置である。
(3)前記ログデータを収集する収集手段と、前記収集手段によってログデータが収集された場合は、クリックされた広告とクリックされなかった広告の特徴ベクトルの差分ベクトルを生成する差分ベクトル生成手段と、前記差分ベクトル生成手段によって生成された差分ベクトルを用いて、表示する広告を選択するための基準を学習する第2の学習手段と、前記第2の学習手段によって学習された基準にしたがって、表示する広告を選択する選択手段をさらに具備することを特徴とする(1)又は(2)に記載の情報処理装置である。
(4)特徴ベクトル生成手段と算出手段と抽出手段と付加手段を具備する情報処理装置が行う情報処理方法であって、前記特徴ベクトル生成手段は、広告のクリックに関するログデータに基づいて、広告の特徴を表す関連情報を要素として持つ特徴ベクトルを生成し、前記算出手段は、前記ログデータに基づいて、広告に対してクリックを行った者に関する属性毎に、該広告の特徴ベクトルを構成する要素との組み合わせにおけるクリック率を算出し、前記抽出手段は、前記算出手段によって算出されたクリック率の中から、前記特徴ベクトルが対象としている広告に対するクリック率であって、該特徴ベクトルを構成する所定の要素及び所定の前記属性に対応する属性を抽出し、前記付加手段は、前記抽出手段によって抽出されたクリック率を前記特徴ベクトル生成手段によって生成された特徴ベクトルの要素として付加することを特徴とする情報処理方法である。
(5)コンピュータを、広告のクリックに関するログデータに基づいて、広告の特徴を表す関連情報を要素として持つ特徴ベクトルを生成する特徴ベクトル生成手段と、前記ログデータに基づいて、広告に対してクリックを行った者に関する属性毎に、該広告の特徴ベクトルを構成する要素との組み合わせにおけるクリック率を算出する算出手段と、前記算出手段によって算出されたクリック率の中から、前記特徴ベクトルが対象としている広告に対するクリック率であって、該特徴ベクトルを構成する所定の要素に対応する属性及び所定の前記属性を抽出する抽出手段と、前記抽出手段によって抽出されたクリック率を前記特徴ベクトル生成手段によって生成された特徴ベクトルの要素として付加する付加手段として機能させるための情報処理プログラムである。
本発明にかかる情報処理装置、情報処理方法及び情報処理プログラムによれば、差分ベクトルでクリック予測モデルを学習する場合において、クリック毎に共通であるデモグラフィック情報又はコンテキスト情報を反映しているクリック率を用いて、クリック予測モデルの作成に活用できるように特徴ベクトルを生成することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理例を示すフローチャートである。 クリックログテーブルのデータ構造例を示す説明図である。 特徴ベクトルテーブルのデータ構造例を示す説明図である。 ユーザ属性テーブルのデータ構造例を示す説明図である。 広告属性テーブルのデータ構造例を示す説明図である。 属性・単語間クリック率テーブルのデータ構造例を示す説明図である。 特徴ベクトルのデータ構造例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置は、複数の広告が表示されているウェブページ内の広告のクリック毎に発生するログデータであって、クリックされた広告とクリックされなかった広告の組み合わせに関するログデータに基づいて、表示する広告を選択するための特徴ベクトルを生成するものであって、図1の例に示すように、ログ記憶モジュール110、特徴ベクトル生成モジュール120、クリック予測モデル生成モジュール150を有している。特徴ベクトル生成モジュール120又はクリック予測モデル生成モジュール150は、クリックが発生する(ログデータが発生する)毎に処理を行ってもよいし、予め定められた期間毎に処理を行ってもよい。
ここで、本実施の形態である情報処理装置が行う処理の概要について例を用いて説明する。
(1) 広告A、B、Cの3本が掲載されたウェブページがあり、そのウェブページのリクエストで発生したユーザA(属性:男性)のクリックログを取得する。例えば、広告Aについては「クリックしなかった」、広告Bについては「クリックした」、広告Cについては「クリックしなかった」というログデータが発生することになる。
(2) そして、広告A、B、Cの特徴ベクトルの要素として、属性:男性のクリック率を付加する。つまり、男性だけのクリックログから生成したモデルから、広告A、B、Cのクリック率を抽出して、それぞれの特徴ベクトルの要素として付加する。そのために、例えば、広告A、B、Cに含まれている単語を含めた情報をモデルに掛けるとクリック率が算出される。
(3) 次に、教師データとして、例えば、広告B−広告A(ポジティブデータ)、広告B−広告C(ポジティブデータ)、広告A−広告B(ネガティブデータ)、広告C−広告B(ネガティブデータ)という差分ベクトル生成する。つまり、差分ベクトルを生成しても、デモグラフィック情報又はコンテキスト情報を反映させた要素は相殺されないこととなる。
(4) (3)での差分ベクトルからランキング学習を行う。
ログ記憶モジュール110は、特徴ベクトル生成モジュール120、クリック予測モデル生成モジュール150と接続されている。ログ記憶モジュール110は、インターネットにおいて、ユーザが有しているPC、携帯端末(例えば、携帯電話、スマートフォン等)を操作して、ウェブページ内にある広告が表示、クリック等されたことを示すログデータを記憶している。例えば、クリックログテーブル300を記憶している。図3は、クリックログテーブル300のデータ構造例を示す説明図である。クリックログテーブル300は、クリック日時欄310、広告ID欄320、ユーザID欄330、URL欄340、場所欄350を有しており、ウェブページに表示された広告がクリックされたことを示す情報(以下、クリックログともいう。)を記憶する。クリック日時欄310は、広告がクリックされた日時(クリック日時)を記憶する。広告ID欄320は、クリックされた広告を本実施の形態において一意に識別する広告ID(IDentification)を記憶する。ユーザID欄330は、広告をクリックしたユーザを本実施の形態において一意に識別するユーザIDを記憶する。URL欄340は、広告が表示されたウェブページを示すURL(Uniform Resource Locator)を記憶する。場所欄350は、そのクリックがされた場所(例えば、緯度、経度)を記憶する。この場所データは、GPS(Global Positioning System(汎地球測位システム))によって測定されたもの、又は携帯電話網における基地局の位置である。
また、クリックログだけでなく、ウェブページに広告が表示されたこと(インプレッションと呼ばれる。)を示す情報(以下、インプレッションログともいう。)を記憶するようにしてもよい。例えば、インプレッションログには、Webページに広告が表示された日時(すなわち、WebページがWebサーバから送信された日時である。以下、配信日時ともいう。)、Webページを示すURL、表示された広告を示す広告ID、Webページを閲覧したユーザを示すユーザIDが含まれる。インプレッションログは1つの広告が表示されるにつき1つ登録されるようにしてもよい。すなわち、例えば1つのWebページに3つの広告が表示された場合には、3つのインプレッションログが登録されることになる。
特に、ログ記憶モジュール110は、1回のリクエストでクリックが発生する毎に生成されたログデータを記憶する。つまり、表示している広告(インプレッションログ)、その中でクリックされた広告、クリックされなかった広告をログデータとして記憶する。つまり、クリックされた広告とクリックされなかった広告の組み合わせをログデータとして記憶している。これによって、差分ベクトル生成モジュール154は、差分ベクトルを生成する。
なお、クリック予測モデル生成モジュール150が用いるログデータには、クリックされた広告とクリックされなかった広告の組み合わせのログデータが含まれている。また、特徴ベクトル生成モジュール120が用いるログデータは、クリックされた広告とクリックされなかった広告の組み合わせのログデータは、必ずしも含まれている必要はない。ただし、クリックされた広告とクリックされなかった広告の組み合わせのログデータを排除するものではない。つまり、クリック予測モデル生成モジュール150が用いるログデータと特徴ベクトル生成モジュール120が用いるログデータは、異なるログデータであってもよいし、同じものであってもよいし、一方が他方を含むようなログデータであってもよい。
特徴ベクトル生成モジュール120は、特徴ベクトル生成処理モジュール122、クリック率算出モジュール124、クリック率抽出モジュール126、特徴ベクトル要素付加モジュール128を有している。特徴ベクトル生成モジュール120は、ログ記憶モジュール110と接続されている。
特徴ベクトル生成処理モジュール122は、ログ記憶モジュール110に記憶されている広告のクリックに関するログデータに基づいて、表示する広告を選択するための特徴ベクトルを生成する。ここで生成する特徴ベクトルは、例えば、特徴ベクトルテーブル400である。図4は、特徴ベクトルテーブル400のデータ構造例を示す説明図である。特徴ベクトルテーブル400は、列方向に広告欄410、クリック率欄420、単語欄430、カテゴリ欄440、ページ類似度欄450、行動類似度欄460等を有しており、行方向に広告A欄482、広告B欄484、広告C欄486、広告D欄488等を有している。つまり、広告毎にクリック率、単語、カテゴリ、ページ類似度、行動類似度等を要素として有しているベクトルを表している。広告欄410は、広告名(広告IDであってもよい)を記憶している。クリック率欄420は、その広告に対するCTR(Click Through Rate)を記憶している。CTRは、広告がクリックされた割合であり、クリック数/インプレッション(広告が表示/配信された数)である。単語欄430は、その広告に用いられている言葉、又はその広告に付与されているキーワードを記憶している。その広告に用いられている言葉としては、例えば、タイトル、詳細説明に含まれる単語列がある。カテゴリ欄440は、その広告が属している分類名を記憶している。ページ類似度欄450は、その広告と該広告が含まれているウェブページとの類似度を記憶している。行動類似度欄460は、その広告とユーザのウェブ閲覧行動との類似度を記憶している。例えば、行動類似度は、ユーザのウェブ閲覧行動として自動車関連のウェブページが多い場合に、その広告も自動車関連であるならば類似していることを示す指標であり、その広告が旅行関連ならば自動車関連の広告よりも類似していないことを示すこととなる。
クリック率算出モジュール124は、ログ記憶モジュール110に記憶されているログデータを用いて、広告に対してクリックを行ったユーザに関する属性毎に、その広告の特徴ベクトルを構成する要素との組み合わせにおけるクリック率を算出する。ここでのユーザに関する属性としては、例えば、デモグラフィック情報としての性別、年令(年代等であってもよい)、国籍、住所等、又はコンテキスト情報としてのクリックしたときの曜日、時間帯、場所等がある。ユーザに関するデモグラフィック情報としての属性として、例えば、ユーザ属性テーブル500を用いて管理している。図5は、ユーザ属性テーブル500のデータ構造例を示す説明図である。ユーザ属性テーブル500は、ユーザID欄510、性別欄520、年令欄530、国籍欄540、住所欄550、興味カテゴリ欄560を有している。ユーザID欄510は、ユーザIDを記憶している。性別欄520は、そのユーザIDで示されるユーザの性別を記憶している。年令欄530は、そのユーザIDで示されるユーザの年令を記憶している。国籍欄540は、そのユーザIDで示されるユーザの国籍を記憶している。住所欄550は、そのユーザIDで示されるユーザの住所を記憶している。興味カテゴリ欄560は、そのユーザIDで示されるユーザが興味を示しているカテゴリ(趣味としている映画、スポーツ等があり、さらにスポーツとして野球、サッカー等としてもよい)を記憶している。また、コンテキスト情報としての属性は、クリックしたときの日時、場所等を含むログデータから抽出すればよい。
広告に用いられている言葉又はその広告に付与されているキーワードとして、例えば、広告属性テーブル600を用いて管理している。図6は、広告属性テーブル600のデータ構造例を示す説明図である。広告属性テーブル600は、広告ID欄610、カテゴリ欄620、単語欄630を有している。広告ID欄610は、広告IDを記憶している。カテゴリ欄620は、その広告IDで示される広告が含まれているカテゴリ(映画、スポーツ等があり、さらにスポーツとして野球、サッカー等)を記憶している。これをその広告に付与されているキーワードとしてもよい。単語欄630は、その広告に用いられている単語を記憶している。この単語は、対象としている広告に対して形態素解析を行い、抽出するようにしてもよい。
クリック率算出モジュール124は、処理結果として属性・単語間クリック率テーブル700を作成する。図7は、属性・単語間クリック率テーブル700のデータ構造例を示す説明図である。属性・単語間クリック率テーブル700は、列方向に単語1欄710、単語2欄720、単語3欄730等を有しており、行方向に属性1欄782、属性2欄784、属性3欄786等を有している。交差しているセルは、クリック率を記憶している。つまり、属性・単語間クリック率テーブル700は、単語(前記広告に用いられている言葉又は該広告に付与されているキーワード)と属性(ユーザ属性としての性別、年令等)の組み合わせにおけるクリック率を記憶している。これによって、ユーザの属性と広告に含まれる単語との組み合わせに対応したクリック率を抽出することができるようになる。例えば、クリックしたユーザが男性、30歳代である場合に、自動車という単語を含む広告に反応する確率(クリック率)、化粧品という単語を含む広告に反応する確率(クリック率)等を抽出することができるようになる。
なお、クリック率算出モジュール124は、広告の特徴ベクトルから、属性ごとのクリック率を算出する。
また、クリック率算出モジュール124が用いる要素として、特徴ベクトルを構成する要素であれば、特に限定する必要はない。例えば、広告に用いられている言葉又はその広告に付与されているキーワード(特徴ベクトルテーブル400の単語欄430)を用いるようにしてもよい。また、ログデータを用いて、広告と属性に関するモデルを学習によって生成するようにしてもよい。例えば、広告に用いられている言葉又はその広告に付与されているキーワードを用いてログデータによって学習されたモデルを用いて、その広告がどれだけクリックされやすいかを示す値であるクリック率を算出してもよい。例えば、男性のログデータだけに絞って学習させることで、男性がその広告を見たときのクリック率を算出する。学習方法として、例えば、ニューラルネットワーク等を用いてもよい。
クリック率抽出モジュール126は、特徴ベクトルが対象としている広告に対するクリック率であって、その特徴ベクトルを構成する所定の要素に対応するクリック率を抽出する。「特徴ベクトルが対象としている広告に対するクリック率」とは、学習モジュール156による学習の対象となる広告のクリック率である。また、クリック率は、クリック率算出モジュール124によって算出されたものを用いる。所定の要素として、例えば、前述の単語等を用いてもよい。クリックをしたユーザの属性とクリック対象の広告に含まれている単語を用いて、属性・単語間クリック率テーブル700からクリック率を抽出する。例えば、ユーザが男性、30歳代であって、自動車の広告(「自動車」という単語が含まれている)をクリックした場合、属性・単語間クリック率テーブル700から属性が男性で単語が「自動車」の組み合わせにおけるクリック率を抽出し、属性が30歳代で単語が「自動車」の組み合わせにおけるクリック率を抽出することになる。
特徴ベクトル要素付加モジュール128は、クリック率抽出モジュール126によって抽出されたクリック率を特徴ベクトル生成処理モジュール122によって生成された特徴ベクトルの要素として付加する。例えば、特徴ベクトル800を生成する。図8は、特徴ベクトル800のデータ構造例を示す説明図である。特徴ベクトル800は、列方向に広告欄810、クリック率欄820、単語欄830、カテゴリ欄840、クリック率A欄850、クリック率B欄860等を有しており、行方向に広告A欄882、広告B欄884、広告C欄886、広告D欄888等を有している。つまり、図4に例示した前述の特徴ベクトルテーブル400にクリック率A欄850、クリック率B欄860を付加したものである。クリック率抽出モジュール126によって抽出されたクリック率として、2つ以上のクリック率を付加したものである。これによって、特徴ベクトル内にデモグラフィック情報又はコンテキスト情報を反映したクリック率が含まれることになる。
前述の例では、男性、30歳代のユーザが自動車の広告をクリックした場合の特徴ベクトルの要素として、広告Aが自動車関連であれば、クリック率A欄850には、ユーザが男性であって、自動車の広告をクリックした場合のクリック率、クリック率B欄860には、ユーザが30歳代であって、自動車の広告をクリックした場合のクリック率が付加されることになる。また、女性、50歳代のユーザが保険の広告をクリックした場合の特徴ベクトルの要素として、広告Bが保険関連であれば、クリック率A欄850には、ユーザが女性であって、保険の広告をクリックした場合のクリック率、クリック率B欄860には、ユーザが50歳代であって、保険の広告をクリックした場合のクリック率が付加されることになる。
これによって、ユーザの属性が反映されたクリック率を要素として含む特徴ベクトルを生成することになる。また、差分ベクトルを生成する際の他方の特徴ベクトルにおいて、クリックされなかった広告におけるクリック率A欄850、クリック率B欄860は、クリックされなかった広告に含まれている単語における男性のユーザのクリック率、30歳代のユーザのクリック率がそれぞれ付加されることになり、差分ベクトルにおけるその要素は常に0であるという事態を回避している。
クリック予測モデル生成モジュール150は、ログ収集モジュール152、差分ベクトル生成モジュール154、学習モジュール156、出力モジュール158を有している。クリック予測モデル生成モジュール150は、ログ記憶モジュール110と接続されている。
ログ収集モジュール152は、広告のクリックに関するログデータをログ記憶モジュール110から収集する。なお、ログ収集モジュール152が収集するログデータは、特徴ベクトル生成モジュール120が用いたログデータと同じものであってもよいし、異なるログデータを収集するようにしてもよい。ここで収集するログデータには、差分ベクトルを生成するために、少なくとも、1回のクリックによる発生するログデータであって、クリックされた広告とクリックされなかった広告の組み合わせが含まれている。
差分ベクトル生成モジュール154は、ログ収集モジュール152によってログデータが収集された場合は、クリックされた広告とクリックされなかった広告の特徴ベクトルの差分ベクトルを生成する。具体的には、2つの特徴ベクトルの各要素の差分からなる差分ベクトルを生成する。なお、ここでクリックされた広告とクリックされなかった広告は、同じウェブページにある広告であり、1回のクリックによるログデータでは、クリックされた広告が1つであり、そのウェブページにあるが、その他の広告は、クリックされなかった広告となる。そして、差分ベクトルは、例えば、正解データ(ポジティブデータ)として、クリックされた広告の特徴ベクトルの各要素(例えば、行動類似度等)からクリックされなかった広告の特徴ベクトルの対応する各要素を減算した値を用い、ネガティブデータとして、クリックされなかった広告の特徴ベクトルの各要素からクリックされた広告の特徴ベクトルの各要素を減算した値を用いてもよい。この正解データとネガティブデータを用いて、学習される。
学習モジュール156は、差分ベクトル生成モジュール154によって生成された差分ベクトルを用いて、表示する広告を選択するための基準を学習(ランキング学習)する。ここでの学習は、いわゆる機械学習であり、表示する広告を選択するための基準のモデルを生成するものであり、教師あり学習であるが、前述した差分ベクトルを利用するものであればよい。具体的には、正解データとネガティブデータを教師データとした学習であり、例えば、ニューラルネットワーク等で学習してもよい。
出力モジュール158は、学習モジュール156によって学習された基準にしたがって、表示する広告を選択する。ここでの選択には、ランキング付け(順位付け)を含む。
図2は、本実施の形態(特徴ベクトル生成モジュール120)による処理例を示すフローチャートである。
ステップS202では、特徴ベクトル生成処理モジュール122が、ログ記憶モジュール110内のログデータを用いて、特徴ベクトルを生成する。
ステップS204では、クリック率算出モジュール124が、ログ記憶モジュール110内のログデータを用いて、属性毎に単語との組み合わせにおけるクリック率を算出する。
ステップS206では、クリック率抽出モジュール126が、特徴ベクトル内の要素(単語)とクリックしたユーザの属性に対応するクリック率を抽出する。
ステップS208では、特徴ベクトル要素付加モジュール128が、クリック率を要素に含めた特徴ベクトルを生成する。
図9は、本実施の形態(クリック予測モデル生成モジュール150)による処理例を示すフローチャートである。
ステップS902では、ログ収集モジュール152が、ログ記憶モジュール110からログデータを収集する。
ステップS904では、差分ベクトル生成モジュール154が、クリック毎に特徴ベクトルの差分ベクトルを生成する。
ステップS906では、学習モジュール156が、ランキング学習処理を行う。
ステップS908では、出力モジュール158が、クリック率の予測モデルを出力する。その後、その予測モデルを用いて、ウェブページに表示する広告を選択する。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図10に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1001を用い、記憶装置としてRAM1002、ROM1003、HD1004を用いている。HD1004として、例えばハードディスクを用いてもよい。特徴ベクトル生成処理モジュール122、クリック率算出モジュール124、クリック率抽出モジュール126、特徴ベクトル要素付加モジュール128、ログ収集モジュール152、差分ベクトル生成モジュール154、学習モジュール156、出力モジュール158等のプログラムを実行するCPU1001と、そのプログラムやデータを記憶するRAM1002と、本コンピュータを起動するためのプログラム等が格納されているROM1003と、補助記憶装置であるHD1004と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置1006と、CRT、液晶ディスプレイ等の出力装置1005と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1007、そして、それらをつないでデータのやりとりをするためのバス1008により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図10に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図10に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図10に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…ログ記憶モジュール
120…特徴ベクトル生成モジュール
122…特徴ベクトル生成処理モジュール
124…クリック率算出モジュール
126…クリック率抽出モジュール
128…特徴ベクトル要素付加モジュール
150…クリック予測モデル生成モジュール
152…ログ収集モジュール
154…差分ベクトル生成モジュール
156…学習モジュール
158…出力モジュール

Claims (5)

  1. 広告のクリックに関するログデータに基づいて、広告の特徴を表す関連情報を要素として持つ特徴ベクトルを生成する特徴ベクトル生成手段と、
    前記ログデータに基づいて、広告に対してクリックを行った者に関する属性毎に、該広告の特徴ベクトルを構成する要素との組み合わせにおけるクリック率を算出する算出手段と、
    前記算出手段によって算出されたクリック率の中から、前記特徴ベクトルが対象としている広告に対するクリック率であって、該特徴ベクトルを構成する所定の要素及び所定の前記属性に対応するクリック率を抽出する抽出手段と、
    前記抽出手段によって抽出されたクリック率を前記特徴ベクトル生成手段によって生成された特徴ベクトルの要素として付加する付加手段
    を具備することを特徴とする情報処理装置。
  2. 前記ログデータを用いて、広告と属性に関するモデルを学習によって生成する第1の学習手段
    をさらに具備し、
    前記算出手段は、前記第1の学習手段によって学習されたモデルを用いて、クリック率を算出する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記ログデータを収集する収集手段と、
    前記収集手段によってログデータが収集された場合は、クリックされた広告とクリックされなかった広告の特徴ベクトルの差分ベクトルを生成する差分ベクトル生成手段と、
    前記差分ベクトル生成手段によって生成された差分ベクトルを用いて、表示する広告を選択するための基準を学習する第2の学習手段と、
    前記第2の学習手段によって学習された基準にしたがって、表示する広告を選択する選択手段
    をさらに具備することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 特徴ベクトル生成手段と算出手段と抽出手段と付加手段を具備する情報処理装置が行う情報処理方法であって、
    前記特徴ベクトル生成手段は、広告のクリックに関するログデータに基づいて、広告の特徴を表す関連情報を要素として持つ特徴ベクトルを生成し、
    前記算出手段は、前記ログデータに基づいて、広告に対してクリックを行った者に関する属性毎に、該広告の特徴ベクトルを構成する要素との組み合わせにおけるクリック率を算出し、
    前記抽出手段は、前記算出手段によって算出されたクリック率の中から、前記特徴ベクトルが対象としている広告に対するクリック率であって、該特徴ベクトルを構成する所定の要素及び所定の前記属性に対応する属性を抽出し、
    前記付加手段は、前記抽出手段によって抽出されたクリック率を前記特徴ベクトル生成手段によって生成された特徴ベクトルの要素として付加する
    ことを特徴とする情報処理方法。
  5. コンピュータを、
    広告のクリックに関するログデータに基づいて、広告の特徴を表す関連情報を要素として持つ特徴ベクトルを生成する特徴ベクトル生成手段と、
    前記ログデータに基づいて、広告に対してクリックを行った者に関する属性毎に、該広告の特徴ベクトルを構成する要素との組み合わせにおけるクリック率を算出する算出手段と、
    前記算出手段によって算出されたクリック率の中から、前記特徴ベクトルが対象としている広告に対するクリック率であって、該特徴ベクトルを構成する所定の要素に対応する属性及び所定の前記属性を抽出する抽出手段と、
    前記抽出手段によって抽出されたクリック率を前記特徴ベクトル生成手段によって生成された特徴ベクトルの要素として付加する付加手段
    として機能させるための情報処理プログラム。
JP2013047070A 2013-03-08 2013-03-08 情報処理装置、情報処理方法及び情報処理プログラム Active JP5683622B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013047070A JP5683622B2 (ja) 2013-03-08 2013-03-08 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013047070A JP5683622B2 (ja) 2013-03-08 2013-03-08 情報処理装置、情報処理方法及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2014174753A JP2014174753A (ja) 2014-09-22
JP5683622B2 true JP5683622B2 (ja) 2015-03-11

Family

ID=51695917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013047070A Active JP5683622B2 (ja) 2013-03-08 2013-03-08 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5683622B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149540A (zh) * 2018-04-27 2019-08-20 腾讯科技(深圳)有限公司 多媒体资源的推荐处理方法、装置、终端及可读介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017018702A2 (ko) * 2015-07-24 2017-02-02 에스케이플래닛 주식회사 사용자 장치, 서비스 제공 장치, 그를 포함하는 광고 시스템, 그의 제어 방법, dsp/ssp간 타겟팅 정보 매핑 방법 및 이를 이용한 리타겟팅 광고 제공 방법 및 컴퓨터 프로그램이 기록된 기록매체
JP6679250B2 (ja) * 2015-09-07 2020-04-15 ヤフー株式会社 決定装置、決定方法および決定プログラム
CN107944589A (zh) * 2016-10-12 2018-04-20 北京奇虎科技有限公司 广告点击率的预测方法和预测装置
JP6736508B2 (ja) * 2017-03-16 2020-08-05 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
JP2019021175A (ja) * 2017-07-20 2019-02-07 株式会社コラージュ・ゼロ 広告制作支援システム、方法及びプログラム
JP7042770B2 (ja) * 2019-04-17 2022-03-28 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7193519B2 (ja) * 2020-12-18 2022-12-20 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7034459B1 (ja) 2021-06-14 2022-03-14 株式会社Insight science 情報処理装置、情報処理システム、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3984473B2 (ja) * 2000-12-27 2007-10-03 楽天株式会社 広告送信システム
JP2006185328A (ja) * 2004-12-28 2006-07-13 Mitsubishi Electric Information Systems Corp 広告掲載側ウェブサーバ、広告仲介サーバ、及びプログラム
EP2596463A1 (en) * 2010-07-20 2013-05-29 Koninklijke Philips Electronics N.V. A method and apparatus for replacing an advertisement

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149540A (zh) * 2018-04-27 2019-08-20 腾讯科技(深圳)有限公司 多媒体资源的推荐处理方法、装置、终端及可读介质
CN110149540B (zh) * 2018-04-27 2021-08-24 腾讯科技(深圳)有限公司 多媒体资源的推荐处理方法、装置、终端及可读介质

Also Published As

Publication number Publication date
JP2014174753A (ja) 2014-09-22

Similar Documents

Publication Publication Date Title
JP5683622B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Karimi et al. News recommender systems–Survey and roads ahead
US11107118B2 (en) Management of the display of online ad content consistent with one or more performance objectives for a webpage and/or website
Jurgens et al. Geolocation prediction in twitter using social networks: A critical analysis and review of current practice
Gong et al. Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines
Moghavvemi et al. The entrepreneur’s perception on information technology innovation adoption: An empirical analysis of the role of precipitating events on usage behavior
US20150112918A1 (en) Method and system for recommending content to a user
CN105893406A (zh) 群体用户画像方法及系统
Chi et al. A general approach to detecting migration events in digital trace data
US20110295787A1 (en) Information processing apparatus, information processing method, and program
WO2019102309A1 (en) Search query enhancement with context analysis
KR20130035660A (ko) 추천 시스템 및 추천 방법
WO2013073377A1 (ja) 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム
US20190286739A1 (en) Automatically generating meaningful user segments
TW201719569A (zh) 社交業務特徵用戶的識別方法和裝置
US11803755B2 (en) Rehearsal network for generalized learning
CN112463991A (zh) 历史行为数据的处理方法、装置、计算机设备及存储介质
JP2015075993A (ja) 情報処理装置及び情報処理プログラム
JP7200069B2 (ja) 情報処理装置、ベクトル生成方法及びプログラム
JPWO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
CN110674404A (zh) 链接信息生成方法、装置、系统、存储介质及电子设备
US10491592B2 (en) Cross device user identification
CN111383072A (zh) 一种用户信用评分方法、存储介质及服务器
JP6680663B2 (ja) 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム
US20190155931A1 (en) Automatically connecting external data to business analytics process

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150113

R150 Certificate of patent or registration of utility model

Ref document number: 5683622

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350