JP2016045543A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2016045543A
JP2016045543A JP2014167173A JP2014167173A JP2016045543A JP 2016045543 A JP2016045543 A JP 2016045543A JP 2014167173 A JP2014167173 A JP 2014167173A JP 2014167173 A JP2014167173 A JP 2014167173A JP 2016045543 A JP2016045543 A JP 2016045543A
Authority
JP
Japan
Prior art keywords
distribution
information
behavior
user
specific user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014167173A
Other languages
English (en)
Other versions
JP6199257B2 (ja
Inventor
江森 正
Tadashi Emori
正 江森
正一 飯塚
Shoichi Iizuka
正一 飯塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2014167173A priority Critical patent/JP6199257B2/ja
Publication of JP2016045543A publication Critical patent/JP2016045543A/ja
Application granted granted Critical
Publication of JP6199257B2 publication Critical patent/JP6199257B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ユーザにとって情報が必要となる適切なタイミングで、効果的な情報を配信できる情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】ネット上におけるユーザの行動に関する行動時系列情報を取得し、行動時系列情報が時間を変数とする混合分布となるとした場合の混合分布の分布数及びパラメータを推定するパラメータ推定手段(制御部31)と、推定された混合分布の分布数及びパラメータと、特定のユーザの行動時系列情報と、に基づいて、特定のユーザが所定のイベントを実行する確率を計算するイベント実行確率計算手段(制御部31)と、イベント実行確率に基づいて、特定のユーザの行動を予測するイベント予測手段(制御部31)と、特定のユーザの行動に関連する情報を配信する情報配信手段(制御部31)と、を備える。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、キーワード検索やウェブページ閲覧等のネット上でのユーザの行動に基づいて、ユーザに適した広告などの情報を配信する情報配信方法が知られている。
具体的には、例えば、検索サイトでユーザが指定した検索キーワードに応じて広告を配信する検索連動型広告と呼ばれる広告配信方法が知られている(特許文献1)。
また、例えば、ユーザが閲覧しているウェブページのコンテンツ情報に基づいて広告が配信されるコンテンツ連動型広告と呼ばれる広告配信方法が知られている(特許文献2)。
すなわち、検索連動型広告では、ユーザが検索した時点で検索キーワードにマッチングする広告が配信され、また、コンテンツ連動型広告では、ユーザが実際にウェブページを閲覧している最中にウェブページにマッチングする広告が配信される。
特開2010−211777号公報 特開2010−218209号公報
しかしながら、これら従来の広告配信方法は、ユーザのその場の行動に基づいた広告配信方法であり、その場の行動に関連しない広告については、例えユーザにとってニーズの高い広告であっても表示されることはない。
また、従来の広告配信方法では、長期的なユーザの行動を考慮していないため、ユーザに適切なタイミングで広告を配信できないことがある。
具体的には、仮に「結婚式」と検索をしたユーザがその3ヶ月後に住宅を探し始める傾向があるとする場合、従来の検索連動型広告においては、「結婚式」と検索した時点から3ヶ月後に不動産情報の広告を配信することは難しいという課題がある。
本発明は、このような課題に鑑みてなされたものであり、本発明の目的は、ユーザにとって情報が必要となる適切なタイミングで、効果的な情報を配信することができる情報処理装置、情報処理方法及びプログラムを提供することである。
請求項1に記載の発明は、上記目的を達成するためになされたものであり、
情報処理装置において、
ネット上におけるユーザの行動に関する行動時系列情報を取得し、行動時系列情報が時間を変数とする混合分布となるとした場合の混合分布の分布数及びパラメータを推定するパラメータ推定手段と、
前記パラメータ推定手段により推定された前記混合分布の分布数及びパラメータと、特定のユーザの行動時系列情報と、に基づいて、前記特定のユーザが所定のイベントを実行する確率を計算するイベント実行確率計算手段と、
前記イベント実行確率計算手段により計算されたイベント実行確率に基づいて、前記特定のユーザの行動を予測するイベント予測手段と、
前記予測手段により予測された前記特定のユーザの行動に関連する情報を配信する情報配信手段と、
を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の情報処理装置において、
前記情報配信手段は、
前記特定のユーザによる広告枠付きのWebページの閲覧要求に基づいて、前記広告枠に前記情報としての広告を配信することを特徴とする。
請求項3に記載の発明は、請求項1又は2に記載の情報処理装置において、
前記イベント予測手段は、
前記イベント実行確率計算手段により計算されたイベント実行確率の最も高いイベントをユーザの行動として予測することを特徴とする。
請求項4に記載の発明は、請求項1〜3の何れか一項に記載の情報処理装置において、
前記混合分布の分布数及びパラメータと、ユーザの行動時系列情報と、に基づいて、行動に相関のある人同士をグループ化して分類する分類手段を備え、
前記情報配信手段は、前記特定のユーザが前記分類手段により分類されたグループに含まれる場合、当該グループに属する他の人に前記情報を配信することを特徴とする。
請求項5に記載の発明は、請求項1〜4の何れか一項に記載の情報処理装置において、
前記混合分布の分布数及びパラメータは、変分ベイズ法を用いた統計処理によって推定されることを特徴とする。
請求項6に記載の発明は、請求項1〜5の何れか一項に記載の情報処理装置において、
前記混合分布は連続分布であることを特徴とする。
請求項7に記載の発明は、請求項6に記載の情報処理装置において、
前記混合分布は混合正規分布であることを特徴とする。
請求項8に記載の発明は、請求項1〜5の何れか一項に記載の情報処理装置において、
前記混合分布は離散分布であることを特徴とする。
請求項9に記載の発明は、請求項1〜8の何れか一項に記載の情報処理装置において、
前記ユーザの行動は、キーワード検索であることを特徴とする。
請求項10に記載の発明は、
情報処理装置の情報処理方法であって、
ネット上におけるユーザの行動に関する行動時系列情報を取得し、行動時系列情報が時間を変数とする混合分布となるとした場合の混合分布の分布数及びパラメータを推定するパラメータ推定ステップと、
推定された前記混合分布の分布数及びパラメータと、特定のユーザの行動時系列情報と、に基づいて、前記特定のユーザが所定のイベントを実行する確率を計算するイベント実行確率計算ステップと、
計算されたイベント実行確率に基づいて、前記特定のユーザの行動を予測するイベント予測ステップと、
予測された前記特定のユーザの行動に関連する情報を配信する情報配信ステップと、
を有することを特徴とする。
請求項11に記載の発明は、
ネット上におけるユーザの行動に関する行動時系列情報を取得し、行動時系列情報が時間を変数とする混合分布となるとした場合の混合分布の分布数及びパラメータを推定するパラメータ推定手段、
前記パラメータ推定手段により推定された前記混合分布の分布数及びパラメータと、特定のユーザの行動時系列情報と、に基づいて、前記特定のユーザが所定のイベントを実行する確率を計算するイベント実行確率計算手段、
前記イベント実行確率計算手段により計算されたイベント実行確率に基づいて、前記特定のユーザの行動を予測するイベント予測手段、
前記予測手段により予測された前記特定のユーザの行動に関連する情報を配信する情報配信手段、
として機能させるプログラムである。
本発明によれば、ユーザにとって情報が必要となる適切なタイミングで、効果的な情報を配信することができる。
本実施形態に係る情報処理システムの概略構成を示すブロック図である。 混合正規分布の分布数及び各種パラメータの推定処理を示すフローチャートである。 本実施形態により推定された混合正規分布の分布図である。 本実施形態により推定された混合正規分布の分布を縦に複数並べたヒートマップである。 広告配信処理を示すフローチャートである。
以下に、本発明の実施の形態について図面を参照して説明する。ただし、以下は本発明の実施形態の一例であって本発明を限定するものではない。
[1.情報処理システムの概要]
本実施形態に係る情報処理システム1は、ユーザのキーワード検索、ウェブページ閲覧、広告クリック、サービスの利用又は商品購入等といったユーザの行動情報と、ユーザがそれらの行動を実行した時刻情報と、当該ユーザ以外のあらゆるユーザのこれまでの行動情報や時刻情報が蓄積されたデータベースに基づいて、ユーザにとって効果の高い広告を選択し、適切なタイミングで配信するものである。
以下の説明では、本実施形態の具体例の一つとして、上述したユーザの行動はユーザがキーワード検索を行うことであると定義し、ユーザの閲覧しているウェブページの広告欄に広告が配信される場合を例として説明する。
[2.情報処理システムの構成]
情報処理システム1は、図1に示すように、端末装置10、Webサーバ20、及び広告配信サーバ30を備えて構成されている。端末装置10は、通信ネットワークNを介して、Webサーバ20及び広告配信サーバ30に接続されており、Webサーバ20及び広告配信サーバ30からそれぞれWebページと広告を受信し、広告を含むWebページを画面表示することができる。
[2−1.端末装置]
端末装置10は、広告を含むWebページを閲覧するためのユーザ端末であり、図1に示すように、制御部11、操作部12、表示部13、記憶部14及び通信部15等を備えて構成されている。
具体的には、端末装置10は、例えば、携帯電話端末やスマートフォン、タブレットコンピュータ、ノートコンピュータ、パーソナルコンピュータなどの情報処理機器から構成され、ウェブブラウザ(ウェブコンテンツ閲覧ソフトウェア)を備えている。
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)等を備えて構成され、RAMの作業領域に展開されたROMや記憶部14に記憶されたプログラムデータとCPUとの協働により、端末装置10の各部を統括制御する。
また、制御部11は、Webサーバ20から広告枠が含まれるWebページを受信した場合に、Webページの広告枠に表示させる広告の取得要求を、広告配信サーバ30に送信する。
操作部12は、例えば、ホームボタンからなるキー入力部と、表示部13と一体的に形成されたタッチパネルとを備えており、ユーザからの操作入力を受け付けて、操作入力に応じた操作信号を制御部11へと出力する。
表示部13は、例えば、LCD(Liquid Crystal Display)、有機EL(Electro Luminescence)素子を用いたFPD(Flat Panel Display)などのディスプレイを備え、制御部11から出力された表示制御信号に基づいた画像を表示画面に表示する。
記憶部14は、例えば、HDD(Hard Disk Drive)、半導体メモリなどにより構成され、プログラムデータや各種データを制御部11から読み書き可能に記憶している
通信部15は、アンテナや通信回路を備え、制御部11による制御の下で外部機器との間の無線通信を行う。具体的には、通信部15は、通信ネットワークNを介してデータ通信を行っている。
[2−2.Webサーバ]
Webサーバ20は、図1に示すように、例えば、制御部21、操作部22、表示部23、記憶部24及び通信部25等を備えて構成されている。
制御部21は、CPU、ROM及びRAM等を備えて構成され、RAMの作業領域に展開されたROMや記憶部24に記憶されたプログラムデータとCPUとの協働により、Webサーバ20の各部を統括制御する。
また、制御部21は、端末装置10からWebページ取得要求を受信し、記憶部24からWebページを作成するために必要な情報を読み出してWebページ取得要求に応じたWebページを作成し、端末装置10に送信している。
なお、Webサーバ20によって配信されるWebページには、広告が表示される広告枠が含まれるものとする。
操作部22は、例えば、文字入力キー、数字入力キー、その他各種機能に対応付けられたキーなどを有するキーボード、マウス等のポインティングデバイスなどを備え、ユーザからの操作入力を受け付けて、操作入力に応じた操作信号を制御部21へと出力する。
表示部23は、例えば、CRT(Cathode Ray Tube)やLCDなどのディスプレイを備え、制御部21から出力された表示制御信号に基づいた画像を表示画面に表示する。
記憶部24は、例えば、HDD、半導体メモリなどにより構成されており、Webページの本文情報等のWebページを表示させるためのプログラムデータや各種設定データ等のデータを制御部21から読み書き可能に記憶している。
通信部25は、通信用IC(Integrated Circuit)及び通信コネクタなどを有する通信インターフェイスであり、制御部21の制御の下、所定の通信プロトコルを用いて通信ネットワークNを介したデータ通信を行う。
[2−3.広告配信サーバ]
広告配信サーバ30は、図1に示すように、例えば、制御部31、操作部32、表示部33、記憶部34及び通信部35等を備えて構成される情報処理装置である。
制御部31は、CPU、ROM及びRAM等を備えて構成され、RAMの作業領域に展開されたROMや記憶部34に記憶されたプログラムデータとCPUとの協働により、広告配信サーバ30の各部を統括制御する。
また、制御部31は、パラメータ推定手段、イベント実行確率計算手段、イベント予測手段、情報配信手段としての機能を有しており、端末装置10からの広告の取得要求を受信すると、後述する各種パラメータの推定処理(図2参照)が実行され、学習DB343に基づいてユーザがどのようなキーワードを検索する確率が高いか(イベント実行確率)を計算し、イベント実行確率の最も高いものをユーザの行動として予測し、イベント実行確率が高い検索キーワードに関連する広告を広告DB341より選択し、端末装置10に配信する(図5参照)。
さらに、制御部31は、ユーザを似た趣向を持つ人同士で分類する分類手段としての機能を有しており、後述するクラスタリング手法により、グループ内の特定のユーザに対して配信する予定の広告を、同じグループに属する他の人に配信することが可能である。
操作部32は、例えば、文字入力キー、数字入力キー、その他各種機能に対応付けられたキーなどを有するキーボード、マウス等のポインティングデバイスなどを備え、ユーザからの操作入力を受け付けて、操作入力に応じた操作信号を制御部31へと出力する。
表示部33は、例えば、CRTやLCDなどのディスプレイを備え、制御部31から出力された表示制御信号に基づいた画像を表示画面に表示する。
記憶部34は、例えば、HDDと半導体メモリなどにより構成され、プログラムデータや各種設定データ等のデータを制御部31から読み書き可能に記憶する。
また、記憶部34は、広告DB341、検索履歴DB342及び学習DB343を備えている。
広告DB341は、広告配信処理に際して必要な各種情報が予め記憶されたデータベースであり、例えば、転送先のURL情報や広告のコンテンツ情報等が記憶されている。また、広告は検索キーワードと対応付けされて記憶されており、対応付けされたキーワードから広告を選択することができる。
検索履歴DB342は、あらゆるユーザの検索履歴情報が予め記憶されたデータベースであり、例えば、端末装置10を利用したユーザを識別するユーザID情報、検索したキーワードの検索キーワード情報及び検索した日時である検索日時情報等が記憶されている。
学習DB343は、ユーザが所定のキーワードを検索したというイベントを実行するイベント実行確率を計算するための各種パラメータが記憶されている。なお、各種パラメータは、後述するパラメータ推定処理(図2参照)によって算出される。
通信部35は、通信用IC及び通信コネクタなどを有する通信インターフェイスであり、制御部21の制御の下、所定の通信プロトコルを用いて通信ネットワークNを介したデータ通信を行う。
[3.イベント実行確率計算のための各種パラメータの推定]
本実施形態では、キーワードを検索するというユーザの行動がいつ実行されたかという時系列情報(以下行動時系列情報とする)が、時間を変数とする混合連続分布に従うとして、行動時系列情報から混合連続分布の分布数及びパラメータを推定している。
具体的には、キーワードを検索するという行動を実行した場合を「1」実行しなかった場合を「0」として、その行動がいつ実行されたかという行動時系列情報が、時間を変数とする連続的な混合連続分布に従うとしている。
そして、混合連続分布の分布数及びパラメータを用いて、特定のユーザにおけるあるキーワードを検索する確率(イベント実行確率)を計算し、検索する確率が高いとされたキーワードに関連する広告が広告DB341から選択されて、端末装置10に配信される。
また、本実施形態において、混合連続分布としては混合正規分布用いており、変分ベイズ法を用いたパラメータ推定を用いて、混合正規分布関数の分布数及び各種パラメータを計算している。
混合正規分布は、時刻情報をx、平均ベクトルをμ=(μ,… ,μ)、共分散行列をΣ=(Σ,…,Σ)、各分布の混合重みをπ=(π,… ,π)とした場合に、K個の正規分布を持つとして、次式(1)により表すことができる。
なお、時刻情報xは、ネット上におけるユーザの行動(本実施形態では検索)を検索カテゴリ毎に時系列で並べたものであり、時刻情報は所定の単位(例えば1秒)毎に連続になるように変換されたものである。
ここで、検索カテゴリとは、例えば、不動産関係のキーワード(新築、転居、賃貸等)をカテゴリA、結婚関係のキーワード(結婚式場、披露宴、新婚旅行等)をカテゴリBとする等、適宜のキーワード毎に分類したものである。
また、時刻情報xは、例えば、1970年1月1日午前0時0分0秒からの経過秒数(unix時間)によって表すことができる。具体的には、仮にカテゴリAの検索キーワードが入力された時刻を「2013年5月3日10時5分1秒、2013年5月10日12時10分0秒、2013年5月11日9時0分20秒」とすれば、それぞれ「1367543101,1368155400,1368230420」と変換したものが時刻情報xとなる。
次に、混合正規分布の分布数及び各種パラメータの推定方法について、図2を用いて、計算式を示して詳細に説明する。
まず、分布関数である式(1)の初期値と、後述のステップで使用するハイパーパラメータの値と、を設定する(ステップS101)。
具体的には、例えば、式(1)の混合分布関数の初期値は、混合重み係数πは一様として、分布関数がKの場合、1/Kになるとし、平均値は0を中心とした±1を範囲とした乱数、共分散行列は全成分1の対角共分散行列とする。
また、ハイパーパラメータの値は、例えば、「α=1.0,ν=10,β=1.0,m=0,W=全成分1の対角共分散行列」のように設定する。ここで示したハイパーパラメータの値はサンプル値であり、ハイパーパラメータの値によって粒度の調整をすることができる。
次に、式(1)の分布数Kを設定する(ステップS102)。最初に設定される分布数Kは1であり、処理が繰り返される毎に分布数Kを2,3,4,・・・と1ずつ増加させて設定する。
次に、変分ベイズ法におけるVBE−Stepが行われる(ステップS103)。なお、変分ベイズ法におけるパラメータ推定は、VBE−Step(推定)と次のVEM−Step(最大化)を交互に繰り返すことによって行われる。
VBE−Stepでは、検索履歴DB342において入力される全てのデータx=(x,…,x)に対し、n番目のデータがk番目の分布を占有する確率を表すγ(n)を、次式を用いて計算する。
次に、変分ベイズ法におけるVBM−Stepが行われる(ステップS104)。VBM−Stepでは、VBE−Stepで計算されたγ(n)を用いて、各正規分布の占有度数の総和を次式(2)、及び、各正規分布の期待値を次式(3)として計算する。
そして、式(2)及び式(3)で算出した値を用いて、次式の通りハイパーパラメータα,ν,β,m,Wを更新する。
次に、所定の収束条件の式を満たすか否かを判定する(ステップS105)。所定の収束条件の式を満たした場合(ステップS105;YES)には、次の処理(ステップS106)に進み、満たさなかった場合(ステップS105;NO)には、ステップS103まで戻る。つまり、収束条件を満たすまで、VBE−StepとVBM−Stepを繰り返し実行する。
収束条件の式は、収束パラメータをε(例えば、1.0−4)、i 回繰り返した時の下限値をFとして次式(4)で表される。
ここで、式(4)におけるFは<L>(Lは下記に示す対数)が期待値を表すとして以下のように表される。
また、それぞれの期待値<L>(Lは下記に示す対数)は、以下のように表される。
ここで、Z(W,v)は、ウィシャート分布の正規化定数であり、次式のように表される。
次に、下限値Fが最大となっているか否かを判定する(ステップS106)。判定方法としては、仮に分布数K=m(mは自然数)とした場合、分布数K=mの下限値Fと、分布数K=m−1の下限値Fm−1を比較し、F<Fm−1となっている場合(ステップS106;YES)には、分布関数の分布数Kをm−1として各種パラメータの推定値を決定し、次の処理(ステップS107)に進む。また、F>Fm−1となっている場合(ステップS106;NO)には、ステップS102まで戻る。
なお、Fの判定処理を実行するために、例えば、FにはF=0等の所定値を設定しておき、K=1の場合には必ずF>Fとなって、ステップS102に戻ることとする。
上述のパラメータ推定処理によって推定される分布は、未知のデータに対して、次式のように表すことができる。
この式は、t−student分布と呼ばれるものであり、データ量が十分に大きい場合、式(1)で表される混合正規分布として近似することができる。
次に、推定した分布関数の分布数及び各種パラメータの値を学習DB343に記憶し(ステップS107)、処理を終了する。
なお、これらの処理は、適宜のタイミングで実行され、例えば、週一回や一日一回等の所定のタイミングで開始されることとしても良く、また、広告要求がされたタイミングで実行されることとしても良い。
[4.混合正規分布の推定]
上述した分布関数の分布数及び各種パラメータを推定することにより、具体的にどのような分布が推定されるかについて図3を用いて説明する。
具体例としては、例えば、不動産関係のキーワード(新築、転居、賃貸等)をカテゴリAとし、カテゴリAの検索キーワードが検索された日時(一部抜粋)が「2013年6月28日10時5分1秒,2013年7月1日12時10分0秒,2013年7月11日9時0分20秒,…,2013年10月4日12時10分10秒,2013年10月6日12時25分0秒,…,2013年12月20日12時10分50秒,2014年1月20日16時10分2秒」のようになっており、これらのデータが検索履歴DB342に記憶されており、これらの混合正規分布を推定するものとする。
なお、これらの時刻情報は、例えば、1970年1月1日午前0時0分0秒からの経過秒数(unix時間)によって表し、カテゴリAを検索した時刻を「1372381501,1372648200,1373500820,…,1380856210,1381029900,…,1387509050,1390201802」のようにして、連続的な時間情報に加工して使用している。
そして、これらのデータによって推定された分布は、図3に示す通り、横軸に時間(t)、縦軸を検索実行確率P(n)とした場合に、カテゴリAを検索したと考えられる確率についての連続分布として得ることができる。
図3に示す具体例では、分布関数の分布数は3であり、過去の日付からそれぞれの分布を(a)、(b)、(c)とすると、それぞれのピークトップのおおよその年月日は、(a)2013年7月1日、(b)2013年10月4日、(c)2014年1月3日である。また、それぞれの分布のおおよその広がりの期間は、(a)3ヶ月、(b)2ヶ月、(c)3.5ヶ月である。また、ピークトップのおおよその位置の高さは、(a)0.0065、(b)0.0095、(c)0.0033である。
ここで、本実施形態では混合正規分布として連続分布を仮定しているため、それぞれのピークトップの年月日からキーワードを検索した中心日時、分布の広がりの期間(分布関数の分散値の標準偏差)から検索期間、ピークトップの高さから検索したと考えられる確率を求めることができる。
また、上述の例では一つのカテゴリについての混合正規分布関数を求めた例を示したが、実際には様々なカテゴリに分類し、それぞれカテゴリ毎に混合正規分布関数を計算することができる。
また、複数のカテゴリの混合正規分布関数を求めた場合、例えば、図4に示すように、カテゴリを(1)自動車関連、(2)航空関連、(3)結婚関連、(4)旅行関連及び(5)飲食店関連等の5つに分けてそれぞれの混合正規分布関数を求めた場合に、横軸に時間(t)、濃淡を検索実行確率P(n)として、(1)〜(5)のそれぞれの結果について縦に並べてヒートマップを作成することができる。
[5.広告配信処理]
広告配信処理は、図5に示す通り、広告配信サーバ30の制御部31によってステップ毎に制御されて実行される。これらの処理は、例えば、端末装置10において、ユーザがWebページを閲覧するために広告枠を有するWebページをWebサーバ20から受信した際に、広告要求を広告配信サーバ30に送信することによって開始される。
まず、広告配信サーバ30の制御部31は、端末装置10からの広告要求を受信し、端末装置10を利用しているユーザを識別するユーザIDとユーザの検索履歴情報を取得する(ステップS201)。なお、ユーザの検索履歴情報は、例えば、取得したユーザIDを基にして検索履歴DB342から取得する。
次に、ステップS201で取得したユーザの情報と、前述した分布関数の分布数及び各種パラメータが記憶された学習DB343とによって、あらゆる検索カテゴリに対して、広告要求を受信した時点で検索したと考えられるイベント実行確率を計算する(ステップS202)。
ここで、イベント実行確率の計算は、広告を要求した特定のユーザが過去にどのようなキーワードを検索したかという行動時系列情報と学習DB343とに基づいて、特定のユーザが広告を要求したタイミングで、ある検索カテゴリを検索したと考えられるイベント実行確率を計算している。
具体例としては、仮に結婚関係のキーワード(結婚式場、披露宴、新婚旅行等)を検索した人が、3ヶ月後に不動産関係のキーワード(新築、転居、賃貸等)を検索する傾向があるという関係がある場合、広告を要求した特定のユーザが、広告を要求したタイミングの3ヶ月前に結婚関係のキーワードを検索していれば、不動産関係のキーワードを検索した確率が高いと計算される。また、同様にして、様々な検索カテゴリに対して、ユーザのイベント実行確率が計算される。
なお、上記では仮に結婚関係のキーワードを検索した人が3ヶ月後に不動産関係のキーワードを検索するという単純な例を具体例として説明したが、例えば、結婚関係のキーワード及び不動産関係のキーワードを同時期に検索した人が、その半年後に自動車関係のキーワードを検索する傾向がある等、3つ以上の検索カテゴリ間の相関関係に基づいてイベント実行確率を計算することも可能である。
また、イベント実行確率の具体的な計算方法について説明する。ユーザ情報を、例えば、M次元のデータΦ=(Φ,Φ,…,Φ)を特徴とし、w=(w,w,・・・,w)を回帰係数であるとして、イベントを実行した場合をp(c=1)、実行しなかった場合をp(c=0)として次式(5)によりイベント実行確率を求めている。
ここで、式(5)における回帰係数wは、ロジスティック回帰の回帰係数の推定方法によって求めたものであり、回帰係数の推定には、学習DB343に基づいて、次式の回帰係数の算出式によって計算している。具体的には、次式(6)によって、t回目に更新された回帰係数をw、学習定数をεとした場合、データセット{Φ,c}、c∈{0,1}、n=1,…,Nに対し、次式を計算して更新前後の全学習データにおける対数確率値の和の差分が十分に小さくなるまで繰り返すことによって算出している。
また、イベント実行確率の計算において用いられるM次元のデータΦとは、具体的には、「あるキーワードを検索した(1)/検索しない(0)」のような「教師」と、平均ベクトル、分散及び重み係数のような「特徴量」と、を並べたものであり、(ユーザ1:「1」,「0.0,100,0.5,1.0,120,0.3」)、(ユーザ2:「0」,「0.1,50,0.3,0.4,200.0,0.2」)、…のような「教師」と「特徴量」の組を用いて計算している。この場合であれば、特徴量は6つのデータがあるので、各ユーザが6次元の点で構成されるものとする。
なお、ここで入力する上述のようなデータでは、ユーザ毎に分布数が変わることも想定されるが、その場合は、重み係数の大きい順に上位K’個(所定数)の分布を並べるものとする。
次に、前ステップで計算した結果から、ユーザが検索したと考えられる確率の最も高いキーワードを選択する(ステップS203)。なお、ここで選択するキーワードは最も高い1つであっても良く、確率の高いものから複数で選んでも良い。
次に、選択したキーワードと、広告要求をした広告枠の形式と、に基づいて、広告DB341から広告を選択する(ステップS204)。
次に、選択された広告を、端末装置10に配信する(ステップS205)。
なお、上述の広告配信処理方法では、広告要求を受けた後、広告要求を受けた時点において、ユーザがどのような検索カテゴリを検索する確率が高いのかを計算することとしたが(ステップS202)、例えば、予め所定のタイミングで確率の計算を実行しておき、その結果を利用することとしても良い。
具体的には、例えば、毎日所定の時刻に、前日までの検索履歴DB342に記憶されている全てのユーザに対して、所定の時刻に任意の検索カテゴリを検索したと考えられる確率(イベント実行確率)を計算しておくこととしても良い。そして、検索確率の高い上位N人(所定人数)には所定のキーワードに関連した所定の広告を配信すると予め定めておき、仮にそのN人の中から広告要求を受信した際には、その広告を配信することも可能である。
[6.クラスタリング]
本実施形態の応用例として、ターゲット学習に前述の混合関数の分布数及びパラメータ値を用いることによって、クラスタリング手法により、ユーザを似た趣向を持つ人同士で分類し、例えば、グループ内の平均値を代表点として抽出し、代表点から近いN人(所定人数)に効果の高いと推定した広告を配信することとしても良い。
具体的には、前述した混合連続分布の分布数及びパラメータと、ユーザの行動時系列情報と、に基づいて、行動に相関のある人同士をグループ化し、グループ内の特定のユーザに対して配信する予定の広告を、同じグループに属する他の人に配信することが可能である。この手法によれば、ユーザに対する潜在的なニーズの発掘が可能となる。
クラスタリング手法としては、種々の方法を用いることができるが、以下の説明では変分ベイズ法を用いた方法について、具体例を用いて説明する。
入力値としては、例えば、「平均ベクトル」、「分散」及び「重み係数」を並べたものを使用することができ、「ユーザ1:0.0,100,0.5,1.0,120,0.3」、「ユーザ2:0.1,50,0.3,0.4,200.0,0.2」、…のような6次元の点で構成されるベクトルデータを使用する。
このようなデータを用いて、本実施形態と同様の変分ベイズ法によって推定することにより、分布数は分類される数、平均ベクトルは代表点、分散は確からしさ、重み係数はその分布の頻度を表すパラメータ値としてそれぞれの値を得ることができる。
ここで、対象ユーザのデータyに対してクラスタリングを応用する方法について説明する。上述した本実施形態の変分ベイズ法によって得られたK個の分布関数に対して、データyをそれぞれ代入し、最大となる分布の番号K’を求めることにより、対象ユーザの属する分布を決定する。そして、番号K’に属する他のユーザにおけるキーワード検索の傾向に基づいて、データyの対象ユーザに対して、配信する広告のレコメンドを実施する。
即ち、対象のユーザと同様の傾向を有するユーザの傾向に基づいて、対象ユーザの過去の検索履歴からだけでは得られなかった検索カテゴリであっても、対象ユーザが検索した確率が高い検索カテゴリを取得することができる。
[7.まとめ]
以上のように、本発明では、キーワード検索等のネット上でのユーザの行動がいつ実行されたかという行動時系列情報を取得し、行動時系列情報が時間を変数とした混合連続分布に従うとすることで、統計処理によって、対象のユーザが所定のタイミングでどのような検索カテゴリを検索する確率が高いかをイベント実行確率として計算することができる。そして、イベント実行確率の結果から、所定時点においてユーザにとって効果的と思われる広告を選択して配信することができる。
また、本実施形態では、行動時系列情報が混合正規分布に従うと仮定しているため、(1)分布関数のピークトップの年月日からキーワードを検索した中心日時、(2)分布の広がりの期間(分布関数の分散値の標準偏差)から検索期間、(3)ピークトップの高さから検索したと考えられる確率とした三種類の特徴を得ることができる。
ここで、上記の検索期間を得ることができれば、例えば、海外旅行関係のキーワードを検索した際の分散値の標準偏差を求めることで、旅行関係のキーワードを検索していた期間を推定することができる。これにより、例えば、海外旅行初心者だと長期間にわたって様々なことを検索するため分散が大きくなり、ビジネスユーザだと必要な情報のみを短期間で探すため分散が小さくなる等といった傾向に基づいて、対象のユーザの属性を得ることも可能である。
さらに、本発明をクラスタリング手法にも応用することができ、似た趣向を持つユーザのグループに分類し、グループ内の特定のユーザに対して配信する予定の広告を、同じグループに属する他の人に配信することが可能である。この手法によれば、対象ユーザの過去の検索履歴からでは得られなかった対象ユーザの潜在的なニーズの発掘が可能となる。
[8.その他]
なお、本実施形態では、説明の簡略化のためにユーザの実行するイベントとしてキーワード検索を例にして説明したが、例えば、所定のWebページを訪問や、所定の商品を購入等ユーザの実行するイベントを適宜設定可能である。また、当然、様々な種類のユーザの行動を組み合わせることも可能である。
また、本実施形態のイベント実行確率計算のための各種パラメータを算出するために、過去の検索履歴データを使用することとしたが、過去のどの時点からのデータを使用するかは適宜変更可能であり、例えば、過去3年以内であっても良いし、過去3日以内であっても良いし、過去3時間以内であっても良い。また、ここで、過去3時間以内等といった期間を短く設定すれば、数時間以内のユーザの行動に基づいてイベント実行確率計算することになるため、従来の短期間の検索頻度に基づいて広告を配信する検索連動型広告等と同じような用途として使用することができる。
また、本実施形態では、端末装置10がWebサーバ20からWebページを受信し、広告配信サーバ30から広告をそれぞれ受信することとしたが、本発明の趣旨を逸脱しない範囲において情報処理システムの構成は適宜変更可能である。例えば、本実施形態のWebサーバ20と広告配信サーバ30を同じサーバ内に設け、広告が既に組み込まれた状態でWebページ20を受信することとしても良い。
また、本実施形態では、ユーザの行動が時間を変数とした混合正規分布に従うと仮定したが、本実施例に限らず適宜選択可能であり、例えば、混合正規分布以外の連続分布として混合ガンマ分布関数に従うとしても良く、また、離散分布に従うとしても良い。
なお、混合ガンマ分布関数に従う場合には、ガンマ分布のパラメータを用いれば良く、離散分布に従う場合には、ピークの高さや位置(時刻)等をパラメータとして用いれば良い。
また、上述のように連続分布に従うとした場合には、分布の形態を密度関数で表すことができるため、データの分解能を上げたとしても、出現確率を計算することが可能である。例えば、推定に用いるデータが日毎に集計されたものを用いた場合でも、一旦関数を求めることでその間の時刻等の密度を容易に補完することが可能である。
なお、分布の形態を密度関数で表す場合、分布間の距離(間隔,時間差)等をカルバック・ライブラー(KL)距離等に代表される定義により容易に計算することができるというメリットがある。ここで、KL距離は2つの分布p(x)、q(x)の分布間の距離であるとする場合、KL距離は(P|Q)=∫p(x)[logp(x)−logq(x)] と定義され、容易に算出することができる。
また、一方で、上述のように離散分布に従うとした場合には、離散分布は分布の形状を関数の形態に捉われずに自由に設計することができる。また、離散分布では、分布関数推定するのではなく、区間毎の集計をするだけで分布を推定できるため、実装が容易であるというメリットがある。
なお、離散分布に従う場合もKL距離を算出することができ、KL距離を2つの分布p(x)、q(x)の分布間の距離であるとする場合、(P|Q)=Σp(x)[logp(x)−logq(x)]と定義することで、KL距離を算出することができる。ただし、q(x)が0になる場合があるため、0になった場合、小さな定数で代用する等の工夫が必要である。
また、分布パラメータを推定する手法として、変分ベイズ法を用いているが、分布パラメータを推定する手法であれば本実施例に限ることはなく、例えば、ディレクレプロセスを用いたパラメータ推定方法を用いることとしても良い。
また、イベント実行確率計算方法の回帰係数の計算において、ロジスティック回帰を用いたが、特に本実施例に限ることはなく、例えば、ブースティング、木構造の判別モデル等を用いた方法を用いることとしても良い。
また、本実施形態ではWebページの広告枠に広告を配信する方法として説明したが、本実施例に限ることはなく、ユーザの興味のある可能性が高い情報をメールで配信する等、様々なサービスに応用可能である。
さらに、本発明の範囲は上記に限られることなく、本発明の趣旨を逸脱しない範囲において種々の改良並びに設計の変更を行っても良い。
30 広告配信サーバ(情報処理装置)
31 制御部(パラメータ推定手段、イベント実行確率計算手段、イベント予測手段、情報配信手段、分類手段)

Claims (11)

  1. ネット上におけるユーザの行動に関する行動時系列情報を取得し、行動時系列情報が時間を変数とする混合分布となるとした場合の混合分布の分布数及びパラメータを推定するパラメータ推定手段と、
    前記パラメータ推定手段により推定された前記混合分布の分布数及びパラメータと、特定のユーザの行動時系列情報と、に基づいて、前記特定のユーザが所定のイベントを実行する確率を計算するイベント実行確率計算手段と、
    前記イベント実行確率計算手段により計算されたイベント実行確率に基づいて、前記特定のユーザの行動を予測するイベント予測手段と、
    前記予測手段により予測された前記特定のユーザの行動に関連する情報を配信する情報配信手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記情報配信手段は、
    前記特定のユーザによる広告枠付きのWebページの閲覧要求に基づいて、前記広告枠に前記情報としての広告を配信することを特徴とする請求項1に記載の情報処理装置。
  3. 前記イベント予測手段は、
    前記イベント実行確率計算手段により計算されたイベント実行確率の最も高いイベントをユーザの行動として予測することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記混合分布の分布数及びパラメータと、ユーザの行動時系列情報と、に基づいて、行動に相関のある人同士をグループ化して分類する分類手段を備え、
    前記情報配信手段は、前記特定のユーザが前記分類手段により分類されたグループに含まれる場合、当該グループに属する他の人に前記情報を配信することを特徴とする請求項1〜3の何れか一項に記載の情報処理装置。
  5. 前記混合分布の分布数及びパラメータは、変分ベイズ法を用いた統計処理によって推定されることを特徴とする請求項1〜4の何れか一項に記載の情報処理装置。
  6. 前記混合分布は連続分布であることを特徴とする請求項1〜5の何れか一項に記載の情報処理装置。
  7. 前記混合分布は混合正規分布であることを特徴とする請求項6に記載の情報処理装置。
  8. 前記混合分布は離散分布であることを特徴とする請求項1〜5の何れか一項に記載の情報処理装置。
  9. 前記ユーザの行動は、キーワード検索であることを特徴とする請求項1〜8の何れか一項に記載の情報処理装置。
  10. 情報処理装置の情報処理方法であって、
    ネット上におけるユーザの行動に関する行動時系列情報を取得し、行動時系列情報が時間を変数とする混合分布となるとした場合の混合分布の分布数及びパラメータを推定するパラメータ推定ステップと、
    推定された前記混合分布の分布数及びパラメータと、特定のユーザの行動時系列情報と、に基づいて、前記特定のユーザが所定のイベントを実行する確率を計算するイベント実行確率計算ステップと、
    計算されたイベント実行確率に基づいて、前記特定のユーザの行動を予測するイベント予測ステップと、
    予測された前記特定のユーザの行動に関連する情報を配信する情報配信ステップと、
    を有することを特徴とする情報処理方法。
  11. コンピュータを、
    ネット上におけるユーザの行動に関する行動時系列情報を取得し、行動時系列情報が時間を変数とする混合分布となるとした場合の混合分布の分布数及びパラメータを推定するパラメータ推定手段、
    前記パラメータ推定手段により推定された前記混合分布の分布数及びパラメータと、特定のユーザの行動時系列情報と、に基づいて、前記特定のユーザが所定のイベントを実行する確率を計算するイベント実行確率計算手段、
    前記イベント実行確率計算手段により計算されたイベント実行確率に基づいて、前記特定のユーザの行動を予測するイベント予測手段、
    前記予測手段により予測された前記特定のユーザの行動に関連する情報を配信する情報配信手段、
    として機能させるプログラム。
JP2014167173A 2014-08-20 2014-08-20 情報処理装置、情報処理方法及びプログラム Active JP6199257B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014167173A JP6199257B2 (ja) 2014-08-20 2014-08-20 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014167173A JP6199257B2 (ja) 2014-08-20 2014-08-20 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016045543A true JP2016045543A (ja) 2016-04-04
JP6199257B2 JP6199257B2 (ja) 2017-09-20

Family

ID=55636098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014167173A Active JP6199257B2 (ja) 2014-08-20 2014-08-20 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6199257B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021039724A (ja) * 2019-08-27 2021-03-11 ククレブ・アドバイザーズ株式会社 営業支援装置および営業支援プログラム
JP2021149682A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 学習装置、学習方法及び学習プログラム
JP2022021763A (ja) * 2020-07-22 2022-02-03 ヤフー株式会社 特定装置、特定方法及び特定プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204193A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
US20090006365A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
WO2010084839A1 (ja) * 2009-01-26 2010-07-29 日本電気株式会社 尤度推定装置、コンテンツ配信システム、尤度推定方法および尤度推定プログラム
WO2012029878A1 (ja) * 2010-09-03 2012-03-08 トヨタ自動車株式会社 環境マップ作成装置及び方法、行動予測装置及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204193A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
US20090006365A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
WO2010084839A1 (ja) * 2009-01-26 2010-07-29 日本電気株式会社 尤度推定装置、コンテンツ配信システム、尤度推定方法および尤度推定プログラム
WO2012029878A1 (ja) * 2010-09-03 2012-03-08 トヨタ自動車株式会社 環境マップ作成装置及び方法、行動予測装置及び方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021039724A (ja) * 2019-08-27 2021-03-11 ククレブ・アドバイザーズ株式会社 営業支援装置および営業支援プログラム
JP2021149682A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 学習装置、学習方法及び学習プログラム
JP7312134B2 (ja) 2020-03-19 2023-07-20 ヤフー株式会社 学習装置、学習方法及び学習プログラム
JP2022021763A (ja) * 2020-07-22 2022-02-03 ヤフー株式会社 特定装置、特定方法及び特定プログラム
JP7128236B2 (ja) 2020-07-22 2022-08-30 ヤフー株式会社 特定装置、特定方法及び特定プログラム

Also Published As

Publication number Publication date
JP6199257B2 (ja) 2017-09-20

Similar Documents

Publication Publication Date Title
US11188950B2 (en) Audience expansion for online social network content
US10825047B2 (en) Apparatus and method of selection and placement of targeted messages into a search engine result page
JP6147944B1 (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
US20150051973A1 (en) Contextual-bandit approach to personalized news article recommendation
JP2013149140A (ja) 情報処理装置、及び、情報処理方法
US20190362408A1 (en) Personalized recommendations for unidentified users based on web browsing context
US10497012B1 (en) Correcting for location bias using artificial intelligence
CN111639988B (zh) 经纪人推荐方法、装置、电子设备和存储介质
JP5905551B1 (ja) 情報処理装置、端末装置、情報処理方法及び情報処理プログラム
WO2020043001A1 (zh) 广告投放方法、确定推广人群的方法、服务器和客户端
JP6199257B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20140249955A1 (en) Information processing apparatus, information processing method, information processing program, and recording medium
US20220188900A1 (en) Online recommendations
US10062088B2 (en) Information distribution apparatus, information distribution method, and storage medium
JP6754808B2 (ja) 情報処理装置、情報処理方法
US20160180397A1 (en) Distribution apparatus, distribution method, terminal device, selection method, and non-transitory computer readable storage medium
JP2007249306A (ja) 情報配信システム、情報配信方法及びプログラム
JP6407318B2 (ja) 情報処理装置、端末装置、情報処理方法及び情報処理プログラム
JP2015011504A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP6707020B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP2019106033A (ja) 情報提供装置、情報提供方法、およびプログラム
JP2013232031A (ja) 情報処理装置、端末装置、情報処理方法、表示方法、情報処理プログラム、及び表示プログラム
JP2023008302A (ja) 情報処理システム、情報処理方法及びプログラム
JP6246271B1 (ja) 属性評価装置、販売システム、属性評価方法、および属性評価プログラム
JP7303855B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170823

R150 Certificate of patent or registration of utility model

Ref document number: 6199257

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250