以下に、本願に係る抽出装置、抽出方法及び抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法及び抽出プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.抽出処理〕
以下では、図1及び図2を用いて、実施形態に係る抽出処理の一例について説明する。図1及び図2では、本願に係る抽出装置に対応する広告装置100によって配信処理及び抽出処理が行われる例を示す。まず、図1を用いて、実施形態に係る広告配信の一例を説明する。図1は、実施形態に係る広告コンテンツが表示されるウェブページの一例を示す図である。
図1には、実施形態に係る広告コンテンツが表示されるウェブページとして、ユーザ端末10に表示される検索結果ページ50を示す。検索結果ページ50は、ユーザから入力される検索クエリに基づいて検索されたウェブページに関する情報が表示されるウェブページである。
図1に示すように、検索結果ページ50には、検索クエリ入力部52が含まれる。検索結果ページ50を利用するユーザは、ユーザ端末10を介して、検索クエリ入力部52に検索クエリを入力する。図1では、ユーザが検索クエリ入力部52に入力した「英会話教室」という検索クエリに基づいて、検索結果ページ50に検索結果が表示される例を示す。すなわち、検索結果ページ50には、検索結果として、「英会話教室」に関連のあるウェブページのリンク等の情報が表示される。
また、検索結果ページ50には、検索結果であるウェブページの情報とは別に、広告コンテンツが表示される。例えば、広告コンテンツは、検索結果ページ50に含まれる広告枠54又は広告枠56に表示される。広告コンテンツには、広告主の業務を宣伝するテキストなどが含まれる。そして、広告コンテンツには、広告主の提供するウェブページへのリンクが張られる。このような広告コンテンツのリンク先であるウェブページは、ランディングページ(Landing Page、以下「LP」と表記する場合がある)などと呼ばれる。例えば、広告主は、広告コンテンツを表示させることで、ユーザにLPへの移動を促し、自身が提供するウェブページを閲覧させたり、ウェブページ上で商品の購入をさせたりするといった営業に活用する。
このような検索サービスと連動する広告配信サービスにおいて、広告主は、広告コンテンツを入稿する際や入稿した後に、所定のキーワードに対して入札を行う。そして、広告主は、ユーザが所定のキーワードを検索クエリとして入力した場合に、LPへのリンクが張られた広告コンテンツをユーザに配信させる権利を取得する。すなわち、広告主は、検索サービスにおいて、入札するキーワードを指定することで、キーワードと広告コンテンツとを紐づかせることができる。なお、広告コンテンツのリンク先はLPであるため、広告主は、入札するキーワードを指定することで、キーワードとLPとを紐づかせることもできる。このように、広告主は、ユーザが広告コンテンツと紐づけられたキーワードと同一又は類似のキーワードを検索クエリとして入力した場合に、検索サービスと連動して、検索結果ページ50に広告コンテンツを表示させることができる。言い換えれば、広告主は、広告コンテンツを抽出させるためのキーワードに対して入札する。これにより、広告主は、特定の情報への欲求がユーザに発生しているタイミングで広告コンテンツを配信させることができるので、より高い広告効果が見込める広告コンテンツの配信を行うことができる。
ここで、検索サービスと連動する広告コンテンツの配信処理の流れについて説明する。検索サービスと連動する広告コンテンツの配信処理は、広告装置100と、検索サーバ30と、ユーザ端末10とにより、図示しないネットワークN(例えば、インターネット)を介して行われる。
ユーザ端末10は、ユーザによって利用される情報処理装置である。ユーザ端末10は、例えば、スマートフォンやタブレット端末やPDA(Personal Digital Assistant)等の移動端末や、デスクトップ型PC(Personal Computer)や、ノート型PC等である。
検索サーバ30は、検索サービスを提供するサーバ装置である。例えば、検索サーバ30は、所定の検索サイトにおいて、ユーザから検索クエリの入力を受け付ける。そして、検索サーバ30は、検索クエリに基づいた検索結果をユーザに提供する。
広告装置100は、検索サーバ30と連動して広告配信を行うサーバ装置である。広告装置100は、広告主から広告コンテンツの入稿とともに、キーワードに対する入札を受け付ける。そして、広告装置100は、以下に説明する手順により、検索サービスにおいて広告主が入札を行ったキーワード(以下、「入札キーワード」と表記する場合がある)を入力したユーザに広告コンテンツを配信する。
まず、ユーザは、ユーザ端末10を介して、検索サーバ30が提供する検索サイトにアクセスする。そして、ユーザは、検索サイトにおいて検索クエリを入力する。これにより、ユーザ端末10は、検索サーバ30に検索クエリを送信する(ステップS01)。検索サーバ30は、検索クエリに対応する検索結果を表示するウェブページである検索結果ページ50をユーザに提供する(ステップS02)。
また、検索クエリを受信した検索サーバ30は、検索クエリに関する情報(以下、「クエリ情報」と表記する場合がある)を広告装置100に送信する(ステップS03)。これにより、広告装置100は、ユーザから入力された検索クエリに関する情報を取得する。そして、広告装置100は、検索クエリが入札キーワードである場合には、入札キーワードに紐づく広告コンテンツを配信候補として選択する(ステップS04)。
上述のように、検索結果ページ50には、広告枠54及び広告枠56が含まれる。そこで、ユーザ端末10は、検索結果ページ50を表示する際に、広告枠54及び広告枠56で表示する広告コンテンツを取得するために、広告装置100に広告配信の要求を行う(ステップS05)。広告配信の要求を受け付けた広告装置100は、入札キーワードに紐づく広告コンテンツをユーザ端末10に配信する(ステップS06)。これにより、例えば、「英会話教室」というキーワードに入札していた広告主が提供する広告コンテンツが、広告枠54に表示される。また、同じキーワードに入札していた他の広告主が提供する広告コンテンツが、広告枠56に表示される。このように、広告装置100は、検索サービスと連動して、広告コンテンツをユーザに配信することができる。
なお、ステップS03において、検索サーバ30がクエリ情報を広告装置100に送信する例を示したが、クエリ情報は、ユーザ端末10から広告装置100に送信されてもよい。例えば、クエリ情報は、検索結果ページ50の広告配信要求のためのスクリプトに含まれてもよい。この場合、ユーザ端末10は、広告配信の要求とともに、クエリ情報を広告装置100に送信する。そして、広告装置100は、クエリに紐づく広告コンテンツを選択し、選択された広告コンテンツをユーザ端末10に配信する。
ところで、図1の例のように、広告主は、検索結果ページ50に広告コンテンツを表示させるためには、所定のキーワードに入札を行うことになる。そして、広告主は、様々な興味を有するユーザに広告コンテンツを配信させるためには、適切な入札キーワードを複数指定するのが望ましい。しかしながら、広告主にとって、複数の適切なキーワードに入札することは容易でない。例えば、広告主は、自身が提供するLPから抽出される単語(すなわち、LP内に含まれる単語。以下では、「LP単語」と表記する場合がある)や、自身が提供する商品又はサービスの名称等について入札することが一般的には考えられる。この場合、広告主は、自身が想定するユーザの範囲にしか広告コンテンツを配信させることができないため、効率よく広告コンテンツの配信対象とするユーザの範囲を拡張させることが困難である。
上記の事情に鑑みると、検索連動型の広告配信サービスにおいて、広告主に適切な入札キーワードを提示することは有用である。また、広告配信サービスの管理者側にとっても、広告主に適切な入札キーワードを提示することにより、入札の促進につながり、サービスの活性化を図ることができる。
そこで、実施形態に係る広告装置100は、図1で示したような検索連動型の広告配信サービスにおいて、広告主にとって適切な入札キーワードを抽出する。以下、図2を用いて、実施形態に係る抽出処理を説明する。図2は、実施形態に係る抽出処理の一例を示す図である。図2では、抽出システム1を例に挙げて、抽出処理の一例を説明する。
図2に示すように、抽出システム1には、広告主端末20と、広告装置100とが含まれる。広告装置100は、図示しないネットワークN(例えば、インターネット)を介して、広告主端末20と通信可能に接続される。なお、図2では図示を省略したが、抽出システム1には、前述したユーザ端末10や、検索サーバ30が含まれてもよい。この場合、広告装置100は、ネットワークNを介して、ユーザ端末10、及び検索サーバ30と通信可能に接続される。
広告主端末20は、広告主によって利用される情報処理装置である。広告主端末20は、例えば、スマートフォンやタブレット端末やPDA等の移動端末や、デスクトップ型PCや、ノート型PC等である。
広告装置100は、以下に説明する抽出処理によって、広告主が入札する入札キーワードとして適切なキーワードを抽出するサーバ装置である。
広告装置100は、提供する広告配信サービスにおいて、複数の広告主から広告コンテンツの入稿を受け付ける。この場合、広告装置100は、広告コンテンツの入稿とともに、広告主が指定するキーワードに対して入札を受け付ける。そして、広告装置100は、受け付けた入札キーワードに関する情報を保持する。また、広告装置100は、例えば、ユーザから送信された検索クエリに関する情報を検索サーバ30から取得し、取得した情報を保持する。そして、広告装置100は、保持する情報に基づいて、広告配信サービスを利用する広告主に対する適切な入札キーワードを抽出する処理を実行する。
広告装置100は、異なる複数の手法を用いてキーワードを抽出する。ここでは、広告装置100が実行するキーワードの抽出手法に用いられる一連の演算処理を「抽出モデル」と表記する。すなわち、広告装置100は、保持する情報について、各抽出モデルを用いて演算処理することにより、適切なキーワードを抽出する。詳しくは後述するが、実施形態に係る広告装置100は、3つの異なる抽出モデルを有する。第1抽出モデルは、広告主が提供するLPに関する情報や、LPから生成される特徴情報に基づいて、適切な入札キーワードを抽出する手法である。第2抽出モデルは、広告主から実際に入稿された入札キーワードの共起性に基づいて、適切な入札キーワードを抽出する手法である。第3抽出モデルは、ユーザ端末10から検索サーバ30に送信された検索クエリの傾向に基づいて、適切な入札キーワードを抽出する手法である。
各抽出モデルは、入力される情報をもとに、所定の評価値をキーワード毎に算定し、算定された評価値に基づいて入札キーワードとして適切と想定されるキーワードを抽出する。なお、広告装置100は、各抽出モデルが算定した評価値を既知の手法により正規化する。これにより、広告装置100は、異なる抽出モデルにより算定された評価値を同等に取扱い、比較することが可能となる。
ここで、広告装置100は、複数の抽出モデルを利用してキーワードを抽出するため、予め学習のためのデータ(以下、「テストデータ」と表記する場合がある)で抽出モデルを学習させることにより、複数の抽出モデルに重み付けを行う(ステップS11)。例えば、広告装置100は、提供する広告配信サービスにおいて、複数の広告主から受け付けた広告に関する情報や、ユーザから送信される検索クエリ等の情報を各抽出モデルに学習させる。具体的には、広告装置100は、所定の広告主が現に指定している入札キーワードの一部の情報を隠したテストデータを抽出モデルに入力し、抽出処理を実行させる。そして、広告装置100は、隠された入札キーワードを抽出モデルが正確に抽出することができたか否か等によって、各抽出モデルの重み付けを行う。言い換えれば、広告装置100は、抽出モデルに対して、隠された入札キーワードを正例とする学習を行い、正例を抽出できた度合いによって各抽出モデルの重み付けを示す所定の指標値を算出する。
このように、広告装置100は、予め複数の抽出モデルに重みを付与することで、複数の抽出モデルを適切に利用したキーワードの抽出処理を実行可能とする。
続いて、広告装置100は、新たに検索連動型の広告配信サービスを利用しようとする広告主CL10から、広告主端末20を介して、広告コンテンツの入稿を受け付ける(ステップS12)。この場合、広告装置100は、広告コンテンツの入稿とともに、広告コンテンツを検索結果ページ50で表示させるためのキーワードの入札を広告主CL10から受け付けてもよい。また、広告装置100は、入稿された広告コンテンツのリンク先であるLPの情報を取得する。また、広告装置100は、広告主CL10が提供するLPを検索するために用いられた検索クエリに関する情報等を検索サーバ30から取得する。
そして、広告装置100は、取得した広告主CL10に関する情報に基づいて、入稿された広告コンテンツに紐づかせるキーワードを抽出する(ステップS13)。具体的には、広告装置100は、各抽出モデルに広告主CL10に関する情報を入力し、抽出処理を実行させる。これにより、広告装置100は、広告主CL10にとって適切な入札キーワードを抽出する。
そして、広告装置100は、広告主CL10が指定する入札キーワードの候補として、抽出されたキーワードを提示する(ステップS14)。具体的には、広告装置100は、検索連動型の広告配信サービスにおいて、広告主CL10が入札することにより広告コンテンツが検索結果ページ50に表示される確率が高まることが想定されるキーワードを広告主CL10に提示する。
このように、実施形態に係る広告装置100は、コンテンツに紐づかせるキーワードとしての評価値を算定し、算定した評価値に基づいてキーワードを抽出する抽出モデルであって、互いに異なる手法を用いて評価値を算定する抽出モデル毎に、抽出モデルによって所定の条件に適合するキーワード(例えば、テストデータにおいて正例であるキーワード)が抽出された度合いに基づいて、抽出モデル毎の指標値を算出する。そして、広告装置100は、算出された指標値により重み付けされた抽出モデルが算定する評価値に基づいて、コンテンツに紐づかせるキーワード、又は、コンテンツを抽出させるためのキーワードである入札キーワードを抽出する。
すなわち、実施形態に係る広告装置100は、検索連動型の広告配信サービスにおける入札キーワードに関して、複数の異なる抽出モデルを用いて、広告主にとって適切なキーワードを抽出する。このため、広告装置100によれば、現に検索連動型の広告配信サービスを利用している広告主に関する情報や、検索サーバ30が受信するユーザからの検索要求である検索クエリに関する情報など、種々の情報に基づいて、キーワードを抽出することができる。これにより、広告装置100によれば、広告主は、自身が指定する入札キーワードのみならず、種々の情報に基づいて抽出されるキーワードを入札キーワードとして指定することが可能となる。そして、適切な複数のキーワードに入札することにより、広告主は、提供する広告コンテンツに興味を持つと想定されるユーザに広告コンテンツをより多く配信させることができる。結果として、実施形態に係る広告装置100によれば、配信される広告コンテンツの広告効果を高めることができる。
〔2.広告装置100の構成〕
次に、図3を用いて、実施形態に係る広告装置100の構成について説明する。図3は、実施形態に係る広告装置100の構成例を示す図である。図3に示すように、広告装置100は、通信部110と、記憶部120と、制御部130とを有する。
(通信部110について)
通信部110は、ネットワークNと有線又は無線で接続され、ユーザ端末10、広告主端末20及び検索サーバ30との間で情報の送受信を行う。例えば、通信部110は、NIC(Network Interface Card)等によって実現される。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3の例では、記憶部120は、算出データ記憶部121と、広告情報記憶部126とを有する。
(算出データ記憶部121について)
算出データ記憶部121は、各抽出モデルがキーワードの評価値を算定するために用いる情報や、後述する算出部136が算出処理に用いる情報を記憶する。図3に示すように、算出データ記憶部121は、第1テーブル122、第2テーブルA123、第2テーブルB124、第3テーブル125といった、各データテーブルを有する。
(第1テーブル122について)
ここで、図4に、実施形態に係る第1テーブル122の一例を示す。図4は、実施形態に係る第1テーブル122の一例を示す図である。第1抽出モデルによる処理を実行する第1抽出部133は、第1テーブル122に記憶された情報に基づいてキーワードの抽出を行う。上述のように、第1抽出モデルは、広告主が提供するLPに関する情報に基づいて、適切な入札キーワードを抽出する手法である。このため、第1テーブル122には、広告装置100が取得した情報のうち、主にLPに関する情報に関する情報が記憶される。図4に示した例では、第1テーブル122は、「入札キーワード」、「LP」、「LP単語ベクトル」、「キーワード単語ベクトル」といった項目を有する。
「入札キーワード」は、各LP(言い換えれば、各広告コンテンツ)に紐づけられている入札キーワードを示す。図4に示すように、入札キーワードは、複数の広告主により指定される場合があるので、一つの入札キーワードに複数のLPが紐づけられる場合がある。なお、入札キーワードは、一つの単語に限られず、複数の単語の組み合わせであってもよい。
「LP」は、広告主が提供するLPに関する情報を示す。図4に示す「LP01」という表記は、LPを識別するための識別情報を示すとともに、LPに関する情報を概念的に表現したものである。算出データ記憶部121内に記憶されるLPに関する情報は、LPを構成するHTML(HyperText Markup Language)ファイル等であってもよいし、LPのデータが置かれたURL(Uniform Resource Locator)を示す情報であってもよい。なお、以下では、図4に示したLPの項目に記憶されている情報を、LPの参照符号として用いる場合がある。例えば、LP「LP01」によって示される情報を有するLPを、「LP01」と表記する場合がある。
「LP単語ベクトル」は、各LPに対応する単語ベクトルを示す。図4に示す「V01」という表記は、単語ベクトルを概念的に表現したものである。なお、各LPに対応する単語ベクトルは、後述する第1抽出部133によって生成される。第1抽出部133は、生成した単語ベクトルを生成元であるLPと対応付けて、第1テーブル122に記憶する。
「キーワード単語ベクトル」は、入札キーワードに対応する単語ベクトルを示す。図4に示す「G01」という表記は、単語ベクトルを概念的に表現したものである。詳しくは後述するが、キーワード単語ベクトルは、入札キーワードに紐づくLP単語ベクトルに基づいて第1抽出部133により生成される。
例えば、図4では、入札キーワード「K101」は、LP「LP01」、「LP02」、「LP03」、・・・、に紐づいており、また、各LPに対応する単語ベクトルは、LP単語ベクトル「V01」、「V02」、「V03」、・・・、であり、入札キーワード「K101」に対応する単語ベクトルは、キーワード単語ベクトル「G01」である例を示している。
(第2テーブルA123について)
次に、図5に、実施形態に係る第2テーブルA123の一例を示す。図5は、実施形態に係る第2テーブルA123の一例を示す図である。第2抽出モデルによる処理を実行する第2抽出部134は、第2テーブルA123及び第2テーブルB124に記憶された情報に基づいてキーワードの抽出を行う。上述のように、第2抽出モデルは、広告主から実際に入稿された入札キーワードの共起性に基づいて、適切な入札キーワードを抽出する手法である。このため、第2テーブルA123及び第2テーブルB124には、広告装置100が取得した情報のうち、主に広告主が入札しているキーワードに関する情報が記憶される。図5に示した例では、第2テーブルA123は、「広告主ID」、「広告コンテンツ」、「入札キーワード」といった項目を有する。
「広告主ID」は、広告主又は広告主端末20を識別するための識別情報を示す。なお、以下では、図5に示した広告主IDに記憶されている識別情報を広告主の参照符号として用いる場合がある。例えば、広告主ID「CL21」によって識別される広告主を「広告主CL21」と表記する場合がある。
「広告コンテンツ」は、広告主端末20から入稿された広告コンテンツを示す。図5では、「広告コンテンツ」に「AD01」や「AD02」といった概念的な情報が格納される例を示したが、実際には、広告コンテンツの宣伝内容であるテキストデータや、あるいは、これらの格納場所を示すファイルパス名などが格納される。
「入札キーワード」は、広告コンテンツに紐づけられている入札キーワードを示す。図5に示すように、広告主は、複数のキーワードに入札することができる。このため、広告コンテンツには、複数の入札キーワードが紐づけられる。
例えば、図5では、広告主ID「CL21」によって識別される広告主CL21が、検索連動型の広告配信サービスにおいて、広告コンテンツ「AD01」を検索結果ページ50に表示させるために、入札キーワード「K001」、「K002」、「K003」、・・・、に入札している例を示している。
(第2テーブルB124について)
次に、図6に、実施形態に係る第2テーブルB124の一例を示す。図6は、実施形態に係る第2テーブルB124の一例を示す図である。上述のように、第2抽出部134は、第2テーブルB124に記憶された情報を用いてキーワードの抽出を実行する。詳しくは後述するが、第2抽出部134は、キーワードに入札している広告主毎にキーワードの組合せを作成し、かかる組合せの評価値である重み値を算定する。このため、第2テーブルB124には、主にキーワードの組合せに関する情報が記憶される。図6に示した例では、第2テーブルB124は、「入札キーワード(1)」、「入札キーワード(2)」、「重み値」といった項目を有する。
「入札キーワード(1)」及び「入札キーワード(2)」は、図5に示した入札キーワードに対応する。なお、図6に示す例では、入札キーワード(1)に示される入札キーワードが、入札キーワード(2)に示される入札キーワードとともに組合せに含まれることを示している。
「重み値」は、キーワードの組合せの重み値を示す。重み値は、後述する第2抽出部134によって組合せ毎に算定される。なお、重み値は、広告主から受け付ける入札キーワードによって随時変化するため、所定のタイミングで(例えば、一日に一回など)更新されることがある。
例えば、図6では、入札キーワード(1)「K001」と、入札キーワード(2)「K002」により形成される組合せ(K001,K002)の重み値は「0.6」であり、入札キーワード(1)「K001」と、入札キーワード(2)「K003」により形成される組合せ(K001,K003)の重み値は「0.3」である例を示している。
(第3テーブル125について)
次に、図7に、実施形態に係る第3テーブル125の一例を示す。図7は、実施形態に係る第3テーブル125の一例を示す図である。第3抽出モデルによる処理を実行する第3抽出部135は、第3テーブル125に記憶された情報に基づいてキーワードの抽出を行う。上述のように、第3抽出モデルは、検索サーバ30にユーザ端末10から送信された検索クエリの傾向に基づいて、適切な入札キーワードを抽出する手法である。このため、第3テーブル125には、広告装置100が取得した情報のうち、主に検索サービスにおいてユーザから送信された検索要求に関する情報が記憶される。図7に示した例では、第3テーブル125は、「広告主ID」、「LP」、「検索クエリ」、「検索回数」、「再検索クエリ」、「検索回数」、「傾向値」といった項目を有する。
「広告主ID」は、図5に示した広告主IDの項目に対応する。「LP」は、図4に示したLPの項目に対応する。
「検索クエリ」は、検索サービスにおいてユーザ端末10から送信される検索要求を示す。「再検索クエリ」は、検索クエリを送信したユーザ端末10から、さらに送信される検索要求を示す。また、「検索回数」は、検索クエリ又は再検索クエリが検索された回数を示す。言い換えれば、検索回数は、検索クエリ又は再検索クエリがユーザ端末10から送信された回数を示す。
「傾向値」は、検索クエリを送信したユーザ端末10がどのような内容の再検索クエリを送信したか、といった検索の傾向を示す値である。第3抽出部135は、傾向値を再検索クエリ(すなわち、キーワード)に対する評価値として扱う。第3抽出部135は、図7に示すように、LPに紐づく検索クエリと再検索クエリの組合せ毎に傾向値を算定する。なお、傾向値は、検索サーバ30から取得する検索クエリ及び再検索クエリに関する情報によって随時変化するため、所定のタイミングで(例えば、一時間に一回など)更新されることがある。
例えば、図7では、広告主ID「CL31」で識別される広告主から提供されるLP「LP31」で示されるウェブページは、ユーザ端末10から検索クエリ「ダイエット」が送信されることによって抽出されるウェブページであり、現時点において、検索クエリ「ダイエット」によって「20281」回だけ検索されていることを示す。また、LP31を表示したユーザ端末10は、さらに再検索クエリ「運動」や、「健康食品」や、「ヨーグルト」や、「エステ」などを送信したことを示す。例えば、再検索クエリ「運動」は、検索クエリ「ダイエット」を送信したユーザ端末10から、現時点において、「4125」回だけ送信されたことを示す。また、検索クエリ「ダイエット」を送信した結果としてLP31を表示したユーザ端末10は、さらに再検索クエリ「運動」を送信する傾向値が「0.2」であり、再検索クエリ「健康食品」を送信する傾向値が「0.2」であり、再検索クエリ「ヨーグルト」を送信する傾向値が「0.2」であり、再検索クエリ「エステ」を送信する傾向値が「0.1」である例を示している。
(広告情報記憶部126について)
広告情報記憶部126は、広告主から入稿された広告コンテンツに関する情報を記憶する。ここで、図8に、実施形態に係る広告情報記憶部126の一例を示す。図8は、実施形態に係る広告情報記憶部126の一例を示す図である。図8に示した例では、広告情報記憶部126は、「広告主ID」、「広告コンテンツ」、「LP」、「入札キーワード」といった項目を有する。
「広告主ID」は、図5に示す広告主IDの項目に対応する。「広告コンテンツ」は、図5に示す広告コンテンツの項目に対応する。「LP」は、図4に示すLPの項目に対応する。「入札キーワード」は、図4に示す入札キーワードの項目に対応する。
例えば、図8では、広告主ID「CL41」によって識別される広告主CL41が、検索連動型の広告配信サービスにおいて、広告コンテンツ「AD41」を検索結果ページ50に表示させるために、入札キーワード「K401」、「K402」、「K403」、・・・、に入札している例を示している。また、広告コンテンツ「AD41」のリンク先は、LP「LP41」である例を示している。
後述する配信部141は、例えば、ユーザ端末10から送信される広告取得の要求に従い、広告情報記憶部126に記憶されている広告コンテンツをユーザ端末10に配信する。
(制御部130について)
制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、広告装置100内部の記憶装置に記憶されている各種プログラム(抽出プログラムの一例)がRAM(Random Access Memory)を作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、取得部131と、抽出制御部132と、入稿受付部138と、提示部139と、要求受付部140と、配信部141とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
取得部131は、キーワードの抽出処理に用いる各種情報を取得する。取得部131により取得される情報は、後述する算出処理や抽出処理に利用される。例えば、取得部131は、抽出モデル毎の重み付けを算出するためのテストデータとして、入稿受付部138が入稿を受け付けた広告コンテンツに関する情報や、広告主に関する情報を取得する。また、取得部131は、検索サーバ30から検索クエリに関する情報を取得する。
そして、取得部131は、抽出制御部132からの要求に従い、取得した情報を抽出制御部132に送る。なお、図3に示すように、取得部131は、取得した情報を算出データ記憶部121内に格納してもよい。この場合、抽出制御部132は、算出データ記憶部121内に格納された情報を抽出処理等に用いる。
(抽出制御部132について)
抽出制御部132は、キーワードの抽出処理を制御する。図3に示すように、抽出制御部132は、第1抽出部133と、第2抽出部134と、第3抽出部135と、算出部136と、第4抽出部137とを有する。
(第1抽出部133について)
第1抽出部133は、第1抽出モデルによるキーワードの抽出処理を実行する。第1抽出モデルは、広告主が提供するLPに関する情報や、LPから生成される単語ベクトルに基づいて、適切な入札キーワードを抽出する手法である。以下に、第1抽出モデルがキーワードを抽出する処理について説明する。
第1抽出部133は、取得部131によって取得されたLPや入札キーワードの特徴情報を生成する。例えば、第1抽出部133は、特徴情報として、現に広告コンテンツの入稿を受け付けている広告主が提供するLPや、抽出されたキーワードの提示対象である新規の広告主が提供するLPや、広告主が現に指定している入札キーワードに対応する各単語ベクトルを生成する。そして、第1抽出部133は、生成した単語ベクトルを第1テーブル122に格納する。
なお、LPに対応する単語ベクトルとは、例えば、LPに含まれる単語の種類と出現回数とに対して所定の重みを付した上で、LPをベクトルモデルで表現したものである。このように、第1抽出部133は、LPに出現する単語の傾向などを単語ベクトルで表すことにより、LPの特徴情報を生成する。
具体的には、第1抽出部133は、LPに対応する単語ベクトルを生成する場合、LPのURLに基づいて、LPのデータを収集し、収集したLPのデータを取得する。そして、第1抽出部133は、例えば、LPに含まれるテキストを形態素解析する。すなわち、第1抽出部133は、LPに含まれるテキストを単語毎に分解する。そして、第1抽出部133は、LPに含まれる単語の種類と、LP内の単語の出現回数に基づいて、LPに対応する単語ベクトルを生成する。例えば、第1抽出部133は、LPに出現する単語について「1」の要素を与え、出現しない単語について「0」の要素を与えることで、LPに対応する単語ベクトルを生成する。
また、第1抽出部133は、単語毎に重みを付与して、LPに対応する単語ベクトルを生成する。ここで、単語ベクトルの重みの付与に関しては、例えば、tf−idf(Term Frequency−Inverse Document Frequency)など既知の特徴抽出アルゴリズムにより特徴語を抽出する手法が考えられる。この場合、LPを特徴付ける特徴語として抽出された単語に関しては、第1抽出部133は、重みを重くして単語ベクトルを生成する。これにより、第1抽出部133は、LPの特徴を反映した単語ベクトルを生成することができる。
なお、第1抽出部133は、上記のtf−idfではなく、tf−ilf(Term Frequency−Inverse Label Frequency)という手法を用いてもよい。上記のtf−idfにおいては、処理対象とする単語が全文書中においていくつの文書内で共通して使われているかを表す頻度としてdf(Document Frequency)を用いる(この場合、「文書」に対応するものはLPとなる)。これに対して、tf−ilfにおいては、LPに含まれる処理対象とする単語がどれくらいキーワード(すなわち、ラベル)に紐づけられているかを示す頻度(lf、Label Frequency)を用いる。
この場合、第1抽出部133は、LPに対応する単語ベクトルについて、LP内の全ての単語の出現回数の総和、LP内に所定の単語が出現する回数及び所定の単語がキーワードと紐づく頻度に基づいて、所定の単語毎に重み付けがされた単語ベクトルを生成する。具体的には、第1抽出部133は、LP内の全ての単語の出現回数の総和とLP内に所定の単語が出現する回数との割合(すなわち、tf。所定の単語のLP内での出現頻度を示す)と、単語がキーワードと紐づく頻度(すなわち、lf)とに基づいて、LPに対応する単語ベクトルを生成する。これにより、第1抽出部133は、キーワードと極めて頻繁に紐づくような、ごくありふれた一般的な単語の重みが過度に重み付けられないよう、適切に重み付けのなされた単語ベクトルを生成する。このため、第1抽出部133は、より適切にLPの特徴を示す単語ベクトルを生成することができる。
また、第1抽出部133は、入札キーワードに対応する単語ベクトルを生成する。第1抽出部133は、入札キーワードに紐づくLPが複数ある場合には、入札キーワードに対応する単語ベクトルとして、入札キーワードに紐づけられた複数のLPに対応する各単語ベクトルの重心ベクトルを生成する。この点について、図9を用いて説明する。
図9は、実施形態に係る第1抽出モデルによる抽出処理の一例を示す概念図である。図9に示すように、入札キーワードK101には、LP01、LP02、LP03、・・・、が紐づけられている。第1抽出部133は、LP01、LP02、LP03、・・・、の各々に対応する単語ベクトルV01、V02、V03、・・・、を生成する。そして、第1抽出部133は、入札キーワードK001に対応する単語ベクトルとして、生成した各LPの単語ベクトルの重心ベクトルを生成する。すなわち、第1抽出部133は、各LPの単語ベクトルの重心ベクトルを、入札キーワードK001の単語ベクトルG01として生成する。このように、第1抽出部133は、紐づけられている複数のLPの各単語ベクトルの重心ベクトルを用いて入札キーワードに対応する単語ベクトルを生成するので、入札キーワードの特徴を適切に示す単語ベクトルを生成することができる。
続いて、第1抽出部133が、実際に処理対象となるLPに対してキーワードを抽出する例を説明する。まず、第1抽出部133は、キーワードに紐づけられた既存のLPの特徴情報と、任意の単語を含む処理対象のLPとの特徴情報との類似度を算定する。ここで、処理対象のLPとは、広告配信サービスにおいて、入札キーワードの抽出を所望する広告主が提供するLPのことをいう。
なお、広告装置100は、広告配信サービスにおいて、複数のキーワードの入札や、複数の広告コンテンツの入稿を受け付けているため、入札キーワードと既存のLPとの組み合わせは複数存在する。このとき、第1抽出部133は、特徴情報の類似度の算定をキーワード毎に実行する。図4を例とすると、第1抽出部133は、入札キーワードK101を処理対象とする場合には、入札キーワードK101と紐づけられた既存のLPであるLP01、LP02、LP03の各々の特徴情報と、処理対象のLPの特徴情報との類似度を算定する。すなわち、第1抽出部133は、入札キーワードと既存のLPが紐づけられた複数の組み合わせについて、入札キーワード毎に、入札キーワードに紐づけられた全ての既存のLPの特徴情報と、処理対象のLPの特徴情報との類似度を算定する。
上述のように、第1抽出部133は、特徴情報として単語ベクトルを用いる。例えば、第1抽出部133は、既存のLPの特徴情報に基づいて生成される、入札キーワードに対応する単語ベクトルと、処理対象のLPに対応する単語ベクトルとの類似度を算定する。具体的には、第1抽出部133は、既存のLPに紐づくキーワードに対応する単語ベクトルと、処理対象のLPに対応する単語ベクトルとの類似度として、単語ベクトル同士のコサイン類似度を算定する。すなわち、第1抽出部133は、算定処理の対象となる二つの単語ベクトルのコサイン類似度を算定する。上述のように、第1抽出部133がLPに出現する単語について「1」の要素を与え、出現しない単語について「0」の要素を与えて、LPに対応する単語ベクトルを生成した場合には、第1抽出部133は、二つの単語ベクトルのコサイン類似度として「0〜1」の範囲で示される所定の数値を算定する。
なお、第1抽出部133は、類似度を算定する際に、類似度が比較的高くなると想定される単語ベクトル同士を抽出して、抽出された単語ベクトル同士の類似度を算定するようにしてもよい。例えば、第1抽出部133は、Top−k retrieval(Top−k検索)のようなアルゴリズムを用いて処理対象を抽出する。すなわち、第1抽出部133は、所定の手法(例えば、上述したtf−ilf)で付与されるスコアによって順序付けられた単語ベクトルの上位k個(kは任意の数)を抽出し、抽出された単語ベクトル同士の類似度を算定する。これにより、第1抽出部133は、スコアの低い処理対象については処理をスキップするので、高速に類似度の算定を行うことができる。
また、第1抽出部133は、キーワードに紐づけられた既存のLPが複数ある場合には、キーワードに紐づけられた複数の既存のLPに対応する各単語ベクトルの重心ベクトルと、処理対象のLPに対応する単語ベクトルとの類似度を算定する。また、第1抽出部133は、算定された類似度が所定の閾値以上である複数の既存のLPに紐づくキーワードを抽出する。このように、第1抽出部133は、他の広告主が入札キーワードとしている複数の既存のLPの特徴を平均化して捉える。このため、第1抽出部133は、複数の既存のLPがキーワードに紐づく状況を加味して類似度を算定することができる。
上記のように、第1抽出部133は、既存のLPに紐づくキーワードが有する特徴情報と、処理対象のLPの特徴情報との類似度を算定するので、キーワードと処理対象のLPとの関連性を数値により示すことができる。
そして、第1抽出部133は、算定された特徴情報の類似度が所定の閾値以上である特徴情報に対応するキーワードを抽出する。具体的には、第1抽出部133は、算定された単語ベクトルのコサイン類似度に基づき、コサイン類似度が所定の閾値以上である単語ベクトルに対応するキーワードを抽出する。
例えば、第1抽出部133は、単語ベクトル同士のコサイン類似度が高いほど(すなわち、「1」の値に近いほど)、算定対象となった単語ベクトルに対応するキーワードとLPとの関連性が高いものと判定する。そのため、第1抽出部133は、類似度に所定の閾値を設定し、所定の閾値以上の類似度に係る単語ベクトルに対応するキーワードを抽出する。第1抽出部133は、所定の閾値を任意に設定することができる。例えば、第1抽出部133は、抽出するキーワードの数に応じて、所定の閾値を設定する。すなわち、第1抽出部133は、多数のキーワードを抽出する場合には、所定の閾値を低く設定してもよい。
このように、実施形態に係る第1抽出部133は、処理対象となるLPと特徴が類似する既存のLPに紐づけられている入札キーワードを抽出する。このため、第1抽出部133によれば、現時点において、検索連動型の広告配信サービスを利用する他の広告主が入札しているキーワードと既存のLPとの情報に基づいて、処理対象となるLPに紐づかせるキーワードを抽出することができる。
また、詳しくは後述するが、第1抽出部133は、算出部136が第1抽出モデルに対して重み付けを算出しようとする場合には、取得部131から取得したテストデータに基づいて抽出されたキーワードと、抽出されたキーワードに関する評価値である類似度とに関する情報を算出部136に送る。
(第2抽出部134について)
第2抽出部134は、第2抽出モデルによるキーワードの抽出処理を実行する。第2抽出モデルは、広告主から実際に入稿された入札キーワードの共起性に基づいて、適切な入札キーワードを抽出する手法である。以下に、第2抽出モデルがキーワードを抽出する処理について説明する。
第2抽出部134は、取得部131によって取得された入札キーワードに関する情報に基づいて、入札キーワードの組合せを生成する。なお、第2抽出部134は、入札キーワードを指定した広告主毎に入札キーワードの組合せを生成する。
具体的には、第2抽出部134は、図5及び図6に示すように、広告主CL21が入札したキーワードK001と、キーワードK002については、組合せ(K001,K002)を生成する。一方、第2抽出部134は、広告主CL21が入札したキーワードK001と、広告主CL22が入札したキーワードK011については、組合せ(K001,K011)を生成しない。ただし、第2抽出部134は、広告主CL23がキーワードK001とキーワードK011とについて入札していた場合には、組合せ(K001,K011)を生成する。そして、第2抽出部134は、生成した組合せに関する情報を第2テーブルB124に格納する。
このように、第2抽出部134は、入札されている全てのキーワードの組合せを生成するのではなく、広告主毎に入札されているキーワードの組合せを生成する。すなわち、第2抽出部134は、一の広告主が同時に入札しているキーワードの組が多いほど、多くの組合せを生成する。例えば、キーワードK001とともにキーワードK002に入札している広告主が多いほど、第2抽出部134は、組合せ(K001,K002)を多く生成することになる。
続いて、第2抽出部134は、キーワードを指定した指定者毎に生成されるキーワードの各組合せの評価値を算定する。具体的には、第2抽出部134は、広告主毎に生成される組合せであって、広告主が提供するコンテンツに紐づくキーワードである入札キーワードの組合せの評価値として、組合せの重みを示す重み値を算定する。
例えば、第2抽出部134は、生成されるキーワードの組合せの数に応じて、組合せの重み値を算定する。すなわち、第2抽出部134は、生成される数が多い組合せほど、多くの広告主が同時に入札しているキーワード同士の組合せであるから、重要性が高いものとして重み値を高く算定する。
また、この場合、第2抽出部134は、キーワードの組合せを正例とした線形モデルを学習することで、各組合せの重み値を算定してもよい。この点について、図10を用いて説明する。
図10は、実施形態に係る第2抽出モデルによる算定処理の一例を示す概念図である。図10に示すように、広告主CL21は、入札キーワードK001、入札キーワードK002、入札キーワードK003、・・・、を有する。同様に、広告主CL22は、入札キーワードK011、入札キーワードK002、入札キーワードK003、・・・、を有する。同様に、広告主CL23は、入札キーワードK001、入札キーワードK011、入札キーワードK111、・・・、を有する。
この場合、第2抽出部134は、広告主CL21の入札キーワードに基づき、組合せ(K001,K002)、組合せ(K001,K003)、組合せ(K002,K003)を生成する。同様に、第2抽出部134は、広告主CL22の入札キーワードに基づき、組合せ(K011,K002)、組合せ(K011,K003)、組合せ(K002,K003)を生成する。同様に、第2抽出部134は、広告主CL23の入札キーワードに基づき、組合せ(K001,K011)、組合せ(K001,K111)、組合せ(K011,K111)を生成する。
このように、第2抽出部134は、広告装置100にキーワードを入札している全ての広告主について、広告主毎に、キーワードの組合せを生成する。そして、第2抽出部134は、全てのキーワードの組合せについて、キーワードの組合せを正例とした線形モデルを学習することで、各組合せの重み値を算定する。線形モデルの一例として、第2抽出部134は、下記式(1)に示すような回帰式を求める。
y = a1・x1 + a2・x2 + ・・・ +an・xn ・・・ (1)
上記式(1)のうち、「y」は、各組合せを有する例が存在するか否かを示す。ここでは、各組合せを有する例は広告主であり、第2抽出部134は、キーワードの組合せを有する広告主を例として学習するため、原則として、「y」=「1」となる。
また、上記式(1)のうち、「xn」(nは任意の数)は、キーワードの組合せを示す。例えば、「x1」〜「xn」には、キーワードの組合せ(kwi,kwj)が割り当てられる。図10の場合、例えば、「x1」には組合せ(K001,K002)が割り当てられ、「x2」には組合せ(K001,K003)が割り当てられ、「x3」には組合せ(K002,K003)が割り当てられ、「x4」には組合せ(K011,K002)が割り当てられ、「x5」には組合せ(K011,K003)が割り当てられ、「x6」には組合せ(K001,K011)が割り当てられ、「x7」には組合せ(K001,K111)が割り当てられ、「x8」には組合せ(K011,K111)が割り当てられる。ここでは、キーワードの組合せを正例とするため、各広告主について、キーワードの組合せ(kwi,kwj)が存在する場合には「xn」=「1」となり、存在しない場合には「0」となる。また、上記式(1)のうち、「an」は、「x1」〜「xn」の係数を示す。ここでは、「an」は、キーワードの組合せの各々を示す「x1」〜「xn」の重み値を示す。
そして、第2抽出部134は、上記式(1)の重み値anをパラメータとし、例えば、SVM(Support Vector Machine)のようなパターン識別機を用いたサポートベクタ回帰などの回帰分析手法により調整を行う。すなわち、第2抽出部134は、上記式(1)で表される全ての広告主について、上記式(1)を満たすように、重み値anの値(サンプルとなる広告主の数によっては、求められる重み値anは近似値でもよい)を求める。
例えば、第2抽出部134は、図10に示すように、組合せ(K001,K002)の重み値として「0.6」を、組合せ(K001,K003)の重み値として「0.3」を、組合せ(K002,K003)の重み値として「0.2」等を算定する。そして、第2抽出部134は、算定した重み値を各組合せに対応付けて、第2テーブルB124に格納する。
続いて、第2抽出部134が、実際に処理対象となる広告主に対してキーワードを抽出する例を説明する。第2抽出部134は、組合せの評価値として算定した重み値に基づいて、広告配信サービスを利用する広告主から新たに指定される入札キーワードを含む組合せから、指定された入札キーワード以外のキーワードを抽出する。具体的には、処理対象となる広告主が入札キーワード「K001」を指定していたとする。このとき、第2抽出部134は、生成した組合せのうち、(K001,kwj)である全ての組合せの重み値を比較する。そして、第2抽出部134は、最も重み値の高い組合せに含まれるキーワードであって、指定された入札キーワード「K001」以外のキーワードを抽出する。すなわち、抽出されたキーワードは、処理対象となる広告主が入札キーワード「K001」以外に追加する入札キーワードとして最も適切なキーワードであると第2抽出部134に判定されたキーワードである。
なお、第2抽出部134は、広告主により新たに指定される入札キーワードが複数ある場合には、新たに指定される入札キーワードと他のキーワードとの組合せの重み値の和に基づいて、組合せに含まれる他のキーワードを抽出する。例えば、第2抽出部134は、広告主が既に入札しているキーワードから生成される組合せのうち、新たな入札キーワードを含む複数の組合せの重み値の和が最も高くなるような複数の組合せを抽出する。そして、第2抽出部134は、抽出した複数の組合せに含まれるキーワードであって、入札キーワードとは異なるキーワードを抽出する。
上記の処理のうち、第2抽出部134は、各組合せに共通して含まれるキーワードと、入札キーワードとの組合せにおける指標値の和に基づいて、広告主に提示するキーワードを抽出してもよい。例えば、第2抽出部134は、広告主が既に入札しているキーワードから生成される組合せのうち、新たな入札キーワードを含む組合せであって、入札キーワードとともに組合せに含まれる他のキーワードが共通する組合せ同士の重み値の和を比較する。そして、第2抽出部134は、比較した複数の組合せの重み値の和に基づいて、各組合せに共通するキーワードを抽出する。これにより、第2抽出部134は、入札キーワードとの共起性がより高い共通したキーワードを抽出することができる。
上記の抽出処理について、一例を挙げて説明する。例えば、第2抽出部134は、重み値の和に基づき抽出処理を行うため、広告主毎に、組合せの存否及び組合せの重み値を変数として生成される関数を求める。そして、第2抽出部134は、新たに指定される入札キーワードを含むいずれかの組合せに対応する変数を加えた場合に、関数が示す値を最適化する変数に対応する組合せの中から、入札キーワードとは異なる他のキーワードを抽出する。
例えば、第2抽出部134は、組合せの存否及び組合せの重み値を変数として生成される関数の一例として、下記式(2)で表される関数を求める。
広告主のスコア = Σ(w_kwij) × (kwi,kwj) ・・・ (2)
上記式(2)のうち、「(w_kwij)」は、組合せ(kwi,kwj)に対応する重み値を示す。また、「(kwi,kwj)」は、組合せ(kwi,kwj)が存在するか否かを示す。例えば、処理対象である広告主が組合せ(kwi,kwj)を有する場合には、「(kwi,kwj)」=「1」となる。一方、広告主が組合せ(kwi,kwj)を有しない場合には、「(kwi,kwj)」=「0」となる。
上記式(2)において、第2抽出部134は、入札キーワード「(kwe)」を含む任意の組合せ(kwe,kwj)に対応する変数を加えるとする。すなわち、第2抽出部134は、任意の組合せ(kwe,kwj)が存在することを示す「1」の値と、任意の組合せ(kwe,kwj)に対応する重み値を乗算した変数を上記式(2)に加える。上記の例では、加えられる変数の値が大きいほど、他の広告主との共起性を伴う適切なキーワードが含まれる組合せを広告主が有することを示す。すなわち、広告主のスコアが大きくなるほど、広告主のスコアが改善されたといえる。そして、広告主のスコアが最大となる場合に、上記関数が示す値が最適化されたといえる。ゆえに、第2抽出部134は、入札キーワード「(kwe)」と、任意のキーワード「kwj」とを含む組合せに対応する変数のいずれかを上記式(2)に加え、最もスコアを上昇させる変数に対応する組合せ(kwe,kwj)を抽出する。そして、第2抽出部134は、組合せ(kwe,kwj)に含まれる任意のキーワード「kwj」を抽出する。
上述した第2抽出部134の抽出処理について、図11を用いて、具体的に説明する。図11は、実施形態に係る第2抽出モデルによる抽出処理の一例を示す概念図である。図11に示す例では、広告主CL10は、新たにキーワード「K001」及び「K011」を指定して、入札を行うものとする。なお、各組合せの重み値は、図10で示された重み値を用いる。
第2抽出部134は、広告主CL10から新たに指定された入札キーワード「K001」について、第2抽出部134によって算定された任意のキーワードとの組合せの重み値を参照する。図11に示すように、組合せ(K001,K002)の重み値は「0.6」であり、組合せ(K001,K003)の重み値は「0.3」であり、組合せ(K001,K111)の重み値は「0.15」である。また、広告主CL10から新たに指定された入札キーワード「K011」と任意のキーワードとの組合せの重み値の例としては、図11に示すように、組合せ(K011,K002)の重み値は「0.35」であり、組合せ(K011,K003)の重み値は「0.1」であり、組合せ(K011,K111)の重み値は「0.05」である。
ここで、第2抽出部134は、上記式(2)を用いて、広告主CL10のスコアを求める。この例では、第2抽出部134は、入札キーワードと異なるキーワードとして、共通する一つのキーワードを抽出するものとする。
具体的には、第2抽出部134は、新たにキーワード「K001」及び「K011」を含む組合せであって、共通するキーワード「K002」を含む組合せである、組合せ(K001,K002)及び組合せ(K011,K002)に対応する変数を上記式(2)に加える。この場合、第2抽出部134は、上記式(2)より、組合せ(K001,K002)に対応する重み値「0.6」と、組合せ(K011,K002)に対応する重み値「0.35」に基づき、広告主CL10のスコアが「0.95」だけ上昇することを求める。同様に、第2抽出部134は、共通するキーワード「K003」の場合には、組合せ(K001,K003)に対応する重み値「0.3」と、組合せ(K011,K003)に対応する重み値「0.1」に基づき、広告主CL10のスコアが「0.4」だけ上昇することを求める。同様に、第2抽出部134は、共通するキーワード「K111」の場合には、組合せ(K001,K111)に対応する重み値「0.15」と、組合せ(K011,K111)に対応する重み値「0.05」に基づき、広告主CL10のスコアが「0.2」だけ上昇することを求める。
なお、第2抽出部134は、図11に示す組合せ(K001,K211)と、組合せ(K011,K311)とについては、上記抽出処理に用いない。この場合、組合せ(kwe,kwj)において、任意のキーワード「kwj」が共通していないため、第2抽出部134は、組合せ同士の重み値を比較することができないからである。
そして、第2抽出部134は、上記結果に基づいて、広告主のスコアを最適化する組合せに共通して含まれるキーワード「K002」を抽出する。すなわち、第2抽出部134は、広告主CL10が新たに指定した入札キーワード「K001」及び「K011」に追加する適切な入札キーワードとして、キーワード「K002」を抽出する。
このように、実施形態に係る第2抽出部134は、広告配信サービスにおいて、実際にキーワードを入札している広告主毎に生成されるキーワードの組合せを抽出処理に用いる。このため、第2抽出部134によれば、広告主が指定するキーワード同士の関連性についても指標に含めた上で、新たなキーワードを抽出することができる。例えば、検索連動型の広告配信サービスにおいて、単に検索クエリとして入力されやすいキーワードを広告主に提示したとしても、広告コンテンツと関連性の低いキーワードでは、ユーザの意図と広告コンテンツの内容に齟齬が生じるため、十分に広告コンテンツの効果が発揮されないおそれがある。一方、第2抽出部134は、現時点で他の広告主が入札しているキーワードの組合せを利用してキーワードを抽出する。すなわち、抽出されるキーワードは、他の広告主が入札しているキーワードと共起性を有する。これにより、処理対象となる広告主は、広告装置100によって抽出されるキーワードであって、自身と関連性の高い他の広告主が入札しているキーワードを、適切に入札キーワードに追加することができる。
また、第1抽出部133と同様に、第2抽出部134は、算出部136が第2抽出モデルに対して重み付けを算出しようとする場合には、取得部131から取得したテストデータに基づいて抽出されたキーワードと、抽出されたキーワードに関する評価値である重み値、又は、上述した広告主のスコアに関する情報を算出部136に送る。
(第3抽出部135について)
第3抽出部135は、第3抽出モデルによるキーワードの抽出処理を実行する。第3抽出モデルは、検索サーバ30にユーザ端末10から送信された検索クエリの傾向に基づいて、適切な入札キーワードを抽出する手法である。以下に、第3抽出モデルがキーワードを抽出する処理について説明する。
第3抽出部135は、取得部131が取得した検索クエリ及び再検索クエリに関する情報を処理に用いる。例えば、第3抽出部135は、検索クエリ及び再検索クエリがユーザ端末10から検索サーバ30に送信された回数や、検索クエリ及び再検索クエリに対応するLPや広告コンテンツや、検索クエリ及び再検索クエリを送信したユーザ端末10を識別する情報などを処理に用いる。
そして、第3抽出部135は、検索クエリと再検索クエリとの関連性を示す評価値を算定する。具体的には、第3抽出部135は、検索サービスにおいて、検索クエリを送信したユーザ端末10がどのような内容の再検索クエリを送信したか、といった検索の傾向を示す値である傾向値を算定する。
例えば、第3抽出部135は、検索クエリの送信後に再検索クエリが送信された回数に基づいて、検索クエリと再検索クエリとの関連性を示す評価値である傾向値を算定する。すなわち、第3抽出部135は、取得部131により取得される数がより多い再検索クエリほど、検索クエリを送信した後にさらに送信されやすい傾向にあるとして、かかる検索クエリに対する再検索クエリの傾向値が高くなるよう算定する。
なお、第3抽出部135は、検索クエリと、検索クエリに基づいて抽出されたコンテンツ(例えば、LPや広告コンテンツ)を取得したユーザ端末10からさらに送信される再検索クエリとの関連性を示す評価値である傾向値を算定する。言い換えれば、第3抽出部135は、あらゆるユーザ端末10から送信される検索クエリと再検索クエリとの傾向値を算定するのではなく、検索クエリによって検索されたコンテンツを取得したユーザ端末10から送信される再検索クエリとの傾向値を算定する。これにより、第3抽出部135は、検索サービスにより検索されたコンテンツに対応する検索クエリと再検索クエリとの傾向値を算定するので、かかるコンテンツにおける検索傾向を明確に算定することができる。
また、第3抽出部135は、検索クエリに基づいて抽出されたコンテンツ毎に、検索クエリと再検索クエリとの傾向値を算定する。例えば、ユーザ端末10が検索サービスに対して検索クエリを送信した場合、複数のコンテンツが検索結果として抽出されうる。この場合、ユーザ端末10は、複数のコンテンツの中から選択したコンテンツ(例えば、検索結果ページ50において、リンク先をクリックしたコンテンツ)を取得する。そして、第3抽出部135は、ユーザによって選択されたコンテンツ毎に、検索クエリと再検索クエリとの傾向値を算定する。これにより、第3抽出部135は、検索サービスによって複数のコンテンツが抽出された場合であっても、特定のコンテンツにおける検索傾向を明確に算定することができる。
このように、第3抽出部135は、検索サーバ30に検索クエリが送信された結果として抽出された所定のLP毎に再検索クエリが送信された数に基づいて、傾向値を算定する。一例として、第3抽出部135は、所定のLPを表示するために送信された検索クエリの総数を分母とし、各々の再検索クエリが送信された数を分子とした数値を傾向値として算定する。この場合、算定される傾向値は、「0」乃至「1」の数値で表現される。あるいは、第3抽出部135は、検索クエリに対して再検索クエリがどのくらい関連しているかを、例えば、検索クエリ及び再検索クエリが送信された数や頻度に基づいて、既知の手法によりコサイン(cosine)で表現される類似度によって算定してもよい。この場合であっても、算定される傾向値は、「0」乃至「1」の数値で表現される。あるいは、第3抽出部135は、再検索クエリが送信された数をそのまま傾向値として扱ってもよい。
そして、第3抽出部135は、算定した傾向値をコンテンツと対応付けて、第3テーブル125内に格納する。なお、第3抽出部135は、取得部131によって検索サーバ30から取得される検索クエリ及び再検索クエリに関する情報が随時変化する場合には、例えば、第3テーブル125内に格納した傾向値を所定のタイミングで更新するようにしてもよい。
そして、第3抽出部135は、算定された評価値に基づいて、再検索クエリの中から、検索クエリに基づいて抽出される所定のコンテンツに紐づかせるキーワードを抽出する。具体的には、第3抽出部135は、算定された傾向値がより高い数値に対応する再検索クエリを、広告配信サービスにおいて広告コンテンツ又はLPに紐づかせるキーワードである入札キーワードの一例として抽出する。言い換えれば、第3抽出部135は、広告主に提示する入札キーワードの候補を抽出する。
なお、第3抽出部135は、検索クエリに基づいて抽出されたコンテンツを取得したユーザ端末10からさらに送信される再検索クエリとの傾向値を算定した場合には、ユーザ端末10によって取得されたコンテンツに紐づかせるキーワードを抽出する。すなわち、第3抽出部135は、算定された傾向値と、傾向値の算定に用いられたコンテンツとを対応付けてキーワードを抽出する。
第3抽出部135の抽出処理について、図12を用いて、具体的に説明する。図12は、実施形態に係る第3抽出モデルによる抽出処理の一例を示す概念図である。なお、図12で例に挙げるLPや、検索クエリや、再検索クエリは、図7で示した第3テーブル125内に記憶されているLPや、検索クエリや、再検索クエリに対応する。図12では、検索クエリ「ダイエット」によって抽出されたLP31を取得したユーザ端末10が、再検索クエリを送信した例を示している。
まず、ユーザ端末10は、検索サービスにおいて検索クエリ「ダイエット」を送信する。これにより、検索結果ページ50に、LP31をリンク先とする広告コンテンツ、又はウェブページの検索結果として、LP31へのリンクが表示される。ユーザ端末10は、広告コンテンツ又はリンクをクリックすることで、LP31を取得し、ユーザ端末10の表示画面に表示する。
その後、ユーザ端末10は、再び検索サービスを利用する。この場合、ユーザ端末10は、検索サービスにおいて再検索クエリを送信する。図12では、検索クエリ「ダイエット」を検索したユーザ端末10が送信した再検索クエリを、「ダイエット」と表記された円の周囲に配置された円により示している。図12に示す円において、円内に表記される単語は再検索クエリを示す。円内に表記される数値は、傾向値を示す。すなわち、図12では、「ダイエット」を検索した後のユーザ端末10が、再検索クエリとしてどのような単語を送信する傾向にあるのかを示している。図12に示す例では、検索クエリ「ダイエット」の再検索クエリとしては、「運動」、「健康食品」及び「ヨーグルト」が傾向値「0.2」であり、他の再検索クエリよりも高い数値を示している。
この場合、第3抽出部135は、「運動」、「健康食品」及び「ヨーグルト」の全てを、LP31に紐づかせるキーワードとして抽出してもよいし、この中から、さらに詳細に算定された傾向値に基づいて、一つだけキーワードを抽出してもよい。
なお、再検索クエリ「ヨーグルト」を送信したユーザ端末10が、再検索クエリ「ヨーグルト」によって抽出されるLP32を取得する場合がある。そして、LP32を取得したユーザ端末10がさらに再検索クエリを送信する場合がある。この場合には、LP32に対して、「ヨーグルト」は、検索クエリとして扱われる。すなわち、第3抽出部135は、検索クエリ「ヨーグルト」によって抽出されるLP32を取得したユーザ端末10から送信される再検索クエリに対応する傾向値に基づいて、LP32に紐づかせるキーワードを抽出する。
図12に示す例では、検索クエリ「ヨーグルト」の再検索クエリとしては、「美腸」が傾向値「0.4」であり、他の再検索クエリよりも高い数値を示している。この場合、第3抽出部135は、再検索クエリ「美腸」をLP32に紐づかせるキーワードとして抽出する。
なお、第3抽出部135は、LP31に紐づかせるキーワードとしては、再検索クエリ「美腸」を抽出しなくてもよい。すなわち、第3抽出部135は、検索クエリを送信したユーザ端末10がその後に送信した再検索クエリであっても、抽出処理に用いなくてもよい。言い換えれば、第3抽出部135は、検索クエリを送信したユーザ端末10が直後に送信した検索クエリのみを再検索クエリとして扱ってもよい。これにより、第3抽出部135は、検索クエリの連鎖によって関連性が低いと想定される再検索クエリがキーワードとして抽出されるのを防止することができる。
このように、実施形態に係る第3抽出部135は、広告配信サービスにおいて、実際にユーザが入力するクエリに基づいてキーワードを抽出する。一般に、検索サービスを利用するユーザは、1回目の検索において欲する情報が入手できなかったり、さらに情報を収集することを望んだりしたために、1回目の検索と同じ意図を有しながら、異なるクエリにより2回目の検索を行う。このことから、検索クエリと再検索クエリとは、ユーザの同じ意図を反映した単語である確率が高いといえる。そこで、第3抽出部135は、上記の関係性に基づき、検索クエリ後の再検索クエリに対する検索傾向を求めることで、再検索クエリに含まれるキーワードであって、広告主が認知しにくいキーワードを抽出することを可能とする。言い換えれば、第3抽出部135は、広告主自身が入札キーワードとして想定するようなキーワードだけではなく、実際のユーザの行動履歴が反映されたキーワードを抽出することができる。
また、第1抽出部133と同様に、第3抽出部135は、算出部136が第3抽出モデルに対して重み付けを算出しようとする場合には、取得部131から取得したテストデータに基づいて抽出されたキーワードと、抽出されたキーワードに関する評価値である傾向値とに関する情報を算出部136に送る。
(算出部136について)
算出部136は、互いに異なる手法を用いてコンテンツに紐づかせるキーワードを抽出する抽出モデル毎に、抽出モデルによって所定の条件に適合するキーワードが抽出された度合いに基づいて、抽出モデルの指標値を算出する。例えば、算出部136は、所定の条件として、抽出モデルによって抽出されたキーワードが実際に広告コンテンツやLPに紐づいていること、又は、予め条件に適合すると取り決められているキーワード(例えば、人為的に、事前に所定のキーワードが正例であると取り決められていること)を用いて指標値を算出する。
以下に、算出部136が抽出モデル毎の重みを算出する手法について説明する。例えば、広告装置100が提供する広告配信サービスにおいて、現に10万件分(以下、広告主を計数する場合には、広告主の計数の単位を「アカウント」と表記する)の広告主から広告コンテンツの入稿を受け付けているとする。すなわち、取得部131は、10万アカウント分の広告主に関する情報を取得しているものとする。
まず、算出部136は、取得されている10万アカウントのうち、例えば、8万アカウントの情報を用いて、各抽出モデルを学習させる。すなわち、算出部136は、8万アカウント分の広告主に関する情報を第1抽出部133、第2抽出部134及び第3抽出部135に入力する。そして、第1抽出部133、第2抽出部134及び第3抽出部135は、入力された情報に基づき、各抽出モデルの抽出手法により、各アカウントに対してキーワードの抽出を試みる。そして、第1抽出部133、第2抽出部134及び第3抽出部135は、実際に広告主が指定している入札キーワードを正例とし、実際に広告主が指定している入札キーワードを抽出できた場合にはキーワードの評価値が高くなるように調整し、抽出されたキーワードが実際に広告主が指定している入札キーワードでなかった場合には、抽出されたキーワードの評価値が低くなるように調整を繰り返し、抽出モデルを学習させる。このように、各抽出モデルは、同一の学習データである、共通したテストデータに基づいて学習され、生成される。
そして、算出部136は、取得されている10万アカウントのうち、2万アカウントの情報を用いて、各抽出モデルに付与する重み付けの指標値を算出する。例えば、算出部136は、2万アカウントの広告主に関する情報において、広告主が入札しているキーワードの8割の情報を第1抽出部133、第2抽出部134及び第3抽出部135に入力する。そして、算出部136は、入力した各アカウントについて、隠された2割の入札キーワードを各抽出モデルが正確に抽出できる度合いを算出する。言い換えれば、第1抽出部133、第2抽出部134及び第3抽出部135は、広告主が実際に入札しているキーワードの8割にあたる情報に基づいて、さらに各アカウントに追加する入札キーワードを抽出する。そして、算出部136は、第1抽出部133、第2抽出部134及び第3抽出部135が抽出したキーワードが、各アカウントに実際に指定されている入札キーワードであるか否かの度合いを算出する。例えば、算出部136は、各アカウントに実際に指定されている入札キーワードに対して高い評価値を算出する抽出モデルほど、重みが重くなるような指標値を算出する。
なお、算出部136は、各抽出モデルがキーワードの抽出にあたって算定したキーワードの評価値を正規化した数値に基づいて、各抽出モデルの重み付けの指標値を算出する。算出部136の算出処理の流れについて、図13を用いて、具体的に説明する。図13は、実施形態に係る算出部136による算出処理の一例を示す概念図である。
まず、算出部136は、テストデータとして入札キーワードの2割を隠した2万アカウントのデータを第1抽出モデルに入力する(ステップS21)。第1抽出部133は、各アカウントのLPに関する情報等に基づき、上述した類似度を算出し、キーワードを抽出する。同様に、算出部136は、テストデータを第2抽出モデルに入力する(ステップS22)。第2抽出部134は、各アカウントの入札キーワードの組合せに関する情報等に基づき、上述した重み値を算定し、キーワードを抽出する。同様に、算出部136は、テストデータを第3抽出モデルに入力する(ステップS23)。第3抽出部135は、各アカウントのLPに対する検索クエリと再検索クエリとの情報等に基づき、上述した傾向値を算定し、キーワードを抽出する。
そして、算出部136は、各抽出モデルにより算定された評価値である類似度や、重み値や、傾向値を既知の手法により正規化する(ステップS24)。なお、算出部136は、各抽出モデルが類似度や、重み値や、傾向値そのものを評価値とせず、類似度や、重み値や、傾向値に基づいて定められるキーワードのスコアを算定している場合には、かかるスコアを正規化してもよい。これにより、算出部136は、各抽出モデルが算定する評価値を比較することができる。
そして、算出部136は、上述したようなテストデータに対して正例を抽出することができた度合いに基づいて、重み付けを示す指標値を算出することにより各抽出モデルに重み付けをする(ステップS25)。例えば、算出部136は、下記式(3)で示されるような重み付けを算出する。
キーワードのスコア = α・X + β・Y +γ・Z ・・・ (3)
上記式(3)のうち、「キーワードのスコア」は、抽出されるキーワードのスコアを示す。例えば、スコアは、各抽出モデルによって算定される評価値に対応する。また、上記式(3)のうち、「α」は第1抽出モデルの重みを示し、「X」は第1抽出モデルによるキーワードのスコアの演算手法を示している。同様に、「β」は第2抽出モデルの重みを示し、「Y」は第2抽出モデルによるキーワードのスコアの演算手法を示している。同様に、「γ」は第3抽出モデルの重みを示し、「Z」は第3抽出モデルによるキーワードのスコアの演算手法を示している。「α」、「β」及び「γ」は、上記の重み付けの算出処理に応じて動的に変化することができる。なお、「α」、「β」及び「γ」の和は「1」となる。例えば、キーワードのスコアを複数の抽出モデルによらず、単独の抽出モデルで算定することは、「α」、「β」、「γ」のいずれか一つが「1」であり、残りの重みは「0」であることと同様である。
なお、上記では、算出部136は、実際に広告主から指定されている入札キーワードを正例として重み付けの指標値を算出する例を示した。しかし、算出部136は、実際に広告主から指定されている入札キーワードを正例とするのではなく、所定の取り決めにより定められたキーワードを正例としてもよい。例えば、算出部136は、人為的な判断により各アカウントに対して適切と想定されるキーワードを正例とするような設定を予め受け付ける。そして、算出部136は、かかる取り決めにより正例と定められたキーワードを抽出することができた抽出モデルに対して、値が高くなるよう重み付けの指標値を算出してもよい。
算出部136は、このように、各抽出モデルに適切な重みを付与することにより、複数の抽出モデルを用いてキーワードを抽出するための演算式を生成する。後述する第4抽出部137は、上記式(3)で示されるような演算式で算定されるキーワードのスコアに基づいて、適切な入札キーワードを抽出することができる。
(第4抽出部137について)
第4抽出部137は、算出部136によって算出された指標値により重み付けされた抽出モデルが算定する評価値に基づいて、コンテンツに紐づかせるキーワード、又は、コンテンツを抽出させるためのキーワードを抽出する。具体的には、第4抽出部137は、新たに広告配信サービスを利用する広告主から広告コンテンツの入稿を受け付けた場合に、かかる広告コンテンツや広告主に関する情報に基づいて、複数の抽出モデルを利用した抽出処理手法により、新たな広告主にとって適した入札キーワードを抽出する。言い換えれば、第4抽出部137は、新たな広告主が入札する候補としてのキーワードを抽出する。
第4抽出部137は、例えば、処理対象であるアカウントに関する情報に基づいて、上記式(3)のような演算式により算定されたスコアにより、キーワードを抽出する。すなわち、第4抽出部137は、上記式(3)で示すように、複数の抽出モデルが算定するキーワード毎の評価値であって、算出部136によって算出された指標値に対応する重みが付加された評価値の和に基づいて、広告コンテンツに紐づかせるキーワード、又は、広告コンテンツやLPを抽出させるためのキーワードを抽出する。
(入稿受付部138について)
入稿受付部138は、広告コンテンツの入稿を受け付ける。また、入稿受付部138は、広告コンテンツの入稿とともに、広告主が指定する入札キーワードを受け付ける。そして、入稿受付部138は、受け付けた広告コンテンツや、入札キーワードを算出データ記憶部121に格納する。
(提示部139について)
提示部139は、第4抽出部137によって抽出されたキーワードを提示する。具体的には、提示部139は、広告配信サービスにおいて広告コンテンツに紐づかせる入札キーワードとして、第4抽出部137によって抽出されたキーワードを広告主に提示する。
なお、提示部139は、第4抽出部137によって抽出されたキーワードであっても、入札キーワードとして広告主に提示しない場合があってもよい。例えば、提示部139は、広告コンテンツに設定されうる除外キーワードについては提示しなくてもよい。広告コンテンツに設定されうる除外キーワードとは、例えば、広告コンテンツの提供主である広告主と競合する企業名や、競合する企業が扱う製品名などが該当する。
(要求受付部140について)
要求受付部140は、広告コンテンツの配信に関する要求を受け付ける。例えば、要求受付部140は、広告コンテンツの取得要求として、ユーザ端末10が表示するウェブページに含まれるHTTP(Hypertext Transfer Protocol)リクエストを受け付ける。
(配信部141について)
配信部141は、広告コンテンツを配信する。例えば、配信部141は、要求受付部140が受け付けたHTTPリクエストに従い、ユーザ端末10に広告コンテンツを配信する。また、配信部141は、要求受付部140によって広告コンテンツの取得要求が受け付けられた場合には、配信候補の広告コンテンツを広告情報記憶部126から選択する。
ここで、配信部141は、要求受付部140が受け付けた検索クエリと入札キーワードが同一又は類似である場合には、入札キーワードに紐づく広告コンテンツを配信候補として選択する。そして、配信部141は、検索クエリを検索サーバ30に送信したユーザ端末10に、選択した広告コンテンツを配信する。
〔3.処理手順〕
次に、図14を用いて、実施形態に係る広告装置100が実行する算出処理の手順について説明する。図14は、実施形態に係る広告装置100による算出処理手順を示すフローチャートである。
図14に示すように、広告装置100は、例えば、既に広告配信サービスを利用している広告主に関する情報等が含まれる、抽出モデルの学習のためのテストデータを取得する(ステップS101)。そして、広告装置100は、取得したテストデータに含まれるアカウントについて、各抽出モデルによって評価値を算定する(ステップS102)。
そして、広告装置100は、各抽出モデルによって算定された評価値を正規化する(ステップS103)。広告装置100は、正規化された評価値と、抽出したキーワードが正例であった度合いとに基づいて、各抽出モデルの重み付けを算出する(ステップS104)。
次に、図15を用いて、実施形態に係る広告装置100が実行する抽出処理の手順について説明する。図15は、実施形態に係る広告装置100による抽出処理手順を示すフローチャートである。
図15に示すように、広告装置100は、新たに広告配信サービスを利用する広告主から、広告コンテンツの入稿を受け付けたか否かを判定する(ステップS201)。広告装置100は、広告コンテンツの入稿を受け付けていない場合には(ステップS201;No)、受け付けるまで待機する。
一方、広告装置100は、広告コンテンツの入稿を受け付けた場合には(ステップS201;Yes)、受け付けた広告主に関する情報等に基づいて、複数の抽出モデルを利用して、キーワードを抽出する(ステップS202)。そして、広告装置100は、広告コンテンツを入稿した広告主に対して、抽出したキーワードを入札キーワードとして提示する(ステップS203)。
なお、図15では、広告装置100が、ステップS203において、キーワードを広告主に提示した後に、さらに異なるキーワードを抽出してもよい。すなわち、広告装置100は、抽出されたキーワードに対する広告主の対応によっては、ステップS202とステップS203を繰り返し実行してもよい。例えば、広告主が提示されたキーワード以外のキーワードを所望する場合には、広告装置100は、入札キーワードとして先に抽出したキーワード以外のキーワードをさらに抽出する。そして、広告装置100は、新たに抽出されたキーワードを広告主に提示する。
〔4.変形例〕
上述した実施形態は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、他の実施形態について説明する。
〔4−1.動的な重み付け〕
上記実施形態において、広告装置100は、正規化された評価値と、テストデータにおける正例となるキーワードを抽出できた度合いに基づいて、各抽出モデルの重み付けを付与する例を示した。ここで、広告装置100は、各抽出モデルの重みについて、抽出処理と連動させて動的に重みを変化させていってもよい。この点について、図16を用いて説明する。
図16は、変形例に係る広告装置100による算出処理の一例を示す図である。図16では、上記式(3)における「α」及び「β」を、2次元上のグラフにより示す。ここで、上述のように、「α」、「β」及び「γ」の和は「1」であるため、図16に示すように、座標(α,β)=(1,0)、(0,0)、(0,1)の3点で囲まれる三角形の内側に、一点(α,β)が定められた場合、(α,β,γ)がとりうる値は、一意に定められる。例えば、図16に示す点P1(α,β)=(0.4,0.3)を定めた場合、「γ」=0.3に定まる。なお、上記の重み(α,β,γ)は、算出部136による算出処理により定められたものとする。
ここで、広告装置100は、上記で定められた重み付けを用いて、新たに広告配信サービスを利用する広告主に対してキーワードの抽出処理を行うものとする。そして、広告装置100は、抽出したキーワードを広告主に提示する。広告主は、提示されたキーワードを入札キーワードとして指定したものとする。その後、広告装置100は、抽出したキーワードについて、入札キーワードとしての効果を示す指標値を取得する。例えば、広告装置100は、広告コンテンツを検索するための検索クエリとして広告コンテンツに紐づくキーワードがユーザから入力された回数や、広告コンテンツがユーザから選択された回数、又は、広告コンテンツが表示されることで広告主が得た利益に関する情報などを取得する。
すなわち、広告装置100は、実際に抽出されたキーワードが入札キーワードとして指定されることにより、広告コンテンツについての何らかの広告効果の向上を示す指標値を取得する。そして、広告装置100は、例えば、最も広告効果を向上させる契機となったキーワードを抽出した抽出モデルについて、重みを重くするように調整する。例えば、広告装置100は、第1抽出モデルによって抽出されたキーワードによって広告コンテンツの広告効果が向上したことを示す所定の指標値を取得した場合、第1抽出モデルの重みを示す「α」の数値を高くする。例えば、広告装置100が重みを「0.1」刻みで設定する場合には、「α」は「0.4」から「0.5」へ調整される。この場合、図16に示すように、点P1は、点P5へと移動することになる。すなわち、重み(α,β,γ)は、(0.5,0.3,0.2)へと調整される。
そして、広告装置100は、新たに算出された重み(α,β,γ)=(0.5,0.3,0.2)を用いて、新たに広告配信サービスを利用する広告主に対してキーワードの抽出処理を行う。かかる処理を繰り返すことにより、広告装置100は、広告効果が高くなると想定される重みを、動的に各抽出モデルに対して算出することができる。例えば、広告装置100は、抽出されたキーワードが入札キーワードとして指定された結果によって重みを調整するので、図16の例でいえば、重みを示す点P1が、点P2や、点P3や、点P4に動かされるように重みを調整する。
このように、広告装置100は、各抽出モデルに付与される重みを、広告効果などの結果に基づいて、動的に調整することができる。これにより、広告装置100は、実態に即した、適切な重みが付与された各抽出モデルを用いて抽出処理を実行することができる。
〔4−2.抽出に用いる情報〕
上記実施形態において、第1抽出部133、第2抽出部134及び第3抽出部135は、既に広告コンテンツを入稿している広告主に係る入札キーワードや、検索クエリに関する情報に基づいて、キーワードを抽出する例を示した。ここで、第1抽出部133、第2抽出部134及び第3抽出部135は、既存の入札キーワード等に限らず、他の情報を用いて、キーワードを抽出してもよい。
例えば、第1抽出部133は、上記の通り、既存のLPに対応する単語ベクトルを生成したが、第1抽出部133は、広告コンテンツに対応する単語ベクトルを生成してもよい。
すなわち、第1抽出部133は、既存のLPではなく、広告コンテンツに含まれるテキストデータについて形態素解析をする。そして、第1抽出部133は、広告コンテンツに対応する単語ベクトルを生成する。また、第1抽出部133は、広告コンテンツに対応する単語ベクトルに基づいて、広告コンテンツに紐づく入札キーワード(すなわち、LPに紐づくキーワード)に対応する単語ベクトルを生成することにより、キーワードを抽出してもよい。
また、第2抽出部134は、上記の通り、既存の入札キーワードに基づいてキーワードの組合せを生成したが、第2抽出部134は、広告コンテンツや、LPに関する情報に基づいて、キーワードの組合せを生成してもよい。例えば、第2抽出部134は、広告コンテンツやLPに含まれるテキストデータについて形態素解析をすることにより、広告コンテンツやLPに含まれるテキストデータから、組合せを生成する要素となりえるキーワードを抽出する。そして、第2抽出部134は、抽出したキーワードの組合せを生成する。そして、第2抽出部134は、生成した組合せに基づいて、所定のコンテンツに紐づかせるキーワードを抽出する。
なお、広告コンテンツやLPに含まれるキーワードは、広告コンテンツやLPを特徴付けるキーワードであることが望ましい。この場合、第2抽出部134は、例えば、広告コンテンツやLPのテキストデータ内に多く含まれる単語や、他の広告コンテンツやLPには出現しにくい単語などを広告コンテンツやLPを特徴付けるキーワードとして判定し、かかるキーワードを抽出する。
このように、第1抽出部133や、第2抽出部134によれば、既存の入札キーワードに限られず、広告コンテンツやLPを用いることにより、広告主が入札する適切なキーワードを抽出することができる。
また、第1抽出部133や、第2抽出部134は、広告コンテンツの広告効果を示す指標を用いて、上記の抽出処理を行ってもよい。例えば、第2抽出部134は、組合せの重み値の算定処理において、CTR(Click Through Rate)の高い広告コンテンツを提供する広告主について重みを重くして、組合せの重み値を算定してもよい。例えば、第2抽出部134は、上記式(1)において、「y」の値を広告主毎に調整してもよい。この場合、第2抽出部134は、CTRの高い広告コンテンツを提供する広告主に関して、「y」の値を高くすることにより、結果として、かかる広告主が有する各組合せの重み値を高くすることができる。これにより、第2抽出部134は、CTRの高い広告コンテンツを提供する広告主が指定するキーワードを抽出しやすくなる。あるいは、第2抽出部134は、CTRの高い広告コンテンツを提供する広告主が有する組合せに対して算定した重み値に所定の値を加算してもよい。
なお、第1抽出部133や、第2抽出部134は、CTR以外の広告効果を示す指標に基づいてキーワードの評価値を算定してもよい。例えば、第1抽出部133や、第2抽出部134は、広告コンテンツが表示された回数に対して何割がコンバージョンに至るかの割合を示すCVR(Conversion Rate)や、ユーザ端末10における広告コンテンツの実際の表示回数(インプレッション数)や、広告コンテンツに対するクリックで発生する課金額であるCPC(Cost Per Click)や、広告コンテンツの1000回表示あたりの課金額であるeCPM(effective Cost Per Mill)などの広告コンテンツに関する情報を用いて評価値を算定してもよい。
また、第3抽出部135は、LPを取得したユーザ端末10に限らず、広告コンテンツを取得したユーザ端末10から再検索クエリが送信された回数に基づいて、傾向値を算定してもよい。また、第3抽出部135は、ユーザが広告コンテンツを選択した場合には、かかるユーザは他のユーザよりも広告主に興味関心があるものとして、かかるユーザに対応するユーザ端末10から送信される再検索クエリに所定の重み値を付与してもよい。なお、上記実施形態において、検索クエリがLP単語や入札キーワードである例を示したが、検索クエリは、広告コンテンツに含まれる単語であってもよい。
上記のように、第1抽出部133、第2抽出部134及び第3抽出部135は、上記実施形態において示した例に限られず、種々の情報を用いてキーワードを抽出することができる。
〔4−3.広告主〕
上記実施形態において、広告主は、広告主端末20を用いて、広告装置100に広告コンテンツを入稿する例を示した。しかし、広告主は、自ら広告装置100に広告コンテンツを入稿せずに、かかる処理を代理店に依頼する場合もある。この場合、広告装置100にかかる処理をするのは代理店となる。すなわち、「広告主」といった表記は、広告主だけでなく代理店を含む概念であり、「広告主端末」といった表記は、広告主端末20だけでなく代理店によって利用される代理店端末を含む概念であるものとする。
〔4−4.広告配信〕
また、配信部141は、広告コンテンツの配信において、同じ入札キーワードに紐づく広告コンテンツが複数ある場合には、入札キーワードの入札価格が高い広告主や、CTRの高い広告コンテンツや、入札価格及びCTRの双方が高い広告コンテンツを優先して選択するようにしてもよい。そして、配信部141は、選択した広告コンテンツをユーザ端末10に配信する。
〔4−5.再検索クエリの例〕
上記実施形態において、第3抽出部135が利用する再検索クエリの一例として、検索サーバ30は、検索クエリを送信したユーザ端末10であって、LPを取得したユーザ端末10から再び送信される検索クエリを再検索クエリとして扱う例を示した。しかし、検索サーバ30は、他の状況において送信される検索クエリを再検索クエリとして扱ってもよい。
例えば、検索サーバ30は、ユーザ端末10から検索クエリが送信された後、所定時間内(例えば、10分以内など)に送信される検索クエリを再検索クエリとして扱ってもよい。また、検索サーバ30は、検索結果ページ50を取得したユーザ端末10において、検索結果ページ50を表示させた直後に、検索クエリ入力部52に新たに入力されることにより、検索サーバ30に送信される検索クエリを再検索クエリとして扱ってもよい。この場合、検索サーバ30は、ユーザが検索クエリによって抽出されたLPを閲覧していたか否かを判定しなくともよい。なお、検索サーバ30は、LPを取得したユーザ端末10から再び送信される検索クエリであっても、ユーザ端末10から検索クエリが送信された後、所定時間外(例えば、先の検索クエリの送信から24時間経過後)に送信される検索クエリについては、再検索クエリとして扱わないようにしてもよい。
また、検索サーバ30は、検索クエリを送信したユーザ端末10が、検索結果ページ50において広告コンテンツをクリックせず、他のウェブページのリンクをクリックした場合であっても、その後、再び検索結果ページ50を表示させたユーザ端末10から送信される検索クエリを再検索クエリとして扱ってもよい。上記のように、検索サーバ30は、ユーザが同じ検索意図をもって検索していると想定される前後の検索クエリを、検索クエリと再検索クエリとして扱うことができる。
また、広告装置100がユーザ端末10からクエリ情報を受信する場合もありうる。例えば、広告装置100は、ユーザ端末10が検索結果ページ50を表示する際に送信される広告取得要求に含まれるリクエストに基づいて、検索クエリに関する情報を取得する。この場合、広告装置100に係る第3抽出部135は、ユーザ端末10から検索クエリが送信された後に、ユーザ端末10から所定時間内に送信される新たな検索クエリを再検索クエリとして、新たな検索クエリと、再検索クエリとの傾向値を算定してもよい。なお、ユーザ端末10の同一性は、例えば、ユーザ端末10から送信されるクッキー(Cookie)等に含まれる端末の識別情報に基づいて識別される。
〔4−6.他の用途〕
上記実施形態において、広告装置100は、検索連動型の広告配信サービスにおける入札キーワードを抽出する例を示した。しかし、広告装置100は、上記のような検索連動型以外の広告配信サービスに利用されてもよい。例えば、広告装置100は、キーワードに対する入札を受け付け、かかるキーワードと親和性の高い内容のウェブページに広告コンテンツを配信するような、いわゆる広告コンテンツマッチ型の広告サービスに利用されてもよい。
また、上記実施形態において、コンテンツの一例として、広告コンテンツやLPを挙げ、キーワードの一例として、入札キーワードを例に挙げて説明した。しかし、広告装置100は、広告コンテンツやLPに紐づく入札キーワードを抽出するのみならず、他の用途として利用されてもよい。
例えば、本願に係る抽出装置が検索サーバ30に対応する場合、検索サーバ30は、検索結果ページ50に検索クエリのアシストとなるキーワードを表示してもよい。例えば、検索サーバ30は、検索対象である所定のLPに対応するキーワードを抽出する。そして、検索サーバ30は、ユーザが検索サービスを利用する際に、ユーザから入力された検索クエリと抽出されたキーワードが関連する場合(例えば、意味的に類似する場合など)には、検索クエリとともに抽出されたキーワードをユーザに提示してもよい。例えば、検索サーバ30は、抽出したキーワードを、先にユーザが入力した検索クエリの代わりに、所定のウェブページを検索するためのクエリとして抽出する。そして、検索サーバ30は、検索結果ページ50に、検索結果とともに抽出されたキーワードを提示してもよい。ユーザは、提示されたキーワードに基づいて検索を実行することにより、効率よく目的のウェブページを検索できる場合がある。この場合、検索サーバ30は、検索サービスを実行する制御部に加え、上記実施形態に係る取得部131、抽出制御部132、及び提示部139に対応する各処理部を有する。このように、抽出装置に係る第4抽出部137は、算出部136によって算出された指標値により重み付けされた抽出モデルを用いて、コンテンツに紐づかせるキーワードのみならず、コンテンツを抽出させるためのキーワードを抽出することができる。
〔4−7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図3に示した算出データ記憶部121や広告情報記憶部126は、広告装置100が保持せずに、図示しないストレージサーバ等が保持してもよい。この場合、広告装置100は、ストレージサーバから広告に関する情報等を取得する。
また、例えば、上記実施形態では、広告装置100が検索クエリなどに関する情報を取得し、取得した情報に基づいてキーワードを抽出する例を示したが、広告装置100が実行する処理は、広告装置100の機能を実現する個別の装置により実行されてもよい。例えば、上述した広告装置100は、取得部131と入稿受付部138とを有する情報取得装置と、抽出制御部132を有する抽出装置と、提示部139を有する提示装置と、要求受付部140と配信部141とを有する配信装置とに分散されてもよい。
〔5.ハードウェア構成〕
また、上述してきた実施形態に係る広告装置100は、例えば図17に示すような構成のコンピュータ1000によって実現される。以下、広告装置100を例に挙げて説明する。図17は、広告装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(ネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、また、通信網500を介してCPU1100が生成したデータを他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る広告装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔6.効果〕
上述してきたように、実施形態に係る広告装置100は、算出部136と、第4抽出部137とを有する。算出部136は、広告コンテンツ(コンテンツの一例)に紐づかせるキーワードとしての評価値を算定し、算定した評価値に基づいてキーワードを抽出する抽出モデルであって、互いに異なる手法を用いて評価値を算定する抽出モデル毎に、抽出モデルによって所定の条件に適合するキーワードが抽出された度合いに基づいて、抽出モデル毎の指標値を算出する。第4抽出部137は、算出部136によって算出された指標値により重み付けされた抽出モデルが算定する評価値に基づいて、広告コンテンツに紐づかせるキーワード、又は、広告コンテンツを抽出させるためのキーワードを抽出する。
このように、実施形態に係る広告装置100は、検索連動型の広告配信サービスにおける入札キーワードに関して、複数の異なる抽出モデルを用いて、広告主にとって適切なキーワードを抽出する。このため、広告装置100によれば、広告主は、種々の情報を利用する複数の抽出モデルにより抽出されたキーワードを入札キーワードとして指定することが可能となる。結果として、広告主は、提供する広告コンテンツに興味を持つと想定されるユーザに広告コンテンツをより多く配信させることができる。すなわち、実施形態に係る広告装置100は、広告コンテンツの訴求効果を高めるキーワードを抽出することができる。
また、第4抽出部137は、複数の抽出モデルが算定するキーワード毎の評価値であって、算出部136によって算出された指標値に対応する重みが付加された評価値の和に基づいて、広告コンテンツに紐づかせるキーワード、又は、広告コンテンツを抽出させるためのキーワードを抽出する。
このように、実施形態に係る広告装置100は、複数の異なる手法により算出されたキーワードの評価値に基づいて、広告配信サービスにおける入札キーワードを抽出することができる。このため、広告装置100によれば、各抽出モデルによって異なる傾向により抽出されるキーワードの中から、適切な入札キーワードを自動的に選択し抽出することができる。
また、算出部136は、所定の条件に適合するキーワードとして、実際に広告コンテンツに紐づいているキーワード、又は、予め条件に適合すると取り決められているキーワードを用いて抽出モデル毎に指標値を算出する。
このように、実施形態に係る広告装置100は、実際に他の広告主が入札キーワードとして設定しているキーワードや、入札キーワードとして適切であると特定されたキーワードなどを正例として重み付けを算出する。これにより、広告装置100は、多くの広告主が入札しているような、効果が高いと想定されるキーワードを抽出しやすくすることができる。このため、広告装置100は、広告主に適切な入札キーワードを抽出することができる。
また、算出部136は、同一の学習データにより生成される抽出モデル毎に指標値を算出する。
このように、実施形態に係る広告装置100は、各抽出モデルを共通したテストデータで学習させるので、特定の情報に偏ることなく学習され、生成された抽出モデルによって抽出処理を実行することができる。
また、算出部136は、抽出モデルとして、キーワードに紐づけられたLPの特徴情報(例えば、単語ベクトル)と、キーワードに対応する特徴情報との類似度に基づいてキーワードを抽出する第1の抽出モデル、LPもしくは広告コンテンツにキーワードを指定した広告主毎に生成されるキーワードの各組合せの所定の指標値に基づいてキーワードを抽出する第2の抽出モデル、又は、ユーザ端末10から送信された検索クエリと、検索クエリを送信した後にユーザ端末10からさらに送信される検索クエリである再検索クエリとの関連性を示す所定の指標値に基づいてキーワードを抽出する第3の抽出モデル、のうち少なくとも一つの抽出モデルの指標値を算出する。
このように、実施形態に係る広告装置100は、異なる手法を用いてキーワードを抽出する抽出モデルについての重み付けを算出する。これにより、広告装置100は、様々な情報に基づき、また、特定の情報に偏ることなく、入札キーワードを抽出することができる。
また、算出部136は、第4抽出部137によって抽出されたキーワードが広告コンテンツ又はLPを抽出させるための検索クエリとしてユーザから入力された回数、広告コンテンツがユーザから選択された回数、又は広告コンテンツが表示されることで広告主が得た利益に関する情報の少なくとも一つに基づいて、抽出モデル毎の指標値を算出する。
このように、実施形態に係る広告装置100は、現状の広告効果を踏まえたうえで抽出モデル毎の重み付けを算出することができる。このため、広告装置100は、現状に則した、適切なキーワードを抽出することができる。
また、算出部136は、広告配信において広告主が入札するキーワードとしての評価値を算出する抽出モデル毎の指標値を算出する。
これにより、実施形態に係る広告装置100は、広告配信サービスにおける適切な入札キーワードを抽出することができる。
また、算出部136は、コンテンツとして、広告主が入稿する広告コンテンツ、又は広告コンテンツのリンク先となるウェブページを用いて、抽出モデル毎の重み付けを示す指標値を算出する。
これにより、実施形態に係る広告装置100は、例えば検索連動型など、キーワードマッチ型の広告配信サービスにおいて、適切な入札キーワードを抽出することができる。
また、実施形態に係る広告装置100は、所定のコンテンツに紐づかせるキーワードとして、第4抽出部137によって抽出されたキーワードをコンテンツの提供主(例えば、広告主など)に提示する提示部139をさらに備える。
このように、実施形態に係る広告装置100は、キーワードに入札する広告主に、適切なキーワードを提示する。このため、広告装置100によれば、広告主は、新たに追加する入札キーワードとして適切なキーワードを知ることができる。また、広告配信サービスの管理者側は、広告主から入札されるキーワードが増えることにより、入札の促進につながり、サービスの活性化を図ることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、算出部は、算出手段や算出回路に読み替えることができる。