JP6100741B2 - 抽出装置、抽出方法および抽出プログラム - Google Patents

抽出装置、抽出方法および抽出プログラム Download PDF

Info

Publication number
JP6100741B2
JP6100741B2 JP2014173955A JP2014173955A JP6100741B2 JP 6100741 B2 JP6100741 B2 JP 6100741B2 JP 2014173955 A JP2014173955 A JP 2014173955A JP 2014173955 A JP2014173955 A JP 2014173955A JP 6100741 B2 JP6100741 B2 JP 6100741B2
Authority
JP
Japan
Prior art keywords
content
keyword
word
word vector
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014173955A
Other languages
English (en)
Other versions
JP2016048526A (ja
Inventor
堀田 徹
徹 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2014173955A priority Critical patent/JP6100741B2/ja
Publication of JP2016048526A publication Critical patent/JP2016048526A/ja
Application granted granted Critical
Publication of JP6100741B2 publication Critical patent/JP6100741B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、抽出装置、抽出方法および抽出プログラムに関する。
インターネット上には膨大な情報が開示されており、ユーザは、知りたい情報を探す際には検索サイトを利用する場合が多い。かかる検索サイトでは、検索マッチング広告や検索連動広告と呼ばれる広告配信が行われることがある。
この種の広告配信において、広告主が広告の入稿時に一又は二以上の広告関連キーワードを指定する技術が知られている。この技術では、広告関連キーワードがユーザから検索キーワードとして入力された場合に、検索キーワードに応じた検索結果に隣接させて、広告関連キーワードに関連する広告を表示する。
特開2010−211777号公報
しかしながら、上記の従来技術では、コンテンツの訴求効果を高めることができるとは限らない。具体的には、上記の従来技術では、入稿されたコンテンツである広告に対して広告主が適切に広告関連キーワードを指定する手法については開示されていない。そして、検索連動型の広告配信においては、広告関連キーワードが適切に指定されなければ、適切な広告を配信することができない。これにより、配信される広告の訴求効果が十分に発揮されないおそれがある。
なお、上記では、コンテンツとして広告を例に挙げて、訴求効果を高めることができるとは限らない点について説明した。しかし、広告目的以外のコンテンツにおいても同様に、訴求効果を高めることができるとは限らない。すなわち、上記のような検索連動型の広告配信の例に限られず、キーワードに関連するコンテンツを配信する技術分野においては、キーワードが適切に指定されなければ、適切なコンテンツを配信することができず、コンテンツの訴求効果を高めることができるとは限らない。
本願に係る抽出装置は、キーワードに紐づけられた第1コンテンツの特徴情報と、任意の単語を含む第2コンテンツの特徴情報との類似度を算出する算出部と、前記算出部によって算出された類似度が所定の閾値以上の前記特徴情報に対応するキーワードを抽出する抽出部と、を備えたことを特徴とする。
実施形態の一態様によれば、コンテンツの訴求効果を高めることができるという効果を奏する。
図1は、実施形態に係る広告コンテンツが表示されるウェブページの一例を示す図である。 図2は、実施形態に係る抽出処理の一例を示す図である。 図3は、実施形態に係る広告装置の構成例を示す図である。 図4は、実施形態に係るLP情報記憶部の一例を示す図である。 図5は、実施形態に係るキーワード情報記憶部の一例を示す図である。 図6は、実施形態に係る生成処理の一例を示す概念図である。 図7は、実施形態に係る広告装置による抽出処理手順を示すフローチャートである。 図8は、変形例に係るLP情報記憶部の一例を示す図である。 図9は、広告装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る抽出装置、抽出方法及び抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法及び抽出プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.抽出処理〕
以下では、図1及び図2を用いて、実施形態に係る抽出処理の一例について説明する。図1及び図2では、本願に係る抽出装置に対応する広告装置100によって配信処理及び抽出処理が行われる例を示す。まず、図1を用いて、実施形態に係る広告配信の一例を説明する。図1は、実施形態に係る広告コンテンツが表示されるウェブページの一例を示す図である。
図1には、実施形態に係る広告コンテンツが表示されるウェブページとして、ユーザ端末10に表示される検索結果ページ50を示す。検索結果ページ50は、ユーザから入力される検索クエリに基づいて検索されたウェブページに関する情報が表示されるウェブページである。
図1に示すように、検索結果ページ50には、検索クエリ入力部52が含まれる。検索結果ページ50を利用するユーザは、ユーザ端末10を介して、検索クエリ入力部52に検索クエリを入力する。図1では、ユーザが検索クエリ入力部52に入力した「英会話教室」という検索クエリに基づいて、検索結果ページ50に検索結果が表示される例を示す。すなわち、検索結果ページ50には、検索結果として、「英会話教室」に関連のあるウェブページのリンク等の情報が表示される。
また、検索結果ページ50には、検索結果であるウェブページの情報とは別に、広告コンテンツが表示される。例えば、広告コンテンツは、検索結果ページ50に含まれる広告枠54又は広告枠56に表示される。広告コンテンツには、広告主の業務を宣伝するテキストなどが含まれる。そして、広告コンテンツには、広告主の提供するウェブページへのリンクが張られる。このような広告コンテンツのリンク先であるウェブページは、ランディングページ(Landing Page、以下「LP」と表記する場合がある)などと呼ばれる。すなわち、広告主は、広告コンテンツを表示させることで、ユーザにLPへの移動を促し、自身が提供するウェブページを閲覧させたり、ウェブページ上で商品の購入をさせたりするといった営業に活用する。
このような検索サービスと連動する広告配信サービスにおいて、広告主は、広告コンテンツを入稿する際に、所定のキーワードに対して入札を行う。そして、広告主は、ユーザが所定のキーワードを検索クエリとして入力した場合に、LPへのリンクが張られた広告コンテンツをユーザに配信させる権利を取得する。すなわち、広告主は、検索サービスにおいて、ユーザが広告コンテンツと紐づけられたキーワードと同一又は類似のキーワードを検索クエリとして入力した場合に、検索サービスと連動して、検索結果ページ50に広告コンテンツを表示させることができる。これにより、広告主は、特定の情報への欲求がユーザに発生しているタイミングで広告コンテンツを配信させることができるので、より高い広告効果が見込める広告コンテンツの配信を行うことができる。
ここで、検索サービスと連動する広告コンテンツの配信処理の流れについて説明する。検索サービスと連動する広告コンテンツの配信処理は、広告装置100と、検索サーバ30と、ユーザ端末10とにより、図示しないネットワークN(例えば、インターネット)を介して行われる。
ユーザ端末10は、ユーザによって利用される情報処理装置である。ユーザ端末10は、例えば、スマートフォンやタブレット端末やPDA(Personal Digital Assistant)等の移動端末や、デスクトップ型PC(Personal Computer)や、ノート型PC等である。
検索サーバ30は、検索サービスを提供するサーバ装置である。例えば、検索サーバ30は、所定の検索サイトにおいて、ユーザから検索クエリの入力を受け付ける。そして、検索サーバ30は、検索クエリに基づいた検索結果をユーザに提供する。
広告装置100は、検索サーバ30と連動して広告配信を行うサーバ装置である。広告装置100は、広告主から広告コンテンツの入稿とともに、キーワードに対する入札を受け付ける。そして、広告装置100は、以下に説明する手順により、検索サービスにおいて入札キーワードを入力したユーザに広告コンテンツを配信する。
まず、ユーザは、ユーザ端末10を介して、検索サーバ30が提供する検索サイトにアクセスする。そして、ユーザは、検索サイトにおいて検索クエリを入力する。これにより、ユーザ端末10は、検索サーバ30に検索クエリを送信する(ステップS01)。検索サーバ30は、検索クエリに対応する検索結果を表示するウェブページである検索結果ページ50をユーザに提供する(ステップS02)。
また、検索クエリを受信した検索サーバ30は、検索クエリに関する情報を広告装置100に送信する(ステップS03)。これにより、広告装置100は、ユーザから入力された検索クエリに関する情報を取得する。そして、広告装置100は、検索クエリが入札キーワードである場合には、入札キーワードに紐づく広告コンテンツを配信候補として選択する(ステップS04)。
上述のように、検索結果ページ50には、広告枠54及び広告枠56が含まれる。そこで、ユーザ端末10は、検索結果ページ50を表示する際に、広告装置100に広告配信の要求を行う(ステップS05)。広告配信の要求を受け付けた広告装置100は、入札キーワードに紐づく広告コンテンツをユーザ端末10に配信する(ステップS06)。これにより、例えば、「英会話教室」というキーワードに入札していた広告主が提供する広告コンテンツが、広告枠54に表示される。また、同じキーワードに入札していた他の広告主が提供する広告コンテンツが、広告枠56に表示される。このように、広告装置100は、検索サービスと連動して、広告コンテンツをユーザに配信することができる。なお、ステップS03において、検索サーバ30がクエリ情報を広告装置100に送信する例を示したが、クエリ情報は、ユーザ端末10から広告装置100に送信されてもよい。
ところで、図1の例のように、広告主は、検索結果ページ50に広告コンテンツを表示させるために、所定のキーワードに入札を行うことになる。図1の例の場合、広告主は、LPをリンク先とする広告コンテンツを配信させるためには、「英会話教室」というキーワードに入札することになる。しかしながら、広告主にとって、適切なキーワードに入札することは容易でない。例えば、入札したキーワードと、広告主が提供する広告コンテンツとの対応関係が適切であり、検索結果に興味を持つユーザに対して適切な広告コンテンツが配信されているか否かを広告主が判断することは困難である。
そこで、実施形態に係る広告装置100は、図1で示したような検索連動型の広告配信サービスにおいて、広告主にとって適切な入札キーワードを抽出する。以下、図2を用いて、実施形態に係る抽出処理を説明する。図2は、実施形態に係る抽出処理の一例を示す図である。図2では、抽出システム1を例に挙げて、抽出処理の一例を説明する。
図2に示すように、抽出システム1には、広告主端末20と、広告装置100とが含まれる。広告装置100は、図示しないネットワークN(例えば、インターネット)を介して、広告主端末20と通信可能に接続される。
広告主端末20は、広告主によって利用される情報処理装置である。広告主端末20は、例えば、スマートフォンやタブレット端末やPDA等の移動端末や、デスクトップ型PCや、ノート型PC等である。
広告装置100は、以下に説明する抽出処理によって、広告主が入札する入札キーワードとして適切なキーワードを抽出するサーバ装置である。
広告装置100は、予め、既存のLPと、既存のLPに紐づく入札キーワードとに関する情報を保持する。既存のLPとは、所定の広告主によって過去に広告装置100に入稿された広告コンテンツであって、既にユーザ端末10へ配信される可能性がある広告コンテンツのリンク先を示す。例えば、広告装置100は、LPのURL(Uniform Resource Locator)に基づき、HTML(HyperText Markup Language)ファイルなどのLPに関するデータを所定のウェブサーバから収集し、収集したデータを既存のLPとして保持する。また、既存のLPに紐づく入札キーワードとは、ユーザから検索クエリとして入力された場合に、既存のLPをリンク先とする広告コンテンツが表示される契機となるキーワードであり、所定の広告主から既に入札を受け付けているキーワードである。
ここで、広告装置100は、既存のLP及び入札キーワードの特徴情報を生成する。例えば、広告装置100は、特徴情報として、既存のLP及び入札キーワードの単語ベクトルを生成する(ステップS11)。まず、広告装置100は、既存のLPに対応する単語ベクトルを生成する。LPに対応する単語ベクトルとは、例えば、LPに含まれる単語の種類と出現回数とに対して所定の重みを付した上で、LPをベクトルモデルで表現したものである。このように、広告装置100は、LPに出現する単語の傾向などを単語ベクトルで表すことにより、LPの特徴情報を生成する。
続いて、広告装置100は、入札キーワードに対応する単語ベクトルを生成する。広告装置100は、入札キーワードに紐づく既存のLPの単語ベクトルを用いることにより、入札キーワードの単語ベクトルを生成する。例えば、広告装置100は、入札キーワードに紐づく既存のLPの単語ベクトルを入札キーワードの単語ベクトルとする。また、入札キーワードに紐づく既存のLPが複数ある場合(すなわち、複数の広告主が同じキーワードに対して入札している場合)には、広告装置100は、入札キーワードに紐づけられている複数のLPの各単語ベクトルの重心ベクトルを生成する。そして、広告装置100は、生成した重心ベクトルを入札キーワードの単語ベクトルとする。広告装置100は、生成した単語ベクトルを所定の記憶部に保持する。
そして、広告装置100は、検索連動型の広告配信サービスを利用しようとする新規の広告主CL10から、広告主端末20を介して、広告コンテンツの入稿を受け付ける(ステップS12)。また、広告装置100は、広告コンテンツの入稿の際に、広告コンテンツのリンク先のウェブページである新規LPに関する情報(例えば、新規LPのURL)を受け付ける。ここで、新規LPとは、未だ広告主からキーワードの入札を受け付けていないため、入札キーワードと紐づけられていない広告コンテンツのリンク先のウェブページをいう。
続いて、広告装置100は、既存のLPと同様に、広告主端末20から送信された新規LPに関する情報を収集し、収集した情報を取得する。そして、広告装置100は、取得した新規LPの有する特徴情報を生成する。例えば、広告装置100は、新規LPに対応する単語ベクトルを生成する。
そして、広告装置100は、入札キーワードの単語ベクトルと、新規LPの単語ベクトルとの類似度を算出する(ステップS13)。言い換えれば、広告装置100は、入札キーワードに紐づく既存のLPの単語ベクトルと、新規LPの単語ベクトルとの類似度を算出する。例えば、広告装置100は、類似度の一例として、単語ベクトル同士のコサイン類似度を算出することにより、単語ベクトルの類似度を算出する。そして、広告装置100は、算出された類似度が所定の閾値以上となる単語ベクトルに係るキーワードを抽出する(ステップS14)。
そして、広告装置100は、新規LPに紐づける入札キーワードとして、抽出されたキーワードを広告主CL10に提示する(ステップS15)。広告主CL10は、提示されたキーワードを入札キーワードとすることにより、検索サービスにおいてユーザが入札キーワードを入力して検索を行った場合に、入稿した広告コンテンツを検索結果ページ50に表示させることができる。
このように、実施形態に係る広告装置100は、キーワードに紐づけられた既存のLPの特徴情報と新規LPの特徴情報との類似度を算出し、算出された類似度が所定の閾値以上の特徴情報に対応するキーワードを抽出する。
すなわち、実施形態に係る広告装置100は、新規LPに紐づかせるキーワードとして、新規LPと特徴が類似する既存のLPに紐づけられている入札キーワードを抽出する。また、広告装置100は、新規LPの単語ベクトルと、複数の既存のLPに係る重心ベクトルとの類似度を算出するので、特定の既存のLPに係るキーワードに偏重することなく、多くの広告主が入札しているキーワードを抽出することができる。上述のように、新たに検索連動型の広告配信サービスを利用する広告主にとっては、入札キーワードとLPとが適切に紐づけられているかを判断するのは困難である。一方、実施形態に係る広告装置100によれば、現時点において、検索連動型の広告配信サービスを利用する他の広告主が入札しているキーワードと既存のLPとの情報に基づいて、新規LPに紐づかせるキーワードを抽出することができる。これにより、新規LPを提供する広告主は、適切な入札キーワードを指定することができる。そして、広告主は、新規LPに対して適切なキーワードを入札キーワードとすることにより、広告コンテンツに興味を持つと想定されるユーザに広告コンテンツを配信させることができる。このため、実施形態に係る広告装置100によれば、配信される広告コンテンツが発揮する訴求効果などの、広告コンテンツの広告効果を高めることができる。
〔2.広告装置100の構成〕
次に、図3を用いて、実施形態に係る広告装置100の構成について説明する。図3は、実施形態に係る広告装置100の構成例を示す図である。図3に示すように、広告装置100は、通信部110と、記憶部120と、制御部130とを有する。
(通信部110について)
通信部110は、ネットワークNと有線又は無線で接続され、ユーザ端末10、広告主端末20及び検索サーバ30との間で情報の送受信を行う。例えば、通信部110は、NIC(Network Interface Card)等によって実現される。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3の例では、記憶部120は、LP情報記憶部121と、キーワード情報記憶部122とを有する。
(LP情報記憶部121について)
LP情報記憶部121は、LPに関する情報を記憶する。ここで、図4に、実施形態に係るLP情報記憶部121の一例を示す。図4に示した例では、LP情報記憶部121は、「広告主ID」、「LP」、「広告コンテンツ」、「入札キーワード」といった項目を有する。
「広告主ID」は、広告主又は広告主端末20を識別するための識別情報を示す。なお、以下では、図4に示した広告主IDに記憶されている識別情報を広告主の参照符号として用いる場合がある。例えば、広告主ID「CL01」によって識別される広告主を「広告主CL01」と表記する場合がある。
「LP」は、広告主が提供するLPに関する情報を示す。図4に示す「LP01」という表記は、LPを識別するための識別情報を示すとともに、LPに関する情報を概念的に表現したものである。LP情報記憶部121内に記憶されるLPに関する情報は、LPを構成するHTMLファイル等であってもよいし、LPのデータが置かれたURL(Uniform Resource Locator)を示す情報であってもよい。なお、以下では、図4に示したLPの項目に記憶されている情報を、LPの参照符号として用いる場合がある。例えば、LP「LP01」によって示される情報を有するLPを「LP01」と表記する場合がある。
「広告コンテンツ」は、広告主端末20から入稿された広告コンテンツを示す。図4で
は、「広告コンテンツ」に「AD01」や「AD02」といった概念的な情報が格納される例を示したが、実際には、広告コンテンツの宣伝内容であるテキストデータや、または、これらの格納場所を示すファイルパス名などが格納される。
「入札キーワード」は、各LP(すなわち、各広告コンテンツ)に紐づけられている入札キーワードを示す。図4に示すように、広告主は、一つのLPについて、複数のキーワードに入札することができる。また、入札キーワードは、一つの単語ではなく、複数の単語の組み合わせであってもよい。
例えば、図4では、広告主ID「CL01」によって識別される広告主CL01が、「LP01」をリンク先とする広告コンテンツ「AD01」を検索結果ページ50に表示させるために、入札キーワード「K001」、「K002」、「K003」、「K004」、・・・、に入札している例を示している。
(キーワード情報記憶部122について)
キーワード情報記憶部122は、キーワードに関する情報を記憶する。ここで、図5に、実施形態に係るキーワード情報記憶部122の一例を示す。図5に示した例では、キーワード情報記憶部122は、「入札キーワード」、「LP」、「LP単語ベクトル」、「キーワード単語ベクトル」といった項目を有する。
「入札キーワード」は、図4に示した入札キーワードの項目に対応する。「LP」は、図4に示したLPの項目に対応する。なお、図5における「LP」は、入札キーワードに紐づくLPを示す。
「LP単語ベクトル」は、各LPに対応する単語ベクトルを示す。図5に示す「V01」という表記は、単語ベクトルを概念的に表現したものである。なお、各LPに対応する単語ベクトルは、後述する生成部132によって生成され、生成部132によってキーワード情報記憶部122内に格納される。
「キーワード単語ベクトル」は、入札キーワードに対応する単語ベクトルを示す。図5に示す「G01」という表記は、単語ベクトルを概念的に表現したものである。詳しくは後述するが、入札キーワードに対応する単語ベクトルは、入札キーワードに紐づくLP単語ベクトルに基づいて生成される。
例えば、図5では、入札キーワード「K001」は、LP「LP01」、「LP02」、「LP03」、・・・、に紐づいており、また、各LPに対応する単語ベクトルは、LP単語ベクトル「V01」、「V02」、「V03」、・・・、であり、入札キーワード「K001」に対応する単語ベクトルは、キーワード単語ベクトル「G01」である例を示している。
(制御部130について)
制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、広告装置100内部の記憶装置に記憶されている各種プログラムがRAM(Random Access Memory)を作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、入稿受付部131と、生成部132と、算出部133と、抽出部134と、提示部135と、要求受付部136と、配信部137とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
(入稿受付部131について)
入稿受付部131は、広告コンテンツの入稿を受け付ける。また、入稿受付部131は、広告コンテンツの入稿とともに、広告コンテンツのリンク先となるLPのURLや、広告コンテンツに対応する入札キーワードを受け付ける。そして、入稿受付部131は、受け付けた広告コンテンツや、LPに関する情報や、入札キーワードをLP情報記憶部121に格納する。
また、入稿受付部131は、新たに広告配信サービスを利用する広告主から、広告コンテンツの入稿を受け付ける。この場合、入稿受付部131は、受け付けた広告コンテンツのリンク先である新規LPの単語ベクトルを生成させるため、受け付けた新規LPに関する情報を生成部132に送る。
(生成部132について)
生成部132は、入稿受付部131によって受け付けられたLPや入札キーワードの特徴情報を生成する。例えば、生成部132は、特徴情報として、既存のLPや、新規LPや、入札キーワードに対応する単語ベクトルを生成する。そして、生成部132は、生成した単語ベクトルをキーワード情報記憶部122に格納する。
生成部132は、LPに対応する単語ベクトルを生成する場合、LPのURLに基づいて、LPのデータを収集し、収集したLPのデータを取得する。そして、生成部132は、例えば、LPに含まれるテキストを形態素解析する。すなわち、生成部132は、LPに含まれるテキストを単語毎に分解する。そして、生成部132は、LPに含まれる単語の種類と、LP内の単語の出現回数に基づいて、LPに対応する単語ベクトルを生成する。例えば、生成部132は、LPに出現する単語について「1」の要素を与え、出現しない単語について「0」の要素を与えることで、LPに対応する単語ベクトルを生成する。
また、生成部132は、単語毎に重みを付与して、LPに対応する単語ベクトルを生成する。ここで、単語ベクトルの重みの付与に関しては、例えば、tf−idf(Term Frequency−Inverse Document Frequency)など既知の特徴抽出アルゴリズムにより特徴語を抽出する手法が考えられる。この場合、LPを特徴付ける特徴語として抽出された単語に関しては、生成部132は、重みを重くして単語ベクトルを生成する。これにより、生成部132は、LPの特徴を反映した単語ベクトルを生成することができる。
なお、生成部132は、上記のtf−idfではなく、tf−ilf(Term Frequency−Inverse Label Frequency)という手法を用いてもよい。上記のtf−idfにおいては、処理対象とする単語が全文書中においていくつの文書内で共通して使われているかを表す頻度としてdf(Document Frequency)を用いる(この場合、「文書」に対応するものはLPとなる)。これに対して、tf−ilfにおいては、LPに含まれる処理対象とする単語がどれくらいキーワード(すなわち、ラベル)に紐づけられているかを示す頻度(lf、Label Frequency)を用いる。
この場合、生成部132は、LPに対応する単語ベクトルについて、LP内の全ての単語の出現回数の総和、LP内に所定の単語が出現する回数及び所定の単語がキーワードと紐づく頻度に基づいて、所定の単語毎に重み付けがされた単語ベクトルを生成する。具体的には、生成部132は、LP内の全ての単語の出現回数の総和とLP内に所定の単語が出現する回数との割合(すなわち、tf。所定の単語のLP内での出現頻度を示す)と、単語がキーワードと紐づく頻度(すなわち、lf)とに基づいて、LPに対応する単語ベクトルを生成する。これにより、生成部132は、キーワードと極めて頻繁に紐づくような、ごくありふれた一般的な単語の重みが過度に重み付けられないよう、適切に重み付けのなされた単語ベクトルを生成する。このため、生成部132は、より適切にLPの特徴を示す単語ベクトルを生成することができる。
また、生成部132は、入札キーワードに対応する単語ベクトルを生成する。生成部132は、入札キーワードに紐づくLPが複数ある場合には、入札キーワードに対応する単語ベクトルとして、入札キーワードに紐づけられた複数のLPに対応する各単語ベクトルの重心ベクトルを生成する。この点について、図6を用いて説明する。
図6は、実施形態に係る生成処理の一例を示す概念図である。図6に示すように、入札キーワードK001には、LP01、LP02、LP03、・・・、が紐づけられている。生成部132は、LP01、LP02、LP03、・・・、の各々に対応する単語ベクトルV01、V02、V03、・・・、を生成する。そして、生成部132は、入札キーワードK001に対応する単語ベクトルとして、生成した各LPの単語ベクトルの重心ベクトルを生成する。すなわち、生成部132は、各LPの単語ベクトルの重心ベクトルを、入札キーワードK001の単語ベクトルG01として生成する。このように、生成部132は、紐づけられている複数のLPの各単語ベクトルの重心ベクトルを用いて入札キーワードに対応する単語ベクトルを生成するので、入札キーワードの特徴を適切に示す単語ベクトルを生成することができる。
(算出部133について)
算出部133は、キーワードに紐づけられた既存のLPの特徴情報と、任意の単語を含む新規LPの特徴情報との類似度を算出する。ここで、広告装置100は、広告配信サービスにおいて、複数のキーワードの入札や、複数の広告コンテンツの入稿を受け付けているため、入札キーワードと既存のLPとの組み合わせは複数存在する。このとき、算出部133は、特徴情報の類似度の算出をキーワード毎に実行する。図5を例とすると、算出部133は、入札キーワードK001を処理対象とする場合には、入札キーワードK001と紐づけられた既存のLPであるLP01、LP02、LP03の各々の特徴情報と、新規LPの特徴情報との類似度を算出する。すなわち、算出部133は、キーワードと既存のLPが紐づけられた複数の組み合わせについて、キーワード毎に、キーワードに紐づけられた全ての既存のLPの特徴情報と、新規LPの特徴情報との類似度を算出する。
また、算出部133は、特徴情報として、単語ベクトルを用いる。例えば、算出部133は、既存のLPの特徴情報に基づいて生成される、入札キーワードに対応する単語ベクトルと、新規LPに対応する単語ベクトルとの類似度を算出する。具体的には、算出部133は、既存のLPに紐づくキーワードに対応する単語ベクトルと、新規LPに対応する単語ベクトルとの類似度として、単語ベクトル同士のコサイン類似度を算出する。すなわち、算出部133は、算出処理の対象となる二つの単語ベクトルのコサイン類似度を算出する。上述のように、生成部132がLPに出現する単語について「1」の要素を与え、出現しない単語について「0」の要素を与えて、LPに対応する単語ベクトルを生成した場合には、算出部133は、二つの単語ベクトルのコサイン類似度として「0〜1」の範囲で示される所定の数値を算出する。
なお、算出部133は、類似度を算出する際に、類似度が比較的高くなると想定される単語ベクトル同士を抽出して、抽出された単語ベクトル同士の類似度を算出するようにしてもよい。例えば、算出部133は、Top−k retrieval(Top−k検索)のようなアルゴリズムを用いて処理対象を抽出する。すなわち、算出部133は、所定の手法(例えば、上述したtf−ilf)で付与されるスコアによって順序付けられた単語ベクトルの上位k個(kは任意の数)を抽出し、抽出された単語ベクトル同士の類似度を算出する。これにより、算出部133は、スコアの低い処理対象については処理をスキップするので、高速に類似度の算出を行うことができる。
また、算出部133は、キーワードに紐づけられた既存のLPが複数ある場合には、キーワードに紐づけられた複数の既存のLPに対応する各単語ベクトルの重心ベクトルと、新規LPに対応する単語ベクトルとの類似度を算出する。また、抽出部134は、算出部133によって算出された類似度が所定の閾値以上である複数の既存のLPに紐づくキーワードを抽出する。このように、算出部133は、他の広告主が入札キーワードとしている複数の既存のLPの特徴を平均化して捉える。このため、算出部133は、複数の既存のLPがキーワードに紐づく状況を加味して類似度を算出することができる。
上記のように、算出部133は、既存のLPに紐づくキーワードが有する特徴情報と、新規LPの特徴情報との類似度を算出するので、キーワードと新規LPとの関連性を数値により示すことができる。そして、算出部133は、算出した結果を後述する抽出部134に送る。
(抽出部134について)
抽出部134は、算出部133によって算出された特徴情報の類似度が所定の閾値以上である特徴情報に対応するキーワードを抽出する。例えば、抽出部134は、算出部133によって算出された単語ベクトルのコサイン類似度に基づき、コサイン類似度が所定の閾値以上である単語ベクトルに対応するキーワードを抽出する。
例えば、抽出部134は、単語ベクトル同士のコサイン類似度が高いほど(すなわち、「1」の値に近いほど)、算出対象となった単語ベクトルに対応するキーワードとLPとの関連性が高いものと判定する。そのため、抽出部134は、類似度に所定の閾値を設定し、所定の閾値以上の類似度に係る単語ベクトルに対応するキーワードを抽出する。抽出部134は、所定の閾値を任意に設定することができる。例えば、抽出部134は、抽出するキーワードの数に応じて、所定の閾値を設定する。すなわち、抽出部134は、多数のキーワードを抽出する場合には、所定の閾値を低く設定してもよい。
(提示部135について)
提示部135は、抽出部134によって抽出されたキーワードを新規LPの提供主である広告主に提示する。具体的には、提示部135は、検索サービスにおいてユーザに選択されることにより新規LPが表示される契機となるキーワード(すなわち、新規LPに紐づく入札キーワード)として、抽出部134によって抽出されたキーワードを広告主に提示する。
なお、提示部135は、抽出部134によって抽出されたキーワードであっても、入札キーワードとして広告主に提示しない場合があってもよい。例えば、提示部135は、新規LPに設定されうる除外キーワードについては提示しなくてもよい。新規LPに設定されうる除外キーワードとは、例えば、新規LPの広告主と競合する企業名や、競合する企業が扱う製品名などが該当する。
(要求受付部136について)
要求受付部136は、広告コンテンツの配信に関する要求を受け付ける。例えば、要求受付部136は、広告コンテンツの取得要求として、ユーザ端末10が表示するウェブページに含まれるHTTP(Hypertext Transfer Protocol)リクエストを受け付ける。また、要求受付部136は、検索サーバ30から検索クエリに関する情報を受け付ける。
(配信部137について)
配信部137は、広告コンテンツを配信する。例えば、配信部137は、要求受付部136が受け付けたHTTPリクエストに従い、ユーザ端末10に広告コンテンツを配信する。配信部137は、要求受付部136によって広告コンテンツの取得要求が受け付けられた場合に、配信候補の広告コンテンツをLP情報記憶部121から選択する。
ここで、配信部137は、要求受付部136が受け付けた検索クエリと入札キーワードが同一又は類似する場合には、入札キーワードに紐づく広告コンテンツを配信候補として選択する。そして、配信部137は、検索クエリを検索サーバ30に送信したユーザ端末10に選択した広告コンテンツを配信する。
〔3.抽出処理手順〕
次に、図7を用いて、実施形態に係る広告装置100が実行する抽出処理の手順について説明する。図7は、実施形態に係る広告装置100による抽出処理手順を示すフローチャートである。
図7に示すように、広告装置100は、既存のLPに紐づく入札キーワードの単語ベクトルを生成する(ステップS101)。そして、広告装置100は、広告配信サービスを利用する新規の広告主から、新たに広告コンテンツの入稿を受け付けたか否かを判定する(ステップS102)。広告装置100は、広告コンテンツを取得していない場合には(ステップS102;No)、取得するまで待機する。
一方、広告装置100は、新たに広告コンテンツを取得した場合には(ステップS102;Yes)、広告コンテンツのリンク先である新規LPの単語ベクトルを生成する(ステップS103)。そして、広告装置100は、入札キーワードと新規LPとの類似度を算出する(ステップS104)。
続いて、広告装置100は、算出した類似度に基づいて、所定の閾値以上の類似度に係るキーワードを抽出する(ステップS105)。そして、広告装置100は、抽出したキーワードを新規LPに紐づく入札キーワードとして提示する(ステップS106)。
なお、図7では、広告装置100が、既存のLPに紐づく入札キーワードの単語ベクトルを生成した後に、新規LPを取得する例を示した。しかし、この例に限られず、広告装置100は、新規LPを取得した後に、既存のLPに紐づく入札キーワードの単語ベクトルを生成してもよい。この場合、広告装置100は、生成した新規LPの単語ベクトルを所定の記憶部120内に格納する。また、広告装置100は、ステップS106において新規LPに紐づく入札キーワードを広告主に提示した後に、さらに異なるキーワードを抽出してもよい。すなわち、広告装置100は、抽出されたキーワードに対する広告主の対応によっては、ステップS105とステップS106を繰り返し実行してもよい。例えば、広告主が提示されたキーワード以外のキーワードを所望する場合には、広告装置100は、閾値の値を変更し、さらに異なるキーワードを抽出する。そして、広告装置100は、新たに抽出されたキーワードを広告主に提示する。
〔4.変形例〕
上述した実施形態は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、他の実施形態について説明する。
〔4−1.広告コンテンツ〕
上記実施形態において、広告装置100は、既存のLPや、既存のLPに紐づく入札キーワードや、新規LPに対応する単語ベクトルを生成し、生成した単語ベクトル同士の類似度を算出することにより、新規LPに紐づかせるキーワードを抽出する例を示した。ここで、広告装置100は、LPに限らず、他の情報を用いて、新規LPに紐づかせるキーワードを抽出してもよい。例えば、広告装置100は、LPに代えて、LPをリンク先とする広告コンテンツを利用することができる。この点について、図8を用いて説明する。
図8は、変形例に係るLP情報記憶部121の一例を示す図である。変形例に係る広告装置100は、図4に示したLP情報記憶部121の代わりに、図8に示したLP情報記憶部121を有する。図8に示すように、変形例に係るLP情報記憶部121は、図4に示したLP情報記憶部121に加えて、「CTR(Click Through Rate)」といった項目を有する。
「CTR」は、広告コンテンツのCTRを示す。ここでは、CTRとは、広告コンテンツがユーザから選択された回数(例えば、ユーザ端末10においてクリックされた回数)を広告コンテンツの表示回数によって除算した値を示す。なお、現時点において配信されたことがない広告コンテンツのCTRには、予め決められている固定値や、全ての広告コンテンツにおけるCTRの平均値や、同一の広告カテゴリに属する全ての広告コンテンツにおけるCTRの平均値などが記憶される。また、「CTR」には、CTRの予測モデル等から予測される予測CTRが記憶されてもよい。このような予測CTRは、例えば、広告コンテンツの種別や、広告コンテンツが表示されるウェブページの種別等によって予測される。
例えば、図8では、広告主CL01が、「LP01」をリンク先とする広告コンテンツ「AD01」を入稿しており、広告コンテンツAD01のCTRが「0.01」である例を示している。また、広告主CL01は、検索結果とともに広告コンテンツAD01が表示されるためのキーワードとして、入札キーワード「K001」、「K002」、「K003」、「K004」、・・・、に入札している例を示している。
続いて、変形例に係る生成部132について説明する。上記の通り、実施形態に係る生成部132は、既存のLPに対応する単語ベクトルを生成したが、変形例に係る生成部132は、広告コンテンツに対応する単語ベクトルを生成する。
例えば、生成部132は、実施形態と同様に、広告コンテンツに含まれるテキストデータについて形態素解析をする。そして、生成部132は、広告コンテンツに対応する単語ベクトルを生成する。また、生成部132は、広告コンテンツに対応する単語ベクトルに基づいて、広告コンテンツに紐づく入札キーワード(すなわち、LPに紐づくキーワード)に対応する単語ベクトルを生成する。
また、生成部132は、新規LPをリンク先とする広告コンテンツに対応する単語ベクトルを生成する。そして、算出部133は、生成部132によって生成された入札キーワードに対応する単語ベクトルと、新規LPをリンク先とする広告コンテンツに対応する単語ベクトルとの類似度を算出する。そして、抽出部134は、算出部133によって算出された類似度に基づいて、所定の閾値以上の類似度に係る単語ベクトルに対応するキーワードを抽出する。このように、変形例に係る広告装置100によれば、広告コンテンツを用いて、新規LPに紐づかせるキーワードを抽出することができる。
また、変形例に係る広告装置100は、広告コンテンツの広告効果を示す指標を用いて、上記の抽出処理を行ってもよい。例えば、生成部132は、広告コンテンツに紐づく入札キーワードに対応する単語ベクトルの生成処理において、CTRの高い広告コンテンツほど単語ベクトルの重みを重くして、各広告コンテンツの単語ベクトルの重心ベクトルを生成する。
あるいは、生成部132は、広告コンテンツに紐づく入札キーワードに対応する単語ベクトルの生成処理において、入札キーワードに紐づけられた広告コンテンツのうちCTRの高い広告コンテンツを選出し、選出された各広告コンテンツの単語ベクトルを用いて重心ベクトルを生成してもよい。このように、変形例に係る生成部132は、広告コンテンツのCTRを反映させて単語ベクトルを生成するので、より広告効果の高い広告コンテンツの特徴が反映された単語ベクトルを生成することができる。また、変形例に係る算出部133は、より広告効果の高い広告コンテンツが反映される類似度を算出することができる。
なお、生成部132は、図8で示したCTR以外の広告効果を示す指標に基づいて単語ベクトルを生成してもよい。例えば、生成部132は、広告コンテンツが表示された回数に対して何割がコンバージョンに至るかの割合を示すCVR(Conversion Rate)などの情報に基づいて、単語ベクトルを生成してもよい。この場合、算出部133は、CVRの高い広告コンテンツが反映される類似度を算出することができる。
なお、コンバージョンとは、広告主が獲得できる最終成果を示し、広告主への利益に繋がるユーザの行動が該当する。コンバージョンの例としては、ウェブページ上で商品を購入する行動や、会員登録を行う行動や、資料請求を行う行動や、商品等に関する問い合わせを行う行動等が挙げられる。また、コンバージョンには、広告コンテンツにアクセスしたユーザが、広告主のウェブページを介さずにオフライン(電話や郵送等)で商品購入、会員登録、資料請求、問い合わせ等を行う行動を含めてもよい。
また、入稿受付部131は、検索サービスにおいて、入札キーワードがユーザから入力された回数に関する情報を取得してもよい。そして、生成部132は、入札キーワードがユーザから入力された回数が多い広告コンテンツほど重みを重くして、重心ベクトルを生成してもよい。この場合、算出部133は、入札キーワードがユーザから入力された回数に基づいて、単語ベクトル同士の類似度を算出することになる。
このように、変形例に係る算出部133は、広告コンテンツ(もしくは、既存のLP)に紐づくキーワードがユーザから入力された回数、広告コンテンツがユーザから選択された回数又は広告コンテンツが表示されることで広告主が得た利益に関する情報の少なくとも一つに基づいて、類似度を算出することができる。
これにより、広告装置100は、現状の検索サービスや広告配信の状況などに基づき、より実情に即して類似度を算出することができるので、新規LPの広告主に対して適切な入札キーワードを抽出することができる。
なお、算出部133は、上記で示した例以外にも、さらに異なる広告評価に関する情報を用いて類似度を算出してもよい。例えば、算出部133は、ユーザ端末10における広告コンテンツの実際の表示回数(インプレッション数)や、広告コンテンツに対するクリックで発生する課金額であるCPC(Cost Per Click)や、広告コンテンツの1000回表示あたりの課金額であるeCPM(effective Cost Per Mill)などの広告コンテンツに関する情報を用いてもよい。
また、上記例においては、広告コンテンツ同士の類似度を算出する例を示したが、類似度は、広告コンテンツの特徴情報とLPの特徴情報とによって算出されてもよい。
〔4−2.学習〕
また、広告装置100は、抽出したキーワードが新規LPに紐づけられた後に、新規LPをリンク先とする広告コンテンツが何回表示されたか、などの結果を取得してもよい。すなわち、広告装置100は、広告コンテンツの表示回数や、ユーザから広告コンテンツがクリックされた回数などを取得する。言い換えれば、広告装置100は、抽出したキーワードを広告主が入札キーワードとした場合の効果を測定する。そして、広告装置100は、取得したCTRや、CVRなどの指標をさらに用いて、上記抽出処理に利用してもよい。このように、広告装置100は、抽出したキーワードによる広告効果などの結果を測定し、かかる結果が反映された学習モデルにより、キーワードを抽出してもよい。これにより、広告装置100は、処理を繰り返すことにより、よりユーザから検索されやすく広告効果を向上させやすいキーワードを抽出することができる。このため、広告装置100は、広告コンテンツの広告効果をより高めることができる。
〔4−3.広告主〕
上記実施形態において、広告主は、広告主端末20を用いて、広告装置100に広告コンテンツを入稿する例を示した。しかし、広告主は、自ら広告装置100に広告コンテンツを入稿せずに、かかる処理を代理店に依頼する場合もある。この場合、広告装置100にかかる処理をするのは代理店となる。すなわち、「広告主」といった表記は、広告主だけでなく代理店を含む概念であり、「広告主端末」といった表記は、広告主端末20だけでなく代理店によって利用される代理店端末を含む概念であるものとする。
〔4−4.広告配信〕
また、配信部137は、広告コンテンツの配信において、同じ入札キーワードに紐づく広告コンテンツが複数ある場合には、入札キーワードの入札価格が高い広告主や、CTRの高い広告コンテンツや、入札価格及びCTRの双方が高い広告コンテンツを優先して選択するようにしてもよい。そして、配信部137は、選択した広告コンテンツをユーザ端末10に配信する。
〔4−5.他の用途〕
上記実施形態において、広告装置100は、検索連動型の広告配信サービスにおける入札キーワードを抽出する例を示した。しかし、広告装置100は、上記のような検索連動型以外の広告配信に利用されてもよい。例えば、広告装置100は、キーワードに対する入札を受け付け、かかるキーワードと親和性の高い内容のウェブページに広告コンテンツを配信するような、いわゆる広告コンテンツマッチ型の広告サービスに利用されてもよい。
また、上記実施形態において、第1コンテンツ及び第2コンテンツの一例としてLP又は広告コンテンツを挙げ、キーワードの一例として入札キーワードを例に挙げて説明した。しかし、広告装置100は、LP又は広告コンテンツに紐づく入札キーワードを抽出するのみならず、他の用途として利用されてもよい。例えば、広告装置100は、所定のテキスト文書の特徴情報に基づいて、テキスト文書同士の類似度を算出し、テキスト文書に関連するキーワードを抽出するというような、あるドキュメントに関連するキーワード抽出のアシストを実行する装置であってもよい。すなわち、第1コンテンツ及び第2コンテンツは、任意の単語を含む文書のようなコンテンツであればよい。
また、本願に係る抽出装置が検索サーバ30に対応する場合、検索サーバ30は、検索結果ページ50に検索クエリのアシストとなるキーワードを表示してもよい。すなわち、検索サーバ30は、所定のキーワードの特徴情報と、所定のウェブページの特徴情報との類似度を算出する。そして、検索サーバ30は、算出された類似度が所定の閾値以上である特徴情報に対応するキーワードを、所定のウェブページを検索するためのキーワードとして抽出する。この場合、検索サーバ30は、検索サービスを提供するウェブページにおいて、抽出されたキーワードを提示してもよい。ユーザは、提示されたキーワードに基づいて検索を実行することにより、効率よく目的のウェブページを検索できる場合がある。この場合、検索サーバ30は、検索サービスを実行する制御部に加え、上記実施形態に係る生成部132、算出部133、抽出部134及び提示部135に対応する各処理部を有する。
〔4−6.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図3に示したLP情報記憶部121やキーワード情報記憶部122は、広告装置100が保持せずに、図示しないストレージサーバ等が保持してもよい。この場合、広告装置100は、ストレージサーバからLP情報等を取得する。
また、例えば、上記実施形態では、広告装置100が単語ベクトルを生成する例を示したが、単語ベクトルを生成する主体は、広告装置100と異なる所定のサーバ装置であってもよい。この場合、広告装置100は、所定のサーバ装置によって生成された単語ベクトルを取得し、取得した単語ベクトルを保持する。また、例えば、上述した広告装置100は、入稿受付部131と生成部132とを有する単語ベクトル生成装置と、算出部133と抽出部134とを有する抽出装置と、提示部135を有する提示装置と、要求受付部136と配信部137とを有する配信装置とに分散されてもよい。
〔5.ハードウェア構成〕
また、上述してきた実施形態に係る広告装置100は、例えば図9に示すような構成のコンピュータ1000によって実現される。以下、広告装置100を例に挙げて説明する。図9は、広告装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(ネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、また、通信網500を介してCPU1100が生成したデータを他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る広告装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔6.効果〕
上述してきたように、実施形態に係る広告装置100は、算出部133と、抽出部134とを有する。算出部133は、キーワードに紐づけられた既存のLPの特徴情報と、任意の単語を含む新規LPの特徴情報との類似度を算出する。また、抽出部134は、算出部133によって算出された類似度が所定の閾値以上である特徴情報に対応するキーワードを抽出する。
このように、実施形態に係る広告装置100は、現時点で他の広告主が入札しており、効果が高いと想定されるキーワードであって、新規LPに特徴が類似する既存のLPに紐づくキーワードを抽出する。これにより、広告装置100によれば、ユーザが検索サービスを利用する際に、入札キーワードに紐づく広告コンテンツを表示させやすくすることができるので、広告コンテンツの広告効果を向上させることができる。
また、算出部133は、キーワードと既存のLPが紐づけられた複数の組み合わせのうち、当該キーワード毎の特徴情報として、当該キーワードに紐づけられた全ての既存のLPの特徴情報と、新規LPの特徴情報との類似度を算出する。
このように、実施形態に係る広告装置100は、複数のキーワードとLPの組み合わせのうち、キーワード毎に類似度を算出する。これにより、広告装置100は、新規LPに対する適切なキーワードを抽出することができる。
また、算出部133は、特徴情報として、キーワードに紐づけられた既存のLPに対応する単語ベクトルと、新規LPに対応する単語ベクトルとの類似度を算出する。
これにより、実施形態に係る広告装置100は、任意の単語が含まれたLPなどのコンテンツの特徴を表すことができるので、新規LPの特徴を正確に捉えることができる。このため、広告装置100は、新規LPに対する適切なキーワードを抽出することができる。
また、算出部133は、キーワードに紐づけられた既存のLPに対応する単語ベクトルと、新規LPに対応する単語ベクトルとのコサイン類似度を算出する。抽出部134は、算出部133によって算出されたコサイン類似度が所定の閾値以上の単語ベクトルに対応するキーワードを抽出する。
これにより、実施形態に係る広告装置100は、LPなどが含むテキストの傾向の類似性が数値で表現することができるので、的確に単語ベクトル同士の類似性を算出することができる。このため、広告装置100は、新規LPに対する適切なキーワードを抽出することができる。
また、算出部133は、キーワードに紐づけられた既存のLPが複数ある場合には、キーワードに紐づけられた複数の既存のLPに対応する各単語ベクトルの重心ベクトルと、新規LPに対応する単語ベクトルとの類似度を算出する。また、抽出部134は、算出部133によって算出された類似度が所定の閾値以上の重心ベクトルに対応するキーワードを抽出する。
これにより、実施形態に係る広告装置100は、他の広告主が入札キーワードとしている複数の既存のLPの特徴を平均化して捉えることができる。このため、広告装置100は、複数の既存のLPがキーワードに紐づく状況を加味して類似度を算出できるので、新規LPに対する適切なキーワードを抽出することができる。
また、実施形態に係る広告装置100は、キーワードに紐づけられた既存のLPに対応する単語ベクトル、キーワードに紐づけられた複数の既存のLPに対応する各単語ベクトルの重心ベクトル及び新規LPに対応する単語ベクトルの少なくとも一つを生成する生成部132をさらに備える。算出部133は、生成部132によって生成された単語ベクトルの少なくとも一つを用いて類似度を算出する。
これにより、実施形態に係る広告装置100は、LPなどコンテンツの特徴を捉えた特徴情報を用いて、それぞれのコンテンツの類似度を算出することができる。
また、生成部132は、既存のLP又は新規LPに対応する単語ベクトルについて、既存のLP又は新規LP内の全ての単語の出現回数の総和、所定の単語が出現する回数及び該所定の単語がキーワードと紐づく頻度に基づいて、所定の単語毎に重み付けがされた単語ベクトルを生成する。
これにより、実施形態に係る広告装置100は、適切な重みが付与された単語ベクトルを生成することができる。このため、広告装置100によれば、信頼性の高い類似度を算出することができるので、新規LPに対する適切なキーワードを抽出することができる。
また、算出部133は、第1コンテンツとして、広告主が入稿する広告コンテンツ若しくは広告コンテンツのリンク先となるウェブページ(すなわち、既存のLP)を用い、キーワードとして、広告主が入札する検索クエリである入札キーワードを用い、第2コンテンツとして、第1コンテンツに対応するコンテンツとは異なるコンテンツ(例えば、新規LP)を用いて類似度を算出する。
これにより、実施形態に係る広告装置100は、検索連動型の広告配信サービスにおいて、新規LPに紐づけるキーワードを適切に抽出することができる。
また、算出部133は、既存のLPに紐づくキーワードがユーザから入力された回数、既存のLPをリンク先とする広告コンテンツがユーザから選択された回数又は広告コンテンツが表示されることで広告主が得た利益に関する情報の少なくとも一つに基づいて類似度を算出する。
これにより、実施形態に係る広告装置100は、現状の広告効果を踏まえたうえで、既存のLPと新規LPの特徴情報の類似度を算出することができる。このため、広告装置100は、現状に則した、適切なキーワードを抽出することができる。
また、実施形態に係る広告装置100は、新規LPに紐づかせるキーワードとして、抽出部134によって抽出されたキーワードを新規LPの提供主に提示する提示部135をさらに備える。
これにより、実施形態に係る広告装置100は、新規LPの提供主である広告主に、入札すべき適切なキーワードを提示することができる。このため、広告装置100によれば、広告主は、入札すべき適切なキーワードを知ることができる。また、広告配信サービスの管理者側は、広告主から入札されるキーワードが増えることにより、入札の促進につながり、サービスの活性化を図ることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、算出部は、算出手段や算出回路に読み替えることができる。
1 抽出システム
10 ユーザ端末
20 広告主端末
30 検索サーバ
100 広告装置
110 通信部
120 記憶部
121 LP情報記憶部
122 キーワード情報記憶部
130 制御部
131 入稿受付部
132 生成部
133 算出部
134 抽出部
135 提示部
136 要求受付部
137 配信部

Claims (13)

  1. キーワードに紐づけられた第1コンテンツの単語ベクトルと、任意の単語を含む第2コンテンツの単語ベクトルとの類似度を算出する算出部と、
    前記キーワードのうち、前記算出部によって算出された類似度が所定の閾値以上である単語ベクトルに対応するキーワードを抽出する抽出部と、を備え、
    前記算出部は、
    前記キーワードに紐づけられた第1コンテンツが複数ある場合には、前記キーワードに紐づけられた複数の第1コンテンツに対応する各単語ベクトルの重心ベクトルであって、各第1コンテンツにおける広告効果を示す指標値に基づいて各第1コンテンツに対応する各単語ベクトルに重み付けされた重心ベクトルと、前記第2コンテンツに対応する単語ベクトルとの類似度を算出し、
    前記抽出部は、
    前記類似度が所定の閾値以上である前記重心ベクトルに対応するキーワードを抽出する、
    ことを特徴とする抽出装置。
  2. 前記算出部は、
    前記キーワードと前記第1コンテンツとが紐づけられた複数の組み合わせのうち、当該キーワード毎に、当該キーワードに紐づけられた全ての前記第1コンテンツの各単語ベクトルの重心ベクトルと、前記第2コンテンツの単語ベクトルとの類似度を算出し、
    前記抽出部は、
    前記算出部によって算出された前記キーワードの重心ベクトルと前記第2コンテンツの単語ベクトルとの類似度が所定の閾値以上である重心ベクトルに対応するキーワードを抽出する、
    ことを特徴とする請求項1に記載の抽出装置。
  3. 前記算出部は、
    前記キーワードに紐づけられた第1コンテンツに対応する単語ベクトルと、前記第2コンテンツに対応する単語ベクトルとのコサイン類似度を算出し、
    前記抽出部は、
    前記コサイン類似度が所定の閾値以上である前記単語ベクトルに対応するキーワードを抽出する、
    ことを特徴とする請求項2に記載の抽出装置。
  4. 前記キーワードに紐づけられた第1コンテンツに対応する単語ベクトル、前記キーワードに紐づけられた複数の第1コンテンツに対応する各単語ベクトルの重心ベクトル及び前記第2コンテンツに対応する単語ベクトルの少なくとも一つを生成する生成部、
    をさらに備え、
    前記算出部は、
    前記生成部によって生成された前記単語ベクトルの少なくとも一つを用いて、前記類似度を算出する、
    ことを特徴とする請求項1〜3のいずれか一つに記載の抽出装置。
  5. 前記生成部は、
    前記第1コンテンツ又は前記第2コンテンツに対応する単語ベクトルについて、該第1コンテンツ又は該第2コンテンツ内の全ての単語の出現回数の総和、所定の単語が出現する回数及び該所定の単語が前記キーワードと紐づく頻度に基づいて、該所定の単語毎に重み付けがされた前記単語ベクトルを生成する、
    ことを特徴とする請求項4に記載の抽出装置。
  6. 前記算出部は、
    前記第1コンテンツとして、広告主が入稿する広告コンテンツ若しくは前記広告コンテンツのリンク先となるウェブページを用い、前記キーワードとして、広告主が入札する検索クエリである入札キーワードを用い、前記第2コンテンツとして、前記第1コンテンツに対応するコンテンツとは異なるコンテンツを用いて、前記類似度を算出する、
    ことを特徴とする請求項1〜5のいずれか一つに記載の抽出装置。
  7. 前記算出部は、
    前記第1コンテンツに紐づくキーワードがユーザから入力された回数、前記第1コンテンツがユーザから選択された回数又は前記第1コンテンツが表示されることで前記第1コンテンツの提供主が得た利益に関する情報の少なくとも一つに基づいて、前記類似度を算出する、
    ことを特徴とする請求項1〜6のいずれか一つに記載の抽出装置。
  8. 前記第2コンテンツに紐づかせるキーワードとして、前記抽出部によって抽出されたキーワードを該第2コンテンツの提供主に提示する提示部、
    をさらに備えたことを特徴とする請求項1〜7のいずれか一つに記載の抽出装置。
  9. キーワードに紐づけられた第1コンテンツに対応する単語ベクトル、及び、任意の単語を含む第2コンテンツに対応する単語ベクトルを生成する生成部と、
    前記第1コンテンツの単語ベクトルと、前記第2コンテンツの単語ベクトルとの類似度を算出する算出部と、
    前記キーワードのうち、前記算出部によって算出された類似度が所定の閾値以上である単語ベクトルに対応するキーワードを抽出する抽出部と、を備え、
    前記生成部は、
    前記第1コンテンツ又は前記第2コンテンツに対応する単語ベクトルについて、該第1コンテンツ又は該第2コンテンツ内の全ての単語の出現回数の総和、所定の単語が出現する回数及び該所定の単語が前記キーワードと紐づく頻度に基づいて、該所定の単語毎に重み付けがされた前記単語ベクトルを生成する、
    ことを特徴とする抽出装置。
  10. コンピュータが実行する抽出方法であって、
    キーワードに紐づけられた第1コンテンツの単語ベクトルと、任意の単語を含む第2コンテンツの単語ベクトルとの類似度を算出する算出工程と、
    前記キーワードのうち、前記算出工程によって算出された類似度が所定の閾値以上である単語ベクトルに対応するキーワードを抽出する抽出工程と、を含み、
    前記算出工程は、
    前記キーワードに紐づけられた第1コンテンツが複数ある場合には、前記キーワードに紐づけられた複数の第1コンテンツに対応する各単語ベクトルの重心ベクトルであって、各第1コンテンツにおける広告効果を示す指標値に基づいて各第1コンテンツに対応する各単語ベクトルに重み付けされた重心ベクトルと、前記第2コンテンツに対応する単語ベクトルとの類似度を算出し、
    前記抽出工程は、
    前記類似度が所定の閾値以上である前記重心ベクトルに対応するキーワードを抽出する、
    ことを特徴とする抽出方法。
  11. コンピュータが実行する抽出方法であって、
    キーワードに紐づけられた第1コンテンツに対応する単語ベクトル、及び、任意の単語を含む第2コンテンツに対応する単語ベクトルを生成する生成工程と、
    前記第1コンテンツの単語ベクトルと、前記第2コンテンツの単語ベクトルとの類似度を算出する算出工程と、
    前記キーワードのうち、前記算出工程によって算出された類似度が所定の閾値以上である単語ベクトルに対応するキーワードを抽出する抽出工程と、を含み、
    前記生成工程は、
    前記第1コンテンツ又は前記第2コンテンツに対応する単語ベクトルについて、該第1コンテンツ又は該第2コンテンツ内の全ての単語の出現回数の総和、所定の単語が出現する回数及び該所定の単語が前記キーワードと紐づく頻度に基づいて、該所定の単語毎に重み付けがされた前記単語ベクトルを生成する、
    ことを特徴とする抽出方法。
  12. キーワードに紐づけられた第1コンテンツの単語ベクトルと、任意の単語を含む第2コンテンツの単語ベクトルとの類似度を算出する算出手順と、
    前記キーワードのうち、前記算出手順によって算出された類似度が所定の閾値以上である単語ベクトルに対応するキーワードを抽出する抽出手順と、をコンピュータに実行させ、
    前記算出手順は、
    前記キーワードに紐づけられた第1コンテンツが複数ある場合には、前記キーワードに紐づけられた複数の第1コンテンツに対応する各単語ベクトルの重心ベクトルであって、各第1コンテンツにおける広告効果を示す指標値に基づいて各第1コンテンツに対応する各単語ベクトルに重み付けされた重心ベクトルと、前記第2コンテンツに対応する単語ベクトルとの類似度を算出し、
    前記抽出手順は、
    前記類似度が所定の閾値以上である前記重心ベクトルに対応するキーワードを抽出する、
    ことを特徴とする抽出プログラム。
  13. ーワードに紐づけられた第1コンテンツに対応する単語ベクトル、及び、任意の単語を含む第2コンテンツに対応する単語ベクトルを生成する生成手順と、
    前記第1コンテンツの単語ベクトルと、前記第2コンテンツの単語ベクトルとの類似度を算出する算出手順と、
    前記キーワードのうち、前記算出手順によって算出された類似度が所定の閾値以上である単語ベクトルに対応するキーワードを抽出する抽出手順と、をコンピュータに実行させ、
    前記生成手順は、
    前記第1コンテンツ又は前記第2コンテンツに対応する単語ベクトルについて、該第1コンテンツ又は該第2コンテンツ内の全ての単語の出現回数の総和、所定の単語が出現する回数及び該所定の単語が前記キーワードと紐づく頻度に基づいて、該所定の単語毎に重み付けがされた前記単語ベクトルを生成する、
    ことを特徴とする抽出プログラム。
JP2014173955A 2014-08-28 2014-08-28 抽出装置、抽出方法および抽出プログラム Active JP6100741B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014173955A JP6100741B2 (ja) 2014-08-28 2014-08-28 抽出装置、抽出方法および抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014173955A JP6100741B2 (ja) 2014-08-28 2014-08-28 抽出装置、抽出方法および抽出プログラム

Publications (2)

Publication Number Publication Date
JP2016048526A JP2016048526A (ja) 2016-04-07
JP6100741B2 true JP6100741B2 (ja) 2017-03-22

Family

ID=55649368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014173955A Active JP6100741B2 (ja) 2014-08-28 2014-08-28 抽出装置、抽出方法および抽出プログラム

Country Status (1)

Country Link
JP (1) JP6100741B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168954B (zh) * 2017-05-18 2021-03-26 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN112988971A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 基于词向量的搜索方法、终端、服务器及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
JP2007272390A (ja) * 2006-03-30 2007-10-18 Sony Corp リソース管理装置、タグ候補選定方法及びタグ候補選定プログラム
JP4714710B2 (ja) * 2007-06-15 2011-06-29 日本電信電話株式会社 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
JP4999796B2 (ja) * 2008-07-18 2012-08-15 ヤフー株式会社 配信された広告に関する情報を蓄積するサーバ、方法及びプログラム
US20100094673A1 (en) * 2008-10-14 2010-04-15 Ebay Inc. Computer-implemented method and system for keyword bidding
JP4826622B2 (ja) * 2008-11-10 2011-11-30 日本電気株式会社 文書検索装置、検索方法及びプログラム
CA2796408A1 (en) * 2009-04-16 2010-10-21 Evri Inc. Enhanced advertisement targeting
JP4820888B2 (ja) * 2009-05-13 2011-11-24 デジタル・アドバタイジング・コンソーシアム株式会社 広告支援システム及び広告支援方法
US20110258054A1 (en) * 2010-04-19 2011-10-20 Sandeep Pandey Automatic Generation of Bid Phrases for Online Advertising
JP5895823B2 (ja) * 2012-11-12 2016-03-30 富士ゼロックス株式会社 属性情報付与プログラム及び属性情報付与装置

Also Published As

Publication number Publication date
JP2016048526A (ja) 2016-04-07

Similar Documents

Publication Publication Date Title
JP6271345B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP7311554B2 (ja) 算出装置、算出方法及び算出プログラム
JP5462972B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP6023129B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP6235443B2 (ja) 抽出装置、抽出方法および抽出プログラム
JP2018045553A (ja) 選択装置、選択方法および選択プログラム
JP6698730B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP6667061B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP2018088282A (ja) 抽出装置、抽出方法及び抽出プログラム
JP2017091054A (ja) 広告システム及び広告配信方法
JP6100741B2 (ja) 抽出装置、抽出方法および抽出プログラム
JP6866069B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6373140B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP6311052B1 (ja) 抽出装置、抽出方法及び抽出プログラム
JP6282965B2 (ja) 受付装置、受付方法及び受付プログラム
JP6355151B2 (ja) オファーリングシステム、オファーリング方法及びプログラム
JP2017076376A (ja) 算出装置、算出方法および算出プログラム
JP6072739B2 (ja) 抽出装置、抽出方法および抽出プログラム
JP6007300B1 (ja) 算出装置、算出方法および算出プログラム
JP6541521B2 (ja) 生成装置、生成方法、生成プログラム、決定装置、決定方法、及び決定プログラム
JP6921922B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6240049B2 (ja) 抽出装置、抽出方法および抽出プログラム
JP6961653B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP6310509B2 (ja) 抽出装置、抽出方法および抽出プログラム
JP6664600B2 (ja) 提供装置、提供方法および提供プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170223

R150 Certificate of patent or registration of utility model

Ref document number: 6100741

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250