JP6228425B2 - 広告生成装置および広告生成方法 - Google Patents

広告生成装置および広告生成方法 Download PDF

Info

Publication number
JP6228425B2
JP6228425B2 JP2013222606A JP2013222606A JP6228425B2 JP 6228425 B2 JP6228425 B2 JP 6228425B2 JP 2013222606 A JP2013222606 A JP 2013222606A JP 2013222606 A JP2013222606 A JP 2013222606A JP 6228425 B2 JP6228425 B2 JP 6228425B2
Authority
JP
Japan
Prior art keywords
advertisement
information
word
feature
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013222606A
Other languages
English (en)
Other versions
JP2015084178A (ja
Inventor
勇二 森
勇二 森
大祐 鳥居
大祐 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013222606A priority Critical patent/JP6228425B2/ja
Publication of JP2015084178A publication Critical patent/JP2015084178A/ja
Application granted granted Critical
Publication of JP6228425B2 publication Critical patent/JP6228425B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、広告情報を提供する広告生成装置および広告生成方法に関する。
インターネット広告の掲載手法の一つにコンテンツ連動型広告が知られている。このコンテンツ連動型広告では、広告を掲載するサイトに掲載された記事の内容にマッチした広告を掲載することでユーザの嗜好と合ったものを提供することができる。例えば、コンテンツ連動型広告の提供事業者として、Google (http://www.google.com/adsense/?hl=ja)、Yahoo (http://promotionalads.yahoo.co.jp/service/ydn/index.html)などがある。これらのサービスでは、サイト運営者がサービス提供事業者の提供するタグを自身のサイトに埋め込むことで、そのサイト内にどのようなキーワードが含まれるのかを解析し、最も好ましいと判断したキーワードに基づいた広告を掲載する。
より具体的には、これらのサービスでは、キーワード、URL、キャッチフレーズ等の入稿データと、広告表示対象となるサイト内のテキストに含まれるキーワード(すなわち当該サイトにおいて推定される話題)との適合度、広告料、遷移先サイトの質等を考慮して最も適切だと思われるキーワードを選択することで、サイト内に表示すべき広告コンテンツを決定することができる。これら決定処理は、人手による入稿データに基づいているため、当該入稿データに基づいた最も適切であると思われるキーワードが存在しない場合がありえ、その場合、同様のサービスを提供することができない。
このため、人手による入稿データを用いない手法が考えられており、特許文献1に記載の技術が挙げられる。この特許文献1においては、広告効果を向上させる広告配信システムに関するものであって、WEBページを解析して、その上位にあるWEBページの特徴的なキーワードを抽出し、抽出したキーワードに関連する広告情報を取得することの記載がある。
特開2012−78410号公報
しかしながら、この特許文献1においては、特徴的なキーワードから得られた広告情報をそのまま採用している。そのため、広告情報として適切でないもの、例えば広告効果のそれほど高くない広告情報を選択する場合があり得る。
そこで、本発明においては、広告効果の高い広告情報を選択することができる広告生成装置および広告生成方法を提供することを目的とする。
上述の課題を解決するために本発明の広告生成装置は、入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度を算出する特徴度算出手段と、入力した文書情報を単語分割して得られた複数の単語から、当該文書情報を特徴付ける単語を特徴語として抽出する特徴語抽出手段と、前記特徴語抽出手段により抽出された特徴語を、前記特徴度算出手段により算出された特徴度に基づいて定められた順序に並び替える検索順序決定手段と、前記検索順序決定手段により決定された順序の特徴語で、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する検索手段と、前記検索手段により取得された複数の広告情報から、広告配信の対象とする広告情報を選択する情報選択手段と、を備える。
また、本発明の広告生成方法は、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する広告生成装置における広告生成方法において、入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度を算出する特徴度算出ステップと、入力した文書情報を単語分割して得られた複数の単語から、当該文書情報を特徴付ける単語を特徴語として抽出する特徴語抽出ステップと、前記特徴語抽出ステップにより抽出された特徴語を、前記特徴度算出ステップにより算出された特徴度に基づいて定められた順序に並び替える検索順序決定ステップと、前記検索順序決定ステップにより決定された順序の特徴語で、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する検索ステップと、前記検索ステップにより取得された複数の広告情報から、広告配信の対象とする広告情報を選択する情報選択ステップと、備える。
この発明によれば、入力した文書情報を単語分割して得られた複数の単語から、当該文書を特徴付ける単語を特徴語として抽出し、抽出された特徴語を、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度に基づいて定められた順序に並び替え、その順序の特徴語で、インデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得し、取得された複数の広告情報から、広告配信の対象とする広告情報を選択する。これにより、文書情報にあった広告情報を選択することができるという効果を奏する。特に、各文書ジャンルにおいて偏りのなく出現する特徴語は、重要な特徴語ではないため、これを除去するようにすることで、各ジャンルにおいて重要な特徴語を優先的に検索に用いることができ、より納得感の高い広告情報を選択することができる、という効果を得ることができる。
また、本発明の広告生成装置は、広告情報のカテゴリを示す広告カテゴリを単語と対応付けたカテゴリテーブルをさらに備え、前記検索手段は、前記特徴語抽出手段により抽出された特徴語に一致する単語が、前記カテゴリテーブルに記述されている場合、当該単語に対応付けられた広告カテゴリに絞り込んだ検索処理を実行する。
また、この発明によれば、抽出された特徴語に一致する単語が、カテゴリテーブルに記述されている場合、当該単語に対応付けられた広告カテゴリに絞り込んだ検索処理を実行する。これにより、特定の広告カテゴリに絞り込んだ検索処理を行うことができ、検索エンジンによる負荷を軽減することができるとともに、検索結果の適合度を向上させることができる。
また、本発明の広告生成装置は、広告情報を検索取得対象から除外するためのNG単語を記憶するNG単語テーブルをさらに備え、前記情報選択手段は、前記取得された検索結果から、前記NG単語テーブルに記憶されているNG単語を含んでいる広告情報を除去する。
また、この発明によれば、検索結果から、NG単語テーブルに記憶されているNG単語を含んでいる広告情報を除去することで、文書データに対して納得感の高い広告情報を選択することができる。
また、本発明の広告生成装置は、文書情報のジャンルを示す文書ジャンルと、広告情報のカテゴリを示す広告カテゴリとを対応付けたジャンル対応テーブルをさらに備え、前記検索手段により検索された検索結果に含まれる広告情報は、その広告カテゴリを含んでおり、前記情報選択手段は、前記ジャンル対応テーブルに従って、前記入力された文書情報の文書ジャンルに対応する広告カテゴリに属する広告情報を、前記取得された検索結果から選択する。
この発明によれば、ジャンル対応テーブルに従って、入力された文書情報の文書ジャンルに対応する広告カテゴリに属する広告情報を、取得された検索結果から選択することで、文書情報のジャンルと結びつきの強い広告カテゴリに属する広告情報を選択することができ、より納得感の高い広告情報を選択することができる。
また、本発明の広告生成装置において、前記特徴語抽出手段は、入力した文書情報を単語分割して得られた複数の単語を、事前定義されたルールに従って連結して、特徴語を生成する。
また、この発明によれば、入力した文書情報を単語分割して得られた複数の単語を、事前定義されたルールに従って連結して、特徴語を生成することで、適切な特徴語を抽出することができる。
また、本発明の広告生成装置は、前記特徴度算出手段により算出された単語のそれぞれの出現度合いに基づいて、特徴的ではない単語を記憶するストップワード記憶手段と、を備え、前記特徴語抽出手段は、前記ストップワード記憶手段に記憶されている単語に一致する特徴語を、抽出した特徴語から除去する。
この発明によれば、入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報の文書ジャンルごとの出現度合いを算出し、算出された単語のそれぞれの出現度合いに基づいて、特徴的ではない単語を記憶しておく。そして、特徴語の抽出処理をする際においては、この記憶された単語に基づいた特徴語の抽出処理を行う。これにより、特徴的ではない特徴語を使った検索処理を行うことを防止し、納得感のある広告情報を選択することができる。
また、本発明の広告生成装置は、広告情報の付与対象となる文書情報の文書ジャンルと、広告情報の広告カテゴリとの全ての組み合わせに対して、文書ジャンルに属する全文書情報に基づいた語彙ベクトルと広告カテゴリに属する全広告情報に基づいた語彙ベクトルとに基づいて文書ジャンルと広告カテゴリとの類似度を算出し、所定の類似度を有する文書ジャンルと広告ジャンルとの組み合わせを、前記ジャンル対応テーブルに追加するジャンル対応解析手段をさらに備える。
この発明によれば、文書ジャンルに属する全文書情報に基づいた語彙ベクトルと広告カテゴリに属する全広告情報に基づいた語彙ベクトルとに基づいて、所定の類似度を有する文書ジャンルと広告ジャンルとの組み合わせを、ジャンル対応テーブルに追加する。これにより、より結びつきの強いジャンルとカテゴリとをジャンル対応テーブルに追加することができ、このジャンル対応テーブルを利用して広告情報を選択することができる。
また、本発明の広告生成装置は、前記情報選択手段により選択された広告情報と、当該広告情報に対する検索時に用いられた特徴語とを記憶する広告情報管理テーブルと、配信された広告情報を特定するための特定情報と、当該配信された広告情報のうちクリックされた広告情報を特定するための特定情報とを記憶する履歴テーブルと、前記履歴テーブルに基づいて、各広告情報のクリック履歴を解析する履歴情報解析手段と、をさらに備え、前記特徴語抽出手段は、前記履歴テーブルおよび前記広告情報管理テーブルに従って、クリック率の低い広告情報に対応する特徴語を、抽出した特徴語から除外する。
この発明によれば、履歴テーブルおよび広告情報管理テーブルに従って、クリック率の低い広告情報に対応する特徴語を、抽出した特徴語から除外することができ、適切な特徴語を抽出することができ、その適切な特徴語に基づいた効果の高い広告情報を選択することができる。
また、本発明の広告生成装置において、前記特徴語抽出手段は、初期画面として表示される表示情報と、当該表示情報における所定のリンク情報を操作することにより表示される非表示情報とからなる文書情報に対して、前記表示情報に含まれる特徴語と、前記非表示情報に含まれる特徴語との共起度を算出し、あらかじめ定めた順位以上の共起度を有する特徴語を非表示情報から抽出する。
この発明によれば、表示情報に含まれる単語と、非表示情報に含まれる単語との共起度を算出し、あらかじめ定めた順位以上の共起度を有する非表示情報に含まれる単語を特徴語として抽出する。これにより、表示情報の単語から推測しやすい単語を、被表示情報から特徴語として抽出することができ、納得感の高い広告情報の選択を行うことができる。
この発明によれば、人手により生成された入稿データを用いることなく、広告効果の高い広告情報を選択することができる。
第1実施形態における広告生成サーバ1である広告生成サーバ1の機能を示すブロック図である。 広告生成サーバ1における、特定の記事データに対して広告コンテンツを付与する処理の全体の流れを示すフローチャートである。 特徴語抽出処理を詳細に示すフローチャートである。 広告コンテンツの検索処理および広告コンテンツの選択処理の詳細な処理を示すフローチャートである。 事前定義による単語の連結処理を模式的に示した模式図である。 カテゴリ辞書107cのデータ例を示す説明図である。 ジャンル対応テーブル107dのデータ例を示す説明図である。 記事管理テーブル108aのデータ例を示す説明図である。 広告管理テーブル108bのデータ例を示す説明図である。 第2実施形態における広告生成サーバ1aの機能を示すブロック図である。 カテゴリ語抽出動作を示すフローチャートである。 特徴度テーブルのデータ例を示す。 第3実施形態の広告生成サーバ1bの機能を示すブロック図である。 履歴情報格納部112に記憶されている履歴情報のデータ例を示す説明図である。 第4実施形態の広告生成サーバ1cの機能を示すブロック図である。 記事データを示す模式図である。 非表示領域から特徴語を抽出するときの処理を示すフローチャートである。 広告生成サーバ1〜広告生成サーバ1cのハードウェア構成図である。
以下、本願発明を実施するための形態について、以下の実施例に基づき図面を参照しつつ説明する。なお、これはあくまでも一例であって本発明の技術的範囲はこれに限られるものでない。本実施形態の説明に当たり、用語を以下の通り定義する。
記事データ:広告の付与対象となるテキスト情報であり、処理を行う際に意味を持った一つの単位を示す。
ジャンル:記事データのうち、似た話題を扱うものの分類であり、いわゆる記事ジャンルを示す。
カテゴリ:広告として表示する広告コンテンツ(広告情報)の分類であり、いわゆる広告カテゴリを示す。
[第1実施形態]
図1は、第1実施形態における広告生成装置である広告生成サーバ1に備わる機能要素のうち、本実施形態に特に関連するものの機能ブロック図を示す。図1における広告生成サーバ1は、特徴語抽出部101(特徴語抽出手段)、検索順序決定部102(特徴度算出手段、検索順序決定手段)、検索部103(検索手段)、情報選択部104(情報選択手段)、情報抽出部105、配信部106、辞書データ格納部107、および配信情報格納部108を少なくとも有する。辞書データ格納部107は、NGワード辞書107a(NG単語テーブル)、ストップワード辞書107b(ストップワード記憶手段)、カテゴリ辞書107c(カテゴリテーブル)、およびジャンル対応テーブル107dを含んでいる。また、配信情報格納部108は、記事管理テーブル108aおよび広告管理テーブル108b(広告情報管理テーブル)を含んでいる。以下、図1に示す機能ブロック図に基づいて、各機能ブロックを説明する。
特徴語抽出部101は、広告コンテンツの付与対象となる記事データを記事管理テーブル108aから読み出し、該記事データを特徴付ける単語を抽出する。単語の抽出は形態素解析により文書を単語分割した上で必要な品詞を抜き出しても良いし、事前定義した辞書を用いて部分一致探索により抽出しても良い。本実施例では形態素解析による手順について説明する。
検索順序決定部102は、特徴語抽出部101が抽出した複数の特徴語を広告の生成に用いるのに効果的と思われる順序を決定する部分である。この検索順序決定部102は、決定した順序に、複数の特徴語を並び替える。これにより、検索部103は、検索エンジンに問い合わせを行う段階で検索回数を減らすことができる。
検索部103は、検索順序決定部102が決めた順序で特徴語を、検索エンジンに対して問い合わせを行うことで検索を行い、この検索エンジンから一または複数の広告コンテンツを含んだ検索結果を取得する部分である。この検索エンジンは、広告コンテンツを検索するためのエンジン(検索用サーバ)であり、広告情報のインデックス情報を保持している。よって、この検索部103は、検索エンジンに問い合わせをすることにより広告情報の検索を行うことができる。
また、検索部103は、検索の際にカテゴリ辞書107cを参照し、特徴語が特定のカテゴリに特徴的な単語であることが示されている場合はカテゴリを絞り込んだ検索を行うことで検索エンジンの負荷を下げるとともに検索結果の適合度を向上させる。カテゴリを絞り込んだ検索処理の例として、例えば、検索部103は、検索エンジンに対して、特徴語とカテゴリとからなる問い合わせを出力すると、検索エンジンは、そのカテゴリを絞り込んだ検索処理を行う。また、カテゴリごとに複数の検索エンジンが存在しており、そのカテゴリにあった検索エンジンに対して、検索部103が問い合わせをするようにしてもよい。
情報選択部104は、検索部103が取得した検索結果から広告コンテンツとして使用するべきものを決定する。この情報選択部104は、検索部103により検索された検索結果から、NGワード辞書107aおよびジャンル対応テーブル107dを参照することで、不適切な検索結果を除外することができる。
情報抽出部105は、情報選択部104の決定に従い、広告コンテンツからタイトル、遷移先URL等の広告配信に必要な情報を抽出するとともに、この広告コンテンツを検索する際に使用された特徴語を検索部103から受け取り、広告管理テーブル108bに記憶する部分である。
配信部106は、ユーザからのリクエストに従い、配信情報格納部108から記事データおよび当該記事データに付随する広告コンテンツを抽出して、配信する部分である。
辞書データ格納部107は、各種辞書データを記憶する部分であり、NGワード辞書107a、ストップワード辞書107b、カテゴリ辞書107c、およびジャンル対応テーブル107dを記憶する部分である。
NGワード辞書107aは、広告コンテンツを付与するものとして不適切な記事データを判断するための単語、または広告コンテンツに含まれる単語として不適切な単語をそれぞれNGワードとして記述する部分である。このようなNGワードは、本サービスのオペレータや、広告提供者などにより設定される。例えば、記事データが凶悪事件に関するものである場合、そのようなものに広告コンテンツを付与することは広告主としては望ましくない。よって、凶悪事件を連想するような単語をあらかじめNGワードとしてNGワード辞書107aに記述しておく。そして、検索部103は、抽出された特徴語に基づく検索処理時に、NGワード辞書107aを参照して、広告コンテンツの検索に用いる特徴語がNGワードを含んでいる場合には、その特徴語に基づいた広告コンテンツの検索処理を中止することができる。
また、同様に、広告コンテンツが不適切な単語を含んでいた場合にも、その広告コンテンツを除去するための単語をNGワード辞書107aに記述しておく。情報選択部104は、広告コンテンツの選択時において、NGワード辞書107aを参照することで、そのようなNGワードを含んだ広告コンテンツを検索結果から取り除くことができる。
ストップワード辞書107bは、記事データから抽出される特徴語として不適切な単語を記述する部分である。特徴語抽出部101は、ストップワード辞書107bを参照することで、不適切な特徴語を除外して特徴語を抽出することができる。
カテゴリ辞書107cは、単語とカテゴリとを対応付けたデータベースである。図6にその具体例を説明する。図6に示される通り、単語ごとにカテゴリが記述されている。検索部103は、このカテゴリ辞書107cを参照することにより、特徴語(単語)に対応するカテゴリを抽出し、そのカテゴリで示される複数の広告コンテンツを対象に検索処理を行う。
ジャンル対応テーブル107dは、ジャンル(記事ジャンル)とカテゴリ(広告カテゴリ)とを対応付けて記述するデータベースである。図7に、その具体例を示す。図7に示される通り、ジャンル対応テーブル107dは、ジャンルに対応したカテゴリが記述されており、カテゴリ欄には、複数の単語が記述されている。情報選択部104は、このジャンル対応テーブル107dを参照することで、ある記事データから抽出した特徴語を使った広告コンテンツの検索処理時において、その記事データのジャンルに対応するカテゴリに属さない広告コンテンツを検索結果から取り除く処理を行うことができる。
配信情報格納部108は、記事管理テーブル108aおよび広告管理テーブル108bを含んでいる。
記事管理テーブル108aは、記事データを管理するための管理データを記憶する部分である。図8は、その具体例を示しており、記事管理テーブル108aは、記事ID、ジャンル、タイトル、および本文を対応付けて記憶する部分である。特徴語抽出部101は、この記事管理テーブル108aを参照することで、記事データから特徴語の抽出処理を行うことができる。
広告管理テーブル108bは、広告コンテンツを管理するための管理データを記憶する部分である。図9は、その具体例を示しており、記事ID、特徴語、広告タイトル、商品説明文、および遷移先URLを対応付けて記述している。配信部106は、ユーザ端末からの要求に応じて記事データを配信する際、この広告管理テーブル108bを参照することにより、配信しようとする記事データに対応付けられている広告コンテンツ(広告タイトル、商品説明文、および遷移先URL)を配信することができる。
つぎに、図2〜図4を用いて、本実施形態の広告生成サーバ1の動作について説明する。尚、記事データは、一意性を持つIDの他、ジャンル、タイトル、および本文を最低限持つものとする。また、特に断りが無い場合は特徴語抽出等のテキスト解析処理はタイトルおよび本文の両方を対象に行うものとする。
図2は、本実施形態の広告生成サーバ1における、特定の記事データに対して広告コンテンツを付与する処理の全体の流れを示すフローチャートである。まず、特徴語抽出部101は、記事管理テーブル108aを参照して、入力された記事データから特徴語の抽出を行う(S11)。ここで、この特徴語抽出処理について図を用いて詳細に説明する。図3は、ステップS11の処理を詳細に示すフローチャートである。以下、ステップS11の動作について詳細に説明する。
特徴語抽出部101は、事前に定義された除外正規表現に従い、入力した記事データのうち、当該除外正規表現にマッチする部分を削除する(S21)。ここでは、URLやメールアドレス等、文章の特徴と関連の小さいと思われる部分を処理から除外する。
つぎに、特徴語抽出部101は、ステップS21の処理を実施した後の記事データに対して連結語正規表現をマッチし、マッチした位置を記憶しておく(S22)。ここでは、アルファベットやカタカナ等、単語やフレーズとして一連の意味を持つ可能性が高い文字種に対して検索語を連結することで検索処理時のミスマッチを軽減する。例えば、「000xxxyyyz01xx」という文字列に対して[x-z]+という正規表現を適用した場合、マッチの開始位置と終了位置とを示す(3,9)および(12,13)が記憶される。
特徴語抽出部101は、ステップS22に入力したものと同じテキストを、形態素解析を行うことで単語単位に分割する(S23)。例として、ステップS22で示した文字列の形態素解析結果を「000 xxx yyy z01 xx」とする。ここで、スペースは単語境界を示す。
そして、特徴語抽出部101は、ステップS22の結果に従い、ステップS23における単語境界を保持したまま文字種に従った連結を行う(S24)。図5に本ステップの実施イメージを示す。正規表現の開始・終了位置と単語境界とが一致しない場合は、開始・終了位置を包含する最も近い単語境界まで連結を行う。ステップS22、S23で例示した文字列の連結結果は「000 xxxyyyz01 xx」となる。
つぎに、特徴語抽出部101は、形態素解析の際に付与された各単語の品詞情報に従い、検索に用いる単語と検索に用いない単語とを抽出するためのフィルタリング処理を行い、検索に用いる単語の抽出処理を行う(S25)。例えば、名詞を検索に用いる単語とする場合には、名詞である単語の抽出処理を行う。
そして、特徴語抽出部101は、ストップワード辞書107bに含まれる単語を、ステップS21〜S25までにおいて抽出処理された単語から除外して、広告コンテンツを選別するための単語を特徴語として抽出する(S26)。ここで、ストップワードとは、広告の生成に効果が薄いと思われる一般語のことを指し、例えばIDF(Inverse Document Frequency)値が一定未満の単語等が挙げられる。IDF値は単語の珍しさを表す指標で、式(1)により算出される。
Figure 0006228425


ここで、idfは単語iのIDF値、|D|はドキュメントの総数、d∋tは単語iを含むドキュメントの総数を指し、珍しい単語ほど大きな値になる。
このようにして、記事データから、広告コンテンツの検索のための特徴語が抽出される。
図2に戻り、引き続き説明する。特徴語の抽出処理が終了すると、特徴語抽出部101は、NGワード辞書107aを参照して広告生成対象の記事データから抽出した特徴語がNGワードを含むかどうかのチェックを行う(S12)。そして、特徴語抽出部101は、当該特徴語がNGワードを含むと判断する場合には、広告コンテンツの選択を行わずに処理を終了する。
NGワードを含まないと判断されると、検索順序決定部102は、特徴語抽出部101が抽出した各特徴語に対し、式(2)によって広告生成への効果をスコア化し、スコアの高い順に並び替えを行うことで検索エンジンに対して問い合わせを行う順序を決定する。
Figure 0006228425


ここで、jは素性、xはスコアに使用する素性の値、wは各素性jの重み係数を表す。本実施形態においては、素性jは、一の特徴語における全ユーザによる検索回数の度合い(対数で表す)、記事データ内における出現位置(タイトル部分か本文部分か、または本文部分の前半か、後半かなど)、単語が人名かどうか(0もしくは1)、特徴度(単語の偏り度合い)およびIDF値である。重み係数はあらかじめ素性に応じて設定されているものとする。
ここで、この全ユーザによる検索回数は、検索エンジンや、そのほか検索サーバにおいて、検索キーワードを含んだ検索ログが記憶されており、この検索ログを広告生成サーバ1は事前に取得しておく。検索順序決定部102は、この検索ログに基づいて検索回数からその対数を算出する。
また、出現位置についても、検索順序決定部102が、その記事データにおける各特徴語の位置を判断し、それに応じて設定された値をその素性の値とする。また、単語が人名か否かは、図示しない人名辞書を用いて判断することができ、IDF値については、後述する通り、事前に算出することにより、その素性の値を算出することができる。
また、特徴度とは、特定の単語が特定のジャンルに対してどれくらい特徴的に出現しているかを表す指標であり、特徴語の偏り度合を示すものである。記事データ内に出現する全ての単語とジャンルとの組み合わせに対して算出される。ここで特定の単語は、特徴語抽出部101により抽出された特徴語とする。
この特徴度の算出方法を説明する際に、2つの離散確率変数xとyの相互情報量を想定する。以下の式(3)は、その一般式である。
Figure 0006228425

本実施形態においては、xおよびyがそれぞれ単語、ジャンルに相当する。単語xがジャンルyに出現した回数をa、単語xがジャンルy以外に出現した回数をb、単語x以外がジャンルyに出現した回数をc、単語x以外がジャンルy以外に出現した回数をd、N=a+b+c+dとすると、単語xとジャンルyとの相互情報量は以下の式(4)により求められる。
Figure 0006228425


複数のジャンルがある場合は全てジャンルについて式(4)の値を求める。単語xが全てのジャンルに均等に出現するほど式(4)の値は0に近くなる。本実施形態においては、ある単語xの各ジャンルに対する相互情報量の最大値をその単語xの特徴度とする。
検索順序決定部102は、上述の式(4)による演算処理を単語ごとに事前に行い、特徴語ごとに、相互情報量の最大値を特徴度として算出しておき、これを式(2)に適用することで、特徴語の検索順序を決定することができる。なお、本実施形態においては、検索順序決定部102は、少なくとも特徴度に基づいた順序を決定することにより、より特徴的な特徴語を用いた検索処理を実行させることができる。
検索部103は、検索順序決定部102の決めた順序に従って、特徴語を使った広告コンテンツの検索を行い、情報選択部104は、検索結果のうち、広告コンテンツとして用いるものを選択する。そして、情報抽出部105は、必要に応じて構造化を行って広告管理データを生成し、この広告管理データを広告管理テーブル108bに記憶する(S14)。広告生成サーバ1においては、生成された広告コンテンツの数が指定された値に達するか、検索を行っていない特徴語が無くなるまで検索処理を繰り返す。
ここで、S14について、さらに詳細に説明する。図4は、広告生成サーバ1における、広告コンテンツの検索処理および広告コンテンツの選択処理の詳細な処理を示すフローチャートである。
検索部103は、カテゴリ辞書107cを参照し、検索キーワードとしての役割を有する特徴語がカテゴリ辞書107cに含まれる場合は当該カテゴリ辞書107c内で指定されたカテゴリのみを対象に検索を行う(S33)。一方、含まれない場合は、カテゴリを絞り込まずに、全カテゴリを対象に検索を行う(S32)。図6にカテゴリ辞書107cのデータ例を示す。このカテゴリ辞書107cによると、単語(特徴語)毎にどのカテゴリを対象にした検索を行うかが記載されている。
つぎに、検索部103が、ステップS32またはS33にて行った検索の結果を確認し、検索結果が得られなかった場合は、検索結果無しとして、指定された特徴語に対する広告コンテンツの検索処理および選択処理を終了する(ステップS35)。情報選択部104は、検索部103により検索された検索結果として、広告コンテンツが1件以上ある場合は、その広告コンテンツがNGワード辞書107aに規定される単語(つまりNGワード)を含むか否かを判断して、NGワードを含む広告コンテンツを検索結果から取り除く(S36)。また、情報選択部104は、ジャンル対応テーブル107dを参照して、記事データのジャンルに対して指定されたカテゴリに属さないカテゴリの検索結果を取り除く(S37)。記事データのジャンルは、特徴語抽出部101が特徴語の抽出対象とした記事データに基づいて、情報選択部104が記事管理テーブル108aを参照することにより得られる。
このように、ステップS36では、表示するのに不適切な広告コンテンツを広告の対象から除外し、ステップS37では、記事データのジャンルに対して適合しないカテゴリの広告コンテンツを広告の対象から除外することで、記事データに対してより納得感の高い広告コンテンツを抽出することが可能となる。
そして、情報選択部104は、ステップS36およびS37で削除されなかった検索結果のうち、最も上位の広告コンテンツを、記事データに付随して表示するコンテンツとして決定する。情報抽出部105は、広告コンテンツから、タイトル、遷移先URL等の広告に必要となる情報を抽出し、広告管理テーブル108bに記憶する(S38)。なお、ここで最も上位の広告コンテンツとは、検索スコアが上位のものを示す。すなわち、本実施形態においては、検索エンジンを利用して広告コンテンツを抽出するものであり、検索結果の妥当性を示すスコアに従った順序で、広告コンテンツのタイトルが検索結果として表示され、その最上位に位置する広告コンテンツを、広告の対象として決定する。
つぎに、第1実施形態における広告生成サーバ1の作用効果について説明する。特徴語抽出部101は、入力した記事データを単語分割した上で、当該記事データを特徴付ける単語を特徴語として抽出し、検索順序決定部102は、検索回数の度合い、記事データ内における出現位置、単語が人名か否か、文書情報の各文書ジャンルにおける出現の偏り度合を示す特徴度またはIDF値の少なくともいずれか一つに基づいて定められた特徴語の順序を決定する。なお、少なくとも特徴度を用いることでより高い効果が得られる。
検索部103は、この決定された順序の特徴語を用いて、広告コンテンツのインデックス情報を持つ検索エンジンに問い合わせを行う。検索部103は、検索結果として複数の広告コンテンツを取得し、情報選択部104は、取得された複数の広告コンテンツから、広告配信の対象とする広告情報を選択する。これにより、記事データにあった広告コンテンツを選択することができるという効果を奏する。特に、特徴語における検索サービス上での検索回数や、文書情報における出現位置に応じた順番で、検索することで、出現頻度は低いにもかかわらず重要な特徴語を優先的に検索に用いることができ、より納得感の高い広告情報を選択することができる、という効果を得ることができる。
また、この広告生成サーバ1は、広告コンテンツのカテゴリと単語とを対応づけたカテゴリ辞書107cを有しており、特徴語抽出部101により抽出された特徴語に一致する単語が、カテゴリ辞書107cに記述されていると、情報選択部104が判断する場合、検索部103は、当該単語に対応付けられたカテゴリに絞り込んだ検索処理を実行する。これにより、検索エンジンによる負荷を軽減することができるとともに、検索結果の適合度を向上させることができる。
また、この広告生成サーバ1は、NGワード辞書107aを有しており、情報選択部104が、検索部103により検索された検索結果から、NGワード辞書107aに記憶されているNGワード(単語)を含んでいる広告コンテンツを除去することで、記事データに対して納得感の高い広告コンテンツを選択することができる。
また、この広告生成サーバ1において、情報選択部104は、記事データのジャンルと広告コンテンツのカテゴリとを対応付けたジャンル対応テーブル107dに従って、入力された記事データのジャンルに対応するカテゴリの検索結果を取り除く、すなわち、当該カテゴリに属する広告コンテンツを、検索部103により取得された検索結果から取得する。これにより、記事データのジャンルと結びつきの強いカテゴリに属する広告コンテンツを選択することができ、より納得感の高い広告情報を選択することができる。
また、この広告生成サーバ1において、特徴語抽出部101は、入力した記事データを単語分割して得られた複数の単語を、事前定義されたルールに従って連結して、特徴語を生成することで、適切な特徴語を抽出することができる。すなわち、正規表現の開始位置、終了位置と、形態素解析で分割した単語境界とを比較し、一致しない場合には、その開始、終了位置を包含する最も近い単語境界をまでの連結するようにするものであり、例えば、単語境界を保持しつつ、同一文字種のものを連結するようにするものである。これにより、適切な特徴語を抽出することができる。
[第2実施形態]
つぎに、第2実施形態に係る広告生成サーバ1aについて説明する。この第2実施形態における広告生成サーバ1aは、それぞれジャンルに分類された記事データ、およびカテゴリに分類された広告のそれぞれに出現する単語の分布から、ストップワード辞書107b、カテゴリ辞書107c、およびジャンル対応テーブル107dのそれぞれのレコードを生成して登録する。
図10は、広告生成サーバ1aに備わる様々な機能要素のうち、本実施形態に特に関連する機能要素から構成される機能ブロック図である。なお、図10に示す通り、広告生成サーバ1aは、前述の第1実施形態の広告生成サーバ1が備える機能要素を全て含む。本実施形態では、第1実施形態との差分についてのみ説明する。
図10に示す通り、広告生成サーバ1aは、前述の第1実施形態の広告生成サーバ1に加え、更にカテゴリ語抽出部109(特徴度算出手段)およびジャンル対応解析部110(ジャンル対応解析手段)の少なくとも一方を含んで構成される。
カテゴリ語抽出部109は、ジャンルごとにより区分された記事データを対象に解析を行い、記事データ内の単語が各ジャンルおよび各カテゴリに対してどれくらい特徴的に出現しているか(以下、特徴度とする)を算出し、所定の特徴度の単語については、ストップワード辞書107bおよびカテゴリ辞書107cに登録する部分である。このカテゴリ語抽出部109の処理は、定期的に行ってもよいし、初期状態に1回だけ行ってもよい。なお、このカテゴリ語抽出部109の処理対象となる単語は、特徴語抽出部101により抽出された特徴語とするが、あらかじめ定めた単語を対象としてもよい。また、カテゴリ語抽出部109は、機能的には第1実施形態の検索順序決定部102の特徴度抽出機能と同じであるため、検索順序決定部102で代用してもよい。
ジャンル対応解析部110は、記事データのジャンルと広告コンテンツのカテゴリとに出現する語彙の類似性からジャンル対応テーブル107dのレコードを生成する部分である。
このように構成された広告生成サーバ1aにおけるカテゴリ語抽出部109の詳細な動作について説明する。図11は、カテゴリ語抽出動作を示すフローチャートである。
カテゴリ語抽出部109は、ジャンル分けされた記事データの集合からジャンル特徴度(各ジャンルにおける特徴度)を算出する(S41)。ここで、ジャンル特徴度とは、特定の単語が特定のジャンルに対してどれくらい特徴的に出現しているかを表す指標であり、記事データ内に出現する全ての単語とジャンルとの組み合わせに対して算出される。
図12に、特徴度のデータ例を示し、図示しない特徴度テーブルに記憶される。図12においては、一の単語に対して、記事データの各ジャンル“政治”“スポーツ”“音楽”が対応付けられており、単語“AAA”において、それぞれ0.1、0.1、0.8が対応付けられている。カテゴリ語抽出部109は、この特徴度テーブルを参照することにより、ジャンルごとの単語の出現の偏り度合を判断することができる。図12の例では、カテゴリ語抽出部109は、単語“AAA”は、ジャンル“音楽”の分野に偏って出現する単語であると判断することができる。
つぎに、この特徴度の算出手順について説明する。なお、記事データを単語の出現順序を考慮しない単語の集合として扱う(Bagof Wordsモデル)。特徴度の算出方法としては、大きく分けて出現頻度、ダイス係数、相互情報量、カイ2乗値といった統計的指標に基づく方法とSVM(SupportVector Machine)やロジスティック回帰といった機械学習による方法とが挙げられるが、本実施形態では相互情報量を用いた方法について説明する。
形式的には、2つの離散確率変数xとyの相互情報量は上述の式(3)で定義される。
本実施形態においては、x、yがそれぞれ単語、ジャンルに相当する。単語xがジャンルyに出現した回数をa、単語xがジャンルy以外に出現した回数をb、単語x以外がジャンルyに出現した回数をc、単語x以外がジャンルy以外に出現した回数をd、N=a+b+c+dとすると、単語xとジャンルyの相互情報量は上述の式(4)により求められる。
複数のジャンルがある場合は全てジャンルについて式(4)の値を求める。単語xが全てのジャンルに均等に出現するほど式(4)の値は0に近くなる。本実施形態においては、ある単語xの全ジャンルに対する相互情報量の最大値をその単語のジャンル特徴度とする。
そして、カテゴリ語抽出部109は、ステップS41で求めた特徴度が所定の閾値thを下回る単語、つまり記事データにおける特定のジャンルに偏って出現しない単語をストップワード辞書に追加する(S42)。
つぎに、カテゴリ語抽出部109は、ステップS41と同様の処理をカテゴリ分けされた広告コンテンツの文書集合に対して実施し、特定の単語それぞれに対するそのカテゴリの特徴度(カテゴリ特徴度)を算出し、カテゴリ特徴度が所定の閾値thを下回る場合はその単語をストップワード辞書に追加し、閾値thより大きく設定された所定の閾値thを上回る単語については、その単語をカテゴリ辞書に追加する(ステップS44,S45)。
このようにして、カテゴリ語抽出部109は、ストップワード辞書107bおよびカテゴリ辞書107cの辞書データを生成することができる。
ジャンル対応解析部110は、記事データのジャンルと広告コンテンツのカテゴリとの全ての組み合わせに対して、語彙の近さに応じてジャンル対応テーブルのレコードを生成する部分である。このジャンル対応解析部110は、あるジャンルおよびカテゴリに属する全ての記事データおよび広告コンテンツによって構成される語彙ベクトルを生成する。すなわち、ジャンル対応解析部110は、語彙ベクトルを構成する各指標(単語)が、あるジャンルにおけるすべての記事データにおいてどれぐらい出現しているか、その出現数に基づいて語彙ベクトルを生成する。カテゴリついても同様に、あるカテゴリにおけるすべての広告コンテンツにおいて、どれぐらい語彙ベクトルを構成する各指標(単語)が出現しているか、その出現数に基づいて語彙ベクトルを生成する。
そして、あるジャンルの語彙ベクトルaおよびあるカテゴリの語彙ベクトルbを考えた場合、2つの語彙ベクトルの類似度は例えば式(5)のコサイン類似度によって求められる。
Figure 0006228425


類似度が所定の閾値を超えるジャンルおよびカテゴリの組み合わせのみをジャンル対応テーブル107dに追加することで、概念的に近いカテゴリのみを広告として提示することが可能となる。これら語彙ベクトルをすべてのジャンル・カテゴリに対して生成して、類似度を算出することで、概念的に近いジャンルとカテゴリとの組み合わせを求めることができる。
なお、語彙ベクトルは、単語一語ずつをそのまま素性として用いてもよいし、SVD(singular value decomposition)といった次元圧縮の手法を用いても良い。
つぎに、第2実施形態のように構成された広告生成サーバ1aの作用効果について説明する。この第2実施形態の広告生成サーバ1aによれば、カテゴリ語抽出部109が、ジャンル間におけるジャンル特徴度およびカテゴリ間におけるカテゴリ特徴度それぞれ低い単語をストップワード辞書107bに追加し、特徴語抽出部101が、そのような単語を特徴語から外すことで記事データの内容について特徴的でない単語に基づいて広告コンテンツを選択してしまうことを防ぐことができる。
また、カテゴリ語抽出部109が、カテゴリ間で特徴度の高い単語をカテゴリ辞書107cに追加することで検索時にカテゴリを絞り込み、検索時に検索エンジンの負荷を抑えると共により単語にマッチする広告が生成できる。また、概念的に近い関係にあるジャンル・カテゴリの組み合わせのみを広告の対象にすることで記事のジャンルに合った広告を選択することができる
例えば、この広告生成サーバ1aにおいて、カテゴリ語抽出部109は、各単語における文書ジャンルごとの出現度合い(例えば式(4))を算出し、特徴語抽出部101は、算出された各単語における文書ジャンルごとの出現度合いに基づいて、各文書ジャンルにおいて、その出現度合いがほぼ均等である単語については、特徴語として抽出しない。すなわち、カテゴリ語抽出部109は、ストップワード辞書107bに、出現度合いがほぼ均等である単語を登録しておくことで、特徴語抽出部101は、それを抽出すべき特徴語から排除することができる。これにより、いずれの文書ジャンルにおいても特徴的ではない特徴語の抽出を防止することができ、納得感の得られない広告情報の選択を行うことを防止することができる。
また、同様に、特定の単語におけるカテゴリごとの出現度合いに基づいて、それをストップワード辞書107bに登録することで、広告コンテンツのカテゴリにおいて特徴的ではない単語を特徴語として抽出することを防止することができる。
また、この広告生成サーバ1aにおいて、ジャンル対応解析部110は、ジャンルに属する全文書情報に基づいた語彙ベクトルと広告カテゴリに属する全広告情報に基づいた語彙ベクトルとをそれぞれ生成し、これら語彙ベクトルに基づいて、所定の類似度を有する文書ジャンルと広告ジャンルとの組み合わせを、ジャンル対応テーブル107dに追加する。これにより、より結びつきの強いジャンルとカテゴリとをジャンル対応テーブル107dに追加することができ、このジャンル対応テーブル107dを利用した広告情報を選択することができる。
[第3実施形態]
つぎに、第3実施形態に係る広告生成サーバ1bについて説明する。この第3実施形態に係る広告生成サーバ1bにおいて、履歴情報解析部113は、配信された広告コンテンツ、およびクリックされた広告コンテンツを解析し、効果の低い広告コンテンツを表示させなくすることができる。これによって、広告の精度を向上させる。
図13は、広告生成サーバ1bに備わる様々な機能要素のうち、本実施形態に特に関連する機能要素から構成される機能ブロック図である。なお、図13に示す通り、広告生成サーバ1bは、前述の第1実施形態の広告生成サーバ1が備える機能要素を全て含む。本実施形態では、第1実施形態との差分についてのみ説明する。
図13に示す通り、広告生成サーバ1bは、前述の第1実施形態の広告生成サーバ1に加え、更に履歴情報収集部111、履歴情報格納部112(履歴テーブル)、および履歴情報解析部113(履歴情報解析手段)を少なくとも含んで構成される。
履歴情報収集部111は、配信部106を通じてユーザに配信された記事データおよびそのジャンル、それに付随して配信された広告コンテンツ、およびそのカテゴリを収集して、履歴情報格納部112に記憶する部分である。また、クリックされた広告コンテンツについても、同様に収集して記憶する。図14に、履歴情報格納部112に記憶されている履歴情報のデータ例を示す。図14(a)は、配信履歴テーブルであり、図14(b)は、クリック履歴テーブルである。いずれのテーブルにおいても、配信日時(またはクリック日時)、ユーザID、広告ID、カテゴリ、記事ID、およびジャンルを対応付けて記憶している。
これら収集処理は、ユーザの検索処理に応じてリアルタイムに行ってもよいし、検索サーバまたはユーザ端末においてログとして記憶されているところから、定時処理によって収集してもよい。
履歴情報解析部113は、履歴情報格納部112に記憶された情報を基に特徴語単位、またはジャンル・カテゴリの組み合わせ単位にクリック率の集計を行い、所定のクリック率の検索語をストップワード辞書107bに登録したり、またジャンル・カテゴリの組み合わせをジャンル対応テーブル107dから削除したりする。
例えば、履歴情報解析部113は、配信回数が一定回数以上の広告コンテンツのうち、そのクリック率(クリックされた回数/配信された回数)を算出し、そのクリック率が所定の閾値を下回る広告コンテンツを特定する。そして、履歴情報解析部113は、広告管理テーブル108bを参照して、広告コンテンツに対応付けられている特徴語を抽出して、その特徴語をストップワード辞書107bに追加する。
また、履歴情報解析部113は、配信回数が一定回数以上の広告コンテンツにおいて、そのクリック率を算出し、そのクリック率が所定の閾値を下回るジャンル・カテゴリの組み合わせを特定する。配信履歴テーブル(またはクリック履歴テーブル)には、広告コンテンツ(広告ID)に対応付けて、カテゴリとジャンルとが紐づいているため、履歴情報解析部113は、特定の広告コンテンツのカテゴリおよびそれに紐づくジャンルを特定することができる。そして、履歴情報解析部113は、このようにして特定したカテゴリおよびジャンルの組み合わせをジャンル対応テーブル107dから削除する。これによって同一条件での広告コンテンツの選択を処理行わなくさせ、クリックされない、すなわち閲覧されない広告コンテンツを提供しないようにすることができる。
つぎに、本第3実施形態のように構成された広告生成サーバ1bの作用効果について説明する。
本実施形態の広告生成サーバ1bによれば、クリック率の低い条件で広告コンテンツの選択しなくすることで、より効果の高い広告コンテンツを配信することができる。
すなわち、この広告生成サーバ1bは、配信された広告コンテンツを特定するための特定情報と、当該配信された広告コンテンツのうちクリックされた広告コンテンツを特定するための特定情報とを記憶する履歴テーブルを含んだ履歴情報格納部112および広告管理テーブル108bを備えている。そして、履歴情報解析部113は、この履歴テーブルに基づいてクリック率の低い広告コンテンツを選択し、これに対応付けられる特徴語を、広告管理テーブル108bから選択できる。そして、履歴情報解析部113は、選択した特徴語をストップワード辞書107bに登録することで、特徴語抽出部101は、特徴語抽出処理時においてストップワード辞書107bを参照することで、抽出した特徴語から該当する特徴語を除外することができる。これにより、適切な特徴語を抽出することができ、その適切な特徴語に基づいた効果の高い広告情報を選択することができる。なお、広告管理テーブル108bを用いることなく、履歴テーブルの広告ID等にさらに特徴語を紐づけて記憶するようにしてもよい。
[第4実施形態]
つぎに、第4実施形態に係る広告生成サーバ1cについて説明する。図15は、第4実施形態の広告生成サーバ1cの機能を示すブロック図である。この広告生成サーバ1cは、第1実施形態の広告生成サーバ1の機能とほぼ同様の構成をとるものであり、特徴語抽出部101a(特徴語抽出手段)のみが相違する。
この特徴語抽出部101aは、ユーザ端末において表示される表示領域と非表示領域とからなる記事データからそれぞれ特徴語を抽出する点で、特徴語抽出部101と異なるものである。この特徴語抽出部101aは、まず、表示領域から特徴語抽出処理を行い、そこで所定の条件を満たさなかった場合には、被表示領域から特徴語抽出処理を行うものである。以下、特徴語抽出処理について説明する。
この第4実施形態においては、ユーザ端末では、図16示すような記事データの冒頭のみが表示されており、この記事データの冒頭部分に埋め込まれているアンカー(リンク情報)に基づいた画面遷移を経て記事データの全文が閲覧可能なものを想定する。以後、記事データ全文のうち、画面遷移前の状態で閲覧可能な部分を表示領域(表示情報)、リンク情報のユーザによる操作に従って画面遷移を経て初めて閲覧可能になる部分を非表示領域(非表示情報)と呼ぶ。
ここで、特徴語抽出部101aにより抽出された特徴語を用いた広告コンテンツの検索処理時において、表示領域内のテキストからの特徴語のみでは十分な数の広告が生成できなかった場合、非表示領域のテキストから特徴語を抽出することが考えられる。しかしながら、表示領域のテキストと非表示領域のテキストとの結びつきがなく、非表示領域から抽出した特徴語では、結果的に記事データに関連する広告コンテンツを抽出することができない可能性がある。以上のような問題を鑑み、第4実施形態における広告生成サーバ1cは、記事データ内の単語間の共起関係を解析し、非表示領域から特徴語の抽出を行う際に、表示領域内の単語の共起関係により重み付けを行って、その特徴語の妥当性を判断する。
ここで、ある単語xが出現する文書の集合X、単語yが出現する文書の集合Yを考えたとき、単語xと単語yとの共起度SIM(x,y)は、例えば式(6)に示すようなJaccard係数により与えられる。
Figure 0006228425


ここで、|X∪Y|は集合Xと集合Yとの少なくともいずれか一方に含まれる文書の数、|X∩Y|は集合Xと集合Yとの両方に含まれる文書の数を表す。
これを第4実施形態における表示領域の単語と比表示領域の単語に当てはめてみる。記事データにおける表示領域内の単語集合Wにおいて、非表示領域内の任意の一の特徴語w’のスコアは、単語集合W内の各単語との共起度の積分値
Figure 0006228425


により与えられる。
式(7)に基づいたスコアを用いることで、非表示領域内の単語であっても、表示領域内の単語から推測がつきやすい単語が選択されるようになり、納得感のある広告コンテンツを選択することができる。
図17は、広告生成サーバ1cの特徴語抽出部101aによる非表示領域から特徴語を抽出するときの処理を示すフローチャートである。
まず、特徴語抽出部101aは、記事データの表示領域から特徴語を抽出する(S41)。ここで、NGワード辞書107aを参照して、NGワードが含まれていない場合には(S42)、検索順序決定部102は、特徴語を検索する順序に並び替える(S43)。検索部103は、指定値に達するまで、検索処理を繰り返し行う(S44)。
つぎに、検索部103が検索した広告コンテンツ数が指定値に達しない場合(S45)、特徴語抽出部101aは、記事データにおける非表示領域から特徴語の抽出処理を行う(S46)。そして、NGワード辞書107aを参照して、NGワードが含まれていない場合には(S47)、特徴語抽出部101aは、上述式(7)を用いて、非表示領域から抽出した特徴語と表示領域からの特徴語との共起度の積分値を算出する。そして、その上位の積分値の非表示領域からの特徴語を一つまたは複数選択する(S48)。そして、検索部103は、選択した非表示領域からの特徴語を用いた検索処理を行い、所定の広告コンテンツの抽出を行う(S49)。
つぎに、第4実施形態の広告生成サーバ1cの作用効果について説明する。 この広告生成サーバ1cにおいて、特徴語抽出部101aは、Web画面における表示領域に含まれる特徴語と、非表示領域に含まれる特徴語との共起度を算出し、あらかじめ定めた順位以上の共起度を有する非表示情報に含まれる特徴語を抽出する。これにより、表示領域の特徴語から推測しやすい特徴語を、非表示領域から抽出することができ、納得感の高い広告情報の選択を行うことができる。
[ハードウェア構成]
上述第1実施形態から第4実施形態における広告生成サーバ1〜広告生成サーバ1cのハードウェア構成について説明する。図18は、上述広告生成サーバ1〜広告生成サーバ1cのハードウェア構成図である。広告生成サーバ1〜広告生成サーバ1cのそれぞれは、物理的には、図18に示すように、一または複数のCPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスクまたは半導体メモリ等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図1等の各機能ブロック図における各機能は、図18に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
101…特徴語抽出部、101a…特徴語抽出部、102…検索順序決定部、103…検索部、104…情報選択部、105…情報抽出部、106…配信部、107…辞書データ格納部、107a…NGワード辞書、107b…ストップワード辞書、107c…カテゴリ辞書、107d…ジャンル対応テーブル、108…配信情報格納部、108a…記事管理テーブル、108b…広告管理テーブル、109…カテゴリ語抽出部、110…ジャンル対応解析部、111…履歴情報収集部、112…履歴情報格納部、113…履歴情報解析部。

Claims (9)

  1. 入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度を特徴語ごとに算出する特徴度算出手段と、
    入力した文書情報を単語分割して得られた複数の単語から、当該文書情報を特徴付ける単語を特徴語として抽出する特徴語抽出手段と、
    前記特徴語抽出手段により抽出された特徴語を、前記特徴度算出手段により算出された特徴度に基づいて定められた順序に並び替える検索順序決定手段と、
    前記検索順序決定手段により決定された順序の特徴語で、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する検索手段と、
    前記検索手段により取得された複数の広告情報から、広告配信の対象とする広告情報を選択する情報選択手段と、
    文書情報のジャンルを示す文書ジャンルと、広告情報のカテゴリを示す広告カテゴリとを対応付けたジャンル対応テーブルと、を備え
    前記検索手段により検索された検索結果に含まれる広告情報は、その広告カテゴリを含んでおり、
    前記情報選択手段は、前記ジャンル対応テーブルに従って、前記入力された文書情報の文書ジャンルに対応する広告カテゴリに属する広告情報を、前記取得された検索結果から選択する、
    広告生成装置。
  2. 広告情報のカテゴリを示す広告カテゴリを単語と対応付けたカテゴリテーブルをさらに備え、
    前記検索手段は、前記特徴語抽出手段により抽出された特徴語に一致する単語が、前記カテゴリテーブルに記述されている場合、当該単語に対応付けられた広告カテゴリに絞り込んだ検索処理を実行する、請求項1に記載の広告生成装置。
  3. 広告情報を検索取得対象から除外するためのNG単語を記憶するNG単語テーブルをさらに備え、
    前記情報選択手段は、前記取得された検索結果から、前記NG単語テーブルに記憶されているNG単語を含んでいる広告情報を除去する、請求項1または2に記載の広告生成装置。
  4. 前記特徴語抽出手段は、
    入力した文書情報を単語分割して得られた複数の単語を、事前定義されたルールに従って連結して、特徴語を生成する、請求項1から3のいずれか一項に記載の広告生成装置。
  5. 前記特徴度算出手段により算出された単語のそれぞれの出現度合いに基づいて、特徴的ではない単語を記憶するストップワード記憶手段と、
    を備え、
    前記特徴語抽出手段は、前記ストップワード記憶手段に記憶されている単語に一致する特徴語を、抽出した特徴語から除去する、請求項1から4のいずれか一項に記載の広告生成装置。
  6. 広告情報の付与対象となる文書情報の文書ジャンルと、広告情報の広告カテゴリとの全ての組み合わせに対して、文書ジャンルに属する全文書情報に基づいた語彙ベクトルと広告カテゴリに属する全広告情報に基づいた語彙ベクトルとに基づいて文書ジャンルと広告カテゴリとの類似度を算出し、所定の類似度を有する文書ジャンルと広告カテゴリとの組み合わせを、前記ジャンル対応テーブルに追加するジャンル対応解析手段をさらに備える、
    請求項1から5のいずれか一項に記載の広告生成装置。
  7. 前記情報選択手段により選択された広告情報と、当該広告情報に対する検索時に用いられた特徴語とを記憶する広告情報管理テーブルと、
    配信された広告情報を特定するための特定情報と、当該配信された広告情報のうちクリックされた広告情報を特定するための特定情報とを記憶する履歴テーブルと、
    前記履歴テーブルに基づいて、各広告情報のクリック履歴を解析する履歴情報解析手段と、
    をさらに備え、
    前記特徴語抽出手段は、前記履歴テーブルおよび前記広告情報管理テーブルに従って、クリック率の低い広告情報に対応する特徴語を、抽出した特徴語から除外する、請求項1から6のいずれか一項に記載の広告生成装置。
  8. 前記特徴語抽出手段は、
    端末の画面に表示される表示情報と、当該表示情報における所定のリンク情報を操作することにより表示される非表示情報とからなる文書情報に対して、
    前記表示情報に含まれる特徴語と、前記非表示情報に含まれる特徴語との共起度を算出し、
    あらかじめ定めた順位以上の共起度を有する特徴語を非表示情報から抽出する、請求項1から7のいずれか一項に記載の広告生成装置。
  9. 広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する広告生成装置における広告生成方法において、
    入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度を算出する特徴度算出ステップと、
    入力した文書情報を単語分割して得られた複数の単語から、当該文書情報を特徴付ける単語を特徴語として抽出する特徴語抽出ステップと、
    前記特徴語抽出ステップにより抽出された特徴語を、前記特徴度算出ステップにより算出された特徴度に基づいて定められた順序に並び替える検索順序決定ステップと、
    前記検索順序決定ステップにより決定された順序の特徴語で、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する検索ステップと、
    前記検索ステップにより取得された複数の広告情報から、広告配信の対象とする広告情報を選択する情報選択ステップと、備え
    前記検索ステップにより検索された検索結果に含まれる広告情報には、その広告カテゴリが含まれており、
    前記情報選択ステップでは、文書情報のジャンルを示す文書ジャンルと広告情報のカテゴリを示す広告カテゴリとを対応付けたジャンル対応テーブルに従って、前記入力された文書情報の文書ジャンルに対応する広告カテゴリに属する広告情報が、前記取得された検索結果から選択される、
    広告生成方法。
JP2013222606A 2013-10-25 2013-10-25 広告生成装置および広告生成方法 Active JP6228425B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013222606A JP6228425B2 (ja) 2013-10-25 2013-10-25 広告生成装置および広告生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013222606A JP6228425B2 (ja) 2013-10-25 2013-10-25 広告生成装置および広告生成方法

Publications (2)

Publication Number Publication Date
JP2015084178A JP2015084178A (ja) 2015-04-30
JP6228425B2 true JP6228425B2 (ja) 2017-11-08

Family

ID=53047746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013222606A Active JP6228425B2 (ja) 2013-10-25 2013-10-25 広告生成装置および広告生成方法

Country Status (1)

Country Link
JP (1) JP6228425B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5993068B1 (ja) * 2015-07-16 2016-09-14 ヤフー株式会社 選択装置、選択方法、選択プログラム、端末装置、及び表示プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792698B1 (ko) * 2006-03-14 2008-01-08 엔에이치엔(주) 시드를 이용한 광고 매칭 방법 및 광고 매칭 시스템
JP5311378B2 (ja) * 2008-06-26 2013-10-09 国立大学法人京都大学 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP2011529600A (ja) * 2008-07-29 2011-12-08 テキストワイズ・リミテッド・ライアビリティ・カンパニー 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP4809403B2 (ja) * 2008-08-01 2011-11-09 ヤフー株式会社 広告配信装置、広告配信方法、及び広告配信制御プログラム
US20110264507A1 (en) * 2010-04-27 2011-10-27 Microsoft Corporation Facilitating keyword extraction for advertisement selection
JP5225425B2 (ja) * 2011-04-26 2013-07-03 ヤフー株式会社 広告処理装置及び方法

Also Published As

Publication number Publication date
JP2015084178A (ja) 2015-04-30

Similar Documents

Publication Publication Date Title
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
US8321278B2 (en) Targeted advertisements based on user profiles and page profile
US8768922B2 (en) Ad retrieval for user search on social network sites
US8782037B1 (en) System and method for mark-up language document rank analysis
US20140278939A1 (en) Advertisement extraction device and advertisement extraction method
US8122049B2 (en) Advertising service based on content and user log mining
US20120303444A1 (en) Semantic advertising selection from lateral concepts and topics
US20090287676A1 (en) Search results with word or phrase index
US20120158693A1 (en) Method and system for generating web pages for topics unassociated with a dominant url
US20090249229A1 (en) System and method for display of relevant web page images
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
WO2008094289A2 (en) A method of choosing advertisements to be shown to a search engine user
TWI417751B (zh) Information providing device, information providing method, information application program, and information recording medium
TWI399657B (zh) A provider, a method of providing information, a program, and an information recording medium
JP6228425B2 (ja) 広告生成装置および広告生成方法
US8510289B1 (en) Systems and methods for detecting commercial queries
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
JP5903370B2 (ja) 情報検索装置、情報検索方法、及びプログラム
JP5068304B2 (ja) 抽出装置、方法及びプログラム
TW201908993A (zh) 網站閱讀者之興趣喜好程度之分析方法
US20210295371A1 (en) Advanced search engine for business
AU2011204929B2 (en) Ranking blog documents
Kidambi et al. Performance of Annotation-Based Image Retrieval
CN110737851A (zh) 超链的语义化方法、装置、设备及计算机可读存储介质
EP2245553A1 (en) Method to search for a user generated content web page

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171013

R150 Certificate of patent or registration of utility model

Ref document number: 6228425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250