JP6228425B2

JP6228425B2 - 広告生成装置および広告生成方法

Info

Publication number: JP6228425B2
Application number: JP2013222606A
Authority: JP
Inventors: 勇二森; 大祐鳥居
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-10-25
Filing date: 2013-10-25
Publication date: 2017-11-08
Anticipated expiration: 2033-10-25
Also published as: JP2015084178A

Description

本発明は、広告情報を提供する広告生成装置および広告生成方法に関する。

インターネット広告の掲載手法の一つにコンテンツ連動型広告が知られている。このコンテンツ連動型広告では、広告を掲載するサイトに掲載された記事の内容にマッチした広告を掲載することでユーザの嗜好と合ったものを提供することができる。例えば、コンテンツ連動型広告の提供事業者として、Google (http://www.google.com/adsense/?hl=ja)、Yahoo (http://promotionalads.yahoo.co.jp/service/ydn/index.html)などがある。これらのサービスでは、サイト運営者がサービス提供事業者の提供するタグを自身のサイトに埋め込むことで、そのサイト内にどのようなキーワードが含まれるのかを解析し、最も好ましいと判断したキーワードに基づいた広告を掲載する。

より具体的には、これらのサービスでは、キーワード、ＵＲＬ、キャッチフレーズ等の入稿データと、広告表示対象となるサイト内のテキストに含まれるキーワード（すなわち当該サイトにおいて推定される話題）との適合度、広告料、遷移先サイトの質等を考慮して最も適切だと思われるキーワードを選択することで、サイト内に表示すべき広告コンテンツを決定することができる。これら決定処理は、人手による入稿データに基づいているため、当該入稿データに基づいた最も適切であると思われるキーワードが存在しない場合がありえ、その場合、同様のサービスを提供することができない。

このため、人手による入稿データを用いない手法が考えられており、特許文献１に記載の技術が挙げられる。この特許文献１においては、広告効果を向上させる広告配信システムに関するものであって、ＷＥＢページを解析して、その上位にあるＷＥＢページの特徴的なキーワードを抽出し、抽出したキーワードに関連する広告情報を取得することの記載がある。

特開２０１２−７８４１０号公報

しかしながら、この特許文献１においては、特徴的なキーワードから得られた広告情報をそのまま採用している。そのため、広告情報として適切でないもの、例えば広告効果のそれほど高くない広告情報を選択する場合があり得る。

そこで、本発明においては、広告効果の高い広告情報を選択することができる広告生成装置および広告生成方法を提供することを目的とする。

上述の課題を解決するために本発明の広告生成装置は、入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度を算出する特徴度算出手段と、入力した文書情報を単語分割して得られた複数の単語から、当該文書情報を特徴付ける単語を特徴語として抽出する特徴語抽出手段と、前記特徴語抽出手段により抽出された特徴語を、前記特徴度算出手段により算出された特徴度に基づいて定められた順序に並び替える検索順序決定手段と、前記検索順序決定手段により決定された順序の特徴語で、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する検索手段と、前記検索手段により取得された複数の広告情報から、広告配信の対象とする広告情報を選択する情報選択手段と、を備える。

また、本発明の広告生成方法は、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する広告生成装置における広告生成方法において、入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度を算出する特徴度算出ステップと、入力した文書情報を単語分割して得られた複数の単語から、当該文書情報を特徴付ける単語を特徴語として抽出する特徴語抽出ステップと、前記特徴語抽出ステップにより抽出された特徴語を、前記特徴度算出ステップにより算出された特徴度に基づいて定められた順序に並び替える検索順序決定ステップと、前記検索順序決定ステップにより決定された順序の特徴語で、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する検索ステップと、前記検索ステップにより取得された複数の広告情報から、広告配信の対象とする広告情報を選択する情報選択ステップと、備える。

この発明によれば、入力した文書情報を単語分割して得られた複数の単語から、当該文書を特徴付ける単語を特徴語として抽出し、抽出された特徴語を、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度に基づいて定められた順序に並び替え、その順序の特徴語で、インデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得し、取得された複数の広告情報から、広告配信の対象とする広告情報を選択する。これにより、文書情報にあった広告情報を選択することができるという効果を奏する。特に、各文書ジャンルにおいて偏りのなく出現する特徴語は、重要な特徴語ではないため、これを除去するようにすることで、各ジャンルにおいて重要な特徴語を優先的に検索に用いることができ、より納得感の高い広告情報を選択することができる、という効果を得ることができる。

また、本発明の広告生成装置は、広告情報のカテゴリを示す広告カテゴリを単語と対応付けたカテゴリテーブルをさらに備え、前記検索手段は、前記特徴語抽出手段により抽出された特徴語に一致する単語が、前記カテゴリテーブルに記述されている場合、当該単語に対応付けられた広告カテゴリに絞り込んだ検索処理を実行する。

また、この発明によれば、抽出された特徴語に一致する単語が、カテゴリテーブルに記述されている場合、当該単語に対応付けられた広告カテゴリに絞り込んだ検索処理を実行する。これにより、特定の広告カテゴリに絞り込んだ検索処理を行うことができ、検索エンジンによる負荷を軽減することができるとともに、検索結果の適合度を向上させることができる。

また、本発明の広告生成装置は、広告情報を検索取得対象から除外するためのＮＧ単語を記憶するＮＧ単語テーブルをさらに備え、前記情報選択手段は、前記取得された検索結果から、前記ＮＧ単語テーブルに記憶されているＮＧ単語を含んでいる広告情報を除去する。

また、この発明によれば、検索結果から、ＮＧ単語テーブルに記憶されているＮＧ単語を含んでいる広告情報を除去することで、文書データに対して納得感の高い広告情報を選択することができる。

また、本発明の広告生成装置は、文書情報のジャンルを示す文書ジャンルと、広告情報のカテゴリを示す広告カテゴリとを対応付けたジャンル対応テーブルをさらに備え、前記検索手段により検索された検索結果に含まれる広告情報は、その広告カテゴリを含んでおり、前記情報選択手段は、前記ジャンル対応テーブルに従って、前記入力された文書情報の文書ジャンルに対応する広告カテゴリに属する広告情報を、前記取得された検索結果から選択する。

この発明によれば、ジャンル対応テーブルに従って、入力された文書情報の文書ジャンルに対応する広告カテゴリに属する広告情報を、取得された検索結果から選択することで、文書情報のジャンルと結びつきの強い広告カテゴリに属する広告情報を選択することができ、より納得感の高い広告情報を選択することができる。

また、本発明の広告生成装置において、前記特徴語抽出手段は、入力した文書情報を単語分割して得られた複数の単語を、事前定義されたルールに従って連結して、特徴語を生成する。

また、この発明によれば、入力した文書情報を単語分割して得られた複数の単語を、事前定義されたルールに従って連結して、特徴語を生成することで、適切な特徴語を抽出することができる。

また、本発明の広告生成装置は、前記特徴度算出手段により算出された単語のそれぞれの出現度合いに基づいて、特徴的ではない単語を記憶するストップワード記憶手段と、を備え、前記特徴語抽出手段は、前記ストップワード記憶手段に記憶されている単語に一致する特徴語を、抽出した特徴語から除去する。

この発明によれば、入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報の文書ジャンルごとの出現度合いを算出し、算出された単語のそれぞれの出現度合いに基づいて、特徴的ではない単語を記憶しておく。そして、特徴語の抽出処理をする際においては、この記憶された単語に基づいた特徴語の抽出処理を行う。これにより、特徴的ではない特徴語を使った検索処理を行うことを防止し、納得感のある広告情報を選択することができる。

また、本発明の広告生成装置は、広告情報の付与対象となる文書情報の文書ジャンルと、広告情報の広告カテゴリとの全ての組み合わせに対して、文書ジャンルに属する全文書情報に基づいた語彙ベクトルと広告カテゴリに属する全広告情報に基づいた語彙ベクトルとに基づいて文書ジャンルと広告カテゴリとの類似度を算出し、所定の類似度を有する文書ジャンルと広告ジャンルとの組み合わせを、前記ジャンル対応テーブルに追加するジャンル対応解析手段をさらに備える。

この発明によれば、文書ジャンルに属する全文書情報に基づいた語彙ベクトルと広告カテゴリに属する全広告情報に基づいた語彙ベクトルとに基づいて、所定の類似度を有する文書ジャンルと広告ジャンルとの組み合わせを、ジャンル対応テーブルに追加する。これにより、より結びつきの強いジャンルとカテゴリとをジャンル対応テーブルに追加することができ、このジャンル対応テーブルを利用して広告情報を選択することができる。

また、本発明の広告生成装置は、前記情報選択手段により選択された広告情報と、当該広告情報に対する検索時に用いられた特徴語とを記憶する広告情報管理テーブルと、配信された広告情報を特定するための特定情報と、当該配信された広告情報のうちクリックされた広告情報を特定するための特定情報とを記憶する履歴テーブルと、前記履歴テーブルに基づいて、各広告情報のクリック履歴を解析する履歴情報解析手段と、をさらに備え、前記特徴語抽出手段は、前記履歴テーブルおよび前記広告情報管理テーブルに従って、クリック率の低い広告情報に対応する特徴語を、抽出した特徴語から除外する。

この発明によれば、履歴テーブルおよび広告情報管理テーブルに従って、クリック率の低い広告情報に対応する特徴語を、抽出した特徴語から除外することができ、適切な特徴語を抽出することができ、その適切な特徴語に基づいた効果の高い広告情報を選択することができる。

また、本発明の広告生成装置において、前記特徴語抽出手段は、初期画面として表示される表示情報と、当該表示情報における所定のリンク情報を操作することにより表示される非表示情報とからなる文書情報に対して、前記表示情報に含まれる特徴語と、前記非表示情報に含まれる特徴語との共起度を算出し、あらかじめ定めた順位以上の共起度を有する特徴語を非表示情報から抽出する。

この発明によれば、表示情報に含まれる単語と、非表示情報に含まれる単語との共起度を算出し、あらかじめ定めた順位以上の共起度を有する非表示情報に含まれる単語を特徴語として抽出する。これにより、表示情報の単語から推測しやすい単語を、被表示情報から特徴語として抽出することができ、納得感の高い広告情報の選択を行うことができる。

この発明によれば、人手により生成された入稿データを用いることなく、広告効果の高い広告情報を選択することができる。

第1実施形態における広告生成サーバ１である広告生成サーバ１の機能を示すブロック図である。広告生成サーバ１における、特定の記事データに対して広告コンテンツを付与する処理の全体の流れを示すフローチャートである。特徴語抽出処理を詳細に示すフローチャートである。広告コンテンツの検索処理および広告コンテンツの選択処理の詳細な処理を示すフローチャートである。事前定義による単語の連結処理を模式的に示した模式図である。カテゴリ辞書１０７ｃのデータ例を示す説明図である。ジャンル対応テーブル１０７ｄのデータ例を示す説明図である。記事管理テーブル１０８ａのデータ例を示す説明図である。広告管理テーブル１０８ｂのデータ例を示す説明図である。第２実施形態における広告生成サーバ１ａの機能を示すブロック図である。カテゴリ語抽出動作を示すフローチャートである。特徴度テーブルのデータ例を示す。第３実施形態の広告生成サーバ１ｂの機能を示すブロック図である。履歴情報格納部１１２に記憶されている履歴情報のデータ例を示す説明図である。第４実施形態の広告生成サーバ１ｃの機能を示すブロック図である。記事データを示す模式図である。非表示領域から特徴語を抽出するときの処理を示すフローチャートである。広告生成サーバ１〜広告生成サーバ１ｃのハードウェア構成図である。

以下、本願発明を実施するための形態について、以下の実施例に基づき図面を参照しつつ説明する。なお、これはあくまでも一例であって本発明の技術的範囲はこれに限られるものでない。本実施形態の説明に当たり、用語を以下の通り定義する。
記事データ：広告の付与対象となるテキスト情報であり、処理を行う際に意味を持った一つの単位を示す。
ジャンル：記事データのうち、似た話題を扱うものの分類であり、いわゆる記事ジャンルを示す。
カテゴリ：広告として表示する広告コンテンツ（広告情報）の分類であり、いわゆる広告カテゴリを示す。

[第１実施形態]
図１は、第1実施形態における広告生成装置である広告生成サーバ１に備わる機能要素のうち、本実施形態に特に関連するものの機能ブロック図を示す。図１における広告生成サーバ１は、特徴語抽出部１０１（特徴語抽出手段）、検索順序決定部１０２（特徴度算出手段、検索順序決定手段）、検索部１０３（検索手段）、情報選択部１０４（情報選択手段）、情報抽出部１０５、配信部１０６、辞書データ格納部１０７、および配信情報格納部１０８を少なくとも有する。辞書データ格納部１０７は、ＮＧワード辞書１０７ａ（ＮＧ単語テーブル）、ストップワード辞書１０７ｂ（ストップワード記憶手段）、カテゴリ辞書１０７ｃ（カテゴリテーブル）、およびジャンル対応テーブル１０７ｄを含んでいる。また、配信情報格納部１０８は、記事管理テーブル１０８ａおよび広告管理テーブル１０８ｂ（広告情報管理テーブル）を含んでいる。以下、図１に示す機能ブロック図に基づいて、各機能ブロックを説明する。

特徴語抽出部１０１は、広告コンテンツの付与対象となる記事データを記事管理テーブル１０８ａから読み出し、該記事データを特徴付ける単語を抽出する。単語の抽出は形態素解析により文書を単語分割した上で必要な品詞を抜き出しても良いし、事前定義した辞書を用いて部分一致探索により抽出しても良い。本実施例では形態素解析による手順について説明する。

検索順序決定部１０２は、特徴語抽出部１０１が抽出した複数の特徴語を広告の生成に用いるのに効果的と思われる順序を決定する部分である。この検索順序決定部１０２は、決定した順序に、複数の特徴語を並び替える。これにより、検索部１０３は、検索エンジンに問い合わせを行う段階で検索回数を減らすことができる。

検索部１０３は、検索順序決定部１０２が決めた順序で特徴語を、検索エンジンに対して問い合わせを行うことで検索を行い、この検索エンジンから一または複数の広告コンテンツを含んだ検索結果を取得する部分である。この検索エンジンは、広告コンテンツを検索するためのエンジン（検索用サーバ）であり、広告情報のインデックス情報を保持している。よって、この検索部１０３は、検索エンジンに問い合わせをすることにより広告情報の検索を行うことができる。

また、検索部１０３は、検索の際にカテゴリ辞書１０７ｃを参照し、特徴語が特定のカテゴリに特徴的な単語であることが示されている場合はカテゴリを絞り込んだ検索を行うことで検索エンジンの負荷を下げるとともに検索結果の適合度を向上させる。カテゴリを絞り込んだ検索処理の例として、例えば、検索部１０３は、検索エンジンに対して、特徴語とカテゴリとからなる問い合わせを出力すると、検索エンジンは、そのカテゴリを絞り込んだ検索処理を行う。また、カテゴリごとに複数の検索エンジンが存在しており、そのカテゴリにあった検索エンジンに対して、検索部１０３が問い合わせをするようにしてもよい。

情報選択部１０４は、検索部１０３が取得した検索結果から広告コンテンツとして使用するべきものを決定する。この情報選択部１０４は、検索部１０３により検索された検索結果から、ＮＧワード辞書１０７ａおよびジャンル対応テーブル１０７ｄを参照することで、不適切な検索結果を除外することができる。

情報抽出部１０５は、情報選択部１０４の決定に従い、広告コンテンツからタイトル、遷移先ＵＲＬ等の広告配信に必要な情報を抽出するとともに、この広告コンテンツを検索する際に使用された特徴語を検索部１０３から受け取り、広告管理テーブル１０８ｂに記憶する部分である。

配信部１０６は、ユーザからのリクエストに従い、配信情報格納部１０８から記事データおよび当該記事データに付随する広告コンテンツを抽出して、配信する部分である。

辞書データ格納部１０７は、各種辞書データを記憶する部分であり、ＮＧワード辞書１０７ａ、ストップワード辞書１０７ｂ、カテゴリ辞書１０７ｃ、およびジャンル対応テーブル１０７ｄを記憶する部分である。

ＮＧワード辞書１０７ａは、広告コンテンツを付与するものとして不適切な記事データを判断するための単語、または広告コンテンツに含まれる単語として不適切な単語をそれぞれＮＧワードとして記述する部分である。このようなＮＧワードは、本サービスのオペレータや、広告提供者などにより設定される。例えば、記事データが凶悪事件に関するものである場合、そのようなものに広告コンテンツを付与することは広告主としては望ましくない。よって、凶悪事件を連想するような単語をあらかじめＮＧワードとしてＮＧワード辞書１０７ａに記述しておく。そして、検索部１０３は、抽出された特徴語に基づく検索処理時に、ＮＧワード辞書１０７ａを参照して、広告コンテンツの検索に用いる特徴語がＮＧワードを含んでいる場合には、その特徴語に基づいた広告コンテンツの検索処理を中止することができる。

また、同様に、広告コンテンツが不適切な単語を含んでいた場合にも、その広告コンテンツを除去するための単語をＮＧワード辞書１０７ａに記述しておく。情報選択部１０４は、広告コンテンツの選択時において、ＮＧワード辞書１０７ａを参照することで、そのようなＮＧワードを含んだ広告コンテンツを検索結果から取り除くことができる。

ストップワード辞書１０７ｂは、記事データから抽出される特徴語として不適切な単語を記述する部分である。特徴語抽出部１０１は、ストップワード辞書１０７ｂを参照することで、不適切な特徴語を除外して特徴語を抽出することができる。

カテゴリ辞書１０７ｃは、単語とカテゴリとを対応付けたデータベースである。図６にその具体例を説明する。図６に示される通り、単語ごとにカテゴリが記述されている。検索部１０３は、このカテゴリ辞書１０７ｃを参照することにより、特徴語（単語）に対応するカテゴリを抽出し、そのカテゴリで示される複数の広告コンテンツを対象に検索処理を行う。

ジャンル対応テーブル１０７ｄは、ジャンル（記事ジャンル）とカテゴリ（広告カテゴリ）とを対応付けて記述するデータベースである。図７に、その具体例を示す。図７に示される通り、ジャンル対応テーブル１０７ｄは、ジャンルに対応したカテゴリが記述されており、カテゴリ欄には、複数の単語が記述されている。情報選択部１０４は、このジャンル対応テーブル１０７ｄを参照することで、ある記事データから抽出した特徴語を使った広告コンテンツの検索処理時において、その記事データのジャンルに対応するカテゴリに属さない広告コンテンツを検索結果から取り除く処理を行うことができる。

配信情報格納部１０８は、記事管理テーブル１０８ａおよび広告管理テーブル１０８ｂを含んでいる。

記事管理テーブル１０８ａは、記事データを管理するための管理データを記憶する部分である。図８は、その具体例を示しており、記事管理テーブル１０８ａは、記事ＩＤ、ジャンル、タイトル、および本文を対応付けて記憶する部分である。特徴語抽出部１０１は、この記事管理テーブル１０８ａを参照することで、記事データから特徴語の抽出処理を行うことができる。

広告管理テーブル１０８ｂは、広告コンテンツを管理するための管理データを記憶する部分である。図９は、その具体例を示しており、記事ＩＤ、特徴語、広告タイトル、商品説明文、および遷移先ＵＲＬを対応付けて記述している。配信部１０６は、ユーザ端末からの要求に応じて記事データを配信する際、この広告管理テーブル１０８ｂを参照することにより、配信しようとする記事データに対応付けられている広告コンテンツ（広告タイトル、商品説明文、および遷移先ＵＲＬ）を配信することができる。

つぎに、図２〜図４を用いて、本実施形態の広告生成サーバ１の動作について説明する。尚、記事データは、一意性を持つＩＤの他、ジャンル、タイトル、および本文を最低限持つものとする。また、特に断りが無い場合は特徴語抽出等のテキスト解析処理はタイトルおよび本文の両方を対象に行うものとする。

図２は、本実施形態の広告生成サーバ１における、特定の記事データに対して広告コンテンツを付与する処理の全体の流れを示すフローチャートである。まず、特徴語抽出部１０１は、記事管理テーブル１０８ａを参照して、入力された記事データから特徴語の抽出を行う（Ｓ１１）。ここで、この特徴語抽出処理について図を用いて詳細に説明する。図３は、ステップＳ１１の処理を詳細に示すフローチャートである。以下、ステップＳ１１の動作について詳細に説明する。

特徴語抽出部１０１は、事前に定義された除外正規表現に従い、入力した記事データのうち、当該除外正規表現にマッチする部分を削除する（Ｓ２１）。ここでは、ＵＲＬやメールアドレス等、文章の特徴と関連の小さいと思われる部分を処理から除外する。

つぎに、特徴語抽出部１０１は、ステップＳ２１の処理を実施した後の記事データに対して連結語正規表現をマッチし、マッチした位置を記憶しておく（Ｓ２２）。ここでは、アルファベットやカタカナ等、単語やフレーズとして一連の意味を持つ可能性が高い文字種に対して検索語を連結することで検索処理時のミスマッチを軽減する。例えば、「000xxxyyyz01xx」という文字列に対して[x-z]+という正規表現を適用した場合、マッチの開始位置と終了位置とを示す(3,9)および(12,13)が記憶される。

特徴語抽出部１０１は、ステップＳ２２に入力したものと同じテキストを、形態素解析を行うことで単語単位に分割する（Ｓ２３）。例として、ステップＳ２２で示した文字列の形態素解析結果を「000 xxx yyy z01 xx」とする。ここで、スペースは単語境界を示す。

そして、特徴語抽出部１０１は、ステップＳ２２の結果に従い、ステップＳ２３における単語境界を保持したまま文字種に従った連結を行う（Ｓ２４）。図５に本ステップの実施イメージを示す。正規表現の開始・終了位置と単語境界とが一致しない場合は、開始・終了位置を包含する最も近い単語境界まで連結を行う。ステップＳ２２、Ｓ２３で例示した文字列の連結結果は「000 xxxyyyz01 xx」となる。

つぎに、特徴語抽出部１０１は、形態素解析の際に付与された各単語の品詞情報に従い、検索に用いる単語と検索に用いない単語とを抽出するためのフィルタリング処理を行い、検索に用いる単語の抽出処理を行う（Ｓ２５）。例えば、名詞を検索に用いる単語とする場合には、名詞である単語の抽出処理を行う。

そして、特徴語抽出部１０１は、ストップワード辞書１０７ｂに含まれる単語を、ステップＳ２１〜Ｓ２５までにおいて抽出処理された単語から除外して、広告コンテンツを選別するための単語を特徴語として抽出する（Ｓ２６）。ここで、ストップワードとは、広告の生成に効果が薄いと思われる一般語のことを指し、例えばＩＤＦ（Inverse Document Frequency）値が一定未満の単語等が挙げられる。ＩＤＦ値は単語の珍しさを表す指標で、式（１）により算出される。

ここで、ｉｄｆ_ｉは単語ｉのＩＤＦ値、｜Ｄ｜はドキュメントの総数、ｄ∋ｔ_ｉは単語ｉを含むドキュメントの総数を指し、珍しい単語ほど大きな値になる。

このようにして、記事データから、広告コンテンツの検索のための特徴語が抽出される。

図２に戻り、引き続き説明する。特徴語の抽出処理が終了すると、特徴語抽出部１０１は、ＮＧワード辞書１０７ａを参照して広告生成対象の記事データから抽出した特徴語がＮＧワードを含むかどうかのチェックを行う（Ｓ１２）。そして、特徴語抽出部１０１は、当該特徴語がＮＧワードを含むと判断する場合には、広告コンテンツの選択を行わずに処理を終了する。

ＮＧワードを含まないと判断されると、検索順序決定部１０２は、特徴語抽出部１０１が抽出した各特徴語に対し、式（２）によって広告生成への効果をスコア化し、スコアの高い順に並び替えを行うことで検索エンジンに対して問い合わせを行う順序を決定する。

ここで、ｊは素性、ｘ_ｊはスコアに使用する素性の値、ｗ_ｊは各素性ｊの重み係数を表す。本実施形態においては、素性ｊは、一の特徴語における全ユーザによる検索回数の度合い（対数で表す）、記事データ内における出現位置（タイトル部分か本文部分か、または本文部分の前半か、後半かなど）、単語が人名かどうか（０もしくは１）、特徴度（単語の偏り度合い）およびＩＤＦ値である。重み係数はあらかじめ素性に応じて設定されているものとする。

ここで、この全ユーザによる検索回数は、検索エンジンや、そのほか検索サーバにおいて、検索キーワードを含んだ検索ログが記憶されており、この検索ログを広告生成サーバ１は事前に取得しておく。検索順序決定部１０２は、この検索ログに基づいて検索回数からその対数を算出する。

また、出現位置についても、検索順序決定部１０２が、その記事データにおける各特徴語の位置を判断し、それに応じて設定された値をその素性の値とする。また、単語が人名か否かは、図示しない人名辞書を用いて判断することができ、ＩＤＦ値については、後述する通り、事前に算出することにより、その素性の値を算出することができる。

また、特徴度とは、特定の単語が特定のジャンルに対してどれくらい特徴的に出現しているかを表す指標であり、特徴語の偏り度合を示すものである。記事データ内に出現する全ての単語とジャンルとの組み合わせに対して算出される。ここで特定の単語は、特徴語抽出部１０１により抽出された特徴語とする。

この特徴度の算出方法を説明する際に、２つの離散確率変数ｘとｙの相互情報量を想定する。以下の式（３）は、その一般式である。

本実施形態においては、ｘおよびｙがそれぞれ単語、ジャンルに相当する。単語ｘがジャンルｙに出現した回数をａ、単語ｘがジャンルｙ以外に出現した回数をｂ、単語ｘ以外がジャンルｙに出現した回数をｃ、単語ｘ以外がジャンルｙ以外に出現した回数をｄ、Ｎ＝ａ＋ｂ＋ｃ＋ｄとすると、単語ｘとジャンルｙとの相互情報量は以下の式（４）により求められる。

複数のジャンルがある場合は全てジャンルについて式（４）の値を求める。単語ｘが全てのジャンルに均等に出現するほど式（４）の値は０に近くなる。本実施形態においては、ある単語ｘの各ジャンルに対する相互情報量の最大値をその単語ｘの特徴度とする。

検索順序決定部１０２は、上述の式（４）による演算処理を単語ごとに事前に行い、特徴語ごとに、相互情報量の最大値を特徴度として算出しておき、これを式（２）に適用することで、特徴語の検索順序を決定することができる。なお、本実施形態においては、検索順序決定部１０２は、少なくとも特徴度に基づいた順序を決定することにより、より特徴的な特徴語を用いた検索処理を実行させることができる。

検索部１０３は、検索順序決定部１０２の決めた順序に従って、特徴語を使った広告コンテンツの検索を行い、情報選択部１０４は、検索結果のうち、広告コンテンツとして用いるものを選択する。そして、情報抽出部１０５は、必要に応じて構造化を行って広告管理データを生成し、この広告管理データを広告管理テーブル１０８ｂに記憶する（Ｓ１４）。広告生成サーバ１においては、生成された広告コンテンツの数が指定された値に達するか、検索を行っていない特徴語が無くなるまで検索処理を繰り返す。

ここで、Ｓ１４について、さらに詳細に説明する。図４は、広告生成サーバ１における、広告コンテンツの検索処理および広告コンテンツの選択処理の詳細な処理を示すフローチャートである。

検索部１０３は、カテゴリ辞書１０７ｃを参照し、検索キーワードとしての役割を有する特徴語がカテゴリ辞書１０７ｃに含まれる場合は当該カテゴリ辞書１０７ｃ内で指定されたカテゴリのみを対象に検索を行う（Ｓ３３）。一方、含まれない場合は、カテゴリを絞り込まずに、全カテゴリを対象に検索を行う（Ｓ３２）。図６にカテゴリ辞書１０７ｃのデータ例を示す。このカテゴリ辞書１０７ｃによると、単語（特徴語）毎にどのカテゴリを対象にした検索を行うかが記載されている。

つぎに、検索部１０３が、ステップＳ３２またはＳ３３にて行った検索の結果を確認し、検索結果が得られなかった場合は、検索結果無しとして、指定された特徴語に対する広告コンテンツの検索処理および選択処理を終了する（ステップＳ３５）。情報選択部１０４は、検索部１０３により検索された検索結果として、広告コンテンツが１件以上ある場合は、その広告コンテンツがＮＧワード辞書１０７ａに規定される単語（つまりＮＧワード）を含むか否かを判断して、ＮＧワードを含む広告コンテンツを検索結果から取り除く（Ｓ３６）。また、情報選択部１０４は、ジャンル対応テーブル１０７ｄを参照して、記事データのジャンルに対して指定されたカテゴリに属さないカテゴリの検索結果を取り除く（Ｓ３７）。記事データのジャンルは、特徴語抽出部１０１が特徴語の抽出対象とした記事データに基づいて、情報選択部１０４が記事管理テーブル１０８ａを参照することにより得られる。

このように、ステップＳ３６では、表示するのに不適切な広告コンテンツを広告の対象から除外し、ステップＳ３７では、記事データのジャンルに対して適合しないカテゴリの広告コンテンツを広告の対象から除外することで、記事データに対してより納得感の高い広告コンテンツを抽出することが可能となる。

そして、情報選択部１０４は、ステップＳ３６およびＳ３７で削除されなかった検索結果のうち、最も上位の広告コンテンツを、記事データに付随して表示するコンテンツとして決定する。情報抽出部１０５は、広告コンテンツから、タイトル、遷移先ＵＲＬ等の広告に必要となる情報を抽出し、広告管理テーブル１０８ｂに記憶する（Ｓ３８）。なお、ここで最も上位の広告コンテンツとは、検索スコアが上位のものを示す。すなわち、本実施形態においては、検索エンジンを利用して広告コンテンツを抽出するものであり、検索結果の妥当性を示すスコアに従った順序で、広告コンテンツのタイトルが検索結果として表示され、その最上位に位置する広告コンテンツを、広告の対象として決定する。

つぎに、第1実施形態における広告生成サーバ１の作用効果について説明する。特徴語抽出部１０１は、入力した記事データを単語分割した上で、当該記事データを特徴付ける単語を特徴語として抽出し、検索順序決定部１０２は、検索回数の度合い、記事データ内における出現位置、単語が人名か否か、文書情報の各文書ジャンルにおける出現の偏り度合を示す特徴度またはＩＤＦ値の少なくともいずれか一つに基づいて定められた特徴語の順序を決定する。なお、少なくとも特徴度を用いることでより高い効果が得られる。
検索部１０３は、この決定された順序の特徴語を用いて、広告コンテンツのインデックス情報を持つ検索エンジンに問い合わせを行う。検索部１０３は、検索結果として複数の広告コンテンツを取得し、情報選択部１０４は、取得された複数の広告コンテンツから、広告配信の対象とする広告情報を選択する。これにより、記事データにあった広告コンテンツを選択することができるという効果を奏する。特に、特徴語における検索サービス上での検索回数や、文書情報における出現位置に応じた順番で、検索することで、出現頻度は低いにもかかわらず重要な特徴語を優先的に検索に用いることができ、より納得感の高い広告情報を選択することができる、という効果を得ることができる。

また、この広告生成サーバ１は、広告コンテンツのカテゴリと単語とを対応づけたカテゴリ辞書１０７ｃを有しており、特徴語抽出部１０１により抽出された特徴語に一致する単語が、カテゴリ辞書１０７ｃに記述されていると、情報選択部１０４が判断する場合、検索部１０３は、当該単語に対応付けられたカテゴリに絞り込んだ検索処理を実行する。これにより、検索エンジンによる負荷を軽減することができるとともに、検索結果の適合度を向上させることができる。

また、この広告生成サーバ１は、ＮＧワード辞書１０７ａを有しており、情報選択部１０４が、検索部１０３により検索された検索結果から、ＮＧワード辞書１０７ａに記憶されているＮＧワード（単語）を含んでいる広告コンテンツを除去することで、記事データに対して納得感の高い広告コンテンツを選択することができる。

また、この広告生成サーバ１において、情報選択部１０４は、記事データのジャンルと広告コンテンツのカテゴリとを対応付けたジャンル対応テーブル１０７ｄに従って、入力された記事データのジャンルに対応するカテゴリの検索結果を取り除く、すなわち、当該カテゴリに属する広告コンテンツを、検索部１０３により取得された検索結果から取得する。これにより、記事データのジャンルと結びつきの強いカテゴリに属する広告コンテンツを選択することができ、より納得感の高い広告情報を選択することができる。

また、この広告生成サーバ１において、特徴語抽出部１０１は、入力した記事データを単語分割して得られた複数の単語を、事前定義されたルールに従って連結して、特徴語を生成することで、適切な特徴語を抽出することができる。すなわち、正規表現の開始位置、終了位置と、形態素解析で分割した単語境界とを比較し、一致しない場合には、その開始、終了位置を包含する最も近い単語境界をまでの連結するようにするものであり、例えば、単語境界を保持しつつ、同一文字種のものを連結するようにするものである。これにより、適切な特徴語を抽出することができる。

[第２実施形態]
つぎに、第２実施形態に係る広告生成サーバ１ａについて説明する。この第２実施形態における広告生成サーバ１ａは、それぞれジャンルに分類された記事データ、およびカテゴリに分類された広告のそれぞれに出現する単語の分布から、ストップワード辞書１０７ｂ、カテゴリ辞書１０７ｃ、およびジャンル対応テーブル１０７ｄのそれぞれのレコードを生成して登録する。

図１０は、広告生成サーバ１ａに備わる様々な機能要素のうち、本実施形態に特に関連する機能要素から構成される機能ブロック図である。なお、図１０に示す通り、広告生成サーバ１ａは、前述の第１実施形態の広告生成サーバ１が備える機能要素を全て含む。本実施形態では、第１実施形態との差分についてのみ説明する。

図１０に示す通り、広告生成サーバ１ａは、前述の第１実施形態の広告生成サーバ１に加え、更にカテゴリ語抽出部１０９（特徴度算出手段）およびジャンル対応解析部１１０（ジャンル対応解析手段）の少なくとも一方を含んで構成される。

カテゴリ語抽出部１０９は、ジャンルごとにより区分された記事データを対象に解析を行い、記事データ内の単語が各ジャンルおよび各カテゴリに対してどれくらい特徴的に出現しているか（以下、特徴度とする）を算出し、所定の特徴度の単語については、ストップワード辞書１０７ｂおよびカテゴリ辞書１０７ｃに登録する部分である。このカテゴリ語抽出部１０９の処理は、定期的に行ってもよいし、初期状態に１回だけ行ってもよい。なお、このカテゴリ語抽出部１０９の処理対象となる単語は、特徴語抽出部１０１により抽出された特徴語とするが、あらかじめ定めた単語を対象としてもよい。また、カテゴリ語抽出部１０９は、機能的には第１実施形態の検索順序決定部１０２の特徴度抽出機能と同じであるため、検索順序決定部１０２で代用してもよい。

ジャンル対応解析部１１０は、記事データのジャンルと広告コンテンツのカテゴリとに出現する語彙の類似性からジャンル対応テーブル１０７ｄのレコードを生成する部分である。

このように構成された広告生成サーバ１ａにおけるカテゴリ語抽出部１０９の詳細な動作について説明する。図１１は、カテゴリ語抽出動作を示すフローチャートである。

カテゴリ語抽出部１０９は、ジャンル分けされた記事データの集合からジャンル特徴度（各ジャンルにおける特徴度）を算出する（Ｓ４１）。ここで、ジャンル特徴度とは、特定の単語が特定のジャンルに対してどれくらい特徴的に出現しているかを表す指標であり、記事データ内に出現する全ての単語とジャンルとの組み合わせに対して算出される。

図１２に、特徴度のデータ例を示し、図示しない特徴度テーブルに記憶される。図１２においては、一の単語に対して、記事データの各ジャンル“政治”“スポーツ”“音楽”が対応付けられており、単語“ＡＡＡ”において、それぞれ０．１、０．１、０．８が対応付けられている。カテゴリ語抽出部１０９は、この特徴度テーブルを参照することにより、ジャンルごとの単語の出現の偏り度合を判断することができる。図１２の例では、カテゴリ語抽出部１０９は、単語“ＡＡＡ”は、ジャンル“音楽”の分野に偏って出現する単語であると判断することができる。

つぎに、この特徴度の算出手順について説明する。なお、記事データを単語の出現順序を考慮しない単語の集合として扱う（ＢａｇｏｆＷｏｒｄｓモデル）。特徴度の算出方法としては、大きく分けて出現頻度、ダイス係数、相互情報量、カイ２乗値といった統計的指標に基づく方法とＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）やロジスティック回帰といった機械学習による方法とが挙げられるが、本実施形態では相互情報量を用いた方法について説明する。

形式的には、２つの離散確率変数ｘとｙの相互情報量は上述の式（３）で定義される。

本実施形態においては、ｘ、ｙがそれぞれ単語、ジャンルに相当する。単語ｘがジャンルｙに出現した回数をａ、単語ｘがジャンルｙ以外に出現した回数をｂ、単語ｘ以外がジャンルｙに出現した回数をｃ、単語ｘ以外がジャンルｙ以外に出現した回数をｄ、Ｎ＝ａ＋ｂ＋ｃ＋ｄとすると、単語ｘとジャンルｙの相互情報量は上述の式（４）により求められる。
複数のジャンルがある場合は全てジャンルについて式（４）の値を求める。単語ｘが全てのジャンルに均等に出現するほど式（４）の値は０に近くなる。本実施形態においては、ある単語ｘの全ジャンルに対する相互情報量の最大値をその単語のジャンル特徴度とする。

そして、カテゴリ語抽出部１０９は、ステップＳ４１で求めた特徴度が所定の閾値ｔｈ_１を下回る単語、つまり記事データにおける特定のジャンルに偏って出現しない単語をストップワード辞書に追加する（Ｓ４２）。

つぎに、カテゴリ語抽出部１０９は、ステップＳ４１と同様の処理をカテゴリ分けされた広告コンテンツの文書集合に対して実施し、特定の単語それぞれに対するそのカテゴリの特徴度（カテゴリ特徴度）を算出し、カテゴリ特徴度が所定の閾値ｔｈ_１を下回る場合はその単語をストップワード辞書に追加し、閾値ｔｈ_１より大きく設定された所定の閾値ｔｈ_２を上回る単語については、その単語をカテゴリ辞書に追加する（ステップＳ４４，Ｓ４５）。

このようにして、カテゴリ語抽出部１０９は、ストップワード辞書１０７ｂおよびカテゴリ辞書１０７ｃの辞書データを生成することができる。

ジャンル対応解析部１１０は、記事データのジャンルと広告コンテンツのカテゴリとの全ての組み合わせに対して、語彙の近さに応じてジャンル対応テーブルのレコードを生成する部分である。このジャンル対応解析部１１０は、あるジャンルおよびカテゴリに属する全ての記事データおよび広告コンテンツによって構成される語彙ベクトルを生成する。すなわち、ジャンル対応解析部１１０は、語彙ベクトルを構成する各指標（単語）が、あるジャンルにおけるすべての記事データにおいてどれぐらい出現しているか、その出現数に基づいて語彙ベクトルを生成する。カテゴリついても同様に、あるカテゴリにおけるすべての広告コンテンツにおいて、どれぐらい語彙ベクトルを構成する各指標（単語）が出現しているか、その出現数に基づいて語彙ベクトルを生成する。

そして、あるジャンルの語彙ベクトルａおよびあるカテゴリの語彙ベクトルｂを考えた場合、２つの語彙ベクトルの類似度は例えば式（５）のコサイン類似度によって求められる。

類似度が所定の閾値を超えるジャンルおよびカテゴリの組み合わせのみをジャンル対応テーブル１０７ｄに追加することで、概念的に近いカテゴリのみを広告として提示することが可能となる。これら語彙ベクトルをすべてのジャンル・カテゴリに対して生成して、類似度を算出することで、概念的に近いジャンルとカテゴリとの組み合わせを求めることができる。

なお、語彙ベクトルは、単語一語ずつをそのまま素性として用いてもよいし、ＳＶＤ（singular value decomposition）といった次元圧縮の手法を用いても良い。

つぎに、第２実施形態のように構成された広告生成サーバ１ａの作用効果について説明する。この第２実施形態の広告生成サーバ１ａによれば、カテゴリ語抽出部１０９が、ジャンル間におけるジャンル特徴度およびカテゴリ間におけるカテゴリ特徴度それぞれ低い単語をストップワード辞書１０７ｂに追加し、特徴語抽出部１０１が、そのような単語を特徴語から外すことで記事データの内容について特徴的でない単語に基づいて広告コンテンツを選択してしまうことを防ぐことができる。

また、カテゴリ語抽出部１０９が、カテゴリ間で特徴度の高い単語をカテゴリ辞書１０７ｃに追加することで検索時にカテゴリを絞り込み、検索時に検索エンジンの負荷を抑えると共により単語にマッチする広告が生成できる。また、概念的に近い関係にあるジャンル・カテゴリの組み合わせのみを広告の対象にすることで記事のジャンルに合った広告を選択することができる

例えば、この広告生成サーバ１ａにおいて、カテゴリ語抽出部１０９は、各単語における文書ジャンルごとの出現度合い（例えば式（４））を算出し、特徴語抽出部１０１は、算出された各単語における文書ジャンルごとの出現度合いに基づいて、各文書ジャンルにおいて、その出現度合いがほぼ均等である単語については、特徴語として抽出しない。すなわち、カテゴリ語抽出部１０９は、ストップワード辞書１０７ｂに、出現度合いがほぼ均等である単語を登録しておくことで、特徴語抽出部１０１は、それを抽出すべき特徴語から排除することができる。これにより、いずれの文書ジャンルにおいても特徴的ではない特徴語の抽出を防止することができ、納得感の得られない広告情報の選択を行うことを防止することができる。

また、同様に、特定の単語におけるカテゴリごとの出現度合いに基づいて、それをストップワード辞書１０７ｂに登録することで、広告コンテンツのカテゴリにおいて特徴的ではない単語を特徴語として抽出することを防止することができる。

また、この広告生成サーバ１ａにおいて、ジャンル対応解析部１１０は、ジャンルに属する全文書情報に基づいた語彙ベクトルと広告カテゴリに属する全広告情報に基づいた語彙ベクトルとをそれぞれ生成し、これら語彙ベクトルに基づいて、所定の類似度を有する文書ジャンルと広告ジャンルとの組み合わせを、ジャンル対応テーブル１０７ｄに追加する。これにより、より結びつきの強いジャンルとカテゴリとをジャンル対応テーブル１０７ｄに追加することができ、このジャンル対応テーブル１０７ｄを利用した広告情報を選択することができる。

[第３実施形態]
つぎに、第３実施形態に係る広告生成サーバ１ｂについて説明する。この第３実施形態に係る広告生成サーバ１ｂにおいて、履歴情報解析部１１３は、配信された広告コンテンツ、およびクリックされた広告コンテンツを解析し、効果の低い広告コンテンツを表示させなくすることができる。これによって、広告の精度を向上させる。

図１３は、広告生成サーバ１ｂに備わる様々な機能要素のうち、本実施形態に特に関連する機能要素から構成される機能ブロック図である。なお、図１３に示す通り、広告生成サーバ１ｂは、前述の第１実施形態の広告生成サーバ１が備える機能要素を全て含む。本実施形態では、第１実施形態との差分についてのみ説明する。

図１３に示す通り、広告生成サーバ１ｂは、前述の第１実施形態の広告生成サーバ１に加え、更に履歴情報収集部１１１、履歴情報格納部１１２（履歴テーブル）、および履歴情報解析部１１３(履歴情報解析手段)を少なくとも含んで構成される。

履歴情報収集部１１１は、配信部１０６を通じてユーザに配信された記事データおよびそのジャンル、それに付随して配信された広告コンテンツ、およびそのカテゴリを収集して、履歴情報格納部１１２に記憶する部分である。また、クリックされた広告コンテンツについても、同様に収集して記憶する。図１４に、履歴情報格納部１１２に記憶されている履歴情報のデータ例を示す。図１４（ａ）は、配信履歴テーブルであり、図１４（ｂ）は、クリック履歴テーブルである。いずれのテーブルにおいても、配信日時（またはクリック日時）、ユーザＩＤ、広告ＩＤ、カテゴリ、記事ＩＤ、およびジャンルを対応付けて記憶している。

これら収集処理は、ユーザの検索処理に応じてリアルタイムに行ってもよいし、検索サーバまたはユーザ端末においてログとして記憶されているところから、定時処理によって収集してもよい。

履歴情報解析部１１３は、履歴情報格納部１１２に記憶された情報を基に特徴語単位、またはジャンル・カテゴリの組み合わせ単位にクリック率の集計を行い、所定のクリック率の検索語をストップワード辞書１０７ｂに登録したり、またジャンル・カテゴリの組み合わせをジャンル対応テーブル１０７ｄから削除したりする。

例えば、履歴情報解析部１１３は、配信回数が一定回数以上の広告コンテンツのうち、そのクリック率（クリックされた回数／配信された回数）を算出し、そのクリック率が所定の閾値を下回る広告コンテンツを特定する。そして、履歴情報解析部１１３は、広告管理テーブル１０８ｂを参照して、広告コンテンツに対応付けられている特徴語を抽出して、その特徴語をストップワード辞書１０７ｂに追加する。

また、履歴情報解析部１１３は、配信回数が一定回数以上の広告コンテンツにおいて、そのクリック率を算出し、そのクリック率が所定の閾値を下回るジャンル・カテゴリの組み合わせを特定する。配信履歴テーブル（またはクリック履歴テーブル）には、広告コンテンツ（広告ＩＤ）に対応付けて、カテゴリとジャンルとが紐づいているため、履歴情報解析部１１３は、特定の広告コンテンツのカテゴリおよびそれに紐づくジャンルを特定することができる。そして、履歴情報解析部１１３は、このようにして特定したカテゴリおよびジャンルの組み合わせをジャンル対応テーブル１０７ｄから削除する。これによって同一条件での広告コンテンツの選択を処理行わなくさせ、クリックされない、すなわち閲覧されない広告コンテンツを提供しないようにすることができる。

つぎに、本第３実施形態のように構成された広告生成サーバ１ｂの作用効果について説明する。

本実施形態の広告生成サーバ１ｂによれば、クリック率の低い条件で広告コンテンツの選択しなくすることで、より効果の高い広告コンテンツを配信することができる。

すなわち、この広告生成サーバ１ｂは、配信された広告コンテンツを特定するための特定情報と、当該配信された広告コンテンツのうちクリックされた広告コンテンツを特定するための特定情報とを記憶する履歴テーブルを含んだ履歴情報格納部１１２および広告管理テーブル１０８ｂを備えている。そして、履歴情報解析部１１３は、この履歴テーブルに基づいてクリック率の低い広告コンテンツを選択し、これに対応付けられる特徴語を、広告管理テーブル１０８ｂから選択できる。そして、履歴情報解析部１１３は、選択した特徴語をストップワード辞書１０７ｂに登録することで、特徴語抽出部１０１は、特徴語抽出処理時においてストップワード辞書１０７ｂを参照することで、抽出した特徴語から該当する特徴語を除外することができる。これにより、適切な特徴語を抽出することができ、その適切な特徴語に基づいた効果の高い広告情報を選択することができる。なお、広告管理テーブル１０８ｂを用いることなく、履歴テーブルの広告ＩＤ等にさらに特徴語を紐づけて記憶するようにしてもよい。

[第４実施形態]
つぎに、第４実施形態に係る広告生成サーバ１ｃについて説明する。図１５は、第４実施形態の広告生成サーバ１ｃの機能を示すブロック図である。この広告生成サーバ１ｃは、第１実施形態の広告生成サーバ１の機能とほぼ同様の構成をとるものであり、特徴語抽出部１０１ａ（特徴語抽出手段）のみが相違する。

この特徴語抽出部１０１ａは、ユーザ端末において表示される表示領域と非表示領域とからなる記事データからそれぞれ特徴語を抽出する点で、特徴語抽出部１０１と異なるものである。この特徴語抽出部１０１ａは、まず、表示領域から特徴語抽出処理を行い、そこで所定の条件を満たさなかった場合には、被表示領域から特徴語抽出処理を行うものである。以下、特徴語抽出処理について説明する。

この第４実施形態においては、ユーザ端末では、図１６示すような記事データの冒頭のみが表示されており、この記事データの冒頭部分に埋め込まれているアンカー（リンク情報）に基づいた画面遷移を経て記事データの全文が閲覧可能なものを想定する。以後、記事データ全文のうち、画面遷移前の状態で閲覧可能な部分を表示領域（表示情報）、リンク情報のユーザによる操作に従って画面遷移を経て初めて閲覧可能になる部分を非表示領域（非表示情報）と呼ぶ。

ここで、特徴語抽出部１０１ａにより抽出された特徴語を用いた広告コンテンツの検索処理時において、表示領域内のテキストからの特徴語のみでは十分な数の広告が生成できなかった場合、非表示領域のテキストから特徴語を抽出することが考えられる。しかしながら、表示領域のテキストと非表示領域のテキストとの結びつきがなく、非表示領域から抽出した特徴語では、結果的に記事データに関連する広告コンテンツを抽出することができない可能性がある。以上のような問題を鑑み、第４実施形態における広告生成サーバ１ｃは、記事データ内の単語間の共起関係を解析し、非表示領域から特徴語の抽出を行う際に、表示領域内の単語の共起関係により重み付けを行って、その特徴語の妥当性を判断する。

ここで、ある単語ｘが出現する文書の集合Ｘ、単語ｙが出現する文書の集合Ｙを考えたとき、単語ｘと単語ｙとの共起度ＳＩＭ（ｘ,ｙ）は、例えば式（６）に示すようなＪａｃｃａｒｄ係数により与えられる。

ここで、｜Ｘ∪Ｙ｜は集合Ｘと集合Ｙとの少なくともいずれか一方に含まれる文書の数、｜Ｘ∩Ｙ｜は集合Ｘと集合Ｙとの両方に含まれる文書の数を表す。

これを第４実施形態における表示領域の単語と比表示領域の単語に当てはめてみる。記事データにおける表示領域内の単語集合Ｗにおいて、非表示領域内の任意の一の特徴語ｗ’のスコアは、単語集合Ｗ内の各単語との共起度の積分値

により与えられる。

式（７）に基づいたスコアを用いることで、非表示領域内の単語であっても、表示領域内の単語から推測がつきやすい単語が選択されるようになり、納得感のある広告コンテンツを選択することができる。

図１７は、広告生成サーバ１ｃの特徴語抽出部１０１ａによる非表示領域から特徴語を抽出するときの処理を示すフローチャートである。

まず、特徴語抽出部１０１ａは、記事データの表示領域から特徴語を抽出する（Ｓ４１）。ここで、ＮＧワード辞書１０７ａを参照して、ＮＧワードが含まれていない場合には（Ｓ４２）、検索順序決定部１０２は、特徴語を検索する順序に並び替える（Ｓ４３）。検索部１０３は、指定値に達するまで、検索処理を繰り返し行う（Ｓ４４）。

つぎに、検索部１０３が検索した広告コンテンツ数が指定値に達しない場合（Ｓ４５）、特徴語抽出部１０１ａは、記事データにおける非表示領域から特徴語の抽出処理を行う（Ｓ４６）。そして、ＮＧワード辞書１０７ａを参照して、ＮＧワードが含まれていない場合には（Ｓ４７）、特徴語抽出部１０１ａは、上述式（７）を用いて、非表示領域から抽出した特徴語と表示領域からの特徴語との共起度の積分値を算出する。そして、その上位の積分値の非表示領域からの特徴語を一つまたは複数選択する（Ｓ４８）。そして、検索部１０３は、選択した非表示領域からの特徴語を用いた検索処理を行い、所定の広告コンテンツの抽出を行う（Ｓ４９）。

つぎに、第４実施形態の広告生成サーバ１ｃの作用効果について説明する。この広告生成サーバ１ｃにおいて、特徴語抽出部１０１ａは、Ｗｅｂ画面における表示領域に含まれる特徴語と、非表示領域に含まれる特徴語との共起度を算出し、あらかじめ定めた順位以上の共起度を有する非表示情報に含まれる特徴語を抽出する。これにより、表示領域の特徴語から推測しやすい特徴語を、非表示領域から抽出することができ、納得感の高い広告情報の選択を行うことができる。

［ハードウェア構成］
上述第1実施形態から第４実施形態における広告生成サーバ１〜広告生成サーバ１ｃのハードウェア構成について説明する。図１８は、上述広告生成サーバ１〜広告生成サーバ１ｃのハードウェア構成図である。広告生成サーバ１〜広告生成サーバ１ｃのそれぞれは、物理的には、図１８に示すように、一または複数のＣＰＵ１１、主記憶装置であるＲＡＭ１２及びＲＯＭ１３、入力デバイスであるキーボード及びマウス等の入力装置１４、ディスプレイ等の出力装置１５、ネットワークカード等のデータ送受信デバイスである通信モジュール１６、ハードディスクまたは半導体メモリ等の補助記憶装置１７などを含むコンピュータシステムとして構成されている。図１等の各機能ブロック図における各機能は、図１８に示すＣＰＵ１１、ＲＡＭ１２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御のもとで入力装置１４、出力装置１５、通信モジュール１６を動作させるとともに、ＲＡＭ１２や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。

１０１…特徴語抽出部、１０１ａ…特徴語抽出部、１０２…検索順序決定部、１０３…検索部、１０４…情報選択部、１０５…情報抽出部、１０６…配信部、１０７…辞書データ格納部、１０７ａ…ＮＧワード辞書、１０７ｂ…ストップワード辞書、１０７ｃ…カテゴリ辞書、１０７ｄ…ジャンル対応テーブル、１０８…配信情報格納部、１０８ａ…記事管理テーブル、１０８ｂ…広告管理テーブル、１０９…カテゴリ語抽出部、１１０…ジャンル対応解析部、１１１…履歴情報収集部、１１２…履歴情報格納部、１１３…履歴情報解析部。

Claims

入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度を特徴語ごとに算出する特徴度算出手段と、
入力した文書情報を単語分割して得られた複数の単語から、当該文書情報を特徴付ける単語を特徴語として抽出する特徴語抽出手段と、
前記特徴語抽出手段により抽出された特徴語を、前記特徴度算出手段により算出された特徴度に基づいて定められた順序に並び替える検索順序決定手段と、
前記検索順序決定手段により決定された順序の特徴語で、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する検索手段と、
前記検索手段により取得された複数の広告情報から、広告配信の対象とする広告情報を選択する情報選択手段と、
文書情報のジャンルを示す文書ジャンルと、広告情報のカテゴリを示す広告カテゴリとを対応付けたジャンル対応テーブルと、を備え、
前記検索手段により検索された検索結果に含まれる広告情報は、その広告カテゴリを含んでおり、
前記情報選択手段は、前記ジャンル対応テーブルに従って、前記入力された文書情報の文書ジャンルに対応する広告カテゴリに属する広告情報を、前記取得された検索結果から選択する、
広告生成装置。
広告情報のカテゴリを示す広告カテゴリを単語と対応付けたカテゴリテーブルをさらに備え、
前記検索手段は、前記特徴語抽出手段により抽出された特徴語に一致する単語が、前記カテゴリテーブルに記述されている場合、当該単語に対応付けられた広告カテゴリに絞り込んだ検索処理を実行する、請求項１に記載の広告生成装置。
広告情報を検索取得対象から除外するためのＮＧ単語を記憶するＮＧ単語テーブルをさらに備え、
前記情報選択手段は、前記取得された検索結果から、前記ＮＧ単語テーブルに記憶されているＮＧ単語を含んでいる広告情報を除去する、請求項１または２に記載の広告生成装置。
前記特徴語抽出手段は、
入力した文書情報を単語分割して得られた複数の単語を、事前定義されたルールに従って連結して、特徴語を生成する、請求項１から３のいずれか一項に記載の広告生成装置。
前記特徴度算出手段により算出された単語のそれぞれの出現度合いに基づいて、特徴的ではない単語を記憶するストップワード記憶手段と、
を備え、
前記特徴語抽出手段は、前記ストップワード記憶手段に記憶されている単語に一致する特徴語を、抽出した特徴語から除去する、請求項１から４のいずれか一項に記載の広告生成装置。
広告情報の付与対象となる文書情報の文書ジャンルと、広告情報の広告カテゴリとの全ての組み合わせに対して、文書ジャンルに属する全文書情報に基づいた語彙ベクトルと広告カテゴリに属する全広告情報に基づいた語彙ベクトルとに基づいて文書ジャンルと広告カテゴリとの類似度を算出し、所定の類似度を有する文書ジャンルと広告カテゴリとの組み合わせを、前記ジャンル対応テーブルに追加するジャンル対応解析手段をさらに備える、
請求項１から５のいずれか一項に記載の広告生成装置。
前記情報選択手段により選択された広告情報と、当該広告情報に対する検索時に用いられた特徴語とを記憶する広告情報管理テーブルと、
配信された広告情報を特定するための特定情報と、当該配信された広告情報のうちクリックされた広告情報を特定するための特定情報とを記憶する履歴テーブルと、
前記履歴テーブルに基づいて、各広告情報のクリック履歴を解析する履歴情報解析手段と、
をさらに備え、
前記特徴語抽出手段は、前記履歴テーブルおよび前記広告情報管理テーブルに従って、クリック率の低い広告情報に対応する特徴語を、抽出した特徴語から除外する、請求項１から６のいずれか一項に記載の広告生成装置。
前記特徴語抽出手段は、
端末の画面に表示される表示情報と、当該表示情報における所定のリンク情報を操作することにより表示される非表示情報とからなる文書情報に対して、
前記表示情報に含まれる特徴語と、前記非表示情報に含まれる特徴語との共起度を算出し、
あらかじめ定めた順位以上の共起度を有する特徴語を非表示情報から抽出する、請求項１から７のいずれか一項に記載の広告生成装置。
広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する広告生成装置における広告生成方法において、
入力した文書情報を単語分割して得られた複数の単語のそれぞれの、文書情報のジャンルを示す各文書ジャンルのいずれかにおける特徴語の出現の偏り度合いを示す特徴度を算出する特徴度算出ステップと、
入力した文書情報を単語分割して得られた複数の単語から、当該文書情報を特徴付ける単語を特徴語として抽出する特徴語抽出ステップと、
前記特徴語抽出ステップにより抽出された特徴語を、前記特徴度算出ステップにより算出された特徴度に基づいて定められた順序に並び替える検索順序決定ステップと、
前記検索順序決定ステップにより決定された順序の特徴語で、広告情報のインデックス情報を持つ検索エンジンに問い合わせを行い、検索結果として複数の広告情報を取得する検索ステップと、
前記検索ステップにより取得された複数の広告情報から、広告配信の対象とする広告情報を選択する情報選択ステップと、を備え、
前記検索ステップにより検索された検索結果に含まれる広告情報には、その広告カテゴリが含まれており、
前記情報選択ステップでは、文書情報のジャンルを示す文書ジャンルと広告情報のカテゴリを示す広告カテゴリとを対応付けたジャンル対応テーブルに従って、前記入力された文書情報の文書ジャンルに対応する広告カテゴリに属する広告情報が、前記取得された検索結果から選択される、
広告生成方法。