JP5372990B2 - 広告処理装置及び方法 - Google Patents

広告処理装置及び方法 Download PDF

Info

Publication number
JP5372990B2
JP5372990B2 JP2011097705A JP2011097705A JP5372990B2 JP 5372990 B2 JP5372990 B2 JP 5372990B2 JP 2011097705 A JP2011097705 A JP 2011097705A JP 2011097705 A JP2011097705 A JP 2011097705A JP 5372990 B2 JP5372990 B2 JP 5372990B2
Authority
JP
Japan
Prior art keywords
parts
analysis target
block
advertisement
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011097705A
Other languages
English (en)
Other versions
JP2012230509A (ja
Inventor
素子 秋生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2011097705A priority Critical patent/JP5372990B2/ja
Publication of JP2012230509A publication Critical patent/JP2012230509A/ja
Application granted granted Critical
Publication of JP5372990B2 publication Critical patent/JP5372990B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、ネット広告に関する。
近年急速に普及した所謂ネット広告の一種に、コンテンツ連動型広告がある。この種の広告は、広告を表示しようとするウェブページなどのコンテンツ(内容)を解析することで、コンテンツの特徴(テーマなど)を表すキーワードを抽出し、そのキーワードを指定している広告を選択(「引当て」と呼ばれる)し、そのコンテンツに組み込んで表示するものである(例えば、非特許文献1及び特許文献1参照)。
ヤフー株式会社、「インタレストマッチ」(登録商標)、[online]、[2011年3月3日検索]、インターネット〈URL: http://listing.yahoo.co.jp/service/int/> jQuery Project、「jQuery」、[online]、[2011年3月8日検索]、インターネット〈URL: http://jquery.com/>
特開2007−286833号
ところで、ウェブページに代表される実際のコンテンツは、単一の記事などだけで構成されることは稀で、複数の主題があったり、本来のコンテンツ以外にも、階層上の現在位置を示すリンクリスト(所謂ブレッドクラム。すなわち、パンくずリスト)、切替用のタブ表示、奥付にあたる企業情報などへのリンク群のように、多様な部分を含むことが多い。それらの全体を解析対象とするのは、無駄な処理負荷であるうえ、無駄なキーワードの抽出により広告選択精度やCTRなどの低下を招く問題があった。
なお、ウェブページを分割し適切な部分を解析対象とする判断を人間の担当者が行うことも理論上は考えられるが、その作業負荷の大きさに加え、ユーザが実際に興味を惹かれる部分を適切に選べるとは限らないなどの課題があった。
上記の課題に対し、本発明の目的は、少ない負荷で、ユーザの実際の関心に適合した解析対象部分を特定することである。
上記の目的をふまえ、本発明の一態様(1)である広告処理装置は、解析対象コンテンツを複数の部分に分割する分割手段と、分割された前記部分ごとのキーワードを抽出するキーワード抽出手段と、前記部分ごとに、抽出された前記キーワードに基づく広告の選択及び配信を複数回行う選択配信手段と、前記部分ごとに、複数回行われた広告の前記配信の成果を表す所定の指標値を取得する指標取得手段と、分割された前記部分のうち、取得された前記指標値に基づいて解析対象部分を決定する部分決定手段と、を有することを特徴とする。
本発明の他の態様(8)である広告処理方法は、上記態様を方法のカテゴリで捉えたもので、解析対象コンテンツを複数の部分に分割する分割処理と、分割された前記部分ごとのキーワードを抽出するキーワード抽出処理と、前記部分ごとに、抽出された前記キーワードに基づく広告の選択及び配信を複数回行う選択配信処理と、前記部分ごとに、複数回行われた広告の前記配信の成果を表す所定の指標値を取得する指標取得処理と、分割された前記部分のうち、取得された前記指標値に基づいて解析対象部分を決定する部分決定処理と、をコンピュータが実行することを特徴とする。
このように、上記態様では、解析対象コンテンツを分割した部分ごとに、キーワードを抽出して広告の選択・配信を実際に何度も試してCTRなどの指標値を測定し、それを基に最適な解析対象部分を決定する。これにより、成果が確認できた部分だけをキーワード抽出のための解析対象にできる。すなわち、不要な部分まで解析する無駄な負荷や対象部分を人間が判断する負荷なしで、ユーザの実際の関心に適合した解析対象部分を特定でき、CTRの高い広告配信が実現できる。
本発明の他の態様(2)は、上記いずれかの態様において、前記解析対象コンテンツを前記分割手段が分割し、分割された部分のうち前記指標取得手段による前記指標値が優れた部分を採用してさらに前記の分割の対象とし、前記部分決定手段は、二度目またはそれ以降に分割された部分のうち優れた部分の指標値が分割前の部分の指標値を下回った時点でその分割前の部分を最適な解析対象部分として決定することを特徴とする。
このように、分割した部分のうち指標値が優れた部分を採用してさらに分割する処理を、指標値が分割前より低下するまで繰り返し、低下した分割の直前に採用していた部分を最適な解析対象部分とすることにより、指標値を確認しながら分割を段階的に繰り返す簡明な処理で、最適な分割態様を容易に特定することが可能となる。
本発明の他の態様(3)は、上記いずれかの態様において、前記分割手段は、語の概念階層関係をデータで表したシソーラス辞書に基づいて、前記解析対象コンテンツ内の語を相対的な上位概念と相対的な下位概念に位置付け、相対的な上位概念の割合又は相対的な下位概念の割合の少なくとも一方が所定以上又は所定以下となる範囲をそれぞれ前記部分とすることにより前記解析対象コンテンツを分割することを特徴とする。
このように、シソーラス辞書を用いて、上位概念的な語の多い部分や下位概念的な語の多い部分などに解析対象コンテンツを分割することにより、自然言語処理技術を用いた意味解析など負荷が大きい複雑高度な処理なしで、具体性レベルの異なる部分ごとに広告の選択や配信を試行し、ユーザの実際の関心への適合性を確認することが可能となる。
本発明の他の態様(4)は、上記いずれかの態様において、前記分割手段は、前記解析対象コンテンツとしてマークアップ記述された構成要素ごとに画面上での表示位置を取得し、その表示位置に基づいて画面を縦又は横の少なくとも一方に分割するように構成要素をグループ化することにより前記解析対象コンテンツを部分に分割することを特徴とする。
このように、HTMLなどでマークアップ記述された構成要素の表示位置を基に画面を縦や横に分けるように部分を分割することにより、内容解析などのより複雑な分析処理なしで、画面構成の外形を基準とした簡明な処理で部分への分割を行うことができる。
本発明の他の態様(5)は、上記いずれかの態様において、前記分割手段は、前記解析対象コンテンツのマークアップ記述から所定のタグを検出し、そのタグを基に解析対象コンテンツを前記部分に分割することを特徴とする。
このように、コンテンツの構成などから予め判明している所定のタグに基づくことにより、分割の境界を単純な文字列検索で特定できるので、コンテンツを部分に分割する処理負荷が一層軽減される。
本発明の他の態様(6)は、上記いずれかの態様において、前記分割手段は、前記解析対象コンテンツのマークアップ記述からブロック要素を抽出し、そのブロック要素ごとの画面上での表示位置を取得し、それら表示位置の共通性に基づいてブロック要素をグループ化することにより前記解析対象コンテンツを部分に分割することを特徴とする。
このように、マークアップ記述における段落や区切り線など所謂ブロック要素の表示位置における共通性すなわちまとまりを基準とすることにより、どのような画面レイアウトの未知のコンテンツについても、コンテンツの部分への分割を容易に行うことができる。
本発明の他の態様(7)は、上記いずれかの態様において、前記分割手段は、前記解析対象コンテンツの前記マークアップ記述から、ブロック要素として定義されている所定のタグで記述されているブロックタグ要素を検出するタグ要素検出手段と、検出された前記各ブロックタグ要素について、ウェブページの表示領域におけるX軸方向の各絶対座標を算出する座標算出手段と、算出された前記各絶対座標のうち所定以上の頻出度をもつ各座標を各基準軸座標として取得する基準軸取得手段と、取得された前記各基準軸座標と、算出された前記各絶対座標が一致する各ブロックタグ要素群を、それぞれブロックの全部又は一部として区分する座標区分手段と、を有することを特徴とする。
このように、マークアップデータ内の各要素の頻出座標を、該当ページで視覚デザイン上の区分線等となる基準座標軸とし、その座標との一致をもとに要素群をブロックに区分することにより、ウェブページの多様な構成手法に柔軟に対応しつつブロックを容易に検出可能となる。
なお、上記の各態様と異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。上記の各態様と異なるカテゴリについては、「手段」を「処理」又は「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は上記のものに限定されず、適宜変更したりまとめて処理するなど、変更可能である。さらに、本発明は、上に明記しない態様についても方法及びプログラムとして把握することができ、さらに、方法やプログラムのカテゴリにおいて、個々の処理を実行する「コンピュータ」は共通でもよいし処理ごとに異なってもよい。
本発明によれば、少ない負荷で、ユーザの実際の関心に適合した解析対象部分を特定することができる。
本発明の実施形態について(以下同じ)、構成を示す機能ブロック図。 データ(情報)を例示する図。 処理手順を示すフローチャート。 対象ページを部分に分割する一例を示す図。 対象ページを部分に分割する他の例を示す図。 処理手順の他の例を示すフローチャート。 ウェブページデータの一例を示す概念図。 図7に示したウェブページデータのHTMLをブロックごとに区分した状態を示す概念図。 視覚的ブロック要素の認識によりウェブページデータをブロックに区分する場合の処理手順を示すフローチャート。 ウェブページの一例を示す概念図。 図10に示したウェブページの一例について、視覚的ブロック要素の認識によりブロックに区分する過程を示す概念図。 視覚的ブロック要素の認識によるブロックへの区分に関するデータを例示する図。
次に、本発明の一例として、本発明を実施するための形態(「実施形態」と呼ぶ)について図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
〔1.構成〕
本実施形態は、図1(構成図)に示すように、端末Tへ広告を配信する広告処理装置1(「本装置」又は「本装置1」とも呼ぶ)に関するものである。本装置1は、ウェブサーバWが提供するウェブページの内容に応じた広告を端末Tに配信するものであるが、配信の機能は別のサーバなどに持たせ、本装置は、広告を選択する機能だけを持つように構成してもよい。
また、本装置1は、図1に示すように、コンピュータの構成として少なくとも、CPUなどの演算制御部6と、主メモリや補助記憶装置等の記憶装置7と、通信ネットワークN(例えば、インターネット、携帯電話網、PHS網など)との通信手段8(通信ゲートウェイ装置、携帯電話網やPHS網との通信回路、無線LANアダプタなど)と、を有する。
また、端末Tは、スマートフォン、携帯電話端末、タブレットPCのほか、モバイルPC、据置型PCなどの電子情報機器で、上記のようなコンピュータの構成に加え、図示は省略するが、液晶表示パネルやタッチパネル、押ボタンなどを用いた入出力部を有する。この端末Tは、図1では少数を模式的に示すが、実際はユーザ数に応じ多数存在する。
また、本装置1では、記憶装置7に記憶(インストール)した所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(20,30など)を実現する。それら要素のうち情報の記憶手段は、記憶装置7上のファイルなど任意のデータ形式で実現できるほか、ネットワークコンピューティング(クラウド)でのリモート記憶でもよい。また、記憶手段は、データの格納領域だけでなく、データの入出力や管理などの機能を含み、明示する記憶手段以外にも、各手段の処理データや処理結果などを記憶する記憶手段を適宜用いるものとする。
記憶手段のうち、コンテンツ記憶手段15は、広告を組み込む広告配信先となる解析対象コンテンツ(通常はウェブページ)の内容(HTMLのファイルや文字列など)を、広告配信のための解析(キーワード抽出など)のためにコピーしておく部分である(内容は図示省略)。解析対象コンテンツは、通常はウェブページであり、以下「対象ページ」と呼ぶこととするが、ウェブページの一部分や他の種類のコンテンツを対象としてもよい。また、分割部分記憶手段25は、対象ページを部分に分割している状態や、そのうちどの部分を、広告選択用のキーワード抽出の対象とするかを記憶する手段であり、図2(2)の例では、URL欄で特定される対象ページが上半分と下半分という二つの部分に分割されている。
また、広告記憶手段35は図2(1)に例示するように、広告のデータとして、指定された入札キーワード、クリック課金単価の基礎となる入札額などを記憶している手段である。指標記憶手段55は、対象ページを分割した部分毎に、その部分からのキーワード抽出に基づく広告配信の成果(CTRなど)を記憶する手段であり、本実施形態では図2(2)に示す分割部分記憶手段25と一体に実現され、分割部分記憶手段25内のCTR欄が指標記憶手段55となっている(図中、矩形の破線で示す)。
なお、図中(例えば図1)の矢印は、データや制御などの流れについて主要な方向を補助的に示すもので、方向の限定を意味するものではない。例えばデータをある方向に取得するには、先立って逆方向のデータリクエスト送信がある。また、記憶手段以外の各手段は、以下に説明するような情報処理の機能・作用を実現・実行する処理手段であるが、これらは説明のために整理した機能単位であり、実際のハードウェア要素やソフトウェアモジュールとの一致は問わない。
〔2.主な作用と効果〕
上記のように構成した本装置1について動作の概要を図3のフローチャートに示す。すなわち、分割手段20が、解析対象コンテンツすなわち対象ページを複数の部分に分割し(ステップS2)、キーワード抽出手段30が、分割された部分ごとのキーワードを抽出する(ステップS3)。キーワードの抽出は、形態素解析やtf−idfによる特徴語の抽出など公知の任意の言語処理技術を用いて行う。
そして、選択配信手段40が、分割された部分ごとに、抽出されたキーワードに基づく広告の選択及び配信を複数回(例えば部分毎に100回ずつ、1000回ずつなど)行う(ステップS4)。この配信に際し、指標取得手段50が、部分ごとに、複数回行われた広告の配信の成果を表す所定の指標値(例えばCTR)を取得する(ステップS5)。部分決定手段60が、分割された部分のうち、取得された指標値に基づいて解析対象部分を決定する(ステップS6)。
単純な例として、ある対象ページが3分割された部分1、部分2、部分3それぞれのCTRが、0.1、0.1、0.2の場合、CTRが0.2で最も高い部分3が解析対象部分となる。解析対象部分の記録態様は自由であるが、例えば、図2(2)の例に示すように、URL欄で特定される対象ページが分割された上半分と下半分のうち、CTRが高い上半分(ページ高さの0−50%)について、選択フラグを「1」にセットすることで解析対象部分であることを表現するなどでもよい。
このように、本実施形態では、対象ページを分割した部分ごとに、キーワードを抽出して広告の選択・配信を実際に何度も試してCTRなどの指標値を測定し、それを基に最適な解析対象部分を決定する(例えば図3)。これにより、成果が確認できた部分だけをキーワード抽出のための解析対象にできる。すなわち、不要な部分まで解析する無駄な負荷や対象部分を人間が判断する負荷なしで、ユーザの実際の関心に適合した解析対象部分を特定でき、CTRの高い広告配信が実現できる。
〔3.分割の手法〕
上記のように対象ページを部分に分割する基準や手法は自由であるが、いくつかの例を挙げる。
〔3−1.概念階層による分割〕
まず、上位概念的な語の多い部分と、下位概念的な語の多い部分への分割が考えられる。この場合、分割手段20は、語の概念階層関係を予めデータで表したシソーラス辞書に基づいて、対象ページ内の語を相対的な上位概念と相対的な下位概念に位置付け、相対的な上位概念の割合又は相対的な下位概念の割合の少なくとも一方が所定以上又は所定以下となる範囲をそれぞれ前記部分とすることにより対象ページを分割する。シソーラス辞書については従来公知のものでよいので省略する。
例えば、図4に例示する対象ページ(ウェブページ)では、上位概念的な語と下位概念的な語の割合に基づくクラスタリング処理などにより、「カテゴリー」「トップ」「人間関係」「恋愛相談」など上位概念的な語の多い部分P1と、「告白」「遠距離恋愛」「初デート」など下位概念的な語の多い部分P2に分割するなどが考えられる。
このように、シソーラス辞書を用いて、上位概念的な語の多い部分や下位概念的な語の多い部分などに対象ページを分割することにより、自然言語処理技術を用いた意味解析のなど負荷が大きい複雑高度な処理なしで、具体性レベルの異なる部分ごとに広告の選択や配信を試行し、ユーザの実際の関心への適合性を確認することが可能となる。
〔3−2.表示位置による分割〕
また、ウェブ画面上での表示位置のまとまりでの分割が考えられる。この場合、分割手段20は、対象ページとしてマークアップ記述された構成要素ごとに画面上での表示位置をウェブブラウザから取得し、その表示位置に基づいて画面を縦又は横の少なくとも一方に分割するように構成要素をクラスタリング処理などでグループ化することにより対象ページを部分に分割する。
任意の要素についてウェブページにおける表示位置を取得する手法やスクリプト記述は、ブラウザの種類やバージョンにもよるが、一例として、スクリプトにおいて「document.getElementById()」や「getElementsByTagName()」で目的の要素を例えば「element」として取得し、そのY座標を「element.offsetTop」で取得するなどが考えられる。
一例として、ウェブページにおける表示対象の位置情報は、例えば以下のように取得する。すなわち、典型的なウェブブラウザを例にとり、あるIDを持つタグ(に対応する文字列や画像などの対象)をブラウザが表示領域上でレイアウトした表示位置等の座標情報の取得に用いる記述例を以下に示す。
まず、HTML上であるタグを取得する:

Var t = document.getElementById("HTMLタグ上に記述されたID");

このtを用い、タグの表示領域の高さを取得(tに対して):
t.scrollHeight

タグの表示領域の幅を取得(tに対して):
t.scrollWidth

また、タグの画面上のブラウザ左上からの見た目のx座標を取得:
t.clientX

タグの画面上のブラウザ左上からの見た目のy座標を取得:
t.clientY
また、ブロック要素の直下にいくつかのインライン要素が従属する構成が一般的であるが、あるタグの直下のX番目のタグを取得:
t.childNodes[X]

あるタグの直下のタグの個数を取得:
t.childNodes.length

あるタグのYスタイル情報を取得:
t.style[Y]

あるプラグインプログラムを取得:
Var f = window.[HTMLタグ上に記述されたID];

プラグインプログラム上の関数Zを呼び出し:
f.z(引数1,引数2,...);

プラグインプログラム側から呼び出し関数Zを設定:
ExternalInterface.addCallback("関数名",呼び出し関数);
例えば、図5の対象ページでは、「□□□□」や「・・・・・」で模式的に示す各文字の開始位置(左端位置)のまとまりが、画面左端である位置V0と、左右方向中央付近の位置V1と、に集中しているので、特に位置V1を分割位置として左側の部分Lと右側の部分Rに分割することが考えられる。
このように、HTMLなどでマークアップ記述された構成要素の表示位置を基に画面を縦や横に分けるように部分を分割することにより、内容解析などのより複雑な分析処理なしで、画面構成の外形を基準とした簡明な処理で部分への分割を行うことができる。なお、表示位置による分割の例については、ブロック要素による分割と併せ、実施例として後述する。
〔3−3.タグによる分割〕
さらに、予め判明しているタグに基づく分割も考えられる。この場合、分割手段20は、対象ページのマークアップ記述から所定のタグを検出し、そのタグを基に対象ページを部分に分割する。例えば、HTMLタグであるページを、ブレッドクラム(図4上部に示すいわゆる「パンくずリスト」)の部分P1と、それ以外のコンテンツ本体の部分に、両者間の境界に配置されていることが予め判明しているハイパーリンクや表示文字列(例えば図4内の「掲載案件」)などのタグで、分割するなどが考えられる。なお、ここでいう所定のタグは、ブロック要素を定義するタグ(「ブロックタグ」と呼ぶこととする)に限らず、文字列の表示やそのスタイルの定義など自由である。
このように、コンテンツの構成などから予め判明している所定のタグに基づくことにより、分割の境界を単純な文字列検索で特定できるので、コンテンツを部分に分割する処理負荷が一層軽減される。
〔3−4.ブロック要素による分割〕
加えて、構成要素の種類に基づく分割も考えられる。この場合、分割手段20は、対象ページのマークアップ記述からブロック要素を抽出し、そのブロック要素ごとの画面上での表示位置を取得し、それら表示位置の共通性に基づいてブロック要素をグループ化することにより対象ページを部分に分割する。部分を構成するブロック要素は一つでも複数でもよい。
このように、マークアップ記述における段落や区切り線など所謂ブロック要素の表示位置における共通性すなわちまとまりを基準とすることにより、どのような画面レイアウトの未知のコンテンツについても、コンテンツの部分への分割を容易に行うことができる。なお、ブロック要素による分割の例については、既に述べた表示位置による分割と併せ、実施例として後述する。
〔4.段階的な分割〕
また、部分への分割を段階的に行うことも可能で、その処理手順を図6のフローチャートに例示する。この場合、最初は対象ページの全体を対象範囲とし(ステップS1)、対象範囲を縦半分や横半分などに(ここでは上下二分割とする)分割手段20が分割し(ステップS2X)、キーワード抽出(ステップS3)、広告配信(ステップS4)、指標値の取得(ステップS5)を行う。そのうえで、分割された部分のうち指標取得手段50による指標値が優れた部分を採用すなわち選択して(ステップS61)、その優れた部分の指標値を前回値として記憶したうえ(ステップS64)、対応する部分をさらに分割の対象とする(ステップS2X)。
繰返しの終了条件として、部分決定手段60は、初回以外の(ステップS62:「NO」)すなわち二度目またはそれ以降に分割された部分のうち優れた部分の指標値が、分割前の部分の指標値である前回値を下回った時点で(ステップS63:「YES」)、その分割前の対象範囲である部分を最適な解析対象部分として決定する(ステップS65)。
分割は、上下に限らず左右でもよいし、左右と上下の分割を組み合わせてもよく、例えば、図5の例において、位置V1で左右に分割されたうち左側の部分Lを採用し、さらに水平の位置H1で上下二分割し、そのうち上方側の部分を採用して水平位置H2でさらに上下二分割したうえ、その下方側の部分LX(図中、ハッチング又はグレーで示す)を採用するなどが考えられる。
このように(例えば図6)、分割した部分のうち指標値が優れた部分を採用してさらに分割する処理を、指標値が分割前より低下するまで繰り返し、低下した分割の直前に採用していた部分を最適な解析対象部分とすることにより、指標値を確認しながら分割を段階的に繰り返す簡明な処理で、最適な分割態様を容易に特定することが可能となる。
〔5.実施例〕
先述した表示位置による分割及びブロック要素による分割を併せ、より具体的な例を示す。この例は、対象ページを、部分であるブロックに分割するもので、この例において分割手段20は、図1に示すように、対象ページを表すHTMLなどのマークアップデータ内から、ブロック要素として定義されている所定のブロックタグで記述されているブロックタグ要素を検出するタグ要素検出手段21と、検出された前記各ブロックタグ要素について、ウェブページの表示領域におけるX軸方向の各絶対座標を算出する座標算出手段22と、算出された前記各絶対座標のうち所定以上の頻出度をもつ各座標を各基準軸座標として取得する基準軸取得手段23と、取得された前記各基準軸座標と、算出された前記各絶対座標が一致する各ブロックタグ要素群を、それぞれブロックの全部又は一部として区分する座標区分手段24と、シミュレーション用のウェブブラウザBと、を有する。
〔5−1.ウェブページデータの例〕
そして、まず、分割手段20は、ウェブブラウザBに、アクセス先URLのウェブページデータをウェブサーバWから受信し、画面に表示する処理を行わせる。なお、この処理は、画面に表示する場合と同じ処理をメモリ上等で内部的に行えば足り、現実の画面表示は不要である。ここで、ウェブページデータは、マークアップデータとスタイルシートデータを識別IDで関連付けたもので、必要な画像などのファイルを含む。
このうち、マークアップデータは、文書の論理構造を記述するHTML(HyperText Markup Language)などのマークアップ言語(スマートフォン用や携帯電話用等の各種サブセットやバリエーション等でもよい)で記述されたファイル又はその部分であり、以下、単に「HTML」とも呼ぶ。また、スタイルシートデータは、文書の視覚的デザインを制御するもので、CSS(Cascading Style Sheets)に代表され、前記マークアップデータの一部又は独立した別ファイルであり、以下、単に「CSS」とも呼ぶ。ここで、ウェブページデータの一例を図7に示す。
すなわち、この例では、HTML内のブロック要素ごとに付された識別用ID(図7に示す「A1」「A2」など)をもとに、CSSでウェブページ上で表示する位置や体裁など記述してウェブページのデザインを整形、制御しており、受信時点のHTML及びCSSの記述内容が初期状態として画面表示される。
〔5−2.ブロック要素への区分〕
すなわち、本装置1では、分割手段20(図1)が、与えられたウェブページデータのHTMLを、ブラウザ表示において矩形の要素群を構成する単位であるブロックすなわちブロック要素に区分する。
ブロック要素への区分は、第一には、所定のタグ(<div>など)を検出することにより行う。ブロック要素は、ブラウザ表示で矩形の要素群を構成する記述単位で、ブロック要素として定義されているタグ(P,H1,H2,H3,H4,H5,H6,UL,OL,DIR,MENU,PRE,XMP,LISTING,DL,DIV,CENTER,NOSCRIPT,NOFRAMES,BLOCKQUOTE,FORM,ISINDEX,HR,TABLE,FIELDSET,ADDRESS)を判別することでHTML記述をブロック要素へ区分できる。図8は、図7に示したHTMLをこのようにブロックに区分した状態を例示するもので、破線の矩形で囲んだ各範囲がブロック要素である。
〔5−3.視覚的ブロック要素の認識〕
なお、ブロック要素として定義されている上記のようなタグが、ページ上の視覚的ブロック要素と必ず対応するかは、ウェブページの作り方によるので、タグ検出状態に応じて自動的に又は所定の要求操作に応じ、視覚的ブロック要素を認識させることも可能である。
この場合の処理手順を図9のフローチャートに示す。この場合、分割手段20では、タグ要素検出手段21(図1)が、マークアップデータすなわちHTML内から、ブロック要素として定義されている所定のタグで記述されているブロックタグ要素を検出し(図9のステップS21。タグ要素検出処理)、このように検出された前記各ブロックタグ要素について、座標算出手段22(図1)が、ウェブページの表示領域(表示ウィンドウなど)におけるX軸方向の各絶対座標を算出する(図9のステップS22。座標算出処理)。
ここで、各要素についてページ上の絶対座標を取得する手法は自由であるが、一例として、対象要素のDOM(ドキュメント・オブジェクト・モデル)上の親要素からのオフセット値(すなわち、サイズのデータ)を取得し、このオフセット値を収集しながらHTML要素まで親要素を辿って行き、全てのオフセット値を足し合わせると、対象要素のページ上の座標を計算することができる。
ここで、オフセット値は、X軸方向(幅)及びY軸方向(高さ)に関するブロック要素のサイズであり、各対象要素について、offsetHeight関数、offsetWidth関数を、

Var height = 対象要素オブジェクト.offsetHeight;
Var width = 対象要素オブジェクト.offsetWidth;

のように用いて取得可能である。
なお、上記のようにDOMなどから対象要素のページ上の座標を計算する手法について、実際には近似値の取得が一般的であるが、具体的実装例として、jQuery(非特許文献2参照)などのライブラリの機能を利用して取得することも可能である。
そして、基準軸取得手段23(図1)は、上記のように算出された各絶対座標のうち所定以上の頻出度をもつ各座標を各基準軸座標として取得する(図9のステップS23。基準軸取得処理)。例えば、図10に例示するウェブページは、破線で示す要素a1〜a9,b1〜b5,c8を含み、このウェブページからは、図11に例示するように、各基準軸座標Xa,Xb,Xcを取得する。
そして、座標区分手段24(図1)が、上記のように取得された各基準軸座標と、算出された各絶対座標が一致(完全一致に限らず、所定の許容誤差までは一致とみなしてもよい)する各ブロックタグ要素群を、それぞれブロックの全部又は一部として区分する(図9のステップS24。座標区分処理)。
すなわち、このように得たX座標を持つブロック要素に対して、それぞれのY座標を求め、識別IDや枠線など所定要素を基準に、またはY座標同士の間隔が大きく開いた部分(例えば、図11の例では、軸Yc22とYc31の間、軸Yc62とYc71の間)などを境界として、Y方向にも複数のブロックに区分すれば、XY方向に矩形が順列した各ブロックを特定可能となる。例えば、基準軸座標Xcと、軸Yc11及びYc22で囲んだブロックは、要素c1とc2を含んだ一つのブロックであり、基準軸座標Xcと軸Yc31及びYc62で区分されるブロックは、要素c3〜c6を囲んだ一つのブロックである。
図12は、上記のような視覚的ブロック要素の認識を行う処理に用いるワークエリアのデータ構成例であり、各要素すなわちウェブページを構成するオブジェクトごとに、要素ID、上記のように取得されたX軸方向の絶対値(X座標。「650」など)、Y座標(「50」「100」など)、前記オフセット値であるX幅(「250」「150」など)及びY高さ(「50」など)と、それらをもとに区分されたブロックの番号(「5」「6」など)と、を含んでいる。
分割手段20は、このような個々のブロックを部分とし、又は複数のブロックをまとめて部分とする。例えば、画面上で占める面積が所定以下のブロックが複数連続している場合に、合計面積が所定範囲となるように、それら複数のブロックをまとめて部分とすれば、細かい部分への過度な細分化が防止できる。
このように、HTMLに代表されるマークアップデータ内の各要素の頻出座標を、該当ページで視覚デザイン上の区分線等となる基準座標軸とし、その座標との一致をもとに要素群をブロックに区分することにより、ウェブページの多様な構成手法に柔軟に対応しつつブロックを容易に検出可能となる。
〔6.他の実施形態〕
なお、上記実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本出願における構成図、データの図、フローチャートなどは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。一例として、上記実施形態では、本装置1は広告を配信する手段として選択配信手段40を含むものとしたが、広告の引当てのみを行う構成としてもよい。また、広告については、文字広告に限らずバナー広告など画像や動画の広告でもよい。さらに、広告は、ウェブサーバWを経由せずユーザの端末T1で解釈表示されるHTML記述などに基づいて本装置1から端末Tへ直接配信するようにしてもよい。
また、図1などに示した個々の手段を、相互に別個独立の設備で実現する構成も一般的であるし、サーバでも端末でも機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。例えば、図1に示した本装置とウェブサーバWは、適宜一体化してもよい。さらに、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。
1 広告処理装置(本装置)
6 演算制御部
7 記憶装置
8 通信手段
15 コンテンツ記憶手段
20 分割手段
21 タグ要素検出手段
22 座標算出手段
23 基準軸取得手段
24 座標区分手段
25 分割部分記憶手段
30 キーワード抽出手段
35 広告記憶手段
40 選択配信手段
50 指標取得手段
55 指標記憶手段
60 部分決定手段
a1〜a9,b1〜b5,c1〜c8 要素
B ウェブブラウザ
L,LX 部分
N 通信ネットワーク
P1,P2 部分
R 部分
T 端末
V0,V1,H1,H2 位置
W ウェブサーバ
Xa,Xb,Xc 基準軸座標
Yc11,Yc22,Yc31,Yc62 軸

Claims (8)

  1. 解析対象コンテンツを複数の部分に分割する分割手段と、
    分割された前記部分ごとのキーワードを抽出するキーワード抽出手段と、
    前記部分ごとに、抽出された前記キーワードに基づく広告の選択及び配信を複数回行う選択配信手段と、
    前記部分ごとに、複数回行われた広告の前記配信の成果を表す所定の指標値を取得する指標取得手段と、
    分割された前記部分のうち、取得された前記指標値に基づいて解析対象部分を決定する部分決定手段と、
    を有することを特徴とする広告処理装置。
  2. 前記解析対象コンテンツを前記分割手段が分割し、
    分割された部分のうち前記指標取得手段による前記指標値が優れた部分を採用してさらに前記の分割の対象とし、
    前記部分決定手段は、二度目またはそれ以降に分割された部分のうち優れた部分の指標値が分割前の部分の指標値を下回った時点でその分割前の部分を最適な解析対象部分として決定する
    ことを特徴とする請求項1記載の広告処理装置。
  3. 前記分割手段は、語の概念階層関係をデータで表したシソーラス辞書に基づいて、前記解析対象コンテンツ内の語を相対的な上位概念と相対的な下位概念に位置付け、相対的な上位概念の割合又は相対的な下位概念の割合の少なくとも一方が所定以上又は所定以下となる範囲をそれぞれ前記部分とすることにより前記解析対象コンテンツを分割することを特徴とする請求項1又は2記載の広告処理装置。
  4. 前記分割手段は、前記解析対象コンテンツとしてマークアップ記述された構成要素ごとに画面上での表示位置を取得し、その表示位置に基づいて画面を縦又は横の少なくとも一方に分割するように構成要素をグループ化することにより前記解析対象コンテンツを部分に分割することを特徴とする請求項1から3のいずれか一項に記載の広告処理装置。
  5. 前記分割手段は、前記解析対象コンテンツのマークアップ記述から所定のタグを検出し、そのタグを基に解析対象コンテンツを前記部分に分割することを特徴とする請求項1から4のいずれか一項に記載の広告処理装置。
  6. 前記分割手段は、前記解析対象コンテンツのマークアップ記述からブロック要素を抽出し、そのブロック要素ごとの画面上での表示位置を取得し、それら表示位置の共通性に基づいてブロック要素をグループ化することにより前記解析対象コンテンツを部分に分割することを特徴とする請求項1から5のいずれか一項に記載の広告処理装置。
  7. 前記分割手段は、
    前記解析対象コンテンツの前記マークアップ記述から、ブロック要素として定義されている所定のタグで記述されているブロックタグ要素を検出するタグ要素検出手段と、
    検出された前記各ブロックタグ要素について、ウェブページの表示領域におけるX軸方向の各絶対座標を算出する座標算出手段と、
    算出された前記各絶対座標のうち所定以上の頻出度をもつ各座標を各基準軸座標として取得する基準軸取得手段と、
    取得された前記各基準軸座標と、算出された前記各絶対座標が一致する各ブロックタグ要素群を、それぞれブロックの全部又は一部として区分する座標区分手段と、
    を有することを特徴とする請求項1から6のいずれか一項に記載の広告処理装置。
  8. 解析対象コンテンツを複数の部分に分割する分割処理と、
    分割された前記部分ごとのキーワードを抽出するキーワード抽出処理と、
    前記部分ごとに、抽出された前記キーワードに基づく広告の選択及び配信を複数回行う選択配信処理と、
    前記部分ごとに、複数回行われた広告の前記配信の成果を表す所定の指標値を取得する指標取得処理と、
    分割された前記部分のうち、取得された前記指標値に基づいて解析対象部分を決定する部分決定処理と、
    をコンピュータが実行することを特徴とする広告処理方法。
JP2011097705A 2011-04-26 2011-04-26 広告処理装置及び方法 Active JP5372990B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011097705A JP5372990B2 (ja) 2011-04-26 2011-04-26 広告処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011097705A JP5372990B2 (ja) 2011-04-26 2011-04-26 広告処理装置及び方法

Publications (2)

Publication Number Publication Date
JP2012230509A JP2012230509A (ja) 2012-11-22
JP5372990B2 true JP5372990B2 (ja) 2013-12-18

Family

ID=47432012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011097705A Active JP5372990B2 (ja) 2011-04-26 2011-04-26 広告処理装置及び方法

Country Status (1)

Country Link
JP (1) JP5372990B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205195B2 (en) * 2013-03-29 2021-12-21 Rakuten Group, Inc. Information processing device, information processing method, and information processing program
CN106202098A (zh) * 2015-05-05 2016-12-07 阿里巴巴集团控股有限公司 记录及还原网页中点击位置的方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306237A (ja) * 1998-04-24 1999-11-05 Takashi Sasaki ゲーム用サーバ装置および仮想生活空間を利用したマーケティングデータ取得方法ならびに情報記録媒体
JP2000331020A (ja) * 1999-05-21 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 情報参照方法,情報参照装置および情報参照プログラムを格納した記憶媒体
JP2002074175A (ja) * 2000-09-05 2002-03-15 Dentsu Inc 情報コンテンツ及び広告を含む蓄積情報を表示する方法、媒体、及びこれを利用した情報表示装置
JP2007286833A (ja) * 2006-04-14 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 広告配信システムおよび広告配信プログラム
JP2008241943A (ja) * 2007-03-26 2008-10-09 Cross Feed Co Ltd 広告配信装置およびその方法
JP4834042B2 (ja) * 2008-08-06 2011-12-07 ヤフー株式会社 ユーザ作成コンテンツ管理装置、ユーザ作成コンテンツ管理システムおよび閲覧者の嗜好調査方法
US20110231254A1 (en) * 2008-09-05 2011-09-22 Nhn Business Platform Corporation Method and system for providing advertisements, and computer-readable recording medium

Also Published As

Publication number Publication date
JP2012230509A (ja) 2012-11-22

Similar Documents

Publication Publication Date Title
CN102779167B (zh) 在移动终端中显示网页的方法及系统
US20210042466A1 (en) Detecting compatible layouts for content-based native ads
CN106874467A (zh) 用于提供搜索结果的方法和装置
US9934206B2 (en) Method and apparatus for extracting web page content
US20150058711A1 (en) Presenting fixed format documents in reflowed format
CN112818111B (zh) 文档推荐方法、装置、电子设备和介质
CN105893564A (zh) 一种基于搜索引擎客户端的搜索方法和装置
CN104866582A (zh) 显示页面信息的方法和装置
CN105426508A (zh) 网页生成方法和装置
CN107526718A (zh) 用于生成文本的方法和装置
US20130151511A1 (en) Information providing device, information providing method, information providing program, information display device, information display method, information display program, information search system, and recording medium
CN110020312A (zh) 提取网页正文的方法和装置
JP5556461B2 (ja) 情報閲覧端末装置、情報閲覧システム、情報閲覧プログラム及び情報閲覧方法
CN107168635A (zh) 信息呈现方法和装置
CN107329981B (zh) 页面检测的方法和装置
JP5372990B2 (ja) 広告処理装置及び方法
Kucher et al. Analysis of VINCI 2009-2017 proceedings
CN111428159B (zh) 线上化分类方法和装置
KR101614470B1 (ko) 검색어 리스트 제공 장치 및 이를 이용한 방법
JP2021068328A (ja) 情報提供装置、情報提供方法および情報提供プログラム
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN103218358A (zh) 一种Diff打分方法以及系统
CN106776634A (zh) 一种用于网络访问的方法、装置及终端设备
JP2011164869A (ja) 文字入力支援装置及び方法
JP2019175212A (ja) 情報表示装置、記事ページ生成装置、情報処理装置、情報表示システム及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130918

R150 Certificate of patent or registration of utility model

Ref document number: 5372990

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250