JP2007323334A - Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム - Google Patents

Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム Download PDF

Info

Publication number
JP2007323334A
JP2007323334A JP2006152398A JP2006152398A JP2007323334A JP 2007323334 A JP2007323334 A JP 2007323334A JP 2006152398 A JP2006152398 A JP 2006152398A JP 2006152398 A JP2006152398 A JP 2006152398A JP 2007323334 A JP2007323334 A JP 2007323334A
Authority
JP
Japan
Prior art keywords
web page
advertisement
unit
extraction
web pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006152398A
Other languages
English (en)
Inventor
Tomoya Shohochi
智也 正法地
Stubbs Jason
スタッブス ジェイソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WAAKUATTO KK
Original Assignee
WAAKUATTO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WAAKUATTO KK filed Critical WAAKUATTO KK
Priority to JP2006152398A priority Critical patent/JP2007323334A/ja
Publication of JP2007323334A publication Critical patent/JP2007323334A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 アクセスされ易さだけでなく、内容の関連性も同時に評価して多元的な評価により、ユーザの属性や嗜好にマッチした広告等の配信を可能にする。
【解決手段】 アクセスログを収集するログ収集部と、収集されたアクセスログを参照し、特定のWEBページを基点としてWEBページ間にわたる閲覧の移動があり、かつ特定のWEBページとの関連性を示す数値が一定数以上であるWEBページの集合を抽出する第1の抽出部と、WEBページの文書情報を取得する文書情報取得部と、文書情報内に特定の語句に関連する語句の範囲にある語句を所定数以上含むWEBページの集合を抽出する第2の抽出部と、を備え、第1または第2の抽出部のいずれかがWEBページの集合を抽出した後、もう一方の抽出部が抽出されたWEBページの集合から、さらに絞り込んでWEBページの集合を抽出する。
【選択図】 図1

Description

本発明は、WEBページのユーザ端末のアクセスログを利用するWEBページ抽出システム、これを用いた広告配信システムおよび広告配信プログラムに関する。
従来、ホームページの運営者に対してアクセス解析のサービスが提供されている。アクセス解析手法には、CGIやJavascript(登録商標)を利用し、HTMLにタグを貼ることによりアクセスログを収集して解析するものがよく用いられる。ホームページの運営者は、アクセス解析の結果を利用して会員登録のフォームのページへ他のページから移動しやすくしたり、そのページが検索やリンクからの入口になるようにすることが多い。また、問題点を見つけたらすぐにその部分を改訂したり、深い分析を行なって次のリニューアルの指針を得たり、新たな戦略を組み立てたりするのに役立てている。そして、このようなアクセス解析技術を応用して、ユーザの嗜好に合わせた情報を提供する試みもなされている。(たとえば特許文献1参照)。
特許文献1に記載されているリコメンデーションサーバ・システムでは、データマイニング部が、多数のユーザ端末について蓄積されたアクセスログから抽出された関係規則を、対象ユーザのアクセス履歴と照合することにより、動的リコメンデーションを行なうとともに、プロモーション部が、従来ページと新規ページとの間の関係を示すページ関係表と、静的/動的リコメンデーションで抽出された従来ページと照合することによって、新規ページに関するリコメンデーションを行なっている。そして、リコメンデーションリストを含むWWWページは、クライアント・システムへ送信され、新規のデータのリコメンデーションを可能にしている。
特開2002−366838号公報
上記のように、多数のユーザ端末について蓄積されたアクセスログから抽出された関係規則をもとに、動的リコメンデーションを行なう技術がすでに知られている。しかしながら、特許文献1に記載されている関係規則はアクセス履歴のうちの一つのWEBページに注目し、そのページから所定のページへのアクセスされ易さを評価しているに過ぎない。すなわち、アクセスされ易いことだけに注目した一元的な評価であり、ページとリコメンデーションしようとするものとの直接的な関連性は全く評価されていない。
本発明は、このような事情に鑑みてなされたものであり、アクセスされ易さだけでなく、内容の関連性も同時に評価して多元的な評価により、ユーザの属性や嗜好にマッチした広告等の配信を可能にするWEBページ抽出システム、これを用いた広告配信システムおよび広告配信プログラムを提供することを目的とする。
(1)上記の目的を達成するため、本発明のWEBページ抽出システムは、ネットワークを介して、アクセスログを収集するログ収集部と、前記収集されたアクセスログを参照し、特定のWEBページを基点としてWEBページ間にわたる閲覧の移動があり、かつ前記特定のWEBページとの関連性を示す数値が一定数以上であるWEBページの集合を抽出する第1の抽出部と、ネットワークを介して、WEBページの文書情報を取得する文書情報取得部と、前記取得された文書情報を参照し、文書情報内に特定の語句に関連する語句の範囲にある語句を所定数以上含むWEBページの集合を抽出する第2の抽出部と、を備え、前記第1または第2の抽出部のいずれかがWEBページの集合を抽出した後、もう一方の抽出部が前記抽出されたWEBページの集合から、さらに絞り込んでWEBページの集合を抽出することを特徴としている。
このように、本発明のWEBページ抽出システムは、アクセスされたWEBページ間のページ移動の関連性および内容の関連性程度を評価し、関連性が所定程度以上であるWEBページの集合を抽出する。これにより、アクセスされ易さだけでなく、内容の関連性も同時に評価して多元的な評価により、WEBページの集合を抽出することができる。その結果、ユーザの属性や嗜好にマッチした広告等の配信を可能にする。また、複数のWEBページ間おいて特定のWEBページの位置付けを評価することにも利用できる。さらには、特定の属性をもったユーザを誘導するためにWEBページに掲載すべき記事を推測することにも利用できる。
(2)また、本発明のWEBページ抽出システムは、語句の入力を受け付ける入力部と、文書情報内に前記入力された語句を一定数以上含むWEBページを検索する検索部と、をさらに備え、前記入力部は、前記検索されたWEBページの集合から前記第1の抽出部による抽出の基点となるWEBページを選択する入力を受け付け、第1の抽出部は、前記選択されたWEBページを基点としてWEBページの集合を抽出することを特徴としている。
このように、本発明のWEBページ抽出システムは、ユーザが対象とする関連性を表す語句を入力し、基点となるWEBページを選択するだけで、互いに関連するWEBページを客観的かつ効率的に抽出することができる。その結果、たとえば広告配信の対象となるWEBページを簡単に抽出することができる。
(3)また、本発明のWEBページ抽出システムは、前記第2の抽出部は、前記特定の語句に関連する語句の範囲にある語句を含むWEBページの集合を抽出する際、含まれるWEBページ数が所定数となったときに抽出を停止することを特徴としている。
これにより、一定大きさのWEBページの集合を抽出することができ、その集合の利用を容易にすることができる。たとえば、そのWEBページの集合に広告配信等を行なう場合、母集合が一定であれば一定の広告の効果を期待して広告配信することができる。
(4)また、本発明のWEBページ抽出システムは、前記絞り込んで抽出されたWEBページの集合を一つのクラスタとして識別し、各WEBページのWEBページ識別情報とクラスタ識別情報とを対応付けて記憶するクラスタ情報記憶部をさらに備えることを特徴としている。
このように、本発明のWEBページ抽出システムは、クラスタ情報に対応する広告情報をWEBページの閲覧者に向けて配信することにより、ユーザの傾向に合わせた広告を掲載し、広告効果を高めることができる。
(5)また、本発明の広告配信システムは、上記のWEBページ抽出システムに問い合わせて、アクセスを要求されたWEBページに適した広告を配信する広告配信システムであって、広告情報とクラスタ識別情報とを対応付けて記憶する広告情報記憶部と、前記アクセスを要求されたWEBページのデータの送信に伴い、前記クラスタ情報記憶部および広告情報記憶部に記憶されている情報を参照し、前記WEBページの属するクラスタに対応する広告情報を配信する広告配信部と、を備えることを特徴としている。
これにより、本発明の広告配信システムは、WEBページを閲覧するユーザの属性を推定することが可能となりユーザの属性に適合した広告を配信することができる。その結果、広告主は狙った対象に的確に広告を配信することができ、広告の効果を高めることができる。
(6)また、本発明の広告配信システムは、上記のWEBページ抽出システムに問い合わせて、ユーザ端末のアクセス経路を追跡し、広告を配信する広告配信システムであって、前記収集されたアクセスログから、広告配信要求があったユーザ端末のアクセス経路を抽出するアクセス経路抽出部と、前記抽出されたアクセス経路が、特定のクラスタに属するWEBページへのアクセスについて所定条件を満たすか否かを判定する判定部と、前記所定条件を満たす場合には、前記広告配信要求があったユーザ端末と前記特定のクラスタとを対応付け、前記広告配信要求があったユーザ端末から更に配信要求があったときには前記特定のクラスタに対応する広告情報を配信する広告配信部と、を更に備えることを特徴としている。
このように、本発明の広告配信システムは、WEBページ抽出システムに問い合わせて同一のユーザ端末を追跡し、そのユーザに適した広告を配信することができる。その結果、現在閲覧しているWEBページからユーザの閲覧が移動しても、ユーザの属性に適した広告を配信し、広告効果を高めることができる。
(7)また、本発明の広告配信システムは、各WEBページの閲覧の際に配信される広告について、前記収集されたアクセスログから予想PV数または予想クリック率を算出し、前記算出された予想PV数または予想クリック率に基づいて、各広告の広告配信の状態を、前各広告について設定された設定条件に近づける制御をする配信制御部を更に備え、前記広告配信部は、前記配信制御部の制御に従って広告を配信することを特徴としている。
このように、本発明の広告配信システムは、算出された予想PV数または予想クリック率から広告の配信頻度や広告の配信対象を変更し、限られた広告回数や広告期間の中で最も広告効果を高めることができる。
(8)また、本発明のWEBページ抽出プログラムは、ネットワークに接続され、少なくともログ収集部、第1の抽出部、文書情報取得部、第2の抽出部を備えるシステムに、ログ収集部が、ネットワークを介して、アクセスログを収集するログ収集処理と、第1の抽出部が、前記収集されたアクセスログを参照し、特定のWEBページを基点としてWEBページ間にわたる閲覧の移動があり、かつ前記特定のWEBページとの関連性を示す数値が一定数以上であるWEBページの集合を抽出する第1の抽出処理と、文書情報取得部が、ネットワークを介して、WEBページの文書情報を取得する文書情報取得処理と、第2の抽出部が、前記取得された文書情報を参照し、文書情報内に特定の語句に関連する語句の範囲にある語句を所定数以上含むWEBページの集合を抽出する第2の抽出処理と、を実行させ、前記第1または第2の抽出処理のいずれかにより特定のWEBページを基点としてWEBページの集合を抽出した後、もう一方の抽出処理により前記抽出されたWEBページの集合から、さらに絞り込んでWEBページの集合を抽出することを特徴としている。
このように、本発明のWEBページ抽出プログラムは、アクセスされたWEBページ間のページ移動の関連性および内容の関連性程度を評価し、関連性が所定程度以上であるWEBページの集合を抽出する。これにより、アクセスされ易さだけでなく、内容の関連性も同時に評価して多元的な評価により、WEBページの集合を抽出することができる。その結果、ユーザの属性や嗜好にマッチした広告等の配信を可能にする。
本発明のWEBページ抽出システムによれば、アクセスされ易さだけでなく、内容の関連性も同時に評価して多元的な評価により、WEBページの集合を抽出することができる。その結果、ユーザの属性や嗜好にマッチした広告等の配信を可能にする。また、複数のWEBページ間おいて特定のWEBページの位置付けを評価することにも利用できる。さらには、特定の属性をもったユーザを誘導するためにWEBページに掲載すべき記事を推測することにも利用できる。
本発明者らは、アクセス解析技術を開発するにあたり、収集したアクセスログを利用して同じ傾向を持つWEBページを抽出し、ユーザの属性や嗜好に適した広告を行った方が、その効果が高い点に着目し、所定の関連性の高いWEBページの集合をクラスタとして分類し、ユーザの傾向に合わせて広告を配信する手段を見出して、本発明を完成させるに至った。
本発明のWEBページ抽出システムは、アクセスログを解析するとともに文章解析も行い、WEBページ間の関連性の程度を評価し、関連性が所定程度以上であるWEBページの集合を、それぞれクラスタとして分類する。これにより、アクセスされ易さだけでなく、内容の関連性も同時に評価して多元的な評価により、WEBページの集合を抽出することができる。そして、本発明の広告配信システムは、クラスタに対応する広告を配信し、広告効果を高めることができる。
以下の実施形態の説明では、図面を参照しながら、本発明のWEBページ抽出システムおよび広告配信システムの構成および動作を説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては同一の参照番号を付し、重複する説明は省略する。
(全体構成)
図1は、本発明を適用した広告配信ビジネスモデルの構成を示す概念図である。図1のモデルにおいては、広告配信管理システム100がネットワークNに接続されており、WEBサーバ500およびユーザ端末400もネットワークNに接続されている。広告配信管理システム100は、WEBページ抽出システム200および広告配信システム300を備えている。
ユーザ端末400は、WEBページのユーザが使用する一般的な端末であり、ネットワークNに接続されている。ユーザ端末400は、WEBサーバ500にアクセスして、WEBページを閲覧するのに用いられる。
WEBサーバ500は、WEBページ用の情報を蓄積して、送信可能化の状態に置く。上記のWEBページ用の情報には、アクセスログ送信プログラムが組み込まれたタグが含まれる。ユーザ端末400がWEBサーバ500にアクセスしたときには、ブラウザ上にアクセスログ送信プログラムを組み込まれた画像が表示される。そして、その画像が表示されることにより、ユーザ端末400のアクセスログが、WEBページ抽出システム200に送信される。
なお、上記のように画像取得のリクエストを利用する態様に限らず、flashなどの外部メディアファイル、外部スタイルシート、外部javascript(登録商標)等を利用する形態であってもよい。さらには、このようなHTTPでのリクエストに限らず、アクセスログを取得するサーバと通信さえ可能であれば、どのようなプロトコルの通信方法でも上記形態は実現可能である。したがって、たとえばブラウザ(プラグインなどのエクステンションを含む)からアクセスログを保存するサーバへ何らかの通信が発生する方法であれば実現可能となる。このような通信方法には、http通信、https通信、socket通信、xmlsocket通信、メディアプレイヤーなどの独自通信、telnet通信、メール等のpop3やsmtp等の通信が挙げられる。
また、このようなWEBビーコン型ではなくアクセスログを記録するWEBサーバからログの提供を受けて解析を行なうサーバログ型や、LANの一番外側に位置するスイッチを通る信号をコピーしてデータベース化しログの収集を行なうパケットキャプチャー型でアクセスログを収集してもよい。
(WEBページ抽出システムの構成)
図2は、WEBページ抽出システム200の構成を示すブロック図である。WEBページ抽出システム200は、2段階の抽出処理を経て、相互に関連性を有するWEBページの集合を抽出する。WEBページ抽出システム200は、ログ収集部201、ログ集計部202、集計情報記憶部203、検索部205、入力部207、第1の抽出部209、文書情報取得部211、文書情報解析部213、文書情報記憶部213、第2の抽出部216、およびクラスタ情報記憶部217から構成されている。
ログ収集部201は、ネットワークNを介して、ユーザ端末400からアクセスログを収集する。図3は、ログ収集部201が収集したアクセスログの一例を示すテーブルである。図3の例では、IPアドレス192.168.0.xxxで特定されるユーザ端末400が、http://work-at.co.jp/で表されるURLのWEBページにアクセスし、次に、そのURLのWEBページからhttp://work-at.co.jp/test.htmlのURLで表されるWEBページに閲覧を移動していることが読み取れる。なお、ユーザ端末の識別番号は、IPアドレスに限定されず、Cookie等であってもよい。ログ収集部201は、メモリおよびHDD等の補助記憶装置により構成されている。
ログ集計部202は、収集されたアクセスログからWEBページ間のユーザ閲覧の移動数、対象のWEBページのPV数(ページビュー数)や検索エンジンによる検索結果からのアクセス数を集計する。図4は、ログ集計部202により収集のあったWEBページ閲覧の移動数を示すテーブルである。たとえば、http://work-at.co.jp/のURLで特定されるWEBページとhttp://work-at.co.jp/test.htmlのURLで特定されるWEBページの間では、所定期間に205回の閲覧の移動があったことが分かる。移動回数は、所定期間を決めてその期間内で集計してもよい。ログ集計部202は、CPUおよび主記憶装置により構成されている。
集計情報記憶部203は、集計されたWEBページ間の閲覧の移動数やPV数を記憶する。集計情報記憶部203は、メモリおよびHDD等の補助記憶装置により構成されている。
検索部205は、入力された語句を文書情報内に一定数以上含むWEBページを検索する。検索部205は、CPUおよび主記憶装置により構成されている。
入力部207は、図示しない管理者端末から語句の入力を受け付ける。さらに入力部207は、管理者端末から検索されたWEBページの集合から第1の抽出部による抽出の基点となるWEBページを選択する入力を受け付ける。このように、基点となるWEBページを選択するだけで、互いに関連するWEBページを客観的かつ効率的に抽出することができる。その結果、広告配信の対象となるWEBページを簡単に抽出することができる。入力部207は、CPUおよび主記憶装置により構成されている。なお、管理者端末はWEBページ抽出システムに接続されており、管理者は、管理者端末を介して入力部207に語句や選択の指示を入力することができる。
第1の抽出部209は、収集されたアクセスログを参照し、特定のWEBページを基点としてWEBページ間にわたるユーザ端末による閲覧の移動があり、かつ特定のWEBページとの関連性を示す数値が一定数以上であるWEBページの集合を抽出する。このように選択されたWEBページを基点としてWEBページの集合を抽出する。関連性を示す数値とは、たとえば収集されたアクセスログから算出されるWEBページ間の閲覧の移動数、対象のWEBページのPV数や検索エンジンによる検索結果ページからのアクセス数である。第1の抽出部209は、CPUおよび主記憶装置により構成されている。
文書情報取得部211は、ネットワークを介してWEBページの文書情報を取得する。文書情報取得部211は、WEBページの文書情報を、WEBサーバ500から取得する。文書情報取得部211は、たとえば、URLのテキスト内にあるRDFやhtmlから、あるルールで抽出した文章情報を参照する。なお、あらかじめRSSフィードのアクセス先を登録しておき、登録されているRSSフィードのアクセス先の情報に基づいてアクセス先の文書情報を次々に収集することとしてもよい。
RSSにより情報を収集する場合には、予めRSSフィードがWEBページの更新時に作成したタイトル情報や要約の情報を含む文書情報を送信可能にするため、WEBページの更新に対応し易くなり、文書情報の収集の効率が上がる。ただし、本発明はRSSを利用することに限定されず、一般的なクローリングを行なう場合にも適用可能である。文書情報取得部211は、たとえばCPUおよびRAM等のメモリまたはハードディスク等の補助記憶装置により構成されている。
文書情報解析部212は、文書情報取得部211がWEBページから取得した文書情報を解析する。そして、たとえば形態素解析により単語などに分割する。文書情報解析部212は、CPUおよび主記憶装置により構成されている。
一方、文書情報記憶部213は、文書情報解析部212により解析されたWEBページの文書情報を記憶する。文書情報記憶部213は、メモリまたはHDD等の補助記憶装置により構成されている。
第2の抽出部216は、取得された文書情報を参照し、文書情報内に特定の語句に関連する語句の範囲にある語句を所定数以上含むWEBページの集合を抽出する。これにより、アクセスされ易さだけでなく、内容の関連性も同時に評価して多元的な評価により、WEBページの集合を抽出することができる。その結果、ユーザの属性や嗜好にマッチした広告等の配信を可能にする。また、第2の抽出部216は、特定の語句に関連する語句の範囲にある語句を含むWEBページの集合を抽出する際、含まれるWEBページ数が所定数に達したときに抽出を停止する。これにより、一定大きさのWEBページの集合を抽出することができ、一定の広告の効果を期待して広告配信することができる。なお、クラスタの大きさに制限がない場合には、関連のある限り抽出処理を繰り返しても問題はないが、所定回数抽出処理を繰り返して抽出を停止することとしてもよい。
また、本実施の形態では、第1の抽出部209によるWEBページの抽出の後、第2の抽出部216によるWEBページの抽出を行うが、必ずしもこの順番に限定されない。第1または第2の抽出部のいずれかがWEBページの集合を抽出した後、もう一方の抽出部が抽出されたWEBページの集合から、さらに絞り込んでWEBページの集合を抽出すれば、アクセスされ易さと内容の関連性の相乗効果を得ることができる。第2の抽出部216は、CPUおよび主記憶装置により構成されている。なお、広告出稿の運営上、クラスタ決定の際に、クラスタを広げる最大幅を決定しておいてもよい。
クラスタ情報記憶部217は、絞り込んで抽出されたWEBページの集合を一つのクラスタとして識別し、各WEBページのWEBページ識別情報とクラスタ識別情報とを対応付けて記憶する。図6は、クラスタ情報記憶部217に記憶されているクラスタおよび、そのクラスタに対応付けられたWEBページのURLを示すテーブルである。クラスタ情報記憶部217は、各WEBページ情報に対応付けてクラスタ情報を記憶する。クラスタ情報記憶部217は、メモリまたはHDD等の補助記憶装置により構成されている。
なお、クラスタの種類は、たとえば愛犬家のグループ、アニメ好きのグループ、雑誌関連のグループ、シャンプーに関連するグループ等、様々に設定できる。また、クラスタは重なりをもっており、クラスタAに属するWEBページがクラスタBに属することもありうる。また、大グループの中に小グループが存在する構造となっていてもよい。また、上記の対応付けは、データ構造上、WEBページαは、クラスタAとクラスタBに属するという構造で記憶されてもよいし、クラスタAは、WEBページα、WEBページβを含むという構造で記憶されてもよい。
図5は、文章解析後のデータを表すテーブルである。左側は、抽出の基点となる特定のWEBページのURL、右側は、主なキーワードおよびそれに関連するキーワードを示している。たとえば、http://work-at.co.jp/を基点としてWEBページの集合を抽出し、さらに、「株式会社ワークアット」を主なキーワードとし、「RSSリーダー」、「Blogpet」を関連語句としてWEBページの集合を抽出したことを示している。このようにして抽出されたWEBページの集合は、クラスタとして分類されクラスタ情報記憶部217に記憶される。
(WEBページ抽出システムの動作)
次に、WEBページ抽出システム200の動作を説明する。図7は、WEBページ抽出システム200の特徴的な動作を示すフローチャートである。
まず、ログ収集部201がアクセスログを収集する(ステップS1)。そして、ログ集計部202が、収集されたアクセスログを集計する(ステップS2)。集計により、WEBページ閲覧の移動数、PV数等が算出される。一方、入力部207は、キーワードの入力を受付ける(ステップS3)。これにより、クラスタを表す語句を入力することができる。次いで、検索部205が入力されたキーワードについてWEBページの検索処理を行なう(ステップS4)。そして、検索されたWEBページをさらにアクセス数でソートする。ソートしておくことで、求めるWEBページを選択し易くすることができる。なお、検索処理のみ行いWEBページをユーザが選択することとしてもよいし、検索処理をせずに直接WEBページを選択することとしてもよい。
次に、入力部207は、検索により抽出されたWEBページから基点となるWEBページを選択する操作を受付ける(ステップS5)。これにより、検索されたWEBページの中から特にクラスタの中心に近いものを選ぶことができる。
次に、第1の抽出部209が、選択されたWEBページを基点にしてユーザ閲覧の移動があったWEBページの中から、ユーザ閲覧の移動数が一定数以上のものをすべて抽出する(ステップS6)。移動数が一定数以上のものを抽出することで、同様の閲覧傾向をもつユーザがアクセスしやすいWEBページを抽出することができる。その他に、対象のPV数や検索履歴が一定数以上という条件として広告の表示度に重点を置いてもよい。
次に、入力部207はさらなる抽出のためのキーワードを受付け、関連語句決定部215は、そのキーワードから入力されたキーワードから関連語句を決定する(ステップS7)。そして、第2の抽出部216は、上記の関連語句を含むWEBページを抽出する(ステップS8)。そして、抽出されたWEBページが一定数に達したか否かを判定し(ステップS9)、一定数に達していないと判定された場合には、ステップS7に戻る。一定数に達したと判定された場合には、抽出を終了し、抽出されたWEBページの集合をクラスタとして記憶する(ステップS10)。
上記の抽出の動作を簡略化したイメージを用いて説明する。図8は、抽出の処理をWEBページの集合でイメージ化した概念図である。図8において、長方形のシートとして描かれているものの一つひとつがWEBページを表している。そして各WEBページを繋ぐ直線は、ユーザ端末による閲覧の移動があったことを示している。
図8(a)は、第1の抽出部による抽出処理を模式化したものであり、基点としてWEBページP1およびP2が選択されたことを表している。そして、WEBページP1およびP2から、たとえば閲覧の移動が100以上あるものを第1の抽出部209が抽出し、その結果、WEBページの集合G1およびG2が抽出されていることが示されている。
また、図8(b)は、第2の抽出部による抽出処理を模式化したものであり、WEBページの集合G1およびG2から、さらに関連語句が含まれているWEBページを絞り込んで抽出した結果、WEBページの集合G3およびG4が抽出されていることを示している。このようにして、抽出の処理は2段階でなされる。なお、本実施の形態においてWEBページ抽出システム200は、以下に説明する広告配信に用いられるが、これに用途が限定されるわけではない。
(広告配信システムの構成)
次に、広告配信システム300の構成を説明する。広告配信システム300は、WEBページ抽出システム200に接続されている。広告配信システム300は、WEBページ抽出システムに問い合わせて、アクセスを要求されたWEBページに適した広告を配信する。図9は、広告配信システム300の構成を示すブロック図である。
アクセス経路抽出部301は、ログ収集部201により収集されたアクセスログに基づいてWEBページにアクセスしたユーザ端末の識別情報(IPアドレスやCookie)から、同一ユーザ端末のアクセス経路を抽出する。アクセス経路の抽出は、たとえばアクセスログのデータから同一のIPアドレスのアクセスログを抽出し、時刻順にソートすることによって行なう。アクセス経路抽出部301は、収集されたアクセスログから、広告配信要求があったユーザ端末のアクセス経路を抽出する。アクセス経路抽出部301は、CPUおよび主記憶装置により構成されている。
判定部302は、抽出されたアクセス経路が、特定のクラスタに属するWEBページへのアクセスについて所定条件を満たすか否かを判定する。たとえば、ユーザ端末についてクラスタAに属する3つ以上のWEBページに連続してアクセスしたか否かを判定する。これにより、そのユーザがどのクラスタに関心をもっているかを推定することができる。判定部302は、CPUおよび主記憶装置により構成されている。
広告情報記憶部305は、広告情報とクラスタ識別情報とを対応付けて記憶する。図10は、クラスタとそれに対応する広告情報のテーブルを示す図である。あらかじめこのようなテーブルが広告情報記憶部305に記憶されており、このテーブルを参照しクラスタ情報に対応する広告情報を配信する。たとえば、図10の例では、広告ID00111の広告について、広告配信の対象とするクラスタをクラスタAとし、配信期間を2006年6月1日から2006年7月1日までとして、規定PV数50000に達するまで配信するという配信条件と広告主の区分としてドッグフードメーカーが記憶されている。広告情報記憶部305には、別途、広告IDに対応付けて広告情報そのものも格納されており、配信制御部304の制御により広告IDが指定されたときには、広告情報記憶部305から指定された広告情報をユーザ端末に配信する。広告情報記憶部305は、メモリまたはHDD等の補助記憶装置により構成されている。
広告配信部307は、抽出したクラスタ情報に対応する広告情報をユーザ端末に向けて配信する。すなわち、広告配信部307は、アクセスを要求されたWEBページの表示に伴い要求された広告情報として、クラスタ情報記憶部217および広告情報記憶部305に記憶されている情報を参照し、WEBページの属するクラスタに対応する広告情報をユーザ端末400に配信する。このようにして、ユーザの属性に適合した広告を配信することができる。その結果、広告主は狙った対象に的確に広告を配信することができ、広告の効果を高めることができる。
一方、広告配信部307は、判定部302によりアクセス経路の履歴が所定条件を満たすと判定された場合には、広告配信要求があったユーザ端末と特定のクラスタとを対応付け、広告配信要求があったユーザ端末から更に配信要求があったときには特定のクラスタに対応する広告情報を配信する。これにより、ユーザ端末のアクセス経路を追跡して広告配信を行なうことができる。その結果、現在閲覧しているWEBページからユーザの閲覧対象が移動しても、ユーザの属性に適した広告を配信し、広告効果を高めることができる。広告配信部307は、CPUおよび主記憶装置により構成されている。なお、この場合のアクセスログの収集は特にWEBビーコン型が好ましい。また、実際に全てのアクセスを追跡することが負荷的に難しいときには、直近のアクセスからランダム抽出して追跡したり、最後にクラスタにアクセスしたデータのみ保存することとして追跡してもよい。たとえば、同一ユーザが直近(1週間以内等)でアクセスしたクラスタの3つの中からランダムで1つのクラスタを広告出力用のクラスタとして決定してもよい。また、同一ユーザのアクセスログ10000件の中からランダムで3つのアクセスログを取得し、広告出力用のクラスタを決定することとしてもよいし、同一ユーザが最後にアクセスしたクラスタを広告出力用として決定してもよい。
配信制御部304は、各WEBページの閲覧の際に配信される広告について、収集されたアクセスログから予想PV数または予想クリック率を算出する。そして算出された予想PV数または予想クリック率に基づいて、広告配信の状態を、各広告について設定された設定数値(設定条件)に近づける制御をする。このように、本発明の広告配信システム300は、算出された予想PV数または予想クリック率から広告の配信頻度や広告の配信対象を変更し、限られた広告回数や広告期間の中で最も広告効果を高めることができる。なお、クリック率には、最初は、一般的なWEB広告のクリック率(0.05〜0.2程度)を利用し、その後は、情報の蓄積に伴いクリック率を決めることができる。
たとえば、一週間で広告予算を使い切りたい広告主の広告の表示回数やクリック数が低い場合には、表示回数を高く設定し直すことができる。また、全体の表示回数が増えるように、クラスタリングを再度行ない、もっと大きいクラスタを作成することもできる。配信制御部304は、CPUにより構成されている。
(広告配信システムの動作)
次に、広告配信システム300の一つの広告の出稿に対する動作を説明する。図11は、広告配信システム300の特徴的な動作を示すフローチャートである。
前提としてWEBページ抽出システム200のクラスタ情報記憶部217に記憶されているクラスタ情報から、クラスタ全体のPV数やURL数、ユニークユーザ数(同一ユーザの重複を省いたユーザ数)を集計し、ユーザへのアンケート等によりユーザの年代、性別、趣味や現在広告を出稿できるサイトのリストなどを分析する。現在広告を出稿できるサイトのリストとは、たとえば、広告の出稿を排除するサイトとして、アダルトサイト、ギャンブル関連サイト、広告主の競合サイト(または競合に関する内容を扱ったサイト)、広告表示領域が現在設定されていないサイト、ネガティブな情報を取扱ったサイトを挙げたリストである。そして、各クラスタの分析結果と対象となる広告とを比較し、広告効果が十分であるか否かを判断する。不十分であると判断できる場合には、再度、キーワード等を変えてWEBページ抽出システム200によるクラスタリングを行なう。このようにして、広告配信システム300による処理を行う前に配信したい広告と最も適合するクラスタを選んでおく。
広告配信処理が開始されると、まず、広告配信部307は、ユーザ端末400から配信要求があるたびに配信制御部304の制御の下、配信条件に従って広告配信を行なう(ステップT1)。次に、配信制御部304は、広告配信があるごとに終了条件を満たしているか否かを判定する(ステップT2)。終了条件を満たしていれば、配信制御部304は、広告配信を終了する。
一方、終了条件を満たしていなければ、配信制御部304は、フィードバックする設定か否かを判定する(ステップT3)。フィードバックする設定でなければ、T1に戻る。フィードバックする設定であれば、さらに見直しの条件を満たすか否かを判定する(ステップT4)。
見直しの条件を満たさない場合には、T1に戻る。見直しの条件を満たす場合には、設定数値を再度算出する(ステップT5)。設定数値とは、たとえば、PV数やそれを達成するためのクラスタの大きさを表す数値、またはクラスタ抽出の際に条件となる数値である。そして、WEBページ抽出システム200に再クラスタリングを行わせる(ステップT6)。再クラスタリングが終わると、T1に戻り処理を繰り返す。
なお、上記の一連の処理では、再クラスタリング等の配信広告の決定以外の処理も実行することとしているが、実際には、別処理として実行することとしてもよい。その場合、たとえば、広告配信にかかわらず1時間毎にクラスタの大きさが妥当か否かを評価し、クラスタを再生成することとしてもよい。
上記のような本発明の特徴的な動作は、コンピュータに制御プログラムを実行させることにより行われる。このようなプログラムは、CD−ROMやDVD等の記録媒体に記録された状態で入手することができ、ネットワークを構成する公衆電話回線、専用電話回線、ケーブルテレビ回線、無線通信回線等により構成される通信網等の伝達媒体を介して、送信装置であるコンピュータにより送信された信号を受信することで入手することもできる。
本発明を適用した広告配信ビジネスモデルの構成を示す概念図である。 本発明に係るWEBページ抽出システムの構成を示すブロック図である。 ログ収集部が収集したアクセスログの一例を示すテーブルである。 ログ集計部により収集のあったWEBページ閲覧の移動数を示すテーブルである。 文章解析後のデータを表すテーブルである。 クラスタおよび、そのクラスタに対応付けられたWEBページのURLを示すテーブルである。 本発明に係るWEBページ抽出システムの特徴的な動作を示すフローチャートである。 抽出の処理をWEBページの集合でイメージ化した概念図である。 本発明に係る広告配信システムの構成を示すブロック図である。 クラスタとそれに対応する広告情報のテーブルを示す図である。 本発明に係る広告配信システムの特徴的な動作を示すフローチャートである。
符号の説明
100 広告配信管理システム
200 WEBページ抽出システム
201 ログ収集部
202 ログ集計部
203 集計情報記憶部
205 検索部
207 入力部
209 第1の抽出部
211 文書情報取得部
212 文書情報解析部
213 文書情報記憶部
215 関連語句決定部
216 第2の抽出部
217 クラスタ情報記憶部
300 広告配信システム
301 アクセス経路抽出部
302 判定部
304 配信制御部
305 広告情報記憶部
307 広告配信部
400 ユーザ端末
500 WEBサーバ
N ネットワーク

Claims (8)

  1. ネットワークを介して、アクセスログを収集するログ収集部と、
    前記収集されたアクセスログを参照し、特定のWEBページを基点としてWEBページ間にわたる閲覧の移動があり、かつ前記特定のWEBページとの関連性を示す数値が一定数以上であるWEBページの集合を抽出する第1の抽出部と、
    ネットワークを介して、WEBページの文書情報を取得する文書情報取得部と、
    前記取得された文書情報を参照し、文書情報内に特定の語句に関連する語句の範囲にある語句を所定数以上含むWEBページの集合を抽出する第2の抽出部と、を備え、
    前記第1または第2の抽出部のいずれかがWEBページの集合を抽出した後、もう一方の抽出部が前記抽出されたWEBページの集合から、さらに絞り込んでWEBページの集合を抽出することを特徴とするWEBページ抽出システム。
  2. 語句の入力を受け付ける入力部と、
    文書情報内に前記入力された語句を一定数以上含むWEBページを検索する検索部と、をさらに備え、
    前記入力部は、前記検索されたWEBページの集合から前記第1の抽出部による抽出の基点となるWEBページを選択する入力を受け付け、第1の抽出部は、前記選択されたWEBページを基点としてWEBページの集合を抽出することを特徴とする請求項1記載のWEBページ抽出システム。
  3. 前記第2の抽出部は、前記特定の語句に関連する語句の範囲にある語句を含むWEBページの集合を抽出する際、含まれるWEBページ数が所定数となったときに抽出を停止することを特徴とする請求項1または請求項2記載のWEBページ抽出システム。
  4. 前記絞り込んで抽出されたWEBページの集合を一つのクラスタとして識別し、各WEBページのWEBページ識別情報とクラスタ識別情報とを対応付けて記憶するクラスタ情報記憶部をさらに備えることを特徴とする請求項1から請求項3のいずれかに記載のWEBページ抽出システム。
  5. 請求項4記載のWEBページ抽出システムに問い合わせて、アクセスを要求されたWEBページに適した広告を配信する広告配信システムであって、
    広告情報とクラスタ識別情報とを対応付けて記憶する広告情報記憶部と、
    前記アクセスを要求されたWEBページのデータの送信に伴い、前記クラスタ情報記憶部および広告情報記憶部に記憶されている情報を参照し、前記WEBページの属するクラスタに対応する広告情報を配信する広告配信部と、を備えることを特徴とする広告配信システム。
  6. 請求項4記載のWEBページ抽出システムに問い合わせて、ユーザ端末のアクセス経路を追跡し、広告を配信する広告配信システムであって、
    前記収集されたアクセスログから、広告配信要求があったユーザ端末のアクセス経路を抽出するアクセス経路抽出部と、
    前記抽出されたアクセス経路が、特定のクラスタに属するWEBページへのアクセスについて所定条件を満たすか否かを判定する判定部と、
    前記所定条件を満たす場合には、前記広告配信要求があったユーザ端末と前記特定のクラスタとを対応付け、前記広告配信要求があったユーザ端末から更に配信要求があったときには前記特定のクラスタに対応する広告情報を配信する広告配信部と、を更に備えることを特徴とする広告配信システム。
  7. 各WEBページの閲覧の際に配信される広告について、前記収集されたアクセスログから予想PV数または予想クリック率を算出し、前記算出された予想PV数または予想クリック率に基づいて、各広告の広告配信の状態を、前各広告について設定された設定条件に近づける制御をする配信制御部を更に備え、
    前記広告配信部は、前記配信制御部の制御に従って広告を配信することを特徴とする請求項5または請求項6記載の広告配信システム。
  8. ネットワークに接続され、少なくともログ収集部、第1の抽出部、文書情報取得部、第2の抽出部を備えるシステムに、
    ログ収集部が、ネットワークを介して、アクセスログを収集するログ収集処理と、
    第1の抽出部が、前記収集されたアクセスログを参照し、特定のWEBページを基点としてWEBページ間にわたる閲覧の移動があり、かつ前記特定のWEBページとの関連性を示す数値が一定数以上であるWEBページの集合を抽出する第1の抽出処理と、
    文書情報取得部が、ネットワークを介して、WEBページの文書情報を取得する文書情報取得処理と、
    第2の抽出部が、前記取得された文書情報を参照し、文書情報内に特定の語句に関連する語句の範囲にある語句を所定数以上含むWEBページの集合を抽出する第2の抽出処理と、を実行させ、
    前記第1または第2の抽出処理のいずれかにより特定のWEBページを基点としてWEBページの集合を抽出した後、もう一方の抽出処理により前記抽出されたWEBページの集合から、さらに絞り込んでWEBページの集合を抽出することを特徴とするWEBページ抽出プログラム。
JP2006152398A 2006-05-31 2006-05-31 Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム Withdrawn JP2007323334A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006152398A JP2007323334A (ja) 2006-05-31 2006-05-31 Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006152398A JP2007323334A (ja) 2006-05-31 2006-05-31 Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム

Publications (1)

Publication Number Publication Date
JP2007323334A true JP2007323334A (ja) 2007-12-13

Family

ID=38856089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006152398A Withdrawn JP2007323334A (ja) 2006-05-31 2006-05-31 Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム

Country Status (1)

Country Link
JP (1) JP2007323334A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193465A (ja) * 2008-02-15 2009-08-27 Ntt Communications Kk 情報処理装置、情報提供システム、情報処理方法、およびプログラム
JP2009237824A (ja) * 2008-03-26 2009-10-15 Ntt Data Corp 情報分析装置、情報分析方法、及び情報分析プログラム
WO2010029936A1 (ja) * 2008-09-11 2010-03-18 株式会社Access ユーザ情報提供方法、ユーザ情報提供プログラム、クライアント装置、サーバ装置、およびユーザ情報提供システム
JP2010123000A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> Webページグループ抽出方法及び装置及びプログラム
JP2011515754A (ja) * 2008-03-21 2011-05-19 エヌエイチエヌ ビジネス プラットフォーム コーポレーション 新規広告可能なurl提供方法およびシステム
JP2011138517A (ja) * 2009-12-30 2011-07-14 Nhn Corp サイトクラスタシステムおよびサイトクラスタ方法
JP2011215195A (ja) * 2010-03-31 2011-10-27 Brother Industries Ltd 楽曲再生システム及び楽曲再生方法
JP2012079308A (ja) * 2010-09-30 2012-04-19 Nhn Business Platform Corp コンテンツアクセス経路に応じて動的に広告を選択して提供するための方法、システム及びコンピュータ読み取り可能な記録媒体
JP2015528952A (ja) * 2012-07-09 2015-10-01 フェイスブック,インク. 広告キャンペーン予算に基づいた広告キャンペーンに関するターゲット設定基準の変更
JP2016151846A (ja) * 2015-02-17 2016-08-22 三菱電機株式会社 サーバ装置及びクライアント装置及びグルーピング方法及びグルーピングプログラム
JP2016177648A (ja) * 2015-03-20 2016-10-06 ヤフー株式会社 情報処理装置、情報処理プログラムおよび情報処理方法
JP2018160126A (ja) * 2017-03-23 2018-10-11 Necパーソナルコンピュータ株式会社 広告付与装置、広告付与方法、及び広告付与プログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193465A (ja) * 2008-02-15 2009-08-27 Ntt Communications Kk 情報処理装置、情報提供システム、情報処理方法、およびプログラム
JP2011515754A (ja) * 2008-03-21 2011-05-19 エヌエイチエヌ ビジネス プラットフォーム コーポレーション 新規広告可能なurl提供方法およびシステム
JP2009237824A (ja) * 2008-03-26 2009-10-15 Ntt Data Corp 情報分析装置、情報分析方法、及び情報分析プログラム
WO2010029936A1 (ja) * 2008-09-11 2010-03-18 株式会社Access ユーザ情報提供方法、ユーザ情報提供プログラム、クライアント装置、サーバ装置、およびユーザ情報提供システム
JP2010067023A (ja) * 2008-09-11 2010-03-25 Access Co Ltd ユーザ情報提供方法、ユーザ情報提供プログラム、クライアント装置、サーバ装置、およびユーザ情報提供システム
JP2010123000A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> Webページグループ抽出方法及び装置及びプログラム
JP2011138517A (ja) * 2009-12-30 2011-07-14 Nhn Corp サイトクラスタシステムおよびサイトクラスタ方法
JP2011215195A (ja) * 2010-03-31 2011-10-27 Brother Industries Ltd 楽曲再生システム及び楽曲再生方法
JP2012079308A (ja) * 2010-09-30 2012-04-19 Nhn Business Platform Corp コンテンツアクセス経路に応じて動的に広告を選択して提供するための方法、システム及びコンピュータ読み取り可能な記録媒体
JP2015528952A (ja) * 2012-07-09 2015-10-01 フェイスブック,インク. 広告キャンペーン予算に基づいた広告キャンペーンに関するターゲット設定基準の変更
JP2016151846A (ja) * 2015-02-17 2016-08-22 三菱電機株式会社 サーバ装置及びクライアント装置及びグルーピング方法及びグルーピングプログラム
JP2016177648A (ja) * 2015-03-20 2016-10-06 ヤフー株式会社 情報処理装置、情報処理プログラムおよび情報処理方法
JP2018160126A (ja) * 2017-03-23 2018-10-11 Necパーソナルコンピュータ株式会社 広告付与装置、広告付与方法、及び広告付与プログラム

Similar Documents

Publication Publication Date Title
JP2007323334A (ja) Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム
Vargiu et al. Exploiting web scraping in a collaborative filtering-based approach to web advertising.
US9165060B2 (en) Content creation and management system
US7668823B2 (en) Identifying inadequate search content
US8176029B2 (en) Composite display method and system for search engine of same resource information based on degree of attention
US7814089B1 (en) System and method for presenting categorized content on a site using programmatic and manual selection of content items
US8738426B2 (en) Taxonomy based targeted search advertising
US7987261B2 (en) Traffic predictor for network-accessible information modules
US8484205B1 (en) System and method for generating sources of prioritized content
US8645367B1 (en) Predicting data for document attributes based on aggregated data for repeated URL patterns
US20080154889A1 (en) Video searching engine and methods
TW201445344A (zh) 促進內容與網路中廣告資訊匹配之系統及方法
JP2008507041A (ja) 検索結果内におけるプレーストコンテンツの順序付けのパーソナライズ
WO2013025874A2 (en) Page reporting
WO2007071143A1 (fr) Procédé et appareil destinés à émettre des informations réseau
Jansen et al. Real time search on the web: Queries, topics, and economic value
CN101751422A (zh) 一种移动终端智能搜索的方法、移动终端和服务器
US8380745B1 (en) Natural language search for audience
KR20130033693A (ko) 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
JP4859893B2 (ja) 広告配信装置、広告配信方法、及び広告配信制御プログラム
JP2011515754A (ja) 新規広告可能なurl提供方法およびシステム
US20110282741A1 (en) Method for offering advertisement according to search intention segmentation and system for executing the method
CN100555283C (zh) 一种直接针对用户的相关信息的发布方法和系统
CN112434240B (zh) 一种seo智能优化排名和查询系统

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090804