JP5011185B2 - 情報分析装置、情報分析方法、及び情報分析プログラム - Google Patents

情報分析装置、情報分析方法、及び情報分析プログラム Download PDF

Info

Publication number
JP5011185B2
JP5011185B2 JP2008081952A JP2008081952A JP5011185B2 JP 5011185 B2 JP5011185 B2 JP 5011185B2 JP 2008081952 A JP2008081952 A JP 2008081952A JP 2008081952 A JP2008081952 A JP 2008081952A JP 5011185 B2 JP5011185 B2 JP 5011185B2
Authority
JP
Japan
Prior art keywords
information
page
access
unit
access information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008081952A
Other languages
English (en)
Other versions
JP2009237824A (ja
Inventor
順子 矢野
元英 加藤
啓 北内
高志 末永
崇 生田目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2008081952A priority Critical patent/JP5011185B2/ja
Publication of JP2009237824A publication Critical patent/JP2009237824A/ja
Application granted granted Critical
Publication of JP5011185B2 publication Critical patent/JP5011185B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報分析装置、情報分析方法、及び情報分析プログラムに関する。
近年、インターネットを介した消費者間コミュニケーションが広く行われるようになってきている。そして、商品を購入した消費者がインターネットで提供する口コミ情報は、人から人へ会話を通じて伝わる口コミ情報よりも、はるかに早く、そして広範囲に伝わり、他の消費者の購買行動に大きな影響を与えるようになっている。
一方、商品販売者のインターネットを利用したマーケティングの目的の一つは、バナー広告やポイント付与等の様々な手段を用いて、消費者を自社のウェブページに誘導し、最終的に消費者の商品購入(コンバージョン)に結び付けることにある。
このようなインターネットを利用したマーケティングにおいて、上述の口コミ情報を提供する消費者間コミュニケーションサイト等、自社のウェブページへの誘導元となるウェブページの情報は、商品販売者である企業にとって、無視できないものになりつつある。
特許文献1には、評価対象のウェブページを参照している参照元のウェブページのテキストに基づいて、評価対象ウェブページを評価するウェブページ評価システムが記載されている。また、特許文献2には、ウェブページ作成者等の行動に基づいて、そのウェブページのネットワークにおける役割や特徴等を分類する分類方法が記載されている。
特開2005−339419号公報 特開2006−163997号公報
しかし、上述の従来の評価システムでは、参照元のウェブページのみを評価をしているので、利用者が参照先のウェブページで商品購入等をしたか、つまり、商品購入に結び付いたウェブページに到達したかが分からず、商品購入に結びついた情報を提供できないという欠点がある。
また、上述の従来の分類方法では、ウェブページに記載された内容までは分析をしておらず、ウェブページの記載内容である口コミ情報等、消費者の購買行動に大きな影響を与える情報により分類した情報を提供できないという欠点がある。
本発明は上記の点に鑑みてなされたものであり、その目的は、参照元のウェブページをその記載内容により分類した情報、及び、商品購入に結びついた情報を提供することができる情報分析装置、情報分析方法、及び情報分析プログラムを提供することにある。
(1)本発明は上記の課題を解決するためになされたものであり、その一態様は、ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部と、前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する参照元ページ情報解析部と、前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する前記参照元ページ情報解析部が算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する特徴抽出部と、前記アクセス情報記憶部が記憶するアクセス情報について、前記特徴抽出部が変換した主成分が類似するアクセス情報の集合に分類するアクセス情報分類部と、前記アクセス情報分類部が分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する到達率算出部とを備える。
上記構成によると、情報分析装置は、参照元ページの所在情報を記憶し、該所在から参照元ページの文書情報を取得して該文書情報の単語を解析し、該解析結果の主成分分析を行って参照元ページを分類する。また、情報分析装置は、参照ページ分類情報と到達識別情報とを記憶し、アクセス情報を集計して、参照元ページの分類ごとに、到達率を算出する。これにより、情報分析装置は、参照元のウェブページをその記載内容により分類した情報、及び、到達目標としたページに到達した到達率の情報を提供することができる。
(2)また、本発明の一態様は、参照ページ情報記憶部は、前記参照ページの文書情報を分類する参照ページ分類情報を記憶し、前記到達率算出部は、前記アクセス情報分類部が分類した同一の集合に属し、前記参照ページ情報記憶部が記憶する参照ページ分類情報が同一のアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する。
(3)また、本発明の一態様は、商品又はサービスについての分類情報であり、前記到達識別情報は、商品の購入又はサービスの契約に関するページを到達率の算出対象とする情報である。
上記構成によると、情報分析装置は、商品の購入又はサービスの契約に関するページへの到達率を算出することができ、参照元のウェブページをその記載内容により分類した情報、及び、商品購入又はサービスの契約に結びついた情報を提供することができる。
(4)また、本発明の一態様は、参照ページへの誘導元のウェブページである誘導元ページの識別情報と、該誘導元ページの文書情報に含まれる単語の出現頻度とを入力する誘導元ページ解析情報入力部と、前記誘導元ページ解析情報入力部から入力された誘導元ページの各単語の出現頻度を前記特徴抽出部が変換した特徴が現れる主成分に変換し、該主成分が類似する前記アクセス情報分類部が分類した集合を特定する誘導元ページ分類特定部と、前記誘導元ページ分類特定部が特定した集合について、前記到達率算出部が算出した到達率に基づき参照ページ分類情報を出力する推奨分類出力部とを備える。
上記構成によると、情報分析装置は、誘導元ページ解析情報を入力すると、該誘導元ページが属する参照元ページ分類情報を特定し、例えば、該参照元ページ分類情報のうち到達率が高い参照ページ分類情報を出力する。これにより、誘導元ページについて、例えば、参照ページ分類情報を参照ページに掲載された商品とすると、商品購入に結び付いたウェブページへの到達率が高い商品を特定することができ、誘導元ページから該特定した商品が掲載された参照ページへの誘導を増やすことにより、効率的に該商品の商品購入に結び付いたウェブページへの到達、つまり、商品購入を増やすことができる。
(5)また、本発明の一態様は、前記到達率算出部が算出した到達率に基づき前記参照元ページ分類情報を特定し、該特定した参照元ページ分類情報に対応する前記アクセス情報分類結果記憶部が記憶する参照元ページの所在情報を出力する推奨ページ出力部
を備える。
上記構成によると、情報分析装置は、例えば、商品購入に結び付いたウェブページへの到達率が高い参照元ページの所在情報を出力ことができ、該参照元ページからの誘導を増やすことにより、効率的に商品購入に結び付いたウェブページへの到達、つまり、商品購入を増やすことができる。
(6)また、本発明の一態様は、ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部とを備える情報分析装置における情報分析方法であって、前記情報分析装置が、前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する第1の過程と、前記情報分析装置が、前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する第1の過程にて算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する第2の過程と、前記情報分析装置が、前記アクセス情報記憶部が記憶するアクセス情報について、第2の過程にて変換した主成分が類似するアクセス情報の集合に分類する第3の過程と、前記情報分析装置が、第3の過程にて分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する第4の過程とを有する。
(7)また、本発明の一態様は、ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部とを備える情報分析装置のコンピュータを前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する参照元ページ情報解析手段、前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する参照元ページ情報解析手段にて算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する特徴抽出手段、前記アクセス情報記憶部が記憶するアクセス情報について、特徴抽出手段にて変換した主成分が類似するアクセス情報の集合に分類するアクセス情報分類手段、アクセス情報分類手段にて分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する到達率算出手段、として機能させる。
本発明によれば、情報分析装置は、参照元ページの所在情報を記憶し、該所在から参照元ページの文書情報を取得して該文書情報の単語を解析し、該解析結果の主成分分析を行って参照元ページを分類する。また、情報分析装置は、参照ページ分類情報と到達識別情報とを記憶し、アクセス情報を集計して、参照元ページの分類ごとに到達率を算出する。
これにより、情報分析装置は、参照元ページの分類ごとに、商品の購入又はサービスの契約に関するページへの到達率を算出することができ、参照元のウェブページをその記載内容により分類した情報、及び、商品購入又はサービスの契約に結びついた情報を提供することができる。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。図1は、本発明の第1の実施形態に係る情報分析装置10の構成を示す概略ブロック図である。
情報分析装置10は、参照ページ情報記憶部101、アクセス情報記憶部102、参照元ページ情報解析部103、アクセス情報解析結果記憶部104、特徴抽出部105、アクセス情報分類部106、アクセス情報分類結果記憶部107、到達率算出部108、到達率算出結果記憶部109、及び、推奨ページ出力部110を含んで構成される。
参照ページ情報記憶部101は、商品・サービス情報テーブル(図2)を記憶する。商品・サービス情報テーブルは、参照されたページの所在情報(URL:Uniform Resource Locator)(以下、参照ページURLという)と、該参照ページの文書情報を分類する参照ページ分類情報と、該参照ページが到達率の算出対象か否かを示す到達識別情報の各項目を有するテーブルである。
ここで、参照ページ分類情報は、商品又はサービスについての分類情報であり、到達識別情報は、商品の購入又はサービスの契約に関するページを到達率の算出対象とする情報である。
具体的に、参照ページ分類情報は、参照ページに掲載された商品又はサービスの分類を示す商品IDであり、また、到達識別情報は、商品の購入やサービスの契約を完了したページ等、商品の購入に結び付くページを算出対象であることを示す「1」とする。つまり、到達率は、商品の購入率やサービスの契約率(コンバージョン率)を意味することとなる。以下、到達識別情報をコンバージョンフラグといい、到達率をコンバージョン率という。
アクセス情報記憶部102は、アクセスログテーブル(図3)を記憶する。アクセスログテーブルは、ウェブページへのアクセスごとの情報であって、つまり、セッションIDごとの情報であって、該アクセスにより参照された参照ページURLと、該ページへのアクセス前に参照された参照元ページのURL(以下、参照元ページURLという)とを含むデータ(アクセス情報:以下、アクセスログという)を格納したテーブルである。ここで、セッションIDは、ウェブページへのアクセスごとに払い出されるアクセスログを識別する識別情報である。
参照元ページ情報解析部103は、アクセス情報記憶部102が記憶する参照元ページURLから参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する。
具体的に、参照元ページ情報解析部103は、アクセス情報記憶部102が記憶するアクセスログに含まれる参照元ページのURLにアクセスし、HTML(HyperTextMarkupLanguage)ファイルを取得する。そして、参照元ページ情報解析部103は、該取得した参照元ページのHTMLファイルのデータに含まれる単語の出現頻度を算出する。参照元ページ情報解析部103の機能についての詳細は、後述する。
アクセス情報解析結果記憶部104は、アクセス情報解析結果テーブル(図6)を記憶する。アクセス情報解析結果テーブルは、セッションIDごとに、参照元ページ情報解析部103が算出した各単語の出現頻度を含む情報(以下、アクセスログ単語解析データという)格納したテーブルである。
具体的に、アクセス情報解析結果記憶部104は、アクセス情報記憶部102が記憶するアクセスログのセッションIDごとに、該セッションIDの参照元ページURLと、該参照元ページURLに対応する参照元ページ情報解析部103が算出した各単語の出現頻度と、を含むアクセスログ単語解析データを、アクセス情報解析結果テーブル(図6)に格納して記憶する。
特徴抽出部105は、アクセス情報記憶部102が記憶するアクセスログについて、該アクセスログの参照ページURLに対応する参照元ページ情報解析部103が算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する。
具体的に、特徴抽出部105は、アクセスログ単語解析データついて、各単語の出現頻度を成分として主成分分析を行い、各アクセスログ単語解析データの成分を特徴が現れる主成分に変換する。特徴抽出部105の機能についての詳細は、後述する。
アクセス情報分類部106は、アクセス情報記憶部102が記憶するアクセスログについて、特徴抽出部105が変換した主成分が類似するアクセスログの集合に分類する。
具体的に、アクセス情報分類部106は、アクセスログ単語解析データについて、特徴抽出部105が変換した主成分を、K−means法(K平均法)等を用いることにより、参照元ページ解析情報をセグメント化、すなわち、クラスタに分類する。アクセス情報分類部106の機能についての詳細は、後述する。
アクセス情報分類結果記憶部107は、アクセス情報分類結果テーブル(図10)を記憶する。アクセス情報分類結果テーブル(図10)は、アクセスログのセッションIDごとに、該セッションIDに対応するアクセス情報分類部106の分類結果であるクラスタ番号(参照元ページ分類情報)と、該アクセスログの参照ページURLに対応する参照ページ情報記憶部101に記憶された商品ID及びコンバージョンフラグと、を格納したテーブルである。
到達率算出部108は、アクセス情報分類部106が分類した同一のクラスタ番号のクラスタに属し、参照ページ情報記憶部101が記憶する商品IDが同一のアクセスログのうち、参照ページ情報記憶部101に記憶された参照ページURLであって、商品の購入に結び付くページを算出対象であることを示す「1」であるコンバージョンフラグに対応する参照ページURLを含むアクセスログの割合を表わすコンバージョン率を算出する。
具体的に、到達率算出部108は、アクセス情報分類結果テーブルのデータについて、同一のクラスタ番号、及び同一の商品IDであるデータのうち、コンバージョンフラグが「1」であるデータの割合を算出する。
到達率算出結果記憶部109は、コンバージョン率算出結果テーブル(図11)を記憶する。コンバージョン率算出結果テーブル(図11)は、クラスタ番号ごと、及び商品IDごとに、到達率算出部108が算出したコンバージョン率を格納したテーブルである。
推奨ページ出力部110は、到達率算出部108が算出したコンバージョン率に基づき出力するクラスタ番号を特定し、該特定したクラスタ番号に対応するアクセス情報分類結果記憶部107が記憶する参照元ページURLを出力する。
具体的に、例えば、推奨ページ出力部110は、コンバージョン率算出結果テーブルより、商品IDごとにコンバージョン率が最も高いクラスタ番号を特定し、商品IDとクラスタ番号に対応する参照元ページURLを出力する。しかし、本発明はこれに限らず、例えば、コンバージョン率の閾値を予め記憶し、該閾値を超えるコンバージョン率となる商品IDとクラスタ番号とを特定し、該特定した商品IDとクラスタ番号に対応する参照元ページURLを出力してもよい。
なお、参照ページ情報記憶部101、アクセス情報記憶部102、アクセス情報解析結果記憶部104、アクセス情報分類結果記憶部107、及び到達率算出結果記憶部109は、データを保持するものであり、磁気ハードディスク装置あるいは半導体メモリを用いて実現される。
また、参照元ページ情報解析部103、特徴抽出部105、アクセス情報分類部106、到達率算出部108、及び推奨ページ出力部110は、情報分析装置10が記憶媒体の保持するプログラムを読み出し実行することにより、又は、電子回路により実現される。
以下、上述の各テーブルの一例と、参照元ページ情報解析部103、特徴抽出部105、アクセス情報分類部106の動作について詳細を説明する。
まず、商品・サービス情報テーブルについて説明をする。商品・サービス情報テーブルは、リレーショナル形式のデータベースにより管理されている。
図2は、本発明の第1の実施形態に係る商品・サービス情報テーブルの一例を示す概略図である。図示するように、商品・サービス情報テーブルは、行と列からなる2次元の表形式のデータであり、商品ID、商品名、参照ページURL(リクエストURL)、コンバージョンフラグの各項目の列を有している。この商品・サービス情報テーブルの主キーは、参照ページURLである。
例えば、図2は、参照ページURL「http://xxx・・・/12345/top.html」のページが、商品ID「12345」である商品名「○○○」の商品が掲載され、コンバージョンフラグ「0」、つまり、商品の購入に結び付くページではないことを表わしている。なお、コンバージョンフラグ「1」は、商品の購入に結び付くページであることを表わしている。
次に、アクセスログテーブルについて説明をする。アクセスログテーブルは、リレーショナル形式のデータベースにより管理されている。
図3は、本発明の第1の実施形態に係るアクセスログテーブルの一例を示す概略図である。図示するように、アクセスログテーブルは、行と列からなる2次元の表形式のデータであり、参照ページの参照ごとに払いだされるセッションID、参照ページにアクセスした時間、参照元ページURL(リファラURL)、参照ページURL、ニュースやブログ等で分類するページのカテゴリの各項目の列を有している。このアクセスログテーブルの主キーは、セッションIDである。
例えば、図3の1番目のアクセスログは、時間「2008年03月03日20時30分14秒」に、参照ページURL「http://xxx・・・/12345/top.html」にアクセスがあり、セッションID「A8yks040」が払い出されたことを表わしている。また、該アクセスログは、「http://xxx・・・/12345/top.html」にアクセスする直前に、参照元ページURL「http://www.aaa・・・.co.jp」にアクセスし、該参照元ページのカテゴリは、「ニュース」であることを表わしている。
次に、参照元ページ情報解析部103、特徴抽出部105、アクセス情報分類部106が行う参照元ページの分類動作について説明をする。
図4は、本発明の第1の実施形態に係る参照元ページの分類動作を示すフロー図である。
まず、参照元ページ情報解析部103は、解析対象となる単語を選択する(S101)。そして、参照元ページ情報解析部103は、該選択した単語の出現頻度を算出する(S102)。次に、アクセス情報解析結果記憶部104は、セッションIDごとのデータであって、参照元ページ情報解析部103が算出した単語の出現頻度を含むデータであるアクセスログ単語解析データを記憶する(S103)。
次に、特徴抽出部105は、アクセスログ単語解析データについて、参照元ページ情報解析部103が算出した各単語の出現頻度を成分とした主成分分析を行う(S104)。そして、特徴抽出部105は、アクセスログ単語解析データの成分である各単語の出現頻度を、主成分に変換する(S105)。次に、アクセス情報分類部106は、参照元ページ解析情報を、特徴抽出部105が変換した主成分についてクラスタ分類を実施する(S106)。
以下、参照元ページの分類動作について詳細を説明する。
まず、参照元ページ情報解析部103の機能とアクセス情報解析結果テーブルとについて詳細を説明する。
参照元ページ情報解析部103は、アクセスログテーブルに含まれる参照元ページURLから取得したHTMLファイルについて、解析対象となる単語を選択する。
参照元ページ情報解析部103は、まず、アクセスログテーブルに格納された1つのアクセスログjについて、取得したHTMLファイルのデータに含まれる単語iの出現回数を数え、tfi,j(以下、tf(term frequency)値という)を求める。ここで、単語iは、「記事」、「リンク」等の単語の一つであり、例えば、自然言語処理の基礎技術である形態素解析を用いて定めてもよいし、予め単語候補を定めてもよい。
参照元ページ情報解析部103は、アクセスログテーブルの全てのアクセスログについて、参照元ページURLから取得したHTMLファイルのデータに含まれる単語iの合計出現回数であるtf(式(1))、及び、単語iが含まれるアクセスログ数であるdf(式(2))を算出する。
Figure 0005011185
Figure 0005011185
ここで、アクセスログテーブルに格納されたアクセスログはN個とする。参照元ページ情報解析部103は、該算出結果より、tfの値が高い単語iを選択する(以下、選択した単語を、選択単語iという)。また、[tfij≠0]は、tfijが0でないときは1、tfijが0のときは0をとる特殊関数であることを示す。
本実施形態では、参照元ページ情報解析部103は、tfの値が高い順に60個の単語を選択するとする。
ただし、参照元ページ情報解析部103は、dfの値が非常に高い単語を選択しないとしてもよい。つまり、多くのHTMLファイルに記載されている単語は、ウェブページに掲載されている一般的な単語であり、特徴を分析する情報分析には向かないので、選択をしないとしてもよい。例えば、参照元ページ情報解析部103は、dfの値が高い順に所定の数の単語を選択しないとしてもよいし、dfの値が所定の閾値を超える単語を選択しないとしてもよい。
図5は、参照元ページ情報解析部103による単語選択結果の一例を示す概略図である。図5は、参照元ページ情報解析部103が選択した選択単語i(単語)と、選択単語iの合計出現回数tf(tf値合計)とを3列に並べたものである。
例えば、図5は、アクセス情報分類部106が選択した単語「記事」について、アクセスログテーブルの全てのアクセスログには、「492」回出現したことを表わしている。
なお、図5では、単語を名詞に限定した結果を表わしているが、本発明はこれに限らず、例えば、形容詞等の単語に対しても同様の分析が可能である。
次に、参照元ページ情報解析部103は、選択単語iについて出現頻度を算出する。
参照元ページ情報解析部103は、例えば、アクセスログj(アクセスログjのセッションIDをセッションIDjとする)に対応する選択単語iの出現頻度wi,jを、式(3)により算出する。
Figure 0005011185
参照元ページ情報解析部103は、選択単語iの出現頻度をアクセス情報解析結果テーブルに記憶する。アクセス情報解析結果テーブルは、リレーショナル形式のデータベースにより管理されている。
図6は、本発明の第1の実施形態に係るアクセス情報解析結果テーブルの一例を示す概略図である。図示するように、アクセス情報解析結果テーブルは、行と列からなる2次元の表形式のデータであり、セッションID、時間、参照元ページURL、選択単語iの出現頻度の各項目の列を有している。アクセス情報解析結果テーブルの各行は、アクセスログテーブルの各行について、参照元ページURLに対応する各単語の出現頻度を付加したものであり、アクセスログ単語解析データである。このアクセス情報解析結果テーブルの主キーは、セッションIDである。
例えば、図6は、参照元ページ情報解析部103が、セッションID「A8yks040」であり、時間が「2008年3月3日20時30分40秒」であるアクセスログより、該アクセスログの参照元ページURL「http://www.aaa・・・.co.jp」にアクセスして、参照元ページのHTMLデータを取得したことを表わしている。
そして、該アクセスログ単語解析データは、該取得したHTMLファイルのデータに、単語「銘柄」が「6」、単語「投資」が「4」、単語「メール」が「1」、単語「機能」が「0」、単語「サーバ」が「0」の出現頻度で出現したことを表わしている。なお、図6では、60単語のうち5つの単語についてのみ出現頻度を記載している。
次に、特徴抽出部105の機能について詳細を説明する
特徴抽出部105は、アクセスログ単語解析データについて、各単語の出現頻度を成分とした主成分分析を行う。
なお、アクセス情報解析結果テーブルが格納するセッションIDは、アクセス情報記憶部102が記憶するアクセスログのセッションIDと対応しているので、アクセスログ単語解析データについての主成分分析は、アクセス情報記憶部102が記憶するアクセスログについての主成分分析と同等である。
以下、主成分分析について説明をする。
まず、アクセスログ単語解析データj(セッションIDがセッションIDjであるアクセスログ単語解析データ)に対応する選択単語iの出現頻度wi,j(i=1、2、・・・、K)を成分とするベクトルw=(w1,j、w2,j、・・・、wp,j、・・・、wK,j)(j=1、2、・・・、N)を考え、式(5)の条件の下、式(4)の線形結合を考える。
ここで、Kは、選択単語の数であり、本実施形態では、K=60である。
Figure 0005011185
Figure 0005011185
j,mは、アクセスログ単語解析データjの第m主成分と呼ばれる。なお、mは選択単語の数であるK(K=60)以下の自然数(m=1、2、・・・、P≦K=60)である(以下、Pを主成分数という)。また、ベクトルa=(a1,m、a2,m、・・・、aK,m)とする。
アクセスログ単語解析データの第m主成分の分散V(z)は、以下の式(6)となる。
Figure 0005011185
ここで、zは、アクセスログ単語解析データjの第m主成分zj,mを、全てのアクセスログ単語解析データについて平均した平均値である。式(6)を最大にするベクトルaは、以下の、共分散行列R(式(7))の固有値ベクトルとして算出される。ただし、単語の出現頻度に偏りがある場合等に変数を規準化した場合は、相関行列を用いてもよい。
Figure 0005011185
Figure 0005011185
ここで、ベクトルwは、アクセスログ単語解析データjに対応するベクトルwを、全てのアクセスログ単語解析データについて平均した平均ベクトルであり、Tは、転置を意味する。
また、λ(m=1、2、・・・、P≦K=60)とし、λ≧λ≧・・・≧λとする。なお、第m主成分zj,mの分散V(z)は、λとなる。
次に、特徴抽出部105は、第m主成分の寄与率を計算し、該計算結果に基づき主成分数Pを決定する。
特徴抽出部105は、後述する第1主成分からの寄与率の合計である累積寄与率が所定の閾値以上となる主成分数を主成分数Pとする。なお、寄与率とは、主成分の情報への寄与を示す指標であり、寄与率の値が大きい主成分は、情報への寄与が大きいと解釈される。
特徴抽出部105は、算出した固有値λの解λについて、寄与率δ(式(9))を計算する。
Figure 0005011185
ここで、tr(R)は、共分散行列Rのトレースである。
また、第1主成分から第P主成分までの累積寄与率δは、式(10)より計算される。
Figure 0005011185
図7は、本発明の第1の実施形態に係る主成分の寄与率の一例を示す概略図である。図は、第m主成分に対し、寄与率、第1主成分から第m主成分まで寄与率の和である累積寄与率を第10主成分まで示している。
特徴抽出部105は、例えば、累積寄与率δが80%以上となる主成分数Pを主成分と決定する。具体的に、図7では、第10主成分の累積寄与率が81.1%となり、80%を超えているので、主成分数Pを10と決定する。
特徴抽出部105は、アクセスログ単語解析データjに対応する選択単語iの出現頻度wi,jを、式(8)で計算したベクトルaを代入した式(4)で、第1主成分zj,1から第10主成分zj,10の各主成分に変換する。つまり、特徴抽出部105は、各アクセス情報の成分を特徴が現れる主成分に変換する。
以下、特徴抽出部105の主成分分析の結果が示す特徴の一例について説明する。
アクセスログ単語解析データjについて、選択単語iの出現頻度wi,jと第m主成分zj,mとの相関を示す因子負荷量rm,pは、式(11)で計算される。
Figure 0005011185
図8は、本発明の第1の実施形態に係る主成分負荷量データの一例を示す概略図である。主成分負荷量は、変数である各単語の出現頻度と主成分の相関であり、その値(絶対値)が大きい場合、相関が強いことを意味する。
図8は、単語の出現頻度ごとに、第1主成分負荷量、第2主成分負荷量を示している。例えば、第1主成分は、第1主成分負荷量は、「銘柄」、「注目」、「投資」の単語に対する負荷量の絶対値が大きく、「評価・推奨・利益追求に関する成分」であるという特徴を表わしていると解釈できる。
次に、アクセス情報分類部106の機能について詳細を説明する
アクセス情報分類部106は、アクセスログ単語解析データについて、特徴抽出部105が変換した成分を、K−means法(K平均法)等を用いることにより、参照元ページ解析情報をセグメント化、すなわち、クラスタに分類する。
本実施形態では、アクセス情報分類部106は、K−3、つまり、分類するクラスタを3つとして、アクセスログ単語解析データjに対応する主成分zj,mを分類する。
図9は、アクセス情報分類部106によるクラスタ分類を説明する概略図である。
この図は、単語「メール」、「銘柄」の出現頻度を、それぞれ縦軸、横軸とした空間である。この図は、該空間にベクトルa、ベクトルaが存在し、ベクトルaの方向を第1主成分の軸、ベクトルaの方向を第2主成分の軸とした場合の図である。
この図の空間にプロットされた黒い点は、アクセスログ単語解析データjについて、単語「銘柄」、「メール」の出現頻度をプロットした点であり、一つの点が一のアクセスログ単語解析データに対応する。
この図の×が後述するクラスタ分類の基準点であり、アクセスログ単語解析データは、3つのクラスタであるクラスタ1、クラスタ2、クラスタ3に分類されている。
まず、アクセス情報分類部106は、3つの基準点をランダムに与える。
次に、アクセス情報分類部106は、アクセスログ単語解析データについて、特徴抽出部105が抽出した主成分の距離が最も近い基準点を特定し、アクセスログ単語解析データは、該特定した基準点のクラスタに属するとする。このようにして、アクセス情報分類部106は、アクセスログ単語解析データの集合であるクラスタを生成する。
次に、アクセス情報分類部106は、各クラスタに属するアクセスログ単語解析データについて主成分の重心を計算する。
そして、アクセス情報分類部106は、該計算した重心を新たな基準点とし、再度、各参照元ページ解析情報の最も近い基準点を算出してクラスタを再生成する。アクセス情報分類部106は、該再生成を繰り返し、全てのアクセスログ単語解析データについて、属するクラスタに変化がない場合、各アクセスログ単語解析データが属するクラスタを、分類するクラスタとして確定する。
アクセス情報分類部106は、該クラスタを確定したアクセスログ単語解析データのセッションIDに対し、該分類結果であるクラスタ番号を関係付けてアクセス情報分類結果記憶部107に記憶する。
図10は、本発明の第1の実施形態に係るアクセス情報分類結果テーブルの一例を示す概略図である。図示するように、アクセス情報分類結果テーブルは、行と列からなる2次元の表形式のデータであり、セッションID、時間、参照元ページURL、商品ID、商品名、コンバージョンフラグ、クラスタ番号の各項目の列を有している。このアクセス情報分類結果テーブルの各行は、アクセスログテーブルの各行について、参照ページURLにより、商品・サービス情報テーブルの商品IDと商品名とコンバージョンフラグを関係づけ、アクセス情報分類部106の分析結果であるクラスタ番号を付加したものである。このアクセス情報分類結果テーブルの主キーはセッションIDである。
例えば、図10では、セッションID「A8yks040」のデータは、時間「2008年03月03日20時30分14秒」に、商品ID「12345」、商品名「○○○」、コンバージョンフラグ「0」に分類された参照ページにアクセスし、該アクセスの直前に、参照元ページURL「http://www.aaa・・・.co.jp」にアクセスし、その参照元ページは、クラスタ番号「01」であることを表わしている。
図11は、本発明の第1の実施形態に係るコンバージョン率算出結果テーブルの一例を示す概略図である。図示するように、コンバージョン率算出結果テーブルは、行と列からなる2次元の表形式のデータであり、商品ID、クラスタ1のコンバージョン率、クラスタ2のコンバージョン率、クラスタ3のコンバージョン率、及び全体のコンバージョン率の各項目の列を有している。このコンバージョン率算出結果テーブルの主キーは、商品IDである。
なお、全体のコンバージョン率は、アクセス情報分類結果テーブルの全てのデータのうち、該データの商品IDが同一であるデータについて、コンバージョンフラグが「1」であるデータの割合である。
例えば、図11では、商品ID「12345」の商品が掲載された参照ページに関し、クラスタ1、クラスタ2、クラスタ3のアクセスログについて、それぞれ、コンバージョン率が「16.7%」、「5.6%」、「6.7%」であることを表わし、アクセスログ全体について、コンバージョン率が「6.7%」であることを表わしている。
つまり、商品ID「12345」の商品について、クラスタ1に属する参照元ページからアクセスした場合に、コンバージョン率(購入率)が高いことを表わしている。よって、商品ID「12345」の商品について、ユーザをクラスタ1に属する参照元ページから誘導すれば、高い購入率となることが予想される。
図12は、本発明の第1の実施形態に係る推奨ページ出力部110の出力データの一例を示す概略図である。
推奨ページ出力部110は、コンバージョン率算出結果テーブルより、商品IDごとに、コンバージョン率が最も高いクラスタ番号を特定する。そして、推奨ページ出力部110は、商品ごとに、アクセス情報分類結果テーブルより該特定したクラスタ番号に属する参照元URLを抽出して出力する。
推奨ページ出力部110の出力データは、商品ID、クラスタ番号、参照元ページURLからなるデータである。
図12では、例えば、商品ID「12345」の商品について、コンバージョン率が最も高いクラスタ番号「01」に属する参照元ページURL「http://www.aaa・・・.co.jp」、「http://www.zzz・・・.co.jp」、「http://www.yyy・・・.co.jp」が出力されていることを表わしている。
以下、アクセス情報分類部106のクラスタ分類の結果が示す特徴の一例について説明する。
アクセスログ単語解析データについて第m主成分を第m主成分得点といい、各クラスタの第m主成分得点の平均は、各クラスタの特徴を表わす。
図13は、本発明の第1の実施形態に係る主成分得点データの一例を示す概略図である。図は、各クラスタについて、クラスタに属するアクセスログの主成分得点の平均値を示すデータであり、対象となる主成分ごとに、クラスタ1、クラスタ2、クラスタ3の主成分得点を示している。
図13では、例えば、クラスタ1は、第1主成分の傾向が非常に強く、図8で示した解釈により、「利益追求の情報提供、評価・推奨を行っているページ」と特徴づけることができる。
図14は、本発明の第1の実施形態に係る情報分析装置10の動作を示すフロー図である。
参照ページ情報記憶部101とアクセス情報記憶部102は、それぞれ、商品・サービス情報テーブルとアクセスログテーブルのデータを記憶する(S201)。
次に、参照元ページ情報解析部103は、アクセスログの参照元ページURLから各参照元ページの情報を取得し、該情報に含まれる単語の出現頻度を算出する(S202)。
次に、アクセス情報解析結果記憶部104は、アクセスログログに参照元ページ情報解析部103が算出した各単語の出現頻度を付加したアクセスログ単語解析データを、アクセス情報解析結果テーブルに格納して記憶する。そして、特徴抽出部105は、アクセスログ単語解析データについて、各単語の出現頻度を成分とした主成分分析を行い、主成分の累積寄与率が所定の閾値(80%)以上になる主成分に変換する(S203)。
次に、アクセス情報分類部106は、アクセスログ単語解析データについて、特徴抽出部105が変換した主成分を、クラスタ分類する(S204)。
次に、到達率算出部108は、アクセスログを集計し、クラスタ番号ごと、及び商品IDごとに、コンバージョンフラグによってコンバージョン率を算出する(S205)。
次に、推奨ページ出力部110は、商品IDごとに到達率算出部108が算出したコンバージョン率が最も高いクラスタ番号を特定し、該特定したクラスタ番号に対応する参照元ページURLを出力する(S206)。
このように、本実施形態によれば、情報分析装置10は、参照元ページURLを含むアクセスログを記憶し、該参照元ページURLから該参照元ページのHTMLファイルを取得して該文書情報の単語を解析し、該解析結果の主成分分析を行って参照元ページをクラスタ分類する。また、情報分析装置10は、参照ページについて商品IDとコンバージョンフラグとを記憶し、アクセスログを集計して、クラスタ番号の分類ごと、及び商品IDごとに、コンバージョン率を算出する。
これにより、情報分析装置は、参照元のウェブページをその記載内容により分類した情報、及び、商品購入に結びついた情報を提供することができる。
さらに、本実施形態によれば、情報分析装置10は、商品IDごとにコンバージョン率が最も高いクラスタ番号を特定し、該特定したクラスタ番号に対応する参照元ページURLを出力する。これにより、各商品について、商品購入に結び付く確率が高い参照元ページのURLを得ることができる。例えば、商品販売者は、広告等により該参照元ページからの誘導を増やすことにより、効率的に商品購入に結び付いたウェブページへの到達、つまり、商品購入を増やすことができる。
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について説明する。
第1の実施形態では、商品IDごとにコンバージョン率が高い参照元ページのURLを出力したが、本実施形態では、商品販売者のウェブページにリンクを張るリンク対象ページ(誘導元ページ)のURLを入力することで、該リンク対象ページで高いコンバージョン率が予想される商品IDを出力する。
図15は、本発明の第2の実施形態の情報分析装置20の構成を示す概略ブロック図である。本実施形態(図15)と第1の実施形態(図1)を比較すると、誘導元ページ情報記憶部201、誘導元ページ情報解析部202、誘導元ページ解析結果記憶部203、誘導元ページ解析情報入力部204、誘導元ページ分類特定部205、誘導元ページ分類結果記憶部206、及び推奨商品出力部207(推奨分類出力部)が異なる。しかし、他の構成要素が持つ機能は第1の実施形態と同じであるので、第1の実施形態と同じ機能の説明は省略する。
誘導元ページ情報記憶部201は、リンク対象ページ情報テーブル(図16)を記憶する。リンク対象ページ情報テーブルは、参照ページへの誘導元のウェブページであるリンク対象ページを識別する外部ページIDと、リンク対象ページURLとを含むデータを格納したテーブルである。
誘導元ページ情報解析部202は、誘導元ページ情報記憶部201が記憶するリンク対象ページURLにアクセスし、HTML(HyperTextMarkupLanguage)ファイルを取得する。そして、誘導元ページ情報解析部202は、該取得した参照元ページのHTMLファイルのデータに含まれる単語について、参照元ページ情報解析部103が選択した選択単語iの出現頻度を算出する。
誘導元ページ解析結果記憶部203は、リンク対象ページ解析結果テーブル(図17)を記憶する。リンク対象ページ解析結果テーブルは、外部ページIDと、リンク対象ページURLと、誘導元ページ情報解析部202が算出した選択単語iの出現頻度とを含むデータ(以下、リンク対象ページ単語解析データという)を格納したテーブルである。
誘導元ページ解析情報入力部204は、外部ページIDと、該リンク対象ページの文書情報に含まれる単語の出現頻度を含む誘導元ページ解析情報を入力する。
具体的に、誘導元ページ解析情報入力部204は、リンク対象ページ解析結果テーブルからリンク対象ページ単語解析データを入力し、誘導元ページ分類特定部205に出力する。
なお、本実施形態では、リンク対象ページ解析結果テーブルからリンク対象ページ単語解析データを入力しているが、本発明はこれに限らず、例えば、リンク対象ページ単語解析データを予め特定しておき、管理者用のウェブ画面等から入力してもよい。
誘導元ページ分類特定部205は、誘導元ページ解析情報入力部204から入力された誘導元ページの各単語の出現頻度を特徴抽出部105が変換した特徴が現れる主成分に変換し、該主成分が類似するアクセス情報分類部106が分類した集合を特定する。
具体的に、誘導元ページ分類特定部205は、誘導元ページ解析情報入力部204から入力されたリンク対象ページ単語解析データの選択単語iの出現頻度vについて、式(8)で計算したベクトルaを代入した式(12)で、第1主成分zから第10主成分z10の各主成分に変換する。
Figure 0005011185
ここで、Kは、選択単語の数であり、本実施形態では、K=60である。
そして、誘導元ページ分類特定部205は、アクセス情報分類部106がクラスタ分類でクラスタを確定した際に用いた基準点であって、式(12)で変換した主成分が最も近い基準点に対応するクラスタのクラスタ番号を特定する。
誘導元ページ分類結果記憶部206は、リンク対象ページ分類結果テーブル(図18)を記憶する。リンク対象分類結果テーブルは、外部ページIDと、リンク対象ページURLと、誘導元ページ分類特定部205が特定したクラスタ番号とを格納したテーブルである。
推奨商品出力部207は、誘導元ページ分類特定部205が特定した集合について、到達率算出部108が算出したコンバージョン率に基づき商品IDを出力する。
具体的に、例えば、推奨商品出力部207は、コンバージョン率算出結果テーブル(図11)より、誘導元ページ分類特定部205が特定したリンク対象ページのクラスタ番号について、コンバージョン率が最も高い商品IDを特定し、該商品IDを出力する。
ただし、本発明はこれに限らず、例えば、コンバージョン率の閾値を入力する入力部を設け、推奨商品出力部207は、コンバージョン率算出結果テーブルより、誘導元ページ分類特定部205が特定したリンク対象ページのクラスタ番号について、コンバージョン率が入力された所定の閾値以上の商品IDを出力してもよい。
さらに、推奨商品出力部207は、コンバージョン率が入力された所定の閾値以上の商品ID、及びリンク対象ページのクラスタ番号に関係づく参照元ページ解析情報について、主成分がリンク対象ページ単語解析データと最も類似する、つまり、主成分の距離が最も近い参照元ページ解析情報を特定し、該参照元ページ解析情報に関係づく商品IDを出力してもよい。
なお、誘導元ページ情報記憶部201、誘導元ページ解析結果記憶部203、及び誘導元ページ分類結果記憶部206は、データを保持するものであり、磁気ハードディスク装置あるいは半導体メモリを用いて実現される。
また、誘導元ページ情報解析部202、誘導元ページ解析情報入力部204、誘導元ページ分類特定部205、及び推奨商品出力部207は、情報分析装置20が記憶媒体の保持するプログラムを読み出し実行することにより、又は、電子回路により実現される。
以下、上述の各テーブルの一例について詳細を説明する。
まず、リンク対象ページ情報テーブルについて説明をする。リンク対象ページ情報テーブルは、リレーショナル形式のデータベースにより管理されている。
図16は、本発明の第2の実施形態に係るリンク対象ページ情報テーブルの一例を示す概略図である。図示するように、リンク対象ページ情報テーブルは、行と列からなる2次元の表形式のデータであり、外部ページID、リンク対象ページURLの各項目の列を有している。このリンク対象ページ情報テーブルの主キーは、外部ページIDである。
例えば、図16では、外部ページID「abc12345」のリンク対象ページのURLは、「http://xxxabc・・・co.jp」であることを表わしている。
次に、リンク対象ページ解析結果テーブルについて説明をする。リンク対象ページ解析結果テーブルは、リレーショナル形式のデータベースにより管理されている。
図17は、本発明の第2の実施形態に係るリンク対象ページ解析結果テーブルの一例を示す概略図である。図示するように、リンク対象ページ解析結果テーブルは、行と列からなる2次元の表形式のデータであり、外部ページID、リンク対象ページURL、選択単語iの出現頻度の各項目の列を有している。このリンク対象ページ解析結果テーブルの主キーは、外部ページIDである。
例えば、図17では、外部ページID「abc12345」で、URLが「http://xxxabc・・・co.jp」のリンク対象ページのHTMLデータには、単語「銘柄」が「0」、単語「投資」が「1」、単語「メール」が「5」、単語「機能」が「3」、単語「サーバ」が「0」の出現頻度で出現したことを表している。
次に、リンク対象ページ分類結果テーブルについて説明をする。リンク対象ページ分類結果テーブルは、リレーショナル形式のデータベースにより管理されている。
図18は、本発明の第2の実施形態に係るリンク対象ページ分類結果テーブルの一例を示す概略図である。図示するように、リンク対象ページ分類結果テーブルは、行と列からなる2次元の表形式のデータであり、外部ページID、リンク対象ページURL、クラスタ番号の各項目の列を有している。このリンク対象ページ分類結果テーブルの主キーは、外部ページIDである。
例えば、図18では、外部ページID「abc12345」で、URLが「http://xxxabc・・・co.jp」のリンク対象ページについてのリンク対象ページ単語解析データは、クラスタ番号「02」のクラスタに属していることを表している。
図19は、本発明の第2の実施形態に係る推奨商品出力部207の出力データの一例を示す概略図である。
推奨商品出力部207の出力データは、外部ページID、リンク対象ページURL、商品IDからなるデータである。
図19では、例えば、外部ページID「abc12345」で、URLが「http://xxxabc・・・co.jp」のリンク対象ページの属するクラスタでは、商品ID「98765」の商品が最もコンバージョン率が高いことを表わしている。
図20は、本発明の第2の実施形態に係る情報分析装置20の動作を示すフロー図である。 図20と図14を比較するとS301〜S305が異なる。しかし、他の構成要素が持つ機能は第1の実施形態と同じであるので、第1の実施形態と同じ機能の説明は省略する。
誘導元ページ情報記憶部201は、リンク対象ページ情報テーブルを記憶する(S301)。次に、誘導元ページ情報解析部202は、リンク対象ページURLから各参照元ページの情報を取得し、該情報に含まれる単語の出現頻度を算出する(S302)。次に、誘導元ページ解析情報入力部204は、外部ページIDと、該リンク対象ページの文書情報に含まれる単語の出現頻度を含むリンク対象ページ単語解析データを入力する(S303)。
次に、誘導元ページ分類特定部205は、誘導元ページ解析情報入力部204から入力されたリンク対象ページ単語解析データの各単語の出現頻度について、特徴抽出部105と同じ主成分に変換し、該主成分が類似するクラスタのクラスタ番号を特定する(S304)。次に、推奨商品出力部207は、誘導元ページ分類特定部205が特定したクラスタ番号について、到達率算出部108が算出したコンバージョン率に基づき商品ID(推奨商品)を出力する(S305)。
このように、本実施形態によれば、情報分析装置20は、リンク対象ページURLを入力すると、該リンク対象ページを解析してリンク対象ページ解析情報を入力し、該リンク対象ページが属するクラスタ番号を特定し、該クラスタ番号のうちコンバージョン率が高い商品IDを出力する。これにより、商品販売者は、広告等によりリンク対象ページから該特定した商品IDの商品が掲載された参照ページへの誘導を増やすことにより、効率的に該商品の商品購入に結び付いたウェブページへの到達、つまり、商品購入を増やすことができる。
具体的に、ウェブページ作成者のウェブページ(リンク対象ページ)に、商品販売者のウェブページ(参照ページ)にリンクを張ったバナーや広告文を掲載し、該リンクから誘導された顧客が商品を購入すると、該商品の購入額等に応じた金額を該ウェブページ作成者に支払うアフェリエイトというビジネスがある。
この際、リンク対象ページの作成者は、該リンク対象ページよりコンバージョン率が高い商品を特定し、該特定した商品が掲載された参照ページにリンクを張ることにより、効率的に参照ページでの商品購入を増やすことができ、該購入に応じて高い収入を得ることができる。一方、商品販売者は、広告を出すリンク対象ページよりコンバージョン率が高い商品を特定し、該特定した商品を掲載した商品購入ページにリンクをした広告を出すことにより、効率的に商品の購入数を増やすことができる。
なお、上述した各実施形態において、参照ページ分類情報は参照ページに掲載された商品又はサービスを分類する商品IDとした。しかし、本発明はこれに限らず、例えば、「一般利用」、「積極情報収集」、「商品購買(コンバージョン)」といった、商品の購買プロセスに分類してもよい。具体的には、アクセス解析ソフトについて、アクセスログ解析に関する参照ページを「一般利用」とし、アクセス解析ツール・ソフトに関する参照ページを「積極情報収集」とし、アクセス解析商品の申込みをする参照ページを「商品購買」としてもよい。
また、上述した各実施形態において、推奨ページ出力部110は推奨する参照元ページを、推奨商品出力部207は推奨する商品IDを、最も高いコンバージョン率に基づいて出力している。しかし、本発明はこれに限らず、例えば、コンバージョン率に応じて、コンバージョン率が高い順のランキング等により出力してもよい。
なお、上述した実施形態における情報分析装置10、20の一部、例えば、参照元ページ情報解析部103、特徴抽出部105、アクセス情報分類部106、到達率算出部108、推奨ページ出力部110、誘導元ページ情報解析部202、誘導元ページ解析情報入力部204、誘導元ページ分類特定部205、及び推奨商品出力部207をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、図面を参照してこの発明の一実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
第1の実施形態に係る情報分析装置の構成を示す概略ブロック図である。 第1の実施形態に係る商品・サービス情報テーブルの一例を示す概略図である。 第1の実施形態に係るアクセスログテーブルの一例を示す概略図である。 第1の実施形態に係る参照元ページの分類動作を示すフロー図である。 第1の実施形態に係る単語選択結果の一例を示す概略図である。 第1の実施形態に係るアクセス情報解析結果テーブルの一例を示す概略図である。 第1の実施形態に係る主成分の寄与率の一例を示す概略図である。 第1の実施形態に係る主成分負荷量データの一例を示す概略図である。 第1の実施形態に係るクラスタ分類を説明する概略図である。 第1の実施形態に係るアクセス情報分類結果テーブルの一例を示す概略図である。 第1の実施形態に係るコンバージョン率算出結果テーブルの一例を示す概略図である。 第1の実施形態に係る推奨ページ出力部の出力データの一例を示す概略図である。 第1の実施形態に係る主成分得点データの一例を示す概略図である。 第1の実施形態に係る情報分析装置の動作を示すフロー図である。 第2の実施形態の情報分析装置の構成を示す概略ブロック図である。 第2の実施形態に係るリンク対象ページ解析結果テーブルの一例を示す概略図である。 第2の実施形態に係るリンク対象ページ解析結果テーブルの一例を示す概略図である。 第2の実施形態に係るリンク対象ページ分類結果テーブルの一例を示す概略図である。 第2の実施形態に係る推奨商品出力部の出力データの一例を示す概略図である。 第2の実施形態に係る情報分析装置の動作を示すフロー図である。
符号の説明
10・・・情報分析装置、101・・・参照ページ情報記憶部、102・・・アクセス情報記憶部、103・・・参照元ページ情報解析部、104・・・アクセス情報解析結果記憶部、105・・・特徴抽出部、106・・・アクセス情報分類部、107・・・アクセス情報分類結果記憶部、108・・・到達率算出部、109・・・到達率算出結果記憶部、110・・・推奨ページ出力部
201・・・誘導元ページ情報記憶部、202・・・誘導元ページ情報解析部、203・・・誘導元ページ解析結果記憶部、204・・・誘導元ページ解析情報入力部、205・・・誘導元ページ分類特定部、206・・・誘導元ページ分類結果記憶部、207・・・推奨商品出力部(推奨分類出力部)

Claims (7)

  1. ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、
    前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部と、
    前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する参照元ページ情報解析部と、
    前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する前記参照元ページ情報解析部が算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する特徴抽出部と、
    前記アクセス情報記憶部が記憶するアクセス情報について、前記特徴抽出部が変換した主成分が類似するアクセス情報の集合に分類するアクセス情報分類部と、
    前記アクセス情報分類部が分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する到達率算出部と
    を備えることを特徴とする情報分析装置。
  2. 参照ページ情報記憶部は、前記参照ページの文書情報を分類する参照ページ分類情報を記憶し、
    前記到達率算出部は、前記アクセス情報分類部が分類した同一の集合に属し、前記参照ページ情報記憶部が記憶する参照ページ分類情報が同一のアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する
    ことを特徴とする請求項1に記載の情報分析装置。
  3. 前記参照ページ分類情報は、商品又はサービスについての分類情報であり、
    前記到達識別情報は、商品の購入又はサービスの契約に関するページを到達率の算出対象とする情報である
    ことを特徴とする請求項2に記載の情報分析装置。
  4. 参照ページへの誘導元のウェブページである誘導元ページの識別情報と、該誘導元ページの文書情報に含まれる単語の出現頻度とを入力する誘導元ページ解析情報入力部と、
    前記誘導元ページ解析情報入力部から入力された誘導元ページの各単語の出現頻度を前記特徴抽出部が変換した特徴が現れる主成分に変換し、該主成分が類似する前記アクセス情報分類部が分類した集合を特定する誘導元ページ分類特定部と、
    前記誘導元ページ分類特定部が特定した集合について、前記到達率算出部が算出した到達率に基づき参照ページ分類情報を出力する推奨分類出力部と
    を備えることを特徴とする請求項2又は請求項3に記載の情報分析装置。
  5. 前記到達率算出部が算出した到達率に基づき前記参照元ページ分類情報を特定し、該特定した参照元ページ分類情報に対応する前記アクセス情報分類結果記憶部が記憶する参照元ページの所在情報を出力する推奨ページ出力部
    を備えることを特徴とする請求項1から請求項4のいずれかに記載の情報分析装置。
  6. ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、
    前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部と
    を備える情報分析装置における情報分析方法であって、
    前記情報分析装置が、前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する第1の過程と、
    前記情報分析装置が、前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する第1の過程にて算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する第2の過程と、
    前記情報分析装置が、前記アクセス情報記憶部が記憶するアクセス情報について、第2の過程にて変換した主成分が類似するアクセス情報の集合に分類する第3の過程と、
    前記情報分析装置が、第3の過程にて分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する第4の過程と
    を有することを特徴とする情報分析方法。
  7. ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、
    前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部と
    を備える情報分析装置のコンピュータを
    前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する参照元ページ情報解析手段、
    前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する参照元ページ情報解析手段にて算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する特徴抽出手段、
    前記アクセス情報記憶部が記憶するアクセス情報について、特徴抽出手段にて変換した主成分が類似するアクセス情報の集合に分類するアクセス情報分類手段、
    アクセス情報分類手段にて分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する到達率算出手段、
    として機能させるための情報分析プログラム。
JP2008081952A 2008-03-26 2008-03-26 情報分析装置、情報分析方法、及び情報分析プログラム Expired - Fee Related JP5011185B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008081952A JP5011185B2 (ja) 2008-03-26 2008-03-26 情報分析装置、情報分析方法、及び情報分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008081952A JP5011185B2 (ja) 2008-03-26 2008-03-26 情報分析装置、情報分析方法、及び情報分析プログラム

Publications (2)

Publication Number Publication Date
JP2009237824A JP2009237824A (ja) 2009-10-15
JP5011185B2 true JP5011185B2 (ja) 2012-08-29

Family

ID=41251705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008081952A Expired - Fee Related JP5011185B2 (ja) 2008-03-26 2008-03-26 情報分析装置、情報分析方法、及び情報分析プログラム

Country Status (1)

Country Link
JP (1) JP5011185B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6324331B2 (ja) * 2015-02-17 2018-05-16 三菱電機株式会社 サーバ装置及びクライアント装置及びグルーピング方法及びグルーピングプログラム
JP6062514B2 (ja) * 2015-09-17 2017-01-18 ヤフー株式会社 収益指標値生成システム及び収益指標値生成方法
JP7134814B2 (ja) * 2018-09-28 2022-09-12 キヤノン株式会社 システム、ページデータ出力方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188737A (ja) * 2000-01-05 2001-07-10 Toshiba Corp 分類識別装置
JP2005242711A (ja) * 2004-02-26 2005-09-08 Value Commerce Co Ltd 広告配信管理ネットワークシステム
JP2005339419A (ja) * 2004-05-31 2005-12-08 Nomura Research Institute Ltd Webページ評価システム及びWebページ評価方法
JP4398353B2 (ja) * 2004-12-09 2010-01-13 日本電信電話株式会社 Webページの特徴別分類装置およびWebページの特徴別分類プログラム
JP2006323629A (ja) * 2005-05-19 2006-11-30 Kan:Kk ウェブサーバのページ更新のための情報を解析するサーバ、ウェブサーバ及びページ更新方法
JP2007323334A (ja) * 2006-05-31 2007-12-13 Waakuatto:Kk Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム
JP2008026972A (ja) * 2006-07-18 2008-02-07 Fujitsu Ltd ウェブサイト構築支援システム、ウェブサイト構築支援方法およびウェブサイト構築支援プログラム

Also Published As

Publication number Publication date
JP2009237824A (ja) 2009-10-15

Similar Documents

Publication Publication Date Title
US10146743B2 (en) Systems and methods for optimizing content layout using behavior metrics
CN101517967B (zh) 网站的流量预测
US20190220902A1 (en) Information analysis apparatus, information analysis method, and information analysis program
JP6250106B1 (ja) 情報解析装置、情報解析方法、および情報解析プログラム
US20190213194A1 (en) System and method for information recommendation
CN112200601B (zh) 物品推荐方法、装置及可读存储介质
JP5253519B2 (ja) スマートテキストを生成するための方法、装置、及び記憶媒体
US20230089850A1 (en) Real-time product environmental impact scoring
JP6405343B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111429214B (zh) 一种基于交易数据的买卖双方匹配方法及装置
JPWO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
JP5772599B2 (ja) テキストマイニングシステム、テキストマイニング方法および記録媒体
US10394804B1 (en) Method and system for increasing internet traffic to a question and answer customer support system
JP5011185B2 (ja) 情報分析装置、情報分析方法、及び情報分析プログラム
US20130332440A1 (en) Refinements in Document Analysis
US20220114624A1 (en) Digital Content Text Processing and Review Techniques
JP2006004098A (ja) 評価情報生成装置、評価情報生成方法、及びプログラム
JP5603678B2 (ja) 需要予測装置及び需要予測方法
US20130054501A1 (en) Optimizing selection and ordering of items displayed
JP6258246B2 (ja) 解析装置、解析方法及びプログラム
Thorleuchter et al. Using Webcrawling of Publicly Available Websites to Assess E-commerce Relationships
JP6173586B2 (ja) ユーザの検索行為に基づいてデータマイニングを行う方法及び装置
JP6993955B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6809148B2 (ja) プログラムおよび組み合わせ抽出システム
JP2021140646A (ja) ターゲットユーザ特徴抽出方法、ターゲットユーザ特徴抽出システム及びターゲットユーザ特徴抽出サーバ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120604

R150 Certificate of patent or registration of utility model

Ref document number: 5011185

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150608

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees