以下に添付図面を参照して、本発明に係る購買データ収集手法を適用した購買データ収集システム、購買データ収集装置、購買データ収集方法あるいは購買データ収集プログラムの実施例を詳細に説明する。なお、以下では、本発明に係る購買データ収集手法の概要について図1を用いて説明した後に、本発明に係る購買データ収集手法を適用した実施例を図2〜図15を用いて説明することとする。
まず、実施例の詳細な説明に先立ち、本発明に係る購買データ収集手法の概要について図1を用いて説明する。図1は、本発明に係る購買データ収集手法の概要を示す図である。同図に示すように、本発明に係る購買データ収集手法では、消費者パネル調査の調査対象者がパーソナルコンピュータ等の消費者端末を用いて閲覧したウェブページの閲覧履歴から特定のデータを抽出して購買データを生成する。
ここで、購買データとは、消費者が購入した商品やサービス(以下、「商品等」と記載する)に関するデータを示す。たとえば、購買データには、商品名や価格、購入数あるいはブランドといったデータが含まれる。なお、以下では、消費者パネル調査の調査対象者となった消費者を単に「消費者」と呼ぶこととする。
図1に示したように、本発明に係る購買データ収集手法では、まず、各消費者端末から閲覧履歴データを収集する(同図の(1)参照)。なお、かかる閲覧履歴データには、消費者が閲覧したウェブサイトのURL(Universal Resource Locator)やページソース等が含まれている。
つづいて、本発明に係る購買データ収集手法では、収集した閲覧履歴データに基づいて消費者が閲覧したウェブページの種別(以下、「ページ種別」と記載する)を特定する(同図の(2)参照)。ここで、ページ種別には、「検索ページ」や「ブログ」、「ニュース」等があるが、本発明に係る購買データ収集手法では、特に、商品等の購入に関するページ種別を「商品詳細ページ」や「購入完了ページ」のように詳細に特定する。
具体的には、本発明に係る購買データ収集手法では、閲覧履歴データに含まれるURLとページソース中の所定の文字列との組み合わせに基づいてページ種別を特定する。たとえば、URLが特定のオンラインショップのURLであり、かつ、「お買い上げありがとうございます。」のように商品等の購入が完了したことを示す文字列がページソース中に含まれる場合に、かかるウェブページを「購入完了ページ」と特定する。
つづいて、本発明に係る購買データ収集手法では、「購入完了ページ」と特定したウェブページのページソースから購買データの項目に該当するデータを抽出する(同図の(3)参照)。
具体的には、本発明に係る購買データ収集手法では、購買データの各項目とXpathとを関連付けた抽出ルールに従ってページソースから特定のデータを抽出する。ここで、Xpathとは、ページソース中の位置を示す位置情報である。たとえば、同図に示した場合には、Xpath「//table/tobody/tr/td[2]」で示される位置に格納されたデータ「△△△」を「商品名」のデータとして抽出する。
なお、本発明に係る購買データ収集手法では、抽出ルールをウェブサイトごとに用意しており、ページソースからのデータ抽出を行う場合には、該当するウェブサイトに対応した抽出ルールに従ってデータ抽出を行うこととしている。これによって、本発明に係る購買データ収集手法では、サイト横断的な購買データ収集を可能としている。
このように、本発明に係る購買データ収集手法では、消費者端末で閲覧されたウェブページのページソースを含む閲覧履歴を取得し、取得した閲覧履歴の中から商品等の購入完了ページに関する閲覧履歴を特定し、購入完了ページに関する閲覧履歴に基づいて購買データに含むべきデータを抽出することとしたため、購買データを効率的に収集することができる。
すなわち、従来の購買データ収集手法は、消費者による手作業を介在させていたため、購買データの収集漏れが生じたり、商品等の購入日時と購買データの送信日時との間に大きなライムラグが生じていたりしていた。しかし、本発明に係る購買データ収集手法では、消費者による手作業を介在させることなく購買データを生成することができるため、購買データの収集漏れやタイムラグが生じることがない。
また、本発明に係る購買データ収集手法では、従来のように消費者に対して煩雑な作業を要求しないため、人件費を抑えることができる結果、消費者パネル調査を低コストで実施することができる。
また、従来の購買データ収集手法は、JANコードなどの特定の商品識別コードが付与された商品等しかデータ収集の対象とすることができず、網羅性に欠けるという問題もあった。しかし、本発明に係る購買データ収集手法では、特定の商品識別コードが付与されているか否かに関係なく、消費者が消費者端末を用いて購入した全ての商品等がデータ収集の対象となる。したがって、本発明に係る購買データ収集手法によれば、従来の購買データ収集手法と比較して網羅性の高い調査結果を得ることができる。
ところで、購入完了ページには、購入した商品等のジャンルやカテゴリーあるいはブランドといったデータが含まれていない場合が多い。このため、購入完了ページのみからデータを抽出することとすると、購買データとして不十分なものしか得られないおそれがある。
そこで、本発明に係る購買データ収集手法では、消費者が商品等を購入する場合に必ず商品詳細ページを経由することに着目し、購入完了ページから抽出できなかったデータをかかる商品詳細ページから抽出して購買データへ付与することとした。これによって、本発明に係る購買データ収集手法では、より多くのデータを含んだ購買データを生成することができる。なお、かかる点の詳細については、実施例において後述することとする。
以下では、図1を用いて説明した購買データ収集手法を適用した購買データ収集システム、購買データ収集装置、購買データ収集方法および購買データ収集プログラムについての実施例を詳細に説明する。なお、以下では、購買データ収集装置の一例として、購買データ収集サーバを用いて説明する。
図2は、本実施例に係る購買データ収集システムのネットワーク構成を示す図である。図2に示すように、本実施例に係る購買データ収集システムは、複数の消費者端末1a〜1cと、購買データ収集サーバ2とがネットワークを介して接続されている。
消費者端末1a〜1cは、消費者が使用するパーソナルコンピュータや携帯端末といった端末装置である。また、消費者端末1a〜1cは、インターネットへ接続することによって各種のウェブページを閲覧可能である。なお、以下では、消費者端末1a〜1cのうち、任意の消費者端末1a〜1cを単に「消費者端末1」と記載する。
購買データ収集サーバ2は、消費者が消費者端末1を用いてインターネット上で購入した商品等に関する購買データを収集する装置である。また、購買データ収集サーバ2は、分析装置3と接続している。かかる分析装置3は、購買データ収集サーバ2によって収集された購買データを用いて各種のマーケティング分析を行う装置である。
次に、消費者端末1、購買データ収集サーバ2および分析装置3の構成について図3を用いて説明する。図3は、消費者端末1、購買データ収集サーバ2および分析装置3の構成を示すブロック図である。なお、同図には、消費者端末1、購買データ収集サーバ2および分析装置3の特徴を説明するために必要な構成要素のみを示しており、一般的な構成要素についての記載を省略している。
図3に示したように、消費者端末1は、ネットワークIF部11と、制御部12と、記憶部13とを備えている。また、制御部12は、サイトアクセス部12aと閲覧履歴データ送信部12bとを備え、記憶部13は、閲覧履歴データ13aを記憶している。
また、購買データ収集サーバ2は、ネットワークIF部21と、制御部22と、記憶部23とを備えている。また、制御部22は、閲覧履歴データ収集部22aと、商品購入データ抽出部22bと、商品閲覧データ抽出部22cと、属性データ付与部22dと、購買データ送信部22eとを備えている。また、記憶部23は、閲覧履歴データ23aと、商品閲覧データ23bと、商品購入データ23cと、購買データ23dとを記憶している。
また、分析装置3は、制御部31を備えている。また、制御部31は、購買データ統計処理部31aを備えている。
以下では、まず、消費者端末1の各構成要素について説明する。ネットワークIF部11は、購買データ収集サーバ2との間でデータの送受信を行う通信デバイスである。
制御部12は、ウェブページへのアクセス処理や閲覧履歴データの送信処理といった処理を実行する処理部である。サイトアクセス部12aは、消費者によって指定されたURLに従ってインターネット上からページソースや画像といったデータを取得し、取得したデータからウェブページを生成してディスプレイへ表示させる処理部である。
また、サイトアクセス部12aは、インターネット上から取得したページソース等のデータを、データの取得日時(サイトへのアクセス日時)や消費者ID、URL等と関連付けた閲覧履歴データ13aを生成して記憶部13に記憶する処理も併せて行う。
閲覧履歴データ送信部12bは、記憶部13に記憶された閲覧履歴データ13aを所定のタイミング(たとえば、1日に1回)で、購買データ収集サーバ2へ送信する処理部である。このように、消費者端末1側で閲覧履歴データ13aを収集することで、購入手続きページのような事後的なクロールが不可能なページも収集することができる。
記憶部13は、不揮発性メモリやハードディスクドライブといった記憶デバイスであり、閲覧履歴データ13aを記憶する。閲覧履歴データ13aは、ウェブページへのアクセス日時、ウェブページのURL、ウェブページのページソース等を消費者IDと関連付けたデータである。
次に、購買データ収集サーバ2の構成について説明する。ネットワークIF部21は、消費者端末1および分析装置3との間でデータの送受信を行う通信デバイスである。
制御部22は、閲覧履歴データの収集、収集した閲覧履歴データからの商品購入データおよび商品閲覧データの抽出、属性データの付与、購買データの送信といった処理を実行する処理部である。
閲覧履歴データ収集部22aは、消費者端末1からの閲覧履歴データ13aをネットワークIF部21経由で受信して閲覧履歴データ23aとして記憶部23に蓄積する処理部である。ここで、閲覧履歴データ23aの内容について図4を用いて説明する。図4は、閲覧履歴データ23aの一例を示す図である。
図4に示すように、閲覧履歴データ23aは、「消費者ID」項目と、「タイムスタンプ」項目と、「URL」項目と、「ページソース」項目とを含んだ情報である。
ここで、「消費者ID」項目は、消費者を識別する消費者IDが格納される項目である。なお、同図に示した場合には、「001」や「002」が格納されている。また、「タイムスタンプ」項目は、ウェブページへのアクセス日時が格納される項目である。
また、「URL」項目は、ウェブページのURLが格納される項目である。また、「ページソース」項目は、ウェブページのページソース(HTMLソース)が格納される項目である。なお、閲覧履歴データ23aは、画像データやスタイルシートなどの他の項目を含んでいてもよい。
図3に戻り、商品購入データ抽出部22bについて説明する。商品購入データ抽出部22bは、閲覧履歴データ23aの中から、商品等の購入履歴である商品購入データ23cを抽出する処理部である。また、商品購入データ抽出部22bは、抽出した商品購入データ23cを記憶部23に記憶する処理部でもある。
具体的には、商品購入データ抽出部22bは、まず、ページ種別判定ルールに従い、閲覧履歴データ23aの中から、商品等の購入に関するウェブページを特定する。そして、商品購入データ抽出部22bは、商品購入データ抽出ルールに従い、商品等の購入に関するウェブページのページソースから商品購入データ23cの各項目に該当するデータを抽出する。
ここで、ページ種別判定ルールおよび商品購入データ抽出ルールの内容について図5を用いて説明する。図5は、ページ種別判定ルールおよび商品購入データ抽出ルールの一例を示す図である。なお、同図の(A)にはページ種別判定ルールの一例を、同図の(B)には商品購入データ抽出ルールの一例を、それぞれ示している。
同図の(A)に示したように、ページ種別判定ルールは、「条件」項目、「購入サイト」および「ページ種別」項目を関連付けた情報である。また、「条件」項目は、さらに「URL条件」項目および「タイトル条件」項目を含んでいる。
ここで、「URL条件」項目は、URLが格納される項目であり、具体的には、EC(Electronic Commerce)サイトのように商品等の販売を行うウェブサイトの購買に関するページのURLが格納される。
ここで、「URL条件」項目に格納される情報は、必ずしもURLである必要はなく、正規表現のような条件が格納されてもよい。商品購入データ抽出部22bは、「URL条件」項目にURLが格納されている場合には、「URL条件」項目に格納されたURLと閲覧履歴データ23aから取り出したレコードに含まれるURLとの間で、完全一致や前方一致あるいは後方一致といったマッチングを行うこととなる。また、商品購入データ抽出部22bは、「URL条件」項目に正規表現が格納されている場合には、閲覧履歴データ23aから取り出したレコードに含まれるURLに対して、「URL条件」項目に格納された正規表現を用いたマッチングを行うこととなる。
「タイトル条件」項目は、ウェブページのタイトルに関する条件が格納される項目である。なお、「タイトル条件」項目に格納されている「NULL」は、ウェブページのタイトルに関する条件指定がないことを示している。
「購入サイト」項目は、「URL条件」に格納されたURLによって特定されるウェブサイトの名称が格納される項目である。なお、同図に示した「foo」は、ECサイトの名称であるものとする。「ページ種別」項目は、ウェブページの種別が格納される項目である。同図に示した場合には、「カート投入」や「購入完了」といったページ種別が格納されている。
つづいて、商品購入データ抽出ルールの内容について説明する。同図に(B)に示したように、商品購入データ抽出ルールは、「購入サイト」項目、「ページ種別」項目、「Xpath条件」項目および「データ種別」項目を関連付けた情報である。なお、「購入サイト」項目および「ページ種別」項目は、図5の(A)に示した「購入サイト」項目および「ページ種別」項目と同様である。
「Xpath条件」項目は、Xpathが格納される項目である。ここで、Xpathとは、ページソース中の位置を示す位置情報である。すなわち、「Xpath条件」は、ページソースから抽出すべきデータの位置を指定する情報である。たとえば、同図に示した場合には、「//b/td[2]/span[3]」などが格納されている。
「データ種別」項目は、「Xpath条件」に従って抽出されたデータの種別を示している。たとえば、同図に示した場合には、Xpath条件「//b/td[2]/span[3]」に対してデータ種別「商品名」が格納されている。これは、Xpath条件「//b/td[2]/span[3]」に従って抽出されるデータの種別が「商品名」であることを示している。
ここで、商品購入データ抽出部22bによるページ種別特定処理および商品購入データ抽出処理の動作例について図6を用いて説明する。図6は、ページソースの一例を示す図である。ここでは、商品購入データ抽出部22bが、閲覧履歴データ23aから、図6に示したページソースおよびURL「http://foo.example.com/ccc.html」を含んだレコードを取り出した場合について説明する。
図6に示したように、商品購入データ抽出部22bは、取り出したレコードに含まれるURLおよびページソース中のタイトルの組合せが、ページ種別判定ルールの「条件」項目と一致するか否かを判定する。
ここでは、同図に示したように、URLが「http://foo.example.com/ccc.html」であり、ページソース中のタイトルが「お買い上げありがとうございます」であるため(同図の(1)参照)、商品購入データ抽出部22bは、ページ種別判定ルールの「条件」項目と一致すると判定する。
また、商品購入データ抽出部22bは、一致した条件と関連付けられた「購入サイト」項目および「ページ種別」項目に格納されたデータをそれぞれ閲覧履歴データ23aから取り出したレコードに対応する「購入サイト」および「ページ種別」であると特定する。ここでは、閲覧履歴データ23aから取り出したレコードに対応する「購入サイト」が「foo」であり「ページ種別」が「購入完了」であると特定する。
つづいて、商品購入データ抽出部22bは、特定した「購入サイト」および「ページ種別」の組合せに対応するXPath条件に従ってページソースからデータを抽出する。ここでは、購入サイト「foo」、ページ種別「購入完了」に対応するXpath条件「//table/tbody/tr/td[2]」に従って、図6に示したページソースからデータ「△△△」を抽出する(同図の(2)参照)。
そして、商品購入データ抽出部22bは、ページソースから抽出したデータを、「購入サイト」および「ページ種別」の組合せに対応するデータ種別のデータとして商品購入データへセットする。ここでは、ページソースから取り出したデータ「△△△」を商品購入データの「商品名」項目へセットする。
なお、ページソースのタグ名にデータ種別が含まれている場合、タグの属性値にデータ種別が含まれている場合、あるいは、本文中にデータ種別を表現する文字列が含まれている場合には、かかるタグに対応するデータを抽出すべき旨の条件(たとえば、「商品名」タグに対応するデータを抽出すべき旨の条件)をXpth条件として指定してもよい。このようにすれば、ウェブページのレイアウトが変化した場合であっても、所望のデータ種別に対応するデータを抽出することができる。
このようにして、商品購入データ抽出部22bは、商品等の購入に関するウェブページの閲覧履歴22aから特定のデータを抽出して商品購入データ23cを生成する。ここで、商品購入データ抽出部22bによって生成される商品購入データの内容について図7を用いて説明する。図7は、商品購入データ23cの一例を示す図である。
図7に示すように、商品購入データ23cは、「消費者ID」項目、「タイムスタンプ」項目、「手続き種別」項目、「商品名」項目、「商品ID」項目、「購入サイト」項目、「購入単価」項目、「購入数」項目および「商品詳細ページURL」項目を含んでいる。ここで、「消費者ID」項目、「タイムスタンプ」項目および「商品詳細ページURL」項目は、閲覧履歴データ23aに含まれる「消費者ID」項目、「タイムスタンプ」項目および「URL」項目に対応する。
また、「手続き種別」項目は、ページ種別判定ルールに従って特定したページ種別が格納される項目である。また、「商品名」項目は、消費者が購入した商品等の名称が格納される項目である。また、「商品ID」項目は、消費者が購入した商品等を識別する商品IDが格納される。また、「購入サイト」項目は、ページ種別判定ルールに従って特定した購入サイトの名称が格納される項目である。また、「購入単価」項目は、消費者が購入した商品等の単価が格納される項目である。また、「購入数」項目は、消費者が購入した商品等の個数が格納される項目である。
なお、「商品名」項目、「商品ID」項目、「購入単価」項目および「購入数」項目には、各項目(データ種別)と関連付けられたXpath条件に従ってページソースから抽出されたデータが格納されることとなる。
また、「商品名」項目、「商品ID」項目および「商品詳細URLページ」項目は、消費者が購入した商品等を特定するためのデータ(以下、「商品等特定データ」と記載する)に相当する。
図3に戻り、商品閲覧データ抽出部22cについて説明する。商品閲覧データ抽出部22cは、閲覧履歴データ23aの中から、商品等の閲覧履歴である商品閲覧データ23bを抽出する処理部である。また、商品閲覧データ抽出部22cは、抽出した商品閲覧データ23bを記憶部23に記憶する処理部でもある。
具体的には、商品閲覧データ抽出部22cは、まず、ページ種別判定ルールに従い、閲覧履歴データ23aの中から、商品等の閲覧に関するウェブページを特定する。そして、商品閲覧データ抽出部22cは、商品閲覧データ抽出ルールに従い、商品等の購入に関するウェブページのページソースから商品閲覧データ23bの各項目に該当するデータを抽出する。
ここで、ページ種別判定ルールおよび商品閲覧データ抽出ルールの内容について図8を用いて説明する。図8は、ページ種別判定ルールおよび商品閲覧データ抽出ルールの一例を示す図である。なお、同図の(A)にはページ種別判定ルールの一例を、同図の(B)には商品閲覧データ抽出ルールの一例を、それぞれ示している。
同図の(A)に示したように、ページ種別判定ルールは、「条件」項目、「販売サイト」および「ページ種別」項目を関連付けた情報である。また、「条件」項目は、さらに「URL条件」項目および「タイトル条件」項目を含んでいる。なお、「販売サイト」項目は、消費者が閲覧した商品等を販売しているウェブサイトの名称が格納される項目である。
ここで、図8の(A)に示したページ種別判定ルールでは、「ページ種別」項目に、「商品詳細」などの商品等の閲覧に関するページ種別が格納される点で、図5の(A)に示したページ種別判定ルールと異なっている。
つづいて、商品閲覧データ抽出ルールの内容について説明する。図8に(B)に示したように、商品閲覧データ抽出ルールは、図5の(B)に示した商品購入データ抽出ルールと同様に、「購入サイト」項目、「ページ種別」項目、「Xpath条件」項目および「データ種別」項目を関連付けた情報である。
ここで、商品閲覧データ抽出部22cによるページ種別特定処理および商品閲覧データ抽出処理の動作例について図9を用いて説明する。図9は、ページソースの一例を示す図である。ここでは、商品閲覧データ抽出部22cが、閲覧履歴データ23aから、図9に示したページソースおよびURL「http://foo.example.com/ccc.html」を含んだレコードを取り出した場合について説明する。
図9に示したように、商品閲覧データ抽出部22cは、取り出したレコードに含まれるURLおよびページソース中のタイトルの組合せが、ページ種別判定ルールの「条件」項目と一致するか否かを判定する。
ここでは、同図に示したように、URLが「http://foo.example.com/ccc.html」であり、ページソース中のタイトルが「商品詳細:」であるため(同図の(1)参照)、商品閲覧データ抽出部22cは、ページ種別判定ルールの「条件」項目と一致すると判定する。
なお、商品閲覧データ23bの「URL条件」項目に格納される情報も、商品購入データ23aと同様、必ずしもURLである必要はなく、正規表現のような条件が格納されてもよい。商品閲覧データ抽出部22cは、「URL条件」項目に正規表現が格納されている場合には、閲覧履歴データ23aから取り出したレコードに含まれるURLに対して、「URL条件」項目に格納された正規表現を用いたマッチングを行うこととなる。
また、商品閲覧データ抽出部22cは、一致した条件と関連付けられた「販売サイト」項目および「ページ種別」項目に格納されたデータをそれぞれ閲覧履歴データ23aから取り出したレコードに対応する「販売サイト」および「ページ種別」であると特定する。ここでは、閲覧履歴データ23aから取り出したレコードに対応する「販売サイト」が「foo」であり「ページ種別」が「商品詳細」であると特定する。
つづいて、商品閲覧データ抽出部22cは、特定した「販売サイト」および「ページ種別」の組合せに対応するXPath条件に従ってページソースからデータを抽出する。ここでは、購入サイト「foo」、ページ種別「商品詳細」に対応するXpath条件「//table/tbody/tr/td[2]」に従って、図9に示したページソースからデータ「2,500円」を抽出する(同図の(2)参照)。
そして、商品閲覧データ抽出部22cは、ページソースから抽出したデータを、「販売サイト」および「ページ種別」の組合せに対応するデータ種別のデータとして商品閲覧データ23bへセットする。ここでは、ページソースから取り出したデータ「2,500円」を商品購入データの「価格」項目へセットする。
このようにして、商品閲覧データ抽出部22cは、商品等の購入に関するウェブページの閲覧履歴データ23aから特定のデータを抽出して商品閲覧データ23bを生成する。ここで、商品閲覧データ抽出部22cによって生成される商品購入データの内容について図10を用いて説明する。図10は、商品閲覧データ23bの一例を示す図である。
図10に示すように、商品閲覧データ23bは、「消費者ID」項目、「タイムスタンプ」項目、「商品名」項目、「商品ID」項目、「販売サイト」項目、「売価」項目、「定価」項目、「ジャンル・カテゴリー」項目および「商品詳細ページURL」項目を含んでいる。
ここで、「消費者ID」項目、「タイムスタンプ」項目、「商品名」項目、「商品ID」項目、「販売サイト」項目および「商品詳細ページURL」項目は、それぞれ商品購入データ23cに含まれる「消費者ID」項目、「タイムスタンプ」項目、「商品名」項目、「商品ID」項目、「購入サイト」項目および「商品詳細ページURL」項目と同様である。
また、「売価」項目、「定価」項目および「ジャンル・カテゴリー」項目は、それぞれ消費者が閲覧したウェブページに掲載された商品等の売価、定価およびジャンル・カテゴリーが格納される項目である。
なお、「商品名」項目、「商品ID」項目、「売価」項目、「定価」項目および「ジャンル・カテゴリー」項目には、各項目(データ種別)と関連付けられたXpath条件に従ってページソースから抽出されたデータが格納されることとなる。
また、「販売サイト」項目、「売価」項目、「定価」項目および「ジャンル・カテゴリー」項目は、消費者が購入した商品等の属性をあらわすデータ(以下、「属性データ」と記載する)として利用される。
このように、本実施例では、商品購入データ抽出部22bおよび商品閲覧データ抽出部22cが、ページソース中の位置を示すXpath条件と購買データの項目とを関連付けた抽出ルールに従い、Xpath条件によって特定されるデータを当該Xpath条件と関連付けられた項目のデータとしてページソースから抽出することとした。したがって、購買データ23dの各項目に該当するデータを適切に抽出することができる。
また、本実施例では、商品購入データ抽出部22bおよび商品閲覧データ抽出部22cが、閲覧履歴に含まれるURLと当該閲覧履歴に含まれるページソース中の所定の文字列との組み合わせが予め設定された組合せに該当する場合に、当該閲覧履歴を購入完了ページに関する閲覧履歴と特定することとした。したがって、閲覧履歴データ23aとして取得された数多くのウェブページの中から商品等の購入あるいは閲覧に関するウェブページを適切に特定することができる。
図3に戻り、属性データ付与部22dについて説明する。属性データ付与部22dは、商品購入データ23cに含まれる商品等特定データ(商品名、商品ID)等に対して商品閲覧データ23bに含まれる属性データを付与して購買データを生成する処理部である。
具体的には、属性データ付与部22dは、まず、商品購入データ23cからレコードを1つ取り出す。また、属性データ付与部22dは、取り出したレコードと同一の消費者に関するレコードであり、かつ、取り出したレコードに含まれる商品ID、商品詳細ページURLまたは商品名を含むレコードを商品閲覧データ23bから取り出す。
そして、属性データ付与部22dは、商品購入データ23cから取り出したレコードに対して商品閲覧データ23bから取り出したレコードに含まれる属性データを付与したものを購買データ23dとして記憶部23に記憶する。
ここで、購買データ23dの内容について図11を用いて説明する。図11は、購買データ23dの一例を示す図である。同図に示すように、購買データ23dは、商品購入データ23cの各項目に対して商品閲覧データ23bに含まれる属性データが付加されたものとなっている。具体的には、購買データ23dは、「消費者ID」項目、「タイムスタンプ」項目、「商品名」項目、「商品ID」項目、「購入サイト」項目、「購入単価」項目、「購入数」項目、「ジャンル・カテゴリー」項目および「ブランド」項目を含んでいる。
図3に戻り、購買データ送信部22eについて説明する。購買データ送信部22eは、記憶部23に記憶された購買データ23dをネットワークIF部21経由で分析装置3へ送信する処理部である。
つづいて、分析装置3の構成について説明する。分析装置3は、制御部31を備えている。また、制御部31は、購買データ統計処理部31aを備えている。購買データ統計処理部31aは、購買データ収集サーバ2から取得した購買データ23dを用いて各種のマーケティング分析を行う処理部である。具体的には、購買データ統計処理部31aは、消費者ごとの購入単価の集計の他、商品やブランド、ジャンルごとの販売数や売上の集計やクロス分析等を行う。
次に、商品購入データ23cまたは商品閲覧データ23bの抽出処理の処理手順について図12を用いて説明する。図12は、商品購入データ23cまたは商品閲覧データ23bの抽出手順を示すフローチャートである。
同図に示すように、購買データ収集サーバ2では、商品購入データ抽出部22bまたは商品閲覧データ抽出部22cが、閲覧履歴データ23aからレコードを1つ取り出す(ステップS101)。
つづいて、商品購入データ抽出部22bまたは商品閲覧データ抽出部22cは、取り出したレコードに含まれるURLおよびタイトルの組合せが、ページ種別判定ルールの条件と一致するか否かを判定する(ステップS102)。なお、商品購入データ抽出部22bは、図5の(A)に示したページ種別判定ルールを用いて判定を行い、商品閲覧データ抽出部22cは、図8の(A)に示したページ種別判定ルールを用いて判定を行う。
つづいて、URLおよびタイトルの組合せがページ種別判定ルールの条件と一致した場合(ステップS102、Yes)、商品購入データ抽出部22bまたは商品閲覧データ抽出部22cは、該当するページ種別に対応するXpath条件に従ってレコードからデータを抽出する(ステップS103)。
たとえば、該当するページ種別が「購入完了」である場合には、商品購入データ抽出部22bは、「購入完了」に対応するXpath条件「//table/tbody/tr/td[2]」に従い、データ種別「商品名」のデータをレコードに含まれるページソースから抽出する。
なお、URLおよびタイトルの組合せがページ種別判定ルールの条件の何れにも一致しない場合には(ステップS102、No)、商品購入データ抽出部22bまたは商品閲覧データ抽出部22cは、処理をステップS101へ戻し、閲覧履歴データ23aから次のレコードを取り出す。
ステップS103の処理を終えると、商品購入データ抽出部22bまたは商品閲覧データ抽出部22cは、ページソースから抽出したデータを商品購入データ23cまたは商品閲覧データ23bの該当項目へセットして(ステップS104)、処理を終了する。たとえば、データ種別「商品名」のデータを抽出した場合、商品購入データ抽出部22bは、かかるデータを商品購入データ23cの「商品名」項目へセットする。
なお、ステップS101で取り出した1つのレコードに複数の商品等が含まれる場合には、ステップS103およびステップS104の処理をかかるレコードに含まれる商品等分繰り返すこととなる。
また、ステップS103において、商品購入データ抽出部22bまたは商品閲覧データ抽出部22cは、単純にXpath条件によって指定される範囲のデータを抽出するだけでなく、その後、規定のルールに基づいて数値変換処理(たとえば、「1,000円」→「1000」など)を行ったり、日本語解析処理により表記ゆれを補正する処理を行ったりしてもよい。これによって、より適切なデータ抽出を行うことができる。
また、ステップS104において、商品購入データ抽出部22bまたは商品閲覧データ抽出部22cは、所定のルール(たとえば、「カート投入」ページでは価格が必須、価格・販売数は必ず数値型であるなど)に基づき、抽出したデータの整合性をチェックし、異常があれば、抽出ルールの見直しの警告を挙げる等の処理を行ってもよい。
次に、購買データの生成処理の処理手順について図13を用いて説明する。図13は、購買データの生成処理の処理手順を示すフローチャートである。なお、同図に示す処理手順は一例であり、たとえば、ECサイトごとに特化した処理手順を用意してECサイト別に実行することとしてもよい。
同図に示したように、購買データ収集サーバ2では、属性データ付与部22dが、商品購入データ23cからページ種別「購入完了」のレコードを1つ取り出す(ステップS201)。つづいて、属性データ付与部22dは、取り出したレコードに、商品ID、商品名または商品詳細URLページ(すなわち、商品等特定データ)の何れかが含まれるか否かを判定する(ステップS202)。
かかる処理において、商品等特定データがレコードに含まれていない場合(ステップS202、No)、属性データ付与部22dは、同一の消費者に関する商品購入データを1つ遡り(ステップS203)、かかるレコードについてステップS202の判定を再度行う。そして、取り出したレコードに商品等特定データが含まれる場合には(ステップS202、Yes)、属性データ付与部22dは、取り出したレコードに含まれる商品等特定データを購買データの該当項目へセットする(ステップS204)。
たとえば、属性データ付与部22dは、ステップS201において、図7に示した商品購入データ23cの中から手続き種別「購入完了」のレコードを取り出したとする。ところが、図7に示したように、取り出したレコードには、商品名、商品IDおよび商品詳細ページURLの何れも含まれていない。このため、かかるレコードからは、消費者がどういった商品等を購入したのかを特定することができない。
ここで、消費者は、商品等の購入を完了させるまでに購入手続きページを経由することが一般的である。すなわち、購入完了に関するレコードの直前に記録されたレコードは、消費者が購入した商品等の購入手続きに関するレコードである可能性が高い。また、かかる購入手続きページには、消費者が購入した商品等の詳細情報が含まれている可能性も高い。
そこで、属性データ付与部22dは、購入完了に関するレコードに商品等特定データが含まれていない場合には、かかるレコードの直前に記録された同一消費者のレコードを取り出し、取り出したレコードから商品等特定データを抽出して購買データへセットすることとした。
したがって、購入完了ページだけでは消費者が購入した商品等を特定できない場合であっても、消費者が商品等を購入する際に経由する購入手続きのページ等を参照することによって消費者が購入した商品等を特定することができる。
つづいて、属性データ付与部22dは、同一消費者の商品閲覧データ23bに、同一の商品ID、商品詳細ページURLまたは商品名(すなわち、商品等特定データ)を含むレコードが存在するか否かを判定する(ステップS205)。
そして、属性データ付与部22dは、同一の商品等特定データを含むレコードが存在する場合には(ステップS205、Yes)、該当するレコードから属性データ(たとえば、「販売サイト」、「売価」、「定価」および「ジャンル・カテゴリー」など)を抽出する(ステップS206)。
一方、属性データ付与部22dは、同一の商品等特定データを含むレコードが存在しない場合には(ステップS205、No)、商品閲覧データ23bの各レコードのうち、ステップS201またはステップS203で取り出したレコードのアクセス日時の直前のアクセス日時を含むレコードから属性データを抽出する(ステップS207)。
そして、属性データ付与部22dは、ステップS206またはステップS207において抽出した属性データを購買データ23dへ付与し(ステップS208)、処理を終了する。
上述してきたように、本実施例では、閲覧履歴データ収集部22aが、消費者端末1で閲覧されたウェブページのページソースを含む閲覧履歴データ23aを取得し、商品購入データ抽出部22bが、閲覧履歴データ収集部22aによって取得された閲覧履歴データ23aの中から商品等の購入完了ページに関する閲覧履歴データ23aを特定し、購入完了ページに関する閲覧履歴に基づいて購買データに含むべきデータを抽出することとした。したがって、購買データを効率的に収集することができる。
また、本実施例では、商品購入データ抽出部22bが、購入完了ページに関する閲覧履歴データ23aに含まれるページソースから商品等特定データを含むデータを抽出し、属性データ付与部22dが、商品購入データ抽出部22bによって抽出された商品等特定データと同一の商品等特定データを含む他の閲覧履歴データ23aのページソースから属性データを抽出して購買データへ付与することとした。したがって、より多くのデータを含んだ購買データを生成することができる。
また、本実施例では、属性データ付与部22dが、購入完了ページのページソースに商品等特定データが含まれていない場合に、購入完了ページより以前に閲覧されたウェブページの閲覧履歴データ23aを当該購入完了ページの閲覧日時から近い順に参照し、参照した閲覧履歴に商品等特定データが含まれているならば、当該商品等特定データと同一の商品等特定データを含む他の閲覧履歴のページソースから属性データを抽出することとした。したがって、購入完了ページだけでは消費者が購入した商品等を特定できない場合であっても、消費者が商品等を購入する際に経由する購入手続きのページ等を参照することによって消費者が購入した商品等を特定することができる。
ところで、上述してきた実施例では、消費者が閲覧したウェブページの全ての閲覧履歴を購買データ収集サーバ2へ送信することとした。しかしながら、消費者が閲覧したウェブページの中には消費者の個人情報が含まれるものもあり、このようなウェブページの閲覧履歴を送信することは、個人情報保護の観点上好ましくない。
そこで、消費者端末1が、閲覧履歴データ13aを個人情報を除去した上で送信することとしてもよい。以下、かかる点について図14を用いて説明しておく。図14は、消費者端末1の他の構成を示すブロック図である。同図に示すように、消費者端末1の制御部12は、個人情報除去部12cをさらに備えている。
個人情報除去部12cは、記憶部13に記憶された閲覧履歴データ13aを所定のタイミング(たとえば、1日に1回)で取り出し、取り出した閲覧履歴データ13aに対して個人情報除去処理を施した上で閲覧履歴データ送信部12bへ渡す。たとえば、個人情報除去部12cは、閲覧履歴データ13aに含まれるページソースから、勤務先や職業、年収、携帯電話の番号、クレジットカードの利用状況といった購買データの生成に直接関係のない個人情報をXpath条件等を用いて特定して除去する。
なお、個人情報除去部は、購買データ収集サーバ2が備えていてもよい。かかる場合、購買データ収集サーバ2では、個人情報除去部が、閲覧履歴データ収集部22aによって収集された閲覧履歴データに対して個人情報除去処理を施したうえで、記憶部23へ記憶することとすればよい。
また、上述してきた実施例では、商品購入データおよび商品閲覧データの抽出処理を購買データ収集サーバ2が行う場合について説明してきたが、これに限ったものではなく、消費者端末1が、商品購入データおよび商品閲覧データの抽出処理を行うこととしてもよい。以下、かかる場合について図15を用いて説明しておく。図15は、消費者端末1および購買データ収集サーバ2の他の構成を示すブロック図である。
同図に示すように、消費者端末1の制御部12は、商品購入データ抽出部12dおよび商品閲覧データ抽出部12eをさらに備えている。また、消費者端末1の記憶部13は、商品購入データ13bおよび商品閲覧データ13cをさらに記憶している。
具体的には、消費者端末1では、商品購入データ抽出部12dが、閲覧履歴データ13aから商品購入データ12bを抽出して記憶部13へ記憶し、商品閲覧データ抽出部12eが、閲覧履歴データ13aから商品閲覧データ13cを抽出して記憶部13へ記憶する。また、消費者端末1では、閲覧履歴データ送信部12bが、記憶部13に記憶された商品購入データ13bおよび商品閲覧データ13cを所定のタイミングで購買データ収集サーバ2へ送信する。
一方、購買データ収集サーバ2では、閲覧履歴データ収集部22aが、消費者端末1から商品購入データ13bおよび商品閲覧データ13cを受信し、それぞれ商品購入データ23cおよび商品閲覧データ23bとして記憶部23へ記憶する。これ以降は、上述してきた実施例と同様であり、属性データ付与部22dが購買データ23dを生成し、購買データ送信部22eが、購買データ23dを分析装置3へ送信する。
このようにすれば、消費者端末1からは、商品購入データおよび商品閲覧データのみが送信されることとなるため、ネットワークを介して送信されるデータ量が少なくて済む。また、送信データに個人情報が含まれる可能性が低くなるため、個人情報に配慮したサービス提供が可能となる。
また、購買データの生成までの全ての処理を消費者端末1側で行うこととしてもよい。以下、かかる場合について図16を用いて説明しておく。図16は、消費者端末1および購買データ収集サーバ2の他の構成を示すブロック図である。
同図に示すように、消費者端末1の制御部12は、属性データ付与部12fをさらに備えている。また、消費者端末1の記憶部13は、購買データ13dをさらに記憶している。
具体的には、消費者端末1では、属性データ付与部12fが購買データ13dを生成して記憶部13に記憶し、閲覧履歴データ送信部12bが、記憶部13に記憶された購買データ13dを所定のタイミングで購買データ収集サーバ2へ送信する。
一方、購買データ収集サーバ2では、閲覧履歴データ収集部22aが、消費者端末1から購買データ13dを受信し、購買データ23dとして記憶部23へ記憶する。これ以降は、上述してきた実施例と同様であり、購買データ送信部22eが、購買データ23dを分析装置3へ送信する。
このようにすれば、消費者端末1からは、購買データのみが送信されることとなるため、ネットワークを介して送信されるデータ量をさらに少なくすることができる。また、送信データに個人情報が含まれる可能性をさらに低くすることができる。
ところで、上記してきた実施例において説明した各処理のうち、自動的に行われるとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるとして説明した処理の全部または一部を公知の手法で自動的に行うこともできる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、コンピュータ(たとえば、パーソナルコンピュータやワークステーション)およびコンピュータで解析実行されるプログラムにて、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
なお、かかるプログラムは、インターネットなどのネットワークを介して配布することができる。また、かかるプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。