JP2003076814A - アクセスログの縮約方法およびこれを実現するプログラム - Google Patents

アクセスログの縮約方法およびこれを実現するプログラム

Info

Publication number
JP2003076814A
JP2003076814A JP2001269477A JP2001269477A JP2003076814A JP 2003076814 A JP2003076814 A JP 2003076814A JP 2001269477 A JP2001269477 A JP 2001269477A JP 2001269477 A JP2001269477 A JP 2001269477A JP 2003076814 A JP2003076814 A JP 2003076814A
Authority
JP
Japan
Prior art keywords
access
predetermined
access log
identification information
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001269477A
Other languages
English (en)
Inventor
Nobuaki Yoshii
伸明 吉井
Kohei Kumazawa
公平 熊澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Recruit Co Ltd
Original Assignee
Recruit Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Recruit Co Ltd filed Critical Recruit Co Ltd
Priority to JP2001269477A priority Critical patent/JP2003076814A/ja
Publication of JP2003076814A publication Critical patent/JP2003076814A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】本発明の課題は、記録されるアクセスログの中
から実質的に意味を有するアクセスログを抽出する方法
およびこれを実現するシステムを提案することである。 【解決手段】 本発明は、クライアントコンピュータか
らアクセスを受け付けて、所定の識別情報を発行するス
テップと、前記アクセスに基づいて、少なくとも所定の
コンテンツタイプ情報および前記所定の識別情報を含む
アクセスログを生成し、記憶するステップと、前記記憶
したアクセスログの中から所定のアクセスログを抽出す
るステップと、からなり、前記抽出するステップは、前
記所定のコンテンツタイプ情報が所定のページ記述言語
を示し、かつ、相互に一致する識別情報を含むアクセス
ログの数が所定数以上のアクセスログを抽出することを
特徴とするアクセスログの縮約方法である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、アクセスログ縮約
方法およびこれを実現するシステムに関する。
【0002】
【従来技術】現在、インターネット上には、商用のWe
bサイトが数多く存在する。Webは、今日のビジネス
活動において欠かすことができないものとなっており、
その理由の一つとして、クリックストリームと呼ばれる
新しいデータソースを提供しうることが挙げられる。ク
リックストリームとは、Webサイトにおけるユーザの
クリック行動を記録したデータソースである。Webサ
イトの運営者は、Web上のユーザのクリック行動を捕
捉、追跡し、これをクリックストリームとして収集し、
分析することで、有益な情報として活用することができ
る。
【0003】このようなクリックストリームを収集する
1つの方法として、Cookieと呼ばれる機能が利用
される。このCookie機能は、Webサーバが所定
の文字列(「Cookie文字列」と呼ぶことにす
る。)を発行してこれをクライアントコンピュータに書
き込み、後にWebサーバが読み出せるようにするもの
である。Webサーバは、発行したCookie文字列
をログに記録しておくことで、アクセスを受け付けたク
ライアントコンピュータが初めてのアクセスであるのか
否かを判断することができる。クライアントコンピュー
タは、再度、そのWebサーバにアクセスする際には、
リクエストとともにCookie文字列をWebサーバ
に送信し、Webサーバは、クライアントコンピュータ
からのアクセスをログとして記録する。Cookie機
能は、HTTP1.1標準機能ではないが、事実上の標
準としてWebサーバ/クライアントシステムに組み込
まれている。
【0004】
【発明が解決しようとする課題】頻繁にユーザの訪問が
あるようなWebサイトでは、Webサーバは、通常、
1日当たり数〜数十GByteの容量を超えるデータを
アクセスログとして記録している。ログとして記録され
た膨大な量のクリックストリームのすべてをコンピュー
タで処理することは理論的には可能であるが、コンピュ
ータリソースの効率的な利用とはいえない。
【0005】また、インターネット上のWebサイトを
探索して、キーワード等を収集する「ロボット」がWe
b上を巡回している。Webサーバは、このようなロボ
ットによりアクセスされた場合であっても、実際のユー
ザによるものと区別することなく、ログとして記録する
ことになる。しかしながら、ロボットによるクリックス
トリームは、分析上の意味がなく、ログのデータ量をむ
やみに増やすばかりで、コンピュータの処理に負荷をか
ける要因となっていた。
【0006】さらに、典型的なWebページは、イメー
ジデータ等の他のリソースへの参照を示すURLを含ん
だソースデータとして構成されている。クライアントコ
ンピュータは、Webサーバに対してこのWebページ
をリクエストして、Webページのソースデータを取得
すると、そのソースデータを解析しながらそこに含まれ
るURLにしたがって他のリソースをリクエストする。
このため、Webサーバは、1つのWebページについ
てのリクエストであっても、ほとんど多くの場合で、ク
ライアントコンピュータから複数のアクセスを受けてお
り、その都度、そのアクセスをログとして記録してい
た。したがって、Webサーバがクリックストリームを
ログとして記録しても、そのすべてが分析上の意味がな
いにもかかわらず、実質的なログのみに着目する手法が
確立されていなかった。
【0007】さらにまた、クライアントコンピュータ側
で上述のCookie機能の利用可否を設定できるた
め、ユーザが利用不可に設定している場合には、クライ
アントコンピュータにCookie文字列が書き込まれ
ず、アクセスのたびに新たなCookie文字列が発行
され、これがアクセスログに記録されていた。したがっ
て、このような場合にも、アクセスログのデータ量が増
えてしまうという問題があった。
【0008】そこで、本発明は、記録されるアクセスロ
グの中から実質的に意味を有するアクセスログを抽出す
る方法およびこれを実現するシステムを提案することを
課題としている。
【0009】
【課題を解決するための手段】本発明の要旨は、クライ
アントコンピュータからのアクセスによって収集された
アクセスログのうち、コンテンツタイプ情報が所定のペ
ージ記述言語を示し、かつ、相互に一致する識別情報を
含むアクセスログの数が所定数以上のアクセスログを抽
出することにより、アクセスログのデータ量を縮約する
ことである。
【0010】より、具体的には、本発明は、クライアン
トコンピュータからアクセスを受け付けて、所定の識別
情報を取得するステップと、前記アクセスに基づいて、
少なくとも所定のコンテンツタイプ情報および前記所定
の識別情報を含むアクセスログを生成し、記憶するステ
ップと、前記記憶したアクセスログの中から所定のアク
セスログを抽出するステップと、からなり、前記抽出す
るステップは、前記所定のコンテンツタイプ情報が所定
のページ記述言語を示し、かつ、相互に一致する識別情
報を含むアクセスログの数が所定数以上のアクセスログ
を抽出することを特徴とするアクセスログの縮約方法で
ある。
【0011】ここで、前記抽出するステップは、前記所
定のコンテンツタイプ情報が所定のページ記述言語を示
すアクセスログのみをさらに抽出することが好ましい。
【0012】また、本発明は、前記アクセスログの縮約
方法により抽出されたアクセスログに基づいて、所定の
分析処理を行うことを特徴としている。
【0013】以上のような方法の発明は、装置の発明ま
たはプログラムあるいはプログラムを記録した記録媒体
としても成立する。
【0014】なお、本明細書において、手段とは、単に
物理的手段を意味するものではなく、その手段が有する
機能をソフトウェアによって実現する場合も含む。ま
た、1つの手段が有する機能が2つ以上の物理的手段に
より実現されても、2つ以上の手段の機能が1つの物理
的手段により実現されても良い。
【0015】
【発明の実施の形態】次に、本発明の実施の形態につい
て、図面を参照しつつ説明する。
【0016】図1は、本実施形態に係るシステムの構成
を説明するためのブロックダイアグラムである。企業側
システムは、インターネット上のWebサービスを提供
するWebサーバコンピュータ1と、Webサーバコン
ピュータ1の一機能によって収集されるアクセスログを
分析する分析コンピュータ2とを備える。クライアント
コンピュータ3は、Webクライアントプログラム(ブ
ラウザ)を実装している。クライアントコンピュータ3
は、典型的には、パーソナルコンピュータが相当する
が、携帯電話機等の情報端末であってもよい。このよう
な情報端末の中にはCookie機能に対応していない
ものもあり、したがってこれをアクセスログに記録する
ことができないが、この場合には、情報端末が発信する
識別情報等を利用することができる。
【0017】Webサーバコンピュータ1は、Webサ
ーバプログラム11、ページデータ12、CGIプログ
ラム13およびアクセスログデータベース14を備え
る。Webサーバプログラム11は、ユーザのクライア
ントコンピュータ3からHTTPにしたがったリクエス
トメッセージを受け付けて、そのメッセージに対応した
レスポンスをクライアントコンピュータ3に送り返す。
例えば、Webサーバプログラム11は、URLによっ
て指定されるページデータ12のリクエストに応答し
て、そのユーザのクライアントコンピュータ3にそのペ
ージデータ12を提供する。このとき、Webサーバプ
ログラム11は、Cookie文字列を発行して、これ
をレスポンスとともにクライアントコンピュータ3に送
り返すとともに、アクセスログとしてアクセスログDB
14に出力する。このアクセスログが、いわゆるクリッ
クストリームである。Webサーバプログラム11は、
典型的には、httpdと呼ばれるデーモンプログラム
としてサーバコンピュータ1に実装される。
【0018】ページデータ12は、例えばHTMLなど
のページ記述言語を用いて設計された、ユーザに提供す
べき画面を構成するドキュメントデータである。1つの
ページデータ12は、通常、他のリソース(ページデー
タやイメージデータ等)への参照を示すURLを含んで
構成される。なお、ページデータ12は、静的なデータ
として予め用意されているものの他、CGIプログラム
13などによって動的に生成されるものであってもよ
い。
【0019】CGIプログラム13は、Webサーバプ
ログラム11がHTTPにより特定のメッセージを受け
付けた場合に、実行されるプログラムである。CGIプ
ログラム13は、典型的にはPerlやC++などのプ
ログラム言語により記述される。
【0020】アクセスログDB14は、上述したよう
に、Webサーバプログラム11が出力するアクセスロ
グを記録する。図2は、アクセスログのデータ構造の一
例を示す図である。1つのアクセスログは、いくつかの
フィールドから構成されており、同図では、そのうちの
代表的なフィールドを示している。このうち、Cook
ie文字列フィールドは、Webサーバプログラム11
が発行した識別情報等を含んで構成されている。なお、
他の通信網を介した情報端末からのアクセスによるアク
セスログについては、他のデータ構造を有していてもよ
い。このようなアクセスログでは、Cookie文字列
フィールドとは異なる他のフィールドに端末識別情報が
含まれることが好ましい。
【0021】一方、分析コンピュータ2は、アクセスロ
グ縮約プログラム15およびアクセスログ分析プログラ
ム15を備える。アクセスログ縮約プログラム15は、
後述するように、アクセスログDB14に記録されてい
る全てのアクセスログを、所定の条件にしたがって、分
析に有効と思われるアクセスログのみに縮約するもので
ある。アクセスログ分析プログラム16は、アクセスロ
グ縮約プログラム15によって縮約されたアクセスログ
をさまざまな角度から分析を行い、分析結果を出力す
る。分析とは、例えば、Webサイトを訪問したユーザ
のニーズについて、年齢、地域等の属性ごとの特徴抽出
である。
【0022】本実施形態は、Webサーバプログラム1
1によって出力され、アクセスログDB14に記録され
たアクセスログを、分析プログラム16による分析が行
われる前に、アクセスログ縮約プログラム15が所定の
条件にしたがってフィルタリングして、そのデータ量を
縮約することを特徴としている。
【0023】図3は、本実施形態に係るアクセスログ縮
約プログラム15の動作を説明するためのフローチャー
トである。アクセスログ縮約プログラム15は、例え
ば、バッチ処理により所定のタイミング(例えば24時
間ごと)で実行される。
【0024】まず、アクセスログ縮約プログラム15
は、アクセスログDB14からアクセスログを読み込ん
で、前処理としてCookie文字列フィールドに
“−”等の利用不可を示す情報が与えられているアクセ
スログを削除した後、Cookie文字列順にこれをソ
ートする(STEP301)。なお、上述したような他
のデータ構造を有するアクセスログについては、他のフ
ィールドに含まれる端末識別情報をCookie文字列
フィールドにコピーすることで、これをCookie文
字列として等価に扱うことができ、あるいは端末識別情
報を含む他のフィールド順にソートするようにしても良
い。次に、アクセスログ縮約プログラム15は、全ての
アクセスログについて以下の処理を行う(STEP30
2乃至305)。
【0025】すなわち、アクセスログ縮約プログラム1
5は、同一のCookie文字列(あるいは端末識別情
報)を持つアクセスログ群に注目する(STEP30
2)。アクセスログ縮約プログラム15は、注目したア
クセスログ群の中に、コンテンツタイプがページ記述言
語(HTML等)のものが少なくと1つあり、かつ、リ
クエストが所定アクセス数(例えば5アクセス)以上あ
るか否かをチェックする(STEP303および30
4)。所定アクセス数は、典型的なページ構成水準に基
づいて適宜決定することができる。アクセスログ縮約プ
ログラム15は、これらの条件をともに満たす当該アク
セスログ群をバッファに出力する(STEP305)。
つまり、これらの条件をいずれか一方でも満たさないア
クセスログは、破棄されることになる。アクセスログ縮
約プログラム15は、同様に、次のアクセスログ群に注
目し、上記処理を行う。
【0026】アクセスログ縮約プログラム15は、全て
のアクセスログについてチェックし終わると、バッファ
に出力されたアクセスログのうち、コンテンツタイプが
ページ記述言語のもの以外のアクセスログを削除する
(STEP306)。そして、アクセスログ縮約プログ
ラム15は、バッファの内容を縮約されたアクセスログ
としてアクセスDB14に出力する(STEP30
7)。
【0027】このようにしてアクセスログDB14に出
力された縮約されたアクセスログは、アクセスログ分析
プログラム16によって、適宜、分析に利用されること
になる。
【0028】なお、上記処理の流れについてはシーケン
シャルに説明したが、特にこれにこだわるものではな
い。従って、処理の結果に矛盾が生じない限り、処理の
順序を入れ替えまたは並行動作するように構成しても良
い。
【0029】上記実施形態は、本発明を説明するための
例示であり、本発明をこの実施形態にのみ限定する趣旨
ではない。本発明は、その要旨を逸脱しない限り、さま
ざまな形態で実施することができる。
【0030】
【発明の効果】本発明によれば、記録されるアクセスロ
グの中から実質的に意味を有するアクセスログを抽出す
ることができるようになる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るシステムの構成を説
明するためのブロックダイアグラムである。
【図2】本発明の一実施形態に係るアクセスログのデー
タ構造の一例を示す図である。
【図3】本発明の一実施形態に係るアクセスログ縮約プ
ログラム15の動作を説明するためのフローチャートで
ある。
【符号の説明】
1…Webサーバコンピュータ 2…クライアントコンピュータ 3…分析コンピュータ 11…Webサーバプログラム 12…ページデータ 13…CGIプログラム 14…アクセスログデータベース 15…アクセスログ縮約プログラム 16…アクセスログ分析プログラム

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】クライアントコンピュータからアクセスを
    受け付けて、所定の識別情報を取得するステップと、 前記アクセスに基づいて、少なくとも所定のコンテンツ
    タイプ情報および前記所定の識別情報を含むアクセスロ
    グを生成し、記憶するステップと、 前記記憶したアクセスログの中から所定のアクセスログ
    を抽出するステップと、からなり、 前記抽出するステップは、 前記所定のコンテンツタイプ情報が所定のページ記述言
    語を示し、かつ、相互に一致する識別情報を含むアクセ
    スログの数が所定数以上のアクセスログを抽出すること
    を特徴とするアクセスログの縮約方法。
  2. 【請求項2】前記抽出するステップは、 前記所定のコンテンツタイプ情報が所定のページ記述言
    語を示すアクセスログのみをさらに抽出することを特徴
    とする請求項1記載のアクセスログの縮約方法。
  3. 【請求項3】前記アクセスログの縮約方法により抽出さ
    れたアクセスログに基づいて、所定の分析処理を行うこ
    とを特徴とする請求項1または2記載の分析方法。
  4. 【請求項4】クライアントコンピュータからアクセスを
    受け付けた場合に、所定の識別情報を取得する取得手段
    と、 前記アクセスに基づいて、少なくとも所定のコンテンツ
    タイプ情報および前記所定の識別情報を含むアクセスロ
    グを生成する生成手段と、 前記アクセスログを記憶する記憶手段と、 前記記憶手段に記憶されたアクセスログの中から所定の
    アクセスログを抽出する抽出手段と、を備え、 前記抽出手段は、 前記所定のコンテンツタイプ情報が所定のページ記述言
    語を示し、かつ、相互に一致する識別情報を含むアクセ
    スログの数が所定数以上のアクセスログを抽出すること
    を特徴とするアクセスログ縮約装置。
  5. 【請求項5】コンピュータに所定の機能を実現させるプ
    ログラムであって、前記プログラムは、 クライアントコンピュータからアクセスを受け付けた場
    合に、所定の識別情報を取得させる取得機能と、 前記アクセスに基づいて、少なくとも所定のコンテンツ
    タイプ情報および前記所定の識別情報を含むアクセスロ
    グを生成させる生成機能と、 所定の記憶手段に、前記アクセスログを記憶させる記憶
    機能と、 前記所定の記憶手段に記憶されたアクセスログの中から
    所定のアクセスログを抽出させる抽出機能と、を備え、 前記抽出機能は、 前記所定のコンテンツタイプ情報が所定のページ記述言
    語を示し、かつ、相互に一致する識別情報を含むアクセ
    スログの数が所定数以上のアクセスログを抽出させるこ
    とを特徴とするアクセスログを縮約するプログラム。
JP2001269477A 2001-09-05 2001-09-05 アクセスログの縮約方法およびこれを実現するプログラム Pending JP2003076814A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001269477A JP2003076814A (ja) 2001-09-05 2001-09-05 アクセスログの縮約方法およびこれを実現するプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001269477A JP2003076814A (ja) 2001-09-05 2001-09-05 アクセスログの縮約方法およびこれを実現するプログラム

Publications (1)

Publication Number Publication Date
JP2003076814A true JP2003076814A (ja) 2003-03-14

Family

ID=19095289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001269477A Pending JP2003076814A (ja) 2001-09-05 2001-09-05 アクセスログの縮約方法およびこれを実現するプログラム

Country Status (1)

Country Link
JP (1) JP2003076814A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2315393A2 (en) 2009-10-20 2011-04-27 Hitachi, Ltd. Acces log management method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2315393A2 (en) 2009-10-20 2011-04-27 Hitachi, Ltd. Acces log management method

Similar Documents

Publication Publication Date Title
US20230177008A1 (en) Session-Based Processing Method and System
US10382573B2 (en) Method for click-stream analysis using web directory reverse categorization
US7013323B1 (en) System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
US6741990B2 (en) System and method for efficient and adaptive web accesses filtering
US6401118B1 (en) Method and computer program product for an online monitoring search engine
US6983320B1 (en) System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages
US8001118B2 (en) Methods and apparatus for employing usage statistics in document retrieval
US6510461B1 (en) System for managing and automatically deleting network address identified and stored during a network communication session when the network address is visited
US6615259B1 (en) Method and apparatus for scanning a web site in a distributed data processing system for problem determination
US7020082B2 (en) Network usage monitoring device and associated method
US7664732B2 (en) Method of managing websites registered in search engine and a system thereof
US20080082687A1 (en) Method, system, and computer program product for implementing collaborative correction of online content
KR100509276B1 (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
CN102065147A (zh) 一种基于企业应用系统获取用户登录信息的方法及装置
Sukumar et al. Review on modern Data Preprocessing techniques in Web usage mining (WUM)
CN109359263B (zh) 一种用户行为特征提取方法及系统
Castellano et al. LODAP: a log data preprocessor for mining web browsing patterns
US6535916B1 (en) Systems, methods and computer program products for linking transactions by multiple web site servers to web site visitors
Castellano et al. Log data preparation for mining web usage patterns
Shivaprasad et al. Knowledge discovery from web usage data: An efficient implementation of web log preprocessing techniques
Suneetha et al. Data preprocessing and easy access retrieval of data through data ware house
JP2003076814A (ja) アクセスログの縮約方法およびこれを実現するプログラム
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体
EP1205857A2 (en) Apparatus for retrieving data
CN114547171A (zh) 一种基于大数据分析的业务数据的处理方法及系统