JP6721057B2 - 通信セッションログ解析装置、方法 - Google Patents

通信セッションログ解析装置、方法 Download PDF

Info

Publication number
JP6721057B2
JP6721057B2 JP2018551604A JP2018551604A JP6721057B2 JP 6721057 B2 JP6721057 B2 JP 6721057B2 JP 2018551604 A JP2018551604 A JP 2018551604A JP 2018551604 A JP2018551604 A JP 2018551604A JP 6721057 B2 JP6721057 B2 JP 6721057B2
Authority
JP
Japan
Prior art keywords
session
web
communication session
web session
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018551604A
Other languages
English (en)
Other versions
JPWO2018092698A1 (ja
Inventor
亜南 沢辺
亜南 沢辺
裕志 吉田
裕志 吉田
耕介 野上
耕介 野上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018092698A1 publication Critical patent/JPWO2018092698A1/ja
Application granted granted Critical
Publication of JP6721057B2 publication Critical patent/JP6721057B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/18Protocol analysers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、ユーザの通信セッションログを解析する通信セッションログ解析装置、方法および記録媒体に関する。
一般的に、ウェブ(Web)サイトは、テキスト、スクリプト、画像、動画など多数のコンテンツから構成されている。そのため、ユーザがウェブサイトを通信端末で閲覧する場合には、ウェブサイトを構成する全てのコンテンツを取得するための通信を行う必要がある。ウェブサイトのコンテンツを取得するための通信として、HTTP(Hypertext Transfer Protocol)が用いられることが多く、この場合、通信端末はコンテンツの数だけHTTP通信を行うことになる。
例えば、あるウェブサイトがテキスト1つとスクリプト1つと画像2つから構成されている場合、通信端末がそのウェブサイトの全コンテンツを取得して表示するためには、HTTP通信を4回実行する必要がある。1回の通信で行われるコンテンツ要求の送信、コンテンツの受信などの一連の通信をセッションと呼ぶ。このように、1つのウェブサイトを閲覧するためには、複数回のHTTPセッションを実行する必要がある。以降、1つのウェブサイトを閲覧するために必要な複数回のHTTPセッションをまとめて1つのウェブセッションと呼ぶ。
一方、ウェブセッションのユーザの体感品質を評価するために、ネットワーク内のあるノードがユーザの通信セッションをログとして蓄積し、当該通信セッションログを分析することが行われている。ユーザ体感品質の評価の代表例は、ウェブセッションの所要時間、具体的には、ウェブサイトにアクセスしてから当該ウェブサイトが表示されるまでの時間、または当該ウェブサイトの全てのコンテンツの取得が完了するまでの時間、の評価である。以降、このウェブセッションの所要時間をウェブセッション時間と呼ぶ。
通信セッションのログは、セッション(HTTP通信の場合、HTTPセッション)単位で記録される。具体的には、通信開始時刻、終了時刻、アドレス、コンテンツタイプ、URL(Uniform Resource Locator)などの情報が記録される。しかし、当該ログから、特定のウェブセッションを構成するHTTPセッションがどのHTTPセッションであるのかを、特定することは困難である。HTTPセッションから対応するウェブサイトを特定するためには、コンテンツの内容(HTML(Hyper Text Markup Language)やスクリプトの内容)を保存しておく必要があるが、ログのデータのサイズが膨大になるため、現実的には保存することが困難なためである。
特許文献1には、基準となるHTTPセッションの開始時刻から、所定の閾値(固定値)時間内で開始される同一ユーザのHTTPセッションを、1つのバルクとして集約する通信行動分析装置が開示されている。この場合、バルクの所要時間は当該閾値に強く依存する。例えば、当該閾値を3秒に設定した場合、バルクの所要時間は3秒近傍の分布確率が極端に増加し、また、5秒に設定した場合、バルクの所要時間は5秒近傍の分布確率が増加する。
図12に示すように、上記バルクをウェブセッションとし、上記バルクの所要時間をウェブセッション時間として、ユーザの体感品質を評価するとする。図12では、基準となるHTTPセッションの開始時刻から、固定的な閾値時間内に開始される同一ユーザのHTTPセッションが1つのウェブセッションに集約される。この場合、固定された閾値によって、ウェブセッション時間の分布に偏りが発生する。そのため、ユーザの体感品質を精度良く評価することができない。
この問題を解決する通信セッションログ解析装置が、特願2016−052729号に提案されている。この装置では、図13に示すように、基準となるHTTPセッションの開始時刻から、所定の確率分布に基づいて確率的に設定される閾値時間内で開始される同一ユーザのHTTPセッションが、1つのウェブセッション(特願2016−052729号ではコンテンツアクセスと呼ぶ)に集約される。そのため、特許文献1のような固定された閾値によるウェブセッション時間の分布の偏りが抑制され、ユーザの体感品質評価の精度を向上させることができる。
特開2015−195530号公報
特許文献1と特願2016−052729号はともに、HTTPセッションをウェブセッションに集約する際に、基準となるHTTPセッションの開始時刻から閾値時間内で開始されるHTTPセッションを、同一のウェブセッションとみなしている。このときに、以下のような2つの課題が生じている。
第1の課題は、図14に示すように、本来は一つのウェブセッション#1であるHTTPセッション#1〜#6が、HTTPセッション#1〜#3のウェブセッション#1と、HTTPセッション#4〜#6のウェブセッション#2とに誤って集約される場合である。この誤集約は、HTTPセッション#4が遅延したことで生じる可能性がある。この誤集約が生じた場合、本来のウェブセッション時間に対して、ウェブセッション#1と#2の各々のウェブセッション時間は短いため、実際よりも短いウェブセッション時間が得られてしまうことになる。
第2の課題は、図15に示すように、本来は別々のウェブセッション#1と#1’であるHTTPセッション#1〜#3と#1’〜#3’が、HTTPセッション#1〜#3’の一つのウェブセッション#1に誤集約される場合である。この誤集約は、HTTPセッション#1〜#3とHTTPセッション#1’〜#3’が、連続して行われたことで生じる可能性がある。この誤集約が生じた場合、本来のウェブセッション時間の各々に対して、ウェブセッション#1のウェブセッション時間は長いため、実際よりも長いウェブセッション時間が得られてしまうことになる。
以上のように、第1と第2の課題は、実際のウェブセッション時間との誤差を拡大させるため、ウェブセッション時間を用いることでのユーザの体感品質評価の精度を低下させてしまっている。
本発明は、上記の課題に鑑みてなされたものであり、その目的は、ユーザの体感品質を精度良く評価できるウェブセッション時間の提供を可能とする通信セッションログの集約が可能な通信セッションログ解析装置を提供することである。
本発明の通信セッションログ解析装置は、通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する通信セッションログ解析装置において、1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに集約するウェブセッション集約手段と、前記閾値を所定の確率分布に基づいて設定する閾値設定手段と、前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出するフィルタリング手段と、を有する。
本発明の通信セッションログ解析方法は、通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する通信セッションログ解析方法において、所定の確率分布に基づいて閾値を設定し、1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が前記閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに集約し、前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出する。
本発明のコンピュータ読み取り可能な記録媒体に記録された通信セッションログ解析プログラムは、通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する処理を、コンピュータに実行させる通信セッションログ解析プログラムにおいて、所定の確率分布に基づいて閾値を設定する処理と、1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が前記閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに帰属させる処理と、前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出する処理とを、コンピュータに実行させる。
本発明によれば、ユーザの体感品質を精度良く評価することができるウェブセッション時間の提供を可能とする通信セッションログの集約が可能な通信セッションログ解析装置を提供することができる。
本発明の第1の実施形態の通信セッションログ解析装置の構成を示すブロック図である。 本発明の第2の実施形態の通信セッションログ解析装置の構成を示すブロック図である。 本発明の第2の実施形態の通信セッションログ解析装置のウェブセッション集約動作を示すフローチャートである。 実際のウェブセッション時間の例を示す説明図である。 閾値の設定の仕方に対応したウェブセッション時間を示す説明図である。 本発明の第2の実施形態の通信セッションログ解析装置のフィルタリング動作を示すフローチャートである。 実際のハイパーリンク数の例を示す説明図である。 フィルタリングの際のハイパーリンク数の下限値と上限値を設定する例を示す説明図である。 本発明の第2の実施形態の通信セッションログ解析装置の効果を示す説明図である。 本発明の第3の実施形態の通信セッションログ解析装置の構成を示すブロック図である。 本発明の第3の実施形態の通信セッションログ解析装置のフィルタリング動作を示すフローチャートである。 固定閾値に基づいたHTTPセッションの集約を示す説明図である。 確率的閾値に基づいたHTTPセッションの集約を示す説明図である。 本発明が解決しようとする第1の課題を示す説明図である。 本発明が解決しようとする第2の課題を示す説明図である。
以下、図を参照しながら、本発明の実施形態を詳細に説明する。但し、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。
(第1の実施形態)
図1は、本発明の第1の実施形態の通信セッションログ解析装置の構成を示すブロック図である。本実施形態の通信セッションログ解析装置1は、通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する通信セッションログ解析装置である。
通信セッションログ解析装置1は、1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに集約するウェブセッション集約手段11を有する。さらに、前記閾値を所定の確率分布に基づいて設定する閾値設定手段12を有する。さらに、前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出するフィルタリング手段13を有する。
本実施形態によれば、フィルタリング手段13により、通信セッションの集約が妥当でないと判定されたウェブセッションが削除される。これにより、通信セッションログ解析装置1の集約結果によって得られるウェブセッション時間と、実際のウェブセッション時間との誤差が抑制される。その結果、ウェブセッション時間を用いることでのユーザの体感品質評価の精度を向上させることができる。
以上のように、本実施形態によれば、ユーザの体感品質を精度良く評価することができるウェブセッション時間の提供を可能とする通信セッションログの集約が可能な通信セッションログ解析装置を提供することができる。
(第2の実施形態)
図2は、本発明の第2の実施形態の通信セッションログ解析装置の構成を示すブロック図である。本実施形態の通信セッションログ解析装置2は、通信セッションのセッション情報を有する通信セッションログを解析する第1の実施形態の通信セッションログ解析装置1の、具体的な形態である。
通信セッションログ解析装置2は、通信セッションログ記憶部201と、コンテンツタイプ判別部202と、ウェブセッション作成部203と、閾値設定部204と、ウェブセッション記憶部205と、ウェブセッション検索部206と、ウェブセッション集約部207とを備える。さらに、通信セッションログ解析装置2は、統計情報取得部208と、統計情報記憶部209と、フィルタリング部210と、フィルタリング後ウェブセッション記憶部211とを備える。
第1の実施形態の通信セッションログ解析装置1の構成要素と、上記の通信セッションログ解析装置2の構成要素との対応は以下の通りである。すなわち、ウェブセッション集約手段11は、通信セッションログ記憶部201と、コンテンツタイプ判別部202と、ウェブセッション作成部203と、ウェブセッション記憶部205と、ウェブセッション検索部206と、ウェブセッション集約部207とを有する。また、閾値設定手段12は、閾値設定部204を有する。また、フィルタリング手段13は、統計情報取得部208と、統計情報記憶部209と、フィルタリング部210と、フィルタリング後ウェブセッション記憶部211とを有する。
以下に、通信セッションログ解析装置2の構成要素の各々の機能について説明する。
通信セッションログ記憶部201は、通信セッションログとして、通信セッション(HTTPの場合はHTTPセッション)単位でセッション情報を取得して保存する。セッション情報は、具体的には、セッション開始時刻(送信開始時刻)、セッション終了時刻(受信完了時刻)、コンテンツタイプ(text/html、image/jpegなど)、要求元IP(Internet protocol)アドレス(端末のIPアドレス)、UA(User Agent)、URL、コンテンツサイズなどである。
コンテンツタイプ判別部202は、通信セッションログ記憶部201から通信セッションログとして、通信セッション(HTTPセッション)のセッション情報を取得する。コンテンツタイプ判別部202は、HTTPセッションのコンテンツタイプがtext/htmlである場合、当該HTTPセッションを新規のウェブセッション(ウェブサイトへのアクセス)であると判別する。そして、当該HTTPセッションを基準のHTTPセッションとし、ウェブセッション作成部203の処理に移行する。また、コンテンツタイプ判別部202は、HTTPセッションのコンテンツタイプが新規のウェブセッションではないと判別した場合、ウェブセッション検索部206の処理に移行する。
ウェブセッション作成部203は、新規のウェブセッションの基準となるHTTPセッションの有する情報に基づいて、新規のウェブセッションの初期データを作成し、ウェブセッション記憶部205に記憶する。
ウェブセッション記憶部205は、ウェブセッションのデータを記憶する。
閾値設定部204は、ウェブセッション集約部207がHTTPセッションを集約する際の判定に用いる、HTTPセッション間の時間間隔の閾値を、後述する所定の方法、例えば、所定の確率分布に従って設定する。
ウェブセッション検索部206は、HTTPセッションの要求元IPアドレス(端末IPアドレス)と同じIPアドレスを持つウェブセッションをウェブセッション記憶部205から検索する。
ウェブセッション集約部207は、対象のHTTPセッションのセッション情報を取得し、対象のHTTPセッションが、ウェブセッション検索部206が検索したウェブセッションに属するものであるか否かを判定する。そして、ウェブセッション集約部207は、属すると判定した場合、当該ウェブセッションに対象のHTTPセッションを集約することで当該ウェブセッションを更新する。
すなわち、ウェブセッション集約部207は、基準のHTTPセッションの開始時刻から、対象のHTTPセッションの開始時刻までの経過時間が閾値以下である場合、対象のHTTPセッションは基準のHTTPセッションのウェブセッションに属するものと判定する。そして、対象のHTTPセッションを当該ウェブセッションに集約することで、当該ウェブセッションを更新し、ウェブセッション記憶部205に記憶する。
ここで、集約の具体的な方法としては、例えば、ウェブセッションごとに識別子で区別する場合、対象のHTTPセッションに基準のHTTPセッションと同じ識別子を付与する方法が挙げられる。また、ウェブセッションごとに保存するフォルダで区別する場合、対象のHTTPセッションを基準のHTTPセッションと同じフォルダに保存することが挙げられる。なお、集約の方法としては、同じウェブセッションに属することを明確にすることができる方法であれば、以上の方法には限定されない。
統計情報取得部208は、ウェブサイトの構成に関する統計情報である、例えば、ハイパーリンク数やコンテンツ数やコンテンツサイズ等の情報を、ウェブサイトから取得する。
統計情報記憶部209は、統計情報取得部208で取得したウェブサイトの構成に関する統計情報を記憶する。
フィルタリング部210は、統計情報記憶部209に記憶された統計情報に基づく統計的検定を用いて、ウェブセッション記憶部205に記憶されたウェブセッションが妥当な集約がなされているか否かを統計的に判定する。統計的検定については後述する。フィルタリング部210は、妥当であると判定した場合は、当該ウェブセッションデータをフィルタリング後ウェブセッション記憶部211へ保存し、妥当でないと判定した場合は、当該ウェブセッションデータを削除する。以上のようにして、フィルタリング部210は、妥当な集約がなされたウェブセッションを抽出する。
フィルタリング後ウェブセッション記憶部211は、フィルタリング部210で抽出された妥当な集約がなされたウェブセッションを保存する。これ以降、フィルタリング後ウェブセッション記憶部211に保存されている妥当な集約がなされたと判定されたウェブセッションのデータは、ウェブセッション時間を算出するなどして、ユーザの体感品質評価などへの利用が可能である。
本実施形態の通信セッションログ解析装置2は、コンピュータに実装される。具体的には、通信セッションログ解析装置2は、プログラムの形式で補助記憶装置に記憶されている。補助記憶装置は、一時的でない有形の媒体である。コンピュータに搭載されたCPU(Central Processing Unit)は、そのプログラムを補助記憶装置から読み出して主記憶装置に展開し、そのプログラムに従って処理を実行する。
図3は、本実施形態の通信セッションログ解析装置2の、通信セッションをウェブセッションに集約する動作を示すフローチャートである。図3のフローチャートは、通信セッションログ解析装置2の通信セッションログ記憶部201に、新たな通信セッション(HTTPの場合はHTTPセッション)が保存される度に開始となる。
コンテンツタイプ判別部202は、通信セッションログ記憶部201から通信セッションログとして、HTTPセッションのセッション情報を取得する。コンテンツタイプ判別部202は、HTTPセッションのコンテンツタイプを判別する(ステップS201)。さらに、コンテンツタイプ判別部202は、コンテンツタイプに基づいて、ウェブセッション作成部203の処理に移行するか、または、ウェブセッション検索部206の処理に移行するかの振り分けを行う。
コンテンツタイプ判別部202は、具体的には、コンテンツタイプが新規のウェブセッションであると判別した場合(ステップS202のYES)、ウェブセッション作成部203の処理に移行する。
コンテンツタイプ判別部202は、HTTPセッションが1つのウェブセッションの中での最初のHTTPセッションであると判定した場合、新規のウェブセッションであると判定する。コンテンツタイプ判別部202は、例えば、HTTPセッションのコンテンツタイプが「text/html」である場合、ウェブセッションの最初のHTTPセッションであると判定する。ウェブサイトの多くは「text/html」に基づいて作成されているため、コンテンツタイプ判別部202は、コンテンツタイプが「text/html」であるHTTPセッションを、最初のHTTPセッションであるとすることができる。
コンテンツタイプ判別部202は、HTTPセッションが1つのウェブセッションにおける2つ目以降のHTTPセッションと判断した場合(ステップS202のNO)、ウェブセッション検索部206の処理に移行する。コンテンツタイプ判別部202は、上述のようにコンテンツタイプが「text/html」をウェブセッションの最初のHTTPセッションと判定する場合、それ以外のコンテンツタイプを、2つ目以降のHTTPセッションと判定する。
ウェブセッション作成部203は、新規のウェブセッションの基準となるHTTPセッションの有する情報に基づいて、新規のウェブセッションの初期データを作成し、ウェブセッション記憶部205に記憶する(ステップS203)。
ウェブセッションは、複数のHTTPセッションを1つに集約した情報である。ウェブセッション作成部203は、1つのウェブセッションの中での最初のHTTPセッションであると判定したHTTPセッションを基準のHTTPセッションとして、ウェブセッションの初期データを作成する。
すなわち、ウェブセッションは、ウェブセッション開始時刻(最初のHTTPセッションの開始時刻)、ウェブセッション終了時刻(集約されたHTTPセッションの終了時刻の内の最も遅い時刻)の情報を含む。さらに、アクセスした端末のIPアドレス、アクセスした端末のアプリケーションのUA、ウェブサイトのURLの情報を含む。さらに、コンテンツサイズ(集約したHTTPセッションで取得したコンテンツサイズの合計)、HTTPセッションの集約数、閾値設定部204で設定される閾値時間などの情報を含む。HTTPセッションの集約については、ウェブセッション集約部207の処理として後述する。
閾値設定部204は、HTTPセッション間の時間間隔の閾値を、所定の方法、例えば、後述する所定の確率分布などに従って設定する(ステップS204)。この閾値は、ウェブセッション集約部207がHTTPセッションを対象のウェブセッションに集約するか否かを判定する際に用いられる。
HTTPセッションが1つのウェブセッションにおける2つ目以降のHTTPセッションと判定された場合(ステップS202のNO)、ウェブセッション検索部206は、HTTPセッションの要求元IPアドレス(端末IPアドレス)と同じIPアドレスを持つウェブセッションをウェブセッション記憶部205から検索する(ステップS205)。
ウェブセッション集約部207は、対象のHTTPセッションの情報を取得し、対象のHTTPセッションが、ウェブセッション検索部206が検索したウェブセッションに属するものであるか否かを判定する(ステップS206)。ウェブセッション集約部207は、具体的には、検索したウェブセッション内の基準のHTTPセッションの開始時刻から、対象のHTTPセッションの開始時刻までの経過時間が、閾値設定部204が設定した閾値以下であるか否かを判定する。閾値以下の場合、対象のHTTPセッションが当該ウェブセッションへ属すると判定し、対象のHTTPセッションを当該ウェブセッションへ集約する。
図12は、固定閾値に基づいたHTTPセッションの集約の例を示す説明図である。図12では、基準となるHTTPセッションの開始時刻から、固定的な閾値時間内に開始される同一ユーザのHTTPセッションが1つのウェブセッションに集約される。すなわち、図12の例では、HTTPセッション#1〜#2がウェブセッション#1、HTTPセッション#3〜#5がウェブセッション#2、HTTPセッション#6がウェブセッション#3に集約されている。
図13は、確率的閾値に基づいたHTTPセッションの集約の例を示す説明図である。この場合の閾値は、確率的に変化している。図13では、基準となるHTTPセッションの開始時刻から、所定の確率分布に基づいて確率的に設定される閾値時間内で開始される同一ユーザのHTTPセッションが1つのウェブセッションに集約される。すなわち、図13の例では、HTTPセッション#1〜#2がウェブセッション#1、HTTPセッション#3〜#4がウェブセッション#2、HTTPセッション#5〜#6がウェブセッション#3に集約されている。
ウェブセッション集約部207は、対象のHTTPセッションをウェブセッションへ集約すると判定した場合(ステップS207のYES)、ウェブセッションの終了時刻、コンテンツサイズ、HTTPセッション集約数などの情報を更新し、ウェブセッション記憶部205に記憶する(ステップS208)。
すなわち、ウェブセッション集約部207は、集約前のウェブセッションの終了時刻より集約対象であるHTTPセッションの終了時刻の方が遅い場合、集約対象であるHTTPセッションの終了時刻を用いてウェブセッションの終了時刻を更新する。また、ウェブセッション集約部207は、コンテンツサイズを、集約対象であるHTTPセッションのコンテンツサイズ分だけ加算する。また、ウェブセッション集約部207は、HTTPセッションの集約数を1加算する。
ウェブセッション集約部207は、対象のHTTPセッションを当該ウェブセッションへ集約しないと判定した場合(ステップS207のNO)、ウェブセッションを更新せずに終了する。
なお、集約しないと判定されたHTTPセッションは放置されていても良い。その理由は、取得されるログ数は膨大なため、例えばユーザの体感品質を評価するという目的のためには、集約しないと判定されたHTTPセッションを無視したとしても、評価への影響をほとんど無視できるためである。
ウェブセッション集約部207は、ウェブセッション検索部206が複数のウェブセッションを検索した場合、検索された複数のウェブセッションの開始時刻が古い順、もしくは新しい順に上記の集約の判定を行うことができる。いずれの場合も、対象のHTTPセッションは、その開始時刻が、基準となるHTTPセッションの開始時刻からの閾値時間内であるウェブセッションに集約される。なお、ウェブセッション集約部207は、1つのウェブセッションへ集約された対象のHTTPセッションを、さらに別のウェブセッションへ集約することはない。
次に、閾値設定部204による閾値の設定(ステップS204)について、具体的に説明する。閾値設定部204は、閾値を、固定的に、もしくは、所定の確率分布にもとづいて確率的に変動させて、設定することができる。以下では、まず、確率的に設定する方法を説明する。
閾値設定部204は、確率的閾値を設定するための確率分布として、一様分布、ベータ分布、正規分布、ガンマ分布、指数分布、ワイブル分布などの確率分布を用いることができる。確率的閾値の分布は、ユーザの体感品質の主要因であるウェブセッション時間(ウェブセッションの開始時刻から終了時刻までの時間)の統計に影響を及ぼす。実際のウェブセッション時間に近い時間を得るためには、以下の3つの特徴を満足する確率分布であることが好ましい。
まず第1に、確率密度関数が存在し定義域において連続な確率分布であることである。この特徴により、確率分布は滑らかな累積分布となるため、ウェブセッション時間の分布が歪んだ形状となることを抑制することができる。上記に列挙した確率分布はこの性質を有する。
第2に、確率密度関数がコンパクト・サポート(有限の台)を持つ、すなわち、確率変数の取る値の集合(台)が有限な確率分布であることである。この特徴は、閾値の分布範囲が有界閉集合となることを保証する。このため、閾値が過大になることを防止することができる。例えば、正規分布はコンパクト・サポートを持たないため、閾値選択の可能性は無限大まで広がる。このため、閾値が過大になってしまうと、当該閾値によるウェブセッションばかりに集約してしまうことになり、正確なウェブセッション時間が得られにくくなる。
一方、コンパクト・サポートを持たない確率分布で閾値を選択し、閾値が過大となった場合には再度閾値を選択し直すという方法を用いてもよい。但しこの場合、閾値が元の確率分布に従わず、当該閾値の確率分布が不連続になるなどの好ましくない状況が生じる場合もある。
第3に、確率密度関数がサポート(台)の端点で0に収束する確率分布であることである。閾値の分布がコンパクト・サポートを有する場合でも、一様分布のようにサポートの端点で0に収束しない場合、サポートの端点においてウェブセッション時間の分布が歪むことになる。サポート端点で0に収束する確率分布を選べば、これを防ぐことができる。この確率分布としては、例えば、後述する図5のベータ分布などが好適であるが、ベータ分布には限定されない。
なお、正規分布のように、端点で真に0にはならずに、端点で0に漸近している分布の場合、端点で確率密度分布の最大値(ピーク)の1/10以下であれば、分布範囲の端点における不連続性をほぼ排除することができる。この結果、ウェブセッション時間のほぼ滑らかな確率密度分布が得られることから、端点では実質的に0と見なしてもよい。なお、端点で最大値の1/100以下であればさらに好ましい。
図4は、実際のウェブセッション時間の確率密度の例を示す説明図である。また、図5は、図4の実際のウェブセッション時間の確率密度の例に対して、通信セッションログ解析装置2により得られる、閾値の設定の仕方に対応したウェブセッション時間の確率密度を示す説明図である。図5では、閾値の設定の仕方として、固定値の場合、一様分布の場合、ベータ分布の場合を挙げている。
固定値の場合、閾値として1秒(期待値は1秒)である例を示す。一様分布の場合、確率分布が0から2秒までの一様分布(期待値は1秒)である例を示す。ベータ分布の場合、サポートが長さ3.5秒のベータ分布(期待値は1秒)に従う例を示す。なお、固定値の場合も、期待値での確率が100%の確率分布であると見ることができる。
ここで、期待値は、予め観測された複数のウェブセッション時間を参考にして、ウェブセッションが開始されてからそのウェブセッションの最後のHTTPセッションが送信されるまでの時間を想定して設定することができる。このときに、他のウェブセッションに属するHTTPセッションを誤って同一ウェブセッションに集約することが抑制される時間に設定することが好ましい。また、一度設定した値を、運用状況を観察しながら更新することもできる。
閾値は、確率分布による場合、期待値に対して、ベータ分布であればウェブセッションの集約ごとに設定された値が全体でベータ分布になるようにランダムに設定される。また、一様分布であれば、ウェブセッションの集約ごとに設定された値が全体で一様分布になるようにランダムに設定される。
図5に示すように、閾値が固定値である場合、閾値近傍でウェブセッション時間はピークを持つ。これは、固定された閾値によって、ウェブセッション時間の分布に偏りが発生することを示している。ウェブセッション時間によってユーザの体感品質を評価する際の精度をあまり問わなくても良い場合は、固定された閾値を用いることができる。
また、閾値が一様分布に従う場合、固定値のようなピークは抑制されるが、サポート端点である2秒付近でウェブセッション時間の分布が滑らかでなくなっている。ウェブセッション時間によってユーザの体感品質を評価する際の精度をあまり問わなくても良い場合は、一様分布に従う閾値を用いることができる。そして、この場合は、固定された閾値を用いる場合よりも、高い精度が得られる。
また、閾値がベータ分布に従う場合、ウェブセッション時間は裾野(分布の右方)へ滑らかに繋がる分布となる。これは図4の実際のウェブセッション時間に近い分布となっている。すなわち、ウェブセッション時間によってユーザの体感品質を評価する際に高い精度を求めるためには、ベータ分布に従う閾値を用いることが好ましい。なお、高い精度を求めるためには、閾値が従う確率分布は、ベータ分布には限定されず、上記の第1、第2、第3の3つの特徴を満足する確率分布であることが好ましい。
図3のフローチャートにより、各HTTPセッションは属するべきウェブセッションに集約される。そして、各HTTPセッションが集約されたウェブセッションは、ウェブセッション記憶部205に保存される。次に、集約されたウェブセッションのフィルタリング方法について説明する。
図6は、本実施形態の通信セッションログ解析装置2のフィルタリング動作を示すフローチャートである。図6のフローチャートは、フィルタリング部210がウェブセッション記憶部205を検索し、ウェブセッション開始時刻から閾値時間を経過済みのウェブセッションが検索される度に開始となる。
フィルタリング部210は、ウェブセッション記憶部205に格納されたウェブセッションに対して、予め取得されたウェブサイトの構成に関する統計情報に基づく統計的検定を行うことにより、ウェブセッションの構成の妥当性を判定する。さらに、妥当でないと判定したウェブセッションを削除する。
すなわち、本フローチャートの統計的検定のための事前準備として、統計情報取得部208は、ウェブサイトの構成に関する統計情報を複数のウェブサイトから予め取得する。ウェブサイトの構成に関する統計情報としては、ハイパーリンク数やコンテンツ数やコンテンツサイズ等の統計量(データ数、平均値、標準偏差、歪度、尖度など)、確率密度関数、累積分布関数などが挙げられる。なお、ここで取得されるウェブサイトの構成に関する統計情報は、通信セッションログでも有するものとする。例えば、統計情報としてハイパーリンク数を選択した場合、通信セッションログでもハイパーリンク数の情報を有するようにすればよい。
取得された統計情報は、統計情報記憶部209に格納される。
ここでは、統計情報の例として、ウェブサイトのハイパーリンク数、すなわち、あるウェブサイトから遷移可能なウェブサイトの数を挙げて、図6のフローチャートを説明する。
フローチャートが開始となると、まず、フィルタリング部210は、統計情報記憶部209に格納されているウェブサイトの構成に関する統計情報であるウェブサイトごとのハイパーリンク数の下限値と上限値を算出する(ステップS211)。
次に、フィルタリング部210は、対象となるウェブセッションのハイパーリンク数が、下限値≦ウェブセッションのハイパーリンク数≦上限値、であるか否かを判定する(ステップS212)。
ステップS212がYESの場合、フィルタリング部210は、対象となるウェブセッションの構成は妥当と判定し、終了する。また、ステップS212がNOの場合、フィルタリング部210は、ウェブセッションの構成は妥当でないと判定し、対象となるウェブセッションを削除して(ステップS213)、終了する。
以上のようにして、フィルタリング部210は、妥当と判定されるウェブセッションを抽出し、フィルタリング後ウェブセッション記憶部211に保存することができる。
なお、フィルタリング部210は、妥当と判定したウェブセッションと妥当でないと判定したウェブセッションとを区別できるようにして、双方ともフィルタリング後ウェブセッション記憶部211に保存するようにしてもよい。区別する方法としては、例えば、異なる識別子を付与する、もしくは別々のフォルダに格納するなどが可能である。
次に、統計的検定を用いたフィルタリング方法について具体的に説明する。統計的検定は次の手順で実施される。すなわち、(1)仮説を設定し、(2)棄却域を設定し、(3)帰無仮説が棄却できるかどうかを検定する。以下では、下側と上側の片側検定ごとに説明する。
まず、下側の片側検定では、本来は1つのウェブセッションであるのに、複数のウェブセッションとして誤集約されている場合を、以下のようにして削除することができる。
(1)仮説を以下のように設定する。
帰無仮説H0=集約後のウェブセッションは、単一のウェブセッションを示す。
対立仮説H1=単一のウェブセッションが複数のウェブセッションとして集約されている。
(2)帰無仮説H0の棄却域を設定する。
下側有意水準をある値に設定した際、その下側有意水準に該当するハイパーリンク数が下限値となる。例えば、統計情報として、図7に示すような実際のハイパーリンク数とその確率密度の情報がある場合、図7に基づいて、図8に示すハイパーリンク数とその累積分布の関係が得られる。図8において、下側有意水準を0.2に設定した場合、下限値は70となる。このとき、ハイパーリンク数が70未満の場合が棄却域となる(ステップS211)。
(3)帰無仮説が棄却されるかどうかを検定する。
ウェブセッションに集約されたHTTPセッションのハイパーリンク数が、(2)で示された下限値を下回る場合(ステップS212のNO)、帰無仮説が棄却されるため、対立仮説が採用される。この場合、当該ウェブセッションの集約は妥当でないものと判定され、削除される(ステップS213)。また、ウェブセッションに集約されたHTTPセッションのハイパーリンク数が、(2)で示された下限値以上の場合(ステップS212のYES)、帰無仮説が棄却されないため、帰無仮説が採用される。
次に、上側の片側検定では、本来は複数のウェブセッションであるのに、1つのウェブセッションとして誤集約されている場合を、以下のようにして削除することができる。
(1)仮説を以下のように設定する。
帰無仮説H0=集約後のウェブセッションは、単一のウェブセッションを示す。
対立仮説H1=複数のウェブセッションが単一のウェブセッションとして集約されている。
(2)帰無仮説H0の棄却域を設定する。
上側有意水準をある値に設定した際、その上側有意水準に該当するハイパーリンク数が上限値となる。例えば、図8において、上側有意水準を0.8に設定した場合、上限値は160となる。このとき、ハイパーリンク数が160を上回る場合が棄却域となる(ステップS211)。
(3)帰無仮説が棄却されるかどうかを検定する。
ウェブセッションに集約されたHTTPセッションのハイパーリンク数が、(2)で示された上限値を上回る場合(ステップS212のNO)、帰無仮説が棄却されるため、対立仮説が採用される。この場合、当該ウェブセッションの集約は妥当でないものと判定され、削除される(ステップS213)。また、ウェブセッションに集約されたHTTPセッションのハイパーリンク数が、(2)で示された上限値以下の場合(ステップS212のYES)、帰無仮説が棄却されないため、帰無仮説が採用される。
本来は1つのウェブセッションが複数のウェブセッションとして誤集約されている場合、複数の各ウェブセッションは小規模となるため、そのハイパーリンク数は図8の下限値を下回る可能性が高くなる。また、本来は複数のウェブセッションが1つのウェブセッションとして誤集約されている場合、1つに集約されたウェブセッションは大規模となるため、そのハイパーリンク数は図8の上限値を上回る可能性が高くなる。
よって、以上のように、統計情報としてのハイパーリンク数の上限値と下限値を用い、1つのウェブセッションに集約されたHTTPセッションの合計のハイパーリンク数を統計的検定することによって、誤集約されたウェブセッションを排除する効果が期待される。なお、この効果は、ハイパーリンク数の場合には限定されず、ウェブサイトの構成に関する統計情報であるコンテンツ数やコンテンツサイズ等を用いた場合にも期待される。
図9は、本実施形態の通信セッションログ解析装置2のフィルタリングの効果を示す説明図である。図9の、端末で観測されるウェブセッション時間の真値と、通信セッションログから求めたウェブセッション時間の推定値の関係において、左図は、フィルタリング部210によるフィルタリングが実施されていない場合、右図はフィルタリングが実施された場合を示す。
左図の場合、ウェブセッション時間の真値に比べてウェブセッション時間の推定値が、大幅に小さい領域と大幅に大きい領域とが存在する。この小さい領域は、単一のウェブセッションが複数のウェブセッションとして誤集約されたことが原因と考えられる。また、大きい領域は、複数のウェブセッションが単一のウェブセッションとして誤集約されたことが原因と考えられる。
一方、右図では、ウェブセッション時間の真値に比べてウェブセッション時間の推定値が、大幅に小さい領域と大幅に大きい領域とが存在しない。これは、右図では、フィルタリングにより、単一のウェブセッションが複数のウェブセッションとして誤集約されたものと、複数のウェブセッションが単一のウェブセッションとして誤集約されたものとが削除されているためである。
以上のように、下側と上側の片側検定の双方を用いた両側検定でのフィルタリングにより、本実施形態の通信セッションログ解析装置2は、誤った集約がされているウェブセッションを削除することができる。これにより、通信セッションログ解析装置2の集約結果によって得られるウェブセッション時間と、実際のウェブセッション時間との誤差が抑制される。その結果、ウェブセッション時間を用いることでのユーザの体感品質評価の精度を向上させることができる。
以上のように、本実施形態によれば、ユーザの体感品質を精度良く評価することができるウェブセッション時間の提供を可能とする通信セッションログの集約が可能な通信セッションログ解析装置を提供することができる。
(第3の実施形態)
図10は、本発明の第3の実施形態の通信セッションログ解析装置の構成を示すブロック図である。本実施形態の通信セッションログ解析装置3が、第2の実施形態の通信セッションログ解析装置2と異なるのは、ウェブサイト抽出部312を新たに追加したことである。
通信セッションログ解析装置3のその他の構成要素である通信セッションログ記憶部301、コンテンツタイプ判別部302、ウェブセッション作成部303、閾値設定部304、ウェブセッション記憶部305、ウェブセッション検索部306、ウェブセッション集約部307、統計情報取得部308、統計情報記憶部309、フィルタリング部310、フィルタリング後ウェブセッション記憶部311は、第2の実施形態の通信セッションログ解析装置2と同様である。
ウェブサイト抽出部312は、ウェブセッションの統計的検定を実施する際に、誤集約を検出しにくいウェブサイトを抽出し、このウェブサイトのウェブセッションを統計的検定から削除する。統計的検定されるウェブサイトは誤集約を検出しやすいウェブサイトとなるため、ウェブセッションのフィルタリングの精度を高めることができる。
統計的検定において、誤集約を検出しやすいとは、上側有意水準と下側有意水準をある値で固定したときに、下限値と上限値の幅がより狭いことを意味する。そこで、本実施形態では、ウェブサイトの構成に関する統計量から、誤集約を検出しにくいウェブサイトを抽出し、これらのウェブサイトのウェブセッションを除外する。
本実施形態では、ウェブサイトの構成に関する統計情報が次の4条件のいずれかに該当する場合、誤集約が検出されにくい構成であると判定する。すなわち、(1)データ数が少ない場合、(2)標準偏差が大きい場合、(3)尖度が小さい場合、(4)歪度が0から離れている場合、である。これらには各々閾値が設定され、この閾値を超えることで誤集約が検出されにくいウェブサイトであると判定することができる。
以下に、ウェブサイト抽出部312の動作を、統計情報としてハイパーリンク数を例として、具体的に説明する。
まず、ウェブサイトのハイパーリンク数の統計情報は、ドメイン、すなわちhttp://xxx/aaaのxxxの部分ごとに取得するとする。このとき、統計情報取得部308では、「ドメインxxxのハイパーリンク数の統計情報(標準偏差、尖度、など)」、「ドメインyyyのハイパーリンク数の統計情報(標準偏差、尖度、など)」・・・、のように、ウェブサイトの集合であるドメインごとに統計情報を取得し、統計情報記憶部309に保存する。
次に、端末がウェブサイト(http://xxx/bbb.html)にアクセスした場合、ウェブサイト抽出部312は、通信ログのHTTPセッションを集約したウェブセッションから、アクセス先のウェブサイトを知ることができる。ウェブサイト抽出部312は、アクセス先のウェブサイトのドメインであるxxxに対応する統計情報を統計情報記憶部309から得る。ここで、xxxの統計情報の、データ数、標準偏差、尖度、歪度の4つの値のいずれかが閾値を超えていた場合、当該ウェブセッションを統計的検定から削除する。
以上のウェブサイト抽出部312の動作は、ハイパーリンク数には限定されず、ウェブサイトの構成に関する統計情報であるコンテンツ数やコンテンツサイズ等を用いることもできる。
図11は、本実施形態の通信セッションログ解析装置3のフィルタリング動作を示すフローチャートである。図11のフローチャートは、ウェブサイト抽出部312がウェブセッション記憶部305を検索し、ウェブセッション開始時刻から閾値時間を経過済みのウェブセッションが検索される度に開始となる。
まず、ウェブサイト抽出部312が、当該ウェブセッションのアクセス先のウェブサイトが、統計的検定対象であるか否かを判定する(ステップS310)。
この判定は、前述のように、ウェブサイト抽出部312が、統計情報記憶部309に保存されているウェブセッションのアクセス先のドメインの統計情報を参照する。そして、ウェブサイト抽出部312は、この統計情報が前述の(1)〜(4)の4条件に該当する場合、当該ウェブセッションは統計的検定対象でないと判定し(ステップS310のNO)、当該ウェブセッションを統計的検定対象から削除する(ステップS313)。
一方、ウェブサイト抽出部312は、この統計情報が前述の4条件に該当しない場合、当該ウェブセッションは統計的検定対象であると判定し(ステップS310のYES)、ステップS311に移行する。
以降、ステップS311、S312、S313の動作は、第2の実施形態の図6のフローチャートのステップS211、S212、S213の動作と、各々同様である。
以上のように、本実施形態の通信セッションログ解析装置3は、誤集約を検出しにくいウェブセッションを抽出して削除し、誤集約を検出しやすいウェブセッションに統計的検定を行うことでフィルタリングする。これにより、通信セッションログ解析装置3は、第2の実施形態の通信セッションログ解析装置2に比較して、誤った集約がされているウェブセッションをより精度よく削除することができる。これにより、通信セッションログ解析装置3の集約結果によって得られるウェブセッション時間と、実際のウェブセッション時間との誤差はさらに抑制される。その結果、ウェブセッション時間を用いることでのユーザの体感品質評価の精度をさらに向上させることができる。
以上のように、本実施形態によれば、ユーザの体感品質を精度良く評価することができるウェブセッション時間の提供を可能とする通信セッションログの集約が可能な通信セッションログ解析装置を提供することができる。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する通信セッションログ解析装置において、
1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに集約するウェブセッション集約手段と、
前記閾値を所定の確率分布に基づいて設定する閾値設定手段と、
前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出するフィルタリング手段と、を有する通信セッションログ解析装置。
(付記2)
前記統計的検定の対象外の前記ウェブセッションを前記統計情報に基づいて抽出するウェブサイト抽出手段を有する、付記1記載の通信セッションログ解析装置。
(付記3)
前記ウェブサイト抽出手段は、前記統計的検定の対象外の前記ウェブセッションを削除する、付記2記載の通信セッションログ解析装置。
(付記4)
前記フィルタリング手段は、妥当でないと判定した前記ウェブセッションを削除する、付記1から3の内の1項記載の通信セッションログ解析装置。
(付記5)
前記統計情報は、ハイパーリンク数もしくはコンテンツ数もしくはコンテンツサイズの、データ数もしくは平均値もしくは標準偏差もしくは歪度もしくは尖度もしくは確率密度関数もしくは累積分布関数を含む、付記1から4の内の1項記載の通信セッションログ解析装置。
(付記6)
前記所定の確率分布は、連続でかつコンパクト・サポートを有し、サポート端点で0に収束する確率密度関数を有する、付記1から5の内の1項記載の通信セッションログ解析装置。
(付記7)
通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する通信セッションログ解析方法において、
所定の確率分布に基づいて閾値を設定し、
1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が前記閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに集約し、
前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出する、通信セッションログ解析方法。
(付記8)
前記統計的検定の対象外の前記ウェブセッションを前記統計情報に基づいて抽出する、付記7記載の通信セッションログ解析方法。
(付記9)
前記統計的検定の対象外の前記ウェブセッションを削除する、付記8記載の通信セッションログ解析方法。
(付記10)
妥当でないと判定した前記ウェブセッションを削除する、付記7から9の内の1項記載の通信セッションログ解析方法。
(付記11)
前記統計情報は、ハイパーリンク数もしくはコンテンツ数もしくはコンテンツサイズの、データ数もしくは平均値もしくは標準偏差もしくは歪度もしくは尖度もしくは確率密度関数もしくは累積分布関数を含む、付記7から10の内の1項記載の通信セッションログ解析方法。
(付記12)
前記所定の確率分布は、連続でかつコンパクト・サポートを有し、サポート端点で0に収束する確率密度関数を有する、付記7から11の内の1項記載の通信セッションログ解析方法。
(付記13)
通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する処理を、コンピュータに実行させる通信セッションログ解析プログラムにおいて、
所定の確率分布に基づいて閾値を設定する処理と、
1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が前記閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに帰属させる処理と、
前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出する処理とを、コンピュータに実行させる通信セッションログ解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記14)
前記統計的検定の対象外の前記ウェブセッションを前記統計情報に基づいて抽出する処理を実行させる、付記13記載の通信セッションログ解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記15)
前記統計的検定の対象外の前記ウェブセッションを削除する処理を実行させる、付記14記載の通信セッションログ解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記16)
妥当でないと判定した前記ウェブセッションを削除する処理を実行させる、付記13から15の内の1項記載の通信セッションログ解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記17)
前記統計情報は、ハイパーリンク数もしくはコンテンツ数もしくはコンテンツサイズの、データ数もしくは平均値もしくは標準偏差もしくは歪度もしくは尖度もしくは確率密度関数もしくは累積分布関数を含む、付記13から16の内の1項記載の通信セッションログ解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記18)
前記所定の確率分布は、連続でかつコンパクト・サポートを有し、サポート端点で0に収束する確率密度関数を有する、付記13から17の内の1項記載の通信セッションログ解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2016年11月15日に出願された日本出願特願2016−222395を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1、2、3 通信セッションログ解析装置
11 ウェブセッション集約手段
12 閾値設定手段
13 フィルタリング手段
201、301 通信セッションログ記憶部
202、302 コンテンツタイプ判別部
203、303 ウェブセッション作成部
204、304 閾値設定部
205、305 ウェブセッション記憶部
206、306 ウェブセッション検索部
207、307 ウェブセッション集約部
208、308 統計情報取得部
209、309 統計情報記憶部
210、310 フィルタリング部
211、311 フィルタリング後ウェブセッション記憶部
312 ウェブサイト抽出部

Claims (12)

  1. 通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する通信セッションログ解析装置において、
    1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに集約するウェブセッション集約手段と、
    前記閾値を所定の確率分布に基づいて設定する閾値設定手段と、
    前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出するフィルタリング手段と、を有する通信セッションログ解析装置。
  2. 前記統計的検定の対象外の前記ウェブセッションを前記統計情報に基づいて抽出するウェブサイト抽出手段を有する、請求項1記載の通信セッションログ解析装置。
  3. 前記ウェブサイト抽出手段は、前記統計的検定の対象外の前記ウェブセッションを削除する、請求項2記載の通信セッションログ解析装置。
  4. 前記フィルタリング手段は、妥当でないと判定した前記ウェブセッションを削除する、請求項1から3の内の1項記載の通信セッションログ解析装置。
  5. 前記統計情報は、ハイパーリンク数もしくはコンテンツ数もしくはコンテンツサイズの、データ数もしくは平均値もしくは標準偏差もしくは歪度もしくは尖度もしくは確率密度関数もしくは累積分布関数を含む、請求項1から4の内の1項記載の通信セッションログ解析装置。
  6. 前記所定の確率分布は、連続でかつコンパクト・サポートを有し、サポート端点で0に収束する確率密度関数を有する、請求項1から5の内の1項記載の通信セッションログ解析装置。
  7. 通信セッションログに基づいて、1つのウェブサイトを閲覧するために必要な複数の通信セッションの集まりであるウェブセッションに関する情報を更新する通信セッションログ解析方法において、
    所定の確率分布に基づいて閾値を設定し、
    1つの通信セッションのセッション情報を取得し、基準の通信セッションの開始時刻から前記1つの通信セッションの開始時刻までの経過時間が前記閾値以下である場合に、前記1つの通信セッションを前記基準の通信セッションと同じ前記ウェブセッションに集約し、
    前記ウェブサイトの構成に関する統計情報に基づく統計的検定で前記ウェブセッションの妥当性を判定し、妥当と判定した前記ウェブセッションを抽出する、通信セッションログ解析方法。
  8. 前記統計的検定の対象外の前記ウェブセッションを前記統計情報に基づいて抽出する、請求項7記載の通信セッションログ解析方法。
  9. 前記統計的検定の対象外の前記ウェブセッションを削除する、請求項8記載の通信セッションログ解析方法。
  10. 妥当でないと判定した前記ウェブセッションを削除する、請求項7から9の内の1項記載の通信セッションログ解析方法。
  11. 前記統計情報は、ハイパーリンク数もしくはコンテンツ数もしくはコンテンツサイズの、データ数もしくは平均値もしくは標準偏差もしくは歪度もしくは尖度もしくは確率密度関数もしくは累積分布関数を含む、請求項7から10の内の1項記載の通信セッションログ解析方法。
  12. 前記所定の確率分布は、連続でかつコンパクト・サポートを有し、サポート端点で0に収束する確率密度関数を有する、請求項7から11の内の1項記載の通信セッションログ解析方法。
JP2018551604A 2016-11-15 2017-11-13 通信セッションログ解析装置、方法 Active JP6721057B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016222395 2016-11-15
JP2016222395 2016-11-15
PCT/JP2017/040673 WO2018092698A1 (ja) 2016-11-15 2017-11-13 通信セッションログ解析装置、方法および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2018092698A1 JPWO2018092698A1 (ja) 2019-08-08
JP6721057B2 true JP6721057B2 (ja) 2020-07-08

Family

ID=62146394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018551604A Active JP6721057B2 (ja) 2016-11-15 2017-11-13 通信セッションログ解析装置、方法

Country Status (3)

Country Link
US (1) US10868873B2 (ja)
JP (1) JP6721057B2 (ja)
WO (1) WO2018092698A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580215B (zh) * 2018-06-08 2022-10-25 西安邮电大学 一种基于用户会话的Web测试用例约简优化方法
JP6845187B2 (ja) * 2018-06-18 2021-03-17 日本電信電話株式会社 品質推定装置、品質推定方法及びプログラム
KR102291557B1 (ko) * 2018-07-03 2021-08-19 네이버 주식회사 사용자 행동 분석 장치 및 사용자 행동 분석 방법
US20220138257A1 (en) * 2020-11-04 2022-05-05 GlassBox Ltd. System and method for journey recording
CN113448818B (zh) * 2021-07-01 2023-01-24 山东浪潮通软信息科技有限公司 一种基于概率的日志跟踪方法、设备及介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6535916B1 (en) * 1999-10-28 2003-03-18 International Business Machines Corporation Systems, methods and computer program products for linking transactions by multiple web site servers to web site visitors
AU2002235147A1 (en) * 2000-11-30 2002-06-11 Webtone Technologies, Inc. Web session collaboration
US8346709B2 (en) * 2009-02-05 2013-01-01 Google Inc. Determining conversion probability using session metrics
US20100306224A1 (en) * 2009-06-02 2010-12-02 Yahoo! Inc. Online Measurement of User Satisfaction Using Long Duration Clicks
US20130067109A1 (en) * 2011-09-12 2013-03-14 Tektronix, Inc. Monitoring Over-the-Top Adaptive Video Streaming
EP2605480B1 (en) * 2011-12-15 2014-06-04 Mitsubishi Electric R&D Centre Europe B.V. Apparatus and method for HTTP analysis
CN102752792B (zh) * 2011-12-26 2015-08-19 华为技术有限公司 监测移动终端上网业务质量的方法、设备及系统
US8832265B2 (en) * 2012-05-01 2014-09-09 International Business Machines Corporation Automated analysis system for modeling online business behavior and detecting outliers
US9105035B2 (en) * 2012-06-25 2015-08-11 International Business Machines Corporation Method and apparatus for customer experience segmentation based on a web session event variation
JP6347510B2 (ja) * 2014-03-31 2018-06-27 Kddi株式会社 通信行動分析装置およびユーザ体感品質推定方法
US10742758B2 (en) * 2016-03-16 2020-08-11 Nec Corporation Communication analysis device, communication analysis method, and program recording medium

Also Published As

Publication number Publication date
JPWO2018092698A1 (ja) 2019-08-08
US20190281122A1 (en) 2019-09-12
US10868873B2 (en) 2020-12-15
WO2018092698A1 (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
JP6721057B2 (ja) 通信セッションログ解析装置、方法
US10243967B2 (en) Method, apparatus and system for detecting fraudulant software promotion
JP6823265B2 (ja) 分析装置、分析システム、分析方法および分析プログラム
CN108667766B (zh) 文件探测方法及文件探测装置
CN111258956A (zh) 一种面向远端海量数据文件预读的方法及设备
CN116881156A (zh) 一种自动化测试方法、装置、设备及存储介质
KR101212457B1 (ko) 웹페이지 접속시간 및 방문도에 기반한 웹검색 방법 및 웹검색 시스템
WO2015165230A1 (zh) 一种社交消息的监测方法及装置
JP7003909B2 (ja) 通信解析装置、通信解析方法およびコンピュータプログラム
CN108011936B (zh) 用于推送信息的方法和装置
CN105989019B (zh) 一种清洗数据的方法及装置
CN108574610B (zh) 一种压力测试方法、装置、电子设备及介质
CN115712569A (zh) 一种流量回放的方法、装置、电子设备及存储介质
KR101589914B1 (ko) 실시간 웹 사이트 성능 측정 방법 및 시스템
CN113031995B (zh) 一种更新规则的方法、装置、存储介质以及电子设备
CN115509851A (zh) 页面监控方法、装置及设备
CN106611010B (zh) 网页加载速度的确定方法和装置
US20150334199A1 (en) Method enabling a network monitoring system to non-intrusively assess quality of user experience during the loading of a webpage
JP2007293520A (ja) 情報処理装置および情報処理プログラム
CN107451160B (zh) 一种页面预读方法及装置
WO2022222665A1 (zh) 一种请求识别方法、装置、设备及存储介质
CN110120898B (zh) 远程网页资源变更监测及有害性检测识别方法
CN113746868B (zh) 一种服务器性能的优化方法、装置、设备及介质
WO2017182522A1 (en) Web tracking method and system
CN111324505B (zh) 一种日志采集方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190409

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200601

R150 Certificate of patent or registration of utility model

Ref document number: 6721057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150