CN105357054B - 网站流量分析方法、装置和电子设备 - Google Patents

网站流量分析方法、装置和电子设备 Download PDF

Info

Publication number
CN105357054B
CN105357054B CN201510843872.9A CN201510843872A CN105357054B CN 105357054 B CN105357054 B CN 105357054B CN 201510843872 A CN201510843872 A CN 201510843872A CN 105357054 B CN105357054 B CN 105357054B
Authority
CN
China
Prior art keywords
website
access
path
domain name
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510843872.9A
Other languages
English (en)
Other versions
CN105357054A (zh
Inventor
汤奇峰
吴盛峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zamplus Technology Development Co Ltd
Original Assignee
Shanghai Zamplus Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zamplus Technology Development Co Ltd filed Critical Shanghai Zamplus Technology Development Co Ltd
Priority to CN201510843872.9A priority Critical patent/CN105357054B/zh
Publication of CN105357054A publication Critical patent/CN105357054A/zh
Application granted granted Critical
Publication of CN105357054B publication Critical patent/CN105357054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0253Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using browsers or web-pages for accessing management information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0273Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using web services for network management, e.g. simple object access protocol [SOAP]
    • H04L41/0293Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using web services for network management, e.g. simple object access protocol [SOAP] for accessing web services by means of a binding identification of the management service or element
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

一种网站流量分析方法、装置和电子设备,网站流量分析方法包括:获取网站访问日志;过滤并处理访问日志,得到具备用户标识信息的网站域名信息;对用户标识信息进行分组,并对分组后的用户标识信息和网站域名信息按照访问时间顺序进行排序;根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径;对所述第一访问路径进行去重处理,得到第二访问路径;筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息得到以所述待分析网站为基点的任一指定路径的访问用户数量。网站流量分析方法通过统计待分析网站的第二访问路径及访问用户数量,有效的分析网站外部流量的来源去向。

Description

网站流量分析方法、装置和电子设备
技术领域
本发明涉及一种数据统计方法,尤其涉及一种网站流量分析方法、装置和电子设备。
背景技术
随着科学技术的快速发展,互联网技术日新月异,互联网数据爆发式地增长。网站流量是指网站的访问量,可以用一个网站一段时间内访问者的数量、访问者所浏览的网页的点击率和平均停留时间等指标来描述。网站流量和客户群体以及他们的需求被越来越多的人重视。网站流量统计分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,掌握网站流量趋势、洞察访客行为习惯。通过网站流量统计分析可以直观的了解网站用户群的大小、地域分布、网站内容的关注度、网站来源、用户在访问过的每个页面上的鼠标事件(点击、滑过)以及关注内容区域分布及所关注时间长短,页面浏览高度、位置等信息,以了解网站当前的访问效果和访问用户行为并发现当前网络活动中存在的问题,并为进一步修正或重新制定网络营销策略提供依据。
现有技术中,网站通过收集用户的访问日志,并从日志中提取用户的访问行为信息进行统计和分析。利用refer信息将用户的访问动作进行串联,并对串联的路径进行规整,最终生成用户访问网站的路径树,并结合各种维度进行分析展现。从这些访问日志中,网站可以根据各种维度统计各类指标来辅助网站运营。其中,关键统计内容就是根据网站访问日志统计用户在网站内的访问路径,从而跟踪用户在网站内的访问情况,发现问题并提升和优化网站的用户体验。
但是,现有技术中的网站流量分析方法是针对网站内的用户访问路径的统计,无法分析网站外部的流量的来源和去向,即进入网站前流量的来源以及离开网站后流量的去向;而且网站用户访问路径是使用网站自身的cookie,即,储存在用户本地终端上的数据或注册账号的ID,所述ID仅限于网站自身对用户的标识,无法有效识别外部流量中的同一用户,无法为网站的流量引入和用户流失提供具备参考意义的数据。
发明内容
本发明解决的技术问题是如何有效的统计和分析网站外部流量。
为解决上述技术问题,本发明实施例提供一种网站流量分析方法,所述网站流量分析方法包括:
获取网站访问日志;
过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息;
对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序;
根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径;
对所述第一访问路径进行去重处理,得到第二访问路径;
筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息得到以所述待分析网站为基点的任一指定路径的访问用户数量。
可选的,所述网站流量分析方法还包括:根据所述待分析网站的所有所述第二访问路径和所述访问用户数量生成分析图表。
可选的,所述过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息包括:过滤所述访问日志,得到所述用户标识信息和所述网站域名信息;并根据黑名单或白名单的方式过滤所述网站域名信息。
可选的,所述过滤所述访问日志后,还得到访问时间值和URL信息。
可选的,所述对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序,包括:首先对所述分组后的所述用户标识信息按照所述访问时间顺序进行排序,再对所述网站域名信息按照所述访问时间顺序进行排序。
可选的,根据设定步骤阈值截取包括所述待分析网站的所有所述第二访问路径,得到第三访问路径,并根据所述第三访问路径得到以所述待分析网站为基点的任一指定路径的所述访问用户数量。
可选的,所述访问日志包括站内访问日志和站外访问日志。
可选的,所述用户标识信息包括以下一种或多种:IP和User Agent、cookie ID信息和设备唯一标识号。
为解决上述技术问题,本发明实施例还公开了一种网站流量分析装置,所述网站流量分析装置包括:
采集单元,获取网站访问日志;
数据处理单元,适于过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息;
排序单元,对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序;
路径切割单元,适于根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径;
路径去重单元,适于对所述第一访问路径进行去重处理,得到第二访问路径;
流量统计单元,适于筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息得到以所述待分析网站为基点的任一指定路径的访问用户数量。
可选的,所述网站流量分析装置,还包括:图表生成单元,适于根据所述待分析网站的所有所述第二访问路径和所述访问用户数量生成分析图表。
为解决上述技术问题,本发明实施例还公开了一种电子设备,所述电子设备包括所述网站流量分析装置。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例通过采集网站访问日志,从而确保能得到与待分析网站外部流量相关的信息;过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息,从而可以减少待处理的数据量,提升数据处理效率,降低数据处理资源的无谓消耗;通过所述用户标识信息可以将不同网站信息进行串联;对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序,根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径,从而可以客观地反映各用户进行网站访问的物理情况;对所述第一访问路径进行去重处理,得到第二访问路径,通过时间阈值切割和去重处理,得到有效的同一用户访问不同网站的路径。筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息得到以所述待分析网站为基点的任一指定路径的访问用户数量。本发明实施例通过以物理数据指示的包含在待分析网站的第二访问路径中的客观存在的相关信息,高效率且低资源消耗地识别待分析网站外部流量中的同一用户,为待分析网站的流量引入和用户流失提供具备参考意义的数据。
附图说明
图1是本发明实施例一种网站流量分析方法流程图;
图2是本发明实施例一种网站流量分析图表示意图;
图3是本发明实施例一种网站流量分析装置结构示意图。
具体实施方式
如背景技术中所述,现有技术中的网站流量分析方法是针对网站内的用户访问路径的统计,无法分析网站外部的流量的来源和去向,即进入网站前流量的来源以及离开网站后流量的去向;而且网站用户访问路径是使用网站自身的cookie,即,储存在用户本地终端上的数据或注册账号的ID,所述ID仅限于网站自身对用户的标识,无法有效识别外部流量中的同一用户,无法为网站的流量引入和用户流失提供具备参考意义的数据。
本发明实施例通过采集网站访问日志,从而确保能得到与待分析网站外部流量相关的信息;过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息,从而可以减少待处理的数据量,提升数据处理效率,降低数据处理资源的无谓消耗;通过所述用户标识信息可以将不同网站信息进行串联;对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序,根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径,从而可以客观地反映各用户进行网站访问的物理情况;对所述第一访问路径进行去重处理,得到第二访问路径,通过时间阈值切割和去重处理,得到有效的同一用户访问不同网站的路径。筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息得到以所述待分析网站为基点的任一指定路径的访问用户数量。本发明实施例通过以物理数据指示的包含在待分析网站的第二访问路径中的客观存在的相关信息,高效率且低资源消耗地识别待分析网站外部流量中的同一用户,为待分析网站的流量引入和用户流失提供具备参考意义的数据。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种网站流量分析方法流程图。
所述网站流量分析方法可以针对任一网站,分析所述网站流量的来源和去向,即用户进入该网站前的流量来源和离开该网站后的流量去向;所述流量包括外部流量和内部流量,外部流量表示与所述网站不同的网站和所述网站之间的流量;内部流量表示与所述网站隶属于同一网站的子频道网站和所述网站之间的流量。在此基础上可以对网站总体的流量情况进行统计分析。
请参照图1,所述网站流量分析方法包括:
步骤S101,获取网站访问日志。
本实施例中,收集网络中所有的用户的网站访问日志。所述用户访问日志对应的网站不作限制,尽可能包括能收集到的所有的与待分析网站同一网站的子频道网站和与待分析网站不同的网站的用户访问日志。
具体可以是利用Cookie信息来获取用户访问日志。
步骤S102,过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息。
本实施例中,过滤所述访问日志,剔除掉访问日志中与本发明实施例的分析方法无关的信息,得到网站域名信息、用户标识信息等关键信息。所述用户标识信息可以包括:IP和User Agent、cookie ID信息或设备唯一标识号等,所述用户标识信息需要满足在全网范围具有唯一性的要求。
还可以根据黑名单或白名单的方式过滤所述网站域名信息,以减少数据的处理量,提升处理效率,降低处理资源的消耗。其中,所述黑名单过滤用于淘汰掉指定的网站域名信息,所述白名单过滤用于锁定需要的网站域名信息。
在此基础上,提取具备用户标识信息的所述网站域名信息。
具体实施中,对访问日志数据进行清洗和过滤,保留需要使用的关键信息字段,可以包括但不限于:过滤访问日志中的图片、脚本文件(Java Script,JS)、多媒体请求、爬虫等网络机器人(robots)协议请求、异常网络互联协议(Internet Protocol,IP)或异常URL请求,保留关键的用户访问网站的日志记录;过滤所有多余的字段或信息,保留用户的唯一标识ID、访问时间戳和访问的具体URL。通过域名提取的方式获取每个URL的域名;并根据需要使用黑名单或白名单的方式对域名进行过滤。用户的唯一标识ID可以访问不同的网站,且具备唯一性。
表1为得到的具备用户标识信息的网站域名信息示例。
用户标识 访问时间 网站域名
ID1 2015-09-06 16:19:27,588 http://www.a.com/detail
ID1 2015-09-06 16:20:31,698 http://www.b.com/detail
ID1 2015-09-06 16:19:28,161 http://www.c.com/detail
ID1 2015-09-06 16:19:38,101 http://www.e.com/detail
ID2 2015-09-06 16:59:39,530 http://www.a.com/detail
ID2 2015-09-06 16:19:33:511 http://www.d.com/detail
表1
如表1所示,行1表示用户标识ID1在2015-09-0616:19:27,588访问了网站http://www.a.com/detail;行2表示用户标识ID1在2015-09-0616:20:31,698访问了网站http://www.b.com/detail;行3表示用户标识ID1在2015-09-0616:19:28,161访问了网站http://www.c.com/detail;行4表示用户标识ID1在2015-09-0616:19:38,101访问了网站http://www.e.com/detail;行5表示用户标识ID2在2015-09-0616:59:39,530访问了网站http://www.a.com/detail;行6表示用户标识ID2在2015-09-0616:19:34,511访问了网http://www.d.com/detail。
可以理解的是,对URL处理到站点级别主要方法就是提取域名,可以提取URL的一级域名,也可以提取URL的完整域名,或者对域名进行分类,使用网站类目级别进行后续的统计分析。其中,提取URL的一级域名,即http://www.a.com/detail和http://item.a.com/detail都提取得到a.com;提取URL的完整域名,即http://www.a.com/detail提取得到www.a.com,http://item.a.com/detail提取得到item.a.com。可以由用户根据实际应用环境进行适应性的调整。
如果提取一级域名,并且配置黑名单包含域名e.com,表2为经过黑名单处理后得到的具备用户标识信息的网站域名信息示例。
用户标识 访问时间 网站域名
ID1 2015-09-06 16:19:27,588 a.com
ID1 2015-09-06 16:20:31,698 b.com
ID1 2015-09-06 16:19:28,161 c.com
ID2 2015-09-06 16:59:39,530 a.com
ID2 2015-09-06 16:19:34,511 d.com
表2
如表2所示,与表1中数据相比,由于用户ID1组中包括网站域名e.com,且网站域名e.com在黑名单中,所以表1中信息经过黑名单过滤步骤后,将网站域名e.com以及相关信息从原数据中删除。
可以理解的是,如果采用白名单过滤,白名单包含域名e.com,则表1中信息经过白名单过滤步骤后得到,用户标识ID1在2015-09-0616:19:38,101访问了网站http://www.e.com/detail。所述白名单和黑名单的过滤方式可以根据用户需求进行选择和调整。
步骤S103,对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序。
本实施例中,首先对所述分组后的所述用户标识信息按照所述访问时间顺序进行排序,再对所述网站域名信息按照所述访问时间顺序进行排序。
本实施例中,对具备同一用户标识信息的用户按照所述访问时间顺序进行排序分组,然后对同一组内的用户访问行为按照所述访问时间顺序进行排序。可以通过采用分布式系统基础架构(Hadoop)的基于Hadoop的分布式计算模型计算平台(MapReduce),使用MapReduce中二次排序的方式针对每个用户ID根据其访问时间的先后顺序对记录进行排序。
表3为排序后的具备用户标识信息的网站域名信息示例。
用户标识 访问时间 网站域名
ID1 2015-09-06 16:19:27,588 a.com
ID1 2015-09-06 16:19:28,161 c.com
ID1 2015-09-06 16:20:31,698 b.com
ID2 2015-09-06 16:19:34,511 d.com
ID2 2015-09-06 16:59:39,530 a.com
表3
如表3所示,根据用户标识信息将用户分为ID1和ID2两组,其中用户ID1的访问时间2015-09-0616:19:27,588早于用户ID2的访问时间2015-09-0616:19:34,511,故用户ID1排在用户ID2之前;对用户ID1组按照访问时间进行排序,依次得到网站域名a.com、c.com和b.com;对用户ID2组按照访问时间进行排序,依次得到网站域名d.com和a.com。
步骤S104,根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径。
本实施例中,同一用户ID访问的网站域名根据时间戳的顺序进行串联后,当两个网站域名的访问时间间隔过大时,用户流量的来源和去向趋势不明显,所以对于时间间隔过长的两次访问进行切割,不作为一个用户的访问路径。
具体实施中,采用网络会话(session)活跃时间间隔的切割标准30分钟,当同一用户ID访问两个网站域名的访问时间间隔超过30分钟时,判定两次访问不在同一个访问路径内,切割为两个访问路径;访问时间间隔在30分钟内时,两次访问在同一个session中,且两次访问具有关联性。
可以理解的是,在实际的应用中,也可以采用任意可实施的更短的时间间隔进行切割,如10分钟,当同一用户ID访问两个网站域名的访问时间间隔超过10分钟时,判定两次访问不在同一个访问路径内,切割为两个访问路径;访问时间间隔在10分钟内时,表示两次访问在同一个session中,且访问的步骤是连贯的,关联性更强。
表4为具备用户标识信息的第一访问路径信息示例。
用户标识 第一访问路径
ID1 a.com--c.com--b.com
ID2 d.com
ID2 a.com
表4
如表4所示,采用30分钟的时间间隔进行切割后,得到用户ID1的第一访问路径为a.com--c.com--b.com;得到用户ID2的第一访问路径为d.com和a.com。
步骤S105,对所述第一访问路径进行去重处理,得到第二访问路径。
本实施例中,同一个用户存在同一时间段内多个不同的网站间来回切换访问的现象,因此串联的网站域名,即第一访问路径中的网站域名可能间隔着重复出现,所以对这类第一访问路径进行网站域名的去重处理,保留最早出现的域名。对第一访问路径a.com=>b.com=>a.com=>c.com=>b.com=>d.com,经过去重处理后,得到第二访问路径:a.com=>b.com=>c.com=>d.com。
步骤S106,筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息得到以待分析网站为基点的任一指定路径的访问用户数量。
本实施例中,根据设定步骤阈值截取包括所述待分析网站的所有所述第二访问路径,得到第三访问路径,并根据所述第三访问路径得到以所述待分析网站为基点的任一指定路径的所述访问用户数量。
本实施例中,根据实际应用的需要,选择待分析网站域名,筛选得到包含待分析域名的所有的第二访问路径;并以待分析网站为中心,向前向后各截取设定步骤阈值数量的网站域名,得到第三访问路径,统计所有以所述待分析网站为基点的第三访问路径的用户数量。
可以理解的是,以待分析网站为中心的前面或后面的网站域名数量少于设定步骤阈值时,则获取能截取的所有域名。所述设定步骤阈值可以由用户根据实际应用环境做适应性的调整。
表5为以a.com为中心网站,设定步骤阈值为3时截取的第三访问路径信息示例。
中心域名 前3步 前2步 前1步 后1步 后2步 后3步 用户数量
a.com c.com e.com 100
a.com d.com f.com e.com h.com 92
a.com d.com b.com e.com f.com 90
a.com b.com d.com e.com h.com f.com 81
表5
如表5所示,以a.com为中心网站统计到的第三访问路径有:c.com=>e.com,用户数量为100;第三访问路径d.com=>f.com=>e.com=>h.com,用户数量为92;第三访问路径d.com=>b.com=>e.com=>f.com,用户数量为90;第三访问路径b.com=>d.com=>e.com=>h.com=>f.com,用户数量为81。
本实施例中,所述的网站流量分析方法还包括:根据所述待分析网站的所有所述第二访问路径和所述访问用户数量生成分析图表。
具体实施中,可以使用第二访问路径和所述访问用户数量生成分析图表,也可以采用第三访问路径和所述访问用户数量生成分析图表。
图2是本发明实施例一种网站流量分析图表示意图。
请参照图2,所述网站流量分析图表是根据表5所示表格数据生成的分析图表。其中,中心圆圈a.com是待分析网站,中心网站;中心圆圈a.com周边的圆圈代表中心网站的流量来源去向网站;用箭头连接各网站,箭头的方向代表流量的流向,箭头的粗细代表该流向的流量大小,即对应访问路径中统计得到的访问用户数量。
本实施例中,访问路径的箭头粗细从大到小依次为:c.com=>e.com、d.com=>f.com=>e.com=>h.com、d.com=>b.com=>e.com=>f.com和b.com=>d.com=>e.com=>h.com=>f.com。
本发明实施例使用分析图表将统计得到的待分析网站流量的来源去向数据展现出来,可以看到待分析网站流量来源最大的网站,及所述网站的前置流量来源情况;还可以看到待分析网站流出的流量去向最多的网站,及后续的访问情况。
本发明实施例通过统计分析和展现网站外部流量的来源去向,可以更有效地分析外部网站来源流量;统计网站流量去向,可以更好地分析用户离开网站后的去向,为分析用户流失,提升用户留存提供参考;同时,分析外部流量的来源去向,可以进一步分析网站与其他网站间的用户交互关系。
图3是本发明实施例一种网站流量分析装置结构示意图。
请参照图3,所述网站流量分析装置30包括:
采集单元301,获取网站访问日志。
数据处理单元302,适于过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息。
排序单元303,对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序。
路径切割单元304,适于根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径。
路径去重单元305,适于对所述第一访问路径进行去重处理,得到第二访问路径。
流量统计单元306,适于筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息得到以所述待分析网站为基点的任一指定路径的访问用户数量。
图表生成单元307,适于根据所述待分析网站的所有所述第二访问路径和所述访问用户数量生成分析图表。
具体实施方式可参考前述相应实施例,此处不再赘述。
本发明实施例还公开了一种电子设备,所述电子设备配置有网站流量分析装置30。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (11)

1.一种网站流量分析方法,其特征在于,包括:
获取网站访问日志;
过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息;
对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序;
根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径;
对所述第一访问路径进行去重处理,得到第二访问路径;
筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息,得到以所述待分析网站为基点的任一指定路径的访问用户数量;
所述获取网站访问日志包括:获取与待分析网站同一网站的子频道网站以及与所述待分析网站不同的网站的访问日志;
所述对所述第一访问路径进行去重处理包括:对于所述第一访问路径中间隔重复出现的域名,保留最早出现的域名。
2.根据权利要求1所述的网站流量分析方法,其特征在于,还包括:根据所述待分析网站的所有所述第二访问路径和所述访问用户数量生成分析图表。
3.根据权利要求1所述的网站流量分析方法,其特征在于,过滤并处理所述访问日志,得到具备所述用户标识信息的所述网站域名信息包括:过滤所述访问日志,得到所述用户标识信息和所述网站域名信息;并根据黑名单或白名单的方式过滤所述网站域名信息。
4.根据权利要求3所述的网站流量分析方法,其特征在于,所述过滤所述访问日志后,还得到访问时间值和URL信息。
5.根据权利要求1所述的网站流量分析方法,其特征在于,对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序,包括:首先对所述分组后的所述用户标识信息按照所述访问时间顺序进行排序,再对所述网站域名信息按照所述访问时间顺序进行排序。
6.根据权利要求1所述的网站流量分析方法,其特征在于,根据设定步骤阈值截取包括所述待分析网站的所有所述第二访问路径,得到第三访问路径,并根据所述第三访问路径得到以所述待分析网站为基点的任一指定路径的所述访问用户数量。
7.根据权利要求1所述的网站流量分析方法,其特征在于,所述访问日志包括站内访问日志和站外访问日志。
8.根据权利要求1所述的网站流量分析方法,其特征在于,所述用户标识信息包括以下一种或多种:IP和User Agent、cookie ID信息和设备唯一标识号。
9.一种网站流量分析装置,其特征在于,包括:
采集单元,获取网站访问日志;
数据处理单元,适于过滤并处理所述访问日志,得到具备用户标识信息的网站域名信息;
排序单元,对所述用户标识信息进行分组,并对分组后的所述用户标识信息和所述网站域名信息按照访问时间顺序进行排序;
路径切割单元,适于根据时间阈值对排序后的所述网站域名信息进行切割,得到所有用户的第一访问路径;
路径去重单元,适于对所述第一访问路径进行去重处理,得到第二访问路径;
流量统计单元,适于筛选出包含待分析网站的所有所述第二访问路径,并根据所述第二访问路径相关信息得到以所述待分析网站为基点的任一指定路径的访问用户数量,
所述采集单元获取与待分析网站同一网站的子频道网站以及与所述待分析网站不同的网站的访问日志;
所述路径去重单元对于所述第一访问路径中间隔重复出现的域名,保留最早出现的域名。
10.根据权利要求9所述的网站流量分析装置,其特征在于,还包括:图表生成单元,适于根据所述待分析网站的所有所述第二访问路径和所述访问用户数量生成分析图表。
11.一种电子设备,包括如权利要求9或10所述的网站流量分析装置。
CN201510843872.9A 2015-11-26 2015-11-26 网站流量分析方法、装置和电子设备 Active CN105357054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510843872.9A CN105357054B (zh) 2015-11-26 2015-11-26 网站流量分析方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510843872.9A CN105357054B (zh) 2015-11-26 2015-11-26 网站流量分析方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN105357054A CN105357054A (zh) 2016-02-24
CN105357054B true CN105357054B (zh) 2019-01-29

Family

ID=55332930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510843872.9A Active CN105357054B (zh) 2015-11-26 2015-11-26 网站流量分析方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN105357054B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105704260B (zh) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 一种互联网流量来源去向的分析方法
CN105763633B (zh) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 一种域名和网站访问行为的关联方法
CN106899426B (zh) * 2016-06-30 2020-07-28 阿里巴巴集团控股有限公司 用户访问数量统计方法及其系统
CN107608979B (zh) * 2016-07-08 2020-09-22 阿里巴巴集团控股有限公司 识别用户潜在求助的知识点的方法及装置
CN106202446B (zh) * 2016-07-14 2020-02-07 刘志军 一种网页信息显示方法和系统
CN106294559B (zh) * 2016-07-26 2019-09-17 北京三快在线科技有限公司 一种应用流量分析方法及装置
CN106302797B (zh) * 2016-08-31 2019-08-13 北京锐安科技有限公司 一种cookie访问去重方法和装置
CN106484819A (zh) * 2016-09-26 2017-03-08 天脉聚源(北京)科技有限公司 一种统计用户量的方法及装置
CN109302297B (zh) * 2017-07-25 2022-03-29 中国电信股份有限公司 网络访问记录的处理方法、装置和计算机可读存储介质
CN107562815B (zh) * 2017-08-16 2022-05-27 深圳市合和舍科技有限公司 一种客户端应用平台的统计方法和装置
CN108427700B (zh) * 2017-09-30 2021-08-24 平安科技(深圳)有限公司 电子装置、用户分群的方法及计算机可读存储介质
CN110020364B (zh) * 2017-11-27 2021-11-30 北京京东尚科信息技术有限公司 确定页面访问的流量来源的方法和装置
CN110149297A (zh) * 2018-02-12 2019-08-20 北京数安鑫云信息技术有限公司 一种路径分析方法和装置
CN108512720B (zh) * 2018-03-02 2021-01-26 杭州迪普科技股份有限公司 一种网站流量的统计方法及装置
CN110830321A (zh) * 2018-08-13 2020-02-21 阿里巴巴集团控股有限公司 网站的检测调度方法及装置、存储介质、系统
CN109617915B (zh) * 2019-01-15 2020-12-15 成都知道创宇信息技术有限公司 一种基于页面访问拓扑的异常用户挖掘方法
US11297075B2 (en) * 2019-07-03 2022-04-05 Microsoft Technology Licensing, Llc Determine suspicious user events using grouped activities
CN112688939B (zh) * 2020-12-23 2023-04-11 上海欣方智能系统有限公司 非法组织信息的确定方法、装置、电子设备及存储介质
CN112929237B (zh) * 2021-02-26 2023-08-01 携程旅游网络技术(上海)有限公司 网站细分流量的分析方法、系统、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364468A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种用户网络行为分析方法、装置和系统
CN103218411B (zh) * 2013-03-26 2016-10-05 亿赞普(北京)科技有限公司 网站关联信息获取方法与装置
CN103823883B (zh) * 2014-03-06 2015-06-10 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统
CN105069087B (zh) * 2015-08-03 2019-03-26 成都康赛信息技术有限公司 基于Web日志数据挖掘的网站优化方法

Also Published As

Publication number Publication date
CN105357054A (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN105357054B (zh) 网站流量分析方法、装置和电子设备
De Choudhury et al. How does the data sampling strategy impact the discovery of information diffusion in social media?
US10530671B2 (en) Methods, systems, and computer readable media for generating and using a web page classification model
CN104426713B (zh) 网络站点访问效果数据的监测方法和装置
CA2769946C (en) A method and system for efficient and exhaustive url categorization
KR101297271B1 (ko) 소셜 네트워크 분석 서비스 방법 및 장치
CN107800591B (zh) 一种统一日志数据的分析方法
CN105610616B (zh) 基于icp活跃度的接入网单个ip平均流量统计方法及系统
CN103631957B (zh) 访客行为数据统计方法及装置
US10679137B2 (en) Systems and methods for determining real-time visitor segments
CN102111453A (zh) 一种提取互联网用户网络行为的方法和系统
CN107103062A (zh) 一种网页推荐方法及系统
CN105224691A (zh) 一种信息处理方法及装置
CN111882367A (zh) 一种通过用户上网行为分析进行在线广告监测跟踪的方法
CN106067879B (zh) 信息的检测方法及装置
Suchacka Analysis of aggregated bot and human traffic on e-commerce site
CN103605736A (zh) 转化数据的处理方法及装置
CN104717079A (zh) 网络流量的数据处理方法及装置
US9973950B2 (en) Technique for data traffic analysis
CN103399968A (zh) 一种微博信息采集方法及系统
CN111882368B (zh) 一种在线广告dpi加密埋点及透传跟踪的方法
CN104539452B (zh) 一种统计Web应用访问地域特性的方法
Liu et al. Identifying website communities in mobile internet based on affinity measurement
CN105491136A (zh) 消息发送方法和装置
Chen et al. Understanding how people consume low quality and extreme news using web traffic data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant