CN111523072A

CN111523072A - 页面访问数据统计方法、装置、电子设备及存储介质

Info

Publication number: CN111523072A
Application number: CN202010313303.4A
Authority: CN
Inventors: 李小海
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-11
Anticipated expiration: 2040-04-20
Also published as: CN111523072B

Abstract

本发明实施例公开了一种页面访问数据统计方法、装置、电子设备及存储介质，所述方法包括：根据页面访问日志数据，确定第一访问路径表；将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表；根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数。本发明实施例由于将第一访问路径表中的访问路径转换成路径标识，因此可以根据路径标识进行路径精确匹配，从而可以使得页面访问情况的查询性能得以大幅提升。

Description

页面访问数据统计方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种页面访问数据统计方法、装置、电子设备及存储介质。

背景技术

漏斗分析模型已经广泛应用于流量监控、产品目标转化等日常数据运营与数据分析的工作中。例如在一款产品服务平台中，直播用户从激活APP开始到花费，一般的用户购物路径为激活APP、注册账号、进入直播间、互动行为和礼物花费五大阶段，漏斗能够展现出各个阶段的转化率，通过漏斗各环节相关数据的比较，能够直观地发现和说明问题所在，从而找到优化方向。

目前在进行漏斗分析时，是将用户浏览页面(URL地址)、点击按钮(Xpath路径)、操作的业务事件(登录、注册事件ID等)等长字符串通过短链处理转换成6位字符串，然后按用户将一天操作记录按时间拼接成长串(一个用户一天一条记录)，然后通过druid自带like和正则表达进行过滤筛选得到每步用户数，其详细实现过程如图2所示。

在数据量大的前提下，现有的解决方案存在如下缺点：查询非常耗时，经常会查询卡死问题，因为CPU一直在计算模糊匹配和正则匹配，迟迟无法释放。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种页面访问数据统计方法、装置、电子设备及存储介质。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种页面访问数据统计方法，包括：

根据页面访问日志数据，确定第一访问路径表；其中，所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系；

将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表；

根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数。

进一步地，将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表，具体包括：

根据各页面之间的访问顺序依赖关系，建立路径标识对应表；其中，所述路径标识对应表中存储有访问路径与路径标识的对应关系，且，与各页面对应的路径标识的取值由各页面之间的访问顺序依赖关系确定；

根据所述路径标识对应表，将第一访问路径表中的访问路径，转换为路径标识，以得到第二访问路径表。

进一步地，所述访问路径为字符串类型的访问路径，所述路径标识为整型的路径标识。

进一步地，所述根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数，具体包括：

将第二访问路径表中各用户标识在一个时间周期内访问的路径标识分别生成一条数据记录，得到第一路径标识记录表；其中，所述第一路径标识记录表中存储有各用户标识在各个时间周期内的数据记录，所述第一路径标识记录表中每一行对应存储一个用户标识的一条数据记录；所述数据记录中存储该用户标识在一个时间周期内访问的全部路径标识；

根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录包含的路径标识，确定各页面的访客数。

进一步地，所述根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录包含的路径标识，确定各页面的访客数，具体包括：

根据第一路径标识记录表中各数据记录包含的路径标识，确定访问页面数量；

根据所述访问页面数量，创建相应数量的存储对象；其中，一个存储对象对应一个页面，且用于存储访问同一页面的用户标识；

根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录是否存在与存储对象对应页面的路径标识，确定与各存储对象对应的页面的访客数。

进一步地，所述存储对象为集合；

相应地，根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录是否存在与存储对象对应页面的路径标识，确定与各存储对象对应的页面的访客数，具体包括：

依次遍历所述第一路径标识记录表中每一条数据记录，若确定所述数据记录中存在与集合对应页面的路径标识，则将路径标识对应的用户标识存入与相应页面对应的集合中；

对各集合中的用户标识进行去重处理，并统计去重处理后各集合中的用户标识的数量；

根据去重处理后各集合中用户标识的数量，确定与各集合对应的页面的访客数。

进一步地，所述存储对象为HyperLogLog对象；

通过MurmurHash将第一路径标识记录表中的字符串类型的用户标识转换成整型用户标识，得到第二路径标识记录表；

依次遍历所述第二路径标识记录表中每一条数据记录，若确定所述数据记录中存在与HyperLogLog对象对应页面的路径标识，则将路径标识对应的整型用户标识存入与相应页面对应的HyperLogLog对象中；

对各HyperLogLog对象中的整型用户标识进行去重处理，并确定去重处理后各HyperLogLog对象的集合值；

根据去重处理后各HyperLogLog对象的集合值，确定与各HyperLogLog对象对应的页面的访客数。

第二方面，本发明实施例还提供了一种页面访问数据统计装置，包括：

第一确定模块，用于根据页面访问日志数据，确定第一访问路径表；其中，所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系；

转换模块，用于将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表；

第二确定模块，用于根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的页面访问数据统计方法。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的页面访问数据统计方法。

由上述技术方案可知，本发明实施例提供的页面访问数据统计方法、装置、电子设备及存储介质，由于将第一访问路径表中的访问路径转换成路径标识，因此可以根据路径标识进行路径精确匹配，从而可以使得页面访问情况的查询性能得以大幅提升，根据测试，采用本发明实施例改进后的方法相较于原来的基于like和正则的模糊匹配方法，耗时仅仅是原来的二十分之一。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1是本发明一实施例提供的页面访问数据统计方法的流程图；

图2是现有技术中通过druid自带like和正则表达进行过滤筛选得到每步用户数的处理过程示意图；

图3是本发明一实施例提供的页面访问数据统计装置的结构示意图；

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本发明一实施例提供的页面访问数据统计方法的流程图，如图1所示，本发明实施例提供的页面访问数据统计方法，具体包括如下内容：

步骤101：根据页面访问日志数据，确定第一访问路径表；其中，所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系；

在本步骤中，根据页面访问日志数据，生成第一访问路径表；其中，所述第一访问路径表中是指存储有各用户标识与各页面的访问路径之间的对应关系的数据表，其中，第一访问路径表中的各页面的访问路径为字符串类型。例如，根据页面访问日志数据，可以将用户浏览页面(URL地址)、点击按钮(Xpath路径)、操作的业务事件(登录、注册事件ID等)作为用户的访问路径。举例来说，通过浏览日志数据，获取不同用户标识的访问页面的原始数据，按照访问页面日志时间的先后顺序，整理原始数据，生成如下面表1所示的第一访问路径表。

表1

用户唯一标识	时间	path
			A	2019-07-24 12:00:00	http://xxx.xxx.xx/aaa
A	2019-07-24 12:01:00	http://xxx.xxx.xx/abb
			A	2019-07-24 12:02:00	http://xxx.xxx.xx/ccc
C	2019-07-24 12:00:00	http://xxx.xxx.xx/aaa
			C	2019-07-24 12:01:00	http://xxx.xxx.xx/abb
D	2019-07-24 12:00:00	http://xxx.xxx.xx/aaa
			A	2019-07-25 12:00:00	http://xxx.xxx.xx/aaa
A	2019-07-25 12:01:00	http://xxx.xxx.xx/abb
			A	2019-07-25 12:02:00	http://xxx.xxx.xx/ccc
A	2019-07-25 12:03:00	http://xxx.xxx.xx/ddd
			B	2019-07-25 12:02:00	http://xxx.xxx.xx/ccc

步骤102：将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表；

在本步骤中，第一访问路径表中的各页面的访问路径的数据类型为字符串类型。为了便于后续进行精确匹配，本步骤需要将第一访问路径表中的字符串类型的访问路径转换成路径标识，从而得到第二访问路径表，也即第二访问路径表中存储的是各用户标识与各页面的路径标识的对应关系。在本实施例中，这里的路径标识可以为整型的路径标识，如1，2，3，4等，也可以为字符型的路径标识，如a，b，c，d等。

举例来说，对于上面表1所示的第一访问路径表，将其中的字符串类型的访问路径转换成整型的路径标识后，可以得到下面表2所示的第二访问路径表。

表2

用户唯一标识	时间	pathID
			A	2019-07-24 12:00:00	1
A	2019-07-24 12:01:00	2
			A	2019-07-24 12:02:00	3
C	2019-07-24 12:00:00	1
			C	2019-07-24 12:01:00	2
D	2019-07-24 12:00:00	1
			A	2019-07-25 12:00:00	1
A	2019-07-25 12:01:00	2
			A	2019-07-25 12:02:00	3
A	2019-07-25 12:03:00	4
			B	2019-07-25 12:02:00	3

步骤103：根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数。

在本步骤中，由于第二访问路径表中存储的是各用户标识与数据类型为整型的路径标识的对应关系，因此，可以采用精确匹配的方式，查询与各页面的路径标识对应的用户标识的数量，进而可以确定各页面的访客数。

在本实施例中，需要说明的是，采用本实施例提供的页面访问数据统计方法在得到各页面的访客数后，可以根据各页面的访客数进行漏斗分析，进而可以展现出各个页面所代表的访问阶段的转化率，进而通过漏斗各环节相关数据的比较，能够直观地发现和说明问题所在，从而找到优化方向。例如，用户购物路径包括激活APP、注册账号、进入直播间、互动行为和礼物花费五个阶段，根据激活页面、注册页面、进入直播间页面、互动页面和礼物花费页面分别对应的访客数，可以分析各个阶段的转化率，通过漏斗各环节相关数据的比较，能够直观地发现和说明问题所在，从而找到优化方向。举例来说，还是上面的例子，用户购物路径包括的五个阶段：激活APP、注册账号、进入直播间、互动行为和礼物花费，且这五个阶段之间存在访问依赖关系：只有先激活APP，才能注册账号，只有注册完账号，才能进入直播间，只有进入直播间，才能进行下一步的互动行为，只有进行互动行为后，才能进行下一步的礼物花费。也即激活APP、注册账号、进入直播间、互动行为和礼物花费这五个阶段是存在顺序访问依赖关系的，那么当需要统计从“进入直播间”这个阶段到“互动行为”这个阶段的转化率时，可以分别获取访问进入直播间页面的访客数和访问互动行为页面的访客数，然后根据这两个页面的访客数计算从“进入直播间”这个阶段到“互动行为”这个阶段的转化率。假设，访问进入直播间页面的访客数为100，而访问互动行为页面的访客数为10，则说明从“进入直播间”这个阶段到“互动行为”这个阶段的转化率为10％，由于该转化率较低，因此，需要对如何提高从“进入直播间”这个阶段到“互动行为”这个阶段的转化率进行优化。

由上述技术方案可知，本发明实施例提供的页面访问数据统计方法，由于将第一访问路径表中的字符串类型的访问路径转换成整型的路径标识，因此可以根据整型的路径标识进行路径精确匹配，从而可以使得页面访问情况的查询性能得以大幅提升，根据测试，采用本发明实施例改进后的方法相较于原来的基于like和正则的模糊匹配方法，耗时仅仅是原来的二十分之一。例如，在相同环境、数据量、步骤前提下，原来like和正则耗时约5分钟，采用本发明实施例改进后的方法耗时约15秒左右。

进一步地，基于上述实施例的内容，在本实施例中，将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表，具体包括：

根据各页面之间的访问顺序依赖关系，建立路径标识对应表；其中，所述路径标识对应表中存储有访问路径与相应的路径标识的对应关系，且，与各页面对应的路径标识的取值由各页面之间的访问顺序依赖关系确定；

根据所述路径标识对应表，将第一访问路径表中的访问路径转，替换为路径标识，以得到第二访问路径表。

在本实施例中，访问路径为字符串类型的访问路径，路径标识为整型的路径标识。

在本实施例中，在进行数据转换之前，先定义如下面表3所示的路径标识对应表(也称path对应表)。

表3

path	pathID	描述
			http://xxx.xxx.xx/aaa	1	首页
http://xxx.xxx.xx/abb	2	登录页面
			http://xxx.xxx.xx/ccc	3	详情页面
http://xxx.xxx.xx/ddd	4	支付页面

由表3可知，对需要进行漏斗统计的页面对应的路径进行ID定义，生成path对应表，将一条path唯一对应于一个int ID，通过该path对应表定义，可以实现将path的长串字符转换为路径标识pathID。

此外，在本实施例中，需要说明的是，与各页面对应的路径标识pathID的取值由各页面之间的访问顺序依赖关系确定。

例如，如表3所示，假设页面访问漏斗有4步：

第一步访问首页；

第二步访问登录页；

第三步访问详情页；

第四步支付页面。

由于各页面的访问顺序为1，2，3，4，因此，可以根据各页面之间的访问顺序依赖关系将各页面的访问路径转换成pathID。例如，通过表3所示的路径标识对应表，可以将首页对应的路径标识pathID取值为1，将登录页面对应的路径标识pathID取值为2，将详情页面对应的路径标识pathID取值为3，将支付页面对应的路径标识pathID取值为4。

在本实施例中，需要说明的是，在表3所示的示例中，访问顺序靠前的页面对应的路径标识要小于访问顺序靠后的页面对应的路径标识，这样便于后期进行无效数据的判断。例如，假设用户访问页面列表中只包含了{3}，而未包含首页1和登录页面2，则可以确定该访问数据为无效数据。这里需要说明的是，与各页面对应的路径标识pathID的取值，并不限定为访问顺序靠前的页面对应的路径标识要小于访问顺序靠后的页面对应的路径标识这一种情况，根据需要还可以设置为其他情况，只要能通过各页面对应的路径标识pathID的取值之间的约束关系体现各页面之间的访问顺序依赖关系即可。

举例来说，在本实施例中，通过浏览日志数据，获取不同用户标识的访问页面的原始数据，按照访问页面日志时间的先后顺序，整理原始数据，得到如下面表4所示的第一访问路径表。

表4

相应地，根据表3中的与path路径对应的pathID，对表4所示的原始数据中的path路径进行转换，得到如下面表5所示的第二访问路径表。

表5

用户唯一标识	维度字段……	时间	pathID
				A	……	2019-07-24 12:00:00	1
A	……	2019-07-24 12:01:00	2
				A	……	2019-07-24 12:02:00	3
C	……	2019-07-24 12:00:00	1
				C	……	2019-07-24 12:01:00	2
D	……	2019-07-24 12:00:00	1
				A	……	2019-07-25 12:00:00	1
A	……	2019-07-25 12:01:00	2
				A	……	2019-07-25 12:02:00	3
A	……	2019-07-25 12:03:00	4
				B	……	2019-07-25 12:02:00	3

在本实施例中，由于根据各页面之间的访问顺序依赖关系预先建立了各页面访问路径与路径标识之间的对应关系，因此，可以根据第一访问路径表中的字符串类型的访问路径，查询建立好的对应关系，进而获取与所述第一访问路径表的访问路径对应的路径标识，从而得到第二访问路径表。

进一步地，基于上述实施例的内容，在本实施例中，所述根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数，具体包括：

在本实施例中，按照用户唯一标识，对进行路径标识转换后的数据，按照一个时间周期为一个组合单位，将同一用户标识同一时间周期的pathID进行数据合并形成为一条数据记录pathIDList。这里的时间周期可以指一小时、一天、两天、一周等。

举例来说，对于表5所示的第二访问路径表，根据用户唯一标识，按照一天为一个组合单位，将同一用户标识同一天的pathID进行数据合并形成为一条数据记录，得到如下面表6所示的第一路径标识记录表。

表6

用户唯一标识	维度字段……	时间	pathIDList
				A	……	2019-07-25	1，2，3，4
B	……	2019-07-25	3
				A	……	2019-07-24	1，2，3
C	……	2019-07-24	1，2
				D	……	2019-07-24	1

在本实施例中，将每个用户在一个时间周期内访问的路径标识分别生成相应的一条数据记录，从而便于后续根据这些数据记录统计一个或多个时间周期内各页面的访客数。此外，将每个用户在一个时间周期内访问的路径标识分别生成相应的一条数据记录，也便于发现和剔除无效访问数据，例如，在本实施例中，以表6中的B用户为例，该用户的pathIDList中只包括了pathID为3的访问数据，对于该条数据，正如前面分析过程可知，由于没有经过首页1和登录页面2，直接就是详情页面3，因此该条数据记录应视为无效访问数据。而对于用户A、C、D，由于其pathIDList中的pathID均为由首页1开始，因此，表示其按照漏斗顺序依次被访问，因此，应被视为有效的访问数据。

在本实施例中，需要说明的是，现有技术在对需要进行漏斗统计的页面进行用户访问数统计时，当漏斗步骤大于1时，需要多次扫描原始数据才能完成数据统计(原因：多天数据需要对每步用户去重，目前解决方案只能每步单独去重)；例如：现在有4步漏斗abc111，abc112，abc113，abc114，则：需要进行如下过程：

第一步查询％abc111％用户访问数UV；

第二步查询％abc111％abc112％用户访问数UV；

第三步查询％abc111％abc112％abc113％用户访问数UV；

第四步查询％abc111％abc112％abc113％abc114％用户访问数UV；

从上面处理过程可以看出，目前方案中漏斗包括几步就需要对原始数据扫描几次。由此可见，现有的解决方案存在需要多次扫描原始数据的问题。为解决该问题，本实施例在进行用户访问数统计时，采用了如下的技术方案，下面将通过具体的实施例对其进行说明。

基于上述实施例的内容，在本实施例中，所述根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录包含的路径标识，确定各页面的访客数，具体包括：

在本实施例中，通过根据所述访问页面数量创建相应数量的存储对象，并使得每个存储对象对应一个页面，用于存储访问同一页面的用户标识，从而可以根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录是否存在与存储对象对应页面的路径标识，确定与各存储对象对应的页面的访客数，由此可见，本实施例使得页面访客数的统计变得简单方便。

基于上述实施例的内容，在本实施例中，根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录是否存在与存储对象对应页面的路径标识，确定与各存储对象对应的页面的访客数，具体可通过如下第一种技术方案①实现。

第一种技术方案①：

在本实施例中，所述存储对象为集合；

在本实施例中，假设页面访问漏斗有4步：

第一步访问首页；

第二步访问登录页；

第三步访问详情页；

第四步支付页面。

假设在本实施例中，将原始访问日志数据经过一系列处理得到的第一路径标识记录表如下面表7所示。

表7

用户唯一标识	时间	pathIDList
			A	2019-07-25	1，2，3，4
B	2019-07-25	3
			A	2019-07-24	1，2，3
C	2019-07-24	1，2
			D	2019-07-24	1

在本实施例中，假设需要计算24日-25日1，2，3，4漏斗转化情况。在本实施例中，可以先通过下面的匹配算法获取每一步比较值index。具体匹配算法的实现过程如下所示：

其中，index＝0表示匹配到第一步，index＝1表示匹配到第二步，以此类推。

由此可知，根据上面的匹配算法可以得到每一步的比较值index。在本实施例中，可以定义index值的起始值为-1，也可以定义为0，定义index起始值为-1表示没有一个pathID可以与漏斗中的步骤匹配。例如，index＝-1表示一步没匹配上；index＝0表示匹配到第一步；index＝1表示匹配到第二步；以此类推。

在本实施例中，根据待进行漏斗分析的页面数量，创建相应数量的集合；其中，一个集合对应一个页面；例如，对于上面表7所示的例子来说，可以创建4个集合set1、set2、set3、set4，具体的页面访客数处理过程包括如下内容：

对于表7中的第一行：

用户A的pathIDList包括1、2、3、4；由于index+1＝4，因此，可以确定index＝3，表示4步都匹配上，此时，分别向集合set1，set2，set3，set4插入用户A的用户标识A。

对于表7中的第二行：

用户B的pathIDList包括3；该pathIDList表示访问数据为未按照漏斗步骤顺序的访问数据，因此应被视为无效的访问数据；因此，可以确定index＝-1，表示什么也没匹配上，此时，对于集合set1，set2，set3，set4不执行数据插入操作。

对于表7中的第三行：

用户A的pathIDList t包括1、2、3；由于index+1＝3，因此，可以确定index＝2，表示3步都匹配上，此时分别向set1，set2，set3插入用户A的用户标识A，这时set1，set2，set3都有A需要去重，所以set1，set2，set3集合中仍只包含1个A标识，集合值仍为1。

对于表7中的第四行：

用户C的pathIDList包括1、2；由于index+1＝2，因此，可以确定index＝1，表示2步都匹配上，此时，分别向set1和set2插入用户C的用户标识C，此时集合值情况为set1为2，set2为2，set3为1，set4为1；

对于表7中的第五行：

用户D的pathIDList包括1；由于index+1＝1，因此，可以确定index＝0，表示1步匹配上，此时，向set1插入用户D的用户标识D，此时集合值情况为set1为3，set2为2，set3为1，set4为1。

因此，最后得到的访客数统计结果为：

第一步-3个访客数；第二步-2个访客数；第三步-1个访客数；第四步-1个访客数。

在本实施例中，需要说明的是，通过本实施例的处理，可以实现一次扫描匹配所有的漏斗步骤，解决了现有技术中通过多次扫描原始数据才能去重的问题，此外，本实施例提供的处理方法，当用户数量较少时，可以快速实现精准的转化率统计。

对于上述所述的第一种技术方案①，对于用户量较少的情况，可以快速实现精准的转化率统计，但是对于海量数据，则较难满足计算要求，为解决该问题，下面实施例引入了一种可以处理大数据情形的第二种技术方案②。

基于上述实施例的内容，在本实施例中，根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录是否存在与存储对象对应页面的路径标识，确定与各存储对象对应的页面的访客数，具体可通过如下第二种技术方案②实现。

第二种技术方案②：

在本实施例中，所述存储对象为HyperLogLog对象；

在本实施例中，通过引入HyperLogLog算法和MurmurHash算法来实现各页面访客数统计的问题，该方法适用于处理海量数据情形。这是因为HyperLogLog算法为一种近似算法，可以在有限空间完成海量数据统计，误差在1％以下，在本实施例中，通过HyperLogLog可以在极少内存中间完成用户的统计和去重。由于根据项目特点在交互查询效率和误差上用户更趋向于系统有较快的交互查询效率，同时误差在1％以下对转化率影响基本可以忽略不计，所以本实施例提供的技术方案2采用了HyperLogLog算法。与HyperLogLog算法相配合使用的是MurmurHash算法，由于MurmurHash算法可以通过hash散列将字符串用户唯一标识转化为int数据，因此可以便于HyperLogLog算法处理。因此，本实施例结合HyperLogLog算法和MurmurHash算法来实现各页面访客数统计的问题。

在本实施例中，使用HyperLogLog算法和MurmurHash算法的处理步骤包括：

根据HyperLogLog算法思路和MurmurHash思路实现HyperLogLog算法对象和MurmurHash对象；例如，根据待进行漏斗分析的页面数量，创建相应数量的HyperLogLog对象；其中，一个HyperLogLog对象对应一个页面；例如，对于上面表7所示的例子来说，可以创建4个HyperLogLog对象hll1，hll2，hll3，hll3，具体的页面访客数处理过程包括如下内容：

对于表7中的第一行：

index＝3表示4步都匹配上，将A通过MurmurHash转化成int I，向hll1，hll2，hll3，hll4插入转化成的int；

对于表7中的第二行：

index＝-1表示什么也没匹配上；

对于表7中的第三行：

index＝2表示3步都匹配上，将A通过MurmurHash转化成int I，向hll1，hll2，hll3，插入I，这时hll1，hll2，hll3都有I，需要去重所以hll1，hll2，hll3集合值仍为1。

对于表7中的第四行：

index＝1表示2步都匹配上，将C通过MurmurHash转化成int J，向hll1，hll2插入J，此时集合值情况为hll1为2，hll2为2，hll3为1，hll4为1。

对于表7中的第五行：

index＝0表示1步匹配上，将D通过MurmurHash转化成int K向hll1插入K，此时集合值情况为hll1为3，hll2为2，hll3为1，hll4为1。

因此，最后得到的访客数统计结果为：

在本实施例中，需要说明的是，由于漏斗各步骤海量用户统计和去重对性能消耗也是非常大的，正是因为如此，本实施例采用HyperLogLog算法来实现，HyperLogLog算法为一种近似算法，它可以在有限空间完成海量数据统计，误差在1％以下。本实施例通过HyperLogLog可以在极少内存中间完成用户的统计和去重，从而完成待进行漏斗分析的各页面的访客数统计情况。

由此可见，结合前面实施例提供的将第一访问路径表中的字符串类型的访问路径转换成整型的路径标识的路径匹配算法，以及本实施例介绍的HyperLogLog算法和MurmurHash算法，可以很好地解决海量数据统计的问题。其中，路径匹配算法可以使得匹配速度得到大幅提升。此外，通过HyperLogLog可以在极少内存中间完成用户的统计和去重。由此可见，本发明实施例一方面可以解决耗时的like和正则字符串匹配的问题，另一方面可以通过HyperLogLog算法和MurmurHash算法实现各步用户UV统计，来解决多次扫描原始数据才能去重的问题。

基于上述实施例的内容，在本实施例中，所述根据第一路径标识记录表中各数据记录包含的路径标识，确定访问页面数量，具体包括：

根据所述第一路径标识记录表中各条数据记录包含的路径标识的数量和各路径标识值，以及，各页面之间的访问顺序依赖关系，去除所述第一路径标识记录表中的无效数据记录；

根据去除无效数据记录后的第一路径标识记录表中各数据记录包含的路径标识，确定访问页面数量。

在本实施例中，将每个用户在一个时间周期内访问的路径标识分别生成相应的一条数据记录，便于后续根据这些数据记录统计一个或多个时间周期内各页面的访客数。此外，将每个用户在一个时间周期内访问的路径标识分别生成相应的一条数据记录，也便于发现和剔除无效访问数据，例如，可以根据所述第一路径标识记录表中各条数据记录包含的路径标识的数量和各路径标识值，以及，各页面之间的访问顺序依赖关系，去除所述第一路径标识记录表中的无效数据记录。在本实施例中，以上面表6中的B用户为例，该用户的pathIDList中只包括了pathID为3的访问数据，对于该条数据，正如前面分析过程可知，由于没有经过首页1和登录页面2，直接就是详情页面3，因此该条数据记录应视为无效访问数据。而对于用户A、C、D，由于其pathIDList中的pathID均为由首页1开始，因此，表示其按照漏斗顺序依次被访问，因此，应被视为有效的访问数据。

图3示出了本发明实施例提供的页面访问数据统计装置的结构示意图。如图3所示，本发明实施例提供的页面访问数据统计装置包括：第一确定模块21、转换模块22和第二确定模块23，其中：

第一确定模块21，用于根据页面访问日志数据，确定第一访问路径表；其中，所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系；

转换模块22，用于将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表；

第二确定模块23，用于根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数。

由于本实施例提供的页面访问数据统计装置，可以用于执行上述实施例提供的页面访问数据统计方法，其工作原理和有益效果类似，此处不再详述。

基于相同的发明构思，本发明又一实施例提供了一种电子设备，参见图4，所述电子设备具体包括如下内容：处理器301、存储器302、通信接口303和通信总线304；

其中，所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信；所述通信接口303用于实现各设备之间的信息传输；

所述处理器301用于调用所述存储器302中的计算机程序，所述处理器执行所述计算机程序时实现上述页面访问数据统计方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：根据页面访问日志数据，确定第一访问路径表；其中，所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系；将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表；根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数。

基于相同的发明构思，本发明又一实施例提供了一种非暂态计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述页面访问数据统计方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：根据页面访问日志数据，确定第一访问路径表；其中，所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系；将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表；根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的页面访问数据统计方法。

此外，在本发明中，诸如“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

此外，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种页面访问数据统计方法，其特征在于，包括：

2.根据权利要求1所述的页面访问数据统计方法，其特征在于，将第一访问路径表中的访问路径转换成路径标识，得到第二访问路径表，具体包括：

3.根据权利要求2所述的页面访问数据统计方法，其特征在于，所述访问路径为字符串类型的访问路径，所述路径标识为整型的路径标识。

4.根据权利要求2所述的页面访问数据统计方法，其特征在于，所述根据第二访问路径表中各用户标识与路径标识的对应关系，确定各页面的访客数，具体包括：

5.根据权利要求4所述的页面访问数据统计方法，其特征在于，所述根据第一路径标识记录表中各用户标识与数据记录的对应关系，以及，各数据记录包含的路径标识，确定各页面的访客数，具体包括：

6.根据权利要求5所述的页面访问数据统计方法，其特征在于，所述存储对象为集合；

7.根据权利要求5所述的页面访问数据统计方法，其特征在于，所述存储对象为HyperLogLog对象；

8.一种页面访问数据统计装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一所述的页面访问数据统计方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的页面访问数据统计方法。