CN106708841A

CN106708841A - 网站访问路径的聚合方法和装置

Info

Publication number: CN106708841A
Application number: CN201510771917.6A
Authority: CN
Inventors: 詹晓强
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-11-12
Filing date: 2015-11-12
Publication date: 2017-05-24
Anticipated expiration: 2035-11-12
Also published as: CN106708841B; WO2017080454A1

Abstract

本申请公开了一种网站访问路径的聚合方法和装置。其中，该方法包括：获取目标用户在第一预设时间段内每次访问目标网站时的访问信息，其中，目标用户为至少一个；获取每条访问信息中包含的一个或多个属性信息，并将每条访问信息中包含的一个或多个属性信息在关系型数据库中按行存储；对每个目标用户对应的目标属性信息进行处理，得到每个目标用户的访问路径；将每条访问路径作为一条记录存储到关系型数据库中；利用关系型数据库中的聚合函数对多条记录进行聚合，得到聚合结果。通过本申请，解决了现有技术中只能对有限长度的访问路径进行聚合，而无法对任意长度的访问路径进行聚合的问题。

Description

网站访问路径的聚合方法和装置

技术领域

本申请涉及计算机领域，具体而言，涉及一种网站访问路径的聚合方法和装置。

背景技术

一般来说，网站的访问日志通常被转化后存储在关系型数据库中，数据库中的每条记录代表用户的一次访问。由于网站的访问路径中包含了用户一系列连续的有目的的动作行为，所以对网站的分析可以通过分析网站的访问路径实现。

现有技术中，通过如下过程得到某个用户对某网站的访问路径：首先找出该用户在一段时间内对该网站的所有访问，然后逐条分析该用户的每次访问，并将每次访问中的路径节点一列一列的存储在关系型数据库中，最后对上述一列一列存储在数据库中的路径节点进行处理，以得到上述用户关于某个网站的访问路径。在得到每个用户关于该网站的访问路径后，分析每一条访问路径，是非常容易的。但是由于用户的访问路径通常是海量的，逐条分析，不仅效率低下，也没法分析出网站的用户群体的访问路径分析出用户行为，这就需要对访问路径进行加工处理，把在一定条件下相同的多个访问路径聚合成一条，以用于对网站进行分析。

但是，由于受到关系型数据库中列数、数据类型等因素的影响，现有技术中只能对有限长度的访问路径进行聚合，而无法对任意长度的访问路径进行聚合。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种网站访问路径的聚合方法和装置，以至少现有技术中只能对有限长度的访问路径进行聚合，而无法对任意长度的访问路径进行聚合的问题。

根据本申请实施例的一个方面，提供了一种网站访问路径的聚合方法，包括：获取目标用户在第一预设时间段内每次访问目标网站时的访问信息，其中，所述目标用户为至少一个；获取每条所述访问信息中包含的一个或多个属性信息，并将每条所述访问信息中包含的一个或多个属性信息在关系型数据库中按行存储，其中，所述属性信息用于表征访问路径的路径节点；对每个所述目标用户对应的目标属性信息进行处理，得到每个所述目标用户的访问路径，其中，每个所述目标属性信息由从每条所述访问信息中获取到的所述一个或多个属性信息中的至少之一组成；将每条所述访问路径作为一条记录存储到所述关系型数据库中；以及利用所述关系型数据库中的聚合函数对多条所述记录进行聚合，得到聚合结果。

进一步地，在获取目标用户在第一预定时间段内每次访问目标网站时的访问信息之前，所述方法还包括：从所述目标网站的访问日志中，获取在第二预设时间段内访问过所述目标网站的用户，作为所述目标用户。

进一步地，获取每条所述访问信息中包含的一个或多个属性信息，并将每条所述访问信息中包含的一个或多个属性信息在关系型数据库中按行存储包括：按照访问信息中包含的访问时间对目标用户Ai的访问信息进行排序，其中，i依次取1至n，n为所述目标用户的数量；从目标用户Ai的排序后的访问信息中，依次获取每条所述访问信息中包含的身份标识信息以及一个或者多个属性信息；将从所述目标用户Ai的每条所述访问信息中获取到的所述身份标识信息以及一个或者多个属性信息按行逐条存储在所述关系型数据库中。

进一步地，每个所述目标用户对应多个所述目标属性信息，其中，对每个所述目标用户对应的目标属性信息进行处理，得到每个所述目标用户的访问路径包括：将目标用户Ai对应的多个目标属性信息中任意相邻的两个所述目标属性信息通过预设符号串联连接，其中，i依次取1至n，n为所述目标用户的数量；将所述目标用户Ai的串联后的目标属性信息作为所述目标用户Ai的访问路径。

进一步地，将目标用户Ai对应的多个目标属性信息中任意相邻的两个所述目标属性信息通过预设符号串联连接包括：获取所述目标用户Ai对应的多个目标属性信息；判断所述目标用户Ai对应的目标属性信息A_i(j-1)与目标属性信息A_i(j)是否相同，其中，j依次取2至m(i)-2，m(i)为所述目标用户Ai对应的目标属性信息的数量；在判断出所述目标属性信息A_i(j-1)与所述目标属性信息A_i(j)不相同的情况下，将所述目标属性信息A_i(j-1)与所述目标属性信息A_i(j)通过所述预设符号连接；在判断出所述目标属性信息A_i(j-1)与所述目标属性信息A_i(j)相同的情况下，删除所述目标属性信息A_i(j-1)，并判断所述目标属性信息A_i(j)与目标属性信息A_i(j+1)是否相同；在判断出所述目标属性信息A_i(j)与所述目标属性信息A_i(j+1)不相同的情况下，将所述目标属性信息A_i(j)与所述目标属性信息A_i(j+1)通过所述预设符号连接。

进一步地，所述属性信息包括来源类型、来源渠道、浏览器类型、操作系统类型和搜索引擎。

根据本申请实施例的另一方面，提供了一种用于网站访问路径的聚合装置，包括：第一获取单元，用于获取目标用户在第一预设时间段内每次访问目标网站时的访问信息，其中，所述目标用户为至少一个；第二获取单元，用于获取每条所述访问信息中包含的一个或多个属性信息，并将每条所述访问信息中包含的一个或多个属性信息在关系型数据库中按行存储，其中，所述属性信息用于表征访问路径的路径节点；处理单元，用于对每个所述目标用户对应的目标属性信息进行处理，得到每个所述目标用户的访问路径，其中，每个所述目标属性信息由从每条所述访问信息中获取到的所述一个或多个属性信息中的至少之一组成；存储单元，用于将每条所述访问路径作为一条记录存储到所述关系型数据库中；以及聚合单元，用于利用所述关系型数据库中的聚合函数对多条所述记录进行聚合，得到聚合结果。

进一步地，所述装置还包括：第三获取单元，用于在获取目标用户在第一预定时间段内每次访问目标网站时的访问信息之前，从所述目标网站的访问日志中，获取在第二预设时间段内访问过所述目标网站的用户，作为所述目标用户。

进一步地，所述第二获取单元包括：排序子单元，用于按照访问信息中包含的访问时间对目标用户Ai的访问信息进行排序，其中，i依次取1至n，n为所述目标用户的数量；获取子单元，用于从目标用户Ai的排序后的访问信息中，依次获取每条所述访问信息中包含的身份标识信息以及一个或者多个属性信息；存储子单元，用于将从所述目标用户Ai的每条所述访问信息中获取到的所述身份标识信息以及一个或者多个属性信息按行逐条存储在所述关系型数据库中。

进一步地，每个所述目标用户对应多个所述目标属性信息，其中，所述处理单元包括：连接子单元，用于将目标用户Ai对应的多个目标属性信息中任意相邻的两个所述目标属性信息通过预设符号串联连接，其中，i依次取1至n，n为所述目标用户的数量；确定子单元，用于将所述目标用户Ai的串联后的目标属性信息作为所述目标用户Ai的访问路径。

在本申请实施例中，采用获取目标用户在第一预设时间段内每次访问所述目标网站时的访问信息，其中，所述目标用户为至少一个；获取每条所述访问信息中包含的一个或多个属性信息，并将每条所述访问信息中包含的一个或多个属性信息在关系型数据库中按行存储，其中，所述属性信息用于表征访问路径的路径节点；对每个所述目标用户对应的目标属性信息进行处理，得到每个所述目标用户的访问路径，其中，每个所述目标属性信息由从每条所述访问信息中获取到的所述一个或多个属性信息中的至少之一组成；以及将每条所述访问路径作为一条记录存储到所述关系型数据库中；以及利用所述关系型数据库中的聚合函数对多条所述记录进行聚合，得到聚合结果。通过获取每个目标用户的访问信息，并将从该目标用户的每条访问信息获取到的属性信息按行存储在关系型数据库中，然后对每个目标用户对应的属性信息进行处理，得到每个目标用户的访问路径，并将得到的多条访问路径按行逐条存储在关系型数据库中，最后利用关系型数据库中的聚合函数对多条访问路径进行聚合得到聚合结果，达到了避免因关系型数据库中列数限制导致无法对长度较长的访问路径进行处理，以至于无法得到用户的访问路径，最终无法对各个用户的访问路径进行聚合的目的，解决了现有技术中只能对有限长度的访问路径进行聚合，而无法对任意长度的访问路径进行聚合的问题，达到了对任意长度的访问路径聚合的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种网站访问路径的聚合方法的流程图；以及

图2是根据本申请实施例的一种网站访问路径的聚合装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种网站访问路径的聚合方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种网站访问路径的聚合方法的流程图，如图1所示，该方法包括步骤S102至步骤S110，具体如下：

步骤S102，获取目标用户在第一预设时间段内每次访问目标网站时的访问信息，其中，目标用户为至少一个。

具体地，可以从目标网站的访问日志中，获取目标用户在第一预设时间段内每次访问目标网站时的访问信息。其中，第一预设时间段可以根据用户需求设置。

具体地，目标网站可以是京东、淘宝、苏宁、唯品会、优酷等任一消费网站或者视频网站。某个目标用户在第一预设时间段内访问多少次目标网站，就可以得到该目标用户的多少条访问信息。

例如：假设目标网站为京东，第一预设时间段为2015年1月1日至2015年9月1日，目标用户有三个，分别为用户01、用户02和用户03，则从京东的访问日志中，获取用户01、用户02和用户03在2015年1月1日至2015年9月1日内每次访问京东时的访问信息。

步骤S104，获取每条访问信息中包含的一个或多个属性信息，并将每条访问信息中包含的一个或多个属性信息在关系型数据库中按行存储，其中，属性信息用于表征访问路径的路径节点。

具体地，每条访问信息中都包含很多个属性信息，例如：来源类型、来源渠道、浏览器类型、操作系统类型和搜索引擎等。则，可以从每条访问信息中包含多个属性信息中获取一个属性信息，也可以从每条访问信息中包含多个属性信息中获取几个属性信息，还可以从每条访问信息中包含多个属性信息中获取全部的属性信息。

需要说明的是，不论是获取一个属性信息还是多个属性信息，从每条访问信息中获取的属性信息的类型以及属性信息的数量都是相同的。

例如，假设步骤S102中获取到的访问信息总共有三条，分别为访问信息A1、访问信息B1和访问信息C1，从每条访问信息中获取的属性信息是搜索引擎和浏览器类型，则从访问信息A1中获取搜索引擎和浏览器类型，得到“baidu”和“IE”、从访问信息B1中获取搜索引擎和浏览器类型，得到“google”和“火狐”，以及从访问信息C1中获取搜索引擎和浏览器类型，得到“baidu”和“搜狗”。

从每条访问信息中都获取一个或者多个属性信息，具体请参照上述举例。

步骤S106，对每个目标用户对应的目标属性信息进行处理，得到每个目标用户的访问路径，其中，每个目标属性信息由从每条访问信息中获取到的一个或多个属性信息中的至少之一组成。

具体地，一个目标属性信息可以由从每条访问信息中获取到的一个属性信息组成，也可以由从每条访问信息中获取到的多个属性信息中的部分属性信息或者全部属性信息组成。一个目标用户有几条访问信息，就会有几个对应的目标属性信息。对于某个目标用户而言，如果步骤S102中获取到该目标用户的5条访问信息，则该目标用户有5个对应的目标属性信息，那么，对上述5个目标属性信息进行处理，来得到该目标用户的访问路径；如果步骤S102中获取到该目标用户的1条访问信息，则该目标用户有1个对应的目标属性信息，那么，对上述1个目标属性信息进行处理，来得到该目标用户的访问路径。

需要说明的是，目标属性信息的总个数与访问信息的总条数是相等的。例如，步骤S102中总共获取到20条访问信息，则就有20个目标属性信息。

当步骤S104中从每条访问信息中获取一个属性信息时，则每个目标属性信息由从该条访问信息获取到的一个属性信息组成；当步骤S104中从每条访问信息中获取两个属性信息时，则每个目标属性信息可以由从该条访问信息获取到的两个属性信息组成，也可以由从该条访问信息获取到的两个属性信息中的任意一个组成。当一个目标属性信息由多个属性信息组成时，上述组成一个目标属性信息的多个属性信息中相邻两个属性信息之间可以通过特殊字符间隔，例如：“|”。还需要说明的是，每个目标属性信息的类型都相同，也即，每个目标属性信息所包含的属性信息的类型都相同。如果某个目标属性信息由属性信息“搜索引擎”组成，则不论哪个目标用户对应的目标属性信息都是由“搜索引擎”组成；如果某个目标属性信息由属性信息“搜索引擎”和“浏览器类型”组成，则不论哪个目标用户对应的目标属性信息都是由“搜索引擎”和“浏览器类型”组成。

步骤S108，将每条访问路径作为一条记录存储到关系型数据库中。

步骤S110，利用关系型数据库中的聚合函数对多条记录进行聚合，得到聚合结果，也就是，利用关系型数据库中的聚合函数对多条记录对应的多个数据(也即，多条访问路径)进行聚合处理，得到聚合结果。

具体地，利用关系型数据库中的聚合函数对每条记录中包含的访问路径在内的一些信息进行聚合处理，得到聚合结果。

在本申请实施例中，通过获取每个目标用户的访问信息，并将从该目标用户的每条访问信息中获取到的属性信息按行存储在关系型数据库中，然后对每个目标用户对应的属性信息进行处理，得到每个目标用户的访问路径，并将得到的多条访问路径按行逐条存储在关系型数据库中，最后利用关系型数据库中的聚合函数对多条访问路径进行聚合得到聚合结果，达到了避免因关系型数据库中列数限制导致无法对长度较长的访问路径进行处理，以至于无法得到用户的访问路径，最终无法对各个用户的访问路径进行聚合的目的，解决了现有技术中只能对有限长度的访问路径进行聚合，而无法对任意长度的访问路径进行聚合的问题，达到了对任意长度的访问路径进行聚合的技术效果。

可选地，在获取目标用户在第一预定时间段内每次访问目标网站时的访问信息之前，方法还包括步骤S101，具体如下：

步骤S101，从目标网站的访问日志中，获取在第二预设时间段内访问过目标网站的用户，作为目标用户，也即，将在第二预设时间段内访问过目标网站的用户作为目标用户。

具体地，第二预设时间段可以根据用户需求设置，例如：2015年9月1日至2015年9月30日。

假设，第二预设时间段为2015年9月1日至2015年9月30日，目标网站为京东，则获取2015年9月1日至2015年9月30日内访问过京东的用户，假设有三个分别是用户01、用户02和用户03，则上述三个用户均为目标用户。

可选地，获取每条访问信息中包含的一个或多个属性信息，并将每条访问信息中包含的一个或多个属性信息在关系型数据库中按行存储包括步骤S1041至步骤S1045，其中：

步骤S1041，按照访问信息中包含的访问时间对目标用户Ai的访问信息进行排序，其中，i依次取1至n，n为目标用户的数量。具体地，可以按照访问时间进行升序排序或者降序排序。

例如，按照访问时间升序排序，目标用户A1的访问访问信息进行排序如下表1：

表1

身份标识信息	访问时间	搜索引擎	浏览器类型	…
					用户A1	2015-1-1	baidu	IE	…
用户A1	2015-1-3	google	IE	…
					用户A1	2015-2-1	bing	搜狗	…

按照访问时间升序排序，目标用户A2的访问访问信息进行排序如下表2：

表2

身份标识信息	访问时间	搜索引擎	浏览器类型	…
					用户A2	2015-1-2	360	火狐	…
用户A2	2015-1-9	baidu	火狐	…
					用户A2	2015-2-11	baidu	UC	…
用户A2	2015-3-9	bing	UC	…
					用户A2	2015-4-11	bing	UC	…

按照访问时间升序排序，目标用户A3的访问访问信息进行排序如下表3：

表3

身份标识信息	访问时间	搜索引擎	浏览器类型	…
					用户A3	2015-1-1	baidu	IE	…
用户A3	2015-7-4	google	火狐	…
					用户A3	2015-8-1	bing	搜狗	…
用户A3	2015-9-1	bing	搜狗	…

需要说明中，上述几个表格中的“…”表示访问信息中包含的其它信息。

步骤S1043，从目标用户Ai的排序后的访问信息中，依次获取每条访问信息中包含的身份标识信息以及一个或者多个属性信息。

步骤S1045，将从目标用户Ai的每条访问信息中获取到的身份标识信息以及一个或者多个属性信息按行逐条存储在关系型数据库中。

具体地，如果从每条访问信息中只获取一个属性信息(例如，搜索引擎)时，对于目标用户A1将下述表4中的内容按行逐条存储在关系型数据库中。

表4

身份标识信息	搜索引擎	排序序号
			用户A1	baidu	1
用户A1	google	2
			用户A1	bing	3

对于目标用户A2将下述表5中的内容按行逐条存储在关系型数据库中。

表5

身份标识信息	搜索引擎	排序序号
			用户A2	360	1
用户A2	baidu	2
			用户A2	baidu	3
用户A2	bing	4
			用户A2	bing	5

对于目标用户A3将下述表6中的内容按行逐条存储在关系型数据库中。

表6

身份标识信息	搜索引擎	排序序号
			用户A3	baidu	1
用户A3	google	2
			用户A3	bing	3
用户A3	bing	4

在本申请实施例中，将某个目标用户的路径节点(也即，获取到的属性信息)按行逐条存储在关系型数据库中，由于是按行进行存储，所以不会受到关系型数据库中列数限制的影响。

可选地，每个目标用户对应多个目标属性信息，其中，对每个目标用户对应的目标属性信息进行处理，得到每个目标用户的访问路径包括步骤S1061至步骤S1063：

步骤S1061，将目标用户Ai对应的多个目标属性信息中任意相邻的两个目标属性信息通过预设符号串联连接，其中，i依次取1至n，n为目标用户的数量。

具体地，当只有一个目标用户时，i等于1；当有多个目标用户时，i依次取1至n。预设符号可以根据用户需求选定，例如，可以为符号“→”。

步骤S1063，将目标用户Ai的串联后的目标属性信息作为目标用户Ai的访问路径。

具体地，可以通过编程实现自定义字符串聚合函数，以便关系型数据库提供扩展的功能来实现对每个目标用户对应的目标属性信息进行处理。

可选地，将目标用户Ai对应的多个目标属性信息中任意相邻的两个目标属性信息通过预设符号串联连接包括步骤S1至步骤S9，具体如下：

步骤S1，获取目标用户Ai对应的多个目标属性信息。

步骤S3，判断目标用户Ai对应的目标属性信息A_i(j-1)与目标属性信息A_i(j)是否相同，其中，j依次取2至m(i)-2，m(i)为目标用户Ai对应的目标属性信息的数量。

步骤S5，在判断出目标属性信息A_i(j-1)与目标属性信息A_i(j)不相同的情况下，将目标属性信息A_i(j-1)与目标属性信息A_i(j)通过预设符号连接。

步骤S7，在判断出目标属性信息A_i(j-1)与目标属性信息A_i(j)相同的情况下，删除目标属性信息A_i(j-1)，并判断目标属性信息A_i(j)与目标属性信息A_i(j+1)是否相同。

步骤S9，在判断出目标属性信息A_i(j)与目标属性信息A_i(j+1)不相同的情况下，将目标属性信息A_i(j)与目标属性信息A_i(j+1)通过预设符号连接。

需要说明的是，如果删除某个目标用户对应的某个目标属性信息并非在关系型数据库中(例如，表4、表5等数据内容中)删除，而是从获取到的该目标用户对应的多个目标属性信息中删除。

具体地，可以对每个目标用户对应的多个目标属性都重复执行步骤S1至步骤S9，来得到每个目标用户的访问路径。并且，在通过执行步骤S1至步骤S7得到目标用户的访问路径时，还可以计算访问路径中每个路径节点的连续次数。

假设，当每个目标属性信息由一个属性信息(例如，搜索引擎)组成时，预设符号为→时，对于上述实施例中的目标用户A1、目标用户A2和目标用户A3通过上述内容可以得到下述表7中所示的访问路径。

表7

需要说明的是，每条访问路径的路径长度由节点连续次数之和得到。节点连续次数是指在一条访问路径中，每个路径节点连续出现的次数。以身份标识信息为用户A2的用户为例说明如下：通过表5可知，身份标识信息为用户A2的用户(也即，上述实施例中的目标用户A2)在用360浏览器访问京东后，又连续两次用baidu浏览器访问京东，后来连续两次用bing浏览器访问京东，根据步骤S1至步骤S7得到目标用户A2的访问路径为360→baidu→bing，上述访问路径中的每个路径节点的连续出现次数分别为1、2、2，在关系型数据库中用每个节点连续次数之间用“|”间隔。

具体地，也可以把路径节点输入到程序中，按照访问路径序号分组，以排序序号的顺序把每个路径节点以及该路径节点对应的信息以串联起来，如Baidu→google→bing→…，并使用聚合函数把每个路径节点的连续出现次数以“|”分割方式串联在一起，依次类推，还可以从访问信息中获取每个路径节点的其它数据信息按照上述方式串联在一起，进而能够保留路径访问节点的需要分析的原始信息，例如每个路径节点的停留时长、两个路径节点彼此间隔时长和每条访问路径的路径耗时等。

通过关系型数据库中原本具有的聚合函数对得到的多条访问路径进行聚合，以表7为例，对表7中访问路径和节点出现次数进行聚合，得到如下表8所示的聚合结果：

表8

通过上述内容可知，本申请所提供的方案不仅可以对任意长度的访问路径聚合，还可以保留(或存储)路径节点的相关数据。

根据本申请实施例，还提供了一种网站访问路径的聚合装置，该网站访问路径的聚合装置用于执行本申请实施例上述内容所提供的网站访问路径的聚合方法，以下对本申请实施例所提供的网站访问路径的聚合装置做具体介绍：

图2是根据本申请实施例的一种网站访问路径的聚合装置的示意图，如图2所示，该聚合装置主要包括第一获取单元21、第二获取单元23、处理单元25、存储单元27和聚合单元29，其中：

第一获取单元21用于获取目标用户在第一预设时间段内每次访问目标网站时的访问信息，其中，目标用户为至少一个。

第二获取单元23用于获取每条访问信息中包含的一个或多个属性信息，并将每条访问信息中包含的一个或多个属性信息在关系型数据库中按行存储，其中，属性信息用于表征访问路径的路径节点。

具体地，每条访问信息中都包含很多个属性信息，例如：来源类型、来源渠道、浏览器类型、操作系统类型和搜索引擎等。则，可以从每条访问信息中包含多个属性信息中获取一个属性信息，也可以从每条访问信息中包含多个属性信息中获取部分属性信息，还可以从每条访问信息中包含多个属性信息中获取全部的属性信息。

处理单元25用于对每个目标用户对应的目标属性信息进行处理，得到每个目标用户的访问路径，其中，每个目标属性信息由从每条访问信息中获取到的一个或多个属性信息中的至少之一组成。

具体地，一个目标属性信息可以由从每条访问信息中获取到的一个属性信息组成，也可以由从每条访问信息中获取到的多个属性信息中的部分属性信息或者全部属性信息组成。一个目标用户有几条访问信息，就会有几个对应的目标属性信息。对于某个目标用户而言，如果第一获取单元21中获取到该目标用户的5条访问信息，则该目标用户有5个对应的目标属性信息，那么，对上述5个目标属性信息进行处理，来得到该目标用户的访问路径；如果第一获取单元21中获取到该目标用户的1条访问信息，则该目标用户有1个对应的目标属性信息，那么，对上述1个目标属性信息进行处理，来得到该目标用户的访问路径。

需要说明的是，目标属性信息的总个数与访问信息的总条数是相等的。例如，第一获取单元21中总共获取到20条访问信息，则就有20个目标属性信息。

当第二获取单元23中从每条访问信息中获取一个属性信息时，则每个目标属性信息由从该条访问信息获取到的一个属性信息组成；当第二获取单元23中从每条访问信息中获取两个属性信息时，则每个目标属性信息可以由从该条访问信息获取到的两个属性信息组成，也可以由从该条访问信息获取到的两个属性信息中的任意一个组成。需要说明的是，当一个目标属性信息由多个属性信息组成时，上述组成一个目标属性信息的多个属性信息中相邻两个属性信息之间可以通过特殊字符间隔，例如：“|”。还需要说明的是，每个目标属性信息的类型都相同，也即，每个目标属性信息所包含的属性信息的类型都相同。如果某个目标属性信息由属性信息“搜索引擎”组成，则不论哪个目标用户对应的目标属性信息都是由“搜索引擎”组成；如果某个目标属性信息由属性信息“搜索引擎”和“浏览器类型”组成，则不论哪个目标用户对应的目标属性信息都是由“搜索引擎”和“浏览器类型”组成。

存储单元27用于将每条访问路径作为一条记录存储到关系型数据库中。

聚合单元29用于利用关系型数据库中的聚合函数对多条记录进行聚合，得到聚合结果，也就是，利用关系型数据库中的聚合函数对多条记录对应的多个数据(也即，多条访问路径)进行聚合处理，得到聚合结果。

可选地，在本申请实施例中，装置还包括：第三获取单元，用于在获取目标用户在第一预定时间段内每次访问目标网站时的访问信息之前，从目标网站的访问日志中，获取在第二预设时间段内访问过目标网站的用户，作为目标用户，也即，将在第二预设时间段内访问过目标网站的用户作为目标用户。

可选地，在本申请实施例中，第二获取单元23包括排序子单元、获取子单元和存储子单元。其中，排序子单元，用于按照访问信息中包含的访问时间对目标用户Ai的访问信息进行排序，其中，i依次取1至n，n为目标用户的数量；获取子单元，用于从目标用户Ai的排序后的访问信息中，依次获取每条访问信息中包含的身份标识信息以及一个或者多个属性信息；存储子单元，用于将从目标用户Ai的每条访问信息中获取到的身份标识信息以及一个或者多个属性信息按行逐条存储在关系型数据库中。

具体地，可以按照访问时间进行升序排序或者降序排序。

可选地，每个目标用户对应多个目标属性信息，处理单元25包括连接子单元和确定子单元，其中：

连接子单元用于将目标用户Ai对应的多个目标属性信息中任意相邻的两个目标属性信息通过预设符号串联连接，其中，i依次取1至n，n为目标用户的数量。具体地，当只有一个目标用户时，i等于1；当有多个目标用户时，i依次取1至n。预设符号可以根据用户需求选定，例如，可以为符号“→”。

确定子单元用于将目标用户Ai的串联后的目标属性信息作为目标用户Ai的访问路径。

可选地，在本申请实施例中，连接子单元包括获取模块、第一判断模块、第一连接模块、第二判断模块和第二连接模块。其中，获取模块用于获取目标用户Ai对应的多个目标属性信息；第一判断模块用于判断目标用户Ai对应的目标属性信息A_i(j-1)与目标属性信息A_i(j)是否相同，其中，j依次取2至m(i)-2，m(i)为目标用户Ai对应的目标属性信息的数量；第一连接模块用于在判断出目标属性信息A_i(j-1)与目标属性信息A_i(j)不相同的情况下，将目标属性信息A_i(j-1)与目标属性信息A_i(j)通过预设符号连接；第二判断模块用于在判断出目标属性信息A_i(j-1)与目标属性信息A_i(j)相同的情况下，删除目标属性信息A_i(j-1)，并判断目标属性信息A_i(j)与目标属性信息A_i(j+1)是否相同；第二连接模块用于在判断出目标属性信息A_i(j)与目标属性信息A_i(j+1)不相同的情况下，将目标属性信息A_i(j)与目标属性信息A_i(j+1)通过预设符号连接。

需要说明的是，如果删除某个目标用户对应的某个目标属性信息并非在关系型数据库中(例如，上述表4、表5等数据内容中)删除，而是从获取到的该目标用户对应的多个目标属性信息中删除。

具体地，可以对每个目标用户对应的多个目标属性都重复调用获取模块、第一判断模块、第一连接模块、第二判断模块和第二连接模块，来得到每个目标用户的访问路径。并且，在通过调用获取模块、第一判断模块、第一连接模块、第二判断模块和第二连接模块得到目标用户的访问路径时，还可以计算访问路径中每个路径节点的连续次数。

所述网站访问路径的聚合装置包括处理器和存储器，上述第一获取单元、第二获取单元、处理单元、存储单元和聚合单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数达到了能够对任意长度的访问路径进行聚合。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取目标用户在第一预设时间段内每次访问所述目标网站时的访问信息，其中，所述目标用户为至少一个；获取每条所述访问信息中包含的一个或多个属性信息，并将每条所述访问信息中包含的一个或多个属性信息在关系型数据库中按行存储，其中，所述属性信息用于表征访问路径的路径节点；对每个所述目标用户对应的目标属性信息进行处理，得到每个所述目标用户的访问路径，其中，每个所述目标属性信息由从每条所述访问信息中获取到的所述一个或多个属性信息中的至少之一组成；将每条所述访问路径作为一条记录存储到所述关系型数据库中；以及利用所述关系型数据库中的聚合函数对多条所述记录进行聚合，得到聚合结果。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种网站访问路径的聚合方法，其特征在于，包括：

获取目标用户在第一预设时间段内每次访问目标网站时的访问信息，其中，所述目标用户为至少一个；

获取每条所述访问信息中包含的一个或多个属性信息，并将每条所述访问信息中包含的一个或多个属性信息在关系型数据库中按行存储，其中，所述属性信息用于表征访问路径的路径节点；

对每个所述目标用户对应的目标属性信息进行处理，得到每个所述目标用户的访问路径，其中，每个所述目标属性信息由从每条所述访问信息中获取到的所述一个或多个属性信息中的至少之一组成；

将每条所述访问路径作为一条记录存储到所述关系型数据库中；以及

利用所述关系型数据库中的聚合函数对多条所述记录进行聚合，得到聚合结果。

2.根据权利要求1所述的方法，其特征在于，在获取目标用户在第一预定时间段内每次访问目标网站时的访问信息之前，所述方法还包括：

从所述目标网站的访问日志中，获取在第二预设时间段内访问过所述目标网站的用户，作为所述目标用户。

3.根据权利要求1所述的方法，其特征在于，获取每条所述访问信息中包含的一个或多个属性信息，并将每条所述访问信息中包含的一个或多个属性信息在关系型数据库中按行存储包括：

按照访问信息中包含的访问时间对目标用户Ai的访问信息进行排序，其中，i依次取1至n，n为所述目标用户的数量；

从目标用户Ai的排序后的访问信息中，依次获取每条所述访问信息中包含的身份标识信息以及一个或者多个属性信息；

将从所述目标用户Ai的每条所述访问信息中获取到的所述身份标识信息以及一个或者多个属性信息按行逐条存储在所述关系型数据库中。

4.根据权利要求1所述的方法，其特征在于，每个所述目标用户对应多个所述目标属性信息，其中，对每个所述目标用户对应的目标属性信息进行处理，得到每个所述目标用户的访问路径包括：

将目标用户Ai对应的多个目标属性信息中任意相邻的两个所述目标属性信息通过预设符号串联连接，其中，i依次取1至n，n为所述目标用户的数量；

将所述目标用户Ai的串联后的目标属性信息作为所述目标用户Ai的访问路径。

5.根据权利要求4所述的方法，其特征在于，将目标用户Ai对应的多个目标属性信息中任意相邻的两个所述目标属性信息通过预设符号串联连接包括：

获取所述目标用户Ai对应的多个目标属性信息；

判断所述目标用户Ai对应的目标属性信息A_i(j-1)与目标属性信息A_i(j)是否相同，其中，j依次取2至m(i)-2，m(i)为所述目标用户Ai对应的目标属性信息的数量；

在判断出所述目标属性信息A_i(j-1)与所述目标属性信息A_i(j)不相同的情况下，将所述目标属性信息A_i(j-1)与所述目标属性信息A_i(j)通过所述预设符号连接；

在判断出所述目标属性信息A_i(j-1)与所述目标属性信息A_i(j)相同的情况下，删除所述目标属性信息A_i(j-1)，并判断所述目标属性信息A_i(j)与目标属性信息A_i(j+1)是否相同；

在判断出所述目标属性信息A_i(j)与所述目标属性信息A_i(j+1)不相同的情况下，将所述目标属性信息A_i(j)与所述目标属性信息A_i(j+1)通过所述预设符号连接。

6.根据权利要求1所述的方法，其特征在于，所述属性信息包括来源类型、来源渠道、浏览器类型、操作系统类型和搜索引擎。

7.一种网站访问路径的聚合装置，其特征在于，包括：

第一获取单元，用于获取目标用户在第一预设时间段内每次访问目标网站时的访问信息，其中，所述目标用户为至少一个；

第二获取单元，用于获取每条所述访问信息中包含的一个或多个属性信息，并将每条所述访问信息中包含的一个或多个属性信息在关系型数据库中按行存储，其中，所述属性信息用于表征访问路径的路径节点；

处理单元，用于对每个所述目标用户对应的目标属性信息进行处理，得到每个所述目标用户的访问路径，其中，每个所述目标属性信息由从每条所述访问信息中获取到的所述一个或多个属性信息中的至少之一组成；

存储单元，用于将每条所述访问路径作为一条记录存储到所述关系型数据库中；以及

聚合单元，用于利用所述关系型数据库中的聚合函数对多条所述记录进行聚合，得到聚合结果。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于在获取目标用户在第一预定时间段内每次访问目标网站时的访问信息之前，从所述目标网站的访问日志中，获取在第二预设时间段内访问过所述目标网站的用户，作为所述目标用户。

9.根据权利要求7所述的装置，其特征在于，所述第二获取单元包括：

排序子单元，用于按照访问信息中包含的访问时间对目标用户Ai的访问信息进行排序，其中，i依次取1至n，n为所述目标用户的数量；

获取子单元，用于从目标用户Ai的排序后的访问信息中，依次获取每条所述访问信息中包含的身份标识信息以及一个或者多个属性信息；

存储子单元，用于将从所述目标用户Ai的每条所述访问信息中获取到的所述身份标识信息以及一个或者多个属性信息按行逐条存储在所述关系型数据库中。

10.根据权利要求7所述的装置，其特征在于，每个所述目标用户对应多个所述目标属性信息，其中，所述处理单元包括：

连接子单元，用于将目标用户Ai对应的多个目标属性信息中任意相邻的两个所述目标属性信息通过预设符号串联连接，其中，i依次取1至n，n为所述目标用户的数量；

确定子单元，用于将所述目标用户Ai的串联后的目标属性信息作为所述目标用户Ai的访问路径。