CN109145934A

CN109145934A - 基于日志的用户行为数据处理方法、介质、设备及装置

Info

Publication number: CN109145934A
Application number: CN201711408930.0A
Authority: CN
Inventors: 刘鑫琪; 丛磊
Original assignee: Beijing Shuan Xin Yun Information Technology Co Ltd
Current assignee: Beijing Shuan Xin Yun Information Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2019-01-04
Anticipated expiration: 2037-12-22
Also published as: WO2019120241A1; CN109145934B

Abstract

本文公开了基于日志的用户行为数据处理方法、介质、设备及装置，此方法包括：步骤1，采集日志信息；步骤2，确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；步骤3，将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；步骤4，对每个分组根据分组相应的簇数进行聚类获得聚类结果。本发明通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后，进行聚类，解决高维聚类效果差问题；并且通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类，每个子聚类过程簇数减少，节省计算时间，节省计算所需内存。

Description

基于日志的用户行为数据处理方法、介质、设备及装置

技术领域

本发明涉及互联网技术领域，尤其涉及基于日志的用户行为数据处理方法、介质、设备及装置。

背景技术

随着互联网业务的发展，网络上每天都因用户访问而产生海量的网络服务器(webserver)系统日志。网络服务器(web server)系统日志主要包含：客户端IP地址、客户端用户名称、访问时间、请求uri、请求状态、文件大小、页面链接来源、客户端浏览器等信息。现有技术中使用网络服务器系统日志对用户行为进行分类，但现有的分类方法主要存在以下难点：

一，在无法获知统一资源标识符(Uniform Resource Identifier，URI)和其内容的对应关系的情况下，以及无法获知内容和内容类别的对应关系的情况下，难以使用此类日志进行用户兴趣分类。

二，对web server的特征提取主要为统计型特征，如计数、平均值、标准差等，即为访问行为特征但不包含访问目标，所以会导致聚类成的簇的访问目标不一致，会导致误判。

三，如果使用机器学习聚类方法进行用户行为聚类，参加聚类的数据条数会大幅增加；同时特征工程产生的特征数据维度很高。以最常见的聚类方法KMeans为例，空间复杂度为O(n*m)，其中n为数据条数，m为特征个数，n和m的增加使聚类大量消耗系统内存，计算时间增加，同时例如KMeans不适用于产生过多的簇，以及处理高维数据。这就为聚类方法的计算物理消耗，及聚类结果准确性(例如簇内行为不相似)带来挑战。具体包括：(一)对高维数据直接使用一般聚类方法计算内存使用多，耗时长。(二)遇到大量访问行为方式共存时，KMeans聚类方法需要预判一个大的簇数，如簇数预估较少，否则会导致簇内行为方式不一致；如KMeans方法簇数很大则效果较差。

发明内容

为了解决上述技术问题，本发明实施例提供了基于日志的用户行为数据处理方法、介质、设备及装置。

本发明实施例提供的基于网络访问日志的用户行为数据处理方法，包括：

步骤1，采集日志信息；

步骤2，确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；

步骤3，将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；

步骤4，对每个分组根据分组相应的簇数进行聚类获得聚类结果。

上述方法还具有以下特点：

方法还包括：

步骤5：根据聚类结果确定每个簇对应的用户；

步骤6：判断簇中的用户数量小于预设阈值时，确定簇中的用户为异常用户；或者，判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。

上述方法还具有以下特点：

访问特征为访问主题，访问行为值为用户对访问主题的访问概率值。

上述方法还具有以下特点：

根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值。

上述方法还具有以下特点：

访问特征为用户访问行为统计信息，访问行为值为用户访问行为统计信息的值。

上述方法还具有以下特点：

方法还包括：针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果，将不同的聚类结果组合后对用户进行分类。

上述方法还具有以下特点：

将访问特征划分为N个分组的方法是以下方法中的一种：

三，将属于同一类的访问特征划分为同一组；

四，将访问特征随机划分为N个分组。

本发明实施例提供的计算机可读存储介质上存储有计算机程序，程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述方法的步骤。

本发明实施例提供的基于网络访问日志的用户行为数据处理装置，包括：

采集模块，用于采集日志信息；

提取模块，用于确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；

分组模块，用于将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；

聚类模块，用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。

上述装置还具有以下特点：

此装置还包括：

确定模块，用于根据聚类结果确定每个簇对应的用户；

判断模块，用于判断簇中的用户数量小于预设阈值时，确定簇中的用户为异常用户；或者，用于判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。

上述装置还具有以下特点：

访问特征为访问主题，访问行为值为用户对访问主题的访问概率值；

提取模块，用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值：根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值；

或者，访问特征为用户访问行为统计信息，访问行为值为用户访问行为统计信息的值。

本发明包括以下优点：

一，通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后，进行聚类，解决高维聚类效果差问题。

二，通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类，每个子聚类过程簇数减少，节省计算时间，节省计算所需内存。

三，使用主题方式，使最后簇内访问行为及目标基本相似，提高聚类准确性。

四，通过子聚类过程最后合并为一个聚类结果的方式，最后形成大量簇数的聚类结果，从而解决大量访问行为方式共存的问题。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是实施例中基于日志的用户行为数据处理方法的流程图。

图2是实施例中基于日志的用户行为数据处理装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明实施例中基于日志的用户行为数据处理方法，包括：

步骤101，采集日志信息；

步骤102，确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；

步骤103，将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；

步骤104，对每个分组根据分组相应的簇数进行聚类获得聚类结果。

此方法还包括：

步骤105：根据聚类结果确定每个簇对应的用户。

步骤106：判断簇中的用户数量小于预设阈值时，确定簇中的用户为异常用户；或者，判断判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围，确定簇中的用户为异常用户。

本方法中通过分组和聚类的方式，将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类，解决高维聚类效果差问题，并且使每个子聚类过程簇数减少，节省计算时间，节省计算所需内存。

本方法中的访问特征包括不同类型的访问特征，下面通过三种实现方式进行详细说明。

实现方式一

在此实现方式一中访问特征为访问主题。访问行为值为用户对访问主题的访问概率值。

例如：用户访问的目标为公众网站的资源时，此主题为此公众网站资源的不同类型的主题。具体类型的划分可根据网站提供的资源进行划分。例如公众网站资源的类型包括新闻类、财经类、体育类、房产类、电影类、电视剧类、音乐类、汽车类、科技类。

主题数量过多会使整个计算时间增加。本方法中进行特征分组时将属于同一类的访问特征划分为同一组。例如可以将电影类、电视剧类、音乐类划分为娱乐类。上述分组的方式可以节省计算时间，主题数的减少对结果的影响可以通过后续按照每个用户在不同主题的概率作为向量以减少影响。

进行分组时将属于同一类的访问主题划分为同一组。例如可以将电影类、电视剧类、音乐类划分为娱乐类。也可以随机的将所有主题划分为N个分组。

举例如下：

步骤101中采集日志时针对的用户包括：用户1、用户2、用户3和用户4。用户的数量为4。

步骤102中确定出的访问主题包括新闻类主题、经济类主题、房产类主题、电影类主题、电视剧类主题、音乐类主题、汽车类主题、电子类主题。访问主题数为8。

步骤102中根据日志信息提取各用户针对不同访问特征的访问行为值具体是指：根据日志信息提取不同用户对不同访问主题的访问概率值。具体实现方法如下：

确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识、访问次数构成文档信息。设置文档主题生成模型中的主题数为M。将文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值。

其中，上述用户标识可以包括用户的客户端IP和/或客户端用户名。上述访问信息可以是网络资源标识符或访问网络资源标识符的路径的hash值。文档主题生成模型可以是潜在狄利克雷分布(Latent Dirichlet Allocation，LDA)模型。

举例如下：

执行完步骤102后，获得表1：

表1

步骤103中将访问特征划分为N个分组，例如划分为3组。确定3个分组的簇数均为2。

划分分组时可以采用将属于同一类的访问特征划分为同一组的方法，具体的：将新闻类、经济类和房产类合并为财经分组，将电影类、电视剧类和音乐类合并为娱乐分组，将汽车类和电子类合并为科技分组。

步骤104中对每个分组根据分组相应的簇数进行聚类获得聚类结果。如表2所示。

表2

表2中的值表示用户在相应分组中所属的簇标识。

步骤105中根据聚类结果确定每个簇对应的用户为：

财经分组中，两个簇中的一个簇包括用户1、用户3和用户4，另一簇包括用户2。

娱乐分组中，两个簇中的一个簇包括用户1、用户3和用户4，另一簇包括用户2。

科技分组中，两个簇中的一个簇包括用户1、用户3和用户4，另一簇包括用户2。

实现方式中的使用主题方式，使最后簇内访问行为及目标基本相似，提高聚类准确性。

实现方式二

在此实现方式二中访问特征为用户访问行为统计信息。访问行为值为用户访问行为统计信息的值。

用户访问行为统计信息包括：请求数，平均请求时间，平均请求大小、消息占比等。

举例如下：

步骤101中采集日志时针对的用户包括：用户1、用户2、用户3和用户4，用户的数量为4。

步骤102中确定出的用户访问行为统计信息包括7个，具体为：2xx占比、3xx占比、4xx占比、5xx占比、GET请求占比、POST请求占比、HEAD请求占比。如表3所示：

表3

步骤103中将访问特征划分为N个分组，此处N的值为2，确定3个分组的簇数均为2。将属于同一类的访问特征划分为同一组，具体的，将2xx占比、3xx占比、4xx占比、5xx占比合并为第一分组，将GET请求占比、POST请求占比、HEAD请求占比合并为第二分组。

执行步骤104中的对每个分组根据分组相应的簇数进行聚类获得聚类结果。如表4所示：

表4

	第一分组	第二分组
			用户1	1	1
用户2	2	2
			用户3	1	1
用户4	1	2

步骤105中对每个分组根据分组相应的簇数进行聚类获得聚类结果，根据聚类结果确定每个簇对应的用户的结果为：

第一分组中，两个簇中的一个簇包括用户1、用户3和用户4，另一簇包括用户2。

第二分组中，两个簇中的一个簇包括用户1和用户3，另一簇包括用户2和用户4。

实现方式三

针对不同类别的访问特征执行步骤102、步骤103和步骤104，获得不同的聚类结果，将不同的聚类结果组合后对用户进行分类，如上述实现方式一、二中所示，将获得的表2和表4组合，获得表5。

表5

	财经分组	娱乐分组	科技分组	第一分组	第二分组
						用户1	1	1	1	1	1
用户2	2	2	2	2	2
						用户3	1	1	1	1	1
用户4	1	1	1	1	2

根据表5对用户进行分类后：

第一个分类包括用户1和用户3。

第二个分类包括用户2。

第三个分类包括用户4。

实现方式三中通过子聚类过程最后合并为一个聚类结果的方式，最后形成大量簇数的聚类结果，从而解决大量访问行为方式共存的问题。

本文还提供了一种计算机可读存储介质，存储介质上存储有计算机程序，此程序被处理器执行时实现上述方法的步骤。

本文还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行此程序时实现上述方法的步骤。

如图2所示，本文还提供了一种基于网络访问日志的用户行为数据处理装置，包括：

采集模块，用于采集日志信息；

此装置还包括：

确定模块，用于根据聚类结果确定每个簇对应的用户。

在实现方式一中

在实现方式二中

在实现方式三中

此装置还包括合并模块。在提取模块和分组模块针对不同类别的访问特征处理完成后，将将不同的聚类结果合并，将合并后的结果交由确定模块处理。

综上，本发明包括以下优点：

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于网络访问日志的用户行为数据处理方法，其特征在于，包括：

步骤1，采集日志信息；

2.如权利要求1所述的用户行为数据处理方法，其特征在于，

所述方法还包括：

步骤5：根据所述聚类结果确定每个簇对应的用户；

步骤6：判断所述簇中的用户数量小于预设阈值时，确定所述簇中的用户为异常用户；或者，判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。

3.如权利要求1所述的用户行为数据处理方法，其特征在于，

所述访问特征为访问主题，所述访问行为值为用户对访问主题的访问概率值。

4.如权利要求3所述的用户行为数据处理方法，其特征在于，

所述根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将所述文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值。

5.如权利要求1所述的用户行为数据处理方法，其特征在于，

所述访问特征为用户访问行为统计信息，所述访问行为值为所述用户访问行为统计信息的值。

6.如权利要求1所述的用户行为数据处理方法，其特征在于，

所述方法还包括：针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果，将不同的聚类结果组合后对用户进行分类。

7.如权利要求1所述的用户行为数据处理方法，其特征在于，

所述将访问特征划分为N个分组的方法是以下方法中的一种：

一，将属于同一类的访问特征划分为同一组；

二，将访问特征随机划分为N个分组。

8.一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1至7中任意一项所述方法的步骤。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7中任意一项所述方法的步骤。

10.一种基于网络访问日志的用户行为数据处理装置，其特征在于，包括：

采集模块，用于采集日志信息；

11.如权利要求10所述的用户行为数据处理装置，其特征在于，

还包括：

确定模块，用于根据所述聚类结果确定每个簇对应的用户；

判断模块，用于判断所述簇中的用户数量小于预设阈值时，确定所述簇中的用户为异常用户；或者，用于判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。

12.如权利要求10所述的用户行为数据处理装置，其特征在于，

所述访问特征为访问主题，所述访问行为值为用户对访问主题的访问概率值；

所述提取模块，用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值：根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将所述文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值；

或者，所述访问特征为用户访问行为统计信息，所述访问行为值为所述用户访问行为统计信息的值。