CN104731937B

CN104731937B - 用户行为数据的处理方法及装置

Info

Publication number: CN104731937B
Application number: CN201510145888.2A
Authority: CN
Inventors: 常明; 陈朝钢; 贾少攀
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2018-05-01
Anticipated expiration: 2035-03-30
Also published as: CN104731937A

Abstract

本发明提供一种用户行为数据的处理方法及装置。本发明实施例通过根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数，进而将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，并根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果，使得能够根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据，由于每个分类器是分别针对不同的统计数据，使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果，从而提高了分类结果的准确率。

Description

用户行为数据的处理方法及装置

【技术领域】

本发明涉及机器学习技术，尤其涉及一种用户行为数据的处理方法及装置。

【背景技术】

在机器学习中，可以利用大量已知的训练样本，构建分类模型即分类器，进而利用所构建的分类器对未知的数据进行评测。分类器可以应用在很多场景，例如，由于因网络作弊而产生的垃圾页面以及垃圾用户行为数据越来越多，严重影响了搜索引擎的检索效率和用户体验，因此，反作弊已经成为搜索引擎所面临的最重要的挑战之一，可以将利用已标注的正常数据和作弊数据，构建一个分类器，以对网络数据进行识别。现有技术中，可以利用所构建的一个分类器，对用户行为数据进行评测，以获得分类结果。

然而，采用单一的分类器，其所评测的用户行为数据的分类结果的准确率不高。

【发明内容】

本发明的多个方面提供一种用户行为数据的处理方法及装置，用以提高分类结果的准确率。

本发明的一方面，提供一种用户行为数据的处理方法，包括：

根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数；

将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；

根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果；

根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，包括：

根据所述M个统计数据中指定统计数据所属的分类区间，获得与所述分类区间对应的一组分类器；

将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器，以获得每个分类器所输出的评测结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据之后，还包括：

根据所述一次过滤的用户行为数据，获取同一用户标识信息所对应的待评测的N个统计数据，N为大于或等于2的整数；

将所述N个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；

根据所述每个分类器所输出的评测结果，获得同一用户标识信息的分类结果；

根据所述同一用户标识信息的分类结果，对所述一次过滤的用户行为数据进行过滤处理，以获得二次过滤的用户行为数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述同一用户标识信息的分类结果，对所述一次过滤的用户行为数据进行过滤处理，以获得二次过滤的用户行为数据之后，还包括：

获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值；

若所述比值大于或等于预先设置的阈值，对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据，进行删除处理，以获得三次过滤的用户行为数据。

根据过滤的用户行为数据，进行用户行为分析，以获得用户行为特征。

本发明的另一方面，提供一种用户行为数据的处理装置，包括：

获取单元，用于根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数；

分类单元，用于将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；

处理单元，用于根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果；

过滤单元，用于根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述分类单元，具体用于

根据所述M个统计数据中指定统计数据所属的分类区间，获得与所述分类区间对应的一组分类器；以及

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，

所述获取单元，还用于

所述分类单元，还用于

所述处理单元，还用于

所述过滤单元，还用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述过滤单元，还用于

获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值；以及

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括分析单元，用于

由上述技术方案可知，本发明实施例通过根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数，进而将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，并根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果，使得能够根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据，由于每个分类器是分别针对不同的统计数据，使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果，从而提高了分类结果的准确率。

另外，采用本发明提供的技术方案，使得用户行为数据的分类结果不再单独依赖于任何一个分类器的评测结果，而是综合考虑M个分类器中每个分类器的评测结果，这样，能够有效提高分类结果的准确率。

另外，采用本发明提供的技术方案，通过从IP地址和用户标识信息这两个维度，对用户行为数据进行过滤处理，能够较为准确地刻画用户行为特征，能够有效提高分类结果的准确率。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的用户行为数据的处理方法的流程示意图；

图2为本发明另一实施例提供的用户行为数据的处理装置的结构示意图；

图3为本发明另一实施例提供的用户行为数据的处理装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的用户行为数据的处理方法的流程示意图，如图1所示。

101、根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数。

102、将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果。

103、根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果。

104、根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据。

需要说明的是，101～104的执行主体可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的分类引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行限定。

这样，通过根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数，进而将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，并根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果，使得能够根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据，由于每个分类器是分别针对不同的统计数据，使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果，从而提高了分类结果的准确率。

本实施例中，部署了多个不同的分类器，每个分类器都具有各自的分类策略，每个分类器的输入参数为不同的统计数据，例如，分类器A的输入参数为统计数据a；分类器B的输入参数为统计数据b和统计数据c；分类器C的输入参数可以为统计数据d，等等。

可选地，在本实施例的一个可能的实现方式中，在101中，待处理的所述用户行为数据可以包括但不限于用户搜索日志和用户点击日志中的至少一项，本实施例对此不进行特别限定。

目前，一些网站会针对特定用户，记录其用户行为。这些记录所得到的数据，就是用户的用户行为数据。

例如，根据注册用户的历史行为，记录该用户的用户行为数据。在这种情况下，需要记录注册用户在登录之后，所产生的历史行为，以形成注册用户的用户行为数据。因此，此时的用户行为数据，前提是需要注册用户进行登录操作。

或者，再例如，根据浏览器用户的历史行为，记录该用户的用户行为数据。在这种情况下，需要记录任何用户在使用同一终端的浏览器之后，所产生的历史行为，以形成浏览器用户的用户行为数据。因此，此时的用户行为数据，前提是需要使用特定浏览器进行浏览操作，对于特定用户来说没有任何的针对性。

或者，再例如，根据终端用户的历史行为，记录该用户的用户行为数据。在这种情况下，需要记录任何用户在使用同一终端之后，所产生的历史行为，以形成终端用户的用户行为数据。因此，此时的用户行为数据，前提是需要使用特定终端进行浏览操作，对于特定用户来说没有任何的针对性。

可选地，在本实施例的一个可能的实现方式中，在102中，具体可以根据所述M个统计数据中指定统计数据所属的分类区间，获得与所述分类区间对应的一组分类器，进而，则可以将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器，以获得每个分类器所输出的评测结果。

需要说明的是，所述指定统计数据的数量可以根据分类需求进行设定，可以为一个，或者还可以为多个，本实施例对此不进行特别限定。

具体地，具体可以采用不同的训练样本集，进行训练，以分别构建每组分类器，以及每组分类器中的每个分类器。

需要说明的是，每个训练样本集中所包含的训练样本，可以为经过标注的已知样本，这样，可以直接利用这些已知样本进行训练，以构建分类器；或者还可以一部分为经过标注的已知样本，另一部分为没有经过标注的未知样本，那么，则可以先利用已知样本进行训练，以构建初始分类器，然后，再利用初始分类器对未知样本进行评测，以获得分类结果，进而则可以根据未知样本的分类结果，对未知样本进行标注，以形成已知样本，作为新增加的已知样本，利用新增加的已知样本，以及原始的已知样本重新进行训练，以构建新的分类器，直到所构建的分类器或已知样本满足分类器的截止条件为止，如分类准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等，本实施例对此不进行特别限定。

知识问答系统就是一种利用通信功能实现信息获取的系统，用户可以通过网页在知识问答系统提交各种问题，查询所提交问题的状态，根据问题回答的状况决定采纳哪个答案。其他用户可以通过访问该网页查看问题，并根据自己的喜好和知识进行回答。

问题页面、回答列表和检索结果等核心数据被频繁抓取，导致用户行为数据中存在大量泡沫，数据统计结果严重偏离实际情况，例如，大量伪装成真实用户的机器抓取行为通过防攻击模块检测混入了用户行为数据，给策略升级和产品改进带来极大困难。

下面将以知识问答系统为例，进行本发明技术方案的详细说明。

在一个具体的实现过程中，对于出口IP地址即公网IP地址不集中的上网方式，例如，PC上网等，通过101所获取的所述M个统计数据可以包括但不限于如下参数：

pv，表示指定时间范围之内同一IP地址下的访问次数；

uv，表示指定时间范围之内同一IP地址下的访问人数；

rv，表示指定时间范围之内同一IP地址下访问的来源页面的页面种类；

dv，表示指定时间范围之内同一IP地址下访问的用户标识信息创建的时间；

qv，表示指定时间范围之内同一IP地址下访问的问题页面个数；

qpv，表示指定时间范围之内同一IP地址下访问的问题页面次数；

spv，表示指定时间范围之内同一IP地址下访问的检索页面次数。

其中，所述用户标识信息可以包括但不限于网站为用户生成的网站标识或网站为用户分配的用户身份标识(IDentity，ID)，本实施例对此不进行特别限定。

所谓的网站标识，可以为Cookie标识(CookieID)，或者还可以为用户身份标识映射的ID，例如，百度标识(Baidu ID)等。网站具体可以采用现有技术中的方法，获取客户端的Cookie信息。例如，在网站的页面上埋点(即放上一个1x1的不可见像素)，在客户端第一次访问该网页时，网站会为客户端分配一个唯一的CookieID，以在客户端上创建一个Cookie对象，以供将用户的用户行为数据存储在用户本地的终端上，形成Cookie信息。这样，客户端则可以在指定时机将Cookie信息发送给网站，例如，可以在客户端下次请求同一网站时，向网站发送该Cookie信息等。

获取这些参数之后，则可以先根据pv，确定该pv所属的分类区间即α_k，1≤pv≤α_k，2，k为区间标识，用于标识不同的分类区间，取值为大于或等于1的整数。然后，再根据所确定的分类区间，获得与该分类区间所对应的一组分类器。该组分类器中每个分类器，都对应一个分类策略，用以限定统计参数的不同特征，其输入都对应不同的统计数据。这样，在102中，就可以将每个统计参数输入分别输入其对应的分类器。

例如，若α_1，1≤pv≤α_1，2，则可以获得与该分类区间所对应的一组分类器即分类器A₁、分类器B₁、分类器C₁、分类器D₁等。其中，

分类器A₁，用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数，例如，若pv/uv大于或等于分类阈值A₁₁，或者，pv/uv小于或等于分类阈值A₁₂，说明该IP地址的访问异常，分类器A₁的所输出的评测结果为用于表示异常的取值；反之，若pv/uv大于分类阈值A₁₂，且小于分类阈值A₁₁，说明该IP地址的访问正常，分类器A₁的所输出的评测结果为用于表示正常的取值。

分类器B₁，用于限定指定时间范围之内同一IP地址下访问的来源页面的页面种类，例如，若rv大于或等于分类阈值B₁₁，或者，rv小于或等于分类阈值B₁₂，说明该IP地址的访问异常，分类器B₁的所输出的评测结果为用于表示异常的取值；反之，若rv大于分类阈值B₁₂，且小于分类阈值B₁₁，说明该IP地址的访问正常，分类器B₁的所输出的评测结果为用于表示正常的取值。

分类器C₁，用于限定指定时间范围之内同一IP地址下访问的用户标识信息创建的时间，若dv集中在分类阈值C₁₁内如一天或两天等，说明该IP地址的访问异常，分类器C₁的所输出的评测结果为用于表示异常的取值；反之，若dv并没有集中在分类阈值C₁₁内如一天或两天等，说明该IP地址的访问正常，分类器C₁的所输出的评测结果为用于表示正常的取值。

分类器D₁，用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数，例如，若qpv/qv大于或等于分类阈值D₁₁，或者，qpv/qv小于或等于分类阈值D₁₂，说明该IP地址的访问异常，分类器D₁的所输出的评测结果为用于表示异常的取值；反之，若qpv/qv大于分类阈值D₁₂，且小于分类阈值D₁₁，说明该IP地址的访问正常，分类器D₁的所输出的评测结果为用于表示正常的取值。

分类器E₁，用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例，例如，若qpv/spv大于或等于分类阈值E₁₁，或者，qpv/spv小于或等于分类阈值E₁₂，说明该IP地址的访问异常，分类器E₁的所输出的评测结果为用于表示异常的取值；反之，若qpv/spv大于分类阈值E₁₂，且小于分类阈值E₁₁，说明该IP地址的访问正常，分类器E₁的所输出的评测结果为用于表示正常的取值。

或者，再例如，若α_2,1≤pv≤α_2,2，则可以获得与该分类区间所对应的一组分类器即分类器A₂、分类器B₂、分类器C₂、分类器D₂等。其中，

分类器A₂，用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数，例如，若pv/uv大于或等于分类阈值A₂₁，或者，pv/uv小于或等于分类阈值A₂₂，说明该IP地址的访问异常，分类器A₂的所输出的评测结果为用于表示异常的取值；反之，若pv/uv大于分类阈值A₂₂，且小于分类阈值A₂₁，说明该IP地址的访问正常，分类器A₂的所输出的评测结果为用于表示正常的取值。

分类器B₂，用于限定指定时间范围之内同一IP地址下访问的来源页面的页面种类，例如，若rv大于或等于分类阈值B₂₁，或者，rv小于或等于分类阈值B₂₂，说明该IP地址的访问异常，分类器B₂的所输出的评测结果为用于表示异常的取值；反之，若rv大于分类阈值B₂₂，且小于分类阈值B₂₁，说明该IP地址的访问正常，分类器B₂的所输出的评测结果为用于表示正常的取值。

分类器C₂，用于限定指定时间范围之内同一IP地址下访问的用户标识信息创建的时间，若dv集中在分类阈值C₂₁内如一天或两天等，说明该IP地址的访问异常，分类器C₂的所输出的评测结果为用于表示异常的取值；反之，若dv并没有集中在分类阈值C₂₁内如一天或两天等，说明该IP地址的访问正常，分类器C₂的所输出的评测结果为用于表示正常的取值。

分类器D₂，用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数，例如，若qpv/qv大于或等于分类阈值D₂₁，或者，qpv/qv小于或等于分类阈值D₂₂，说明该IP地址的访问异常，分类器D₂的所输出的评测结果为用于表示异常的取值；反之，若qpv/qv大于分类阈值D₂₂，且小于分类阈值D₂₁，说明该IP地址的访问正常，分类器D₂的所输出的评测结果为用于表示正常的取值。

分类器E₂，用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例，例如，若qpv/spv大于或等于分类阈值E₂₁，或者，qpv/spv小于或等于分类阈值E₂₂，说明该IP地址的访问异常，分类器E₂的所输出的评测结果为用于表示异常的取值；反之，若qpv/spv大于分类阈值E₂₂，且小于分类阈值E₂₁，说明该IP地址的访问正常，分类器E₂的所输出的评测结果为用于表示正常的取值。

或者，再例如，若α_3,1≤pv≤α_3,2，则可以获得与该分类区间所对应的一组分类器即分类器A₃、分类器B₃、分类器C₃、分类器D₃等。其中，

分类器A₃，用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数，例如，若pv/uv大于或等于分类阈值A₃₁，或者，pv/uv小于或等于分类阈值A₃₂，说明该IP地址的访问异常，分类器A₃的所输出的评测结果为用于表示异常的取值；反之，若pv/uv大于分类阈值A₃₂，且小于分类阈值A₃₁，说明该IP地址的访问正常，分类器A₁的所输出的评测结果为用于表示正常的取值。

分类器B₃，用于限定指定时间范围之内同一IP地址下访问的来源页面的页面种类，例如，若rv大于或等于分类阈值B₃₁，或者，rv小于或等于分类阈值B₃₂，说明该IP地址的访问异常，分类器B₃的所输出的评测结果为用于表示异常的取值；反之，若rv大于分类阈值B₃₂，且小于分类阈值B₃₁，说明该IP地址的访问正常，分类器B₃的所输出的评测结果为用于表示正常的取值。

分类器C₃，用于限定指定时间范围之内同一IP地址下访问的用户标识信息创建的时间，若dv集中在分类阈值C₃₁内如一天或两天等，说明该IP地址的访问异常，分类器C₃的所输出的评测结果为用于表示异常的取值；反之，若dv并没有集中在分类阈值C₃₁内如一天或两天等，说明该IP地址的访问正常，分类器C₃的所输出的评测结果为用于表示正常的取值。

分类器D₃，用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数，例如，若qpv/qv大于或等于分类阈值D₃₁，或者，qpv/qv小于或等于分类阈值D₃₂，说明该IP地址的访问异常，分类器D₃的所输出的评测结果为用于表示异常的取值；反之，若qpv/qv大于分类阈值D₃₂，且小于分类阈值D₃₁，说明该IP地址的访问正常，分类器D₃的所输出的评测结果为用于表示正常的取值。

分类器E₃，用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例，例如，若qpv/spv大于或等于分类阈值E₃₁，或者，qpv/spv小于或等于分类阈值E₃₂，说明该IP地址的访问异常，分类器E₃的所输出的评测结果为用于表示异常的取值；反之，若qpv/spv大于分类阈值E₃₂，且小于分类阈值E₃₁，说明该IP地址的访问正常，分类器E₁的所输出的评测结果为用于表示正常的取值。

在另一个具体的实现过程中，对于出口IP地址即公网IP地址集中的上网方式，例如，无线上网等，通过101所获取的所述M个统计数据可以包括但不限于如下参数：

pv，表示指定时间范围之内同一IP地址下的访问次数；

uv，表示指定时间范围之内同一IP地址下的访问人数；

pgty，表示终端的屏幕展现效果；

nbpv，表示指定时间范围之内同一IP地址下用户标识信息为空的访问次数；

nrpv，表示指定时间范围之内同一IP地址下访问的来源页面为空的访问次数；

获取这些参数之后，则可以先根据pgty，确定该pgty所属的分类区间即pgty＝m，m为区间标识，用于标识不同的分类区间，取值为大于或等于1的整数。然后，再根据所确定的分类区间，获得与该分类区间所对应的一组分类器。该组分类器中每个分类器，都对应一个分类策略，用以限定统计参数的不同特征，其输入都对应不同的统计数据。这样，在102中，就可以将每个统计参数输入分别输入其对应的分类器。

例如，若pgty＝1，则可以获得与该分类区间所对应的一组分类器即分类器A₄、分类器B₄、分类器C₄、分类器D₄等。其中，

分类器A₄，用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数，例如，若pv/uv大于或等于分类阈值A₄₁，或者，pv/uv小于或等于分类阈值A₄₂，说明该IP地址的访问异常，分类器A₄的所输出的评测结果为用于表示异常的取值；反之，若pv/uv大于分类阈值A₄₂，且小于分类阈值A₄₁，说明该IP地址的访问正常，分类器A₄的所输出的评测结果为用于表示正常的取值。

分类器B₄，用于限定指定时间范围之内同一IP地址下用户标识信息为空的访问次数与总访问次数的比例，例如，若nbpv/pv大于或等于分类阈值B₄₁，说明该IP地址的访问异常，分类器B₄的所输出的评测结果为用于表示异常的取值；反之，若nbpv/pv小于分类阈值B₄₁，说明该IP地址的访问正常，分类器B₄的所输出的评测结果为用于表示正常的取值。

分类器C₄，用于限定指定时间范围之内同一IP地址下访问的来源页面为空的访问次数与总访问次数的比例，例如，若nrpv/pv大于或等于分类阈值C₄₁，说明该IP地址的访问异常，分类器C₄的所输出的评测结果为用于表示异常的取值；反之，若nrpv/pv小于分类阈值C₄₁，说明该IP地址的访问正常，分类器C₄的所输出的评测结果为用于表示正常的取值。

分类器D₄，用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数，例如，若qpv/qv大于或等于分类阈值D₄₁，或者，qpv/qv小于或等于分类阈值D₄₂，说明该IP地址的访问异常，分类器D₄的所输出的评测结果为用于表示异常的取值；反之，若qpv/qv大于分类阈值D₄₂，且小于分类阈值D₄₁，说明该IP地址的访问正常，分类器D₄的所输出的评测结果为用于表示正常的取值。

分类器E₄，用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例，例如，若qpv/spv大于或等于分类阈值E₄₁，或者，qpv/spv小于或等于分类阈值E₄₂，说明该IP地址的访问异常，分类器E₄的所输出的评测结果为用于表示异常的取值；反之，若qpv/spv大于分类阈值E₄₂，且小于分类阈值E₄₁，说明该IP地址的访问正常，分类器E₄的所输出的评测结果为用于表示正常的取值。

或者，再例如，若pgty＝2，则可以获得与该分类区间所对应的一组分类器即分类器A₅、分类器B₅、分类器C₅、分类器D₅等。其中，

分类器A₅，用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数，例如，若pv/uv大于或等于分类阈值A₅₁，或者，pv/uv小于或等于分类阈值A₅₂，说明该IP地址的访问异常，分类器A₅的所输出的评测结果为用于表示异常的取值；反之，若pv/uv大于分类阈值A₅₂，且小于分类阈值A₅₁，说明该IP地址的访问正常，分类器A₅的所输出的评测结果为用于表示正常的取值。

分类器B₅，用于限定指定时间范围之内同一IP地址下用户标识信息为空的访问次数与总访问次数的比例，例如，若nbpv/pv大于或等于分类阈值B₅₁，说明该IP地址的访问异常，分类器B₅的所输出的评测结果为用于表示异常的取值；反之，若nbpv/pv小于分类阈值B₅₁，说明该IP地址的访问正常，分类器B₅的所输出的评测结果为用于表示正常的取值。

分类器C₅，用于限定指定时间范围之内同一IP地址下访问的来源页面为空的访问次数与总访问次数的比例，例如，若nrpv/pv大于或等于分类阈值C₅₁，说明该IP地址的访问异常，分类器C₅的所输出的评测结果为用于表示异常的取值；反之，若nrpv/pv小于分类阈值C₅₁，说明该IP地址的访问正常，分类器C₅的所输出的评测结果为用于表示正常的取值。

分类器D₅，用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数，例如，若qpv/qv大于或等于分类阈值D₅₁，或者，qpv/qv小于或等于分类阈值D₅₂，说明该IP地址的访问异常，分类器D₅的所输出的评测结果为用于表示异常的取值；反之，若qpv/qv大于分类阈值D₅₂，且小于分类阈值D₅₁，说明该IP地址的访问正常，分类器D₅的所输出的评测结果为用于表示正常的取值。

分类器E₅，用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例，例如，若qpv/spv大于或等于分类阈值E₅₁，或者，qpv/spv小于或等于分类阈值E₅₂，说明该IP地址的访问异常，分类器E₅的所输出的评测结果为用于表示异常的取值；反之，若qpv/spv大于分类阈值E₅₂，且小于分类阈值E₅₁，说明该IP地址的访问正常，分类器E₅的所输出的评测结果为用于表示正常的取值。

或者，再例如，若pgty＝3，则可以获得与该分类区间所对应的一组分类器即分类器A₆、分类器B₆、分类器C₆、分类器D₆等。其中，

分类器A₆，用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数，例如，若pv/uv大于或等于分类阈值A₆₁，或者，pv/uv小于或等于分类阈值A₆₂，说明该IP地址的访问异常，分类器A₆的所输出的评测结果为用于表示异常的取值；反之，若pv/uv大于分类阈值A₆₂，且小于分类阈值A₆₁，说明该IP地址的访问正常，分类器A₆的所输出的评测结果为用于表示正常的取值。

分类器B₆，用于限定指定时间范围之内同一IP地址下用户标识信息为空的访问次数与总访问次数的比例，例如，若nbpv/pv大于或等于分类阈值B₆₁，说明该IP地址的访问异常，分类器B₆的所输出的评测结果为用于表示异常的取值；反之，若nbpv/pv小于分类阈值B₆₁，说明该IP地址的访问正常，分类器B₆的所输出的评测结果为用于表示正常的取值。

分类器C₆，用于限定指定时间范围之内同一IP地址下访问的来源页面为空的访问次数与总访问次数的比例，例如，若nrpv/pv大于或等于分类阈值C₆₁，说明该IP地址的访问异常，分类器C₆的所输出的评测结果为用于表示异常的取值；反之，若nrpv/pv小于分类阈值C₆₁，说明该IP地址的访问正常，分类器C₆的所输出的评测结果为用于表示正常的取值。

分类器D₆，用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数，例如，若qpv/qv大于或等于分类阈值D₆₁，或者，qpv/qv小于或等于分类阈值D₆₂，说明该IP地址的访问异常，分类器D₆的所输出的评测结果为用于表示异常的取值；反之，若qpv/qv大于分类阈值D₆₂，且小于分类阈值D₆₁，说明该IP地址的访问正常，分类器D₆的所输出的评测结果为用于表示正常的取值。

分类器E₆，用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例，例如，若qpv/spv大于或等于分类阈值E₆₁，或者，qpv/spv小于或等于分类阈值E₆₂，说明该IP地址的访问异常，分类器E₆的所输出的评测结果为用于表示异常的取值；反之，若qpv/spv大于分类阈值E₆₂，且小于分类阈值E₆₁，说明该IP地址的访问正常，分类器E₆的所输出的评测结果为用于表示正常的取值。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述每个分类器所输出的评测结果和所述每个分类器的评测权重，计算加权平均值，根据所述加权平均值，获得所述IP地址的分类结果。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述每个分类器所输出的评测结果，计算算数平均值，根据所述算数平均值，获得所述IP地址的分类结果。

可选地，在本实施例的一个可能的实现方式中，在103中，如果每个分类器所输出的评测结果均为用于表示正常的取值，则可以说明该IP地址的访问正常，获得所述IP地址为正常IP地址的分类结果。反之，如果有任何一个分类器所输出的评测结果为用于表示异常的取值，则可以说明该IP地址的访问异常，获得所述IP地址为异常IP地址的分类结果。

可选地，在本实施例的一个可能的实现方式中，在104之后，还可以进一步根据所述一次过滤的用户行为数据，获取同一用户标识信息所对应的待评测的N个统计数据，N为大于或等于2的整数，进而将所述N个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果。然后，则可以根据所述每个分类器所输出的评测结果，获得同一用户标识信息的分类结果，进而根据所述同一用户标识信息的分类结果，对所述一次过滤的用户行为数据进行过滤处理，以获得二次过滤的用户行为数据。

在一个具体的实现过程中，对于出口IP地址即公网IP地址集中的上网方式，例如，无线上网等，所获取的所述N个统计数据可以包括但不限于如下参数：

pv，表示指定时间范围之内同一用户标识信息下的访问次数；

spv，表示指定时间范围之内同一IP地址下访问的检索页面次数；

pgtyv，表示指定时间范围之内同一用户标识信息下访问所使用的终端的屏幕展现效果种类；

dvv，表示指定时间范围之内同一用户标识信息下访问所使用的操作系统种类；

bv，表示指定时间范围之内同一用户标识信息下访问所使用的浏览器种类。

这样，在102中，就可以将每个统计参数输入分别输入其对应的分类器，即分类器A₇、分类器B₇、分类器C₇、分类器D₇等。其中，

分类器A₇，用于限定指定时间范围之内同一用户标识信息下的访问次数，例如，若pv大于或等于分类阈值A₇₁，说明该用户标识信息的访问异常，分类器A₇的所输出的评测结果为用于表示异常的取值；反之，若pv小于分类阈值A₇₁，说明该用户标识信息的访问正常，分类器A₇的所输出的评测结果为用于表示正常的取值。

分类器B₇，用于限定指定时间范围之内同一用户标识信息下访问的来源页面为空的访问次数与总访问次数的比例，例如，若nrpv/pv大于或等于分类阈值B₇₁，说明该用户标识信息的访问异常，分类器B₇的所输出的评测结果为用于表示异常的取值；反之，若nrpv/pv小于分类阈值B₇₁，说明该用户标识信息的访问正常，分类器B₇的所输出的评测结果为用于表示正常的取值。

分类器C₇，用于限定指定时间范围之内同一用户标识信息下每个问题页面的平均访问次数，例如，若qpv/qv大于或等于分类阈值C₇₁，或者，qpv/qv小于或等于分类阈值C₇₂，说明该用户标识信息的访问异常，分类器C₇的所输出的评测结果为用于表示异常的取值；反之，若qpv/qv大于分类阈值C₇₂，且小于分类阈值C₇₁，说明该用户标识信息的访问正常，分类器C₇的所输出的评测结果为用于表示正常的取值。

分类器D₇，用于限定指定时间范围之内同一用户标识信息下问题页面与检索页面的访问次数比例，例如，若qpv/spv大于或等于分类阈值D₇₁，或者，qpv/spv小于或等于分类阈值D₇₂，说明该用户标识信息的访问异常，分类器D₇的所输出的评测结果为用于表示异常的取值；反之，若qpv/spv大于分类阈值D₇₂，且小于分类阈值D₇₁，说明该用户标识信息的访问正常，分类器D₇的所输出的评测结果为用于表示正常的取值。

分类器E₇，用于限定指定时间范围之内同一用户标识信息下访问所使用的终端的屏幕展现效果种类，例如，若pgtyv大于或等于分类阈值E₇₁，说明该用户标识信息的访问异常，分类器E₇的所输出的评测结果为用于表示异常的取值；反之，若pgtyv小于分类阈值E₇₁，说明该用户标识信息的访问正常，分类器E₇的所输出的评测结果为用于表示正常的取值。

分类器F₇，用于限定指定时间范围之内同一用户标识信息下访问所使用的操作系统种类，例如，若dvv大于或等于分类阈值F₇₁，说明该用户标识信息的访问异常，分类器F₇的所输出的评测结果为用于表示异常的取值；反之，若dvv小于分类阈值F₇₁，说明该用户标识信息的访问正常，分类器F₇的所输出的评测结果为用于表示正常的取值。

分类器G₇，用于限定指定时间范围之内同一用户标识信息下访问所使用的浏览器种类，例如，若bv大于或等于分类阈值G₇₁，说明该用户标识信息的访问异常，分类器G₇的所输出的评测结果为用于表示异常的取值；反之，若bv小于分类阈值G₇₁，说明该用户标识信息的访问正常，分类器G₇的所输出的评测结果为用于表示正常的取值。

在一个具体的实现过程中，具体可以根据所述每个分类器所输出的评测结果和所述每个分类器的评测权重，计算加权平均值，根据所述加权平均值，获得所述用户标识信息的分类结果。

在另一个具体的实现过程中，具体可以根据所述每个分类器所输出的评测结果，计算算数平均值，根据所述算数平均值，获得所述用户标识信息的分类结果。

在另一个具体的实现过程中，如果每个分类器所输出的评测结果均为用于表示正常的取值，则可以说明该用户标识信息的访问正常，获得所述用户标识信息为正常用户标识信息的分类结果。反之，如果有任何一个分类器所输出的评测结果为用于表示异常的取值，则可以说明该用户标识信息的访问异常，获得所述用户标识信息为异常用户标识信息的分类结果。

在另一个具体的实现过程中，在获得二次过滤的用户行为数据之后，还可以进一步获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值。若所述比值大于或等于预先设置的阈值，对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据，进行删除处理，以获得三次过滤的用户行为数据。这样，通过对同一IP地址下的用户行为数据的整体清除处理，能够进一步提高分类结果的准确率。

在获得了全网范围之内“干净”的用户行为数据即过滤的用户行为数据(三次过滤的用户行为数据)之后，则可以进一步根据过滤的用户行为数据，进行用户行为分析，以获得用户行为特征。这样，能够有效提高用户行为分析的可靠性。

与现有方案相比，采用本发明提供的技术方案，具有以下特点：

1、充分利用了用户行为数据的统计特征。由于基于大数据的统计特征很难模仿，因此，能够显著提高过滤处理的抗干扰性和作弊难度。

2、过滤处理，本质上是一个分类问题。在PC端和无线端，本发明提供的技术方案能够分别根据IP地址的访问负荷和终端的屏幕展现效果种类设计分段策略，本质上增加了分类器分类面的维度，从而提高了分类结果的准确率，能够有效保证用户行为数据过滤的可靠性。

本实施例中，通过根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数，进而将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，并根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果，使得能够根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据，由于每个分类器是分别针对不同的统计数据，使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果，从而提高了分类结果的准确率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的用户行为数据的处理装置的结构示意图，如图2所示。本实施例的用户行为数据的处理装置可以包括获取单元21、分类单元22、处理单元23和过滤单元24。其中，获取单元21，用于根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数；分类单元22，用于将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；处理单元23，用于根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果；过滤单元24，用于根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据。

需要说明的是，本实施例所提供的用户行为数据的处理装置可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的分类引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，所述分类单元22，具体可以用于根据所述M个统计数据中指定统计数据所属的分类区间，获得与所述分类区间对应的一组分类器；以及将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器，以获得每个分类器所输出的评测结果。

可选地，在本实施例的一个可能的实现方式中，

所述获取单元21，还可以进一步用于根据所述一次过滤的用户行为数据，获取同一用户标识信息所对应的待评测的N个统计数据，N为大于或等于2的整数；

所述分类单元22，还可以进一步用于将所述N个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；

所述处理单元23，还可以进一步用于根据所述每个分类器所输出的评测结果，获得同一用户标识信息的分类结果；

所述过滤单元24，还可以进一步用于根据所述同一用户标识信息的分类结果，对所述一次过滤的用户行为数据进行过滤处理，以获得二次过滤的用户行为数据。

进一步地，所述过滤单元24，还可以进一步用于获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值；以及若所述比值大于或等于预先设置的阈值，对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据，进行删除处理，以获得三次过滤的用户行为数据。

可选地，在本实施例的一个可能的实现方式中，如图3所示，本实施例所提供的用户行为数据的处理装置还可以进一步包括分析单元31，用于根据过滤的用户行为数据，进行用户行为分析，以获得用户行为特征。

需要说明的是，图1对应的实施例中方法，可以由本实施例提供的用户行为数据的处理装置实现。详细描述可以参见图1对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过获取单元根据用户行为数据，获取同一IP地址的待评测的M个统计数据，M为大于或等于2的整数，进而由分类单元将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，并由处理单元根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果，使得过滤单元能够根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据，由于每个分类器是分别针对不同的统计数据，使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果，从而提高了分类结果的准确率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用户行为数据的处理方法，其特征在于，包括：

根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据；其中，

所述根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据之后，还包括：

根据所述同一用户标识信息的分类结果，对所述一次过滤的用户行为数据进行过滤处理，以获得二次过滤的用户行为数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，包括：

3.根据权利要求1～2任一权利要求所述的方法，其特征在于，所述根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据之后，还包括：

4.一种用户行为数据的处理装置，其特征在于，包括：

过滤单元，用于根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据；其中，

所述获取单元，还用于

所述分类单元，还用于

所述处理单元，还用于

所述过滤单元，还用于

5.根据权利要求4所述的装置，其特征在于，所述分类单元，具体用于

6.根据权利要求4～5任一权利要求所述的装置，其特征在于，所述装置还包括分析单元，用于