CN104731937B - 用户行为数据的处理方法及装置 - Google Patents

用户行为数据的处理方法及装置 Download PDF

Info

Publication number
CN104731937B
CN104731937B CN201510145888.2A CN201510145888A CN104731937B CN 104731937 B CN104731937 B CN 104731937B CN 201510145888 A CN201510145888 A CN 201510145888A CN 104731937 B CN104731937 B CN 104731937B
Authority
CN
China
Prior art keywords
grader
user behavior
behavior data
address
statistics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510145888.2A
Other languages
English (en)
Other versions
CN104731937A (zh
Inventor
常明
陈朝钢
贾少攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510145888.2A priority Critical patent/CN104731937B/zh
Publication of CN104731937A publication Critical patent/CN104731937A/zh
Application granted granted Critical
Publication of CN104731937B publication Critical patent/CN104731937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种用户行为数据的处理方法及装置。本发明实施例通过根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数,进而将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,并根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果,使得能够根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据,由于每个分类器是分别针对不同的统计数据,使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果,从而提高了分类结果的准确率。

Description

用户行为数据的处理方法及装置
【技术领域】
本发明涉及机器学习技术,尤其涉及一种用户行为数据的处理方法及装置。
【背景技术】
在机器学习中,可以利用大量已知的训练样本,构建分类模型即分类器,进而利用所构建的分类器对未知的数据进行评测。分类器可以应用在很多场景,例如,由于因网络作弊而产生的垃圾页面以及垃圾用户行为数据越来越多,严重影响了搜索引擎的检索效率和用户体验,因此,反作弊已经成为搜索引擎所面临的最重要的挑战之一,可以将利用已标注的正常数据和作弊数据,构建一个分类器,以对网络数据进行识别。现有技术中,可以利用所构建的一个分类器,对用户行为数据进行评测,以获得分类结果。
然而,采用单一的分类器,其所评测的用户行为数据的分类结果的准确率不高。
【发明内容】
本发明的多个方面提供一种用户行为数据的处理方法及装置,用以提高分类结果的准确率。
本发明的一方面,提供一种用户行为数据的处理方法,包括:
根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数;
将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果;
根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,包括:
根据所述M个统计数据中指定统计数据所属的分类区间,获得与所述分类区间对应的一组分类器;
将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器,以获得每个分类器所输出的评测结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据之后,还包括:
根据所述一次过滤的用户行为数据,获取同一用户标识信息所对应的待评测的N个统计数据,N为大于或等于2的整数;
将所述N个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
根据所述每个分类器所输出的评测结果,获得同一用户标识信息的分类结果;
根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据之后,还包括:
获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值;
若所述比值大于或等于预先设置的阈值,对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据,进行删除处理,以获得三次过滤的用户行为数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据之后,还包括:
根据过滤的用户行为数据,进行用户行为分析,以获得用户行为特征。
本发明的另一方面,提供一种用户行为数据的处理装置,包括:
获取单元,用于根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数;
分类单元,用于将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
处理单元,用于根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果;
过滤单元,用于根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述分类单元,具体用于
根据所述M个统计数据中指定统计数据所属的分类区间,获得与所述分类区间对应的一组分类器;以及
将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器,以获得每个分类器所输出的评测结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,
所述获取单元,还用于
根据所述一次过滤的用户行为数据,获取同一用户标识信息所对应的待评测的N个统计数据,N为大于或等于2的整数;
所述分类单元,还用于
将所述N个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
所述处理单元,还用于
根据所述每个分类器所输出的评测结果,获得同一用户标识信息的分类结果;
所述过滤单元,还用于
根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述过滤单元,还用于
获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值;以及
若所述比值大于或等于预先设置的阈值,对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据,进行删除处理,以获得三次过滤的用户行为数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括分析单元,用于
根据过滤的用户行为数据,进行用户行为分析,以获得用户行为特征。
由上述技术方案可知,本发明实施例通过根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数,进而将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,并根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果,使得能够根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据,由于每个分类器是分别针对不同的统计数据,使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果,从而提高了分类结果的准确率。
另外,采用本发明提供的技术方案,使得用户行为数据的分类结果不再单独依赖于任何一个分类器的评测结果,而是综合考虑M个分类器中每个分类器的评测结果,这样,能够有效提高分类结果的准确率。
另外,采用本发明提供的技术方案,通过从IP地址和用户标识信息这两个维度,对用户行为数据进行过滤处理,能够较为准确地刻画用户行为特征,能够有效提高分类结果的准确率。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的用户行为数据的处理方法的流程示意图;
图2为本发明另一实施例提供的用户行为数据的处理装置的结构示意图;
图3为本发明另一实施例提供的用户行为数据的处理装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的用户行为数据的处理方法的流程示意图,如图1所示。
101、根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数。
102、将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果。
103、根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果。
104、根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据。
需要说明的是,101~104的执行主体可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的分类引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
这样,通过根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数,进而将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,并根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果,使得能够根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据,由于每个分类器是分别针对不同的统计数据,使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果,从而提高了分类结果的准确率。
本实施例中,部署了多个不同的分类器,每个分类器都具有各自的分类策略,每个分类器的输入参数为不同的统计数据,例如,分类器A的输入参数为统计数据a;分类器B的输入参数为统计数据b和统计数据c;分类器C的输入参数可以为统计数据d,等等。
可选地,在本实施例的一个可能的实现方式中,在101中,待处理的所述用户行为数据可以包括但不限于用户搜索日志和用户点击日志中的至少一项,本实施例对此不进行特别限定。
目前,一些网站会针对特定用户,记录其用户行为。这些记录所得到的数据,就是用户的用户行为数据。
例如,根据注册用户的历史行为,记录该用户的用户行为数据。在这种情况下,需要记录注册用户在登录之后,所产生的历史行为,以形成注册用户的用户行为数据。因此,此时的用户行为数据,前提是需要注册用户进行登录操作。
或者,再例如,根据浏览器用户的历史行为,记录该用户的用户行为数据。在这种情况下,需要记录任何用户在使用同一终端的浏览器之后,所产生的历史行为,以形成浏览器用户的用户行为数据。因此,此时的用户行为数据,前提是需要使用特定浏览器进行浏览操作,对于特定用户来说没有任何的针对性。
或者,再例如,根据终端用户的历史行为,记录该用户的用户行为数据。在这种情况下,需要记录任何用户在使用同一终端之后,所产生的历史行为,以形成终端用户的用户行为数据。因此,此时的用户行为数据,前提是需要使用特定终端进行浏览操作,对于特定用户来说没有任何的针对性。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以根据所述M个统计数据中指定统计数据所属的分类区间,获得与所述分类区间对应的一组分类器,进而,则可以将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器,以获得每个分类器所输出的评测结果。
需要说明的是,所述指定统计数据的数量可以根据分类需求进行设定,可以为一个,或者还可以为多个,本实施例对此不进行特别限定。
具体地,具体可以采用不同的训练样本集,进行训练,以分别构建每组分类器,以及每组分类器中的每个分类器。
需要说明的是,每个训练样本集中所包含的训练样本,可以为经过标注的已知样本,这样,可以直接利用这些已知样本进行训练,以构建分类器;或者还可以一部分为经过标注的已知样本,另一部分为没有经过标注的未知样本,那么,则可以先利用已知样本进行训练,以构建初始分类器,然后,再利用初始分类器对未知样本进行评测,以获得分类结果,进而则可以根据未知样本的分类结果,对未知样本进行标注,以形成已知样本,作为新增加的已知样本,利用新增加的已知样本,以及原始的已知样本重新进行训练,以构建新的分类器,直到所构建的分类器或已知样本满足分类器的截止条件为止,如分类准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等,本实施例对此不进行特别限定。
知识问答系统就是一种利用通信功能实现信息获取的系统,用户可以通过网页在知识问答系统提交各种问题,查询所提交问题的状态,根据问题回答的状况决定采纳哪个答案。其他用户可以通过访问该网页查看问题,并根据自己的喜好和知识进行回答。
问题页面、回答列表和检索结果等核心数据被频繁抓取,导致用户行为数据中存在大量泡沫,数据统计结果严重偏离实际情况,例如,大量伪装成真实用户的机器抓取行为通过防攻击模块检测混入了用户行为数据,给策略升级和产品改进带来极大困难。
下面将以知识问答系统为例,进行本发明技术方案的详细说明。
在一个具体的实现过程中,对于出口IP地址即公网IP地址不集中的上网方式,例如,PC上网等,通过101所获取的所述M个统计数据可以包括但不限于如下参数:
pv,表示指定时间范围之内同一IP地址下的访问次数;
uv,表示指定时间范围之内同一IP地址下的访问人数;
rv,表示指定时间范围之内同一IP地址下访问的来源页面的页面种类;
dv,表示指定时间范围之内同一IP地址下访问的用户标识信息创建的时间;
qv,表示指定时间范围之内同一IP地址下访问的问题页面个数;
qpv,表示指定时间范围之内同一IP地址下访问的问题页面次数;
spv,表示指定时间范围之内同一IP地址下访问的检索页面次数。
其中,所述用户标识信息可以包括但不限于网站为用户生成的网站标识或网站为用户分配的用户身份标识(IDentity,ID),本实施例对此不进行特别限定。
所谓的网站标识,可以为Cookie标识(CookieID),或者还可以为用户身份标识映射的ID,例如,百度标识(Baidu ID)等。网站具体可以采用现有技术中的方法,获取客户端的Cookie信息。例如,在网站的页面上埋点(即放上一个1x1的不可见像素),在客户端第一次访问该网页时,网站会为客户端分配一个唯一的CookieID,以在客户端上创建一个Cookie对象,以供将用户的用户行为数据存储在用户本地的终端上,形成Cookie信息。这样,客户端则可以在指定时机将Cookie信息发送给网站,例如,可以在客户端下次请求同一网站时,向网站发送该Cookie信息等。
获取这些参数之后,则可以先根据pv,确定该pv所属的分类区间即αk,1≤pv≤αk,2,k为区间标识,用于标识不同的分类区间,取值为大于或等于1的整数。然后,再根据所确定的分类区间,获得与该分类区间所对应的一组分类器。该组分类器中每个分类器,都对应一个分类策略,用以限定统计参数的不同特征,其输入都对应不同的统计数据。这样,在102中,就可以将每个统计参数输入分别输入其对应的分类器。
例如,若α1,1≤pv≤α1,2,则可以获得与该分类区间所对应的一组分类器即分类器A1、分类器B1、分类器C1、分类器D1等。其中,
分类器A1,用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数,例如,若pv/uv大于或等于分类阈值A11,或者,pv/uv小于或等于分类阈值A12,说明该IP地址的访问异常,分类器A1的所输出的评测结果为用于表示异常的取值;反之,若pv/uv大于分类阈值A12,且小于分类阈值A11,说明该IP地址的访问正常,分类器A1的所输出的评测结果为用于表示正常的取值。
分类器B1,用于限定指定时间范围之内同一IP地址下访问的来源页面的页面种类,例如,若rv大于或等于分类阈值B11,或者,rv小于或等于分类阈值B12,说明该IP地址的访问异常,分类器B1的所输出的评测结果为用于表示异常的取值;反之,若rv大于分类阈值B12,且小于分类阈值B11,说明该IP地址的访问正常,分类器B1的所输出的评测结果为用于表示正常的取值。
分类器C1,用于限定指定时间范围之内同一IP地址下访问的用户标识信息创建的时间,若dv集中在分类阈值C11内如一天或两天等,说明该IP地址的访问异常,分类器C1的所输出的评测结果为用于表示异常的取值;反之,若dv并没有集中在分类阈值C11内如一天或两天等,说明该IP地址的访问正常,分类器C1的所输出的评测结果为用于表示正常的取值。
分类器D1,用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数,例如,若qpv/qv大于或等于分类阈值D11,或者,qpv/qv小于或等于分类阈值D12,说明该IP地址的访问异常,分类器D1的所输出的评测结果为用于表示异常的取值;反之,若qpv/qv大于分类阈值D12,且小于分类阈值D11,说明该IP地址的访问正常,分类器D1的所输出的评测结果为用于表示正常的取值。
分类器E1,用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例,例如,若qpv/spv大于或等于分类阈值E11,或者,qpv/spv小于或等于分类阈值E12,说明该IP地址的访问异常,分类器E1的所输出的评测结果为用于表示异常的取值;反之,若qpv/spv大于分类阈值E12,且小于分类阈值E11,说明该IP地址的访问正常,分类器E1的所输出的评测结果为用于表示正常的取值。
或者,再例如,若α2,1≤pv≤α2,2,则可以获得与该分类区间所对应的一组分类器即分类器A2、分类器B2、分类器C2、分类器D2等。其中,
分类器A2,用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数,例如,若pv/uv大于或等于分类阈值A21,或者,pv/uv小于或等于分类阈值A22,说明该IP地址的访问异常,分类器A2的所输出的评测结果为用于表示异常的取值;反之,若pv/uv大于分类阈值A22,且小于分类阈值A21,说明该IP地址的访问正常,分类器A2的所输出的评测结果为用于表示正常的取值。
分类器B2,用于限定指定时间范围之内同一IP地址下访问的来源页面的页面种类,例如,若rv大于或等于分类阈值B21,或者,rv小于或等于分类阈值B22,说明该IP地址的访问异常,分类器B2的所输出的评测结果为用于表示异常的取值;反之,若rv大于分类阈值B22,且小于分类阈值B21,说明该IP地址的访问正常,分类器B2的所输出的评测结果为用于表示正常的取值。
分类器C2,用于限定指定时间范围之内同一IP地址下访问的用户标识信息创建的时间,若dv集中在分类阈值C21内如一天或两天等,说明该IP地址的访问异常,分类器C2的所输出的评测结果为用于表示异常的取值;反之,若dv并没有集中在分类阈值C21内如一天或两天等,说明该IP地址的访问正常,分类器C2的所输出的评测结果为用于表示正常的取值。
分类器D2,用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数,例如,若qpv/qv大于或等于分类阈值D21,或者,qpv/qv小于或等于分类阈值D22,说明该IP地址的访问异常,分类器D2的所输出的评测结果为用于表示异常的取值;反之,若qpv/qv大于分类阈值D22,且小于分类阈值D21,说明该IP地址的访问正常,分类器D2的所输出的评测结果为用于表示正常的取值。
分类器E2,用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例,例如,若qpv/spv大于或等于分类阈值E21,或者,qpv/spv小于或等于分类阈值E22,说明该IP地址的访问异常,分类器E2的所输出的评测结果为用于表示异常的取值;反之,若qpv/spv大于分类阈值E22,且小于分类阈值E21,说明该IP地址的访问正常,分类器E2的所输出的评测结果为用于表示正常的取值。
或者,再例如,若α3,1≤pv≤α3,2,则可以获得与该分类区间所对应的一组分类器即分类器A3、分类器B3、分类器C3、分类器D3等。其中,
分类器A3,用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数,例如,若pv/uv大于或等于分类阈值A31,或者,pv/uv小于或等于分类阈值A32,说明该IP地址的访问异常,分类器A3的所输出的评测结果为用于表示异常的取值;反之,若pv/uv大于分类阈值A32,且小于分类阈值A31,说明该IP地址的访问正常,分类器A1的所输出的评测结果为用于表示正常的取值。
分类器B3,用于限定指定时间范围之内同一IP地址下访问的来源页面的页面种类,例如,若rv大于或等于分类阈值B31,或者,rv小于或等于分类阈值B32,说明该IP地址的访问异常,分类器B3的所输出的评测结果为用于表示异常的取值;反之,若rv大于分类阈值B32,且小于分类阈值B31,说明该IP地址的访问正常,分类器B3的所输出的评测结果为用于表示正常的取值。
分类器C3,用于限定指定时间范围之内同一IP地址下访问的用户标识信息创建的时间,若dv集中在分类阈值C31内如一天或两天等,说明该IP地址的访问异常,分类器C3的所输出的评测结果为用于表示异常的取值;反之,若dv并没有集中在分类阈值C31内如一天或两天等,说明该IP地址的访问正常,分类器C3的所输出的评测结果为用于表示正常的取值。
分类器D3,用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数,例如,若qpv/qv大于或等于分类阈值D31,或者,qpv/qv小于或等于分类阈值D32,说明该IP地址的访问异常,分类器D3的所输出的评测结果为用于表示异常的取值;反之,若qpv/qv大于分类阈值D32,且小于分类阈值D31,说明该IP地址的访问正常,分类器D3的所输出的评测结果为用于表示正常的取值。
分类器E3,用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例,例如,若qpv/spv大于或等于分类阈值E31,或者,qpv/spv小于或等于分类阈值E32,说明该IP地址的访问异常,分类器E3的所输出的评测结果为用于表示异常的取值;反之,若qpv/spv大于分类阈值E32,且小于分类阈值E31,说明该IP地址的访问正常,分类器E1的所输出的评测结果为用于表示正常的取值。
在另一个具体的实现过程中,对于出口IP地址即公网IP地址集中的上网方式,例如,无线上网等,通过101所获取的所述M个统计数据可以包括但不限于如下参数:
pv,表示指定时间范围之内同一IP地址下的访问次数;
uv,表示指定时间范围之内同一IP地址下的访问人数;
pgty,表示终端的屏幕展现效果;
nbpv,表示指定时间范围之内同一IP地址下用户标识信息为空的访问次数;
nrpv,表示指定时间范围之内同一IP地址下访问的来源页面为空的访问次数;
qpv,表示指定时间范围之内同一IP地址下访问的问题页面次数;
spv,表示指定时间范围之内同一IP地址下访问的检索页面次数。
获取这些参数之后,则可以先根据pgty,确定该pgty所属的分类区间即pgty=m,m为区间标识,用于标识不同的分类区间,取值为大于或等于1的整数。然后,再根据所确定的分类区间,获得与该分类区间所对应的一组分类器。该组分类器中每个分类器,都对应一个分类策略,用以限定统计参数的不同特征,其输入都对应不同的统计数据。这样,在102中,就可以将每个统计参数输入分别输入其对应的分类器。
例如,若pgty=1,则可以获得与该分类区间所对应的一组分类器即分类器A4、分类器B4、分类器C4、分类器D4等。其中,
分类器A4,用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数,例如,若pv/uv大于或等于分类阈值A41,或者,pv/uv小于或等于分类阈值A42,说明该IP地址的访问异常,分类器A4的所输出的评测结果为用于表示异常的取值;反之,若pv/uv大于分类阈值A42,且小于分类阈值A41,说明该IP地址的访问正常,分类器A4的所输出的评测结果为用于表示正常的取值。
分类器B4,用于限定指定时间范围之内同一IP地址下用户标识信息为空的访问次数与总访问次数的比例,例如,若nbpv/pv大于或等于分类阈值B41,说明该IP地址的访问异常,分类器B4的所输出的评测结果为用于表示异常的取值;反之,若nbpv/pv小于分类阈值B41,说明该IP地址的访问正常,分类器B4的所输出的评测结果为用于表示正常的取值。
分类器C4,用于限定指定时间范围之内同一IP地址下访问的来源页面为空的访问次数与总访问次数的比例,例如,若nrpv/pv大于或等于分类阈值C41,说明该IP地址的访问异常,分类器C4的所输出的评测结果为用于表示异常的取值;反之,若nrpv/pv小于分类阈值C41,说明该IP地址的访问正常,分类器C4的所输出的评测结果为用于表示正常的取值。
分类器D4,用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数,例如,若qpv/qv大于或等于分类阈值D41,或者,qpv/qv小于或等于分类阈值D42,说明该IP地址的访问异常,分类器D4的所输出的评测结果为用于表示异常的取值;反之,若qpv/qv大于分类阈值D42,且小于分类阈值D41,说明该IP地址的访问正常,分类器D4的所输出的评测结果为用于表示正常的取值。
分类器E4,用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例,例如,若qpv/spv大于或等于分类阈值E41,或者,qpv/spv小于或等于分类阈值E42,说明该IP地址的访问异常,分类器E4的所输出的评测结果为用于表示异常的取值;反之,若qpv/spv大于分类阈值E42,且小于分类阈值E41,说明该IP地址的访问正常,分类器E4的所输出的评测结果为用于表示正常的取值。
或者,再例如,若pgty=2,则可以获得与该分类区间所对应的一组分类器即分类器A5、分类器B5、分类器C5、分类器D5等。其中,
分类器A5,用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数,例如,若pv/uv大于或等于分类阈值A51,或者,pv/uv小于或等于分类阈值A52,说明该IP地址的访问异常,分类器A5的所输出的评测结果为用于表示异常的取值;反之,若pv/uv大于分类阈值A52,且小于分类阈值A51,说明该IP地址的访问正常,分类器A5的所输出的评测结果为用于表示正常的取值。
分类器B5,用于限定指定时间范围之内同一IP地址下用户标识信息为空的访问次数与总访问次数的比例,例如,若nbpv/pv大于或等于分类阈值B51,说明该IP地址的访问异常,分类器B5的所输出的评测结果为用于表示异常的取值;反之,若nbpv/pv小于分类阈值B51,说明该IP地址的访问正常,分类器B5的所输出的评测结果为用于表示正常的取值。
分类器C5,用于限定指定时间范围之内同一IP地址下访问的来源页面为空的访问次数与总访问次数的比例,例如,若nrpv/pv大于或等于分类阈值C51,说明该IP地址的访问异常,分类器C5的所输出的评测结果为用于表示异常的取值;反之,若nrpv/pv小于分类阈值C51,说明该IP地址的访问正常,分类器C5的所输出的评测结果为用于表示正常的取值。
分类器D5,用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数,例如,若qpv/qv大于或等于分类阈值D51,或者,qpv/qv小于或等于分类阈值D52,说明该IP地址的访问异常,分类器D5的所输出的评测结果为用于表示异常的取值;反之,若qpv/qv大于分类阈值D52,且小于分类阈值D51,说明该IP地址的访问正常,分类器D5的所输出的评测结果为用于表示正常的取值。
分类器E5,用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例,例如,若qpv/spv大于或等于分类阈值E51,或者,qpv/spv小于或等于分类阈值E52,说明该IP地址的访问异常,分类器E5的所输出的评测结果为用于表示异常的取值;反之,若qpv/spv大于分类阈值E52,且小于分类阈值E51,说明该IP地址的访问正常,分类器E5的所输出的评测结果为用于表示正常的取值。
或者,再例如,若pgty=3,则可以获得与该分类区间所对应的一组分类器即分类器A6、分类器B6、分类器C6、分类器D6等。其中,
分类器A6,用于限定指定时间范围之内同一IP地址下每个用户标识信息的平均访问次数,例如,若pv/uv大于或等于分类阈值A61,或者,pv/uv小于或等于分类阈值A62,说明该IP地址的访问异常,分类器A6的所输出的评测结果为用于表示异常的取值;反之,若pv/uv大于分类阈值A62,且小于分类阈值A61,说明该IP地址的访问正常,分类器A6的所输出的评测结果为用于表示正常的取值。
分类器B6,用于限定指定时间范围之内同一IP地址下用户标识信息为空的访问次数与总访问次数的比例,例如,若nbpv/pv大于或等于分类阈值B61,说明该IP地址的访问异常,分类器B6的所输出的评测结果为用于表示异常的取值;反之,若nbpv/pv小于分类阈值B61,说明该IP地址的访问正常,分类器B6的所输出的评测结果为用于表示正常的取值。
分类器C6,用于限定指定时间范围之内同一IP地址下访问的来源页面为空的访问次数与总访问次数的比例,例如,若nrpv/pv大于或等于分类阈值C61,说明该IP地址的访问异常,分类器C6的所输出的评测结果为用于表示异常的取值;反之,若nrpv/pv小于分类阈值C61,说明该IP地址的访问正常,分类器C6的所输出的评测结果为用于表示正常的取值。
分类器D6,用于限定指定时间范围之内同一IP地址下每个问题页面的平均访问次数,例如,若qpv/qv大于或等于分类阈值D61,或者,qpv/qv小于或等于分类阈值D62,说明该IP地址的访问异常,分类器D6的所输出的评测结果为用于表示异常的取值;反之,若qpv/qv大于分类阈值D62,且小于分类阈值D61,说明该IP地址的访问正常,分类器D6的所输出的评测结果为用于表示正常的取值。
分类器E6,用于限定指定时间范围之内同一IP地址下问题页面与检索页面的访问次数比例,例如,若qpv/spv大于或等于分类阈值E61,或者,qpv/spv小于或等于分类阈值E62,说明该IP地址的访问异常,分类器E6的所输出的评测结果为用于表示异常的取值;反之,若qpv/spv大于分类阈值E62,且小于分类阈值E61,说明该IP地址的访问正常,分类器E6的所输出的评测结果为用于表示正常的取值。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述每个分类器所输出的评测结果和所述每个分类器的评测权重,计算加权平均值,根据所述加权平均值,获得所述IP地址的分类结果。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述每个分类器所输出的评测结果,计算算数平均值,根据所述算数平均值,获得所述IP地址的分类结果。
可选地,在本实施例的一个可能的实现方式中,在103中,如果每个分类器所输出的评测结果均为用于表示正常的取值,则可以说明该IP地址的访问正常,获得所述IP地址为正常IP地址的分类结果。反之,如果有任何一个分类器所输出的评测结果为用于表示异常的取值,则可以说明该IP地址的访问异常,获得所述IP地址为异常IP地址的分类结果。
可选地,在本实施例的一个可能的实现方式中,在104之后,还可以进一步根据所述一次过滤的用户行为数据,获取同一用户标识信息所对应的待评测的N个统计数据,N为大于或等于2的整数,进而将所述N个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果。然后,则可以根据所述每个分类器所输出的评测结果,获得同一用户标识信息的分类结果,进而根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据。
在一个具体的实现过程中,对于出口IP地址即公网IP地址集中的上网方式,例如,无线上网等,所获取的所述N个统计数据可以包括但不限于如下参数:
pv,表示指定时间范围之内同一用户标识信息下的访问次数;
nrpv,表示指定时间范围之内同一IP地址下访问的来源页面为空的访问次数;
qpv,表示指定时间范围之内同一IP地址下访问的问题页面次数;
spv,表示指定时间范围之内同一IP地址下访问的检索页面次数;
pgtyv,表示指定时间范围之内同一用户标识信息下访问所使用的终端的屏幕展现效果种类;
dvv,表示指定时间范围之内同一用户标识信息下访问所使用的操作系统种类;
bv,表示指定时间范围之内同一用户标识信息下访问所使用的浏览器种类。
这样,在102中,就可以将每个统计参数输入分别输入其对应的分类器,即分类器A7、分类器B7、分类器C7、分类器D7等。其中,
分类器A7,用于限定指定时间范围之内同一用户标识信息下的访问次数,例如,若pv大于或等于分类阈值A71,说明该用户标识信息的访问异常,分类器A7的所输出的评测结果为用于表示异常的取值;反之,若pv小于分类阈值A71,说明该用户标识信息的访问正常,分类器A7的所输出的评测结果为用于表示正常的取值。
分类器B7,用于限定指定时间范围之内同一用户标识信息下访问的来源页面为空的访问次数与总访问次数的比例,例如,若nrpv/pv大于或等于分类阈值B71,说明该用户标识信息的访问异常,分类器B7的所输出的评测结果为用于表示异常的取值;反之,若nrpv/pv小于分类阈值B71,说明该用户标识信息的访问正常,分类器B7的所输出的评测结果为用于表示正常的取值。
分类器C7,用于限定指定时间范围之内同一用户标识信息下每个问题页面的平均访问次数,例如,若qpv/qv大于或等于分类阈值C71,或者,qpv/qv小于或等于分类阈值C72,说明该用户标识信息的访问异常,分类器C7的所输出的评测结果为用于表示异常的取值;反之,若qpv/qv大于分类阈值C72,且小于分类阈值C71,说明该用户标识信息的访问正常,分类器C7的所输出的评测结果为用于表示正常的取值。
分类器D7,用于限定指定时间范围之内同一用户标识信息下问题页面与检索页面的访问次数比例,例如,若qpv/spv大于或等于分类阈值D71,或者,qpv/spv小于或等于分类阈值D72,说明该用户标识信息的访问异常,分类器D7的所输出的评测结果为用于表示异常的取值;反之,若qpv/spv大于分类阈值D72,且小于分类阈值D71,说明该用户标识信息的访问正常,分类器D7的所输出的评测结果为用于表示正常的取值。
分类器E7,用于限定指定时间范围之内同一用户标识信息下访问所使用的终端的屏幕展现效果种类,例如,若pgtyv大于或等于分类阈值E71,说明该用户标识信息的访问异常,分类器E7的所输出的评测结果为用于表示异常的取值;反之,若pgtyv小于分类阈值E71,说明该用户标识信息的访问正常,分类器E7的所输出的评测结果为用于表示正常的取值。
分类器F7,用于限定指定时间范围之内同一用户标识信息下访问所使用的操作系统种类,例如,若dvv大于或等于分类阈值F71,说明该用户标识信息的访问异常,分类器F7的所输出的评测结果为用于表示异常的取值;反之,若dvv小于分类阈值F71,说明该用户标识信息的访问正常,分类器F7的所输出的评测结果为用于表示正常的取值。
分类器G7,用于限定指定时间范围之内同一用户标识信息下访问所使用的浏览器种类,例如,若bv大于或等于分类阈值G71,说明该用户标识信息的访问异常,分类器G7的所输出的评测结果为用于表示异常的取值;反之,若bv小于分类阈值G71,说明该用户标识信息的访问正常,分类器G7的所输出的评测结果为用于表示正常的取值。
在一个具体的实现过程中,具体可以根据所述每个分类器所输出的评测结果和所述每个分类器的评测权重,计算加权平均值,根据所述加权平均值,获得所述用户标识信息的分类结果。
在另一个具体的实现过程中,具体可以根据所述每个分类器所输出的评测结果,计算算数平均值,根据所述算数平均值,获得所述用户标识信息的分类结果。
在另一个具体的实现过程中,如果每个分类器所输出的评测结果均为用于表示正常的取值,则可以说明该用户标识信息的访问正常,获得所述用户标识信息为正常用户标识信息的分类结果。反之,如果有任何一个分类器所输出的评测结果为用于表示异常的取值,则可以说明该用户标识信息的访问异常,获得所述用户标识信息为异常用户标识信息的分类结果。
在另一个具体的实现过程中,在获得二次过滤的用户行为数据之后,还可以进一步获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值。若所述比值大于或等于预先设置的阈值,对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据,进行删除处理,以获得三次过滤的用户行为数据。这样,通过对同一IP地址下的用户行为数据的整体清除处理,能够进一步提高分类结果的准确率。
在获得了全网范围之内“干净”的用户行为数据即过滤的用户行为数据(三次过滤的用户行为数据)之后,则可以进一步根据过滤的用户行为数据,进行用户行为分析,以获得用户行为特征。这样,能够有效提高用户行为分析的可靠性。
与现有方案相比,采用本发明提供的技术方案,具有以下特点:
1、充分利用了用户行为数据的统计特征。由于基于大数据的统计特征很难模仿,因此,能够显著提高过滤处理的抗干扰性和作弊难度。
2、过滤处理,本质上是一个分类问题。在PC端和无线端,本发明提供的技术方案能够分别根据IP地址的访问负荷和终端的屏幕展现效果种类设计分段策略,本质上增加了分类器分类面的维度,从而提高了分类结果的准确率,能够有效保证用户行为数据过滤的可靠性。
本实施例中,通过根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数,进而将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,并根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果,使得能够根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据,由于每个分类器是分别针对不同的统计数据,使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果,从而提高了分类结果的准确率。
另外,采用本发明提供的技术方案,使得用户行为数据的分类结果不再单独依赖于任何一个分类器的评测结果,而是综合考虑M个分类器中每个分类器的评测结果,这样,能够有效提高分类结果的准确率。
另外,采用本发明提供的技术方案,通过从IP地址和用户标识信息这两个维度,对用户行为数据进行过滤处理,能够较为准确地刻画用户行为特征,能够有效提高分类结果的准确率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的用户行为数据的处理装置的结构示意图,如图2所示。本实施例的用户行为数据的处理装置可以包括获取单元21、分类单元22、处理单元23和过滤单元24。其中,获取单元21,用于根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数;分类单元22,用于将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;处理单元23,用于根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果;过滤单元24,用于根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据。
需要说明的是,本实施例所提供的用户行为数据的处理装置可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的分类引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,所述分类单元22,具体可以用于根据所述M个统计数据中指定统计数据所属的分类区间,获得与所述分类区间对应的一组分类器;以及将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器,以获得每个分类器所输出的评测结果。
可选地,在本实施例的一个可能的实现方式中,
所述获取单元21,还可以进一步用于根据所述一次过滤的用户行为数据,获取同一用户标识信息所对应的待评测的N个统计数据,N为大于或等于2的整数;
所述分类单元22,还可以进一步用于将所述N个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
所述处理单元23,还可以进一步用于根据所述每个分类器所输出的评测结果,获得同一用户标识信息的分类结果;
所述过滤单元24,还可以进一步用于根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据。
进一步地,所述过滤单元24,还可以进一步用于获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值;以及若所述比值大于或等于预先设置的阈值,对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据,进行删除处理,以获得三次过滤的用户行为数据。
可选地,在本实施例的一个可能的实现方式中,如图3所示,本实施例所提供的用户行为数据的处理装置还可以进一步包括分析单元31,用于根据过滤的用户行为数据,进行用户行为分析,以获得用户行为特征。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的用户行为数据的处理装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过获取单元根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数,进而由分类单元将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,并由处理单元根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果,使得过滤单元能够根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据,由于每个分类器是分别针对不同的统计数据,使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果,从而提高了分类结果的准确率。
另外,采用本发明提供的技术方案,使得用户行为数据的分类结果不再单独依赖于任何一个分类器的评测结果,而是综合考虑M个分类器中每个分类器的评测结果,这样,能够有效提高分类结果的准确率。
另外,采用本发明提供的技术方案,通过从IP地址和用户标识信息这两个维度,对用户行为数据进行过滤处理,能够较为准确地刻画用户行为特征,能够有效提高分类结果的准确率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种用户行为数据的处理方法,其特征在于,包括:
根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数;
将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果;
根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据;其中,
所述根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据之后,还包括:
根据所述一次过滤的用户行为数据,获取同一用户标识信息所对应的待评测的N个统计数据,N为大于或等于2的整数;
将所述N个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
根据所述每个分类器所输出的评测结果,获得同一用户标识信息的分类结果;
根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据;
获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值;
若所述比值大于或等于预先设置的阈值,对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据,进行删除处理,以获得三次过滤的用户行为数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,包括:
根据所述M个统计数据中指定统计数据所属的分类区间,获得与所述分类区间对应的一组分类器;
将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器,以获得每个分类器所输出的评测结果。
3.根据权利要求1~2任一权利要求所述的方法,其特征在于,所述根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据之后,还包括:
根据过滤的用户行为数据,进行用户行为分析,以获得用户行为特征。
4.一种用户行为数据的处理装置,其特征在于,包括:
获取单元,用于根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数;
分类单元,用于将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
处理单元,用于根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果;
过滤单元,用于根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据;其中,
所述获取单元,还用于
根据所述一次过滤的用户行为数据,获取同一用户标识信息所对应的待评测的N个统计数据,N为大于或等于2的整数;
所述分类单元,还用于
将所述N个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;
所述处理单元,还用于
根据所述每个分类器所输出的评测结果,获得同一用户标识信息的分类结果;
所述过滤单元,还用于
根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据;
获得同一IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值;以及
若所述比值大于或等于预先设置的阈值,对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据,进行删除处理,以获得三次过滤的用户行为数据。
5.根据权利要求4所述的装置,其特征在于,所述分类单元,具体用于
根据所述M个统计数据中指定统计数据所属的分类区间,获得与所述分类区间对应的一组分类器;以及
将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器,以获得每个分类器所输出的评测结果。
6.根据权利要求4~5任一权利要求所述的装置,其特征在于,所述装置还包括分析单元,用于
根据过滤的用户行为数据,进行用户行为分析,以获得用户行为特征。
CN201510145888.2A 2015-03-30 2015-03-30 用户行为数据的处理方法及装置 Active CN104731937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510145888.2A CN104731937B (zh) 2015-03-30 2015-03-30 用户行为数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510145888.2A CN104731937B (zh) 2015-03-30 2015-03-30 用户行为数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN104731937A CN104731937A (zh) 2015-06-24
CN104731937B true CN104731937B (zh) 2018-05-01

Family

ID=53455824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510145888.2A Active CN104731937B (zh) 2015-03-30 2015-03-30 用户行为数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN104731937B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919579B (zh) * 2015-12-24 2020-11-06 腾讯科技(深圳)有限公司 一种信息处理方法及装置、设备
CN106936781B (zh) * 2015-12-29 2019-11-15 亿阳安全技术有限公司 一种用户操作行为的判定方法及装置
CN107911397B (zh) * 2018-01-02 2020-10-30 北京奇艺世纪科技有限公司 一种威胁评估方法及装置
CN111259252B (zh) * 2020-01-22 2022-09-30 腾讯科技(深圳)有限公司 用户标识识别方法、装置、计算机设备及存储介质
CN112804374B (zh) * 2021-01-06 2023-11-03 光通天下网络科技股份有限公司 威胁ip识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218431A (zh) * 2013-04-10 2013-07-24 金军 一种能识别网页信息自动采集的系统与方法
CN103294669A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 一种基于用户行为的反作弊方法和系统
CN103323749A (zh) * 2013-05-16 2013-09-25 上海交通大学 多分类器信息融合的局部放电诊断方法
CN103795612A (zh) * 2014-01-15 2014-05-14 五八同城信息技术有限公司 即时通讯中的垃圾和违法信息检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294669A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 一种基于用户行为的反作弊方法和系统
CN103218431A (zh) * 2013-04-10 2013-07-24 金军 一种能识别网页信息自动采集的系统与方法
CN103323749A (zh) * 2013-05-16 2013-09-25 上海交通大学 多分类器信息融合的局部放电诊断方法
CN103795612A (zh) * 2014-01-15 2014-05-14 五八同城信息技术有限公司 即时通讯中的垃圾和违法信息检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征分析的多分类器融合的网络入侵检测;张莉等;《计算机工程与应用》;20041231;第13-14页 *

Also Published As

Publication number Publication date
CN104731937A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN104731937B (zh) 用户行为数据的处理方法及装置
CN105824813B (zh) 一种挖掘核心用户的方法及装置
CN103793484B (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
CN103198161B (zh) 微博水军识别方法与设备
US8413250B1 (en) Systems and methods of classifying sessions
CN108334758A (zh) 一种用户越权行为的检测方法、装置及设备
CN102315953B (zh) 基于帖子的出现规律来检测垃圾帖子的方法及设备
CN110321424B (zh) 一种基于深度学习的艾滋病人员行为分析方法
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN110781308A (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN106682212A (zh) 一种基于用户移动行为的社会关系分类方法与装置
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN104348871B (zh) 一种同类账号扩展方法及装置
CN109325232A (zh) 一种基于lda的用户行为异常分析方法、系统及存储介质
CN108304853A (zh) 游戏相关度的获取方法、装置、存储介质和电子装置
CN107409134A (zh) 法证分析
CN107220745A (zh) 一种意图行为数据的识别方法、系统及设备
CN112750030A (zh) 风险模式识别方法、装置、设备及计算机可读存储介质
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN110147427A (zh) 项目案件推送方法以及装置
CN109426700A (zh) 数据处理方法、装置、存储介质和电子装置
CN109558555A (zh) 基于人工免疫危险理论的微博水军检测方法及检测系统
CN109816004A (zh) 房源图片分类方法、装置、设备及存储介质
CN110457601A (zh) 社交账号的识别方法和装置、存储介质及电子装置
CN107291616A (zh) 一种项目报告在线生成平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant