CN105302911B

CN105302911B - 一种数据筛选引擎建立方法及数据筛选引擎

Info

Publication number: CN105302911B
Application number: CN201510763075.XA
Authority: CN
Inventors: 余建兴
Original assignee: ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Current assignee: ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Priority date: 2015-11-10
Filing date: 2015-11-10
Publication date: 2018-12-21
Anticipated expiration: 2035-11-10
Also published as: CN105302911A

Abstract

本发明实施例公开一种数据筛选引擎建立方法及数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。本发明实施例数据筛选引擎建立方法包括：提取已注册的用户的基础信息和用户对应的历史行为数据；根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

Description

一种数据筛选引擎建立方法及数据筛选引擎

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据筛选引擎建立方法及数据筛选引擎。

背景技术

随着网络游戏的发展，一些通过作弊程序获取经济利益的灰色产业也膨胀起来。这些作弊程序一般通过机器模拟合法用户的行为，以刷礼品，刷人气等为手段，大量消耗网络资源，严重影响平台生态的发展。为了识别这些作弊程序，一般需要构建黑白名单库，并基于该库训练出识别模型。其中黑名单一般代表使用作弊程序的账号，白名单代表合法用户帐号。黑白名单的构建一般基于历史沉淀，从大量的用户反馈和人工观察标注等记录中获取。但对于一些新业务，历史积累不足而且用户反馈缺乏，没有形成判定的标准。采用人工标注的方式来汇总黑白名单，人工量很大而且构建速度很慢。

传统方法一般靠人工观察以及业务经验，从大量的结果数据中总结出规律，进而构建黑白名单。但对于一些新业务，如游戏直播，由于缺乏历史的积累，没有形成判定的标准。另一方面，业务的用户量很大，每天有数千万的用户行为数据，伪账号跟正常用户帐户混淆在一起。人工的方法很难甚至不可能从海量的用户行为中总结出区分出黑白名单的规则。

上述提及的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题，已经成为了本领域技术人员亟待解决的技术问题。

发明内容

本发明实施例提供了一种数据筛选引擎建立方法及数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。

本发明实施例中提供的一种数据筛选引擎建立方法，包括：

提取已注册的用户的基础信息和所述用户对应的历史行为数据；

根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；

根据所述特征向量，并再次结合复数个所述业务逻辑确定高置信度名单；

对所述高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

可选地，提取已注册的用户的基础信息和所述用户对应的历史行为数据具体包括：

通过接入客户端提取已注册的所述用户的所述基础信息；

提取与所述用户对应的所述历史所述行为数据，所述行为数据包括登录行为数据、观看行为数据、消费行为数据和互动行为数据。

可选地，根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量之前还包括：

建立复数个所述业务逻辑，所述业务逻辑与非常规注册方式相对应。

可选地，根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量具体包括：

根据所述基础信息和所述历史行为数据定义相对应的复数个特征；

根据所述基础信息和所述历史行为数据，并结合所述业务逻辑量化出与所述业务逻辑相对应的复数个衍生特征；

根据复数个所述特征和/或复数个所述衍生特征，并结合所述业务逻辑建立相关联的复数个所述特征向量；

其中，所述特征向量为通过预置方式进行归一化处理的所述特征向量。

可选地，根据所述特征向量，并再次结合复数个所述业务逻辑确定高置信度名单具体包括：

对复数个所述特征向量采用聚类方法进行基于所述用户的类别分类，确定每个所述类别对应的所述特征向量；

对每个所述类别对应的所述特征向量再次结合复数个所述业务逻辑确定所述高置信度名单，并将所述高置信度名单设定为每个所述类别对应的参考样本。

可选地，预置分析方式具体包括：

所述高置信度名单的自身特征信息分析，以及每个所述类别对应的参考样本和所述高置信度名单的自身特征信息的相关性分析。

本发明实施例中提供的一种数据筛选引擎，包括：

数据接入单元，被配置为提取已注册的用户的基础信息和所述用户对应的历史行为数据；

特征构造单元，被配置为根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；

确定单元，被配置为根据所述特征向量，并再次结合复数个所述业务逻辑确定高置信度名单；

规则建立单元，被配置为对所述高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

可选地，所述数据接入单元具体包括：

基础信息采集子单元，被配置为通过接入客户端提取已注册的所述用户的所述基础信息；

行为数据采集子单元，被配置为提取与所述用户对应的所述历史所述行为数据；

所述行为数据采集子单元包括：登录行为数据采集模块、观看行为数据采集模块、消费行为数据采集子单元和互动行为数据采集模块。

可选地，所述数据筛选引擎还包括：

建立单元，被配置为建立复数个所述业务逻辑，所述业务逻辑与非常规注册方式相对应。

可选地，特征构造单元具体包括：

特征定义子单元，被配置为根据所述基础信息和所述历史行为数据定义相对应的复数个特征；

特征衍生子单元，被配置为根据所述基础信息和所述历史行为数据，并结合所述业务逻辑量化出与所述业务逻辑相对应的复数个衍生特征；

特征向量构建子单元，被配置为根据复数个所述特征和/或复数个所述衍生特征，并结合所述业务逻辑建立相关联的复数个所述特征向量；

可选地，确定单元具体包括：

无监督聚类子单元，被配置为对复数个所述特征向量采用聚类方法进行基于所述用户的类别分类，确定每个所述类别对应的所述特征向量；

特征验证子单元，被配置为对每个所述类别对应的所述特征向量再次结合复数个所述业务逻辑确定所述高置信度名单，并将所述高置信度名单设定为每个所述类别对应的参考样本。

可选地，规则建立单元包括：

第一规则建立子单元，被配置为对所述高置信度名单通过采用所述高置信度名单的自身特征信息进行分析，建立相对应的所述数据筛选规则；

第二规则建立子单元，被配置为对所述高置信度名单通过采用对每个所述类别对应的参考样本和所述高置信度名单的自身特征信息的相关性进行分析，建立相对应的所述数据筛选规则。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供的一种数据筛选引擎建立方法及数据筛选引擎，其中，数据筛选引擎建立方法包括：提取已注册的用户的基础信息和用户对应的历史行为数据；根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。本实施例中，通过基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则，便建立了可进行黑白名单筛选的数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中提供的一种数据筛选引擎建立方法的一个实施例的流程示意图；

图2为本发明实施例中提供的一种数据筛选引擎建立方法的另一个实施例的流程示意图；

图3为本发明实施例中提供的一种数据筛选引擎建立方法的另一个实施例的流程示意图；

图4为本发明实施例中提供的一种数据筛选引擎的一个实施例的结构示意图；

图5为本发明实施例中提供的一种数据筛选引擎的另一个实施例的结构示意图；

图6为本发明实施例中提供的一种数据筛选引擎的另一个实施例的结构示意图；

图7为图3实施例对应的操作界面示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在网络直播，例如通过直播平台进行游戏直播的观看等，首先需要用户注册，才可以获取进入直播平台进行观看，目前存在一些用户是通过作弊机器进行注册，因此，需要对直播平台的注册用户进行黑白名单的区分。

请参阅图1，本发明实施例中提供的一种数据筛选引擎建立方法的一个实施例包括：

101、提取已注册的用户的基础信息和用户对应的历史行为数据；

本实施例中，当需要对直播平台的注册用户进行黑白名单的区分之前，首先需要建立数据筛选引擎，第一步为提取已注册的用户的基础信息和用户对应的历史行为数据。

102、根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；

当提取已注册的用户的基础信息和用户对应的历史行为数据之后，需要根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量。

103、根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；

当根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量之后，需要根据特征向量，并再次结合复数个业务逻辑确定高置信度名单。

104、对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

当根据特征向量，并再次结合复数个业务逻辑确定高置信度名单之后，需要对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

本实施例中，通过基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则，便建立了可进行黑白名单筛选的数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。

上面是对数据筛选引擎建立方法的过程进行详细的描述，下面将对附加步骤和特征向量的具体确定过程进行详细的描述，请参阅图2，本发明实施例中提供的一种数据筛选引擎建立方法的另一个实施例包括：

201、通过接入客户端提取已注册的用户的基础信息；

本实施例中，当需要对直播平台的注册用户进行黑白名单的区分之前，首先需要建立数据筛选引擎，通过接入客户端提取已注册的用户的基础信息。

其中，用户的基础信息指用户在客户端(如YY客户端)的记录，包括用户名，年龄，性别，注册地，注册IP，等级，昵称，简介，客户端登录状况等信息。

202、提取与用户对应的历史行为数据；

步骤201的通过接入客户端提取已注册的用户的基础信息的同时，需要提取与用户对应的历史行为数据，行为数据包括登录行为数据、观看行为数据、消费行为数据和互动行为数据。

例如，行为数据指游戏直播平台(如YY虎牙直播)记录的用户在各个频道中的行为，包括用户的登录，观看，消费(如送花，送道具等)，以及互动行为(如留言等)，具体地，包括在统计日起前i天(i＝1,3,7,14,21,28,30等)用户累计的登录次数/天数/时长，登录时段，登录IP以及相关频次，观看直播累计的次数/天数/时长/时段，消费次数/天数/金额/时段，留言的时段等；其中时段是行为发生的具体时间。

203、建立复数个业务逻辑，业务逻辑与非常规注册方式相对应；

在步骤204之前，需要建立复数个业务逻辑，业务逻辑与非常规注册方式相对应，

例如游戏直播，区分使用机器作弊程序的账号和合法用户，有下面的业务逻辑：

机器作弊账号通常是由机器程序批量申请的；为了维护程序方便，通常使用一些正则表达式自动生成账号名。为了避免账号重名而保证申请账号的通过率，机器申请的账号名通常比较长，而且混合字母数字，账号名字母乱序且语义不强。相对地，正常用户为了方便记忆，账号名通常具有语义，而且长度偏短；

机器作弊账号通常使用代理IP注册账号，部分IP会注册数百个账号。相对地，正常用户用于注册账号的IP分配比较唯一，该IP一般只会注册少量的账号；

机器作弊程序通常使用代理IP同时登录数百个账号；而正常用户一般只会使用个人电脑(即一个IP一台机器)开少量账号，通常最多开三个账号。

机器作弊程序为了通过给某个频道刷人气而获取利益，会提供批量处理功能，如“一键留言”，“一键刷花”。具体地，在游戏直播的互动信息中，作弊账号会短期内同时产生大量的互动行为，譬如同时刷花。另一方面，正常用户一般需要时间输入互动信息，互动行为有一定的行为间隔。

204、根据基础信息和历史行为数据定义相对应的复数个特征；

当提取已注册的用户的基础信息和用户对应的历史行为数据之后，需要根据基础信息和历史行为数据定义相对应的复数个特征。

前述的特征可以是基础信息和历史行为数据的内容，此处不做具体限定。

205、根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征；

当根据基础信息和历史行为数据定义相对应的复数个特征之前或同时或之后，需要根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征。

需要说明的是，前述的衍生特征可以是根据用户基础信息和行为数据量化出一些业务的衍生特征，用于刻画用户的状况，部分特征如下：

账号名的长度是否大于15个字符，是否文字和数据混杂，是否含有中文姓名拼音(i.e.人口数据库中获取)，是否含有英文姓名和英文常用词；

账号注册时记录下的IP，该IP被注册账号的次数；譬如某个IP被10个账号注册了，那么次数为10。

账号登录时记录下的IP，该IP被不同账号登录的次数；譬如某个IP被10个账号登录了，那么次数为10。

账号与其他账号在同一时间区间有互动行为的次数，包括发言，送花等。譬如用户在10点00分发言一次，在这个时刻前后这三分钟时间区间内，如果有其他用户发言，那么累积计数一次。

206、根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量；

当根据基础信息和历史行为数据定义相对应的复数个特征，且/或者根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征之后，需要根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量。

需要说明的是，前述的根据复数个特征和/或复数个衍生特征，可以是根据复数个特征，或者是复数个衍生特征，或者是根据复数个特征和复数个衍生特征的组合，再结合业务逻辑建立相关联的复数个特征向量。

前述的特征向量为通过预置方式进行归一化处理的特征向量，例如每个特征或衍生特征对应的特征值作为特征向量的一个元素，向量的维度则为前述的特征或衍生特征。每个向量元素的数值范围不统一，譬如特征为登录时长，其特征值的范围可能在1到3600之间，和特征为登录次数，其特征值的范围可能在1到100次内。需要对特征向量进行归一化，在实施过程中采用最大值-最小值归一化，即为(预置特征值-该维元素最小值)/(该维元素最大值-该维元素最小值)，前述的预置特征值可以是每个特征或衍生特征对应的非作弊用户的平均特征值，或者是根据经验自定义的非作弊用户的常规特征值，例如登录次数的预置特征值的平均特征值或常规特征值为50次，此处具体不做限定。

207、根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；

当根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量之后，需要根据特征向量，并再次结合复数个业务逻辑确定高置信度名单。

208、对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

本实施例中，通过基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则，便建立了可进行黑白名单筛选的数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题，进一步地，根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征，以及通过预置方式进行归一化处理的特征向量，大大地提高了后续的黑白名单筛选的精确性。

上面是对附加步骤和特征向量的具体确定过程进行详细的描述，下面将对根据特征向量，并再次结合复数个业务逻辑确定高置信度名单，以及具体的分析方式进行详细的描述，请参阅图3，本发明实施例中提供的一种数据筛选引擎建立方法的另一个实施例包括：

301、通过接入客户端提取已注册的用户的基础信息；

302、提取与用户对应的历史行为数据；

步骤301的通过接入客户端提取已注册的用户的基础信息的同时，需要提取与用户对应的历史行为数据，行为数据包括登录行为数据、观看行为数据、消费行为数据和互动行为数据。

303、建立复数个业务逻辑，业务逻辑与非常规注册方式相对应；

在步骤304之前，需要建立复数个业务逻辑，业务逻辑与非常规注册方式相对应，

例如图7所示的机器作弊程序，在游戏直播中，区分使用机器作弊程序的账号和合法用户，有下面的业务逻辑：

304、根据基础信息和历史行为数据定义相对应的复数个特征；

305、根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征；

306、根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量；

307、对复数个特征向量采用聚类方法进行基于用户的类别分类，确定每个类别对应的特征向量；

当根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量之后，需要对复数个特征向量采用聚类方法进行基于用户的类别分类，确定每个类别对应的特征向量。

需要说明的是，考虑到用户的行为多样，对应的状态类别也有多种，譬如对于游戏直播的机器作弊账号识别，除了有机器作弊和正常用户，还有行为表象偏两者之间的用户，例如由于缺乏历史的积累，不了解作弊用户的数学特征，无法有效地刻画其行为。为了从复杂的用户行为中准确地识别出黑白名单，首先采用聚类的方法识别用户类，采用K-means作为聚类模型，该模型采用距离作为相似性的衡量指标，即认为两个特性向量的距离越近，其相似度就越大；其中距离定义为特征向量的内积，前述的K-means聚类为本领域技术人员公知的技术，此处便不再赘述。

308、对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单，并将高置信度名单设定为每个类别对应的参考样本；

当对复数个特征向量采用聚类方法进行基于用户的类别分类，确定每个类别对应的特征向量之后，需要对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单，并将高置信度名单设定为每个类别对应的参考样本。

例如对于每个类别的用户，通过业务逻辑识别高置信度的黑白名单。具体地，根据步骤303描述的4种机器作弊的业务逻辑，逐个检查各类用户，找出最符合4类业务逻辑的用户群。譬如从业务逻辑可知，作弊账号通常由正则表达式生成，即用户名长度一致，字符呈枚举状态。基于这种业务逻辑，通过观察每类用户的账号名，挑选出那些含有无语义字段并呈枚举状态的用户类。类似地，筛选出那些通过代理IP注册并登录平台的，互动信息群发的用户群。这些用户群可以高自信度地认为是作弊的黑名单。对应地，根据正常用户的业务逻辑，观察筛选出合法用户(即白名单)。

309、对高置信度名单通过采用自身特征信息分析，以及每个类别对应的参考样本和高置信度名单的自身特征信息的相关性分析，建立相对应的数据筛选规则。

当对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单，并将高置信度名单设定为每个类别对应的参考样本之后，需要对高置信度名单通过采用自身特征信息分析，以及每个类别对应的参考样本和高置信度名单的自身特征信息的相关性分析，建立相对应的数据筛选规则。

例如从特征自身信息量方面，重要的特征携带信息较多，即特征值差异较大；衡量的方法包括4类指标，如下：

1)数值型特征变异系数小于某阀值，则该变量视为不重要变量；

2)数值型特征标差小于某阀值，则该变量不重要；

前述的维度特征是数值型，譬如充值金额，登录时长等，计算该特征对应的两组统计值，包括变异系数(＝正态分布的标准差/平均值)和标准差；

3)分类型特征若某类别值的个数大于某阀值，则该变量不重要；

4)分类型特征若类别值的数量大于某阀值，则该变量不重要；

前述的该维度特征是类别型，譬如性别，注册地等，计算该特征对应的两组统计值，包括类别的频率(譬如性别，类别值可能是3类，如男女其他，这三种值出现的频次)，和类别的数量(譬如性别，类别值可能是3类，如男女其他；对于注册地，类别值可能是30多个省)；

前述的两类统计，输出一些区分度比较高的特征，即比较重要的特征。这些重要特征的判断规则如下：a)对于维度特征是数值型的，重要的特征一般变异系数比较大，标准差比较大；譬如标准差是0的特征，代表所有特征值都是一样的，区分度为0，这类特征就不重要；相反，如果标准差比较大，那么该特征区分度就大；b)如果该维度特征是类别型，重要的特征一般类别的频率和数量都比较平均；譬如如果一类的样本，99％的类别都是男的，那么该特征区分度很小，即不重要。

从特征和样本名单类别之间，两者相关性值越可靠，特征越重要；包括三方面检验：

1)pearson相关系数检验，用于衡量定距变量间的线性相关关系。

计算公式，譬如对于维度性别，譬如有5个样本，性别分别为男，男，女，女，女，其对应的黑白名单标签分别为黑，黑，白，白，白，那么x就是男/女代表的值，y就是黑白代表的值；

根据以上公式计算出来对应的相关系数r；

2)方差分析检验；

譬如：样本标准偏差的平方，即(“^2”是表示平方)：S^2＝∑(X-X平均)^2/(n-1)，两组数据(即以上的某维度特征x，和黑白标签y)就能得到两个S^2值，S大^2和S小^2；那么F＝S大^2/S小^2，由表中f大和f小(f为自由度n-1)，查得F表，然后计算的F值与查表得到的F表值比较，如果F<F表表明两组数据没有显著差异；

F≥F表，表明两组数据存在显著差异。

3)卡方检验；

譬如将计算所得的x2值与临界x2值(负值都取绝对值)作比较，若计算值大于临界值，则否定Ⅱ0；反之，则承认Ⅱ0。

计算卡方值的公式一般可表示为：x2＝∑[(fo—fc)2/fc]；

式中：fo表示实际所得的次数，fc表示由假设而定的理论次数，∑为加总符号。

本实施例中，通过基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则，便建立了可进行黑白名单筛选的数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题，进一步地，根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征，以及通过预置方式进行归一化处理的特征向量，大大地提高了后续的黑白名单筛选的精确性，以及，先采用聚类方法，再结合复数个业务逻辑确定高置信度名单，实现了除有机器作弊和正常用户，还有行为表象偏两者之间的用户时，先对用户进行类别，再一次提高了后续的黑白名单筛选的精确性。

请参阅图4，本发明实施例中提供的一种数据筛选引擎一个实施例包括：

数据接入单元401，被配置为提取已注册的用户的基础信息和用户对应的历史行为数据；

特征构造单元402，被配置为根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；

确定单元403，被配置为根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；

规则建立单元404，被配置为对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

本实施例中，通过特征构造单元402基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；确定单元403根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；规则建立单元404对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则，便建立了可进行黑白名单筛选的数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。

上面是对数据筛选引擎的各单元进行详细的描述，下面将对数据接入单元和特征构造单元的具体子单元进行详细的描述，请参阅图5，本发明实施例中提供的一种数据筛选引擎另一个实施例包括：

数据接入单元501，被配置为提取已注册的用户的基础信息和用户对应的历史行为数据；

数据接入单元501具体包括：

基础信息采集子单元5011，被配置为通过接入客户端提取已注册的用户的基础信息；

行为数据采集子单元5012，被配置为提取与用户对应的历史行为数据；

行为数据采集子单元5012包括：登录行为数据采集模块5012a、观看行为数据采集模块5012b、消费行为数据采集子单元5012c和互动行为数据采集模块5012d。

建立单元502，被配置为建立复数个业务逻辑，业务逻辑与非常规注册方式相对应。

特征构造单元503，被配置为根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；

特征构造单元503具体包括：

特征定义子单元5031，被配置为根据基础信息和历史行为数据定义相对应的复数个特征；

特征衍生子单元5032，被配置为根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征；

特征向量构建子单元5033，被配置为根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量；

其中，特征向量为通过预置方式进行归一化处理的特征向量。

确定单元504，被配置为根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；

规则建立单元505，被配置为对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

本实施例中，通过特征构造单元503基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；确定单元504根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；规则建立单元505对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则，便建立了可进行黑白名单筛选的数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题，进一步地，特征衍生子单元5032根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征，以及通过预置方式进行归一化处理的特征向量，大大地提高了后续的黑白名单筛选的精确性。

上面是对数据接入单元和特征构造单元的具体子单元进行详细的描述，下面将对确定单元的子单元进行详细的描述，请参阅图6，本发明实施例中提供的一种数据筛选引擎另一个实施例包括：

数据接入单元601，被配置为提取已注册的用户的基础信息和用户对应的历史行为数据；

数据接入单元601具体包括：

基础信息采集子单元6011，被配置为通过接入客户端提取已注册的用户的基础信息；

行为数据采集子单元6012，被配置为提取与用户对应的历史行为数据；

行为数据采集子单元6012包括：登录行为数据采集模块6012a、观看行为数据采集模块6012b、消费行为数据采集子单元6012c和互动行为数据采集模块6012d。

建立单元602，被配置为建立复数个业务逻辑，业务逻辑与非常规注册方式相对应。

特征构造单元603，被配置为根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；

特征构造单元603具体包括：

特征定义子单元6031，被配置为根据基础信息和历史行为数据定义相对应的复数个特征；

特征衍生子单元6032，被配置为根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征；

特征向量构建子单元6033，被配置为根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量；

确定单元604，被配置为根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；

确定单元604具体包括：

无监督聚类子单元6041，被配置为对复数个特征向量采用聚类方法进行基于用户的类别分类，确定每个类别对应的特征向量；

特征验证子单元6042，被配置为对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单，并将高置信度名单设定为每个类别对应的参考样本。

规则建立单元605，被配置为对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。

规则建立单元605包括：

第一规则建立子单元6051，被配置为对高置信度名单通过采用高置信度名单的自身特征信息进行分析，建立相对应的数据筛选规则；

第二规则建立子单元6052，被配置为对高置信度名单通过采用对每个类别对应的参考样本和高置信度名单的自身特征信息的相关性进行分析，建立相对应的数据筛选规则。

本实施例中，通过特征构造单元603基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；确定单元604根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；规则建立单元605对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则，便建立了可进行黑白名单筛选的数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题，进一步地，特征衍生子单元6032根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征，以及通过预置方式进行归一化处理的特征向量，大大地提高了后续的黑白名单筛选的精确性，以及，无监督聚类子单元6041先采用聚类方法，特征验证子单元6042再结合复数个业务逻辑确定高置信度名单，实现了除有机器作弊和正常用户，还有行为表象偏两者之间的用户时，先对用户进行类别，再一次提高了后续的黑白名单筛选的精确性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据筛选引擎建立方法，其特征在于，包括：

对所述高置信度名单的自身特征信息进行分析，建立相对应的数据筛选规则。

2.根据权利要求1所述的数据筛选引擎建立方法，其特征在于，提取已注册的用户的基础信息和所述用户对应的历史行为数据具体包括：

通过接入客户端提取已注册的所述用户的所述基础信息；

提取与所述用户对应的所述历史行为数据，所述历史行为数据包括登录行为数据、观看行为数据、消费行为数据和互动行为数据。

3.根据权利要求1或2所述的数据筛选引擎建立方法，其特征在于，根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量之前还包括：

4.根据权利要求3所述的数据筛选引擎建立方法，其特征在于，根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量具体包括：

5.根据权利要求4所述的数据筛选引擎建立方法，其特征在于，根据所述特征向量，并再次结合复数个所述业务逻辑确定高置信度名单具体包括：

6.根据权利要求5所述的数据筛选引擎建立方法，其特征在于，对所述高置信度名单的自身特征信息进行分析具体包括：

对所述高置信度名单的自身特征信息进行分析，以及对每个所述类别对应的参考样本和所述高置信度名单的自身特征信息的相关性进行分析。

7.一种数据筛选引擎，其特征在于，包括：

规则建立单元，被配置为对所述高置信度名单的自身特征信息进行分析，建立相对应的数据筛选规则。

8.根据权利要求7所述的数据筛选引擎，其特征在于，所述数据接入单元具体包括：

历史行为数据采集子单元，被配置为提取与所述用户对应的所述历史行为数据；

所述历史行为数据采集子单元包括：登录行为数据采集模块、观看行为数据采集模块、消费行为数据采集子单元和互动行为数据采集模块。

9.根据权利要求7或8所述的数据筛选引擎，其特征在于，所述数据筛选引擎还包括：

10.根据权利要求9所述的数据筛选引擎，其特征在于，特征构造单元具体包括：

11.根据权利要求10所述的数据筛选引擎，其特征在于，确定单元具体包括：

12.根据权利要求11所述的数据筛选引擎，其特征在于，规则建立单元包括：