CN106789844A

CN106789844A - 一种恶意用户识别方法及装置

Info

Publication number: CN106789844A
Application number: CN201510817774.8A
Authority: CN
Inventors: 赵宏伟; 陈静; 陈弢
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2017-05-31
Anticipated expiration: 2035-11-23
Also published as: CN111629010A; CN111629010B; CN106789844B

Abstract

本申请涉及计算机网络与信息技术领域，尤其涉及一种恶意用户识别方法及装置。本申请提供的恶意用户识别方法包括：根据获取的记录电子数据转移行为的白样本和黑样本，从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量；针对任一待识别用户的电子数据转移行为记录，根据该待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为的一条电子数据转移行为记录；若确定所述待识别用户的电子数据转移行为记录为电子数据批量转移行为的一条电子数据转移行为记录，则确定所述待识别用户为恶意用户。

Description

一种恶意用户识别方法及装置

技术领域

本申请涉及计算机网络与信息技术领域，尤其涉及一种恶意用户识别方法及装置。

背景技术

随着互联网信息技术的发展，越来越多的服务方倾向于通过网络为用户提供业务服务，但也同时带来了很多不诚信的网络行为。比如有的服务方会通过批量操作来达到提高自身信用度的目的，由于服务方的信用度并不真实，从而降低了网络服务的安全性。

目前，一般通过识别批量操作中的批量注册行为，以及识别批量交易行为来达到对上述批量操作行为的识别。但是，目前非法人员在进行批量注册时一般采用模拟器、社会化分工的方式来规避在注册阶段对批量操作行为的识别，而且，很多合法用户也会体现出批量注册的行为，比如，在网吧共用一台电脑注册的用户，其注册使用的互联网协议(Internet Protocol，IP)地址、媒体接入控制(MediumAccessControl，MAC)地址都是相同的。另外，由于交易行为的实时性特点，在交易中实时进行批量操作行为识别的复杂度较高，而且容易造成对合法用户的交易行为的拦截，解释成本较高。

发明内容

本申请实施例提供一种恶意用户识别方法及装置，用以解决在识别具有批量操作行为的恶意用户时，现有的基于批量注册和批量交易行为的识别方式，对恶意用户的识别准确率较低的问题。

本申请实施例提供一种恶意用户识别方法，包括：

根据获取的记录电子数据转移行为的白样本和黑样本，从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量；其中，每个黑样本为电子数据批量转移行为的一条电子数据转移行为记录，每个白样本为一条非批量的电子数据转移行为记录；

针对任一待识别用户的电子数据转移行为记录，根据该待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为；

若确定所述待识别用户的电子数据转移行为记录为电子数据批量转移行为，则确定所述待识别用户为恶意用户。

可选地，根据获取的记录电子数据转移行为的白样本和黑样本，从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量，包括：

根据获取的记录电子数据转移行为的白样本和黑样本，确定待筛选的用于识别电子数据批量转移行为的多个特征变量的信息值IV，以及不同特征变量之间的相关性系数；

基于确定的所述多个特征变量的IV，以及不同特征变量之间的相关性系数，对所述多个特征变量进行筛选，使得筛选出的特征变量的IV大于第一阈值、且筛选出特征变量之间的相关性系数小于第二阈值。

可选地，根据以下公式确定任一特征变量的信息值IV：

其中，pn_i表示具有该特征变量的第i个特征值区间中的特征值的黑样本数目占获取的黑样本总数目的比例，py_i表示具有该特征变量的第i个特征值区间中的特征值的白样本数目占获取的白样本总数目的比例，WOE_i表示该特征变量的第i个特征值区间对应的证明力权重，m为该种特征变量的特征值区间数目。

可选地，根据以下公式确定任意两个特征变量之间的相关系数：

其中，n为黑样本和白样本的总样本个数，X_i为第i个样本在特征变量X下的特征值，为所有样本在特征变量X下的特征值的平均值，Y_i为第i个样本在特征变量Y下的特征值，为所有样本在特征变量Y下的特征值的平均值。

可选地，基于确定的所述多个特征变量的IV，以及不同特征变量之间的相关性系数，对所述多个特征变量进行筛选，包括：

基于确定的所述多个特征变量的IV，以及不同特征变量之间的相关性系数，筛选出IV大于第一阈值、且两两之间的相关性系数大于第二阈值的特征变量；

若筛选出的特征变量数量大于L，则从筛选出的特征变量中进一步筛选出IV最大的L个特征变量，将进一步筛选出的L个特征变量作为用于识别电子数据批量转移行为的特征变量；所述IV最大的L个特征变量是指将特征变量按照IV从大到小的顺序排列后，排列在前L名的L个特征变量，L为大于1的正整数。

可选地，所述判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为，包括：

根据所述待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，确定该待识别用户的电子数据转移行为记录的证明力权重WOE汇总值；

基于所述待识别用户的电子数据转移行为记录的WOE汇总值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为的一条电子数据转移行为记录。

可选地，根据待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，确定该待识别用户的电子数据转移行为记录的WOE汇总值，包括：

根据所述待识别用户的电子数据转移行为记录在筛选出的每一种特征变量下的取值，确定该取值所属的特征值区间对应的WOE；

将所述待识别用户的电子数据转移行为记录在每一种特征变量下的WOE的和值，确定为该待识别用户的电子数据转移行为记录的WOE汇总值。

可选地，针对任一特征变量，根据以下公式确定该特征变量的第i个特征值区间对应的证明力权重：

WOE_i＝ln(pn_i/py_i)；

其中，pn_i＝n_i/N，py_i＝y_i/Y，n_i为具有第i个特征值区间中的特征值的黑样本数目，N为获取的黑样本总数目，y_i为具有第i个特征值区间中的特征值的白样本数目，Y为获取的白样本总数目。

可选地，所述从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量之后，还包括：

针对多个样本中的每一个样本，根据该样本在筛选出的特征变量中每一种特征变量下的取值，确定该样本的WOE汇总值；

根据确定的每一个样本的WOE汇总值，以及每一个样本的属性信息，确定对筛选出的特征变量的测试结果，若测试不通过，则重新确定待筛选的特征变量，并返回从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量的步骤；其中，每个样本的属性信息用于表示该样本是白样本或黑样本。

可选地，基于所述待识别用户的电子数据转移行为记录的WOE汇总值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为的一条电子数据转移行为记录，包括：

在所述WOE汇总值大于预设的WOE阈值后，确定所述待识别的电子数据转移行为记录是电子数据批量转移行为的一条电子数据转移行为记录。

本申请实施例提供一种恶意用户识别装置，包括：

筛选模块，用于根据获取的记录电子数据转移行为的白样本和黑样本，从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量；其中，每个黑样本为电子数据批量转移行为的一条电子数据转移行为记录，每个白样本为一条非批量的电子数据转移行为记录；

判断模块，用于针对任一待识别用户的电子数据转移行为记录，根据该待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为；

确定模块，用于在所述判断模块判断出所述待识别用户的电子数据转移行为记录为电子数据批量转移行为时，确定所述待识别用户为恶意用户。

本申请实施例首先根据获取的记录电子数据转移行为的白样本和黑样本，从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量；然后针对任一待识别用户的电子数据转移行为记录，根据该待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为；若确定所述待识别用户的电子数据转移行为记录为电子数据批量转移行为，则确定所述待识别用户为恶意用户。

可见，本申请实施例通过对电子数据批量转移行为的识别来判断待识别用户是否为恶意用户，恶意用户的批量操作除涉及批量注册及批量交易行为外，通常还会涉及电子数据的批量转移，电子数据的批量转移可以指批量转账行为，电子数据的批量转移是为了给后续的批量交易行为提供必要的电子数据支持。由于合法用户通常不会出现批量电子数据转移的行为，因此通过对电子数据的批量转移行为进行识别，可以大大提高对非法的批量操作行为的识别率，并且识别过程复杂度较低。

附图说明

图1为本申请实施例一提供的恶意用户识别方法流程图；

图2为批量转账示意图；

图3为本申请实施例二提供的恶意用户识别方法流程图；

图4为本申请实施例三提供的恶意用户识别方法流程图；

图5为训练特征变量的示意图；

图6为本申请实施例提供的恶意用户识别装置结构示意图。

具体实施方式

在网络平台(如电商平台)中，存在有作弊、炒信、黄牛等恶意行为的恶意用户，恶意用户通常具有批量操作行为。恶意用户的批量操作除涉及批量注册及批量交易行为外，通常还会涉及电子数据的批量转移，电子数据的批量转移可以指批量转账行为，电子数据的批量转移是为了给后续的批量交易行为提供必要的电子数据支持。由于合法用户通常不会出现批量电子数据转移的行为，因此通过对电子数据的批量转移行为进行识别，可以大大提高对非法的批量操作行为的识别率。

基于此，本申请提出了基于对电子数据批量转移行为的识别来识别可能存在恶意行为的恶意用户的方法。

实施例一

如图1所示，为本申请实施例一提供的恶意用户识别方法流程图，包括：

S101：服务器根据获取的记录电子数据转移行为的白样本和黑样本，从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量；其中，每个黑样本为电子数据批量转移行为的一条电子数据转移行为记录，每个白样本为一条非批量的电子数据转移行为记录。

在具体实施过程中，可以根据预设的黑样本和白样本的比例(比如5:95)，从历史操作行为中，提取多个电子数据批量转移行为中每一个电子数据批量转移行为的多条电子数据转移行为记录作为黑样本，提取多条非批量的电子数据转移行为记录作为白样本，并基于对黑样本的分析，确定多个待筛选的特征变量。这里的特征变量是与电子数据转移行为记录中的账户信息、网络环境信息、设备信息等相关联的特征，可以是连续型变量，也可以是离散型变量，若为连续型变量，则可以将该特征变量划分为多个特征值区间，每个特征值区间作为一种统计数据，若为离散型变量，则以下所述特征值区间可以指一个特定的特征值。比如，以电子数据转移行为是转账行为为例，特征变量可以与黑样本的以下异常特征相关：1)个别账户向多个账户进行转账；2)各笔转账的时间间隔极短；3)各笔转账的转账金额较为平均；4)各笔转账的网络环境较为集中；5)转账收款方除该转账行为之外的其它行为较少。具体地，特征变量可以为：1)付款方转账5分钟内有过多少次小额转账；2)付款方转账60分钟内有过多少笔转账时间间隔小于3秒的转账行为；3)付款方当天付款金额众数(也即多次付款中付款金额相同时的付款金额，比如0.1元)及笔数；4)IP地址相同的收款方数量；5)收款方过去90天内每天登陆服务器的次数等。如图2所示，为批量转账示意图，从图中可以看出，收款方收款金额都是相同的小额度，且转账时间间隔都很短。

在确定多个待筛选的特征变量后，可以分别基于白样本和黑样本在每一个待筛选的特征变量下的取值，来筛选出对白样本和黑样本有区分作用的特征变量，比如，若白样本和黑样本在某一个特征变量下的取值差异很明显(比如超过80％的白样本的取值为0，而超过80％的黑样本的取值为1)，则可以将该特征变量作为筛选出的特征变量。

需要说明的是，步骤S101可以是预先通过样本训练的方式执行的步骤，在识别恶意用户的过程中，可以直接采用之前筛选好的特征变量及对应的取值，无需在每一次识别过程中都执行。

S102：针对任一待识别用户的电子数据转移行为记录，根据该待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为。

在具体实施中，可以根据每一种特征变量的每一个取值区间所对应的权重(该权重可以用于衡量该取值区间对证明是电子数据批量转移行为的影响度)，以及该待识别用户的电子数据转移行为记录在筛选出的每一种特征变量下的取值，来确定所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为的一条电子数据转移行为记录。

S103：若确定所述待识别用户的电子数据转移行为记录为电子数据批量转移行为，则确定所述待识别用户为恶意用户，否则，进入S104，可以基于其它方式继续识别或确定所述待识别用户为安全用户。

这里，在基于筛选出的特征变量，识别出用户具有本申请中的电子数据批量转移行为后，可以确定该用户为恶意用户。

实施例二

在本申请实施例二中，给出了特征变量筛选的优选实施方式：基于特征变量的信息值IV及相关性系数，进行特征变量筛选，然后基于筛选出的特征变量，判断待识别的电子数据转移行为记录是否为电子数据批量转移行为中的一条电子数据转移行为记录。

如图3所示，为本申请实施例二提供的恶意用户识别方法流程图，包括：

S301：选取记录电子数据转移行为的白样本和黑样本，以及待筛选的多个特征变量；其中，每个黑样本为电子数据批量转移行为的一条电子数据转移行为记录，每个白样本为一条非批量的电子数据转移行为记录。

S302：根据获取的白样本和黑样本，确定所述待筛选的多个特征变量的信息值(IV，Information Value)，以及不同特征变量之间的相关性系数；所述IV用于表示对应的特征变量对识别电子数据批量转移行为的贡献程度。

在具体实施中，可以根据以下公式确定任一特征变量的信息值IV：

关于WOE_i的计算可参见关于S104的描述。

另外，可以根据以下公式确定任意两个特征变量之间的相关系数：

S303：基于确定的所述多个特征变量的IV，以及不同特征变量之间的相关性系数，对所述多个特征变量进行筛选，使得筛选出的特征变量的IV大于第一阈值、且筛选出特征变量之间的相关性系数小于第二阈值。

具体地，可以根据以下步骤对所述多个特征变量进行筛选，包括：

若筛选出的特征变量数量大于L，则从筛选出的特征变量中进一步筛选出IV最大的L个特征变量，将进一步筛选出的L个特征变量作为用于识别电子数据批量转移行为的特征变量；所述IV最大的L个特征变量是指将特征变量按照IV从大到小的顺序排列后，排列在前L名的L个特征变量。

在具体实施过程中，可以首先筛选出IV大于第一阈值的特征变量，再针对筛选出的特征变量，确定两两之间的相关性系数，若任意两个特征变量之间的相关性系数大于第二阈值，则可以保留其中IV较大的特征变量，筛除IV较小的特征变量。在执行过程中，可以在完成一对特征变量之间的相关性系数的计算及筛选之后再选择下一对特征变量进行相关性系数的计算及筛选，以避免工作量的冗余及造成不必要的筛除，比如，若特征变量A与特征变量C之间的相关性系数大于第二阈值，则保留IV较大的特征变量A，筛除特征变量C，则接下来就不必再将特征变量C与其它特征变量之间进行相关性系数的计算及筛选了。另外，本申请实施例在筛选出IV大于第一阈值、且两两之间的相关性系数大于第二阈值的特征变量后，若筛选出的特征变量数量大于L，则为了减少计算量及噪声的干扰，可以进一步筛选出IV最大的L个特征变量作为本次最终筛选出的特征变量。

S304：针对任一待识别用户的电子数据转移行为记录，根据该待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，确定该待识别用户的电子数据转移行为记录的证明力权重WOE汇总值。

具体地，可以根据所述待识别用户的电子数据转移行为记录在筛选出的每一种特征变量下的取值，确定该取值所属的特征值区间对应的WOE；将所述待识别用户的电子数据转移行为记录在每一种特征变量下的WOE的和值，确定为该待识别的电子数据转移行为记录的WOE汇总值。

这里，针对任一特征变量，根据以下公式确定该特征变量的第i个特征值区间对应的证明力权重：

WOE_i＝ln(pn_i/py_i)；

S305：基于所述待识别用户的电子数据转移行为记录的WOE汇总值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为的一条电子数据转移行为记录。

在具体实施中，可以在所述WOE汇总值大于预设的WOE阈值后，确定待识别用户的电子数据转移行为记录是电子数据批量转移行为的一条电子数据转移行为记录，之后，可以对该记录所涉及的账户的业务行为进行一定的预先限制处理，比如屏蔽相关账户的活动信息、降低账户购买优先级等，这种方式下的解释成本较低。

实施例三

相比实施例二，本申请实施例三增加了模型测试的步骤，在完成一次特征变量筛选后，基于已有的样本对筛选出的特征变量的识别准确率进行测试，若测试通过，则将筛选出的特征变量投入使用，若测试不通过，则重新选择待筛选的特征变量重复筛选过程。

如图4所示，为本申请实施例三提供的恶意用户识别方法流程图，图5为训练特征变量的示意图，包括：

S401：根据获取的记录电子数据转移行为的白样本和黑样本，确定待筛选的多个特征变量的信息值IV，以及不同特征变量之间的相关性系数；其中，每个黑样本为电子数据批量转移行为的一条电子数据转移行为记录，每个白样本为一条非批量的电子数据转移行为记录；所述IV用于表示对应的特征变量对识别电子数据批量转移行为的贡献程度。

S402：基于确定的所述多个特征变量的IV，以及不同特征变量之间的相关性系数，对所述多个特征变量进行筛选，使得筛选出的特征变量的IV大于第一阈值、且筛选出特征变量之间的相关性系数小于第二阈值。

S403：针对多个样本中的每一个样本，根据该样本在筛选出的特征变量中每一种特征变量下的取值，确定该样本的WOE汇总值；根据确定的每一个样本的WOE汇总值，以及每一个样本的属性信息，确定对筛选出的特征变量的测试结果，若测试通过，则确认将筛选出的特征变量作为用于识别电子数据批量转移行为的特征变量，否则，重新确定待筛选的多个特征变量，返回S401；其中，每个样本的属性信息用于表示该样本是白样本或黑样本。

该步骤中，针对每一个样本，计算该样本的WOE汇总值，基于每个样本的WOE汇总值及样本属性(白样本还是黑样本)，判断是否通过测试。比如，若在对应的WOE汇总值大于预设值的样本中，黑样本与白样本的比例大于预设比例，则认为测试通过。

另外，基于测试结果，还可以确定一个WOE阈值，用于对待识别的电子数据转移行为记录进行识别时使用，当待识别的电子数据转移行为记录的证明力权重WOE汇总值大于该WOE阈值时，认为该待识别的电子数据转移行为记录是电子数据批量转移行为。

S404：针对任一待识别用户的电子数据转移行为记录，根据该待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，确定该待识别用户的电子数据转移行为记录的证明力权重WOE汇总值。

S405：基于所述待识别用户的电子数据转移行为记录的WOE汇总值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为的一条电子数据转移行为记录。

采用本申请实施例，具有以下有益效果：

1)识别面广：由于非法用户为了批量实现作弊、炒信、黄牛等行为，通常都会提前准备小额资金，而这些资金必然需要背后大号通过转账的方式批量转账给小号，因此恶意账户很难绕过本申请实施例提供的批量转账行为识别方法的识别。2)误杀率低：恶意批量账户的批量转账行为，与正常账户的转账行为存在很大的不同，比如在金额、频率、环境等特征上，因此，在转账行为上识别恶意批量账户，与在注册环节及交易环节进行识别相比，能有效降低误杀的发生。3)模型部署技术要求低：由于批量转账行为识别算法是部署在账户进行恶意行为之前的资金准备阶段，不需要实时环境，并且不需要对恶意行为实时拦截。所以，该算法可以部署在离线环境中，技术要求低。4)解释成本低：恶意批量转账行为的识别发生在账户进行恶意行为之前，所以可以直接通过屏蔽活动信息、降低账户购买优先级等方法提前部署限制策略，账户感知自然，解释成本低。

基于同一发明构思，本申请实施例中还提供了一种与恶意用户识别方法对应的恶意用户识别装置，由于该装置解决问题的原理与本申请实施例恶意用户识别方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图6所示，为本申请实施例提供的恶意用户识别装置结构示意图，包括：

筛选模块61，用于根据获取的记录电子数据转移行为的白样本和黑样本，从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量；其中，每个黑样本为电子数据批量转移行为的一条电子数据转移行为记录，每个白样本为一条非批量的电子数据转移行为记录；

判断模块62，用于针对任一待识别用户的电子数据转移行为记录，根据该待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为,；

确定模块63，用于在所述判断模块62判断出所述待识别用户的电子数据转移行为记录为电子数据批量转移行为时，确定所述待识别用户为恶意用户。

可选地，所述筛选模块61具体用于：

根据获取的记录电子数据转移行为的白样本和黑样本，确定待筛选的用于识别电子数据批量转移行为的多个特征变量的信息值IV，以及不同特征变量之间的相关性系数；基于确定的所述多个特征变量的IV，以及不同特征变量之间的相关性系数，对所述多个特征变量进行筛选，使得筛选出的特征变量的IV大于第一阈值、且筛选出特征变量之间的相关性系数小于第二阈值。

可选地，所述筛选模块61具体用于根据以下公式确定任一特征变量的信息值IV：

可选地，所述筛选模块61具体用于根据以下公式确定任意两个特征变量之间的相关系数：

可选地，所述筛选模块61具体用于：

可选地，所述判断模块62具体用于：

根据所述待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，确定该待识别用户的电子数据转移行为记录的证明力权重WOE汇总值；基于所述待识别用户的电子数据转移行为记录的WOE汇总值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为的一条电子数据转移行为记录。

可选地，所述判断模块62具体用于：

根据所述待识别用户的电子数据转移行为记录在筛选出的每一种特征变量下的取值，确定该取值所属的特征值区间对应的WOE；将所述待识别用户的电子数据转移行为记录在每一种特征变量下的WOE的和值，确定为该待识别用户的电子数据转移行为记录的WOE汇总值。

可选地，任一特征变量的第i个特征值区间对应的证明力权重为根据以下公式确定的：

WOE_i＝ln(pn_i/py_i)；

可选地，所述装置还包括：

测试模块64，用于在筛选模块61从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量之后，针对多个样本中的每一个样本，根据该样本在筛选出的特征变量中每一种特征变量下的取值，确定该样本的WOE汇总值；根据确定的每一个样本的WOE汇总值，以及每一个样本的属性信息，确定对筛选出的特征变量的测试结果，若测试不通过，则重新确定待筛选的特征变量，并返回从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量的步骤；其中，每个样本的属性信息用于表示该样本是白样本或黑样本。

可选地，所述判断模块62具体用于：

在所述WOE汇总值大于预设的WOE阈值后，确定所述待识别用户的电子数据转移行为记录是电子数据批量转移行为的一条电子数据转移行为记录。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种恶意用户识别方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，根据获取的记录电子数据转移行为的白样本和黑样本，从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量，包括：

3.如权利要求2所述的方法，其特征在于，根据以下公式确定任一特征变量的信息值IV：

I V = Σ_{i = 1}^{m} ({pn}_{i} - {py}_{i}) {WOE}_{i}

4.如权利要求2所述的方法，其特征在于，根据以下公式确定任意两个特征变量之间的相关系数：

r = \frac{Σ_{i = 1}^{n} (X_{i} - \overset{&OverBar;}{X}) (Y_{i} - \overset{&OverBar;}{Y})}{\sqrt{Σ_{i = 1}^{n} {(X_{i} - \overset{&OverBar;}{X})}^{2}} \sqrt{Σ_{i = 1}^{n} {(Y_{i} - \overset{&OverBar;}{Y})}^{2}}}

5.如权利要求2所述的方法，其特征在于，基于确定的所述多个特征变量的IV，以及不同特征变量之间的相关性系数，对所述多个特征变量进行筛选，包括：

6.如权利要求1所述的方法，其特征在于，所述判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为，包括：

7.如权利要求6所述的方法，其特征在于，根据待识别用户的电子数据转移行为记录在筛选出的特征变量中每一种特征变量下的取值，确定该待识别用户的电子数据转移行为记录的WOE汇总值，包括：

8.如权利要求3或7所述的方法，其特征在于，针对任一特征变量，根据以下公式确定该特征变量的第i个特征值区间对应的证明力权重：

WOE_i＝ln(pn_i/py_i)；

9.如权利要求6所述的方法，其特征在于，所述从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量之后，还包括：

10.如权利要求6所述的方法，其特征在于，基于所述待识别用户的电子数据转移行为记录的WOE汇总值，判断所述待识别用户的电子数据转移行为记录是否为电子数据批量转移行为的一条电子数据转移行为记录，包括：

11.一种恶意用户识别装置，其特征在于，该装置包括：

12.如权利要求11所述的装置，其特征在于，所述筛选模块具体用于：

13.如权利要求12所述的装置，其特征在于，所述筛选模块具体用于根据以下公式确定任一特征变量的信息值IV：

I V = Σ_{i = 1}^{m} ({pn}_{i} - {py}_{i}) {WOE}_{i}

14.如权利要求12所述的装置，其特征在于，所述筛选模块具体用于根据以下公式确定任意两个特征变量之间的相关系数：

r = \frac{Σ_{i = 1}^{n} (X_{i} - \overset{&OverBar;}{X}) (Y_{i} - \overset{&OverBar;}{Y})}{\sqrt{Σ_{i = 1}^{n} {(X_{i} - \overset{&OverBar;}{X})}^{2}} \sqrt{Σ_{i = 1}^{n} {(Y_{i} - \overset{&OverBar;}{Y})}^{2}}}

15.如权利要求12所述的装置，其特征在于，所述筛选模块具体用于：

16.如权利要求11所述的装置，其特征在于，所述判断模块具体用于：

17.如权利要求16所述的装置，其特征在于，所述判断模块具体用于：

18.如权利要求13或17所述的装置，其特征在于，任一特征变量的第i个特征值区间对应的证明力权重为根据以下公式确定的：

WOE_i＝ln(pn_i/py_i)；

19.如权利要求16所述的装置，其特征在于，所述装置还包括：

测试模块，用于在筛选模块从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量之后，针对多个样本中的每一个样本，根据该样本在筛选出的特征变量中每一种特征变量下的取值，确定该样本的WOE汇总值；根据确定的每一个样本的WOE汇总值，以及每一个样本的属性信息，确定对筛选出的特征变量的测试结果，若测试不通过，则重新确定待筛选的特征变量，并返回从待筛选的多个特征变量中筛选出用于识别电子数据批量转移行为的特征变量的步骤；其中，每个样本的属性信息用于表示该样本是白样本或黑样本。

20.如权利要求16所述的装置，其特征在于，所述判断模块具体用于：