CN113328978B

CN113328978B - 恶意用户识别方法及装置、计算机存储介质、电子设备

Info

Publication number: CN113328978B
Application number: CN202010131509.5A
Authority: CN
Inventors: 陈媛媛; 金姿
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-06-27
Anticipated expiration: 2040-02-28
Also published as: CN113328978A

Abstract

本公开涉及计算机技术领域，提供了一种恶意用户识别方法、恶意用户识别装置、计算机存储介质、电子设备，其中，恶意用户识别方法包括：将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分；将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于目标阈值的概率之差定义为检验统计量，并将检验统计量确定为目标函数；基于未知参数的第一赋值，采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值；当第N赋值和第N‑1赋值满足预设关系时，将特征向量与第N赋值的乘积确定为用户的信用评分；根据信用评分的数值大小，识别用户是否为恶意用户。本公开中的方法能够提高识别准确度。

Description

恶意用户识别方法及装置、计算机存储介质、电子设备

技术领域

本公开涉及计算机技术领域，特别涉及一种恶意用户识别方法、恶意用户识别装置、计算机存储介质及电子设备。

背景技术

随着计算机和互联网技术的迅速发展，相关互联网信息获取平台也在迅速发展，越来越多的消费者通过网络进行商品浏览、选购和购买。但基于网络的虚拟性，消费者无法真实地体验到商品材质、质量、因此大多数网络购物买家在挑选商品时主要参考不同店铺商品的评价和销量，而这些数据可能存在刷单造假的嫌疑(刷单是指电子购物中的卖家付款请人假扮顾客，用以假乱真的购物方式提高商品的销量，从而提高网店的排名的虚假销售行为)。因而，如何识别出刷单造假的恶意用户，保证用户购买真实性和评价真实性成为相关信息获取平台关注的焦点问题。

目前，一般是根据用户的互联网浏览行为或者购买行为训练相关刷单识别模型，例如：逻辑回归模型或决策树模型等，以基于模型识别用户的刷单行为。然而，由此得到的检验统计量无法达到最优值，识别效果较差。

鉴于此，本领域亟需开发一种新的恶意用户的识别方法及装置。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开的目的在于提供一种恶意用户识别方法、恶意用户识别装置、计算机存储介质及电子设备，进而至少在一定程度上避免了现有技术中的识别方法识别效果较差的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种恶意用户识别方法，包括：将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分；将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于所述目标阈值的概率之差定义为检验统计量，并将所述检验统计量确定为目标函数；基于所述未知参数的第一赋值，采用迭代算法对所述目标函数进行优化，得到满足最大化目标函数的第N赋值；当所述第N赋值和第N-1赋值满足预设关系时，将所述特征向量与所述第N赋值的乘积确定为所述用户的信用评分；根据所述信用评分的数值大小，识别所述用户是否为恶意用户；其中，N为大于或等于2的正整数。

在本公开的示例性实施例中，所述基于所述未知参数的第一赋值，采用迭代算法对所述目标函数进行优化，得到满足最大化目标函数的第N赋值，包括：根据所述未知参数的第一赋值，确定满足最大化目标函数的关联参数；所述关联参数为与所述未知参数相对应的目标阈值；基于所述关联参数与所述第一赋值，采用迭代算法对所述目标函数进行优化，以得到所述第N赋值。

在本公开的示例性实施例中，当所述第N赋值和第N-1赋值满足以下公式时，将所述第N赋值与所述特征向量的乘积确定为所述用户的信用评分：

|1-β^(N-1)β^(N)|<u

其中，||β||＝1，β^(N-1)为所述第N-1赋值，β^(N)为所述第N赋值，u为大于0小于1的有理数。

在本公开的示例性实施例中，所述方法还包括：若所述信用评分小于目标阈值，则确定所述用户为所述恶意用户；对所述恶意用户进行拦截处理。

在本公开的示例性实施例中，所述方法还包括：将检测到的用户行为信息与预先设置的埋点关键词进行匹配；对匹配上的用户行为信息进行数据清洗，得到目标数据集合；对所述目标数据集合中的异常数据进行剔除处理，得到特征数据；根据业务需求对所述特征数据进行筛选处理，得到所述用户的购物行为数据。

在本公开的示例性实施例中，所述对匹配上的用户行为信息进行数据清洗，得到目标数据集合，包括：检测所述匹配上的用户行为信息是否存在数据缺失；对存在数据缺失的所述匹配上的用户行为信息进行数据填充，得到所述目标数据集合。

在本公开的示例性实施例中，所述用户行为信息包括以下任意一种或多种：注册信息、浏览信息、点击信息、评论信息和下单信息。

根据本公开的第二方面，提供一种恶意用户识别装置，包括：定义模块，用于将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分；第一确定模块，用于将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于所述目标阈值的概率之差定义为检验统计量，并将所述检验统计量确定为目标函数；优化模块，用于基于所述未知参数的第一赋值，采用迭代算法对所述目标函数进行优化，得到满足最大化目标函数的第N赋值；第二确定模块，用于当所述第N赋值和第N-1赋值满足预设关系时，将所述特征向量与所述第N赋值的乘积确定为所述用户的信用评分；识别模块，用于根据所述信用评分的数值大小，识别所述用户是否为恶意用户；其中，N为大于或等于2的正整数。

根据本公开的第三方面，提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的恶意用户识别方法。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的恶意用户识别方法。

由上述技术方案可知，本公开示例性实施例中的恶意用户识别方法、恶意用户识别装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的一些实施例所提供的技术方案中，一方面，将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分，将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于目标阈值的概率之差定义为检验统计量，并将检验统计量确定为目标函数，能够解决现有技术中直接对中间函数进行优化处理，无法达到最大化检验统计量的技术问题，简化相关优化步骤，提高数据处理效率。进一步的，基于未知参数的第一赋值，采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值，能够直接对检验统计量进行优化，提高优化速度，保证优化准确性。另一方面，当第N赋值和第N-1赋值满足预设关系时，将特征向量与第N赋值的乘积确定为用户的信用评分，根据信用评分的数值大小，识别用户是否为恶意用户，从而，能够有效分辨恶意用户，保证相关信息展示平台的数据真实性。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一示例性实施例中恶意用户识别方法的流程示意图；

图2示出本公开一示例性实施例中恶意用户识别方法的子流程示意图；

图3示出本公开一示例性实施例中恶意用户识别方法的子流程示意图；

图4示出本公开一示例性实施例中恶意用户识别方法的子流程示意图；

图5示出本公开示例性实施例中恶意用户识别装置的结构示意图；

图6示出本公开示例性实施例中计算机存储介质的结构示意图；

图7示出本公开示例性实施例中电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

目前，一般是收集用户的互联网浏览行为或者购买行为(例如：用户一个月内下单总数、成交金额、下单地址数等)等构造衍生特征(如同一设备号登录的不同用户数、同一IP(Internet Protocol，互联网协议，简称：IP)地址下单同一商品订单数等)。基于上述衍生特征，训练相关刷单识别模型，例如：逻辑回归模型或决策树模型等，以基于模型来识别刷单的恶意用户。然而，由此得到的检验统计量无法达到最优值，识别效果较差。

在本公开的实施例中，首先提供了一种恶意用户识别方法，至少在一定程度上克服现有技术中提供的恶意用户识别方法识别效果较差的缺陷。

图1示出本公开一示例性实施例中恶意用户识别方法的流程示意图，该恶意用户识别方法的执行主体可以是对恶意用户进行识别的服务器。

参考图1，根据本公开的一个实施例的恶意用户识别方法包括以下步骤：

步骤S110，将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分；

步骤S120，将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于目标阈值的概率之差定义为检验统计量，并将检验统计量确定为目标函数；

步骤S130，基于未知参数的第一赋值，采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值；

步骤S140，当第N赋值和第N-1赋值满足预设关系时，将特征向量与第N赋值的乘积确定为用户的信用评分；

步骤S150，根据信用评分的数值大小，识别用户是否为恶意用户。

在图1所示实施例所提供的技术方案中，一方面，将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分，将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于目标阈值的概率之差定义为检验统计量，并将检验统计量确定为目标函数，能够解决现有技术中直接对中间函数进行优化处理，无法达到最大化检验统计量的技术问题，简化相关优化步骤，提高数据处理效率。进一步的，基于未知参数的第一赋值，采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值，能够直接对检验统计量进行优化，提高优化速度，保证优化准确性。另一方面，当第N赋值和第N-1赋值满足预设关系时，将特征向量与第N赋值的乘积确定为用户的信用评分，根据信用评分的数值大小，识别用户是否为恶意用户，从而，能够有效分辨恶意用户，保证相关信息展示平台的数据真实性。

以下对图1中的各个步骤的具体实现过程进行详细阐述：

在本公开的示例性实施例中，可以先获取用户的购物行为数据，具体的，可以参考图2，图2示出本公开一示例性实施例中恶意用户识别方法的子流程示意图，具体示出获取用户的购物行为数据的流程示意图，包含步骤S201-步骤S203，以下结合图2对具体的实施方式进行解释。

在步骤S201中，将检测到的用户行为信息与预先设置的埋点关键词进行匹配，对匹配上的用户行为信息进行数据清洗，得到目标数据集合。

在本公开的示例性实施例中，可以检测用户行为信息，用户行为信息可以是：注册信息、浏览信息、点击信息、评论信息或下单信息中的一种或多种，其中，注册信息可以是用户注册某互联网信息获取平台时所填写的用户信息，例如：出生年月、职业、性别等；浏览信息可以是用户在互联网信息获取平台上的浏览记录或者浏览时长等；点击信息可以是用户发生点击行为的信息或者点击的次数等；评分信息可以是用户发生评论行为的评论；下单信息可以是用户在互联网信息获取平台上购买的物品信息。

在本公开的示例性实施例中，检测到用户行为信息之后，可以将用户行为信息与预先设置的埋点关键词(即预先设置的关键词或者程序代码，例如：用户打开商品详情页、选择商品型号、加入购物车、下订单等行为对应的关键词)进行匹配，示例性的，当用户行为信息中存在“加入购物车、下订单”，而埋点关键词中也存在“加入购物车、下订单”时，则可以将“加入购物车、下订单”确定为匹配上的用户行为信息。从而，能够保证获取到的信息的实用性和有效性。

在本公开的示例性实施例中，在确定出匹配上的用户行为信息之后，可以对匹配上的用户行为信息进行数据清洗(数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等)，以得到目标数据集合。具体的，可以检测上述匹配上的用户行为信息是否存在数据缺失，若存在数据缺失，则对匹配上的用户行为信息进行数据补充，得到一目标数据集合。

在步骤S202中，对目标数据集合中的异常数据进行剔除处理，得到特征数据。

在本公开的示例性实施例中，在得到上述目标数据集合之后，可以对目标数据集合中的异常数据进行剔除处理，得到特征数据。其中，异常数据可以是明显与实际情况不符的数据，举例而言，当目标数据集合中存在“用户加入购物车的次数为-10次”时，则可以将上述数据确定为异常数据，并对异常数据进行剔除处理，进而，可以将剩余的数据确定作为上述特征数据。从而，能够保证得到的特征数据的有效性，避免无效数据对相关处理过程的影响，提高数据处理效率。

在步骤S203中，根据业务需求对特征数据进行筛选处理，得到用户的购物行为数据。

在本公开的示例性实施例中，在得到上述特征数据之后，可以对上述特征数据进行筛选处理，得到用户的购物行为数据。示例性的，当业务需求为下单次数为重要数据时，则可以将上述特征数据中与下单信息相关的数据确定为上述购物行为数据。从而，能够保证数据与业务的关联性，提高业务处理效率。

在步骤S110中，将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分。

在本公开的示例性实施例中，在获取到多个用户的购物行为数据之后，可以将用户的购物行为数据进行向量化，以得到每个购物行为数据对应的特征向量。示例性的，可以通过神经网络算法将上述用户的购物行为数据进行向量化，得到对应的特征向量X。

在得到用户的购物行为数据对应的特征向量之后，可以将特征向量X与未知参数β的乘积作为用户的信用评分S(X)，其中，未知参数β为与特征向量X的维数相同的常向量(例如：p维)，为便于向量相乘，可以将特征向量X(行向量)转换为X^T(列向量)，则上述用户的信用评分S(X)可以表示为S(X)＝X^Tβ。其中，用户的信用评分即用来评估用户是否为恶意(刷单)用户的评价指标。

在步骤S120中，将恶意用户的信用评分小于或等于目标阈值的概率和非恶意用户的信用评分小于或等于目标阈值的概率之差定义为检验统计量，并将检验统计量确定为目标函数。

在本公开的示例性实施例中，可以将恶意用户的信用评分小于或等于目标阈值的概率(正确识别恶意用户的概率)和非恶意用户的信用评分小于或等于目标阈值t的概率(误识别恶意用户的概率)之差定义为检验统计量，即将正确识别恶意用户的概率和误识别恶意用户的概率之差定义为检验统计量KS(Kolmogorov-Smirnov检验，简称：KS)。示例性的，当Y＝0表示恶意用户，Y＝1表示非恶意用户时，则检验统计量KS可以定义为：

KS＝sup_{-∞≤t≤∞}{P(S(X)≤t|Y＝0)-P(S(X)≤t|Y＝1)}，

其中，S(X)表示用户的信用评分，P(S(X)≤t|Y＝0)表示恶意用户的信用评分小于或等于目标阈值的概率，即正确识别恶意用户的概率。P(S(X)≤t|Y＝1)表示非恶意用户的信用评分小于或等于目标阈值t的概率，即误识别恶意用户的概率，KS表示上述检验统计量，也即确定的目标函数，从而，能够解决现有技术中直接对中间函数进行优化处理，无法达到最大化检验统计量的技术问题，简化相关优化步骤，提高数据处理效率。

示例性的，可以将P(S(X)≤t|Y＝0)和P(S(X)≤t|Y＝1)表示为I{X^Tβ}，I{}为示性函数(特征函数，Characteristic function)，举例而言，设Ω是给定的非空集合，A∈Ω，则称函数

为示性函数。

具体的，当获取到多个X、Y时，示例性的，X＝x_i(i＝1,2,3,……n)，Y＝y_i(i＝1,2,3,……n)时，则可以将上述检验统计量KS的表达式具体化为：

其中，n₀表示y＝0的用户数目之和，n₁表示y＝1的用户数目之和。

在步骤S130中，基于未知参数的第一赋值，采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值。其中，N为大于或等于2的正整数。

在本公开的示例性实施例中，可以设定未知参数的第一赋值，并基于未知参数的第一赋值，采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值。从而，能够直接对检验统计量进行优化，提高优化速度，保证优化准确性。

具体的，可以设定未知参数β的初始值作为第一赋值，并采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值。示例性的，上述迭代算法可以是IMO算法(Iterative Marginal Optimization，迭代边际优化算法，简称：IMO)，从而，能够保证算法的优化效率和优化结果的准确性。

示例性的，可以参考图3，图3示出本公开一示例性实施例中恶意用户识别方法的子流程示意图，具体示出基于未知参数的第一赋值，采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值的流程示意图，包括步骤S301-步骤S302，以下结合图3对步骤S130进行解释。

在步骤S301中，根据未知参数的第一赋值，确定满足最大化目标函数的关联参数。关联参数为与未知参数相对应的一目标阈值。

在本公开的示例性实施例中，示例性的，可以设置未知参数的第一赋值为

进而，当β⁽⁰⁾固定时，可以确定出令目标函数KS(β⁽⁰⁾,t)最大化的关联参数t⁽⁰⁾，KS(β⁽⁰⁾,t)是一个关于t的分段常函数，其截断点由/>

确定。

在步骤S302中，基于关联参数与第一赋值，采用迭代算法对目标函数进行优化，以得到第N赋值。

在本公开的示例性实施例中，在确定出上述关联参数t⁽⁰⁾之后，可以根据上述关联参数t⁽⁰⁾和第一赋值β⁽⁰⁾，采用迭代算法对目标函数进行优化，计算出第二赋值β⁽¹⁾(包含p个分量，

)。

具体的，

的取值集合可以用以下表达式来表示：/>

因而，可以将上述关联参数t⁽⁰⁾和第一赋值β⁽⁰⁾代入该表达式中，计算出上述

以组合得到上述第二赋值β⁽¹⁾。

上述公式1的示例性推导过程可以是：首先，可以将第N-1次迭代之后得到的第N-1赋值记为β^(N-1)，则

假设在β^(N-1)更新至β^(N)的某一个中间过程中(对β^(N-1)的p个分量进行更新以得到β^(N)的过程中)，β^(N-1)的P个分量中，存在k-1个已经更新，而其余的p-k-1个分量还在等待更新，则此时的中间变量可以表示为

其次，在得到中间变量β^(N-1,k)之后，可以将β^(N-1,k)的第k分量

更新为/>

进而，/>

对应的目标函数/>

可以表示为：

其中，

表示第1至k-1个分量之和，/>

表示更新后的第k个分量，

表示第k+1至第p个分量之和。进而，可以用/>

来替代上式中的

即/>

则上式可以被简化为：

其中，

表示以/>

为参数的检验统计量。可见，/>

也是一个分段常函数，则其截断点即当/>

时，则可以将/>

对应的取值集合表示为

基于该表达式，可以对其余的p-k-1个分量进行更新，以得到上述第N赋值β^(N)。

综上，整体流程可以是：设定第一赋值β⁽⁰⁾，并求出令目标函数KS(β⁽⁰⁾,t)最大化的关联参数t⁽⁰⁾，进而，可以将上述第一赋值β⁽⁰⁾和t⁽⁰⁾代入上述公式1中，求出第二赋值β⁽¹⁾，并求出令目标函数KS(β⁽¹⁾,t)最大化的关联参数t⁽¹⁾……求出第N赋值β^(N)。

在步骤S140中，当第N赋值和第N-1赋值满足预设关系时，将特征向量与第N赋值的乘积确定为用户的信用评分。

在本公开的示例性实施例中，当第N赋值β^(N)和第N-1赋值β^(N-1)满足预设关系时，则可以停止迭代，并将特征向量与第N赋值β^N的乘积确定为用户的信用评分。

具体的，当第N赋值和第N-1赋值满足以下公式时，将第N赋值与特征向量的乘积确定为用户的信用评分：|1-β^(N-1)β^(N)|<u，其中，u为大于0小于1的有理数，||β||＝1(β的范数为1)，示例性的，u的取值可以是10^-6。u的具体取值，可以根据实际情况自行设定，属于本公开的保护范围。

示例性的，当N为3时，则第N赋值为β⁽³⁾，进一步的，用户的信用评分可以表示为S(x_i)＝x_i ^Tβ⁽³⁾。示例性的，当x_i ^T为(3，4，5)，β⁽³⁾为(1，0，0)时，则可以确定出第i个用户的信用评分为3*1+4*0+5*0＝3分。

在步骤S150中，根据信用评分的数值大小，识别用户是否为恶意用户。

在本公开的示例性实施例中，在确定出每个用户的信用评分之后，可以根据用户的信用评分的数值大小，识别用户是否为恶意用户。

具体的，可以参考图4，图4示出本公开一示例性实施例中恶意用户识别方法的子流程示意图，具体示出识别恶意用户，并对恶意用户进行拦截的流程示意图，包含步骤S401-S402，以下结合图4对步骤S150进行解释。

在步骤S401中，若信用评分小于或等于目标阈值，则确定用户为恶意用户。

在本公开的示例性实施例中，在得到各个用户的信用评分之后，若信用评分小于或等于目标阈值，则可以将用户确定为恶意用户，示例性的，当目标阈值为5时，3小于5，则可以确定用户为恶意用户。同理，若用户的信用评分大于目标阈值，则可以将用户确定为非恶意用户。

在步骤S402中，对恶意用户进行拦截处理。

在本公开的示例性实施例中，在识别出恶意用户之后，可以对恶意用户进行拦截处理，例如：可以对恶意用户的下单操作进行拦截，以阻止其恶意刷单操作，保证相关信息展示平台的数据真实性。

本公开还提供了一种恶意用户识别装置，图5示出本公开示例性实施例中恶意用户识别装置的结构示意图；如图5所示，恶意用户识别装置500可以包括定义模块501、第一确定模块502、优化模块503、第二确定模块504和识别模块505。其中：

定义模块501，用于将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分。

在本公开的示例性实施例中，用户行为信息包括以下任意一种或多种：注册信息、浏览信息、点击信息、评论信息和下单信息；定义模块用于将检测到的用户行为信息与预先设置的埋点关键词进行匹配；对匹配上的用户行为信息进行数据清洗，得到目标数据集合；对目标数据集合中的异常数据进行剔除处理，得到特征数据；根据业务需求对特征数据进行筛选处理，得到用户的购物行为数据。

在本公开的示例性实施例中，定义模块用于检测匹配上的用户行为信息是否存在数据缺失；对存在数据缺失的匹配上的用户行为信息进行数据填充，得到目标数据集合。

第一确定模块502，用于将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于目标阈值的概率之差定义为检验统计量，并将检验统计量确定为目标函数。

在本公开的示例性实施例中，第一确定模块用于将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于目标阈值的概率之差定义为检验统计量，并将检验统计量确定为目标函数。

优化模块503，用于基于未知参数的第一赋值，采用迭代算法对目标函数进行优化，得到满足最大化目标函数的第N赋值。

在本公开的示例性实施例中，优化模块用于根据所述未知参数的第一赋值，确定满足最大化目标函数的关联参数；基于所述关联参数与所述第一赋值，采用迭代算法对所述目标函数进行优化，以得到所述第N赋值。

第二确定模块504，用于当第N赋值和第N-1赋值满足预设关系时，将特征向量与第N赋值的乘积确定为用户的信用评分。

在本公开的示例性实施例中，第二确定模块用于当第N赋值和第N-1赋值满足以下公式时，将第N赋值与特征向量的乘积确定为用户的信用评分：

|1-β^N-1β^N|<u

其中，||β||＝1，β^N-1为第N-1赋值，β^N为第N赋值，u为大于0小于1的有理数。

识别模块505，用于根据信用评分的数值大小，识别用户是否为恶意用户。

在本公开的示例性实施例中，识别模块用于若信用评分小于目标阈值，则确定用户为恶意用户；对恶意用户进行拦截处理。从而，能够阻止其恶意刷单操作，保证相关信息展示平台的数据真实性。

上述恶意用户识别装置中各模块的具体细节已经在对应的恶意用户识别方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开示例性实施方式中，还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图6所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730以及显示单元740。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的：步骤S110，将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分；步骤S120，将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于所述目标阈值的概率之差定义为检验统计量，并将所述检验统计量确定为目标函数；步骤S130，基于所述未知参数的第一赋值，采用迭代算法对所述目标函数进行优化，得到满足最大化目标函数的第N赋值；步骤S140，当所述第N赋值和第N-1赋值满足预设关系时，将所述特征向量与所述第N赋值的乘积确定为所述用户的信用评分；步骤S150，根据所述信用评分的数值大小，识别所述用户是否为恶意用户；其中，N为大于或等于2的正整数。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种恶意用户识别方法，其特征在于，包括：

将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分；

将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于所述目标阈值的概率之差定义为检验统计量，并将所述检验统计量确定为目标函数；所述检验统计量用于表征正确识别所述恶意用户与误识别所述恶意用户的概率之差；

根据所述未知参数的第一赋值，确定满足最大化目标函数的关联参数；所述关联参数为与所述未知参数相对应的目标阈值；基于所述关联参数与所述第一赋值，采用迭代算法对所述目标函数进行优化，以得到所述未知参数的第N-1赋值和第N赋值；

当所述第N赋值和所述第N-1赋值之间的乘积满足预设阈值条件时，将所述第N赋值与所述特征向量的乘积确定为所述用户的信用评分；根据所述信用评分的数值大小，识别所述用户是否为恶意用户；

其中，N为大于或等于2的正整数。

2.根据权利要求1所述的方法，其特征在于，所述当所述第N赋值和所述第N-1赋值之间的乘积满足预设阈值条件时，将所述第N赋值与所述特征向量的乘积确定为所述用户的信用评分，包括：

当所述第N赋值和第N-1赋值之间的乘积满足以下公式时，将所述第N赋值与所述特征向量的乘积确定为所述用户的信用评分：

|1-β^(N-1)β^(N)|<u

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述信用评分小于目标阈值，则确定所述用户为所述恶意用户；

对所述恶意用户进行拦截处理。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将检测到的用户行为信息与预先设置的埋点关键词进行匹配；

对匹配上的用户行为信息进行数据清洗，得到目标数据集合；

对所述目标数据集合中的异常数据进行剔除处理，得到特征数据；

根据业务需求对所述特征数据进行筛选处理，得到所述用户的购物行为数据。

5.根据权利要求4所述的方法，其特征在于，所述对匹配上的用户行为信息进行数据清洗，得到目标数据集合，包括：

检测所述匹配上的用户行为信息是否存在数据缺失；

对存在数据缺失的所述匹配上的用户行为信息进行数据填充，得到所述目标数据集合。

6.根据权利要求4所述的方法，其特征在于，所述用户行为信息包括以下任意一种或多种：注册信息、浏览信息、点击信息、评论信息和下单信息。

7.一种恶意用户识别装置，其特征在于，包括：

定义模块，用于将用户的购物行为数据对应的特征向量与未知参数的乘积确定为用户的信用评分；

第一确定模块，用于将恶意用户的信用评分小于目标阈值的概率和非恶意用户的信用评分小于所述目标阈值的概率之差定义为检验统计量，并将所述检验统计量确定为目标函数；所述检验统计量用于表征正确识别所述恶意用户与误识别所述恶意用户的概率之差；

优化模块，用于根据所述未知参数的第一赋值，确定满足最大化目标函数的关联参数；所述关联参数为与所述未知参数相对应的目标阈值；基于所述关联参数与所述第一赋值，采用迭代算法对所述目标函数进行优化，以得到所述未知参数的第N-1赋值和第N赋值；

第二确定模块，用于当所述第N赋值和所述第N-1赋值之间的乘积满足预设阈值条件时，将所述第N赋值与所述特征向量的乘积确定为所述用户的信用评分；

识别模块，用于根据所述信用评分的数值大小，识别所述用户是否为恶意用户；

其中，N为大于或等于2的正整数。

8.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6中任意一项所述的恶意用户识别方法。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～6中任意一项所述的恶意用户识别方法。