CN111783073A

CN111783073A - 黑产识别方法、装置及可读存储介质

Info

Publication number: CN111783073A
Application number: CN202010719576.9A
Authority: CN
Inventors: 杨羽; 姚登科; 王君
Original assignee: Beijing Doumi Youpin Technology Development Co ltd
Current assignee: Beijing Doumi Youpin Technology Development Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-16

Abstract

本公开提供了一种黑产识别方法、装置、及可读存储介质，该方法包括获取客户端设备的设备指纹数据，其中，所述设备指纹数据是唯一标识所述客户端设备的特征的数据；将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较，以确定所获取的设备指纹数据与所述数据库中的每一个设备指纹数据是否匹配；以及基于匹配结果确定所述客户端设备是否异常，以进行黑产识别，解决了相关技术中黑产识别慢、黑产识别不准确、需要人工干预所导致的无法有效防范黑产的问题，具有快速识别黑产、整个过程无需人工监督、且误判率低的有益效果。

Description

黑产识别方法、装置及可读存储介质

技术领域

本公开属于计算机网络安全领域，特别涉及一种黑产识别方法、装置、计算机设备及存储介质。

背景技术

黑产也称为网络黑色产业链，是指通过入侵计算机信息系统、非法窃取包括个人信息在内的计算机信息系统数据，谋取非法利益的产业体系。

例如，企业通常会提供一些商品激励或优惠政策，当人们利用这种信息赚钱的时候就形成“薅羊毛”事件和“羊毛党”，当“薅羊毛”的行为形成一定规模的时候，就形成了“薅羊毛”的群体，这些群体往往采用机器人去薅羊毛来最大化利益，而这个机器人就称为黑产，一般这个系统包括机器人注册、撞库冒用身份，薅羊毛等行为。

为防范黑产，在相关技术中，通常基于单位时间内关联账户的数量来识别黑产。例如，n天内关于某事件(例如注册、营销等)设备关联超过m个账户，或者1天内某IP关联超过m个账户，这些情况，该m个账户都被是被识别为黑产账户。

可以看出，目前的方法需要一定的时效性，往往在n天后、一天后才能发现黑产账户，但此时，黑产已经薅羊毛成功了，识别很被动很缓慢；并且，由于IP会由多个人共享，因此经常会产生误判；此外，由于黑产频繁更换IP，导致黑产识别失败。

发明内容

为了解决上述技术问题至少之一，本公开提供了一种黑产识别方法、装置、及存储介质。

根据本公开的第一个方面，提供了一种黑产识别方法，包括：获取客户端设备的设备指纹数据，其中，所述设备指纹数据是唯一标识所述客户端设备的特征的数据；将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较，以确定所获取的设备指纹数据与所述数据库中的每一个设备指纹数据是否匹配；以及基于匹配结果确定所述客户端设备是否异常，以进行黑产识别。

在本公开的一个示例性实施方式中，所述设备指纹数据包括以下至少之一特征：所述客户端设备的ID，所述客户端设备的陀螺仪数据，所述客户端设备的指南针数据和所述客户端设备的CPU数据。

在本公开的一个示例性实施方式中，在获取所述设备指纹数据之后，所述方法还包括：解析所述设备指纹数据，其中，所述设备指纹数据是对象简谱JSON数据；利用哈希算法处理解析后的所述设备指纹数据；以及将哈希算法处理后的所述设备指纹数据存储到所述数据库中。

在本公开的一个示例性实施方式中，将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较、以确定所获取的设备指纹数据与所述数据库中的每一个设备指纹数据是否匹配包括：计算所获取的设备指纹数据与所述数据库中的每一个设备指纹数据的相似度；以及在所述相似度大于相似度阈值的情况下，确定所获取的设备指纹数据与所述数据库中的该设备指纹数据相匹配，否则，确定不匹配。

在本公开的一个示例性实施方式中，采用以下公式计算所述相似度：

其中，余弦cos(θ)越接近1表示越相似，x_i是所获取的设备指纹数据中的特征，y_i是先前存储在数据库中的被比对的设备指纹数据的特征，n是所获取的设备指纹数据中的特征的个数。。

在本公开的一个示例性实施方式中，基于匹配结果确定所述客户端设备是否异常包括：在找到匹配且相匹配的数量大于匹配阈值的情况下，将所述客户端设备识别为异常设备；以及在找到匹配且相匹配的数量小于等于所述匹配阈值或者未找到匹配的情况下，将所述客户端设备识别为正常设备。

在本公开的一个示例性实施方式中，将所述客户端设备识别为异常设备之后，所述方法还包括：基于所述设备指纹数据进行黑产感染，以识别所述数据库中的所有设备指纹数据中的黑产账号。

在本公开的一个示例性实施方式中，基于所述设备指纹数据进行黑产感染包括：基于以下公式确定黑产相似度：

其中，S表示黑产相似度，x_i是所获取的设备指纹数据中的特征，y_i是先前存储在数据库中的被比对的设备指纹数据的特征，n是所获取的设备指纹数据中的特征的个数；以及在黑产相似度S大于感染阈值的情况下，将所述数据库中的该设备指纹数据识别并标记为黑产，以进行黑产感染。

在本公开的一个示例性实施方式中，基于所述设备指纹数据进行黑产感包括：将所述数据库中的具有与所获取的设备指纹数据相同的特征的设备指纹数据都识别并标记为黑产，其中，所述特征包括以下至少之一：手机号、微信号、QQ号、推特账号和脸书账号。

根据本公开的另一个方面，提供了一种黑产识别装置，包括获取模块，被配置为获取客户端设备的设备指纹数据，其中，所述设备指纹数据是唯一标识所述客户端设备的特征的数据；匹配模块，被配置为将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较，以确定所获取的设备指纹数据与所述数据库中的每一个设备指纹数据是否匹配；以及识别模块，被配置为基于匹配结果确定所述客户端设备是否异常，以进行黑产识别。

在本公开的一个示例性实施方式中，所述装置还包括：解析模块，被配置为解析所述设备指纹数据，其中，所述设备指纹数据是对象简谱JSON数据；处理模块，被配置为利用哈希算法处理解析后的所述设备指纹数据；以及存储模块，被配置为将哈希算法处理后的所述设备指纹数据存储到所述数据库中。

在本公开的一个示例性实施方式中，所述匹配模块包括：计算单元，被配置为计算所获取的设备指纹数据与所述数据库中的每一个设备指纹数据的相似度；以及匹配单元，被配置为在所述相似度大于相似度阈值的情况下，确定所获取的设备指纹数据与所述数据库中的该设备指纹数据相匹配，否则，确定不匹配。

其中，余弦cos(θ)越接近1表示越相似，x_i是所获取的设备指纹数据中的特征，y_i是先前存储在数据库中的被比对的设备指纹数据的特征，n是所获取的设备指纹数据中的特征的个数。

在本公开的一个示例性实施方式中，所述识别模块还被配置为：在找到匹配且相匹配的数量大于匹配阈值的情况下，将所述客户端设备识别为异常设备；以及在找到匹配且相匹配的数量小于等于所述匹配阈值或者未找到匹配的情况下，将所述客户端设备识别为正常设备。

在本公开的一个示例性实施方式中，所述装置还包括感染模块，被配置为基于所述设备指纹数据进行黑产感染，以识别所述数据库中的所有设备指纹数据中的黑产账号。

在本公开的一个示例性实施方式中，所述感染模块还被配置为：基于以下公式确定黑产相似度：

其中，S表示黑产相似度，x_i是所获取的设备指纹数据中的特征，y_i是先前存储在数据库中的被比对的设备指纹数据的特征，n是所获取的设备指纹数据中的特征的个数。

在本公开的一个示例性实施方式中，所述感染模块还被配置为将所述数据库中的具有与所获取的设备指纹数据相同的特征的设备指纹数据都识别并标记为黑产，其中，所述特征包括以下至少之一：手机号、微信号、QQ号、推特账号和脸书账号。

根据本公开的又一个方面，提供了一种计算机设备，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序用于实现如上描述的黑产识别方法。

根据本公开的又一个方面，提供了一种计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时用于实现如上描述的黑产识别方法。

在本公开中，通过分析设备指纹数据进行黑产识别，解决了相关技术中黑产识别慢、黑产识别不准确、需要人工干预所导致的无法有效防范黑产的问题，具有快速识别黑产、整个过程无需人工监督、且误判率低的有益效果。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本公开的一部分，本公开的示意性实施方式及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是根据本公开实施方式的黑产识别方法的流程图。

图2是根据本公开实施方式的黑产识别装置的结构示意图。

图3是根据本公开实施方式的黑产识别系统的结构示意图。

图4是根据本公开实施方式的在黑产识别系统中服务器和客户端设备交互的流程图。

图5为适于用来实现本公开实施方式的服务器的计算机设备的结构示意图。

具体实施方式

为使本公开实施的目的、技术方案和优点更加清楚，下面将结合本公开实施方式中的附图，对本公开实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本公开一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。基于本公开中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本公开保护的范围。下面结合附图对本公开的实施方式进行详细说明。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本公开一个示例性实施方式，提供了一种黑产识别方法，如图1所示，该方法包括以下步骤:

步骤S102，接收客户端设备发送的用户请求。

网络黑产通常伪装成普通的客户端设备，向服务器发送用户请求，例如，进行网络账号恶意注册。

网络账号恶意注册是不以正常使用为目的，使用虚假的或者非法取得的身份信息，以人工和自动工具结合方式，向服务器发送网络账号批量注册请求。黑产实施者利用这些网络账号开展网络诈骗、抢票屯号、恶意抢券、虚假流量营销等活动。例如，某大型电商平台推出新注册用户送代金券活动，黑产实施者在短时间内便可集中上万个黑卡，向服务器发送注册请求，成为新用户，骗取代金券后再通过各种渠道倒卖套现。

在本公开的一个示例性实施方式中，为了防止异常(黑产)用户请求，在用户请求中携带设备指纹数据。这样，在客户端主动地收集与设备相关的特征，通过对这些特征进行识别便可识别出不同的设备和相关用户。

在本公开的一个示例性实施方式中，在客户端设备上(例如手机APP)植入代码，主动收集客户端设备的相关特征。在设备特征的选取上，不仅需要考虑特征的稳定性还需要考虑特征的准确性。通常来讲，所选取的特征应该在预定时间段内不随着外界的条件变化、或是用户的操作行为而发生变化，同时在不同的设备上具有显著的差异。

在本公开的一个示例性实施方式中，所收集的设备特征为设备指纹数据，其中，指纹数据格式例如可以为如下所示的JSON(JavaScript Object Notation)数据：

{

"UUID":设备唯一ID,

"gyroscope":陀螺仪数据,

"compass":指南针数据,

"CPU":cpu数据,

"other":其他辅助数据

}

步骤S104，获取设备指纹数据。

服务器从客户端设备接收到用户请求后，从用户请求中获取JSON数据格式的设备指纹数据。JSON是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。JSON作为数据包格式传输的时候具有非常高的效率，这是因为JSON不需要有严格的闭合标签，这就让有效数据量与总数据包比大大提升，从而减少同等数据流量的情况下网络的传输压力。

在本公开的一个示例性实施方式中，设备指纹数据采用的是设备唯一ID、陀螺仪数据、指南针数据等。但是，在其他的示例性实施方式中，设备指纹数据可以是其他关于设备的数据，只要可以标识出该设备的设备特征即可，例如，设备指纹数据还可以是客户端设备的操作系统类型，安装的各种插件，浏览器的语言设置及其时区、设备的硬件ID，手机的IMEI，电脑的网卡Mac地址，字体设置等。再例如，从用户请求的数据包的OSI七层协议中，提取出客户端设备的操作系统、协议栈和网络状态相关的特征，作为设备指纹数据。

步骤S106，解析设备指纹数据，并存储到数据库中。

服务器获取设备指纹数据之后，解析设备指纹数据，然后将这些解析出的数据组合起来，通过特定的哈希算法生成特征字符串，来作为该设备的唯一特征标识符。

哈希算法是一种从任意数据中创造比较小的数字指纹的方法。与指纹一样，哈希算法能够以较短的信息来保证设备唯一性，这种标志与设备的每一个特征信息都相关，而且难以找到逆向规律。因此，当设备发生改变时，其特征标识符也会发生改变。

在得到设备的特征标识符之后，将该特征标识符存储到数据库中。这样，通过对这个特征标识符的检测与追踪，就可以在设备的IP，cookie甚至设备ID都发生改变时，仍然识别出该设备。

步骤S108，分析设备指纹数据，识别并标记黑产。

服务器会将所接收到的设备指纹与存储在数据库中的所有设备指纹数据进行比较，以确定该设备指纹数据对应的设备是否是异常设备(即黑产)。例如，所存储的设备指纹数据与所存储的所有设备指纹数据之间的匹配可以被解释为表示从其获取设备指纹数据的设备与从其中获取了存储的设备指纹数据的设备相同的指示，进一步地，判断匹配的数量是否大于预定的阈值，例如5或者10，如果大于预定阈值，则可以认为该设备为异常设备，相反，则可以认定为正常设备。此外，如果该设备指纹数据与数据库中的任何其他设备指纹数据都不完全匹配，则可以将其视为正常设备。在本实施方式中，匹配指的是陀螺仪、指南针、CPU等设备指纹数据都具有相同的特征。

在本公开的一个示例性实施方式中，在服务器中引入以下约束：约束在每个应用级别(如购物APP)、某个事件级别(注册、领券)上进行检测，然后，通过陀螺仪、指南针、CPU等数据计算用户的相似度。例如，由于黑产实施者的任务和操作约束，在特定时间中他们只会集中针对某个功能进行攻击，所以可以根据不同功能对行为分类，并在功能层次进行检测，例如按照“注册”、“领券”将用户进行分组，每个组内计算用户之间相似度并进行检测，这样可以降低计算成本。

在本公开的一个优选的示例性实施方式中，可以采用以下公式计算相似度，以识别黑产：

其中，余弦cos(θ)越接近1表示越相似，x_i是所获取的设备指纹数据中的特征，y_i是先前存储在数据库中的被比对的设备指纹数据的特征，n是所获取的设备指纹数据中的特征的个数，例如，n为4，表示设备指纹数据中共包含四个特征，X_i为X₁，X₂，X₃，X₄，分别表示以下四个特征：设备唯一ID、指南针数据、陀螺仪数据、CPU数据。在余弦cos(θ)大于某一预设的阈值例如0.9的情况下，则将数据库中的该设备指纹数据标识为黑产。

在本公开的一个示例性实施方式中，还可以采用以下公式计算相似度，以识别黑产：

其中，share是相似度，z₁和z₂是当前的设备指纹数据的过滤器和数据库中的任一设备指纹数据的过滤器中零的数目，z₁₂是在两个过滤器中“与计算”后的零的个数，m是过滤器的大小，k是使用的哈希函数的数量。

在本公开的一个示例性实施方式中，在识别出异常设备之后，可以触发某种响应动作。该响应动作可以包括出于跟踪目的而记录数据，或者可以包括其他活动，例如阻止客户端设备访问服务器。此外，还可以将数据库中的该设备指纹数据标识为黑产。

步骤S110，基于所识别的黑产，进行黑产感染。

在本公开的一个示例性实施方式中，进行黑产感染可以采用字符串相似度算法进行。计算所识别为黑产的设备指纹设备的字符串的长度和数据库中的任一设备指纹设备的字符串的长度，根据相似度算法得出各个维度的相似度然后加上比重，比如，当前的设备指纹数据的特征假定为A(a1,a2,a3,a4......)，对应的需要计算的数据库中的设备指纹数据的对应特征假定为B(b1,b2,b3,b4....)，那么可以采用以下公式进行黑产感染：

S＝W1*similarity(a1,b1)+W2*similarity(a2,b2)+W3*similarity(a3,b3)+...，

其中，S为数据库中的一设备指纹数据与当前的设备指纹数据的黑产相似度，similarity()为相似度函数，W1,W2,W3...为对应特征的权重，并且W1+W2+W3...＝1，这样可算出数据库中每个设备指纹数据与当前的设备指纹数据的相似度。在相似度大于某一预设的阈值的情况下，则将数据库中的该设备指纹数据标识为黑产，以进行黑产感染。

在本公开的一个优选实施方式中，还可以基于以下公式确定黑产相似度：

其中，S表示黑产相似度，x_i是所获取的设备指纹数据中的特征，y_i是先前存储在数据库中的被比对的设备指纹数据的特征，n是所获取的设备指纹数据中的特征的个数，其中S越接近1表示黑产相似度越高。在相似度大于某一预设的阈值例如0.95的情况下，则将数据库中的该设备指纹数据标识为黑产，以进行黑产感染。

通过上述无监督黑产识别方法，解决了在复杂的移动互联网环境下设备的识别与追踪问题，在反欺诈与系统安全方面有着诸多的应用。互联网金融与电商等行业，长期面临着各种业务欺诈的压力。黑产产业通过广告流量欺诈、推广套利、虚假交易、伪冒身份、金融信用欺诈等多种方式，骗取企业的推广营销费用、商品、贷款等，给企业造成巨大损失。这类欺诈活动的明显特征，就是欺诈者通过刷号、代理等各种手段，隐藏自己的真实身份和设备信息，以达到欺骗的目的。而本公开通过设备指纹数据，可以溯源某些异常的操作是否来源于同一台设备，从而可以快速识别出黑产，进而可以判断是否有系统安全的风险存在。

根据本公开的一个示例性实施方式，提供了一种黑产识别装置。如图2所示，该黑产识别装置包括获取模块22，匹配模块24和识别模块26。

获取模块22被配置为获取客户端设备的设备指纹数据，其中，设备指纹数据是唯一标识所述客户端设备的特征的数据；匹配模块24被配置为将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较，以确定所获取的设备指纹数据与数据库中的每一个设备指纹数据是否匹配；识别模块26被配置为基于匹配结果确定客户端设备是否异常，以进行黑产识别。

根据本公开的一个示例性实施方式，提供了一种黑产识别系统。如图3所示，该黑产识别系统包括客户端设备32、服务器34和数据库36。

客户端设备32是客户端的电子设备，该电子设备可以是智能手机、平板电脑、个人计算机、路由器，诸如移动电话和媒体播放器之类的可编程通信设备，以及其他可编程设备等。客户端设备32可以与软件的可执行文件或数据存储设备的计算机可读介质中编码。当加载到客户端设备32的存储器中时，在客户端设备32的处理器中，一个或多个可执行文件使客户端设备32执行客户端处理和输出。

在本公开的一个示例性实施方式中，客户端设备32中安装有购物APP，用户通过客户端设备32上的APP等，或者，也可以是用户通过社交客户端向其他用户发送的聊天消息；当客户端设备32中安装有游戏客户端时，客户端设备32发布的信息可以是用户通过游戏客户端在游戏公共会话系统中发表的公共会话信息，或者，也可以是向指定用户发送的私人会话信息；当客户端设备32中安装有购物类客户端时，客户端设备32发布的信息可以是用户通过购物客户端发布的商品信息。凡是经由服务器34发送至其他客户端的信息都可以被视作客户端设备32发布的信息，本公开实施方式并不对信息的具体类型进行限定。

服务器34与客户端设备32之间通过有线或无线的通信网络相连。上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施方式中，使用包括超文本标记语言(Hyper Text Mark-upLanguage，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(VirtualPrivate Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施方式中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器34是一台服务器、若干台服务器构成的服务器集群或云计算中心。本公开的一个示例性实施方式中，服务器34可以是客户端设备32中应用程序的后台服务器。

本公开实施方式中的服务器34具有黑产检测功能，在检测并识别出黑产后，做出预定的响应。例如，在检测黑产广告的情况下，当服务器34接收到客户端设备32发送的广告信息时，服务器34首先对该广告信息进行黑产检测，若基于检测结果确定为黑产，服务器34将拦截该广告信息，并禁止向其他终端推送该广告信息；若检测结果为正常信息，服务器140则将该广告信息推送至其他设备。

本公开实施方式中的服务器36用于存储所有的设备指纹数据，这些设备指纹数据是先前从客户端设备获取的设备指纹数据。

图4是根据本公开实施方式的服务器、客户端设备、数据库和黑产数据库之间的交互过程的示意图。

步骤S402，获取设备指纹数据。

在一些示例性实施方式中，设备指纹数据可以使用从服务器下载的应用程序在客户端设备上生成，或者通过某种其他方法安装在客户端设备上。在本公开的一个示例性实施方式中，可以在客户端启动或连接到网络时自动生成的ping中获取设备指纹数据。

获取设备指纹数据通常有两种方式：被动指纹识别和主动指纹识别。被动指纹识别是通过无感知的方式收集客户端设备的信息，无需客户端设备的同意。该方式会基于每台设备发送的内容来收集设备指纹数据。主动指纹识别是客户端设备主动指纹识别，该方式需要主动请求服务器通信，这使得它们在客户端中的运行更容易被检测到。一些APP运行JavaScript代码作为收集设备指纹数据的方式。

步骤S404，解析设备指纹数据。

服务器获取了设备指纹数据后，对该数据进行解析。在本公开的一个示例性实施方式中，服务器根据接收到的客户端发送的用户请求，从JSON数据结构中解析设备指纹数据。

步骤S406，存储设备指纹数据。

服务器可以更新数据库，将设备指纹数据以及与该设备指纹数据有关的新参数数据存储到数据库中。例如，可以将与设备有关的其他参数数据添加到该设备指纹数据的记录中，这些其他参数数据包括例如在获取当前设备指纹数据时客户端设备的日期、时间、地理位置和网络地址。这些数据有利于随时间跟踪客户端设备的使用和配置。

步骤S408，读取所有设备指纹数据。

服务器在获得当前的设备指纹数据之后，从数据库中读取所有设备指纹数据。

步骤S410，识别黑产。

服务器比较当前的设备指纹数据和从数据库中读取的所有设备指纹数据。如果该设备指纹数据与数据库36中的设备指纹数据相匹配的数量超过预设的阈值，则将该设备指纹数据对应的客户端的设备识别为异常设备。相反，如果先前没有获取相同的设备指纹数据并将其存储在数据库中，则当前的设备指纹数据不应与数据库中的任何记录匹配，因此，可以将该设备指纹数据对应的客户端的设备识别为正常设备。这样，可以确认设备身份并防止未识别的设备访问安全数据或其他资源。

此外，服务器可以基于当前设备指纹数据和数据库中的设备指纹数据之间的比较来确定配置更改的性质。例如，服务器可以基于比较确定除了一个或几个特定参数之外，构成设备指纹数据的所有参数均未改变，并识别出改变后的参数是什么，这样，服务器便能够推断出当前的设备指纹数据和数据库中的设备指纹数据实际上来自同一台设备，例如通过使用设备唯一ID、陀螺仪数据、指南针数据和cpu数据，比较该设备指纹数据和数据库36中的设备指纹数据的相似度。

步骤S412，标记黑产。

服务器在识别出黑产之后，标记黑产。

步骤S414，存储黑产。

将识别出的黑产存储到黑产数据库中。

步骤S416，读取所有设备指纹数据。

从数据库中将所有设备指纹数据读取出来，以准备进行黑产感染。

步骤S418，感染黑产。

在本公开的一个示例性实施方式中，按照设定的各参数的权重，采用simhash算法进行黑产感染，其中，simhash算法是一种计算文本相似度的算法。具体地，计算当前的设备指纹数据的simhash值与数据库中所有已存储的设备指纹数据的simhash值，并将两个simhash值进行比较，以确定二者的相似度。如果数据库中存在一个已存储的设备指纹数据的simhash值与当前的设备指纹数据的simhash值的距离小于判定阈值，则判定二者相似度很高，否则，则判定该设备为正产设备。

步骤S420，更新黑产数据库。

将所感染出的黑产数据存储到黑产数据库中。

在本公开的实施方式中，采用了两个数据库，其中一个数据库存储所有设备指纹数据，另一个数据库用作黑产数据库。在其他的实施方式中，也可以仅采用一个数据库，并在该数据库中设置一个黑产标记字段，用于标记黑产。

下面参考图5，其示出了适于用来实现本公开实施方式的计算机设备800的结构示意图。图5示出的计算机设备仅仅是一个示例，不应对本公开实施方式的功能和使用范围带来任何限制。

如图5所示，计算机设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分708加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有设备800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本公开的方法中限定的上述功能。需要说明的是，本公开的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，本公开还可以实现为以下配置：

(1)一种黑产识别方法，其特征在于，包括：

获取客户端设备的设备指纹数据，其中，所述设备指纹数据是唯一标识所述客户端设备的特征的数据；

将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较，以确定所获取的设备指纹数据与所述数据库中的每一个设备指纹数据是否匹配；以及

基于匹配结果确定所述客户端设备是否异常，以进行黑产识别。

(2)如(1)所述的黑产识别方法，其特征在于，所述设备指纹数据包括以下至少之一特征：所述客户端设备的ID，所述客户端设备的陀螺仪数据，所述客户端设备的指南针数据和所述客户端设备的CPU数据。

(3)如(1)所述的黑产识别方法，其特征在于，在获取所述设备指纹数据之后，所述方法还包括：

解析所述设备指纹数据，其中，所述设备指纹数据是对象简谱JSON数据；

利用哈希算法处理解析后的所述设备指纹数据；以及

将哈希算法处理后的所述设备指纹数据存储到所述数据库中。

(4)如(1)至(3)中任一项所述的黑产识别方法，其特征在于，将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较、以确定所获取的设备指纹数据与所述数据库中的每一个设备指纹数据是否匹配包括：

计算所获取的设备指纹数据与所述数据库中的每一个设备指纹数据的相似度；以及

在所述相似度大于相似度阈值的情况下，确定所获取的设备指纹数据与所述数据库中的该设备指纹数据相匹配，否则，确定不匹配。

(5)如(4)所述的黑产识别方法，其特征在于，采用以下公式计算所述相似度：

(6)如(4)所述的黑产识别方法，其特征在于，基于匹配结果确定所述客户端设备是否异常包括：

在找到匹配且相匹配的数量大于匹配阈值的情况下，将所述客户端设备识别为异常设备；以及

在找到匹配且相匹配的数量小于等于所述匹配阈值或者未找到匹配的情况下，将所述客户端设备识别为正常设备。

(7)如(6)所述的黑产识别方法，其特征在于，将所述客户端设备识别为异常设备之后，所述方法还包括：基于所述设备指纹数据进行黑产感染，以识别所述数据库中的所有设备指纹数据中的黑产账号。

(8)如(7)所述的黑产识别方法，其特征在于，基于所述设备指纹数据进行黑产感染包括：

基于以下公式确定黑产相似度：

其中，S表示黑产相似度，x_i是所获取的设备指纹数据中的特征，y_i是先前存储在数据库中的被比对的设备指纹数据的特征，n是所获取的设备指纹数据中的特征的个数；以及

在黑产相似度S大于感染阈值的情况下，将所述数据库中的该设备指纹数据识别并标记为黑产，以进行黑产感染。

(9)如(7)所述的黑产识别方法，其特征在于，基于所述设备指纹数据进行黑产感包括：将所述数据库中的具有与所获取的设备指纹数据相同的特征的设备指纹数据都识别并标记为黑产，其中，所述特征包括以下至少之一：手机号、微信号、QQ号、推特账号和脸书账号。

(10)一种黑产识别装置，其特征在于，包括：

获取模块，被配置为获取客户端设备的设备指纹数据，其中，所述设备指纹数据是唯一标识所述客户端设备的特征的数据；

匹配模块，被配置为将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较，以确定所获取的设备指纹数据与所述数据库中的每一个设备指纹数据是否匹配；以及

识别模块，被配置为基于匹配结果确定所述客户端设备是否异常，以进行黑产识别。

(11)如(10)所述的黑产识别装置，其特征在于，所述设备指纹数据包括以下至少之一特征：所述客户端设备的ID，所述客户端设备的陀螺仪数据，所述客户端设备的指南针数据和所述客户端设备的CPU数据。

(12)如(10)所述的黑产识别装置，其特征在于，所述装置还包括：

解析模块，被配置为解析所述设备指纹数据，其中，所述设备指纹数据是对象简谱JSON数据；

处理模块，被配置为利用哈希算法处理解析后的所述设备指纹数据；以及

存储模块，被配置为将哈希算法处理后的所述设备指纹数据存储到所述数据库中。

(13)如(10)至(12)中任一项所述的黑产识别装置，其特征在于，所述匹配模块包括：

计算单元，被配置为计算所获取的设备指纹数据与所述数据库中的每一个设备指纹数据的相似度；以及

匹配单元，被配置为在所述相似度大于相似度阈值的情况下，确定所获取的设备指纹数据与所述数据库中的该设备指纹数据相匹配，否则，确定不匹配。

(14)如(13)所述的黑产识别装置，其特征在于，所述匹配模块被配置为采用以下公式计算所述相似度：

(15)如(13)所述的黑产识别装置，其特征在于，所述识别模块还被配置为：

(16)如(15)所述的黑产识别装置，其特征在于，所述装置还包括感染模块，被配置为基于所述设备指纹数据进行黑产感染，以识别所述数据库中的所有设备指纹数据中的黑产账号。

(17)如(16)所述的黑产识别装置，其特征在于，所述感染模块还被配置为：

基于以下公式确定黑产相似度：

(18)如(16)所述的黑产识别装置，其特征在于，所述感染模块还被配置为将所述数据库中的具有与所获取的设备指纹数据相同的特征的设备指纹数据都识别并标记为黑产，其中，所述特征包括以下至少之一：手机号、微信号、QQ号、推特账号和脸书账号。

(19)一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序用于实现如(1)-(9)任一项所述的方法。

(20)一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现如(1)-(9)任一项所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中，这些模块或单元的名称在某种情况下并不构成对该模块或单元本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时按上述方法对数据进行处理。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种黑产识别方法，其特征在于，包括：

2.如权利要求1所述的黑产识别方法，其特征在于，所述设备指纹数据包括以下至少之一特征：所述客户端设备的ID，所述客户端设备的陀螺仪数据，所述客户端设备的指南针数据和所述客户端设备的CPU数据。

3.如权利要求1所述的黑产识别方法，其特征在于，在获取所述设备指纹数据之后，所述方法还包括：

利用哈希算法处理解析后的所述设备指纹数据；以及

4.如权利要求1至3中任一项所述的黑产识别方法，其特征在于，将所获取的设备指纹数据与先前存储在数据库中的每一个设备指纹数据进行比较、以确定所获取的设备指纹数据与所述数据库中的每一个设备指纹数据是否匹配包括：

5.如权利要求4所述的黑产识别方法，其特征在于，采用以下公式计算所述相似度：

6.如权利要求4所述的黑产识别方法，其特征在于，基于匹配结果确定所述客户端设备是否异常包括：

7.如权利要求6所述的黑产识别方法，其特征在于，将所述客户端设备识别为异常设备之后，所述方法还包括：基于所述设备指纹数据进行黑产感染，以识别所述数据库中的所有设备指纹数据中的黑产账号。

8.如权利要求7所述的黑产识别方法，其特征在于，基于所述设备指纹数据进行黑产感染包括：

基于以下公式确定黑产相似度：

9.一种黑产识别装置，其特征在于，包括：

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现如权利要求1-9任一项所述的方法。