CN106469276A

CN106469276A - 数据样本的类型识别方法及装置

Info

Publication number: CN106469276A
Application number: CN201510512056.XA
Authority: CN
Inventors: 马冲
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-08-19
Filing date: 2015-08-19
Publication date: 2017-03-01
Anticipated expiration: 2035-08-19
Also published as: CN106469276B

Abstract

本发明公开了一种数据样本的类型识别方法及装置。其中，该方法包括：对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，白样本为在指定业务场景中执行安全操作行为时所产生的数据样本，待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本；获取多个簇中的每个簇中白样本的占有率；将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本，将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。采用本发明，解决了相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题。

Description

数据样本的类型识别方法及装置

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种数据样本的类型识别方法及装置。

背景技术

在当前风险防控过程中需要通过防控规则对非法行为进行识别处理，防控规则的产出依赖于对正常群体与非法群体特征的对比分析，即白样本与黑样本的对比分析。分析效果取决于两类样本的纯净度。同时为了能够对实时发生的风险进行及时响应，就需要对实时异常进行分析。

当异常发生时，发生异常的样本并不完全是黑样本，如果将异常样本直接与白样本对比分析，则会得到不准确的分析结果。相关技术中提取黑样本的方法主要有以下两种：第一种，人工观察、过滤法提取黑样本；第二种，通过黑名单库等方式提取黑样本。对于第一种方法，由于采用人工利用分析软件对异常样本进行分析，过滤和观察，并根据经验提取黑样本，因而自动化程度低，需要有丰富的经验才能够进行，并且提取的黑样本纯度并不高；对于第二种方法，由于是从已有的黑名单库中提取黑样本，因而无法应对新异常产生的黑样本，因而提取的黑样本纯度并不高，另外，相关技术中对于已经打标的黑样本数据，是比较难以获取的。

针对相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据样本的类型识别方法及装置，以至少解决相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题。

根据本发明实施例的一个方面，提供了一种数据样本的类型识别方法，包括：对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，白样本为在指定业务场景中执行安全操作行为时所产生的数据样本，待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本；获取多个簇中的每个簇中白样本的占有率；将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本，其中，黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本；将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。

根据本发明实施例的另一方面，还提供了一种数据样本的类型识别装置，包括：聚类模块，用于对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，白样本为在指定业务场景中执行安全操作行为时产生的数据样本，待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本；获取模块，用于获取多个簇中的每个簇中白样本的占有率；判定模块，用于将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本，其中，黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本；将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。

在本发明实施例中，采用白样本与待识别异常样本进行聚类获取聚类得到的多个簇中每个簇中白样本的占有率；将占有率小于预设阈值的簇中的待识别异常样本判定为黑样本，将所述占有率大于预设阈值的簇的待识别异常样本判定为白样本的方式，通过利用白样本对待识别异常样本的类别进行判定，解决了相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题，同时相应地提升了黑样本的纯度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种数据样本的类型识别方法的计算机终端的硬件结构框图；

图2是根据本发明实施例1的数据样本的类型识别方法的流程图；

图3是本发明可选实施例的总体算法流程示意图；

图4是本发明可选实施例的类别判定流程的示意图；

图5是本发明实施例的数据样本的类别识别装置的结构框图一；

图6是本发明实施例的数据样本的类型识别装置的获取模块54的结构框图；

图7是本发明实施例的数据样本的类型识别装置的识别单元542的结构框图；

图8是本发明实施例的数据样本的类别识别装置的结构框图二；

图9是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，还提供了一种数据样本的类型识别的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种数据样本的类型识别方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据样本的类型识别方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的数据样本的类型识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图2所示的数据样本的类型识别方法。图2是根据本发明实施例1的数据样本的类型识别方法的流程图，如图2所示，该流程包括以下步骤：

步骤S202，对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，白样本为在指定业务场景中执行安全操作行为时所产生的数据样本，待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本；

需要说明的是，总体数据样本可以通过白样本和待识别异常样本进行混合得到，预设聚类算法可以是基于划分的聚类算法，基于层次的聚类算法，基于密度的聚类算法、基于网格的聚类算法，在一个可选的实施例中，上述预设聚类算法可以是K-Means聚类算法，DBSCAN聚类算法，但不限于此，该具体的算法的实现与现有技术相同，此处不再赘述。

上述指定业务场景可以是电子商务中的业务场景，例如，假货、炒信等非法行为的识别；也可以是其他业务场景，比如网络攻击防御领域的业务场景，以电子商务中的业务场景为例，上述白样本可以是指在电子商务活动中没有假货、炒信等非法行为的群体所产生的数据样本，上述待识别异常样本可以是在该业务场景下出现在异常时间段、异常入口或者其他异常范围内的群体所产生的数据样本。该待识别异常样本中可能存在白样本，也可能存在黑样本。

步骤S204，获取多个簇中的每个簇中白样本的占有率；

获取每个簇中白样本的占有率的方式有多种，在一个可选的实施例中，可以通过以下方式获取：以上述总体数据样本中的白样本作为基准，识别每个簇中所包含的白样本；获取识别出的每个簇中的白样本的数量；将每个簇中的白样本的数量与每个簇中包含的样本总数量进行比值计算，得到占有率。

需要说明的是，识别每个簇中的白样本可以通过相似度进行识别，例如：获取所述总体数据样本中的白样本与所述每个簇中样本的相似度；比较所述相似度是否大于指定阈值；将所述每个簇中所述相似度大于所述指定阈值的样本识别为白样本。

上述相似度的获取方式可以有多种，比如：向量空间模型的计算方法，基于hash方法的相似计算方法，基于主题的相似度计算方法等等，以空间向量模型的计算方法中的欧式距离计算方式为例，该相似度的计算方式可以是：假设每个簇中包含5个样本，首先，获取总体数据样本中的白样本以及这5个样本的坐标点，以二维坐标为例，按照欧式距离的计算公式得到该簇中5个样本与该白样本的欧式距离d1,d2,d3,d4,d5；如果d1<d2<d3<d4<d5,则d1对应的样本与该白样本的相似度最高，在该相似度高于指定阈值的样本认为是白样本。

需要说明的是，上述指定阈值可以通过历史经验值进行设定，也可以通过其他方式进行设定，比如，可以通过具体的场景对该历史经验值进行动态调整。

步骤S206，将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本，其中，黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本；将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。

在本发明的一个可选实施例中，在步骤S206之后，上述方法还包括：拦截或限制识别出的上述黑样本的操作行为。

需要说明的是，限制识别出的上述黑样本的操作行为可以表现为对黑样本的部分操作行为进行权限限制，比如对该黑样本的一些非法操作行为比如炒作信用、卖假货等的行为进行限制，但是，并不限制该黑样本在网站上购买货物的行为；也可以对黑样本的全部行为进行限制，比如该黑样本虽然卖了假货，但是其去其他商家正常购买货物的行为也是不允许的。

以电子商务中的业务场景中假货、炒信等非法行为的识别场景为例，步骤S206中的黑样本可以是指在电子商务活动中存在假货、炒信等非法行为的群体所产生的数据样本。需要说明的是，在本发明实施例中的黑样本与白样本在概念上是相对的，比如：白样本可以是在指定场景下的正常群体所产生的数据样本，黑样本是在该指定场景下的非法群体所产生的数据样本，在一个可选的实施例中，白样本可以是确定无恶意行为的群体产生的数据样本，黑样本为实际存在恶意行为的群体产生的数据样本。

通过上述步骤，由于打标的白样本易于获取，因而，采用白样本与待识别异常样本进行聚类的方式，将簇中白样本占有率高的簇中的待识别异常样本视为白样本，簇中白样本占有率低的簇中的待识别异常样本视为黑样本，即利用白样本对待识别异常样本的类别进行判定，解决了相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题，同时相应地提升了黑样本的提取纯度。

另外，通过计算相似度，与白样本特征相似度高的个体将被聚类到白样本簇中，则与白样本特征差异较大的个体将被认为是疑似黑个体。再通过上述判断簇中的白样本所占的比例(即占有率)的方式进一步识别出白样本群体和黑样本群体，进而能够更加准确从异常样本中提取该黑样本群体。

在本发明实施例中，为了更加准确的提取黑样本，步骤S206可以通过以下方式实现：将多个簇中占有率小于预设阈值的簇判定为黑样本群体；按照预设规则将黑样本群体中的所述待识别异常样本判定为所述黑样本。需要说明的是，该预设规则可以是上述描述的相似度的方式，比如可以利用白样本为基准，在黑样本群体中，与该白样本相似度差异很大的待识别异常样本，直接识别为黑样本，比如，可设置一个指定阈值，在相似度小于该指定阈值的情况下，判定所述待识别异常样本判定为黑样本，也可以为相关技术中的其他方式，并不限于此。

为了更好的理解本发明，以下结合可选的实施例对本发明做进一步的解释。

该可选的实施例中主要包括两个过程：白样本与异常样本聚类，黑样本群体判定。图3是本发明可选实施例的总体算法流程示意图，如图3所示，该方法包括：

步骤S302，将白样本与待识别异常样本混合；

步骤S304，将混合后的样本输入到K-Means聚类算法模型中进行聚类，聚类后可以得到n个簇；

步骤S306，将每个簇分别进行类别判定，将簇判定为白样本群体，或者黑样本群体，其中，n为正整数。

图4是本发明可选实施例的类别判定流程的示意图，如图4所示，类别判定流程包括以下步骤：

步骤S402，根据输入的簇和白样本，计算输入簇中白样本在该输入簇中的数量，从而计算出白样本在簇中的占比(相当于上述图2所示实施例中的占有率)；

步骤S404，判断占比是否不大于参数P(相当于上述图2所示实施例中的预设阈值)；若占比大于参数p，执行步骤S406；否则，执行步骤S408；

步骤S406，判定为白样本群体；

步骤S408，判定为黑样本群体。

在本发明的可选实施例中，对于黑样本群体中的待识别异常样本，可以通过相关技术中的方式再进行进一步的识别，得到准确的黑样本。

在经过本算法后，与白样本特征相似程度高的待识别异常样本将被聚类到白样本群体中，这些与白样本特征相似程度高的待识别异常样本被认为是白样本，而与白样本特征差异较大的待识别异常样本将被认为是黑样本。从而实现从待识别异常样本中提取黑样本。

本发明还提供了一种可选的实施例，该可选实施例主要包括两个过程：白样本与异常样本聚类；疑似黑样本群体判定。其中，白样本与异常样本聚类过程包括以下步骤：

步骤1，将白样本与待识别异常样本混合；

步骤2，将混合后的样本输入到K-Means聚类算法模型中进行聚类，聚类后可以得到n个簇；

步骤3，将每个簇分别进行类别判定，将簇判定为白样本群体，或者疑似黑样本群体，其中，n为正整数。

具体地，疑似黑样本群体的判定方法可以包括以下步骤：

步骤S4，根据输入的簇和白样本，计算输入簇中白样本在该输入簇中的数量，从而计算出白样本在簇中的占比(相当于上述图2所示实施例中的占有率)；

步骤S5，判断占比是否不大于参数P(相当于上述图2所示实施例中的预设阈值)；若占比大于参数p，执行步骤S406；否则，执行步骤S408；

步骤S6，判定为白样本群体；

步骤S7，判定为疑似黑样本群体。

在本发明可选实施例中，可以根据需要对参数P进行设置，当设置的参数P较小时，上述疑似黑样本群体的纯度越高(例如黑样本的比例为100％，或大于95％等等)，但是此时也可能遗漏一些真正的黑样本，因而，该参数P可以根据实际需要设定合适的参数值。

需要说明的是，上述可选实施例中判定的疑似黑样本群体是一个粗略的判定，即判定得出的疑似黑样本群体中可能还包含一些白样本，为了更加准确的识别出黑样本，还可以对疑似黑样本群体中的个体(可以为上述实施例中的待识别异常样本)进行进一步的识别，该识别的方式可以是采用上述实施例中的相似度识别的方式，即以白样本作为基准，获取该疑似黑样本中的个体与该白样本之间的相似度，设置一个阈值，在相似度大于该阈值的个体识别为白样本，在相似度小于阈值的个体识别为黑样本，也可以结合相关技术中的方式比如人工观察等一并对疑似黑样本群体中的个体进行识别。

需要说明的是，对于上述阈值的设置也可以根据实际需要对其进行设置，例如如果需要更加精确的识别出黑样本，可以设置较低的阈值，反之可以设置较高的阈值。

在经过本算法后，与白样本特征相似程度高(即相似度大于上述阈值)的个体将被聚类到白样本群体中，这些与白样本特征相似程度高的个体被认为是白样本，而与白样本特征差异较大(即相似度小于上述阈值)的个体将被认为是疑似黑样本。从而实现从待识别异常样本中提取黑样本。

以下结合具体的应用场景对上述实施例作进一步的解释。

(1)在电商安全领域的业务场景中，可以采用本发明上述实施例中的方式来识别炒作信用、假货、虚假账号、信息泄露等这些行为，以假货为例，首先会为卖家建立多个指标，例如卖家的登陆地，最近一个月的销量，上架的产品数量，退款量等。一般来说正常卖家和假货卖家在这些特征上会有差别。在根据卖家特征进行假货识别时，会遇到两个问题：在实际中由于假货卖家数量远远小于正常卖家数量，因此也会产生黑样本不足的问题。由于安全领域的强对抗性，平台运营方面为了对抗假货而上线的规则的有效性会不断衰减，新的卖假货手段会不断出现。

本发明的该可选实施例中使用正常卖家的样本(相当于上述实施例中的白样本)的特征作为参考，将与正常卖家的样本的特征不同的卖家样本，视为异常卖家样本(相当于上述实施例中的黑样本)。经过本发明可选实施例处理后，输出的异常卖家样本可以用于后续的分析，用于进一步的定性。

在本发明可选实施例中，首先输入正常卖家样本，然后输入待分析的卖家样本(相当于上述实施例中的待识别异常样本)。使用聚类算法对其聚类后，与正常卖家的样本特征相似程度高的卖家样本将与正常卖家样本聚类到一起，因此可以根据每个簇中正常卖家样本的比例，判断这个簇的性质为正常或者可疑，具体地，可以设定一个阈值，比如设定阈值为60％，将上述每个簇中正常卖家样本所占的比例与上述阈值比较，将比例小于该阈值的簇认为是可疑的簇，将比例大于该阈值的簇认为是正常的簇，将可疑的簇中输入卖家的样本作为异常卖家样本(即上述实施例中的黑样本)，提供给后续的分析过程。

(2)在网络攻击防御领域的业务场景中，网络服务器的防火墙需要对进入的流量进行识别，判断是正常流量(相当于上述实施例中的白样本)还是异常流量(相当于上述实施例中的黑样本)。可以将访问流量的创建连接时长，单位时间内访问次数等作为样本特征，对异常的流量进行识别。

在本发明可选实施例中，输入正常流量的样本，然后输入待分析流量的样本(相当于上述实施例中的待识别异常样本)。将两类样本混合聚类后，与正常流量相似的样本将聚类到一起，与正常流量不同的流量将聚类到其他簇。根据每个簇中正常流量的比例，可以判定簇的性质，具体地，可以设置一个阈值，比如设定阈值为60％，将上述比例与该阈值进行比较，在上述比例大于该阈值的簇认为是正常的簇，将上述比例小于该阈值的簇认为是可疑的簇。将可疑的簇中输入的流量的样本作为异常流量样本(相当于上述实施例中的黑样本)，进行下一步处理。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的数据样本的类型识别方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述数据样本的类型识别方法的装置，图5是本发明实施例的数据样本的类别识别装置的结构框图一，如图5所示，该装置包括：

聚类模块52，用于对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，白样本为在指定业务场景中执行安全操作行为时产生的数据样本，待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本；

需要说明的是，总体数据样本可以通过白样本和待识别异常样本进行混合得到，预设聚类算法可以是基于划分的聚类算法，基于层次的聚类算法，基于密度的聚类算法、基于网格的聚类算法，在一个可选的实施例中，上述预设聚类算法可以是K-Means聚类算法，DBSCAN聚类算法，但不限于此，该具体算法的实现与现有技术相同，此处不再赘述。

上述指定业务场景可以是电子商务中的业务场景，例如，假货、炒信等非法行为的识别；也可以是其他业务场景，比如网络攻击防御领域的业务场景，以电子商务中的业务场景为例，上述白样本可以是指在电子商务活动中没有假货、炒信等非法行为的群体所产生的数据样本，上述待识别异常样本可以是在该业务场景下出现在异常时间段、异常入口或者其他异常范围内的群体所产生的数据样本。该异常样本中可能存在白样本，也可能存在黑样本。

获取模块54，与上述聚类模块52连接，用于获取多个簇中的每个簇中白样本的占有率；

在一个可选的实施例中，图6是本发明实施例的数据样本的类型识别装置的获取模块54的结构框图，如图6所示，上述获取模块54可以包括:识别单元542，用于以所述总体数据样本中的白样本作为基准，识别所述每个簇中所包含的白样本；获取单元544，与识别单元542连接，用于获取识别出的所述每个簇中的白样本的数量；计算单元546，与获取单元544连接，用于将所述每个簇中的白样本的数量与所述每个簇中包含的样本总数量进行比值计算，得到所述占有率。

需要说明的是，上述识别模块542可以通过相似度来识别每个簇中的白样本，图7是本发明实施例的数据样本的类型识别装置的识别单元542的结构框图，如图7所示，识别单元542可以包括：获取子单元5422，用于获取所述总体数据样本中的白样本与所述每个簇中的样本的相似度；比较子单元5424，与比较子单元5422连接，用于比较所述相似度是否大于指定阈值；识别子单元5426，与比较子单元5424连接，用于将所述每个簇中所述相似度大于所述指定阈值的样本识别为白样本。

上述获取子单元5422获取相似度的方式可以有多种，比如：通过向量空间模型的计算方法，基于hash方法的相似计算方法，基于主题的相似度计算方法等等来获取，以空间向量模型的计算方法中的欧式距离计算方式为例，该相似度的计算方式可以是：假设每个簇中包含5个样本，首先，获取总体数据样本中的白样本以及这5个样本的坐标点，以二维坐标为例，按照欧式距离的计算公式得到该簇中5个样本与该白样本的欧式距离d1,d2,d3,d4,d5；如果d1<d2<d3<d4<d5,则d1对应的样本与该白样本的相似度最高，在该相似度高于指定阈值的样本认为是白样本。

判定模块56，用于将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本，其中，黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本；将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。

在本发明的一个可选实施例中，上述装置还包括：处理模块，与上述判定模块56连接，用于拦截或限制识别出的黑样本的操作行为。

需要说明的是，上述处理模块可以对黑样本的部分行为进行权限限制，比如对该黑样本的一些非法行为比如炒作信用、卖假货等的行为进行限制，但是，并不限制该黑样本在网站上购买货物的行为、也可以对黑样本的全部行为进行限制，比如该黑样本虽然卖了假货，但是其去其他商家正常购买货物的行为也是不允许的。

以电子商务中的业务场景，例如，假货、炒信等非法行为的识别场景为例，步骤S206中的黑样本可以是指在电子商务活动中存在假货、炒信等非法行为的群体所产生的数据样本。

通过上述装置，由于打标的白样本易于获取，因而，采用白样本与待识别异常样本进行聚类的方式，将簇中白样本占有率高的簇中的待识别异常样本视为白样本，簇中白样本占有率低的簇中的待识别异常样本视为黑样本，即利用白样本对待识别异常样本的类别进行判定，解决了相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题，同时相应地提升了黑样本的提取纯度。

另外，通过计算相似度，与白样本特征相似度高的个体将被聚类到白样本簇中，则与白样本特征差异较大的个体将被认为是疑似黑个体。再通过上述判断簇中的白样本所占的比例(即占有率)的方式进一步识别出白样本和黑样本，进而能够更加准确从异常样本中提取该黑样本群体。

在本发明实施例中，为了更加准确的提取黑样本，图8是本发明实施例的数据样本的类别识别装置的结构框图二，上述判定模块56可以包括：第一判定单元562，用于将所述多个簇中所述占有率小于所述预设阈值的簇判定为黑样本群体；第二判定单元564，用于按照预设规则将所述黑样本群体中的所述待识别异常样本判定为所述黑样本。需要说明的是，该预设规则可以是上述描述的相似度的方式，比如，可设置一个指定阈值，在相似度小于该指定阈值的情况下，判定所述待识别异常样本判定为黑样本，也可以为相关技术中的其他方式，并不限于此。

实施例3

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的数据样本的类型识别方法中以下步骤的程序代码：对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，白样本为在指定业务场景中执行安全操作行为时所产生的数据样本，待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本；获取多个簇中的每个簇中白样本的占有率；将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本，其中，黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本；将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。

可选地，图9是根据本发明实施例的一种计算机终端的结构框图。如图9所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器、存储器、以及其他装置。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的数据样本的类型识别方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据样本的类型识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：以总体数据样本中的白样本作为基准，识别每个簇中的白样本；获取识别出的每个簇中的白样本的数量与每个簇中包含的样本总数量的比值得到所述占有率。

可选的，上述处理器还可以执行如下步骤的程序代码：获取总体数据样本中的白样本与每个簇中样本的相似度；比较相似度与指定阈值；将每个簇中相似度大于指定阈值的样本识别为白样本。

可选的，上述处理器还可以执行如下步骤的程序代码：将占有率所对应的簇判定为黑样本群体之后，从黑样本群体中识别类型为黑样本的个体样本。

可选的，上述处理器还可以执行如下步骤的程序代码：拦截或限制识别出的上述黑样本群体的操作行为。

采用本发明实施例，提供了一种数据样本的类型识别方法的方案。通过聚类的方式，将簇中白样本占有率高的簇中的待识别异常样本视为白样本，簇中白样本占有率低的簇中的待识别异常样本视为黑样本群体，即利用白样本对待识别异常样本的类别进行判定，解决了相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题，同时相应地提升了黑样本的提取纯度。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据样本的类型识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，白样本为在指定业务场景中执行安全操作行为时所产生的数据样本，待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本；获取多个簇中的每个簇中白样本的占有率；将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本，其中，黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本；将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据样本的类型识别方法，其特征在于，包括：

对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，所述白样本为在指定业务场景中执行安全操作行为时所产生的数据样本，所述待识别异常样本为在所述指定业务场景中执行异常操作行为时所产生的数据样本；

获取所述多个簇中的每个簇中白样本的占有率；

将所述多个簇中所述占有率小于预设阈值的簇中的所述待识别异常样本判定为黑样本，其中，所述黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本；将所述多个簇中所述占有率大于所述预设阈值的簇中的待识别异常样本判定为白样本。

2.根据权利要求1所述的方法，其特征在于，获取所述每个簇中白样本的占有率，包括：

以所述总体数据样本中的白样本作为基准，识别所述每个簇中所包含的白样本；

获取识别出的所述每个簇中的白样本的数量；

将所述每个簇中的白样本的数量与所述每个簇中包含的样本总数量进行比值计算，得到所述占有率。

3.根据权利要求2所述的方法，其特征在于，以所述总体数据样本中的白样本作为参考，识别所述每个簇中的白样本，包括：

获取所述总体数据样本中的白样本与所述每个簇中的样本的相似度；

比较所述相似度是否大于指定阈值；

将所述每个簇中所述相似度大于所述指定阈值的样本识别为白样本。

4.根据权利要求1所述的方法，其特征在于，将所述多个簇中所述占有率小于预设阈值的簇中的所述待识别异常样本判定为黑样本包括：

将所述多个簇中所述占有率小于所述预设阈值的簇判定为黑样本群体；

按照预设规则将所述黑样本群体中的所述待识别异常样本判定为所述黑样本。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

拦截或限制识别出的所述黑样本的操作行为。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述指定业务场景包括以下之一：电子商务中的业务场景，网络攻击防御中的业务场景。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述预设聚类算法包括以下之一：

K-Means聚类算法，DBSCAN聚类算法。

8.一种数据样本的类型识别装置，其特征在于，包括：

聚类模块，用于对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理，得到多个簇，所述白样本为在指定业务场景中执行安全操作行为时产生的数据样本，所述待识别异常样本为在所述指定业务场景中执行异常操作行为时所产生的数据样本；

获取模块，用于获取所述多个簇中的每个簇中白样本的占有率；

判定模块，用于将所述多个簇中所述占有率小于预设阈值的簇中的所述待识别异常样本判定为黑样本，其中，所述黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本；将所述多个簇中所述占有率大于所述预设阈值的簇中的待识别异常样本判定为白样本。

9.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

识别单元，用于以所述总体数据样本中的白样本作为基准，识别所述每个簇中所包含的白样本；

获取单元，用于获取识别出的所述每个簇中的白样本的数量；

计算单元，用于将所述每个簇中的白样本的数量与所述每个簇中包含的样本总数量进行比值计算，得到所述占有率。

10.根据权利要求9所述的装置，其特征在于，所述识别单元包括：

获取子单元，用于获取所述总体数据样本中的白样本与所述每个簇中的样本的相似度；

比较子单元，用于比较所述相似度是否大于指定阈值；

识别子单元，用于将所述每个簇中所述相似度大于所述指定阈值的样本识别为白样本。

11.根据权利要求8所述的装置，其特征在于，所述判定模块包括：

第一判定单元，用于将所述多个簇中所述占有率小于所述预设阈值的簇判定为黑样本群体；

第二判定单元，用于按照预设规则将所述黑样本群体中的所述待识别异常样本判定为所述黑样本。

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

处理模块，用于拦截或限制识别出的所述黑样本的操作行为。

13.根据权利要求8至12中任一项所述的装置，其特征在于，所述指定业务场景包括：

电子商务中的业务场景，网络攻击防御中的业务场景。

14.根据权利要求8至12中任一项所述的装置，其特征在于，所述预设聚类算法包括以下之一：

K-Means聚类算法，DBSCAN聚类算法。