CN110008986A

CN110008986A - 批量风险案件识别方法、装置及电子设备

Info

Publication number: CN110008986A
Application number: CN201910124104.6A
Authority: CN
Inventors: 叶芸; 金宏; 王维强; 赵闻飙
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-07-12
Anticipated expiration: 2039-02-19
Also published as: CN110008986B

Abstract

本申请实施例公开了一种批量风险案件识别方法、装置和电子设备，该方法包括：获取多个风险案件对应的原始事件数据；对所述多个风险案件的原始事件数据进行处理，得到所述多个风险案件的目标事件数据，所述目标事件数据包含用于描述作案特征的预设变量；基于密度聚类算法对所述多个风险案件的目标事件数据进行聚类，得到所述多个风险案件的聚类结果；基于所述聚类结果识别批量风险案件。

Description

批量风险案件识别方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种批量风险案件识别方法、装置及电子设备。

背景技术

风险案件是指通过服务提供平台(例如第三方支付平台)发生的会给平台用户带来风险的事件(例如账户被盗刷)或事件的集合。风险案件是调整平台的风控模型和风控策略，以及时进行风险防控的重要依据。在一个平台的案件运营分析过程中，从众多案件中及时识别出不法分子批量作案产生的批量风险案件是加快风险防控速度的重要手段之一。以第三方支付平台为例，不法分子可能通过突破特定的校验方式、在同一商户进行销赃等方式进行批量作案，从而产生批量风险案件。

目前，由平台运营人员从大量的日常案件中识别出批量风险案件。很显然，由人工识别批量风险案件的方式速度较慢，导致风险防控不够及时。

发明内容

本申请实施例提供了一种批量风险案件识别方法、装置及电子设备，以提高批量风险案件的识别速度。

为解决上述技术问题，本申请实施例是这样实现的：

第一方面，提出了一种批量风险案件识别方法，包括：

获取多个风险案件对应的原始事件数据；

对所述多个风险案件的原始事件数据进行处理，得到所述多个风险案件的目标事件数据，所述目标事件数据包含用于描述作案特征的预设变量；

基于密度聚类算法对所述多个风险案件的目标事件数据进行聚类，得到所述多个风险案件的聚类结果；

基于所述聚类结果识别批量风险案件。

第二方面，提出了一种批量风险案件识别装置，包括：

数据获取模块，用于获取多个风险案件对应的原始事件数据；

数据处理模块，用于对所述多个风险案件的原始事件数据进行处理，得到所述多个风险案件的目标事件数据，所述目标事件数据包含用于描述作案特征的预设变量；

第一聚类模块，用于基于密度聚类算法对所述多个风险案件的目标事件数据进行聚类，得到所述多个风险案件的聚类结果；

识别模块，用于基于所述聚类结果识别批量风险案件。

第三方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

获取多个风险案件对应的原始事件数据；

基于所述聚类结果识别批量风险案件。

第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取多个风险案件对应的原始事件数据；

基于所述聚类结果识别批量风险案件。

由以上本申请实施例提供的技术方案可见，本申请实施例提供的方案至少具备如下一种技术效果：由于可以基于密度聚类算法对多个风险案件的目标事件数据进行聚类，得到所述多个风险案件的聚类结果，而被聚类至同一类别中的风险案件可能是基于相同或相似的作案手段产生的风险案件，而基于相同或相似的作案手段产生的风险案件很可能就是批量风险案件，因此，可以基于多个风险案件的聚类结果自动识别出批量风险案件，从而提高批量风险案件的识别速度，以及时作出风险防控。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本说明书实施例提供的批量风险案件识别方法的流程示意图之一。

图2是本说明书实施例提供的批量风险案件识别方法的流程示意图之二。

图3是本说明书实施例提供的批量风险案件识别方法的流程示意图之三。

图4是本说明书实施例提供的批量风险案件识别方法的流程示意图之四。

图5是本说明书实施例提供的批量风险案件识别方法的流程示意图之五。

图6是本说明书实施例提供的一种电子设备的结构示意图。

图7是本说明书实施例提供的批量风险案件识别装置的结构示意图之一。

图8是本说明书实施例提供的批量风险案件识别装置的结构示意图之二。

图9是本说明书实施例提供的批量风险案件识别装置的结构示意图之三。

图10是本说明书实施例提供的批量风险案件识别装置的结构示意图之四。

图11是本说明书实施例提供的批量风险案件识别装置的结构示意图之五。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为提高批量风险案件的识别速度，以及时对风险作出防控，本说明书实施例提供一种批量风险案件识别方法，可以应用于需要进行批量风险案件识别的服务提供平台(以下简称平台)，例如第三方支付平台。本说明书实施例提供的批量风险案件识别方法的执行主体包括但不限于服务器、个人电脑等能够被配置为执行本发明实施例提供的该方法的终端中的至少一种。

图1是本说明书的一个实施例提供的批量风险案件识别方法的流程图。如图1所示，该方法可以包括：

步骤102、获取多个风险案件对应的原始事件数据。

这多个风险案件可以是过去的预设时段(T)内、由用户举报或投诉、并由平台按照一定的识别规则定性为风险案件的案件。其中，过去的预设时段例如可以是过去一天或过去一周等。其中，一个风险案件可以包括一个或多个事件，相应的，一个风险案件可以对应存在一条或多条原始事件数据，且原始事件数据可以是事件发生时产生的全部或部分数据，例如，第三方支付平台的一个用户举报其账户被盗刷5笔，那么一笔盗刷为一起事件，5笔盗刷事件构成一个风险案件，且一起盗刷事件对应的原始事件数据可以包括：某账户在某一时间和某一地点被盗刷多少金额，盗刷渠道为PC客户端，盗刷时采用的核身方式是支付密码，等等。核身方式，是指核验用户身份是否合法的身份认证方式。

步骤104、对所述多个风险案件的原始事件数据进行处理，得到所述多个风险案件的目标事件数据，所述目标事件数据包含用于描述作案特征的预设变量。

用于描述作案特征的预设变量，是指可以描述作案手法的一些变量，以第三方支付平台为例，预设变量可以包括支付渠道、支付场景、对方商户、支付城市和支付突破核身方式等。其中，支付渠道一般是指实现支付的设备的类型，例如移动终端或PC端；支付场景一般是指使用的具体支付方式，例如余额支付、信用卡支付或储蓄卡支付等；对方商户一般是指收款商户；支付城市是指支付地点所在的城市；突破核身方式是指通过核身验证的具体方式。

在一个例子中，对所述多个风险案件的原始事件数据进行处理，得到所述多个风险案件的目标事件数据，可以包括：先从所述多个风险案件的原始事件数据中清洗出目标事件数据，可选地，对所述目标事件数据中的所述预设变量进行归一化处理。一般情况下，一个风险案件可以包括一个或多个事件，一个事件对应一条目标事件数据，一条目标事件数据中可以包括一个或多个预设变量。

例如，假如平台在过去T时段内共确定出100个风险案件，这100个风险案件对应包括200个事件，则可以从这200个事件对应的200条原始事件数据中清洗出200条目标事件数据。

进一步的，由于从原始事件数据中清洗出的目标事件数据中包含的预设变量通常用字符串表示，例如支付城市、支付场景等是一些用字符串表示的变量。因此，需要先按照一定的转换规则将这些用字符串表示的用于描述作案特征的变量转换为数值，以便于进行归一化处理，例如可以采用word2vec、随机游走(Random walk)和独热编码(One hotencoding)等算法将字符串转换为数值；或者，最简单，可以事先制定不同预设变量对应的数值的映射关系，然后通过查询该映射关系，将用字符串表示的预设变量转换为数值，例如，可以将支付渠道映射为1，将支付场景映射为2，等等。

对于预设变量X进行归一化处理的一种具体方式为：

其中，X_i表示第i个预设变量，X_i'表示归一化处理后的第i个预设变量，mean(X)表示第i个预设变量的变量类型对应的全体预设变量的平均值，sd(X)表示第i个预设变量的变量类型对应的全体预设变量的标准差。

如下表1所示，假如上文中所举的例子中的200条目标事件数据中的每一条目标事件数据中包含Var1、Var2和Var3三种预设类型的变量，则在对某一条目标数据中的变量Var1进行归一化处理时，求mean(X)和sd(X)的范围是200条目标事件数据对应的200个Var1，也即A1～A200；在对某一条目标数据中的变量Var2进行归一化处理时，求mean(X)和sd(X)的范围是200条目标事件数据对应的200个Var2，也即B1～B200；在对某一条目标数据中的变量Var3进行归一化处理时，求mean(X)和sd(X)的范围是200条目标事件数据对应的200个Var3，也即C1～C200。

表1

目标事件数据的编号	变量Var1	变量Var2	变量Var3
				1	A1	B1	C1
2	A2	B2	C2
				3	A3	B3	C3
······	······	······	······
				200	A200	B200	C200

步骤106、基于密度聚类算法对所述多个风险案件的目标事件数据进行聚类，得到所述多个风险案件的聚类结果。

其中，密度聚类算法包括但不限于HDBSCAN(Density-Based Spatial Clusteringof Applications with Noise，基于密度的空间的数据聚类方法)。

可以理解，在基于HDBSCAN算法对所述多个风险案件的目标事件数据进行聚类前，可以先利用样本数据训练得到HDBSCAN算法的参数minPTS(最小的类里包含的事件数)。这样，在基于HDBSCAN算法对所述多个风险案件的目标事件数据进行聚类时，将多个风险案件的目标事件数据和HDBSCAN算法的参数minPTS作为输入，得到多个风险案件的聚类结果。

并且可以理解，由于输入HDBSCAN算法的一条一条的目标事件数据，而一条目标事件数据对应一个事件，因此，步骤106中得到的分类结果首先可以看作是多个风险案件对应的事件的分类结果，进一步地，由于同一风险案件的事件的目标事件数据中通常包含至少一个相同的预设变量，因此，同一风险案件的事件通常会被聚类至同一个类别中，进而可以将步骤106中得到的分类结果看作是多个风险案件的分类结果。

此外，基于密度聚类算法对离群噪声点不敏感，参数不敏感，能检测任意形状的类，风险案件包括单点案件和批量案件，基于密度聚类算法能够很好地区分出单点案件，使得批量案件聚类不受干扰，这使得本说明书实施例提供的批量风险案件是被方法可以更好地识别出批量风险案件。

步骤108、基于所述聚类结果识别批量风险案件。

作为一个例子，步骤108可以包括：确定所述聚类结果中包含的案件数量大于或等于第二预设阈值的第二聚类；将所述第二聚类中的案件，确定为批量风险案件。其中，第二预设阈值可以预先基于常见的批量作案的最小规模设定。

本说明书实施例提供的一种批量风险案件识别方法，由于可以基于密度聚类算法对多个风险案件的目标事件数据进行聚类，得到所述多个风险案件的聚类结果，而被聚类至同一类别中的风险案件可能是基于相同或相似的作案手段产生的风险案件，而基于相同或相似的作案手段产生的风险案件很可能就是批量风险案件，因此，可以基于多个风险案件的聚类结果自动识别出批量风险案件，从而提高批量风险案件的识别速度，以及时作出风险防控。

经实验验证表明，本说明书实施例提供的批量风险案件识别方法，能够自动的将作案行为或者作案环境等因素相近的批量风险案件聚集在一起，替代了人工识别环节，提高了批量风险案件识别速度，并且能识别出90％以上的批量风险案件，以及识别准确率在80％以上。

进一步地，由于密度聚类算法针对不稠密数据的聚类效果相对较差，易聚成大类，例如将大部分的事件(如超过80％)聚至同一类别中，而这个大类并不是理想的聚类结果，其中包含的事件有可能不止是同一批的批量风险案件。鉴于此，可选地，如图2所示，在另一实施例中，在步骤108之前，本说明书实施例提供的一种批量风险案件识别方法，还可以包括：

步骤110、确定所述聚类结果中是否存在第一聚类，所述第一聚类中包含的案件数量在所述多个案件中所占的比例大于或等于预设比例；如果是，执行步骤112；否则，执行步骤108。

其中，预设比例可以人为设定。例如可以设置为70％或80％，或其他比例。

步骤112、基于预设聚类算法对所述第一聚类中的风险案件的目标事件数据重新进行聚类，得到修正后的所述多个风险案件的聚类结果。

其中，预设聚类算法可以是除密度聚类算法的聚类算法，例如层次聚类算法。

在执行完步骤112之后，相当于是对基于密度聚类算法得到的聚类结果中的大类再次进行了聚类，得到了修正后的所述多个风险案件的聚类结果。

相应的，步骤108可以包括：基于修正后的聚类结果识别批量风险案件。在该步骤108中，基于修正后的聚类结果识别批量风险案件的具体方式与图1所示的实施例中相同，此处不再赘述。

不难理解，本说明书实施例提供的一种批量风险案件识别方法，由于在基于密度聚类算法得到所述多个风险案件的聚类结果之后，又进一步地基于预设算法对聚类结果中的大类进行了二次聚类。因此，可以改善密度聚类算法针对不稠密数据的聚类效果相对较差的缺陷，最终得到针对所述多个风险案件的理想聚类结果。

进一步地，虽然如上文所述，由于同一风险案件的事件的目标事件数据中通常包含至少一个相同的预设变量，因此，同一风险案件的事件通常会被聚类至同一个类别中，进而可以将步骤106中得到的分类结果看作是多个风险案件的分类结果。但是，在实际应用中，仍有可能出现同一风险案件对应的不同事件被聚类至不同类别中的情况，导致同一风险案件被聚类至不同的分类中。为了解决该问题，如图3所示，在另一实施例中，在步骤108之前，本说明书实施例提供的一种批量风险案件识别方法，还可以包括：

步骤114、确定所述聚类结果中的一个聚类相对于另一个聚类的案件重合度。

在一种实施方式中，可以先确定步骤106中得到的聚类结果中，一个聚类相对于另一个聚类中案件标识相同的风险案件数量，将所述风险案件数量与目标数量的比值，确定为所述一个聚类相对于所述另一个聚类的案件重合度，其中，目标数量是所述一个聚类和所述另一个聚类中的案件数量较少的一个聚类中的案件数量，具体确定方式如下：

其中，μ_ij表示步骤106中得到的聚类结果中的聚类i相对于聚类j的案件重合度，Num(C_i∩C_j)表示聚类i相对于另一聚类j中案件标识相同的风险案件数量，案件标识例如可以是案件编号，Num(C_i)表示聚类i中的案件数量，Num(C_j)表示聚类j中的案件数量。

当然，计算一个聚类相对于另一聚类的重合度的方式可以有很多种，本说明书只是示例性地说明了一种，但不排除其他确定方式的可能，例如，上述计算μ_ij的公式中的分母还可以是Max(Num(C_i),Num(C_j))，也即目标数量还可以是所述一个聚类和所述另一个聚类中的案件数量较多的一个聚类中的案件数量。

步骤116、将所述聚类结果中案件重合度大于或等于第一预设阈值的至少两个聚类合并。

例如，可以将聚类结果中，案件重合度大于或等于70％的至少两个聚类合并。

相应的，步骤108可以包括：基于合并后的聚类结果识别批量风险案件，基于修正后的聚类结果识别批量风险案件的具体方式与图1所示的实施例中相同，此处不再赘述。

不难理解，本说明书实施例提供的一种批量风险案件识别方法，在基于密度聚类算法得到所述多个风险案件的聚类结果之后，又进一步地对其中案件重合度较高的至少两个聚类进行合并。因此，可以避免出现同一风险案件对应的不同事件被聚类至不同类别中，导致的同一风险案件被聚类至不同分类中的问题。

可选地，如图4所示，在又一实施例中，本说明书实施例提供的一种批量风险案件识别方法，可以包括：

步骤102、获取多个风险案件对应的原始事件数据。

在该实施例中，步骤102、步骤104和步骤106所要实现的内容与图1所示的实施例相同，相关解释请参照上文，此处不做重复描述。

步骤110、确定所述聚类结果中是否存在第一聚类，所述第一聚类中包含的案件数量在所述多个案件中所占的比例大于或等于预设比例；如果是，执行步骤112；否则，执行步骤114。

其中，步骤110和步骤112的具体实现过程请参照上文中对图2所示的实施例的说明；步骤114和步骤116的具体实现过程请参照上文中对图3所示的实施例的说明。

可以理解，图4所示的实施例提供的一种批量风险案件识别方法，由于在基于密度聚类算法得到多个风险案件的聚类结果之后，进一步地基于预设算法对聚类结果中的大类进行了二次聚类，得到修正后的多个风险案件的聚类结果，然后又进一步地对修正后的聚类结果中案件重合度较高的至少两个聚类进行合并。因此，不仅可以避免同一风险案件被聚类至不同分类中的问题，又可以改善密度聚类算法针对不稠密数据的聚类效果相对较差的缺陷，最终得到针对所述多个风险案件的理想聚类结果。

可选地，如图5所示，在上述任一实施例的基础上，本说明书实施例提供的一种批量风险案件识别方法，在步骤108之后，还可以包括：

步骤118、确定第二聚类中的变量对应的第一距离和第二距离。

其中，第二聚类是聚类结果中包含的案件数量大于或等于第二预设阈值的聚类，第一距离为第二聚类中的变量到所述第二聚类的聚类中心的平均距离，第二距离为第二聚类中的变量在所述第二聚类中的中心到第三聚类的聚类中心的距离之和，第三聚类是所述聚类结果中包含的案件数量大于或等于所述第二预设阈值的聚类，且所述第三聚类与所述第二聚类不同。

具体的，确定第一距离的公式可以为：

其中，CP_i,X表示第一距离，X_i表示第二聚类中的第i个变量X的坐标，w_i表示第二聚类的聚类中心的坐标，γ_i表示第二聚类中变量X的集合，集合γ_i中的变量X的类型相同。

确定第二距离的公式可以为：

其中，SP_i,X表示第二距离；w_i表示变量X在第二聚类中的中心，在一种实施方式中，w_i具体可以是第二聚类的聚类中心的坐标，在另一种实施方式中，w_i可以是第二聚类中对应的集合γ_i中的变量X的坐标的平均值；w_j表示第三聚类的聚类中心的坐标；k表示第三聚类的数目。

步骤120、基于所述第一距离和所述第二距离，确定所述变量的重要性因子。

在一种实施方式中，可以将所述变量的第一距离与第二距离的比值，确定为该变量的重要性因子，具体计算公式如下：

其中，η表示第二聚类中的变量X的重要性因子。

可以理解，η是表征第二聚类中的变量X在第二聚类内部的紧密程度(由CP_i,X的大小体现)以及在第二聚类外部的稀疏程度(由SP_i,X的大小体现)的指标，第二聚类中的每一个变量都可以计算出这样一个指标值。

步骤122、基于所述变量的重要性因子，对所述第二聚类中的变量进行排序。

具体可以按照重要性因子从大到小的顺序，对第二聚类中的变量进行排序。

步骤124、基于所述第二聚类中的变量的排序，确定所述第二聚类的聚类原因。

具体可以确定所述第二聚类中排序在前的目标变量；将所述目标变量对应描述的作案特征，确定为所述第二聚类的聚类原因。可以理解，由于η是表征第二聚类中的变量X在第二聚类内部的紧密程度以及在第二聚类外部的稀疏程度的指标，因此，基于η排序在前的变量排序在前的变量描述的作案特征可能是第二聚类内的风险案件聚在一起的原因，例如，在D聚类内，排序在第一的变量是支付城市，说明是第二聚类内的风险案件是因为在同一城市支付而被聚在一起的批量风险案件；再如，在D聚类内，排序在第一的变量是支付渠道为PC端，说明是第二聚类内的风险案件是都用PC端作案而被聚在一起的批量风险案件；以及，在D聚类内，排序在第一的变量是转账到同一账户的支付场景，说明是第二聚类内的风险案件是转账到同一账户而被聚在一起的批量风险案件，等等。

更进一步地，在步骤124的基础上，本说明书实施例还可以进一步将确定出的第二聚类的聚类原因提供给运营人员，以便于运营人员及时进行风险防控。

本说明书实施例提供的一种批量风险案件识别方法，由于可以进一步地确定出第二聚类的聚类原因供运营人员分析用，因此可以进一步地提升风险防控的及时性。

以上是对本说明书实施例提供的一种批量风险案件识别方法的说明，下面对本说明书实施例提供的一种电子设备进行说明。

图6是本说明书的一个实施例提供的电子设备的结构示意图。请参考图6，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成批量风险案件识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取多个风险案件对应的原始事件数据；

基于所述聚类结果识别批量风险案件。

上述如本说明书图1所示实施例揭示的批量风险案件识别方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的批量风险案件识别方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

获取多个风险案件对应的原始事件数据；

基于所述聚类结果识别批量风险案件。

下面对本说明书实施例提供的一种批量案件识别装置700进行介绍。

图7是本说明书提供的批量风险案件识别装置700的结构示意图之一。请参考图7，在一种软件实施方式中，批量风险案件识别装置500可包括：数据获取模块701、数据处理模块702、第一聚类模块703和识别模块704。

数据获取模块701，用于获取多个风险案件对应的原始事件数据。

数据处理模块702，用于对所述多个风险案件的原始事件数据进行处理，得到所述多个风险案件的目标事件数据，所述目标事件数据包含用于描述作案特征的预设变量。

在一个例子中，数据处理模块702可以先从所述多个风险案件的原始事件数据中清洗出目标事件数据，可选地，对所述目标事件数据中的所述预设变量进行归一化处理。

可选地，进一步的，由于从原始事件数据中清洗出的目标事件数据中包含的预设变量通常用字符串表示，例如支付城市、支付场景等是一些用字符串表示的变量。因此，数据处理模块702可以先按照一定的转换规则将这些用字符串表示的用于描述作案特征的变量转换为数值，然后再进行归一化处理。

第一聚类模块703，用于基于密度聚类算法对所述多个风险案件的目标事件数据进行聚类，得到所述多个风险案件的聚类结果。

其中，密度聚类算法包括但不限于HDBSCAN算法。可以理解，第一聚类模块703在基于HDBSCAN算法对所述多个风险案件的目标事件数据进行聚类前，可以先利用样本数据训练得到HDBSCAN算法的参数minPTS(最小的类里包含的事件数)。这样，在基于HDBSCAN算法对所述多个风险案件的目标事件数据进行聚类时，将多个风险案件的目标事件数据和HDBSCAN算法的参数minPTS作为输入，得到多个风险案件的聚类结果。

基于密度聚类算法对离群噪声点不敏感，参数不敏感，能检测任意形状的类，风险案件包括单点案件和批量案件，基于密度聚类算法能够很好地区分出单点案件，使得批量案件聚类不受干扰，这使得本说明书实施例提供的批量风险案件是被方法可以更好地识别出批量风险案件。

识别模块704，用于基于所述聚类结果识别批量风险案件。

作为一个例子，识别模块704可以用于：确定所述聚类结果中包含的案件数量大于或等于第二预设阈值的第二聚类；将所述第二聚类中的案件，确定为批量风险案件。其中，第二预设阈值可以预先基于常见的批量作案的最小规模设定。

图7所示的批量风险案件识别装置700，由于可以基于密度聚类算法对多个风险案件的目标事件数据进行聚类，得到所述多个风险案件的聚类结果，而被聚类至同一类别中的风险案件可能是基于相同或相似的作案手段产生的风险案件，而基于相同或相似的作案手段产生的风险案件很可能就是批量风险案件，因此，可以基于多个风险案件的聚类结果自动识别出批量风险案件，从而提高批量风险案件的识别速度，以及时作出风险防控。

进一步地，由于密度聚类算法针对不稠密数据的聚类效果相对较差，易聚成大类，例如将大部分的事件(如超过80％)聚至同一类别中，而这个大类并不是理想的聚类结果，其中包含的事件有可能不止是同一批的批量风险案件。鉴于此，可选地，如图8所示，在另一实施例中，本说明书实施例提供的一种批量风险案件识别装置700，还可以包括：第一确定模块705和第二聚类模块706。

第一确定模块705，用于在基于所述分类结果识别批量风险案件之前，确定所述聚类结果中是否存在第一聚类，所述第一聚类中包含的案件数量在所述多个案件中所占的比例大于或等于预设比例；如果是，触发第二聚类模块706；否则，触发识别模块704。

第二聚类模块706，用于基于预设聚类算法对所述第一聚类中的风险案件的目标事件数据重新进行聚类，得到修正后的所述多个风险案件的聚类结果。

相应的，识别模块704可以用于：基于修正后的聚类结果识别批量风险案件。其中，基于修正后的聚类结果识别批量风险案件的具体方式与图7所示的实施例中相同，此处不再赘述。

图8所示的批量风险案件识别装置800，由于在基于密度聚类算法得到所述多个风险案件的聚类结果之后，又进一步地基于预设算法对聚类结果中的大类进行了二次聚类。因此，可以改善密度聚类算法针对不稠密数据的聚类效果相对较差的缺陷，最终得到针对所述多个风险案件的理想聚类结果。

进一步地，如图9所示，在另一实施例中，本说明书实施例提供的一种批量风险案件识别装置700，还可以包括：第二确定模块707和合并模块708。

第二确定模块707，用于确定所述聚类结果中的一个聚类相对于另一个聚类的案件重合度。

在一种实施方式中，可以先确定第一聚类模块703得到的聚类结果中，一个聚类相对于另一个聚类中案件标识相同的风险案件数量，将所述风险案件数量与目标数量的比值，确定为所述一个聚类相对于所述另一个聚类的案件重合度，其中，目标数量是所述一个聚类和所述另一个聚类中的案件数量较少的一个聚类中的案件数量，或者目标数量可以是所述一个聚类和所述另一个聚类中的案件数量较多的一个聚类中的案件数量。

合并模块708，用于将所述聚类结果中案件重合度大于或等于第一预设阈值的至少两个聚类合并。

相应的，识别模块704可以用于：基于合并后的聚类结果识别批量风险案件，基于修正后的聚类结果识别批量风险案件的具体方式与图7所示的实施例中相同，此处不再赘述。

图9所示的一种批量风险案件识别装置700，在基于密度聚类算法得到所述多个风险案件的聚类结果之后，又进一步地对其中案件重合度较高的至少两个聚类进行合并。因此，可以避免出现同一风险案件对应的不同事件被聚类至不同类别中，导致的同一风险案件被聚类至不同分类中的问题。

可选地，如图10所示，在又一实施例中，本说明书实施例提供的一种批量风险案件识别装置700，可以包括：数据获取模块701、数据处理模块702、第一聚类模块703、第一确定模块705、第二聚类模块706、第二确定模块707合并模块708和识别模块704。

第一确定模块705，用于在基于所述分类结果识别批量风险案件之前，确定所述聚类结果中是否存在第一聚类，所述第一聚类中包含的案件数量在所述多个案件中所占的比例大于或等于预设比例；如果是，触发第二聚类模块706；否则，触发第二确定模块707。

图10所示的实施例提供的一种批量风险案件识别装置700，由于在基于密度聚类算法得到多个风险案件的聚类结果之后，进一步地基于预设算法对聚类结果中的大类进行了二次聚类，得到修正后的多个风险案件的聚类结果，然后又进一步地对修正后的聚类结果中案件重合度较高的至少两个聚类进行合并。因此，不仅可以避免同一风险案件被聚类至不同分类中的问题，又可以改善密度聚类算法针对不稠密数据的聚类效果相对较差的缺陷，最终得到针对所述多个风险案件的理想聚类结果。

可选地，如图11所示，在上述任一实施例的基础上，本说明书实施例提供的一种批量风险案件识别装置700，还可以包括：第三确定模块709、第四确定模块710、排序模块711和第五确定模块712。

第三确定模块709，用于确定第二聚类中的变量对应的第一距离和第二距离。

第四确定模块710，用于基于所述第一距离和所述第二距离，确定所述变量的重要性因子。

在一种实施方式中，可以将所述变量的第一距离与第二距离的比值，确定为该变量的重要性因子。

排序模块711，用于基于所述变量的重要性因子，对所述第二聚类中的变量进行排序。

第五确定模块712，用于基于所述第二聚类中的变量的排序，确定所述第二聚类的聚类原因。

具体可以确定所述第二聚类中排序在前的目标变量；将所述目标变量对应描述的作案特征，确定为所述第二聚类的聚类原因。

更进一步地，在第五确定模块712的基础上，本说明书实施例还可以进一步将确定出的第二聚类的聚类原因提供给运营人员，以便于运营人员及时进行风险防控。

图11所示的实施例提供的一种批量风险案件识别装置700，由于可以进一步地确定出第二聚类的聚类原因供运营人员分析用，因此可以进一步地提升风险防控的及时性。

需要说明的是，批量风险案件识别装置700能够实现图1的方法实施例的方法，具体可参考图1所示实施例的批量风险案件识别方法，不再赘述。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种批量风险案件识别方法，包括：

获取多个风险案件对应的原始事件数据；

基于所述聚类结果识别批量风险案件。

2.根据权利要求1所述的方法，

在基于所述聚类结果识别批量风险案件之前，所述方法还包括：确定所述聚类结果中是否存在第一聚类，所述第一聚类中包含的案件数量在所述多个案件中所占的比例大于或等于预设比例；如果是，基于预设聚类算法对所述第一聚类中的风险案件的目标事件数据重新进行聚类，得到修正后的所述多个风险案件的聚类结果；

其中，所述基于所述聚类结果识别批量风险案件，包括：基于修正后的聚类结果识别批量风险案件。

3.根据权利要求1所述的方法，

在基于所述聚类结果识别批量风险案件之前，所述方法还包括：确定所述聚类结果中的一个聚类相对于另一个聚类的案件重合度；将所述聚类结果中案件重合度大于或等于第一预设阈值的至少两个聚类合并；

其中，所述基于所述聚类结果识别批量风险案件，包括：基于合并后的聚类结果识别批量风险案件。

4.根据权利要求3所述的方法，

其中，所述确定所述聚类结果中的一个聚类相对于另一个聚类的案件重合度，包括：

确定所述聚类结果中的一个聚类相对于另一个聚类中案件标识相同的风险案件数量；

将所述风险案件数量与目标数量的比值，确定为所述一个聚类相对于所述另一个聚类的案件重合度，所述目标数量是所述一个聚类和所述另一个聚类中的案件数量较少的一个聚类中的案件数量。

5.根据权利要求1所述的方法，

其中，所述基于所述聚类结果识别批量风险案件，包括：

确定所述聚类结果中包含的案件数量大于或等于第二预设阈值的第二聚类；

将所述第二聚类中的案件，确定为批量风险案件。

6.根据权利要求5所述的方法，还包括：

确定第二聚类中的变量对应的第一距离和第二距离，所述第一距离为所述变量到所述第二聚类的聚类中心的平均距离，所述第二距离为所述变量在所述第二聚类中的中心到第三聚类的聚类中心的距离之和，所述第三聚类是所述聚类结果中包含的案件数量大于或等于所述第二预设阈值的聚类，且所述第三聚类与所述第二聚类不同；

基于所述第一距离和所述第二距离，确定所述变量的重要性因子；

基于所述变量的重要性因子，对所述第二聚类中的变量进行排序；

基于所述第二聚类中的变量的排序，确定所述第二聚类的聚类原因。

7.根据权利要求6所述的方法，

其中，所述基于所述第二聚类中的变量的排序，确定所述第二聚类的聚类原因，包括：

确定所述第二聚类中排序在前的目标变量；

将所述目标变量对应描述的作案特征，确定为所述第二聚类的聚类原因。

8.根据权利要求1-7任一项所述的方法，

所述对所述多个风险案件的原始事件数据进行处理，得到所述多个风险案件的目标事件数据，包括：

从所述多个风险案件的原始事件数据中清洗出目标事件数据；

对所述目标事件数据中的所述预设变量进行归一化处理。

9.一种批量风险案件识别装置，包括：

识别模块，用于基于所述聚类结果识别批量风险案件。

10.一种电子设备，包括：

处理器；以及

获取多个风险案件对应的原始事件数据；

基于所述聚类结果识别批量风险案件。

11.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取多个风险案件对应的原始事件数据；

基于所述聚类结果识别批量风险案件。