CN108665270A

CN108665270A - 数据欺诈识别方法、装置、计算机设备和存储介质

Info

Publication number: CN108665270A
Application number: CN201810344738.8A
Authority: CN
Inventors: 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2018-10-16
Also published as: WO2019200739A1

Abstract

本申请揭示了数据欺诈识别方法、装置、计算机设备和存储介质，区块链上的数据欺诈识别，其中方法包括：在区块链上获取与指定企业相关的数据；将获取的数据进行特征提取，以得到多个特征数据；在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据；通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据。本申请是首次解决企业区块链上数据欺诈数据的识别问题，其利用Voronoi算法，可以将可能是欺诈数据的数据分析出来，从而使企业可以了解与其进行业务往来的其它人或企业的是否可能存在欺诈行为，进而选择适当的合作关系的紧密度等。

Description

数据欺诈识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及到数据欺诈识别领域，特别是涉及到一种数据欺诈识别方法、装置、计算机设备和存储介质。

背景技术

区块链是一种去中心化、无需信任的新型数据架构，它由网络中所有的节点共同拥有、管理和监督，不接受单一方面的控制。

区块链不会出现数据造假，但是会存在恶意刷单形成的欺诈数据，如何识别区块链上的数据是正常交易产生的，还是“刷”出来的，是亟需解决的问题。

发明内容

本申请的主要目的为提供一种可以有效地识别出区块链上欺诈数据的数据欺诈识别方法、装置、计算机设备和存储介质。

本申请提出一种数据欺诈识别方法，用于区块链上的数据欺诈识别，所述方法，包括：

在区块链上获取与指定企业相关的数据；

将获取的数据进行特征提取，以得到多个特征数据；

在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据；

通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据。

进一步地，所述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：

将所述多个特征数据可视化处理，将可视化中的离散点对应的特征数据记为所述不相关特征数据。

进一步地，所述将所述多个特征数据可视化处理的步骤，包括：

将所述多个特征数据制作成散点图。

将所述多个特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

进一步地，所述将获取的数据进行特征提取以得到特征数据的步骤，包括：

根据预设要求对获取的数据进行分类；

对各类数据分别进行特征提取。

提取各类数据对应的多个特征数据中的不相关特征数据；

将对应各类数据的不相关特征数据混合后进行相关性分析，将不具有相关性的不相关特征数据记为最终的不相关特征数据。

对所述多个特征数据进行可视化处理；

提取可视化中的离散点对应的特征数据，并将离散点对应的特征数据进行相关矩阵分析，提取各离散点对应的特征数据中没有关联的非关联特征数据，并将所述非关联特征数据记为所述不相关特征数据。

本申请还提供一种数据欺诈识别装置，用于区块链上的数据欺诈识别，所述装置，包括：

获取单元，用于在区块链上获取与指定企业相关的数据；

特征提取单元，用于将获取的数据进行特征提取，以得到多个特征数据；

不相关分析单元，用于在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据；

异常识别单元，用于通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的数据欺诈识别方法、装置、计算机设备和存储介质，是首次解决企业区块链上数据欺诈数据的识别问题，其利用Voronoi算法，可以将可能是欺诈数据的数据分析出来，从而使企业可以了解与其进行业务往来的其它人或企业的是否可能存在欺诈行为，进而选择适当的合作关系的紧密度等。

附图说明

图1为本申请一实施例的数据欺诈识别方法的流程示意图；

图2为本申请一实施例的Voronoi图；

图3为本申请一实施例的数据欺诈识别方法的流程示意图；

图4为本申请一实施例的数据欺诈识别装置的结构示意框图；

图5为本申请一实施例的异常识别单元的结构示意框图；

图6为本申请一实施例的不相关分析单元的结构示意框图；

图7为本申请另一实施例的不相关分析单元的结构示意框图；

图8为本申请一实施例的数据欺诈识别装置的结构示意框图；

图9为本申请一实施例的不相关分析单元的结构示意框图；

图10为本申请一实施例的数据欺诈识别装置的结构示意框图；

图11为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种数据欺诈识别方法，用于区块链上的数据欺诈识别，所述方法包括步骤：

S1、在区块链上获取与指定企业相关的数据；

S2、将获取的数据进行特征提取，以得到多个特征数据；

S3、在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据；

S4、通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据。

如上述步骤S1所述，上述区块链是一种去中心化、无需信任的新型数据架构，它由网络中所有的节点共同拥有、管理和监督，不接受单一方面的控制。区块链是一种管理持续增长的、按序整理成区块并受保护以防篡改的交易记录的分布式账本数据库。分布式账本是指不同于传统数据库技术的数字化所有权记录(因不需要中央管理员或中央数据存储)，这种账本能在点对点网络的不同节点之间相互复制，且各项交易均由私钥签署。共识机制是指区块链或分布式账本技术应用的一种无需依赖中央机构来鉴定和验证某一数值或交易的机制。共识机制是所有区块链和分布式账本应用的基础。上述指定企业是指待查询的企业，即待查询在区块链上是否存在欺诈数据的企业。上述相关的数据一般为在区块链上与指定企业相关的全部数据，比如与指定企业相关的账户、金额、日期、时间、币种、渠道、商户、产品信息、用户IP、设备等。上述指定数据具体的获取方法包括：输入企业名称以及企业运营范围等关键词，然后到区块链上进行检索，得到与检索词相关的全部数据。

如上述步骤S2所述，即为特征提取的过程。在一个实施例中，其具体过程包括：整合数据，将数据规范化成一个数据集，收集起来；将数据集中的数据进行数据格式化，清理采样数据等；然后将采样数据进行数据转换得到需要的特征数据。

在一具体实施例中，特征提取可以使用ReliefF算法，ReliefF算法是 1994年Kononeill在Relief算法(Relief算法是一种特征权重算法(Feature weightingalgorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除)上进行改进而得到的算法，其相对于Relief算法而言，可以处理多类别问题。该ReliefF算法用于处理目标属性为连续值的回归问题。ReliefF算法在处理多类问题时，每次从训练样本集中随机取出一个样本R，然后从和R同类的样本集中找出R的k个近邻样本(near Hits)，从每个R的不同类的样本集中均找出k个近邻样本(near Misses)，然后更新每个特征的权重，具体如下：

在上式中，diff(A,R₁,R₂)表示样本R₁和样本R₂在特征A上的差，其计算公式，M_j(C)表示类C中第j个最近邻样本。如下式：

在另一具体实施例中，使用上述Relief算法进行特征提取。Relief算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本 H，称为Near Hit，从和R不同类的样本中寻找最近邻样本M，称为NearMiss，然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加，因而运行效率非常高。

如上述步骤S3所述，即为找出上述特征数据中与其它数据不相关的不相关特征数据。不相关特征数据因为与其它特征数据不相关，所以其对应的原始数据可能是欺诈数据。

如上述步骤S4所述，上述Voronoi又叫泰森多边形或Dirichlet图，它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。N个在平面上有区别的点，按照最邻近原则划分平面；每个点与它的最近邻区域相关联。通过该Voronoi算法既可以从上述不相关特征数据中进一步地识别出异常值，这些被识别出的异常值则认为是欺诈数据。上述Voronoi算法的复杂度较低，计算速度快。

在一具体实施例中，在区块链上提取企业Y的一切相关数据，比如企业 Y的账户、账户登录时间、交易次数、交易金额、渠道、商户、产品信息、用户IP等，之后将得到数据进行特征提取，然后对提取出的多个特征数据进行相关性分析，其中与其它特征数据不相关的特征数据即为不相关特征数据，而不相关特征数据对应的原始数据可能是欺诈数据，为了确定不相关特征数据的对应的原始数据是欺诈数据的概率问题，通过Voronoi算法对所述不相关特征数据进行异常值识别，Voronoi算法会在上述的不相关特征数据中查找出异常值(按照Voronoi算法的规则，计算出与其它不相关特征数据存在差异的不相关特征数据)，然后对异常值进行排序输出，其中最先输出的异常值对应的原始数据是欺诈数据的可能性最高，并依次降低，在其它实施例中，可以设置最先输出的异常值对应的原始数据是欺诈数据的可能性最低，并依次升高。本实施例中，可以将全部的异常值输出，也可以只输出异常值对应的原始数据是欺诈数据的可能性较高的指定数量的异常值等。

参照图2，本实施例中，上述通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据的步骤S4，具体包括：

a、将上述不相关特征数据制作成点集S的Voronoi图；

其中，每个不相关特征数据就视为一个点，从而生成点集S。

b、计算点集S中各点的V-异常因子，并找出每个点的V-邻近点，具体为：b1、对点集S中的一点pi的Voronoi多边形V(pi)来确定其临近点，计算 pi到其各邻近点的平均距离，用平均距离的倒数来衡量Pi的异常程度；

b2、对点集S的任意一点p，由V(p)边确定的p的邻近点称为p的V- 邻近点，点p所有V-邻近点的集合记作V(p)。

b3、点p所有V-邻近点到p的平均距离的倒数，称为p点的V-异常因子，记作Vd(p)，

其中，∣Vd(p)∣为p所有V-邻近点的个数；

Vd(p)反映了点p周围点的分布密度，Vd(p)越大，表面p点周围点集的分布越稀疏，其异常因子也就越小。

c、根据各点的V-异常因子从小到大排列；

d、输出各点的V-异常因子，以及异常因子最小的前n个点，该前n个点对应的数据即会判定为欺诈数据风险最高的数据。因为p点周围点集的分布越稀疏，其异常因子也就越小，说明其与其它数据的相关性越低，因此其对应的不相关特征输数据是异常值的概率就越大，所以最小的V-异常因子对应的不相关特征数据的原始数据是欺诈数据的概率最大。上述n是一个预设值，为大于零的整数。

本实施例中，上述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤S3，包括：

S31、将所述多个特征数据可视化处理，将可视化中的离散点对应的特征数据记为所述不相关特征数据。

如上述S31所述，上述可视化处理是指将上述特征数据利用计算机图形学和图像处理技术，将特征数据转换成图形或图像在屏幕上显示出来。因为上述特征数据进行可视化处理，所以人可以个通过肉眼在图形或图像上直观的分辨出离散点的存在，然后选择出离散点，计算机设备会将选择的离散点对应的特征数据记为不相关特征数据。

上述将所述多个特征数据可视化处理的步骤，包括：将所述多个特征数据制作成散点图。上述散点图(scatter diagram)在回归分析中是指数据点在直角坐标系平面上的分布图；通常用于比较跨类别的聚合数据。散点图中包含的数据越多，比较的效果就越好。本实施例中上述特征数据一般为矩阵，此时可利用散点图矩阵来同时绘制各自变量间的散点图，这样可以快速发现多个变量间的主要相关性。

在另一实施例中，上述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤S3，包括：

S32、将所述多个特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

上述相关矩阵也叫相关系数矩阵，其是由矩阵各列间的相关系数构成的。也就是说，相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。本实施例中一般用到协方差矩阵进行分析，协方差用来衡量两个变量的总体误差，如果两个变量的变化趋势一致，协方差就是正值，说明两个变量正相关。如果两个变量的变化趋势相反，协方差就是负值，说明两个变量负相关。如果两个变量相互独立，那么协方差就是0，说明两个变量不相关，当变量大于或等于三组的时候，即会使用相应的协方差矩阵。

在又一具体实施例中，上述将获取的数据进行特征提取以得到特征数据的步骤S2，包括：

S21、根据预设要求对获取的数据进行分类；

S22、对各类数据分别进行特征提取。

如上述步骤S21和S22所述，预设要求即为归类的标准，一般是将可能存在相关性的数据归为一类，比如，将账户、登录时间、交易次数、交易金额等数据归类到一起，因为这些数据之间的相关性较强，相关性较强的原因是通过账户登录对应的系统，系统记录登录时间，还会记录交易的次数以及每一次交易的金额或总体的交易金额等，所以各数据之间存在关联。本实施例中，先将获取的数据进行分类，然后对不同类的数据分别进行特征提取，具体的特征提取方法如通过上述的Relief算法进行特征提取，或者通过上述的ReliefF算法进行特征提取。本实施例进行分类提取特征数据，第一，每一类特征数据的特征相对明显，方便提取；第二，可以提高后期对欺诈数据的识别准确性。比如，后续的在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤S3，包括：

S301、提取各类数据对应的多个特征数据中的不相关特征数据；

S302、将对应各类数据的不相关特征数据混合后进行相关性分析，将不具有相关性的不相关特征数据记为最终的不相关特征数据。

如上述步骤S301和S302所述，是在上述对各类数据分别进行特征提取的基础上进行。比如，在账户、登录时间、交易次数、交易金额的类别先进行可视化处理，或者相关矩阵分析，得出第一组不相关特征数据，同样的，将渠道、商户、产品信息、用户IP等类别数据提取的特征进行可视化处理，或者相关矩阵分析，得出第二组不相关特征数据；然后将第一组不相关特征数据和第二组不相关特征数据进行相关性分析，比如第一组不相关特征数据中的特征A与第二组不相关特征数据B是相互关联的，则将A和B剔除，将各不相关的不相关特征数据保留作为最终的不相关特征数据。因为上述的第一组不相关特征数据和第二组不相关特征数据已经是各类数据中的异类，可能是欺诈数据，然后将各可能是欺诈数据的数据进行相关性分析，如果存在相关性的，则可能是正常的数据的概率偏高，而不相关的则是欺诈数据的概率偏高。将最终的不相关特征数据制作成点集S进行欺诈识别，可以提高欺诈识别的准确性。

在另一实施例中，上述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤S3，包括

S303、对所述多个特征数据进行可视化处理；

S304、提取可视化中的离散点对应的特征数据，并将离散点对应的特征数据进行相关矩阵分析，提取各离散点对应的特征数据中没有关联的非关联特征数据，并将所述非关联特征数据记为所述不相关特征数据。

如上述步骤S303和S304所述，先对各类数据的特征数据进行可视化处理，选择出各类特征数据中的离散点，进而查找出各离散点对应的特征数据；然后再通过相关矩阵分析的方法分析各离散点对应的特征数据是否相关联，将非关联的特征数据记为上述不相关特征数据。即先通过可视化处理的过程查找出可能是不相关的特征数据，然后再通过矩阵分析的方法对可能是不相关的特征数据再一次处理，得到最终的不相关特征数据，以提高后续识别欺诈数据的准确性。

参照图3，本实施例中，上述通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据的步骤S4之后，包括：

S5、根据预设规则确定该欺诈数据的欺诈等级；

S6、根据对应的欺诈等级做出对应的惩罚措施。

如上述步骤S5和S6所述，上述Voronoi算法会输出异常因子最小的前n 个点，最靠前的点其对应的数据是欺诈数据的概率最高，所以根据其输出的顺序确定欺诈数据的欺诈等级。上述的惩罚措施一般包括报警、罚款、禁封账户等。比如，某一企业的相关数据被提取，然后经过上述方法对提取数据进行分析，如果不存在欺诈数据，则认为该企业是一个信誉良好的企业，如果存在欺诈数据，则判断输出的欺诈数据的个数，输出的欺诈数据个数越多，其信誉越低。还可以根据Voronoi算法输出的数据，反向查找到对应的原始数据，进而分析出企业的欺诈行为，比如，欺诈金额，欺诈行为等。根据其欺诈金额和/或欺诈行为判断是否进行报警处理，或者进行禁封账号等。

在一个具体实施中，A需要到B企业进行业务考察以及签订相关的合作合同。A在去B企业之前先通过上述的欺诈数据识别方法获取B企业在区块链上的指定时间段内的欺诈数据，如果不存在欺诈数据，则可以选择紧密度较高的合作方式；如果存在欺诈数据，但是欺诈数据较少，如5年内的数据存在一个欺诈数据，则可以选择紧密度一般的合作方式；如果存在较多的欺诈数据，则需要考虑是否与B企业建立合作关系等。

本申请实施例的数据欺诈识别方法，是首次解决企业区块链上数据欺诈数据的识别问题，其利用Voronoi算法，可以将可能是欺诈数据的数据分析出来，从而使企业可以了解与其进行业务往来的其它人或企业的是否可能存在欺诈行为，进而选择适当的合作关系的紧密度等，降低企业与企业，或者个人与企业之间合作被欺骗的风险。

参照图4，本申请实施例还提供一种数据欺诈识别装置，用于区块链上的数据欺诈识别，所述装置包括：

获取单元10，用于在区块链上获取与指定企业相关的数据；

特征提取单元20，用于将获取的数据进行特征提取，以得到多个特征数据；

不相关分析单元30，用于在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据；

异常识别单元40，用于通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据。

在上述获取单元10中，上述区块链是一种去中心化、无需信任的新型数据架构，它由网络中所有的节点共同拥有、管理和监督，不接受单一方面的控制。区块链是一种管理持续增长的、按序整理成区块并受保护以防篡改的交易记录的分布式账本数据库。分布式账本是指不同于传统数据库技术的数字化所有权记录(因不需要中央管理员或中央数据存储)，这种账本能在点对点网络的不同节点之间相互复制，且各项交易均由私钥签署。共识机制是指区块链或分布式账本技术应用的一种无需依赖中央机构来鉴定和验证某一数值或交易的机制。共识机制是所有区块链和分布式账本应用的基础。上述指定企业是指待查询的企业，即待查询在区块链上是否存在欺诈数据的企业。上述相关的数据一般为在区块链上与指定企业相关的全部数据，比如与指定企业相关的账户、金额、日期、时间、币种、渠道、商户、产品信息、用户 IP、设备等。上述指定数据具体的获取方法包括：输入企业名称以及企业运营范围等关键词，然后到区块链上进行检索，得到与检索词相关的全部数据。

在上述特征提取单元20中，即为完成特征提取的单元。在一个实施例中，其具体过程包括：整合数据，将数据规范化成一个数据集，收集起来；将数据集中的数据进行数据格式化，清理采样数据等；然后将采样数据进行数据转换得到需要的特征数据。

在一具体实施例中，特征提取单元20的特征提取使用ReliefF算法， ReliefF算法是1994年Kononeill在Relief算法(Relief算法是一种特征权重算法(Feature weightingalgorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除)上进行改进而得到的算法，其相对于Relief算法而言，可以处理多类别问题。该ReliefF算法用于处理目标属性为连续值的回归问题。ReliefF算法在处理多类问题时，每次从训练样本集中随机取出一个样本R，然后从和R同类的样本集中找出R 的k个近邻样本(near Hits)，从每个R的不同类的样本集中均找出k个近邻样本(near Misses)，然后更新每个特征的权重，具体如下：

在另一具体实施例中，特征提取单元20使用上述Relief算法进行特征提取。Relief算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为NearHit，从和R不同类的样本中寻找最近邻样本M，称为NearMiss，然后根据以下规则更新每个特征的权重：如果R和Near Hit 在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit 在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m 和原始特征个数N的增加线性增加，因而运行效率非常高。

在上述不相关分析单元30中，即为找出上述特征数据中与其它数据不相关的不相关特征数据的单元。不相关特征数据因为与其它特征数据不相关，所以其对应的原始数据可能是欺诈数据。

在上述异常识别单元40中，上述Voronoi又叫泰森多边形或Dirichlet图，它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。N个在平面上有区别的点，按照最邻近原则划分平面；每个点与它的最近邻区域相关联。通过该Voronoi算法既可以从上述不相关特征数据中进一步地识别出异常值，这些被识别出的异常值则认为是欺诈数据。上述Voronoi算法的复杂度较低，计算速度快。

在一具体实施例中，获取单元10在区块链上提取企业Y的一切相关数据，比如企业Y的账户、账户登录时间、交易次数、交易金额、渠道、商户、产品信息、用户IP等，之后特征提取单元20将得到数据进行特征提取，然后不相关分析单元30对提取出的多个特征数据进行相关性分析，其中与其它特征数据不相关的特征数据即为不相关特征数据，而不相关特征数据对应的原始数据可能是欺诈数据，为了确定不相关特征数据的对应的原始数据是欺诈数据的概率问题，异常识别单元40通过Voronoi算法对所述不相关特征数据进行异常值(按照Voronoi算法的规则，计算出与其它不相关特征数据存在差异的不相关特征数据)识别，Voronoi算法会在上述的不相关特征数据中查找出异常值，然后对异常值进行排序输出，其中最先输出的异常值对应的原始数据是欺诈数据的可能性最高，并依次降低，在其它实施例中，也可以设定最先输出的异常值对应的原始数据是欺诈数据的可能性最低，并依次升高。本实施例中，可以将全部的异常值输出，也可以只输出异常值对应的原始数据是欺诈数据的可能性较高的指定数量的异常值等。

参照图5和图2，本实施例中，上述异常识别单元40包括：

制图模块41，用于将上述不相关特征数据制作成点集S的Voronoi图；其中，每个不相关特征数据就视为一个点，从而生成点集S。

计算模块42，用于计算点集S中各点的V-异常因子，并找出每个点的V- 邻近点。该计算模块42的具体执行过程包括：对点集S中的一点pi的Voronoi 多边形V(pi)来确定其临近点，计算pi到其各邻近点的平均距离，用平均距离的倒数来衡量Pi的异常程度；对点集S的任意一点p，由V(p)边确定的p 的邻近点称为p的V-邻近点，点p所有V-邻近点的集合记作V(p)。点p所有 V-邻近点到p的平均距离的倒数，称为p点的V-异常因子，记作Vd(p)，

其中，∣Vd(p)∣为p所有V-邻近点的个数；

排列模块43，用于根据各点的V-异常因子从小到大排列；

输出模块44，用于输出各点的V-异常因子，以及异常因子最小的前n个点，该前n个点对应的数据即会判定为欺诈数据风险最高的数据。因为p点周围点集的分布越稀疏，其异常因子也就越小，说明其与其它数据的相关性越低，因此其对应的不相关特征输数据是异常值的概率就越大，所以最小的 V-异常因子对应的不相关特征数据的原始数据是欺诈数据的概率最大。上述n 是一个预设值，为大于零的整数。

参照图6，本实施例中，上述不相关分析单元30，包括：

可视化分析模块31，用于将所述多个特征数据可视化处理，将可视化中的离散点对应的特征数据记为所述不相关特征数据。

在上述可视化分析模块31中，上述可视化处理是指将上述特征数据利用计算机图形学和图像处理技术，将特征数据转换成图形或图像在屏幕上显示出来。因为上述特征数据进行可视化处理，所以人可以个通过肉眼在图形或图像上直观的分辨出离散点的存在，然后选择出离散点，计算机设备会将选择的离散点对应的特征数据记为不相关特征数据。

上述可视化分析模块31，包括：散点图制作子模块311，用于将所述多个特征数据制作成散点图。上述散点图(scatter diagram)在回归分析中是指数据点在直角坐标系平面上的分布图；通常用于比较跨类别的聚合数据。散点图中包含的数据越多，比较的效果就越好。本实施例中上述特征数据一般为矩阵，此时可利用散点图矩阵来同时绘制各自变量间的散点图，这样可以快速发现多个变量间的主要相关性。

参照图7，在另一实施例中，上述不相关分析单元30，包括：

相关矩阵分析模块32，用于将所述多个特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

在相关矩阵分析模块32中，上述相关矩阵也叫相关系数矩阵，其是由矩阵各列间的相关系数构成的。也就是说，相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。本实施例中一般用到协方差矩阵进行分析，协方差用来衡量两个变量的总体误差，如果两个变量的变化趋势一致，协方差就是正值，说明两个变量正相关。如果两个变量的变化趋势相反，协方差就是负值，说明两个变量负相关。如果两个变量相互独立，那么协方差就是0，说明两个变量不相关，当变量大于或等于三组的时候，即会使用相应的协方差矩阵。

参照图8，在又一具体实施例中，上述特征提取单元20，包括：

分类模块21，用于根据预设要求对获取的数据进行分类；

提取模块22，用于对各类数据分别进行特征提取。

在上述分类模块21和提取模块22中，预设要求即为归类的标准，一般是将可能存在相关性的数据归为一类，比如，将账户、登录时间、交易次数、交易金额等数据归类到一起，因为这些数据之间的相关性较强，相关性较强的原因是通过账户登录对应的系统，系统记录登录时间，还会记录交易的次数以及每一次交易的金额或总体的交易金额等，所以各数据之间存在关联。本实施例中，先将获取的数据进行分类，然后对不同类的数据分别进行特征提取，具体的特征提取方法如通过上述的Relief算法进行特征提取，或者通过上述的ReliefF算法进行特征提取。本实施例进行分类提取特征数据，第一，每一类特征数据的特征相对明显，方便提取；第二，可以提高后期对欺诈数据的识别准确性。比如，后续的不相关分析单元30，包括：

分类分析模块301，用于提取各类数据对应的多个特征数据中的不相关特征数据；

混合分析模块302，用于将对应各类数据的不相关特征数据混合后进行相关性分析，将不具有相关性的不相关特征数据记为最终的不相关特征数据。

在上述分类分析模块301和混合分析模块302中，是在上述对各类数据分别进行特征提取的基础上进行。比如，在账户、登录时间、交易次数、交易金额的类别先进行可视化处理，或者相关矩阵分析，得出第一组不相关特征数据，同样的，将渠道、商户、产品信息、用户IP等类别数据提取的特征进行可视化处理，或者相关矩阵分析，得出第二组不相关特征数据；然后将第一组不相关特征数据和第二组不相关特征数据进行相关性分析，比如第一组不相关特征数据中的特征A与第二组不相关特征数据B是相互关联的，则将A和B剔除，将各不相关的不相关特征数据保留作为最终的不相关特征数据。因为上述的第一组不相关特征数据和第二组不相关特征数据已经是各类数据中的异类，可能是欺诈数据，然后将各可能是欺诈数据的数据进行相关性分析，如果存在相关性的，则可能是正常的数据的概率偏高，而不相关的则是欺诈数据的概率偏高。将最终的不相关特征数据制作成点集S进行欺诈识别，可以提高欺诈识别的准确性。

参照图9，在另一实施例中，上述不相关分析单元30，包括：

可视化模块303，用于对所述多个特征数据进行可视化处理；

矩阵分析模块304，用于提取可视化中的离散点对应的特征数据，并将离散点对应的特征数据进行相关矩阵分析，提取各离散点对应的特征数据中没有关联的非关联特征数据，并将所述非关联特征数据记为所述不相关特征数据。

在上述可视化模块303和矩阵分析模块304中，先对各类数据的特征数据进行可视化处理，选择出各类特征数据中的离散点，进而查找出各离散点对应的特征数据；然后再通过相关矩阵分析的方法分析各离散点对应的特征数据是否相关联，将非关联的特征数据记为上述不相关特征数据。即先通过可视化处理的过程查找出可能是不相关的特征数据，然后再通过矩阵分析的方法对可能是不相关的特征数据再一次处理，得到最终的不相关特征数据，以提高后续识别欺诈数据的准确性。

参照图10，本实施例中，上述数据欺诈识别装置，还包括：

欺诈等级确定单元50，用于根据预设规则确定该欺诈数据的欺诈等级；

惩罚单元60，用于根据对应的欺诈等级做出对应的惩罚措施。

在上述欺诈等级确定单元50和惩罚单元60中，上述Voronoi算法会输出异常因子最小的前n个点，最靠前的点其对应的数据是欺诈数据的概率最高，所以根据其输出的顺序确定欺诈数据的欺诈等级。上述的惩罚措施一般包括报警、罚款、禁封账户等。比如，某一企业的相关数据被提取，然后经过上述方法对提取数据进行分析，如果不存在欺诈数据，则认为该企业是一个信誉良好的企业，如果存在欺诈数据，则判断输出的欺诈数据的个数，输出的欺诈数据个数越多，其信誉越低。还可以根据Voronoi算法输出的数据，反向查找到对应的原始数据，进而分析出企业的欺诈行为，比如，欺诈金额，欺诈行为等。根据其欺诈金额和/或欺诈行为判断是否进行报警处理，或者进行禁封账号等。

本申请实施例的数据欺诈识别装置，是首次解决企业区块链上数据欺诈数据的识别问题，其利用Voronoi算法，可以将可能是欺诈数据的数据分析出来，从而使企业可以了解与其进行业务往来的其它人或企业的是否可能存在欺诈行为，进而选择适当的合作关系的紧密度等，降低企业与企业，或者个人与企业之间合作被欺骗的风险。

参照图11，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储Voronoi算法模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据欺诈识别方法。

上述处理器执行上述数据欺诈识别方法，用于区块链上的数据欺诈识别，所述方法的步骤包括：在区块链上获取与指定企业相关的数据；将获取的数据进行特征提取，以得到多个特征数据；在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据；通过Voronoi算法对所述不相关特征数据进行异常值识别，得出欺诈数据。

在一个实施例中，上述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：将所述多个特征数据可视化处理，将可视化中的离散点对应的特征数据记为所述不相关特征数据。

在一个实施例中，上述将所述多个特征数据可视化处理的步骤，包括：将所述多个特征数据制作成散点图。

在一个实施例中，上述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：将所述多个特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

在一个实施例中，上述将获取的数据进行特征提取以得到特征数据的步骤，包括：根据预设要求对获取的数据进行分类；对各类数据分别进行特征提取。

在一个实施例中，上述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：提取各类数据对应的多个特征数据中的不相关特征数据；将对应各类数据的不相关特征数据混合后进行相关性分析，将不具有相关性的不相关特征数据记为最终的不相关特征数据。

在一个实施例中，上述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：对所述多个特征数据进行可视化处理；提取可视化中的离散点对应的特征数据，并将离散点对应的特征数据进行相关矩阵分析，提取各离散点对应的特征数据中没有关联的非关联特征数据，并将所述非关联特征数据记为所述不相关特征数据。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本发明实施例的计算机设备，执行的数据欺诈识别方法，是首次解决企业区块链上数据欺诈数据的识别问题，其利用Voronoi算法，可以将可能是欺诈数据的数据分析出来，从而使企业可以了解与其进行业务往来的其它人或企业的是否可能存在欺诈行为，进而选择适当的合作关系的紧密度等，降低企业与企业，或者个人与企业之间合作被欺骗的风险。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种数据欺诈识别方法，用于区块链上的数据欺诈识别，所述方法，包括：在区块链上获取与指定企业相关的数据；将获取的数据进行特征提取，以得到多个特征数据；在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据；通过Voronoi 算法对所述不相关特征数据进行异常值识别，得出欺诈数据。

上述执行的数据欺诈识别方法，是首次解决企业区块链上数据欺诈数据的识别问题，其利用Voronoi算法，可以将可能是欺诈数据的数据分析出来，从而使企业可以了解与其进行业务往来的其它人或企业的是否可能存在欺诈行为，进而选择适当的合作关系的紧密度等，降低企业与企业，或者个人与企业之间合作被欺骗的风险。

在一个实施例中，上述处理器在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：将所述多个特征数据可视化处理，将可视化中的离散点对应的特征数据记为所述不相关特征数据。

在一个实施例中，上述处理器将所述多个特征数据可视化处理的步骤，包括：将所述多个特征数据制作成散点图。

在一个实施例中，上述处理器在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：将所述多个特征数据进行相关矩阵分析，提取出与其它特征数据不相关的所述不相关特征数据。

在一个实施例中，上述处理器将获取的数据进行特征提取以得到特征数据的步骤，包括：根据预设要求对获取的数据进行分类；对各类数据分别进行特征提取。

在一个实施例中，上述处理器在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：提取各类数据对应的多个特征数据中的不相关特征数据；将对应各类数据的不相关特征数据混合后进行相关性分析，将不具有相关性的不相关特征数据记为最终的不相关特征数据。

在一个实施例中，上述处理器在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：对所述多个特征数据进行可视化处理；提取可视化中的离散点对应的特征数据，并将离散点对应的特征数据进行相关矩阵分析，提取各离散点对应的特征数据中没有关联的非关联特征数据，并将所述非关联特征数据记为所述不相关特征数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种数据欺诈识别方法，其特征在于，用于区块链上的数据欺诈识别，所述方法，包括：

在区块链上获取与指定企业相关的数据；

将获取的数据进行特征提取，以得到多个特征数据；

2.根据权利要求1所述的数据欺诈识别方法，其特征在于，所述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：

3.根据权利要求2所述的数据欺诈识别方法，其特征在于，所述将所述多个特征数据可视化处理的步骤，包括：

将所述多个特征数据制作成散点图。

4.根据权利要求1所述的数据欺诈识别方法，其特征在于，所述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：

5.根据权利要求1所述的数据欺诈识别方法，其特征在于，所述将获取的数据进行特征提取以得到特征数据的步骤，包括：

根据预设要求对获取的数据进行分类；

对各类数据分别进行特征提取。

6.根据权利要求5所述的数据欺诈识别方法，其特征在于，所述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：

提取各类数据对应的多个特征数据中的不相关特征数据；

7.根据权利要求1所述的数据欺诈识别方法，其特征在于，所述在所述多个特征数据中提取出与其它特征数据不相关的特征数据作为不相关特征数据的步骤，包括：

对所述多个特征数据进行可视化处理；

8.一种数据欺诈识别装置，其特征在于，用于区块链上的数据欺诈识别，所述装置，包括：

获取单元，用于在区块链上获取与指定企业相关的数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。