CN109903166B

CN109903166B - 一种数据风险预测方法、装置及设备

Info

Publication number: CN109903166B
Application number: CN201811587677.4A
Authority: CN
Inventors: 王修坤
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2024-01-30
Anticipated expiration: 2038-12-25
Also published as: CN109903166A

Abstract

本说明书实施例公开了一种数据风险预测方法、装置及设备。方案包括：获取已知黑样本集合；根据所述已知黑样本集合从未知样本中识别出第一黑样本集合，得到第二黑样本集合；所述第二黑样本集合包括所述已知黑样本集合中的黑样本以及所述第一黑样本集合中的黑样本；所述第一黑样本集合中包括至少一个第一黑样本；对所述第二黑样本集合进行特征提取，得到第一特征集合；根据所述第一特征集合得到风险预测模型；利用所述风险预测模型对另外的保险数据进行风险预测。

Description

一种数据风险预测方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据风险预测方法、装置及设备。

背景技术

现有技术中，保险是指投保人根据合同约定，向保险人支付保险费，保险人对于合同约定的可能发生的事故因其发生所造成的财产损失承担赔偿保险金责任，或者被保险人死亡、伤残、疾病或者达到合同约定的年龄、期限等条件时承担给付保险金责任的商业保险行为。随着社会的经济发展和人们保险意识的提高，除了车险、财产险、健康险等传统保险以外，运费险、账户安全险以及保证金险在互联网环境下应运而生。

然而，在社会中会出现一些骗保人员，某些店家对保险代理人没有做到如实告知，刻意隐瞒商铺损失的金额或者刻意制造获取赔偿的假损失事件，通过这种骗保行为获取大量的利益。这种骗保行为一旦成功，就会助长骗保人员的气势，甚至助长了骗保行为专业化、团队化的发展趋势，对保险行业的健康发展带来非常不利的影响，损坏保险公司和公众利益。基于这一考虑，现有技术中主要依靠人工辨别，通过查筛投保人的骗保记录或者通过筛查人员本身的经验来对骗保风险进行预测。

但是，随着互联网的快速发展，骗保人员的骗保手段多样，网上商家的骗保行为隐蔽性强，在进行风控管控的时候，保险理赔场景由于缺乏大量保险黑样本(骗保样本)标记，导致模型训练精准度大打折扣，预测骗保风险的能力降低。

发明内容

有鉴于此，本申请实施例提供了一种数据风险预测方法、装置及设备，用于提高风险预测模型的预测精度，提高预测骗保风险的能力。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种数据风险预测方法，包括：

获取已知黑样本集合；

根据所述已知黑样本集合从未知样本中识别出第一黑样本集合，得到第二黑样本集合；所述第二黑样本集合包括所述已知黑样本集合中的黑样本以及所述第一黑样本集合中的黑样本；所述第一黑样本集合中包括至少一个第一黑样本；

对所述第二黑样本集合进行特征提取，得到第一特征集合；

根据所述第一特征集合得到风险预测模型；

利用所述风险预测模型对另外的保险数据进行风险预测。

本说明书实施例提供的一种数据风险预测装置，包括：

已知黑样本获取模块，用于获取已知黑样本集合；

第一黑样本识别模块，用于根据所述已知黑样本集合从未知样本中识别出第一黑样本集合，得到第二黑样本集合；所述第二黑样本集合包括所述已知黑样本集合中的黑样本以及所述第一黑样本集合中的黑样本；所述第一黑样本集合中包括至少一个第一黑样本；

第一特征确定模块，用于对所述第二黑样本集合进行特征提取，得到第一特征集合；

风险预测模型确定模块，用于根据所述第一特征集合得到风险预测模型；

风险预测模块，用于利用所述风险预测模型对另外的保险数据进行风险预测。

本说明书实施例提供的一种数据风险预测设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取已知黑样本集合；

对所述第二黑样本集合进行特征提取，得到第一特征集合；

根据所述第一特征集合得到风险预测模型；

利用所述风险预测模型对另外的保险数据进行风险预测。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：通过少量黑样本利用图聚类算法结合特征自学习算法，预测未知保险数据中潜在的黑样本，从而达到完成模型训练所需要的黑样本数量，训练出二分类预测模型，使训练出的二分类预测模型精度更高，预测黑样本的能力更强，从而提高预测骗保风险的能力。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的一种数据风险预测方法的流程示意图；

图2为本说明书实施例提供的对应于图1的一种数据风险预测装置的结构示意图；

图3为本说明书实施例提供的对应于图1的一种数据风险预测设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

现有技术中，在进行骗保行为筛查时，由于随着互联网的发展，网上商家的骗保行为隐蔽性强，在进行风控管控的时候，保险理赔场景由于缺乏大量保险黑样本(骗保样本)标记，导致模型训练精准度大打折扣，预测骗保风险的能力降低。

图1为本说明书实施例提供的一种数据风险预测方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图1所示，该流程可以包括以下步骤：

S101：获取已知黑样本集合。

所述黑样本为骗保样本，骗保指的以违规或者非法获取保险金为目的，违反保险法规，采用虚构保险标的、保险事故或者制造保险事故等方法，向保险公司骗取保险金，数额较大的行为。

例如：故意虚构保险事故，骗取保险金的。编造未曾发生的保险事故，或者编造虚假的事故原因或者夸大其损失程度，骗取保险金的。故意造成保险事故，骗取保险金的，例如：购物平台上一些卖家利用相关规则，骗取保险，这些商家一旦被发现进行了骗保行为，系统可以将这些商家列入骗保行列，并将这些骗保行为标记为黑样本。

为了充分理解骗保行为，更为具体的，可以用下面的例子进行说明，例如：电商购物平台中，投保人与被保险人存在社群关系，通过合作骗取保险公司的运费险或者投保人、被保险人及其代表的故意行为，或者电商平台的一些商家为了获取赔付的利益最大化，会虚拟修改商品价格获取匹配利益最大化都属于骗保行为。所谓的社群关系，可以理解为存在两个及两个以上的团伙人，互相配合、包庇，进行团伙骗保。例如：卖家和买家存在社群关系，互相合作，通过购买商品利用7天无理由退货等规则来从中虚假购物、虚假退货从而赚取运费险差值，比如，买家在淘宝店中购买商品，并购买运费险，收到后使用七天无理由规则进行退货，实际上卖家进行实际发货，而买家也未真正退货，只是在购物平台进行了一套流程操作。比如买家在某个商铺购买1件商品，卖家赠送运费险，显示退货的话保险公司会承担15元运费。买家收到货后使用某低价快递退货或者进行虚拟退货，退货后赚取发货快递费和保险公司赔付的运费险中间的差价。

除了上面的例子，在进行人工识别时，系统通过识别商家在理赔时的金额、理赔频率以及售卖物品种类，也可以识别出是否存在骗保行为。

例如：根据赔付率判断：某电商平台的同一商家在一定时间内申请赔付的次数超出正常预设范围(这里所说的正常预设范围是根据调研以及大量的理赔数据所设定的范围)，比如：某服装店商家在一个月内申请赔付次数达到40次，而一个月该商家大概销售量为1000件，调研预设的赔付率大概范围为：小于等于万分之三，可见，该商家的申请赔付率为40/1000*100％＝4％，远远高出正常的赔付率范围，因此，确定该申请赔付行为属于骗保行为，并对该商家进行标记。再或者是：买家退货率、商品类目、账户风险、卖家退货率明显存在风险，比如：一些买家成为退货“达人”，保费陡然上升至7-9元不等，甚至出现最高的付10赔10情况，通过不同维度算法认定该消费者是潜在高风险用户，该用户的申请赔付行为可能会被认为是骗保样本。

根据赔付金额：电商平台的商家在申请赔付时，申请赔付的商品损失明显高于正常售卖交易价格，判定为骗保行为。例如：某店铺售卖的黑色碳素笔根据不同的规格正常售卖交易价格为3-25元，但是该商家在申请赔付时，每只黑色碳素笔的申请赔付金额为50元，申请赔付的价格远远高出该商品的售卖价格，因此，确定这一申请赔付行为属于骗保行为。再或者是：申请赔付的运费险明显高于正常运费以及商品价格，比如某商家售卖的垃圾桶价格为8元/个，运送地址为：浙江某市区→安徽某市区，运费为300元，正常运费价格为8-20元，可见，商家申请赔付的运费险明显高于正常范围，并且与商品价格相差甚远，因此，确定该商家的赔付行为为骗保样本。

根据售卖商品种类：申请赔付的商品与预先被加入黑名单的商品共性较多。例如：某款玻璃杯由于质量不过关，运输过程及其容易破碎；某款香水由于质量劣质，经常遭遇买家退货，因此，将该款玻璃杯以及该款香水列入投保黑名单。现申请赔付的商家店铺中除了售卖A4纸之外，销售商品中包括了加入黑名单的玻璃杯和香水，区别仅在于售卖的玻璃杯多了一个杯盖，香水的容量为黑名单中香水容量的一半，这种情况下，将该赔付行为确定为骗保样本。

S102：根据所述已知黑样本集合从未知样本中识别出第一黑样本集合，得到第二黑样本集合；所述第二黑样本集合包括所述已知黑样本集合中的黑样本以及所述第一黑样本集合中的黑样本；所述第一黑样本集合中包括至少一个第一黑样本。

利用已知的(已标记)骗保样本去识别未知样本，根据与已知黑样本的相似度从未标记的样本中找出与已知黑样本相似的样本，作为第一黑样本集合。

例如：获取了已知黑样本集合{a，b，c}，还存在一未知样本{b₁，c₁，d₁，e₁，f₁}，根据已知黑样本从未知样本中找到与所述已知黑样本集合相似的第一黑样本集合{b₁，c₁}，组成第二黑样本集合{a，b，c，b₁，c₁}。

S103：对所述第二黑样本集合进行特征提取，得到第一特征集合。

自学习算法是一种无监督学习方法，可以通过稀疏编码从大量随机的未标识图像中提取相关性特征。

例如：第二黑样本集合{a，b，c，b₁，c₁}包括已知黑样本集合以及第一黑样本集合，黑样本集合{a，b，c}，第一黑样本集合{b₁，c₁}，第二黑样本集合，进行自学习，得到第一特征集合为{b₂，b₃}，此时，黑样本特征b₂，b₃应该既存在于已知黑样本集合中的样本特征集合中，也存在于第一黑样本集合中的样本特征集合中。

S104：根据所述第一特征集合得到风险预测模型。

训练模型可以是根据提供的算法与训练数据，从将变量映射到目标的训练数据模式学习，并输出捕获这些关系的模型。在本申请中，通过增加黑样本的数量，通过迭代训练模型，得到预测模型。

这里的预测模型可以为二元分类模型，是一种半监督的二元分类模型，采用的正例和无标记样本学习(Learning from Positive and Unlabled Example)简称PU或LPU学习，通过标注过的正样本和大量未标注的样本训练出一个二元分类器。具体是根据已标注过的正样本P在未标注样本集U中找出可靠的负样本集合(Reliable Negative Examples，简称RN)，将PU问题转化为二分类的问题，或者利用正负样本通过迭代训练得到一个二元分类器。这里的正负样本可以理解为白样本和黑样本。白样本就是保险中的正常样本(非骗保样本)，黑样本为骗保样本。通常情况下，当保险公司发现申请理赔行为为骗保行为时，系统会暂停该用户的相关保险服务，或者拒赔。

S105：利用所述风险预测模型对另外的保险数据进行风险预测。

利用训练好的预测模型，对保险数据进行风险预测，评估风险数据的安全性。

图1中的方法，通过利用少量的已知黑样本从未知样本中扩散识别得到更多的黑样本，并结合特征自学习算法，预测未知保险数据中潜在的黑样本，从而达到完成模型训练所需要的黑样本数量，训练出预测模型，使训练出的预测模型精度更高，预测黑样本的能力更强，从而提高预测骗保风险的能力。

基于图1的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

图1的技术方案中，在具体应用时，为了增多互联网环境下保险理赔场景中的黑样本数量，本发明实施例在上述方案中，根据所述已知黑样本集合从未知样本中识别出第一黑样本集合，得到第二黑样本集合，具体可以包括：

根据所述已知黑样本集合对所述未知样本采用图聚类算法进行聚类，得到第一黑样本集合。

图聚类(Graph clustering)：基于各种标准条件将图数据集实例划分不同类集群，例如采用标签传播算法进行扩散。其中，标签传播算法是一种基于图的半监督学习方法，可以用已标记节点的标签信息去预测未标记节点的标签信息，利用样本间的关系建立关系完全图模型，在完全图中，节点包括已标注和未标注数据，其边表示两个节点的相似度，节点的标签按相似度传递给其他节点。标签数据可以对无标签数据进行标注，节点的相似度越大，标签越容易传播。

上述方式中，将已标记的黑样本作为基础数据，通过图聚类算法对未知样本(未标记样本)进行聚类，通过标签传播算法，根据相似度将第一黑样本标记出来。所述的第一黑样本集合中的黑样本与已标注的黑样本相似度较大，可以将所述第一黑样本认为是疑似黑样本。

例如：已知的黑样本集合为A{a₁，b₁，c₁，d₁，e₁}，未知样本集合为B{a₀，b₀，c₀，f，g，h}，以已知的黑样本结合为基础数据，假设已知样本集合中的样本节点标签为a_X，b_X，c_X，d_X，e_X，其中，X＝0,1,2……,n，通过图聚类算法，从未知样本集合中识别出与已知黑样本集合相似度较大的第一黑样本(疑似黑样本)集合{a₀，b₀，c₀}，得到第二黑样本集合为{a₁，b₁，c₁，d₁，e₁，a₀，b₀，c₀}。

上述步骤中，所述第一黑样本集合中的样本与所述已知黑样本集合中的样本共同组成第二黑样本集合。增加了疑似黑样本的数量，使模型训练依据的黑样本数量增多。

在具体的应用中，如果仅通过已知的少量黑样本对模型进行训练，训练出的模型依据的特征单一，并且由于少量黑样本中的特征较少，训练得到的模型在面对大量的保险数据时，无法全面、准确地识别出骗保样本。

基于上述考虑，本发明实施例在上述方案中，所述对所述第二黑样本集合进行特征提取，得到第一特征集合，具体可以包括：

利用所述第二黑样本集合作为样本数据进行自学习，得到第一特征集合；所述第一特征集合中的样本特征为所述已知黑样本集合以及所述第一黑样本集合共有的特征。

将通过图聚类得到疑似黑样本与已知的黑样本的特征提取出来，通过特征自学习(auto-feature)，将疑似黑样本与已知黑样本中共有的特征提取出来。

比如：已知黑样本集合为{A₁，B₁，C₁，D₁，A₂，B₂，C₂}，所述已知黑样本中共有的特征集合为{A，B，C}；第一黑样本集合为{A₃，B₃，C₃，D₂，A₄，B₄，C₄，D₃}，即所述第一黑样本中共有的特征集合为{A，B，C，D}，因此通过自学习算法，将两个特征集合中共有的特征确定出来，得到第一特征集合为{A，B，C}，即第一特征集合中的特征为已知黑样本集合以及所述第一黑样本集合中共有的特征。

在实际应用中，比如：已知黑样本中共有的特征集合为{社群关系，高理赔率，虚假报价}，第一黑样本中共有的特征集合为{社群关系，高理赔率}，则通过自学习之后确定出来的第一特征集合为{社群关系，高理赔率}。

上述方式中，在增加疑似样本的基础上，通过自学习确定出黑样本的特征，得到一个更加准确的特征体系，使训练出的模型针对性更强，更加全面准确。

然而，在采用少量黑样本对模型进行训练时，直接将训练出的模型用于预测新的保险数据，可能会导致预测精度过低，无法将尽可能多的骗保样本提取出来，因此，本发明实施例在上述方案中，所述根据所述第一特征集合得到风险预测模型，之后还可以包括：

利用训练后的风险预测模型对所述未知样本进行识别，得到第三黑样本集合；

判断所述第三黑样本集合与所述第一黑样本集合相比是否存在第四黑样本，若不存在，结束模型训练过程；所述第四黑样本存在于所述第三黑样本集合中但不存在于所述第一黑样本集合中；

若存在，确定出至少一个第四黑样本，组成第四黑样本集合；所述第四黑样本集合包括所述第二黑样本集合中的黑样本以及至少一个第四黑样本；

利用所述第四黑样本集合作为样本数据进行自学习，得到第二特征集合；

根据所述第二特征集合对所述风险预测模型进行训练，直至训练后的预测模型从所述未知样本中识别不到另外的黑样本为止。

上述方法步骤中，利用训练好的模型预测未知样本，如果预测出新的黑样本，则将新的黑样本添加到第二黑样本集合中，重新进行自学习，并训练模型，得到新的预测模型，直到新的预测模型从未知样本中无法再识别出新的黑样本为止。

例如：未知样本的样本集合为{A，B，C，D，E，F，G，H，I，J}，已知黑样本为{A₁，B₁，C₁}，通过图聚类算法得到的第一黑样本(意思黑样本)集合为{A，B，C}，组成第二黑样本集合为{A₁，B₁，C₁，A，B，C}，通过自学习得到第一特征集合为{a₁，b₁，c₁}，采用第一特征集合对模型进行训练，采用训练后得到的模型对所述未知样本进行识别，若得到第三黑样本集合为{A，B，C}，通过比较第三黑样本集合{A，B，C}与第一黑样本集合{A，B，C}，可知，第三黑样本与第一黑样本相同，确定不存在第四黑样本，表示训练得到的模型符合要求，结束模型训练过程。

若得到第三黑样本集合为{A，B，C，D，E}，通过比较第三黑样本集合{A，B，C，D，E}与第一黑样本集合{A，B，C}，可知，第三黑样本集合比第一黑样本集合多出两个黑样本：D，E，确定存在第四黑样本集合{D，E}。这时，表示训练出的模型并不能满足要求，应该将识别出的第四黑样本也作为已知样本，重新训练模型，具体过程可以是：组成第四黑样本集合{A₁，B₁，C₁，A，B，C，D，E}，通过自学习得到第二特征集合为{a₁，b₁，c₁，d₁，e₁}，采用第二特征集合对模型继续进行训练，训练结束后对所述未知样本进行识别，直到识别不出新的黑样本为止。

上述方法步骤，通过不停的挖掘未知样本数据中的潜在黑样本，达到模型训练所需要的黑样本数量，从而完成模型训练过程，解决了黑样本少场景下的分类问题，提升了模型效果，提高预测精度。

在实际应用中，在判断所述第三黑样本与所述第一黑样本相比是否存在第四黑样本时，具体可以包括以下步骤：

利用所述第三黑样本集合中的各个样本分别与所述第一黑样本中的样本进行比较，若所述第三黑样本中的各个样本均与所述第一黑样本中的元素相同，则确定所述第三黑样本集合中不存在所述第四黑样本；否则，确定所述第三黑样本集合中存在所述第四黑样本。

上述步骤中，在判断第三黑样本中是否出现新的黑样本时，可以根据不同的方式来判断：

方式一：可以通过样本集合中的样本数量，来初步判断是否存在新的黑样本。比如：已知黑样本集合通过聚类得到的第一黑样本集合中的样本数量为4个，训练好的模型预测未知样本后，得到的第三黑样本集合中的样本数量为6个，则能确定相对于第一黑样本来说，第三黑样本中至少存在两个新的黑样本。

例如：第一黑样本集合为{A，B，C，D}，训练好的模型预测未知样本后，得到的第三黑样本集合为{A，B，E，F，H，I},此时，通过样本数量可以确定第三黑样本中存在至少两个新的黑样本，通过比对，确定存在四个新的黑样本(E，F，H，I)。

但是如果训练好的模型预测未知样本后，得到的第三黑样本集合中的样本数量也为4个，第三黑样本集合中的样本数量与第一黑样本集合中的样本数量相同，此时，无法直接判断第三黑样本中不存在新的黑样本，理由是：第一黑样本中的黑样本仅是疑似黑样本，并不是确定的黑样本，因此，训练好的模型对未知样本预测后，可能会判定原本第一黑样本集合中的疑似黑样本为白样本。

例如：第一黑样本集合为{A，B，C，D}，训练好的模型预测未知样本后，得到的第三黑样本集合为{A，B，H，I},此时，通过样本数量，均为4个，虽然样本数量相同，但是不能因此确定第三黑样本中不存在新的黑样本，根据比对可以发现，训练好的模型预测未知样本后，第一黑样本集合中的样本C和样本D为白样本，而第三黑样本集合中存在两个新的黑样本(第四黑样本)为：样本H和样本I。

更为具体的，在实际应用中，比如：第一黑样本集合为{商家1理赔率高，商家2退货率大、商家3理赔的同一商品类目较多、商家4账户风险大}，训练好的模型预测未知样本后，得到的第三黑样本集合为{商家1理赔率高，商家2退货率大、商家4账户风险大、商家5虚假报价}，此时，通过样本数量，第一黑样本和第三黑样本均为4个，虽然样本数量相同，但是通过调研发现，第一黑样本中的商家3同一商品类目较多，主要是因为商家3在一单中同时卖给一个买家大量的同一商品，因此，虽然商家3理赔的同一商品类目较多，但是实际上仅申请理赔了一个订单，因此，在采用训练好的模型重新识别未知样本后，第一样本中的商家3不属于骗保行为，因此，商家3理赔的同一商品类目较多这一样本属于白样本。而第三样本中识别出商家5虚假报价，商品实际价格与申请理赔的商品价格相差较大，超出了正常范围，因此，确定第三样本中存在新的骗保样本，确定商家5存在骗保行为。

如果基于方式一无法准确判断第三黑样本中是否存在新样本，还可以应用方式二来进行判断，并将新样本提取出来，方式二如下：

方式二：可以将第三黑样本集合中的各个样本分别与所述第一黑样本中的样本进行比较，若相同，则确定所述第三黑样本集合中不存在所述第四黑样本；否则，确定所述第三黑样本集合中存在所述第四黑样本。

例如：第一黑样本集合为{A，B，C，D，E，F}，利用训练后的模型预测得到的第三黑样本集合为{B，E，F，G，H}，将第三黑样本集合中的样本B与第一黑样本集合中的样本一一比对，发现样本B在第一黑样本集合中已经存在，证明第三黑样本集合中的样本B不属于新的黑样本；继续提取第三黑样本集合中的样本E与第一黑样本集合中的样本一一比对，发现样本E在第一黑样本集合中存在相同样本，证明第三黑样本集合中的样本E不属于新的黑样本，基于同样的方法，依次将第三黑样本集合中的黑样本F，G，H提取出来，与第一黑样本集合中的样本一一比对，样本F在第一黑样本集合中存在相同样本，样本G，H在第一黑样本集合中均不存在相同样本，证明第三黑样本集合中的样本F不属于新的黑样本，样本G，H均属于新的黑样本，将样本G，H提取出来作为第四样本，放入第四黑样本集合中，得到第四黑样本集合为{G，H}。

上述的方式二能够准确判断出第三黑样本中是否存在新的黑样本，并将新的黑样本提取出来。

本方案的上述方法步骤，通过少量黑样本利用图聚类算法结合特征自学习算法，预测未知保险数据中潜在的黑样本，从而达到完成模型训练所需要的黑样本数量，训练出二分类预测模型，使训练出的二分类预测模型精度更高，预测黑样本的能力更强，从而提高预测骗保风险的能力。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图2为本说明书实施例提供的对应于图1的一种数据风险预测装置的结构示意图。如图2所示，该装置可以包括：

已知黑样本获取模块201，用于获取已知黑样本集合；

第一黑样本识别模块202，用于根据所述已知黑样本集合从未知样本中识别出第一黑样本集合，得到第二黑样本集合；所述第二黑样本集合包括所述已知黑样本集合中的黑样本以及所述第一黑样本集合中的黑样本；所述第一黑样本集合中包括至少一个第一黑样本；

第一特征确定模块203，用于对所述第二黑样本集合进行特征提取，得到第一特征集合；

风险预测模型确定模块204，用于根据所述第一特征集合得到风险预测模型；

风险预测模块205，用于利用所述风险预测模型对另外的保险数据进行风险预测。

可选的，所述第一黑样本识别模块202，具体可以包括：

聚类单元，用于根据所述已知黑样本集合对所述未知样本采用图聚类算法进行聚类，得到第一黑样本集合。

可选的，所述第一特征确定模块203，具体可以包括：

自学习单元，用于利用所述第二黑样本集合作为样本数据进行自学习，得到第一特征集合；所述第一特征集合中的样本特征为所述已知黑样本集合以及所述第一黑样本集合共有的特征。

可选的，所述风险预测模型为二元分类模型，所述风险预测模块205，具体可以包括：

风险预测单元，用于将所述保险数据输入二分类预测模型中，得到风险预测结果。

可选的，所述装置，还可以包括：

第三黑样本识别单元，用于利用训练后的风险预测模型对所述未知样本进行识别，得到第三黑样本集合；

判断单元，用于判断所述第三黑样本集合与所述第一黑样本集合相比是否存在第四黑样本，若不存在，结束模型训练过程；所述第四黑样本存在于所述第三黑样本集合中但不存在于所述第一黑样本集合中；

第四黑样本确定单元，用于在存在的情况下确定出至少一个第四黑样本，组成第四黑样本集合；所述第四黑样本集合包括所述第二黑样本集合中的黑样本以及至少一个第四黑样本；

第二特征确定单元，用于利用所述第四黑样本集合作为样本数据进行自学习，得到第二特征集合；

模型训练单元，用于根据所述第二特征集合对所述风险预测模型进行训练，直至训练后的预测模型从所述未知样本中识别不到另外的黑样本为止。

可选的，所述判断单元，具体可以包括：

比较子单元，用于利用所述第三黑样本集合中的各个样本分别与所述第一黑样本中的样本进行比较，若所述第三黑样本中的各个样本均与所述第一黑样本中的元素相同，则确定所述第三黑样本集合中不存在所述第四黑样本；否则，确定所述第三黑样本集合中存在所述第四黑样本。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图3为本说明书实施例提供的对应于图1的一种数据风险预测设备的结构示意图。如图3所示，设备300可以包括：

至少一个处理器310；以及，

与所述至少一个处理器通信连接的存储器330；其中，

所述存储器330存储有可被所述至少一个处理器310执行的指令320，所述指令被所述至少一个处理器310执行，以使所述至少一个处理器310能够：

获取已知黑样本集合；

对所述第二黑样本集合进行特征提取，得到第一特征集合；

根据所述第一特征集合得到风险预测模型；

利用所述风险预测模型对另外的保险数据进行风险预测。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据风险预测方法，包括：

获取已知黑样本集合，所述黑样本为骗保样本；

对所述第二黑样本集合进行特征提取，得到第一特征集合；

根据所述第一特征集合得到风险预测模型；其中，所述根据所述第一特征集合得到风险预测模型之后包括：利用训练后的风险预测模型对所述未知样本进行识别，得到第三黑样本集合；判断所述第三黑样本集合与所述第一黑样本集合相比是否存在第四黑样本，若不存在，结束模型训练过程；所述第四黑样本存在于所述第三黑样本集合中但不存在于所述第一黑样本集合中；若存在，确定出至少一个第四黑样本，组成第四黑样本集合；所述第四黑样本集合包括所述第二黑样本集合中的黑样本以及至少一个第四黑样本；利用所述第四黑样本集合作为样本数据进行自学习，得到第二特征集合；根据所述第二特征集合对所述风险预测模型进行训练，直至训练后的预测模型从所述未知样本中识别不到另外的黑样本为止；

利用所述风险预测模型对另外的保险数据进行风险预测。

2.如权利要求1所述的方法，根据所述已知黑样本集合从未知样本中识别出第一黑样本集合，得到第二黑样本集合，具体包括：

3.如权利要求1所述的方法，所述对所述第二黑样本集合进行特征提取，得到第一特征集合，具体包括：

4.如权利要求1所述的方法，所述风险预测模型为二元分类模型，所述利用所述风险预测模型对另外的保险数据进行风险预测，具体包括：

将所述保险数据输入二元分类模型中，得到风险预测结果。

5.如权利要求1所述的方法，所述判断所述第三黑样本与所述第一黑样本相比是否存在第四黑样本，具体包括：

6.一种数据风险预测装置，包括：

已知黑样本获取模块，用于获取已知黑样本集合，所述黑样本为骗保样本；

风险预测模型确定模块，用于根据所述第一特征集合得到风险预测模型；其中，所述根据所述第一特征集合得到风险预测模型之后包括：利用训练后的风险预测模型对所述未知样本进行识别，得到第三黑样本集合；判断所述第三黑样本集合与所述第一黑样本集合相比是否存在第四黑样本，若不存在，结束模型训练过程；所述第四黑样本存在于所述第三黑样本集合中但不存在于所述第一黑样本集合中；若存在，确定出至少一个第四黑样本，组成第四黑样本集合；所述第四黑样本集合包括所述第二黑样本集合中的黑样本以及至少一个第四黑样本；利用所述第四黑样本集合作为样本数据进行自学习，得到第二特征集合；根据所述第二特征集合对所述风险预测模型进行训练，直至训练后的预测模型从所述未知样本中识别不到另外的黑样本为止；

7.如权利要求6所述的装置，所述第一黑样本识别模块，具体包括：

8.如权利要求6所述的装置，所述第一特征确定模块，具体包括：

9.如权利要求6所述的装置，所述风险预测模型为二元分类模型，所述风险预测模块，具体包括：

风险预测单元，用于将所述保险数据输入二元分类模型中，得到风险预测结果。

10.如权利要求6所述的装置，所述判断单元，具体包括：

11.一种数据风险预测设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取已知黑样本集合，所述黑样本为骗保样本；

对所述第二黑样本集合进行特征提取，得到第一特征集合；

利用所述风险预测模型对另外的保险数据进行风险预测。