CN108334647A

CN108334647A - 保险欺诈识别的数据处理方法、装置、设备及服务器

Info

Publication number: CN108334647A
Application number: CN201810327069.3A
Authority: CN
Inventors: 王修坤; 邹晓川
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-07-27
Also published as: WO2019196552A1; TW201944338A; TWI686760B

Abstract

本说明书实施例公开了一种保险欺诈识别的数据处理方法、装置、设备及服务器，基于投保人员和被保险人的多维度的关系关联数据构建人群的多度关系网络图数据，可以更加深入的挖掘人员之间的关系网络，提高识别效率和范围。同时结合骗保人员自身的特征数据，共同建立有监督的学习模型，用来学习骗保人员的关系网络特征和自身特征。团伙的骗保人员不仅在关系网络上有着较为明显和多度的关系特征，其自身特征也常常表现出相似性，因此利用本说明书实施例提供的方法可以更加有效和高效的识别出骗保人员，提高识别处理效率。

Description

保险欺诈识别的数据处理方法、装置、设备及服务器

技术领域

本说明书实施例方案属于保险反欺诈识别的计算机数据处理的技术领域，尤其涉及一种保险欺诈的数据处理方法、装置、处理设备及服务器。

背景技术

保险是通过缴纳规定的保费，然后可以享受的财务、人身等保障。随着社会的经济发展和人们保险意识的提高，保险业务的需求也越来越多。

然而，由于保险有一定的经济杠杆效应，使得市场上出现大量骗保的行为，这些骗保人员通常故意制造保险事并依此获得保险公司赔款。目前的骗保行为有发展为专业化、团队化的趋势，对保险行业的健康发展带来非常不利的影响，损坏保险公司和公众利益。目前传统的识别骗保的方式主要依靠任人工利用一些简单规则对历史骗保人员进行识别，凭借历史骗保人员的行为预测是否存在骗保风险。由于骗保人员和团体的隐蔽性越来越强，现有的这种方式不容易快速发现团体作案，并且人工审核的工作量较大，识别效率较为低下。

因此，业内亟需一种可以更加有效和高效的识别出骗保人员的处理方式。

发明内容

本说明书实施例目的在于提供一种保险欺诈的数据处理方法、装置、处理设备及服务器，可以提供利用人员之间的关系网络数据和自身特征，可以更加有效的识别出骗保人员。

本说明书实施例提供的一种保险欺诈的数据处理方法、装置、处理设备及服务器是包括以下方式实现的：

获取待识别人群的关系关联数据；

基于所述关系关联数据构建所述待识别人群的多度关系网络图数据以及提取所述待识别人群的人员特征数据；

利用构建的有监督学习算法对所述待识别人群的多度关系网络图数据和所述人员特征数据进行识别，确所述待识别人群骗保输出结果；所述有监督学习算法包括采用以选取的目标人群的多度关系网络数据和人员特征数据、打标的历史骗保人员作为样本数据进行训练得到的数据关系模型。

一种保险欺诈识别的数据处理装置，包括：

数据获取模块，用于获取待识别人群的关系关联数据；

特征计算模块，用于基于所述关系关联数据构建所述待识别人群的多度关系网络图数据以及提取所述待识别人群的人员特征数据；

欺诈识别模块，用于利用构建的有监督学习算法对所述待识别人群的多度关系网络图数据和所述人员特征数据进行识别，确所述待识别人群骗保输出结果；所述有监督学习算法包括采用以选取的目标人群的多度关系网络数据和人员特征数据、打标的历史骗保人员作为样本数据进行训练得到的数据关系模型。

一种处理设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取待识别人群的关系关联数据；

一种服务器，包括至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取待识别人群的关系关联数据；

本说明书实施例提供的一种保险欺诈的数据处理方法、装置、处理设备及服务器，基于投保人员和被保险人的多维度的关系关联数据构建人群的多度关系网络图数据，可以更加深入的挖掘人员之间的关系网络，提高识别效率和范围。同时结合骗保人员自身的特征数据，共同建立有监督的学习模型，用来学习骗保人员的关系网络特征和自身特征。团伙的骗保人员不仅在关系网络上有着较为明显和多度的关系特征，其自身特征也常常表现出相似性，因此利用本说明书实施例提供的方法可以更加有效和高效的识别出骗保人员，提高识别处理效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书提供的一种保险欺诈识别的数据处理方法实施例的流程示意图；

图2是本说明书提供的一种构建有监督识别模型的处理过程示意图；

图3是本说明书提供的一种保险欺诈识别处理服务器的硬件结构框图；

图4是本说明书提供的一种保险欺诈识别的数据处理装置的模块结构示意图。

图5是本说明书提供的一种保险欺诈识别的数据处理装置中欺诈识别模块的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书中的一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例保护的范围。

物以类聚，人以群分。骗保人群通常需要多人配合才能提高骗保的伪装性。而骗保人员的聚集在很多情况下也会基于熟人关系或具有较为明显的共性特征或某一维度的网络关系特征数据。例如以亲戚之间合伙的骗保行为，传销性质的具有明显阶层划分的骗保团体、有经验的历史骗保人员为头目拉拢的社会群体或学生群体等。本说明书实施例提供多个实施方案中，从包含投保人员和申请理赔人员的目标人群的多种关系关联数据触发，进行多度关系网络的构图(关系网络图的数据可以称为多度关系图数据)，深入挖掘目标人群之间的关系网络，解决有常规仅对历史骗保人员和与历史骗保人员有直接关系的一度关系进行识别的覆盖率和识别率低的问题。同时，本说明书实施例提供的方案，还考虑到骗保人员自身的特征属性，如骗保人员通常使用虚假信息注册账号、账号注册时间短、账号注册后主使用投保业务等。本说明书提供的实施方案，结合骗保团体的关系特征数据和自身特征数据，将历史骗保人员标记出来，进行有监督模型的算法学习，从而可以计算或识别出待识别人群是否存在骗保的结果。

下面以一个具体的保险业务欺诈识别处理的应用场景为例对本说明书实施方案进行说明。具体的，图1是本说明书提供的所述一种保险欺诈识别的数据处理方法实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

当然，下述实施例的描述并不对基于本说明书的其他可扩展到的技术方案构成限制。例如其他的实施场景中，本说明书提供的实施方案同样可以应用到基金欺诈识别、产品交易、服务交易等的实施场景中。具体的一种实施例如图1所示，本说明书提供的一种保险欺诈识别的数据处理方法可以包括：

S0：获取待识别人群的关系关联数据；

S2：基于所述关系关联数据构建所述待识别人群的多度关系网络图数据以及提取所述待识别人群的人员特征数据；

S4：利用构建的有监督学习算法对所述待识别人群的多度关系网络图数据和所述人员特征数据进行识别，确所述待识别人群骗保输出结果；所述有监督学习算法包括采用以选取的目标人群的多度关系网络数据和人员特征数据、打标的历史骗保人员作为样本数据进行训练得到的数据关系模型

本实施例应用场景中，通常保险出险、核算、赔付等环节主要针对的是申请理赔人员，本说明书实施例中考虑了一些实际场景中骗保动机存在从投保开始就产生的情况，骗保人员主要目的是为了申请获得保险赔付金额，当然也有一些在投保之后才有的骗保动机。被保险人为出险的主要主体，如老乡团体的骗保人员故意制造被保险人人的意外事故因此本实施例的在识别是否存在骗保时的目标人群时选取了申请理赔人员和被保险人的人员集合。因此，本说明书所述方法的一些实施例中，选取目标人群进行关系特征数据的获取学习时，所述的目标人群可以包括申请理赔人员和被保险人的人员集合。需要说明的是，申请理赔人员在一些实施情况下可以包括投保人，如父亲给儿子投保，父亲为受益人，出险后父亲为申请理赔人员；或者一些实施情况下申请理赔人员也可能包括被保险人员，如投保人给自己的投保，受益人为自己。上述中所述的申请理赔人员和被保险人可以理解的是保险业务中处于不同角色的人员类别名称，并不现在是不同的人员，一些实施场景中所示的申请理赔人员和被保险人员可以全部或部分相同。

当然，其他的实施例中，目标人群的选取也可以选取理赔申请人员或投保人或被保险人或受益人等中的一种或多种。

所述的关系关联数据可以包括多种维度的与所述目标人群中人员相关联的数据信息，如户籍、年龄、人员之间的亲属/同学关系、投保数据、保险出险数据等等。具体的关系关联数据可以根据实际的应用场景中进行选取确定使用哪些类别的哪些数据，一般的，作业人员可以根据骗保行为可能涉及到的数据信息作为采集关系关联数据的依据。本说明书提供的一个实施例中，所述的关系关联数据可以包括下述中的至少一种：

社会关系数据、终端数据、终端的应用以及应用账户操作信息、与保险行为关联的行为数据、人员基础属性数据、地理位置数据。

所述的社会关系数据可以包括目标人群中人员之间的社会关系，如堂兄弟、师生、家人、同学、领导与下属等。所述的终端数据可以包括人员使用的通信设备的品牌、型号、类别，一些骗保场景中人员使用相同品牌的手机。终端的应用以及应用账户操作信息，可以用于确定是否使用同一款应用，以及使用相同的账户登录不同终端的应用进行保险欺诈操作，一些场景中多个下述听从头目统一指挥在终端上应用上进行操作。所述的与保险行为关联的行为数据可以包括目标人的投保行为、理赔行为、赔偿金额等行为数据。所述的人员基础属性数据可以包括投保人/申请理赔人员的年龄、性别、职业、户籍等。所述的地理位置数据可以包括目标人群当前所处的地理位置信息或者历史到过/滞留果的区域的信息。当然，上述所述的各个维度的数据关系关联数据还可以有其他的定义或包含更多/更少的数据类别和信息，也可以包括除上述之外的其他维度的关系关联数据，如消费信息甚至信用记录或行政处罚信息，具体采集时可以采集上述中的一种或多种数据信息。

所述的人员特征数据可以包括与单个人员自身相关联的数据信息，如性别、年龄、保险服务账号或终端应用账户注册时间、信用记录、消费情况等，或者还可以包括与保险行为关联的行为数据，如多次投保行为、经常性的理赔行为、赔偿金额是否正常等。还可以包括以下其他的商品或服务的交易数据，如长期的大额支出，多次出车险，购买多部手机，注册多个通信账号/社交账号等。

具体的人员特征计算使用的人员特征数据可以采用上述中的一种或多种的组合，以实现人员自身特征的识别。因此，另一个实施例中，所述人员特征数据可以包括用户注册账号、交易数据、与保险行为关联的行为数据中的至少一项提取出来的特征数据。

骗保团伙的人员之间通常存在较为紧密的关系网络，本实施例中可以利用上述获取的多维度的关系关联数据构建目标人群的多度关系网络图数据。所述的多度关系网络图数据可以包括基于所述关系关联数据建立的不同人员之间的关系链而生成的关系网络图，其中的关系网络图上人员之间的关系链数据为多度关系网络图数据。所述的关系链可以表示每两个人员之间的关系数据，如A与B是老板关系、A与C是家人关系等。单独的两个人员之间的关系可以称为一度关系，本实施例中所述的多度关系网络图数据中的“多度”可以包括基于所述一度关系建立的新的人员之间的关联数据，如基于第一人员与第二人员的一度关系和第二人员与第三人员的一度关系建立的所述第一人员与第三人员的二度关系，甚至进一步可以基于其他一度关系建立第一人员与第四人员的三度关系等等。

如一个示例中，A是单个人员，B是A的姐夫，则A与B是一度的社会关系，A与其姐夫B的公司老板C之前不存在社会关系，但在本说明书实施例中，由于存在B既是A的姐夫又是公司老板C的下属，因此A与公司老板C之间建立的二度关系。

除上述人员之间的社会关系之外，还可以根据采用的关系关联数据或者关系构建需求形成其他类型的多度关系网络图数据，如是否为老乡，使用同一种通信工具、多人终端上的某个应用在固定时间段登录等。当然，基于所述关系关联数据构建关系网络具体的实现中，关系之间的确定可以预先设计成立关系链的规则。

基于构建好的多度关系网络图数据和提取的人员特征数据，本实施例可以采用有监督的学习算法学习骗保人员的关系特征和自身特征，从而可以建立有效的识别模型。

通常的，机器学习的常用方法主要分为有监督学习，有时也简称监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习是一种分类处理方式，通常针对有标签的数据集，通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的)，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。监督学习里典型的例子就是KNN(k-NearestNeighbor，邻近算法)、SVM(Support Vector Machine)，支持向量机)。有监督学习算法在有一定数量的训练样本的情况下，相比于无监督算法可以得到更为准确的输出结果。

根据选取的不同的有监督学习算法，其他具体的关系特征和自身特征的处理过程根据算法种类和识别处理需求进行设计和确定。例如可以采用Structure2vec等的有监督图算法。例如一个实施例中，所述构建的有监督学习算法包括：

S40：利用选取的有监督学习算法对目标人群的多度关系网络数据中目标人员与其他人员的关系特征进行第一关系网络学习、基于所述目标人员特征的自身特征数据进行第二自身属性学习；

S42：以所述第一关系网学习和第二自身属性学习得到的特征数据作为所述有监督学习算法的自变量，以打标的历史骗保人员作为因变量建立关系模型；

S44：在所述关系模型的输出达到预设准确率时确定构建的有监督学习算法。

图2是本说明书提供的一种构建有监督学习算法实施例的处理过程示意图。

如图2所述的示例中，可以使用Structure2vec的有监督图算法：一方面去学习目标人及其邻居的关系特征(如与多少人有关系，是否跟骗保人员有关系)，另一方面学习目标人本身的特征(如性别、年龄等)，以上特征作为模型的x变量；其次，根据历史打标好是否是骗保人员作为y变量；最后，根据y和x建立相关模型，从而达到仅依靠x就可以预测y情况。

本实施例应用场景中所述的最终识别出是否为骗保的可以是单独的一个人。即本实施例中的理由有监督学习算法学习了团伙骗保的关系特征之后，再结合骗保人员自身的特征，可以直接得到某个待识别人员是否为骗保人员或者是骗保人员的概率的骗保输出结果。如可以为人员打标为骗保人员或正常人员，或者为骗保人员的概率。

当然，这里所述的标记为骗保人员是基于关系特征和自身特征的识别结果，可以作为初步确定这些人是否为骗保人员的依据和参考。最终确定是否为骗保时可以有作业人员主观判断，或者再结合其他的计算方式进行判断和确定。

本实施例提供的保险欺诈的数据处理方法，可以基于投保人员和被保险人的多维度的关系关联数据构建人群的多度关系网络图数据，可以更加深入的挖掘人员之间的关系网络，提高识别效率和范围。同时结合骗保人员自身的特征数据，共同建立有监督的学习模型，用来学习骗保人员的关系网络特征和自身特征。团伙的骗保人员不仅在关系网络上有着较为明显和多度的关系特征，其自身特征也常常表现出相似性，因此利用本说明书实施例提供的方法可以更加有效和高效的识别出骗保人员，提高识别处理效率。

本说明书提供的所述方法的另一个实施例中，还可以利用历史骗保人员的数据信息结合多度关系网络图数据进行骗保人员的识别。具体的，本说明书提供的所述方法的另一个实施例中，所述关系关联数据还可以包括：历史骗保人员名单数据。

本实施例中加入历史骗保人群的数据信息，在对所述分类社群进行分析处理时，考虑历史骗保人员的参与程度。一般的，若历史骗保人员在某个分类社群中的关系浓度较高，则该分类社群中的人员进行骗保的可能性就越大。本实施例中所述的关系浓度可以包括历史骗保人员的参与程度，具体的可以包括分类社群中历史骗保人员的数量、历史骗保人员的数量占比、历史骗保人与其他人员的关系密程度等。所述的关系密集程度的一个示例如，10个人员的风险社群中，2个历史骗保人员与其他6个人员是一度或多度关系的亲属关系，与2个人员是同学关系，则表示可能为传销性质的骗保团伙。具体的关系浓度可以采用不同的方式计算，如上述历史骗保人员数量，占比，关系网络等。本说明书实施例提供另一种实施例中，可以从待识别人群的规模和历史骗保人员的数量两个指标来计算所述关系浓度，所述的关系浓度可以作为衡量骗保的概率取值。具体的，可以包括：

以所述待识别人群的人员数量取对数后作为第一因子；

以所述待识别人员中历史骗保人员的数量占比作为第二因子；

基于所述第一因子与所述第二因子的乘积作为待识别人群的团体骗保概率。

然后可以结合自身特征计算得到的个人骗保概率取值，与团体骗保概率进行运算来确定最终输出的团体为骗保或单个人员为骗保的概率。或者所述的团体骗保概率和个人骗保概率分别各自利用，不进行相互计算。

例如，具体实现时，可以采用下述方式计算社群骗保的概率：

RiskDegree＝log(分类社群人员总数)*历史骗保人员数量/分类社群人员总数。

当然，还可以采用其他的计算方式或变形、变换的方式，如取自然对数等，在此限制和赘述。

上述实施例提供了可以利用历史骗保人员的数据信息来识别骗保的欺诈群体。本说明书提供的另一种实施例中，可以利用人群中各个成员之间的关系网络特征来确定是否为骗保人员。具体的，如确定人群中人员关系的网络结构特征；

若所述网络结构特征符合预设的骗保网络结构，则将所述人群标记为欺诈群体。

所述的上述方式可以用于有监督学习算法的训练中，所述的人群为目标人员。对于识别待识别人员的处理中，所述的人群为所述待识别人群。

所述的网络结构特征可以基于人群中的人员信息、人员之间的关系网络信息等。这里的关系网络信息可以为前述所述的一度信息，也可以包括构建的多度信息。

可以使用一定的算法识别分析社群中关系网络是什么特征，如果网络结构特征符合骗保团伙特征，此时可以标记为欺诈群体。例如一个示例中，人群中的关系网络可以为比如“球形网络”、“金字塔形网络”等网络结构。“金字塔网络”类似于传销组织，一层一层关系结构，属于骗保的可能性较大；“球形网络”就是网络中彼此关联，可能为非中心化的骗保组织。

本说明书实施例提供的一种保险欺诈的数据处理方法、使用接近实际关系网络的关系关联数据支撑关系网络算法的挖掘，实现多度关系的关系网络数据计算。基于投保人员和被保险人的多维度的关系关联数据构建人群的多度关系网络图数据，可以更加深入的挖掘人员之间的关系网络，提高识别效率和范围。同时结合骗保人员自身的特征数据，共同建立有监督的学习模型，用来学习骗保人员的关系网络特征和自身特征。团伙的骗保人员不仅在关系网络上有着较为明显和多度的关系特征，其自身特征也常常表现出相似性，因此利用本说明书实施例提供的方法可以更加有效和高效的识别出骗保人员，提高识别处理效率。

上述所述的方法可以用于客户端一侧的保险欺诈识别，如移动终端安装反欺诈应用、支付应用提供的保险业务。所述的客户端可以为PC(personal computer)机、服务器、工控机(工业控制计算机)、移动智能电话、平板电子设备、便携式计算机(例如笔记本电脑等)、个人数字助理(PDA)、或桌面型计算机或智能穿戴设备等。移动通信终端、手持设备、车载设备、可穿戴设备、电视设备、计算设备。也可以应用在保险业务方或服务方或第三方机构的系统服务器中，所述的系统服务器可以包括单独的服务器、服务器集群、分布式系统服务器或者处理设备请求数据的服务器与其他相关联数据处理的系统服务器组合。

本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图3是本发明实施例的一种识别车辆受损部件的服务器的硬件结构框图。如图3所示，服务器10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图3中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存，或者具有与图3所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的搜索方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述导航交互界面内容展示的处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

基于上述所述的设备型号识别方法，本说明书还提供一种保险欺诈识别的数据处理装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的设备装置。基于同一创新构思，本说明书提供的一种实施例中的处理装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的处理装置的实施可以参见前述方法的实施，重复之处不再赘述。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。具体的，如图4所示，图4是本说明书提供的一种保险欺诈识别的数据处理装置实施例的模块结构示意图，可以包括：

数据获取模块101，可以用于获取待识别人群的关系关联数据；

特征计算模块102，可以用于基于所述关系关联数据构建所述待识别人群的多度关系网络图数据以及提取所述待识别人群的人员特征数据；

欺诈识别模块103，可以用于利用构建的有监督学习算法对所述待识别人群的多度关系网络图数据和所述人员特征数据进行识别，确所述待识别人群骗保输出结果；所述有监督学习算法包括采用以选取的目标人群的多度关系网络数据和人员特征数据、打标的历史骗保人员作为样本数据进行训练得到的数据关系模型。

所述装置的具体的一个实施例中，所述关系关联数据可以包括下述中的至少一种：

所述装置的另一个实施例中，所述欺诈识别模块103确所述待识别人群骗保输出结果包括输出单个待识别目标人员是否为欺诈人员或为欺诈人员的概率。

所述装置的另一个实施例，所述选取的目标人群包括申请理赔人员和被保险人的人员集合。

所述装置的另一个实施例，所述人员特征数据包括用户注册账号、交易数据、与保险行为关联的行为数据中的至少一项提取出来的特征数据。

图5是所述装置的另一个实施例中，如图5所示，所述欺诈识别模块103包括：

特征学习模块1031，可以用于利用选取的有监督学习算法对目标人群的多度关系网络数据中目标人员与其他人员的关系特征进行第一关系网络学习、基于所述目标人员特征的自身特征数据进行第二自身属性学习；

关系建立模块1032，可以用于以所述第一关系网学习和第二自身属性学习得到的特征数据作为所述有监督学习算法的自变量，以打标的历史骗保人员作为因变量建立关系模型；

模型训练模块1033，可以用于在所述关系模型的输出达到预设准确率时确定构建的有监督学习算法。模型中参数的训练迭代，在满足输出精度要求时可以作为线上使用。

本说明书实施例提供的服务器或客户端可以在计算机中由处理器执行相应的程序指令来实现，如使用windows操作系统的c++语言在PC端或服务器端实现，或其他例如Linux、系统相对应的应用设计语言集合必要的硬件实现，或者基于量子计算机的处理逻辑实现等。因此，本说明书还提供一种保险欺诈识别的数据处理设备，具体的可以包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取待识别人群的关系关联数据；

上述的指令可以存储在多种计算机可读存储介质中。所述计算机可读存储介质可以包括用于存储信息的物理装置，可以将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。上述所述的装置或服务器或客户端或处理设备中的所涉及的指令同上描述。

上述的处理设备可以具体的为保险服务器或第三方服务机构提供保险反欺诈识别的服务器，所述的服务器可以为单独的服务器、服务器集群、分布式系统服务器或者处理设备请求数据的服务器与其他相关联数据处理的系统服务器组合。因此，本说明书实施例还提供一种具体的服务器产品，所述服务器包括至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取待识别人群的关系关联数据；

需要说明的是，本说明书实施例上述所述的装置和处理设备、服务器，根据相关方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或系统服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

尽管本说明书实施例内容中提到关系关联数据的采集种类、训练时选取的目标人群的范围、判断为骗保的概率计算方式等之类的数据获取、存储、交互、计算、判断等操作和数据描述，但是，本说明书实施例并不局限于必须是符合行业通信标准、标准监督或无监督模型处理、通信协议和标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书的可选实施方案范围之内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的处理设备、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种保险欺诈识别的数据处理方法，所述方法包括：

获取待识别人群的关系关联数据；

2.如权利要求1所述的方法，所述关系关联数据包括下述中的至少一种：

3.如权利要求1所述的方法，所述确所述待识别人群骗保输出结果包括输出单个待识别目标人员是否为欺诈人员或为欺诈人员的概率。

4.如权利要求1所述的方法，所述选取的目标人群包括申请理赔人员和被保险人的人员集合。

5.如权利要求1或3中任意一项所述的方法，所述人员特征数据包括用户注册账号、交易数据、与保险行为关联的行为数据中的至少一项提取出来的特征数据。

6.如权利要求1或3中任意一项所述的方法，所述采用下述方式构建有监督学习算法包括：

利用选取的有监督学习算法对目标人群的多度关系网络数据中目标人员与其他人员的关系特征进行第一关系网络学习、基于所述目标人员特征的自身特征数据进行第二自身属性学习；

以所述第一关系网学习和第二自身属性学习得到的特征数据作为所述有监督学习算法的自变量，以打标的历史骗保人员作为因变量建立关系模型；

在所述关系模型的输出达到预设准确率时确定构建的有监督学习算法。

7.一种保险欺诈识别的数据处理装置，包括：

数据获取模块，用于获取待识别人群的关系关联数据；

8.如权利要求7所述的装置，其中，所述关系关联数据包括下述中的至少一种：

9.如权利要求7所述的装置，所述欺诈识别模块确所述待识别人群骗保输出结果包括输出单个待识别目标人员是否为欺诈人员或为欺诈人员的概率。

10.如权利要求7所述的装置，所述选取的目标人群包括申请理赔人员和被保险人的人员集合。

11.如权利要求7或9所述的装置，所述人员特征数据包括用户注册账号、交易数据、与保险行为关联的行为数据中的至少一项提取出来的特征数据。

12.如权利要求7或9所述的装置，所述欺诈识别模块包括：

特征学习模块，用于利用选取的有监督学习算法对目标人群的多度关系网络数据中目标人员与其他人员的关系特征进行第一关系网络学习、基于所述目标人员特征的自身特征数据进行第二自身属性学习；

关系建立模块，用于以所述第一关系网学习和第二自身属性学习得到的特征数据作为所述有监督学习算法的自变量，以打标的历史骗保人员作为因变量建立关系模型；

模型训练模块，用于在所述关系模型的输出达到预设准确率时确定构建的有监督学习算法。

13.一种处理设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取待识别人群的关系关联数据；

14.一种服务器，包括至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取待识别人群的关系关联数据；