CN110490750A

CN110490750A - 数据识别的方法、系统、电子设备及计算机存储介质

Info

Publication number: CN110490750A
Application number: CN201910664820.3A
Authority: CN
Inventors: 程旺
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-22
Anticipated expiration: 2039-07-23
Also published as: WO2021012913A1; CN110490750B

Abstract

本申请提供了数据识别的方法、系统、电子设备及计算机存储介质。所述方法包括：获取多个出险记录；将所述多个出险记录中每个出险记录转化为多个分词向量；根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录；使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件。

Description

数据识别的方法、系统、电子设备及计算机存储介质

技术领域

本申请涉及计算机领域，尤其涉及数据识别的方法、系统、电子设备及计算机存储介质。

背景技术

目前，货运车辆保险行业反欺诈的判断，主要是通过人工分析报案描述信息和现场勘查等方式实现，无法实现群体欺诈的识别，即使通过社交网络分析(Social NetworkAnalysis，SNA)算法构建网络来识别群体欺诈，在现实的复杂场景中，仅依赖离散型特征和少量的连续型特征，有时模型的表现会比较差。导致反欺诈识别缺乏技术手段，欺诈行为识别率低。

发明内容

本申请提供了数据识别的方法、系统、电子设备及计算机存储介质，用于解决群体欺诈行为识别率低的问题。

第一方面，本申请提供了数据识别的方法，所述方法包括以下步骤：

获取多个出险记录；

将所述多个出险记录中每个出险记录转化为多个分词向量；

根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录；

使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件。

可选地，将所述多个出险记录中的每个出险记录转化为多个分词向量包括：

对所述多个出险记录中的每个出险记录进行切词处理，将所述多个出险记录中的每个出险记录分为多个分词词语；

将所述多个分词词语中，与停用词集中的词语相同的分词词语删除，与保留词集中的词语相同的分词词语保留，获得筛选后的分词词语，其中，所述停用词集是多个与出险记录信息无关的分词词语的集合，所述保留词集是预先设定的不能筛选掉的词语的集合；

将所述筛选后的分词词语映射为多个分词向量。

可选地，从所述每个出险记录的多个分词向量中，筛选出目标分词向量，其中，所述目标分词向量在所属的出险记录中出现的频率高于在其他出险记录中出现的频率，或者，所述目标分词向量在所属的出险记录中出现的频率低于在其他出险记录中出现的频率；

通过聚类算法，将包含相同或相近目标分词向量的多个出险记录聚类为多个类别组的出险记录。

可选地，所述使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件包括：

获取所述多个类别组的出险记录；

基于所述多个类别组的出险记录，使用社交网络分析算法建立出险案件关系网络，其中，一个类别组的出险记录对应一个或者多个出险案件关系网络，所述出险案件关系网络包括多个节点，所述节点代表所述出险记录中的个体、组织或虚拟个体，所述多个节点之间的连线表示所述多个节点之间存在社交关系；

通过社交网络分析算法对所述出险案件关系网络中的各个节点与其他节点之间的关系进行分析，提取出各个节点对应的群体出险特征；

将所述各个节点对应的群体出险特征输入分类模型，获得各个节点的欺诈率，其中，所述分类模型是使用样本集对神经网络进行训练得到的模型，所述样本集包括已知的多个维度群体出险特征数据以及对应的已知的欺诈率数据；

根据所述各个节点的欺诈率，将欺诈率高于第一阈值的多个节点所属的出险记录识别为欺诈案件，将欺诈率高于第一阈值的多个节点识别为欺诈团伙。

可选地，所述聚类算法是K均值聚类算法、均值漂移聚类算法、具有噪声的基于密度的聚类算法、用高斯混合模型的最大期望聚类算法以及凝聚层次聚类算法中的一种或者多种。

第二方面，提供了一种数据识别系统，所述系统包括获取单元、转化单元、聚类单元以及识别单元，其中，

所述获取单元用于获取多个出险记录；

所述转化单元用于将所述多个出险记录中每个出险记录转化为多个分词向量；

所述聚类单元用于根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录；

所述识别单元用于使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件。

所述聚类单元具体用于从所述每个出险记录的多个分词向量中，筛选出目标分词向量，其中，所述目标分词向量在所属的出险记录中出现的频率高于在其他出险记录中出现的频率，或者，所述目标分词向量在所属的出险记录中出现的频率低于在其他出险记录中出现的频率；

所述聚类单元具体用于通过聚类算法，将包含相同或相近目标分词向量的多个出险记录聚类为多个类别组的出险记录。

可选地，所述识别单元具体用于基于所述多个类别组的出险记录，使用社交网络分析算法建立出险案件关系网络，其中，一个类别组的出险记录对应一个或者多个出险案件关系网络，所述出险案件关系网络包括多个节点，所述节点代表所述出险记录中的个体、组织或虚拟个体，所述多个节点之间的连线表示所述多个节点之间存在社交关系；

所述识别单元具体用于通过社交网络分析算法对所述出险案件关系网络中的各个节点与其他节点之间的关系进行分析，以提取出各个节点对应的群体出险特征；

所述识别单元具体用于将所述各个节点对应的群体出险特征输入分类模型，获得各个节点的欺诈率，其中，所述分类模型是使用样本集对神经网络进行训练得到的模型，所述样本集包括已知的多个维度群体出险特征数据以及对应的已知的欺诈率数据；

所述识别单元具体用于将欺诈率高于第一阈值的多个节点所属的出险记录识别为欺诈案件，将欺诈率高于第一阈值的多个节点识别为欺诈团伙。

第三方面，提供了一种电子设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面所述的方法

第四方面，提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

基于本申请提供的数据识别的方法、系统、电子设备及计算机存储介质，通过获取多个出险记录，将所述多个出险记录中每个出险记录转化为多个分词向量，根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录，使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件。由于对出险记录进行了高精度的聚类，每个类别的出险记录是相关性非常高的数据，使用聚类后的出险记录进行SNA分析时，能够更好的建立出险案件关系网络，从而提高了群体欺诈识别的正确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种数据识别方法的流程示意图；

图2是本申请提供的一场景下使用SNA算法建立的案件关系网络示意图；

图3是本申请提供的另一场景下使用SNA算法建立的案件关系网络示意图；

图4是本申请提供的一种数据识别系统的结构示意图；

图5是本申请提供的一种电子设备结构示意框图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或描述，这是为了避免本申请的核心部分被过多的描述所淹没。对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

应当理解，当在本说明书和所附权利要求书中使用术语时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。需要说明的是，在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

图1是本申请提供的一种数据识别方法的流程示意图。由图1可知，本申请提供的数据识别方法包括以下步骤：

S101：获取多个出险记录。

在本申请实施例中，出险指的是保险合同上规定或约定的赔偿或给付条件出现的情况，例如，车辆在保险期间，发生意外事故后，通知或者报告保险公司的过程就是汽车出险。其中，所述出险记录可以是数据库中的出险记录数据，例如，对于汽车保险来说，所述出险信息可以是事故记录，包括事故车牌，事故地点，车险保单号，保单代理人，理赔记录、保险购买记录、车辆涉案人员、包括司机、报案人、受益人和伤者，以及修理厂、报案电话、检修地点、GPS信息等数据、疾病诊断记录等涉及保险方面的记录。可以理解的是，将出险记录作为原始数据进行反欺诈识别，相比于普通的投保数据来说，可以大大的提高反欺诈识别的准确度。应理解，上述举例仅用于说明，并不能构成具体限定。

S102：将所述多个出险记录中每个出险记录转化为多个分词向量。

在本申请实施例中，将所述多个出险记录中的每个出险记录转化为多个分词向量包括：对所述多个出险记录中的每个出险记录进行切词处理，将所述多个出险记录中的每个出险记录分为多个分词词语；将所述多个分词词语中，与停用词集中的词语相同的分词词语删除，与保留词集中的词语相同的分词词语保留，获得筛选后的分词词语，其中，所述停用词集是多个与出险记录信息无关的分词词语的集合，所述保留词集是预先设定的不能筛选掉的词语的集合；将所述筛选后的分词词语映射为多个分词向量。应理解，出险记录包括了多个信息，比如，包括了具体的事故发生经过，具体的人员伤亡情况，疾病诊断记录，具体的交警事故认定记录等，各个出险记录的数据长短也不同，如果直接进行数据预处理，将会是一个很大的工作量，因此首先对获取的出险记录进行切词处理，从而提高数据处理效率。

具体地，切词处理可以是将每条出险记录的汉字序列切分成一个一个单独的词，从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词，进而可以进行切词的操作，但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，浪费存储空间，也使得搜索效率低下。因此可以结合停用词集和保留词集，将出现频度高、不是出险相关信息的词语过滤出去，例如语气助词、副词、介词、连接词等自身并无明确意义，只有将其放入一个完整句子中才有一定作用的词语。同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。并且，出险记录在进行分词操作后，还需要进行向量化的操作将每个出险记录转化为词向量。可以理解的是，“开心”和“幸福”对人来说，是两个非常接近的词语，而计算机是无法知道这两个词是相近的，因此，需要将每个词语用计算机能够理解的语言去表示，也就是说，将词语向量化，将单词表征为多维的浮点数，每一维的浮点数的数值大小表示了它与另一个单词之间的距离，表征的结果就是语义相近的词被映射到相近的集合空间上，从而使得计算机可以计算每个单词之间相似度，换句话说，使得计算机能够理解语言想要表达的含义后，再进行进一步反欺诈识别处理。

S103：根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录。

在本申请实施例中，所述根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录包括：从所述每个出险记录的多个分词向量中，筛选出目标分词向量，其中，所述目标分词向量在所属的出险记录中出现的频率高于在其他出险记录中出现的频率，或者，所述目标分词向量在所属的出险记录中出现的频率低于在其他出险记录中出现的频率；通过聚类算法，将包含相同或相近目标分词向量的多个出险记录聚类为多个类别组的出险记录。也就是说，将出险记录转化为分词向量后，会出现很多个词语向量，虽然经过了停用词级和保留词级的筛选，但是很多词语向量对于接下来的反欺诈识别来说，数据量还是很大，应理解，因此，如果再将数据进行进一步的筛选，将易于识别的数据进行聚类，可以大大提高聚类的准确度，将准确的聚类结果输入SNA网络，可以得到更准确的识别结果。其中，更易于识别的数据可以是，例如，如果一个词汇在某一案件出险记录中出现次数较多，而在其它案件出险信息中出现较少，则认为该词汇具有很好的区分能力。再例如，如果出险信息字段中包含某词汇的案件数较少，则说明该词汇具有很好的区分能力。应理解，上述举例仅用于说明，并不能构成具体限定。

在本申请实施例中，目标分词向量可以使用词频-逆文本频率指数(TermFrequency–Inverse Document Frequency，TF-IDF)方法进行筛选，其中，TF-IDF方法是一种统计方法，用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。可以理解的是，对区别文档最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他文档中出现频率少的词语，所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点，另外考虑到单词区别不同类别的能力，TF-IDF方法认为一个单词出现的文本频数越小，它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度，并用它完成对权值TF的调整，调整权值的目的在于突出重要单词，抑制次要单词。也就是说，如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。因此，与直接将出险记录进行聚类相比，可以获得更好地聚类结果，筛选出适合分类的分词向量后，根据出险记录地重要程度矩阵进行聚类，可以更加准确地将出险信息相似的案件聚集在一起，将聚类结果作为SNA网络的输入数据，可以大大提高反欺诈案件识别地准确率。

在本申请实施例中，所述聚类算法是K均值聚类算法、均值漂移聚类算法、具有噪声的基于密度的聚类算法、用高斯混合模型的最大期望聚类算法以及凝聚层次聚类算法中的一种或者多种，本申请不作具体限定。可以理解的是，聚类的结果可以是同省市或者是购买同类型报销的出险记录聚集在一起，例如，将微损案件的出险记录聚集在一起，或者，将同省的案件聚集在一起等，此处不作具体限定。

S104：对所述多个类别组的出险记录中的每个类别组，使用社交网络分析SNA算法，识别出所述多个出险记录中的欺诈案件。

在本申请实施例中，所述使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件包括：获取所述多个类别组的出险记录；基于所述多个类别组的出险记录，使用社交网络分析算法建立出险案件关系网络，其中，一个类别组的出险记录对应一个或者多个出险案件关系网络，所述出险案件关系网络包括多个节点，所述节点代表所述出险记录中的个体、组织或虚拟个体，所述多个节点之间的连线表示所述多个节点之间存在社交关系；通过社交网络分析算法对所述出险案件关系网络中的各个节点与其他节点之间的关系进行分析，提取出各个节点对应的群体出险特征；将所述各个节点对应的群体出险特征输入分类模型，获得各个节点的欺诈率，其中，所述分类模型是使用样本集对神经网络进行训练得到的模型，所述样本集包括已知的多个维度群体出险特征数据以及对应的已知的欺诈率数据；根据所述各个节点的欺诈率，将欺诈率高于第一阈值的多个节点所属的出险记录识别为欺诈案件，将欺诈率高于第一阈值的多个节点识别为欺诈团伙。其中，SNA网络是由多个点(社会行动者)和各个点之间的连线(行动者之间的关系)组成的集合。每个节点可以是组织、个人、网络ID等不同含义的实体或虚拟个体，而个体之间的关系可以是亲友、动作行为、收发消息等多种关系。通过SNA网络分析，可以从杂乱的数据和连接关系中，找到我们需要的关键信息，也就是各个节点的群体性出险行为。以医疗保险的出险数据为例，各个节点的出险特征可以是：病患所在的区域，病患看病的医院、病患采购药品项目的数量和具体时间，病患患得的疾病，病患看诊的医生等行为。对病患的群体性出险行为进行分析，就相当于对病患所在的区域、病患采购药品项目的数量和具体时间、病患患得的疾病等进行综合分析。若查到病患多次在不同的医院购买大量的药品，且药品的种类各不相同，可确定群体性出险特征为：用户的药品购买量大、药品类型多等等。再例如，以车辆保险出险数据为例，各个节点的出险特征可以是：车辆所处的城市、车牌号、车辆购买的保险类别、处理事故的交警、肇事者身份信息以及受害人身份信息等等。若查到车辆多次在不同地点出险并且均为微损案件，由于微损案件金额低，可以快速报案处理，因此可确定群体性出险特征为用户多次参与微损案件出险；若查到车辆多次在不同地点出险并且受害人身份均为同一人，可确定群体性出险特征为用户多次与他人协同骗保。同理，可以获得商业保险、意外保险等其他出险数据的群体性出险特征。应理解，上述举例仅用于说明，并不能构成具体限定。

在本申请实施例中，除了使用神经网络根据所述各个节点的欺诈率，可以识别出所述多个出险记录中的欺诈案件，还可以根据出险率识别高风险案件。例如，图2是本申请提供的一场景下使用SNA算法建立的案件关系网络示意图，其中，灰色的点代表出险记录较多的用户，黑色的点代表有出险记录但是次数较少的穿越用户，白色的点代表没有出险记录的用户。通过数据计算分析可以得出，该团伙的高出险率达到66.8％，说明该团伙的平均出险率较低；出险用户占所有用户的91.4％，进一步验证了该团伙的欺诈性。可以理解的，确认出欺诈团伙后，该团伙参与的出险记录即可确认为欺诈案件。

在本申请实施例中，使用SNA构建案件关系网络后，还可以根据网络结构，与预设的网络模型进行匹配，从而识别出高风险案件。例如，图3是本申请提供的另一场景下使用SNA算法建立的案件关系网络示意图，其中，黑色的点代表有出现记录但是次数较少的穿越用户，虽然该案件关系网络中各个节点的欺诈率不高，并且出险率也不高，但是由于案件关系网络中，有关系的两个节点会进行连接，因此该场景下的案件关系网络具有更高的风险性，该网络的背后通常是多人协作的团伙作案，其两两互通表示两两认识，背后的目的多为相互勾结，伪造信息以达到出险要求，需要重点关注。应理解，上述举例仅用于说明，SNA算法建立的案件关系网络还可以是除图2、图3外的其他网络结构，分析方法也与图2、图3使用的分析方法不同，本申请不作具体限定。

上述方法中，通过获取多个出险记录，将所述多个出险记录中每个出险记录转化为多个分词向量，根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录，使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件。由于对出险记录进行了高精度的聚类，每个类别的出险记录是相关性非常高的数据，使用聚类后的出险记录进行SNA分析时，能够更好的建立出险案件关系网络，从而提高了群体欺诈识别的正确率。

图4是本申请提供的一种数据识别系统的结构示意图。由图4可知，本申请提供的数据识别系统包括获取单元410、转化单元420、聚类单元430以及识别单元440，其中，

所述获取单元410用于获取多个出险记录；

所述转化单元420用于将所述多个出险记录中每个出险记录转化为多个分词向量；

所述聚类单元430用于根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录；

所述识别单元440用于使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件。

在本申请实施例中，所述转化单元420具体用于：对所述多个出险记录中的每个出险记录进行切词处理，将所述多个出险记录中的每个出险记录分为多个分词词语；结合停用词集和保留词集，对所述多个分词词语进行筛选，获得筛选后的分词词语，其中，所述停用词集是多个与出险记录信息无关的分词词语的集合，所述保留词集是预先设定的不能筛选掉的词语的集合；对所述筛选后的分词词语进行向量化处理，获得所述多个出险记录中的每个出险记录的多个分词向量。应理解，出险记录包括了多个信息，比如，包括了具体的事故发生经过，具体的人员伤亡情况，疾病诊断记录，具体的交警事故认定记录等，各个出险记录的数据长短也不同，如果直接进行数据预处理，将会是一个很大的工作量，因此首先对获取的出险记录进行切词处理，从而提高数据处理效率。

在本申请实施例中，所述聚类单元430具体用于从所述每个出险记录的多个分词向量中，筛选出目标分词向量，其中，所述目标分词向量在所属的出险记录中出现的频率高于在其他出险记录中出现的频率，或者，所述目标分词向量在所属的出险记录中出现的频率低于在其他出险记录中出现的频率；所述聚类单元430具体用于通过聚类算法，将包含相同或相近目标分词向量的多个出险记录聚类为多个类别组的出险记录。也就是说，将出险记录转化为分词向量后，会出现很多个词语向量，虽然经过了停用词级和保留词级的筛选，但是很多词语向量对于接下来的反欺诈识别来说，数据量还是很大，应理解，因此，如果再将数据进行进一步的筛选，将易于识别的数据进行聚类，可以大大提高聚类的准确度，将准确的聚类结果输入SNA网络，可以得到更准确的识别结果。其中，更易于识别的数据可以是，例如，如果一个词汇在某一案件出险记录中出现次数较多，而在其它案件出险信息中出现较少，则认为该词汇具有很好的区分能力。再例如，如果出险信息字段中包含某词汇的案件数较少，则说明该词汇具有很好的区分能力。应理解，上述举例仅用于说明，并不能构成具体限定。

在本申请实施例中，目标分词向量可以使用TF-IDF方法进行筛选，其中，TF-IDF方法是一种统计方法，用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。可以理解的是，对区别文档最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他文档中出现频率少的词语，所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点，另外考虑到单词区别不同类别的能力，TF-IDF方法认为一个单词出现的文本频数越小，它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度，并用它完成对权值TF的调整，调整权值的目的在于突出重要单词，抑制次要单词。也就是说，如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。因此，与直接将出险记录进行聚类相比，可以获得更好地聚类结果，筛选出适合分类的分词向量后，根据出险记录地重要程度矩阵进行聚类，可以更加准确地将出险信息相似的案件聚集在一起，将聚类结果作为SNA网络的输入数据，可以大大提高反欺诈案件识别地准确率。

在本申请实施例中，所述识别单元440具体用于获取所述多个类别组的出险记录；所述识别单元440具体用于基于所述多个类别组的出险记录，使用社交网络分析算法建立出险案件关系网络，其中，一个类别组的出险记录对应一个或者多个出险案件关系网络，所述出险案件关系网络包括多个节点，所述节点代表所述出险记录中的个体、组织或虚拟个体，所述多个节点之间的连线表示所述多个节点之间存在社交关系；所述识别单元440具体用于通过社交网络分析算法对所述出险案件关系网络中的各个节点与其他节点之间的关系进行分析，提取出各个节点对应的群体出险特征；所述识别单元440具体用于将所述各个节点对应的群体出险特征输入分类模型，获得各个节点的欺诈率，其中，所述分类模型是使用样本集对神经网络进行训练得到的模型，所述样本集包括已知的多个维度群体出险特征数据以及对应的已知的欺诈率数据；所述识别单元440具体用于根据所述各个节点的欺诈率，将欺诈率高于第一阈值的多个节点所属的出险记录识别为欺诈案件，将欺诈率高于第一阈值的多个节点识别为欺诈团伙。其中，SNA网络是由多个点(社会行动者)和各个点之间的连线(行动者之间的关系)组成的集合。每个节点可以是组织、个人、网络ID等不同含义的实体或虚拟个体，而个体之间的关系可以是亲友、动作行为、收发消息等多种关系。通过SNA网络分析，可以从杂乱的数据和连接关系中，找到我们需要的关键信息，也就是各个节点的群体性出险行为。以医疗保险的出险数据为例，各个节点的出险特征可以是：病患所在的区域，病患看病的医院、病患采购药品项目的数量和具体时间，病患患得的疾病，病患看诊的医生等行为。对病患的群体性出险行为进行分析，就相当于对病患所在的区域、病患采购药品项目的数量和具体时间、病患患得的疾病等进行综合分析。若查到病患多次在不同的医院购买大量的药品，且药品的种类各不相同，可确定群体性出险特征为：用户的药品购买量大、药品类型多等等。再例如，以车辆保险出险数据为例，各个节点的出险特征可以是：车辆所处的城市、车牌号、车辆购买的保险类别、处理事故的交警、肇事者身份信息以及受害人身份信息等等。若查到车辆多次在不同地点出险并且均为微损案件，由于微损案件金额低，可以快速报案处理，因此可确定群体性出险特征为用户多次参与微损案件出险；若查到车辆多次在不同地点出险并且受害人身份均为同一人，可确定群体性出险特征为用户多次与他人协同骗保。同理，可以获得商业保险、意外保险等其他出险数据的群体性出险特征。应理解，上述举例仅用于说明，并不能构成具体限定。

在本申请实施例中，除了使用神经网络根据所述各个节点的欺诈率，可以识别出所述多个出险记录中的欺诈案件，还可以根据出险率识别高风险案件。例如，图2是一个SNA算法建立的案件关系网络，其中，灰色的点代表出险记录较多的用户，黑色的点代表有出险记录但是次数较少的穿越用户，白色的点代表没有出险记录的用户。通过数据计算分析可以得出，该团伙的高出险率达到66.8％，说明该团伙的平均出险率较低；出险用户占所有用户的91.4％，进一步验证了该团伙的欺诈性。可以理解的，确认出欺诈团伙后，该团伙参与的出险记录即可确认为欺诈案件。

在本申请实施例中，使用SNA构建案件关系网络后，还可以根据网络结构，与预设的网络模型进行匹配，从而识别出高风险案件。例如，图3是本申请提供的另一场景下使用SNA算法建立的案件关系网络示意图，其中，黑色的点代表有出现记录但是次数较少的穿越用户，虽然该案件关系网络中各个节点的欺诈率不高，并且出险率也不高，但是由于案件关系网络中，有关系的两个节点会进行连接，因此该网络具有更高的风险性，这种网络的背后通常是多人协作的团伙作案，其两两互通表示两两认识，背后的目的多为相互勾结，伪造信息以达到出险要求，需要重点关注。应理解，上述举例仅用于说明，SNA算法建立的案件关系网络还可以是除图2、图3外的其他网络结构，分析方法也与图2、图3使用的分析方法不同，本申请不作具体限定。

上述系统中，通过获取多个出险记录，将所述多个出险记录中每个出险记录转化为多个分词向量，根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录，使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件。由于对出险记录进行了高精度的聚类，每个类别的出险记录是相关性非常高的数据，使用聚类后的出险记录进行SNA分析时，能够更好的建立出险案件关系网络，从而提高了群体欺诈识别的正确率。

参见图5，图5是本申请提供的一种电子设备的结构示意图。如图所示的本实施例中的电子设备可以包括：一个或者多个处理器511、存储器512和通信接口513。其中，处理器511、存储器512和通信接口513之间可以通过总线514连接。

处理器511包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)、微处理器、微控制器、主处理器、控制器以及专用集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(DigitalSignal Processor,DSP)、可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器511用于执行存储器512存储的程序指令。

存储器512可以包括易失性存储器，例如随机存取存储器(Random AccessMmemory,RAM)；存储器也可以包括非易失性存储器，例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-StateDrive,SSD)，存储器还可以包括上述种类的存储器的组合。存储器512可以采用集中式存储，也可以采用分布式存储，此处不作具体限定。可以理解的是，存储器512用于存储计算机程序，例如：计算机程序指令等。在本申请实施例中，存储器512可以向处理器511提供指令和数据。

通信接口513可以为有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与其他计算机设备或用户进行通信。当通信接口513为有线接口时，通信接口513可以采用网络通讯协议(Transmission Control Protocol/InternetProtocol,TCP/IP)之上的协议族，例如，远程函数调用(Remote Function Call,RFC)协议、简单对象访问协议(Simple Object Access Protocol,SOAP)协议、简单网络管理协议(Simple Network Management Protocol,SNMP)、公共对象请求代理体系结构协议(CommonObject Request Broker Architecture,CORBA)以及分布式协议等等。当通信接口513为无线接口时，可以根据全球移动通信系统(Global System for Mobile Communication,GSM)或者码分多址(Code Division Multiple Access,CDMA)标准利用蜂窝通信，因此包括用于数据传输的无线调制解调器、电子处理设备、一个或多个数字存储器设备以及双天线。

在本申请实施例中，处理器511、存储器512、通信接口513和总线514可执行本申请实施例提供的数据识别方法的任一实施例中所描述的实现方式，在此不再赘述。

在本申请的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现本申请提供的数据识别方法的任一实施例中所描述的实现方式，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法及装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据识别的方法，其特征在于，所述方法包括：

获取多个出险记录；

将所述多个出险记录中每个出险记录转化为多个分词向量；

2.根据权利要求1所述的方法，其特征在于，将所述多个出险记录中的每个出险记录转化为多个分词向量包括：

将所述多个分词词语中，与停用词集中的词语相同的分词词语删除、与保留词集中的词语相同的分词词语保留，获得筛选后的分词词语，其中，所述停用词集是多个与出险记录信息无关的分词词语的集合，所述保留词集是预先设定的不能筛选掉的词语的集合；

将所述筛选后的分词词语映射为多个分词向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个分词向量，将所述多个出险记录进行聚类，获得多个类别组的出险记录包括：

从所述每个出险记录的多个分词向量中，筛选出目标分词向量，其中，所述目标分词向量在所属的出险记录中出现的频率高于在其他出险记录中出现的频率，或者，所述目标分词向量在所属的出险记录中出现的频率低于在其他出险记录中出现的频率；

4.根据权利要求1所述的方法，其特征在于，所述使用社交网络分析算法分别对所述多个类别组的出险记录中的每个类别组进行分析，识别出所述多个出险记录中的欺诈案件包括：

获取所述多个类别组的出险记录；

5.根据权利要求3所述的方法，其特征在于，所述聚类算法是K均值聚类算法、均值漂移聚类算法、具有噪声的基于密度的聚类算法、用高斯混合模型的最大期望聚类算法以及凝聚层次聚类算法中的一种或者多种。

6.一种数据识别的系统，其特征在于，所述系统包括获取单元、转化单元、聚类单元以及识别单元，其中，

所述获取单元用于获取多个出险记录；

7.根据权利要求6所述的系统，其特征在于，

8.根据权利要求6所述的系统，其特征在于，

所述识别单元具体用于获取所述多个类别组的出险记录；

所述识别单元具体用于基于所述多个类别组的出险记录，使用社交网络分析算法建立出险案件关系网络，其中，一个类别组的出险记录对应一个或者多个出险案件关系网络，所述出险案件关系网络包括多个节点，所述节点代表所述出险记录中的个体、组织或虚拟个体，所述多个节点之间的连线表示所述多个节点之间存在社交关系；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；所述存储器用于存储指令；所述处理器用于调用存储器中的指令，执行如上权利要求1至5中任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至5中任一项所述的方法。