CN109447658A - 反欺诈模型的生成及应用方法、装置、设备及存储介质 - Google Patents
反欺诈模型的生成及应用方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109447658A CN109447658A CN201811051842.4A CN201811051842A CN109447658A CN 109447658 A CN109447658 A CN 109447658A CN 201811051842 A CN201811051842 A CN 201811051842A CN 109447658 A CN109447658 A CN 109447658A
- Authority
- CN
- China
- Prior art keywords
- social network
- training
- node
- network diagram
- objective function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了反欺诈模型的生成及应用方法、装置、设备及存储介质。该生成方法包括:从保险理赔数据库中获取历史数据集,历史数据集包括训练数据集以及测试数据集;根据训练数据集生成训练用目标社交网络图;根据训练用目标社交网络图获取SDNE算法的目标函数,将该目标函数作为第一目标函数;根据第一目标函数及预设约束条件构造第二目标函数;获取第二目标函数的最优超参,并将最优超参作为已知量加入到第二目标函数中以生成最优目标函数;以及利用训练用目标社交网络图训练最优目标函数以生成反欺诈模型。通过实施本方案可以解决现有技术中识别理赔欺诈行为需要依赖人工定义用户行为特征及并未考虑到社交网络中局部及全局结构的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种反欺诈模型的生成及应用方法、装置、设备及存储介质。
背景技术
在保险理赔反欺诈应用场景中,社交网络分析的传统方法是对用户的行为特征的频数进行统计,当统计的用户的某一行为特征的频数高于正常频数范围时挖掘出潜在的欺诈团伙。例如,某一被保险人在一段时间内多次出险,且出险次数明显高于正常出险水平,因此该被保险人可能存在欺诈骗险行为。又例如,某一个身份证号码多次出险在不同的案件中,出险频率明显高于正常出险水平,因此该身份证号码有可能存在欺诈骗险行为。
然而社交网络分析的传统方法有以下两个缺陷,第一,社交网络分析的传统方法需要人工定义用户行为特征,即当用户的哪些行为特征异于正常范围时,则该用户可能涉嫌欺诈骗险行为,进而将这些行为特征定义为涉嫌欺诈的特征变量,这些涉嫌欺诈的特征变量一般是由业务专家或者建模人员根据自身工作经验总结提供。比如,统计案件数据库中任一被保险人在预设时间内的出险次数并设置该预设时间内的正常出险次数或者统计在不同案件中同一身份证号码出现的次数以及设置出现同一身份证号码的正常次数,因此,现有技术中通过对社交网络进行分析以识别欺诈行为的效果依赖于人工定义的用户行为特征。第二,社交网路分析的传统方法没有考虑到社交网络中的局部结构和全局结构,其中,社交网络是一个由个人或社区组成的点状网络拓扑结构。在图论中,局部结构是由一个点和哪些点连接到一起构成;全局结构是由所有不同的点的局部结构构成。社交网络分析的传统方法只是简单统计用户行为特征的频数,没有采用图论的方法,因此没有考虑到社交网络的局部结构和全局结构,无法挖掘出社交网络中隐藏的有价值信息。
发明内容
本发明实施例提供了一种反欺诈模型的生成及应用方法、装置、设备及存储介质,旨在解决通过社交网络分析的传统方法以识别保险理赔案件中欺诈行为需要依赖于人工定义用户行为特征的问题,且可以有效考虑到社交网络结构图中的局部结构以及全局结构,从而挖掘出更多潜在的有价值的信息。
第一方面,本发明实施例提供了一种反欺诈模型的生成方法,其包括:从保险理赔数据库中获取历史数据集,所述历史数据集为所述保险理赔数据库中预设时间范围内的所有案件数据的集合,所述历史数据集包括训练数据集以及测试数据集;根据所述训练数据集生成训练用目标社交网络图;根据所述训练用目标社交网络图获取SDNE算法的目标函数,将该目标函数作为第一目标函数;根据所述第一目标函数以及预设约束条件构造第二目标函数;获取所述第二目标函数的最优超参,并将所述最优超参作为所述第二目标函数的已知量加入到所述第二目标函数中以生成最优目标函数;以及利用所述训练用目标社交网络图训练所述最优目标函数以生成所述反欺诈模型。
第二方面,本发明实施例还提供了一种反欺诈模型的应用方法,其包括:从保险理赔数据库中获取待检测数据集以生成检测用目标社交网络图,所述待检测数据集为保险理赔数据库中任一或多个待检测数据集合;以及利用如第一方面所述的反欺诈模型,将所述检测用目标社交网络图中的节点映射到高维向量空间以供用户根据节点在高维向量空间的映射情况分析该节点是否存在欺诈行为,其中,所述检测用目标社交网络图的任一节点在所述高维向量空间均存在唯一与其对应的向量且关联度越强的节点在高维向量空间中所对应的向量越接近。
第三方面,本发明实施例还提供了一种装置,其包括用于执行上述第一和第二方面的方法的单元。
第四方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一和第二方面的方法。
第五方面,本发明实施例还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现上述第一和第二方面的方法。
本发明实施例提供了一种反欺诈模型的生成及应用方法、装置、设备及存储介质。本发明实施例为了解决在社交网络分析的传统方法中识别保险理赔案件中的欺诈行为需要依赖人工定义用户行为特征的问题,且为了能充分利用社交网络结构图中的局部结构以及全部结构,在对保险理赔社交网络结构图的分析过程中引进了结构化深度网络嵌套(Structural Deep Network Embedding,SDNE)算法,该SDNE算法具有多个非线性函数层,从而能够捕获高度非线性的网络结构,可将社交网络结构图中的局部结构以及全局结构利用起来,并根据保险理赔社交网络结构图的自身特性对该SDNE算法的目标函数进行相应改进以生成反欺诈模型,通过该反欺诈模型实现反团伙欺诈,可解决社交网络传统分析方法需要依赖于人工定义用户行为特征以识别保险理赔案件中欺诈行为的问题,大大提高了识别欺诈行为的准确率,为保险公司挽回损失,且可以有效考虑到社交网络结构图中的局部结构以及全局结构,从而挖掘出更多潜在的有价值的信息。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的反欺诈模型的生成方法的流程示意图;
图2为本发明实施例提供的反欺诈模型的生成方法的子流程示意图;
图3为本发明实施例提供的反欺诈模型的应用方法的流程示意图;
图4为本发明另一实施例提供的反欺诈模型的应用方法的流程示意图;
图5为本发明实施例提供的一种装置的示意性框图;
图6为本发明实施例提供的一种装置的最优函数生成单元的示意性框图;
图7为本发明实施例提供的另一种装置的示意性框图;
图8为本发明另一实施例提供的另一种装置的示意性框图;以及
图9为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,其是本发明实施例提供的反欺诈模型的生成方法的示意性流程图。该反欺诈模型的生成方法应用于保险理赔反团伙欺诈的场景中。如图所示,该方法可包括步骤S110至S160。
S110、从保险理赔数据库中获取历史数据集,所述历史数据集为所述保险理赔数据库中预设时间范围内的所有案件数据的集合,所述历史数据集包括训练数据集以及测试数据集。
具体地,所述历史数据集为所述保险理赔数据库中预设时间内的所有案件的数据集合,其中,将所述历史数据集按预设比例随机划分为训练数据集和测试数据集,即将所述保险理赔数据库中预设时间范围内的所有案件按预设比例进行随机划分。在本实施例中,将所述历史数据集按七三比例随机划分为所述训练数据集和所述测试数据集,其中,所述训练数据集占所述历史数据集百分之七十的案件数,所述测试数据集占所述历史数据集百分之三十的案件数。在一些可行的实施例中,所述预设比例可以根据用户需求进行自定义设置。
S120、根据所述训练数据集生成训练用目标社交网络图。
具体地,所述根据所述训练数据集生成训练用目标社交网络图步骤具体包括以下步骤A以及步骤B:
步骤A:根据所述训练数据集构建训练用原始社交网络图,所构建的训练用原始社交网络图使用有向图G=(V,E)表示,其中,V为所述训练用原始社交网络图的节点集合,E为所述训练用原始社交网络图的边集合,V集合中的每个节点代表所述训练数据集中的一条数据,E集合中的每条边表示一对有序节点(s,t),其中s为源节点,t为目标节点。
步骤B:对所述训练用原始社交网络图进行数据处理以生成训练用目标社交网络图,所述数据处理包括对所述训练用原始社交网络图进行节点筛选以得到同质节点,过滤掉不同质节点;获取与所述同质节点相关的关键节点以及将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图,所生成的训练用目标社交网络图使用图g=(v,e)表示,v为所述训练用目标社交网络图的节点集合,e为所述训练用目标社交网络图的边集合。
在图论中,社交网络结构图由节点和边组成,节点代表对象,边表示的是两个对象的连接关系,通常来说,将图视为一种由“节点”组成的抽象网络,网络中的各节点可以通过“边”实现彼此的连接,表示两节点之间有关联。其中,所述训练数据集为保险理赔数据库中预设时间内的所有理赔案件中占百分之七十案件数的案件相关数据集合,所述理赔案件可以为车险理赔案件、重大疾病理赔案件等,其中以车险理赔案件为例,某一车险理赔案件相关数据主要包括案件号、涉案人员、涉案车辆、相关证件等数据,涉案人员主要包括被保险人、修理厂人员、保险公司人员以及相关交警等,利用某一车险理赔案件的案件号可以将该案件的所有相关数据构建成一个车险理赔案件的社交网络结构图,而所述训练数据集包括多个理赔案件,根据所述训练数据集构建训练用原始社交网络图,则该车险理赔案件社交网络结构图为所述训练用原始社交网络图的局部结构,该训练用原始社交网络图为全局结构,该训练用原始社交网络图主要由所述训练数据集中所有理赔案件的相关数据构建而成,其中,若所述训练数据集中所有理赔案件均为车险理赔案件,则其主要包括案件号、被保险人、修理厂人员、保险公司人员、相关交警、涉案车辆以及相关证件等相关数据,将所构建的训练用原始社交网络图则包括以上相关数据的节点,将所述原始社交网络图使用有向图G=(V,E)表示,其中,V为所述训练用原始社交网络图的节点集合,E为所述训练用原始社交网络图的边集合,V集合中的每个节点对应所述训练数据集中的一条数据,即每个案件号、每个涉案人员以及相关证件等数据均在该训练用原始社交网络图中存在与其相对应的一个节点,E集合中的每条边表示一对有序节点(s,t),其中s为源节点,t为目标节点,由于训练用原始社交网络图中的节点为不同质节点,则任一对节点均可能存在指向关系或者从属关系,例如被保险车辆属于被保险人,因此,该训练用原始社交网络图的节点是不同质,且为有向图。由于SDNE算法的数学运算逻辑要求处理的社交网络结构图中的节点为同质节点且该社交网络图需为无向图,而所述训练用原始社交网络图是由涉案人员、涉案车辆以及相关证件等不同质的节点构建而成,且由于所述节点不同质,该训练用原始社交网络图是有向图,因此需要对所述训练用原始社交网络图进行数据处理以生成只由同质节点构建而成的训练用目标社交网络图。
所述步骤B具体包括:对所述训练用原始社交网络图进行节点筛选以得到同质节点,过滤掉不同质节点;获取与所述同质节点相关的关键节点以及将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图。
具体的,可以将与案件号相关联的涉案人员等节点筛选出来,清洗掉其他无关节点,并将有关联的涉案人员等同质节点通过案件号进行相连,且获取与该同质节点相关的关键节点,该关键节点为其他的需要特别关注的人员数据,例如某个已知的犯罪团伙的成员的数据信息,进而将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图,由于所生成的训练用目标社交网络图中的节点为同质节点,通过边相连的一对节点之间并无指向关系或从属关系,因此,所生成的训练用目标社交网路图是无向的,所生成的训练用目标社交网络图使用图g=(v,e)表示,v为所述训练用目标社交网络图的节点集合,e为所述训练用目标社交网络图的边集合。因此,生成的训练用目标社交网络图可以为只包括涉案人员(或者其他的需要特别关注的人员信息)节点的社交网络图,也可以为只包括涉案车辆或物件节点的社交网络图。
S130、根据所述训练用目标社交网络图获取SDNE算法的目标函数,将该目标函数作为第一目标函数。
具体地,获取的SDNE算法的目标函数由所述训练用目标社交网络图的节点属性所决定,即只包括涉案人员(或者其他的需要特别关注的人员信息)节点的训练用目标社交网络图的目标函数与只包括涉案车辆等节点的训练用目标社交网络图的目标函数是不相同的,因此,根据训练用目标社交网络图获取所述SDNE算法的目标函数,将该目标函数作为第一目标函数,即获取的第一目标函数会因训练用目标社交网络图的节点属性改变而改变。由于该SDNE算法具有多个非线性函数层,从而能够捕获高度非线性的网络结构,可将社交网络结构图中的局部结构以及全局结构利用起来,其中,SDNE算法包括无监督算法和有监督算法,所述无监督算法包括深度信念网络算法、自编码神经网络算法以及深度波尔斯曼神经网络算法,在一实施例中,该社交网络结构图中的局部结构可以用半监督算法捕捉,该全局结构用无监督算法捕捉。
S140、根据所述第一目标函数以及预设约束条件构造第二目标函数。
具体地,所述根据所述第一目标函数以及预设约束条件构造第二目标函数步骤具体包括以下步骤C以及步骤D:
步骤C:获取预设约束条件。
步骤D:将所述预设约束条件作为所述第一目标函数的已知量加入到所述第一目标函数中以构造第二目标函数。
其中,该预设约束条件可由用户根据所述保险理赔数据库中历史数据集的自身特征进行预先设定,例如,预设被保险人一年内的正常出险次数或被保险车一年内的正常出险次数,也可以对以往涉及欺诈行为的案件情况进行分析总结以得出涉及欺诈行为的案件的特征信息,可以将历史数据集的自身特征以及以往欺诈案件的特征信息作为预设约束条件加入到目标函数中以得出新的目标函数,其中,该预设约束条件是作为该目标函数的已知量加入到该目标函数中,因此,该新的目标函数是SDNE算法结合历史数据集的特征情况构造生成的,例如,如果已知某个骗保团伙的成员散布在不同的案件中,但是这些案件并没有关联,可以将该已知的某个骗保团伙的成员的特征信息作为预设条件加入到SDNE算法的目标函数中,该目标函数为第一目标函数,通过将某个骗保团伙的成员信息作为预设约束条件加入到该目标函数中以使得这些看似没有关联的案件关联起来,从而在社交网络结构图中将属于同一骗保团伙的不同成员相互关联起来。因此,可以将获取到的预设约束条件加入到所述第一目标函数中以构造第二目标函数,该预设约束条件可由用户根据自身具体业务应用场景进行自定义设置,所述自定义设置包括在原来预设约束条件的基础上增加新的约束条件、删除约束条件以及修改该约束条件。
S150、获取所述第二目标函数的最优超参,并将所述最优超参作为所述第二目标函数的已知量加入到所述第二目标函数中以生成最优目标函数。
具体地,超参为目标函数中无法求解的未知量,只能通过数据集测试验证得到最优的一组超参,进而将这组最优的超参作为目标函数的已知量加入到该目标函数中,其中,目标函数的超参个数可以为几百个或几十个,且每个超参可以包括多个数值,因此,在发明实施例中,需要通过将多组超参与所述测试用目标社交网络图进行多次交叉试验以找到所述第二目标函数的最优超参,从而将该最优超参作为该第二目标函数的已知量代入该第二目标函数中以生成最优目标函数。
S160、利用所述训练用目标社交网络图训练所述最优目标函数以生成所述反欺诈模型。
具体地,获取所述训练用目标社交网络图,利用所述训练用目标社交网络图训练所述最优目标函数,求解该最优目标函数的未知量,将求解得出的最优目标函数的未知量代入到该最优目标函数中以生成所述反欺诈模型,其中,所述训练用目标社交网络图为训练所述反欺诈模型的训练样本,所述训练用目标社交网络图中的节点信息以邻接矩阵的数据形式输入到所述最优目标函数中以训练得到该反欺诈模型。
在上述实施例中,获取保险理赔数据库中的历史数据集,所述历史数据集包括训练数据集以及测试数据集,根据所述训练数据集生成训练用目标社交网络图,进而根据该训练用目标社交网络图的节点属性获取该SDNE算法相对应的目标函数,将该目标函数作为第一目标函数,由于可以对以往的保险理赔数据库中涉及欺诈行为的案件情况进行分析总结以得出欺诈案件的特征信息,将这些特征信息作为预设约束条件加入到SDNE算法的目标函数中以生成新的目标函数,因此,根据所述第一目标函数以及预设约束条件构造第二目标函数,进而获取该第二目标函数的最优超参以生成最优目标函数,将所述训练用目标社交网络图作为训练反欺诈模型的训练样本,利用该训练用目标社交网络图训练所述最优目标函数以得到所述反欺诈模型,其模型的准确度较高,且模型可信度较高,且利用该反欺诈模型可以实现反团伙欺诈,从而可以解决现有技术中对社交网络图分析以识别保险理赔案件中欺诈行为需要依靠人工定义用户行为特征这一问题,可以将社交网络图的局部结构以及全局结构等信息利用起来,进而挖掘出更多隐藏的信息以及更多潜在的行为模式,可以提高识别欺诈行为的准确率,为公司挽回损失。
在一实施例中,请参阅图2,其是本发明实施例提供的反欺诈模型的生成方法的子流程示意图,如图2所示,所述步骤S150中的获取所述第二目标函数的最优超参的步骤具体包括以下步骤S151-S153。
S151、获取所述第二目标函数的超参。
具体地,获取所述第二目标函数的超参以及该超参所包括的数值。
S152、根据所述测试数据集生成测试用目标社交网络图。
具体地,所述测试数据集为保险理赔数据库中预设时间内的所有理赔案件中占百分之三十案件数的案件相关数据集合。所述步骤S152具体包括以下步骤S1521以及步骤S1522,其中,步骤S1521根据所述测试数据集构建测试用原始社交网路图以及步骤S1522对所述测试用原始社交网络图进行数据处理以生成测试用目标网络图。由于构建测试用原始社交网络图以及生成测试用目标社交网络图方法与步骤S120中构建训练用原始社交网络图以及生成训练用目标社交网络图方法类似,在此不再赘述。
S153、根据所述超参和所述测试用目标社交网络图交叉验证所述第二目标函数,得到最优超参。
具体地,根据获取的所述第二目标函数的超参以及该超参所包括的数值,将该超参与该超参所包括的数值相组合后依次与所述测试用目标社交网络图交叉验证所述第二目标函数,以得到最优超参。例如,若第二目标函数的超参包括两个[a,b],每个超参均包括两个数值[a1,a2]以及[b1,b2],即有4组超参[a1,b1],[a1,b2],[a2,b1],[a2,b2],将这4组超参分别与所述测试用目标社交网络图交叉验证所述第二目标函数,从而获得一组最优超参,进而可以将所述最优超参作为已知量加入到所述第二目标函数中以生成最优目标函数。在此不对第二目标函数的超参的个数进行限制,该第二目标函数的超参可以是上百个或者几十个。其中,所述测试用目标社交网络图为与所述第二目标函数交叉验证以得到最优超参的测试样本,所述测试用目标社交网络图中的节点信息以邻接矩阵的数据形式输入到所述第二目标函数中以得到最优目标函数。
在上述实施例中,由于超参为算法的目标函数不可解的未知量,且超参以及超参所包含的数值的个数为多个,因此需要利用测试数据集即测试用目标社交网络图与多组超参进行交叉验证该目标函数,以得到最优超参,进而可以将该最优超参作为已知量代入该目标函数中,即可得到算法的最优目标函数。
请参阅图3,其是本发明实施例提供的一种反欺诈模型的应用方法的流程示意图。该反欺诈模型的应用方法应用于保险理赔反团伙欺诈的场景中。如图所示,该方法可包括步骤S210-S220。
S210、从保险理赔数据库中获取待检测数据集以生成检测用目标社交网络图,所述待检测数据集为保险理赔数据库中任一或多个待检测数据集合。具体地,该步骤S210中生成检测用目标社交网络图与上述实施例中的步骤S120生成训练用目标社交网络图类似,其主要区别在于从保险理赔数据库中获取的待检测数据集可以是保险理赔数据库中任一案件的数据集或者多个案件的数据集,即保险理赔数据库中的所有案件的数据均可以作为待检测数据集,可以根据所获取的待检测数据集构建检测用目标社交网络图,进而利用基于SDNE算法生成的反欺诈模型测试所述检测用目标社交网络图,从而识别出保险理赔数据库中所有可能存在欺诈行为的案件,实现反团伙欺诈,所述检测用目标社交网络图的构建过程与步骤S120中的训练用目标社交网络图的构建过程类似,在此不再赘述。
S220、利用上述实施例中的步骤S110-S160所生成的反欺诈模型,将所述检测用目标社交网络图中的节点映射到高维向量空间以供用户根据节点在高维向量空间的映射情况分析该节点是否存在欺诈行为,其中,所述检测用目标社交网络图的任一节点在所述高维向量空间均存在唯一与其对应的向量且关联度越强的节点在高维向量空间中所对应的向量越接近。具体地,利用所述反欺诈模型,可以将所述检测用目标社交网络图中的任一节点一一映射到高维向量空间内,且所述任一节点在高维向量空间内均有唯一的向量与其相对应,其中,关联度越强的节点在高维向量空间中所对应的向量越接近,关联度越弱的节点在高维向量空间中所对应的向量越远离,关联度强的节点说明在保险理赔案件中相互较强的关联关系。本发明实施例将检测用目标社交网络图中的节点通过反欺诈模型一一映射到高维向量空间里,在该向量空间中,某些关联度大的节点在向量空间中相互接近,其中,如果存在某一节点为已知的欺诈人员,则与该节点关联度较大的节点存在团伙欺诈的行为的概率较大,即集中在该节点附近的人或车涉及团伙欺诈行为的概率较大,因此,用户可以通过观察某些节点在高维向量空间中的映射情况分析这些节点是否存在欺诈行为,例如,用户在向量空间中可以重点关注已知欺诈人员的节点的附近,观察分析与其关联度强的节点。从而可以解决在社交网络分析的传统方法中识别保险理赔案件中欺诈行为需要依赖人工定义用户行为特征的问题,大大提高了识别欺诈行为的准确率,为保险公司挽回损失,且本发明实施例通过将所有理赔案件数据构建成社交网络图,并通过SDNE算法将所述社交网络图中的节点一一映射到向量空间中,其中,所述检测用目标社交网络图中的节点信息以邻接矩阵的数据形式输入到所述反欺诈模型中,可以有效考虑到社交网络中的局部结构以及全局结构,从而挖掘出更多潜在的有价值的信息。
在上述实施例中,通过从保险理赔数据库中获取待检测数据集以生成检测用目标社交网络图,进而利用步骤S110-S160生成的该反欺诈模型,将所述检测用目标社交网络图中的节点映射到高维向量空间以供用户根据节点在高维向量空间的映射情况分析该节点是否存在欺诈行为,其中,所述检测用目标社交网络图的任一节点在所述高维向量空间均存在唯一与其对应的向量且关联度越强的节点在高维向量空间中所对应的向量越接近,由于在高维向量空间内关联度高的节点相互接近,关联度低的节点相互远离,因此可以重点关注高维向量空间内相互聚集的节点,分析节点之间的关系以挖掘出更多潜在的信息以及潜在的行为模式,例如,如果在相互聚集的节点中存在已知的欺诈惯犯的节点,那么在该节点附近的节点存在欺诈行为的可能性较大。本发明实施例可以解决现有技术中对社交网络图分析以识别保险理赔案件中欺诈行为需要依靠人工定义用户行为特征这一问题,可以将社交网络图的局部结构以及全局结构等信息利用起来,而不是对用户的表面上存在的行为特征的频数进行简单统计以识别反欺诈行为,反欺诈模型的应用方法可以提高识别欺诈行为的准确率,为公司挽回损失。
请参阅图4,其是本发明另一实施例提供的一种反欺诈模型的应用方法的流程示意图。该反欺诈模型的应用方法应用于保险理赔反团伙欺诈的场景中。如图所示,该方法可包括步骤S310-S330。其中步骤S310-S320与上述实施例中的步骤S210-S220类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S330。
S330、根据向量运算算法,对所述高维向量空间的向量进行计算以获取高维向量空间内任意向量之间的关联度,其中,所述向量运算算法包括回归算法、分类算法以及聚类算法。具体地,通过向量运算算法可以对所述高维向量空间的任一向量之间进行计算,从而获取高维向量空间内任意向量之间的关联度,进而可以挖掘出更多潜在的信息以及行为模式,也可以建立清晰的模式和量化指标,进而可以准确刻画用户的行为特征。其中,清晰的模式包括欺诈行为有哪些特征变量,具体地,该特征变量不仅包括可以观察到的特征变量,也包括不可被观察到的特征变量,且可以对这些特征变量产生的影响进行量化,比如通过向量运算算法确定这些特征变量对行为的影响是线性的还是非线性的以及通过对高维向量空间内任一向量进行复杂的向量运算来量化表示这些特征变量所产生的影响。
在上述实施例中,通过从保险理赔数据库中获取待检测数据集以生成检测用目标社交网络图,进而利用步骤S110-S160生成的该反欺诈模型,将所述检测用目标社交网络图中的节点一一映射到高维向量空间,进而根据向量运算算法,对所述高维向量空间的向量进行计算以获取高维向量空间内任意向量之间的关联度。由于待检测数据集的数据在检测用目标社交网络图中以节点的形式展示,无法对图中的节点进行复杂的数学运算,但将社交网络图中的节点映射到高维向量空间内以获得唯一与其对应的向量,就可以对向量空间内的任一向量坐标进行复杂向量运算,进而可以得到任一向量之间的关联度,从而可以为业务人员决策提供量化指标,有利于做出更加科学的决策,加深业务人员对用户行为特征的理解,可以挖掘出更多隐藏的信息以及更多潜在的行为模式。
请参阅图5,其是本发明实施例提供的一种装置300的示意性框图。如图5所示,该装置300对应于图1所示的反欺诈模型的生成方法。该装置300包括用于执行上述反欺诈模型的生成方法的单元,该装置300可以被配置于台式电脑、平板电脑、手提电脑等终端中。具体地,请参阅图5,该装置300包括数据获取单元301、第一建图单元302、函数获取单元303、函数构造单元304、最优函数生成单元305以及模型生成单元306。
所述数据获取单元301用于从保险理赔数据库中获取历史数据集,所述历史数据集为所述保险理赔数据库中预设时间范围内的所有案件数据的集合,所述历史数据集包括训练数据集以及测试数据集。
所述第一建图单元302用于根据所述训练数据集生成训练用目标社交网络图。具体地,所述第一建图单元302包括第一建图子单元3021以及第一数据处理单元3022。
所述第一建图子单元3021用于根据所述训练数据集构建训练用原始社交网络图,所构建的训练用原始社交网络图使用有向图G=(V,E)表示,其中,V为所述训练用原始社交网络图的节点集合,E为所述训练用原始社交网络图的边集合,V集合中的每个节点代表所述训练数据集中的一条数据,E集合中的每条边表示一对有序节点(s,t),其中s为源节点,t为目标节点。
所述第一数据处理单元3022用于对所述训练用原始社交网络图进行数据处理以生成训练用目标社交网络图,所述数据处理包括对所述训练用原始社交网络图进行节点筛选以得到同质节点,过滤掉不同质节点;获取与所述同质节点相关的关键节点以及将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图,所生成的训练用目标社交网络图使用图g=(v,e)表示,v为所述训练用目标社交网络图的节点集合,e为所述训练用目标社交网络图的边集合。
其中,所述训练数据集为保险理赔数据库中预设时间内的所有理赔案件中占百分之七十案件数的案件相关数据集合,所述理赔案件可以为车险理赔案件、重大疾病理赔案件等,其中以车险理赔案件为例,利用某一车险理赔案件的案件号可以将该案件的所有相关数据构建成一个车险理赔案件的社交网络结构图,而所述训练数据集包括多个理赔案件,根据所述训练数据集构建训练用原始社交网络图,则该车险理赔案件社交网络结构图为所述训练用原始社交网络图的局部结构,该训练用原始社交网络图为全局结构,该训练用原始社交网络图主要由所述训练数据集中所有理赔案件的相关数据构建而成,其中,若所述训练数据集中所有理赔案件均为车险理赔案件,则其主要包括案件号、被保险人、修理厂人员、保险公司人员、相关交警、涉案车辆以及相关证件等相关数据,将所构建的训练用原始社交网络图则包括以上相关数据的节点,将所述原始社交网络图使用有向图G=(V,E)表示,其中,V为所述训练用原始社交网络图的节点集合,E为所述训练用原始社交网络图的边集合,V集合中的每个节点对应所述训练数据集中的一条数据,即每个案件号、每个涉案人员以及相关证件等数据均在该训练用原始社交网络图中存在与其相对应的一个节点,E集合中的每条边表示一对有序节点(s,t),其中s为源节点,t为目标节点,由于训练用原始社交网络图中的节点为不同质节点,则任一对节点均可能存在指向关系或者从属关系,例如被保险车辆属于被保险人,因此,该训练用原始社交网络图的节点是不同质,且为有向图。由于SDNE算法的数学运算逻辑要求处理的社交网络结构图中的节点为同质节点且该社交网络图需为无向图,而所述训练用原始社交网络图是由涉案人员、涉案车辆以及相关证件等不同质的节点构建而成,且由于所述节点不同质,该训练用原始社交网络图是有向图,因此需要对所述训练用原始社交网络图进行数据处理以生成只由同质节点构建而成的训练用目标社交网络图。所述步骤B具体包括:对所述训练用原始社交网络图进行节点筛选以得到同质节点,过滤掉不同质节点;获取与所述同质节点相关的关键节点以及将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图。具体的,可以将与案件号相关联的涉案人员等节点筛选出来,清洗掉其他无关节点,并将有关联的涉案人员等同质节点通过案件号进行相连,且获取与该同质节点相关的关键节点,该关键节点为其他的需要特别关注的人员数据,例如某个已知的犯罪团伙的成员的数据信息,进而将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图,由于所生成的训练用目标社交网络图中的节点为同质节点,通过边相连的一对节点之间并无指向关系或从属关系,因此,所生成的训练用目标社交网路图是无向的,所生成的训练用目标社交网络图使用图g=(v,e)表示,v为所述训练用目标社交网络图的节点集合,e为所述训练用目标社交网络图的边集合。因此,生成的训练用目标社交网络图可以为只包括涉案人员(或者其他的需要特别关注的人员信息)节点的社交网络图,也可以为只包括涉案车辆或物件节点的社交网络图。
所述函数获取单元303用于根据所述训练用目标社交网络图获取SDNE算法的目标函数,将该目标函数作为第一目标函数。
具体地,获取的SDNE算法的目标函数由所述训练用目标社交网络图的节点属性所决定,即只包括涉案人员(或者其他的需要特别关注的人员信息)节点的训练用目标社交网络图的目标函数与只包括涉案车辆等节点的训练用目标社交网络图的目标函数是不相同的。其中,SDNE算法包括无监督算法和有监督算法,所述无监督算法包括深度信念网络算法、自编码神经网络算法以及深度波尔斯曼神经网络算法。
所述函数构造单元304用于根据所述第一目标函数以及预设约束条件构造第二目标函数。具体地,所述函数构造单元304包括条件获取单元3041以及函数构造子单元3042。
所述条件获取单元3041用于获取预设约束条件。
所述函数构造子单元3042用于将所述预设约束条件作为所述第一目标函数的已知量加入到所述第一目标函数中以构造第二目标函数。
其中,该预设约束条件可根据所述保险理赔数据库中历史数据集的自身特征进行设定,例如,预设被保险人一年内的正常出险次数或被保险车一年内的正常出险次数,也可以对以往涉及欺诈行为的案件情况进行分析总结以得出涉及欺诈行为的案件的特征信息,可以将历史数据集的自身特征以及以往欺诈案件的特征信息作为预设约束条件加入到目标函数中以得出新的目标函数,其中,该预设约束条件是作为该目标函数的已知量加入到该目标函数中,因此,该新的目标函数是SDNE算法结合历史数据集的特征情况构造生成的。该预设约束条件可由用户根据自身具体业务应用场景进行自定义设置,所述自定义设置包括在原来预设约束条件的基础上增加新的约束条件、删除约束条件以及修改该约束条件。
所述最优函数生成单元305用于获取所述第二目标函数的最优超参,并将所述最优超参作为所述第二目标函数的已知量加入到所述第二目标函数中以生成最优目标函数。
具体地,超参为目标函数中无法求解的未知量,只能通过数据集测试验证得到最优的一组超参,进而将这组最优的超参作为目标函数的已知量加入到该目标函数中,其中,目标函数的超参个数可以为几百个或几十个,且每个超参可以包括多个数值。
所述模型生成单元306用于利用所述训练用目标社交网络图训练所述最优目标函数以生成所述反欺诈模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述装置300和各单元的具体实现过程以及效果,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
在一实施例中,如图6所示,其是本发明实施例提供的一种装置的最优函数生成单元305的示意性框图,所述最优函数生成单元305包括超参获取单元3051、第二建图单元3052以及函数验证单元3053。
所述超参获取单元3051用于获取所述第二目标函数的超参。具体地,获取所述第二目标函数的超参以及该超参所包括的数值。
所述第二建图单元3052用于根据所述测试数据集生成测试用目标社交网络图。
具体地,所述测试数据集为保险理赔数据库中预设时间内的所有理赔案件中占百分之三十案件数的案件相关数据集合,所述第二建图单元3052与上述实施例中的第一建图单元302类似,还用于根据所述测试数据集构建测试用原始社交网路图以及用于对所述测试用原始社交网络图进行数据处理以生成测试用目标网络图。
所述函数验证单元3053用于根据所述超参和所述测试用目标社交网络图交叉验证所述第二目标函数,得到最优超参。
具体地,所述函数验证单元3053用于根据所述超参获取单元3051获取的所述第二目标函数的超参以及该超参所包括的数值,将该超参与该超参所包括的数值相组合后依次与所述测试用目标社交网络图交叉验证所述第二目标函数,以得到最优超参。在此不对第二目标函数的超参的个数进行限制,该第二目标函数的超参可以是上百个或者几十个。
在上述实施例中,由于超参为算法的目标函数不可解的未知量,且超参以及超参所包含的数值的个数为多个,因此需要利用测试数据集即测试用目标社交网络图与多组超参进行交叉验证该目标函数,以得到最优超参,进而可以将该最优超参作为已知量代入该目标函数中,即可得到算法的最优目标函数。
请参阅图7,其是本发明实施例提供的另一种装置400的示意性框图。如图7所示,该另一种装置400对应于图3所示的反欺诈模型的应用方法。该另一种装置400包括用于执行上述反欺诈模型的应用方法的单元,该另一种装置400可以被配置于台式电脑、平板电脑、手提电脑等终端中。具体地,请参阅图7,该另一种装置400包括第三建图单元401以及节点映射单元402。
所述第三建图单元401用于从保险理赔数据库中获取待检测数据集以生成检测用目标社交网络图,所述待检测数据集为保险理赔数据库中任一或多个待检测数据集合。
具体地,该第三建图单元401与上述实施例中的第一建图单元302类似,该第三建图单元401具体包括第三建图子单元4011以及第三数据处理单元4012,其主要区别在于所述第三建图子单元4011从保险理赔数据库中获取的待检测数据集可以为保险理赔数据库中任一案件数据或多个待检测数据集合,即保险理赔数据库中的所有案件的数据均可以作为待检测数据集,可以根据该待检测数据集构建检测用目标社交网络图,进而利用基于SDNE算法生成的反欺诈模型测试所述检测用目标社交网络图,从而识别出保险理赔数据库中所有可能存在欺诈行为的案件,实现反团伙欺诈,所述第三建图单元401的应用过程以及相应功能与所述第一建图单元302类似,在此不再赘述。
所述节点映射单元402用于利用上述实施例中的步骤S110-S160所生成的反欺诈模型,将所述检测用目标社交网络图中的节点映射到高维向量空间以供用户根据节点在高维向量空间的映射情况分析该节点是否存在欺诈行为,其中,所述检测用目标社交网络图的任一节点在所述高维向量空间均存在唯一与其对应的向量且关联度越强的节点在高维向量空间中所对应的向量越接近。
具体地,所述节点映射单元402用于利用所述反欺诈模型,可以将所述检测用目标社交网络图中的任一节点一一映射到高维向量空间内,且所述任一节点在高维向量空间内均有唯一的向量与其相对应,其中,关联度越强的节点在高维向量空间中所对应的向量越接近,关联度越弱的节点在高维向量空间中所对应的向量越远离,关联度强的节点说明在保险理赔案件中相互较强的关联关系。本发明实施例将检测用目标社交网络图中的节点通过反欺诈模型一一映射到高维向量空间里,在该向量空间中,某些关联度大的节点在向量空间中相互接近,其中,如果存在某一节点为已知的欺诈人员,则与该节点关联度较大的节点存在团伙欺诈的行为的概率较大,即集中在该节点附近的人或车涉及团伙欺诈行为的概率较大,因此,用户可以通过观察某些节点在高维向量空间中的映射情况分析这些节点是否存在欺诈行为,例如,用户在向量空间中可以重点关注已知欺诈人员的节点的附近,观察分析与其关联度强的节点。从而可以解决在社交网络分析的传统方法中识别保险理赔案件中欺诈行为需要依赖人工定义用户行为特征的问题,大大提高了识别欺诈行为的准确率,为保险公司挽回损失,且本发明实施例通过将所有理赔案件数据构建成社交网络图,并通过SDNE算法将所述社交网络图中的节点一一映射到向量空间中,其中,所述检测用目标社交网络图中的节点信息以邻接矩阵的数据形式输入到所述反欺诈模型中,可以有效考虑到社交网络中的局部结构以及全局结构,从而挖掘出更多潜在的有价值的信息。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述装置400和各单元的具体实现过程以及效果,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
请参阅图8,其是本发明另一实施例提供的另一种装置500的示意性框图。如图8所示,本发明另一实施例提供的另一种装置500是在上述实施例的基础上增加了向量运算单元503,即所述装置500包括第四建图单元501、节点映射单元502以及向量运算单元503。其中,该第四建图单元501与上述实施例中的第三建图单元402类似,该第四建图单元501具体包括第四建图子单元5011以及第四数据处理单元5012,由于所述第四建图单元501以及节点映射单元502的应用过程以及相应功能与所述第三建图单元402以及节点映射单元402类似,在此不再赘述。
所述向量运算单元503用于根据向量运算算法,对所述高维向量空间的向量进行计算以获取高维向量空间内任意向量之间的关联度,其中,所述向量运算算法包括回归算法、分类算法以及聚类算法。
具体地,通过向量运算算法可以对所述高维向量空间的任一向量之间进行计算,从而获取高维向量空间内任意向量之间的关联度,进而可以挖掘出更多潜在的信息以及行为模式,也可以建立清晰的模式和量化指标,进而可以准确刻画用户的行为特征。其中,清晰的模式包括欺诈行为有哪些特征变量,具体地,该特征变量不仅包括可以观察到的特征变量,也包括不可被观察到的特征变量,且可以对这些特征变量产生的影响进行量化,比如通过向量运算算法确定这些特征变量对行为的影响是线性的还是非线性的以及通过对高维向量空间内任一向量进行复杂的向量运算来量化表示这些特征变量所产生的影响。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述装置500和各单元的具体实现过程以及效果,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述装置可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,其是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备600可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑和个人数字助理等电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图9,该计算机设备600包括通过系统总线601连接的处理器602、存储器和网络接口605,其中,存储器可以包括非易失性存储介质603和内存储器604。
该非易失性存储介质603可存储操作系统6031和计算机程序6032。该计算机程序6032包括程序指令,该程序指令被执行时,可使得处理器602执行一种反欺诈模型的生成及应用方法。
该处理器602用于提供计算和控制能力,以支撑整个计算机设备600的运行。
该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境,该计算机程序6032被处理器602执行时,可使得处理器602执行一种反欺诈模型的生成及应用方法。
该网络接口605用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备600的限定,具体的计算机设备600可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器602用于运行存储在存储器中的计算机程序6032,以实现如下步骤:
在一实施例中,处理器602在实现所述反欺诈模型的生成方法时,具体实现如下步骤:从保险理赔数据库中获取历史数据集,所述历史数据集为所述保险理赔数据库中预设时间范围内的所有案件数据的集合,所述历史数据集包括训练数据集以及测试数据集;根据所述训练数据集生成训练用目标社交网络图;根据所述训练用目标社交网络图获取SDNE算法的目标函数,将该目标函数作为第一目标函数;根据所述第一目标函数以及预设约束条件构造第二目标函数;获取所述第二目标函数的最优超参,并将所述最优超参作为所述第二目标函数的已知量加入到所述第二目标函数中以生成最优目标函数;以及利用所述训练用目标社交网络图训练所述最优目标函数以生成所述反欺诈模型。
在一实施例中,处理器602在实现所述根据所述训练数据集生成训练用目标社交网络图的步骤时,具体实现如下步骤:根据所述训练数据集构建训练用原始社交网络图,所构建的训练用原始社交网络图使用有向图G=(V,E)表示,其中,V为所述训练用原始社交网络图的节点集合,E为所述训练用原始社交网络图的边集合,V集合中的每个节点代表所述训练数据集中的一条数据,E集合中的每条边表示一对有序节点(s,t),其中s为源节点,t为目标节点;以及对所述训练用原始社交网络图进行数据处理以生成训练用目标社交网络图,所述数据处理包括对所述训练用原始社交网络图进行节点筛选以得到同质节点,过滤掉不同质节点;获取与所述同质节点相关的关键节点以及将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图,所生成的训练用目标社交网络图使用图g=(v,e)表示,v为所述训练用目标社交网络图的节点集合,e为所述训练用目标社交网络图的边集合。
在一实施例中,处理器602在实现所述根据所述第一目标函数以及预设约束条件构造第二目标函数的步骤时,具体实现如下步骤:获取预设约束条件;以及将所述预设约束条件作为所述第一目标函数的已知量加入到所述第一目标函数中以构造第二目标函数。
在一实施例中,处理器602在实现所述获取所述第二目标函数的最优超参的步骤时,具体实现如下步骤:获取所述第二目标函数的超参;根据所述测试数据集生成测试用目标社交网络图;以及根据所述超参和所述测试用目标社交网络图交叉验证所述第二目标函数,得到最优超参。
在一实施例中,处理器602在实现所述反欺诈模型的应用方法时,具体实现如下步骤:从保险理赔数据库中获取待检测数据集以生成检测用目标社交网络图,所述待检测数据集为保险理赔数据库中任一或多个待检测数据集合;以及利用已生成的反欺诈模型,将所述检测用目标社交网络图中的节点映射到高维向量空间以供用户根据节点在高维向量空间的映射情况分析该节点是否存在欺诈行为,其中,所述检测用目标社交网络图的任一节点在所述高维向量空间均存在唯一与其对应的向量且关联度越强的节点在高维向量空间中所对应的向量越接近。
在一实施例中,处理器602在实现所述将所述检测用目标社交网络图中的节点映射到高维向量空间的步骤之后,具体还实现如下步骤:根据向量运算算法,对所述高维向量空间的向量进行计算以获取高维向量空间内任意向量之间的关联度,其中,所述向量运算算法包括回归算法、分类算法以及聚类算法。
应当理解,在本发明实施例中,处理器602可以是中央处理单元(CentralProcessing Unit,CPU),该处理器602还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。所述存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:
在一实施例中,所述处理器在执行所述程序指令而实现所述反欺诈模型的生成方法时,具体实现如下步骤:从保险理赔数据库中获取历史数据集,所述历史数据集为所述保险理赔数据库中预设时间范围内的所有案件数据的集合,所述历史数据集包括训练数据集以及测试数据集;根据所述训练数据集生成训练用目标社交网络图;根据所述训练用目标社交网络图获取SDNE算法的目标函数,将该目标函数作为第一目标函数;根据所述第一目标函数以及预设约束条件构造第二目标函数;获取所述第二目标函数的最优超参,并将所述最优超参作为所述第二目标函数的已知量加入到所述第二目标函数中以生成最优目标函数;以及利用所述训练用目标社交网络图训练所述最优目标函数以生成所述反欺诈模型。
在一实施例中,所述处理器在执行所述程序指令而实现所述根据所述训练数据集生成训练用目标社交网络图的步骤时,具体实现如下步骤:根据所述训练数据集构建训练用原始社交网络图,所构建的训练用原始社交网络图使用有向图G=(V,E)表示,其中,V为所述训练用原始社交网络图的节点集合,E为所述训练用原始社交网络图的边集合,V集合中的每个节点代表所述训练数据集中的一条数据,E集合中的每条边表示一对有序节点(s,t),其中s为源节点,t为目标节点;以及对所述训练用原始社交网络图进行数据处理以生成训练用目标社交网络图,所述数据处理包括对所述训练用原始社交网络图进行节点筛选以得到同质节点,过滤掉不同质节点;获取与所述同质节点相关的关键节点以及将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图,所生成的训练用目标社交网络图使用图g=(v,e)表示,v为所述训练用目标社交网络图的节点集合,e为所述训练用目标社交网络图的边集合。
在一实施例中,所述处理器在执行所述程序指令而实现所述根据所述第一目标函数以及预设约束条件构造第二目标函数的步骤时,具体实现如下步骤:获取预设约束条件;以及将所述预设约束条件作为所述第一目标函数的已知量加入到所述第一目标函数中以构造第二目标函数。
在一实施例中,所述处理器在执行所述程序指令而实现所述所述获取所述第二目标函数的最优超参的步骤时,具体实现如下步骤:获取所述第二目标函数的超参;根据所述测试数据集生成测试用目标社交网络图;以及根据所述超参和所述测试用目标社交网络图交叉验证所述第二目标函数,得到最优超参。
在一实施例中,所述处理器在执行所述程序指令而实现所述反欺诈模型的应用方法时,具体实现如下步骤:从保险理赔数据库中获取待检测数据集以生成检测用目标社交网络图,所述待检测数据集为保险理赔数据库中任一或多个待检测数据集合;以及利用已生成的反欺诈模型,将所述检测用目标社交网络图中的节点映射到高维向量空间以供用户根据节点在高维向量空间的映射情况分析该节点是否存在欺诈行为,其中,所述检测用目标社交网络图的任一节点在所述高维向量空间均存在唯一与其对应的向量且关联度越强的节点在高维向量空间中所对应的向量越接近。
在一实施例中,所述处理器在执行所述程序指令而实现所述将所述检测用目标社交网络图中的节点映射到高维向量空间的步骤之后,还实现如下步骤:根据向量运算算法,对所述高维向量空间的向量进行计算以获取高维向量空间内任意向量之间的关联度,其中,所述向量运算算法包括回归算法、分类算法以及聚类算法。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种反欺诈模型的生成方法,其特征在于,包括:
从保险理赔数据库中获取历史数据集,所述历史数据集为所述保险理赔数据库中预设时间范围内的所有案件数据的集合,所述历史数据集包括训练数据集以及测试数据集;
根据所述训练数据集生成训练用目标社交网络图;
根据所述训练用目标社交网络图获取SDNE算法的目标函数,将该目标函数作为第一目标函数;
根据所述第一目标函数以及预设约束条件构造第二目标函数;
获取所述第二目标函数的最优超参,并将所述最优超参作为所述第二目标函数的已知量加入到所述第二目标函数中以生成最优目标函数;以及
利用所述训练用目标社交网络图训练所述最优目标函数以生成所述反欺诈模型。
2.根据权利要求1所述的反欺诈模型的生成方法,其特征在于,所述根据所述训练数据集生成训练用目标社交网络图,包括:
根据所述训练数据集构建训练用原始社交网络图,所构建的训练用原始社交网络图使用有向图G=(V,E)表示,其中,V为所述训练用原始社交网络图的节点集合,E为所述训练用原始社交网络图的边集合,V集合中的每个节点代表所述训练数据集中的一条数据,E集合中的每条边表示一对有序节点(s,t),其中s为源节点,t为目标节点;以及
对所述训练用原始社交网络图进行数据处理以生成训练用目标社交网络图,所述数据处理包括对所述训练用原始社交网络图进行节点筛选以得到同质节点,过滤掉不同质节点;获取与所述同质节点相关的关键节点以及将所述关键节点添加到所述同质节点中以生成训练用目标社交网络图,所生成的训练用目标社交网络图使用图g=(v,e)表示,v为所述训练用目标社交网络图的节点集合,e为所述训练用目标社交网络图的边集合。
3.根据权利要求1所述的反欺诈模型的生成方法,其特征在于,所述根据所述第一目标函数以及预设约束条件构造第二目标函数,包括:
获取预设约束条件;以及
将所述预设约束条件作为所述第一目标函数的已知量加入到所述第一目标函数中以构造第二目标函数。
4.根据权利要求1所述的反欺诈模型的生成方法,其特征在于,所述获取所述第二目标函数的最优超参,包括:
获取所述第二目标函数的超参;
根据所述测试数据集生成测试用目标社交网络图;以及
根据所述超参和所述测试用目标社交网络图交叉验证所述第二目标函数,得到最优超参。
5.根据权利要求1所述的反欺诈模型的生成方法,其特征在于,所述SDNE算法包括无监督算法和有监督算法,所述无监督算法包括深度信念网络算法、自编码神经网络算法以及深度波尔斯曼神经网络算法。
6.一种反欺诈模型的应用方法,其特征在于,包括:
从保险理赔数据库中获取待检测数据集以生成检测用目标社交网络图,所述待检测数据集为保险理赔数据库中任一或多个待检测数据集合;以及
利用权利要求1-5任一项所述的反欺诈模型,将所述检测用目标社交网络图中的节点映射到高维向量空间以供用户根据节点在高维向量空间的映射情况分析该节点是否存在欺诈行为,其中,所述检测用目标社交网络图的任一节点在所述高维向量空间均存在唯一与其对应的向量且关联度越强的节点在高维向量空间中所对应的向量越接近。
7.根据权利要求6所述的反欺诈模型的应用方法,其特征在于,所述将所述检测用目标社交网络图中的节点映射到高维向量空间的步骤之后,还包括:
根据向量运算算法,对所述高维向量空间的向量进行计算以获取高维向量空间内任意向量之间的关联度,其中,所述向量运算算法包括回归算法、分类算法以及聚类算法。
8.一种装置,其特征在于,包括用于执行如权利要求1-7任一项所述方法的单元。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811051842.4A CN109447658A (zh) | 2018-09-10 | 2018-09-10 | 反欺诈模型的生成及应用方法、装置、设备及存储介质 |
PCT/CN2018/124819 WO2020052168A1 (zh) | 2018-09-10 | 2018-12-28 | 反欺诈模型的生成及应用方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811051842.4A CN109447658A (zh) | 2018-09-10 | 2018-09-10 | 反欺诈模型的生成及应用方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109447658A true CN109447658A (zh) | 2019-03-08 |
Family
ID=65533265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811051842.4A Pending CN109447658A (zh) | 2018-09-10 | 2018-09-10 | 反欺诈模型的生成及应用方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109447658A (zh) |
WO (1) | WO2020052168A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147389A (zh) * | 2019-03-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 帐号处理方法和装置、存储介质及电子装置 |
CN110263106A (zh) * | 2019-06-25 | 2019-09-20 | 中国人民解放军国防科技大学 | 协同舆论欺诈检测方法和装置 |
CN110490750A (zh) * | 2019-07-23 | 2019-11-22 | 平安科技(深圳)有限公司 | 数据识别的方法、系统、电子设备及计算机存储介质 |
CN110648243A (zh) * | 2019-08-20 | 2020-01-03 | 中国平安财产保险股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN111143684A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的泛化模型的训练方法及装置 |
CN111447179A (zh) * | 2020-03-03 | 2020-07-24 | 中山大学 | 一种针对以太网钓鱼诈骗的网络表示学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292424A (zh) * | 2017-06-01 | 2017-10-24 | 四川新网银行股份有限公司 | 一种基于复杂社交网络的反欺诈和信用风险预测方法 |
CN107943879A (zh) * | 2017-11-14 | 2018-04-20 | 上海维信荟智金融科技有限公司 | 基于社交网络的欺诈团体检测方法及系统 |
CN108334647A (zh) * | 2018-04-12 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 保险欺诈识别的数据处理方法、装置、设备及服务器 |
CN108364233A (zh) * | 2018-01-12 | 2018-08-03 | 中国平安人寿保险股份有限公司 | 一种保单风险评估方法、装置、终端设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10891693B2 (en) * | 2015-10-15 | 2021-01-12 | International Business Machines Corporation | Method and system to determine auto insurance risk |
CN106600423A (zh) * | 2016-11-18 | 2017-04-26 | 云数信息科技(深圳)有限公司 | 基于机器学习的车险数据处理方法、车险欺诈识别方法及装置 |
CN108257033A (zh) * | 2018-01-12 | 2018-07-06 | 中国平安人寿保险股份有限公司 | 一种保单分析方法、装置、终端设备及存储介质 |
-
2018
- 2018-09-10 CN CN201811051842.4A patent/CN109447658A/zh active Pending
- 2018-12-28 WO PCT/CN2018/124819 patent/WO2020052168A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292424A (zh) * | 2017-06-01 | 2017-10-24 | 四川新网银行股份有限公司 | 一种基于复杂社交网络的反欺诈和信用风险预测方法 |
CN107943879A (zh) * | 2017-11-14 | 2018-04-20 | 上海维信荟智金融科技有限公司 | 基于社交网络的欺诈团体检测方法及系统 |
CN108364233A (zh) * | 2018-01-12 | 2018-08-03 | 中国平安人寿保险股份有限公司 | 一种保单风险评估方法、装置、终端设备及存储介质 |
CN108334647A (zh) * | 2018-04-12 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 保险欺诈识别的数据处理方法、装置、设备及服务器 |
Non-Patent Citations (1)
Title |
---|
崔鹏 等: "Structural Deep Network Embedding", 《KDD "16: PROCEEDINGS OF THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147389A (zh) * | 2019-03-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 帐号处理方法和装置、存储介质及电子装置 |
CN110147389B (zh) * | 2019-03-14 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 帐号处理方法和装置、存储介质及电子装置 |
CN110263106A (zh) * | 2019-06-25 | 2019-09-20 | 中国人民解放军国防科技大学 | 协同舆论欺诈检测方法和装置 |
CN110490750A (zh) * | 2019-07-23 | 2019-11-22 | 平安科技(深圳)有限公司 | 数据识别的方法、系统、电子设备及计算机存储介质 |
CN110490750B (zh) * | 2019-07-23 | 2022-10-28 | 平安科技(深圳)有限公司 | 数据识别的方法、系统、电子设备及计算机存储介质 |
CN110648243A (zh) * | 2019-08-20 | 2020-01-03 | 中国平安财产保险股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN111143684A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的泛化模型的训练方法及装置 |
CN111143684B (zh) * | 2019-12-30 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的泛化模型的训练方法及装置 |
CN111447179A (zh) * | 2020-03-03 | 2020-07-24 | 中山大学 | 一种针对以太网钓鱼诈骗的网络表示学习方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020052168A1 (zh) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447658A (zh) | 反欺诈模型的生成及应用方法、装置、设备及存储介质 | |
CN109461078A (zh) | 一种基于资金交易网络的异常交易识别方法及系统 | |
CN109859054A (zh) | 网络社团挖掘方法、装置、计算机设备及存储介质 | |
CN109118119A (zh) | 风控模型生成方法及装置 | |
CN109872232A (zh) | 涉及非法所得合法化行为的账户分类方法、装置、计算机设备及存储介质 | |
CN110135913A (zh) | 店铺选址模型的训练方法、店铺选址方法及装置 | |
CN110363407A (zh) | 基于用户行为轨迹的欺诈风险评估方法及装置 | |
Umayaparvathi et al. | Attribute selection and customer churn prediction in telecom industry | |
CN107729915A (zh) | 用于确定机器学习样本的重要特征的方法及系统 | |
CN109711424A (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN113342939B (zh) | 数据质量监控方法、装置及相关设备 | |
CN113516417A (zh) | 基于智能建模的业务评估方法、装置、电子设备及介质 | |
CN115062734A (zh) | 可输出解释性信息的风控建模方法、装置、设备及介质 | |
CN103942739A (zh) | 建筑项目风险知识库的构建方法 | |
Dimitriou et al. | Exploring the temporal stability of global road safety statistics | |
CN112581271B (zh) | 一种商户交易风险监测方法、装置、设备及存储介质 | |
Khan et al. | Analysis of tree-family machine learning techniques for risk prediction in software requirements | |
CN109948681A (zh) | 异常数据检测方法与装置 | |
CN113127955A (zh) | 一种建筑抗震性能评估方法、系统、装置及存储介质 | |
CN113835947A (zh) | 一种基于异常识别结果确定异常原因的方法和系统 | |
Ganesha et al. | The best fit process model for the utilization of the physical resources in hospitals by applying inductive visual miner | |
Croicu et al. | A fast spatial multiple imputation procedure for imprecise armed conflict events | |
Bodaghi et al. | The detection of professional fraud in automobile insurance using social network analysis | |
CN111932131B (zh) | 业务数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |