CN113487109B - 群体识别方法、装置、电子设备及存储介质 - Google Patents
群体识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113487109B CN113487109B CN202110855561.XA CN202110855561A CN113487109B CN 113487109 B CN113487109 B CN 113487109B CN 202110855561 A CN202110855561 A CN 202110855561A CN 113487109 B CN113487109 B CN 113487109B
- Authority
- CN
- China
- Prior art keywords
- target
- node
- graph
- group
- isomorphic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000010586 diagram Methods 0.000 claims abstract description 115
- 238000007499 fusion processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 26
- 238000013058 risk prediction model Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 9
- 238000007477 logistic regression Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种群体识别方法、装置、电子设备及存储介质,应用于数据分析技术领域。其中方法包括:从理赔案件中抽取多个目标实体以及多个目标实体之间的关联事件,并基于多个目标实体和关联事件生成多个同构图,从多个同构图中确定出主图,并对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图,将目标图划分为至少一个子图,确定至少一个子图中每个子图对应的目标群体的群体特征,确定至少一个子图中每个子图对应的目标群体的群体特征,将各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。采用本申请,可以提高欺诈群体识别效率。本申请涉及区块链技术,如可将至少一个子图等写入区块链。
Description
技术领域
本申请涉及数据分析技术领域,具体涉及一种群体识别方法、装置、电子设备及存储介质。
背景技术
目前,针对理赔案件的欺诈模式不再仅限于个体行为模式,逐渐从单一的个体欺诈已迅速演变成有组织、有规模的群体欺诈,甚至可能造成重大经济损失。可见,欺诈群体的识别十分重要。传统的欺诈识别手段通常是通过从单个理赔案件中分析疑似欺诈的个体行为,并基于个体行为之间的共性实现欺诈群体的识别。然而,个体行为之间的共性并不显著,难以识别,从而导致识别效率十分低下。
发明内容
本申请实施例提供了一种群体识别方法、装置、电子设备及存储介质,可以提高欺诈群体的识别效率。
一方面,本申请实施例提供了一种群体识别方法,该方法包括:
从理赔案件中抽取多个目标实体以及所述多个目标实体之间的关联事件,并基于所述多个目标实体和所述多个目标实体之间的关联事件生成多个同构图;
从所述多个同构图中确定出主图,并对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图;
将所述目标图划分为至少一个子图;
确定所述至少一个子图中每个子图对应的目标群体的群体特征;
利用所述风险预测模型根据所述群体特征进行欺诈风险预测,得到各目标群体的风险值;
将所述各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。
在一种可能的实施方式中,所述从所述多个同构图中确定主图,包括:
确定所述多个同构图中每个同构图对应的节点数和边数之和;
根据所述每个同构图对应的节点数和边数之和,从所述多个同构图中确定出对应的节点数和边数之和最大的同构图以作为所述主图。
在一种可能的实施方式中,所述对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图,包括:
从所述多个同构图中除所述主图以外的同构图中,确定出与所述主图中的第一节点关联的节点以及与所述主图中与所述第一节点相连的第二节点关联的节点;
将所述第一节点关联的节点的信息以及所述第二节点关联的节点的信息,添加至所述第一节点与所述第二节点之间的边的属性中,得到更新了所述边的属性的主图;
根据所述更新了所述边的属性的主图确定所述目标图。
在一种可能的实施方式中,所述根据所述更新了所述边的属性的主图确定所述目标图,包括:
确定所述第一节点关联的节点在所述除所述主图以外的同构图中所连接的第一数量个边中每个边的权重;
确定所述第二节点关联的节点在所述除所述主图以外的同构图中所连接的第二数量个边中每个边的权重;
利用所述第一数量个边中每个边的权重、所述第二数量个边中每个边的权重,对所述更新了所述边的属性的主图中的所述边的初始权重进行更新,得到更新了所述边的属性且更新了所述边的权重的主图;
将所述更新了所述边的属性且更新了所述边的权重的主图确定为所述目标图。
在一种可能的实施方式中,在所述第一节点关联的节点与所述第二节点关联的节点相连时,所述第一数量个边不包括所述第一节点关联的节点与所述第二节点关联的节点之间的边,以及所述第二数量个边不包括所述第一节点关联的节点与所述第二节点关联的节点之间的边。
在一种可能的实施方式中,所述确定所述至少一个子图中每个子图对应的目标群体的群体特征,包括:
根据所述至少一个子图中每个子图的各个节点的信息和各个边的属性,确定所述每个子图对应的目标群体的初始特征;
对所述每个子图对应的目标群体的初始特征进行特征工程处理,得到所述每个子图对应的目标群体的群体特征。
在一种可能的实施方式中,所述方法还包括:
获取所述疑似欺诈群体对应的目标子图;
根据所述目标子图的各个边的权重,确定所述疑似欺诈群体包括的多个成员中每个成员的权重;
根据所述每个成员的权重,从所述多个成员中确定核心成员。
一方面,本申请实施例提供了一种群体识别装置,该装置包括:
生成模块,用于从理赔案件中抽取多个目标实体以及所述多个目标实体之间的关联事件,并基于所述多个目标实体和所述多个目标实体之间的关联事件生成多个同构图;
融合模块,用于从所述多个同构图中确定出主图,并对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图;
划分模块,用于将所述目标图划分为至少一个子图;
确定模块,用于确定所述至少一个子图中每个子图对应的目标群体的群体特征;
预测模块,用于利用所述风险预测模型根据所述群体特征进行欺诈风险预测,得到各目标群体的风险值;
所述确定模块,还用于将所述各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。
一方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,其中,存储器用于存储计算机程序,该计算机程序包括程序指令,处理器被配置用于调用该程序指令,执行上述方法中的部分或全部步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时,用于执行上述方法中的部分或全部步骤。
本申请实施例中,可以从理赔案件中抽取多个目标实体以及多个目标实体之间的关联事件,并基于多个目标实体和关联事件生成多个同构图,从多个同构图中确定出主图,并对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图,将目标图划分为至少一个子图,并确定至少一个子图中每个子图对应的目标群体的群体特征,利用风险预测模型根据群体特征进行欺诈风险预测,得到各目标群体的风险值,将各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。通过实施上述所提出的方法,可以生成用于表征目标实体间的关系网络的目标图,以及可以基于该关系网络确定多个关系密切的目标群体,以初步筛选出多个群体,还可以通过目标群体的风险值进一步判断得到的目标群体识别为疑似欺诈群体,从而可以提高欺诈群体的识别效率和准确率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用架构的示意图;
图2为本申请实施例提供的一种群体识别方法的流程示意图;
图3为本申请实施例提供的一种群体识别方法的流程示意图;
图4为本申请实施例提供的一种获取目标图的场景示意图;
图5为本申请实施例提供的一种获取目标图的场景示意图;
图6为本申请实施例提供的一种识别核心成员的场景示意图;
图7为本申请实施例提供的一种群体识别装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提出的群体识别方法实现于电子设备,该电子设备可以为终端设备或服务器。其中,终端设备可以为智能手机、平板电脑、笔记本电脑、台式计算机等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是云服务器等,但并不局限于此。本申请涉及区块链技术,电子设备可将涉及的数据如同构图、至少一个子图、识别出的疑似欺诈群体或成员相关信息等直接写入区块链或进行加密处理后写入区块链中,以便于电子设备可以在区块链上获取所需信息,如至少一个子图。
请参见图1,图1为本申请实施例提供的一种应用架构的示意图,可以通过该应用架构执行本申请所提出的群体识别方法。具体的,其中,电子设备可以通过执行本申请的技术方案实现:根据理赔案件提取目标实体和关联事件,生成多个同构图,并基于多个同构图得到目标图;根据目标图进行划分得到至少一个子图,并根据至少一个子图得到每个子图对应的目标群体;确定目标群体的群体特征,并利用风险预测模型对群体特征进行预测得到该目标群体的风险值,基于该风险值判断目标群体是否为疑似欺诈群体以实现疑似欺诈群体的识别,可以有效地提高欺诈群体的识别效率;进一步可选的,还可以对目标群体包括的成员进行识别,得到目标群体中的核心成员,以提高欺诈群体的后续处理效率。
可以理解的是,图1只是示例性地表征本申请技术方案所提出的应用架构,并不对本申请技术方案的具体架构进行限定,即本申请技术方案还可以提供其他形式的应用架构。
在一些实施例中,电子设备可根据实际的业务需求,执行该群体识别方法,以提高欺诈群体的识别效率。本申请技术方案可以应用于任意类型的理赔案件的欺诈群体识别场景中,即电子设备可以通过本申请技术方案实现从理赔案件中得到多个目标实体和关联事件,并生成目标图,以及可以由目标图得到多个子图,并分别从多个子图所包含的信息中获取多个目标群体,进而可以基于多个目标群体的风险值识别出疑似欺诈群体,以提高理赔行业的安全性。例如,本申请技术方案可以应用于车险理赔案件的识别场景中,或者财产理赔案件的识别场景中。需要说明的是,若无特别限定,本申请主要以对车险理赔案件的欺诈群体识别为例进行说明。
可以理解的是,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述的描述,本申请实施例提出了一种群体识别方法,该方法可以由上述提及的电子设备来执行。如图2所示,本申请实施例的群体识别方法的流程可以包括如下:
S201、从理赔案件中抽取多个目标实体以及多个目标实体之间的关联事件,并基于多个目标实体和该多个目标实体之间的关联事件生成多个同构图。
其中,理赔案件可以为多个地区中的目标地区的至少一个理赔案件。理赔案件是根据个体提供的理赔材料和购买的保险进行赔偿处理的案件,例如可以是车险理赔案件,其中一个车险理赔案件中可以包括相关个体身份信息(如驾驶人的姓名、性别等)、相关车辆信息(如车牌号、车龄、购置价格等)、车险相关信息(如保险起期、保险止期等)、涉及金额(如保险赔付金额、保险购置费用等)等。目标地区可以为从多个地区中选择的至少一个地区,或者可以为多个地区中的所有地区,或者可以为多个地区中的任一地区,或者可以为多个地区中的理赔欺诈事件出现频率高于预设频率的地区。理赔案件可以包括多个地区中的目标地区在指定时间段内发生的理赔案件,理赔案件可以从目标数据库获取,该目标数据库中存储了多个理赔案件等数据,或者还可以从互联网中查询到。
在一个可能的实施方式中,假设多个目标实体包括第一目标实体和第二目标实体,多个目标实体之间的关联事件包括第一目标实体和第二目标实体之间的目标关联事件,第一目标实体的类型和第二目标实体的类型相同,电子设备基于多个目标实体和该多个目标实体之间的关联事件生成多个同构图的方式可以为:根据第一目标实体、第二目标实体、第一目标实体与第二目标实体之间的目标关联事件生成目标同构图,多个同构图包括目标同构图。在第一目标实体与第二目标实体之间存在多种类型的关联事件时,目标关联事件为多种类型的关联事件中的任一种类型的关联事件。举例来说,在理赔案件为车险理赔案件时,第一目标实体的类型和第二目标实体的类型可以均为驾驶人,或第一目标实体的类型和第二目标实体的类型可以均为驾驶车辆。其中,第一目标实体与第二目标实体之间的目标关联事件可以包括第一目标实体与第二目标实体之间的目标关联动作。在理赔案件为车险理赔案件时,根据车险理赔场景的不同,目标关联动作可以为以下中的一项:碰撞、维修、支付。其中,实体间的关联事件能够用于确定实体间的关联关系,相应地,前述提及的目标关联事件能够用于确定第一目标实体与第二目标实体之间的目标关联关系。举例来说,在目标关联事件包括的目标关联动作为碰撞时,基于该目标关联事件可以确定出第一目标实体与第二目标实体之间的目标关联关系为碰撞关系。
基于上述实施方式,电子设备可以根据多个目标实体和多个目标实体之间的关联事件生成多个“单一类型主体+单一类型关系”的同构图。“单一类型主体+单一类型关系”的同构图可以理解为“单一类型的目标实体+单一类型的关联关系”的同构图。也就是说,一个这种同构图的所有节点对应的实体的类型均为同一种类型,且这种同构图的所有边对应的关联关系均为同一种关联关系。举例来说,假设理赔案件为车险理赔案件,电子设备可以从车险理赔案件中抽取出驾驶人A、驾驶人B、车辆A、车辆B,并抽取出驾驶人与驾驶人B之间的关联事件(指示驾驶人A碰撞驾驶人B),以及车辆A与车辆B之间的关联事件(指示车辆A碰撞车辆B),电子设备可以根据驾驶人A、驾驶人B、驾驶人与驾驶人B之间的关联事件构建驾驶人碰撞关系图,并根据车辆A、车辆B车辆A与车辆B之间的关联事件构建驾驶车辆碰撞同构图。其中,驾驶人碰撞关系图中所有节点对应的目标实体的类型为驾驶人,所有边对应的关联关系为碰撞关系,驾驶车辆碰撞关系图中所有节点对应的目标实体的类型为车辆,所有边对应的关联关系为碰撞关系。其中:
(1)驾驶人碰撞同构图,其构成形式可以表示为:(驾驶人)-[碰撞]-(驾驶人);
(2)驾驶车辆碰撞同构图,其构成形式可以表示为:(驾驶车辆)-[碰撞]-(驾驶车辆)。
其中,驾驶人碰撞同构图可以描述驾驶人与不同驾驶人发生碰撞的情况,驾驶车辆碰撞同构图可以描述驾驶车辆与不同驾驶车辆发生碰撞的情况。
在其它可能的实施方式中,上述的同构图的边可以是具有方向的。假设多个同构图包括前述提及的目标同构图,电子设备可以根据第一目标实体与第二目标实体间的目标关联事件确定第一目标实体对应的节点与第二目标实体对应的节点之间的边的方向。举例来说,若第一目标实体为驾驶人A、第二目标实体为驾驶人B,第一目标实体与第二目标实体之间的目标关联事件指示驾驶人A碰撞驾驶人B,则驾驶人A对应的节点与驾驶人B对应的节点之间的边的方向为由驾驶人A对应的节点指向驾驶人B对应节点,边的方向可以表示为【驾驶人A对应的节点】→【驾驶人B对应的节点】。
在一个可能的实施方式中,电子设备还可以确定多个同构图中每个同构图的所有边中每个边的权重或部分边中每个边的权重。此处,边的权重可以是预设的,例如可以设为1。或者,边的权重还可以根据用于确定所述边对应的关联关系的关联事件的数量确定。假设多个同构图包括前述提及的目标同构图,电子设备可以统计用于确定第一目标实体与第二目标实体之间的目标关联关系的目标关联事件的数量,并根据目标关联事件的数量确定第一目标实体与第二目标实体之间的边的权重。
在一个可能实施方式中,电子设备可以将用于确定所述边对应的关联关系的关联事件的数量确定为所述边的权重。也就是说,电子设备可以将目标关联事件的数量确定为第一目标实体与第二目标实体之间的边的权重。举例来说,假设第一目标实体为驾驶人A、第二目标实体为驾驶人B、驾驶人A与驾驶人B之间有两个目标关联事件(发生在不同时间点),如两个碰撞事件,两个碰撞事件都指示驾驶人A碰撞了驾驶人B。电子设备采用上述方式,可以确定驾驶人同构图中驾驶人A对应的节点和驾驶人B对应的节点之间的边的权重可以为2。在一个可能的实施方式中,电子设备可以在生成同构图的过程中确定所述的边的权重,也可以是在生成同构图之后确定所述的边的权重,在此不做限制。
在一个可能的实施方式中,电子设备还可以将节点对应的目标实体的属性信息添加到节点的属性中,以及将边对应的关联关系的附属信息添加到边的属性中。该目标实体的属性信息和碰撞关系的附属信息可以是电子设备在从理赔案件中抽取关联事件时一并获取的。例如,在驾驶人碰撞同构图中,可以将驾驶人的相关信息(姓名、驾驶证、年龄、性别等)添加到对应的节点的属性中,以及可以将碰撞关系的相关信息(如三者车牌号、标的车牌号、碰撞时间等;三者车牌号为碰撞的驾驶车牌号、标的车牌号为被碰撞的驾驶车牌号)添加到对应的边的属性中;在驾驶车辆碰撞同构图中,可以将驾驶车辆的相关信息(车牌号、新车购置价、车系等)添加到对应的节点的属性中,以及可以将碰撞关系的相关信息(如三者驾驶证、标的驾驶证、定损金额等)添加到对应的边的属性中。在一个实施例中,电子设备可以是在生成同构图的过程中将节点对应的目标实体的属性信息添加到节点的属性中,以及将边对应的关联关系的附属信息添加到边的属性中,或者也可以是在生成同构图之后将节点对应的目标实体的属性信息添加到节点的属性中,以及将边对应的关联关系的附属信息添加到边的属性中,在此不做限制。
S202、从多个同构图中确定出主图,并对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图。
在一个可能的实施方式中,电子设备从多个同构图中确定出主图的具体方式可以为:电子设备确定多个同构图中每个同构图对应的节点数和边数之和,并根据每个同构图对应的节点数和边数之和,从多个同构图中确定出对应的节点数和边数之和最大的同构图以作为主图;或者,电子设备确定多个同构图中每个同构图对应的节点数和边的权重之和,根据每个同构图对应的节点数和边的权重之和,从多个同构图中确定出对应的节点数和边的权重之和最大的同构图以作为主图。其中,将节点数和边数之和或节点数和边的权重之和最大的同构图表示该图的覆盖率广、连通性好,因此后续作为主图时欺诈群体的识别效率和准确性也有所提高。
在一个可能的实施方式中,电子设备对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图的方式可以为,在主图的边的属性中添加多个同构图中除主图以外的同构图中的与该边具有关联的节点的信息,得到更新了边的属性的主图,并将该更新了边的属性的主图确定为目标图。其中,确定多个同构图中除主图以外的同构图中与主图的边具有关联的节点的具体方式可以为,根据关联事件,确定主图的边所连接的两个节点分别在该除主图以外的同构图中具有关联的节点,并将该所连接的两个节点分别具有关联的节点作为与该主图的边具有关联的节点;
或者还可以为,若不同类型的目标实体之间存在所属关系(包括统属关系或者隶属关系),则可以从目标实体关系信息库中查询出与主图的边所连接的两个节点分别对应的目标实体具有统属关系或者隶属关系的目标实体(该目标实体所表示的节点为除主图以外的同构图中的节点),将该两个目标实体所在节点作为与主图的边所连接的两个节点分别在该除主图以外的同构图中具有关联的节点,并将该所连接的两个节点分别具有关联的节点作为与该主图的边具有关联的节点。例如,主图为驾驶人碰撞关系图,节点A表示驾驶人A,节点B表示驾驶人B,可以从车辆关系信息库中查询到与驾驶人A具有统属关系的驾驶车辆为U,与驾驶人B具有统属关系的驾驶车辆为V,因此在驾驶车辆碰撞同构图(除主图以外的同构图)中,与节点A具有关联的节点U为驾驶车辆U所在节点,与节点B具有关联的节点为驾驶车辆V所在节点V,该节点U和节点V则为与主图中节点A和节点B之间的边具有关联的节点;其中,车辆关系信息库可以是在驾驶人购买驾驶车辆时所录入的信息库。
S203、将目标图划分为至少一个子图。
在一些实施例中,电子设备将包含多个节点和多条边的目标图划分为至少一个子图的具体方式可以是,利用社区发现算法(Fast unfolding of communities in largenetworks,Louvian)对该目标图进行划分得到至少一个子图。
其中,电子设备利用社区发现算法进行目标图划分的具体方式可以是:
(1)、初始时,将目标图中的每个节点分别作为单独的节点,即每个节点各自处于一个孤立的社区;
(2)、从所有节点中随机选取一个节点i;
(3)、对于节点i,找到其全部相邻节点,分别计算若将节点i从其当前所在社区移动至其相邻节点j所在社区Cj,所产生的模块度增益的大小ΔQ;其中,模块度Q的计算公式如下:
其中,Ki是与节点i相连的所有边的权值之和,Kj是与节点j相连的所有边的权值之和,Ai,j为节点i与节点j之间边的权值;Ci表示节点i所在社区,表示节点i和节点j是否在同一个社区,如果节点i和节点j处于同一个社区,这个值为1,否则为0;m为目标图中所有边的权重之和。
(4)、找到能够产生最大模块度增益的相邻节点j',若最大模块度增益ΔQmax>0,则令Ci=Cj',即将节点i移动至节点j'所在社区;
(5)、当所有节点都无法被移动时,说明社区划分在当前已经达到最优,对目标图进行聚合,生成一个新目标图,具体可以是:将划分为同一个社区内的所有节点作为新目标图中的一个节点,成为超节点;同一个社区内的节点之间的边作为新目标图中对应超节点的自边,该超节点的权重为社区内的边的权重之和;新目标图中两个超节点之间的边的权重为在原目标图中其对应社区之间的连边权重之和;
(6)、新目标图构建完成后,继续执行步骤(1)-步骤(5),不断迭代划分;直至在一次迭代过程中,所有节点都无法被移动,则表示划分结束。
此时,基于划分结果包含的各个节点所属社区,可以得到至少一个子图,一个社区对应一个子图,即一个社区中的节点作为一个子图的节点,该社区中节点之间的边作为该子图的节点的边。
在一些实施例中,当对目标图进行最后一次迭代划分得到至少一个子图后,会输出划分后的最终模块度(0-1之间),若该最终模块度大于预设的参数阈值(如0.3),则表明此次划分的区分度较好,所得到的至少一个子图可以应用,参与后续步骤,若小于或等于阈值,则表示划分失败,不再进行后续步骤。其中,预设的参数阈值可以由相关业务人员根据经验值设定。
S204、确定至少一个子图中每个子图对应的目标群体的群体特征。
其中,电子设备可以基于至少一个子图中各个节点的信息得到每个子图对应的目标群体,目标群体包括多个成员。例如,子图表示驾驶人碰撞关系,即可以将子图中所有节点对应的驾驶人作为该子图对应的目标群体,该多个驾驶人则为目标群体包括的成员。
在一个可能的实施方式中,群体特征可以包括目标群体的关系型特征和事实型特征(此时,群体特征又可称为初始特征);
在一个可能的实施方式中(1)关系型特征可以包括以下至少两项:群体总关系数、群体总节点数、群体三角关系占比=群体三角数量/群体关系数、平均出度=总出度/总节点数、平均入度=总入度/总节点数;
(2)事实型特征可以包括以下至少两项:群体男女比例、群体年龄差范围、首次报案距起期平均天数=sum(保险对应的保险单中首次报案日期-该保险起期)/群体报案保险单总数、最后一次报案案距止期平均天数=sum(各个保险单最后一次报案日期-该保险止期)/群体报案保险单总数、人均赔付次数=总赔付次数/总人数、群体平均赔付率=总赔付金额/总保险费、人均驾驶车辆数=案件总车辆数/群体总人数、平均车龄、平均驾驶车辆购置价格。可以根据理赔案件等信息确定上述提及的事实型特征。
例如,一辆驾驶车辆可以存在多个车辆保险,因此一个车险理赔案件可以存在多个车辆保险的保险单,一份车辆保险可以有多次报案,即多个保险单,上述的群体报案保险单总数为目标群体中的每个成员在所涉及的车险理赔案件中进行车险报案的数量之和,以及一份车辆保险所对应的保险单中的报案日期最早的保险单作为上述保险对应的保险单中首次报案日期,一份车辆保险所对应的保险单中的报案日期最晚的保险单作为上述保险对应的保险单中最后一次报案日期,保险起期为车险对应保险责任开始时间,保险止期为车险对应保险责任终止时间,由此可以得到首次报案距起期平均天数、最后一次报案案距止期平均天数;上述的总赔付次数为目标群体中的每个成员在所涉及的车险理赔案件中车险赔付成功的次数;上述的总赔付金额为目标群体中的每个成员在所涉及的车险理赔案件中车险赔付的金额,上述的总保险费为目标群体中的每个成员购买的车辆保险的所花费的总费用;上述的案件总车辆数目标群体中的每个成员在所涉及的车险理赔案件中驾驶的车辆,上述的平均车龄为所有驾驶的车辆的平均车龄,上述的平均驾驶车辆购置价格为所有驾驶的车辆的平均购置价格。
在一些实施例中,电子设备可以基于每个子图的各个节点的信息和各个边的属性得到上述关系型特征和事实型特征对应的结果,并将该结果确定为该子图对应的目标群体的群体特征。
S205、利用风险预测模型根据群体特征进行欺诈风险预测,得到各目标群体的风险值。
在一个可能的实施方式中,该风险预测模型可以为分类模型,具体可以为决策树模型,则电子设备利用风险预测模型根据群体特征进行欺诈风险预测,得到各目标群体的风险值具体可以是,将群体特征输入决策树模型,并利用该决策树模型对该群体特征进行欺诈风险预测,以确定该目标群体的群体特征在决策树模型所包括的各决策树中所在的叶子节点,并根据该各叶子节点的数值之和确定目标群体的风险值。其中,可以获取样本欺诈群体和对应的群体特征(同目标群体的群体特征),并利用该样本欺诈群体的群体特征对待训练的决策树模型进行训练,得到风险预测模型。
S206、将各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。
在一个可能的实施方式中,预测值可由相关业务人员根据经验值设定,电子设备可以将风险值大于或等于预设值的目标群体确定为疑似欺诈群体,以实现车险理赔案件中的欺诈群体识别,并可以输出确定为疑似欺诈群体的目标群体和该目标群体中各个成员的相关信息。或者,在一个可能的实施方式中,电子设备可以将该目标群体对应的风险值*100作为该目标群体的欺诈分数。若目标群体的欺诈分数大于或等于欺诈分数阈值时,将该目标群体确定为疑似欺诈群体。
本申请实施例中,电子设备可以从理赔案件中抽取多个目标实体以及多个目标实体之间的关联事件,并基于多个目标实体和该多个目标实体之间的关联事件生成多个同构图,从多个同构图中确定出主图,并对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图,将目标图划分为至少一个子图,确定至少一个子图中每个子图对应的目标群体的群体特征,利用风险预测模型根据群体特征进行欺诈风险预测,得到各目标群体的风险值,将各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。通过实施本申请实施例所提出的方法,可以生成用于表征目标实体间的关系网络的目标图,以及可以基于该关系网络确定多个关系密切的目标群体,以初步筛选出多个群体,还可以通过目标群体的风险值进一步判断得到的目标群体识别为疑似欺诈群体,从而可以提高欺诈群体的识别效率和准确率。
请参见图3,图3为本申请实施例提供的一种群体识别方法的流程示意图,该方法可以由上述提及的电子设备执行。如图3所示,本申请实施例中群体识别方法的流程可以包括如下:
S301、从理赔案件中抽取多个目标实体以及多个目标实体之间的关联事件,并基于多个目标实体和该多个目标实体之间的关联事件生成多个同构图。其中,步骤S301的具体实施方式可以参见上述步骤S201的相关描述,此处不再赘述。
S302、从多个同构图中确定出主图,并对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图。
其中,确定主图的具体实施方式可以参见上述步骤S202的相关描述。
在一个可能的实施方式中,电子设备对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图的具体方式可以为,从多个同构图中除主图以外的同构图中,确定出与主图中第一节点关联的节点以及与主图中与第一节点相连的第二节点关联的节点,将第一节点关联的节点的信息以及第二节点关联的节点的信息添加至第一节点与第二节点之间的边的属性中,得到更新了边的属性的主图,并根据更新了边的属性的主图确定目标图,即可以将该更新了边的属性的主图确定为目标图。其中,第一节点和第二节点为主图中任意两个有连接关系的节点,电子设备从多个同构图中除主图以外的同构图中确定出的与第一节点关联的节点和与第二节点关联的节点是相连接的,即是有关系的。
例如,如图4,图4为本申请实施例提供的一种获取目标图的场景示意图,其中,主图(图4(1))为驾驶人碰撞同构图,多个同构图中除主图以外的同构图中,与节点a关联的节点为节点u,与节点b关联的节点为节点v,以及节点u和节点v除主图以外的同构图中的至少一个同构图内是相连接,因此可以将该节点u和节点v的信息,如属性信息添加到主图中节点a和节点b之间的边的属性中,得到更新了边的属性的主图中(图4(2)),Ruv即表示在主图中节点a和节点b之间的边的属性中已添加节点u和节点v的信息;更新主图中除了节点u和节点b之间的边以外的边的属性具体方式可以前述描述方式,即图4中仅以更新了节点u和节点b之间的边的属性为例进行描述。
可选的,在一些实施例中,电子设备根据更新了边的属性的主图确定目标图的具体方式还可以为,确定第一节点关联的节点在除主图以外的同构图中所连接的第一数量个边中每个边的权重,确定第二节点关联的节点在除主图以外的同构图中所连接的第二数量个边中每个边的权重,利用第一数量个边中每个边的权重、第二数量个边中每个边的权重,对更新了边的属性的主图中的边的初始权重进行更新,得到更新了边的属性且更新了边的权重的主图,将更新了边的属性且更新了边的权重的主图确定为目标图。
其中,在第一节点关联的节点与第二节点关联的节点相连时,第一数量个边不包括第一节点关联的节点与第二节点关联的节点之间的边,以及第二数量个边不包括第一节点关联的节点与第二节点关联的节点之间的边。可以理解的是,与第一节点关联的节点和与第二节点关联的节点可以都在同一个同构图中,也可以不在同一个同构图中,也就是说,所获取的第一数量个边为与第一节点关联的节点在除主图以外的同构图中与其他节点(非与第二节点关联的节点)所连接的边的数量,所获取的第二数量个边为与第二节点关联的节点在除主图以外的同构图中与其他节点(非与第一节点关联的节点)所连接的边的数量。
在一些实施例中,电子设备利用第一数量个边中每个边的权重、第二数量个边中每个边的权重,对更新了边的属性的主图中的边的初始权重进行更新具体方式可以为,计算第一数量个边中每个边的权重之和,以及第二数量个边中每个边的权重之和,并计算第一数量个边中每个边的权重之和、第二数量个边中每个边的权重之和,以及第一节点和第二节点之间连接的边的权重的总和,并利用该总和对更新了边的属性的主图中的第一节点和第二节点之间连接的边的初始权重。
例如,如图5所示,图5为本申请实施例提供的一种获取目标图的场景示意图,其中,在更新了边的属性的主图(图5(1))中,节点a和节点b(仅以该两节点为例进行说明,其他节点之间的边的初始权重更新方式相同)之间的边的初始权重为1,设节点a关联的节点为节点u,节点b关联的节点为节点v,则获取除主图以外的同构图中包含节点u的同构图和包含节点v的同构图(图5(2)),节点a对应的第一数量个边为节点u与非节点v的节点所连接的边的数量,即标记为α所在的边的数量(假设图中的边权重均为1,即第一数量为4),因此标记为α的边的权重之和为4,节点b对应的第二数量个边为节点v与非节点u的节点所连接的边的数量,即标记为β所在的边的数量(即第二数量为1),因此标记为β的边的权重之和为1,由此所得到的节点a和节点b之间的边的更新后的权重为,1+4+1=6(图5(3))。
S303、将目标图划分为至少一个子图。其中,步骤S303的具体实施方式可以参见上述步骤S203的相关描述,此处不再赘述。
S304、确定至少一个子图中每个子图对应的目标群体的群体特征。
其中,确定目标群体的群体特征的具体方式可以同上述步骤S204中确定群体特征的方式。
进一步可选的,还可以对上述的包括关系型特征和事实型特征的群体特征(即初始特征)进行预处理,从而得到每个子图对应的目标群体的群体特征。
在一些实施例中,该所进行的预处理可以为特征工程处理,因此,电子设备确定至少一个子图中每个子图对应的目标群体的群体特征具体可以是,对每个子图对应的目标群体的初始特征进行特征工程处理,得到每个子图对应的目标群体的群体特征。其中,特征工程处理可以包括以下任一项或多项:归一化处理、缺失值处理和异常值检测处理。
需要说明的是,初始特征包括多个种类特征(关系型特征有多个种类、事实型特征有多个种类),电子设备对每个子图对应的目标群体的初始特征进行特征工程处理是分别对每个子图对应的目标群体的初始特征中多种特征进行特征工程处理,具体可以是将每个目标群体的初始特征中的同一种类的特征作为一组待处理特征,每个目标群体则可以得到多组待处理特征,并利用上述特征工程处理分别对每组待处理特征进行处理,得到处理后的多组特征,并基于处理后的多组特征确定每个目标群体的群体特征。每组待处理特征的处理过程和原理相同。
例如,目标群体有三个(群体1、群体2、群体3),每个目标群体对应的初始特征有三种(特征1、特征2、特征),因此分别将三个目标群体的初始特征中的特征1、特征2、特征3作为一组待处理特征,即组①【群体1-特征1、群体2-特征1、群体3-特征1】、组②【群体1-特征2、群体2-特征2、群体3-特征2】、组③【群体1-特征3、群体2-特征3、群体3-特征3】,并分别对三组待处理特征进行特征工程处理,得到三组处理后的特征,即组①【群体1-处理后的特征1、群体2-处理后的特征1、群体3-处理后的特征1】、组②【群体1-处理后的特征2、群体2-处理后的特征2、群体3-处理后的特征2】、组③【群体1-处理后的特征3、群体2-处理后的特征3、群体3-处理后的特征3】,因此得到目标群体的群体特征对应为【处理后的特征1、处理后的特征2、处理后的特征3】。
在一些实施例中,以一组待处理特征为例,若特征工程处理为归一化处理时,对该组待处理特征进行特征工程处理具体可以为,利用归一化函数对该组待处理特征进行处理,以使该组待处理特征中的特征值之和为1。
以及,若特征工程处理为异常值检测处理,对该组待处理特征进行特征工程处理具体可以为,计算该组待处理特征的第一四分位数(Q1)、中位数、第三四分位数(Q3)。令IQR=Q3-Q1,并设Q3+1.5(IQR)和Q1-1.5(IRQ)之间的待处理特征则为正常特征,之外的待处理特征则为异常特征,该检测出的异常特征作为缺失值进行缺失值处理。
以及,若特征工程处理为缺失值处理,对该组待处理特征进行特征工程处理具体可以为,在该组待处理特征中检测出是异常特征或者缺失特征时(例如该待处理特征为0等则认为缺失),可以利用该组待处理特征中的正常特征或非缺失特征的平均值对该异常特征或缺失特征进行代替。例如,一组待处理特征为【群体1-特征1、群体2-特征1、群体3-特征1】,若群体2-特征1被检测出为异常特征,其余特征在正常特征,因此利用群体1-特征1和群体3-特征3的平均值对群体2-特征1进行代替。
S305、利用风险预测模型根据群体特征进行欺诈风险预测,得到各目标群体的风险值。
在一个可能的实施方式中,该风险预测模型可以为分类模型,具体可以为逻辑回归模型(Logistic Regression),该逻辑回归模型可以对目标群体进行分类,即该目标群体为欺诈群体或非欺诈群体,则电子设备利用风险预测模型根据群体特征进行欺诈风险预测,得到各目标群体的风险值具体可以为,将群体特征输入逻辑回归模型,并利用该逻辑回归模型中训练好的回归系数对群体特征进行计算得到目标群体的风险值,该风险值可称为该目标群体为欺诈群体的概率值。
其中,可以获取样本欺诈群体和样本非欺诈群体,将样本欺诈群体作为正样本并添加第一标签,将样本非欺诈群体作为负样本并添加第二标签,获取样本欺诈群体的群体特征(该群体特征为已利用上述相同的特征工程处理步骤进行处理后的初始特征),并获取样本非欺诈群体的群体特征(该群体特征为已利用上述相同的特征工程处理步骤进行处理后的初始特征),并利用样本欺诈群体的群体特征和第一标签(欺诈标签,表示为欺诈群体)以及样本非欺诈群体的群体特征和第二标签(非欺诈标签,表示为非欺诈群体)对待训练的逻辑回归模型进行训练,得到训练好的逻辑回归模型;此外,样本欺诈群体和样本非欺诈群体的初始特征所包括的多个种类的特征可以同目标群体的初始特征,对样本欺诈群体和样本非欺诈群体的初始特征进行特征工程处理得到对应的群体特征可以是,分别对样本欺诈群体的初始特征和样本非欺诈群体的初始特征进行特征工程处理,也可以是对样本欺诈群体的初始特征和样本非欺诈群体的初始特征一起进行特征工程处理。
S306、将各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。其中,步骤S306的具体实施方式可以参见上述步骤S206的相关描述,此处不再赘述。
S307、获取疑似欺诈群体对应的目标子图,根据目标子图的各个边的权重,确定疑似欺诈群体包括的多个成员中每个成员的权重。
在一个可能的实施方式中,由于疑似欺诈群体中所包括的成员数量可能过多,不便于快速进行群体性质核验、渗漏金额提炼等,以及耗时长工作量大,因此电子设备还可以进一步对疑似欺诈群体中的核心成员进行识别。
因此,电子设备可以获取疑似欺诈群体对应的目标子图,并根据目标子图的各个边的权重确定目标子图中每个节点的权重,进而基于该每个节点的权重得到疑似欺诈群体包括的多个成员中每个成员的权重。其中,可能是节点对应一个成员,也可能是节点的信息中对应一个成员。
例如,若目标子图为驾驶人碰撞同构图,则每个节点表示一个驾驶人,该节点的权重则为对应驾驶人(成员)的权重;若目标子图为驾驶车辆碰撞同构图,则每个节点表示一个驾驶车辆,该节点的权重则为对应的驾驶车辆所属驾驶人(成员)权重。
在一个可能的实施方式中,电子设备根据目标子图的各个边的权重确定目标子图中每个节点的权重具体可以为,利用权重计算公式确定:
其中,W表示节点权重,ωi表示该节点所连接的第i条边的权重。即节点的权重为节点所连接的边的权重的一半再求和。
例如,如图6所示,图6为本申请实施例提供的一种识别核心成员的场景示意图,其中,该图为疑似欺诈群体对应的目标子图,该目标子图为驾驶人碰撞同构图,因此节点a(成员a)的权重为Wa=2*0.5+6*0.5+3*0.5=5.5,同理,节点b(成员b)的权重为5,节点c(成员c)的权重为2.5,节点d(成员d)的权重为0.5。
S308、根据每个成员的权重,从多个成员中确定核心成员。
在一个可能的实施方式中,电子设备确定核心成员的具体方式为,根据每个成员的权重,按照从大到小的顺序对该多个成员进行排序,并按照预设的成员数量(可由相关业务人员根据经验值设定)从排序后的多个成员中确定出核心成员,以实现车险理赔案件中的核心成员识别,并可以输出确定为疑似欺诈群体的目标群体和该目标群体中的各个核心成员的相关信息。例如,成员a的权重为5.5,成员b的权重为5,成员c的权重为2.5,成员d的权重为0.5,因此排序后的多个成员依次为【成员a】、【成员b】、【成员c】、【成员d】,若预设的成员数量为3,则确定核心成员为成员a、成员b、成员c。
本申请实施例中,电子设备可以从理赔案件中抽取多个目标实体以及多个目标实体之间的关联事件,并基于多个目标实体和该多个目标实体之间的关联事件生成多个同构图,从多个同构图中确定出主图,并对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图,将目标图划分为至少一个子图,确定至少一个子图中每个子图对应的目标群体的群体特征,利用风险预测模型根据群体特征进行欺诈风险预测,得到各目标群体的风险值,将各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体,根据每个成员的权重,从多个成员中确定核心成员,根据每个成员的权重,从多个成员中确定核心成员。通过实施本申请实施例所提出的方法,可以生成用于表征目标实体间的关系网络的目标图,以及可以基于该关系网络确定多个关系密切的目标群体,以初步筛选出多个群体,还可以通过目标群体的风险值进一步判断得到的目标群体识别为疑似欺诈群体,从而可以提高欺诈群体的识别效率和准确率,进一步的,还可以从目标群体中确定出核心成员,以提高后续应用的处理效率和减小工作量,如该群体的性质核验、渗漏金额提炼等。
请参见图7,图7为本申请提供的一种群体识别装置的结构示意图。需要说明的是,图7所示的群体识别装置,用于执行本申请图2和图3所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示,经参照本申请图2和图3所示的实施例。该群体识别装置700可包括:生成模块701、融合模块702、划分模块703、确定模块704、预测模块705。其中:
生成模块701,用于从理赔案件中抽取多个目标实体以及所述多个目标实体之间的关联事件,并基于所述多个目标实体和所述多个目标实体之间的关联事件生成多个同构图;
融合模块702,用于从所述多个同构图中确定出主图,并对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图;
划分模块703,用于将所述目标图划分为至少一个子图;
确定模块704,用于确定所述至少一个子图中每个子图对应的目标群体的群体特征;
预测模块705,用于利用所述风险预测模型根据所述群体特征进行欺诈风险预测,得到各目标群体的风险值;
所述确定模块704,还用于将所述各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。
在一个可能的实施方式中,所述融合模块702在用于从所述多个同构图中确定主图时,具体用于:
确定所述多个同构图中每个同构图对应的节点数和边数之和;
根据所述每个同构图对应的节点数和边数之和,从所述多个同构图中确定出对应的节点数和边数之和最大的同构图以作为所述主图。
在一个可能的实施方式中,所述融合模块702在用于对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图时,具体用于:
从所述多个同构图中除所述主图以外的同构图中,确定出与所述主图中的第一节点关联的节点以及与所述主图中与所述第一节点相连的第二节点关联的节点;
将所述第一节点关联的节点的信息以及所述第二节点关联的节点的信息,添加至所述第一节点与所述第二节点之间的边的属性中,得到更新了所述边的属性的主图;
根据所述更新了所述边的属性的主图确定所述目标图。
在一个可能的实施方式中,所述融合模块702在用于根据所述更新了所述边的属性的主图确定所述目标图时,具体用于:
确定所述第一节点关联的节点在所述除所述主图以外的同构图中所连接的第一数量个边中每个边的权重;
确定所述第二节点关联的节点在所述除所述主图以外的同构图中所连接的第二数量个边中每个边的权重;
利用所述第一数量个边中每个边的权重、所述第二数量个边中每个边的权重,对所述更新了所述边的属性的主图中的所述边的初始权重进行更新,得到更新了所述边的属性且更新了所述边的权重的主图;
将所述更新了所述边的属性且更新了所述边的权重的主图确定为所述目标图。
在一个可能的实施方式中,在所述第一节点关联的节点与所述第二节点关联的节点相连时,所述第一数量个边不包括所述第一节点关联的节点与所述第二节点关联的节点之间的边,以及所述第二数量个边不包括所述第一节点关联的节点与所述第二节点关联的节点之间的边。
在一个可能的实施方式中,所述确定模块704在用于确定所述至少一个子图中每个子图对应的目标群体的群体特征时,具体用于:
根据所述至少一个子图中每个子图的各个节点的信息和各个边的属性,确定所述每个子图对应的目标群体的初始特征;
对所述每个子图对应的目标群体的初始特征进行特征工程处理,得到所述每个子图对应的目标群体的群体特征。
在一个可能的实施方式中,所述确定模块704还用于:
获取所述疑似欺诈群体对应的目标子图;
根据所述目标子图的各个边的权重,确定所述疑似欺诈群体包括的多个成员中每个成员的权重;
根据所述每个成员的权重,从所述多个成员中确定核心成员。
本申请实施例中,生成模块从理赔案件中抽取多个目标实体以及多个目标实体之间的关联事件,并基于多个目标实体和多个目标实体之间的关联事件生成多个同构图;融合模块从多个同构图中确定出主图,并对主图以及多个同构图中除主图以外的同构图进行融合处理,得到目标图;划分模块将目标图划分为至少一个子图;确定模块确定至少一个子图中每个子图对应的目标群体的群体特征;预测模块利用风险预测模型根据群体特征进行欺诈风险预测,得到各目标群体的风险值;确定模块将各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。通过实施上述所提出的装置,可以生成用于表征目标实体间的关系网络的目标图,以及可以基于该关系网络确定多个关系密切的目标群体,以初步筛选出多个群体,还可以通过目标群体的风险值进一步判断得到的目标群体识别为疑似欺诈群体,从而可以提高欺诈群体的识别效率和准确率。
在本申请各个实施例中的各功能模块可以集成在一个模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现,本申请不做限定。
请参见图8,图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示,该电子设备800包括:至少一个处理器801、存储器802。可选的,该电子设备还可以包括网络接口。其中,所述处理器801、存储器802以及网络接口之间可以交互数据,该网络接口可以受所述处理器801的控制用于收发消息,存储器802用于存储计算机程序,所述计算机程序包括程序指令,处理器801用于执行存储器802存储的程序指令。其中,处理器801被配置用于调用所述程序指令执行上述方法。
所述存储器802可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器802也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储器802还可以包括上述种类的存储器的组合。
所述处理器801可以是中央处理器(central processing unit,CPU)。在一个实施例中,所述处理器801还可以是图形处理器(Graphics Processing Unit,GPU)。所述处理器801也可以是由CPU和GPU的组合。
在一个可能的实施方式中,所述存储器802用于存储程序指令。所述处理器801可以调用所述程序指令,执行以下步骤:
从理赔案件中抽取多个目标实体以及所述多个目标实体之间的关联事件,并基于所述多个目标实体和所述多个目标实体之间的关联事件生成多个同构图;
从所述多个同构图中确定出主图,并对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图;
将所述目标图划分为至少一个子图;
确定所述至少一个子图中每个子图对应的目标群体的群体特征;
利用所述风险预测模型根据所述群体特征进行欺诈风险预测,得到各目标群体的风险值;
将所述各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体。
在一个可能的实施方式中,所述处理器801在用于从所述多个同构图中确定主图时,具体用于:
确定所述多个同构图中每个同构图对应的节点数和边数之和;
根据所述每个同构图对应的节点数和边数之和,从所述多个同构图中确定出对应的节点数和边数之和最大的同构图以作为所述主图。
在一个可能的实施方式中,所述处理器801在用于对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图时,具体用于:
从所述多个同构图中除所述主图以外的同构图中,确定出与所述主图中的第一节点关联的节点以及与所述主图中与所述第一节点相连的第二节点关联的节点;
将所述第一节点关联的节点的信息以及所述第二节点关联的节点的信息,添加至所述第一节点与所述第二节点之间的边的属性中,得到更新了所述边的属性的主图;
根据所述更新了所述边的属性的主图确定所述目标图。
在一个可能的实施方式中,所述处理器801在用于根据所述更新了所述边的属性的主图确定所述目标图时,具体用于:
确定所述第一节点关联的节点在所述除所述主图以外的同构图中所连接的第一数量个边中每个边的权重;
确定所述第二节点关联的节点在所述除所述主图以外的同构图中所连接的第二数量个边中每个边的权重;
利用所述第一数量个边中每个边的权重、所述第二数量个边中每个边的权重,对所述更新了所述边的属性的主图中的所述边的初始权重进行更新,得到更新了所述边的属性且更新了所述边的权重的主图;
将所述更新了所述边的属性且更新了所述边的权重的主图确定为所述目标图。
在一个可能的实施方式中,在所述第一节点关联的节点与所述第二节点关联的节点相连时,所述第一数量个边不包括所述第一节点关联的节点与所述第二节点关联的节点之间的边,以及所述第二数量个边不包括所述第一节点关联的节点与所述第二节点关联的节点之间的边。
在一个可能的实施方式中,所述处理器801在用于确定所述至少一个子图中每个子图对应的目标群体的群体特征时,具体用于:
根据所述至少一个子图中每个子图的各个节点的信息和各个边的属性,确定所述每个子图对应的目标群体的初始特征;
对所述每个子图对应的目标群体的初始特征进行特征工程处理,得到所述每个子图对应的目标群体的群体特征。
在一个可能的实施方式中,所述处理器801还用于:
获取所述疑似欺诈群体对应的目标子图;
根据所述目标子图的各个边的权重,确定所述疑似欺诈群体包括的多个成员中每个成员的权重;
根据所述每个成员的权重,从所述多个成员中确定核心成员。
具体实现中,本申请实施例中所描述的装置、处理器801、存储器802等可执行上述方法实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
本申请实施例中还提供一种计算机(可读)存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使所述处理器可执行上述方法实施例中所执行的部分或全部步骤。可选的,该计算机存储介质可以是易失性的,也可以是非易失性的。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该计算机存储介质可以为计算机可读存储介质,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。
Claims (7)
1.一种群体识别方法,其特征在于,所述方法包括:
从理赔案件中抽取多个目标实体以及所述多个目标实体之间的关联事件,并基于所述多个目标实体和所述多个目标实体之间的关联事件生成多个同构图;
从所述多个同构图中确定出主图,并对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图;所述主图为所述多个同构图中节点数和边数之和最大的同构图;
将所述目标图划分为至少一个子图;确定所述至少一个子图中每个子图对应的目标群体的群体特征;
利用风险预测模型根据所述群体特征进行欺诈风险预测,得到各目标群体的风险值;将所述各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体;
其中,所述对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图,包括:
从所述多个同构图中除所述主图以外的同构图中,确定出与所述主图中的第一节点关联的节点以及与所述主图中与所述第一节点相连的第二节点关联的节点;将所述第一节点关联的节点的信息以及所述第二节点关联的节点的信息,添加至所述第一节点与所述第二节点之间的边的属性中,得到更新了所述边的属性的主图;
确定所述第一节点关联的节点在所述除所述主图以外的同构图中所连接的第一数量个边中每个边的权重;确定所述第二节点关联的节点在所述除所述主图以外的同构图中所连接的第二数量个边中每个边的权重;
利用所述第一数量个边中每个边的权重、所述第二数量个边中每个边的权重,对所述更新了所述边的属性的主图中的所述边的初始权重进行更新,得到更新了所述边的属性且更新了所述边的权重的主图;将更新了所述边的属性且更新了所述边的权重的主图确定为目标图。
2.根据权利要求1所述的方法,其特征在于,在所述第一节点关联的节点与所述第二节点关联的节点相连时,所述第一数量个边不包括所述第一节点关联的节点与所述第二节点关联的节点之间的边,以及所述第二数量个边不包括所述第一节点关联的节点与所述第二节点关联的节点之间的边。
3.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个子图中每个子图对应的目标群体的群体特征,包括:
根据所述至少一个子图中每个子图的各个节点的信息和各个边的属性,确定所述每个子图对应的目标群体的初始特征;
对所述每个子图对应的目标群体的初始特征进行特征工程处理,得到所述每个子图对应的目标群体的群体特征。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
获取所述疑似欺诈群体对应的目标子图;
根据所述目标子图的各个边的权重,确定所述疑似欺诈群体包括的多个成员中每个成员的权重;
根据所述每个成员的权重,从所述多个成员中确定核心成员。
5.一种群体识别装置,其特征在于,所述装置包括:
生成模块,用于从理赔案件中抽取多个目标实体以及所述多个目标实体之间的关联事件,并基于所述多个目标实体和所述多个目标实体之间的关联事件生成多个同构图;
融合模块,用于从所述多个同构图中确定出主图,并对所述主图以及所述多个同构图中除所述主图以外的同构图进行融合处理,得到目标图;所述主图为所述多个同构图中节点数和边数之和最大的同构图;
划分模块,用于将所述目标图划分为至少一个子图;
确定模块,用于确定所述至少一个子图中每个子图对应的目标群体的群体特征;
预测模块,用于利用风险预测模型根据所述群体特征进行欺诈风险预测,得到各目标群体的风险值;
所述确定模块,还用于将所述各目标群体中风险值大于或等于预设值的目标群体确定为疑似欺诈群体;
其中,所述融合模块具体用于:
从所述多个同构图中除所述主图以外的同构图中,确定出与所述主图中的第一节点关联的节点以及与所述主图中与所述第一节点相连的第二节点关联的节点;将所述第一节点关联的节点的信息以及所述第二节点关联的节点的信息,添加至所述第一节点与所述第二节点之间的边的属性中,得到更新了所述边的属性的主图;
确定所述第一节点关联的节点在所述除所述主图以外的同构图中所连接的第一数量个边中每个边的权重;确定所述第二节点关联的节点在所述除所述主图以外的同构图中所连接的第二数量个边中每个边的权重;
利用所述第一数量个边中每个边的权重、所述第二数量个边中每个边的权重,对所述更新了所述边的属性的主图中的所述边的初始权重进行更新,得到更新了所述边的属性且更新了所述边的权重的主图;将更新了所述边的属性且更新了所述边的权重的主图确定为目标图。
6.一种电子设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110855561.XA CN113487109B (zh) | 2021-07-27 | 2021-07-27 | 群体识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110855561.XA CN113487109B (zh) | 2021-07-27 | 2021-07-27 | 群体识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113487109A CN113487109A (zh) | 2021-10-08 |
CN113487109B true CN113487109B (zh) | 2023-11-24 |
Family
ID=77943230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110855561.XA Active CN113487109B (zh) | 2021-07-27 | 2021-07-27 | 群体识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113487109B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114493898A (zh) * | 2022-02-09 | 2022-05-13 | 北京新致君阳信息技术有限公司 | 保险理赔案件的风险实体识别方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562814B1 (en) * | 2003-05-12 | 2009-07-21 | Id Analytics, Inc. | System and method for identity-based fraud detection through graph anomaly detection |
WO2018149299A1 (zh) * | 2017-02-20 | 2018-08-23 | 平安科技(深圳)有限公司 | 社保欺诈行为的识别方法、装置、设备及计算机存储介质 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN111325258A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 特征信息获取方法、装置、设备及存储介质 |
CN111382315A (zh) * | 2018-12-29 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 子图同构匹配结果的合并方法、电子设备及存储介质 |
CN112926990A (zh) * | 2021-03-25 | 2021-06-08 | 支付宝(杭州)信息技术有限公司 | 欺诈识别的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210081963A1 (en) * | 2019-09-13 | 2021-03-18 | Jpmorgan Chase Bank, N.A. | Systems and methods for using network attributes to identify fraud |
-
2021
- 2021-07-27 CN CN202110855561.XA patent/CN113487109B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562814B1 (en) * | 2003-05-12 | 2009-07-21 | Id Analytics, Inc. | System and method for identity-based fraud detection through graph anomaly detection |
WO2018149299A1 (zh) * | 2017-02-20 | 2018-08-23 | 平安科技(深圳)有限公司 | 社保欺诈行为的识别方法、装置、设备及计算机存储介质 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN111382315A (zh) * | 2018-12-29 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 子图同构匹配结果的合并方法、电子设备及存储介质 |
CN111325258A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 特征信息获取方法、装置、设备及存储介质 |
CN112926990A (zh) * | 2021-03-25 | 2021-06-08 | 支付宝(杭州)信息技术有限公司 | 欺诈识别的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113487109A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
CN109003089B (zh) | 风险识别方法及装置 | |
Carneiro et al. | A data mining based system for credit-card fraud detection in e-tail | |
US20190355058A1 (en) | Method and apparatus for processing credit score real-time adjustment, and processing server | |
US20170270156A1 (en) | Data de-duplication systems and methods | |
CN108876600A (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
US20120323760A1 (en) | Dynamic loan service monitoring system and method | |
CN112580952A (zh) | 用户行为风险预测方法、装置、电子设备及存储介质 | |
CN110348528A (zh) | 基于多维数据挖掘的用户信用确定方法 | |
CN112561685B (zh) | 客户的分类方法和装置 | |
CN113159922A (zh) | 一种数据的流向识别方法、装置、设备及介质 | |
CN113807940B (zh) | 信息处理和欺诈行为识别方法、装置、设备及存储介质 | |
CN114782161A (zh) | 识别风险用户的方法、装置、存储介质及电子装置 | |
CN113487109B (zh) | 群体识别方法、装置、电子设备及存储介质 | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
CN113177660A (zh) | 驾驶意图预测与处理方法、装置、设备及存储介质 | |
Hossain et al. | A differentiate analysis for credit card fraud detection | |
CN113450011A (zh) | 任务分配方法和装置 | |
Xiang et al. | A bonus-malus framework for cyber risk insurance and optimal cybersecurity provisioning | |
Sathya et al. | Insurance fraud detection using novel machine learning technique | |
CN115018210A (zh) | 业务数据分类预测方法、装置、计算机设备和存储介质 | |
CN113706258A (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
CN114998002A (zh) | 风险操作预测方法及装置 | |
Hou et al. | A trial of student self-sponsored peer-to-peer lending based on credit evaluation using big data analysis | |
JP2005346730A (ja) | 履歴情報を用いたクレジットカードの不正利用の判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |