CN117036060A - 车险欺诈识别方法、装置和存储介质 - Google Patents
车险欺诈识别方法、装置和存储介质 Download PDFInfo
- Publication number
- CN117036060A CN117036060A CN202311263260.3A CN202311263260A CN117036060A CN 117036060 A CN117036060 A CN 117036060A CN 202311263260 A CN202311263260 A CN 202311263260A CN 117036060 A CN117036060 A CN 117036060A
- Authority
- CN
- China
- Prior art keywords
- rule
- order
- vehicle
- rule set
- predicates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 65
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 238000005065 mining Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000011156 evaluation Methods 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 30
- 238000012217 deletion Methods 0.000 claims description 13
- 230000037430 deletion Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 11
- 230000002068 genetic effect Effects 0.000 claims description 10
- 238000009960 carding Methods 0.000 claims description 7
- 238000005309 stochastic process Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000008439 repair process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 12
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Fuzzy Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及一种车险欺诈识别方法、装置和存储介质。主要包括:构建车险结构化数据库;基于车险结构化数据库和车险理赔流程业务,得到候选一阶谓词;基于车险结构化数据库和候选一阶谓词构建知识图谱;利用规则挖掘算法对知识图谱进行挖掘,得到车险欺诈识别规则集;基于车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型;基于车险欺诈识别规则集,将待识别车险理赔数据进行实例化后输入至训练完备的随机过程模型中,输出车险欺诈识别结果。采用本方法能够实现规则的自动挖掘和车险欺诈识别的推理,解决了现有技术中车险欺诈识别过程不具备可解释性的问题,提高车险欺诈结果的准确率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种车险欺诈识别方法、装置和存储介质。
背景技术
车险欺诈是保险欺诈的重灾区,车险欺诈手法多样化、隐蔽化,欺诈人员团伙化、专业化、规模化,因此业界对快速、准确、自动化识别欺诈案件的方法和装置有着迫切的需求。除了对欺诈识别方法的准确度有要求外,对它的专家知识使用和可解释性方面也有很高的要求。
首先,专家知识一般来说有很强的方向性,但是一些细节层面的信息可能会有所缺失,专家的知识具有稳定性和通用性的特点,有效和合理的利用专家信息可以对提高方法的准确度、可靠性、可解释性,因此这是第一个挑战。其次在可解释性方面,因为在欺诈案件识别的目的是快速定位欺诈案件,并能解释案件中与欺诈高度相关的关键因子/因素,这样保险公司的工作人员就可以围绕关键因子/因素进行相应的调查工作,如果不能作相应的解释,则工作人员进行调查时就需要核实各种信息,工作的针对性和效率都会急剧下降,这是第二个挑战。例如如果判别为团队欺诈,那则可以重点围绕相关人员的资金往来进行调查,如果是虚假车祸,那则可以重点围绕着现场的痕迹方面进行调查。
对于专家知识的使用,目前的研究有两种方式,一种是完全不使用专家知识,另外一种是完全依赖于专家知识,前一种方式不能有效利用专家领域性的知识,第二种方法则过分依赖于专家的知识,专家的知识在整体方向性上非常可靠,但是一些细节层面则未必可以洞悉。
在专利《基于专家规则的人工智能模型结果溯源方法、系统、装置》中是通过专家设定的详细规则进行车险欺诈的溯源,其中有单车事故+标的+倾覆+估损金额+标的车龄+人伤→虚假车祸这种专家规则,首先虚假车祸肯定是和上述6个因素组合强相关,但是专家提供的评估金额和年龄岁数上的这种详细的参数性信息未必准确。在可解释性方面,当前针对车险欺诈识别主要采用机器学习的方法进行,但是黑箱算法不具备可解释性。例如专利《一种基于知识图谱的车险理赔欺诈风险识别方法和系统》通过解析、拆分历史车险案件的结构化数据,根据车险理赔反欺诈业务场景、理赔流程设计的本体,历史案件实例化为案件知识图谱后,使用子图关键节点筛选和图点集向量化,建立多个案件间高欺诈风险筛选模型。其中的关键子图是使用了RotatE、TransE、TransH、TransR和TransD模型进行向量嵌入化表示导致相应的算法黑箱化,不具备可解释性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够高效、合理利用专家知识进行规则挖掘,同时基于挖掘的规则进行逻辑推理得到准确、可解释的车险欺诈结果的车险欺诈识别方法、装置和存储介质。
第一方面,本申请提供了一种车险欺诈识别方法,所述方法包括:
基于车险理赔流程业务中产生的结构化历史数据,构建车险结构化数据库;
对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词;
从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱;
利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集;
基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型;
基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果。
在其中一个实施例中,所述候选一阶谓词包括阈值一阶谓词和直接一阶谓词,所述对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词包括:
对所述车险理赔流程业务进行梳理,得到所述相关一阶谓词;
若所述车险结构化数据库中存在与所述相关一阶谓词相对应的字段,则对所述相关一阶谓词进行标注;
若标注后的相关一阶谓词所对应的字段的缺失率小于设定阈值,则该所述标注后的相关一阶谓词为候选一阶谓词;
若所述候选一阶谓词需要进行阈值计算,则将所述候选一阶谓词标记为所述阈值一阶谓词,反之,则将所述候选一阶谓词标记为所述直接一阶谓词。
在其中一个实施例中,所述车险结构化数据库包括处理流程数据和案件细节数据,所述从所述车险结构化数据库获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱包括:
基于所述处理流程数据,获取处理流程本体,基于所述直接一阶谓词,获取所述处理流程本体对应的流程属性;基于所述案件细节数据,获取案件细节本体,基于所述直接一阶谓词和所述阈值一阶谓词,获取所述案件细节本体对应的细节属性;
基于所述处理流程本体和对应的所述流程属性、所述案件细节本体和对应的所述细节属性,获取构建所述知识图谱的点的实体;
基于所述点的实体,获取构建所述知识图谱的关系,并基于所述关系,获取构建所述知识图谱的边的实体;
基于所述处理流程本体和对应的所述流程属性、所述案件细节本体和对应的所述细节属性、所述点的实体和所述边的实体,构建得到所述知识图谱。
在其中一个实施例中,所述利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集包括:
基于所述候选一阶谓词,利用以下一阶逻辑表达式,得到所述一阶逻辑规则:
wi:P1(C1)∧P2(C2)∧…Pi(Ci)…∧Pn(Cn)→Ph(Ch);
其中,Pi表示所述候选一阶谓词,Ci表示与所述候选一阶谓词对应所述知识图谱中实体的集合,由P1到Pn组成的合取范式为所述一阶逻辑规则的规则体,Ph为所述一阶逻辑规则的规则头,wi为所述一阶逻辑规则的规则权重;
利用随机算法或贪心算法,对所述一阶逻辑规则进行初始化,得到初始规则集;
基于所述初始规则集利用遗传算法或路径重连算法生成新规则,并基于所述新规则对所述初始规则集进行迭代更新,得到所述车险欺诈识别规则集。
在其中一个实施例中,所述基于所述新规则对所述初始规则集进行迭代更新,得到所述车险欺诈识别规则集包括:
对所述初始规则集进行规则评估,得到评估后的初始规则集;
将所述新规则插入所述评估后的初始规则集中,利用规则评估函数,对插入后的初始规则集进行适应度评估,删除所述插入后的初始规则集中质量小于设定阈值的规则,得到所述车险欺诈识别规则集。
在其中一个实施例中,所述将所述新规则插入评估后的初始规则集中,利用规则评估函数,对插入后的初始规则集进行适应度评估包括:
利用以下公式(1),对所述初始规则集进行普遍性评估:
;
其中,hc表示普遍性评估值,表示规则体为正例且对应规则头也为正例的数目,size(head)表示规则头为正例的数目;
利用以下公式(2),对所述初始规则集进行稳定性评估:
;
其中,con表示稳定性评估值,表示规则体为正例且对应规则头也为正例的数目,size(body)表示规则体为正例的数目;
将公式(1)与公式(2)进行线性组合,得到以下公式(3):
;
其中,f为所述规则评估函数,α为所述普遍性评估值的评估系数,β为所述稳定性评估值的评估系数;
基于所述规则评估函数,得到所述初始规则集的适应度。
在其中一个实施例中,所述随机过程模型为马尔科夫逻辑模型,所述基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型包括:
基于所述知识图谱,对所述车险欺诈识别规则集中的规则进行实例化;
将实例化后的车险欺诈识别规则集,利用卢卡西维奇逻辑转化为对应的连续表达式;
基于所述连续表达式,构建马尔科夫逻辑模型,并利用梯度下降优化算法,训练所述马尔科夫逻辑模型,得到车险欺诈识别规则集中各规则对应的权重。
在其中一个实施例中,所述基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果包括:
基于所述车险欺诈识别规则集,对所述待识别车险理赔数据进行实例化,得到所述待识别车险理赔数据对应的实例化后的规则;
将所述实例化后的规则输入训练完备的所述随机过程模型,输出所述车险欺诈识别结果,所述车险欺诈识别结果为所述待识别车险理赔数据对应的案件的欺诈概率值。
第二方面,本申请还提供了一种车险欺诈识别装置,所述装置包括:
数据库构建模块,用于基于车险理赔流程业务中产生的结构化历史数据,构建车险结构化数据库;
一阶谓词挖掘模块,用于对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词;
知识图谱构建模块,用于从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱;
规则集挖掘模块,用于利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集;
随机模型训练模块,用于基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型;
车险欺诈识别模块,用于基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果。
第三方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的内容。
上述车险欺诈识别方法、装置和存储介质,通过车险理赔流程业务中产生的结构化历史数据,构建车险结构化数据库;对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词;从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱;利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集;基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型;基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果,实现规则的自动挖掘和车险欺诈识别的推理,解决了现有技术中车险欺诈识别过程不具备可解释性的问题,提高车险欺诈结果的准确率。
附图说明
图1为一个实施例中车险欺诈识别方法的流程示意图;
图2为一个实施例中S102具体步骤的流程示意图;
图3为一个实施例中S103具体步骤的流程示意图;
图4为一个实施例中S104具体步骤的流程示意图;
图5为一个实施例中S105具体步骤的流程示意图;
图6为一个实施例中S106具体步骤的流程示意图;
图7为一个实施例中车险欺诈识别装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种车险欺诈识别方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现,包括以下步骤:
S101,基于车险理赔流程业务中产生的结构化历史数据,构建车险结构化数据库。
其中,所述车险结构化数据库包括处理流程数据和案件细节数据。
具体地,对采集到的结构化历史数据进行预处理,并将预处理后的结构化历史数据导入分布式结构化数据库中,在导入过程中根据所述预处理后的结构化历史数据的各特征按列将不同数据类型进行建表,同时构建检索查询接口,便于后续进行数据分析,最终得到所述车险结构化数据库。其中,预处理过程包括数据清洗、设定对应案件的唯一的案件编号(Case_UID)。
S102,对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词。
具体地,获取行业专家分析车险理赔流程业务梳理出的相关一阶谓词,利用车险结构化数据库查询与相关一阶谓词对应的字段,若存在相关字段,则对相关一阶谓词进行标注,若不存在则舍弃。对标注后的相关一阶谓词进行汇总,并计算标注后的相关一阶谓词与对应的字段之间的匹配程度,对标注后的相关一阶谓词进行筛选,得到候选一阶谓词。
S103,从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱。
具体地,利用车险结构化数据库和候选一阶谓词构建对应知识图谱,构建知识图谱需要获取最小构建单元“点的实体-边的实体-点的实体”。从车险结构化数据库中获取构建知识图谱的本体,从候选一阶谓词中国获取本体对应的属性。利用本体和属性得到知识图谱的点的实体以及边的实体,构建所述知识图谱。
S104,利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集。
具体地,将知识图谱转化为三元组的形式输入规则挖掘算法中,得到车险欺诈识别规则集。
S105,基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型。
其中,所述随机过程模型为马尔科夫逻辑模型。
具体地,利用知识图谱中的对应数据信息将车险欺诈识别规则集中的每一个规则进行实例化,再将实例化后的规则转化为连续表达式。构建马尔科夫逻辑模型,并利用连续表达式作为马尔科夫逻辑模型的训练集,得到训练完备的马尔科夫逻辑模型。在训练过程中,利用梯度下降的方法对各个规则的权重进行优化。
S106,基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果。
具体地,将待识别车险理赔数据输入车险结构化数据库,同时获取对应的车险理赔流程业务的一阶谓词,基于所述一阶谓词和待识别车险理赔数据对知识图谱进行扩充。查询车险欺诈识别规则集中与待识别车险理赔数据同时存在的信息,对待识别车险理赔数据进行实例化,并输入到训练完备的马尔科夫逻辑模型中,输出对应的车险欺诈识别结果。
上述车险欺诈识别方法中,通过基于车险理赔流程业务中产生的结构化历史数据,构建车险结构化数据库;对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词;从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱;利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集;基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型;基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果,实现规则的自动挖掘和车险欺诈识别的推理,解决了现有技术中车险欺诈识别过程不具备可解释性的问题,提高车险欺诈结果的准确率。
在一个实施例中,如图2所示,S102对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词具体包括以下步骤:
S201,对所述车险理赔流程业务进行梳理,得到所述相关一阶谓词。
S202,若所述车险结构化数据库中存在与所述相关一阶谓词相对应的字段,则对所述相关一阶谓词进行标注。
S203,若标注后的相关一阶谓词所对应的字段的缺失率小于设定阈值,则该所述标注后的相关一阶谓词为候选一阶谓词。
具体地,对标注后的相关一阶谓词设定缺失率阈值,保留缺失率小于设定缺失率阈值的所述标注后后的相关一阶谓词,作为候选一阶谓词。
S204,若所述候选一阶谓词需要进行阈值计算,则将所述候选一阶谓词标记为所述阈值一阶谓词,反之,则将所述候选一阶谓词标记为所述直接一阶谓词。
具体地,判断候选一阶谓词是否需要进行阈值计算,若需要,则将候选一阶谓词标记为阈值一阶谓词,若不需要,则将候选一阶谓词标记为直接一阶谓词。其中,所述直接一阶谓词可以直接通过查询车险结构化车险数据库判断对应实例化的谓词是否成立。所述阈值一阶谓词则需要对车险结构化数据库进行查询计算和阈值比较后才能确定对应实例化的谓词是否成立。
示例性地,对于直接一阶谓词,例如“案件车辆在三者4S店维修”、“案件车辆标的营运”、“案件标的驾驶员为女性”可以从车险结构化数据库中直接判断得到,操作过程如下:“CaseDetails->Assessment->RepairFactoryType”、“CaseDetails->Auto->AutoUsage”、“CaseDetails->Auto->Driver->Gender”。除此之外,还有需要进行一定处理,但是不需要进行阈值比较的直接一阶谓词,例如,针对某车险欺诈团伙设定一阶谓词为“团伙X”,经过对“团伙X”相关的案件细节数据的分析,记录所有修理厂、参与人的数据,并对某次共犯信息进行标注。具体来说:由于车险结构化数据库中的数据均由案件编号(Case_UID)进行关联,因此将标记为“欺诈”的案件关联所有相关人员和修理厂进行统计和提取,得到如下表1所示信息:
表1
基于表1,生成欺诈记录列表L[n],L[n]=[{A,B,a}1,{C,D,E,b}2,{F,G,H,c}3……{...}n],列表中每个元素都是欺诈案件的相关人员和修理厂的集合。对每个元素进行统计,若某一个集合L[9]出现次数大于1,则标记对应的列表L[9]为“团伙X”并确定X的编号,将集合中所有相关人员各修理厂的属性值都赋值为1。
对欺诈记录列表L[n]进行去重,遍历去重后的欺诈记录列表L[n],若集合中存在大于1个“团伙X”属性值为1的集合数据,则将集合中其他人员或修理厂的属性值均标记为1;若集合中存在至少两个具备前科但分别属于不同“团伙”的集合元素,例如“团伙X”和“团伙Y”,则表示“团伙X”和“团伙Y”为同一个团伙,将这两个集合进行合并,并将集合中的其他人员和修理厂的属性值标记为1,直至所有的集合中不存在大于1个具备前科的元素,获得最终的团伙,如下表2所示:
表2
示例性地,对于阈值一阶谓词,将只有阈值不同,其他元素和逻辑关系均相同的阈值一阶谓词标注为一类一阶谓词,其下对应不同阈值的阈值一阶谓词标注为该类一阶谓词的原子谓词。例如“诈骗案件的报案时间与定损时间间隔小于T”,需要从车险结构化数据库中抽取相关的案件编号(Case_UID)、对应的报案时间t1和定损时间t2,并计算各条数据的报案定损时间差△t=t2-t1,删除△t小于0的脏数据。根据设定的阈值T,判断△t小于T是否成立,若是,则该阈值一阶谓词为真,否则为假。
在其中一个实施例中,利用车险结构化数据库对阈值一阶谓词中的阈值进行分析,得到若干个候选阈值。以“X案件的报案时间与定损时间间隔小于T”为例:
方法一:对抽取出的各条数据的报案定损时间差△t进行统计,绘制数据分布图,若所述数据分布图符合正态分布,则取各报案定损时间差△t的四分位数作为候选阈值T。
方法二:对抽取出的各条数据的报案定损时间差△t进行统计,获取报案定损时间差△t的最大值tmax、最小值tmin,将区间[tmax,tmin]平均分成10份,得到t_list=[tmin,tmin+(tmax-tmin)/10,tmin+2×(tmax-tmin)/10,……,tmax],使候选阈值T=t_list[0],T=t_list[1]......T=t_list[9],分别计算得到“时间差是否小于阈值T”的结果,并将所述结果与案件编号(Case_UID)对应的真实数据进行评估指标(AUC,Area Under Curve)计算,得到评估指标AUC的值,取使得评估指标AUC最大的若干T值作为候选阈值。其中,当得到的多个评估指标AUC的值相差小于1%,则说明不同的T值效果相当。
方法三:对抽取出的各条数据的报案定损时间差△t进行正序排列,生成新的数组t_sort,项数为n,对数组t_sort取十分位数,得到以下位置的值:
;
令T=t_sort[Q1],t_sort[Q2],t_sort[Q3],……,t_sort[Q9],分别计算得到“时间差是否小于阈值T”的结果,并将所述结果与案件编号(Case_UID)对应的真实数据进行评估指标AUC计算,得到评估指标AUC的值,取使得评估指标AUC最大的若干T值作为候选阈值。
在一个实施例中,如图3所示,S103从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱,具体包括以下步骤:
S301,基于所述处理流程数据,获取处理流程本体,基于所述直接一阶谓词,获取所述处理流程本体对应的流程属性;基于所述案件细节数据,获取案件细节本体,基于所述直接一阶谓词和所述阈值一阶谓词,获取所述案件细节本体对应的细节属性。
具体地,车险处理流程主要有报案(FirstNoticeOfLoss)、查勘(Inspection)、定损(Assessment)三个阶段,分别对应三个处理流程本体。这类本体的属性主要为与处理流程数据对应的直接一阶谓词,可从处理流程数据中直接提取得到。例如报案本体的“IsDiffArea”属性、查勘本体的“IsPeopleInjured”属性。
具体地,车险案件细节包括案件(Case)、修理厂(RepairFactory)、保单(Policy)、参与人(Person)等,分别对应多个案件细节本体,可以从案件细节数据中得到。案件细节本体对应的细节属性大部分为直接一阶谓词,同时也存在阈值一阶谓词,例如,修理厂本体的“IsCooperativeRF”属性是直接一阶谓词,案件本体的“报案时间与定损时间间隔”属性则是阈值一阶谓词,修理厂本体和参与人本体的“团伙X”属性属于直接一阶谓词。
S302,基于所述处理流程本体和对应的所述流程属性、所述案件细节本体和对应的所述细节属性,获取构建所述知识图谱的点的实体。
具体地,分别根据各处理流程本体、案件细节本体以及对应的流程属性、细节属性,从车险结构化数据库中提取对应的数据列和案件编号(Case_UID)。每一个数据列可以得到对应的一个实体,针对不同实体进行数据清洗(包括去重、去空值等)。定义清洗后的各实体的唯一标识符node_id并输出csv(Comma-Separated Values)实体文件。其中,唯一标识符node_id为实体的编号,每一个csv实体文件中实体的编号各不相同,例如本体A的csv实体文件中node_id编号的范围为[1,100],本体B的csv实体文件中node_id编号的范围为[101,500]。
S303,基于所述点的实体,获取构建所述知识图谱的关系,并基于所述关系,获取构建所述知识图谱的边的实体。
具体地,由于实体间关系复杂,难以直接获取知识图谱的关系,因此需要确定关系所需要的本体,获取对应的csv实体文件,利用自动化程序来进行判断和抽取。
示例性地,以获取修理厂本体和车辆(AUTO)本体的“Repair”边(即关系)为例,通过查看修理厂实体的csv实体文件和车辆实体的csv实体文件,逐一判断修理厂实体和车辆实体的案件编号(Case_UID)是否相同,若相同,则表示修理厂本体和车辆本体之间存在关系。分别提取csv实体文件中对应的位移标识符node_id,得到边的实体对应的csv’实体文件,所述csv’实体文件的表头包括Left_node_id和Right_node_id,即边所连接的两个点的唯一标识符node_id。
S304,基于所述处理流程本体和对应的所述流程属性、所述案件细节本体和对应的所述细节属性、所述点的实体和所述边的实体,构建得到所述知识图谱。
具体地,根据处理流程本体和对应的流程属性、案件细节本体和对应的细节属性以及关系,构建知识图谱的Schema文件。根据Schema文件、点的实体和边的实体,构建知识图谱的DataMapper文件。将Schema文件、DataMapper文件上传到车险结构数据库所在服务器,利用Shell命令将图的实体导入至图数据库(JanusGraph)中进行存储,完成知识图谱的构建。
其中,Schema文件定义了知识图谱的基本结构与索引。在Schema文件中定义"propertyKeys"属性键列表,包括属性的名称、数据类型等;定义"vertexLabels"点标签,即各本体的名称;"edgeLabels"边标签,即各关系的名称;定义点、边的索引分别为"vertexIndexes"、"edgeIndexes",包括索引名称、对应的"propertyKeys"属性键列表、"composite"索引类型是否是复合索引、"unique"是否唯一等,根据不同的点、边的特性设置不同的值。
DataMapper文件是对点的csv实体文件、边的csv’实体文件的映射文件。"vertexMap"需要分别定义各点的csv实体文件对应的本体、各列对应的属性键;"edgeMap"需要分别定义各边的csv实体文件对应的关系、边的端点对应的本体。
在一个实施例中,如图4所示,S104利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集,具体包括以下步骤:
S401,基于所述候选一阶谓词,利用以下一阶逻辑表达式,得到一阶逻辑规则:
wi:P1(C1)∧P2(C2)∧…Pi(Ci)…∧Pn(Cn)→Ph(Ch);
其中,Pi表示所述候选一阶谓词,Ci表示与所述候选一阶谓词对应所述知识图谱中实体的集合,由P1到Pn组成的合取范式为所述一阶逻辑规则的规则体,Ph为所述一阶逻辑规则的规则头,wi为所述一阶逻辑规则的规则权重。
具体地,一阶逻辑规则包括规则头(head)和规则体(body)两个部分,在本实施例中,一阶逻辑规则的规则头只包含一个一阶谓词,固定为“案件是X类型欺诈案件”,其中,由专家参与制定的一阶逻辑规则会指定X类型欺诈案件的具体类型,而对于非专家参与制定的一阶逻辑规则的规则头为“案件是一般欺诈案件”。一阶逻辑规则的规则体包含一组一阶谓词,所述一组一阶谓词中包括专家制定的一阶谓词和S102中获得到的候选一阶谓词,其中,一条一阶逻辑规则的规则体中至多出现某类一阶谓词中的一个原子谓词。
在其中一个实施例中,根据一阶逻辑规则的规则体中的一阶谓词是否由被限定,将一阶逻辑规则分为完全结构限定规则、部分结构限定规则和非结构限定规则。
完全结构限定规则是指限定一阶逻辑规则的规则体中的一阶谓词数目和种类,规则挖掘算法决策每种一阶谓词需要选取的原子谓词,例如“案件的报案时间与定损时间间隔小于T”→“案件是欺诈案件”,其中一阶逻辑规则的规则体是制定的“案件的报案时间与定损时间间隔小于T”这一类固定谓词,规则挖掘过程中不会再增加其它谓词。
部分结构限定规则是指仅限定一阶逻辑规则的规则体中的部分谓词,规则挖掘算法决策制定的每种一阶谓词需要选取的原子谓词,同时可以允许规则挖掘算法根据需要添加新的原子谓词。
非结构限定规则是指一阶逻辑规则的规则体中的一阶谓词数目和种类均不受限制,由规则挖掘算法生成。
S402,利用随机算法或贪心算法,对所述一阶逻辑规则进行初始化,得到初始规则集。
具体地,根据S401中的一阶逻辑规则表达式,针对一阶逻辑规则的规则头,在完全结构限定规则或部分结构限定规则中如果已经定义了具体的欺诈类型,例如“团伙欺诈”、“虚假车祸”等欺诈类型,则对应保持不变,否则将规则头定义为“一般欺诈案件”。针对一阶逻辑规则的规则体,将规则体中一阶谓词数目设置上限L,对完全结构限定规则或部分结构限定规则或非结构限定规则根据随机算法或贪心算法进行初始化分别生成一定数目初始规则,得到初始规则集。
方法一:随机算法
针对完全结构限定规则,从每类一阶谓词中随机选取一个原子谓词将其作为一阶逻辑规则的规则体;
针对部分结构限定规则或非结构限定规则,先随机生成一个值设定为该一阶逻辑规则的规则体的长度,随机选取一阶谓词类别填充到规则体中,将规则体的长度补充到设定的长度,随后针对选取的每类一阶谓词再随机选取一个原子谓词作为一阶逻辑规则的规则体。
方法二:贪心算法
针对完全结构限定规则,先将规则体清空,再将清空前每类一阶谓词中的原子谓词利用规则评估函数计算将其插入规则体中的适应度的评估值,以正比于评估值的概率选取一个原子谓词将其插入到规则体中,迭代执行直至清空前的每类一阶谓词均有一个原子谓词插入到规则体中。
针对部分结构限定规则,先按照上述完全结构限定规则的方法,将部分结构限定规则中清空前的每类一阶谓词用原子谓词进行替换,之后随机生成一个值设定为该规则体的长度,随机选取新的一阶谓词类别的原子谓词,计算所有原子谓词分别插入到规则体中的适应度的评估值,以正比于评估值的概率选取一个原子谓词将其插入到body中,迭代执行直至规则体的长度达到设定的长度。
针对非结构限定规则,随机生成一个值设定为该规则体的长度,随机选取新的一阶谓词类别的原子谓词,计算所有原子谓词分别插入到规则体中的适应度的评估值,以正比于评估值的概率选取一个原子谓词将其插入到body中,迭代执行直至规则体的长度达到设定的长度。
S403,基于所述初始规则集利用遗传算法或路径重连算法生成新规则,并基于所述新规则对所述初始规则集进行迭代更新,得到所述车险欺诈识别规则集。
具体地,采用元启发式生成框架,利用遗传算法或路径重连算法(Path relink算法)生成新规则。根据已有的初始规则集中的规则通过相互结合和调整变化生成新规则,在新规则生成的过程中,同一种规则之间进行相同的操作生成相应的新规则,例如由同一条原始部分结构限定规则生成的子规则,可以结合生成新规则,但是不能和由其它原始部分结构限定规则生成的子规则进行结合,也不能和完全结构限定规则或非结构限定规则相结合。
方法一:元启发式生成框架下的遗传算法
在本实施例中的遗传算法采用crossover交叉方式和permutation排列方式生成新规则,每次操作随机选取上述两种方式中的一种。
crossover交叉方式需要从初始规则集中随机选取两条规则进行crossover操作生成新规则。
当待生成的新规则是完全结构限定规则时,先随机选取若干类一阶谓词,再从一条初始完全结构限定规则中把选取类别对应的原子谓词插入到新规则的规则体中,从另外一条初始完全结构限定规则中选取剩余类别对应的原子谓词插入到新规则的规则体中。
当待生成的新规则是非结构限定规则时,在任意规则体长度的两条初始非结构限定规则中,随机选取一个数值作为新规则的规则体长度,每次按照两条初始非结构限定规则的规则体长度的占比作为从两者中选取规则的概率,从该初始非结构限定规则对应的规则体中随机选取一条原子谓词插入到新规则的规则体中,如果新规则的规则体中已包含了选取原子谓词对应的谓词种类,则跳过本次操作。
当待生成的新规则是部分结构限定规则时,对结构体中结构限定部分的原子谓词采用完全结构限定规则生成的方法生成,对结构体中非结构限定部分的原子谓词采用非结构限定规则生成的方法生成,将两部分生成的原子谓词合并作为完整的规则体。
而permutation排列方式则只需要从初始规则集中随机选取一条规则,对当前规则体中的原子谓词进行插入、删除、替换。
permutation排列方式中原子谓词的插入:针对部分结构限定规则或非结构限定规则,当规则体长度小于设定长度L时,随机选取当前规则体中不包含的一阶谓词种类,并选取该种类中的原子谓词插入,完全结构限定规则不会用到该操作。
permutation排列方式中原子谓词的删除:针对部分结构限定规则或非结构限定规则,当规则体长度大于1的情况下,随机选取一个非限定的原子谓词进行删除,完全结构限定规则不会用到该操作。
permutation排列方式中原子谓词的替换:替换包括相同类别一阶谓词之间的替换和不同类别一阶谓词之间的替换两种,其中完全结构限定规则或部分结构限定规则中只能作相同类别一阶谓词之间的替换,非结构限定规则同类和非同类之间均可替换。
方法二:元启发式生成框架下的路径重连算法
路径重连算法是针对两条初始规则搜索处于它们中间状态的规则,以其中一条初始规则作为目标规则,另一条作为源规则,从一条源规则出发通过对规则体进行一系列谓词插入、删除和同类谓词阈值移动等操作将其转化为另外一条目标规则,中间生成的所有规则均为两者中间状态的规则。在搜索迭代过程中,对中间状态的规则计算规则体中的适应度的评估值,选取评估值最大的中间状态的规则作为下一步迭代的规则。
路径重连算法中原子谓词的插入:某一类一阶谓词在目标规则中存在,但是在源规则中不存在,则将目标规则中该类对应的原子谓词插入到源规则的规则体中。
路径重连算法中原子谓词的删除:删除源规则的规则体中存在,但目标规则的规则体中不存在的某类一阶谓词所对应的原子谓词。
路径重连算法中原子谓词的同类谓词阈值移动:如果源规则的规则体和目标规则的规则体均包含某类一阶谓词,且该类一阶谓词包含的原子谓词数目大于两个,则将源规则的规则体中该类一阶谓词的阈值参数向目标规则的规则体中对应的阈值参数的方向移动。例如源规则中的原子谓词“案件的报案时间与定损时间间隔小于5min”,目标规则中对应原子谓词为“案件的报案时间与定损时间间隔小于10min”,如果该类一阶谓词在5min和10min之间中还有7min和9min两个候选阈值,则将源规则中的阈值按照目标规则的阈值方向调整为7min。
在其中一个实施例中,S403基于所述新规则对所述初始规则集进行迭代更新,得到所述车险欺诈识别规则集,具体包括以下步骤:
S403-1,对所述初始规则集进行规则评估,得到评估后的初始规则集。
在其中一个实施例中,S403-1对所述初始规则集进行规则评估,得到评估后的初始规则集,具体包括以下步骤:
S403-1-1,利用以下公式(1),对所述初始规则集进行普遍性评估:
;
其中,hc(Head coverage)表示普遍性评估值,表示规则体为正例且对应规则头也为正例的数目,size(head)表示规则头为正例的数目。
S403-1-2,利用以下公式(2),对所述初始规则集进行稳定性评估:
;
其中,con(Confidence)表示稳定性评估值,表示规则体为正例且对应规则头也为正例的数目,size(body)表示规则体为正例的数目。
S403-1-3,将公式(1)与公式(2)进行线性组合,得到以下公式(3):
;
其中,f为所述规则评估函数,α为所述普遍性评估值的评估系数,β为所述稳定性评估值的评估系数。
S403-1-4,基于所述规则评估函数,得到所述初始规则集的适应度。
S403-2,将所述新规则插入所述评估后的初始规则集中,利用规则评估函数,对插入后的初始规则集进行适应度评估,删除所述插入后的初始规则集中质量小于设定阈值的规则,得到所述车险欺诈识别规则集。
具体地,将新规则插入所述评估后的初始规则集中,利用上述公式(3),对插入后的初始规则集中每一个规则进行适应度评估,从中删除评估值小于设定阈值的规则,保证插入后的初始规则集的规模与原本的初始规则集的规模大小一致。若在K轮新规则插入迭代过程中,输出的中每一类规则的优度都不再提升,则遗传算法或路径重连算法收敛。在整个利用元启发式搜索框架进行的对初始规则集的迭代更新过程中,将搜索到的hc普遍性评估值和con稳定性评估值均大于设定阈值的规则作为最终输出的车险欺诈识别规则集。
在一个实施例中,如图5所示,S105基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型,具体包括以下步骤:
S501,基于所述知识图谱,对所述车险欺诈识别规则集中的规则进行实例化。
具体地,对于车险欺诈识别规则集中的每一个规则,查询对应规则体和规则头中相应的实体和关系在知识图谱中同时存在的信息,每条信息构成一个实例化的规则。
S502,将实例化后的车险欺诈识别规则集,利用卢卡西维奇逻辑转化为对应的连续表达式。
具体地,使用卢卡西维奇逻辑将实例化后的规则对应的析取范式转化为连续表达式:
;
其中,yi表示规则,表示规则中不求反的变量,/>表示规则中求反的变量。
S503,基于所述连续表达式,构建马尔科夫逻辑模型,并利用梯度下降优化算法,训练所述马尔科夫逻辑模型,得到车险欺诈识别规则集中各规则对应的权重。
具体地,根据S502中得到的连续表达式,构建马尔科夫逻辑模型的概率分布函数p:
;
其中Z是归一化常数。
采用最大似然估计的方法对车险欺诈识别规则集中各规则对应的权重进行学习,规则对应的权重梯度为:
;
其中,x是数据的真实值,x’是所有可能的数据,该梯度可理解为当前世界x中规则的真值个数与在所有可能的世界中规则的真值个数的数学期望之差。
在一个实施例中,如图6所示,S106基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果,具体包括以下步骤:
S601,基于所述车险欺诈识别规则集,对所述待识别车险理赔数据进行实例化,得到所述待识别车险理赔数据对应的实例化后的规则。
具体地,将待识别车险理赔数据输入车险结构化数据库,同时获取对应的车险理赔流程业务的一阶谓词,基于所述一阶谓词和待识别车险理赔数据对知识图谱进行扩充。将待识别车险理赔数据中缺失且需要识别的信息设置为对应的变量,查询车险欺诈识别规则集中各规则的规则头和规则体中相对应的实体和关系与对应变量中同时存在的信息,每条信息构成一个实例化的规则。
S602,将所述实例化后的规则输入训练完备的所述随机过程模型,输出所述车险欺诈识别结果,所述车险欺诈识别结果为所述待识别车险理赔数据对应的案件的欺诈概率值。
具体地,在得到对应的案件的欺诈概率值时,同时输出该案件对应的多个规则中所有变量的概率值,用于分析车险欺诈的原因。
在一个示例实施例中,提供一种车险欺诈识别方法,具体包括以下步骤:
S1,对采集到的结构化历史数据进行预处理,并将预处理后的结构化历史数据导入分布式结构化数据库中,在导入过程中根据所述预处理后的结构化历史数据的各特征按列将不同数据类型进行建表,同时构建检索查询接口,便于后续进行数据分析,最终得到所述车险结构化数据库。
S2,获取行业专家分析车险理赔流程业务梳理出的相关一阶谓词,利用车险结构化数据库查询与相关一阶谓词对应的字段,若存在相关字段,则对相关一阶谓词进行标注,若不存在则舍弃。同时对标注后的相关一阶谓词进行汇总,并计算标注后的相关一阶谓词与对应的字段之间的字段缺失率,若缺失率小于70%则将其保留为候选一阶谓词,反之舍弃。
S3,利用车险结构化数据库和候选一阶谓词构建得到知识图谱。
S4,将知识图谱转化为三元组的形式,结合候选一阶谓词和/或人为定义的一阶谓词通过一阶逻辑表达式进行规则初始化。初始化过程中利用随机策略或贪心策略,得到初始规则集。
S5,在元启发式框架下,利用遗传算法或路径重连算法对初始规则集中的规则进行crossover交叉操作或permutation排列操作或原子谓词的插入、删除、同类谓词阈值移动操作,得到新规则。
S6,对所述初始规则集中各规则进行hc普遍性评估值和con稳定性评估值,得到初始规则集中各规则的适应度。
S7,将新规则插入初始规则集中,对插入后的初始规则集中各规则进行hc普遍性评估值和con稳定性评估值,删除评估值小于设定阈值的规则。
S8,重复步骤S5-S7,直至在第K轮新规则插入迭代过程中,输出的中每一类规则的评估值的优度都不再提升,此时遗传算法或路径重连算法收敛。获取在整个迭代过程中,搜索到的hc普遍性评估值和con稳定性评估值均大于设定阈值的规则作为最终输出的车险欺诈识别规则集。
S9,对于车险欺诈识别规则集中的每一个规则,查询对应规则体和规则头中相应的实体和关系在知识图谱中同时存在的信息,每条信息构成一个实例化的规则。将实例化后的车险欺诈识别规则集,利用卢卡西维奇逻辑转化为对应的连续表达式。基于连续表达式构建马尔科夫逻辑模型的概率函数,对马尔科夫逻辑模型进行训练,同时利用最大似然估计法对车险欺诈识别规则集中各规则对应的权重进行学习,得到训练完备的马尔科夫逻辑模型。
S10,将待识别车险理赔数据输入车险结构化数据库,同时获取对应的车险理赔流程业务的一阶谓词,基于所述一阶谓词和待识别车险理赔数据对知识图谱进行扩充。将待识别车险理赔数据中缺失且需要识别的信息设置为对应的变量,查询车险欺诈识别规则集中各规则的规则头和规则体中相对应的实体和关系与对应变量中同时存在的信息,每条信息构成一个实例化的规则。将实例化后的规则输入训练完备的马尔科夫逻辑模型,输出待识别车险理赔数据对应的案件的欺诈概率值,同时输出该案件对应的多个规则中所有变量的概率值。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的车险欺诈识别方法的车险欺诈识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个车险欺诈识别装置实施例中的具体限定可以参见上文中对于车险欺诈识别方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种车险欺诈识别装置,包括:数据库构建模块71、一阶谓词挖掘模块72、知识图谱构建模块73、规则集挖掘模块74、随机模型训练模块75和车险欺诈识别模块76,其中:
数据库构建模块71,用于基于车险理赔流程业务中产生的结构化历史数据,构建车险结构化数据库。
一阶谓词挖掘模块72,用于对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词。
知识图谱构建模块73,用于从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱。
规则集挖掘模块74,用于利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集。
随机模型训练模块75,用于基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型。
车险欺诈识别模块76,用于基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果。
在其中一个实施例中,所述候选一阶谓词包括阈值一阶谓词和直接一阶谓词,所述一阶谓词挖掘模块72还用于:
对所述车险理赔流程业务进行梳理,得到所述相关一阶谓词;若所述车险结构化数据库中存在与所述相关一阶谓词相对应的字段,则对所述相关一阶谓词进行标注;若标注后的相关一阶谓词所对应的字段的缺失率小于设定阈值,则该所述标注后的相关一阶谓词为候选一阶谓词;若所述候选一阶谓词需要进行阈值计算,则将所述候选一阶谓词标记为所述阈值一阶谓词,反之,则将所述候选一阶谓词标记为所述直接一阶谓词。
在其中一个实施例中,所述车险结构化数据库包括处理流程数据和案件细节数据,所述一阶谓词挖掘模块72还用于:
基于所述处理流程数据,获取处理流程本体,基于所述直接一阶谓词,获取所述处理流程本体对应的流程属性;基于所述案件细节数据,获取案件细节本体,基于所述直接一阶谓词和所述阈值一阶谓词,获取所述案件细节本体对应的细节属性;基于所述处理流程本体和对应的所述流程属性、所述案件细节本体和对应的所述细节属性,获取构建所述知识图谱的点的实体;基于所述点的实体,获取构建所述知识图谱的关系,并基于所述关系,获取构建所述知识图谱的边的实体;基于所述处理流程本体和对应的所述流程属性、所述案件细节本体和对应的所述细节属性、所述点的实体和所述边的实体,构建得到所述知识图谱。
在其中一个实施例中,所述规则集挖掘模块74还用于:
基于所述候选一阶谓词,利用以下一阶逻辑表达式,得到所述一阶逻辑规则:
wi:P1(C1)∧P2(C2)∧…Pi(Ci)…∧Pn(Cn)→Ph(Ch);
其中,Pi表示所述候选一阶谓词,Ci表示与所述候选一阶谓词对应所述知识图谱中实体的集合,由P1到Pn组成的合取范式为所述一阶逻辑规则的规则体,Ph为所述一阶逻辑规则的规则头,wi为所述一阶逻辑规则的规则权重。
利用随机算法或贪心算法,对所述一阶逻辑规则进行初始化,得到初始规则集;基于所述初始规则集利用遗传算法或路径重连算法生成新规则,并基于所述新规则对所述初始规则集进行迭代更新,得到所述车险欺诈识别规则集。
在其中一个实施例中,所述规则集挖掘模块74还用于:
对所述初始规则集进行规则评估,得到评估后的初始规则集;将所述新规则插入所述评估后的初始规则集中,利用规则评估函数,对插入后的初始规则集进行适应度评估,删除所述插入后的初始规则集中质量小于设定阈值的规则,得到所述车险欺诈识别规则集。
在其中一个实施例中,所述规则集挖掘模块74还用于:
利用以下公式(1),对所述初始规则集进行普遍性评估:
;
其中,hc表示普遍性评估值,表示规则体为正例且对应规则头也为正例的数目,size(head)表示规则头为正例的数目;/>
利用以下公式(2),对所述初始规则集进行稳定性评估:
;
其中,con表示稳定性评估值,表示规则体为正例且对应规则头也为正例的数目,size(body)表示规则体为正例的数目;
将公式(1)与公式(2)进行线性组合,得到以下公式(3):
;
其中,f为所述规则评估函数,α为所述普遍性评估值的评估系数,β为所述稳定性评估值的评估系数;
基于所述规则评估函数,得到所述初始规则集的适应度。
在其中一个实施例中,所述随机过程模型为马尔科夫逻辑模型,所述基于所述随机模型训练模块75还用于:
基于所述知识图谱,对所述车险欺诈识别规则集中的规则进行实例化;将实例化后的车险欺诈识别规则集,利用卢卡西维奇逻辑转化为对应的连续表达式;基于所述连续表达式,构建马尔科夫逻辑模型,并利用梯度下降优化算法,训练所述马尔科夫逻辑模型,得到车险欺诈识别规则集中各规则对应的权重。
在其中一个实施例中,所述车险欺诈识别模块76还用于:
基于所述车险欺诈识别规则集,对所述待识别车险理赔数据进行实例化,得到所述待识别车险理赔数据对应的实例化后的规则;将所述实例化后的规则输入训练完备的所述随机过程模型,输出所述车险欺诈识别结果,所述车险欺诈识别结果为所述待识别车险理赔数据对应的案件的欺诈概率值。
上述车险欺诈识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储车险结构化数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种车险欺诈识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各实施例中所述方法对应的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例中所述方法对应的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各实施例中所述方法对应的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种车险欺诈识别方法,其特征在于,所述方法包括:
基于车险理赔流程业务中产生的结构化历史数据,构建车险结构化数据库;
对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词;
从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱;
利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集;
基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型;
基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果。
2.根据权利要求1所述的车险欺诈识别方法,其特征在于,所述候选一阶谓词包括阈值一阶谓词和直接一阶谓词,所述对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词包括:
对所述车险理赔流程业务进行梳理,得到所述相关一阶谓词;
若所述车险结构化数据库中存在与所述相关一阶谓词相对应的字段,则对所述相关一阶谓词进行标注;
若标注后的相关一阶谓词所对应的字段的缺失率小于设定阈值,则该所述标注后的相关一阶谓词为候选一阶谓词;
若所述候选一阶谓词需要进行阈值计算,则将所述候选一阶谓词标记为所述阈值一阶谓词,反之,则将所述候选一阶谓词标记为所述直接一阶谓词。
3.根据权利要求2所述的车险欺诈识别方法,其特征在于,所述车险结构化数据库包括处理流程数据和案件细节数据,所述从所述车险结构化数据库获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱包括:
基于所述处理流程数据,获取处理流程本体,基于所述直接一阶谓词,获取所述处理流程本体对应的流程属性;基于所述案件细节数据,获取案件细节本体,基于所述直接一阶谓词和所述阈值一阶谓词,获取所述案件细节本体对应的细节属性;
基于所述处理流程本体和对应的所述流程属性、所述案件细节本体和对应的所述细节属性,获取构建所述知识图谱的点的实体;
基于所述点的实体,获取构建所述知识图谱的关系,并基于所述关系,获取构建所述知识图谱的边的实体;
基于所述处理流程本体和对应的所述流程属性、所述案件细节本体和对应的所述细节属性、所述点的实体和所述边的实体,构建得到所述知识图谱。
4.根据权利要求1所述的车险欺诈识别方法,其特征在于,所述利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集包括:
基于所述候选一阶谓词,利用以下一阶逻辑表达式,得到所述一阶逻辑规则:
wi:P1(C1)∧P2(C2)∧…Pi(Ci)…∧Pn(Cn)→Ph(Ch);
其中,Pi表示所述候选一阶谓词,Ci表示与所述候选一阶谓词对应所述知识图谱中实体的集合,由P1到Pn组成的合取范式为所述一阶逻辑规则的规则体,Ph为所述一阶逻辑规则的规则头,wi为所述一阶逻辑规则的规则权重;
利用随机算法或贪心算法,对所述一阶逻辑规则进行初始化,得到初始规则集;
基于所述初始规则集利用遗传算法或路径重连算法生成新规则,并基于所述新规则对所述初始规则集进行迭代更新,得到所述车险欺诈识别规则集。
5.根据权利要求4所述的车险欺诈识别方法,其特征在于,所述基于所述新规则对所述初始规则集进行迭代更新,得到所述车险欺诈识别规则集包括:
对所述初始规则集进行规则评估,得到评估后的初始规则集;
将所述新规则插入所述评估后的初始规则集中,利用规则评估函数,对插入后的初始规则集进行适应度评估,删除所述插入后的初始规则集中质量小于设定阈值的规则,得到所述车险欺诈识别规则集。
6.根据权利要求5所述的车险欺诈识别方法,其特征在于,所述对所述初始规则集进行规则评估,得到评估后的初始规则集包括:
利用以下公式(1),对所述初始规则集进行普遍性评估:
;
其中,hc表示普遍性评估值,表示规则体为正例且对应规则头也为正例的数目,size(head)表示规则头为正例的数目;
利用以下公式(2),对所述初始规则集进行稳定性评估:
;
其中,con表示稳定性评估值,表示规则体为正例且对应规则头也为正例的数目,size(body)表示规则体为正例的数目;
将公式(1)与公式(2)进行线性组合,得到以下公式(3):
;
其中,f为所述规则评估函数,α为所述普遍性评估值的评估系数,β为所述稳定性评估值的评估系数;
基于所述规则评估函数,得到所述初始规则集的适应度。
7.根据权利要求1所述的车险欺诈识别方法,其特征在于,所述随机过程模型为马尔科夫逻辑模型,所述基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型包括:
基于所述知识图谱,对所述车险欺诈识别规则集中的规则进行实例化;
将实例化后的车险欺诈识别规则集,利用卢卡西维奇逻辑转化为对应的连续表达式;
基于所述连续表达式,构建马尔科夫逻辑模型,并利用梯度下降优化算法,训练所述马尔科夫逻辑模型,得到车险欺诈识别规则集中各规则对应的权重。
8.根据权利要求1所述的车险欺诈识别方法,其特征在于,所述基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果包括:
基于所述车险欺诈识别规则集,对所述待识别车险理赔数据进行实例化,得到所述待识别车险理赔数据对应的实例化后的规则;
将所述实例化后的规则输入训练完备的所述随机过程模型,输出所述车险欺诈识别结果,所述车险欺诈识别结果为所述待识别车险理赔数据对应的案件的欺诈概率值。
9.一种车险欺诈识别装置,其特征在于,所述装置包括:
数据库构建模块,用于基于车险理赔流程业务中产生的结构化历史数据,构建车险结构化数据库;
一阶谓词挖掘模块,用于对所述车险理赔流程业务进行梳理,得到相关一阶谓词,并基于所述车险结构化数据库,对所述相关一阶谓词进行筛选,得到候选一阶谓词;
知识图谱构建模块,用于从所述车险结构化数据库中获取构建知识图谱的本体,从所述候选一阶谓词中获取所述本体对应的属性,基于所述本体和所述属性,构建所述知识图谱;
规则集挖掘模块,用于利用规则挖掘算法对所述知识图谱进行挖掘,得到车险欺诈识别规则集;
随机模型训练模块,用于基于所述车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型;
车险欺诈识别模块,用于基于所述车险欺诈识别规则集,将待识别车险理赔数据进行实例化,并输入至所述训练完备的所述随机过程模型中,输出所述待识别车险理赔数据的车险欺诈识别结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311263260.3A CN117036060A (zh) | 2023-09-27 | 2023-09-27 | 车险欺诈识别方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311263260.3A CN117036060A (zh) | 2023-09-27 | 2023-09-27 | 车险欺诈识别方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036060A true CN117036060A (zh) | 2023-11-10 |
Family
ID=88626673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311263260.3A Pending CN117036060A (zh) | 2023-09-27 | 2023-09-27 | 车险欺诈识别方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036060A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808597A (zh) * | 2024-02-26 | 2024-04-02 | 支付宝(杭州)信息技术有限公司 | 一种生成风险规则的方法及装置 |
-
2023
- 2023-09-27 CN CN202311263260.3A patent/CN117036060A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808597A (zh) * | 2024-02-26 | 2024-04-02 | 支付宝(杭州)信息技术有限公司 | 一种生成风险规则的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
Liu et al. | Uncertainty and confidence in land cover classification using a hybrid classifier approach | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN110837602A (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN113255895B (zh) | 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 | |
Wang et al. | Causal discovery from incomplete data: a deep learning approach | |
CN117036060A (zh) | 车险欺诈识别方法、装置和存储介质 | |
CN115358809A (zh) | 一种基于图对比学习的多意图推荐方法及装置 | |
CN112580780A (zh) | 模型训练的处理方法、装置、设备和存储介质 | |
CN115953172A (zh) | 一种基于图神经网络的欺诈风险识别方法和装置 | |
Rabbi et al. | An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
KR20210042709A (ko) | 기업 관계 데이터를 이용한 주가 예측 방법 및 서버 | |
CN116668105A (zh) | 一种结合工控安全知识图谱的攻击路径推理系统 | |
CN112784008B (zh) | 案件相似度确定方法及装置、存储介质、终端 | |
CN115965466A (zh) | 一种基于子图对比的以太坊账户身份推理方法及系统 | |
CN112580781A (zh) | 深度学习模型的处理方法、装置、设备和存储介质 | |
CN113204714A (zh) | 一种基于用户画像的任务推荐方法、装置、存储介质及终端 | |
Liu et al. | Inventory Management of Automobile After-sales Parts Based on Data Mining | |
Zhao | An empirical study of data mining in performance evaluation of HRM | |
CN117078441B (zh) | 理赔欺诈识别方法、装置、计算机设备和存储介质 | |
Alzubaidi et al. | LPCNN: convolutional neural network for link prediction based on network structured features | |
CN109472370B (zh) | 一种维修厂分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |