CN116957819A - 针对保险业务的欺诈行为检测方法、装置及存储介质 - Google Patents
针对保险业务的欺诈行为检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116957819A CN116957819A CN202310955300.4A CN202310955300A CN116957819A CN 116957819 A CN116957819 A CN 116957819A CN 202310955300 A CN202310955300 A CN 202310955300A CN 116957819 A CN116957819 A CN 116957819A
- Authority
- CN
- China
- Prior art keywords
- model
- target
- detection
- insurance
- service data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 279
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000012706 support-vector machine Methods 0.000 claims abstract description 68
- 238000013145 classification model Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims description 152
- 238000012545 processing Methods 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 68
- 238000012360 testing method Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 34
- 230000004913 activation Effects 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006403 short-term memory Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 230000004927 fusion Effects 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种针对保险业务的欺诈行为检测方法、装置及存储介质。涉及人工智能技术领域。其中,该方法包括:获取目标业务数据,其中,目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据;将目标业务数据输入目标检测模型,输出第一检测结果,其中,目标检测模型的模型类型包括:长短期记忆网络模型;将第一检测结果输入目标分类模型,输出第一检测结果对应的分类标签,其中,目标分类模型的模型类型包括:支持向量机模型;基于第一检测结果和分类标签,确定目标检测结果,其中,目标检测结果用于指示目标业务数据是否存在保险欺诈行为。本发明解决了采用规则、经验、统计等方式检测保险欺诈行为,准确率低的技术问题。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种针对保险业务的欺诈行为检测方法、装置及存储介质。
背景技术
在金融业务领域,保险欺诈行为是保险业务面临的一个严重问题,保险欺诈行为通常是指保险投保人故意提供虚假信息或通过其他不正当手段获得赔偿的行为。
随着互联网技术的发展,欺诈手段越来越复杂。目前,传统的欺诈行为检测方法主要基于规则、经验、模型和统计等方法,但这些方法通常无法捕捉复杂的欺诈行为模式,无法对金融保险业务中新型欺诈行为进行有效监测,难以有效应对复杂的欺诈手段。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种针对保险业务的欺诈行为检测方法、装置及存储介质,以至少解决相关技术中在检测保险欺诈行为时,检测准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种针对保险业务的欺诈行为检测方法,包括:获取目标业务数据,其中,所述目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据;将所述目标业务数据输入目标检测模型,输出第一检测结果,其中,所述目标检测模型的模型类型包括:长短期记忆网络模型,所述检测结果包括:所述目标业务数据存在保险欺诈行为的概率;将所述第一检测结果输入目标分类模型,输出所述第一检测结果对应的分类标签,其中,所述目标分类模型的模型类型包括:支持向量机模型;基于所述第一检测结果和所述分类标签,确定目标检测结果,其中,所述目标检测结果用于指示所述目标业务数据是否存在保险欺诈行为。
进一步地,基于所述第一检测结果和所述分类标签,确定目标检测结果,包括:基于预设权重,对所述第一检测结果和所述分类标签进行加权,得到目标数值;比较所述目标数值和预设阈值,得到比较结果;在所述比较结果指示所述目标数值大于所述预设阈值的情况下,确定所述目标业务数据存在保险欺诈行为;在所述比较结果指示所述目标数值小于等于所述预设阈值的情况下,确定所述目标业务数据不存在保险欺诈行为。
进一步地,获取目标业务数据,包括:获取第一业务数据,其中,所述第一业务数据包括:与所述保险业务相关的原始业务数据;通过第一处理方式对所述第一业务数据进行处理,得到第二业务数据,其中,所述第一处理方式包括下述至少之一:数据清洗、缺失值处理、数据标准化、数据切分、特征编码,所述特征编码用于将所述第一业务数据中的非数值型数据转换为数值型数据;通过第二处理方式对所述第二业务数据进行处理,得到所述目标业务数据,其中,所述第二处理方式包括下述至少之一:特征提取、特征筛选、特征变换以及特征降维,所述特征提取用于提取所述第一业务数据中与保险欺诈行为相关的数据。
进一步地,所述目标检测模型通过以下方式得到:获取历史业务数据,其中,所述历史业务数据包括:在第一历史时间段生成的与所述保险业务相关的业务数据;采用所述第一处理方式和所述第二处理方式,对所述历史业务数据进行处理,得到第一训练样本;基于所述第一训练样本对初始检测模型进行迭代训练,得到所述目标检测模型。
进一步地,所述初始检测模型包括:输入层、隐藏层、输出层、丢弃层和优化器,其中,所述隐藏层的激活函数的类型包括:双曲正切函数,所述输出层的激活函数的类型包括:线性激活函数,对初始检测模型进行迭代训练过程中所采用的损失函数的类型包括:均方误差函数,所述丢弃层用于在模型训练过程中按预设概率丢弃所述初始检测模型中神经元的输出,所述优化器用于调整所述初始检测模型的模型参数。
进一步地,基于所述第一训练样本对初始检测模型进行迭代训练,得到所述目标检测模型,包括:将所述第一训练样本划分为第一训练集、第一验证集和第一测试集;基于所述第一训练集对初始检测模型进行迭代训练,并在对所述初始检测模型进行迭代训练过程中,采用反向传播算法,基于所述第一验证集调整所述初始检测模型的模型参数;在对所述初始检测模型进行迭代训练的迭代次数达到预设次数阈值的情况下,或,所述初始检测模型的损失函数满足预设条件的情况下,确定所述目标检测模型,并基于所述第一测试集测试对所述目标检测模型进行性能评估其中,对所述目标检测模型进行性能评估用于评估所述目标检测模型的泛化能力。
进一步地,所述目标分类模型通过以下方式得到:获取第二训练样本,其中,所述第二训练样本至少包括:在第二历史时间段所述目标检测模型输出的检测结果,所述检测结果对应的分类标签;将所述第二训练样本划分为第二训练集、第二测试集;基于随机搜索策略和所述第二训练集,对初始分类模型进行迭代训练,并基于所述第二测试集对迭代训练得到所述初始分类模型进行性能评估,得到性能评估结果,其中,所述随机搜索策略用于选择所述初始分类模型的核函数和正则化参数,所述初始分类模型为未经过模型训练的所述目标分类模型;基于所述性能评估结果,确定所述目标分类模型。
根据本发明实施例的另一方面,还提供了一种针对保险业务的欺诈行为检测装置,包括:获取单元,用于获取目标业务数据,其中,所述目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据;第一处理单元,用于将所述目标业务数据输入目标检测模型,输出第一检测结果,其中,所述目标检测模型的模型类型包括:长短期记忆网络模型,所述检测结果包括:所述目标业务数据存在保险欺诈行为的概率;第二处理单元,用于将所述第一检测结果输入目标分类模型,输出所述第一检测结果对应的分类标签,其中,所述目标分类模型的模型类型包括:支持向量机模型;确定单元,用于基于所述第一检测结果和所述分类标签,确定目标检测结果,其中,所述目标检测结果用于指示所述目标业务数据是否存在保险欺诈行为。
进一步地,确定单元包括:加权子单元,用于基于预设权重,对所述第一检测结果和所述分类标签进行加权,得到目标数值;比较子单元,用于比较所述目标数值和预设阈值,得到比较结果;第一确定子单元,用于在所述比较结果指示所述目标数值大于所述预设阈值的情况下,确定所述目标业务数据存在保险欺诈行为;第二确定子单元,用于在所述比较结果指示所述目标数值小于等于所述预设阈值的情况下,确定所述目标业务数据不存在保险欺诈行为。
进一步地,获取单元包括:第一获取子单元,用于获取第一业务数据,其中,所述第一业务数据包括:与所述保险业务相关的原始业务数据;第一处理子单元,用于通过第一处理方式对所述第一业务数据进行处理,得到第二业务数据,其中,所述第一处理方式包括下述至少之一:数据清洗、缺失值处理、数据标准化、数据切分、特征编码,所述特征编码用于将所述第一业务数据中的非数值型数据转换为数值型数据;第二处理子单元,用于通过第二处理方式对所述第二业务数据进行处理,得到所述目标业务数据,其中,所述第二处理方式包括下述至少之一:特征提取、特征筛选、特征变换以及特征降维,所述特征提取用于提取所述第一业务数据中与保险欺诈行为相关的数据。
进一步地,所述目标检测模型通过以下单元得到:第二获取单元,用于获取历史业务数据,其中,所述历史业务数据包括:在第一历史时间段生成的与所述保险业务相关的业务数据;第三处理单元,用于采用所述第一处理方式和所述第二处理方式,对所述历史业务数据进行处理,得到第一训练样本;第一训练单元,用于基于所述第一训练样本对初始检测模型进行迭代训练,得到所述目标检测模型。
进一步地,所述初始检测模型包括:输入层、隐藏层、输出层、丢弃层和优化器,其中,所述隐藏层的激活函数的类型包括:双曲正切函数,所述输出层的激活函数的类型包括:线性激活函数,对初始检测模型进行迭代训练过程中所采用的损失函数的类型包括:均方误差函数,所述丢弃层用于在模型训练过程中按预设概率丢弃所述初始检测模型中神经元的输出,所述优化器用于调整所述初始检测模型的模型参数。
进一步地,第一训练单元包括:划分子单元,用于将所述第一训练样本划分为第一训练集、第一验证集和第一测试集;调整子单元,用于基于所述第一训练集对初始检测模型进行迭代训练,并在对所述初始检测模型进行迭代训练过程中,采用反向传播算法,基于所述第一验证集调整所述初始检测模型的模型参数;第三确定子单元,用于在对所述初始检测模型进行迭代训练的迭代次数达到预设次数阈值的情况下,或,所述初始检测模型的损失函数满足预设条件的情况下,确定所述目标检测模型,并基于所述第一测试集测试对所述目标检测模型进行性能评估其中,对所述目标检测模型进行性能评估用于评估所述目标检测模型的泛化能力。
进一步地,所述目标分类模型通过以下单元得到:第三获取单元,用于获取第二训练样本,其中,所述第二训练样本至少包括:在第二历史时间段所述目标检测模型输出的检测结果,所述检测结果对应的分类标签;划分单元,用于将所述第二训练样本划分为第二训练集、第二测试集;第二训练单元,用于基于随机搜索策略和所述第二训练集,对初始分类模型进行迭代训练,并基于所述第二测试集对迭代训练得到所述初始分类模型进行性能评估,得到性能评估结果,其中,所述随机搜索策略用于选择所述初始分类模型的核函数和正则化参数,所述初始分类模型为未经过模型训练的所述目标分类模型;模型确定单元,基于所述性能评估结果,确定所述目标分类模型。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的针对保险业务的欺诈行为检测方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的针对保险业务的欺诈行为检测方法。
在本发明中,获取目标业务数据,其中,目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据;将目标业务数据输入目标检测模型,输出第一检测结果,其中,目标检测模型的模型类型包括:长短期记忆网络模型,检测结果包括:目标业务数据存在保险欺诈行为的概率;将第一检测结果输入目标分类模型,输出第一检测结果对应的分类标签,其中,目标分类模型的模型类型包括:支持向量机模型;基于第一检测结果和分类标签,确定目标检测结果,其中,目标检测结果用于指示目标业务数据是否存在保险欺诈行为。进而解决了相关技术中采用规则、经验等检测保险欺诈行为,检测准确率低的技术问题。在本发明中,通过目标检测模型检测目标业务数据存在保险欺诈行为的概率以及目标分类模型输出的分类标签,综合确定目标业务数据是否存在保险欺诈行为,避免了相关技术中采用规则、经验、统计等方式检测保险欺诈行为,准确率低的情况,从而实现了提高检测保险欺诈行为的准确率的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的针对保险业务的欺诈行为检测方法的流程图;
图2是根据本发明实施例的一种可选的模型训练过程的流程图;
图3是根据本发明实施例的一种可选的针对保险业务的欺诈行为检测装置的示意图;
图4是根据本发明实施例的一种电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据,保险业务数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
实施例一
根据本发明实施例,提供了一种可选的针对保险业务的欺诈行为检测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的针对保险业务的欺诈行为检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取目标业务数据,其中,目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据。
上述的目标业务数据可以为与保险欺诈行为相关的保险业务的数据,为了进一步提高识别目标业务数据是否存在保险欺诈行为的准确度,目标业务数据可以为对原始业务数据进行预处理和特征工程处理后得到的业务数据,预处理可以包括但不限于:数据清洗、数据转换和数据整理等,特征工程处理可以包括但不限于:特征提取、特征选择、特征转换和降维等。
步骤S102,将目标业务数据输入目标检测模型,输出第一检测结果,其中,目标检测模型的模型类型包括:长短期记忆网络模型,检测结果包括:目标业务数据存在保险欺诈行为的概率。
上述的目标检测模型可以为经过模型训练的神经网络模型,用于确定目标业务数据存在保险欺诈行为的概率,目标检测模型的模型类型可以包括但不限于:长短期记忆网络模型(LSTM模型),本实施例中以LSTM模型作为目标检测模型进行示意说明。
若目标检测模型为训练好的LSTM模型,在进行欺诈行为检测过程中,可以利用训练好的LSTM模型对输入特征(即目标业务数据)进行预测,得到预测结果。LSTM模型可以有效地捕捉保险业务数据中的时序信息。该模型输出可以是一个概率值(第一检测结果),表示该样本属于欺诈类别的概率。
步骤S103,将第一检测结果输入目标分类模型,输出第一检测结果对应的分类标签,其中,目标分类模型的模型类型包括:支持向量机模型。
上述的目标分类模型可以用于对第一检测结果,即是否存在保险欺诈行为的概率进行分类,目标分类模型输出的结果可以为第一检测结果对应的分类标签,例如:分类标签为1可以表示存在保险欺诈行为,分类标签为0可以表示不存在保险欺诈行为。
若目标检测模型为训练好的LSTM模型,目标分类模型为训练好的SVM模型,则可以将LSTM模型的输出作为SVM模型的输入。
SVM模型的输入:可以直接使用LSTM的输出概率值,也可以将概率值转换为特定阈值下的二值标签(如大于0.5则为欺诈,否则为非欺诈)。
SVM模型的输出:利用训练好的SVM模型对SVM模型的输入进行预测,得到SVM模型的预测结果(分类标签)。SVM模型具有良好的泛化能力和分类性能,可以进一步提高欺诈检测的准确性。
步骤S104,基于第一检测结果和分类标签,确定目标检测结果,其中,目标检测结果用于指示目标业务数据是否存在保险欺诈行为。
在本实施例中,为了提高检测结果的精准度,还可以基于第一检测结果和分类标准综合确定目标检测结果,例如:可以基于预设权重对第一检测结果对应的概率和分类标签的标签值进行加权计算,得到目标数值,通过目标数值与预设阈值进行比较,基于比较结果确定目标检测结果,即目标业务数据是否存在保险欺诈行为。
通过上述步骤,通过目标检测模型检测目标业务数据存在保险欺诈行为的概率以及目标分类模型输出的分类标签,综合确定目标业务数据是否存在保险欺诈行为,避免了相关技术中采用规则、经验、统计等方式检测保险欺诈行为,准确率低的情况,从而实现了提高检测保险欺诈行为的准确率的技术效果。进而解决了相关技术中采用规则、经验等检测保险欺诈行为,检测准确率低的技术问题。
可选地,基于第一检测结果和分类标签,确定目标检测结果,包括:基于预设权重,对第一检测结果和分类标签进行加权,得到目标数值;比较目标数值和预设阈值,得到比较结果;在比较结果指示目标数值大于预设阈值的情况下,确定目标业务数据存在保险欺诈行为;在比较结果指示目标数值小于等于预设阈值的情况下,确定目标业务数据不存在保险欺诈行为。
在本实施例中,为了提高检测结果的精准度可以将目标检测模型和目标分类模型输出的预测结果(即第一检测结果和分类标签)进行融合,下面以目标检测模型为LSTM模型,目标分类模型为SVM进行举例说明。
模型融合是指将多个模型的输出结合起来,以提高预测性能和鲁棒性。在本发明实施例中,采用了长短时记忆网络(LSTM)和支持向量机(SVM)两种模型进行融合。以下是模型融合的详细过程:
例如:对LSTM模型和SVM模型的预测结果进行融合。可以采用多种融合策略,如加权平均、投票法等,以使用加权平均作为结果融合策略进行说明:可以根据LSTM模型和SVM模型在模型训练过程中验证集上的性能,分配不同的权重,然后计算加权平均值作为最终的预测结果。加权平均公式Pfused如下所示:
Pfused=ωLSTM*PLSTM+ωSVM*PSVM
其中,Pfused表示融合后的预测结果,ωLSTM和ωSVM分别为LSTM和SVM的权重,PLSTM和PSVM分别表示LSTM模型预测出的概率值,SVM模型预测出的分类标签对应的标签值。为了得到最终的欺诈检测分类结果(即目标检测结果),可以根据融合后的结果Pfused设置一个阈值(即预设阈值)进行判断。设定阈值为t(例如:0.5),如果Pfused>t,则判断为欺诈(即存在保险欺诈行为),否则为非欺诈(即不存在保险欺诈行为)。
通过加权平均法将LSTM模型和SVM模型的预测结果进行融合,可以充分利用两种模型的优势,实现提高保险欺诈检测的准确性和鲁棒性的技术效果。
可选地,获取目标业务数据,包括:获取第一业务数据,其中,第一业务数据包括:与保险业务相关的原始业务数据;通过第一处理方式对第一业务数据进行处理,得到第二业务数据,其中,第一处理方式包括下述至少之一:数据清洗、缺失值处理、数据标准化、数据切分、特征编码,特征编码用于将第一业务数据中的非数值型数据转换为数值型数据;通过第二处理方式对第二业务数据进行处理,得到目标业务数据,其中,第二处理方式包括下述至少之一:特征提取、特征筛选、特征变换以及特征降维,特征提取用于提取第一业务数据中与保险欺诈行为相关的数据。
在本实施中,可以获取与保险业务相关的原始业务数据(即第一业务数据),然后对原始业务数据进行数据预处理(即第一处理方式),对保险业务数据进行预处理,可以包括:去除异常值、填充缺失值、数据标准化等操作,以提高模型输出的检测结果的准确性。还可以对预处理后得到的第二业务数据进行特征工程处理,例如:可以通过分析保险业务数据,选取与保险欺诈行为密切相关的特征作为模型的输入变量。这些特征可能包括但不限于:年龄、性别、职业、保额、保险期限、理赔记录等。
具体地,数据预处理(第一处理方式)的主要步骤包括:
1.数据清洗:对原始保险业务数据(第一业务数据)进行清洗,删除无效、重复或错误的记录。这些记录可能包括:无效的保单号、重复的客户信息、不合规的理赔请求等。此外,还可以检查数据中的异常值,并根据实际情况进行处理,如剔除、替换等。
2.缺失值处理:对原始保险业务数据中的缺失值进行填充。填充方法可以包括下述至少之一:均值填充、中位数填充、众数填充和插值法等。
3.数据标准化:对数值型特征进行标准化处理,以消除不同特征之间的量纲影响。标准化方法可以包括下述至少之一:最小最大归一化、Z-score标准化等。在模型训练过程中标准化处理可以使模型更容易收敛,并提高模型的泛化能力。
4.类别特征编码:对类别型特征(例如:非数值型数据)进行编码,将其转换为数值型数据。编码方法可以包括下述至少之一:独热编码、标签编码、二进制编码等。
5.数据切分:在模型训练过程中,还可以将处理后的数据集划分为训练集、验证集和测试集。训练集用于模型训练,验证集用于模型调优,测试集用于评估模型的泛化能力。
通过以上数据预处理步骤,可以确保保险业务数据具有较高的质量,为后续特征工程和模型训练奠定坚实基础。同时,数据预处理过程中的方法和技术可以根据不同保险公司和业务场景进行调整和优化。
特征工程(对应于第二处理方式)是指从原始数据中提取、选择、转换和降维的过程,以便更好地用于模型训练。在基于LSTM-SVM的保险欺诈检测方法中,特征工程的主要步骤如下:
1.特征提取:根据保险业务领域知识,从原始数据中提取与保险欺诈行为相关的特征。这些特征可能包括但不限于:客户基本信息(如年龄、性别、职业等)、保险产品信息(如保额、保险期限、保险种类等)、理赔记录(如理赔次数、理赔金额、理赔间隔等)和客户行为特征(如投保频率、退保次数等)。
2.特征选择:对提取的特征进行筛选(即特征筛选),剔除与保险欺诈行为关联度低、冗余或无关的特征。特征选择方法包括下述至少之一:相关系数法、卡方检验、互信息法、递归特征消除法(RFE)、基于模型的特征选择(例如:Lasso回归、决策树等)。特征选择的目标是降低模型的复杂度,提高模型的泛化能力和预测准确性。
3.特征变换:对选定的特征进行变换,以改善特征的分布、去除噪声和提高模型性能。常见的特征变换方法包括:对数变换、指数变换、Box-Cox变换等。特征变换的选择可以根据特征的性质和数据分布情况来确定。
4.特征降维:对特征进行降维处理,以减少特征的数量、降低计算复杂度和避免维数灾难。常用的特征降维方法有:主成分分析(PCA)、线性判别分析(LDA)、t-分布邻域嵌入算法(t-SNE)等。
在模型训练过程中,通过以上特征工程步骤,可以从原始保险业务数据中提取出与保险欺诈行为密切相关的特征,并对特征进行筛选、变换、降维等处理,以便更好地用于基于LSTM-SVM的保险欺诈检测模型训练,在识别业务数据是否涉及保险欺诈行为过程中,通过以上特征工程(即第二处理方式)步骤,可以提高模型检测结果的准确性。
可选地,目标检测模型通过以下方式得到:获取历史业务数据,其中,历史业务数据包括:在第一历史时间段生成的与保险业务相关的业务数据;采用第一处理方式和第二处理方式,对历史业务数据进行处理,得到第一训练样本;基于第一训练样本对初始检测模型进行迭代训练,得到目标检测模型。
在本实施例中,可以获取与保险业务相关的历史业务数据,然后对历史业务数据进行预处理(即第一处理方式)和特征工程处理(即第二处理方式),得到第一训练样本,其中,第一训练样本中可以包括多个保险业务的特征,以及每个保险业务是否存在欺诈行为的标签。基于第一训练样本对初始检测模型进行迭代训练,得到目标检测模型,实现了提高检测保险欺诈行为的准确率的技术效果。
可选地,初始检测模型包括:输入层、隐藏层、输出层、丢弃层和优化器,其中,隐藏层的激活函数的类型包括:双曲正切函数,输出层的激活函数的类型包括:线性激活函数,对初始检测模型进行迭代训练过程中所采用的损失函数的类型包括:均方误差函数,丢弃层用于在模型训练过程中按预设概率丢弃初始检测模型中神经元的输出,优化器用于调整初始检测模型的模型参数。
以初始检测模型的模型类型为LSTM模型为例,进行模型训练之前,可以构建一个多层的LSTM神经网络(对应于初始检测模型),该神经网络可以包括:输入层、若干个LSTM隐藏层和输出层。输入层可以用于接收序列化后的输入数据,LSTM隐藏层可以用于提取时序信息,输出层可以用于输出中间特征表示。LSTM模型的构建包括网络结构设计、激活函数选择、损失函数设置以及优化器配置等。
下面对如何确定初始检测模型的网络结构进行说明:
1.确定网络结构:
输入层:输入层接收预处理后的序列化数据。输入节点的数量应等于所选取特征的数量(目标业务数据中涉及的特征数量)。例如,如果选择年龄、性别、职业等5个特征,那么输入层应有5个节点。
隐藏层:LSTM模型可以包含多个LSTM隐藏层。每个隐藏层由若干个LSTM单元组成。LSTM单元内部包括遗忘门、输入门和输出门,能够捕捉长时间序列中的依赖关系。隐藏层的层数及每层神经元数量可根据保险欺诈业务的数据规模进行调整。
输出层:输出层可以生成中间特征表示,用于后续的SVM模型训练。输出节点的数量可以根据实际需求设定,例如:输出节点的数量通常应小于输入节点的数量。
2.选择激活函数:
在构建LSTM模型时,可以为LSTM单元内部和输出层选择合适的激活函数。激活函数的作用是引入非线性因素,使得模型具有更强的表达能力。在本实施例中,可将tanh(双曲正切函数)作为LSTM单元内部的激活函数,用于处理内部状态。tanh函数公式如下:
其中,x表示函数的自变量,f(x)表示因变量。
对于输出层,可以采用线性激活函数,以保留中间特征表示的连续性。采用线性激活函数其公式如下所示:
f(x)=x
3.设置损失函数:
损失函数可以用于衡量模型预测结果与实际标签之间的差异。对于LSTM模型,损失函数可以采用均方误差(Mean Squared Error,MSE)、交叉熵损失(Cross-EntropyLoss)等。在本实施例中,可以优先选择MSE作为损失函数,以衡量模型的预测性能。均方误差是回归问题中常用的一种损失函数,用于衡量模型预测值与实际值之间的差异。其公式如下:
其中,yi表示实际值,表示模型预测值,n表示样本数量。
4.配置优化器:
优化器可以用于调整模型参数,以最小化损失函数。优化器可以为随机梯度下降(SGD)、Adam、RMSprop等。在本实施例中,可以优先选择Adam优化器,因为它自适应地调整学习率,提高模型的收敛效率。
5.LSTM模型优化与改进:
a.增加Dropout(丢弃)层:对于LSTM模型,可以添加Dropout层来减少神经元之间的复杂共适应关系。Dropout层在训练过程中以一定概率(即预设概率)随机丢弃神经元的输出,从而降低模型复杂度。Dropout的比例(例如:0.5)可以通过交叉验证确定。在训练过程中,以概率p随机丢弃神经元的输出。具体公式如下:
y=X*mask
其中,x为神经元输出,mask为与x同维度的随机0/1矩阵,概率p为保留神经元的概率。
正则化:L1/L2正则化:在LSTM的循环层中,对权重矩阵W添加L1或L2正则化项。损失函数的优化目标变为:
L=L0+λ*R(ω)
其中,L0为原始损失函数,λ为正则化参数,R(ω)为正则化项,ω表示权重。对于L1正则化,R(ω)式子如下:
R(ω)=||ω||
对于L2正则化,R(ω)式子如下:
R(ω)=||ω||2
可选地,基于第一训练样本对初始检测模型进行迭代训练,得到目标检测模型,包括:将第一训练样本划分为第一训练集、第一验证集和第一测试集;基于第一训练集对初始检测模型进行迭代训练,并在对初始检测模型进行迭代训练过程中,采用反向传播算法,基于第一验证集调整初始检测模型的模型参数;在对初始检测模型进行迭代训练的迭代次数达到预设次数阈值的情况下,或,初始检测模型的损失函数满足预设条件的情况下,确定目标检测模型,并基于第一测试集测试对目标检测模型进行性能评估,其中,对目标检测模型进行性能评估用于评估目标检测模型的泛化能力。
在本实施例中,采用长短时记忆网络(Long Short-Term Memory,简称LSTM)对选取的特征进行建模。LSTM是一种特殊的循环神经网络(Recurrent Neural Network,简称RNN),其核心特点是具有存储和访问长期依赖关系的能力。它能够有效地学习长序列数据中的时序依赖关系。在保险欺诈行为检测中,LSTM可以用于捕捉与时间相关的特征,例如:保单持有人的消费习惯、理赔历史等。以下是LSTM模型(即初始检测模型)训练的主要步骤:
将预处理后的保险业务数据集按一定比例划分为训练集、验证集和测试集(即第一训练集、第一验证集和第一测试集)。训练集可以用于训练LSTM模型,验证集可以用于调整模型参数,测试集可以用于评估模型的泛化性能。
在本实施例中,在对初始检测模型进行训练之前,还可以对该初始检测模型进行参数设置与初始化,例如:设置LSTM模型的参数,如隐藏层神经元数量、学习率、批次大小、迭代次数等。对模型参数进行初始化,为训练过程做好准备。
通过构建一个多层的LSTM神经网络。该网络包括输入层、若干个LSTM隐藏层和输出层。输入层负责接收序列化后的输入数据,LSTM隐藏层负责提取时序信息,输出层负责输出中间特征表示。LSTM模型的构建包括网络结构设计、激活函数选择、损失函数设置以及优化器配置等。
利用训练集中的数据对LSTM模型进行训练。采用反向传播算法调整模型参数,以最小化损失函数。在达到预设的迭代次数或满足其他停止条件(例如:损失函数满足预设条件)后,将训练好的LSTM模型(对应于目标检测模型)保存为文件,以便后续应用和整合。
可选地,目标分类模型通过以下方式得到:获取第二训练样本,其中,第二训练样本至少包括:在第二历史时间段目标检测模型输出的检测结果,检测结果对应的分类标签;将第二训练样本划分为第二训练集、第二测试集;基于随机搜索策略和第二训练集,对初始分类模型进行迭代训练,并基于第二测试集对迭代训练得到初始分类模型进行性能评估,得到性能评估结果,其中,随机搜索策略用于选择初始分类模型的核函数和正则化参数,初始分类模型为未经过模型训练的分类模型;基于性能评估结果,确定目标分类模型。
下面以目标分类模型的模型类型为支持向量机(SVM)模型为例,对初始分类模型进行模型训练的过程进行说明:
在本实施例中,支持向量机(SVM)可以被用作分类器,用于对LSTM提取到的特征进行分类,判断保险业务是否存在欺诈行为。SVM是一种监督学习算法,主要用于解决分类和回归问题。其核心思想是在特征空间中寻找一个最优超平面,使得两类样本之间的间隔最大化,从而提高分类性能。以下是SVM模型训练的详细过程:
1.数据准备:
将LSTM模型的输出数据作为SVM模型的输入。LSTM模型将原始特征进行时间序列建模,并输出一组新的特征表示。这些新特征包含了原始特征中的时序信息,为SVM模型提供了更为丰富的输入。
2.标签准备:
为每个保险业务分配一个标签,标签为1表示存在欺诈行为,标签为0表示不存在欺诈行为。这些标签将作为SVM模型的目标变量。
3.划分训练集和测试集:
例如,将输入数据及其对应的标签划分为训练集和测试集(即第二训练集和第二测试集)。在本实施例中,训练集占整个数据集的70%至80%,测试集占20%至30%。训练集可以用于训练SVM模型,测试集可以用于评估模型的泛化性能。
4.模型参数确定及改进优化:
在训练SVM模型之前,可以确定模型的核函数和正则化参数。核函数可以包括但不限于线性核、多项式核、径向基函数(RBF)核等。在本实施例中,可以优先选择随机搜索法(Random Search)等方法选择最优的核函数和正则化参数。然后使用随机搜索法来对模型进行优化改进。
随机搜索法(Random Search)是一种用于自动调参的方法,在参数空间中随机选取参数组合进行验证,可以在较短时间内找到较优的参数配置。下面是使用随机搜索法对SVM进行参数选择的详细过程:
(1)参数范围设定:首先,为每个需要调整的参数设定一个搜索范围。在SVM模型中,主要需要调整的参数包括核函数(如线性核、多项式核、径向基函数(RBF)核等)和正则化参数C。例如,在本实施例中可以为正则化参数C设定一个搜索范围,例如:[0.001,0.01,0.1,1,10,100]。
(2)设定迭代次数:确定随机搜索过程中的迭代次数。迭代次数越大,随机搜索的覆盖面越广,找到最优参数的概率越高。然而,较大的迭代次数也意味着更长的搜索时间。因此,需要在搜索效率和参数优化之间进行权衡。
(3)随机采样:在每次迭代中,可以从设定的参数范围中随机选取一组参数组合。例如,可以从核函数列表中随机选择一个核函数,然后从正则化参数C的搜索范围中随机选择一个值。
(4)模型训练与测试:使用随机选取的参数组合训练SVM模型,并在测试集上评估模型性能。评估指标可以包括分类准确率、查准率、查全率、F1值等。
(5)记录性能:将当前迭代中的参数组合及对应的模型性能记录下来。可以使用字典或其他数据结构存储参数组合及对应的性能指标。
(6)迭代更新:重复步骤(3)至步骤(5),直至完成设定的迭代次数。在每次迭代过程中,可以不断更新和记录模型性能。
(7)确定最优参数:在完成所有迭代后,从记录的参数组合及对应性能中找到最优的参数组合,即在测试集上表现最佳的参数配置。
(8)使用最优参数:将找到的最优参数应用到SVM模型中,重新进行训练和测试,得到最终的模型(即目标分类模型)。此时,模型已经通过随机搜索法优化过参数,具备较高的性能
通过以上随机搜索法过程,可以在有限时间内找到较优的参数配置,提高SVM模型在保险欺诈检测任务上的性能。
在完成SVM模型训练和测试后,可以将训练好的SVM模型保存起来,以便对LSTM模型和SVM模型进行融合和实际应用。
在保险欺诈检测模型(SVM模型和LSTM模型)训练完成后,为了确保模型在实际应用中具有较高的预测准确性,还可以为模型的性能进行性能评估。首先,可以用已划分好的测试数据集来进行性能评估,在模型性能评估阶段,可以通过准确率(Accuracy)、召回率(Recall)、精确率(Precision)和F1值等指标来衡量模型的性能。
1.准确率(Accuracy):
准确率可以表示为分类正确的样本数占总样本数的比例,用于衡量分类器的整体性能。较高的准确率意味着较好的分类效果。其公式如下:
其中,TP(True Positive)表示真正例,即实际为欺诈并被正确检测为欺诈的样本数;TN(True Negative)表示真负例,即实际为非欺诈并被正确检测为非欺诈的样本数;FP(False Positive)表示假正例,即实际为非欺诈但被错误检测为欺诈的样本数;FN(FalseNegative)表示假负例,即实际为欺诈但被错误检测为非欺诈的样本数。
2.召回率(Recall):
召回率可以表示真正例占所有实际为欺诈的样本的比例,用于衡量分类器在检测欺诈样本方面的能力。较高的召回率意味着较好的欺诈检测能力。其公式如下:
3.精确率(Precision):
精确率是真正例占所有被检测为欺诈的样本的比例,用于衡量分类器在判断欺诈样本方面的准确性。较高的精确率意味着较少的误报。其公式如下:
4.F1值:
F1值表示召回率和精确率的调和平均值,用于综合衡量分类器的性能。较高的F1值意味着较好的分类效果,既考虑了欺诈检测能力,也考虑了误报情况。其公式如下:
在本实施例中,可以采用F1值对模型进行性能评估,以确保模型具有较好的综合性能。如果模型的性能评估结果满足预期,可以将模型应用于实际业务场景中进行保险欺诈检测。如果评估结果不理想,可以考虑优化模型结构、参数或特征工程等方面,以提高模型的性能。
图2是根据本发明实施例的一种可选的模型训练过程的流程图,如图2所示,包括:数据预处理(对应于第一处理方式)、特征工程(对应于第二处理方式)、LSTM模型训练、SVM模型训练、模型融合、模型评估。
具体地,该过程包括:
1.数据预处理:对保险业务数据进行预处理,包括去除异常值、填充缺失值、数据标准化等操作,以便更好地用于模型训练。
2.特征工程:通过分析保险业务数据,选取与保险欺诈行为密切相关的特征作为模型的输入变量。这些特征可能包括但不限于:年龄、性别、职业、保额、保险期限、理赔记录等。
3.LSTM模型训练:采用(LSTM)对选取的特征进行建模。LSTM具有处理时间序列数据的能力,可以有效地捕捉数据中的时序信息,为后续的欺诈检测提供有力支持。
4.SVM模型训练:将LSTM模型的输出作为支持向量机(SVM)的输入,进行二分类问题的训练。SVM具有良好的泛化能力和分类性能,可以进一步提高欺诈检测的准确性。
5.模型融合:将LSTM和SVM模型进行融合,形成一个统一的保险欺诈检测模型。模型融合可以充分利用两种模型的优势,提高欺诈检测的准确性和鲁棒性。
例如:可以将LSTM和SVM模型的预测结果进行融合。可以采用多种策略,如加权平均、投票法等。在本实施例中,可以优先使用加权平均作为结果融合策略,可以根据LSTM和SVM模型在验证集上的性能,分配不同的权重,然后计算加权平均值作为最终的预测结果。加权平均公式如下所示:
Pfused=ωLSTM*PLSTM+ωSVM*PSVM
其中,Pfused表示融合后的预测结果,ωLSTM和ωSVM分别为LSTM和SVM的权重,PLSTM和PSVM分别表示LSTM模型预测出的概率值,SVM模型预测出分类标签的标签值。为了得到最终的欺诈检测分类结果,可以根据融合后的结果Pfused设置一个阈值进行判断。设定阈值为t(例如0.5),如果Pfused>t,则判断为欺诈,否则为非欺诈。
通过加权平均法将LSTM和SVM模型的预测结果进行融合,可以充分利用两种模型的优势,进一步提高保险欺诈检测的准确性和鲁棒性。
6.模型评估:采用准确率、召回率、F1值等指标对模型进行评估,以确保模型在实际应用中具有较高的预测准确性。
在本实施例中,利用LSTM模型对保险业务数据进行序列建模,能够提取数据的时间序列特征,提高欺诈检测结果的准确性;采用LSTM-SVM联合模型,结合了LSTM模型和SVM模型的优点,能够提高欺诈检测的鲁棒性,准确识别欺诈行为;模型可以自动学习欺诈特征,不需要人为规则和经验,能够有效应对复杂欺诈手段;自动进行欺诈检测和预警,减少了人工参与的成本和误判率,提高了工作效率;通过本实施例有效识别和预防欺诈行为,保障了保险行业的健康发展和客户的合法权益,因此,本实施例通过针对保险业务的欺诈行为检测方法能够提高欺诈行为检测的准确性和鲁棒性,降低人工成本,保障保险行业发展和客户权益。
实施例二
本申请实施例二提供了一种可选的针对保险业务的欺诈行为检测装置,该欺诈行为监测装置中的各个实施单元对应于实施例一中的各个实施步骤。
图3是根据本发明实施例的一种可选的针对保险业务的欺诈行为检测装置的示意图,如图3所示,该欺诈行为监测装置包括:获取单元31、第一处理单元32、第二处理单元33以及确定单元34。
获取单元31,用于获取目标业务数据,其中,目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据;
第一处理单元32,用于将目标业务数据输入目标检测模型,输出第一检测结果,其中,目标检测模型的模型类型包括:长短期记忆网络模型,检测结果包括:目标业务数据存在保险欺诈行为的概率;
第二处理单元33,用于将第一检测结果输入目标分类模型,输出第一检测结果对应的分类标签,其中,目标分类模型的模型类型包括:支持向量机模型;
确定单元34,用于基于第一检测结果和分类标签,确定目标检测结果,其中,目标检测结果用于指示目标业务数据是否存在保险欺诈行为。
在本申请实施例三提供的针对保险业务的欺诈行为检测装置中,可以通过获取单元31,用于获取目标业务数据,其中,目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据,通过第一处理单元32将目标业务数据输入目标检测模型,输出第一检测结果,其中,目标检测模型的模型类型包括:长短期记忆网络模型,检测结果包括:目标业务数据存在保险欺诈行为的概率,通过第二处理单元33将第一检测结果输入目标分类模型,输出第一检测结果对应的分类标签,其中,目标分类模型的模型类型包括:支持向量机模型,通过确定单元34基于第一检测结果和分类标签,确定目标检测结果,其中,目标检测结果用于指示目标业务数据是否存在保险欺诈行为。进而解决了相关技术中采用规则、经验等检测保险欺诈行为,检测准确率低的技术问题。在本实施例中,通过目标检测模型检测目标业务数据存在保险欺诈行为的概率以及目标分类模型输出的分类标签,综合确定目标业务数据是否存在保险欺诈行为,避免了相关技术中采用规则、经验、统计等方式检测保险欺诈行为,准确率低的情况,从而实现了提高检测保险欺诈行为的准确率的技术效果。
可选地,在本申请实施例三提供的针对保险业务的欺诈行为检测装置中,确定单元包括:加权子单元,用于基于预设权重,对第一检测结果和分类标签进行加权,得到目标数值;比较子单元,用于比较目标数值和预设阈值,得到比较结果;第一确定子单元,用于在比较结果指示目标数值大于预设阈值的情况下,确定目标业务数据存在保险欺诈行为;第二确定子单元,用于在比较结果指示目标数值小于等于预设阈值的情况下,确定目标业务数据不存在保险欺诈行为。
可选地,在本申请实施例三提供的针对保险业务的欺诈行为检测装置中,获取单元包括:第一获取子单元,用于获取第一业务数据,其中,第一业务数据包括:与保险业务相关的原始业务数据;第一处理子单元,用于通过第一处理方式对第一业务数据进行处理,得到第二业务数据,其中,第一处理方式包括下述至少之一:数据清洗、缺失值处理、数据标准化、数据切分、特征编码,特征编码用于将第一业务数据中的非数值型数据转换为数值型数据;第二处理子单元,用于通过第二处理方式对第二业务数据进行处理,得到目标业务数据,其中,第二处理方式包括下述至少之一:特征提取、特征筛选、特征变换以及特征降维,特征提取用于提取第一业务数据中与保险欺诈行为相关的数据。
可选地,目标检测模型通过以下单元得到:第二获取单元,用于获取历史业务数据,其中,历史业务数据包括:在第一历史时间段生成的与保险业务相关的业务数据;第三处理单元,用于采用第一处理方式和第二处理方式,对历史业务数据进行处理,得到第一训练样本;第一训练单元,用于基于第一训练样本对初始检测模型进行迭代训练,得到目标检测模型。
可选地,初始检测模型包括:输入层、隐藏层、输出层、丢弃层和优化器,其中,隐藏层的激活函数的类型包括:双曲正切函数,输出层的激活函数的类型包括:线性激活函数,对初始检测模型进行迭代训练过程中所采用的损失函数的类型包括:均方误差函数,丢弃层用于在模型训练过程中按预设概率丢弃初始检测模型中神经元的输出,优化器用于调整初始检测模型的模型参数。
可选地,第一训练单元包括:划分子单元,用于将第一训练样本划分为第一训练集、第一验证集和第一测试集;调整子单元,用于基于第一训练集对初始检测模型进行迭代训练,并在对初始检测模型进行迭代训练过程中,采用反向传播算法,基于第一验证集调整初始检测模型的模型参数;第三确定子单元,用于在对初始检测模型进行迭代训练的迭代次数达到预设次数阈值的情况下,或,初始检测模型的损失函数满足预设条件的情况下,确定目标检测模型,并基于第一测试集测试对目标检测模型进行性能评估其中,对目标检测模型进行性能评估用于评估目标检测模型的泛化能力。
可选地,目标分类模型通过以下单元得到:第三获取单元,用于获取第二训练样本,其中,第二训练样本至少包括:在第二历史时间段目标检测模型输出的检测结果,检测结果对应的分类标签;划分单元,用于将第二训练样本划分为第二训练集、第二测试集;第二训练单元,用于基于随机搜索策略和第二训练集,对初始分类模型进行迭代训练,并基于第二测试集对迭代训练得到初始分类模型进行性能评估,得到性能评估结果,其中,随机搜索策略用于选择初始分类模型的核函数和正则化参数,初始分类模型为未经过模型训练的目标分类模型;模型确定单元,基于性能评估结果,确定目标分类模型。
上述的针对保险业务的欺诈行为检测装置还可以包括处理器和存储器,上述的获取单元31、第一处理单元32、第二处理单元33以及确定单元34等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来通过目标检测模型检测目标业务数据存在保险欺诈行为的概率以及目标分类模型输出的分类标签,综合确定目标业务数据是否存在保险欺诈行为,避免了相关技术中采用规则、经验、统计等方式检测保险欺诈行为,准确率低的情况,从而实现了提高检测保险欺诈行为的准确率的技术效果。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的针对保险业务的欺诈行为检测方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的针对保险业务的欺诈行为检测方法。
图4是根据本发明实施例的一种电子设备的示意图,如图4所示,本发明实施例提供了一种电子设备40,电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任意一项的针对保险业务的欺诈行为检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种针对保险业务的欺诈行为检测方法,其特征在于,包括:
获取目标业务数据,其中,所述目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据;
将所述目标业务数据输入目标检测模型,输出第一检测结果,其中,所述目标检测模型的模型类型包括:长短期记忆网络模型,所述第一检测结果包括:所述目标业务数据存在保险欺诈行为的概率;
将所述第一检测结果输入目标分类模型,输出所述第一检测结果对应的分类标签,其中,所述目标分类模型的模型类型包括:支持向量机模型;
基于所述第一检测结果和所述分类标签,确定目标检测结果,其中,所述目标检测结果用于指示所述目标业务数据是否存在保险欺诈行为。
2.根据权利要求1所述的检测方法,其特征在于,基于所述第一检测结果和所述分类标签,确定目标检测结果,包括:
基于预设权重,对所述第一检测结果和所述分类标签进行加权,得到目标数值;
比较所述目标数值和预设阈值,得到比较结果;
在所述比较结果指示所述目标数值大于所述预设阈值的情况下,确定所述目标业务数据存在保险欺诈行为;
在所述比较结果指示所述目标数值小于等于所述预设阈值的情况下,确定所述目标业务数据不存在保险欺诈行为。
3.根据权利要求1所述的检测方法,其特征在于,获取目标业务数据,包括:
获取第一业务数据,其中,所述第一业务数据包括:与所述保险业务相关的原始业务数据;
通过第一处理方式对所述第一业务数据进行处理,得到第二业务数据,其中,所述第一处理方式包括下述至少之一:数据清洗、缺失值处理、数据标准化、数据切分、特征编码,所述特征编码用于将所述第一业务数据中的非数值型数据转换为数值型数据;
通过第二处理方式对所述第二业务数据进行处理,得到所述目标业务数据,其中,所述第二处理方式包括下述至少之一:特征提取、特征筛选、特征变换以及特征降维,所述特征提取用于提取所述第一业务数据中与保险欺诈行为相关的数据。
4.根据权利要求3所述的检测方法,其特征在于,所述目标检测模型通过以下方式得到:
获取历史业务数据,其中,所述历史业务数据包括:在第一历史时间段生成的与所述保险业务相关的业务数据;
采用所述第一处理方式和所述第二处理方式,对所述历史业务数据进行处理,得到第一训练样本;
基于所述第一训练样本对初始检测模型进行迭代训练,得到所述目标检测模型。
5.根据权利要求4所述的检测方法,其特征在于,所述初始检测模型包括:输入层、隐藏层、输出层、丢弃层和优化器,其中,所述隐藏层的激活函数的类型包括:双曲正切函数,所述输出层的激活函数的类型包括:线性激活函数,对所述初始检测模型进行迭代训练过程中所采用的损失函数的类型包括:均方误差函数,所述丢弃层用于在模型训练过程中按预设概率丢弃所述初始检测模型中神经元的输出,所述优化器用于调整所述初始检测模型的模型参数。
6.根据权利要求4所述的检测方法,其特征在于,基于所述第一训练样本对初始检测模型进行迭代训练,得到所述目标检测模型,包括:
将所述第一训练样本划分为第一训练集、第一验证集和第一测试集;
基于所述第一训练集对所述初始检测模型进行迭代训练,并在对所述初始检测模型进行迭代训练过程中,采用反向传播算法,基于所述第一验证集调整所述初始检测模型的模型参数;
在对所述初始检测模型进行迭代训练的迭代次数达到预设次数阈值的情况下,或,所述初始检测模型的损失函数满足预设条件的情况下,确定所述目标检测模型,并基于所述第一测试集测试对所述目标检测模型进行性能评估其中,对所述目标检测模型进行性能评估用于评估所述目标检测模型的泛化能力。
7.根据权利要求4所述的检测方法,其特征在于,所述目标分类模型通过以下方式得到:
获取第二训练样本,其中,所述第二训练样本至少包括:在第二历史时间段所述目标检测模型输出的检测结果,所述检测结果对应的分类标签;
将所述第二训练样本划分为第二训练集、第二测试集;
基于随机搜索策略和所述第二训练集,对初始分类模型进行迭代训练,并基于所述第二测试集对迭代训练得到所述初始分类模型进行性能评估,得到性能评估结果,其中,所述随机搜索策略用于选择所述初始分类模型的核函数和正则化参数,所述初始分类模型为未经过模型训练的所述目标分类模型;
基于所述性能评估结果,确定所述目标分类模型。
8.一种针对保险业务的欺诈行为检测装置,其特征在于,包括:
第一获取单元,用于获取目标业务数据,其中,所述目标业务数据包括:与保险欺诈行为相关的保险业务的业务数据;
第一处理单元,用于将所述目标业务数据输入目标检测模型,输出第一检测结果,其中,所述目标检测模型的模型类型包括:长短期记忆网络模型,所述第一检测结果包括:所述目标业务数据存在保险欺诈行为的概率;
第二处理单元,用于将所述第一检测结果输入目标分类模型,输出所述第一检测结果对应的分类标签,其中,所述目标分类模型的模型类型包括:支持向量机模型;
确定单元,用于基于所述第一检测结果和所述分类标签,确定目标检测结果,其中,所述目标检测结果用于指示所述目标业务数据是否存在保险欺诈行为。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的针对保险业务的欺诈行为检测方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的针对保险业务的欺诈行为检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310955300.4A CN116957819A (zh) | 2023-07-31 | 2023-07-31 | 针对保险业务的欺诈行为检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310955300.4A CN116957819A (zh) | 2023-07-31 | 2023-07-31 | 针对保险业务的欺诈行为检测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116957819A true CN116957819A (zh) | 2023-10-27 |
Family
ID=88461754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310955300.4A Pending CN116957819A (zh) | 2023-07-31 | 2023-07-31 | 针对保险业务的欺诈行为检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116957819A (zh) |
-
2023
- 2023-07-31 CN CN202310955300.4A patent/CN116957819A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3680639B1 (en) | Abnormality model learning device, method, and program | |
US11138514B2 (en) | Review machine learning system | |
KR102009310B1 (ko) | 이상행위 요인 분석 시스템 및 분석 방법 | |
US20190180379A1 (en) | Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof | |
CN107909299A (zh) | 人伤理赔数据风险检测方法和系统 | |
US20020161731A1 (en) | Artificial intelligence trending system | |
JP7331369B2 (ja) | 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム | |
CN110866832A (zh) | 一种风险控制方法、系统、存储介质及计算设备 | |
CN117094184B (zh) | 基于内网平台的风险预测模型的建模方法、系统及介质 | |
CN112801231A (zh) | 用于业务对象分类的决策模型训练方法和装置 | |
CN116452333A (zh) | 异常交易检测模型的构建方法、异常交易检测方法及装置 | |
CN114612239A (zh) | 基于算法、大数据、人工智能的股票舆情监测和风控系统 | |
CN113835947B (zh) | 一种基于异常识别结果确定异常原因的方法和系统 | |
CN117333285A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
Chen | Pattern recognition of business failure by autoassociative neural networks in considering the missing values | |
CN117575595A (zh) | 支付风险识别方法、装置、计算机设备及存储介质 | |
CN116957819A (zh) | 针对保险业务的欺诈行为检测方法、装置及存储介质 | |
CN115619539A (zh) | 贷前风险评价方法以及装置 | |
Gusmão et al. | A Customer Journey Mapping Approach to Improve CPFL Energia Fraud Detection Predictive Models | |
US11887126B2 (en) | Systems and methods for generating a probationary automated-decisioning workflow in a machine learning-task oriented digital threat or digital abuse mitigation system | |
CN117172910A (zh) | 基于ebm模型的信用评估方法、装置、电子设备、存储介质 | |
CN117764708A (zh) | 违约预测方法及装置 | |
CN117540851A (zh) | 一种数据预测方法及装置、设备、存储介质 | |
CN118694673A (zh) | 一种基于神经网络算法的生命周期风险管控方法 | |
CN118505230A (zh) | 检测模型的训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |