CN110348472B - 数据检测规则生成方法、装置、计算机设备及存储介质 - Google Patents
数据检测规则生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110348472B CN110348472B CN201910436928.7A CN201910436928A CN110348472B CN 110348472 B CN110348472 B CN 110348472B CN 201910436928 A CN201910436928 A CN 201910436928A CN 110348472 B CN110348472 B CN 110348472B
- Authority
- CN
- China
- Prior art keywords
- preset
- candidate
- rules
- rule
- data detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000002159 abnormal effect Effects 0.000 claims abstract description 43
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 53
- 238000013138 pruning Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明属于人工智能领域,本发明实施例公开了一种数据检测规则生成的方法、装置、计算机设备及存储介质,其中方法包括下述步骤:获取车险理赔特征;根据预设的评价函数计算所述特征的异常概率;当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;循环执行前述步骤,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;将所述m个候选子规则组合成数据检测规则。数据检测规则基于经过评价函数计算的异常概率过滤的车险理赔特征组合而成,相对基于人工经验提取的规则,更客观,在判断数据是否异常时更准确。
Description
技术领域
本发明属于人工智能领域,尤其涉及一种数据检测规则生成方法、装置、计算机设备及存储介质。
背景技术
在互联网时代,传统的车险理赔勘察工作实现互联网转型,工作时效和用户体验大幅提升。但是由于承保把关不严,定损理赔存在风险漏洞,虚假理赔风险识别不高,造成车险赔付率高,提供车险服务的公司存在亏损。
现在大多通过人工调查去规避保险欺诈、虚报理赔等风险,但人工调查依赖个人经验、工作量大、效率低,且基于人工经验提取的一系列车险理赔数据检测规则通常较简单,存在主观性,使用这些规则对理赔数据检测时准确度不高。
发明内容
本发明提供一种数据检测规则生成方法、装置、计算机设备及存储介质,以解决数据检测准确度低的问题。
为解决上述技术问题,本发明提出一种数据检测规则生成方法,包括如下步骤:
S101、获取车险理赔特征;
S102、根据预设的评价函数计算所述特征的异常概率;
S103、当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;
S104、循环执行所述S101~S103,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;
S105、将所述m个候选子规则组合成数据检测规则。
可选地,在所述获取车险理赔特征的步骤中,包括下述步骤:
获取车险理赔因子;
对所述车险理赔因子进行数据分箱,得到因子值离散化的车险理赔特征。
可选地,所述预设的评价函数为:
其中,Q为所述特征的异常概率,p为预设的理赔数据库中所述特征覆盖的正例数,n为预设的理赔数据库中所述特征覆盖的负例数,P为预设的理赔数据库中正例总数,N为预设的理赔数据库中负例总数,W为设定的权重。
可选地,在所述将所述m个候选子规则组合成数据检测规则的步骤中,包含下述步骤:
根据预设的剪枝规则对所述m个候选子规则进行剪枝,得到若干个候选规则;
根据预设的剪枝函数分别计算所述若干个候选规则中每一个候选规则的剪枝函数值;
确定所述最大剪枝函数值对应的候选规则为数据检测规则。
可选地,在所述根据预设的剪枝规则对所述m个候选子规则进行剪枝,得到若干个候选规则的步骤中,包括下述步骤:
依次从所述m个候选子规则中删除s个子规则,其中,s为大于0小于m的正整数,得到若干个子规则个数为m-s的候选规则。
可选地,所述预设的剪枝函数为:
F=(p-n)/(p+n)
其中,p为预设的理赔数据库中所述候选规则覆盖的正例数,n为预设的理赔数据库中所述候选规则覆盖的负例数。
本发明还提供一种利用上述数据检测规则生成方法生成的数据检测规则进行理赔数据检测的方法,包括下述步骤:
获取车险理赔请求数据;
将所述车险理赔请求数据与所述数据检测规则进行匹配;
当所述车险理赔请求数据被所述数据检测规则覆盖,标记所述车险理赔请求数据为异常数据。
为解决上述问题,本发明还提供一种数据检测规则生成装置,包括:
获取模块,用于获取车险理赔特征;
计算模块,用于根据预设的评价函数计算所述特征的异常概率;
确定模块,用于当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;
循环模块,用于循环执行所述S101~S103,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;
执行模块,将所述m个候选子规则组合成数据检测规则。
可选地,所述获取模块还包括:
第一获取子模块,用于获取车险理赔因子;
第一处理子模块,用于对所述车险理赔因子进行数据分箱,得到因子值离散化的车险理赔特征。
可选地,所述计算模块中的预设的评价函数为:
其中,Q为所述特征的异常概率,p为预设的理赔数据库中所述特征覆盖的正例数,n为预设的理赔数据库中所述特征覆盖的负例数,P为预设的理赔数据库中正例总数,N为预设的理赔数据库中负例总数,W为设定的权重。
可选地,所述执行模块中还包括:
第二处理子模块,用于根据预设的剪枝规则对所述m个候选子规则进行剪枝,得到若干个候选规则;
第一计算子模块,用于根据预设的剪枝函数分别计算所述若干个候选规则中每一个候选规则的剪枝函数值;
第一确定子模块,用于确定所述最大剪枝函数值对应的候选规则为数据检测规则。
可选地,所述第二处理子模块中还包括:
第三处理子模块,用于依次从所述m个候选子规则中删除s个子规则,其中,s为大于0小于m的正整数,得到若干个子规则个数为m-s的候选规则。
可选地,所述第一计算子模块中预设的剪枝函数为:
F=(p-n)/(p+n)
其中,p为预设的理赔数据库中所述候选规则覆盖的正例数,n为预设的理赔数据库中所述候选规则覆盖的负例数。
本发明还提供一种利用上述数据检测规则生成装置生成的数据检测规则进行理赔欺诈检测的装置,包括:
第二获取模块,用于获取车险理赔请求数据;
匹配模块,用于将所述车险理赔请求数据与所述数据检测规则进行匹配;
标记模块,用于当所述车险理赔请求数据被所述数据检测规则覆盖,标记所述车险理赔请求数据为异常数据。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述数据检测规则生成方法的步骤。
为解决上述技术问题,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行上述所述数据检测规则生成方法的步骤。
本发明实施例的有益效果为:通过获取车险理赔特征;根据预设的评价函数计算所述特征的异常概率;当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;循环执行前述步骤,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;将所述m个候选子规则组合成数据检测规则。数据检测规则基于经过评价函数计算的异常概率过滤的车险理赔特征组合而成,相对基于人工经验提取的规则,更客观,在判断数据是否异常时更准确。根据预设的评价函数计算所述特征的异常概率当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则将所述m个候选子规则组合成数据检测规则基于经过评价函数计算的理赔欺诈异常概率过滤的车险理赔特征组合而成,相对基于人工经验提取的规则,更客观,在判断数据是否异常时更准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种数据检测规则生成方法基本流程示意图;
图2为本发明实施例对候选子规则进行剪枝优化流程示意图;
图3为本发明实施例一种数据检测方法流程示意图;
图4为本发明实施例一种数据检测规则生成装置基本结构框图;
图5为本发明实施计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本实施方式中的终端即为上述的终端。
具体地,请参阅图1,图1为本实施例一种数据检测规则生成方法的基本流程示意图。
如图1所示,一种数据检测规则生成方法,包括下述步骤:
S101、获取车险理赔特征;
车险理赔特征由因子、符号和因子值构成,例如一个车险理赔特征可表示为索赔人年龄>30岁,其中索赔人年龄为因子,符号为“>”,因子值为“30岁”。因子根据专家经验构建,可以包括车险理赔和发生理赔事件的时间差、索赔的金额、报赔手机号与投保人证件号是否匹配,将这些作为判断是否虚假报案、是否虚报损失的因子。在进行因子构建之前,可以先对车险理赔数据进行预处理,车险理赔数据预处理包含填充缺失值、去除异常值。例如,当接收到的车险理赔数据其中索赔人年龄这一因子的数据缺失,可以自动填充为设定的值。同样如果接收到的值异常,通常通过设定因子值的范围来判断是否异常值,例如接收到的年龄这一因子的数据为1000,自动修改为设定值。
确定了因子后,需要对数据分箱,数据分箱,即对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险,例如构建的一个因子是年龄,对其离散化后,例如数据分箱后特征可描述为索赔人年龄>30岁为1,否则为0,离散特征的增加和减少比较容易,相对于连续变量计算简单,且离散化后的特征对异常数据有很强的鲁棒性。可以采用的数据分箱方式有多种,例如等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱;等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱;基于k均值聚类的分箱,k均值聚类法将观测值聚为k类。
基于前述构建的因子和数据分箱的结果,构建特征库,特征库中包含的每一个特征即为因子+符号+因子值,这里所述的获取车险理赔特征即从所构建的特征库中获取一个车险理赔特征。
特征库也提供因子构建和特征构建的可交互界面,供用户录入新的因子和新的特征。
S102、根据预设的评价函数计算所述特征的异常概率;
本发明实施例采用的评价函数为:
其中,Q为所述特征的异常概率,p为预设的理赔数据库中所述特征覆盖的正例数,n为预设的理赔数据库中所述特征覆盖的负例数,P为预设的理赔数据库中正例总数,N为预设的理赔数据库中负例总数,W为设定的权重。预设的理赔数据库即记录有历史理赔数据的数据库,数据库中的数据至少记录了步骤S101中所述的车险理赔特征和各理赔案件是否为理赔欺诈案件。这里提到的正例数即为理赔欺诈案件数,负例数即为非理赔欺诈案件数。
S103、当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;
数据检测规则由一系列的子规则组合而成,根据前述评价函数计算车险理赔特征为理赔欺诈特征的概率,即异常概率,当这一概率大于或等于设定的第一阈值时,确定该车险理赔特征作为判断案件是否为理赔欺诈的检测规则的候选子规则,否则,不将该特征作为数据检测规则的候选子规则。
S104、循环执行所述S101~S103,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;
循环执行步骤S101~S103,每个循环可能有车险理赔特征进入到候选子规则列表,当候选子规则列表中的子规则的个数达到预设的第二阈值时,循环结束,该条数据检测规则的子规则停止增长。第二阈值即规则增长次数阈值,设定规则增长次数阈值的目的是为了平衡规则覆盖率和精准度,当数据检测规则的子规则越多,判断案件是否为理赔欺诈的精准度越高,但是覆盖度越低,即同时与多个子规则匹配的案件量少,这样的规则不利于使用。
S105、将所述m个候选子规则组合成数据检测规则。
将前述步骤得到的m个候选子规则组合,即可作为判断索赔案件是否为理赔欺诈的检测规则。例如经过前述步骤处理,得到两个候选子规则,分别为报案时间差>24h,索赔金额>20000,则将两个子规则组合得到一条数据检测规则,可表示为:虚假报案⊕←报案时间差>24h∧索赔金额>20000。
在一些实施方式中,对候选子规则组合成数据检测规则的过程中还包括对子规则的选择,即通过剪枝算法从候选的子规则中选择多个子规则组成数据检测规则,具体地,请参阅图2。
在具体的实施过程中,依照步骤S101~S105的数据检测规则生成过程,重复生成了多条数据检测规则,当无法挖掘出更多数据检测规则时,可降低第一阈值,重复规则生成的过程;当第一阈值下降到设定的最低阈值时,停止数据检测规则生产。将生成的数据检测规则通过预设的理赔数据库进行验证,通常验证数据检测规则的精准度和覆盖度,通过验证的数据检测规则被用于理赔欺诈判断。
如图2,步骤S105中,还包含下述步骤:
S111、根据预设的剪枝规则对所述m个候选子规则进行剪枝,得到若干个候选规则;
这里提到的剪枝即对由多个子规则组成的规则删除其中的一个子规则或多个子规。本发明实施例中,采用依次删除一个子规则的方式进行剪枝,即在m个候选子规则,每次删除一个子规则,得到m个子规则个数为m-1的候选规则,同理,也可以每次删除多个子规则。
S112、根据预设的剪枝函数分别计算所述若干个候选规则中每一个候选规则的剪枝函数值;
本发明实施例中预设的剪枝函数为:
F=(p-n)/(p+n)
其中,p为预设的理赔数据库中所述候选规则覆盖的正例数,n为预设的理赔数据库中所述候选规则覆盖的负例数。预设的理赔数据库即前述的理赔数据库,记录有历史理赔数据的数据库。这里提到的正例数即为理赔欺诈案件数,负例数即为非理赔欺诈案件数。这里该剪枝函数的含义为该候选规则覆盖的理赔欺诈案件个数与该候选规则覆盖的非理赔欺诈案件个数之差与该候选规则匹配的全部案件个数的比值,通过该比值衡量该候选规则的精准度。
在一些实施方式中,也可采用另一个剪枝函数F1=p/(p+n),其中p为预设的理赔数据库中所述候选规则覆盖的正例数,n为预设的理赔数据库中所述候选规则覆盖的负例数。该剪枝函数的含义为该候选规则覆盖的理赔欺诈案件个数差占与该候选规则匹配的全部案件个数的比值,不难理解该比值同样可以用来衡量该候选规则的精准度。
S113、确定所述最大剪枝函数值对应的候选规则为数据检测规则。
根据上述描述,剪枝函数值对应候选规则的精准度,所以确定剪枝函数值最大的候选规则为数据检测规则。
如图3所示,本发明还提供一种利用上述数据检测规则生成方法生成的数据检测规则进行理赔欺诈检测的方法,包括下述步骤:
S121、获取车险理赔请求数据;
通过终端上可交互的界面获取车险理赔请求数据,车险理赔请求数据由因子和因子值组成,因子为预设的,因子值可以由用户在可交互的界面上输入,也可以从第三方系统读取。
S122、将所述车险理赔请求数据与所述数据检测规则进行匹配;
将车险理赔请求数据与数据检测规则进行匹配,即将车险理赔请求数据中的因子和因子值与数据检测规则中的各子规则进行对比,各子规则即车险理赔特征,如前所述,特征为因子+符号+因子值,例如特征为索赔人年龄>30岁,则将车险理赔请求数据中包含的索赔人年龄与该特征对比。
S123、当所述车险理赔请求数据被所述数据检测规则覆盖,标记所述车险理赔请求数据为异常数据
当车险理赔请求数据被数据检测规则覆盖,即车险理赔请求数据中各因子及因子值落在数据检测规则各子规则限定的范围内,确定该车险理赔请求数据为异常数据,并对该车险理赔请求进行标记。
为解决上述技术问题本发明实施例还提供一种数据检测规则生成装置。具体请参阅图4,图4为本实施例数据检测规则生成装置的基本结构框图。
如图4所示,一种数据检测规则生成装置,包括:获取模块210、计算模块220、确定模块230、循环模块240和执行模块250。其中,获取模块210,用于获取车险理赔特征;计算模块220,用于根据预设的评价函数计算所述特征的异常概率;确定模块230,用于当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;循环模块240,用于循环执行所述S101~S103,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;执行模块250,将所述m个候选子规则组合成数据检测规则。
本发明实施例通过获取车险理赔特征;根据预设的评价函数计算所述特征的异常概率;当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;循环执行前述步骤,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;将所述m个候选子规则组合成数据检测规则。数据检测规则基于经过评价函数计算的理赔欺诈异常概率过滤的车险理赔特征组合而成,相对基于人工经验提取的规则,更客观,在判断数据是否异常时更准确。
在一些实施方式中,所述获取模块210还包括:第一获取子模块和第一处理子模块。其中,第一获取子模块,用于获取车险理赔因子;第一处理子模块,用于对所述车险理赔因子进行数据分箱,得到因子值离散化的车险理赔特征。
在一些实施方式中,所述计算模块220中的预设的评价函数为:
其中,Q为所述特征的异常概率,p为预设的理赔数据库中所述特征覆盖的正例数,n为预设的理赔数据库中所述特征覆盖的负例数,P为预设的理赔数据库中正例总数,N为预设的理赔数据库中负例总数,W为设定的权重。
在一些实施方式中,所述执行模块250中还包括:第二处理子模块、第一计算子模块和第一确定子模块。其中,第二处理子模块,用于根据预设的剪枝规则对所述m个候选子规则进行剪枝,得到若干个候选规则;第一计算子模块,用于根据预设的剪枝函数分别计算所述若干个候选规则中每一个候选规则的剪枝函数值;第一确定子模块,用于确定所述最大剪枝函数值对应的候选规则为数据检测规则。
在一些实施方式中,所述第二处理子模块中还包括:第三处理子模块,用于依次从所述m个候选子规则中删除s个子规则,其中,s为大于0小于m的正整数,得到若干个子规则个数为m-s的候选规则。
在一些实施方式中,所述第一计算子模块中预设的剪枝函数为:
F=(p-n)/(p+n)
其中,p为预设的理赔数据库中所述候选规则覆盖的正例数,n为预设的理赔数据库中所述候选规则覆盖的负例数。
本发明还提供一种利用上述数据检测规则生成装置生成的数据检测规则进行理赔欺诈检测的装置,包括:第二获取模块、匹配模块和标记模块。其中第二获取模块,用于获取车险理赔请求数据;匹配模块,用于将所述车险理赔请求数据与所述数据检测规则进行匹配;标记模块,用于当所述车险理赔请求数据被所述数据检测规则覆盖,标记所述车险理赔请求数据为异常数据。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
如图5所示,计算机设备的内部结构示意图。如图5所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种数据检测规则生成的方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种数据检测规则生成的方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图4中获取模块210、计算模块220、确定模块230、循环模块240和执行模块250的具体内容,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有数据检测规则生成方法中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备通过获取车险理赔特征;根据预设的评价函数计算所述特征的异常概率;当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;循环执行前述步骤,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;将所述m个候选子规则组合成数据检测规则。数据检测规则基于经过评价函数计算的理赔欺诈异常概率过滤的车险理赔特征组合而成,相对基于人工经验提取的规则,更客观,在判断数据是否异常时更准确。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述数据检测规则生成方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种数据检测规则生成方法,其特征在于,包括下述步骤:
S101、获取车险理赔特征;
S102、根据预设的评价函数计算所述特征的异常概率;
S103、当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;
S104、循环执行所述S101~ S103,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;
S105、将m个候选子规则组合成数据检测规则;
所述预设的评价函数为:
所述预设的评价函数为:;
其中,为所述特征的异常概率,/>为预设的理赔数据库中所述特征覆盖的正例数,为预设的理赔数据库中所述特征覆盖的负例数,/>为预设的理赔数据库中正例总数,/>为预设的理赔数据库中负例总数,/>为设定的权重;
在将所述m个候选子规则组合成数据检测规则的步骤中,包含下述步骤:
根据预设的剪枝规则对所述m个候选子规则进行剪枝,得到若干个候选规则;
根据预设的剪枝函数分别计算所述若干个候选规则中每一个候选规则的剪枝函数值;
确定最大剪枝函数值对应的候选规则为数据检测规则;
在所述根据预设的剪枝规则对所述m个候选子规则进行剪枝,得到若干个候选规则的步骤中,包括下述步骤:
依次从所述m个候选子规则中删除s个子规则,得到若干个子规则个数为m-s的候选规则,其中,s为大于0小于m的正整数;
所述预设的剪枝函数为:;
其中,p为预设的理赔数据库中所述候选规则覆盖的正例数,n为预设的理赔数据库中所述候选规则覆盖的负例数。
2.根据权利要求1所述的数据检测规则生成方法,其特征在于,在所述获取车险理赔特征的步骤中,包括下述步骤:
获取车险理赔因子;
对所述车险理赔因子进行数据分箱,得到因子值离散化的车险理赔特征。
3.一种利用权利要求1-2任一项所述的数据检测规则生成方法生成的数据检测规则进行理赔数据检测的方法,其特征在于,包括下述步骤:
获取车险理赔请求数据;
将所述车险理赔请求数据与所述数据检测规则进行匹配;
当所述车险理赔请求数据被所述数据检测规则覆盖,标记所述车险理赔请求数据为异常数据。
4.一种数据检测规则生成装置,其特征在于,包括:
获取模块,用于获取车险理赔特征;
计算模块,用于根据预设的评价函数计算所述特征的异常概率;
确定模块,用于当所述特征的异常概率大于或等于预设的第一阈值时,确定所述特征为数据检测规则的候选子规则;
循环模块,用于循环执行所述获取模块、所述计算模块以及所述确定模块,得到m个候选子规则,直到所述候选子规则个数m达到预设的第二阈值时结束;
执行模块,将m个候选子规则组合成数据检测规则;
所述计算模块220中的预设的评价函数为:
;
其中,为所述特征的异常概率,/>为预设的理赔数据库中所述特征覆盖的正例数,为预设的理赔数据库中所述特征覆盖的负例数,/>为预设的理赔数据库中正例总数,/>为预设的理赔数据库中负例总数,/>为设定的权重;
所述执行模块250中还包括:第二处理子模块、第一计算子模块和第一确定子模块,其中:
所述第二处理子模块,用于根据预设的剪枝规则对所述m个候选子规则进行剪枝,得到若干个候选规则;
所述第一计算子模块,用于根据预设的剪枝函数分别计算所述若干个候选规则中每一个候选规则的剪枝函数值;
所述第一确定子模块,用于确定最大剪枝函数值对应的候选规则为数据检测规则;
所述第二处理子模块中还包括:第三处理子模块,其中:
所述第三处理子模块,用于依次从所述m个候选子规则中删除s个子规则,其中,s为大于0小于m的正整数,得到若干个子规则个数为m-s的候选规则;
所述第一计算子模块中预设的剪枝函数为:;
其中,p为预设的理赔数据库中所述候选规则覆盖的正例数,n为预设的理赔数据库中所述候选规则覆盖的负例数。
5.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至3中任一项权利要求所述数据检测规则生成方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至3中任一项权利要求所述数据检测规则生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910436928.7A CN110348472B (zh) | 2019-05-24 | 2019-05-24 | 数据检测规则生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910436928.7A CN110348472B (zh) | 2019-05-24 | 2019-05-24 | 数据检测规则生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348472A CN110348472A (zh) | 2019-10-18 |
CN110348472B true CN110348472B (zh) | 2023-08-15 |
Family
ID=68174259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910436928.7A Active CN110348472B (zh) | 2019-05-24 | 2019-05-24 | 数据检测规则生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348472B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242315A (zh) * | 2020-01-08 | 2020-06-05 | 中保车服科技服务股份有限公司 | 车险人伤反欺诈方法、装置、计算机设备及存储介质 |
CN111429003B (zh) * | 2020-03-23 | 2023-11-03 | 北京互金新融科技有限公司 | 数据处理方法及装置 |
CN111461901B (zh) * | 2020-03-31 | 2023-05-12 | 德联易控科技(北京)有限公司 | 车辆保险理赔信息的输出方法和装置 |
CN111782900B (zh) * | 2020-08-06 | 2024-03-19 | 平安银行股份有限公司 | 异常业务检测方法、装置、电子设备及存储介质 |
CN112347235B (zh) * | 2020-11-05 | 2024-05-24 | 北京羽扇智信息科技有限公司 | 规则库生成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182515A (zh) * | 2017-12-13 | 2018-06-19 | 中国平安财产保险股份有限公司 | 智能规则引擎规则输出方法、设备及计算机可读存储介质 |
CN109118376A (zh) * | 2018-08-14 | 2019-01-01 | 平安医疗健康管理股份有限公司 | 医疗保险保费定价方法、装置、计算机设备和存储介质 |
CN109389181A (zh) * | 2018-10-30 | 2019-02-26 | 全球能源互联网研究院有限公司 | 电网异常事件的关联规则生成方法及装置 |
CN109523412A (zh) * | 2018-11-14 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能核保方法、装置、计算机设备及计算机可读存储介质 |
WO2019085064A1 (zh) * | 2017-10-30 | 2019-05-09 | 平安科技(深圳)有限公司 | 医疗理赔拒付方法、装置、终端设备及存储介质 |
-
2019
- 2019-05-24 CN CN201910436928.7A patent/CN110348472B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019085064A1 (zh) * | 2017-10-30 | 2019-05-09 | 平安科技(深圳)有限公司 | 医疗理赔拒付方法、装置、终端设备及存储介质 |
CN108182515A (zh) * | 2017-12-13 | 2018-06-19 | 中国平安财产保险股份有限公司 | 智能规则引擎规则输出方法、设备及计算机可读存储介质 |
CN109118376A (zh) * | 2018-08-14 | 2019-01-01 | 平安医疗健康管理股份有限公司 | 医疗保险保费定价方法、装置、计算机设备和存储介质 |
CN109389181A (zh) * | 2018-10-30 | 2019-02-26 | 全球能源互联网研究院有限公司 | 电网异常事件的关联规则生成方法及装置 |
CN109523412A (zh) * | 2018-11-14 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能核保方法、装置、计算机设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
基于蚁群算法优化随机森林模型的汽车保险欺诈识别研究;闫春 等;保险研究(06);第116-129页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110348472A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348472B (zh) | 数据检测规则生成方法、装置、计算机设备及存储介质 | |
Faisal et al. | Data-stream-based intrusion detection system for advanced metering infrastructure in smart grid: A feasibility study | |
CN113098723A (zh) | 一种故障根因定位方法、装置、存储介质及设备 | |
CN110570030A (zh) | 基于深度学习的风电集群功率区间预测的方法及系统 | |
US11031757B2 (en) | Submarine cable route planning tool | |
CN115222303B (zh) | 基于大数据的行业风险数据分析方法、系统及存储介质 | |
CN113469578A (zh) | 基于多目标优化的业务策略生成方法、装置及系统 | |
CN116109007A (zh) | 发电功率确定方法、服务器及存储介质 | |
CN114782159A (zh) | 非法金融活动检测方法、系统、电子设备及介质 | |
CN113435122A (zh) | 实时流量数据处理方法、装置、计算机设备和存储介质 | |
CN110362627A (zh) | 基于区块链的业务分析方法及装置、电子设备、存储介质 | |
CN112529315B (zh) | 一种滑坡的预测方法、装置、设备和存储介质 | |
CN110457367B (zh) | 发现数据异动的方法和系统 | |
US20240361731A1 (en) | Method and internet of things system for safety supervision of smart gas operation quality | |
Zhang et al. | Quantitative Assessment of Drought Impacts Using XGBoost based on the Drought Impact Reporter | |
CN116663752B (zh) | 一种基于大数据分析的地质灾害智能预警系统 | |
CN109165832A (zh) | 信息安全管理方法及系统 | |
CN117633456B (zh) | 基于自适应焦点损失的海上风电天气事件辨识方法和装置 | |
WO2022156743A1 (zh) | 特征构建方法和装置、模型训练方法和装置、设备、介质 | |
CN118504939B (zh) | 一种电网故障保电维修计划制定方法、装置、设备及介质 | |
CN118642205A (zh) | 一种基于机器学习的强对流天气预警方法及系统 | |
CN107705124A (zh) | 基于威胁图的移动支付环境安全检测评估系统及其方法 | |
Oluyomi et al. | Detection of False Data Injection in Smart Water Metering Infrastructure | |
CN118657411A (zh) | 动态遥感监测进行海域空间数据管理的方法及装置 | |
CN118656617A (zh) | 一种生成瓦斯浓度预测模型的方法和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |