CN112036497A - 欺诈案件识别模型的训练方法、装置和计算机设备 - Google Patents

欺诈案件识别模型的训练方法、装置和计算机设备 Download PDF

Info

Publication number
CN112036497A
CN112036497A CN202010911125.5A CN202010911125A CN112036497A CN 112036497 A CN112036497 A CN 112036497A CN 202010911125 A CN202010911125 A CN 202010911125A CN 112036497 A CN112036497 A CN 112036497A
Authority
CN
China
Prior art keywords
case
fraud
samples
sample set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010911125.5A
Other languages
English (en)
Inventor
陈超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010911125.5A priority Critical patent/CN112036497A/zh
Publication of CN112036497A publication Critical patent/CN112036497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请设计人工智能领域,揭示了一种欺诈案件识别模型的训练方法、装置和计算机设备,其可以在欺诈样本较少的情况,更加准确地识别出历史理赔案件中未标注出来的欺诈案件,以增加正样本的数量,同时具有过滤脏数据的作用,改善了原始数据集中样本不均衡的情况,然后通过得到的数据集构建欺诈案件分类器,使得到的欺诈案件分类器的分类准确性更高。

Description

欺诈案件识别模型的训练方法、装置和计算机设备
技术领域
本申请涉及到人工智能领域,特别是涉及到一种欺诈案件识别模型的训练方法、装置和计算机设备。
背景技术
传统的车险理赔欺诈识别往往采用机器学习的方法,将历史数据中,人为判断的欺诈案件标记为正样本,其他的案件认为是非欺诈案件,即负样本,基于历史数据中的正样本和负样本训练一个二分类器。然而,历史数据中的欺诈案件占比非常小,而且非欺诈案件的样本其实是不纯的,即人为判断可能存在遗漏的情况,导致在非欺诈样本中掺杂有部分欺诈案件,这就意味着历史数据中的欺诈案件分布与实际分布是有差异的,未识别出来的欺诈样本属于脏数据,会影响分类器的分类准确性。
发明内容
本申请的主要目的为提供一种欺诈案件识别模型的训练方法、装置和计算机设备,旨在解决历史数据中的欺诈案件分布与实际分布有差异,从而影响构建的分类器的分类准确度低的技术问题。
为了实现上述发明目的,本申请提出一种欺诈案件识别模型的训练方法,包括:
S1、在预设的原始数据集中获取带有欺诈标注的案件样本形成第一正样本集,以及未带有欺诈标注的案件样本形成第一无标注样本集;
S2、在所述第一无标注样本集中采用有放回的方式采集未带有欺诈标注的案件样本,形成第二无标注样本集,并将所述第二无标注样本集和所述第一正样本集组合,得到第一训练集;
S3、基于所述第一训练集构建第一分类器;
S4、将所述第一无标注样本集中不存在于所述第二无标注样本集中的各第一无标注样本输入到所述第一分类器中进行分类计算,得到各所述第一无标注样本的第一分数值,并将所述分数值保存;
S5、重复执行指定次数的所述步骤S2-S4,得到多组记录有各第一无标注样本的第一分数值,其中,每次重复执行所述步骤S2-S4时,获取到的第二无标注样本集中的样本均存在差异;
S6、计算各组记录中相同的所述第一无标注样本的分数值的平均值,得到每一个所述第一无标注样本的第一分数值均值;
S7、使用每一次重复步骤S2-S4时得到的各第一分类器分别计算所述第一正样本集中各带有欺诈标注的案件样本的第二分数值,并计算出每一个所述带有欺诈标注的案件样本的第二分数均值;
S8、将各所述第二分数均值进行排序,并选择排序中位于指定百分比位置的第二分数均值作为阈值,筛选大于所述阈值的各第一分数均值对应的第一无标注样本,并将筛选出的所述第一无标注样本加入到所述第一正样本集中,形成第二正样本集,将剩余的所述第一无标注样本作为第二负样本集;
S9、将所述第二正样本集和第二负样本集合并,得到第二训练集;
S10、基于所述第二训练集,构建欺诈案件分类器。
进一步地,所述基于所述第二训练集,构建欺诈案件分类器的步骤S10,包括:
S101、基于所述第二训练集构建多个基分类器和一个次分类器;
S102、将多个所述基分类器融合连接所述次分类器,得到所述欺诈案件分类器。
进一步地,所述基分类器包括四个,分别基于LightGBM模型和CatBoost模型构建,所述基于所述第二训练集构建多个基分类器的步骤,包括:
S1011、通过第二训练集分别训练设置有两组不同参数的LightGBM模型和CatBoost模型,从而得到两个基于LightGBM模型的基分类器,以及两个基于CatBoost模型的基分类器。
进一步地,四个所述基分类器使用相同的损失函数logloss,所述损失函数logloss具体为:
Figure BDA0002663300170000021
其中wpos为欺诈样本的权重,wneg为非欺诈样本的权重,m是样本的数量,yi是第i个样本的标签,取值是0或1,xi是第i个样本的特征,h代表本模型。
进一步地,所述次分类器基于catboost模型构建,其损失函数Focal Loss为:
Figure BDA0002663300170000031
其中γ>0,用于调节简单样本的损失,α用于平衡欺诈样本与非欺诈样本的重要性,m是样本的数量,yi是第i个样本的标签,取值是0或1,xi是第i个样本的特征,h代表本模型。
进一步地,所述基于所述第二训练集,构建欺诈案件分类器的步骤S10之后,包括:
S11、将待识别的案件输入到所述欺诈案件分类器中进行识别,输出所述待识别的案件是否为欺诈案件的识别结果;
S12、若所述识别结果为所述待识别案件是欺诈案件,则将所述识别结果进行标注存入到所述第二训练集中;若所述识别结果为所述待识别案件不是欺诈案件,则根据预设算法计算所述识别结果是否以无标注的形式需要存储到所述第二训练集中。
进一步地,所述将待识别的案件输入到所述欺诈案件分类器中进行识别,输出所述待识别的案件是否为欺诈案件的识别结果的步骤S11之后,还包括:
S12、若所述识别结果为所述待识别案件是欺诈案件,则获取所述待识别案件的受益人信息;
S13、到预设的失信人数据库中查找是否存在有与所述受益人信息相同的信息;
S14、如果存在,则将所述识别结果和所述受益人信息发送给预设的终端。
本申请还提供一种欺诈案件识别模型的训练装置,包括:
获取单元,用于在预设的原始数据集中获取带有欺诈标注的案件样本形成第一正样本集,以及未带有欺诈标注的案件样本形成第一无标注样本集;
采集单元,用于在所述第一无标注样本集中采用有放回的方式采集未带有欺诈标注的案件样本,形成第二无标注样本集,并将所述第二无标注样本集和所述第一正样本集组合,得到第一训练集;
第一构建单元,用于基于所述第一训练集构建第一分类器;
计算存储单元,用于将所述第一无标注样本集中不存在于所述第二无标注样本集中的各第一无标注样本输入到所述第一分类器中进行分类计算,得到各所述第一无标注样本的第一分数值,并将所述分数值保存;
执行单元,用于重复执行所述采集单元、第一构建单元和计算存储单元的动作,得到多组记录有各第一无标注样本的第一分数值,其中,每次重复执行所述采集单元、第一构建单元和计算存储单元的动作时,获取到的第二无标注样本集中的样本均存在差异;
第一平均值计算单元,用于计算各组记录中相同的所述第一无标注样本的分数值的平均值,得到每一个所述第一无标注样本的第一分数值均值;
第二平均值计算单元,用于使用每一次执行所述采集单元、第一构建单元和计算存储单元的动作时得到的各第一分类器分别计算所述第一正样本集中各带有欺诈标注的案件样本的第二分数值,并计算出每一个所述带有欺诈标注的案件样本的第二分数均值;
排序筛选单元,用于将各所述第二分数均值进行排序,并选择排序中位于指定百分比位置的第二分数均值作为阈值,筛选大于所述阈值的各第一分数均值对应的第一无标注样本,并将筛选出的所述第一无标注样本加入到所述第一正样本集中,形成第二正样本集,将剩余的所述第一无标注样本作为第二负样本集;
合并单元,用于将所述第二正样本集和第二负样本集合并,得到第二训练集;
第二构建单元,用于基于所述第二训练集,构建欺诈案件分类器。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的欺诈案件识别模型的训练方法、装置和计算机设备,可以在欺诈样本较少的情况,更加准确地识别出历史理赔案件中未标注出来的欺诈案件,以增加正样本的数量,同时具有过滤脏数据的作用,改善了原始数据集中样本不均衡的情况,然后通过得到的数据集构建欺诈案件分类器,使得到的欺诈案件分类器的分类准确性更高。
附图说明
图1为本申请一实施例的欺诈案件识别模型的训练方法的流程示意图;
图2为本申请一实施例的欺诈案件识别模型的训练装置的示意框图;
图3为本申请一实施例的计算机设备的示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种欺诈案件识别模型的训练方法,包括:
S1、在预设的原始数据集中获取带有欺诈标注的案件样本形成第一正样本集,以及未带有欺诈标注的案件样本形成第一无标注样本集;
S2、在所述第一无标注样本集中采用有放回的方式采集未带有欺诈标注的案件样本,形成第二无标注样本集,并将所述第二无标注样本集和所述第一正样本集组合,得到第一训练集;
S3、基于所述第一训练集构建第一分类器;
S4、将所述第一无标注样本集中不存在于所述第二无标注样本集中的各第一无标注样本输入到所述第一分类器中进行分类计算,得到各所述第一无标注样本的第一分数值,并将所述分数值保存;
S5、重复执行指定次数的所述步骤S2-S4,得到多组记录有各第一无标注样本的第一分数值,其中,每次重复执行所述步骤S2-S4时,获取到的第二无标注样本集中的样本均存在差异;
S6、计算各组记录中相同的所述第一无标注样本的分数值的平均值,得到每一个所述第一无标注样本的第一分数值均值;
S7、使用每一次重复步骤S2-S4时得到的各第一分类器分别计算所述第一正样本集中各带有欺诈标注的案件样本的第二分数值,并计算出每一个所述带有欺诈标注的案件样本的第二分数均值;
S8、将各所述第二分数均值进行排序,并选择排序中位于指定百分比位置的第二分数均值作为阈值,筛选大于所述阈值的各第一分数均值对应的第一无标注样本,并将筛选出的所述第一无标注样本加入到所述第一正样本集中,形成第二正样本集,将剩余的所述第一无标注样本作为第二负样本集;
S9、将所述第二正样本集和第二负样本集合并,得到第二训练集;
S10、基于所述第二训练集,构建欺诈案件分类器。
如上述步骤S1所述,上述预设的原始数据集可以是人工收集的历史案件数据集,并人工对历史案件进行相应的标注,原始数据集中的案件样本均为历史上的真实案件,所以带有欺诈标注的案件样本的数量较少,而无标注的案件样本较多。上述第一正样本集中的样本的归集方法包括:在原始数据集中的各案件样本上查找预设的欺诈标注数据,将带有欺诈标注数据的样本归集到一起形成所述第一正样本集。进一步地,将剩余的未带有欺诈标注的案件样本归集到一起形成第一无标注样本集。
在另一个具体实施例中,上述原始数据集是基于爬虫技术到万维网络中爬取的相关数据,如爬取车险理赔案件的数据,将车险理赔案件中涉及欺诈关键字的案件设定为欺诈案件,并对其进行标注,其它的不标注,最后将爬取到的全部数据作为上述原始数据集,同时将标注的案件作为上述带有欺诈标注的案件样本,以形成第一正样本集,未带标注的案件样本形成第一无标注样本集。需要注意的是,案件样本中未带有欺诈标注的案件样本也可能是真实的欺诈案件。
如上述步骤S2所述,在第一无标注样本集中随机采集无标注的案件样本,其中,可以重复地采集到同一件无标注的案件样本,采集的次数可以预先设定,比如采集的次数与第一正样本集中的样本的数量相同等,使第一训练集中的带有欺诈标注的案件样本和未带有欺诈标注的案件样本的数量相同。在另一个实施例中,也可以是根据公式y=ax确定采集的次数,其中,y为采集的次数,a为预设第一训练集中带有欺诈标注的案件样本和未带有欺诈标注的案件样本的数量比值,x为第一正样本集中的样本量的数量。然后将采集到的第二无标注样本集和第一正样本集合并得到一个即含有欺诈标注的案件样本,又含有未标注欺诈标注的案件样本的训练集。
如上述步骤S3所述,上述第一分类器是基于catboost的分类器,基于catboost的分类器是一种能够很好地处理类别型特征的梯度提升算法库,其性能卓越,在性能方面可以匹敌任何先进的机器学习算法;鲁棒性/强健性好,减少了对很多超参数调优的需求,并降低了过度拟合的机会,具有较高的通用性;而且易于使用,其提供与scikit集成的Python接口,以及R和命令行界面,可以处理类别型、数值型特征;可扩展较高,其支持自定义损失函数。
如上述步骤S4所述,上述第二无标注样本集中的样本都来源于第一无标注样本集,通过数据比对就可以得出存在于第一无标注样本集中,但是不存在于第二无标注样本集中的各第一无标注样本,然后将上述分类器应用于各第一无标注样本,得到每一个第一无标注样本的第一分数值(概率值),并将其记录存储。
如上述步骤S5所述,每次重复一次步骤S2-S4的过程,使用的第一正样本集和第一无标注样本集都是相同的,但是在所述第一无标注样本集中进行有放回的方式获取第二无标注样本集时,得到的第二无标注样本集中的样本存在不同,比如,上述第一无标注样本集中存在abcde五个样本,第一次获得第二无标注样本集为aab、第二次获得第二无标注样本集可能为abc、第三次获得第二无标注样本集可能为cdd等。所以,每次训练得出的分类器也会存在差异。
如上述步骤S6所述,每重复一次上述步骤S2-S4就会得到一组各第一无标注样本的第一分数值,而因为每一次中的第一无标注样本会存在不同,所以各第一无标注样本出现的次数也不相同,又因为每一次的分类器不同,所以同一个无标注样本在不同的分类器中得到的第一分数值也不相同,在此对各第一无标注样本的第一分数值进行平均计算,可以得到对应各第一无标样本相对准确的分数,以便于后续准确的样本分类。
如上述步骤S7-S9所述,将第一正样本集中的各样本输入到上述重复执行步骤S2-S4得到不同的分类器中,同样会得到对应各带有欺诈标注的案件样本的不同第二分数值,然后计算各带有欺诈标注的案件样本的第二分数值的平均值,得到每一个正样本集中的样本对应的第二平均分值。将这些第二平均分值进行降序排序,然后进行百分比划分,比如将排在20%位置的第二平均值作为标准值,然后与各第一分数均值比较,将大于标准值的第一分数均值对应的第一无标注样本放入第一正样本集中形成最终的第二正样本集,将小于标准值的第一分数均值对应的第一无标注样本集中形成最终的第二负样本集。此时,将第二正样本集和第二负样本集组合得到脏数据较少的训练集(脏数据是指参杂在第一无标注样本集中的欺诈案件),以训练具体的欺诈案件分类模型,同时增加了正样本的数量,进一步地提高后续训练欺诈案件分类模型的准确性。
如上述步骤S10所述,即为通过上述的第二训练集构建欺诈案件分类器。其可以基于LightGBM、CatBoost等模型构建欺诈案件分类器。
在一个实施例中,上述基于所述第二训练集,构建欺诈案件分类器的步骤S10,包括:
S101、基于所述第二训练集构建多个基分类器和一个次分类器;
S102、将多个所述基分类器融合连接所述次分类器,得到所述欺诈案件分类器。
在本实施例中,如上述步骤S101和步骤S102所述,使用stacking的方法构建欺诈案件分类器,解决了单个分类器的非线性表达能力不好,分类效果不佳。上述多个基分类器可以使用相同的模型、但是使用不同的参数构建得到不同的基分类器,比如,基分类器包括四个,分别基于LightGBM模型和CatBoost模型构建,通过第二训练集分别训练设置有两组不同参数的LightGBM模型和CatBoost模型,从而得到两个基于LightGBM模型的基分类器,以及两个基于CatBoost模型的基分类器。上述多个基分类器也可以是通过不同的模型构建不同的基分类器等。上述次分类器选用防止过拟合效果好的模型,如LogisticsRegression模型等。
在一个实施例中,上述四个所述基分类器使用相同的损失函数logloss,所述损失函数logloss具体为:
Figure BDA0002663300170000091
其中wpos为欺诈样本的权重,wneg为非欺诈样本的权重,m是样本的数量,yi是第i个样本的标签,取值是0或1,xi是第i个样本的特征,h代表本模型。
上述次分类器基于catboost模型构建,其损失函数Focal Loss为:
Figure BDA0002663300170000092
其中γ>0,用于调节简单样本的损失,α用于平衡欺诈样本与非欺诈样本的重要性,m是样本的数量,yi是第i个样本的标签,取值是0或1,xi是第i个样本的特征,h代表本模型。简单样本即为容易判断是否为欺诈案件的样本。
在本实施例中,考虑到存在第二正样本集中的正样本数据与第二负样本集中的负样本数据的比例不均衡的情况,所以无论是基分类器还是次分类器都需要重新设置类别权重,通过提升正样本类别的重要性来平衡这两类样本本身的不平衡,最终会反映到损失函数上。
在一个实施例中,上述基于所述第二训练集,构建欺诈案件分类器的步骤S10之后,包括:
S11、将待识别的案件输入到所述欺诈案件分类器中进行识别,输出所述待识别的案件是否为欺诈案件的识别结果;
S12、若所述识别结果为所述待识别案件是欺诈案件,则将所述识别结果进行标注存入到所述第二训练集中;若所述识别结果为所述待识别案件不是欺诈案件,则根据预设算法计算所述识别结果是否以无标注的形式需要存储到所述第二训练集中。
在本实施例中,上述待识别的案件是指需要判断其是否欺诈案件的案件,当识别结果为所述待识别案件是欺诈案件时,对待识别的案件进行标注存入到第二训练集中,以丰富第二训练集的正样本数量,如果识别结果为所述待识别案件不是欺诈案件,则需要考虑是否将其放入到第二训练集中,因为不是欺诈案件的负样本数量较多,如果将不是欺诈案件的待识别的案件全部放入到第二训练集中则会破坏正样本和负样本之间的平衡,所以需要进行计算。
进一步地,具体的预设算法,包括:统计第二训练集中的正样本数量,以及负样本数量;根据正样本数量和负样本数量的比值,确定不是欺诈案件的负样本加入第二训练集的比例。即,放入一个正样本后,按照比例随机放入多个不是欺诈案件的负样本。当连续两个案件均为正样本数据的时候,则可以按照比例乘以2的数量获取负样本并放入到第二训练集中。在保持第一训练集中的训练样本增加的同时,保持正样本数量和负样本数量的均衡性。
在一个实施例中,上述将待识别的案件输入到所述欺诈案件分类器中进行识别,输出所述待识别的案件是否为欺诈案件的识别结果的步骤S11之后,还包括:
S13、若所述识别结果为所述待识别案件是欺诈案件,则获取所述待识别案件的受益人信息;
S14、到预设的失信人数据库中查找是否存在有与所述受益人信息相同的信息,其中,所述失信人数据库为存储有失信人信息的数据库;
S15、如果存在,则将所述识别结果和所述受益人信息发送给预设的终端。
在本实施例中,因为待识别案件是欺诈案件,所以获取所述待识别案件的受益人信息,并到预设的失信人数据库中查找是否存在有与所述受益人信息相同的信息,如果存在,则将所述识别结果和所述受益人信息发送给预设的终端。该终端可以理解为接收电子信息的终端,一般由法务、监管等部门持有,具体的可以是电子设备;或者理解为可以显示电子信息的客户端,如邮件、短消息等应用客户端等。
欺诈案件的目的一般是为了使受益人获取利益,而且同一个受益人容易多次实施欺诈动作,而上述失信人数据库中则记录了具有欺诈行为的历史受益人信息(失信人信息),所以在确定待识别案件是欺诈案件,且受益人属于失信人数据库,则说明该案件是欺诈案件的概率更高,进而将其信息发送给法务部门等持有的终端,以便以法务部门第一时间去了解案件的真实情况,进一步地,还可以将所述识别结果和所述受益人信息整合成语音信息,然后自动拨打预设的报警电话,在拨打电话过程中将所述语音信息播报给报警电话的接收端。在另一个实施例中,如果在失信人数据库中未查找与所述受益人信息相同的信息,则将该待识别案件进行提取和标记,供工作人员进行复核等,而不需要发送报警信息等。
在一个实施例中,上述将待识别的案件输入到所述欺诈案件分类器中进行识别,输出所述待识别的案件是否为欺诈案件的识别结果的步骤S11之后,还包括:
S111、若所述识别结果为所述待识别案件不是欺诈案件,则判断所述待识别案件是否携带预设标签,其中,所述预设标签是上传所述待识别案件的工作人员插入的标签,其表示该待识别案件可能是欺诈案件;
S112、若所述待识别案件携带预设标签,则将所述待识别案件归类到异常案件数据库中,并判断在指定时间内,异常案件数据库中的所述待识别案件是否被处理,若否则发出警报。
在本实施例中,工作人员在上传待识别案件的时候可能会有一个初步的判断,主要是判断待识别案件可能是欺诈案件(不确定),因此工作人员会给该待识别案件标注一个预设标签,当带有预设标签的待识别案件被判定为不是欺诈案件,则存在欺诈案件分类器分类错误的可能,因此将带有预设标签的待识别案件归类到异常案件数据库中,然后对其进行单独的分析处理(一般是多人一起的人工复核),而且复核时间有要求,如果间隔太久没有复核,则发出警报,以提醒复核人员进行复核工作。
进一步地,当复核带有预设标签的待识别案件不是欺诈案件后,对调取上述工作人员插入预设标签的次数和准确率,次数大于预设次数,且准确率低于预设值的时候,发出提醒信息,提醒信息可以发给工作人本人以及其领导,对后续对工作人员的调岗或培训提供辅助治疗等。
上述欺诈案件识别模型的训练方法还可以应用于区块链技术中,比如将欺诈案件分类器存储到区块链中,上述的原始数据集中的样本均是在区块链网络中爬取到的数据等。
上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
在本申请实施例中,可以在欺诈样本较少的情况,更加准确地识别出历史理赔案件中未标注出来的欺诈案件,以增加正样本的数量,同时具有过滤脏数据的作用,改善了原始数据集中样本不均衡的情况。进一步地,在搭建欺诈案件识别模型时采用stacking的思想得到一个融合模型,该模型具有更好的非线性表达能力,降低模型的偏差—方差,相比单个分类器提升了模型的准确率。
参照图2,本申请还提一种欺诈案件识别模型的训练装置,包括:
获取单元10,用于在预设的原始数据集中获取带有欺诈标注的案件样本形成第一正样本集,以及未带有欺诈标注的案件样本形成第一无标注样本集;
采集单元20,用于在所述第一无标注样本集中采用有放回的方式采集未带有欺诈标注的案件样本,形成第二无标注样本集,并将所述第二无标注样本集和所述第一正样本集组合,得到第一训练集;
第一构建单元30,用于基于所述第一训练集构建第一分类器;
计算存储单元40,用于将所述第一无标注样本集中不存在于所述第二无标注样本集中的各第一无标注样本输入到所述第一分类器中进行分类计算,得到各所述第一无标注样本的第一分数值,并将所述分数值保存;
执行单元50,用于重复执行所述采集单元、第一构建单元和计算存储单元的动作,得到多组记录有各第一无标注样本的第一分数值,其中,每次重复执行所述采集单元、第一构建单元和计算存储单元的动作时,获取到的第二无标注样本集中的样本均存在差异;
第一平均值计算单元60,用于计算各组记录中相同的所述第一无标注样本的分数值的平均值,得到每一个所述第一无标注样本的第一分数值均值;
第二平均值计算单元70,用于使用每一次执行所述采集单元、第一构建单元和计算存储单元的动作时得到的各第一分类器分别计算所述第一正样本集中各带有欺诈标注的案件样本的第二分数值,并计算出每一个所述带有欺诈标注的案件样本的第二分数均值;
排序筛选单元80,用于将各所述第二分数均值进行排序,并选择排序中位于指定百分比位置的第二分数均值作为阈值,筛选大于所述阈值的各第一分数均值对应的第一无标注样本,并将筛选出的所述第一无标注样本加入到所述第一正样本集中,形成第二正样本集,将剩余的所述第一无标注样本作为第二负样本集;
合并单元90,用于将所述第二正样本集和第二负样本集合并,得到第二训练集;
第二构建单元100,用于基于所述第二训练集,构建欺诈案件分类器。
上述第二构建单元100,包括:
构建模块,用于基于所述第二训练集构建多个基分类器和一个次分类器;
融合模块,用于将多个所述基分类器融合连接所述次分类器,得到所述欺诈案件分类器。
在一个实施例中,上述基分类器包括四个,分别基于LightGBM模型和CatBoost模型构建,上述构建模块,包括:
构建子模块,用于通过第二训练集分别训练设置有两组不同参数的LightGBM模型和CatBoost模型,从而得到两个基于LightGBM模型的基分类器,以及两个基于CatBoost模型的基分类器。
进一步地,四个所述基分类器使用相同的损失函数logloss,所述损失函数logloss具体为:
Figure BDA0002663300170000141
其中wpos为欺诈样本的权重,wneg为非欺诈样本的权重,m是样本的数量,yi是第i个样本的标签,取值是0或1,xi是第i个样本的特征,h代表本模型。
进一步对,所述次分类器基于catboost模型构建,其损失函数Focal Loss为:
Figure BDA0002663300170000142
其中γ>0,用于调节简单样本的损失,α用于平衡欺诈样本与非欺诈样本的重要性,m是样本的数量,yi是第i个样本的标签,取值是0或1,xi是第i个样本的特征,h代表本模型。
在一个实施例中,上述欺诈案件识别模型的训练装置,还包括:
识别单元,用于将待识别的案件输入到所述欺诈案件分类器中进行识别,输出所述待识别的案件是否为欺诈案件的识别结果;
存储单元,用于若所述识别结果为所述待识别案件是欺诈案件,则将所述识别结果进行标注存入到所述第二训练集中;若所述识别结果为所述待识别案件不是欺诈案件,则根据预设算法计算所述识别结果是否以无标注的形式需要存储到所述第二训练集中。
进一步地,上述欺诈案件识别模型的训练装置,还包括:
信息获取单元,用于若所述识别结果为所述待识别案件是欺诈案件,则获取所述待识别案件的受益人信息;
查找单元,用于到预设的失信人数据库中查找是否存在有与所述受益人信息相同的信息,其中,所述失信人数据库为存储有失信人信息的数据库;
发送单元,用于如果失信人数据库中查找到与所述受益人信息相同的信息,则将所述识别结果和所述受益人信息发送给预设的终端。
进一步地,上述欺诈案件识别模型的训练装置,还包括:
判断单元,用于若所述识别结果为所述待识别案件不是欺诈案件,则判断所述待识别案件是否携带预设标签,其中,所述预设标签是上传所述待识别案件的工作人员插入的标签,其表示该待识别案件可能是欺诈案件;
归类判断单元,用于若所述待识别案件携带预设标签,则将所述待识别案件归类到异常案件数据库中,并判断在指定时间内,异常案件数据库中的所述待识别案件是否被处理,若否则发出警报。
上述各单元、模块和子模块为执行上述欺诈案件识别模型的训练方法的装置,因此不一一展开说明。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例的欺诈案件识别模型的训练方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的欺诈案件识别模型的训练方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种欺诈案件识别模型的训练方法,其特征在于,包括:
S1、在预设的原始数据集中获取带有欺诈标注的案件样本形成第一正样本集,以及未带有欺诈标注的案件样本形成第一无标注样本集;
S2、在所述第一无标注样本集中采用有放回的方式采集未带有欺诈标注的案件样本,形成第二无标注样本集,并将所述第二无标注样本集和所述第一正样本集组合,得到第一训练集;
S3、基于所述第一训练集构建第一分类器;
S4、将所述第一无标注样本集中不存在于所述第二无标注样本集中的各第一无标注样本输入到所述第一分类器中进行分类计算,得到各所述第一无标注样本的第一分数值,并将所述分数值保存;
S5、重复执行指定次数的所述步骤S2-S4,得到多组记录有各第一无标注样本的第一分数值,其中,每次重复执行所述步骤S2-S4时,获取到的第二无标注样本集中的样本均存在差异;
S6、计算各组记录中相同的所述第一无标注样本的分数值的平均值,得到每一个所述第一无标注样本的第一分数值均值;
S7、使用每一次重复步骤S2-S4时得到的各第一分类器分别计算所述第一正样本集中各带有欺诈标注的案件样本的第二分数值,并计算出每一个所述带有欺诈标注的案件样本的第二分数均值;
S8、将各所述第二分数均值进行排序,并选择排序中位于指定百分比位置的第二分数均值作为阈值,筛选大于所述阈值的各第一分数均值对应的第一无标注样本,并将筛选出的所述第一无标注样本加入到所述第一正样本集中,形成第二正样本集,将剩余的所述第一无标注样本作为第二负样本集;
S9、将所述第二正样本集和第二负样本集合并,得到第二训练集;
S10、基于所述第二训练集,构建欺诈案件分类器。
2.根据权利要求1所述的欺诈案件识别模型的训练方法,其特征在于,所述基于所述第二训练集,构建欺诈案件分类器的步骤S10,包括:
S101、基于所述第二训练集构建多个基分类器和一个次分类器;
S102、将多个所述基分类器融合连接所述次分类器,得到所述欺诈案件分类器。
3.根据权利要求2所述的欺诈案件识别模型的训练方法,其特征在于,所述基分类器包括四个,分别基于LightGBM模型和CatBoost模型构建,所述基于所述第二训练集构建多个基分类器的步骤,包括:
S1011、通过第二训练集分别训练设置有两组不同参数的LightGBM模型和CatBoost模型,从而得到两个基于LightGBM模型的基分类器,以及两个基于CatBoost模型的基分类器。
4.根据权利要求3所述的欺诈案件识别模型的训练方法,其特征在于,四个所述基分类器使用相同的损失函数logloss,所述损失函数logloss具体为:
Figure FDA0002663300160000021
其中wpos为欺诈样本的权重,wneg为非欺诈样本的权重,m是样本的数量,yi是第i个样本的标签,取值是0或1,xi是第i个样本的特征,h代表本模型。
5.根据权利要求2所述的欺诈案件识别模型的训练方法,其特征在于,所述次分类器基于catboost模型构建,其损失函数Focal Loss为:
Figure FDA0002663300160000022
其中γ>0,用于调节简单样本的损失,α用于平衡欺诈样本与非欺诈样本的重要性,m是样本的数量,yi是第i个样本的标签,取值是0或1,xi是第i个样本的特征,h代表本模型。
6.根据权利要求1-5中任一项所述的欺诈案件识别模型的训练方法,其特征在于,所述基于所述第二训练集,构建欺诈案件分类器的步骤S10之后,包括:
S11、将待识别的案件输入到所述欺诈案件分类器中进行识别,输出所述待识别的案件是否为欺诈案件的识别结果;
S12、若所述识别结果为所述待识别案件是欺诈案件,则将所述识别结果进行标注存入到所述第二训练集中;若所述识别结果为所述待识别案件不是欺诈案件,则根据预设算法计算所述识别结果是否以无标注的形式需要存储到所述第二训练集中。
7.根据权利要求6所述的欺诈案件识别模型的训练方法,其特征在于,所述将待识别的案件输入到所述欺诈案件分类器中进行识别,输出所述待识别的案件是否为欺诈案件的识别结果的步骤S11之后,还包括:
S13、若所述识别结果为所述待识别案件是欺诈案件,则获取所述待识别案件的受益人信息;
S14、到预设的失信人数据库中查找是否存在有与所述受益人信息相同的信息,其中,所述失信人数据库为存储有失信人信息的数据库;
S15、如果存在,则将所述识别结果和所述受益人信息发送给预设的终端。
8.一种欺诈案件识别模型的训练装置,其特征在于,包括:
获取单元,用于在预设的原始数据集中获取带有欺诈标注的案件样本形成第一正样本集,以及未带有欺诈标注的案件样本形成第一无标注样本集;
采集单元,用于在所述第一无标注样本集中采用有放回的方式采集未带有欺诈标注的案件样本,形成第二无标注样本集,并将所述第二无标注样本集和所述第一正样本集组合,得到第一训练集;
第一构建单元,用于基于所述第一训练集构建第一分类器;
计算存储单元,用于将所述第一无标注样本集中不存在于所述第二无标注样本集中的各第一无标注样本输入到所述第一分类器中进行分类计算,得到各所述第一无标注样本的第一分数值,并将所述分数值保存;
执行单元,用于重复执行所述采集单元、第一构建单元和计算存储单元的动作,得到多组记录有各第一无标注样本的第一分数值,其中,每次重复执行所述采集单元、第一构建单元和计算存储单元的动作时,获取到的第二无标注样本集中的样本均存在差异;
第一平均值计算单元,用于计算各组记录中相同的所述第一无标注样本的分数值的平均值,得到每一个所述第一无标注样本的第一分数值均值;
第二平均值计算单元,用于使用每一次执行所述采集单元、第一构建单元和计算存储单元的动作时得到的各第一分类器分别计算所述第一正样本集中各带有欺诈标注的案件样本的第二分数值,并计算出每一个所述带有欺诈标注的案件样本的第二分数均值;
排序筛选单元,用于将各所述第二分数均值进行排序,并选择排序中位于指定百分比位置的第二分数均值作为阈值,筛选大于所述阈值的各第一分数均值对应的第一无标注样本,并将筛选出的所述第一无标注样本加入到所述第一正样本集中,形成第二正样本集,将剩余的所述第一无标注样本作为第二负样本集;
合并单元,用于将所述第二正样本集和第二负样本集合并,得到第二训练集;
第二构建单元,用于基于所述第二训练集,构建欺诈案件分类器。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010911125.5A 2020-09-02 2020-09-02 欺诈案件识别模型的训练方法、装置和计算机设备 Pending CN112036497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010911125.5A CN112036497A (zh) 2020-09-02 2020-09-02 欺诈案件识别模型的训练方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010911125.5A CN112036497A (zh) 2020-09-02 2020-09-02 欺诈案件识别模型的训练方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN112036497A true CN112036497A (zh) 2020-12-04

Family

ID=73591253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010911125.5A Pending CN112036497A (zh) 2020-09-02 2020-09-02 欺诈案件识别模型的训练方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112036497A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487440A (zh) * 2021-07-26 2021-10-08 联仁健康医疗大数据科技股份有限公司 模型生成、健康险理赔的确定方法、装置、设备及介质
CN113535954A (zh) * 2021-07-15 2021-10-22 广东电网有限责任公司中山供电局 一种基于作业现场的音频数据结构化转化方法
CN114549026A (zh) * 2022-04-26 2022-05-27 浙江鹏信信息科技股份有限公司 基于算法组件库分析的未知诈骗的识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535954A (zh) * 2021-07-15 2021-10-22 广东电网有限责任公司中山供电局 一种基于作业现场的音频数据结构化转化方法
CN113487440A (zh) * 2021-07-26 2021-10-08 联仁健康医疗大数据科技股份有限公司 模型生成、健康险理赔的确定方法、装置、设备及介质
CN114549026A (zh) * 2022-04-26 2022-05-27 浙江鹏信信息科技股份有限公司 基于算法组件库分析的未知诈骗的识别方法及系统

Similar Documents

Publication Publication Date Title
WO2021139252A1 (zh) 运维故障根因识别方法、装置、计算机设备和存储介质
CN112036497A (zh) 欺诈案件识别模型的训练方法、装置和计算机设备
CN109241711A (zh) 基于预测模型的用户行为识别方法及装置
CN109767322A (zh) 基于大数据的可疑交易分析方法、装置和计算机设备
CN107872436A (zh) 一种账号识别方法、装置及系统
CN109711929A (zh) 基于预测模型的业务推荐的方法及装置
CN112801431B (zh) 基于人工智能分析的企业经营风险评估方法及系统
CN112712429A (zh) 汇款业务审核方法、装置、计算机设备和存储介质
CN111506710B (zh) 基于谣言预测模型的信息发送方法、装置和计算机设备
WO2021042842A1 (zh) 基于ai面试系统的面试方法、装置和计算机设备
CN109903045B (zh) 行为轨迹监控方法、装置、计算机设备和介质
CN113327037A (zh) 基于模型的风险识别方法、装置、计算机设备和存储介质
CN112036749A (zh) 基于医疗数据识别风险用户的方法、装置和计算机设备
CN111260214B (zh) 核电站预留工单领料方法、装置、设备及存储介质
CN112434335A (zh) 业务问题的处理方法、装置、计算机设备及存储介质
CN114090985A (zh) 区块链中用户操作权限的设置方法、装置和电子设备
CN113435517A (zh) 异常数据点输出方法、装置、计算机设备和存储介质
CN113535848A (zh) 基于区块链的征信等级确定方法、装置、设备及存储介质
CN113672654A (zh) 数据查询方法、装置、计算机设备和存储介质
CN115713399B (zh) 一种结合第三方数据源的用户信用评估系统
CN115907968A (zh) 一种基于人行征信的风控拒绝推断方法及设备
CN116342141A (zh) 一种空壳企业识别方法、装置和设备
CN116186543A (zh) 一种基于图像识别的财务数据处理系统及方法
CN113643067A (zh) 基于人工智能的客户筛选方法、装置、设备及存储介质
CN113312481A (zh) 基于区块链的文本分类方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201204

RJ01 Rejection of invention patent application after publication