发明内容
本发明的主要目的在于提供一种数据处理方法、设备及计算机可读存储介质,旨在解决数据样本噪声样本多导致算法分类精确率低的技术问题。
为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括:
基于历史交易数据集获取第一样本集,并确定所述第一样本集中第一样本的第一权重,其中,历史交易数据集包括欺诈交易数据以及正常交易数据;
基于所述第一权重确定所述第一样本集对应的裁剪阈值,并基于所述裁剪阈值以及所述第一样本集,获取第二样本集;
将所述第二样本集输入初始分类器进行训练,获得弱分类器和错误率,并将弱分类器添加至分类器集;
基于所述分类器集以及所述错误率,确定欺诈预测模型,并将当前交易数据输入所述欺诈预测模型,以确定所述当前交易数据中是否存在欺诈交易数据。
优选地,所述基于所述第一权重确定所述第一样本集对应的裁剪阈值,并基于所述裁剪阈值以及所述第一样本集,获取第二样本集的步骤包括:
获取所述第一样本集中的第一样本个数,以及所述第一权重中的最大权重;
基于所述最大权重、所述第一样本个数和预设规范系数确定裁剪阈值;
将各个所述第一样本中第一权重大于所述裁剪阈值的目标样本作为第二样本集的第二样本。
优选地,所述将所述第二样本集输入初始分类器进行训练,获得弱分类器和错误率,并将弱分类器添加至分类器集的步骤包括:
将所述第二样本集中各个第二样本输入初始分类器进行机器训练学习,获取弱分类器以及分类结果;
基于所述分类结果、第一权重和实际结果,获取错误率;
基于所述错误率获取所述弱分类器的分类器权重,并基于所述分类器权重将弱分类器添加至分类器集。
优选地,所述基于所述分类器集以及所述错误率,确定欺诈预测模型的步骤包括:
确定所述错误率是否大于或等于预设值;
若所述错误率大于或等于预设值,则确定所述第二样本集与所述第一样本集是否相同;
若相同,基于所述分类器集中各个分类器以及所述分类器集中各个分类器的分类器权重,确定欺诈预测模型。
优选地,所述确定所述第二样本集与所述第一样本集是否相同的步骤之后,还包括:
若不相同,则将第二样本集作为第一样本集,将第二样本集中各个第二样本对应的权重作为第一权重,返回执行所述基于所述第一权重确定所述第一样本集对应的裁剪阈值的步骤。
优选地,所述确定所述错误率是否大于或等于预设值的步骤之后,还包括:
若错误率小于预设值,则更新当前迭代次数;
若当前迭代次数大于预期迭代次数或错误率小于最低错误率,则基于分类器集获取各个分类器权重,并基于所述分类器权重和分类结果,确定欺诈预测模型。
优选地,所述更新当前迭代次数的步骤之后,还包括:
若当前迭代次数小于或等于预期迭代次数,则基于所述第二样本集对应的分类结果,获取所述第二样本集对应的连续错误次数;
基于所述错误率获取所述弱分类器的分类器权重,并基于所述连续错误次数获取惩罚因子;
基于所述惩罚因子、分类结果、实际结果、第二样本集中各个第二样本的权重以及分类器权重,获取第二样本集中各个第二样本的第二权重;
将所述第二样本集作为第一样本集,将所述第二权重作为第一权重,返回执行所述基于所述第一权重确定所述第一样本集对应的裁剪阈值的步骤。
优选地,所述将当前交易数据输入所述欺诈预测模型,以确定所述当前交易数据中是否存在欺诈交易数据的步骤包括:
基于所述欺诈预测模型,将当前交易数据输入所述欺诈预测模型中各个分类器中,获取各个分类器对应的预测结果;
基于所述各个分类器对应的预测结果,获取最终预测结果,并基于所述最终预测结果确定所述当前交易数据中是否存在欺诈交易数据。
本申请实施例还提出一种数据处理设备,所述数据处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
本发明通过基于历史交易数据集获取第一样本集,并确定所述第一样本集中第一样本的第一权重,其中,历史交易数据集包括欺诈交易数据以及正常交易数据,接着基于所述第一权重确定所述第一样本集对应的裁剪阈值,并基于所述裁剪阈值以及所述第一样本集,获取第二样本集,而后将所述第二样本集输入初始分类器进行训练,获得弱分类器和错误率,并将弱分类器添加至分类器集,最后基于所述分类器集以及所述错误率,确定欺诈预测模型,并将当前交易数据输入所述欺诈预测模型,以确定所述当前交易数据中是否存在欺诈交易数据,在上述步骤中,利用裁剪阈值裁剪噪声样本,对重要样本进行迭代获得准确率更高的分类器,解决了因为数据样本噪声样本多导致算法分类精确率低的技术问题,提高了分类的精确率。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中数据处理设备的结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序。
在本实施例中,数据处理设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据处理程序,其中,处理器1001调用存储器1005中存储的数据处理程序时,并执行以下各个实施例中数据处理方法的步骤。
本发明还提供一种数据处理方法,参照图2,图2为本发明数据处理方法第一实施例的流程示意图。
本实施例中,该数据处理方法包括以下步骤:
步骤S101,基于历史交易数据集获取第一样本集,并确定所述第一样本集中第一样本的第一权重,其中,历史交易数据集包括欺诈交易数据以及正常交易数据;
本实施例中,历史交易数据集为用户信用卡历史交易的记录,历史交易数据集包括了信用卡欺诈交易和正常交易的记录,值得注意的是,历史交易数据集是针对信用卡上的交易记录。第一样本集包括了所有交易记录样本的交易信息,所述第一权重为所述各个交易记录样本对应的权重,用来反映对应交易记录样本的重要程度。
本实施例中,对于信用卡上的历史交易的记录,可以使用聚类算法来提取与当前交易特征近似的交易记录,例如可以使用k-means(k-means clustering algorithm,K均值聚类算法)、DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)、AGNES(AGglomerative NESting,凝聚的层次聚类方法)等算法提取与当前交易特征近似的交易记录,同时初步筛除一些缺失和/或异常数据。聚类是一种无监督机器学习方法,可以从数据本身中识别出相似的数据点。对于一些聚类算法,首先要选却一个合适的簇数,即要确定一个能反映出该信用卡消费类型的分类的数量,例如可以使用肘部法、轮廓系数和间隔量统计量等方法选择最佳簇数。从历史交易数据中提取出该持卡人的近期交易数据,并尽可能的选取这些数据作为聚类中心,再通过聚类算法在历史交易数据中筛选出靠近聚类中心的交易数据,这些数据即可视为具有与聚类中心相同的特征,例如假如该信用卡有100条交易记录的交易数据中,其中有20条交易数据属于欺诈交易,有80条交易数据为正常交易,那么此时该信用卡的交易数据就聚为两堆,即两个聚类中心,分别是以欺诈交易为聚类中心的20条交易数据和以正常交易为聚类中心的80条交易数据,通过聚类算法在历史交易数据中筛选出靠近聚类中心的交易数据,利用这些交易数据,组成历史交易数据集,进一步地,用数据挖掘算法对历史交易数据集进行提升,训练一个能反映预测交易数据是否为欺诈数据的模型。在本实施例中,利用历史交易数据集建立第一样本,例如,第一样本可以表示为D={(X1,Y1),(X2,Y2)…(Xm,Ym)},其中m为交易的编号,X为矩阵,包含了该交易的数据,例如金额、交易时间等,Y={-1,1}当Y为正数时代表此数据为欺诈数据,为负数时为正常数据,利用Adaboost(Adaptive Boosting,自适应增强)算法初始化训练数据(第一样本)的权值分布。对于这个第一样本集,初始化时赋予的第一权值dm=1/M。M为第一样本总数。
本实施例提出的数据处理方法,通过利用历史交易数据集获取第一样本集,并确定第一样本集中第一样本的第一权重,让历史交易数据能够更方便地进行机器学习,进而提高算法分类精确率。
步骤S102,基于所述第一权重确定所述第一样本集对应的裁剪阈值,并基于所述裁剪阈值以及所述第一样本集,获取第二样本集。
本实施例中,对传统的Adaboost算法进行了改良,提出了一个裁剪阈值,裁剪阈值为临界值,计算裁剪阈值,首先需要获得第一样本集中第一样本对应的最大权重,相同的,也可以提取第一样本集中各个第一样本对应第一权重的平均数,结合第一样本集中第一样本的数量,计算出裁剪阈值,主要用来筛选出第一样本集中一些不重要的第一样本,第二样本集为第一样本集经过裁剪阈值判断后选出的第一样本(选出的第一样本作为第二样本)所组成的新样本集。
本实施例中,对于信用卡上的历史交易的记录,由于有很多不同的消费记录,所以利用聚类算法筛选出了多个簇数,在传统的Adaboost算法中,会考虑簇数中一些不重要的交易数据,导致多数欺诈检测系统是以全部持卡人的历史交易资料来分析单一持卡人的交易行为,数据样本容量大,导致系统训练耗时长,所以本方案设置了一个裁剪阈值,这个裁剪阈值是一个权重的临界值,可以反映交易数据是否值得机器进行学习训练,将原交易数据集不合适、不重要的交易数据裁剪掉,进而将原交易数据集中有用的交易数据组成一个新的交易数据集,即基于所述裁剪阈值裁剪第一样本集,获取第二样本集,值得注意的是,由于机器学习是一个不断迭代学习的过程,在第一轮迭代时,第一样本集中所有的交易数据的权重都是相同的,所以第一轮中第一样本集中的第一样本都不会被裁剪掉,至少机器学习一轮后,即第二轮迭代时各个交易数据样本才会发生改变,此时,裁剪阈值才开始真正地发挥作用。
本实施例提出的数据处理方法,通过基于第一权重确定第一样本集对应的裁剪阈值,并基于裁剪阈值以及所述第一样本集,获取第二样本集,经过迭代的裁剪,让低重要性的样本数据越来越少,降低了低重要性的样本数据对系统和算法的影响,机器学习的压力也越来越小,从而提高了算法分类精确率。
步骤S103,将所述第二样本集输入初始分类器进行训练,获得弱分类器和错误率,并将弱分类器添加至分类器集。
本实施例中,初始训练器是指通过对第二样本集中各个第二样本的学习得到第一个弱分类器的初次学习过程,弱分类器是指经过机器学习后的到的一种比随机预测略好,但准确率却不太高的训练器,常指泛化性能略优于随即猜测的学习器,而集成所有弱分类器可以得到一个准确率高的训练器,即强分类器。例如,首先通过对N个训练样本的学习得到第一个弱分类器,接着将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器,然后将上诉都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器,分类器集就是保存这些第一、第二、第三弱分类器的地方,最终利用分类器集中的弱分类器,提升得到强分类器,构建欺诈预测模型。错误率为第二样本集在当轮迭代生成的弱分类器中分类错误的结果数和分类总数的比值。
本实施例中,将第二样本集中所有的第二样本个体输入初始分类器进行训练,具体训练过程中,如果某个样本已经被准确地分类,那么在构造下一个样本训练集中,它的权重就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。同时,得到弱分类器对应的权重。然后,更新权值后的样本集被用于训练下一个弱分类器,整个训练过程如此迭代地进行下去,而训练过程中每一个弱分类器的错误率就是用于判断该弱分类器分类精确度的一大标准,对后续迭代与合成强分类器有着重要作用,例如当错误率低了,就代表着分类器在训练中不断提升,最后基于分类器集中所有得到的弱分类器,得出一个强分类器,建立欺诈预测模型。
本实施例提出的数据处理方法,通过将第二样本集输入初始分类器进行训练,接着获得弱分类器和错误率,并将弱分类器添加至分类器集,随着弱分类器越来越多,最终使欺诈预测模型的准确率也越来越高。
步骤S104,基于所述分类器集以及所述错误率,确定欺诈预测模型,并将当前交易数据输入所述欺诈预测模型,以确定所述当前交易数据中是否存在欺诈交易数据。
本实施例中,欺诈预测模型为分类器集中各个弱分类器集合构成的一个强分类器,针对噪声样本对传统的Adaboost算法模型的干扰,本发明引入一种惩罚因子,使其在模型训练中尽可能地区分出噪声样本与正常样本,所述噪声样本为低权重和/或无训练意义的样本,并且对于噪声样本进行惩罚,降低噪声样本对模型训练的影响,以此来提高训练出的模型精度。
本实施例中,基于错误率对第二样本集进行迭代或终止迭代,当样本被正确分类时,则错误率低,新样本权重变小;当样本被错误分类时,则错误率高,新样本权重变大。这样处理,可以使被错误分类的样本权重变大,从而在下一轮迭代中得到重视。不断重复上诉步骤,直到达到终止条件为止,终止条件是分类器的错误率低于最低错误率或达到最大迭代次数。基于每次迭代生成的弱分类器(保存在分类器集)中,集合形成一个强分类器,确定欺诈预测模型,判断当前交易数据是否存在欺诈交易数据,需要将当前交易数据预处理为类似于第一样本的样本,例如(X,Y),其中X为矩阵,包含了当前交易的所有交易数据,Y为任意一常数,将X通过若干个弱分类器的权重的正负号计算得出,而正负号是通过若干个弱分类器判断得到,例如+1代表存在欺诈交易数据,-1代表不存在欺诈交易数据,最终通过所有弱分类器得出的判断结果一起考虑,即把所有+1或-1相加,得出的结果若是正数,则代表当前交易存在欺诈交易数据,为欺诈交易;若是负数,则代表当前交易不存在欺诈交易数据,为正常交易。
本实施例提出的数据处理方法,基于分类器集以及错误率,确定欺诈预测模型,并将当前交易数据输入欺诈预测模型,以确定所述当前交易数据中是否存在欺诈交易数据,通过用分类器的分类结果来确定交易数据是否为欺诈数据,使欺诈预测模型的预测更加精确。
本实施例提出的,通过基于历史交易数据集获取第一样本集,并确定所述第一样本集中第一样本的第一权重,其中,历史交易数据集包括欺诈交易数据以及正常交易数据,接着基于所述第一权重确定所述第一样本集对应的裁剪阈值,并基于所述裁剪阈值以及所述第一样本集,获取第二样本集,然后将所述第二样本集输入初始分类器进行训练,获得弱分类器和错误率,并将弱分类器添加至分类器集,最后基于所述分类器集以及所述错误率,确定欺诈预测模型,并将当前交易数据输入所述欺诈预测模型,以确定所述当前交易数据中是否存在欺诈交易数据,通过对比样本权重与裁剪阈值的大小,不断裁剪掉第一样本集中权重相对较低的噪声样本,再对裁剪后获得的第二样本集不断的训练,不断降低了弱分类器的错误率,提高了欺诈预测模型的精确率。
基于第一实施例,提出本发明数据处理方法的第二实施例,在本实施例中,步骤S102包括:
步骤S201,获取所述第一样本集中的第一样本个数,以及所述第一权重中的最大权重;
步骤S202,基于所述最大权重、所述第一样本个数和预设规范系数确定裁剪阈值;
步骤S203,将各个所述第一样本中第一权重大于所述裁剪阈值的目标样本作为第二样本集的第二样本。
本实施例中,所述第一权重为第一样本集中,每一个第一样本的权重,该权重是反映对应第一样本在第一样本集中的重要程度,第一样本个数为所有有效交易记录样本数量,即筛除了一些缺失和/或异常数据的交易数据数量,预设样本规范系数是根据统计大量样本分布得的。设k样本规范系数,k的取值范围一般在5~10,k越大,裁剪的样本越多,训练时间越短,但会稍稍降低准确率;k越小,裁剪的样本越少,训练时间越长,准确率稍有提高,第二样本为权重大于裁剪阈值的第一样本,第二样本集为基于裁剪阈值以及第一样本集,裁剪得到的样本集。
本实施例中,确定第一样本集后,利用当前的第一样本集和第一样本集的第一样本个数,计算出裁剪阈值,具体地,第一样本集中每一个第一样本都有对应的一个权重,在第一轮迭代即第一次机器学习时,每一个第一样本的权重都是相同的,并且只和第一样本集中第一样本的数量有关,所以第一轮迭代时第二样本集是等于第一样本集的,所以裁剪阈值是从第二轮迭代样本的权重发生改变时才开始真正的发挥作用,此时选取第一样本集中第一样本权重大于裁剪阈值的样本作为第二样本,组成第二样本集,例如,设Tn为裁剪阈值,Dm为第一样本集,D’m为第二样本集,dm为当前第一样本集中第一样本的权重,m为第一样本数量,裁剪阈值表达式为:
其中,max(Dn)为第n轮迭代中所有样本权重的最大值,k为样本规范系数,一般取5,提取Dm中dm>Tn的第一样本,组成D’m,裁剪阈值就是为了解决每一次训练都要面对大量数据样本容量的问题,裁剪掉不重要的样本,大大减轻了机器学习的学习压力和数量,此时D’m相较于Dm更加精炼,更加不受噪声样本的影响。
本实施例提出的数据处理方法,通过获取所述第一样本集中的第一样本个数,以及所述第一权重中的最大权重,接着基于最大权重、第一样本个数和预设规范系数确定裁剪阈值,最后将各个第一样本中第一权重大于所述裁剪阈值的目标样本作为第二样本集的第二样本,使第二样本集中的噪声样本减少,保留权重更高更有训练必要的样本。
基于上述各个实施例,提出本发明数据处理方法的第三实施例,在本实施例中,步骤S103包括:
步骤S301,将所述第二样本集中各个第二样本输入初始分类器进行机器训练学习,获取弱分类器以及分类结果;
步骤S302,基于所述分类结果、第一权重和实际结果,获取错误率;
步骤S303,基于所述错误率获取所述弱分类器的分类器权重,并基于所述分类器权重将弱分类器添加至分类器集。
本实施例中,初始分类器是指通过对第二样本集中各个第二样本的学习得到第一个弱分类器的初次学习过程,分类结果为第二样本集输入弱分类器得出的结果,实际结果为第二样本实际欺诈与否的记录,分类器权重为对应弱分类器在强分类器中的重要程度,错误率为第二样本集在该轮迭代的得到弱分类器的分类结果和实际结果相比错误的频率。
本实施例中,使用具有权值分布的第二样本(D’m)集进行学习,得到弱分类器,再讲第二样本集放入弱分类器进行分类处理,得出了一个该弱分类器的分类结果,而错误率则是可以通过分类结果、第一权重和实际结果获得,具体地,设ε’n为错误率,d’n为第一权重,Gn为弱分类器,xi为第二样本集第i个样本,yi为第二样本集第i个样本的实际结果,错误率具体表达式为:
其中,Gn(xi)为第n个弱分类器第n轮的分类结果,错误率越低,就代表着分类器在训练中越来越精准,如果某个样本已经被准确地分类,那么在构造下一个样本训练集中,它的权重就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。若弱分类器的错误率越高,则代表着该弱分类器在分类器集中的权重越小,同时当某一轮迭代获得的弱分类器的错误率低于一定的预设值,则可以直接终止迭代生成强分类器,例如一号弱分类器的错误率为30%,而二号弱分类器的错误率为25%,则二号弱分类器在分类器集中的权重大于一号弱分类器,当三号弱分类器的错误率为5%,而预设值为7%,则不用进行下一轮迭代,直接基于一号、二号、三号分类器确定一个强分类器。设an为第n个弱分类器的权重,ε’n为错误率,具体表达式为:
本实施例提出的数据处理方法,通过将第二样本集中各个第二样本输入初始分类器进行机器训练学习,获取弱分类器以及分类结果,接着基于分类结果、第一权重和实际结果,获取错误率最后基于所述错误率获取所述弱分类器的分类器权重,并基于分类器权重将弱分类器添加至分类器集,获得的分类器权重能更好的反映对应弱分类器在欺诈预测模型中的重要性(话语权),保证了弱分类器的准确度。
基于上述各个实施例,提出本发明数据处理方法的第四实施例,在本实施例中,步骤S103包括:
步骤S401,确定所述错误率是否大于或等于预设值;
步骤S402,若所述错误率大于或等于预设值,则确定所述第二样本集与所述第一样本集是否相同;
步骤S403,若相同,基于所述分类器集中各个分类器以及所述分类器集中各个分类器的分类器权重,确定欺诈预测模型。
本实施例中,预设值为提前定义好的一个错误率临界值,一般来说是优于随机概率的数值,欺诈预测模型为分类器集里弱分类器集合成的一个强分类器。
本实施例中,第二样本集经过一轮的训练和学习后获得了对应的一个弱分类器,将第二样本集的第二样本输入该弱分类器后,得到分类结果,和实际结果对比之后,得到错误率,本来在集成算法中所选取的弱学习算法,训练出来的弱分类器都会优于随机选择,也就是说错误率至少会小于0.5,这个是强制性的前提。而传统的弱学习算法中是默认样本的权重相同,但是本发明在循环到第二次时,会更新权重,权重将可能不再相同。假设预设值为0.5,若错误率大于预设值,且第一样本集和第二轮样本集是相同的,则说明这个数据不适合使用Adaboost算法进行分类,再迭代下去并无意义,所以直接终止迭代。值得注意的是,理论上而言正确的样本权重分布会有助于弱学习算法训练(使错误率进一步小于0.5),不正确的样本权重则有可能会使它训练出来的效果还不如随机预测,也就是错误率大于0.5。但是因为本发明的样本权重分布在样本集质量好的情况总会朝着有利于弱分类算法训练的方向发展,所以错误率大于预设值在实际的计算中,就会很少实现。而且在第一次训练时,样本权重都相同的情况下。通过弱分类算法训练出的弱分类器的错误率是一定会小于0.5的。因此错误率大于预设值基本不会出现。确定错误率是否大于或等于预设值。
进一步地,一实施例中,步骤S402之后,该数据处理方法还包括:
步骤a,若不相同,则将第二样本集作为第一样本集,将第二样本集中各个第二样本对应的权重作为第一权重,返回执行基于第一权重确定所述第一样本集对应的裁剪阈值的步骤。
本实施例中,在集成算法中所选取的弱学习算法,训练出来的弱分类器都会优于随机选择(欺诈交易或正常交易),也就是说错误率至少会小于0.5,这个是强制性的前提。因为本发明的样本权重分布在样本集质量好的情况总会朝着有利于弱分类算法训练的方向发展,所以错误率大于预设值在实际的计算中,就会很少实现,若出现了错误率大于0.5,但是第一样本集不等于第二样本集,则由可能本轮机器学习过程出现了差错,则本轮迭代需要重新计算。
通过将第二样本集作为第一样本集,将第二样本集中各个第二样本对应的权重作为第一权重,返回执行所述基于所述第一权重确定所述第一样本集对应的裁剪阈值的步骤,不仅能排除上轮学习可能发生的错误,还能提升生成的弱分类器的分类效果。
进一步地,一实施例中,步骤S401之后,该数据处理方法还包括:
步骤b,若错误率小于预设值,则更新当前迭代次数;
步骤c,若当前迭代次数大于预期迭代次数或错误率小于最低错误率,则基于分类器集获取各个分类器权重,并基于所述分类器权重和分类结果,确定欺诈预测模型。
本实施例中,在第二样本集经过一轮的训练和学习后获得了对应的一个弱分类器,将第二样本集的第二样本输入该弱分类器后,得到分类结果,和实际结果对比之后,进而得到错误率,若错误率小于预期值,即优于随机选择(欺诈交易或正常交易),也就是说错误率小于0.5,则说明本轮机器学习获得的弱分类器是成功的,则该弱分类器是有效的,保存在分类器集中,同时进入新一轮的学习,若本轮错误率小于最低错误率,则表明获得的弱分类器足够集合成一个有强分类效果、高预测成功率的强分类器;或者,当迭代次数足够多,获得的弱分类器足够多了,此时就可以基于各个弱分类器对应分类器权重和对应的分类结果,集合成强分类器,确定最终的欺诈检测模型,具体地,欺诈检测模型的表达式为:
其中,H’(x)为欺诈检测模型,n为迭代次数,an为第n个弱分类器的权重,Gn(xi)为第n个弱分类器第n轮的分类结果。
通过确定错误率小于预设值,更新当前迭代次数;并确定当前迭代次数大于预期迭代次数或错误率小于最低错误率,然后通过分类器集获取各个弱分类器对应分类器权重和对应的分类结果,确定欺诈预测模型,时刻监控迭代次数和错误率,能有效避免迭代算法的无效迭代,使欺诈预测模型更高效地建立。
本实施例提出的数据处理方法,通过确定错误率大于或等于预设值,并判断第二样本集与所述第一样本集是否相同,若相同,则基于分类器集中各个分类器以及分类器集中各个分类器的分类器权重,直接确定欺诈预测模型,使机器学习的过程中能很好的避免无效迭代,节省了机器学习的时间。
基于上述各个实施例,提出本发明数据处理方法的第五实施例,在本实施例中,步骤b包括:
步骤S501,若当前迭代次数小于或等于预期迭代次数,则基于所述第二样本集对应的分类结果,获取所述第二样本集对应的连续错误次数;
步骤S502,基于所述错误率获取所述弱分类器的分类器权重,并基于所述连续错误次数获取惩罚因子;
步骤S503,基于所述惩罚因子、分类结果、实际结果、第二样本集中各个第二样本的权重以及分类器权重,获取第二样本集中各个第二样本的第二权重;
步骤S504,将所述第二样本集作为第一样本集,将所述第二权重作为第一权重,返回执行所述基于所述第一权重确定所述第一样本集对应的裁剪阈值的步骤。
本实施例中,连续错误次数为第二样本集在当前弱分类器中各样本的连续的错误次数,例如在第二轮迭代获得了弱分类器2,而样本1、样本2、样本3在弱分类器2中的分类结果均和实际结果不同,则表示第二轮迭代连续错误次数为1次;惩罚因子为本发明引入的一个改良点,传统未改进的算法,噪声样本一直难以被分类对,所以噪音值的权重就会越来越大,以致于最后弱分类器将为了可以将它分类对,转而去学习他的规律,但是噪声样本的规律是没有意义的,学习了噪音值的规律就会将大量正常样本分错,这是确定强分类器时不希望看到的。但引入惩罚因子后连续错误次数越多,惩罚因子的惩罚力度就会越大,从而减小噪声样本的权重,使得分类器不再过度关注这些噪声样本,以提高最后强分类器的性能。
本实施例中,第二样本集经过一轮的训练和学习后获得了对应的一个弱分类器,将第二样本集的第二样本输入该弱分类器后,得到分类结果,和实际结果对比之后,进而得到错误率,若错误率小于等于预期值,即优于随机选择(欺诈交易或正常交易),也就是说错误率小于等于0.5,则说明本轮机器学习获得的弱分类器是成功的,则该弱分类器是有效的,保存在分类器集中,同时进入新一轮的学习,首先基于错误率获得本轮弱分类器的权重,具体地,设an为第n轮迭代的第n个弱分类器的权重,ε’n为错误率,具体表达式为:
不难看出,错误率越小,则an值越大,即该弱分类器的权重越高;反之,错误率越大,则an值越小,则该弱分类器的权重越小。这样可以使分类精度高的弱分类器起到更大的作用,并削弱精度低的弱分类器的作用,获得弱分类器的权重后,同时确定各样本的连续错误次数,以确定惩罚因子,具体地,设ei为连续错误次数,An(ei)为惩罚因子,关于An(ei)的选择,在本发明提出的限制条件下选择了三种非线性连续的惩罚函数,分别为1/logcx,c-ei,x-ei,其中c为由实际情况下选取的常数值(c>0)。惩罚函数的惩罚权重也与c的取值有关,因此在c取相同的值的情祝下,三种惩罚函数的惩罚权重随错误次数改变:随着错误次效的增多,1/logcx,c-ei,x-ei三种惩罚因子的惩罚权重都在上升,但是1/logcx的函数图像更加平滑合理,因此本发明选用1/logcx作为惩罚因子An(ei)。
接着基于惩罚因子、分类结果、实际结果、第二样本集中各个第二样本的权重以及分类器权重,计算更新第二样本集中各个第二样本的第二权重,具体地,设d’n(i)为第n轮迭代第二样本i的第二权重,Dn+1(i)为更新后的第二样本权重,Gn为弱分类器,Gn(xi)为第n个弱分类器第n轮的分类结果,xi为第二样本集第i个样本,yi为第二样本集第i个样本的实际结果,An(ei)为惩罚因子,an为第n个弱分类器的权重,Zn表示归一化因子,可以理解为当前所有样本权重的总和,具体第二样本权重更新表达式为:
在更新完第二样本的第二权重后,将所第二样本集作为第一样本集,将第二权重作为第一权重,即,Dn+1(i)=d’n(i),返回执行基于第一权重确定第一样本集对应的裁剪阈值的步骤。
本实施例提出的数据处理方法,通过获取第二样本集对应的连续错误次数,从而确定惩罚因子,接着基于惩罚因子、分类结果、实际结果、第二样本集中各个第二样本的权重以及分类器权重,更新第二样本集中各个第二样本的第二权重,最后将第二样本集作为第一样本集,将所述第二权重作为第一权重,返回执行所述基于所述第一权重确定所述第一样本集对应的裁剪阈值的步骤实现迭代学习,在迭代的过程中不断改变样本权重,使分类器有重点的学习那些较为难以判断的样本,从而使系统和算法的学习更有针对性,提高算法分类精确率。
基于上述各个实施例,提出本发明数据处理方法的第六实施例,在本实施例中,步骤S104包括:
步骤S601,基于所述欺诈预测模型,将当前交易数据输入所述欺诈预测模型中各个分类器中,获取各个分类器对应的预测结果;
步骤S602,基于所述各个分类器对应的预测结果,获取最终预测结果,并基于所述最终预测结果确定所述当前交易数据中是否存在欺诈交易数据。
本实施例中,利用每次迭代后保存在分类器集中的弱分类器,集合成一个强分类器,确定了一个欺诈预测模型,把当前交易放入这个模型后可以是以正负结果表现是否为欺诈。具体是正还是负表示欺诈,这取决与前面对于正负样本的定义,例如,认为正样本表示欺诈交易,负表示正常交易,则这个模型最后返回的结果为正就表示欺诈交易,负为正常交易。
本实施例提出的数据处理方法,通过将当前交易数据输入欺诈预测模型中各个分类器中,获取各个分类器对应的预测结果,接着基于各个分类器对应的预测结果,获取最终预测结果,最后确定当前交易数据中是否存在欺诈交易数据,用各个分类器的分类结果表现交易数据是否为欺诈数据,多分类结果结合参考,避免了预测结果的错误率,提高了欺诈预测模型预测的精确率。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
其中,在所述处理器上运行的数据处理程序被执行时所实现的方法可参照本发明数据处理方法各个实施例,此处不再赘述。
此外,本发明实施例还提出一种计算机程序产品,该计算机程序产品上包括数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。