CN114881775A - 一种基于半监督集成学习的欺诈检测方法及系统 - Google Patents
一种基于半监督集成学习的欺诈检测方法及系统 Download PDFInfo
- Publication number
- CN114881775A CN114881775A CN202210816439.6A CN202210816439A CN114881775A CN 114881775 A CN114881775 A CN 114881775A CN 202210816439 A CN202210816439 A CN 202210816439A CN 114881775 A CN114881775 A CN 114881775A
- Authority
- CN
- China
- Prior art keywords
- sample
- semi
- model
- sample set
- supervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于半监督集成学习的欺诈检测方法及系统,将训练样本进行标注为正常样本和欺诈样本,构建孤立森林异常检测模型对训练样本进行模型训练和筛选,剔除正常样本和欺诈样本中的异常数据,得到标签样本和无标签样本,利用改进的半监督集成学习算法对标签样本进行训练,得到训练好的半监督欺诈检测模型,通过该半监督欺诈检测模型对待检测的样本进行模型识别,并对识别结果通过异常检测模型做进一步的异常样本剔除,从而提高欺诈样本检测结果的准确率,降低检测结果的误报率。
Description
技术领域
本发明涉及信用卡欺诈检测技术领域,尤其涉及一种基于半监督集成学习的欺诈检测方法及系统。
背景技术
互联网的快速发展,促进了各大传统行业的变革,推动着经济快速发展,极大地提升了社会经济效益。“互联网+信用卡”的结合,更是促进了信用卡在全球范围内的普及,诸多知名银行与金融机构都发行了信用卡。但是,由于各银行机构前期为了抢占市场,降低了信用卡申请办理的门槛,从而导致了许多信用卡欺诈交易现象。主要的信用卡欺诈类型包括伪冒身份交易、伪造卡欺诈、信用卡遗失被盗、信用卡套现等。信用卡欺诈中主要涉及公共数据的可用性,数据的高度不平衡,欺诈性质的变化以及虚假警报的数量众多等问题,给信用卡欺诈检测造成了很大的挑战。因此,亟需研究更高效的信用卡欺诈检测方法,营造信用卡业务的健康使用环境,对扩大用户消费以及社会经济的稳定持续增长具有重要意义。
目前随着机器学习技术的兴起以及其表现出来的良好性能,机器学习技术已被用于检测欺诈。常用的基于机器学习的欺诈检测方法主要可以分为有监督方法、半监督方法、以及多种机器学习算法的集成学习方法。通常根据历史交易数据,训练一个机器学习模型,去预测即将到来的交易,根据欺诈概率的高低以决定是否阻止本次交易。但是由于信用卡数据集呈现高度不平衡性的特点,其中正常交易远多于欺诈交易,影响了机器学习算法的直接使用。实际取得的标注训练数据中,可能会存在异常噪音数据,即在标注为欺诈样本的数据中,会存在一些实际不是欺诈的样本或是不处于数据空间分布密度较高区域的一些噪音样本,因此已有的欺诈检测方法的效率仍然有待提高。
发明内容
鉴于此,本发明提供一种基于半监督集成学习的欺诈检测方法及系统,提高样本检测结果的准确率,降低检测结果的误报率。
为实现上述目的,本发明提供一种基于半监督集成学习的欺诈检测方法,所述方法包括步骤:
S1、提取训练样本中的样本特征和样本标签,将所述训练样本划分为正常样本集和欺诈样本集;
S2、分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型,利用第一孤立森林异常检测模型对正常样本集进行模型训练,以及利用第二孤立森林异常检测模型对欺诈样本集进行模型训练,构建得到标签数据样本集和无标签数据样本集,并获取无标签数据样本集中每一个样本的异常值;
S3、根据半监督集成学习模型对所述标签数据样本集构建多个基学习器并进行训练,每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进行更新,获取得到所有更新后的基学习器的参数;
S4、对半监督集成学习模型的损失函数进行改进,利用无标签数据样本集中的样本异常值进行梯度求导以优化基学习器的参数,得到训练好的半监督欺诈检测模型;
S5、根据半监督欺诈检测模型对待检测样本进行模型识别,输出样本检测结果。
优选的,所述步骤S2包括:
S201、从所述正常样本集中随机选取多个样本作为样本子集;
S202、从样本特征中随机抽取一个特征,在该特征的最大特征值和最小特征值之间随机选取一个特征值,以选取的特征值为参考特征值;
S203、在样本子集中,参考特征值所对应的样本为根节点,样本特征值小于参考特征值的样本被放到当前节点的左子树,样本特征值大于参考特征值的样本被放到当前节点的右字树;
S204、在样本子集中递归执行步骤S202和S203,不断构造新的子树节点,直到所有叶子节点都有一个样本或者二叉树达到最高度,生成一颗完整的孤立树;
S205、迭代步骤S201~S204,得到多颗孤立树,生成第一孤立森林异常检测模型。
优选的,所述步骤S2包括:
利用所述第一孤立森林异常检测模型对正常样本集进行检测,计算得到每个正常样本的异常评分,当正常样本的异常评分接近1时,该样本判断为异常样本,反之,判断为正常样本;
异常评分计算公式为:
其中,h(x)表示样本x从二叉树的根节点到叶子节点所经过的边的数目,E(h(x))表示样本x 在所有二叉树中h(x)的平均值,n表示单棵二叉树的训练样本的样本数,c(n)表示给定包含n个样本子集时二叉树的平均路径长度,用于对h(x)做归一化处理。
优选的,所述步骤S2包括:
利用所述第二孤立森林异常检测模型对欺诈样本集进行检测,计算每一个欺诈样本的异常评分,当欺诈样本的异常评分接近1时,该样本判断为异常样本,反之,判断为欺诈样本;
将正常样本集中的异常样本以及欺诈样本集中的异常样本组成无标签数据样本集,并记录无标签数据样本集中每一个样本的异常值;
正常样本集中除去异常样本后的所有样本以及欺诈样本集中除去异常样本后的所有样本组成标签数据样本集。
优选的,所述步骤S3包括:
利用标签数据样本集构建多个基学习器,初始化基学习器的参数,基学习器采用的逻辑回归的优化器损失函数Loss(x)为:
其中, L为标签数据样本集,wk为第k个基学习器模型的权重参数,wk T为wk的转置,bk为第k个基学习器模型的偏置参数,xi为第i个输入数据,yi为第i个输入数据的数据标签,fk (x)为第k个基学习器模型输出,fk (xi)为第k个基学习器在第i个输入数据情况下输出,λ为默认参数,大小默认为1;
求解损失函数Loss(x)最小化,通过梯度求导不断优化损失值进行最小化,将损失函数Loss(x)中对模型参数梯度求导后的值进行反向传播,得到更新后的该基学习器的参数。
优选的,所述步骤S3包括:利用所述半监督集成学习模型对所述无标签数据样本集进行模型训练,并最小化所述半监督集成学习模型的损失函数,以优化所有基学习器的参数,获取优化后的一组基学习器参数。
优选的,所述步骤S3具体包括:
半监督集成学习模型的损失函数V(f,L,U)为:
其中,Vemp (f,L)为半监督集成学习模型在标签数据样本集L上的经验损失,Vdiv(f,U)为半监督集成学习模型在无标签数据样本集U上的多样性损失,d(fp, fq,U) 基学习器在无标签数据样本集U上的损失,m为基学习器个数,l(fk,L)为第k个基学习器在标签数据样本集L上的经验损失,γ为平衡参数,xi为第i个输入数据,yi为第i个输入数据的数据标签,fk (x)为第k个基学习器模型输出,fk (xi)为第k个基学习器在第i个输入数据情况下输出,fp (xi)为第p个基学习器在第i个输入数据情况下输出,fq (xi)为第q个基学习器在第i个输入数据情况下输出;
对半监督集成学习模型的损失函数V(f,L,U)进行求解最优化,通过梯度求导来不断优化损失值进行最小化,将损失函数V(f,L,U)中对模型参数梯度求导后的值进行反向传播,对所有基学习器的参数进行迭代更新,得到一组优化后的基学习器参数。
优选的,所述步骤S4包括:
改进后的半监督集成学习模型的损失函数V(f,L,U,a)为:
其中,xi为第i个输入数据,αi为第i个输入数据的异常值,Vdiv (f,U,α)为半监督集成学习模型在无标签数据样本集U和数据异常值α上的多样性损失,d(fp,fq,U,α)为基学习器在无标签数据样本集U和数据异常值α上的损失;
根据无标签数据样本集中的样本异常值对改进后的半监督集成学习模型的损失函数V(f,L,U,a),进行求解最优化,通过梯度求导不断优化损失值进行最小化,将损失函数V(f,L,U,a)中对模型参数梯度求导后的值进行反向传播,对所有基学习器的参数进行迭代更新,得到一组最终基学习器参数,进而得到训练好的半监督欺诈检测模型。
优选的,所述步骤S5还包括:
通过所述半监督欺诈检测模型对待检测样本进行模型识别,若识别为欺诈样本,则将该所述欺诈样本输入至所述第二孤立森林异常检测模型中做进一步检测,判断是否为真正的欺诈样本。
为实现上述目的,本发明提供一种基于半监督集成学习的欺诈检测系统,所述系统包括:
训练样本模块,用于提取训练样本中的样本特征和样本标签,将所述训练样本划分为正常样本集和欺诈样本集;
孤立森林异常检测模块,用于分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型,利用第一孤立森林异常检测模型对正常样本集进行模型训练,以及利用第二孤立森林异常检测模型对欺诈样本集进行模型训练,构建得到标签数据样本集和无标签数据样本集,并获取无标签数据样本集中每一个样本的异常值;
半监督集成学习模型模块,用于根据半监督集成学习模型对所述标签数据样本集构建多个基学习器并进行训练,每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进行更新,获取得到所有更新后的基学习器的参数;
半监督欺诈检测模型模块,用于对半监督集成学习模型的损失函数进行改进,利用无标签数据样本集中的样本异常值进行梯度求导以优化基学习器的参数,得到训练好的半监督欺诈检测模型;
识别模块,用于根据半监督欺诈检测模型对待检测样本进行模型识别,输出样本检测结果。
与现有技术相比,本发明提供的一种半监督集成学习的欺诈检测方法及系统,所带来的有益效果为:本发明利用异常检测算法来筛选异常噪音样本,将其视为无标签数据样本用于扩充样本空间,利用改进的半监督学习算法,通过引入异常检测对无标签数据的异常值打分,将其视为数据点的权重,以此体现不同权重的数据点,以适应混合检测模型,达到欺诈样本有效检测的目的;利用孤立森林异常检测模型来对标注好的训练数据进行划分,从而获得可信数据样本与异常数据样本;在半监督集成学习分类模型训练过程中,通过构建多个基学习器进行集成学习来提高模型的泛化性能;对算法模型的损失函数进行改进,使得在基学习器参数更新的过程中,能体现孤立森林对异常样本的异常值的判断,从而进一步提高对异常样本的检测效率;在样本测试过程中,通过集成模型对样本进行检测后,进一步利用异常检测模型来剔除检测结果中的异常结果,从而提高欺诈样本检测结果的准确率,降低检测结果的误报率。
附图说明
图1是根据本发明的一个实施例的半监督集成学习的欺诈检测方法的流程示意图;
图2是根据本发明的一个具体实施例的孤立森林示意图;
图3是根据本发明的一个具体实施例的孤立森林异常检测模型的流程示意图;
图4是根据本发明的一个具体实施例的样本检测流程图示意图;
图5是根据本发明的一个实施例的半监督集成学习的欺诈检测系统的系统示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述,但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
本发明将训练样本进行标注为正常样本和欺诈样本,构建孤立森林异常检测模型对训练样本进行模型训练和筛选,提出正常样本和欺诈样本中的异常数据,得到标签样本和无标签样本,利用改进的半监督集成学习算法对标签样本进行训练,得到训练好的半监督欺诈检测模型,通过该欺诈检测分类模型对待检测的样本进行模型识别,并对识别结果通过孤立森林异常检测模型做进一步的异常样本剔除,从而提高欺诈样本检测结果的准确率,降低检测结果的误报率。
如图1所示的本发明的一个实施例,本发明提供一种半监督集成学习的欺诈检测方法,该方法包括步骤:
S1、提取训练样本中的样本特征和样本标签,将训练样本划分为正常样本集和欺诈样本集;
S2、分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型,利用第一孤立森林异常检测模型对正常样本集进行模型训练,以及利用第二孤立森林异常检测模型对欺诈样本集进行模型训练,构建得到标签数据样本集和无标签数据样本集,并获取无标签数据样本集中每一个样本的异常值;
S3、根据半监督集成学习模型对标签数据样本集构建多个基学习器并进行训练,每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进行更新,获取得到所有更新后的基学习器的参数;
S4、对半监督集成学习模型的损失函数进行改进,利用无标签数据样本集中的样本异常值进行梯度求导以优化基学习器的参数,并得到训练好的半监督欺诈检测模型;
S5、根据半监督欺诈检测模型对待检测样本进行模型识别,输出样本检测结果。
提取训练样本中的样本特征和样本标签,将训练样本划分为正常样本集和欺诈样本集。获取训练样本,并提取训练样本中的样本特征和样本标签,根据样本标签将训练样本划分为正常样本集和欺诈样本集。样本特征包括用户基本信息、交易信息和交易金额。
分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型,利用第一孤立森林异常检测模型对正常样本集进行模型训练,以及利用第二孤立森林异常检测模型对欺诈样本集进行模型训练,得到标签数据样本集和无标签数据样本集,并获取无标签数据样本集中每一个样本的异常值。针对欺诈样本集中出现标注为欺诈样本的可能为正常样本的现象,或者正常样本集中出现标注为正常样本的可能为欺诈样本的现象,构建两个孤立森林异常检测模型,分别对正常样本和欺诈样本进行训练,以检测出欺诈样本集中的正常样本,以及正常样本集中的欺诈样本,来降低训练样本的误报率。
孤立森林是一个基于树集成与特征划分且训练过程无须标注的异常检测模型,其检测到的异常指在数据空间下分布稀疏的且密度低的区域里的数据点。通过特征划分来构建多棵二叉树iTree,并集成来起到数据空间划分的效果。以第一孤立森林异常检测模型为例,来对孤立森林的实现过程进行描述,具体部步骤包括:
S201、从正常样本集中随机选取多个样本作为样本子集;
S202、从样本特征中随机抽取一个特征,该特征的最大特征值和最小特征值之间随机选取一个特征值,以选取的特征值为参考特征值;
S203、在样本子集中,参考特征值所对应的样本为根节点,样本特征值小于参考特征值的样本被放到当前节点的左子树,样本特征值大于参考特征值的样本被放到当前节点的右子树;
S204、在样本子集中递归执行步骤S202和S203,不断构造新的子树节点,直到所有叶子节点都有一个样本或者二叉树达到最高度,生成一颗完整的孤立树;
S205、迭代步骤S201~S204,得到多颗孤立树,生成第一孤立森林异常检测模型。如图2所示的孤立森林示意图。同样的方法,生成第二孤立森林异常检测模型。
使用孤立森林模型对欺诈样本集进行模型训练,以检测样本集中的异常样本。孤立森林模型可以通过计算每棵树的异常得分,并在孤立树之间进行平均,从而在比正常观测更少的步骤中隔离异常数据。孤立森林模型在对数据点进行异常检测时,会按照二叉树的特征划分标准将数据点划分到某个节点中,并记下该节点高度,然后将所有的孤立森林模型的划分结果平均,作为孤立森林模型对该数据点的预测值。由于在数据空间下,处于分布密度高区域的样本点,不容易被划分开,因此在二叉树中的高度也相对处于分布稀疏区域的样本点要高,所以孤立森林模型预测值越低,就越可能是异常点。
以第一孤立森林异常检测模型为例进行说明,利用第一孤立森林异常检测模型对正常样本集进行检测的步骤包括:利用第一孤立森林异常检测模型对正常样本集进行检测,计算得到每个正常样本的异常评分,样本的异常评分计算公式为:
其中,h(x)表示样本x从二叉树的根节点到叶子节点所经过的边的数目,E(h(x))表示样本x 在所有二叉树中h(x)的平均值,n表示单棵二叉树的训练样本的样本数,c(n)表示给定包含n个样本子集时二叉树的平均路径长度,用于对h(x)做归一化处理。当样本在所有二叉树h(x)的平均值E(h(x))越短,对应到的异常评分越接近于1,表明数据越异常,当样本在所有二叉树h(x)的平均值E(h(x))越长,对应到的异常评分越接近于0,表示数据越正常,当样本在所有二叉树h(x)的平均值E(h(x))接近整体均值,对应到的异常评分在0.5分附近。因此,当正常样本的异常评分接近1时,该样本判断为异常样本,反之,判断为正常样本,以此来检测正常样本集中的异常样本。
同样的,利用第二孤立森林异常检测模型对欺诈样本集进行检测的步骤包括:利用所述第二孤立森林异常检测模型对欺诈样本集进行检测,计算每一个欺诈样本的异常评分,当欺诈样本的异常评分接近1时,该样本判断为异常样本,反之,判断为欺诈样本,以此来检测欺诈样本集中的异常样本。将通过第一孤立森林异常检测模型和第二孤立森林异常检测模型筛选出的异常样本组成无标签数据样本集,将正常样本集中的异常样本以及欺诈样本集中的异常样本组成无标签数据样本集,并记录无标签数据样本集中每一个样本的异常值;正常样本集中除去异常样本后的所有样本以及欺诈样本集中除去异常样本后的所有样本组成标签数据样本集。如图3所示的孤立森林异常检测模型的流程示意图。
根据半监督集成学习模型对标签数据样本集构建多个基学习器并进行训练,每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进行更新,获取得到所有更新后的基学习器的参数。利用训练数据训练半监督集成分类模型。利用标签数据样本集构建多个基学习器,每一个基学习器采用逻辑回归的优化器进行参数更新。具体地,利用标签数据样本集构建多个基学习器,初始化基学习器的参数,基学习器采用的逻辑回归的优化器损失函数为:
其中,L为标签数据样本集,wk为第k个基学习器模型的权重参数,wk T为wk的转置,bk为第k个基学习器模型的偏置参数,xi为第i个输入数据,yi为第i个输入数据的数据标签,fk(x)为第k个基学习器模型输出,fk (xi)为第k个基学习器在第i个输入数据情况下输出,λ为默认参数,大小默认为1;
对该损失函数Loss(x)进行求解最优化问题,即求解损失函数最小化,通过梯度求导来不断优化损失值进行最小化,同时将损失函数中对模型参数梯度求导后的值进行反向传播,从而对基学习器的参数进行迭代更新,得到更新后的该基学习器的参数。
作为本发明的一种实现方式,利用所述半监督集成学习模型对所述无标签数据样本集进行模型训练,并最小化所述半监督集成学习模型的损失函数,以优化所有基学习器的参数,获取优化后的一组基学习器参数,使其可以有效识别标签数据与无标签数据,来提高基学习器的多样性,以此提高模型的泛化性能,以取得更好的分类效果。具体地,半监督集成学习模型的损失函数为:
其中,Vemp (f,L)为半监督集成学习模型在标签数据样本集L上的经验损失,Vdiv(f,U)为半监督集成学习模型在无标签数据样本集U上的多样性损失,d(fp, fq,U) 基学习器在无标签数据样本集U上的损失,m为基学习器个数,l(fk,L)为第k个基学习器在标签数据样本集L上的经验损失,γ为平衡参数,xi为第i个输入数据,yi为第i个输入数据的数据标签,fk (x)为第k个基学习器模型输出,fk (xi)为第k个基学习器在第i个输入数据情况下输出,fp (xi)为第p个基学习器在第i个输入数据情况下输出,fq (xi)为第q个基学习器在第i个输入数据情况下输出。
对半监督集成学习模型的损失函数V(f,L,U)进行求解最优化,即求解损失函数最小化,通过梯度求导来不断优化损失值进行最小化,同时将损失函数V(f,L,U)中对模型参数梯度求导后的值进行反向传播,从而同时对所有基学习器的参数进行迭代更新,得到一组优化后的基学习器参数,即得到优化后的所有基学习器参数的向量集合。
对半监督集成学习模型的损失函数进行改进,利用无标签数据样本集中的样本异常值进行梯度求导以优化基学习器的参数,并得到训练好的半监督欺诈检测模型。由于孤立森林异常检测模型筛选的无标签数据样本的异常值都不一样,每个数据样本被置信为异常样本的概率不同,因此对初始半监督集成学习模型的损失函数进行改进,通过修改原始半监督集成学习算法的多样性损失来体现这一点,来优化基学习器的参数,在参数的更新过程中来体现孤立森林异常检测模型对异常样本的异常值的判断。具体地,改进后的半监督集成学习模型的损失函数为:
其中,xi为第i个输入数据,αi为第i个输入数据的异常值,Vdiv (f,U,α)为半监督集成学习模型在无标签数据样本集U和数据异常值α上的多样性损失,d(fp,fq,U,α)为基学习器在无标签数据样本集U和数据异常值α上的损失。
根据无标签数据样本集中的样本异常值对改进后的半监督集成学习模型的损失函数V(f,L,U,a),进行求解最优化,即求解损失函数最小化,通过梯度求导来不断优化损失值进行最小化,同时将损失函数V(f,L,U,a)中对模型参数梯度求导后的值进行反向传播,从而同时对所有基学习器的参数进行迭代更新,得到一组优化后的基学习器参数,最终得到训练好的半监督欺诈检测模型。通过损失函数的修改,在参数更新过程中,可以体现孤立森林异常检测模型对异常样本的异常值的判断。通过对多个基学习器的集成学习分类训练,提高模型对异常样本检测的泛化能力。
根据半监督欺诈检测模型对待检测样本进行模型识别,输出样本检测结果。通过训练好的半监督欺诈检测模型对待检测的待检测样本进行预测,检测样本中包含的真实欺诈样本。作为本发明的一种实现方式,通过半监督欺诈检测模型对待检测样本进行模型识别,若识别为欺诈样本,则将该欺诈样本输入至第二孤立森林异常检测模型中做进一步检测,判断是否为真正的欺诈样本。具体的检测步骤参考上述技术方案。将通过半监督欺诈检测模型检测为欺诈样本的数据输入到训练好的第二孤立森林异常检测模型中进一步进行检测,筛选欺诈样本中的一些异常样本等,剔除一些误报的样本,从而有效提高模型样本检测的精确度,降低样本检测的误报率。如图4所示的样本检测流程图。
如图5所示,本发明提供一种基于半监督集成学习的欺诈检测系统,该系统包括:
训练样本模块50,用于提取训练样本中的样本特征和样本标签,将所述训练样本划分为正常样本集和欺诈样本集;
孤立森林异常检测模块51,用于分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型,利用第一孤立森林异常检测模型对正常样本集进行模型训练,以及利用第二孤立森林异常检测模型对欺诈样本集进行模型训练,构建得到标签数据样本集和无标签数据样本集,并获取无标签数据样本集中每一个样本的异常值;
半监督集成学习模型模块52,用于根据半监督集成学习模型对所述标签数据样本集构建多个基学习器并进行训练,每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进行更新,获取得到所有更新后的基学习器的参数;
半监督欺诈检测模型模块53,用于对半监督集成学习模型的损失函数进行改进,利用无标签数据样本集中的样本异常值进行梯度求导以优化基学习器的参数,得到训练好的半监督欺诈检测模型;
识别模块54,用于根据半监督欺诈检测模型对待检测样本进行模型识别,输出样本检测结果。
尽管为示例目的,已经公开了本发明的优选实施方式,但是本领域的普通技术人员将意识到,在不脱离由所附的权利要求书公开的本发明的范围和精神的情况下,各种改进、增加以及取代是可能的。
Claims (10)
1.一种基于半监督集成学习的欺诈检测方法,其特征在于,所述方法包括步骤:
S1、提取训练样本中的样本特征和样本标签,将所述训练样本划分为正常样本集和欺诈样本集;
S2、分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型,利用第一孤立森林异常检测模型对正常样本集进行模型训练,以及利用第二孤立森林异常检测模型对欺诈样本集进行模型训练,构建得到标签数据样本集和无标签数据样本集,并获取无标签数据样本集中每一个样本的异常值;
S3、根据半监督集成学习模型对所述标签数据样本集构建多个基学习器并进行训练,每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进行更新,获取得到所有更新后的基学习器的参数;
S4、对半监督集成学习模型的损失函数进行改进,利用无标签数据样本集中的样本异常值进行梯度求导以优化基学习器的参数,得到训练好的半监督欺诈检测模型;
S5、根据半监督欺诈检测模型对待检测样本进行模型识别,输出样本检测结果。
2.如权利要求1所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S2包括:
S201、从所述正常样本集中随机选取多个样本作为样本子集;
S202、从样本特征中随机抽取一个特征,在该特征的最大特征值和最小特征值之间随机选取一个特征值,以选取的特征值为参考特征值;
S203、在样本子集中,参考特征值所对应的样本为根节点,样本特征值小于参考特征值的样本被放到当前节点的左子树,样本特征值大于参考特征值的样本被放到当前节点的右字树;
S204、在样本子集中递归执行步骤S202和S203,不断构造新的子树节点,直到所有叶子节点都有一个样本或者二叉树达到最高度,生成一颗完整的孤立树;
S205、迭代步骤S201~S204,得到多颗孤立树,生成第一孤立森林异常检测模型。
4.如权利要求3所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S2包括:
利用所述第二孤立森林异常检测模型对欺诈样本集进行检测,计算每一个欺诈样本的异常评分,当欺诈样本的异常评分接近1时,该样本判断为异常样本,反之,判断为欺诈样本;
将正常样本集中的异常样本以及欺诈样本集中的异常样本组成无标签数据样本集,并记录无标签数据样本集中每一个样本的异常值;
正常样本集中除去异常样本后的所有样本以及欺诈样本集中除去异常样本后的所有样本组成标签数据样本集。
5.如权利要求1所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S3包括:
利用标签数据样本集构建多个基学习器,初始化基学习器的参数,基学习器采用的逻辑回归的优化器损失函数Loss(x)为:
其中,L为标签数据样本集,wk为第k个基学习器模型的权重参数,wk T为wk的转置,bk为第k个基学习器模型的偏置参数,xi为第i个输入数据,yi为第i个输入数据的数据标签,fk (x)为第k个基学习器模型输出,fk (xi)为第k个基学习器在第i个输入数据情况下输出,λ为默认参数,大小默认为1;
求解损失函数Loss(x)最小化,通过梯度求导不断优化损失值进行最小化,将损失函数Loss(x)中对模型参数梯度求导后的值进行反向传播,得到更新后的该基学习器的参数。
6.如权利要求5所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S3包括:
利用所述半监督集成学习模型对所述无标签数据样本集进行模型训练,并最小化所述半监督集成学习模型的损失函数,以优化所有基学习器的参数,获取优化后的一组基学习器参数。
7.如权利要求6所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S3具体包括:
半监督集成学习模型的损失函数V(f,L,U)为:
其中,Vemp (f,L)为半监督集成学习模型在标签数据样本集L上的经验损失,Vdiv (f,U)为半监督集成学习模型在无标签数据样本集U上的多样性损失,d(fp, fq,U) 基学习器在无标签数据样本集U上的损失,m为基学习器个数,l(fk,L)为第k个基学习器在标签数据样本集L上的经验损失,γ为平衡参数,xi为第i个输入数据,yi为第i个输入数据的数据标签,fk(x)为第k个基学习器模型输出,fk (xi)为第k个基学习器在第i个输入数据情况下输出,fp(xi)为第p个基学习器在第i个输入数据情况下输出,fq (xi)为第q个基学习器在第i个输入数据情况下输出;
对半监督集成学习模型的损失函数V(f,L,U)进行求解最优化,通过梯度求导来不断优化损失值进行最小化,将损失函数V(f,L,U)中对模型参数梯度求导后的值进行反向传播,对所有基学习器的参数进行迭代更新,得到一组优化后的基学习器参数。
8.如权利要求7所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S4包括:
改进后的半监督集成学习模型的损失函数V(f,L,U,a)为:
其中,xi为第i个输入数据,αi为第i个输入数据的异常值,Vdiv (f,U,α)为半监督集成学习模型在无标签数据样本集U和数据异常值α上的多样性损失,d(fp,fq,U,α)为基学习器在无标签数据样本集U和数据异常值α上的损失;
根据无标签数据样本集中的样本异常值对改进后的半监督集成学习模型的损失函数V(f,L,U,a),进行求解最优化,通过梯度求导不断优化损失值进行最小化,将损失函数V(f,L,U,a)中对模型参数梯度求导后的值进行反向传播,对所有基学习器的参数进行迭代更新,得到一组最终基学习器参数,进而得到训练好的半监督欺诈检测模型。
9.如权利要求1所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S5还包括:
通过所述半监督欺诈检测模型对待检测样本进行模型识别,若识别为欺诈样本,则将该所述欺诈样本输入至所述第二孤立森林异常检测模型中做进一步检测,判断是否为真正的欺诈样本。
10.一种基于半监督集成学习的欺诈检测系统,其特征在于,所述系统包括:
训练样本模块,用于提取训练样本中的样本特征和样本标签,将所述训练样本划分为正常样本集和欺诈样本集;
孤立森林异常检测模块,用于分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型,利用第一孤立森林异常检测模型对正常样本集进行模型训练,以及利用第二孤立森林异常检测模型对欺诈样本集进行模型训练,构建得到标签数据样本集和无标签数据样本集,并获取无标签数据样本集中每一个样本的异常值;
半监督集成学习模型模块,用于根据半监督集成学习模型对所述标签数据样本集构建多个基学习器并进行训练,每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进行更新,获取得到所有更新后的基学习器的参数;
半监督欺诈检测模型模块,用于对半监督集成学习模型的损失函数进行改进,利用无标签数据样本集中的样本异常值进行梯度求导以优化基学习器的参数,得到训练好的半监督欺诈检测模型;
识别模块,用于根据半监督欺诈检测模型对待检测样本进行模型识别,输出样本检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210816439.6A CN114881775B (zh) | 2022-07-12 | 2022-07-12 | 一种基于半监督集成学习的欺诈检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210816439.6A CN114881775B (zh) | 2022-07-12 | 2022-07-12 | 一种基于半监督集成学习的欺诈检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114881775A true CN114881775A (zh) | 2022-08-09 |
CN114881775B CN114881775B (zh) | 2022-09-30 |
Family
ID=82683211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210816439.6A Active CN114881775B (zh) | 2022-07-12 | 2022-07-12 | 一种基于半监督集成学习的欺诈检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881775B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081752A (zh) * | 2022-08-11 | 2022-09-20 | 浙江君同智能科技有限责任公司 | 黑灰产众包流量预测装置及方法 |
CN115239025A (zh) * | 2022-09-21 | 2022-10-25 | 荣耀终端有限公司 | 一种支付预测方法及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038701A (zh) * | 2018-03-20 | 2018-05-15 | 杭州恩牛网络技术有限公司 | 一种集成学习反欺诈测试方法及系统 |
CN108038700A (zh) * | 2017-12-22 | 2018-05-15 | 上海前隆信息科技有限公司 | 一种反欺诈数据分析方法与系统 |
CN109685653A (zh) * | 2019-01-21 | 2019-04-26 | 北京工业大学 | 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法 |
CN110458576A (zh) * | 2019-07-31 | 2019-11-15 | 同济大学 | 一种融合事前预测和事中检测的网络交易反欺诈方法 |
CN111695639A (zh) * | 2020-06-17 | 2020-09-22 | 浙江经贸职业技术学院 | 一种基于机器学习的电力用户用电异常检测方法 |
CN111740991A (zh) * | 2020-06-19 | 2020-10-02 | 上海仪电(集团)有限公司中央研究院 | 一种异常检测方法及系统 |
CN111915418A (zh) * | 2020-05-25 | 2020-11-10 | 百维金科(上海)信息科技有限公司 | 一种互联网金融欺诈行为在线检测方法及其装置 |
CN111951116A (zh) * | 2020-08-26 | 2020-11-17 | 江苏云脑数据科技有限公司 | 基于无监督孤立点检测的医保反欺诈监测分析方法和系统 |
CN112330328A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种基于特征提取的信用卡欺诈检测方法 |
US20210248611A1 (en) * | 2020-02-12 | 2021-08-12 | Kbc Groep Nv | Method, Use Thereof, Computer Program Product and System for Fraud Detection |
CN114298176A (zh) * | 2021-12-16 | 2022-04-08 | 重庆大学 | 一种欺诈用户检测方法、装置、介质及电子设备 |
-
2022
- 2022-07-12 CN CN202210816439.6A patent/CN114881775B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038700A (zh) * | 2017-12-22 | 2018-05-15 | 上海前隆信息科技有限公司 | 一种反欺诈数据分析方法与系统 |
CN108038701A (zh) * | 2018-03-20 | 2018-05-15 | 杭州恩牛网络技术有限公司 | 一种集成学习反欺诈测试方法及系统 |
CN109685653A (zh) * | 2019-01-21 | 2019-04-26 | 北京工业大学 | 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法 |
CN110458576A (zh) * | 2019-07-31 | 2019-11-15 | 同济大学 | 一种融合事前预测和事中检测的网络交易反欺诈方法 |
CN112330328A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种基于特征提取的信用卡欺诈检测方法 |
US20210248611A1 (en) * | 2020-02-12 | 2021-08-12 | Kbc Groep Nv | Method, Use Thereof, Computer Program Product and System for Fraud Detection |
CN111915418A (zh) * | 2020-05-25 | 2020-11-10 | 百维金科(上海)信息科技有限公司 | 一种互联网金融欺诈行为在线检测方法及其装置 |
CN111695639A (zh) * | 2020-06-17 | 2020-09-22 | 浙江经贸职业技术学院 | 一种基于机器学习的电力用户用电异常检测方法 |
CN111740991A (zh) * | 2020-06-19 | 2020-10-02 | 上海仪电(集团)有限公司中央研究院 | 一种异常检测方法及系统 |
CN111951116A (zh) * | 2020-08-26 | 2020-11-17 | 江苏云脑数据科技有限公司 | 基于无监督孤立点检测的医保反欺诈监测分析方法和系统 |
CN114298176A (zh) * | 2021-12-16 | 2022-04-08 | 重庆大学 | 一种欺诈用户检测方法、装置、介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
CHANGNING WEI: "Forest Fire Risk Forecast Method with Pseudo Label Based on Semi-supervised Learning", 《2021 3RD INTERNATIONAL CONFERENCE ON MACHINE LEARNING, BIG DATA AND BUSINESS INTELLIGENCE (MLBDBI)》 * |
宋新平等: "集成分类法在财务欺诈风险识别中的应用", 《计算机工程与应用》 * |
陈荣荣等: "基于XGBoost算法模型的信用卡交易欺诈预测研究", 《计算机应用研究》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081752A (zh) * | 2022-08-11 | 2022-09-20 | 浙江君同智能科技有限责任公司 | 黑灰产众包流量预测装置及方法 |
CN115239025A (zh) * | 2022-09-21 | 2022-10-25 | 荣耀终端有限公司 | 一种支付预测方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114881775B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dhankhad et al. | Supervised machine learning algorithms for credit card fraudulent transaction detection: a comparative study | |
CN114881775B (zh) | 一种基于半监督集成学习的欺诈检测方法及系统 | |
Aziz et al. | LGBM: a machine learning approach for Ethereum fraud detection | |
CN111784502A (zh) | 异常交易账户群体识别方法及装置 | |
Hashemi et al. | Fraud detection in banking data by machine learning techniques | |
CN113922985A (zh) | 一种基于集成学习的网络入侵检测方法及系统 | |
CN114818999B (zh) | 基于自编码器和生成对抗网络的账户识别方法及系统 | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
Sanabila et al. | Ensemble learning on large scale financial imbalanced data | |
Jemima Jebaseeli et al. | Fraud detection for credit card transactions using random forest algorithm | |
Peyal et al. | Plant disease classifier: Detection of dual-crop diseases using lightweight 2d cnn architecture | |
Prince et al. | A new ensemble model for phishing detection based on hybrid cumulative feature selection | |
Folino et al. | Exploiting fractal dimension and a distributed evolutionary approach to classify data streams with concept drifts | |
Matsuo et al. | Deep attentive time warping | |
Jose et al. | Detection of credit card fraud using resampling and boosting technique | |
CN112926989B (zh) | 一种基于多视图集成学习的银行贷款风险评估方法及设备 | |
Xie et al. | Churn prediction with linear discriminant boosting algorithm | |
El Amouri et al. | Constrained DTW preserving shapelets for explainable time-Series clustering | |
El Bannany et al. | Financial distress prediction based on multi-layer perceptron with parameter optimization | |
Xiao et al. | Explainable fraud detection for few labeled time series data | |
Zainab et al. | Analysis of various boosting algorithms used for detection of fraudulent credit card transactions | |
Shaji et al. | Weather Prediction Using Machine Learning Algorithms | |
CN110278189A (zh) | 一种基于网络流量特征权重图谱的入侵检测方法 | |
Zhang et al. | Bayesian Layer Graph Convolutioanl Network for Hyperspetral Image Classification | |
Balne et al. | Credit card fraud detection using autoencoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |