CN112364942B - 信贷数据样本均衡方法、装置、计算机设备及存储介质 - Google Patents

信贷数据样本均衡方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112364942B
CN112364942B CN202011448174.6A CN202011448174A CN112364942B CN 112364942 B CN112364942 B CN 112364942B CN 202011448174 A CN202011448174 A CN 202011448174A CN 112364942 B CN112364942 B CN 112364942B
Authority
CN
China
Prior art keywords
sample
sample set
samples
credit data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011448174.6A
Other languages
English (en)
Other versions
CN112364942A (zh
Inventor
熊娇
刘雨桐
石强
张兴
王国勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Resources Digital Technology Co Ltd
Original Assignee
Runlian Software System Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runlian Software System Shenzhen Co Ltd filed Critical Runlian Software System Shenzhen Co Ltd
Priority to CN202011448174.6A priority Critical patent/CN112364942B/zh
Publication of CN112364942A publication Critical patent/CN112364942A/zh
Application granted granted Critical
Publication of CN112364942B publication Critical patent/CN112364942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了信贷数据样本均衡方法、装置、计算机设备及存储介质,该方法包括:对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;对n个原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且过采样样本集与所述原始样本集一一对应;将每一过采样样本集输入至第一卷积神经网络中进行模型训练,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,构建得到对应的样本均衡模型;将n个目标样本集分别输入到n个样本均衡模型中并输出n个欠采样均衡样本集,对n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。本发明可以提高最终的信贷数据均衡样本集的稳定性与有效性。

Description

信贷数据样本均衡方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及信贷数据样本均衡方法、装置、计算机设备及存储介质。
背景技术
随着互联网的发展,市场上涌现越来越多的金融信贷产品,如何帮助产品识别客户信用违约风险,成为这些企业格外关注的工作。但信贷产品的违约表现样本往往为不均衡数据,即交易中只有少部分客户会违约,绝大部分客户是正常的。这样的数据直接训练模型会导致模型偏训,从而在测试集上的泛化性不佳,为这类识别工作带来难度。目前,解决样本不均衡的方法主要包括两类:分类器层面,即修改训练算法或对目标函数进行改进;数据层面,即修改各类别的分布。
分类器层面,一般采用的方法是在训练分类器时,分类器将小类样本分错时额外增加分类器一个小类样本分错代价,这个额外的代价可以使得分类器更加“关心”小类样本,如penalized-SVM(惩罚向量机)算法和penalized-LDA(惩罚性分类法)算法。但对于信贷产品来说,这就将模型局限于该种算法,而有些企业的信贷产品建模模型其实基本已经固定,故在很多信贷产品的不均衡样本上该类方法并不适合。
数据层面,一般采用的方法有过采样和欠采样。但简单的过采样,即简单的复制小样本,由于数据单一可能会存在过拟合问题。而随机的欠采样因为只是利用了一部分数据,可能会存在信息减少的问题。目前市面上,常用的方法有SMOTE(Synthetic MinorityOversampling Technique,合成少数类过采样技术)过采样方法和EasyEnsemble(一种不均衡数据分类方法)欠采样方法。SMOTE方法由于对每个少数类样本都生成新样本,因此容易发生生成样本重叠的问题,而EasyEnsemble方法难以选择有效的子集个数和获取优异的样本子集。
随着深度学习的发展,基于其的不均衡样本解决方法目前在图像领域取得很好的成绩,基本上实现的方法都是考虑计算损失时通过给样本加权重来解决,但是缺乏一个均衡数据的结果输出通道。
发明内容
本发明实施例提供了一种信贷数据样本均衡方法、装置、计算机设备及存储介质,旨在提高所得信贷数据均衡样本集的稳定性与有效性。
第一方面,本发明实施例提供了一种信贷数据样本均衡方法,包括:
对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;其中,各所述原始样本集中大样本的数量相同且小样本的数量相同;
对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且所述过采样样本集与所述原始样本集一一对应;
将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,构建得到对应的样本均衡模型;其中,所述样本均衡模型的数量为n个,每一所述样本均衡模型对应一个所述原始样本集和与之对应的过采样样本集;
对待均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的目标样本集;其中,各所述目标样本集中大样本的数量相同且小样本的数量相同;
将n个所述目标样本集分别输入到所述n个样本均衡模型中并输出n个欠采样均衡样本集,对所述n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。
第二方面,本发明实施例提供了一种信贷数据样本均衡装置,包括:
第一切分组合单元,用于对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;其中,各所述原始样本集中大样本的数量相同且小样本的数量相同;
过采样处理单元,用于对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且所述过采样样本集与所述原始样本集一一对应;
模型训练单元,用于将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,构建得到对应的样本均衡模型;其中,所述样本均衡模型的数量为n个,每一所述样本均衡模型对应一个所述原始样本集和与之对应的过采样样本集;
第二切分组合单元,用于对待均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的目标样本集;其中,各所述目标样本集中大样本的数量相同且小样本的数量相同;
堆叠汇总单元,用于将n个所述目标样本集分别输入到所述n个样本均衡模型中并输出n个欠采样均衡样本集,对所述n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的信贷数据样本均衡方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的信贷数据样本均衡方法。
本发明实施例提供了一种信贷数据样本均衡方法、装置、计算机设备及存储介质,该方法包括:对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;其中,各所述原始样本集中大样本的数量相同且小样本的数量相同;对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且所述过采样样本集与所述原始样本集一一对应;将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,构建得到对应的样本均衡模型;其中,所述样本均衡模型的数量为n个,每一所述样本均衡模型对应一个所述原始样本集和与之对应的过采样样本集;对待均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的目标样本集;其中,各所述目标样本集中大样本的数量相同且小样本的数量相同;将n个所述目标样本集分别输入到所述n个样本均衡模型中并输出n个欠采样均衡样本集,对所述n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。本发明实施例融合过采样和欠采样对信贷数据不均衡样本集进行处理,从而提高最终的信贷数据均衡样本集的稳定性与有效性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种信贷数据样本均衡方法的流程示意图;
图2为本发明实施例提供的一种信贷数据样本均衡方法的步骤S102的子流程示意图;
图3为本发明实施例提供的一种信贷数据样本均衡方法的步骤S103的子流程示意图;
图4为本发明实施例提供的一种信贷数据样本均衡方法的步骤S103的另一子流程示意图;
图5为本发明实施例提供的一种信贷数据样本均衡方法的步骤S103的另一子流程示意图;
图6为本发明实施例提供的一种信贷数据样本均衡方法的步骤S503的另一子流程示意图;
图7为本发明实施例提供的一种信贷数据样本均衡装置的示意性框图;
图8为本发明实施例提供的一种信贷数据样本均衡装置中过采样处理单元702的子示意性框图;
图9为本发明实施例提供的一种信贷数据样本均衡装置中模型训练单元703的子示意性框图;
图10为本发明实施例提供的一种信贷数据样本均衡装置中模型训练单元703的另一子示意性框图;
图11为本发明实施例提供的一种信贷数据样本均衡装置中模型训练单元703的另一子示意性框图;
图12为本发明实施例提供的一种信贷数据样本均衡装置中反向更新单元1102示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
图1为本发明实施例提供的一种信贷数据样本均衡方法的流程示意图,具体包括:步骤S101~S105。
S101、对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;其中,各所述原始样本集中大样本的数量相同且小样本的数量相同;
S102、对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且所述过采样样本集与所述原始样本集一一对应;
S103、将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,构建得到对应的样本均衡模型;其中,所述样本均衡模型的数量为n个,每一所述样本均衡模型对应一个所述原始样本集和与之对应的过采样样本集;
S104、对待均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的目标样本集;其中,各所述目标样本集中大样本的数量相同且小样本的数量相同;
S105、将n个所述目标样本集分别输入到所述n个样本均衡模型中并输出n个欠采样均衡样本集,对所述n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。
本实施例中,首先将不均衡的信贷数据样本集随机平均切分组合为n个不均衡的原始样本集,并且使每一所述原始样本集均包含数量相同的大样本和数量相同的小样本。例如将不均衡的信贷数据大样本集随机平均切分组合为n份大样本,将不均衡的信贷数据小样本集随机平均切分组合为n份小样本,其中,每份大样本的数量为M,每份小样本的数量为N,将n份大样本和n份小样本进行一对一的随机组合,得到n个原始样本集,每一原始样本集中均包含M个大样本和N个小样本,如此可以使每个原始样本集包含的大样本和小样本的比例相同。
然后分别对每一所述原始样本集进行自适应综合过采样处理,得到每一所述原始样本集对应的且信贷数据均衡的过采样样本集。搭建所述第一卷积神经网络对均衡的过采样样本集提取特征形成所述第一特征矩阵,以及搭建所述第二卷积神经网络网络对不均衡的原始样本集提取特征形成所述第二特征矩阵,并以此构建每一所述原始样本集(及其对应的过采样样本集)对应的样本均衡模型。
利用所述样本均衡模型对待均衡的信贷数据样本集进行样本均衡,从而得到欠采样均衡样本,将所有的欠采样均衡样本堆叠汇总即是最终期望的信贷数据均衡样本集。需要注意的是,在利用所述样本均衡模型对待均衡的信贷数据样本集进行样本均衡时,同样需要将待均衡的信贷数据样本集均衡样本集随机切分组合为n个不均衡的样本集(相当于n个原始样本集),将每个不均衡的样本集分别输入至n个样本均衡模型,即可得到n个欠采样均衡样本,最终将n个欠采样均衡样本进行堆叠汇总形成所述信贷数据均衡样本集。
本实施例将不均衡的信贷数据样本集等分切割为包含大样本和小样本的原始样本集,并基于自适应综合过采样技术和卷积神经网络构建所述样本均衡模型,同时融合过采样和欠采样两种采样方式,使最终的得到的信贷数据均衡样本集具有较高的稳定性与有效性。其中,所述大样本即是所述不均衡的信贷数据样本集中的多数样本,所述小样本即是所述不均衡的信贷数据样本集中的少数样本,也就是数据量大小。另外,本实施例提供的信贷数据均衡样本方法可用于金融信贷领域,帮助各种信贷产品数据建模时解决样本不均衡问题,从而提高模型稳定性和准确性。
在一实施例中,如图2所示,所述步骤S102包括:步骤S201~步骤S207。:
S201、将每一原始样本集中所述大样本的数量标记为ml以及所述小样本的数量标记为ms,并按下式计算所述大样本和小样本之间的不平衡度d:d=ms/ml
S202、若所述不平衡度d小于预设不平衡度阈值,则基于下式确定待合成样本的总数量G:
G=(ml-ms)*b,b∈[0,1]
S203、对每个属于所述小样本的样本xi,利用欧式距离计算同一原始样本集中的k个邻居,然后按下式计算所述样本xi的比例ri
ri=△i/k,i=1,…,ms,ri∈[0,1];其中,△i为所述k个邻居中属于所述大样本的样本数量;
S204、按下式计算所述样本xi的分布:
Figure GDA0003007035690000071
S205、按照下式计算所述样本xi的待合成样本的数量gi
Figure GDA0003007035690000072
S206、在所述样本xi的k个邻居中随机选择一个属于所述小样本的样本xzi,根据下列等式进行样本合成的步骤:
si=xi+(xzi-xi)×β
式中,(xzi-xi)为n维的向量差,β为随机数,β∈[0,1]
S207、针对所述样本xi,重复样本合成的步骤直至满足所需合成的数量gi
自适应综合过采样是根据少数类样本的分布自适应地改变不同少数类样本的权重,自动地确定每个少数类样本需要合成新样本的数量,为较难学习的样本合成更多的新样本,从而补偿偏态分布,改善SMOTE算法导致类别重叠的问题。本实施例通过所述自适应综合过采样将不均衡的原始样本集转化为均衡的过采样样本集,从而将所述过采样样本集作用于后续步骤。例如将包含M个大样本和N个小样本的原始样本集转化为包含为M个大样本和M个小样本的过采样样本集。
在一实施例中,如图3所示,所述步骤S103包括:步骤S301~步骤S304。
S301、将所述过采样样本集中的样本输入卷积核为3×3的第一卷积层中进行卷积计算;
S302、利用第一最大池化层对所述第一卷积层的输出结果进行池化;
S303、将所述第一最大池化层的池化输出结果输入至包含两个卷积的堆叠卷积且卷积核为2×2的第二卷积层中进行卷积计算;
S304、利用第二最大池化层对所述第二卷积层的输出结果进行池化,得到第一特征矩阵。
本实施例中,将所述过采样样本集(即将包含M个大样本和M个小样本的过采样样本集)至所述第一卷积神经网络进行训练学习,并由所述第一卷积神经网络输出对应的第一特征矩阵。在这里,由于所述过采样样本集为n个,因此最终所述第一卷积神经网络输出的第一特征矩阵也为n个。进一步的,为获取所述原始样本集更深层的信息,可以将所述第二卷积神经网络构建的更为深层。本实施例利用所述第一卷积神经网络将所述过采样样本集中的样本信息的维度提高,从而提取更多有利的信息,并更加全面地考虑特征。优选的,本实施例所述的第二卷积层即为2维卷积层。
在一实施例中,如图4所示,所述步骤S103包括:步骤S401~步骤S405。
S401、将所述原始样本集中的样本输入卷积核为3×3的第三卷积层中进行卷积计算;
S402、将所述第三卷积层的输出结果输入至卷积核为2×2的第四卷积层中进行卷积计算;
S403、利用第三最大池化层对所述第四卷积层的输出结果进行池化;
S404、将所述第三最大池化层池化输出结果输入至包含三个卷积的堆叠卷积且卷积核为2×2的第五卷积层中进行卷积计算;
S405、利用第四最大池化层对所述第五卷积层的输出结果进行池化,得到第二特征矩阵。
本实施例中,将所述原始样本集(即将包含M个大样本和N个小样本的原始样本集)至所述第二卷积神经网络进行训练学习,并由所述第二卷积神经网络输出对应的第二特征矩阵。在这里,由于所述原始样本集为n个,因此最终所述第二卷积神经网络输出的第二特征矩阵也为n个。进一步的,为获取所述原始样本集更深层的信息,可以将所述第二卷积神经网络构建的更为深层。优选的,本实施例所述的第五卷积层为3维卷积层。
在一实施例中,如图5所示,所述步骤S103包括:步骤S501~步骤S503。
S501、将所述第一特征矩阵和第二特征矩阵分别转化为第一特征向量和第二特征向量;
S502、对所述第一特征向量和第二特征向量计算相似度,然后根据相似度对所述第一卷积神经网络和第二卷积神经网络进行反向更新;
S503、在所述第二卷积神经网络加入全连接层,从而构建所述样本均衡模型。
本实施例中,将所述第一卷积神经网络输出的第一特征矩阵和所述第二卷积神经网络输出的第二特征矩阵分别转化为所述第一特征向量和第二特征向量,在一具体实施例中,所述第一特征向量和第二特征向量均为一维特征向量。然后根据所述第一特征向量和第二特征向量的相似度对所述第一卷积神经网络和第二卷积神经网络进行反向更新。
需要说明的是,本实施例所述原始样本集和过采样样本集设置有多个,因此对每一所述原始样本集及其对应的过采样样本集均建立一个对应的所述样本均衡模型。举例来说,所述原始样本集设置有3个,分别为F1、F2和F3,所述过采样样本集设置有3个,分别为A1、A2和A3,且所述原始样本集和所述过采样样本一一对应,即为F1对应A1、F2对应A2、F3对应A3。将A1输入至所述第一卷积神经网络,将F1输入至所述第二卷积神经网络,在经过反向更新步骤和加入全连接层步骤后,构建得到A1、F1对应的第一样本均衡模型。同样的,将A2输入至所述第一卷积神经网络,将F2输入至所述第二卷积神经网络,在经过反向更新步骤和加入全连接层步骤后,构建得到A2、F2对应的第而样本均衡模型。将A3输入至所述第一卷积神经网络,将F3输入至所述第二卷积神经网络,在经过反向更新步骤和加入全连接层步骤后,构建得到A3、F3对应的第三样本均衡模型。也就是说,存在n个所述原始样本集及其对应的过采样样本集,那么最终构建的样本均衡模型就有n个。
还需说明的是,本实施例借助Bagging思想构建所述样本均衡模型,使每一样本均衡模型可以互相独立地并行学习,得到多个弱学习器,最后按照策略(例如平均策略或者投票策略等)结合为一个强学习器,从而达到增强学习器效果的目的,进而更加充分挖掘样本(即所述原始样本集和过采样样本集)信息,最终增加所得均衡样本集的可靠性。
在一实施例中,如图6所示,所述步骤S503包括:步骤S601~步骤S606.
S601、将所述第一特征向量中的当前向量与所述第二特征向量中的所有向量进行余弦相似度计算,并在所述第二特征向量中查询与所述当前向量余弦相似度最高的第一匹配向量,然后将所述第一匹配向量从所述第二特征向量中剔除;
S602、将所述第一特征向量中的下一向量与所述第二特征向量中的所有向量进行余弦相似度计算,并在所述第二特征向量中查询与所述当前向量余弦相似度最高的第二匹配向量,然后将所述第二匹配向量从所述第二特征向量中剔除;
S603、以此类推,直至所述第一特征向量与所述第二特征向量完成余弦相似度计算;
S604、按照下式对所述第一卷积神经网络和第二卷积神经网络进行反向更新:
Figure GDA0003007035690000101
式中,L为损失函数,NVi为所述第一特征向量中的第i个向量,GVj为所述第二特征向量中的第j个向量,n为所述第一特征向量的向量数量,且所述第一特征向量的向量数量和第二特征向量的向量数量相同。
本实施例中,使所述第一特征向量中的每个向量依次与所述第二特征向量中的全部的向量进行余弦相似度计算,并在每轮计算(即所述第一特征向量中的每一向量与所述第二特征向量中的所有向量完成余弦相似度计算)后保留最大的余弦相似度值。并且,需要注意的是,在每轮计算完成并保留最大的余弦相似度值后,将该余弦相似度值在所述第二特征向量中对应的向量(即所述第一匹配向量或者第二匹配向量)提出。换句话说,每进行一轮计算,所述第二特征向量将会被提出一个向量。以此类推,直至所述第一特征向量中的最后一个向量完成与所述第二特征向量的余弦相似度计算。通过上述过程,可以使所述第一特征向量找到与之最相似的第二特征向量,从而使得所述第一卷积神经网络和第二卷积神经网络能够进行充分的训练,并且能够充分地挖掘特征信息。
在一实施例中,所述在所述第二卷积神经网络加入全连接层,从而构建所述样本均衡模型,包括:
对所述全连接层的输出结果进行约束,使所述全连接层输出的欠采样均衡样本集中的样本数量为小样本数量的2倍,且所述全连接层输出的欠采样均衡样本集中的样本均包含于所述不均衡的信贷数据样本集,且输出的欠采样均衡样本集中大样本与小样本的数量相同。
本实施例中,由于最终需要所述样本均衡模型的输出结果为所述欠采样均衡样本集,即所述大样本和小样本的数量相同,且在未均衡前,所述大样本的数量大于所述小样本的数量,同时,本实施例选择不对所述小样本进行合成达到均衡目的,而是通过减少所述大样本的数量以达到均衡的目的。因此,本实施例对所述全连接层的输出结果进行约束,使最终输出的欠采样均衡样本集中的大样本的数量减少至与所述小样本的数量相同的程度,从而达到样本均衡的目的。
图7为本发明实施例提供的一种信贷数据样本均衡装置700的示意性框图,该装置700包括:
第一切分组合单元701,用于对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;其中,各所述原始样本集中大样本的数量相同且小样本的数量相同;
过采样处理单元702,用于对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且所述过采样样本集与所述原始样本集一一对应;
模型训练单元703,用于将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,构建得到对应的样本均衡模型;其中,所述样本均衡模型的数量为n个,每一所述样本均衡模型对应一个所述原始样本集和与之对应的过采样样本集;
第二切分组合单元704,用于对待均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的目标样本集;其中,各所述目标样本集中大样本的数量相同且小样本的数量相同;
堆叠汇总单元705,用于将n个所述目标样本集分别输入到所述n个样本均衡模型中并输出n个欠采样均衡样本集,对所述n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。
在一实施例中,如图8所示,所述过采样处理单元702包括:
不平衡度计算单元801,用于将每一原始样本集中所述大样本的数量标记为ml以及所述小样本的数量标记为ms,并按下式计算所述大样本和小样本之间的不平衡度d:d=ms/ml
第一确定单元802,用于若所述不平衡度d小于预设不平衡度阈值,则基于下式确定待合成样本的总数量G:
G=(ml-ms)*b,b∈[0,1]
比例计算单元803,用于对每个属于所述小样本的样本xi,利用欧式距离计算同一原始样本集中的k个邻居,然后按下式计算所述样本xi的比例ri
ri=△i/k,i=1,…,ms,ri∈[0,1];其中,△i为所述k个邻居中属于所述大样本的样本数量;
分布计算单元804,用于按下式计算所述样本xi的分布:
Figure GDA0003007035690000121
样本计算单元805,用于按照下式计算所述样本xi的待合成样本的数量gi
Figure GDA0003007035690000122
合成样本单元806,用于在所述样本xi的k个邻居中随机选择一个属于所述小样本的样本xzi,根据下列等式进行样本合成的步骤:
si=xi+(xzi-xi)×β
式中,(xzi-xi)为n维的向量差,β为随机数,β∈[0,1]
重复合成单元807,用于针对所述样本xi,重复样本合成的步骤直至满足所需合成的数量gi
在一实施例中,如图9所示,所述模型训练单元703包括:
第一卷积单元901,用于将所述过采样样本集中的样本输入卷积核为3×3的第一卷积层中进行卷积计算;
第一池化单元902,用于利用第一最大池化层对所述第一卷积层的输出结果进行池化;
第二卷积单元903,用于将所述第一最大池化层的池化输出结果输入至包含两个卷积的堆叠卷积且卷积核为2×2第二卷积层中进行卷积计算;
第二池化单元904,用于利用第二最大池化层对所述第二卷积层的输出结果进行池化,得到第一特征矩阵。
在一实施例中,如图10所示,所述模型训练单元703包括:
第三卷积单元1001,用于将所述原始样本集中的样本输入卷积核为3×3的第三卷积层中进行卷积计算;
第四卷积单元1002,用于将所述第三卷积层的输出结果输入至卷积核为2×2的第四卷积层中进行卷积计算;
第三池化单元1003,用于利用第三最大池化层对所述第四卷积层的输出结果进行池化;
第五卷积单元1004,用于将所述第三最大池化层池化输出结果输入至包含三个卷积的堆叠卷积且卷积核为2×2的第五卷积层中进行卷积计算;
第四池化单元1005,用于利用第四最大池化层对所述第五卷积层的输出结果进行池化,得到第二特征矩阵。
在一实施例中,如图11所示,所述模型训练单元703包括:
向量转化单元1101,用于将所述第一特征矩阵和第二特征矩阵分别转化为第一特征向量和第二特征向量;
反向更新单元1102,用于对所述第一特征向量和第二特征向量计算相似度,然后根据相似度对所述第一卷积神经网络和第二卷积神经网络进行反向更新;
构建单元1103,用于在所述第二卷积神经网络加入全连接层,从而构建所述样本均衡模型。
在一实施例中,如图12所示,所述反向更新单元1102包括:
第一剔除单元1201,用于将所述第一特征向量中的当前向量与所述第二特征向量中的所有向量进行余弦相似度计算,并在所述第二特征向量中查询与所述当前向量余弦相似度最高的第一匹配向量,然后将所述第一匹配向量从所述第二特征向量中剔除;
第二剔除单元1202,用于将所述第一特征向量中的下一向量与所述第二特征向量中的所有向量进行余弦相似度计算,并在所述第二特征向量中查询与所述当前向量余弦相似度最高的第二匹配向量,然后将所述第二匹配向量从所述第二特征向量中剔除;
类推单元1203,用于以此类推,直至所述第一特征向量与所述第二特征向量完成余弦相似度计算;
网络更新单元1204,用于按照下式对所述第一卷积神经网络和第二卷积神经网络进行反向更新:
Figure GDA0003007035690000141
式中,L为损失函数,NVi为所述第一特征向量中的第i个向量,GVj为所述第二特征向量中的第j个向量,n为所述第一特征向量的向量数量,且所述第一特征向量的向量数量和第二特征向量的向量数量相同。
在一实施例中,所述构建单元1103包括:
约束单元,用于对所述全连接层的输出结果进行约束,使所述全连接层输出的欠采样均衡样本集中的样本数量为小样本数量的2倍,且所述全连接层输出的欠采样均衡样本集中的样本均包含于所述不均衡的信贷数据样本集,且输出的欠采样均衡样本集中大样本与小样本的数量相同。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种信贷数据样本均衡方法,其特征在于,包括:
对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;其中,各所述原始样本集中大样本的数量相同且小样本的数量相同;
对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且所述过采样样本集与所述原始样本集一一对应;
将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,得到第一特征矩阵,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,得到第二特征矩阵;将所述第一特征矩阵和第二特征矩阵分别转化为第一特征向量和第二特征向量;对所述第一特征向量和第二特征向量计算相似度,然后根据相似度对所述第一卷积神经网络和第二卷积神经网络进行反向更新;在所述第二卷积神经网络加入全连接层,构建得到对应的样本均衡模型;其中,所述样本均衡模型的数量为n个,每一所述样本均衡模型对应一个所述原始样本集和与之对应的过采样样本集;
对待均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的目标样本集;其中,各所述目标样本集中大样本的数量相同且小样本的数量相同;
将n个所述目标样本集分别输入到所述n个样本均衡模型中并输出n个欠采样均衡样本集,对所述n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。
2.根据权利要求1所述的信贷数据样本均衡方法,其特征在于,所述对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集,且所述过采样样本集与所述原始样本集一一对应,包括:
将每一原始样本集中所述大样本的数量标记为ml以及所述小样本的数量标记为ms,并按下式计算所述大样本和小样本之间的不平衡度d:d=ms/ml
若所述不平衡度d小于预设不平衡度阈值,则基于下式确定待合成样本的总数量G:
G=(ml-ms)*b,b∈[0,1]
对每个属于所述小样本的样本xi,利用欧式距离计算同一原始样本集中的k个邻居,然后按下式计算所述样本xi的比例ri
ri=△i/k,i=1,…,ms,ri∈[0,1];其中,△i为所述k个邻居中属于所述大样本的样本数量;
按下式计算所述样本xi的分布:
Figure FDA0003007035680000021
按照下式计算所述样本xi的待合成样本的数量gi
Figure FDA0003007035680000022
在所述样本xi的k个邻居中随机选择一个属于所述小样本的样本xzi,根据下列等式进行样本合成的步骤:
si=xi+(xzi-xi)×β
式中,(xzi-xi)为h维的向量差,β为随机数,β∈[0,1]
针对所述样本xi,重复样本合成的步骤直至满足所需合成的数量gi
3.根据权利要求1所述的信贷数据样本均衡方法,其特征在于,所述将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,包括:
将所述过采样样本集中的样本输入卷积核为3×3的第一卷积层中进行卷积计算;
利用第一最大池化层对所述第一卷积层的输出结果进行池化;
将所述第一最大池化层的池化输出结果输入至包含两个卷积的堆叠卷积且卷积核为2×2的第二卷积层中进行卷积计算;
利用第二最大池化层对所述第二卷积层的输出结果进行池化,得到第一特征矩阵。
4.根据权利要求3所述的信贷数据样本均衡方法,其特征在于,所述将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,包括:
将所述原始样本集中的样本输入卷积核为3×3的第三卷积层中进行卷积计算;
将所述第三卷积层的输出结果输入至卷积核为2×2的第四卷积层中进行卷积计算;
利用第三最大池化层对所述第四卷积层的输出结果进行池化;
将所述第三最大池化层池化输出结果输入至包含三个卷积的堆叠卷积且卷积核为2×2的第五卷积层中进行卷积计算;
利用第四最大池化层对所述第五卷积层的输出结果进行池化,得到第二特征矩阵。
5.根据权利要求1所述的信贷数据样本均衡方法,其特征在于,所述对所述第一特征向量和第二特征向量计算相似度,然后根据相似度对所述第一卷积神经网络和第二卷积神经网络进行反向更新,包括:
将所述第一特征向量中的当前向量与所述第二特征向量中的所有向量进行余弦相似度计算,并在所述第二特征向量中查询与所述当前向量余弦相似度最高的第一匹配向量,然后将所述第一匹配向量从所述第二特征向量中剔除;
将所述第一特征向量中的下一向量与所述第二特征向量中的所有向量进行余弦相似度计算,并在所述第二特征向量中查询与所述当前向量余弦相似度最高的第二匹配向量,然后将所述第二匹配向量从所述第二特征向量中剔除;
以此类推,直至所述第一特征向量与所述第二特征向量完成余弦相似度计算;
按照下式对所述第一卷积神经网络和第二卷积神经网络进行反向更新:
Figure FDA0003007035680000031
式中,L为损失函数,NVi为所述第一特征向量中的第i个向量,GVj为所述第二特征向量中的第j个向量,n为所述第一特征向量的向量数量,且所述第一特征向量的向量数量和第二特征向量的向量数量相同。
6.根据权利要求1所述的信贷数据样本均衡方法,其特征在于,所述在所述第二卷积神经网络加入全连接层,从而构建所述样本均衡模型,包括:
对所述全连接层的输出结果进行约束,使所述全连接层输出的欠采样均衡样本集中的样本数量为小样本数量的2倍,且所述全连接层输出的欠采样均衡样本集中的样本均包含于所述不均衡的信贷数据样本集,且输出的欠采样均衡样本集中大样本与小样本的数量相同。
7.一种信贷数据样本均衡装置,其特征在于,包括:
第一切分组合单元,用于对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;其中,各所述原始样本集中大样本的数量相同且小样本的数量相同;
过采样处理单元,用于对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且所述过采样样本集与所述原始样本集一一对应;
模型训练单元,用于将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,得到第一特征矩阵,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,得到第二特征矩阵;将所述第一特征矩阵和第二特征矩阵分别转化为第一特征向量和第二特征向量;对所述第一特征向量和第二特征向量计算相似度,然后根据相似度对所述第一卷积神经网络和第二卷积神经网络进行反向更新;在所述第二卷积神经网络加入全连接层,构建得到对应的样本均衡模型;其中,所述样本均衡模型的数量为n个,每一所述样本均衡模型对应一个所述原始样本集和与之对应的过采样样本集;
第二切分组合单元,用于对待均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的目标样本集;其中,各所述目标样本集中大样本的数量相同且小样本的数量相同;
堆叠汇总单元,用于将n个所述目标样本集分别输入到所述n个样本均衡模型中并输出n个欠采样均衡样本集,对所述n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的信贷数据样本均衡方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的信贷数据样本均衡方法。
CN202011448174.6A 2020-12-09 2020-12-09 信贷数据样本均衡方法、装置、计算机设备及存储介质 Active CN112364942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011448174.6A CN112364942B (zh) 2020-12-09 2020-12-09 信贷数据样本均衡方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011448174.6A CN112364942B (zh) 2020-12-09 2020-12-09 信贷数据样本均衡方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112364942A CN112364942A (zh) 2021-02-12
CN112364942B true CN112364942B (zh) 2021-05-28

Family

ID=74536097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011448174.6A Active CN112364942B (zh) 2020-12-09 2020-12-09 信贷数据样本均衡方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112364942B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906669A (zh) * 2021-04-08 2021-06-04 济南博观智能科技有限公司 一种交通目标检测方法、装置、设备及可读存储介质
CN113313110B (zh) * 2021-05-25 2024-02-13 北京易华录信息技术股份有限公司 一种车牌类型识别模型构建及车牌类型识别方法
CN115907972B (zh) * 2023-01-16 2023-09-12 齐鲁工业大学(山东省科学院) 基于双重自步学习的不平衡征信数据风险评估方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376179A (zh) * 2018-08-24 2019-02-22 苏宁消费金融有限公司 一种数据挖掘中样本平衡化方法
WO2020068471A1 (en) * 2018-09-27 2020-04-02 Oracle International Corporation Disk drive failure prediction with neural networks
CN111782512A (zh) * 2020-06-23 2020-10-16 北京高质系统科技有限公司 基于不平衡噪声集的多特征软件缺陷综合预测方法
CN111860638A (zh) * 2020-07-17 2020-10-30 湖南大学 基于不平衡数据深度信念网络的并行入侵检测方法和系统
WO2020242622A1 (en) * 2019-05-28 2020-12-03 Microsoft Technology Licensing, Llc Remote validation of machine-learning models for data imbalance

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016597B (zh) * 2020-08-12 2023-07-18 河海大学常州校区 一种机器学习中基于贝叶斯不平衡度量的深度采样方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376179A (zh) * 2018-08-24 2019-02-22 苏宁消费金融有限公司 一种数据挖掘中样本平衡化方法
WO2020068471A1 (en) * 2018-09-27 2020-04-02 Oracle International Corporation Disk drive failure prediction with neural networks
WO2020242622A1 (en) * 2019-05-28 2020-12-03 Microsoft Technology Licensing, Llc Remote validation of machine-learning models for data imbalance
CN111782512A (zh) * 2020-06-23 2020-10-16 北京高质系统科技有限公司 基于不平衡噪声集的多特征软件缺陷综合预测方法
CN111860638A (zh) * 2020-07-17 2020-10-30 湖南大学 基于不平衡数据深度信念网络的并行入侵检测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Two-Stage Resampling for Convolutional Neural Network Training in the Imbalanced Colorectal Cancer Image Classification";Koziarski M;《arXiv》;20200407;第1-15页 *
"改进的随机平衡采样Bagging算法的网络贷款研究";郭冰楠;《计算机与现代化》;20190430;第15-20页 *

Also Published As

Publication number Publication date
CN112364942A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112364942B (zh) 信贷数据样本均衡方法、装置、计算机设备及存储介质
JP7169369B2 (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
Joy et al. Batch Bayesian optimization using multi-scale search
CN111241287A (zh) 用于生成对抗文本的生成模型的训练方法及装置
CN110032665A (zh) 确定关系网络图中图节点向量的方法及装置
CN109766469A (zh) 一种基于深度哈希学习优化的图像检索方法
CN113298230B (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
CN107292341A (zh) 基于成对协同正则化和nmf的自适应多视图聚类方法
CN110413878B (zh) 基于自适应弹性网络的用户-商品偏好的预测装置和方法
CN115270004B (zh) 一种基于场因子分解的教育资源推荐方法
CN111460165A (zh) 用于知识图谱链接预测的方法、装置和计算机可读存储介质
Yang et al. Xception-based general forensic method on small-size images
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置
CN101937440A (zh) 特征选择的方法及装置
CN104268217A (zh) 一种用户行为时间相关性的确定方法及装置
CN111046958A (zh) 基于数据依赖的核学习和字典学习的图像分类及识别方法
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
CN116738983A (zh) 模型进行金融领域任务处理的词嵌入方法、装置、设备
CN103425666B (zh) 信息处理装置和信息处理方法
CN114677535A (zh) 域适应图像分类网络的训练方法、图像分类方法及装置
CN111626368B (zh) 一种基于量子算法的图像相似度识别方法、装置及设备
CN110162704B (zh) 基于多因子遗传算法的多规模关键用户提取方法
CN113010687A (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
Shao et al. Learning relative features through adaptive pooling for image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Patentee after: China Resources Digital Technology Co.,Ltd.

Address before: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Patentee before: Runlian software system (Shenzhen) Co.,Ltd.