CN110321945A - 扩充样本方法、终端、装置及可读存储介质 - Google Patents

扩充样本方法、终端、装置及可读存储介质 Download PDF

Info

Publication number
CN110321945A
CN110321945A CN201910559143.9A CN201910559143A CN110321945A CN 110321945 A CN110321945 A CN 110321945A CN 201910559143 A CN201910559143 A CN 201910559143A CN 110321945 A CN110321945 A CN 110321945A
Authority
CN
China
Prior art keywords
sample
subsample
preset
exptended
iterations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910559143.9A
Other languages
English (en)
Inventor
桑晓临
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910559143.9A priority Critical patent/CN110321945A/zh
Publication of CN110321945A publication Critical patent/CN110321945A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种扩充样本方法,包括以下步骤:基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,而后分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型,接下来基于各个分类模型的基尼GINI系数,确定最优分类模型,最后基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。本发明还公开了一种装置、终端及可读存储介质。通过多轮迭代并利用GINI系数筛选出最优分类模型,再利用最优分类模型为无标签的样本进行标签补全,在实现样本扩充的同时降低了标签补全的差错率,提升了样本扩充的效率。

Description

扩充样本方法、终端、装置及可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种扩充样本方法、终端、装置及可读存储介质。
背景技术
随着金融科技(Fintech),尤其是互联网科技金融的不断发展,越来越多的技术应用到金融领域。
目前,对于有标签的样本在整体分析样本中占比较低的情况下,现有技术方案要么对无标签样本在建模阶段完全不进行使用,要么考虑一次推断模型,即使用有标签的样本建模后,对无标签样本进行推断,然后使得其中部分样本成为带标签样本后纳入训练集进行第二次模型训练。在一次性推断的模型中,均会假定被推断的样本信息价值相同,而是否选择纳入模型,只能通过阈值设定进行一次性的分析。而因为原有标签的样本数量较少,引入的推断样本通常会极大的干扰模型性能,导致模型虚假拟合(第二次模型对推断样本进行了过度拟合),在后续模型监控过程中会发现模型的稳定性较差,从而导致利用该模型为无标签的样本进行标签补全时差错率较高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种扩充样本方法、系统、装置及可读存储介质,旨在解决现有对无标签的样本进行标签补全时差错率较高,导致样本扩充不理想的技术问题。
为实现上述目的,本发明提供一种扩充样本方法,所述的扩充样本方法包括以下步骤:
基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,其中,所述预设参数集包括多组预设参数;
分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型;
基于各个分类模型的基尼GINI系数,确定最优分类模型;
基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。
进一步地,在一实施方式中,所述基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本的步骤包括:
基于预设获取规则在所述待校对样本中确定待校对子样本;
基于所述最优分类模型、所述待校对子样本生成所述待校对子样本对应的标签;
基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本。
进一步地,在一实施方式中,所述待校对子样本包括多个,所述基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本的步骤包括:
分别确定所述待校对子样本中各个子样本对应的标签是否等于预设值;
在所述子样本对应的标签等于预设值时,确定所述子样本是新增样本。
进一步地,在一实施方式中,所述基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本的步骤之后,还包括:
更新所述迭代次数,并将所述预设样本和所述新增样本作为预设样本;
在所述迭代次数小于或等于阈值时,继续执行基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集的步骤。
进一步地,在一实施方式中,所述更新所述迭代次数,并将所述预设样本和所述新增样本作为预设样本的步骤之后,还包括:
在所述迭代次数大于阈值时,输出新样本筛选完成的提示信息。
进一步地,在一实施方式中,所述基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集的步骤之前,还包括:
在接收到修改指令时,获取所述修改指令对应的参数;
基于所述参数更新所述迭代次数与参数集的预设关系表。
进一步地,在一实施方式中,所述基于各个分类模型的基尼GINI系数,确定最优分类模型的步骤包括:
基于各个分类模型的基尼GINI系数生成GINI系数分布图;
基于所述GINI系数分布图确定所述最优分类模型。
进一步地,在一实施方式中,所述扩充样本装置包括:
获取模块,基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,其中,所述预设参数集包括多组预设参数;
训练模块,分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型;
筛选模块,基于各个分类模型的基尼GINI系数,确定最优分类模型;
确定模块,基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。
此外,为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的扩充样本程序,所述扩充样本程序被所述处理器执行时实现上述任一项所述的扩充样本方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有扩充样本程序,所述扩充样本程序被处理器执行时实现上述任一项所述的扩充样本方法的步骤。
本发明基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,而后分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型,接下来基于各个分类模型的基尼GINI系数,确定最优分类模型,最后基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。通过多轮迭代并利用GINI系数在训练后的多个分类模型筛选出最优分类模型,再利用最优分类模型为无标签的样本进行标签补全,在实现样本扩充的同时降低了标签补全的差错率,提升了样本扩充的效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图;
图2为本发明扩充样本方法第一实施例的流程示意图;
图3为本发明一实施例中的GINI系数分布图示意图;
图4为本发明扩充样本方法第二实施例的流程示意图;
图5为本发明扩充样本装置实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,客户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。客户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选客户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器等,在此不再赘述。
本领域技术人员可以理解,图1中示出的系统结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、客户接口模块以及扩充样本程序。
在图1所示的系统中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;客户接口1003主要用于连接客户端(客户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的扩充样本程序。
在本实施例中,终端包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的扩充样本程序,其中,处理器1001调用存储器1005中存储的扩充样本程序时,执行本申请各个实施例提供的扩充样本方法的步骤。
本发明还提供一种扩充样本方法,参照图2,图2为本发明扩充样本方法第一实施例的流程示意图。
本发明实施例提供了扩充样本方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,该扩充样本方法包括:
步骤S100,基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,其中,所述预设参数集包括多组预设参数;
在本实施例中,在有标签的样本较少的实际情况下建模,有限的样本导致模型的容量受限,从而影响模型的性能。为了提升模型的性能,需要扩大样本数量,即对没有标签的样本进行标签补全。
在信用风险建模中设定表现区间以及坏样本的定义,进而对样本进行分类,区分出好样本、坏样本和灰色样本,其中,好样本和坏样本为训练模型的训练样本,灰色样本是无法确定为好样本或坏样本的待定样本,一般情况下,灰色样本由于所涵盖的信息价值很大,因而需要进一步筛选从灰色样本中筛选出满足条件的训练样本。
为方便描述,在本发明中设定样本来源是客户的车贷表现。对样本进行区分的标准,由银行等金融机构根据实际情况设定,例如,设定样本是客户支用车贷后6个月内的表现,完全没有逾期记录,也就是逾期率为0的样本为好样本,逾期率大于或等于80%的样本为坏样本,其他样本为灰色样本。本发明就是实现从灰色样本挑选出满足条件的样本,进而扩大训练样本数量。
具体地,首先获取样本,根据样本分类标准,区分出好样本、坏样本和灰色样本,其中,好样本和坏样本作为训练样本,灰色样本作为待定样本。本发明是每轮迭代从灰色样本中筛选出一部分满足条件的样本,经过多轮迭代完成样本筛选,每轮迭代对应的参数集不同,可以根据迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,其中,预设参数集包括很多组预设参数。
步骤S200,分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型;
在本实施例中,分类模型包括逻辑回归、决策树、朴素贝叶斯等,由银行等金融机构根据实际情况选定好一个初始分类模型,然后利用训练样本也就是预设样本和预设样本对应的标签,以及根据迭代次数获取到的预设参数集训练对初始分类模型进行训练,由于预设参数集包括很多组预设参数,则每组参数与预设样本、预设样本对应的标签一起训练初始分类模型,得到一个训练后的分类模型。分类模型的个数与预设参数的分组个数相等。
步骤S300,基于各个分类模型的基尼GINI系数,确定最优分类模型;
在本实施例中,GINI系数是20世纪初意大利学者科拉多·基尼根据劳伦茨曲线所定义的判断年收入分配公平程度的指标,GINI系数也用于模型风险区分能力进行评估,好样本与坏样本分布之间的差异越大,GINI指标越高,表明模型的风险区分能力越强,GINI系数最大为“1”,最小等于“0”。
具体地,步骤S300包括:
步骤S310,基于各个分类模型的基尼GINI系数生成GINI系数分布图;
在本实施例中,根据GINI的定义计算各个分类模型的GINI系数,而后将各个分类模型的GINI系数作为数据源生成二维柱状图,该二维柱状图即为GINI系数分布图。如图3所示,首轮迭代时,由于各个分类模型使用的预设样本是根据样本分类标准直接确定的,通常情况下,GINI系数分布图呈现正态分布。随着每轮样本的增加,且新增样本是从灰度样本中确定,不同的模型在性能上逐渐区分,模型性能量级分化明显。根据大量实验数据分析得出结论,处于过度拟合的模型GINI系数较大,集中在GINI系数分布图的较大值区域,随着迭代次数的增加,处于过度拟合的模型与其他模型在GINI系数分布图明显分离,可以直观的看出来。
步骤S320,基于所述GINI系数分布图确定所述最优分类模型。
在本实施例中,GINI指标越高,表明模型的风险区分能力越强,因而从GINI系数分布图挑选出最优的GINI系数,该最优的GINI系数对应的模型,即为最优分类模型。
具体地,参照图3,进行详细说明GINI系数分布图确定最优分类模型的过程。
共四轮迭代:
在首轮迭代时,模型的GINI系数分布比较集中,且呈现正态分布,根据各个模型的GINI系数,挑选出最大的GINI系数,该GINI系数对应的模型即为最优分类模型。
第二轮迭代时,模型的GINI系数分布开始出现双峰状,左峰区域的GINI系数较小,右峰区域的GINI系数较大,因为处于过度拟合的模型GINI系数较大,故此时在左峰区域挑选最大的GINI系数,该GINI系数对应的模型即为最优分类模型。
第三轮和第四迭代时,模型的GINI系数分布开始出现明显分离,尤其是第四轮迭代,左区的GINI系数较小,右区的GINI系数较大,虽然右区的最大GINI系数大于左区的最大GINI系数,但是由于处于过度拟合的模型GINI系数较大,故此时在左区挑选出最大的GINI系数,该GINI系数对应的模型即为最优分类模型。
步骤S400,基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。
在本实施例中,灰色样本作为待校对样本,根据预设规则和最优分类模型从待校对样本中挑选出满足条件的样本。
具体地,步骤S400包括:
步骤S410,基于预设获取规则在所述待校对样本中确定待校对子样本;
在本实施例中,灰色样本作为待校对样本,经过多轮迭代逐步完成样本筛选,每轮迭代仅从待校对样本中选取一部分样本。具体地,基于预设获取规则在待校对样本中确定待校对子样本,其中,预设获取规则由银行等金融机构根据实际情况设定,在本发明中不做限定。
步骤S420,基于所述最优分类模型、所述待校对子样本生成所述待校对子样本对应的标签;
在本实施例中,根据GINI系数分布图确定出最优分类模型,最优分类模型的GINI系数较大,说明模型的风险区分能力越强。待校对子样本是没有标签的样本,将待校对子样本作为输入参数输入到最优分类模型中,为待校对子样本确定标签,其中,标签是用来标注样本是好样本还是坏样本。
步骤S430,基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本。
在本实施例中,将待校对子样本作为输入参数输入到最优分类模型中,可以为待校对子样本确定标签,进一步地,根据标签以及预设值确定各个子样本是否可以作为新增样本进入下一轮迭代。
具体地,步骤S430包括:
步骤S431,分别确定所述待校对子样本中各个子样本对应的标签是否等于预设值;
步骤S432,在所述子样本对应的标签等于预设值时,确定所述子样本是新增样本。
在本实施例中,最优分类模型用于为待校对子样本确定标签,标签用来标注样本是好样本还是坏样本,因此标签存在两种可能的结果,可以分别用不用的值表示,例如,标签值为0代表好样本,标签值为1代表坏样本。因此,在确定各个子样本对应的标签后,进一步地将标签与预设值进行比较,当标签等于预设值时,则确定该样本满足条件,为新增样本,可以进入下一轮迭代。
进一步地,在一实施例中,步骤S100之前还包括:
步骤S500,在接收到修改指令时,获取所述修改指令对应的参数;
步骤S600,基于所述参数更新所述迭代次数与参数集的预设关系表。
在本实施例中,迭代次数与参数集的预设关系表中的参数集是用于模型训练的参数,每轮迭代对应的参数集不同,其中,预设参数集包括很多组预设参数。预设参数集根据实际需要支持修改,具体地,在接收到修改指令时,获取新的参数集参数,然后将新参数替换保存至迭代次数与参数集的预设关系表,完成参数修改。进一步地,根据实际需要,迭代次数与参数集的预设关系表还支持新增和删除操作。
本实施例提出的扩充样本方法,通过基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,而后分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型,接下来基于各个分类模型的GINI系数,确定最优分类模型,最后基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。通过多轮迭代并利用GINI系数筛选出最优分类模型,再利用最优模型为无标签的样本进行标签补全,在实现样本扩充的同时降低了标签补全的差错率,提升了样本扩充的效率。
基于第一实施例,参照图4,提出本发明扩充样本方法的第二实施例,在本实施例中,步骤S430之后,还包括:
步骤S440,更新所述迭代次数,并将所述预设样本和所述新增样本作为预设样本;
在本实施例中,每轮迭代后,会根据各个分类模型的GINI系数生成GINI系数分布图,并进一步根据GINI系数分布图确定最优分类模型,待校对样本作为输入参数输入到最优分类模型中,为待校对样本确定标签,进一步地,根据标签确定各个样本是否可以作为新增样本进入下一轮迭代,在完成新增样本确定后,此时需要更新迭代次数,表示本轮迭代已经完成,并将预设样本和新增样本一起作为预设样本,进入下一轮迭代。
步骤S450,在所述迭代次数小于或等于阈值时,继续执行基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集的步骤。
在本实施例中,阈值是根据实际情况设定的迭代次数上限,例如,迭代次数初始值设为1,阈值设置为,4,则一共会进行4轮迭代。完成一轮迭代后,是否启动下一轮迭代需要确定迭代次数与阈值的关系,当迭代次数小于或等于阈值时,则启动下一轮迭代,继续执行基于迭代次数与参数集的预设关系表获取当前迭代次数对应的预设参数集的步骤。
步骤S460,在所述迭代次数大于阈值时,输出新样本筛选完成的提示信息。
在本实施例中,完成一轮迭代后,是否启动下一轮迭代需要确定迭代次数与阈值的关系,在迭代次数大于阈值时,则表示迭代停止,例如,阈值设置为4,当迭代次数等于5时,将不再启动迭代操作,此时输出新样本筛选完成的提示信息通知工作人员,告知样本扩充已经完成。
本实施例提出的扩充样本方法,通过更新所述迭代次数,并将预设样本和新增样本作为下一轮的迭代样本,而后在所述迭代次数小于或等于阈值时,继续执行基于迭代次数与参数集的预设关系表获取当前迭代次数对应的预设参数集的步骤。通过多轮迭代完成样本扩充,并可根据实际情况设置迭代次数,提升了样本扩充的效率。
本发明进一步提供一种扩充样本装置,参照图5,图5为本发明扩充样本装置实施例的功能模块示意图。
获取模块10,基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,其中,所述预设参数集包括多组预设参数;
训练模块20,分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型;
筛选模块30,基于各个分类模型的基尼GINI系数,确定最优分类模型;
确定模块40,基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。
进一步地,进一步地,所述确定模块40还用于:
基于预设获取规则在所述待校对样本中确定待校对子样本;
基于所述最优分类模型、所述待校对子样本生成所述待校对子样本对应的标签;
基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本。
进一步地,所述确定模块40还用于:
分别确定所述待校对子样本中各个子样本对应的标签是否等于预设值;
在所述子样本对应的标签等于预设值时,确定所述子样本是新增样本。
进一步地,所述扩充样本装置还包括:
更新模块,更新所述迭代次数,并将所述预设样本和所述新增样本作为预设样本;
循环模块,在所述迭代次数小于或等于阈值时,继续执行基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集的步骤。
进一步地,所述扩充样本装置还包括:
停止模块,在所述迭代次数大于阈值时,输出新样本筛选完成的提示信息。
进一步地,所述扩充样本装置还包括:
接收模块,在接收到修改指令时,获取所述修改指令对应的参数;
设置模块,基于所述参数更新所述迭代次数与参数集的预设关系表。
进一步地,所述筛选模块30还用于:
基于各个分类模型的基尼GINI系数生成GINI系数分布图;
基于所述GINI系数分布图确定所述最优分类模型。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有扩充样本程序,所述扩充样本程序被处理器执行时实现上述各个实施例中扩充样本方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台系统设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (16)

1.一种扩充样本方法,其特征在于,所述的扩充样本方法包括以下步骤:
基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,其中,所述预设参数集包括多组预设参数;
分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型;
基于各个分类模型的基尼GINI系数,确定最优分类模型;
基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。
2.如权利要求1所述的扩充样本方法,其特征在于,所述基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本的步骤包括:
基于预设获取规则在所述待校对样本中确定待校对子样本;
基于所述最优分类模型、所述待校对子样本生成所述待校对子样本对应的标签;
基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本。
3.如权利要求2所述的扩充样本方法,其特征在于,所述待校对子样本包括多个,所述基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本的步骤包括:
分别确定所述待校对子样本中各个子样本对应的标签是否等于预设值;
在所述子样本对应的标签等于预设值时,确定所述子样本是新增样本。
4.如权利要求2所述的扩充样本方法,其特征在于,所述基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本的步骤之后,还包括:
更新所述迭代次数,并将所述预设样本和所述新增样本作为预设样本;
在所述迭代次数小于或等于阈值时,继续执行基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集的步骤。
5.如权利要求4所述的扩充样本方法,其特征在于,所述更新所述迭代次数,并将所述预设样本和所述新增样本作为预设样本的步骤之后,还包括:
在所述迭代次数大于阈值时,输出新样本筛选完成的提示信息。
6.如权利要求1所述的扩充样本方法,其特征在于,所述基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集的步骤之前,还包括:
在接收到修改指令时,获取所述修改指令对应的参数;
基于所述参数更新所述迭代次数与参数集的预设关系表。
7.如权利要求1至6中任一项所述的扩充样本方法,其特征在于,所述基于各个分类模型的基尼GINI系数,确定最优分类模型的步骤包括:
基于各个分类模型的基尼GINI系数生成GINI系数分布图;
基于所述GINI系数分布图确定所述最优分类模型。
8.一种扩充样本装置,其特征在于,所述扩充样本装置包括:
获取模块,基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集,其中,所述预设参数集包括多组预设参数;
训练模块,分别基于预设样本、预设样本对应的标签、各组预设参数训练初始分类模型,得到各组预设参数对应的分类模型;
筛选模块,基于各个分类模型的基尼GINI系数,确定最优分类模型;
确定模块,基于预设规则、待校对样本以及所述最优分类模型,在所述待校对样本中确定新增样本。
9.如权利要求8所述的扩充样本装置,其特征在于,所述确定模块还用于:
基于预设获取规则在所述待校对样本中确定待校对子样本;
基于所述最优分类模型、所述待校对子样本生成所述待校对子样本对应的标签;
基于所述待校对子样本对应的标签以及预设值在所述待校对子样本中确定新增样本。
10.如权利要求9所述的扩充样本装置,其特征在于,所述确定模块还用于:
分别确定所述待校对子样本中各个子样本对应的标签是否等于预设值;
在所述子样本对应的标签等于预设值时,确定所述子样本是新增样本。
11.如权利要求9所述的扩充样本装置,其特征在于,所述扩充样本装置还用于:
更新所述迭代次数,并将所述预设样本和所述新增样本作为预设样本;
在所述迭代次数小于或等于阈值时,继续执行基于迭代次数与参数集的预设关系表,获取当前迭代次数对应的预设参数集的步骤。
12.如权利要求11所述的扩充样本装置,其特征在于,所述扩充样本装置还用于:
在所述迭代次数大于阈值时,输出新样本筛选完成的提示信息。
13.如权利要求8所述的扩充样本装置,其特征在于,所述扩充样本装置还用于:
在接收到修改指令时,获取所述修改指令对应的参数;
基于所述参数更新所述迭代次数与参数集的预设关系表。
14.如权利要求8所述的扩充样本装置,其特征在于,所述筛选模块还用于:
基于各个分类模型的基尼GINI系数生成GINI系数分布图;
基于所述GINI系数分布图确定所述最优分类模型。
15.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的扩充样本程序,所述扩充样本程序被所述处理器执行时实现如权利要求1至7中任一项所述的扩充样本方法的步骤。
16.一种可读存储介质,其特征在于,所述可读存储介质上存储有所述扩充样本程序,所述扩充样本程序被处理器执行时实现如权利要求1至7中任一项所述的扩充样本方法的步骤。
CN201910559143.9A 2019-06-21 2019-06-21 扩充样本方法、终端、装置及可读存储介质 Pending CN110321945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910559143.9A CN110321945A (zh) 2019-06-21 2019-06-21 扩充样本方法、终端、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910559143.9A CN110321945A (zh) 2019-06-21 2019-06-21 扩充样本方法、终端、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN110321945A true CN110321945A (zh) 2019-10-11

Family

ID=68120378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910559143.9A Pending CN110321945A (zh) 2019-06-21 2019-06-21 扩充样本方法、终端、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN110321945A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269772A (zh) * 2021-06-08 2021-08-17 泰康保险集团股份有限公司 一种图像分割方法和装置
WO2021174723A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN107704289A (zh) * 2017-09-30 2018-02-16 广东欧珀移动通信有限公司 应用清理方法、装置、存储介质及电子设备
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN108022146A (zh) * 2017-11-14 2018-05-11 深圳市牛鼎丰科技有限公司 征信数据的特征项处理方法、装置、计算机设备
CN108229536A (zh) * 2017-12-01 2018-06-29 温州大学 分类预测模型的优化方法、装置及终端设备
CN109284626A (zh) * 2018-09-07 2019-01-29 中南大学 面向差分隐私保护的随机森林算法
US20190034834A1 (en) * 2016-03-31 2019-01-31 Alibaba Group Holding Limited Method and apparatus for training model based on random forest
CN109685635A (zh) * 2018-09-11 2019-04-26 深圳平安财富宝投资咨询有限公司 金融业务的风险评估方法、风控服务端及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
US20190034834A1 (en) * 2016-03-31 2019-01-31 Alibaba Group Holding Limited Method and apparatus for training model based on random forest
CN107704289A (zh) * 2017-09-30 2018-02-16 广东欧珀移动通信有限公司 应用清理方法、装置、存储介质及电子设备
CN108022146A (zh) * 2017-11-14 2018-05-11 深圳市牛鼎丰科技有限公司 征信数据的特征项处理方法、装置、计算机设备
CN108229536A (zh) * 2017-12-01 2018-06-29 温州大学 分类预测模型的优化方法、装置及终端设备
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN109284626A (zh) * 2018-09-07 2019-01-29 中南大学 面向差分隐私保护的随机森林算法
CN109685635A (zh) * 2018-09-11 2019-04-26 深圳平安财富宝投资咨询有限公司 金融业务的风险评估方法、风控服务端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于善丽: "基于违约鉴别能力的小企业信用评级模型研究", 《中国博士学位论文全文数据库 (经济与管理科学辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021174723A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质
CN113269772A (zh) * 2021-06-08 2021-08-17 泰康保险集团股份有限公司 一种图像分割方法和装置

Similar Documents

Publication Publication Date Title
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN113536107B (zh) 基于区块链的大数据决策方法、系统及云端服务中心
CN110458595A (zh) 可配置化的规则处理方法、电子装置及计算机设备
CN110321945A (zh) 扩充样本方法、终端、装置及可读存储介质
CN106933617A (zh) 汽车软件适配系统及其适配方法
CN118036349B (zh) 冲压工艺设计方法、装置、电子设备及存储介质
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
CN109087146A (zh) 影院票房收入的预测方法及系统
CN114283083B (zh) 一种基于解耦表示的场景生成模型的美学增强方法
CN114491236A (zh) 一种基于知识学习的供应链智能匹配技术
CN117078923B (zh) 面向自动驾驶环境的语义分割自动化方法、系统及介质
CN106339214A (zh) 控制方法及移动终端
CN110377741A (zh) 文本分类方法、智能终端及计算机可读存储介质
CN112256978B (zh) 一种基于数据模型的数据处理方法、装置、介质
CN112948251B (zh) 软件自动测试方法及装置
CN107179924A (zh) 应用程序更新方法及更新系统
CN113450048B (zh) 一种物料清单的创建方法、系统、设备以及介质
CN118363932B (zh) 基于无人机的智能巡逻方法及系统
CN110991656B (zh) 一种以场景变量作为构成元素与交互单元的机器学习方法
CN116756050B (zh) 基于mbse的惯性产品用例分析方法、系统及存储介质
JPH09204449A (ja) 部品表作成処理装置
CN118097065A (zh) 一种智能化建筑工程三维建模系统及方法
CN118245857A (zh) 神经网络模型训练方法及装置
CN118690148A (zh) 一种模型的优化方法、系统和存储介质
CN117873594A (zh) 一种权重加载装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191011

RJ01 Rejection of invention patent application after publication