CN112766320A - 一种分类模型训练方法及计算机设备 - Google Patents

一种分类模型训练方法及计算机设备 Download PDF

Info

Publication number
CN112766320A
CN112766320A CN202011637697.5A CN202011637697A CN112766320A CN 112766320 A CN112766320 A CN 112766320A CN 202011637697 A CN202011637697 A CN 202011637697A CN 112766320 A CN112766320 A CN 112766320A
Authority
CN
China
Prior art keywords
sample set
sample
positive
classification model
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011637697.5A
Other languages
English (en)
Other versions
CN112766320B (zh
Inventor
杨德杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011637697.5A priority Critical patent/CN112766320B/zh
Publication of CN112766320A publication Critical patent/CN112766320A/zh
Application granted granted Critical
Publication of CN112766320B publication Critical patent/CN112766320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及模型训练技术领域,提供了一种分类模型训练方法、分类模型训练装置、计算机设备及计算机可读存储介质。其中,一种分类模型训练方法,从初始样本集合中挖掘出正样本集合,以及与正样本集合对应的候选样本集合,由于候选样本集合是基于正样本集合从初始样本集合中挖掘得到,因此候选样本集合中的样本是考虑了样本的全局分布得到,并且利用预先构建的生成式对抗网络,基于候选样本集合与正样本集合进行样本训练,输出的补充样本集合不具有特征偏性,再将基于补充样本集合与正样本集合得到的目标样本集合,用于对预设分类模型进行训练,由于目标训练样本集合中因正负样本均衡且无特征偏性,因此使得训练后的分类模型具有更好的鲁棒性。

Description

一种分类模型训练方法及计算机设备
技术领域
本发明属于涉及模型训练及区块链技术,尤其涉及一种分类模型训练方法、分类模型训练装置、计算机设备及计算机可读存储介质。
背景技术
随着人工智能技术的不断发展,基于神经网络开发的机器学习模型也根据不同的需求在更新迭代。
然而,现有的分类模型在训练过程中,由于训练样本不足,因此常常需要基于初始样本进行样本扩充,进而得到具有一定样本数量的训练样本。例如,当初始样本集合中的正样本数量较少时,通过简单复制正样本的方式能够快速提高初始样本集合中的正样本占比;或者,通过减少初始样本集合中的负样本占比,使得样本集合中的正样本占比提升。但是,无论是增加初始样本集合中正样本数量还是减少负样本数量,都会导致所得训练样本存在特征偏性,而利用该训练样本对分类模型进行训练,则容易导致训练后的分类模型存在鲁棒性较差的问题。
发明内容
有鉴于此,本申请实施例提供了一种分类模型训练方法、分类模型训练装置、计算机设备及计算机可读存储介质,以解决现有的分类模型训练方案中,存在训练后的分类模型存在鲁棒性较差的问题。
本申请实施例的第一方面提供了一种分类模型训练方法,包括:
从初始样本集合中挖掘出正样本集合,以及与所述正样本集合对应的候选样本集合;
利用预先构建的生成式对抗网络,基于所述候选样本集合与所述正样本集合输出补充样本集合;
利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型。
本申请实施例的第二方面提供了一种分类模型训练装置,包括:
挖掘单元,用于从初始样本集合中挖掘出正样本集合,以及与所述正样本集合对应的候选样本集合;
输出单元,用于利用预先构建的生成式对抗网络,基于所述候选样本集合与所述正样本集合输出补充样本集合;
训练单元,用于利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型。
本申请实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的各个步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的各个步骤。
实施本申请实施例提供的一种分类模型训练方法、分类模型训练装置、计算机设备及计算机可读存储介质具有以下有益效果:
本申请实施例,从初始样本集合中挖掘出正样本集合,以及与正样本集合对应的候选样本集合,由于候选样本集合是基于正样本集合从初始样本集合中挖掘得到,因此候选样本集合中的样本是考虑了样本的全局分布得到,并且利用预先构建的生成式对抗网络,基于候选样本集合与正样本集合进行样本训练,输出的补充样本集合不具有特征偏性,再将基于补充样本集合与正样本集合得到的目标样本集合,用于对预设分类模型进行训练,由于目标训练样本集合中因正负样本均衡且无特征偏性,因此不会导致模型容易失效,提高了分类模型的训练效率,使得训练后的分类模型具有更好的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种分类模型训练方法的实现流程图;
图2是本申请实施例中生成式对抗网络的原理图;
图3是本申请另一实施例提供的一种分类模型训练方法的实现流程图;
图4是本申请实施例提供的一种分类模型训练装置的结构框图;
图5是本申请实施例提供的一种计算机设备的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本实施例提供的一种分类模型训练方法,执行主体为终端设备,具体可以是配置有该方法功能的计算机设备。需要说明的是,执行本实施例提供的一种分类模型训练方法的终端设备,可以是用于配置训练样本并利用该训练样本训练分类模型的终端设备。这里,终端设备上构建有预设分类模型,在对分类模型进行训练时,可以是先基于本地存储的数据样本进行训练样本配置,或者是先接收其他终端或服务器发送的数据样本后进行训练样本配置,此处不做限制。终端设备在获取到数据样本后,也即获取到初始样本集合后,通过执行本实施例提供的分类模型训练方法,实现对预设分类模型进行训练,得到训练后的分类模型。
至于对训练后的分类模型的应用,可以是由训练该分类模型的终端设备执行相应的模型脚本实现对对训练后的分类模型的应用,也可以是由该终端设备将相应的模型脚本发送给其他终端设备或服务器,由其他终端或服务器根据业务需求,基于该模型脚本实现对训练后的分类模型的应用。例如,在分布式系统中,训练分类模型的终端设备作为分布式系统中的某个节点,当该终端设备完成模型训练后,将用于描述训练后的分类模型的模型脚本发送给分布式系统中的其他终端节点,由其他终端节点执行该模型脚本,进而实现对训练后的分类模型的应用。
图1示出了本申请第一实施例提供的分类模型训练方法的实现流程图,详述如下:
S11:从初始样本集合中挖掘出正样本集合,以及与所述正样本集合对应的候选样本集合。
在步骤S11中,初始样本集合中的初始样本为未进行任何筛选或清洗过的样本数据。正样本集合中的正样本,用于训练分类模型的正向输出逻辑,也即用于训练分类模型描述正向数据关系的样本,且正样本集合为初始样本集合的子集。初始样本集合中还包含有不符合预设样本条件的样本,也即负样本集合。
需要说明的是,候选样本集合中的候选样本是与正样本之间的相似度较高的样本。这里,候选样本集合中的候选样本是从负样本集合中筛选得到的样本,也即候选样本集合是负样本集合的子集。
在本实施例中,终端设备通过对初始样本集合中的所有样本进行遍历,通过识别所有样本相应的数据,进而从中确定出能够用于训练分类模型描述正向数据关系的样本为正样本,得到正样本集合;确定能够用于训练分类模型描述负向数据关系的样本为负样本,得到负样本集合,再通过比较负样本集合中各负样本与正样本之间的相似度,进而将相似度较高的负样本作为候选样本,得到候选样本集合。
应当理解的是,由于候选样本集合中的候选样本是从负样本集合中挖掘得到,因此该候选样本集合中的样本数量必然少于初始样本集合中负样本集合的样本数量。这里,候选样本集合同时也是对负样本集合中,样本特征接近正样本的特殊样本的统称,也即候选样本集合中的样本并非正样本,而是与正样本较为接近或者较相似的负样本。
作为一个实施例,步骤S11具体包括:
根据预设样本条件从所述初始样本集合中确定出正样本集合与负样本集合;从所述负样本集合中确定出候选样本集合。
在本实施例中,预设样本条件用于描述,能够区分正样本与负样本的特征,也即预设样本条件是用于限定哪些样本为正样本,哪些样本为负样本的条件。这里,预设样本条件可以是正样本中各种维度数据的筛选条件或阈值。
从初始样本集合中挖掘出正样本集合与候选样本集合,是根据预设样本条件从初始样本集合中确定出正样本集合,再将其它非正样本的样本集合作为负样本集合,从负样本集合中确定出候选样本,进而得到候选样本集合。
需要说明的是,候选样本是与正样本之间的相似度较高的样本,由于候选样本集合中的每个候选样本是从负样本集合中筛选出的,因此在确定候选样本时,可以通过配置候选样本筛选条件,进而从负样本集合中确定出符合该候选样本条件的负样本作为候选样本。
例如,参考预设样本条件,设定一个比预设样本条件更为宽松的候选样本筛选条件,基于该候选样本筛选条件从负样本集合中确定出候选样本集合。
或者,通过测算负样本集合中的各样本与正样本集合中的参考样本之间的特征距离值,根据该距离值的大小判断该负样本是否能够作为候选样本,其中,参考样本可以是正样本集合中的任意样本。
例如,通过测算负样本集合中的每个负样本与任一正样本之间的马氏距离值,并比较该马氏距离值是否小于预设马氏距离值,进而确定该负样本是否能够作为候选样本。在实际应用中,还可以根据不同的需求选用不同的特征差距测算方式确定两种样本之间的特征距离,除了测算两种样本之间的马氏距离值以外,还可以选用欧式距离值测试方式确定负样本是否能够作为候选样本。
在实际应用中,初始样本集合可以是销售人员的特征数据样本,初始样本集合中的每个初始样本为每个销售人员的特征数据。从初始样本集合中筛选出正样本,就是从初始样本集合中,将符合预设样本条件的销售人员的特征数据样本识别为正样本,相应地,将不符合以上预设样本条件的销售人员的特征数据样本识别为负样本。在确定了初始样本集合中的正样本与负样本后,即可确定出正样本集合与负样本集合,由于候选样本是从特殊的负样本,因此可以基于不同的需求设定相似度阈值,用于从负样本集合中确定出候选样本。
以初始样本集合可以是销售人员的特征数据样本为例,每个销售人员的特征数据包括:销售产品的标签类别(如A类、B类、C类、D类)、销售数据(如A类销售占比、B类销售占比、C类销售占比、D类销售占比)、开展活动量数据、绩效评估数据。相应地,由于预设样本条件可以是正样本中各种维度数据的阈值,此处预设样本条件可以是关于上述销售产品的标签类别、销售数据、开展活动量数据、绩效评估数据,配置得到的数据筛选条件。如,销售产品的标签类别必须是A类、B类、C类、D类中的哪一类,销售数据中的各个指标必须在某个范围区间、开展活动量与绩效评估数据,分别需要等于或大于某个阈值,才能识别为正样本。相应地,不符合预设样本条件的样本则识别为负样本。从负样本集合中确定出候选样本,可以是针对不同的条件配置不同的权重占比,根据样本的实际数据与权重占比,确定该负样本与正样本的相似度是否等于或大于预设相似度值,进而确定该负样本是否可以作为候选样本。或者是参考预设样本条件得到,例如,从负样本集合中确定出部分条件符合预设样本条件的样本作为候选样本。
作为本实施例一种可能实现的方式,步骤:从所述负样本集合中确定出候选样本集合,包括:
测算所述负样本与参考样本之间的相似度;其中,所述参考样本为所述正样本集合中的任一正样本;若所述相似度等于或大于预设阈值,则将所述负样本作为参考样本,得到参考样本集合。
在本实施例中,负样本与参考样本之间的相似度用于描述负样本与参考样本之间的样本特征相似程度,其中,相似度的数值越大,则表示负样本与参考样本之间的样本特征相似程度越高,相似度的数值越小,则表示负样本与参考样本之间的样本特征相似程度越低。预设阈值用于表征候选样本与参考样本之间的最小相似度。
作为本实施例一种可能实现的方式,上述实现方式中,步骤:测算所述负样本与参考样本之间的相似度,包括:
通过以下公式测算得到所述负样本与参考样本之间的相似度;
Figure BDA0002879005170000071
其中,DM(x,y)为所述相似度;x为所述参考样本中目标维度的第一数据;y为所述负样本中目标维度的第二数据;T表示装置;∑-1表示所述第一数据与所述第二数据之间特征向量的协方差矩阵。
在本实施例中,负样本与参考样本之间的相似度由两者间的马氏距离DM(x,y)所描述。这里,因为马氏距离可以定义为两个服从同一分布并且其协方差矩阵为Σ-1的随机变量之间的差异程度,且样本中存在多个维度的数据内容,又因为各维度上数据的量级和单位不一致,所以考虑到各维度之间存在一定相关性,故使用马氏距离来度量相似性更符合数据要求。
需要说明的是,由于马氏距离的计算是建立在总体样本的基础上的,也即如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的。而本实施例中,由于参考样本是正样本集合中的样本,正样本集合与负样本集合出自同一初始样本,也即负样本与参考样本是基于同一个样本分布中的样本,因此通过测算负样本与参考样本关于目标维度数据的马氏距离,能够基于同一个样本整体分布,分析两者之间的相似度。这里,目标维度用于表征参考样本与负样本之间的至少一种相同维度。
可以理解的是,当参考样本与负样本之间存在两种或两种以上的相同维度,可以根据实际情况,从两种或多种相同维度中确定至少一种相同维度作为目标维度,并将该目标维度的第一数据用于测算两者之间的相似度。
以初始样本集合为销售团队的不同产品对应的销售人员绩效数据为例,假设负样本集合中的某一负样本,用表征产品A销售人员甲的绩效数据,该销售人员甲绩效数据包括销量、满意度以及回购率三种维度;参考样本用于表征产品B的销售人员乙绩效数据,该销售人员乙的绩效数据包括:销量、满意度、售后评价以及回购率四种维度,相应地,负样本与参考样本之间的目标维度则是销量、满意度以及回购率三种维度中的至少一种。
应当理解的是,当确定目标维度为两种或多种时,可以通过测算参考样本与负样本在不同目标维度下的两种或多种马氏距离,再通过测算两种或多种马氏距离的平均值,确定最终相似度。
应当理解的是,在从初始样本集合中确定出正样本集合与候选样本集合后,则执行步骤S12~S13。
S12:利用预先构建的生成式对抗网络,基于所述候选样本集合与所述正样本集合输出补充样本集合。
在S12中,生成式对抗网络(Generative Adversarial Networks,GAN)是一种深度学习模型。补充样本集合是生成式对抗网络基于候选样本集合与正样本集合进行样本训练得到的样本集合。
在本实施例中,补充样本集合是通过生成式对抗网络中的生成模型和判别模型之间的互相博弈学习产生输出。其中,生成模型和判别模型之间能拟合相应生成和判别的函数,且生成模型和判别模型均是利用深度神经网络构建得到。
需要说明的是,利用预先构建的生成式对抗网络,基于候选样本集合与正样本集合输出补充样本集合,其核心思想是博弈论中的零和博弈,通过生成模型和判别模型进行对抗学习,当学习完成且生成式对抗网络完全收敛后,利用该生成式对抗网络基于候选样本集合与正样本集合,输出能够作为补充样本集合的样本。这里,预先构建的生成式对抗网络是训练后的网络,也即该预先构建的生成式对抗网络中生成模型和判别模型已经完成了对抗学习。其中,生成模型和判别模型进行对抗学习的过程中,生成模型根据判别模型的输出结果,调整生成伪造样本,使得下次输出的伪造样本更接近真实样本。
作为本申请一实施例,所述生成式对抗网络包括生成模型与判别模型;步骤S12具体可以包括:
通过所述生成模型根据所述候选样本集合生成第一样本集合;通过判别模型根据所述第一样本集合与所述正样本集合输出补充样本集合。
在本实施例中,第一样本集合是生成模型根据候选样本集合生成的伪造样本集合,包括伪造正样本与伪造负样本。正样本集合中的正样本均为真实样本。
需要说明的是,预先构建的生成式对抗网络是已训练的生成式对抗网络,也即在利用该生成式对抗网络基于候选样本集合与正样本集合输出补充样本集合前,已经对该网络进行了训练。
图2示出了本实施例中生成式对抗网络的原理图。如图2所示,在本实施例中,生成式对抗网络10包括生成模型11与判别模型12。生成模型11用于对输入的样本进行伪造,进而输出伪造样本至判别模型12,判别模型12用于根据参考样本判断该伪造样本的真伪,并在误判该伪造样本为真实样本时,输出该伪造样本作为补充样本;当判别模型12根据参考样本判断伪造样本为非真实样本时,生成模型11以骗过判别模型12为目的,生成更为逼真的伪造样本,也即令判别模型12误判该伪造样本为真实样本的概率达到最大。可见,本实施例中,生成式对抗网络10中生成模型11与判别模型12之间关系,是不断生成伪造样本与判别伪造样本真伪的循环过程,通过生成模型11和判别模型12进行对抗学习,当学习完成且生成式对抗网络完全收敛后,利用该生成式对抗网络基于候选样本集合与正样本集合,输出能够作为补充样本集合的样本。
生成模型11的输入是候选样本集合,输出是第一样本集合。由于该候选样本集合中的候选样本是初始样本集合中与正样本较为相似的负样本,生成模型11输出的是基于该候选样本伪造得到的第一样本,判别模型12以正样本作为参考,对第一样本进行判别,进而输出补充样本,得到补充样本集合。
需要说明的是,在本申请的所有实施例中,生成模型11的输入不是随机噪声,而是通过步骤S11得到的候选样本集合。通过生成模型11生成的第一样本集合后,判别模型12来引导生成器的学习,判别模型12训练的目标为区分真实样本(记为正样本)和生成器生成的样本(记为负样本),生成模型11的训练的目标是生成尽可能逼近真实样本分布的伪造样本,尽可能使得判别模型12发生误判。当迭代次数达到设定阈值后,即可将输出结果作为补充样本集合。
作为本实施例一种可能实现的方式,生成模型11的优化目标损失函数可以为:
Figure BDA0002879005170000101
其中,
Figure BDA0002879005170000102
为第一样本集合,且
Figure BDA0002879005170000103
通过生成模型11与判别模型12之间的交替训练(如交替使用梯度下降算法),训练结果达到纳什均衡,即从整体上最优的生成模型11和判别模型12,这时生成样本的分布与真实样本的分布最相似,从该分布中采样即得到目标域的近似生成样本数据。
在本实施例中,生成模型11的学习目的是生成质量更高的伪造样本集合,也即第一样本集合
Figure BDA0002879005170000104
尽可能“骗过”判别模型12,以达到以假乱真的目的。
作为本实施例一种可能实现的方式,判别模型12的优化目标损失函数可以为:
Figure BDA0002879005170000105
其中,θD表示模型参数,x~p(x)表示真实样本的概率分布,
Figure BDA0002879005170000106
表示第一样本集合中各第一样本的概率分布。
在本实施例中,判别模型12学习的目的是能更准确的区分正样本集合中正样本(真实样本x)与第一样本集合
Figure BDA0002879005170000107
(尽管
Figure BDA0002879005170000108
生成的再逼真,判别模型D的目标还是要能识别其真伪,因此判别模型12对应的优化目标函数选用的是一个交叉熵损失函数,即把真实样本判定为“真的(预测为1)”概率尽可能大,即判别模型12的优化目标损失函数中前一部分∑x~p(x)log(D(x,θD)),)同时把伪造样本判定为“假的(预测为0)”概率也尽可能的大,即判别模型12的优化目标损失函数中加号后半部分
Figure BDA0002879005170000111
可以理解的是,生成模型11和判别模型12的学习是两者冲突的,这也是博弈论中的零和博弈过程。通过交替学习(如学习生成模型11的时候判别模型12,学习判别模型12的时候固定生成模型11),满足收敛条件后停止训练。
S13:利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型。
在步骤S13中,目标样本集合是由正样本集合与补充样本集合组成的样本集合,也即将补充样本集合填充至正样本集合即可得到目标样本集合。预设的分类模型可以是基于已有的神经网络框架构建得到的模型。这里,预设的分类模型用于对某个领域的人群进行特征分类,例如,对销售团队的所有销售人员进行分类,该预设的分类模型描述了销售人员的绩效数据与特征标签之间的对应关系。其中,特征标签用于统一绩效数据中不同维度数据的优良程度。假设绩效数据包括销量、满意度、售后评价以及回购率四个维度,特征标签可以是优、良、中、差,四个标签。也即,虽然绩效数据的维度不同,但通过特征标签将不同维度的数据进行统一评价,即可直观地体现不同销售人员在不同绩效维度下的表现。
在本实施例中,由于目标样本集合是由正样本集合与补充样本集合组成的样本集合,且补充样本集合是利用预先构建的生成式对抗网络,基于候选样本集合与正样本集合进行样本训练得到,因此目标样本集合中无论是正样本还是负样本,都是基于初始样本集合得到,也即均是考虑了样本整体分布得到,因此能够避免在构建目标样本过程因采样不均导致样本存在偏性,同时由于目标样本集合中不要求样本服从同分布的强依赖假设,以及对有样本数量设定预算等要求,更符合实际应用的情况,故利用目标样本集合对预设分类模型进行训练,得到训练后的分类模型具有更好的鲁棒性。
作为一个实施例,所述补充样本集合包括正补充样本与负补充样本;步骤S13具体包括:
按照预设的样本配比,从所述补充样本集合中确定出正补充样本集合与负补充样本集合;将所述正补充样本集合与所述负补充样本集合填充至所述正样本集合中,得到目标样本集合;利用所述目标样本集合对预设分类模型进行训练,得到训练后的分类模型
在本实施例中,预设的样本配比,用于描述从所述补充样本集合中确定出正补充样本与负补充样本的比例。这里,为了提高分类模型的训练效率,并非将所有补充样本集合都填充至正样本集合中,而是按照预设的样本比例从补充样本集合中挑选出一定数量的正补充样本与一定数量负补充样本,填充至正样本集合中,因为补充样本集合中的样本是利用预先构建的生成式对抗网络,基于候选样本集合与正样本集合进行样本训练,伪造得到的样本,因此无论是正补充样本还是负补充样本均存在一定的特征相似或相同,所以按照预设的样本配比从补充样本集合中确定出正补充样本集合与负补充样本集合,能够避免将过多的相似或相同的样本作为目标样本集合中的样本,导致模型训练用时过长的现象,同时还能够提高模型训练效率。
在实际应用中,按照预设的样本配比,从所述补充样本集合中确定出正补充样本集合与负补充样本集合,可以是将补充样本集合中的正样本与负样本分别进行特征分类,得到多组正样本集合与多组负样本集合,再按照按照预设的样本配比从每组正样本集合与每组负样本集合中分别抽取样本,进而得到正补充样本集合与负补充样本集合。
以上方案中,从初始样本集合中挖掘出正样本集合,以及与正样本集合对应的候选样本集合,由于候选样本集合是基于正样本集合从初始样本集合中挖掘得到,因此候选样本集合中的样本是考虑了样本的全局分布得到,并且利用预先构建的生成式对抗网络,基于候选样本集合与正样本集合进行样本训练,输出的补充样本集合不具有特征偏性,再将基于补充样本集合与正样本集合得到的目标样本集合,用于对预设分类模型进行训练,由于目标训练样本集合中因正负样本均衡且无特征偏性,因此不会导致模型容易失效,提高了分类模型的训练效率,使得训练后的分类模型具有更好的鲁棒性。
图3示出了本申请另一实施例提供的一种分类模型训练方法的实现流程图。参见图3,相对于图1所述实施例,本实施例提供的一种分类模型训练方法中在所述利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型的步骤之后,还包括:S21,具体详述如下:
进一步地,在所述利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型的步骤之后,还包括:
S21:将所述训练后的分类模型部署至区块链节点中。
在本实施例中,为了将训练后的分类模型进行共享,将训练后的分类模型部署至区块链中,进而避免该训练后的分类模型对应的脚本文件内容被篡改。
在本申请的所有实施例中,将训练后的分类模型部署至区块链节点中可令该区块链节点能够通过调用该训练后的分类模型执行相应的分类任务。同时,还能够保证该训练后的分类模型的脚本文件安全性和对用户的公正透明性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上方案中,从初始样本集合中挖掘出正样本集合,以及与正样本集合对应的候选样本集合,由于候选样本集合是基于正样本集合从初始样本集合中挖掘得到,因此候选样本集合中的样本是考虑了样本的全局分布得到,并且利用预先构建的生成式对抗网络,基于候选样本集合与正样本集合进行样本训练,输出的补充样本集合不具有特征偏性,再将基于补充样本集合与正样本集合得到的目标样本集合,用于对预设分类模型进行训练,由于目标训练样本集合中因正负样本均衡且无特征偏性,因此不会导致模型容易失效,提高了分类模型的训练效率,使得训练后的分类模型具有更好的鲁棒性。
此外,将训练后的分类模型部署至区块链节点中,使得该训练后的分类模型能够被区块链中的其他节点获取并使用,能够进一步提高该训练后的分类模型的利用率。
请参阅图4,图4是本申请实施例提供的一种分类模型训练装置的结构框图。本实施例中该移动终端包括的各单元用于执行图1与图3对应的实施例中的各步骤。具体请参阅图1与图3以及图1与图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,分类模型训练装置40包括:挖掘单元41、输出单元42以及训练单元43。
挖掘单元41,用于从初始样本集合中挖掘出正样本集合,以及与所述正样本集合对应的候选样本集合;
输出单元42,用于利用预先构建的生成式对抗网络,基于所述候选样本集合与所述正样本集合输出补充样本集合;
训练单元43,用于利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型。
作为本申请一实施例,挖掘单元41具体用于,根据预设样本条件从所述初始样本集合中确定出正样本集合与负样本集合;从所述负样本集合中确定出候选样本集合。
作为本申请一实施例,挖掘单元41具体还用于,测算所述负样本与参考样本之间的相似度;其中,所述参考样本为所述正样本集合中的任一正样本;若所述相似度等于或大于预设阈值,则将所述负样本作为参考样本,得到参考样本集合。
作为本申请一实施例,挖掘单元41具体还用于,通过以下公式测算得到所述负样本与参考样本之间的相似度;
Figure BDA0002879005170000151
其中,DM(x,y)为所述相似度;x为所述参考样本中目标维度的第一数据;y为所述负样本中目标维度的第二数据;T表示装置;∑-1表示所述第一数据与所述第二数据之间特征向量的协方差矩阵。
作为本申请一实施例,所述生成式对抗网络包括生成模型与判别模型;输出单元42具体用于,通过所述生成模型根据所述候选样本集合生成第一样本集合;通过判别模型根据所述第一样本集合与所述正样本集合输出补充样本集合。
作为本申请一实施例,所述补充样本集合包括正补充样本与负补充样本;训练单元具体用于,按照预设的样本配比,从所述补充样本集合中确定出正补充样本集合与负补充样本集合;将所述正补充样本集合与所述负补充样本集合填充至所述正样本集合中,得到目标样本集合;利用所述目标样本集合对预设分类模型进行训练,得到训练后的分类模型。
作为本申请一实施例,分类模型训练装置40包括:部署单元44。
部署单元44,用于将所述训练后的分类模型部署至区块链节点中。
应当理解的是,图4示出的分类模型训练装置的结构框图中,各单元用于执行图1与图3对应的实施例中的各步骤,而对于图1与图3对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1与图3以及图1与图3所对应的实施例中的相关描述,此处不再赘述。
图5是本申请另一实施例提供的一种计算机设备的结构框图。如图5所示,该实施例的计算机设备50包括:处理器51、存储器52以及存储在所述存储器52中并可在所述处理器51上运行的计算机程序53,例如分类模型训练方法的程序。处理器51执行所述计算机程序53时实现上述各个分类模型训练方法各实施例中的步骤,例如图1所示的S11至S13,或者图3所示的S11至S21。或者,所述处理器51执行所述计算机程序53时实现上述图3对应的实施例中各单元的功能,例如,图4所示的单元41至44的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序53可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器52中,并由所述处理器51执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序53在所述计算机设备50中的执行过程。例如,所述计算机程序53可以被分割成训练单元、执行单元以及样本剔除单元,各单元具体功能如上所述。
所述转台设备可包括,但不仅限于,处理器51、存储器52。本领域技术人员可以理解,图5仅仅是计算机设备50的示例,并不构成对计算机设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器51可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器52可以是所述计算机设备50的内部存储单元,例如计算机设备50的硬盘或内存。所述存储器52也可以是所述计算机设备50的外部存储设备,例如所述计算机设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器52还可以既包括所述计算机设备50的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种分类模型训练方法,其特征在于,包括:
从初始样本集合中挖掘出正样本集合,以及与所述正样本集合对应的候选样本集合;
利用预先构建的生成式对抗网络,基于所述候选样本集合与所述正样本集合输出补充样本集合;
利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型。
2.根据权利要求1所述的分类模型训练方法,其特征在于,所述从初始样本集合中挖掘出正样本集合,以及与所述正样本集合对应的候选样本集合,包括:
根据预设样本条件从所述初始样本集合中确定出正样本集合与负样本集合;
从所述负样本集合中确定出候选样本集合。
3.根据权利要求2所述的分类模型训练方法,其特征在于,所述从所述负样本集合中确定出候选样本集合,包括:
测算所述负样本与参考样本之间的相似度;其中,所述参考样本为所述正样本集合中的任一正样本;
若所述相似度等于或大于预设阈值,则将所述负样本作为参考样本,得到参考样本集合。
4.根据权利要求3所述的分类模型训练方法,其特征在于,所述测算所述负样本与参考样本之间的相似度,包括:
通过以下公式测算得到所述负样本与参考样本之间的相似度;
Figure FDA0002879005160000011
其中,DM(x,y)为所述相似度;x为所述参考样本中目标维度的第一数据;y为所述负样本中目标维度的第二数据;T表示装置;∑-1表示所述第一数据与所述第二数据之间特征向量的协方差矩阵。
5.根据权利要求1所述的分类模型训练方法,其特征在于,所述生成式对抗网络包括生成模型与判别模型;
所述利用预先构建的生成式对抗网络,基于所述候选样本集合与所述正样本集合输出补充样本集合,包括:
通过所述生成模型根据所述候选样本集合生成第一样本集合;
通过判别模型根据所述第一样本集合与所述正样本集合输出补充样本集合。
6.根据权利要求5所述的分类模型训练方法,其特征在于,所述补充样本集合包括正补充样本与负补充样本;
所述利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型,包括:
按照预设的样本配比,从所述补充样本集合中确定出正补充样本集合与负补充样本集合;
将所述正补充样本集合与所述负补充样本集合填充至所述正样本集合中,得到目标样本集合;
利用所述目标样本集合对预设分类模型进行训练,得到训练后的分类模型。
7.根据权利要求1-6任一项所述的分类模型训练方法,其特征在于,在所述利用所述补充样本集合与所述正样本集合组成的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型的步骤之后,还包括:
将所述训练后的分类模型部署至区块链节点中。
8.一种分类模型训练装置,其特征在于,包括:
挖掘单元,用于从初始样本集合中挖掘出正样本集合,以及与所述正样本集合对应的候选样本集合;
输出单元,用于利用预先构建的生成式对抗网络,基于所述候选样本集合与所述正样本集合输出补充样本集合;
训练单元,用于利用基于所述补充样本集合与所述正样本集合得到的目标样本集合,对预设分类模型进行训练,得到训练后的分类模型。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202011637697.5A 2020-12-31 2020-12-31 一种分类模型训练方法及计算机设备 Active CN112766320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011637697.5A CN112766320B (zh) 2020-12-31 2020-12-31 一种分类模型训练方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011637697.5A CN112766320B (zh) 2020-12-31 2020-12-31 一种分类模型训练方法及计算机设备

Publications (2)

Publication Number Publication Date
CN112766320A true CN112766320A (zh) 2021-05-07
CN112766320B CN112766320B (zh) 2023-12-22

Family

ID=75698180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011637697.5A Active CN112766320B (zh) 2020-12-31 2020-12-31 一种分类模型训练方法及计算机设备

Country Status (1)

Country Link
CN (1) CN112766320B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535964A (zh) * 2021-09-15 2021-10-22 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN114240856A (zh) * 2021-12-01 2022-03-25 北京计算机技术及应用研究所 一种仓库重要物品在位检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898185A (zh) * 2018-07-03 2018-11-27 北京字节跳动网络技术有限公司 用于生成图像识别模型的方法和装置
CN109657792A (zh) * 2018-12-19 2019-04-19 北京世纪好未来教育科技有限公司 构建神经网络的方法、装置和计算机可读介质
CN110288097A (zh) * 2019-07-01 2019-09-27 腾讯科技(深圳)有限公司 一种模型训练的方法以及相关装置
CN110704599A (zh) * 2019-09-30 2020-01-17 支付宝(杭州)信息技术有限公司 为预测模型生成样本、预测模型训练的方法及装置
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN111461164A (zh) * 2020-02-25 2020-07-28 清华大学 样本数据集的扩容方法及模型的训练方法
US20200372350A1 (en) * 2019-05-22 2020-11-26 Electronics And Telecommunications Research Institute Method of training image deep learning model and device thereof
US20210295162A1 (en) * 2019-01-04 2021-09-23 Ping An Technology(Shenzhen)Co.,Ltd. Neural network model training method and apparatus, computer device, and storage medium

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898185A (zh) * 2018-07-03 2018-11-27 北京字节跳动网络技术有限公司 用于生成图像识别模型的方法和装置
CN109657792A (zh) * 2018-12-19 2019-04-19 北京世纪好未来教育科技有限公司 构建神经网络的方法、装置和计算机可读介质
US20210295162A1 (en) * 2019-01-04 2021-09-23 Ping An Technology(Shenzhen)Co.,Ltd. Neural network model training method and apparatus, computer device, and storage medium
US20200372350A1 (en) * 2019-05-22 2020-11-26 Electronics And Telecommunications Research Institute Method of training image deep learning model and device thereof
CN110288097A (zh) * 2019-07-01 2019-09-27 腾讯科技(深圳)有限公司 一种模型训练的方法以及相关装置
CN110704599A (zh) * 2019-09-30 2020-01-17 支付宝(杭州)信息技术有限公司 为预测模型生成样本、预测模型训练的方法及装置
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN111461164A (zh) * 2020-02-25 2020-07-28 清华大学 样本数据集的扩容方法及模型的训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535964A (zh) * 2021-09-15 2021-10-22 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN114240856A (zh) * 2021-12-01 2022-03-25 北京计算机技术及应用研究所 一种仓库重要物品在位检测方法

Also Published As

Publication number Publication date
CN112766320B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
JP7102344B2 (ja) 機械学習モデルのモデリング方法及びデバイス
CN111369003B (zh) 一种量子比特读取信号保真度的确定方法、装置
CN111915437A (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN110807468B (zh) 检测异常邮件的方法、装置、设备和存储介质
CN110493262B (zh) 一种改进分类的网络攻击检测方法及系统
CN111932269A (zh) 设备信息处理方法及装置
CN109685104B (zh) 一种识别模型的确定方法和装置
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN112766320A (zh) 一种分类模型训练方法及计算机设备
CN112861980B (zh) 一种基于大数据的事历任务表挖掘方法及计算机设备
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN112651418A (zh) 数据分类方法、分类器训练方法及系统
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
CN115290596A (zh) 一种基于fcn-acgan数据增强的隐匿危险品识别方法及设备
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN118134652A (zh) 一种资产配置方案生成方法、装置、电子设备及介质
CN110598794A (zh) 一种分类对抗的网络攻击检测方法及系统
Gavrilev et al. Anomaly detection in networks via score-based generative models
Mayer et al. Simulation-based autonomous algorithm selection for dynamic vehicle routing problems with the help of supervised learning methods
CN112668857A (zh) 分阶段质检的数据分类方法、装置、设备及存储介质
CN111582313A (zh) 样本数据生成方法、装置及电子设备
Jose et al. Detection of credit card fraud using resampling and boosting technique
CN112926989B (zh) 一种基于多视图集成学习的银行贷款风险评估方法及设备
CN114723554A (zh) 异常账户识别方法及装置
CN114913513A (zh) 一种公章图像的相似度计算方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant