CN113569953A - 分类模型的训练方法、装置及电子设备 - Google Patents

分类模型的训练方法、装置及电子设备 Download PDF

Info

Publication number
CN113569953A
CN113569953A CN202110861834.1A CN202110861834A CN113569953A CN 113569953 A CN113569953 A CN 113569953A CN 202110861834 A CN202110861834 A CN 202110861834A CN 113569953 A CN113569953 A CN 113569953A
Authority
CN
China
Prior art keywords
sample
sample set
pair
class
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110861834.1A
Other languages
English (en)
Inventor
崔希庆
姜俊萍
郭邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110861834.1A priority Critical patent/CN113569953A/zh
Publication of CN113569953A publication Critical patent/CN113569953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书公开了分类模型的训练方法、装置及电子设备,涉及人工智能技术领域,其中方法包括:获取原始样本集;循环执行如下迭代操作,直至满足预设终止条件:对原始样本集和参考样本集进行过采样得到训练样本集;对训练样本集中的各样本对执行如下操作:将当前样本对的特征数据输入分类模型得到预测结果;根据当前样本对的类别标记和当前样本对被划分为各类别的概率,计算分类模型的置信度;在置信度位于预定范围的情况下,通过当前样本对更新分类模型的参数;在置信度位于预定范围并且当前样本对的类别标记属于预定类别的情况下,将当前样本对作为参考样本对放入参考样本集中。本方案能够提高分类模型对于小类别样本的预测准确性及泛化性。

Description

分类模型的训练方法、装置及电子设备
技术领域
本申请涉及人工智能技术领域,特别涉及分类模型的训练方法、装置及电子设备。
背景技术
非平衡数据集分类问题近年来成为智能机器学习领域研究的重点与难点问题之一。所谓的非平衡数据集指的是数据集中属于各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下把不同类别样本的比例接近100:1这种情况下的数据集称为非平衡数据集。这些样本量占比较小的类别又称为小类别或小样本类。小类别的样本往往是分类模型关注的重点,即分类模型的目的就是在实际应用中从海量数据中找出这些小样本类的数据。
传统的分类模型对数据分类时,通常假设通过某一渠道获取的数据样本的类别已经标定,且其各类别的数据样本的数目是相当的,这样即只需采取相应的有效的分类模型,如神经网络、支持向量机等对数据样本充分学习,即可获得比较好的分类精度。
然而,这种分类模型无法充分学习少量样本,导致在面对非平衡数据分类时其泛化性能不高。
发明内容
本申请实施方式的目的是提供分类模型的训练方法、装置及电子设备,以解决现有分类模型在面对非平衡数据分类时泛化性能不高的问题。
为解决上述技术问题,本说明书实施方式提供一种分类模型的训练方法,包括:获取原始样本集,其中,所述原始样本集包括多个样本对,每个样本对中至少包括:特征数据和类别标记;循环执行如下迭代操作,直至满足预设终止条件:对所述原始样本集和参考样本集进行过采样,得到训练样本集;对所述训练样本集中的各样本对执行如下操作:将当前样本对的特征数据输入分类模型得到所述当前样本对的预测结果,所述预测结果包括被划分为各类别的概率;根据所述当前样本对的类别标记和所述当前样本对被划分为各类别的概率,计算所述分类模型的置信度;在所述置信度位于预定范围的情况下,通过所述当前样本对更新所述分类模型的参数;在所述置信度位于所述预定范围,并且所述当前样本对的类别标记属于预定类别的情况下,将所述当前样本对作为参考样本对放入参考样本集中;所述预定类别为原始样本集中的占比小于预设阈值的类别。
本说明书实施例还提供一种分类模型的训练装置,包括:获取模块,用于获取原始样本集,其中,所述原始样本集包括多个样本对,每个样本对中至少包括:特征数据和类别标记;迭代模块,用于循环执行迭代操作,直至满足预设终止条件;所述迭代模块包括:过采样子模块,用于对所述原始样本集和参考样本集进行过采样,得到训练样本集;执行子模块,用于对所述训练样本集中的各样本对执行操作;所述执行子模块包括:预测子模块,用于将当前样本对的特征数据输入分类模型得到所述当前样本对的预测结果,所述预测结果包括被划分为各类别的概率;计算子模块,用于根据所述当前样本对的类别标记和所述当前样本对被划分为各类别的概率,计算所述分类模型的置信度;更新子模块,用于在所述置信度位于预定范围的情况下,通过所述当前样本对更新所述分类模型的参数;参考子模块,用于在所述置信度位于所述预定范围,并且所述当前样本对的类别标记属于预定类别的情况下,将所述当前样本对作为参考样本对放入参考样本集中;所述预定类别为原始样本集中的占比小于预设阈值的类别。
本说明书实施例所提供的一种分类模型的训练方法、装置及电子设备,执行多次迭代操作,每次迭代操作时,均对原始样本集和参考样本集过采样得到训练样本集,将训练样本集中的样本依次输入分类模型,能够避免将小类别样本对作为训练样本集中的一小部分一并输入分类模型所导致的预测结果向样本对量较多的一类倾斜的问题;在一次迭代时通过样本对更新分类模型的参数后,如果该样本对为小类别样本对,则将其放入参考样本集,以便于下次迭代时基于该样本对过采样得到新的样本对,从而进一步提高分类模型对于小类别样本的预测准确性及泛化性。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本说明书实施例的一种分类模型的训练方法的流程图;
图2示出了对原始样本集和参考样本集进行过采样,得到训练样本集的一种实施例的流程图;
图3示出了根据本说明书实施例的另一种分类模型的训练方法的流程图;
图4示出了根据本说明书实施例的一种分类模型的训练装置的原理框图;
图5示出了根据本说明书实施例的另一种分类模型的训练装置的原理框图;
图6示出了计算子模块的一种实施例的原理框图;
图7示出了根据本发明实施例的一种电子设备的原理框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
在一些场景示例中,海量的金融类交易记录中可能会存在管控类的交易记录,这类交易记录的字段取值往往与正常交易记录的字段取值有所不同。为从海量的交易记录中找出管控类的交易记录,可以将这些海量交易记录逐条输入分类模型,由分类模型给出每条交易记录是否属于管控类。
在一些场景示例中,海量的网络监管数据中可能会存在网络入侵类的访问及修改记录,这类网络监管数据往往与正常网络通信的网络监管数据有所不同。可以根据海量的网络监管数据中追踪到网络入侵行为。为此,可以将海量的网络监管记录逐条输入分类模型,由分类模型给出每条记录数据是否对应网络入侵行为。
本说明书实施例所提供一种分类模型的训练方法,以训练得到上述分类模型。如图1所示,该训练方法包括以下步骤:
S101:获取原始样本集,其中,原始样本集包括多个样本对,每个样本对中至少包括:特征数据和类别标记。
原始样本集,即为训练分类模型而准备的一个样本对的集合。该集合可以为实际生产生活场景中记录的数据。例如,在银行等金融机构进行交易时所产生的交易记录及类别标记,每一条交易记录对应一次交易,交易记录具有多个字段,每个字段表示交易的一个方面的信息。
特征数据,是实际生产生活场景中记录的、用于表示事物特征的数据。例如,在金融机构的一条交易记录样本中,交易的每个字段均为一种特征数据,交易的字段例如可以为用户名、银行账号、银行卡所属地区、交易对手账号、交易类型、交易金额等。
类别标记,通常是根据实际生产生活场景中已发生的事件给予数据的标记。例如,金融机构的一条交易记录与一起已发生的管控案件有关,则根据这一事实给予该交易记录一特殊标记。由于类别标记是基于事实给以的,因此类别标记所标识的样本所属类别是可信的,毋庸置疑的。
S102:对原始样本集和参考样本集进行过采样,得到训练样本集。
训练样本集,是基于原始样本集和参考样本集过采样得到的,即从原始样本集和参考样本集的混合集合中抽取样本并生成新样本得到的。
S103:从训练样本集中选取一个样本对作为当前样本对,并从训练样本集中将选取的样本对剔除。
S104:将当前样本对的特征数据输入分类模型得到当前样本对的预测结果,预测结果包括被划分为各类别的概率。
从步骤S104可以看出,在训练分类模型时所采用的样本对数量为一个,这与采用所有样本对同时训练分类模型的方式有所不同。单样本对训练的方式能够充分考虑到小样本类的样本对作为一个个体对分类模型的影响,能够避免将小类别样本对作为训练样本集中的一小部分一并输入分类模型所导致的预测结果向样本对量较多的一类倾斜的问题。
分类模型在实际生产生活场景应用时,其输出的预测结果仅为一个类别,而不是本说明书实施例中所述的输出划分为各个类别的概率。这是因为分类模型在训练好之后,投入实际生产生活场景应用时,还会在分类模型的输出之后加一个结果处理单元,其作用是筛选出最大的概率值所对应的类别,并将该类别作为输出结果。
为了能够得到更为准确的分类模型,本说明书实施例所提供的训练方法中,分类模型的输出结果为各个类别对应的预测概率。
本说明书中所述的分类模型可以为神经网络模型、支持向量机模型等。本说明书对分类模型的类别不做限定。
步骤S104中所述的分类模型的参数已经初步确定,可以是该步骤之前随机初始化的参数,也可以是采用上一样本对更新分类模型参数确定的。
S105:根据当前样本对的类别标记和当前样本对被划分为各类别的概率,计算分类模型的置信度。
置信度表征最大的概率值所对应的类别与其它类别区分开的程度。
例如,对于样本对A,被划分为第一类和第二类的概率分别为0.55和0.45,则二者差值为0.1;对于样本对B,被划分为第一类和第二类的概率分别为0.2和0.8,则二者差值为0.6。可以看出,是实际应用场景下,即在分类模型的输出之后加一个结果处理单元以筛选出最大的概率值所对应的类别作为输出结果的情况下,分类模型能够较为确定地将样本对B划分为第二类,而对于样本对A,本次可能将其划分为第一类,但是当采用某个样本对更新了分类模型的参数,也即对分类模型的参数微调之后,分类模型很可能将样本对A划分为第二类。
由此可见,在当前样本对的置信度较小的情况下,分类模型的参数更新后,再对该样本对进行预测时预测出错的可能性较大。
步骤S105中的置信度可以是预测结果中概率数值最大的两个概率值的差值,或者是在该差值基础上乘以系数或变量得到的。
在一些实施例中,可以通过以下公式计算分类模型的置信度:σ=yc-maxi≠c{yi},其中,σ为置信度,c为当前样本对的类别标记,yc为当前样本对被划分为c类别的概率,yi为当前样本对被划分为c类以外的其他各个类别的概率。
例如,当前样本对的预测结果为:划分为第一类的概率为0.6,划分为第二类的概率为0.1,划分为第三类的概率为0.3,若当前样本对的类别标记为第一类,则置信度为σ=0.6-0.3=0.3;若当前样本对的类别标记为第三类,则置信度为σ=0.3-0.6=-0.3。
由此可以看出,实际生产生活中在分类模型的输出之后加一个结果处理单元以筛选出最大的概率值所对应的类别作为输出结果的情况下,当σ大于0时,表示实际生产生活中的分类模型预测准确,当σ小于0时,表示实际生产生活中的分类模型预测不准确。
在一些实施例中,如图3的步骤S308和S309所示,可以通过以下步骤计算所述分类模型的置信度:
根据以下公式计算σ:σ=yc-maxi≠c{yi},其中,c为当前样本对的类别标记,yc为当前样本对被划分为c类别的概率,yi为当前样本对被划分为c类以外的其他各个类别的概率;
根据以下公式计算Δ:
Figure BDA0003186036600000051
其中,
Figure BDA0003186036600000052
nc为原始样本集中c类样本对的数量,n为原始样本集中的样本对总数,Z=mini{ri},
Figure BDA0003186036600000053
ni为原始样本集中c类以外的其他类别的样本对数量,i表示c类以外的其他类别;
根据以下公式计算p:
Figure BDA0003186036600000054
其中,p为置信度。
由Δ以及p的计算公式可以看出:在分类模型预测不准确的情况下,p的取值为1,在该情况下,应当采用当前样本对更新分类模型的参数;在分类模型预测不准确的情况下,p的取值与Δ呈负相关关系,也即p的取值与nc呈负相关关系,即nc越小,p的取值越大,从而能够增大小类别样本对被选中用于更新分类模型参数的概率;在分类模型预测不准确的情况下,由于Z=mini{ri},也即当c类以外的其他类别的样本对数量越少,Z的取值越小,p的取值越小,也即对于大类别(原始数据集中占比较大的类别)样本对,p的取值较小,样本对被选中用于更新分类模型的概率较小。通过这些设置,根据p的取值来衡量预测的准确度能够提高小类别样本对更新分类模型参数的概率,降低大类别样本对更新分类模型参数的概率,从而提高分类模型对于小类别样本对的预测准确性,又减少计算量。通常对于大类别样本对的预测准确率要求不是很高。
在采用p的取值来衡量预测的准确度的情况下,步骤S105中的预定范围可以是小于0-1之间的随机数。如图3中的步骤S310、S311所示。
S106:判断置信度是否位于预定范围。在是的情况下,执行步骤S107和S108;否则,跳转至S110继续执行。
S107:通过当前样本对更新分类模型的参数。
在置信度较小的情况下,为提高对该当前样本对的预测准确度,可以采用该当前样本对更新分类模型的参数。
然而,在更新分类模型的参数后,虽然该当前样本对的分类准确度能够提高了,但是可能会使得其他样本对,尤其是与该当前样本对相近的样本对的分类准确度有所降低。为此,可以将该当前样本对放入参考样本集中,以便于下一次迭代时在该当前样本对的基础上扩充得到训练样本集。
S108:判断当前样本对的类别标记是否属于预定类别。预定类别为原始样本集中的占比小于预设阈值的类别。在是的情况下,执行步骤S109和S110;否则,跳转至S110继续执行。
S109:将当前样本对作为参考样本对放入参考样本集中。
预定类别即小类别。由于非平衡数据集的分类问题更关注小类别样本的预测结果是否准确,因此本实施例中仅将小类别的样本对放入参考样本集中。
S110:判断训练样本集是否为空。若是,则执行步骤S111;否则,跳转至步骤S103继续执行。
S111:判断是否满足预设终止条件。若是,则完成对分类模型的训练;否则,跳转至步骤S102继续执行。
在一些实施例中,预设终止条件可以为循环执行的次数(即迭代的次数)达到了预先设置的迭代次数。
而在一些实施例中,预设终止条件可以是本轮循环(或本次迭代)没有样本对放入参考样本集中,即分类模型对于小类别样本对的预测置信度均符合要求,从而可以进一步保证分类模型对于小类别样本的预测准确度。
上述步骤S102至S109即为一次迭代操作。这里的“迭代”是重复反馈过程的活动,其目的是为了使得分类模型所预测的概率中的最大值所对应的类别与样本对的类别标记相一致。每一次对过程的重复称为一次“迭代”,而每一次迭代得到的结果会用于下一次迭代。
上述步骤S103和S108给出了对训练样本集中的各样本对执行步骤S104至S107,而不会使同一样本对重复执行的方式。
当然,在一些实施例中,还可以采用其他方法保证训练样本集中样本执行步骤S104至S107,而不会使同一样本对重复执行。例如,为训练样本集中的样本对依次编号,按照样本对的编号逐个输入分类模型。本说明书不再一一列举其他方法。
本说明书实施例所提供的一种分类模型的训练方法、装置及电子设备,执行多次迭代操作,每次迭代操作时,均对原始样本集和参考样本集过采样得到训练样本集,将训练样本集中的样本依次输入分类模型,能够避免将小类别样本对作为训练样本集中的一小部分一并输入分类模型所导致的预测结果向样本对量较多的一类倾斜的问题;在一次迭代时通过样本对更新分类模型的参数后,如果该样本对为小类别样本对,则将其放入参考样本集,以便于下次迭代时基于该样本对过采样得到新的样本对,从而进一步提高分类模型对于小类别样本的预测准确性及泛化性。
上述步骤S102中“对原始样本集和参考样本集进行过采样,得到训练样本集”,可以是将原始样本集和参考样本集中的元素混合得到第二样本集,从第二样本集中采用随机过采样的方式得到训练样本集;也可以从第二样本集中采用如图3所示的SMOTE过采样的方式得到训练样本集;或者其他过采样方法。本申请对过采样的具体方法不做限定。根据某一小类别的样本过采样所产生的虚拟样本所属的类别应与该小类别所属的类别相同。
在下一次迭代时,由于训练样本集是在本迭代给定的样本对的基础上过采样得到的,因此,下一次迭代时的训练样本集中具有与本次迭代给定样本对相近的样本对,从而可以在下一次迭代时验证该相近样本对的预测准确度。
基于这一设置,本说明书实施例所提供的训练方法能够进一步提高对小类别样本预测的准确性及泛化能力。
如图2所示,步骤S102中“对原始样本集和参考样本集进行过采样,得到训练样本集”的方法,可以包括如下步骤:
S1021:筛选出原始样本集中类别标记属于预定类别的所有样本对,并与参考样本集的样本对混合,得到第一样本集。
该预定类别即小类别。由于小类别可以是一个类别,也可以是多个类别。步骤S210是指筛选出每个小类别的所有样本对。即,当小类别有两个时,将第一小类别的所有样本对,以及第二小类别的所有样本对均筛选出来。
S1022:对第一样本集中的每一类样本对过采样产生ni·ρi个样本对,其中,ni为第一样本集中i类样本的样本对数量,ρi为过采样得到的i类样本对与第一样本集中i类样本对的数量的比值。
ρi,即采样比率,通常是给定的数值。
在一些实施例中,每次迭代时,
Figure BDA0003186036600000081
n为原始样本集中样本对数量最多的类别被采样出的样本数量。也就是说,在每次迭代时,都扩充小类别样本对的数量至与大类别被采样出的样本对数量相等。其中,大类别是指原始样本集中样本对数量最多的类别。
在一些实施例中,如图3的步骤S317所示,仅在首次执行的迭代操作中,
Figure BDA0003186036600000082
n为原始样本集中样本对数量最多的类别被采样出的样本对数量;而在第二次及其之后执行的迭代操作中,按照ρi与已执行的迭代次数呈负相关关系调整ρi。也就是说,随着迭代的次次增加(第1次、第2次、第3次、第4次……),采样比率ρi越来越小,以防止分类模型过拟合的问题。
具体的调整方法,例如可以为
Figure BDA0003186036600000083
其中,ρi,ep为本次(即第ep次)迭代时的采样比率,ρi,ep-1为上一次迭代时的采样比率,ep为当前迭代的次数。当然,还可以采用调整方法,只要保证采用比率随着迭代次数的增加而减小即可。
S1023:将过采样产生的各类样本对与第一样本集中的样本对混合,得到训练样本集。
从该步骤可以看出,本实施例中,训练样本集包括了原始样本集中各个小类别的所有样本,以及过采样所产生的虚拟样本。当然训练样本集中还应包括小类别以外的其他类别的样本,这些样本通常是从原始样本集中抽取得到的。
本说明书实施例还提供了一种分类模型的训练装置,可以用于执行图1所示的分类模型的训练方法。如图4所示,该装置包括获取模块10和迭代模块20。其中,迭代模块20包括过采样子模块21和执行子模块22。执行子模块22又包括预测子模块221、计算子模块222、更新子模块223和参考子模块224。
获取模块10用于获取原始样本集,其中,所述原始样本集包括多个样本对,每个样本对中至少包括:特征数据和类别标记。迭代模块20用于循环执行迭代操作,直至满足预设终止条件。
过采样子模块21用于对所述原始样本集和参考样本集进行过采样,得到训练样本集。执行子模块22用于对所述训练样本集中的各样本对执行操作。
预测子模块221用于将当前样本对的特征数据输入分类模型得到所述当前样本对的预测结果,所述预测结果包括被划分为各类别的概率。计算子模块222用于根据所述当前样本对的类别标记和所述当前样本对被划分为各类别的概率,计算所述分类模型的置信度。更新子模块223用于在所述置信度位于预定范围的情况下,通过所述当前样本对更新所述分类模型的参数。参考子模块224用于在所述置信度位于所述预定范围,并且所述当前样本对的类别标记属于预定类别的情况下,将所述当前样本对作为参考样本对放入参考样本集中;所述预定类别为原始样本集中的占比小于预设阈值的类别。
在一些实施例中,如图5所示,过采样子模块21包括筛选子模块211、采样子模块212和混合子模块213。
筛选子模块211用于筛选出原始样本集中类别标记属于预定类别的所有样本对,并与参考样本集的样本对混合,得到第一样本集。
采样子模块212用于对所述第一样本集中的每一类样本对过采样产生ni·ρi个样本对,其中,ni为所述第一样本集中i类样本的样本对数量,ρi为过采样得到的i类样本对与所述第一样本集中i类样本对的数量的比值。
混合子模块213用于将过采样产生的各类样本对与所述第一样本集中的样本对混合,得到训练样本集。
在一些实施例中,如图5所示,迭代模块20还包括确定子模块23,用于确定
Figure BDA0003186036600000091
n为原始样本集中样本对数量最多的类别被采样出的样本对数量。
在一些实施例中,如图5所示,迭代模块20还包括调整子模块24,用于在第二次及其之后执行的迭代操作中,按照ρi与已执行的迭代次数呈负相关关系调整ρi
在一些实施例中,计算子模块222通过以下公式计算所述分类模型的置信度:σ=yc-maxi≠c{yi},其中,σ为置信度,c为当前样本对的类别标记,yc为当前样本对被划分为c类别的概率,yi为当前样本对被划分为c类以外的其他各个类别的概率。
在一些实施例中,如图6所示,计算子模块222包括第一计算子模块2221、第二计算子模块2222和第三计算子模块2223。
第一计算子模块2221用于根据以下公式计算σ:σ=yc-maxi≠c{yi},其中,c为当前样本对的类别标记,yc为当前样本对被划分为c类别的概率,yi为当前样本对被划分为c类以外的其他各个类别的概率。
第二计算子模块2222用于根据以下公式计算Δ:
Figure BDA0003186036600000101
其中,
Figure BDA0003186036600000102
nc为原始样本集中c类样本对的数量,n为原始样本集中的样本对总数,Z=mini{ri},
Figure BDA0003186036600000103
ni为原始样本集中c类以外的其他类别的样本对数量,i表示c类以外的其他类别。
第三计算子模块2223用于根据以下公式计算p:
Figure BDA0003186036600000104
其中,p为置信度。
本发明实施例还提供了一种电子设备,如图7所示,该电子设备可以包括处理器71和存储器72,其中处理器71和存储器72可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器71可以为中央处理器(Central Processing Unit,CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的分类模型的训练方法对应的程序指令/模块(例如,图4所示的获取模块10和迭代模块20)。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据分类,即实现上述方法实施例中的分类模型的训练方法。
存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器71所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至处理器71。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器72中,当被所述处理器71执行时,执行如图1至图3所示实施例中的分类模型的训练方法。
上述电子设备具体细节可以对应参阅图1至图3的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。
上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式的某些部分的方法。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (11)

1.一种分类模型的训练方法,其特征在于,包括:
获取原始样本集,其中,所述原始样本集包括多个样本对,每个样本对中至少包括:特征数据和类别标记;
循环执行如下迭代操作,直至满足预设终止条件:
对所述原始样本集和参考样本集进行过采样,得到训练样本集;
对所述训练样本集中的各样本对执行如下操作:
将当前样本对的特征数据输入分类模型得到所述当前样本对的预测结果,所述预测结果包括被划分为各类别的概率;
根据所述当前样本对的类别标记和所述当前样本对被划分为各类别的概率,计算所述分类模型的置信度;
在所述置信度位于预定范围的情况下,通过所述当前样本对更新所述分类模型的参数;
在所述置信度位于所述预定范围,并且所述当前样本对的类别标记属于预定类别的情况下,将所述当前样本对作为参考样本对放入参考样本集中;所述预定类别为原始样本集中的占比小于预设阈值的类别。
2.根据权利要求1所述的方法,其特征在于,所述预设终止条件包括以下至少之一:
循环执行的次数达到预先设置的迭代次数、没有样本对放入参考样本集中。
3.根据权利要求1所述的方法,其特征在于,所述对所述原始样本集和参考样本集进行过采样,得到训练样本集,包括:
筛选出原始样本集中类别标记属于预定类别的所有样本对,并与参考样本集的样本对混合,得到第一样本集;
对所述第一样本集中的每一类样本对过采样产生ni·ρi个样本对,其中,ni为所述第一样本集中i类样本的样本对数量,ρi为过采样得到的i类样本对与所述第一样本集中i类样本对的数量的比值;
将过采样产生的各类样本对与所述第一样本集中的样本对混合,得到训练样本集。
4.根据权利要求3所述的方法,其特征在于,还包括:
确定
Figure FDA0003186036590000011
n为原始样本集中样本对数量最多的类别被采样出的样本对数量。
5.根据权利要求3所述的方法,其特征在于,还包括:
在第二次及其之后执行的迭代操作中,按照ρi与已执行的迭代次数呈负相关关系调整ρi
6.根据权利要求1所述的方法,其特征在于,通过以下公式计算所述分类模型的置信度:
σ=yc-maxi≠c{yi},其中,σ为置信度,c为当前样本对的类别标记,yc为当前样本对被划分为c类别的概率,yi为当前样本对被划分为c类以外的其他各个类别的概率。
7.根据权利要求1所述的方法,其特征在于,通过以下步骤计算所述分类模型的置信度:
根据以下公式计算σ:σ=yc-maxi≠c{yi},其中,c为当前样本对的类别标记,yc为当前样本对被划分为c类别的概率,yi为当前样本对被划分为c类以外的其他各个类别的概率;
根据以下公式计算Δ:
Figure FDA0003186036590000021
其中,
Figure FDA0003186036590000022
nc为原始样本集中c类样本对的数量,n为原始样本集中的样本对总数,Z=mini{ri},
Figure FDA0003186036590000023
ni为原始样本集中c类以外的其他类别的样本对数量,i表示c类以外的其他类别;
根据以下公式计算p:
Figure FDA0003186036590000024
其中,p为置信度。
8.一种分类模型的训练装置,其特征在于,包括:
获取模块,用于获取原始样本集,其中,所述原始样本集包括多个样本对,每个样本对中至少包括:特征数据和类别标记;
迭代模块,用于循环执行迭代操作,直至满足预设终止条件;所述迭代模块包括:
过采样子模块,用于对所述原始样本集和参考样本集进行过采样,得到训练样本集;
执行子模块,用于对所述训练样本集中的各样本对执行操作;所述执行子模块包括:
预测子模块,用于将当前样本对的特征数据输入分类模型得到所述当前样本对的预测结果,所述预测结果包括被划分为各类别的概率;
计算子模块,用于根据所述当前样本对的类别标记和所述当前样本对被划分为各类别的概率,计算所述分类模型的置信度;
更新子模块,用于在所述置信度位于预定范围的情况下,通过所述当前样本对更新所述分类模型的参数;
参考子模块,用于在所述置信度位于所述预定范围,并且所述当前样本对的类别标记属于预定类别的情况下,将所述当前样本对作为参考样本对放入参考样本集中;所述预定类别为原始样本集中的占比小于预设阈值的类别。
9.根据权利要求8所述的装置,其特征在于,所述计算子模块包括:
第一计算子模块,用于根据以下公式计算σ:σ=yc-maxi≠c{yi},其中,c为当前样本对的类别标记,yc为当前样本对被划分为c类别的概率,yi为当前样本对被划分为c类以外的其他各个类别的概率;
第二计算子模块,用于根据以下公式计算Δ:
Figure FDA0003186036590000031
其中,
Figure FDA0003186036590000032
nc为原始样本集中c类样本对的数量,n为原始样本集中的样本对总数,Z=mini{ri},
Figure FDA0003186036590000033
ni为原始样本集中c类以外的其他类别的样本对数量,i表示c类以外的其他类别;
第三计算子模块,用于根据以下公式计算p:
Figure FDA0003186036590000034
10.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器和所述存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而实现权利要求1至7任一项所述方法的步骤。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现权利要求1至7任一项所述方法的步骤。
CN202110861834.1A 2021-07-29 2021-07-29 分类模型的训练方法、装置及电子设备 Pending CN113569953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110861834.1A CN113569953A (zh) 2021-07-29 2021-07-29 分类模型的训练方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110861834.1A CN113569953A (zh) 2021-07-29 2021-07-29 分类模型的训练方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN113569953A true CN113569953A (zh) 2021-10-29

Family

ID=78168772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110861834.1A Pending CN113569953A (zh) 2021-07-29 2021-07-29 分类模型的训练方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113569953A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114740751A (zh) * 2022-06-15 2022-07-12 新缪斯(深圳)音乐科技产业发展有限公司 基于人工智能的音乐场景识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114740751A (zh) * 2022-06-15 2022-07-12 新缪斯(深圳)音乐科技产业发展有限公司 基于人工智能的音乐场景识别方法及系统
CN114740751B (zh) * 2022-06-15 2022-09-02 新缪斯(深圳)音乐科技产业发展有限公司 基于人工智能的音乐场景识别方法及系统

Similar Documents

Publication Publication Date Title
CN111274134A (zh) 基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质
US10430536B1 (en) Method and apparatus for yield calculation using statistical timing data that accounts for path and stage delay correlation
CN110674188A (zh) 一种特征提取方法、装置及设备
CN111639470B (zh) 一种处理器协同芯片的仿真测试方法、系统及相关组件
CN110909775A (zh) 一种数据处理方法、装置及电子设备
CN112966113A (zh) 一种数据的风险防控方法、装置及设备
CN113158189A (zh) 一种恶意软件分析报告生成方法、装置、设备和介质
CN114358216B (zh) 基于机器学习框架的量子聚类方法及相关装置
CN113778864A (zh) 一种测试用例的生成方法和装置、电子设备和存储介质
CN112181430A (zh) 代码变更统计方法、装置、电子设备及存储介质
CN111522736A (zh) 一种软件缺陷预测方法、装置、电子设备及计算机存储介质
CN113569953A (zh) 分类模型的训练方法、装置及电子设备
CN114443483A (zh) 人工智能系统的测试方法、装置、电子设备及介质
CN110795736A (zh) 一种基于svm决策树的恶意安卓软件检测方法
US20190236353A1 (en) Information processing method and information processing system
CN116403019A (zh) 遥感图像量子识别方法、装置、存储介质及电子装置
CN115422000A (zh) 异常日志处理方法及装置
CN111385342B (zh) 一种物联网行业识别方法、装置、电子设备及存储介质
CN114428720A (zh) 基于p-k的软件缺陷预测方法、装置、电子设备及介质
CN111914868A (zh) 模型训练方法、异常数据检测方法、装置和电子设备
CN111242195A (zh) 模型、保险风控模型训练方法、装置及电子设备
CN111612023A (zh) 一种分类模型构建方法及装置
CN112784420B (zh) 一种风控策略的仿真评估方法、装置及设备
US11526606B1 (en) Configuring machine learning model thresholds in models using imbalanced data sets
CN114429220A (zh) 模型在线更新方法、装置、设备、存储介质和计算机产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination