CN114549897A - 一种分类模型的训练方法、装置及存储介质 - Google Patents

一种分类模型的训练方法、装置及存储介质 Download PDF

Info

Publication number
CN114549897A
CN114549897A CN202210137261.2A CN202210137261A CN114549897A CN 114549897 A CN114549897 A CN 114549897A CN 202210137261 A CN202210137261 A CN 202210137261A CN 114549897 A CN114549897 A CN 114549897A
Authority
CN
China
Prior art keywords
classification
training
classification model
rate
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210137261.2A
Other languages
English (en)
Inventor
陈静静
吴睿振
张永兴
张旭
王凛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Original Assignee
Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd filed Critical Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority to CN202210137261.2A priority Critical patent/CN114549897A/zh
Publication of CN114549897A publication Critical patent/CN114549897A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种分类模型的训练方法、装置及存储介质,方法包括:对获得的样本数据进行分类标记以获得标记样本,计算每类标记样本的实际观测率;将标记样本划分为训练集和测试集;选取初始分类模型,通过训练集训练获得第一分类模型;通过测试集测试第一分类模型获得每个测试样本的概率,并与预设的分类阈值进行比较以确定第一预测标记;根据测试样本的概率计算第一预测标记所属分类的预测几率;将预测几率与对应的实际观测率进行比较以确定第二预测标记;根据第二预测标记统计测试样本的精确率和回归率,并以此进行评估和迭代训练。本发明通过增加对分类阈值的缩放来平衡各分类样本的精确率和召回率,有效缓解了样本不均衡所带来的负面影响。

Description

一种分类模型的训练方法、装置及存储介质
技术领域
本发明涉及模型训练技术领域,尤其涉及一种分类模型的训练方法、装置及存储介质。
背景技术
目前的分类算法中普遍存在类别不平衡问题。类别不平衡问题是指分类任务中不同类别的训练样本数目差别很大的情况。一般来说,不平衡样本会导致训练模型的测量结果偏向样本数目较多的类别,从而可能导致样本数目较少的类别被忽略,进而导致训练获得的模型的泛化能力受到影响。例如,在二分类模型训练过程中,假设训练集中有99个负例样本,1个正例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃预样本为正例样本情况,并将所述输入样本都分类为负例样本,因为,此时对样本总体预测的准确率达到99%。对负例样本的精准率高达99%、召回率为100%。然而对于正例样本,精准率为NAN,召回率为0(即完全不会有样本被预测分类为正例样本)。
然而,正例样本才是我们所关注的样本,但是因为正负例样本的不均衡,使得模型过分侧重负例样本,这样导致模型的预测分类结果并不是我们想看到的,因此需要解决类似这种正负例样本不均衡所导致的问题。
发明内容
为了解决上述问题,在本发明的一个方面,提出了一种分类模型的训练方法,所述方法包括:获取样本数据,对所述样本数据进分类标记以获得标记样本,并计算每类标记样本的实际观测率;将所述标记样本按照预设策略划分为训练集和测试集;由预设的模型库中选取初始分类模型,并通过所述训练集训练所述初始分类模型,获得第一分类模型;通过所述测试集对所述第一分类模型进行测试,获得每个测试样本的概率,并与预设的分类阈值进行比较以确定所述测试样本的第一预测标记;根据所述测试样本的概率计算所述第一预测标记所属分类的预测几率;将所述预测几率与对应的实际观测率进行比较以确定所述测试样本的第二预测标记;根据所述第二预测标记统计所述测试样本的精确率和回归率以对所述第一分类模型进行评估,并根据评估结果对所述第一分类模型进行迭代训练,直至迭代模型的评估结果满足预设要求,输出对应的迭代模型。
在一个或多个实施例中,所述计算每类标记样本的实际观测率,包括:分别统计每类标记样本的数量记作分类样本总数;以所述样本数据的总数减去所述分类样本总数获得剩余分类样本总数;以所述分类样本总数除以所述剩余分类样本总数,获得对应标记样本所属分类的实际观测率。
在一个或多个实施例中,所述将所述标记样本按照预设策略划分为训练集和测试集,包括:使得属于不同分类的标记样本均匀的划分到所述训练集和所述测试集中。
在一个或多个实施例中,所述模型库中包含多种分类模型,所述多种分类模型包括采用不同框架或具有不同分类指标的多个分类模型。
在一个或多个实施例中,所述根据所述测试样本的概率计算所述第一预测标记所属分类的预测几率包括采用以下公式计算:预测几率=测试样本的概率/(1-测试样本的概率)。
在一个或多个实施例中,所述将所述预测几率与对应的实际观测率进行比较以确定所述测试样本的第二预测标记,包括:响应于对应测试样本的预测几率大于对应的实际观测率,将所述对应测试样本标记为正例样本;响应于对应测试样本的预测几率小于等于对应的实际观测率,将所述对应测试样本标记为负例样本。
在一个或多个实施例中,所述根据所述第二预测标记统计所述测试样本的精确率和回归率以对所述第一分类模型进行评估,并根据评估结果对所述第一分类模型进行迭代训练,包括:判断所述精确率和所述回归率是否满足预设要求;响应于所述精确率和所述回归率不满足预设要求,从预设的指标库中选取适合所述训练样本的新指标加入所述第一分类模型;对所述第一分类模型进行迭代训练获得迭代模型,并判断所述迭代模型的精确率和回归率是否满足预设要求。
在一个或多个实施例中,所述方法还包括:响应于所述指标库中的新指标均无法使得对应的迭代模型的精确率和回归率满足预设要求,从所述模型库中选取新的分类模型并通过所述训练集训练所述新的分类模型,获得第一分类模型,并基于所述第一分类模型进行迭代训练。
在本发明的第二方面,提出了一种分类模型的训练装置,包括:至少一个处理器;以及存储器,所述存储器中存储有可执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于实现如上述任一实施例中的分类模型的训练方法的步骤。
在本发明的第三方面,提出了一种可读存储介质,所述存储介质中存储有可执行的计算机程序,所述计算机程序在被执行时用于实现如上述任一实施例中的分类模型的训练方法的步骤。
本发明的有益效果包括:通过本发明提出的训练方法获得的分类模型能够使得样本量多的一方精确率提高但召回率降低,使得样本量少的一方精确率降低但召回率提高,从而达到缓解样本不均衡所带来的负面影响的技术效果;并且本发明提出的训练方法可以直接利用现有的分类模型,在现有分类模型的预测基础上,增加与预设的实际观测率的比较以对分类阈值进行缩放,因此几乎适用所有的分类算法,进而具有适用范围广、简单易操作的等优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的分类模型的训练方法的工作流程图;
图2为本发明的分类模型的训练方法的过程示意图;
图3为本发明的分类模型的训练装置的结构示意图;
图4为本发明的一种可读存储介质的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
为了解决不平衡样本会导致训练模型的测量结果偏向样本数目较多的类别的问题。在本发明的第一方面,提出了一种分类模型的训练方法,通过本发明提出的训练方法获得的分类模型能够使得样本量多的一方精确率提高但召回率降低,使得样本量少的一方精确率降低但召回率提高,从而达到缓解样本不均衡所带来的负面影响的技术效果。
图1为本发明的分类模型的训练方法的工作流程图。如图1所示,本发明的分类模型的训练方法的工作流程包括:步骤S1、获取样本数据,对样本数据进分类标记以获得标记样本,并计算每类标记样本的实际观测率;步骤S2、将标记样本按照预设策略划分为训练集和测试集;步骤S3、由预设的模型库中选取初始分类模型,并通过训练集训练初始分类模型,获得第一分类模型;步骤S4、通过测试集对第一分类模型进行测试,获得每个测试样本的概率,并与预设的分类阈值进行比较以确定测试样本的第一预测标记;步骤S5、根据测试样本的概率计算第一预测标记所属分类的预测几率;步骤S6、将预测几率与对应的实际观测率进行比较以确定该测试样本的第二预测标记;步骤S7、根据第二预测标记统计测试样本的精确率和回归率以对第一分类模型进行评估,并根据评估结果对第一分类模型进行迭代训练,直至迭代模型的评估结果满足预设要求,输出对应的迭代模型。
在上述实施例中,在训练模型阶段仍然使用原始训练集及预设分类阈值对模型的分类器进行训练;而在模型评估阶段和预测阶段,加入阈值缩放的概念,动态的对分类器的阈值进行放大或缩小,从而大大缓解了类别不平衡所造成的负面影响。本发明提出的模型训练方法不用改变算法模型本身架构,只需对模型的预测结果进行修正,提高了方法的泛化能力,且具有简单易操作的优点。
具体的,本发明通过在模型训练过程中利用步骤S6对分类模型的预测标记进行进一步修正,使得最终输出的预测结果表现为样本量多的一方精确率提高但召回率降低,样本量少的一方精确率降低但召回率提高,从而有效保证了正例样的回收率。更具体的来说,本发明通过牺牲某一类分类样本的精确率的方式提高了该类分类样本的回收率,避免了数量较少的分类样本容易被忽略的问题。
在进一步的实施例中,步骤S1中的计算每类标记样本的实际观测率,包括:分别统计每类标记样本的数量记作分类样本总数;以样本数据的总数减去分类样本总数获得剩余分类样本总数;以分类样本总数除以剩余分类样本总数,获得对应标记样本所属分类的实际观测率。在本实施例中,分类或者说标记样本至少为2种;获得的分类样本总数为具有同一标记的标记样本的数量;获得的剩余分类样本总数为除具有同一标记的标记样本的数据之外其它标记样本的总数量。
更具体的,以二分类样本为例,假设训练集中共有训练样本100个,其中,正例样本为20个,负例样本为80个,则正例样本相对于负例样本的观测率为25%。可以理解的是,当分类模型能够正确分类正例样本和负例样本的情况下,预测标记为正的概率应为预测标记为负的概率的25%。
在进一步的实施例中,步骤S2中的将标记样本按照预设策略划分为训练集和测试集,包括:使得属于不同分类的标记样本均匀的划分到训练集和测试集中。在一个可选实施例中,可以采用对各分类样本按比例分配到训练集和测试集中。
在进一步的实施例中,模型库中包含多种分类模型,所述多种分类模型包括采用不同框架或具有不同分类指标的多个分类模型。更具体的,采用不同框架即采用不同分类算法,其即可以是单一算法也可以是集成算法。其中,单一的分类算法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类算法的集成学习算法,如Bagging和Boosting等。
具体的,决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。主要的决策树算法有ID3、 C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。
贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(Tree Augmented Naive Bayes)算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。
人工神经网络(Artificial Neural Networks,ANN)是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中,大量的节点(或称”神经元”,或”单元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。目前,神经网络已有上百种不同的模型,常见的有BP网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络)等。但是当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。
k-近邻(kNN,k-Nearest Neighbors)算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为那一类。k-近邻方法是一种懒惰学习方法,它存放样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的计算开销,因此无法应用到实时性很强的场合。
支持向量机(SVM,Support Vector Machine)是Vapnik根据统计学习理论提出的一种新的学习方法[43],它的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。对于分类问题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。
关联规则挖掘是数据挖掘中一个重要的研究领域。近年来,对于如何将关联规则挖掘用于分类问题,学者们进行了广泛的研究。关联分类方法挖掘形如condset→C的规则,其中condset是项(或属性-值对)的集合,而C 是类标号,这种形式的规则称为类关联规则(class association rules,CARS)。关联分类方法一般由两步组成:第一步用关联规则挖掘算法从训练数据集中挖掘出所有满足指定支持度和置信度的类关联规则;第二步使用启发式方法从挖掘出的类关联规则中挑选出一组高质量的规则用于分类。属于关联分类的算法主要包括CBA[44],ADT[45],CMAR[46]等。
实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。因此,学者们对多种分类方法的融合即集成学习进行了广泛的研究。集成学习已成为国际机器学习界的研究热点,并被称为当前机器学习四个主要研究方向之一。
集成学习是一种机器学习范式,它试图通过连续调用单个的学习算法,获得不同的基学习器,然后根据规则组合这些学习器来解决同一个问题,可以显著的提高学习系统的泛化能力。组合多个基学习器主要采用(加权) 投票的方法,常见的算法有装袋[47](Bagging),提升/推进[48,49] (Boosting)等。
在进一步的实施例中,步骤S5中的根据测试样本的概率计算第一预测标记所属分类的预测几率包括采用以下公式计算:
预测几率=测试样本的概率/(1-测试样本的概率)。
其中,测试样本的概率是由分类模型预测给出的,因此,本实施例中的预测几率实际上相当于基于分类模型的预测概率而计算获得的预测观测率。
在进一步的实施例中,将预测几率与对应的实际观测率进行比较以确定测试样本的第二预测标记,包括:响应于对应测试样本的预测几率大于对应的实际观测率,将对应测试样本标记为正例样本;响应于对应测试样本的预测几率小于等于对应的实际观测率,将对应测试样本标记为负例样本。上述判断过程用公式表示如下:
Figure BDA0003504829910000081
为了更加清楚的说明确定第二预测标记的作用,需要与第一预测标记的确定过程进行对比,其中,第一预测标记的确定过程如下:
在二分类中,假设y是判断为正类的概率,那么1-y是判断为负类的概率,label表示样本的标签,1表示为正类,0表示为负类,则有如下表达式:
Figure BDA0003504829910000091
公式(2)的等价表达式为:
Figure BDA0003504829910000092
由上述公式(1)和公式(3)的对比可以看出,当正例样本的样本量大于负例样本的样本量时,即n+>n-时,公式(1)右侧的分类阈值将大于 1,即样本被判断为1的条件相比于公式(3)提高了,进而导致被判断为1 的样本将会减少,被判断为0的样本将会增多。这样将会进一步使得label 为1的精确率提高,但是召回率降低,label为0的精确率降低,但是召回率提高;反之,当正例样本的样本量小于负例样本的样本量时,即n+<n-时,公式(1)右侧的分类阈值将小于1,即样本被判断为1的条件相比于公式 (3)降低了,进而导致被判断为1的样本将会增加,被判断为0的样本将会减少。这样将会进一步使得label为0的精确率提高,但是召回率降低, label为1的精确率降低,但是召回率增加。即在本发明方法中实现了根据分类样本在全部样本中所占的比例实现了对分类阈值的缩放。其完整过程如图2所示,可以分为三个阶段:预处理阶段、模型训练阶段即模型评估阶段。图2为本发明的分类模型的训练方法的过程示意图。其中,预处理阶段主要工作包括对样本数据的标记,以及确定训练集和测试集;模型训练阶段主要工作包括利用训练集训练模型;模型评估阶段主要工作包括利用评价指标对分类模型进行评估,例如,根据预设的精确率及回归率评估分类模型;以及模型选择,即当评估分类模型不符合要求时选取新的分类指标或新的分类模型;以及交叉验证,即将对测试集中对应测试样本的分类标记与该测试样本经过阈值缩放后预测获得的预测标记进行对比。
在进一步的实施例中,根据第二预测标记统计测试样本的精确率和回归率以对第一分类模型进行评估,并根据评估结果对第一分类模型进行迭代训练,包括:判断精确率和回归率是否满足预设要求;响应于精确率和回归率不满足预设要求,从预设的指标库中选取适合训练样本的新指标加入所述第一分类模型;对第一分类模型进行迭代训练获得迭代模型,并判断迭代模型的精确率和回归率是否满足预设要求。所述方法还包括:响应于指标库中的新指标均无法使得对应的迭代模型的精确率和回归率是否满足预设要求,从模型库中选取新的分类模型并通过训练集训练该新的分类模型,获得第一分类模型,并基于该第一分类模型进行迭代训练。
在上述迭代训练过程中,当某一迭代分类模型的精确率和回归率满足预设要求,输出该迭代分类模型。通过上述迭代训练获得的分类模型能够较好的平衡精确率和回归率,从而保证正例样本的回归率,能够有效避免当正例样本数量较少时容易被忽视的问题。
需说明的是,本发明方法可用于二分类模型的训练,获得的分类模型用于解决二分类问题,但并不排除用于解决具有两种以上分类的场景,在一个可选的实施例中,可以通过对具有两种以上分类的场景拆分为多个二分类问题,通过多个连续的二分类模型来解决。以下通过二分类场景来说明正例样本和负例样本的含义:
二分类问题就是简单的“是”与“否”的问题。例如,在垃圾邮件的分类问题就是二分类问题中,是垃圾邮件就是“是”,不是垃圾邮件就是“否”。而正例和负例的情况如下表1所示:
表1正例、负例的情况示例
Figure BDA0003504829910000101
如上述表1所示,如果设女生为所需要关注的样本,那么无论是被检测到,即被正确判断为女生的样本,还是那些未被检测到的,即实际为女生但被误预测为男生的样本都是所需要关注的样本,上述两种情况所对应的样本都应为正例样本;相对的,当被检测到,即正确判断为男生的样本,以及那些实际为男生但被误预测为女生的样本都应为负例样本。
以下将对本文中涉及的两个术语“精准率”和“召回率”进行简单说明:
精准率:(Precision),又称查准率。即正确预测为正的占全部预测为正的比例。用公式表示为:
Figure BDA0003504829910000111
召回率:(Recall),又称查全率。即正确预测为正的占全部实际为正的比例。用公式表示为:
Figure BDA0003504829910000112
其中,TP、FP及FN的含义如表1所示。
在本发明的第二方面,提出了一种分类模型的训练装置。图3为本发明的分类模型的训练装置的结构示意图,如图3所示,本发明的分类模型的训练装置300包括:至少一个处理器301;以及存储器302,存储器中存储有可执行的计算机程序,该计算机程序在被至少一个处理器执行时用于实现如上述各实施例中的分类模型的训练方法的步骤。
通过本发明提出的训练装置获得的分类模型能够使得样本量多的一方精确率提高但召回率降低,使得样本量少的一方精确率降低但召回率提高,从而达到缓解样本不均衡所带来的影响的技术效果;并且本发明提出的训练装置可以直接兼容现有的算法模型,只是在预测时根据预设的观测率对分类阈值进行缩放即可,提高了模型的泛化能力,具有简单易操作的优点。
在本发明的第三方面,提出了一种可读存储介质。图4为本发明的一种可读存储介质的示意图。如图4所示,本发明的可续存储介质400中存储有可执行的计算机程序401,计算机程序401在被执行时用于实现如上述各实施例中的分类模型的训练方法的步骤。其中,上述可读存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等中的任意一种,本发明对比不进行限制。上述计算机程序401在被执行时,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种分类模型的训练方法,其特征在于,所述方法包括:
获取样本数据,对所述样本数据进分类标记以获得标记样本,并计算每类标记样本的实际观测率;
将所述标记样本按照预设策略划分为训练集和测试集;
由预设的模型库中选取初始分类模型,并通过所述训练集训练所述初始分类模型,获得第一分类模型;
通过所述测试集对所述第一分类模型进行测试,获得每个测试样本的概率,并与预设的分类阈值进行比较以确定所述测试样本的第一预测标记;
根据所述测试样本的概率计算所述第一预测标记所属分类的预测几率;
将所述预测几率与对应的实际观测率进行比较以确定所述测试样本的第二预测标记;
根据所述第二预测标记统计所述测试样本的精确率和回归率以对所述第一分类模型进行评估,并根据评估结果对所述第一分类模型进行迭代训练,直至迭代模型的评估结果满足预设要求,输出对应的迭代模型。
2.根据权利要求1所述的分类模型的训练方法,其特征在于,所述计算每类标记样本的实际观测率,包括:
分别统计每类标记样本的数量记作分类样本总数;
以所述样本数据的总数减去所述分类样本总数获得剩余分类样本总数;
以所述分类样本总数除以所述剩余分类样本总数,获得对应标记样本所属分类的实际观测率。
3.根据权利要求1所述的分类模型的训练方法,其特征在于,所述将所述标记样本按照预设策略划分为训练集和测试集,包括:
使得属于不同分类的标记样本均匀的划分到所述训练集和所述测试集中。
4.根据权利要求1所述的分类模型的训练方法,其特征在于,所述模型库中包含多种分类模型,所述多种分类模型包括采用不同框架或具有不同分类指标的多个分类模型。
5.根据权利要求1所述的分类模型的训练方法,其特征在于,所述根据所述测试样本的概率计算所述第一预测标记所属分类的预测几率包括采用以下公式计算:
预测几率=测试样本的概率/(1-测试样本的概率)。
6.根据权利要求1所述的分类模型的训练方法,其特征在于,所述将所述预测几率与对应的实际观测率进行比较以确定所述测试样本的第二预测标记,包括:
响应于对应测试样本的预测几率大于对应的实际观测率,将所述对应测试样本标记为正例样本;
响应于对应测试样本的预测几率小于等于对应的实际观测率,将所述对应测试样本标记为负例样本。
7.根据权利要求1所述的分类模型的训练方法,其特征在于,所述根据所述第二预测标记统计所述测试样本的精确率和回归率以对所述第一分类模型进行评估,并根据评估结果对所述第一分类模型进行迭代训练,包括:
判断所述精确率和所述回归率是否满足预设要求;
响应于所述精确率和所述回归率不满足预设要求,从预设的指标库中选取适合所述训练样本的新指标加入所述第一分类模型;
对所述第一分类模型进行迭代训练获得迭代模型,并判断所述迭代模型的精确率和回归率是否满足预设要求。
8.根据权利要求7所述的分类模型的训练方法,其特征在于,所述方法还包括:
响应于所述指标库中的新指标均无法使得对应的迭代模型的精确率和回归率满足预设要求,从所述模型库中选取新的分类模型并通过所述训练集训练所述新的分类模型,获得第一分类模型,并基于所述第一分类模型进行迭代训练。
9.一种分类模型的训练装置,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器中存储有可执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于实现如上述权利要求1-8任意一项所述的分类模型的训练方法的步骤。
10.一种可读存储介质,其特征在于,所述存储介质中存储有可执行的计算机程序,所述计算机程序在被执行时用于实现如上述权利要求1-8任意一项所述的分类模型的训练方法的步骤。
CN202210137261.2A 2022-02-15 2022-02-15 一种分类模型的训练方法、装置及存储介质 Pending CN114549897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210137261.2A CN114549897A (zh) 2022-02-15 2022-02-15 一种分类模型的训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210137261.2A CN114549897A (zh) 2022-02-15 2022-02-15 一种分类模型的训练方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114549897A true CN114549897A (zh) 2022-05-27

Family

ID=81675138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210137261.2A Pending CN114549897A (zh) 2022-02-15 2022-02-15 一种分类模型的训练方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114549897A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034317A (zh) * 2022-06-17 2022-09-09 中国平安人寿保险股份有限公司 保单识别模型的训练方法和装置、保单识别方法和装置
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034317A (zh) * 2022-06-17 2022-09-09 中国平安人寿保险股份有限公司 保单识别模型的训练方法和装置、保单识别方法和装置
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质
CN115774854B (zh) * 2023-01-30 2023-06-02 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Chen et al. Why is my classifier discriminatory?
Fernández-Navarro et al. A dynamic over-sampling procedure based on sensitivity for multi-class problems
Li et al. Hierarchical rough decision theoretic framework for text classification
Fakhraei et al. Bias and stability of single variable classifiers for feature ranking and selection
CN114549897A (zh) 一种分类模型的训练方法、装置及存储介质
Casalino et al. Incremental adaptive semi-supervised fuzzy clustering for data stream classification
Sun et al. Two-stage cost-sensitive learning for data streams with concept drift and class imbalance
CN112001788A (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN109800782A (zh) 一种基于模糊knn算法的电网故障检测方法及装置
Ali et al. Fake accounts detection on social media using stack ensemble system
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Jivani The novel k nearest neighbor algorithm
Zhao et al. Safe semi-supervised classification algorithm combined with active learning sampling strategy
Liu et al. A weight-incorporated similarity-based clustering ensemble method
Tamrakar et al. Integration of lazy learning associative classification with kNN algorithm
CN115688097A (zh) 一种基于改进遗传算法特征选择的工控系统入侵检测方法
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
Steyn et al. A nearest neighbor open-set classifier based on excesses of distance ratios
Zhou et al. Difficult Novel Class Detection in Semisupervised Streaming Data
Kong et al. The risk prediction of mobile user tricking account overdraft limit based on fusion model of logistic and GBDT
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质
Xiao et al. Cost-sensitive semi-supervised ensemble model for customer churn prediction
Nirmalraj et al. Sparrow Search Optimization with Ensemble of Machine Learning Model for Customer Retention Prediction and Classification
Wang et al. Fault prediction method of access control terminal based on euclidean distance center smote method
Shiuh et al. Prediction of Thyroid Disease using Machine Learning Approaches and Featurewiz Selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination