CN116484280A - 对象分类模型的训练方法、对象分类方法及装置 - Google Patents
对象分类模型的训练方法、对象分类方法及装置 Download PDFInfo
- Publication number
- CN116484280A CN116484280A CN202310449518.2A CN202310449518A CN116484280A CN 116484280 A CN116484280 A CN 116484280A CN 202310449518 A CN202310449518 A CN 202310449518A CN 116484280 A CN116484280 A CN 116484280A
- Authority
- CN
- China
- Prior art keywords
- classification
- base classifier
- sample
- training
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 196
- 238000012549 training Methods 0.000 title claims abstract description 194
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种对象分类模型的训练方法、对象分类方法、装置、计算机设备、存储介质和计算机程序产品,涉及机器学习技术领域。可用于金融科技领域或其他相关领域。所述方法包括:获取用于训练对象分类模型的训练样本集;从多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;根据基分类器对应的目标对象特征,得到基分类器针对训练样本集的第一预测分类结果;基于各个基分类器的第一预测分类结果,得到对象分类模型的第一分类误差率;当第一分类误差率未达到预设条件时,添加新的基分类器并继续训练,直至新的第一分类误差率达到预设条件,得到训练完成的对象分类模型。采用本方法能够提高对象分类模型的分类能力。
Description
技术领域
本申请涉及机器学习技术领域,特别是涉及一种对象分类模型的训练方法、对象分类方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
在机器学习领域中,对象分类是一种常见的任务,其目的是将一个未知的对象划分到已知的不同类别中。对象分类模型是用来执行该任务的一种常见的机器学习模型。目前,对象分类模型已被应用于不同的领域和场景。例如,在金融领域,对优质客户的评定也是一种对象分类任务,其通过对象分类模型确定客户的类型,从而实现对优质客户的评定。
然而,在不同应用场景下,都需要构建并训练一个新的对象分类模型。传统的方法在选取特征以构建并训练对象分类模型时,通常需要大量的人工干预和专业知识,导致效率低下;若减少人工干预以提高效率又会存在模型性能较差的问题,进而影响对象分类模型的应用效果。
发明内容
基于此,有必要针对上述分类模型构建效果差的技术问题,提供一种对象分类模型的训练方法、对象分类方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种对象分类模型的训练方法。所述方法包括:
获取用于训练对象分类模型的训练样本集;所述对象分类模型中包含多个基分类器;所述训练样本集包括多个样本对象,每个样本对象对应有多个对象特征;
从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;
针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果;
基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率;
当所述第一分类误差率未达到预设条件时,添加新的基分类器,并确定所述新的基分类器对应的新的目标对象特征,将所述各个样本对象在所述新的目标对象特征下的特征值,输入所述新的基分类器得到所述新的基分类器对应的第一预测分类结果,基于所述新的基分类器和所述各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至所述新的第一分类误差率达到所述预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
在其中一个实施例中,所述从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征,包括:
获取输入各个基分类器的对象特征数目;
根据所述对象特征数目,从所述多个对象特征中,等概率随机选取输入所述各个基分类器的目标对象特征,得到用于训练所述各个基分类器的目标对象特征。
在其中一个实施例中,在所述得到用于训练所述各个基分类器的目标对象特征之后,还包括:
检测所述各个基分类器的目标对象特征之间的相似性;
在任意两个基分类器的目标对象特征中的各个对象特征均相同的情况下,保留其中一个基分类器的目标对象特征,并重新选取另一个基分类器的目标对象特征。
在其中一个实施例中,所述训练样本集中的样本对象还具有类别标签;所述基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率,包括:
获取所述各个基分类器的分类权重;所述分类权重表示所述各个基分类器在所述对象分类模型中的贡献程度;
基于所述各个基分类器对应的所述第一预测分类结果和所述分类权重,得到所述对象分类模型针对所述训练样本集中各个样本对象的第二预测分类结果;
对比所述各个样本对象的第二预测分类结果和所述各个样本对象的类别标签,根据对比结果得到所述对象分类模型的第一分类误差率。
在其中一个实施例中,所述获取所述各个基分类器的分类权重,包括:
获取所述训练样本集中的每个样本对象在训练所述各个基分类器时的样本权重;所述样本权重表示所述每个样本对象在训练过程中的重要程度;
根据所述各个基分类器的第一预测分类结果和所述各个基分类器对应的样本权重,得到所述各个基分类器的第二分类误差率;
根据所述第二分类误差率,确定所述各个基分类器对应的分类权重。
在其中一个实施例中,所述获取所述训练样本集中的每个样本对象在训练所述各个基分类器时的样本权重,包括:
针对首个基分类器,将预设的初始样本权重作为所述首个基分类器对应的样本权重;
针对除所述首个基分类器之外的任一个基分类器,获取所述任一个基分类器的上一个基分类器的第一预测分类结果,根据所述上一个基分类器的第一预测分类结果和所述上一个基分类器对应的样本权重,得到所述任一个基分类器的样本权重。
在其中一个实施例中,所述针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果,包括:
获取已标记样本集,所述已标记样本集中包括多个已标记样本,每个已标记样本具有对应的样本类别;
针对每个样本对象,在所述基分类器对应的目标对象特征所在的特征空间中,从所述已标记样本集中确定出与所述样本对象距离最近的k个已标记样本;
统计所述k个已标记样本中每个样本类别的出现次数,将出现次数最多的样本类别,作为所述样本对象的第一预测分类结果。
第二方面,本申请还提供了一种对象分类方法。所述方法包括:
获取待分类对象的对象特征信息;
将所述对象特征信息输入预先训练好的对象分类模型中,得到所述对象分类模型中各个基分类器的初始分类结果;所述对象分类模型根据如第一方面中任一项所述对象分类模型的训练方法训练得到;
根据所述各个基分类器的初始分类结果,确定所述待分类对象的目标分类结果。
第三方面,本申请还提供了一种金融用户分类方法。所述方法包括:
获取待分类金融用户的用户金融特征和用户基础特征;
将所述用户金融特征和所述用户基础特征输入预先训练好的对象分类模型中,得到所述对象分类模型中各个基分类器的初始分类结果;所述对象分类模型根据如第一方面中任一项所述对象分类模型的训练方法训练得到;
根据所述各个基分类器的初始分类结果,确定所述待分类金融用户的目标分类结果。
第四方面,本申请还提供了一种对象分类模型的训练装置。所述装置包括:
样本获取模块,用于获取用于训练对象分类模型的训练样本集;所述对象分类模型中包含多个基分类器;所述训练样本集包括多个样本对象,每个样本对象对应有多个对象特征;
对象特征确定模块,用于从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;
基分类器分类模块,用于针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果;
误差率确定模块,用于基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率;
模型更新模块,用于在所述第一分类误差率未达到预设条件的情况下,添加新的基分类器,并确定所述新的基分类器对应的新的目标对象特征,将所述各个样本对象在所述新的目标对象特征下的特征值,输入所述新的基分类器得到所述新的基分类器对应的第一预测分类结果,基于所述新的基分类器和所述各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至所述新的第一分类误差率达到所述预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
第五方面,本申请还提供了一种对象分类装置。所述装置包括:
信息获取模块,用于获取待分类对象的对象特征信息;
初始分类模块,用于将所述对象特征信息输入预先训练好的对象分类模型中,得到所述对象分类模型中各个基分类器的初始分类结果;所述对象分类模型根据如第一方面中任一项所述对象分类模型的训练方法训练得到;
目标分类模块,用于根据所述各个基分类器的初始分类结果,确定所述待分类对象的目标分类结果。
第六方面,本申请还提供了一种金融用户分类装置。所述装置包括:
用户特征获取模块,用于获取待分类金融用户的用户金融特征和用户基础特征;
用户初始分类模块,用于将所述用户金融特征和所述用户基础特征输入预先训练好的对象分类模型中,得到所述对象分类模型中各个基分类器的初始分类结果;所述对象分类模型根据如权利要求1至7中任一项所述对象分类模型的训练方法训练得到;
用户目标分类模块,用于根据所述各个基分类器的初始分类结果,确定所述待分类金融用户的目标分类结果。
第七方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用于训练对象分类模型的训练样本集;所述对象分类模型中包含多个基分类器;所述训练样本集包括多个样本对象,每个样本对象对应有多个对象特征;
从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;
针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果;
基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率;
当所述第一分类误差率未达到预设条件时,添加新的基分类器,并确定所述新的基分类器对应的新的目标对象特征,将所述各个样本对象在所述新的目标对象特征下的特征值,输入所述新的基分类器得到所述新的基分类器对应的第一预测分类结果,基于所述新的基分类器和所述各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至所述新的第一分类误差率达到所述预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
第八方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取用于训练对象分类模型的训练样本集;所述对象分类模型中包含多个基分类器;所述训练样本集包括多个样本对象,每个样本对象对应有多个对象特征;
从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;
针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果;
基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率;
当所述第一分类误差率未达到预设条件时,添加新的基分类器,并确定所述新的基分类器对应的新的目标对象特征,将所述各个样本对象在所述新的目标对象特征下的特征值,输入所述新的基分类器得到所述新的基分类器对应的第一预测分类结果,基于所述新的基分类器和所述各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至所述新的第一分类误差率达到所述预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
第九方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取用于训练对象分类模型的训练样本集;所述对象分类模型中包含多个基分类器;所述训练样本集包括多个样本对象,每个样本对象对应有多个对象特征;
从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;
针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果;
基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率;
当所述第一分类误差率未达到预设条件时,添加新的基分类器,并确定所述新的基分类器对应的新的目标对象特征,将所述各个样本对象在所述新的目标对象特征下的特征值,输入所述新的基分类器得到所述新的基分类器对应的第一预测分类结果,基于所述新的基分类器和所述各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至所述新的第一分类误差率达到所述预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
上述对象分类模型的训练方法、对象分类方法、装置、计算机设备、存储介质和计算机程序产品,首先获取用于训练对象分类模型的训练样本集;对象分类模型中包含多个基分类器;训练样本集包括多个样本对象,每个样本对象对应有多个对象特征,并从多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征,使得每个基分类器专注于不同的特征,降低基分类器之间的相关性;然后,针对每个基分类器,将训练样本集中的各个样本对象在基分类器对应的目标对象特征下的特征值,输入基分类器中,得到基分类器针对训练样本集中各个样本对象的第一预测分类结果,基于各个基分类器对应的第一预测分类结果,得到对象分类模型的第一分类误差率,通过集成学习算法,组合多个基分类器,提高对象分类模型的准确性和稳定性;另外,当第一分类误差率未达到预设条件时,添加新的基分类器,并确定新的基分类器对应的新的目标对象特征,将各个样本对象在新的目标对象特征下的特征值,输入新的基分类器得到新的基分类器对应的第一预测分类结果,基于新的基分类器和各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至新的第一分类误差率达到预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型,采用不断添加基分类器的迭代方式,不断提高基分类器的多样性,进而提高对象分类模型的分类能力。上述对象分类模型的训练方法,采用集成学习算法来组合多个基分类器以提高对象分类模型的准确性和稳定性;并且通过给各个基分类器选择对应的目标对象特征,降低基分类器之间的相关性,可以更好地避免对象分类模型发生过拟合现象;最后通过添加基分类器的迭代方式,提高基分类器的多样性,进而提高对象分类模型的分类能力和泛化能力。
附图说明
图1为一个实施例中对象分类模型的训练方法的流程示意图;
图2为一个实施例中确定目标对象特征步骤的流程示意图;
图3为另一个实施例中对象分类模型的训练方法的流程示意图;
图4为一个实施例中对象分类方法的流程示意图;
图5为一个实施例中金融用户分类方法的流程示意图;
图6为一个实施例中对象分类模型的训练装置的结构框图;
图7为一个实施例中对象分类装置的结构框图;
图8为一个实施例中金融用户分类装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种对象分类模型的训练方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S101,获取用于训练对象分类模型的训练样本集;对象分类模型中包含多个基分类器;训练样本集包括多个样本对象,每个样本对象对应有多个对象特征。
其中,对象特征可以是对象的原始数据的特征,也可以是对原始数据的特征经过主成分分析法得到的主成分特征。
示例性地,获取用于训练对象分类模型的训练样本集,训练样本集中包括了多个样本对象,每个样本对象的类别都是已知的,可用于在训练过程中计算对象分类模型的误差率。每个样本对象具有对应的多个对象特征,对象特征为在分类过程中输入对象分类模型的信息。对象分类模型为集成学习Adaboost算法模型,因此,对象分类模型中包含多个基分类器,基分类器可以是最邻近节点算法、决策树算法或支持向量机算法等。
步骤S102,从多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征。
示例性地,在多个对象特征中,等概率随机选取出用于训练各个基分类器的目标对象特征,即每个基分类器在训练或应用时,所采用的对象特征均不相同。另外,对于每个基分类器所采用的对象特征数量,可以相同也可以不同,具体可以由用户根据实际情况设置。
步骤S103,针对每个基分类器,将训练样本集中的各个样本对象在基分类器对应的目标对象特征下的特征值,输入基分类器中,得到基分类器针对训练样本集中各个样本对象的第一预测分类结果。
示例性地,对于某个基分类器,确定出对应的目标对象特征之后,则将训练样本集中各个样本对象在目标对象特征下的特征值,输入这个基分类器中;基分类器基于自身的算法模型对特征值进行处理,得到这个基分类器对训练样本集中各个样本对象的第一预测分类结果。
步骤S104,基于各个基分类器对应的第一预测分类结果,得到对象分类模型的第一分类误差率。
示例性地,在Adaboost算法模型中,在得到各个基分类器对应的第一预测分类结果后,采用加权投票的方式对全部第一预测分类结果进行处理,得到对象分类模型的预测分类结果。训练样本集中的样本对象的类别都是已知的,根据已知的样本对象的类别和对象分类模型的预测分类结果,得到对象分类模型的第一分类误差率。
步骤S105,当第一分类误差率未达到预设条件时,添加新的基分类器,并确定新的基分类器对应的新的目标对象特征,将各个样本对象在新的目标对象特征下的特征值,输入新的基分类器得到新的基分类器对应的第一预测分类结果,基于新的基分类器和各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至新的第一分类误差率达到预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
示例性地,针对于对象分类模型的训练调优,将对象分类模型的第一分类误差率作为判断基准,当第一分类误差率未达到用户需求的目标时,则继续添加新的基分类器并确定对应的目标对象特征,然后获取新的基分类器对训练样本集中各个样本对象的第一预测分类结果,接着基于新的基分类器和其他各个基分类器的第一预测分类结果,得到对象分类模型的新的第一分类误差率,当新的第一分类误差率达到用户需求的目标时,则确定对象分类模型训练完毕,并根据训练完毕时的基分类器得到训练完成的对象分类模型。进一步地,用户需要设定在对象分类模型中基分类器的初始数目,即在训练开始时,对象分类模型中至少已经包含初始数目的基分类器。另外,在其他示例中,对象分类模型的训练完成条件可以是用户预设的迭代次数,当训练迭代达到迭代次数时确定对象分类模型训练完成,此示例的训练方式中的训练时间是可预测的。
上述对象分类模型的训练方法中,首先获取用于训练对象分类模型的训练样本集;对象分类模型中包含多个基分类器;训练样本集包括多个样本对象,每个样本对象对应有多个对象特征,并从多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征,使得每个基分类器专注于不同的特征,降低基分类器之间的相关性;然后,针对每个基分类器,将训练样本集中的各个样本对象在基分类器对应的目标对象特征下的特征值,输入基分类器中,得到基分类器针对训练样本集中各个样本对象的第一预测分类结果,基于各个基分类器对应的第一预测分类结果,得到对象分类模型的第一分类误差率,通过集成学习算法,组合多个基分类器,提高对象分类模型的准确性和稳定性;另外,当第一分类误差率未达到预设条件时,添加新的基分类器,并确定新的基分类器对应的新的目标对象特征,将各个样本对象在新的目标对象特征下的特征值,输入新的基分类器得到新的基分类器对应的第一预测分类结果,基于新的基分类器和各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至新的第一分类误差率达到预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型,采用不断添加基分类器的迭代方式,不断提高基分类器的多样性,进而提高对象分类模型的分类能力。上述对象分类模型的训练方法,采用集成学习算法来组合多个基分类器以提高对象分类模型的准确性和稳定性;并且通过给各个基分类器选择对应的目标对象特征,降低基分类器之间的相关性,可以更好地避免对象分类模型发生过拟合现象;最后通过添加基分类器的迭代方式,提高基分类器的多样性,进而提高对象分类模型的分类能力和泛化能力。
在一个实施例中,如图2所示,上述步骤S102从多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征,还可以通过以下步骤实现:
步骤S201,获取输入各个基分类器的对象特征数目;
步骤S202,根据对象特征数目,从多个对象特征中,等概率随机选取输入各个基分类器的目标对象特征,得到用于训练各个基分类器的目标对象特征。
示例性地,各个基分类器的对象特征数目可以相同也可以不相同,获取用户预设的关于各个基分类器的对象特征数目;然后对于每个基分类器,均从所有对象特征中,等概率随机地选取对应数目的目标对象特征,作为训练对应基分类器的目标对象特征。例如,当对象特征为原始数据的特征时,每个基分类器的对象特征数目可以预设为相同的;当对象特征为原始数据的特征经过主成分分析法得到的主成分特征时,每个基分类器的对象特征数目可以预设为不同的,进一步地,对于训练刚开始时的基分类器的对象特征数目需要用户提前设定,相应地,训练过程中添加的基分类器的对象特征数目可以是递增的或递减的。
本实施例中,通过给基分类器设定对象特征数目,然后每个基分类器均随机选取目标对象特征,能够有效减少基分类器之间的相关性,提高对象分类模型的多样性,进而提高对象分类模型的准确性和稳定性。
在一个实施例中,在上述步骤S202得到用于训练各个基分类器的目标对象特征之后,还包括:检测各个基分类器的目标对象特征之间的相似性;在任意两个基分类器的目标对象特征中的各个对象特征均相同的情况下,保留其中一个基分类器的目标对象特征,并重新选取另一个基分类器的目标对象特征。
示例性地,在筛选出各个基分类器的目标对象特征之后,还需要检测各个基分类器之间的目标对象特征是否相同,如果有任意两个基分类器的目标对象特征均相同,则保留其中一个基分类器的目标对象特征,并重新选取另一个基分类器的目标对象特征,避免出现两个具有相同目标对象特征的基分类器、造成冗余从而浪费计算资源。进一步地,在训练过程中添加了新的基分类器,并确定新的基分类器的目标对象特征后,也需要检测新的基分类器的目标对象特征是否和其他基分类器的重复,若是,则需要重新确定新的基分类器的目标对象特征。
本实施例中,通过检测各个基分类器的目标对象特征之间的相似性,避免出现具有相同目标对象特征的基分类器,减少冗余、避免浪费计算资源,提高对象分类模型的计算效率。
在一个实施例中,训练样本集中的样本对象还具有类别标签,上述步骤S104基于各个基分类器对应的第一预测分类结果,得到对象分类模型的第一分类误差率,还包括:获取各个基分类器的分类权重;分类权重表示各个基分类器在对象分类模型中的贡献程度;基于各个基分类器对应的第一预测分类结果和分类权重,得到对象分类模型针对训练样本集中各个样本对象的第二预测分类结果;对比各个样本对象的第二预测分类结果和各个样本对象的类别标签,根据对比结果得到对象分类模型的第一分类误差率。
示例性地,获取各个基分类器在各自的训练过程中确定的分类权重,分类权重表示各个基分类器在对象分类模型中的贡献程度,即训练过程中分类准确率更高的基分类器具有更高的分类权重。在得到各个基分类器对应的第一预测分类结果后,采用加权投票的方式对全部第一预测分类结果进行处理,得到对象分类模型的预测分类结果。训练样本集中的样本对象的类别都是已知的(由类别标签记录),对比已知的样本对象的类别和对象分类模型的预测分类结果,得到对象分类模型的第一分类误差率。例如,两个基分类器对样本对象A的第一预测分类结果分别是1和-1,分类权重分别是0.7和0.3,则加权投票的结果为(0.7*1-0.3*1)=0.4,更接近于1,因此对象分类模型对样本对象A的第二预测分类结果为1,同时样本对象A的已知类别为1,则对象分类模型对样本对象A分类正确;类似地,确定对象分类模型对训练样本集中全部样本对象的分类结果,进而计算出第一分类误差率。
本实施例中,通过各个基分类器的分类权重来确定对象分类模型的第二预测分类结果和第一分类误差率,以分类权重反映出各个基分类器在训练中的表现好坏,从而可以得到更准确的第二预测分类结果。
在一个实施例中,上述获取各个基分类器的分类权重,还包括:获取训练样本集中的每个样本对象在训练各个基分类器时的样本权重;样本权重表示每个样本对象在训练过程中的重要程度;根据各个基分类器的第一预测分类结果和各个基分类器对应的样本权重,得到各个基分类器的第二分类误差率;根据第二分类误差率,确定各个基分类器对应的分类权重。
示例性地,获取训练样本集中每个样本对象在训练各个基分类器时的样本权重,样本权重表示每个样本对象在训练过程中的重要程度。若某个样本对象对训练基分类器具有更重要的意义,则提高此样本对象的样本权重,使得在训练时更关注此样本对象。在得到各个基分类器的第一预测分类结果后,基于样本权重来计算各个基分类器的第二分类误差率,若对样本权重高的样本对象分类错误时,第二分类误差率相应地会更高。根据各个基分类器的第二分类误差率,将表现更好的基分类器赋予更高的分类权重,表现更差的基分类器赋予更低的分类权重。
本实施例中,通过分类权重反映出各个基分类器在训练中的表现好坏,可以提高对象分类模型泛化能力,以及使得在后续进行加权投票时,得到更准确的分类结果。
在一个实施例中,进一步地,上述获取训练样本集中的每个样本对象在训练各个基分类器时的样本权重,还包括:针对首个基分类器,将预设的初始样本权重作为首个基分类器对应的样本权重;针对除首个基分类器之外的任一个基分类器,获取任一个基分类器的上一个基分类器的第一预测分类结果,根据上一个基分类器的第一预测分类结果和上一个基分类器对应的样本权重,得到任一个基分类器的样本权重。
示例性地,每个基分类器是串行连接的,对于首个基分类器,其计算第二分类误差率时的样本权重为用户预设的初始样本权重,每个样本对象的初始样本权重通常都是相等的,具体为1/N(N为样本对象数目)。对于除首个基分类器之外的人一个基分类器,根据上一个基分类器的第一预测分类结果和上一个基分类器对应的样本权重,调整样本权重,得到当前基分类器的样本权重,具体为:当上一个基分类器对某样本对象分类正确时,相应地就降低此样本对象对于当前基分类器的样本权重,当上一个基分类器对某样本对象分类错误时,就提高此样本对象对于当前基分类器的样本权重。
上述实施例中,通过上一个基分类器的第一预测分类结果,调整下一基分类器对应的样本权重,强化易错样本的作用、减少简单样本的影响,使得基分类器更关注于易错样本,从而提高整体模型的分类准确率和泛化能力。
在一个实施例中,上述步骤S103针对每个基分类器,将训练样本集中的各个样本对象在基分类器对应的目标对象特征下的特征值,输入基分类器中,得到基分类器针对训练样本集中各个样本对象的第一预测分类结果,还包括:获取已标记样本集,已标记样本集中包括多个已标记样本,每个已标记样本具有对应的样本类别;针对每个样本对象,在基分类器对应的目标对象特征所在的特征空间中,从已标记样本集中确定出与样本对象距离最近的k个已标记样本;统计k个已标记样本中每个样本类别的出现次数,将出现次数最多的样本类别,作为样本对象的第一预测分类结果。
示例性地,每个基分类器可以采用相同的算法模型,也可以采用不同的算法模型,在本实施例中,每个基分类器均采用KNN算法(K-NearestNeighbor,K最邻近算法)模型。KNN算法是一种非参数、惰性算法。它是一种基于实例的学习方法,根据待分类样本与已标记样本之间的距离来进行分类或回归。由于它没有对数据分布做出假设,因此被称为“非参数”算法。同时,KNN算法不需要显式地训练模型,而是将所有已标记样本存储在内存中,并在分类时进行计算,因此被称为“惰性”算法。获取已标记样本集,针对每个样本对象,在当前基分类器对应的目标对象特征所在的特征空间中,从已标记样本集中确定出与样本对象距离最近的k个已标记样本,以k个已标记样本所属样本类别中出现次数最多的样本类别,作为当前基分类器对此样本对象的第一预测分类结果。
本实施例中,将模型简单、易于实现和灵活多用的KNN算法模型作为基分类器,可以提高对象分类模型在样本分布复杂、类别不平衡时的鲁棒性,且能够减少对象分类模型中每个基分类器的训练时间,提高对象分类模型的训练效率。
在另一个实施例中,如图3所示,提供了一种对象分类模型的训练方法,包括以下步骤:
步骤S301,获取用于训练对象分类模型的训练样本集;对象分类模型中包含多个基分类器;训练样本集包括多个样本对象,每个样本对象对应有多个对象特征,每个样本对象具有类别标签。
步骤S302,获取输入各个基分类器的对象特征数目;根据对象特征数目,从多个对象特征中,等概率随机选取输入各个基分类器的目标对象特征,得到用于训练各个基分类器的目标对象特征。
步骤S303,检测各个基分类器的目标对象特征之间的相似性;在任意两个基分类器的目标对象特征中的各个对象特征均相同的情况下,保留其中一个基分类器的目标对象特征,并重新选取另一个基分类器的目标对象特征。
步骤S304,针对每个基分类器,将训练样本集中的各个样本对象在基分类器对应的目标对象特征下的特征值,输入基分类器中,得到基分类器针对训练样本集中各个样本对象的第一预测分类结果。
步骤S305,针对首个基分类器,将预设的初始样本权重作为训练样本集中的每个样本对象在训练首个基分类器对应的样本权重。
步骤S306,针对除首个基分类器之外的任一个基分类器,获取任一个基分类器的上一个基分类器的第一预测分类结果,根据上一个基分类器的第一预测分类结果和上一个基分类器对应的样本权重,得到训练样本集中的每个样本对象在训练任一个基分类器的样本权重。
步骤S307,根据各个基分类器的第一预测分类结果和各个基分类器对应的样本权重,得到各个基分类器的第二分类误差率。
步骤S308,根据第二分类误差率,确定各个基分类器对应的分类权重;基于各个基分类器对应的第一预测分类结果和分类权重,得到对象分类模型针对训练样本集中各个样本对象的第二预测分类结果。
步骤S309,对比各个样本对象的第二预测分类结果和各个样本对象的类别标签,根据对比结果得到对象分类模型的第一分类误差率。
步骤S310,当第一分类误差率未达到预设条件时,添加新的基分类器,并确定新的基分类器对应的新的目标对象特征,将各个样本对象在新的目标对象特征下的特征值,输入新的基分类器得到新的基分类器对应的第一预测分类结果,基于新的基分类器和各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至新的第一分类误差率达到预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
其中,步骤S304具体还可以通过以下步骤实现:
步骤S3041,获取已标记样本集,已标记样本集中包括多个已标记样本,每个已标记样本具有对应的样本类别;
步骤S3042,针对每个样本对象,在基分类器对应的目标对象特征所在的特征空间中,从已标记样本集中确定出与样本对象距离最近的k个已标记样本;
步骤S3043,统计k个已标记样本中每个样本类别的出现次数,将出现次数最多的样本类别,作为样本对象的第一预测分类结果。
本实施例中,采用集成学习算法来组合多个基分类器以提高对象分类模型的准确性和稳定性;并且通过给各个基分类器选择对应的目标对象特征,降低基分类器之间的相关性,可以更好地避免对象分类模型发生过拟合现象;最后通过添加基分类器的迭代方式,提高基分类器的多样性,进而提高对象分类模型的分类能力和泛化能力。
在一个实施例中,为了便于本领域技术人员理解本申请实施例,以下将结合具体示例进行说明。其中,本申请中的对象分类模型的训练方法可以应用于金融领域中,具体为金融领域中客户分类模型的训练场景,类别可以分为优质客户和非优质客户,对象特征包含金融资产(如定期存款)、个人负债(如信用卡透支)、中间业务(如投资理财)、结算类(如异地汇款)、卡消费、个人工作稳定性、可支配收入、征信记录和名下固定资产等。
示例性地,训练样本集中包含N个样本对象,每个样本对象的初始样本权重均设定为wi 1=1/N,其中i为第i个样本对象。
第m个基分类器的第二分类误差率em可以通过以下公式计算:
其中,wi m表示第m个基分类器对应的第i个样本对象的样本权重;I表示指示函数,当Gm(xi)≠yi成立时,I为1,否则为0;Gm(xi)表示第m个基分类器对第i个样本对象的分类结果,包括1和-1,分别表示优质客户和非优质客户;yi表示第i个样本对象的类别标签记录的类别。
第m个基分类器的分类权重αm可以通过以下公式计算:
第m+1个基分类器对应的第i个样本对象的样本权重wi m+1可以通过以下公式计算:
其中,exp()为以自然常数e为底的指数函数。
最后的对象分类模型G(x)可以表示为:
其中,sign()为符号函数,当自变量大于0则返回1,小于0则返回-1,等于0则返回0。M为对象分类模型中基分类器的总数。
本实施例中,通过能够自适应提升的集成学习算法模型帮助金融领域进行客户对象的分类,能够有效提高分类的准确性和效率,以帮助用户更好地分析客户对象。
在一个实施例中,如图4所示,提供了一种对象分类方法,该方法包括以下步骤:
步骤S401,获取待分类对象的对象特征信息;
步骤S402,将对象特征信息输入预先训练好的对象分类模型中,得到对象分类模型中各个基分类器的初始分类结果;
步骤S403,根据各个基分类器的初始分类结果,确定待分类对象的目标分类结果。
示例性地,获取待分类对象的对象标识,然后查询数据库获取待分类对象的对象特征信息,对象特征信息可以是原始数据的特征或者通过主成分分析法得到的主成分特征。将对象特征信息输入到预先训练完成的对象分类模型中,对象分类模型为集成学习算法模型,其中包含多个基分类器。在对象分类模型中,待分类对象的对象特征信息可以同时输入各个基分类器中,各个基分类器基于各自对应的目标对象特征,获取相应的目标对象特征信息,得到各个基分类器针对待分类对象的初始分类结果;然后基于各个基分类器的分类权重,根据初始分类结果得到对象分类模型针对待分类对象输出的目标分类结果。
需要说明的是,本对象分类方法可以应用于金融领域中,进一步地,可以应用于金融领域中客户对象的分类场景,具体类别可以是优质客户和非优质客户等。
本实施例中,通过预先训练好的对象分类模型对对象进行分类处理,其中对象分类模型为集成学习算法模型,并且其中的基分类器采用不用的目标对象特征,可以得到更准确的分类结果;同时。在进行分类运算时各基分类器可以并行运算以提高分类效率。
在一个实施例中,如图5所示,提供了一种金融用户分类方法,该方法包括以下步骤:
步骤S501,获取待分类金融用户的用户金融特征和用户基础特征;
步骤S502,将用户金融特征和用户基础特征输入预先训练好的对象分类模型中,得到对象分类模型中各个基分类器的初始分类结果;
步骤S503,根据各个基分类器的初始分类结果,确定待分类金融用户的目标分类结果。
示例性地,获取待分类金融用户的用户金融特征和用户基础特征,其中用户金融特征包括金融资产(如定期存款)、个人负债(如信用卡透支)、中间业务(如投资理财)、结算类(如异地汇款)、卡消费、可支配收入、征信记录和名下固定资产等,用户基础特征包括:年龄、社保缴纳信息、工作稳定性、工龄和工作地点等;以金融用户作为一种对象,将用户金融特征和用户基础特征输入预先训练好的对象分类模型中,对象分类模型为集成学习算法模型,其中包含多个基分类器;然后基于各个基分类器的分类权重,根据各个基分类器对应的初始分类结果得到对象分类模型针对待分类金融用户输出的目标分类结果。进一步地,金融用户的分类结果可以包括多种类别,例如,在金融用户的优质评定中,可以得到多种等级的分类结果,每种等级代表金融用户的优质程度。
本实施例中,通过能够自适应提升的集成学习算法模型帮助金融领域进行金融用户的分类,能够有效提高分类的准确性和效率,从而更好地分析金融用户。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的对象分类模型的训练方法的对象分类模型的训练装置、用于实现上述所涉及的对象分类方法的对象分类装置,以及用于实现上述所涉及的金融用户分类方法的金融用户分类装置。这三个装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个装置实施例中的具体限定可以参见上文中对应方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种对象分类模型的训练装置,包括:样本获取模块601、对象特征确定模块602、基分类器分类模块603、误差率确定模块604和模型更新模块605,其中:
样本获取模块601,用于获取用于训练对象分类模型的训练样本集;对象分类模型中包含多个基分类器;训练样本集包括多个样本对象,每个样本对象对应有多个对象特征;
对象特征确定模块602,用于从多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;
基分类器分类模块603,用于针对每个基分类器,将训练样本集中的各个样本对象在基分类器对应的目标对象特征下的特征值,输入基分类器中,得到基分类器针对训练样本集中各个样本对象的第一预测分类结果;
误差率确定模块604,用于基于各个基分类器对应的第一预测分类结果,得到对象分类模型的第一分类误差率;
模型更新模块605,用于在第一分类误差率未达到预设条件的情况下,添加新的基分类器,并确定新的基分类器对应的新的目标对象特征,将各个样本对象在新的目标对象特征下的特征值,输入新的基分类器得到新的基分类器对应的第一预测分类结果,基于新的基分类器和各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至新的第一分类误差率达到预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
在一个实施例中,上述对象特征确定模块602,还用于获取输入各个基分类器的对象特征数目;根据对象特征数目,从多个对象特征中,等概率随机选取输入各个基分类器的目标对象特征,得到用于训练各个基分类器的目标对象特征。
在一个实施例中,上述对象特征确定模块602,还用于检测各个基分类器的目标对象特征之间的相似性;在任意两个基分类器的目标对象特征中的各个对象特征均相同的情况下,保留其中一个基分类器的目标对象特征,并重新选取另一个基分类器的目标对象特征。
在一个实施例中,训练样本集中的样本对象还具有类别标签,上述误差率确定模块604,还用于获取各个基分类器的分类权重;分类权重表示各个基分类器在对象分类模型中的贡献程度;基于各个基分类器对应的第一预测分类结果和分类权重,得到对象分类模型针对训练样本集中各个样本对象的第二预测分类结果;对比各个样本对象的第二预测分类结果和各个样本对象的类别标签,根据对比结果得到对象分类模型的第一分类误差率。
在一个实施例中,上述误差率确定模块604,还用于获取训练样本集中的每个样本对象在训练各个基分类器时的样本权重;样本权重表示每个样本对象在训练过程中的重要程度;根据各个基分类器的第一预测分类结果和各个基分类器对应的样本权重,得到各个基分类器的第二分类误差率;根据第二分类误差率,确定各个基分类器对应的分类权重。
在一个实施例中,上述误差率确定模块604,还用于针对首个基分类器,将预设的初始样本权重作为首个基分类器对应的样本权重;针对除首个基分类器之外的任一个基分类器,获取任一个基分类器的上一个基分类器的第一预测分类结果,根据上一个基分类器的第一预测分类结果和上一个基分类器对应的样本权重,得到任一个基分类器的样本权重。
在一个实施例中,上述基分类器分类模块603,还用于获取已标记样本集,已标记样本集中包括多个已标记样本,每个已标记样本具有对应的样本类别;针对每个样本对象,在基分类器对应的目标对象特征所在的特征空间中,从已标记样本集中确定出与样本对象距离最近的k个已标记样本;统计k个已标记样本中每个样本类别的出现次数,将出现次数最多的样本类别,作为样本对象的第一预测分类结果。
在一个实施例中,如图7所示,提供了一种对象分类装置,包括:信息获取模块701、初始分类模块702和目标分类模块703,其中:
信息获取模块701,用于获取待分类对象的对象特征信息;
初始分类模块702,用于将对象特征信息输入预先训练好的对象分类模型中,得到对象分类模型中各个基分类器的初始分类结果;
目标分类模块703,用于根据各个基分类器的初始分类结果,确定待分类对象的目标分类结果。
在一个实施例中,如图8所示,提供了一种金融用户分类装置,包括:用户特征获取模块801、用户初始分类模块802和用户目标分类模块803,其中:
用户特征获取模块801,用于获取待分类金融用户的用户金融特征和用户基础特征;
用户初始分类模块802,用于将用户金融特征和用户基础特征输入预先训练好的对象分类模型中,得到对象分类模型中各个基分类器的初始分类结果;
用户目标分类模块803,用于根据各个基分类器的初始分类结果,确定待分类金融用户的目标分类结果。
上述对象分类模型的训练装置、对象分类装置以及金融用户分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本集等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象分类模型的训练方法、一种对象分类方法以及一种金融用户分类方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种对象分类模型的训练方法,其特征在于,所述方法包括:
获取用于训练对象分类模型的训练样本集;所述对象分类模型中包含多个基分类器;所述训练样本集包括多个样本对象,每个样本对象对应有多个对象特征;
从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;
针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果;
基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率;
当所述第一分类误差率未达到预设条件时,添加新的基分类器,并确定所述新的基分类器对应的新的目标对象特征,将所述各个样本对象在所述新的目标对象特征下的特征值,输入所述新的基分类器得到所述新的基分类器对应的第一预测分类结果,基于所述新的基分类器和所述各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至所述新的第一分类误差率达到所述预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
2.根据权利要求1所述的方法,其特征在于,所述从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征,包括:
获取输入各个基分类器的对象特征数目;
根据所述对象特征数目,从所述多个对象特征中,等概率随机选取输入所述各个基分类器的目标对象特征,得到用于训练所述各个基分类器的目标对象特征。
3.根据权利要求2所述的方法,其特征在于,在所述得到用于训练所述各个基分类器的目标对象特征之后,还包括:
检测所述各个基分类器的目标对象特征之间的相似性;
在任意两个基分类器的目标对象特征中的各个对象特征均相同的情况下,保留其中一个基分类器的目标对象特征,并重新选取另一个基分类器的目标对象特征。
4.根据权利要求1所述的方法,其特征在于,所述训练样本集中的样本对象还具有类别标签;所述基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率,包括:
获取所述各个基分类器的分类权重;所述分类权重表示所述各个基分类器在所述对象分类模型中的贡献程度;
基于所述各个基分类器对应的所述第一预测分类结果和所述分类权重,得到所述对象分类模型针对所述训练样本集中各个样本对象的第二预测分类结果;
对比所述各个样本对象的第二预测分类结果和所述各个样本对象的类别标签,根据对比结果得到所述对象分类模型的第一分类误差率。
5.根据权利要求4所述的方法,其特征在于,所述获取所述各个基分类器的分类权重,包括:
获取所述训练样本集中的每个样本对象在训练所述各个基分类器时的样本权重;所述样本权重表示所述每个样本对象在训练过程中的重要程度;
根据所述各个基分类器的第一预测分类结果和所述各个基分类器对应的样本权重,得到所述各个基分类器的第二分类误差率;
根据所述第二分类误差率,确定所述各个基分类器对应的分类权重。
6.根据权利要求5所述的方法,其特征在于,所述获取所述训练样本集中的每个样本对象在训练所述各个基分类器时的样本权重,包括:
针对首个基分类器,将预设的初始样本权重作为所述首个基分类器对应的样本权重;
针对除所述首个基分类器之外的任一个基分类器,获取所述任一个基分类器的上一个基分类器的第一预测分类结果,根据所述上一个基分类器的第一预测分类结果和所述上一个基分类器对应的样本权重,得到所述任一个基分类器的样本权重。
7.根据权利要求1所述的方法,其特征在于,所述针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果,包括:
获取已标记样本集,所述已标记样本集中包括多个已标记样本,每个已标记样本具有对应的样本类别;
针对每个样本对象,在所述基分类器对应的目标对象特征所在的特征空间中,从所述已标记样本集中确定出与所述样本对象距离最近的k个已标记样本;
统计所述k个已标记样本中每个样本类别的出现次数,将出现次数最多的样本类别,作为所述样本对象的第一预测分类结果。
8.一种对象分类方法,其特征在于,所述方法包括:
获取待分类对象的对象特征信息;
将所述对象特征信息输入预先训练好的对象分类模型中,得到所述对象分类模型中各个基分类器的初始分类结果;所述对象分类模型根据如权利要求1至7中任一项所述对象分类模型的训练方法训练得到;
根据所述各个基分类器的初始分类结果,确定所述待分类对象的目标分类结果。
9.一种金融用户分类方法,其特征在于,所述方法包括:
获取待分类金融用户的用户金融特征和用户基础特征;
将所述用户金融特征和所述用户基础特征输入预先训练好的对象分类模型中,得到所述对象分类模型中各个基分类器的初始分类结果;所述对象分类模型根据如权利要求1至7中任一项所述对象分类模型的训练方法训练得到;
根据所述各个基分类器的初始分类结果,确定所述待分类金融用户的目标分类结果。
10.一种对象分类模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取用于训练对象分类模型的训练样本集;所述对象分类模型中包含多个基分类器;所述训练样本集包括多个样本对象,每个样本对象对应有多个对象特征;
对象特征确定模块,用于从所述多个对象特征中,分别确定出用于训练各个基分类器的目标对象特征;
基分类器分类模块,用于针对每个基分类器,将所述训练样本集中的各个样本对象在所述基分类器对应的目标对象特征下的特征值,输入所述基分类器中,得到所述基分类器针对所述训练样本集中各个样本对象的第一预测分类结果;
误差率确定模块,用于基于所述各个基分类器对应的第一预测分类结果,得到所述对象分类模型的第一分类误差率;
模型更新模块,用于在所述第一分类误差率未达到预设条件的情况下,添加新的基分类器,并确定所述新的基分类器对应的新的目标对象特征,将所述各个样本对象在所述新的目标对象特征下的特征值,输入所述新的基分类器得到所述新的基分类器对应的第一预测分类结果,基于所述新的基分类器和所述各个基分类器的第一预测分类结果,得到新的第一分类误差率,直至所述新的第一分类误差率达到所述预设条件,基于达到预设条件时的基分类器,得到训练完成的对象分类模型。
11.一种对象分类装置,其特征在于,所述装置包括:
信息获取模块,用于获取待分类对象的对象特征信息;
初始分类模块,用于将所述对象特征信息输入预先训练好的对象分类模型中,得到所述对象分类模型中各个基分类器的初始分类结果;所述对象分类模型根据如权利要求1至7中任一项所述对象分类模型的训练方法训练得到;
目标分类模块,用于根据所述各个基分类器的初始分类结果,确定所述待分类对象的目标分类结果。
12.一种金融用户分类装置,其特征在于,所述装置包括:
用户特征获取模块,用于获取待分类金融用户的用户金融特征和用户基础特征;
用户初始分类模块,用于将所述用户金融特征和所述用户基础特征输入预先训练好的对象分类模型中,得到所述对象分类模型中各个基分类器的初始分类结果;所述对象分类模型根据如权利要求1至7中任一项所述对象分类模型的训练方法训练得到;
用户目标分类模块,用于根据所述各个基分类器的初始分类结果,确定所述待分类金融用户的目标分类结果。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310449518.2A CN116484280A (zh) | 2023-04-24 | 2023-04-24 | 对象分类模型的训练方法、对象分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310449518.2A CN116484280A (zh) | 2023-04-24 | 2023-04-24 | 对象分类模型的训练方法、对象分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484280A true CN116484280A (zh) | 2023-07-25 |
Family
ID=87215186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310449518.2A Pending CN116484280A (zh) | 2023-04-24 | 2023-04-24 | 对象分类模型的训练方法、对象分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484280A (zh) |
-
2023
- 2023-04-24 CN CN202310449518.2A patent/CN116484280A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200210899A1 (en) | Machine learning model training method and device, and electronic device | |
WO2018192348A1 (zh) | 数据处理方法、装置及服务器 | |
US20210406693A1 (en) | Data sample analysis in a dataset for a machine learning model | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
CN113762579A (zh) | 一种模型训练方法、装置、计算机存储介质及设备 | |
CN116993513A (zh) | 金融风控模型解释方法、装置及计算机设备 | |
CN116795990A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108229572B (zh) | 一种参数寻优方法及计算设备 | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 | |
CN115936104A (zh) | 用于训练机器学习模型的方法和装置 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN116484280A (zh) | 对象分类模型的训练方法、对象分类方法及装置 | |
CN114821248A (zh) | 面向点云理解的数据主动筛选标注方法和装置 | |
CN112884028A (zh) | 一种系统资源调整方法、装置及设备 | |
Caplescu et al. | Will they repay their debt? Identification of borrowers likely to be charged off | |
CN112232417A (zh) | 分类方法及装置、存储介质、终端 | |
CN111461420A (zh) | 模型预测结果的解释方法和装置 | |
CN118364317A (zh) | 样本扩充方法、装置、计算机设备和可读存储介质 | |
CN107451662A (zh) | 优化样本向量的方法及装置、计算机设备 | |
US20240104898A1 (en) | Methods and apparatus for incremental learning using stored features | |
CN113989012A (zh) | 不良资产的借款对象人群分类方法及装置、介质、设备 | |
Kraus et al. | Credit scoring optimization using the area under the curve | |
CN117094828A (zh) | 金融产品推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |