CN108615044A - 一种分类模型训练的方法、数据分类的方法及装置 - Google Patents

一种分类模型训练的方法、数据分类的方法及装置 Download PDF

Info

Publication number
CN108615044A
CN108615044A CN201611139498.5A CN201611139498A CN108615044A CN 108615044 A CN108615044 A CN 108615044A CN 201611139498 A CN201611139498 A CN 201611139498A CN 108615044 A CN108615044 A CN 108615044A
Authority
CN
China
Prior art keywords
model
classification
training
residual error
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611139498.5A
Other languages
English (en)
Inventor
尹红军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201611139498.5A priority Critical patent/CN108615044A/zh
Priority to PCT/CN2017/107626 priority patent/WO2018107906A1/zh
Publication of CN108615044A publication Critical patent/CN108615044A/zh
Priority to US16/286,894 priority patent/US11386353B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Abstract

本发明公开了一种分类模型训练的方法,包括:接收用于训练模型的样本,样本包括训练参数和分类目标;使用训练参数对初始分类模型进行分类训练,得到预测结果;根据初始分类模型所包含的梯度损失函数,确定分类目标与预测结果之间的残差,梯度损失函数包括第一类别与第二类别间距的距离因子,第一类别为预测结果所属类别,第二类别为分类目标所属类别;根据残差,对初始分类模型进行修正,得到最终分类模型。本发明实施例还提供相应的数据分类的方法及装置。本发明技术方案通过在初始分类模型的梯度损失函数中引入类别间距的距离因子,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。

Description

一种分类模型训练的方法、数据分类的方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种分类模型训练的方法、数据分类的方法及相应装置。
背景技术
集成树模型Xgboost是根据迭代的决策树(Gradient Boosting Decision Tree,GBDT)原理,基于C++实现的分类集成学习模型,其特点是利用中央处理器(CentralProcessing Unit,CPU)的多线程,实现高精度和快运算速度的分类。
Xgboost虽然分类精度很高,但也会发生分类错误的问题,如:将小学生分类成初中生或者将小学生分类成博士生,都属于分类错误,在模型训练阶段会对分类错误的情况进行代价惩罚,从而逐步提高模型分类的精度。
但是,目前对所有分类错误的情况都给予相同的代价惩罚,不利于快速提高模型的分类精度。
发明内容
为了解决现有技术中分类模型训练不精确,训练速度慢的问题,本发明实施例提供一种分类模型训练的方法,通过在初始分类模型的梯度损失函数中引入类别间距的距离因子,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。本发明实施例还提供了相应的数据分类方法,可以提高数据分类的精确度。本发明实施例还提供了相应的装置。
本发明第一方面提供一种分类模型训练的方法,包括:
接收用于训练模型的样本,所述样本包括训练参数和分类目标;
使用所述训练参数对初始分类模型进行分类训练,得到预测结果;
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
根据所述残差,对所述初始分类模型进行修正,得到最终分类模型。
本发明第二方面提供一种数据分类的方法,包括:
接收待分类数据;
使用分类模型对所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
输出所述分类结果。
本发明第三方面提供一种分类模型训练的装置,包括:
接收单元,用于接收用于训练模型的样本,所述样本包括训练参数和分类目标;
模型训练单元,用于使用所述接收单元接收的所述训练参数对初始分类模型进行分类训练,得到预测结果;
确定单元,用于根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述模型训练单元训练的所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
模型修正单元,用于根据所述确定单元确定的残差,对所述初始分类模型进行修正,得到最终分类模型。
本发明第四方面提供一种数据分类的装置,包括:
接收单元,用于接收待分类数据;
分类单元,用于使用分类模型对所述接收单元接收的所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
输出单元,用于输出所述分类单元分类得到的所述分类结果。
与现有技术中分类模型训练不精确,训练速度慢相比,本发明实施例提供的分类模型训练的方法,通过在初始分类模型的梯度损失函数中引入类别间距的距离因子,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。分类模型的分类精确度提高后,在数据分类时也提高了数据分类的精确度。
附图说明
图1是本发明实施例中分类模型训练的方法的一实施例示意图;
图2是本发明实施例中数据分类的方法的一实施例示意图;
图3是本发明实施例中分类模型训练的装置的一实施例示意图;
图4是本发明实施例中数据分类的装置的一实施例示意图;
图5是本发明实施例中数据分类的装置的另一实施例示意图;
图6是本发明实施例中分类模型训练的装置的另一实施例示意图;
图7是本发明实施例中数据分类的装置的另一实施例示意图。
具体实施方式
本发明实施例提供一种分类模型训练的方法,通过在初始分类模型的梯度损失函数中引入类别间距的距离因子,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。本发明实施例还提供了相应的数据分类方法,可以提高数据分类的精确度。本发明实施例还提供了相应的装置。以下分别进行详细说明。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
分类和回归在数学模型中本质是一样的,区别只是分类处理的是离散数据,回归处理的是连续数据。所以本发明实施例所提供的分类模型实际上是分类回归模型,不限于应用于数据分类,也可以应用于数据回归。
数据分类在多个领域中都有广泛应用,例如:在信息推广方面,可以通过用户在网络中的历史浏览信息,对该用户的学历进行分类,或者年龄进行分类,从而方便为用户推送一些合适该学历或者年龄段的信息,以实现精准推送。
数据分类通常都是使用预先训练好的分类模型,xgboost是目前所使用的分类精度较高的分类模型,xgboost的全称是eXtreme Gradient Boosting。Boosting分类器属于集成学习模型,它基本思想是把成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。这个模型会不断地迭代,每次迭代就生成一颗新的树。xgboost模型在生成每一棵树的时候采用梯度下降的思想,以之前生成的所有树为基础,向着最小化给定目标函数的方向多走一步。
因当前在训练xgboost分类模型时,若分类错误所产生的残差都是相同的,例如:以学历为例,可以将学历分为博士、硕士、本科、大专、高中、初中和小学七个类别。如果将一个小学生的样本分类到初中和将一个小学生的样本分类到博士所产生的残差相等,则不容易确定模型修正的方向。因此,本发明实施例中为解决将样本分到不同类所产生的残差相等,导致分类模型训练速度低下的问题,本发明实施例提供一种分类模型训练的方法,可以快速的训练出高精确度的分类模型。
参阅图1,本发明实施例提供的分类模型训练的方法的一实施例包括:
101、接收用于训练模型的样本,所述样本包括训练参数和分类目标。
训练模型需要大量的样本,每个样本中都要包括用于训练模型的训练参数和分类目标,分类目标就是分类的方向,训练参数就是与分类目标有关联的一系列参数。以训练年龄分类模型为例,训练参数可以喜欢的颜色、运动种类、饮食偏好和着装偏好等种类的参数,分类目标可以为18岁、30岁和50岁等年龄数值。若以学历为例,训练参数可以是读书的类型、参加活动的类型和关注公众号的类型等种类的参数,分类目标可以是博士、硕士、本科、大专、高中、初中和小学。
102、使用所述训练参数对初始分类模型进行分类训练,得到预测结果。
初始分类模型是开发人员预先开发好存入计算机的,在该计算机中输入训练参数,该初始分类模型即可以开始迭代过程。
本发明实施例中,每轮迭代都产生该轮迭代的预测结果,每轮迭代的预测结果都用于优化下一轮迭代。
103、根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别。
本发明实施例中的类别可以用数值标签的形式来表示,例如:以学历为例,学历类别对应的类别标签如下表1所示:
表1:类别标签表
类别 标签
博士 0
硕士 1
本科 2
大专 3
高中 4
初中 5
小学 6
当然,本处表1只是举例说明,学历类别的划分不限于这几种,还可以有幼儿园、博士后和中专等类别,然无论有多少种类别,原理都是相同的,每种类别都会对应有一个标签。
如果训练样本为小学生,那么分类目标则为小学,小学的标签数值为6,若将小学生分类到了博士,那么预测结果为博士,博士的标签数值为0,则小学和博士的距离因子取值为6。若将小学生分类到了初中生,则预测结果为初中,初中的标签数值为5,小学和初中的距离因子取值为1。
104、根据所述残差,对所述初始分类模型进行修正,得到最终分类模型。
与现有技术中分类模型训练不精确,训练速度慢相比,本发明实施例提供的分类模型训练的方法,通过在初始分类模型的梯度损失函数中引入类别之间距离,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。
可选地,所述使用所述训练参数对初始分类模型进行分类训练,得到预测结果,可以包括:
使用所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
对应地,所述根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述预测结果之间的残差,可以包括:
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差;
对应地,所述根据所述残差,对所述初始分类模型进行修正,得到最终分类模型,可以包括:
根据M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
本发明实施例中,每轮迭代都产生该轮迭代的预测结果,例如:该轮为第M轮,则根据第M轮迭代的预测结果与分类目标可以确定第M轮的残差,用第M轮的残差修正第M-1轮的迭代模型,可以实现对分类模型的一次优化,例如:若M=1,则是使用训练参数训练初始分类模型,产生第一轮的预测结果,根据第一轮的预测结果和分类目标确定第一轮的残差,使用第一轮的残差优化该初始分类模型,得到第2轮迭代的分类模型,再执行第2轮的迭代操作。
可选地,所述根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差,包括:
使用如下公式确定所述初始预测结果与所述分类目标之间的残差;
Fk'(xi)=Dyk*Fk(xi)
其中,xi为样本参数,i为大于1的正整数,为分类目标与第k轮预测结果之间的残差,yik为分类目标,pk(xi)为第k轮预测概率函数,Fk(xi)为第k轮预测函数,Dyk为分类目标所属的类别与第k轮预测结果所属类别间距的距离因子,Fk'(xi)为第k轮的修正预测函数,Fl'(xi)为第l轮的修正预测函数,l的取值从1到K,其中,K为样本xi所对应的分类数量。
xgboost分类模型在梯度损失函数中未引入距离因子之前,第k轮预测概率函数以是使用原梯度损失函数为例说明在发生分类错误的情况下的残差计算过程。
还是以表1中的学历分类为例,下面有3个样本,如表2所示:
表2:学历分类样本
样本 label 学历 Xgboost标识label
y1 6 小学 y1=(0,0,0,0,0,0,1)
y2 5 初中 y2=(0,0,0,0,0,1,0)
y3 0 博士 y3=(1,0,0,0,0,0,0)
以对小学生样本y1的预测过程为例:设第k-1棵树模型预测为Fk-1(x)=(0,0,0,0.3,0,0.8,0),当把小学生预测为初中生时,那么第k棵树的残差为:
T arg etk=y1-pk-1
=(0,0,0,0,0,0,1)-(0.12,0.12,0.12,0.16,0.12,0.26,0.12)
=(-0.12,-0.12,-0.12,-0.16,-0.12,-0.26,0.88)
假设Fk-1(x)=(0.8,0,0,0.3,0,0,0),当把小学生预测为博士时,那么第k棵树的残差为:
T arg etk=y1-pk-1
=(0,0,0,0,0,0,1)-(0.26,0.12,0.12,0.16,0.12,0.12,0.12)
=(-0.26,-0.12,-0.12,-0.16,-0.12,-0.12,0.88)
从以上两个结果可以看出,残差中的数值相等,只是在向量中的位置不同。
使用本发明实施例中的梯度函数,小学生预测为初中生时,
所产生的残差为:
T arg etk=y1-pk-1
=(0,0,0,0,0,0,1)-(0.12,0.12,0.12,0.16,0.12,0.26,0.12)
=(-0.12,-0.12,-0.12,-0.16,-0.12,-0.26,0.88)
小学生预测为博士时,
所产生的残差为:
T arg etk=y1-pk-1
=(0,0,0,0,0,0,1)-(0.95,0.008,0.008,0.01,0.008,0.008,0.008)
=(-0.95,-0.008,-0.008,-0.01,-0.12,-0.008,0.92)
本发明上述示例中的Targetk
由以上两个结果的对比可见,本发明实施例中,针对不同的分类错误,所产生的残差不同,这样可以明确修改目标,有利于快速优化分类模型。
本发明实施例针对分类结果有序提供了不同的错误分类代价不同的解决方案,从而整体上提高xgboost分类模型的精度。本技术方案可以用来做有序性分类比如年龄和学历等。
参阅图2,本发明实施例提供的数据分类的方法的一实施例包括:
201、接收待分类数据。
202、使用分类模型对所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别。
203、输出所述分类结果。
与现有技术中分类模型训练不精确,训练速度慢相比,本发明实施例提供的分类模型训练的方法,通过在初始分类模型的梯度损失函数中引入类别之间距离,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。分类模型的分类精确度提高后,也提高了数据分类的精确度。
可选地,所述接收待分类数据之前,所述方法还包括:
接收所述用于训练模型的训练参数和分类目标;
使用所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差;
根据M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
本发明实施例中,每轮迭代都产生该轮迭代的预测结果,例如:该轮为第M轮,则根据第M轮迭代的预测结果与分类目标可以确定第M轮的残差,用第M轮的残差修正第M-1轮的迭代模型,可以实现对分类模型的一次优化,例如:若M=1,则是使用训练参数训练初始分类模型,产生第一轮的预测结果,根据第一轮的预测结果和分类目标确定第一轮的残差,使用第一轮的残差优化该初始分类模型,得到第2轮迭代的分类模型,再执行第2轮的迭代操作。
参阅图3,本发明实施例提供的分类模型训练的装置30的一实施例包括:
接收单元301,用于接收用于训练模型的样本,所述样本包括训练参数和分类目标;
模型训练单元302,用于使用所述接收单元301接收的所述训练参数对初始分类模型进行分类训练,得到预测结果;
确定单元303,用于根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述模型训练单元302训练的所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
模型修正单元304,用于根据所述确定单元303确定的残差,对所述初始分类模型进行修正,得到最终分类模型。
本发明实施例中,接收单元301接收用于训练模型的样本,所述样本包括训练参数和分类目标;模型训练单元302使用所述接收单元301接收的所述训练参数对初始分类模型进行分类训练,得到预测结果;确定单元303根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述模型训练单元302训练的所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;模型修正单元304根据所述确定单元303确定的残差,对所述初始分类模型进行修正,得到最终分类模型。与现有技术中分类模型训练不精确,训练速度慢相比,本发明实施例提供的分类模型训练的装置,通过在初始分类模型的梯度损失函数中引入类别之间距离,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。
可选地,本发明实施例提供的分类模型训练的装置30的另一实施例中,
所述模型训练单元,用于使用所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
所述确定单元,用于根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差;
所述模型修正单元,用于根据M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
可选地,本发明实施例提供的分类模型训练的装置30的另一实施例中,
所述确定单元,用于使用如下公式确定所述初始预测结果与所述分类目标之间的残差;
Fk'(xi)=Dyk*Fk(xi)
其中,xi为样本参数,i为大于1的正整数,为分类目标与第k轮预测结果之间的残差,yik为分类目标,pk(xi)为第k轮预测概率函数,Fk(xi)为第k轮预测函数,Dyk为分类目标所属的类别与第k轮预测结果所属类别间距的距离因子,Fk'(xi)为第k轮的修正预测函数,Fl'(xi)为第l轮的修正预测函数,l的取值从1到K,其中,K为样本xi所对应的分类数量。
本发明实施例提供的分类模型训练的装置可以参阅前述方法部分的描述进行理解,本处不再重复赘述。
参阅图4,本发明实施例提供的数据分类的装置的一实施例包括:
接收单元401,用于接收待分类数据;
分类单元402,用于使用分类模型对所述接收单元401接收的所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
输出单元403,用于输出所述分类单元402分类得到的所述分类结果。
本发明实施例中,接收单元401接收待分类数据;分类单元402使用分类模型对所述接收单元401接收的所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;输出单元403输出所述分类单元402分类得到的所述分类结果。本发明实施例提供的数据分类的装置,因分类模型的分类精确度提高,从而也提高了数据分类的精确度。
可选地,本发明实施例提供的数据分类的装置40的另一实施例中,参阅图5,所述装置40还包括:模型训练单元404、确定单元405和模型修正单元406,
所述接收单元401,还用于接收所述用于训练模型的训练参数和分类目标;
所述模型训练单元404,用于使用所述接收单元401接收的所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
所述确定单元405,用于根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述模型训练单元404迭代计算所产生的每轮的预测结果之间的残差;
所述模型修正单元406,用于根据确定单元405确定的M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
本发明实施例中,分类模型训练的装置可以由计算机等计算设备来完成,下面结合计算设备的形态,介绍计算设备用于分类模型训练的过程。
图6是本发明实施例提供的分类模型训练的装置50的结构示意图。所述分类模型训练的装置50包括处理器510、存储器550和收发器530,存储器550可以包括只读存储器和随机存取存储器,并向处理器510提供操作指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器550存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
在本发明实施例中,通过调用存储器550存储的操作指令(该操作指令可存储在操作系统中),
通过收发器530接收用于训练模型的样本,所述样本包括训练参数和分类目标;
使用所述训练参数对初始分类模型进行分类训练,得到预测结果;
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
根据所述残差,对所述初始分类模型进行修正,得到最终分类模型。
与现有技术中分类模型训练不精确,训练速度慢相比,本发明实施例提供的分类模型训练的装置,通过在初始分类模型的梯度损失函数中引入类别之间距离,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。
处理器510控制分类模型训练的装置50的操作,处理器510还可以称为CPU(Central Processing Unit,中央处理单元)。存储器550可以包括只读存储器和随机存取存储器,并向处理器510提供指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中分类模型训练的装置50的各个组件通过总线系统520耦合在一起,其中总线系统520除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统520。
上述本发明实施例揭示的方法可以应用于处理器510中,或者由处理器510实现。处理器510可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器550,处理器510读取存储器550中的信息,结合其硬件完成上述方法的步骤。
可选地,处理器510用于:
使用所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差;
根据M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
可选地,处理器510用于:
使用如下公式确定所述初始预测结果与所述分类目标之间的残差;
Fk'(xi)=Dyk*Fk(xi)
其中,xi为样本参数,i为大于1的正整数,为分类目标与第k轮预测结果之间的残差,yik为分类目标,pk(xi)为第k轮预测概率函数,Fk(xi)为第k轮预测函数,Dyk为分类目标所属的类别与第k轮预测结果所属类别间距的距离因子,Fk'(xi)为第k轮的修正预测函数,Fl'(xi)为第l轮的修正预测函数,l的取值从1到K,其中,K为样本xi所对应的分类数量。
本发明实施例提供的分类模型训练的装置可以参阅图1至图4部分的相关描述进行理解,本处不再重复赘述。
图7是本发明实施例提供的数据分类的装置60的结构示意图。所述数据分类的装置60包括处理器610、存储器650和收发器630,存储器650可以包括只读存储器和随机存取存储器,并向处理器610提供操作指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器650存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
在本发明实施例中,通过调用存储器650存储的操作指令(该操作指令可存储在操作系统中),
通过收发器630接收待分类数据;
使用分类模型对所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
通过收发器630输出所述分类结果。
与现有技术中数据分类精确度不够高相比,本发明实施例提供的数据分类的装置,因分类模型的分类精确度提高,从而也提高了数据分类的精确度。
处理器610控制数据分类的装置60的操作,处理器610还可以称为CPU(CentralProcessing Unit,中央处理单元)。存储器650可以包括只读存储器和随机存取存储器,并向处理器610提供指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中数据分类的装置60的各个组件通过总线系统620耦合在一起,其中总线系统620除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统620。
上述本发明实施例揭示的方法可以应用于处理器610中,或者由处理器610实现。处理器610可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器610可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器650,处理器610读取存储器650中的信息,结合其硬件完成上述方法的步骤。
可选地,收发器630还用于接收所述用于训练模型的训练参数和分类目标;
处理器610还用于
使用所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差;
根据M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
本发明实施例提供的数据分类的装置可以参阅图1至图4部分的相关描述进行理解,本处不再重复赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例所提供的分类模型训练的方法、数据分类的方法以及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种分类模型训练的方法,其特征在于,包括:
接收用于训练模型的样本,所述样本包括训练参数和分类目标;
使用所述训练参数对初始分类模型进行分类训练,得到预测结果;
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
根据所述残差,对所述初始分类模型进行修正,得到最终分类模型。
2.根据权利要求1所述的方法,其特征在于,所述使用所述训练参数对初始分类模型进行分类训练,得到预测结果,包括:
使用所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
对应地,所述根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述预测结果之间的残差,包括:
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差;
对应地,所述根据所述残差,对所述初始分类模型进行修正,得到最终分类模型,包括:
根据M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差,包括:
使用如下公式确定所述初始预测结果与所述分类目标之间的残差;
Fk'(xi)=Dyk*Fk(xi)
其中,xi为样本参数,i为大于1的正整数,为分类目标与第k轮预测结果之间的残差,yik为分类目标,pk(xi)为第k轮预测概率函数,Fk(xi)为第k轮预测函数,Dyk为分类目标所属的类别与第k轮预测结果所属类别间距的距离因子,F′k(xi)为第k轮的修正预测函数,F′l(xi)为第l轮的修正预测函数,l的取值从1到K,其中,K为样本xi所对应的分类数量。
4.一种数据分类的方法,其特征在于,包括:
接收待分类数据;
使用分类模型对所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
输出所述分类结果。
5.根据权利要求4所述的方法,其特征在于,所述接收待分类数据之前,所述方法还包括:
接收所述用于训练模型的训练参数和分类目标;
使用所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差;
根据M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
6.一种分类模型训练的装置,其特征在于,包括:
接收单元,用于接收用于训练模型的样本,所述样本包括训练参数和分类目标;
模型训练单元,用于使用所述接收单元接收的所述训练参数对初始分类模型进行分类训练,得到预测结果;
确定单元,用于根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述模型训练单元训练的所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
模型修正单元,用于根据所述确定单元确定的残差,对所述初始分类模型进行修正,得到最终分类模型。
7.根据权利要求6所述的装置,其特征在于,
所述模型训练单元,用于使用所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
所述确定单元,用于根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与每轮的预测结果之间的残差;
所述模型修正单元,用于根据M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
8.根据权利要求7所述的装置,其特征在于,
所述确定单元,用于使用如下公式确定所述初始预测结果与所述分类目标之间的残差;
Fk'(xi)=Dyk*Fk(xi)
其中,xi为样本参数,i为大于1的正整数,为分类目标与第k轮预测结果之间的残差,yik为分类目标,pk(xi)为第k轮预测概率函数,Fk(xi)为第k轮预测函数,Dyk为分类目标所属的类别与第k轮预测结果所属类别间距的距离因子,F′k(xi)为第k轮的修正预测函数,F′l(xi)为第l轮的修正预测函数,l的取值从1到K,其中,K为样本xi所对应的分类数量。
9.一种数据分类的装置,其特征在于,包括:
接收单元,用于接收待分类数据;
分类单元,用于使用分类模型对所述接收单元接收的所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
输出单元,用于输出所述分类单元分类得到的所述分类结果。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:模型训练单元、确定单元和模型修正单元,
所述接收单元,还用于接收所述用于训练模型的训练参数和分类目标;
所述模型训练单元,用于使用所述接收单元接收的所述训练参数对初始分类模型进行迭代计算,每轮迭代产生该轮的预测结果;
所述确定单元,用于根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述模型训练单元迭代计算所产生的每轮的预测结果之间的残差;
所述模型修正单元,用于根据确定单元确定的M轮的残差,修正第M轮的分类模型,得到M+1轮迭代所使用的分类模型,所述M轮的分类模型为根据第M-1轮的残差对第M-1轮的分类模型进行修正得到的,所述M为大于1的正整数。
CN201611139498.5A 2016-12-12 2016-12-12 一种分类模型训练的方法、数据分类的方法及装置 Pending CN108615044A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201611139498.5A CN108615044A (zh) 2016-12-12 2016-12-12 一种分类模型训练的方法、数据分类的方法及装置
PCT/CN2017/107626 WO2018107906A1 (zh) 2016-12-12 2017-10-25 一种训练分类模型的方法、数据分类的方法及装置
US16/286,894 US11386353B2 (en) 2016-12-12 2019-02-27 Method and apparatus for training classification model, and method and apparatus for classifying data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611139498.5A CN108615044A (zh) 2016-12-12 2016-12-12 一种分类模型训练的方法、数据分类的方法及装置

Publications (1)

Publication Number Publication Date
CN108615044A true CN108615044A (zh) 2018-10-02

Family

ID=62557907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611139498.5A Pending CN108615044A (zh) 2016-12-12 2016-12-12 一种分类模型训练的方法、数据分类的方法及装置

Country Status (3)

Country Link
US (1) US11386353B2 (zh)
CN (1) CN108615044A (zh)
WO (1) WO2018107906A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829490A (zh) * 2019-01-22 2019-05-31 上海鹰瞳医疗科技有限公司 修正向量搜索方法、目标分类方法及设备
CN109858558A (zh) * 2019-02-13 2019-06-07 北京达佳互联信息技术有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN110210233A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 预测模型的联合构建方法、装置、存储介质及计算机设备
CN110378306A (zh) * 2019-07-25 2019-10-25 厦门美图之家科技有限公司 年龄预测方法、装置及图像处理设备
CN111224890A (zh) * 2019-11-08 2020-06-02 北京浪潮数据技术有限公司 一种云平台的流量分类方法、系统及相关设备
CN112149706A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 模型训练方法、装置、设备和介质
CN113906704A (zh) * 2019-05-30 2022-01-07 诺基亚技术有限公司 通信系统中的学习
JP7176359B2 (ja) 2018-11-05 2022-11-22 株式会社リコー 学習装置および学習方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189937B (zh) * 2018-08-22 2021-02-09 创新先进技术有限公司 一种特征关系推荐方法及装置、一种计算设备及存储介质
CN109460825A (zh) * 2018-10-24 2019-03-12 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备
CN110263638B (zh) * 2019-05-16 2023-04-18 山东大学 一种基于显著信息的视频分类方法
CN112396445A (zh) * 2019-08-16 2021-02-23 京东数字科技控股有限公司 用于识别用户身份信息的方法和装置
CN110751197A (zh) * 2019-10-14 2020-02-04 上海眼控科技股份有限公司 图片分类方法、图片模型训练方法及设备
CN111695593A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 基于XGBoost的数据分类方法、装置、计算机设备及存储介质
CN111696636B (zh) * 2020-05-15 2023-09-22 平安科技(深圳)有限公司 一种基于深度神经网络的数据处理方法及装置
CN111680754B (zh) * 2020-06-11 2023-09-19 抖音视界有限公司 图像分类方法、装置、电子设备及计算机可读存储介质
US20220083571A1 (en) * 2020-09-16 2022-03-17 Synchrony Bank Systems and methods for classifying imbalanced data
CN112270547A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于特征构造的金融风险评估方法、装置和电子设备
CN112508062A (zh) * 2020-11-20 2021-03-16 普联国际有限公司 一种开集数据的分类方法、装置、设备及存储介质
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质
CN112418520B (zh) * 2020-11-22 2022-09-20 同济大学 一种基于联邦学习的信用卡交易风险预测方法
CN112528109B (zh) * 2020-12-01 2023-10-27 科大讯飞(北京)有限公司 一种数据分类方法、装置、设备及存储介质
WO2022116440A1 (zh) * 2020-12-02 2022-06-09 平安科技(深圳)有限公司 模型训练方法、装置和设备
CN112651458B (zh) * 2020-12-31 2024-04-02 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN112633407B (zh) * 2020-12-31 2023-10-13 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN112883193A (zh) * 2021-02-25 2021-06-01 中国平安人寿保险股份有限公司 一种文本分类模型的训练方法、装置、设备以及可读介质
CN113011529B (zh) * 2021-04-28 2024-05-07 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及可读存储介质
CN113065614B (zh) * 2021-06-01 2021-08-31 北京百度网讯科技有限公司 分类模型的训练方法和对目标对象进行分类的方法
CN114663714B (zh) * 2022-05-23 2022-11-04 阿里巴巴(中国)有限公司 图像分类、地物分类方法和装置
CN115130592B (zh) * 2022-07-01 2023-04-18 中昊芯英(杭州)科技有限公司 一种样本生成芯片
CN116343201B (zh) * 2023-05-29 2023-09-19 安徽高哲信息技术有限公司 谷粒类别识别方法、装置及计算机设备
CN117274724B (zh) * 2023-11-22 2024-02-13 电子科技大学 基于可变类别温度蒸馏的焊缝缺陷分类方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362892B2 (en) * 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
US20080101705A1 (en) * 2006-10-31 2008-05-01 Motorola, Inc. System for pattern recognition with q-metrics
US20100250523A1 (en) * 2009-03-31 2010-09-30 Yahoo! Inc. System and method for learning a ranking model that optimizes a ranking evaluation metric for ranking search results of a search query
US20150006259A1 (en) * 2013-06-27 2015-01-01 Kyruus, Inc. Methods and systems for providing performance improvement recommendations to professionals
US20150006422A1 (en) * 2013-07-01 2015-01-01 Eharmony, Inc. Systems and methods for online employment matching
CN104850531A (zh) * 2014-02-19 2015-08-19 日本电气株式会社 一种建立数学模型的方法和装置
US20150302755A1 (en) * 2014-04-22 2015-10-22 Google Inc. Measurement of educational content effectiveness
US9564123B1 (en) * 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
CN104102705B (zh) * 2014-07-09 2018-11-09 南京大学 一种基于大间隔分布学习的数字媒体对象分类方法
US9552549B1 (en) * 2014-07-28 2017-01-24 Google Inc. Ranking approach to train deep neural nets for multilabel image annotation
CN105787046A (zh) * 2016-02-28 2016-07-20 华东理工大学 一种基于单边动态下采样的不平衡数据分类系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7176359B2 (ja) 2018-11-05 2022-11-22 株式会社リコー 学習装置および学習方法
CN109829490A (zh) * 2019-01-22 2019-05-31 上海鹰瞳医疗科技有限公司 修正向量搜索方法、目标分类方法及设备
CN109829490B (zh) * 2019-01-22 2022-03-22 上海鹰瞳医疗科技有限公司 修正向量搜索方法、目标分类方法及设备
CN109858558A (zh) * 2019-02-13 2019-06-07 北京达佳互联信息技术有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN109858558B (zh) * 2019-02-13 2022-01-21 北京达佳互联信息技术有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN110210233A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 预测模型的联合构建方法、装置、存储介质及计算机设备
CN113906704A (zh) * 2019-05-30 2022-01-07 诺基亚技术有限公司 通信系统中的学习
CN112149706A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 模型训练方法、装置、设备和介质
CN112149706B (zh) * 2019-06-28 2024-03-15 北京百度网讯科技有限公司 模型训练方法、装置、设备和介质
CN110378306A (zh) * 2019-07-25 2019-10-25 厦门美图之家科技有限公司 年龄预测方法、装置及图像处理设备
CN111224890A (zh) * 2019-11-08 2020-06-02 北京浪潮数据技术有限公司 一种云平台的流量分类方法、系统及相关设备

Also Published As

Publication number Publication date
US20190197429A1 (en) 2019-06-27
US11386353B2 (en) 2022-07-12
WO2018107906A1 (zh) 2018-06-21

Similar Documents

Publication Publication Date Title
CN108615044A (zh) 一种分类模型训练的方法、数据分类的方法及装置
CN110147456B (zh) 一种图像分类方法、装置、可读存储介质及终端设备
Magis et al. Computerized adaptive and multistage testing with R: Using packages catR and mstR
CN104346629B (zh) 一种模型参数训练方法、装置及系统
CN108897829B (zh) 数据标签的修正方法、装置和存储介质
CN107239443A (zh) 一种词向量学习模型的训练方法及服务器
CN105893476A (zh) 智能问答方法、知识库优化方法及装置、智能知识库
CN110472665A (zh) 模型训练方法、文本分类方法及相关装置
CN103559504A (zh) 图像目标类别识别方法及装置
CN104978396A (zh) 一种基于知识库的问答题目生成方法和装置
CN111494964B (zh) 虚拟物品的推荐方法、模型的训练方法、装置及存储介质
CN108710905A (zh) 一种基于多模型联合的备件数量预测方法和系统
CN109948680A (zh) 病历数据的分类方法及系统
CN109885541A (zh) 信息批量处理的方法和装置
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
CN106326904A (zh) 获取特征排序模型的装置和方法以及特征排序方法
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
Bintley Times series analysis with REVEAL
CN110232397A (zh) 一种结合支持向量机和投影矩阵的多标签分类方法
Astakhova et al. The description problem of the clusters' centroids
CN108021985A (zh) 一种模型参数训练方法及装置
US20230237589A1 (en) Model output calibration
CN107291722B (zh) 一种描述词的分类方法及设备
CN112883284B (zh) 一种基于网络和数据分析的在线学习系统及测试题推荐方法
CN114091446A (zh) 生成文本的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination