CN111275089B - 一种分类模型训练方法及装置、存储介质 - Google Patents
一种分类模型训练方法及装置、存储介质 Download PDFInfo
- Publication number
- CN111275089B CN111275089B CN202010048889.6A CN202010048889A CN111275089B CN 111275089 B CN111275089 B CN 111275089B CN 202010048889 A CN202010048889 A CN 202010048889A CN 111275089 B CN111275089 B CN 111275089B
- Authority
- CN
- China
- Prior art keywords
- classification model
- sample data
- label
- continuous
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 227
- 238000012549 training Methods 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000002372 labelling Methods 0.000 abstract description 24
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种分类模型训练方法及装置、存储介质。分类模型训练方法,包括:利用已知离散标签的第一数据集进行分类模型的初始训练,得到第一分类模型;将第一数据集内的样本数据输入到第一分类模型,得到连续标签;利用样本数据和连续标签构成的第二数据集,继续训练第一分类模型得到第二分类模型;利用第二分类模型对第一数据集包含的样本数据进行分类,得到第二分类模型输出的连续标签;将第二分类模型输出的连续标签满足存疑条件的样本数据输出,以获得对样本数据重新标注的离散标签,以更新第二数据集;利用更新后的第二数据集继续训练第二分类模型,直到满足训练停止条件。
Description
技术领域
本公开涉及信息技术领域,尤其涉及一种分类模型训练方法及装置、存储介质。
背景技术
神经网络等可以构成分类模型。分类模型可以用于对图像和文本进行分类。但是这种分类模型在使用之前,需要使用标注好的样本数据进行标注。且由于分类模型训练涉及大量样本数据的标注,具有标注工作量大,且若标注工作量大伴随有标注错误时,可能会导致训练得到的分类模型的精确度差的现象。
发明内容
本公开提供一种分类模型训练方法及装置、存储介质。
本公开实施例第一方面提供一种分类模型训练方法,包括:
利用已知离散标签的第一数据集进行分类模型的初始训练,得到第一分类模型;其中,所述离散标签,用于指示所述第一数据集内样本数据的类别;
将所述第一数据集内的样本数据输入到所述第一分类模型,得到连续标签,其中,所述连续标签,用于指示所述样本数据为对应类别的概率;
利用所述样本数据和所述连续标签构成的第二数据集,继续训练所述第一分类模型得到第二分类模型;
利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签;
将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,以获得对所述样本数据重新标注的离散标签,以更新所述第二数据集;
利用更新后的所述第二数据集继续训练所述第二分类模型,直到满足训练停止条件。
基于上述方案,所述方法还包括:
获取未知标签的第三数据集;
所述利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签,包括:
利用所述第二分类模型对所述第一数据集与所述第三数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签。
基于上述方案,所述将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,包括:
将所述第二分类模型输出的连续标签位于存疑标签值区域的所述样本数据输出。
基于上述方案,所述将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到连续标签,包括:
将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到所述第一分类模型输出的预测标签;
根据所述离散标签和所述预测标签,得到所述连续标签。
基于上述方案,所述根据所述离散标签和所述预测标签,得到所述连续标签,包括:
当所述离散标签为:y1=1且y0=0时,按照如下得到所述连续标签;
当所述离散标签为y0=1且y1=0时,按照如下公式得到所述连续标签;
其中,所述y0为所述离散标签中标注对应样本数据为第一类别的标签值;所述y1为所述离散标签中标注对应样本数据为第二类别的标签值;
所述Y0为所述连续标签中标注对应样本数据为第一类别的标签值;所述Y1为所述连续标签中标注对应样本数据为第二类别的标签值;
所述p0为所述预测标签中标注对应样本数据为所述第一类别的预测值,所述p1为所述预测标签中标注对应样本数据为所述第二类别的预测值;所述k0为将离散标签中指示对应样本数据为第一类别的连续化为所述连续标签的学习率;所述k1为将离散标签中指示对应样本数据为第二类别的连续化为所述连续标签的学习率;
所述λ为预设值。
基于上述方案,所述训练停止条件,包括以下至少之一:
所述第二分类模型输出的满足存疑条件的连续标签数目小于第一阈值;
所述第二分类模型输出的满足存疑条件的连续标签转换为所述离散标签之后的误标率,小于第二阈值。
本公开实施例第二方面提供一种分类模型训练装置,包括:
第一训练模块,用于利用已知离散标签的第一数据集进行分类模型的初始训练,得到第一分类模型;其中,所述离散标签,用于指示所述第一数据集内样本数据的类别;
第一得到模块,用于将所述第一数据集内的样本数据输入到所述第一分类模型,得到连续标签,其中,所述连续标签,用于指示所述样本数据为对应类别的概率;
第二训练模块,用于利用所述样本数据和所述连续标签构成的第二数据集,继续训练所述第一分类模型得到第二分类模型;
第二得到模块,用于利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签;
更新模块,用于将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,以获得对所述样本数据重新标注的离散标签,以更新所述第二数据集;
第三训练模块,用于利用更新后的所述第二数据集继续训练所述第二分类模型,直到满足训练停止条件。
基于上述方案,所述装置还包括:
获取模块,用于获取未知标签的第三数据集;
所述第二得到模块,用于利用所述第二分类模型对所述第一数据集与所述第三数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签。
基于上述方案,所述更新模块,具体用于将所述第二分类模型输出的连续标签位于存疑标签值区域的所述样本数据输出。
基于上述方案,所述第一得到模块,用于将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到所述第一分类模型输出的预测标签;根据所述离散标签和所述预测标签,得到所述连续标签。
基于上述方案,所述第一得到模块,具体用于当所述离散标签为:y1=1且y0=0时,按照如下得到所述连续标签;
当所述离散标签为y0=1且y1=0时,按照如下公式得到所述连续标签;
其中,所述y0为所述离散标签中标注对应样本数据为第一类别的标签值;所述y1为所述离散标签中标注对应样本数据为第二类别的标签值;
所述Y0为所述连续标签中标注对应样本数据为第一类别的标签值;所述Y1为所述连续标签中标注对应样本数据为第二类别的标签值;
所述p0为所述预测标签中标注对应样本数据为所述第一类别的预测值,所述p1为所述预测标签中标注对应样本数据为所述第二类别的预测值;所述k0为将离散标签中指示对应样本数据为第一类别的连续化为所述连续标签的学习率;所述k1为将离散标签中指示对应样本数据为第二类别的连续化为所述连续标签的学习率;
所述λ为预设值。
基于上述方案,所述训练停止条件,包括以下至少之一:
所述第二分类模型输出的满足存疑条件的连续标签数目小于第一阈值;
所述第二分类模型输出的满足存疑条件的连续标签转换为所述离散标签之后的误标率,小于第二阈值。
本公开实施例第三方面提供一种分类模型训练装置,包括处理器、存储器及存储在存储器上并能够有所述处理器运行的可执行程序,其特征在于,所述处理器运行所述可执行程序时执行如前述任意技术方案提供的分类模型训练方法的步骤。
本公开实施例第四方面提供一种存储介质,其上存储由可执行程序,其特征在于,所述可执行程序被处理器执行时实现如前述任意技术方案提供的分类模型训练方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:分类模型训练的过程中,首先要少量的标注有离散标签的第一训练集对能够输出连续标签的分类模型进行训练,然后利用初始训练得到的第一分类模型自行输出初始的连续标签。通过连续标签及样本数据构成的第二样本数据训练第一分类模型得到第二分类模型,由第二分类模型对样本数据的连续标签的输出,判定是否满足存疑条件,将满足存疑条件的样本数据输出,进行后续的离散标签标注即可,大大的降低了人工标注的数据量,同时人工标注仅需标注离散标签而无需标注难度大且标注量更多的连续标签;具有模型训练效率高的特点、与此同时,采用连续标签训练得到的分类模型,在应用时具有准确率高及召回率低的特点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种分类模型训练方法的流程图。
图2是根据一示例性实施例示出的一种分类模型训练方法的流程图
图3是根据一示例性实施例示出的一种分类模型训练方法的流程图。
图4是根据一示例性实施例示出的一种分类模型训练装置的框图。
图5是根据一示例性实施例示出的一种分类模型训练方法的流程图。
图6是根据一示例性实施例示出的一种分类模型训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
使用一些监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。而且,如果训练样本的规模过于庞大,训练的时间花费也会比较多。主动学习(Active Learning)能够使用较少的训练样本来获得性能较好的分类器。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。
在人类的学习过程中,通常利用已有的经验来学习新的知识,又依靠获得的知识来总结和积累经验,经验与知识不断交互。同样,机器学习模拟人类学习的过程,利用已有的知识训练出模型去获取新的知识,并通过不断积累的信息去修正模型,以得到更加准确的新模型。不同于被动学习被动的接受知识,主动学习能够选择性地获取知识,其核心思想是判别难以识别的样本,请求重新标注或者补充相关样本,以及生成类似样本。
参考图1所示,主动学习的模型为A=(C,Q,S,L,U)。其中C为一组或者一个分类器,L是用于训练已标注的样本。Q是查询函数,用于从未标注样本池U中查询信息量大的信息,S是督导者,可以为U中样本标注正确的标签。学习者通过少量初始标记样本L开始学习,通过一定的查询函数Q选择出一个或一批最有用的样本,并向督导者询问标签,然后利用获得的新知识来训练分类器和进行下一轮查询。主动学习是一个循环的过程,直至达到某一停止准则为止。
查询函数Q用于查询一个或一批最有用的样本。在各种主动学习方法中,查询函数的设计最常用的策略是:不确定性准则(uncertainty)和差异性准则(diversity)。
对于不确定性,可以借助信息熵的概念来进行理解。知道信息熵是衡量信息量的概念,也是衡量不确定性的概念。信息熵越大,就代表不确定性越大,包含的信息量也就越丰富。事实上,有些基于不确定性的主动学习查询函数就是使用了信息熵来设计的,比如熵值装袋查询。所以,不确定性策略就是要想方设法地找出不确定性高的样本,因为这些样本所包含的丰富信息量,对训练模型来说就是有用的。
查询函数每次迭代中查询一个或者一批样本。当然希望所查询的样本提供的信息是全面的,各个样本提供的信息不重复冗余,即样本之间具有一定的差异性。在每轮迭代抽取单个信息量最大的样本加入训练集的情况下,每一轮迭代中模型都被重新训练,以新获得的知识去参与对样本不确定性的评估可以有效地避免数据冗余。但是如果每次迭代查询一批样本,那么就应该想办法来保证样本的差异性,避免数据冗余。在一些实施例中,分类模型训练方法可如下:
从无标注的数据集中随机抽样,并个人工分类这些样本。
在标注过的数据集上训练分类器,得到预测值。
挑出来信息量大的样本数据继续标注,比如,二分类中预测值接近0.5的样本数据,人工对这批样本进行分类。
重复上述步骤直到没有更多资源对数据集进行标注;或者,当前分类器对选出来的数据分类正确,或者选出来的数据人工也无法进行分类为止。
但是在上述实施例的分类模型训练时使用的均是离散标签,离散标签可以判定类别,却无法量化程度。将不同程度的同一类别都打上同样的标签显然是不合理的,会带来模糊的分类界线和不平滑的类别趋势,使得训练过程容易走偏,导致文本分类的准确率和召回率较低。由于使用离散标签不能得到一个较好的模型,模型对于信息量大的数据的判别不够准确,导致模型提出查询人工标注的数据代表性不足。
有鉴于此,如图2所示,本实施例提供一种分类模型训练方法,包括:
S11:利用已知离散标签的第一数据集进行分类模型的初始训练,得到第一分类模型;其中,所述离散标签,用于指示所述第一数据集内样本数据的类别;
S12:将所述第一数据集内的样本数据输入到所述第一分类模型,得到连续标签,其中,所述连续标签,用于指示所述样本数据为对应类别的概率;
S13:利用所述样本数据和所述连续标签构成的第二数据集,继续训练所述第一分类模型得到第二分类模型;
S14:利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签;
S15:将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,以获得对所述样本数据重新标注的离散标签,以更新所述第二数据集;
S16:利用更新后的所述第二数据集继续训练所述第二分类模型,直到满足训练停止条件。
本公开实施例提供的分类模型训练方法,可为文本分类模型和/或图像分类模型。
在本公开实施例中,所述分类模型可为:卷积神经网络或循环神经网络等。
模型训练需要训练数据,在现有技术中模型训练中都是有人工进行单纯的离散标签标注。而大量的训练样本,人工标注任务本身就很繁重。若需要进行比离散标签更细粒度的连续标签的标注,一方面增加了人工标注难度,另一方面标注任务成本的增长。
在本一些实施例中,所述离散标签可为类别标签,该标签直接指示被标注的样本数据为某个类别的标签。连续标签可理解为程度标签。该程度标签指示的是对应样本数据为某一个类别的程度。例如,针对一个文本进行分类而言,需要区分出对应的文本是否是低俗文本和普通文本的程度值。
在另一些实施例中,例如某一个分类对象包括几个大类别,每一个大类别内有包含多个小类别。此时,大类别的类别标签可为前述离散标签,而小类别所对应的标签可为前述连续标签。
在本公开实施例中为了简化人工标注,提升模型训练的训练速率及训练连续分类模型。
在本公开实施例中,利用离散标签的样本数据,训练输出为连续标签的初始训练。此时,例如,分类模型可输出的标签种类多于第一数据集中样本数据所具有的离散标签种类。
例如,针对一个输出二分类器的程度值的分类模型而言,输入的离散标签就两种,而连续标签多于两种。例如,假设离散标签可为“0”及“1”;而连续标签的粒度为0.1时,则连续标签包括:“0”、“0.1”、“0.2”、“0.3”、“0.4”、“0.5”、“0.6”、“0.7”、“0.8”、“0.9”及“1”。若连续标签的粒度为:0.01,则离散标签的种类为2;而连续标签的种类共100个。
在一些实施例中,所述连续标签可不设置预设粒度,而是可为0到1之间的任意实数。
在S11完成初始训练之后,得到初始模型,在本公开实施例中该初始模型称之为第一分类模型。
将第一数据集内的样本数据输入到第一分类模型中,此时,由于第一分类模型是输出连续标签的模型,第一分类模型会输出连续标签。
在一些实施例中,第一分类模型输出的连续标签,可以直接赋值给样本数据,作为样本数据的连续标签构成第二数据集。
利用第二数据集继续训练第一分类模型,在训练过程中分类模型的模型参数继续优化。该模型参数包括:分类模型中不同节点的权重和/或阈值等。
如此,在采用第二数据集训练第一分类模型之后会得到第二分类模型。
第二数据集中的样本数据会再次输入到第二分类模型。第二分类模型会输出连续标签。
针对该离散标签指示了对应样本数据为某一个类别或多个类别的概率或程度。此时,第二分类模型会对某些样本数据分类并不清楚,会使得获得连续标签介于两个离散标签所对应的类别或者大类之间,此时,这种样本数据是第二分类模型无法识别的类别。
在本公开实施例中的S15中会输出所述满足存疑条件的样本数据,并进一步获得离散标签,例如,基于用户输入再次获得样本数据的离散标签。
在一些情况下,第一数据集中样本数据的离散标签出现错误时,通过模型训练,经过第一分类模型和第二分类模型的处理,最终第二分类模型可以自动纠正这种离散标签错误的样本数据得到第二数据集或更新后的第二数据集。但是在一些特定情况下,会导致第二分类模型输出的连续标签无法精确映射该样本数据的离散标签,这种样本数据就是满足存疑条件的样本数据,需要人工手动纠正离散标签。
基于更新后的离散标签,会得到更新后的第二数据集。
利用更新后的第二数据集继续训练所述第二分类模型,再将第二数据集中的样本数据输入到第二分类模型,让当前的第二分类模型输出连续标签,反复训练第二分类模型并反复校准样本数据的连续标签,使得同一个样本数据的连续标签稳定化。
例如,可记录每一次第二分类模型对同一个样本数据输出的连续标签;在后续发现预定比值的样本数据的连续标签不再波动时,可以认为满足训练停止条件,可以停止模型训练,否则继续训练。
在一些实施例中,如图3所示,所述方法还包括:
S10:获取未知标签的第三数据集;
所述S14可包括:利用所述第二分类模型对所述第一数据集与所述第三数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签。
未知标签的第三数据集可仅包括样本数据,但是这些样本数据未被标注有任何标签,即即未标注有离散标签,也未标注有连续标签。
如此,可以利用未知标签的样本数据对所述第二分类模型输出连续标签的分类能力进行验证。
在一些实施例中,所述第三数据集包含的样本数据的个数远远多于所述第一数据集所包含的样本数据。
此时,满足存疑条件的样本数据可包括:原本位于所述第一数据集中的样本数据,也可以包含在所述第三数据集集中的样本数据。
如此,未标注的样本数据,若与已标注离散标签的样本数据本身很相似,则不会作为满足存疑条件的样本数据被输出,由人工标注,从而确保了模型训练足够的训练样本的同时,减少了人工标注的量。
如此,第三数据集中仅有在第二分类模型输出的连续标签满足存疑条件时的样本数据,才需要人工标注,从而减少了不必要的人工标注。
故在S15中输出的样本数据可包含:第一数据集中的样本数据和/或第三数据集的样本数据。
而在S16中更新的第二数据集中的样本数据,也可以在包含第一数据集中样本数据的基础上,引入第三数据集的样本数据。如此,实现了对第二数据集的样本扩充,提升训练分类模型所用的样本数据量。
在S15中获取的标签依然是离散标签,标注专家仅需进行离散标签就好,减少专家标注的难度和标注量。
在一些实施例中,可以将该离散标签视为连续标签,添加到第二数据集中或者替换掉第二数据集中对应的连续标签之后,继续训练第二分类模型。
在一些实施例中,重新标注的离散标签,也可以采用后续的公式(1)及(2)或者公式(3)及(4)转换为连续标签之后,更新所述第二数据集。
在一些实施例中,S15可包括:
将所述第二分类模型输出的连续标签位于存疑标签值区域的所述样本数据输出。
例如,所述连续标签对应了一系列数值,可以将数值位于存疑标签区间的样本数据输出。例如,针对于0到1之间的10中连续标签,则标签值为0.4、0.5及0.6的连续标签可为上述存疑标签值区间所包含的存疑标签时,则将标签值为0.4、0.5及0.6的连续标签所对应数据样本输出。
再例如,针对三种大类别的分类模型,一个数据样本为对应类别的连续标签都为0.1之间的10个标签值,此时,若发现某一个样本数据分类得到的连续标签的标签值为(0.2、0.4、0.4)。说明第二分类模型可以判定该样本数据不是类别1、但是无法判断是类别2还是类别3。针对多分类模型,若输出的连续标签无法准确映射到任意两个类别所对应的离散标签时,都是标签值位于存疑标签区域的连续标签,此时,都可认为满足所述存储条件。
在S15中将输出这些样本数据。例如,收集这些样本数据,在接收到显示指令时,输出这些样本数据,进而接收用户输入的人工标注的离散标签,以精确化第二数据集内样本数据的标签。
在一些实施例中,所述将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到连续标签,包括:
将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到所述第一分类模型输出的预测标签;
结合所述离散标签和所述预测标签,得到所述连续标签。
在一些实施例中,结合离散标签和预测标签,可以直接进行连续标签的赋值转发即可。例如,
当所述离散标签为:y1=1且y0=0时,按照公式1得到所述连续标签;
当所述离散标签为y0=1且y1=0时,按照公式2得到所述连续标签;
其中,所述y0为所述离散标签中标注对应样本数据为第一类别的标签值;所述y1为所述离散标签中标注对应样本数据为第二类别的标签值;
所述Y0为所述连续标签中标注对应样本数据为第一类别的标签值;所述Y1为所述连续标签中标注对应样本数据为第二类别的标签值;
所述p0为所述预测标签中标注对应样本数据为所述第一类别的预测值,所述p1为所述预测标签中标注对应样本数据为所述第二类别的预测值。
在一些实施例中,所述结合所述离散标签和所述预测标签,得到所述连续标签,包括:
当所述离散标签为:y1=1且y0=0时,按照公式1得到所述连续标签;
当所述离散标签为y0=1且y1=0时,按照公式2得到所述连续标签;
其中,所述y0为所述离散标签中标注对应样本数据为第一类别的标签值;所述y1为所述离散标签中标注对应样本数据为第二类别的标签值;
所述Y0为所述连续标签中标注对应样本数据为第一类别的标签值;所述Y1为所述连续标签中标注对应样本数据为第二类别的标签值;
所述p0为所述预测标签中标注对应样本数据为所述第一类别的预测值,所述p1为所述预测标签中标注对应样本数据为所述第二类别的预测值;所述k0为将离散标签中指示对应样本数据为第一类别的连续化为所述连续标签的学习率;所述k1为将离散标签中指示对应样本数据为第二类别的连续化为所述连续标签的学习率;
所述λ为预设值。
所述λ的取值可为大于0的任意正整数。
在本实施例中,离散标签的标签值y1及y0的取值仅能是0或1;且y1及y0的和为1。但是连续标签的标签值Y0和Y1可为0和1,且可为0到1之间的任意小数,仅需满足Y0和Y1之和为1即可。在连续标签的取值均在0到1之间时,所述k0和k1的取值范围可为0到0.5之间,可选地,k0和k1的取值可相同或不同,例如,取值可为0.2或0.3等。
在一些实施例中,若按照公式(1)将预测标签到初始的连续标签的转换,还需要满足如下收敛条件;
的取值范围在0.5到1之间;则表示离散标签结合预测标签转换为连续标签的转换率成功。
在一些实施例中,若按照公式(2)进行预测标签到连续标签的转换,还需要满足如下收敛条件:
的取值范围在0.5到1之间;则表示离散标签结合预测标签转换为连续标签的转换率成功。
在一些实施例中,训练条件可包括以下至少之一:
所述第二分类模型输出的满足存疑条件的连续标签数目小于第一阈值;
所述第二分类模型输出的满足存疑条件的连续标签转换为所述离散标签之后的误标率,小于第二阈值。
例如,满足存疑条件的连续标签的数目小于预先设置的第一阈值之后,可认为当前分类模型的连续标签的连续分类已经足够精确,此时,可以停止第二分类模型的第二数据集的继续更新及第二分类模型的继续训练。
再例如,可以满足存疑条件的连续标签转换为离散标签之后与专家标注的离散标签的误标率足够低时,即小于第二阈值时,则说明当前的第二分类模型的识别精确度已经足够高了。
在一些实施例中,确定是否满足训练停止条件还可包括:
第二分类模型当前对样本数据输出的连续标签的分布是否满足预定分布,若满足预定分布条件,可认为满足所述训练停止条件。
例如,所述分布可为:高斯分布。
总之以上仅是训练停止条件的举例,具体实现不局限于上述描述。
本公开实施例训练得到的分类模型可以用于文本的分类,例如,对文本是否包含粗俗内容的程度分类。再例如,本公开实施例提供的分类模型训练方法得到的分类模型,可以用于文本是标题党文本的程度分类。
如图4所示,本公开实施例还提供一种分类模型训练装置,包括:
第一训练模块41,用于利用已知离散标签的第一数据集进行分类模型的初始训练,得到第一分类模型;其中,所述离散标签,用于指示所述第一数据集内样本数据的类别;
第一得到模块42,用于将所述第一数据集内的样本数据输入到所述第一分类模型,得到连续标签,其中,所述连续标签,用于指示所述样本数据为对应类别的概率;
第二训练模块43,用于利用所述样本数据和所述连续标签构成的第二数据集,继续训练所述第一分类模型得到第二分类模型;
第二得到模块44,用于利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签;
更新模块45,用于将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,以获得对所述样本数据重新标注的离散标签,以更新所述第二数据集;
第三训练模块46,用于利用更新后的所述第二数据集继续训练所述第二分类模型,直到满足训练停止条件。
在一些实施例中,第一训练模块41、第一得到模块42、第二训练模块43、第二得到模块44及更新模块45可均为程序模块;程序模块被处理器执行后,能够利用离散标签训练得到输出连续标签的分类模型,且具有所需人工标注数据量少的特点。
在另一些实施例中,第一训练模块41、第一得到模块42、第二训练模块43、第二得到模块44及更新模块45可均为软硬结合模块;软硬结合模块;软硬结合模块可包括:各种可编程阵列;可编程阵列包括但不限于:复杂可编程阵列或现场可编程阵列。
在还有一些实施例中,第一训练模块41、第一得到模块42、第二训练模块43、第二得到模块44及更新模块45可均为软硬结合模块;纯硬件模块;纯硬件模块可包括:专用集成电路。
在一些实施例中,所述装置还包括:
获取模块,用于获取未知标签的第三数据集;
所述第二得到模块44,用于利用所述第二分类模型对所述第一数据集与所述第三数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签。
在一些实施例中,所述更新模块45,具体用于将所述第二分类模型输出的连续标签位于存疑标签值区域的所述样本数据输出。
在一些实施例中,所述第一得到模块42,用于将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到所述第一分类模型输出的预测标签;根据所述离散标签和所述预测标签,得到所述连续标签。
在一些实施例中,所述第一得到模块42,具体用于当所述离散标签为:y1=1且y0=0时,按照如下得到所述连续标签;
当所述离散标签为y0=1且y1=0时,按照如下公式得到所述连续标签;
其中,所述y0为所述离散标签中标注对应样本数据为第一类别的标签值;所述y1为所述离散标签中标注对应样本数据为第二类别的标签值;
所述Y0为所述连续标签中标注对应样本数据为第一类别的标签值;所述Y1为所述连续标签中标注对应样本数据为第二类别的标签值;
所述p0为所述预测标签中标注对应样本数据为所述第一类别的预测值,所述p1为所述预测标签中标注对应样本数据为所述第二类别的预测值;所述k0为将离散标签中指示对应样本数据为第一类别的连续化为所述连续标签的学习率;所述k1为将离散标签中指示对应样本数据为第二类别的连续化为所述连续标签的学习率;
所述λ为预设值。
在一些实施例中,所述训练停止条件,包括以下至少之一:
所述第二分类模型输出的满足存疑条件的连续标签数目小于第一阈值;
所述第二分类模型输出的满足存疑条件的连续标签转换为所述离散标签之后的误标率,小于第二阈值。
以下结合上述任意实施例提供几个实施例:
示例1:
步骤1:清洗一批高质量数据得到初始数据集,该初始数据集可以是一个小数据集,例如,小数据集进行训练得到一个初步模型。该小数据集可包括各种类型的数据。该小数据集即为前述的第一数据集,该第一数据集可包括:所有连续标签所对应样本数据的。
步骤2:用原始的离散标签初始化连续标签。
步骤3:以连续标签训练模型,并迭代更新连续标签。
步骤4:对于模型提出的存疑数据,查询专家重新标注。
融合重新标注的数据,重复步骤3和步骤4,进行再训练。
通过模型预测融合少量未标注数据,其中连续标签和离散标签分别为模型给出的分数和预测结果。
重复步骤3和步骤4,进行再训练。
继续融合新数据,并查询专家重新标注存疑数据,直至不再产生大量存疑数据,或者存疑数据中误标率明显降低。
用连续标签进行文本分类。
自更新的连续标签提升文本分类模型的性能;离散标签难以量化类别趋势和分类界限,使用连续标签可以改善这一问题。以模型预测值初始化连续标签,并通过迭代更新,使连续标签的值逐渐趋近准确。以较好的连续标签训练得到的模型优于离散标签训练得到的模型。
进行未标注数据的自动融合,具体可包括:不同于采用人工标注的高开销方式进行数据融合,可以直接使用模型预测值作为标注并融合新数据,并在后续的迭代中更新连续标签,通过多轮迭代的信息使得标签合理性增加,并吻合原始的离散数据分布。
基于主动学习的存疑标签清洗,可包括:在连续标签的迭代更新中,模型会发现一些难以判别的样本数据,该样本数据可存在于初始数据集以及后续融合的数据集,这些样本数据的连续标签具有偏向折中的值。这类难判别数据是文本分类的边界,作为存疑数据,以主动学习的方式查询领域专家重新标注。
总的来说,通过引入连续标签,模型本身性能提升,并且能够更好地融合未标注数据并且清洗存疑数据,使得分类的效果进一步提升,提高文本分类的召回率和准确率。
示例2:
本公开提供一种将文本分类问题中离散标签连续化的方案,通过模型训练对连续标签进行迭代更新,实现初步自动标注,并通过主动学习对存疑标签进行再清洗,改善离散标签难以量化类别趋势和分类界限的问题,提高文本分类的召回率和准确率。
文本分类模型的训练可包括:离散标签连续化,可包括:文本分类数据的标签往往是用离散的数字表示,这样难以量化类别趋势和分类界限。通过综合考虑模型预测的概率和原始标签,初始化数据的连续标签,以渐变的标签促进模型的优化。连续标签的自更新,可包括:连续标签的初始值可能是不准确的,为了得到更好的连续标签,需要将数据投入模型进行训练,并依照训练后的模型输出,根据迭代公式对连续标签进行更新。在多轮迭代后,连续标签逐渐趋近准确。融合未标注数据,可包括:对于大量未标注的数据,如果全部采用人工标注的方式,会带来巨大人力和时间成本。对这些数据简单用模型预测难以得到足够准确的结果。迭代更新的连续标签可以用于融合未标注数据。具体地,首先通过模型预测给出一个连续标签的初始值,而后通过迭代让新数据的标签趋于准确。基于主动学习的存疑标签清洗,可包括:
在连续标签的迭代更新中,模型会发现一些难以判别的数据,这些数据的连续标签具有偏向折中的值。这类难判别数据是文本分类的边界,作为存疑数据,以主动学习的方式查询领域专家重新标注。
如图5所示,本示例提供的文本分类模型训练方法可包括:
获取初始数据集;
样本数据融合;样本数据融合,可包括:有标签样本数据和无标签数据的融合,也可以包括:具有连续标签的样本数据和具有离散标签的样本数据的融合。
利用融合后的样本数据,进行分类模型训练;
连续标签更新,更新后返回训练阶段。
发下存疑数据,此处的存疑数据为连续标签满足存疑条件的样本数据;
将这些存疑数据输出,询问专家;
由专家重新标注数据,并返回样本数据融合的动作。
本公开实施例提供一种分类模型训练装置,包括处理器、存储器及存储在存储器上并能够有所述处理器运行的可执行程序,其特征在于,所述处理器运行所述可执行程序时执行前述任意技术方案提供的分类模型训练方法,例如,图1、图2及图5所示方法的至少其中之一。例如,图6是根据一示例性实施例示出的一种分类模型训练装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本公开实施例提供一种非临时性计算机可读存储介质,该非临时性计算机可读存储介质可以简称为存储介质。当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种分类模型训练方法,所述方法包括:
利用已知离散标签的第一数据集进行分类模型的初始训练,得到第一分类模型;其中,所述离散标签,用于指示所述第一数据集内样本数据的类别;
将所述第一数据集内的样本数据输入到所述第一分类模型,得到连续标签,其中,所述连续标签,用于指示所述样本数据为对应类别的概率;
利用所述样本数据和所述连续标签构成的第二数据集,继续训练所述第一分类模型得到第二分类模型;
利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签;
将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,以获得对所述样本数据重新标注的离散标签,以更新所述第二数据集;
利用更新后的所述第二数据集继续训练所述第二分类模型,直到满足训练停止条件。
在一些实施例中,所述方法还包括:
获取未知标签的第三数据集;
所述利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签,包括:
利用所述第二分类模型对所述第一数据集与所述第三数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签。
在一些实施例中,所述将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,包括:
将所述第二分类模型输出的连续标签位于存疑标签值区域的所述样本数据输出。
在一些实施例中,所述将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到连续标签,包括:
将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到所述第一分类模型输出的预测标签;
根据所述离散标签和所述预测标签,得到所述连续标签。
在一些实施例中,所述根据所述离散标签和所述预测标签,得到所述连续标签,包括:
当所述离散标签为:y1=1且y0=0时,按照如下得到所述连续标签;
当所述离散标签为y0=1且y1=0时,按照如下公式得到所述连续标签;
其中,所述y0为所述离散标签中标注对应样本数据为第一类别的标签值;所述y1为所述离散标签中标注对应样本数据为第二类别的标签值;
所述Y0为所述连续标签中标注对应样本数据为第一类别的标签值;所述Y1为所述连续标签中标注对应样本数据为第二类别的标签值;
所述p0为所述预测标签中标注对应样本数据为所述第一类别的预测值,所述p1为所述预测标签中标注对应样本数据为所述第二类别的预测值;所述k0为将离散标签中指示对应样本数据为第一类别的连续化为所述连续标签的学习率;所述k1为将离散标签中指示对应样本数据为第二类别的连续化为所述连续标签的学习率;
所述λ为预设值。
在一些实施例中,所述训练停止条件,包括以下至少之一:
所述第二分类模型输出的满足存疑条件的连续标签数目小于第一阈值;
所述第二分类模型输出的满足存疑条件的连续标签转换为所述离散标签之后的误标率,小于第二阈值。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种分类模型训练方法,其特征在于,包括:
利用已知离散标签的第一数据集进行分类模型的初始训练,得到第一分类模型;其中,所述离散标签,用于指示所述第一数据集内样本数据的类别;
将所述第一数据集内的样本数据输入到所述第一分类模型,得到连续标签,其中,所述连续标签,用于指示所述样本数据为对应类别的概率;利用所述样本数据和所述连续标签构成的第二数据集,继续训练所述第一分类模型得到第二分类模型;
利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签;
将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,
通过基于用户输入获取对所述样本数据重新人工标注的离散标签,以更新所述第二数据集;
利用更新后的所述第二数据集继续训练所述第二分类模型,直到满足训练停止条件;
其中,所述第一数据集包括:文本;
所述离散标签用于指示对应文本是低俗文本和普通文本的类别,且所述连续标签用于指示对应文本是低俗文本和普通文本的程度值;或者,所述离散标签,用于指示对应文本是否是标题党文本,且所述连续标签用于指示所述文本是否为标题党文本的程度分类。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取未知标签的第三数据集;
所述利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签,包括:
利用所述第二分类模型对所述第一数据集与所述第三数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,包括:
将所述第二分类模型输出的连续标签位于存疑标签值区域的所述样本数据输出。
4.根据权利要求1或2所述的方法,其特征在于,所述将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到连续标签,包括:
将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到所述第一分类模型输出的预测标签;
根据所述离散标签和所述预测标签,得到所述连续标签。
5.根据权利要求4所述的方法,其特征在于,所述根据所述离散标签和所述预测标签,得到所述连续标签,包括:
当所述离散标签为:y1=1且y0=0时,按照如下得到所述连续标签;
Y0=1-Y1
当所述离散标签为y0=1且y1=0时,按照如下公式得到所述连续标签;
Y1=1-Y0
其中,所述y0为所述离散标签中标注对应样本数据为第一类别的标签值;所述y1为所述离散标签中标注对应样本数据为第二类别的标签值;
所述Y0为所述连续标签中标注对应样本数据为第一类别的标签值;所述Y1为所述连续标签中标注对应样本数据为第二类别的标签值;
所述p0为所述预测标签中标注对应样本数据为所述第一类别的预测值,所述p1为所述预测标签中标注对应样本数据为所述第二类别的预测值;所述k0为将离散标签中指示对应样本数据为第一类别的连续化为所述连续标签的学习率;所述k1为将离散标签中指示对应样本数据为第二类别的连续化为所述连续标签的学习率;
所述λ为预设值。
6.根据权利要求1所述的方法,其特征在于,所述训练停止条件,包括以下至少之一:
所述第二分类模型输出的满足存疑条件的连续标签数目小于第一阈值;
所述第二分类模型输出的满足存疑条件的连续标签转换为所述离散标签之后的误标率,小于第二阈值。
7.一种分类模型训练装置,其特征在于,包括:
第一训练模块,用于利用已知离散标签的第一数据集进行分类模型的初始训练,得到第一分类模型;其中,所述离散标签,用于指示所述第一数据集内样本数据的类别;
第一得到模块,用于将所述第一数据集内的样本数据输入到所述第一分类模型,得到连续标签,其中,所述连续标签,用于指示所述样本数据为对应类别的概率;
第二训练模块,用于利用所述样本数据和所述连续标签构成的第二数据集,继续训练所述第一分类模型得到第二分类模型;
第二得到模块,用于利用所述第二分类模型对所述第一数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签;
更新模块,用于将所述第二分类模型输出的连续标签满足存疑条件的所述样本数据输出,通过基于用户输入获取对所述样本数据重新人工标注的离散标签,以更新所述第二数据集;
第三训练模块,用于利用更新后的所述第二数据集继续训练所述第二分类模型,直到满足训练停止条件;
其中,所述第一数据集包括:文本;
所述离散标签用于指示对应文本是低俗文本和普通文本的类别,且所述连续标签用于指示对应文本是低俗文本和普通文本的程度值;或者,所述离散标签,用于指示对应文本是否是标题党文本,且所述连续标签用于指示所述文本是否为标题党文本的程度分类。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取未知标签的第三数据集;
所述第二得到模块,用于利用所述第二分类模型对所述第一数据集与所述第三数据集包含的样本数据进行分类,得到所述第二分类模型输出的连续标签。
9.根据权利要求7或8所述的装置,其特征在于,所述更新模块,具体用于将所述第二分类模型输出的连续标签位于存疑标签值区域的所述样本数据输出。
10.根据权利要求7或8所述的装置,其特征在于,所述第一得到模块,用于将所述第一数据集内的样本数据输入到经过初始训练的所述第一分类模型,得到所述第一分类模型输出的预测标签;根据所述离散标签和所述预测标签,得到所述连续标签。
11.根据权利要求10所述的装置,其特征在于,所述第一得到模块,具体用于当所述离散标签为:y1=1且y0=0时,按照如下得到所述连续标签;
Y0=1-Y1
当所述离散标签为y0=1且y1=0时,按照如下公式得到所述连续标签;
Y1=1-Y0
其中,所述y0为所述离散标签中标注对应样本数据为第一类别的标签值;所述y1为所述离散标签中标注对应样本数据为第二类别的标签值;
所述Y0为所述连续标签中标注对应样本数据为第一类别的标签值;所述Y1为所述连续标签中标注对应样本数据为第二类别的标签值;
所述p0为所述预测标签中标注对应样本数据为所述第一类别的预测值,所述p1为所述预测标签中标注对应样本数据为所述第二类别的预测值;所述k0为将离散标签中指示对应样本数据为第一类别的连续化为所述连续标签的学习率;所述k1为将离散标签中指示对应样本数据为第二类别的连续化为所述连续标签的学习率;
所述λ为预设值。
12.根据权利要求7所述的装置,其特征在于,所述训练停止条件,包括以下至少之一:
所述第二分类模型输出的满足存疑条件的连续标签数目小于第一阈值;
所述第二分类模型输出的满足存疑条件的连续标签转换为所述离散标签之后的误标率,小于第二阈值。
13.一种分类模型训练装置,包括处理器、存储器及存储在存储器上并能够有所述处理器运行的可执行程序,其特征在于,所述处理器运行所述可执行程序时执行如权利要求1至6任一项所述分类模型训练方法的步骤。
14.一种存储介质,其上存储由可执行程序,其特征在于,所述可执行程序被处理器执行时实现如权利要求1至6任一项所述分类模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048889.6A CN111275089B (zh) | 2020-01-16 | 2020-01-16 | 一种分类模型训练方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048889.6A CN111275089B (zh) | 2020-01-16 | 2020-01-16 | 一种分类模型训练方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275089A CN111275089A (zh) | 2020-06-12 |
CN111275089B true CN111275089B (zh) | 2024-03-05 |
Family
ID=71003475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010048889.6A Active CN111275089B (zh) | 2020-01-16 | 2020-01-16 | 一种分类模型训练方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275089B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642635B (zh) * | 2021-08-12 | 2023-09-15 | 百度在线网络技术(北京)有限公司 | 模型训练方法及装置、电子设备和介质 |
CN114241243B (zh) * | 2021-12-20 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 图像分类模型的训练方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460795A (zh) * | 2018-12-17 | 2019-03-12 | 北京三快在线科技有限公司 | 分类器训练方法、装置、电子设备及计算机可读介质 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN110110792A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于增量学习的多标签数据流分类方法 |
CN110287324A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003995B2 (en) * | 2017-05-19 | 2021-05-11 | Huawei Technologies Co., Ltd. | Semi-supervised regression with generative adversarial networks |
-
2020
- 2020-01-16 CN CN202010048889.6A patent/CN111275089B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109460795A (zh) * | 2018-12-17 | 2019-03-12 | 北京三快在线科技有限公司 | 分类器训练方法、装置、电子设备及计算机可读介质 |
CN110110792A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于增量学习的多标签数据流分类方法 |
CN110287324A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
Non-Patent Citations (2)
Title |
---|
主动学习的多标签图像在线分类;徐美香;孙福明;李豪杰;;中国图象图形学报;20150216(02);全文 * |
客户信用评估半监督协同训练模型研究;肖进;薛书田;黄静;谢玲;顾新;;中国管理科学;20160705(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111275089A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580290B (zh) | 用于文本分类的训练集的优化方法及装置 | |
CN109829433B (zh) | 人脸图像识别方法、装置、电子设备及存储介质 | |
EP3855360A1 (en) | Method and device for training image recognition model, and storage medium | |
RU2649294C2 (ru) | Способ и устройство для построения шаблона и способ и устройство для идентификации информации | |
CN108629354B (zh) | 目标检测方法及装置 | |
RU2643500C2 (ru) | Способ и устройство для обучения классификатора и распознавания типа | |
CN112287994A (zh) | 伪标签处理方法、装置、设备及计算机可读存储介质 | |
CN111160448B (zh) | 一种图像分类模型的训练方法及装置 | |
CN109446961B (zh) | 姿势检测方法、装置、设备及存储介质 | |
CN113792207B (zh) | 一种基于多层次特征表示对齐的跨模态检索方法 | |
US11544496B2 (en) | Method for optimizing image classification model, and terminal and storage medium thereof | |
CN109961094B (zh) | 样本获取方法、装置、电子设备及可读存储介质 | |
CN109389220A (zh) | 神经网络模型的处理方法、装置、电子设备以及存储介质 | |
CN113486957B (zh) | 神经网络训练和图像处理方法及装置 | |
CN111275089B (zh) | 一种分类模型训练方法及装置、存储介质 | |
CN112150457A (zh) | 视频检测方法、装置及计算机可读存储介质 | |
CN113140012A (zh) | 图像处理方法、装置、介质及电子设备 | |
CN113609380B (zh) | 标签体系更新方法、搜索方法、装置以及电子设备 | |
CN110968246A (zh) | 中文智能手写输入识别方法及装置 | |
CN115393755A (zh) | 视觉目标跟踪方法、装置、设备以及存储介质 | |
CN115331097A (zh) | 图像检测模型训练方法、装置及图像检测方法 | |
CN113486978A (zh) | 文本分类模型的训练方法、装置、电子设备及存储介质 | |
CN112286440A (zh) | 触摸操作分类、模型训练方法及装置、终端及存储介质 | |
CN114329003B (zh) | 媒体资源数据处理方法、装置、电子设备及存储介质 | |
CN113822020B (zh) | 文本处理方法、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing Applicant after: Beijing Xiaomi pinecone Electronic Co.,Ltd. Address before: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing Applicant before: BEIJING PINECONE ELECTRONICS Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |