CN112966754A - 样本筛选方法、样本筛选装置及终端设备 - Google Patents
样本筛选方法、样本筛选装置及终端设备 Download PDFInfo
- Publication number
- CN112966754A CN112966754A CN202110260472.0A CN202110260472A CN112966754A CN 112966754 A CN112966754 A CN 112966754A CN 202110260472 A CN202110260472 A CN 202110260472A CN 112966754 A CN112966754 A CN 112966754A
- Authority
- CN
- China
- Prior art keywords
- sample
- loss
- samples
- intermediate layer
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013145 classification model Methods 0.000 claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims description 75
- 230000006870 function Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000011176 pooling Methods 0.000 description 9
- 238000002372 labelling Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请适用于人工智能技术领域,提供了样本筛选方法、样本筛选装置、终端设备及存储介质,其中,一种样本筛选方法,包括:针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。通过上述方法,可以从大量的未标注样本中获得质量较高的未标注样本。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及样本筛选方法、样本筛选装置、终端设备及计算机可读存储介质。
背景技术
深度学习模型近年来在各个领域取得了突破性进展。而训练数据集的质量是决定机器学习模型实际表现的关键因素之一。
而目前,准备大批量的样本费时费力、成本非常高,例如,可能需要对大批量的未标注样本进行标注,从而获得标注样本。然而,有很多未标注样本的质量较差,如相似的未标注样本的数量可能过多等等,导致所获得的标注样本的质量不高,影响了对相应的模型的训练效果,从而影响了模型的应用性能,并且大大提升了标注所需的时间成本以及人力成本等。
可见,亟需一种从大量的未标注样本中获得质量较高的未标注样本的方法。
发明内容
有鉴于此,本申请实施例提供了样本筛选方法、样本筛选装置、终端设备及计算机可读存储介质,可以从大量的未标注样本中获得质量较高的未标注样本。
第二方面,本申请实施例提供了一种样本筛选方法,包括:
针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;
通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;
根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。
第二方面,本申请实施例提供了一种样本筛选装置,包括:
第一处理模块,用于针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;
第二处理模块,用于通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;
筛选模块,用于根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第二方面所述的样本筛选方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第二方面所述的样本筛选方法。
实施本申请实施例提供的样本筛选方法具有以下有益效果:通过本申请实施例,可以针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;然后,通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;从而根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。可见,通过本申请实施例,可以通过分类模型和损失预测模型获得各个第一样本所分别对应的第一损失预测结果,以通过第一损失预测结果评估对应的第一样本在分类模型的处理过程中的信息损失情况,获得对应的第一样本的质量信息,以进一步筛选得到目标样本,从而从大量的未标注样本中获得质量较高的未标注样本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种样本筛选方法的流程示意图;
图2是本申请一实施例提供的通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果的一种示例性示意图;
图3是本申请一实施例提供的通过训练完成的分类模型和训练完成的损失预测模型获得目标样本的一种示例性示意图;
图4是本申请一实施例提供的联合训练的一种示例性示例图;
图5是本申请一实施例提供的一种样本筛选装置的结构示意图;
图6是本申请一实施例提供的终端设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的样本筛选方法可以应用于服务器、台式电脑、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
请参阅图1,图1示出了本申请实施例提供的一种样本筛选方法的流程图。
如图1所示,本实施例提供的一种样本筛选方法可以包括:
步骤S101,针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频。
其中,所述分类模型具体可以为文本分类模型、图像分类模型或者视频分类模型。所述分类模型的具体结构和类型在此不作限定。示例性的,所述分类模型可以为逻辑回归模型、决策树模型、随机森林模型、梯度提升树模型、多层感知机、线性支持向量机或者朴素贝叶斯模型等等。
所述指定中间层可以对输入进行特征提取。示例性的,所述指定中间层可以包括卷积层,当然,所述指定中间层还可以包括其他层,例如池化层、激活层等等,所述指定中间层的层数和具体结构在此不作限定。
需要说明的是,所述指定中间层可以有一个或者至少两个,每一个指定中间层可以输出一个第一中间层特征向量。若所述指定中间层的个数为不止一个,那么,各个指定中间层可以并行排列,也可以顺序排列,各个指定中间层之间的关系在此也不作限定。
所述分类模型可以预先训练得到。所述分类模型的具体训练方式在此不作限定。
示例性的,所述训练完成的分类模型可以为与所述损失预测模型进行联合训练后得到。例如,可以根据第二数据集,对分类模型和损失预测模型进行联合训练,获得训练完成的分类模型和训练完成的损失预测模型。
或者,也可以对所述分类模型进行单独训练,以获得训练完成的分类模型。
在一种示例中,对所述分类模型进行训练的一种示例性方式可以为:
根据第一数据集,对所述分类模型进行训练,获得训练完成的分类模型,其中,所述第一数据集包括多个第一训练样本和每个第一训练样本所对应的类别标签,每个第一训练样本的类型与所述第一样本的类型相同。
其中,在针对所述分类模型的每一次迭代训练中,从第一训练集中获取一个第一训练样本;
将所述第一训练样本输入所述分类模型,获取所述分类模型针对所述第一训练样本得到的第一训练结果;
根据所述第一训练结果,确定所述分类模型是否训练完成。
示例性的,可以根据所述第一训练结果中的第一损失值确定所述分类模型是否训练完成,或者,也可以是所述分类模型的迭代次数达到第一预设次数等等。
其中,根据所述第一训练结果中的第一损失值确定所述分类模型是否训练完成具体可以包括:
基于所述第一训练结果,根据第一损失函数得到第一损失值,并判断所述第一损失值是否符合第一预设条件;
若所述第一损失值符合第一预设条件,则将所述分类模型作为训练完成的分类模型;
若所述第一损失值不符合第一预设条件,则根据所述第一训练结果对所述分类模型进行更新,并根据更新后的所述分类模型,执行下一次迭代训练。
其中,所述第一损失函数可以为诸如交叉熵函数、均方差函数等等,所述第一预设条件可以为所述第一损失值收敛至第一损失值阈值。
步骤S102,通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果。
所述损失预测模型可以用于预测输入的样本的损失值。所述损失预测模型的具体结构可以根据实际场景来确定。例如,所述损失预测模型可以包括池化层、全连接层和非线性层,各个层的个数和具体结构在此不作限定。
第一损失预测结果可以反映对应的第一样本在分类模型的处理过程中的信息损失情况,例如,可以反映对应的第一样本的信息量等等,从而可以通过第一损失预测结果获得对应的第一样本的质量信息。例如,所述第一损失预测结果可以为预测损失值,此时,该预测损失值较大,则表明对应的第一样本的质量可能也较好。
在一些实施例中,每一个所述损失预测子模型包括池化层、全连接层和非线性层。
其中,池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。示例性的,所述池化层可以为全局平均池化(Golbal AveragePooling,GAP)层。所述非线性层可以在处理中引入非线性特征。所述非线性层可以为线性整流函数(Rectified Linear Unit,ReLU)层。
在一些实施例中,所述分类模型包括至少两个指定中间层,每一个指定中间层输出一个第一中间层特征向量,所述损失预测模型包括至少两个损失预测子模型和分类器,所述损失预测子模型与所述指定中间层一一对应,每一个所述损失预测子模型的输入为对应的指定中间层所输出的第一中间层特征向量;
所述通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果,包括:
针对每一个第一中间层特征向量,将所述第一中间层特征向量输入所述第一中间层特征向量所对应的损失预测子模型,获得所述损失预测子模型针对所述第一中间层特征向量所输出的第一向量;
根据各个所述第一向量,获得第二向量;
根据所述第二向量和所述分类器,获得所述第一损失预测结果。
其中,各个指定中间层可以并行排列,也可以顺序排列,各个指定中间层之间的关系在此不作限定。
示例性的,各个所述第一向量可以拼接后获得第二向量;或者,也可以对各个第一向量中相同位置的元素进行求和后平均,从而获得第二向量;或者,还可以根据各个第一向量所对应的指定中间层的权重和各个所述第一向量进行加权平均后获得所述第二向量。
本申请实施例中,可以通过各个损失预测子模型分别评估各个指定中间层所输出第一中间层特征向量的信息损失情况,再对各个指定中间层所输出第一中间层特征向量的信息损失情况进行融合,从而获得所述第一损失预测结果,以提升损失预测结果的准确性。
在一些实施例中,所述至少两个指定中间层根据预设顺序依次排列,并且所述至少两个指定中间层中,前一层指定中间层的输出为后一层指定中间层的输入。
示例性的,如图2所示,为通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果的一种示例性示意图。
其中,所述指定中间层有3个,分别为指定中间层1、指定中间层2和指定中间层3。所述损失预测子模型与所述指定中间层一一对应,每一个所述损失预测子模型的输入为对应的指定中间层所输出的第一中间层特征向量,每一个所述损失预测子模型包括池化层、全连接层和非线性层。
本申请实施例中,根据各个顺次排列的指定中间层所获得的各个第一中间层特征向量可以认为是特征提取深度依次加深的特征向量,此时,结合包含不同深度的特征信息的第一中间层特征向量来获得所述第一损失预测结果,从而可以避免单一特征的局限性,而大大提升损失预测的准确性。
所述损失预测模型可以预先训练得到。所述损失预测模型的具体训练方式在此不作限定。
示例性的,所述训练完成的损失预测模型可以为与所述分类模型进行联合训练后得到。例如,可以根据第二数据集,对分类模型和损失预测模型进行联合训练,获得训练完成的分类模型和训练完成的损失预测模型。
或者,也可以对所述损失预测模型进行单独训练,以获得训练完成的损失预测模型。
在一种示例中,对所述损失预测模型进行训练的一种示例性方式可以为:
根据第二数据集,对所述损失预测模型进行训练,获得训练完成的损失预测模型,其中,所述第二数据集包括多个第二训练样本和每个第二训练样本所对应的质量标签,每个第二训练样本的类型与所述第一样本的类型相同。
其中,在针对所述损失预测模型的每一次迭代训练中,从第二训练集中获取一个第二训练样本;
将所述第二训练样本输入所述损失预测模型,获取所述损失预测模型针对所述第二训练样本得到的第二训练结果;
根据所述第二训练结果,确定所述损失预测模型是否训练完成。
示例性的,可以根据所述第二训练结果中的第二损失值确定所述损失预测模型是否训练完成,或者,也可以是所述损失预测模型的迭代次数达到第二预设次数等等。
其中,根据所述第二训练结果中的第二损失值确定所述损失预测模型是否训练完成具体可以包括:
基于所述第二训练结果,根据第二损失函数得到第二损失值,并判断所述第二损失值是否符合第二预设条件;
若所述第二损失值符合第二预设条件,则将所述损失预测模型作为训练完成的损失预测模型;
若所述第二损失值不符合第二预设条件,则根据所述第二训练结果对所述损失预测模型进行更新,并根据更新后的所述损失预测模型,执行下一次迭代训练。
其中,所述第二损失函数可以为诸如交叉熵函数、均方差函数等等,所述第二预设条件可以为所述第二损失值收敛至第二损失值阈值。
步骤S103,根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。
从各个第一样本中,筛选出目标样本的方式可以有多种,具体的可以根据所述第一损失预测结果的内容和形式等等来确定。
例如,在一些示例中,所述第一损失预测结果可以为损失等级,也即是说,每一个第一样本的第一损失预测结果可以指示该第一样本的损失等级,该损失等级的具体划分方式和等级个数可以根据实际场景来确定。例如,所述损失等级可以包括高损失等级、中损失等级和低损失等级,不同的损失等级可以指示对应的第一样本的信息量等信息,从而评估该第一样本的质量。在一种示例中,可以将高损失等级的第一样本作为所述目标样本。
或者,在一些示例中,所述第一损失预测结果可以为预测损失值,此时,该预测损失值较大,则表明对应的第一样本的信息量可能也较大,因此,可以将预测损失值最大的K个第一样本和/或预测损失值大于预设损失值阈值的第一样本作为所述目标样本。
在一些实施例中,所述第一损失预测结果包括对应的第一样本的预测损失值;
所述根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本,包括:
将各个第一样本中,预测损失值最大的K个第一样本作为所述目标样本,K为正整数;
和/或,将各个第一样本中,预测损失值大于预设损失值阈值的第一样本作为所述目标样本。
所述第一损失预测结果可以为预测损失值,此时,该预测损失值较大,则表明对应的第一样本的信息量可能也较大,通过该第一样本进行后续的其他应用时可能能够提供更多参考,例如在模型训练中对相应的模型的性能提升可能较大,则可以认为该第一样本的质量较好。
因此,可以从各个第一样本中,筛选出对应的预测损失值最大的K个第一样本和/或预测损失值大于预设损失值阈值的第一样本作为目标样本。K为正整数,且K的取值可以基于第一样本的个数、场景需求等等方式来确定。
在一些实施例中,在获取到所述目标样本之后,可以通过人工标注或者其他标注方式,对所述目标样本进行标注,以获得各个目标样本所分别对应的目标标签。
在一些实施例中,所述样本筛选方法还包括:
通过训练完成的分类模型获得所述第一样本的第一分类预测结果;
在根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本之后,还包括:
根据所述目标样本所对应的第一分类预测结果,确定所述目标样本的目标标签。
本申请实施例中,在获得目标样本之后,可以通过人工标注或者其他标注方式,对所述目标样本进行标注,以获得各个目标样本所分别对应的目标标签。
本申请实施例中,可以通过所述分类模型,获得各个第一样本的初始标签。然后,可以通过人工复验或其他验证方式,对各个第一样本的初始标签进行校验,从而将校验后得到的标签作为所述第一样本的目标标签。
示例性的,如图3所示,为通过训练完成的分类模型和训练完成的损失预测模型获得目标样本的一种示例性示意图。
其中,可以通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果,然后根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。
可见,通过本实施例,不仅可以筛选得到质量较好的目标样本,还可以根据筛选过程中应用到的分类模型所得到的第一分类预测结果,对目标样本进行初步分类,从而合理利用样本筛选过程中的模型,提升处理效率。然后,还可以根据初步分类结果获得所述第一样本的目标标签,从提升所述第一样本的目标标签的准确性。
在一些实施例中,在针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量之前,还包括:
根据第二数据集,对分类模型和损失预测模型进行联合训练,获得训练完成的分类模型和训练完成的损失预测模型,其中,所述第二数据集中包括至少两个第二样本和每个第二样本所对应的预设标签,所述预设标签用于指示对应的第二样本的类别,并且所述第二样本的数据类型与所述第一样本相同。
本申请实施例中,所述分类模型和损失预测模型可以进行联合训练,从而提升训练效率。此外,可以使得分类模型中训练所涉及的参数、训练提取的分类特征与损失预测模型中训练所涉及的参数、训练提取的损失预测特征相关联,从而提升训练完成的分类模型和训练完成的损失预测模型的性能。
在一些实施例中,所述根据第二数据集,对分类模型和损失预测模型进行联合训练,获得训练完成的分类模型和训练完成的损失预测模型,包括:
在所述联合训练的每一次训练迭代中:
针对第二训练集中的每一个第二样本,将所述第二样本输入所述分类模型;
通过所述分类模型获得所述第二样本的第二分类预测结果,并获得所述分类模型中的指定中间层针对所述第二样本所输出的第二中间层特征向量;
通过所述损失预测模型获得所述第二中间层特征向量的第二损失预测结果,以作为所述第二样本所对应的第二损失预测结果;
根据各个第二样本所分别对应的第二分类预测结果和所述第二损失预测结果,以及预设损失函数,计算当前损失值;
根据所述当前损失值,确定所述联合训练是否完成。
本申请实施例中,根据各个第二样本所分别对应第二分类预测结果和所述第二损失预测结果,以及预设损失函数,计算当前损失值的方式可以根据所述预设损失函数的类型等方式来确定。示例性的,所述预设损失函数可以包括交叉熵函数、均方差函数等等中的至少一种。
在一些示例中,所述根据各个第二样本所分别对应第二分类预测结果和所述第二损失预测结果,以及预设损失函数,计算当前损失值,包括:
根据所述第二样本的预设标签和所述第二分类预测结果,获得目标损失;
根据第二损失预测结果,获得预测损失;
根据所述目标损失和所述预设损失,获得所述当前损失值。
所述分类模型针对所述第二数据集中的各个第二样本的第二分类预测结果可以用于计算目标损失;
具体的,所述目标损失假设y是第二样本的预设标签,y^表示所述分类模型针对所述第二样本的第二分类预测结果,那么,所述目标损失l为:
l=Ltarget(y^,y)=-ylog(y^)
此外,还可以根据所述分类模型的指定中间层的输出,对所述损失预测模型进行训练。具体的:
在所述训练迭代中,获得所述分类模型对所述第二样本进行处理时,所述分类模型中的指定中间层针对所述第二样本所输出的第二中间层特征向量;
将所述第二中间层特征向量输入所述损失预测模型,获得所述损失预测模型针对所述第二中间层特征向量的第二损失预测结果,以作为所述第二样本所对应的第二损失预测结果;
根据所述损失预测模型针对所述第二数据集中的各个第二样本的第二损失预测结果,可以计算预测损失l^为:
l^=θloss(h^);
其中,h^表示各个指定中间层针对所述第二样本所分别输出的第二中间层特征向量,θloss(h^)可以是前向神经网络的损失函数,例如交叉熵函数、均方差函数等等。
计算所述目标损失和预测损失之间的均方差即Lloss(l^,l)=(l^-l)2。
因此,所述预设损失函数L为
L=Ltarget(y^,y)+α·Lloss(l^,l)
其中,α为预设权重。
若所述当前损失值符合预设条件,则将本次训练迭代所得到的分类模型作为训练完成的分类模型,并将本次训练迭代所得到的损失预测模型作为训练完成的损失预测模型;
若所述当前损失值不符合预设条件,则根据所述当前损失值,调整分类模型和损失预测模型,并根据调整后的分类模型和损失预测模型执行下一次训练迭代。
所述预设条件可以为所得到的当前损失值收敛至目标损失值或者训练迭代的次数达到预设次数阈值等等。
如图4所示,为所述联合训练的一种示例性示例图。
其中,所述第二样本可以输入分类模型和损失预测模型所构成的联合模型,然后获得所述第二样本的第二分类预测结果和所述第二损失预测结果,并获得目标损失和预设损失,然后根据目标损失和预设损失获得当前损失值。
通过本申请实施例,可以针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;然后,通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;从而根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。可见,通过本申请实施例,可以通过分类模型和损失预测模型获得各个第一样本所分别对应的第一损失预测结果,以通过第一损失预测结果评估对应的第一样本在分类模型的处理过程中的信息损失情况,获得对应的第一样本的质量信息,以进一步筛选得到目标样本,从而从大量的未标注样本中获得质量较高的未标注样本。
请参阅图5,图5是本申请实施例提供的一种样本筛选装置的结构框图。本实施例中该终端设备包括的各单元用于执行上述各个样本筛选方法实施例中的各步骤。具体请参阅上述样本筛选方法所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
参照图5,该样本筛选装置5包括:
第一处理模块501,用于针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;
第二处理模块502,用于通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;
筛选模块503,用于根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。
可选的,该样本筛选装置5还包括:
第三处理模块,用于通过训练完成的分类模型获得所述第一样本的第一分类预测结果;
确定模块,用于根据所述目标样本所对应的第一分类预测结果,确定所述目标样本的目标标签。
可选的,所述分类模型包括至少两个指定中间层,每一个指定中间层输出一个第一中间层特征向量,所述损失预测模型包括至少两个损失预测子模型和分类器,所述损失预测子模型与所述指定中间层一一对应,每一个所述损失预测子模型的输入为对应的指定中间层所输出的第一中间层特征向量;
所述第二处理模块502包括:
第一处理单元,用于针对每一个第一中间层特征向量,将所述第一中间层特征向量输入所述第一中间层特征向量所对应的损失预测子模型,获得所述损失预测子模型针对所述第一中间层特征向量所输出的第一向量;
第二处理单元,用于根据各个所述第一向量,获得第二向量;
第三处理单元,用于根据所述第二向量和所述分类器,获得所述第一损失预测结果。
可选的,所述至少两个指定中间层根据预设顺序依次排列,并且所述至少两个指定中间层中,前一层指定中间层的输出为后一层指定中间层的输入。
可选的,每一个所述损失预测子模型包括池化层、全连接层和非线性层。
可选的,所述第一损失预测结果包括对应的第一样本的预测损失值;
所述筛选模块503具体用于:
将各个第一样本中,预测损失值最大的K个第一样本作为所述目标样本,K为正整数;
和/或,将各个第一样本中,预测损失值大于预设损失值阈值的第一样本作为所述目标样本。
可选的,该样本筛选装置5还包括:
训练模块,用于根据第二数据集,对分类模型和损失预测模型进行联合训练,获得训练完成的分类模型和训练完成的损失预测模型,其中,所述第二数据集中包括至少两个第二样本和每个第二样本所对应的预设标签,所述预设标签用于指示对应的第二样本的类别,并且所述第二样本的数据类型与所述第一样本相同。
可选的,所述训练模块用于:
在所述联合训练的每一次训练迭代中:
针对第二训练集中的每一个第二样本,将所述第二样本输入所述分类模型;
通过所述分类模型获得所述第二样本的第二分类预测结果,并获得所述分类模型中的指定中间层针对所述第二样本所输出的第二中间层特征向量;
通过所述损失预测模型获得所述第二中间层特征向量的第二损失预测结果,以作为所述第二样本所对应的第二损失预测结果;
根据各个第二样本所分别对应的第二分类预测结果和所述第二损失预测结果,以及预设损失函数,计算当前损失值;
根据所述当前损失值,确定所述联合训练是否完成。
通过本申请实施例,可以针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;然后,通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;从而根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。可见,通过本申请实施例,可以通过分类模型和损失预测模型获得各个第一样本所分别对应的第一损失预测结果,以通过第一损失预测结果评估对应的第一样本在分类模型的处理过程中的信息损失情况,获得对应的第一样本的质量信息,以进一步筛选得到目标样本,从而从大量的未标注样本中获得质量较高的未标注样本。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图6是本申请另一实施例提供的一种终端设备的结构框图。如图6所示,该实施例的终端设备6包括:处理器61、存储器62以及存储在所述存储器62中并可在所述处理器61上运行的计算机程序63,例如样本筛选方法的程序。处理器61执行所述计算机程序63时实现上述各个样本筛选方法各实施例中的步骤,例如图1所示的S101至S103。或者,所述处理器61执行所述计算机程序63时实现上述图5对应的实施例中各单元的功能,例如,图5所示的单元501至503的功能,具体请参阅图5对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序63可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器62中,并由所述处理器61执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序63在所述终端设备60中的执行过程。例如,所述计算机程序63可以被分割成第二获取单元、第二确定单元、第二调整单元、第二调整单元以及执行单元,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器61、存储器62。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器61可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器62可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器62也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器62还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器62用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器62还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例中,上述处理器60执行上述计算机程序62以实现上述任意各个样本筛选方法实施例中的步骤时,可以通过分类模型和损失预测模型获得各个第一样本所分别对应的第一损失预测结果,以通过第一损失预测结果评估对应的第一样本在分类模型的处理过程中的信息损失情况,获得对应的第一样本的质量信息,以进一步筛选得到目标样本,从而从大量的未标注样本中获得质量较高的未标注样本。
本申请实施例还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现可实现上述各个样本筛选方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个样本筛选方法实施例中的步骤。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种样本筛选方法,其特征在于,包括:
针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;
通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;
根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。
2.如权利要求1所述的样本筛选方法,其特征在于,还包括:
通过训练完成的分类模型获得所述第一样本的第一分类预测结果;
在根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本之后,还包括:
根据所述目标样本所对应的第一分类预测结果,确定所述目标样本的目标标签。
3.如权利要求1所述的样本筛选方法,其特征在于,所述分类模型包括至少两个指定中间层,每一个指定中间层输出一个第一中间层特征向量,所述损失预测模型包括至少两个损失预测子模型和分类器,所述损失预测子模型与所述指定中间层一一对应,每一个所述损失预测子模型的输入为对应的指定中间层所输出的第一中间层特征向量;
所述通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果,包括:
针对每一个第一中间层特征向量,将所述第一中间层特征向量输入所述第一中间层特征向量所对应的损失预测子模型,获得所述损失预测子模型针对所述第一中间层特征向量所输出的第一向量;
根据各个所述第一向量,获得第二向量;
根据所述第二向量和所述分类器,获得所述第一损失预测结果。
4.如权利要求3所述的样本筛选方法,其特征在于,所述至少两个指定中间层根据预设顺序依次排列,并且所述至少两个指定中间层中,前一层指定中间层的输出为后一层指定中间层的输入。
5.如权利要求1所述的样本筛选方法,其特征在于,所述第一损失预测结果包括对应的第一样本的预测损失值;
所述根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本,包括:
将各个第一样本中,预测损失值最大的K个第一样本作为所述目标样本,K为正整数;
和/或,将各个第一样本中,预测损失值大于预设损失值阈值的第一样本作为所述目标样本。
6.如权利要求1至5任意一项所述的样本筛选方法,其特征在于,在针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量之前,还包括:
根据第二数据集,对分类模型和损失预测模型进行联合训练,获得训练完成的分类模型和训练完成的损失预测模型,其中,所述第二数据集中包括至少两个第二样本和每个第二样本所对应的预设标签,所述预设标签用于指示对应的第二样本的类别,并且所述第二样本的数据类型与所述第一样本相同。
7.如权利要求6所述的样本筛选方法,其特征在于,所述根据第二数据集,对分类模型和损失预测模型进行联合训练,获得训练完成的分类模型和训练完成的损失预测模型,包括:
在所述联合训练的每一次训练迭代中:
针对第二训练集中的每一个第二样本,将所述第二样本输入所述分类模型;
通过所述分类模型获得所述第二样本的第二分类预测结果,并获得所述分类模型中的指定中间层针对所述第二样本所输出的第二中间层特征向量;
通过所述损失预测模型获得所述第二中间层特征向量的第二损失预测结果,以作为所述第二样本所对应的第二损失预测结果;
根据各个第二样本所分别对应的第二分类预测结果和所述第二损失预测结果,以及预设损失函数,计算当前损失值;
根据所述当前损失值,确定所述联合训练是否完成。
8.一种样本筛选装置,其特征在于,包括:
第一处理模块,用于针对第一数据集中的每一个第一样本,通过训练完成的分类模型中的指定中间层获得所述第一样本的第一中间层特征向量,其中,所述第一样本为无标签样本,所述第一样本的数据类型为文本、图像或者视频;
第二处理模块,用于通过训练完成的损失预测模型获得所述第一中间层特征向量的第一损失预测结果;
筛选模块,用于根据各个第一样本所分别对应的第一损失预测结果,从各个第一样本中,筛选出目标样本。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的样本筛选方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的样本筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260472.0A CN112966754B (zh) | 2021-03-10 | 2021-03-10 | 样本筛选方法、样本筛选装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260472.0A CN112966754B (zh) | 2021-03-10 | 2021-03-10 | 样本筛选方法、样本筛选装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966754A true CN112966754A (zh) | 2021-06-15 |
CN112966754B CN112966754B (zh) | 2023-11-07 |
Family
ID=76277063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110260472.0A Active CN112966754B (zh) | 2021-03-10 | 2021-03-10 | 样本筛选方法、样本筛选装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966754B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535930A (zh) * | 2021-09-16 | 2021-10-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练方法、装置及存储介质 |
CN114118305A (zh) * | 2022-01-25 | 2022-03-01 | 广州市玄武无线科技股份有限公司 | 一种样本筛选方法、装置、设备及计算机介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020000961A1 (zh) * | 2018-06-29 | 2020-01-02 | 北京达佳互联信息技术有限公司 | 图像标签识别方法、装置及服务器 |
CN111223564A (zh) * | 2020-01-14 | 2020-06-02 | 浙江大学 | 一种基于卷积神经网络的噪声性听力损失预测系统 |
CN111681091A (zh) * | 2020-08-12 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 基于时间域信息的金融风险预测方法、装置及存储介质 |
-
2021
- 2021-03-10 CN CN202110260472.0A patent/CN112966754B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020000961A1 (zh) * | 2018-06-29 | 2020-01-02 | 北京达佳互联信息技术有限公司 | 图像标签识别方法、装置及服务器 |
CN111223564A (zh) * | 2020-01-14 | 2020-06-02 | 浙江大学 | 一种基于卷积神经网络的噪声性听力损失预测系统 |
CN111681091A (zh) * | 2020-08-12 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 基于时间域信息的金融风险预测方法、装置及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535930A (zh) * | 2021-09-16 | 2021-10-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练方法、装置及存储介质 |
CN114118305A (zh) * | 2022-01-25 | 2022-03-01 | 广州市玄武无线科技股份有限公司 | 一种样本筛选方法、装置、设备及计算机介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112966754B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9990558B2 (en) | Generating image features based on robust feature-learning | |
CN112101190B (zh) | 一种遥感图像分类方法、存储介质及计算设备 | |
CN107506799B (zh) | 一种基于深度神经网络的开集类别发掘与扩展方法与装置 | |
KR102170199B1 (ko) | 비교 세트를 사용한 입력 예시들 분류 | |
CN108073902B (zh) | 基于深度学习的视频总结方法、装置及终端设备 | |
CN110852447B (zh) | 元学习方法和装置、初始化方法、计算设备和存储介质 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN111259812B (zh) | 基于迁移学习的内河船舶重识别方法、设备及存储介质 | |
CN112348081A (zh) | 用于图像分类的迁移学习方法、相关装置及存储介质 | |
CN112966754B (zh) | 样本筛选方法、样本筛选装置及终端设备 | |
CN112329762A (zh) | 图像处理方法、模型训练方法、装置、计算机设备和介质 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN111104831A (zh) | 一种视觉追踪方法、装置、计算机设备以及介质 | |
CN113435499A (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN113283388B (zh) | 活体人脸检测模型的训练方法、装置、设备及存储介质 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN111310743B (zh) | 人脸识别方法、装置、电子设备及可读存储介质 | |
CN115129902B (zh) | 媒体数据处理方法、装置、设备及存储介质 | |
Gaihua et al. | Instance segmentation convolutional neural network based on multi-scale attention mechanism | |
CN114170484B (zh) | 图片属性预测方法、装置、电子设备和存储介质 | |
CN113886578B (zh) | 一种表单分类方法及装置 | |
CN115438755A (zh) | 分类模型的增量训练方法、装置和计算机设备 | |
CN111523308B (zh) | 中文分词的方法、装置及计算机设备 | |
CN114510592A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN111709479B (zh) | 一种图像分类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |