CN109543713A - 训练集的修正方法及装置 - Google Patents

训练集的修正方法及装置 Download PDF

Info

Publication number
CN109543713A
CN109543713A CN201811203716.6A CN201811203716A CN109543713A CN 109543713 A CN109543713 A CN 109543713A CN 201811203716 A CN201811203716 A CN 201811203716A CN 109543713 A CN109543713 A CN 109543713A
Authority
CN
China
Prior art keywords
image
current
training set
mark
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811203716.6A
Other languages
English (en)
Other versions
CN109543713B (zh
Inventor
马龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201811203716.6A priority Critical patent/CN109543713B/zh
Publication of CN109543713A publication Critical patent/CN109543713A/zh
Application granted granted Critical
Publication of CN109543713B publication Critical patent/CN109543713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种训练集的修正方法及装置,以解决训练集不准确,导致利用训练集训练得到的分类模型也不准确的问题。其中方法包括:利用当前训练集中的已标注图像训练得到当前分类模型;依据当前分类模型判断是否继续修正当前训练集;若是,则利用当前分类模型,从当前训练集中查找待修正的已标注图像;针对待修正的已标注图像进行重新标注,以便修正当前训练集,并返回利用当前训练集中的已标注图像训练得到当前分类模型的步骤。本发明实现了自动对当前训练集进行修正,修正后的训练集更加准确,进而利用该训练集训练得到的分类模型也更加准确;并且大大减少了重新标注的图像的数量,降低了修正的工作量。

Description

训练集的修正方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种训练集的修正方法及一种训练集的修正装置。
背景技术
分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(也即通常所说的分类器)。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。
在做图像分类的任务中,需要事先标注出大量的图像作为训练集,比如在做猫狗图像分类的任务中,需要先从互联网上抓取大量的图片,然后人工标注出是猫和狗的图片,标注得到训练集后,根据得到的训练集训练出分类器。
训练集的质量对于分类模型的效果影响较大,不准确的训练集训练出的分类模型准确性也不会很高。但是,一种情况是,在人工标注样本的过程中,标注时间长了以后人会由于精力不足可能造成错标,或者由于人的粗心大意不可避免地造成错标,当要标注的数据量大后错标的数量会更大。另一种情况是,当要标注的图片人工分类时就容易错标的情况。比如在做黄反的分类中,要训练的分类模型需要正确将图片分类成色情、性感、正常三类,其中的性感一类容易错标,因为性感很主观,不同的标注人员对性感的定义不同,在某些情况下性感这一类也很容易与色情、正常混淆,这时标注出的训练集的质量是很有问题的。因为如果人工都无法正确分类的话,分类模型也是不能正确分类的,这种情况下,训练集的准确性尤其重要,这时可以说训练集的质量直接决定分类模型的性能。
前面两种情况下,不论是标注人员能客观分类但由于失误不小心错标,还是标注人员在标注时就因为主观原因而错标,均会导致训练集中出现错标的数据。这些错标的数据是训练集的脏数据,当训练集量中数据量很大时,其中的脏数据数量也很大。因此,现有技术中的训练集不准确,导致利用训练集训练得到的分类模型也不准确。
发明内容
本发明实施例提供一种训练集的修正方法及一种训练集的修正装置,以解决训练集不准确,导致利用训练集训练得到的分类模型也不准确的问题。
为了解决上述技术问题,本发明实施例提供了一种训练集的修正方法,所述方法包括:
利用当前训练集中的已标注图像训练得到当前分类模型;
依据所述当前分类模型判断是否继续修正所述当前训练集;
若是,则利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像;
针对所述待修正的已标注图像进行重新标注,以便修正所述当前训练集,并返回所述利用当前训练集中的已标注图像训练得到当前分类模型的步骤。
优选地,所述利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像的步骤,包括:利用所述当前分类模型,分别提取所述当前训练集中的每个已标注图像的特征向量;依据所述特征向量对所述当前训练集中的已标注图像进行聚类,得到至少两个聚类簇;分别从每个聚类簇中的已标注图像中查找待修正的已标注图像。
优选地,所述分别从每个聚类簇中的已标注图像中查找待修正的已标注图像的步骤,包括:分别计算所述聚类簇中的每个已标注图像的特征向量到所述聚类簇的质心的距离;从所述聚类簇中提取出与所述质心距离最大的预设数量的已标注图像,作为待修正的已标注图像。
优选地,所述依据所述当前分类模型判断是否继续修正所述当前训练集的步骤,包括:计算所述当前分类模型在所述当前训练集上的训练误差;判断所述训练误差是否小于设定阈值;若否,则确定继续修正所述当前训练集。
优选地,所述计算所述当前分类模型在所述当前训练集上的训练误差的步骤,包括:利用所述当前分类模型分别识别所述当前训练集中的每个已标注图像的类别;针对每个已标注图像,将已标注的类别与所述当前分类模型识别的类别进行比较;依据比较结果计算所述当前分类模型对所述已标注图像识别的错误率,将所述错误率作为所述当前分类模型在所述当前训练集上的训练误差。
另一方面,本发明实施例还提供了一种训练集的修正装置,所述装置包括:
训练模块,用于利用当前训练集中的已标注图像训练得到当前分类模型;
判断模块,用于依据所述当前分类模型判断是否继续修正所述当前训练集;
查找模块,用于若所述判断模块判断为是,则利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像;
修正模块,用于针对所述待修正的已标注图像进行重新标注,以便修正所述当前训练集,并返回调用所述训练模块。
优选地,所述查找模块包括:特征提取单元,用于利用所述当前分类模型,分别提取所述当前训练集中的每个已标注图像的特征向量;图像聚类单元,用于依据所述特征向量对所述当前训练集中的已标注图像进行聚类,得到至少两个聚类簇;图像查找单元,用于分别从每个聚类簇中的已标注图像中查找待修正的已标注图像。
优选地,所述图像查找单元包括:距离计算子单元,用于分别计算所述聚类簇中的每个已标注图像的特征向量到所述聚类簇的质心的距离;图像提取子单元,用于从所述聚类簇中提取出与所述质心距离最大的预设数量的已标注图像,作为待修正的已标注图像。
优选地,所述判断模块包括:误差计算单元,用于计算所述当前分类模型在所述当前训练集上的训练误差;误差判断单元,用于判断所述训练误差是否小于设定阈值;修正确定单元,用于若所述误差判断单元判断为否,则确定继续修正所述当前训练集。
优选地,所述误差计算单元包括:类别识别子单元,用于利用所述当前分类模型分别识别所述当前训练集中的每个已标注图像的类别;类别比较子单元,用于针对每个已标注图像,将已标注的类别与所述当前分类模型识别的类别进行比较;概率计算子单元,用于依据比较结果计算所述当前分类模型对所述已标注图像识别的错误率,将所述错误率作为所述当前分类模型在所述当前训练集上的训练误差。
在本发明实施例中,首先利用当前训练集中的已标注图像训练得到当前分类模型;然后依据当前分类模型判断是否继续修正当前训练集;若是,则利用当前分类模型,从当前训练集中查找待修正的已标注图像;针对待修正的已标注图像进行重新标注,以便修正当前训练集,修正后返回利用当前训练集中的已标注图像训练得到当前分类模型的步骤。由此可知,本发明实施例中,实现了自动对当前训练集进行修正,修正后的训练集更加准确,进而利用该训练集训练得到的分类模型也更加准确;并且在修正时仅对待修正的已标注图像进行重新标注即可,因此大大减少了重新标注的图像的数量,降低了修正的工作量。
附图说明
图1是本发明实施例的一种训练集的修正方法的步骤流程图;
图2是本发明实施例的一种训练集的修正装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明实施例的一种训练集的修正方法的步骤流程图。
本发明实施例的训练集的修正方法包括以下步骤:
步骤101,利用当前训练集中的已标注图像训练得到当前分类模型。
在做图像分类的时候,首先从互联网上搜索大量相关的图像并抓取这些图像,然后设定标注规则,并通过标注人员根据设定的标注规则对抓取的图像进行标注,以便标注图像的类别。这些已标注图像即可组成用于训练分类模型的训练集。本发明实施例中,对抓取的大量图像进行标注后,得到的已标注图像组成的训练集,作为初始时的当前训练集。
当前训练集中包括多个已标注图像,利用当前训练集中的已标注图像进行训练,即可得到当前分类模型。
在一种具体实现方式中,可以使用深度学习算法,利用当前训练集训练当前分类模型。深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。一种深度学习算法为基于深信度网((Deep Belief Nets,DBNs)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。另一种深度学习算法为基于卷积神经网络(Convolutionalneuralnetworks,CNNs)提出的多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。比如,深度学习算法使用的网络结构可以是VGG-16网络结构。VGG-16是视觉几何组(Visual GeometryGroup,VGG)开发的卷积神经网络结构,卷积层数为16。
对于利用当前训练集训练得到当前分类模型的具体过程,本领域技术人员根据实际经验进行相关处理即可,本发明实施例对此不再详细论述。
比如,在初始时,想要训练对于猫和狗两种动物的图像的分类模型,则可以抓取大量猫的图像和狗的图像,并分别对每个图像进行标注,以便标注图像的类别,也即标注该图像是猫的图像还是狗的图像。比如,可以抓取3000张猫的图像和3000张狗的图像,并分别对3000张猫的图像和3000张狗的图像进行标注类别,标注后的6000张已标注即可组成当前训练集,利用该当前训练集中的6000张已标注图像进行训练,得到当前分类模型。
步骤102,依据所述当前分类模型判断是否继续修正所述当前训练集。若是,则执行步骤103;若否,则执行步骤105。
在利用当前训练集训练得到当前分类模型后,可以依据当前分类模型判断是否继续修正当前训练集。
在一种具体实现方式中,可以依据当前分类模型在所述当前训练集上的训练误差,判断是否继续修正当前训练集。因此该步骤102可以包括:计算所述当前分类模型在所述当前训练集上的训练误差;判断所述训练误差是否小于设定阈值;若否,则确定继续修正所述当前训练集;若是,则确定不再继续修正所述当前训练集。
通过预先设置一个设定阈值,该设定阈值可以作为对训练误差的判断依据。如果训练误差大于或等于该设定阈值,则可以认为此时的训练误差仍然比较大,因此可以继续对当前训练集进行修正,以便降低后续依据修正后的训练集训练得到的分类模型的训练误差。如果训练误差小于该设定阈值,则可以认为此时的训练误差比较小,因此可以不再继续对当前训练集进行修正,并将当前训练集作为最终修正得到的训练集。
对于上述设定阈值的具体数值,本领域技术人员根据实际经验选用任意适用的值均可,比如可以设置为0.05、0.1、0.15,等等,本发明实施例对此不作限制。
在一种具体实现方式中,计算所述当前分类模型在所述当前训练集上的训练误差的步骤可以包括:利用所述当前分类模型分别识别所述当前训练集中的每个已标注图像的类别;针对每个已标注图像,将已标注的类别与所述当前分类模型识别的类别进行比较;依据比较结果计算所述当前分类模型对所述已标注图像识别的错误率,将所述错误率作为所述当前分类模型在所述当前训练集上的训练误差。
比如,当前训练集为由上述示例中6000张已标注图像组成的训练集,每张已标注图像标注有该图像的类别,当前分类模型为利用当前训练集中的6000张已标注图像进行训练得到的。因此,利用当前分类模型分别识别6000张已标注图像中的每个图像的类别,并获取6000张已标注图像中的每个图像已标注的类别;针对6000张已标注图像中的每个图像,将该图像对应的已标注的类别,与当前分别模型识别出的类别进行比较,如果相同则确定识别正确,如果不同则确定识别错误;将识别错误的已标注图像的数量除以已标注图像的总数量,即可得到当前分类模型对已标注图像识别的错误率,该错误率即为当前分类模型在当前训练集上的训练误差。比如,识别错误的已标注图像为1800张,则错误率为1800/6000=0.3。
步骤103,利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像。
如果在步骤102中确定继续修正所述当前训练集,则可以对当前训练集进行修正。考虑到当前训练集中包括的已标注图像的数量很大,如果针对整个当前训练集中的已标注图像,一张一张地去寻找其中的脏数据,则相当于整体重新标注一遍训练集,费时费力,效率很低。因此,本发明实施例中,采用从当前训练集中查找待修正的已标注图像的方式,可以精准定位脏数据,自动从当前训练集中找出脏数据(也即待修正的已标注图像)。
在一种具体实现方式中,经过分析可知当前训练集中的脏数据和正确数据之间因为有差别,并且当前分类模型会受脏数据的影响,导致当前分类模型对于脏数据和正确数据都会误判,但是因为当前训练集中正确标注的数据占多数,所以当前分类模型对于图像通用的识别是有保证的,当前分类模型只是会对与脏数据类似的图像误判。基于这个认知,可以先使用训练好的当前分类模型对当前训练集中的已标注图像进行聚类,聚类时特征相似的图像会聚在一起。
因此,该步骤103可以包括:
A1,利用所述当前分类模型,分别提取所述当前训练集中的每个已标注图像的特征向量。
比如,当前分类模型利用基于VGG-16网络结构的深度学习算法训练得到,则可以将当前训练集中的每个已标注图像分别输入到当前分类模型中,当前分类模型内部分别提取每个已标注图像的特征,当前分类模型中最后一个卷积层的输出即为已标注图像的特征向量。
比如,按照上述示例中所述的,当前训练集中包括6000个已标注图像,则当前分类模型分别针对6000个已标注图像中的每个已标注图像提取该图像的特征向量,也即提取得到6000个特征向量。
A2,依据所述特征向量对所述当前训练集中的已标注图像进行聚类,得到至少两个聚类簇。
聚类是指在数据中发现数据之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好,聚类旨在发现有用的聚类簇。
本发明实施例中,可以采用K-Means(K均值)算法对当前训练集中的已标注图像进行聚类。K-Means算法是一个重复移动类中心点的过程,把类的中心点,也称质心,移动到其包含成员(成员即已标注图像的特征向量)的平均位置,然后重新划分其内部成员。K是算法计算出的超参数,表示类的数量。K-Means聚类旨在发现用户指定个数K的聚类簇。
K-Means算法的简单描述如下:
{选择K个点作为初始质心
repeat
将每个点指派到最近的质心,形成K个簇
重新计算每个簇的质心
until簇不发生变化或达到最大迭代次数}
比如,按照上述示例中所述的,当前训练集中包括6000个已标注图像,其中包括猫的图像和狗的图像两类,则可以设置超参数K=2,因此聚类后即可得到两个聚类簇。比如得到的两个聚类簇中,每个聚类簇包括3000个已标注图像。
A3,分别从每个聚类簇中的已标注图像中查找待修正的已标注图像。
在一种具体实现方式中,该步骤A3具体可以包括:
A31,分别计算所述聚类簇中的每个已标注图像的特征向量到所述聚类簇的质心的距离。
每个聚类簇中包括多个已标注图像,针对每个聚类簇,分别计算该聚类簇中的每个已标注图像的特征向量到该聚类簇的质心的距离。比如,针对上述示例中得到的两个聚类簇,可以分别计算第一个聚类簇中的每个已标注图像的特征向量到该聚类簇的质心的距离,并分别计算第二个聚类簇中的每个已标注图像的特征向量到该聚类簇的质心的距离。
本发明实施例中,计算已标注图像的特征向量到聚类簇的质心的距离,具体可以计算欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离,等等,对于距离的具体计算过程,本发明实施例不再详细论述。
A32,从所述聚类簇中提取出与所述质心距离最大的预设数量的已标注图像,作为待修正的已标注图像。
针对每个聚类簇,在分别计算出该聚类簇中的每个已标注图像的特征向量到该聚类簇的质心的距离后,可以从该聚类簇中提取出与质心距离最大的预设数量的已标注图像,作为待修正的已标注图像。
在一种具体实现方式中,针对每个聚类簇,可以按照该聚类簇中的每个已标注图像的特征向量到该聚类簇的质心的距离的大小,对该聚类簇中的已标注图像进行升序排序或者降序排序,然后从排序后到质心距离最大的已标注图像开始,按顺序依次提取出预设数量的已标注图像。
对于上述预设数量的具体数值,本领域技术人员根据实际经验选用任意适用的值均可,比如可以设置为500、1000,等等,本发明实施例对此不作限制。
比如,如果设置预设数量为500,聚类簇为2个,则分别从2个聚类簇中提取出500个待修正的已标注图像,因此一共提取出了1000个待修正的已标注图像。
步骤104,针对所述待修正的已标注图像进行重新标注,以便修正所述当前训练集。并返回步骤101。
在从当前训练集中查找到待修正的已标注图像后,可以针对这些待修正的已标注图像进行重新标注。
在一种具体实现方式中,本发明实施例的训练集的修正方法可以应用于终端设备上,因此终端设备在从当前训练集中查找到待修正的已标注图像后,可以将其显示给用户,用户即可对这些待修正的已标注图像进行重新标注,终端设备获取重新标注后的图像,经过上述过程即可达到针对待修正的已标注图像进行重新标注的目的。
在对待修正的已标注图像进行重新标注后,也即对当前训练集进行了修正。修正后当前训练集中包括的即为修正后(也即重新标注后)的图像,以及除待修正的已标注图像之外剩余的已标注图像。
比如,按照上述的示例所述,如果当前训练集中包括6000个已标注图像,一共提取出了1000个待修正的已标注图像,则对1000个待修正的已标注图像进行重新标注,修正后当前训练集中包括的即为1000个重新标注后的图像,以及除提取出的1000个待修正的已标注图像之外剩余的5000个已标注图像。
在对当前训练集进行修正后,继续返回执行步骤101。
步骤105,结束修正。
如果在步骤102中依据当前分类模型判断出不再继续修正当前训练集,则可以结束修正。此时,可以认为当前训练集为最终修正完成的训练集,当前分类模型为最终的分类模型。
总结来说,在抓取并标注得到一个训练集后,先不管该训练集中是否具有脏数据,权且认为该训练集是准确的,基于该训练集训练分类模型,这里以使用深度学习做图像分类为例,使用VGG-16网络结构训练分类模型,将标注好的图片输入VGG-16网络,经过不断迭代最终训练好分类模型。因为训练集中可能具有脏数据,这些脏数据和正确数据之间因为有差别,并且分类模型会受脏数据的影响,导致分类模型对于脏数据和正确数据都会误判,但是因为训练集中正确标注的数据占多数,所以分类模型对于图像通用的识别是有保证的,分类模型只是会对与脏数据类似的数据误判,基于这个认知,先使用训练好的分类模型提取训练集中的已标注图像的特征,基于这些特征做聚类,聚类时特征相似的数据会聚在一起,而误标的脏数据由于数量没正确标注的数据量大,所以特征与正确标注数据的特征还是有差异的,第一轮聚类算法收敛后,找出噪音数据(也即待修正的已标注图像),则这些噪音数据很大的可能是脏数据,将这些脏数据取出再给重新标注,这时由于噪音数据的数据量比原有训练集量小很多,人工标注成本小很多。将修正的图像放回训练集后,重新训练分类模型,基于重新训练好的分类模型再次提取图像特征,使用这些新提取的特征再按之前的办法做聚类,找出噪音数据,再重新标注这些得到的噪音数据,以此类推,不停迭代,直到噪音数据没有或很少时停止迭代,此时的训练集即是修正好的训练集,此时的训练集是高质量的。
本发明实施例中,实现了自动对当前训练集进行修正,修正后的训练集更加准确,进而利用该训练集训练得到的分类模型也更加准确;并且在修正时仅对待修正的已标注图像进行重新标注即可,因此大大减少了重新标注的图像的数量,降低了修正的工作量。
使用已训练好的分类模型反过来去寻找训练集中的脏数据,能极大减少人工标注的成本,也节省了时间,便于高效迭代模型。自动修正训练集的过程是高度自动化的,能很快的清洗训练集中的脏数据,极大地提高迭代效率;该清洗流程能有效清洗训练集中的脏数据,能提高训练出的分类模型的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明实施例的一种训练集的修正装置的结构框图。
本发明实施例的训练集的修正装置包括以下模块:
训练模块201,用于利用当前训练集中的已标注图像训练得到当前分类模型;
判断模块202,用于依据所述当前分类模型判断是否继续修正所述当前训练集;
查找模块203,用于若所述判断模块判断为是,则利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像;
修正模块204,用于针对所述待修正的已标注图像进行重新标注,以便修正所述当前训练集,并返回调用所述训练模块。
在一种优选实施方式中,所述查找模块包括:特征提取单元,用于利用所述当前分类模型,分别提取所述当前训练集中的每个已标注图像的特征向量;图像聚类单元,用于依据所述特征向量对所述当前训练集中的已标注图像进行聚类,得到至少两个聚类簇;图像查找单元,用于分别从每个聚类簇中的已标注图像中查找待修正的已标注图像。
在一种优选实施方式中,所述图像查找单元包括:距离计算子单元,用于分别计算所述聚类簇中的每个已标注图像的特征向量到所述聚类簇的质心的距离;图像提取子单元,用于从所述聚类簇中提取出与所述质心距离最大的预设数量的已标注图像,作为待修正的已标注图像。
在一种优选实施方式中,所述判断模块包括:误差计算单元,用于计算所述当前分类模型在所述当前训练集上的训练误差;误差判断单元,用于判断所述训练误差是否小于设定阈值;修正确定单元,用于若所述误差判断单元判断为否,则确定继续修正所述当前训练集。
在一种优选实施方式中,所述误差计算单元包括:类别识别子单元,用于利用所述当前分类模型分别识别所述当前训练集中的每个已标注图像的类别;类别比较子单元,用于针对每个已标注图像,将已标注的类别与所述当前分类模型识别的类别进行比较;概率计算子单元,用于依据比较结果计算所述当前分类模型对所述已标注图像识别的错误率,将所述错误率作为所述当前分类模型在所述当前训练集上的训练误差。
本发明实施例中,实现了自动对当前训练集进行修正,修正后的训练集更加准确,进而利用该训练集训练得到的分类模型也更加准确;并且在修正时仅对待修正的已标注图像进行重新标注即可,因此大大减少了重新标注的图像的数量,降低了修正的工作量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种训练集的修正方法和一种训练集的修正装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种训练集的修正方法,其特征在于,所述方法包括:
利用当前训练集中的已标注图像训练得到当前分类模型;
依据所述当前分类模型判断是否继续修正所述当前训练集;
若是,则利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像;
针对所述待修正的已标注图像进行重新标注,以便修正所述当前训练集,并返回所述利用当前训练集中的已标注图像训练得到当前分类模型的步骤。
2.根据权利要求1所述的方法,其特征在于,所述利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像的步骤,包括:
利用所述当前分类模型,分别提取所述当前训练集中的每个已标注图像的特征向量;
依据所述特征向量对所述当前训练集中的已标注图像进行聚类,得到至少两个聚类簇;
分别从每个聚类簇中的已标注图像中查找待修正的已标注图像。
3.根据权利要求2所述的方法,其特征在于,所述分别从每个聚类簇中的已标注图像中查找待修正的已标注图像的步骤,包括:
分别计算所述聚类簇中的每个已标注图像的特征向量到所述聚类簇的质心的距离;
从所述聚类簇中提取出与所述质心距离最大的预设数量的已标注图像,作为待修正的已标注图像。
4.根据权利要求1所述的方法,其特征在于,所述依据所述当前分类模型判断是否继续修正所述当前训练集的步骤,包括:
计算所述当前分类模型在所述当前训练集上的训练误差;
判断所述训练误差是否小于设定阈值;
若否,则确定继续修正所述当前训练集。
5.根据权利要求4所述的方法,其特征在于,所述计算所述当前分类模型在所述当前训练集上的训练误差的步骤,包括:
利用所述当前分类模型分别识别所述当前训练集中的每个已标注图像的类别;
针对每个已标注图像,将已标注的类别与所述当前分类模型识别的类别进行比较;
依据比较结果计算所述当前分类模型对所述已标注图像识别的错误率,将所述错误率作为所述当前分类模型在所述当前训练集上的训练误差。
6.一种训练集的修正装置,其特征在于,所述装置包括:
训练模块,用于利用当前训练集中的已标注图像训练得到当前分类模型;
判断模块,用于依据所述当前分类模型判断是否继续修正所述当前训练集;
查找模块,用于若所述判断模块判断为是,则利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像;
修正模块,用于针对所述待修正的已标注图像进行重新标注,以便修正所述当前训练集,并返回调用所述训练模块。
7.根据权利要求6所述的装置,其特征在于,所述查找模块包括:
特征提取单元,用于利用所述当前分类模型,分别提取所述当前训练集中的每个已标注图像的特征向量;
图像聚类单元,用于依据所述特征向量对所述当前训练集中的已标注图像进行聚类,得到至少两个聚类簇;
图像查找单元,用于分别从每个聚类簇中的已标注图像中查找待修正的已标注图像。
8.根据权利要求7所述的装置,其特征在于,所述图像查找单元包括:
距离计算子单元,用于分别计算所述聚类簇中的每个已标注图像的特征向量到所述聚类簇的质心的距离;
图像提取子单元,用于从所述聚类簇中提取出与所述质心距离最大的预设数量的已标注图像,作为待修正的已标注图像。
9.根据权利要求6所述的装置,其特征在于,所述判断模块包括:
误差计算单元,用于计算所述当前分类模型在所述当前训练集上的训练误差;
误差判断单元,用于判断所述训练误差是否小于设定阈值;
修正确定单元,用于若所述误差判断单元判断为否,则确定继续修正所述当前训练集。
10.根据权利要求9所述的装置,其特征在于,所述误差计算单元包括:
类别识别子单元,用于利用所述当前分类模型分别识别所述当前训练集中的每个已标注图像的类别;
类别比较子单元,用于针对每个已标注图像,将已标注的类别与所述当前分类模型识别的类别进行比较;
概率计算子单元,用于依据比较结果计算所述当前分类模型对所述已标注图像识别的错误率,将所述错误率作为所述当前分类模型在所述当前训练集上的训练误差。
CN201811203716.6A 2018-10-16 2018-10-16 训练集的修正方法及装置 Active CN109543713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811203716.6A CN109543713B (zh) 2018-10-16 2018-10-16 训练集的修正方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811203716.6A CN109543713B (zh) 2018-10-16 2018-10-16 训练集的修正方法及装置

Publications (2)

Publication Number Publication Date
CN109543713A true CN109543713A (zh) 2019-03-29
CN109543713B CN109543713B (zh) 2021-03-26

Family

ID=65843960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811203716.6A Active CN109543713B (zh) 2018-10-16 2018-10-16 训练集的修正方法及装置

Country Status (1)

Country Link
CN (1) CN109543713B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060247A (zh) * 2019-04-18 2019-07-26 深圳市深视创新科技有限公司 应对样本标注错误的鲁棒深度神经网络学习方法
CN110163849A (zh) * 2019-04-28 2019-08-23 上海鹰瞳医疗科技有限公司 训练数据处理方法、分类模型训练方法及设备
CN110163296A (zh) * 2019-05-29 2019-08-23 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN110210535A (zh) * 2019-05-21 2019-09-06 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110288007A (zh) * 2019-06-05 2019-09-27 北京三快在线科技有限公司 数据标注的方法、装置及电子设备
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110674349A (zh) * 2019-09-27 2020-01-10 北京字节跳动网络技术有限公司 视频poi识别方法、装置及电子设备
CN111507407A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN111984812A (zh) * 2020-08-05 2020-11-24 沈阳东软智能医疗科技研究院有限公司 一种特征提取模型生成方法、图像检索方法、装置及设备
CN112015897A (zh) * 2020-08-27 2020-12-01 中国平安人寿保险股份有限公司 语料的意图标注方法、装置、设备及存储介质
CN113095342A (zh) * 2019-12-23 2021-07-09 北京金山云网络技术有限公司 基于误判样本图片的审核模型优化方法、装置及服务器
CN113269215A (zh) * 2020-02-17 2021-08-17 百度在线网络技术(北京)有限公司 一种训练集的构建方法、装置、设备和存储介质
CN113342799A (zh) * 2021-08-09 2021-09-03 明品云(北京)数据科技有限公司 一种数据修正方法及系统
CN113408632A (zh) * 2021-06-28 2021-09-17 北京百度网讯科技有限公司 提高图像分类准确性的方法、装置、电子设备及存储介质
CN113516162A (zh) * 2021-04-26 2021-10-19 湖南大学 一种基于OCSVM和K-means算法的工控系统流量异常检测方法与系统
CN113887680A (zh) * 2021-12-08 2022-01-04 智道网联科技(北京)有限公司 训练模型数据的检验方法、电子设备及存储介质
CN115081513A (zh) * 2022-05-18 2022-09-20 江苏方天电力技术有限公司 一种水冷冷水机组故障诊断方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法
US20150170001A1 (en) * 2013-09-16 2015-06-18 Google Inc. Training image sampling
US20160086057A1 (en) * 2014-09-22 2016-03-24 Kabushiki Kaisha Toshiba Feature point detection device, feature point detection method, and computer program product
CN106557485A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 一种选取文本分类训练集的方法及装置
CN106603324A (zh) * 2015-10-20 2017-04-26 富士通株式会社 训练集的获取装置以及方法
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法
US20150170001A1 (en) * 2013-09-16 2015-06-18 Google Inc. Training image sampling
US20160086057A1 (en) * 2014-09-22 2016-03-24 Kabushiki Kaisha Toshiba Feature point detection device, feature point detection method, and computer program product
CN106557485A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 一种选取文本分类训练集的方法及装置
CN106603324A (zh) * 2015-10-20 2017-04-26 富士通株式会社 训练集的获取装置以及方法
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范先念: "数据不平衡分类问题研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060247A (zh) * 2019-04-18 2019-07-26 深圳市深视创新科技有限公司 应对样本标注错误的鲁棒深度神经网络学习方法
CN110163849A (zh) * 2019-04-28 2019-08-23 上海鹰瞳医疗科技有限公司 训练数据处理方法、分类模型训练方法及设备
CN110210535A (zh) * 2019-05-21 2019-09-06 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110210535B (zh) * 2019-05-21 2021-09-10 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110163296A (zh) * 2019-05-29 2019-08-23 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN110163296B (zh) * 2019-05-29 2020-12-18 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN110288007A (zh) * 2019-06-05 2019-09-27 北京三快在线科技有限公司 数据标注的方法、装置及电子设备
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
US11507882B2 (en) 2019-09-12 2022-11-22 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for optimizing training set for text classification and storage medium
CN110674349A (zh) * 2019-09-27 2020-01-10 北京字节跳动网络技术有限公司 视频poi识别方法、装置及电子设备
CN110674349B (zh) * 2019-09-27 2023-03-14 北京字节跳动网络技术有限公司 视频poi识别方法、装置及电子设备
CN113095342A (zh) * 2019-12-23 2021-07-09 北京金山云网络技术有限公司 基于误判样本图片的审核模型优化方法、装置及服务器
CN113269215A (zh) * 2020-02-17 2021-08-17 百度在线网络技术(北京)有限公司 一种训练集的构建方法、装置、设备和存储介质
CN113269215B (zh) * 2020-02-17 2023-08-01 百度在线网络技术(北京)有限公司 一种训练集的构建方法、装置、设备和存储介质
CN111507407A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN111507407B (zh) * 2020-04-17 2024-01-12 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN111984812A (zh) * 2020-08-05 2020-11-24 沈阳东软智能医疗科技研究院有限公司 一种特征提取模型生成方法、图像检索方法、装置及设备
CN111984812B (zh) * 2020-08-05 2024-05-03 沈阳东软智能医疗科技研究院有限公司 一种特征提取模型生成方法、图像检索方法、装置及设备
CN112015897A (zh) * 2020-08-27 2020-12-01 中国平安人寿保险股份有限公司 语料的意图标注方法、装置、设备及存储介质
CN113516162A (zh) * 2021-04-26 2021-10-19 湖南大学 一种基于OCSVM和K-means算法的工控系统流量异常检测方法与系统
CN113408632A (zh) * 2021-06-28 2021-09-17 北京百度网讯科技有限公司 提高图像分类准确性的方法、装置、电子设备及存储介质
CN113342799A (zh) * 2021-08-09 2021-09-03 明品云(北京)数据科技有限公司 一种数据修正方法及系统
CN113887680A (zh) * 2021-12-08 2022-01-04 智道网联科技(北京)有限公司 训练模型数据的检验方法、电子设备及存储介质
CN115081513A (zh) * 2022-05-18 2022-09-20 江苏方天电力技术有限公司 一种水冷冷水机组故障诊断方法及系统

Also Published As

Publication number Publication date
CN109543713B (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN109543713A (zh) 训练集的修正方法及装置
Kristan et al. The seventh visual object tracking VOT2019 challenge results
CN107851191B (zh) 用于图像中的对象检测的基于上下文的先验
CN106682696B (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN108664924B (zh) 一种基于卷积神经网络的多标签物体识别方法
CN105844283B (zh) 用于识别图像类目归属的方法、图像搜索方法及装置
CN106294344B (zh) 视频检索方法和装置
CN113705597B (zh) 一种图像处理方法、装置、计算机设备以及可读存储介质
CN103268495B (zh) 计算机系统中基于先验知识聚类的人体行为建模识别方法
CN105765609B (zh) 使用有向无环图的存储器促进
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
CN103116766B (zh) 一种基于增量神经网络和子图编码的图像分类方法
CN113536922A (zh) 一种加权融合多种图像任务的视频行为识别方法
CN104112143A (zh) 基于加权超球支持向量机算法的图像分类方法
CN107741781A (zh) 无人机的飞行控制方法、装置、无人机及存储介质
CN106203296B (zh) 一种属性辅助的视频动作识别方法
CN110348447A (zh) 一种具有丰富空间信息的多模型集成目标检测方法
CN104809469A (zh) 一种面向服务机器人的室内场景图像分类方法
CN110163117A (zh) 一种基于自激励判别性特征学习的行人重识别方法
CN106682681A (zh) 一种基于相关反馈的识别算法自动改进方法
CN110442725A (zh) 实体关系抽取方法及装置
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
CN110020669A (zh) 一种车牌分类方法、系统、终端设备及计算机程序
CN110348492A (zh) 一种基于上下文信息及多特征融合的相关滤波目标跟踪方法
CN115098732B (zh) 数据处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant