CN112766387B - 一种训练数据的纠错方法、装置、设备及存储介质 - Google Patents

一种训练数据的纠错方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112766387B
CN112766387B CN202110098025.XA CN202110098025A CN112766387B CN 112766387 B CN112766387 B CN 112766387B CN 202110098025 A CN202110098025 A CN 202110098025A CN 112766387 B CN112766387 B CN 112766387B
Authority
CN
China
Prior art keywords
training data
data set
training
feature extraction
extraction network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110098025.XA
Other languages
English (en)
Other versions
CN112766387A (zh
Inventor
张玥
王忠诚
盛国军
沈圣远
徐鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaos Digital Technology Qingdao Co ltd
Karos Iot Technology Co ltd
Kaos Digital Technology Shanghai Co ltd
Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Original Assignee
Kaos Digital Technology Qingdao Co ltd
Karos Iot Technology Co ltd
Kaos Digital Technology Shanghai Co ltd
Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaos Digital Technology Qingdao Co ltd, Karos Iot Technology Co ltd, Kaos Digital Technology Shanghai Co ltd, Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd filed Critical Kaos Digital Technology Qingdao Co ltd
Priority to CN202110098025.XA priority Critical patent/CN112766387B/zh
Publication of CN112766387A publication Critical patent/CN112766387A/zh
Application granted granted Critical
Publication of CN112766387B publication Critical patent/CN112766387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种训练数据的纠错方法、装置、设备及存储介质,包括:获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;获取第二训练数据集,通过训练后的特征提取网络对第二训练数据集进行识别,得到错误训练数据;其中,第一训练数据集中的数据数量小于第二训练数据集中的数据数量。本发明实施例的技术方案可以实现训练数据纠错过程的自动化,提高训练数据的纠错效率,提高纠错结果的可靠性。

Description

一种训练数据的纠错方法、装置、设备及存储介质
技术领域
本发明实施例涉及深度学习领域,尤其涉及一种训练数据的纠错方法、装置、设备及存储介质。
背景技术
随着深度学习技术的发展,人们可以通过使用深度学习的方法,有效地处理图像分类等问题。在进行图像数据分类时,需要先训练数据分类模型,基于数据分类模型进行数据分类。
为了提高数据分类模型分类结果的准确性,往往需要提供大量的样本训练数据,现有的数据分类模型通常依靠人工手动的方式将训练数据进行分类。由于训练数据的总量可能很大,现有方法容易出现对训练数据分类错误的情况,并且依靠人工方式纠错(即查找分类错误的训练数据)可能会花费较长的时间,导致纠错过程十分困难。
现有技术中为了降低训练数据分类结果的错误率,通常采取数据增强的方式,即提高训练数据的总量,从而降低错误数据的比例,但是这种方法可能会存在训练数据过拟合等潜在的风险,导致数据分类模型有效性较差;区别于依靠人工方式纠错,现有技术中还可以利用网络模型的可视化工具提取各训练数据的特征信息,将各训练数据的特征信息与正确样本数据的特征信息进行对比,根据对比结果确定分类错误的训练数据,但是,由于可视化工具的局限性,并不是所有训练数据都可以用可视化工具提取特征,导致纠错结果可靠性较低。
发明内容
本发明实施例提供了一种训练数据的纠错方法、装置、设备及存储介质,可以提高训练数据的纠错效率,提高纠错结果的可靠性。
第一方面,本发明实施例提供了一种训练数据的纠错方法,所述方法包括:
获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;
获取第二训练数据集,通过训练后的特征提取网络对第二训练数据集进行识别,得到错误训练数据;
其中,第一训练数据集中的数据数量小于第二训练数据集中的数据数量。
第二方面,本发明实施例还提供了一种训练数据的纠错装置,该装置包括:
模型训练模块,用于获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;
错误训练数据获取模块,用于获取第二训练数据集,通过训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据;
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行本发明任意实施例提供的训练数据的纠错方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的训练数据的纠错方法。
本发明实施例的技术方案通过获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络,然后获取第二训练数据集,通过训练后的特征提取网络对第二训练数据集进行识别,得到错误训练数据的技术手段,可以实现训练数据纠错过程的自动化,提高训练数据的纠错效率,提高纠错结果的可靠性。
附图说明
图1是本发明实施例一中的一种训练数据的纠错方法的流程图;
图2是本发明实施例二中的一种训练数据的纠错方法的流程图;
图3是本发明实施例三中的一种训练数据的纠错方法的流程图;
图4是本发明实施例四中的一种训练数据的纠错装置的结构图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种训练数据的纠错方法的流程图,本实施例可适用于对分类模型的训练数据进行自动纠错的情形,该方法可以由训练数据的纠错装置来执行,该装置可以由软件和/或硬件来实现,并一般可以集成在计算机以及所有包含程序运行功能的智能设备(例如,终端设备或者服务器)中,具体包括如下步骤:
步骤110、获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络。
在本实施例中,第一训练数据集为根据实际的分类模型(也即目标分类模型)的构建需求,通过人工分类方式得到的训练数据集,且所述第一训练数据集中包括不同类别对应的正确的训练数据。具体的,假设需要构建针对牛和羊的分类模型,则可以首先获取多个牛和羊的样本图像数据,然后通过人工分类方式分别将牛的样本图像数据和羊的样本图像数据进行分类,并在每个图像数据中对该图像数据所属的类别进行标注,标注后的各样本图像数据共同构成所述第一训练数据集。
其中,为了保证第一训练数据集中各训练数据分类结果的准确性,可以获取少量的样本图像数据,由此可以避免人工分类错误,提高后续模型训练结果的有效性。
在本实施例中,为了提高对目标分类模型的构建效率,提出了一种用训练数据集训练现有的较为成熟的分类模型(也即原始分类模型)的实施方式,所述原始分类模型可以与实际的需要构建的分类模型不同。例如,假设目标分类模型为牛和羊的分类模型,则原始分类模型可以为猫和狗的分类模型。
其中,原始分类模型中可以包括特征提取网络和判别网络两个部分,特征提取网络用于提取输入数据对应的特征,所述判别网络用于根据输入数据的特征,对输入数据进行判别,并根据预设的分类算法,输出与所述输入数据对应的分类结果。
在本实施例中,将第一训练数据集输入至原始分类模型中的特征提取网络中后,可以利用所述特征提取网络对第一训练数据集中各类别对应的训练数据进行特征提取,得到各类别下正确训练数据的特征提取结果。
步骤120、获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据。
在本实施例中,由于在目标分类模型的实际训练过程中,需要大量的训练数据,因此需要获取第二训练数据集(通过人工分类方式得到的,且包括大量的训练数据的数据集),通过对第二训练数据集进行纠错,并根据纠错结果对第二类训练数据重新分类,即可得到目标分类模型在实际训练过程中,最终需要的训练数据。
其中,第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量,且第二训练数据集中包括的数据类别与第一训练数据集中包括的数据类别相同。具体的,假设第一训练数据集中包括牛和羊的样本图像数据,则第二训练数据集中也同样包括牛和羊的样本图像数据。
在获取到第二训练数据集后,可以将第二训练数据集输入至训练后的特征提取网络中,利用所述训练后的特征提取网络对第二训练数据集中各训练数据进行特征提取,将各训练数据对应的特征提取结果与同一类别下正确训练数据的特征提取结果进行对比,如果某一训练数据对应的特征提取结果与同一类别下正确训练数据的特征提取结果不一致,则可以将该训练数据作为错误训练数据。
在本实施例中,通过获取与目标分类模型相匹配的正确的第一训练数据集,并利用第一训练数据集对原始分类模型中的特征提取网络进行训练,可以使特征提取网络准确地识别到错误的训练数据,提高训练数据纠错结果的可靠性;其次,利用训练后的特征提取网络对第二训练数据集进行纠错,可以实现训练数据纠错过程的自动化,避免通过人工方式纠错导致耗时较长的问题,由此可以提高训练数据的纠错效率。
在一个具体的实施例中,第二训练数据集中的错误训练数据可以为人工分类错误的数据,也可以为不属于第二训练数据集中任一类别的训练数据。具体的,假设第二训练数据集中标注的类别包括牛和羊,如果类别为牛的训练数据中包括羊的图像样本数据,则该羊的图像样本数据即为错误训练数据;如果某一训练数据中虽然对类别(牛或羊)进行了标注,但是该训练数据既不属于牛,也不属于羊,则该训练数据也为错误训练数据。
在本实施例中,获取到第一训练数据集之后,如果不存在原始分类模型,则可以根据实际需求构建目标分类模型,并选择合适的分类算法,对所述目标分类模型中的算法参数进行优化。
本发明实施例的技术方案通过获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络,然后获取第二训练数据集,通过训练后的特征提取网络对第二训练数据集进行识别,得到错误训练数据的技术手段,可以实现训练数据纠错过程的自动化,提高训练数据的纠错效率,提高纠错结果的可靠性。
实施例二
本实施例是对上述实施例一的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图2为本发明实施例二提供的一种训练数据的纠错方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,在本实施例中,如图2所示,本发明实施例提供的方法还可以包括:
步骤210、获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络。
步骤220、获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据。
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量。
步骤230、获取第三训练数据集,所述第三训练数据集为根据各所述错误训练数据,对第二训练数据集进行重新分类得到的数据集。
在此步骤中,第三训练数据集为根据各错误训练数据,通过人工分类方式对第二训练数据集进行重新分类得到的数据集。具体的,假设第二训练数据集中标注的类别包括牛和羊,如果类别为牛的训练数据中包括羊的图像样本数据(即错误训练数据),则将该错误训练数据重新分配至属于羊的训练数据中,并将该错误训练数据的类别修改为羊;如果某一训练数据既不属于牛,也不属于羊(即该训练数据为错误训练数据),则将该错误训练数据从所述第二训练数据集中进行剔除。
步骤240、对所述错误训练数据进行数据增强,得到错误训练数据集,并将所述错误训练数据集输入至训练后的特征提取网络中进行训练,得到新的特征提取网络。
在此步骤中,对错误训练数据进行数据增强的方式,可以是通过加载高斯模块模拟自然光线,以此改变错误训练数据的色域,或者采用增加噪音的方式,提高错误训练数据的多样性,或者可以对错误训练数据进行几何变换(例如翻转、旋转、裁剪、变形以及缩放等)。
在得到错误训练数据集后,将所述错误训练数据集输入至上述步骤中的训练后的特征提取网络中,对所述训练后的特征提取网络进行训练,得到新的特征提取网络。
在本实施例中,为了全面地识别到训练数据集中的错误训练数据,提供了一种利用错误训练数据集对特征提取网络进行训练的实施方式,由此可以避免纠错结果发生遗漏,提高目标分类模型最终使用的训练数据的有效性。
步骤250、通过所述新的特征提取网络对所述第三训练数据集进行识别。
步骤260、判断所述新的特征提取网络是否输出新的错误训练数据,若是,返回执行步骤230;若否,则结束训练数据的纠错方法流程。
在本实施例中,如果所述新的特征提取网络可以输出新的错误训练数据,则根据各错误训练数据(包括历史错误训练数据和新的错误训练数据),对第二训练数据集进行重新分类,得到第三训练数据集,并继续执行步骤240-260;如果所述新的特征提取网络不输出新的错误训练数据,则可以确认当前第三训练数据集为正确的训练数据集,也即目标分类模型在实际训练过程中,最终需要的训练数据集。
在本发明实施例的一个实施方式中,在所述新的特征提取网络不输出错误训练数据之后,还包括:获取所述第三训练数据集和测试数据集;使用所述第三训练数据集和测试数据集对所述原始分类模型中的特征提取网络和判别网络进行迭代训练,得到目标分类模型;所述目标分类模型,用于对获取的图像数据进行分类。
其中,测试数据集可以为包括少量图像数据的数据集。所述第三训练数据集用于输入至原始分类模型中的特征提取网络和判别网络,并根据判别网络的输出结果调整原始分类模型的参数,从而完成对目标分类模型的训练;所述测试数据集用于测试训练后的目标分类模型的分类结果的准确率,根据所述准确率确定所述训练后的目标分类模型是否可以作为最终使用的目标分类模型。
本发明实施例的技术方案通过获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络,然后获取第二训练数据集,通过训练后的特征提取网络对第二训练数据集进行识别,得到错误训练数据,并获取第三训练数据集,对错误训练数据进行数据增强,得到错误训练数据集,将错误训练数据集输入至训练后的特征提取网络中进行训练,得到新的特征提取网络,然后通过新的特征提取网络对第三训练数据集进行识别,得到新的错误训练数据,并返回执行获取第三训练数据集的操作,直至新的特征提取网络不输出新的错误训练数据的技术手段,可以实现训练数据纠错过程的自动化,避免纠错结果发生遗漏,提高训练数据的纠错效率,提高纠错结果的可靠性。
实施例三
本实施例是对上述实施例二的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图3为本发明实施例三提供的一种训练数据的纠错方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,在本实施例中,如图3所示,本发明实施例提供的方法还可以包括:
步骤310、获取第一训练数据集。
步骤320、获取与所述原始分类模型对应的原始训练数据集,并确定所述第一训练数据集与所述原始训练数据集的相似度。
在此步骤中,原始训练数据集为与原始分类模型对应的,用于实现分类功能的训练数据集。具体的,假设原始分类模型为猫和狗的分类模型,则对应的原始训练数据集可以为多个猫和狗的样本图像数据。
其中,可以根据第一训练数据集与原始训练数据集所属的类别,确定第一训练数据集与原始训练数据的相似度。
具体的,假设第一训练数据集为多个牛和羊的样本图像数据,原始训练数据集为多个猫和狗的样本图像数据,第一训练数据集所属的类别为牛和羊,原始训练数据集所属的类别为猫和狗,由于第一训练数据集与原始训练数据集所属的类别均属于四肢动物,则可以确定第一训练数据集与原始训练数据集的相似度较高。
步骤330、根据所述相似度确定与所述原始分类模型对应的目标训练方法,并采用所述目标训练方法,将所述第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络。
在本实施例中,如果第一训练数据集与原始训练数据集的相似度大于预设阈值,即第一训练数据集与原始训练数据集近似相同时,则可以获取较少的样本图像数据作为第一训练数据集,并将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,由此可以提高特征提取网络的训练效率。
在本发明实施例的一个实施方式中,根据所述相似度确定与所述原始分类模型对应的目标训练方法,并采用所述目标训练方法,将所述第一训练数据集输入至原始分类模型中的特征提取网络进行训练,包括:如果所述相似度满足预设相似度要求,则将迁移学习方法作为与所述原始分类模型对应的目标训练方法;采用所述迁移学习方法,将所述第一训练数据集输入至原始分类模型中的特征提取网络进行训练。
其中,如果第一训练数据集与原始训练数据集所属的类别均属于四肢动物,即第一训练数据集与原始训练数据集的相似度较高时,则可以仅对特征提取网络中的部分参数(例如卷积核参数)进行训练,并保留其他参数(例如权重等)的设置。这样设置的好处在于:可以避免对特征提取网络的全部参数进行训练,由此可以提高对特征提取网络的训练效率。
步骤340、获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据。
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量。
在本发明实施例的一个实施方式中,在通过所述训练后的特征提取网络对所述第二训练数据集进行识别之后,还包括:如果所述训练后的特征提取网络识别不到错误训练数据,则将所述第二训练数据集输入至与所述原始分类模型对应的可视化工具中;根据所述可视化工具提取第二训练数据集中各训练数据的特征信息,将各训练数据的特征信息与正确训练数据的特征信息进行对比,根据对比结果筛选出错误训练数据。
这样设置的好处在于:可以避免由于特征提取网络识别不到错误训练数据,导致纠错结果发生遗漏的情形,由此可以提高目标分类模型最终使用的训练数据的有效性。
其中,根据所述可视化工具提取第二训练数据集中各训练数据的特征信息,将各训练数据的特征信息与正确训练数据的特征信息进行对比,根据对比结果筛选出错误训练数据,包括:根据所述可视化工具提取第二训练数据集中各训练数据的方向梯度直方图(Histogram of Oriented Gradient,HOG);根据各训练数据的方向梯度直方图,对各训练数据进行边缘检测;将各训练数据对应的边缘检测结果,与正确训练数据的边缘检测结果进行对比,根据对比结果筛选出错误训练数据。
在一个具体的实施例中,可以根据可视化工具提取第二训练数据集中各训练数据的HOG,然后根据HOG中的梯度变化对各训练数据进行边缘检测,将各训练数据对应的边缘检测结果,与正确训练数据的边缘检测结果进行对比,并分别计算各训练数据与正确训练数据的方差,最后结合边缘检测结果和方差的对比结果,在第二训练数据集中筛选出错误训练数据。
在另一个具体的实施例中,可以根据可视化工具提取第二训练数据集中各训练数据的尺度不变特征变换(Scale-invariant feature transform,SIFT)算法的特征信息,根据各训练数据的SIFT特征信息,以及正确训练数据的SIFT特征信息,在第二训练数据集中筛选出错误训练数据。
本发明实施例的技术方案通过获取第一训练数据集,获取与原始分类模型对应的原始训练数据集,并确定第一训练数据集与原始训练数据集的相似度,根据相似度确定与原始分类模型对应的目标训练方法,然后采用目标训练方法,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络,最后获取第二训练数据集,通过训练后的特征提取网络对第二训练数据集进行识别,得到错误训练数据的技术手段,可以实现训练数据纠错过程的自动化,提高训练数据的纠错效率,提高纠错结果的可靠性。
实施例四
图4为本发明实施例四提供的一种训练数据的纠错装置的结构图,该装置包括:模型训练模块410和错误训练数据获取模块420。
其中,模型训练模块410,用于获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;
错误训练数据获取模块420,用于获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据;
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量。
本发明实施例的技术方案通过获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络,然后获取第二训练数据集,通过训练后的特征提取网络对第二训练数据集进行识别,得到错误训练数据的技术手段,可以实现训练数据纠错过程的自动化,提高训练数据的纠错效率,提高纠错结果的可靠性。
在上述各实施例的基础上,模型训练模块410,可以包括:
原始训练数据集获取单元,用于获取与所述原始分类模型对应的原始训练数据集,并确定所述第一训练数据集与所述原始训练数据集的相似度;
目标训练方法确定单元,用于根据所述相似度确定与所述原始分类模型对应的目标训练方法,并采用所述目标训练方法,将所述第一训练数据集输入至原始分类模型中的特征提取网络进行训练;
迁移学习方法确定单元,用于如果所述相似度满足预设相似度要求,则将迁移学习方法作为与所述原始分类模型对应的目标训练方法;
迁移学习训练单元,用于采用所述迁移学习方法,将所述第一训练数据集输入至原始分类模型中的特征提取网络进行训练。
错误训练数据获取模块420,可以包括:
第三训练数据集获取单元,用于获取第三训练数据集,所述第三训练数据集为根据各所述错误训练数据,对第二训练数据集进行重新分类得到的数据集;
数据增强单元,用于对所述错误训练数据进行数据增强,得到错误训练数据集,并将所述错误训练数据集输入至训练后的特征提取网络中进行训练,得到新的特征提取网络;
第三训练数据集识别单元,用于通过所述新的特征提取网络对所述第三训练数据集进行识别,得到新的错误训练数据;
返回处理单元,用于返回执行获取第三训练数据集的操作,直至所述新的特征提取网络不输出错误训练数据;
测试数据集获取单元,用于获取所述第三训练数据集和测试数据集;
迭代训练单元,用于使用所述第三训练数据集和测试数据集对所述原始分类模型中的特征提取网络和判别网络进行迭代训练,得到目标分类模型;所述目标分类模型,用于对获取的图像数据进行分类;
可视化工具输入单元,用于如果所述训练后的特征提取网络识别不到错误训练数据,则将所述第二训练数据集输入至与所述原始分类模型对应的可视化工具中;
特征信息对比单元,用于根据所述可视化工具提取第二训练数据集中各训练数据的特征信息,将各训练数据的特征信息与正确训练数据的特征信息进行对比,根据对比结果筛选出错误训练数据;
方向梯度直方图提取单元,用于根据所述可视化工具提取第二训练数据集中各训练数据的方向梯度直方图;
边缘检测单元,用于根据各训练数据的方向梯度直方图,对各训练数据进行边缘检测;
边缘检测结果对比单元,用于将各训练数据对应的边缘检测结果,与正确训练数据的边缘检测结果进行对比,根据对比结果筛选出错误训练数据。
本发明实施例所提供的训练数据的纠错装置可执行本发明任意实施例所提供的训练数据的纠错方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例中的一种训练数据的纠错方法对应的程序指令/模块(例如,一种训练数据的纠错装置中的模型训练模块410和错误训练数据获取模块420)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的一种训练数据的纠错方法。也即,该程序被处理器执行时实现:
获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;
获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据;
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,可以包括键盘和鼠标等。输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述方法。当然,本发明实施例所提供的一种计算机可读存储介质,其可以执行本发明任意实施例所提供的一种训练数据的纠错方法中的相关操作。也即,该程序被处理器执行时实现:
获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;
获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据;
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种测试异常的定位装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种训练数据的纠错方法,其特征在于,包括:
获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;
获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据;
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量;
在通过所述训练后的特征提取网络对所述第二训练数据集进行识别之后,还包括:
如果所述训练后的特征提取网络识别不到所述错误训练数据,则将所述第二训练数据集输入至与所述原始分类模型对应的可视化工具中;
根据所述可视化工具提取所述第二训练数据集中各训练数据的特征信息,将各训练数据的特征信息与正确训练数据的特征信息进行对比,根据对比结果筛选出所述错误训练数据;
所述根据所述可视化工具提取所述第二训练数据集中各训练数据的特征信息,将各训练数据的特征信息与正确训练数据的特征信息进行对比,根据对比结果筛选出所述错误训练数据,包括:
根据所述可视化工具提取所述第二训练数据集中各训练数据的方向梯度直方图;
根据各训练数据的方向梯度直方图,对各训练数据进行边缘检测;
将各训练数据对应的边缘检测结果,与正确训练数据的边缘检测结果进行对比,根据对比结果筛选出所述错误训练数据。
2.根据权利要求1所述的方法,其特征在于,在得到错误训练数据之后,还包括:
获取第三训练数据集,所述第三训练数据集为根据各所述错误训练数据,对第二训练数据集进行重新分类得到的数据集;
对所述错误训练数据进行数据增强,得到错误训练数据集,并将所述错误训练数据集输入至训练后的特征提取网络中进行训练,得到新的特征提取网络;
通过所述新的特征提取网络对所述第三训练数据集进行识别,得到新的错误训练数据;
返回执行获取第三训练数据集的操作,直至所述新的特征提取网络不输出新的错误训练数据。
3.根据权利要求2所述的方法,其特征在于,在所述新的特征提取网络不输出错误训练数据之后,还包括:
获取所述第三训练数据集和测试数据集;
使用所述第三训练数据集和测试数据集对所述原始分类模型中的特征提取网络和判别网络进行迭代训练,得到目标分类模型;所述目标分类模型,用于对获取的图像数据进行分类。
4.根据权利要求1所述的方法,其特征在于,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,包括:
获取与所述原始分类模型对应的原始训练数据集,并确定所述第一训练数据集与所述原始训练数据集的相似度;
根据所述相似度确定与所述原始分类模型对应的目标训练方法,并采用所述目标训练方法,将所述第一训练数据集输入至原始分类模型中的特征提取网络进行训练。
5.根据权利要求4所述的方法,其特征在于,根据所述相似度确定与所述原始分类模型对应的目标训练方法,并采用所述目标训练方法,将所述第一训练数据集输入至原始分类模型中的特征提取网络进行训练,包括:
如果所述相似度满足预设相似度要求,则将迁移学习方法作为与所述原始分类模型对应的目标训练方法;
采用所述迁移学习方法,将所述第一训练数据集输入至原始分类模型中的特征提取网络进行训练。
6.一种训练数据的纠错装置,其特征在于,包括:
模型训练模块,用于获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;
错误训练数据获取模块,用于获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据;
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量;
可视化工具输入单元,用于如果所述训练后的特征提取网络识别不到所述错误训练数据,则将所述第二训练数据集输入至与所述原始分类模型对应的可视化工具中;
特征信息对比单元,用于根据所述可视化工具提取所述第二训练数据集中各训练数据的特征信息,将各训练数据的特征信息与正确训练数据的特征信息进行对比,根据对比结果筛选出所述错误训练数据;
方向梯度直方图提取单元,用于根据所述可视化工具提取所述第二训练数据集中各训练数据的方向梯度直方图;
边缘检测单元,用于根据各训练数据的方向梯度直方图,对各训练数据进行边缘检测;
边缘检测结果对比单元,用于将各训练数据对应的边缘检测结果,与正确训练数据的边缘检测结果进行对比,根据对比结果筛选出所述错误训练数据。
7.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的训练数据的纠错方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的训练数据的纠错方法。
CN202110098025.XA 2021-01-25 2021-01-25 一种训练数据的纠错方法、装置、设备及存储介质 Active CN112766387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110098025.XA CN112766387B (zh) 2021-01-25 2021-01-25 一种训练数据的纠错方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110098025.XA CN112766387B (zh) 2021-01-25 2021-01-25 一种训练数据的纠错方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112766387A CN112766387A (zh) 2021-05-07
CN112766387B true CN112766387B (zh) 2024-01-23

Family

ID=75707178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110098025.XA Active CN112766387B (zh) 2021-01-25 2021-01-25 一种训练数据的纠错方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112766387B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504365A (zh) * 2014-11-24 2015-04-08 闻泰通讯股份有限公司 视频序列中的笑脸识别系统及方法
CN107038157A (zh) * 2017-05-05 2017-08-11 百度在线网络技术(北京)有限公司 基于人工智能的识别错误发现方法、装置及存储介质
CN108090485A (zh) * 2017-11-28 2018-05-29 西安电子科技大学昆山创新研究院 基于多视角融合的图像前景自动提取方法
CN110766062A (zh) * 2019-10-15 2020-02-07 广州织点智能科技有限公司 一种商品识别模型训练方法、装置、电子设备及存储介质
CN111027605A (zh) * 2019-11-28 2020-04-17 北京影谱科技股份有限公司 基于深度学习的细粒度图像识别方法和装置
CN111177136A (zh) * 2019-12-27 2020-05-19 上海依图网络科技有限公司 标注数据清洗装置和方法
CN111382782A (zh) * 2020-02-23 2020-07-07 华为技术有限公司 训练分类器的方法和装置
CN111476056A (zh) * 2019-01-23 2020-07-31 阿里巴巴集团控股有限公司 目标物体的识别方法、装置、终端设备及计算机存储介质
CN111523596A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111880957A (zh) * 2020-06-12 2020-11-03 浙江理工大学 一种基于随机森林模型的程序错误定位方法
CN111898754A (zh) * 2020-08-11 2020-11-06 香港中文大学(深圳) 一种神经网络模型的训练方法、装置、存储介质及设备
CN111950292A (zh) * 2020-06-22 2020-11-17 北京百度网讯科技有限公司 文本纠错模型的训练方法、文本纠错处理方法和装置
CN112101236A (zh) * 2020-09-17 2020-12-18 济南大学 一种面向老年陪护机器人的智能纠错方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387298B2 (en) * 2017-04-04 2019-08-20 Hailo Technologies Ltd Artificial neural network incorporating emphasis and focus techniques
US11574194B2 (en) * 2019-03-27 2023-02-07 Integrated Silicon Solution, (Cayman) Inc. System and method for training neural networks with errors
US11657118B2 (en) * 2019-05-23 2023-05-23 Google Llc Systems and methods for learning effective loss functions efficiently

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504365A (zh) * 2014-11-24 2015-04-08 闻泰通讯股份有限公司 视频序列中的笑脸识别系统及方法
CN107038157A (zh) * 2017-05-05 2017-08-11 百度在线网络技术(北京)有限公司 基于人工智能的识别错误发现方法、装置及存储介质
CN108090485A (zh) * 2017-11-28 2018-05-29 西安电子科技大学昆山创新研究院 基于多视角融合的图像前景自动提取方法
CN111476056A (zh) * 2019-01-23 2020-07-31 阿里巴巴集团控股有限公司 目标物体的识别方法、装置、终端设备及计算机存储介质
CN110766062A (zh) * 2019-10-15 2020-02-07 广州织点智能科技有限公司 一种商品识别模型训练方法、装置、电子设备及存储介质
CN111027605A (zh) * 2019-11-28 2020-04-17 北京影谱科技股份有限公司 基于深度学习的细粒度图像识别方法和装置
CN111177136A (zh) * 2019-12-27 2020-05-19 上海依图网络科技有限公司 标注数据清洗装置和方法
CN111382782A (zh) * 2020-02-23 2020-07-07 华为技术有限公司 训练分类器的方法和装置
CN111523596A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111880957A (zh) * 2020-06-12 2020-11-03 浙江理工大学 一种基于随机森林模型的程序错误定位方法
CN111950292A (zh) * 2020-06-22 2020-11-17 北京百度网讯科技有限公司 文本纠错模型的训练方法、文本纠错处理方法和装置
CN111898754A (zh) * 2020-08-11 2020-11-06 香港中文大学(深圳) 一种神经网络模型的训练方法、装置、存储介质及设备
CN112101236A (zh) * 2020-09-17 2020-12-18 济南大学 一种面向老年陪护机器人的智能纠错方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘玉良等.《深度学习》.西安电子科技大学出版社,2020,第199-200页. *
基于工件自动识别的视觉点胶系统研究;张宽;王晗;陈新度;蔡念;曾耀斌;何国锐;;组合机床与自动化加工技术(第07期);全文 *
张善文等.《图像模式识别》.西安电子科技大学出版社,2020,第201页. *

Also Published As

Publication number Publication date
CN112766387A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN110046631B (zh) 用于自动推断时空图像的变化的系统和方法
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
EP2806374B1 (en) Method and system for automatic selection of one or more image processing algorithm
CN110909618B (zh) 一种宠物身份的识别方法及装置
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN111626177B (zh) 一种pcb元件识别方法及装置
CN109858476B (zh) 标签的扩充方法和电子设备
CN111161265A (zh) 一种动物计数、图像处理方法和装置
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
US20230215125A1 (en) Data identification method and apparatus
CN111709421A (zh) 鸟类识别方法、装置、计算机设备及存储介质
CN112182269B (zh) 图像分类模型的训练、图像分类方法、装置、设备及介质
CN112668640A (zh) 一种文本图像质量评估方法、装置、设备及介质
CN111291807A (zh) 一种细粒度图像分类方法、装置及存储介质
US10970531B2 (en) Digitization of industrial inspection sheets by inferring visual relations
CN115082659A (zh) 一种图像标注方法、装置、电子设备及存储介质
CN113177554B (zh) 甲状腺结节识别与分割方法、系统、存储介质及设备
CN112766387B (zh) 一种训练数据的纠错方法、装置、设备及存储介质
CN112348750A (zh) 基于阈值融合和邻域投票的sar图像变化检测方法
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
Pohudina et al. Method for identifying and counting objects
CN116189130A (zh) 基于图像标注模型的车道线分割方法及装置
Khavalko et al. Classification and Recognition of Medical Images Based on the SGTM Neuroparadigm.
CN110321883A (zh) 验证码识别方法及装置、可读存储介质
CN116246161A (zh) 领域知识引导下的遥感图像目标精细类型识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 1201, No. 1, Lane 288, Qianfan Road, Xinqiao Town, Songjiang District, Shanghai, 201600

Applicant after: Kaos Digital Technology (Shanghai) Co.,Ltd.

Applicant after: Kaos Digital Technology (Qingdao) Co.,Ltd.

Applicant after: CAOS industrial Intelligence Research Institute (Qingdao) Co.,Ltd.

Applicant after: Karos IoT Technology Co.,Ltd.

Address before: Room 202-77, No. 668, Xinzhuan Road, Songjiang high tech park, Caohejing Development Zone, Xuhui District, Shanghai, 200233

Applicant before: HAIER DIGITAL TECHNOLOGY (SHANGHAI) Co.,Ltd.

Applicant before: Haier digital technology (Qingdao) Co.,Ltd.

Applicant before: QINGDAO HAIER INDUSTRIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

Applicant before: Haier Kaos IOT Technology Co.,Ltd.

Address after: Room 202-77, No. 668, Xinzhuan Road, Songjiang high tech park, Caohejing Development Zone, Xuhui District, Shanghai, 200233

Applicant after: HAIER DIGITAL TECHNOLOGY (SHANGHAI) Co.,Ltd.

Applicant after: Haier digital technology (Qingdao) Co.,Ltd.

Applicant after: QINGDAO HAIER INDUSTRIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

Applicant after: Haier Kaos IOT Technology Co.,Ltd.

Address before: Room 202-77, No. 668, Xinzhuan Road, Songjiang high tech park, Caohejing Development Zone, Xuhui District, Shanghai, 200233

Applicant before: HAIER DIGITAL TECHNOLOGY (SHANGHAI) Co.,Ltd.

Applicant before: Haier digital technology (Qingdao) Co.,Ltd.

Applicant before: QINGDAO HAIER INDUSTRIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

Applicant before: Haier CAOS IOT Ecological Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant