CN112001407A - 一种基于自动化标注的模型迭代训练方法及系统 - Google Patents
一种基于自动化标注的模型迭代训练方法及系统 Download PDFInfo
- Publication number
- CN112001407A CN112001407A CN202010165528.XA CN202010165528A CN112001407A CN 112001407 A CN112001407 A CN 112001407A CN 202010165528 A CN202010165528 A CN 202010165528A CN 112001407 A CN112001407 A CN 112001407A
- Authority
- CN
- China
- Prior art keywords
- training
- data
- model
- labeling
- heuristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于自动化标注的模型迭代训练方法及系统,该方法包括:根据模型属性选取启发数据集,令其他数据集为测试集,然后对启发数据集进行标注,并将其划分为训练集和验证集,进而基于训练集和验证集根据设定的条件进行训练,获取启发模型,利用获得的启发模型对测试集进行自动预测标注,并对预测标注结果进行筛选获取测试集的有效标注结果;最后利用有效标注结果按照比例分别对训练集和验证集进行更新,按照上述操作重复迭代训练直至满足设定的训练条件,获取最终的模型及权重。采用上述技术方案,有效克服了现有技术中数据集标注耗时长、标注及训练操作复杂以及效率较低的缺陷,能够在较短的时间内自动训练出高准确度的模型。
Description
技术领域
本发明涉及数据自动处理技术领域,尤其涉及一种基于自动化标注的模型迭代训练方法及系统。
背景技术
数据挖掘技术在科学及生活各方面的应用越来越广泛,其是采用人工智能、机器学习、统计学和数据库的交叉方法在较大型的数据集中发现模式的计算过程。训练模型的过程中离不开训练数据,训练数据选择一般有以下要求:数据样本尽可能大、数据多样化,数据样本质量较高,对数据集进行标注是保证训练数据满足上述要求的方式之一。
现有技术中,针对数据集的标注与训练都是单独进行,首先通过离线标注生成训练数据集,然后将固定的训练集用于模型训练,中间相隔周期长,尤其是对于大型的数据集,无法快速进行算法模型验证。对于数据标注的方法,可以分为两种,分别是完全人工标注和半自动化标注,其中,完全人工标注方法,通过人工的方式对海量的数据进行标注,该方法人工成本很高,效率低,尤其对于专业领域的标注严重依赖标注人员的专业领域知识。半自动化标注方法,通过人工的方式提供先验信息,标注算法根据人工提供的先验信息进行预测推理或者分割,然后通过人工的方法对预测结果进行修正得到最终的标注结果。该方法通过结合算法减轻了纯人工标注的负担,但是整个过程繁琐,且无法避免利用人工的知识对大量数据进行逐帧的修正和标注。基于此,如何节省人力成本,提高标注效率,同时能实现快速的算法模型验证成为目前亟待解决的问题。
发明内容
为解决上述问题,本发明提供了一种基于自动化标注的模型迭代训练方法,在一个实施例中,所述方法包括:
步骤S1、根据模型属性选取启发数据集,将除启发数据集之外的数据集作为测试集;其中,所述模型属性包括模型类型、数据集规模和标注耗时;
步骤S2、对所述启发数据集进行标注,并将标注后的启发数据集按照第一划分比例划分为训练集和验证集;
步骤S3、基于所述训练集和验证集进行训练,直至满足设定的第一训练条件,将训练获得的模型作为启发模型;
步骤S4、利用获得的所述启发模型对所述测试集进行自动预测标注生成预测标注结果,并按照设定的条件对生成的预测标注结果进行筛选处理获取所述测试集的有效标注结果;
步骤S5、利用所述有效标注结果对应的数据按照第二划分比例扩充训练集和验证集,剩余未标注的数据作为当前测试集,按照步骤S3及步骤S4进行重复操作,直至满足设定的第二训练条件,将最终得到的模型训练结果作为最优模型。
一个实施例中,在所述步骤S4中,对生成的预测标注结果进行筛选处理获取所述测试集的有效标注结果的过程,包括:
采用预置的方法滤除低置信度的预测标注结果,保留高置信度的预测标注结果作为有效标注结果。
进一步地,所述高置信度的有效标注结果为:如果当前数据帧内所有标注结果的类别置信度均大于设定置信度阈值,则当前数据帧为有效标注结果。
一个实施例中,在所述步骤S2中,所述第一划分比例为根据数据集规模及模型训练需求设定的。
一个实施例中,在所述步骤S3中,所述第一训练条件为满足以下条件中的至少一项:
训练模型的迭代次数达到设定的第一迭代阈值、以及训练结果的验证集准确度达到设定的第一准确度阈值。
一个实施例中,在所述步骤S5中,利用所述有效标注结果对应的数据集按照第二划分比例扩充训练集和验证集的过程,包括:
将所述有效标注结果对应的测试集数据按照设定的比例划分训练集数据和验证集数据加入到已有的训练集和验证集中。
进一步地,在所述步骤S5中,所述第二训练条件为满足以下条件中的至少一项:
全部数据集的标注数据的比例达到设定阈值、训练模型的迭代次数达到设定的第二迭代阈值和/或训练结果的验证集准确度达到设定的第二准确度阈值。
基于上述任意一个或多个实施例方案的其他方面,本发明还提供一种基于自动化标注的模型迭代训练系统,该系统包括:
启发数据集选取模块,其用于根据模型属性选取启发数据集,除启发数据集之外的数据集则作为测试集;其中,所述模型属性包括模型类型、数据集规模和标注耗时;
启发数据集标注模块,其用于对所述启发数据集进行标注,并将标注后的启发数据集按照第一划分比例划分为训练集和验证集;
启发模型训练模块,其用于基于已标注的所述训练集和验证集进行训练,直至满足设定的第一训练条件,将训练获得的模型作为启发模型;
自动标注模块,其用于利用所述启发模型对所述测试集进行自动预测标注生成预测标注结果,并对生成的预测标注结果进行筛选处理获取所述测试集的有效标注结果;
模型确定模块,其用于利用所述有效标注结果对应的数据集按照第二划分比例扩充训练集和验证集,剩余未标注的数据作为当前测试集,基于扩充后的训练集和验证集进行自动迭代训练,并利用每次迭代训练得到的模型对所述当前测试集进行预测更新训练集、验证集和测试集,直至满足设定的第二训练条件,将最终得到的模型训练结果作为最优模型。
在一个实施例中,所述自动标注模块,对生成的预测标注结果进行筛选处理获取所述测试集的有效标注结果的过程:
采用预置的方法滤除低置信度的预测标注结果,保留高置信度的预测标注结果作为有效标注结果;其中,所述预置的方法根据任务的不同有不同的选择。
在一个实施例中,所述模型确定模块,利用所述有效标注结果对应的数据按照第二划分比例扩充训练集和验证集的过程,包括:
将所述有效标注结果对应的测试集数据按照设定的比例划分训练集数据和验证集数据加入到已有的训练集和验证集中。
与最接近的现有技术相比,本发明还具有如下有益效果:
本发明提供的一种基于自动化标注的模型迭代训练方法及系统,通过根据模型属性确定启发数据集和测试集,标注启发数据集并将其划分为训练集和验证集,基于训练集和验证集根据设定的训练条件进行自动训练,获取启发模型,进而利用获得的启发模型对测试集进行自动标注和筛选处理,从而利用筛选处理后的有效标注结果更新训练集和验证集和测试集,并基于更新后的数据集重复迭代训练以获取满足训练条件的最优模型。采用上述技术方案,克服了现有技术中数据集标注耗时长、数据标注与模型训练验证之间间隔周期长的缺陷,同时一定程度上降低了标注训练的操作复杂程度,有效提升了模型训练效率。本发明利用少量的启发数据能够对大量的测试数据集进行自动标注并实现自动训练,此外,利用预先设定的条件对有效标注结果进行筛选,将有效标注的测试数据按照比例分别添加到训练集和验证集来进行更新,在提高了数据标注及模型训练的效率的前提下,有效保障了训练结果准确度,且降低了操作复杂程度,能够应用于各种高精确度要求的数据处理任务中。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一实施例提供的基于自动化标注的模型迭代训练方法的流程示意图;
图2是本发明另一实施例提供的基于自动化标注的模型迭代训练系统的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
数据挖掘技术是采用人工智能、机器学习、统计学和数据库的交叉方法在较大型的数据集中发现模式的计算过程。训练模型的过程中离不开训练数据,训练数据选择一般有以下要求:数据样本尽可能大、数据多样化,数据样本质量较高,对数据集进行标注是保证训练数据满足上述要求的方式之一。
现有技术中,针对数据集的标注与训练都是单独进行,首先通过离线标注生成训练数据集,然后将固定的训练集用于模型训练,中间相隔周期长,尤其是对于大型的数据集,无法快速进行算法模型验证。
其中,对于数据标注,业界主要包含以下两种方法:
完全人工标注:通过人工的方式对海量的数据进行标注,该方法人工成本很高,效率低,尤其对于专业领域的标注严重依赖标注人员的专业领域知识。
半自动化标注:通过人工的方式提供先验信息,标注算法根据人工提供的先验信息进行预测推理,然后通过人工的方法对预测结果进行修正得到最终的标注结果。该方法通过结合算法减轻了纯人工标注的负担,但是整个过程繁琐,且还是无法避免利用人工的知识进行逐帧的修正和标注,因此如何节省人力成本,提高标注效率,同时能实现快速的算法模型验证成为目前亟待解决的问题。
接下来结合两个示例现有技术进行进一步分析,具体的,示例现有技术1中采用模型预测和人工先验相结合的半自动化方法进行三维点云数据集的标注。首先通过标注者在可视化场景中点击的方式收集感兴趣点,然后通过级联的三个深度网络(实例分割网络,质心回归网络和边界框回归网络)预测出目标的类别和边界框。整个标注流程繁琐,人工参与度高,标注人员需要经过多次的训练使得提供的感兴趣点经过网络预测的精度和召回率达到指定标准才能进行标注;此外用于生成标注信息的三个级联的深度网络需要单独的训练,而且每个网络训练用到的数据集单独制作;整个过程繁琐耗时,不利于算法模型的快速验证。与此相反本发明提出的方法只需要人工标注少量的启发数据集用于训练启发模型,之后的模型预测标注过程和模型训练迭代过程完全不需要人工参数,大大减少了人力成本,同时可以快速的验证模型的可行性。
示例现有技术2中同样提出了基于算法模型预测结果的离线标注方法,首先通过场景分类器选取与所所需标注场景具有对应关系的物体检测方法;通过选取的物体检测方法对连续多帧图片进行预测标注;之后采用预置的目标跟踪方法进行跟踪,对跟踪到的目标进行标注;最后采用预设的算法对每帧图片的重叠框进行移除,将剩余标注框作为最终的标注结果。该方法相比示例现有技术1减少了人工的参与度,但是该方法需要所有的待标注图片为连续的视频帧,对于不连续的数据无法进行标注。与之相反,本发明提出的标注方法不受限于标注得数据是否为连续的数据帧,其次人工参与度更少。
示例现有技术1和示例现有技术2都是将数据标注和模型训练单独进行,并没有将两者有机结合起来,标注过程周期长导致无法快速验证算法模型的能力。本发明提供一种更科学的模型自动训练方法,本发明提供的模型训练方法能够保证训练结果的高精确度,不仅能够应用于常规数据模型的训练,同时能够应用于机器视觉与图像处理技术领域。
本发明提出的基于自动化标注的模型训练方法有效地将数据标注和模型训练有机的结合起来,通过标注少量的启发数据集实现启发模型的训练,之后基于启发模型对未标注的数据进行自动预测标注和处理生成标注结果,加入训练集,开始新一轮的模型训练,如此往复迭代可实现模型的优化,实现快速地算法验证,并且可以节省大量的人力成本,提高模型训练和验证的效率,下面参考附图对本发明基于自动化标注的模型迭代训练方法的各个实施例进行说明。
图1示出了本发明一实施例提供的基于自动化标注的模型迭代训练方法的流程示意图,参照图1可知,该方法包括如下步骤。
步骤S110、根据模型属性选取启发数据集,将除启发数据集之外的数据集作为测试集;其中,模型属性包括模型类型、数据集规模和标注耗时。
该步骤中,首先根据具体的任务类型(如分类,检测或者分割等)确定模型类型,从整个未标注的数据集中选取少量的数据制作启发数据集,其中,选取哪些数据作为启发数据集以及启发数据集的数量根据模型类型以及数据集规模和标注耗时等模型属性数据确定,一般情况下,该步骤主要通过人工的方式进行标注。同时,需要将剩余的大量的未标注的数据集作为测试集。该步骤中,想要保障选取的启发数据的数量合理性最高,实际应用中可以由经验丰富的工作人员根据模型属性进行选取确定。
具体的,在一个示例中,结合基于三维目标检测网络的训练过程进行说明。该步骤中,数据集来自于矿山场景下的三维激光雷达数据,共包含2000帧不同场景下的点云数据。随机从中选取500帧数据进行手工标注,标注信息包括类别信息和边界框。为了简化类别只标注卡车一个类别,剩余的未标注的1500帧数据作为测试集。
在一个可选的实施例中,还可以根据不同模型类型、不同数据集规模以及不同的标注耗时记录数据并构建合理的启发数据选取模型作为参考,这样,在之后的应用中,以构建的启发数据选取模型为依据,即使是缺乏经验的普通工作人员也可以快速高效地选取合理的启发数据集。
接下来需要对选取的启发数据集进行标注,因此有步骤S120、对启发数据集进行标注,并将标注后的启发数据集按照第一划分比例划分为训练集和验证集。在一个实施例中,该步骤中涉及的第一划分比例,包括:根据数据集规模及模型训练需求设定的划分比例。该步骤中,划分训练集和验证集的第一划分比例是以当前的已标注数据及的数据规模为依据。在基于三维目标检测网络训练的示例中,若选取启发数据集的数量为500个数据帧,实际应用中可以设定第一划分比例为8:2,即可选地将其中400帧作为训练集,100帧作为验证集。采用上述操作,采用人工标注预先对少量启发数据集进行标注,在保证标注结果可靠性的基础上,又不耗费过多的时间,是进行快速、高精确度建模的有力支持。
然后,利用上述步骤中标注后的少量启发数据集对模型进行训练,即有步骤S130、基于训练集和验证集进行自动迭代训练,直至满足设定的第一训练条件,将模型参数保存,即训练获得的模型作为启发模型。其中,在一个实施例中,该步骤中的第一训练条件为满足以下条件中的至少一项:训练模型的迭代次数达到设定的第一迭代阈值以及训练结果的验证集准确度达到设定的第一准确度阈值。具体的,其中涉及到的第一迭代阈值和第一准确度阈值可以根据构建模型的实际需求确定。
例如,在实际应用中,本发明实施例可采用三维点云检测网络PointPillars进行例证,该深度卷积网络输入是原始的三维点云信息,输出是目标的类别和边界框信息。模型采用Pytorch构建,优化器采用Adam,beta1 0.9,beta2 0.999。GPU采用TITAN RTX,CPU采用Intel(R)Xeon(R)系列,batch size为8,初始学习率为0.002,学习率调整方案为指数衰减,每20epoch衰减一次,衰减系数为0.8。权重衰减系数为0.0001,训练80epoch得到最终的启发模型。
获取启发模型后,要利用其对剩余的大量未标注数据即测试集进行自动标注,因此有步骤S140、利用获得的启发模型对测试集进行自动预测标注生成预测标注结果,并对生成的预测标注结果进行筛选处理获取测试集的有效标注结果。
在一个实施例中,该步骤中,对生成的预测标注结果进行筛选处理获取测试集的有效标注结果的过程,包括:采用预置的方法滤除低置信度的预测标注结果,保留高置信度的预测标注结果作为有效标注结果。其中预置的方法根据实际建模对应任务的不同有不同的选择,如目标检测任务可以选择非极大值抑制,类别置信度等,分类任务可选择类别置信度。
进一步地,在一个优选的实施例中,为了保证有效标注结果的可靠性最高,实际应用中,高置信度的预测标注结果应满足条件为:当前数据帧内所有预测标注结果的类别置信度均大于设定置信度阈值
在结合三维目标检测网络训练的示例中,利用上述步骤训练得到的启发模型对当前未标注剩余的1500帧测试集为标注的数据进行推断预测标注,根据预定义的方法对每帧数据的预测标注结果进行过滤处理。本示例中只有当一帧的所有检测结果的类别置信度都大于百分之七十,则保留该帧的预测标注结果作为该帧的有效标注结果,同时从测试集中移除对应的帧。采用上述实时手段实现规模数据的自动标注及处理,在保证数据标注质量的同时,显著提升了标注效率,基于此可知,本发明基于上述手段的技术方案有效克服了现有技术中数据集标注耗时长、数据标注与模型训练验证之间间隔周期长的缺陷,且相当程度上降低了整个模型训练过程的时间消耗。
关于更新标注的数据集,其是用于对训练集和验证集进行更新,用于训练最终模型的。因此有步骤S150、利用有效标注结果对应的数据集按照第二划分比例扩充训练集和验证集,剩余未标注的数据作为当前测试集,按照步骤S130及步骤S140进行重复操作,直至满足设定的第二训练条件,将最终得到的模型训练结果作为最优模型。具体的,根据模型的标注结果,生成的有效标注对应的数据帧按照设定的比例分别加入到已有的训练集和验证集中扩充数据集数量;并在已经得到的模型基础上在新的训练集和验证集上开始新一轮的模型迭代优化。按照步骤S130-S140循环往复迭代,基于扩充更新后的训练集和验证集进行自动迭代训练,获取更新的启发模型,并利用获得的当前启发模型对测试集进行自动预测标注生成预测标注结果,对生成的预测标注结果进行筛选处理获取测试集的有效标注结果;进而再次更新训练集和验证集进行新一轮循环,在迭代的过程中,未标注的测试集数据数量逐渐减少,训练集和验证集数据数量逐渐增加,模型精度逐渐提升,直到满足以下三种条件的至少一个则停止训练,将最终得到的模型作为最优模型:全部数据的标注比例达到设定比例、达到预先设定的迭代次数以及验证集准确度达到指定的阈值。
在一个实施例中,利用有效标注结果对应的数据集按照第二划分比例扩充训练集和验证集的过程,包括:将有效标注结果对应的测试集数据按照设定的比例划分训练集数据和验证集数据加入到训练集和验证集中。在实际应用中,在同一完整的模型训练过程中,该第二划分比例通常与上文中的第一划分比例相同,即将所有保留的有效标注结果及对应的点云数据帧按照8:2的比例加入到已有的训练集和验证集,生成新的扩充的标注数据集。特殊情况下,不同的循环过程中也可以根据实际需求进行调整。其中,第二训练条件为训练的模型满足以下几项中至少一项:全部数据集的标注数据的比例达到设定阈值、训练模型的迭代次数达到设定的第二迭代阈值和训练结果的验证集准确度达到设定的第二准确度阈值。
在结合三维目标检测网络训练的示例中,利用扩充的数据集继续对模型训练迭代,改变初始学习率为0.0002,其他训练参数保持不变,训练40epoch,并记录验证集的AP;训练结束,按照步骤S130和S140在剩余的测试集上进行模型预测和标注生成,如此往复按照步骤S130-S140-S150的顺序不断地模型迭代-模型预测-标注生成,直到验证集的准确度(AP)不再提升或者所有未标注的测试集数量接近为零即可停止模型迭代。本实施例中迭代8轮,模型不断迭代过程中的统计结果如下表所示。
模型迭代统计表
如上表所示,采用本发明提出的标注与训练相结合的方法大大降低了人力成本,模型训练加标注共耗时13.67小时,通过模型预测有效标注数据1242帧,大大提高了模型训练和验证的速度,显著提高了效率。
基于本发明上述一个或多个实施例,本发明还提供了一种基于自动标注的模型迭代训练系统。图2示出了本发明实施例提供的基于自动标注的模型迭代训练系统的结构示意图,参照图2所示,该系统包括:
启发数据集选取模块21,其用于根据模型属性选取启发数据集,除启发数据集之外的数据集则作为测试集;其中,模型属性包括模型类型、数据集规模和标注耗时。
启发数据集标注模块23,其用于对启发数据集进行标注,并将标注后的启发数据集按照第一划分比例划分为训练集和验证集。
启发模型训练模块25,其用于基于已标注的训练集和验证集进行自动迭代训练,直至满足设定的第一训练条件,将训练获得的模型作为启发模型。
自动标注模块27,其用于利用启发模型对测试集进行自动预测标注生成预测标注结果,并对生成的预测标注结果进行筛选处理获取测试集的有效标注结果。
模型确定模块29,其用于利用有效标注结果对应的数据集按照第二划分比例扩充训练集和验证集,剩余未标注的数据作为当前测试集,基于扩充后的训练集和验证集进行自动迭代训练,并利用训练得到的模型对当前测试集进行预测更新训练集、验证集和测试集,直至满足设定的第二训练条件,将最终得到的模型训练结果作为最优模型。
在一个实施例中,启发数据集标注模块23将标注后的启发数据集按照第一划分比例划分为训练集和验证集的过程中,其第一划分比例,包括:根据数据集规模及模型训练需求设定的划分比例。
在一个实施例中,启发模型训练模块25,用于基于已标注的训练集和验证集进行自动迭代训练,直至满足设定的第一训练条件,将训练获得的模型作为启发模型。其中,第一训练条件包括:训练模型的迭代次数达到设定的第一迭代阈值和/或训练结果的验证集准确度达到设定的第一准确度阈值。
在一个优选的实施例中,自动标注模块27,对生成的预测标注结果进行筛选处理获取测试集的有效标注结果的过程:
采用预置的方法滤除低置信度的预测标注结果,保留高置信度的预测标注结果作为有效标注结果。其中,预置的方法根据任务的不同有不同的选择,高置信度的预测标注结果为:数据帧内所有预测标注结果的类别置信度均大于设定置信度阈值的预测标注结果数据帧。
在一个实施例中,模型确定模块29,利用有效标注结果对应的数据集按照第二划分比例扩充训练集和验证集的过程,包括:
将有效标注结果对应的测试集数据按照设定的比例划分训练集数据和验证集数据加入到已有的训练集和验证集中。
本发明实施例提供的基于自动标注的模型迭代训练系统中,各个模块或单元结构可以根据试验需求独立运行或组合运行,以实现相应的技术效果。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而不意味着限制。
说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特征包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种基于自动化标注的模型迭代训练方法,其特征在于,所述方法包括:
步骤S1、根据模型属性选取启发数据集,将除启发数据集之外的数据集作为测试集;其中,所述模型属性包括模型类型、数据集规模和标注耗时;
步骤S2、对所述启发数据集进行标注,并将标注后的启发数据集按照第一划分比例划分为训练集和验证集;
步骤S3、基于所述训练集和验证集进行训练,直至满足设定的第一训练条件,将训练获得的模型作为启发模型;
步骤S4、利用获得的所述启发模型对所述测试集进行自动预测标注生成预测标注结果,并按照设定的条件对生成的预测标注结果进行筛选处理获取所述测试集的有效标注结果;
步骤S5、利用所述有效标注结果对应的数据按照第二划分比例扩充训练集和验证集,剩余未标注的数据作为当前测试集,按照步骤S3及步骤S4进行重复操作,直至满足设定的第二训练条件,将最终得到的模型训练结果作为最优模型。
2.如权利要求1所述的方法,其特征在于,在所述步骤S4中,对生成的预测标注结果进行筛选处理获取所述测试集的有效标注结果的过程,包括:
采用预置的方法滤除低置信度的预测标注结果,保留高置信度的预测标注结果作为有效标注结果。
3.如权利要求2所述的方法,其特征在于,所述高置信度的有效标注结果为:如果当前数据帧内所有标注结果的类别置信度均大于设定置信度阈值,则当前数据帧为有效标注结果。
4.如权利要求1~3中任一项所述的方法,其特征在于,在所述步骤S2中,所述第一划分比例为根据数据集规模及模型训练需求设定的。
5.如权利要求1~4中任一项所述的方法,其特征在于,在所述步骤S3中,所述第一训练条件为满足以下条件中的至少一项:
训练模型的迭代次数达到设定的第一迭代阈值、以及训练结果的验证集准确度达到设定的第一准确度阈值。
6.如权利要求1~5中任一项所述的方法,其特征在于,在所述步骤S5中,利用所述目标标注结果对应的数据集按照第二划分比例扩充训练集和验证集的过程,包括:
将所述目标标注结果对应的测试集数据按照设定的比例划分训练集数据和验证集数据加入到已有的训练集和验证集中。
7.如权利要求1~6中任一项所述的方法,其特征在于,在所述步骤S5中,所述第二训练条件为满足以下条件中的至少一项:
全部数据集的标注数据的比例达到设定阈值、训练模型的迭代次数达到设定的第二迭代阈值和/或训练结果的验证集准确度达到设定的第二准确度阈值。
8.一种执行上述权利要求1~7中任一项所述方法的模型迭代训练系统,其特征在于,所述系统包括:
启发数据集选取模块,其用于根据模型属性选取启发数据集,除启发数据集之外的数据集则作为测试集;其中,所述模型属性包括模型类型、数据集规模和标注耗时;
启发数据集标注模块,其用于对所述启发数据集进行标注,并将标注后的启发数据集按照第一划分比例划分为训练集和验证集;
启发模型训练模块,其用于基于已标注的所述训练集和验证集进行训练,直至满足设定的第一训练条件,将训练获得的模型作为启发模型;
自动标注模块,其用于利用所述启发模型对所述测试集进行自动预测标注生成预测标注结果,并对生成的预测标注结果进行筛选处理获取所述测试集的有效标注结果;
模型确定模块,其用于利用所述有效标注结果对应的数据集按照第二划分比例扩充训练集和验证集,剩余未标注的数据作为当前测试集,基于扩充后的训练集和验证集进行自动迭代训练,并利用每次迭代训练得到的模型对所述当前测试集进行预测更新训练集、验证集和测试集,直至满足设定的第二训练条件,将最终得到的模型训练结果作为最优模型。
9.如权利要求8所述的系统,其特征在于,所述自动标注模块,对生成的预测标注结果进行筛选处理获取所述测试集的有效标注结果的过程:
采用预置的方法滤除低置信度的预测标注结果,保留高置信度的预测标注结果作为有效标注结果;其中,所述预置的方法根据任务的不同有不同的选择。
10.如权利要求8所述的系统,其特征在于,所述模型确定模块,利用所述有效标注结果对应的数据按照第二划分比例扩充训练集和验证集的过程,包括:
将所述有效标注结果对应的测试集数据按照设定的比例划分训练集数据和验证集数据加入到已有的训练集和验证集中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010165528.XA CN112001407A (zh) | 2020-03-11 | 2020-03-11 | 一种基于自动化标注的模型迭代训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010165528.XA CN112001407A (zh) | 2020-03-11 | 2020-03-11 | 一种基于自动化标注的模型迭代训练方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001407A true CN112001407A (zh) | 2020-11-27 |
Family
ID=73461392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010165528.XA Pending CN112001407A (zh) | 2020-03-11 | 2020-03-11 | 一种基于自动化标注的模型迭代训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001407A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560988A (zh) * | 2020-12-25 | 2021-03-26 | 竹间智能科技(上海)有限公司 | 一种模型训练方法及装置 |
CN112700880A (zh) * | 2020-12-31 | 2021-04-23 | 杭州依图医疗技术有限公司 | 优化方法、训练方法、模型、处理装置及存储介质 |
CN112861935A (zh) * | 2021-01-25 | 2021-05-28 | 北京有竹居网络技术有限公司 | 模型生成方法、对象分类方法、装置、电子设备及介质 |
CN112884705A (zh) * | 2021-01-06 | 2021-06-01 | 西北工业大学 | 一种二维材料样品位置可视化方法 |
CN113240125A (zh) * | 2021-01-13 | 2021-08-10 | 深延科技(北京)有限公司 | 模型训练方法及装置、标注方法及装置、设备及存储介质 |
CN113420790A (zh) * | 2021-06-02 | 2021-09-21 | 深圳海翼智新科技有限公司 | 用于目标检测的自动标注方法和装置 |
CN114155412A (zh) * | 2022-02-09 | 2022-03-08 | 北京阿丘科技有限公司 | 深度学习模型迭代方法、装置、设备及存储介质 |
CN114202413A (zh) * | 2022-02-17 | 2022-03-18 | 中云融拓数据科技发展(深圳)有限公司 | 基于产业链数字化场景金融模型建立金融风控体系的方法 |
WO2023155727A1 (zh) * | 2022-02-17 | 2023-08-24 | 中兴通讯股份有限公司 | 自动标注模型生成方法、数据处理方法及电子设备 |
-
2020
- 2020-03-11 CN CN202010165528.XA patent/CN112001407A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560988A (zh) * | 2020-12-25 | 2021-03-26 | 竹间智能科技(上海)有限公司 | 一种模型训练方法及装置 |
CN112560988B (zh) * | 2020-12-25 | 2023-09-19 | 竹间智能科技(上海)有限公司 | 一种模型训练方法及装置 |
CN112700880A (zh) * | 2020-12-31 | 2021-04-23 | 杭州依图医疗技术有限公司 | 优化方法、训练方法、模型、处理装置及存储介质 |
CN112884705A (zh) * | 2021-01-06 | 2021-06-01 | 西北工业大学 | 一种二维材料样品位置可视化方法 |
CN112884705B (zh) * | 2021-01-06 | 2024-05-14 | 西北工业大学 | 一种二维材料样品位置可视化方法 |
CN113240125A (zh) * | 2021-01-13 | 2021-08-10 | 深延科技(北京)有限公司 | 模型训练方法及装置、标注方法及装置、设备及存储介质 |
CN113240125B (zh) * | 2021-01-13 | 2024-05-28 | 深延科技(北京)有限公司 | 模型训练方法及装置、标注方法及装置、设备及存储介质 |
CN112861935A (zh) * | 2021-01-25 | 2021-05-28 | 北京有竹居网络技术有限公司 | 模型生成方法、对象分类方法、装置、电子设备及介质 |
CN113420790A (zh) * | 2021-06-02 | 2021-09-21 | 深圳海翼智新科技有限公司 | 用于目标检测的自动标注方法和装置 |
CN114155412A (zh) * | 2022-02-09 | 2022-03-08 | 北京阿丘科技有限公司 | 深度学习模型迭代方法、装置、设备及存储介质 |
CN114202413A (zh) * | 2022-02-17 | 2022-03-18 | 中云融拓数据科技发展(深圳)有限公司 | 基于产业链数字化场景金融模型建立金融风控体系的方法 |
WO2023155727A1 (zh) * | 2022-02-17 | 2023-08-24 | 中兴通讯股份有限公司 | 自动标注模型生成方法、数据处理方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001407A (zh) | 一种基于自动化标注的模型迭代训练方法及系统 | |
CN109741332B (zh) | 一种人机协同的图像分割与标注方法 | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN111160469B (zh) | 一种目标检测系统的主动学习方法 | |
CN109948522B (zh) | 一种基于深度神经网络的x光片手骨成熟度判读方法 | |
CN110807757B (zh) | 基于人工智能的图像质量评估方法、装置及计算机设备 | |
CN110992365B (zh) | 一种基于图像语义分割的损失函数及其设计方法 | |
CN110533022B (zh) | 一种目标检测方法、系统、装置及存储介质 | |
CN111784564B (zh) | 自动抠图方法及系统 | |
CN110096202B (zh) | 一种基于深度强化学习的轻量级图像自动裁剪系统及方法 | |
CN112818849B (zh) | 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法 | |
CN113011337A (zh) | 一种基于深度元学习的汉字字库生成方法及系统 | |
CN112396042A (zh) | 实时更新的目标检测方法及系统、计算机可读存储介质 | |
CN114580517A (zh) | 一种图像识别模型的确定方法及装置 | |
CN112884135B (zh) | 一种基于边框回归的数据标注校正方法 | |
CN117253071B (zh) | 基于多级伪标签增强的半监督目标检测方法及系统 | |
CN112907750A (zh) | 一种基于卷积神经网络的室内场景布局估计方法及系统 | |
CN112966757A (zh) | 训练样本的扩展方法、装置、存储介质及设备 | |
CN112085164A (zh) | 一种基于无锚框网络的区域推荐网络提取方法 | |
CN116091784A (zh) | 一种目标跟踪方法、设备及存储介质 | |
CN113450363B (zh) | 一种基于标签校正的元学习细胞核分割系统及方法 | |
CN114385876A (zh) | 一种模型搜索空间生成方法、装置及系统 | |
CN113868460A (zh) | 一种图像检索方法、装置及系统 | |
CN113706530A (zh) | 基于网络结构的表面缺陷区域分割模型生成方法及装置 | |
CN112287938B (zh) | 一种文本分割方法、系统、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201127 |