CN113420824A - 针对工业视觉应用的预训练数据筛选及训练方法、系统 - Google Patents
针对工业视觉应用的预训练数据筛选及训练方法、系统 Download PDFInfo
- Publication number
- CN113420824A CN113420824A CN202110753850.9A CN202110753850A CN113420824A CN 113420824 A CN113420824 A CN 113420824A CN 202110753850 A CN202110753850 A CN 202110753850A CN 113420824 A CN113420824 A CN 113420824A
- Authority
- CN
- China
- Prior art keywords
- training
- network
- target
- category
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 331
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012216 screening Methods 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 claims abstract description 121
- 238000011176 pooling Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及工业场景视觉检测技术应用领域,公开了一种多针对工业视觉应用的预训练数据筛选及训练方法、系统。该方法包括:利用开源数据集训练目标检测网络得到预训练网络M1;利用预训练网络M1计算并统计得到开源数据集中每个类别的特征,建立特征库L1;利用检测目标的训练集训练调整预训练网络M1;利用调整后的预训练网络M1统计得到检测目标的训练集中每个类别的特征;利用距离函数从特征库L1中筛选出与检测目标的每个类别的特征匹配的目标类别;保存开源数据集中与目标类别对应的训练数据作为目标检测网络的目标预训练数据。本发明实施例可从开源数据集中挖掘与当前任务相关性更强的预训练数据,从而提升模型的准确度,稳定性和可用性。
Description
技术领域
本发明涉及工业场景视觉检测技术应用领域,特别涉及一种针对工业视觉应用的预训练数据筛选及训练方法、系统。
背景技术
工业视觉任务中普遍采用预训练模型和调优训练之训练策略,加速算法模型训练速度,提升模型学习能力,保障基于深度学习的视觉算法落地应用。但由于工业视觉任务具有高精度和稳定性等硬性要求使算法模型过度训练,导致同一个算法和预训练数据很难在多个场景中泛化复用。因此,随着开源预训练模型与开源数据集数量快速增长,如何从海量开源数据集中选择最适合当前场景任务的预训练数据集已成为推动算法落地的关键步骤。当预训练数据与当前任务目标相似性较强时,算法在训练时将会更聚焦于任务细节,显著提升算法识别能力和稳定性;反之,训练过程中就会产生负迁移等问题,使算法模型的迭代更新变得混乱,降低算法工作效率。比如说人会骑自行车,那么经过少量训练就可以学会骑摩托车,但是想用骑自行车的经验开飞机,那显然是不可能的。
目前大部分工业视觉任务仍依靠主观意识选择预训练数据,缺乏对知识迁移的控制能力和可解释性。同时,盲目选择预训练数据不利于算法模型的后续优化工作。
发明内容
本发明实施例的目的在于提供一种针对工业视觉应用的预训练数据筛选及训练方法、系统,旨在利用距离函数筛选外部开源数据中的可迁移类别,提升预训练数据质量,以提升模型的准确度、稳定性和可用性。
为解决上述技术问题,第一方面,本发明实施例提供了一种针对工业视觉应用的预训练数据筛选方法,包括:
采集检测目标的训练集,获取开源数据集;
利用所述开源数据集训练目标检测网络得到预训练网络M1;所述预训练网络M1包含预训练骨干网络B1;
利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,建立特征库L1;所述特征库L1包含所述每个类别对应的特征记忆单元,每个所述特征记忆单元包含对应类别的池化层特征以及类别标签;
利用所述检测目标的训练集训练调整所述预训练网络M1;
利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征;
利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别;
保存所述开源数据集中与所述目标类别对应的训练数据作为所述目标检测网络的目标预训练数据。
另外,所述利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,包括:从所述开源数据集中为每个类别随机抽取预设数量的图片;将每个类别的每张图片分别输入所述预训练网络M1,将所述预训练骨干网络B1的最后一个卷积层输出的卷积层特征作为每张图片的卷积层特征;对卷积层特征每一个通道的特征图取全局最大值,得到所述每张图片的池化层特征;对每个该类别所有图片的池化层特征求平均,得到对应类别的池化层特征。
另外,每个类别随机抽取的图片的数量相同。
另外,所述利用所述检测目标的训练集训练调整所述预训练网络M1,包括:保留所述预训练骨干网络B1的权重,固定所述预训练骨干网络B1的浅层卷积层,利用所述检测目标的训练集重新训练所述预训练网络M1的其余卷积层。
另外,所述利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征,包括:从所述检测目标的训练集中为每个类别随机抽取预设数量的图片;将每个类别的每张图片分别输入调整后的所述预训练网络M1,将调整后的预训练骨干网络B1的最后一个卷积层输出的卷积层特征作为每张图片的卷积层特征;对卷积层特征每一个通道的特征图取全局最大值,得到张图片的池化层特征;对每个该类别所有图片的池化层特征求平均,得到对应类别的池化层特征。
另外,从所述检测目标的训练集中为每个类别随机抽取的图片的数量与从所述开源数据集中为每个类别随机抽取的图片的数量相同。
另外,所述利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别,包括:利用MMD距离函数计算所述检测目标的每个类别的池化层特征与所述特征库L1中每个类别的池化层特征的相似度,并从所述特征库L1中筛选得到与所述检测目标的每个类别的特征匹配目标类别。
第二方面,本发明实施例提供了一种训练方法,包括:利用前述任一实施例所述的方法得到的目标预训练数据对目标检测网络进行训练得到预训练网络M2;所述预训练网络M2包含预训练骨干网络B2;利用检测目标的训练集训练所述预训练网络M2;训练时沿用所述预训练骨干网络B2的网络权重,并固定所述预训练骨干网络B2的浅层卷积层,重新训练所述预训练网络M2的其余卷积层;训练结束后利用所述检测目标的测试集测试所述目标检测网络。
第三方面,本发明实施例提供了一种针对工业视觉应用的预训练数据筛选系统,包括:
获取模块,用于采集检测目标的训练集,获取开源数据集;
预训练模块,用于利用所述开源数据集训练目标检测网络得到预训练网络M1;所述预训练网络M1包含预训练骨干网络B1;
特征库构建模块,用于利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,建立特征库L1;所述特征库L1包含所述每个类别对应的特征记忆单元,每个所述特征记忆单元包含对应类别的池化层特征以及类别标签;
调整模块,用于利用所述检测目标的训练集训练调整所述预训练网络M1;
目标特征统计模块,用于利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征;
目标类别筛选模块,用于利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别;
保存模块,用于保存所述开源数据集中与所述目标类别对应的训练数据作为所述目标检测网络的目标预训练数据。
第四方面,本发明实施例提供了一种训练系统,包括:预训练模块,用于利用前述任一实施例所述的方法得到的目标预训练数据对目标检测网络进行训练得到预训练网络M2;所述预训练网络M2包含预训练骨干网络B2;
训练模块,用于利用检测目标的训练集训练所述预训练网络M2;训练时沿用所述预训练骨干网络B2的网络权重,并固定所述预训练骨干网络B2的浅层卷积层,重新训练所述预训练网络M2的其余卷积层;
测试模块,用于训练结束后利用所述检测目标的测试集测试所述目标检测网络。
本发明实施例与现有技术相比,利用所述开源数据集训练目标检测网络得到预训练网络M1,再利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,并建立特征库L1,利用检测目标的训练集训练调整所述预训练网络M1后,利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征,然后利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别,保存开源数据集中与目标类别对应的训练数据作为目标检测网络的目标预训练数据,因此可基于度量学习的方法,以客观评价的方式在工业视觉任务中选择出更适合当前任务的预训练数据,显著提升模型的准确度、稳定性和可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,可以理解地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的针对工业视觉应用的预训练数据筛选方法的流程示意图;
图2是本发明实施例二提供的训练方法的流程示意图;
图3是本发明实施例三提供的针对工业视觉应用的预训练数据筛选系统的结构示意图;
图4是本发明实施例四提供的训练系统的结构示意图;
图5是本发明实施例五提供的服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例设计了一种基于距离函数的预训练数据筛选方法,可提升预训练样本质量,显著提升深度学习目标检测网络在工业视觉场景内的识别精度、稳定性、易用性和可用性。图1是本发明实施例一提供的一种针对工业视觉应用的预训练数据筛选方法的流程图。该方法可以由本发明实施例提供的一种针对工业视觉应用的预训练数据筛选系统来执行,该系统可以采用软件和/或硬件的方式实现。如图1所示,本实施例的针对工业视觉应用的预训练数据筛选方法包括以下步骤:
步骤101:采集检测目标的训练集,获取开源数据集。
其中,开源数据集可以从互联网下载,在选取开源数据集时,应尽量选取和当前任务相关的数据集。检测目标可以是各种工业应用场景中需要识别的对象,比如不同型号的汽车等,在此不做具体限制。检测目标的训练集可以根据实际需要进行采集,在此不再赘述。
步骤102:利用所述开源数据集训练目标检测网络得到预训练网络M1;所述预训练网络M1包含预训练骨干网络B1。
目标检测网络可以是各种深度学习神经网络,在此不做具体限制。目标检测网络通常包括:骨干网络和预测网络,骨干网络可看作图像的特征提取模块,迁移学习通常在此模块完成。
步骤103:利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,建立特征库L1;所述特征库L1包含所述每个类别对应的特征记忆单元,每个所述特征记忆单元包含对应类别的池化层特征以及类别标签。
可选地,利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征包括:从所述开源数据集中为每个类别随机抽取预设数量的图片;将每个类别的每张图片分别输入所述预训练网络M1,将所述预训练骨干网络B1的最后一个卷积层输出的卷积层特征作为每张图片的卷积层特征;对卷积层特征每一个通道的特征图取全局最大值,得到该图片的池化层特征;对每个类别所有图片的池化层特征求平均,得到该类别的池化层特征。
具体地,本实施例从开源数据集中为每个类别随机抽取100张的图片,即为开源数据集中每个类别随机抽取的图片的数量相同。将每个类别的每张图片分别输入预训练网络M1后得到预训练骨干网络B1最后一个卷积层输出的卷积层特征Fconv,记录每张图片的卷积层特征Fconv,然后计算每张图片卷积层特征的每个通道的特征图的最大特征值。此特征拥有两个维度,通道数C以及每个通道的特征F。按通道计算每个特征图的最大值的步骤与全局最大池化相同,故命名为池化层特征Fpool。对池化层特征归一化,将其数值限制在[0,1]区间内,然后与对应的类别标签构建特征记忆单元。
建立特征库L1可以包括:为每个类别建立一条对应的特征记忆单元,每个特征记忆单元分别包含池化层特征FPool以及当前类别分别标签。
步骤104:利用所述检测目标的训练集训练调整所述预训练网络M1。
可选地,利用所述检测目标的训练集训练调整所述预训练网络M1包括:保留所述预训练骨干网络B1的权重,固定所述预训练骨干网络B1的浅层卷积层,利用所述检测目标的训练集重新训练所述预训练网络M1的其余卷积层。预训练骨干网络B1的浅层卷积层一般是指骨干网络的前三层,其主要学习到的是图像中的普遍特征,还未具有较强的任务目标和语义信息,因此可以直接复用预训练骨干网络B1的权重。而对其余卷积层重新训练可以使目标检测网络学习到当前检测目标的深层语义特征。因此,利用检测目标的训练集训练调整预训练网络M1可使目标检测网络更适用于当前任务。
步骤105:利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征。
可选地,利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征包括:从所述检测目标的训练集中为每个类别随机抽取预设数量的图片;将每个类别的每张图片分别输入调整后的所述预训练网络M1,将调整后的预训练骨干网络B1的最后一个卷积层输出的卷积层特征作为每张图片的卷积层特征;对卷积层特征每一个通道的特征图取全局最大值,得到该图片的池化层特征;对该类别所有图片的池化层特征求平均,得到该类别的池化层特征。具体地,本实施例中,从所述检测目标的训练集中为每个类别随机抽取100张图片,即从所述检测目标的训练集中为每个类别随机抽取的图片的数量与从所述开源数据集中为每个类别随机抽取的图片的数量相同,然不限于此,比如,也可以从所述检测目标的训练集中为每个类别随机抽取120张图片。将从所述检测目标的训练集中为每个类别随机抽取的每张图片分别输入调整后的所述预训练网络M1得到其骨干网络的最后一个卷积层输出的卷积层特征,并记录每张图片的卷积层特征和池化层特征,在当前类别的100张图片输入完成之后统计该类别的平均池化层特征,此处每个类别池化层特征的计算方式与步骤103中对开源数据集中的样本图片的计算方式相同,此处不再赘述。对池化层特征归一化,将其数值限制在[0,1]区间内。
步骤106:利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别。
可选地,利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别包括:利用MMD(Maximum Mean Discrepancy,最大均值差异)距离函数计算所述检测目标的每个类别的池化层特征与所述特征库L1中每个类别的池化层特征的相似度,并从所述特征库L1中筛选得到与所述检测目标的每个类别的特征匹配目标类别。MMD距离是一种核学习方法,可以度量可再生核希尔伯特空间中两个分布的距离(相似度)。具体地,用MMD计算当前类别池化层特征与特征库L1中每条特征记忆单元的池化层特征的相似度,记录匹配度最高的五种类别作为与当前类别匹配的目标类别。
步骤107:保存开源数据集中与所述目标类别对应的训练数据作为所述目标检测网络的目标预训练数据。
具体地,在开源数据集中将所有匹配类别的样本保存至一个新的预训练子样本集合。
本发明实施例利用所述开源数据集训练目标检测网络得到预训练网络M1,再利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,并建立特征库L1,利用检测目标的训练集训练调整所述预训练网络M1后,利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征,然后利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别,保存开源数据集中与目标类别对应的训练数据作为目标检测网络的目标预训练数据,因此可基于度量学习的方法,以客观评价的方式在工业视觉任务中选择出更适合当前任务的预训练数据,显著提升模型的准确度、稳定性和可用性。本发明实施例从实际应用需求出发,同时考虑到迁移学习的技术缺陷以及实际应用限制。与现有技术相比,本发明实施例有如下优点:
1、本发明考虑到实际应用需求,在不改变网络架构和算法的基础上,利用距离函数合理筛选预训练数据,显著提升算法模型(即目标检测网络)的准确性,稳定性和落地应用能力。同时降低算法模型后期优化的复杂度。
2、相比于通过主观意识选择源数据集合,利用距离函数对源数据客观筛选提升迁移学习整个过程的可解释性,显著降低算法落地实施成本。
3、本发明实施例的预训练数据筛选算法可视作一种数据预处理策略,可与其它优化算法结合使用。
随着预训练数据指数级增长,合理筛选预训练数据将会更加重要,符合未来工业视觉大数据化,网络化,平台化等应用前景。
图2是本发明实施例二提供的一种训练方法的流程图。该方法可以由本发明实施例提供的一种训练系统来执行,该系统可以采用软件和/或硬件的方式实现。如图2所示,本实施例的训练方法包括以下步骤:
步骤201:利用实施例一所述的方法得到的目标预训练数据对目标检测网络进行训练得到预训练网络M2;所述预训练网络M2包含预训练骨干网络B2。
具体地,初始化网络所有权重,利用前述实施例得到的目标预训练数据重新训练目标检测网络,训练结束后得到预训练网络M2和预训练骨干网络B2。
步骤202:利用检测目标的训练集训练所述预训练网络M2;训练时沿用所述预训练骨干网络B2的网络权重,并固定所述预训练骨干网络B2的浅层卷积层,重新训练所述预训练网络M2的其余卷积层。
检测目标的训练集可以根据具体的检测目标采集得到。在训练时骨干网络权重沿用步骤201得到的预训练骨干网络B2的权重,训练时固定骨干网络的前三个卷积层,其余网络层重新训练。利用检测目标的训练集训练预训练网络M2可使目标检测网络更适用于当前任务。
步骤203:训练结束后利用所述检测目标的测试集测试所述目标检测网络。
本实施例与现有技术相比,在预训练样本质量得到显著提升的前提下,可显著提升深度学习目标检测网络在工业视觉场景内的识别精度、稳定性、易用性和可用性。
图3是本发明实施例三提供的一种针对工业视觉应用的预训练数据筛选系统的结构框图。该系统可配置于服务器,用于执行上述任意实施例所提供的针对工业视觉应用的预训练数据筛选方法。该系统300包括:
获取模块301,用于采集检测目标的训练集,获取开源数据集。
预训练模块302,用于利用所述开源数据集训练目标检测网络得到预训练网络M1;所述预训练网络M1包含预训练骨干网络B1。
特征库构建模块303,用于利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,建立特征库L1;所述特征库L1包含所述每个类别对应的特征记忆单元,每个所述特征记忆单元包含对应类别的池化层特征以及类别标签。
调整模块304,用于利用所述检测目标的训练集训练调整所述预训练网络M1。
目标特征统计模块305,用于利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征。
目标类别筛选模块306,用于利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别。
保存模块307,用于保存所述开源数据集中与所述目标类别对应的训练数据作为所述目标检测网络的目标预训练数据。
可选地,特征库构建模块303,包括:
源图片抽取子模块,用于从所述开源数据集中为每个类别随机抽取预设数量的图片;
源池化层特征统计子模块,用于将每个类别的每张图片分别输入所述预训练网络M1,将所述预训练骨干网络B1的最后一个卷积层输出的卷积层特征作为每张图片的卷积层特征;对卷积层特征每一个通道的特征图取全局最大值,得到该图片的池化层特征;对该类别所有图片的池化层特征求平均,得到该类别的池化层特征。
可选地,每个类别随机抽取的图片的数量相同。
可选地,调整模块304,具体用于保留所述预训练骨干网络B1的权重,固定所述预训练骨干网络B1的浅层卷积层,利用所述检测目标的训练集重新训练所述预训练网络M1的其余卷积层。
可选地,目标特征统计模块305,包括:
目标图片抽取子模块,用于从所述检测目标的训练集中为每个类别随机抽取预设数量的图片;
目标池化层特征统计子模块,用于将每个类别的每张图片分别输入调整后的所述预训练网络M1,将调整后的预训练骨干网络B1的最后一个卷积层输出的卷积层特征作为每张图片的卷积层特征;对卷积层特征每一个通道的特征图取全局最大值,得到该图片的池化层特征;对该类别所有图片的池化层特征求平均,得到该类别的池化层特征。
可选地,从所述检测目标的训练集中为每个类别随机抽取的图片的数量与从所述开源数据集中为每个类别随机抽取的图片的数量相同。
可选地,目标类别筛选模块306具体用于利用MMD距离函数计算所述检测目标的每个类别的池化层特征与所述特征库L1中每个类别的池化层特征的相似度,并从所述特征库L1中筛选得到与所述检测目标的每个类别的特征匹配目标类别。
与现有技术相比,本发明实施例有如下优点:
4、本发明考虑到实际应用需求,在不改变网络架构和算法的基础上,利用距离函数合理筛选预训练数据,显著提升算法模型(即目标检测网络)的准确性,稳定性和落地应用能力。同时降低算法后期优化的复杂度。
5、相比于通过主观意识选择源数据集合,利用距离函数对源数据客观筛选提升迁移学习整个过程的可解释性,显著降低算法落地实施成本。
6、本发明实施例的预训练数据筛选算法可视作一种数据预处理策略,可与其它优化算法结合使用。
随着预训练数据指数级增长,合理筛选预训练数据将会更加重要,符合未来工业视觉大数据化,网络化,平台化等应用前景。
图4是本发明实施例四提供的一种训练系统的结构框图。该系统可配置于服务器,用于执行上述任意实施例所提供的训练方法。该系统400包括:
预训练模块401,用于利用前述任一实施例所述的针对工业视觉应用的预训练数据筛选方法得到的目标预训练数据对目标检测网络进行训练得到预训练网络M2;所述预训练网络M2包含预训练骨干网络B2。
训练模块402,用于利用检测目标的训练集训练所述预训练网络M2;训练时沿用所述预训练骨干网络B2的网络权重,并固定所述预训练骨干网络B2的浅层卷积层,重新训练所述预训练网络M2的其余卷积层。
测试模块403,用于训练结束后利用所述检测目标的测试集测试所述目标检测网络。
本发明实施例的训练系统在预训练样本质量得到显著提升的前提下,可显著提升深度学习目标检测网络在工业视觉场景内的识别精度、稳定性、易用性和可用性。
图5为本发明实施例五提供的一种服务器的结构示意图。如图5所示,该服务器包括:存储器502、处理器501;
其中,所述存储器502存储有可被所述至少一个处理器501执行的指令,所述指令被所述至少一个处理器501执行以实现前述任意实施例所述的方法。
该服务器可以包括一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行云端的各种功能应用以及数据处理,即实现上述任一实施例所述的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的方法。
上述服务器可执行本发明实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的方法。
本发明实施例六提供一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供云端执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个云端(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种针对工业视觉应用的预训练数据筛选方法,其特征在于,包括:
采集检测目标的训练集,获取开源数据集;
利用所述开源数据集训练目标检测网络得到预训练网络M1;所述预训练网络M1包含预训练骨干网络B1;
利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,建立特征库L1;所述特征库L1包含所述每个类别对应的特征记忆单元,每个所述特征记忆单元包含对应类别的池化层特征以及类别标签;
利用所述检测目标的训练集训练调整所述预训练网络M1;
利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征;
利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别;
保存所述开源数据集中与所述目标类别对应的训练数据作为所述目标检测网络的目标预训练数据。
2.根据权利要求1所述的方法,其特征在于,所述利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,包括:
从所述开源数据集中为每个类别随机抽取预设数量的图片;
将每个类别的每张图片分别输入所述预训练网络M1,将所述预训练骨干网络B1的最后一个卷积层输出的卷积层特征作为每张图片的卷积层特征;对卷积层特征每一个通道的特征图取全局最大值,得到所述每张图片的池化层特征;对每个类别所有图片的池化层特征求平均,得到对应类别的池化层特征。
3.根据权利要求2所述的方法,其特征在于,每个类别随机抽取的图片的数量相同。
4.根据权利要求1所述的方法,其特征在于,所述利用所述检测目标的训练集训练调整所述预训练网络M1,包括:
保留所述预训练骨干网络B1的权重,固定所述预训练骨干网络B1的浅层卷积层,利用所述检测目标的训练集重新训练所述预训练网络M1的其余卷积层。
5.根据权利要求2所述的方法,其特征在于,所述利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征,包括:
从所述检测目标的训练集中为每个类别随机抽取预设数量的图片;
将每个类别的每张图片分别输入调整后的所述预训练网络M1,将调整后的预训练骨干网络B1的最后一个卷积层输出的卷积层特征作为每张图片的卷积层特征;
对卷积层特征每一个通道的特征图取全局最大值,得到每张图片的池化层特征;对每个类别所有图片的池化层特征求平均,得到对应类别的池化层特征。
6.根据权利要求5所述的方法,其特征在于,从所述检测目标的训练集中为每个类别随机抽取的图片的数量与从所述开源数据集中为每个类别随机抽取的图片的数量相同。
7.根据权利要求5所述的方法,其特征在于,所述利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别,包括:
利用MMD距离函数计算所述检测目标的每个类别的池化层特征与所述特征库L1中每个类别的池化层特征的相似度,并从所述特征库L1中筛选得到与所述检测目标的每个类别的特征匹配目标类别。
8.一种训练方法,其特征在于,包括:
利用权利要求1至7中任一项所述的方法得到的目标预训练数据对目标检测网络进行训练得到预训练网络M2;所述预训练网络M2包含预训练骨干网络B2;
利用检测目标的训练集训练所述预训练网络M2;训练时沿用所述预训练骨干网络B2的网络权重,并固定所述预训练骨干网络B2的浅层卷积层,重新训练所述预训练网络M2的其余卷积层;
训练结束后利用所述检测目标的测试集测试所述目标检测网络。
9.一种针对工业视觉应用的预训练数据筛选系统,其特征在于,包括:
获取模块,用于采集检测目标的训练集,获取开源数据集;
预训练模块,用于利用所述开源数据集训练目标检测网络得到预训练网络M1;所述预训练网络M1包含预训练骨干网络B1;
特征库构建模块,用于利用所述预训练网络M1计算并统计得到所述开源数据集中每个类别的特征,建立特征库L1;所述特征库L1包含所述每个类别对应的特征记忆单元,每个所述特征记忆单元包含对应类别的池化层特征以及类别标签;
调整模块,用于利用所述检测目标的训练集训练调整所述预训练网络M1;
目标特征统计模块,用于利用调整后的所述预训练网络M1统计得到所述检测目标的训练集中每个类别的特征;
目标类别筛选模块,用于利用距离函数从所述特征库L1中筛选出与所述检测目标的每个类别的特征匹配的目标类别;
保存模块,用于保存所述开源数据集中与所述目标类别对应的训练数据作为所述目标检测网络的目标预训练数据。
10.一种训练系统,其特征在于,包括:
预训练模块,用于利用权利要求1至7中任一项所述的方法得到的目标预训练数据对目标检测网络进行训练得到预训练网络M2;所述预训练网络M2包含预训练骨干网络B2;
训练模块,用于利用检测目标的训练集训练所述预训练网络M2;训练时沿用所述预训练骨干网络B2的网络权重,并固定所述预训练骨干网络B2的浅层卷积层,重新训练所述预训练网络M2的其余卷积层;
测试模块,用于训练结束后利用所述检测目标的测试集测试所述目标检测网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753850.9A CN113420824A (zh) | 2021-07-03 | 2021-07-03 | 针对工业视觉应用的预训练数据筛选及训练方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753850.9A CN113420824A (zh) | 2021-07-03 | 2021-07-03 | 针对工业视觉应用的预训练数据筛选及训练方法、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420824A true CN113420824A (zh) | 2021-09-21 |
Family
ID=77721514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110753850.9A Pending CN113420824A (zh) | 2021-07-03 | 2021-07-03 | 针对工业视觉应用的预训练数据筛选及训练方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420824A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897147A (zh) * | 2022-05-18 | 2022-08-12 | 北京百度网讯科技有限公司 | 骨干网络的生成方法、装置、设备以及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273922A (zh) * | 2017-06-02 | 2017-10-20 | 云南大学 | 一种面向多源实例迁移学习的样本筛选和权重计算方法 |
CN108681585A (zh) * | 2018-05-14 | 2018-10-19 | 浙江工业大学 | 一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法 |
US20190065989A1 (en) * | 2017-08-30 | 2019-02-28 | Intel Corporation | Constrained sample selection for training models |
CN109657552A (zh) * | 2018-11-16 | 2019-04-19 | 北京邮电大学 | 基于迁移学习实现跨场景冷启动的车型识别装置与方法 |
CN109961089A (zh) * | 2019-02-26 | 2019-07-02 | 中山大学 | 基于度量学习和元学习的小样本和零样本图像分类方法 |
CN111368886A (zh) * | 2020-02-25 | 2020-07-03 | 华南理工大学 | 一种基于样本筛选的无标注车辆图片分类方法 |
US20200242410A1 (en) * | 2019-01-30 | 2020-07-30 | Mitsubishi Electric Research Laboratories, Inc. | System for Training Descriptor with Active Sample Selection |
CN111652264A (zh) * | 2020-04-13 | 2020-09-11 | 西安理工大学 | 基于最大均值差异的负迁移样本筛选方法 |
CN112132014A (zh) * | 2020-09-22 | 2020-12-25 | 德州学院 | 基于非督导金字塔相似性学习的目标重识别方法及系统 |
CN112438741A (zh) * | 2020-09-30 | 2021-03-05 | 燕山大学 | 一种基于脑电特征迁移学习的驾驶状态检测方法及系统 |
-
2021
- 2021-07-03 CN CN202110753850.9A patent/CN113420824A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273922A (zh) * | 2017-06-02 | 2017-10-20 | 云南大学 | 一种面向多源实例迁移学习的样本筛选和权重计算方法 |
US20190065989A1 (en) * | 2017-08-30 | 2019-02-28 | Intel Corporation | Constrained sample selection for training models |
CN108681585A (zh) * | 2018-05-14 | 2018-10-19 | 浙江工业大学 | 一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法 |
CN109657552A (zh) * | 2018-11-16 | 2019-04-19 | 北京邮电大学 | 基于迁移学习实现跨场景冷启动的车型识别装置与方法 |
US20200242410A1 (en) * | 2019-01-30 | 2020-07-30 | Mitsubishi Electric Research Laboratories, Inc. | System for Training Descriptor with Active Sample Selection |
CN109961089A (zh) * | 2019-02-26 | 2019-07-02 | 中山大学 | 基于度量学习和元学习的小样本和零样本图像分类方法 |
CN111368886A (zh) * | 2020-02-25 | 2020-07-03 | 华南理工大学 | 一种基于样本筛选的无标注车辆图片分类方法 |
CN111652264A (zh) * | 2020-04-13 | 2020-09-11 | 西安理工大学 | 基于最大均值差异的负迁移样本筛选方法 |
CN112132014A (zh) * | 2020-09-22 | 2020-12-25 | 德州学院 | 基于非督导金字塔相似性学习的目标重识别方法及系统 |
CN112438741A (zh) * | 2020-09-30 | 2021-03-05 | 燕山大学 | 一种基于脑电特征迁移学习的驾驶状态检测方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897147A (zh) * | 2022-05-18 | 2022-08-12 | 北京百度网讯科技有限公司 | 骨干网络的生成方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741332B (zh) | 一种人机协同的图像分割与标注方法 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN108805016B (zh) | 一种头肩区域检测方法及装置 | |
CN106295645B (zh) | 一种车牌字符识别方法和装置 | |
CN109800717B (zh) | 基于强化学习的行为识别视频帧采样方法及系统 | |
CN112215119B (zh) | 一种基于超分辨率重建的小目标识别方法、装置及介质 | |
CN113361645B (zh) | 基于元学习及知识记忆的目标检测模型构建方法及系统 | |
CN109087337B (zh) | 基于分层卷积特征的长时间目标跟踪方法及系统 | |
CN112232450A (zh) | 一种综合多阶段的难例样本挖掘方法、目标检测方法 | |
CN112287896A (zh) | 一种基于深度学习的无人机航拍图像目标检测方法及系统 | |
CN107945210A (zh) | 基于深度学习和环境自适应的目标跟踪算法 | |
CN111191531A (zh) | 一种快速行人检测方法及系统 | |
CN112396042A (zh) | 实时更新的目标检测方法及系统、计算机可读存储介质 | |
CN113870254B (zh) | 目标对象的检测方法、装置、电子设备及存储介质 | |
CN115861738A (zh) | 一种类别语义信息引导的遥感目标检测主动采样方法 | |
CN111310837A (zh) | 车辆改装识别方法、装置、系统、介质和设备 | |
CN111414951A (zh) | 用于图像的细分类方法及装置 | |
CN113420824A (zh) | 针对工业视觉应用的预训练数据筛选及训练方法、系统 | |
CN112200862B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN109255794B (zh) | 一种标准件深度全卷积特征边缘检测方法 | |
CN116580232A (zh) | 一种图像自动标注方法、系统及电子设备 | |
CN109376619A (zh) | 一种细胞检测方法 | |
CN116189130A (zh) | 基于图像标注模型的车道线分割方法及装置 | |
Zhu et al. | (Retracted) Transfer learning-based YOLOv3 model for road dense object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |