CN115049965A - 一种检测模型的训练方法、装置、电子设备及存储介质 - Google Patents
一种检测模型的训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115049965A CN115049965A CN202210784967.8A CN202210784967A CN115049965A CN 115049965 A CN115049965 A CN 115049965A CN 202210784967 A CN202210784967 A CN 202210784967A CN 115049965 A CN115049965 A CN 115049965A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- prediction
- layer
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000013135 deep learning Methods 0.000 claims abstract description 51
- 238000012544 monitoring process Methods 0.000 claims abstract description 23
- 238000002372 labelling Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000007526 fusion splicing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 10
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012806 monitoring device Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种检测模型的训练方法、装置、电子设备及存储介质。包括:首先从监控视频中提取目标视频帧图像,并将标注信息携带在目标视频帧图像。得到样本图像;利用样本图像训练无锚框的深度学习网络模型,以使深度学习网络模型中的主干网络层从样本图像中提取图像特征,基于图像特征生成特征图,通过预测层中的解耦头基于特征图输出目标对象的预测位置信息;如果预测位置信息满足预设条件,即得到检测模型。本申请在预测层中加入解耦头能够提高深度学习网络模型的检测速度和精度。同时在训练过程中没有锚框,所以不需要计算锚框和边界框之间的交并比来获得样本图像。因此可以直接利用携带标注信息的样本图像训练模型,提高了模型的训练效率。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种检测模型的训练方法、装置、电子设备及存储介质。
背景技术
目标检测已被广泛研究,用于定位图像中的目标并将目标分类为许多不同类别中的一种。随着深度学习的日益成功,深度学习模型已经成为目标检测领域的研究热点。
在现有的技术中,基于区域提名的方法占据上风,但是这类方法过程一般都比较复杂,即先对原始图像进行提取候选框操作,再把候选框缩放为固定大小并进行特征提取,最后得到检测结果。虽然这种方法得到的结果精度很高,但是速度慢,实时效果差。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种检测模型的训练方法、装置、电子设备及存储介质。
根据本申请实施例的一个方面,提供了一种检测模型的训练方法,包括:
获取对目标厂房进行监控得到的监控视频,并从所述监控视频中提取多个目标视频帧图像,其中,所述目标视频帧图像中包括至少一个目标对象;
将获取的标签信息携带于所述目标视频帧图像,得到样本图像,其中,所述标签信息用于标注所述目标对象在所述视频帧图像中的实际位置信息;
利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息;
确定所述预测位置信息与实际位置信息之间的匹配度,在所述匹配度落入预设范围的情况下,将所述深度学习网络模型确定为检测模型。
进一步的,所述从所述监控视频中提取多个目标视频帧图像,包括:
提取所述监控视频所包括的视频帧图像;
检测所述视频帧图像的完整程度;
将所述完整程度满足预设完整程度的视频帧图像确定为所述目标帧图像。
进一步的,所述方法还包括:
将所述目标帧图像按照第一预设比例生成训练集合,以及按照第二预设比例生成测试集合,其中,所述第一预设比例大于所述第二预设比例。
进一步的,所述深度学习网络模型包括:顺次连接的主干网络层、瓶颈层以及预测层,所述预测层包括:解耦头以及检测器,所述解耦头包括:分类头、目标头以及位置头。
进一步的,所述利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息,包括:
将所述样本图像输入所述深度学习网络模型,通过所述主干网络层从所述样本图像中提取初始图像特征,并将所述初始图像特征传递至所述瓶颈层;
通过所述瓶颈层对所述初始图像特征进行上采样处理,得到高层图像特征,并融合所述高层图像特征,得到目标特征图,将所述目标特征图传递至所述预测层;
通过所述预测层基于所述目标特征图进行预测,得到包围所述目标对象的预测框,并利用所述预测框的坐标确定所述预测位置信息。
进一步的,所述通过所述预测层基于所述目标特征图进行预测,得到包围所述目标对象的预测框,并利用所述预测框的坐标确定所述预测位置信息,包括:
通过所述预测层的分类头确定所述目标特征图中预测框的类别,以及类别对应的类别分数,通过所述预测层中的目标头从所述目标特征图中获取与实际目标框相匹配的预测框作为前景特征,以及通过所述预测层中的位置头从所述目标特征图中得到所述预测框的初始坐标;
通过所述检测器对所述预测框对应的类别及类别分数、前景特征以及所述预测框的初始坐标进行融合拼接,得到所述预测位置信息。
进一步的,所述方法还包括:
在所述匹配度落入预设范围的情况下,利用所述测试集合中的目标视频帧图像对所述深度学习网络模型进行测试,得到测试结果;
在所述测试结果满足预设测试结果的情况下,将所述深度学习网络模型确定为检测模型。
根据本申请实施例的另一方面,还提供了一种检测模型的训练装置,包括:
获取模块,用于获取对目标厂房进行监控得到的监控视频,并从所述监控视频中提取多个目标视频帧图像,其中,所述目标视频帧图像中包括至少一个目标对象;
标注模块,用于将获取的标签信息携带于所述目标视频帧图像,得到样本图像,其中,所述标签信息用于标注所述目标对象在所述视频帧图像中的实际位置信息;
处理模块,用于利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息;
确定模块,用于确定所述预测位置信息与实际位置信息之间的匹配度,在所述匹配度落入预设范围的情况下,将所述深度学习网络模型确定为检测模型。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请在预测层中加入解耦头能够提高深度学习网络模型的检测速度和精度。同时在训练过程中没有锚框,所以不需要计算预测框和目标框之间的交并比来获得样本图像。因此可以直接利用携带标注信息的样本图像训练模型,提高了模型的训练效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种检测模型的训练方法的流程图;
图2为本申请实施例提供的一种深度学习网络模型的示意图;
图3为本申请实施例提供的一种检测模型的训练装置的框图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种检测模型的训练方法、装置、电子设备及存储介质。本发明实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
根据本申请实施例的一方面,提供了一种检测模型的训练方法的方法实施例。图1为本申请实施例提供的一种检测模型的训练方法的流程图,如图1所示,该方法包括:
步骤S11,获取对目标厂房进行监控得到的监控视频,并从监控视频中提取多个目标视频帧图像,其中,目标视频帧图像中包括至少一个目标对象。
本申请实施例提供的方法应用于能够进行视频/图像处理的智能设备,智能设备可以是电脑、手机等等。其中,获取对目标厂房进行监控得到的监控视频的实现过程可以是:智能设备首先向设置于目标厂房内的监控设备发送控制指令,以使监控设备对目标厂房的环境进行录制得到监控视频,同时监控设备实时将监控视频传输至智能设备。
在本申请实施例中,智能设备在得到监控视频后,会从监控视频中提取多个目标视频帧图像,具体的,从监控视频中提取多个目标视频帧图像,包括以下步骤A1-A3:
步骤A1,提取监控视频所包括的视频帧图像。
步骤A2,检测视频帧图像的完整程度。
步骤A3,将完整程度满足预设完整程度的视频帧图像确定为目标帧图像。
在本申请实施例中,智能设备首先提取监控视频中的每一个视频帧图像,然后对每一个视频帧图像进行预处理(例如:亮度增强处理),得到处理后的视频帧图像。然后对处理后的视频帧图像的完整程度进行检测,将完整程度满足预设完整程度的视频帧图像确定为目标帧图像。其中,图像的完整程度检测可以是提取图像特征,利用图像特征确定处理后的视频帧图像是否存在遮挡的情况,如果存在遮挡的情况,则将确定该图像的完整程度不满足预设完整程度。
在本申请实施例中,目标视频帧图像中包括的目标对象可以是目标工厂内的工作人员。
步骤S12,将获取的标签信息携带于目标视频帧图像,得到样本图像,其中,标签信息用于标注目标对象在视频帧图像中的实际位置信息。
在本申请实施例中,方法还包括:将目标帧图像按照第一预设比例生成训练集合,以及按照第二预设比例生成测试集合,其中,第一预设比例大于第二预设比例。
作为一个示例,存在1000张目标帧图像,第一预设比例为为80%,第二预设比例为20%。按照第一预设比例生成训练集合,训练集合中包括800张目标帧图像。按照第二预设比例生成测试集合,测试集合中包括200张目标帧图像。
在本申请实施例中,将获取的标签信息携带于目标视频帧图像,得到样本图像,包括以下步骤B1-B2:
步骤B1,获取标签信息,标签信息用于标注目标对象在视频帧图像中的实际位置信息。
步骤B2,将标签信息携带于训练集合中的目标视频帧图像,得到样本图像。
在本申请实施例中,标签信息用于标注目标对象在视频帧图像中的实际位置信息,实际位置信息可以是目标对象对应真实边界框的位置信息。具体的,可以是检测是否触发有编辑操作,如有触发编辑操作,则基于编辑操作获取输入信息,从输入信息中获取目标对象的特征信息,目标对象对应真实边界框的实际位置信息,以及特征信息与真实边界框的对应关系,基于目标对象的特征信息、真实边界框的实际位置信息以及对应关系得到标签信息。
在本申请实施例中,在得到标签信息后,将标签信息携带在训练集合中的目标视频帧图像,基于此将携带标签信息的目标视频帧图像确定为样本图像。
步骤S13,利用样本图像训练无锚框的深度学习网络模型,以使深度学习网络模型中的主干网络层从样本图像中提取图像特征,基于图像特征生成目标特征图,将目标特征图传递至预测层,通过预测层基于目标特征图进行预测,得到目标对象的预测位置信息。
在本申请实施例中,深度学习网络模型的结构,如图2所示,深度学习网络模型包括:输入层、主干网络、瓶颈层以及预测层。其中,输入端采用数据增强方法MixUp和Mosaic,能够提高模型的整体性能。骨干网络可以采用预训练的Darknet53,主要提取图像特征。瓶颈层(Neck):将高层的图像特征,通过上采样的方式进行传递融合,得到待进行预测的特征图。预测层:基于特征图中的图像特征进行预测,并进行分类。
在本申请实施例中,利用样本图像训练无锚框的深度学习网络模型,以使深度学习网络模型中的主干网络层学习目标对象特征与目标对象之间关系,并从样本图像中提取图像特征,基于图像特征生成特征图,将特征图传递至预测层,通过预测层中的解耦头基于特征图输出目标对象的预测位置信息,包括:
步骤C1,将样本图像输入深度学习网络模型,通过主干网络层从样本图像中提取初始图像特征,并将初始图像特征传递至瓶颈层;
步骤C2,通过瓶颈层对初始图像特征进行上采样处理,得到高层图像特征,并融合高层图像特征,得到目标特征图,将目标特征图传递至预测层;
步骤C3,通过预测层基于目标特征图进行预测,得到包围目标对象的预测框,并利用预测框的坐标确定预测位置信息。
在本申请实施例中,通过预测层基于目标特征图进行预测,得到包围目标对象的预测框,并利用预测框的坐标确定预测位置信息,包括:
通过预测层的分类头确定目标特征图中预测框的类别,以及类别对应的类别分数,通过预测层中的目标头从目标特征图中获取与实际目标框相匹配的预测框作为前景特征,以及通过预测层中的位置头从目标特征图中得到预测框的初始坐标;通过检测器对预测框对应的类别及类别分数、前景特征以及预测框的初始坐标进行融合拼接,得到预测位置信息。
具体的,如图2所示,主干网络包括第一处理子网络、卷积子网络以及第二处理子网络,第一处理子网络为CBL结构,CBL层由Conv+BN+Leaky relu组成。卷积子网络(ResNet)包括多个卷积层。第二处理子网络包括CBL结构以及SPP结构,SPP结构包括多个池化层maxpool和Concat。瓶颈层包括:多个分支,第一分支用于获取骨干网络输出的图像特征,将图像特征分别传递至瓶颈层的第二分支以及预测层。瓶颈层除第一分支以外的其他分支从瓶颈层以及该分支的上一分支获取图像特征,然后对图像特征进行上采样,得到高层图像特征,并融合成特征图。瓶颈层除第一分支以外的其他分支均包括输入CBL结构和Concat。
在本申请实施例中,预测层包括:解耦头以及检测器,解耦头包括:分类头、目标头以及位置头。由于分类和定位所关注的内容不同,因此采用不同的分支进行运算,解耦头会先通过1×1的卷积把前面的特征图的通道变为256,然后再经过2个3×3的卷积层,接着再经过1×1的卷积层,分别到分类头、目标头和位置头,得到三个输出,经过张量拼接融合到一起,得到最终的特征信息。
分类头:主要对目标框的类别,预测分数。YOLOX使用FCOS中的中心采样方法,将目标中心3×3的区域内的像素点都作为目标,最后,经过三个解耦头的输出,将生成8400个预测框。直接对8400个预测框做精确的标签分配,计算量较大,分配标签过程分为2步:(1)粗筛选;(2)SimOTA精确分配标签。
目标头:主要判断目标框是前景还是背景。利用预测框和实际目标框的关系,利用SimOTA挑选出一部分适合的正样本边界框作为前景。
位置头:主要对目标框的坐标信息(x,y,w,h)进行预测。利用位置回归,对预测框以及实际目标框进行比对。
需要说明的是,本申请实施例采用Mosaic、MixUp和解耦头,增强了目标检测器的检测效率,能以更快的速度和精度来进行检测。
步骤S14,确定预测位置信息与实际位置信息之间的匹配度,在匹配度落入预设范围的情况下,将深度学习网络模型确定为检测模型。
在本申请实施例中,首先获取目标对象在样本图像中的实际位置信息,实际位置信息可以是目标对象在样本图像中包围框的坐标信息。然后计算预测位置信息与实际位置信息之间的匹配度,匹配度可是坐标信息之间的匹配度(例如坐标信息是否重合)。在匹配度落入预设范围的情况下,将深度学习网络模型确定为检测模型。
另外,为了保证深度学习模型的学习效果,本申请实施例提供了利用测试集进行测试的方法,还包括以下步骤C1-C2:
步骤C1,在匹配度落入预设范围的情况下,利用测试集合中的目标视频帧图像对深度学习网络模型进行测试,得到测试结果。
步骤C2,在测试结果满足预设测试结果的情况下,将深度学习网络模型确定为检测模型。
在本申请实施例中,在匹配度落入预设范围的情况下,利用测试集合中的目标视频帧图像对深度学习网络模型进行测试,由于测试集合中的目标视频帧图像没有标签信息,利用无标签信息的目标视频帧图像测试深度学习网络模型,能够更准确的确定深度学习网络模型的训练效果。
本申请在预测层中加入解耦头能够提高深度学习网络模型的检测速度和精度。同时在训练过程中没有锚框,所以不需要计算锚框和边界框之间的交并比来获得样本图像。因此可以直接利用携带标注信息的样本图像训练模型,提高了模型的训练效率。
图3为本申请实施例提供的一种检测模型的训练装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示,该装置包括:
获取模块31,用于获取对目标厂房进行监控得到的监控视频,并从监控视频中提取多个目标视频帧图像,其中,目标视频帧图像中包括至少一个目标对象;
标注模块32,用于将获取的标签信息携带于目标视频帧图像,得到样本图像,其中,标签信息用于标注目标对象在视频帧图像中的目标对象特征,以及目标对象特征属于目标对象的标签;
处理模块33,用于利用样本图像训练无锚框的深度学习网络模型,以使深度学习网络模型中的主干网络层学习目标对象特征与目标对象之间关系,并从样本图像中提取图像特征,基于图像特征生成特征图,将特征图传递至预测层,通过预测层中的解耦头基于特征图输出目标对象的预测位置信息;
确定模块34,用于确定预测位置信息与实际位置信息之间的匹配度,在匹配度落入预设范围的情况下,将深度学习网络模型确定为检测模型。
在本申请实施例中,获取模块31,用于提取监控视频所包括的视频帧图像;检测视频帧图像的完整程度;将完整程度满足预设完整程度的视频帧图像确定为目标帧图像。
在本申请实施例中,装置还包括:生成模块,用于将目标帧图像按照第一预设比例生成训练集合,以及按照第二预设比例生成测试集合,其中,第一预设比例大于第二预设比例。
在本申请实施例中,标注模块32,用于获取标签信息;将标签信息携带于训练集合中的目标视频帧图像,得到样本图像。
在本申请实施例中,深度学习网络模型包括:顺次连接的主干网络层、瓶颈层以及预测层,预测层包括:解耦头以及检测器,解耦头包括:分类头、目标头以及位置头。
在本申请实施例中,处理模块33,用于将样本图像输入深度学习网络模型,通过主干网络层从样本图像中提取初始图像特征,并将初始图像特征传递至瓶颈层;通过瓶颈层对初始图像特征进行上采样处理,得到高层图像特征,并融合高层图像特征,得到目标特征图,将目标特征图传递至预测层;通过预测层基于目标特征图进行预测,得到包围目标对象的目标框,并将目标框的位置信息确定为预测位置信息。
在本申请实施例中,处理模块33,用于通过所述预测层的分类头确定所述目标特征图中预测框的类别,以及类别对应的类别分数,通过所述预测层中的目标头从所述目标特征图中获取与实际目标框相匹配的预测框作为前景特征,以及通过所述预测层中的位置头从所述目标特征图中得到所述预测框的初始坐标;通过所述检测器对所述预测框对应的类别及类别分数、前景特征以及所述预测框的初始坐标进行融合拼接,得到所述预测位置信息。
在本申请实施例中,检测模型的训练装置还包括:测试模块,用于在匹配度落入预设范围的情况下,利用测试集合中的目标视频帧图像对深度学习网络模型进行测试,得到测试结果;在测试结果满足预设测试结果的情况下,将深度学习网络模型确定为检测模型。
本申请实施例还提供一种电子设备,如图4所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的计算机程序时,实现上述实施例的步骤。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的检测模型的训练方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的检测模型的训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk)等。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种检测模型的训练方法,其特征在于,包括:
获取对目标厂房进行监控得到的监控视频,并从所述监控视频中提取多个目标视频帧图像,其中,所述目标视频帧图像中包括至少一个目标对象;
将获取的标签信息携带于所述目标视频帧图像,得到样本图像,其中,所述标签信息用于标注所述目标对象在所述视频帧图像中的实际位置信息;
利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息;
确定所述预测位置信息与实际位置信息之间的匹配度,在所述匹配度落入预设范围的情况下,将所述深度学习网络模型确定为检测模型。
2.根据权利要求1所述的方法,其特征在于,所述从所述监控视频中提取多个目标视频帧图像,包括:
提取所述监控视频所包括的视频帧图像;
检测所述视频帧图像的完整程度;
将所述完整程度满足预设完整程度的视频帧图像确定为所述目标帧图像。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述目标帧图像按照第一预设比例生成训练集合,以及按照第二预设比例生成测试集合,其中,所述第一预设比例大于所述第二预设比例。
4.根据权利要求3所述的方法,其特征在于,所述深度学习网络模型包括:顺次连接的主干网络层、瓶颈层以及预测层,所述预测层包括:解耦头以及检测器,所述解耦头包括:分类头、目标头以及位置头。
5.根据权利要求4所述的方法,其特征在于,所述利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息,包括:
将所述样本图像输入所述深度学习网络模型,通过所述主干网络层从所述样本图像中提取初始图像特征,并将所述初始图像特征传递至所述瓶颈层;
通过所述瓶颈层对所述初始图像特征进行上采样处理,得到高层图像特征,并融合所述高层图像特征,得到目标特征图,将所述目标特征图传递至所述预测层;
通过所述预测层基于所述目标特征图进行预测,得到包围所述目标对象的预测框,并利用所述预测框的坐标确定所述预测位置信息。
6.根据权利要求5所述的方法,其特征在于,所述通过所述预测层基于所述目标特征图进行预测,得到包围所述目标对象的预测框,并利用所述预测框的坐标确定所述预测位置信息,包括:
通过所述预测层的分类头确定所述目标特征图中预测框的类别,以及类别对应的类别分数,通过所述预测层中的目标头从所述目标特征图中获取与实际目标框相匹配的预测框作为前景特征,以及通过所述预测层中的位置头从所述目标特征图中得到所述预测框的初始坐标;
通过所述检测器对所述预测框对应的类别及类别分数、前景特征以及所述预测框的初始坐标进行融合拼接,得到所述预测位置信息。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述匹配度落入预设范围的情况下,利用所述测试集合中的目标视频帧图像对所述深度学习网络模型进行测试,得到测试结果;
在所述测试结果满足预设测试结果的情况下,将所述深度学习网络模型确定为检测模型。
8.一种检测模型的训练装置,其特征在于,包括:
获取模块,用于获取对目标厂房进行监控得到的监控视频,并从所述监控视频中提取多个目标视频帧图像,其中,所述目标视频帧图像中包括至少一个目标对象;
标注模块,用于将获取的标签信息携带于所述目标视频帧图像,得到样本图像,其中,所述标签信息用于标注所述目标对象在所述视频帧图像中的实际位置信息;
处理模块,用于利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息;
确定模块,用于确定所述预测位置信息与实际位置信息之间的匹配度,在所述匹配度落入预设范围的情况下,将所述深度学习网络模型确定为检测模型。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法步骤。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210784967.8A CN115049965A (zh) | 2022-06-29 | 2022-06-29 | 一种检测模型的训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210784967.8A CN115049965A (zh) | 2022-06-29 | 2022-06-29 | 一种检测模型的训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115049965A true CN115049965A (zh) | 2022-09-13 |
Family
ID=83164611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210784967.8A Pending CN115049965A (zh) | 2022-06-29 | 2022-06-29 | 一种检测模型的训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115049965A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020164270A1 (zh) * | 2019-02-15 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、系统、装置及存储介质 |
CN113158918A (zh) * | 2021-04-26 | 2021-07-23 | 深圳市商汤科技有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN113870304A (zh) * | 2021-12-07 | 2021-12-31 | 江西中业智能科技有限公司 | 异常行为检测与跟踪方法、装置、可读存储介质及设备 |
CN114299366A (zh) * | 2022-03-10 | 2022-04-08 | 青岛海尔工业智能研究院有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
-
2022
- 2022-06-29 CN CN202210784967.8A patent/CN115049965A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020164270A1 (zh) * | 2019-02-15 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、系统、装置及存储介质 |
CN113158918A (zh) * | 2021-04-26 | 2021-07-23 | 深圳市商汤科技有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN113870304A (zh) * | 2021-12-07 | 2021-12-31 | 江西中业智能科技有限公司 | 异常行为检测与跟踪方法、装置、可读存储介质及设备 |
CN114299366A (zh) * | 2022-03-10 | 2022-04-08 | 青岛海尔工业智能研究院有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
AI人工智能初学者: "深入浅出Yolo系列之Yolox核心基础完整讲解", pages 3, Retrieved from the Internet <URL:《https://www.qinglite.cn/doc/75066476556c9a56f》> * |
ZHENG GE 等: "YOLOX: Exceeding YOLO Series in 2021", 《ARXIV:2107.08430V2》, 31 August 2021 (2021-08-31), pages 1 - 7 * |
江大白: "深入浅出Yolox之自有数据集训练超详细教程", Retrieved from the Internet <URL:《https://blog.csdn.net/nan355655600/article/details/119519294》> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3637310A1 (en) | Method and apparatus for generating vehicle damage information | |
CN111444921A (zh) | 划痕缺陷检测方法、装置、计算设备和存储介质 | |
CN113095438B (zh) | 晶圆缺陷分类方法及其装置、系统、电子设备和存储介质 | |
CN112613569B (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
CN111179249A (zh) | 一种基于深度卷积神经网络的电力设备检测方法和装置 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN113642474A (zh) | 一种基于yolov5的危险区域人员监控方法 | |
CN114049356B (zh) | 一种结构表观裂缝检测方法、装置及系统 | |
CN112541372B (zh) | 一种困难样本筛选方法及装置 | |
CN112487848A (zh) | 文字识别方法和终端设备 | |
CN111008576A (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
Radiuk et al. | Convolutional neural network for parking slots detection | |
CN115830399A (zh) | 分类模型训练方法、装置、设备、存储介质和程序产品 | |
CN114972880A (zh) | 一种标签识别方法、装置、电子设备及存储介质 | |
CN113052295B (zh) | 一种神经网络的训练方法、物体检测方法、装置及设备 | |
CN113140012B (zh) | 图像处理方法、装置、介质及电子设备 | |
CN114693963A (zh) | 基于电力数据特征提取的识别模型训练、识别方法及装置 | |
CN116152576B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112287905A (zh) | 车辆损伤识别方法、装置、设备及存储介质 | |
CN115546824B (zh) | 禁忌图片识别方法、设备及存储介质 | |
CN116580232A (zh) | 一种图像自动标注方法、系统及电子设备 | |
CN116977249A (zh) | 缺陷检测的方法、模型训练的方法和装置 | |
CN115049965A (zh) | 一种检测模型的训练方法、装置、电子设备及存储介质 | |
CN113963167B (zh) | 应用于目标检测的方法、装置及计算机程序产品 | |
CN114049598A (zh) | 电力图元的状态识别方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |