CN113313688B - 一种含能材料药桶识别方法、系统、电子设备及存储介质 - Google Patents
一种含能材料药桶识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113313688B CN113313688B CN202110595011.9A CN202110595011A CN113313688B CN 113313688 B CN113313688 B CN 113313688B CN 202110595011 A CN202110595011 A CN 202110595011A CN 113313688 B CN113313688 B CN 113313688B
- Authority
- CN
- China
- Prior art keywords
- candidate
- candidate frame
- fusion
- energetic material
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种含能材料药桶识别方法、系统、电子设备及存储介质,方法包括:获取包含含能材料药桶的RGB图像和深度图像;将RGB图像和深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,分别获取表征含能材料药桶位置的至少一个第一候选框和至少一个第二候选框;对至少一个第一候选框和至少一个第二候选框进行融合处理,得到至少一个融合候选框;从至少一个融合候选框中确定最终目标检测框。本发明分别获取RGB图像和深度图像,并利用伪孪生神经网络对RGB图像和深度图像进行检测识别,伪孪生神经网络的两个分支网络结构相同但不共享参数,充分利用RGB图像和深度图像两类数据的特点,同时提高识别速度和识别精度。
Description
技术领域
本发明涉及图像识别领域,更具体地,涉及一种含能材料药桶识别方法、系统、电子设备及存储介质。
背景技术
卷积神经网络在人工智能领域应用非常广泛,其通过卷积计算提取特征的特点非常适合应用于图像领域,因此在计算机视觉的目标检测任务中已经成为了主流框架。不论是单阶段目标检测算法,还是两阶段目标检测算法,都可以拆分为不同结构的卷积网络和辅助网络。卷积网络作为主干网络,主要作用是做图像的特征提取,辅助网络可以只是几层全连接层,也可以是复杂的RPN网络等,其作用是将网络的输出回归到目标检测任务上来。
卷积神经网络的基本结构如图1所示,基础的卷积神经网络包含若干卷积层和全连接层,每层卷积通过共享参数的卷积核对上层输出以一定步长做卷积操作,并使用激活函数做非线性变换,经过多层卷积与池化操作后,将最终提取的特征输入全连接层和Softmax层构成的分类器中,得到输出结果。
但这种基础网络结构只适用于简单的分类任务,对于目标检测而言,所需的最终输出不仅是某一个物体的类别,还要判断出图像中物体的数量和位置。因此衍生出了以回归为核心思想的单阶段目标检测算法和以构造辅助网络为手段的两阶段目标检测算法。单阶段目标检测算法由于结构简单,因此速度快,可以实现实时检测,在嵌入式等终端设备上应用较多。两阶段目标检测算法由于增加了用于获取候选区的辅助网络,结构更为复杂,因此速度较单阶段目标检测算法慢,但精度往往更高。
发明内容
本发明针对现有技术中存在的技术问题,提供一种含能材料药桶识别方法、系统、电子设备及存储介质。
根据本发明的第一方面,提供了一种含能材料药桶识别方法,包括:获取包含至少一个含能材料药桶的原始图像的RGB图像和深度图像;将所述RGB图像和所述深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,获取所述第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框,以及获取所述第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框;对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框;从至少一个融合候选框中确定最终目标检测框。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,第一分支网络和第二分支网络结构相同但不共享参数,所述第一分支网络和所述第二分支网络均包括特征提取主干网络和包括全连接层和softmax层的辅助网络,所述特征提取主干网络包括多个卷积层和多个池化层,多个卷积层和多个池化层间隔级联;特征提取主干网络,用于提取输入的RGB图像或深度图像的特征信息;辅助网络,用于根据所述特征信息,输出表征含能材料药桶位置的每一个第一候选框的归一化坐标和每一个第一候选框中表征药桶类别的三个预测概率,所述药桶类别包括空、装满和倾倒;或每一个第二候选框的归一化坐标和每一个第二候选框中表征药桶类别的三个预测概率,所述药桶类别包括空、装满和倾倒。
可选的,每一个第一候选框的归一化坐标为(x1,y1,w1,h1),三个预测概率为(P11,P12,P13),每一个第二候选框的归一化坐标为(x2,y2,w2,h2),三个预测概率为(P21,P22,P23);相应的,对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框,包括:融合候选框的归一化坐标为((x1+x2)/2,(y1+y2)/2,(w1+w2)/2,(h1+h2)/2), 融合候选框的三个预测概率为(P11*P21,P12*P22,P13*P23);其中, x1,y1,w1,h1分别为第一候选框的左上角点的横坐标、纵坐标、第一候选框的宽度和高度,x2,y2,w2,h2分别为第二候选框的左上角点的横坐标、纵坐标、第二候选框的宽度和高度,P11,P12,P13为第一候选框分别为空、装满和倾倒类别的预测概率,P21,P22,P23 为第二候选框分别为空、装满和倾倒类别的预测概率。
可选的,从所述至少一个融合候选框中确定最终目标检测框,包括:基于多个融合候选框,利用非极大值抑制法确定最终目标检测框,其中,所述原始图像中一个药桶对应一个最终目标检测框。
可选的,基于多个融合候选框,利用非极大值抑制法确定最终目标检测框,包括:将每一个融合候选框作为第一融合候选框,对于每一个第一融合候选框中表征药桶类别的三个预测概率,剔除三个预测概率均小于第一预设阈值的第一融合候选框,得到剔除处理后的多个第二融合候选框,其中,将三个预测概率中最大的预测概率作为第二融合候选框的预测概率;对于多个第二融合候选框,剔除预测概率小于第二预设阈值的第二融合候选框,得到再次剔除处理后的多个第三融合候选框;将多个第三融合候选框按照预测概率排序,从预测概率最大的第三融合候选框作为当前第三融合候选框,计算其他的任一个第三融合候选框与当前第三融合候选框的交并比,若交并比大于第三预设阈值,则判定所述任一个第三融合候选框与当前第三融合候选框为检测的相同的含能材料药桶,通过非极大值抑制对所述任一个第三融合候选框进行剔除;遍历所有的第三融合候选框,得到原始图像中至少一个含能材料药桶对应的第三融合候选框作为最终目标检测框。
可选的,还包括:对于任一个最终目标检测框,将三个预测概率中最大预测概率对应的类别作为含能材料药桶的类别。
可选的,第一分支网络和所述第二分支网络为单独训练,其中,基于包含有含能材料药桶的RGB图像对所述第一分支网络进行训练,及包含有含能材料药桶的深度图像对所述第二分支网络进行训练。
根据本发明的第二方面,提供一种含能材料药桶识别系统,包括:第一获取模块,用于获取包含至少一个含能材料药桶的原始图像的RGB 图像和深度图像;第二获取模块,用于将所述RGB图像和所述深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,获取所述第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框,以及获取所述第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框;融合模块,用于对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框;确定模块,用于从所述至少一个融合候选框中确定最终目标检测框。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现含能材料药桶识别方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现含能材料药桶识别方法的步骤。
本发明提供的一种含能材料药桶识别方法、系统、电子设备及存储介质,分别获取含能材料的RGB图像和深度图像,并利用伪孪生神经网络对RGB图像和深度图像进行检测识别,充分利用RGB图像和深度图像两类数据的特点,同时提高识别速度和识别精度。
附图说明
图1为卷积神经网络的基本结构示意图;
图2为本发明提供的一种含能材料药桶识别方法流程图;
图3-1为孪生神经网络的原理图;
图3-2为伪孪生神经网络的原理图;
图4为伪孪生神经网络的结构示意图;
图5为单支分支网络的结构示意图;
图6-1为3*3卷积核结构示意图;
图6-2为5*5卷积核结构示意图;
图7为分支网络的输出和标签信息编码形式示意图;
图8为本发明提供的一种含能材料药桶识别系统结构示意图;
图9为本发明提供的一种可能的电子设备的硬件结构示意图;
图10为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种含能材料药桶识别方法流程图,如图1 所示,方法包括:101、获取包含至少一个含能材料药桶的原始图像的 RGB图像和深度图像;102、将所述RGB图像和所述深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,获取所述第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框,以及获取所述第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框;103、对至少一个第一候选框和至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框;104、从所述至少一个融合候选框中确定最终目标检测框。
可以理解的是,本发明实施例研究的含能材料药桶目标检测算法最终需要应用于工房现场,因此同时对检测精度和速度都有要求。通过对当前目标检测任务的研究进展进行分析,单阶段目标检测算法的精度和速度都能保持在较高水平,本发明实施例研究的图像数据较为特殊,为RGB图像和深度图像两类数据,而且数据集规模很小,要提高目标检测算法的精度必然要重新设计和改进网络结构,单阶段目标检测算法的网络结构更为简洁,方便对神经网络和检测算法进行改造,因此本次研究整体沿用了单阶段目标检测算法的思想,充分利用RGB 和Depth两类数据的特点,尽可能使网络快速收敛,并满足检测精度要求。
为此,本发明实施例主要提出了伪孪生神经网络,其中,伪孪生神经网络包括两支相同结构的分支网络,两个分支网络的网络参数不共享。具体的,对于包含有含能材料药桶的原始图像,分别获取原始图像的RGB图像和深度图像,其中,RGB图像和深度图像为同一张原始图像中得来,其中包含的至少一个含能材料药桶的数量和位置都相同,只是图像的类型不同。
将RGB图像和深度图像分别输入到伪孪生神经网络的两个分支网络中,比如,将RGB图像输入到伪孪生神经网络的第一分支网络中,将深度图像输入到伪孪生神经网络的第二分支网络中,由第一分支网络输出RGB图像中表征含能材料药桶位置的至少一个第一候选框,以及由第二分支网络输出深度图中表征含能材料药桶的至少一个第二候选框,其中,多个第一候选框和多个第二候选框的具有对应关系。
对于每一个第一候选框,将其与其对应的第二候选框进行融合处理,得到融合候选框,最终得到多个融合候选框,最后从多个融合候选框中确定最终目标检测框,即检测出图像中每一个含能材料药桶的位置。
本发明分别获取含能材料的RGB图像和深度图像,并利用伪孪生神经网络对RGB图像和深度图像进行检测识别,充分利用RGB图像和深度图像两类数据的特点,同时提高识别速度和识别精度。
在一种可能的实施例方式中,第一分支网络和第二分支网络结构相同但不共享参数,第一分支网络和所述第二分支网络均包括特征提取主干网络和包括全连接层和softmax层的辅助网络,特征提取主干网络包括多个卷积层和多个池化层,多个卷积层和多个池化层间隔级联;特征提取主干网络,用于提取输入的RGB图像或深度图像的特征信息;辅助网络,用于根据所述特征信息,输出表征含能材料药桶位置的每一个第一候选框的归一化坐标和每一个第一候选框中表征药桶类别的三个预测概率,所述药桶类别包括空、装满和倾倒;或每一个第二候选框的归一化坐标和每一个第二候选框中表征药桶类别的三个预测概率,所述药桶类别包括空、装满和倾倒。
可以理解的是,为了满足含能材料药桶识别的速度和精度要求,本发明实施例在单阶段目标检测网络的基础上设计了伪孪生神经网络,充分利用深度传感器能同时获取彩色图和深度图的特点。伪孪生神经网络和孪生神经网络结构很相似,如图3-1和3-2 所示,图3-1为孪生神经网络,图3-2为伪孪生神经网络。孪生神经网络(Siamese network) 是卷积神经网络的一种特殊组合结构,常用在深度学习目标跟踪领域,通过输入连续两帧图像给两个分支网络,比较输出的相似度。孪生神经网络和卷积神经网络的基础结构是相同的,但是它比卷积神经网络具有更多的分支,这就使得孪生神经网络更适合处理图像之间相似度度量的任务。孪生神经网络是不同分支网络之间共享参数,因此本质上还是只有一个主干网络,只是每次分别输入两个数据。如果分支网络之间的训练相互独立,参数不共享,则称为伪孪生神经网络 (pseudo-Siamese network)。伪孪生神经网络可以是相同的分支网络,只是不共享参数,也可以是完全不同的分支网络,因此伪孪生神经网络在某些领域的应用具有更高的灵活性。
在本发明实施例中,伪孪生神经网络的第一分支网络和第二分支网络为单独训练,其中,基于包含有含能材料药桶的RGB图像对第一分支网络进行训练,及包含有含能材料药桶的深度图像对所述第二分支网络进行训练。那么,伪孪生神经网络的第一分支网络和第二分支网络的网络结构相同,但是网络参数不相同。
经过测试,分别将彩色图像和深度图像输入单阶段目标检测网络进行训练,最终得到的模型对目标的识别结果差异较大,分析主要有两个原因,一是参与训练的数据量较少,二是彩色图和深度图的信息维度不同,神经网络在训练过程中学习到的规律不尽相同。为充分利用彩色图和深度的不同维度信息,设计了伪孪生神经网络,包含了两个单阶段目标检测子网络(也即两个分支网络),其结构如图4所示。
其中,每一个分支网络(第一分支网络和第二分支网络)的网络结构如图5所示,主要包括特征提取网络(主干网络)和辅助网络。特征提取网络作为主干网络,在目标检测任务中有着非常重要的作用,本发明实施例中的特征提取主干网络基于VGG16网络进行改造。对于卷积操作,小尺寸卷积核与大尺寸卷积核相比,在保证相同感受野的前提下使网络可以具有更深的深度,且参数量更少。以3×3卷积核与 5×5卷积核为例,在感受野相同时,采用3×3卷积核可以实现两层网络,而采用5×5卷积核只有单层网络,且前者的参数量只有18个,而后者有25个,如图6-1和6-2所示。因此采用连续的多个3×3的卷积核进行卷积,更有利于学习更复杂的模式,可提升网络效果,同时降低模型参数量,因此特征提取网络均采用3×3卷积核。
如图5,为每一个分支网络的网络结构图,在将RGB图像或深度图像输入分支网络时,输入图像尺寸为288×288×3,采用64个卷积核做两次卷积,池化后将张量压缩至144×144×64,依次分别用128个、 256个、512个3×3卷积核做卷积,在经过13层卷积和5层池化后得到9×9×512的张量。对于单阶段目标检测算法,如何在得到目标类别的同时获取目标边界框是核心问题,为了服务于目标检测任务,在主干网络完成特征提取后增加了两层全连接层,并将网络最终输出的张量尺寸调整为9×9×14。
对于单支分支网络,在训练阶段,将读取的每幅图像尺寸调整为288×288×3输入神经网络,最终得到尺度为9×9×14的输出张量,同时将标签信息编码在相同尺度的张量中,对比分支网络的输出和标签信息,计算损失并反向传递,逐渐完成训练。分支网络的输出和标签信息编码形式如图7所示。将图像划分为9×9个方格,每个方格设置两个检测框。整个检测过程共涉及到162个检测框,每个检测框只对自己所属的方格负责,每个方格对应14维,分别是检测框1的归一化坐标和类别、检测框2的归一化坐标和类别,此处所说的类别是指含能材料药桶的姿态,主要包括三种姿态:空(empty)、装满(fu l l)和倾倒(fe l l),对于检测出的162个检测框,分别输出每一个检测框的归一化坐标,以及对应的类别预测概率。
需要说明的是,本发明实施例的目的只为检测含能材料药桶,根据含能材料药桶图像的特点,即含能材料药桶的实际尺寸来设定每一个检测框预设尺寸代替训练前随机赋值,经测试可以有效缩短训练时间并提高精度。
在一种可能的实施例方式中,每一个第一候选框的归一化坐标为 (x1,y1,w1,h1),三个预测概率为(P11,P12,P13),每一个第二候选框的归一化坐标为(x2,y2,w2,h2),三个预测概率为(P21, P22,P23);相应的,对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框,包括:融合候选框的归一化坐标为((x1+x2)/2,(y1+y2)/2, (w1+w2)/2,(h1+h2)/2),融合候选框的三个预测概率为 (P11*P21,P12*P22,P13*P23);其中,x1,y1,w1,h1分别为第一候选框的左上角点的横坐标、纵坐标、第一候选框的宽度和高度,x2, y2,w2,h2分别为第二候选框的左上角点的横坐标、纵坐标、第二候选框的宽度和高度,P11,P12,P13为第一候选框分别为空、装满和倾倒类别的预测概率,P21,P22,P23为第二候选框分别为空、装满和倾倒类别的预测概率。
可以理解的是,将RGB图像输入第一分支网络中,由第一分支网络输出每一个检测框(第一候选框)的归一化坐标,可表示为(x1, y1,w1,h1),其中,x1,y1,w1,h1分别为第一候选框的左上角点的横坐标、纵坐标、第一候选框的宽度和高度,以及每一个第一候选框的类别预测概率,可表示为(P11,P12,P13),P11,P12,P13分别表示第一候选框中含能材料药桶为装满、为空和为倾倒的类别预测概率。
同样的,将深度图像输入第二分支网络中,由第二分支网络输出每一个检测框(第二候选框)的归一化坐标,可表示为(x2,y2,w2, h2),其中,x2,y2,w2,h2分别为第二候选框的左上角点的横坐标、纵坐标、第二候选框的宽度和高度,以及每一个第二候选框的类别预测概率,可表示为(P21,P22,P23),P21,P22,P23分别表示第二候选框中含能材料药桶为装满、为空和为倾倒的类别预测概率。
比如,如前所述,第一分支网络输出162个第一候选框的归一化坐标和类别预测概率,第二分支网络也输出162个第二候选框的归一化坐标和类别预测概率。虽然在训练阶段通过损失函数逐渐抑制了第一分支网络和第二分支输出的差异,但这种差异不可能完全消失。为了获取更可靠的检测信息,需要综合考虑两个分支网络的输出,提出两分支网络输出的融合策略为,将每一个第一候选框和对应的第二候选框进行融合处理,其中,融合后的每一个候选框的归一化坐标为:
融合处理即为分别对第一分支网络和第二分支网络的目标类别预测概率相乘、候选框坐标(x,y,w,h)求均值,得到最终的融合候选框的归一化坐标和类别预测概率。
在一种可能的实施例方式中,从所述至少一个融合候选框中确定最终目标检测框,包括:基于多个融合候选框,利用非极大值抑制法确定最终目标检测框,其中,所述原始图像中一个药桶对应一个最终目标检测框。
可以理解的是,通过上述将多个第一候选框和多个第二候选框进行融合处理后,得到多个融合候选框,包括每一个融合候选框的归一化坐标和类别预测概率。本发明实施例利用非极大值抑制法确定最终目标检测框,其中,最终目标检测框的数量与图像中含能材料药桶的数量相同,即一个最终目标检测框的位置即为图像中一个含能材料药桶的位置。
在一种可能的实施例方式中,基于多个融合候选框,利用非极大值抑制法确定最终目标检测框,包括:将每一个融合候选框作为第一融合候选框,对于每一个第一融合候选框中表征药桶类别的三个预测概率,剔除三个预测概率均小于第一预设阈值的第一融合候选框,得到剔除处理后的多个第二融合候选框,其中,将三个预测概率中最大的预测概率作为第二融合候选框的预测概率;对于多个第二融合候选框,剔除预测概率小于第二预设阈值的第二融合候选框,得到再次剔除处理后的多个第三融合候选框;将多个第三融合候选框按照预测概率排序,从预测概率最大的第三融合候选框作为当前第三融合候选框,计算其他的任一个第三融合候选框与当前第三融合候选框的交并比,若交并比大于第三预设阈值,则判定所述任一个第三融合候选框与当前第三融合候选框为检测的相同的含能材料药桶,通过非极大值抑制对该任一个第三融合候选框进行剔除;遍历所有的第三融合候选框,得到原始图像中至少一个含能材料药桶对应的第三融合候选框作为最终目标检测框。
可以理解的是,对于每一个融合候选框,三个类别预测概率均很小的融合候选框,基本上可以确定该融合候选框中没有含能材料药桶,那么将这些三个类别预测概率均很小的融合候选框剔除,以减少后续的工作量。需要说明的是,对于剔除处理,也可以在对第一候选框和第二候选框融合处理之前进行,也就是,分别对第一分支网络输出的多个第一候选框和第二分支网络输出的多个第二候选框进行剔除处理,以减少后续融合处理的数据量。
对于剔除处理后的每一个融合候选框,将三个预测概率中的最大预测概率作为预测概率,预测概率对应的类别即为含能材料药桶的类别。对余下所有融合候选框按照预测概率排序,从预测概率最大的融合候选框开始往下遍历,对于与当前融合候选框交并比 (Intersect i on-over-Un i on,I oU)大于阈值的融合候选框,认为两个融合候选框所检测的是相同的目标(含能材料药桶),通过非极大值抑制予以剔除。交并比的数学表达为:
其中,A、B为两个融合候选框,以融合候选框之间的交并比做非极大值抑制,所有的融合候选框处理完成后保留的即为最终目标检测框。
在一种可能的实施例方式中,还包括:对于任一个最终目标检测框,将三个预测概率中最大预测概率对应的类别作为含能材料药桶的类别。
可以理解的是,对于最终确定出来的最终目标检测框,将预测概率最大的类别作为对应含能材料药桶的类别。至此,即识别出图像中含能材料药桶的位置和类别。
图8为本发明实施例提供的一种含能材料药桶识别系统结构图,如图8所示,一种含能材料药桶识别系统,包括第一获取模块801、第二获取模块802、融合模块803和确定模块804,其中:
第一获取模块801,用于获取包含至少一个含能材料药桶的原始图像的RGB图像和深度图像;第二获取模块802,用于将所述RGB图像和所述深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,获取所述第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框,以及获取所述第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框;融合模块803,用于对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框;确定模块804,用于从所述至少一个融合候选框中确定最终目标检测框。
可以理解的是,本发明提供的一种含能材料药桶系统与前述各实施例提供的含能材料药桶方法相对应,含能材料药桶系统的相关技术特征可参考含能材料药桶方法的相关技术特征,在此不再赘述。
请参阅图9,图9为本发明实施例提供的电子设备的实施例示意图。如图9所示,本发明实施例提了一种电子设备,包括存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序 911,处理器920执行计算机程序911时实现以下步骤:获取包含至少一个含能材料药桶的原始图像的RGB图像和深度图像;将RGB图像和深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,获取第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框,以及获取第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框;对至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框;从至少一个融合候选框中确定最终目标检测框。
请参阅图10,图10为本发明提供的一种计算机可读存储介质的实施例示意图。如图10所示,本实施例提供了一种计算机可读存储介质 1000,其上存储有计算机程序1011,该计算机程序1011被处理器执行时实现如下步骤:获取包含至少一个含能材料药桶的原始图像的RGB 图像和深度图像;将RGB图像和深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,获取第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框,以及获取第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框;对至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框;从至少一个融合候选框中确定最终目标检测框。
本发明实施例提供的一种含能材料药桶识别方法、系统、电子设备及存储介质,分别获取含能材料的RGB图像和深度图像,并利用伪孪生神经网络对RGB图像和深度图像进行检测识别,充分利用RGB 图像和深度图像两类数据的特点,同时提高识别速度和识别精度。
其中,伪孪生神经网络中的卷积层均采用3*3的卷积核,使得网络具有更深的深度,且参数量更少,更有利于学习更复杂的模式,可提升网络效果,同时降低模型参数量。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (9)
1.一种含能材料药桶识别方法,其特征在于,包括:
获取包含至少一个含能材料药桶的原始图像的RGB图像和深度图像;
将所述RGB图像和所述深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,获取所述第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框,以及获取所述第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框;
其中,获取所述第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框包括每一个第一候选框的归一化坐标和每一个第一候选框中表征药桶类别的三个预测概率,获取所述第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框包括每一个第二候选框的归一化坐标和每一个第二候选框中表征药桶类别的三个预测概率;
对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框;
其中,每一个第一候选框的归一化坐标为(x1,y1,w1,h1),三个预测概率为(P11,P12,P13),每一个第二候选框的归一化坐标为(x2,y2,w2,h2),三个预测概率为(P21,P22,P23);
相应的,对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框,包括:
融合候选框的归一化坐标为((x1+x2)/2,(y1+y2)/2,(w1+w2)/2,(h1+h2)/2),融合候选框的三个预测概率为(P11*P21,P12*P22,P13*P23);
其中,x1,y1,w1,h1分别为第一候选框的左上角点的横坐标、纵坐标、第一候选框的宽度和高度,x2,y2,w2,h2分别为第二候选框的左上角点的横坐标、纵坐标、第二候选框的宽度和高度,P11,P12,P13为第一候选框分别为空、装满和倾倒类别的预测概率,P21,P22,P23为第二候选框分别为空、装满和倾倒类别的预测概率;
从所述至少一个融合候选框中确定最终目标检测框。
2.根据权利要求1所述的含能材料药桶识别方法,其特征在于,所述第一分支网络和所述第二分支网络结构相同但不共享参数,所述第一分支网络和所述第二分支网络均包括特征提取主干网络和包括全连接层和softmax层的辅助网络,所述特征提取主干网络包括多个卷积层和多个池化层,多个卷积层和多个池化层间隔级联;
所述特征提取主干网络,用于提取输入的RGB图像或深度图像的特征信息;
所述辅助网络,用于根据所述特征信息,输出表征含能材料药桶位置的每一个第一候选框的归一化坐标和每一个第一候选框中表征药桶类别的三个预测概率,所述药桶类别包括空、装满和倾倒;或每一个第二候选框的归一化坐标和每一个第二候选框中表征药桶类别的三个预测概率,所述药桶类别包括空、装满和倾倒。
3.根据权利要求1所述的含能材料药桶识别方法,其特征在于,从所述至少一个融合候选框中确定最终目标检测框,包括:
基于多个融合候选框,利用非极大值抑制法确定最终目标检测框,其中,所述原始图像中一个药桶对应一个最终目标检测框。
4.根据权利要求3所述的含能材料药桶识别方法,其特征在于,基于多个融合候选框,利用非极大值抑制法确定最终目标检测框,包括:
将每一个融合候选框作为第一融合候选框,对于每一个第一融合候选框中表征药桶类别的三个预测概率,剔除三个预测概率均小于第一预设阈值的第一融合候选框,得到剔除处理后的多个第二融合候选框,其中,将三个预测概率中最大的预测概率作为第二融合候选框的预测概率;
对于多个第二融合候选框,剔除预测概率小于第二预设阈值的第二融合候选框,得到再次剔除处理后的多个第三融合候选框;
将多个第三融合候选框按照预测概率排序,将预测概率最大的第三融合候选框作为当前第三融合候选框,计算其他的任一个第三融合候选框与当前第三融合候选框的交并比,若交并比大于第三预设阈值,则判定所述任一个第三融合候选框与当前第三融合候选框为检测的相同的含能材料药桶,通过非极大值抑制对所述任一个第三融合候选框进行剔除;
遍历所有的第三融合候选框,得到原始图像中至少一个含能材料药桶对应的第三融合候选框作为最终目标检测框。
5.根据权利要求4所述的含能材料药桶识别方法,其特征在于,还包括:
对于任一个最终目标检测框,将三个预测概率中最大预测概率对应的类别作为含能材料药桶的类别。
6.根据权利要求1或2所述的含能材料药桶识别方法,其特征在于,所述第一分支网络和所述第二分支网络为单独训练,其中,基于包含有含能材料药桶的RGB图像对所述第一分支网络进行训练,及包含有含能材料药桶的深度图像对所述第二分支网络进行训练。
7.一种含能材料药桶识别系统,其特征在于,包括:
第一获取模块,用于获取包含至少一个含能材料药桶的原始图像的RGB图像和深度图像;
第二获取模块,用于将所述RGB图像和所述深度图像分别输入伪孪生神经网络中的第一分支网络和第二分支网络,获取所述第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框,以及获取所述第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框;其中,获取所述第一分支网络输出的表征含能材料药桶位置的至少一个第一候选框包括每一个第一候选框的归一化坐标和每一个第一候选框中表征药桶类别的三个预测概率,获取所述第二分支网络输出的表征含能材料药桶位置的至少一个第二候选框包括每一个第二候选框的归一化坐标和每一个第二候选框中表征药桶类别的三个预测概率;
融合模块,用于对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框;
其中,每一个第一候选框的归一化坐标为(x1,y1,w1,h1),三个预测概率为(P11,P12,P13),每一个第二候选框的归一化坐标为(x2,y2,w2,h2),三个预测概率为(P21,P22,P23);
相应的,对所述至少一个第一候选框和所述至少一个第二候选框进行融合处理,得到表征含能材料药桶位置的至少一个融合候选框,包括:
融合候选框的归一化坐标为((x1+x2)/2,(y1+y2)/2,(w1+w2)/2,(h1+h2)/2),融合候选框的三个预测概率为(P11*P21,P12*P22,P13*P23);
其中,x1,y1,w1,h1分别为第一候选框的左上角点的横坐标、纵坐标、第一候选框的宽度和高度,x2,y2,w2,h2分别为第二候选框的左上角点的横坐标、纵坐标、第二候选框的宽度和高度,P11,P12,P13为第一候选框分别为空、装满和倾倒类别的预测概率,P21,P22,P23为第二候选框分别为空、装满和倾倒类别的预测概率;
确定模块,用于从所述至少一个融合候选框中确定最终目标检测框。
8.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-6任一项所述的含能材料药桶识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-6任一项所述的含能材料药桶识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110595011.9A CN113313688B (zh) | 2021-05-28 | 2021-05-28 | 一种含能材料药桶识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110595011.9A CN113313688B (zh) | 2021-05-28 | 2021-05-28 | 一种含能材料药桶识别方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313688A CN113313688A (zh) | 2021-08-27 |
CN113313688B true CN113313688B (zh) | 2022-08-05 |
Family
ID=77376333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110595011.9A Active CN113313688B (zh) | 2021-05-28 | 2021-05-28 | 一种含能材料药桶识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313688B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035119B (zh) * | 2022-08-12 | 2023-03-24 | 山东省计算中心(国家超级计算济南中心) | 一种玻璃瓶底瑕疵图像检测剔除装置、系统及方法 |
CN115082713B (zh) * | 2022-08-24 | 2022-11-25 | 中国科学院自动化研究所 | 引入空间对比信息的目标检测框提取方法、系统及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301377A (zh) * | 2017-05-26 | 2017-10-27 | 浙江大学 | 一种基于深度相机的人脸与行人感知系统 |
CN109766856A (zh) * | 2019-01-16 | 2019-05-17 | 华南农业大学 | 一种双流RGB-D Faster R-CNN识别哺乳母猪姿态的方法 |
CN110956094A (zh) * | 2019-11-09 | 2020-04-03 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111259923A (zh) * | 2020-01-06 | 2020-06-09 | 燕山大学 | 一种基于改进三维r-cnn算法的多目标检测方法 |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
CN112651371A (zh) * | 2020-12-31 | 2021-04-13 | 广东电网有限责任公司电力科学研究院 | 着装安全检测方法、装置、存储介质及计算机设备 |
-
2021
- 2021-05-28 CN CN202110595011.9A patent/CN113313688B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301377A (zh) * | 2017-05-26 | 2017-10-27 | 浙江大学 | 一种基于深度相机的人脸与行人感知系统 |
CN109766856A (zh) * | 2019-01-16 | 2019-05-17 | 华南农业大学 | 一种双流RGB-D Faster R-CNN识别哺乳母猪姿态的方法 |
CN110956094A (zh) * | 2019-11-09 | 2020-04-03 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111259923A (zh) * | 2020-01-06 | 2020-06-09 | 燕山大学 | 一种基于改进三维r-cnn算法的多目标检测方法 |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
CN112651371A (zh) * | 2020-12-31 | 2021-04-13 | 广东电网有限责任公司电力科学研究院 | 着装安全检测方法、装置、存储介质及计算机设备 |
Non-Patent Citations (2)
Title |
---|
Detecting Humans in RGB-D Data with CNNs;Kaiyang Zhou et al.;《15th IAPR International Conference on Machine Vision Applications (MVA)》;20170512;第280-283页 * |
基于可见光图像和红外图像决策级融合的目标检测算法;白玉等;《空军工程大学学报(自然科学版)》;20201231;第21卷(第6期);第53-59、100页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113313688A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170124409A1 (en) | Cascaded neural network with scale dependent pooling for object detection | |
CN113313688B (zh) | 一种含能材料药桶识别方法、系统、电子设备及存储介质 | |
CN111626184B (zh) | 一种人群密度估计方法及系统 | |
CN110991444B (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN111257341A (zh) | 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法 | |
CN112200045A (zh) | 基于上下文增强的遥感图像目标检测模型建立方法及应用 | |
Wang et al. | Fast and precise detection of litchi fruits for yield estimation based on the improved YOLOv5 model | |
CN105303163B (zh) | 一种目标检测的方法及检测装置 | |
CN111723841A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
Nguyen et al. | Satellite image classification using convolutional learning | |
CN113052834A (zh) | 一种基于卷积神经网络多尺度特征的管道缺陷检测方法 | |
JP6924031B2 (ja) | オブジェクト検出装置及びこれらのプログラム | |
CN104851183A (zh) | 纸币面向识别方法及装置 | |
CN113743521B (zh) | 一种基于多尺度上下文感知的目标检测方法 | |
CN111382638B (zh) | 一种图像检测方法、装置、设备和存储介质 | |
CN113936299A (zh) | 建筑工地中危险区域检测方法 | |
CN114255377A (zh) | 一种智能货柜的差异商品检测分类方法 | |
CN111368865A (zh) | 遥感影像储油罐检测方法、装置、可读存储介质及设备 | |
CN110472639B (zh) | 一种基于显著性先验信息的目标提取方法 | |
CN111353577B (zh) | 基于多任务的级联组合模型的优化方法、装置及终端设备 | |
CN111652181A (zh) | 目标跟踪方法、装置及电子设备 | |
CN111738069A (zh) | 人脸检测方法、装置、电子设备及存储介质 | |
CN113065379A (zh) | 融合图像质量的图像检测方法、装置、电子设备 | |
CN115984219A (zh) | 产品表面缺陷检测方法、装置、电子设备及存储介质 | |
CN113673478B (zh) | 基于深度学习全景拼接的港口大型设备检测与识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |