CN112001294A - 一种基于yolact++的车身表面损伤检测及掩膜生成方法和存储设备 - Google Patents

一种基于yolact++的车身表面损伤检测及掩膜生成方法和存储设备 Download PDF

Info

Publication number
CN112001294A
CN112001294A CN202010839019.0A CN202010839019A CN112001294A CN 112001294 A CN112001294 A CN 112001294A CN 202010839019 A CN202010839019 A CN 202010839019A CN 112001294 A CN112001294 A CN 112001294A
Authority
CN
China
Prior art keywords
mask
target
prototype
generating
vehicle body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010839019.0A
Other languages
English (en)
Other versions
CN112001294B (zh
Inventor
林少丹
冯晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Chuanzheng Communications College
Original Assignee
Fujian Chuanzheng Communications College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Chuanzheng Communications College filed Critical Fujian Chuanzheng Communications College
Priority to CN202010839019.0A priority Critical patent/CN112001294B/zh
Publication of CN112001294A publication Critical patent/CN112001294A/zh
Application granted granted Critical
Publication of CN112001294B publication Critical patent/CN112001294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)

Abstract

本发明涉及图像处理技术领域,特别涉及一种基于YOLACT++的车身表面损伤检测及掩膜生成方法和存储设备。所述一种基于YOLACT++的车身表面损伤检测及掩膜生成方法,包括步骤:通过视频数据采集并生成预设大小值的车体表面损伤区域图像;输入所述预设大小值的车体表面损伤区域图像至主干网络中进行特征提取;输入提取的特征张量至PedictionHeader和ProtoNet两个并行处理分支中处理;通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜;根据所述最优原型掩膜及所述目标原型掩膜的目标定位,分割出损伤区域;在所述分割出的损伤区域上生成对应的掩膜。通过引入掩膜系数,参与至最优原型掩膜生成,大大提高损伤区域定位的准确度。

Description

一种基于YOLACT++的车身表面损伤检测及掩膜生成方法和存 储设备
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于YOLACT++的车身表面损伤检测及掩膜生成方法和存储设备。
背景技术
随着生活水平的提高,几乎家家户户都有自己的车,而车在使用的过程中,难免会发生一些刮碰导致车体表面损失,传统的车辆修复靠人工识别,完整修复的难度较大、修复时间较长。
近年来,开始采用车体表面损伤检测来对车辆损害进行评估。然而尽管各种识别技术不断向前演进,但最关键的识别效果尚未达到理想程度,更难以实现大范围普及。如采用ResNET101进行检测,由于主干网络的参数量过大对检测性能的应许更大,及原有的模型中目标查准率相对较低,检测效果较差,在进行车身表面损伤检测时,掩膜生成分支进行实例分割时存在分割不精准或者将微小干扰物也生成掩膜出来的问题。
发明内容
为此,需要提供一种基于YOLACT++的车身表面损伤检测及掩膜生成方法,用以解决现有车辆表面损伤检测及掩膜生成准确率低的问题,具体技术方案如下:
一种基于YOLACT++的车身表面损伤检测及掩膜生成方法,包括步骤:
通过视频数据采集并生成预设大小值的车体表面损伤区域图像;
输入所述预设大小值的车体表面损伤区域图像至主干网络中进行特征提取;
输入提取的特征张量至PedictionHeader和ProtoNet两个并行处理分支中处理;
通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜;
通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位;
通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜;
根据所述最优原型掩膜及所述目标原型掩膜的目标定位,分割出损伤区域;
在所述分割出的损伤区域上生成对应的掩膜。
进一步的,所述主干网络包括:EfficientNet-B0和FPN。
进一步的,所述“通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜”,还包括步骤:通过全连接网络生成预设大小值的原型掩膜,并与通过MaskIOU-Net生成的掩膜特征向量结合生成目标原型掩膜。
进一步的,所述“通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位”,还包括步骤:通过PedictionHeader生成每个anchor的掩膜系数的向量、分类向量和anchor-box向量,并通过Fast-NMS对anchor-box向量进行筛选处理。
进一步的,所述“通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜”,还包括步骤:采用预测的掩膜与真实的掩膜两者像素集二值交叉熵生成所述最优原型掩膜的损失函数值;
所述最优原型掩膜的损失函数值由:分类损失函数值、预测框损失函数值和掩膜生成损失函数值相加所得。
为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:
一种存储设备,其中存储有指令集,所述指令集用于执行:通过视频数据采集并生成预设大小值的车体表面损伤区域图像;
输入所述预设大小值的车体表面损伤区域图像至主干网络中进行特征提取;
输入提取的特征张量至PedictionHeader和ProtoNet两个并行处理分支中处理;
通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜;
通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位;
通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜;
根据所述最优原型掩膜及所述目标原型掩膜的目标定位,分割出损伤区域;
在所述分割出的损伤区域上生成对应的掩膜。
进一步的,所述主干网络包括:EfficientNet-B0和FPN。
进一步的,所述指令集还用于执行:所述“通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜”,还包括步骤:通过全连接网络生成预设大小值的原型掩膜,并与通过MaskIOU-Net生成的掩膜特征向量结合生成目标原型掩膜。
进一步的,所述指令集还用于执行:所述“通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位”,还包括步骤:通过PedictionHeader生成每个anchor的掩膜系数的向量、分类向量和anchor-box向量,并通过Fast-NMS对anchor-box向量进行筛选处理。
进一步的,所述指令集还用于执行:所述“通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜”,还包括步骤:采用预测的掩膜与真实的掩膜两者像素集二值交叉熵生成所述最优原型掩膜的损失函数值;
所述最优原型掩膜的损失函数值由:分类损失函数值、预测框损失函数值和掩膜生成损失函数值相加所得。
本发明的有益效果是:通过视频数据采集并生成预设大小值的车体表面损伤区域图像;输入所述预设大小值的车体表面损伤区域图像至主干网络中进行特征提取;输入提取的特征张量至PedictionHeader和ProtoNet两个并行处理分支中处理;通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜;通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位;通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜;根据所述最优原型掩膜及所述目标原型掩膜的目标定位,分割出损伤区域;在所述分割出的损伤区域上生成对应的掩膜。通过引入掩膜系数,参与至最优原型掩膜生成,大大提高损伤区域定位的准确度。
附图说明
图1为具体实施方式所述一种基于YOLACT++的车身表面损伤检测及掩膜生成方法的流程图;
图2为具体实施方式所述一种基于YOLACT++的车身表面损伤检测及掩膜生成方法的示意图;
图3为具体实施方式所述sigmoid函数曲线示意图;
图4为具体实施方式所述IOU-Net结构示意图;
图5为具体实施方式所述各主干网络训练参数对比示意图;
图6为具体实施方式所述改进前后YOLACT++梯度损失值对比示意图;
图7为具体实施方式所述损失函数改进前后的mAP示意图;
图8为具体实施方式所述梯度损失走势示意图;
图9为具体实施方式所述不同主干网络的mask损失值对比示意图;
图10为具体实施方式所述采用不同基础主干网络mAP比较示意图;
图11为具体实施方式所述不同方法测试查准率对比示意图;
图12为具体实施方式所述存储设备的模块示意图。
附图标记说明:
1200、存储设备。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,在本实施方式中,所述一种基于YOLACT++的车身表面损伤检测及掩膜生成方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程等。具体如下:
步骤S101:通过视频数据采集并生成预设大小值的车体表面损伤区域图像。
步骤S102:输入所述预设大小值的车体表面损伤区域图像至主干网络中进行特征提取。
步骤S103:输入提取的特征张量至PedictionHeader和ProtoNet两个并行处理分支中处理。
步骤S104:通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜。
步骤S105:通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位。
步骤S106:通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜。
步骤S107:根据所述最优原型掩膜及所述目标原型掩膜的目标定位,分割出损伤区域。
步骤S108:在所述分割出的损伤区域上生成对应的掩膜。
以下对步骤S101至步骤S108具体展开说明:
在本实施方式中步骤S101和步骤S102采用预设大小值为550*550的车体表面损伤区域图像输入到主干网络中进行特征提取。在本实施方式中,所述主干网络包括:EfficientNet-B0和FPN。如图2所示,采用了EfficientNet-B0+FPN作为用于特征映射的基础主干网络,选择C1,C2,C3作为与EfficientNet的对接层,并设置每个层相应输入通道数完成对接,并增加anchors数量,从而提高目标检测的准确率。
EfficientNet提出了尺度均匀缩放所有维度的方法,根据图像的深度、宽度、分辨率形成有效复合系数φ,动态调整网络深度和宽度,定义如下。
depth:d=αφ,width:w=βφ,resolution:r=γφ
s.t.α·β2·γ2≈2,α≥1,β≥1,γ≥1
通过采用EfficientNet的特性,形成适用YOLACT++的主干网络的深度和宽度参数,从而有效地提升YOLACT++的效率和准确性。需要注意的是计算模型所对应的接入层数及参数,式5与式6给出了相应的计算方式:
Figure BDA0002640730050000061
公式1中
Figure BDA0002640730050000062
代表3个阶段对应的层数,dm代表模型的深度系数,li代表层数,ceil代表取整函数。可以通过宽度系数计算出各模型的输入通道数,如公式6所示:
Im=b*wm (6)
Im代表模型输入通道数,wm代表模型的宽度系数,b为EfficientNet-B0的输入通道数320,作为一个基线系数。
通过上述公式计算得到在YOLACT++时选择的接入层为[4,10,15],以及所需的EfficientNet-B0的EfficientNet深度系数、宽度系数分别为1.0和1.0,输入通道数为320。
如图2所示,步骤S104还包括步骤:通过全连接网络生成预设大小值的原型掩膜,并与通过MaskIOU-Net生成的掩膜特征向量结合生成目标原型掩膜。具体可如下:ProtoNet分支使用全连接网络(FCN)生成一组图像大小(550*550大小)的原型掩膜(prototypemasks)并与MaskIOU-Net生成的掩膜特征向量相结合生成目标原型掩膜。
步骤S105还包括步骤:通过PedictionHeader生成每个anchor的掩膜系数的向量、分类向量和anchor-box向量,并通过Fast-NMS对anchor-box向量进行筛选处理。具体可如下:PredictionHeader分支用于预测出实例检测时生成的每个anchor的掩膜系数(maskcoefficients)的向量、分类向量和anchor-box向量,最后,经过Fast-NMS处理。
处理完后,将ProtoNet分支与PredictionHeader分支两个分支进行线性组合进行语义分割并生成最优原型掩膜。
需要说明的是,上述过程中,YOLACT++利用擅长产生语义向量的全连接层(FC)和擅长产生空间相干掩膜的卷积层(conv)来分别产生“掩膜系数”和“原型掩膜”,然后,因为原型掩膜和掩膜系数都是独立计算的,所以主干网络的计算开销主要来自合成步骤,通过这种方式,可以在特征空间中保持空间一致性,同时使模型为一阶段,并具备实时性,因此,主干网络的选择是提升模型计算速度的有效优化方法。
其中所述“通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜”,还包括步骤:采用预测的掩膜与真实的掩膜两者像素集二值交叉熵生成所述最优原型掩膜的损失函数值;所述最优原型掩膜的损失函数值由:分类损失函数值、预测框损失函数值和掩膜生成损失函数值相加所得。具体可如下:
本申请的YOLACT++损失函数主要包含分类损失、边界框回归损失、Mask损失三部分损失函数相加所得。
Lyolact=Lclass+Lbox+Lmask (1)
公式(1)中Lclass,Lbox,Lmask分别为分类损失函数,预测框损失函数,掩膜生成损失函数,其中掩膜生成损失函数由通过取得目标原型掩膜张量与相对应的掩膜系数相乘,加入非线性激励函数后,YOLACT++采用预测的掩膜(所述预测的掩膜即通过ProtoNet对特征张量进行卷积操作生成的目标原型掩膜)和真实的掩膜两者像素集二值交叉熵生成Mask的损失函数值,其求导过程如下:
Figure BDA0002640730050000071
公式(2)中,分别为预测的掩膜值及真实的掩膜值,生成掩膜的损失值通过非线性激励函数sigmoid后所得,如公式(3):
Figure BDA0002640730050000081
通过激励函数sigmoid得到掩膜的损失值,其sigmoid激励函数如公式(4):
Figure BDA0002640730050000082
sigmoid函数曲线如图3所示:
本申请采用sigmoid函数作为二值交叉熵的激励函数的优点在于,它的输出映射在(0,1)内单调连续,适合用作输出层且容易求导,但是因为软饱和性,一旦输入落入饱和区,导数就会变得接近于0,很容易产生梯度消失。当预测值与实际值相差较大时,采用交叉熵损失函数将造成误差增大问题。
故本申请采用交叉熵与L1范数、L2范数相结合的梯度方式,主要是针对当预测框与ground truth差别过大时,梯度值不至于过大;当预测框与ground truth差别很小时,梯度值也能够足够小。当输入x小于1的部分使用L1范数(公式7),使梯度更平滑且求导方便,当输入x大于1的部分使用L2范数(公式8),有效的避免梯度爆炸,同时减少离群值的出现。
计算Loss前必须先设置Anchors的正、负样本标定规则,假设Anchor对应的预测框(reference box)与GT(ground truth)的重叠度(IoU)>0.7,则标记为正样本;假设Anchor对应的预测框(reference box)与GT(ground truth)的重叠度(IoU)<0.3,则标记为负样本;余下的样本既不属于正样本也属于负样本,负样本不参与最终训练。
Figure BDA0002640730050000083
Figure BDA0002640730050000084
将掩膜定位的损失函数设定为Lmask_loc,预测平移缩放参数设定为tu,真实平移缩放参数设定为v,通过比较两个参数的差别来评估检测框定位的损失率。如公式7:
Figure BDA0002640730050000091
在实际的用于车辆表面的掩膜分类中仍存在两个缺点,首先所有像素在评估损失函数中起着相同的作用,这可能会忽略pi的特殊位置信息。其次,此损失函数更适合平衡正例/负例的情况,而大多数车辆划痕的数据集可能无法满足此要求。本申请通过采用改进的交叉熵损失函数来考虑像素空间位置的影响以及严重的不平衡正负示例的影响。因此公式(2)得出掩膜的损失率定义如下:
Figure BDA0002640730050000092
其中pi是预测的第i个锚是一个目标物体的概率,发现目标时pi为1,否则pi为0。其中g(li)为约束系数,当li=0时,g(li)=0;当0<li<T时,
Figure BDA0002640730050000093
Figure BDA0002640730050000094
当li>T时,
Figure BDA0002640730050000095
li表示第i个像素与划痕的欧氏距离,T=0.3max{li}是像素与划痕的距离的阈值,α1,α2为正负样本的比例。
最后通过公式(10)和公式(9)得到最终的损失,如公式(11)所示。
Figure BDA0002640730050000096
ti是预测掩膜的包围框(tx,ty,tw,th)4个坐标参数,ti是对应于正锚点的GT(Ground Truth)坐标。Lmask_loc是预测边界框和GT(Ground Truth)框的smoothL(1,2)损失函数。掩膜的总损失率归一化由smooth_loss、binary_cross_entroy和λ(平衡权重)合并得到,本申请将λ被设置为0.5,这样设置可以使掩膜的两部分loss值保持平衡,最后通过训练获得一系列掩膜特征区域。
为了提高掩膜的生成速率,本申请增加了一个IOU-Net,其结构由6个具有ReLU非线性的卷积层和1个全局池化层组成的分支。它的主要作用在于提高分割掩膜目标效率的作用,由于没有特征级联,也没有fc层,因此它的速度开销仅为1ms。其结构如图4。
通过视频数据采集并生成预设大小值的车体表面损伤区域图像;输入所述预设大小值的车体表面损伤区域图像至主干网络中进行特征提取;输入提取的特征张量至PedictionHeader和ProtoNet两个并行处理分支中处理;通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜;通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位;通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜;根据所述最优原型掩膜及所述目标原型掩膜的目标定位,分割出损伤区域;在所述分割出的损伤区域上生成对应的掩膜。通过引入掩膜系数,参与至最优原型掩膜生成,大大提高损伤区域定位的准确度。
以下通过实验应用数据进一步具体说明:
数据集准备:所用数据集,是利用爬虫程序从网络上爬取图片,由于YOLACT++对图片大小要求,统一将数据集图片改成550*550大小,并使用LabelMe对图像中的车体表面损伤目标所在的区域进行标注。通过LabelMe软件,能够方便地完成对图像中各种车体表面损伤区域目标边界的标注并保存图像。使用LabelMe制作了MS-COCO标准数据集,其中训练集30000张,验证集15000张。
实验参数:将训练周期设置为127次,每周期内迭代100步,训练步数通常根据数据集规模大小而定。采用上述改进的YOLACT++模型进行大规模的数据集训练,需要耗费大量的内存资源和时间,对硬件要求较高,本实施方式中用于训练的硬件环境参数为2个CPU:Intel(R)Xeon(R)Gold-615072核,内存:1T,3张GPU:NVIDIA tesla v100;软件环境:以Python3.6,pytorch1.1,cuda10.1构建。上述软硬件环境结合改进后的YOLACT++网络进行训练,较之前的YOLACT++架构在训练所用时间及梯度损失率等方面均有了一定优化,现将对改进前后的YOLACT++模型进行比较。
主干网络优化分析:采用了更换主干网络、对掩膜系数生成、原型掩膜生成以及原型掩膜和掩膜系数相加后生成掩膜的激励函数进行改进,分别进行训练,对比训练结果,从而总结模型改进效果。首先,通过更换主干网络,提高整个模型对目标识别平均准确度,我们分别采用ResNet101/50,DarkNet53,VGG16,MobileNetV2,EfficientNet等作为模型主干网络进行训练。
当将主干网络更改为EfficientNet时,加大了YOLACT++的网络规模,训练针对变大的网络,采用加大训练规模和调整学习率等方法,有效地解决了大型网络的梯度冻结问题。EfficientNet-B0作为主干网络,生成的模型总大小为46.1MB,小于采用ResNet-50的129.9MB,EfficientNet-B0的参数大小为10.93M,小于ResNet-50的20.2M,经过127个周期的训练,达到35.57fps,且还未完全收敛。值得注意的一点是,生成的YOLACT550++-EfficientNet-B0模型大小仅为46.1MB。图5为各主干网络训练参数对比。
损失函数优化分析:采用EfficientNet+FPN作为主干网络所带来的模型压缩和训练效率上的优势,主干网络的更换也使得损失值升高,为解决这一问题,通过改进的损失函数降低梯度损失值,提高了检测效果和精度。
从图6中可以看出,基于改进的损失函数的训练模型在三类回归的损失值上均小于原损失函数的梯度损失值,同时在图7中,给出了损失函数改进前后的mAP对比示意图。结果表明,改进的损失函数对于模型精度的提升较为明显。
同时,与传统的主干网络相对比,损失函数的改进使得本模型对掩膜的梯度损失率的优化效果更为显著,生成梯度损失走势,如图8所示,从图8中可以看出,改进的实验模型所产生的Mask梯度损失值最低,效果更好。
在图9中,给出了改进的YOLACT++与其他不同主干网络的YOLACT++梯度损失值进行比较,比较结果展示了本实验在mask上损失值最低,优化效果较为显著。
另外,在训练中将主干网络VGG16、MobileNetV2,EfficientNet-B0分别与MaskIOU-Net生成的方法相结合,并对训练结果的mAP进行对比,比较结果见图10。
由图10可见,采用EfficientNet跟移动端的主流明模型MobileNetV2和VGG16相比,识别精度有了显著提升。说明本模型在保证精准的识别效果的前提下,进一步削减了模型的规模,并显著的提高模型的识别速度。特别是在移动端的应用上,比过去的网络模型有着更快速度和更高的精度,有着很好的应用前景。
查准率分析:从数据集中提取了1000张图像作为测试集,采用的改进方法与其他方法的测试结果进行比较,通过多组对照实验,测试模型根据公式11得出查准率(precision),公式13得出召回率(recall)。利用这两个指标来衡量模型对车体表面损伤目标定位效果。
Figure BDA0002640730050000121
Figure BDA0002640730050000122
其中,TP代表被期望为正样本的,实际识别也为正样本;FP代表期望为正样本,但实际识别为负样本。TP取准确定位出车体表面损伤目标的图像数,FP取没有定位出车体表面损伤目标或定位出部分车体表面损伤目标的图像数,FN完全没有定位出车体表面损伤目标,通常采用测试精度低于某个比较低阀值的图像数。
当阀值取0.80时,TP数量为(识别率>=0.80),FP的数量为(0.75<=识别率<=0.8),FN的数量为(识别率<0.75);当阀值取0.75时,TP数量为(识别率>=0.75),FP的数量为(0.70<=识别率<=0.75),FN的数量为(识别率<0.70);根据以上取值范围,对改进前后的方法进行测试并得出图11测试结果,本文采用低于0.75测试精度的作为FN,图11为不同方法测试查准率对比。
从图11可知,采用EfficientNet-B0+FPN+MaskIOU-Net方法生成的模型测试查准率达76%,比较采用MobileNetV2,VGG16作为基础主干网络的模型测试查准率高出了3%-13%,说明查准率已超过了一些轻量级主干网络。
请参阅图12,在本实施方式中,所述存储设备1200存储有指令集,所述指令集用于执行上述一种基于YOLACT++的车身表面损伤检测及掩膜生成方法所提及的任意步骤,在此不做重复说明。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种基于YOLACT++的车身表面损伤检测及掩膜生成方法,其特征在于,包括步骤:
通过视频数据采集并生成预设大小值的车体表面损伤区域图像;
输入所述预设大小值的车体表面损伤区域图像至主干网络中进行特征提取;
输入提取的特征张量至PedictionHeader和ProtoNet两个并行处理分支中处理;
通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜;
通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位;
通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜;
根据所述最优原型掩膜及所述目标原型掩膜的目标定位,分割出损伤区域;
在所述分割出的损伤区域上生成对应的掩膜。
2.根据权利要求1所述的一种基于YOLACT++的车身表面损伤检测及掩膜生成方法,其特征在于,
所述主干网络包括:EfficientNet-B0和FPN。
3.根据权利要求1所述的一种基于YOLACT++的车身表面损伤检测及掩膜生成方法,其特征在于,
所述“通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜”,还包括步骤:通过全连接网络生成预设大小值的原型掩膜,并与通过MaskIOU-Net生成的掩膜特征向量结合生成目标原型掩膜。
4.根据权利要求1所述的一种基于YOLACT++的车身表面损伤检测及掩膜生成方法,其特征在于,
所述“通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位”,还包括步骤:通过PedictionHeader生成每个anchor的掩膜系数的向量、分类向量和anchor-box向量,并通过Fast-NMS对anchor-box向量进行筛选处理。
5.根据权利要求1所述的一种基于YOLACT++的车身表面损伤检测及掩膜生成方法,其特征在于,
所述“通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜”,还包括步骤:采用预测的掩膜与真实的掩膜两者像素集二值交叉熵生成所述最优原型掩膜的损失函数值;
所述最优原型掩膜的损失函数值由:分类损失函数值、预测框损失函数值和掩膜生成损失函数值相加所得。
6.一种存储设备,其中存储有指令集,其特征在于,所述指令集用于执行:通过视频数据采集并生成预设大小值的车体表面损伤区域图像;
输入所述预设大小值的车体表面损伤区域图像至主干网络中进行特征提取;
输入提取的特征张量至PedictionHeader和ProtoNet两个并行处理分支中处理;
通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜;
通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位;
通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜;
根据所述最优原型掩膜及所述目标原型掩膜的目标定位,分割出损伤区域;
在所述分割出的损伤区域上生成对应的掩膜。
7.根据权利要求6所述的一种存储设备,其特征在于,所述主干网络包括:EfficientNet-B0和FPN。
8.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“通过ProtoNet对特征张量进行卷积操作生成目标原型掩膜”,还包括步骤:通过全连接网络生成预设大小值的原型掩膜,并与通过MaskIOU-Net生成的掩膜特征向量结合生成目标原型掩膜。
9.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“通过PedictionHeader对所述目标原型掩膜进行操作生成对应掩膜系数,及圈定所述目标原型掩膜的目标定位”,还包括步骤:通过PedictionHeader生成每个anchor的掩膜系数的向量、分类向量和anchor-box向量,并通过Fast-NMS对anchor-box向量进行筛选处理。
10.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“通过目标原型掩膜张量及掩膜系数计算出最优原型掩膜”,还包括步骤:采用预测的掩膜与真实的掩膜两者像素集二值交叉熵生成所述最优原型掩膜的损失函数值;
所述最优原型掩膜的损失函数值由:分类损失函数值、预测框损失函数值和掩膜生成损失函数值相加所得。
CN202010839019.0A 2020-08-19 2020-08-19 一种基于yolact++车身表面损伤检测及掩膜生成方法和存储设备 Active CN112001294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010839019.0A CN112001294B (zh) 2020-08-19 2020-08-19 一种基于yolact++车身表面损伤检测及掩膜生成方法和存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010839019.0A CN112001294B (zh) 2020-08-19 2020-08-19 一种基于yolact++车身表面损伤检测及掩膜生成方法和存储设备

Publications (2)

Publication Number Publication Date
CN112001294A true CN112001294A (zh) 2020-11-27
CN112001294B CN112001294B (zh) 2023-05-12

Family

ID=73474019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010839019.0A Active CN112001294B (zh) 2020-08-19 2020-08-19 一种基于yolact++车身表面损伤检测及掩膜生成方法和存储设备

Country Status (1)

Country Link
CN (1) CN112001294B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528810A (zh) * 2020-12-04 2021-03-19 北京中科慧眼科技有限公司 适用于移动端部署的语义分割方法、系统和设备
CN112750125A (zh) * 2021-01-28 2021-05-04 华南理工大学 一种基于端到端关键点检测的玻璃绝缘子片定位方法
CN113139966A (zh) * 2021-03-19 2021-07-20 杭州电子科技大学 一种基于贝叶斯记忆的层次级联视频目标分割方法
RU2763307C2 (ru) * 2021-02-01 2021-12-28 Виталий Сергеевич Новицкий Способ детекции вмятин на элементах кузова транспортных средств и устройство для реализации данного способа
CN114266750A (zh) * 2021-12-23 2022-04-01 浙江工业大学 一种基于注意力机制神经网络的日常物体材质识别方法
CN116721342A (zh) * 2023-06-05 2023-09-08 淮阴工学院 一种基于深度学习的杂交稻种质量识别装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705553A (zh) * 2019-10-23 2020-01-17 大连海事大学 一种适用于车辆远景图像的划痕检测方法
US10699168B1 (en) * 2018-12-29 2020-06-30 Alibaba Group Holding Limited Computer-executed method and apparatus for assessing vehicle damage
CN111507985A (zh) * 2020-03-19 2020-08-07 北京市威富安防科技有限公司 图像实例分割优化处理方法、装置和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699168B1 (en) * 2018-12-29 2020-06-30 Alibaba Group Holding Limited Computer-executed method and apparatus for assessing vehicle damage
CN110705553A (zh) * 2019-10-23 2020-01-17 大连海事大学 一种适用于车辆远景图像的划痕检测方法
CN111507985A (zh) * 2020-03-19 2020-08-07 北京市威富安防科技有限公司 图像实例分割优化处理方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL BOLYA 等: "YOLACT++: Better Real-time Instance Segmentation" *
林少丹 等: "一种高效的车体表面损伤检测分割算法" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528810A (zh) * 2020-12-04 2021-03-19 北京中科慧眼科技有限公司 适用于移动端部署的语义分割方法、系统和设备
CN112750125A (zh) * 2021-01-28 2021-05-04 华南理工大学 一种基于端到端关键点检测的玻璃绝缘子片定位方法
CN112750125B (zh) * 2021-01-28 2022-04-15 华南理工大学 一种基于端到端关键点检测的玻璃绝缘子片定位方法
RU2763307C2 (ru) * 2021-02-01 2021-12-28 Виталий Сергеевич Новицкий Способ детекции вмятин на элементах кузова транспортных средств и устройство для реализации данного способа
WO2022164347A1 (ru) * 2021-02-01 2022-08-04 Виталий Сергеевич НОВИЦКИЙ Способ и устройство для детекции вмятин на элементах кузова транспортных средств
CN113139966A (zh) * 2021-03-19 2021-07-20 杭州电子科技大学 一种基于贝叶斯记忆的层次级联视频目标分割方法
CN113139966B (zh) * 2021-03-19 2022-06-24 杭州电子科技大学 一种基于贝叶斯记忆的层次级联视频目标分割方法
CN114266750A (zh) * 2021-12-23 2022-04-01 浙江工业大学 一种基于注意力机制神经网络的日常物体材质识别方法
CN116721342A (zh) * 2023-06-05 2023-09-08 淮阴工学院 一种基于深度学习的杂交稻种质量识别装置
CN116721342B (zh) * 2023-06-05 2024-06-11 淮阴工学院 一种基于深度学习的杂交稻种质量识别装置

Also Published As

Publication number Publication date
CN112001294B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN112001294A (zh) 一种基于yolact++的车身表面损伤检测及掩膜生成方法和存储设备
CN109949255B (zh) 图像重建方法及设备
CN113673307B (zh) 一种轻量型的视频动作识别方法
CN109740731B (zh) 一种自适应卷积层硬件加速器设计方法
CN110796162B (zh) 图像识别、训练识别模型的方法、相关设备及存储介质
CN112052886A (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN111489364B (zh) 基于轻量级全卷积神经网络的医学图像分割方法
CN110458084B (zh) 一种基于倒置残差网络的人脸年龄估计方法
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN114913379B (zh) 基于多任务动态对比学习的遥感图像小样本场景分类方法
CN111161306A (zh) 一种基于运动注意力的视频目标分割方法
CN115471670A (zh) 一种基于改进yolox网络模型的空间目标检测方法
CN109902697A (zh) 多目标检测方法、装置及移动终端
CN112288084B (zh) 基于特征图通道重要性的深度学习目标检测网络压缩方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN113095254A (zh) 一种人体部位关键点的定位方法及系统
CN115457057A (zh) 一种采用深监督策略的多尺度特征融合腺体分割方法
CN117808072B (zh) 模型剪枝方法、图像处理方法及装置、设备和介质
CN117372777A (zh) 基于der增量学习的密集架通道异物检测方法
CN111915603A (zh) 一种含噪声ebsd数据中无噪声相图的人工智能预测方法
CN112734649A (zh) 一种基于轻量级神经网络的图像退化方法及退化系统
CN116645608A (zh) 一种基于YOLOX-Tiny有偏特征融合网络的遥感目标检测
CN114926876A (zh) 图像关键点检测方法、装置、计算机设备和存储介质
CN118295029A (zh) 融合自注意力与Mamba架构的地震数据去噪方法
KR102149355B1 (ko) 연산량을 줄이는 학습 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant