CN113393439A

CN113393439A - 一种基于深度学习的锻件缺陷检测方法

Info

Publication number: CN113393439A
Application number: CN202110659509.7A
Authority: CN
Inventors: 余永维; 杜柳青; 邹远兵; 瞿兵
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14

Abstract

本发明公开了一种基于深度学习的锻件缺陷检测方法，先建立用于检测锻件缺陷的YOLOv4算法模型，再对YOLOv4算法模型进行训练，然后采用训练后的YOLOv4算法模型对待检测锻件的照片进行缺陷检测；其特征在于，在YOLOv4算法模型的特征提取网络中的残差连接后插入CBAM注意力模块，对特征进行筛选。本发明具有能够鲁棒性较好，能够高效、准确进行缺陷检测等优点。

Description

一种基于深度学习的锻件缺陷检测方法

技术领域

本发明涉及视觉检测技术领域，特别的涉及一种基于深度学习的锻件缺陷检测方法。

背景技术

柴油机是船舶的重要动力来源，柴油机的质量高低直接影响到了船舶的整体性能。对柴油机加工工件进行缺陷检测是保证产品质量的重要环节，但由于缺陷测定的现场条件和综合标准较为复杂，许多工位仍然以人工目测为主。以连杆为例，连杆是发动机的核心部件之一，连接曲轴和活塞，连杆件一般为锻造生产，为防止胀断工序后可能出现的断裂线偏移、面积缺损等缺陷，需要进行100％的缺陷检测，但其检测标准较为复杂，目前通常是人工目测方式，效率和准确率较低。若连杆表面缺陷不符合质量标准，将会对发动机带来严重的安全隐患。因此在其加工制造过程中快速准确的进行缺陷检测，对提高检测精度、保证产品质量和用户使用安全等方面都具有重要意义和应用价值。

工业中对锻件进行缺陷检测常采用以下三种：传统物理检测、人工目测、基于机器视觉的检测。传统物理检测方法主要有磁粉探伤、涡流探伤和超声检测等；磁粉探伤检测方式只适用于缺陷深度较小的工件，只能显出缺陷长度和形状，不能检测出较深的缺陷；涡流探伤和超声检测对缺陷的显示不直观，对缺陷的定性和定量较为困难，对操作人员要求较高。人工检测方式很容易受主观性影响，检测精度与效率较低，无法满足日益增长的高质量生产需求。基于机器视觉的检测由于其检测速度、准确度和稳定的优点，在检测领域得到广泛应用。机器视觉检测系统主要由软件和硬件两个部分组成，硬件部分主要负责获取高质量的图像，软件部分负责对图像进行处理与分析检测。视觉检测系统的主要区分在于软件的开发，常用的比如德国MVTec公司的Halcon和美国康耐视公司的Vision Pro等。这种基于传统图像处理的检测需要人为设计特征提取器提取缺陷特征，根据不同任务设计不同的特征提取方式，面对缺陷与非缺陷区域之间对比度低、噪声和缺陷相似性高等问题，局限性较大，无法广泛应用。由于连杆表面并不平整，还有杂散斑点等干扰因素，缺陷种类、位置、大小也存在多样性，而传统检测需要人为设计特征方式，对于多样化的缺陷缺乏针对性，鲁棒性较差。因此，如何高效、准确的进行缺陷检测，直观显示缺陷类型、位置、大小等信息是视觉检测必须解决的重要问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够鲁棒性较好，能够高效、准确进行缺陷检测的基于深度学习的锻件缺陷检测方法。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种基于深度学习的锻件缺陷检测方法，先建立用于检测锻件缺陷的YOLOv4算法模型，再对YOLOv4算法模型进行训练，然后采用训练后的YOLOv4算法模型对待检测锻件的照片进行缺陷检测；其特征在于，在YOLOv4算法模型的特征提取网络中的残差连接后插入CBAM 注意力模块，对特征进行筛选。

通过CBAM注意力模块对特征进行筛选，使得残差融合时保留更多有用信息，进而提高对于锻件缺陷的注意力及定位精度，提升缺陷检测效果。

进一步的，插入CBAM注意力模块后，指定池化后的channel值为CSP层输出的特征图通道数。

进一步的，所述CBAM注意力模块包括通道注意力模块和空间注意力模块。

对于输入的中间特征图，通过在通道和空间维度上依次推断注意力图，然后将注意力图与原来的特征图进行一个通道或空间的相乘。

进一步的，所述通道注意力模块将输入的特征图在空间上分别经过最大池化处理和平均池化处理，再分别经过多层感知机MLP将输出特征进行相加操作，最后经过激活函数sigmoid 激活得到最终的通道注意力权值，计算如下：

式中：F表示神经网络输入的特征，σ表示激活函数sigmoid，

表示全局平均池化后的特征，

表示全局最大池化后的特征，W₀和W₁表示多层感知机MLP的参数。

进一步的，所述空间注意力模块将通道注意力模块输出的特征图在通道维度上进行最大池化和平均池化得到F_max和F_avg，再将两个结果基于通道进行拼接，得到通道数为2的特征图，最后对特征图进行卷积操作，通过激活函数sigmoid得到空间注意力特征图，计算如下：

式中，σ表示激活函数sigmoid，

表示平均池化后的特征，

表示最大池化后的特征，f^7×7表示卷积层中卷积核的大小。

进一步的，在YOLOv4算法模型中，采用K-means++算法进行锚框设置，具体步骤为：

S1、在输入的S个样本点中随机选取一个作为聚类中心；

S2、对于样本中每一个点，计算它与已经选择的聚类中心点之间的最小IOU距离d，然后计算每个样本点被选为下一个聚类中心点的概率，d越大，被选择成为下一个中心点的概率越大；

S3、重复步骤S2，直到找到K个聚类中心点；

S4、计算样本中每一个标注框到K个聚类中心点的IOU距离，将其划分到距离最短的聚类中心所对应的类别；

S5、标注框分配完成后，重新计算每个簇的聚类中心点所在位置，计算公式如下：

式中：W′_j为第j个簇聚类中心的宽，∑w_j为第j个簇中所有对象的总宽，N_j为第j个簇，H′_j为第j个簇聚类中心的高，∑h_j为第j个簇中所有对象的总高；

S6、重复步骤S 4和步骤S 5，直至聚类中心点所在位置不再变化，输出聚类中心。

进一步的，对YOLOv4算法模型进行训练时，先获取锻件不同部位的图片，根据划分的缺陷类型对图像中的缺陷进行分类打标，对图片进行旋转仿射和随机噪声处理扩充样本量，并随机选取训练集和测试集对YOLOv4算法模型进行训练。

综上所述，本发明具有能够鲁棒性较好，能够高效、准确进行缺陷检测等优点。

附图说明

图1为本实施例的算法优化流程图。

图2为CBAM网络结构图。

图3为通道注意力模块的操作流程图。

图4为空间注意力模块的操作流程图。

图5为加入CBAM注意力模块后的YOLOv4算法的结构图。

图6和图7分别为预测框与标注框的交集和并集的示意图。

图8为损失函数变化曲线。

图9、图12和图15为采用YOLOv4算法的缺陷检测结果。

图10、图13和图16为采用C-YOLOv4算法的缺陷检测结果。

图11、图14和图17为采用C-YOLOv4++算法的缺陷检测结果。

图18为图像坐标系示意图。

图19为相机坐标系与图像物理坐标系示意图。

图20为坐标系间转换关系。

图21为双目相机的三角测量原理图。

图22为交汇式双目视觉原理图。

图23和图24分别为镜头的桶形畸变和枕形畸变示意图。

图25为镜头的切向畸变示意图。

图26为棋盘格标定图。

图27为双目相机采集图片缩略样式图。

图28和29分别为左右相机的角点检测结果示意图。

图30为左右相机立体校正示意图。

图31为积分图像示意图。

图32为盒子滤波器原理图。

图33为多尺度金字塔图像。

图34为特征点主方向示意图。

图35为特征点提取效果对比图。

图36为SURF算法特征点匹配效果图。

图37为图36中添加极线约束后的效果图。

图38～图41分别为SIFT匹配算法、AKAZE匹配算法、ORB匹配算法和BRISK匹配算法添加极限约束后的效果示意图。

图42为缺陷检测结果示意图。

图43为左图凹坑提取结果示意图。

图44为右图凹坑提取结果示意图。

图45和图46为匹配结果示意图。

具体实施方式

下面结合一种采用本发明方案的实施例对本发明作进一步的详细说明。

深度学习目标检测在大型锻件缺陷检测中发展较为滞后，主要由于大型锻件缺陷中缺陷类型、大小多样化，可能会出现同类缺陷相似度较小，不同缺陷较为相似的情况，这种情况会极大影响检测系统判断，使检测结果出现较大的误差，影响缺陷检测效果，因此需要对模型做相应的优化来实现锻件缺陷检测。为提高检测效果，本实施例基于缺陷检测要求及锻件缺陷特点，提出基于卷积注意力的YOLOv4缺陷检测方法，算法优化流程如图1所示，以 YOLOv4算法作为基础算法，引入注意力机制，通过产生的注意力信息得到图像的重点区域，进而寻找到准确特征。通过在特征提取网络中插入卷积注意力模块，采用K-means++聚类优化锚框选取方法，以此提升缺陷检测精度。经过训练得到优化模型并对检测结果进行评价分析。

1、注意力机制

注意力机制(Attention Mechanism)在人类感知中起到重要作用，一般情况下，人类在观察图片时不会仔细地浏览整个图像的像素点，而是在快速扫描全局图像后，选择性的聚焦于感兴趣区域，而后对局部感兴趣区域投入更多关注，更好的捕捉视觉结构，获取更多目标细节。这种选择注意力机制可以帮助人类从众多信息中选择性的捕捉感兴趣的信息。本质上来说，注意力机制是一种仿生机制，与人类的视觉注意力机制类似，目的是提取感兴趣区域目标信息而抑制不感兴趣区域关注度，在计算机上模拟人类注意力机制，从而减少无关信息对计算机模型运算结果的影响。

注意力机制根据不同分类方式可以分为多种形式，按照作用特征形式可分为基于项的注意力和基于位置的注意力，按照其本身形式可分为柔性注意力和刚性注意力。

基于项的注意力机制又称基于通道域的注意力机制，其输入为包含明确项的序列数据。基于位置的注意力机制也成为基于空间域的注意力机制，是针对单独的具有空间维度的特征图，经过训练后的模型可以自动发现图像中的重点特征区域，作用方法较为直接，这种注意力机制应用更加广泛。

柔性注意力其本身是不同注意力值的组合，表现为作用在对应的特征中位置或维度的权重信息；刚性注意力则更加关注输入特征，表现为离散的选择输入信息进行输出，但由于刚性注意力机制其输出是离散的，导致输出不可微，在网络中难以进行端到端的训练，因此注意力机制通常作为模块连接到原神经网络之外实现。

CBAM是一种轻量级的注意力模块，作用于前馈神经网络，融合了通道注意力模块(Channel attention module,CAM)和空间注意力模块，从空间和通道两个维度来计算卷积神经网络生成的特征图，如图2所示。

对于输入的中间特征图，通过在通道和空间维度上依次推断注意力图，然后将注意力图与原来的特征图进行一个通道或空间的相乘，其公式如式所示：

通道注意力模块将输入的特征图，在空间上分别经过最大池化处理和平均池化处理，然后分别经过MLP，将输出特征进行相加操作，最后再经过sigmoid激活得到最终的通道注意力权值，其操作流程如图3所示。

通过使用最大池化和平均池化对特征图进行压缩，得到对两个不同空间背景的描述，其计算过程如下：

F表示神经网络输入的特征，σ表示激活函数sigmoid，

表示全局平均池化后的特征，

表示全局最大池化后的特征，W₀和W₁表示多层感知机中两个参数，并在之后进行特征加权。

空间注意力(SAM)将CAM中输出的特征图作为输入，在通道维度进行最大池化和平均池化得到F_max和F_avg，然后将两个结果基于通道进行拼接，得到一个通道数为2的特征图，之后对特征图进行卷积操作，通过一个激活函数得到最后的SAM注意力特征图。其具体操作流程如图4所示，其计算过程如下：

式中，σ表示激活函数sigmoid，

表示平均池化后的特征，

表示最大池化后的特征，f^7×7表示卷积层中卷积核的大小。

2、网络模型优化

YOLOv4模型通过采用CSPdarknet53主干网络、引入SPP与PAN结构、将shortcut改为route计算等操作提高了其综合检测性能，但面对工业中锻件缺陷类型、大小多样化等情况时，会发生误检甚至漏检情况，且缺陷的定位精度不高。通过分析锻件缺陷特点及缺陷检测要求，对YOLOv4算法进行优化，为在不影响检测速率的情况下提高检测精度，修改网络中残差组件，在特征提取网络中的残差连接后加入CBAM注意力模块，通过对特征进行筛选，使得残差融合时保留更多有用信息，进而提高对于锻件缺陷的注意力及定位精度，提升缺陷检测效果。其结构如图6所示。

在YOLOv4特征提取网络的残差组件后面插入CBAM结构，指定池化后的channel值为CSP层输出的特征图通道数，图5为嵌入CBAM后的网络结构。以第4层CBAM-CSP 为例，将输入特征图经过通道注意力最大池化及平均池化后得到1×1×64，1×1×64两个空间背景描述，经过两个全连接层后将两个特征图相加，最后经过sigmoid激活函数得到 1×1×64的通道权重，输入特征图与权重相乘后得到304×304×64的特征图输出；再经过空间注意力最大池化与平均池化操作，得到304×304×1、304×304×1两个通道背景描述，将其串联后进行卷积，最后经过sigmoid激活函数得到304×304×1的空间权重，同样将特征图与空间权重相乘，得到304×304×64的特征图输出，可以看到使用CBAM后特征图大小并未改变。

YOLOv4采用锚框概念，通过引入先验框将目标检测任务转化成判断指定单元格内是否有目标以及预测框与真实框之间距离问题。在做预测时采用K-means聚类方法来寻找尽可能匹配的先验框，K-means算法通过随机选取k个点作为初始聚类中心点，然后计算预测框与聚类中心点之间的距离，寻找每个框距离最近的中心点进行分配。算法输入信息为类别信息和人为标注时标注框的尺寸和位置信息，聚类的距离计算公式如下：

d＝1-IOU[(x_i,y_i,w_i,h_i),(x_i,y_i,W_j,H_j)]

式中，(x_i,y_i)为标注框中心所在坐标，(w_i,h_i)为标注框的宽高信息，N为图像中标注框的数量，i范围i∈[1,2,...,N]，其输出为选取出的锚框的宽高信息(W_j,H_j),j∈(1,2,...,k)。

但这种方式由于初始聚类中心的随机性，容易使网络陷入局部优化，受所选择中心点的初始化值影响较大。为了获取交并比(Intersection over Union,IOU)更高的锚框，为此，本实施例采用K-means++算法对K个初始聚类中心进行优化。其算法主要思想为：假定已经选取了n个聚类中心，在选取第n+1个聚类中心时，距离当前越远的位置被选定的概率越大。其算法步骤如下：

K-means++算法通过优化初始中心点选择方式从而提高聚类效果，提高预测框与真实框之间的重合度。选取K＝9进行聚类得到9组锚框，其Avg-IOU(平均交并比)为70.83％，相比K-means方法提升了4.03％。

基于优化YOLOv4算法的模型训练

本实施例所使用的图像数据来自于某铸锻厂实际生产中产生的缺陷，自行构建缺陷数据集，具体步骤如下：

(1)通过工业相机拍摄锻件不同部位图片共500张，分辨率为1280*960。

(2)根据产生缺陷类型分为四类：凹坑(hollow)、裂纹(crack)、疏松(pores)、擦伤(scrath)，利用标注工具Labelimg对图像中缺陷进行分类打标，生成xml格式文件。

(3)将xml文件转换为“class_id x y w h”形式的txt文件。其中，class_id为类别编号，x 为目标框中心点x坐标/图片宽度，y为目标框中心点坐标/图片高度，w为目标框宽度/图片宽度，h为目标框高度/图片高度。

(4)数据增强，对图片进行旋转仿射、随机噪声处理扩充样本量，将样本量增强到5000张，随机选取90％作为训练集，10％作为测试集。

评价指标

对检测模型的性能效果进行评估需要有合适的方法，根据评价结果进行模型调优，从而提高模型效果。本实施例的检测任务为锻件表面缺陷，采用目标检测中常用的平均检测准确率(mAP)作为检测结果评价指标，mAP的计算依赖于模型精确率P(Precision)和召回率R (Recall)，在计算mAP前，需要先对P、R有基本了解。

召回率R(Recall)，又称查全率，表示在所有正样本中正确识别出正样本的比例，以凹坑为例，指被识别为凹坑的样本数占测试集中总凹坑样本数的百分比。公式为：

R＝TP/(TP+FN)

精确率P(Precision)，又称查准率，表示在所有被识别为正样本中正确识别正样本所占的比例，同样以凹坑为例，指实际的凹坑样本占被识别为凹坑样本的百分比，公式为：

P＝TP/(TP+FP)

式中，TP为真正例，表示模型实际正确检测出目标的数量；FP为假正例，表示模型误检目标的数量；FN为假负例，表示模型漏检目标的数量。

在目标检测中，图像的标注文件数据包含了图像中待检目标的类别以及检测框信息，训练完成的模型在进行检测时会输出大量目标预测信息，需要通过IOU来判定其预测边框的准确性，如图6和图7所示。

IOU计算公式为：

根据预测框与标注框的交并比来进行结果判断，对预测结果采用设定阈值的方式来判断目标为真正例还是假正例，置信度比设定IOU阈值高即判断为真正例TP，比设定IOU阈值低即判断为假正例FP，本实施例设定的IOU阈值为0.5。当测试集只有一个类别时，以P、R为坐标轴计算其曲线下的面积即可得到单类平均准确率AP，这是用来评判模型预测框的位置与类别是否准确的重要指标，通常来说AP值越高，表示性能越好。本文共设置四类缺陷，因此测试集中包含四个类别，将每个类别中单类平均准确率AP进行求和后除以类别数量N即可求出平均准确率mAP。公式为：

本实施例模型训练及测试平台采用I7-7700处理器，NVIDIAGeForceGTX1060，6G显卡，操作系统为WIN10，训练框架为轻量级神经网络开发框架Darknet框架。训练时为了获得更好的初始化权重，采用YOLOv4.weights作为预训练模型，其他训练参数如下表：

其中，momentum为动量系数，decay为衰减系数，将批次学习后的参数按照固定比例进行更新，其目的是防止过拟合；batch为批次，其值表示每隔指定批次大小对网络模型的参数进行更新；subdivisions表示单次进行训练的样本量；learning_rate为初始学习率；

max_iter为迭代次数。设置总迭代次数为28000次，最终得到损失函数变化曲线如图8所示。

为防止过拟合，从5000次迭代开始，每迭代1000次保存一次模型。

在测试集中随机选取50张图片，选择迭代次数8000次到28000次之间的C- YOLOv4++权重文件进行测试，C-YOLOv4++为本发明中插入卷积注意力且基于K-means++ 聚类的锚框选取优化的YOLOv4算法，其mAP值如表所示。

从表中数据可以得出，修改后的YOLOv4网络在迭代次数为15000次时效果最好，因此选择迭代次数15000次时的YOLO模型作为最终检测模型。

本实施例一共训练了三种模型：YOLOv4、插入卷积注意力的YOLOv4(简称C-YOLOv4)以及本文方法优化后的YOLOv4(简称C-YOLOv4++)；对于同一测试集下的缺陷检测效果如图9～图17所示。其中，图9、图12和图15为采用YOLOv4算法的缺陷检测结果，图10、图13和图16为采用C-YOLOv4算法的缺陷检测结果，图11、图14和图 17为采用C-YOLOv4++算法的缺陷检测结果。

从第一张检测结果图中可以得到，YOLOv4检测出的疏松缺陷出现了误匹配现象；在第二张检测图片中的YOLOv4出现了漏匹配的现象，而在插入CBAM注意力模块后得到了很好的改善，能够准确识别出疏松缺陷，抑制不感兴趣区域的关注度；第三张检测图片中可以看出，YOLOv4和C-YOLOv4识别出的擦伤缺陷区域定位框较大，采用K-means++聚类优化锚框选取策略后，对于缺陷目标框定位更加精准。其检测性能对比如下表所示。

从表中的对比数据表明，原始YOLOv4算法检测速度更快但精度相对较低，通过插入 CBAM结构增加网络复杂度，优化先验框选取后，平均检测准确率mAP提升了6.28％，对于锻件缺陷检测效果有明显提升的同时保证了检测实时性，满足工业检测需求。

基于双目视觉的缺陷深度信息提取

在工业缺陷检测应用中，只有目标缺陷的检测结果是不够的，还需要获取目标缺陷在现实世界中的三维信息。双目视觉系统相对于单目视觉系统能提供更多的环境信息，采用两个相机在同一时刻对同一物体拍照，通过对比物体不同视角下的图像差异，计算目标点的位置信息。本章通过分析双目视觉测量原理，推导坐标系间变换关系，搭建双目视觉系统对双目相机进行标定，并进行特征点匹配获取深度信息。在锻件表面产生的四种缺陷中，仅对于凹坑缺陷有深度要求，因此本章主要针对凹坑缺陷进行深度信息提取。

双目立体视觉模型

坐标系间转换关系：相机成像过程共涉及了四个坐标系，分别是像素坐标系、图像物理坐标系、相机坐标系和世界坐标系，通过坐标系之间的转换，逐步建立从二维到三维的映射关系，将二维平面上的任一像素点对应到三维空间坐标。其转换关系表示如下：

(1)图像物理坐标系与像素坐标系转换关系。图像物理坐标系单位长度为正常的物理长度单位，像素坐标系单位长度为像素值。图像物理坐标系与像素坐标系的转换关系如图 18所示，

以O₀为原点，u为横轴、v为纵轴建立像素坐标系；以相机主点O₁为原点建立物理坐标系，其x轴与u轴平行，y轴与v轴平行；定义点O₁的坐标为(u₀,v₀)，即可建立如下转换关系式：

式中dx、dy表示图像物理坐标系下单个像素对应的物理长度。

(2)相机坐标系与图像物理坐标系转换关系。相机坐标系的Z轴与相机光轴中心线重合，可以将相机坐标系看作图像物理坐标系沿Z轴的投影，其坐标系与图像物理坐标系的x、 y轴方向一致。相机坐标系与图像物理坐标系转换关系如图19所示，O_c-X_cY_cZ_c为相机坐标系。

由三角形相似原理，可得：

整理得到：

将上式(3)代入上述转换关系式(1)，整理矩阵表示为：

(3)世界坐标系与相机坐标系转换关系。世界坐标系指客观三维世界中的绝对坐标系，在双目相机系统中我们选左相机作为世界坐标系，用来描述相机在三维空间中的位置信息，世界坐标系下点位置用(X_w,Y_w,Z_w)表示。从世界坐标系到相机坐标系下只需要旋转和平移操作，属于刚体变换，可通过旋转矩阵和平移矩阵直接实现，根据旋转轴和角度的不同得到不同的旋转矩阵。两坐标系之间的转换关系式如下：

式中，R表示旋转矩阵，T表示平移矩阵。

综上，四个坐标系间的转换关系如图20所示。

式中，f_x＝f/dx、f_y＝f/dy为相机在X、Y轴的尺度因子。

双目相机测量原理

对于真实世界中的一点，仅凭单相机测量出该点位置不够精确，因为该点到相机的投影为一条直线，因而无法测量出其深度。双目立体视觉通过模拟人眼对三维物体的认知规律，采用两个相机在不同位置对物体进行拍照，利用三角测量理论得到物体准确的三维信息，测量原理如图21所示。

P为真实世界中的一点，坐标为(x,y,z,)，O_l和O_r为两相机的光心，P_l和P_r为点P在左右相机成像平面上的像点，假设左右相机的图像平面在同一平面内，两像点坐标分别为P_l＝(x_l,y_l)和P_r＝(x_r,y_r)，根据透视几何变换关系可以得到：

其中，f为相机焦距，T为左右相机的中心距，由此即可计算出视差：

d＝x_l-x_r (8)

进而可计算出点P在相机坐标系下的坐标值：

因此，当两个相机的内参相同时，只要知道空间点在左右相机上的成像位置，即可推出该点的空间坐标。

在实际的双目系统应用中，难以保证内参相同且共面行对准，大多为交汇式模型，因此需要在已知相机相对位置和左右相机的标定参数情况下进行三维信息恢复。模型原理如图 22所示。

设左右相机的投影矩阵为M_l、M_r，有：

代入式(6)可得：

式中Z_cl、Z_cr分别表示点P在左右相机坐标系下坐标值，联立上式消除Z_cl和Z_cr得到：

观察可知上式本质上是图中直线O_lP与O_rP求交点的过程，由此可在四个方程中求解出三个未知数，得到空间点P坐标(X_W,Y_W,Z_W)。

镜头畸变

由于相机镜头在生产过程中其制造工艺存在细微差别，会因汇聚或者发散穿过透镜的光线从而造成失真，这种现象称为镜头畸变。在实际应用中，相机成像模型并不是理想的几何模型，因此会产生成像畸变。根据相机畸变类型可分为径向畸变和切向畸变两类。

(1)径向畸变(Radiak Distortion)

径向畸变的形成主要由于镜头的凸透镜形状，该畸变关于透镜的中心光轴对称，在距离光轴中心越远的位置，其畸变越大。径向畸变常为桶形畸变和枕形畸变，图像上展现为所成像的形状沿径向拉伸或者压缩。如图23和24所示。

其校正公式为：

式中，x、y为图像点在理想情况下无畸变的坐标值，x′、y′为实际产生径向畸变的坐标值，k₁、k₂、k₃为径向畸变参数。由于k₃畸变参数对标定结果的影响较小，为简化求解过程，在实际求解过程中常将其设置为0。

(2)切向畸变

切向畸变的产生主要是由于相机与镜头的安装操作不当造成透镜与相机成像平面不平行，存在一个小夹角。如下图25所示。

其校正公式如下：

式中，p₁、p₂为切向畸变系数，x″、y″为切向畸变下的实际图像坐标。

综上可得相机畸变的数学表达如下：

式中，r²＝x²+y²，说明距离图像边缘越近，畸变量越大。

立体匹配原理

立体匹配可以简要描述为在两幅图像中找出相似点，通过这些相似点实现双目图像之间的匹配，得到左右图像像素的对应关系，生成视差图，根据检测框所在位置的坐标，然后进行深度提取来得到缺陷的深度信息。对于三维空间内物体在相机成像平面内的缺陷目标进行目标检测后，可以得到缺陷所在区域位置等信息，当双目相机左、右像点对应关系确定后，即可计算出缺陷区域深度信息。

立体匹配算法分类：图像匹配有很多种分类方式，但本质都是寻找图像之间相同点对的过程，根据算法所采用的匹配基元不同，可以分为一下三类：

1)基于灰度的匹配方式：这种方法认为参考图与匹配图之间的对应点邻域中的灰度值相同或者相近。以参考图像中某点邻域的子窗口为最小查询单元，在待匹配的图像中按之前设定好的匹配准则进行寻找，直到找到与子窗口最相似的匹配窗口，这个匹配窗口就是图像的匹配区域。基于区域的匹配方法可以直接获取到稠密的视差图，但是算法耗时长，抗噪能力差且对畸变比较敏感。

(2)基于特征的匹配方式：通过提取图像中的特征点集信息，根据物体中的特征点对进行匹配，匹配的依据是寻找特征点对的最小距离，然后对特征点进行视差估计。该方法对光线不敏感，对图像灰度值的依赖较低，抗干扰能力强，匹配速度快，适用于工业现场环境。

(3)基于相位的匹配方式：相位匹配方式通过滤波，根据相位信息在频率的范围内进行参考图像与待匹配图像的视差估计。

根据约束方法的不同可以分为基于区域约束的局部匹配算法和基于全局约束的全局匹配算法，局部匹配算法需要选取合适的约束窗口，且受光线和图像纹理影响较大；而全局匹配算法利用全局信息，构造一个全局能量函数后动态寻找最小值，耗时较长，计算代价较高。

立体匹配基本约束：立体匹配中，参考图像中的一个特征点在待匹配图像中有且只有一个与之对应，为了减小特征匹配中干扰因素造成的影响，提高立体匹配的准确率和匹配速度，需要添加一些必要的约束，目前常用的约束准则有：

(1)极线约束。极线约束是匹配中常用的约束，将两个相机拍摄的图像经过校正转换在同一平面上，使两图像间的特征点对能够行对准，将查找范围从图像平面缩小到直线像素点上，大大减少匹配时间，减小计算量和复杂度。

(2)唯一性约束。针对图像中特征点对的匹配，参考图像的一点在对应待匹配图像中的点是唯一存在的。

(3)连续性约束。对于空间中的物体，除了遮挡和边缘区域，其表面应该是连续的，即图像间的视差变换值具有连续性。

(4)相似性约束。在图像匹配时，物体在不同视角下投影时使用的点、线、块等匹配基元应该是相似的。

(5)顺序一致性。参考图像与待匹配图像对空间内物体点位置的映射顺序是不变的。左右图像中点的顺序相同。

(6)左右一致性。假定在参考图像中像素点P在待匹配图像中匹配到的点是Q，则参考图像中像素点Q在待匹配点中应该为P，若匹配结果对应不符合，则表明该点不可靠。

(7)视差范围约束。由双目相机的基线距离，在极线搜索过程中指定一个阈值来约束搜索范围。减少匹配计算量和复杂度。

双目相机标定及立体校正

相机标定方法：相机标定是指求得相机参数和各坐标系间对应关系的过程，根据标定的特点可以分为三类，分别是传统标定法、自标定法和主动标定法。

(1)传统标定法。传统标定法主要有Tsai两步法、双平面标定法以及张正友标定法等。这种方法标定过程较复杂，对标定模板的精度依赖程度高，通常采用大小和结构信息已知的棋盘格作为标定模板，通常应用于精度要求高的场合。

(2)自标定法。通过改变相机的位姿和焦距等信息，采集不同视角下的多幅图像，利用多视图的几何约束方程，根据图像序列进行标定，这种方式不依赖特殊的标定板，比较灵活，但标定精度不高。

(3)主动标定法。其标定算法鲁棒性高、容易实现，但是需要在标定前已知相机的部分运动信息，在相机运动信息难以控制的情况下不适用。

由于本文是对工业生产中缺陷信息提取，因此采用精度较高的张正友标定法，使用棋盘格标定板进行标定。张正友标定法在传统标定法的基础上引入自标定方法，结合两种方法的优点，标定精度高、鲁棒性好、使用简单。其基本步骤为：首先使用尺寸已知的棋盘格标定板在不同角度下拍摄多张照片，然后检测照片中棋盘格的角点，求解计算出相机的内参、外参及畸变系数。对于双目系统，除了标定相机的内外参和畸变系数，还需要求出两个相机之间的相对位姿关系，以便实现左右相机图像对准。求解过程如下。

设空间中一点P世界坐标系下坐标为P_W＝[X,Y,Z]^T，增广矩阵形式P_W＝[X,Y,Z,1]^T，图片像素坐标下为P_C＝[u,v]^T，增广矩阵形式为P_C＝[u,v,1]^T，坐标间转换关系为：

sP_C＝M₁[R,t]P_W (16)

其中，s为比例因子，R为旋转矩阵，t为平移向量，M₁为相机内参矩阵，表示为：

其中，(u₀,v₀)表示主点坐标，α和β表示主点在图像坐标系中的尺度因子，

为畸变系数。为了具有普遍性，假定模型平面为世界坐标系中的xy平面上，这样z轴坐标值就为0。式 (16)可表示为：

令H＝[h₁ h₂ h₃]＝λM₁[r₁ r₂ t]，则：

由于r₁和r₂为相互正交的旋转向量，得到两个约束：

令

则可化简为：

可以看出上式B为对称矩阵，用向量表示为：B＝[B₁₁,B₁₂,B₂₂,B₁₃,B₂₃,B₃₃]^T，设单应性矩阵 H中第i列列向量为h_i＝[h_i1,h_i2,h_i3]，可以得到：

式中v_ij＝[h_i1h_j1,h_i1h_j2+h_i2h_j1,h_i2h_j2,h_i3h_j1+h_i1h_j3,h_i3h_j2+h_i2h_j3,h_i3h_j3]^T，

由两个约束条件可以推出：

当相机拍摄n幅图像，对于每幅图像都有与上式对应的方程组，把这n个方程组组合起来，有：

Vb＝0 (24)

式中矩阵V为2n×6的矩阵，b向量需要至少3幅图像才能求出，本文标定实验共采集15 张图片。求解出b后，通过Cholesky分解得到相机内参矩阵信息如下：

将内参矩阵M₁求出后，可以解出相机外参：

以上推导的是理想情况下的相机参数，实际过程中还需要考虑相机畸变，假设空间中一点P的理想图像坐标为(x,y)，畸变坐标为(x_P,y_P)，其对应关系可表示为

式中r²＝x²+y²，然后根据各坐标系间的对应关系可以求出点P的畸变坐标(x_P,y_P)以及在相机坐标系下的坐标(x_c,y_cz_c)，联立求出畸变系数(k₁,k₂,p₁,p₂)。双目视觉系统需要在此基础上进行双目标定，获取双目相机之间的位姿关系。假设外参已知，点P在左右相机坐标系和世界坐标系下的坐标为P_l、P_r和P_W，可通过旋转、平移矩阵表示为：

上式变换后可转化为：

可得出旋转矩阵

和平移矩阵T＝R₁(T_r-T_l)。

双目相机标定实验：本文采用计算机视觉开源库OpenCV进行相机标定计算相机内外参，并用Matlab工具箱进行验证，标定步骤如下：

(1)标定板制作。实验采用10×10的棋盘格标定板，单个棋盘格尺寸为8×8mm，如图 26所示。

(2)标定图片采集。将两个海康系列工业相机固定在实验平台上，变换标定板的角度与位置，采集30张不同角度的棋盘格标定图片，其中左右视图各15张。将左、右相机采集到的图片成对编号并保存至指定文件夹。如图27所示为双目相机采集图片。

(3)角点提取。采用Opencv的角点检测函数分别对左、右相机中的棋盘格标定图进行角点提取，单次检测结果如图28和图29所示：

(4)参数计算。获取到角点后选取其中提取效果较好的图像即可对相机内、外参数进行计算。结果如下：

(5)立体校正。将上表中的相机参数写入相机，得到相机的参数映射，首先运用公式(15) 进行去畸变操作，得到相机去畸变后的坐标。然后利用内外参数对左右相机拍摄的图像平面进行变换以达到行像素对准的效果，校正结果如图30所示。

采用Matlab工具箱进行标定验证，标定步骤与上述相同，得到标定结果如下：

可以看出，两种方法获取的相机参数基本一致，Matlab标定虽然便捷但在工业环境中开发成本较高，采用Opencv进行标定及校正得到的相机参数满足本文实验要求，因此本文采用 Opencv进行相机标定。

基于特征点的立体匹配与深度计算

考虑到凹坑缺陷形态多样，成像复杂，最终采用特征匹配方式进行缺陷匹配。通过对比分析不同特征点提取及匹配效果，最终采用SURF算法进行特征点提取。对左右相机拍摄图像进行立体标定后，通过对缺陷检测识别出的凹坑缺陷进行匹配得到匹配点对，根据三角测量原理进行特征点对的位置信息计算，对Z轴方向值进行求差，进而得到凹坑的深度信息。

SURF特征提取算法原理：为了优化SIFT算法特征提取稳定性，解决其运算量大、耗时长等问题，Herbert Bay等人提出基于SURF(Speeded Up Robust Features)算子方法进行特征提取，通过采用Hessian矩阵和积分图像概念，在延续SIFT算法中鲁棒性高等优点前提下，简化运算复杂度，大大提高算法提取特征的计算速度。

SURF通过采用积分图像从而将原图像与二阶微分模板的滤波转换为了图像加减运算，积分图像是指输入灰度图像I中原点到任意像素点(x,y)中整个矩形区域内的所有点的像素之和。表达式如下所示：

采用积分图像可以大大减少计算量，如图31所示，对于图像内任意矩形区域，只需对矩形四个顶点的积分图像值进行加减运算即可得到该区域内的像素值之和。

对所有尺度空间中图像进行搜索，结合图像I中一点(x,y)，构建Hessian矩阵，其定义如下：

构建Hessian矩阵目的是为了检测图像中特征点，因此在构建矩阵之前需要对图像进行高斯滤波处理去除噪声，滤波后公式表达式如下所示：

式中，L_xx(x,σ)、L_xy(x,σ)、L_yy(x,σ)为不同尺度下的图像高斯二阶微分滤波器。

为减小计算量，将二阶高斯滤波器用盒式滤波器D_xx、D_xy、D_yy替代，如图32所示，替换后Hessian矩阵表达式可近似表示为：

Det(H)＝D_xxD_yy-(ωD_xy)² (33)

式中ω为权重因子，可以通过对图像进行滤波和斑点检测求出，通常取0.9较为合理。

在构建尺度空间时，SURF并未改变图像的大小，用不同尺寸盒子滤波模板从不同尺度对积分图像进行卷积，求得Hessian矩阵的响应图像，从而建立不同尺度空间的金字塔图像。如图33所示。

对于图像特征点的定位，将每个像素点与其3层邻域进行非极大值抑制，若该点行列式的值为其周围所有26个点的最大或最小值时，初步判定该点为特征点。为了实现特征点的旋转不变性，对于每个特征点都需要分配一个主方向，SURF算法通过遍历特征点的圆形邻域范围内所有点的水平、垂直harr小波特征，以60°扇形区域为模板旋转，对特征进行相加，将相加后的矢量作为区间方向，选取6个区间内总和最大的方向作为主方向。如图34所示。

SURF对于特征点描述子生成采用分块思想，按照特征点主方向，将特征点周围边长20 像素点的图像框划分成16个小区域，每个区域有5×5个像素块。对小区域中25个像素的水平和垂直方向的harr小波特征进行统计，求其水平方向的和、垂直方向的和与绝对值的和，每个小区域有四个特征向量，其特征描述子为4×4＝64维的描述向量。

特征点提取与匹配实验：分别对左右图像进行特征点提取，对比不同算法的提取效果，结果如图35所示，图中上排从左到右分别为原图像、SURF算法处理图像和SURF算法处理图像；图中下排从左到右分别为AKAZE算法处理图像、ORB算法处理图像和BRISK算法处理图像。

特征提取后会得到样本集与查询集两个图像中特征点集的对应关系，常用欧氏距离来表达特征间的相似性，表达式如下所示：

式中，A、B表示两个图像中分别提取到的特征点，D(A,B)越小，表示两个特征差异越小，特征越相似。对于一幅图像中的特征点，若在另一幅图像中对应欧氏距离最近的两个特征点之间的比率小于一定阈值，则认为这是一对匹配点，否则舍弃这对特征匹配点。

特征点提取完成后即可进行特征点匹配，采用极线约束准则来约束特征点匹配搜索空间，理论上在极线上进行搜索，但由于实际场景中双目系统存在误差和噪声干扰，选用极线上下 3个像素进行搜索，可以大幅度提高匹配精度。SURF算法匹配效果如图36和图37所示：

添加极限约束后，其他算法匹配效果图如图38～41所示，图38～图41分别为SIFT匹配算法、AKAZE匹配算法、ORB匹配算法和BRISK匹配算法添加极限约束后的效果示意图图。

下表为不同特征提取算法的匹配结果。特征点数目为左、右图像中特征提取算法所提取到的特征数目，匹配数目是特征匹配点对的总连接数，正确匹配数是匹配数目中正确匹配的连线个数。

对比实验表明，BRISK和ORB算法匹配的点很少，不足以支撑后续缺陷深度估计；AKAZE算法检测到的特征点很少，会造成后续计算视差时不稳定；与SIFT相比虽然SURF 检测的特征点相对较少，但特征匹配点对数量更高，特征点对正确匹配数也明显高于SIFT，因此基于SURF的特征点匹配算法在特征点提取、匹配和运行时间均有很明显的优势。

进行立体匹配的步骤如下：将左相机图像经过缺陷检测识别到的凹坑区域提取出来，以右图像的凹坑区域作为搜索图像，对两幅图像进行特征点检测与匹配。锻件缺陷检测效果如图42所示。

将识别的凹坑区域提取出来，对其进行SURF特征点提取，凹坑图像特征点提取结果如图43和图44所示。

利用上图的提取结果进行特征点匹配，同样设定3px阈值的极线约束，若待匹配的凹坑区域特征点行像素相差3px以上，则认为是不合格特征点对，将其剔除，匹配结果如图45和图46所示。

深度信息计算：经过立体匹配，即可得到识别区域中的特征点对的二维像素坐标。根据上节中相机标定后求得的相机参数，代入公式(12)即可求得图像中各个特征点的三维空间坐标，然后对特征点进行求差，将z轴方向最大差值作为凹坑缺陷深度值。由于本文测量表面缺陷深度，其值一般不会超过10mm，因此采用阈值为10mm对求差结果进行筛选，超过10mm 认为是零件边缘变化，舍弃该结果，图像中凹坑深度信息如下表所示：

本实施例介绍了双目立体视觉模型，对各个坐标系之间的转换关系进行推导，介绍双目立体相机测量原理和立体匹配原理。接下来详细阐述了双目相机标定步骤，并采用张正友相机标定方法进行相机标定实验，对比Matlab和Opencv求解得到的相机内外参数，并依据参数进行立体校正将图像校正在同一平面上，实验表明校正结果理想，满足实验要求。然后研究基于特征点的双目立体匹配方法，通过对比不同特征提取算法的提取与匹配效果，采用 SURF特征点提取，用极线约束准则来剔除误匹配特征点对，从而完成缺陷区域的立体匹配。

Claims

1.一种基于深度学习的锻件缺陷检测方法，先建立用于检测锻件缺陷的YOLOv4算法模型，再对YOLOv4算法模型进行训练，然后采用训练后的YOLOv4算法模型对待检测锻件的照片进行缺陷检测；其特征在于，在YOLOv4算法模型的特征提取网络中的残差连接后插入CBAM注意力模块，对特征进行筛选。

2.如权利要求1所述的基于深度学习的锻件缺陷检测方法，其特征在于，插入CBAM注意力模块后，指定池化后的channel值为CSP层输出的特征图通道数。

3.如权利要求1所述的基于深度学习的锻件缺陷检测方法，其特征在于，所述CBAM注意力模块包括通道注意力模块和空间注意力模块。

4.如权利要求3所述的基于深度学习的锻件缺陷检测方法，其特征在于，所述通道注意力模块将输入的特征图在空间上分别经过最大池化处理和平均池化处理，再分别经过多层感知机MLP将输出特征进行相加操作，最后经过激活函数sigmoid激活得到最终的通道注意力权值，计算如下：

式中：F表示神经网络输入的特征，σ表示激活函数sigmoid，

表示全局平均池化后的特征，

5.如权利要求4所述的基于深度学习的锻件缺陷检测方法，其特征在于，所述空间注意力模块将通道注意力模块输出的特征图在通道维度上进行最大池化和平均池化得到F_max和F_avg，再将两个结果基于通道进行拼接，得到通道数为2的特征图，最后对特征图进行卷积操作，通过激活函数sigmoid得到空间注意力特征图，计算如下：

式中，σ表示激活函数sigmoid，

表示平均池化后的特征，

表示最大池化后的特征，f^7×7表示卷积层中卷积核的大小。

6.如权利要求1所述的基于深度学习的锻件缺陷检测方法，其特征在于，在YOLOv4算法模型中，采用K-means++算法进行锚框设置，具体步骤为：

S1、在输入的S个样本点中随机选取一个作为聚类中心；

S3、重复步骤S2，直到找到K个聚类中心点；

式中：W′_j为第j个簇聚类中心的宽，∑w_j为第j个簇中所有对象的总宽，N_j为第j个簇，H_j′为第j个簇聚类中心的高，∑h_j为第j个簇中所有对象的总高；

S6、重复步骤S4和步骤S5，直至聚类中心点所在位置不再变化，输出聚类中心。

7.如权利要求1所述的基于深度学习的锻件缺陷检测方法，其特征在于，对YOLOv4算法模型进行训练时，先获取锻件不同部位的图片，根据划分的缺陷类型对图像中的缺陷进行分类打标，对图片进行旋转仿射和随机噪声处理扩充样本量，并随机选取训练集和测试集对YOLOv4算法模型进行训练。