CN112884732A

CN112884732A - 一种基于图网络注意力机制的无监督缺陷提取方法及装置

Info

Publication number: CN112884732A
Application number: CN202110177165.6A
Authority: CN
Inventors: 王洪元; 欣子豪; 殷雨昌; 徐志晨; 吴琳钰; 刘乾; 张继
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-01
Anticipated expiration: 2041-02-07
Also published as: CN112884732B

Abstract

本发明公开了一种基于图网络注意力机制的缺陷提取方法及装置，通过将两张图片进行关键点提取，得到的关键点在编码后输入至图网络，在图网络中使用多次自注意力方法和跨越注意力算法后，得到两张匹配描述符矩阵，之后将两个匹配描述符矩阵内积得到匹配得分矩阵，之后对匹配得分矩阵进行阈值筛选，得到最终的匹配点。将匹配后的两张图片做残差，差异较大的则为缺陷。与传统的缺陷提取方法相比，该方法只需要一张无缺陷的样品图片作为标准图片，不需要花费大量人力进行数据标注。

Description

一种基于图网络注意力机制的无监督缺陷提取方法及装置

技术领域

本发明涉及图像处理和深度学习技术领域，具体涉及一种基于图网络注意力机制的无监督缺陷提取方法，还涉及一种基于图网络注意力机制的无监督缺陷提取装置。

背景技术

产品表面的缺陷检测和提取是目前工业界急需解决的问题之一，目前常用的缺陷检测主要分为两种，一种通过常规的图像处理的方法，虽然处理速度较快，但是需要所有图片以相同的角度和位置拍摄，对于产线设备的精度要求过高，并且大量的参数需要人手工进行调试；另一种是通过深度学习下目标检测等方法，虽然能够以较强的鲁棒性对产品的缺陷进行检测，但是需要耗费大量人力物力对数据进行筛选和标注，且需要耗费大量时间。另外，传统深度学习方法网络层数较深，网络参数过多，由于硬件的限制，对图片尺寸的要求较为严格，需要将高分辨率图片裁剪成许多小图片进行检测。

发明内容

本发明的目的在于克服现有技术中的不足，提出了一种基于图网络注意力机制的无监督缺陷提取方法，来提高无监督视频行人重识别方法的识别精度。

为解决上述技术问题，本发明提供了一种基于图网络注意力机制的无监督缺陷提取方法，包括：

分别提取标准图片和待检测图片中的关键点，获得对应的关键点向量和对应的描述符向量；

分别对标准图片和待检测图片的关键点向量进行编码处理；

分别对标准图片和待检测图片对应的所有关键点向量与归一化后的描述符向量进行向量拼接叠加，获得对应的描述符张量；

将标准图片和待检测图片对应的描述符张量输入图网络，获得图网络输出的与标准图片和待检测图片对应的匹配描述矩阵；

基于标准图片和待检测图片对应的匹配描述矩阵，计算得到匹配得分矩阵，所述匹配得分矩阵中的元素表示标准图片与待检测图片的关键点之间的匹配得分；

基于匹配得分矩阵选取标准图片和待检测图片中匹配成功的关键点；调整待检测图片直至待检测图片与标准图片中匹配的关键点匹配点重合；

计算待检测图片与标准图片之间的灰度值差，将待检测图片上灰度值差异较大处对应的区域视为缺陷。

可选的，所述编码处理采用多层一维卷积网络进行编码。

可选的，所述编码处理的过程为：

以标准图片关键点k_A,i为例，实现步骤为：

其中，k′_A,i为更新过后的关键点向量，k_A,i为原关键点向量，k_A,i,j表示向量k_A,i的第j个元素，其中i为标准图片关键点序号，n为关键点总个数；w_A和b_A为一维卷积网络需要学习的参数，w_A,j的下标j表示向量w_A中的第j个元素。

可选的，所述图网络包括级联的自注意力图网络和跨越注意力图网络。

可选的，所述将标准图片和待检测图片对应的描述符张量输入图网络，获得图网络输出的与标准图片和待检测图片对应的匹配描述矩阵，包括：

1)将标准图片和待检测图片对应的描述符张量x_A和x_B作为输入放入自注意力图网络中，自注意力图网络是分别对待检测和标准图片内关键点相互比较，选出各自图片内差异明显的关键点，输出匹配描述矩阵

和匹配描述矩阵

首先计算图网络的特征三元组(query_A,key_A,value_A)和(query_B,key_B,value_B)，其中下标A表示标准图片对应的特征三元组，下标B表示待检测图片对应的特征三元组；

自注意力图网络中特征三元组计算公式为：

其中，x_i为输入的x_A和x_B张量，下标i为张量中的元素序号，上标(k)为当前图网络迭代次数，权重矩阵W_query，W_key，W_value及偏置b_query，b_key，b_value为神经网络需要学习的参数，经过训练得到特征三元组(query,key,value)；

图网络注意力机制，基于特征三元组(query_A,key_A,value_A)和(query_B,key_B,value_B)，输出匹配描述矩阵

和匹配描述矩阵

匹配描述矩阵的计算公式为：

其中，key^T为向量key的转置，d为向量query的维度；

2)将自注意力图网络输出的匹配描述矩阵

和匹配描述矩阵

输入跨越注意力图网络中，跨越注意力图网络是对待检测和标准图片内关键点相互比较，选出两个图片内差异明显的关键点，输出匹配描述矩阵

和匹配描述矩阵

首先基于匹配描述矩阵

和

计算图网络的特征三元组(query_A,key_B,value_B)和(query_B,key_A,value_A)，

跨越注意力图网络中特征三元组计算公式为：

其中，x_i、x_j分别为输入的匹配描述矩阵

和

下标i、j为向量中的元素序号，上标(k)为当前图网络迭代次数，权重矩阵W_query，W_key，W_value及偏置d_query，b_key，b_value为神经网络需要学习的参数，经过训练得到特征三元组(query,key,value)；

图网络注意力机制，基于输入的特征三元组(query_A,key_B,value_B)和(query_B,key_A,value_A)，输出匹配描述矩阵

和匹配描述矩阵

匹配描述矩阵的计算公式为：

其中，key^T为向量key的转置，d为向量query的维度；

3)跨越注意力图网络的输出再次作为下一层的自注意力网络输入，一直迭代循环，直至达到迭代次数，最终输出匹配描述矩阵Z_A和Z_B。

可选的，所述基于标准图片和待检测图片对应的匹配描述矩阵，计算得到匹配得分矩阵，包括：

分别对标准图片和待检测图片对应的匹配描述矩阵进行编码，获得对应的得分矩阵；

然后对标准图片和待检测图片对应的得分矩阵进行内积，得到匹配得分矩阵。

可选的，所述基于匹配得分矩阵选取标准图片和待检测图片中匹配成功的关键点，包括：

若匹配得分矩阵中某匹配得分大于阈值，则判断标准图片的关键点与待检测图片的关键点成功匹配。

可选的，所述选取标准图片和待检测图片中匹配成功的关键点后，还包括：

若标准图片和待检测图片中匹配成功的关键点少于设定的个数，则将待检测图片视为缺陷图片。

相应的，本发明还提供了一种基于图网络注意力机制的无监督缺陷提取装置，包括：

关键点提取模块，用于分别提取标准图片和待检测图片中的关键点，获得对应的关键点向量和对应的描述符向量；

编码处理模块，用于分别对标准图片和待检测图片的关键点向量进行编码处理；

描述符张量获取模块，用于分别对标准图片和待检测图片对应的所有关键点向量与归一化后的描述符向量进行向量拼接叠加，获得对应的描述符张量；

图网络处理模块，用于将标准图片和待检测图片对应的描述符张量输入图网络，获得图网络输出的与标准图片和待检测图片对应的匹配描述矩阵；

匹配得分计算模块，用于基于标准图片和待检测图片对应的匹配描述矩阵，计算得到匹配得分矩阵，所述匹配得分矩阵中的元素表示标准图片与待检测图片的关键点之间的匹配得分；

匹配点获取模块，基于匹配得分矩阵选取标准图片和待检测图片中匹配成功的关键点；调整待检测图片直至待检测图片与标准图片中匹配的关键点匹配点重合；

缺陷区域获取模块，用于计算待检测图片与标准图片之间的灰度值差，将待检测图片上灰度值差异较大处对应的区域视为缺陷。

与现有技术相比，本发明所达到的有益效果是：本发明基于图网络的自注意力模型和跨越注意力模型，可以在一张无缺陷样本图片的情况下，对缺陷样本进行缺陷部分的提取，本发明能够以无监督的方式，快速对高分辨率图片进行缺陷检测，在没有人工标注的情况下对缺陷进行精准提取。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动力的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图；

图2为本发明方法的整体框架图；

图3为本发明方法中图网络框架图；

图4为本发明方法中图网络迭代计算框架图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

无监督的缺陷提取方法的最大优势在于不需要任何数据集的标注，不仅能够节约大量时间，还能够为企业节约大量的人力物力。工业产品的缺陷检测需要具有很好的实时性，基于图网络注意力机制的无监督缺陷提取算法，相较于目标检测的深度网络，能够以更快的速度来提取缺陷。并且网络中参数相较于目标检测的深度网络更少，对于图片尺寸的要求更为宽松，在相同硬件的情况下，可以在不对图片进行剪裁的情况下进行缺陷提取。

本发明的发明构思为：常规的卷积神经网络无法直接处理图片关键点的描述符向量，所以借助图网络的注意力机制来进行图片匹配以及缺陷的提取。本发明采用了图网络中自注意力机制以及跨越注意力机制，其中自注意力机制单独应用在一张图片上，目的是选取鲁棒性好的关键点作匹配；跨越注意力机制同时作用于两张图片，两张图片交换描述符向量进行迭代，寻找两张图片中相似的关键点。两张图片经过自注意力图网络和跨越注意力图网络的多次迭代，会输出鲁棒性更好的描述符向量，通过对描述符向量的内积运算，可以得到匹配的得分矩阵，对得分矩阵进行阈值处理后完成两张图片的匹配，进行灰度校正后对两张图片作残差，差异较大部分则为缺陷部分。

本发明的一种基于图网络注意力机制的无监督缺陷提取方法，如图1和图2所示，包括以下过程：

步骤1，将一张无缺陷图片作为标准图片，记为I_A，通过关键点提取算法(如SIFT、ORB等)，得到标准图片的关键点向量和对应的描述符向量，标准图片的关键点向量记为k_A,i，描述符向量记为d_A,i，其中i为关键点序号；

步骤2，将待检测图片记为I_B，通过相同的关键点提取算法得到待检测图片的关键点向量和对应的描述符向量，待检测图片的关键点向量记为k_B,i，描述符向量记为d_B,i，其中i为关键点序号；

步骤3，对获取的标准图片的关键点向量k_A,i和待检测图片的关键点向量k_B,i，通过多层一维卷积网络进行编码，获得更新后的关键点向量，编码是为了将低维的关键点映射到更高维度，一般最终维度设为256；

多层一维卷积编码，以标准图片关键点k_A,i为例，实现步骤为：

待检测图片关键点的编码步骤与上述相同，并且使用与标准图片相同的卷积网络参数；

步骤4，对得到的标准图片的描述符向量d_A,i和待检测图片的描述符向量d_B,i同时进行归一化处理，通过归一化处理能够减少后续步骤的计算量，将编码后的所有关键点向量k′_A,i和k′_B,i分别与归一化后的描述符向量d_A,i和d_B,i进行向量拼接叠加，记为新的描述符张量x_A和x_B，通过拼接叠加操作能够使后续图网络能够同时对关键点以及描述符张量进行推理；

步骤5，将步骤4得到新的描述符张量x_A和x_B作为输入放入图网络中，输出匹配描述矩阵Z_A和匹配描述矩阵Z_B。通过图网络的注意力机制，选取出待检测和标准图片中差异较大的关键点特征，获得更为鲁棒的匹配描述矩阵。

如图3和图4所示，具体包括以下过程：

1)将步骤4得到新的描述符张量x_A和x_B作为输入放入自注意力图网络中，自注意力网络的输出为匹配描述矩阵

和匹配描述矩阵

自注意力图网络是分别对待检测和标准图片内关键点相互比较，选出各自图片内差异明显的关键点。

首先基于步骤4得到的x_A和x_B，计算图网络的特征三元组(query_A,key_A,value_A)和(query_B,key_B,value_B)，其中下标A表示标准图片对应的特征三元组，下标B表示待检测图片对应的特征三元组。目的是将当前数据转化为图网络注意力机制的输入形式。

自注意力图网络中特征三元组计算公式为：

其中，x_i为输入的x_A和x_B张量，下标i为张量中的元素序号(即关键点序号)，上标(k)为当前图网络迭代次数，权重矩阵W_query，W_key，W_value及偏置b_query，b_key，b_value为神经网络需要学习的参数，经过训练得到特征三元组(query,key,value)；

和匹配描述矩阵

匹配描述矩阵的计算公式为：

其中，key^T为向量key的转置，d为向量query的维度。

2)将自注意力图网络输出的匹配描述矩阵

和匹配描述矩阵

输入跨越注意力图网络中，跨越注意力图网络的输出为匹配描述矩阵

和匹配描述矩阵

跨越注意力图网络是对待检测和标准图片内关键点相互比较，选出两个图片内差异明显的关键点。

首先基于匹配描述矩阵

和

计算图网络的特征三元组(query_A,key_B,value_B)和(query_B,key_A,value_A)，目的是将当前数据转化为图网络注意力机制的输入形式。

跨越注意力图网络中特征三元组计算公式为：

其中，x_i、x_j分别为输入的匹配描述矩阵

和

下标i、j为向量中的元素序号，上标(k)为当前图网络迭代次数，权重矩阵W_query，W_key，W_value及偏置b_query，b_key，b_value为神经网络需要学习的参数，经过训练得到特征三元组(query,key,value)；

和匹配描述矩阵

匹配描述矩阵的计算公式为：

其中，key^T为向量key的转置，d为向量query的维度。

自注意力图网络和跨越注意力网络之间循环多次以增强结果的鲁棒性，循环次数由图片复杂度决定，对于复杂图片可以适当增加循环次数，正常情况下循环次数设定为十次(自注意力网络和跨越注意力网络各循环五次)。

步骤6，经过多次步骤5中介绍的自注意力和跨越注意力方法处理后的输出为匹配描述矩阵Z_A和Z_B，每一个关键点对应矩阵中一个匹配描述符向量，将两个匹配描述矩阵Z_A和Z_B分别进行一维卷积编码(一维卷积编码的公式与步骤三中的一维卷积编码相同)，通过编码最后可以获得置信度更高的得分矩阵Z_A和Z_B。之后将两个矩阵进行内积，得到匹配得分矩阵，匹配得分矩阵中的元素表示标准图片的关键点与待检测图片的关键点之间的匹配得分。匹配得分越高，说明关键点之间的差异越小。

匹配得分矩阵的计算公式为：

Scores＝conv(Z_A)·conv(Z_B)

若标准图片中有a个关键点，待检测图片中有b个关键点，每个关键点对应的描述符向量为d维，此时Z_A维度为a×d，Z_B维度为b×d，匹配得分矩阵维度为a×b。

步骤7，设定一个阈值，阈值可以根据实际对精准率和召回率的需求进行设定，一般阈值设为0.7，若匹配得分矩阵中某匹配得分大于阈值，则判断标准图片的关键点与待检测图片的关键点成功匹配，如果成功匹配点少于五个则直接将待检测图片视为缺陷图片(即认为整个待检测图片都是缺陷)；如果成功匹配点大于等于五个，则进行步骤8处理。

步骤8，根据标准图片和待检测图片的匹配点的相对坐标(可以计算出标准图片与待检测图片之间的位移、旋转等形变参数)，对待检测图片进行平移、旋转等处理直至标准图片和待检测图片对应匹配点重合(即修正待测试图片由于拍摄时位置偏移带来的误差)，之后对待检测和标准两张图片求灰度值差，将待检测图片上对应灰度值差异较大处的区域视为缺陷，一般情况下差异值相差15个灰度以上视为差异较大。

本发明基于图网络的自注意力模型和跨越注意力模型，可以在一张无缺陷样本图片的情况下，对缺陷样本进行缺陷部分的提取，本发明能够以无监督的方式，快速对高分辨率图片进行缺陷检测，在没有人工标注的情况下对缺陷进行精准提取。

实施例2

相应的，本发明的一种基于图网络注意力机制的无监督缺陷提取装置，包括：

本发明装置的各个模块的具体实现方案参见上述实施例1中方法的具体实现过程。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。