CN115115819A

CN115115819A - 面向装配顺序监测的图像多视角语义变化检测网络及方法

Info

Publication number: CN115115819A
Application number: CN202210667801.8A
Authority: CN
Inventors: 陈成军; 王金磊; 李长治; 史宏思; 代成刚; 黄居鑫; 官源林; 李东年; 张庆海
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-27

Abstract

本发明提供了面向装配顺序监测的图像多视角语义变化检测网络，包括特征提取模块、注意力模块、步骤识别模块、度量模块；特征提取模块采用一种密集连接的特征提取模型；注意力模块采用融合上下文特征的自注意力模型，对提取的双时图像特征信息加权处理，并将信息分别输入步骤识别模块和度量模块；将加权处理后的特征信息分别输入步骤识别模块和度量模块，以分别判断当前装配步骤和图像的变化区域，根据装配步骤赋值图像上的变化区域，得到语义变化图像；本发明还提供了基于该监测网络的监测方法，包括建立数据集阶段、训练阶段和测试阶段，能够监测漏装、错装、装配步骤等，根据实验对比现有的监测方法，本发明具有检测性能优良的优点。

Description

面向装配顺序监测的图像多视角语义变化检测网络及方法

技术领域

本发明涉及计算机视觉和智能制造技术领域，特别涉及面向装配顺序监测的图像多视角语义变化检测网络及方法。

背景技术

传统制造业装配过程多以手工、离散作业为主，具有装配操作环节多、操作过程复杂等特点。随着机械产品更新换代周期加快，高度定制化生产模式导致了产品复杂性增加、开发周期缩短以及大量变体出现。这些因素不可避免地影响到机械产品生产中，从而导致产品装配过程出现漏装、错装等问题。因此，从多视角检测每个装配步骤新装配零部件的位置信息是否准确，有助于提高机械产品的生产效率和产品质量，加速机械装配自动化及智能化程度，对机械类产品装配过程智能监测具有重要研究价值。

图像变化检测技术旨在对同一区域内不同时间段图像进行数据处理与分析，从而获取图像上变化的区域，在环境监测、城市规划以及灾害监测等方面具有重要的应用价值。近年来，深度学习技术在计算机视觉任务中取得了优异的成果，基于深度学习的图像变化检测网络方法主要分为有监督变化检测网络方法和无监督变化检测网络方法两种。有监督变化检测网络主要通过训练样本进行训练，从而得到一个最优模型，然后利用这个最优模型对新的数据样本映射为相应的输出结果。无监督变化检测网络由于没有标签数据，此类方法大多直接根据数据样本间的相似性对数据进行分类，以此获得变化区域。

当前，图像变化检测技术主要针对卫星图像和航拍图像等相同视角的目标进行监测，但是很少应用于机械装配领域，并且检测结果缺乏语义信息。这主要是因为相对于卫星图像，机械装配体零件存在遮挡严重、零件颜色和纹理信息单一等特点，难以对装配过程进行变化检测，同时缺少对应的数据集。

发明内容

本发明的目的在于提供面向装配顺序监测的图像多视角语义变化检测网络及方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

面向装配顺序监测的图像多视角语义变化检测网络，包括：特征提取模块、注意力模块和度量模块，还包括：步骤识别模块；

所述特征提取模块分别提取输入检测网络的不同视角的双时图像特征信息；

所述注意力模块对提取的双时图像特征信息加权处理，加权处理后的双时图像特征信息分别输入步骤识别模块和度量模块；

所述步骤识别模块检测变化目标物体的类别，并识别变化零部件当前所处装配阶段，对装配顺序进行监测；

所述度量模块判断图像的变化区域，根据步骤识别模块得到的目标类别对变化区域赋值，从而得到语义变化图像。

优选的，所述步骤识别模块具有一种使用Transformers方法处理全局特征信息的卷积神经网络。

优选的，所述特征提取模块具有一种密集连接的特征融合机制，所述特征提取模块将浅层子解码器中节点输出连接到深层子解码器节点，所述特征融合机制工作时，将编码器中的细粒度特征依次传输到深度解码器，最后输出具有相同尺寸的多组特征图。

优选的，所述注意力模块具有一种融合上下文特征信息的自注意力机制Cot，所述自注意力Cot机制步骤为：

首先通过3×3卷积对输入值进行上下文编码，挖掘相邻键之间的静态上下文特征信息，从而产生静态上下文键key；

然后根据query和静态上下文键key之间的相互关系，在静态上下文key的指导下利用两个连续的1×1卷积来执行动态注意力矩阵学习，学习到的注意力矩阵用于聚合所有输入值，从而实现动态上下文特征信息表示；

最后将静态上下文特征信息和动态上下文特征信息融合并输出。

优选的，度量模块先将特征提取模块输出的多组特征图相加，然后利用自注意力Cot机制对四组特征图进行加权处理，同时将四组特征图拼接，再次利用自注意力Cot机制加权处理得到提取的特征，所述提取的特征用于自动选择和关注不同组之间更为有效的信息量，以生成图像变化区域。

基于面向装配顺序监测的图像多视角语义变化检测网络的检测方法，其特征在于，包括以下阶段：建立数据集阶段、训练阶段和测试阶段；

所述建立数据集阶段生成训练样本供所述面向装配顺序监测的图像多视角语义变化检测网络学习；

所述训练阶段让所述特征提取模块学习训练样本的装配体图像特征信息，并经过注意力模块、步骤识别模块和度量模块处理后，输出训练样本的语义变化图像，判断此语义变化图像是否达到训练要求，经多次训练后最终保存最优模型；

所述测试阶段由所述特征提取模块对新输入的装配体图像提取特征，并根据最优模型获得语义变化图像。

优选的，所述建立数据集阶段的步骤为：

先建立机械与真实场景中装配体尺寸一致的装配体3D模型，将该装配体模型划分为多个装配步骤的3D模型，然后依次将每个装配步骤的3D模型导入并对每个零件进行颜色标记，同时设置坐标系原点并导出为设定的格式文件，再将该文件导入并进行合成图像生成，从不同的角度采集图像，最后提取图像中对应的颜色标签，改设颜色标签中颜色值作为变化语义特征。

优选的，所述训练阶段的步骤为：

S1：分别将不同视角的前一时刻图像作为基准图像T1和后一时刻图像作为待检测图像T2输入到特征提取模块；

S2：特征提取模块分别提取上述双时图像的特征信息，该模块采用密集连接跳跃融合机制提升细粒度特征的浅层信息权重值，使网络具有丰富的特征信息；

S3：注意力模块对上述双时图像的特征信息加权处理，充分利用相邻键之间的上下文特征信息来指导动态注意力矩阵学习，从而进一步增强计算机视觉特征表示能力；

S4：将加权处理后的特征信息分别输入步骤识别模块和度量模块，步骤识别模块判断当前装配阶段，度量模块根据特征信息获取变化区域，根据当前装配阶段赋值变化区域得到语义变化图像；

S5：利用数据集中的训练样本图像不断迭代执行步骤S1至S4，直至达到设定的训练次数，保存训练过程中最优模型。与现有技术相比，本发明具有以下有益效果：

1、本发明所述的面向装配顺序监测的图像多视角语义变化检测网络，相较于其他变化检测网络，增加了步骤识别模块，不仅能够检测装配体图像的变化区域，而且能够识别变化零部件当前所处装配阶段，克服了卫星图像监测下机械装配体零件存在遮挡严重、零件颜色和纹理信息单一的难点，便于对机械装配顺序进行监测。

2、本发明所述的面向装配顺序监测的图像多视角语义变化检测网络，通过特征提取模块中采用的一种密集连接的特征融合机制，以及注意力模块采用的一种融合上下文特征的自注意力Cot机制，增强了计算机视觉特征表示能力，以实现机械产品装配过程智能监测。

3、本发明所述的面向装配顺序监测的图像多视角语义变化检测网络通过密集连接的特征融合机制，通过编码器和解码器之间的紧密跳跃连接融合特征信息，能够有效减少神经网络浅层特征信息丢失，保持高分辨率和细粒度特性表示，有效缓解检测结果边缘像素处理不佳以及小目标漏检等问题。

4、本发明所述的面向装配顺序监测的图像多视角语义变化检测网络采用的步骤识别模块能有效地将局部信息和全局信息编码在一个张量中，结合了卷积神经网络对空间感应偏差以及数据增强敏感度敏感度较低等优势和Transformers的输入向量自适应加权以及全局处理等的优势，有助于用更少的参数和简单的训练样本来学习更好的特征信息。

5、本发明所述的面向装配顺序监测的图像多视角语义变化检测方法通过训练阶段中采用密集连接的特征融合机制，提升细粒度特征的浅层信息权重值，使网络具有丰富的特征信息，以及训练阶段中采用融合上下文特征信息的自注意力Cot机制能够充分利用输入信息中相邻位置之间的上下文特征信息来指导动态注意力矩阵学习，从而进一步增强计算机视觉特征表示能力，进而提升网络架构的监测性能。

附图说明

图1是本发明提供的面向装配顺序监测的图像多视角语义变化检测网络及方法示意图。

图2是本发明提供面向装配顺序监测的图像多视角语义变化检测网络及方法的一种密集连接的特征提取模型。

图3是本发明提供的面向装配顺序监测的图像多视角语义变化检测网络及方法的一种融合上下文特征信息的自注意力模型。

图4是本发明提供的面向装配顺序监测的图像多视角语义变化检测网络及方法的一种装配步骤识别模型。

图5是本发明提供的面向装配顺序监测的图像多视角语义变化检测网路及方法的训练流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明旨在提出一种机械装配顺序监测方法，通过检测装配过程的变化，实现监测漏装、错装、装配步骤等。为此，本发明的具体实施方式提供了一种面向装配顺序监测的装配体图像多视角语义变化检测网络；提供了一种密集连接的特征提取模型；提供了一种融合上下文特征信息的自注意力模型；以及一种面向装配顺序监测的装配体图像多视角语义变化检测的训练流程图。

参考图1，本发明所示的一种面向装配顺序监测的装配体图像多视角语义变化检测网络包含四个组成部分：特征提取模块、注意力模块、步骤识别模块以及度量模块。该方法以不同视角的双时图像作为输入，双时图像是通过卫星遥感技术下在不同时间获取的同一区域的图像。特征提取模块分别提取双时图像特征信息，注意力模块对提取的双时图像特征信息加权处理，进一步增强计算机视觉特征表示能力；将加权处理后的特征信息分别输入步骤识别模块和度量模块，分别判断当前装配步骤和图像的变化区域，根据装配步骤赋值图像上的变化区域，从而得到语义变化图像。与其他变化检测网络不同，本网络增加了步骤识别模块，可以识别变化区域零件的类型。下面对各模块进一步具体介绍：

(1)特征提取模块：

特征提取模块结构如图2所示，本发明创新性地设计了一种密集连接的特征融合机制，通过编码器和解码器之间的紧密跳跃连接融合特征信息，能够有效减少神经网络浅层特征信息丢失，保持高分辨率和细粒度特性表示，有效缓解检测结果边缘像素处理不佳以及小目标漏检等问题。该模块将浅层子解码器中节点输出连接到深层子解码器节点，例如，第一次下采样后，将得到的

和

输出进行特征级联，获得融合特征X^1,0，将融合特征X^1,0与上采样得到的X^1,1、X^1,2和X^1,3分别连接，然后再次上采样进行特征融合，设x^i,j表示节点X^i,j的输出，x^i,j公式定义如下：

其中函数

表示卷积块操作，函数

表示用于下采样的2×2最大池化操作，函数

表示使用转置卷积的上采样。[]表示通道维度上的连接，旨在融合特征信息。当j＝0时，编码器下采样并提取特征；当j>0时，密集跳跃连接机制开始工作，将编码器中的细粒度特征依次传输到深度解码器，最后输出具有相同尺寸的四组特征图。该模块可以保持细粒度特性表示，有效缓解检测结果边缘像素处理不佳以及小目标检测漏检等问题。

(2)注意力模块：

注意力模块如图3所示，本发明设计了一种融合上下文特征信息的自注意力Cot(Contextual Transformer)机制，Transformer是深度学习自注意力神经网络，自注意力Cot机制将Transformer中自注意力机制和卷积操作相结合，以捕捉图像中静态和动态的上下文信息。

自注意力机制包括源于推荐系统的三种关键的因素：query、key和value，query、key是计算权重的特征向量，value是表示输入特征的向量，其基本原理为：给定一个query，计算query与key的相关性，然后根据query与key的相关性去找到最合适的value。

Cot机制将上下文的挖掘与自注意力的学习集成到统一的框架中。充分探索邻近的上下文信息以一种高效的方式提升自注意力的学习，进而提升输出特征的表达能力。在这个结构中，key的编码采用了卷积操作进行编码，这样就可以得到邻近间的上下文信息，之后通过两个连续的卷积得到全局的上下文信息，最后通过邻近间上下文信息与全局上下文信息的融合得到输出结果。

与传统自注意力机制仅利用孤立的query-key计算注意力矩阵，未能充分利用键之间的丰富上下文特征信息相比，该模块能够充分利用输入信息中相邻位置之间的上下文特征信息来指导动态注意力矩阵学习，从而进一步增强计算机视觉特征表示能力，进而提升网络架构的监测性能。自注意力Cot机制首先通过3×3卷积对输入值进行上下文编码，挖掘相邻键之间的静态上下文特征信息，从而产生静态上下文键key；然后根据query和静态上下文键key之间的相互关系，在静态上下文key的指导下利用两个连续的1×1卷积来执行动态注意力矩阵学习；学习到的注意力矩阵用于聚合所有输入值，从而实现动态上下文特征信息表示；最后将静态上下文特征信息和动态上下文特征信息融合并输出。

假设输入信息为特征图X∈R^H×W×C，其中H为高度，W为宽度，C为通道数，自注意力Cot机制首先在空间上对特征图相邻键使用k×k组卷积，对每个键上下文关联加权处理，获得上下文键K¹∈R^H×W×C,K¹反映了相邻键之间的静态上下文特征信息，将K¹作为输入特征图X的静态上下文特征信息。然后，以上下文键K¹和查询Q串联为条件，利用两个连续的1×1卷积来执行注意力矩阵学习，注意力矩阵定义如下：

A＝[K¹,Q]W_θW_δ (2)

其中,W_θ表示有Relu激活函数的卷积操作，而W_δ表示没有激活函数的卷积操作，最后根据注意力矩阵A，通过聚合所有values值计算注意力特征图K²：

鉴于注意力特征图K²捕捉输入信息之间的动态交互特征信息，将K²定义为动态上下文特征信息，最后将静态上下文特征信息K¹和动态上下文特征信息K²融合输出。

Cot＝K¹+K² (4)

自注意力Cot机制能够同时捕获输入键之间的上述两种空间上下文特征信息，即通过3×3卷积得到的静态上下文特征信息和基于上下文自注意力得到的动态上下文特征信息，从而增强视觉表示能力。

(3)步骤识别模块：

步骤识别模块如图4所示，本发明创新性地在机械类装配过程二分类变化检测的基础上设计了步骤识别模块，该模块能够检测变化目标物体的类别，进而识别变化零部件当前所处装配阶段，实现装配顺序监测。该模块具有一种轻量级Mobile Vit网络，MobileVit使用Transformers方法处理全局特征信息，即将Transformers作为卷积提取图像特征信息。步骤识别模块有效地将局部信息和全局信息编码在一个张量中，结合了卷积神经网络(例如对空间感应偏差以及数据增强有较低敏感度)和Transformers(例如输入自适应加权以及全局处理)的优势，有助于用更少的参数和简单的训练样本来学习更好的特征信息。图4中(卷积n×n)表示标准n×n卷积，MV 2指MobileNetv2网络，↓2表示执行下采样处理。

(4)度量模块：度量模块能够有效地通过提取的特征自动选择和关注不同组之间更为有效的信息量，以生成图像变化区域。该模块首先将特征提取模块输出的四组特征图相加，然后利用自注意力Cot机制对四组特征图加权处理，同时将四组特征图拼接，再次利用自注意力Cot机制加权处理，具体过程如下：

M₁＝Cot(x^0,1+x^0,2+x^0,3+x^0,4) (5)

F_ensemble＝[x^0,1,x^0,2,x^0,3,x^0,4] (6)

M₂＝Cot(F_ensemble) (7)

其中[]表示特征图拼接，函数repeat_(n)()表示特征图重复n次在通道维度上连接操作，

表示元素乘积，最后通过一个1×1卷积获得变化区域

其中h()表示一个1×1卷积层，生成a×H×W的变化区域

(“a”这里设定为2，代表变化与不变化)。

此外，图像变化检测中不变的样本数据往往多于变化的样本数据。为了削弱变化样本数据信息不平衡的影响，本发明采用混合损失函数

(加权交叉熵损失

和

损失的组合)以优化网络学习过程，具体定义如下：

为了描述加权交叉熵损失

将变化区域

视为一组点，表示为：

其中

代表

中的一个值，H和W代表

的高度和宽度。加权交叉熵损失

定义为：

其中a值为1或0，代表变化与不变化，同时变化区域

参与计算

损失：

其中B代表真实变化标签，最后根据步骤识别模块得到的目标类别对变化区域赋值，获得最终的语义变化图像。

使用上述各模块对机械装配体进行多视角语义变化检测具体过程包括：建立数据集阶段、训练阶段和测试阶段。建立数据集阶段生成一定数量的训练样本让网络学习；训练阶段让所述特征提取模块学习训练样本的装配体图像特征信息，并经过注意力模块、步骤识别模块和度量模块处理后，输出训练样本的语义变化图像，判断此语义变化图像是否达到训练要求，经多次训练后最终保存最优模型；测试阶段直接对新输入的装配体图像提取特征，根据训练阶段保存的最优模型获得装配过程语义变化图像。三个阶段的具体流程如下：

建立数据集阶段：

建立机械装配体多视角语义变化检测数据集，首先根据真实场景中装配体尺寸通过SolidWorks建立机械装配体3D模型，将装配体模型按照一定装配步骤进行划分，然后依次将每个装配步骤的3D模型导入3D Max软件对每个零件进行颜色标记，同时设置坐标系原点并导出为ive格式文件，再将该文件导入并进行合成图像生成，从不同的角度采集图像，最后提取图像中对应的颜色标签，改设颜色标签中颜色值作为变化语义标签特征。本发明数据集包含不同视角下各装配节点图像以及对应的语义变化标签图像。

训练阶段：

参考图4，本发明的一种面向装配顺序监测的装配体图像多视角语义变化检测方法具体训练过程如下：

S1：分别将不同视角的前一时刻图像T₁(基准图像)和后一时刻图像T₂(待检测图像)输入到特征提取模块。

S2：特征提取模块分别提取上述双时图像的特征信息，该模块采用密集连接跳跃融合机制提升细粒度特征的浅层信息权重值，使网络具有丰富的特征信息。

S3：注意力模块对上述双时图像的特征信息加权处理，充分利用相邻键之间的上下文特征信息来指导动态注意力矩阵学习，从而进一步增强计算机视觉特征表示能力。

S4：将加权处理后的特征信息分别输入步骤识别模块和度量模块，步骤识别模块判断当前装配阶段，度量模块根据特征信息获取变化区域，根据当前装配阶段赋值变化区域得到语义变化图像。

S5：利用数据集中的训练样本图像不断迭代执行步骤S1至S4，直至达到设定的训练次数，保存训练过程中最优模型。

测试阶段：

测试中，输入两张不同视角装配过程中的新双时图像，利用训练阶段保存的最优模型直接输出装配过程中语义变化图像。

为了验证本发明提出的一种面向装配顺序监测的装配体图像多视角语义变化检测方法有效性，将现有的变化检测方法Das Net(Chen J,Yuan Z,Peng J,et al.DASNet:Dual attentive fully convolutional siamese networks for change detection inhigh-resolution satellite images[J].IEEE Journal of Selected Topics inApplied Earth Observations and Remote Sensing,2020,14:1194-1206)、Change Star(Zheng Z,Ma A,Zhang L,et al.Change is Everywhere:Single-Temporal SupervisedObject Change Detection in Remote Sensing Imagery[C]//Proceedings of theIEEE/CVF International Conference on Computer Vision.2021:15193-15202.)、SscdNet(Sakurada K,Shibuya M,Wang W.Weakly supervised silhouette-based semanticscene change detection[C]//2020IEEE International conference on robotics andautomation(ICRA).IEEE,2020:6861-6867.)和Siam Unet(Fang S,Li K,Shao J,etal.SNUNet-CD:Adensely connected siamese network for change detection of VHRimages[J].IEEE Geoscience and Remote Sensing Letters,2021,19:1-5.)与本发明网络进行对比。数据集使用上述步骤S1建立的语义变化检测数据集，评价指标采用准确率(Pr)、召回率(Re)以及均值(F1)。测试结果如表1所示：

表1

从表1中可以看出本发明提出的方法F1指标达到了96.27％，检测性能优于对比变化检测方法。

本发明优势：

(1)为实现机械产品装配过程智能监测，本发明提出一种面向装配顺序监测的装配体图像多视角语义变化检测方法，设计了一种密集连接的特征融合机制以及一种融合上下文特征的注意力机制，增强了计算机视觉特征表示能力。

(2)本发明在变化检测网络的基础上增加步骤识别模块，不仅能够检测装配体图像的变化区域，而且能够识别变化零部件当前所处装配阶段，可适用于机械装配顺序监测。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.面向装配顺序监测的图像多视角语义变化检测网络，包括：特征提取模块、注意力模块和度量模块，其特征在于，还包括：步骤识别模块；

2.根据权利要求1所述的面向装配顺序监测的图像多视角语义变化检测网络，其特征在于，所述步骤识别模块具有一种使用Transformers方法处理全局特征信息的卷积神经网络。

3.根据权利要求1所述的面向装配顺序监测的图像多视角语义变化检测网络，其特征在于，所述特征提取模块具有一种密集连接的特征融合机制，所述特征提取模块将浅层子解码器中节点输出连接到深层子解码器节点，所述特征融合机制工作时，将编码器中的细粒度特征依次传输到深度解码器，最后输出具有相同尺寸的多组特征图。

4.根据权利要求1所述的面向装配顺序监测的图像多视角语义变化检测网络，其特征在于，所述注意力模块具有一种融合上下文特征信息的自注意力机制Cot，所述自注意力Cot机制步骤为：

5.根据权利要求4所述的面向装配顺序监测的图像多视角语义变化检测网络，其特征在于，度量模块先将特征提取模块输出的多组特征图相加，然后利用自注意力Cot机制对四组特征图进行加权处理，同时将四组特征图拼接，再次利用自注意力Cot机制加权处理得到提取的特征，所述提取的特征用于自动选择和关注不同组之间更为有效的信息量，以生成图像变化区域。

6.基于权利要求1～5任一所述的面向装配顺序监测的图像多视角语义变化检测网络的检测方法，其特征在于，包括以下阶段：建立数据集阶段、训练阶段和测试阶段；

7.根据权利要求6所述的面向装配顺序监测的图像多视角语义变化检测方法，其特征在于，所述建立数据集阶段的步骤为：

8.根据权利要求6所述的面向装配顺序监测的图像多视角语义变化检测方法，其特征在于，所述训练阶段的步骤为：