CN115115819A - 面向装配顺序监测的图像多视角语义变化检测网络及方法 - Google Patents

面向装配顺序监测的图像多视角语义变化检测网络及方法 Download PDF

Info

Publication number
CN115115819A
CN115115819A CN202210667801.8A CN202210667801A CN115115819A CN 115115819 A CN115115819 A CN 115115819A CN 202210667801 A CN202210667801 A CN 202210667801A CN 115115819 A CN115115819 A CN 115115819A
Authority
CN
China
Prior art keywords
image
module
assembly
attention
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210667801.8A
Other languages
English (en)
Inventor
陈成军
王金磊
李长治
史宏思
代成刚
黄居鑫
官源林
李东年
张庆海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Technology
Original Assignee
Qingdao University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Technology filed Critical Qingdao University of Technology
Priority to CN202210667801.8A priority Critical patent/CN115115819A/zh
Publication of CN115115819A publication Critical patent/CN115115819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了面向装配顺序监测的图像多视角语义变化检测网络,包括特征提取模块、注意力模块、步骤识别模块、度量模块;特征提取模块采用一种密集连接的特征提取模型;注意力模块采用融合上下文特征的自注意力模型,对提取的双时图像特征信息加权处理,并将信息分别输入步骤识别模块和度量模块;将加权处理后的特征信息分别输入步骤识别模块和度量模块,以分别判断当前装配步骤和图像的变化区域,根据装配步骤赋值图像上的变化区域,得到语义变化图像;本发明还提供了基于该监测网络的监测方法,包括建立数据集阶段、训练阶段和测试阶段,能够监测漏装、错装、装配步骤等,根据实验对比现有的监测方法,本发明具有检测性能优良的优点。

Description

面向装配顺序监测的图像多视角语义变化检测网络及方法
技术领域
本发明涉及计算机视觉和智能制造技术领域,特别涉及面向装配顺序监测的图像多视角语义变化检测网络及方法。
背景技术
传统制造业装配过程多以手工、离散作业为主,具有装配操作环节多、操作过程复杂等特点。随着机械产品更新换代周期加快,高度定制化生产模式导致了产品复杂性增加、开发周期缩短以及大量变体出现。这些因素不可避免地影响到机械产品生产中,从而导致产品装配过程出现漏装、错装等问题。因此,从多视角检测每个装配步骤新装配零部件的位置信息是否准确,有助于提高机械产品的生产效率和产品质量,加速机械装配自动化及智能化程度,对机械类产品装配过程智能监测具有重要研究价值。
图像变化检测技术旨在对同一区域内不同时间段图像进行数据处理与分析,从而获取图像上变化的区域,在环境监测、城市规划以及灾害监测等方面具有重要的应用价值。近年来,深度学习技术在计算机视觉任务中取得了优异的成果,基于深度学习的图像变化检测网络方法主要分为有监督变化检测网络方法和无监督变化检测网络方法两种。有监督变化检测网络主要通过训练样本进行训练,从而得到一个最优模型,然后利用这个最优模型对新的数据样本映射为相应的输出结果。无监督变化检测网络由于没有标签数据,此类方法大多直接根据数据样本间的相似性对数据进行分类,以此获得变化区域。
当前,图像变化检测技术主要针对卫星图像和航拍图像等相同视角的目标进行监测,但是很少应用于机械装配领域,并且检测结果缺乏语义信息。这主要是因为相对于卫星图像,机械装配体零件存在遮挡严重、零件颜色和纹理信息单一等特点,难以对装配过程进行变化检测,同时缺少对应的数据集。
发明内容
本发明的目的在于提供面向装配顺序监测的图像多视角语义变化检测网络及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
面向装配顺序监测的图像多视角语义变化检测网络,包括:特征提取模块、注意力模块和度量模块,还包括:步骤识别模块;
所述特征提取模块分别提取输入检测网络的不同视角的双时图像特征信息;
所述注意力模块对提取的双时图像特征信息加权处理,加权处理后的双时图像特征信息分别输入步骤识别模块和度量模块;
所述步骤识别模块检测变化目标物体的类别,并识别变化零部件当前所处装配阶段,对装配顺序进行监测;
所述度量模块判断图像的变化区域,根据步骤识别模块得到的目标类别对变化区域赋值,从而得到语义变化图像。
优选的,所述步骤识别模块具有一种使用Transformers方法处理全局特征信息的卷积神经网络。
优选的,所述特征提取模块具有一种密集连接的特征融合机制,所述特征提取模块将浅层子解码器中节点输出连接到深层子解码器节点,所述特征融合机制工作时,将编码器中的细粒度特征依次传输到深度解码器,最后输出具有相同尺寸的多组特征图。
优选的,所述注意力模块具有一种融合上下文特征信息的自注意力机制Cot,所述自注意力Cot机制步骤为:
首先通过3×3卷积对输入值进行上下文编码,挖掘相邻键之间的静态上下文特征信息,从而产生静态上下文键key;
然后根据query和静态上下文键key之间的相互关系,在静态上下文key的指导下利用两个连续的1×1卷积来执行动态注意力矩阵学习,学习到的注意力矩阵用于聚合所有输入值,从而实现动态上下文特征信息表示;
最后将静态上下文特征信息和动态上下文特征信息融合并输出。
优选的,度量模块先将特征提取模块输出的多组特征图相加,然后利用自注意力Cot机制对四组特征图进行加权处理,同时将四组特征图拼接,再次利用自注意力Cot机制加权处理得到提取的特征,所述提取的特征用于自动选择和关注不同组之间更为有效的信息量,以生成图像变化区域。
基于面向装配顺序监测的图像多视角语义变化检测网络的检测方法,其特征在于,包括以下阶段:建立数据集阶段、训练阶段和测试阶段;
所述建立数据集阶段生成训练样本供所述面向装配顺序监测的图像多视角语义变化检测网络学习;
所述训练阶段让所述特征提取模块学习训练样本的装配体图像特征信息,并经过注意力模块、步骤识别模块和度量模块处理后,输出训练样本的语义变化图像,判断此语义变化图像是否达到训练要求,经多次训练后最终保存最优模型;
所述测试阶段由所述特征提取模块对新输入的装配体图像提取特征,并根据最优模型获得语义变化图像。
优选的,所述建立数据集阶段的步骤为:
先建立机械与真实场景中装配体尺寸一致的装配体3D模型,将该装配体模型划分为多个装配步骤的3D模型,然后依次将每个装配步骤的3D模型导入并对每个零件进行颜色标记,同时设置坐标系原点并导出为设定的格式文件,再将该文件导入并进行合成图像生成,从不同的角度采集图像,最后提取图像中对应的颜色标签,改设颜色标签中颜色值作为变化语义特征。
优选的,所述训练阶段的步骤为:
S1:分别将不同视角的前一时刻图像作为基准图像T1和后一时刻图像作为待检测图像T2输入到特征提取模块;
S2:特征提取模块分别提取上述双时图像的特征信息,该模块采用密集连接跳跃融合机制提升细粒度特征的浅层信息权重值,使网络具有丰富的特征信息;
S3:注意力模块对上述双时图像的特征信息加权处理,充分利用相邻键之间的上下文特征信息来指导动态注意力矩阵学习,从而进一步增强计算机视觉特征表示能力;
S4:将加权处理后的特征信息分别输入步骤识别模块和度量模块,步骤识别模块判断当前装配阶段,度量模块根据特征信息获取变化区域,根据当前装配阶段赋值变化区域得到语义变化图像;
S5:利用数据集中的训练样本图像不断迭代执行步骤S1至S4,直至达到设定的训练次数,保存训练过程中最优模型。与现有技术相比,本发明具有以下有益效果:
1、本发明所述的面向装配顺序监测的图像多视角语义变化检测网络,相较于其他变化检测网络,增加了步骤识别模块,不仅能够检测装配体图像的变化区域,而且能够识别变化零部件当前所处装配阶段,克服了卫星图像监测下机械装配体零件存在遮挡严重、零件颜色和纹理信息单一的难点,便于对机械装配顺序进行监测。
2、本发明所述的面向装配顺序监测的图像多视角语义变化检测网络,通过特征提取模块中采用的一种密集连接的特征融合机制,以及注意力模块采用的一种融合上下文特征的自注意力Cot机制,增强了计算机视觉特征表示能力,以实现机械产品装配过程智能监测。
3、本发明所述的面向装配顺序监测的图像多视角语义变化检测网络通过密集连接的特征融合机制,通过编码器和解码器之间的紧密跳跃连接融合特征信息,能够有效减少神经网络浅层特征信息丢失,保持高分辨率和细粒度特性表示,有效缓解检测结果边缘像素处理不佳以及小目标漏检等问题。
4、本发明所述的面向装配顺序监测的图像多视角语义变化检测网络采用的步骤识别模块能有效地将局部信息和全局信息编码在一个张量中,结合了卷积神经网络对空间感应偏差以及数据增强敏感度敏感度较低等优势和Transformers的输入向量自适应加权以及全局处理等的优势,有助于用更少的参数和简单的训练样本来学习更好的特征信息。
5、本发明所述的面向装配顺序监测的图像多视角语义变化检测方法通过训练阶段中采用密集连接的特征融合机制,提升细粒度特征的浅层信息权重值,使网络具有丰富的特征信息,以及训练阶段中采用融合上下文特征信息的自注意力Cot机制能够充分利用输入信息中相邻位置之间的上下文特征信息来指导动态注意力矩阵学习,从而进一步增强计算机视觉特征表示能力,进而提升网络架构的监测性能。
附图说明
图1是本发明提供的面向装配顺序监测的图像多视角语义变化检测网络及方法示意图。
图2是本发明提供面向装配顺序监测的图像多视角语义变化检测网络及方法的一种密集连接的特征提取模型。
图3是本发明提供的面向装配顺序监测的图像多视角语义变化检测网络及方法的一种融合上下文特征信息的自注意力模型。
图4是本发明提供的面向装配顺序监测的图像多视角语义变化检测网络及方法的一种装配步骤识别模型。
图5是本发明提供的面向装配顺序监测的图像多视角语义变化检测网路及方法的训练流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明旨在提出一种机械装配顺序监测方法,通过检测装配过程的变化,实现监测漏装、错装、装配步骤等。为此,本发明的具体实施方式提供了一种面向装配顺序监测的装配体图像多视角语义变化检测网络;提供了一种密集连接的特征提取模型;提供了一种融合上下文特征信息的自注意力模型;以及一种面向装配顺序监测的装配体图像多视角语义变化检测的训练流程图。
参考图1,本发明所示的一种面向装配顺序监测的装配体图像多视角语义变化检测网络包含四个组成部分:特征提取模块、注意力模块、步骤识别模块以及度量模块。该方法以不同视角的双时图像作为输入,双时图像是通过卫星遥感技术下在不同时间获取的同一区域的图像。特征提取模块分别提取双时图像特征信息,注意力模块对提取的双时图像特征信息加权处理,进一步增强计算机视觉特征表示能力;将加权处理后的特征信息分别输入步骤识别模块和度量模块,分别判断当前装配步骤和图像的变化区域,根据装配步骤赋值图像上的变化区域,从而得到语义变化图像。与其他变化检测网络不同,本网络增加了步骤识别模块,可以识别变化区域零件的类型。下面对各模块进一步具体介绍:
(1)特征提取模块:
特征提取模块结构如图2所示,本发明创新性地设计了一种密集连接的特征融合机制,通过编码器和解码器之间的紧密跳跃连接融合特征信息,能够有效减少神经网络浅层特征信息丢失,保持高分辨率和细粒度特性表示,有效缓解检测结果边缘像素处理不佳以及小目标漏检等问题。该模块将浅层子解码器中节点输出连接到深层子解码器节点,例如,第一次下采样后,将得到的
Figure BDA0003693536450000061
Figure BDA0003693536450000062
输出进行特征级联,获得融合特征X1,0,将融合特征X1,0与上采样得到的X1,1、X1,2和X1,3分别连接,然后再次上采样进行特征融合,设xi,j表示节点Xi,j的输出,xi,j公式定义如下:
Figure BDA0003693536450000063
其中函数
Figure BDA0003693536450000064
表示卷积块操作,函数
Figure BDA0003693536450000065
表示用于下采样的2×2最大池化操作,函数
Figure BDA0003693536450000066
表示使用转置卷积的上采样。[]表示通道维度上的连接,旨在融合特征信息。当j=0时,编码器下采样并提取特征;当j>0时,密集跳跃连接机制开始工作,将编码器中的细粒度特征依次传输到深度解码器,最后输出具有相同尺寸的四组特征图。该模块可以保持细粒度特性表示,有效缓解检测结果边缘像素处理不佳以及小目标检测漏检等问题。
(2)注意力模块:
注意力模块如图3所示,本发明设计了一种融合上下文特征信息的自注意力Cot(Contextual Transformer)机制,Transformer是深度学习自注意力神经网络,自注意力Cot机制将Transformer中自注意力机制和卷积操作相结合,以捕捉图像中静态和动态的上下文信息。
自注意力机制包括源于推荐系统的三种关键的因素:query、key和value,query、key是计算权重的特征向量,value是表示输入特征的向量,其基本原理为:给定一个query,计算query与key的相关性,然后根据query与key的相关性去找到最合适的value。
Cot机制将上下文的挖掘与自注意力的学习集成到统一的框架中。充分探索邻近的上下文信息以一种高效的方式提升自注意力的学习,进而提升输出特征的表达能力。在这个结构中,key的编码采用了卷积操作进行编码,这样就可以得到邻近间的上下文信息,之后通过两个连续的卷积得到全局的上下文信息,最后通过邻近间上下文信息与全局上下文信息的融合得到输出结果。
与传统自注意力机制仅利用孤立的query-key计算注意力矩阵,未能充分利用键之间的丰富上下文特征信息相比,该模块能够充分利用输入信息中相邻位置之间的上下文特征信息来指导动态注意力矩阵学习,从而进一步增强计算机视觉特征表示能力,进而提升网络架构的监测性能。自注意力Cot机制首先通过3×3卷积对输入值进行上下文编码,挖掘相邻键之间的静态上下文特征信息,从而产生静态上下文键key;然后根据query和静态上下文键key之间的相互关系,在静态上下文key的指导下利用两个连续的1×1卷积来执行动态注意力矩阵学习;学习到的注意力矩阵用于聚合所有输入值,从而实现动态上下文特征信息表示;最后将静态上下文特征信息和动态上下文特征信息融合并输出。
假设输入信息为特征图X∈RH×W×C,其中H为高度,W为宽度,C为通道数,自注意力Cot机制首先在空间上对特征图相邻键使用k×k组卷积,对每个键上下文关联加权处理,获得上下文键K1∈RH×W×C,K1反映了相邻键之间的静态上下文特征信息,将K1作为输入特征图X的静态上下文特征信息。然后,以上下文键K1和查询Q串联为条件,利用两个连续的1×1卷积来执行注意力矩阵学习,注意力矩阵定义如下:
A=[K1,Q]WθWδ (2)
其中,Wθ表示有Relu激活函数的卷积操作,而Wδ表示没有激活函数的卷积操作,最后根据注意力矩阵A,通过聚合所有values值计算注意力特征图K2
Figure BDA0003693536450000071
鉴于注意力特征图K2捕捉输入信息之间的动态交互特征信息,将K2定义为动态上下文特征信息,最后将静态上下文特征信息K1和动态上下文特征信息K2融合输出。
Cot=K1+K2 (4)
自注意力Cot机制能够同时捕获输入键之间的上述两种空间上下文特征信息,即通过3×3卷积得到的静态上下文特征信息和基于上下文自注意力得到的动态上下文特征信息,从而增强视觉表示能力。
(3)步骤识别模块:
步骤识别模块如图4所示,本发明创新性地在机械类装配过程二分类变化检测的基础上设计了步骤识别模块,该模块能够检测变化目标物体的类别,进而识别变化零部件当前所处装配阶段,实现装配顺序监测。该模块具有一种轻量级Mobile Vit网络,MobileVit使用Transformers方法处理全局特征信息,即将Transformers作为卷积提取图像特征信息。步骤识别模块有效地将局部信息和全局信息编码在一个张量中,结合了卷积神经网络(例如对空间感应偏差以及数据增强有较低敏感度)和Transformers(例如输入自适应加权以及全局处理)的优势,有助于用更少的参数和简单的训练样本来学习更好的特征信息。图4中(卷积n×n)表示标准n×n卷积,MV 2指MobileNetv2网络,↓2表示执行下采样处理。
(4)度量模块:度量模块能够有效地通过提取的特征自动选择和关注不同组之间更为有效的信息量,以生成图像变化区域。该模块首先将特征提取模块输出的四组特征图相加,然后利用自注意力Cot机制对四组特征图加权处理,同时将四组特征图拼接,再次利用自注意力Cot机制加权处理,具体过程如下:
M1=Cot(x0,1+x0,2+x0,3+x0,4) (5)
Fensemble=[x0,1,x0,2,x0,3,x0,4] (6)
M2=Cot(Fensemble) (7)
Figure BDA0003693536450000081
其中[]表示特征图拼接,函数repeat(n)()表示特征图重复n次在通道维度上连接操作,
Figure BDA0003693536450000082
表示元素乘积,最后通过一个1×1卷积获得变化区域
Figure BDA0003693536450000087
Figure BDA0003693536450000083
其中h()表示一个1×1卷积层,生成a×H×W的变化区域
Figure BDA0003693536450000084
(“a”这里设定为2,代表变化与不变化)。
此外,图像变化检测中不变的样本数据往往多于变化的样本数据。为了削弱变化样本数据信息不平衡的影响,本发明采用混合损失函数
Figure BDA0003693536450000088
(加权交叉熵损失
Figure BDA0003693536450000089
Figure BDA00036935364500000810
损失的组合)以优化网络学习过程,具体定义如下:
Figure BDA0003693536450000085
为了描述加权交叉熵损失
Figure BDA00036935364500000811
将变化区域
Figure BDA00036935364500000812
视为一组点,表示为:
Figure BDA0003693536450000086
其中
Figure BDA00036935364500000813
代表
Figure BDA00036935364500000814
中的一个值,H和W代表
Figure BDA00036935364500000815
的高度和宽度。加权交叉熵损失
Figure BDA00036935364500000816
定义为:
Figure BDA0003693536450000091
其中a值为1或0,代表变化与不变化,同时变化区域
Figure BDA0003693536450000094
参与计算
Figure BDA0003693536450000093
损失:
Figure BDA0003693536450000092
其中B代表真实变化标签,最后根据步骤识别模块得到的目标类别对变化区域赋值,获得最终的语义变化图像。
使用上述各模块对机械装配体进行多视角语义变化检测具体过程包括:建立数据集阶段、训练阶段和测试阶段。建立数据集阶段生成一定数量的训练样本让网络学习;训练阶段让所述特征提取模块学习训练样本的装配体图像特征信息,并经过注意力模块、步骤识别模块和度量模块处理后,输出训练样本的语义变化图像,判断此语义变化图像是否达到训练要求,经多次训练后最终保存最优模型;测试阶段直接对新输入的装配体图像提取特征,根据训练阶段保存的最优模型获得装配过程语义变化图像。三个阶段的具体流程如下:
建立数据集阶段:
建立机械装配体多视角语义变化检测数据集,首先根据真实场景中装配体尺寸通过SolidWorks建立机械装配体3D模型,将装配体模型按照一定装配步骤进行划分,然后依次将每个装配步骤的3D模型导入3D Max软件对每个零件进行颜色标记,同时设置坐标系原点并导出为ive格式文件,再将该文件导入并进行合成图像生成,从不同的角度采集图像,最后提取图像中对应的颜色标签,改设颜色标签中颜色值作为变化语义标签特征。本发明数据集包含不同视角下各装配节点图像以及对应的语义变化标签图像。
训练阶段:
参考图4,本发明的一种面向装配顺序监测的装配体图像多视角语义变化检测方法具体训练过程如下:
S1:分别将不同视角的前一时刻图像T1(基准图像)和后一时刻图像T2(待检测图像)输入到特征提取模块。
S2:特征提取模块分别提取上述双时图像的特征信息,该模块采用密集连接跳跃融合机制提升细粒度特征的浅层信息权重值,使网络具有丰富的特征信息。
S3:注意力模块对上述双时图像的特征信息加权处理,充分利用相邻键之间的上下文特征信息来指导动态注意力矩阵学习,从而进一步增强计算机视觉特征表示能力。
S4:将加权处理后的特征信息分别输入步骤识别模块和度量模块,步骤识别模块判断当前装配阶段,度量模块根据特征信息获取变化区域,根据当前装配阶段赋值变化区域得到语义变化图像。
S5:利用数据集中的训练样本图像不断迭代执行步骤S1至S4,直至达到设定的训练次数,保存训练过程中最优模型。
测试阶段:
测试中,输入两张不同视角装配过程中的新双时图像,利用训练阶段保存的最优模型直接输出装配过程中语义变化图像。
为了验证本发明提出的一种面向装配顺序监测的装配体图像多视角语义变化检测方法有效性,将现有的变化检测方法Das Net(Chen J,Yuan Z,Peng J,et al.DASNet:Dual attentive fully convolutional siamese networks for change detection inhigh-resolution satellite images[J].IEEE Journal of Selected Topics inApplied Earth Observations and Remote Sensing,2020,14:1194-1206)、Change Star(Zheng Z,Ma A,Zhang L,et al.Change is Everywhere:Single-Temporal SupervisedObject Change Detection in Remote Sensing Imagery[C]//Proceedings of theIEEE/CVF International Conference on Computer Vision.2021:15193-15202.)、SscdNet(Sakurada K,Shibuya M,Wang W.Weakly supervised silhouette-based semanticscene change detection[C]//2020IEEE International conference on robotics andautomation(ICRA).IEEE,2020:6861-6867.)和Siam Unet(Fang S,Li K,Shao J,etal.SNUNet-CD:Adensely connected siamese network for change detection of VHRimages[J].IEEE Geoscience and Remote Sensing Letters,2021,19:1-5.)与本发明网络进行对比。数据集使用上述步骤S1建立的语义变化检测数据集,评价指标采用准确率(Pr)、召回率(Re)以及均值(F1)。测试结果如表1所示:
表1
Figure BDA0003693536450000101
Figure BDA0003693536450000111
从表1中可以看出本发明提出的方法F1指标达到了96.27%,检测性能优于对比变化检测方法。
本发明优势:
(1)为实现机械产品装配过程智能监测,本发明提出一种面向装配顺序监测的装配体图像多视角语义变化检测方法,设计了一种密集连接的特征融合机制以及一种融合上下文特征的注意力机制,增强了计算机视觉特征表示能力。
(2)本发明在变化检测网络的基础上增加步骤识别模块,不仅能够检测装配体图像的变化区域,而且能够识别变化零部件当前所处装配阶段,可适用于机械装配顺序监测。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.面向装配顺序监测的图像多视角语义变化检测网络,包括:特征提取模块、注意力模块和度量模块,其特征在于,还包括:步骤识别模块;
所述特征提取模块分别提取输入检测网络的不同视角的双时图像特征信息;
所述注意力模块对提取的双时图像特征信息加权处理,加权处理后的双时图像特征信息分别输入步骤识别模块和度量模块;
所述步骤识别模块检测变化目标物体的类别,并识别变化零部件当前所处装配阶段,对装配顺序进行监测;
所述度量模块判断图像的变化区域,根据步骤识别模块得到的目标类别对变化区域赋值,从而得到语义变化图像。
2.根据权利要求1所述的面向装配顺序监测的图像多视角语义变化检测网络,其特征在于,所述步骤识别模块具有一种使用Transformers方法处理全局特征信息的卷积神经网络。
3.根据权利要求1所述的面向装配顺序监测的图像多视角语义变化检测网络,其特征在于,所述特征提取模块具有一种密集连接的特征融合机制,所述特征提取模块将浅层子解码器中节点输出连接到深层子解码器节点,所述特征融合机制工作时,将编码器中的细粒度特征依次传输到深度解码器,最后输出具有相同尺寸的多组特征图。
4.根据权利要求1所述的面向装配顺序监测的图像多视角语义变化检测网络,其特征在于,所述注意力模块具有一种融合上下文特征信息的自注意力机制Cot,所述自注意力Cot机制步骤为:
首先通过3×3卷积对输入值进行上下文编码,挖掘相邻键之间的静态上下文特征信息,从而产生静态上下文键key;
然后根据query和静态上下文键key之间的相互关系,在静态上下文key的指导下利用两个连续的1×1卷积来执行动态注意力矩阵学习,学习到的注意力矩阵用于聚合所有输入值,从而实现动态上下文特征信息表示;
最后将静态上下文特征信息和动态上下文特征信息融合并输出。
5.根据权利要求4所述的面向装配顺序监测的图像多视角语义变化检测网络,其特征在于,度量模块先将特征提取模块输出的多组特征图相加,然后利用自注意力Cot机制对四组特征图进行加权处理,同时将四组特征图拼接,再次利用自注意力Cot机制加权处理得到提取的特征,所述提取的特征用于自动选择和关注不同组之间更为有效的信息量,以生成图像变化区域。
6.基于权利要求1~5任一所述的面向装配顺序监测的图像多视角语义变化检测网络的检测方法,其特征在于,包括以下阶段:建立数据集阶段、训练阶段和测试阶段;
所述建立数据集阶段生成训练样本供所述面向装配顺序监测的图像多视角语义变化检测网络学习;
所述训练阶段让所述特征提取模块学习训练样本的装配体图像特征信息,并经过注意力模块、步骤识别模块和度量模块处理后,输出训练样本的语义变化图像,判断此语义变化图像是否达到训练要求,经多次训练后最终保存最优模型;
所述测试阶段由所述特征提取模块对新输入的装配体图像提取特征,并根据最优模型获得语义变化图像。
7.根据权利要求6所述的面向装配顺序监测的图像多视角语义变化检测方法,其特征在于,所述建立数据集阶段的步骤为:
先建立机械与真实场景中装配体尺寸一致的装配体3D模型,将该装配体模型划分为多个装配步骤的3D模型,然后依次将每个装配步骤的3D模型导入并对每个零件进行颜色标记,同时设置坐标系原点并导出为设定的格式文件,再将该文件导入并进行合成图像生成,从不同的角度采集图像,最后提取图像中对应的颜色标签,改设颜色标签中颜色值作为变化语义特征。
8.根据权利要求6所述的面向装配顺序监测的图像多视角语义变化检测方法,其特征在于,所述训练阶段的步骤为:
S1:分别将不同视角的前一时刻图像作为基准图像T1和后一时刻图像作为待检测图像T2输入到特征提取模块;
S2:特征提取模块分别提取上述双时图像的特征信息,该模块采用密集连接跳跃融合机制提升细粒度特征的浅层信息权重值,使网络具有丰富的特征信息;
S3:注意力模块对上述双时图像的特征信息加权处理,充分利用相邻键之间的上下文特征信息来指导动态注意力矩阵学习,从而进一步增强计算机视觉特征表示能力;
S4:将加权处理后的特征信息分别输入步骤识别模块和度量模块,步骤识别模块判断当前装配阶段,度量模块根据特征信息获取变化区域,根据当前装配阶段赋值变化区域得到语义变化图像;
S5:利用数据集中的训练样本图像不断迭代执行步骤S1至S4,直至达到设定的训练次数,保存训练过程中最优模型。
CN202210667801.8A 2022-06-14 2022-06-14 面向装配顺序监测的图像多视角语义变化检测网络及方法 Pending CN115115819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210667801.8A CN115115819A (zh) 2022-06-14 2022-06-14 面向装配顺序监测的图像多视角语义变化检测网络及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210667801.8A CN115115819A (zh) 2022-06-14 2022-06-14 面向装配顺序监测的图像多视角语义变化检测网络及方法

Publications (1)

Publication Number Publication Date
CN115115819A true CN115115819A (zh) 2022-09-27

Family

ID=83328029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210667801.8A Pending CN115115819A (zh) 2022-06-14 2022-06-14 面向装配顺序监测的图像多视角语义变化检测网络及方法

Country Status (1)

Country Link
CN (1) CN115115819A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830448A (zh) * 2022-11-30 2023-03-21 广州市地质调查院(广州市地质环境监测中心) 一种基于多视角融合的遥感图像对比分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830448A (zh) * 2022-11-30 2023-03-21 广州市地质调查院(广州市地质环境监测中心) 一种基于多视角融合的遥感图像对比分析方法
CN115830448B (zh) * 2022-11-30 2024-02-09 广州市地质调查院(广州市地质环境监测中心) 一种基于多视角融合的遥感图像对比分析方法

Similar Documents

Publication Publication Date Title
CN112287940B (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN109522966B (zh) 一种基于密集连接卷积神经网络的目标检测方法
CN112149547B (zh) 基于图像金字塔引导和像素对匹配的遥感影像水体识别方法
Xia et al. A deep Siamese postclassification fusion network for semantic change detection
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN114972213A (zh) 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN112950780A (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN116229452A (zh) 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN114170526A (zh) 基于轻量化网络的遥感影像多尺度目标检测识别方法
CN112651294A (zh) 基于多尺度融合的遮挡人体姿势识别方法
Song et al. A potential vision-based measurements technology: Information flow fusion detection method using RGB-thermal infrared images
CN116030036A (zh) 图像差异检测方法、模型训练方法、系统、设备及介质
CN117853955A (zh) 一种基于改进YOLOv5的无人机小目标检测方法
CN115115819A (zh) 面向装配顺序监测的图像多视角语义变化检测网络及方法
CN115082798A (zh) 一种基于动态感受野的输电线路销钉缺陷检测方法
Zhao et al. RFE-LinkNet: LinkNet with Receptive Field Enhancement for Road Extraction from High Spatial Resolution Imagery
CN117252928B (zh) 用于电子产品模块化智能组装的视觉图像定位系统
Zhang et al. Full-scale Feature Aggregation and Grouping Feature Reconstruction Based UAV Image Target Detection
CN113076806A (zh) 一种结构增强的半监督在线地图生成方法
Chen et al. Towards deep and efficient: A deep Siamese self-attention fully efficient convolutional network for change detection in VHR images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination