CN116168312B

CN116168312B - 复杂场景下端到端的ar辅助装配三维注册方法及系统

Info

Publication number: CN116168312B
Application number: CN202310155912.5A
Authority: CN
Inventors: 雍玖; 雷晓妹; 魏建国; 王阳萍; 党建武; 路文焕; 杨景玉; 王松; 任鹏百
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-09-08
Anticipated expiration: 2043-02-23
Also published as: CN116168312A

Abstract

本发明公开一种复杂场景下端到端的AR辅助装配三维注册方法及系统，涉及AR辅助装配技术领域，训练好的位姿预测模型包括依次连接的特征提取模块和位姿预测模块，特征提取模块采用特征注意力机制和多尺度网络框架，位姿预测模块采用线性回归、可微渲染器和位姿校准网络，后续利用训练好的位姿预测模型确定场景图像中的待注册对象的预测位姿，以进一步根据预测位姿将虚拟信息渲染至待注册对象上，从而实现虚拟信息的渲染，通过采用新型结构的训练好的位姿预测模型，能够实现强适应性、高准确度和实时性的位姿预测，从而有效提高实际AR辅助装配作业的效率。

Description

复杂场景下端到端的AR辅助装配三维注册方法及系统

技术领域

本发明涉及AR辅助装配技术领域，特别是涉及一种复杂场景下端到端的AR辅助装配三维注册方法及系统。

背景技术

装配作业通常占工业生产总工作量的20％-70％，占工业生产总时间的40％-60％。随着工业5.0的快速发展和优化升级，在工业制造前后阶段存在业务相关者之间的知识转移障碍，使得传统辅助装配系统已经不能满足细致作业任务的需求。在复杂装配场景下，可利用具有虚实结合、实时交互、三维注册特点的增强现实(Augmented Reality，AR)技术，将辅助装配的虚拟信息与实际的作业对象融合，工作者可利用AR系统辅助完成装配任务，有效提升装配效率、缩短装配周期、降低装配成本。

AR设备(如Hololens、Light Wear等)捕获装配现场场景后，需要利用鲁棒的三维注册方法检测待注册对象在空间中的位姿，精确渲染多维虚拟信息到待注册对象上。现有的AR注册方法主要为基于视觉图像纹理特征理解分析的注册方法，该类方法需要确定待注册对象在场景中的位置和姿态，将虚拟世界三维坐标与现实世界三维坐标对齐，进而实现虚实场景的融合。然而传统算法很难在复杂环境下利用RGB图像获得待注册对象的位姿信息。随着深度学习的发展，卷积神经网络(CNN)已逐步应用于AR注册中，但是基于CNN的AR注册方法对复杂环境下的RGB图像难以实现强适应性、高准确度和实时性的位姿预测，难以满足实际工业场景AR辅助装配的需求。因此，针对装配场景的视觉数据建立合适的表述学习模型和AR注册模型，是AR辅助装配系统落地应用的客观需要。

基于此，亟需一种新型的AR辅助装配三维注册技术。

发明内容

本发明的目的是提供一种复杂场景下端到端的AR辅助装配三维注册方法及系统，通过采用新型结构的训练好的位姿预测模型，能够实现强适应性、高准确度和实时性的位姿预测，从而有效提高实际AR辅助装配作业的效率。

为实现上述目的，本发明提供了如下方案：

一种复杂场景下端到端的AR辅助装配三维注册方法，所述AR辅助装配三维注册方法包括：

获取利用AR设备对装配现场场景进行拍摄所得到的场景图像；

以所述场景图像为输入，利用训练好的位姿预测模型确定所述场景图像中的待注册对象的预测位姿；所述训练好的位姿预测模型包括依次连接的特征提取模块和位姿预测模块，所述特征提取模块采用特征注意力机制和多尺度网络框架，所述位姿预测模块采用线性回归、可微渲染器和位姿校准网络；所述待注册对象为需要渲染辅助装配的虚拟信息的作业对象；

根据所述预测位姿将虚拟信息渲染至所述待注册对象上。

一种复杂场景下端到端的AR辅助装配三维注册系统，所述AR辅助装配三维注册系统包括：

场景图像获取模块，用于获取利用AR设备对装配现场场景进行拍摄所得到的场景图像；

预测位姿确定模块，用于以所述场景图像为输入，利用训练好的位姿预测模型确定所述场景图像中的待注册对象的预测位姿；所述训练好的位姿预测模型包括依次连接的特征提取模块和位姿预测模块，所述特征提取模块采用特征注意力机制和多尺度网络框架，所述位姿预测模块采用线性回归、可微渲染器和位姿校准网络；所述待注册对象为需要渲染辅助装配的虚拟信息的作业对象；

渲染模块，用于根据所述预测位姿将虚拟信息渲染至所述待注册对象上。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明用于提供一种复杂场景下端到端的AR辅助装配三维注册方法及系统，训练好的位姿预测模型包括依次连接的特征提取模块和位姿预测模块，特征提取模块采用特征注意力机制和多尺度网络框架，位姿预测模块采用线性回归、可微渲染器和位姿校准网络，后续利用训练好的位姿预测模型确定场景图像中的待注册对象的预测位姿，以进一步根据预测位姿将虚拟信息渲染至待注册对象上，从而实现虚拟信息的渲染，通过采用新型结构的训练好的位姿预测模型，能够实现强适应性、高准确度和实时性的位姿预测，从而有效提高实际AR辅助装配作业的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1所提供的AR辅助装配三维注册方法的方法流程图；

图2为本发明实施例1所提供的AR辅助装配三维注册方法的总体框架图；

图3为本发明实施例1所提供的特征提取过程中的尺度变化图；

图4为本发明实施例1所提供的特征注意力机制单元的结构示意图；

图5为本发明实施例1所提供的特征融合过程中各层的输出大小示意图；

图6为本发明实施例1所提供的数据合成过程的示意图；

图7为本发明实施例2所提供的AR辅助装配三维注册系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

本实施例用于提供一种复杂场景下端到端的AR辅助装配三维注册方法，如图1所示，所述AR辅助装配三维注册方法包括：

S1：获取利用AR设备对装配现场场景进行拍摄所得到的场景图像；

S2：以所述场景图像为输入，利用训练好的位姿预测模型确定所述场景图像中的待注册对象的预测位姿；所述训练好的位姿预测模型包括依次连接的特征提取模块和位姿预测模块，所述特征提取模块采用特征注意力机制和多尺度网络框架，所述位姿预测模块采用线性回归、可微渲染器和位姿校准网络；所述待注册对象为需要渲染辅助装配的虚拟信息的作业对象；

S3：根据所述预测位姿将虚拟信息渲染至所述待注册对象上。

以下，对本实施例所用的训练好的位姿预测模型的网络结构进行进一步介绍：

(1)特征提取模块：

特征提取模块用于提取场景图像中的待注册对象的多尺度融合特征，特征提取模块包括依次连接的特征提取子模块和特征融合子模块，特征提取子模块利用特征注意力机制，对AR设备捕捉到的RGB图像(即场景图像)进行特征提取，在保留场景图像固有结构的同时提取几何和颜色特征，特征融合子模块利用多尺度网络框架进行局部上下文信息提取，与对应的全局特征融合后得到多尺度融合特征。

特征提取子模块用于提取场景图像中的待注册对象的第一尺度特征。如图2所示，特征提取子模块包括依次连接的CNN层、第一特征注意力机制单元、第一卷积层、第二特征注意力机制单元、concat层和第三特征注意力机制单元，第一特征注意力机制单元还与concat层相连接。

为了有效地提取第一尺度特征，本实施例利用三个特征注意力机制单元AR-FAM(AR Feature Attention Mechanism，用于AR注册网络的特征注意力机制)对CNN层的提取特征进行加权。如图3所示，输入特征是CNN层提取的将几何和颜色特征拼接后的特征，大小为[N×128]，经过一个AR-FAM输出大小为[N×128]的特征，再经过一个一维卷积层与一个AR-FAM组成的模块后输出大小为[N×256]的特征，利用concat层将两个特征串联起来，输出大小为[N×384]的串联后特征，将其送到一个AR-FAM中，得到第一尺度特征Features1。

其中，第一特征注意力机制单元、第二特征注意力机制单元和第三特征注意力机制单元的结构相同，如图4所示，第一特征注意力机制单元包括：第一一维卷积层，用于根据输入特征生成第一特征；注意力子单元，包括依次连接的平均池化层、全连接层和Sigmoid层，与第一一维卷积层相连接，用于生成第一特征的注意图；第一乘法层，分别与第一一维卷积层和注意力子单元相连接，用于将第一特征和注意图进行相乘，得到第一加权后特征；第二一维卷积层，与第一乘法层相连接，用于对第一加权后特征进行卷积，得到第二特征；第一权重计算子单元，包括依次连接的平均池化层、一维卷积层和Sigmoid层，与第二一维卷积层相连接，用于计算第二特征的权重；第二乘法层，分别与第二一维卷积层和第一权重计算子单元相连接，用于将第二特征和第二特征的权重进行相乘，得到第二加权后特征；第三一维卷积层，与第一乘法层相连接，用于对第一加权后特征进行卷积，得到第三特征，第三一维卷积层和第二一维卷积层的卷积核大小不同；第二权重计算子单元，包括依次连接的平均池化层、一维卷积层和Sigmoid层，与第三一维卷积层相连接，用于计算第三特征的权重；第三乘法层，分别与第三一维卷积层和第二权重计算子单元相连接，用于将第三特征和第三特征的权重进行相乘，得到第三加权后特征；加法层，分别与第二乘法层和第三乘法层相连接，用于将第二加权后特征和第三加权后特征进行相加，得到输出特征。

基于上述特征注意力机制单元的结构，通过对特征通道间关系的显式建模，获取每个特征通道的重要程度和权重，进而有效提取更显著的几何特征。如图4所示，输入特征经过一个一维卷积层生成一维几何特征f_G，将f_G与注意图A(f_G)相乘得到通道加权后的第一加权后特征，其中，A(f_G)由f_G输入到平均池化层、全连接层、Sigmoid层组成的模块得到。为了使网络能够自主选择合适的卷积核，自适应地调节所提取特征的感受野，并且合理地利用特征之间的空间关系，采用两个卷积核大小分别为(1×1)和(3×3)的一维卷积层将第一加权后特征映射为具有不同感受野的两个特征图，将这两个特征图分别输入到由平均池化层、一维卷积层和Sigmoid层组成的模块中得到对应特征图的权重，再将获得的权重与相对应的具有不同感受野的特征图进行相乘，得到具有不同感受野的两个加权后特征，将具有不同感受野的两个加权后特征相加，得到输出特征。

基于特征注意力机制提取的N维特征，每个维度的特征包含m个2D关键点{u_ik},1≤i≤n,1≤k≤m，通过定义一组映射关系F:χ→R^nD，将关键点(u_ik)_1≤k≤m映射到一个n维向量中：

其中，f_ik是{u_ik}的D维特征表达，MAX()是最大池化操作，CAT()是拼接处理。

需要说明的是，上述映射关系通过函数F实现，F为自定义的函数，需要在训练过程中进行学习，通过上述映射关系，便于后续的网络特征提取过程。

经过特征提取子模块提取特征后，可从RGB图像中得到有效的关键特征，然而现有位姿估计网络在外表相似尺寸不同的实例中表现不佳。由于待注册对象是由多个像素点组成的，每个像素点的邻域内存在相互作用的局部上下文信息，其可以作为补充信息来进行待注册对象的位姿估计，而特征提取子模块忽略了每个像素邻域内的局部上下文信息，于是可利用多尺度网络框架对待注册对象邻域内的局部上下文信息进行提取。此外，为得到有效的判别特征，还需对多尺度网络框架提取特征进行有机融合，将全局特征与提取的局部上下文信息进行密集融合后代替简单的全局特征提取，以提供待注册对象的全局上下文信息。

特征融合子模块用于根据第一尺度特征生成多尺度融合特征。特征融合子模块包括第二卷积层、第三卷积层、第一融合单元、第二融合单元和第三融合单元，第二卷积层，与第三特征注意力机制单元相连接，用于对第一尺度特征进行卷积，得到第二尺度特征Features2；第三卷积层，与第二卷积层相连接，用于对第二尺度特征进行卷积，得到第三尺度特征Features3；第一融合单元，与第三特征注意力机制单元相连接，用于提取第一尺度特征的上下文信息，并将第一尺度特征和第一尺度特征的上下文信息进行融合，得到第一融合后特征；第二融合单元，与第二卷积层相连接，用于提取第二尺度特征的上下文信息，并将第二尺度特征和第二尺度特征的上下文信息进行融合，得到第二融合后特征；第三融合单元，与第三卷积层相连接，用于提取第三尺度特征的上下文信息，并将第三尺度特征和第三尺度特征的上下文信息进行融合，得到第三融合后特征，第一融合后特征、第二融合后特征和第三融合后特征组成多尺度融合特征。

其中，第一融合单元、第二融合单元和第三融合单元的结构相同，第一融合单元包括依次连接的卷积层、平均池化层、repeat层和concat层。第一融合单元的卷积层和concat层均与第三特征注意力机制单元相连接，第二融合单元的卷积层和concat层均与第二卷积层相连接，第三融合单元的卷积层和concat层均与第三卷积层相连接。

基于上述特征融合子模块的结构，多尺度特征提取和融合过程可以包括：将提取的第一尺度特征作为初始特征，输入到多尺度网络框架中；通过采用两个一维卷积层对第一尺度特征进行进一步提取，提取得到三种尺度的特征f′_S|_S＝1,2,3；针对提取的三种尺度的特征f′_S|_S＝1,2,3，分别将其送入由卷积层和平均池化层构成的网络，获得对应尺度的特征的局部上下文信息；分别将该局部上下文信息与对应尺度的特征密集地拼接起来，以提供不同尺度的全局上下文信息，输出最终的多尺度密集判别特征(即多尺度融合特征)f″_M|_M＝1,2,3，具体为：其中，/>代表特征通道上的拼接，/>代表卷积操作，W_s和b_s分别为f′_S的权重和偏置。

具体的，多尺度融合特征的提取采用多尺度输出的方法来实现，如图5所示，首先，将大小为[N×384]的第一尺度特征依次送入两个步长为2、卷积核大小为3×1的一维卷积层，在每个卷积层之后，输出特征大小是输入特征大小的一半，感受野大小翻倍，生成大小为[N/2×384]的第二尺度特征和[N/4×384]的第三尺度特征。然后，将生成的大小为[N×384]，[N/2×384]，[N/4×384]的多尺度特征分别送入由一维卷积层和平均池化层组成的模块中，再进行复制以形成大小为[N×1024]，[N/2×1024]，[N/4×1024]的局部上下文信息密集特征。最后，将原始的多尺度特征与对应的局部上下文信息密集特征拼接形成多尺度密集判别特征(即多尺度融合特征)，用于后续待注册对象的位姿估计。

本实施例基于上述特征提取模块的结构，利用CNN层对RGB图像进行语义分割，并将分割结果输入到后续网络中，然后提取RGB图像的几何和颜色特征，根据待注册对象特征信息在RGB图像中的投影，将每个特征关键点的几何特征拼接到对应的颜色特征上，进而可采用注意力机制对拼接后的特征进行通道和空间上的加权，并且利用特征的通道间和空间相关性进行待注册对象位姿预测。本实施例通过构建AR特征注意力机制，在保留数据源固有结构的同时提取几何和颜色特征，利用特征的通道间和空间相关性，并且利用多尺度特征框架获取不同感受野的局部上下文信息，高效提取待注册对象的特征。

(2)位姿预测模块：

位姿预测模块用于根据特征提取模块得到的多尺度融合特征确定场景图像中的待注册对象的预测位姿，该位姿预测模块包括依次连接的位姿预测子模块、可微渲染器和位姿校准子模块，以利用线性回归的方式代替PnP算法推理待注册对象的6D位姿，并且利用可微渲染器连接位姿校准子模块，提高待注册对象位姿估计的准确性。

为了使算法对运动、光照、噪声、旋转、尺度等复杂环境问题具有更强的鲁棒性，对提取到的多尺度融合特征进行密集回归，得到密集的位姿预测结果。现有技术中在求解出待注册对象特征的2D-3D位置关系后，可利用RANSAC-PnP算法估计待注册对象位姿，但是该算法不是端到端可训练的，使得耗时严重且无法计算梯度，为了解决这一问题，本实施例利用线性密集回归的方式代替PnP算法全局推理待注册对象的初始位姿。如图2所示，位姿预测子模块用于根据多尺度融合特征预测得到场景图像中的待注册对象的初始位姿，位姿预测子模块包括第一MLP层、第二MLP层、第三MLP层和与第一MLP层、第二MLP层、第三MLP层均相连接的第四MLP层。其中，第一MLP层、第二MLP层、第三MLP层和第四MLP层的结构相同，第一MLP层包括依次连接的三个全连接层。通过将多尺度融合特征输入到MLP中来推理待注册对象的初始位姿，并将初始位姿以四元数q＝[s,v],的形式输出，可通过q计算得到对应旋转轴和夹角：

基于上述旋转轴和夹角，即可确定待注册对象的初始位姿。

对于待注册对象的位姿校准，如图2所示，本实施例中，可微渲染器用于对初始位姿进行特征提取，得到梯度；位姿校准子模块用于基于梯度对初始位姿进行校准，得到场景图像中的待注册对象的预测位姿；位姿校准子模块包括ResNet层和均与ResNet层相连接的第一端口回归层、第二端口回归层和第三端口回归层，第一端口回归层、第二端口回归层和第三端口回归层的结构相同，第一端口回归层包括依次连接的两个全连接层。本实施例的位姿校准主要基于可微渲染器DIR-B通过自监督的方式实现，DIR-B利用可微栅格化得到梯度，梯度能传播至位姿校准网络(即位姿校准子模块)进行位姿校准，以解决梯度消失或梯度爆炸问题，得到更为准确的位姿。通过将初始位姿输入可微渲染器DIR-B产生梯度，将梯度输入到ResNet模块(图2的E2)产生特征向量f，每个端口回归层由两个全连接层组成，基于f对初始位姿进行处理得到最终输出的预测位姿，具体的，第一端口回归层(图2的Zhead)基于特征向量f得到校准后的Z坐标，第二端口回归层(图2的XYhead)基于特征向量f、初始位姿中的x、y坐标和校准后的Z坐标得到校准后的X、Y坐标，第三端口回归层(图2的Rhead)基于特征向量f和初始位姿中的姿态得到校准后的姿态，校准后的X、Y、Z坐标和校准后的姿态组成预测位姿。

本实施例构建端到端的位姿预测模块，利用线性回归从2D-3D关系中推理待注册对象6D位姿，并使用可微渲染器和位姿校准网络，减少对网络性能的影响和冗余特征的提取，进一步提升了AR注册准确度。

以下，对本实施例所用的训练好的位姿预测模型的训练过程进行进一步介绍：

在以场景图像为输入，利用训练好的位姿预测模型确定场景图像中的待注册对象的预测位姿之前，本实施例的AR辅助装配三维注册方法还包括：利用数据集对初始位姿预测模型进行训练，得到训练好的位姿预测模型，数据集包括多张样本场景图像和每一张样本场景图像中的待注册对象的真实位姿。

现有技术中依赖大量RGB-D图像数据进行训练学习，RGB-D图像的局限性导致难以检测体积小、可见性差或处于移动中的待注册对象，容易陷入对单一场景的过拟合，使得现有AR注册方法在遮挡、旋转、尺度、光照等变化的开放环境中性能下降，并且考虑到特定工业场景中数据采集困难，本实施例利用待注册对象三维模型合成RGB图像数据进行训练，此时，如图6所示，数据集的构建方法为：构建待注册对象的3D模型，采用Unity3D将待注册对象的三维模型渲染在不同的随机真实背景图或者虚拟场景图上，得到随机变化的多张样本场景图像，模拟实际应用场景的变化，其中，真实背景图由实际场景拍摄得来，虚拟场景图由对实际场景进行三维建模得来，并且可对背景图进行随机的翻转和缩放，得到多种背景图，以进一步构建得到多张样本场景图像。然后对样本场景图像进行数据增强，得到数据集，数据增强包括随机运动、随机光照、随机噪声、随机旋转和随机尺度。本实施例通过在数据合成过程中，对合成图像进行随机运动、光照、噪声、旋转、尺度等方式的增强，以增加图像的多样性，减少真实环境因素对于AR网络性能的影响，促使AR网络学习到待注册对象的本质特征，进而在待注册对象表面上定义需要预测的2D-3D关系时，可在待注册对象上提取特征关键点，计算对应待注册对象特征关键点在RGB图像中的投影信息。

本实施例利用待注册对象3D模型和虚拟场景合成RGB图像作为训练数据，且为了避免AR注册网络对合成数据过拟合，进行数据增强，实现了小样本数据对象的采集，使得数据采集的成本降低、多样性增加。本实施例通过采用一种合成数据生成方案，解决对数据采集的依赖，避免网络对合成数据过拟合，促使AR-FAPR网络学习到待注册对象的本质特征。

对于待注册对象的位姿估计，可将位姿估计的损失定义为对象模型上采样点经真实位姿变换后与预测位姿变换后的点间距离，其中预测位姿由多尺度特征密集回归得到，每个密集预测结果的损失函数为：

其中，为第i个位姿的损失；M为待注册对象的3D模型点的数量；R为第j个3D模型点的真实位姿的姿态；t为第j个3D模型点的真实位姿的位置；/>为第j个3D模型点的第i个位姿的姿态；/>为第j个3D模型点的第i个位姿的位置；x_j为待注册对象的第j个3D模型点。

但上述损失函数适用于非对称对象，不能很好地处理对称对象，因为一个对称对象可以有不止一个，甚至可能是无限个正确的旋转。为了不让AR-FAPR网络因回归到可选的正确旋转之一而性能下降，对对称对象的损失函数，可将损失定义为目标模型上采样点经过真实位姿变换后，与其最邻近点经预测位姿变换后的点间距离，此时密集预测的损失函数为：

对于密集预测结果，还需要学习自主选择最有可能是正确位姿的为此在密集预测的损失函数中加入自监督的密集置信度c_i进行加权，并加入一个置信度正则化项，使得最高置信度对应的位姿为网络最终输出的待注册对象的初始位姿：

其中，N为密集预测的位姿的个数；为第i个位姿的损失；c_i为置信度；ω为平衡超参数的置信正则化项，为置信度低的损失提供高惩罚。

则训练过程中所用的损失函数为：

(1)最小化该损失来估计初始位姿的损失函数为：

L₁＝∑_sL_S；

其中，L₁为第一损失；S为特征提取模块输出的不同尺度特征的数量，本实施例中S为3；L_S为第S尺度的损失。

其中，不同尺度特征对应的损失函数为：

其中，N为密集预测的位姿的个数；为第i个位姿的损失；c_i为置信度；ω为平衡超参数的置信正则化项。

其中，M为待注册对象的3D模型点的数量；R为第j个3D模型点的真实位姿的姿态；t为第j个3D模型点的真实位姿的位置；为第j个3D模型点的第i个位姿的姿态；/>为第j个3D模型点的第i个位姿的位置。

(2)最小化该损失来校准初始位姿的损失函数为：

其中，L₂为第二损失；M_S为随机采样的待注册对象的3D模型点的集合，包括在待注册对象三维模型上随机采样的多个3D模型点，每次迭代过程中均会重新采样；R为3D模型点的真实位姿的姿态；t为3D模型点的真实位姿的位置；为3D模型点的初始位姿的姿态；/>为3D模型点的初始位姿的位置。通过此式即可计算待注册对象在预测的初始位姿和真实位姿下待注册对象顶点之间的距离。

在每次迭代时，将上述两个损失函数相加，以对网络参数进行更新。

以下，对本实施例中根据预测位姿将虚拟信息渲染至待注册对象上的过程进行进一步介绍：

利用P_uv＝K[R|T]P_w将虚拟信息渲染至待注册对象上，其中，P_uv为虚拟信息的图像投影坐标；K为AR设备的内参；[R|T]为预测位姿，P_w为虚拟信息的实际坐标。利用上述公式即可将虚拟信息渲染到真实装配场景，并显示在AR设备上，实现虚实融合效果。渲染完成后，在真实的装配场景下根据Hololens2自带的手势、语音等多通道交互知识库完成虚拟信息叠加交互，工作人员可以对3D模型进行移动、放大缩小、旋转等操作，实现鲁棒的AR辅助装配，以更好的了解设备的细节信息。

本实施例的装配场景可为铁路场景，待注册对象可为转辙机。当然，也可为其他的装配场景和对应场景下的待注册对象。

基于上述介绍，本实施例的AR辅助装配三维注册方法可以包括：AR设备通过调用摄像头获取现实装配现场场景的场景图像，传入系统后台对场景图像进行多尺度融合特征提取，确定场景图像中待注册对象的预测位姿，实现待注册对象位姿的准确估计，进一步将虚拟信息无缝的渲染叠加在待注册对象上，实现虚实叠加融合渲染，实现AR装配场景的虚实融合应用。本实施例所提出的面向复杂场景的端到端的AR-FAPR(AR Feature AttentionPose Registration，AR辅助装配特征注意力)三维注册网络，可对实际装配应用场景中不同待注册对象进行实时准确的特征提取、位姿预测和注册增强，实现了端到端AR跟踪注册的综合处理，并基于该网络提出了一种端到端的AR-FAPR虚实注册方案，实现直接对现实装配对象进行增强的三维注册方法，将该方法应用于实际AR辅助装配作业过程中，可显著提升装配效率。

在复杂装配场景下，增强现实可将丰富的辅助信息集成至装配过程中，建立虚实融合的装配作业环境，增强工作者对所处装配环境的感知理解能力，提升装配作业效率。然而现有AR系统装配过程中存在交互场景单一，注册准确度、实时性和鲁棒性等差的问题，基于此，本实施例提出一种复杂场景下端到端的AR-FAPR辅助装配三维注册方法，特征提取阶段提出了AR-FAM注意力特征提取网络，实现了保留数据源固有结构的同时提取几何和颜色特征，并且利用多尺度网络框架对特征进行不同感受野的局部上下文信息提取，再将其与相应的全局特征进行融合，提取出用于待注册对象位姿估计的多尺度融合特征。位姿预测阶段通过利用线性回归的方式代替PnP算法全局推理待注册对象的预测位姿，自监督优化位姿估计的损失直接训练网络，提升检测的准确度并减少了多余的计算，实现不需要额外的细化过程也能准确地预测待注册对象的位姿。渲染阶段基于待注册对象的预测位姿实现虚拟信息的叠加渲染，最终对同一场景下不同待注册对象进行融合渲染，实现了端到端的AR多目标跟踪注册的综合处理，该AR-FAPR网络在复杂环境装配场景应用中平衡了准确度和实时性，平均误差在5mm以内，具有很强的鲁棒性，并且可有效提高实际装配作业的效率。通过数据的合成训练，实现了小样本的训练，降低数据采集成本，同时增加了数据的多样性，强化对目标域的学习，减少拍摄角度、光照等偏移和噪声的影响，提高算法在实际应用场景中的普适性。

实施例2：

本实施例用于提供一种复杂场景下端到端的AR辅助装配三维注册系统，如图7所示，所述AR辅助装配三维注册系统包括：

场景图像获取模块M1，用于获取利用AR设备对装配现场场景进行拍摄所得到的场景图像；

预测位姿确定模块M2，用于以所述场景图像为输入，利用训练好的位姿预测模型确定所述场景图像中的待注册对象的预测位姿；所述训练好的位姿预测模型包括依次连接的特征提取模块和位姿预测模块，所述特征提取模块采用特征注意力机制和多尺度网络框架，所述位姿预测模块采用线性回归、可微渲染器和位姿校准网络；所述待注册对象为需要渲染辅助装配的虚拟信息的作业对象；

渲染模块M3，用于根据所述预测位姿将虚拟信息渲染至所述待注册对象上。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种复杂场景下端到端的AR辅助装配三维注册方法，其特征在于，所述AR辅助装配三维注册方法包括：

根据所述预测位姿将虚拟信息渲染至所述待注册对象上；

对提取到的多尺度融合特征进行密集回归，得到密集的位姿预测结果；

所述位姿预测模块用于根据所述特征提取模块得到的多尺度融合特征确定所述场景图像中的待注册对象的预测位姿；所述位姿预测模块包括依次连接的位姿预测子模块、可微渲染器和位姿校准子模块；

所述位姿预测子模块用于根据所述多尺度融合特征预测得到所述场景图像中的待注册对象的初始位姿；所述位姿预测子模块包括第一MLP层、第二MLP层、第三MLP层和与所述第一MLP层、所述第二MLP层、所述第三MLP层均相连接的第四MLP层；

所述第一MLP层、所述第二MLP层、所述第三MLP层和所述第四MLP层的结构相同；所述第一MLP层包括依次连接的三个全连接层；

第一端口回归层、第二端口回归层和第三端口回归层的结构相同；所述第一端口回归层包括依次连接的两个全连接层；

通过将多尺度融合特征输入到MLP中来推理待注册对象的初始位姿，并将初始位姿以四元数q＝[s,v]，的形式输出，通过q计算得到对应旋转轴和夹角：

基于上述旋转轴和夹角，即可确定待注册对象的初始位姿；

所述可微渲染器用于对所述初始位姿进行特征提取，得到梯度；

所述位姿校准子模块用于基于所述梯度对所述初始位姿进行校准，得到所述场景图像中的待注册对象的预测位姿；所述位姿校准子模块包括ResNet层和均与所述ResNet层相连接的第一端口回归层、第二端口回归层和第三端口回归层；

基于可微渲染器DIR-B通过自监督的方式实现位姿校准，DIR-B利用可微栅格化得到梯度，梯度能传播至位姿校准网络进行位姿校准；通过将初始位姿输入可微渲染器DIR-B产生梯度，将梯度输入到ResNet模块产生特征向量f，每个端口回归层由两个全连接层组成，基于f对初始位姿进行处理得到最终输出的预测位姿，具体的，第一端口回归层基于特征向量f得到校准后的Z坐标，第二端口回归层基于特征向量f、初始位姿中的x、y坐标和校准后的Z坐标得到校准后的X、Y坐标，第三端口回归层基于特征向量f和初始位姿中的姿态得到校准后的姿态，校准后的X、Y、Z坐标和校准后的姿态组成预测位姿；

所述特征提取模块用于提取所述场景图像中的待注册对象的多尺度融合特征；所述特征提取模块包括依次连接的特征提取子模块和特征融合子模块；

所述特征提取子模块用于提取所述场景图像中的待注册对象的第一尺度特征；所述特征提取子模块包括依次连接的CNN层、第一特征注意力机制单元、第一卷积层、第二特征注意力机制单元、concat层和第三特征注意力机制单元，所述第一特征注意力机制单元还与所述concat层相连接；

所述特征融合子模块用于根据所述第一尺度特征生成多尺度融合特征；所述特征融合子模块包括第二卷积层、第三卷积层、第一融合单元、第二融合单元和第三融合单元；

所述第二卷积层，与所述第三特征注意力机制单元相连接，用于对所述第一尺度特征进行卷积，得到第二尺度特征；

所述第三卷积层，与所述第二卷积层相连接，用于对所述第二尺度特征进行卷积，得到第三尺度特征；

所述第一融合单元，与所述第三特征注意力机制单元相连接，用于提取所述第一尺度特征的上下文信息，并将所述第一尺度特征和所述第一尺度特征的上下文信息进行融合，得到第一融合后特征；

所述第二融合单元，与所述第二卷积层相连接，用于提取所述第二尺度特征的上下文信息，并将所述第二尺度特征和所述第二尺度特征的上下文信息进行融合，得到第二融合后特征；

所述第三融合单元，与所述第三卷积层相连接，用于提取所述第三尺度特征的上下文信息，并将所述第三尺度特征和所述第三尺度特征的上下文信息进行融合，得到第三融合后特征；所述第一融合后特征、所述第二融合后特征和所述第三融合后特征组成所述多尺度融合特征；

所述第一特征注意力机制单元、所述第二特征注意力机制单元和所述第三特征注意力机制单元的结构相同；

所述第一特征注意力机制单元包括：

第一一维卷积层，用于根据输入特征生成第一特征；

注意力子单元，与所述第一一维卷积层相连接，用于生成所述第一特征的注意图；

第一乘法层，分别与所述第一一维卷积层和所述注意力子单元相连接，用于将所述第一特征和所述注意图进行相乘，得到第一加权后特征；

第二一维卷积层，与所述第一乘法层相连接，用于对所述第一加权后特征进行卷积，得到第二特征；

第一权重计算子单元，与所述第二一维卷积层相连接，用于计算所述第二特征的权重；

第二乘法层，分别与所述第二一维卷积层和所述第一权重计算子单元相连接，用于将所述第二特征和所述第二特征的权重进行相乘，得到第二加权后特征；

第三一维卷积层，与所述第一乘法层相连接，用于对所述第一加权后特征进行卷积，得到第三特征；所述第三一维卷积层和所述第二一维卷积层的卷积核大小不同；

第二权重计算子单元，与所述第三一维卷积层相连接，用于计算所述第三特征的权重；

第三乘法层，分别与所述第三一维卷积层和所述第二权重计算子单元相连接，用于将所述第三特征和所述第三特征的权重进行相乘，得到第三加权后特征；

加法层，分别与所述第二乘法层和所述第三乘法层相连接，用于将所述第二加权后特征和所述第三加权后特征进行相加，得到输出特征；

所述注意力子单元包括依次连接的平均池化层、全连接层和Sigmoid层；

所述第一权重计算子单元和所述第二权重计算子单元的结构相同；所述第一权重计算子单元包括依次连接的平均池化层、一维卷积层和Sigmoid层；

所述第一融合单元、所述第二融合单元和所述第三融合单元的结构相同；所述第一融合单元包括依次连接的卷积层、平均池化层、repeat层和concat层；

所述第一融合单元的卷积层和concat层均与所述第三特征注意力机制单元相连接；所述第二融合单元的卷积层和concat层均与所述第二卷积层相连接；所述第三融合单元的卷积层和concat层均与所述第三卷积层相连接。

2.根据权利要求1所述的AR辅助装配三维注册方法，其特征在于，在以所述场景图像为输入，利用训练好的位姿预测模型确定所述场景图像中的待注册对象的预测位姿之前，所述AR辅助装配三维注册方法还包括：利用数据集对初始位姿预测模型进行训练，得到训练好的位姿预测模型；所述数据集包括多张样本场景图像和每一张所述样本场景图像中的待注册对象的真实位姿；

所述数据集的构建方法为：将待注册对象的三维模型渲染在不同的随机真实背景图或者虚拟场景图上，得到多张样本场景图像；对所述样本场景图像进行数据增强，得到数据集；所述数据增强包括随机运动、随机光照、随机噪声、随机旋转和随机尺度。

3.根据权利要求1所述的AR辅助装配三维注册方法，其特征在于，所述根据所述预测位姿将虚拟信息渲染至所述待注册对象上具体包括：

利用Puv＝K[R|T]Pw将虚拟信息渲染至所述待注册对象上；其中，Puv为虚拟信息的图像投影坐标；K为AR设备的内参；[R|T]为预测位姿，Pw为虚拟信息的实际坐标。

4.一种复杂场景下端到端的AR辅助装配三维注册系统，其特征在于，所述AR辅助装配三维注册系统包括：

预测位姿确定模块，用于以所述场景图像为输入，利用训练好的位姿预测模型确定所述场景图像中的待注册对象的预测位姿；所述训练好的位姿预测模型包括依次连接的特征提取模块和位姿预测模块，所述特征提取模块采用特征注意力机制和多尺度网络框架，所述位姿预测模块采用线性回归、可微渲染器和位姿校准网络；所述待注册对象为需要渲染辅助装配的虚拟信息的作业对象；对提取到的多尺度融合特征进行密集回归，得到密集的位姿预测结果；

基于上述旋转轴和夹角，即可确定待注册对象的初始位姿；

渲染模块，用于根据所述预测位姿将虚拟信息渲染至所述待注册对象上；

所述第一特征注意力机制单元包括：

第一一维卷积层，用于根据输入特征生成第一特征；