CN114169546A

CN114169546A - 一种基于深度学习的mr远程协同装配系统及方法

Info

Publication number: CN114169546A
Application number: CN202111404389.2A
Authority: CN
Inventors: 张政; 李红星; 孟祥慈; 王纪潼; 邵奇
Original assignee: 716th Research Institute of CSIC
Current assignee: 716th Research Institute of CSIC
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-11

Abstract

本发明公开了一种基于深度学习的MR远程协同装配系统及方法，该系统包含有本地AR端、远程VR端以及云服务器三部分，本地AR端的装配作业信息通过语音和视频的形式共享到远程VR端，装配部件的实时定位通过一种深度学习方法实现，其装配件的位置也可通过网络共享到远程客户端；远程VR端不仅可通过共享的语音和视频感知本地端协同装配的场景，而且可以通过一种自然直观的交互方式与虚拟三维空间中对象交互表达协同信息。本发明支持采集深度学习的物体定位和VR空间的自然人机交互方式，采用3D虚拟模型表达清楚的装配引导信息，解决远程协同中装配件识别定位和协同信息准确表达的问题。

Description

一种基于深度学习的MR远程协同装配系统及方法

技术领域

本发明涉及混合现实远程协同装配方法，具体涉及一种基于深度学习的MR 远程协同装配系统及方法。

背景技术

近年来随着MR与远程协同技术的进步和融合，MR远程协同应用越来越广，如何采用新兴技术(如深度学习、增强现实和MR)提升远程协同装配的质量、效率以及用户体验是机械产品装配中一个亟待解决的问题。

文献“申请公布号是CN 104991772 A中国发明专利”公开了一种远程协同作业方法。该方法支持远程端在协同作业过程对操作过程的记录与保存，从而实现后续类似装配操作时查阅。在远程协同中如果作业现场操作人员遇到作业难题，直接可向系统发送请求，然后远程端共享之前保存的操作视频，操作人员可根据视频解决协同难题。这种方法的优点是远程专家不必实时在线，但其缺点是系统只支持解决协同作业过程中出现的常规问题而不支持解决意外情况。所以，这种方法只适用于协同任务简单且固定，操作步骤不多的场景，而无法解决操作过程复杂且多样的机械产品远程协同装配中作业现场遇到的问题。

随着MR技术与制造业的深度融合和应用落地，以及增强现实(AugmentedReality,AR)和虚拟现实(Virtual Reality，VR)设备的不断完善和推出，使得 MR远程协同蕴含越来越大的潜力。其与传统语音和视频的远程协同相比，明显的优势是MR远程协同可以融合语音、视频、CAD模型等，实现用户与系统的自然直观交互以及准确清楚的三维装配指令信息。

文献“申请公布号是CN 111260084A中国发明专利”公开了一种基于AR远程协同装配维修的系统及方法。该方法通过MR眼镜自带的同步定位与建图技术 (Simultaneouslocalization and mapping,SLAM)完成对作业空间及装配维修零部件的实时三维建模，然后通过实时定位信息叠加装配维修引导信息。此外，系统支持在AR端识别用户的手势并通过调用与动态手势相匹配的三维动画装配维修指令，为装配维修作业的操作工人提供三维引导信息。该方法能够显著提升装配维修指令精准高效表达的能力，从而提升远程协同作业效率。但该方法没有对装配的零部件的实时定位，采用HoloLens自带SLAM稳定性不够，鲁棒性太低，这使得装配维修指令虚实融合时会出现位置偏差。此外，在远程协作中，远程用户不断通过肢体动作进行操作引导极易产生疲劳不适感。

发明内容

本发明的目的在于提供一种基于深度学习的MR远程协同装配系统及方法，克服远程协同作业时装配引导信息表达不准确和不直观，以及人机交互方式不灵活的问题。

实现本发明目的的技术方案为：

一种基于深度学习的MR远程协同装配系统，包括本地AR端、远程VR端以及云服务器；其中：

所述本地AR端用于采集装配作业的语音和视频信息并共享到远程VR端，同时通过训练好的深度学习模型实时获取装配部件的六自由度位姿，将装配件的位姿通过网络共享到远程VR端；并通过虚实融合显示远程VR端共享的装配引导信息；

所述云服务器用于本地AR端和远程VR端交互信息的中转以及信息的存储；

所述远程VR端用于通过本地AR端共享的语音和视频感知本地端协同装配的场景，并以Unity 3D为平台构建三维协同虚拟模型，通过与三维虚拟物体模型交互向本地AR端共享装配引导视频信息。

进一步的，所述本地AR端包括HoloLens，HoloLens连接云服务器；通过 HoloLens自带相机感知和一个外部相机采集现场装配作业视频信息，通过 HoloLens可显示远程VR端共享的装配引导信息。

进一步的，所述深度学习模型是以PVNet为主干的深度学习模型，所述深度学习模型的训练方法为：

对外部相机采集的RGB图像信息进行图像处理，获取PVNet训练数据集和测试集；

PVNet训练数据集作为输入，基于PVNet深度学习进行训练，获取收敛的深度学习模型；

基于测试集，判断所述深度学习模型的位姿精度是否小于设定值，若小于，则采用该深度学习模型，否则重复所述步骤直至获取满足精度要求的深度学习模型。

进一步的，所述对外部相机采集的RGB图像信息进行图像处理，获取PVNet 训练数据集具体为：

通过人工标识码估算相机位姿，并建立世界坐标、物体坐标、相机坐标的相对关系；

基于世界坐标、物体坐标、相机坐标的相对关系，使用PnP算法求解相机位姿，并采集物体的点云信息，基于点云信息采用迭代最近点算法进行相机位姿优化；

结合点云信息与外部相机采集的RGB图像信息获取物体完整的三维点云模型，并采用MeshLab对三维点云模型做裁剪和修补，然后对三维点云模型进行泊松重建生成3D模型信息；

结合重建生成的三维点云模型和外部相机采集的相同视角下的RGB图像生成对应的掩膜图，通过掩膜图对每张RGB图像进行处理并将处理后的RGB图像划分为PVNet训练数据集和测试集。

进一步的，所述基于PVNet深度学习进行训练具体为：

PVNet主干网络对训练集中图像进行卷积运算、向量场景预测和语义分割；

采用最远点采样算法在语义分割图像上进行特征点的选取；

给定每个装配件的2D特征位置，结合特征点通过PnP求解器求解六自由度位姿；

重复所述步骤直至模型收敛。

进一步的，所述以Unity 3D为平台构建三维协同虚拟模型包括：(1)在Unity 3D中直接生成三维协同虚拟模型；(2)据装配任务从PDM或CAD库中获取三维协同虚拟模型，或直接采用CAD建模软件建立三维协同虚拟模型，将三维协同虚拟模型在3ds Max中转化为obj格式，导入Unity 3D。

进一步的，所述远程VR端采用HTC Vive套件构建三维交互场景，通过HTC 手柄与三维协同虚拟模型交互，所述装配作业的语音通过HoloLens和其相配套的HoloToolkit采集。

一种基于任一所述的MR远程协同装配系统的MR远程协同装配方法，包括步骤：

本地AR端通过固定视角的相机和HoloLens自带相机，将采集的语音和视频信息通过网络以云服务器为节点共享至远程VR端；

本地AR端通过训练好的深度学习模型实时获取装配部件的六自由度位姿，将装配件的位姿通过网络共享到远程VR端；

远程VR端以通过本地AR端共享的语音和视频感知本地端协同装配的场景，并以Unity 3D为平台构建三维协同虚拟模型，采用HTC手柄与三维虚拟物体模型交互向本地AR端共享装配引导视频信息；

本地AR端HoloLens显示装配引导视频信息，本地AR端进行装配。

进一步的，所述HTC手柄对应的虚拟手柄与交互的三维虚拟物体模型的距离小于一定阈值时，进行碰撞检测，当两者有碰撞时，将HTC手柄的动作映射到虚拟物体，并让交互虚拟物体的颜色变为绿色；当虚拟物体被放到目的地后，其绿色又恢复原来的颜色。

进一步的，当本地AR端与远程VR端的三维虚拟物体模型交互发生冲突时：如果本地AR端先移动物理装配件，远程VR端对应的三维虚拟物体模型会同步变化，但在HoloLens视野中不显示三维虚拟物体模型的变化；如果远程VR端先移动三维虚拟物体模型，远程VR空间自动复制一份三维虚拟物体模型，此时远程VR端与三维虚拟物体模型交互时，HoloLens视野可看到三维虚拟物体模型的变化。

本发明与现有技术相比，其显著效果为：本发明面向MR远程协同装配作业采用深度学习方法定位协同作业的装配件，实现了远程和本地装配场景信息的一致性，提升远程协同中用户对场景的感知能力和协同信息的虚实融合程度；本发明的VR空间用户可通过HTC手柄与三维虚拟对象自然直观交互，可以提升用户的交互体验；本发明装配作业的协同信息可在AR协同空间通过三维虚拟模型模型准确表达，提升协同中信息表达的准确性和协同效率。

附图说明

图1为本发明系统的组成示意图。

图2为两客户端加载协同相关资源的流程图。

图3为PVNet训练和估计物体位姿的流程图。

图4为本发明共享语音和视频的流程图。

图5为PVNet在线估计物体位姿后客户端协同信息同步的流程图。

图6为VR用户与虚拟物体交互时两客户端协同信息同步的流程图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明在共享语音和视频的基础上，探究基于深度学习的方法通过自然特征实时定位装配件，以三维虚拟模型表达装配引导信息，提升MR远程协同中协同信息的准确表达和作业效率。

为了解决目前基于MR的远程协同作业中装配引导信息表达不准确和不直观的问题，本发明提出一种基于深度学习的MR远程协同装配系统及方法。借助深度学习识别和定位物体，采用三维虚拟模型表达协同信息，采用VR为远程用户提供3D虚拟的沉浸式交互空间，采用AR为本地用户提供虚实融合的协同环境。

结合图1，一种采用深度学习定位装配件的MR远程协同系统主要包括：一个本地AR客户端、一个远程VR客户端、一个云服务器，其可以根据协同作业的需求扩展其它VR/AR客户端。

本地AR客户端是现场装配作业端。MR远程协同系统主要通过HoloLens 自带的相机和一个外部相机采集现场装配作业场景，外部相机采集的信息通过深度学习PVNet方法实现对装配件的六自由度位姿估计；然后将计算的物体位姿通过网络共享到远程VR端；AR端可通过虚实融合显示基于三维CAD模型表示的装配引导信息。

远程VR客户端。VR端将AR端共享的视频渲染在视野前方，感知本地装配作业的情况；VR用户可以采用HTC手柄与虚拟物体自然交互；当VR空间中与装配任务相对应的三维CAD模型位置发生变化时，系统会将位置信息共享到 AR端。

一种采用深度学习定位装配件的MR远程协同方法，包括步骤：

步骤1：调试AR子系统，AR端使用HoloLens连接云服务器同时将HoloLens 自带相机感知的画面实时通过云服务器共享到远程VR协同空间中展示；打开另一个固定视角感知装配作业场景的相机，也同时视频和语音共享至VR空间；同时将两个视频流(一个AR用户的运行视角一个是固定视频)渲染到VR用户的视野前面。

步骤1.1：系统运行前测试AR端可以连接云服务器，HoloLens能采集语音和视频信息。

步骤1.2：系统运行可根据装配作业的需求从云服务器加载协同资源，如图 2所示：通过Unity 3D平台制作预制体并导出，将协同资源的描述文件和预制体通过网络发送至云服务器，客户端从云服务器下载并加载协同资源。

步骤1.3：本发明中用到的三维模型分为两类，一类是可以在Unity 3D中直接生成的，另一类是装配件对应的虚拟三维模型。前者直接采集Unity 3D的建模功能直接生成，后者需要根据装配任务从企业的PDM或CAD库中调用，或直接采用CAD建模软件建模；然后将其三维模型在3ds Max中转化为obj格式；最后将其导入Unity 3D使用。

步骤1.4：系统中在VR和AR客户端各加载一份资源，为后面远程协同作业时协同信息的表达打下基础。

步骤2：调试VR子系统，VR端用户采用HTC Vive套件构建三维交互场景，远程VR端以Unity 3D为平台构建协同虚拟空间，确保系统可以稳定识别和追踪HTC VIVE手柄控制器。系统运行前测试VR端子系统可以连接云服务器， HTC VIVE能正确使用，确保在VR空间与装配件对应的三维虚拟模型模型的交互状态可以在本地用户的HoloLens视频中显示。

步骤3：协同任务开始前，AR端可通过深度学习算法实时估算装配件的位姿并训练模型，如图3所示，包括：

步骤3.1：线下提前训练数据集，制作深度学习PVNet训练数据集：(1) 通过人工标识码估算相机位姿，并建立世界坐标、物体坐标、相机坐标的相对转化关系。(2)使用PnP(Perspective-n-Point)求解相机位姿，并使用深度相机采集物体的点云信息，采用迭代最近点(Iterative Closest Point,ICP)算法利用点云进行相机位姿优化。(3)结合装配件点云与外部相机采集的RGB图像信息获得物体完整的点云模型，并采用MeshLab对三维点云模型做裁剪和修补，然后对点云模型进行泊松重建生成3D模型信息。(4)结合三维点云模型和相同视角下的RGB图像生成对应的掩膜图，并生成对每张图生成训练和测试标签，方便导入到网络中进行训练；

步骤3.2：采用制作的数据集训练PVNet识别和位姿估算的深度学习模型，其主要包括PVNet主干网络对图像的卷积运算、向量场景预测、语义分割、基于随机采样一致性投票、不确定性驱动的PNP来从2D关键点和3D映射的关系求解相机位姿。具体包括：基于像素投票的3D检测网络PVNet的线下训练和位姿估计主要包括四部分。(1)基于投票的关键点定位和选择:在2D图片上关键点投射到相应的3D物体上时如果选择包围物体的六面体的8个顶点进行像素投票就不能利用3D刚体物体本身非柔性的特性，故采用基于最远点采样(Farthest Point Sampling,FPS)算法在图片上进行特征点的选取。(2)不确定性驱动的PnP：给定每个物体的2D关键点位置，它的六自由度位姿可以通过使用现有的PnP求解器求解。通过结合不同置信度的关键点(随机采样的方法)提高算法位姿估计的鲁棒性。(3)保存线下训练好的PVNet模型用于在线估算物体实时位姿。

步骤3.3：对算法估计的位姿精度评估，基于测试集，判断所述深度学习模型的位姿精度是否小于设定值，若小于，则采用该深度学习模型，否则重复所述步骤直至获取满足精度要求的深度学习模型。

步骤4：协同任务开始后，AR端加载训练好的位姿估计模型来实时计算装配场景中装配件的位姿，如图4所示。

步骤4.1：装配现场通过固定视角相机采集的RGB图像信息以PVNet算法计算物体位姿，并以网络共享其计算的位姿信息至远程VR端。

步骤4.2：将共享的位姿信息赋给VR协同空间的三维虚拟模型模型，当AR 装配现场物理实物位姿变化时VR空间对应的虚拟物体位姿也会变化。

步骤5：协同任务中远程用户可通过共享的语音和视频感知装配现场的情况，如图5所示，包括：

步骤5.1：在VR协同空间展示的视频信息包括两部分，一部分是固定视角相机采集的信息，另一部分是HoloLens自带相机采集的AR用户视角信息。将两个视频信息分别渲染在VR用户的正方距离适中的位置即可。

步骤5.2：在语音信息的采集共享可以采用HoloLens和其相配套的 HoloToolkit开发软件实现，也可以根据实际的需求采用微信或QQ语音通话完成。

步骤6：远程VR与三维虚拟物体的交互如图6所示：

步骤6.1：设备与正确连接，激光定位器不能被其它东西遮挡，HTC VIVE 手柄可以实现稳定的定位；系统运行时用户戴上HTC VIVE头盔可以看到虚拟的HTC VIVE手柄。

步骤6.2：采用VRTK实现手柄与虚拟物体的自然交互，当交互的虚拟物体的颜色或位姿变化时其也会同时在AR端的HoloLens视野中看到。

步骤6.3：在VR空间中虚拟手柄与交互的对象之间的距离小于一定阈值后，系统启动碰撞检测功能；当两者有碰撞时，将HTC VIVE的动作映射到虚拟物体，并让交互虚拟物体的颜色变为绿色；当虚拟物体被放到目的地后，其绿色又恢复原来的颜色。

步骤6.4：物理装配件对应的三维模型位姿已实时计算且在两客户端保持一致时，为解决此时VR用户与物理装配件对应的三维模型交互时冲突的问题，提出了一种基于优先级的交互策略。

步骤6.5：这种策略根据两客户端的先后操作来动态变化，当本地用户先移动物理装配件时，远程VR空间对应的三维虚拟模型会同步变化，但在HoloLens 视野中不显示其虚拟模型；当远程用户先移动三维虚拟模型时，VR空间会自动复制一份三维虚拟模型，此时VR用户与三维虚拟模型交互时，HoloLens视野会看到三维模型的变化。

应当说明的是，所述的数字化标注、眼动、手势以及3D模型动画等多种操作引导方式并非严格按照以上步骤来执行，而是根据实际需要，可以灵活组合。

此外，本发明中未作详细阐明的技术是本领域公知技术，如HTC手柄的实时定位与追踪，如何使用VRTK二次开发实现交互，PVNet主干网络如何对图像卷积运算、向量场景预测、语义分割。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以做出若干改进或同等替换，这些改进和等同替换也应视为本发明的保护范围。

Claims

1.一种基于深度学习的MR远程协同装配系统，其特征在于，包括本地AR端、远程VR端以及云服务器；其中：

所述本地AR端用于采集装配作业的语音和视频信息并通过云服务器共享到远程VR端，同时通过训练好的深度学习模型实时获取装配部件的六自由度位姿，将装配件的位姿通过网络共享到远程VR端；并通过虚实融合显示远程VR端共享的装配引导信息；

所述远程VR端用于通过本地AR端共享的语音和视频构建本地端协同装配的场景，并以Unity 3D为平台构建三维协同虚拟模型，通过与三维虚拟物体模型交互通过云服务器向本地AR端共享装配引导视频信息。

2.根据权利要求1所述的MR远程协同装配系统，其特征在于，所述本地AR端包括HoloLens，HoloLens连接云服务器；通过HoloLens自带相机感知和一个外部相机采集现场装配作业视频信息，通过HoloLens可显示远程VR端共享的装配引导信息。

3.根据权利要求2所述的MR远程协同装配系统，其特征在于，所述深度学习模型是以PVNet为主干的深度学习模型，所述深度学习模型的训练方法为：

4.根据权利要求3所述的MR远程协同装配系统，其特征在于，所述对外部相机采集的RGB图像信息进行图像处理，获取PVNet训练数据集具体为：

5.根据权利要求4所述的MR远程协同装配系统，其特征在于，所述基于PVNet深度学习进行训练具体为：

采用最远点采样算法在语义分割图像上进行特征点的选取；

重复所述步骤直至模型收敛。

6.根据权利要求1所述的MR远程协同装配系统，其特征在于，所述以Unity3D为平台构建三维协同虚拟模型包括：(1)在Unity 3D中直接生成三维协同虚拟模型；(2)据装配任务从PDM或CAD库中获取三维协同虚拟模型，或直接采用CAD建模软件建立三维协同虚拟模型，将三维协同虚拟模型在3ds Max中转化为obj格式，导入Unity 3D。

7.根据权利要求1所述的MR远程协同装配系统，其特征在于，所述远程VR端采用HTCVive套件构建三维交互场景，通过HTC手柄与三维协同虚拟模型交互，所述装配作业的语音通过HoloLens和其相配套的HoloToolkit采集。

8.一种基于权利要求1～7任一所述的MR远程协同装配系统的MR远程协同装配方法，其特征在于，包括步骤：

远程VR端以通过本地AR端共享的语音和视频感知本地端协同装配的场景，并以Unity3D为平台构建三维协同虚拟模型，采用HTC手柄与三维虚拟物体模型交互向本地AR端共享装配引导视频信息；

本地AR端HoloLens显示装配引导视频信息，本地AR端进行装配。

9.根据权利要求8所述的MR远程协同装配方法，其特征在于，所述HTC手柄对应的虚拟手柄与交互的三维虚拟物体模型的距离小于一定阈值时，进行碰撞检测，当两者有碰撞时，将HTC手柄的动作映射到虚拟物体，并让交互虚拟物体的颜色变为绿色；当虚拟物体被放到目的地后，其绿色又恢复原来的颜色。

10.根据权利要求8所述的MR远程协同装配方法，其特征在于，当本地AR端与远程VR端的三维虚拟物体模型交互发生冲突时：如果本地AR端先移动物理装配件，远程VR端对应的三维虚拟物体模型会同步变化，但在HoloLens视野中不显示三维虚拟物体模型的变化；如果远程VR端先移动三维虚拟物体模型，远程VR空间自动复制一份三维虚拟物体模型，此时远程VR端与三维虚拟物体模型交互时，HoloLens视野可看到三维虚拟物体模型的变化。