CN110852223A

CN110852223A - 位姿匹配模型的强化学习方法、装置、及位姿匹配方法

Info

Publication number: CN110852223A
Application number: CN201911051948.9A
Authority: CN
Inventors: 谈飞; 戴嘉城
Original assignee: Taap Yi Hai (shanghai) Technology Co Ltd
Current assignee: Taap Yi Hai (shanghai) Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-28
Anticipated expiration: 2039-10-31
Also published as: CN110852223B

Abstract

本发明公开了位姿匹配模型的强化学习方法、装置、位姿匹配方法、网络训练设备及存储介质。其中，强化学习方法包括：在增强现实画面中，获取机器实体及对应的机器虚拟体；确定机器实体的位姿，以及机器虚拟体当前的位姿；根据机器实体的位姿及机器虚拟体当前的位姿，控制机器虚拟体采用一个动作；基于机器实体的位姿，以及机器虚拟体采用动作前后的位姿，评价动作，并更新位姿匹配模型的网络参数；判断当前是否满足结束此轮强化学习的预设匹配条件；若是，返回继续进行强化学习，否则，结束此轮强化学习。通过本发明，可让机器虚拟体根据机器实物的位置和姿势，自己进行旋转、平移操作，以实现在增强现实画面中的机器虚拟体与机器实体的位姿匹配。

Description

位姿匹配模型的强化学习方法、装置、及位姿匹配方法

技术领域

本发明涉及增强现实技术，尤其涉及位姿匹配模型的强化学习方法、装置、及位姿匹配方法。

背景技术

机器和装置的维护和维修成本很高。美国汽车维修行业产生620亿美元的年收入。全球电厂维护和维修市场是一个320亿美元的行业。到2020年，全球风力涡轮机运营和维护市场预计将达到170亿美元。这些成本的很大一部分包括教育、培训以及随后对这些行业的涉及人员进行各个层面的再培训。这些人员的培训通常需要旅行和专门课程。随着机器和技术的更新，人员可能需要接受再培训。目前，参考资料通常作为手册访问，具有书面步骤和图形-这种解决方案仅满足学习和理解的五种主要风格之一(视觉、逻辑、听觉、身体和语言)。

增强现实(Augmented Reality，简称AR)，增强现实技术也被称为扩增现实，AR增强现实技术是促使真实世界信息和虚拟世界信息内容之间综合在一起的较新的技术内容，其将原本在现实世界的空间范围中比较难以进行体验的实体信息在电脑等科学技术的基础上，实施模拟仿真处理，叠加将虚拟信息内容在真实世界中加以有效应用，并且在这一过程中能够被人类感官所感知，从而实现超越现实的感官体验。真实环境和虚拟物体之间重叠之后，能够在同一个画面以及空间中同时存在。增强现实技术不仅能够有效体现出真实世界的内容，也能够促使虚拟的信息内容显示出来，这些细腻内容相互补充和叠加。在视觉化的增强现实中，用户需要在头盔显示器的基础上，促使真实世界能够和电脑图形之间重合在一起，在重合之后可以充分看到真实的世界围绕着它。增强现实技术中主要有多媒体和三维建模以及场景融合等新的技术和手段，增强现实所提供的信息内容和人类能够感知的信息内容之间存在着明显不同。

应用增强现实技术(AR)可以使人们对于机器维修的学习和理解起到全面的帮助。而如何使得在增强现实画面中虚拟机器模型与机器实体快速匹配则是采用AR技术实现机器维修学习的一个难点，目前增强现实画面中虚拟体和实体一般是不同的内容，因此，很少会涉及到实体和实体对应的虚拟体的位姿匹配问题，即使需要用到，采用目前的增强显示技术也难以达到位姿匹配的精度及效率的要求。

因此，如何在增强现实画面中实现虚拟机器模型与机器实体的位姿(位置和姿势)快速匹配是目前亟需解决的技术问题。

发明内容

为了实现在增强现实画面中虚拟模型和实物的位姿快速匹配，本发明提供一种位姿匹配模型的强化学习方法、装置、及位姿匹配方法。具体的，本发明的技术方案如下：

第一方面，本发明公开了一种位姿匹配模型的强化学习方法，包括：

S11，在增强现实画面中，获取机器实体及对应的机器虚拟体；

S12，确定所述机器实体的位姿，以及所述机器虚拟体当前的位姿；

S13，根据所述机器实体的位姿及所述机器虚拟体当前的位姿，控制所述机器虚拟体采用一个动作；

S14，基于所述机器实体的位姿，以及所述机器虚拟体采用所述动作前后的位姿，评价所述动作，并更新位姿匹配模型的网络参数；

S15，判断当前是否满足结束此轮强化学习的预设匹配条件；若是，进入步骤S16，否则返回步骤S12；

S16，结束此轮强化学习。

优选地，所述步骤S15中结束此轮强化学习的预设匹配条件包括：

S151，所述机器虚拟体与所述机器实体的位姿匹配误差小于预设的阈值；和/或

S152，所述当前强化学习的迭代次数达到预设的最大迭代次数。

优选地，所述步骤S13包括：

S131，根据所述机器实体的位姿及所述机器虚拟体当前的位姿，从预设的基本动作集中随机选取一个动作；

S132，根据选取的所述动作生成一个动作指令，以控制所述机器虚拟体采取相应的动作。

优选地，所述基本动作集中包含的动作有：

沿X/Y/Z轴平移一个长度基本单位；

绕X/Y/Z轴旋转一个角度基本单位。

优选地，所述步骤S14中基于所述机器实体的位姿，以及所述机器虚拟体采用所述动作前后的位姿，评价所述动作包括：

S141，获取所述机器虚拟体采用所述动作后的位姿；

S142，计算所述机器虚拟体采用所述动作之前的位姿与所述机器实体的位姿之间的第一差距值，以及所述机器虚拟体采用所述动作之后的位姿与所述机器实体的位姿之间的第二差距值；

S143，判断所述第二差距值是否小于所述第一差距值；若是，进入步骤S144，否则，进入步骤S145；

S144，针对所述动作给予正面评价；

S145，针对所述动作给予负面评价。

优选地，所述步骤S144具体包括：S1441，根据所述第一差距值与所述第二差距值的差值，结合预设的正面评价打分策略，对所述动作进行评价值打分；

所述步骤S145具体包括：S1441，根据所述第二差距值与所述第一差距值的差值，结合预设的负面评价打分策略，对所述动作进行评价值打分。

第二方面，本发明公开了一种位姿匹配模型的强化学习装置，包括：对象获取模块，用于在增强现实画面中，获取机器实体及对应的机器虚拟体；位姿确定模块，用于确定所述机器实体的位姿，以及所述机器虚拟体当前的位姿；学习训练模块，用于根据所述机器实体的位姿及所述机器虚拟体当前的位姿，控制所述机器虚拟体采用一个动作；评价反馈模块，用于基于所述机器实体的位姿，以及所述机器虚拟体采用所述动作前后的位姿，评价所述动作；参数更新模块，用于根据动作的评价结果，更新位姿匹配模型的网络参数；条件判断模块，用于判断当前是否满足结束此轮强化学习的预设匹配条件。

优选地，所述条件判断模块包括：误差判断子模块，用于判断所述机器虚拟体与所述机器实体的位姿匹配误差是否小于预设的阈值；和/或次数判断子模块，用于判断所述当前强化学习的迭代次数是否达到预设的最大迭代次数。

优选地，所述学习训练模块包括：动作选取子模块，根据所述机器实体的位姿及所述机器虚拟体当前的位姿，从预设的基本动作集中随机选取一个动作；动作控制子模块，用于根据选取的所述动作生成一个动作指令，以控制所述机器虚拟体采取相应的动作。

优选地，所述基本动作集中包含的动作有：沿X/Y/Z轴平移一个长度基本单位；绕X/Y/Z轴旋转一个角度基本单位。

优选地，所述位姿确定模块，还用于获取所述机器虚拟体采用所述动作后的位姿；所述评价反馈模块包括：误差计算子模块，用于计算所述机器虚拟体采用所述动作之前的位姿与所述机器实体的位姿之间的第一差距值，以及所述机器虚拟体采用所述动作之后的位姿与所述机器实体的位姿之间的第二差距值；比较判断子模块，用于判断所述第二差距值是否小于所述第一差距值；评价打分子模块，用于当判定所述第二差距值小于所述第一差距值时，针对所述动作给予正面评价；当判定所述第二差距值大于或等于所述第一差距值时，针对所述动作给予负面评价。

优选地，所述评价打分子模块具体包括：差值计算单元，用于当判定所述第二差距值小于所述第一差距值时，计算所述第一差距值与所述第二差距值的差值；及当判定所述第二差距值大于或等于所述第一差距值时，计算所述第二差距值与所述第一差距值的差值；正面评价单元，用于根据所述第一差距值与所述第二差距值的差值，结合预设的正面评价打分策略，对所述动作进行评价值打分；负面评价单元，用于根据所述第二差距值与所述第一差距值的差值，结合预设的负面评价打分策略，对所述动作进行评价值打分。

第三方面，本发明还公开了一种基于位姿匹配模型的位姿匹配方法，该位姿匹配模型采用了本发明任一项所述的位姿匹配模型的强化学习方法进行了位姿匹配的强化学习；所述位姿匹配方法包括：

S21，获取机器实体当前的图像；

S22，识别所述机器实体当前的图像，获取相对应的机器虚拟体；

S23，获取所述机器实体与所述机器虚拟体的增强现实画面；

S24，将所述机器实体与所述机器虚拟体的增强现实画面输入通过强化学习训练好的位姿匹配模型中，输出得到控制所述机器虚拟体实现与所述当前机器实体位姿匹配的动作序列；

S25，根据所述动作序列生成相应的控制指令，控制所述机器虚拟体采取相应的动作序列，完成所述机器虚拟体的位姿与所述当前机器实体的位姿匹配。

优选地，所述步骤S24具体包括：

S241，获取输入的所述机器实体与所述机器虚拟体的增强现实画面；

S242，根据所述增强现实画面，获取所述机器实体及机器虚拟体当前的位姿；

S243，根据所述机器实体当前的位姿，以及所述机器虚拟体当前的位姿，获取当前各候选动作的评价值；

S244，选取评价值最高的候选动作作为所述机器虚拟体当前的目标动作；

S245，获取所述机器虚拟体若执行所述目标动作后的目标位姿，并将所述目标位姿作为所述机器虚拟体的当前位姿；

S246，判断所述机器虚拟体的当前位姿是否与所述机器实体当前的位姿匹配；若是，进入步骤S247，否则，返回步骤S243；

S247，获取所述机器虚拟体从初始位姿到最终位姿所采取的目标动作序列；

S248输出所述目标动作序列，作为控制所述机器虚拟体实现与所述当前机器实体位姿匹配的动作序列。

第四方面，本发明还公开了一种强化学习网络训练设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明任一项所述的位姿匹配模型的强化学习方法的步骤。

第五方面，本发明最后还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明任一项所述的位姿匹配模型的强化学习方法的步骤。

本发明至少包括以下一项技术效果：

(1)本发明中，位姿匹配模型采用了强化学习方法来实现在增强显示画面中机器虚拟体与机器实体的位姿匹配。具体的，获取到机器实体对应的机器虚拟体之后，再确定该机器虚拟体的当前位姿以及机器实体的当前位姿，然后控制机器虚拟体采取一个动作，再对该动作进行评价反馈，根据评价反馈结果更新模型的网络参数；如此不断往复学习训练，使得位姿匹配模型逐渐学习到采取最优的动作序列实现机器虚拟体与机器实体的快速匹配。

(2)本发明的强化学习中，对动作进行评价反馈，具体的，比较机器虚拟体采取动作前后的位姿与机器实体的位姿的差距，从而对于机器虚拟体采取动作后更接近机器实体的位姿的动作给予正面评价，相当于是给予奖励反馈；而对于机器虚拟体采取动作后未使得更接近机器实体的位姿的动作，则给予负面评价，相当于是给予处罚反馈；如此“赏罚分明”，可使得位姿匹配模型可在不断的“试错”中逐渐学习到，什么位置采取什么样的动作是最好的，是会获得正面评价的。

(3)本发明的强化学习中，除了可以对机器虚拟体采取的动作进行正面评价/负面评价反馈后，还可以对正面评价/负面评价进行评价值打分，进一步细化该动作的价值，从而可让位姿匹配模型更深入学习到当下位姿情况，采取哪个动作是最优的。

(4)采用本发明的位姿匹配方法，可以让机器的虚拟模型(机器虚拟体)根据机器实体的位置和姿势，自己采取一系列动作，比如旋转、平移操作等，以实现在增强现实画面中的机器虚拟体与机器实体的位姿快速匹配。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明位姿匹配模型的强化学习方法的实施例一的流程图；

图2为本发明位姿匹配模型的强化学习方法的实施例二的流程图；

图3为本发明位姿匹配模型的强化学习方法的实施例三的示意图；

图4为本发明位姿匹配模型的强化学习方法的实施例四的流程图；

图5为本发明位姿匹配模型的强化学习装置的实施例六的结构框图；

图6为本发明位姿匹配模型的强化学习装置的实施例七的结构框图；

图7为本发明基于位姿匹配模型的位姿匹配方法的实施例九的流程图；

图8为本发明中的位姿匹配模型的数据处理流程图；

图9为本发明强化学习网络训练设备的实施例十一的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘出了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

具体实现中，本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教机或平板计算机之类的其他便携式设备。还应当理解的是，在某些实施例中，所述终端设备并非便携式通信设备，而是具有触摸敏感表面(例如：触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端设备。然而，应当理解的是，终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。

终端设备支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例一

本发明公开了一种位姿匹配模型的强化学习方法，实施例一如图1所示，包括：

具体的，采用增强现实技术，通过摄像头拍摄识别到机器实体后，便可触发出该机器实体对应的机器虚拟体。不同的机器实体对应不同的机器虚拟体，机器虚拟体是机器实体的虚拟呈现。

具体的，通过增强现实的相关设备可以将机器实体和机器虚拟体在同一画面中呈现，因此，实际上本步骤是确定及其实体和机器虚拟体当前在增强显示画面中的位姿。其实现方式可结合现有的双目视觉/机器视觉来实现，当然，也可以采用其它现有技术来实现。

本发明中位姿指位置和姿势，也就是说要实现机器虚拟体与机器实体重合。例如，通过AR设备我们可以看到一个虚拟的车辆操纵杆，以及现实中的实体车辆操纵杆，这两车辆操纵杆大小、几何形状是一样的，而最终要实现的是虚拟的车辆操纵杆要与该实体的车辆操纵杆匹配，也就是说该虚拟的车辆操纵杆最终要完全覆盖(遮蔽)显示给用户的增强现实画面中的实体车辆操纵杆上。

具体的，获取到机器实体的位姿和机器虚拟体当前的位姿后，便会控制该机器虚拟体采取一个动作，这个动作在强化学习初期是随机的，比如沿X轴移动100个像素；沿Z轴旋转20度；又或者同时朝X轴和Y轴移动200个像素等等。

机器虚拟体采取了一个动作后，便需要对该动作进行评价反馈，告知机器匹配模型刚采取的这个动作“好还是不好”，也就是说评价该动作是否更有利于机器虚拟体与机器实体实现快速匹配。当然，该评价需要基于机器实体的位姿，以及机器虚拟体采取动作前后的位姿来作为依据。

结束此轮强化学习的匹配条件，可以根据自身需求进行预设，比如设定为所述机器虚拟体与所述机器实体的位姿匹配误差小于预设的阈值；或者所述当前强化学习的迭代次数达到预设的最大迭代次数。又或者两者均需达到要求方可结束本轮强化学习。

S16，结束此轮强化学习。

具体的，比如，当机器虚拟体的位姿与机器实体的位姿匹配误差达到了预设的阈值，那么便可结束此轮强化学习。反之，则需要返回继续进行强化学习。

当然，并不是一轮的强化学习便可使得位姿匹配模型具备快速进行位姿匹配的能力，而是需要大量的学习，每轮强化学习可以让机器实体处于不同的位置或姿势，如此反复大量的学习，使得位姿匹配模型的泛化能力达到要求，或者直到该位姿匹配模型收敛才结束强化学习。

实施例二

本发明位姿匹配模型的强化学习方法的第二个实施例，如图2所示，具体包括：

具体的，在强化学习过程中，机器虚拟体采取的动作都是随机的，当然动作的选取是由位姿匹配模型的网络参数来决定的，而最初进行强化学习时，默认设置的网络参数是随机从预设的基本动作集中选取一个动作。只有在不断的学习后，该网络参数得以不断更新，从而使得控制动作的选取越来越优，使其可根据机器虚拟体和机器实体当下的位姿来选取合适的动作。

此外，这里的基本动作集中的动作可以自行根据需求设定，比如设定基本动作集中的动作为：沿X/Y/Z轴平移一个长度基本单位；绕X/Y/Z轴旋转一个角度基本单位。假设一个长度基本单位为100像素，一个角度基本单位为5度。那么，该基本动作集中包含有动作：沿X/Y/Z轴平移100像素；绕X/Y/Z轴旋转5度。当然，也还可以根据需求设定其它的动作，比如同时朝X轴和Z轴平移100像素，又比如同时绕Y轴和Z轴顺时针旋转5度等。基本单位的大小可以根据实际需求进行调整，如果要求匹配精度高，则采用的基本单位可设定更小的值。当然，设定的基本单位值越精细，则需要耗费更多的强化学习的时间和样本。

S132，根据选取的所述动作生成一个动作指令，以控制所述机器虚拟体采取相应的动作；

具体的，选取好动作后，便会根据该动作生成一个动作指令，从而指示控制机器虚拟体进行相应的动作响应。

S153，判断所述机器虚拟体与所述机器实体的位姿匹配误差是否小于预设的阈值或所述当前强化学习的迭代次数是否达到预设的最大迭代次数；若是，进入步骤S16，否则返回步骤S12；

S16，结束此轮强化学习。

本实施例通过强化学习，最终实现让增强现实画面中的机器虚拟体根据机器实物的位置和姿势，自己进行旋转、平移操作，以实现与机器实体的位姿的快速匹配。

实施例三

本实施例中，强化学习中各个概念的实例如下：

环境environment：通过镜头观测到的机器实物所在空间；

智能体agent：机器模型；

状态state：通过镜头获得的机器实物视频帧；

动作action：(机器模型)沿x/y/z轴平移-100～100像素、绕x/y/z轴旋转-180°～180°；

回报reward：和状态中机器实物的实际位置和姿势(ground truth)的差距越小，reward越大；

策略policy：机器模型从初始状态转到最终状态所采取的动作序列；

基本事实ground truth：大量从不同角度观测的机器实物的实际位置和姿势的数据，用于计算reward。

强化学习流程，示意图如图3所示，包括：

第一步：获取和当前机器实物相对应的机器模型(agent)；

第二步：通过相机获取观测机器实物的当前场景图片和当前机器模型的位置和姿势(状态state)；

第三步：根据2中获取的场景图片和机器模型当前的位置和姿势，以及强化学习的参数，采用一个动作(action)；

第四步：通过当前状态机器实物的位置和姿势(ground truth)以及采取的动作(action)，计算相应的回报(reward)，并更新强化学习参数(相当于上述实施例中的位姿匹配模型的网络参数)；

第五步：返回第二步，直到机器模型的位置和角度与相应的ground truth的差别小于某个值；

第六步：返回第二步，直到达到强化学习的最大迭代次数。

通过上述这样一个流程，可以使得增强现实画面中的机器模型(机器虚拟体)采用最合适的策略(policy)来快速匹配机器实物的位置和姿势。

实施例四

本发明的位姿匹配模型的增强学习方法的实施例四如图4所示，包括：

S141，获取所述机器虚拟体采用所述动作后的位姿；

S144，针对所述动作给予正面评价；

S145，针对所述动作给予负面评价；

S146，更新位姿匹配模型的网络参数；

S15，判断所述机器虚拟体与所述机器实体的位姿匹配误差是否小于预设的阈值或所述当前强化学习的迭代次数是否达到预设的最大迭代次数；若是，进入步骤S16，否则返回步骤S12；

S16，结束此轮强化学习。

本实施例中，针对机器虚拟体采取的动作进行评价的基础，则是该机器虚拟体采取动作前后与机器实体的位姿差距。简单的说，如果该机器虚拟体采取该动作后其位姿更接近机器实体的位姿，那么便说明该动作是有利于位姿匹配的，那么便可给予该动作以正面评价，也就是给予奖励反馈；而采用该动作后，该机器虚拟体当前的位姿与机器实体的位姿匹配度更差了，那么便给予该动作以负面评价，也就是给予惩罚反馈。比如，在增强现实画面中，机器实体在机器虚拟体的左边，距离300像素左右，如果机器虚拟体采取的动作是向左平移了200像素，那么由于机器虚拟体采取该动作后距离机器实体更近了，因而便会对该动作给予正面评价；相反，如果机器虚拟体采取的动作是向右平移了200像素，从而使得机器虚拟体与机器实体的位置越来越远了，那么便会给予当前情况下，向右平移200像素的动作以负面评价。

位姿匹配模型在强化学习过程中，开始选取的动作一般都是随机的，你也无法预料到下一动作是什么，机器虚拟体根据位姿匹配模型的指令进行相应的动作响应，而每一个动作响应后，便会根据机器虚拟体动作相应前后的位姿，以及机器实体的位姿来评价该动作。通过不断的正面评价(奖励机制)的激励，从而使得位姿匹配模型通过增强学习，知道何种情况下采取何种动作更有利，从而可以最终实现机器虚拟体与机器实体的快速匹配。

实施例五

本实施例的位姿匹配模型的增强学习方法包括：

S141，获取所述机器虚拟体采用所述动作后的位姿；

S1441，根据所述第一差距值与所述第二差距值的差值，结合预设的正面评价打分策略，对所述动作进行评价值打分；

S1441，根据所述第二差距值与所述第一差距值的差值，结合预设的负面评价打分策略，对所述动作进行评价值打分。

S146，更新位姿匹配模型的网络参数；

S16，结束此轮强化学习。

具体的，本实施例在上述实施例的基础上进行了优化，上述实施例中只是简单的根据第一差距值和第二差距值的大小比较给予正面或负面评价，但并未对正面评价或负面评价的动作进行更细致的区分。而本实施例则对此进行了改善，具体的，本实施例针对还对正面评价的动作(第二差距值小于第一差距值)进行了细化打分，其可根据第一差距值与第二差距值的差值的大小，结合正面评价打分策略来对该动作进行评价值打分。比如，同样是正面评价的动作，采取动作A后的第一差距值与第二差距值的差值为a；采取动作B后的第一差距值与第二差距值的差值为b，如果a<b，那么，动作B的评价值分数更高。当然，具体的评价值各为多少，还需要根据正面评价打分策略来确定。正面评价打分策略的基本思想是根据第一差距值与第二差距值的差值大小而设定的不同的评价值分数，差值越大，评价值分数越高。

负面动作的评价值打分与之类似，只是其采取的打分策略与正面评价打分策略不同，对于负面评价的动作，第二差距值与第一差距值的差值越大，则其评价值分数越低。

通过本实施例的优化方案来进行增强学习，可以使得位姿匹配模型不仅可以学习到采取哪些动作可以有利于机器虚拟体与机器实体进行匹配，还可以更加快速的学习到当下采取哪个动作最有利于快速匹配。从而大大加速了快速匹配的效率，提升了用户体验。

实施例六

基于相同的技术构思，本实施例公开了一种位姿匹配模型的强化学习装置，该装置可采用上述任一实施例的强化学习方法来进行强化学习，具体的，本实施例的位姿匹配模型的强化学习装置如图5所示，包括：

对象获取模块10，用于在增强现实画面中，获取机器实体及对应的机器虚拟体；具体的，采用增强现实技术，可在增强现实画面中，同时观察获取到机器实体与机器虚拟体。

位姿确定模块20，用于确定所述机器实体的位姿，以及所述机器虚拟体当前的位姿；具体的，想要实现最后增强现实画面中的机器虚拟体与机器实体的位姿匹配，那么便需要确定最初机器实体与机器虚拟体的当前位姿，位姿确定的实现方法可采用现有技术实现，此处不做阐述。

学习训练模块30，用于根据所述机器实体的位姿及所述机器虚拟体当前的位姿，控制所述机器虚拟体采用一个动作；具体的，获取到机器实体的位姿和机器虚拟体当前的位姿后，便会控制该机器虚拟体采取一个动作，这个动作在强化学习初期是随机的，比如沿Y轴移动200个像素；沿X轴旋转15度；又或者同时朝Z轴和Y轴移动200个像素等等。

评价反馈模块40，用于基于所述机器实体的位姿，以及所述机器虚拟体采用所述动作前后的位姿，评价所述动作；具体的，机器虚拟体采取了一个动作后，便需要对该动作进行评价反馈，评价该动作是否更有利于机器虚拟体与机器实体实现快速匹配。当然，该评价需要基于机器实体的位姿，以及机器虚拟体采取动作前后的位姿来作为依据。

参数更新模块50，用于根据动作的评价结果，更新位姿匹配模型的网络参数；

具体的，这里的位姿匹配模型的网络参数，主要是用来根据机器实体及机器虚拟体当前的位姿，控制机器虚拟体采取相应动作。该网络参数在学习训练之初是控制位姿匹配模型随机选取动作控制机器虚拟体执行，只有在不断“试错”及“激励”(正面评价反馈)后，该网络参数不断得以更新，最终才慢慢学习到具体在哪种情况采取哪个动作。

条件判断模块60，用于判断当前是否满足结束此轮强化学习的预设匹配条件。具体的，结束此轮强化学习的匹配条件，可以根据自身需求进行预设，比如设定为所述机器虚拟体与所述机器实体的位姿匹配误差小于预设的阈值；或者所述当前强化学习的迭代次数达到预设的最大迭代次数。又或者两者均需达到要求方可结束本轮强化学习。如果当前情况满足了结束此轮强化学习的预设匹配条件，则可结束此轮的强化学习；当然，如果当前情况不满足结束此轮强化学习的预设匹配条件，则返回继续进行强化学习。

实施例七

本实施例的位姿匹配模型的强化学习装置，如图6所示，在上一装置实施例的基础上，所述条件判断模块60包括误差判断子模61块、和/或次数判断子模块62；其中：

误差判断子模块61，用于判断所述机器虚拟体与所述机器实体的位姿匹配误差是否小于预设的阈值；具体的，比如，当机器虚拟体的位姿与机器实体的位姿匹配误差达到了预设的阈值，那么便可结束此轮强化学习。反之，则需要返回继续进行强化学习

次数判断子模块62，用于判断所述当前强化学习的迭代次数是否达到预设的最大迭代次数。具体的，比如，设定的每轮强化学习的最大迭代次数为500次，那么如果当前强化学习的迭代次数达到了498次，也还没有实现机器虚拟体与机器实体的位姿匹配；经判断其还未达到最大迭代次数500次，那么便还需返回继续进行此轮的强化学习，直至达到500次，若达到了500次，即使该机器虚拟体与机器实体的位姿匹配误差还是没有达标，也可结束此轮强化学习。结束此轮的强化学习后，可再改变机器实体的位姿，从而进行下一轮的强化学习训练。通过大量基于不同位姿的机器实体的强化学习训练，从而最终训练出可快速实现机器虚拟体与机器实体实现快速匹配的位姿匹配模型。

较佳的，本实施例的另一实现方式中，在上述任一实施例的基础上，所述学习训练模块30包括：

动作选取子模块31，根据所述机器实体的位姿及所述机器虚拟体当前的位姿，从预设的基本动作集中随机选取一个动作；

本实施例中的基本动作集中的动作可以自行根据需求设定，比如设定基本动作集中的动作为：沿X/Y/Z轴平移一个长度基本单位；绕X/Y/Z轴旋转一个角度基本单位。假设一个长度基本单位为100像素，一个角度基本单位为5度。那么，该基本动作集中包含有动作：沿X/Y/Z轴平移100像素；绕X/Y/Z轴旋转5度。当然，也还可以根据需求设定其它的动作，比如同时朝X轴和Z轴平移100像素，又比如同时绕Y轴和Z轴顺时针旋转5度等。基本单位的大小可以根据实际需求进行调整，如果要求匹配精度高，则采用的基本单位可设定更小的值。当然，设定的基本单位值越精细，则需要耗费更多的强化学习的时间和样本。

动作控制子模块32，用于根据选取的所述动作生成一个动作指令，以控制所述机器虚拟体采取相应的动作。具体的，选取好动作后，便会根据该动作生成一个动作指令，从而指示控制机器虚拟体进行相应的动作响应。

实施例八

本实施例在上述任一装置实施例的基础上，如图6所示，所述位姿确定模块20，还用于获取所述机器虚拟体采用所述动作后的位姿；所述评价反馈模块40包括：

误差计算子模块41，用于计算所述机器虚拟体采用所述动作之前的位姿与所述机器实体的位姿之间的第一差距值，以及所述机器虚拟体采用所述动作之后的位姿与所述机器实体的位姿之间的第二差距值；

比较判断子模块42，用于判断所述第二差距值是否小于所述第一差距值；

评价打分子模块43，用于当判定所述第二差距值小于所述第一差距值时，针对所述动作给予正面评价；当判定所述第二差距值大于或等于所述第一差距值时，针对所述动作给予负面评价。

较佳的，所述评价打分子模块43具体包括：

差值计算单元，用于当判定所述第二差距值小于所述第一差距值时，计算所述第一差距值与所述第二差距值的差值；及当判定所述第二差距值大于或等于所述第一差距值时，计算所述第二差距值与所述第一差距值的差值；

正面评价单元，用于根据所述第一差距值与所述第二差距值的差值，结合预设的正面评价打分策略，对所述动作进行评价值打分；

负面评价单元，用于根据所述第二差距值与所述第一差距值的差值，结合预设的负面评价打分策略，对所述动作进行评价值打分。

具体的，本实施例在上述实施例的基础上进行了优化，上述实施例中只是简单的根据第一差距值和第二差距值的大小比较给予正面或负面评价，但并未对正面评价或负面评价的动作进行更细致的区分。而本实施例则对此进行了改善，具体的，本实施例针对还对正面评价的动作(第二差距值小于第一差距值)进行了细化打分，其可根据第一差距值与第二差距值的差值的大小，结合正面评价打分策略来对该动作进行评价值打分。当然，具体的评价值各为多少，还需要根据正面评价打分策略来确定。正面评价打分策略的基本思想是根据第一差距值与第二差距值的差值大小而设定的不同的评价值分数，差值越大，评价值分数越高。

实施例九

本实施例公开了一种基于位姿匹配模型的位姿匹配方法，该位姿匹配模型采用了本发明任一项所述的位姿匹配模型的强化学习方法进行了位姿匹配的强化学习；具体的，本实施例的位姿匹配方法如图7所示，包括：

S21，获取机器实体当前的图像；具体的，通过增强现实装备的镜头可观测到机器实体所在的空间，获取到机器实体的视频图像。

具体的，不同的机器实体对应有不同的机器虚拟体，获取到机器实体当前图像后，便可对其进行图像识别，识别出该机器实体后，从而触发获取到其相对应的机器虚拟体。比如，机器实体A对应的机器虚拟体为A′；机器实体B对应的机器虚拟体为B′。

S23，获取所述机器实体与所述机器虚拟体的增强现实画面；

具体的，通过增强现实装置可获取机器实体与机器虚拟体的增强现实画面。

具体的，该位姿匹配模型采用了本发明的强化学习方法实施例中的方法进行强化学习，通过强化学习训练好的位姿匹配模型具备了将机器虚拟体与机器实体实现快速位姿匹配的能力。因此，只需将机器实体与机器虚拟体的增强现实画面输入到该位姿匹配模型中，位姿匹配模型便可智能输出一系列动作序列，用于实现机器虚拟体与机器实体的快速匹配。

具体的，获取到位姿匹配模型输出的动作序列后，便可据此生成相应的控制指令，从而控制机器虚拟体采取相应的动作序列，最终实现机器虚拟体与机器实体的快速匹配。

实施例十

本实施例的基于位姿匹配模型的位姿匹配方法，在上述位姿匹配方法实施例的基础上，具体阐述了位姿匹配模型如何根据输入的增强现实画面实现机器虚拟体与机器实体的位姿匹配，具体的，位姿匹配模型的处理过程如图8所示，包括：

具体的，位姿匹配模型由于已经过强化学习训练，因而具备了根据当前机器实体与机器虚拟体的位姿情况，采取有利于快速实现位姿匹配的动作。而一般的，可能当前情况下，“正面评价”的动作可能不止一个，可能存在多个的情况，这些有利动作视为候选动作，而如何从这些候选中选取最佳的，则可根据各动作的评价值来进行选取。

具体的，分析当前的情况(机器实体与机器虚拟体的当前位姿)，获取当前各候选动作的评价值分数；然后，选取评价值最高的候选动作作为目标动作。然后计算出若机器虚拟体采取该动作后的位姿，并将其作为最新的机器虚拟体的当前位姿，然后判断机器实体与该机器虚拟体的最新的当前位姿有没有匹配，如果匹配上了，那么就只要输出该目标动作即可，如果还没有实现匹配，那么就需要返回再具体根据当前机器实体的位姿和机器虚拟体的最新的当前位姿，获取当下情况的候选动作的评价值，同样，选取里面评价值最高的候选动作作为目标动作，然后再获取机器虚拟体继续采取该目标动作后的位姿，作为该机器虚拟体的最新位姿；判断该机器虚拟体的最新位姿与机器实体的位姿是否匹配，若匹配则输出依次的动作序列，否则，再返回进行同样的上述操作。

实施例十一

本实施例公开了一种强化学习网络训练设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明任一项所述的位姿匹配模型的强化学习方法的步骤。

具体的，如图9所示，本实施例的强化学习网络训练设备包括：存储器1001、一个或多个(图中仅示出一个)处理器1002、外设接口1003、摄像模块1004、音频模块1005等。这些组件通过一条或多条通讯总线1007/信号线相互通讯。

可以理解，图9所示的结构仅仅为示意，并不是对强化学习网络训练设备的结构造成限定，本发明的强化学习网络训练设备还可以包括比图9所示更多或者更少的组件，或者具有与图9所示不同的装置。图9所示的各组件可以采用硬件、软件或其组合实现。

存储器1001可用于存储软件程序以及模块，如本发明实施例中的位姿匹配模型的强化学习方法实施例对应的程序指令/模块，处理器1001通过允许存储在存储器内的软件程序/模块，从而执行各种功能应用以及数据处理，即实现上述的位姿匹配模型的强化学习。

存储器1001可包括告诉随机存储器，还可包括非易失性存储器，比如一个或多个磁性存储装置、闪存或者其他非易失性固态存储器。所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

外设接口1003将各种输入/输出装置耦合至CPU一级存储器。处理器1002运行存储器内的各种软件、指令以实现设备的各种功能，以及进行数据处理。

摄像模块1004，用于拍摄视频，比如双目视觉采用的摄像头等。

音频模,1005，用于接收或发送声音信号，可包含一个或多个麦克风、一个或多个扬声器以及音频电路。

实施例十二

本实施例公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明任一项实施例所述的位姿匹配模型的强化学习方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种位姿匹配模型的强化学习方法，其特征在于，包括：

S16，结束此轮强化学习。

2.根据权利要求1所述的一种位姿匹配模型的强化学习方法，其特征在于，所述步骤S15中结束此轮强化学习的预设匹配条件包括：

3.根据权利要求1所述的一种位姿匹配模型的强化学习方法，其特征在于，所述步骤S13包括：

4.根据权利要求3所述的一种位姿匹配模型的强化学习方法，其特征在于，所述基本动作集中包含的动作有：

沿X/Y/Z轴平移一个长度基本单位；

绕X/Y/Z轴旋转一个角度基本单位。

5.根据权利要求1-4任一项所述的一种位姿匹配模型的强化学习方法，其特征在于，所述步骤S14中基于所述机器实体的位姿，以及所述机器虚拟体采用所述动作前后的位姿，评价所述动作包括：

S141，获取所述机器虚拟体采用所述动作后的位姿；

S144，针对所述动作给予正面评价；

S145，针对所述动作给予负面评价。

6.根据权利要求5所述的一种位姿匹配模型的强化学习方法，其特征在于，所述步骤S144具体包括：

所述步骤S145具体包括：

7.一种位姿匹配模型的强化学习装置，其特征在于，包括：

对象获取模块，用于在增强现实画面中，获取机器实体及对应的机器虚拟体；

位姿确定模块，用于确定所述机器实体的位姿，以及所述机器虚拟体当前的位姿；

学习训练模块，用于根据所述机器实体的位姿及所述机器虚拟体当前的位姿，控制所述机器虚拟体采用一个动作；

评价反馈模块，用于基于所述机器实体的位姿，以及所述机器虚拟体采用所述动作前后的位姿，评价所述动作；

参数更新模块，用于根据动作的评价结果，更新位姿匹配模型的网络参数；

条件判断模块，用于判断当前是否满足结束此轮强化学习的预设匹配条件。

8.根据权利要求7所述的一种位姿匹配模型的强化学习装置，其特征在于，所述条件判断模块包括：

误差判断子模块，用于判断所述机器虚拟体与所述机器实体的位姿匹配误差是否小于预设的阈值；和/或

次数判断子模块，用于判断所述当前强化学习的迭代次数是否达到预设的最大迭代次数。

9.根据权利要求7所述的一种位姿匹配模型的强化学习装置，其特征在于，所述学习训练模块包括：

动作选取子模块，根据所述机器实体的位姿及所述机器虚拟体当前的位姿，从预设的基本动作集中随机选取一个动作；

动作控制子模块，用于根据选取的所述动作生成一个动作指令，以控制所述机器虚拟体采取相应的动作。

10.根据权利要求9所述的一种位姿匹配模型的强化学习装置，其特征在于，所述基本动作集中包含的动作有：

沿X/Y/Z轴平移一个长度基本单位；

绕X/Y/Z轴旋转一个角度基本单位。

11.根据权利要求7-10任一项所述的一种位姿匹配模型的强化学习装置，其特征在于，

所述位姿确定模块，还用于获取所述机器虚拟体采用所述动作后的位姿；

所述评价反馈模块包括：

误差计算子模块，用于计算所述机器虚拟体采用所述动作之前的位姿与所述机器实体的位姿之间的第一差距值，以及所述机器虚拟体采用所述动作之后的位姿与所述机器实体的位姿之间的第二差距值；

比较判断子模块，用于判断所述第二差距值是否小于所述第一差距值；

评价打分子模块，用于当判定所述第二差距值小于所述第一差距值时，针对所述动作给予正面评价；当判定所述第二差距值大于或等于所述第一差距值时，针对所述动作给予负面评价。

12.根据权利要求11所述的一种位姿匹配模型的强化学习装置，其特征在于，所述评价打分子模块具体包括：

13.一种基于位姿匹配模型的位姿匹配方法，其特征在于，位姿匹配模型采用了权利要求1-6任一项所述的位姿匹配模型的强化学习方法进行了位姿匹配的强化学习；所述位姿匹配方法包括：

S21，获取机器实体当前的图像；

S23，获取所述机器实体与所述机器虚拟体的增强现实画面；

14.根据权利要求13所述的一种基于位姿匹配模型的位姿匹配方法，其特征在于，所述步骤S24具体包括：

15.一种强化学习网络训练设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6项所述方法的步骤。

16.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6项所述方法的步骤。