CN111273772B

CN111273772B - 基于slam测绘方法的增强现实交互方法、装置

Info

Publication number: CN111273772B
Application number: CN202010051561.XA
Authority: CN
Inventors: 陈旋; 周海; 李芳芳
Original assignee: Jiangsu Aijia Household Products Co Ltd
Current assignee: Jiangsu Aijia Household Products Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2022-07-08
Anticipated expiration: 2040-01-17
Also published as: CN111273772A

Abstract

本发明公开了一种基于slam测绘方法的增强现实交互方法、装置、计算机设备和存储介质，通过获取实际交互场景的视频图像，从视频图像提取场景的交互图，根据slam测绘算法对场景的交互图像进行匹配拼接，生成交互场景的数字化地图，根据交互用户输入的交互信息，将虚拟物体或者虚拟操作结果显示叠加在交互场景的数字化地图中，得到AR场景，采集交互动作所得到的执行数据，获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息，以在AR场景中控制目标对象的姿态，以在AR场景对目标对象进行准确控制，缩小AR场景与相应现实场景之间的差距，提升相应的用户体验。

Description

基于slam测绘方法的增强现实交互方法、装置

技术领域

本发明涉及增强现实技术领域，尤其涉及一种基于slam测绘方法的增强现实交互方法、装置、计算机设备和存储介质。

背景技术

增强现实场景通常涉及数字或虚拟图像信息的呈现，作为用户周围的实际世界的可视化的增强。目前比较常用的方法是通过slam算法根据输入端的数据计算场景3d信息，目前slam算法获得的数据主要用于地图数据重建，并未直接用于交互中。这样用户基于增强现实场景进行相应操作时，虚拟场景往往与现场场景的差距过大，容易影响相应的用户体验。

发明内容

针对以上问题，本发明提出一种基于slam测绘方法的增强现实交互方法、计算机设备和存储介质。

为实现本发明的目的，提供一种基于slam测绘方法的增强现实交互方法，包括如下步骤：

S10，获取实际交互场景的视频图像；

S20，从所述视频图像提取场景的交互图，根据slam测绘算法对场景的交互图像进行匹配拼接，生成交互场景的数字化地图；

S30，根据交互用户输入的交互信息，将虚拟物体或者虚拟操作结果显示叠加在交互场景的数字化地图中，得到AR场景；

S40，采集用户发出的交互动作所得到的执行数据，并获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息，根据估计位姿信息在AR场景中控制目标对象的姿态。

在一个实施例中，根据slam测绘算法对场景的交互图像进行匹配拼接包括：

根据选取的实际参照平面基准从交互图中提取场景的每帧图像数据，对每帧图像数据进行匹配和拼接。

作为一个实施例，根据选取的实际参照平面基准从交互图中提取场景的每帧图像数据，对每帧图像数据进行匹配和拼接包括：

利用图像特征提取识别方法，从已经采集到的每帧图像数据中，随机抽取k帧图像数据，提取图像中物体的特征数据，获取当前帧图像中的特征数据与k帧图像数据的特征数据之间的相似度，若相似度大于等于阈值γ，则将当前帧数据在已采集数据中存在，形成闭环，若相似度小于阈值γ，则返回执行从已经采集到的每帧图像数据中，随机抽取k帧图像数据的过程；如果k帧数据中未检测形成闭环，则将当前帧数据作为关键帧数据存储在采集数据的关键帧集合中。

在一个实施例中，在采集用户发出的交互动作所得到的执行数据之后，还包括：

识别用户发出的交互动作，对AR场景中的目标对象执行相应的操作，同时将操作输出到交互结果输出端进行显示。

作为一个实施例，识别用户发出的交互动作，对AR场景中的目标对象执行相应的操作包括：

如果用户发出的交互动作是数据采集设备的姿态或运动方向数据，则需要与采集设备进行通信执行相应的操作，同时将相应交互操作数据的执行结果数据跟理论数据进行误差计算，在误差超过一定容差范围时，进行纠偏操作。

一种基于slam测绘方法的增强现实交互装置，包括：

获取模块，用于获取实际交互场景的视频图像；

提取模块，用于从所述视频图像提取场景的交互图，根据slam测绘算法对场景的交互图像进行匹配拼接，生成交互场景的数字化地图；

叠加模块，用于根据交互用户输入的交互信息，将虚拟物体或者虚拟操作结果显示叠加在交互场景的数字化地图中，得到AR场景。

采集模块，用于采集用户发出的交互动作所得到的执行数据，并获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息，根据估计位姿信息在AR场景中控制目标对象的姿态。

在一个实施例中，所述提取模块进一步用于：

作为一个实施例，所述提取模块进一步用于：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例的基于slam测绘方法的增强现实交互方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例的基于slam测绘方法的增强现实交互方法的步骤。

上述基于slam测绘方法的增强现实交互方法、装置、计算机设备和存储介质，通过获取实际交互场景的视频图像，从所述视频图像提取场景的交互图，根据slam测绘算法对场景的交互图像进行匹配拼接，生成交互场景的数字化地图，根据交互用户输入的交互信息，将虚拟物体或者虚拟操作结果显示叠加在交互场景的数字化地图中，得到AR场景，采集用户发出的交互动作所得到的执行数据，并获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息，根据估计位姿信息在AR场景中控制目标对象的姿态，以在AR场景对目标对象进行准确控制，缩小AR场景与相应现实场景之间的差距，提升相应的用户体验。

附图说明

图1是一个实施例的基于slam测绘方法的增强现实交互方法流程图；

图2是另一个实施例的基于slam测绘方法的增强现实交互方法流程图；

图3是一个实施例的基于slam测绘方法的增强现实交互装置结构示意图；

图4是一个实施例的计算机设备示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在一个实施例中，如图1所示，提供了一种基于slam测绘方法的增强现实交互方法，包括以下步骤：

S10，获取实际交互场景的视频图像。

S20，从所述视频图像提取场景的交互图，根据slam测绘算法对场景的交互图像进行匹配拼接，生成交互场景的数字化地图。

S30，根据交互用户输入的交互信息，将虚拟物体或者虚拟操作结果显示叠加在交互场景的数字化地图中，得到AR场景。

本实施例可以根据输入端获取的实际交互场景的视频图像，根据slam测绘算法对场景的交互图像进行匹配拼接，生成交互场景的数字化地图；根据交互用户输入的交互信息，将虚拟物体或者虚拟操作结果显示叠加在交互场景结果中。通过终端设备执行AR场景中的交互动作，采集交互动作所得到的执行数据，并获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息。具体地，获取实际交互场景的视频图像的相机真实位姿信息和估计位姿信息，主要是存在交互操作动作或者相机因为硬件问题产生的误差消除，假如在第k个图像帧中，用户对场景中的虚拟物体执行了一个向某个方向N移动d单位长度的操作，根据虚拟场景数据与真实场景数据之间的映射关系，计算出真实相机的估计位姿值，根据当前数据帧计算的当前位姿值，获得位姿调整值。根据之后相机获取的图像数据计算当前相机的真实位姿信息，根据估计位姿值和真实位姿值之间的差值，当此差值不超过某个阈值α，则认为实际相机与虚拟场景中相机一致，否则根据差值进行相应的纠偏调整。其中视觉slam测绘，可以以双目摄像机作为数据输入源，将获得到的图像数据进行图像处理、匹配融合拼接，获得交互场景的地图数据，并对当前输入设备所处位置进行定位。根据交互操作用户的操作信息及用户手势识别操作，响应用户对虚拟对象或者物体的操作，和/或用户在实际交互环境中的操作在虚拟场景中的响应。

在一个示例中，运行上述基于slam测绘方法的增强现实交互方法的终端系统可以包括数据获取输入模块、交互操作输出响应模块、数据处理优化模块。数据获取输入模块：通过双目摄像机设备采集到的交互环境的视频数据、图像数据作为AR交互场景的输入数据信息，同时将后续数据优化中误差消除用到的当前数据采集时设备的位姿信息，作为后续数据处理的输入数据。交互操作响应模块：数据采集设备输入的视频图像数据中，通过特征识别算法提取到交互操作数据，如本系统中用户的手势操作，或者在虚拟物体所在空间位置的点击或者删除操作，通过与关键帧之间的匹配，以及交互手势输入操作查找匹配，响应对虚拟物体的操作以及虚拟场景数据到实际场景中数据的叠加融合。数据处理优化模块：根据交互操作输入，查找数据采集设备需要执行的操作步骤；数据采集设备采集到的场景数据匹配、拼接，交互场景地图生成、定位数据和运动轨迹误差消除等优化。

上述基于slam测绘方法的增强现实交互方法，通过获取实际交互场景的视频图像，从所述视频图像提取场景的交互图，根据slam测绘算法对场景的交互图像进行匹配拼接，生成交互场景的数字化地图，根据交互用户输入的交互信息，将虚拟物体或者虚拟操作结果显示叠加在交互场景的数字化地图中，得到AR场景，采集用户发出的交互动作所得到的执行数据，并获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息，根据估计位姿信息在AR场景中控制目标对象的姿态，以在AR场景对目标对象进行准确控制，缩小AR场景与相应现实场景之间的差距，提升相应的用户体验。

具体地，可以从交互图中提取场景的每帧图像数据，确定相应图像（如交互图）中的关键帧图像数据，对相应数据输入模块中的数据进行图像数据进行匹配拼接，以更新交互场景中的数字化地图图像数据。

具体地，上述利用图像特征提取识别方法可以包括如下过程：

从交互图等图像数据中提取特征数据点，根据图像数据中提取出的特征数据点，判断输入的图像数据与现有的图像数据中的特征数据点是否一致，特征点是否一致进而根据特征数据相似度进行判断。当特征数据相似度满足阈值要求，则对图像数据进行平移、旋转、或者缩放等操作，将需要进行匹配拼接的图像数据变换到同一个参照数据坐标系下，然后进行拼接操作。

在一个示例中，识别用户发出的交互动作的过程可以包括：

根据交互图等图像数据中提取特征数据点，将特征数据点与相应交互操作收拾进行相似度对比和匹配，或者根据识别出的用户交互操作手势所在空间位置对应的虚拟场景中的屏幕空间位置是否有操作按钮或者是否有可交互虚拟对象；如果有匹配手势或者操作按钮，则在下一帧交互虚拟环境中加载相应的交互响应内容。根据射线碰撞检测操作，在交互场景中计算查找交互操作中用户操作的虚拟对象。

在一个示例中，可以识别出的交互数据，进行交互操作会对虚拟场景中的虚拟相机执行旋转、移动等操作，则实际环境中的真实相机也应进行相应的旋转、移动等操作；根据真实世界中姿态调整之前的图像数据和空间姿态调整之后的图像数据，根据两个图像中的相同特征数据点和相机图像数据与相机变换矩阵之间的关系，计算出当前真实世界相机的空间姿态数据Pe，根据Pe和当前虚拟世界的相机姿态值Pr的差值，当此差值小于纠偏阈值γ时，则相机不用纠偏操作，否则将此误差作为相机姿态调整数据，发送给真实世界的相机设备进行纠偏操作。

在一个实施例中，上述基于slam测绘方法的增强现实交互方法，也可以参考图2所示。具体可以以双目摄像机采集的图像数据作为slam测绘方法处理的输入数据，根据采集设备的相机姿态，场景初始化时选取的实际参照平面基准，对采集到的每帧图像数据进行匹配、拼接，同时引入闭环检测操作减小或消除数据累计误差。利用图像特征提取识别方法，从已经采集到的现有数据帧中，随机抽取k帧图像数据，提取图像中物体的特征数据，对比当前帧图像中的特征数据与k帧图像数据的特征数据中，其相似度是否有大于等于阈值γ的，如果有则结束对比，此帧数据在已采集数据中存在，形成闭环，否则继续；如果k帧数据中未检测形成闭环，则将此帧数据作为关键帧数据存储在采集数据的关键帧集合中。

图像相似度对比中为了加快图像对比，首先将将图像中提取的物体数目，物体（如交互场景中的三维物体）特征轮廓进行对比，其相似度满足一定阈值β，才进行整个图像的所有特征数据对比。相似度s(A,B)，采用TF-IDF方法计算图像A,B两幅图像之间的相似度值，计算两幅图像相似度，使用L1范数形式：

，其中

表示A图像中特征数据的权重值，

代表特征数据，

代表特征数据的出现概率，

，N代表特征Wi包含的特征值数量，n代表所有特征数据数量。进一步地，A,B两幅图像的相似度计算方式，用于确定两幅图像的相似度，主要用来在slam方法中构建室内环境地图中查看当前帧图像与之前获取的关键帧图像中是否存在完全类似的图像，当此相似度小于某个阈值σ，可选地，阈值σ的取值为0.15，则认为A,B两幅图像完全一致，形成闭环。否则图像进行共同特征点匹配，进行图像拼接，形成新的室内场景地图。

当前帧数据中如果有用户交互数据的输入则根据实际执行结果图像与上一帧数据图像之间的对比，及当前采集设备的姿态信息，计算实际执行操作值，根据计算的实际执行操作值与交互操作值之间的误差，向数据采集设备输出误差纠偏操作。可选地，实际执行操作值的计算过程可以包括：利用Surf提取图像数据中的特征点，根据当前帧图像中的特征点与交互操作数据集中的交互操作图像进行匹配，获得当前交互操作手势。如果此手势为一系列连续操作，根据当前帧的前m帧图像数据，m通常取2，计算交互操作的方向和交互操作时长，将此操作转换为虚拟相机的姿态数据变换，即相机的位移、旋转或缩放操作。根据虚拟场景数据和真实环境数据之间的转换关系，将虚拟相机的变换数据转换为真实相机进行的姿态数据Pr。上述纠偏操作主要是消除交互操作时引入地图重构数据中的在图像匹配拼接中不能消除的误差，为了提供生成地图数据的准确性和可用性。

识别交互操作手势，如点选、删除、缩放等系统预定义用户操作手势，对虚拟场景对象执行相应的操作，同时将操作输出到交互结果输出端进行显示；如果用户操作的是数据采集设备的姿态、运动方向等数据，则需要与采集设备进行通信执行相应的操作，同时将相应交互操作数据的执行结果数据跟理论数据进行误差计算，在误差超过一定容差范围时，进行纠偏操作。从图像数据中通过图像匹配查找，计算输入图像数据中是否存在与交互操作手势相匹配的图像数据，如果存在，则执行数据操作。可选地，可以根据图像特征匹配算法，在交互操作中提供的可识别交互操作的数据图像，计算输入图像中是否存在交互操作特征数据，如果存在则执行交互操作，否则不执行。比如先利用Surf算法提取图像中的特征点，然后将此图像中的特征点数据作为待配准数据，与交互操作集中的交互操作作为参考数据，进行相似度计算，图像中存在交互操作相似特征数据，则计算此交互操作执行命令，计算交互响应数据。

在一个实施例中，参考图3所示，提供一种基于slam测绘方法的增强现实交互装置，包括：

获取模块10，用于获取实际交互场景的视频图像；

提取模块20，用于从所述视频图像提取场景的交互图，根据slam测绘算法对场景的交互图像进行匹配拼接，生成交互场景的数字化地图；

叠加模块30，用于根据交互用户输入的交互信息，将虚拟物体或者虚拟操作结果显示叠加在交互场景的数字化地图中，得到AR场景。

采集模块40，用于采集用户发出的交互动作所得到的执行数据，并获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息，根据估计位姿信息在AR场景中控制目标对象的姿态。

在一个实施例中，所述提取模块进一步用于：

作为一个实施例，所述提取模块进一步用于：

关于基于slam测绘方法的增强现实交互装置的具体限定可以参见上文中对于基于slam测绘方法的增强现实交互方法的限定，在此不再赘述。上述基于slam测绘方法的增强现实交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于slam测绘方法的增强现实交互方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于如上所述的示例，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种基于slam测绘方法的增强现实交互方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述基于slam测绘方法的增强现实交互方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

据此，在一个实施例中还提供一种计算机存储介质计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种基于slam测绘方法的增强现实交互方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于slam测绘方法的增强现实交互方法，其特征在于，包括如下步骤：

S10，获取实际交互场景的视频图像；

S40，采集用户发出的交互动作所得到的执行数据，并获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息，根据估计位姿信息在AR场景中控制目标对象的姿态；

根据选取的实际参照平面基准从交互图中提取场景的每帧图像数据，对每帧图像数据进行匹配和拼接包括：

2.根据权利要求1所述的基于slam测绘方法的增强现实交互方法，其特征在于，根据slam测绘算法对场景的交互图像进行匹配拼接包括：

3.根据权利要求1所述的基于slam测绘方法的增强现实交互方法，其特征在于，在采集用户发出的交互动作所得到的执行数据之后，还包括：

4.根据权利要求3所述的基于slam测绘方法的增强现实交互方法，其特征在于，识别用户发出的交互动作，对AR场景中的目标对象执行相应的操作包括：

5.一种基于slam测绘方法的增强现实交互装置，其特征在于，包括：

获取模块，用于获取实际交互场景的视频图像；

采集模块，用于采集用户发出的交互动作所得到的执行数据，并获取执行交互动作所对应的真实位姿信息，采用slam方法对执行数据进行处理得到交互动作对应的估计位姿信息，根据估计位姿信息在AR场景中控制目标对象的姿态；

所述提取模块进一步用于：

6.根据权利要求5所述的基于slam测绘方法的增强现实交互装置，其特征在于，所述提取模块进一步用于：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的基于slam测绘方法的增强现实交互方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的增强现实交互方法的步骤。