CN113628349A

CN113628349A - 基于场景内容自适应的ar导航方法、设备及可读存储介质

Info

Publication number: CN113628349A
Application number: CN202110902735.3A
Authority: CN
Inventors: 梅林�; 徐旭; 汪思远; 张亮; 朱光明; 冯明涛; 沈沛意
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-11-09
Anticipated expiration: 2041-08-06
Also published as: CN113628349B

Abstract

本发明公开了一种基于场景内容自适应的AR导航方法、设备及可读存储介质，所述方法包括：步骤1，设计数个虚拟形象，将其封装为数据结构，并添加数据结构索引；步骤2，训练深度学习神经网络；步骤3，进行路径规划；步骤4，获取移动中的实景图像，对其进行分类，若分类结果为数据结构索引，则跳转至步骤5；步骤5，继续对实景图像进行目标对象位置分割与语义分析，得到语义分析结果；步骤6，确定实景地点位置，计算虚拟形象尺寸和角度；步骤7，添加虚拟形象；步骤8，重复获取实景图像，对虚拟形象进行自适应调整；本发明能自适应调整虚拟形象的尺寸、角度等信息，提高虚拟形象与用户的交互效果。

Description

基于场景内容自适应的AR导航方法、设备及可读存储介质

技术领域

本发明属于增强现实(Augmented Reality，AR)技术领域，特别是涉及一种基于场景内容自适应的AR导航方法、设备及可读存储介质。

背景技术

增强现实(Augmented Reality，AR)技术是一种在当前设备摄像机拍到的实景图像中添加虚拟信息的技术，所述虚拟信息包括文字、图像、三维模型动画、音乐、视频等，给用户提供了一种新的交互体验。

在导航场景中，由于周边场景复杂、导航路线无法清晰辨认、导航效果差等原因，用户无法快速、及时地到达目的地，因此在导航场景中使用增强现实技术能提升用户在复杂场景下的导航体验需求。

发明内容

本发明实施例的目的在于提供一种基于场景内容自适应的AR导航方法，通过对实景图像进行分类和语义分割，实时计算虚拟形象的角度和尺寸，并对其在实景图像中的显示结果进行自适应调整，提升了用户与导航界面的交互体验。

本发明实施例的目的还在于提供一种电子设备和可读存储介质。

本发明实施例所采用的技术方案是，基于场景内容自适应的AR导航方法，具体包括以下步骤：

步骤1，实时获取移动设备移动过程中的实景图像，确定要添加的虚拟形象；

步骤2，利用深度学习神经网络对实景图像进行目标对象位置分割和语义分析，确定虚拟形象位置和语义分析结果；

步骤3，根据虚拟形象位置确定对应的实景地点位置，基于实景地点位置、移动设备当前位置及语义分割结果确定虚拟形象的尺寸和角度；

步骤4，根据虚拟形象位置、虚拟形象尺寸和角度，将虚拟形象添加在实景图像中形成AR导航结果；

步骤5，持续采集移动过程中的实景图像，判断当前实景图像与前一帧实景图像的相似度，若两者相似度较高，则重复步骤3～4，自适应调整虚拟形象的尺寸和角度，若两者相似度较低，则重复步骤1～4，自适应添加和调整虚拟形象。

进一步的，确定要添加的虚拟形象的过程如下：

步骤1-1，对应各实景图像设计数个虚拟形象，将其封装为数据结构，并为数据结构添加相应的索引；

步骤1-2，将各虚拟形象对应的实景图像作为特征图像，训练深度学习神经网络；

步骤1-3，利用深度学习神经网络对获取的实景图像进行分类，若分类结果为null，则重新获取实景图像重复分类操作，直至分类结果为数据结构索引，将该索引对应的虚拟形象作为要添加的虚拟形象。

进一步的，所述数据结构还包括虚拟形象位置、虚拟形象尺寸和角度、实景地点位置和语义分割结果；

所述虚拟形象位置为虚拟形象在移动设备显示屏中的添加位置；

所述虚拟形象尺寸和角度为虚拟形象在移动设备显示屏中的尺寸和角度；

所述实景地点位置为虚拟形象位置对应的实景地点的经纬度、高度信息；

所述语义分割结果为实景图像中各物体之间的位置关系。

进一步的，所述深度学习神经网络由分类模块和语义分割模块组成，所述语义分割模块由Resnet网络、金字塔池化模块、上采样层、连接层和输出层依次连接组成；

所述Resnet网络用于提取实景图像的特征得到原始特征图；

所述金字塔池化模块用于提取原始特征图中的多级上下文信息，再将其聚合；

所述上采样层用于将不同维度的特征图上采样到与原始特征图相同的尺寸；

所述连接层用于将原始特征图与上采样后的特征图拼接；

所述输出层用于对拼接图像进行卷积操作得到语义分析结果。

一种电子设备，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明实施例的有益效果是：使用Resnet网络对实景图像进行分类和语义分割，确定实景图像中各实景对象之间的位置关系，结合虚拟形象添加的常规要求(如不遮挡各物体、与特定物体交互等)，获得待添加的虚拟形象及虚拟形象在实景图像中的添加位置，再基于虚拟形象对应实景地点的经纬度、高度信息和移动设备信息确定虚拟形象的尺寸和角度，对虚拟形象在导航界面的显示效果进行自适应调整，提高了用户的交互体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的AR导航流程图。

图2是本发明实施例的数据结构示意图。

图3是本发明实施例的深度学习神经网络处理输入图像的流程图。

图4是本发明实施例的自适应虚拟形象尺寸示意图。

图5是本发明实施例的自适应虚拟形象角度示意图。

图6是本发明实施例导航效果显示图。

图7是深度学习神经网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，基于场景内容自适应的AR导航方法，具体包括以下步骤：

步骤S1，对应各实景图像设计数个虚拟形象，将其封装为数据结构，并为数据结构添加相应的索引，如图2所示，所述数据结构还包括虚拟形象位置、虚拟形象尺寸和角度、实景地点位置及语义分析结果，用其对各虚拟形象进行管理更加灵活；

虚拟形象为移动设备需要交互时，展示的三维虚拟形象、二维图片、动画或文字等交互性信息；

虚拟形象位置为虚拟形象在移动设备显示屏中的添加位置；

虚拟形象尺寸和角度为虚拟形象在移动设备显示屏中的尺寸和角度，其值根据移动设备当前位置与实景地点位置的确定；

实景地点位置为虚拟形象添加位置对应的实景地点的经纬度、高度信息；

语义分割结果为实景图像中各物体之间的位置关系；

步骤S2，将各虚拟形象对应的实景图像作为图像，训练深度学习神经网络；

所述深度学习神经网络包括分类模块和语义分割模块，其训练过程也分为两个阶段，第一阶段对所有特征图像进行正确分类，分类结果为特征图像对应的数据结构索引或null；

第二阶段对分类完成的特征图像进行目标对象位置分割和语义分析，学习如何在特征图像中找到对应目标对象位置，得到图像中各物体的关系，及虚拟形象相较于目标对象需要显示的相对位置。

语义分割模块以Resnet网络架构为主干网络，Resnet网络相较于其他深度学习网络，使用层间残差连跳引入前方信息，减少了梯度消失，其网络可以变得很深从而提取到性能更好的信息；语义分割模块结构如图7所示，由Resnet网络、金字塔池化模块、上采样层、连接层和输出层依次连接组成，其首先使用ResNet网络提取输入的实景图像的特征得到原始特征图，再对原始特征图进行金字塔池化，获取不同子区域的上下文信息，使用1*1大小的卷积核对池化后的特征图进行卷积操作，使深度维度的特征信息聚合起来，对聚合后的特征图进行上采样，将各特征图的尺寸上采样到原实景图像的尺寸，连接层对原始特征图和上采样后的各特征图进行拼接，最后通过输出层对其进行卷积操作得到最终的预测图；本发明实施例提取的原始特征图维度为2048，使用四层金字塔池化模块对其进行池化，金字塔池化的尺寸分别为1*1、2*2、3*3和6*6，拼接得到的特征图大小为4096，使用3*3*4096的卷积核对其进行卷积得到预测图；

步骤S3，根据移动设备的当前位置和目的地位置进行路径规划；

步骤S4，获取移动设备按规划路径移动时的实景图像，将实景图像输入深度学习神经网络进行图像分类，如图3所示，若分类结果为null，代表该实景图像不对应任一虚拟形象，不参与AR处理，直接将该实景图像显示在移动设备上，重新获取下一帧实景图像重复图像分类操作；

若分类结果为数据结构索引，则继续对该实景图像进行目标对象位置分割和语义分析，得到实景图像的语义分割结果，基于该语义分割结果中各实景对象的相对位置关系确定虚拟形象位置，为叠加导航交互信息做准备；

步骤S5，根据虚拟形象位置确定对应的实景地点位置，基于实景地点位置、移动设备当前位置及语义分割结果，计算虚拟形象相对于移动设备的角度以及虚拟形象在移动设备显示屏上的大小，对显示的虚拟形象进行自适应调整，使用户认为虚拟形象始终在与其进行交互，提高用户的交互体验；

虚拟形象角度计算如下：

y＝sin(lon_b-lon_a)*cos(lat_b)

x＝cos(lat_a)*sin(lat_b)-sin(lat_a)*cos(lat_b)*cos(lon_b-lon_a)

brng＝atan(y,x)

其中x、y均为计算过程的中间变量，(lon_a,lat_a)表示移动设备当前的经纬度信息，(lon_b,lat_b)表示实景地点位置的经纬度信息，brng表示虚拟形象角度的弧度值。

虚拟形象尺寸确定过程如下：

lon＝rad_lon_a-rad_lon_b

lat＝rad_lat_a-rad_lat_b

dis_1＝2*arcsin(sqrt((sin(lat/2))²+cos(rad_lat_a)*cos(rad_lat_b)*(sin(lon/2))²))*ea_radius

dis_2＝hei_a-hei_b

dis＝sqrt(dis_1²+dis_2²)

其中rad_lon_a、rad_lat_a分别为lon_a、lat_a的弧度值，rad_lon_b、rad_lat_b分别为lon_b、lat_b的弧度值，lat、lon、dis_1、dis_2均为中间计算结果，ea_radius为地球赤道半径，hei_a、hei_b分别为当前设备、实景地点位置的高度，dis为当前设备位置与实景地点位置的距离，可根据dis、实景对象的尺寸及移动设备显示屏的大小确定虚拟形象的尺寸，随着移动设备靠近和远离实景对象，实现虚拟形象显示的大小自适应调节；

步骤S6，根据数据结构中虚拟形象位置、虚拟形象尺寸和角度，将虚拟形象添加在实景图像中形成AR导航结果，将AR导航结果与路径导航结果叠加显示在移动设备中，导航结果如图6所示，上半部分为AR导航结果，导航交互箭头为添加的虚拟形象，下半部分为路径导航结果；

步骤S7，继续采集移动设备移动过程中的实景图像，将当前实景图像与前一帧实景图像进行相似度差异对比，若相似度差异对比小于阈值，则重复步骤S5、S6，自适应调整虚拟形象的显示尺寸和角度，若当前实景图像与前一帧实景图像差别较大，则重复步骤S4-S6重新为当前实景图像匹配虚拟形象，完成移动过程中虚拟形象的自适应添加和调整。

本发明使用图像间的欧式距离作为图像相似度差异对比的衡量指标，即比较两个图像中各对应位置像素差的平方和，再开根号的结果，欧氏距离可以有效表达图像间的差异，若当前实景图像中20％及以上的像素与前一帧图像存在差异，则认为当前图像的内容发生了较大变化，需重新为当前实景图像匹配虚拟形象。

由于本发明在实现层面为面向实景对象，所以各个实景对象对应的虚拟形象数据结构互不干扰，只需根据实景图像中的各实景对象生成相应的虚拟形象，在实景图像分类结果与多个数据结构索引匹配时，基于步骤4确定多个虚拟形象位置，重复步骤5确定各虚拟形象的角度和尺寸，添加相应的虚拟形象实现交互。

目前的大多数AR相关方法均在确定虚拟形象后，直接将虚拟形象与当前实景图像叠加显示，在导航过程中无法根据实景图像自适应调整虚拟形象的角度和位置，而本发明实施例通过对实景图像进行分类和语义分析，实时调整实景图像中添加的虚拟形象，包括对虚拟形象种类、数量、添加位置的调整，并基于虚拟形象添加位置对应的实际地点与移动设备的相对位置，以及实景对象的尺寸计算虚拟形象在移动设备上的显示尺寸和角度，实现对虚拟形象尺寸和角度的自适应调节，使虚拟形象与用户的交互更加流畅，提高了用户的交互体验。

如图6所示，使用本发明实施例进行导航时，可以准确地对实景图像进行语义分析获得实景对象——人行道的位置，在人行道的中间位置添加导航交互箭头，并根据人行道的宽度和弯曲程度，对导航交互箭头的大小和弯曲程度进行自适应调整，随着实景对象与移动设备之间距离的增大，导航交互箭头在尺寸上有明显的变换，达到良好的交互效果。

当移动设备的位置和角度发生变化后，如图4、图5所示虚拟形象的尺寸和位置也会自适应的发生调整，达到根据移动设备当前状态自适应调整虚拟形象的效果；图4中移动设备从位置1移动到位置2，在位置1和位置2上移动设备拍摄的实景图像均能捕捉到实景对象，位置2相较于位置1更靠近实景对象，在位置2处移动设备中显示的虚拟形象较于位置1的，从视觉显示上尺寸应该更大；图5中移动设备从位置1移动到位置2，移动设备相对于实景对象的角度发生了变化，基于此自适应调整添加在实景对象处的虚拟形象的角度，以获得更好的交互体验。

本发明还包含一种电子设备，包括存储器和处理器，所述存储器用于存储各种计算机程序指令，所述处理器用于执行所述计算机程序指令，完成实景图像的分类、目标对象位置分割和语义分析、虚拟形象尺寸和角度计算等过程，进而实现AR导航；电子设备可以与一个或多个外部设备通信，还可与一个或多个使用户与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信，电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信。

本发明还包括一种存储有计算机程序的计算机可读存储介质，该计算机程序可以被处理器执行，以完成上述全部或部分步骤，所述计算机可读介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备，此外本发明所述的可读存储介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质，术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于场景内容自适应的AR导航方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于场景内容自适应的AR导航方法，其特征在于，确定要添加的虚拟形象的过程如下：

3.根据权利要求2所述的基于场景内容自适应的AR导航方法，其特征在于，所述数据结构还包括虚拟形象位置、虚拟形象尺寸和角度、实景地点位置和语义分割结果；

所述语义分割结果为实景图像中各物体之间的位置关系。

4.根据权利要求1所述的基于场景内容自适应的AR导航方法，其特征在于，所述深度学习神经网络由分类模块和语义分割模块组成，所述语义分割模块由Resnet网络、金字塔池化模块、上采样层、连接层和输出层依次连接组成；

所述Resnet网络用于提取实景图像的特征得到原始特征图；

所述连接层用于将原始特征图与上采样后的特征图拼接；

5.一种电子设备，其特征在于，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。