CN112230765A

CN112230765A - Ar显示方法、ar显示设备和计算机可读存储介质

Info

Publication number: CN112230765A
Application number: CN202011049045.XA
Authority: CN
Inventors: 赵维奇
Original assignee: Hangzhou Companion Technology Co ltd
Current assignee: Hangzhou Companion Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-15

Abstract

本申请涉及一种AR显示方法、AR显示设备和计算机可读存储介质，其中，AR显示方法包括：通过摄像头获取用户视野所及的空间区域的实时图像；从实时图像中识别岀目标对象；确定目标对象与摄像头之间的距离；根据距离，从预先存储的与目标对象关联的多个多媒体素材中确定目标多媒体素材；将目标多媒体素材叠加于用户视野所及的空间区域。通过本申请，解决了相关技术中基于AR的显示方案所呈现的对象与用户之间缺乏交互的问题，在基于AR的显示方案中提升了与用户之间的交互性。

Description

AR显示方法、AR显示设备和计算机可读存储介质

技术领域

本申请涉及增强现实技术领域，特别是涉及一种AR显示方法、AR显示设备和计算机可读存储介质。

背景技术

导视系统是结合环境与人之间的关系的信息界面系统，传统的导视系统主要分为两类，一类为传统地图导视系统，一类为发光二极管(Light Emitting Diode，LED)导视系统。传统地图导视牌的引导流程是通过实体地图传达周边信息，不具扩展性，且传达形式相对落后，用户难以明确方向与距离，不够直观；而LED导视系统虽然能够一定程度上改善传统地图导视牌的缺点，但由于其需要实体高精度可触控屏幕作为操作接口，其生产造价与维护难度、成本均远高于传统地图导视牌，故不具备可扩展性。

针对这一问题，相关技术提出了基于增强现实(Augmented Reality，简称为AR)的导览方案，在先专利(申请号为201710278330.0)公开了一种基于增强现实技术的景观导视方法，通过以下步骤实现：

步骤1：用户打开客户端，通过移动电子设备采集用户周围实时图像信息；步骤2：基于预置标志物图像信息，将采集的图像信息进行图像识别处理，判断当前帧图像内是否有与预置标志物匹配的标志物；若有，则进行步骤3a：根据当前识别出来的标志物的即时位置及当前用户的朝向，实时构建用户周围3D地图；若没有，则进行步骤3b：根据用户当前坐标，选取距离用户一定范围内的预设标志物，并进行步骤3c：通过指向加距离同时显示的形式引导用户前往预设标志物，步骤3c之后进行步骤3a；步骤3a之后进行步骤4：基于建立的3D地图，在地图中的标志物上生成可供点击选择的按钮；步骤5：用户通过按钮选择相应类型的标志物，并在3D地图中的标志物上生成多种功能扩展选项。

在上述基于AR的场景导览方案中，AR设备所呈现的对象与用户之间缺乏交互，导览方式单一。

目前针对相关技术中基于AR的显示方案所呈现的对象与用户之间缺乏交互的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种AR显示方法、AR显示设备和计算机可读存储介质，以至少解决相关技术中基于AR的显示方案所呈现的对象与用户之间缺乏交互的问题。

第一方面，本申请实施例提供了一种AR显示方法，包括：通过摄像头获取用户视野所及的空间区域的实时图像；从所述实时图像中识别岀目标对象；确定所述目标对象与所述摄像头之间的距离；根据所述距离，从预先存储的与所述目标对象关联的多个多媒体素材中确定目标多媒体素材；将所述目标多媒体素材叠加于所述用户视野所及的所述空间区域。

在其中一些实施例中，确定所述目标对象与所述摄像头之间的距离包括：通过与所述摄像头相对静止的深度传感器测量所述目标对象与所述摄像头之间的距离。

在其中一些实施例中，确定所述目标对象与所述摄像头之间的距离包括：获取所述目标对象的实际尺寸；根据所述实时图像中所述目标对象的图像的像素尺寸，以及所述摄像头的每个像素代表的空间尺寸，确定所述目标对象在所述摄像头的物方焦平面上成像的成像尺寸；根据所述物方焦平面距离所述摄像头的距离，以及所述实际尺寸与所述投影尺寸的比例关系，确定所述目标对象与所述摄像头之间的距离。

在其中一些实施例中，所述方法还包括：预先存储与所述目标对象关联的多个多媒体素材及多媒体素材分别对应的预设距离范围；根据所述距离，从预先存储的与所述目标对象关联的多个多媒体素材中确定目标多媒体素材包括：确定所述距离所落入的预设距离范围；确定所述目标对象关联的多个多媒体素材中与所述距离所落入的预设距离范围对应的多媒体素材为所述目标多媒体素材。

在其中一些实施例中，所述多媒体素材包括以下至少之一：文本、图像、视频；其中，随着所述目标对象与所述摄像头之间的距离的增大，所述目标多媒体素材中包含所述目标对象的信息量越少；随着所述目标对象与所述摄像头之间的距离的减小，所述目标多媒体素材中包含所述目标对象的信息量越多。

在其中一些实施例中，所述方法还包括：根据所述实时图像，识别所述实时图像对应的场景类型，其中，所述场景类型至少包括以下之一：展厅场景、展区场景和展品场景；在根据所述距离，从预先存储的与所述目标对象关联的多个多媒体素材中确定目标多媒体素材之前，所述方法还包括：根据所述实时图像对应的场景类型，确定与所述目标对象关联的多个所述多媒体素材。

在其中一些实施例中，在从所述实时图像中识别岀目标对象之前，所述方法还包括：在从所述实时图像中识别到多个对象的情况下，根据包括以下至少之一的方式确定所述目标对象：获取用户的眼动轨迹，根据所述眼动轨迹，在多个所述对象中选择其中一个对象作为所述目标对象；获取用户的语音信息，根据所述语音信息，在多个所述对象中选择其中一个对象作为所述目标对象；获取所述摄像头的对焦信息，根据所述对焦信息，在多个所述对象中选择其中一个对象作为所述目标对象。

在其中一些实施例中，从所述实时图像中识别岀目标对象包括：采用经训练的卷积神经网络提取所述实时图像的特征；将所述实时图像的特征输入至分类器，得到分类结果；根据所述分类结果识别出所述实时图像中的所述目标对象。

第二方面，本申请实施例提供了一种AR显示设备，包括：设备框架、摄像头、输出模块、主控模块以及电源模块；所述摄像头和所述输出模块设置于所述设备框架上，所述主控模块分别与所述摄像头和所述输出模块电连接，所述电源模块分别为所述摄像头、所述输出模块和所述主控模块电连接；其中，所述摄像头用于获取用户视野所及的空间区域的实时图像；所述输出模块用于呈现多媒体素材；所述主控模块包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的AR显示方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，在其中一些实施例中，所述程序被处理器执行时实现如上述第一方面所述的AR显示方法。

相比于相关技术，本申请实施例提供的AR显示方法、AR显示设备和计算机可读存储介质，通过摄像头获取用户视野所及的空间区域的实时图像；从实时图像中识别岀目标对象；确定目标对象与摄像头之间的距离；根据距离，从预先存储的与目标对象关联的多个多媒体素材中确定目标多媒体素材；将目标多媒体素材叠加于用户视野所及的空间区域，解决了相关技术中基于AR的显示方案所呈现的对象与用户之间缺乏交互的问题，在基于AR的显示方案中提升了与用户之间的交互性。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的AR显示方法的流程图；

图2是根据本申请实施例的距离计算原理示意图；

图3是根据本申请实施例的AR显示设备的结构示意图；

图4是根据本申请实施例的主控模块的硬件结构示意图；

图5是根据本申请实施例的AR显示装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所做出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请中描述的各种技术可以用于各种展览场景的显示，例如博物馆、植物园、动物园以及画展，本申请并不限定。

本实施例提供了一种AR显示方法，图1是根据本申请实施例的AR显示方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，通过摄像头获取用户视野所及的空间区域的实时图像。

实时图像可以是捕获处于空间区域中的三维实体所形成的图像，例如刀具、树枝以及鸟，也可以是捕获处于空间区域中的二维实体所形成的图像，例如文字和图像。

步骤S102，从实时图像中识别岀目标对象。

目标对象可以是预设标识物，比如二维码，也可以是供用户浏览的实体。识别方法可以是对实时图像进行目标识别处理，确定实时图像中的目标对象。从实时图像中识别岀目标对象包括：采用经训练的卷积神经网络提取实时图像的特征；将实时图像的特征输入至分类器，得到分类结果；根据分类结果识别出实时图像中的目标对象。该卷积神经网络可以预先训练，例如，先获取预设图像，对预设图像进行特征提取处理，得到预设特征，根据预设特征训练得到该卷积神经网络，以用于对实时图像进行图像识别处理。

此外，本发明的一个或多个实施例可以通过SIFT(Scale-invariant featurestransform，尺度不变特征变换)、HOG(histogram of Oriented Gradient，方向梯度直方)、SURF(Speeded Up Robust Features，加速稳健特征)或者LBP(Local Binary Pattern，局部二值模式)等算法提取图像的特征，并采用聚类算法进行特征匹配，从而确定图像的识别结果。此外，对实时图像进行目标识别处理可以基于本地处理或云端服务器处理，本发明并不做限制。因此，本申请对实时图像进行目标识别处理的方法并不限定。

步骤S103，确定目标对象与摄像头之间的距离。

目标对象与摄像头之间的距离即为目标对象与用户之间的距离，当用户从远处逐渐靠近目标对象的过程中，用户和目标对象之间的距离是变化的，对用户而言，在远处观看目标对象和在近处观看目标对象，其通过视觉捕获到的目标对象的信息是不同的。假设目标对象是一幅图画，距离越远，则用户视野越能够捕获到图画的全局信息，但是成像清晰度下降；距离越近，则用户视野仅能够捕获到图画的局部信息，但是成像清晰度上升。不同的距离，体现了用户对目标对象不同的关注程度。

步骤S104，根据距离，从预先存储的与目标对象关联的多个多媒体素材中确定目标多媒体素材。

在一些实施例中，多媒体素材包括但不限于以下至少之一：文本、图像、视频。一个多媒体素材可以为文本、图像、视频中的其中任意一项或者多项的组合。其中，图像可以是二维平面图像，也可以是三维立体图像。

在本实施例中，目标对象和多个多媒体素材关联，通过将距离设置成索引条件，可以从预先存储的数据库中查找与该距离关联的多媒体素材，即为目标多媒体素材。

在其中一些实施例中，可以通过预先存储与目标对象关联的多个多媒体素材及多媒体素材分别对应的预设距离范围；根据距离，确定该距离所落入的预设距离范围；确定目标对象关联的多个多媒体素材中与该距离所落入的预设距离范围对应的多媒体素材为目标多媒体素材。例如，目标对象为一幅图画，与该图画关联的多个多媒体素材包括解说视频、文字与图像的组合，以及文字简介，这三个多媒体素材依次对应的预设距离范围分别是0至1米，1至5米，以及5至10米，若用户与目标对象的当前距离为0.5米，落入0至1米的预设距离范围内，则提取解说视频作为第一多媒体素材。

步骤S105，将目标多媒体素材叠加于用户视野所及的空间区域。

在一些实施例中，将目标多媒体素材叠加于用户视野所及的空间区域包括但不限于以下至少之一：在多媒体素材为可视化素材的情况下，可以将目标多媒体素材显示于处于用户视野前方的显示屏上，或者通过投影装置将目标多媒体素材投影到用户视野所及的空间区域内。在多媒体素材包括非可视化素材(例如音频素材)的情况下，可以使用扬声器对目标多媒体素材进行播放。通过上述的方式，实现了将可视化或非可视化的多媒体素材与用户视野所及的空间区域的叠加。

上述的目标对象可以为一个，也可以有多个。当目标对象为多个的情况下，通过上述的步骤S103至步骤S105分别确定每个目标的目标多媒体素材，并将这些目标多媒体素材同时叠加于用户视野所及的空间区域。

相比于相关技术的方案，本实施例根据用户和观测对象(目标对象)之间的距离，跟随用户视野中观测对象被关注程度的变化，动态地呈现相应的多媒体素材，解决了相关技术中基于AR的显示方案所呈现的对象与用户之间缺乏交互的问题，在基于AR的显示方案中提升了与用户之间的交互性。

在步骤S103，确定目标对象与摄像头之间的距离可以通过以下实施例实现。

在其中一些实施例中，通过与摄像头相对静止的深度传感器测量目标对象与摄像头之间的距离。

深度传感器可以是深度摄像机，也可以是基于飞行时间技术的深度传感器、基于结构光技术的深度传感器或者基于相机阵列技术的深度传感器。

在其中一些实施例中，通过获取目标对象的实际尺寸；根据实时图像中目标对象的图像的像素尺寸，以及摄像头的每个像素代表的空间尺寸，确定目标对象在摄像头的物方焦平面上成像的成像尺寸；根据物方焦平面距离摄像头的距离，以及实际尺寸与投影尺寸的比例关系，确定目标对象与摄像头之间的距离。

图2是根据本申请实施例的距离计算原理示意图，如图2所示，AB为实景中的目标对象的实际尺寸，CD为目标对象在物方焦平面上成像的成像尺寸，EF为目标对象在像方焦平面上的成像的成像尺寸，OB为目标对象与摄像头之间的距离，OD为物方焦平面距离摄像头的距离(相当于物方焦距)，OE为像方焦平面距离摄像头的距离(相当于像方焦距)，三角形OAB相似于三角形OCD相似于三角形OFE。记实时图像中目标对象的图像的像素尺寸为m1，根据物方焦距与像方焦距的比值，摄像机的分辨率可以确定摄像头的每个像素代表的空间尺寸，记为m2，则CD＝m1×m2。由三角形相似原理可得：

由此可得：

即目标对象与摄像头之间的距离分别和物方焦平面距离摄像头的距离、目标对象的实际尺寸成正比，和目标对象在物方焦平面上成像的成像尺寸成反比，其中，目标对象在物方焦平面上成像的成像尺寸为实时图像中目标对象的图像的像素尺寸和摄像头的每个像素代表的空间尺寸之间的乘积。

在其中一些实施例中，多媒体素材包括以下至少之一：文本、图像、视频；其中，随着目标对象与摄像头之间的距离的增大，目标多媒体素材中包含目标对象的信息量越少；随着目标对象与摄像头之间的距离的减小，目标多媒体素材中包含目标对象的信息量越多。

信息量可以通过多媒体素材的类型来体现，文本、图像、视频分别代表三种不同类型的多媒体素材，其所携带的信息量依次增多；信息量还可以通过多媒体素材的类型的丰富程度来体现。例如，仅仅包含文本类型的多媒体素材和包含文本类型和图像类型的多媒体素材相比，前者的信息量少于后者的信息量。

在一些实施例中，可以为文本、图像、视频分别设置信息量权重，而且其信息量权重依次增大。预设距离范围越大，其所关联的多媒体素材的总权重值越低，即多媒体素材包含的信息量越低；反之，预设距离范围越小，其所关联的多媒体素材的总权重值越高，即多媒体素材包含的信息量越多。

在一些实施例中，可以根据多媒体素材的内容分别设置匹配的距离范围，例如在用户距离目标较远时(例如大于10米)，向用户提供导览信息，引导用户走进目标；在用户距离目标较近的时候(例如3至10米)，向用户展示目标的背景介绍信息；而当用户已经靠近目标的时候(例如小于3米)，向用户展示目标的细节信息。由此可以给用户在不同距离呈现不同的AR信息，提高用户的AR导览体验。

在其中一些实施例中，还可以根据实时图像，识别实时图像对应的场景类型，其中，场景类型至少包括以下之一：展厅场景、展区场景和展品场景；在根据距离，从预先存储的与目标对象关联的多个多媒体素材中确定目标多媒体素材之前，还可以根据实时图像对应的场景类型，确定与目标对象关联的多个多媒体素材。

在本实施例中，展厅场景包括至少一个展区场景，展区场景包括至少一个展品场景，识别场景类型的方法可以是通过提取展厅场景、展区场景和展品场景的特征，将提取的特征输入至经训练的卷积神经网络，得到分类结果，即确定实时图像对应的场景类型。例如，识别得到实时图像对应的场景类型为展品类型，则根据展品类型，确定与目标对象关联、与展品类型相关的多个多媒体素材。

在另一些实施例中，场景类型还包括厂区场景、设备场景和零件场景，厂区场景至少包括一个设备场景，设备场景至少包括一个零件场景，识别场景类型的方法可以是通过提取厂区场景、设备场景和零件场景的特征，将提取的特征输入至经训练的卷积神经网络，得到分类结果，即确定实时图像对应的场景类型。在不同的场景下，可以展示和场景相关联的多个多媒体素材。例如，在厂区场景下，可以向用户展现所在厂区的设备所在地；在设备场景下，可以向用户展现该设备的信息、状态、操作方式、以及重要零件的位置；在零件场景下，可以向用户展现出零件名称、型号、状态以及操作方式等信息。

在某些情况下，实时图像中不仅仅只包含单个目标，可能存在多个目标，针对该种情况，在识别出目标后，需要进行目标选定。在从实时图像中识别岀目标对象之前，方法还包括：在从实时图像中识别到多个对象的情况下，根据包括以下至少之一的方式确定目标对象：获取用户的眼动轨迹，根据眼动轨迹，在多个对象中选择其中一个对象作为目标对象；获取用户的语音信息，根据语音信息，在多个对象中选择其中一个对象作为目标对象；获取摄像头的对焦信息，根据对焦信息，在多个对象中选择其中一个对象作为目标对象。

在根据眼动轨迹选定目标对象的过程中，可以通过在预设时间内采集在用户视野范围内的注视点，确定目标对象。

在根据语音信息选定目标对象的过程中，可以通过接收用户发出的语音指令，该语音指令携带有选定目标对象的标识信息。

在根据对焦信息选定目标对象的过程中，将摄像头最终聚焦的某个目标作为目标对象。

结合上述实施例的AR显示方法，本实施例还提供了一种AR显示设备，图3是根据本申请实施例的AR显示设备的结构示意图，如图3所示，该设备包括：

设备框架、摄像头301、输出模块302、主控模块303以及电源模块304；摄像头301和输出模块302设置于设备框架上，主控模块303分别与摄像头301和输出模块302电连接，电源模块304分别为摄像头301、输出模块302和主控模块303电连接；其中，摄像头301用于获取用户视野所及的空间区域的实时图像；输出模块302用于呈现多媒体素材；主控模块303包括存储器、处理器以及存储在存储器上并在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的AR显示方法。

在其中一些实施例中，摄像头301可以是深度摄像机，也可以是基于飞行时间技术的深度传感器、基于结构光技术的深度传感器或者基于相机阵列技术的深度传感器。

在其中一些实施例中，输出模块302包括显示屏，也可以包括显示屏和扬声器。

在其中一些实施例中，设备框架可以设置成头戴式框架，也可以设置成手持式框架，还可以设置成眼镜形态。

在其中一些实施例中，主控模块303可以集成设置于设备框架中，也可以独立于设备框架。

在其中一些实施例中，电源模块304可以集成设置于设备框架中，也可以独立于设备框架。

在其中一些实施例中，设备还可以包括语音采集模块，用于采集用户发出的语音指令。

本领域技术人员可以理解，图3中示出的用户终端结构并不构成对AR显示设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

需要说明的是，上述各个部分可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

图4是根据本申请实施例的主控模块的硬件结构示意图，如图4所示，处理器401可以包括中央处理器(CPU)，或者特定集成电路(Application Specific IntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在数据处理装置的内部或外部。在特定实施例中，存储器402是非易失性(Non-Volatile)存储器。在特定实施例中，存储器402包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random Access Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory，简称为EPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory，简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-AccessMemory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器402可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器401所执行的可能的计算机程序指令。

处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种AR显示方法。

在其中一些实施例中，基于主控模块还可以包括通信接口403和总线400。其中，如图4所示，处理器401、存储器402、通信接口403通过总线400连接并完成相互间的通信。

通信接口403用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口403还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线400包括硬件、软件或两者，将主控模块的部件彼此耦接在一起。总线400包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线400可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线400可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该主控模块可以基于获取到的用户视野所及的空间区域的实时图像，执行本申请实施例中的AR显示方法，从而实现结合图1描述的AR显示方法。

另外，结合上述实施例中的AR显示方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种AR显示方法。

本实施例还提供了一种AR显示装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的AR显示装置的结构框图，如图5所示，该装置包括：获取模块51、识别模块52、第一确定模块53、第二确定模块54以及叠加模块55。

获取模块51，用于通过摄像头获取用户视野所及的空间区域的实时图像。

识别模块52，耦合至获取模块51，用于从实时图像中识别岀目标对象。

第一确定模块53，耦合至识别模块52，用于确定目标对象与摄像头之间的距离。

第二确定模块54，耦合至第一确定模块53，用于根据距离，从预先存储的与目标对象关联的多个多媒体素材中确定目标多媒体素材。

叠加模块55，耦合至第二确定模块54，用于将目标多媒体素材叠加于用户视野所及的空间区域。

在其中一些实施例中，第一确定模块53还用于：通过与摄像头相对静止的深度传感器测量目标对象与摄像头之间的距离。

在其中一些实施例中，第一确定模块53还用于：获取目标对象的实际尺寸；根据实时图像中目标对象的图像的像素尺寸，以及摄像头的每个像素代表的空间尺寸，确定目标对象在摄像头的物方焦平面上成像的成像尺寸；根据物方焦平面距离摄像头的距离，以及实际尺寸与投影尺寸的比例关系，确定目标对象与摄像头之间的距离。

在其中一些实施例中，装置还包括：存储模块，用于预先存储与目标对象关联的多个多媒体素材及多媒体素材分别对应的预设距离范围；第二确定模块54包括：第一确定单元，用于确定距离所落入的预设距离范围；确定目标对象关联的多个多媒体素材中与距离所落入的预设距离范围对应的多媒体素材为目标多媒体素材。

在其中一些实施例中，装置还包括：识别单元，用于根据实时图像，识别实时图像对应的场景类型，其中，场景类型至少包括以下之一：展厅场景、展区场景和展品场景；第二确定单元，用于根据实时图像对应的场景类型，确定与目标对象关联的多个多媒体素材。

在其中一些实施例中，装置还包括：第三确定单元，用于在从实时图像中识别到多个对象的情况下，根据包括以下至少之一的方式确定目标对象：获取用户的眼动轨迹，根据眼动轨迹，在多个对象中选择其中一个对象作为目标对象；获取用户的语音信息，根据语音信息，在多个对象中选择其中一个对象作为目标对象；获取摄像头的对焦信息，根据对焦信息，在多个对象中选择其中一个对象作为目标对象。

在其中一些实施例中，识别模块52还用于：采用经训练的卷积神经网络提取实时图像的特征；将实时图像的特征输入至分类器，得到分类结果；根据分类结果识别出实时图像中的目标对象。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种AR显示方法，其特征在于，包括：

通过摄像头获取用户视野所及的空间区域的实时图像；

从所述实时图像中识别岀目标对象；

确定所述目标对象与所述摄像头之间的距离；

根据所述距离，从预先存储的与所述目标对象关联的多个多媒体素材中确定目标多媒体素材；

将所述目标多媒体素材叠加于所述用户视野所及的所述空间区域。

2.根据权利要求1所述的AR显示方法，其特征在于，确定所述目标对象与所述摄像头之间的距离包括：

通过与所述摄像头相对静止的深度传感器测量所述目标对象与所述摄像头之间的距离。

3.根据权利要求1所述的AR显示方法，其特征在于，确定所述目标对象与所述摄像头之间的距离包括：

获取所述目标对象的实际尺寸；

根据所述实时图像中所述目标对象的图像的像素尺寸，以及所述摄像头的每个像素代表的空间尺寸，确定所述目标对象在所述摄像头的物方焦平面上成像的成像尺寸；

根据所述物方焦平面距离所述摄像头的距离，以及所述实际尺寸与所述投影尺寸的比例关系，确定所述目标对象与所述摄像头之间的距离。

4.根据权利要求1所述的AR显示方法，其特征在于，

所述方法还包括：预先存储与所述目标对象关联的多个多媒体素材及多媒体素材分别对应的预设距离范围；

根据所述距离，从预先存储的与所述目标对象关联的多个多媒体素材中确定目标多媒体素材包括：确定所述距离所落入的预设距离范围；确定所述目标对象关联的多个多媒体素材中与所述距离所落入的预设距离范围对应的多媒体素材为所述目标多媒体素材。

5.根据权利要求4所述的AR显示方法，其特征在于，所述多媒体素材包括以下至少之一：文本、图像、视频；其中，随着所述目标对象与所述摄像头之间的距离的增大，所述目标多媒体素材中包含所述目标对象的信息量越少；随着所述目标对象与所述摄像头之间的距离的减小，所述目标多媒体素材中包含所述目标对象的信息量越多。

6.根据权利要求1所述的AR显示方法，其特征在于，所述方法还包括：根据所述实时图像，识别所述实时图像对应的场景类型，其中，所述场景类型至少包括以下之一：展厅场景、展区场景和展品场景；

在根据所述距离，从预先存储的与所述目标对象关联的多个多媒体素材中确定目标多媒体素材之前，所述方法还包括：根据所述实时图像对应的场景类型，确定与所述目标对象关联的多个所述多媒体素材。

7.根据权利要求1所述的AR显示方法，其特征在于，在从所述实时图像中识别岀目标对象之前，所述方法还包括：在从所述实时图像中识别到多个对象的情况下，根据包括以下至少之一的方式确定所述目标对象：

获取用户的眼动轨迹，根据所述眼动轨迹，在多个所述对象中选择其中一个对象作为所述目标对象；

获取用户的语音信息，根据所述语音信息，在多个所述对象中选择其中一个对象作为所述目标对象；

获取所述摄像头的对焦信息，根据所述对焦信息，在多个所述对象中选择其中一个对象作为所述目标对象。

8.根据权利要求1所述的AR显示方法，其特征在于，从所述实时图像中识别岀目标对象包括：

采用经训练的卷积神经网络提取所述实时图像的特征；

将所述实时图像的特征输入至分类器，得到分类结果；

根据所述分类结果识别出所述实时图像中的所述目标对象。

9.一种AR显示设备，其特征在于，包括：设备框架、摄像头、输出模块、主控模块以及电源模块；所述摄像头和所述输出模块设置于所述设备框架上，所述主控模块分别与所述摄像头和所述输出模块电连接，所述电源模块分别为所述摄像头、所述输出模块和所述主控模块电连接；其中，

所述摄像头用于获取用户视野所及的空间区域的实时图像；

所述输出模块用于呈现多媒体素材；

所述主控模块包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的的AR显示方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至8中任一项所述的AR显示方法。