CN117611774A

CN117611774A - 一种基于增强现实技术的多媒体展示系统及方法

Info

Publication number: CN117611774A
Application number: CN202311723268.3A
Authority: CN
Inventors: 孙伟杰
Original assignee: Shenzhen Weiyan Hongchuang Design Institute Co ltd
Current assignee: Shenzhen Weiyan Hongchuang Design Institute Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-02-27

Abstract

本发明涉及增强现实技术领域，揭露了一种基于增强现实技术的多媒体展示系统及方法，该系统中包括环境图像数据识别模块、环境物体链接图构建模块、三维虚拟数字影像生成模块、可视化界面映射模块及多媒体实时展示界面展示模块，识别现实世界环境的环境图像数据中的目标环境物体；提取目标环境物体的位置坐标及语义信息，构建环境物体链接图；生成三维虚拟数字影像；计算三维虚拟数字影像与三维空间多媒体信息标识之间的相对位置关系，根据相对位置关系将三维虚拟数字影像映射至可视化界面；对可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面。本发明可以提高多媒体展示的准确性。

Description

一种基于增强现实技术的多媒体展示系统及方法

技术领域

本发明涉及增强现实技术领域，尤其涉及一种基于增强现实技术的多媒体展示系统及方法。

背景技术

增强现实技术是一种将虚拟内容与现实世界融合的技术，通过显示设备在真实环境中叠加虚拟元素，使用户能够在现实中与虚拟元素进行互动，如游戏、教育、医疗等等，但为了能够使多媒体展示的内容更加生动，需要将虚拟内容与现实世界相结合，创造出更加生动、有趣、沉浸的展示体验。

现有的传统多媒体展示是通过屏幕或投影仪等设备呈现，可以通过播放视频、显示图片、播放音频等方式来呈现多种形式和内容的信息，不能将虚拟内容与现实环境融合，用户只能被动地接收展示内容，导致用户不能在现实中与虚拟元素进行互动，从而对进行多媒体展示时的准确性较低。

发明内容

本发明提供一种基于增强现实技术的多媒体展示系统及方法，其主要目的在于解决进行多媒体展示时的准确性较低的问题。

为实现上述目的，本发明提供的一种基于增强现实技术的多媒体展示系统，所述系统包括环境图像数据识别模块、环境物体链接图构建模块、三维虚拟数字影像生成模块、可视化界面映射模块及多媒体实时展示界面展示模块，其中，

所述环境图像数据识别模块，用于获取现实世界环境的环境图像数据，利用预设的图像识别算法识别所述环境图像数据中的目标环境物体；

所述环境物体链接图构建模块，用于提取所述目标环境物体的位置坐标，提取所述目标环境物体的语义信息，根据所述语义信息确定所述目标环境物体之间的关联性，根据所述位置坐标、所述关联性及预设的物体属性构建所述环境图像数据对应的环境物体链接图；

所述三维虚拟数字影像生成模块，用于根据预设的时间窗口检测所述环境图像数据的图像状态，根据所述图像状态及所述环境物体链接图生成所述环境图像数据对应的三维虚拟数字影像；

所述可视化界面映射模块，用于通过预设的三维映射算法计算所述三维虚拟数字影像与预设的三维空间多媒体信息标识之间的相对位置关系，根据所述相对位置关系将所述三维虚拟数字影像映射至可视化界面，其中所述通过预设的三维映射算法计算所述三维虚拟数字影像与预设的三维空间多媒体信息标识之间的相对位置关系时，具体用于：

任一获取所述三维虚拟数字影像的虚拟坐标，任一获取所述三维空间多媒体信息标识的界面坐标；通过如下的三维映射算法计算所述虚拟坐标与所述界面坐标之间的变换关系：

其中，u_b为所述界面坐标中的横坐标，v_b为所述界面坐标中的纵坐标，e为畸变因子，α为比例参数，u_a为所述虚拟坐标中的横坐标，v_a为所述虚拟坐标中的纵坐标，u₀为光学畸变的中心横坐标，v₀为光学畸变的中心纵坐标；

根据所述变换关系确定所述相对位置关系；

所述多媒体实时展示界面展示模块，用于利用预设的多交互通道及预设的交互任务对所述可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面。

可选地，所述环境图像数据识别模块在利用预设的图像识别算法识别所述环境图像数据中的目标环境物体时，具体用于：

对所述环境图像数据进行图像增强处理，得到环境增强图像数据；

利用预设的图像识别算法中的卷积层提取所述环境增强图像数据的第一环境特征；

利用预设的图像识别算法中的池化层对所述第一环境特征进行池化操作，得到第二环境特征；

利用预设的图像识别算法中的全连接对所述第二环境特征进行特征分类，得到目标特征类别；

根据所述目标特征类别确定所述环境图像数据中的目标环境物体。

可选地，所述环境物体链接图构建模块在根据所述语义信息确定所述目标环境物体之间的关联性时，具体用于：

根据所述语义信息对所述目标环境物体对应的目标像素分配语义标签，得到目标环境物体标签；

根据所述目标环境物体标签生成所述目标环境物体的语义图；

根据所述语义图确定所述目标环境物体的层次因子；

通过所述层次因子确定所述目标环境物体之间的关联性。

可选地，所述环境物体链接图构建模块在根据所述位置坐标、所述关联性及预设的物体属性构建所述环境图像数据对应的环境物体链接图时，具体用于：

将所述环境图像数据中的目标环境物体确定为目标节点；

根据所述关联性创建所述目标节点的关联连接关系；

按照所述位置坐标及所述关联连接关系将所述目标节点连接，得到节点连接图；

逐一将所述物体属性分配至所述节点连接图中的目标节点中，得到所述环境图像数据对应的环境物体链接图。

可选地，所述三维虚拟数字影像生成模块在根据预设的时间窗口检测所述环境图像数据的图像状态时，具体用于：

获取所述环境图像数据的时间序列；

根据所述时间窗口检测所述时间序列对应的环境图像数据中的关键特征；

逐一将所述关键特征进行特征比对，得到特征比对逻辑值；

当所述特征比对逻辑值等于预设的比对阈值时，将所述环境图像数据的图像状态确定为静态图像状态；

当所述特征比对逻辑值不等于预设的比对阈值时，将所述环境图像数据的图像状态确定为动态图像状态。

可选地，所述三维虚拟数字影像生成模块在根据所述图像状态及所述环境物体链接图生成所述环境图像数据对应的三维虚拟数字影像时，具体用于：

当所述图像状态为动态图像状态时，根据所述环境图像数据的时间序列提取第一环境图像数据及第二环境图像数据；

提取所述第一环境图像数据的第一特征点，提取所述第二环境图像数据第二特征点；

根据所述第一特征点的属性生成所述第一特征点对应的第一特征向量，根据所述第二特征点的属性生成所述第二特征点对应的第二特征向量；

将所述第一特征向量与所述第二特征向量进行匹配，得到匹配特征点；

通过所述匹配特征点及所述环境物体链接图确定所述第一环境图像数据与所述第二环境图像之间的最优融合线，其中所述最优融合线计算公式为：

其中，E为所述最优融合线，min为最小值函数，L_i为第i个阶段的决策数量指标，U_i为第i个阶段的初始点，O_i为第i个阶段的终止点，n为总阶段；

根据所述最优融合线将所述第一环境图像数据与所述第二环境图像数据进行融合，得到三维虚拟数字影像。

可选地，所述三维虚拟数字影像生成模块在提取所述第一环境图像数据的第一特征点时，具体用于：

根据预设的高斯函数构建所述第一环境图像数据的尺度空间函数，其中所述尺度空间函数为：

L(x,y,δ)＝G(x,y,δ)×J(x,y)

其中，L为所述尺度空间函数，G为高斯函数，J为所述第一环境图像数据的像素值，x为所述第一环境图像数据中的像素横坐标，y为所述第一环境图像数据中的像素纵坐标，δ为高斯标准差；

根据所述尺度空间函数生成高斯差分函数，其中所述高斯差分函数为：

D(x,y,δ)＝(G(x,y,kδ)-G(x，y，δ))×J(x,y)L(x,y,kδ)-L(x,y,δ)

其中，D为所述高斯差分函数，k为常量；

利用所述高斯差分函数提取所述第一环境图像数据的第一特征点。

可选地，所述可视化界面映射模块在根据所述相对位置关系将所述三维虚拟数字影像映射至可视化界面时，具体用于：

根据所述相对位置关系确定所述可视化界面的映射点；

提取所述三维虚拟数字影像的坐标点；

逐一按照所述映射点将所述坐标点映射至可视化界面中。

可选地，所述多媒体实时展示界面展示模块在利用预设的多交互通道及预设的交互任务对所述可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面时，具体用于：

根据所述交互任务在所述多交互通道中选取目标交互通道；

根据所述目标交互通道调整所述可视化界面的三维虚拟数字影像对应的呼吸坐标点；

根据所述呼吸坐标点更新所述可视化界面，得到多媒体实时展示界面。

为了解决上述问题，本发明还提供一种基于增强现实技术的多媒体展示方法，所述方法包括：

获取现实世界环境的环境图像数据，利用预设的图像识别算法识别所述环境图像数据中的目标环境物体；

提取所述目标环境物体的位置坐标，提取所述目标环境物体的语义信息，根据所述语义信息确定所述目标环境物体之间的关联性，根据所述位置坐标、所述关联性及预设的物体属性构建所述环境图像数据对应的环境物体链接图；

根据预设的时间窗口检测所述环境图像数据的图像状态，根据所述图像状态及所述环境物体链接图生成所述环境图像数据对应的三维虚拟数字影像；

通过预设的三维映射算法计算所述三维虚拟数字影像与预设的三维空间多媒体信息标识之间的相对位置关系，根据所述相对位置关系将所述三维虚拟数字影像映射至可视化界面；

利用预设的多交互通道及预设的交互任务对所述可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面。

本发明实施例通过识别现实世界环境的环境图像数据中的目标环境物体，能够更加清晰地观察到环境图像数据的主要特征；提取目标环境物体的位置坐标和语义信息构建环境物体链接图，可以用于描述整个场景的结构和组成，并为用户提供更准确、全面的上下文信息；根据环境图像数据的图像状态及环境物体链接图生成三维虚拟数字影像，可以模拟现实世界中的物体、场景和环境，并以视觉方式呈现给用户；计算三维虚拟数字影像与三维空间多媒体信息标识之间的相对位置关系，根据相对位置关系将三维虚拟数字影像映射至可视化界面，实现对三维虚拟数字影像的增强，提升增强现实展示效果；对可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面，实现对可视化界面的三维虚拟数字影像的实时交互。因此本发明提出的基于增强现实技术的多媒体展示系统及方法，可以解决进行多媒体展示时的准确性较低的问题。

附图说明

图1为本发明一实施例提供的基于增强现实技术的多媒体展示系统的功能模块图；

图2为本发明一实施例提供的基于增强现实技术的多媒体展示系统的运行方法的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

实际上，基于增强现实技术的多媒体展示系统所部署的服务端设备可能是由一台或多台设备构成的。上述基于增强现实技术的多媒体展示系统可以实现为：业务实例、虚拟机、硬件设备。比如，该基于增强现实技术的多媒体展示系统可以实现为部署在云节点中的一个或多个设备上的一种业务实例。简单来说，该基于增强现实技术的多媒体展示系统可以理解为是部署在云节点上的一种软件，用于为各用户端提供基于增强现实技术的多媒体展示系统。或者，该基于增强现实技术的多媒体展示系统也可以实现为部署在云节点中的一个或多个设备上的一种虚拟机。该虚拟机中安装有用于管理各用户端的应用软件。或者，该基于增强现实技术的多媒体展示系统还可以实现为由众多相同或不同类型的硬件设备构成的服务端，设置一个或多个硬件设备用于为各用户端提供基于增强现实技术的多媒体展示系统。

在实现形式上，基于增强现实技术的多媒体展示系统和用户端相互适应。即，基于增强现实技术的多媒体展示系统作为安装于云服务平台的应用，则用户端作为与该应用建立通信连接的客户端；或实现基于增强现实技术的多媒体展示系统作为网站实现，则用户端作为网页实现；再或实现基于增强现实技术的多媒体展示系统作为云服务平台实现，则用户端作为即时通信应用中的小程序实现。

参照图1所示，是本发明一实施例提供的基于增强现实技术的多媒体展示系统的功能模块图。

本发明所述基于增强现实技术的多媒体展示系统100可以设置于云端服务器中，在实现形式上，可以作为一个或多个服务设备，也可以作为一应用安装于云端(例如移动服务运营方的服务器、服务器集群等)上，或者也可以开发为网站。根据实现的功能，所述基于增强现实技术的多媒体展示系统100可以包括环境图像数据识别模块101、环境物体链接图构建模块102、三维虚拟数字影像生成模块103、可视化界面映射模块104及多媒体实时展示界面展示模块105。本发明所述模块也可以称之为单元，是指一种能够被设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在设备的存储器中。

本发明实施例中，基于增强现实技术的多媒体展示系统中，上述各个模块均可独立实现，且与其他模块调用。这里的调用可以理解为，某一模块可以连接另一类型的多个模块，并为其连接的多个模块提供相应服务。比如，分享评测模块可以调用同一信息采集模块，以获取该信息采集模块采集的信息基于上述特性，本发明实施例提供的基于增强现实技术的多媒体展示系统中，无需修改程序代码，即可通过增加模块、并直接调用的形式来调整基于增强现实技术的多媒体展示系统架构的适用范围，实现集群式水平拓展，以便达到快捷灵活拓展基于增强现实技术的多媒体展示系统的目的。实际应用中，上述模块可以设置在同一设备或不同设备中，也可以是设置在虚拟设备中，例如云端服务器中的服务实例。

下面结合具体实施例，分别针对基于增强现实技术的多媒体展示系统的各个组成部分以及具体工作流程进行说明：

所述环境图像数据识别模块101，用于获取现实世界环境的环境图像数据，利用预设的图像识别算法识别所述环境图像数据中的目标环境物体。

本发明实施例中，所述环境图像数据是指现实世界环境所拍摄的图像，如在线图像库中已经具有的真实环境图像或者通过摄像机实时拍摄的高分辨率的图像数据，其中可通过具有数据抓取功能的计算机语句(如Java语句、Python语句等)从预先存储的存储区域获取现实世界环境的环境图像数据，存储区域包括但不限于数据库、区块链。

进一步地，需要将环境图像数据中的关键物体识别出来，在多媒体展示的过程中能够更加清晰地观察到环境图像数据的主要特征，能够帮助系统更好地适应和响应环境变化。

本发明实施例中，所述目标环境物体是指在环境图像数据的目标物，如人物、车辆、店铺、标志物等。

本发明实施例中，所述环境图像数据识别模块101在利用预设的图像识别算法识别所述环境图像数据中的目标环境物体时，具体用于：

详细地，所述环境增强图像数据是对环境图像进行预处理后的图像，对所述环境图像数据进行图像增强处理，则图像增强处理包括调整图像大小、标准化图像颜色通道、对图像进行旋转、翻转、裁剪等，以增加环境图像数据的多样性，进而通过图像识别算法提取环境图像数据中目标环境物体。

具体地，所述图像识别算法是卷积神经网络，基于卷积神经网络提取环境图像数据中的目标环境物体，即首先通过卷积层在图像上滑动一个滤波器(也称为卷积核)来提取图像的局部特征，即第一环境特征，滤波器在不同位置对图像进行卷积操作，产生特征图(Feature Maps)，卷积操作能够有效地捕捉到图像中的边缘、纹理等低级特征，并逐渐提取更高级别的特征；池化层位于卷积层之后，用于减小特征图的空间尺寸，降低数据维度并减少模型的参数数量，常用的池化操作包括最大池化(Max Pooling)和平均池化(AveragePooling)，通过在特定区域内取最大值或平均值来提取特征，即第二环境特征；在经过一系列卷积和池化层提取特征后，通常会将特征展平，并通过全连接层进行分类，全连接层是传统的神经网络结构，将前面提取的特征映射到每个可能的类别，并生成最终的预测输出，从而根据目标特征类别确定目标环境物体，即将提取到的特征与预定义的目标特征类别进行匹配和分类，实现目标环境物体识别：根据特征匹配结果和分类模型的输出，确定环境图像中的目标环境物体。可以通过阈值或其他决策规则来判断目标物体的存在与否。

进一步地，根据环境图像数据中的目标环境物体有助于了解当前场景，从而提供更加智能化的交互体验，例如，识别桌子上的杯子可以让系统在用户视野中显示相关信息，如杯子的温度、容量等；通过识别环境中的物体，可以为用户提供与物体相关的实时信息和反馈。

所述环境物体链接图构建模块102，用于提取所述目标环境物体的位置坐标，提取所述目标环境物体的语义信息，根据所述语义信息确定所述目标环境物体之间的关联性，根据所述位置坐标、所述关联性及预设的物体属性构建所述环境图像数据对应的环境物体链接图。

本发明实施例中，所述位置坐标是将目标环境物体在环境图像数据中所处的位置用坐标形式表示出来，如将环境图像数据设定在坐标系中，从而可确定目标环境物体的位置坐标或者通过在物体周围绘制边界框(bounding box)并提取其中心坐标来实现，此外，在更复杂的环境中，可以通过多个传感器，如摄像头阵列或激光雷达等，以获取三维坐标信息。

详细地，所述语义信息是对目标环境物体具体的含义进行表示，可以推断出目标物体所代表的语义信息，比如"人"、"车"、"椅子"等，其中可通过度学习模型，例如全卷积网络(FCN)或Mask R-CNN，对图像进行分析和处理，可以学习图像中不同物体的语义信息，从而准确地确定物体的类别和位置，并将其与背景进行区分，从而得到每个目标环境物体对应的语义信息。

进一步地，通过目标环境物体之间的关联性，增强现实系统可以提供更智能、个性化的交互体验及根据用户所处的环境动态地调整呈现的虚拟内容。例如，可以根据物体之间的关系展示相关信息或虚拟内容，从而增强用户的感知和理解；在一个办公室场景中，系统可以根据桌子上的物体呈现与工作相关的虚拟信息，而在家庭环境中则呈现家庭娱乐相关的内容。

本发明实施例中，所述关联性是指物体之间的相互作用或联系，包括语义上、空间上及时间上的关联性，语义关联是根据物体所代表的语义信息，确定物体之间的关系，如在一个餐桌场景中，可以根据识别出的物体类别(如碗、盘子、筷子等)确定它们之间的语义关联性；空间关联是根据物体之间的空间位置关系，确定它们之间的关联性，如在一个厨房场景中，可以根据冰箱、炉灶、水槽等物体的位置关系确定它们之间的空间关联性；时间关联是根据物体出现的时间顺序，确定它们之间的关联性，如在一个动态场景中，可以根据物体出现的时间顺序确定它们之间的时间关联性。

本发明实施例中，所述环境物体链接图构建模块102在根据所述语义信息确定所述目标环境物体之间的关联性时，具体用于：

根据所述语义图确定所述目标环境物体的层次因子；

通过所述层次因子确定所述目标环境物体之间的关联性。

详细地，所述目标环境物体标签是为每个目标环境物体赋予一个物体标识，通过语义分割模型FCN(Fully Convolutional Network，全卷积神经网络)，利用训练好的全卷积神经网络模型对目标环境物体图像进行语义分割，全卷积神经网络模型将为目标环境物体图像中的每个像素分配相应的语义标签，从而得到每个目标环境物体对应的我物体标签，进而根据目标环境物体标签生成目标环境物体的语义图，即语义分割模型的输出是一张与输入图像相同大小的分割图，其中每个像素都被标记为属于某个语义类别，语义图展示了图像中每个物体的位置和形状，可以直观地了解图像的语义结构。

具体地，所述层次因子是指每个目标环境物体之间具有的层次结构，其层次结构包括包含关系、相邻关系，上下级关系，根据语义图中每个目标环境物体对应的标签可确定其层次结构，如在一个餐桌场景中，碗、盘子、筷子具有一定的语义关联，还可根据位置关系确定其空间关联，若无时间关联，只确定其语义关联和空间关联即可，或者在一个马路场景中，行人和汽车的语义关联并无关联，但司机和骑车具有一定的关联性，而在空间关联上行为和汽车的位置关系，在时间关联上行为和汽车的移动时间关联。

进一步地，将属于同一层次的确定为具有关联性，不属于同一层次但存在包含关系、相邻关系，上下级关系的确定为弱关联性，其他确定为无关联性，如在街景图像中，汽车和行人可能经常同时出现，属于同一层次，汽车和车轮之间存在层次关系，车轮是汽车的组成部分，日常常见的如商店、超市与行人或汽车属于不同层次，为另一个层次范围。

更进一步地，基于关联性可以确定目标环境物体之间的关联，从而根据关联性构建环境物体链接图，更好地理解整个环境的结构和组成，通过链接物体的位置坐标和关联性信息，可以建立起物体之间的连接和关系，有助于系统对环境进行全局理解，并提供更准确的上下文信息。

本发明实施例中，所述环境物体链接图是指将环境中的物体按照它们之间的空间位置和语义关系进行连接和组织的一种图形表示，可以用于描述整个场景的结构和组成，并为用户提供更准确、全面的上下文信息。

本发明实施例中，所述环境物体链接图构建模块102在根据所述位置坐标、所述关联性及预设的物体属性构建所述环境图像数据对应的环境物体链接图时，具体用于：

将所述环境图像数据中的目标环境物体确定为目标节点；

根据所述关联性创建所述目标节点的关联连接关系；

详细地，将环境图像数据中对应的每个目标环境物体都作为一个目标节点，而物体节点之间通过边缘进行连接，边缘描述了物体之间的关联性，即通过目标环境物体之间的关联性创建目标节点之间的关联连接关系，如包含关系、相邻关系、遮挡关系等，进而按照每个目标节点的位置坐标依次按照关联连接关系将目标节点连接起来，得到目标环境物体之间的节点连接图，并在节点连接图中为每个目标节点分配其物体属性，其中物体属性包括物体的位置、尺寸、姿态等信息。

示例性地，目标环境物体为A,B,C，将目标环境物体确定为目标节点，则目标节点为A-①，B-②，C-③，目标节点之间的关联连接关系若节点①与节点②之间是同一层次关系，则节点①与节点②之间存在连接边，若节点①与节点③之间不属于任何一个层次，则节点①与节点③之间不存在连接边，进而根据每个目标节点之间的连接关系将目标节点连接起来，从而得到环境图像数据中目标环境物体对应的环境物体链接图。

进一步地，环境物体链接图可以用于构建整个场景的三维模型或虚拟模拟，通过将环境图像数据与物体链接图结合，可以生成逼真的虚拟场景，将增强现实内容与真实环境进行融合展示，用户可以更直观地感知虚拟物体与真实环境的交互，从而为用户提供更加精准、个性化的交互体验和功能。

所述三维虚拟数字影像生成模块103，用于根据预设的时间窗口检测所述环境图像数据的图像状态，根据所述图像状态及所述环境物体链接图生成所述环境图像数据对应的三维虚拟数字影像。

本发明实施例中，所述图像状态包括静态图像状态及动态图像状态，根据预设的时间窗口可检测在不同时间帧下图像的变化，从而确定出图像状态。

本发明实施例中，所述三维虚拟数字影像生成模块103在根据预设的时间窗口检测所述环境图像数据的图像状态时，具体用于：

获取所述环境图像数据的时间序列；

逐一将所述关键特征进行特征比对，得到特征比对逻辑值；

详细地，所述时间序列是指连续地获取和记录一系列的环境图像，按照时间顺序记录环境图像数据，进而基于时间窗口检测时间序列中每个时间点中对应的环境图像数据，根据时间点提取环境图像数据中的关键特征，其中所述关键特征为环境图像数据中的环境变化、目标物体的出现、运动轨迹等，进而将不同时间点的关键特征逐一进行比对，得到关键特征比对结果，即特征比对逻辑值，若不同时间点的关键特征比对都相同，则特征比对逻辑值为零；若在不同时间点的关键特征比对存在不同，即关键特征发生变化，则特征比对逻辑值不为零，而比对阈值取值为零，即特征比对逻辑值等于比对阈值时，表示环境图像数据的图像状态为静态图像状态，而当特征比对逻辑值不等于比对阈值时，表示环境图像数据的图像状态为动态图像状态。

进一步地，时间窗口是一个连续的时间段，在这段时间内对图像进行状态分析，将检测到的图像状态可视化，以便更好地理解环境图像在不同时间窗口内的演变，有助于识别环境图像中的变化趋势、异常或其他关键信息；进而根据图像状态可以对环境图像数据对应的三维虚拟数字影像的生成提高效率。

本发明实施例中，所述三维虚拟数字影像是指通过计算机生成的具有三维空间信息的虚拟图像，可以模拟现实世界中的物体、场景和环境，并以视觉方式呈现给用户。

本发明实施例中，所述三维虚拟数字影像生成模块103在根据所述图像状态及所述环境物体链接图生成所述环境图像数据对应的三维虚拟数字影像时，具体用于：

详细地，当所述图像状态为静态图像状态时，直接按照环境图像数据中的目标环境物体生成静态图像的三维虚拟数字影像，即通过自动化的三维建模算法建立每个环境物体的三维模型，在建立三维模型之后，需要为每个物体指定适当的纹理和材质，以使其外观更真实，为了增加真实感，需要对场景进行光照模拟，并在虚拟环境中产生逼真的阴影效果，最后，在建立三维模型并为其指定纹理和材质之后，需要进行渲染，以生成最终的虚拟数字影像，渲染过程会考虑光照、阴影、颜色和纹理等因素，以产生逼真的图像。

具体地，当所述图像状态为动态图像状态时，根据时间序列提取在不同时间点的环境图像数据，如在时间序列的第一时间点提取的环境图像数据为第一环境图像数据，在时间序列的第二时间点提取的环境图像数据为第二环境图像数据，并分别提取第一环境图像数据中能表示环境关键特征的第一特征点，以及提取第二环境图像数据中能表示环境关键特征的第二特征点。

本发明实施例中，所述三维虚拟数字影像生成模块103在提取所述第一环境图像数据的第一特征点时，具体用于：

L(x,y,δ)＝G(x,y,δ)×J(x,y)

D(x,y,δ)＝(G(x,y,kδ)-G(x，y，δ))×J(x,y)L(x,y,kδ)-L(x,y,δ)

其中，D为所述高斯差分函数，k为常量；

详细地，对于特征点的提取将高斯函数当作卷积核，实现三维虚拟数字影像尺度空间函数的建立，当输入的第一环境图像数据为J(x,y)，则尺度空间函数为L(x,y,δ)，其中高斯函数G(x,y,δ)表示在空间上以坐标(x,y)为中心，以δ为标准差的高斯分布，高斯函数可以用于模糊图像，将较近的像素与中心像素进行加权平均，以实现平滑效果，δ越大，平滑效果越明显，而J(x,y)表示环境图像数据中位置(x,y)处的像素值，通过将高斯函数与像素值相乘，可以根据不同的δ值在不同的尺度上模糊图像，从而构建尺度空间函数L(x,y,δ)，可以提供一种多尺度的图像表示，用于在不同尺度上检测和描述图像中的特征；进而根据尺度空间函数确定高斯差分函数，则高斯差分函数表示在不同尺度上两个相邻的图像卷积差异的变化，高斯差分函数D(x,y,δ)由两个尺度空间函数的差异构成，分别为L(x,y,kδ)―L(x,y,δ)和G(x,y,kδ)―G(x,y,δ))×J(x,y)构成，在L(x,y,kδ)―L(x,y,δ)中尺度空间函数L(x,y,δ)在不同的尺度上进行平滑处理，然后计算它们之间的相对差异，进而检测图像中的边缘和角点等特征；在G(x,y,kδ)―G(x,y,δ))×J(x,y)中首先将高斯函数G(x,y,δ)应用于原始图像像素值J(x,y)，然后在更大的尺度上再次应用高斯函数G(x,y,kδ)，最后使用它们之间的差异来衡量图像的变化，有助于检测到在不同尺度上具有不同大小和强度的图像特征，通过将这两个部分组合在一起，可以生成具有多尺度分辨率的高斯差分函数D(x,y,δ)，可以在不同尺度上检测和描述图像中的特征，进而将第一环境图像中的位置(x,y)上的像素值对高斯差分函数进行赋值，从而可计算处第一环境图像数据中的第一特征点。

具体地，对于提取出来的第一特征点和第二特征点需要对特征点进行描述，则用特征向量描述特征点，即以预设的样本点的梯度方向为依据，在所检测出的特征点附近区间内形成一个可通过36位表示360°方向的直方图，向直方图内加入拥有参数δ的高斯权重圆窗口，并以梯度值高低为依据，将各个样本点加入直方图内，特征点的主方向选取为直方图内的最高值，对于低于此值85％的其他峰值，同样会建立同一方向的特征点，特征点的方向、尺度以及位置之后，挑选一个方向柱状图矩阵，其中，各元素均占据8个方向位，其尺寸为4×4，通过此向量实现对各检测特征点的精准描述，从而得到第一特征点对应的第一特征向量以及第二特征点对应第二特征向量，进而通过相似度算法计算第一特征向量与第二特征向量之间的匹配值，选取匹配值最高的特征点作为匹配特征点，其中相似度算法包括但不限于余弦相似度算法、欧几里得算法。

进一步地，在特征点提取、描述与匹配的基础上，对不同的环境图像数据进行拼接，实现不同环境图像数据的融合，得到三维虚拟数字影像，则通过匹配特征点与环境物体链接图中每个目标环境物体之间的连接可确定第一环境图像数据与第二环境图像数据之间的最优融合线，则通过动态规划算法实现最优融合线的搜寻，对于一个最佳策略而言，其子策略的原始态与终止态均为最佳，假设某条最优路线为AB，该路线上存在一点Q，那么QB同样属于最优路线，在算法运算过程中，设总体阶段为n，第i个阶段的初始点和终止点分别为U_i和O_i，同时O_i也是第i+1个阶段的初始点，则第i个阶段的决策的数量指标以L_i(U_i,O_i)表示，即通过环境物体链接图中从第一至最后一行依次实施扩展运算，在此基础上，将最低强度值的缝合线由全部所得缝合线内选出，此即为最优缝合线，其中环境物体链接图中表示的每个目标环境物体的位置，而在环境图像数据中目标环境物体的位置可以看作为一行一行的，从而环境物体链接图是在不同行中进行连接所形成的。

更进一步地，将时间序列中的第一时间点和第二时间点的图像进行融合之后，会将第二时间点和第三时间点的图像进行融合，以此类推，直至时间序列中所有的时间点对应的图像都被融合在一起，形成多媒体视频，而为了实现对三维虚拟数字影像与真实世界中多媒体信息标识之间的高精度定位，需要通过三维映射算法确定两者之间的映射位置，有助于增强虚拟现实(VR)和增强现实(AR)应用的真实感和交互性，使用户能够更加自然地操作虚拟场景，可以提高应用的交互性、用户体验和拓展性，同时为各种领域带来更多的可能性和潜力。

所述可视化界面映射模块104，用于通过预设的三维映射算法计算所述三维虚拟数字影像与预设的三维空间多媒体信息标识之间的相对位置关系，根据所述相对位置关系将所述三维虚拟数字影像映射至可视化界面。

本发明实施例中，所述相对位置关系是指三维虚拟数字影像相对于三维空间多媒体信息标识的位置，通过准确描述对象之间的相对位置关系，可以实现三维虚拟数字影像与三维空间多媒体信息标识的准确映射；所述三维空间多媒体信息标识是指在界面中显示的文字说明、图像、标签等。

本发明实施例中，所述可视化界面映射模块104在通过预设的三维映射算法计算所述三维虚拟数字影像与预设的三维空间多媒体信息标识之间的相对位置关系时，具体用于：

任一获取所述三维虚拟数字影像的虚拟坐标，任一获取所述三维空间多媒体信息标识的界面坐标；

通过如下的三维映射算法计算所述虚拟坐标与所述界面坐标之间的变换关系：

根据所述变换关系确定所述相对位置关系。

详细地，在三维坐标系中提取三维虚拟数字影像各个目标环境物体的坐标，即虚拟坐标，以及在三维坐标系中提取三维空间多媒体信息标识在界面显示的界面坐标，则界面坐标是指三维虚拟数字影像需要映射至界面上所显示的坐标，而三维空间多媒体信息标识是在界面上显示的具有多媒体信息的界面展示坐标，进而通过三维映射算法确定虚拟坐标与界面坐标之间的坐标变换关系，实现对三维虚拟数字影像的增强，提升增强现实展示效果。

具体地，计算虚拟坐标与界面坐标之间的变换关系，可转换为理想屏幕与现实屏幕二者坐标系间的相对关联，在三维映射算法中由于光线在经过镜头时，不同位置的光线会被聚焦到不同位置上，导致图像中物体的形状和位置发生变化，因此，为了纠正这种畸变，在三维映射算法中设定畸变因子e和比例参数α，使其符合真实的物体形状和位置，进而通过三维虚拟数字影像中的虚拟物体在现实屏幕与理想屏幕坐标系中的坐标，从而根据虚拟坐标与界面坐标之间的变换关系确定三维虚拟数字影像在界面展示上所显示的位置坐标。

进一步地，通过将虚拟数字影像映射到可视化界面上，用户可以直观地观察和交互虚拟物体，可以提供更丰富、生动的用户体验，使用户能够更好地理解和感受虚拟场景。

本发明实施例中，将三维虚拟数字影像映射至可视化界面是通过虚拟场景中的三维物体和环境转换为二维图像，并在显示设备上呈现给用户。

本发明实施例中，所述可视化界面映射模块104在根据所述相对位置关系将所述三维虚拟数字影像映射至可视化界面时，具体用于：

根据所述相对位置关系确定所述可视化界面的映射点；

提取所述三维虚拟数字影像的坐标点；

逐一按照所述映射点将所述坐标点映射至可视化界面中。

详细地，根据相对位置关系中的界面坐标确定在可视化界面上三维虚拟数字影像的映射点，遍历三维虚拟数字影像中每个目标物体的顶点坐标或其他需要映射的坐标点，对于每个三维坐标点，通过相机参数和透视投影算法将其映射到屏幕坐标系上的二维坐标值，进而将得到的二维坐标点在可视化界面中标识或绘制出来，以呈现原始的三维虚拟数字影像在屏幕上的投影效果，从而将三维虚拟数字影像映射至可视化界面中进行展示。

进一步地，通过在可视化界面中展示的三维虚拟数字影像可以通过多种交互方式，让用户更加自然地与虚拟场景进行互动，提高沉浸式体验。

所述多媒体实时展示界面展示模块105，用于利用预设的多交互通道及预设的交互任务对所述可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面。

本发明实施例中，所述多交互通道是通过多种不同的方式来与三维虚拟数字影像进行交互的途径，其中多交互通道包括但不限于触点交互、手势交互、语音交互；所述交互任务包括但不限于选择、平移、旋转及放缩，进而根据交互任务选择不同的交互通道，实现对可视化界面的三维虚拟数字影像的实时交互。

本发明实施例中，所述多媒体实时展示界面展示模块105在利用预设的多交互通道及预设的交互任务对所述可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面时，具体用于：

根据所述交互任务在所述多交互通道中选取目标交互通道；

详细地，根据用户需求和交互任务选择合适的交互通道，对于特定的任务，语音识别可能更直观和方便，而手势识别可能更自然和灵活，而当交互任务的复杂性较高，可能需要更精细的控制，而简单任务可能只需要简单的指令输入，从而根据交互任务的难易度选取合适的目标交互通道，进而通过选取的目标交互通道调整呼吸坐标点，如目标交互通道为手势交互，则通过手势识别技术获取用户的手势动作，将手势动作映射到对应的可视化界面的呼吸坐标点上，如用户做出放大的手势，可以将放大的手势映射到呼吸坐标点上，以实现对虚拟数字影像的放大操作。

具体地，根据调整后的呼吸坐标点更新可视化界面的三维虚拟数字影像，使得用户的实时交互操作能够实时反映在界面中，结合更新后的可视化界面和用户的交互操作，生成多媒体实时展示界面，让用户可以实时看到虚拟场景的变化，并且通过所选的目标交互通道进行实时的交互操作，从而实现用户与虚拟数字影像的实时交互与展示，其中所述多媒体实时展示界面是指一个能够实时显示多种媒体内容的界面，可以包括图像、视频、音频等元素。

参照图2所示，为本发明一实施例提供的基于增强现实技术的多媒体展示系统的运行方法的流程示意图。在本实施例中，所述基于增强现实技术的多媒体展示系统的运行方法包括：

S1、获取现实世界环境的环境图像数据，利用预设的图像识别算法识别所述环境图像数据中的目标环境物体；

S2、提取所述目标环境物体的位置坐标，提取所述目标环境物体的语义信息，根据所述语义信息确定所述目标环境物体之间的关联性，根据所述位置坐标、所述关联性及预设的物体属性构建所述环境图像数据对应的环境物体链接图；

S3、根据预设的时间窗口检测所述环境图像数据的图像状态，根据所述图像状态及所述环境物体链接图生成所述环境图像数据对应的三维虚拟数字影像；

S4、通过预设的三维映射算法计算所述三维虚拟数字影像与预设的三维空间多媒体信息标识之间的相对位置关系，根据所述相对位置关系将所述三维虚拟数字影像映射至可视化界面；

S5、利用预设的多交互通道及预设的交互任务对所述可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围并不仅依据上述说明进行限定，因此旨在将落在保护范围内的等同要件的含义和范围内的所有变化涵括在本发明内。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于增强现实技术的多媒体展示系统，其特征在于，所述系统包括环境图像数据识别模块、环境物体链接图构建模块、三维虚拟数字影像生成模块、可视化界面映射模块及多媒体实时展示界面展示模块，其中，

根据所述变换关系确定所述相对位置关系；

2.如权利要求1所述的基于增强现实技术的多媒体展示系统，其特征在于，所述环境图像数据识别模块在利用预设的图像识别算法识别所述环境图像数据中的目标环境物体时，具体用于：

3.如权利要求1所述的基于增强现实技术的多媒体展示系统，其特征在于，所述环境物体链接图构建模块在根据所述语义信息确定所述目标环境物体之间的关联性时，具体用于：

根据所述语义图确定所述目标环境物体的层次因子；

通过所述层次因子确定所述目标环境物体之间的关联性。

4.如权利要求1所述的基于增强现实技术的多媒体展示系统，其特征在于，所述环境物体链接图构建模块在根据所述位置坐标、所述关联性及预设的物体属性构建所述环境图像数据对应的环境物体链接图时，具体用于：

将所述环境图像数据中的目标环境物体确定为目标节点；

根据所述关联性创建所述目标节点的关联连接关系；

5.如权利要求1所述的基于增强现实技术的多媒体展示系统，其特征在于，所述三维虚拟数字影像生成模块在根据预设的时间窗口检测所述环境图像数据的图像状态时，具体用于：

获取所述环境图像数据的时间序列；

逐一将所述关键特征进行特征比对，得到特征比对逻辑值；

6.如权利要求1所述的基于增强现实技术的多媒体展示系统，其特征在于，所述三维虚拟数字影像生成模块在根据所述图像状态及所述环境物体链接图生成所述环境图像数据对应的三维虚拟数字影像时，具体用于：

7.如权利要求6所述的基于增强现实技术的多媒体展示系统，其特征在于，所述三维虚拟数字影像生成模块在提取所述第一环境图像数据的第一特征点时，具体用于：

L(x,y,δ)＝G(x,y,δ)×J(x,y)

D(x,y,δ)＝(G(x,y,kδ)―G(x,y,δ))×J(x,y)L(x,y,kδ)―L(x,y,δ)

其中，D为所述高斯差分函数，k为常量；

8.如权利要求1所述的基于增强现实技术的多媒体展示系统，其特征在于，所述可视化界面映射模块在根据所述相对位置关系将所述三维虚拟数字影像映射至可视化界面时，具体用于：

根据所述相对位置关系确定所述可视化界面的映射点；

提取所述三维虚拟数字影像的坐标点；

逐一按照所述映射点将所述坐标点映射至可视化界面中。

9.如权利要求1所述的基于增强现实技术的多媒体展示系统，其特征在于，所述多媒体实时展示界面展示模块在利用预设的多交互通道及预设的交互任务对所述可视化界面的三维虚拟数字影像进行实时交互，得到多媒体实时展示界面时，具体用于：

根据所述交互任务在所述多交互通道中选取目标交互通道；

10.一种基于增强现实技术的多媒体展示系统的运行方法，其特征在于，用于执行如权利要求1-9中任一项所述的基于增强现实技术的多媒体展示系统，所述方法包括：

通过预设的三维映射算法计算所述三维虚拟数字影像与预设的三维空间多媒体信息标识之间的相对位置关系，根据所述相对位置关系将所述三维虚拟数字影像映射至可视化界面其中所述通过预设的三维映射算法计算所述三维虚拟数字影像与预设的三维空间多媒体信息标识之间的相对位置关系时，具体用于：

根据所述变换关系确定所述相对位置关系；