CN111770363B

CN111770363B - 基于情景感知的低延迟高分辨率移动增强现实系统

Info

Publication number: CN111770363B
Application number: CN202010662400.4A
Authority: CN
Inventors: 任杰; 马苗; 田丰; 李志强
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2022-02-11
Anticipated expiration: 2040-07-10
Also published as: CN111770363A

Abstract

基于情景感知的低延迟高分辨率移动增强现实系统，包括场景内容特征提取模块、网络状态信息监控模块，配置搜索引擎模块及超分辨率处理模块；基于场景内容及网络状态信息，面向移动设备上的增强现实系统，自动提取当前拍摄场景图像特征、当前所处网络环境状态特征，输入到线下预训练配置搜索引擎中，预测不同超高清还原配置下的响应延迟及用户观感分数，并综合延迟及观感分数指标输出超高清配置，根据深度模型输出配置对用户输入视频内容进行超分辨率处理；可根据当前网络环境状态及拍摄场景，自适应调整拍摄清晰度及高清还原配置，降低移动增强现实系统延迟的同时，具有实时快速、低功耗、低成本的优点。

Description

基于情景感知的低延迟高分辨率移动增强现实系统

技术领域

本发明属于计算机视觉技术领域，具体涉及基于情景信息的低延迟高分辨率移动增强现实系统。

背景技术

移动硬件及技术的飞速发展极大的扩展了移动用户的交互空间和交互方式，如虚拟现实技术（Virtual Reality,VR），以及由VR技术延伸出来的增强现实（AugmentedReality,简称AR）和混合现实( Mixed Reality, MR）技术，该类技术为用户在娱乐、教育和医疗保健领域提供了前所未有的沉浸式体验。由于AR技术在传统的移动设备中即可实现，可操作性强，由此AR也被工业界和学术界所推崇。通常，AR系统利用移动端摄像头及传感器获取用户当前环境实时数据，通过图像分析技术将真实世界同虚拟图像相结合，即在用户的可见区域内渲染虚拟叠加层，从而为用户呈现增强了的现实世界观感。与此同时，为保障用户良好的沉浸式体验，各类AR设备也层出不穷。数据显示，预计2021年全球将卖出9900万台AR / VR设备，其中AR市场将达1140亿美元，VR市场将达650亿美元，与此同时MAR（MobileAugmented Reality）应用安装量将在2023年超过25亿。随着AR的飞速发展，AR系统功能复杂度以及对网络资源的需求明显增加，同时用户对响应时延、用户观感体验及移动设备的能效也提出了更高的要求，因此如何设计并优化新一代移动AR系统，并为其提供必要的理论基础和技术支撑具有重要的研究意义和广阔的应用前景。高清的MAR服务会产生海量的数据传输需求，如交互式 6DoF视频，以及60fps的帧率，其比特率最高可达4K视频的10倍，由此稳定且高性能的网络状态至关重要。现如今，由于4G网络有限的带宽及高延迟，严重限制了AR和VR应用程序的发展。虽然5G技术飞速发展并在全球范围内进行部署，增加了数据密集型应用的适用性及可用范围，但截至2019年底，我国4G覆盖率78.3%，5G的覆盖率仅为7%。此外，目前全球平均上行速度10.73Mbps，下行速度30Mbps，Ookla显示英国5G的平均下载速度提升450%以上，但上行速度仅提升38%-110%。由此可知，现有的网络环境依然无法为用户提供高质量低延迟的AR体验，且移动设备的移动状态进一步增加了网络的不稳定性。因此，现有的网络状态是AR发展的重要瓶颈，如何有效利用现有的网络环境为用户尽可能提供高质量的视频服务尤为重要。

发明内容

为克服上述现有技术的不足，本发明的目的在于提供基于情景感知的低延迟高分辨率移动增强现实系统，利用上下行带宽资源的不对称性，上传低清视频到服务器进行超分辨率处理，并将渲染后的高清视频下载到用户移动端，该系统可有效根据当前网络环境状态及拍摄场景，自适应调整拍摄清晰度及高清还原配置，降低移动增强现实系统延迟的同时，为用户提供低延迟和高质量增强现实服务，具有实时快速、低功耗、低成本的优点。

为实现上述目的，本发明采用的技术方案是：基于情景感知的低延迟高分辨率移动增强现实系统，包括以下模块：

所述场景内容特征提取模块用于采集用户拍摄视频内容特征信息；所述网络状态信息监控模块采集移动设备到服务器的可用上下行带宽及传输延迟信息；所述配置搜索引擎模块根据场景内容特征提取模块及网络状态信息监控模块输出的场景内容特征及网络状态特征，预测不同超分辨率配置下的延迟及用户观感分数，并根据提前定义的用户体验分数=用户观感分数/延迟，选取用户体验分数最大值配置，该配置包含移动端下采样倍数，超分辨率模型，及超分辨率还原频率；所述下采样模块用于对配置搜索引擎输出的下采样倍数对移动设备拍摄的高清图像进行下采样处理；所述超分辨率处理模型根据配置引擎输出的配置对视频内容进行超分辨率处理。

所述场景内容特征提取模块包括：

1）抽取拍摄场景图像空间复杂度；

2）抽取拍摄场景图像时间复杂度；

3）抽取拍摄场景图像亮度；

4）抽取拍摄场景图像关键点个数；

5）抽取拍摄场景图像大小；

6）抽取拍摄场景图像对比度；

7）抽取拍摄场景图像饱和度。

所述网络状态信息监控模块，该模块在移动用户提出使用移动增强系统服务时，向服务器发出网络状态测试数据，并根据服务器反馈信息确定当前网络上行带宽，下行带宽及往返时延。

所述配置搜索引擎模块，该模块核心为线下预训练的延迟预测模型和用户光杆体验分数模型；模型训练过程包括：首先在线下对海量高清视频（4K，8K）进行下采样处理，获取所有高清视频在不同清晰度下的视频，然后将所有视频上传到服务器中，对不同清晰度视频选择对应的超分辨率模型并按照不同的帧间隔进行高清还原处理，并对还原后的高分辨率视频进行目标检测、视频、渲染，最后将渲染后的视频帧下载到服务器中；记录处理时间、和对应的用户观感分数，观感分数用VMAF（Visual Multimethod Assessment Fusion，视频质量多方法评价融合）进行度量；最后所述的场景内容特征提取模块采集的场景内容特征以及最后将所述的网络状态信息监控模块采集的网络状态信息协同记录的处理时间和对应的用户观感分数输入到深度模型中进行训练；由此分别构建延迟预测模型和用户观感分数预测模型；最后对不同配置下预测的延迟及VMAF进行处理，获取用户综合体验分数=VMAF/延迟，输出用户综合体验分数最大的配置，其中包含：

1）在移动端的视频下采样配置（缩小倍数）；

2）在服务器端的采用的超分辨率处理模型（放大倍数），该选择同下采样配置相关；

3）在服务器端进行超分辨率处理的帧间隔，被选中的帧进行高清分辨率处理，其余帧直接进行上采样还原。

所述下采样模块根据输出的下采样配置，对用户拍摄的高分辨率视频进行下采样处理。

所述超分辨率处理模块根据输出的超分辨率处理模型（放大倍数）及超分辨率处理的帧间隔对上传到服务器中的视频内容进行超分辨率处理。

所述的高清视频为4K或8K。

本发明的有益效果是：

采用上述技术方案，首先场景内容特征提取模块采集用户拍摄视频内容特征信息来表达当前图像复杂度，于此同时，网络状态信息监控模块采集移动设备到服务器的可用上下行带宽及往返延迟信息，将网络状态信息和图像复杂度信息输入到配置搜索引擎模块，预测不同超分辨率配置下的延迟及用户观感分数，并根据提前定义的用户体验分数=用户观感分数/延迟，选取用户体验分数最大值配置，该配置包含移动端下采样倍数（输入到下采样模块），超分辨率模型（输入到服务器端的超分辨率处理模块），及超分辨率还原频率（输入到服务器端的超分辨率处理模块）。下采样模块根据下采样倍数对移动设备拍摄的高清图像进行低清处理，所述超分辨率处理模块对移动端传输上来的视频内容进行超分辨率处理。处理后的视频内容进行目标识别及动画渲染，最后现在到移动端，呈现给用户。

场景内容特征提取模块通过对当前拍摄场景内容进行分析，了解当前视频内容复杂度，具体抽取了图像中的空间复杂度信息，帧间的时间复杂度信息，上述两个特征从图像布局的内容复杂性以及两帧间内容的动态变换程度去计算当前拍摄场景的复杂度，除此之外，该模块还采集了图像关键点个数，图像饱和度，图像亮度，图像对比度，关键像素边长度以及帧大小。上述特征足矣从多个方面衡量当前拍摄场景的复杂度以及动态性，另一方面，上述特征值抽取方式简单，开销基本可忽略，不会额外增加增强现实实际开销。

与此同时，移动设备同时利用场景内容特征提取模块获取当前移动设备所处网络环境状态，通过向服务器端发送测试数据包，计算当前上下行带宽及往返时延，该方法简单有效。

本发明核心为配置搜索引擎模块，该模块包含延迟预测模块、用户观感预测模块和用户体验分数评价模块。其中延迟预测模块包含移动增强现实延迟预测模型，用来预测当前配置下的延迟，用户观感预测模块包含移动增强现实用户观感模型，用来预测当前配置下用户观感质量分数，用户体验分数评价模块用来计算不同配置下的用户综合体验分数，并选择分数最高的配置。具体来说，通过线下训练方式分别构建延迟预测及用户观感预测两个模型。线下训练过程如下：

1）：采集海量（如5000）高清视频（4K或者8K），针对每个视频使用下采样算法将高清视频下采样到不同低清晰度视频（如2k，1K，360p等），服务器端部署对应超清模型（如2倍超清还原，4倍超清还原，8倍超清还原等），模拟不同网络环境，并将不同清晰度视频在不同网络环境中上传至服务器端进行超清还原至指定清晰度（如4K或8K），然后对还原后的视频进行目标识别及渲染，最后下载至移动端，并记录整个过程所需时延和VMAF分数。

2）：通过抽取到的视频特征、网络环境特征，不同配置及对应的延迟和VMAF分数，分别构建延迟预测模型和用户观感预测模型。

最后搜索引擎，根据不同输入配置，预测当前视频的延迟和用户观感分数，并对两者进行综合考量，计算用户体验分数=用户观感分数/延迟，并选择用户体验分数最高的配置对视屏内容进行处理。

通过上述技术方案，可以选择出满足用户观感和和延迟的AR视频内容处理方案。

下采样模块，针对当前拍摄视频内容进行下采样，降低视频分辨率，下采样倍数按照搜索引擎输出进行设置。

通过上述技术方案，降低视频分辨率的同时，减少了需要传输的数据量，降低了上传带宽负载，从而保证在网络状态不佳时，也可以保证AR视频被及时处理。

超分辨率处理模块，用来处理从移动端上传上来的低清视频，将低清视频部分帧按照搜索引擎输出配置以一定的频率传入对应的超分辨率模型，其余低清帧依赖视频前后帧的相似性直接进行上采样放大。被处理后得到的高清帧进一步输入AR系统的目标识别和渲染部分。最后下载到用户移动端。

通过上述技术方案，低清视频可以在服务器中进行高清处理，利用服务器的高性能计算能力，对低清帧进行快速处理，与此同时，并不是所有的帧都输入到超分辨率模型，利用视频帧间的相似性，对其余视频帧直接进行上采样放大，由此降低对低清视频进行放大处理的开销。

综上所述，本发明的优点具体体现在：

1）通过设置场景内容特征提取模块，可以及时获取当前用户所处网络状态，当网络状态不好时，及时降低发送视频清晰度，尽可能的降低网络资源对增强现实实时性的影响，同样在网络状态较好时，提升上传视频清晰度，为用户提供尽可能高的视频质量，由此本系统可以根据网络状态动态的调整上传视频清晰度。

2）通过设置场景内容特征提取模块抽取当前场景图像信息，表达图像复杂度，当视频复杂度较高时，尽可能的上传清晰度较高的视频，保存较多的视频内容信息。

3）通过利用深度学习模型，可以准确预测延迟及用户观感质量，并定义用户体验评价分数标准，综合考虑用户对时延和观感的多方面体验。当网络状态较差时，用户愿意牺牲用户观感以获得及时的响应。从而动态调整配置，为用户高质量的移动增强现实服务。

附图说明

图1为本发明基于情景感知的低延迟高分辨率移动增强现实系统的流程示意图。

具体实施方式

下面通过具体实施例对本发明作进一步详细说明。

基于情景感知的低延迟高分辨率移动增强现实系统，如图1所示，包括有场景内容特征提取模块、网络状态信息监控模块，配置搜索引擎模块，下采样模块及超分辨率处理模块；所述场景内容特征提取模块用于采集用户拍摄视频内容特征信息；所述网络状态信息监控模块采集移动设备到服务器的可用上下行带宽及传输延迟信息；所述配置搜索引擎模块根据场景内容特征提取模块及网络状态信息监控模块输出的场景内容特征及网络状态特征，预测不同超分辨率配置下的延迟及用户观感分数，并根据提前定义的用户体验分数=用户观感分数/延迟，选取用户体验分数最大值配置，该配置包含移动端下采样倍数，超分辨率模型，及超分辨率还原频率；所述下采样模块用于对配置搜索引擎输出的下采样倍数对移动设备拍摄的高清图像进行下采样处理；所述超分辨率处理模型根据配置引擎输出的配置对视频内容进行超分辨率处理。

所述场景内容特征提取模块包括：

1）抽取拍摄场景图像空间复杂度；

2）抽取拍摄场景图像时间复杂度；

3）抽取拍摄场景图像亮度；

4）抽取拍摄场景图像关键点个数；

5）抽取拍摄场景图像大小；

6）抽取拍摄场景图像对比度；

7）抽取拍摄场景图像饱和度。

1）在移动端的视频下采样配置（缩小倍数）；

本发明基于场景内容及网络状态信息，面向移动设备上的增强现实系统，当移动用户使用本发明提出的增强现实系统时，自动提取当前拍摄场景图像特征、当前所处网络环境状态特征，输入到线下预训练配置搜索引擎中，预测不同超高清还原配置下的响应延迟及用户观感分数，并综合延迟及观感分数指标输出超高清配置，超高清模块根据深度模型输出配置对用户输入视频内容进行超分辨率处理。

如图1所示，当移动AR设备开始工作时，场景内容特征提取模块用于采集用户拍摄视频内容特征信息，与此同时网络状态信息监控模块采集移动设备到服务器的可用上下行带宽及传输延迟信息。将网络状态信息和场景内容特征相结合并输入到配置搜索引擎模块，该模块根据场景内容特征提取模块及网络状态信息监控模块预测不同超分辨率配置下的延迟及用户观感分数，并根据提前定义的用户体验分数=用户观感分数/延迟，选取用户体验分数最大值配置，该配置包含移动端下采样配置（下采样倍数），超分辨率配置（服务器端将要使用的超分辨率模型，超分辨率还原频率）。下采样模块更加下采样配置对移动设备拍摄的高清图像进行下采样处理，并输出低清帧，并输入到超分辨率处理模块，超分辨率处理模型根据配置引擎输出的配置对低清帧进行超分辨率处理，并输出高清还原帧，最后服务器在高清帧上进行东环渲染，并将渲染结果下载到移动AR设备中，供用户观看。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于情景感知的低延迟高分辨率移动增强现实系统，其特征在于，包括有场景内容特征提取模块、网络状态信息监控模块，配置搜索引擎模块，下采样模块及超分辨率处理模块；所述场景内容特征提取模块用于采集用户拍摄视频内容特征信息；所述网络状态信息监控模块采集移动设备到服务器的可用上下行带宽及传输延迟信息；所述配置搜索引擎模块根据场景内容特征提取模块及网络状态信息监控模块输出的场景内容特征及网络状态特征，预测不同超分辨率配置下的延迟及用户观感分数，并根据提前定义的用户体验分数=用户观感分数/延迟，选取用户体验分数最大值配置，该配置包含移动端下采样倍数，超分辨率模型，及超分辨率还原频率；所述下采样模块用于对配置搜索引擎输出的下采样倍数对移动设备拍摄的高清图像进行下采样处理；所述超分辨率处理模块根据配置搜索引擎输出的配置对视频内容进行超分辨率处理；

所述配置搜索引擎模块，该模块核心为线下预训练的延迟预测模型和用户观感分数预测模型；模型训练过程包括：首先在线下对海量高清视频进行下采样处理，获取所有高清视频在不同清晰度下的视频，然后将所有视频上传到服务器中，对不同清晰度视频选择对应的超分辨率模型并按照不同的帧间隔进行高清还原处理，并对还原后的高分辨率视频进行目标检测、视频渲染，最后将渲染后的视频帧下载到服务器中；记录处理时间、和对应的用户观感分数，观感分数用视频质量多方法评价融合VMAF进行度量；最后将场景内容特征提取模块采集的场景内容特征以及所述的网络状态信息监控模块采集的网络状态信息协同记录的处理时间和对应的用户观感分数输入到深度模型中进行训练；由此分别构建延迟预测模型和用户观感分数预测模型；最后对不同配置下预测的延迟及视频质量多方法评价融合VMAF进行处理，获取用户综合体验分数=视频质量多方法评价融合VMAF/延迟，输出用户综合体验分数最大的配置，其中包含：

1）在移动端的视频下采样配置；

2）在服务器端的选择的超分辨率处理模型，该选择同下采样配置相关；

2.根据权利要求1所述一种基于情景感知的低延迟高分辨率移动增强现实系统，其特征在于，所述场景内容特征提取模块采集的视频内容特征信息包括：1）抽取拍摄场景图像空间复杂度、2）抽取拍摄场景图像时间复杂度、3）抽取拍摄场景图像亮度、4）抽取拍摄场景图像关键点个数、5）抽取拍摄场景图像大小、6）抽取拍摄场景图像对比度和7）抽取拍摄场景图像饱和度。

3.根据权利要求1所述一种基于情景感知的低延迟高分辨率移动增强现实系统，其特征在于，所述网络状态信息监控模块，该模块在移动用户提出使用移动增强现实系统服务时，向服务器发出网络状态测试数据，并根据服务器反馈信息确定当前网络上行带宽，下行带宽及往返时延。

4.根据权利要求1所述一种基于情景感知的低延迟高分辨率移动增强现实系统，其特征在于，所述下采样模块根据输出的下采样配置，对用户拍摄的高分辨率视频进行下采样处理。

5.根据权利要求1所述一种基于情景感知的低延迟高分辨率移动增强现实系统，其特征在于，所述超分辨率处理模块根据输出的超分辨率处理模型及超分辨率处理的帧间隔对上传到服务器中的视频内容进行超分辨率处理。

6.根据权利要求1所述一种基于情景感知的低延迟高分辨率移动增强现实系统，其特征在于，所述的高清视频为4K或8K。