CN114401414B

CN114401414B - 沉浸式直播的信息显示方法及系统、信息推送方法

Info

Publication number: CN114401414B
Application number: CN202111619865.2A
Authority: CN
Inventors: 刘海伟; 郭小燕
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2024-01-23
Anticipated expiration: 2041-12-27
Also published as: CN114401414A

Abstract

本公开关于一种沉浸式直播的信息显示方法及系统、信息推送方法，在进入预设沉浸式直播模式时，直播设备基于当前直播位置的位置数据以及全局真实场景的地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像；云服务器，基于主播用户对于局部虚拟场景的交互数据，将局部虚拟场景与直播设备采集的眼位视频数据进行合成处理，得到虚实融合数据；虚拟现实设备，接收虚实融合数据，对虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像；将视角图像分别投射至虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像。

Description

沉浸式直播的信息显示方法及系统、信息推送方法

技术领域

本公开涉及信息处理技术领域，尤其涉及沉浸式直播的信息显示方法及系统、沉浸式直播的信息推送方法。

背景技术

相关技术中，在线下显示空间(文旅景区、商场商圈等，本申请中以文旅场景为案例进行示意说明，商场商圈为相似)的运营中，因具有很强的实时性和真实感，直播已经成为线下主播和线上用户进行互动的主流形式。然而随着直播业务的深入，目前的直播技术遇到的瓶颈也越发明显，一方面手机直播受限于手机的单屏幕大小和有限视野限制，尤其是在文旅自然景观的展现，线上用户的沉浸感不够强。另一方面线下显示空间的布局通常很难发生变化，尤其是文旅人文景观的展示，线上用户难以保持长久的新鲜感。新鲜感和沉浸感限制了直播对于线上用户的长久吸引力。

例如，在相关技术中，采用自制的AR眼镜实现智慧导览系统时，容易受限于物理空间约束，无法将这种体验拓展到更广泛的线上用户，尤其是现场的沉浸感也无法采用现有的视频直播系统进行有效的传递。

而在另一种实施方案中，利用设置在主播端的AR投射设备来查看观众端的反馈，可以不影响主播驾驶员的操作，但是这种直播方式，存在明显的弊端：以现有视频直播技术为主，在现有直播技术链路中，将汽车驾驶场景展示出来，但是这种方式不具备强的沉浸感，缺乏真实场景的立体感、虚实融合场景的真实感等。

发明内容

本公开提供一种沉浸式直播的信息显示方法及系统、信息推送方法，以至少解决相关技术中视频直播过程中，无法为线上用户提供虚实融合场景，缺乏真实场景的立体感，降低沉浸感的技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种沉浸式直播的信息显示方法，包括：在进入预设沉浸式直播模式的情况下，获取当前直播位置的位置数据以及全局真实场景的地图数据；基于所述位置数据和所述地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像，其中，所述虚实融合数据中至少包含：所述直播设备拍摄的局部真实场景以及与所述局部真实场景对应的局部虚拟场景，所述局部真实场景为所述全局真实场景中的部分区域场景。

根据本公开实施例的第二方面，提供一种沉浸式直播的信息推送方法，应用于云服务器，所述云服务器与直播设备连接，所述直播设备执行上述所述的沉浸式直播的信息显示方法，沉浸式直播的信息推送方法包括：接收直播设备传输的眼位视频数据和主播用户对于局部虚拟场景的交互数据，其中，所述眼位视频数据为所述直播设备采集主播用户当前所处的直播位置的视频数据；基于所述交互数据，将所述局部虚拟场景与所述眼位视频数据进行合成处理，得到虚实融合数据；将所述虚实融合数据推送至虚拟现实设备。

根据本公开实施例的第三方面，提供一种沉浸式直播的信息显示方法，应用于虚拟现实设备，所述虚拟现实设备与云服务器预先建立通讯连接，包括：接收虚实融合数据，其中，所述虚实融合数据中至少包括：直播设备采集的眼位视频数据和直播设备拍摄的局部真实场景以及与所述局部真实场景对应的局部虚拟场景，所述眼位视频数据包括连续帧眼位图像；对所述虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像；将所述视角图像分别投射至所述虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像。

根据本公开实施例的第四方面，提供一种沉浸式直播的方法，包括：在进入预设沉浸式直播模式时，直播设备基于当前直播位置的位置数据以及全局真实场景的地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像，其中，所述虚实融合数据中至少包含：所述直播设备拍摄的局部真实场景以及与所述局部真实场景对应的局部虚拟场景；云服务器，基于主播用户对于局部虚拟场景的交互数据，将所述局部虚拟场景与所述直播设备采集的眼位视频数据进行合成处理，得到虚实融合数据；虚拟现实设备，接收所述虚实融合数据，对所述虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像；将所述视角图像分别投射至所述虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像。

根据本公开实施例的第五方面，提供一种沉浸式直播的信息显示系统，包括：直播设备，设置为执行上述任意一项所述沉浸式直播的信息显示方法；虚拟现实设备，与云服务器连接，设置为执行上述任意一项所述沉浸式直播的信息显示方法；云服务器，分别与所述直播设备、所述虚拟现实设备连接，设置为执行上述任意一项所述沉浸式直播的信息推送方法。

根据本公开实施例的第六方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述任意一项所述沉浸式直播的信息显示方法，或者实现如上述任意一项所述沉浸式直播的信息推送方法，或者实现如上述任意一项所述沉浸式直播的信息显示方法。

根据本公开实施例的第七方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任意一项所述沉浸式直播的信息显示方法，或者实现如上述任意一项所述沉浸式直播的信息推送方法，或者实现如上述任意一项所述沉浸式直播的信息显示方法。

根据本公开实施例的第八方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如上述任意一项所述沉浸式直播的信息显示方法，或者实现如上述任意一项所述沉浸式直播的信息推送方法，或者实现如上述任意一项所述沉浸式直播的信息显示方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开融合增强显示技术AR和虚拟显示VR技术在直播中的要素，采用设计一款主播端可同时进行立体视频采集和虚实融合显示的直播设备(以AR眼镜进行示意说明)，同时结合服务端的场景重建和定位技术、云端实时渲染等多项技术，最终在观众端(VR头显)立体展示和双向实时互动，而实现了一套用于线下文旅场景的沉浸式直播的系统和方法。该方法保障了直播中主播用户端能便利地呈现和介绍更丰富的虚实融合内容和互动信息，也能为用户端(观众)带来和主播高度一致的实时沉浸感的体验。

相对于传统的直播系统，本公开中，预先离线对特定线下空间进行稠密建图和内容制作，为线上用户(观众端的用户)提供了自己不在现场，但是采用直播也能进行实景AR游览的能力，能提升线上用户的沉浸感。

本公开中，直播系统的直播端(即主播用户端使用的直播设备一侧)采用多目光学系统版的增强现实AR眼镜作为直播设备，该光学系统能同时显示真实场景、叠加观众互动后的AR内容、观众的文字版聊天信息等，同时增强主播用户端和观众用户端的实时互动性。

本公开中，直播端中设计了直播专用版AR眼镜，融合了立体视频采集模组。该模组在不影响主播侧的直播功能时，克服了其需要额外手持专用立体相机才能进行沉浸感直播的困难。

本公开中，增强现实眼镜中的摄像模块-立体视频采集模组，设计为基线接近于双眼、双目前向平视广角高清彩色相机，既克服了常规的双目张角灰度VGA相机的效果局限性，也克服了全景相机无法实现有效立体感的局限性，满足视觉定位算法的数据需求，又为用户端的沉浸式体验提供高质量图像数据。

本公开中，在直播服务端中额外扩展了场景增强服务，采用端云混合渲染，克服了主播侧AR眼镜算力限制不能高清渲染，而用户侧VR头显又需要高清显示才能克服纱窗效应的矛盾。

本公开中，应用于沉浸式直播系统中，该系统在用户侧采用VR头显作为客户端，VR头显保障了用户可以获得和主播一致的对于线下空间的立体感知的体验。同时，用户侧VR头显APP中使用了新视角合成技术，保障了用户在空间中自由视角观察的旋转自由度。

本公开中，主播端佩戴的直播设备(以AR眼镜进行示意说明)中直播版相机模组，满足直播中用户端同视角立体显示的最小数目，为了增强眼镜端定位服务的精度，除了本设计中的双目版本，也可以是更多个相机的组合。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种沉浸式直播的信息显示方法的实施环境的示意图；

图2是根据一示例性实施例示出的一种可选的沉浸式直播的信息显示方法的流程图；

图3是根据一示例性实施例示出的一种可选的沉浸式直播的信息推送方法的流程图；

图4是根据一示例性实施例示出的另一种可选的沉浸式直播的信息显示方法的流程图；

图5是根据本发明实施例的另一种可选的沉浸式直播的方法的流程图；

图6是根据一示例性实施例示出的另一种可选的沉浸式直播的信息显示系统的示意图；

图7是根据本发明实施例的另一种可选的沉浸式直播系统的示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为便于本领域技术人员理解本发明，下面对本发明各实施例中涉及的部分术语或者名词做出解释：

增强现实技术，(Augmented Reality，简称AR)，是一种将虚拟信息与真实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，两种信息互为补充，从而实现对真实世界的“增强”。

本申请可应用于增强现实系统/沉浸式直播系统，涉及到计算机视觉三维重建、视觉融合定位、云端实时渲染、新视角合成等空间AR技术、AR眼镜光学成像技术、VR(VirtualReality，虚拟显示)头显技术等，采用将多个技术进行设计改进，和视频直播系统相结合，构建一种沉浸式直播系统。

本申请可以实施的场景包括但不限于：文旅空间场景的旅游直播、商场商圈直播推广活动等，为主播用户端和观众用户端双端，都能提供一种全新的沉浸式多人线上旅游体验。在文旅直播领域或者商场商圈直播等领域，如果想要获得直播界面的新鲜感，需要有对现实空间进行虚拟改造和虚拟构造的功能，采用视觉场景重建和定位等技术，阶段性更新叠加呈现的虚拟内容，为用户提供更丰富的信息，比如不同季节的景观风貌，不同历史时期的场景重现等。

在实现沉浸直播时，需要实现立体音视频的获取和呈现，本发明融合AR和VR技术在直播中的要素，采用设计一款主播端可同时进行立体视频采集和虚实融合显示的AR眼镜，同时结合服务端的场景重建和定位技术、云端实时渲染等多项技术，最终在用户端(VR头显)立体展示和双向实时互动，而实现了一套用于线下文旅场景的沉浸式直播的系统和方法。该方法保障了直播中主播能便利地呈现和介绍更丰富的虚实融合内容和互动信息，也能为用户端(观众)带来和主播高度一致的实时沉浸感的体验。

下面结合本申请的各个实施例来详细说明本申请。

图1是根据一示例性实施例示出的一种沉浸式直播的信息显示方法的实施环境的示意图。参见图1，该实施环境：

包括电子终端101和服务器102。

电子终端101可以是智能手机、平板电脑、笔记本电脑、台式电脑或者其他具有显示功能的电子设备。电子终端101具有渲染任一视图应用/视图工具对应的前端页面的功能(例如，显示推送的虚实融合视频，按照服务器102提供的虚实融合数据，将主播端当前所处空间的真实场景以及构建的虚拟场景、摄像模块拍摄的局部场景、场景信息显示在用户端的界面上)。在一些实施例中，电子终端101上安装有浏览器客户端/本地客户端，电子终端101采用运行该浏览器客户端，渲染任一应用/工具对应的前端页面。

需要说明的是，电子终端101泛指多个终端中的一个，本实施例仅以电子终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。例如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者更多数量，本公开实施例对终端的数量和设备类型均不加以限定。

服务器102可以是一台服务器、多台服务器、云服务器、云计算平台或者虚拟化中心。在一些实施例中，服务器102是任一应用或者任意多个应用的后台服务器，服务器102存储有用于渲染属于该任一应用或者该任意多个应用的页面的资源，服务器102基于所存储的资源，为该任一应用或者该任意多个应用的页面渲染提供后台服务。

电子终端101与服务器102采用无线网络或者有线网络进行通信。电子终端101运行浏览器客户端，响应于页面渲染指令，且该页面渲染指令对应的网址属于服务器102对应的应用，采用与服务器102进行通信来获取用于渲染该网址对应的页面的资源，基于获取到的资源，渲染该网址对应的页面。需要说明的是，服务器102泛指多个服务器中的一个，其中每个服务器分别为不同应用的后台服务器，电子终端101采用与不同应用的后台服务器进行通信，对不同应用的页面进行渲染。

本实施例以直播设备为执行主体进行示意说明，该直播设备可以为主播用户端所佩戴/持有，直播设备为增强现实设备，直播设备的类型包括：增强现实AR眼镜，增强现实眼镜至少包括：光学显示模组和空间定位模组，空间定位模组中的摄像模块采用双目彩色RGB广角相机。可选的，本实施例中的摄像模块并不仅限于两个相机，还可以大于两个相机，例如，摄像模块一共采用了3个相机、4个相机…N个相机。

本实施例中的直播设备在硬件上具备普通AR设备的基本结构，包括立体的光学显示模组(即显示模块)、高性能的片上系统(SoC)、空间定位模块(包括但不限于：惯性测量单元、相机等)、音视频播放模组(音频采集模块和播放模块)、网络通信模块、电池模组等，软件系统上预先安装有AR操作系统，可实现视觉惯性定位算法、图像显示的ATW(Asynchronous TimeWarp，简称异步时间扭曲)和ASW(Asynchronous SpaceWarp，简称异步空间扭曲)等基础算法。

为实现直播下的立体图像数据获取，直播设备的摄像模块需要分别布置在左右镜框上边缘位置各一个(AR眼镜的直播版双目相机模组的设计，是为了满足直播中用户端同视角立体显示的最小数目，为了增强眼镜端定位服务的精度，除了本设计中的双目版本，也可以是更多个相机的组合)。摄像模块需选定广角(FOV>110度)、高清(720P以上)的彩色RGB相机，共同构成一组立体摄像模组，摄像模块的光学主轴方向和视野范围的设计需和人眼正常前视的视角相同或者基本接近。

图2是根据一示例性实施例示出的一种可选的沉浸式直播的信息显示方法的流程图，如图2所示，包括以下步骤。

本申请中，在进行直播前，需要对线下空间进行图像采集和三维稠密模型和视觉定位地图重建。本申请中，可采用融合视觉图像方式，采集具有时间同步的实时差分定位RTK(Real Time Kinematic)、雷达扫描信息和图像信息，获得图像帧的先验位姿，再基于运动结构恢复(Structure from Motion)进行稀疏重建，然后进行多视角立体(Multiviewstereo)的几何稠密重建，获得线下空间的高精三维稠密模型和稀疏视觉定位地图。

可选的，在获取当前直播位置的位置数据以及全局真实场景的地图数据之前，显示方法还包括：对当前直播位置所处的空间区域进行雷达扫描，得到雷达扫描数据；采集当前直播位置的空间图像，并确定采集图像时的时间数据；基于空间图像、采集图像时的时间数据以及雷达扫描数据，构建三维空间模型；基于三维空间模型以及当前直播位置所处的空间区域的区域地图数据，构建全局虚拟场景，其中，全局虚拟场景中的场景结构与全局真实场景的场景结构一一对应。

当前直播位置，可以是指以直播设备当前世界坐标定位(如北斗导航定位坐标)为中心确定的某一个待直播区域，例如，主播用户端要参观某一寺庙或者某一地质公园，在这个过程中，为了保证线下观众用户端能够同步或者延迟一会，沉浸式观看到立体的直播虚实场景，需要预先对该当前直播位置进行三维模型构建。

对当前直播位置所处的空间区域进行雷达扫描时，可以是采用激光雷达扫描或者微波雷达扫描，得到关于空间区域各个建筑/地面/树木等立体结构的雷达扫描数据。利用该雷达扫描数据，结合视觉空间图像，可以构建三维空间模型(主要是指线下空间高精3D模型)。

在构建三维空间模型后，可基于三维空间模型，进行虚拟场景内容的设计和制作，例如对于景区的历史场景的还原，导览地图，基于感兴趣特征POI(Point Of Interest)的虚拟物体，互动式游戏设计等。该内容制作可以采用已知的3D内容制作软件完成，并导出常用内容格式，然后离线对内容进行重新设计和持续性更新，以满足持久运营需求。

本申请中，为了让观众用户有较强的沉浸感，除了显示所拍摄区域的全局真实场景之外(包括但不限于：实时的建筑、树木、动物、人物)，还显示对应于该全局真实场景的全局虚拟场景，该全局虚拟场景可以为该全局真实场景的历史还原场景/全局导览场景/全局虚拟物场景/游戏场景等，能够与具备真实场景融合，能够吸引观众用户使用该直播系统。

在步骤S201中，获取当前直播位置的位置数据以及全局真实场景的地图数据，其中，全局真实场景为直播设备所处区域的场景。

本实施例中，当前直播位置的位置数据，包括但不限于：主播用户端当前所处直播空间的定位坐标、区域名称、区域代码。

可选的，获取当前直播位置的位置数据以及全局真实场景的地图数据，包括：在预设沉浸式直播模式下，控制直播设备读取当前直播位置的位置数据；获取直播设备当前所处位置的世界坐标系；基于直播设备当前所处位置的世界坐标系，确定全局真实场景的世界坐标系，并以全局真实场景的世界坐标系表征全局真实场景的地图数据。

在主播用户端身处待直播的线下文旅空间区域，佩戴上直播设备(例如，带上AR眼镜)，进入直播应用APP后，可创建直播房间并启动沉浸式直播模式，开始进行沉浸式直播，直播设备读取当前直播所在位置/空间的位置数据(直播设备当前所处位置的世界坐标系，GPS数据，北斗导航数据)，获取与当前位置数据对应的低模版本的虚拟场景内容和视觉地图数据，其中，视觉地图数据中以全局的真实世界场景坐标系(World，代号w)表达。

另外，本实施例中，控制直播设备获取位置数据的同时，还可启动摄像模块(本实施例中，摄像模块包括多个相机)和其他传感器，实时采集真实物理世界的眼位视频和惯性传感单元、麦克风等数据。

在步骤S202中，基于所述位置数据和所述地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像，其中，所述虚实融合数据中至少包含：所述直播设备拍摄的局部真实场景以及与所述局部真实场景对应的局部虚拟场景，所述局部真实场景为全局真实场景中的部分区域场景。

可选的，基于位置数据和地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，包括：采用位置数据和地图数据，计算直播设备的摄像模块相对于全局真实场景的全局位姿；基于摄像模块的全局位姿以及预先标定的位姿变换矩阵，计算直播设备的显示模块中每个眼位的眼位位姿，其中，位姿变换矩阵为摄像模块与显示模块之间的相对位姿变换矩阵；基于显示模块中每个眼位的眼位位姿确定眼位区域，以将虚实融合数据渲染的立体图像投射至显示模块上。

可选的，采用位置数据和地图数据，计算直播设备的摄像模块相对于全局真实场景的全局位姿，包括：控制直播设备的摄像模块采集当前直播位置的视频数据；提取视频数据中连续多帧图像的累积局部位姿；计算历史帧图像在地图数据中的初始全局位姿；基于连续多帧图像的累积局部位姿、历史帧图像在地图数据中的初始全局位姿以及图像变换矩阵，计算直播设备的摄像模块相对于全局真实场景的全局位姿。

直播设备启动定位功能(例如启动空间6自由度(DOF)定位功能)，基于摄像模块和传感器数据，以及地图数据，计算摄像模块相对真实场景(w)的实时全局位姿Tc1w，Tc2w。本申请中，在进行定位时，首先高频(例如，30-60Hz)基于VISLAM算法(采用基于双目多状态约束的EKF框架进行实施，视觉定位算法采用先提取图像全局描述进行图像检索，再利用局部特征进行全局匹配定位的双阶段方式实施)计算连续多帧图像之间的累积局部位姿，再以较低频率(例如，1Hz)基于视觉定位算法计算历史帧图像在地图中的全局位姿，然后采用图像变换矩阵计算出实时的摄像模块相对真实场景的全局位姿。

作为本实施例一种可选的实施方式，在将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像之后，显示方法还包括：获取使用直播设备的主播用户的交互动作；获取服务端中存储的直播房间中参与直播互动的观众设备对于局部虚拟场景的交互数据；获取直播房间中参与直播互动的观众设备产生的聊天信息和音频信息；基于主播用户的交互动作、观众设备对于局部虚拟场景的交互数据、观众设备产生的聊天信息和音频信息中的一项或者多项，更新待显示的局部虚拟场景；将直播设备的摄像模块拍摄的局部真实场景、更新后的局部虚拟场景以及与主播用户的交互动作对应的场景信息融合，得到虚实融合数据。

主播用户端可以佩戴上直播设备进行直播，当然，本实施例中的主播用户端除了可佩带直播设备，还可以携带其它辅助设备，例如，移动终端、传输设备、充电设备等，保证直播过程的顺畅，且能够提高线上观众的观看沉浸感。

主播用户端在线下直播空间进行直播时，可能会伴有一些肢体交互动作、语音音频、表情变化以及与线上观众的聊天信息等，在直播过程中，基于主播用户的交互动作、观众设备对于局部虚拟场景的交互数据、观众设备产生的聊天信息和音频信息中的一项或者多项，会实时更新待显示的虚拟场景、真实场景以及相关的聊天信息、语音信息。

作为本实施例一种可选的实施方式，还包括：接收主播用户对于局部虚拟场景的交互数据；将主播用户对于局部虚拟场景的交互数据以及眼位视频数据上传至云服务器中，其中，眼位视频数据为直播设备采集主播用户当前所处的直播位置的视频数据。

本实施例中，直播设备可采用双目光学系统版的AR眼镜而不是移动终端作为直播设备，该光学系统能同时显示真实场景、叠加观众互动后的AR内容、观众的文字版聊天信息等，增强了主播和观众的实时互动性。

本实施例中，直播设备的显示模块会实时读取定位服务的摄像模块的全局位姿Tc₁w，Tc₂w，并读取离线标定的摄像模块和显示模组(显示坐标系，Display，本实施例中标识为d)相对位姿变换矩阵Tdc，计算出显示模块中各个眼位(对应于主播用户端的两个眼位)眼位位姿/眼位世界坐标，以两个眼位为例，其两个眼位的位姿分别Td₁w，Td₂w。本实施例中，直播设备融合了立体视频采集模组(采用至少两个相机)，该模组在不影响主播侧的直播功能时，克服了其需要额外手持专用立体相机才能进行沉浸感直播的困难。

可选的，本实施例中的摄像模块，采用了立体视频采集模组，设计为基线接近于双眼、双目前向平视广角高清彩色相机，这样既克服了常规的双目张角灰度VGA相机的效果局限性，也克服了全景相机无法实现有效立体感的局限性，该设计满足了视觉定位算法的数据需求，又为用户端的沉浸式体验提供高质量图像数据。

本实施例中，在通过眼位区域将虚实融合数据渲染的立体图像投射至显示模块上时，具体方案是将虚实融合数据按照不同的图层设定方式，分别对每个眼位的位姿渲染为立体图像，投射至显示模块的眼位区域，即将虚实融合数据(可理解为混合数据)按照不同的图层设定(空间3D叠加、2D贴屏等)，分别对每个眼位的位姿Td₁w/Td₂w渲染为立体图像，投射到各个眼位(即投射至主播用户端方便查看到的眼睛位置)。主播用户端实时看到真实的场景、低模的虚拟场景/虚拟交互内容和用户互动信息叠加，在不需要任何额外操作的负担下，实现了既能和主播用户端一样感受到AR效果，也能获得大量观众用户端的即时反馈。

上述步骤，在进入预设沉浸式直播模式的情况下，获取当前直播位置的位置数据以及全局真实场景的地图数据；基于位置数据和地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像，其中，虚实融合数据中至少包含：直播设备拍摄的局部真实场景以及与局部真实场景对应的局部虚拟场景，局部真实场景为全局真实场景中的部分区域场景。在该实施例中，可以采用直播设备显示真实场景、空间AR内容、叠加的观众互动信息，主播自身和观众用户多人对于虚拟内容的交互，增强了主播和用户的双向互动性，对于线上观众用户端，能够直播虚实融合场景，丰富了直播内容，为视频直播带了全新的虚实融合体验，提高线上观众用户的观看沉浸感，从而解决相关技术中视频直播过程中，无法为线上用户提供虚实融合场景，缺乏真实场景的立体感，降低沉浸感的技术问题。

采用上述实施例，主播端能同时显示真实场景、空间AR内容、叠加的观众互动信息等，以及主播自身和用户多人对于虚拟内容的交互，增强了主播和用户的双向互动性。同时，本实施例可以直播虚实叠加的场景，丰富了可直播的内容，为视频直播带了全新的虚实融合体验。

下面结合另一种可选的实施例来说明本发明。

本实施例以云服务器为执行主体，对本发明进行示意说明，该云服务器与直播设备(为主播用户端佩带/持有，例如，AR眼镜)连接，直播设备执行上述任意一项所述的沉浸式直播的信息显示方法，云服务器还可以连接虚拟现实设备(为线上观众用户佩带/持有，虚拟现实设备的类型包括：虚拟现实眼镜，例如，VR头显设备)。

图3是根据一示例性实施例示出的一种可选的沉浸式直播的信息推送方法的流程图，如图3所示，包括以下步骤。

在步骤S301中，接收直播设备传输的眼位视频数据和主播用户对于局部虚拟场景的交互数据，其中，眼位视频数据为直播设备的摄像模块采集当前直播位置的视频数据。

云服务器从直播设备(主播端)接收眼位视频数据(主要为双目视频流)、主播用户端对于虚拟场景内容的交互动作(action)和主播用户端在与观众用户端交互时的数据。眼位视频数据包括但不限于：采用直播设备拍摄到的真实场景视频、真实场景图像；主播用户的交互动作包括但不限于：手指动作、手掌动作、头部动作、肢体动作；主播用户端的即时交互数据包括但不限于：语音数据、聊天文字、聊天表情、推送链接等。

在步骤S302中，基于交互数据，将局部虚拟场景与眼位视频数据进行合成处理，得到虚实融合数据。

基于所述交互数据，将局部虚拟场景与眼位视频数据进行合成处理，得到虚实融合数据，包括：基于眼位视频数据指示的局部位姿以及图像变换矩阵，计算直播设备的摄像模块相对于全局真实场景的全局位姿；基于主播用户对于局部虚拟场景的交互数据以及主播用户端传输的即时聊天数据，更新待显示的局部虚拟场景；在全局位姿的视角下，将局部虚拟场景与眼位视频数据进行合成处理，得到虚实融合数据。

本实施例中，采用接收到的眼位视频数据，能够实时计算更精准的摄像模块的位姿，以两个相机为例示意说明摄像模块时，两个相机可分别安装于直播设备的外框边缘，此时，计算出的摄像模块的全局位姿可以分别表征为Tc₁w/Tc₂w。

在步骤S303中，将虚实融合数据推送至虚拟现实设备。

响应不同观众用户以及主播用户对于虚拟场景的交互行为，更新虚拟场景的内容。

一种可选的，本实施例还可以计算在全局位姿Tc₁w/Tc₂w视角下，局部虚拟场景内容的高清版本和局部真实场景的三维稠密模型进行遮挡碰撞等图形学计算，渲染出高真实感的立体图像。

本实施例中，可将合成内容叠加到眼位视频数据，输出最终的虚实叠加的视频流，并将该视频流表征为虚实融合数据。

采用上述步骤，接收直播设备传输的眼位视频数据和主播用户对于局部虚拟场景的交互数据，基于交互数据，将局部虚拟场景与眼位视频数据进行合成处理，得到虚实融合数据，并将虚实融合数据推送至虚拟现实设备。在该实施例中，云服务器实现局部虚拟场景与眼位视频数据的合成处理，能够实现直播场景视频的高清渲染，为视频直播带了全新的虚实融合体验，提高线上观众用户的观看沉浸感，从而解决相关技术中视频直播过程中，无法为线上用户提供虚实融合场景，缺乏真实场景的立体感，降低沉浸感的技术问题。

本实施例中，虚拟现实设备包括：空间定位模块、显示模块、音视频播放模组、通信模块。其中，空间定位模块采用预设定位方式(例如，GPS定位或者北斗导航定位，或者离线标定方式进行定位)获取定位信息，空间定位模块与通信模块(能够实现定位信息和姿态参数的传输)连接，通信模块与显示模块(能够显示通过虚实融合数据渲染的立体图像)连接，显示模块与音视频播放模组(分别播放主播用户的音频信号、交互动作；播放立体图像等)连接。

本实施例中，云服务器提供场景增强服务，场景增强服务包括：构建直播场景下的视觉定位地图和三维空间模型；在直播过程中对主播用户端的空间位置进行周期性定位；对三维空间模型和交互数据进行管理；响应直播过程中主播用户和观众用户对局部虚拟场景或者全局虚拟场景的交互信息；渲染直播过程中的虚实融合图像。

本实施例中的云服务器可以服务的业务包括但不限于：增强直播服务，该增强直播服务包括：常规的视频直播服务和场景增强服务两个服务，其中，视频直播服务主要承担视频直播的用户管理、音视频数据的推流、缓存、聊天信息广播、语音文字互转等服务；而场景增强服务则包括：视觉建图模块，负责离线对于直播场景的视觉地图和三维空间模型的构建；视觉定位模块，负责直播过程中对于主播用户端的空间位置进行周期性定位；模型管理模块，负责日常对于预先制作的3D模型和交互内容等虚拟场景内容进行新建、修改、删除等管理；交互逻辑模块，负责直播过程中主播、观众对于虚拟场景内容进行交互逻辑的实时响应；高清渲染模块，负责直播过程中对于直播过程中的虚实融合图像进行实时的高清渲染。

作为本实施例另一种可选的实施方式，推送方法还包括：接收虚拟现实设备传输的观众用户对于局部虚拟场景的交互动作以及观众用户端的即时交互数据；将即时交互数据中的语音数据转换为文本信息；响应于观众用户对于局部虚拟场景的交互动作、即时交互数据中的聊天信息以及文本信息，更新待显示的局部虚拟场景。

云服务器在从主播端接收直播设备的多个数据时，也可以接收直播房间中客户端多位观众用户端的对于虚拟内容的交互动作(action)和即时交互数据(包括但不限于：语音互动数据、聊天表情、聊天文本信息等)。采用接收到的观众用户端的交互动作和即时交互数据，结合主播用户端的交互动作和即时交互数据，能够反映主播用户和观众用户当前想要观看的场景内容。

采用上述实施例，在直播云服务中扩展了场景增强服务，采用端云混合渲染，克服了主播侧的直播设备算力限制不能高清渲染，而观众用户端的虚拟现实设备又需要高清显示才能克服纱窗效应的矛盾。

下面结合另一种可选的实施例来说明本发明。

本实施例以虚拟现实设备为执行主体，对本发明进行示意说明，该虚拟现实设备为线上观众用户佩带/持有，例如，VR头显设备。虚拟现实设备与云服务器预先建立通讯连接。在用户侧采用虚拟现实设备作为客户端，保障了观众可以获得和主播一致的对于线下空间的立体感知的体验。同时，本实施例中用户侧的虚拟现实设备的应用中使用了新视角合成技术，保障了线上观众在空间中自由视角观察的旋转自由度。

作为本实施例可选的实施方式，上述虚拟现实设备还可以直接与直播侧的直播设备直接连接，此时，直播设备所采集的视频、图像等信息都可以直接传输至虚拟现实设备，虚拟现实设备会直接对该数据进行处理，尤其是对虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像。

本实施例中的虚拟现实设备，具备显示模块(例如，以光学显示模组)、高性能片上系统、空间定位模块(具备旋转角度预估功能)、音视频播放模组(包括但不限于：音频采集模块和音频播放模块)、网络通信模组、电池模组等，还具备交互检测模组(手柄或者是手势)。在虚拟现实设备上预先安装有头显显示操作系统，支持流化的立体音视频播放和基本交互功能等。

图4是根据一示例性实施例示出的另一种可选的沉浸式直播的信息显示方法的流程图，如图4所示，包括以下步骤。

在步骤S401中，接收虚实融合数据，其中，虚实融合数据中至少包括：直播设备采集的眼位视频数据和直播设备拍摄的局部真实场景以及与局部真实场景对应的局部虚拟场景，眼位视频数据包括连续帧眼位图像。

在直播房间中中，会出现多人观众用户通用的设备，本实施例中以其中一个观众用户为例进行示意说明。

本实施例一种可选的实施方式，接收虚实融合数据，包括：在采用虚拟现实设备进入直播应用后，加入直播房间；在加入直播房间且沉浸式直播模式启动后，接收云服务器传输的虚实融合数据。

关于用户采用佩戴上述的虚拟现实设备，打开直播APP，加入直播房间。

在步骤S402中，对虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像。

在本实施例中，对虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像，包括：获取虚拟现实设备的定位位置，并基于定位位置确定使用虚拟现实设备的观众用户的当前朝向；计算观众用户的当前朝向相对于在当前直播位置进行直播的主播用户端的初始朝向的偏转参数；基于偏转参数，对虚实融合数据中的眼位图像进行卷曲变形处理，得到对应于虚拟现实设备的视角图像。

采用应用APP，可获取虚拟现实设备的定位位置(例如，读取VR头显定位服务状态)，并初始化一个初始朝向R0，以对齐同时刻的主播视角。在直播启动后，一方面直播APP实时从云服务器接收虚实融合的视频流(即接收虚实融合数据)，并同时从定位服务获取当前用户实时朝向R，计算相对于初始朝向的偏转量dR。根据偏转量，利用新视角合成算法，对眼位图像卷曲变形，最后将新视角图像传送到显示模块。

在步骤S403中，将视角图像分别投射至虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像。

光学显示模组将视角图像分别投射到用户的每个眼位区域，形成立体显示。

本实施例中，观众用户侧采用虚拟现实设备(以VR头显设备为示意说明)作为客户端和新视角合成算法，保障了直播中观众用户获得和主播高度对于线下空间立体感和沉浸感的体验一致性，又具有视角控制的自由度。

采用上述步骤，接收虚实融合数据，其中，虚实融合数据中至少包括：直播设备采集的眼位视频数据和直播设备拍摄的局部真实场景以及与所述局部真实场景对应的局部虚拟场景，眼位视频数据包括连续帧眼位图像；对虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像；将视角图像分别投射至虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像。在该实施例中，观众用户端使用虚拟现实设备可获得与主播用户端对线下空间立体感和沉浸感的相同体验，又具有视角控制的自由度，为视频直播带了全新的虚实融合体验，提高线上观众用户端的观看沉浸感，从而解决相关技术中视频直播过程中，无法为线上用户提供虚实融合场景，缺乏真实场景的立体感，降低沉浸感的技术问题。

作为本实施例一种可选的实施方式，显示方法还包括：获取观众用户对于局部虚拟场景的交互动作、即时聊天信息以及语音数据；将观众用户对于局部虚拟场景的交互动作、即时聊天信息以及语音数据传输至云服务器。

上述的交互动作包括但不限于：观众用户的肢体动作、手部动作、头部动作；而即时聊天信息包括但不限于：文字信息和表情信息；语音数据，可以是指在直播过程中观众用户产生的音频数据。

采用上述实施例，实现了用户端(观众)和主播端在空间观察位置(平移部分)的一致，和用户对于不同视角观察(旋转部分)的控制自由度，在保障直播过程中的用户实时交流和主播便利的互动的前提下，观众用户和主播用户能同时感知共同的虚实融合效果和真实立体显示的沉浸感。

下面结合另一种可选的实施例来说明本发明。

图5是根据本发明实施例的另一种可选的沉浸式直播的方法的流程图，如图5所示，该直播方法包括：

步骤S501，在进入预设沉浸式直播模式时，直播设备基于当前直播位置的位置数据以及全局真实场景的地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像，其中，虚实融合数据中至少包含：直播设备拍摄的局部真实场景以及与局部真实场景对应的局部虚拟场景；

步骤S502，云服务器基于主播用户对于局部虚拟场景的交互数据，将局部虚拟场景与直播设备采集的眼位视频数据进行合成处理，得到虚实融合数据；

步骤S503，虚拟现实设备接收虚实融合数据，对虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像；将视角图像分别投射至虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像。

本实施例中，在进入预设沉浸式直播模式时，直播设备基于当前直播位置的位置数据以及全局真实场景的地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像，云服务器基于主播用户对于局部虚拟场景的交互数据，将局部虚拟场景与直播设备采集的眼位视频数据进行合成处理，得到虚实融合数据；虚拟现实设备接收虚实融合数据，对虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像；将视角图像分别投射至虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像。在该实施例中，融合增强显示技术AR和虚拟显示VR技术在直播中的要素，采用主播端可同时进行立体视频采集和虚实融合显示的直播设备，同时结合服务端的场景重建和定位技术、云端实时渲染技术，在观众端(虚拟现实设备)立体展示三维虚实图像，保障了直播中主播用户端能便利地呈现和介绍更丰富的虚实融合内容和互动信息，也能为用户端(观众)带来和主播高度一致的实时沉浸感的体验。

相对于传统的直播系统，本实施例中，预先离线对特定线下空间进行稠密建图和内容制作，为线上用户(观众端的用户)提供了自己不在现场，但是采用直播也能进行实景AR游览的能力，能提升线上用户的沉浸感。

下面结合另一种可选的实施例来说明本发明。

本实施例中的显示系统主要包括三个主体：主播端的直播设备、观众用户端的虚拟现实设备和云服务器。各主体之间可采用低延网络进行数据双向传输。

图6是根据一示例性实施例示出的另一种可选的沉浸式直播的信息显示系统的示意图，如图6所示，包括：直播设备61，虚拟现实设备62以及云服务器63，其中，

直播设备61，设置为执行上述任意一项沉浸式直播的信息显示方法。

在本实施例中，直播设备包括：第一空间定位模块，至少包括：摄像模块，每个摄像模块分别设置在直播设备的镜框位置，摄像模块设置为采集当前直播位置的视频数据；第一音频模块，设置为采集使用直播设备的主播用户端的音频信息；第一播放模块，设置为播放局部真实场景的场景介绍信息、用户语音信息；第一显示模块，设置为显示与虚实融合数据对应的三维虚实图像。

主播端的直播设备可采用一个沉浸式视频直播专用的AR眼镜(例如，图6中的眼镜)，该AR眼镜在硬件上需要具有普通AR眼镜的基本组成，至少包括：空间定位模块(惯性测量单元、摄像模块-相机等)、音频采集模块、播放模块、显示模块(可以为双目立体的光学显示模组)以及高性能的片上系统(SoC)、网络通信模块、电池模块等，在软件系统上，需要具有通用的AR操作系统，视觉惯性定位算法、图像显示的ATW和ASW等基础算法实现。

为实现直播下的立体图像数据获取，AR眼镜的摄像模块需要分别布置在左右镜框上，例如，在左右镜框上边缘位置各设置一个，设置2个相机，该两个相机需选定广角(FOV>110度)、高清(720P以上)的彩色RGB相机，共同构成一组立体相机(后文简称相机)。相机的光学主轴方向和视野范围的设计需和人眼正常前视的视角相同或者基本接近。除以上软硬件设计要求，AR眼镜的其他设计可自由选定，以主播佩戴的轻便舒适为宜。

虚拟现实设备62，与云服务器连接，设置为执行上述任意一项沉浸式直播的信息显示方法。

本实施例中，虚拟现实设备可以包括：第二空间定位模块，设置为采集使用虚拟现实设备的观众用户端的位置数据；第二音频模块，设置为采集使用虚拟现实设备的观众用户端的音频信息；第二播放模块，设置为播放局部真实场景的场景介绍信息、用户语音信息；第二显示模块，设置为显示与虚实融合数据对应的三维虚实图像。

观众端的虚拟现实设备可采用一个VR头显(后文简称头显，HMD，代号h)。该头显在硬件上具备：空间定位模块(至少有旋转角度估计即可，采集使用虚拟现实设备的观众用户端的位置数据)、音频模块、播放模块、显示模块(可以为光学显示模组)、高性能片上系统、网络通信模组、电池模组等，交互模组(手柄或者是手势)等基础功能。在软件系统上，需要具有通用的VR操作系统，支持流化的立体音视频播放和基本交互功能等。VR头显的其他设计可自由选定，以观众用户佩戴的轻便舒适为宜。

云服务器63，分别与直播设备、虚拟现实设备连接，设置为执行上述任意一项沉浸式直播的信息推送方法。

一种可选的，云服务器包括：视觉建图模块，设置为离线对于当前直播位置所处的直播区域的定位地图，并构建与当前直播位置对应的三维空间模型；视觉定位模块，设置为在直播过程中定位主播用户端在当前直播位置；模型管理模块，设置为管理当前直播位置所处的三维空间模型；渲染模块，设置为在直播过程中对虚实融合图像进行实时渲染。

本实施例中，云服务器以增强型视频直播服务为主体，由视频直播子服务和场景增强两大子服务组成。视频直播子服务主要承担视频直播的用户管理、音视频数据的推流、缓存、聊天信息广播、语音文字互转等常规服务。

采用上述显示系统，融合增强显示技术AR和虚拟显示VR技术在直播中的要素，同时进行立体视频采集和虚实融合显示的直播设备，结合云服务器的场景重建和定位技术、云端实时渲染等多项技术，最终在虚拟现实设备立体展示和双向实时互动。在该实施例中，可以采用直播设备显示真实场景、空间AR内容、叠加的观众互动信息，主播自身和观众用户端多人对于虚拟内容的交互，增强了主播和用户的双向互动性，对于线上观众用户端，能够直播虚实融合场景，丰富了直播内容，为视频直播带了全新的虚实融合体验，提高线上观众用户端的观看沉浸感，从而解决相关技术中视频直播过程中，无法为线上用户提供虚实融合场景，缺乏真实场景的立体感，降低沉浸感的技术问题。

下面结合一种具体地实施例来说明上述的显示系统。

图7是根据本发明实施例的另一种可选的沉浸式直播系统的示意图，如图7所示，该直播系统包括3大模块：主播端，以直播版AR眼镜为硬件基础，用户端，以VR头显为硬件基础，服务端，云增强直播服务为软硬件基础。各模块之间采用低延网络进行数据双向传输。

主播端主要采用一个为沉浸式视频直播专用的AR眼镜(后文简称眼镜)。该眼镜首先硬件上需要具有普通AR眼镜的基本组成，至少包括双目立体的光学显示模组、高性能的片上系统(SoC)、空间定位模组(惯性测量单元、相机等)、音频采集和播放模组、网络通信模组、电池模组等，软件系统上需要具有通用的AR操作系统，视觉惯性定位算法、图像显示的ATW和ASW等基础算法实现。

为实现直播下的立体图像数据获取，眼镜的相机需要分别布置在左右镜框上边缘位置各一个。这2个相机需选定广角(FOV>110度)、高清(720P以上)的彩色RGB相机，共同构成一组立体相机(后文简称相机)，相机的光学主轴方向和视野范围的设计需和人眼正常前视的视角相同或者基本接近。

如图7所示，主播端：直播版AR眼镜，采用两个相机分别拍摄到真实物理世界的两帧图像(在图6中示意为左帧和右帧)，然后采用AR眼镜，结合获取到的离线虚拟场景构图模型，对拍摄到的视频帧图像进行增强处理，得到增强型的3D世界，该增强型的3D世界中包含拍摄的真实场景和拟合出的虚拟场景(例如，对历史过程的历史场景进行还原)。

用户(观众)端主要采用一个VR头显(后文简称头显，HMD，代号h)。该头显的硬件上具备光学显示模组、高性能片上系统、空间定位模组(至少有旋转角度估计即可)、音频采集和播放模组、网络通信模组、电池模组等，交互模组(手柄或者是手势)等基础功能。在软件上，需要具有通用的VR操作系统，支持流化的立体音视频播放和基本交互功能等。

在图7中，对于观众用户端：VR头显(图7中的右侧)，能够显示虚拟型的3D世界，保证观众看到的场景图与主播端观看到场景相同或相似。

服务端主要以增强型视频直播服务为主体，包括视频直播子服务和场景增强子服务。视频直播子服务主要承担视频直播的用户管理、音视频数据的推流、缓存、聊天信息广播、语音文字互转等常规服务。

场景增强子服务则主要包括以下五大模块：视觉建图模块，负责离线对于文旅直播场景的视觉定位地图和三维稠密模型的构建；视觉定位模块，主要负责直播过程中对于主播空间位置的周期性定位；模型管理模块，主要负责日常对于预先制作的3D模型和交互内容等虚拟场景内容进行新建、修改、删除等管理；交互逻辑模块，主要负责直播过程中主播、用户对于虚拟场景内容进行交互逻辑的实时响应；高清渲染模块，主要负责直播过程中对于交互后的虚拟场景进行实时的高清渲染等。

如图7所示，在服务端：采用增强型视频直播服务，对上述的云服务器进行示意说明，采用视频直播子服务器能够实现对增强后的虚实融合数据进行处理，而场景增强子服务除了包括上述的五个模块外，还包括语音识别模块，以分析主播用户与观众用户的音频数据，分析两者的交互语音文本。

上述3个主播端、用户端、服务端采用低延时网络进行双向实时数据传输，如图7所示，在主播端和服务端之间采用低延网络1通讯，而服务端与用户端采用低延网络2通讯。可选的，本实施例中显示系统设计中采用高带宽低延时5G网络-基站-光纤主干网络等网络拓扑。当然，低延网络拓扑结构中，除了本方案中的基于5G网络方案，也可以采用基于WiFi6等网络传输拓扑结构。

相对于现有直播系统，本申请的直播系统除了直播实景，也同时可以直播虚拟叠加的场景，丰富了可直播的内容，为视频直播带了全新的虚实融合体验。同时，本直播系统的主播端能同时显示真实场景、空间AR内容、叠加的观众互动信息等，以及主播自身和用户多人对于虚拟内容的交互，增强了主播和用户的双向互动性。

沉浸式视频直播系统的完整过程分为2个阶段，直播前阶段和直播中阶段。

对于直播前阶段。

首先需要对线下空间进行图像采集和三维稠密模型和视觉定位地图重建。本申请采用融合视觉图像方法，采集具有时间同步的RTK、激光雷达和图像信息，获得图像帧的先验位姿，再基于运动结构恢复(Structure from Motion)进行稀疏重建，然后进行多视角立体(Multiview stereo)的几何稠密重建，获得线下空间的高精三维稠密模型和稀疏视觉定位地图。

然后基于线下空间高精3D模型，进行虚拟场景内容的设计和制作。比如对于景区的历史场景的还原，导览地图，基于POI的虚拟物体，互动式游戏设计等。该内容制作可以采用已知的3D内容制作软件进行完成，并导出常用内容格式，然后上传到场景增强子服务器。场景增强子服务支持客户离线对内容进行重新设计和持续性更新，以满足持久运营需求。

对于直播中阶段。

在该阶段，需实时进行3端内部的数据计算和3端之间的数据传输，下面分别介绍。特别的，沉浸式直播中音频信息的双向传输，和广播和常规视频直播无特殊之处，链路介绍中不做额外说明。

对于主播端：在主播用户身处待直播的线下文旅空间，带上眼镜，进入直播APP，创建直播房间并启动沉浸式直播功能。眼镜将读取直播所在空间的GPS位置数据，从服务端场景增强子服务中获取对应的低模版本的虚拟场景内容和视觉定位地图。视觉定位地图中以全局的真实世界场景坐标系(World，代号w)表达。眼镜系统服务启动双目相机(相机坐标系，Camera，代号c)和其他传感器，实时采集真实物理世界的双目视频和惯性传感单元、麦克风等数据。眼镜定位服务启动空间6自由度(DOF)定位功能，基于双目相机和传感器数据，以及视觉定位地图，计算双目相机相对真实场景(w)的实时全局位姿Tc1w，Tc2w。

上述的定位功能，可以在高频(30-60Hz)基于VISLAM算法计算连续帧之间的累积局部位姿，再以较低频率(1Hz)基于视觉定位算法计算历史帧在视觉定位地图中的全局位姿，然后采用变换矩阵计算出实时的相机相对真实场景的全局位姿。其中VISLAM算法采用基于双目多状态约束的EKF框架进行实施，视觉定位算法采用先提取图像全局描述进行图像检索，再利用局部特征进行全局匹配定位的双阶段方式实施。

眼镜端直播APP首先获取端上主播的交互动作，并从服务端实时获取直播房间中用户对于虚拟场景内容的交互结果(Action)、文字版的用户聊天信息和连麦用户的音频等信息，进行虚拟内容状态更新，然后将全部待显示数据聚合为多图层叠加的混合数据(即虚实融合数据)。

眼镜显示模组首先实时读取定位服务的相机全局位姿Tc₁w，Tc₂w，并读取离线标定的相机和显示模组(显示坐标系，Display，代号d)相对位姿变换矩阵Tdc，计算出显示模组中左右眼的世界坐标Td₁w，Td₂w。然后将混合数据按照不同的图层设定(空间3D叠加、2D贴屏等)，分别对左右眼位姿Td₁w/Td₂w渲染为立体图像，投射到主播双眼。最终主播实时看到真实的场景、低模的虚拟交互内容和用户互动信息的三重叠加，在不需要任何额外操作的负担下，实现了既能和用户一样感受到AR效果，也能获得多人用户的即时反馈。

直播版AR眼镜采用的立体视频采集模组，既满足端上视觉定位服务的数据需求，又满足了主播可无负担的为用户端沉浸式体验提供高质量图像数据的需求，实现数据通用，降低了硬件复杂度。

对于服务端：

一方面从主播端接收眼镜的双目视频流、主播对于虚拟场景内容的交互动作(action)和的主播的聊天音频数据。另一方面接收直播房间中客户端多人用户的对于虚拟内容的交互动作(action)和语音互动数据。

服务端场景增强子服务接收到视频直播子服务数据包后，自动语音识别(ASR)模块将客户端的语音互动数据采用技术转化为文字信息。视觉定位模块，跟进双目视频流实时计算更精准的相机位姿Tc₁w/Tc₂w。交互逻辑模块，响应不同用户以及主播对于虚拟场景的交互行为，更新虚拟内容的状态。同时分别计算在位姿Tc₁w/Tc₂w视角下，虚拟内容的高清版本和真实场景的三维稠密模型进行遮挡碰撞等图形学计算，渲染出高真实感的立体图像。最后将合成内容叠加到双目视频流，输出最终的虚实叠加的双目视频流。视频直播子服务回调获得场景增强子服务结果，将该虚实融合的双目视频流推送给直播房间中多人客户端。

场景增强子服务的视觉定位算法，除了本方案中的先检索后匹配的双阶段方案，也可以采用提取图像视觉局部特征直接和稀疏地图进行全局匹配和过滤的方法进行定位。

对于用户端：

用户端是直播房间中多人用户(观众)的通用的设备，以其中一个用户为例说明。

用户采用佩戴VR头显，打开直播APP，加入直播房间。APP读取头显定位服务状态，初始化一个初始朝向R0对齐同时刻的主播视角。直播启动后，一方面直播APP实时从服务端接收虚实融合的双目视频流。并同时从定位服务获取当前用户实时朝向R，计算相对于初始朝向的偏转量dR。根据旋转量，利用新视角合成算法，对双目图像卷曲变形。最后将双目新视角图像传送到光学显示模组。另一方面直播APP也实时获取用户对于虚拟场景内容的交互动作和语音数据，同步到服务端。光学显示模组将双目卷曲图像分别投射到用户的双眼，形成立体显示。

观众用户侧采用VR头显作为客户端和新视角合成算法，保障了直播中用户获得和主播高度对于线下空间立体感和沉浸感的体验一致性，又具有视角控制的自由度。

经过以上流程，实现了用户端(观众)和主播端在空间观察位置(平移部分)的一致，和用户对于不同视角观察(旋转部分)的控制自由度。最终，在保障直播过程中的用户实时交流和主播便利的互动的前提下，观众用户和主播用户能同时感知共同的虚实融合效果和真实立体显示的沉浸感。

上述直播系统，预先离线对特定线下空间进行稠密建图和内容制作，为线上用户提供了自己不在现场，但是采用直播也能进行实景AR游览的能力，能提升线上用户的沉浸感。

同时，本直播系统的直播端采用双目光学系统版的AR眼镜而不是手机作为直播设备。该光学系统能同时显示真实场景、叠加观众互动后的AR内容、观众的文字版聊天信息等，增强了主播用户和观众用户的实时互动性。

本申请中，设计了直播专用版AR眼镜，融合了立体视频采集模组。该模组在不影响主播侧的直播功能时，克服了其需要额外手持专用立体相机才能进行沉浸感直播的困难。AR眼镜的立体视频采集模组，专门设计为基线接近于双眼、双目前向平视广角高清彩色相机。该设计既克服了常规的双目张角灰度VGA相机的效果局限性，也克服了全景相机无法实现有效立体感的局限性。该设计满足了视觉定位算法的数据需求，又为用户端的沉浸式体验提供高质量图像数据。

本实施例中，在直播服务端中额外扩展了场景增强服务，采用端云混合渲染。这个方案克服了主播侧AR眼镜算力限制不能高清渲染，而用户侧VR头显又需要高清显示才能克服纱窗效应的矛盾。在用户侧采用VR头显作为客户端。VR头显保障了用户可以获得和主播一致的对于线下空间的立体感知的体验。同时，用户侧VR头显APP中使用了新视角合成技术，保障了用户在空间中自由视角观察的旋转自由度。

根据本公开实施例的另一方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如上述任意一项沉浸式直播的信息显示方法，或者实现如上述任意一项沉浸式直播的信息推送方法，或者实现如上述任意一项沉浸式直播的信息显示方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任意一项沉浸式直播的信息显示方法，或者实现如上述任意一项沉浸式直播的信息推送方法，或者实现如上述任意一项沉浸式直播的信息显示方法。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

根据本公开实施例的另一方面，提供一种计算机程序产品，包括计算机程序/指令，其特征在于，计算机程序/指令被处理器执行时实现如上述任意一项沉浸式直播的信息显示方法，或者实现如上述任意一项沉浸式直播的信息推送方法，或者实现如上述任意一项沉浸式直播的信息显示方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种沉浸式直播的信息显示方法，其特征在于，包括：

在进入预设沉浸式直播模式的情况下，获取当前直播位置的位置数据以及全局真实场景的地图数据，其中，所述当前直播位置的位置数据至少包括：直播设备读取的主播客户端当前所在直播空间的定位坐标、区域名称、区域代码，所述全局真实场景指直播设备所处的区域的场景；

基于所述位置数据和所述地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像，包括：

采用所述位置数据和所述地图数据，计算所述直播设备的摄像模块相对于所述全局真实场景的全局位姿；基于所述摄像模块的全局位姿以及预先标定的位姿变换矩阵，计算所述直播设备的显示模块中每个眼位的眼位位姿，其中，所述位姿变换矩阵为所述摄像模块与所述显示模块之间的相对位姿变换矩阵，所述眼位位姿是指所述眼位的世界坐标；基于所述显示模块中每个眼位的眼位位姿确定眼位区域，以将所述虚实融合数据渲染的立体图像投射至所述显示模块上；

其中，所述虚实融合数据中至少包含：所述直播设备拍摄的局部真实场景以及与所述局部真实场景对应的局部虚拟场景，所述局部真实场景为所述全局真实场景中的部分区域场景。

2.根据权利要求1所述的信息显示方法，其特征在于，所述获取当前直播位置的位置数据以及全局真实场景的地图数据，包括：

在所述预设沉浸式直播模式下，控制所述直播设备读取所述当前直播位置的位置数据；

获取所述直播设备当前所处位置的世界坐标系；

基于所述直播设备当前所处位置的世界坐标系，确定所述全局真实场景的世界坐标系，并以全局真实场景的世界坐标系表征所述全局真实场景的地图数据。

3.根据权利要求2所述的信息显示方法，其特征在于，在获取当前直播位置的位置数据以及全局真实场景的地图数据之前，还包括：

对所述当前直播位置所处的空间区域进行雷达扫描，得到雷达扫描数据；

采集当前直播位置的空间图像，并确定采集图像时的时间数据；

基于所述空间图像、采集图像时的时间数据以及所述雷达扫描数据，构建三维空间模型；

基于所述三维空间模型以及所述当前直播位置所处的空间区域的区域地图数据，构建全局虚拟场景，其中，所述全局虚拟场景中的场景结构与所述全局真实场景的场景结构一一对应。

4.根据权利要求1所述的信息显示方法，其特征在于，所述采用所述位置数据和所述地图数据，计算直播设备的摄像模块相对于所述全局真实场景的全局位姿，包括：

控制所述直播设备的摄像模块采集所述当前直播位置的视频数据；

提取所述视频数据中连续多帧图像的累积局部位姿；

计算历史帧图像在所述地图数据中的初始全局位姿；

基于所述连续多帧图像的累积局部位姿、所述历史帧图像在所述地图数据中的初始全局位姿以及图像变换矩阵，计算所述直播设备的摄像模块相对于所述全局真实场景的全局位姿。

5.根据权利要求1所述的信息显示方法，其特征在于，在将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像之后，还包括：

获取使用所述直播设备的主播用户的交互动作；

获取服务端中存储的直播房间中参与直播互动的观众设备对于所述局部虚拟场景的交互数据；

获取直播房间中参与直播互动的观众设备产生的聊天信息和音频信息；

基于所述主播用户的交互动作、观众设备对于局部虚拟场景的所述交互数据、观众设备产生的所述聊天信息和所述音频信息中的一项或者多项，更新待显示的所述局部虚拟场景。

6.根据权利要求5所述的信息显示方法，其特征在于，还包括：

接收所述主播用户对于局部虚拟场景的交互数据；

将所述主播用户对于局部虚拟场景的交互数据以及眼位视频数据上传至云服务器中，其中，所述眼位视频数据为所述直播设备采集主播用户当前所处的直播位置的视频数据。

7.根据权利要求1至6中任意一项所述的信息显示方法，其特征在于，所述直播设备为增强现实设备，所述直播设备的类型包括：增强现实眼镜，所述增强现实眼镜至少包括：双目立体的光学显示模组和空间定位模组，所述空间定位模组中的摄像模块采用双目彩色RGB广角相机。

8.一种沉浸式直播的方法，其特征在于，包括：

在进入预设沉浸式直播模式时，直播设备基于当前直播位置的位置数据以及全局真实场景的地图数据，将虚实融合数据渲染的立体图像投射至直播设备的显示模块上，以显示虚实融合图像，包括：

其中，所述虚实融合数据中至少包含：所述直播设备拍摄的局部真实场景以及与所述局部真实场景对应的局部虚拟场景；

云服务器，基于主播用户对于局部虚拟场景的交互数据，将所述局部虚拟场景与所述直播设备采集的眼位视频数据进行合成处理，得到虚实融合数据；

虚拟现实设备，接收所述虚实融合数据，对所述虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像，包括：

获取虚拟现实设备的定位位置，并基于所述定位位置确定使用所述虚拟现实设备的观众用户的当前朝向；计算所述观众用户的当前朝向相对于在当前直播位置进行直播的主播用户的初始朝向的偏转参数；基于所述偏转参数，对所述虚实融合数据中的眼位图像进行卷曲变形处理，得到对应于虚拟现实设备的视角图像；

将所述视角图像分别投射至所述虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像。

9.一种沉浸式直播的信息显示系统，其特征在于，包括：

直播设备，设置为执行权利要求1至7中任意一项所述沉浸式直播的信息显示方法；

虚拟现实设备，与云服务器连接，设置为执行的沉浸式直播的信息显示方法包括：接收虚实融合数据，其中，所述虚实融合数据中至少包括：直播设备采集的眼位视频数据和直播设备拍摄的局部真实场景以及与所述局部真实场景对应的局部虚拟场景，所述眼位视频数据包括连续帧眼位图像；对所述虚实融合数据中的眼位图像进行变形处理，得到对应于虚拟现实设备的视角图像，包括：获取虚拟现实设备的定位位置，并基于所述定位位置确定使用所述虚拟现实设备的观众用户的当前朝向；计算所述观众用户的当前朝向相对于在当前直播位置进行直播的主播用户的初始朝向的偏转参数；基于所述偏转参数，对所述虚实融合数据中的眼位图像进行卷曲变形处理，得到对应于虚拟现实设备的视角图像；将所述视角图像分别投射至所述虚拟现实设备中每个眼位所处的眼位区域，显示三维虚实图像，所述接收虚实融合数据，包括：在采用所述虚拟现实设备进入直播应用后，加入直播房间；在加入直播房间且沉浸式直播模式启动后，接收云服务器传输的所述虚实融合数据；

云服务器，分别与所述直播设备、所述虚拟现实设备连接，设置为执行的所述沉浸式直播的信息推送方法包括：构建直播场景下的视觉定位地图和三维空间模型；在直播过程中对主播用户端的空间位置进行周期性定位；对三维空间模型和交互数据进行管理；响应直播过程中主播用户和观众用户对局部虚拟场景或者全局虚拟场景的交互信息；渲染直播过程中的虚实融合图像；所述沉浸式直播的信息推送方法，包括：接收直播设备传输的眼位视频数据和主播用户对于局部虚拟场景的交互数据，其中，所述眼位视频数据为所述直播设备采集主播用户当前所处的直播位置的视频数据；基于所述交互数据，将所述局部虚拟场景与所述眼位视频数据进行合成处理，得到虚实融合数据；将所述虚实融合数据推送至虚拟现实设备；

基于所述交互数据，将所述局部虚拟场景与所述眼位视频数据进行合成处理，得到虚实融合数据，包括：

基于所述眼位视频数据指示的局部位姿以及图像变换矩阵，计算所述直播设备的摄像模块相对于全局真实场景的全局位姿，包括：提取所述眼位视频数据中连续多帧图像的累积局部位姿；计算历史帧图像在地图数据中的初始全局位姿；基于连续多帧图像的累积局部位姿、历史帧图像在地图数据中的初始全局位姿以及图像变换矩阵，计算所述直播设备的摄像模块相对于全局真实场景的全局位姿，所述摄像模块安装于所述直播设备的外框边缘；

基于所述主播用户对于局部虚拟场景的交互数据以及主播用户端传输的即时聊天数据，更新待显示的局部虚拟场景；

在所述全局位姿的视角下，将所述局部虚拟场景与所述眼位视频数据进行合成处理，得到虚实融合数据。

10.根据权利要求9所述的信息显示系统，其特征在于，所述直播设备包括：

第一空间定位模块，至少包括：摄像模块，每个所述摄像模块分别设置在直播设备的镜框位置，所述摄像模块设置为采集当前直播位置的视频数据；

第一音频模块，设置为采集使用所述直播设备的主播用户端的音频信息；

第一播放模块，设置为播放局部真实场景的场景介绍信息、用户语音信息；

第一显示模块，设置为显示与虚实融合数据对应的三维虚实图像。

11.根据权利要求10所述的信息显示系统，其特征在于，所述虚拟现实设备包括：

第二空间定位模块，设置为采集使用所述虚拟现实设备的观众用户端的位置数据；

第二音频模块，设置为采集使用所述虚拟现实设备的观众用户端的音频信息；

第二播放模块，设置为播放局部真实场景的场景介绍信息、用户语音信息；

第二显示模块，设置为显示与虚实融合数据对应的三维虚实图像。

12.根据权利要求10所述的信息显示系统，其特征在于，所述云服务器包括：

视觉建图模块，设置为离线对于当前直播位置所处的直播区域的定位地图，并构建与当前直播位置对应的三维空间模型；

视觉定位模块，设置为在直播过程中定位主播用户端在当前直播位置；

模型管理模块，设置为管理所述当前直播位置所处的三维空间模型；

渲染模块，设置为在直播过程中对虚实融合图像进行实时渲染。

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1至7中任意一项所述沉浸式直播的信息显示方法。

14.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任意一项所述沉浸式直播的信息显示方法。