CN115423916A

CN115423916A - 基于xr技术的沉浸式互动直播构建方法、系统及介质

Info

Publication number: CN115423916A
Application number: CN202210906282.6A
Authority: CN
Inventors: 蔡铁峰
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Polytechnic
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-12-02

Abstract

本发明公开了一种基于XR技术的沉浸式互动直播构建方法、系统及介质，该方法包括：设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系；计算基准观众在直播虚拟场景中的瞳距与观看位姿；渲染生成直播虚拟场景的直播三维成像区间的立体视觉直播画面，并把立体视觉直播画面发送给各观众；任意观众接收立体视觉直播画面，和/或立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面合成为边看虚拟场景直播边进行其它内容体验的立体视觉画面，画面显示给观众看；观众与直播虚拟场景进行互动。本发明能适配不同用户的瞳距，使直播场景正确融入到用户的体验空间，能适配所有不同瞳距的用户。

Description

基于XR技术的沉浸式互动直播构建方法、系统及介质

技术领域

本发明涉及XR技术领域，尤其涉及一种基于XR技术的沉浸式互动直播构建方法、系统及介质。

背景技术

虚拟现实(VR)、增强现实(AR)、混合现实(MR)等技术在解决职业教育实训中的看不见、摸不着、进不去等难题有重大价值。VR、AR、MR等(简称XR，扩展现实)技术相通相融。在5G网络、wifi6等高性能无线网络技术赋能下，XR移动终端(5G手机、头显等)所需的存储、计算、渲染等服务都可以放到云端。由此，基于云存储、云计算、云渲染等云服务，单个XR终端所能拥有的计算、存储、渲染能力可以无上限。

目前，在实现职业教育实训的直播教学活动功能时，由于不同用户的瞳距不同，要适配所有不同瞳距的用户，并生成正确的直播画面与互动功能，需要使用巨大的计算资源，增加了实现难度。

发明内容

本发明的主要目的在于提供一种基于XR技术的沉浸式互动直播构建方法、系统及存储介质，可以使用较少的计算资源，就能适配所有不同瞳距的用户，实现正确的直播画面与互动功能。

为实现上述目的，本发明提出一种基于XR技术的沉浸式互动直播构建方法，所述方法包括以下步骤：

步骤S10：设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系；

步骤S20:根据直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系，计算基准观众在直播虚拟场景中的瞳距与观看位姿；

步骤S30：基于所述基准观众在直播虚拟场景中的瞳距与观看位姿，渲染生成直播虚拟场景的直播三维成像区间的立体视觉直播画面，并把立体视觉直播画面发送给各观众；

步骤S40:任意观众接收立体视觉直播画面，和/或立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面合成为边看虚拟场景直播边进行其它内容体验的立体视觉画面，显示给观众看。

其中，步骤S30生成的立体视觉直播画面带有深度信息，在所述步骤S40中，对于任意观众h_k，h_k接收的立体视觉直播画面与其体验空间其它体验内容的立体视觉画面合成为h_k边看虚拟场景直播边进行其它内容体验的立体视觉画面，在立体视觉直播画面与h_k对其它内容体验生成的立体视觉画面合成时，需要根据各画面在h_k视场的深度信息进行遮挡计算。

其中，在所述步骤S10设定的直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系中，直播虚拟场景s_m的坐标系到基准观众视场坐标系的缩放系数为λ_m，所述步骤S20计算出基准观众在直播虚拟场景s_m中的瞳距为

其中

为基准观众的实际瞳距，根据直播虚拟场景s_m坐标系与基准观众视场坐标系的旋转缩放平移关系，计算基准观众在直播虚拟场景中的位姿，所述步骤S30根据基准观众在直播虚拟场景s_m的位姿与瞳距，生成立体视觉直播画面，其中

为立体视觉画面的左眼图像，

为立体视觉画面的右眼图像，

为对应的深度图像，根据缩放系数λ_m，计算得到

与

在基准观众视场下的深度信息为深度图像

和

所述步骤S40立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面合成具体实现为：任意观看场景s_m直播的观众h_k，接收到场景s_m的立体视觉直播画面，h_k沉浸式体验空间内其它体验内容生成立体视觉体验画面左眼图像为

右眼图像为

与

在h_k视场的深度信息为深度图

与

h_k与基准观众瞳距比值为

场景s_m的立体视觉直播画面

与

在基准观众视场下的深度图像

与

转换成h_k视场的深度图像

立体视觉直播画面与其它体验内容生成的立体视觉体验画面根据深度图像

进行遮挡计算，生成合成画面。

其中，所述步骤S10，设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系具体包括：给直播虚拟场景s_m选定三维包围盒Ω′_m，设定包围盒Ω′_m在场景s_m中的位姿，包围盒Ω′_m在场景s_m框选出一个三维区间Ω_m，Ω_m就是场景s_m的直播三维成像区间，设定包围盒Ω′_m在基准观众视场的位姿与缩放关系，计算出所述虚拟场景s_m的直播三维成像区间Ω_m在基准观众视场中对应的三维显示区间

设定了包围盒Ω′_m在直播虚拟场景s_m中的位姿以及Ω′_m在基准观众视场的位姿与缩放关系，也就是设定了直播虚拟场景s_m坐标系与基准观众视场坐标系的旋转缩放平移关系。

其中，在所述步骤S40中，对于任意观众h_k，直播虚拟场景s_m在h_k体验空间的三维显示区间为

生成h_k体验空间其它体验内容的立体视觉画面时，h_k体验空间其它体验内容在三维显示区间

的内容不成像。

其中，所述步骤S40计算出直播虚拟场景三维成像区间在任意观众体验空间的三维显示区间的具体实现为：直播虚拟场景s_m在基准观众视场中的三维显示区间为Ω^user，由任意观众h_k瞳距与基准观众瞳距的比值

计算出s_m三维成像区间Ω_m在h_k视场中的三维显示区间为

其中，所述步骤S40后还有步骤S50：任意观众h_k在其体验空间里与直播的虚拟场景s_m进行互动，生成其体验空间里的互动操作命令A_k，A_k转换成直播虚拟场景s_m里的互动操作命令A′_k，把A′_k发送给场景s_m，场景s_m对A′_k进行响应。

其中，所述步骤S50具体包括：

步骤S501：任意观众h_k在自己体验空间进行互动操作，生成观众h_k体验空间下的互动操作命令A_k，命令A_k包含的位姿参数是观众h_k体验空间坐标系下位姿，判断A_k是否为对直播虚拟场景s_m的互动，如果是对直播虚拟场景s_m的互动，就进入步骤S502，否则h_k体验空间里其它内容响应互动操作命令A_k，不进入步骤S502；

步骤S502：根据观众h_k体验空间坐标系与h_k视场坐标系的旋转平移关系，互动操作命令A_k的位姿参数转换成h_k视场坐标系下位姿参数；

步骤S503:根据观众h_k瞳距d_k与基准观众瞳距

的比值，互动操作命令A_k的位姿参数从h_k视场坐标系下位姿参数转换成基准观众视场坐标系下位姿参数；

步骤S504：根据基准观众视场坐标系与直播虚拟场景s_m坐标系旋转缩放平移关系，互动操作命令A_k的位姿参数从基准观众视场坐标系转换到直播虚拟场景s_m坐标系下位姿参数，生成互动操作命令A′_k；

步骤S505：互动操作命令A′_k，发送给虚拟直播场景s_m，s_m对A′_k响应。

本发明还提出一种基于XR技术的沉浸式互动直播构建系统，所述系统包括：沉浸式互动直播管理服务器、多台XR应用服务器、存储服务器，其中，用户的XR终端通过无线网络访问所述管理服务器与所有XR应用服务器，所述管理服务器部署有沉浸式互动直播管理控制中心，所述存储服务器部署有XR资源库：

所述XR资源库，用于存储XR应用资源；

所述沉浸式互动直播管理控制中心，用于接收XR终端的虚拟场景体验申请，指令XR应用服务器分配虚拟场景实例，协助XR终端与虚拟场景实例建立通信连接；接收用户直播分享的申请，指令XR应用服务器分配用于直播的虚拟场景实例；设定直播虚拟场景的直播三维成像区间；设定直播虚拟场景坐标系到基准观众视场坐标系的旋转缩放平移关系；计算基准观众在直播虚拟场景中的位姿与瞳距并发送给直播虚拟场景；

所述XR应用服务器，用于接收所述沉浸式互动直播管理控制中心发送的分配虚拟场景实例指令，根据所述场景实例分配指令里虚拟场景的场景ID，分配相应的虚拟场景实例，当现有场景实例没有足够的计算资源时，调用对应的XR应用程序及相关的资源包，生成虚拟场景实例，并令新生成的场景实例与原有场景实例建立通信连接，同步场景状态。

所述XR应用服务器，还用于接收所述沉浸式互动直播管理控制中心发送的销毁场景实例指令，根据该指令销毁虚拟场景实例；

所述XR终端，用于向所述沉浸式互动直播管理控制中心发送虚拟场景体验申请，与分配给此XR终端用户的虚拟场景实例建立通信连接；采集XR终端的位姿参数以及互动操作信息发送给分配给此XR终端用户的虚拟场景实例；接收虚拟场景实例发送的沉浸式体验画面；向沉浸式互动直播管理控制中心申请观看直播，与直播场景建立通信连接，接收直播场景发送过来的直播画面；判断用户互动操作是否为对直播场景互动，当对直播场景互动时，把互动操作命令的位姿参数转换到直播场景坐标系，并把转换后的互动操作命令发送到直播场景；接收直播虚拟场景发送的直播立体视觉画面；合成直播立体视觉画面与体验空间其他内容的立体视觉体验画面，生成完整的边看虚拟场景直播边进行其它内容体验的互动体验画面，显示给用户看。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行如上所述的基于XR技术的沉浸式互动直播构建方法的步骤。

本发明提出的一种基于XR技术的沉浸式互动直播构建方法、系统及存储介质，通过设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系；根据直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系，计算基准观众在直播虚拟场景中的瞳距与观看位姿；基于所述基准观众在直播虚拟场景中的瞳距与观看位姿，渲染生成直播虚拟场景的直播三维成像区间的立体视觉直播画面，并把立体视觉直播画面发送给各观众；任意观众接收立体视觉直播画面，和/或立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面合成为边看虚拟场景直播边进行其它内容体验的立体视觉画面，显示给观众看。

基于此沉浸式互动直播系统，基于XR技术构建的单个或多个虚拟场景的沉浸式体验活动可以直播分享出来，观看沉浸式互动直播的观众边看边参与到直播虚拟场景的互动，也还可以并行进行其它内容的沉浸式体验。由于本发明指定一个基准用户瞳距，以此基准瞳距定义了一个基准视场，本发明只需渲染生成此基准视场的立体视觉画面，通过算法处理，就能使其适配不同用户的瞳距，使直播场景正确融入到用户的体验空间，提供正确地与直播虚拟场景互动的功能，从而使用较少的计算资源，就能适配所有不同瞳距的用户。

本系统可以应用到常规的直播活动，也可以应用到教学中，例如：在课堂里，教师在XR技术构建的虚拟实训场景里进行虚拟实操示范，本系统可以把教师的虚拟实操直播分享给课堂里所有学生，学生可以在自己体验空间里，观看教师实操立体画面，可以与教师的虚拟实操进行互动，还可以并行在自己的虚拟实操环境里进行操作，从而“学中做”、“做中学”；在课堂里，老师也可以指定某个学生的虚拟实操过程直播分享出来，供大家评价参考；还可以应用到实操竞赛中，每个参与竞赛的人或小组有一个独立的虚拟实操场景，他们可以通过直播实时立体地看到其它人或小组的虚拟实操进度，从而直观的形成竞赛对比。因此，本发明基于XR技术的沉浸式互动直播构建方法及系统具有很高的应用价值。

附图说明

图1为本发明基于XR技术的沉浸式互动直播构建方法的流程示意图。

图2为本发明场景与场景实例示意图。

图3为本发明用户体验空间坐标系示意图。

图4为本发明用户视场坐标系示意图。

图5为本发明瞳距与立体视觉的示意图。

图6为本发明设定直播三维成像区间的示意图。

图7为本发明设定直播虚拟场景坐标系与基准观众视场坐标系旋转缩放平移关系示意图。

图8为本发明沉浸式互动直播系统硬件构成示意图。

图9为本发明沉浸式互动直播系统软件构成示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明提出一种基于XR技术的沉浸式互动直播构建方法，所述方法包括以下步骤：

步骤S10，设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系；

步骤S20，根据直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系，计算基准观众在直播虚拟场景中的瞳距与观看位姿；

步骤S30，基于所述基准观众在直播虚拟场景中的瞳距与观看位姿，渲染生成直播虚拟场景的直播三维成像区间的立体视觉直播画面，并把立体视觉直播画面发送给各观众；

步骤S40，任意观众接收立体视觉直播画面，和/或立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面合成为边看虚拟场景直播边进行其它内容体验的立体视觉画面，画面显示给观众看；

步骤S50，观众与直播的虚拟场景进行互动。

其中

为立体视觉画面的左眼图像，

为立体视觉画面的右眼图像，

为对应的深度图像，根据缩放系数λ_m，计算得到

与

在基准观众视场下的深度信息为深度图像

和

右眼图像为

与

在h_k视场的深度信息为深度图

与

h_k与基准观众瞳距比值为

场景s_m的立体视觉直播画面

与

在基准观众视场下的深度图像

与

转换成h_k视场的深度图像

进行遮挡计算，生成合成画面。

的内容不成像。

计算出s_m三维成像区间Ω_m在h_k视场中的三维显示区间为

所述步骤S40后还有步骤S50：任意观众h_k在其体验空间里与直播的虚拟场景s_m进行互动，生成其体验空间里的互动操作命令A_k，A_k转换成直播虚拟场景s_m里的互动操作命令A′_k，把A′_k发送给场景s_m，场景s_m对A′_k进行响应。

其中，所述步骤S50具体包括：

步骤S503:根据观众h_k瞳距d_k与基准观众瞳距

由此，通过设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系；根据直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系，计算基准观众在直播虚拟场景中的瞳距与观看位姿；基于所述基准观众在直播虚拟场景中的瞳距与观看位姿，渲染生成虚拟场景直播三维成像区间的立体视觉直播画面，并把立体视觉直播画面发送给各观众；任意观众接收立体视觉直播画面，和/或立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面合成为边看虚拟场景直播边进行其它内容体验的立体视觉画面，显示给观众看；任意观众与直播的虚拟场景还可以进行互动。

此外，本发明还提出一种基于XR技术的沉浸式互动直播构建系统，所述系统包括：沉浸式互动直播管理服务器、多台XR应用服务器、存储服务器，其中，用户的XR终端通过无线网络访问所述管理服务器与所有XR应用服务器，所述管理服务器部署有沉浸式互动直播管理控制中心，所述存储服务器部署有XR资源库：

所述XR资源库，用于存储XR应用资源；

相比现有技术，本系统基于XR技术构建的单个或多个虚拟场景的沉浸式体验活动可以直播分享出来，观看沉浸式互动直播的观众边看边参与到直播虚拟场景的互动，也还可以并行进行其它内容的沉浸式体验。由于本发明指定一个基准用户瞳距，以此基准瞳距定义了一个基准视场，本发明只需渲染生成此基准视场的立体视觉画面，通过算法处理，就能使其适配不同用户的瞳距，生成正确的直播画面与互动功能，从而使用较少的计算资源，就能适配所有不同瞳距的用户。

本系统可以应用到常规的直播活动，也可以应用到教学中，例如：在课堂里，教师在XR技术构建的虚拟实训场景里进行虚拟实操示范，本系统可以把教师的虚拟实操直播分享给课堂里所有学生，学生可以在自己沉浸式体验空间里，观看教师实操立体画面，可以与教师的虚拟实操进行互动，还可以并行在自己的虚拟实操环境里进行操作，从而“学中做”、“做中学”；在课堂里，老师也可以指定某个学生的虚拟实操过程直播分享出来，供大家评价参考；还可以应用到实操竞赛中，每个参与竞赛的人或小组有一个独立的虚拟实操场景，他们可以通过直播实时立体地看到其它人或小组的虚拟实操进度，从而直观的形成竞赛对比。因此，本发明基于XR技术的沉浸式互动直播构建方法及系统具有很高的应用价值。

以下对本发明基于XR技术的沉浸式互动直播构建方法的实现原理进行详细阐述：

本发明涉及的技术术语包括：

“场景”与“场景实例”是两个紧密相关的名词。场景定义了一个三维空间里包含的对象、对象状态、对象自身运行逻辑、以及对象之间相互作用的逻辑；场景实例是系统调用计算机处理器、内存、显卡等计算资源根据场景定义实时运行的程序进程，此程序进程实时计算场景内各对象状态，并渲染画面。单个场景同时有多个用户体验时，单个场景实例能获得的计算资源如果不能实时为所有用户生成体验画面时，就需要为此场景生成多个场景实例并分配给用户，这些场景实例之间同步场景内对象状态，各场景实例分别为对应的用户实时生成体验画面，从而各用户共享体验此场景；同样地，当场景拥有的场景实例如果在为用户直接生成沉浸式体验外，没有足够的计算资源再生成直播画面，则需要此场景增加场景实例，增加的场景实例须与此场景的其它实例同步场景状态。

以图2为例，有虚拟场景1，用户A与用户B对此虚拟场景进行协同体验，当单个场景实例无法同时为2个用户生成沉浸式体验时，系统生成了2个场景实例分别为虚拟场景1实例1与虚拟场景1实例2，两个实例通过通信连接，交换场景状态信息同步场景状态，实例1为用户A生成沉浸式体验画面，实例2为用户B生成沉浸式体验画面。从而实现了用户A与用户B对虚拟场景1的协同体验。进一步把虚拟场景1直播分享给其它用户，当已有的2个场景实例没有足够计算资源再生成实时直播画面时，系统就需再生成虚拟场景1的实例3，新的实例与实例2交换场景状态参数，从而与实例1、2同步场景状态，实例3生成的直播画面发送给用户C、D、E。

用户体验空间坐标系。市面上主流的XR头显都自带定位功能，能自动在用户所处的环境建立坐标系，如图3所示，图3为本发明用户体验空间坐标系示意图，此坐标系在水平面的垂直向上方向定义y轴的正方向，在水平面上定义x轴与z轴。用户体验空间坐标系就是XR头显自动建立的这个坐标系。

用户视场坐标系是在人眼视场定义的坐标系。以图4为例，人眼双目光心连线上，双目光心之间的中点作为坐标系的原点，人眼双目连线从左眼到右眼方向定义为x轴正方向，注意力方向定义为z轴正方向，以与x轴与z轴垂直且满足左手坐标系定义y轴正方向。

基准瞳距与基准观众。不同人之间，双目瞳距不相同。在本发明中指定一个瞳距值

为瞳距基准值，称

为基准瞳距。设定或假定一个瞳距为基准瞳距的用户为基准观众。

瞳距与立体视觉

人眼在观看物体时，人的左眼与右眼分别对物体都进行成像，同一物点在人的左眼与右眼成像位置存在差异，此差异为视差，视差让人眼可以正确感知物点的三维信息。如图5中的(a)图所示，瞳距为d，O_L为为人的左眼光心，O_R为人的右眼光心，物点C在左眼成像位置为A点，在右眼成像位置为B点。如图5中的(b)图所示，瞳距为d_k，当物点在人眼成像位置不变时，仍然在左眼成像位置为A点，在右眼成像位置为B点，此时感知到的物点三维位置为

三角形O_LO_RC与三角形

相似但不相等，大小比例为

所以，相同的左右眼立体图片适配不同的人眼瞳距时，不同瞳距的人感知到的立体视觉信息不相同。

旋转缩放平移矩阵以及旋转矩阵与欧拉角的转换

在本实施例采用左手手坐标系，任意两个坐标系Ψ到

旋转缩放平移关系为：按z、x、y的顺序绕轴旋转角度分别为θ、β、α，沿x、y、z轴分别平移t_x、t_y、t_z，z、x、y三个轴同比例缩放系数为λ，令任意点p在中Ψ坐标值为(c_x c_y c_z)，在

坐标值为(w_x w_y w_z)，从Ψ到

坐标值转换关系为：

其中，R为旋转矩阵，T为平移矩阵，旋转角度与旋转矩阵R的转换关系如下：

平移量与平移矩阵T的转换关系如下：

T＝[t_x t_y t_z]^T (3)

旋转缩放平移矩阵为：

有：

[w_x w_y w_z 1]^T＝H[c_x c_y c_z 1]^T (5)

旋转矩阵R转换成旋转角度如下：

令已知旋转缩放平移矩阵

则：

当h₁₃、h₃₃、h₂₁、h₂₂不同时为0时，

当h₁₃、h₃₃、h₂₁、h₂₂同时为0时，则

则若β取值为

则：

α-θ＝atan2(h₁₂,h₁₁) (7)

其中α可以取任意角度值，θ满足上面等式就可以。

若β取值为

则：

α+θ＝atan2(-h₁₂,h₁₁) (8)

其中α可以取任意角度值，θ满足上面等式就可以。

本发明基于XR技术的沉浸式互动直播构建方法的实现场景如下：

有多位用户参与基于XR技术的沉浸式体验活动，用户集合为P＝{h₀ h₁ … h_n-1}，任意用户h_k的瞳距用d_k表示，每个用户的瞳距不相同。其中，有用户h_m对虚拟场景s_m进行沉浸式体验，h_m把对s_m的沉浸式体验过程进行实时直播分享，P中任意其它用户在观看h_m对s_m体验的立体直播画面，可以对直播场景s_m进行互动，还可以并行对其它虚拟场景进行沉浸式体验。如图1所示，此沉浸式互动直播构建方法具体包括如下步骤：

(1)设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系

直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系旋转缩放平移关系的设定可以正向设定或逆向设定。正向设定是人为或系统选择一个三维包围盒，设定此包围盒在直播虚拟场景的位姿，包围盒框选出来的直播虚拟场景的三维区间是直播虚拟场景的直播三维成像区间，此成像区间的场景内容将呈现给观众看，然后设定三维包围盒在基准观众视场中的位姿与缩放系数，此三维包围盒在基准观众视场中框选出来的三维区间是直播虚拟场景在基准观众视场中的三维显示区间，由设定的三维包围盒坐标系与直播虚拟场景的旋转平移关系以及三维包围盒坐标系与基准观众视场坐标系的旋转缩放平移关系，就确定了直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系；逆向设定是人为或系统选择一个三维包围盒，设定此包围盒在基准观众视场中的位姿与缩放系数，就确定了直播虚拟场景在基准观众视场中的三维显示区间，设定直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系，由设定的三维显示区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系，可计算得到直播虚拟场景里的直播三维成像区间。逆向设定方法很容易依照正向设定方法得到，下面只详细介绍正向设定方法：

①设定直播虚拟场景的直播三维成像区间

选定一个三维包围盒Ω′_m，三维包围盒形状可以任意，设定此包围盒在虚拟场景s_m中的位姿。此包围盒在s_m中框选的三维区间，作为给虚拟场景设定的直播三维成像区间。在进行直播过程中，此虚拟场景只有在直播三维成像区间内的内容才会直播分享给其他用户。包围盒在虚拟场景s_m中的位姿可以在直播过程中根据需要进行调整。此三维成像区间只约束了直播分享，对本身就在s_m中进行沉浸式体验的用户h_m没有任何约束。具体如下。

给虚拟实训场景s_m选定三维包围盒Ω′_m。为Ω′_m定义坐标系Ψ′_m，Ψ_m为虚拟场景s_m的坐标系。设定Ω′_m在s_m中的位姿，也就是设定坐标系Ψ′_m到Ψ_m的旋转平移关系。在Ψ′_m与Ψ_m的旋转关系中，本发明实时例限定Ψ′_m只能绕Ψ_m的y轴旋转，令Ψ′_m到Ψ_m旋转平移关系中的旋转量可以表示为绕y轴旋转角度为

缩放系数为1，平移量为

令坐标系Ψ′_m中任意点

在坐标系Ψ_m中坐标值用(c_x c_y c_z)表示，依照式(4)则得Ψ′_m到Ψ_m的旋转缩放平移矩阵H_m，其中：

则：

对于三维包围盒Ω′_m中任意点,把其在坐标系Ψ′_m下的坐标值代入式(10)计算得到其在Ψ_m中的坐标值，由此确定了Ω′_m在s_m中限定的三维成像区间Ω_m。以图6为例，选定一个圆柱体为包围盒，设定此圆柱体到虚拟场景里的位姿，从而框选出虚拟场景里需要直播分享的区间。

三维包围盒也可以无限大，这样虚拟场景里所有内容都将在直播分享区间内。

②设定虚拟场景直播三维成像区间在基准观众视场里的三维显示区间

设定虚拟场景直播三维成像区间Ω_m在用户视场里的三维显示区间方式为：设定三维包围盒Ω′_m在基准观众视场的位姿与缩放关系，可计算出虚拟场景直播三维成像区间Ω_m在基准观众视场中对应的显示区间。具体如下。令基准观众视场坐标系用Ψ_user表示，设定三维包围盒Ω′_m在基准观众视场的位姿与缩放关系，也就是设定三维包围盒Ω′_m直角坐标系Ψ′_m到基准观众视场坐标系Ψ_user的旋转缩放平移关系，Ψ′_m到Ψ_user的缩放是各轴同比例缩放。设定Ψ′_m到Ψ_user旋转缩放平移关系中的旋转量表示为[α^m β^m θ^m]、平移量为

缩放系数表示为λ^m。依照式(4)，可以得到坐标系Ψ′_m到Ψ_user的旋转缩放平移矩阵

令Ω′_m中任意点在坐标系Ψ′_m下坐标值为

在基准观众视场坐标系Ψ_user中坐标值用(w_x w_y w_z)表示，则：

把Ω′_m中任意点代入式(11)，可以计算出Ω′_m在基准观众视场中的三维显示区间

同时也是直播三维成像区间Ω_m在基准观众视场中对应的三维显示区间

设定了三维包围盒Ω′_m坐标系到直播虚拟场景s_m坐标系的旋转平移变换关系，以及三维包围盒Ω′_m坐标系到基准观众视场坐标系Ψ_user的旋转缩放平移关系，也就同步设定了直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系，直播虚拟场景坐标系到基准观众视场坐标系的旋转缩放平移关系可用旋转缩放平移矩阵

表征。反过来，基准观众视场坐标系到直播虚拟场景坐标系的旋转缩放平移矩阵为

如图7所示，图7为本发明在基准用户视场设定直播虚拟场景坐标系与基准观众视场坐标系旋转缩放平移关系示意图。

(2)计算基准观众在直播虚拟场景中观看位姿与瞳距

在本发明实施例中，基准观众在基准观众视场坐标系Ψ_user中位置坐标为(0 00)，姿态角为(0 0 0)。根据基准观众视场坐标系Ψ_user到直播虚拟场景s_m坐标系Ψ_m的旋转缩放平移矩阵

任意点在Ψ_user中坐标值为(w_x w_y w_z)，在Ψ_m坐标值为(c_x c_yc_z)，则：

把基准观众在基准观众视场坐标系Ψ_user中位置坐标(0 0 0)代入式(12)可以计算得到基准观众在场景s_m坐标系Ψ_m下的位置坐标W^m。由于基准观众在基准观众视场坐标系Ψ_user中姿态角为(0 0 0)，则根据式(6)、(7)、(8)从旋转缩放平移矩阵

转换出来的绕轴z、x、y的三维旋转角度向量Q^m，就是基准观众视场在场景s_m坐标系Ψ_m下的姿态角。从而得到基准观众在Ψ_m下位姿值

由于，直播虚拟场景s_m的直播三维成像区间在基准观众视场进行了缩放显示，由此直播虚拟场景为基准观众生成直播立体视觉画面所用的瞳距也发生了缩放，在s_m生成直播立体视觉画面所用的瞳距为

(3)渲染生成直播虚拟场景三维成像区间的立体视觉图片

在视场位姿值

以及瞳距

下，为观众实时渲染场景s_m成像区间Ω_m双目立体视觉画面以及对应的深度图片。其中，

为立体视觉画面的左眼图像，

为立体视觉画面的右眼图像，

为对应的深度图像，然后深度图像还需根据缩放因素λ^m转换成基准观众视场下的深度图像，由此

对于左眼图像任意像素

其深度值为

对于右眼像任意像素

其深度值为

发送立体视觉画面以及深度图像给各观众。

(4)观众接收立体视觉直播画面，和/或立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面合成为边看虚拟场景直播边进行其它内容体验的立体视觉画面，显示给观众看

任意观众h_k实时接收到s_m的直播画面，当直播画面的左右眼图片分别显示给人的左右眼看时，观众h_k就会直接获得对场景s_m的三维成像区间Ω_m里面内容的立体视觉感知。但当观众观看直播的同时还在进行其它内容的沉浸式体验，这时直播立体视觉画面需要与其它内容的立体视觉体验画面合成，生成观众h_k的完整立体视觉体验画面，使直播虚拟场景融入到观众沉浸式体验空间。直播立体画面与其它内容的立体视觉体验画面合成时，需要进行图像之间遮挡计算，只有在用户相同视线上的像素才会遮挡，在本发明实施例中要求渲染生成所有立体视觉图像和深度图像时采用相同大小的视场角与分辨率，所以多幅左眼或右眼图片之间具有相同图像坐标的像素点在用户相同视线上。立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面，合成为边看虚拟场景直播边进行其它内容体验的立体视觉画面，具体实现如下。

生成观众沉浸式体验空间其它体验内容的立体视觉画面时，计算出直播虚拟场景在观众体验空间的三维显示区间，观众体验空间其它体验内容在此三维区间的内容不成像。通过步骤(1)，已经获得直播虚拟场景在基准观众视场下的显示区间Ω^user，对于任意观众用户h_k，其瞳距为d_k，由于瞳距的差异，直播虚拟场景s_m在用户h_k的视场中显示区间不是Ω^user，令Ω^user中任意点(u^x u^y u^z)，其在h_k视场坐标系中对应坐标值为

则

由此映射关系，Ω^user映射到用户h_k的视场就可以获得直播场景在此用户视场下的显示区间

根据

则有直播虚拟场景在任意观众视场中的三维显示区间为

对于任意用户h_k，在观看场景s_m直播，同时也在其它内容进行体验，例如对场景s_k进行沉浸式体验。前面已经计算得到直播虚拟场景在h_k视场中的三维显示区间为

观众体验空间其它体验内容在三维区间

^u里的内容不成像，但可以保留虚拟互动工具在此区间成像，令除s_m直播外，用户h_k体验空间其他内容生成的体验画面左眼图像为

右眼图像为

在h_k视场对应深度值为

与

接收到的场景s_m的直播立体视觉图片

与

需要与

合成为用户h_k的边看虚拟场景直播边对体验空间内其它内容进行体验的完整立体视觉画面。图片合成时需要进进行遮挡计算。由于用户h_k瞳距d_k与基准瞳距

的差异，用户h_k感知到的

与

深度信息与基准观众视场下的深度图像

有差异，用户h_k感知到的

与

的深度图像为

令合成后的体验画面左眼图片为

右眼图片为

对应深度图像为

初始化

遍历图片中任意像素，如果

则

否则不做处理；同样，如果

则

否则不做处理。按如上计算遍历完图像中所有像素，就完成了画面合成。合成画面显示给观众h_k看。

(5)观众与直播的虚拟场景进行互动

任意观众在自己的沉浸式体验空间对直播虚拟场景互动，生成用户体验空间坐标系下的互动命令，把互动命令的位姿参数正确转换到直播虚拟场景坐标系，由此把互动命令转换成虚拟直播场景下的互动命令，把转换后的互动命令发送给直播虚拟场景，直播虚拟场景响应此互动命令，完成观众与直播虚拟场景的互动。

任意观众用户h_k，h_k的沉浸式体验空间坐标系用

表示。h_k在其体验空间，基于s_m直播画面，对s_m进行互动操作，产生用户h_k体验空间的互动操作命令A_k，互动操作命令A_k包含坐标系

下的位姿参数，其中位置参数为

姿态角参数为

把互动操作命令A_k转换成场景s_m里的互动操作命令A′_k，需要把位姿A_k的位姿参数转换成场景s_m坐标系Ψ_m下的的位姿参数，实时传输位姿参数转换后的互动操作命令A′_k到场景s_m中，场景s_m对A′_k进行响应。从而实现观众与直播虚拟场景的互动。

观众与直播的虚拟场景进行互动具体实现如下：

①判断互动操作是否为对直播虚拟场景的互动

直播虚拟场景在观众h_k的视场里的显示区间为

由步骤4计算出直播虚拟场景在任意观众视场中的三维显示区间

当互动操作命令A_k的位置参数

属于区间

时，则判断此命令属于对直播虚拟场景s_m的互动，进入下面的步骤；否则不进入下面的步骤，用户体验空间内其它内容响应此命令。

②由观众视场坐标系到观众体验空间坐标系的旋转变换关系，把互动操作命令位姿参数从观众体验空间坐标系转换到观众视场坐标系；

令XR终端实时定位出的观众h_k在其沉浸式体验空间坐标系

下的位姿为[W_k,0 Q_k,0]，其中，

Q_k,0＝(α_k β_k θ_k)。从而在

到

的坐标系变换关系中，旋转角度为Q_k,0，平移量为W_k,0，缩放系数为1，依照式(4),可得

到

的旋转缩放平移矩阵H_k，令h_k的用户体验空间坐标系

中任意点

在h_k的视场坐标系

下坐标值为

则从

到

坐标值变换关系为：

把互动操作命令的位置参数

代入式(13),可以计算得到互动操作命令A_k位置参数转换到h_k用户视场坐标系

下的坐标值W_user，把互动操作命令A_k的姿态角

当旋转角度，把位置参数

当平移量，缩放系数为1，依照式(4)可以构建出一个旋转缩放平移矩阵H′_k，则H_kgH′_k依照式(6)、(7)、(8)转换出旋转角度向量Q_user,Q_user就是互动操作命令A_k转换到h_k用户视场坐标系

下的姿态角，其中H_k为

到

的旋转缩放平移矩阵。

③互动命令位姿参数转换到基准观众视场坐标系下

根据观众h_k瞳距d_k与基准观众瞳距

的比值，互动命令位姿参数转换到基准观众视场坐标系下时姿态角不变，但坐标值发生改变，互动操作命令在h_k用户视场坐标系

下的坐标值W_user，则互动操作命令在基准观众视场坐标系Ψ_user下坐标值为

④把互动命令位姿参数从基准用户视场坐标系转换到直播虚拟场景坐标系

把

代入式(12)可以计算得到互动操作命令A_k位置参数在直播虚拟场景s_m坐标系Ψ_m对应的坐标值W，把

依照式(6)、(7)、(8)可以转换得到互动操作命令A_k姿态角参数在Ψ_m对应的姿态角值Q，其中

为基准观众视场坐标系Ψ_user到直播虚拟场景坐标系Ψ_m的旋转缩放平移矩阵。把[W Q]赋值给互动操作命令A_k的位姿参数，从而把互动操作命令A_k转换成了场景s_m里的互动操作命令A′_k，场景s_m对A′_k响应，正确实现了任意观众用户h_k基于直播画面与场景s_m的互动。

参照图8，本发明基于XR技术的沉浸式互动直播构建系统的硬件构成如图8所示，实现本发明基于XR技术的沉浸式互动直播硬件系统主要包括：云服务器集群、网络设备、以及XR终端。

在云服务器集群中，服务器包括沉浸式互动直播管理服务器、多台XR应用服务器、存储服务器。XR应用服务器须具备高性能的图形渲染能力，服务器之间须互联互通，用户的XR终端通过无线网络访问管理服务器与所有XR应用服务器，XR终端可以为XR头盔或眼镜。

参照图9，本发明基于XR技术的沉浸式互动直播构建系统的软件构成如图9所示，实现本发明基于XR技术的沉浸式系统软件主要包括4个模块：

沉浸式互动直播管理控制中心、XR资源库、用户端、XR应用服务端。其中：

沉浸式互动直播管理控制中心安装在沉浸式互动直播管理服务器，XR资源库部署在存储服务器，用户端安装在用户的XR终端上，XR应用服务端安装在每台XR应用服务器上。下面介绍各模块的主要功能。

1、XR资源库：

XR资源库存储了XR应用程序、XR资源包等XR应用资源。

2、沉浸式互动直播管理控制中心：

安装在沉浸式互动直播管理服务器上，功能包括：

(1)接受用户端虚拟场景体验申请，命令XR应用服务端分配虚拟场景实例，并协助用户端与对应的虚拟场景实例建立通信连接。

(2)接收用户直播分享的申请，命令XR应用服务端分配用于直播的虚拟场景实例。

(3)用户或系统在沉浸式互动直播管理控制中心，设定虚拟场景直播分享的三维成像区间，设定直播虚拟场景坐标系与基准观众视场坐标系旋转缩放平移关系。

(4)任意用户向管理控制中心申请观看直播，管理控制中心协助此用户与直播场景建立通信连接，基于此通信连接，此用户能接收到直播立体画面，能把对此直播场景的互动发送到直播场景。

3、XR应用服务端：

具体功能包括：

接收沉浸式互动直播管理控制中心发送过来的分配虚拟场景实例指令，XR应用服务端将根据指令里虚拟场景的ID，分配对应虚拟场景的实例，当现有场景实例没有足够的计算资源时，调用对应的XR应用程序及相关的资源包，生成虚拟场景实例，并令新生成的场景实例与原有场景实例建立通信连接，同步场景状态。

接收沉浸式互动直播管理控制中心发送过来的销毁场景实例指令，销毁虚拟场景实例。

4、用户端：

具体功能包括：

(1)向沉浸式互动直播管理控制中心发送虚拟场景体验申请，与分配给此用户的虚拟场景实例建立通信连接；

(2)采集用户终端的位姿参数、互动操作信息等，发送给场景实例；

(3)接收场景实例发送过来的沉浸式体验画面；

(4)向沉浸式互动直播管理控制中心申请观看直播，与直播场景建立通信连接，接收直播场景发送过来的直播画面；

(5)判断用户互动操作是否为对直播场景互动，当对直播场景互动时，把互动操作命令的位姿参数转换到直播场景坐标系，并把转换后的互动操作命令发送到直播场景；

(6)合成直播画面与体验空间其他内容的画面，生成完整的边看虚拟场景直播边进行体验空间里其他内容的体验的立体视觉体验画面，显示给用户看。

基于此沉浸式互动直播系统，XR技术构建的单个或多个虚拟场景的沉浸式体验活动可以直播分享出来，观看沉浸式互动直播的观众边看边参与到直播虚拟场景的互动，也还可以并行进行其它内容的沉浸式体验。由于本发明指定一个基准用户瞳距，以此基准瞳距定义了一个基准观众视场，本发明只需渲染生成此基准观众视场的立体视觉直播画面，通过算法处理，就能使其适配不同用户的瞳距，使直播场景正确融入到用户的体验空间，提供正确地与直播虚拟场景互动的功能，从而使用较少的计算资源，就能适配所有不同瞳距的用户。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行如上所述的基于XR技术的沉浸式互动直播构建方法的步骤。

本发明提出的一种基于XR技术的沉浸式互动直播构建方法、系统及存储介质，通过设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系；根据直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系，计算基准观众在直播虚拟场景中的瞳距与观看位姿；基于所述基准观众在直播虚拟场景中的瞳距与观看位姿，渲染生成虚拟场景直播三维成像区间的立体视觉直播画面，并把立体视觉直播画面发送给各观众；任意观众接收立体视觉直播画面，和/或立体视觉直播画面与观众体验空间其它体验内容的立体视觉画面合成为边看虚拟场景直播边进行其它内容体验的立体视觉画面，显示给观众看。基于此沉浸式互动直播系统，XR技术构建的单个或多个虚拟场景的沉浸式体验活动可以直播分享出来，观看沉浸式互动直播的观众边看边参与到直播虚拟场景的互动，也还可以并行进行其它内容的沉浸式体验。由于本发明指定一个基准观众瞳距，以此基准瞳距定义了一个基准观众视场，本发明只需渲染生成此基准观众在直播虚拟场景里瞳距与位姿下的直播虚拟场景立体视觉直播画面，通过算法处理，就能使其适配不同用户的瞳距，使直播场景正确融入到用户的体验空间，提供正确地与直播虚拟场景互动的功能，从而使用较少的计算资源，就能适配所有不同瞳距的用户。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，方案利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于XR技术的沉浸式互动直播构建方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S30生成的立体视觉直播画面带有深度信息，在所述步骤S40中，对于任意观众h_k，h_k接收的立体视觉直播画面与其体验空间其它体验内容的立体视觉画面合成为h_k边看虚拟场景直播边进行其它内容体验的立体视觉画面，在立体视觉直播画面与h_k对其它内容体验生成的立体视觉画面合成时，需要根据各画面在h_k视场的深度信息进行遮挡计算。

3.根据权利要求2所述的方法，其特征在于，在所述步骤S10设定的直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系中，直播虚拟场景s_m的坐标系到基准观众视场坐标系的缩放系数为λ_m，所述步骤S20计算出基准观众在直播虚拟场景s_m中的瞳距为

其中

为立体视觉画面的左眼图像，

为立体视觉画面的右眼图像，

为对应的深度图像，根据缩放系数λ_m，计算得到

与

在基准观众视场下的深度信息为深度图像

和

右眼图像为

与

在h_k视场的深度信息为深度图

与

h_k与基准观众瞳距比值为

场景s_m的立体视觉直播画面

与

在基准观众视场下的深度图像

与

转换成h_k视场的深度图像

进行遮挡计算，生成合成画面。

4.根据权利要求3所述的方法，其特征在于，所述步骤S10，设定直播虚拟场景的直播三维成像区间以及直播虚拟场景坐标系与基准观众视场坐标系的旋转缩放平移关系具体包括：给直播虚拟场景s_m选定三维包围盒Ω′_m，设定包围盒Ω′_m在场景s_m中的位姿，包围盒Ω′_m在场景s_m框选出一个三维区间Ω_m，Ω_m就是场景s_m的直播三维成像区间，设定包围盒Ω′_m在基准观众视场的位姿与缩放关系，计算出所述虚拟场景s_m的直播三维成像区间Ω_m在基准观众视场中对应的三维显示区间

5.根据权利要求4所述的方法，其特征在于，在所述步骤S40中，对于任意观众h_k，直播虚拟场景s_m在h_k体验空间的三维显示区间为

的内容不成像。

6.根据权利要求5所述方法，其特征在于，所述步骤S40计算出直播虚拟场景三维成像区间在任意观众体验空间的三维显示区间的具体实现为：直播虚拟场景s_m在基准观众视场中的三维显示区间为Ω^user，由任意观众h_k瞳距与基准观众瞳距的比值

计算出s_m三维成像区间Ω_m在h_k视场中的三维显示区间为

7.根据权利要求1-6任意项所述的方法，其特征在于，所述步骤S40后还有步骤S50：任意观众h_k在其体验空间里与直播的虚拟场景s_m进行互动，生成其体验空间里的互动操作命令A_k，A_k转换成直播虚拟场景s_m里的互动操作命令A_k′，把A_k′发送给场景s_m，场景s_m对A_k′进行响应。

8.根据权利要求7所述方法，其特征在于，所述步骤S50具体包括：

步骤S503:根据观众h_k瞳距d_k与基准观众瞳距

步骤S504：根据基准观众视场坐标系与直播虚拟场景s_m坐标系旋转缩放平移关系，互动操作命令A_k的位姿参数从基准观众视场坐标系转换到直播虚拟场景s_m坐标系下位姿参数，生成互动操作命令A_k′；

步骤S505：互动操作命令A_k′，发送给虚拟直播场景s_m，s_m对A_k′响应。

9.一种基于XR技术的沉浸式互动直播构建系统，其特征在于，所述系统包括：沉浸式互动直播管理服务器、多台XR应用服务器、存储服务器，其中，用户的XR终端通过无线网络访问所述管理服务器与所有XR应用服务器，所述管理服务器部署有沉浸式互动直播管理控制中心，所述存储服务器部署有XR资源库：

所述XR资源库，用于存储XR应用资源；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行权利要求1-8中任一项所述的基于XR技术的沉浸式互动直播构建方法的步骤。