CN115079832A

CN115079832A - 虚拟现实场景的显示处理方法及虚拟现实设备

Info

Publication number: CN115079832A
Application number: CN202211001320.XA
Authority: CN
Inventors: 杨光; 董立龙; 张桐源
Original assignee: Beijing Weishiwei Information Technology Co ltd
Current assignee: Beijing Weishiwei Information Technology Co ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-09-20
Anticipated expiration: 2042-08-19
Also published as: CN115079832B

Abstract

本公开涉及一种虚拟现实场景的显示处理方法及虚拟现实设备，该方法包括：获取第一用户在使用第一虚拟现实设备的第一时间窗口内的头部运动信息和眼睛运动信息；分别从头部运动信息和眼部运动信息中提取第一用户的头部运动特征和眼睛运动特征；根据头部运动特征和眼睛运动特征，获得第一用户在预测时刻的第二头部姿态信息；其中，预测时刻在第一时间窗口的结束时刻之后，预测时刻与结束时刻的时间差等于设定的预测时长；根据第二头部姿态信息，绘制虚拟现实场景在所述预测时刻的场景画面；及在该预测时刻，通过第一虚拟现实设备的屏幕显示预先绘制的场景画面。

Description

虚拟现实场景的显示处理方法及虚拟现实设备

技术领域

本发明涉及计算机处理技术领域，更具体地，涉及一种虚拟现实场景的显示处理方法及虚拟现实设备。

背景技术

相比于传统的二维显示设备，通过虚拟现实设备播放虚拟现实场景能够提供更高的沉浸感，它使得用户可以自由地探索虚拟三维世界。用户在虚拟现实设备提供的虚拟现实环境中，可以通过头部运动进行人机交互，虚拟现实设备通过追踪用户的头部姿态信息来确定用户的视野范围（field of view，FOV）变化，进而完成场景画面的绘制，其中，用户的头部姿态信息与用户的视野范围具有特定的映射关系，虚拟现实设备根据用户在某一时刻的头部姿态信息，绘制并显示所要播放虚拟现实场景在该时刻的场景画面。由于在根据虚拟现实场景数据绘制所要显示的场景画面时，无论是场景数据传输，还是场景数据绘制都需要消耗时间，所以，虚拟现实设备对于所绘制场景画面的显示时刻相对于所绘制场景画面实际对应的时刻必然会有时间延迟，较长的时间延迟会影响用户体验，因此，有必要提供一种有利于减小时间延迟的显示处理方案。

发明内容

本公开实施例的一个目的是提供一种用于虚拟现实设备的虚拟现实场景的显示处理方案，以减少场景画面的显示延迟。

根据本发明的第一方面，提供了一种虚拟现实场景的显示处理方法，其包括：

获取第一用户在使用第一虚拟现实设备的第一时间窗口内的头部运动信息和眼睛运动信息；其中，所述头部运动信息包括所述第一用户在所述第一时间窗口内多个采样时刻的第一头部姿态信息，所述眼睛运动信息包括所述第一用户在所述多个采样时刻注视所述第一虚拟现实设备的屏幕的注视位置信息；

从所述头部运动信息中提取所述第一用户的头部运动特征，及从所述眼睛运动信息中提取所述第一用户的眼睛运动特征；

根据所述头部运动特征和所述眼睛运动特征，获得所述第一用户在预测时刻的第二头部姿态信息；其中，所述预测时刻在所述第一时间窗口的结束时刻之后，所述预测时刻与所述结束时刻的时间差等于设定的预测时长；

根据所述第二头部姿态信息，绘制所述虚拟现实场景在所述预测时刻的场景画面；

在所述预测时刻，通过所述第一虚拟现实设备的屏幕显示所述场景画面。

可选地，所述根据所述第二头部姿态信息，绘制所述虚拟现实场景在所述预测时刻的场景画面，包括：

根据所述第二头部姿态信息，从视频源设备获取所述虚拟现实场景的对应于所述预测时刻和所述第二头部姿态信息的场景数据；

根据所述场景数据，绘制所述虚拟现实场景在所述预测时刻的场景画面。

可选地，所述从所述头部运动信息中提取所述第一用户的头部运动特征，包括：

将所述头部运动信息输入至预置的第一特征提取模型，得到所述头部运动特征；其中，所述第一特征提取模型包括串联连接的第一卷积神经网络和第一时序网络，所述第一卷积神经网络接收所述头部运动信息，所述第一时序网络输出所述头部运动特征。

可选地，所述第一卷积神经网络包括串联连接的三个第一网络单元，每一所述第一网络单元包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

可选地，所述第一时序网络为双向门控循环单元。

可选地，所述从所述眼睛运动信息中提取所述第一用户的眼睛运动特征，包括：

将所述眼睛运动信息输入至预置的第二特征提取模型，得到所述眼睛运动特征；其中，所述第二特征提取模型包括串联连接的第二卷积神经网络和第二时序网络，所述第二卷积神经网络接收所述眼睛运动信息，所述第二时序网络输出所述眼睛运动特征。

可选地，所述根据所述头部运动特征和所述眼睛运动特征，获得所述第一用户在预测时刻的第二头部姿态信息，包括：

将所述头部运动特征和所述眼睛运动特征输入至预置的预测模型，得到所述用户在预测时刻的第二头部姿态信息；其中，所述预测模型反映所述第一时间窗口的运动特征与预测时刻的头部姿态信息间的映射关系，所述运动特征包括所述头部运动特征和所述眼睛运动特征。

可选地，所述预测模型包括串联连接的两个第二网络单元，每一所述第二网络单元包括顺次连接的全连接层、批归一化层、激活函数层和随机失活层。

可选地，所述从所述头部运动信息中提取所述第一用户的头部运动特征，及从所述眼睛运动信息中提取所述第一用户的眼睛运动特征，包括：

将所述头部运动信息输入至预置的第一特征提取模型，得到所述头部运动特征；

将所述眼睛运动信息输入至预置的第二特征提取模型，得到所述眼睛运动特征；

所述根据所述头部运动特征和所述眼睛运动特征，获得所述第一用户在预测时刻的第二头部姿态信息，包括：

将所述头部运动特征和所述眼睛运动特征输入至预置的预测模型，得到所述第一用户在预测时刻的第二头部姿态信息；

其中，所述第一特征提取模型的模型参数、所述第二特征提取模型的模型参数和所述预测模型的模型参数由同一训练样本集同步训练得到，所述训练样本集中的每一训练样本包括样本数据和样本标签，所述样本数据包括第二用户在使用第二虚拟现实设备的第二时间窗口内的头部运动信息和眼睛运动信息，所述样本标签为所述第二用户在目标时刻的头部姿态信息，所述目标时刻与所述第二时间窗口的结束时刻的时间差等于所述预测时长。

根据本公开的第二方面，还提供了一种虚拟现实设备，该虚拟现实设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于在所述计算机程序的控制下，执行根据本公开的第一方面所述的显示处理方法。

本公开实施例的一个有益效果在于，本公开实施例的显示处理方法根据用户在第一时间窗口内的头部运动信息和眼睛运动信息，获得用户在未来的预测时刻的第二头部姿态信息，由于该第二头部姿态信息与用户在该预测时刻的视野范围具有确定的映射关系，因此，虚拟现实设备可以根据该第二头部姿态信息，预先绘制虚拟现实场景在该预测时刻的场景画面，这样，便可在预测时刻显示该预先绘制出的场景画面，进而解决场景画面的显示延迟问题。另外，本公开实施例的显示处理方法在预测用户的头部姿态信息时，不仅考虑了用户在第一时间窗口内的头部运动信息，还考虑了用户在第一时间窗口内的眼睛运动信息，由于眼睛运动信息与头部运动信息具有一定的关联性，且头部运动信息本身存在噪声使得只使用头部运动信息进行头部姿态预测的结果不够鲁棒，因此，本公开实施例的方法结合头部运动信息和眼睛运动信息进行头部姿态的预测，能够有效提高预测的准确性和鲁棒性，即使在长期头部运动预测中，也能够获得符合使用需求的预测效果。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是本公开实施例的显示处理方法的应用场景示意图；

图2是根据一些实施例的显示处理方法的流程示意图；

图3是根据一些实施例的进行特征提取和头部姿态预测的模型结构示意图；

图4是根据一些实施例的特征提取模型的模型结构示意图；

图5是根据一些实施例的虚拟现实设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人物已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例涉及用于虚拟现实设备的虚拟现实场景的显示处理方法。由于虚拟现实设备播放的虚拟现实场景为360度全景，因此，在使用中，虚拟现实设备需要根据用户在一时刻的视野范围，绘制该时刻的与该视野范围相对应的场景画面，以使得用户可以通过虚拟现实设备自由地探索三维世界。用户可以通过头部运动与虚拟现实设备进行人机交互，虚拟现实设备通过追踪用户的头部姿态的变化来确定用户的视野范围（field ofview，FOV）变化，进而完成不同时刻的场景画面的绘制；其中，头部姿态与视野范围具有确定的映射关系。

以图1所示的用户使用虚拟现实设备1000播放虚拟现实场景为例，用户在第一时刻t1的头部姿态基本为平视姿态，虚拟现实设备1000可以根据用户在第一时刻t1的头部姿态，确定用户在第一时刻t1的视野范围，进而绘制所播放虚拟现实场景在第一时刻t1的场景画面进行显示刷新。继续参见图1，在第一时刻t1后的第二时刻t2，用户的头部姿态由平视姿态调整为仰视姿态，此时，虚拟现实设备1000需要根据用户在第二时刻t2的头部姿态，确定用户在第二时刻t2的视野范围，进而绘制所播放虚拟现实场景在第二时刻t2的场景画面进行显示刷新。

在图1所示的应用场景中，由于虚拟现实设备1000在根据虚拟现实场景数据绘制所要显示的场景画面时，无论是场景数据传输，还是基于场景数据的场景画面绘制都需要消耗时间，所以，虚拟现实设备1000在追踪到用户在第一时刻t1或者第二时刻t2的头部姿态后进行相应场景画面的绘制及显示刷新，必然会导致所绘制场景画面的显示时刻相对该场景画面实际对应的第一时刻t1或者第二时刻t2有时间延迟，而较长的时间延迟会严重影响用户体验，因此，本公开实施例提出了一种基于用户的头部运动信息和眼睛运动信息，估计用户在预测时刻的头部姿态，进而根据预测到的头部姿态预先绘制相应的场景画面，以基本在该预测时刻显示相应场景画面的技术方案，进而减少对于场景画面显示的时间延迟。

图2示出了可用于实施本公开实施例的显示处理方法的虚拟现实设备1000的硬件结构示意图。

在一些实施例中，该虚拟现实设备1000可以是虚拟现实（Virtual Reality, VR）一体机，对于VR一体机，该虚拟现实设备1000也即为头戴设备，头戴设备集成了显示、处理等功能，在这些实施例中，本公开实施例的显示处理方法由头戴设备实施。

在另一些实施例中，该虚拟现实设备1000也可以包括头戴设备和主机，头戴设备与主机可以通过有线或者无线的方式通信连接，虚拟现实设备1000可以通过头戴设备处理场景视频，也可以通过主机处理场景视频，并由主机将处理得到的场景画面发送至头戴设备进行显示输出，在此不做限定。在这些实施例中，本公开实施例的显示处理方法可以由主机实施，也可以由头戴设备实施，在由主机实施的情况下，头戴设备可以将采集到的头部运动信息和眼睛运动信息发送至主机进行头部姿态预测和场景画面绘制处理，并接收主机绘制的场景画面进行显示。

如图2所示，该虚拟现实设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、眼动追踪装置1600、头动追踪装置1700、扬声器1800等等。

处理器1100用于执行计算机程序，该计算机程序可以采用比如x86、Arm 、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM（只读存储器）、RAM（随机存取存储器）、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口、网线接口等。通信装置1400例如能够进行有线或无线通信，通信装置1400可以包括至少一种短距离通信模块，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意模块，通信装置1400也可以包括远程通信模块，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意模块。显示装置1500例如是液晶显示屏等，显示装置1500位于头戴设备中。眼动追踪装置1600用于追踪用户在显示装置1500的屏幕上的注视位置，眼动追踪装置1600位于头戴设备中。头动追踪装置1700例如采用陀螺仪或者惯性测量单元（Inertial Measurement Unit，IMU）等，头动追踪装置1700位于头戴设备中。扬声器1800用于输出所播放虚拟现实场景的音频。

本实施例中，虚拟现实设备1000的存储器1200用于存储计算机程序，该计算机程序用于控制处理器1100进行操作，以控制虚拟现实设备1000实施根据本公开实施例的虚拟现实场景的显示处理方法等。技术人员可以根据本发明所公开方案设计计算机程序。计算机程序如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

图2示出了根据一些实施例的虚拟现实场景的显示处理方法的流程示意图。该方法由播放虚拟现实场景的虚拟现实设备实施，现以第一虚拟现实设备为虚拟现实设备1000为例，说明本实施例的显示处理方法。

如图2所示，本实施例的显示处理方法包括步骤S210～S250：

步骤S210，获取第一用户在使用第一虚拟现实设备的第一时间窗口内的头部运动信息和眼睛运动信息。

第一用户在通过第一虚拟现实设备1000播放任意虚拟现实场景时，需要根据360度的场景数据绘制与第一用户的视野范围，也即头部姿态，相匹配的场景画面进行显示，以使得第一用户在所播放虚拟现实场景中获得沉浸式体验。

为了进行场景画面的绘制，第一虚拟现实设备1000获取第一用户在第一时间窗口（t-△t1，t）的头部运动信息和眼睛运动信息，以通过第一用户在第一时间窗口（t-△t1，t）的头部运动信息和眼睛运动信息，预测第一用户在t时刻后的（t+△t2）时刻（也即预测时刻）的头部姿态信息，以根据预测到的头部姿态信息预先进行场景画面的绘制，进而减少甚至消除场景画面的显示延迟。第一时间窗口（t-△t1，t）中，t时刻为播放过程中的某一时刻，△t1表示第一时间窗口的长度，而（t+△t2）中，△t2表示预测时长，△t1和△t2可以根据需要设置，预测精度会随着△t2的增大而降低。例如，t时刻为当前时刻，第一虚拟现实设备1000根据当前时刻以前的△t1长度内的头部运动信息和眼睛运动信息，预测第一用户在未来第（t+△t2）时刻的头部姿态信息。

第一时间窗口的长度△t1可以在大于或者等于0.5秒、且小于或者等于2秒的范围内选择设置，例如，设置△t1为1秒，以在获得符合要求的预测精度的前提下，减小预测的数据处理量。

预测时长△t2可以综合考虑预测精度、预测耗时及画面绘制耗时等因素进行设置。在实际应用中，预测时长△t2可以为短至0.5秒，也可以长至5秒等，在此不做限定。

本实施例中，头部运动信息包括第一用户在第一时间窗口内的多个采样时刻的第一头部姿态信息，即，头部运动信息为关于第一头部姿态信息的第一时间序列。第一时间窗口内的多个采样时刻可以根据虚拟现实设备对于头部姿态信息的采样频率及起始采样时刻确定，例如采样频率为100 Hz，第一时间窗口的长度△t1为1秒，则第一时间窗口内会产生100个采样点，每一采样点对应一个采样时刻，设第一时间窗口内的第i个采样点对应采样时刻ti，其中，ti大于或者等于（t-△t1），且小于或者等于t。

第一用户在采样时刻ti的第一头部姿态信息可以由第一用户在采样时刻ti的头部欧拉角

表示，其中，ti大于或者等于（t-△t1），且小于或者等于t，

代表采样时刻ti的头部章动角、

代表采样时刻ti的头部旋进角、

代表采样时刻ti 的头部自转角，第一用户在第一时间窗口内的头部运动信息可以表示为

。该第一头部姿态信息可以根据第一虚拟现实设备配置的头动跟踪装置（例如陀螺仪或者IMU等）采集的数据获得。

本实施例中，眼睛运动信息包括第一用户在以上多个采样时刻注视第一虚拟现实设备的屏幕的注视位置信息，即，眼睛运动信息是关于注视位置信息的第二时间序列。在本实施例中，第一时间窗口内的每一采样时刻均具有对应的第一头部姿态信息和注视位置信息，这可以理解为，以上第一时间序列与第二时间序列具有相同的时间节点。

第一用户在采样时刻ti的注视位置信息可以表示为

，其中，

代表第一用户在采样时刻ti在屏幕宽度方向的注视位置坐标，

代表第一用户在采样时刻 ti在屏幕高度方向的注视位置坐标，第一用户在第一时间窗口内的眼部运动信息可以表示为

。例如，第一虚拟现实设备的屏幕左下角坐标为

，右上角坐标为

，则

。注视位置信息可以根据第一虚拟现实设备配置的任意类型的眼动追踪装置采集的数据获得。

本实施例中，第一虚拟现实设备1000可以按照相同的采样频率，同步采集第一头部姿态信息和注视位置信息，以在步骤S210能够根据第一用户在第一时间窗口内多个采样时刻中每一采样时刻的第一头部姿态信息和注视位置信息，获得第一用户在第一时间窗口的头部运动信息和眼睛运动信息。

步骤S220，从头部运动信息中提取第一用户的头部运动特征，及从眼睛运动信息中提取第一用户的眼睛运动特征。

头部运动信息反映了第一用户在第一时间窗口内的头部运动方向、头部运动速度等特征，因此，第一虚拟现实设备可以从头部运动信息中提取到第一用户的头部运动特征。第一虚拟现实设备可以通过卷积神经网络等网络结构，从头部运动信息中提取头部运动特征。

眼睛运动信息反映了第一用户在第一时间窗口的眼睛运动方向、眼睛运动速度等特征，因此，第一虚拟现实设备可以从眼睛运动信息中提取到第一用户的眼睛运动特征。第一虚拟现实设备可以通过卷积神经网络等网络结构，从眼睛运动信息中提取眼睛运动特征。

在一些实施例中，步骤S220中从头部运动信息中提取第一用户的头部运动特征可以包括：将头部运动信息输入至预置的第一特征提取模型，得到头部运动特征。

在这些实施例中，如图3所示，第一特征提取模型M1可以包括串联连接的第一卷积神经网络CNN1和第一时序网络TN1，其中，第一卷积神经网络CNN1接收头部运动信息

，第一时序网络TN1输出头部运动特征，即，第一卷积神经网络CNN1的输出为第一时序网络TN1的输入。第一特征提取模型M1可以通过第一卷积神经网络CNN1提取头部运动信息中的姿态特征，及通过第一时序网络TN1提取头部运动信息中的与时间相关的特征，该种特征提取方式有利于提高对头部姿态预测的准确性。

第一时序网络TN1可以采用双向门控循环单元（bidirectional gated recurrentunit，BiGRU）、门控循环单元（gated recurrent unit，GRU）、长短期记忆网络（long short-term memory，LSTM）、双向长短期记忆网络（bidirectionallong short-term memory，BiLSTM）等，在此不做限定。

在一些实施例中，参见图4所示，第一时序网络TN1采用BiGRU，在第一时序网络采用BiGRU的情况下，BiGRU分别输出第一个和最后一个时间步所对应的隐藏状态，用于进行用户姿态的预测。

如图4所示，第一卷积神经网络CNN1可以包括串联连接的三个第一网络单元，而每一第一网络单元可以包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

第一网络单元中每一层的尺寸可以根据需要设置。例如，第一网络单元的卷积层可以采用一维卷积，卷积核尺寸为3，卷积层具有16个输出通道。又例如，第一网络单元的激活函数层可以采用ReLU激活函数。再例如，第一网络单元的最大池化层可以采用尺寸为2的池化层，以对上层输出进行减半的降维处理。

在一些实施例中，步骤S220中从眼睛运动信息中提取第一用户的眼睛运动特征可以包括：将眼睛运动信息输入至预置的第二特征提取模型，得到眼睛运动特征。

在这些实施例中，如图3所示，第二特征提取模型M2可以包括串联连接的第二卷积神经网络CNN2和第二时序网络TN2，其中，第二卷积神经网络CNN2接收眼睛运动信息

，第二时序网络TN2输出眼睛运动特征，即，第二卷积神经网络CNN2 的输出为第二时序网络TN2的输入。第二特征提取模型M2可以通过第二卷积神经网络CNN2 提取眼睛运动信息中的空间位置特征，及通过第二时序网络TN2提取眼睛运动信息中的与时间相关的特征，该种特征提取方式有利于提高对头部姿态预测的准确性。

第二时序网络TN2可以采用双向门控循环单元（bidirectional gated recurrentunit，BiGRU）、门控循环单元（gated recurrent unit，GRU）、长短期记忆网络（long short-term memory，LSTM）、双向长短期记忆网络（bidirectionallong short-term memory，BiLSTM）等，在此不做限定。例如，第二时序网络TN2可以采用BiGRU，BiGRU分别输出第一个和最后一个时间步所对应的隐藏状态，用于进行用户姿态的预测。

第二卷积神经网络CNN2与第一卷积神经网络CNN1可以具有相同的网络结构，因此，第二卷积神经网络CNN2可以参见图4所示的第一卷积神经网络CNN1设置，在此不再赘述。在此，本领域技术人员应当清楚的是，第二卷积神经网络CNN2与第一卷积神经网络CNN1在具有相同网络结构的情况下，可以具有不同的模型参数，以提高在相应信息中提取所需特征的有效性。

在一些实施例中，第一虚拟现实设备可以基于具有相同网络结构的模型提取头部运动特征和眼睛运动特征，以对头部运动信息和眼睛运动信息进行一致的特征提取，进而提高基于所提取特征进行头部姿态预测的准确性，即，用于提取头部运动特征的如图3所示的第一特征提取模型M1与用于提取眼睛运动特征的如图3所示的第二特征提取模型M2可以具有相同的网络结构，例如，第二特征提取模型M2的第二卷积神经网络CNN2与第一特征提取模型M1的第一卷积神经网络CNN1可以具有相同的网络结构，但第一特征提取模型M1与第二特征提取模型M2可以具有不同的模型参数，具体的模型参数可以基于相同应用场景下的多个样本训练确定，以提高特征提取模型进行特征提取的有效性。

步骤S230，根据头部运动特征和眼睛运动特征，获得第一用户在预测时刻的第二头部姿态信息。

本实施例中，预测时刻（t+△t2）在第一时间窗口（t-△t1，t）的结束时刻t之后，预测时刻（t+△t2）与结束时刻t的时间差即为设定的预测时长△t2。

由于头部运动特征反映了头部姿态随时间变化的特征，而眼睛运动特征反映了眼睛注视位置随时间变化的特征，其中，眼睛注视位置随时间的变化与头部姿态的变化具有关联性，因此，根据对应第一时间窗口的眼睛运动特征和头部运动特征，能够得到第一用户在预测时刻的第二头部姿态信息，第二头部姿态信息可以表示为

。

本实施例中的头部运动特征也可以单独被用于预测第一用户在未来的头部姿态信息，但由于用于提取头部运动特征的头部运动信息存在较多的噪声，因此，在仅基于头部运动特征预测第一用户在未来的头部姿态信息时，预测效果会随着预测时长△t2的增加而显著下降，使得预测结果不够鲁棒，即，基于单一头部运动特征的头部姿态预测，只能在预测短期头部运动时具有较好的预测效果（例如，预测时长△t2小于或者等于1秒），然而，在虚拟现实场景中，由于场景数据的传输和绘制均是非常耗时的，预测时长△t2过短，将无法满足对于预先绘制的需求。因此，本实施例在头部运动特征的基础上结合了眼睛运动特征，来预测第一用户在未来的头部姿态信息，这有效提升了长期头部运动预测的准确性和头部运动预测的鲁棒性，本实施例中，在预测时长长达5秒时，也同样能够获得符合适用需求的准确的预测结果。

在一些实施例中，步骤S230中根据头部运动特征和眼睛运动特征，获得第一用户在预测时刻的第二头部姿态信息，可以包括：将头部运动特征和眼睛运动特征输入至预置的预测模型，得到用户在预测时刻的第二头部姿态信息。

该预测模型反映了第一时间窗口的运动特征与预测时刻的头部姿态信息间的映射关系，运动特征包括头部运动特征和眼睛运动特征。该预测模型的模型参数可以通过相同应用场景下的样本训练得到。

在一些实施例中，如图3所示，该预测模型M3可以包括串联连接的两个第二网络单元，每一第二网络单元包括顺次连接的全连接层、批归一化层、激活函数层和随机失活层。

第二网络单元的每一层可以根据预测需要进行设置，在此不做限定。例如，全连接层的神经元个数为64，通过全连接层来整合提取到的特征。又例如，激活函数层采用ReLU激活函数。再例如，随机失活层的失活率（dropout rate）设为0.5，该随机失活层用以提升网络的泛化能力。

步骤S240，根据第二头部姿态信息，绘制虚拟现实场景在预测时刻的场景画面。

在步骤S230获得第一用户在预测时刻的第二头部姿态信息后，便可根据第二头部姿态信息，绘制虚拟现实场景在预测时刻的场景画面，以使得所绘制的场景画面与第二头部姿态信息相匹配。

该虚拟现实场景的场景数据可以保存在第一虚拟现实设备本地的数据，也可以是需要以流媒体等方式从视频源设备（例如服务器）在线下载的数据，在此不做限定。

在场景数据需要在线下载的情况下，第一虚拟现实设备可以根据第二头部姿态信息，从视频源设备获取虚拟现实场景的对应于预测时刻和第二头部姿态信息的场景数据，并根据获取到的场景数据，绘制虚拟现实场景在预测时刻的场景画面。这可以有效减少数据传输量，进而减少在数据传输上的耗时。

步骤S250，在预测时刻，通过第一虚拟现实设备的屏幕显示场景画面。

在步骤S240中预先绘制出虚拟现实场景在预测时刻的场景画面后，便可在预测时刻到来时，通过第一虚拟现实设备的屏幕显示场景画面，以使得第一虚拟现实设备对于场景画面的显示基本没有延迟，进而为用户提供更好的沉浸式体验。

根据以上步骤S210至步骤S250可知，在本实施例的虚拟现实场景的显示处理方法中，根据第一用户在第一时间窗口内的头部运动信息和眼睛运动信息，可以得到用户在未来的预测时刻的第二头部姿态信息，进而可以根据该第二头部姿态信息，预先绘制虚拟现实场景在该预测时刻的场景画面，这样，便可在预测时刻显示该场景画面，以解决场景画面的显示延迟问题。

另一方面，本实施例的显示处理方法在预测第二头部姿态信息时，不仅考虑了用户在第一时间窗口内的头部运动信息，还考虑了用户在第一时间窗口内的眼睛运动信息，由于眼睛运动信息与头部运动信息具有一定的关联性，因此，结合头部运动信息和眼睛运动信息进行头部姿态预测的预测方式，可以有效提高对于头部姿态预测的准确性，且在进行长期头部运动预测时，也能够获得较好的预测效果，提高了头部运动预测的鲁棒性。

在一些实施例中，以上步骤S220中从头部运动信息中提取第一用户的头部运动特征，及从眼睛运动信息中提取第一用户的眼睛运动特征，包括：将头部运动信息输入至预置的第一特征提取模型，得到头部运动特征；及将眼睛运动信息输入至预置的第二特征提取模型，得到眼睛运动特征。以上步骤S230中根据头部运动特征和眼睛运动特征，获得第一用户在预测时刻的第二头部姿态信息，包括：将头部运动特征和眼睛运动特征输入至预置的预测模型，得到第一用户在预测时刻的第二头部姿态信息。

如图3所示，将头部运动信息

和眼睛运动信息

分别输入至各自对应的第一特征提取模型M1和第二特征提取模型M2，预测模型M3可以输出第二头部姿态信息

。

第一特征提取模型M1的模型参数、第二特征提取模型M2的模型参数和预测模型M3的模型参数可以由同一训练样本集同步训练得到，即，将第一特征提取模型M1、第二特征提取模型M2和预测模型M3作为一个整体模型，通过训练样本集训练该整体模型的模型参数，该整体模型的模型参数即包括第一特征提取模型M1的模型参数、第二特征提取模型M2的模型参数和预测模型M3的模型参数。

训练样本集中的每一训练样本包括样本数据和样本标签，样本数据包括第二用户在使用第二虚拟现实设备的第二时间窗口内的头部运动信息和眼睛运动信息，样本标签为第二用户在目标时刻的头部姿态信息，目标时刻与第二时间窗口的结束时刻的时间差就等于设定的预测时长△t2。

对于样本数据的收集，可以参照以上步骤S210中获取第一用户在第一时间窗口内的头部运动信息和眼睛运动信息的方式进行，其中，第二时间窗口的长度为△t1，采样频率等亦可进行相同的设置，以提高训练得到的整体模型的预测准确性，在此不再赘述。

对于训练样本集的收集，第二虚拟现实设备与第一虚拟现实设备可以是相同的设备，也可以是不同的设备，在此不做限定。

在本实施例中，可以有多位第二用户参与样本收集，多位第二用户可以包括第一用户，也可以不包括第一用户，在此不做限定。

在训练整体模型的模型参数中，损失函数和各超参数等可以根据需要设置，在此不做限定。例如，在通过训练样本集训练整体模型时，可以采用L2损失函数，并使用权重衰减（weight decay）设置为

的Adam优化器来最小化训练损失。又例如，初始学习率可以设置为0.01，并采用指数衰减的策略每隔一个轮次（epoch）将学习率衰减为原来的 0.95倍。再例如，以256的批大小（batch size）将整体模型总共训练100个轮次等。

本公开实施例还提供了一种用于实施以上显示处理方法的虚拟现实设备。如图5所示，该虚拟现实设备500包括存储器520和处理器510，存储器520用于存储计算机程序，处理器510用于在计算机程序的控制下，执行根据本公开任意实施例的显示处理方法。

该虚拟现实设备可以为仅具有头戴装置的VR一体机，也可以包括头戴装置和主机，在此不做限定。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种虚拟现实场景的显示处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二头部姿态信息，绘制所述虚拟现实场景在所述预测时刻的场景画面，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述头部运动信息中提取所述第一用户的头部运动特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一卷积神经网络包括串联连接的三个第一网络单元，每一所述第一网络单元包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

5.根据权利要求3所述的方法，其特征在于，所述第一时序网络为双向门控循环单元。

6.根据权利要求1所述的方法，其特征在于，所述从所述眼睛运动信息中提取所述第一用户的眼睛运动特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述头部运动特征和所述眼睛运动特征，获得所述第一用户在预测时刻的第二头部姿态信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述预测模型包括串联连接的两个第二网络单元，每一所述第二网络单元包括顺次连接的全连接层、批归一化层、激活函数层和随机失活层。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述从所述头部运动信息中提取所述第一用户的头部运动特征，及从所述眼睛运动信息中提取所述第一用户的眼睛运动特征，包括：

10.一种虚拟现实设备，其特征在于，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于在所述计算机程序的控制下，执行根据权利要求1至9中任一项所述的显示处理方法。