CN115061576B

CN115061576B - 用于虚拟现实场景的注视位置预测方法及虚拟现实设备

Info

Publication number: CN115061576B
Application number: CN202210957022.1A
Authority: CN
Inventors: 张幸乾; 李芳慧; 张桐源
Original assignee: Beijing Weishiwei Information Technology Co ltd
Current assignee: Beijing Weishiwei Information Technology Co ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2023-04-07
Anticipated expiration: 2042-08-10
Also published as: CN115061576A

Abstract

本公开涉及一种用于虚拟现实场景的注视位置预测方法及虚拟现实设备，该方法包括：获取虚拟现实设备所提供虚拟现实场景对应的第一任务类型；获取用户在使用虚拟现实设备的第一时间窗口内的第一头部运动信息和第一眼睛运动信息，以及虚拟现实场景在第一时间窗口内的第一场景图像的显著性信息；将第一头部运动信息、第一眼睛运动信息和第一场景图像的显著性信息输入至对应于第一任务类型的第一注视预测模型，得到用户在预测时刻在所述屏幕上的注视位置信息；其中，不同任务类型对应不同的注视预测模型，预测时刻为在第一时间窗口之后的时刻。

Description

用于虚拟现实场景的注视位置预测方法及虚拟现实设备

技术领域

本发明涉及计算机处理技术领域，更具体地，涉及一种用于虚拟现实场景的注视位置预测方法及虚拟现实设备。

背景技术

相比于传统的二维显示设备，虚拟现实设备提供的虚拟现实场景具有更强的沉浸感，它使得用户可以自由地探索虚拟三维世界。近年来，随着眼动追踪技术的日益成熟，许多虚拟现实设备都集成了眼动追踪设备，这使得开发者可以轻易地获取用户在虚拟现实场景中的眼睛运动信息。然而，眼动追踪设备只能提供用户在当前时刻以及过去时刻的眼睛运动数据，而不能直接预测用户在未来时刻的眼睛运动。用户在未来时刻的眼睛运动信息具有很多重要的应用，包括视觉注意增强、注视点渲染的预计算、动态事件触发、人人交互、以及人机交互等，因此，就出现了用于预测用户注视位置的注视预测算法。虚拟现实设备目前采用的注视预测算法只针对一种特定的任务类型有效，因此，在其提供的虚拟现实场景改变任务类型时，预测结果的准确性将明显下降，这导致虚拟现实设备只能在特定任务类型下提供基于注视预测的各种应用，因此，有必要提供一种有利于提高虚拟现实设备在多种任务场景下进行注视位置预测的准确性的技术方案，进而使得虚拟现实设备能够在多种任务场景下提供基于注视预测的应用。

发明内容

本公开实施例的一个目的是提供一种有利于提高虚拟现实设备在多种任务场景下进行注视位置预测的准确性的技术方案。

根据本公开的第一方面，提供了一种虚拟现实场景的注视位置预测方法，该方法包括：

获取虚拟现实设备所提供虚拟现实场景对应的第一任务类型；其中，所述第一任务类型为任务类型集合中的一任务类型，所述任务类型集合包括至少两种任务类型，所述任务类型集合中的不同任务类型对应不同的注视预测模型；

获取用户在使用所述虚拟现实设备的第一时间窗口内的第一头部运动信息和第一眼睛运动信息，以及所述虚拟现实场景在所述第一时间窗口内的第一场景图像的显著性信息；其中，所述第一头部运动信息包括所述用户在所述第一时间窗口内的多个第一采样时刻的头部运动速度，所述第一眼睛运动信息包括所述用户在所述多个第一采样时刻注视所述虚拟现实设备的屏幕的注视位置信息；

将所述第一头部运动信息、所述第一眼睛运动信息和所述第一场景图像的显著性信息输入至对应于所述第一任务类型的第一注视预测模型，得到所述用户在预测时刻在所述屏幕上的注视位置信息；其中，所述预测时刻在所述第一时间窗口的结束时刻之后，所述预测时刻与所述结束时刻的时间差等于设定的预测时长。

可选地，所述第一注视预测模型包括用于提取头部运动特征的第一特征提取模型、用于提取眼睛运动特征的第二特征提取模型、用于提取注视内容特征的第三特征提取模型、及预测执行模型，所述第一特征提取模型、第二特征提取模型和第三特征提取模型输出的特征输入至所述预测执行模型，所述预测执行模型根据输入的特征，输出对应于所述预测时长的注视位置信息；

所述将所述第一头部运动信息、所述第一眼睛运动信息和所述第一场景图像的显著性信息输入至对应于所述第一任务类型的第一注视预测模型，包括：

将所述第一头部运动信息输入至所述第一特征提取模型，将所述第一眼睛运动信息输入至所述第二特征提取模型，及将所述第一场景图像的显著性信息输入至所述第三特征提取模型。

可选地，所述第一特征提取模型、所述第二特征提取模型和所述第三特征提取模型中的每一特征提取模型包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

可选地，所述预测执行模型包括串联连接的两个第一网络单元，每一所述第一网络单元包括顺次连接的全连接层、批归一化层、激活函数层和随机失活层。

可选地，所述获取虚拟现实设备所提供虚拟现实场景对应的第一任务类型之前，所述方法还包括：

获取所述用户在使用虚拟现实设备的第二时间窗口内的第二头部运动信息和第二眼睛运动信息，及所述虚拟现实场景在所述第二时间窗口内的第二场景图像的显著性信息；其中，所述第二头部运动信息包括所述用户在所述第二时间窗口内的多个第二采样时刻的头部运动速度，所述第二眼睛运动信息包括所述用户在所述多个第二采样时刻注视所述虚拟现实设备的屏幕的注视位置信息；

从所述第二头部运动信息中提取所述用户的第二头部运动特征，从所述第二眼睛运动信息中提取所述用户的第二眼睛运动特征，及从所述第二场景图像的显著性信息中提取所述用户的第二注视内容特征；

根据所述第二头部运动特征、所述第二眼睛运动特征和所述第二注视内容特征，获得所述虚拟现实场景对应的第一任务类型。

可选地，所述第二时间窗口的窗口长度大于所述第一时间窗口的窗口长度。

可选地，所述从所述第二头部运动信息中提取所述用户的第二头部运动特征，从所述第二眼睛运动信息中提取所述用户的第二眼睛运动特征，及从所述第二场景图像的显著性信息中提取所述用户的第二注视内容特征，包括：

将所述第二头部运动信息输入至预置的第四特征提取模型，得到所述第二头部运动特征；

将所述第二眼睛运动信息输入至预置的第五特征提取模型，得到所述第二眼睛运动特征；

将所述第二场景图像的显著性信息输入至预置的第六特征提取模型，得到所述第二注视内容特征；

其中，所述第四特征提取模型、所述第五特征提取模型和所述第六特征提取模型中的每一特征提取模型包括顺次连接的卷积神经网络和时序网络。

可选地，所述时序网络为双向门控循环单元。

可选地，所述根据所述第二头部运动特征、所述第二眼睛运动特征和所述第二注视内容特征，获得所述虚拟现实场景对应的第一任务类型，包括：

将所述第二头部运动特征、所述第二眼睛运动特征和所述第二注视内容特征输入至预置的任务识别模型，得到所述虚拟现实场景对应的第一任务类型；其中，所述任务识别模型包括顺次连接的两个第二网络单元和一个softmax网络层，每一所述第二网络单元包括顺次连接的全连接层、批归一化层、激活函数层和随机失活层。

根据本公开的第二方面，还提供了一种虚拟现实设备，该虚拟现实设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于在所述计算机程序的控制下，执行根据本公开的第一方面所述的注视位置预测方法。

本公开实施例的一个有益效果在于，在本公开实施例的注视位置预测方法中，针对任务类型集合中的不同任务类型设置了不同的注视预测模型，这样，在用户使用虚拟现实设备时，虚拟现实设备便可以通过确定所提供虚拟现实场景对应的第一任务类型，选择相适配的第一注视预测模型，对用户在屏幕上的注视位置进行预测。在此，由于虚拟现实设备不再基于固定的注视预测算法对用户在屏幕上的注视位置进行预测，而是先确定任务类型，再基于确定的任务类型，选择对应的注视预测模型进行关于注视位置的预测，这使得虚拟现实设备在各种任务类型下都能够获得准确的预测结果，从而在虚拟现实场景进行各种任务类型的切换时进行稳定输出，提高基于预测得到的注视位置信息执行后续的设定操作的准确性。另外，本公开实施例的方法结合头部运动信息、眼睛运动信息和场景图像的显著性信息进行注视位置的预测，能够提高对于注视位置预测的准确性和鲁棒性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是本公开实施例的注视位置预测方法的应用场景示意图；

图2是根据一些实施例的注视位置预测方法的流程示意图；

图3是根据另一些实施例的注视位置预测方法的流程示意图；

图4是根据一些实施例的第一注视预测模型的模型结构示意图；

图5是根据一些实施例的进行任务类型识别的模型结构示意图；

图6是根据一些实施例的卷积神经网络的网络结构示意图；

图7是根据一些实施例的虚拟现实设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人物已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应设备所有者给予授权的情况下进行的。

本公开实施例涉及用户在使用虚拟现实设备时，对用户在设备屏幕上的注视位置进行预测的技术方案。通过预测用户在屏幕上的注视位置，可以基于预测得到的注视位置进行视觉注意增强、注视点渲染的预计算、动态事件触发、人人交互或者人机交互等设定操作。例如，在注视点渲染的预计算中，可以基于预测得到的对应预测时刻的注视位置，预先进行对应于预测时刻的场景画面的渲染，以在预测时刻到来时显示该场景画面，进而减少甚至消除显示延迟，在此，渲染场景画面时，以注视位置为中心的中心区域可以采用较高绘制精度进行画面绘制，而周边区域则可以采用相对较低的绘制精度进行画面绘制，进而在不影响用户对于虚拟现实场景的沉浸感和体验感的前提下提高绘制效率等。又例如，注视位置预测也可以应用在虚拟现实内容的设计方面，这可以通过分析用户在虚拟现实环境中注视位置分布来对虚拟现实场景中三维物体的布局进行优化，使其更符合用户的视觉注意分布等。

经发现，用户视觉注意与用户所执行任务的任务类型高度相关，例如，用户在分别执行自由观察任务和视觉搜索任务时，具有不同的视觉注意表现，同一注视预测算法无法在用户执行不同任务中均获得较好的预测效果，因此，在虚拟现实设备被设置为通过适配于任务A的注视预测算法进行注视位置预测时，如果虚拟现实设备的虚拟现实场景由任务A切换为任务B，则虚拟现实设备对注视位置的预测结果的准确性将明显下降，这导致虚拟现实设备只能在特定任务类型下提供基于注视预测的各种应用，进而限制了注视预测的应用范围。

在实际应用中，由于虚拟现实设备所提供的虚拟现实场景可能会在不同任务之间进行切换，在该种情况下，基于固定的注视预测算法进行注视位置预测的方案显然无法很好地适用。

为了提高虚拟现实设备在不同任务场景下进行注视位置预测的能力，本公开实施例提出了区分不同任务类型设置不同的注视预测模型，并在实际应用中定时或者根据事件触发获取虚拟现实场景对应的任务类型，然后基于对应于所获取任务类型的注视预测模型进行注视位置预测的技术方案，以提高虚拟现实设备在多种任务场景下进行注视位置预测的准确性，使得虚拟现实设备在注视位置预测上对于任务场景的适用范围得以扩展。

图2示出了可用于实施本公开实施例的注视位置预测方法的虚拟现实设备1000的硬件结构示意图。

在一些实施例中，该虚拟现实设备1000可以是虚拟现实（Virtual Reality, VR）一体机，对于VR一体机，该虚拟现实设备1000也即为头戴设备，头戴设备集成了显示、处理等功能，在这些实施例中，本公开实施例的注视位置预测方法由头戴设备实施。

在另一些实施例中，该虚拟现实设备1000也可以包括头戴设备和主机，头戴设备与主机可以通过有线或者无线的方式通信连接，虚拟现实设备1000可以通过头戴设备进行注视位置预测，也可以通过主机进行注视位置预测，并由主机将预测结果发送至头戴设备执行设定操作，在此不做限定。在这些实施例中，本公开实施例的注视位置预测方法可以由主机实施，也可以由头戴设备实施，还可以由二者共同实施，在此不做限定。

如图2所示，该虚拟现实设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、眼动追踪装置1600、头动追踪装置1700、扬声器1800等等。

处理器1100用于执行计算机程序，该计算机程序可以采用比如x86、Arm 、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM（只读存储器）、RAM（随机存取存储器）、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口、网线接口等。通信装置1400例如能够进行有线或无线通信，通信装置1400可以包括至少一种短距离通信模块，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意模块，通信装置1400也可以包括远程通信模块，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意模块。显示装置1500例如是液晶显示屏等，显示装置1500位于头戴设备中。眼动追踪装置1600用于追踪用户在显示装置1500的屏幕上的注视位置，眼动追踪装置1600位于头戴设备中。头动追踪装置1700例如采用陀螺仪或者惯性测量单元（Inertial Measurement Unit，IMU）等，头动追踪装置1700位于头戴设备中。扬声器1800用于输出所播放虚拟现实场景的音频。

本实施例中，虚拟现实设备1000的存储器1200用于存储计算机程序，该计算机程序用于控制处理器1100进行操作，以控制虚拟现实设备1000实施根据本公开实施例的虚拟现实场景的注视位置预测方法等。技术人员可以根据本发明所公开方案设计计算机程序。计算机程序如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

图2示出了根据一些实施例的虚拟现实场景的注视位置预测方法的流程示意图。该方法由播放虚拟现实场景的虚拟现实设备实施，现以图1所示的虚拟现实设备1000作为实施主体为例，说明本实施例的注视位置预测方法。

如图2所示，本实施例的注视位置预测方法包括步骤S210～S230：

步骤S210，获取虚拟现实设备所提供虚拟现实场景对应的第一任务类型。

虚拟现实设备1000可以被设置为以设定频率定时执行步骤S210，以获得虚拟现实场景在执行步骤S210时对应的第一任务类型。虚拟现实设备1000也可以被设置为根据设定事件的触发执行步骤S210，以获得虚拟现实场景在执行步骤S210时对应的第一任务类型，该设定事件例如包括接收到任务变更消息等，在此不做限定。

本实施例中，虚拟现实设备1000可以存储任务类型列表，该任务类型列表可以看作任务类型集合，该任务类型集合包括至少两种任务类型。该任务类型集合例如包括自由观察任务、视觉搜索任务、物体追踪任务中的至少两种任务类型，其中，自由观察任务指未设定观察对象的任务，视觉搜索任务指设定搜索目标的任务，物体追踪任务指设定具体追踪对象的任务，用户在不同任务中会有不同的视觉注意表现。第一任务类型即为任务类型集合中的一任务类型，例如，该第一任务类型可以为自由观察任务、视觉搜索任务或者物体追踪任务。

本领域技术人员应当清楚的是，步骤S210～S230仅说明了虚拟现实设备1000执行本实施例的注视位置预测方法的一个循环，用户在使用虚拟现实设备1000的过程中，虚拟现实设备1000可以定时或者根据设定事件的触发，多次循环执行步骤S210～S230，而步骤S210中获得的第一任务类型，即为虚拟现实场景在虚拟现实设备1000执行步骤S210时对应的任务类型，即，虚拟现实设备在不同时间点执行步骤S210时，获取到的第一任务类型可能相同，也可能不同。

本实施例中，任务类型集合中的不同任务类型对应不同的注视预测模型。虚拟现实设备可以存储反映各任务类型与各注视预测模型间映射关系的映射数据，以在得到第一任务类型后，根据该映射数据，确定对应于第一任务类型的第一注视预测模型，进而在第一任务类型下，通过第一注视预测模型对用户在虚拟现实设备的屏幕上的注视位置进行预测。

步骤S220，获取用户在使用虚拟现实设备的第一时间窗口内的第一头部运动信息和第一眼睛运动信息，以及虚拟现实场景在该第一时间窗口内的第一场景图像的显著性信息。

本实施例中，第一头部运动信息包括用户在第一时间窗口内的多个第一采样时刻的头部运动速度。第一眼睛运动信息包括用户在此多个第一采样时刻注视虚拟现实设备的屏幕的注视位置信息。

经研究，用户在屏幕上的注视位置与用户的头部运动、眼睛运动和屏幕显示的场景内容均有关，且头部运动和眼睛运动亦与屏幕显示的场景内容中的显著性信息有关。因此，为了准确预测用户在屏幕上的注视位置，虚拟现实设备在步骤S220获取用户在第一时间窗口内（t1-△t1，t1）的第一头部运动信息、第一眼睛运动信息，以及虚拟现实场景在第一时间窗口（t1-△t1，t1）内的第一场景图像的显著性信息，以将这些信息输入至第一注视预测模型，得到用户在未来的预测时刻（t1+△t2）的注视位置信息。在第一时间窗口（t1-△t1，t1）中，t1时刻为虚拟现实场景播放过程中的某一时刻，△t1表示第一时间窗口的窗口长度，而（t1+△t2）中，△t2表示预测时长，△t1和△t2可以根据需要设置，预测精度会随着△t2的增大而降低。

由于用户在屏幕上的注视位置通常会频繁发生变化，因此，第一时间窗口的窗口长度△t1和预测时长△t2可以选取较小的数值，以保证预测处理的有效性。其中，第一时间窗口的窗口长度△t1可以在大于或者等于0.2秒、且小于或者等于1秒的范围内选择设置，例如，设置△t1为0.4秒。预测时长△t2也可以在0.2秒至1秒的范围内设置，例如设置为0.5秒等。

本实施例中，第一头部运动信息包括第一用户在第一时间窗口（t1-△t1，t1）内的多个第一采样时刻的头部运动速度，即，第一头部运动信息为关于头部运动速度的第一时间序列。该头部运动速度可以根据头动跟踪装置采集到的头部姿态信息确定，因此，第一时间窗口内的多个第一采样时刻可以根据虚拟现实设备对于头部姿态信息的采样频率及起始采样时刻确定，例如采样频率为100 Hz，第一时间窗口的窗口长度△t1为0.4秒，则第一时间窗口内会产生40个采样点，每一采样点对应一个采样时刻，设第一时间窗口内的第i个采样点对应采样时刻ti，其中，ti大于或者等于（t1-△t1），且小于或者等于t1。

第一用户在采样时刻ti的头部运动速度可以表示为表示，其中，ti大于或者等于（t1-△t1），且小于或者等于t1，代表第一用户在采样时刻ti左右运动的运动速度，代表第一用户在采样时刻ti上下运动的运动速度，第一用户在第一时间窗口内的第一头部运动信息可以表示为。

本实施例中，第一眼睛运动信息包括第一用户在以上多个第一采样时刻注视虚拟现实设备1000的屏幕的注视位置信息，即，第一眼睛运动信息是关于注视位置信息的第二时间序列，其中，在采样率一定的情况下，第一眼睛运动信息中相邻注视位置信息的差值反映了眼睛运动速度，因此，该第一眼睛运动信息不仅包含注视位置信息，还包含眼睛运动速度的信息。在本实施例中，第一时间窗口（t1-△t1，t1）内的每一第一采样时刻均具有对应的头部运动速度和注视位置信息，这可以理解为，以上第一时间序列与第二时间序列具有相同的时间节点。

第一用户在采样时刻ti的注视位置信息可以表示为，其中，代表第一用户在采样时刻ti在屏幕宽度方向的注视位置坐标，代表第一用户在采样时刻ti在屏幕高度方向的注视位置坐标，第一用户在第一时间窗口内的第一眼部运动信息可以表示为。例如，第一虚拟现实设备的屏幕左下角坐标为（0,0），右上角坐标为（1,1），则。注视位置信息可以根据第一虚拟现实设备配置的任意类型的眼动追踪装置采集的数据获得。

本实施例中，第一虚拟现实设备1000可以按照相同的采样频率，同步采集头部运动速度和注视位置信息，以在步骤S220能够根据第一用户在第一时间窗口内多个第一采样时刻中每一采样时刻的头部运动速度和注视位置信息，获得第一用户在第一时间窗口的第一头部运动信息和第一眼睛运动信息。

本实施例中，第一场景图像为虚拟现实场景在第一时间窗口内的场景图像。在应用中，虚拟现实设备可以一定的采样频率采集虚拟现实场景的场景图像，并通过任意的显著性预测算法，例如在显著性预测上表现非常优异的SAM-ResNet算法，计算采样得到的场景图像的显著性图，由于场景图像的显著性图体现了对应场景图像的显著性信息，因此，可以将场景图像的显著性图作为对应场景图像的显著性信息。这样，便可获得虚拟现实场景在第一时间窗口（t1-△t1，t1）内的第一场景图像的显著性信息。

可见，虚拟现实设备1000对于场景图像的采样频率，决定了其在第一时间窗口（t1-△t1，t1）内能够获得的第一场景图像的数量。由于显著性图的计算非常耗时，因此，可以通过较低的采样频率采集虚拟现实场景的场景图像，以在满足预测准确性要求的情况下，控制所采集场景图像的数量。例如，虚拟现实设备被设置为每隔0.2秒对虚拟现实场景进行采样，在第一时间窗口的窗口长度△t1为0.4秒的情况下，在该第一时间窗口（t1-△t1，t1）内将采样得到两张第一场景图像，对应地得到两张显著性图。由于虚拟现实设备对于场景图像的采集频率可以不同于对于眼动和头动信息的采集频率，因此，第一场景图像的显著性信息可以表示为，tj大于或者等于（t1-△t1），且小于或者等于t1，tj为在第一时间窗口内对于第一场景图像的采样时刻。

步骤S230，将通过步骤S220获取到的第一头部运动信息、第一眼睛运动信息和第一场景图像的显著性信息输入至对应于第一任务类型的第一注视预测模型，得到用户在预测时刻（t1+△t2）在屏幕上的注视位置信息。

本实施例中，预测时刻（t1+△t2）在第一时间窗口（t1-△t1，t1）的结束时刻t1之后，预测时刻与结束时刻的时间差即为设定的预测时长△t2。

该第一注视预测模型可以是神经网络模型，第一注视预测模型的模型参数可以通过对应第一任务类型的第一训练样本集训练得到。

本实施例中，对应不同任务类型的不同注视预测模型的模型参数，分别通过不同的训练样本集训练得到，多个任务类型、多个注视预测模型和多个训练样本集一一对应。

对应第一任务类型的第一训练样本集中每一训练样本包括对应第一任务类型的样本数据和样本标签，样本数据可参照步骤S220进行采集，包括用户在使用虚拟现实设备的第一采样时间窗口内的头部运动信息和眼睛运动信息，以及对应第一任务类型的场景图像的显著性信息，样本标签为该用户在预测时刻（t1+△t2）时的注视位置信息；其中，第一采样时间窗口的窗口长度可以与第一时间窗口的窗口长度相同。

训练样本收集中使用的虚拟现实设备与步骤S210中的虚拟现实设备可以是相同的设备，也可以是不同的设备，在此不做限定。参与训练样本收集的用户可以包括步骤S210中的用户，也可以不包括步骤S210中的用户，在此不做限定。

在训练任意的注视预测模型时，损失函数和各超参数等可以根据需要设置，在此不做限定。例如，在通过第一训练样本集训练第一注视预测模型时，可以采用L2损失函数，并使用权重衰减（weight decay）设置为1×10^-4的Adam优化器来最小化训练损失。又例如，初始学习率可以设置为0.01，并采用指数衰减的策略每隔一个轮次（epoch）将学习率衰减为原来的0.95倍。再例如，以256的批大小（batch size）将整体模型总共训练100个轮次等。

在一些实施例中，第一注视预测模型可以通过不同的特征提取模型分别对第一头部运动信息、第一眼睛运动信息和第一场景图像的显著性信息提取相应的特征，以提高特征提取的准确性和有效性。在这些实施例中，如图4所示，该第一注视预测模型400可以包括用于提取头部运动特征的第一特征提取模型M1、用于提取眼睛运动特征的第二特征提取模型M2、用于提取注视内容特征的第三特征提取模型M3、及预测执行模型PM，第一特征提取模型M1、第二特征提取模型M2和第三特征提取模型M3输出的特征输入至预测执行模型PM，预测执行模型PM根据输入的特征，输出对应于预测时长△t2的注视位置信息。

在这些实施例中，步骤S230中将获取到的第一头部运动信息、第一眼睛运动信息和所述第一场景图像的显著性信息输入至第一注视预测模型，可以包括：将第一头部运动信息输入至第一特征提取模型，将第一眼睛运动信息输入至第二特征提取模型，及将第一场景图像的显著性信息输入至所述第三特征提取模型。这样，第一注视预测模型4000便可通过预测执行模型输出用户在预测时刻（t1+△t2）在屏幕上的注视位置信息。

在一些实施例中，第一特征提取模型M1、第二特征提取模型M2和第三特征提取模型M3中的至少一个特征提取模型可以包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

例如，如图4所示，第一特征提取模型M1可以包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

第一特征提取模型M1中每一层的尺寸等可以根据需要设置。例如，卷积层可以是卷积核尺寸为3，具有64个输出通道的一维卷积层。又例如，激活函数层可以采用ReLU激活函数。再例如，最大池化层例如可以采用卷积核尺寸为2的池化层，以对上层输出进行减半的降维处理等。

又例如，如图4所示，第二特征提取模型M2也可以包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

第二特征提取模型M2每一层的尺寸等可以根据需要设置。例如，卷积层可以是卷积核尺寸为3，具有32个输出通道的一维卷积层。又例如，激活函数层可以采用ReLU激活函数。再例如，最大池化层例如可以采用卷积核尺寸为2的池化层，以对上层输出进行减半的降维处理等。

再例如，如图4所示，第三特征提取模型M3可以包括顺次连接的卷积层、批归一化层、激活函数层、最大池化层和随机失活层（dropout layer）。

第三特征提取模型M3每一层的尺寸可以根据需要设置。例如，卷积层是卷积核尺寸为3，具有八个输出通道的一维卷积层。激活函数层可以采用ReLU激活函数。再例如，最大池化层例如可以采用卷积核尺寸为2的池化层，以对上层输出进行减半的降维处理等。随机失活层的失活率（dropout rate）为0.5，以通过随机失活层来提高网络的泛化能力。

在一些实施例中，如图4所示，预测执行模型PM可以包括串联连接的两个第一网络单元，每一第一网络单元可以包括顺次连接的全连接层、批归一化层、激活函数层和随机失活层。

第一网络单元的每一层可以根据预测需要进行设置，在此不做限定。例如，全连接层的神经元个数为64，通过全连接层来整合提取到的特征。又例如，激活函数层采用ReLU激活函数。再例如，随机失活层的失活率（dropout rate）设为0.5，该随机失活层用以提升网络的泛化能力等。

根据以上步骤S210～S230可知，在本实施例的注视位置预测方法中，虚拟现实设备1000区分不同任务类型，设置对应的注视预测模型。在应用中，虚拟现实设备会先获取虚拟现实场景对应的第一任务类型，并通过对应于第一任务类型的第一注视预测模型，对用户在屏幕上的注视位置进行预测，这使得虚拟现实设备在不同任务类型下都能获得准确的预测结果，进而提高基于预测得到的注视位置信息执行后续的设定操作的有效性。

另一方面，在本实施例的注视位置预测方法中，采用用户的头部运动信息、眼睛运动信息和场景图像的显著性信息进行注视位置的预测，这些信息能够相互补充，进而提高对于注视位置预测的准确性和鲁棒性。

根据以上步骤S210至步骤S230可知，虚拟现实设备1000在实施注视位置预测方法时，首先需要在步骤S210获取虚拟现实设备所提供虚拟现实场景对应的第一任务类型，这样才能确定对应第一任务类型的第一注视预测模型完成对于注视位置的预测。

在一些实施例中，虚拟现实场景可以对其所对应的任务类型进行标定，在虚拟现实场景在不同时段对应不同任务类型的情况下，虚拟现实场景可以在每一任务的开始节点处标定相应的任务类型，即，虚拟现实场景的数据中可以具有关于任务类型的标定数据。在这些实施例中，虚拟现实设备在步骤S210中，可以从虚拟现实场景的数据中获取虚拟现实场景在执行步骤S210时对应的第一任务类型。

在另一些实施例中，虚拟现实场景对应的第一任务类型，也可以根据用户的头部运动信息、眼睛运动信息和场景图像等自动识别，这使得虚拟现实设备对于任务类型的识别可以适用于任何的虚拟现实场景，而不限于具有任务类型标定的虚拟现实场景。在这些实施例中，如图3所示，该方法在获取虚拟现实场景对应的第一任务类型的步骤S210之前，还可以包括如下步骤S310～S330：

步骤S310，获取用户在使用第一虚拟现实设备的第二时间窗口内的第二头部运动信息和第二眼睛运动信息，以及虚拟现实场景在第二时间窗口内的第二场景图像的显著性信息。

在这些实施例中，第二头部运动信息包括用户在第二时间窗口内的多个第二采样时刻的头部运动速度。第二眼睛运动信息包括用户在此多个第二采样时刻注视虚拟现实设备1000的屏幕的注视位置信息。第二场景图像的显著性信息可以为第二场景图像的显著性图。

经研究，用户所执行的任务类型同样与用户的头部运动、眼睛运动和屏幕显示的场景内容有关。因此，为了准确识别虚拟现实场景对应的第一任务类型，虚拟现实设备1000在步骤S310获取用户在第二时间窗口（t2-△t3，t2）内的第二头部运动信息、第二眼睛运动信息，以及虚拟现实设备所提供虚拟现实场景在第二时间窗口（t2-△t3，t2）内的第二场景图像的显著性信息，以根据这些信息识别该虚拟现实场景对应的第一任务类型。在第一时间窗口（t2-△t3，t2）中，t2时刻为虚拟现实场景播放过程中的某一时刻，t2时刻早于t1时刻，△t3表示第二时间窗口的窗口长度，△t3可以根据需要设置。

在一些实施例中，由于任务切换的频率远低于注视位置变化的频率，可以设置第二时间窗口的窗口长度△t3大于第一时间窗口的窗口长度△t1。其中，△t3可以在5秒至15秒的范围内设置，例如，可以设置为10秒。

另外，根据步骤S310-S330进行任务识别操作的频率也可以低于根据步骤S210-S230进行注视位置预测操作的频率，例如，在两次执行任务识别操作期间，可以根据S210-S230执行多次注视位置预测操作等。

步骤S310中获取的第二头部运动信息、第二眼睛运动信息和第二场景图像的显著性信息，可以分别参照上述的第一头部运动信息、第一眼睛运动信息和第一场景图像的显著性信息理解，相同类型信息的组成及采集频率是相同的，只是因为时间窗口不同，具体取值和数据量会有不同，在此不再一一说明。例如，第二头部运动信息包括用户在第二时间窗口（t2-△t3，t2）内的多个第二采样时刻的头部运动速度，以采样频率为100 Hz，第二时间窗口的窗口长度△t3为10秒，则第一时间窗口内会产生1000个采样点，每一采样点对应一个采样时刻，设第二时间窗口内的第n个采样点对应采样时刻tn，其中，tn大于或者等于（t2-△t3），且小于或者等于t2。用户在第二时间窗口（t2-△t3，t2）内的第二头部运动信息可以表示为。

参照第一眼睛运动信息，第二眼睛运动信息可以表示为。

参照第一场景图像的显著性信息，第二场景图像的显著性信息可以表示为，其中，tm为在第二时间窗口内对于场景图像的采样时刻，tm大于或者等于（t2-△t3），且小于或者等于t2。

步骤S320，从第二头部运动信息中提取用户的第二头部运动特征，从第二眼睛运动信息中提取用户的第二眼睛运动特征，及从第二场景图像的显著性信息中提取用户的第二注视内容特征。

第二头部运动信息反映了用户在第二时间窗口内的头部运动速度，因此，虚拟现实设备可以从第二头部运动信息中提取到用户的头部运动特征。虚拟现实设备可以通过卷积神经网络等网络结构，从第二头部运动信息中提取头部运动特征。

第二眼睛运动信息反映了用户在第二时间窗口的眼睛运动方向、眼睛运动速度等特征，因此，虚拟现实设备可以从第二眼睛运动信息中提取到用户的眼睛运动特征。虚拟现实设备可以通过卷积神经网络等网络结构，从第二眼睛运动信息中提取眼睛运动特征。

第二场景图像的显著性信息反映了场景图像中的显著性特征，因此，虚拟现实设备可以通过卷积神经网络等网络结构，从第二场景图像的显著性信息中提取第二注视内容特征。

在一些实施例中，步骤S320中从第二头部运动信息中提取用户的第二头部运动特征可以包括：将第二头部运动信息输入至预置的第四特征提取模型，得到第二头部运动特征。

在一些实施例中，步骤S320中从第二眼睛运动信息中提取用户的第二眼睛运动特征可以包括：将第二眼睛运动信息输入至预置的第五特征提取模型，得到第二眼睛运动特征。

在一些实施例中，步骤S320中从第二场景图像的显著性信息中提取用户的第二注视内容特征可以包括：将第二场景图像的显著性信息输入至预置的第六特征提取模型，得到第二注视内容特征。

以上第四特征提取模型、第五特征提取模型和第六特征提取模型可以采用相同的网络结构，但这些模型具有不同的模型参数。第四特征提取模型、第五特征提取模型和第六特征提取模型中的每一特征提取模型可以包括顺次连接的卷积神经网络和时序网络。

例如，如图5所示，第四特征提取模型M4可以包括串联连接的卷积神经网络CNN和时序网络TN，其中，卷积神经网络CNN接收第二头部运动信息，时序网络TN输出第二头部运动特征，即，在第四特征提取模型M4中，卷积神经网络CNN的输出为时序网络TN的输入。第四特征提取模型M4可以通过卷积神经网络CNN提取第二头部运动信息中的头部速度特征，及通过时序网络TN提取第二头部运动信息中的与时间相关的特征，该种特征提取方式有利于提高进行任务识别的准确性。

又例如，如图5所示，第五特征提取模型M5可以包括串联连接的卷积神经网络CNN和时序网络TN，其中，在第五特征提取模型M5中，卷积神经网络CNN接收第二眼睛运动信息，时序网络TN输出眼睛运动特征，即，卷积神经网络CNN的输出为时序网络TN的输入。第五特征提取模型M5可以通过卷积神经网络CNN提取第二眼睛运动信息中的空间位置特征，及通过第二时序网络TN提取第二眼睛运动信息中的与时间相关的特征，该种特征提取方式有利于提高进行任务识别的准确性。

再例如，如图5所示，第六特征提取模型M6可以包括串联连接的卷积神经网络CNN和时序网络TN，其中，在第六特征提取模型M6中，卷积神经网络网络CNN接收第二场景图像的显著性信息，时序网络TN输出第二注视内容特征。第六特征提取模型M6可以通过卷积神经网络CNN提取第二场景图像中的显著性特征，及通过第二时序网络TN提取第二场景图像中的与时间相关的特征，该种特征提取方式有利于提高进行任务识别的准确性。

以上时序网络TN可以采用双向门控循环单元（bidirectional gated recurrentunit，BiGRU）、门控循环单元（gated recurrent unit，GRU）、长短期记忆网络（long short-term memory，LSTM）、双向长短期记忆网络（bidirectionallong short-term memory，BiLSTM）等，在此不做限定。

在时序网络TN采用BiGRU的情况下，BiGRU分别输出第一个和最后一个时间步所对应的隐藏状态，用于进行任务识别。

如图6所示，以上卷积神经网络CNN可以包括串联连接的三个第三网络单元，而每一第三网络单元可以包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

第三网络单元中每一层的尺寸可以根据需要设置。例如，第三网络单元的卷积层可以采用卷积核尺寸为3、具有16个输出通道的一维卷积层。又例如，第一网络单元的激活函数层可以采用ReLU激活函数。再例如，第一网络单元的最大池化层例如可以采用尺寸为2的池化层，以对上层输出进行减半的降维处理。

步骤S330，根据第二头部运动特征、第二眼睛运动特征和第二注视内容特征，获得虚拟现实场景对应的第一任务类型。

由于第二头部运动特征反映了头部运动速度随时间变化的特征，第二眼睛运动特征反映了眼睛注视位置随时间变化的特征，第二注视内容特征反映了显著性特征随时间变化的特征，因此，根据这些特征，可以得到头部运动和眼睛运动与显著性特征间的对应关系，进而得到虚拟现实场景对应的第一任务类型。

在一些实施例中，步骤S330中根据第二头部运动特征、第二眼睛运动特征和第二注视内容特征，获得虚拟现实场景对应的第一任务类型，可以包括：将第二头部运动特征、第二眼睛运动特征和第二注视内容特征输入至预置的任务识别模型，得到虚拟现实场景对应的第一任务类型。该任务识别模型的模型参数可以通过相同应用场景下的样本训练得到。

在一些实施例中，如图5所示，该任务识别模型CM可以包括顺次连接的两个第二网络单元和一个Softmax网络层，每一第二网络单元包括顺次连接的全连接层、批归一化层、激活函数层和随机失活层。Softmax网络层用以产生不同任务类型所对应的概率，实现任务分类，也即实现任务识别。

第二网络单元的每一层可以根据分类需要进行设置，在此不做限定。例如，全连接层的神经元个数为64，通过全连接层来整合提取到的特征。又例如，激活函数层采用ReLU激活函数。再例如，随机失活层的失活率（dropout rate）设为0.5，该随机失活层用以提升网络的泛化能力。

以上第四特征提取模型M4、第五特征提取模型M5、第六特征提取模型M6和任务识别模型CM可以作为整体模型，通过同一训练样本集同步训练得到各模型的模型参数，在此不再赘述。

本公开实施例还提供了一种用于实施以上注视位置预测方法的虚拟现实设备。如图7所示，该虚拟现实设备700包括存储器720和处理器710，存储器720用于存储计算机程序，处理器710用于在计算机程序的控制下，执行根据本公开任意实施例的显示处理方法。

该虚拟现实设备700可以为仅具有头戴装置的VR一体机，也可以包括头戴装置和主机，在此不做限定。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种用于虚拟现实场景的注视位置预测方法，其特征在于，包括：

将所述第一头部运动信息、所述第一眼睛运动信息和所述第一场景图像的显著性信息输入至对应于所述第一任务类型的第一注视预测模型，得到所述用户在预测时刻在所述屏幕上的注视位置信息；其中，所述预测时刻在所述第一时间窗口的结束时刻之后，所述预测时刻与所述结束时刻的时间差等于设定的预测时长；

所述获取虚拟现实设备所提供虚拟现实场景对应的第一任务类型之前，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，其中，所述第一注视预测模型包括用于提取头部运动特征的第一特征提取模型、用于提取眼睛运动特征的第二特征提取模型、用于提取注视内容特征的第三特征提取模型、及预测执行模型，所述第一特征提取模型、第二特征提取模型和第三特征提取模型输出的特征输入至所述预测执行模型，所述预测执行模型根据输入的特征，输出对应于所述预测时长的注视位置信息；

3.根据权利要求2所述的方法，其特征在于，所述第一特征提取模型、所述第二特征提取模型和所述第三特征提取模型中的每一特征提取模型包括顺次连接的卷积层、批归一化层、激活函数层和最大池化层。

4.根据权利要求2所述的方法，其特征在于，所述预测执行模型包括串联连接的两个第一网络单元，每一所述第一网络单元包括顺次连接的全连接层、批归一化层、激活函数层和随机失活层。

5.根据权利要求1所述的方法，其特征在于，所述第二时间窗口的窗口长度大于所述第一时间窗口的窗口长度。

6.根据权利要求1所述的方法，其特征在于，所述从所述第二头部运动信息中提取所述用户的第二头部运动特征，从所述第二眼睛运动信息中提取所述用户的第二眼睛运动特征，及从所述第二场景图像的显著性信息中提取所述用户的第二注视内容特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述时序网络为双向门控循环单元。

8.根据权利要求1所述的方法，其特征在于，所述根据所述第二头部运动特征、所述第二眼睛运动特征和所述第二注视内容特征，获得所述虚拟现实场景对应的第一任务类型，包括：

9.一种虚拟现实设备，其特征在于，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于在所述计算机程序的控制下，执行根据权利要求1至8中任一项所述的注视位置预测方法。