CN114449162A

CN114449162A - 一种播放全景视频的方法、装置、计算机设备及存储介质

Info

Publication number: CN114449162A
Application number: CN202111583241.XA
Authority: CN
Inventors: 陈金; 张平; 齐铁鹏; 黄润怀
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-05-06
Anticipated expiration: 2041-12-22

Abstract

本申请提供一种播放全景视频的方法、装置、计算机设备及存储介质，可以应用于人工智能领域等，用于解决全景视频的播放灵活性较低的问题。该方法包括：响应于目标对象针对显示界面中呈现的全景视频的观看操作，以初始视角播放所述全景视频，并对所述目标对象进行拍摄，获得目标视频流；以预设时长为周期，从所述目标视频流中抽取目标视频帧，并基于抽取出的目标视频帧，采用已训练的视点预测模型，预测所述目标对象的视点落在所述显示界面上的视点预测位置；基于所述视点预测位置，调整所述初始视角，继续播放所述全景视频。

Description

一种播放全景视频的方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种播放全景视频的方法、装置、计算机设备及存储介质。

背景技术

全景视频是基于虚拟现实VR技术，将相机环360°拍摄的一组视频进行拼接处理获得的。全景视频可以达到全视角互动式观看效果，将真实场景还原展示。通过全景视频，可以观看360°的全视角视频，现场感更强。

然而，在全景视频播放过程中，需要目标对象通过拖拽鼠标，或操作键盘方向键，或触摸滑动触摸屏，或旋转终端设备中的陀螺仪来切换全景视频的视角。全景视频播放过程中，需要不断响应，或等待响应目标对象的操作，否则无法播放满足目标对象需求的全景视频。

可见，相关技术下，全景视频的播放灵活性较低。

发明内容

本申请实施例提供了一种播放全景视频的方法、装置、计算机设备及存储介质，用于解决全景视频的播放灵活性较低的问题。

第一方面，提供一种播放全景视频的方法，包括：

响应于目标对象针对显示界面中呈现的全景视频的观看操作，以初始视角播放所述全景视频，并对所述目标对象进行拍摄，获得目标视频流；

以预设时长为周期，从所述目标视频流中抽取目标视频帧，并基于抽取出的目标视频帧，采用已训练的视点预测模型，预测所述目标对象的视点落在所述显示界面上的视点预测位置；

基于所述视点预测位置，调整所述初始视角，继续播放所述全景视频。

可选的，基于所述视点预测位置，调整所述初始视角，继续播放所述全景视频，包括：

基于所述视点预测位置，与所述显示界面的边界之间的最短距离，确定当前周期内，所述目标对象相对于所述显示界面的当前观看方向；

基于当前观看方向，调整所述初始视角，继续播放所述全景视频。

可选的，基于当前观看方向，调整所述初始视角，继续播放所述全景视频，包括：

基于各个历史周期内获得的历史观看方向，确定所述当前观看方向的持续时间；

基于当前观看方向和所述持续时间，调整所述初始视角，继续播放所述全景视频。

可选的，基于当前观看方向和所述持续时间，调整所述初始视角，继续播放所述全景视频，包括：

确定当前观看方向为上、下、左或右时，确定所述持续时间是否大于时间阈值；

确定所述持续时间大于时间阈值时，基于指定角度，向当前观看方向，调整所述初始视角，获得目标视角；

以所述目标视角，继续播放所述全景视频。

可选的，所述已训练的视点预测模型，是采用如下方法训练得到的：

获取各个样本数据，其中，每个样本数据包括人脸样本图像和视点样本位置，所述人脸样本图像为包含相应样本对象的面部的图像，所述视点样本位置为相应人脸样本图像中，所述样本对象的视点，落在相应显示界面上的位置；

基于所述各个样本图像，对待训练的视点预测模型进行多轮迭代训练，直到训练损失满足训练目标时，将所述待训练的视点预测模型输出，获得所述已训练的视点预测模型。

可选的，基于所述各个样本图像，对待训练的视点预测模型进行多轮迭代训练，包括：

针对所述各个样本数据，分别执行以下操作：

基于样本数据包含的人脸样本图像，采用所述待训练的视点预测模型，预测相应样本对象在相应显示界面上的视点训练位置；

基于所述视点训练位置与所述样本数据包含的视点样本位置之间的误差，确定所述待训练的视点预测模型的训练损失。

第二方面，提供一种播放全景视频的装置，包括：

获取模块：用于响应于目标对象针对显示界面中呈现的全景视频的观看操作，以初始视角播放所述全景视频，并对所述目标对象进行拍摄，获得目标视频流；

处理模块：用于以预设时长为周期，从所述目标视频流中抽取目标视频帧，并基于抽取出的目标视频帧，采用已训练的视点预测模型，预测所述目标对象的视点落在所述显示界面上的视点预测位置；以及，基于所述视点预测位置，调整所述初始视角，继续播放所述全景视频。

可选的，所述处理模块具体用于：

以所述目标视角，继续播放所述全景视频。

可选的，所述处理模块还用于，采用如下方法训练得到所述已训练的视点预测模型：

可选的，所述处理模块具体用于：

针对所述各个样本数据，分别执行以下操作：

第三方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。

第四方面，提供一种计算机设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面所述的方法。

第五方面，提供一种计算机可读存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的方法。

本申请实施例中，对观看全景视频的目标对象进行拍摄，预测目标对象的视点落在显示界面上的视点预测位置，基于视点预测位置，调整初始视角。从而，根据目标对象的视点自动判断目标对象切换视角意图，不需要目标对象手动进行操作，提升播放全景视频灵活性。

附图说明

图1为本申请实施例提供的播放全景视频的方法的一种应用场景；

图2为本申请实施例提供的播放全景视频的方法的一种流程示意图；

图3为本申请实施例提供的播放全景视频的方法的一种原理示意图一；

图4为本申请实施例提供的播放全景视频的方法的一种原理示意图二；

图5为本申请实施例提供的播放全景视频的方法的一种原理示意图三；

图6为本申请实施例提供的播放全景视频的方法的一种原理示意图四；

图7为本申请实施例提供的播放全景视频的装置的一种结构示意图一；

图8为本申请实施例提供的播放全景视频的装置的一种结构示意图二。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面对本申请实施例提供的播放全景视频的方法的应用领域进行简单介绍。

例如，网页端基于键盘方向键，切换视角的过程，是监听keydown事件，根据事件的类型，即keycode，确定是上、下、左、右中的哪个按键，然后控制视角的切换。又例如，基于鼠标拖拽，切换视角的过程，是监听mousedown事件，mousemove事件和mouseup事件，计算当前鼠标和起始鼠标点在球形渲染天空盒中的经纬度位置，据此调整视角。

又例如，移动端基于触摸屏，视角切换的过程，是监听touchstart事件，touchmove事件和touchend事件，计算滑动的位置调整视角。又例如，基于陀螺仪，视角切换的过程，是监听deviceorientation事件和orientationchange事件，获取移动端在三轴方向的转角，再计算球形渲染天空盒中的经纬度位置，据此调整摄像视点来切换视角。

可见，相关技术下，全景视频的播放灵活性较低。

为了解决全景视频的播放灵活性较低的问题，本申请提出一种播放全景视频的方法。该方法中，响应于目标对象针对显示界面中呈现的全景视频的观看操作，以初始视角播放全景视频，并对目标对象进行拍摄，获得目标视频流。以预设时长为周期，从目标视频流中抽取目标视频帧，并基于抽取出的目标视频帧，采用已训练的视点预测模型，预测目标对象的视点落在显示界面上的视点预测位置。基于视点预测位置，调整初始视角，继续播放全景视频。

下面对本申请提供的播放全景视频的方法的应用场景进行说明。

请参考图1，为本申请提供的播放全景视频的方法的一种应用场景示意图。该应用场景中包括客户端101和服务端102。客户端101和服务端102之间可以通信。通信方式可以是采用有线通信技术进行通信，例如通过连接网线或串口线进行通信；也可以是采用无线通信技术进行通信，例如，通过蓝牙或无线保真(wireless fidelity，WIFI)等技术进行通信，具体不做限制。

客户端101泛指可以进行播放全景视频的设备，例如，终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。终端设备包括但不限于手机、电脑、智能交通设备、智能电器等。服务端102泛指可以调整视角的设备，例如，终端设备或服务器等。服务器包括但不限于云服务器、本地服务器或关联的第三方服务器等。客户端101和服务端102均可以采用云计算，以减少本地计算资源的占用；同样也可以采用云存储，以减少本地存储资源的占用。

作为一种实施例，客户端101和服务端102可以是同一个设备，具体不做限制。本申请实施例中，以客户端101和服务端102分别为不同的设备为例进行介绍。

下面基于图1，对本申请实施例提供的播放全景视频的方法进行具体介绍。请参考图2，为本申请实施例提供的播放全景视频的方法的一种流程示意图。

S201，响应于目标对象针对显示界面中呈现的全景视频的观看操作，以初始视角播放全景视频，并对目标对象进行拍摄，获得目标视频流。

目标对象针对显示界面中呈现的全景视频的观看操作，可以是目标对象针对全景视频的播放操作，也可以是目标对象针对全景视频的语音控制操作等，具体不做限制。

全景视频以初始视角播放全景视频，初始视角可以是全景视频的默认视角，也可以是目标对象最近一次针对全景视频的播放视角等，具体不做限制。

服务器在以初始视角播放全景视频的同时，对目标对象进行拍摄，获得目标视频流。

S202，以预设时长为周期，从目标视频流中抽取目标视频帧，并基于抽取出的目标视频帧，采用已训练的视点预测模型，预测目标对象的视点落在显示界面上的视点预测位置。

服务器在获得目标视频流之后，以预设时长为周期，从目标视频流中抽取目标视频帧。针对抽取出的目标视频帧，服务器可以采用已训练的视点预测模型，预测目标对象的视点落在显示界面上的视点预测位置。

作为一种实施例，服务器可以在获得目标视频帧之后，可以提取目标视频帧中包含双眼的目标区域，并对目标区域进行归一化处理，基于归一化处理后的目标区域，采用已训练的视点预测模型，预测目标对象的视点落在显示界面上的视点预测位置。视点预测模型可以是卷积神经网络模型。

服务器可以预先对待训练的视点预测模型进行训练，获得已训练的视点预测模型，也可以接收其他设备发送的已训练的视点预测模型，获得已训练的视点预测模型具体不做限制。

下面以服务器预先对待训练的视点预测模型进行训练的过程为例进行介绍。

服务器可以获取各个样本数据，其中，每个样本数据包括人脸样本图像和视点样本位置，人脸样本图像为包含相应样本对象的面部的图像，视点样本位置为相应人脸样本图像中，样本对象的视点，落在相应显示界面上的位置。

服务器在获得各个样本数据之后，可以基于各个样本图像，对待训练的视点预测模型进行多轮迭代训练，直到训练损失满足训练目标时，将待训练的视点预测模型输出，获得已训练的视点预测模型。

服务器针对各个样本图像，对待训练的视点预测模型进行多轮迭代训练的过程类似，下面以针对一个样本图像，对待训练的视点预测模型进行训练的过程为例进行介绍。

服务器可以基于样本数据包含的人脸样本图像，采用待训练的视点预测模型，预测相应样本对象在相应显示界面上的视点训练位置。基于视点训练位置与样本数据包含的视点样本位置之间的误差，确定待训练的视点预测模型的训练损失。

如果训练损失不满足训练目标，那么服务器可以调整待训练的视点预测模型的模型参数，重新对待训练的视点预测模型进行训练；如果训练损失满足训练目标，那么服务器可以将待训练的视点预测模型输出，获得已训练的视点预测模型。

S203，基于视点预测位置，调整初始视角，继续播放全景视频。

服务器在获得视点预测位置之后，可以基于视点预测位置，与显示界面的边界之间的最短距离，确定当前周期内，目标对象相对于显示界面的当前观看方向。基于当前观看方向，调整初始视角，继续播放全景视频。

作为一种实施例，服务器可以基于各个历史周期内获得的历史观看方向，确定当前观看方向的持续时间。基于当前观看方向和持续时间，调整初始视角，继续播放全景视频。

作为一种实施例，请参考图3，当前观看方向可以包括上、下、左、右和中间，上表示显示界面的上部，下表示显示界面的下部，左表示显示界面的左部，右表示显示界面的右部，中间表示显示界面的中间。例如，目标对象的视点预测位置落在图3表示的显示界面的左部时，表示当前观看方向为左。

服务器可以确定当前观看方向是否为上、下、左或右，确定当前观看方向为上、下、左或右时，确定持续时间是否大于时间阈值。服务器确定持续时间大于时间阈值时，基于指定角度，向当前观看方向，调整初始视角，获得目标视角。以目标视角，继续播放全景视频。服务器确定当前观看方向不是上、下、左或右时，继续以初始视角播放全景视频。

作为一种实施例，服务器可以在每个周期内获得当前观看方向时，记录当前观看方向，历史周期内获得的历史观看方向，与当前观看方向不同的时刻，以及当前周期内当前观看方向的持续时长，从而，服务器可以根据记录的数据，确定当前观看方向的持续时间。

下面对本申请实施例提供的播放全景视频的方法进行示例介绍。

服务器可以打开全景视频播放浏览器，请参考图4，通过摄像头对目标对象进行拍摄，使用navigator.mediaDevices.getUserMedia接口获取的目标视频流。服务器对目标视频流中的目标视频帧，使用clmtrackr人脸检测模型做人脸检测，根据人脸特征框出双眼的图像并做归一化处理。服务器通过lookie-lookie，标注双眼图像的对应视点样本位置，并将数据集划分到训练集和验证集。然后训练待训练的视点预测模型，获得已训练的视点预测模型。已训练的视点预测模型采用CNN结构。

服务器在获得已训练的视点预测模型之后，请参考图5，请求用户摄像头获取目标视频流，采用固定时间间隔对目标视频流进行抽帧处理(如100ms一帧)，获得目标视频帧。基于已训练的视点预测模型，预测视点预测位置，基于视点预测位置，与显示界面的边界之间的最短距离，确定目标对象相对于显示界面的当前观看方向。当前观看方向为上、下、左或右时，以指定度数(如20度)调整初始视角，获得目标视角，以目标视角播放全景视频，并继续对获得的目标视频流进行抽帧处理，直到全景视频播放结束为止。当前观看方向为中间时，以初始视角播放全景视频，并继续对获得的目标视频流进行抽帧处理，直到全景视频播放结束为止。

请参考图6，在基于已训练的视点预测模型，预测视点预测位置之后，还可以更新用户观看意图状态机，即周期内获得的当前观看方向，历史周期内获得的历史观看方向，与当前观看方向不同的时刻，以及当前周期内当前观看方向的持续时长。当前状态(currentState)即为当前观看方向，上次状态改变时间(stateChangeTime)即为历史周期内获得的历史观看方向，与当前观看方向不同的时刻，以及当前状态持续时间(currentStateDuration)，即为当前周期内当前观看方向的持续时长，三个变量。

如果当前观看方向在中间，表示定睛看，那么以初始视角播放全景视频。如果当前观看方向在上、下、左或右，表示用户有观看其他视角的意图，那么判断当前观看方向的持续时间是否超过一个时间阈值(如2s)，如果是，那么基于当前观看方向，确定目标视角，以指定度数(如20度)调整初始视角，以符合用户的视角切换意图。否则以初始视角播放全景视频。每当一次视角自动切换完成时，主动重置用户意图状态到中间，这样可以避免视角连续的转动引起眩晕。

基于同一发明构思，本申请实施例提供一种播放全景视频的装置，能够实现前述的播放全景视频的方法对应的功能。请参考图7，该装置包括获取模块701和处理模块702，其中：

获取模块701：用于响应于目标对象针对显示界面中呈现的全景视频的观看操作，以初始视角播放全景视频，并对目标对象进行拍摄，获得目标视频流；

处理模块702：用于以预设时长为周期，从目标视频流中抽取目标视频帧，并基于抽取出的目标视频帧，采用已训练的视点预测模型，预测目标对象的视点落在显示界面上的视点预测位置；以及，基于视点预测位置，调整初始视角，继续播放全景视频。

在一种可能的实施例中，处理模块702具体用于：

基于视点预测位置，与显示界面的边界之间的最短距离，确定当前周期内，目标对象相对于显示界面的当前观看方向；

基于当前观看方向，调整初始视角，继续播放全景视频。

在一种可能的实施例中，处理模块702具体用于：

基于各个历史周期内获得的历史观看方向，确定当前观看方向的持续时间；

基于当前观看方向和持续时间，调整初始视角，继续播放全景视频。

在一种可能的实施例中，处理模块702具体用于：

确定当前观看方向为上、下、左或右时，确定持续时间是否大于时间阈值；

确定持续时间大于时间阈值时，基于指定角度，向当前观看方向，调整初始视角，获得目标视角；

以目标视角，继续播放全景视频。

在一种可能的实施例中，处理模块702还用于，采用如下方法训练得到已训练的视点预测模型：

获取各个样本数据，其中，每个样本数据包括人脸样本图像和视点样本位置，人脸样本图像为包含相应样本对象的面部的图像，视点样本位置为相应人脸样本图像中，样本对象的视点，落在相应显示界面上的位置；

基于各个样本图像，对待训练的视点预测模型进行多轮迭代训练，直到训练损失满足训练目标时，将待训练的视点预测模型输出，获得已训练的视点预测模型。

在一种可能的实施例中，处理模块702具体用于：

针对各个样本数据，分别执行以下操作：

基于样本数据包含的人脸样本图像，采用待训练的视点预测模型，预测相应样本对象在相应显示界面上的视点训练位置；

基于视点训练位置与样本数据包含的视点样本位置之间的误差，确定待训练的视点预测模型的训练损失。

请参照图8，上述播放全景视频的装置可以运行在计算机设备800上，数据存储程序的当前版本和历史版本以及数据存储程序对应的应用软件可以安装在计算机设备800上，该计算机设备800包括处理器880以及存储器820。在一些实施例中，该计算机设备800可以包括显示单元840，显示单元840包括显示面板841，用于显示由用户交互操作界面等。

在一种可能的实施例中，可以采用液晶显示器(Liquid Crystal Display，LCD)或有机发光二极管OLED(Organic Light-Emitting Diode)等形式来配置显示面板841。

处理器880用于读取计算机程序，然后执行计算机程序定义的方法，例如处理器880读取数据存储程序或文件等，从而在该计算机设备800上运行数据存储程序，在显示单元840上显示对应的界面。处理器880可以包括一个或多个通用处理器，还可包括一个或多个DSP(Digital Signal Processor，数字信号处理器)，用于执行相关操作，以实现本申请实施例所提供的技术方案。

存储器820一般包括内存和外存，内存可以为随机存储器(RAM)，只读存储器(ROM)，以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器820用于存储计算机程序和其他数据，该计算机程序包括各客户端对应的应用程序等，其他数据可包括操作系统或应用程序被运行后产生的数据，该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器820中，处理器880执行存储器820中的程序指令，实现前文图论述的任意的一种方法。

上述显示单元840用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与计算机设备800的用户设置以及功能控制有关的信号输入等。具体地，本申请实施例中，该显示单元840可以包括显示面板841。显示面板841例如触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板841上或在显示面板841的操作)，并根据预先设定的程式驱动相应的连接装置。

在一种可能的实施例中，显示面板841可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测玩家的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。

其中，显示面板841可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元840，在一些实施例中，计算机设备800还可以包括输入单元830，输入单元830可以包括图像输入设备831和其他输入设备832，其中其他输入设备可以但不限于包括物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

除以上之外，计算机设备800还可以包括用于给其他模块供电的电源890、音频电路860、近场通信模块870和RF电路810。计算机设备800还可以包括一个或多个传感器850，例如加速度传感器、光传感器、压力传感器等。音频电路860具体包括扬声器861和麦克风862等，例如计算机设备800可以通过麦克风862采集用户的声音，进行相应的操作等。

作为一种实施例，处理器880的数量可以是一个或多个，处理器880和存储器820可以是耦合设置，也可以是相对独立设置。

作为一种实施例，图8中的处理器880可以用于实现如图7中的获取模块701和处理模块702的功能。

作为一种实施例，图8中的处理器880可以用于实现前文论述的服务器或终端设备对应的功能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，例如，通过计算机程序产品体现，该计算机程序产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种播放全景视频的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述视点预测位置，调整所述初始视角，继续播放所述全景视频，包括：

3.根据权利要求2所述的方法，其特征在于，基于当前观看方向，调整所述初始视角，继续播放所述全景视频，包括：

4.根据权利要求3所述的方法，其特征在于，基于当前观看方向和所述持续时间，调整所述初始视角，继续播放所述全景视频，包括：

以所述目标视角，继续播放所述全景视频。

5.根据权利要求1～4任一项所述的方法，其特征在于，所述已训练的视点预测模型，是采用如下方法训练得到的：

6.根据权利要求5所述的方法，其特征在于，基于所述各个样本图像，对待训练的视点预测模型进行多轮迭代训练，包括：

针对所述各个样本数据，分别执行以下操作：

7.一种播放全景视频的装置，其特征在于，包括：

8.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1～6所述方法的步骤。

9.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1～6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1～6中任一项所述的方法。