CN112218136B

CN112218136B - 视频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112218136B
Application number: CN202011078356.9A
Authority: CN
Inventors: 夏爽
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-08-10
Anticipated expiration: 2040-10-10
Also published as: WO2022073409A1; EP4106337A4; CN112218136A; US20230036919A1; EP4106337A1

Abstract

本申请提供了一种视频处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：在视频的播放过程中，显示视频中的一帧图像；响应于作用在该图像上的交互操作，获取交互操作对应的调整参数，调整参数用于对该图像中像素点的显示位置进行调整；获取该图像的像素点的光流估计参数，光流估计参数用于表示像素点在该图像和该图像的下一帧图像之间的原位移；基于调整参数和该像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置，以显示目标图像。本申请结合光流估计参数和交互操作对应的调整参数，将交互操作的作用效果呈现在所显示的下一帧图像上，丰富视频播放过程中的视觉效果，扩展了视频播放过程中的体验方式。

Description

视频处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种视频处理方法、装置、计算机设备及存储介质。

背景技术

视频的出现丰富了人们的生活。人们通过观看视频能够直观高效的获取到各种信息，感受世界的多姿多彩。视频包括图像和音频，能够从视觉和听觉两个方面为用户提供直观的、感染性较强的观看体验。

当前，计算机设备在屏幕上播放视频，在视频播放过程中，计算机设备并不支持用户与正在播放的视频进行交互，计算机设备的视频播放性能不能满足交互需求，视频播放过程中的体验方式较为单一。

发明内容

本申请实施例提供了一种视频处理方法、装置、计算机设备及存储介质，能够实现对用户与正在播放的视频的交互支持，使得视频播放性能能够满足交互需求，扩展视频播放过程中的体验方式。所述技术方案如下：

一方面，提供了一种视频处理方法，所述方法包括：

在视频的播放过程中，显示所述视频中的一帧图像；

响应于作用在所述图像上的交互操作，获取所述交互操作对应的调整参数，所述调整参数用于对所述图像中像素点的显示位置进行调整；

获取所述图像的像素点的光流估计参数，所述光流估计参数用于表示所述像素点在所述图像和所述图像的下一帧图像之间的原位移；

基于所述调整参数和所述像素点的光流估计参数，将所述像素点从原显示位置偏移至目标显示位置，以显示目标图像。

一方面，提供了一种视频处理装置，所述装置包括：

第一显示模块，用于在视频的播放过程中，显示所述视频中的一帧图像；

第一获取模块，用于响应于作用在所述图像上的交互操作，获取所述交互操作对应的调整参数，所述调整参数用于对所述图像中像素点的显示位置进行调整；

第二获取模块，用于获取所述图像的像素点的光流估计参数，所述光流估计参数用于表示所述像素点在所述图像和所述图像的下一帧图像之间的原位移；

第二显示模块，用于基于所述调整参数和所述像素点的光流估计参数，将所述像素点从原显示位置偏移至目标显示位置，以显示目标图像。

在一种可选的实现方式中，所述第一获取模块，包括：

力度获取单元，用于响应于作用在所述图像上的交互操作，获取所述交互操作的作用力度；

参数确定单元，用于基于所述交互操作的作用力度，确定与所述作用力度匹配的所述调整参数。

在另一种可选的实现方式中，所述参数确定单元，用于：

基于最大作用力度、所述最大作用力度对应的最大调整参数、所述交互操作的作用力度，确定所述调整参数；

其中，所述调整参数与所述最大调整参数呈正相关，所述调整参数与所述最大作用力度呈负相关，所述调整参数与所述交互操作的作用力度呈正相关。

在另一种可选的实现方式中，所述第二获取模块，用于将所述图像输入到光流估计模型中，得到所述图像的像素点的光流估计参数；

或者，所述第二获取模块，用于对所述视频的编码数据进行解码，得到所述图像的像素点的光流估计参数。

在另一种可选的实现方式中，所述第二显示模块，包括：

像素点偏移单元，用于响应于所述像素点为所述交互操作所作用的像素点，基于所述调整参数和所述像素点的光流估计参数，将所述像素点从原显示位置偏移至目标显示位置。

在另一种可选的实现方式中，所述像素点偏移单元，用于：

响应于所述像素点为所述交互操作所作用的像素点，基于所述调整参数和所述像素点的光流估计参数，确定目标偏移参数；

基于所述目标偏移参数所指示的偏移距离和偏移方向，将所述像素点从原显示位置偏移至目标显示位置。

在另一种可选的实现方式中，所述第二显示模块，用于：

获取所述交互操作对应的影响权重，所述影响权重用于表示所述交互操作对所述像素点的显示位置偏移的影响程度；

基于所述影响权重，对所述调整参数进行加权处理，基于加权处理后的所述调整参数和所述像素点的光流估计参数，将所述像素点从原显示位置偏移至目标显示位置，以显示目标图像。

在另一种可选的实现方式中，所述装置还包括：

第一对象确定模块，用于响应于作用在所述图像上的交互操作，确定所述交互操作所作用的第一对象；

音频确定模块，用于从对象与音频数据的对应关系中，确定所述第一对象对应的音频数据；

音频播放模块，用于播放所述第一对象对应的音频数据。

在另一种可选的实现方式中，所述第一对象确定模块，用于：

响应于作用在所述图像上的所述交互操作，对所述图像进行语义分割处理，得到至少一个第一像素区域；

从所述至少一个第一像素区域中确定所述交互操作所作用在的第一目标区域；

将所述第一目标区域中的对象确定为所述第一对象。

在另一种可选的实现方式中，所述装置还包括：

像素跟踪模块，用于基于原显示位置在所述第一像素区域内的像素点在所述目标图像中的目标显示位置，确定所述目标图像的第二像素区域，所述第二像素区域中的像素点的原显示位置在所述第一像素区域内；

所述第一对象确定模块，还用于响应于所述交互操作作用在所述目标图像上，从至少一个第二像素区域中确定所述交互操作所作用在的第二目标区域；将所述第二目标区域中的对象确定为第二对象；

所述音频播放模块，还用于播放所述第二对象对应的音频数据。

在另一种可选的实现方式中，所述音频播放模块，用于：

获取所述交互操作的作用力度对应的播放音量；

按照所述播放音量，播放所述第一对象对应的音频数据。

在另一种可选的实现方式中，所述装置还包括：

第二对象确定模块，用于确定所述视频中的主体对象；

音频提取模块，用于从存在所述主体对象的所述视频的视频片段中，提取所述主体对象的音频数据；

关系生成模块，用于生成所述主体对象与所述主体对象的音频数据的对应关系。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一种可选的实现方式所述的视频处理方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一种可选的实现方式所述的视频处理方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述任一种可选的实现方式所述的视频处理方法。

本申请实施例提供的技术方案，由于光流估计参数能够表示相邻两帧图像之间像素点变化的原位移，因此，当有交互操作作用在视频的一帧图像中时，结合光流估计参数和交互操作对应的调整参数，对交互操作所作用的图像的像素点的位置进行偏移，能够使交互操作对像素点变化的原位移产生影响，从而基于调整参数，将交互操作的作用效果呈现在所显示的下一帧图像上。上述技术方案中，像素点位置的偏移以像素点变化的原位移为基础，叠加上了交互操作对应的像素点变化的位移，从而能够在视频交互播放的过程中，更加准确地在原有的视频展现效果上叠加交互操作的作用效果，进而呈现出与交互操作匹配度更高的动态效果，在视觉上表现出对交互操作的反馈，实现对用户与正在播放的视频的交互支持，丰富视频播放过程中的视觉效果，使得视频播放性能能够满足交互需求，扩展了视频播放过程中的体验方式。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种视频处理方法的流程图；

图3是本申请实施例提供的一种视频处理方法的流程图；

图4是本申请实施例提供的一种视频交互播放的流程图；

图5是本申请实施例提供的一种视频处理装置的框图；

图6是本申请实施例提供的一种终端的框图；

图7是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

为了方便理解，下面对本申请实施例中涉及的名词进行解释说明。

光流估计：光流常用于表示图像中各个像素点的瞬时移位，是依据视频中帧与帧之间各像素点的相关性得到的。对于时序相邻的两帧图像I(t-1)和I(t)，I(t-1)上每个像素点移位之后，各像素点的位置与I(t)一致。通过光流估计一方面能够得知对象在下一时刻的位置，从而利用光流来提升视频中目标追踪的速度和准确性，在视频播放的过程中达到快速追踪对象的效果。通过光流估计另一方面能够预测当前帧中的像素点向下一帧的运动趋势。

语义分割：语义分割从像素级别来理解图像，将图像中的像素点划分为多个类别。例如，图像包括摩托车和骑摩托车的人，通过语义分割，将描绘骑摩托车的人的像素点划分为同一类，将描绘摩托车的像素点划分为另一类。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，在一种可选的实现方式中，该实施环境包括终端101，本申请实施例提供的视频处理方法由终端101执行。可选地，终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、VR(VirtualReality，虚拟现实)设备等，但并不局限于此。可选地，终端101上设有支持视频交互播放的应用程序，例如，该应用程序为视频播放类应用程序、浏览器等。

在另一种可选的实现方式中，该实施环境包括终端101和服务器102，本申请实施例提供的视频处理方法通过终端101和服务器102之间的交互来实施。可选地，服务器102可以是独立的物理服务器；或者，服务器102可以是多个物理服务器构成的服务器集群或者分布式系统；或者，服务器102可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器102以及终端101通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选地，本申请实施例提供的技术方案由终端或者服务器作为执行主体来实施；或者，本申请实施例提供的技术方案通过终端和服务器之间的交互来实施，本申请对此不加以限定。在本申请实施例中，以技术方案的执行主体是终端为例进行说明。

图2是本申请实施例提供的一种视频处理方法的流程图。参见图2，在本申请实施例中，以终端是执行主体为例进行说明，该实施例包括：

201、终端在视频的播放过程中，显示视频中的一帧图像。

一个视频由多帧静态的图像组成。以帧为单位的图像按照预设的帧率快速连续地显示在终端上，达到动态的视频效果。

202、终端响应于作用在该图像上的交互操作，获取该交互操作对应的调整参数，该调整参数用于对图像中像素点的显示位置进行调整。

终端通过获取交互操作对应的调整参数，以基于调整参数对图像中像素点的显示位置进行调整，将交互操作的作用效果呈现在下一帧图像中。

若终端为智能手机、平板电脑、笔记本电脑、台式计算机或者智能电视等，用户可以通过触摸终端的显示屏与视频实施交互操作。若终端在显示视频中的一帧图像的过程中，检测到作用在显示屏上的交互操作，则获取该交互操作对应的调整参数。

若终端为VR设备，用户可以穿戴VR设备中的手部操作感应装置，通过手部操作感应装置与视频进行交互。若VR设备在显示视频中的一帧图像的过程中，通过手部操作感应装置检测到交互操作，则获取该交互操作对应的调整参数。

203、终端获取图像的像素点的光流估计参数，该光流估计参数用于表示像素点在该图像和该图像的下一帧图像之间的原位移。

视频中相邻两帧图像之间的像素点具有相关性，帧与帧之间像素点的移位在视觉效果上表现为视频画面中物体的运动。同一像素点从第N帧图像向第N+1帧图像的运动表现为光流，其中，N为正整数。视频中原相邻两帧图像之间的像素点的瞬时移位由光流估计参数来表示。

204、终端基于调整参数和像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置，以显示目标图像。

光流估计参数用于表示像素点在一帧图像与该帧图像的下一帧图像之间的原位移，以光流估计参数为基础，对像素点的位置进行偏移，能够表现出像素点的原位移。调整参数与交互操作相对应，再结合调整参数，对像素点的位置进行偏移，能够在像素点原位移的基础上再叠加交互操作能够造成的位移变化，在所显示的下一帧图像中呈现出交互操作的作用效果，实现视频的交互式播放。

图3是本申请实施例提供的一种视频处理方法的流程图。参见图3，在本申请实施例中，以终端进行视频的交互播放为例进行说明，也即是，终端通过在视频中叠加交互操作的作用效果，对用户的交互操作做出反馈，实现视频的交互播放。该实施例包括：

301、终端在视频的播放过程中，显示视频中的一帧图像。

多帧图像依次快速连续的进行显示形成视频。终端进行视频播放的过程拆解开来是终端依次显示多帧图像的过程。终端对视频的播放和处理也即是对视频中图像的显示和处理。

需要说明的是，可选地，终端支持任意视频类型的视频进行交互播放。在一种可选的实现方式中，终端默认对视频进行交互播放。

在另一种可选的实现方式中，终端在交互播放模式处于开启状态时，对视频进行交互播放。终端提供有交互播放模式的启停开关，用户能够通过交互播放模式的启停开关，来控制交互播放模式的开启与关闭。终端响应于交互播放模式的启停开关被开启，确定交互播放模式进入开启状态；终端响应于交互播放模式的启停开关被关闭，确定交互播放模式进入关闭状态。

例如，若终端为智能手机，用户能够通过终端上的视频播放应用程序观看视频。终端响应于对视频播放应用程序的启动操作，运行视频播放应用程序。用户打开视频播放应用程序后，能够通过视频播放应用程序的应用界面，选择视频进行观看。终端显示视频播放应用程序的应用界面；响应于对应用界面中视频的点击操作，播放该视频。用户打开视频之后，能够根据自身需要打开交互播放模式。例如，视频播放界面上包括交互播放模式的启停开关，终端响应于交互播放模式的启停开关被开启，对该视频进行交互播放。

若终端为VR设备或者智能电视，用户能够通过语音指令或者手势操作，控制终端进入交互播放模式。若终端为智能电视，用户也能够通过按下智能电视的遥控器上的交互按键，来控制终端进入交互播放模式。在本申请实施例中，对终端进入交互播放模式的方式，不加以限定。

在实际应用中，终端主要支持目标视频类型的视频进行交互播放。相较于除目标视频类型之外的其他视频类型的视频，用户对目标视频类型的视频具有更高的视频交互需求。例如，目标视频类型包括自然类纪录片、天文类记录片、食物类记录片以及VR类影片等。

302、终端响应于作用在该图像上的交互操作，获取该交互操作对应的调整参数。

在一个示例中，交互操作为对终端的显示屏的触摸操作，交互操作在终端的显示屏显示该图像时作用在该显示屏上。在另一个示例中，交互操作是通过VR设备的手部操作感应装置捕捉到的手部操作，VR设备在显示该图像时通过手部操作感应装置捕捉到作用在该图像上的交互操作。

上述调整参数用于对该图像中像素点的显示位置进行调整，以使交互操作的作用效果呈现在下一帧图像中。调整参数是具有大小和方向的矢量，用于表示像素点的显示位置所调整的位移幅度。调整参数包括用于调整像素点的显示位置的偏移距离和偏移方向。

在第一种可选的实现方式中，终端获取与交互操作的作用力度相匹配的调整参数，以按照作用力度来表现交互操作的作用效果。相应的，终端响应于作用在该图像上的交互操作，获取该交互操作对应的调整参数通过以下步骤3021至步骤3022实现。

3021、终端响应于作用在该图像上的交互操作，获取该交互操作的作用力度。

例如，终端的显示屏的下层设有压力传感器。终端通过压力传感器识别出交互操作的作用力度。

3022、终端基于该交互操作的作用力度，确定与该作用力度匹配的调整参数。

其中，作用力度与调整参数呈正相关，作用力度越大，调整参数也越大。

在一种可选的实现方式中，终端依据最大作用力度与最大调整参数的对应关系，确定与当前的作用力度相对应的调整参数。相应的，上述步骤3022包括：终端基于最大作用力度、最大作用力度对应的最大调整参数、交互操作的作用力度，确定调整参数；其中，调整参数与最大调整参数呈正相关，调整参数与最大作用力度呈负相关，调整参数与交互操作的作用力度呈正相关。调整参数为具有方向的矢量，调整参数的方向与交互操作的作用力的方向一致。

上述过程也即是终端通过以下公式一确定调整参数的过程。

公式一：

其中，ΔW_i表示作用在第i帧图像上的交互操作的作用力度对应的调整参数，ΔW_i为具有方向的矢量，ΔW_i的模为非负数，i为正整数。ΔW表示最大作用力度对应的最大调整参数，ΔW为标量，ΔW为非负数。F_i表示作用在第i帧图像上的交互操作的作用力度，F_i为具有方向的矢量，F_i的模为非负数。F_m表示最大作用力度，F_m为标量，F_m为非负数。

例如，最大作用力度为1N(力的计量单位：牛顿)，最大调整参数为10mm(毫米)，若交互操作的作用力度为0.2N，则与该作用力度匹配的调整参数的模为2mm。

在另一种可选的实现方式中，终端依据单位作用力度对应的参考调整参数以及交互操作的作用力度，确定出交互操作的作用力度对应的调整参数。相应的，终端基于交互操作的作用力度，确定与作用力度匹配的调整参数的步骤包括：终端获取单位作用力度对应的参考位移；将交互操作的作用力度与单位作用力度的比值确定为参考数量；将参考数量与参考调整参数的乘积确定为该调整参数的模，将交互操作的作用力的方向确定为该调整参数的方向。

例如，单位作用力度为0.1N，该单位作用力度对应的参考调整参数为1mm，若交互操作的作用力度为0.2N，则与该作用力度匹配的调整参数的模为2mm。

上述技术方案，通过识别交互操作的作用力度，确定出与该作用力度匹配的调整参数，对图像中像素点的显示位置进行调整，能够使得像素点调整后呈现出的作用效果与交互操作的作用力度相对应，从而呈现出更加真实的交互效果，提升视频交互的真实体感，使得视频播放性能能够满足更加丰富的交互需求，进一步扩展视频播放过程中的体验方式。

在第二种可选的实现方式中，终端将用户执行交互操作时手部移动的位移确定为调整参数。相应的，终端响应于作用在该图像上的交互操作，获取该交互操作对应的调整参数的步骤包括：终端响应于作用在该图像上的交互操作，获取该交互操作作用在该图像上的起始位置点，以及获取该交互操作作用在该图像上的终止位置点；将起始位置点指向终止位置点的位移确定为调整参数。

需要说明的是，为保证交互操作的作用效果能够呈现在下一帧图像中，且下一帧图像能够按照预设的帧率进行显示，终端在该交互操作作用在该图像上的时长达到目标时长时，就将该交互操作作用在该图像上的位置点确定为终止位置点，进而确定调整参数，按照调整参数对像素点的显示位置进行调整。

其中，目标时长与终端从确定终止位置点到显示目标图像的时长之和不大于两帧图像的显示间隔。例如，预设的帧率为每秒30帧，两帧图像的显示间隔为0.033秒，若终端从确定终止位置点到显示目标图像的时长为0.002秒，则目标时长可以设置为0.03秒。

需要说明的是，若终端为智能手机、平板电脑、笔记本电脑、台式计算机或者智能电视等，终端的显示屏能够检测到交互操作作用在的位置点。可选地，终端的显示屏为电阻式触摸屏、电容式触摸屏、红外线式触摸屏或者表面声波式触摸屏等，终端的显示屏的类型不同，检测交互操作作用在的位置点的原理不同。在本申请实施例中，对终端的显示屏检测交互操作作用在的位置点的原理，不加以限定。

303、终端获取该图像的像素点的光流估计参数，光流估计参数用于表示像素点在该图像和该图像的下一帧图像之间的原位移。

在一种可选的实现方式中，终端通过光流估计模型预测该图像的像素点的光流估计参数。上述步骤303包括：终端将该图像输入到光流估计模型中，得到该图像的像素点的光流估计参数。

其中，光流估计模型用于预测当前帧图像的像素点向下一帧图像运动的位移。可选地，光流估计模型为通过FlowNet(光流神经网络)训练得到的预测模型。在光流估计模型的训练过程中，通过光流神经网络对多对训练图像进行光流估计；基于光流神经网络输出的光流估计参数以及真实的光流估计参数，对光流神经网络的网络参数进行更新，以使光流神经网络输出的光流估计参数尽可能接近真实的光流估计参数。

上述技术方案，通过光流估计模型来预测一帧图像的像素点的光流估计参数，光流估计模型能够用于对任意格式的视频中的图像的光流估计参数进行预测，从而能够支持任意视频的交互播放，扩展了视频交互播放的应用范围。

在另一种可选的实现方式中，视频的编码数据包括视频中图像的像素点的光流估计参数，终端能够对视频的编码数据进行解码，得到图像的像素点的光流估计参数。该光流估计参数是在视频的编码过程中预先确定出并编码到视频的编码数据中的，其中，该光流估计参数是用于进行视频编码的计算机设备预先根据相邻两帧图像的像素点的位移变化确定出的。

上述技术方案，通过在视频的编码数据中预先编码图像中像素点的光流估计参数，在视频播放过程中，能够从视频的编码数据中直接解码出像素点的光流估计参数，进而基于直接解码出的光流估计参数，进行视频处理，能够提高视频处理的效率。

需要说明的是，图像中像素点的光流估计参数也可以通过其他光流估计算法计算得到。例如，Lucas–Kanade(一种两帧差分的光流估计算法)算法、Horn–Schunck(一种估计图像的稠密光流场的光流估计算法)算法等光流估计算法。在本申请实施例中，对光流估计参数的获取方式，不加以限定。

需要说明的另一点是，在本申请实施例中，对获取调整参数以及获取光流估计参数的先后顺序以先获取调整参数，再获取光流估计参数为例进行说明，而在一些可能实施例中，上述终端获取调整参数的步骤以及终端获取光流估计参数的步骤还能够按照其他时序进行。可选地，终端同时获取调整参数和光流估计参数；或者，终端先获取光流估计参数，再获取调整参数，本申请实施例对此不加以限定。

304、终端基于调整参数和像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置，以显示目标图像。

终端将交互操作的作用效果叠加在交互操作所作用的操作区域上。终端响应于像素点为交互操作所作用的像素点，基于调整参数和该像素点的光流估计参数，将该像素点从原显示位置偏移至目标显示位置；以及，终端响应于像素点为交互操作未作用的像素点，基于该像素点的光流估计参数，将该像素点从原显示位置偏移至目标显示位置，以显示目标图像。

例如，对于自然类记录片中以动物为主体对象的动物类纪录片，若交互操作作用在动物皮毛的区域上，基于上述过程，对像素点进行偏移，能够在目标图像中呈现出动物皮毛的形变，产生对动物皮毛的拂动效果。对于自然类记录片中以自然景观为主体对象的自然景观类纪录片，若交互操作作用在河流的区域上，交互操作的作用方向与河流流向相同，基于上述过程，对像素点进行偏移，能够在目标图像中呈现出加速水的流动的作用效果。若交互操作作用在雪地的区域上，基于上述过程，对像素点进行偏移，能够在目标图像中呈现出雪的变化效果。

上述技术方案，通过结合交互操作对应的调整参数，进行像素点的偏移，将交互操作的作用效果叠加在了交互操作所作用在的操作区域上，从而在目标图像中突显出交互操作的作用效果，通过视频画面上的形变对用户的交互操作做出反馈，丰富了视频的交互效果，实现了视频的交互播放，扩展了视频播放过程中的体验方式。

并且，基于光流估计参数对图像中的像素点进行偏移处理，充分利用了视频播放的先验知识，减少了复杂的视频理解和计算，视频处理的计算量较小且易于部署，进而能够提高视频处理的效率，扩展视频交互播放的应用范围。

可选地，上述基于调整参数和像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置的步骤包括：终端响应于像素点为交互操作所作用的像素点，基于调整参数和像素点的光流估计参数，确定目标偏移参数；终端基于目标偏移参数所指示的偏移距离和偏移方向，将像素点从原显示位置偏移至目标显示位置。可选地，终端基于三角形定则、平行四边形定则或者坐标系解法等向量求和方法，将调整参数与光流估计参数相加，得到目标偏移参数。

上述技术方案，先基于调整参数和光流估计参数，确定目标偏移参数，从而能够基于目标偏移参数，一次将像素点从原显示位置偏移至目标显示位置，提高了像素点的偏移效率，进而能够提高视频处理的效率。

需要说明的一点是，终端也可以先基于光流估计参数，将像素点从原显示位置偏移至中间显示位置；再基于调整参数，将像素点从中间显示位置偏移至目标显示位置。在本申请实施例中，对像素点从原显示位置偏移至目标显示位置的过程，不加以限定。

需要说明的另一点是，叠加交互操作的作用效果是视频播放过程中的辅助功能，目的是为了丰富用户的视频观看体验，在叠加交互操作的作用效果的同时，仍应保持视频中的对象原有的运动趋势。例如，视频中的动物的运动趋势为向前行走，对动物皮毛的交互操作不应影响到该动物向前行走的运动趋势。在本申请实施例中，通过赋予交互操作一定的影响权重，使交互操作的作用效果不影响视频中对象原有的运动趋势。相应的，终端基于调整参数和像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置，以显示目标图像的步骤包括：终端获取交互操作对应的影响权重，该影响权重用于表示交互操作对像素点的显示位置偏移的影响程度；终端基于影响权重，对调整参数进行加权处理，基于加权处理后的调整参数和像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置，以显示目标图像。

上述终端基于影响权重、调整参数和光流估计参数，将像素点从原显示位置偏移至目标显示位置，以显示目标图像的过程基于以下公式二实现：

公式二：Image_i+1＝Image_i+Flow_i+λ×ΔW_i

其中，Image_i+1表示第i帧图像对应的目标图像，i为正整数。Image_i表示第i帧图像，该第i帧图像为交互操作所作用的图像。Flow_i表示第i帧图像的光流估计参数，Flow_i为具有方向的矢量，Flow_i的模为非负数。λ表示影响权重，λ为大于0，并且，小于或等于1的任一数值。ΔW_i表示作用在第i帧图像上的交互操作的作用力度对应的调整参数，ΔW_i为具有方向的矢量，ΔW_i的模为非负数。上述公式二表示：对于第i帧图像中交互操作所作用的像素点，基于影响权重，对交互操作对应的调整参数进行加权处理；对加权处理后的调整参数以及光流估计参数求和，基于求和结果，将像素点从原显示位置偏移至目标显示位置，显示目标图像。

上述技术方案，通过赋予交互操作对应的调整参数一定的影响权重，使得交互操作的作用效果的叠加不影响视频中的对象原有的运动趋势，视频能够按照原有进度正常播放，在保证用户的视频观看体验的基础上，进一步丰富了交互效果。

需要说明的另一点是，若终端未检测到作用于图像上的交互操作，则终端不获取交互操作对应的调整参数，直接显示该图像的下一帧图像即可。

需要说明的另一点是，终端除了将交互操作的作用效果叠加在下一帧图像上，在视觉方面提升视频的交互体验之外，还通过以下步骤305至步骤307，播放交互操作所作用的对象的音频数据，进行相应的声音反馈，进一步丰富视频的交互效果。

305、终端响应于作用在该图像上的交互操作，确定该交互操作所作用的第一对象。

图像中存在至少一个对象。例如，在自然类记录片所包括的图像中，存在动物、树木、河流、草地等对象。其中，图像中的每个对象占用该图像中的一块区域进行呈现。

可选地，终端基于语义分割来确定交互操作所作用的第一对象。相应的，上述步骤305包括：终端响应于作用在图像上的交互操作，对图像进行语义分割处理，得到至少一个第一像素区域；终端从至少一个第一像素区域中确定交互操作所作用在的第一目标区域；终端将第一目标区域中的对象确定为第一对象。

其中，每个第一像素区域用于表示图像中的一个对象。例如，图像包括狮子、草地和河流，则对该图像进行语义分割得到用于表示狮子的第一像素区域、用于表示草地的第一像素区域以及用于表示河流的第一像素区域。若交互操作作用在用于表示狮子的第一像素区域中，则交互操作所作用的第一对象为狮子。

上述技术方案，通过语义分割将图像划分为多个用于表示不同对象的区域，每个区域代表图像中的一个对象，将交互操作所作用在的区域中的对象确定为交互操作所作用的第一对象，由于语义分割从像素级别进行区域划分，所划分出的区域边框更加精细，从而能够更加准确的确定出交互操作所作用的对象，进而能够使得所播放的音频数据与交互操作所作用的对象相匹配，使得音频数据的播放更加符合真实场景，进一步提升视频的交互体验。

需要说明的一点是，终端能够通过图像分割模型，对图像进行语义分割处理，得到至少一个第一像素区域。在一个示例中，图像分割模型的网络结构以CNN(ConvolutionalNeural Networks，卷积神经网络)为基础。图像分割模型为编码器-解码器的架构。图像分割模型的编码器部分通过卷积层捕捉图像中的局部特征，并以层级的方式将多个用于捕捉图像的局部特征的模块嵌套在一起，从而提取图像的复杂特征，将图像的内容编码为紧凑表征，得到相较于原图像尺寸缩小的特征图，来表示每个像素所属的类别标签，图像分割模型的解码器部分接收到相较于原图像尺寸缩小的特征图，通过转置卷积执行上采样，从而将尺寸缩小的特征图扩展到原图像尺寸，生成用于表示原始图像中各像素点的类别标签的数组，由类别标签相同的多个像素点组成第一像素区域。

需要说明的另一点是，由于视频中相邻多帧图像之间存在相关性，多帧图像所包括的对象相同，同一对象在多帧图像中的位置存在差异。因此，在对一帧图像进行语义分割之后，能够基于光流估计，对同一像素区域内的像素点进行追踪，从而通过像素点的追踪在下一帧图像中确定用于表示不同对象的像素区域。

因此，终端响应于作用在图像上的交互操作，对图像进行语义分割处理，得到至少一个第一像素区域之后，还可以通过以下步骤在交互操作作用在目标图像上时，确定交互操作在目标图像中所作用的对象，播放该对象对应的音频数据：终端基于原显示位置在第一像素区域内的像素点在目标图像中的目标显示位置，确定目标图像的第二像素区域，其中，第二像素区域中的像素点的原显示位置在第一像素区域内；终端响应于交互操作作用在目标图像上，从至少一个第二像素区域中确定交互操作所作用在的第二目标区域；终端将第二目标区域中的对象确定为第二对象，播放第二对象对应的音频数据。

上述技术方案，通过语义分割确定一帧图像的多个用于表示不同对象的像素区域之后，能够基于光流估计，对像素点进行追踪，以得到该帧图像之后的一帧或者多帧图像中的多个像素区域，不需要对每帧图像进行语义分割处理，就能得到图像中的多个像素区域，节省了多次语义分割处理所消耗的时间，提高了确定交互操作所作用的对象的效率，进而能够提高声音反馈的效率，进一步提升视频交互体验。

需要说明的另一点是，终端也可以通过目标检测、分类定位或者实例分割等方法确定交互操作所作用的对象，在本申请实施例中，对确定交互操作所作用的对象的过程，不加以限定。

306、终端从对象与音频数据的对应关系中，确定第一对象对应的音频数据。

在一种可选的实现方式中，视频的编码数据包括对象与音频数据的对应关系，终端能够对视频的编码数据进行解码，得到对象与音频数据的对象关系；从对象与音频数据的对应关系中，确定第一对象的音频数据。

在另一种可选的实现方式中，服务器存储有对象与音频数据的对应关系，终端能够向服务器发送音频数据获取请求，该音频数据获取请求用于请求获取第一对象对应的音频数据；服务器接收终端的音频数据获取请求；从已存储的对象与音频数据的对应关系中，确定第一对象对应的音频数据；向终端返回该音频数据；终端接收服务器返回的音频数据。可选地，服务器在音频数据库中存储对象与音频数据的对应关系。

需要说明的一点是，用于进行视频编码的计算机设备将对象与音频数据的对应关系编码到编码数据中之前，或者服务器从已存储的对象与音频数据的对应关系中，确定第一对象对应的音频数据之前，还生成对象与音频数据的对应关系。在本申请实施例中，以服务器生成对象与音频数据的对应关系为例进行说明。用于进行视频编码的计算机设备生成对象与音频数据的对应关系的过程与服务器生成对象与音频数据的对应关系的过程同理。

其中，服务器生成对象与音频数据的对应关系的步骤包括以下步骤1至步骤3：

步骤1、服务器确定视频中的主体对象。

主体对象为视频中重点呈现的对象。例如，在自然类记录片中，主体对象为森林、动物、河流等；在天文类记录片中，主体对象为宇宙中的星体、气体等；在食物类纪录片中，主体对象为各种食材。

可选地，服务器对视频中的图像进行语义分割，确定图像中的对象；将视频划分为多个视频片段；确定每个对象在视频片段中的出现频次；将每个对象在视频片段中的出现频次与该视频片段中各个对象的出现频次之和的比值，确定为每个对象的出现比重；将出现比重大于参考阈值的对象确定为主体对象。其中，服务器可以按照固定时长将视频划分为多个视频片段，例如，视频的总时长为1小时，服务器每5分钟截取一个视频片段。参考阈值为预设的大于0小于1的阈值，例如，参考阈值为0.8、0.9等。

步骤2、服务器获取主体对象的音频数据。

在一种可选的实现方式中，服务器从存在主体对象的视频的视频片段中，提取主体对象的音频数据。例如，对于动物类记录片，若动物类记录片中包括狮子，服务器从狮子出现的视频片段中，对狮子的音频数据进行提取。

需要说明的一点是，若主体对象为森林或者动物，在提取主体对象的音频数据的过程中，需要先过滤掉人声影响较大的视频片段，确定出主体对象的音频数据较为单纯的视频片段进行音频提取。例如，自然类记录片的音频数据中通常包括旁白，存在旁白的视频片段为人声影响较大的视频片段，不存在旁白的视频片段为主体对象的音频数据较为单纯的视频片段。若视频片段中不存在音频数据较为单纯的视频片段，服务器可以对存在人声的视频片段进行人声的降噪过滤，提取出主体对象的音频数据。

在另一种可选的实现方式中，服务器从除主体对象所在的视频之外的其他音频数据源中获取主体对象的音频数据进行补充。例如，对于自然景观类记录片或者天文类记录片，主体对象为山、星空等，主体对象是静止目标，主体对象所在的视频中该主体对象的音频数据较少，需要通过其他音频数据源进行音频数据的补充。若主体对象为石山，可以从其他音频数据源中获取触摸石头的音频数据。若主体对象为星空，可以从音频数据源中获取风铃的音频数据。再如，对于动物类视频，可以通过其他音频数据源获取动物毛发的摩擦声。

需要说明的一点是，可选地，服务器获取主体对象的音频数据之前，按照视频类型，对需要增加视频交互播放功能的多个视频进行分类，例如，将多个视频分为不易提取主体对象的音频数据的自然景观类视频以及主体对象的音频数据较为丰富的动物类视频。对于自然景观类视频，主要通过其他音频数据源进行音频数据的提取。对于动物类视频，主要通过从存在主体对象的视频的视频片段中，提取主体对象的音频数据的方式进行音频数据的提取。

步骤3、服务器生成主体对象与主体对象的音频数据的对应关系。

服务器获取到主体对象的音频数据后，生成主体对象与主体对象的音频数据的对应关系，以在视频交互播放的过程中，提取相应的音频数据进行播放，丰富视频交互播放过程的视听体验。可选地，服务器将主体对象与主体对象的音频数据的对应关系存储于音频数据库中。

307、终端播放第一对象对应的音频数据。

终端对第一对象对应的音频数据进行播放。可选地，终端在播放视频原有的音频数据的同时，播放第一对象对应的音频数据。可选地，终端播放第一对象对应的音频数据的音量大于播放视频原有的音频数据的音量，以突出交互操作所产生的声音反馈效果。

本申请实施例提供的技术方案，一方面，将交互操作的作用效果呈现在所显示的下一帧图像上，在视觉上表现出对交互操作的反馈，另一方面，通过播放交互操作所作用的对象的音频数据，表现出对交互操作的声音反馈，从而从视觉和听觉两个方面，在视频播放过程中，对用户的交互操作做出反馈，能够实现视频的交互播放，增强用户体感，提升视频交互播放过程中的视听效果。

需要说明的一点是，可选地，终端还结合交互操作的作用力度，实现不同音量的声音反馈。相应的，上述步骤307包括：终端获取交互操作的作用力度对应的播放音量；终端按照播放音量，播放第一对象对应的音频数据。其中，作用力度与播放音量呈正相关，作用力度越大，播放音量越大。

可选地，终端基于音量转换参数和作用力度，确定作用力度对应的播放音量。例如，作用力度为0.1N，音量转换参数为400，播放音量为40。或者，终端存储有作用力度与播放音量的对应关系，基于该对应关系确定播放音量。或者，终端通过向服务器发送音量转换请求，请求服务器返回作用力度对应的播放音量。在本申请实施例中，对终端获取交互操作的作用力度对应的播放音量的过程，不加以限定。

上述技术方案，能够按照交互操作的作用力度，实现不同音量的声音反馈，从而进一步提升视频交互播放的视听效果，丰富视频的交互体验。

需要说明的一点是，在本申请实施例中，以终端按照顺序执行步骤302至步骤307为例进行说明。而在一些可能的实施例中，终端还能够按照其他时序执行步骤302至步骤307。可选地，终端同时执行步骤302至步骤304以及步骤305至步骤307；或者，终端先执行步骤305至步骤307，再执行步骤302至步骤304，本申请实施例对此不加以限定。可选地，终端显示目标图像的同时，播放第一对象对应的音频数据，以使交互操作产生的视觉效果和声音效果同步产生，增强用户体感，进一步提升视听效果。

为了使视频交互播放的过程更加清晰，下面结合图4进行说明，参见图4，视频交互播放的过程开始之前，执行视频中主体对象的提取以及音频数据库的建立的过程401。其中，过程401可以通过步骤306中生成对象与音频数据的对应关系的步骤1至步骤3实现。视频交互播放的过程包括：402、视频播放，观看者打开交互播放模式，终端通过上述步骤301显示视频中的图像；403、观看者触摸交互；404、基于光流估计的交互算法，终端通过上述步骤302至步骤304基于光流估计显示目标图像，呈现触摸交互的作用效果；405、声音反馈，终端通过上述步骤305至步骤307播放观看者交互操作所作用的对象的音频数据，实现声音反馈；406、最终交互播放，终端在显示目标图像的同时，播放交互操作所作用的对象的音频数据，实现最终的交互播放。

需要说明的另一点是，终端通过上述步骤302至步骤304呈现交互操作造成的视觉效果即可，终端可以不执行步骤305至步骤307，增加交互操作造成的声音效果。

需要说明的另一点是，上述实施例以终端进行视频的交互播放为例进行说明。可选地，视频的交互播放也可以通过终端与服务器之间的交互实现。例如，终端在视频的播放过程中，显示视频中的一帧图像；响应于作用在该图像上的交互操作，向服务器发送视频处理请求，以请求服务器确定目标图像；终端接收服务器返回的目标图像，显示目标图像。服务器确定目标图像的过程与终端确定目标图像的过程同理。可选地，视频处理请求还用于请求服务器确定交互操作对应的音频数据，终端接收服务器返回的音频数据，播放该音频数据。服务器确定交互操作对应的音频数据的过程与终端确定交互操作对应的音频数据的过程同理。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图5是本申请实施例提供的一种视频处理装置的框图。参见图5，该装置包括：

第一显示模块501，用于在视频的播放过程中，显示视频中的一帧图像；

第一获取模块502，用于响应于作用在图像上的交互操作，获取交互操作对应的调整参数，调整参数用于对图像中像素点的显示位置进行调整；

第二获取模块503，用于获取图像的像素点的光流估计参数，光流估计参数用于表示像素点在图像和图像的下一帧图像之间的原位移；

第二显示模块504，用于基于调整参数和像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置，以显示目标图像。

在一种可选的实现方式中，第一获取模块502，包括：

力度获取单元，用于响应于作用在图像上的交互操作，获取交互操作的作用力度；

参数确定单元，用于基于交互操作的作用力度，确定与作用力度匹配的调整参数。

在另一种可选的实现方式中，参数确定单元，用于：

基于最大作用力度、最大作用力度对应的最大调整参数、交互操作的作用力度，确定调整参数；

其中，调整参数与最大调整参数呈正相关，调整参数与最大作用力度呈负相关，调整参数与交互操作的作用力度呈正相关。

在另一种可选的实现方式中，第二获取模块503，用于将图像输入到光流估计模型中，得到图像的像素点的光流估计参数；

或者，第二获取模块503，用于对视频的编码数据进行解码，得到图像的像素点的光流估计参数。

在另一种可选的实现方式中，第二显示模块504，包括：

像素点偏移单元，用于响应于像素点为交互操作所作用的像素点，基于调整参数和像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置。

在另一种可选的实现方式中，像素点偏移单元，用于：

响应于像素点为交互操作所作用的像素点，基于调整参数和像素点的光流估计参数，确定目标偏移参数；

基于目标偏移参数所指示的偏移距离和偏移方向，将像素点从原显示位置偏移至目标显示位置。

在另一种可选的实现方式中，第二显示模块504，用于：

获取交互操作对应的影响权重，影响权重用于表示交互操作对像素点的显示位置偏移的影响程度；

基于影响权重，对调整参数进行加权处理，基于加权处理后的调整参数和像素点的光流估计参数，将像素点从原显示位置偏移至目标显示位置，以显示目标图像。

在另一种可选的实现方式中，该装置还包括：

第一对象确定模块，用于响应于作用在图像上的交互操作，确定交互操作所作用的第一对象；

音频确定模块，用于从对象与音频数据的对应关系中，确定第一对象对应的音频数据；

音频播放模块，用于播放第一对象对应的音频数据。

在另一种可选的实现方式中，第一对象确定模块，用于：

响应于作用在图像上的交互操作，对图像进行语义分割处理，得到至少一个第一像素区域；

从至少一个第一像素区域中确定交互操作所作用在的第一目标区域；

将第一目标区域中的对象确定为第一对象。

在另一种可选的实现方式中，该装置还包括：

像素跟踪模块，用于基于原显示位置在第一像素区域内的像素点在目标图像中的目标显示位置，确定目标图像的第二像素区域，第二像素区域中的像素点的原显示位置在第一像素区域内；

第一对象确定模块，还用于响应于交互操作作用在目标图像上，从至少一个第二像素区域中确定交互操作所作用在的第二目标区域；将第二目标区域中的对象确定为第二对象；

音频播放模块，还用于播放第二对象对应的音频数据。

在另一种可选的实现方式中，音频播放模块，用于：

获取交互操作的作用力度对应的播放音量；

按照播放音量，播放第一对象对应的音频数据。

在另一种可选的实现方式中，该装置还包括：

第二对象确定模块，用于确定视频中的主体对象；

音频提取模块，用于从存在主体对象的视频的视频片段中，提取主体对象的音频数据；

关系生成模块，用于生成主体对象与主体对象的音频数据的对应关系。

需要说明的是：上述实施例提供的视频处理装置在进行视频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理装置与视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备可被配置为终端或者服务器。若计算机设备被配置为终端，则由终端作为执行主体来实施本申请实施例提供的技术方案。若计算机设备被配置为服务器，则由服务器作为执行主体来实施本申请实施例提供的技术方案，或者，通过终端和服务器之间的交互来实施本申请实施例提供的技术方案，本申请实施例对比不加以限定。

若计算机设备被配置为终端，图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、VR设备等。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器601所执行以实现本申请中方法实施例提供的视频处理方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

若计算机设备被配置为服务器，图7是本申请实施例提供的一种服务器的框图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条程序代码，至少一条程序代码由处理器701加载并执行以实现上述各个方法实施例提供的视频处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，上述至少一条程序代码可由计算机设备的处理器执行以完成上述实施例中的视频处理方法。例如，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact DiscRead-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各个方法实施例中的视频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

在视频的播放过程中，显示所述视频中的一帧图像；

响应于像素点为交互操作所作用的像素点，基于所述调整参数和所述像素点的光流估计参数，将所述交互操作所作用的像素点从原显示位置偏移至目标显示位置；以及，响应于像素点为交互操作未作用的像素点，基于所述光流估计参数，将所述交互操作未作用的像素点从所述原显示位置偏移至目标显示位置，以显示目标图像，所述交互操作所作用的像素点从原显示位置偏移至目标显示位置的偏移量是通过所述原位移叠加所述交互操作对应的位移得到的。

2.根据权利要求1所述的方法，其特征在于，所述响应于作用在所述图像上的交互操作，获取所述交互操作对应的调整参数，包括：

响应于作用在所述图像上的交互操作，获取所述交互操作的作用力度；

基于所述交互操作的作用力度，确定与所述作用力度匹配的所述调整参数。

3.根据权利要求2所述的方法，其特征在于，所述基于所述交互操作的作用力度，确定与所述作用力度匹配的所述调整参数，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取所述图像的像素点的光流估计参数，包括下述任一项：

将所述图像输入到光流估计模型中，得到所述图像的像素点的光流估计参数；

对所述视频的编码数据进行解码，得到所述图像的像素点的光流估计参数，所述光流估计参数是在视频的编码过程中预先确定出并编码到视频的编码数据中的。

5.根据权利要求1所述的方法，其特征在于，所述响应于所述像素点为所述交互操作所作用的像素点，基于所述调整参数和所述像素点的光流估计参数，将所述交互操作所作用的像素点从原显示位置偏移至目标显示位置，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述调整参数和所述像素点的光流估计参数，将所述交互操作所作用的像素点从原显示位置偏移至目标显示位置，以显示目标图像，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于作用在所述图像上的交互操作，确定所述交互操作所作用的第一对象；

从对象与音频数据的对应关系中，确定所述第一对象对应的音频数据；

播放所述第一对象对应的音频数据。

8.根据权利要求7所述的方法，其特征在于，所述响应于作用在所述图像上的交互操作，确定所述交互操作所作用的第一对象，包括：

将所述第一目标区域中的对象确定为所述第一对象。

9.根据权利要求8所述的方法，其特征在于，所述响应于作用在所述图像上的所述交互操作，对所述图像进行语义分割处理，得到至少一个第一像素区域之后，所述方法还包括：

基于原显示位置在所述第一像素区域内的像素点在所述目标图像中的目标显示位置，确定所述目标图像的第二像素区域，所述第二像素区域中的像素点的原显示位置在所述第一像素区域内；

响应于所述交互操作作用在所述目标图像上，从至少一个第二像素区域中确定所述交互操作所作用在的第二目标区域；

将所述第二目标区域中的对象确定为第二对象，播放所述第二对象对应的音频数据。

10.根据权利要求7所述的方法，其特征在于，所述播放所述第一对象对应的音频数据，包括：

获取所述交互操作的作用力度对应的播放音量；

按照所述播放音量，播放所述第一对象对应的音频数据。

11.根据权利要求7所述的方法，其特征在于，所述从对象与音频数据的对应关系中，确定所述第一对象对应的音频数据之前，所述方法还包括：

确定所述视频中的主体对象；

从存在所述主体对象的所述视频的视频片段中，提取所述主体对象的音频数据；

生成所述主体对象与所述主体对象的音频数据的对应关系。

12.一种视频处理装置，其特征在于，所述装置包括：

第二显示模块，用于响应于像素点为交互操作所作用的像素点，基于所述调整参数和所述像素点的光流估计参数，将所述交互操作所作用的像素点从原显示位置偏移至目标显示位置；以及，响应于像素点为交互操作未作用的像素点，基于所述光流估计参数，将所述交互操作未作用的像素点从所述原显示位置偏移至目标显示位置，以显示目标图像，所述交互操作所作用的像素点从原显示位置偏移至目标显示位置的偏移量是通过所述原位移叠加所述交互操作对应的位移得到的。

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1-11任一项所述的视频处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1-11任一项所述的视频处理方法。