CN111915587A

CN111915587A - 视频处理方法、装置、存储介质和电子设备

Info

Publication number: CN111915587A
Application number: CN202010753962.XA
Authority: CN
Inventors: 李梦醒; 周佳; 包英泽
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-10
Anticipated expiration: 2040-07-30
Also published as: CN111915587B

Abstract

本发明实施例公开了一种视频处理方法、装置、存储介质和电子设备。本发明实施例在获取待拼接的第一图像序列以及第二图像序列后，确定第一图像序列中的第一图像以及第二图像序列中的第二图像的相似度，并在第一图像与第二图像的相似度满足预定相似度条件时，基于第一模型确定第一图像与第二图像对应的正向光流以及逆向光流，进而基于第二模型确定第一图像与第二图像对应的至少一个目标图像，从而根据目标图像对第一图像序列以及第二图像序列进行拼接处理，获取目标图像序列。本发明实施例基于第一图像以及第二图像得到平滑度较高的至少一个目标图像，从而可以根据目标图像提升两个图像序列之间的平滑度，从而降低视频交替播放过程中的卡顿效果。

Description

视频处理方法、装置、存储介质和电子设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种视频处理方法、装置、存储介质和电子设备。

背景技术

随着计算机技术领域的高速发展，图像采集装置的性能越来越高，图像采集装置性能的提升使得视频的拍摄时长越来越长，图像的清晰度也越来越高。拍摄时长的增长和图像清晰度的提升使得视频数据量明显增长，因此一段完整的视频有时会被分为多段以便于存储。但在视频播放的过程中，各段视频之间的平滑度较低，从而导致在相邻两段视频交替播放的过程中，可能会呈现出卡顿的效果。

发明内容

有鉴于此,本发明实施例的目的在于提供一种视频处理方法、装置、存储介质和电子设备，用于提升相邻两个图像序列之间的平滑度，从而降低视频交替播放过程中的卡顿效果。

根据本发明实施例的第一方面，提供一种视频处理方法，所述方法包括：

获取第一图像序列和第二图像序列；

确定第一图像与第二图像，所述第一图像为第一图像序列中非末尾的图像，所述第二图像为第二图像序列中非首位的图像；

确定所述第一图像与所述第二图像的相似度；

响应于所述相似度满足预定相似度条件，基于预先训练的第一模型，根据所述第一图像与所述第二图像确定对应的正向光流场向量以及逆向光流场向量，所述正向光流场向量用于表征所述第一图像与所述第二图像的正向光流，所述逆向光流场向量用于表征所述第一图像与所述第二图像的逆向光流；

基于预先训练的第二模型，根据所述正向光流场向量以及所述逆向光流场向量确定至少一个目标图像，所述目标图像为所述第一图像与所述第二图像之间的中间图像；

基于所述至少一个目标图像对所述第一图像序列以及第二图像序列进行拼接处理，得到目标图像序列。

根据本发明实施例的第二方面，提供一种视频处理装置，所述装置包括：

序列获取单元，用于获取第一图像序列和第二图像序列；

图像确定单元，用于确定第一图像与第二图像，所述第一图像为第一图像序列中非末尾的图像，所述第二图像为第二图像序列中非首位的图像；

相似度确定单元，用于确定所述第一图像与所述第二图像的相似度；

场向量确定单元，用于响应于所述相似度满足预定相似度条件，基于预先训练的第一模型，根据所述第一图像与所述第二图像确定对应的正向光流场向量以及逆向光流场向量，所述正向光流场向量用于表征所述第一图像与所述第二图像的正向光流，所述逆向光流场向量用于表征所述第一图像与所述第二图像的逆向光流；

图像生成单元，用于基于预先训练的第二模型，根据所述正向光流场向量以及所述逆向光流场向量确定至少一个目标图像，所述目标图像为所述第一图像与所述第二图像之间的中间图像；

序列拼接单元，用于基于所述至少一个目标图像对所述第一图像序列以及第二图像序列进行拼接处理，得到目标图像序列。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

根据本发明实施例的第四方面，提供一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

本发明实施例在获取待拼接的第一图像序列以及第二图像序列后，确定第一图像序列中的第一图像以及第二图像序列中的第二图像的相似度，并在第一图像与第二图像的相似度满足预定相似度条件时，基于第一模型确定第一图像与第二图像对应的正向光流以及逆向光流，进而基于第二模型确定第一图像与第二图像对应的至少一个目标图像，从而根据目标图像对第一图像序列以及第二图像序列进行拼接处理，获取目标图像序列。本发明实施例基于第一图像以及第二图像得到平滑度较高的至少一个目标图像，从而可以根据目标图像提升两个图像序列之间的平滑度，从而降低视频交替播放过程中的卡顿效果。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的视频处理方法的流程图；

图2是本发明第一实施例在目标时刻的光流场的示意图；

图3是本发明第一实施例的图像插值的示意图；

图4是本发明第一实施例的一种可选的实现方式中训练第一模型与第二模型的流程图；

图5是本发明第一实施例的方法获取目标图像的数据流向图；

图6是本发明第一实施例的方法获取目标图像序列的示意图；

图7是本发明第二实施例的视频处理装置的示意图；

图8是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

随着计算机技术领域的高速发展，图像采集装置(例如，摄像机、具有拍照功能的手机、平板电脑等)的性能越来越高，图像采集装置性能的提升使得视频的拍摄时长越来越长，图像的清晰度也越来越高。拍摄时长的增长和图像清晰度的提升使得视频数据量明显增长，因此一段完整的视频有时会被分为多段以便于存储。但在视频播放的过程中，各段视频之间的平滑度较低，也即，前一段视频的最后一帧图像与相邻的后一段视频的第一帧图像的重合度不高，从而导致在相邻两段视频交替播放的过程中，图像的过渡较为生硬，从而呈现出卡顿的效果。

图1是本发明第一实施例的视频处理方法的流程图。如图1所示，本实施例的方法包括如下步骤：

步骤S101，获取第一图像序列和第二图像序列。

本实施例的第一图像序列和第二图像序列为具有播放顺序的图像序列，也就是说，在视频播放的过程中，其中一个图像序列播放完毕后，才会播放另一个图像序列。在本实施例中，第一图像序列为播放顺序在前的图像序列，第二图像序列为播放顺序在后的图像序列。

可选地，第一图像序列和第二图像序列可以为同一视频数据经过分段获得的两个图像序列，也可以为两个单独的视频序列，本实施例不做具体限定。

步骤S102，确定第一图像与第二图像。

在获取第一图像序列与第二图像序列后，服务器可以从第一图像序列中确定第一图像，并从第二图像序列中确定第二图像。第一图像为第一图像序列中非末尾的图像，例如，可以为第一图像序列中倒数第n(其中，n为大于等于1的预定整数)个图像；类似地，第二图像为第二图像序列中非首位的图像，例如，可以为第二图像序列中正数第n个图像。

以第一图像序列和第二图像序列的图像采集周期均为0.1秒为例，第一图像可以为第一图像序列中倒数0.5秒的图像，第二图像可以为第二图像序列中正数0.5秒的图像。

容易理解，本实施例提到的“倒数”以及“正数”是相对于第一图像序列以及第二图像序列的时间轴正方向说明的。

步骤S103，确定第一图像与第二图像的相似度。

在本步骤中，服务器可以计算第一图像与第二图像的光流相似度作为第一图像与第二图像的相似度。光流是空间(也即，三维)移动物体在像素观察平面(也即，二维的图像序列)上的投影，根据物体和相机的相对速度产生，反映了物体在极短时间段内对应的图像像素的运动方向和速度。光流的本质是一个二维向量场，每个向量表示了场景中该图像像素从前一帧(在本实施例中，也即第一图像)到后一帧(在本实施例中，也即第二图像)的位移。

在本实施例中，可以选择TVL1(Total Variation L1-regulation，基于L1范数正则化的全变分算法)来计算第一图像与第二图像的光流相似度。TVL1是一种OpenCV(一种基于开源发行的跨平台计算机视觉和机器学习软件库)函数，通过将第一图像与第二图像转换为灰度图像，并输出一个光流场图像，光流场图像中的各像素值用于表征对应的图像像素从在第一图像中的位置移动到在第二图像中的位置的过程中，在x方向和y方向的位移。也就是说，在本实施例中，光流相似度用于表征图像像素的位移。

可选地，还可以采用其他的光流相似度算法来确定第一图像与第二图像的光流相似度，例如TVL2(Total Variation L2-regulation，基于L2范数正则化的全变分算法)、Horn-Schunck(霍恩-舒克)方法等，本实施例不做具体限定。

步骤S104，基于预先训练的第一模型，根据第一图像与第二图像确定对应的正向光流场向量以及逆向光流场向量。

在本步骤中，服务器可以响应于第一图像与第二图像的相似度满足预定相似度条件，基于预先训练的第一模型，根据第一图像与第二图像确定对应的正向光流场向量以及逆向光流场向量。其中，正向光流场向量用于表征第一图像与第二图像之间的正向光流，逆向光流场向量用于表征第一图像与第二图像之间的逆向光流。

光流相似度用于表征图像像素的位移，在位移过大时，光流相似度较低，无法对第一图像与第二图像进行无感拼接；而在位移过小时，光流相似度较高，可以将第一图像与第二图像直接进行拼接。因此，在本实施例中，预定相似度条件可以为光流相似度大于第一阈值且小于第二阈值。

在本实施例中，第一模型用于计算光流，具体可以为CNN(Convolutional NeuralNetwork，卷积神经网络)。CNN是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。CNN仿造生物的视知觉(Visual Perception)机制构建，可以进行有监督学习和无监督学习，隐层内卷积核参数共享和层间连接的稀疏性使得CNN能够以较小的计算量对格点化(grid-like topology)特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求。更具体地，第一模型可以为Cascade R-CNN(CascadeRegion-Convolutional Neural Network，级联区域卷积神经网络)。

第一模型的主要架构为U-Net，U-Net为全卷积神经网络，由编码器和解码器组成。U-Net结构使得第一模型包括多个层次结构，各层次结构包括双线性上采样层、卷积以及Leaky ReLU(一种激活函数)层构成，除最后一个结构层次外，各层次结构还包括一个平均池化层。也就是说，在第一图像和第二图像输入后，各层次结构首先使用双线性上采样层将第一图像和第二图像的空间维数增加2倍，并经过卷积以及Leaky ReLU(一种激活函数)层对第一图像以及第二图像进行处理，然后在除最后一个层次结构的各层次结构的末尾，使用一个步长为2的平均池化层来减少第一图像和第二图像的空间维度。

步骤S105，基于预先训练的第二模型，根据正向光流场向量以及逆向光流场向量确定至少一个目标图像。

在获取第一图像与第二图像对应的正向光流场向量以及逆向光流场向量后，服务器可以根据正向光流场向量以及逆向光流场向量确定第一近似光流场向量以及第二近似光流场向量。其中，第一近似光流场向量用于表征目标时刻的正向近似光流，第二近似光流场向量用于表征目标时刻的逆向近似光流。

目标时刻为第一图像与第二图像之间的中间图像对应的时刻。在本实施例中，第一图像通过I₀来表示，第二图像通过I₁来表示，因此目标时刻的取值范围在0到1之间。以图像的采集周期为0.1秒，且第一图像为第一图像序列中倒数0.5秒的图像，第二图像为第二图像序列中正数0.5秒的图像为例，第一图像与第二图像之间共有0.9秒，因此目标时刻可以取0.1,0.2,0.3,……,0.9共九个值。

由于中间图像未知，目标时刻的正向光流场向量和逆向光流场向量很难获取。图2是本发明第一实施例在目标时刻的光流场的示意图。如图2所示，各点表示一个像素，同一列的像素对应相同的时刻，同一行的像素对应相同的位置。对于T＝t(也即，目标时刻)的像素21，可以通过T＝0(也即，第一图像对应的时刻)时相同位置的像素，也即像素22对应的正向光流和T＝1(也即，第二图像对应的时刻)时相同位置的像素，也即像素23对应的逆向光流来近似像素22对应的光流场向量。具体地，可以根据像素22对应的正向光流确定第一近似光流场向量

并根据像素23对应的正向光流确定第二近似光流场向量

具体地，第一近似光流场向量

可以通过如下公式确定：

其中，F_0→1用于表征第一图像与第二图像对应的正向光流场向量，F_1→0用于表征第一图像与第二图像对应的逆向光流场向量。

类似地，第二近似光流场向量

可以通过如下公式确定：

但上述近似方法在平滑的区域内效果较好，而在运动边界附近的效果不佳，因为运动边界附近的运动不是局部平滑的，会产生伪影。因此服务器可以根据第一图像以及第一近似光流场向量确定第一插值函数，并根据第二图像以及第二近似光流场向量确定第二插值函数。

在本实施例中，第一插值函数和第二插值函数均为双线性插值函数。可选地，服务器可以分别根据第一图像、第一近似光流场向量以及第二图像、第二近似光流场向量确定部分待修正图像，然后分别基于第一插值函数

以及第二插值函数

对部分待修正图像进行双线性插值，以获得待修正图像中的缺失元素。

图3是本发明第一实施例的图像插值的示意图。图3以第一插值函数为例进行说明，容易理解，第二插值函数的确定方式与第一插值函数相似。在T＝0时刻，像素31、像素32、像素33和像素34为相邻的四个像素，位置关系如图3左上侧所示；在T＝t时刻，像素31、像素32、像素33和像素34发生了移动且互不相邻，位置关系如图3右上侧所示。在计算T＝t时刻，像素31、像素32、像素33和像素34之间的缺失像素，如像素35时，服务器可以以像素31指向像素32的方向为X轴正方向，以像素31指向像素33的方向为Y轴正方向，然后设定T＝t时刻时像素31、像素32、像素33和像素34的坐标分别为(0,0)、(1,0)、(0,1)和(1,1)，进而根据像素35与像素31、像素32、像素33和像素34的距离，也即，x,1-x,y和1-y(其中，x和y均为大于0且小于1的实数)确定像素35对应的像素值。具体地，第一插值函数

可以通过如下公式表示：

f(x,y)≈f(0,0)*(1-x)(1-y)+f(1,0)*x(1-y)+f(0,1)*(1-x)y+f(1,1)xy；

其中，(x,y)为像素35的坐标值，f(x,y)为像素35的像素值，f(0,0)为像素31的像素值，f(1,0)为像素32的像素值，f(0,1)为像素33的像素值，f(1,1)为像素34的像素值。

可选地，服务器也可以根据第一图像、第一近似光流场向量、第二图像以及第二近似光流场向量确定完整的待修正图像，然后对待修正图像进行双线性插值，以获得待修正图像中的缺失元素。

在确定第一近似光流场向量、第二近似光流场向量、第一插值函数以及第二插值函数后，服务器可以以第一图像、第一近似光流场向量、第一插值函数、第二图像、第二近似光流场向量以及第二插值函数为输入，基于第二模型得到目标时刻的正向可视图、逆向可视图、第一增量和第二增量，以基于第二模型对待修正图像进行残差修正。其中，正向可视图以及逆向可视图用于表征目标图像的可见性，第一增量用于表征第一近似光流场向量在目标时刻的增量，第二增量用于表征第二近似光流场向量在目标时刻的增量。

在本实施例中，第二模型用于对光流(也即，正向光流场向量和逆向光流场向量)进行矫正，且同样可以为CNN，具体可以为Cascade R-CNN。且与第一模型类似，第二模型的主要架构同样可以为U-Net。

在确定目标时刻的正向可视图、逆向可视图、第一增量和第二增量后，服务器可以根据第一图像、第二图像、目标时刻对应的正向可视图、逆向可视图、第一增量以及第二增量确定目标时刻对应的中间图像作为该时刻对应的目标图像。预测得到的目标图像具有较高的平滑度。具体地，预测得到的目标时刻t对应的目标图像

可以通过如下公式确定：

其中，z用于表征归一化因子，V_t←0用于表征目标时刻的逆向可视图，V_t←1用于表征目标时刻的正向可视图。

在本实施例中，第一模型与第二模型的训练方式为无监督的训练方式，服务器可以对第一模型与第二模型同时进行训练。图4是本发明第一实施例的一种可选的实现方式中训练第一模型与第二模型的流程图。如图4所示，在本实施例的一种可选的实现方式中，第一模型与第二模型可以通过如下方式进行训练：

步骤S401，获取多个图像组。

在本实施例中，各图像组均包括第一图像样本、第二图像样本和第三图像样本。第一图像样本、第二图像样本和第三图像样本为同一图像序列中的不同图像，且第三图像样本为时间戳介于第一图像样本以及第二图像样本之间的中间图像样本。

例如，作为样本的图像序列中包括图像P1、图像P2、…、图像P(m-1)以及图像Pm(其中，m为大于1的预定整数)，图像P1、图像P2、…、图像P(m-1)以及图像Pm按时间轴顺序先后排列，服务器可以将图像P1确定为第一图像样本，将图像Pm确定为第二图像样本，并将图像P2-图像P(m-1)中的至少一个图像确定为第三图像样本。

在确定第三图像样本后，服务器可以根据第三图像样本的数量确定第三图像样本对应的时刻。例如，第三图像样本的数量为9，则服务器可以将时间轴顺序最靠前的第三图像样本对应的时刻确定为0.1，将时间轴顺序最靠后的第三图像样本对应的时刻确定为0.9。

步骤S402，以各图像组中的第一图像样本和第二图像样本为输入，以对应的第三图像样本为训练目标，对第一模型以及第二模型同时进行训练，直至第一模型以及第二模型的损失函数收敛。

在第一模型和第二模型的训练过程中，服务器可以以各图像组中的第一图像样本和第二图像样本为输入，以对应的一个第三图像样本为训练目标，对第一模型以及第二模型同时进行训练，直至第一模型以及第二模型的损失函数收敛。

例如，图像组G1包括第一图像P1、第二图像P2、第三图像P31，第三图像P32和第三图像P33，服务器可以以第一图像P1和第二图像P2为输入，分别以第三图像P31、第三图像P32和第三图像P33为训练目标对第一模型以及第二模型同时进行训练。

在本实施例中，第一模型与第二模型共同的损失函数由四部分组成，四个部分分别用于表征第一模型以及第二模型的重建损失、语义损失、扭曲损失以及平滑损失。其中，重建损失用于表征中间图像重建的好坏，像素值通常在[0,255]范围内；语义损失用于保留预测的细节，并增强目标图像的清晰度；扭曲损失用于衡量目标图像的光流质量；平滑损失用于促进相邻像素间具有相似的光流。具体地，损失函数I可以通过如下公式表示：

I＝λ_rI_r+λ_pI_p+λ_wI_w+λ_sI_s；

其中，λ_r为重建损失I_r对应的权重，λ_p为语义损失I_p对应的权重,λ_w为扭曲损失I_w对应的权重，λ_s为平滑损失I_s对应的权重。可选地，可以将λ_r设置为0.8，将λ_p设置为0.005，将λ_w设置为0.4，并将λ_s设置为1。其中，重建损失I_r可以通过如下公式表示：

其中，i用于表征第i个第三图像样本，

用于表征时刻为t时预测得到的第三图像样本，I_t用于表征时刻为t时实际的第三图像样本。

语义损失I_p可以通过如下公式表示：

其中，Φ用于表征在ImageNet数据集上预训练的VGG16模型的conv4_3特征。

扭曲损失I_w可以通过如下公式表示：

平滑损失I_s可以通过如下公式表示：

由此，当损失函数收敛后，可以认为第一模型与第二模型训练完毕，可以在后续根据第一图像和第二图像得到平滑度较高的目标图像。

图5是本发明第一实施例的方法获取目标图像的数据流向图。如图5所示，服务器可得到第一图像序列中倒数第五个图像作为第一图像I₀，并获取第二图像序列中正数第五个图像作为第二图像I₁，然后将I₀和I₁输入模型51中，得到I₀和I₁对应的正向光流场向量F_0→1以及逆向光流场向量F_1→0。然后根据F_0→1以及F_1→0确定目标时刻对应的第一近似光流场向量

以及第二近似光流场向量

进而根据F_0→1以及

确定目标时刻对应的第一插值函数

并根据F_1→0以及

确定第二插值函数

进而将I₀、

以及I₁输入模型52中，得到目标时刻对应的逆向可视图V_t←0、正向可视图V_t←1、第一增量ΔF_t→1以及第二增量ΔF_t→0。从而根据I₀、V_t←0、ΔF_t→0、ΔF_t→1、V_t←1以及I₁，预测得到目标时刻对应的目标图像

步骤S106，基于至少一个目标图像对第一图像序列以及第二图像序列进行拼接处理，得到目标图像序列。

在得到至少一个目标图像后，服务器可以基于至少一个目标图像对第一图像序列或者第二图像序列中的至少一个待处理图像进行替换，并根据替换后的第一图像序列或者替换后的第二图像序列得到目标图像序列。

具体地，服务器可以将第一图像序列中时间戳晚于第一图像的图像或者第二图像序列中时间戳早于第二图像的图像确定为待处理图像，然后确定待处理图像的时间戳，并根据该时间戳，将待处理图像替换为对应的目标图像，获取替换后的第一图像序列或者替换后的第二图像序列，从而将替换后的第一图像序列与第二图像序列，或者第一图像序列与第二图像序列，或者替换后的第一图像序列与替换后的第二图像进行拼接，得到目标图像序列。

图6是本发明第一实施例的方法获取目标图像序列的示意图。如图6所示，第一图像I₀为第一图像序列，也即图像序列61中倒数第五个图像，第二图像I₁为第二图像序列中正数第五个图像，服务器得到的目标图像包括t＝0.2时的目标图像I_0.2。则服务器可以将图像序列61中倒数第三个图像作为待处理图像P₂，并获取待处理图像P₂的时间戳，根据该时间戳将待处理图像P₂替换为目标图像I_0.2得到替换后的第一图像序列，也即图像序列61’，从而将图像序列61’与第二图像序列，也即图像序列62进行拼接，从而得到目标图像序列，也即图像序列63。

容易理解，在本实施例中，服务器也可以对三段及以上的图像序列进行拼接处理。也就是说，在将第一图像序列与第二图像序列进行拼接得到目标图像序列后，服务器可以将目标图像序列更新为第一图像序列，并再次获取第二图像序列以进行拼接处理，得到新的目标图像序列。本实施例不对图像序列的数量进行限制。

可选地，在得到目标图像序列后，服务器还可以根据目标图像序列获取目标视频。可选地，本实施例的方法还可以包括如下步骤：

步骤S107，根据目标图像序列以及对应的音频序列确定目标视频。

可选地，在本步骤中，服务器可以通过现有的音视频同步的方式对目标图像序列以及音频序列进行同步，从而得到目标视频。可选地，服务器也可以已知第一图像序列与音频序列的时间戳对应关系以及第二图像序列与音频序列的时间戳对应关系，从而根据第一图像序列与音频序列的时间戳对应关系以及第二图像序列与音频序列的时间戳对应关系来进行音视频同步，从而得到目标视频。本实施例不做具体限定。

本实施例在获取待拼接的第一图像序列以及第二图像序列后，确定第一图像序列中的第一图像以及第二图像序列中的第二图像的相似度，并在第一图像与第二图像的相似度满足预定相似度条件时，基于第一模型确定第一图像与第二图像对应的正向光流以及逆向光流，进而基于第二模型确定第一图像与第二图像对应的至少一个目标图像，从而根据目标图像对第一图像序列以及第二图像序列进行拼接处理，获取目标图像序列。本实施例基于第一图像以及第二图像得到平滑度较高的至少一个目标图像，从而可以根据目标图像提升两个图像序列之间的平滑度，从而降低视频交替播放过程中的卡顿效果。

图7是本发明第二实施例的视频处理装置的示意图。如图7所示，本实施例的装置包括序列获取单元71、图像确定单元72、相似度确定单元73、场向量确定单元74、图像生成单元75以及序列拼接单元76。

其中，序列获取单元71用于获取第一图像序列和第二图像序列。图像确定单元72用于确定第一图像与第二图像，所述第一图像为第一图像序列中非末尾的图像，所述第二图像为第二图像序列中非首位的图像。相似度确定单元73用于确定所述第一图像与所述第二图像的相似度。场向量确定单元74用于响应于所述相似度满足预定相似度条件，基于预先训练的第一模型，根据所述第一图像与所述第二图像确定对应的正向光流场向量以及逆向光流场向量，所述正向光流场向量用于表征所述第一图像与所述第二图像的正向光流，所述逆向光流场向量用于表征所述第一图像与所述第二图像的逆向光流。图像生成单元75用于基于预先训练的第二模型，根据所述正向光流场向量以及所述逆向光流场向量确定至少一个目标图像，所述目标图像为所述第一图像与所述第二图像之间的中间图像。序列拼接单元76用于基于所述至少一个目标图像对所述第一图像序列以及第二图像序列进行拼接处理，得到目标图像序列。

图8是本发明第三实施例的电子设备的示意图。图8所示的电子设备为通用数据处理装置，具体可以为本发明实施例的第一终端、第二终端或服务器，其包括通用的计算机硬件结构，其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器81通过执行存储器82所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线83将上述多个组件连接在一起，同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置85通过输入/输出(I/O)控制器86与系统相连。

其中，存储器82可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取第一图像序列和第二图像序列；

确定所述第一图像与所述第二图像的相似度；

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个目标图像对所述第一图像序列以及第二图像序列进行拼接处理包括：

确定至少一个待处理图像的时间戳，所述待处理图像为所述第一图像序列中时间戳晚于所述第一图像的图像，或者为所述第二图像序列中时间戳早于所述第二图像的图像；

根据所述时间戳，将所述待处理图像替换为对应的所述目标图像，获取替换后的所述第一图像序列或者替换后的第二图像序列；

根据所述替换后的所述第一图像序列以及所述替换后的第二图像序列中的至少一项确定所述目标图像序列。

3.根据权利要求1所述的方法，其特征在于，所述确定所述第一图像与所述第二图像的相似度包括：

计算所述第一图像与所述第二图像的光流相似度作为所述相似度。

4.根据权利要求1所述的方法，其特征在于，所述基于预先训练的第二模型，根据所述正向光流场向量以及所述逆向光流场向量确定至少一个目标图像包括：

根据所述正向光流以及所述逆向光流确定第一近似光流场向量以及第二近似光流场向量，所述第一近似光流场向量用于表征目标时刻的正向近似光流，所述第二近似光流场向量用于表征所述目标时刻的逆向近似光流；

根据所述第一图像以及所述第一近似光流场向量确定第一插值函数；

根据所述第二图像以及所述第二近似光流场向量确定第二插值函数；

以所述第一图像、所述第二图像、所述第一近似光流场向量、所述第二近似光流场向量、所述第一插值函数以及所述第二插值函数为所述第二模型的输入，确定所述目标时刻的正向可视图、逆向可视图、第一增量和第二增量，所述第一增量用于表征所述第一近似光流场向量在所述目标时刻的增量，所述第二增量用于表征所述第二近似光流场向量在所述目标时刻的增量；

根据所述第一图像、所述第二图像、所述正向可视图、所述逆向可视图、第一增量以及所述第二增量确定所述目标时刻对应的所述目标图像。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标图像序列以及对应的音频序列确定目标视频。

6.根据权利要求1所述的方法，其特征在于，所述第一模型以及所述第二模型通过如下方式训练：

获取多个图像组，所述图像组中包括第一图像样本、第二图像样本和至少一个第三图像样本，所述第一图像样本、第二样本和所述第三图像样本为同一图像序列中的不同图像，且所述第三图像样本为时间戳介于所述第一图像样本以及所述第二图像样本之间的中间图像样本；

以各所述图像组中的所述第一图像样本和所述第二图像样本为输入，以对应的所述第三图像样本为训练目标，对所述第一模型以及所述第二模型同时进行训练，直至所述第一模型以及所述第二模型的损失函数收敛。

7.根据权利要求6所述的方法，其特征在于，所述损失函数用于表征所述第一模型以及第二模型的重建损失、语义损失、扭曲损失以及平滑损失。

8.一种视频处理装置，其特征在于，所述装置包括：

序列获取单元，用于获取第一图像序列和第二图像序列；

9.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。