CN110490896A

CN110490896A - 一种视频帧图像处理方法和装置

Info

Publication number: CN110490896A
Application number: CN201910861410.8A
Authority: CN
Inventors: 黄浩智; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2019-11-22
Anticipated expiration: 2038-01-25
Also published as: CN108305271B; CN108305271A; CN110490896B

Abstract

本发明实施例公开了一种视频帧图像处理方法和装置，本发明属于计算机视觉领域，其中视频帧图像处理方法包括：获取至少2个连续时刻的训练帧图像数据，使用所述训练帧图像数据对图像和谐神经网络进行训练，使得所述图像和谐神经网络的损失函数最小，将目标视频帧图像以及所述目标视频帧图像的前景遮罩输入所述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。采用本发明实施例，可以保持视频帧图像之间的一致性，从而避免闪烁瑕疵，提升视频帧图像的真实感。

Description

一种视频帧图像处理方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频帧图像处理方法和装置。

背景技术

随着计算机技术的发展，视频合成技术越来越成熟，但如何提升视频合成的真实感仍是计算机技术领域亟待解决的技术难题。目前，针对图像合成真实感的提升，主要是利用深度神经网络学习如何调整图像中前景的外观如亮度、对比度、颜色、饱和度等，使其在背景中看起来更自然。

由于视频是由一帧一帧的视频帧图像组成，每一帧视频帧图像可以看作一张合成图像，所以有人认为可以直接将提升图像合成真实感的技术逐帧应用到视频中。如果直接将提升图像合成真实感的技术逐帧应用到视频中，由于提升图像合成真实感的技术缺乏对视频中帧间一致性的考虑，将会导致相同的图像内容在每一帧中的外观不一致，从而带来严重的闪烁瑕疵，而闪烁瑕疵会给用户带来强烈的观感不适，用户能够明显感知视频不真实。

发明内容

本发明实施例提供一种视频帧图像处理方法和装置，可以保持视频帧图像之间的一致性，从而避免闪烁瑕疵，提升视频帧图像的真实感。

本发明第一方面提供了一种视频帧图像处理方法，该方法包括：

获取至少2个连续时刻的训练帧图像数据，包括所述至少2个连续时刻中的每个时刻的训练帧图像、该训练帧图像的前景遮罩以及参考帧图像；

使用所述训练帧图像数据对图像和谐神经网络进行训练，使得所述图像和谐神经网络的损失函数最小，所述图像和谐神经网络的损失函数包括第一损失值和第二损失值，其中：

所述第一损失值由所述至少2个连续时刻中的第一时刻的训练帧图像以及该训练帧图像的前景遮罩输入所述图像和谐神经网络后得到的所述第一时刻的和谐帧图像与所述第一时刻的参考帧图像之间的差异确定；

所述第二损失值由所述第一时刻的和谐帧图像与至少一个相邻时刻的和谐帧图像之间的差异确定，所述相邻时刻的和谐帧图像由相邻时刻的训练帧图像以及该训练帧图像的前景遮罩输入所述图像和谐神经网络后得到；

将目标视频帧图像以及所述目标视频帧图像的前景遮罩输入所述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。

在一种可能的设计中，所述第二损失值由所述第一时刻的和谐帧图像与至少一个相邻时刻的和谐帧图像之间的差异确定，包括：

根据所述第一时刻的训练帧图像分别与所述至少一个相邻时刻的训练帧图像之间的光流信息，将所述至少一个相邻时刻的和谐帧图像进行空间变换，以使所述至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像的对应像素位置对齐；

根据所述空间变换后的至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像分别在所述第一时刻的前景遮罩区域中的对应像素之间的差模，确定所述第二损失值。

在一种可能的设计中，所述根据所述空间变换后的至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像分别在所述第一时刻的前景遮罩区域中的对应像素之间的差模，确定所述第二损失值，包括：

根据所述空间变换后的至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像分别在所述第一时刻的前景遮罩区域中对应像素的外观参数之间的差模，确定所述第二损失值，所述外观参数包括颜色、饱和度、亮度和对比度中的至少一种。

在一种可能的设计中，所述图像和谐神经网络的损失函数还包括第三损失值；

其中，所述第三损失值由所述第一时刻的和谐帧图像输入非和谐判别神经网络后得到的非和谐像素判别结果确定。

在一种可能的设计中，所述图像和谐神经网络的损失函数为：

其中，所述O_t表示所述第一时刻的和谐帧图像，所述X_t表示所述第一时刻的参考帧图像，所述N表示所述第一时刻的和谐帧图像的像素个数，所述M_t表示所述第一时刻的训练帧图像的前景遮罩，所述O_t-1表示所述第一时刻的相邻上一时刻的和谐帧图像，所述S(O_t-1)表示所述第一时刻的相邻上一时刻的和谐帧图像进行所述空间变换后得到的，所述D(O_t)表示所述第一时刻的和谐帧图像输入所述非和谐判别神经网络后得到的非和谐像素判别结果，所述N_F表示所述第一时刻的训练帧图像的前景遮罩的像素个数，所述λ₁表示所述第二损失值的权重，所述λ₂表示所述第三损失值的权重。

在一种可能的设计中，所述方法还包括：

使用所述训练帧图像数据对所述非和谐判别神经网络进行训练，使得所述非和谐判别神经网络的损失函数最小，所述非和谐判别神经网络的损失函数包括第四损失值、第五损失值以及第六损失值；

其中，所述第四损失值由所述第一时刻的和谐帧图像输入所述非和谐判别神经网络得到的非和谐像素判别结果与所述第一时刻的训练帧图像的前景遮罩之间的差异确定；

所述第五损失值由所述第一时刻的训练帧图像输入所述非和谐判别神经网络得到的非和谐像素判别结果与所述第一时刻的训练帧图像的前景遮罩之间的差异确定；

所述第六损失值由所述第一时刻的参考帧图像输入所述非和谐判别神经网络后的非和谐像素判别结果确定。

在一种可能设计中，所述非和谐判别神经网络的损失函数为：

其中，所述O_t表示所述第一时刻的和谐帧图像，所述D(O_t)表示所述第一时刻的和谐帧图像输入所述非和谐判别神经网络后得到的非和谐像素判别结果，所述M_t表示所述第一时刻的训练帧图像的前景遮罩，所述N表示所述第一时刻的和谐帧图像的像素个数，所述I_t表示所述第一时刻的训练帧图像，所述D(I_t)表示所述第一时刻的训练帧图像输入所述非和谐判别神经网络后得到的非和谐像素判别结果，所述X_t表示所述第一时刻的参考帧图像，所述D(X_t)表示所述第一时刻的参考帧图像输入所述非和谐判别神经网络后的非和谐像素判别结果。

在一种可能的设计中，所述获取至少2个连续时刻的训练帧图像数据，包括：

获取标注有前景遮罩区域的目标帧图像；

将所述目标帧图像作为第一时刻的参考帧图像，并根据所述目标帧图像中的前景遮罩区域得到所述第一时刻的前景遮罩；

将所述前景遮罩区域从所述参考帧图像中抠除，并对被抠除后的参考帧图像进行图像补全，得到所述第一时刻的参考帧图像的背景图像；

对所述第一时刻的前景遮罩进行颜色变换，并将输入所述颜色变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的训练帧图像；

对所述第一时刻的前景遮罩进行设定的空间变换，并将输入所述设定的空间变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的参考帧图像；

对所述第一时刻的前景遮罩进行颜色变换和所述设定的空间变换，得到所述第一时刻的相邻时刻的前景遮罩，并将所述第一时刻的相邻时刻的前景遮罩与所述参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的训练帧图像。

在一种可能设计中，所述对所述第一时刻的前景遮罩进行颜色变换和所述设定的空间变换，得到所述第一时刻的相邻时刻的前景遮罩，并将所述第一时刻的相邻时刻的前景遮罩与所述参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的训练帧图像之后，还包括：

根据所述设定的空间变换，记录所述第一时刻的训练帧图像与所述第一时刻的相邻时刻的训练帧图像之间的光流信息。

在一种可能的设计中，所述将目标视频帧图像以及所述目标视频帧图像的前景遮罩输入所述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像之前，还包括：

获取目标视频帧图像；

将所述目标视频帧图像输入所述非和谐判别神经网络后得到的非和谐像素判别结果作为所述目标视频帧图像的前景遮罩。

本发明第二方面提供了一种视频帧图像处理装置，该装置包括：

第一获取模块，用于获取至少2个连续时刻的训练帧图像数据，包括所述至少2个连续时刻中的每个时刻的训练帧图像、该训练帧图像的前景遮罩以及参考帧图像；

第一训练模块，用于使用所述训练帧图像数据对图像和谐神经网络进行训练，使得所述图像和谐神经网络的损失函数最小，所述图像和谐神经网络的损失函数包括第一损失值和第二损失值，其中：

图像处理模块，用于将目标视频帧图像以及所述目标视频帧图像的前景遮罩输入所述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。

在一种可能的设计中，所述第一训练模块包括：

第一空间变换单元，用于根据所述第一时刻的训练帧图像分别与所述至少一个相邻时刻的训练帧图像之间的光流信息，将所述至少一个相邻时刻的和谐帧图像进行空间变换，以使所述至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像的对应像素位置对齐；

差模单元，用于根据所述空间变换后的至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像分别在所述第一时刻的前景遮罩区域中的对应像素之间的差模，确定所述第二损失值。

在一种可能的设计中，所述差模单元具体用于根据所述空间变换后的至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像分别在所述第一时刻的前景遮罩区域中对应像素的外观参数之间的差模，确定所述第二损失值，所述外观参数包括颜色、饱和度、亮度和对比度中的至少一种。

在一种可能的设计中，所述装置还包括：

第二训练模块，用于使用所述训练帧图像数据对所述非和谐判别神经网络进行训练，使得所述非和谐判别神经网络的损失函数最小，所述非和谐判别神经网络的损失函数包括第四损失值、第五损失值以及第六损失值；

在一种可能的设计中，所述非和谐判别神经网络的损失函数为：

在一种可能的设计中，所述第一获取模块包括：

获取单元，用于获取标注有前景遮罩区域的目标帧图像；

确定单元，用于将所述目标帧图像作为第一时刻的参考帧图像，并根据所述目标帧图像中的前景遮罩区域得到所述第一时刻的前景遮罩；

抠除补全单元，用于将所述前景遮罩区域从所述参考帧图像中抠除，并对被抠除后的参考帧图像进行图像补全，得到所述第一时刻的参考帧图像的背景图像；

颜色变换单元，用于对所述第一时刻的前景遮罩进行颜色变换；

合成单元，用于将输入所述颜色变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的训练帧图像；

第二空间变换单元，用于对所述第一时刻的前景遮罩进行设定的空间变换；

所述合成单元，，还用于将输入所述设定的空间变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的参考帧图像；

所述颜色变换单元，还用于对所述第一时刻的前景遮罩进行颜色变换；

所述第二空间变换单元，还用于对输入所述颜色变换后的前景遮罩进行所述设定的空间变换，得到所述第一时刻的相邻时刻的前景遮罩；

所述合成单元，还用于将所述第一时刻的相邻时刻的前景遮罩与所述参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的训练帧图像。

在一种可能的设计中，所述第一获取模块还包括：

记录单元，用于根据所述设定的空间变换，记录所述第一时刻的训练帧图像与所述第一时刻的相邻时刻的训练帧图像之间的光流信息。

在一种可能的设计中，所述装置还包括：

第二获取模块，用于获取目标视频帧图像；

判别模块，用于将所述目标视频帧图像输入所述非和谐判别神经网络后得到的非和谐像素判别结果作为所述目标视频帧图像的前景遮罩。

本发明第三方面提供了另一种视频帧图像处理装置，包括：处理器、存储器和输出接口；

所述处理器、存储器和输出接口相互连接，其中，所述存储器用于存储程序代码、训练帧图像数据，所述输出接口用于输出目标视频的和谐帧图像，所述处理器用于调用所述程序代码，以执行如本发明实施例中第一方面中的视频帧图像处理方法。

本发明第四方面提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的视频帧图像处理方法。

本发明实施例通过获取至少2个连续时刻的训练帧图像数据，使用该训练帧图像数据对图像和谐神经网络进行训练，使得该图像和谐神经网络的损失函数最小，将目标视频帧图像以及该目标视频帧图像的前景遮罩输入该训练得到的图像和谐神经网络，得到目标视频的和谐帧图像，由于图像和谐神经网络的损失函数包括第二损失值，该第二损失值由第一时刻的和谐帧图像与其相邻时刻的和谐帧图像之间的差异确定，因此训练后的图像和谐神经网络输出的视频，可以保持视频帧图像之间的一致性，从而避免闪烁瑕疵，提升视频帧图像的真实感。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频帧图像处理方法的示意流程图；

图2a是一种像素位置对齐的示意图；

图2b是一种训练图像和谐神经网络的示意图；

图2c是一种处理目标视频帧图像的示意图；

图3是本发明实施例提供的另一种视频帧图像处理方法的示意流程图；

图4a是另一种训练图像和谐神经网络的示意图；

图4b是一种非和谐像素判别结果的示意图；

图4c是另一种处理目标视频帧图像的示意图；

图5是本发明实施例提供的一种训练帧图像数据的生成方法的示意流程图；

图6a是目标帧图像的示意图；

图6b是训练帧图像数据的生成示意图；

图7是本发明实施例提供的视频帧图像处理装置的示意性框图；

图8是本发明实施例提供的一种第一训练模块的示意流程图；

图9是本发明实施例提供的另一种视频帧图像处理装置的示意性框图；

图10是本发明实施例提供的一种第一获取模块的示意性框图；

图11是本发明实施例提供的又一种视频帧图像处理装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。

计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本发明实施例提供的方案属于计算机视觉领域中的视频处理，具体涉及机器学习(Machine learning，ML)中的人工神经网络(artificial neural network)，具体通过以下实施例进行说明。

下面将结合附图1-附图11，对本发明实施例提供的视频帧图像处理方法及装置进行详细介绍。

需要说明的是，本发明所涉及的训练帧图像数据可以包括N组(N为大于或等于1的自然数)训练帧图像数据，每组训练帧图像数据包括至少2个连续时刻的训练帧图像数据，终端每次可以使用该N组训练帧图像数据中的任一组训练帧图像数据对图像和谐神经网络和/或非和谐像素判别神经网络进行训练。例如，N＝3，每组训练帧图像数据分别包括3个连续时刻的训练帧图像数据，3组训练帧图像数据可以分别为(t-2,t-1,t)、(t-1,t,t+1)以及(t,t+1,t+2)时刻的训练帧图像数据。需要说明的是，用于训练图像和谐神经网络的N组训练帧图像数据，数量N越大则训练得到的图像和谐神经网络的准确度可能就越高，但是通常需要对训练数据的采集开销以及训练过程的处理开销进行权衡。本文在下面的讨论中，仅以一组训练帧图像数据为例，即至少2个连续时刻的训练帧图像数据，但是实际应用中，可以是使用不止一组训练帧图像数据对图像和谐神经网络进行训练。

参见图1，是本发明实施例提供的一种视频帧图像处理方法的示意流程图，如图1所示，该视频帧图像处理方法包括：

S101，获取至少2个连续时刻的训练帧图像数据，包括所述至少2个连续时刻中的每个时刻的训练帧图像、该训练帧图像的前景遮罩以及参考帧图像。

在本发明实施例中，终端可以获取用户输入的至少2个连续时刻的训练帧图像数据，终端还可以从目标数据库中获取至少2个连续时刻的训练帧图像数据。其中，该训练帧图像数据包括该至少2个连续时刻中的每个时刻的训练帧图像、该训练帧图像的前景遮罩以及参考帧图像。例如，若至少2个连续时刻包括t-1时刻、t时刻、t+1时刻(t为大于或等于2的自然数)，该终端分别获取t-1时刻、t时刻、t+1时刻中每个时刻的训练帧图像、训练帧图像的前景遮罩以及参考帧图像。

S102，使用所述训练帧图像数据对图像和谐神经网络进行训练，使得所述图像和谐神经网络的损失函数最小，所述图像和谐神经网络的损失函数包括第一损失值和第二损失值。

在本发明实施例中，终端可以使用上述获取到的训练帧图像数据对图像和谐神经网络进行训练，使得该图像和谐神经网络的损失函数最小。该图像和谐神经网络的损失函数可以包括第一损失值和第二损失值。该第一损失值可以由上述至少2个连续时刻中的第一时刻的训练帧图像以及该训练帧图像的前景遮罩输入该图像和谐神经网络后得到的该第一时刻的和谐帧图像与该第一时刻的参考帧图像之间的差异确定；该第二损失值可以由该第一时刻的和谐帧图像与至少一个相邻时刻的和谐帧图像之间的差异确定，该相邻时刻的和谐帧图像由相邻时刻的训练帧图像以及该训练帧图像的前景遮罩输入该图像和谐神经网络后得到。其中该第一时刻可以为至少2个连续时刻中的任意时刻，例如，若第一时刻为t时刻(t为大于或等于2的自然数)，该第一时刻的至少一个相邻时刻可以为t-1和/或t+1时刻。

可选的，终端可以将上述至少2个连续时刻中的第一时刻的训练帧图像以及该训练帧图像的前景遮罩输入该图像和谐神经网络，得到该第一时刻的和谐帧图像，计算该第一时刻的和谐帧图像与该第一时刻的参考帧图像之间的差模，确定该第一损失值。终端可以获取该第一时刻的训练帧图像与该至少一个相邻时刻的训练帧图像之间的光流信息，再根据该光流信息，将该至少一个相邻时刻的和谐帧图像进行空间变换，例如仿射变换和/或投影变换，本发明实施例优选仿射变换，常用的仿射变换有平移、旋转、缩放、翻转和剪切等，以使该至少一个相邻时刻的和谐帧图像与该第一时刻的和谐帧图像的对应像素位置对齐。如图2a所示，是一种像素位置对齐的示意图，将图像O_t-1表示t-1时刻的和谐帧图像，图像O’_t-1表示图像O_t-1输入如图所示的旋转后得到的图像，即图像O’_t-1是图像O_t-1空间变换后的图像，图像O_t表示t时刻的和谐帧图像，终端可以将图像O_t-1空间变换(旋转)到图像O’_t-1的位置，其中，图像O’_t-1与图像O_t对应像素位置对齐。该终端可以根据该空间变换后的至少一个相邻时刻的和谐帧图像与该第一时刻的和谐帧图像分别在该第一时刻的前景遮罩区域中的对应像素之间的差模，确定该第二损失值。

例如，如图2b所示，是一种训练图像和谐神经网络的示意图，I_t-1表示t-1时刻(t为大于或等于2的自然数)的训练帧图像，M_t-1表示t-1时刻的前景遮罩，I_t表示t时刻的训练帧图像，M_t表示t时刻的前景遮罩，t-1时刻为t时刻的相邻上一时刻。将t-1时刻的训练帧图像I_t-1和前景遮罩M_t-1输入图像和谐神经网络，得到t-1时刻的和谐帧图像O_t-1，并将t时刻的训练帧图像I_t和前景遮罩M_t输入图像和谐神经网络，得到t时刻的和谐帧图像O_t，计算t时刻的和谐帧图像O_t与t时刻的参考帧图像X_t之间的差模，确定第一损失值。再将t-1时刻的和谐帧图像O_t-1进行空间变换，得到变换后的和谐帧图像O’_t-1，再计算变换后的和谐帧图像O’_t-1与t时刻的和谐帧图像O_t之间的时域损失，即第二损失值(变换后的和谐帧图像O’_t-1与t时刻的和谐帧图像O_t分别在t时刻的前景遮罩区域M_t中对应像素之间的差模)。其中，空间变换后得到的和谐帧图像O’_t-1与t时刻的和谐帧图像O_t之间的对应像素位置对齐。

进一步可选的，该终端还可以根据该空间变换后的至少一个相邻时刻的和谐帧图像与该第一时刻的和谐帧图像分别在该第一时刻的前景遮罩区域中对应像素的外观参数之间的差模，确定该第二损失值。其中，外观参数可以包括颜色、饱和度、亮度和对比度中的至少一种。

S103，将目标视频帧图像以及所述目标视频帧图像的前景遮罩输入所述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。

在本发明实施例中，如图2c所示，是一种处理目标视频帧图像的示意图，终端可以将用户输入的目标视频帧图像和该目标视频帧图像对应的前景遮罩输入上述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。可选的，终端可以获取目标视频帧图像，该目标视频帧图像可以标注有前景遮罩区域，该终端根据该目标视频帧图像中标注的前景遮罩区域，可以获取到该目标视频帧图像的前景遮罩，终端可以将用户输入的目标视频帧图像和获取到的该目标视频帧图像的前景遮罩输入上述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。其中，由于训练图像和谐神经网络时，要求输入图像和谐神经网络的视频帧图像的损失函数最小，故目标视频帧图像输入图像和谐神经网络处理后得到的和谐帧图像的损失函数最小，可以说明输入该图像和谐神经网络处理后的视频帧图像更接近于真实图像，并且可以保持视频帧图像之间的一致性，即相同的图像内容在每一帧中的外观(亮度、对比度、颜色、饱和度等)一致，从而避免了闪烁瑕疵，提高了视频帧图像的真实感。

本发明实施例通过获取至少2个连续时刻的训练帧图像数据，使用该训练帧图像数据对图像和谐神经网络进行训练，使得该图像和谐神经网络的损失函数最小，将目标视频帧图像以及该目标视频帧图像的前景遮罩输入该训练得到的图像和谐神经网络，得到目标视频的和谐帧图像，由于图像和谐神经网络的损失函数包括第二损失值，该第二损失值由第一时刻的和谐帧图像与其相邻时刻的和谐帧图像之间的差异确定，因此输入训练后的图像和谐神经网络输出的视频，可以保持视频帧图像之间的一致性，从而避免闪烁瑕疵，提升视频帧图像的真实感。

参见图3，是本发明实施例提供的另一种视频帧图像处理方法的示意流程图，如图3所示，该视频帧图像处理方法包括：

S301，获取至少2个连续时刻的训练帧图像数据，包括所述至少2个连续时刻中的每个时刻的训练帧图像、该训练帧图像的前景遮罩以及参考帧图像。

本发明实施例的步骤S301请参照图1的实施例步骤S201，在此不再赘述。

S302，使用所述训练帧图像数据对所述非和谐判别神经网络进行训练，使得所述非和谐判别神经网络的损失函数最小，所述非和谐判别神经网络的损失函数包括第四损失值、第五损失值以及第六损失值。

在本发明实施例中，终端可以使用上述训练帧图像数据对非和谐判别神经网络进行训练，使得该非和谐判别神经网络的损失函数最小。其中，该非和谐神经网络可以用于判断图像中哪些像素看起来是真实和谐的，哪些像素看起来是非真实不和谐的。该非和谐判别神经网络的损失函数包括第四损失值、第五损失值以及第六损失值。该第四损失值可以由该第一时刻的和谐帧图像输入该非和谐判别神经网络得到的非和谐像素判别结果与该第一时刻的训练帧图像的前景遮罩之间的差异确定。该第五损失值可以由该第一时刻的训练帧图像输入该非和谐判别神经网络得到的非和谐像素判别结果与该第一时刻的训练帧图像的前景遮罩之间的差异确定。该第六损失值由该第一时刻的参考帧图像输入非和谐判别神经网络后的非和谐像素判别结果确定。

可选的，若至少2个连续时刻包括t时刻和t-1时刻，t-1时刻为t时刻的相邻上一时刻，假设第一时刻为t时刻，t为大于或等于2的自然数，上述非和谐判别神经网络的损失函数可以用数学表达式来表示：

其中，公式(1)中的L_D表示非和谐判别神经网络的损失函数，O_t表示第一时刻的和谐帧图像，D(O_t)表示第一时刻的和谐帧图像输入该非和谐判别神经网络后得到的非和谐像素判别结果，M_t表示第一时刻的训练帧图像的前景遮罩。I_t表示第一时刻的训练帧图像，D(I_t)表示第一时刻的训练帧图像输入该非和谐判别神经网络后得到的非和谐像素判别结果。X_t表示第一时刻的参考帧图像，D(X_t)表示第一时刻的参考帧图像输入该非和谐判别神经网络后的非和谐像素判别结果。该非和谐判别神经网络输出的非和谐像素判别结果可以为非和谐像素的矩阵。

需要说明的是，在训练非和谐判别神经网络时，需要损失函数L_D的值最小，因此公式(1)中每一项的值都要求尽可能的小。公式(1)中第一项表示训练后的非和谐判别神经网络能够判断和谐帧图像中的非和谐像素。公式(1)中第二项表示训练后的非和谐判别神经网络能够判断训练帧图像中的非和谐像素。公式(1)中第三项表示训练后的非和谐判别神经网络对参考帧图像的判别结果应该接近于0，因为参考帧图像是真实自然的图像，不存在非和谐像素。通过约束非和谐判别神经网络的损失函数最小，可以在保证输入图像和谐神经网络处理后的视频帧图像之间一致性的同时，减少该视频帧图像中的非和谐像素，进一步提升视频帧图像的真实感。

S303，使用所述训练帧图像数据对图像和谐神经网络进行训练，使得所述图像和谐神经网络的损失函数最小，所述图像和谐神经网络的损失函数包括第一损失值和第二损失值。

本发明实施例中，上述步骤S302中训练非和谐判别神经网络时使用的训练帧图像数据与步骤S303中训练图像和谐神经网络时使用的训练帧图像数据可以相同，也可以不相同，例如，训练非和谐判别神经网络时使用的训练帧图像数据为A和B，训练图像和谐神经网络时使用的训练数据可以为C、D、E等。

在本发明实施例中，终端可以使用上述获取到的训练帧图像数据对图像和谐神经网络进行训练，使得该图像和谐神经网络的损失函数最小。输入训练后的图像和谐神经网络可以将输入的非真实不和谐的图像尽可能地转化成真实和谐的图像。该图像和谐神经网络的损失函数可以包括第一损失值和第二损失值。该第一损失值可以由上述至少2个连续时刻中的第一时刻的训练帧图像以及该训练帧图像的前景遮罩输入该图像和谐神经网络后得到的该第一时刻的和谐帧图像与该第一时刻的参考帧图像之间的差异确定；该第二损失值可以由该第一时刻的和谐帧图像与至少一个相邻时刻的和谐帧图像之间的差异确定，该相邻时刻的和谐帧图像由相邻时刻的训练帧图像以及该训练帧图像的前景遮罩输入该图像和谐神经网络后得到。其中该第一时刻可以至少2个连续时刻中的任意时刻，例如，若第一时刻为t时刻(t为大于或等于2的自然数)，该第一时刻的至少一个相邻时刻可以为t-1和/或t+1时刻。

可选的，终端可以将上述至少2个连续时刻中的第一时刻的训练帧图像以及该训练帧图像的前景遮罩输入该图像和谐神经网络，得到该第一时刻的和谐帧图像，计算该第一时刻的和谐帧图像与该第一时刻的参考帧图像之间的差模，确定该第一损失值。终端可以获取该第一时刻的训练帧图像与该至少一个相邻时刻的训练帧图像之间的光流信息，再根据该光流信息，将该至少一个相邻时刻的和谐帧图像进行空间变换，例如仿射变换和/或投影变换，本发明实施例优选仿射变换，常用的仿射变换有平移、旋转、缩放、翻转和剪切等，以使该至少一个相邻时刻的和谐帧图像与该第一时刻的和谐帧图像的对应像素位置对齐。该终端可以根据该空间变换后的至少一个相邻时刻的和谐帧图像与该第一时刻的和谐帧图像分别在该第一时刻的前景遮罩区域中的对应像素之间的差模，确定该第二损失值。

可选的，上述图像和谐神经网络的损失函数还包括第三损失值，该第三损失值可以由该第一时刻的和谐帧图像输入上述训练后的非和谐判别神经网络后得到的非和谐像素判别结果确定。该非和谐判别神经网络可以用于判别和谐帧图像中哪些像素是非和谐像素。例如，如图4a所示，是另一种训练图像和谐神经网络的示意图，I_t-1表示t-1时刻(t为大于或等于2的自然数)的训练帧图像，M_t-1表示t-1时刻的前景遮罩，I_t表示t时刻的训练帧图像，M_t表示t时刻的前景遮罩，t-1时刻为t时刻的相邻上一时刻。将t-1时刻的训练帧图像I_t-1和前景遮罩M_t-1输入图像和谐神经网络，得到t-1时刻的和谐帧图像O_t-1，并将t时刻的训练帧图像I_t和前景遮罩M_t输入图像和谐神经网络，得到t时刻的和谐帧图像O_t，计算t时刻的和谐帧图像O_t与t时刻的参考帧图像X_t之间的差模，确定第一损失值。再将t-1时刻的和谐帧图像O_t-1进行空间变换，得到变换后的和谐帧图像O’_t-1，再计算变换后的和谐帧图像O’_t-1与t时刻的和谐帧图像O_t之间的时域损失，即第二损失值(变换后的和谐帧图像O’_t-1与t时刻的和谐帧图像O_t分别在t时刻的前景遮罩区域M_t中对应像素之间的差模)。最后将t时刻的和谐帧图像O_t输入非和谐像素判别神经网络，得到非和谐像素判别结果，确定第三损失值。其中，非和谐像素判别结果可以为和谐帧图像中的非和谐像素区域，如图4b所示，一种非和谐像素判别结果的示意图，t时刻的和谐帧图像O_t输入非和谐像素判别神经网络F，得到非和谐像素判别结果F_t，F_t中的空白区域即为和谐帧图像O_t中的非和谐像素区域。空间变换后得到的和谐帧图像O’_t-1与t时刻的和谐帧图像O_t之间的对应像素位置对齐。

进一步可选的，若至少2个连续时刻包括t时刻和t-1时刻，t-1时刻为t时刻的相邻上一时刻，假设第一时刻为t时刻，t为大于或等于2的自然数，上述图像和谐神经网络的损失函数可以用数学表达式来表示：

其中，公式(2)中的L_G表示图像和谐神经网络的损失函数，该O_t表示第一时刻的和谐帧图像，该X_t表示第一时刻的参考帧图像，该N表示第一时刻的和谐帧图像的像素个数。该M_t表示第一时刻的训练帧图像的前景遮罩，该O_t-1表示第一时刻的相邻上一时刻的和谐帧图像，该S(O_t-1)表示第一时刻的相邻上一时刻的和谐帧图像进行该空间变换后得到的，O_t与S(O_t-1)的差模表示第一时刻的和谐帧图像与第一时刻的相邻上一时刻的和谐帧图像之间的像素差异，即第一时刻与其相邻上一时刻的时域损失，⊙表示逐像素的乘法。该D(O_t)表示第一时刻的和谐帧图像输入该非和谐判别神经网络后得到的非和谐像素判别结果，该非和谐判别结果可以为非和谐像素的矩阵。该N_F表示该第一时刻的训练帧图像的前景遮罩的像素个数，该λ₁表示该第二损失值的权重，该λ₂表示该第三损失值的权重。

需要说明的是，在训练图像和谐神经网络时，需要损失函数L_G的值最小，因此公式(2)中每一项的值都要求尽可能的小。公式(2)中第一项的值越小，说明输入图像和谐神经网络后的第一时刻的和谐帧图像越接近于该第一时刻的参考帧图像。公式(2)中第二项的值越小，说明第一时刻的和谐帧图像与第一时刻的相邻上一时刻的和谐帧图像在前景遮罩区域上的时域损失越小。公式(2)中第三项的值越小，说明第一时刻的和谐帧图像中的非和谐像素越少。通过约束图像和谐神经网络的损失函数最小，可以保证输入该图像和谐神经网络处理后的视频帧图像的时域损失尽可能小，从而避免闪烁瑕疵，提升视频帧图像的真实感。

需要说明的是，本发明实施例中步骤S302与步骤S303可以同时进行，即步骤S302与步骤S303并行处理。若步骤S302与步骤S303同时执行，则步骤S302与步骤S303可以合并为：使用上述训练帧图像数据对非和谐判别神经网络和图像和谐神经网络进行训练，使得非和谐判别神经网络的损失函数与图像和谐神经网络的损失函数之和最小，或者使得非和谐判别神经网络的损失函数与图像和谐神经网络的损失函数的加权和最小。

S304，将目标视频帧图像以及所述目标视频帧图像的前景遮罩输入所述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。

在本发明实施例中，终端可以将用户输入的目标视频帧图像和该目标视频帧图像对应的前景遮罩输入上述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。可选的，终端可以获取目标视频帧图像，该目标视频帧图像可以标注有前景遮罩区域，该终端根据该目标视频帧图像中标注的前景遮罩区域，可以得到该目标视频帧图像的前景遮罩，终端可以将用户输入的目标视频帧图像和得到的该目标视频帧图像的前景遮罩输入上述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。其中，该目标视频的和谐帧图像的损失函数最小，说明输入图像和谐神经网络处理后的视频帧图像更接近于真实图像，并且保持了视频帧图像之间的一致性，即相同的图像内容在每一帧中的外观(亮度、对比度、颜色、饱和度等)一致，从而避免了闪烁瑕疵，提高了视频帧图像的真实感。

可选的，如图4c所示，是另一种处理目标视频帧图像的示意图，终端可以获取用户输入的目标视频帧图像，该终端可以将该目标视频帧图像输入上述训练得到的非和谐判别神经网络，得到该目标视频帧图像的非和谐像素判别结果，并可以将该目标视频帧图像的非和谐像素判别结果作为该目标视频帧图像的前景遮罩。该终端可以将该目标视频帧图像和该目标视频帧图像的前景遮罩输入上述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。本发明实施例将非和谐判别神经网络输出的非和谐像素判别结果作为目标视频帧图像的前景遮罩，省去了用户输入目标视频帧图像前景遮罩的步骤，提升了用户体验。

本发明实施例通过获取至少2个连续时刻的训练帧图像数据，再使用该训练帧图像数据对图像和谐神经网络进行训练，使得该图像和谐神经网络的损失函数最小，然后再使用该训练帧图像数据对非和谐判别神经网络进行训练，使得所该非和谐判别神经网络的损失函数最小，最后将目标视频帧图像以及该目标视频帧图像的前景遮罩输入该训练得到的图像和谐神经网络，得到目标视频的和谐帧图像，由于在训练图像和谐神经网络和非和谐判别神经网络时，要求各自的损失函数最小，可以在保证输入图像和谐神经网络处理后的视频帧图像之间一致性的同时，减少该视频帧图像中的非和谐像素，进一步提升视频帧图像的真实感。

为了训练上述实施例中的图像和谐神经网络和/或非和谐神经网络，终端需要大量的训练帧图像数据，且这些图像数据需要有前景遮罩标注信息和帧间光流信息，鉴于此，本发明还提供了一种训练帧图像数据的生成方法，本领域普通技术人员可以理解，除了本文中提出的训练帧图像数据的生成方法外，还有其他可以获得训练帧图像数据的方法/技术，例如，人工标注训练帧图像的前景遮罩标注信息和相邻训练帧图像之间的光流信息等，本发明实施例只给出一种可行的训练帧图像数据的生成方法作为示例。

参见图5，是本发明实施例提供的一种训练帧图像数据的生成方法的示意流程图。如图5所示，该训练帧图像数据的生成方法包括但不限于以下步骤：

S501，获取标注有前景遮罩区域的目标帧图像。

在本发明实施例中，终端可以从给定的一个带有前景遮罩标注信息的数据库中获取目标帧图像。其中，该带有前景遮罩标注信息的数据库可以为Microsoft COCO，该数据库中的所有帧图像都标注有前景遮罩区域且该数据库中的所有帧图像都是真实自然的，即该图像库中的每张帧图像中的非和谐像素的个数占该帧图像总个数的比例小于或等于目标阈值。

S502，将所述目标帧图像作为第一时刻的参考帧图像，并根据所述目标帧图像中的前景遮罩区域得到所述第一时刻的前景遮罩。

在本发明实施例中，终端可以将上述获取到的目标帧图像作为第一时刻的参考帧图像，该目标帧图像标注有前景遮罩区域，该终端可以根据该目标帧图像中的前景遮罩区域得到该第一时刻的前景遮罩。其中，该第一时刻可以为时域上的任意时刻。目标帧图像可以指真实自然的图像，即非合成的图像，例如，利用照相机拍出的图像或摄影机拍摄的视频帧图像等，故参考帧图像也是真实自然的图像。可选的，目标帧图像中的非和谐像素的个数可以为0。

S503，将所述前景遮罩区域从所述参考帧图像中抠除，并对被抠除后的参考帧图像进行图像补全，得到所述第一时刻的参考帧图像的背景图像。

在本发明实施例中，终端可以将该前景遮罩区域从该参考帧图像中抠除，并可以利用现有的图像修补算法如开源计算机视觉库(Opencv)中的图像修复函数inpainting，补全参考帧图像中被抠除的部分，得到该第一时刻的参考帧图像的背景图像。其中，该参考帧图像可以由前景遮罩和背景图像组成。如图6a所示，是目标帧图像的示意图，x_t-1表示t-1时刻带有前景遮罩标注信息的目标帧图像，图像m_t-1中的空白区域A表示x_t-1的前景遮罩区域，终端将m_t-1中空白区域A对应的图像从x_t-1中抠除，空白区域A对应的图像即为t-1时刻的前景遮罩，再将x_t-1中被抠除的部分进行图像补全，即可得t-1时刻的背景图像。

S504，对所述第一时刻的前景遮罩进行颜色变换，并将输入所述颜色变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的训练帧图像。

在本发明实施例中，终端可以对该第一时刻的前景遮罩进行颜色变换，并将输入该颜色变换的前景遮罩与该第一时刻的参考帧图像的背景图像进行合成，得到该第一时刻的训练帧图像。其中，颜色变换可以将给定数据库中其它图像的前景遮罩色彩迁移到该第一时刻的前景遮罩上，也可以随机改变该第一时刻的前景遮罩的基础颜色属性，如饱和度、亮度、对比度等。该第一时刻的前景遮罩由于进行颜色变换时，改变了其外观(颜色、饱和度、亮度、对比度等)，故颜色变换后的前景遮罩与参考帧图像的背景图像进行图像合成后得到的训练帧图像中存在不和谐像素。

S505，对所述第一时刻的前景遮罩进行设定的空间变换，并将输入所述设定的空间变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的参考帧图像。

在本发明实施例中，终端可以获取预设的空间变换如仿射变换，常用的仿射变换有平移、缩放、翻转、旋转以及剪切等。该终端可以对该第一时刻的前景遮罩进行设定的空间变换，并采用图像合成技术将输入该设定的空间变换的前景遮罩与该第一时刻的参考帧图像的背景图像进行合成，得到该第一时刻的相邻时刻的参考帧图像。其中，第一时刻的相邻时刻既可以为第一时刻的相邻上一时刻，也可以为第一时刻的相邻下一时刻，例如，若第一时刻为t时刻，第一时刻的相邻时刻可以为t+1时刻和/或t-1时刻。

S506，对所述第一时刻的前景遮罩进行颜色变换和所述设定的空间变换，得到所述第一时刻的相邻时刻的前景遮罩，并将所述第一时刻的相邻时刻的前景遮罩与所述参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的训练帧图像。

在本发明实施例中，终端可以对该第一时刻的前景遮罩进行颜色变换和上述设定的空间变换，得到该第一时刻的相邻时刻的前景遮罩，并利用图像合成技术将该第一时刻的相邻时刻的前景遮罩与该参考帧图像的背景图像进行合成，得到该第一时刻的相邻时刻的训练帧图像。如图6b所示，是训练帧图像数据的生成示意图，X_t-1表示t-1时刻的参考帧图像，抠除参考帧图像X_t-1中的前景遮罩区域，抠除的前景遮罩区域即为t-1时刻的前景遮罩M_t-1，再用现有的图像修补算法补全X_t-1中被抠除的部分，得到t-1时刻的背景图像Y_t-1，对t-1时刻的前景遮罩M_t-1进行颜色变换后与t-1时刻的背景图像Y_t-1进行图像合成，得到t-1时刻的训练帧图像I_t-1；对t-1时刻的前景遮罩M_t-1进行设定的空间变换，并将空间变换后的前景遮罩与t-1时刻的背景图像Y_t-1进行图像合成，得到t时刻的参考帧图像X_t；再对t-1时刻的前景遮罩M_t-1进行颜色变换和上述设定的空间变换，得到t时刻的前景遮罩M_t，再将与t-1时刻的背景图像Y_t-1进行图像合成，得到t时刻的训练帧图像I_t。

其中，第一时刻的相邻时刻既可以为第一时刻的相邻上一时刻，也可以为第一时刻的相邻下一时刻，例如，若第一时刻为t时刻，第一时刻的相邻时刻可以为t+1时刻和/或t-1时刻。该第一时刻的前景遮罩由于进行颜色变换时，改变了其外观(颜色、饱和度、亮度、对比度等)，故进行颜色变换和设定的空间变换后的前景遮罩与参考帧图像的背景图像进行图像合成后，得到的第一时刻的相邻时刻的训练帧图像中存在不和谐像素。

可选的，终端在得到第一时刻的相邻时刻的训练帧图像之后，该终端还可以根据上述设定的空间变换，记录该第一时刻的训练帧图像与该第一时刻的相邻时刻的训练帧图像之间的光流信息。光流是空间运动物体在观测成像面上的像素运动的瞬时速度，空间变换中的仿射变换如平移、缩放、翻转、旋转以及剪切等都只改变了像素的位置，当像素的位置发生改变时，像素一定发生过运动，故可以通过设定的空间变换记录到第一时刻与其相邻时刻的光流信息。

需要说明的是，本发明涉及的带有前景遮罩标注信息的数据库中存在M幅目标帧图像，终端可以对M幅目标帧图像中的任一幅目标帧图像执行图5所示的步骤，得到一组训练帧图像数据，M幅目标帧图像共有M组训练帧图像数据。图5所示的步骤仅为一组训练帧图像数据的生成方法，终端可以循环图5所示的步骤，得到多组训练帧图像数据。因此，利用图5所示的训练帧图像数据的生成方法能够以单幅图像为基础，自动模拟出所需的训练帧图像数据。

进一步地，请参见图7，是本发明实施例提供的一种视频帧图像处理装置的示意性框图。本实施例的视频帧图像处理装置至少包括：第一获取模块10、第一训练模块20以及图像处理模块30。

第一获取模块10，用于获取至少2个连续时刻的训练帧图像数据，包括所述至少2个连续时刻中的每个时刻的训练帧图像、该训练帧图像的前景遮罩以及参考帧图像。

第一训练模块20，用于使用所述训练帧图像数据对图像和谐神经网络进行训练，使得所述图像和谐神经网络的损失函数最小，所述图像和谐神经网络的损失函数包括第一损失值和第二损失值，其中：

所述第二损失值由所述第一时刻的和谐帧图像与至少一个相邻时刻的和谐帧图像之间的差异确定，所述相邻时刻的和谐帧图像由相邻时刻的训练帧图像以及该训练帧图像的前景遮罩输入所述图像和谐神经网络后得到。

可选的，参见图8，是本发明实施例提供的一种第一训练模块的示意性框图，如图8所示，该第一训练模块20包括第一空间变换单元201和差模单元202。

第一空间变换单元201，用于根据所述第一时刻的训练帧图像分别与所述至少一个相邻时刻的训练帧图像之间的光流信息，将所述至少一个相邻时刻的和谐帧图像进行空间变换，以使所述至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像的对应像素位置对齐。

差模单元202，用于根据所述空间变换后的至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像分别在所述第一时刻的前景遮罩区域中的对应像素之间的差模，确定所述第二损失值。

进一步可选的，上述差模单元202具体用于根据该空间变换后的至少一个相邻时刻的和谐帧图像与该第一时刻的和谐帧图像分别在该第一时刻的前景遮罩区域中对应像素的外观参数之间的差模，确定该第二损失值。其中，外观参数可以包括颜色、饱和度、亮度和对比度中的至少一种。

图像处理模块30，用于将目标视频帧图像以及所述目标视频帧图像的前景遮罩输入所述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像。

其中，上述第一获取模块10、第一训练模块20以及图像处理模块30的具体实现方式可参见上述图1所对应实施例中对步骤S101-步骤S103的描述，这里将不再继续进行赘述。

进一步地，请参见图9，是本发明实施例提供的另一种视频帧图像处理装置的示意性框图。如图9所示，本实施例的视频帧图像处理装置包括上述图7所对应实施例中的第一获取模块10、第一训练模块20和图像处理模块30；此外，本实施例的视频帧图像处理装置还包括：第二训练模块40、第二获取模块50以及判别模块60。

第二训练模块20，用于使用所述训练帧图像数据对所述非和谐判别神经网络进行训练，使得所述非和谐判别神经网络的损失函数最小，所述非和谐判别神经网络的损失函数包括第四损失值、第五损失值以及第六损失值；

第一训练模块10，用于使用所述训练帧图像数据对图像和谐神经网络进行训练，使得所述图像和谐神经网络的损失函数最小，所述图像和谐神经网络的损失函数包括第一损失值和第二损失值，其中：

第二获取模块50，用于获取目标视频帧图像。

判别模块60，用于将所述目标视频帧图像输入所述非和谐判别神经网络后得到的非和谐像素判别结果作为所述目标视频帧图像的前景遮罩。

其中，本实施例的第一获取模块10、第一训练模块20、图像处理模块30、第二训练模块40、第二获取模块50以及判别模块60的具体实现方式可参见上述图3所对应实施例中对步骤S301-S304的描述，这里将不再继续进行赘述。

进一步地，请参见图10，是本发明实施例提供的一种第一获取模块的示意性框图，如图10所示，该第一获取模块10包括获取单元101、确定单元102、抠除补全单元103、颜色变换单元104、合成单元105以及第二空间转换单元106。

获取单元101，用于获取标注有前景遮罩区域的目标帧图像。

确定单元102，用于将所述目标帧图像作为第一时刻的参考帧图像，并根据所述目标帧图像中的前景遮罩区域得到所述第一时刻的前景遮罩。

抠除补全单元103，用于将所述前景遮罩区域从所述参考帧图像中抠除，并对被抠除后的参考帧图像进行图像补全，得到所述第一时刻的参考帧图像的背景图像。

颜色变换单元104，用于对所述第一时刻的前景遮罩进行颜色变换。

合成单元105，用于将输入所述颜色变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的训练帧图像。

第二空间转换单元106，用于对所述第一时刻的前景遮罩进行设定的空间变换。

上述合成单元105，还用于并将输入所述设定的空间变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的参考帧图像。

上述颜色变换单元104，还用于对所述第一时刻的前景遮罩进行颜色变换。

上述第二空间转换单元106，还用于对输入所述颜色变换后的前景遮罩进行所述设定的空间变换，得到所述第一时刻的相邻时刻的前景遮罩。

上述合成单元105，还用于将所述第一时刻的相邻时刻的前景遮罩与所述参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的训练帧图像。

可选的，上述第一获取模块10还包括记录单元107。

记录单元107，用于根据所述设定的空间变换，记录所述第一时刻的训练帧图像与所述第一时刻的相邻时刻的训练帧图像之间的光流信息。

其中，上述获取单元101、确定单元102、抠除补全单元103、颜色变换单元104、合成单元105、第二空间转换单元106以及记录单元107的具体实现方式可参见上述图5所对应实施例中对步骤S501-步骤S506的描述，这里将不再继续进行赘述。

进一步地，请参见图11，是本发明实施例提供的又一种视频帧图像处理装置的示意性框图。如图所示的视频帧图像处理装置1000可以包括：至少一个处理器1001，例如CPU、GPU，至少一个输出接口1002，存储器1003，至少一个通信总线1004。其中，通信总线1004用于实现这些组件之间的连接通信。其中，视频帧图像处理装置1000可以通过调用输出接口1002输出目标视频的和谐帧图像，输出接口1002可以包括显示屏等。存储器1003可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1003可选的还可以是至少一个位于远离上述处理器1001的存储装置。如图11所示，作为一种计算机存储介质的存储器1003中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图11所示的视频帧图像处理装置1000中，处理器1001可以用于调用存储器1003中存储的数据处理应用程序，以实现：

应当理解，本发明实施例中的处理器1001可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输出接口1002可以包括显示器(LCD等)、扬声器等。

该存储器1003可以包括只读存储器和随机存取存储器，并向处理器1001提供指令和数据。存储器1003的一部分还可以包括非易失性随机存取存储器。例如，存储器1003还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的视频帧图像处理装置1000可执行前文图1或图3所对应实施例中对视频帧图处理方法的描述，也可执行前文图5所对应实施例中对训练帧图像数据生成方法的描述，还可执行前文图7或图9所对应实施例中对视频帧图像处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的视频帧图像处理装置1000所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图1或图3所对应实施例中对所述视频帧图像处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频帧图像处理方法，其特征在于，包括：

获取标注有前景遮罩区域的目标帧图像；

对所述第一时刻的前景遮罩进行颜色变换和所述设定的空间变换，得到所述第一时刻的相邻时刻的前景遮罩，并将所述第一时刻的相邻时刻的前景遮罩与所述参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的训练帧图像；

其中，所述第一时刻的训练帧图像、所述第一时刻的前景遮罩、所述第一时刻的参考帧图像、所述第一时刻的相邻时刻的训练帧图像、所述第一时刻的相邻时刻的前景遮罩以及所述第一时刻的相邻时刻的参考帧图像作为一组训练帧图像数据，所述训练帧图像数据用于训练图像和谐神经网络，所述图像和谐神经网络用于对视频帧图像进行处理以得到视频帧图像的和谐帧图像。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取M幅目标帧图像对应的M组训练帧图像数据，所述M组训练帧图像数据中存在一组训练帧图像数据包括所述第一时刻的训练帧图像、所述第一时刻的前景遮罩、所述第一时刻的参考帧图像、所述第一时刻的相邻时刻的训练帧图像、所述第一时刻的相邻时刻的前景遮罩以及所述第一时刻的相邻时刻的参考帧图像。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述第一损失值由所述第一时刻的训练帧图像以及该训练帧图像的前景遮罩输入所述图像和谐神经网络后得到的所述第一时刻的和谐帧图像与所述第一时刻的参考帧图像之间的差异确定；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述第二损失值由所述第一时刻的和谐帧图像与至少一个相邻时刻的和谐帧图像之间的差异确定，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述空间变换后的至少一个相邻时刻的和谐帧图像与所述第一时刻的和谐帧图像分别在所述第一时刻的前景遮罩区域中的对应像素之间的差模，确定所述第二损失值，包括：

7.根据权利要求3所述的方法，其特征在于，所述图像和谐神经网络的损失函数还包括第三损失值；

8.根据权利要求7所述的方法，其特征在于，所述图像和谐神经网络的损失函数为：

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述非和谐判别神经网络的损失函数为：

11.根据权利要求1所述的方法，其特征在于，所述对所述第一时刻的前景遮罩进行颜色变换和所述设定的空间变换，得到所述第一时刻的相邻时刻的前景遮罩，并将所述第一时刻的相邻时刻的前景遮罩与所述参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的训练帧图像之后，还包括：

12.根据权利要求7-10任一项所述的方法，其特征在于，所述将目标视频帧图像以及所述目标视频帧图像的前景遮罩输入所述训练得到的图像和谐神经网络，得到目标视频的和谐帧图像之前，还包括：

获取目标视频帧图像；

13.一种视频帧图像处理装置，其特征在于，包括：

第一获取模块中的获取单元，用于获取标注有前景遮罩区域的目标帧图像；

所述第一获取模块中的确定单元，用于将所述目标帧图像作为第一时刻的参考帧图像，并根据所述目标帧图像中的前景遮罩区域得到所述第一时刻的前景遮罩；

所述第一获取模块中的抠除补全单元，用于将所述前景遮罩区域从所述参考帧图像中抠除，并对被抠除后的参考帧图像进行图像补全，得到所述第一时刻的参考帧图像的背景图像；

所述第一获取模块中的颜色变换单元，用于对所述第一时刻的前景遮罩进行颜色变换；

所述第一获取模块中的合成单元，用于将输入所述颜色变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的训练帧图像；

所述第一获取模块中的第二空间变换单元，用于对所述第一时刻的前景遮罩进行设定的空间变换；

所述合成单元，还用于将输入所述设定的空间变换的前景遮罩与所述第一时刻的参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的参考帧图像；

所述合成单元，还用于将所述第一时刻的相邻时刻的前景遮罩与所述参考帧图像的背景图像进行合成，得到所述第一时刻的相邻时刻的训练帧图像；

14.一种视频帧图像处理装置，其特征在于，包括：处理器、存储器和输出接口；

所述处理器、存储器和输出设备相互连接，其中，所述存储器用于存储程序代码、训练帧图像数据，所述输出接口用于输出目标视频的和谐帧图像，所述处理器用于调用所述程序代码，以执行如权利要求1-12任一项所述的方法。

15.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-12任一项所述的方法。