CN113763445A

CN113763445A - 静态图像获取方法、系统和电子设备

Info

Publication number: CN113763445A
Application number: CN202111107862.0A
Authority: CN
Inventors: 胡玮
Original assignee: Lichuan Fandi Technology Co ltd
Current assignee: Lichuan Fandi Technology Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-07

Abstract

本申请涉及图像处理领域，具体地公开了一种静态图像获取方法、系统和电子设备，其使用基于卷积神经网络的图像生成器技术来补偿在通过短视频或者动态图像的多个图像帧进行图像合成时的背景变化信息，通过这样的方式，来提升静态图像的背景真实度。

Description

静态图像获取方法、系统和电子设备

技术领域

本发明涉及微服务集群的数据存储领域，且更为具体地，涉及一种静态图像获取方法、系统和电子设备。

背景技术

随着移动终端的摄像功能的成熟，越来越多的短视频通过用户产生，并且，也出现了通过静态图像进行动态化处理来生成动态图像或者短视频的技术。但是，相对地，从动态图像或者短视频中反向生成静态图像的技术并没有得到深入研究。

这里，从动态图像或者短视频反向生成静态图像主要是要考虑动态图像或者短视频中的各个视频帧之间的差异信息，这些差异信息除了各个帧之间随着时间维度和空间维度导致的不同以外，也包括动态效果本身带来的信息，也就是视频处理中常提到的光流信息，其中的主要部分可以理解为是由于对象本身发生的运动而产生的背景变化信息。

在获取静态图像时，如果在通过多个图像帧进行图像合成时，这种背景变化信息不能得到有效地处理，尽管对象本身的图像质量可以通过图像合成而得到加强，但是会显著地降低静态图像的背景真实度。

因此，期望一种优化的静态图像合成方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种静态图像获取方法、系统和电子设备，其使用基于卷积神经网络的图像生成器技术来补偿在通过短视频或者动态图像的多个图像帧进行图像合成时的背景变化信息，通过这样的方式，来提升静态图像的背景真实度。

根据本申请的一个方面，提供了一种静态图像获取方法，其包括：

训练阶段，包括：

获取作为训练样本的动态图像或短视频；

从所述动态图像或短视频中提取连续的多个图像帧；

将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图；

基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图；

对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量；

计算每个所述图像帧的所述对象纹理隐向量和所述背景纹理隐向量之间的差分，以获得对应于每个所述图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量；

将每个所述图像帧输入作为生成器的第二卷积神经网络以获得对应于每个所述图像帧的特征图；

计算每个所述图像帧和与其对应的所述特征图之间的均方差损失函数值；

计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，并计算所述差分图与所述差分向量之间的交叉熵损失函数值；以及使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络；以及

预测阶段，包括：

获取待处理的动态图像或短视频；

从所述待处理的动态图像或短视频中获取多个初始图像帧；

将所述多个初始图像帧分别通过经训练阶段训练而成的作为生成器的所述第二卷积神经网络以获得多个处理后图像帧；以及

将所述多个处理后图像帧进行图像合成，以获得合成静态图像。

在上述静态图像获取方法中，将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图，包括：

将所述多个图像帧分别输入作为纹理提取器的所述第一卷积神经网络；

从所述第一卷积神经网络的第N层提取出对应于每个所述图像帧的纹理特征图，其中，N为4到6中任一的正整数。

在上述静态图像获取方法中，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图，包括：以目标候选框标识出各个所述图像帧中的对象位置；基于所述目标候选框在各个所述图像帧中的位置，从对应的所述纹理特征图中分割出所述对象纹理特征图；以及，将被分割出所述对象纹理特征图的所述纹理特征图作为所述背景纹理特征图。

在上述静态图像获取方法中，对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量，包括：对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局平均值池化处理或者全局最大值池化处理，以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量。

在上述静态图像获取方法中，计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，包括：计算每个所述图像帧和与其对应的所述特征图之间的按像素位置的特征值之间的差值以获得所述差分图。

在上述静态图像获取方法中，所述第一卷积神经网络和/或所述第二卷积神经网络为深度残差网络。

在上述静态图像获取方法中，所述第二卷积神经网络的通道数为1，以使得所述特征图与所述图像帧具有相同的尺寸。

根据本申请的另一方面，还提供了一种静态图像获取系统，其包括：

训练模块，包括：

训练样本单元，用于获取作为训练样本的动态图像或短视频；

图像帧提取单元，用于从所述动态图像或短视频中提取连续的多个图像帧；

纹理特征图生成单元，用于将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图；

纹理分割单元，用于基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图；

纹理隐向量挖掘单元，用于对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量；

差分向量生成单元，用于计算每个所述图像帧的所述对象纹理隐向量和所述背景纹理隐向量之间的差分，以获得对应于每个所述图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量；

特征图生成单元，用于将每个所述图像帧输入作为生成器的第二卷积神经网络以获得对应于每个所述图像帧的特征图；

均方差损失函数值计算单元，用于计算每个所述图像帧和与其对应的所述特征图之间的均方差损失函数值；

交叉熵损失函数值计算单元，用于计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，并计算所述差分图与所述差分向量之间的交叉熵损失函数值；以及

训练单元，用于使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络；以及

预测模块，包括：

待处理数据获取单元，用于获取待处理的动态图像或短视频；

初始图像帧获取单元，用于从所述待处理的动态图像或短视频中获取多个初始图像帧；

图像处理单元，用于将所述多个初始图像帧分别通过经训练阶段训练而成的作为生成器的所述第二卷积神经网络以获得多个处理后图像帧；及

图像合成单元，用于将所述多个处理后图像帧进行图像合成，以获得合成静态图像。

在上述静态图像获取系统中，所述纹理特征图生成单元，进一步用于：将所述多个图像帧分别输入作为纹理提取器的所述第一卷积神经网络；以及，从所述第一卷积神经网络的第N层提取出对应于每个所述图像帧的纹理特征图，其中，N为4到6中任一的正整数。

根据本申请的又一方面，还提供了一种电子设备，其包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的静态图像获取方法。

与现有技术相比，本申请提供的静态图像获取方法、系统和电子设备，其使用基于卷积神经网络的图像生成器技术来补偿在通过短视频或者动态图像的多个图像帧进行图像合成时的背景变化信息，通过这样的方式，来提升静态图像的背景真实度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的静态图像获取方法的应用场景图；

图2为根据本申请实施例的静态图像获取方法的训练阶段的流程图。

图3为根据本申请实施例的静态图像获取方法的预测阶段的流程图。

图4为根据本申请实施例的静态图像获取方法的训练阶段的架构示意图。

图5为根据本申请实施例的静态图像获取方法的预测阶段的架构示意图。

图6为根据本申请实施例的静态图像获取方法中，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图的流程图。

图7为根据本申请实施例的静态图像获取系统的框图。

图8为根据本申请实施例的静态图像获取系统的纹理分割单元的框图。

图9为根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如上所述，在获取静态图像时，如果在通过多个图像帧进行图像合成时，这种背景变化信息不能得到有效地处理，尽管对象本身的图像质量可以通过图像合成而得到加强，但是会显著地降低静态图像的背景真实度。因此，本申请的申请人期望使用基于卷积神经网络的图像生成器技术来补偿背景变化信息。

具体地，在本申请的技术方案中，首先训练图像生成器，也就是，首先获取作为训练样本的动态图像或短视频，并提取其中的连续的图像帧，然后，将每个图像帧输入第一卷积神经网络。并且，考虑到背景变化信息在图像的纹理信息中最为充分，因此第一卷积神经网络构成为纹理提取器，例如，其对应于一般卷积神经网络的4到6层以提取出每个图像帧的纹理特征图。由于在本申请的技术方案中，由于图像合成时需要考虑图像帧的对象部分的信息，因此需要在纹理特征图中区分对象部分和背景部分，因此，可以按照图像帧中的对象位置将每个纹理特征图分割为对象纹理特征图和背景纹理特征图。并且，针对每个图像帧的对象纹理特征图和背景纹理特征图，使用用于表达全局纹理特征的隐向量来表达每个图像帧的纹理信息，也就是，将对象纹理特征图和背景纹理特征图进行按通道维度的全局池化以得到对象纹理隐向量和背景纹理隐向量。

接着，计算每个对象纹理隐向量和背景纹理隐向量的差分向量，从而得到对应于每个图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量。然后，在将每个图像帧输入作为生成器的第二卷积神经网络以得到特征图时，除了计算特征图与输入图像之间的均方误差损失函数值之外，进一步计算特征图与输入图像之间的差分图，并使用差分向量与差分图的交叉熵损失函数值，并使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络，从而使得第二卷积神经网络能够在保持输入图像的视觉特征不变的情况下补偿背景变化信息。

相应地，在静态图像获取方法中，仅需要从动态图像或者短视频获取各个初始图像帧，再通过第二卷积神经网络获得处理的图像帧，并基于处理的图像帧进行图像合成。

基于此，本申请提出了一种静态图像获取方法，其包括：训练阶段和预测阶段。相应地，训练阶段包括步骤：获取作为训练样本的动态图像或短视频；从所述动态图像或短视频中提取连续的多个图像帧；将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图；基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图；对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量；计算每个所述图像帧的所述对象纹理隐向量和所述背景纹理隐向量之间的差分，以获得对应于每个所述图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量；将每个所述图像帧输入作为生成器的第二卷积神经网络以获得对应于每个所述图像帧的特征图；计算每个所述图像帧和与其对应的所述特征图之间的均方差损失函数值；计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，并计算所述差分图与所述差分向量之间的交叉熵损失函数值；以及，使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络。预测阶段，包括步骤：获取待处理的动态图像或短视频；从所述待处理的动态图像或短视频中获取多个初始图像帧；将所述多个初始图像帧分别通过经训练阶段训练而成的作为生成器的所述第二卷积神经网络以获得多个处理后图像帧；以及，将所述多个处理后图像帧进行图像合成，以获得合成静态图像。

图1图示了根据本申请实施例的静态图像获取方法的应用场景图。如图1所示，在该应用场景的训练阶段中，首先，获取作为训练样本的动态图像或短视频(例如，如图1中所示意的Ts)；然后，将所述训练样本输入部署有静态图像获取算法的服务器(例如，如图1中所示意的S1)中，其中，所述服务器能够以静态图像获取算法并以所述训练样本对用于静态图像处理的生成器进行训练。

相应地，在训练完成后，获取待处理的动态图像或短视频(例如，如图1中所示意的Ps)；然后，将待处理的动态图像或短视频输入部署有静态图像获取算法的服务器(例如，如图1中所示意的S2)中，其中，所述服务器能够以静态图像获取算法对所述待处理的动态图像或短视频进行处理以生成多个处理后图像帧。然后，将所述多个处理后图像帧进行图像合成，以获得合成静态图像，通过这样的方式，提升静态图像的背景真实度。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2和图3图示了根据本申请实施例的静态图像获取方法的流程图，其包括两个阶段：训练阶段和预测阶段。

图2为根据本申请实施例的静态图像获取方法的训练阶段的流程图。如图2所示，根据本申请实施例的静态图像获取方法的训练阶段，包括步骤：S110，获取作为训练样本的动态图像或短视频；S120，从所述动态图像或短视频中提取连续的多个图像帧；S130，将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图；S140，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图；S150，对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量；S160，计算每个所述图像帧的所述对象纹理隐向量和所述背景纹理隐向量之间的差分，以获得对应于每个所述图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量；S170，将每个所述图像帧输入作为生成器的第二卷积神经网络以获得对应于每个所述图像帧的特征图；S180，计算每个所述图像帧和与其对应的所述特征图之间的均方差损失函数值；S190，计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，并计算所述差分图与所述差分向量之间的交叉熵损失函数值；以及，S200，使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络。

图4为根据本申请实施例的静态图像获取方法的训练阶段的架构示意图。如图4所示，在所述训练阶段的架构中，首先从获取的训练样本中提取连续的多个图像帧(例如，如图4中所示意的IN1)，其中，所述训练样本为动态图像或短视频；接着，将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络(例如，如图4中所示意的CNN)以获得对应于每个所述图像帧的纹理特征图(例如，如图4中所示意的Ft)；然后，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图(例如，如图4中所示意的Fto)和背景纹理特征图(例如，如图4中所示意的Ftb)；接着，对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量(例如，如图4中所示意的Vto)和背景纹理隐向量(例如，如图4中所示意的Vtb)；然后，计算每个所述图像帧的所述对象纹理隐向量和所述背景纹理隐向量之间的差分，以获得对应于每个所述图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量(例如，如图4中所示意的Vd)；然后，将每个所述图像帧输入作为生成器的第二卷积神经网络(例如，如图5中所示意的CNN2)以获得对应于每个所述图像帧的特征图(例如，如图4中所示意的F1)；然后，计算每个所述图像帧和与其对应的所述特征图之间的均方差损失函数值；同时，计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图(例如，如图4中所示意的Fd)，并计算所述差分图与所述差分向量之间的交叉熵损失函数值；最终，使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络。

图3为根据本申请实施例的静态图像获取方法的预测阶段的流程图。如图3所示，根据本申请实施例的静态图像获取方法的预测阶段，包括步骤：S210，获取待处理的动态图像或短视频；S220，从所述待处理的动态图像或短视频中获取多个初始图像帧；S230，将所述多个初始图像帧分别通过经训练阶段训练而成的作为生成器的所述第二卷积神经网络以获得多个处理后图像帧，以及，S240，将所述多个处理后图像帧进行图像合成，以获得合成静态图像。

图5为根据本申请实施例的静态图像获取方法的预测阶段的架构示意图。如图5所示，在所述预测阶段的架构中，首先获取待处理的动态图像或短视频(例如，如图5中所示意的V)；接着，从所述待处理的动态图像或短视频中获取多个初始图像帧(例如，如图5中所示意的Fi)；然后，将所述多个初始图像帧分别通过经训练阶段训练而成的作为生成器的所述第二卷积神经网络(例如，如图5中所示意的CNN2)以获得多个处理后图像帧(例如，如图5中所示意的Fa)。进而，将所述多个处理后图像帧进行图像合成，以获得合成静态图像(例如，如图5中所示意的Fc)。

更具体地，在训练阶段中，在步骤S110中，获取作为训练样本的动态图像或短视频。如前所述，在获取静态图像时，如果在通过多个图像帧进行图像合成时，这种背景变化信息不能得到有效地处理，尽管对象本身的图像质量可以通过图像合成而得到加强，但是会显著地降低静态图像的背景真实度。因此，本申请申请人期望使用基于卷积神经网络的图像生成器技术来补偿背景变化信息。

具体地，在本申请的技术方案中，首先是训练图像生成器。也就是，首先获取作为训练样本的动态图像或短视频，并提取其中的连续的图像帧，即步骤S120。相应地，在从所述动态图像或短视频中提取连续的多个图像帧的步骤中，可从所述动态图像或短视频中提取出连续帧的多个图像帧，也可以是以预设帧为间隔从所述动态图像或短视频中提取连续的多个图像帧，对此，并不为本申请所局限。

并且，在本申请实施例中，所述动态图像或所述短视频的数据格式并不为本申请所局限。其中，当所述训练样本为动态图像时，所述动态图像可以是GIF格式、SVG格式、PNG格式等；当所述训练样本为短视频时，所述短视频可以是MPEG格式、AVI格式、ASF格式、MOV格式、WMV格式、RMVB格式等。

更具体地，在训练阶段中，在步骤S130中，将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图。应可以理解，考虑到图像的背景变化信息在图像的纹理信息中表现地最为充分，因此，在本申请实施例中，将每个图像帧输入作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图。

本领域普通技术人员应知晓，卷积神经网络在提取图像特征方面具有优异的表现。更明确地，卷积神经网络的4～6层主要提取的是纹理方面的特征，也就是，对应于一般卷积神经网络的4到6层提取出每个图像帧的纹理特征图。

相应地，在本申请实施例中，将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图的过程，包括：首先，将所述多个图像帧分别输入作为纹理提取器的所述第一卷积神经网络；然后，从所述第一卷积神经网络的第N层提取出对应于每个所述图像帧的纹理特征图，其中，N为4到6中任一的正整数。

值得一提的是，在本申请实施例中，所述第一卷积神经网络可被实施为一般的卷积神经网络，或者，也可以在一般的卷积神经网络的架构中加入残差块以将常规的卷积神经网络改造为深度残差网络(例如，ResNet 50，ResNet150等)，对此，并不为申请所局限。

更具体地，在训练阶段中，在步骤S140中，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图。应可以理解，在本申请的技术方案中，由于图像合成时需要考虑图像帧的对象部分的信息，因此需要在纹理特征图中区分对象部分和背景部分。相应地，可以按照图像帧中的对象位置将每个纹理特征图分割为对象纹理特征图和背景纹理特征图。

在一个具体的示例中，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图的过程，包括：首先以目标候选框标识出各个所述图像帧中的对象位置，也就是，以将图像帧中对象的位置以目标候选框的方式标识为感兴趣区域。这里，标识候选框可以是人工标识，或者，也可以通过机器来进行自动标识(例如，以训练出候选框标识网络来进行机器自动标识)。然后，基于所述目标候选框在各个所述图像帧中的位置，从对应的所述纹理特征图中分割出所述对象纹理特征图。本领域普通技术人员应知晓，卷积神经网络在提取特征方面具有位置不变性，因此，只需要将目标候选框的位置映射到所述纹理特征图中便可以得到所述对象纹理特征图。接着，将被分割出所述对象纹理特征图的所述纹理特征图作为所述背景纹理特征图。

图6为根据本申请实施例的静态图像获取方法中，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图的流程图。如图6所示，在本申请实施例中，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图，包括：S310，以目标候选框标识出各个所述图像帧中的对象位置；S320，基于所述目标候选框在各个所述图像帧中的位置，从对应的所述纹理特征图中分割出所述对象纹理特征图；以及，S330，将被分割出所述对象纹理特征图的所述纹理特征图作为所述背景纹理特征图。

更具体地，在训练阶段中，在步骤S150中，对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量。也就是，在本申请实施例中，针对每个图像帧的对象纹理特征图和背景纹理特征图，使用用于表达全局纹理特征的隐向量来表达每个图像帧的纹理信息，通过这样的方式，可降低计算量同时能兼顾纹理信息的表征能力。

在具体实施中，可以对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局平均值池化处理或者全局最大值池化处理，以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量，对此，并不为本申请所局限。

相应地，在训练阶段中，在步骤S160中，计算每个所述图像帧的所述对象纹理隐向量和所述背景纹理隐向量之间的差分，以获得对应于每个所述图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量。也就是，计算每个对象纹理隐向量和背景纹理隐向量的差分向量，从而得到对应于每个图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量。

更具体地，在训练阶段中，在步骤S170中，将每个所述图像帧输入作为生成器的第二卷积神经网络以获得对应于每个所述图像帧的特征图。也就是，将每个图像帧输入作为生成器的第二卷积神经网络以得到特征图，这里，所述生成器的作用在于对所述图像帧进行处理，以获得能够补偿背景变化信息的处理后图像。特别地，所述第二卷积神经网络的通道数为1，因此，所述特征图与所述图像帧具有相同的尺寸。

同样地，所述第二卷积神经网络可被实施为一般的卷积神经网络，或者，也可以在一般的卷积神经网络的架构中加入残差块以将常规的卷积神经网络改造为深度残差网络(例如，ResNet 50，ResNet 150等)，对此，并不为申请所局限。

更具体地，在训练阶段中，在步骤S180中，计算每个所述图像帧和与其对应的所述特征图之间的均方差损失函数值。这里，所述图像帧和与其对应的特征图之间的均方差损失函数值表示所述图像帧和与其对应的所述特征图在特征分布上的差异度，或者说，所述图像帧和所述特征图在特征分布上的一致性的概率。

更具体地，在训练阶段中，在步骤S190中，计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，并计算所述差分图与所述差分向量之间的交叉熵损失函数值。同理，应可以理解，所述差分图表示所述图像帧和与其对应的特征图之间的差异，在计算过程中，可计算所述图像帧和所述特征图之间的按像素位置的特征值之差以获得所述差分图(即，所述差分图体现的是所述图像帧和与其对应的特征图在像素层级上的差异)。

相应地，所述交叉熵损失函数值表示差分图和所述差分向量在特征分布的一致性的概率。应可以理解，所述差分图表示所述图像帧和与其对应的特征图之间的差异(此差异集中于背景部分的差异)，所述差分向量用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量，因此，所述交叉熵损失函数值表示差分图和所述差分向量在背景部分纹理变化特征分布的一致性的概率。

更具体地，在训练阶段中，在步骤S200中，使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络。相应地，使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络，从而使得第二卷积神经网络能够在保持输入图像的视觉特征不变的情况下补偿背景变化信息。在具体的训练过程中，可采用BP算法并使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络。

在作为生成器的第二卷积神经网络训练完成后，能够将待处理的图像帧输入作为生成器的第二卷积神经网络，以使得处理后的图像帧能够在保持输入图像的视觉特征不变的情况下补偿背景变化信息。

更具体地，在预测阶段中(或者说，在使用所述生成器的阶段中)，首先获取待处理的动态图像或短视频。然后，从所述待处理的动态图像或短视频中获取多个初始图像帧。接着，将所述多个初始图像帧分别通过经训练阶段训练而成的作为生成器的所述第二卷积神经网络以获得多个处理后图像帧。最终，将所述多个处理后图像帧进行图像合成，以获得合成静态图像，这里，由于图像合成算法为现有技术，故在此不再赘述。

综上，基于本申请实施例的静态图像获取方法被阐明，其使用基于卷积神经网络的图像生成器技术来补偿在通过短视频或者动态图像的多个图像帧进行图像合成时的背景变化信息，通过这样的方式，来提升静态图像的背景真实度。

示例性系统

图7为根据本申请实施例的静态图像获取系统的框图。如图7所示，根据本申请实施例的静态图像获取系统700，包括：训练模块710和预测模块730。

相应地，如图6所示，所述训练模块710，包括：训练样本单元711，用于获取作为训练样本的动态图像或短视频；图像帧提取单元712，用于从所述动态图像或短视频中提取连续的多个图像帧；纹理特征图生成单元713，用于将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图；纹理分割单元714，用于基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图；纹理隐向量挖掘单元715，用于对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量；差分向量生成单元716，用于计算每个所述图像帧的所述对象纹理隐向量和所述背景纹理隐向量之间的差分，以获得对应于每个所述图像帧的用于表示以对象部分纹理为参考的背景部分纹理变化的差分向量；特征图生成单元717，用于将每个所述图像帧输入作为生成器的第二卷积神经网络以获得对应于每个所述图像帧的特征图；均方差损失函数值计算单元718，用于计算每个所述图像帧和与其对应的所述特征图之间的均方差损失函数值；交叉熵损失函数值计算单元719，用于计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，并计算所述差分图与所述差分向量之间的交叉熵损失函数值；以及，训练单元720，用于使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络。

相应地，如图6所示，所述预测模块730，包括：待处理数据获取单元731，用于获取待处理的动态图像或短视频；初始图像帧获取单元732，用于从所述待处理的动态图像或短视频中获取多个初始图像帧；图像处理单元733，用于将所述多个初始图像帧分别通过经训练阶段训练而成的作为生成器的所述第二卷积神经网络以获得多个处理后图像帧；以及，图像合成单元734，用于将所述多个处理后图像帧进行图像合成，以获得合成静态图像。

在一个示例中，在上述静态图像获取系统700中，所述纹理特征图生成单元717713，进一步用于：将所述多个图像帧分别输入作为纹理提取器的所述第一卷积神经网络；以及，从所述第一卷积神经网络的第N层提取出对应于每个所述图像帧的纹理特征图，其中，N为4到6中任一的正整数。

在一个示例中，在上述静态图像获取系统700中，如图8所示，所述纹理分割单元714，包括：对象位置标识子单元7141，用于以目标候选框标识出各个所述图像帧中的对象位置；对象纹理特征图生成子单元7142，用于基于所述目标候选框在各个所述图像帧中的位置，从对应的所述纹理特征图中分割出所述对象纹理特征图；以及，背景纹理特征图生成子单元7143，用于将被分割出所述对象纹理特征图的所述纹理特征图作为所述背景纹理特征图。

在一个示例中，在上述静态图像获取系统700中，所述纹理隐向量挖掘单元715，进一步用于：对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局平均值池化处理或者全局最大值池化处理，以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量。

在一个示例中，在上述静态图像获取系统700中，所述交叉熵损失函数值计算单元719，进一步用于：计算每个所述图像帧和与其对应的所述特征图之间的按像素位置的特征值之间的差值以获得所述差分图。

在一个示例中，在上述静态图像获取系统700中，所述第一卷积神经网络和/或所述第二卷积神经网络为深度残差网络。

在一个示例中，在上述静态图像获取系统700中，所述第二卷积神经网络的通道数为1，以使得所述特征图与所述图像帧具有相同的尺寸。

这里，本领域技术人员可以理解，上述静态图像获取系统700中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的静态图像获取方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的静态图像获取系统700可以实现在各种终端设备中，例如静态图像获取的服务器等。在一个示例中，根据本申请实施例的静态图像获取系统700可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该静态图像获取系统700可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该静态图像获取系统700同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该静态图像获取系统700与该终端设备也可以是分立的设备，并且该静态图像获取系统700可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图9来描述根据本申请实施例的电子设备。

图9图示了根据本申请实施例的电子设备的框图。

如图9所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的静态图像获取方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如训练样本、合成静态图像等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括合成静态图像等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的静态图像获取方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的静态图像获取方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种静态图像获取方法，其特征在于，包括：

训练阶段，包括：

获取作为训练样本的动态图像或短视频；

从所述动态图像或短视频中提取连续的多个图像帧；

计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，并计算所述差分图与所述差分向量之间的交叉熵损失函数值；以及

使用均方误差损失函数值与交叉熵损失函数值的加权和来训练第二卷积神经网络；以及

预测阶段，包括：

获取待处理的动态图像或短视频；

从所述待处理的动态图像或短视频中获取多个初始图像帧；

2.根据权利要求1所述的静态图像获取方法，其中，将所述多个图像帧分别通过作为纹理提取器的第一卷积神经网络以获得对应于每个所述图像帧的纹理特征图，包括：

3.根据权利要求1所述的静态图像获取方法，其中，基于各个所述图像帧中的对象位置，分别将对应的所述纹理特征图分割为对象纹理特征图和背景纹理特征图，包括：

以目标候选框标识出各个所述图像帧中的对象位置；

基于所述目标候选框在各个所述图像帧中的位置，从对应的所述纹理特征图中分割出所述对象纹理特征图；以及

将被分割出所述对象纹理特征图的所述纹理特征图作为所述背景纹理特征图。

4.根据权利要求1所述的静态图像获取方法，其中，对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局池化处理以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量，包括：

对每个所述图像帧对应的对象纹理特征图和背景纹理特征图进行按通道维度的全局平均值池化处理或者全局最大值池化处理，以获得每个所述图像帧的对象纹理隐向量和背景纹理隐向量。

5.根据权利要求1所述的静态图像获取方法，其中，计算每个所述图像帧和与其对应的所述特征图之间的差分以获得差分图，包括：

计算每个所述图像帧和与其对应的所述特征图之间的按像素位置的特征值之间的差值以获得所述差分图。

6.根据权利要求1所述的静态图像获取方法，其中，所述第一卷积神经网络和/或所述第二卷积神经网络为深度残差网络。

7.根据权利要求6所述的静态图像获取方法，其中，所述第二卷积神经网络的通道数为1，以使得所述特征图与所述图像帧具有相同的尺寸。

8.一种静态图像获取系统，其特征在于，包括：

训练模块，包括：

预测模块，包括：

9.根据权利要求8所述的静态图像获取系统，其中，所述纹理特征图生成单元，进一步用于：将所述多个图像帧分别输入作为纹理提取器的所述第一卷积神经网络；以及，从所述第一卷积神经网络的第N层提取出对应于每个所述图像帧的纹理特征图，其中，N为4到6中任一的正整数。

10.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的静态图像获取方法。