CN113393465A

CN113393465A - 一种图像生成方法及装置

Info

Publication number: CN113393465A
Application number: CN202110577342.XA
Authority: CN
Inventors: 王磊; 冯旭; 罗顺风
Original assignee: Zhejiang Geely Holding Group Co Ltd; Hangzhou Youxing Technology Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Hangzhou Youxing Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-09-14

Abstract

本发明公开一种图像生成方法及装置，所述方法包括：获取待处理视频以及目标服饰图像；从所述待处理视频中提取连续的至少两个视频帧图像；所述视频帧图像包括目标对象；对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图；融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像，得到目标融合图像。本发明实现了在背景复杂的情况下依然可以使目标对象与指定服饰图片精准的匹配，输出更加自然的证件照。

Description

一种图像生成方法及装置

技术领域

本发明涉及计算机图像处理技术领域，特别涉及一种图像生成方法及装置。

背景技术

目前人们获取自身穿正装的证件照，不仅要花钱购买或租赁正装，还需要到专业的证件照拍摄场所进行拍摄，耗时耗财。随着深度学习技术的快速发展，基于深度学习的证件照生成方法能够自动生成证件照，省时省力。

现有技术中，在单帧图像上利用传统的图像分割方法和抠图进行证件照合成，此方法通过固定的数学运算区分前后背景，容易受背景的复杂度影响，在一些非纯色背景下，前景和背景容易出现交叉错分，很大程度上影响最终的合成效果，而且通过抠图其最终的合成效果仅为背景替换，而非服装更换，如果证件照要求穿正装，则依然需要穿着正装。

此外，当遇到背景比较复杂，如头发周围颜色与发色相近、图像曝光、模糊等，分割出来的人体区域与背景区域混合，效果不好，此时存在分割出来的人体区域与服饰图片融合效果差等问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种图像生成方法及装置。所述技术方案如下：

一方面，提供了一种图像生成方法，所述方法包括：

获取待处理视频以及目标服饰图像；

从所述待处理视频中提取连续的至少两个视频帧图像；所述视频帧图像包括目标对象；

对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图；

融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像，得到目标融合图像。

另一方面，提供了一种图像生成装置，所述装置包括：

获取模块，用于获取待处理视频以及目标服饰图像；

图像提取模块：用于从所述待处理视频中提取连续的至少两个视频帧图像；所述视频帧图像包括目标对象；

图像分割模块：用于对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图；

图像融合模块：用于融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像，得到目标融合图像。

进一步地，所述图像分割模块包括：

目标对象分割模块：用于将所述至少两个视频帧图像输入图像分割网络，通过所述图像分割网络对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图。

进一步地，所述装置还包括：

第一训练数据获取模块：用于获取第一训练数据；所述第一训练数据包括第一图像组和所述第一图像组对应的参考二值图，所述第一图像组中包括连续的至少两个样本视频帧图像；

第一网络模型输入模块：用于将所述第一图像组输入至第一初始神经网络模型中进行图像分割训练，得到输出的训练二值图；

第一网络模型损失值确定模块：用于根据所述训练二值图与所述参考二值图的二阶范数确定第一损失值；

第一网络模型训练模块：用于按照最小化所述第一损失值的方向调整所述第一初始神经网络模型中的模型参数直至满足训练结束条件，得到所述图像分割网络。

进一步地，所述图像融合模块包括：

目标对象融合模块：用于将所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像输入图像融合网络，通过所述图像融合网络对所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像进行目标对象融合处理，得到所述目标融合图像。

进一步地，所述装置还包括：

第二训练数据获取模块：用于获取第二训练数据；所述第二训练数据包括第二图像组以及所述第二图像组对应的参考融合图像，所述第二图像组中包括样本目标视频帧图像、样本目标视频帧图像对应的二值图以及样本目标服饰图像；

第二网络模型输入模块：用于将所述第二图像组输入至第二初始神经网络模型中进行图像融合训练，得到输出的训练融合图像；

第二网络模型损失值确定模块：用于根据所述训练融合图像与所述参考融合图像的二阶范数确定第二损失值；

第二网络模型训练模块：用于按照最小化所述第二损失值的方向调整所述第二初始神经网络模型中的模型参数直至满足训练结束条件，得到所述图像融合网络。

进一步地，所述图像提取模块包括：

视频帧图像获取模块：用于从所述待处理视频中提取m组视频帧图像，每组视频帧图像包括连续的至少两个视频帧图像；

目标对象择优模块：用于将所述m组视频帧图像输入图像择优网络，通过所述图像择优网络对所述m组视频帧图像进行择优处理，分别得到所述m组视频帧图像中每组视频帧图像的得分；

视频帧图像排列模块：用于对所述m组视频帧图像的得分进行排序，将得分最高的一组视频帧图像作为所述连续的至少两个视频帧图像，得到所述连续的至少两个视频帧图像。

进一步地，所述装置还包括：

第三训练数据获取模块：用于获取第三训练数据；所述第三训练数据包括第三图像组和所述第三图像组对应的参考得分，所述第三图像组中包括m组样本视频帧图像，每组样本视频帧图像包括连续的至少两个视频帧图像；

第三网络模型输入模块：用于将所述第三图像组输入至第三初始神经网络模型中进行图像择优训练，得到输出的训练得分；

第三网络模型损失值确定模块：用于根据所述训练得分与所述参考得分的二阶范数确定第三损失值；

第三网络模型训练模块：用于按照最小化所述第三损失值的方向调整所述第三初始神经网络模型中的模型参数直至满足训练结束条件，得到所述图像择优网络。

进一步地，所述装置还包括：

第三图像组分割处理模块：用于将所述第三图像组输入所述图像分割网络，通过所述图像分割网络对所述第三图像组进行目标对象分割处理，得到所述第三图像组的输出二值图；

第一数值确定模块：用于根据所述输出二值图与所述输出二值图对应标签二值图的二阶范数，确定所述第三图像组的第一数值；

参考得分确定模块：用于根据所述第一数值的倒数，确定所述第三图像组对应的参考得分。

进一步地，所述图像融合模块之前还包括：

判断模块：用于判断所述至少两个视频帧图像的个数是否为奇数；

若是，则所述目标视频帧图像为中间位置视频帧图像；

若否，则所述目标视频帧图像为第n/2个所述至少两个视频帧图像，所述n为视频帧图像的个数。

另一方面提供了一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的图像生成方法。

另一方面提供了一种计算机存储介质，所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的图像生成方法。

本发明提供的一种图像生成方法及装置，具有如下技术效果：

本发明实施例首先通过获取待处理视频以及目标服饰图像，然后从所述待处理视频中提取连续的至少两个视频帧图像，视频帧图像包括目标对象，对至少两个视频帧图像进行目标对象分割处理，得到目标对象的二值图，最后融合目标服饰图像、二值图以及至少两个视频帧图像中的目标视频帧图像，得到目标融合图像。上述技术方案实现了在背景复杂的情况下依然可以使目标对象与指定服饰图片精准的匹配，输出更加自然的证件照。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像生产方法的流程示意图；

图2是本发明实施例提供的一种图像生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

请参见图1，其所示为本发明实施例提供的一种图像生成方法的流程示意图，所述方法具体包括以下步骤：

S101：获取待处理视频以及目标服饰图像；

S102：从所述待处理视频中提取连续的至少两个视频帧图像；所述视频帧图像包括目标对象；

S103：对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图；

S104：融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像，得到目标融合图像。

具体的，所述对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图，包括：

将所述至少两个视频帧图像输入图像分割网络，通过所述图像分割网络对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图。

具体的，所述方法还包括：

获取第一训练数据；所述第一训练数据包括第一图像组和所述第一图像组对应的参考二值图，所述第一图像组中包括连续的至少两个样本视频帧图像；

将所述第一图像组输入至第一初始神经网络模型中进行图像分割训练，得到输出的训练二值图；

根据所述训练二值图与所述参考二值图的二阶范数确定第一损失值；

按照最小化所述第一损失值的方向调整所述第一初始神经网络模型中的模型参数直至满足训练结束条件，得到所述图像分割网络。

具体的，在所述融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像之前，还包括：

判断所述至少两个视频帧图像的个数是否为奇数；

若是，则所述目标视频帧图像为中间位置视频帧图像；

在本发明实施例中，收集含有目标对象的若干段视频，从每一段视频中随机抽取连续的至少两个视频帧图像，连续的至少两个视频帧图像的选取其目的是为了引入领域信息以便更好的确定目标视频帧的二值图。以提取的连续的至少两个视频帧图像作为图像分割网络的输入，输出为目标对象的二值图，该目标对象的二值图用0和1表示，可以很好地将背景和人物分离出来，便于合成清晰自然的证件照，图像分割网络包括但不限于ResNet模型、LSTM-CF模型、RefineNet模型等。

在进行图像分割网络训练时，第一图像组对应的参考二值图为人工标注的二值图，当选取的是奇数个连续的样本视频帧图像时，标注的目标视频帧图像选取中间位置视频帧图像对应的二值图，当选取的是偶数个连续的样本视频帧图像时，标注的目标对象视频帧图像选取的是第n/2个所述至少两个视频帧图像对应的二值图。根据图像分割网络输出的训练二值图和参考二值图的二阶范数得到第一损失值，例如，图像分割网络的训练二值图用矩阵x表示，参考二值图用矩阵y表示，那么二阶范数就是||x-y||，图像分割网络的第一损失函数的计算包括但不限于二阶范数来计算，只要能保证矩阵x和矩阵y的差异在按照最小化方向调整时满足训练结束条件则可停止模型的训练。

具体的，所述融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像，得到目标融合图像，包括：

将所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像输入图像融合网络，通过所述图像融合网络对所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像进行目标对象融合处理，得到所述目标融合图像。

具体的，所述方法还包括：

获取第二训练数据；所述第二训练数据包括第二图像组以及所述第二图像组对应的参考融合图像，所述第二图像组中包括样本目标视频帧图像、样本目标视频帧图像对应的二值图以及样本目标服饰图像；

将所述第二图像组输入至第二初始神经网络模型中进行图像融合训练，得到输出的训练融合图像；

根据所述训练融合图像与所述参考融合图像的二阶范数确定第二损失值；

按照最小化所述第二损失值的方向调整所述第二初始神经网络模型中的模型参数直至满足训练结束条件，得到所述图像融合网络。

在本发明实施例中，图像融合网络包括但不限于Pan-sharpening模型等，将目标服饰图像、二值图以及至少两个视频帧图像中的目标视频帧图像输入图像融合网络，通过图像融合网络对目标服饰图像、二值图以及至少两个视频帧图像中的目标视频帧图像进行目标对象融合处理得到目标融合图像，目标融合图像即为更换背景之后的证件照图像，其二值图为至少两个视频帧图像输入至图像分割网络输出的二值图。在进行图像融合网络训练时，将参考融合图像作为图像融合网络的标签，参考融合图像为人工标注的融合完成的证件照，根据训练融合图像和标签的二阶范数确定图像融合网络的训练损失值，直至模型参数满足训练结束条件时结束训练。

具体的，所述从所述待处理视频中提取连续的至少两个视频帧图像包括：

从所述待处理视频中提取m组视频帧图像，每组视频帧图像包括连续的至少两个视频帧图像；

将所述m组视频帧图像输入图像择优网络，通过所述图像择优网络对所述m组视频帧图像进行择优处理，分别得到所述m组视频帧图像中每组视频帧图像的得分；

对所述m组视频帧图像的得分进行排序，将得分最高的一组视频帧图像作为所述连续的至少两个视频帧图像，得到所述连续的至少两个视频帧图像。

具体的，所述方法还包括：

获取第三训练数据；所述第三训练数据包括第三图像组和所述第三图像组对应的参考得分，所述第三图像组中包括m组样本视频帧图像，每组样本视频帧图像包括连续的至少两个视频帧图像；

将所述第三图像组输入至第三初始神经网络模型中进行图像择优训练，得到输出的训练得分；

根据所述训练得分与所述参考得分的二阶范数确定第三损失值；

按照最小化所述第三损失值的方向调整所述第三初始神经网络模型中的模型参数直至满足训练结束条件，得到所述图像择优网络。

具体的，所述方法还包括：

将所述第三图像组输入所述图像分割网络，通过所述图像分割网络对所述第三图像组进行目标对象分割处理，得到所述第三图像组的输出二值图；

根据所述输出二值图与所述输出二值图对应标签二值图的二阶范数，确定所述第三图像组的第一数值；

根据所述第一数值的倒数，确定所述第三图像组对应的参考得分。

在本发明实施例中，对于每一段视频，为了从视频中挑选图像质量较高的连续的至少两个视频帧图像，而训练了一个图像择优网络。该图像择优网络包括但不限于图卷积神经网络等该图像择优网络的输入数据包括m组视频帧图像，输出为m组视频帧图像的得分，对m组得分按照从小到大的顺序进行排列，我们选择得分最大的一组视频帧图像作为图像分割网络的输入数据，进而避免了一些不必要的因素对下一步证件照的融合产生影响，不必要的因素包括：图像模糊、过曝和头发颜色相近等因素。

在图像择优网络进行模型训练时，第三图像组对应的参考得分是通过将第三图像组输入至图像分割网络，得到第三图像组输出的二值图，根据输出二值图与输出二值图对应的标签二值图的二阶范数的倒数确定的，例如，图像分割网络的训练二值图用矩阵x表示，参考二值图用矩阵y表示，那么二阶范数就是||x-y||，那么第三图像组的参考得分为1/(||x-y||)，使用该参考得分对图像择优网络进行训练，直至满足训练结束条件，停止对模型的训练。

由本发明实施例的上述技方案可见，本发明首先通过获取待处理视频以及目标服饰图像，然后从所述待处理视频中提取连续的至少两个视频帧图像，视频帧图像包括目标对象，对至少两个视频帧图像进行目标对象分割处理，得到目标对象的二值图，最后融合目标服饰图像、二值图以及至少两个视频帧图像中的目标视频帧图像，得到目标融合图像。上述技术方案实现了在背景复杂的情况下依然可以使目标对象与指定服饰图片精准的匹配，输出更加自然的证件照。

本发明实施例中还提供了一种图像生成装置，如图2所示，其为本发明实施例提供的一种图像生成装置的结构示意图，所述装置包括：

获取模块10，用于获取待处理视频以及目标服饰图像；

图像提取模块20：用于从所述待处理视频中提取连续的至少两个视频帧图像；所述视频帧图像包括目标对象；

图像分割模块30：用于对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图；

图像融合模块40：用于融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像，得到目标融合图像。

进一步地，所述图像分割模块30包括：

进一步地，所述装置还包括：

进一步地，所述图像融合模块40包括：

进一步地，所述装置还包括：

进一步地，所述图像提取模块20包括：

进一步地，所述装置还包括：

进一步地，所述图像融合模块40之前还包括：

若是，则所述目标视频帧图像为中间位置视频帧图像；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的图像生成方法。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的图像生成方法。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取待处理视频以及目标服饰图像；

2.根据权利要求1所述的一种图像生成方法，其特征在于，所述对所述至少两个视频帧图像进行目标对象分割处理，得到所述目标对象的二值图，包括：

3.根据权利要求2所述的一种图像生成方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的一种图像生成方法，其特征在于，所述融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像，得到目标融合图像，包括：

5.根据权利要求4所述的一种图像生成方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的一种图像生成方法，其特征在于，所述从所述待处理视频中提取连续的至少两个视频帧图像包括：

7.根据权利要求6所述的一种图像生成方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的一种图像生成方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的一种图像生成方法，其特征在于，在所述融合所述目标服饰图像、二值图以及所述至少两个视频帧图像中的目标视频帧图像之前，还包括：

判断所述至少两个视频帧图像的个数是否为奇数；

若是，则所述目标视频帧图像为中间位置视频帧图像；

10.一种图像生成装置，其特征在于，所述装置包括：

获取模块，用于获取待处理视频以及目标服饰图像；