CN113052025B

CN113052025B - 图像融合模型的训练方法、图像融合方法及电子设备

Info

Publication number: CN113052025B
Application number: CN202110270423.5A
Authority: CN
Inventors: 谢中流; 刁志敏; 张凯; 李翔; 琚彬
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2024-08-13
Anticipated expiration: 2041-03-12
Also published as: CN113052025A

Abstract

本申请公开了一种图像融合模型的训练方法、图像融合方法及电子设备，属于计算机技术领域。其中，图像融合模型的训练方法包括：获取样本图像；接收第一用户作用于目标图像中的第一目标人脸图像上的第一输入，并基于所述第一输入构建标签数据集合，所述标签数据集合包括至少一个标签数据组，所述目标图像为所述样本图像中至少一张图像；基于所述至少一个标签数据组构建损失函数，并基于所述损失函数对图像融合模型进行训练，以得到训练后的图像融合模型；其中，所述损失函数包括正负样本监督信号的放大因子。本申请能够解决相关技术中对图像处理操作较为繁琐的问题。

Description

图像融合模型的训练方法、图像融合方法及电子设备

技术领域

本申请属于计算机技术领域，具体涉及一种图像融合模型的训练方法、图像融合方法及电子设备。

背景技术

随着手机、平板电脑等电子设备的广泛普及，利用电子设备进行拍照已经成为人们日常生活中的常见行为之一。在一些场景中，拍摄的照片可能会包括多人，例如聚会照、集体照、全家福、情侣照等。而在合照过程中，通常很难捕捉到所有人都处于较好拍摄状态的照片，通常需要对合照中的人物图像进行后期处理才能得到令大部分人都满意的合照。可见，相关技术中对图像处理的操作较为繁琐。

发明内容

本申请实施例的目的是提供一种图像融合模型的训练方法、图像融合方法及电子设备，能够解决相关技术中对图像处理操作较为繁琐的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种图像融合模型的训练方法，包括：

获取样本图像；

接收第一用户作用于目标图像中的第一目标人脸图像上的第一输入，并基于所述第一输入构建标签数据集合，所述标签数据集合包括至少一个标签数据组，所述目标图像为所述样本图像中至少一张图像；

基于所述至少一个标签数据组构建损失函数，并基于所述损失函数对图像融合模型进行训练，以得到训练后的图像融合模型；

其中，所述损失函数包括正负样本监督信号的放大因子。

第二方面，本申请实施例提供了一种图像融合方法，包括：

获取针对同一拍摄对象连续拍摄的至少两张待处理图像，每一张所述待处理图像中包括至少两个人脸图像；

基于图像融合模型确定目标人脸图像，所述图像融合模型为根据第一方面所述的图像融合模型的训练方法进行训练得到；

确定目标待处理图像，将所述目标待处理图像中的第一人脸图像替换为所述目标人脸图像；

其中，所述目标待处理图像为所述至少两张待处理图像中的任意一张待处理图像，所述第一人脸图像与所述目标人脸图像为同一个人物的人脸图像。

第三方面，本申请实施例提供了一种图像融合模型的训练装置，包括：

第一获取模块，用于获取样本图像；

构建模块，用于接收第一用户作用于目标图像中的第一目标人脸图像上的第一输入，并基于所述第一输入构建标签数据集合，所述标签数据集合包括至少一个标签数据组，所述目标图像为所述样本图像中至少一张图像；

训练模块，用于基于所述至少一个标签数据组构建损失函数，并基于所述损失函数对图像融合模型进行训练，以得到训练后的图像融合模型；

其中，所述损失函数包括正负样本监督信号的放大因子。

第四方面，本申请实施例提供了一种图像融合装置，包括：

第二获取模块，用于获取针对同一拍摄对象连续拍摄的至少两张待处理图像，每一张所述待处理图像中包括至少两个人脸图像；

确定模块，用于基于图像融合模型确定目标人脸图像，所述图像融合模型为根据第一方面所述的图像融合模型的训练方法进行训练得到；

替换模块，用于确定目标待处理图像，将所述目标待处理图像中的第一人脸图像替换为所述目标人脸图像；

第五方面，本申请实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的图像融合模型的训练方法的步骤，或者实现如第二方面所述的图像融合方法的步骤。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的图像融合模型的训练方法的步骤，或者实现如第二方面所述的图像融合方法的步骤。

第七方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的图像融合模型的训练方法，或者实现如第二方面所述的图像融合方法。

本申请实施例提供的方案中，通过接收用户作用在目标图像中第一目标人脸图像上的第一输入来构建标签数据集合，并基于标签数据集合构建损失函数，根据损失函数来对图像融合模型进行训练，且损失函数中包括正负样本监督信号的放大因子，能够有效缓解正负样本类别不平衡的问题，进而使得训练后的图像融合模型能够输出更让用户满意的图像，能够有效简化图像处理操作，提高图像处理效率。

附图说明

图1是本申请实施例提供的一种图像融合模型的训练方法的流程图；

图2是本申请实施例提供的另一种图像融合模型的训练方法的流程图；

图3是本申请实施例提供的一种图像融合方法的流程图；

图4是本申请实施例提供的一种图像融合模型的训练装置的结构图；

图5是本申请实施例提供的另一种图像融合模型的训练装置的结构图；

图6是本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像融合模型的训练方法及图像融合方法进行详细地说明。

请参照图1，图1是本申请实施例提供的一种图像融合模型的训练方法的流程图。如图1所示，所述图像融合模型的训练方法包括以下步骤：

步骤101、获取样本图像。

需要说明的是，本申请实施例所提供的图像融合模型的训练方法可以是由笔记本计算机、台式计算机、平板电脑、手机等电子设备执行。

本申请实施例中，所述样本图像可以是电子设备实时拍摄的图像，或是电子设备存储的图像，或是电子设备通过网络下载等途径得到的图像等。所述样本图像可以是全部不同，或者所述样本图像中也可以包括对同一拍摄对象连续拍摄得到的图像；所述样本图像中可以是包括一个或多个人脸图像。

在本申请实施例的一种可选实施方式中，所述样本图像包括针对同一拍摄对象连续拍摄的至少两张目标图像，且每张所述目标图像中包括至少两个人脸图像。可以理解地，每张目标图像中包括至少两个人脸图像，则所述样本图像也就是基于包括至少两个人物的拍摄对象得到的，例如情侣照、集体照、聚会照等。所述样本图像可以是照片，也可以是视频。在一些实施例中，所述拍摄对象也可以称之为拍摄场景。

可以理解地，在包括多人物的拍摄场景中，往往需要进行多次拍摄以获取多种图像，以方便用户从中选择一张另所有人或大部分人满意的图像。本申请实施例中，样本图像包括对同一拍摄对象连续拍摄的至少两张目标图像，则针对同一拍摄对象得到的所述至少两张目标图像中所包括的人物是相同的。例如拍摄对象为情侣，则对于该拍摄场景下得到的至少两张目标图像中，每张目标图像都包括该情侣。

可选地，所述样本图像可以是包括多组目标图像，每一组目标图像包括针对同一拍对象连续拍摄得到的至少两张目标图像，也就是说同一组目标图像对应的是同一个拍摄场景，多组目标图像也就是基于多个拍摄对象分别得到的。示例性地，样本图像包括A组目标图像、B组目标图像、C组目标图像，A组目标图像为同一组情侣连续拍摄得到的4张目标图像，B组目标图像为同一个三口之家连续拍摄得到的5张目标图像，C组目标图像为同一个班集体连续拍摄得到的10张目标图像。

可选地，电子设备可以是从相册等应用程序存储的图像中来获取样本图像，或者也可以是基于网络下载等手段来获取样本图像，或者也可以是将电子设备当前拍摄的图像作为样本图像，本申请实施例对此不作具体限定。

步骤102、接收第一用户作用于所述目标图像中的第一目标人脸图像上的第一输入，并基于所述第一输入构建标签数据集合，所述标签数据集合包括至少一个标签数据组，所述目标图像为所述样本图像中至少一张图像。

其中，所述第一输入可以是用户作用于第一目标人脸上的如单击、双击、长按等操作。可以理解地，电子设备在获取到样本图像后，可以是显示所述样本图像，进而也就能够接收用户作用在目标图像中第一目标人脸图像上的第一输入。其中，对于针对同一拍摄对象连续拍摄的至少两张目标图像可以是按照预设顺序依次显示，或者也可以是同时显示在电子设备的显示界面中。

例如，假设拍摄对象为包括爸爸、妈妈、儿子的三口之家，目标图像为该三口之家连续拍摄得到的三张图像，则这三张图像可以是同时显示在电子设备的显示界面中。示例性地，这三张目标图像分别为图像1、图像2和图像3，则用户可以是选择其中任意一张图像中的任意一个目标人脸图像进行第一输入，或者也可以是分别对每一个目标人脸图像从三张目标图像中选择一张目标图像来进行标注；例如，图像1、图像2和图像3中，爸爸在图像1中的表情最为自然，则用户可以是单击图像1中爸爸的人脸图像，进而电子设备也就接收到了用户作用在目标图像中第一目标人脸图像上的第一输入；进一步地，用户还可以是对妈妈和儿子的人脸图像进行标注，例如图像1、图像2和图像3中，妈妈在图像2中的表情最为自然，儿子在图像1中的表情最为开心，则用户可以是单击图像2中妈妈的人脸图像，以及单击图像1中儿子的人脸图像。这样，用户也就能够通过第一输入，对拍摄对象中特定的目标人物或者是每一个目标人物选择在所有目标图像中最符合预设面部状态的人脸图像，所述预设面部状态可以是用户主观决定，如表情最自然、表情最开心等。

本申请实施例中，电子设备在接收到用户(也即第一用户)作用于目标图像中第一目标人脸图像上的第一输入后，则基于所述第一输入构建标签数据集合。可选地，第一输入是作用在第一目标人脸图像上的，则可以是将第一目标人脸图像作为一个标签数据组，在第一目标人脸图像为多个的情况下，标签数据集合也就包括多个标签数据组。或者，在其他的一些实施方式中，样本图像可以是包括从网络下载的图像，这类图像中的人脸图像可以是包括用户已经进行了标注的目标人脸图像，则可以是将这类目标人脸图像作为一个标签数据组，将第一输入针对的第一目标人脸图像作为另一个标签数据组。本申请实施例中标签数据组还可以是包括其他方式，后续实施例中会有具体描述，此处不作具体赘述。

步骤103、基于所述至少一个标签数据组构建损失函数，并基于所述损失函数对图像融合模型进行训练，以得到训练后的图像融合模型，其中，所述损失函数包括正负样本监督信号的放大因子。

可选地，所述标签数据集合至少包括第一输入所对应的第一目标人脸图像，进而也就至少能够基于第一目标人脸图像构建损失函数，并基于构建的损失函数来对图像融合模型进行训练。示例性地，假设第一目标人脸图像对应的是人物A，以包括人物A的拍摄对象进行连续拍摄得到3张目标图像，样本图像中也就包括这3张目标图像，用户对这3张目标图像中的目标图像1上的人物A的人脸图像(也即第一目标人脸图像)进行了标注，电子设备可以是基于第一目标人脸图像及人物A在其他两张目标图像中对应的人脸图像进行比对，以构建损失函数，并基于损失函数来对图像融合模型进行训练。可选地，所述图像融合模型为一种神经网络模型，通过损失函数对神经网络模型进行训练的具体原理及实现方式可以是参照相关技术，本申请实施例对模型训练的过程不做具体赘述。

本申请实施例中，所述损失函数包括正负样本监督信号的放大因子，其中，正样本监督信号的放大因子大于负样本监督信号的放大因子，这样也就能够缓解正样本数量少于负样本数量的类别不平衡问题，提升了损失函数的精确性，也就能够提高对于图像融合模型的训练效果，使得训练后的图像融合模型能够更为准确地从针对同一拍摄对象的一组目标图像中标记出每个人物对应的最符合预设面部状态的目标人脸图像，并可以是将其中一张目标图像中的人脸图像替换为目标人脸图像，并输出该进行了替换操作后的目标图像。

需要说明地，本申请实施例通过损失函数对图像融合模型进行训练，以得到训练后的图像融合模型，该训练后的图像融合模型可以是应用在如手机、平板电脑、笔记本计算机等电子设备中。例如，电子设备可以是在获取到针对同一拍摄对象连续拍摄的至少两张待处理图像后，基于本申请实施例提供的训练方法训练后得到的图像融合模型确定目标人脸图像，例如人物A的目标人脸图像，并将待处理图像中任意一张图像上人物A对应的人脸图像替换为目标人脸图像，进而电子设备也就自动实现了对图像中人脸图像的替换，或者说图像融合，无需用户再通过图像后期处理来实现图像融合，简化了图像处理操作，更有利于提升电子设备的用户使用体验。

本申请实施例通过接收用户作用在目标图像中第一目标人脸图像上的第一输入来构建标签数据集合，并基于标签数据集合构建损失函数，根据损失函数来对图像融合模型进行训练，以得到训练后的图像融合模型，进而使得训练后的图像融合模型能够输出更让用户满意的图像，能够有效简化图像处理操作，提高图像处理效率。

本申请实施例中，所述步骤102还可以包括：

接收第一用户作用于所述目标图像中的第一目标人脸图像上的第一输入，并将所述第一目标人脸图像以及第一目标图像组作为第一标签数据组，所述第一目标图像组为包括所述第一目标人脸对应的人物对象的目标图像；

基于所述第一标签数据组对初始图像融合模型进行第一训练；

将未标注图像作为经过所述第一训练后的初始图像融合模型的输入，并获取所述初始图像融合模型输出的第二标签数据组；

基于所述第一标签数据组及所述第二标签数据组构建所述标签数据集合；

其中，所述未标注图像为所述样本图像中未接收到所述第一输入的图像，所述第二标签数据组包括所述未标注图像中经所述图像融合模型标注的人脸图像，所述图像融合模型为所述初始图像融合模型经基于所述损失函数训练后得到的模型。

例如，假设样本图像包括针对拍摄对象A的第一目标图像组和针对拍摄对象B的第二目标图像组，拍摄对象A包括对爸爸、妈妈、儿子的三口之家连续拍摄得到的三张目标图像，这三张目标图像分别为图像1、图像2和图像3，这三张目标图像也即第一目标图像组；拍摄对象B包括对丈夫和妻子连续拍摄得到的三张目标图像，这三张目标图像分别为图像4、图像5和图像6，这三张目标图像也即第二目标图像组。第一用户对第一目标图像组中的目标图像进行了第一输入，例如用户分别选择了图像1中爸爸的人脸图像、图像2中妈妈的人脸图以及图像1中儿子的人脸图像，则可以是将第一目标图像组和用户选择的人脸图像作为第一标签数据组，以对初始图像融合模型进行训练。例如，将第一目标图像组和用户选择的人脸图像作为初始图像融合模型的输入，进而初始图像融合模型可以是基于第一目标图像组和用户选择的人脸图像进行自学习。进一步地，样本图像中的第二目标图像组为未接收到用户第一输入的未标注图像，则将第二目标图像组作为训练后的初始图像融合模型的输入，并获取该初始图像融合模型输出的第二标签数据组；可以理解地，初始图像融合模型在基于第一标签数据组进行自学习训练后，能够对输入的未标注的第二目标图像组进行人脸图像的标注，如上所述的，第二目标图像组包括丈夫和妻子连续拍摄得到的图像4、图像5和图像6，则经过训练后的初始图像融合模型可以是对丈夫和妻子在这三张图像中表情最符合预设面部状态的人脸图像进行标注，例如图像4中丈夫的人脸图像表情最为开心，图像5中妻子的人脸图像最为开心，则将图像4中丈夫的人脸图像以及图像5中妻子的人脸图像分别标注为目标人脸图像，以作为第二标签数据组，该第二标签数据组还可以包括第二目标图像组的这三张图像。进一步地，电子设备基于获得的第一标签数据组和第二标签数据组构建标签数据集合。

需要说明地，所述图像融合模型为所述初始图像融合模型经基于所述损失函数训练后得到的模型。也就是说，电子设备在获得用户标注的第一目标人脸图像和对应的第一目标图像组后，可以是对初始图像融合模型进行自学习训练，也就相当于对图像融合模型进行第一次训练，而基于所述损失函数进行的训练可以是第二次训练，这样也就通过两次训练来调整图像融合模型，以使得图像融合模型能够输出更符合用户期待的图像，提升图像融合模型的图像处理效果。

本申请实施例中，还可以是对第一标签数据组进行数据扩充，也就是对用户标注的第一目标人脸图像及对应的第一目标图像组进行同步的数据扩充，所述数据扩充的方式可以是图像旋转、图像尺寸调整、更改图像显示颜色、更改图像显示亮度等，进而以丰富初始图像融合模型自学习训练的图像样本。

可选地，所述基于所述第一标签数据组及所述第二标签数据组构建所述标签数据集合之前，所述方法还包括：

获取所述样本图像中的第二目标人脸图像，所述第二目标人脸图像为第二用户标注的人脸图像；

将所述第二目标人脸图像作为第三标签数据组；

所述基于所述第一标签数据组及所述第二标签数据组构建所述标签数据集合，包括：

基于所述第一标签数据组、所述第二标签数据组及所述第三标签数据组构建所述标签数据集合。

本申请实施例中，还可以是获取其他用户对样本图像的标注。例如，所述样本图像可以是通过网络下载的图像，为方便描述，将这类网络下载的样本图像称为网络样本图像。示例性地，以社交应用程序为例，用户可以是将包括至少两个人脸图像的针对同一拍摄对象的合照分享至社交应用程序，以展示给其他用户，其他用户也就能够对分享至社交应用程序的合照中人脸图像进行标注。例如用户A分享了自己的四张家庭合照至社交应用程序，用户B从社交应用程序上看到后，可以是双击其中第一张家庭合照中人脸图像1，用户C基于社交应用程序，也可以是进行标注，例如双击其中第三张家庭合照中人脸图像2，用户D基于社交应用程序，也可以是进行标注，例如双击其中第四张家庭合照中人脸图像3；这样，人脸图像1、人脸图像2和人脸图像3也就是电子设备能够获取到的第二目标人脸图像，也就使得电子设备还能够通过网络途径来获取其他用户标注的第二目标人脸图像。可以理解地，所述第二用户并非特指某一个用户，第二用户可以认为是除第一用户以外的其他用户。

本申请实施例中，将第二用户标注的第二目标人脸图像作为第三标签数据组，并通过第三标签数据组与第一标签数据组、第二标签数据组来构建标签数据集合。这样，也就使得标签数据集合中的数据更为丰富。并且，第三标签数据组对应的第二目标人脸图像是第二用户标注的，而第一目标人脸图像是第一用户标注的，这样也就使得样本图像上标注的目标人脸图像并非只是某一个用户的标注行为，而能够获取到不同用户对人脸图像的评价偏好，也就提升了标签数据组的丰富度，使得基于标签数据组构建的损失函数能够更好地对图像融合模型进行训练。

可选地，所述基于所述第一标签数据组、所述第二标签数据组及所述第三标签数据组构建所述标签数据集合之前，所述方法还包括：

获取第四标签数据组，所述第四标签数据组包括针对预设图像进行标注的人脸图像；

所述基于所述第一标签数据组、所述第二标签数据组及所述第三标签数据组构建所述标签数据集合，包括：

基于所述第一标签数据组、所述第二标签数据组、所述第三标签数据组及所述第四标签数据组构建所述标签数据集合。

需要说明的是，所述预设图像可以是电子设备内除所述样本图像之外的图像，例如可以是电子设备出厂时预存于图片库中的图像。所述第四标签数据可以是预设图像中被标注的人脸图像，例如可以是电子设备在出厂前由开发人员对预存图像中的人脸图像进行标注，进而以得到第四标签数据。

本申请实施例中，所述标签数据集合包括第一标签数据组、所述第二标签数据组、所述第三标签数据组及所述第四标签数据，这样也就使得标签数据集合中的数据更为丰富，以基于更丰富的标签数据来对图像融合模型进行训练。

可选地，所述步骤103可以包括：

基于所述第一标签数据组、所述第二标签数据组、所述第三标签数据组及所述第四标签数据组分别构建损失函数；

基于分别构建的损失函数对所述图像融合模型进行监督学习训练。

本申请实施例中，在获取到不同的标签数据组后，分别对不同的标签数据组构建损失函数。可选地，根据第一标签数据组构建第一损失函数，根据第二标签数据组构建第二损失函数，根据第三标签数据组构建第三损失函数，根据第四标签数据组构建第四损失函数，并基于分别构建的这四个损失函数对图像融合模型进行监督学习训练。这样，也就能够根据不同标签数据组得到的不同损失函数来分别对图像融合模型进行多级监督学习训练，以更好地提升图像融合模型的图像处理效果。

可选地，所述损失函数还包括与各标签数据组分别对应的权重值，且不同标签数据组对应的权重值不同。其中，各标签数据组各自对应的权重值可以是由用户预先设置，不同标签数据组对应的权重值不同，也就使得损失函数之间能够存在一定差异，以通过不同的损失函数来对图像融合模型进行训练，以获得具有更好图像处理效果的图像融合模型。

可选地，第一标签数据组对应第一权重值，第二标签数据组对应第二权重值，第三标签数据组对应第三权重值，第四标签数据组对应第四权重值；其中，所述第一权重值大于所述第二权重值，所述第二权重值大于所述第三权重值，所述第三权重值大于所述第四权重值。

本申请实施例中，第一标签数据组与第一用户标注的第一目标人脸图像相关，也就是与第一用户的标注相关；第二标签数据组与初始图像融合模型标注的人脸图像相关，而初始图像融合模型是基于对第一标签数据组进行学习训练后得到的，第二标签数据组也就可以认为是初始图像融合模型对第一用户标注行为学习后得到的衍生标注得到的，第二标签数据组也就是与第一用户的衍生标注相关；第三标签数据组与第二用户标注的第二目标人脸图像相关，也就是与其他用户的标注相关；第四标签数据组与对电子设备预设图像进行标注的人脸图像相关，也就是与电子设备系统预设标注相关。其中，第一权重值＞第二权重值＞第三权重值＞第四权重值，也就是说，在基于上述四个标签数据组分别构建的损失函数对图像融合模型进行监督学习训练的过程中，第一用户标注对应的监督信号强于第一用户衍生标注对应的监督信号，而第一用户衍生标注对应的监督信号又大于其他用户标注对应的监督信号，其他用户标注对应的监督信号大于系统预设标注对应的监督信号。进而在基于不同的损失函数对图像融合模型监督学习训练的过程中，第一用户的标注行为对图像融合模型训练的影响更大，图像融合模型也就更倾向于对电子设备接收到的第一用户对图像标注行为的监督训练，进而能够基于用户主动的标注行为以训练出更符合用户希望的图像融合模型。

在一种可选的实施方式中，损失函数的公式如下所示：

其中，L的数值为1、2、3、4，L＝1代表第一标签数据组，L＝2代表第二标签数据组，L＝3代表第三标签数据组，L＝4代表第四标签数据组；ω_L代表不同标签数据组对应的权重值；λ_p代表正样本监督信号的放大因子，λ_n代表负样本监督信号的放大因子；y和分别代表真实标签类别(数值为0或1)和图像融合模型预测类别为1的概率值。

本申请实施例提供的图像融合模型的训练方法，通过接收用户作用在目标图像中第一目标人脸图像上的第一输入来构建标签数据集合，并基于标签数据集合构建损失函数，根据损失函数来对图像融合模型进行训练，且损失函数中包括正负样本监督信号的放大因子，能够有效缓解正负样本类别不平衡的问题，进而使得训练后的图像融合模型能够输出更让用户满意的图像，能够有效简化图像处理操作，提高图像处理效率。

请参照图2，图2是本申请实施例提供的另一种图像融合模型的训练方法的流程图，该方法应用于电子设备。如图3所示，所述方法包括以下步骤：

步骤201、基于预标注构建第四标签数据。

可选地，电子设备内置包含多种面部状态的少量人脸库，可以是由开发人员基于用户调研将认为满足合照预期面部状态的人脸进行标注，例如标注为1，不符合预期面部状态的人脸可以是标注为0，这些标注为预标注，可以是记为第四标签，并基于这些标注与对应的人脸图像构建第四标签数据。

步骤202、基于第四标签数据对人脸识别模型进行迁移学习，生成图像融合模型。

可选地，以InsightFace作为示例，获取其在开源人脸基准数据集上预训练的人脸识别模型，将其输出层改为二分类层，再基于第四标签数据训练以生成针对预期面部状态预测的图像融合模型。基于数据对模型进行训练可以是参照相关技术方案，本实施例对模型的训练过程不做具体赘述。

步骤203、采集用户拍摄的合照，获取用户主动标注行为构建第一标签数据。

可选地，陆续采集用户拍摄的合照，并可以引导用户自主标注相关人脸是否满足预期面部状态，例如满足则标注1，不满足则标注0，未标注部分可以忽略，将这些标注记为第一标签，并与对应的人脸图像构建第一标签数据。

需要说明的是，为更好地引导用户进行标注，可以是从内置人脸库中选取部分示例图像展示给用户，以引导用户进行选择和标注。

步骤204、基于第一标签数据对图像融合模型进行微调，并基于虚拟标注构建第二标签数据。

可选地，在第一标签数据较少的情况下，可以对第一标签数据进行数据扩充，例如rotation、flipping等扩充操作，本申请不做具体赘述。基于扩充后的标签数据对图像融合模型进行微调，也就是基于扩充后的标签数据对图像融合模型进行自学习训练，再用训练后的图像融合模型对不带有第一标签数据的图像进行虚拟标注，这部分标注记为第二标签，并将其与对应的人脸图像构建第二标签数据。

步骤205、获取其他用户对拍摄的合照的访问和标注，基于其他用户的标注构建第三标签数据。

可选地，电子设备还可以授权其他用户对拍摄的合照的访问和标注，基于用户的标注及标注对应的人脸图像构建第三标签数据。其中，授权其他用户访问和标注的技术方案有多种，包括但不限于网盘、共享相册、社交平台等。

步骤206、整合第一标签数据、第二标签数据、第三标签数据和第四标签数据，对图像融合模型进行多级监督学习训练，以更新图像融合模型。

可选地，基于第一标签数据、第二标签数据、第三标签数据和第四标签数据分别构建损失函数，以对图像融合模型进行多级监督学习。其中，多级监督学习的核心在于构建不同层次的监督信号并配置不同权重进行联合训练，本申请实施例中，用户自主标注的监督信号强于虚拟标注的监督信号，虚拟标注的监督信号强于其他用户标注的监督信号，而所有基于用户行为直接(如用户自主标注和其他用户标注)或间接(如虚拟标注)生成的监督信号强于系统预标注的监督信号。

为更好地理解，本申请实施例中提出并使用以下损失函数构建多级监督信号：

其中，L的数值为1、2、3、4，L＝1代表第一标签数据组，L＝2代表第二标签数据组，L＝3代表第三标签数据组，L＝4代表第四标签数据组；ω_L代表不同标签数据组对应的权重值，ω₁＞ω₂＞ω₃＞ω₄；λ_p代表正样本监督信号的放大因子，λ_n代表负样本监督信号的放大因子；y和分别代表真实标签类别(数值为0或1)和图像融合模型预测类别为1的概率值。

本申请实施例中，基于上述损失函数对图像融合模型进行多级监督学习训练，进而以得到训练后的图像融合模型。这样，通过多级监督学习训练，使得训练后的图像融合模型能够输出更让用户满意的图像，能够有效简化图像处理操作，提高图像处理效率。

请参照图3，本申请实施例还提供了一种图像融合方法，该方法应用于电子设备。如图3所示，图像融合方法包括以下步骤：

步骤301、获取针对同一拍摄对象连续拍摄的至少两张待处理图像，每一张所述待处理图像中包括至少两个人脸图像。

需要说明地，所述电子设备具备拍摄功能。本申请实施例中，可以是在电子设备处于拍摄场景的情况下，实时获取电子设备针对同一拍摄对象连续拍摄的至少两张待处理图像，或者也可以是从电子设备的图像存储程序如相册中，获取针对同一拍摄对象连续拍摄的至少两张待处理图像。其中，所述待处理图像包括至少两个人脸图像的合照，如情侣照、家庭照、集体照等。

步骤302、基于图像融合模型确定目标人脸图像。

其中，所述图像融合模型为根据上述图1或图2所述的图像融合模型的训练方法进行训练后得到。可以理解地，电子设备可以是将所述针对同一拍摄对象连续拍摄的至少两证待处理图像输入经过上述训练方法训练后得到的图像融合模型，进而该图像融合模型能够自动对所述至少两张待处理图像中的人脸图像进行识别和预测，以对符合预设面部状态的人脸图像进行标注，所述标注的人脸图像也就是目标人脸图像，图像融合模型可以是输出所述目标人脸图像，或者是将包括所述目标人脸图像的待处理图像输出。

步骤303、确定目标待处理图像，将所述目标待处理图像中的第一人脸图像替换为所述目标人脸图像。

示例性地，假设电子设备获取到爸爸、妈妈、儿子组成的一家三口连续拍摄的三张待处理图像，则基于训练后的图像融合模型对这三张待处理图像进行识别和处理，以确定每个人物对应的目标人脸图像并输出，例如将第二张待处理图像中爸爸的人脸图像确定为爸爸的目标人脸图像，将第三张待处理图像中妈妈和儿子的人脸图像分别确定为妈妈的目标人脸图像和儿子的目标人脸图像，图像融合模型可以是将这三张目标人脸图像输出；电子设备可以是三张待处理图像中的任意一张确定为目标待处理图像，例如第一张待处理图像，则将第一张待处理图像中的爸爸、妈妈和儿子的人脸图像分别替换为各自对应的目标人脸图像，例如将第一张待处理图像中爸爸的人脸图像替换为爸爸的目标人脸图像。这样，也就使得替换后的第一张待处理图像中的各个人物的人脸图像都具有较好的面部状态，进而无需用户再进行图像的后期处理，就能够得到一张令所有合照对象都较为满意的图像，提升了电子设备的图像处理效果，也让用户具有更好的拍摄体验。

可选地，所述步骤302可以包括：

基于所述图像融合模型确定每一个拍摄人物对应的目标人脸图像；

这种情况下，所述步骤303可以包括：

将包括目标人脸图像最多的待处理图像确定为目标待处理图像，将所述目标待处理图像中的每一个第一人脸图像替换为对应的所述目标人脸图像。

需要说明地是，在获得待处理图像后，图像融合模型可以是对待处理图像所包括的拍摄人物进行识别和预测，并可以是确定每一个拍摄人物对应的目标人脸图像。如上述示例中所列举的爸爸、妈妈、儿子组成的一家三口连续拍摄的三张待处理图像，分别确定了爸爸、妈妈、儿子各自对应的目标人脸图像；其中，第三张待处理图像中包括妈妈的目标人脸图像和儿子的目标人脸图像，则可以是将第三张待处理图像确定为目标待处理图像，那么该待处理图像中也就只需要将爸爸的人脸图像进行替换为爸爸对应的目标人脸图像即可，妈妈和儿子的人脸图像已经是目标人脸图像，不需要进行替换。这样，也就能够有效减少对人脸图像的替换操作，以快速地对目标待处理图像进行替换，提升了电子设备的图像处理效率。

本申请实施例提供的图像融合方法，电子设备在获取到针对同一拍摄对象连续拍摄的至少两张待处理图像后，基于训练后的图像融合模型确定目标人脸图像，并将目标待处理图像中的第一人脸图像替换为目标人脸图像，其中第一人脸图像与所述目标人脸图像为同一个人物的人脸图像。这样，也就使得替换后的目标待处理图像中的人脸图像都具有较好的面部状态，进而无需用户再进行图像的后期处理，就能够得到一张令拍摄对象较为满意的图像，提升了电子设备的图像处理效果，也提升了用户的拍摄体验。

请参照图4，图4是本申请实施例提供的一种图像融合模型的训练装置的结构图。如图4所示，图像融合模型的训练装置400包括：

第一获取模块401，用于获取样本图像；

构建模块402，用于接收第一用户作用于目标图像中的第一目标人脸图像上的第一输入，并基于所述第一输入构建标签数据集合，所述标签数据集合包括至少一个标签数据组，所述目标图像为所述样本图像中至少一张图像；

训练模块403，用于基于所述至少一个标签数据组构建损失函数，并基于所述损失函数对图像融合模型进行训练，以得到训练后的图像融合模型；

其中，所述损失函数包括正负样本监督信号的放大因子。

可选地，构建模块402还用于：

接收第一用户作用于目标图像中的第一目标人脸图像上的第一输入，并将所述第一目标人脸图像以及第一目标图像组作为第一标签数据组，所述第一目标图像组为包括所述第一目标人脸对应的人物对象的目标图像；

可选地，构建模块402还用于：

将所述第二目标人脸图像作为第三标签数据组；

可选地，构建模块402还用于：

可选地，训练模块403还用于：

可选地，所述损失函数还包括与各标签数据组分别对应的权重值，且不同标签数据组对应的权重值不同。

可选地，第一标签数据组对应第一权重值，第二标签数据组对应第二权重值，第三标签数据组对应第三权重值，第四标签数据组对应第四权重值；

其中，所述第一权重值大于所述第二权重值，所述第二权重值大于所述第三权重值，所述第三权重值大于所述第四权重值。

本申请实施例中，图像融合模型的训练装置400通过接收用户作用在目标图像中第一目标人脸图像上的第一输入来构建标签数据集合，并基于标签数据集合构建损失函数，根据损失函数来对图像融合模型进行训练，且损失函数中包括正负样本监督信号的放大因子，能够有效缓解正负样本类别不平衡的问题，进而使得训练后的图像融合模型能够输出更让用户满意的图像，能够有效简化图像处理操作，提高图像处理效率。

本申请实施例提供的图像融合模型的训练装置能够实现图1至图2的方法实施例中电子设备实现的各个过程，并能达到相同的技术效果，为避免重复，这里不再赘述。

请参照图5，图5是本申请实施例提供的一种图像融合装置的结构图。如图5所示，图像融合装置500包括：

第二获取模块501，用于获取针对同一拍摄对象连续拍摄的至少两张待处理图像，每一张所述待处理图像中包括至少两个人脸图像；

确定模块502，用于基于图像融合模型确定目标人脸图像，所述图像融合模型为根据图1或图2所述的图像融合模型的训练方法进行训练得到；

替换模块503，用于确定目标待处理图像，将所述目标待处理图像中的第一人脸图像替换为所述目标人脸图像；

可选地，确定模块502还用于：

替换模块503还用于：

本申请实施例中，图像融合装置500在获取到针对同一拍摄对象连续拍摄的至少两张待处理图像后，基于训练后的图像融合模型确定目标人脸图像，并将目标待处理图像中的第一人脸图像替换为目标人脸图像，其中第一人脸图像与所述目标人脸图像为同一个人物的人脸图像。这样，也就使得替换后的目标待处理图像中的人脸图像都具有较好的面部状态，进而无需用户再进行图像的后期处理，就能够得到一张令拍摄对象较为满意的图像，提升了图像融合装置500的图像处理效果，也提升了用户的拍摄体验。

需要说明地，本申请实施例中的图像融合装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像融合装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图像融合装置能够实现图3的方法实施例中电子设备实现的各个过程，并能达到相同的技术效果，为避免重复，这里不再赘述。

请参见图6，图6是本申请实施例提供的一种电子设备的结构图，如图6所示，所述电子设备包括：处理器600、存储器620及存储在所述存储器620上并可在所述处理器600上运行的程序或指令，处理器600，用于读取存储器620中的程序或指令；所述电子设备还包括总线接口和收发机610。

收发机610，用于在处理器600的控制下接收和发送数据。

其中，在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器600负责管理总线架构和通常的处理，存储器620可以存储处理器600在执行操作时所使用的数据。

在一种实施方式中，处理器600，用于读取存储器620中的程序或指令，执行如下步骤：

获取样本图像；

其中，所述损失函数包括正负样本监督信号的放大因子。

可选地，处理器600，用于读取存储器620中的程序或指令，执行如下步骤：

将所述第二目标人脸图像作为第三标签数据组；

在该实施方式中，电子设备能够实现图1或图2方法实施例中的各个过程，并能达到相同的技术效果，为避免重复，这里不再赘述。

在另一种实施方式中，处理器600，用于读取存储器620中的程序或指令，执行如下步骤：

基于图像融合模型确定目标人脸图像，所述图像融合模型为根据图1或图2所述的图像融合模型的训练方法进行训练得到；

在该实施方式中，电子设备能够实现图3方法实施例中的各个过程，并能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图1或2方法实施例的各个过程，且能达到相同的技术效果；或者实现上述图3方法实施例的各个过程，且能达到相同的技术效果；为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图1或图2方法实施例的各个过程，且能达到相同的技术效果；或者实现上述图3方法实施例的各个过程；为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像融合模型的训练方法，其特征在于，包括：

获取样本图像，所述样本图像包括针对同一拍摄对象连续拍摄的至少两张目标图像，且每张所述目标图像中包括至少两个人脸图像；

接收第一用户作用于目标图像中的第一目标人脸图像上的第一输入，并基于所述第一输入构建标签数据集合，所述标签数据集合包括至少一个标签数据组，所述目标图像为所述样本图像中至少一张图像，所述第一输入用于指示所述目标图像中最符合预设面部状态的人脸图像；

其中，所述损失函数包括正负样本监督信号的放大因子，所述训练后的图像融合模型用于从针对同一拍摄对象的一组目标图像中标记出每个人物对应的最符合预设面部状态的目标人脸图像。

2.根据权利要求1所述的方法，其特征在于，所述接收第一用户作用于目标图像中的第一目标人脸图像上的第一输入，并基于所述第一输入构建标签数据集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一标签数据组及所述第二标签数据组构建所述标签数据集合之前，所述方法还包括：

将所述第二目标人脸图像作为第三标签数据组；

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一标签数据组、所述第二标签数据组及所述第三标签数据组构建所述标签数据集合之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个标签数据组构建损失函数，并基于所述损失函数对图像融合模型进行训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述损失函数还包括与各标签数据组分别对应的权重值，且不同标签数据组对应的权重值不同。

7.根据权利要求6所述的方法，其特征在于，第一标签数据组对应第一权重值，第二标签数据组对应第二权重值，第三标签数据组对应第三权重值，第四标签数据组对应第四权重值；

8.一种图像融合方法，其特征在于，包括：

基于图像融合模型确定目标人脸图像，所述图像融合模型为根据权利要求1-7中任一项所述的图像融合模型的训练方法进行训练得到；

9.根据权利要求8所述的方法，其特征在于，所述基于图像融合模型确定目标人脸图像，包括：

所述确定目标待处理图像，将所述目标待处理图像中的第一人脸图像替换为所述目标人脸图像，包括：

10.一种图像融合模型的训练装置，其特征在于，包括：

第一获取模块，用于获取样本图像，所述样本图像包括针对同一拍摄对象连续拍摄的至少两张目标图像，且每张所述目标图像中包括至少两个人脸图像；

构建模块，用于接收第一用户作用于目标图像中的第一目标人脸图像上的第一输入，并基于所述第一输入构建标签数据集合，所述标签数据集合包括至少一个标签数据组，所述目标图像为所述样本图像中至少一张图像，所述第一输入用于指示所述目标图像中最符合预设面部状态的人脸图像；

11.一种图像融合装置，其特征在于，包括：

确定模块，用于基于图像融合模型确定目标人脸图像，所述图像融合模型为根据权利要求1-7中任一项所述的图像融合模型的训练方法进行训练得到；

12.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7中任一项所述的图像融合模型的训练方法的步骤，或者实现如权利要求8-9中任一项所述的图像融合方法的步骤。

13.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7中任一项所述的图像融合模型的训练方法的步骤，或者实现如权利要求8-9中任一项所述的图像融合方法的步骤。