CN114821717A

CN114821717A - 目标对象融合方法、装置、电子设备及存储介质

Info

Publication number: CN114821717A
Application number: CN202210417932.0A
Authority: CN
Inventors: 颜剑锋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-29
Anticipated expiration: 2042-04-20
Also published as: CN114821717B

Abstract

本公开提供一种目标对象融合方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于人脸识别等场景。具体实现方案包括：获取第一图像中的目标对象的第一关键点、第一关键点的置信度、和第二图像中的目标对象的第二关键点；根据第一关键点中的第三关键点，将第一图像与第三图像对齐，得到对齐后的第四图像，第三关键点的置信度满足第一预设条件；根据第二关键点，将第二图像与第三图像对齐，得到对齐后的第五图像；通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。本公开可以提升目标对象图像融合的效果。

Description

目标对象融合方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于人脸识别等场景，尤其涉及一种目标对象融合方法、装置、电子设备及存储介质。

背景技术

人脸融合技术是一种可以将目标人脸图像(如用户1的人脸图像)替换为其他人脸图像(如用户2的人脸图像)的技术，该技术被广泛应用于广告、或者影视作品、又或者娱乐节目等进行人脸替换，以及人脸识别(face recognition)、表情识别(expressionrecognition)等场景中。

目前，人脸融合的主流实现方案中可以对包含目标人脸的图像和包含其他人脸的图像进行人脸关键点检测，得到目标人脸的人脸关键点和其他人脸的人脸关键点；然后可以根据目标人脸的人脸关键点和其他人脸的人脸关键点，将目标人脸替换为其他人脸。

发明内容

本公开提供了一种目标对象融合方法、装置、电子设备及存储介质，可以提升目标对象图像融合的效果。

根据本公开的第一方面，提供了一种目标对象融合方法，所述方法包括：获取第一图像中的目标对象的第一关键点、第一关键点的置信度、和第二图像中的目标对象的第二关键点；根据第一关键点中的第三关键点，将第一图像与第三图像对齐，得到对齐后的第四图像，第三关键点的置信度满足第一预设条件；根据第二关键点，将第二图像与第三图像对齐，得到对齐后的第五图像；通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

根据本公开的第二方面，提供了一种目标对象融合装置，所述装置包括：获取单元，用于获取第一图像中的目标对象的第一关键点、第一关键点的置信度、和第二图像中的目标对象的第二关键点。预处理单元，用于根据第一关键点中的第三关键点，将第一图像与第三图像对齐，得到对齐后的第四图像，第三关键点的置信度满足第一预设条件；根据第二关键点，将第二图像与第三图像对齐，得到对齐后的第五图像。融合单元，用于通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

根据本公开的第三方面，提供了一种目标对象融合方法，所述方法包括：获取第一图像中的目标对象的第一关键点、第二图像中的目标对象的第二关键点、和第二关键点的置信度；根据第一关键点，将第一图像与第三图像对齐，得到对齐后的第四图像；根据第二关键点中的第四关键点，将第二图像与第三图像对齐，得到对齐后的第五图像，第四关键点的置信度满足第二预设条件；通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

根据本公开的第四方面，提供了一种目标对象融合装置，所述装置包括：获取单元，用于获取第一图像中的目标对象的第一关键点、第二图像中的目标对象的第二关键点、和第二关键点的置信度。预处理单元，用于根据第一关键点，将第一图像与第三图像对齐，得到对齐后的第四图像；根据第二关键点中的第四关键点，将第二图像与第三图像对齐，得到对齐后的第五图像，第四关键点的置信度满足第二预设条件。融合单元，用于通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面或第三方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据第一方面或第三方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面或第三方面所述的方法。

本公开通过获取第一图像中的目标对象的第一关键点、第一关键点的置信度、和第二图像中的目标对象的第二关键点；根据第一关键点中的第三关键点，将第一图像与第三图像对齐，得到对齐后的第四图像，第三关键点的置信度满足第一预设条件；根据第二关键点，将第二图像与第三图像对齐，得到对齐后的第五图像；通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像，提高了将第一图像与第三图像对齐时所使用的第一关键点(即第三关键点)的准确性，提升了第第一图像与第三图像的对齐效果。通过提升第一图像与第三图像的对齐效果，可以使得对齐后的第四图像中的目标对象替换为对齐后的第五图像中的目标对象时，五图像中的目标对象可以更好地对齐到第四图像中的目标对象所在的区域，有效提升了目标对象图像融合的效果，减少了目标对象图像融合结果的抖动。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的目标对象融合方法的流程示意图；

图2为本公开实施例提供的一种人脸融合的原理示意图；

图3为本公开实施例提供的目标对象融合方法的另一流程示意图；

图4为本公开实施例提供的目标对象融合方法的又一流程示意图；

图5为本公开实施例提供的目标对象融合装置的组成示意图；

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人脸融合技术也称为换脸技术，是一种可以将图像中的目标人脸(如用户1的人脸)替换为其他人脸(如用户2的人脸)的技术。该技术被广泛应用于广告、或者影视作品、又或者娱乐节目等进行人脸替换，以及人脸识别(face recognition)、表情识别(expressionrecognition)等场景中。

例如，影视作品中可以通过人脸融合技术将画面中的演员A的人脸替换为演员B的人脸。

对于人脸融合技术而言，检测到的人脸关键点的鲁棒性越高，人脸融合的效果会越好。当检测到的人脸关键点不准确时(如人脸有遮挡或者侧脸的时候，人脸关键点坐标可能与实际有偏差)，会导致人脸融合的结果易产生抖动，即会导致其他人脸没有很好的对齐到图像中目标人脸所在的区域。

例如，利用人脸融合技术将用户1的人脸替换为用户2的人脸时，如果检测到的用户1的人脸的人脸关键点和/或用户2的人脸的人脸关键点不准确，则会导致用户2的人脸无法很好的对齐到用户1的人脸所在的区域，如：用户2的人脸无法和用户1的人脸对齐到同一个角度上面。

在此背景技术下，本公开实施例提供了一种目标对象融合方法，可以适用于将第一图像中的第一目标对象替换为第二图像中的第二目标对象的场景。该方法可以通过提高第一目标对象和/或第二目标对象的关键点的准确性，使得第二目标对象可以更好地对齐到第一图像中第一目标对象所在的区域，能够有效提升目标对象图像融合的效果，减少目标对象图像融合结果的抖动。

可选地，本公开实施例提供的目标对象融合方法的执行主体可以是手机、平板电脑、笔记本电脑、台式计算机等终端设备，也可以是服务器或其他具有图像处理能力的计算设备，在此对目标对象融合方法的执行主体不作限制。

一些实施例中，服务器可以是单独的一个服务器，或者，也可以是由多个服务器构成的服务器集群。部分实施方式中，服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。

一些实施例中，第一目标对象和第二目标对象均可以是人脸，如：第一目标对象可以是第一人脸，第二目标对象可以是第二人脸。

本实施例中，本公开提供的目标对象融合方法是一种人脸融合方法，可以将第一图像中的第一人脸替换为第二图像中的第二人脸。例如，第一人脸可以是用户1的人脸，第二人脸可以是用户2的人脸。

另外一些实施例中，第一目标对象和/或第二目标对象也可以不是人脸，如：第一目标对象和/或第二目标对象可以是其他动物、植物、建筑等。本公开对第一目标对象和第二目标对象的具体类型并不作限制。本公开下述的一些示例中，将以第一目标对象是第一人脸、第二目标对象是第二人脸为例进行示例性说明。

应当理解，在公开各实施例中，字符“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

图1为本公开实施例提供的目标对象融合方法的流程示意图。如图1所示，该方法可以包括：

S101、获取第一图像、第二图像、以及第三图像，第一图像包括第一目标对象，第二图像包括第二目标对象，第三图像包括标准目标对象。

示例性地，第一目标对象可以是第一人脸，第二目标对象可以是第二人脸，标准目标对象可以是标准人脸，如标准人脸可以是角度为正面、人脸关键点明确的一张标准人脸。

S102、分别对第一图像和第二图像进行关键点检测，得到第一目标对象对应的多个第一关键点和每个第一关键点的置信度、以及第二目标对象对应的多个第二关键点和每个第二关键点的置信度。

其中，置信度也可以被称为准确度。置信度可以是0至1之间的值。

以第一目标对象是第一人脸、第二目标对象是第二人脸为例，本公开实施例中，可以采用预设的人脸检测模型对第一图像进行关键点检测，得到第一人脸对应的多个(一般为至少三个)第一关键点(或称为第一人脸关键点)和每个第一关键点的置信度；以及，可以采用预设的人脸检测模型对第二图像进行关键点检测，得到第二人脸对应的多个(一般为至少三个)第二关键点(或称为第二人脸关键点)和每个第二关键点的置信度。本公开对人脸检测模型的具体类型不作限制。

可选地，本公开实施例中，人脸关键点(如第一关键点或第二关键点)可以包括：眼睛、眉毛、鼻子、嘴巴和脸部轮廓等关键部位的点，每个关键部位的点的数量可以为多个，如眼睛部位的点可以包括左眼的上下左右四个位置的点、右眼的上下左右四个位置的点等。

每个人脸关键点可以用该人脸关键点在图像中的坐标来表示，如第一关键点可以用第一关键点在第一图像中的坐标表示；第二关键点可以用第二关键点在第二图像中的坐标表示。

S103、根据每个第一关键点的置信度对多个第一关键点进行筛选，得到置信度满足第一预设条件的第一关键点。

一些实现方式中，第一预设条件包括置信度大于(或者也可以是大于或等于)第一置信度阈值，上述根据每个第一关键点的置信度对多个第一关键点进行筛选，得到置信度满足第一预设条件的第一关键点的步骤可以包括：从多个第一关键点中选取置信度大于第一置信度阈值的第一关键点作为置信度满足第一预设条件的第一关键点。

例如，假设S102中检测得到了N个第一关键点和N个第二关键点，N为大于3的整数，则S103中可以根据每个第一关键点的置信度，从N个第一关键点中选取置信度大于第一置信度阈值的M个第一关键点。M为大于3且小于或等于N的整数。

可选地，当置信度大于第一置信度阈值的第一关键点的数量不足3个时，可以优先保证筛选后的第一关键点的数量为至少3个。如：可以从置信度小于或等于第一置信度阈值的第一关键点中，按照置信度从高到底选取第一关键点作为筛选后的第一关键点，直至筛选后的第一关键点的数量为至少3个。

示例性地，第一置信度阈值可以是0.7、0.8、0.9等。

另外一些实现方式中，上述根据每个第一关键点的置信度对多个第一关键点进行筛选，得到置信度满足第一预设条件的第一关键点的步骤可以包括：根据每个第一关键点的置信度，按照置信度从高到低的顺序对多个第一关键点进行排序；从多个第一关键点的排序结果中，选取排序在前K位的第一关键点作为置信度满足第一预设条件的第一关键点。K为大于3的整数。可以理解的，K的值小于第一关键点的数量。换言之，本实现方式中，第一置信度阈值可以为按照从高到低的顺序，排序在第K位的置信度的值；K为大于3的整数。

例如，假设S102中检测得到了N个第一关键点和N个第二关键点，N为大于3的整数，则S103中可以根据每个第一关键点的置信度，按照置信度从高到低的顺序对N个第一关键点进行排序；然后，从N个第一关键点的排序结果中，选取排序在前K位的第一关键点作为置信度满足第一预设条件的第一关键点。K为大于3且小于或等于N的整数。

本公开实施例中，K以及第一置信度阈值均为人为设定的预设值，在此对K以及第一置信度阈值的大小均不作限制。

S104、根据置信度满足第一预设条件的第一关键点，将第一图像与第三图像对齐，得到对齐后的第一图像。

例如，可以根据置信度满足第一预设条件的第一关键点，从第三图像中的标准目标对象的标准关键点中选取与置信度满足第一预设条件的第一关键点的含义相同的目标标准关键点。然后，根据目标标准关键点和置信度满足第一预设条件的第一关键点确定变换矩阵。采用变换矩阵将第一图像与第三图像对齐，得到对齐后的第一图像。

其中，第一关键点和标准关键点的含义相同是指第一关键点和标准关键点表示的是同一部位的点。如：第一关键点的含义为第一人脸的嘴巴的左侧嘴角的点，标准关键点的含义为标准人脸的嘴巴的左侧嘴角的点，则可以认为第一关键点和标准关键点的含义相同；否则，认为第一关键点和标准关键点的含义不同。又如：第一关键点的含义为第一人脸的鼻尖的点，标准关键点的含义为标准人脸的鼻尖的点，则可以认为第一关键点和标准关键点的含义相同；否则，认为第一关键点和标准关键点的含义不同。

示例性地，根据目标标准关键点和置信度满足第一预设条件的第一关键点确定变换矩阵的步骤，可以包括：根据目标标准关键点在第三图像中的坐标、以及置信度满足第一预设条件的第一关键点在第一图像中的坐标，构建矩阵方程；求解该矩阵方程，得到变换矩阵。

具体地，矩阵方程的构建过程和求解过程可以参考目前根据关键点坐标构建矩阵方程并求解矩阵方程的过程，在此不再详细描述。

采用变换矩阵将第一图像与第三图像对齐，得到对齐后的第一图像的步骤，可以包括：将变换矩阵与第一人脸图像进行相乘，得到对齐后的第一图像。

S105、根据每个第二关键点的置信度对多个第二关键点进行筛选，得到置信度满足第二预设条件的第二关键点。

与第一预设条件类似，一些实现方式中，第二预设条件包括置信度大于(或者也可以是大于或等于)第二置信度阈值，上述根据每个第二关键点的置信度对多个第二关键点进行筛选，得到置信度满足第二预设条件的第二关键点的步骤可以包括：从多个第二关键点中选取置信度大于第二置信度阈值的第二关键点作为置信度满足第二预设条件的第一关键点。

例如，假设S102中检测得到了N个第一关键点和N个第二关键点，N为大于3的整数，则S105中可以根据每个第二关键点的置信度，从N个第二关键点中选取置信度大于第二置信度阈值的Z个第一关键点。Z为大于3且小于或等于N的整数。

可选地，当置信度大于第二置信度阈值的第二关键点的数量不足3个时，可以优先保证筛选后的第二关键点的数量为至少3个。如：可以从置信度小于或等于第二置信度阈值的第二关键点中，按照置信度从高到底选取第二关键点作为筛选后的第二关键点，直至筛选后的第二关键点的数量为至少3个。

示例性地，第二置信度阈值也可以是0.7、0.8、0.9等。

另外一些实现方式中，上述根据每个第二关键点的置信度对多个第二关键点进行筛选，得到置信度满足第二预设条件的第二关键点的步骤可以包括：根据每个第二关键点的置信度，按照置信度从高到低的顺序对多个第二关键点进行排序；从多个第二关键点的排序结果中，选取排序在前H位的第二关键点作为置信度满足第二预设条件的第二关键点。H为大于3的整数。可以理解的，H的值小于第二关键点的数量。换言之，本实现方式中，第二置信度阈值可以为按照从高到低的顺序，排序在第H位的置信度的值；H为大于3的整数。

例如，假设S102中检测得到了N个第一关键点和N个第二关键点，N为大于3的整数，则S105中可以根据每个第二关键点的置信度，按照置信度从高到低的顺序对N个第二关键点进行排序；然后，从N个第二关键点的排序结果中，选取排序在前H位的第二关键点作为置信度满足第二预设条件的第二关键点。H为大于3且小于或等于N的整数。

本公开实施例中，H以及第二置信度阈值均为人为设定的预设值，在此对H以及第二置信度阈值的大小均不作限制。

可选地，第二置信度阈值和上述第一置信度阈值可以相同，也可以不同；H和K的值可以相同，也可以不同；在此均不作限制。

S106、根据置信度满足第二预设条件的第二关键点，将第二图像与第三图像对齐，得到对齐后的第二图像。

例如，可以根据置信度满足第二预设条件的第二关键点，从第三图像中的标准目标对象的标准关键点中选取与置信度满足第二预设条件的第二关键点的含义相同的目标标准关键点。然后，根据目标标准关键点和置信度满足第二预设条件的第二关键点确定变换矩阵。采用变换矩阵将第二图像与第三图像对齐，得到对齐后的第二图像。

为了区分，可以将与置信度满足第一预设条件的第一关键点的含义相同的目标标准关键点称为第一目标标准关键点；将与置信度满足第二预设条件的第二关键点的含义相同的目标标准关键点称为第二目标标准关键点。

S106和S104的具体步骤相同或相似，不再详细举例说明。

可选地，本公开实施例对S103和S104、与S105和S106的执行顺序不作限制，例如，S103和S104可以与S105和S106同时执行，或者，S105和S106可以在S103和S104之前执行。

S107、通过预设的融合模型将对齐后的第一图像中的第一目标对象替换为对齐后的第二图像中的第二目标对象，得到融合后的第一图像。

其中，融合后的第一图像包括第二目标对象，不包括第一目标对象。

例如，以第一目标对象是第一人脸、第二目标对象是第二人脸为例，图2为本公开实施例提供的一种人脸融合的原理示意图。如图2所示，假设对齐后的第一图像为Xt，图2所示的Xt包含的人脸为第一人脸，对齐后的第二图像为Xs，图2所示的Xs包含的人脸为第二人脸，则本公开实施例提供的该方法中，可以将Xt和Xs输入融合模型中，通过融合模型将Xt的第一人脸替换为Xs中的第二人脸，得到的融合后的第一图像可以参考图2中的G_img所示，G_img所表示的效果为Xt中的第一人脸被替换成了Xs中的第二人脸。

其中，融合模型可以包括一个人脸识别器和融合网络，Xs输入人脸识别器后，人脸识别器可以输出一个256维的向量，即Z_id。Z_id表示Xs中的第二人脸的特征向量，可以用于融合网络将Xs中的第二人脸替换至Xt中。

该方法中，通过筛选置信度满足第一预设条件的第一关键点，并根据置信度满足第一预设条件的第一关键点将第一图像与第三图像对齐，提高了将第一图像与第三图像对齐时所使用的第一关键点的准确性，提升了第一图像与第三图像的对齐效果。通过筛选置信度满足第二预设条件的第二关键点，并根据置信度满足第二预设条件的第二关键点将第二图像与第三图像对齐，提高了将第二图像与第三图像对齐时所使用的第二关键点的准确性，提升了第二图像与第三图像的对齐效果。通过提升第一图像与第三图像的对齐效果以及第二图像与第三图像的对齐效果，可以使得对齐后的第一图像中的第一目标对象替换对齐后的第二图像中的第二目标对象时，第二目标对象可以更好地对齐到第一目标对象所在的区域，有效提升了目标对象图像融合的效果，减少了目标对象图像融合结果的抖动。

在本申请中，置信度满足第一预设条件的第一关键点可以称为第三关键点，对齐后的第一图像可以称为第四图像；置信度满足第二预设条件的第二关键点可以称为第四关键点，对齐后的第二图像可以称为第五图像。也即，该方法也可以表述为：获取第一图像中的目标对象的第一关键点、所述第一关键点的置信度、第二图像中的目标对象的第二关键点、和第二关键点的置信度；根据第一关键点中的第三关键点，将第一图像与第三图像对齐，得到对齐后的第四图像，第三关键点的置信度满足第一预设条件；根据第二关键点中的第四关键点，将第二图像与第三图像对齐，得到对齐后的第五图像，第四关键点的置信度满足第二预设条件；通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

可选地，上述图1所示的实施例中，既根据每个第一键点的置信度对多个第一关键点进行了筛选，又根据每个第二关键点的置信度对多个第二关键点进行了筛选。另外一些实施例中，也可以只根据每个第一键点的置信度对多个第一关键点进行筛选。例如，图3为本公开实施例提供的目标对象融合方法的另一流程示意图。如图3所示，该方法可以包括：

S301、获取第一图像、第二图像、以及第三图像，第一图像包括第一目标对象，第二图像包括第二目标对象，第三图像包括标准目标对象。

S301具体可以参考S101所述，不再赘述。

S302、分别对第一图像和第二图像进行关键点检测，得到第一目标对象对应的多个第一关键点和每个第一关键点的置信度、以及第二目标对象对应的多个第二关键点。

S302具体可以参考S102所述，不再赘述。

S303、根据每个第一关键点的置信度对多个第一关键点进行筛选，得到置信度满足第一预设条件的第一关键点。

S304、根据置信度满足第一预设条件的第一关键点，将第一图像与第三图像对齐，得到对齐后的第一图像。

S303-S304具体可以参考S103-S104所述，不再赘述。

S305、根据多个第二关键点将第二图像与第三图像对齐，得到对齐后的第二图像。

根据多个第二关键点将第二图像与第三图像对齐的方式与根据置信度满足第二预设条件的第二关键点将第二图像与第三图像对齐的方式类似，不再赘述。

可选地，本公开实施例对S303和S304、与S305的执行顺序不作限制，例如，S305可以与S303和S304同时执行，或者，S305可以在S303和S304之前执行。

S306、通过预设的融合模型将对齐后的第一图像中的第一目标对象替换为对齐后的第二图像中的第二目标对象，得到融合后的第一图像。

S306具体可以参考S107所述，不再赘述。

图3所示的实施例中，只根据每个第一键点的置信度对多个第一关键点进行筛选，可以提高将第一图像与第三图像对齐时所使用的第一关键点的准确性，提升了第一图像与第三图像的对齐效果。仅通过提升第一图像与第三图像的对齐效果，也可以使得对齐后的第一图像中的第一目标对象替换对齐后的第二图像中的第二目标对象时，第二目标对象可以更好地对齐到第一目标对象所在的区域，有效提升目标对象图像融合的效果，减少目标对象图像融合结果的抖动。

在图3所示的实施例中，该方法也可以表述为：获取第一图像中的目标对象的第一关键点、所述第一关键点的置信度、和第二图像中的目标对象的第二关键点；根据第一关键点中的第三关键点，将第一图像与第三图像对齐，得到对齐后的第四图像，第三关键点的置信度满足第一预设条件；根据第二关键点，将第二图像与第三图像对齐，得到对齐后的第五图像；通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

与图3所示的实施例类似，还有一些实施例中，也可以只根据每个第二键点的置信度对多个第二关键点进行筛选。例如，图4为本公开实施例提供的目标对象融合方法的又一流程示意图。如图4所示，该方法可以包括：

S401、获取第一图像、第二图像、以及第三图像，第一图像包括第一目标对象，第二图像包括第二目标对象，第三图像包括标准目标对象。

S401具体可以参考S101所述，不再赘述。

S402、分别对第一图像和第二图像进行关键点检测，得到第一目标对象对应的多个第一关键点、以及第二目标对象对应的多个第二关键点和每个第二关键点的置信度。

S402具体可以参考S102所述，不再赘述。

S403、根据多个第一关键点将第一图像与第三图像对齐，得到对齐后的第一图像。

根据多个第一关键点将第一图像与第三图像对齐的方式与根据置信度满足第一预设条件的第一关键点将第一图像与第三图像对齐的方式类似，不再赘述。

S404、根据每个第二关键点的置信度对多个第二关键点进行筛选，得到置信度满足第二预设条件的第二关键点。

S405、根据置信度满足第二预设条件的第二关键点，将第二图像与第三图像对齐，得到对齐后的第二图像。

S404-S405具体可以参考S105-S106所述，不再赘述。

可选地，本公开实施例对S403与S404和S405的执行顺序不作限制，例如，S403可以与S404和S405同时执行，或者，S404和S405可以在S403之前执行。

S406、通过预设的融合模型将对齐后的第一图像中的第一目标对象替换为对齐后的第二图像中的第二目标对象，得到融合后的第一图像。

S406具体可以参考S107所述，不再赘述。

图4所示的实施例中，只根据每个第二键点的置信度对多个第二关键点进行筛选，可以提高将第二图像与第三图像对齐时所使用的第二关键点的准确性，提升了第二图像与第三图像的对齐效果。仅通过提升第二图像与第三图像的对齐效果，也可以使得对齐后的第一图像中的第一目标对象替换对齐后的第二图像中的第二目标对象时，第二目标对象可以更好地对齐到第一目标对象所在的区域，有效提升目标对象图像融合的效果，减少目标对象图像融合结果的抖动。

在图4所示的实施例中，该方法也可以表述为：获取第一图像中的目标对象的第一关键点、第二图像中的目标对象的第二关键点、和第二关键点的置信度；根据第一关键点，将第一图像与第三图像对齐，得到对齐后的第四图像；根据第二关键点中的第四关键点，将第二图像与第三图像对齐，得到对齐后的第五图像，第四关键点的置信度满足第二预设条件；通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

基于图1、图3、以及图4所示的实施例可以看到，本公开实施例中，根据多个第一关键点将第一图像与第三图像对齐，得到对齐后的第一图像的步骤可以包括：根据每个第一关键点的置信度对所述多个第一关键点进行筛选，得到置信度满足第一预设条件的第一关键点；根据置信度满足第一预设条件的第一关键点，将第一图像与第三图像对齐。或者，可以直接根据多个第一关键点将第一图像与第三图像对齐。

根据多个第二关键点将第二图像与第三图像对齐，得到对齐后的第二图像的步骤可以包括：根据每个第二关键点的置信度对所述多个第二关键点进行筛选，得到置信度满足第二预设条件的第二关键点；根据置信度满足第二预设条件的第二关键点，将第二图像与第三图像对齐。或者，可以直接根据多个第二关键点将第二图像与第三图像对齐。

可选地，本公开实施例中，第一图像可以是视频中的某一帧图像或静态的一张图片。当第一图像是视频中的某一帧图像时，上述S102中在对第一图像进行关键点检测的过程中，当第一图像的关键点检测失败，即没有检测到第一图像中的第一关键点时，该方法可以根据第一图像的前后帧(如前一帧和后一帧)中确定的第一关键点，来确定第一图像中的第一关键点，以提高视频时序关键点的稳定性。

例如，以第一图像为视频中的第T帧(T为大于0的整数)为例，当第T帧的关键点检测失败，即没有检测到第T帧中的第一关键点时，该方法中，可以根据第(T-c)帧和第(T+c)帧中确定的第一关键点，来计算第T帧中的第一关键点，以提高视频时序关键点的稳定性。其中，c为大于0的整数，c可以是1、2、3等，c的值越小，关键点的稳定性越高。

以c等于1为例，假设第(T-1)帧中确定的第一关键点为P1，第(T+1)帧中确定的第一关键点为P2，则该方法中可以根据P1和P2的坐标确定第T帧中的第一关键点的坐标。例如，可以计算P1和P2的坐标的平均值作为第T帧中的第一关键点的坐标，或者，可以对算P1和P2的坐标进行平滑处理，得到第T帧中的第一关键点的坐标，在此不作限制。

可选地，本公开实施例中，上述融合模型可以是采用样本第一图像和样本第二图像对融合网络进行训练得到的，样本第一图像可以参考上述第一图像，样本第二图像可以参考上述第二图像。

训练获取融合模型的步骤可以包括：按照与对齐第一图像和第二图像相同的方式，分别将样本第一图像和样本第二图像与第三图像进行对齐，得到对齐后的样本第一图像和对齐后的样本第二图像。将对齐后的样本第二图像输入人脸识别器(或称为目标对象识别器)，得到目标对象识别器输出的对齐后的样本第二图像中的第二目标对象对应的特征向量(人脸识别器的原理如前述实施例中所述)。然后将对齐后的样本第一图像和对齐后的样本第二图像中的第二目标对象对应的特征向量输入融合网络，得到融合网络输出的融合后的样本第一图像。在得到融合后的样本第一图像后，可以将融合后的样本第一图像输入目标对象识别器，得到目标对象识别器输出的融合后的样本第一图像中的第二目标对象对应的特征向量，并计算融合后的样本第一图像中的第二目标对象对应的特征向量与对齐后的样本第二图像中的第二目标对象对应的特征向量之间的损失，基于该损失对融合网络的参数进行更新。

本公开实施例中，可以将对齐后的样本第二图像中的第二目标对象对应的特征向量称为第一特征向量，将融合后的样本第一图像中的第二目标对象对应的特征向量称为第二特征向量。

在上述训练获取融合模型的过程中，将对齐后的样本第一图像输入融合网络之前，可以对对齐后的样本第一图像进行仿射变换，以对对齐后的样本第一图像进行一定程度的扰动，提高融合模型的准确性。

可选地，对对齐后的样本第一图像进行放射变换，可以包括：对对齐后的样本第一图像进行以下一种或多种仿射变换：平移(translation)、缩放(scale)、翻转(flip)、旋转(rotation)和剪切(shear)。

通过对对齐后的样本第一图像进行仿射变换，可以实现打破样本第一图像的对齐，提高融合模型对齐不准的融合(换脸)稳定性。

可选地，由于目标对象识别器不支持扰动，在将融合后的样本第一图像输入目标对象识别器之前，可以根据对对齐后的样本第一图像进行仿射变换时所采用的仿射变换矩阵(如平移矩阵、缩放矩阵等)，对融合后的样本第一图像进行去扰动处理，即进行逆仿射变换。

例如，可以计算仿射变换矩阵的逆，然后使用仿射变换矩阵的逆对融合后的样本第一图像进行逆仿射变换，以实现对融合后的样本第一图像进行去扰动处理。

可选地，在将将融合后的样本第一图像输入目标对象识别器之前，还可以对融合后的样本第一图像进行屏蔽非人脸区域的梯度的处理，来防止身份损失的背景梯度回传。

例如，以融合后的样本第一图像为f为例，可以通过下述公式(1)来对f进行屏蔽非人脸区域的梯度的处理。

f′＝detach(f)*(1-mask)+f*mask 公式(1)

公式(1)中，f′表示对f进行屏蔽非人脸区域的梯度的处理后得到的图像；detach()定义为屏蔽张量梯度的回传函数；掩码(mask)人脸区域为1，非人脸区域为0。

示例性实施例中，本公开实施例还提供一种目标对象融合装置，可以用于实现如前述实施例所述的目标对象融合方法。

图5为本公开实施例提供的目标对象融合装置的组成示意图。如图5所示，该装置可以包括：获取单元501、预处理单元502、融合单元503。

获取单元501，用于获取第一图像中的目标对象的第一关键点、第一关键点的置信度、和第二图像中的目标对象的第二关键点。

预处理单元502，用于根据第一关键点中的第三关键点，将第一图像与第三图像对齐，得到对齐后的第四图像，第三关键点的置信度满足第一预设条件；根据第二关键点，将第二图像与第三图像对齐，得到对齐后的第五图像。

融合单元503，用于通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

可选地，预处理单元502具体用于从多个第一关键点中选取置信度大于第一置信度阈值的第一关键点作为置信度满足第一预设条件的第一关键点。也即，第一预设条件包括：置信度大于第一置信度阈值。

可选地，预处理单元502具体用于根据每个第一关键点的置信度，按照置信度从高到低的顺序对多个第一关键点进行排序；从多个第一关键点的排序结果中，选取排序在前K位的第一关键点作为置信度满足第一预设条件的第一关键点；K为大于3的整数。也即，第一置信度阈值为按照从高到低的顺序，排序在第K位的置信度的值；K为大于3的整数。

可选地，预处理单元502还用于获取第二关键点的置信度。预处理单元502具体用于根据第二关键点中的第四关键点，将第二图像与第三图像对齐，得到第五图像，第四关键点的置信度满足第二预设条件。

可选地，预处理单元502具体用于从多个第二关键点中选取置信度大于第二置信度阈值的第二关键点作为置信度满足第二预设条件的第二关键点。也即，第二预设条件，包括：置信度大于第二置信度阈值。

可选地，预处理单元502具体用于根据每个第二关键点的置信度，按照置信度从高到低的顺序对多个第二关键点进行排序；从多个第二关键点的排序结果中，选取排序在前H位的第二关键点作为置信度满足第二预设条件的第二关键点；H为大于3的整数。也即，第二置信度阈值为按照从高到低的顺序，排序在第H位的置信度的值；H为大于3的整数。

可选地，第一图像为视频中的第T帧图像；预处理单元502还用于当第T帧图像中的第一关键点检测失败时，根据视频中的第(T-c)帧图像和第(T+c)帧图像中确定的第一关键点，确定第T帧图像中的第一关键点；c为大于0的整数。T为大于1的整数。

可选地，融合模型是采用与第三图像对齐后的样本第一图像和与第三图像对齐后的样本第二图像对融合网络进行训练得到的；预处理单元502还用于分别将样本第一图像和样本第二图像与第三图像进行对齐，得到对齐后的样本第一图像和对齐后的样本第二图像。

融合单元503还用于将对齐后的样本第二图像输入目标对象识别器，得到目标对象识别器输出的第一特征向量，第一特征向量是对齐后的样本第二图像中的第二目标对象对应的特征向量；将对齐后的样本第一图像和第一特征向量输入融合网络，得到融合网络输出的融合后的样本第一图像；将融合后的样本第一图像输入目标对象识别器，得到目标对象识别器输出的第二特征向量，第二特征向量是融合后的样本第一图像中的第二目标对象对应的特征向量；根据第一特征向量和第二特征向量之间的损失，对融合网络的参数进行更新。

可选地，融合单元503还用于在将对齐后的样本第一图像输入融合网络之前，对对齐后的样本第一图像进行仿射变换。

示例性地，仿射变换包括以下一种或多种：平移、缩放、翻转、旋转和剪切。

可选地，融合单元503还用于在将融合后的样本第一图像输入目标对象识别器之前，根据对对齐后的样本第一图像进行仿射变换时所使用的仿射变换矩阵的逆，对融合后的样本第一图像进行逆仿射变换。

可选地，融合单元503还用于在将融合后的样本第一图像输入目标对象识别器之前，屏蔽融合后的样本第一图像中的非人脸区域的梯度。

与图5所示的装置类似，本公开实施例还提供一种目标对象融合装置，装置包括：获取单元，用于获取第一图像中的目标对象的第一关键点、第二图像中的目标对象的第二关键点、和第二关键点的置信度。预处理单元，用于根据第一关键点，将第一图像与第三图像对齐，得到对齐后的第四图像；根据第二关键点中的第四关键点，将第二图像与第三图像对齐，得到对齐后的第五图像，第四关键点的置信度满足第二预设条件。融合单元，用于通过预设的融合模型将第四图像中的目标对象替换为第五图像中的目标对象，得到融合图像。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

示例性实施例中，电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上实施例所述的方法。

示例性实施例中，可读存储介质可以是存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据以上实施例所述的方法。

示例性实施例中，计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现根据以上实施例所述的方法。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如目标对象融合方法。例如，在一些实施例中，目标对象融合方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的目标对象融合方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标对象融合方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标对象融合方法，其特征在于，所述方法包括：

获取第一图像中的目标对象的第一关键点、所述第一关键点的置信度、和第二图像中的目标对象的第二关键点；

根据所述第一关键点中的第三关键点，将所述第一图像与第三图像对齐，得到对齐后的第四图像，所述第三关键点的置信度满足第一预设条件；

根据所述第二关键点，将所述第二图像与所述第三图像对齐，得到对齐后的第五图像；

通过预设的融合模型将所述第四图像中的目标对象替换为所述第五图像中的目标对象，得到融合图像。

2.根据权利要求1所述的方法，其特征在于，所述第一预设条件包括：置信度大于第一置信度阈值。

3.根据权利要求2所述的方法，其特征在于，所述第一置信度阈值为按照从高到低的顺序，排序在第K位的置信度的值；所述K为大于3的整数。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取所述第二关键点的置信度；

所述根据所述第二关键点，将所述第二图像与所述第三图像对齐，得到对齐后的第五图像，包括：

根据所述第二关键点中的第四关键点，将所述第二图像与所述第三图像对齐，得到所述第五图像，所述第四关键点的置信度满足第二预设条件。

5.一种目标对象融合方法，其特征在于，所述方法包括：

获取第一图像中的目标对象的第一关键点、第二图像中的目标对象的第二关键点、和所述第二关键点的置信度；

根据所述第一关键点，将所述第一图像与第三图像对齐，得到对齐后的第四图像；

根据所述第二关键点中的第四关键点，将所述第二图像与所述第三图像对齐，得到对齐后的第五图像，所述第四关键点的置信度满足第二预设条件；

6.根据权利要求4或5所述的方法，其特征在于，所述第二预设条件，包括：置信度大于第二置信度阈值。

7.根据权利要求6所述的方法，其特征在于，所述第二置信度阈值为按照从高到低的顺序，排序在第H位的置信度的值；所述H为大于3的整数。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述第一图像为视频中的第T帧图像；所述方法还包括：

当所述第T帧图像中的第一关键点检测失败时，根据所述视频中的第(T-c)帧图像和第(T+c)帧图像中确定的第一关键点，确定所述第T帧图像中的第一关键点；c为大于0的整数。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述融合模型是采用与所述第三图像对齐后的样本第一图像和与所述第三图像对齐后的样本第二图像对融合网络进行训练得到的；所述方法还包括：

分别将样本第一图像和样本第二图像与所述第三图像进行对齐，得到对齐后的样本第一图像和对齐后的样本第二图像；

将所述对齐后的样本第二图像输入目标对象识别器，得到所述目标对象识别器输出的第一特征向量，所述第一特征向量是所述对齐后的样本第二图像中的第二目标对象对应的特征向量；

将所述对齐后的样本第一图像和所述第一特征向量输入融合网络，得到所述融合网络输出的融合后的样本第一图像；

将所述融合后的样本第一图像输入所述目标对象识别器，得到所述目标对象识别器输出的第二特征向量，所述第二特征向量是所述融合后的样本第一图像中的第二目标对象对应的特征向量；

根据所述第一特征向量和所述第二特征向量之间的损失，对所述融合网络的参数进行更新。

10.根据权利要求9所述的方法，其特征在于，所述将所述对齐后的样本第一图像输入融合网络之前，所述方法还包括：

对所述对齐后的样本第一图像进行仿射变换。

11.根据权利要求10所述的方法，其特征在于，所述仿射变换包括以下一种或多种：平移、缩放、翻转、旋转和剪切。

12.根据权利要求10或11所述的方法，其特征在于，所述将所述融合后的样本第一图像输入所述目标对象识别器之前，所述方法还包括：

根据对所述对齐后的样本第一图像进行仿射变换时所使用的仿射变换矩阵的逆，对所述融合后的样本第一图像进行逆仿射变换。

13.根据权利要求9-12任一项所述的方法，其特征在于，所述将所述融合后的样本第一图像输入所述目标对象识别器之前，所述方法还包括：

屏蔽所述融合后的样本第一图像中的非人脸区域的梯度。

14.一种目标对象融合装置，其特征在于，所述装置包括：

获取单元，用于获取第一图像中的目标对象的第一关键点、所述第一关键点的置信度、和第二图像中的目标对象的第二关键点；

预处理单元，用于根据所述第一关键点中的第三关键点，将所述第一图像与第三图像对齐，得到对齐后的第四图像，所述第三关键点的置信度满足第一预设条件；根据所述第二关键点，将所述第二图像与所述第三图像对齐，得到对齐后的第五图像；

融合单元，用于通过预设的融合模型将所述第四图像中的目标对象替换为所述第五图像中的目标对象，得到融合图像。

15.根据权利要求14所述的装置，其特征在于，所述第一预设条件包括：置信度大于第一置信度阈值。

16.根据权利要求15所述的装置，其特征在于，所述第一置信度阈值为按照从高到低的顺序，排序在第K位的置信度的值；所述K为大于3的整数。

17.根据权利要求14-16任一项所述的装置，其特征在于，所述预处理单元，还用于获取所述第二关键点的置信度；

所述预处理单元，具体用于根据所述第二关键点中的第四关键点，将所述第二图像与所述第三图像对齐，得到所述第五图像，所述第四关键点的置信度满足第二预设条件。

18.一种目标对象融合装置，其特征在于，所述装置包括：

获取单元，用于获取第一图像中的目标对象的第一关键点、第二图像中的目标对象的第二关键点、和所述第二关键点的置信度；

预处理单元，用于根据所述第一关键点，将所述第一图像与第三图像对齐，得到对齐后的第四图像；根据所述第二关键点中的第四关键点，将所述第二图像与所述第三图像对齐，得到对齐后的第五图像，所述第四关键点的置信度满足第二预设条件；

19.根据权利要求17或18所述的装置，其特征在于，所述第二预设条件，包括：置信度大于第二置信度阈值。

20.根据权利要求19所述的装置，其特征在于，所述第二置信度阈值为按照从高到低的顺序，排序在第H位的置信度的值；所述H为大于3的整数。

21.根据权利要求14-20任一项所述的装置，其特征在于，所述第一图像为视频中的第T帧图像；所述预处理单元还用于当所述第T帧图像中的第一关键点检测失败时，根据所述视频中的第(T-c)帧图像和第(T+c)帧图像中确定的第一关键点，确定所述第T帧图像中的第一关键点；c为大于0的整数，T为大于1的整数。

22.根据权利要求14-21任一项所述的装置，其特征在于，所述融合模型是采用与所述第三图像对齐后的样本第一图像和与所述第三图像对齐后的样本第二图像对融合网络进行训练得到的；

所述预处理单元，还用于分别将样本第一图像和样本第二图像与所述第三图像进行对齐，得到对齐后的样本第一图像和对齐后的样本第二图像；

所述融合单元，还用于将所述对齐后的样本第二图像输入目标对象识别器，得到所述目标对象识别器输出的第一特征向量，所述第一特征向量是所述对齐后的样本第二图像中的第二目标对象对应的特征向量；将所述对齐后的样本第一图像和所述第一特征向量输入融合网络，得到所述融合网络输出的融合后的样本第一图像；将所述融合后的样本第一图像输入所述目标对象识别器，得到所述目标对象识别器输出的第二特征向量，所述第二特征向量是所述融合后的样本第一图像中的第二目标对象对应的特征向量；根据所述第一特征向量和所述第二特征向量之间的损失，对所述融合网络的参数进行更新。

23.根据权利要求22所述的装置，其特征在于，所述融合单元，还用于对所述对齐后的样本第一图像进行仿射变换。

24.根据权利要求23所述的装置，其特征在于，所述仿射变换包括以下一种或多种：平移、缩放、翻转、旋转和剪切。

25.根据权利要求23或24所述的装置，其特征在于，所述融合单元，还用于在将所述融合后的样本第一图像输入所述目标对象识别器之前，根据对所述对齐后的样本第一图像进行仿射变换时所使用的仿射变换矩阵的逆，对所述融合后的样本第一图像进行逆仿射变换。

26.根据权利要求22-25任一项所述的装置，其特征在于，所述融合单元，还用于在将所述融合后的样本第一图像输入所述目标对象识别器之前，屏蔽所述融合后的样本第一图像中的非人脸区域的梯度。

27.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-13任一项所述的方法。

29.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-13任一项所述的方法。