CN110390704A

CN110390704A - 图像处理方法、装置、终端设备及存储介质

Info

Publication number: CN110390704A
Application number: CN201910626293.7A
Authority: CN
Inventors: 刘炫鹏
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-10-29
Anticipated expiration: 2039-07-11
Also published as: CN110390704B

Abstract

本申请实施例提供了一种图像处理方法、装置、终端设备及存储介质。该方法包括：获取待处理图像，待处理图像包括目标人脸；获取待处理图像对应的目标表情序列；从预先建立的嘴型数据库中获取与目标表情序列匹配的目标嘴型序列；将目标嘴型序列合成至对应的目标人脸的嘴部位置，得到第一人脸；输出包括第一人脸的待处理图像。通过上述方式实现了在构建嘴型数据库的情况下，从嘴型数据库中检索与目标表情序列匹配的目标嘴型，进而利用该目标嘴型序列合成至对应的所述目标人脸的嘴部位置，可以实现对嘴部的细节填充，得到更加自然的图像的模拟人脸的视觉效果，提升用户视觉体验。

Description

图像处理方法、装置、终端设备及存储介质

技术领域

本申请涉及终端设备技术领域，更具体地，涉及一种图像处理方法、装置、终端设备及存储介质。

背景技术

目前，手机等移动终端设备的普及率越来越高，智能手机已成为人们出行的必备随身物品。随着移动互联网发展迅速，移动终端上出现了各种各样的应用程序，这其中许多应用程序可以为用户提供客服功能，使得用户能够通过客服来进行产品咨询等业务。

一般而言，在移动端应用程序内，企业为用户提供的客服功能通常包含机器人客服和人工客服两部分。面对一些简单或常见的问题，通常可以由机器人客服对用户的问题进行回答，而对一些复杂或特殊的问题，则可通过转接人工客服来进行处理。

随着人工智能相关技术的发展，机器人客服的功能越来越强，能够适用的场景也越来越多，大大提高了客服效率，节省了人工资源。然而，目前的机器人客服大多为通过文字的方式与用户对话，而有的机器人客服虽然可以与用户进行“面对面交流”，但表情却较为机械，缺乏生动性，极大的降低了用户体验。

发明内容

鉴于上述问题，本申请提出了一种图像处理方法、装置、终端设备及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种图像处理方法，该方法包括：获取待处理图像，待处理图像包括目标人脸；获取待处理图像对应的目标表情序列；从预先建立的嘴型数据库中获取与目标表情序列匹配的目标嘴型序列；将目标嘴型序列合成至对应的目标人脸的嘴部位置，得到第一人脸；输出包括第一人脸的待处理图像。

进一步的，所述获取待处理图像，包括：基于第一目标表情重构人脸图像，得到目标人脸；将所述目标人脸替换到包括人脸图像的背景图像中，得到待处理图像。

进一步的，所述获取所述待处理图像对应的目标表情序列，包括：将所述第一目标表情对应的表情序列作为所述待处理图像对应的目标表情序列。

进一步的，所述获取待处理图像之前，包括：获取样本视频中的表情特征与嘴型图片，所述嘴型图片与所述表情特征对应关联存储；基于所述表情特征与所述嘴型图片构建嘴型数据库。

进一步的，所述表情特征包括脸部姿态特征，所述基于所述表情特征与所述嘴型图片构建嘴型数据库，包括：对所述脸部姿态特征的向量的3个维度进行分桶操作，以得到与所述3个维度分别对应的3个旋转类别集合；从所述的3个旋转类别集合中各取一个旋转类别进行组合，得到对应的多个脸部姿态类别；将所述嘴型图片基于与其对应的所述表情特征划分至对应的所述多个脸部姿态类别中；基于所述嘴型图片对应的嘴型局部特征对每个脸部姿态类别中包括的嘴型进行聚类处理，得到每个脸部姿态类别对应的标准嘴型集合；基于所述每个脸部姿态类别对应的标准嘴型集合构建嘴型数据库。

进一步的，所述从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列，包括：获取所述目标人脸的脸部姿态；获取所述脸部姿态对应的脸部姿态类别；在所述嘴型数据库中查找与所述脸部姿态类别对应的标准嘴型集合；计算所述目标表情序列中的目标表情与所述标准嘴型集合中的各标准嘴型之间的表情特征差异参数；将与最小的所述表情特征差异参数对应的标准嘴型作为与所述目标表情序列匹配的目标嘴型序列。

进一步的，所述计算所述目标表情序列中的目标表情与所述标准嘴型集合中的各标准嘴型之间的表情特征差异参数之前，包括：对所述目标表情序列进行预处理，以去除所述目标表情序列所包含的噪音，所述预处理包括对所述目标表情序列的表情特征进行归一化处理、平滑处理以及基于小波变换过滤处理。

进一步的，所述将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置，包括：以仿射变换和双向线性差值的方式将所述目标嘴型序列填充至对应的所述目标人脸的嘴部位置，得到第一人脸，并对所述嘴部位置的边缘进行泊松融合处理。

进一步的，所述目标表情序列，包括：具有时间先后顺序的、连续的目标表情。

第二方面，本申请实施例提供了一种图像处理装置，该装置包括：第一获取模块，用于获取待处理图像，所述待处理图像包括目标人脸；第二获取模块，用于获取所述待处理图像对应的目标表情序列；第三获取模块，用于从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列；处理模块，用于将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置，得到第一人脸；输出模块，用于输出包括所述第一人脸的待处理图像。

进一步的，所述第一获取模块包括：重构单元，用于基于第一目标表情重构人脸图像，得到目标人脸；替换单元，用于将所述目标人脸替换到包括人脸图像的背景图像中，得到待处理图像。

进一步的，所述第二获取模块包括：表情序列处理单元，用于将所述第一目标表情对应的表情序列作为所述待处理图像对应的目标表情序列。

进一步的，所述图像处理装置还包括：第四获取模块，用于获取样本视频中的表情特征与嘴型图片，所述嘴型图片与所述表情特征对应关联存储；数据库构建模块，用于基于所述表情特征与所述嘴型图片构建嘴型数据库。

进一步的，所述表情特征包括脸部姿态特征，所述数据库构建模块包括：分桶操作单元，用于对所述脸部姿态特征的向量的3个维度进行分桶操作，以得到与所述3个维度分别对应的3个旋转类别集合；脸部姿态组合单元，用于从所述的3个旋转类别集合中各取一个旋转类别进行组合，得到对应的多个脸部姿态类别；嘴型图片划分单元，用于将所述嘴型图片基于与其对应的所述表情特征划分至对应的所述多个脸部姿态类别中；聚类处理单元，用于基于所述嘴型图片对应的嘴型局部特征对每个所述代表脸部姿态类别中包括的嘴型进行聚类处理，得到每个脸部姿态类别对应的标准嘴型集合；嘴型数据库构建单元，用于基于所述每个脸部姿态类别对应的标准嘴型集合构建嘴型数据库。

进一步的，所述第三获取模块包括：脸部姿态获取单元，用于获取所述目标人脸的脸部姿态；脸部姿态类别确定单元，获取所述脸部姿态对应的脸部姿态类别；查找单元，用于在所述嘴型数据库中查找与所述脸部姿态类别对应的标准嘴型集合；参数计算单元，用于计算所述目标表情序列中的目标表情与所述标准嘴型集合中的各标准嘴型之间的表情特征差异参数；匹配单元，用于将与最小的所述表情特征差异参数对应的标准嘴型作为与所述目标表情序列匹配的目标嘴型序列。

进一步的，所述第三获取模块还包括：预处理单元，用于在所述参数计算单元之前对所述目标表情序列进行预处理，以去除所述目标表情序列所包含的噪音，所述预处理包括对所述目标表情序列的表情特征进行归一化处理、平滑处理以及基于小波变换过滤处理。

进一步的，所述处理模块包括：合成处理单元，用于以仿射变换和双向线性差值的方式将所述目标嘴型序列填充至对应的所述目标人脸的嘴部位置，得到第一人脸，并对所述嘴部位置的边缘进行泊松融合处理。

第三方面，本申请实施例提供了一种终端设备，其包括：存储器；一个或多个处理器，与存储器耦接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供了一种图像处理方法、装置、终端设备及存储介质。本方法通过获取待处理图像，待处理图像包括目标人脸；获取待处理图像对应的目标表情序列；从预先建立的嘴型数据库中获取与目标表情序列匹配的目标嘴型序列；将目标嘴型序列合成至对应的目标人脸的嘴部位置，得到第一人脸；输出包括第一人脸的待处理图像。通过上述方式实现了在构建嘴型数据库的情况下，从嘴型数据库中检索与目标表情序列匹配的目标嘴型嘴型，进而利用该目标嘴型序列合成至对应的所述目标人脸的嘴部位置，可以实现对嘴部的细节填充，得到更加自然的图像的模拟人脸的视觉效果，提升用户视觉体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一实施例提供的图像处理方法的方法流程图。

图3示出了本申请实施例提供的待处理图像中的目标人脸的示例图。

图4示出了本申请实施例提供的将目标嘴型合成至目标人脸的一示例图。

图5示出了本申请实施例提供的将目标嘴型合成至目标人脸的另一示例图。

图6示出了本申请另一实施例提供的图像处理方法的方法流程图。

图7示出了本申请又一实施例提供的图像处理方法的方法流程图。

图8示出了本申请实施例选取点对的示例图。

图9示出了本申请实施例提供的嘴型图片的示例图。

图10示出了图4中的步骤S320的方法流程图。

图11示出了本申请再一实施例提供的图像处理方法的方法流程图。

图12示出了本申请实施例提供的图像处理装置的结构框图。

图13示出了本申请实施例的用于执行根据本申请实施例的图像处理方法的终端设备的结构框图。

图14示出了本申请实施例的用于保存或者携带实现根据本申请实施例的图像处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着科技发展，人们对各种智能产品使用过程中人性化体验的需求也在逐渐增加，在与客服沟通过程中，用户也希望可以不仅仅只是得到文字或语音的回复，而是可以通过与实际生活中的人际沟通相似的更为自然的交互方式进行沟通。

发明人在研究中发现，可通过让客服机器人模拟真人说话，来增进客服的亲切感。例如在客服机器人与用户进行对话时，可以将对用户咨询的回复内容经过虚拟的人物形象之口，通过语音的方式表达出来，让用户可以在用户界面上直观的看到具有虚拟人物形象的客服机器人在“说话”，使用户与客服机器人之间能够进行“面对面”的沟通交流。

然而，在实际的研究过程中，发明人发现，由于人们对人脸的视觉感知较为灵敏，在客服机器人“说话”时，若虚拟人物的面部表情与嘴型不一致，或者虚拟人物的嘴型存在图像缺失等，都可能会给用户带来不自然的感觉，影响用户视觉体验。

为了改善上述问题，发明人研究了拟人化的客服机器人在实现过程中的困难点，更是综合考虑实际交互场景中的使用需求，提出了本申请实施例中的图像处理方法、装置、电子设备及存储介质。

为便于更好的理解本申请实施例提供的图像处理方法、装置、电子设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的图像处理方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像等，还可以是基于终端设备101上安装有的手势识别模块，使得用户可以实现手势输入等交互方式。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信，具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息、语音信息或图像信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，客户端应用程序可以用于向用户提供客户服务，与用户进行客服沟通，客户端应用程序可以基于虚拟机器人与用户进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于虚拟机器人对该信息作出应答。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形态建立的形似真人的机器人，也可以是动漫效果式的机器人，例如动物形态或卡通人物形态的机器人，在此不作限定。

在一些实施方式中，终端设备101在获取与用户输入的信息对应的回复信息后，可以在终端设备101的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像。作为一种方式，在播放虚拟机器人图像的同时，可以通过终端设备101的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频，还可以在终端设备101的显示屏上显示与该回复信息对应的文字或图形，实现在图像、语音、文字等多个方面上与用户的多态交互。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时多态交互系统100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的图像处理方法、装置、终端设备及存储介质进行详细说明。

如图2所示，示出了本申请一实施例提供的图像处理方法的方法流程图。本实施例提供的图像处理方法可以应用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中，图像处理方法可应用于如图7所示的图像处理装置500以及图8所示的终端设备200。下面将针对图2所示的流程进行详细的阐述。上述的图像处理方法具体地可以包括以下步骤：

步骤S110：获取待处理图像，所述待处理图像包括目标人脸。

其中，本实施例中的目标人脸指的是模拟人脸图像，模拟人脸图像可以通过多种方式预先构建，具体构建方法将在后续描述中进一步说明，且模拟人脸图像可以是二维图像或者三维图像。那么，可以理解的是，待处理图像为包括目标人脸与背景图像(背景图像一般可包括人的身体其他部位以及真实环境背景等)叠加后的图像。可选的，待处理图像可以是图片，也可以是视频图像，也可以是其他形式的图像，在此不作限定。在待处理图像为视频图像的情况下，在待处理图像所在的视频中，除待处理图像以外的其他区域可以保留视频中原有的图像，也可以随着视频的播放而变化为对应场景中的图像。

例如，在一个具体的应用场景中，若包含模拟人脸图像的机器人在播放一段视频，在视频播放的过程中，该机器人可能先介绍播报的大体内容，那么在这个时候，除待处理图像以外的其他区域将保留视频中原有的图像，而随着播报的深入，当该机器人播报到某一条具体事宜时，待处理图像以外的其他区域可以跳转至与该事宜对应的内容画面。

随着科技技术的迅猛发展，机器人改变了原有的机械生产模式，机器人给人们的生活以及工作带来了极大的便利。可选的，例如，可以通过虚拟数字人代替真人完成一些交互繁琐的工作，且机器人在与真人进行交互的过程中，可以实现人脸表情迁移，使得机器人也能模仿真人，生动且逼真的与用户沟通。然而，通过3D(3 Dimensions，三维)建模技术在对真人进行建模以实现人脸表情迁移时，若需要达到高精度建模，数据采集成本较高，而若通过低精度的3D建模技术建模，则会出现机器人的牙齿、舌头等脸部纹理细节的缺失(例如，如图3所示的机器人脸部存在嘴部图像的缺失，包括牙齿缺失、舌头缺失以及嘴部纹理缺失等)，从而降低用户体验。

那么，为了改善上述问题，作为一种方式，本实施例中可以获取待处理图像，进而可以通过对待处理图像中的目标人脸的嘴部图像进行处理，实现对该嘴部图像的细节填充，从而完善目标人脸图像，使其更加逼真与生动，给用户带来真实的视觉体验。

作为一种方式，终端设备中可以预先存储人脸检测算法，在用户通过终端设备观看视频或图片等图像的过程中，终端设备可以实时检测视频图像显示界面中所呈现的待处理图像的目标人脸是否存在图像缺失。可选的，终端设备可以通过目标人脸的关键点的数量以及位置分布分析出当前目标人脸的嘴部位置图像是否存在缺失，作为一种方式，若存在缺失，那么终端设备将获取待处理图像。那么可以理解的是，终端设备可以通过获取目标人脸的脸部三维模型关键点的方式获取待处理图像，例如，终端设备可以通过识别视频图像(或图片)中的每一帧图像的人脸及其68个关键点的位置，通过分析关键点的位置得到待处理图像；可选的，终端设备也可以通过其他方式获取待处理图像，例如通过人脸模型算法、人脸识别算法等识别出待处理图像。

步骤S120：获取所述待处理图像对应的目标表情序列。

需要说明的是，作为一种方式，本申请实施例中的目标表情序列包括具有时间先后顺序的、且连续的目标表情集合，例如，一段视频中的目标人脸的表情变化从头到尾较为细微，且具有时间先后顺序的每个表情与表情之间存在关联性时。作为另一种方式，目标表情序列也可以包括具有时间戳的但是不连续的目标表情集合，例如一段视频中，目标人脸的表情变化较大时，例如由大笑突然变得低落等，这种情况下，具有时间先后顺序的表情与表情之间几乎的没有什么关联性的。

其中，目标表情可以是预先设定的需要由终端设备捕捉的表情，例如，“哭”的表情，“微笑”的表情、“开心”的表情等等，在此不再一一列举。每个目标表情表示目标人脸的一种表情，而不同的场景或者姿态下待处理图像中的目标人脸的表情可以不同。

例如，在户外郊游场景下，人们(这里可以理解为仿真的机器人或者虚拟数字人)的表情可能都是开心的，也可以理解为是微笑的表情，具体可以包括微微笑，大笑，狂笑，笑嘻嘻等式样的表情；而若在一场车祸或者是地震灾难后的场景中，人们(类似的，这里可以理解为仿真的机器人或者虚拟数字人)的表情可能是沉重的、悲痛的、哭泣的、痛苦的、皱眉的等等式样的表情，那么为了便于区分不同的场景下的表情，可以将不同场景下的表情分为不同的表情组别，从而得到不同组别的目标表情。那么对应于不同的场景，可以获取待处理图像对应的目标表情序列。其中，不同场景的目标表情序列可以不同，或者也可以相同或相似，在此不作限定。

作为一种方式，终端设备在获取了待处理图像的情况下，可以判定需要对该待处理图像中的目标人脸的嘴部图像进行处理(包括填充或者替换等)，那么在这种情况下，终端设备可以继续获取待处理图像对应的目标表情序列。通过获取待处理图像对应的目标表情序列，以便于后续可以基于该目标表情序列从预先建立的嘴型数据库中搜索与该目标表情序列匹配的目标嘴型序列，进而实现对目标人脸的嘴部位置缺失图像的细化与补齐，从而实现更真实的用户体验。

可以理解的是，目标人脸的表情可以由关键点的位置分布情况下进行确定。可选的，随着目标人脸的表情的变化，脸部各个部位的关键点的数量将发生变化，那么作为一种方式，可以通过获取脸部局部关键点数量的变化以及关键点位置的变化推测出目标人脸的目标表情，从而得到目标表情序列。例如，可以将该目标人脸的局部关键点的数量以及位置的变化输入机器模型，由机器模拟学习出目标人脸的目标表情，从而得到目标表情序列。

步骤S130：从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列。

其中，需要说明的是，嘴型数据库中预先存储了各种目标表情与其对应的嘴型图片，也可以理解为，该嘴型数据库中，目标人脸的表情特征与嘴型图片是对应存储的。

那么，可以理解的是，在获取了目标表情序列的情况下，可以通过目标表情序列从嘴型数据库中搜索出与该目标表情序列匹配的目标嘴型序列。具体的，可以将目标表情序列通过终端设备的数据处理交互接口传输至嘴型数据库，以便于嘴型数据库可以依据该目标表情序列查找出最为匹配的目标嘴型序列。其中，目标嘴型序列即可以理解为不同的嘴型图片，不同的嘴型图片的嘴型不同，可选的，不同的目标表情序列对应不同的目标嘴型序列。

可选的，由于人在说话的过程中，脸部肌肉是随着表情的变化，嘴部的形状也是会不断变化，那么终端设备在获取了目标表情序列的情况下，可以进一步的通过分析脸部局部的变化趋势查找出与该目标表情序列(或某个目标表情)匹配的目标嘴型序列(或目标嘴型)。

例如，作为一种具体的实施方式，在判断得出人脸脸部的脸颊缩成一团且成上扬趋势时，可以判定该人脸为微笑的表情，那么可以以一张嘴角上扬的微笑嘴型作为与该人脸的表情匹配的目标嘴型；类似的，若在判断得出人脸的脸颊稍有拉长且脸颊的特征点分布编辑变大时，可以判定该人脸为吃惊的表情，在该种情况下，可以以一张嘴型为“O”或者张大嘴的嘴型作为与该人脸的表情匹配的目标嘴型。值得注意的是，终端设备分别将会选取一张嘴型图片且分别选取相似度最高的一张嘴型图片分别作为与目标表情序列匹配的目标嘴型序列，实际实现时判定与目标表情序列匹配的目标嘴型序列的判断条件可以更加复杂，在此仅作为示例，并不构成对本方案的限定。

步骤S140：将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置，得到第一人脸。

可选的，由于人在说话过程中的眼球或口腔内部的变化不明显，为减少人脸关键点所对应表情的计算量，增加合成效率，合成的人脸区域可以不包括口腔、眼球等部位，即合成后得到的第一人脸所在的待处理图像可以保留图像(例如视频)中人物的口腔、眼球等部位的原始图像。

需要说明的是，本申请实施例中的将目标嘴型序列合成至对应的目标人脸的嘴部位置包括但不限于：用目标嘴型序列填充目标人脸的嘴部位置的缺失图像，从而合成新的嘴部图像，得到第一人脸；或者重新生成包括所获得的目标嘴型序列的嘴部图像，然后将该嘴部图像覆盖叠加至目标人脸的嘴部位置，从而得到合成后的新的图像，进而得到第一人脸；或者直接将目标嘴型序列叠加至目标人脸的嘴部位置，从而合成新的嘴部图像，得到第一人脸；可选的，或者也可以是别的合成方式，可以满足合成新的嘴部图像即可，在此不作限定。

例如，在一个具体的应用场景中，如图4所示，为将该嘴部图像覆盖叠加至目标人脸的嘴部位置，从而得到合成后的新的图像，进而得到第一人脸。如图5所示，为用目标嘴型序列(图中仅示出一个目标嘴型)填充目标人脸的嘴部位置的缺失图像，从而合成新的嘴部图像，得到第一人脸。

作为一种方式，通过将目标嘴型序列合成至对应的所述目标人脸的嘴部位置，可以得到目标人脸的完整脸部图像，即第一人脸。而可以理解的是，目标人脸的脸部表情不同，所对应合成的目标嘴型序列也不同，那么得到的第一人脸也不同，而第一人脸的不同实质上可以理解为第一人脸的表情不同，也可以理解为不同的目标人脸的表情不同。

可选的，终端设备在将目标嘴型序列合成至对应的目标人脸的嘴部位置时，可以根据目标人脸的表情适配不同的合成方式，即适配不同的目标嘴型序列合成至对应的目标人脸的嘴部位置，进而得到对应的第一人脸。

例如，在一种实现方式中，当终端设备检测到目标人脸的嘴部位置的关键点的数量较少且关键点的位置分布较为零散时，这时可能缺少牙齿或是舌头的图像，那么可以采取或者重新生成包括所获得的目标嘴型序列的嘴部图像，然后将该嘴部图像覆盖叠加至目标人脸的嘴部位置，从而得到合成后的新的图像，进而得到第一人脸的处理方式。

在另一种实现方式中，当终端设备检测到目标人脸的嘴部位置的关键点数量较多，且关键点的位置分布较为均匀使得有较为清晰的嘴部轮廓时，这时可能主要缺失的嘴部的纹理等细节内容，那么可以采取用目标嘴型序列填充目标人脸的嘴部位置的缺失图像，从而合成新的嘴部图像，得到第一人脸；或者采取将目标嘴型序列叠加至目标人脸的嘴部位置，从而合成新的嘴部图像，得到第一人脸的处理方式。需要说明的是，实际实现时终端设备可以根据具体情况适配对应的合成方式，在此不一一说明。

通过将目标嘴型序列合成至对应的目标人脸的嘴部位置，可以得到细致生动而富有真实感的第一人脸，给用户带了更加真实的视觉体验，同时，可以提升视频图像的趣味性，同时，可以有助于开发虚拟数字人的产业规模。

步骤S150：输出包括所述第一人脸的待处理图像。

可以理解的是，在对待处理图像中的目标人脸的嘴部图像进行合成后，得到第一人脸，进而得到包括第一人脸的待处理图像，在此种情况下，该包括第一人脸的待处理图像将比原来的待处理图像更加细致而富有生动性和趣味性。例如，假设虚拟卡通人物或者模拟真人的虚拟数字人在包括该第一人脸的基础上与用户进行交互时，将会给用户带来全新的、更加生动与逼真的视觉效果，提升用户体验。

那么，作为一种方式，终端设备可以输出包括第一人脸的待处理图像，以灵活的展示待处理图像中第一人脸的真实的人物脸部仿真模拟效果。

本实施例提供的图像处理方法，通过获取待处理图像，待处理图像包括目标人脸；获取待处理图像对应的目标表情序列；从预先建立的嘴型数据库中获取与目标表情序列匹配的目标嘴型序列；将目标嘴型序列合成至对应的目标人脸的嘴部位置，得到第一人脸；输出包括第一人脸的待处理图像。通过上述方式实现了在构建嘴型数据库的情况下，从嘴型数据库中检索与目标表情序列匹配的目标嘴型嘴型，进而利用该目标嘴型序列合成至对应的所述目标人脸的嘴部位置，可以实现对嘴部的细节填充，得到更加自然的图像的模拟人脸的视觉效果，提升用户视觉体验。

如图6所示，示出了本申请另一实施例提供的图像处理方法的方法流程图，所述方法包括：

步骤S210：基于第一目标表情重构人脸图像，得到目标人脸。

其中，第一目标表情可以是任何一个表情，例如，可以是用户在终端设备的人机交互接口输入端输入的表情，可以是通过AI算法模型推理所得的表情序列，也可以是终端设备从某段视频或图像中截取的表情，在此不作限定。

可选的，采用不同的第一目标表情，重构人脸图像后得到的目标人脸不同。

可选的，为了使合成的嘴部图像更加贴合于仿真的人脸图像，可以基于第一目标表情重构人脸图像，以便于后续可以用该第一目标表情从预先建立的嘴型数据库中搜索出与该第一目标表情匹配的目标嘴型，从而使得该目标嘴型被合成至重构的目标人脸后，可以更加自然且富有生动性。那么，作为一种方式，可以通过基于3DMM(3D MorphableModels，三维形变模型)的三维人脸建模(3D Face Morphable Models)技术基于第一目标表情重构人脸图像，得到目标人脸，也可以是其他相关的三维建模技术，在此不作限定。

步骤S220：将所述目标人脸替换到包括人脸图像的背景图像中，得到待处理图像。

可以理解的是，可以将目标人脸替换到包括人脸图像的背景图像中，得到待处理图像。值得注意的是，在替换的过程中，除了人脸图像区域，背景图像中的其他区域的背景内容可以保持不变，也可以根据实际场景而变化(例如，视频播放场景中视频背景内容随着播报内容的变化而变化)。

其中，可以通过多种方式将目标人脸替换到包括人脸图像的背景图像中。

作为一种方式，终端设备可以通过人脸识别算法识别出包括人脸图像的背景图像中的人脸，然后删除该人脸，进而再将目标人脸填充至背景图像中的脸部位置，从而得到待处理图像。

作为另一种方式，可以直接将该目标人脸叠加至背景图像中的人脸图像的脸部位置。此种情况下，若目标人脸的脸部面积大于该背景图像中人脸图像的脸部面积，那么将直接得到待处理图像；而若目标人脸的脸部面积不大于该背景图像中人脸图像的脸部面积，那么终端设备可以根据预先存储的人脸检测算法识别出该人脸图像超出于该目标人脸的边缘脸部区域，然后去除这些边缘脸部区域，从而实现得到待处理图像。

下面通过具体的示例对上述所描述的内容进行示例性的说明：

假设目标表情序列为E＝{e1,e2,…,em}，那么可以根据目标表情序列E＝{e1,e2,…,em}，选取相同长度的目标人物视频片段F＝{f1,f2,…,fm}作为背景视频。通过检测背景视频帧fi中目标人物的68个人脸关键点，可以进行3DMM形状参数的求解。然后结合求解所得的形状参数和目标表情ei重构并替换背景视频帧fi中目标人物的人脸，使得背景视频帧fi中目标人物的表情被替换为目标表情，例如：背景视频帧fi中目标人物紧闭着嘴巴，替换为目标表情后，目标人物嘴巴张到最大。

步骤S230：将所述第一目标表情对应的表情序列作为所述待处理图像对应的目标表情序列。

可以理解的是，在第一目标表情为多个不同的表情或多种表情的情况下，可以将第一目标表情对应的表情序列作为待处理图像对应的目标表情序列。例如，若第一目标表情为“笑”类的表情，那么可以将“笑”类的表情所包括的表情序列(微笑，咧嘴笑、憨笑、哈哈大笑、抿嘴笑、嘻嘻笑等)作为待处理图像对应的目标表情序列。

需要说明的是，待处理图像对应的目标表情序列可以包括更多的第一目标表情对应的表情序列，在此不一一列举。

步骤S240：从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列。

步骤S250：将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置，得到第一人脸。

步骤S260：输出包括所述第一人脸的待处理图像。

如图7所示，示出了本申请又一实施例提供的图像处理方法的方法流程图，所述方法包括：

步骤S310：获取样本视频中的表情特征与嘴型图片，所述嘴型图片与所述表情特征对应关联存储。

其中，样本视频是指构建虚拟人脸图像所参照的真人出现的视频，可选是，样本视频的来源不受限制，例如可以是从网络下载的存储(或缓存)至终端设备的视频，也可以是由用户通过终端设备所拍摄的视频，或者是终端设备联网后在网页上实时播放的视频。可选的，也可以是单独进行规范化录制的视频。

可选的，样本视频包括多帧图像，而每一帧包括人脸的图像中将会包括人脸的表情特征与嘴型图片，那么作为一种方式，为了便于后续构建嘴型数据库，可以获取样本视频中的表情特征与嘴型图片，再将嘴型图片与表情特征对应关联存储。其中，表情特征包括脸部姿态特征，嘴型图片与表情特征对应关联存储可以理解为，根据脸部姿态特征适配对应的嘴型图片进行对应存储。其中，从样本视频中提取的表情特征和嘴型图片可以以一一对应的方式被集中存储在本地文件系统的指定目录，指定目录可以是用户随意指定，也可以是终端设备自动分配指定。

例如，若脸部姿态为“生气姿态”时，那么可能嘴唇是撅着的，那么可选的，可以将噘嘴的图片与“生气姿态”对应关联存储，其中，噘嘴时嘴部的褶皱将会更多更明显，使得他们之间的关联性更强，且更容易区分。需要说明的是，“生气姿态”所对应的嘴型图片还可以包括更多嘴型，而终端设备可以依据嘴型与嘴型之间的差异性分别将不同嘴型图片与“生气姿态”分别对应关联存储。

作为一种方式，可以将样本视频分解为连续的图像帧，再分别识别各图像帧中的人脸机器68个关键点的位置，然后依据这些关键点的位置信息提取人脸嘴部区域的嘴型图片。而对于表情特征，可以基于这些关键点的局部分布的位置以及局部分布的关键点数量获取对应的表情特征。

进一步的，本申请实施例中的表情特征包括嘴部局部特征和人脸全局特征。其中，嘴部局部特征由嘴唇张开距离、嘴唇相对厚度组成，两者皆为不带单位的浮点数。可选的，可以通过在归一化的20个嘴部人脸关键点中选取嘴唇上特定的点对(pointpair)，再计算每个点对中，点与点之间的欧式距离以及点对之间的比值获得。其中，点对的选取方式可以参照图8，如图8所示，表示的是人脸的68个关键点的点位分布图，其中，每个关键点右侧紧挨的数据为该关键点在人脸的68个关键点中的位数(即排在第几位)，对于人脸的嘴唇、眼部、鼻子、眉毛以及脸的外轮廓均可以按照类似于图8所示的方式选取点对(即两个关键点)。例如，作为一种方式，对于嘴唇相对厚度，可以用3个点对来表示，这三个点对分别为(52,63)、(58,67)和(49,55)，而对于嘴唇张开距离，可以用2个点对来表示，这两个点对分别为(62,68)和(64,66)。而人脸全局特征由表情参数和脸部姿态组成，两者皆可通过对68个人脸关键点进行3DMM表情参数求解获得，其中表情参数为一个100维的特征向量，脸部姿态为一个3维的特征向量。

作为一种方式，对于所获得的嘴型图片，可以通过变形的方法进行后处理，从而可以得到分辨率统一、符合参照标准的嘴型图片(如图9所示)。

通过获取样本视频中的表情特征与嘴型图片，以便于可以实现后续构建与目标表情匹配的嘴型数据库，具体构建流程描述如下：

步骤S320：基于所述表情特征与所述嘴型图片构建嘴型数据库。

其中，需要说明的是，本申请实施例中所需的嘴型数据库可以预先在离线状态下生产，进而可以实现将该嘴型数据库部署到生产环境后所需计算资源少且时间成本低，从而具备应用于实时视频流的条件。

作为一种方式，该嘴型数据库中表情特征与嘴型图片是对应存储的。

如图10所示，作为一种方式，步骤S320可以包括：

步骤S321：对所述脸部姿态特征的向量的3个维度进行分桶操作，以得到与所述3个维度分别对应的3个旋转类别集合。

其中，由前述实施例可知，表情特征包括脸部姿态特征。那么作为一种方式，可以对表情特征中脸部姿态特征向量的3个维度(Pitch，Yaw，Roll)根据取值范围(例如，可以是这3个维度的旋转角度的取值范围)分别进行分桶操作(其中，分桶操作可以将数值特征转化为类别特征)，从而得到与这3个维度分别对应的3个旋转类别集合。

在一个具体的应用场景中，可以用三维旋转角度(pitch，yaw，roll)表示表情特征中的脸部姿态特征向量，该三维旋转角度的取值范围可以是[0,180°)，那么，可以通过分桶得到三维旋转角度的各维度的若干个旋转类别{p1,p2,p3}、{y1,y2,y3}、{r1,r2,r3}，其中{p1,p2,p3}是与维度pitch相关的旋转类别，{y1,y2,y3}是与维度yaw相关的旋转类，{r1,r2,r3}是与维度roll相关的旋转类。

步骤S322：从所述的3个旋转类别集合中各取一个旋转类别进行组合，得到对应的多个脸部姿态类别。

作为一种方式，为了减少检索与目标表情匹配的目标嘴型的计算成本和时间成本，本申请实施例可以从上述3个旋转类别集合中各取一个旋转类别进行组合，通过将与各维度相关的旋转类别进行组合，可以得到对应的多个脸部姿态类别。

例如，假设一脸部姿态特征向量的3个维度(Pitch，Yaw，Roll)各有3种，若把维度(Pitch，Yaw，Roll)分别记为(P_i,Y_i,R_i)，那么P_i＝{P₁,P₂,P₃}，Y_i＝{Y₁,Y₂,Y₃}，R_i＝{R₁,R₂,R₃}，那么该脸部姿态特征向量的3个维度(Pitch，Yaw，Roll)将有{P_i,Y_i,R_i}³种脸部姿态类别，即27种脸部姿态类别，其中，每一种脸部姿态类别包含3个维度的特征向量。

步骤S323：将所述嘴型图片基于与其对应的所述表情特征划分至对应的所述多个脸部姿态类别中。

进一步的，可以将存储的嘴型图片依据其所对应的表情特征将其归类划分到不同的脸部姿态类别中。其中，嘴型图片与表情特征预先关联存储。可选的，可以理解为将嘴型图片与脸部姿态类别中的嘴型进行比对，继而实现将基于与其对应的表情特征划分至对应的多个脸部姿态类别中，从而可以建立嘴型图片与脸部姿态类别的关联，以便于后续通过目标表情检索匹配的嘴型图片时可以根据与目标表情对应的脸部特征快速的匹配出合适的嘴型图片，同时可以减少嘴型图片搜索时的比对规模，提升搜索效率。

例如，在一个具体的应用场景中，假设脸部姿态特征向量的3个维度的每个维度分3个桶，即p1,y1,r1＝[0,60),p2,y2,r2＝[60,120),p3,y3,r3＝[120,180)，那么，对于已知表情特征的嘴型图片A，若得知其(pitch,yaw,roll)＝(34,150,103),那么参考每个维度各桶的取值范围，可得到嘴型图片A，若得知其(pitch,yaw,roll)＝(34,150,103),那么参考每个维度各桶A的各维度的旋转角度类别分别为p1,y3,r2，即嘴型图片A将被归类到(p1,y3,r2)对应的脸部姿态类别中。需要说明的是，这里的“桶”，可以理解为“旋转类别”。

步骤S324：基于所述嘴型图片对应的嘴型局部特征对每个脸部姿态类别中包括的嘴型进行聚类处理，得到每个脸部姿态类别对应的标准嘴型集合。

可以理解的是，虽然对不同类别维度下的多个旋转类别进行了组合，得到了对应的多个脸部姿态类别，然而，每个脸部姿态类别所对应的嘴型图片的数量依然很庞大，例如，某一脸部姿态类别下可以包括多种嘴型局部特征，例如，嘴部褶皱程度，嘴部纹理的多少，嘴部牙齿外漏的程度等，及对应多种嘴型图片。那么为了进一步减少搜索与目标表情匹配的嘴型图片时的搜索规模，可以基于嘴型图片对应的嘴型局部特征对每个脸部姿态类别中包括的嘴型进行聚类处理，得到每个脸部姿态类别对应的标准嘴型集合。例如，得到包括嘴部褶皱程度相当，嘴部纹理数量均匀，嘴部牙齿外漏的程度相当的嘴型图片的标准嘴型集合等。

可选的，一个脸部姿态类别对应一个标准嘴型集合，一个嘴型数据库中包括多个脸部姿态类别。

其中，作为一种方式，在对上述嘴型进行聚类处理的过程中，可以理解为得到每个脸部姿态类别对应的由每个类簇的代表嘴型构成的标准嘴型集合。其中，代表嘴型选取以各类簇代表嘴型之间样本距离最大且图片相似度最高为评价标准进行评分，再通过排序的方式确定各类簇最终的嘴型。其中，样本距离最大指的是代表嘴型与代表嘴型之间的距离尽可能的大，可以使得两两之间表情特征的区分度最大，例如：一个类簇中嘴张大的幅度范围是[1.0,2.0]，一个类簇中嘴张大的幅度范围是[2.1-3]，在选择时则会倾向于第一个选幅度为1的，第二个选幅度为3的，因为如果一个选2.0一个选2.1，两个代表嘴型看起来可能没什么区别。

可选的，图片相似度高则指的是图像与图像之间的全局相似度。图片相似度越高，表情特征差异也就相对地越小，但值得注意的是，这并不是一个线性的关系。可选的，可能图片A和图片B相似度为0.8，其中嘴唇相似，牙齿不相似；图片A和图片C相似度也为0.8，其中嘴唇不相似，牙齿相似。因此，不难理解的是，图片相似度最大使得代表嘴型两两之间相似的地方尽量多，使得合成成视频时，前后帧图像之间的连贯性更强，例如：前一帧图像有大量牙齿，下一帧图像一个牙齿都没了，会非常突兀，因此，可以理解的是，满足各类簇代表嘴型之间样本距离最大且图片相似度最高，可以选取出最优的类簇。

其中，上述的排序可以理解为分别从各个类簇中选择1个嘴型，构成一个候选集合，再通过构建有限个候选集合，并依据前述的样本距离和图片相似度计算该集合的评分，然后依据评分对各个候选集合进行排序，那么，得分最高的成为该脸部姿态分组下的标准嘴型集合，集合中各嘴型为对应类簇的代表嘴型。

作为一种实施方式，每个脸部姿态可以作为一个该聚类空间中的样本，聚类的类簇可以根据实际需求进行设定。可选的，样本距离可以由脸部姿态对应的表情特征的加权范式距离决定，作为一种实施方式，本实施例可以采用Cosine图像相似度和编码特征相似度(用深度学习模型LightCNN、AutoEncoder等从图片抽取特征，得到图片的编码特征向量)来选取样本距离。可选的，本实施例中的聚类算法可以采取K-Means算法，也可以选择其它可控制最终生成类簇数量的聚类算法，在此不作限定。

其中，加权的含义是为表情特征的每一维添加的对应的权值，用以控制各维度类别对样本距离的贡献。可选的，当每一维的权值为1时，“加权L范式距离”＝“L范式距离”。

步骤S325：基于所述每个脸部姿态类别对应的标准嘴型集合构建嘴型数据库。

可以理解的是，基于每个脸部姿态类别对应的标准嘴型集合，可以实现构建嘴型数据库。

值得注意的是，嘴型数据库中存有所有从样本视频中提取的嘴型图片和表情特征，但在依据表情检索目标嘴型时，只从人脸背景视频所对应的脸部姿态分组下的标准嘴型集合中进行检索，极大地降低了检索的计算成本和时间成本，并使得机器人系统的效率可被估计以及可被控制。或者可以理解为即使是在某一个脸部姿态分组中进行检索，由于该分组下的嘴型数量仍然庞大，因此，通过聚类的方式来缩减每个分组的嘴型数量，通过为每个类簇选取代表嘴型作为标准嘴型的方式，使得检索只需要在每个脸部姿态分组的标准嘴型集合中进行即可。

例如，在一个具体的应用场景中，原本需要在整个数据库的200W个嘴型中检索目标嘴型，通过姿态分组，使得只需要在正脸分组的10W个嘴型中检索，进一步的，通过嘴型聚类和构建标准嘴型集合，使得只需要在正脸姿态的100个嘴型中检索，大大地提高了检索效率。

步骤S330：获取待处理图像，所述待处理图像包括目标人脸。

步骤S340：获取所述待处理图像对应的目标表情序列。

步骤S350：获取所述目标人脸的脸部姿态。

其中，脸部姿态可以包括正脸、侧脸、仰头、低头、侧头、埋头等脸部姿态，可以根据实际情况进行分类，在此不作限定。可选的，可以通过获取的人脸68个关键点的位置分布确定各个脸部姿态，也可以是通过其他方式确定。

步骤S360：获取所述脸部姿态对应的脸部姿态类别。

在获取了目标人脸的脸部姿态的情况下，可以根据脸部姿态确定该脸部姿态所属的脸部姿态类别。例如脸部姿态类别为A，若该脸部姿态为A1，其中A1从属于A，即A1的脸部姿态特征包含于A，那么可以判定该脸部姿态A1的脸部姿态类别为A。

步骤S370：在所述嘴型数据库中查找与所述脸部姿态类别对应的标准嘴型集合。

可以理解的是，在确定了该脸部姿态所属的脸部姿态类别的情况下，可以从最新数据库中查找与该脸部姿态类别对应的标准嘴型结合，以便于仅在该标准嘴型集合中查找与目标表情序列匹配的目标嘴型序列，从而可以减少检索规模，实现加速查找，提升嘴型图片搜索效率。

步骤S380：计算所述目标表情序列中的目标表情与所述标准嘴型集合中的各标准嘴型之间的表情特征差异参数。

作为一种方式，在计算目标表情序列中的目标表情与标准嘴型集合中的各标准嘴型之间的表情特征差异参数之前，本实施例将先对目标表情序列进行预处理，以去除目标表情序列所包含的噪音，预处理包括对所述目标表情序列的表情特征进行归一化处理、平滑处理以及基于小波变换过滤处理。需要说明的是，预处理的各个流程的顺序不作限定，可以根据实际情况进行调整。

进一步的，可以针对每一个目标表情，计算其表情特征与标准嘴型集合中的各嘴型之间的表情特征差异参数，具体计算原理可以参照前述的范式距离，在此不再赘述。例如，可以计算目标表情序列中的表情特征与标准嘴型集合中的每一个嘴型的表情特征的范式距离，此时，该范式距离可以理解为表情特征差异参数。

步骤S390：将与最小的所述表情特征差异参数对应的标准嘴型作为与所述目标表情序列匹配的目标嘴型序列。

其中，将与最小的表情特征差异参数对应的标准嘴型作为与目标表情序列匹配的目标嘴型序列，可以提升检索与目标表情匹配的目标嘴型时的准确性。

可选的，下面以一个示例对上述内容进行说明：

假设目标人脸的脸部姿态特征向量为(30,67,150)，而该脸部姿态特征向量(30,67,150)属于脸部姿态类别Pose＝(p1,y2,r3)，进一步的，在嘴型数据库中查找(p1,y2,r3)对应的标准嘴型集合为mouth_set，那么可以将mouth_set中的各标准嘴型的表情特征与目标表情的表情特征进行比较，然后计算差异，将差异最小的对应的嘴型作为搜索结果，实现了加快嘴型搜索速度，提升用户体验。

步骤S400：将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置，得到第一人脸。

步骤S401：输出包括所述第一人脸的待处理图像。

如图11所示，示出了本申请再一实施例提供的图像处理方法的方法流程图，所述方法包括：

步骤S410：获取待处理图像，所述待处理图像包括目标人脸。

步骤S420：获取所述待处理图像对应的目标表情序列。

步骤S430：从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列。

步骤S440：以仿射变换和双向线性差值的方式将所述目标嘴型序列填充至对应的所述目标人脸的嘴部位置，得到第一人脸，并对所述嘴部位置的边缘进行泊松融合处理。

可选的，作为一种方式，对于待处理图像的每一帧图像，可以分别在检索召回的嘴型图片和背景图像中对应区域划分对应的凸多边形区域(嘴唇外轮廓)，然后以仿射变换和双向线性插值(其中，仿射变换和双向线性插值的具体实施过程本文中不再赘述，可以参照现有的技术流程进行对应实施)的方式将目标嘴型合成(例如，此处可以是填充)到目标人脸的嘴部位置去，并对凸多边形的边缘进行泊松融合处理。最后，将填充后的各帧背景图像以及对应的音频数据合成为用于系统输出的虚拟数字人视频，即包括第一人脸的待处理图像。

通过仿射变换和双向线性插值、以及泊松融合处理等方式，可以使得到的第一人脸图像更加优化，例如，更加逼真、生动有趣等。同时使得使得嘴部建模效果更接近于真人。

步骤S450：输出包括所述第一人脸的待处理图像。

如图12所示，示出了本申请实施例提供的图像处理装置500的结构框图，所述装置500运行于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备，所述装置500包括：

第一获取模块510，用于获取待处理图像，所述待处理图像包括目标人脸。

作为一种方式，第一获取模块可以包括：重构单元，用于基于第一目标表情重构人脸图像，得到目标人脸；替换单元，用于将所述目标人脸替换到包括人脸图像的背景图像中，得到待处理图像。

第二获取模块520，用于获取所述待处理图像对应的目标表情序列。

其中，目标表情序列可以包括具有时间先后顺序的、连续的目标表情。

作为一种方式，第二获取模块可以包括：表情序列处理单元，用于将所述第一目标表情对应的表情序列作为所述待处理图像对应的目标表情序列。

第三获取模块530，用于从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列。

作为一种方式，第三获取模块可以包括：脸部姿态获取单元，用于获取所述目标人脸的脸部姿态；脸部姿态类别确定单元，获取所述脸部姿态对应的脸部姿态类别；查找单元，用于在所述嘴型数据库中查找与所述脸部姿态类别对应的标准嘴型集合；参数计算单元，用于计算所述目标表情序列中的目标表情与所述标准嘴型集合中的各标准嘴型之间的表情特征差异参数；匹配单元，用于将与最小的所述表情特征差异参数对应的标准嘴型作为与所述目标表情序列匹配的目标嘴型序列。

可选的，第三获取模块还可以包括：预处理单元，用于在所述参数计算单元之前对所述目标表情序列进行预处理，以去除所述目标表情序列所包含的噪音，所述预处理包括对所述目标表情序列的表情特征进行归一化处理，平滑处理以及基于小波变换过滤处理。

处理模块540，用于将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置，得到第一人脸。

作为一种方式，处理模块可以包括：合成处理单元，用于以仿射变换和双向线性差值的方式将所述目标嘴型序列填充至对应的所述目标人脸的嘴部位置，得到第一人脸，并对所述嘴部位置的边缘进行泊松融合处理。

输出模块550，用于输出包括所述第一人脸的待处理图像。

作为一种方式，图像处理装置500还可以包括：第四获取模块，用于获取样本视频中的表情特征与嘴型图片，所述嘴型图片与所述表情特征对应关联存储；数据库构建模块，用于基于所述表情特征与所述嘴型图片构建嘴型数据库。

其中，作为一种实施方式，表情特征包括脸部姿态特征，那么，数据库构建模块可以包括：分桶操作单元，用于对所述脸部姿态特征的向量的3个维度进行分桶操作，以得到与所述3个维度分别对应的3个旋转类别集合；脸部姿态组合单元，用于从所述的3个旋转类别集合中各取一个旋转类别进行组合，得到对应的多个脸部姿态类别；嘴型图片划分单元，用于将所述嘴型图片基于与其对应的所述表情特征划分至对应的所述多个脸部姿态类别中；聚类处理单元，用于基于所述嘴型图片对应的嘴型局部特征对每个所述代表脸部姿态类别中包括的嘴型进行聚类处理，得到每个脸部姿态类别对应的标准嘴型集合；嘴型数据库构建单元，用于基于所述每个脸部姿态类别对应的标准嘴型集合构建嘴型数据库。

本实施例提供的图像处理装置，通过获取待处理图像，待处理图像包括目标人脸；获取待处理图像对应的目标表情序列；从预先建立的嘴型数据库中获取与目标表情序列匹配的目标嘴型序列；将目标嘴型序列合成至对应的目标人脸的嘴部位置，得到第一人脸；输出包括第一人脸的待处理图像。通过上述方式实现了在构建嘴型数据库的情况下，从嘴型数据库中检索与目标表情序列匹配的目标嘴型嘴型，进而利用该目标嘴型序列合成至对应的所述目标人脸的嘴部位置，可以实现对嘴部的细节填充，得到更加自然的图像的模拟人脸的视觉效果，提升用户视觉体验。

本申请实施例提供的图像处理装置用于实现前述方法实施例中相应的图像处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的视频处理装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图13，其示出了本申请实施例提供的一种终端设备200的结构框图。该终端设备200可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备200可以包括一个或多个如下部件：处理器202、存储器204以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器204中并被配置为由一个或多个处理器202执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器202可以包括一个或者多个处理核。处理器202利用各种接口和线路连接整个终端设备200内的各个部分，通过运行或执行存储在存储器204内的指令、程序、代码集或指令集，以及调用存储在存储器204内的数据，执行终端设备200的各种功能和处理数据。可选地，处理器202可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogicArray，PLA)中的至少一种硬件形式来实现。处理器202可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器202中，单独通过一块通信芯片进行实现。

存储器204可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器204可用于存储指令、程序、代码、代码集或指令集。存储器204可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备200在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质600包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的图像处理方法、装置、终端设备及存储介质，通过获取待处理图像，待处理图像包括目标人脸；获取待处理图像对应的目标表情序列；从预先建立的嘴型数据库中获取与目标表情序列匹配的目标嘴型序列；将目标嘴型序列合成至对应的目标人脸的嘴部位置，得到第一人脸；输出包括第一人脸的待处理图像。通过上述方式实现了在构建嘴型数据库的情况下，从嘴型数据库中检索与目标表情序列匹配的目标嘴型嘴型，进而利用该目标嘴型序列合成至对应的所述目标人脸的嘴部位置，可以实现对嘴部的细节填充，得到更加自然的图像的模拟人脸的视觉效果，提升用户视觉体验。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像，所述待处理图像包括目标人脸；

获取所述待处理图像对应的目标表情序列；

从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列；

将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置，得到第一人脸；

输出包括所述第一人脸的待处理图像。

2.根据权利要求1所述的方法，其特征在于，所述获取待处理图像的步骤包括：

基于第一目标表情重构人脸图像，得到目标人脸；

将所述目标人脸替换到包括人脸图像的背景图像中，得到待处理图像。

3.根据权利要求2所述的方法，其特征在于，所述获取所述待处理图像对应的目标表情序列的步骤包括：

将所述第一目标表情对应的表情序列作为所述待处理图像对应的目标表情序列。

4.根据权利要求1所述的方法，其特征在于，所述获取待处理图像的步骤之前包括：

获取样本视频中的表情特征与嘴型图片，所述嘴型图片与所述表情特征对应关联存储；

基于所述表情特征与所述嘴型图片构建嘴型数据库。

5.根据权利要求4所述的方法，其特征在于，所述表情特征包括脸部姿态特征，所述基于所述表情特征与所述嘴型图片构建嘴型数据库的步骤包括:

对所述脸部姿态特征的向量的3个维度进行分桶操作，以得到与所述3个维度分别对应的3个旋转类别集合；

从所述的3个旋转类别集合中各取一个旋转类别进行组合，得到对应的多个脸部姿态类别；

将所述嘴型图片基于与其对应的所述表情特征划分至对应的所述多个脸部姿态类别中；

基于所述嘴型图片对应的嘴型局部特征对每个脸部姿态类别中包括的嘴型进行聚类处理，得到每个脸部姿态类别对应的标准嘴型集合；

基于所述每个脸部姿态类别对应的标准嘴型集合构建嘴型数据库。

6.根据权利要求5所述的方法，其特征在于，所述从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列的步骤包括：

获取所述目标人脸的脸部姿态；

获取所述脸部姿态对应的脸部姿态类别；

在所述嘴型数据库中查找与所述脸部姿态类别对应的标准嘴型集合；

计算所述目标表情序列中的目标表情与所述标准嘴型集合中的各标准嘴型之间的表情特征差异参数；

将与最小的所述表情特征差异参数对应的标准嘴型作为与所述目标表情序列匹配的目标嘴型序列。

7.根据权利要求6所述的方法，其特征在于，所述计算所述目标表情序列中的目标表情与所述标准嘴型集合中的各标准嘴型之间的表情特征差异参数的步骤之前还包括：

对所述目标表情序列进行预处理，以去除所述目标表情序列所包含的噪音，所述预处理包括对所述目标表情序列的表情特征进行归一化处理、平滑处理以及基于小波变换过滤处理。

8.根据权利要求1所述的方法，其特征在于，所述将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置的步骤包括：

以仿射变换和双向线性差值的方式将所述目标嘴型序列填充至对应的所述目标人脸的嘴部位置，得到第一人脸，并对所述嘴部位置的边缘进行泊松融合处理。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述目标表情序列包括：具有时间先后顺序的、连续的目标表情。

10.一种图像处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取待处理图像，所述待处理图像包括目标人脸；

第二获取模块，用于获取所述待处理图像对应的目标表情序列；

第三获取模块，用于从预先建立的嘴型数据库中获取与所述目标表情序列匹配的目标嘴型序列；

处理模块，用于将所述目标嘴型序列合成至对应的所述目标人脸的嘴部位置，得到第一人脸；

输出模块，用于输出包括所述第一人脸的待处理图像。

11.一种终端设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-9任一项所述的方法。

12.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。