CN112102447A

CN112102447A - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN112102447A
Application number: CN202010962697.6A
Authority: CN
Inventors: 胡天舒; 郭汉奇; 马明明; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-18

Abstract

本申请公开了图像处理方法、装置、设备及存储介质，涉及图像处理、计算机视觉和深度学习领域。具体实现方案为：获取待输出的目标语音信号，并确定该目标语音信号对应的多帧唇形图像，唇形图像包含整个头部区域的相关信息；对于每一帧唇形图像，将唇形图像的目标区域，替换至静默模版图像，得到唇形图像对应的目标图像，目标区域包含下颚轮廓和唇形，多帧目标图像中下颚轮廓随唇形联动，从而可以提升虚拟对象说话时的自然度。

Description

图像处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术中的图像处理、计算机视觉和深度学习领域，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着人工智能的不断发展，虚拟人产生并被广泛应用于金融、娱乐、教育等多个行业。虚拟人是一个多模态的人脸/人体视频生成任务，在人机交互时，计算机可以在生成语音的同时，通过语音来驱动虚拟人的唇形，从而实现虚拟人说话的效果。

目前，较流行的唇形驱动方案是通过待输出的目标语音预测出相应的唇形，并在唇形素材库中搜索出相应的唇形图像；将唇形图像按顺序与虚拟人的静默模版图像逐张进行融合，覆盖掉静默模版图像中不说话的唇形，以达到虚拟人说话时唇动的效果。

发明内容

本申请提供了一种用于提升虚拟对象说话时的自然度的图像处理方法、装置、设备及存储介质。

根据本申请的一方面，提供了一种图像处理方法，包括：

获取待输出的目标语音信号；

确定目标语音信号对应的多帧唇形图像，唇形图像包含整个头部区域的相关信息；

对于每一帧唇形图像，将唇形图像的目标区域，替换至静默模版图像，得到唇形图像对应的目标图像，目标区域包含下颚轮廓和唇形。

根据本申请的另一方面，提供了一种图像处理装置，包括：

获取模块，用于获取待输出的目标语音信号；

确定模块，用于确定目标语音信号对应的多帧唇形图像，唇形图像包含整个头部区域的相关信息；

替换模块，用于对于每一帧唇形图像，将唇形图像的目标区域，替换至静默模版图像，得到唇形图像对应的目标图像，目标区域包含下颚轮廓和唇形。

根据第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一项所述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行如第一方面中任一项所述的方法。

根据本申请的技术解决了现有唇形驱动方案没有考虑唇形和下巴动作的强相关性，导致二者无法自然的联动，从而进一步导致虚拟人呈现出的自然度较差的问题，使得虚拟对象在说话时其下颚轮廓随唇形联动，达到提升虚拟对象说话时的自然度的目的。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是根据本申请第五实施例的示意图；

图6是用来实现本申请实施例的图像处理方法的电子设备的框图；

图7是可以实现本申请实施例的图像处理场景图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

虚拟人，例如对话式数字虚拟人，是当下非常火热的一款产品，可以应用在金融、客户、娱乐、教育等多个行业。虚拟人是一个多模态的人脸/人体视频生成任务。在人机交互时，计算机可以在生成语音的同时，通过该语音来驱动虚拟人的唇形，从而实现一个虚拟人说话的效果。在实际落地的过程中，为了突破模型推理速度慢这一瓶颈，离线生成唇形素材结合在线唇部融合的唇形驱动方案成为了流行。这种方法速度快，效果稳定，备受大家欢迎。

上述方案中，首先建立一个唇形素材库，这个唇形素材库可以覆盖所有可能的唇形。在实际应用过程中，可以通过语音预测出相应的唇形序列，该唇形序列可由唇形关键点构成，可以通过唇形素材库中的唇形序号表示，并在唇形素材库中搜索出相应的唇形图像，得到一个唇形图像序列。在得到唇形图像序列后，将其中唇形图像按顺序与虚拟人的静默模版图像逐张进行融合，覆盖掉静默模版图像中不说话的唇形，从而达到唇动的效果。其中，静默模版图像即自然状态下，不说话的虚拟人的图像。

但发明人经研究发现：上述方案在进行唇部融合的过程中，只能改变虚拟人的唇形，而无法根据不同的唇形对虚拟人的下巴进行编辑，导致呈现出来的效果是虚拟人说话时下巴无法跟随唇形联动，但又由于唇形动作和下巴动作的强相关，这使得虚拟人呈现出来的效果大打折扣。

因此，针对上述问题，本申请提供一种图像处理方法、装置、设备及存储介质，应用于人工智能技术领域中的计算机视觉、图像处理和深度学习，通过语音驱动虚拟对象在说话时下颚轮廓随唇形联动，来达到提升虚拟对象说话时的自然度的目的。

下面采用详细的实施例，来说明本申请如何进行图像处理。

图1是根据本申请第一实施例的示意图。本实施例提供一种图像处理方法，该方法可以由图像处理装置执行，其中，图像处理装置可以具体为电子设备，或者，图像处理装置可以内置于电子设备中，例如图像处理装置为电子设备内的芯片，等等。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理(Personal Digital Assistant，简称PDA，又可以称为“掌上电脑”)、服务器、刀片式服务器、大型计算机、和其它适合的计算机。

如图1所示，该图像处理方法包括以下步骤：

S101、电子设备获取待输出的目标语音信号。

基于应用场合的不同，电子设备获取待输出的目标语音信号的实现方式也是不同的。

示例地，人机对话，此过程中，电子设备在获取到用户的语音信号之后，对该语音信号进行响应，例如用户提出问题，电子设备对该问题进行答复。此时，电子设备首先基于用户的语音信号确定作为应答的目标语音信号。

或者，电子设备代替用户发声，可以理解，由电子设备输出用户要表达的意思。具体地，电子设备在获取到用户要表达的意思之后，生成目标语音信号。

本申请通过上述两种示例，解释说明电子设备获取目标语音信号的实现方式，但本申请不以此为限制，电子设备还可以通过其他方式获取目标语音信号。

S102、电子设备确定目标语音信号对应的多帧唇形图像，唇形图像包含整个头部区域的相关信息。

在实际应用中，电子设备根据目标语音信号确定其对应的多帧唇形图像，该操作可通过多种方式实现，具体可参考相关技术，此处不再赘述。本申请实施例与现有方案中电子设备确定目标语音信号对应的多帧唇形图像的区别在于：本申请实施例中的唇形图像是包含整个头部区域的相关信息的图像，而现有方案中的唇形图像仅包含唇形部分的相关信息。可以理解，本申请中的唇形图像所包含的内容有所增加，其涉及的区域为包含整个面部区域的头部区域，而非仅唇形部分。

其中，相关信息可以包括但不限于唇形对应的面部肌肉状态，以及面部轮廓(包含下颚)状态，这些信息都能够被完整的保留在唇形素材库中。

作为一种示例，从唇形素材库中搜索到目标语音信号对应的多帧唇形图像之后，可将这多帧唇形图像的标识按照先后顺序放至唇形图像序列中，以便于管理。其中，唇形图像的标识例如为该唇形图像在唇形素材库中的序号，等等。

S103、对于每一帧唇形图像，电子设备将该唇形图像的目标区域，替换至静默模版图像，得到该唇形图像对应的目标图像，目标区域包含下颚轮廓和唇形。

由于本申请要实现下颚轮廓随唇形的联动，因此，目标区域包含下颚轮廓和唇形，以达到在进行替换处理后，多帧目标图像中下颚轮廓随唇形联动的效果。

虚拟对象对应的静默模版图像是固定的，为虚拟对象不说话是的唇形图像。将经S102确定的多帧唇形图像中的每一帧唇形图像的目标区域，分别替换至该静默模版图像，得到多帧目标图像。其中，对每一帧唇形图像的处理，是相互独立的，因此可以采用并行处理的方式，即同时针对多帧唇形图像进行替换处理；也可以采用串行处理的方式，即对单帧唇形图像进行替换处理，处理完一帧之后再开始处理另一帧。显而易见地，并行处理方式，更可以提高处理效率，但对电子设备的算力要求也较高，因此，具体实现需根据实际情况进行设置。

本申请实施例，首先获取待输出的目标语音信号，并确定目标语音信号对应的多帧唇形图像，唇形图像包含整个头部区域的相关信息，之后，对于每一帧唇形图像，将该唇形图像的目标区域，替换至静默模版图像，得到该唇形图像对应的目标图像，目标区域包含下颚轮廓和唇形。由于目标区域不仅包含唇形，还包含下颚轮廓，因此，将该唇形图像的目标区域替换至静默模版图像之后得到的目标图像，其中同时包含有当前时刻对应的唇形及下颚轮廓，这样，在呈现多帧目标图像时即可实现下颚轮廓随唇形联动的效果，解决了虚拟人在说话时唇动但下巴不动的问题，增强了虚拟对象在说话时的面部自然度。

在上述实施例的基础上，一种具体实现中，将唇形图像的目标区域，替换至静默模版图像，得到唇形图像的目标图像，可以包括：将唇形图像的下颚轮廓，形变至静默模版图像的下颚区域；将唇形图像中的唇形，融合至静默模版图像中的唇部区域。该具体实现中，针对不同区域的不同替换处理。

其中，形变是指形状改变，所包含的内容不变。可以理解，下颚轮廓是一种形状，唇形表现为图像中的纹理，因此，这里采用不同的替换处理，从而提供一种具体的将唇形图像的目标区域替换至静默模版图像，得到唇形图像的目标图像的实现手段。

一些实施例中，将唇形图像的下颚轮廓，形变至静默模版图像的下颚区域，可以包括：根据面部关键点和预设的三角剖分模版，对静默模版图像和唇形图像的面部区域或下颚区域进行三角剖分处理；根据唇形图像的下颚轮廓相关的三角形网格，对静默模版图像的下颚区域相关的三角形网格进行仿射变换处理。

其中，面部关键点可以是眼部以下部位的关键点。可选地，仿射变换可以包括平移、旋转和缩放中的至少一种。

这里，使用面部关键点和预设的三角剖分模版，对静默模版图像和唇形图像的面部区域进行三角剖分处理，将面部区域划分成多个小的三角形网格。由于三角剖分模版是预设好的，两图像的三角剖分网格具有相同的拓扑结构，可以一一对应。

找到与下颚轮廓(或者整个面部轮廓)相关的三角形网格，对静默模版图像中的每一个相关网格进行仿射变换。这里的仿射变换是指通过图像处理的方法，让静默模版图像的三角形网格，形变成唇形图像中对应三角形网格。当所有相关三角网格都完成仿射变换后，静默模版图像中的下颚轮廓就与唇形图像中的下颚轮廓保持一致了。

需要说明的是，三角剖分模版中三角形网格的粒度越小，仿射变换处理后静默模版图像中的下颚轮廓与唇形图像中的下颚轮廓越接近。

进一步地，将唇形图像中的唇形，融合至静默模版图像中的唇部区域，可以包括：采用预设分割模型或者预设关键点，得到唇形图像中唇部区域的掩码(mask)；采用掩码，将唇形图像中的唇形融合到静默模版图像中。其中，掩码是包含第一值和第二值的二进制序列，第一值表示使用背景图片，第二值表示使用前景图片。示例地，第一值可以为"0"，第二值可以为"1"，但本申请不以此为限制。

在实际应用中，考虑到唇形图像与静默模版图像的尺寸可能的不同的，例如，唇形图像的尺寸可以为256*256；静默模版图像包含了一个全身或者半身的虚拟人形象，尺寸可以为540*940。因此，在进行替换处理之前，还需要对图像与静默模版图像进行对齐处理。

图2是根据本申请第二实施例的示意图。如图2所示，图像处理方法可以包括：

S201、电子设备获取待输出的目标语音信号。

该步骤与S101类似，此处不再赘述。

S202、电子设备确定目标语音信号对应的多帧唇形图像，唇形图像包含整个头部区域的相关信息。

该步骤与S102类似，此处不再赘述。

S203、电子设备将唇形图像中的头部区域与静默模版图像中的头部区域进行对齐，得到对齐图像。

示例性地，电子设备基于面部关键点，将唇形图像中的头部区域与静默模版图像中的头部区域进行对齐，得到一张对齐后的图像(全文中统称为对齐图像)。对齐图像的尺寸与静默模版图像的尺寸一致，对齐图像中包含的内容为唇形图像中的相关信息，例如头部区域的位置、姿态等，头部区域的大小与静默模版图像中的头部区域大小保持一致。

可选地，在对齐之后，将对齐图像中除头部区域之外的其他的区域用黑色进行填充，以便于区分。

对于每一帧对齐图像，电子设备执行以下处理：

S204、电子设备将对齐图像的下颚轮廓，形变至静默模版图像的下颚区域。

S205、电子设备将对齐图像中的唇形，融合至静默模版图像中的唇部区域。

电子设备将该对齐图像的目标区域，替换至静默模版图像，得到该唇形图像对应的目标图像，目标区域包含下颚轮廓和唇形。

该步骤与S103类似，此处不再赘述。

该实施例中，S204至S205是依序进行的。为进一步提升处理效率，也可以将S204以及S205对应的步骤进行并行处理，如图3所示。

通过上述实施例，电子设备获得了目标语音信号对应的多帧目标图像，在此基础上，电子设备使用目标语音信号驱动虚拟对象在说话时下颚轮廓随唇形联动。也就是说，上述图像处理方法还可以包括：在输出目标语音信号的过程中，采用对应目标图像渲染虚拟对象的目标区域。

图4是根据本申请第四实施例的示意图。该实施例提供一种图像处理装置。如图4所示，该图像处理装置400包括：获取模块401、确定模块402和替换模块403。其中：

获取模块401，用于获取待输出的目标语音信号。

确定模块402，用于确定目标语音信号对应的多帧唇形图像，唇形图像包含整个头部区域的相关信息。

替换模块403，用于对于每一帧唇形图像，将唇形图像的目标区域，替换至静默模版图像，得到唇形图像对应的目标图像。其中，目标区域包含下颚轮廓和唇形。

本实施例提供的图像处理装置，可用于执行上述的方法实施例，其实现方式和技术效果类似，本实施例此处不再赘述。

图5是根据本申请第五实施例的示意图。参考图5，在图4所示结构的基础上，进一步地，替换模块403可以包括：

第一替换单元4031，用于将唇形图像的下颚轮廓，形变至静默模版图像的下颚区域；

第二替换单元4032，用于将唇形图像中的唇形，融合至静默模版图像中的唇部。

一些实施例中，第一替换单元4031可以具体用于：

根据面部关键点和预设的三角剖分模版，对静默模版图像和唇形图像的面部区域或下颚区域进行三角剖分处理；

根据唇形图像的下颚轮廓相关的三角形网格，对静默模版图像的下颚区域相关的三角形网格进行仿射变换处理。

其中，仿射变换可以包括平移、旋转和缩放等处理中的至少一种。

可选地，第二替换单元4032可以具体用于：

采用预设分割模型或者预设关键点，得到唇形图像中唇部区域的掩码；

采用掩码，将唇形图像中的唇形融合到静默模版图像中。

进一步地，掩码是包含第一值和第二值的二进制序列，例如图片。其中，第一值表示使用背景图片，第二值表示使用前景图片。示例性地，第一值为0，第二值为1，但本申请不以此为限。

在上述基础上，可选地，图像处理装置500还可以包括：

对齐模块404，用于将唇形图像中的头部区域与静默模版图像中的头部区域进行对齐，得到对齐图像。相应地，替换模块403可具体用于：将对齐图像的目标区域，替换至静默模版图像，得到唇形图像对应的目标图像。

一些实施例中，图像处理装置500还可以包括：

输出模块405，用于输出目标语音信号；

显示模块406，用于在输出目标语音信号的过程中，采用对应目标图像渲染虚拟对象的目标区域。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的图像处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的图像处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图像处理方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图像处理方法对应的程序指令/模块(例如，附图4所示的获取模块401、确定模块402和替换模块403)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图像处理的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至图像处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行图像处理方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与图像处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

图7是可以实现本申请实施例的图像处理场景图。如图7所示，电子设备701用于执行如上任一方法实施例所述的图像处理方法。示例性地，用户与电子设备701进行人机交互，例如代替用户发声或人机对话。

对于代替用户发声，可以理解，由电子设备701输出用户要表达的意思。具体地，电子设备701在获取到用户要表达的目标语音信号之后，执行上述图像处理方法，并在执行完上述图像处理方法之后，输出该目标语音信号，并在输出该目标语音信号的过程中对应显示目标图像。

对于人机对话，可以理解，电子设备701在获取到用户的语音信号之后，对该语音信号进行响应，例如用户提出问题，电子设备701进行答复。此时，电子设备701首先基于语音信号确定作为应答的目标语音信号，之后，执行上述图像处理方法，并在执行完上述图像处理方法之后，输出目标该语音信号，并在输出该目标语音信号的过程中对应显示目标图像。

在图7中，电子设备701以笔记本电脑为例，笔记本电脑控制虚拟人与用户进行对话为例说明，但本申请实施例不以此为限制。示例地，用户询问“你叫什么名字”，虚拟人答复“我是小A”。

根据本申请实施例的技术方案，首先获取待输出的目标语音信号，并确定目标语音信号对应的多帧唇形图像，唇形图像包含整个头部区域的相关信息，之后，对于每一帧唇形图像，将该唇形图像的目标区域，替换至静默模版图像，得到该唇形图像对应的目标图像，目标区域包含下颚轮廓和唇形。由于目标区域不仅包含唇形，还包含下颚轮廓，因此，将该唇形图像的目标区域替换至静默模版图像之后得到的目标图像，其中同时包含有当前时刻对应的唇形及下颚轮廓，这样，在呈现多帧目标图像时即可实现下颚轮廓随唇形联动的效果，解决了虚拟人在说话时唇动但下巴不动的问题，增强了虚拟对象在说话时的面部自然度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像处理方法，包括：

获取待输出的目标语音信号；

确定所述目标语音信号对应的多帧唇形图像，所述唇形图像包含整个头部区域的相关信息；

对于每一帧唇形图像，将所述唇形图像的目标区域，替换至静默模版图像，得到所述唇形图像对应的目标图像，所述目标区域包含下颚轮廓和唇形，多帧所述目标图像中下颚轮廓随唇形联动。

2.根据权利要求1所述的方法，其中，所述将所述唇形图像的目标区域，替换至静默模版图像，得到所述唇形图像的目标图像，包括：

将所述唇形图像的下颚轮廓，形变至所述静默模版图像的下颚区域；

将所述唇形图像中的唇形，融合至所述静默模版图像中的唇部区域。

3.根据权利要求2所述的方法，其中，所述将所述唇形图像的下颚轮廓，形变至所述静默模版图像的下颚区域，包括：

根据面部关键点和预设的三角剖分模版，对静默模版图像和所述唇形图像的面部区域或下颚区域进行三角剖分处理；

根据所述唇形图像的下颚轮廓相关的三角形网格，对所述静默模版图像的下颚区域相关的三角形网格进行仿射变换处理。

4.根据权利要求3所述的方法，所述仿射变换包括平移、旋转和缩放中的至少一种。

5.根据权利要求2所述的方法，其中，所述将所述唇形图像中的唇形，融合至所述静默模版图像中的唇部区域，包括：

采用预设分割模型或者预设关键点，得到所述唇形图像中唇部区域的掩码；

采用所述掩码，将所述唇形图像中的唇形融合到所述静默模版图像中。

6.根据权利要求5所述的方法，所述掩码是包含第一值和第二值的二进制序列，所述第一值表示使用背景图片，所述第二值表示使用前景图片。

7.根据权利要求1至6中任一项所述的方法，还包括：

将所述唇形图像中的头部区域与静默模版图像中的头部区域进行对齐，得到对齐图像；

所述将所述唇形图像的目标区域，替换至静默模版图像，得到所述唇形图像对应的目标图像，包括：将所述对齐图像的目标区域，替换至静默模版图像，得到所述唇形图像对应的目标图像。

8.根据权利要求1至6中任一项所述的方法，还包括：

在输出所述目标语音信号的过程中，采用对应目标图像渲染虚拟对象的所述目标区域。

9.一种图像处理装置，包括：

获取模块，用于获取待输出的目标语音信号；

确定模块，用于确定所述目标语音信号对应的多帧唇形图像，所述唇形图像包含整个头部区域的相关信息；

替换模块，用于对于每一帧唇形图像，将所述唇形图像的目标区域，替换至静默模版图像，得到所述唇形图像对应的目标图像，所述目标区域包含下颚轮廓和唇形，多帧所述目标图像中下颚轮廓随唇形联动。

10.根据权利要求9所述的装置，其中，所述替换模块，包括：

第一替换单元，用于将所述唇形图像的下颚轮廓，形变至所述静默模版图像的下颚区域；

第二替换单元，用于将所述唇形图像中的唇形，融合至所述静默模版图像中的唇部区域。

11.根据权利要求10所述的装置，其中，所述第一替换单元具体用于：

12.根据权利要求11所述的装置，所述仿射变换包括平移、旋转和缩放中的至少一种。

13.根据权利要求10所述的装置，其中，所述第二替换单元具体用于：

14.根据权利要求13所述的装置，所述掩码是包含第一值和第二值的二进制序列，所述第一值表示使用背景图片，所述第二值表示使用前景图片。

15.根据权利要求9至14中任一项所述的装置，还包括：

对齐模块，用于将所述唇形图像中的头部区域与静默模版图像中的头部区域进行对齐，得到对齐图像；

所述替换模块具体用于：将所述对齐图像的目标区域，替换至静默模版图像，得到所述唇形图像对应的目标图像。

16.根据权利要求9至14中任一项所述的装置，还包括：

输出模块，用于输出所述目标语音信号；

显示模块，用于在输出所述目标语音信号的过程中，采用对应目标图像渲染虚拟对象的所述目标区域。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1至8中任一项所述的方法。