CN109949390A

CN109949390A - 图像生成方法、动态表情图像生成方法及装置

Info

Publication number: CN109949390A
Application number: CN201711391032.9A
Authority: CN
Inventors: 梁睿思; 李强; 张雨涵; 刘晓峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2019-06-28
Anticipated expiration: 2037-12-21
Also published as: WO2019120131A1; CN109949390B

Abstract

本申请公开了一种图像生成方法、动态表情图像生成方法及装置，该方法包括：获取第一图像和文字序列；识别所述第一图像中的嘴部图像区域；根据所述n个文字的发音嘴型，对所述嘴部图像区域进行变形；根据所述变形后的所述嘴部图像区域生成第二图像。本申请能够根据用户提供的文字的发音嘴型来调整第一图像中的嘴部图像区域，进而生成第二图像，由于不局限于终端提供的制作素材，可以利用用户自行提供的第一图像和/或文字序列，因此本申请实施例能够适应更多场景，有利于用户自行制作出各种各样的图像。

Description

图像生成方法、动态表情图像生成方法及装置

技术领域

本申请实施例涉及图像处理领域，特别涉及一种图像生成方法、动态表情图像生成方法及装置。

背景技术

表情图像是即时聊天程序中使用非常广泛的一种聊天素材。表情图像分为静态表情图像和动态表情图像两种。

美国苹果公司在第11代苹果操作系统上推出了一种新的动态表情图像，称为Animoji。该动态表情图像提供了多种三维动物头像，即时通讯程序可以基于该三维动物头像，根据摄像头拍摄到的人脸表情实时生成动态表情图像。也即，当手机的摄像头捕捉到用户的人脸表情后，手机根据该人脸表情对三维动物头像进行表情同步，从而生成与用户人脸具有相同或相似表情且呈现为动物形态的动态表情图像。用户可以在即时聊天程序中将该动态表情图像发送给其他用户。

这种实时生成的动态表情图像，需要基于即时通讯程序中预先提供的支持该功能的三维动物头像，应用范围有限。

发明内容

本申请实施例提供了一种图像生成方法、动态表情图像生成方法及装置，可以解决相关技术中的表情图像生成方法，需要基于即时通讯程序中预先提供的支持该功能的三维动物头像，应用范围有限的问题。所述技术方案如下：

一方面，提供了一种图像生成方法，所述方法包括：

获取第一图像和文字；

识别所述第一图像中的嘴部图像区域；

根据所述文字的发音嘴型，对所述嘴部图像区域进行变形；

根据变形后的所述嘴部图像区域生成第二图像。

另一方面，提供了一种动态表情图像生成方法，所述方法包括：

获取静态图像，所述静态图像是被上传的图像或被选择的图像；

接收输入的文字序列，所述文字序列包括按序排列的n个文字，n为大于1的正整数；

提取所述静态图像中的嘴部图像区域

根据所述嘴部图像区域和所述n个文字生成动态表情图像，所述动态表情图像包括n组图像帧，所述n组图像帧中的嘴部图像区域与所述n个文字的发音嘴型按序对应。

获取动态图像，所述动态图像包括n组图像帧，每组图像帧包括一个或多个连续的图像帧；

识别所述动态图像的n组图像帧中的嘴部图像区域；

根据所述n组图像帧中的嘴部图像区域和所述n个文字生成动态表情图像，所述动态表情图像包括n组图像帧，所述n组图像帧中的嘴部图像区域与所述n个文字的发音嘴型按序对应。

另一方面，提供了一种图像生成装置，所述装置包括:

获取模块，用于获取第一图像和文字序列，所述文字序列包括按序排列的n个文字，n为正整数；

识别模块，用于识别所述第一图像中的嘴部图像区域；

变形模块，用于根据所述文字的发音嘴型，对所述嘴部图像区域进行变形；

生成模块，用于根据变形后的所述嘴部图像区域生成第二图像。

另一方面，提供了一种动态表情图像生成装置，所述装置包括：

获取模块，用于获取静态图像，所述静态图像是被上传的图像或被选择的图像；

所述获取模块，还用于接收输入的文字序列，所述文字序列包括按序排列的n个文字，n为大于1的正整数；

提取模块，还用于识别所述第一图像中的嘴部图像区域；

生成模块，用于根据所述嘴部图像区域和所述n个文字生成动态表情图像，所述动态表情图像包括n组图像帧，所述n组图像帧中的嘴部图像区域与所述n个文字的发音嘴型按序对应。

获取模块，用于获取动态图像，所述动态图像包括n组图像帧，每组图像帧包括一个或多个连续的图像帧；

提取模块，还用于识别所述动态图像的n组图像帧中的嘴部图像区域；

生成模块，用于根据所述n组图像帧中的嘴部图像区域和所述n个文字生成动态表情图像，所述动态表情图像包括n组图像帧，所述n组图像帧中的嘴部图像区域与所述n个文字的发音嘴型按序对应。

另一方面，提供了一种终端，所述终端包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的图像生成方法，或者，如上述方面所述的动态表情图像生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的图像生成方法，或者，如上述方面所述的动态表情图像生成方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现如上述方面所述的图像生成方法，或者，如上述方面所述的动态表情图像生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过由用户自行提供第一图像和/或文字，识别第一图像中的嘴部图像区域；根据该文字的发音嘴型来调整第一图像中的嘴部图像区域，进而生成第二图像，由于不局限于终端提供的制作素材，可以利用用户自行提供的第一图像和/或文字，因此本申请实施例能够适应更多场景，有利于用户自行制作出各种各样的图像。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的图像生成方法的方法流程图；

图2是本申请一个示例性实施例提供的图像生成方法的原理示意图；

图3是本申请一个示例性实施例提供的图像生成方法的方法流程图；

图4是本申请一个示例性实施例提供的嘴部几何信息的示意图；

图5是本申请一个示例性实施例提供的嘴部骨骼的示意图；

图6是本申请一个示例性实施例提供的发音嘴型的示意图；

图7是本申请一个示例性实施例提供的嘴部图像区域进行变形的示意图；

图8是本申请一个示例性实施例提供的嘴部骨骼生成步骤的子步骤流程图；

图9是本申请一个示例性实施例提供的嘴角控制点的识别示意图；

图10是本申请一个示例性实施例提供的嘴唇控制点的识别示意图；

图11是本申请另一个示例性实施例提供的图像生成方法的方法流程图；

图12是图11所示实施例提供的图像生成方法的原理示意图；

图13是本申请另一个示例性实施例提供的图像生成方法的方法流程图；

图14是本申请一个示例性实施例提供的即时通讯系统的结构框图；

图15是本申请一个示例性实施例提供的动态表情图像生成方法的方法流程图；

图16是本申请一个示例性实施例提供的动态表情图像生成方法的方法流程图；

图17是图16所示实施例提供的动态表情图像生成方法在一种示意性实施时的界面示意图；

图18是图16所示实施例提供的动态表情图像生成方法在一种示意性实施时的界面示意图；

图19是图16所示实施例提供的动态表情图像生成方法在一种示意性实施时的界面示意图；

图20是图16所示实施例提供的动态表情图像生成方法在一种示意性实施时的界面示意图；

图21是本申请一个示例性实施例提供的动态表情图像生成方法的方法流程图；

图22是本申请一个示例性实施例提供的图像生成装置的框图；

图23是本申请一个示例性实施例提供的动态表情图像生成装置的框图；

图24是本申请一个示例性实施例提供的动态表情图像生成装置的框图；

图25是本申请一个示例性实施例提供的终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例可以应用于终端中，该终端可以是手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

可选地，该终端中安装有即时通讯程序、社交类应用程序、图像处理程序、表情生成程序、表情管理程序中的至少一种应用程序。

图1示出了本申请一个示例性实施例提供的图像生成方法的流程图。本实施例以该方法应用于终端中来举例说明。该方法包括：

步骤101，获取第一图像和文字序列，该文字序列包括按序排列的n个文字；

可选地，第一图像是二维的静态图像，第一图像中包括嘴部图像区域。比如，第一图像是具有真人人脸区域的静态图像；又比如，第一图像是具有动漫人脸区域的静态图像；再比如，第一图像是具有简笔画人脸区域的静态图像；还比如，第一图像是不包括完整人脸但包括嘴部区域的静态图像。

可选地，文字序列包括按序排列的n个文字，n为正整数。文字可以是英文字母、数字、汉字、拼音以及其它语种文字中的至少一种。文字可以包括一个文字，比如“嗯”，也可以是多个文字组成的文字序列，比如“有话快说”。

步骤102，识别第一图像中的嘴部图像区域；

终端识别出第一图像中的嘴部图像区域。可选地，终端对第一图像进行人脸识别，识别出第一图像中的嘴部图像区域。嘴部图像区域可以是仅包括嘴唇部位的嘴唇图像区域，也可以是包括嘴唇部位的五官图像区域，还可以是包括嘴唇部位的人脸图像区域。

步骤103，根据n个文字的发音嘴型，对嘴部图像区域进行变形；

由于不同的文字可能具有不同的发音嘴型，终端可以根据用户提供的文字的发音嘴型，对识别出的嘴部图像区域进行变形。具体地，终端可以根据用户提供的文字的发音嘴型，对嘴部图像区域中的嘴唇进行变形。

当文字为至少两个时，终端可以根据每个文字的发音嘴型，分别对嘴部图像区域进行变形。

步骤104，根据变形后的嘴部图像区域，生成第二图像。

可选地，终端将第一图像中变形前的嘴部图像区域替换为变形后的嘴部图像区域，然后根据变形后的第一图像生成第二图像。或者，将变形后的嘴部图像区域与其它图像中的嘴部图像区域进行替换，生成第二图像。

可选地，当n≥2时，变形后的嘴部图像区域也为n个。终端可以根据第一图像和n个变形后的嘴部图像区域，得到n个变形后的第一图像。然后根据n个变形后的第一图像生成一张第二图像，第二图像可以是GIF(Graphics InterchangeFormat，图像互换格式)动态图像。

示意性的，如图2所示，假设用户输入的文字是“有话快说”，并且提供了一张包括卡通人物的第一图像，终端根据文字“有”对第一图像的嘴部图像区域变形，得到变形后的第一图像21；根据文字“话”对第一图像的嘴部图像区域变形，得到变形后的第一图像22；根据文字“快”对第一图像的嘴部图像区域变形，得到变形后的第一图像23；根据文字“说”对第一图像的嘴部图像区域变形，得到变形后的第一图像24。

然后，终端可以根据四张变形后的第一图像21～24，生成一张动态的第二图像。该第二图像可以作为表情图像在即时聊天程序中使用。

综上所述，本实施例提供的图像生成方法，通过由用户自行提供第一图像和/或文字序列，识别第一图像中的嘴部图像区域；根据该n个文字的发音嘴型来调整第一图像中的嘴部图像区域，进而生成第二图像，由于不局限于终端提供的制作素材，可以利用用户自行提供的第一图像和/或文字序列，因此本申请实施例能够适应更多场景，有利于用户自行制作出各种各样的图像。

人类嘴部进行说话时，视觉上的变化是上下嘴唇的张合和收缩。为了模拟说话效果，需要使第一图像中的嘴部图像区域进行变形。本申请实施例使用骨骼动画技术，对第一图像中的嘴部进行建模，提取出嘴部图像区域中的嘴部骨骼和嘴部蒙皮，控制嘴部骨骼的运动带动嘴部蒙皮的运动。具体参考如下实施例：

图3示出了本申请一个示例性实施例提供的图像生成方法的方法流程图。本实施例以该图像生成方法应用于终端中来举例说明。该方法包括：

步骤301，获取第一图像和文字序列，该文字序列包括按序排列的n个文字；

第一图像是用户上传或选择的图像。在一种可能的实现方式中，终端向用户提供用户交互接口(User Interface，UI)界面，该UI界面用于提供第一图像的上传入口，用户通过该上传入口上传第一图像；在另一种可能的实现方式中，终端提供了多张候选图像供用户选择，用户可以手动选择一张候选图像作为第一图像。可选地，第一图像是二维的静态图像，第一图像中包括嘴部图像区域。

可选地，文字序列包括按序排列的n个文字，n为正整数。文字可以是英文字母、数字、汉字、拼音以及其它语种文字中的至少一种。在一种可能的实现方式中，终端向用户提供UI界面，该UI界面用于提供文字序列的输入入口。在另一种可能的实现方式中，终端提供了多组候选文字供用户选择，用户可以手动选择一组候选文字作为本次使用的文字序列。

也即，第一图像和/或文字序列是由用户自定义的。终端可以在同一个UI界面上获取第一图像和文字序列，也可以在不同的UI界面以及不同的时间上获取第一图像和文字序列。

步骤302，识别第一图像中的嘴部几何信息；

由于第一图像对终端来讲，可能是完全未知的图像。在处理第一图像时，终端通过人脸识别技术，识别第一图像中的嘴部几何信息。

可选地，嘴部几何信息包括若干个相连的二维特征点，该若干个相连的二维特征点用于描述嘴部外轮廓和嘴部内轮廓。

参考图4，嘴部几何信息包括22个二维特征点，位于外圈的12个二维特征点用来描述嘴部外轮廓，位于内圈的10个二维特征点用来描述嘴部内轮廓。22个二维特征点包括：位于嘴部外轮廓的第一左嘴角点41、嘴部外轮廓的第一右嘴角点42、嘴部内轮廓的第二左嘴角点43和嘴部内轮廓的第二右嘴角点44。嘴部几何信息的描述方式不局限于该种描述方式，例如，二维特征点的数量可以不是22个。可根据使用的人脸识别技术进行调整，只要能够对嘴部外轮廓和嘴部内轮廓的形状进行描述即可。

步骤303，根据嘴部几何信息生成嘴部图像区域的网格模型；

终端采用骨骼动画技术对嘴部图像区域进行建模。该网格模型包括嘴部骨骼和嘴部蒙皮。其中，嘴部骨骼是用于控制嘴部动作的骨架(Skeleton)，嘴部蒙皮是用来描绘嘴部形状的多边形网格。该多边形网格可以是若干个相邻的三角形所构成的网格，该多边形网格中包括多个顶点，也即各个三角形的顶点。

在一个示意性的例子中，参考图5，嘴部图像区域的网格模型包括:嘴部骨骼51～56和嘴部蒙皮57。其中，嘴部骨骼包括6个控制点：左嘴角控制点51、右嘴角控制点52、第一上嘴唇控制点53、第二上嘴唇控制点54、第一下嘴唇控制点55和第二下嘴唇控制点56。这6个控制点依次相连，可以得到6根骨骼，每根骨骼可以称之为一个控制柄。

可选地，本实施例中以上嘴唇控制点和下嘴唇控制点均为2个来举例说明，但对此不加以限定。在其它实施例中，上嘴唇控制点和下嘴唇控制点也可以为其它数量，比如3个或4个。上嘴唇控制点的个数与下嘴唇控制点的个数可以相同，也可以不相同。

嘴部蒙皮57可以包括多个相邻排列的三角形，三角形是图形渲染库中的基础几何图形，将嘴部蒙皮57表示为由多个三角形排列成的网格图形，有利于图形渲染计算。

可选地，终端在识别出嘴部几何信息后，通过三维建模工具制作出嘴部蒙皮57，三维建模工具可以是3Ds Max、Maya。或者，终端通过德劳内三角化(DelaunayTriangulation)算法生成嘴部蒙皮。

步骤304，根据n个文字对应的发音嘴型，改变嘴部骨骼的位置；

当n≥2时，终端根据每个文字对应的发音嘴型，分别改变嘴部骨骼的位置。

终端内预先记录有文字与发音嘴型之间的第一对应关系，以及发音嘴型和嘴部骨骼之间的第二对应关系。

人类语言中的发音可大致分为元音和辅音。辅音大多通过牙齿和舌头发出，在视觉上不能明显观察到，而元音的发音可以明显观察到嘴唇的动作变化。

在一个示意性的实施例中，将发音嘴型简化归纳为a、e、i、o、u五类。终端可以根据每个汉字的注音中的元音，将汉字与这五类发音嘴型中的一类发音嘴型进行对应，得到第一对应关系。

在一个示意性的实施例中，将嘴型变化简化为两个变形维度：嘴唇开合维度和嘴角缩放维度。嘴唇开合维度表示上嘴唇控制点和下嘴唇控制点之间的距离，比如第一上嘴唇控制点53和第一下嘴唇控制点55之间的距离，以及第二上嘴唇控制点54和第二下嘴唇控制点56之间的距离。嘴角缩放维度表示左嘴唇控制点和右嘴唇控制点之间收缩或扩大的程度。

可选地，嘴唇开合维度采用嘴唇开合参数表示，该嘴唇开合参数的取值越小，上下嘴唇的开合程度越合并；该嘴唇开合参数的取值越大，上下嘴唇的开合程度越张开。

可选地，嘴唇缩放维度采用嘴唇缩放参数表示，该嘴唇缩放参数的取值越小，左右嘴角之间越收缩；该嘴唇缩放参数的取值越大，左右嘴角之间越扩大。

表一示意性的示出了发音嘴型和嘴部骨骼之间的第二对应关系。

表一

发音嘴型	嘴唇开合参数	嘴唇缩放参数
			a	1.5	-0.2
e	0.2	0.3
			i	1.5	-0.5
o	-0.1	0.5
			u	0.3	-0.5

上述表一示出的第二对应关系的嘴型示意图，可以参考图6。

终端可以根据第一对应关系确定出文字对应的发音嘴型，然后根据第二对应关系确定出该发音嘴型对应的嘴部骨骼的嘴唇开合参数和嘴唇缩放参数。最后，根据嘴唇开合参数和嘴唇缩放参数对嘴部骨骼的位置进行改变。

示意性的，嘴部骨骼包括：上嘴唇控制点、下嘴唇控制点、左嘴角控制点和右嘴角控制点。终端根据文字对应的发音嘴型确定嘴唇开合参数和嘴角缩放参数；根据嘴唇开合参数调整上嘴唇控制点和下嘴唇控制点之间的距离；根据嘴角缩放参数调整左嘴角控制点和右嘴角控制点之间的距离。

步骤305，根据改变后的嘴部骨骼的位置，对嘴部蒙皮中的各个顶点进行仿射变换，得到变形后的嘴部图像区域；

嘴部蒙皮包括具有多个多边形的网格，该多边形具有多个顶点。嘴部骨骼用于在嘴部图像区域的变形过程中，控制每个顶点的位置。也即，嘴部骨骼中的若干个骨骼的位置变化，会带动每个顶点发生位移。

当嘴部骨骼中的骨骼发生位置变化时，这些顶点需要发生的位移大小是不同的。也即每个顶点具有各自的蒙皮权重(weight)，该蒙皮权重用于表示各个控制点的变换对顶点变换的贡献程度。可选地，每个顶点的蒙皮权重可以通过有界双调和权重(BoundedBiharmonic Weights)方法或移动最小二乘法(Moving Least Square)计算得到。

终端在得到改变后的嘴部骨骼的位置后，可以获取多边形网格中的各个顶点的蒙皮权重；根据改变后的嘴部骨骼的位置，对各个顶点根据各自对应的蒙皮权重进行仿射变换，得到变形后的嘴部图像区域。

示意性的，在二维空间中，定义为嘴部蒙皮的体积域。嘴部骨骼中的每个骨骼视为一个控制柄，若干控制柄表示为j＝1,...,m，定义T_j为每个控制柄H_j的仿射变换(Affine Transformation)，则对于域Ω内的所有顶点p∈Ω，根据蒙皮权重进行放射变换后的顶点p’为：

其中为控制柄H_j的权重函数，用来表示控制柄H_j对嘴部蒙皮中各个顶点的权重。

可选地，上述嘴部变形过程可以采用线性混合蒙皮(Linear BlengdingSkinning，LBS)算法，或对偶四元数(Dual Quaternion Blending)算法等。

可选地，图7示出了一种对嘴部图像区域进行变形的示意图。变形前的嘴部图像区域71是呈张开形状的嘴部图像区域，通过基于嘴部骨骼的运动对嘴部蒙皮的各个顶点进行放射变换，得到变形后的嘴部图像区域72。该变形后的嘴部图像区域是呈闭合形状的嘴部图像区域。

可选地，终端根据每个文字分别对变形前的嘴部图像区域进行变形。当文字为多个时，则变形后的嘴部图像区域也会有多个。也即当文字为n个文字组成的文字序列时，终端根据n个文字依次进行嘴部变形，最终得到n个变形后的嘴部图像区域。可选地，当存在两个文字的发音嘴型相同时，终端对这两个文字仅执行一次嘴部变形过程，以减少不必要的冗余计算。

步骤306，根据变形后的嘴部图像区域生成第二图像。

可选地，当文字为1个文字时，终端将第一图像中变形前的嘴部图像区域替换为变形后的嘴部图像区域，然后根据变形后的第一图像生成第二图像。此时，第二图像可以是二维的静态图像。

可选地，当文字包括n个文字时，n为大于1的正整数，则终端将第一图像中变形前的嘴部图像区域替换为根据第i个文字进行变形后的嘴部图像区域，得到第i个变形后的第一图像，1≤i≤n；终端将n个变形后的第一图像按照动态图像格式进行封装，得到符合动态图像格式的第二图像。可选地，该动态图像格式可以是GIF格式或者其它动态图像格式，本实施例对此不加以限定。

可选地，终端在将n个变形后的第一图像按照动态图像格式进行封装之前，还可以对n张变形后的第一图形进行其它处理。每张变形后的第一图形对应的其它处理可以是相同或不同的。

示意性的，对第i个变形后的第一图像进行其它处理，该其它处理包括但不限于：添加第i个文字、添加第1个至第i个文字、在空白区域上添加与第i个文字对应的图形元素、在变形后的嘴部图像区域上添加与第i个文字对应的图像元素中的至少一种。

综上所述，本实施例提供的图像生成方法，通过嘴部骨骼和嘴部蒙皮对第一图像中的嘴部图像区域进行建模，然后根据文字的发音嘴型改变嘴部骨骼，由嘴部骨骼的位置带动嘴部蒙皮发生变形，从而能够实现较为逼真的嘴部说话效果。

由于第一图像和/或文字序列可以由用户自行选择或上传，所以根据用户的意图生成多种多样的第二图像。

由于第一图像可以是任意具有嘴部图像区域的静态图像，所以本实施例提供的图像生成方法可以适用的场景非常广泛，而且减少了后续维护的复杂性。

在基于图3的可选实施例中，提供了一种利用嘴部几何信息自动生成嘴部骨骼的实现方式。也即，上述步骤303可以包括如下步骤3031至步骤3034，如图8所示：

步骤3031，将嘴部外轮廓的第一左嘴角点和第一右嘴角点相连，得到嘴角连线；

可选地，终端将嘴部外轮廓上x坐标最小的点确定为第一左嘴角点，将嘴部外轮廓上x坐标最大的点确定为第一右嘴角点。或者，终端通过对嘴部外轮廓进行角点(极值点)检测，得到局部曲率最大的两个点，这两个点分别为嘴部外轮廓的第一左嘴角点和第一右嘴角点。或者，人脸识别算法的输出结果中已经明确给出了第一左嘴角点和第一右嘴角点。

结合参考图9，终端将第一左嘴角81和第一右嘴角点82相连，得到嘴角连线。该嘴角连线可以是以第一左嘴角点81和第一右嘴角点82为端点的线段。

步骤3032，根据嘴角连线和嘴部内轮廓的交点，生成左嘴角控制点和右嘴角控制点；

可选地，嘴角连线与嘴部内轮廓存在两个交点。终端根据嘴角连线与嘴部内轮廓的交点，得到嘴部内轮廓的第二左嘴角点83和第二右嘴角点84。示意性的，终端将两个交点中x坐标较小的一个交点，确定为第二左嘴角点83，将两个交点中x坐标较大的一个交点，确定为第二右嘴角点84。

终端将嘴角连线上第一左嘴角点81和第二左嘴角点83之间的中点，确定为左嘴角控制点51；将嘴角连线上第一右嘴角点82和第二右嘴角点84之间的中点，确定为右嘴角控制点52。

步骤3033，根据嘴角连线作至少一条垂线，根据至少一条垂线与嘴部外轮廓和嘴部内轮廓的交点，确定出上嘴唇控制点和下嘴唇控制点；

可选地，该垂线的数量可以是2条以上。本实施例以该垂线为2条为例来举例说明。

结合参考图10，终端可以将嘴角连线进行三等分，得到位于第二左嘴角点82和第二右嘴角点84之间的两个三等分点：左侧1/3点85和右侧1/3点86。或者，终端将第二左嘴角点82和第二右嘴角点84之间的线段进行三等分，得到两个三等分点，或者，终端将左嘴角控制点51和右嘴角控制点52之间的线段进行三等分，得到两个三等分点。本实施例对两个三等分点的划分方式不加以限定。

终端根据嘴角连线上的左侧1/3点作第一垂线，得到第一垂线与嘴部外轮廓相交的第一上交点和第一下交点，以及第一垂线与嘴部内轮廓相连的第二上交点和第二下交点。

终端根据嘴角连线上的右侧1/3点作第二垂线，得到第二垂线与嘴部外轮廓相交的第三上交点和第三下交点，以及第二垂线与嘴部内轮廓相连的第四上交点和第四下交点。

终端将第一上交点和第二上交点的中点53确定为第一上嘴唇控制点53，第三上交点和第四上交点的中点54确定为第二上嘴唇控制点54；将第一下交点和第二下交点的中点55确定为第一下嘴唇控制点55，将第三下交点和第四下交点的中点56确定为第二下嘴唇控制点56。

步骤3034，将左嘴角控制点、上嘴唇控制点、右嘴角控制点和下嘴唇控制点依次相连后，生成嘴部骨骼。

可选地，终端将左嘴角控制点、第一上嘴唇控制点、第二上嘴唇控制点、右嘴角控制点、第二下嘴唇控制点和第一下嘴唇控制点依次相连后，生成嘴部骨骼，如图5所示。本实施例对嘴部骨骼中控制点的数量以及嘴部骨骼的构成方式不加以限定，可根据实际控制的粗细程度增加或删减嘴部骨骼中控制点的数量。

综上所述，本实施例提供的方法，通过嘴角连线、嘴部外轮廓和嘴部内轮廓之间的交点，来生成能够准确表征嘴部特点的嘴部骨骼，使得根据该嘴部骨骼进行骨骼动画生成时，进行较为逼真的嘴部变形，从而得到准确变形的嘴部图像区域。

需要说明的是，上述各个可选实施例可以自由组合实现成为新的实施例，本申请对此不加以限定。

在基于图3的可选实施例中，将第一图像中的嘴部图像区域单独提取出来，结合n个文字的发音嘴型进行变形后，将变形后的嘴部图像区域添加至其它动态图像中，生成符合动态图像格式的第二图像。也即，上述步骤306之前还可以包括如下步骤3011，上述步骤306包括步骤3061和步骤3062，如图11所示：

步骤3011，获取动态图像，该动态图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧；

终端可以预先提供有一个或多个动态图像(也可由用户上传)，动态图像中的嘴部图像区域可以为空。或者，动态图像中的嘴部图像区域是可替换的。

动态图像中包括有连续的n组图像帧，每组图像帧包括一帧或多帧连续的图像帧。也即，每组图像帧所包括的图像帧数量是相同或不同的。每一组图像帧用于共用同一个嘴部图像区域。

例如，动态图像中包括连续的6帧图像帧，每帧图像帧形成一组图像帧，共6组图像帧；又例如，动态图像中包括连续的12帧图像帧，每两帧图像帧形成一组图像帧，共6组图像帧；又例如，动态图像中包括连续的8帧图像帧，按照帧序号(1,2)、(3,4,5)、(6,7)、(8)分为4组图像帧。

可选地，n的数量由输入的文字的个数确定，或者n为预设值。

步骤3061，将根据第i个文字进行变形后的嘴部图像区域，添加至动态图像模中的第i组图像帧的人脸区域中，i≤n且i、n均为整数；

第一图像中的嘴部图像区域可以单独提取出来。

当文字包括n个文字时，根据n个文字的发音嘴型分别对嘴部图像区域进行变形，可以得到n个变形后的嘴部图像区域。

终端将根据第i个文字进行变形后的嘴部图像区域，添加至动态图像中的第i组图像帧的人脸区域中，i≤n且i、n均为整数。

当动态图像中的嘴部图像区域为空时，将第i个变形后的嘴部图像区域添加至动态图像中的第i组图像帧的人脸区域中。

当动态图像中的嘴部图像区域为可替换的时，将动态图像中嘴部图像区域先移除，然后将第i个变形后的嘴部图像区域添加至动态图像中的第i组图像帧的人脸区域中。

如图12所示，第一图像是一张真人照片，从第一图像中提取出了嘴部图像区域90和用户输入的文字“有话快说”。终端根据文字“有”对嘴部图像区域90进行变形，得到第1个变形后的嘴部图像区域91；根据文字“话”对嘴部图像区域90进行变形，得到第2个变形后的嘴部图像区域92；根据文字“快”对嘴部图像区域90进行变形，得到第3个变形后的嘴部图像区域93；根据文字“说”对嘴部图像区域90进行变形，得到第4个变形后的嘴部图像区域94。

然后，用户可以在终端提供的多个动态图像中选择出一个动态图像。示意性的，该动态图像包括4帧图像帧，分别为第1帧图像帧95、第2帧图像帧96、第3帧图像帧97、第4帧图像帧98。这4帧图像帧中的嘴部图像区域为空。

终端将第1个变形后的嘴部图像区域91添加至第1帧图像帧95，得到图像帧915；将第2个变形后的嘴部图像区域92添加至第2帧图像帧96，得到图像帧926；将第3个变形后的嘴部图像区域93添加至第3帧图像帧97，得到图像帧927；将第4个变形后的嘴部图像区域94添加至第4帧图像帧98，得到图像帧928。

步骤3062，将添加后的n组图像帧按照动态图像格式进行封装，得到符合动态图像格式的第二图像。

终端将添加嘴部图像区域后的n组图像帧按照动态图像格式进行封装，得到符合动态图像格式的第二图像。可选地，该动态图像格式可以是GIF格式或者其它动态图像格式，本实施例对此不加以限定。

示意性的，终端将图像帧915、图像帧926、图像帧927和图像帧928按照动态图像格式进行封装，得到第二图像。

可选地，终端在将添加嘴部图像区域后的n组图像帧按照动态图像格式进行封装之前，还可以对添加嘴部图像区域后的n组图像帧进行其它处理。每组图像帧对应的其它处理可以是相同或不同的。

示意性的，对第i组图像帧进行其它处理，该其它处理包括但不限于：添加第i个文字、添加第1个至第i个文字、在空白区域上添加与第i个文字对应的图形元素、在变形后的嘴部图像区域上添加与第i个文字对应的图像元素中的至少一种。

综上所述，本实施例提供的图像生成方法，可以将第一图像(比如用户自己的人脸图像)中的嘴部图像区域按照n个文字的发音嘴型变形后，与终端预设的动态图像(比如动态表情)中的各个图像帧进行合成，从而得到具有用户自己的人脸说话表情的动态图像，实现了不同种类的图像之间的混合合成效果，增大了用户自己来编辑和生成动态图像时的自由度。

上述实施例中的第一图像也可以是动态图像，终端直接对动态图像中的嘴部图像区域进行变形。

参考图13，其示出了本申请一个示例性实施例提供的图像生成方法的流程图。该方法包括：

步骤401，获取第一图像和文字序列，第一图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧，该文字序列包括按序排列的n个文字；

第一图像是动态图像，该动态图像包括连续的n组图像帧。每组图像帧用于共用同一个嘴部图像区域。示意性的，该动态图像中的人物具有连续的四个舞蹈动作，则第一个舞蹈动作对应的图像帧分为第1组图像帧，第二个舞蹈动作对应的图像帧分为第2组图像帧，第三个舞蹈动作对应的图像帧分为第3组图像帧，第四个舞蹈动作对应的图像帧分为第4组图像帧。

步骤402，识别第一图像中每个图像帧的嘴部图像区域；

终端通过人脸识别技术，识别第一图像中每个图像帧的嘴部图像区域。

步骤403，根据n个文字中的第i个文字的发音嘴型，对n组图像帧中的第i组图像帧中的嘴部图像区域进行变形，得到变形后的第i组图像帧，i≤n且i、n均为整数。

该变形过程的实现可以参考上述方法实施例中的变形过程。

步骤404，将变形后的n组图像帧按照动态图像格式进行封装，得到符合动态图像格式的第二图像。

综上所述，本实施例提供的图像生成方法，可以在用户手动输入n个文字后，将动态图像中的嘴部图像区域按照n个文字的发音嘴型进行变形，进而生成新的动态图像，使得用户可以利用文字来控制动态图像中的嘴部图像区域的变化，方便用户利用n个文字对动态图像进行修改后，生成新的动态图像。

上述图像生成方法可以应用于生成动态图像表情。一种典型的应用场景是在即时通讯程序中，用于由用户自定义生成动态图像表情。示意性的，图14示出了本申请一个实施例提供的即时通讯系统的结构框图。该即时通讯系统包括：第一终端120、服务器140和第二终端160。

第一终端120可以是手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机等等。第一终端120中运行有第一即时通讯客户端122。

第二终端140可以是手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机等等。第二终端140中运行有第二即时通讯客户端142。

第一终端120通过无线网络或有线网络与服务器140相连。第二终端120通过无线网络或有线网络与服务器140相连。

服务器140是第一即时通讯客户端122和第二即时通讯客户端142的后台服务器。服务器140用来提供即时通讯客户端之间的连接建立、消息转发等后台服务，从而实现第一即时通讯客户端122和第二即时通讯客户端142之间的通讯。

用户可以使用一张自选的静态图像，来生成动态表情图像。如下图15所示的实施例。

图15示出了本申请一个实施例提供的动态表情图像生成方法的方法流程图。本实施例以该方法应用于图14所示的第一即时通讯客户端122中来举例说明。该方法包括：

步骤501，第一即时通讯客户端获取静态图像，静态图像是被上传的图像或被选择的图像；

可选地，第一即时通讯客户端具有表情输入功能和表情自定义功能。当用户使用第一即时通讯客户端的表情自定义功能时，第一即时通讯客户端可以提供有UI界面，用户在该UI界面上向第一即时通讯客户端上传自定义的静态图像。该静态图像是具有嘴部图像区域的图像。比如，用户可以自拍照片进行上传，或者将其它人的照片进行上传。

可选地，第一即时通讯客户端提供有多张预设的静态图像供用户选择，当用户选择其中一张静态图像时，第一即时通讯客户端采用用户选择的静态图像。比如，第一即时通讯客户端提供有很多张静态的表情图像供用户选择。

步骤502，第一即时通讯客户端接收输入的文字序列，文字序列包括按序排列的n个文字，n为大于1的正整数；

用户还可以在表情编辑过程中，在第一即时通讯客户端上输入文字序列。比如，用户输入的文字序列为“快点吃，还有很多”。

步骤503，第一即时通讯客户端识别静态图像中的嘴部图像区域；

本步骤可以参考上述步骤302和步骤303，本实施例不再赘述。本实施例中的静态图像，可以认为是步骤302和步骤303中的第一图像。

步骤504，第一即时通讯客户端根据嘴部图像区域和n个文字生成动态表情图像；

本步骤可以包括如下子步骤：

1、第一即时通讯客户端根据n个文字中的第i个文字的发音嘴型，对嘴部图像区域进行变形，得到第i个变形后的嘴部图像区域，1≤i≤n；

本步骤可以参考上述步骤304和步骤305，本实施例不再赘述。

2，第一即时通讯客户端根据静态图像和n个变形后的嘴部图像区域生成动态表情图像；

本步骤可以参考上述步骤306，本实施例不再赘述。本实施例中的动态表情图像，可以认为是步骤306中的第二图像。

其中，动态表情图像是支持动画的图像格式。动态表情包括n帧图像帧，n帧图像帧与n个变形后的嘴部图像区域按序对应；

步骤505，第一即时通讯客户端向第二即时通讯客户端发送动态表情图像。

当用户编辑完成一个动态表情图像后，可以通过第一即时通讯客户端向第二即时通讯客户端发送动态表情图像。

综上所述，本实施例提供的动态表情图像生成方法，通过由用户自行提供静态图像和/或文字，识别静态图像中的嘴部图像区域；根据用户提供的文字序列中各个文字的发音嘴型来调整静态图像中的嘴部图像区域，进而生成动态表情图像，由于不局限于终端提供的制作素材，有利于用户在聊天过程中自行制作出各种各样的动态表情图像。

需要说明的是，上述步骤503至步骤505(以及这些步骤的子步骤)中的至少一个步骤可以由第一即时通讯客户端交由服务器来实现。

用户还可以使用一张自选的静态图像和一张动态图像，来生成动态表情图像。

图16示出了本申请一个实施例提供的动态表情图像生成方法的方法流程图。本实施例以该方法应用于图14所示的第一即时通讯客户端122中来举例说明。该方法包括：

步骤601，第一即时通讯客户端显示表情自定义界面；

第一即时通讯客户端提供有表情自定义功能。在用户需要使用该功能时，显示表情自定义界面。

示意性的参考图17，终端上显示有表情自定义界面90，该表情自定义界面90包括：动态图像选择控件91、文本输入框92、静态图像选择控件93以及发送按钮94。

步骤602，第一即时通讯客户端获取动态图像，动态图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧；

第一即时通讯客户端提供有多个可供选择的动态图像。该动态图像可以是后台服务器提供的和/或用户上传的。该动态图像中的嘴部图像区域是空白的或可替换的。该动态图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧。通常，当动态图像包括n组图像帧时，支持输入的文字序列为n个文字。或者，在输入的n个文字后，由第一即时通讯客户端对动态图像中的图像帧分为n组图像帧。

示意性的参考图17，用户可以通过动态图像选择控件91来选择出一张动态图像911，作为本次表情自定义时使用的动态图像，假设该动态图像是嘴部图像区域为空白的图像。可选地，动态图像选择控件91的两侧设置有上翻按钮和下翻按钮，用户点击上翻按钮查看上一张动态图像，用户点击下翻按钮查看下一张动态图像。可选地，动态图像在动态图像选择控件91中默认为静止预览状态，动态图像选择控件91的右上侧还设置有动态预览按钮912，用户点击动态预览按钮912来查看动态图像的动态播放过程。

步骤603，第一即时通讯客户端接收输入的文字序列，文字序列包括按序排列的n个文字，n为大于1的正整数；

用户还可以在表情编辑过程中，在第一即时通讯客户端上输入文字序列。

可选地，该文字序列是终端预先设置的。用户直接使用终端预先设置的文字徐蕾。

示意性的参考图18，用户可以在文本输入框92上输入文字序列为“哎呦，不错呦”。

步骤604，获取静态图像，静态图像是被上传的图像或被选择的图像；

示意性的参考图19，用户可以点击静态图像选择控件93上的第一个候选框，触发打开相册预览界面901。该相册预览界面901上显示有照片1至照片6。然后用户可以在相册预览界面901显示的相册照片中选择出一张静态图像“照片5”，作为本次表情自定义时使用的静态图像。

步骤605，第一即时通讯客户端识别静态图像中的嘴部图像区域；

可选地，第一即时通讯客户端将该嘴部图像区域从静态图像中提取出来。例如在图19中，以嘴部图像区域是包括嘴部的五官图像区域为例，第一即时通讯客户端可以将该嘴部图像区域931从静态图像“照片5”中提取出来后，显示在静态图像选择控件93上的第二个候选框中。可选地，如果用户选择过多张静态图像，终端可以将多张静态图像中提取出的嘴部图像区域，显示在静态图像选择控件93上的其它候选框中。

步骤606，第一即时通讯客户端接收对嘴部图像区域的操作信号；

可选地，该操作信号是拖动信号。

步骤607，第一即时通讯客户端根据操作信号，将嘴部图像区域添加至动态图像的人脸区域中；

第一即时通讯客户端根据该拖动信号，将嘴部图像区域添加至动态图像的人脸区域中。

可选地，第一即时通讯客户端还根据拖动信号，调整嘴部图像区域在动态图像的人脸区域中的大小、位置和角度中的至少一种参数。

结合参考图20，用户可以将嘴部图像区域931拖动至动态图像的人脸区域中。

步骤608，根据添加后的动态图像和n个按序排列的文字，生成动态表情图像；

本步骤可以包括如下子步骤：

1、第一即时通讯客户端根据n个文字中的第i个文字的发音嘴型，对嘴部图像区域进行变形，得到n个变形后的嘴部图像区域；

本步骤可以参考上述步骤304和步骤305，本实施例不再赘述。

2，第一即时通讯客户端将根据第i个文字进行变形后的嘴部图像区域，添加至动态图像中的第i组图像帧的人脸区域中，i≤n且i、n均为整数；

本步骤可以参考上述步骤3061和步骤3062，本实施例不再赘述。

3、将添加后的n组图像帧按照动态图像格式进行封装，得到符合动态图像格式的动态表情图像。

其中，动态表情图像是支持动画的图像格式。动态表情包括n组图像帧，n组图像帧与n个变形后的嘴部图像区域按序对应。也即，第i组图像帧中的嘴部图像区域是按照第i个文字的发音嘴型变形得到的。

本步骤的生成过程可以是用户不可见的。结合图20可知，当动态表情图像生成后，用户可以点击动态预览按钮912对生成的动态表情图像进行预览。若不满意，则可以重新执行上述流程。

步骤609，第一即时通讯客户端向第二即时通讯客户端发送动态表情图像。

需要说明的是，本实施例中静态图像、动态图像和文字序列的获取步骤的执行顺序不限，可以由用户自行选择。

综上所述，本实施例提供的动态表情图像生成方法，可以将静态图像(比如用户自己的人脸图像)中的嘴部图像区域按照n个文字的发音嘴型变形后，与终端预设的动态图像(比如动态表情)中的各个图像帧进行合成，从而得到具有用户自己的人脸说话表情的动态图像，实现了不同种类的图像之间的混合合成效果，增大了用户自己来编辑和生成动态图像时的自由度。

用户还可以使用一张动态图像，来生成动态表情图像。

图21示出了本申请一个实施例提供的动态表情图像生成方法的方法流程图。本实施例以该方法应用于图14所示的第一即时通讯客户端122中来举例说明。该方法包括：

步骤701，第一即时通讯客户端获取动态图像，动态图像包括n组图像帧，每组图像帧包括一个或多个连续的图像帧；

该动态图像包括连续的n组图像帧。每组图像帧用于共用同一个嘴部图像区域。示意性的，该动态图像中具有8帧图像帧，每相邻的2帧图像帧构成一组图像帧。

步骤702，第一即时通讯客户端获取文字序列，文字序列包括按序排列的n个文字，n为大于1的正整数；

步骤703，第一即时通讯客户端识别动态图像的n组图像帧中的嘴部图像区域；

第一即时通讯客户端通过人脸识别技术，识别第一图像中每个图像帧的嘴部图像区域。

步骤704，第一即时通讯客户端根据n组图像帧中的嘴部图像区域和n个文字生成动态表情图像；

可选地，动态表情图像包括n组图像帧，n组图像帧中的嘴部图像区域与n个文字的发音嘴型按序对应；

可选地，第一即时通讯客户端根据n个文字中的第i个文字的发音嘴型，对n组图像帧中的第i组图像帧中的嘴部图像区域进行变形，得到变形后的第i组图像帧，i≤n且i、n均为整数。

步骤705，第一即时通讯客户端向第二即时通讯客户端发送动态表情图像。

综上所述，本实施例提供的动态表情图像生成方法，可以在用户手动输入n个文字后，将动态图像中的嘴部图像区域按照n个文字的发音嘴型进行变形，进而生成新的动态图像，使得用户可以利用文字来控制动态图像中的嘴部图像区域的变化，方便用户利用n个文字对动态图像进行修改后，生成的动态表情图像。

以下为本申请实施例的装置实施例，对于装置实施例中未详细描述的细节，可以参考上述方法实施例。上述方法实施例与下述的装置实施例存在对应关系，可以互相参考。

图22示出了本申请一个示例性实施例提供的图像生成装置的结构框图。该图像生成装置可以通过软件、硬件或者两者的结合，实现成为终端的全部或一部分。所述装置包括：获取模块1420、识别模块1440、变形模块1460和生成模块1480。

获取模块1420，用于获取第一图像和文字序列，该文字序列包括按序排列的多个文字。

识别模块1440，用于识别所述第一图像中的嘴部图像区域。

变形模块1460，用于根据所述n个文字的发音嘴型，对所述嘴部图像区域进行变形。

生成模块1480，用于根据变形后的所述嘴部图像区域生成第二图像。

在一个可选的实施例中，所述识别模块1440，用于识别所述第一图像中的嘴部几何信息；根据所述嘴部几何信息生成嘴部图像区域的网格模型，所述网格模型包括嘴部骨骼和嘴部蒙皮。所述变形模块1460，用于根据所述文字对应的发音嘴型，改变所述嘴部骨骼的位置；根据改变后的所述嘴部骨骼的位置，对所述嘴部蒙皮中的各个顶点进行仿射变换，得到变形后的嘴部图像区域。

在一个可选的实施例中，所述嘴部骨骼包括：上嘴唇控制点、下嘴唇控制点、左嘴角控制点和右嘴角控制点；

所述变形模块1460，用于根据所述n个文字对应的发音嘴型，分别确定嘴唇开合参数和嘴角缩放参数；根据所述嘴唇开合参数调整所述上嘴唇控制点和所述下嘴唇控制点之间的距离；根据所述嘴角缩放参数调整所述左嘴角控制点和所述右嘴角控制点之间的距离。

在一个可选的实施例中，所述变形模块1460，用于获取所述多边形网格中的各个顶点的蒙皮权重；根据所述改变后的所述嘴部骨骼的位置，对所述各个顶点根据各自对应的所述蒙皮权重进行仿射变换，得到变形后的嘴部图像区域。

在一个可选的实施例中，所述嘴部几何信息包括：嘴部外轮廓和嘴部内轮廓；

所述识别模块1440，用于将所述嘴部外轮廓的第一左嘴角点和第一右嘴角点相连，得到嘴角连线；根据所述嘴角连线和所述嘴部内轮廓的交点，生成左嘴角控制点和右嘴角控制点；根据所述嘴角连线作至少一条垂线，根据所述至少一条垂线与所述嘴部外轮廓和所述嘴部内轮廓的交点，确定出上嘴唇控制点和下嘴唇控制点；将所述左嘴角控制点、所述上嘴唇控制点、所述右嘴角控制点和所述下嘴唇控制点依次相连后，生成所述嘴部骨骼。

在一个可选的实施例中，所述识别模块1440，用于根据所述嘴角连线与所述嘴部内轮廓的交点，得到所述嘴部内轮廓的第二左嘴角点和第二右嘴角点；将所述嘴角连线上所述第一左嘴角点和所述第二左嘴角点之间的中点，确定为所述左嘴角控制点；将所述嘴角连线上所述第一右嘴角点和所述第二右嘴角点之间的中点，确定为所述右嘴角控制点。

在一个可选的实施例中，所述识别模块1440，用于根据所述嘴角连线上的左侧1/3点作第一垂线，得到所述第一垂线与所述嘴部外轮廓相交的第一上交点和第一下交点，以及所述第一垂线与所述嘴部内轮廓相连的第二上交点和第二下交点；根据所述嘴角连线上的右侧1/3点作第二垂线，，得到所述第二垂线与所述嘴部外轮廓相交的第三上交点和第三下交点，以及所述第二垂线与所述嘴部内轮廓相连的第四上交点和第四下交点；将所述第一上交点和所述第二上交点的中点确定为第一上嘴唇控制点，所述第三上交点和所述第四上交点的中点确定为第二上嘴唇控制点；将所述第一下交点和所述第二下交点的中点确定为第一下嘴唇控制点，所述第三下交点和所述第四下交点的中点确定为第二下嘴唇控制点。

在一个可选的实施例中，所述变形模块1460，用于将所述第一图像中变形前的嘴部图像区域替换为根据第i个文字进行变形后的嘴部图像区域，得到第i张变形后的第一图像，1≤i≤n；所述生成模块1480，用于将n张所述变形后的第一图像按照动态图像格式进行封装，得到符合所述动态图像格式的所述第二图像。

在一个可选的实施例中，所述变形模块1460，还用于对所述第i张变形后的第一图像进行其它处理，所述其它处理包括但不限于：添加第i个文字、添加第1个至第i个文字、在空白区域上添加与第i个文字对应的图形元素、在所述变形后的嘴部图像区域上添加与第i个文字对应的图形元素中的至少一种。

在一个可选的实施例中，所述获取模块1420，还用于获取动态图像，所述动态图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧；所述生成模块1480，还用于将根据第i个文字进行变形后的嘴部图像区域，添加至所述动态图像中的第i组图像帧的人脸区域中，i≤n且i、n均为整数；将添加后的n组图像帧按照动态图像格式进行封装，得到符合所述动态图像格式的所述第二图像。

在一个可选的实施例中，所述第一图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧；所述生成模块1480，还用于根据所述n个文字中的第i个文字的发音嘴型，对所述n组图像帧中的第i组图像帧中的嘴部图像区域进行变形，得到变形后的第i组图像帧，i≤n且i、n均为整数；将变形后的n组图像帧按照动态图像格式进行封装，得到符合所述动态图像格式的所述第二图像。

图23示出了本申请一个示例性实施例提供的动态表情图像生成装置的结构框图。该动态表情图像生成装置可以通过软件、硬件或者两者的结合，实现成为终端的全部或一部分。所述装置包括：获取模块1520、识别模块1540和生成模块1560。

获取模块1520，用于获取静态图像，所述静态图像是被上传的图像或被选择的图像；

所述获取模块1520，还用于获取文字序列，所述文字序列包括按序排列的n个文字，n为大于1的正整数；

识别模块1540，还用于识别所述第一图像中的嘴部图像区域；

生成模块1560，用于根据所述嘴部图像区域和所述n个文字生成动态表情图像，所述动态表情图像包括n组图像帧，所述n组图像帧中的嘴部图像区域与所述n个文字的发音嘴型按序对应。

在一个可选的实施例中，所述获取模块1520，用于获取动态图像，所述动态图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧；接收对所述嘴部图像区域的操作信号；根据所述操作信号，将所述嘴部图像区域添加至所述动态图像的人脸区域中；根据添加后的动态图像和所述n个文字，生成所述动态表情图像。

在一个可选的实施例中，所述装置应用于第一即时通讯客户端中，所述装置还包括：发送模块1580；

所述发送模块1580，用于向第二即时通讯客户端发送所述动态表情图像。

可选地，识别模块1540还用于实现上述图16中步骤605的功能。生成模块1560还用于实现上述图16中步骤606至步骤608的功能。

图24示出了本申请一个示例性实施例提供的动态表情图像生成装置的结构框图。该动态表情图像生成装置可以通过软件、硬件或者两者的结合，实现成为终端的全部或一部分。所述装置包括：获取模块1620、识别模块1640和生成模块1660。

获取模块1620，用于获取动态图像，所述动态图像包括n组图像帧，每组图像帧包括一个或多个连续的图像帧；

获取模块1620，还用于获取文字序列，所述文字序列包括按序排列的n个文字，n为大于1的正整数；

识别模块1640，还用于识别所述动态图像的n组图像帧中的嘴部图像区域；

生成模块1660，用于根据所述n组图像帧中的嘴部图像区域和所述n个按序排列的文字生成动态表情图像，所述动态表情图像包括n组图像帧，所述n组图像帧中的嘴部图像区域与所述n个文字的发音嘴型按序对应。

可选的，识别模块1640还用于实现上述图21中步骤703的功能。生成模块1660还用于实现上述图21中步骤704的功能。

图25示出了本申请一个示例性实施例提供的终端2500的结构框图。该终端2500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端2500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端2500包括有：处理器2501和存储器2502。

处理器2501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器2501所执行以实现本申请中方法实施例提供的图像生成方法或动态表情图像生成方法。

在一些实施例中，终端2500还可选包括有：外围设备接口2503和至少一个外围设备。处理器2501、存储器2502和外围设备接口2503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口2503相连。具体地，外围设备包括：射频电路2504、触摸显示屏2505、摄像头2506、音频电路2507、定位组件2508和电源2509中的至少一种。

外围设备接口2503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器2501和存储器2502。在一些实施例中，处理器2501、存储器2502和外围设备接口2503被集成在同一芯片或电路板上；在一些其他实施例中，处理器2501、存储器2502和外围设备接口2503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路2504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路2504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路2504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路2504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路2504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路2504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏2505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏2505是触摸显示屏时，显示屏2505还具有采集在显示屏2505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器2501进行处理。此时，显示屏2505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏2505可以为一个，设置终端2500的前面板；在另一些实施例中，显示屏2505可以为至少两个，分别设置在终端2500的不同表面或呈折叠设计；在再一些实施例中，显示屏2505可以是柔性显示屏，设置在终端2500的弯曲表面上或折叠面上。甚至，显示屏2505还可以设置成非矩形的不规则图形，也即异形屏。显示屏2505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件2506用于采集图像或视频。可选地，摄像头组件2506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件2506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路2507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器2501进行处理，或者输入至射频电路2504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端2500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器2501或射频电路2504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路2507还可以包括耳机插孔。

定位组件2508用于定位终端2500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件2508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源2509用于为终端2500中的各个组件进行供电。电源2509可以是交流电、直流电、一次性电池或可充电电池。当电源2509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端2500还包括有一个或多个传感器2510。该一个或多个传感器2510包括但不限于：加速度传感器2511、陀螺仪传感器2512、压力传感器2513、指纹传感器2514、光学传感器2515以及接近传感器2516。

加速度传感器2511可以检测以终端2500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器2511可以用于检测重力加速度在三个坐标轴上的分量。处理器2501可以根据加速度传感器2511采集的重力加速度信号，控制触摸显示屏2505以横向视图或纵向视图进行用户界面的显示。加速度传感器2511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器2512可以检测终端2500的机体方向及转动角度，陀螺仪传感器2512可以与加速度传感器2511协同采集用户对终端2500的3D动作。处理器2501根据陀螺仪传感器2512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器2513可以设置在终端2500的侧边框和/或触摸显示屏2505的下层。当压力传感器2513设置在终端2500的侧边框时，可以检测用户对终端2500的握持信号，由处理器2501根据压力传感器2513采集的握持信号进行左右手识别或快捷操作。当压力传感器2513设置在触摸显示屏2505的下层时，由处理器2501根据用户对触摸显示屏2505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器2514用于采集用户的指纹，由处理器2501根据指纹传感器2514采集到的指纹识别用户的身份，或者，由指纹传感器2514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器2501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器2514可以被设置终端2500的正面、背面或侧面。当终端2500上设置有物理按键或厂商Logo时，指纹传感器2514可以与物理按键或厂商Logo集成在一起。

光学传感器2515用于采集环境光强度。在一个实施例中，处理器2501可以根据光学传感器2515采集的环境光强度，控制触摸显示屏2505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏2505的显示亮度；当环境光强度较低时，调低触摸显示屏2505的显示亮度。在另一个实施例中，处理器2501还可以根据光学传感器2515采集的环境光强度，动态调整摄像头组件2506的拍摄参数。

接近传感器2516，也称距离传感器，通常设置在终端2500的前面板。接近传感器2516用于采集用户与终端2500的正面之间的距离。在一个实施例中，当接近传感器2516检测到用户与终端2500的正面之间的距离逐渐变小时，由处理器2501控制触摸显示屏2505从亮屏状态切换为息屏状态；当接近传感器2516检测到用户与终端2500的正面之间的距离逐渐变大时，由处理器2501控制触摸显示屏2505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图25中示出的结构并不构成对终端2500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的图像生成方法，或者，如上述方面所述的动态表情图像生成方法。

根据本申请实施例的另一方面，还提供了一种计算机程序产品，当所述计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现如上述方面所述的图像生成方法，或者，如上述方面所述的动态表情图像生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取第一图像和文字序列，所述文字序列包括按序排列的n个文字，n为正整数；

识别所述第一图像中的嘴部图像区域；

根据所述n个文字的发音嘴型，对所述嘴部图像区域进行变形；

根据变形后的所述嘴部图像区域生成第二图像。

2.根据权利要求1所述的方法，其特征在于，所述识别所述第一图像中的嘴部图像区域，包括：

识别所述第一图像中的嘴部几何信息；

根据所述嘴部几何信息生成嘴部图像区域的网格模型，所述网格模型包括嘴部骨骼和嘴部蒙皮；

所述根据所述文字的发音嘴型，对所述嘴部图像区域进行变形，包括：

根据所述文字对应的发音嘴型，改变所述嘴部骨骼的位置；

根据改变后的所述嘴部骨骼的位置，对所述嘴部蒙皮中的各个顶点进行仿射变换，得到变形后的嘴部图像区域。

3.根据权利要求2所述的方法，其特征在于，所述嘴部骨骼包括：上嘴唇控制点、下嘴唇控制点、左嘴角控制点和右嘴角控制点；

所述根据所述n个文字对应的发音嘴型，改变所述嘴部骨骼的位置，包括：

根据所述n个文字对应的发音嘴型分别确定嘴唇开合参数和嘴角缩放参数；

根据所述嘴唇开合参数调整所述上嘴唇控制点和所述下嘴唇控制点之间的距离；

根据所述嘴角缩放参数调整所述左嘴角控制点和所述右嘴角控制点之间的距离。

4.根据权利要求2所述的方法，其特征在于，所述根据改变后的所述嘴部骨骼的位置，对所述多边形网格的各个顶点进行仿射变换，得到变形后的嘴部图像区域，包括：

获取所述多边形网格中的各个顶点的蒙皮权重；

根据所述改变后的所述嘴部骨骼的位置，对所述各个顶点根据各自对应的所述蒙皮权重进行仿射变换，得到变形后的嘴部图像区域。

5.根据权利要求2至4任一所述的方法，其特征在于，所述嘴部几何信息包括：嘴部外轮廓和嘴部内轮廓；

所述根据所述嘴部几何信息生成嘴部网格模型，包括：

将所述嘴部外轮廓的第一左嘴角点和第一右嘴角点相连，得到嘴角连线；

根据所述嘴角连线和所述嘴部内轮廓的交点，生成左嘴角控制点和右嘴角控制点；

根据所述嘴角连线作至少一条垂线，根据所述至少一条垂线与所述嘴部外轮廓和所述嘴部内轮廓的交点，确定出上嘴唇控制点和下嘴唇控制点；

将所述左嘴角控制点、所述上嘴唇控制点、所述右嘴角控制点和所述下嘴唇控制点依次相连后，生成所述嘴部骨骼。

6.根据权利要求5所述的方法，其特征在于，所述根据所述嘴角连线和所述嘴部内轮廓的交点，生成左嘴角控制点和右嘴角控制点，包括：

根据所述嘴角连线与所述嘴部内轮廓的交点，得到所述嘴部内轮廓的第二左嘴角点和第二右嘴角点；

将所述嘴角连线上所述第一左嘴角点和所述第二左嘴角点之间的中点，确定为所述左嘴角控制点；

将所述嘴角连线上所述第一右嘴角点和所述第二右嘴角点之间的中点，确定为所述右嘴角控制点。

7.根据权利要求5所述的方法，其特征在于，所述根据所述嘴角连线作至少一条垂线，根据所述至少一条垂线与所述嘴部外轮廓和所述嘴部内轮廓的交点，，确定出上嘴唇控制点和下嘴唇控制点，包括：

根据所述嘴角连线上的左侧1/3点作第一垂线，得到所述第一垂线与所述嘴部外轮廓相交的第一上交点和第一下交点，以及所述第一垂线与所述嘴部内轮廓相连的第二上交点和第二下交点；

根据所述嘴角连线上的右侧1/3点作第二垂线，，得到所述第二垂线与所述嘴部外轮廓相交的第三上交点和第三下交点，以及所述第二垂线与所述嘴部内轮廓相连的第四上交点和第四下交点；

将所述第一上交点和所述第二上交点的中点确定为第一上嘴唇控制点，所述第三上交点和所述第四上交点的中点确定为第二上嘴唇控制点；

将所述第一下交点和所述第二下交点的中点确定为第一下嘴唇控制点，所述第三下交点和所述第四下交点的中点确定为第二下嘴唇控制点。

8.根据权利要求1至7任一所述的方法，其特征在于，所述根据变形后的所述嘴部图像区域生成第二图像，包括：

将所述第一图像中的嘴部图像区域替换为根据第i个文字进行变形后的嘴部图像区域，得到第i张变形后的第一图像，1≤i≤n；

将n张所述变形后的第一图像按照动态图像格式进行封装，得到符合所述动态图像格式的所述第二图像。

9.根据权利要求8所述的方法，其特征在于，所述将n个所述变形后的第一图像按照动态图像格式进行封装，得到符合所述动态图像格式的所述第二图像之前，还包括：

对所述第i张变形后的第一图像进行其它处理，所述其它处理包括但不限于：添加第i个文字、添加第1个至第i个文字、在空白区域上添加与第i个文字对应的图形元素、在所述变形后的嘴部图像区域上添加与第i个文字对应的图形元素中的至少一种。

10.根据权利要求1至7任一所述的方法，其特征在于，所述方法，还包括：

获取动态图像，所述动态图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧；

所述根据变形后的所述嘴部图像区域生成第二图像，还包括：

将根据第i个文字进行变形后的嘴部图像区域，添加至所述动态图像中的第i组图像帧的人脸区域中，i≤n且i、n均为整数；

将添加后的n组图像帧按照动态图像格式进行封装，得到符合所述动态图像格式的所述第二图像。

11.根据权利要求1至7任一所述的方法，其特征在于，所述第一图像包括连续的n组图像帧，每组图像帧包括一个或多个连续的图像帧；

所述根据所述n个文字的发音嘴型，对所述嘴部图像区域进行变形，包括：

根据所述n个文字中的第i个文字的发音嘴型，对所述n组图像帧中的第i组图像帧中的嘴部图像区域进行变形，得到变形后的第i组图像帧，i≤n且i、n均为整数；

将变形后的n组图像帧按照动态图像格式进行封装，得到符合所述动态图像格式的所述第二图像。

12.一种动态表情图像生成方法，其特征在于，所述方法包括：

获取文字序列，所述文字序列包括按序排列的n个文字，n为大于1的正整数；

识别所述静态图像中的嘴部图像区域；

13.根据权利要求12所述的方法，其特征在于，所述根据所述嘴部图像区域和所述n个按序排列的文字生成动态表情图像之前，还包括：

所述根据所述嘴部图像区域和所述n个文字生成动态表情图像，包括：

接收对所述嘴部图像区域的操作信号；

根据所述操作信号，将所述嘴部图像区域添加至所述动态图像的人脸区域中；

根据添加后的动态图像和所述n个文字，生成所述动态表情图像。

14.根据权利要求12或13所述的方法，其特征在于，所述方法应用于第一即时通讯客户端中，所述根据所述嘴部图像区域和所述n个文字生成动态表情图像之后，还包括：

向第二即时通讯客户端发送所述动态表情图像。

15.一种动态表情图像生成方法，其特征在于，所述方法包括：

识别所述动态图像的n组图像帧中的嘴部图像区域；

16.一种图像生成装置，其特征在于，所述装置包括:

获取模块，用于获取第一图像和文字序列，所述文字序列包括按序排列的n个文字；

识别模块，用于识别所述第一图像中的嘴部图像区域；

17.一种动态表情图像生成装置，其特征在于，所述装置包括：

所述获取模块，还用于获取文字序列，所述文字序列包括按序排列的n个文字，n为大于1的正整数；

识别模块，还用于识别所述第一图像中的嘴部图像区域；

18.一种动态表情图像生成装置，其特征在于，所述装置包括：

19.一种终端，其特征在于，所述终端包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的图像生成方法，或者，如权利要求12至15任一所述的动态表情图像生成方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如如权利要求1至11任一所述的图像生成方法，或者，如权利要求12至15任一所述的动态表情图像生成方法。