CN113538628A

CN113538628A - 表情包生成方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113538628A
Application number: CN202110744504.4A
Authority: CN
Inventors: 刘春宇
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-22

Abstract

本发明涉及信息处理技术领域，公开了一种表情包生成方法、装置、电子设备及计算机可读存储介质。该表情包生成方法包括：获取用于生成表情包的原始素材；确定待生成的表情包类别和所述表情包类别对应的表情包生成参数；所述表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；利用所述原始素材和所述表情包生成参数，生成表情包。本发明实现了表情包的自动生成，降低了用户制作表情包的难度，同时也提高了表情包的制作效率与灵活性。

Description

表情包生成方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种表情包生成方法、装置、电子设备及计算机可读存储介质。

背景技术

在移动互联网时期，依托于社交和网络的不断发展，人们之间交流方式也出现了相应的改变，由最早的文字沟通，到开始使用一些简单的符号、emoji(视觉情感符号)表情，逐步演变为日益多元化的表情包文化，通过使用一些自制的、流行元素图片并配上一系列相匹配的文字，用以表达特定的情感。

一般表情包的制作涉及较多的图片处理技术，进而使得用户自我制作存在一定难度，导致表情包制作效率低，因此通常由专业人士制作后再提供给用户使用，用户参与度不高。即使用户自己制作表情包，通常也需要用户手动操作完成，而这降低了表情包制作的效率。

发明内容

本发明的主要目的在于提供一种表情包生成方法、装置、电子设备及计算机可读存储介质，旨在解决用户制作表情包难度大且效率低的技术问题。

本发明第一方面提供了一种表情包生成方法，所述方法包括：

获取用于生成表情包的原始素材；

确定待生成的表情包类别和所述表情包类别对应的表情包生成参数；所述表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

利用所述原始素材和所述表情包生成参数，生成表情包。

可选的，在本发明第一方面的第一种实现方式中，当确定的待生成的表情包类别包括音频类表情包时，所述利用所述原始素材和所述表情包生成参数，生成表情包，包括：

获得所述原始素材对应的文本数据；

利用曲谱数据和所述文本数据，生成音频数据；所述曲谱数据为所述音频类表情包对应的表情包生成参数；

利用所述音频数据生成所述原始素材对应的音频表情包。

可选的，在本发明第一方面的第二种实现方式中，所述获得所述原始素材对应的文本数据包括：

当所述原始素材为音频素材时，将所述音频素材转换为文字，得到所述文本数据；

当所述原始素材为图片素材时，识别所述图片素材中的文字信息或语义信息，得到所述文本数据。

可选的，在本发明第一方面的第三种实现方式中，所述当所述原始素材为音频素材时，所述利用曲谱数据和所述文本数据，生成音频数据包括：

识别所述音频素材对应的用户发音特征；

利用所述曲谱数据、所述文本数据和所述用户发音特征，生成音频数据。

可选的，在本发明第一方面的第四种实现方式中，所述利用所述音频数据生成所述原始素材对应的音频表情包，包括：

利用所述音频数据和用户选中的图片，生成所述原始素材对应的音频表情包；所述音频表情包为所述图片中携带所述音频数据的表情包。

可选的，在本发明第一方面的第五种实现方式中，当确定的待生成的表情包类别包括静态图片类表情包、动态图片类表情包或视频类表情包时，所述利用所述原始素材和所述表情包生成参数，生成表情包包括：

对所述原始素材进行预处理；

根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包；

其中，所述对所述原始素材进行预处理包括：

当所述原始素材包含图片素材时，识别所述图片素材中的前景图像与背景图像，并将所述背景图像的通道设置为透明通道；

对所述前景图像进行内容特征识别，并根据内容特征识别结果，判断所述前景图像中是否包含具有脸部特征的人物或动物；

若是，则对所述人物或动物的脸部特征进行识别，得到所述前景图像中所述人物或动物的脸部特征点。

可选的，在本发明第一方面的第七种实现方式中，当确定的待生成的表情包类别包括静态图片类表情包时，所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包包括：

根据脸部特征点变换矩阵，对所述前景图像中所述人物或动物的脸部特征点进行变换，得到表情图；

根据用户输入的图片文字说明，在所述表情图上添加文字水印，得到静态图片表情包；所述脸部特征点变换矩阵和所述图片文字说明为所述静态图片类表情包对应的表情包生成参数。

可选的，在本发明第一方面的第八种实现方式中，当确定的待生成的表情包类别包括动态图片类表情包时，所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包包括：

根据多个时间戳以及各所述时间戳分别对应的脸部特征点变换矩阵，依次对所述前景图像中所述人物或动物的脸部特征点进行变换，得到多帧具有时间顺序的表情图；

对各帧所述表情图进行动态图片合成，得到动态图片表情包；所述时间戳和所述脸部特征点变换矩阵为所述动态图片类表情包对应的表情包生成参数。

可选的，在本发明第一方面的第九种实现方式中，当确定的待生成的表情包类别包括视频类表情包时，所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包包括：

根据所述前景图像中识别出的所述人物或动物的脸部特征，生成所述人物或动物的表情音频；

根据多个时间戳以及各时间戳分别对应的脸部特征点变换矩阵，计算所述表情音频中各帧音频对应的音量，并依次对所述前景图像中所述人物或动物的脸部特征点进行变换，得到多帧具有时间顺序的表情图；

对所述表情音频、各帧所述表情图进行音视频合成，得到视频文件；

将所述视频文件分别与预置视频表情图标、预置视频展示图标关联保存，得到视频表情包。

可选的，在本发明第一方面的第十种实现方式中，当确定的待生成的表情包类别包括视频类表情包时，所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包包括：

当所述原始素材还包括文字素材时，对所述文字素材进行音频合成，得到所述人物或动物的表情音频；

可选的，在本发明第一方面的第十一种实现方式中，在所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包之后，还包括：

检测是否存在视频表情图标的触控操作；

若存在，则获取与所述视频表情图标关联的视频文件以及获取与所述视频文件关联的视频展示图标；

发送所述视频文件以及所述视频展示图标。

可选的，在本发明第一方面的第十二种实现方式中，在所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包之后，还包括：

接收所述视频文件与所述视频展示图标；

显示所述视频展示图标以及所述视频文件的播放时长，并播放所述视频文件。

本发明第二方面提供了一种表情包生成装置，所述装置包括：

获取模块，用于获取用于生成表情包的原始素材；

确定模块，用于确定待生成的表情包类别和所述表情包类别对应的表情包生成参数；所述表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

生成模块，用于利用所述原始素材和所述表情包生成参数，生成表情包。

可选的，在本发明第二方面的第一种实现方式中，当确定的待生成的表情包类别包括音频类表情包时，所述生成模块具体用于：

获得所述原始素材对应的文本数据；

利用所述音频数据生成所述原始素材对应的音频表情包。

可选的，在本发明第二方面的第二种实现方式中，所述生成模块还用于：

可选的，在本发明第二方面的第三种实现方式中，所述当所述原始素材为音频素材时，所述生成模块还用于：

识别所述音频素材对应的用户发音特征；

可选的，在本发明第二方面的第四种实现方式中，所述生成模块还用于：

可选的，在本发明第二方面的第五种实现方式中，当确定的待生成的表情包类别包括静态图片类表情包、动态图片类表情包或视频类表情包时，所述生成模块包括：

预处理单元，用于对所述原始素材进行预处理；

加工单元，用于根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包；

其中，所述预处理单元具体用于：

可选的，在本发明第二方面的第七种实现方式中，当确定的待生成的表情包类别包括静态图片类表情包时，所述加工单元具体用于：

可选的，在本发明第二方面的第八种实现方式中，当确定的待生成的表情包类别包括动态图片类表情包时，所述加工单元具体用于：

可选的，在本发明第二方面的第九种实现方式中，当确定的待生成的表情包类别包括视频类表情包时，所述加工单元具体用于：

可选的，在本发明第二方面的第十种实现方式中，当确定的待生成的表情包类别包括视频类表情包时，所述加工单元具体用于：

可选的，在本发明第二方面的第十一种实现方式中，所述表情包生成装置还包括：

检测模块，用于检测是否存在视频表情图标的触控操作；

获得模块，用于若存在视频表情图标的触控操作，则获取与所述视频表情图标关联的视频文件以及获取与所述视频文件关联的视频展示图标；

发送模块，用于发送所述视频文件以及所述视频展示图标。

可选的，在本发明第二方面的第十二种实现方式中，所述表情包生成装置还包括：

接收模块，用于接收所述视频文件与所述视频展示图标；

播放模块，用于显示所述视频展示图标以及所述视频文件的播放时长，并播放所述视频文件。

本发明第三方面提供了一种电子设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述电子设备执行上述的表情包生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的表情包生成方法。

本发明提供的技术方案中，用户只需提供制作表情包的素材即可，系统将自动确定待生成的表情包类别和表情包类别对应的表情包生成参数；最后再利用原始素材和表情包生成参数，生成表情包。表情包制作过程自动完成而无需用户操作，从而降低了用户制作表情包的难度，同时也提升了表情包制作效率。另外，由于素材由用户自己提供，表情包生成参数也可以由用户自己设置，因此实现了表情包制作的灵活性与多样性，提升了用户参与积极性和体验感。

附图说明

图1为本发明实施例中表情包生成方法的第一个实施例示意图；

图2为本发明实施例中表情包生成方法的第二个实施例示意图；

图3为本发明实施例中表情包生成方法的第三个实施例示意图；

图4为本发明实施例中表情包生成方法的第四个实施例示意图；

图5为本发明实施例中表情包生成方法的第五个实施例示意图；

图6为本发明实施例中表情包生成方法的第六个实施例示意图；

图7为本发明实施例中表情包生成装置的一个实施例示意图；

图8为本发明实施例中电子设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种表情包生成方法、装置、电子设备及计算机可读存储介质，本发明降低了用户制作表情包的难度，同时也提升了表情包制作效率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解本发明，首先对本申请实施例涉及的相关名词进行介绍。

(1)表情包，是指利用图片来表示个人情感的一种表现形式，一般采用静态图片或动态图片的表现形式。本发明进一步拓展了表情包的表现形式，创造性地提出了音频表情包与带音频的视频表情包。

(2)原始素材，是指用于制作表情包的基础材料，一般采用图片制作表情包。本发明进一步拓展了表情包的素材范围，除常规使用的图片素材外，还创造性地提出了音频素材、文字素材、视频素材。

(3)表情类型，是指制作的表情包所具有的表情，一般采用哭、笑、悲伤、快乐、兴奋、紧张、害怕等情绪类表情，而本发明进一步拓展了表情包的表情范围，除常规的情绪类表情外，还创造性地提出了场景表情(比如加班、购物、聚餐等场景)、动作表情(比如再见、握手、握拳、抬腿等动作)。

(4)表情包类别，是指对表情包进行分类，表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包。

(5)表情包生成参数，用于制作表情包，不同表情包类型对应不同的表情包生成参数。优选每一种表情包类型都对应一种表情包生成参数，每一种表情包生成参数都包含一类或多类表情包制作的配置参数。表情包生成参数既可以是由用户自己个性化设置，也可以是由开发人员默认设置。

为便于进一步理解，下面对本发明实施例的具体流程进行描述。本发明实施例提供的技术方案，各步骤的执行主体可以是电子设备。在一种可能的实现方式中，该电子设备可以是智能手机、平板电脑、个人计算机之类的终端设备。在另一种可能的实现方式中，该电子设备也可以是智能电视机。

请参阅图1，本发明实施例中表情包生成方法的第一个实施例包括：

101、获取用于生成表情包的原始素材；

本实施例中，表情包的制作需要相应的原始素材，例如图片表情包需要图片、动画表情包需要一张或多张图片，语音表情包需要语音等。本实施例的素材需要预先提供，可以是用户自己提供，也可以是系统自带。需要说明的是，本实施例中的素材并非表情包模板素材，可以是任意的图片、文字、音频、视频等。

在一实施例中，优选制作表情包的素材包括：图片素材、音频素材、文字素材、视频素材。

可选的，还可以进一步获取表情包对应的表情类型，不同表情类型的表情包在音视觉上的感受不同，传递的信息亦不相同。

在一实施例中，优选表情包所表达的表情类型包括：

A、情绪类表情，比如哭、笑、悲伤、快乐、兴奋、紧张、害怕等；

B、场景类表情，比如加班、购物、聚餐等场景

C、动作类表情，比如再见、握手、握拳、抬腿等动作。

102、确定待生成的表情包类别和表情包类别对应的表情包生成参数；表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

本实施例中，在获取到素材和表情类型后，还需进一步确定待生成的表情包类别和表情包类别对应的表情包生成参数。优选每一种表情包类型均对应一种表情包生成参数。本实施例中，对于表情包类别的确定方式不限，可以是由用户选定，也可以是机器随机选定。

本实施例中，表情包生成参数具体根据素材类型、表情包类别等进行确定，比如图片大小、尺寸、格式要求，视频大小、时长、是否带音频等，文字的字体、颜色等，都可以作为表情包生成参数。

此外，为提升表情包制作的灵活性，在一实施例中，表情包生成参数可以由用户根据表情包的实际制作需要进行设置。

103、利用原始素材和表情包生成参数，生成表情包。

本实施例中，对于原始素材的处理方式不限，具体根据表情包制作需要进行确定。例如，对图片素材进行尺寸缩放处理、格式转换处理、图片压缩处理等，对文字素材进行样式排版处理等。在原始素材处理过程中还进一步根据表情包生成参数进行素材加工，从而得到相应的表情包。

由于本发明支持的素材类型较多，因此可以制作多种类型的表情包，在一实施例中，优选可制作的表情包包括：静态图片表情包、动态图片表情包、视频表情包、音频表情包。

本发明还支持用户自定义表情包。可选的，在一实施例中，在上述步骤101之前，还包括：

获取用户选定的表情包生成模式，表情包生成模式包括一键生成模式、自定义模式；

若表情包生成模式为一键生成模式，则执行步骤101-103，否则执行UI(UserInterface，用户界面)人机交互操作，通过UI人机交互操作，获取待生成表情包的自定义素材，并生成用户自定义的表情包生成参数；

在UI人机交互操作完成后，根据自定义的表情包生成参数，对自定义素材进行加工，得到自定义表情包。

本实施例中，对于意思表达简单的情绪类表情优选采用一键生成模式制作，而对于意思表达丰富的场景类表情、动作类表情则优选采用自定义模式制作。在自定义模式下，自定义素材不仅可以是图片、文字、音频，而且还可以是视频，用户可以对自定义素材进行编辑，也可以将不同的自定义素材进行关联组合，从而形成意思表达更为丰富的场景类表情包或动作类表情包。

本实施例中，用户只需提供制作表情包的素材即可，系统将自动确定待生成的表情包类别和表情包类别对应的表情包生成参数；最后再利用原始素材和表情包生成参数，生成表情包。表情包制作过程自动完成而无需用户操作，从而降低了用户制作表情包的难度，同时也提升了表情包制作效率。另外，由于素材由用户自己提供，表情包生成参数也可以由用户自己设置，因此实现了表情包制作的灵活性与多样性，提升了用户参与积极性和体验感。

下面以情绪类表情为例，采用一键生成模式对各类表情包的具体生成方式进行举例说明。

请参阅图2，图2是本发明音频表情包一实施例的生成流程示意图。本发明实施例中表情包生成方法的第二个实施例包括：

201、获取用于生成表情包的原始素材；

202、确定待生成的表情包类别和表情包类别对应的表情包生成参数；表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

本实施例中，上述步骤201、202的说明参照第一实施例，本实施例不再进行赘述。下面具体以生成音频表情包的实现过程进行说明。

203、当确定的待生成的表情包类别包括音频类表情包时，获得原始素材对应的文本数据；

本实施例对于原始素材对应的文本数据的获得方式不限，优选通过对原始素材进行处理后获得。

可选的，在一实施例中，上述步骤203包括：

当原始素材为音频素材时，将音频素材转换为文字，得到文本数据；

当原始素材为图片素材时，识别图片素材中的文字信息或语义信息，得到文本数据。

本可选实施例中，如果原始素材为音频素材，则对音频素材进行文字识别，从而得到对应文本数据。而如果原始素材为图片素材，则对图片素材中包含的文字或语义识别，从而得到对应文本数据。

204、利用曲谱数据和文本数据，生成音频数据；曲谱数据为音频类表情包对应的表情包生成参数；

本实施例中，为进一步对音频数据进行个性化处理，通过表情包生成参数中设置的曲谱数据，将获得的文本数据转换成具有个性化发音特征的音频数据。其中，曲谱数据包含有多个音符以及各音符对应的音频。

可选的，在一实施例中，上述步骤204包括：

当原始素材为音频素材时，识别音频素材对应的用户发音特征；

利用曲谱数据、文本数据和用户发音特征，生成音频数据。

本可选实施例中，当原始素材为音频素材时，进一步识别出该音频素材的用户发音特征，然后再根据曲谱数据、用户发语音特征，将文本数据转换成相应的具有用户发音特征的音频数据，从而实现音频数据的个性化特点。比如，可以是使用用户自己的发音特征，或者使用某个人的发音特征来生成音频表情包。

例如，预先录制用户的一段语音作为音频素材，在制作表情包时，先提取该段语音的音色和音调，从而获得用户发音特征。将七个音符与七个音频一一对应，也即：C、D、E、F、G、A、B，汉语表达形式为哆、来、咪、发、唆、拉、西，分别与唱名为do、re、mi、fa、sol、la、si的7个音频一一对应，从而得到7个字母音频并作为曲谱数据。同时，将这七个字母音频分别与七个音高(从音高1到音高7)一一对应保存至曲谱数据中。

然后对识别到的文本数据进行音高提取，得到文本数据中各字符的音高数字，再根据曲谱数据中七个音高与七个字母音频的对应关系，得到文本数据中各字符的音符发音。

最后，根据用户发音特征，生成文本数据对应的音频数据，完成音频表情包的生成。该音频数据使用上述音符发音，从而得到既具有用户发音特征，又具有节奏感的音频表情包。

205、利用音频数据生成原始素材对应的音频表情包。

本实施例中，在生成个性化的音频数据后，即可用生成的个性化音频数据生成原始素材对应的音频表情包。比如，将音频数据与表情包图标关联后即可作为音频表情包。

可选的，在一实施例中，上述步骤205包括：

利用音频数据和用户选中的图片，生成原始素材对应的音频表情包；音频表情包为图片中携带音频数据的表情包。

本实施例只需提供原始素材，系统将自动识别出原始素材的文字含义并转换为音频，从而提升表情包的制作效率。此外，本实施例还进一步将图片与音频关联，从而使音频表情包既具有图片的表达方式和表达含义，也具有声音的表达方式和表达含义，从而进一步丰富表情包所要表达的内容。

本实施例中，音频表情包优选由音频数据、音频表情图标以及音频展示图标构成，其中，音频表情图标可以由与音频数据关联的图片生成。

可选的，在一实施例中，通过以下方式发送音频表情包：

检测是否存在音频表情图标的触控操作；

若存在，则获取与音频表情图标关联的音频数据以及获取与音频数据关联的音频展示图标；

发送音频数据以及音频展示图标。

可选的，在一实施例中，通过以下方式接收并播放音频表情包：

接收音频数据与音频展示图标；

显示音频展示图标以及音频数据的播放时长，并播放音频数据。

本实施例进一步拓展了表情包的表现形式，除图片、动画外，还可以使用音频作为表情包。同时，在音频表情包中增加语音发音的个性化设置，包括音频特征个性化设置和情绪表情个性化设置，不仅提升了表情包的娱乐性，同时也进一步提供了表情包的更多表现形式，进而提升用户使用体验。

请参阅图3，图3是本发明实施例中表情包生成方法的第三个实施例，本实施例中，表情包生成方法包括：

301、获取用于生成表情包的原始素材；

302、确定待生成的表情包类别和表情包类别对应的表情包生成参数；表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

本实施例中，上述步骤301、302的说明参照第一实施例，本实施例不再进行赘述。

303、当确定的待生成的表情包类别包括静态图片类表情包、动态图片类表情包或视频类表情包时，对原始素材进行预处理；

304、根据表情包生成参数，对预处理后的原始素材进行加工，得到表情包。

本实施例中，对于原始素材的预处理方式不限，具体根据表情包制作需要进行确定。例如，对图片素材进行尺寸缩放处理、格式转换处理、图片压缩处理等，对文字素材进行样式排版处理等。在预处理结束后，即可进行表情包的实际加工制作，具体根据表情包生成参数进行素材加工，从而得到相应的表情包。

可选的，在一实施例中，当原始素材包括图片素材时，上述步骤303包括：

识别图片素材中的前景图像与背景图像，并将背景图像的通道设置为透明通道；

对前景图像进行内容特征识别，并根据内容特征识别结果，判断前景图像中是否包含具有脸部特征的人物或动物；

若是，则对人物或动物的脸部特征进行识别，得到前景图像中人物或动物的脸部特征点。

本可选实施例中，在制作表情包之前，需要先对图片素材进行预处理，具体为先对图片素材进行前景图像与背景图像识别，前景图像和背景图像是对图片中的内容进行分类，一般前景图像是整个图片的焦点，而背景图像则是作为前景图像的背景存在。

本实施例中，假设前景图像的像素灰度值的阈值区间为0～255，通过将图片素材中的像素灰度值与该阈值做比较，落在该范围内的像素称为前景图像，没有落在该范围内的像素称为背景图像。

为避免背景图像在表情包中出现或者对表情包的所表达的情感含义产生干扰，因此还需进一步将背景图像的通道设置为透明通道。

本可选实施例中，在对图片素材的背景进行透明设置后，继续对前景进行预处理，具体处理方式为先对前景图像进行内容识别，从而确定前景图像中有哪些内容，只有前景图像中的内容适合制作表情包才能继续进行后续处理。前景图像中的内容可以预先在设置图片素材时人为选定，比如只选择有人物图像或动物图像的图片作为图片素材。当然也可以是用户使用随机的图片作为图片素材，此时则需要对图片素材中的前景图像进行内容特征识别。本实施例对于内容特征识别的方式不做限定，比如采用预先训练的内容特征识别模型进行识别，例如人物特征识别模型、动物特征识别模型等，通过模型可自动识别图像中的内容特征，比如具有人的脸部特征，或者具有某个动物的脸部特征。

本实施例中，通过对原始素材进行预处理，可以进一步提高表情包的内容表现形式以及丰富表情包的内容，从而提升表情包制作的用户参与度与体验感。

请参阅图4，图4是本发明静态图片表情包一实施例的生成流程示意图。本发明实施例中表情包生成方法的第四个实施例包括：

401、获取用于生成表情包的原始素材；

402、确定待生成的表情包类别和表情包类别对应的表情包生成参数；表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

本实施例中，上述步骤401、402的说明参照第一实施例，本实施例不再进行赘述。下面具体以获取的素材为图片素材、表情类型为情绪类表情，生成静态图片表情包的实现过程进行说明。

403、当确定的待生成的表情包类别包括静态图片类表情包时，根据脸部特征点变换矩阵，对前景图像中人物或动物的脸部特征点进行变换，得到表情图；

404、根据用户输入的图片文字说明，在表情图上添加文字水印，得到静态图片表情包；脸部特征点变换矩阵和图片文字说明为静态图片类表情包对应的表情包生成参数。

本实施例中，静态表情包的图片文字说明需要由用户输入并作为表情包生成参数，不同静态表情包可以使用相同的图片文字说明，也可以使用不同的图片文字说明，具体根据实际应用需要确定。

本实施例中，脸部特征点变换矩阵具体指各脸部特征点在前景图像中的像素位移量所形成的矩阵，包含有各脸部特征点的调整方式，通过对前景图像中人物或动物的脸部特征点进行变换，从而形成具有特定表情含义的表情图。比如将眼睛睁开得更大、将眼睛闭上，将嘴巴张大等。

由于本实施例的表情包针对的是情绪类表情，因此需要选使用具有人物或动物的脸部特征的图片制作表情包。若前景图像的内容特征识别结果为前景图像中具有脸部特征的人物或动物，则该图片素材满足制作情绪类表情包的前提条件。

本实施例中，情绪类表情通常都是通过脸部特征变化体现的，比如开心的时候嘴巴会张开，沮丧的时候则会闭嘴和皱眉等。因此，预先设置表情包生成参数，比如配置用于调整前景图像中脸部特征点位置的脸部特征点变换矩阵，以通过特征点变换使前景图像中的人物或动物具有情绪表现特征。

本实施例中，如果内容特征识别结果为前景图像中不包含具有脸部特征的人物或动物，则退出表情包制作或者弹出提示信息。如果内容特征识别结果为前景图像中包含具有脸部特征的人物或动物，则继续识别人物或动物的脸部特征点，比如五官特征点，然后再根据表情包生成参数中的脸部特征点变换矩阵，对当前前景图像中人物或动物的脸部特征点进行变换，从而得到具有情绪特征的表情图。其中，脸部特征点变换矩阵包含有各脸部特征点的调整方式，比如瞪大眼睛、闭上眼睛，张大嘴巴，皱眉毛等。通过对前景图像中人物或动物的脸部特征点进行变换，从而形成具有特定表情含义的情绪类表情图。

本实施例中，为进一步丰富表情包所要表达的意思，在得到的表情图上添加文字说明，具体使用表情包生成参数中的图片文字说明，以水印方式将文字说明添加到表情图上，从而得到具有情绪表现特征并带有文字说明的静态图片表情包，用户使用该表情包可以达到表达自己的情绪或者传递相关信息等作用。

本实施例具体以任意的图片为表情包的素材，降低了表情包制作对于图片的要求，同时增加了用户制作表情包的自主性与灵活性。通过一键生成表情包，大大提升了表情包制作效率，降低了表情包制作难度。

请参阅图5，图5是本发明动态图片表情包一实施例的生成流程示意图。本发明实施例中表情包生成方法的第五个实施例包括：

501、获取用于生成表情包的原始素材；

502、确定待生成的表情包类别和表情包类别对应的表情包生成参数；表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

本实施例中，上述步骤501、502的说明参照第一实施例，本实施例不再进行赘述。下面具体以获取的素材为图片素材、表情类型为情绪类表情，生成动态图片表情包的实现过程进行说明。

503、当确定的待生成的表情包类别包括动态图片类表情包时，根据多个时间戳以及各时间戳分别对应的脸部特征点变换矩阵，依次对前景图像中人物或动物的脸部特征点进行变换，得到多帧具有时间顺序的表情图；

504、对各帧表情图进行动态图片合成，得到动态图片表情包；时间戳和脸部特征点变换矩阵为动态图片类表情包对应的表情包生成参数。

本实施例与上述第四实施例的区别在于，本实施例的表情包生成参数配置有多个时间戳以及各时间戳分别对应的脸部特征点变换矩阵，每一个时间戳对应动态图中的一帧图。

本实施例中，基于时间戳对应的时间顺序，依次根据各时间戳分别对应的脸部特征点变换矩阵，依次对识别到的前景图像中的人物或动物的脸部特征点进行变换，从而得到多帧具有时间顺序的情绪类表情图，每一帧表情图中人物或动物的表情特征既可以是相同的，也可以是有区别的，具体根据实际需要调整配置文件中的参数值。

在得到多帧表情图后，通过动态图片合成技术即可将各表情图合成为动态图片表情包，或者还可以合成为视频动画表情包。

在一实施例中，还可以进一步将合成后的动态图片表情包与音频进行关联播放，从而使得在展示动态图片表情包的同时，还播放关联的音频，从而进一步丰富动态图片表情包的表达内容。

在一实施例中，还可以进一步将音频帧与图片帧进行音视频合成，从而得到带有音频的视频表情包，从而使得在播放视频动画表情包的同时，还播放对应的音频内容，从而进一步丰富视频动画表情包的表达内容。

本实施例中，在配置文件中引入了多个时间戳以及多个脸部特征点变换矩阵，通过多轮脸部特征变换，从而实现一图变多图，最后通过图片合成或视频合成而最终生成动态图片表情包或视频动画表情包，进一步丰富了可制作表情包的类型，提升了用户制作表情包的趣味性。

请参阅图6，图6是本发明视频表情包一实施例的生成流程示意图。本发明实施例中表情包生成方法的第六个实施例包括：

601、获取用于生成表情包的原始素材；

602、确定待生成的表情包类别和表情包类别对应的表情包生成参数；表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

本实施例中，上述步骤601、602的说明参照第一实施例，本实施例不再进行赘述。下面具体以获取的素材为图片素材、表情类型为情绪类表情，生成视频表情包的实现过程进行说明。

603、当确定的待生成的表情包类别包括视频类表情包且素材包括图片素材时，根据前景图像中识别出的人物或动物的脸部特征，生成人物或动物的表情音频；

604、根据多个时间戳以及各时间戳分别对应的脸部特征点变换矩阵，计算表情音频中各帧音频对应的音量，并依次对前景图像中人物或动物的脸部特征点进行变换，得到多帧具有时间顺序的表情图；

上述步骤603-604的说明参照第二实施例。本实施例与上述第四实施例的区别在于，本实施例能够自动根据识别出的前景图像中的人物或动物特征，自动生成该人物或动物对应的带有情绪的表情音频。例如，识别出的是人物特征为20来岁的年轻小伙子，则自动生成具有该人物特征且同时带有情绪的表情音频，比如年轻小伙子的哭泣音频、放声大笑音频等。

本实施例对于生成表情音频的方式不限，优选预先保存有各类人物、动物在各种情绪下的音频特征，然后再基于该音频特征生成对应的表情音频。

可选的，在一实施例中，当原始素材包括图片素材和文字素材时，对文字素材进行音频合成，得到人物或动物的表情音频。

本可选实施例能够自动根据文字素材，自动生成该人物或动物对应的带有对应情绪并表达该文字素材内容的表情音频。例如，识别出的是人物特征为20来岁的年轻小伙子，文字素材为“真的很好吃”，情绪为开心，则自动生成的表情音频为：年轻小伙子开心地说“真的很好吃”。

本实施例中，在对前景图像中的人物或动物的脸部特征点进行变换时，还进一步通过对脸部特征点变换矩阵中人物或动物嘴唇最上方点和嘴唇最下方点的差值进行计算，根据计算的嘴唇上下点的差值大小(优选取最大值)，计算表情音频中各帧音频对应的音量，其中嘴唇上下点的差值与表情音频中各帧音频对应的音量存在正向关联关系。

605、对表情音频、各帧表情图进行音视频合成，得到视频文件；

606、将视频文件分别与预置视频表情图标、预置视频展示图标关联保存，得到视频表情包。

本实施例中，优选将音频与动画进行搭配从而形成视频表情包。视频表情包与现有视频表情包之间的区别在于前者属于有声动画表情包，而后者属于无声动画表情包。本实施例的视频表情包不仅通过动画形式表达表情，同时还通过音频形式传递表情包所具有的更多信息，提升了表情包表达信息的丰富程度，同时一键生成视频表情包，大大提升了表情包的制作效率。

本实施例中，为便于用户直观操作视频表情包，因此引入了视频表情图标和视频展示图标，其中，视频表情图标是一种应用于在表情包发送方指代视频表情包的图标，视频表情图标与视频表情包的视频文件关联，用户通过触控视频表情图标即可发送与该视频表情图标关联的视频文件，从而实现视频表情包的发送。而视频展示图标则是一种应用于在表情包接收方指代视频表情包的图标，视频展示图标也与视频表情包的视频文件关联，表情包接收方接收到视频文件与视频展示图标后，在接收方进行展示与播放，从而实现视频表情包的接收与播放。

本实施例对于视频表情图标以及视频展示图标的形式不限，可以是使用配置的特定图标，也可以是使用视频文件中的一帧图作为图标。

可选的，在一实施例中，通过以下方式发送视频表情包：

检测是否存在视频表情图标的触控操作；

若存在，则获取与视频表情图标关联的视频文件以及获取与视频文件关联的视频展示图标；

发送视频文件以及视频展示图标。

可选的，在一实施例中，通过以下方式接收并播放视频表情包：

接收视频文件与视频展示图标；

显示视频展示图标以及视频文件的播放时长，并播放视频文件。

本可选实施例中，视频表情包由视频文件、视频表情图标以及视频展示图标三部分组成，三者关联保存，其中，对于视频表情图标以及视频展示图标的内容不限，可以是配置的图标，也可以是将视频文件中的一帧图作为图标。视频表情图标可以区分不同的视频文件，每一个视频表情图标对应一个id，而每一个id对应一个视频文件，用户点击视频表情图标即可触发发送视频文件和视频展示图标，接收方接收视频展示图标和视频文件，在界面上展示视频展示图标，并自动播放视频文件。

上面对本发明实施例中表情包生成方法进行了描述，下面对本发明实施例中表情包生成装置进行描述，请参阅图7，本发明实施例中表情包生成装置一个实施例包括：

获取模块701，用于获取用于生成表情包的原始素材；

确定模块702，用于确定待生成的表情包类别和表情包类别对应的表情包生成参数；表情包类别包括以下类别的一种或多种：音频类表情包、静态图片类表情包、动态图片类表情包、视频类表情包；

生成模块703，用于利用原始素材和表情包生成参数，生成表情包。

可选的，在一实施例中，当确定的待生成的表情包类别包括音频类表情包时，生成模块703具体用于：

获得原始素材对应的文本数据；

利用曲谱数据和文本数据，生成音频数据；曲谱数据为音频类表情包对应的表情包生成参数；

利用音频数据生成原始素材对应的音频表情包。

可选的，在一实施例中，生成模块703还用于：

可选的，在一实施例中，当原始素材为音频素材时，生成模块703还用于：

识别音频素材对应的用户发音特征；

利用曲谱数据、文本数据和用户发音特征，生成音频数据。

可选的，在一实施例中，生成模块703还用于：

可选的，在一实施例中，当确定的待生成的表情包类别包括静态图片类表情包、动态图片类表情包或视频类表情包时，生成模块703包括：

预处理单元，用于对原始素材进行预处理；

加工单元，用于根据表情包生成参数，对预处理后的原始素材进行加工，得到表情包。

可选的，在一实施例中，当原始素材包含图片素材时，预处理单元具体用于：

可选的，在一实施例中，当确定的待生成的表情包类别包括静态图片类表情包时，加工单元具体用于：

根据脸部特征点变换矩阵，对前景图像中人物或动物的脸部特征点进行变换，得到表情图；

根据图片文字说明，在表情图上添加文字水印，得到静态图片表情包；脸部特征点变换矩阵和图片文字说明为静态图片类表情包对应的表情包生成参数。

可选的，在一实施例中，当确定的待生成的表情包类别包括动态图片类表情包时，加工单元具体用于：

根据多个时间戳以及各时间戳分别对应的脸部特征点变换矩阵，依次对前景图像中人物或动物的脸部特征点进行变换，得到多帧具有时间顺序的表情图；

对各帧表情图进行动态图片合成，得到动态图片表情包；时间戳和脸部特征点变换矩阵为动态图片类表情包对应的表情包生成参数。

可选的，在一实施例中，当确定的待生成的表情包类别包括视频类表情包时，加工单元具体用于：

根据前景图像中识别出的人物或动物的脸部特征，生成人物或动物的表情音频；

根据多个时间戳以及各时间戳分别对应的脸部特征点变换矩阵，计算表情音频中各帧音频对应的音量，并依次对前景图像中人物或动物的脸部特征点进行变换，得到多帧具有时间顺序的表情图；

对表情音频、各帧表情图进行音视频合成，得到视频文件；

将视频文件分别与预置视频表情图标、预置视频展示图标关联，得到视频表情包。

当原始素材还包括文字素材时，对文字素材进行音频合成，得到人物或动物的表情音频；

对表情音频、各帧表情图进行音视频合成，得到视频文件；

可选的，在一实施例中，表情包生成装置还包括：

检测模块，用于检测是否存在视频表情图标的触控操作；

获得模块，用于若存在视频表情图标的触控操作，则获取与视频表情图标关联的视频文件以及获取与视频文件关联的视频展示图标；

发送模块，用于发送视频文件以及视频展示图标。

可选的，在一实施例中，表情包生成装置还包括：

接收模块，用于接收视频文件与视频展示图标；

播放模块，用于显示视频展示图标以及视频文件的播放时长，并播放视频文件。

上面图7从模块化功能实体的角度对本发明实施例中的表情包生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中电子设备进行详细描述。

图8是本发明实施例提供的一种电子设备的结构示意图，该电子设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对电子设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在电子设备500上执行存储介质530中的一系列指令操作。

电子设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种电子设备，电子设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的表情包生成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行表情包生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种表情包生成方法，其特征在于，所述方法包括：

获取用于生成表情包的原始素材；

利用所述原始素材和所述表情包生成参数，生成表情包。

2.根据权利要求1所述的表情包生成方法，其特征在于，当确定的待生成的表情包类别包括音频类表情包时，所述利用所述原始素材和所述表情包生成参数，生成表情包，包括：

获得所述原始素材对应的文本数据；

利用所述音频数据生成所述原始素材对应的音频表情包。

3.根据权利要求2所述的表情包生成方法，其特征在于，所述获得所述原始素材对应的文本数据包括：

4.根据权利要求2所述的表情包生成方法，其特征在于，所述当所述原始素材为音频素材时，所述利用曲谱数据和所述文本数据，生成音频数据包括：

识别所述音频素材对应的用户发音特征；

5.根据权利要求2所述的表情包生成方法，其特征在于，所述利用所述音频数据生成所述原始素材对应的音频表情包，包括：

6.根据权利要求1所述的表情包生成方法，其特征在于，当确定的待生成的表情包类别包括静态图片类表情包、动态图片类表情包或视频类表情包时，所述利用所述原始素材和所述表情包生成参数，生成表情包包括：

对所述原始素材进行预处理；

其中，所述对所述原始素材进行预处理包括：

7.根据权利要求6所述的表情包生成方法，其特征在于，当确定的待生成的表情包类别包括静态图片类表情包时，所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包包括：

8.根据权利要求6所述的表情包生成方法，其特征在于，当确定的待生成的表情包类别包括动态图片类表情包时，所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包包括：

9.根据权利要求6所述的表情包生成方法，其特征在于，当确定的待生成的表情包类别包括视频类表情包时，所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包包括：

10.根据权利要求6所述的表情包生成方法，其特征在于，当确定的待生成的表情包类别包括视频类表情包时，所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包包括：

11.根据权利要求9或10所述的表情包生成方法，其特征在于，在所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包之后，还包括：

检测是否存在视频表情图标的触控操作；

发送所述视频文件以及所述视频展示图标。

12.根据权利要求11所述的表情包生成方法，其特征在于，在所述根据所述表情包生成参数，对预处理后的所述原始素材进行加工，得到表情包之后，还包括：

接收所述视频文件与所述视频展示图标；

13.一种表情包生成装置，其特征在于，所述装置包括：

获取模块，用于获取用于生成表情包的原始素材；

14.一种电子设备，其特征在于，所述电子设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述电子设备执行如权利要求1-12中任一项所述的表情包生成方法。

15.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-12中任一项所述的表情包生成方法。