CN111882625B

CN111882625B - 生成动态图的方法、装置、电子设备及存储介质

Info

Publication number: CN111882625B
Application number: CN202010645006.XA
Authority: CN
Inventors: 谭冲; 李马丁; 章佳杰; 郑云飞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2024-04-05
Anticipated expiration: 2040-07-07
Also published as: CN111882625A

Abstract

本公开是关于一种生成动态图的方法、装置、电子设备及存储介质，涉及计算机处理技术领域，该方法包括：从视频中获取含有表情信息的图像帧序列，其中所述图像帧序列中的每一帧图像均包括所述表情信息；识别所述表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息；根据所述动图情感信息生成与所述动图情感信息对应的情感文字；根据所述图像帧序列和所述情感文字，生成动态图。故此，本公开中并不需要搜集大量动态图以及对应的视频进行标注训练，由此节省了人工成本，并且，为自动为动态图匹配对应的情感文字，解决了现有技术中生成的动态图缺乏趣味性，难以在社交媒体平台上流传的问题。

Description

生成动态图的方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种生成动态图的方法、装置、电子设备及存储介质。

背景技术

动态图(Graphics Interchange Format，GIF)以位图的形式被广泛地应用于社交媒体、网络新闻、数字论坛、信息公告甚至是通信邮件中。以此来提升使用者的情感表达效果。动态图是介于视频与静态图像之间的特殊媒体，作为简洁无声、循环播放、低存储介质消耗以及丰富情感表达的记录时空变化的容器。并且动态图具有良好的平台兼容性、可移植性以及需要较低的网络传输带宽等特点。目前主要利用动画录制软件ScreenToGif、在线动态图片编辑工具Ezgif等制作工具从影视作品、卡通动画、电视节目等视频媒体中产生，通过借助物体面部表情、动作姿态与对应的姿态语言进行情感表达，是情感研究的有力媒介。因为动态图具有要求低网络传输带宽、情感表达丰富等特点，近年来受到了广泛地应用。其中主要被应用于社交情感表达，在网络社交平台上被广泛传播。

现有技术中，可采用视频自动生成动态图，该方法主要是通过深度学习模型自动从视频生成动态图，但是，需要搜集或者制作大量的动态图以及存储与之对应的视频作为标注数据集以训练深度学习模型。例如，为了收集训练样本需要人工的从大量的视频中抽取出动态图，然后进行标注。再以有标注的训练样本，训练模型，以使得模型能够学习如何从各视频中抽取出动态图。故此，相应技术的方法不仅会消耗大量的人工成本来制作训练样本，在训练的阶段由于训练样本和视频数据量较大，对设备的处理性能也有一定的要求。

发明内容

本公开提供一种生成动态图的方法、装置、电子设备及存储介质，以解决现有技术中消耗大量的人工成本的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种生成动态图的方法，包括：

从视频中获取含有表情信息的图像帧序列，其中所述图像帧序列中的每一帧图像均包括所述表情信息；

识别所述表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息；

根据所述动图情感信息生成与所述动图情感信息对应的情感文字；

根据所述图像帧序列和所述情感文字，生成动态图。

在一个实施例中，所述从视频中获取含有表情信息的图像帧序列，包括：

从所述视频中筛选出属于同一镜头的视频片段；

对所述视频片段进行目标对象检测；

若在所述视频片段中检测出所述目标对象，则从所述视频片段中筛选出所述目标对象的含有所述表情信息的连续多帧图像构成所述图像帧序列。

在一个实施例中，所述从所述视频片段中筛选出所述目标对象的含有所述表情信息的连续多帧图像构成所述图像帧序列，包括：

对所述视频片段进行等间隔采样，得到样本图像序列；

将所述样本图像序列输入所述目标对象的表情分类模型，得到所述目标对象在每张样本图像中的表情类别；

若所述目标对象在连续多张样本图像中均具有目标表情类别，则从所述视频片段中截取含有所述目标表情类别的片段部分作为所述图像帧序列。

在一个实施例中，所述将所述样本图像序列输入所述目标对象的表情分类模型之前，所述方法还包括：

将所述样本图像序列进行脸部特征识别，得到所述目标对象的脸部区域和脸部特征的置信度；

将所述置信度低于置信度阈值的样本图像从所述样本图像序列中剔除；

对剔除样本图像后的样本图像序列，裁剪出每张样本图像的所述脸部区域，由每张样本图像的脸部区域重构出的所述样本图像序列。

在一个实施例中，所述识别所述表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息，包括：

识别所述图像帧序列中多帧图像的表情信息分别对应的情感信息类别；

根据所述多帧图像的情感信息类别进行主情感分析，得到所述图像帧序列的主情感作为所述动图情感信息。

在一个实施例中，每种情感对应多条情感文字，则所述根据所述动图情感信息生成与所述动图情感信息对应的情感文字，包括：

在所述动图情感信息对应的多条情感文字中，随机选择一条情感文字。

在一个实施例中，所述根据所述图像帧序列和所述情感文字，生成动态图，包括：

对所述图像帧序列中的每帧图像，按照包含所述目标对象的脸部区域的裁剪框，从所述图像中裁剪出包含所述脸部区域的图像部分作为所述动态图的一帧图像；

将所述情感文字添加到所述动态图的每帧图像中，生成图文结合的所述动态图。

在一个实施例中，所述将所述情感文字添加到所述动态图的每帧图像中，包括：

根据所述脸部区域在所述动态图中的位置信息，确定出与所述脸部区域不重叠的文字展示区域；

将所述情感文字添加到每帧图像的所述文字展示区域中。

在一个实施例中，所述方法还包括：

识别所述文字展示区域的背景色，将所述情感文字的颜色设置为与所述背色不同的颜色。

根据本公开实施例的第二方面，提供一种生成动态图的装置，所述装置包括：

获取模块，被配置为执行从视频中获取含有表情信息的图像帧序列，其中所述图像帧序列中的每一帧图像均包括所述表情信息；

动图情感信息确定模块，被配置为执行识别所述表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息；

情感文字生成模块，被配置为执行根据所述动图情感信息生成与所述动图情感信息对应的情感文字；

动态图生成模块，被配置为执行根据所述图像帧序列和所述情感文字，生成动态图。

在一个实施例中，所述获取模块，具体被配置为执行：

从所述视频中筛选出属于同一镜头的视频片段；

对所述视频片段进行目标对象检测；

在一个实施例中，所述获取模块，还被配置为执行：

对所述视频片段进行等间隔采样，得到样本图像序列；

在一个实施例中，所述装置还包括：

脸部特征识别模块，被配置为所述将所述样本图像序列输入所述目标对象的表情分类模型之前，执行将所述样本图像序列进行脸部特征识别，得到所述目标对象的脸部区域和脸部特征的置信度；

剔除模块，被配置为执行将所述置信度低于置信度阈值的样本图像从所述样本图像序列中剔除；

裁剪模块，被配置为执行对剔除样本图像后的样本图像序列，裁剪出每张样本图像的所述脸部区域，由每张样本图像的脸部区域重构出的所述样本图像序列。

在一个实施例中，所述动图情感信息确定模块，具体被配置为执行：

在一个实施例中，每种情感对应多条情感文字，所述情感文字生成模块，具体被配置为执行：

在一个实施例中，所述动态图生成模块，具体被配置为执行：

将所述情感文字添加到每帧图像的所述文字展示区域中。

在一个实施例中，所述装置还包括：

背景色识别模块，被配置为执行识别所述文字展示区域的背景色，将所述情感文字的颜色设置为与所述背色不同的颜色。

根据本公开实施例的第三方面，提供一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令；所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的方法。

根据本公开实施例提供的第四方面，提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序用于执行如第一方面所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开提供一种生成动态图的方法、装置、电子设备和存储介质。该方法包括：从视频中获取含有表情信息的图像帧序列，其中所述图像帧序列中的每一帧图像均包括所述表情信息；识别所述表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息；根据所述动图情感信息生成与所述动图情感信息对应的情感文字；根据所述图像帧序列和所述情感文字，生成动态图。由此，本公开通过获取视频中的图像帧序列并进行识别情感信息，以便于自动为动态图匹配与动态情感信息对应的情感文字。故此，本公开中并不需要搜集大量动态图以及对应的视频进行标注训练，由此节省了人工成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开实施例示出的一种应用场景的示意图；

图2是根据本公开实施例示出的一种生成动态图的方法的流程图；

图3是根据本公开实施例示出的一种显示情绪文字的示意图；

图4是根据本公开实施例示出的一种生成动态图的完整方法流程图；

图5是根据本公开实施例示出的一种生成动态图的装置的框图；

图6是根据本公开实施例示出的一种电子设备的框图；

图7是根据本公开实施例示出的一种生成动态图的终端的框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例中“根据A确定B”并不意味着仅仅根据A确定B，还可以根据A和其它信息确定B。“A包括B”并不意味着A仅仅包括B，A还可能包括其他信息，如C、D等。

下面对文中出现的一些词语进行解释：

1、本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、本公开实施例中术语“电子设备”可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义。

发明人研究发现，现有技术中主要是通过深度学习模型自动从视频生成动态图的，但是，此方法需要搜集或者制作大量的动态图以及存储与之对应的视频作为标注数据集以训练深度学习模型，故此，会消耗大量的人工成本；在训练阶段对设备的要求也比较高。此外，现有技术生成的动态图没有对视频片段蕴含的情感进行分析，从而没有为动态图自动地匹配对应的情感文字，而人工制作的动态图为了增强情感表达效果通常会为动态图添加情感文字。所以会导致生成的动态图缺乏趣味性，难以在社交媒体平台上流传。因此，本公开提供一种生成动态图的方法、装置、电子设备以及存储介质。下面，结合附图对本公开进行详细的说明。

如图1所示，为一种生成动态图的应用场景，该应用场景中包括多个终端设备110和服务器130，图1中是以三个终端设备110为例，实际上不限制终端设备110的数量。终端设备110中安装有用于展示网络资源信息的客户端120(例如用于制作和播放动态图的客户端)。客户端120和服务器130之间可以通过通信网络进行通信。终端设备110例如手机、平板电脑和个人计算机等。服务器130可以通过单个服务器实现，也可以通过多个服务器实现。服务器130可以通过实体服务器实现，也可以通过虚拟服务器实现。

在一种可能的应用场景中，用户A使用终端设备110中的客户端120录制一段视频1，客户端120将视频1发送给服务端130。服务端130从视频1中获取含有表情信息的图像帧序列，其中所述图像帧序列中的每一帧图像均包括所述表情信息；并识别该表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息；之后服务器130根据确定出的动图情感信息生成与该动图情感信息对应的情感文字。最后服务器130根据所述图像帧序列和所述情感文字，生成动态图。然后将所述动态图发送给多个终端设备110的客户端120，以便于用户进行浏览观看。

图2为本申请实施例的一种生成动态图的方法的流程示意图，如图2所示，可包括以下步骤：

步骤S21，从视频中获取含有表情信息的图像帧序列，其中所述图像帧序列中的每一帧图像均包括所述表情信息；

该步骤可具体实施为，步骤S2101：从所述视频中筛选出属于同一镜头的视频片段；其中，筛选出属于同一镜头的视频片段的方法为：

首先将待处理的视频利用opencv或者ffmpeg解码为视频片段，然后将视频片段中相邻帧图像转换为对应的灰度图像。计算灰度图像帧间的像素统计直方图，并利用滑动窗口机制计算滑动窗口计算相邻帧图像(即当前帧与前一帧)间像素统计直方图差异最大的图像帧，以此来确定出各待定边缘帧。其中，公式为：(A-B)/m>Q,其中，A为当前待定边缘帧的像素统计图像图，B为前一帧待定边缘帧的像素统计直方图。m为当前待定边缘帧与前一帧待定边缘帧之间的各相邻帧间的像素统计直方图的差异的平均值。Q为指定倍数。若满足上述公式，则确定出当前待定边缘帧为待处理视频的边缘帧。可根据该边缘帧进行分割。

例如，视频1长度为30帧。以10帧图像为长度的滑动窗口为例，在滑动窗口内搜索相邻帧间像素统计直方图差异最大的图像帧，并以该图像帧作为视频1的待定边缘帧。若确定出的待定边缘帧包括：待定边缘帧1、待定边缘帧2和待定边缘帧3。确定待定边缘帧1和待定边缘帧2的像素统计直方图的差异，和待定边缘帧1与待定边缘帧2之间的各相邻帧间的像素统计直方图的差异的平均值，若待定边缘帧1和待定边缘帧2的像素统计直方图的差异与待定边缘帧1与待定边缘帧2之间的各相邻帧间的像素统计直方图的差异的平均值相除得到的倍数不大于指定倍数，则确定出待定图像帧2不是该视频的边缘帧。然后确定待定图像帧2和待定图像帧3之间的像素统计直方图的差异，若待定边缘帧2和待定边缘帧3的像素统计直方图的差异与待定边缘帧2与待定边缘帧3之间的各相邻帧间的像素统计直方图的差异的平均值相除得到的倍数大于指定倍数，则确定出待定边缘帧3为视频1的边缘帧。

步骤S2102：对所述视频片段进行目标对象检测；

步骤S2103：若在所述视频片段中检测出所述目标对象，则从所述视频片段中筛选出所述目标对象的含有所述表情信息的连续多帧图像构成所述图像帧序列。

由此，通过在视频中筛选出同一镜头下的同一目标对象的含有表情信息的连续多帧图像，以便于后续生成的动态图是自然且连贯的。

在一个实施例中，前文所述的步骤S2103可具体实施为：对所述视频片段进行等间隔采样，得到样本图像序列；将所述样本图像序列输入所述目标对象的表情分类模型，得到所述目标对象在每张样本图像中的表情类别；若所述目标对象在连续多张样本图像中均具有目标表情类别，则从所述视频片段中截取含有所述目标表情类别的片段部分作为所述图像帧序列。

例如，视频片段1有10帧图像，对视频片段进行等间隔采样后，得到5帧样本图像，组成样本序列，包括：样本图像1、样本图像2、样本图像3、样本图像4和样本图像5。样本序列输入表情分类模型后，得到每个样本图像的表情类别，若确定出样本图像1-样本图像4都具有目标表情，则将样本图像1-样本图像4映射到视频片段1中对应视频片段1中的前8帧图像。

其中，表情分类模型为预先训练好的，首先，需要搜集物体(包括人类、猫和狗等)的脸部图像，进行数据标注后训练表情分类模型。其中，可以根据采集的不同物体的进行标注后的脸部图像集分别训练二分类网络模型(如Resnet、VGG)，以用来识别人脸、猫脸或者狗脸等对象的表情类别。其中，表情类别可以分为夸张表情类别和正常表情类别。表情分类模型可以输出表情类别标签0和表情类别标签1，0可以代表正常表情类别，1可以代表夸张表情类别。

需要说明的是：如果一帧图像中存在多个目标对象，只要其中一个目标对象的脸部特征被识别为目标表情类别，则确定该帧图像包含目标表情类别。

由此，可通过对视频片段进行采样的方式确定出样本图像序列，以此来提高运算效率。并将样本图像序列输入表情分类模型来确定出连续多张样本图像中均具有目标表情类别的图像，以此来构成图像帧序列。

在将所述样本图像帧序列输入所述目标对象的表情分类模型之前，为了确保识别出的目标表情类别的准确性，在一个实施例中，将所述样本图像序列进行脸部特征识别，得到所述目标对象的脸部区域和脸部特征的置信度；将所述置信度低于置信度阈值的样本图像从所述样本图像序列中剔除；对剔除样本图像后的样本图像序列，裁剪出每张样本图像的所述脸部区域，由每张样本图像的脸部区域重构出的所述样本图像序列。

其中，样本图像序列可以按照样本图像的帧号依次输入到脸部特征识别神经网络模型中，确定脸部特征识别神经网络模型输出每帧样本图像的目标对象的脸部区域和脸部特征的置信度。该置信度用于表征脸部特征的可信程度。可将置信度低于置信度阈值的样本图像从所述样本图像序列中剔除，以此来减少识别误差。

上述脸部特征识别神经网络模型是预先训练好的，具体方法可以搜集含有对象脸部特征的图像集，在搜集的图像集中标注本公开中涉及的对象的脸部区域与对象类别信息，然后根据标注的数据集训练脸部特征识别神经网络模型(例如YOLO v3)，以识别样本图像序列中目标对象的脸部区域和脸部特征的置信度。

由此，可通过脸部特征的置信度来确定样本图像是否需要剔除，以此来确保识别出的目标表情类别的准确性。

步骤S22：识别所述表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息；

在一个实施例中，识别所述图像帧序列中多帧图像的表情信息分别对应的情感信息类别；根据所述多帧图像的情感信息类别进行主情感分析，得到所述图像帧序列的主情感作为所述动图情感信息。

具体的，可将图像帧序列中多帧图像的脸部区域输入到情感信息识别的神经网络模型中，由情感信息识别的神经网络模型输出情感信息类别。

首先，需要搜集不同物体(例如，人类，猫和狗等)的不同脸部情绪的图像，其中一部分图像来源于对表情分类模型搜集的图像集的进一步标注。脸部情感信息类别可以因不同的物体类别而异，例如人脸情感可以分为高兴、生气、伤心、厌恶、惊讶、害怕与面无情绪等。所以需要训练不同物体的情感信息识别的神经网络模型，以识别图像帧中不同物体的情感信息。

情感信息识别的神经网络模型的类型可以为Resnet或者VGG，还可以使用表情分类模型中的网络参数作为初始参数，以达到预训练网络模型的效果。

得到多帧图像的情感信息类别之后，可根据各情感信息类别的众数来确定出多帧图像的主情感，例如，多帧图像的各情感信息类别中高兴类别是最多的，则可将高兴类别作为多帧图像的主情感。并将高兴类别作为动图情感信息。

由此，通过确定多帧图像的表情信息对应的情感信息类别来确定出动图的情感信息。

在执行步骤S23之前，需要根据图像帧序列中多帧图像的表情信息分别对应的情感信息类别来判断所述图像帧序列中的多帧图像是否满足预设条件。只有满足预设条件时才能执行步骤S23。若不满足，则结束。其中，预设条件可包括以下中的任意一种：

预设条件一：存在相同情感信息类别的图像帧在图像帧序列中的占比大于第二阈值。

例如，图像帧序列为10帧图像，其中，图像帧序列中高兴类别对应的图像的总帧数为1帧，生气类别对应的图像的总帧数为8帧，悲伤类别对应的图像的总帧数为1帧，若第二阈值为50％，由于生气类别在图像帧序列中的占比为80％，大于第二阈值。则可确定该多帧图像满足预设条件一。

预设条件二：图像帧序列中存在相同情感信息类别的类别置信度的平均值大于第三阈值。

这里的类别置信度为基于情感信息识别的神经网络模型得到的，用于表征情感信息类别的可信程度。情感信息识别的神经网络模型输出每帧图像的情感信息类别的同时，会输出对应的类别置信度。

例如，若图像帧序列中包含10帧图像，其中，高兴类别对应图像的总帧数为1帧，其第二置信度为80％，生气类别对应的图像的总帧数为8帧，其第二置信度分别为50％，80％，90％，85％，59％，70％，86％，90％，悲伤类别对应的图像的总帧数为1帧，其类别置信度为90％。若第三阈值为0.5，计算出的生气类别对应的类别置信度的平均值为0.76，其大于第三阈值。则可确定出前文所述的图像帧序列符合预设条件。

预设条件三：图像帧序列的总帧数大于第四阈值。

由此，可通过判断图像帧序列中的多帧图像是否满足预设条件，以此来确定图像帧序列是否能够生成动图。

步骤S23：根据所述动图情感信息生成与所述动图情感信息对应的情感文字；

在一个实施例中，在所述动图情感信息对应的多条情感文字中，随机选择一条情感文字。

在实施时，可根据动图情感信息与预先建立的情感文字库中存储的多条情感文字进行匹配，匹配过程可以在与该动图情感信息对应的情感文字序列中随机选取一条情感文字。

由此，通过预先建立的情感文字库中的多条情感信息，在与动图情感信息相对应的多条情感信息中随机选取一条情感文字，以提高动态图的多样性。

步骤S24：根据所述图像帧序列和所述情感文字，生成动态图。

在一个实施例中，对所述图像帧序列中的每帧图像，按照包含所述目标对象的脸部区域的裁剪框，从所述图像中裁剪出包含所述脸部区域的图像部分作为所述动态图的一帧图像；将所述情感文字添加到所述动态图的每帧图像中，生成图文结合的所述动态图。

其中，可以将脸部区域坐标的极值作为脸部区域的裁剪范围。

由此，本公开采用局部信息作为动图的主要元素，相对应现有技术中采用原始图像生成的动态图，传递的情感更加突出并且更有特色。

在一个实施例中，根据所述脸部区域在所述动态图中的位置信息，确定出与所述脸部区域不重叠的文字展示区域；将所述情感文字添加到每帧图像的所述文字展示区域中。

其中，可根据情感文字的内容和裁剪后的每图像帧的大小来确定出情感文字的大小和位置。其中，情感文字的大小等于裁剪后输出的图像的长或者宽除以一定比例。例如，比例为12。情感文字的位置根据情感文字的内容、大小以及裁剪后的图像帧的大小在图像帧下方、上方、右方、左方的顺序居中并且保证情感文字正常显示，不遮挡每帧图像。如图3所示，将情绪文字“呆萌”在图像的上方居中显示，由于文字盖住了图像中猫的脸部，所以可以将情绪文字依次在图像的下方、左方、右方居中显示。

由此，避免情感文字与图像相互遮挡，导致表情不完整。

为了使情感文字更易于解读，在一个实施例中，识别所述文字展示区域的背景色，将所述情感文字的颜色设置为与所述背色不同的颜色。

获取情感文字区域在输出动态图图像帧序列中的图像像素颜色信息，统计该区域图像像素颜色信息并取众数作为该区域主要颜色，选择与该区域的主要颜色不同并较为显眼的颜色作为情感文字的颜色。例如该区域主要颜色为黑色则选取白色作为情感文字的颜色。由此，使得情感文字更加易于解读和观看。

本公开通过获取视频中的图像帧序列并进行识别情感信息，以便于自动为动态图匹配与动态情感信息对应的情感文字。故此，本公开中并不需要搜集大量动态图以及对应的视频进行标注训练，由此节省了人工成本，并且，为自动为动态图匹配对应的情感文字，解决了现有技术中生成的动态图缺乏趣味性，难以在社交媒体平台上流传的问题。

为了更加详细的了解本方案，图4是一种生成动态图的完整方法流程图，可包括以下步骤：

S401：从所述视频中筛选出属于同一镜头的视频片段；

S402：对所述视频片段进行目标对象检测；

S403：若在所述视频片段中检测出所述目标对象，对所述视频片段进行等间隔采样，得到样本图像序列；

S404：将所述样本图像序列进行脸部特征识别，得到所述目标对象的脸部区域和脸部特征的置信度；

S405：将所述置信度低于置信度阈值的样本图像从所述样本图像序列中剔除；

S406：对剔除样本图像后的样本图像序列，裁剪出每张样本图像的所述脸部区域，由每张样本图像的脸部区域重构出的所述样本图像序列；

S407：将所述样本图像序列输入所述目标对象的表情分类模型，得到所述目标对象在每张样本图像中的表情类别；

S408：若所述目标对象在连续多张样本图像中均具有目标表情类别，则从所述视频片段中截取含有所述目标表情类别的片段部分作为所述图像帧序列；

S409：识别所述图像帧序列中多帧图像的表情信息分别对应的情感信息类别；

S410：根据所述多帧图像的情感信息类别进行主情感分析，得到所述图像帧序列的主情感作为所述动图情感信息；

S411：在所述动图情感信息对应的多条情感文字中，随机选择一条情感文字；

S412：对所述图像帧序列中的每帧图像，按照包含所述目标对象的脸部区域的裁剪框，从所述图像中裁剪出包含所述脸部区域的图像部分作为所述动态图的一帧图像；

S413：将所述情感文字添加到所述动态图的每帧图像中，生成图文结合的所述动态图。

图5是根据一示例性实施例示出的一种生成动态图的装置500的框图。参照图5，该装置包括获取模块501、动图情感信息确定模块502、情感文字生成模块503、动态图生成模块504。

获取模块501，被配置为执行从视频中获取含有表情信息的图像帧序列，其中所述图像帧序列中的每一帧图像均包括所述表情信息；

动图情感信息确定模块502，被配置为执行识别所述表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息；

情感文字生成模块503，被配置为执行根据所述动图情感信息生成与所述动图情感信息对应的情感文字；

动态图生成模块504，被配置为执行根据所述图像帧序列和所述情感文字，生成动态图。

在一个实施例中，所述获取模块501，具体被配置为执行：

从所述视频中筛选出属于同一镜头的视频片段；

对所述视频片段进行目标对象检测；

在一个实施例中，所述获取模块501，还被配置为执行：

对所述视频片段进行等间隔采样，得到样本图像序列；

在一个实施例中，所述装置还包括：

脸部特征识别模块505，被配置为所述将所述样本图像序列输入所述目标对象的表情分类模型之前，执行将所述样本图像序列进行脸部特征识别，得到所述目标对象的脸部区域和脸部特征的置信度；

剔除模块506，被配置为执行将所述置信度低于置信度阈值的样本图像从所述样本图像序列中剔除；

裁剪模块507，被配置为执行对剔除样本图像后的样本图像序列，裁剪出每张样本图像的所述脸部区域，由每张样本图像的脸部区域重构出的所述样本图像序列。

在一个实施例中，所述动图情感信息确定模块502，具体被配置为执行：

在一个实施例中，每种情感对应多条情感文字，所述情感文字生成模块503，具体被配置为执行：

在一个实施例中，所述动态图生成模块504，具体被配置为执行：

将所述情感文字添加到每帧图像的所述文字展示区域中。

在一个实施例中，所述装置还包括：

背景色识别模块508，被配置为执行识别所述文字展示区域的背景色，将所述情感文字的颜色设置为与所述背色不同的颜色。

关于上述实施例中的装置，其中各个模块执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备600的框图，该装置包括：

至少一个处理器610；以及与所述至少一个处理器610通信连接的存储器620；其中，所述存储器620存储有可被所述至少一个处理器610执行的指令；所述指令被所述至少一个处理器610执行，以使所述至少一个处理器610能够执行根据权利要求1-9中任一项所述的方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器620，上述指令可由电子设备600的处理器610执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开实施例中，如图7所示，本公开实施例给出一种生成动态图的终端700，包括：射频(Radio Frequency，RF)电路710、电源720、处理器730、存储器740、输入单元750、显示单元760、摄像头770、通信接口780、以及无线保真(Wireless Fidelity，Wi-Fi)模块790等部件。本领域技术人员可以理解，图7中示出的终端的结构并不构成对终端的限定，本申请实施例提供的终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对所述终端700的各个构成部件进行具体的介绍：

所述RF电路710可用于通信或通话过程中，数据的接收和发送。特别地，所述RF电路710在接收到基站的下行数据后，发送给所述处理器730处理；另外，将待发送的上行数据发送给基站。通常，所述RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。

此外，RF电路710还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobilecommunication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

Wi-Fi技术属于短距离无线传输技术，所述终端700通过Wi-Fi模块790可以连接接入点(Access Point，AP)，从而实现数据网络的访问。所述Wi-Fi模块790可用于通信过程中，数据的接收和发送。

所述终端700可以通过所述通信接口780与其他终端实现物理连接。可选的，所述通信接口780与所述其他终端的通信接口通过电缆连接，实现所述终端700和其他终端之间的数据传输。

由于在本申请实施例中，所述终端700能够实现通信业务，向其他联系人发送信息，因此所述终端700需要具有数据传输功能，即所述终端700内部需要包含通信模块。虽然图7示出了所述RF电路710、所述Wi-Fi模块790、和所述通信接口780等通信模块，但是可以理解的是，所述终端700中存在上述部件中的至少一个或者其他用于实现通信的通信模块(如蓝牙模块)，以进行数据传输。

例如，当所述终端700为手机时，所述终端700可以包含所述RF电路710，还可以包含所述Wi-Fi模块790；当所述终端700为计算机时，所述终端700可以包含所述通信接口780，还可以包含所述Wi-Fi模块790；当所述终端700为平板电脑时，所述终端700可以包含所述Wi-Fi模块。

所述存储器740可用于存储软件程序以及模块。所述处理器730通过运行存储在所述存储器740的软件程序以及模块，从而执行所述终端700的各种功能应用以及数据处理，并且当处理器730执行存储器740中的程序代码后，可以实现本公开实施例图2、图4中的部分或全部过程。

可选的，所述存储器740可以主要包括存储程序区和存储数据区。其中，存储程序区可存储操作系统、各种应用程序(比如通信应用)以及人脸识别模块等；存储数据区可存储根据所述终端的使用所创建的数据(比如各种图片、视频文件等多媒体文件，以及人脸信息模板)等。

此外，所述存储器740可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述输入单元750可用于接收用户输入的数字或字符信息，以及产生与所述终端700的用户设置以及功能控制有关的键信号输入。

可选的，输入单元750可包括触控面板751以及其他输入终端752。

其中，所述触控面板751，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在所述触控面板751上或在所述触控面板751附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，所述触控面板751可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给所述处理器730，并能接收所述处理器730发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现所述触控面板751。

可选的，所述其他输入终端752可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元760可用于显示由用户输入的信息或提供给用户的信息以及所述终端700的各种菜单。所述显示单元760即为所述终端700的显示系统，用于呈现界面，实现人机交互。

所述显示单元760可以包括显示面板761。可选的，所述显示面板761可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-EmittingDiode，OLED)等形式来配置。

进一步的，所述触控面板751可覆盖所述显示面板761，当所述触控面板751检测到在其上或附近的触摸操作后，传送给所述处理器730以确定触摸事件的类型，随后所述处理器730根据触摸事件的类型在所述显示面板761上提供相应的视觉输出。

虽然在图7中，所述触控面板751与所述显示面板761是作为两个独立的部件来实现所述终端700的输入和输入功能，但是在某些实施例中，可以将所述触控面板751与所述显示面板761集成而实现所述终端700的输入和输出功能。

所述处理器730是所述终端700的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在所述存储器740内的软件程序和/或模块，以及调用存储在所述存储器740内的数据，执行所述终端700的各种功能和处理数据，从而实现基于所述终端的多种业务。

可选的，所述处理器730可包括一个或多个处理单元。可选的，所述处理器730可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到所述处理器730中。

所述摄像头770，用于实现所述终端700的拍摄功能，拍摄图片或视频。所述摄像头770还可以用于实现终端700的扫描功能，对扫描对象(二维码/条形码)进行扫描。

所述终端700还包括用于给各个部件供电的电源720(比如电池)。可选的，所述电源720可以通过电源管理系统与所述处理器730逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

需要说明的是，本公开实施例处理器730可以执行图6中处理器610的功能，存储器740存储处理器610中的内容。

另外，在示例性实施例中，本公开还提供了一种存储介质，当存储介质中的指令由上述电子设备的处理器执行时，使得上述电子设备能够实现本公开实施例中的生成动态图方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种生成动态图的方法，其特征在于，该方法包括：

从视频中获取含有表情信息的图像帧序列，具体包括：

将所述视频解码为视频片段，并将所述视频片段中相邻帧图像转换为对应的灰度图像；确定灰度图像帧间的像素统计直方图，并利用滑动窗口机制计算相邻帧图像间像素统计直方图差异最大的图像帧，基于所述图像帧对所述视频片段进行分割，得到属于同一镜头的至少两个视频片段；针对任意一个属于同一镜头的视频片段，对所述视频片段进行目标对象检测；若在所述视频片段中检测出所述目标对象，则从所述视频片段中筛选出所述目标对象的含有所述表情信息的连续多帧图像构成所述图像帧序列；其中所述图像帧序列中的每一帧图像均包括所述表情信息；

根据所述图像帧序列和所述情感文字，生成动态图。

2.根据权利要求1所述的方法，其特征在于，所述从所述视频片段中筛选出所述目标对象的含有所述表情信息的连续多帧图像构成所述图像帧序列，包括：

对所述视频片段进行等间隔采样，得到样本图像序列；

3.根据权利要求2所述的方法，其特征在于，所述将所述样本图像序列输入所述目标对象的表情分类模型之前，所述方法还包括：

4.根据权利要求1-3中任一所述的方法，其特征在于，所述识别所述表情信息对应的情感信息，以确定所述图像帧序列对应的动图情感信息，包括

5.根据权利要求1-3中任一所述的方法，其特征在于，每种情感对应多条情感文字，则所述根据所述动图情感信息生成与所述动图情感信息对应的情感文字，包括：

6.根据权利要求1-3中任一所述的方法，其特征在于，所述根据所述图像帧序列和所述情感文字，生成动态图，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述情感文字添加到所述动态图的每帧图像中，包括：

将所述情感文字添加到每帧图像的所述文字展示区域中。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

识别所述文字展示区域的背景色，将所述情感文字的颜色设置为与所述背景色不同的颜色。

9.一种生成动态图的装置，其特征在于，所述装置包括：

获取模块，被配置为执行从视频中获取含有表情信息的图像帧序列，其中所述图像帧序列中的每一帧图像均包括所述表情信息；其中，所述获取模块，具体被配置为：

将所述视频解码为视频片段，并将所述视频片段中相邻帧图像转换为对应的灰度图像；确定灰度图像帧间的像素统计直方图，并利用滑动窗口机制计算相邻帧图像间像素统计直方图差异最大的图像帧，基于所述图像帧对所述视频片段进行分割，得到属于同一镜头的至少两个视频片段；针对任意一个属于同一镜头的视频片段，对所述视频片段进行目标对象检测；若在所述视频片段中检测出所述目标对象，则从所述视频片段中筛选出所述目标对象的含有所述表情信息的连续多帧图像构成所述图像帧序列；

10.根据权利要求9所述的装置，其特征在于，所述获取模块，还被配置为执行：

对所述视频片段进行等间隔采样，得到样本图像序列；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求9-11中任一所述的装置，其特征在于，所述动图情感信息确定模块，具体被配置为执行：

13.根据权利要求9-11中任一所述的装置，其特征在于，每种情感对应多条情感文字，所述情感文字生成模块，具体被配置为执行：

14.根据权利要求9-11中任一所述的装置，其特征在于，所述动态图生成模块，具体被配置为执行：

15.根据权利要求14所述的装置，其特征在于，所述动态图生成模块，具体被配置为执行：

将所述情感文字添加到每帧图像的所述文字展示区域中。

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

背景色识别模块，被配置为执行识别所述文字展示区域的背景色，将所述情感文字的颜色设置为与所述背景色不同的颜色。

17.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令；所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1-8中任一项所述的方法。

18.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于执行根据权利要求1-8中任一项所述的方法。