CN112235635B

CN112235635B - 动画显示方法、装置、电子设备及存储介质

Info

Publication number: CN112235635B
Application number: CN201910636948.9A
Authority: CN
Inventors: 蒋伟
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2023-03-21
Anticipated expiration: 2039-07-15
Also published as: CN112235635A

Abstract

本发明公开了一种动画显示方法、装置、电子设备及存储介质，属于多媒体技术领域。本发明通过在播放至该视频中的目标片段时，获取观看该视频的对象的图像，由于该目标片段的兴趣特征符合目标条件，因此通常观看视频的对象会做出一些较为不平静的表情，基于该图像确定表情类别，在该视频播放界面中显示对应的互动动画，丰富了终端为对象提供的交互方式，提升了终端在播放视频时的趣味性，优化了对象观看视频时的对象体验。

Description

动画显示方法、装置、电子设备及存储介质

技术领域

本发明涉及多媒体技术领域，特别涉及一种动画显示方法、装置、电子设备及存储介质。

背景技术

随着多媒体技术的发展，用户可以通过终端上的应用客户端观看视频(例如电影、电视剧、综艺节目等)。

在视频播放的过程中，用户可以通过发送弹幕、发送评论、分享视频等方式发表对视频内容的见解，在一些播放直播视频的场景下，用户还可以通过“打赏”的方式为主播赠送虚拟礼物，实现与主播之间的交互。

在上述过程中，终端为用户提供的交互方式较为单一，导致终端在播放视频时缺乏趣味性，降低了用户观看视频时的用户体验。

发明内容

本发明实施例提供了一种动画显示方法、装置、电子设备及存储介质,能够解决播放视频时交互方式单一、缺乏趣味性、用户体验差的问题。该技术方案如下：

一方面，提供了一种动画显示方法，该方法包括：

在视频播放界面中播放视频；

当播放至所述视频中的目标片段时，获取观看所述视频的用户的人脸图像，所述目标片段的兴趣特征符合目标条件；

基于所述人脸图像，确定所述人脸图像对应的表情类别；

在所述视频播放界面中，显示与所述表情类别以及所述目标片段对应的互动动画。

在一种可能实施方式中，所述基于所述人脸图像，确定所述人脸图像对应的表情类别包括：

对所述人脸图像进行特征提取，得到所述人脸图像的人脸特征；

根据所述人脸特征，确定与所述人脸图像对应的表情类别。

在一种可能实施方式中，所述对所述人脸图像进行特征提取，得到所述人脸图像的人脸特征包括：

对所述人脸图像进行人脸特征点检测，确定所述人脸图像中多个人脸特征点；

对所述多个人脸特征点进行卷积处理，得到所述人脸图像的人脸特征。

在一种可能实施方式中，所述根据所述人脸特征，确定与所述人脸图像对应的表情类别包括：

将所述人脸特征输入表情分类模型，通过所述表情分类模型预测所述人脸图像对应于各个表情类别的概率，将概率最高的表情类别确定为所述人脸图像对应的表情类别。

在一种可能实施方式中，所述表情分类模型为多层卷积神经网络，所述多层卷积神经网络包括第一子网络和第二子网络；

所述将所述人脸特征输入表情分类模型，通过所述表情分类模型预测所述人脸图像对应于各个表情类别的概率包括：

将所述人脸特征中多个人脸特征点的位置坐标输入所述第一子网络，通过所述第一子网络中的多个隐藏层对所述多个人脸特征点的位置坐标进行卷积处理，所述第一子网络的最后一个隐藏层输出第一特征图；

将所述人脸特征中多个人脸特征点的Gabor小波系数输入第二子网络，通过所述第二子网络中的多个隐藏层对所述多个人脸特征点的Gabor小波系数进行卷积处理，所述第二子网络的最后一个隐藏层输出第二特征图；

通过全连接层对所述第一特征图和所述第二特征图进行卷积处理和归一化处理，得到所述人脸图像对应于各个表情类别的概率。

在一种可能实施方式中，所述在所述视频播放界面中，显示与所述表情类别对应且与所述目标片段对应的互动动画之前，所述方法还包括：

从与所述目标片段对应的至少一个互动动画中，根据表情类别与互动动画的映射关系，确定与所述表情类别对应的互动动画。

在一种可能实施方式中，所述在视频播放界面中播放视频之后，所述方法还包括：

在所述视频播放界面中显示至少一个动画播放选项；

当检测到对任一个动画播放选项的触控操作时，播放与所述动画播放选项对应的互动动画。

一方面，提供了一种动画获取方法，该方法包括：

获取视频中多个视频片段的兴趣特征；

将所述多个视频片段的兴趣特征输入片段分类模型，通过所述片段分类模型预测所述多个视频片段是否为目标片段，所述目标片段的兴趣特征符合目标条件；

当预测到任一视频片段为目标片段时，获取与所述目标片段对应的至少一个互动动画。

在一种可能实施方式中，所述获取视频中多个视频片段的兴趣特征包括：

根据所述视频的资料信息以及标注信息，获取所述多个视频片段的内容标签；

根据内容标签与兴趣标签的映射关系，将所述多个视频片段的内容标签映射为所述多个视频片段的兴趣标签；

根据所述多个视频片段的兴趣标签，确定各个兴趣标签所占的兴趣权重；

根据所述多个视频片段的兴趣标签和兴趣权重，生成所述多个视频片段的兴趣特征。

在一种可能实施方式中，所述片段分类模型为朴素贝叶斯分类模型，所述通过所述片段分类模型预测所述多个视频片段是否为目标片段包括：

对任一视频片段，通过所述朴素贝叶斯分类模型获取所述视频片段在具有所述视频片段的兴趣特征的条件下是目标片段的概率，以及所述视频片段在具有所述视频片段的兴趣特征的条件下不是目标片段的概率；

当所述是目标片段的概率大于所述不是目标片段的概率时，确定所述视频片段为目标片段。

一方面，提供了一种动画显示装置，该装置包括：

播放模块，用于在视频播放界面中播放视频；

获取模块，用于当播放至所述视频中的目标片段时，获取观看所述视频的用户的人脸图像，所述目标片段的兴趣特征符合目标条件；

确定模块，用于基于所述人脸图像，确定所述人脸图像对应的表情类别；

显示模块，用于在所述视频播放界面中，显示与所述表情类别以及所述目标片段对应的互动动画。

在一种可能实施方式中，所述确定模块包括：

特征提取单元，用于对所述人脸图像进行特征提取，得到所述人脸图像的人脸特征；

确定单元，用于根据所述人脸特征，确定与所述人脸图像对应的表情类别。

在一种可能实施方式中，所述特征提取单元用于：

在一种可能实施方式中，所述确定单元包括：

预测确定子单元，用于将所述人脸特征输入表情分类模型，通过所述表情分类模型预测所述人脸图像对应于各个表情类别的概率，将概率最高的表情类别确定为所述人脸图像对应的表情类别。

所述预测确定子单元用于：

在一种可能实施方式中，所述装置还包括：

在所述视频播放界面中显示至少一个动画播放选项；

一方面，提供了一种动画获取装置，该装置包括：

特征获取模块，用于获取视频中多个视频片段的兴趣特征；

预测模块，用于将所述多个视频片段的兴趣特征输入片段分类模型，通过所述片段分类模型预测所述多个视频片段是否为目标片段，所述目标片段的兴趣特征符合目标条件；

动画获取模块，用于当预测到任一视频片段为目标片段时，获取与所述目标片段对应的至少一个互动动画。

在一种可能实施方式中，所述特征获取模块用于：

在一种可能实施方式中，所述片段分类模型为朴素贝叶斯分类模型，所述预测模块用于：

一方面，提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条指令，该至少一条指令由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的动画显示方法或动画获取方法所执行的操作。

一方面，提供了一种存储介质，该存储介质中存储有至少一条指令，该至少一条指令由处理器加载并执行以实现如上述任一种可能实现方式的动画显示方法或动画获取方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果至少包括：

通过在视频播放界面中播放视频，当播放至该视频中的目标片段时，获取观看该视频的用户的人脸图像，由于该目标片段的兴趣特征符合目标条件，因此通常观看视频的用户会做出一些较为不平静的表情，基于该人脸图像，确定该人脸图像对应的表情类别，在该视频播放界面中，显示与该表情类别以及该目标片段对应的互动动画，使得用户在观看视频时还能够在目标片段的播放时刻，通过互动动画完成与视频内容之间的交互，丰富了终端为用户提供的交互方式，提升了终端在播放视频时的趣味性，优化了用户观看视频时的用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种动画显示方法的实施环境示意图；

图2是本发明实施例提供的一种动画获取方法的流程图；

图3是本发明实施例提供的一种获取兴趣标签的原理性示意图；

图4是本发明实施例提供的一种训练片段分类模型的原理性示意图；

图5是本发明实施例提供的一种动画显示方法的流程图；

图6是本发明实施例提供的一种开启智能交互模式的示意图；

图7是本发明实施例提供的一种人脸特征点的示意图；

图8是本发明实施例提供的一种表情分类模型的结构示意图；

图9是本发明实施例提供的一种表情分类过程的原理性示意图；

图10是本发明实施例提供的一种互动动画的示意图；

图11是本发明实施例提供的一种动画显示方法的原理性示意图；

图12是本发明实施例提供的动画显示装置的结构示意图；

图13是本发明实施例提供的动画获取装置的结构示意图；

图14示出了本发明一个示例性实施例提供的终端1400的结构框图；

图15是本发明实施例提供的服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种动画显示方法的实施环境示意图。参见图1，在该实施环境中可以包括终端101和服务器102，下面进行详述。

其中，该终端101用于进行动画显示，该服务器102用于进行动画获取，该终端101或服务器102可以是任一电子设备，终端101的数量可以是一个或多个，服务器102可以是单机设备，也可以是集群设备，本发明实施例不对终端101或服务器102的数量以及设备类型进行具体限定。

可选地，在该终端101上可以安装有应用客户端，从而该终端101能够基于该应用客户端播放视频，在播放过程中通过执行本发明实施例提供的动画显示方法，从而在视频播放界面中显示动画，以提供更加丰富的交互方式。

示意性地，在交互过程中，当检测到对视频播放选项的触控操作时，终端101向服务器102发送视频加载请求，服务器102根据视频加载请求，确定待加载视频中的一个或多个目标片段，获取各个目标片段对应的至少一个互动动画，将待加载视频的视频资源、各个目标片段的时间戳信息以及各个目标片段对应的互动动画压缩为视频加载响应，将该视频加载响应发送至终端101，终端101基于本发明实施例提供的动画显示方法，在视频播放界面中显示动画。可选地，该互动动画可以是预存在本地数据库中的，也可以是从不在本地的数据库(俗称云端数据库)中下载的。其中，该目标片段的兴趣特征符合目标条件，该目标条件可以是片段分类模型的筛选条件。

在一些实施例中，服务器102可以在获取本地存储的各个视频的目标片段之后，可以将目标片段发送至技术人员的电子设备，由技术人员根据目标片段在电子设备上制作互动动画，在制作完成后，技术人员基于电子设备将互动动画上传至云端数据库，从而当接收到任一终端101的视频加载请求时，服务器102可以从云端数据库中下载各个目标片段的互动动画，不仅能够节约服务器本地的存储空间，而且由于技术人员已经预先为各个目标片段制作好了互动动画，也就形成了较为完善的动画库，使得服务器102能够为每一个视频均提供互动动画，提升了本发明实施例中动画显示方法的普遍应用能力。

在上述情况中，可选地，某一类目标片段可以对应于相同的至少一个互动动画，从而不管终端101请求加载的是哪个视频，服务器102只需要确定视频中各个目标片段的类型，将与该目标片段的类型对应的各个互动动画发送至终端101。例如，对一些武打类的目标片段，服务器102可以发送“锤子”的互动动画，该互动动画用于展示一个锤子锤击反派头部的互动效果，又比如，对一些悲伤类的目标片段，服务器102可以发送“哭泣”的互动动画，该互动动画用于展示一个虚拟形象在擦泪的互动效果。

在一些实施例中，不同视频的不同目标片段可以对应于不同的至少一个互动动画，从而使得各个互动动画更加具有针对性和表现力。例如，对一些喜剧电影中的目标片段，该目标片段的互动动画可以是以主角为原型并通过漫画风格绘制出的动画表情，将该动画表情发送至观看该喜剧电影的终端101，假设某一主角的扮演者以表情丰富闻名，那么终端101接收服务器102发送的动画表情之后，能够在一些主角本身就表情变化丰富的目标片段中，通过展示漫画风格的动画表情，能够呈现更加夸张、更加具有感染力的视觉效果，丰富了用户在观影过程中与影片中角色的交互方式，使得用户能够沉浸式地投入到影片内容中，大大提升了用户的观影体验。

图2是本发明实施例提供的一种动画获取方法的流程图。参见图2，该实施例应用于电子设备，以电子设备为服务器进行说明。在终端进行动画显示之前，可以先由服务器获取互动动画，再将互动动画发送至终端，下面进行详述：

201、服务器根据视频的资料信息以及标注信息，获取该视频中多个视频片段的内容标签。

其中，该服务器为任一能够获取动画的电子设备，该服务器同时还可以用于为各个终端提供视频资源，也即是说获取动画的服务器和提供视频资源的服务器是同一个点设备，当然，在一些实施例中，获取动画的服务器和提供视频资源的服务器也可以是不同的电子设备。

其中，视频的资料信息可以包括视频标题、视频类别或者视频时长中的至少一项，例如，对一些电影视频来说，除了上述信息之外，该资源信息还可以包括导演信息、主演信息、编剧信息、配乐师信息等。

其中，视频的标注信息可以用于表示用户对视频中任一片段的注释，该视频片段是指一些视频中感染力较强的片段，例如，该视频片段可以为视频的重要情节所在的关键片段、视频中被人所津津乐道的经典片段、视频中高质量特效频出的精彩片段等。

可选地，该视频的标注信息可以包括多个视频片段的起始时间戳、终止时间戳、片段主题、片段类别、背景音乐类别或者片段主角中的至少一项，其中，片段主角可以是真人明星，也可以是虚拟形象，例如动画形象、神话传说形象、游戏NPC(non-player character，非玩家角色)形象等。

在一些实施例中，各个视频片段的标注信息可以采用表格的形式来展示，可选地，服务器可以将所有的视频中所有视频片段的标注信息整合在一个表格中，当然，服务器还可以为每个视频中的视频片段单独整合一个表格，便于了服务器基于视频来进行视频片段的标注信息查询。例如，表1为本发明实施例提供的一种标注信息的示意性表格，参见表1，展示了3个视频片段的标注信息，这3个视频片段对应于不同的视频。

表1

在上述步骤201中，服务器可以对每个视频，获取该视频的资料信息，获取用户对该视频中多个视频片段的标注信息，对每个视频片段，对该视频片段的标注信息和视频的资源信息进行标签提取，将提取到的标签确定为该视频片段的内容标签。

在上述过程中，由于内容标签仅用来表示视频片段的内容即可，因此服务器可以将与时间相关的信息都过滤掉，从标注信息和资料信息中，提取与片段内容相关的信息，并去掉重复的标签即可得到该视频片段的内容标签。

在一些实施例中，不同的内容标签还可以对应于不同的内容权重，该内容权重可以用于表示视频片段的区别度。可选地，服务器中可以存储有内容标签与内容权重的映射关系，该内容标签与内容权重的映射关系可以是服务器通过机器学习算法获得的，例如，服务器通过机器学习算法，为区别度较高的内容标签分配较高的权重，为区别度较低的内容标签分配较低的权重。

在一些实施例中，当确定出内容标签之后，服务器可以根据该内容标签与内容权重的映射关系，将内容标签映射至对应的内容权重，该内容权重可以用于计算下述步骤203中的兴趣权重，将在下述步骤203中进行详述。

例如，表2是本发明实施例提供的一种内容标签的示意性表格，参见表2，对视频片段10000而言，由于内容标签“孙悟空”最能够显著地将视频片段10000与其他的视频片段区别开，也即是内容标签“孙悟空”的区别度较高，能够较为显著地体现出该视频片段10000的特性，因此内容标签“孙悟空”的内容权重最大，反之，由于很多视频片段中都可能携带有内容标签“仙女”，因此内容标签“仙女”无法显著地将视频片段10000与其他的视频片段区别开，内容标签“仙女”的区别度较低，内容权重最小。

表2

在一些实施例中，服务器还可以不执行上述步骤201，而是直接将视频片段的标注信息确定为视频片段的内容标签，从而能够降低后续对视频片段分类过程的计算量。

202、服务器根据内容标签与兴趣标签的映射关系，将该多个视频片段的内容标签映射为该多个视频片段的兴趣标签。

在上述过程中，该内容标签与兴趣标签的映射关系可以是预先在本地存储的，在可以是从不在本地的数据库中下载的，该内容标签与兴趣标签的映射关系可以是人工标注得到的，也可以是通过机器学习算法获得的。

在一些实施例中，该兴趣标签还可以具有多级分布的结构，上一级兴趣标签下可以包括多个具有共性特征的下一级兴趣标签。兴趣标签的级数(指所划分的级别数目)可以任一大于或等于1的数值，本发明实施例不对级数的取值进行具体限定。

在上述过程中，当兴趣标签的级数为1时，每个内容标签仅能够映射至一个兴趣标签，而当兴趣标签的级数大于1时，每个内容标签可以映射至不同层级下的多个兴趣标签，当然，不止同一个内容标签能够映射至不同的兴趣标签，通常情况下不同的内容标签也可以映射至相同的一个或多个兴趣标签。

例如，表3是本发明实施例提供的一种内容标签与兴趣标签的映射关系的示意性表格，如表3所示，以级数等于3为例进行说明，在兴趣一级类目“娱乐”下，可以包括兴趣二级类目“娱乐-娱乐明星”，进而在兴趣二级类目“娱乐明星”下，还可以包括兴趣三级类目“娱乐-娱乐明星-六小龄童”。

表3

需要说明的是，当兴趣标签的级数大于1时，服务器可以仅执行内容标签与最后一级兴趣标签之间的映射，当确定出最后一级兴趣标签之后，服务器自动根据该最后一级的兴趣标签，确定除了最后一级之外的各级兴趣标签。例如，服务器将“六小龄童”映射至兴趣三级类目“娱乐-娱乐明星-六小龄童”之后，可以自动确定出兴趣二级类目“娱乐-娱乐明星”、兴趣一级类目“娱乐”，从而服务器无需对每级兴趣标签均执行一次映射，大大节约了映射过程的耗时。

203、服务器根据该多个视频片段的兴趣标签，确定各个兴趣标签所占的兴趣权重。

在上述步骤203中，服务器可以根据各个视频片段的兴趣标签，以及映射至各个兴趣标签的内容标签所对应的内容权重，确定各个兴趣标签所占的兴趣权重。

可选地，对每个兴趣标签，服务器可以获取映射至该兴趣标签的至少一个内容标签，确定该至少一个内容标签的内容权重，将该至少一个内容标签的内容权重相加所得的数值确定为该兴趣标签的兴趣分数，对每个兴趣标签重复执行上述过程，能够得到多个兴趣标签的兴趣分数。

在一些实施例中，当兴趣标签的级数为1时，服务器可以将该多个兴趣标签的兴趣分数相加所得的数值确定为累计总分数，将各个兴趣标签的兴趣分数除以该累计总分数所得的数值，确定为各个兴趣标签的兴趣权重，能够使得兴趣权重体现出对应的内容权重所占的比例。

在一些实施例中，当兴趣标签的级数大于1时，对第一级兴趣标签而言，执行与上述过程类似的方式，将各个第一级兴趣标签的兴趣分数除以上述累计总分数所得的数值，确定为各个第一级兴趣标签的兴趣权重。此外，对于除了第一级之外的任一级兴趣标签而言，服务器可以将该任一级兴趣标签的兴趣分数除以上一级兴趣标签的兴趣分数所得的数值，确定为该任一级兴趣标签的兴趣权重。

在上述过程中，服务器能够统计出视频片段的兴趣标签在不同级别下所占的兴趣权重，从而反映出所有视频整体呈现的兴趣倾向，而且在后续过程中，根据兴趣标签和兴趣权重确定兴趣特征，并基于兴趣特征判断任一视频片段是否为目标片段时，能够统一一个对目标片段的评判标准，大大降低了服务器的计算量，也即是说，在这种情况下，确定某一个视频片段为目标片段之后，无论对哪一个用户而言，该视频片段均为目标片段。

在一些实施例中，服务器还可以针对每个用户进行具体分析，对任一用户，获取该用户浏览过的视频片段，仅针对该用户浏览过的视频片段执行上述获取各个兴趣标签在不同级别下所占的兴趣权重，从而能够使得分析出的兴趣权重更加具有针对性，使得服务器能够为不同的用户构建出不同的目标片段评判标准，也即提升了对用户进行兴趣分析的精确度，也即是说，在这种情况下，某一个视频片段可能对用户A而言是目标片段，但是对于用户B而言则不是目标片段。

图3是本发明实施例提供的一种获取兴趣标签的原理性示意图，参见图3，在针对每个用户进行具体分析的情况下，服务器首先分析用户的历史浏览行为，从而获取到用户浏览过的视频，从而确定浏览过的视频中的视频片段，进而根据各个视频片段的内容标签和内容权重，确定各个视频片段的兴趣标签和兴趣权重。

在一个示例中，不妨假设内容标签数量为500万，兴趣标签数量为10万，且兴趣标签的级数为1，此时有1000个内容标签映射至兴趣标签M，这1000个内容标签对应的内容权重相加所得的数值为600，那么兴趣标签M的兴趣分数为600，假设10万个兴趣标签的兴趣分数相加所得到的数值为400万(累计总分数为400万)，那么兴趣标签M的兴趣权重则为600÷4000000＝0.015％。

在一个示例中，仍然假设内容标签数量为500万，兴趣标签数量为10万，且兴趣标签的级数为1，但对于用户U而言，用户U仅浏览过1万个视频片段，那么仅统计这1万个视频片段所对应的5万个内容标签，假设有1000个内容标签映射至兴趣标签M，这1000个内容标签对应的内容权重相加所得的数值为600，那么兴趣标签M的兴趣分数为600，而这10万个兴趣标签的兴趣分数相加所得到的数值为40000(累计总分数为40000)，那么兴趣标签M的兴趣权重则为600÷40000＝1.5％。

对比上述两个示例，可以看出在上述第二个示例中，由于统计的视频片段数量变少了，因此映射至各个兴趣标签的内容标签对应的内容权重就变少了，导致各个兴趣标签的兴趣分数大幅减少，因此累计总分数也大幅降低，导致计算兴趣权重时，虽然分子没有发生变化，但由于统计主体的改变，导致分母大幅减小，使得计算出的兴趣权重远大于第一个示例中的兴趣权重。因此，这个兴趣权重可以反映出来，用户U对于兴趣标签M的兴趣权重远大于普遍情况下的用户对兴趣标签M的兴趣权重。

需要说明的是，上述的用户浏览过的视频片段，可以是指用户点击过的各个视频片段，还可以是指用户点击并且观看时长超过时长阈值的视频片段，当然，也可以是指用户从头到尾观看完毕的视频片段，本发明实施例不对用户浏览过的视频的确定方式进行具体限定。

表4是本发明实施例提供的一种兴趣权重的示意性表格，参见表4，可以看出对用户A123而言，兴趣一级类目“明星”的兴趣分数1000占该用户浏览过视频片段累计总分数的45％，而兴趣二级类目“明星-热门人物”的兴趣分数300则占兴趣一级类目“明星”的兴趣分数1000的30％，表4中各个数据均可以依此类推，这里不做赘述。另外，在表4中是按照第一级兴趣标签的兴趣权重从大到小的顺序进行显示的。

表4

204、服务器根据该多个视频片段的兴趣标签和兴趣权重，生成该多个视频片段的兴趣特征。

在上述过程中，服务器可以对各个视频片段的兴趣标签和兴趣权重进行独热编码，将编码后所得到的独热(one-hot)向量确定为各个视频片段的兴趣特征，能够加快获取特征的速度。

当然，对任一视频片段，服务器还可以将该视频片段的各个独热向量输入一个词向量模型，通过词向量模型对各个独热向量进行嵌入处理，输出嵌入(embedding)向量，将该嵌入向量确定为该视频片段的兴趣特征，能够将稀疏的独热向量转化为稠密的嵌入向量，增强兴趣特征的表达能力。例如，该词向量模型可以是word2vec模型、N-gram模型(也称N元模型)、NNLM(neural network language model，神经网络语言模型)等自然语言处理模型。

在一些实施例中，服务器还可以基于各个视频片段的兴趣标签、兴趣权重和兴趣分数，通过与上述过程类似的方式生成兴趣特征，由于新增了一个兴趣分数，因此能够提升兴趣特征的维度，增强兴趣特征的表达能力。

在上述步骤201-204中，服务器获取视频中多个视频片段的兴趣特征，由于是根据内容标签映射至兴趣标签，最终获取到的兴趣特征，因此在兴趣特征中不仅能够反映出兴趣相关的信息，还能够反映出内容相关的信息，使得视频片段的兴趣特征能够充分地表现出视频片段的特征。

可选地，服务器还可以不执行上述步骤201-204，而是直接将视频片段的内容标签和内容权重作为该视频片段的兴趣特征，能够简化获取特征的流程。

205、服务器将该多个视频片段的兴趣特征输入片段分类模型，通过该片段分类模型预测该多个视频片段是否为目标片段，该目标片段的兴趣特征符合目标条件。

在上述过程中，可选地，该片段分类模型可以是一个朴素贝叶斯分类(naiveBayesian classification)模型，该朴素贝叶斯分类模型是一类基于概率统计进行分类的模型，该朴素贝叶斯分类模型的核心是贝叶斯公式(如下式)：

其中，p(c_i)表示视频片段为类别c_i的概率，p(w)表示视频片段具有特征w的概率，p(w|c_i)表示视频片段为类别c_i的条件下具有特征w的概率，根据上述三个量p(c_i)、p(c_i)、p(w|c_i)即可求得p(c_i|w)，p(c_i|w)也即表示视频片段具有特征w的条件下为类别c_i的概率。

通过上述分析，可以看出，上述公式还可以改写为如下形式：

基于上述公式，由于本发明实施例中仅需要判断视频片段是否为目标片段，因此类别只有两个，分别为“是目标片段”或“不是目标片段”，因此该朴素贝叶斯分类模型用于解决一个二元分类问题。

在上述步骤205中，对任一视频片段，服务器将该视频片段的兴趣特征输入朴素贝叶斯分类模型之后，能够通过该朴素贝叶斯分类模型，基于公式获取该视频片段在具有该视频片段的兴趣特征的条件下是目标片段的概率，以及该视频片段在具有该视频片段的兴趣特征的条件下不是目标片段的概率，当上述是目标片段的概率大于上述不是目标片段的概率时，则可以确定该视频片段为目标片段，反之，如果“是目标片段的概率”小于或等于“不是目标片段的概率”，则可以确定该视频片段不是目标片段。

在上述过程中，仅以片段分类模型为朴素贝叶斯分类模型为例进行说明，由于朴素贝叶斯分类模型的算法简单、分类准确率高、速度快，因此能够在大型数据库中视频片段的数量级很高的情况下，兼顾准确率和速度。

在一些实施例中，该片段分类模型还可以是LR(logistics regression，逻辑回归)模型，GBDT(gradient boosting decision tree，梯度提升决策树)、XGBoost(extremegradient boosting，极限梯度提升)、CNN(convolutional neural networks，卷积神经网络)等，本发明实施例不对片段分类模型的类型进行具体限定。

需要说明的是，在执行上述步骤205之前，服务器需要预先训练出上述片段分类模型，此时服务器获取多个样本视频片段，由用户人工标注出各个样本视频片段的分类结果(是否为目标片段)，根据各个样本视频片段以及对应的分类结果，通过机器学习算法对第一初始模型进行训练，得到片段分类模型。

图4是本发明实施例提供的一种训练片段分类模型的原理性示意图，参见图4，可以看出，不仅服务器侧的运营人员等能够对样本视频片段的分类结果进行标注，样本视频片段的观众也可以向服务器反馈分类结果。也即是说，在终端播放某一个视频的过程中，用户可以手动点击反馈按钮，当检测到对反馈按钮的触控操作时，终端向服务器发送视频片段的反馈数据，该反馈数据用于表示当前视频片段是否为目标片段，进而应用机器学习算法训练第一初始模型，得到片段分类模型。

206、当预测到任一视频片段为目标片段时，服务器获取与该目标片段对应的至少一个互动动画。

在上述过程中，当预测到任一视频片段为目标片段时，将该目标片段发送至技术人员对应的终端，由技术人员基于该终端制作至少一个互动动画，当制作完成后，该终端将该至少一个互动动画发送至服务器，从而服务器将该至少一个互动动画存储在本地数据库。

可选地，服务器还可以将至少一个互动动画上传至不在本地的数据库(俗称云端数据库)，在云端数据库中完成对各个互动动画的持久化存储，能够节约服务器本地的存储空间。

在一些实施例中，技术人员可以为每一个目标片段制作至少一个互动动画，当然还可以为每一类目标片段(包括多个目标片段)制作至少一个互动动画，由于在上述实施环境中已经做过相应介绍，此处不做赘述。

207、当接收到终端的视频加载请求时，服务器根据该视频加载请求，生成视频加载响应，向终端发送该视频加载响应。

在上述过程中，当接收到终端的视频加载请求时，服务器可以解析该视频加载请求，确定待加载视频，查询待加载视频中的一个或多个目标片段，获取与各个目标片段对应的至少一个互动动画。从而根据待加载视频的视频资源、各个目标片段的时间戳信息以及与各个目标片段对应的互动动画，生成视频加载响应，向终端发送该视频加载响应。其中，每个目标片段的时间戳信息可以包括目标片段的起始时间戳和终止时间戳。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本发明实施例提供的方法，通过获取视频中多个视频片段的兴趣特征，再将该多个视频片段的兴趣特征输入片段分类模型，通过该片段分类模型预测该多个视频片段是否为目标片段，从而当预测到任一视频片段为目标片段时，获取与该目标片段对应的至少一个互动动画，从而能够通过片段分类模型，对视频片段进行筛选，选出确定为目标片段的视频片段，进而获取各个目标片段的互动动画，从而在后续过程中能够将互动动画发送至各个终端，使得终端在播放视频时显示互动动画，丰富了播放视频时的交互方式，增加了播放视频时的趣味性，大大提升了用户体验。

在上述过程中，提供了服务器获取各个视频片段的互动动画的方法，而当终端发送视频加载请求之后，服务器可以向终端返回携带待加载视频的视频资源、各个目标片段的时间戳信息以及与各个目标片段对应的互动动画的视频加载响应，当终端接收到视频加载响应之后，可以执行本发明实施例中的动画显示方法，以在视频播放过程中显示互动动画，下面进行详述。

图5是本发明实施例提供的一种动画显示方法的流程图，参见图5，该实施例应用于电子设备，以电子设备为终端为例进行说明，该实施例可以包括下述步骤：

501、当接收到视频加载响应，终端根据该视频加载响应中的视频资源，在视频播放界面中播放视频。

其中，该视频加载响应中可以包括待加载视频的视频资源、各个目标片段的时间戳信息以及与各个目标片段对应的互动动画。

在上述过程中，当终端接收到该视频加载响应，对该视频加载响应进行解析，得到待加载视频的视频资源、各个目标片段的时间戳信息以及与各个目标片段对应的互动动画，从而基于待加载视频的视频资源，通过视频播放控件在视频播放界面中播放视频。

502、终端在视频播放界面中显示询问窗口，该询问窗口用于询问用户是否开启智能交互模式，该询问窗口中包括开启选项和关闭选项。

在上述过程中，通过展示一个询问窗口，方便了用户对智能交互模式进行自由灵活地设置。

图6是本发明实施例提供的一种开启智能交互模式的示意图，参见图6，当开始播放视频的时候，显示该询问窗口，如果检测到用户对开启选项的触控操作，则执行下述步骤503，能够通过对观看视频的用户进行智能表情识别，显示对应的互动动画，丰富了交互方式，提升了交互趣味性，优化了用户体验。

在一些实施例中，如果检测到对关闭选项的触控操作，终端可以执行下述步骤：在该视频播放界面中显示至少一个动画播放选项，当检测到对任一个动画播放选项的触控操作时，播放与该动画播放选项对应的互动动画。此时即使用户选择关闭智能交互模式，仍然可以给用户提供用于进行手动交互的动画播放选项，使得用户仍然能够主动地实现互动动画的体验。

可选地，当检测到对任一个动画播放选项的触控操作时，意味着当前播放的视频片段是目标片段，相当于用户手动对该当前播放的视频片段进行了分类结果的标注，因此终端可以生成当前播放的视频片段的反馈数据，向服务器发送该反馈数据，便于了服务器对第一初始模型进行训练，以得到准确度更高的片段分类模型。

503、如果检测到对开启选项的触控操作，当播放至该视频中的目标片段时，终端获取观看该视频的用户的人脸图像，该目标片段的兴趣特征符合目标条件。

其中，目标片段的兴趣特征符合目标条件，由于服务器是基于兴趣特征确定目标片段的，因此，该目标条件可以是片段分类模型的筛选条件。

由于在上述步骤501中，终端解析到了各个目标片段的时间戳信息，从而能够各个目标片段的起始时间戳和终止时间戳，每当播放时长与任一目标片段的起始时间戳相同时，终端可以调用摄像头组件进行拍摄，得到观看该视频的用户的人脸图像，执行下述步骤504。

504、终端对该人脸图像进行人脸特征点检测，确定该人脸图像中多个人脸特征点。

在上述过程中，终端可以基于特征描述算法来检测人脸特征点，得到多个人脸特征点的位置坐标。例如，该特征描述算法可以是SIFT(scale-invariant featuretransform，尺度不变特征变换)算法、SURF(speeded up robust features，加速稳健特征)算法、ORB(oriented FAST and rotated BRIEF，定向FAST算法和旋转BRIEF算法)算法等。

在一些实施例中，该人脸特征点个数可以是5，那么这5个人脸特征点通常包括左眼瞳孔、右眼瞳孔、鼻尖、左嘴角以及右嘴角，当然，在一些精度更高的算法中，还可以增加更多的面部轮廓特征点、眉毛轮廓特征点、嘴部轮廓特征点等，例如，人脸特征点的个数还可以是34、68、78。

图7是本发明实施例提供的一种人脸特征点的示意图，参见图7，展示了一个虚拟人脸上的一部分人脸特征点，其中，人脸特征点A11～A19用于描述面部轮廓，人脸特征点B11～B16用于描述嘴部轮廓，人脸特征点C11～C16用于描述左眼轮廓，人脸特征点D11～D16用于描述右眼轮廓，人脸特征点E11～E15用于描述左眉轮廓，人脸特征点F11～F15用于描述右眉轮廓，人脸特征点G11～G17用于表述鼻部轮廓。需要说明的是，图7不应构成对检测的人脸特征点个数的限定，检测的人脸特征点可以是任一大于或等于1的数值。

505、终端对该多个人脸特征点进行卷积处理，得到该人脸图像的人脸特征。

在上述过程中，该人脸特征可以包括多个人脸特征点的位置坐标以及Gabor(加博尔)小波系数，在一些实施例中，该人脸特征还可以包括类Haar(Haar-like，类哈尔)特征、HOG(histogram of oriented gradient，方向梯度直方图)特征或者LBP(local binarypattern，局部二值模式)特征等，本发明实施例不对人脸特征的类型进行具体限定。

示意性的，以提取Gabor小波系数为例进行说明，终端可以基于Gabor滤波器对该多个人脸特征点进行Gabor变换(也称为SIFT变换，英文全称：short-time Fouriertransform，中文全称：短时傅里叶变换)，在变换过程中，相当于使用一个窗函数对人脸图像中各个区域以固定的步长进行滑动卷积，得到Gabor小波向量，基于Gabor小波向量能够获取到Gabor小波系数，从而将多个人脸特征点的位置坐标和Gabor小波系数确定为该人脸图像的人脸特征。

其中，Gabor小波系数的计算公式具体如下：

在上述公式中，ψ表示Gabor小波系数，k表示Gabor小波向量，x表示像素点在人脸图像中的横坐标位置，σ是一个常数，取值为σ＝2π，i是虚数单位。

在上述步骤504-505中，终端对该人脸图像进行特征提取，得到该人脸图像的人脸特征，相当于对人脸图像进行预处理的过程，从而将人脸特征输入表情分类模型，执行下述步骤506。

进一步地，由于Gabor滤波器的频率和方向与人脸的视觉系统较为相似，因此提取出的人脸特征(Gabor特征)能够准确地描述出人脸的纹理、边缘等可视化特征，提升了人脸特征的表达能力。

506、终端将该人脸特征输入表情分类模型，通过该表情分类模型预测该人脸图像对应于各个表情类别的概率，将概率最高的表情类别确定为该人脸图像对应的表情类别。

在上述过程中，该表情分类模型可以是一个多层卷积神经网络，当然，该表情分类模型还可以是LR(logistics regression，逻辑回归)模型，GBDT(gradient boostingdecision tree，梯度提升决策树)、XGBoost(extreme gradient boosting，极限梯度提升)等，本发明实施例不对表情分类模型的类型进行具体限定。

图8是本发明实施例提供的一种表情分类模型的结构示意图，参见图8，该表情分类模型为多层卷积神经网络，在该多层卷积神经网络中可以包括第一子网络和第二子网络，终端可以在人脸特征输入多层卷积神经网络时，可以将人脸特征中多个人脸特征点的位置坐标输入第一子网络，通过第一子网络中的多个隐藏层对多个人脸特征点的位置坐标进行卷积处理，由第一子网络的最后一个隐藏层输出第一特征图，此外，将人脸特征中多个人脸特征点的Gabor小波系数输入第二子网络，通过第二子网络中的多个隐藏层对多个人脸特征点的Gabor小波系数进行卷积处理，由第二子网络的最后一个隐藏层输出第二特征图，通过一个全连接层对第一特征图和第二特征图进行卷积处理和归一化处理，从而得到人脸图像对应于各个表情类别的概率，将概率最高的表情类别确定为该人脸图像对应的表情类别。

在504-506中，终端基于该人脸图像，确定该人脸图像对应的表情类别，具体的，先获取人脸图像的人脸特征，再根据该人脸特征，确定与该人脸图像对应的表情类别。

图9是本发明实施例提供的一种表情分类过程的原理性示意图，参见图9，对人脸图像进行预处理得到人脸特征(图中未示出)，将人脸特征输入多层卷积神经网络之后，通过多层卷积神经网络中的卷积层，对该人脸特征进行卷积处理，再通过一个全连接层(也叫稠密层，dense layers)对最后一个卷积层输出的特征图进行卷积处理，从而输出人脸图像对应的表情类别。

在一些实施例中，终端还可以由根据人脸图像以及用户发送的评论，从多模态的角度来分析用户的表情类别，也即是说一个是基于表情分类模型，一个是基于文本分类模型，将两者的输出特征融合之后再确定人脸图像对应于各个表情类别的概率，这里不做赘述。

需要说明的是，本发明实施例仅以提取人脸特征点的位置坐标和Gabor小波系数为例，实际上根据选取的人脸特征的不同，采用的表情分类模型的类型或参数也不仅相同，但均可以确定出该人脸图像所对应的表情类别。

需要说明的是，在在执行上述步骤506之前，服务器需要预先训练出上述表情分类模型，此时服务器可以获取多个样本人脸图像，提取该多个样本人脸图像的人脸特征，将各个样本人脸图像的人脸特征输入第二初始模型，通过机器学习算法对第二初始模型进行训练，得到表情分类模型，再由服务器将训练好的表情分类模型发送至终端，当然，也可以直接在终端侧执行训练过程，这里不做赘述。可选地，在上述训练过程中，可以基于最小化交叉熵(cross-entropy)准则来确定训练完毕的条件。

507、终端从与该目标片段对应的至少一个互动动画中，根据表情类别与互动动画的映射关系，确定与该表情类别对应的互动动画。

在上述过程中，由于终端在上述步骤501中解析得到了视频中所有目标片段对应的所有互动动画，所以终端可以先从所有的互动动画中获取与该目标片段对应的至少一个互动动画，再根据表情类别与互动动画的映射关系，确定出与该标签类别对应的互动动画，由于是从与目标片段对应的互动动画中挑选的，因此最终确定出的目标动画既与目标片段对应，还与表情类别对应。

可选地，该表情类别与互动动画的映射关系可以是预存在终端本地数据库中的，各个表情类别与互动动画之间的映射可以是携带优先级的，也即是说，当表情类别映射至多个互动动画时，终端直接确定优先级最高的互动动画。

508、终端在该视频播放界面中，显示与该表情类别以及该目标片段对应的互动动画。

在上述过程中，终端实现了对人脸图像进行智能表情识别，从而显示与表情类别以及目标片段均对应的互动动画，丰富了终端为用户提供的交互方式，提升了终端在播放视频时的趣味性，优化了用户观看视频时的用户体验。

图10是本发明实施例提供的一种互动动画的示意图，参见图10，目标片段为人物在潜水的一系列过程，与该目标片段对应的互动动画可以有担忧的互动动画、欢乐的互动动画、害怕的互动动画等，此时终端通过智能表情识别，确定用户的表情类别为“高兴”，因此根据表情类别与互动动画的映射关系，将表情类别“高兴”映射至欢乐的互动动画，在视频播放界面中会在人物的脸部显示一个潜水面罩和潜水呼吸器，大大提升了播放视频过程的交互乐趣。

需要说明的是，在上述显示互动动画过程之后，由于在上述步骤202中确定出各个用户的兴趣标签，那么服务器可以基于各个用户的兴趣标签向终端精准地推送用户可能感兴趣的视频链接，加强了推送资源的个性化和针对性。另外，由于在上述步骤506中还确定出了各个用户在观看视频时的表情类别(可以认为识别出了用户的情绪)，那么服务器还可以针对用户当前观看视频时的表情类别，为用户推荐应景的视频链接，例如，当确定用户当前表情类别为“开心”时，服务器可以准确地为用户推送一些搞笑视频的链接，提升视频推送过程的智能性。

本发明实施例提供的方法，通过在视频播放界面中播放视频，当播放至该视频中的目标片段时，获取观看该视频的用户的人脸图像，由于该目标片段的兴趣特征符合目标条件，因此通常观看视频的用户会做出一些较为不平静的表情，基于该人脸图像，确定该人脸图像对应的表情类别，在该视频播放界面中，显示与该表情类别以及该目标片段对应的互动动画，使得用户在观看视频时还能够在目标片段的播放时刻，通过互动动画完成与视频内容之间的交互，丰富了终端为用户提供的交互方式，提升了终端在播放视频时的趣味性，优化了用户观看视频时的用户体验。

进一步地，基于本发明实施例的动画显示方法，能够借助互动动画直接辅助用户宣泄了视频观看中产生的各类情绪，产生更加丰富的视频观看时的用户体验，同时由于提供了一个智能交互模式，也就大大提升了终端在播放视频时的智能性。例如，以电影视频为例进行说明，在一些富有情绪感染力的目标片段中，观众经常会自然而然的产生情绪共鸣，比如在观看主角被反派陷害的目标片段时，通常会产生一些愤怒的情绪，此时可以显示用锤子锤击反派头部的互动动画，帮助观众在观影过程中即时宣泄情绪，得到更好地观影体验。

图11是本发明实施例提供的一种动画显示方法的原理性示意图，参见图11，示出了服务器与终端之间交互的过程，服务器侧人工标记出各个视频片段的分类结果(是否为目标片段)，同时从终端侧获取观看视频的用户反馈的分类结果，基于视频片段的兴趣特征，以及上面得到的实际的分类结果，训练出片段分类模型，从而为各个目标片段制作互动动画，以备后续终端的访问。

此外，在终端侧，播放视频时显示是否开启智能交互模式的询问窗口，当检测到对开启选项的触控操作时，每当播放到目标片段，则智能识别出观看视频用户的表情类别，展示与表情类别和目标片段均对应的互动动画，而如果检测到对关闭选项的触控操作时，在该视频播放界面中显示至少一个动画播放选项，如果播放至用户产生情感冲动的视频片段，用户可以触控任一个动画播放选项，从而当终端检测到用户对任一个动画播放选项的触控操作时，播放与该动画播放选项对应的互动动画，从而使得用户可以主动地参与到基于互动动画与视频内容的交互过程中，终端在获取到用户反馈的分类结果时发送至服务器，便于服务器收集用户反馈的分类结果，用于进一步地对片段分类模型进行参数调整(也可以称为微调，finetune)，提升片段分类模型的准确度。

在上述过程中，通过终端侧和服务器侧之间的交互，能够使得优化用户的视频观看体验的同时，在动态的过程中使得服务器侧不断地提升片段分类模型的准确度，也就同样会反过来促进终端侧显示互动动画时的准确度、智能度、趣味度。

图12是本发明实施例提供的动画显示装置的结构示意图，参见图12，该动画显示装置可以包括播放模块1201、获取模块1202、确定模块1203以及显示模块1204，下面进行详述：

播放模块1201，用于在视频播放界面中播放视频；

获取模块1202，用于当播放至该视频中的目标片段时，获取观看该视频的用户的人脸图像，该目标片段的兴趣特征符合目标条件；

确定模块1203，用于基于该人脸图像，确定该人脸图像对应的表情类别；

显示模块1204，用于在该视频播放界面中，显示与该表情类别以及该目标片段对应的互动动画。

本发明实施例提供的装置，通过在视频播放界面中播放视频，当播放至该视频中的目标片段时，获取观看该视频的用户的人脸图像，由于该目标片段的兴趣特征符合目标条件，因此通常观看视频的用户会做出一些较为不平静的表情，基于该人脸图像，确定该人脸图像对应的表情类别，在该视频播放界面中，显示与该表情类别以及该目标片段对应的互动动画，使得用户在观看视频时还能够在目标片段的播放时刻，通过互动动画完成与视频内容之间的交互，丰富了终端为用户提供的交互方式，提升了终端在播放视频时的趣味性，优化了用户观看视频时的用户体验。

在一种可能实施方式中，基于图12的装置组成，该确定模块1203包括：

特征提取单元，用于对该人脸图像进行特征提取，得到该人脸图像的人脸特征；

确定单元，用于根据该人脸特征，确定与该人脸图像对应的表情类别。

在一种可能实施方式中，该特征提取单元用于：

对该人脸图像进行人脸特征点检测，确定该人脸图像中多个人脸特征点；

对该多个人脸特征点进行卷积处理，得到该人脸图像的人脸特征。

在一种可能实施方式中，基于图12的装置组成，该确定单元包括：

预测确定子单元，用于将该人脸特征输入表情分类模型，通过该表情分类模型预测该人脸图像对应于各个表情类别的概率，将概率最高的表情类别确定为该人脸图像对应的表情类别。

在一种可能实施方式中，该表情分类模型为多层卷积神经网络，该多层卷积神经网络包括第一子网络和第二子网络；

该预测确定子单元用于：

将该人脸特征中多个人脸特征点的位置坐标输入该第一子网络，通过该第一子网络中的多个隐藏层对该多个人脸特征点的位置坐标进行卷积处理，该第一子网络的最后一个隐藏层输出第一特征图；

将该人脸特征中多个人脸特征点的Gabor小波系数输入第二子网络，通过该第二子网络中的多个隐藏层对该多个人脸特征点的Gabor小波系数进行卷积处理，该第二子网络的最后一个隐藏层输出第二特征图；

通过全连接层对该第一特征图和该第二特征图进行卷积处理和归一化处理，得到该人脸图像对应于各个表情类别的概率。

在一种可能实施方式中，基于图12的装置组成，该装置还包括：

从与该目标片段对应的至少一个互动动画中，根据表情类别与互动动画的映射关系，确定与该表情类别对应的互动动画。

在该视频播放界面中显示至少一个动画播放选项；

当检测到对任一个动画播放选项的触控操作时，播放与该动画播放选项对应的互动动画。

需要说明的是：上述实施例提供的动画显示装置在显示动画时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的动画显示装置与动画显示方法实施例属于同一构思，其具体实现过程详见动画显示方法实施例，这里不再赘述。

图13是本发明实施例提供的动画获取装置的结构示意图，参见图13，该装置包括特征获取模块1301、预测模块1302以及动画获取模块1303，下面进行详述：

特征获取模块1301，用于获取视频中多个视频片段的兴趣特征；

预测模块1302，用于将该多个视频片段的兴趣特征输入片段分类模型，通过该片段分类模型预测该多个视频片段是否为目标片段，该目标片段的兴趣特征符合目标条件；

动画获取模块1303，用于当预测到任一视频片段为目标片段时，获取与该目标片段对应的至少一个互动动画。

本发明实施例提供的装置，通过获取视频中多个视频片段的兴趣特征，再将该多个视频片段的兴趣特征输入片段分类模型，通过该片段分类模型预测该多个视频片段是否为目标片段，从而当预测到任一视频片段为目标片段时，获取与该目标片段对应的至少一个互动动画，从而能够通过片段分类模型，对视频片段进行筛选，选出确定为目标片段的视频片段，进而获取各个目标片段的互动动画，从而在后续过程中能够将互动动画发送至各个终端，使得终端在播放视频时显示互动动画，丰富了播放视频时的交互方式，增加了播放视频时的趣味性，大大提升了用户体验。

在一种可能实施方式中，该特征获取模块1301用于：

根据该视频的资料信息以及标注信息，获取该多个视频片段的内容标签；

根据内容标签与兴趣标签的映射关系，将该多个视频片段的内容标签映射为该多个视频片段的兴趣标签；

根据该多个视频片段的兴趣标签，确定各个兴趣标签所占的兴趣权重；

根据该多个视频片段的兴趣标签和兴趣权重，生成该多个视频片段的兴趣特征。

在一种可能实施方式中，该片段分类模型为朴素贝叶斯分类模型，该预测模块1302用于：

对任一视频片段，通过该朴素贝叶斯分类模型获取该视频片段在具有该视频片段的兴趣特征的条件下是目标片段的概率，以及该视频片段在具有该视频片段的兴趣特征的条件下不是目标片段的概率；

当该是目标片段的概率大于该不是目标片段的概率时，确定该视频片段为目标片段。

需要说明的是：上述实施例提供的动画获取装置在获取动画时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的动画获取装置与动画获取方法实施例属于同一构思，其具体实现过程详见动画获取方法实施例，这里不再赘述。

图14示出了本发明一个示例性实施例提供的终端1400的结构框图，在本发明实施例中以电子设备为终端为例进行说明，该终端1400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1401所执行以实现本申请中上述各个实施例提供的动画显示方法。

在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、触摸显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。

外围设备接口1403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时，显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时，显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1405可以为一个，设置终端1400的前面板；在另一些实施例中，显示屏1405可以为至少两个，分别设置在终端1400的不同表面或呈折叠设计；在再一些实施例中，显示屏1405可以是柔性显示屏，设置在终端1400的弯曲表面上或折叠面上。甚至，显示屏1405还可以设置成非矩形的不规则图形，也即异形屏。显示屏1405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1407还可以包括耳机插孔。

定位组件1408用于定位终端1400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1408可以是基于GPS(Global PositioningSystem，全球定位系统)、北斗系统、格雷纳斯系统或伽利略系统的定位组件。

电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。当电源1409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。

加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号，控制触摸显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1412可以检测终端1400的机体方向及转动角度，陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3D动作。处理器1401根据陀螺仪传感器1412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1413可以设置在终端1400的侧边框和/或触摸显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时，可以检测用户对终端1400的握持信号，由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在触摸显示屏1405的下层时，由处理器1401根据用户对触摸显示屏1405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1414用于采集用户的指纹，由处理器1401根据指纹传感器1414采集到的指纹识别用户的身份，或者，由指纹传感器1414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1414可以被设置终端1400的正面、背面或侧面。当终端1400上设置有物理按键或厂商Logo时，指纹传感器1414可以与物理按键或厂商Logo集成在一起。

光学传感器1415用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1415采集的环境光强度，控制触摸显示屏1405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1405的显示亮度；当环境光强度较低时，调低触摸显示屏1405的显示亮度。在另一个实施例中，处理器1401还可以根据光学传感器1415采集的环境光强度，动态调整摄像头组件1406的拍摄参数。

接近传感器1416，也称距离传感器，通常设置在终端1400的前面板。接近传感器1416用于采集用户与终端1400的正面之间的距离。在一个实施例中，当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变小时，由处理器1401控制触摸显示屏1405从亮屏状态切换为息屏状态；当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变大时，由处理器1401控制触摸显示屏1405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图15是本发明实施例提供的服务器的结构示意图，以电子设备为服务器为例进行说明，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)1501和一个或一个以上的存储器1502，其中，该存储器1502中存储有至少一条指令，该至少一条指令由该处理器1501加载并执行以实现上述各个实施例中所提供的动画获取方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由电子设备中的处理器执行以完成上述实施例中动画显示方法或动画获取方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动画显示方法，其特征在于，所述方法包括：

在视频播放界面中播放视频；

基于所述人脸图像，确定所述人脸图像对应的表情类别；

从与所述目标片段对应的至少一个互动动画中，根据表情类别与互动动画的映射关系，确定与所述人脸图像对应的表情类别相对应的互动动画；

在所述视频播放界面中，显示确定的所述互动动画。

2.根据权利要求1所述的方法，其特征在于，所述基于所述人脸图像，确定所述人脸图像对应的表情类别包括：

根据所述人脸特征，确定与所述人脸图像对应的表情类别。

3.根据权利要求2所述的方法，其特征在于，所述对所述人脸图像进行特征提取，得到所述人脸图像的人脸特征包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述人脸特征，确定与所述人脸图像对应的表情类别包括：

5.一种动画获取方法，其特征在于，所述方法包括：

获取视频中多个视频片段的兴趣特征；

当预测到任一视频片段为目标片段时，获取与所述目标片段对应的至少一个互动动画；

其中，当所述目标片段被播放时，从所述目标片段对应的至少一个互动动画中，根据表情类别与互动动画的映射关系，确定出与观看所述视频的用户的表情类别相对应的互动动画以进行显示。

6.根据权利要求5所述的方法，其特征在于，所述获取视频中多个视频片段的兴趣特征包括：

7.一种动画显示装置，其特征在于，所述装置包括：

播放模块，用于在视频播放界面中播放视频；

确定模块，用于基于所述人脸图像，确定所述人脸图像对应的表情类别；从与所述目标片段对应的至少一个互动动画中，根据表情类别与互动动画的映射关系，确定与所述人脸图像对应的表情类别相对应的互动动画；

显示模块，用于在所述视频播放界面中，显示确定的所述互动动画。

8.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求4任一项所述的动画显示方法所执行的操作；或，

执行以实现如权利要求5或权利要求6所述的动画获取方法所执行的操作。

9.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求4任一项所述的动画显示方法所执行的操作；或，