CN111586466B

CN111586466B - 一种视频数据处理方法、装置及存储介质

Info

Publication number: CN111586466B
Application number: CN202010381562.0A
Authority: CN
Inventors: 刘军煜; 杨天舒; 高洵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2021-05-28
Anticipated expiration: 2040-05-08
Also published as: CN111586466A

Abstract

本申请实施例公开一种视频数据处理方法、装置及存储介质，其中，方法包括：显示包含第一控件的视频展示界面，响应第一用户针对第一控件的触发操作，将视频展示界面切换为对象展示界面；对象展示界面用于显示所述第一用户对应的关注对象；响应针对关注对象中的目标关注对象的触发操作，将对象展示界面跳转至目标关注对象所属的目标展示界面；目标展示界面中包含用于获取目标关注对象的表情包的第二控件；响应针对第二控件的触发操作，在目标展示界面上输出与目标关注对象相关联的表情包；表情包是基于与视频展示界面具有关联关系且包含目标关注对象的视频数据所生成的。采用本申请，可以丰富表情包的显示效果。

Description

一种视频数据处理方法、装置及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种视频数据处理方法、装置及存储介质。

背景技术

“表情包”指的是一种利用图片表达感情的方式，目前这些表情包被广泛应用于社交软件中。当社交软件中的用户在使用该社交软件时，会在各自的终端显示界面上无差别的显示相同的表情包。比如，对于社交用户A和社交用户B而言，可以在各自的表情展示区域(例如，各自的终端显示界面)上呈现出相同的表情包(例如，可以显示单个图片A对应的表情包C和单个图片B对应的表情包D)。这意味着使用现有技术显示单个图片对应的表情包时，会在该社交用户A的用户终端上显示前述表情包C和表情包D的同时，也会无差别的在社交用户B的用户终端上显示该表情包C和表情包D，进而导致呈现在这些社交用户的终端显示界面上的表情包的显示效果的单一性。

发明内容

本申请实施例提供一种视频数据处理方法、装置及存储介质，可以提供个性化的表情包，且可以丰富表情包的显示效果。

本申请实施例一方面提供了一种视频数据处理方法，方法包括：

显示包含第一控件的视频展示界面，响应第一用户针对第一控件的触发操作，将视频展示界面切换为对象展示界面；对象展示界面用于显示第一用户对应的关注对象；

响应针对关注对象中的目标关注对象的触发操作，将对象展示界面跳转至目标关注对象所属的目标展示界面；目标展示界面中包含用于获取目标关注对象的表情包的第二控件；

响应针对第二控件的触发操作，在目标展示界面上输出与目标关注对象相关联的表情包；表情包是基于与视频展示界面具有关联关系且包含目标关注对象的视频数据所生成的。

本申请实施例一方面提供了一种视频数据处理装置，装置包括：

展示界面确定模块，用于显示包含第一控件的视频展示界面，响应第一用户针对第一控件的触发操作，将视频展示界面切换为对象展示界面；对象展示界面用于显示第一用户对应的关注对象；

展示界面跳转模块，用于响应针对关注对象中的目标关注对象的触发操作，将对象展示界面跳转至目标关注对象所属的目标展示界面；目标展示界面中包含用于获取目标关注对象的表情包的第二控件；

表情包输出模块，用于响应针对第二控件的触发操作，在目标展示界面上输出与目标关注对象相关联的表情包；表情包是基于与视频展示界面具有关联关系且包含目标关注对象的视频数据所生成的。

其中，装置还包括：

初始视频获取模块，用于获取包含目标关注对象的初始视频数据；初始视频数据为与视频展示界面具有关联关系的视频数据；

对象识别模块，用于在初始视频数据的初始帧序列中识别目标关注对象，从初始视频序列中筛选在时间上连续且包含目标关注对象的初始视频帧，根据筛选出的初始视频帧确定与目标关注对象相关联的关键帧序列；

区域截取模块，用于在关键帧序列中截取包含目标关注对象的关键区域，在由关键区域的图像所构成的待识别序列中，分析与目标关注对象的情绪特征和辅助特征相关联的表情信息，将分析得到的表情信息作为与目标关注对象相关联的候选表情；

表情包生成模块，用于将在待识别序列中所筛选的满足片段生成条件的待识别序列确定为候选表情片段，根据在候选表情片段中所筛选的候选表情满足片段生成条件的子片段，确定目标表情片段，将满足片段生成条件的候选表情作为目标表情片段对应的目标表情，根据目标表情片段以及与目标表情相匹配的表情文本，生成与目标关注对象相关联的表情包。

其中，初始视频获取模块包括：

第一查找单元，用于从与视频展示界面相关联的第一数据库中查找与目标关注对象相关联的、且具有目标更新时间戳的第一视频数据；

第一确定单元，用于若在第一数据库中查找到第一视频数据，则将查找到的第一视频数据作为初始视频数据；

第二确定单元，用于若在第一数据库中未查找到第一视频数据，则从与视频展示界面相关联的第二数据库中查找与目标关注对象相关联的、且具有历史更新时间戳的第二视频数据，将查找到的第二视频数据作为初始视频数据；第二视频数据为在历史更新时间戳时呈现在视频展示界面上的包含目标关注对象的视频数据；历史更新时间戳为早于目标更新时间戳的时间戳。

其中，对象识别模块包括：

第一模型获取单元，用于对初始视频数据进行帧处理，得到初始视频数据中的初始视频序列，获取用于进行面部识别的第一网络模型；

对象识别单元，用于在初始视频序列中通过第一网络模型，对目标关注对象进行面部识别，得到面部识别结果；

关键帧确定单元，用于根据面部识别结果在初始视频序列的初始视频帧中筛选在时间上连续且包含目标关注对象的初始视频帧，将筛选出的在时间上连续且包含目标关注对象的初始视频帧确定为关键视频帧；

关键序列确定单元，用于将由关键视频帧构成的帧序列确定为与目标关注对象相关联的关键帧序列。

其中，区域截取模块包括：

区域扩充单元，用于在关键帧序列的每个关键视频帧中，分别确定目标关注对象的面部所在的第一区域以及第一区域的图像尺寸，基于每个第一区域的图像尺寸以及图像扩充比例，确定与目标关注对象的面部相关联的第二区域以及第二区域的图像尺寸；

关键区域确定单元，用于基于每个第二区域的图像尺寸在对应关键视频帧中的坐标信息，构建与目标关注对象的面部相关联的最优截图尺寸，基于最优截图尺寸在关键视频序列中截取包含目标关注对象的关键区域；

特征提取单元，用于在由关键区域的图像所构成的待识别序列中提取目标关注对象的情绪特征以及目标关注对象的面部特征和肢体特征，将面部特征以及肢体特征作为目标关注对象的辅助特征；

候选表情确定单元，用于通过第二网络模型识别与目标关注对象的情绪特征相匹配的情绪类型，并通过第三网络模型识别与辅助特征相匹配的辅助类型，根据表情映射规则确定情绪类型和辅助类型所映射的表情信息，将分析得到的表情信息作为与目标关注对象相关联的候选表情。

其中，每个第二区域均为包含目标关注对象的四边形所对应的图像区域；关键帧序列中的每个关键视频帧的尺寸信息相同；

关键区域确定单元包括：

顶角坐标确定子单元，用于根据每个第二区域的图像尺寸和每个第二区域在对应关键视频帧中的中心位置信息，分别确定每个第二区域的顶角的坐标信息；

第一方向确定子单元，用于从每个第二区域的顶角的坐标信息中，将在第一方向上具有最小坐标值的顶角的坐标信息确定为第一坐标信息，并将在第一方向上具有最大坐标值的顶角的坐标信息确定为第二坐标信息；

第二方向确定子单元，用于从每个第二区域的顶角的坐标信息中，将在第二方向上具有最小坐标值的顶角的坐标信息确定为第三坐标信息，并将在第二方向上具有最大坐标值的顶角的坐标信息确定为第四坐标信息；

最大尺寸确定子单元，用于基于第一坐标信息、第二坐标信息、第三坐标信息和第四坐标信息，确定用于完全覆盖目标关注对象的最大图像尺寸，基于最大图像尺寸在关键视频序列中截取包含目标关注对象的区域，将截取到的包含目标关注对象的区域作为关键区域。

其中，表情包生成模块包括：

序列确定单元，用于确定待识别序列对应的片段时长，将片段时长未达到片段生成条件中的时长阈值的待识别序列作为第一待识别序列，将多个待识别序列中除第一待识别序列之外的待识别序列作为第二待识别序列；

滑动窗口获取单元，用于将第二待识别序列确定为在多个待识别序列中所筛选的满足片段生成条件的候选表情片段，获取与时长阈值相关联的滑动窗口；滑动窗口用于指示从候选表情片段中选取与滑动帧长度相同的滑动子片段；滑动帧长度是由单位时长对应的图像帧数和时长阈值所确定的；

子片段获取单元，用于通过滑动窗口从候选表情片段中获取滑动子片段，统计滑动子片段中的候选表情的比例，基于统计到的候选表情的比例和片段生成条件中的比例阈值，在候选表情片段中筛选候选表情满足片段生成条件的滑动子片段，根据筛选的滑动子片段确定目标表情片段，将满足片段生成条件的候选表情作为目标表情片段对应的目标表情；

表情文本获取单元，用于获取与目标表情相匹配的表情文本，基于表情文本在目标表情片段中的影响度，确定表情文本的文本位置信息，根据目标表情片段、表情文本以及文本位置信息，生成与目标关注对象相关联的表情包。

其中，子片段获取单元包括：

第一获取子单元，用于通过滑动窗口从候选表情片段中获取第一滑动子片段；第一滑动子片段中为滑动子片段中的一个子片段；第一滑动子片段中的候选表情包含第一候选表情和第二候选表情；第一候选表情所占的比例为第一比例；第二候选表情所占的比例为第二比例；

第二获取子单元，用于若第一比例大于第二比例，且第一比例达到片段生成条件中的比例阈值，则将第一滑动子片段确定为在候选表情片段中筛选的候选表情满足片段生成条件的滑动子片段，且通过滑动窗口从候选表情片段中获取第二滑动子片段；第二滑动子片段为第一滑动子片段的下一滑动子片段；

第一子片段确定子单元，用于若第二滑动子片段中的候选表情包含第一候选表情，且第一候选表情满足片段生成条件，则将第一滑动子片段确定为目标表情片段，且将第一候选表情作为目标表情片段对应的目标表情；

第二子片段确定子单元，用于若第二滑动子片段中的候选表情包含第二候选表情，且第二候选表情满足片段生成条件，则将第一滑动子片段和第二滑动子片段确定为目标表情片段，且将第一滑动子片段对应的第一候选表情和第二滑动子片段对应的第二候选表情作为目标表情片段对应的目标表情。

其中，子片段获取单元还包括：

帧移除子单元，用于若第一比例大于第二比例，且第一比例未达到片段生成条件中的比例阈值，则在滑动窗口中移除第一滑动子片段的首个图像帧，得到与滑动窗口相关联的待补齐子片段；

帧补入子单元，用于将候选表情片段中除第一滑动子片段之外，且与第一滑动子片段相邻的图像帧，作为与待补齐子片段相关联的待补入图像帧；

更新子单元，用于将待补入图像帧添加至滑动窗口中的待补齐子片段的尾部，得到补齐子片段，根据补齐子片段更新第一滑动子片段。

其中，初始视频数据中还包括除目标关注对象之外的关联对象；关联对象为第二用户所关注的对象；第二用户为不同于第一用户的用户；

装置还包括：

关联序列确定模块，用于在初始视频数据的初始帧序列中识别关联对象，从初始视频序列中筛选在时间上连续且包含关联对象的初始视频帧，根据筛选出的在时间上连续且包含关联对象的初始视频帧，确定与关联对象相关联的关联帧序列；关联帧序列用于生成待推送给第二用户的、且与关联对象相关联的表情包。

其中，表情包的数量为多个；表情包输出模块包括：

列表输出单元，用于响应针对第二控件的触发操作，在目标展示界面中的表情展示区域中，输出与多个表情包相关联的表情展示列表；

表情包显示单元，用于根据每个表情包的评分值，在表情展示列表中显示并播放每个表情包。

其中，表情包输出模块还包括：

表情界面跳转单元，用于响应针对多个表情包中的目标表情包的选择操作，将目标展示界面跳转为表情展示界面；表情展示界面中携带用于分享目标表情包的分享控件；

表情分享单元，用于响应针对分享控件的分享操作，将目标表情包分享给与第二用户相关联的第二用户。

本申请实施例一方面提供了一种计算机设备，计算机设备包括：处理器、存储器以及网络接口；

处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行如本申请实施例一方面中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，当处理器执行程序指令时执行如本申请实施例一方面中的方法。

本申请实施例在显示包含第一控件的视频展示界面时，可以响应第一用户针对第一控件的触发操作，将视频展示界面切换为对象展示界面；其中，对象展示界面可以用于显示第一用户对应的关注对象，这里的关注对象可以为该第一用户在对象展示界面上所选择并关注的一个或者多个对象；应当理解，这里的视频展示界面可以用于展示与该关注对象相关联的视频数据，比如，可以在视频应用的视频展示界面上显示最新上线的包含这些对象的综艺节目、电视节目等视频数据。进一步的，本申请实施例可以在响应针对关注对象中的目标关注对象的触发操作时，将对象展示界面跳转至目标关注对象所属的目标展示界面；其中，目标展示界面中可以包含用于获取目标关注对象的表情包的第二控件；进一步的，响应针对第二控件的触发操作，在目标展示界面上输出与目标关注对象相关联的表情包；其中，表情包是基于与视频展示界面具有关联关系且包含目标关注对象的视频数据所生成的。由此可见，当用户(例如，第一用户)在视频应用中选择了自己喜欢的对象之后，可以将自己选择的对象统称为能够显示在对象展示界面上的关注对象，这样，当该第一用户在自己所关注的关注对象中确定目标关注对象时，可以进一步将当前显示的对象展示界面跳转至该目标关注对象所专属的目标展示界面，然后，当该第一用户在该目标展示界面中通过触发该用于获取目标关注对象的表情包的第二控件时，可以从与上述视频展示界面相关联的且包含目标关注对象的视频数据中，提取出与该目标关注对象相关联的个性化的表情包，进而可以将该个性化的表情包输出至于该目标展示界面，以针对性地向第一用户提供自己所感兴趣的对象(例如，目标关注对象A)的表情包。应当理解，针对于不同用户而言，可以在对应的目标展示界面上提供不同的表情包，以避免表情包的无差别输出，进而可以丰富表情包的显示效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种进行数据交互的场景示意图；

图3是本申请实施例提供的一种视频数据处理方法的流程示意图；

图4是本申请实施例提供的一种将视频展示界面切换为对象展示界面的场景示意图；

图5是本申请实施例提供的一种将对象展示界面切换为目标展示界面的场景示意图；

图6是本申请实施例提供的一种视频数据处理方法的示意图；

图7是本申请实施例提供的一种从初始视频数据中确定关键帧序列的场景示意图；

图8是本申请实施例提供的一种进行图像扩充的场景示意图；

图9是本申请实施例提供的一种确定最优截图尺寸的场景示意图；

图10是本申请实施例提供的一种通过滑动窗口确定滑动子片段的场景示意图；

图11是本申请实施例提供的一种视频数据处理装置的结构示意图；

图12是本申请实施例提供的一种视频数据处理装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，是本申请实施例提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器2000和用户终端集群，用户终端集群可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。如图1所示，多个用户终端具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n；如图1所示，用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与服务器2000进行网络连接，以便于每个用户终端可以通过该网络连接与服务器2000之间进行数据交互。

如图1所示的服务器2000可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

为便于理解，本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端，该目标用户终端可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等携带视频数据处理功能(例如，视频数据播放功能)的智能终端。例如，本申请实施例可以将图1所示的用户终端3000a作为目标用户终端，该目标用户终端中可以集成有具备该视频数据处理功能的应用客户端。其中，应用客户端可以包括社交客户端、多媒体客户端(例如，视频客户端)、娱乐客户端(例如，游戏客户端)、教育客户端等具有帧序列(例如，帧动画序列)加载和播放功能的客户端。其中，目标用户终端(例如，用户终端3000a)可以为第一用户所使用的用户终端。为便于理解，本申请实施例可以将第一用户(例如，用户A)所选择并关注的对象统称为关注对象，即这里的关注对象可以为该用户A(即第一用户)在对象展示界面上所呈现的Z个对象中选取的自己感兴趣的对象，比如，该用户A可以从Z个对象中选取自己感兴趣的一个或者多个对象，这里将不对该用户A所选取的对象的数量进行限制；其中，Z为正整数。应当理解，这里的对象指的是当前入驻该目标应用的具有一定公众影响力的公众人物(例如，娱乐明星等)。

应当理解，当该第一用户从Z个对象中选择好贴合自己兴趣的某个关注对象(例如，关注对象A)时，可以在该目标应用的对象展示界面上显示该关注对象A，并可以将该关注对象A视为该第一用户对应的关注对象。应当理解，这里的对象显示界面是由第一用户针对视频展示界面上的第一控件进行触发操作后所切换得到的；该视频展示界面可以用于展示当前最新更新至目标应用的视频数据。比如，可以在当前时刻为T2时刻时在该视频展示界面上展示最新更新的包含上述关注对象(例如，关注对象A)的视频数据)；可选的，该视频展示界面还可以用于展示其他最新更新的视频数据，比如，可以用于展示在T2时刻最新更新至该目标应用的包含另一关注对象(例如，关注对象B)的视频数据。应当理解，这里的关注对象A和关注对象B均可以为上述第一用户所对应的关注对象。

为便于理解，本申请实施例可以将第一用户在这两个关注对象中所触发的关注对象(例如，关注对象A)统称为目标关注对象，进而可以在与该视频展示界面相关联的第一数据库中查找与目标关注对象相关联的、且具有目标更新时间戳(即上述T2时刻)的第一视频数据。换言之，本申请实施例中的第一数据库可以用于存储当前最新更新的视频数据，比如，可以用于存储当前最新上线至该目标应用(例如，上述视频客户端或者社交客户端)的包含上述关注对象A的视频数据。为便于理解，本申请实施例可以将在第一数据库中所查找到的与目标关注对象相关联的、且具有目标更新时间戳的视频数据统称为第一视频数据。

可选的，若在第一数据库中未查找到第一视频数据，则可以进一步在与该视频展示界面相关联的第二数据库中查找与目标关注对象相关联的、且具有历史更新时间戳(例如，T1时刻，该T1时刻可以为上述T2时刻之前的时刻)的视频数据。换言之，本申请实施例中的第二数据库可以用于存储在历史时刻更新至上述视频展示界面的视频数据，比如，可以用于存储在历史时刻上线至该目标应用(例如，上述视频应用)中的包含上述关注对象A的视频数据。可以理解的是，本申请实施例可以将在第二数据库中所查找到的与目标关注对象相关联的、且具有历史更新时间戳的视频数据统称为第二视频数据。应当理解，本申请实施例可以将查找到的第一视频数据或者第二视频数据统称为初始视频数据，该初始视频数据可以为该目标应用中的长视频，这里的长视频可以为播放时长大于播放时长阈值(例如，3秒)的电视节目、综艺节目、教育节目等视频数据，这里将不对该初始视频数据的类型进行限制。

应当理解，本申请实施例可以利用脸部识别(比如，人脸识别)技术、情绪识别技术、五官识别技术、肢体识别(例如，手势识别)技术以及图像构图技术等，从长视频(例如，初始视频数据)中截取并制作与上述目标关注对象相关联的表情包，以向上述第一用户提供个性化的表情包，进而可以在目标展示界面上丰富表情包的显示效果。

为便于理解，进一步的，请参见图2，是本申请实施例提供的一种进行数据交互的场景示意图。其中，如图2所示的应用服务器可以为上述服务器2000，且如图2所示的目标用户终端可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端，比如，该目标用户终端可以为上述用户终端3000a。

如图2所示，该目标用户终端的当前显示界面可以图2所示的目标展示界面100c，该目标展示界面100c为图2所示的关注对象B(即目标关注对象)所对应的专属显示界面。如图2所示，显示在该目标展示界面100c上的关注对象可以包含图2所示的多个关注对象，这些关注对象具体可以包含图2所示的关注对象A、…、关注对象B。

如图2所示，该目标展示界面100c上还可以包含图2所示的控件20f，该控件20f即为在该目标展示界面100c上所显示的用于获取与该目标关注对象(例如，图2所示的关注对象B)的表情包的第二控件。如图2所示，当第一用户在该目标展示界面100c上对该控件20f(即第二控件)执行触发操作时，该目标用户终端可以响应该触发操作，进而可以向图2所示的应用服务器发送表情包获取请求。

如图2所示，该应用服务器在获取到该表情包获取请求时，可以从图2所示的视频数据库中查找包含目标关注对象的初始视频数据。比如，可以从图2所示的视频数据库(比如，上述第一数据库)中查找出图2所示的初始视频数据C；该初始视频数据C可以为与该关注对象B相关联的且当前最新更新至视频展示界面上的第一视频数据。

可以理解的是，应用服务器在获取到初始视频数据C时，可以进一步基于上述脸部识别(比如，人脸识别)技术、情绪识别技术、五官识别技术、肢体识别(例如，手势识别)技术以及图像构图技术等，从该初始视频数据C中截取并制作与该目标关注对象(即图2所示的关注对象B)相关联的表情包(例如，可以得到图2所示的表情包100a和表情包100b)。应当理解，对于在第一数据库所查找到的第一视频数据而言，可以将该第一视频数据作为图2所示的初始视频数据C，进而可以从初始视频数据C中实时截取包含该目标关注对象的表情包。比如，如图2所示，应用服务器可以将从初始视频数据C中所提取出的与目标关注对象相关联的表情包100a和表情包100b返回给目标用户终端，以向第一用户提供贴合自己兴趣的表情包。如图2所示，目标用户终端可以进一步在图2所示的目标展示界面100c中输出该表情包100a和表情包100b。应当理解，由于该目标展示界面100c上可以显示与该目标关注对象(例如，图2所示的关注对象B)相关联的表情包(例如，图2所示的表情包100a和表情包100b)，进而可以针对性地向该第一用户提供个性化的表情包，以丰富显示在该目标展示界面上的表情包的显示效果。

可选的，应当理解，当在T3时刻(即T2时刻的下一时刻)需要将一些新上线的视频数据更新至上述视频展示界面时，可以将在上述T2时刻更新至该视频展示界面的视频数据(例如，包含关注对象A的视频数据D)从第一数据库转入第二数据库，以确保第一数据库可以用于存储新的更新至视频展示界面的视频数据。这样，当第一用户将该关注对象A作为新的目标关注对象，且应用服务器确定在该T3时刻的第一数据库中未查找到最新上线至该视频展示界面的包含上述关注对象A的视频数据时，可以进一步在第二数据库中查找包含该关注对象A的视频数据(例如，前述包含关注对象A的视频数据D)，这样，当第一用户在关注对象A所在的目标展示界面上触发上述第二控件之后，应用服务器仍然可以从获取到包含该关注对象A的视频数据中提取并制作表情包，以按需提供个性化的表情包。

可选的，还应当理解，本申请实施例在将上述T2时刻更新至视频展示界面的视频数据(例如，包含关注对象B的初始视频数据C)从第一数据库转入第二数据库时，还可以在该第二数据库中一并存储从该初始视频数据C中所提取出的表情包。这样，当应用服务器确定在该T4时刻(上述T3时刻的下一时刻)的第一数据库中未查找到最新上线至该视频展示界面的包含上述关注对象B的视频数据时，可以从第二数据库中查找到该初始视频数据C，并可以一并得到在上述T2时刻从该初始视频数据C所提取出的表情包(例如，上述图2所对应实施例中的表情包100a和表情包100b)。这样，当第一用户在关注对象B所在的目标展示界面上触发上述第二控件之后，应用服务器可以从快速获取到具有历史更新时间戳(即上述T2时刻)的初始视频数据C，进而可以快速得到该初始视频数据C的表情包，并可以按照这些预先提取出的这些表情包的评分值，依次输出至新的目标展示界面。

可以理解的是，显示在该目标展示界面上的表情包可以是基于下载热度值、生成时间戳、点击热度值、播放时间戳等一个或者多个因素所计算出的评分值进行排序处理后所输出的。比如，对于上述图2所示的从同一视频数据(即图2所示的初始视频数据)中所提取的两个表情包而言，可以基于这两个表情包所对应的视频子片段在初始视频数据中的先后位置(比如，基于对应视频子片段在初始视频数据C中的播放时间戳所确定的位置)，依次生成图2所示的表情包100a和表情包100b，即表情包100a所对应的视频子片段的播放时间戳早于表情包100b所对应的视频子片段的播放时间戳，以至于表情包100a的评分值会大于表情包100b的评分值，进而可以在图2所示的目标显示界面上依次输出表情包100a和表情包100b。

可选的，可以理解的是，上述应用服务器根据上述表情包获取请求在向目标用户终端返回表情包的过程中，可以返回从当前更新至上述视频展示界面上的包含上述关注对象B的初始视频数据C中提取出的表情包，还可以一并考虑返回先前从其他视频数据(在上述T1时刻包含该关注对象B的视频数据)中所提取出的当前具有较高评分值(比如，具有较高点击量)的其他表情包(例如，表情包100d)。

比如，对于从不同视频数据中所提取出的上述表情包100d和表情包100b而言，若表情包100d的生成时间戳早于图2所示的表情包100b的生成时间戳，则相对于该表情包100b而言，该表情包100d属于在历史时刻所得到的表情包，所以，通过表情包的生成时间戳可以反映待输出至上述目标展示界面上的表情包的时间权重值的大小，即表情包的生成时间戳越大，则表明这个表情包所对应的时间权重值也就越大。另外，截止到当前时刻，上述应用服务器还可以对历史时刻所生成的表情包的点击量(或者下载量)进行统计，进而可以通过统计到的这些表情包的点击量(或者下载量)，确定对应表情包的点击热度值(或者下载热度值)中，这里的点击热度值可以用于表征截止到当前时刻，若表情包100d被与该目标关注对象相关联的用户所点击得到的总点击数量(即表情包100d的点击量)大于当前最新生成的表情包100b的点击量，则可以得到表情包100d的热度权重值会大于表情包100b的热度权重值。鉴于此，通过对表情包100d和表情包1001b的相应权重值(这里指的是热度权重值和时间权重值)进行综合计算后，可以分别得到这两个表情包的评分值，进而可以在上述图2所示的目标展示界面100c中显示表情包100a、表情包100b和表情包100d。其中，表情包100a、表情包100b和表情包100d所在的显示区域可以统称为表情展示区域，应当理解，本申请实施例将不对输出至表情展示区域中的表情包的数量进行限制。

可选的，当上述第一用户在目标展示界面100c上对控件20f(即第二控件)执行触发操作之后，该目标用户终端还可以一并向图2所示的应用服务器发送与该目标关注对象(例如，图2所示的关注对象B)相关联的壁纸获取请求，从而可以在与上述表情包100a相同的展示界面上输出与该壁纸获取请求对应的壁纸信息；应当理解，可选的，该目标用户终端还可以在不同于上述目标展示界面100c的另一展示界面(例如，展示界面100d)上显示由该应用服务器所返回的与该关注对象B相关联的壁纸信息。这里的壁纸信息也可以是由与上述视频展示界面具有关联关系且包含该目标关注对象的视频数据所生成的。

其中，可以理解的是，上述应用服务器所获取到的初始视频数据C中还可以包含除上述关注对象B之外的其他对象，比如，还可以包含不同于该第一用户的其他用户(例如，第二用户)所关注的对象。为便于进行区别，本申请实施例可以将上述初始视频数据C中所包含的与第一用户具有关联关系的对象统称为关注对象，并将上述初始视频数据C中所包含的与其他用户(例如，第二用户)具有关联关系的对象统称为关联对象。鉴于此，应用服务器在获取到第一用户所发送的针对该关注对象B的表情包获取请求之后，可以获取与上述关注对象B相关联的至少一个表情包，进而可以在该第一用户对应的用户终端(例如，上述图2所示的目标用户终端)上输出与上述关注对象B相关联的至少一个表情包，从而可以在该第一用户对应的用户终端上播放这些表情包的动画效果。同理，当第二用户对应的用户终端向上述应用服务器发送另一表情包获取请求之后，可以在该第二用户对应的用户终端上输出与关联对象(例如，关联对象X)相关联的至少一个表情包，以在该第二用户对应的用户终端上播放这些表情包的动画效果。换言之，采用本申请实施例可以针对不同用户个性化的提供不同的表情包，从而可以避免在每个用户终端中无差别的输出相同的表情包现象，进而可以丰富表情包的显示效果。

其中，应当理解，这里的第二用户可以为不同于第一用户的用户，比如，在社交客户端中，该第二用户可以为第一用户的好友等，这样，第一用户可以将在上述表情展示列表所包含的多个表情包中选择一个表情包作为目标表情包，进而可以将该目标表情包分享给第二用户。

应当理解，本申请实施例可以在上述应用服务器中提取得到与目标关注对象相关联的表情包，还可以在上述目标用户终端中提取得到与该目标关注对象相关联的表情包，这里将不对其进行限定。其中，目标用户终端响应第一控件和第二控件的具体实现方式可以参见下述图3-图10所对应的实施例。

进一步地，请参见图3，是本申请实施例提供的一种视频数据处理方法的流程示意图。如图3所示，该方法可以由用户终端(例如，上述图2所示的目标用户终端)执行，也可以由服务器(例如，上述图2所示的应用服务器)执行，还可以由用户终端和服务器共同执行。为便于理解，本实施例以该方法由上述目标用户终端执行为例进行说明，以阐述在目标用户终端中提供个性化的表情包的具体过程。其中，该方法至少可以包括以下步骤S101-步骤S103：

步骤S101，显示包含第一控件的视频展示界面，响应第一用户针对第一控件的触发操作，将视频展示界面切换为对象展示界面；

具体地，目标用户终端中可以部署有上述目标应用，该目标应用可以为上述视频客户端。当使用该目标用户终端的用户(即上述第一用户)启动该目标应用之后，可以在该目标用户终端上显示包含第一控件的视频展示界面，这里的第一控件可以理解为在该目标应用中所集成的某个嵌入式子程序对应的控件，其中，该嵌入式子程序可以为该目标应用中的一个频道。比如，该频道可以为视频客户端中专门用于对接与公众人物相关联的一系列主题(例如，电影、电视、综艺等相关主题)的doki频道，该doki频道所对应的控件即为能够获取上述Z个对象的第一控件。所以，当第一用户启动该目标应用时，可以在该目标应用的视频展示界面上一并显示该第一控件。进一步的，当第一用户针对该第一控件执行触发操作(例如，点击操作)时，该目标用户终端可以响应针对该第一控件的触发操作，将该目标应用的视频展示界面切换为该doki频道对应的对象展示界面。可以理解的是，本申请实施例可以将展示在该对象展示界面上的所有公众人物(例如，上述Z个对象)统称为对象，并将这些对象所属的doki频道统称为对象频道。此外，本申请实施例还可以将该第一用户在该对象展示界面上所选取并关注的对象统称为上述关注对象。所以，当该目标用户终端上显示该对象展示界面时，还可以在该对象展示界面的关注区域上一并显示该第一用户所关注的关注对象，这里的关注对象可以包含第一用户从上述对象展示界面所包含的Z个对象中所选取的一个或者多个对象，这里将不对该第一用户所关注的关注对象的数量进行限制。

其中，可以理解的是，该doki频道(即第一控件对应的对象频道)是该视频客户端(即目标应用)专为公众人物(例如，明星)进行互动(例如，鼓励加油)的地方，在该doki频道对应的对象展示界面上可以搜索查看到所有入驻该目标应用(例如，视频客户端)的公众人物，并可以选择自己心仪的公众人物，应当理解，本申请实施例可以将第一用户在该doki频道上所选取并关注的公众人物统称为关注对象，从而可以在该doki频道上选取不同的方式为自己所关注的公众人物鼓气加油，成为这些公众人物在视频客户端里的粉丝。比如，在该doki频道上，上述图2所对应实施例中的第一用户可以为上述图2所示的关注对象B在该视频客户端里的粉丝。这样，第一用户可以在该doki频道上，通过与该关注对象B相关联的互动平台获取与该关注对象B相关联的动态信息，以便于该第一用户可以实时了解自己所感兴趣的公众人物(即关注对象)的动态信息。

为便于理解，本申请实施例以第一用户在上述对象展示界面中所选取的两个对象作为关注对象(比如，关注对象A和关注对象B)为例，以阐述如何通过第一控件将视频展示界面切换为对象展示界面。进一步的，请参见图4，是本申请实施例提供的一种将视频展示界面切换为对象展示界面的场景示意图。如图4所示的视频展示界面200a可以为第一用户启动目标应用之后所呈现的该目标应用的首个显示界面，该首个显示界面可以为图4所示的控件10a(例如，首页频道对应的控件)所对应的显示界面。如图4所示，该视频展示界面200a上可以显示在当前时刻更新至目标应用(例如，上述视频客户端)的多个视频数据。多个视频数据具体可以包含图4所示的视频数据30a、视频数据30b、视频数据30c和视频数据30d，这里将不对显示在该视频显示界面200a上的视频数据的数量进行限制，比如，第一用户可以针对该视频展示界面200a执行滑动操作，以获取能够显示在该视频显示界面200a上的其他视频数据(例如，视频数据30e，该视频数据30e暂未在图4所示的视频展示界面200a上示出)。

如图4所示，该视频展示界面200a上还包含图4所示的控件10d，该控件10d即为上述对象频道所对应的第一控件。如图4所示，当第一用户针对该第一控件执行触发操作时，目标用户终端可以响应第一用户针对该控件10d(即第一控件)所执行的触发操作，进行界面切换，比如，可以将图4所示的视频展示界面200a切换为图4所示的对象展示界面200b。如图4所示，该对象展示界面200b上可以显示上述关注对象A和关注对象B，此时，本申请实施例可以将该关注对象A和关注对象B统称为该第一用户对应的关注对象，以便于后续可以进一步执行下述步骤S102。由此可见，该对象展示界面200b可以用于显示上述第一用户所关注的一个或者多个关注对象。

步骤S102，响应针对关注对象中的目标关注对象的触发操作，将对象展示界面跳转至目标关注对象所属的目标展示界面。

为便于理解，本申请实施例仍以在上述图4所示的对象展示界面200b中所显示的关注对象A和关注对象B为例，以阐述将对象展示界面跳转至目标展示界面的具体过程。为便于理解，进一步的，请参见图5，是本申请实施例提供的一种将对象展示界面切换为目标展示界面的场景示意图。如图5所示，当第一用户需要点击上述图5所示的关注对象B时，目标用户终端可以获取到第一用户针对该关注对象B的触发操作，此时，本申请实施例可以将该触发操作所对应的关注对象B统称为目标关注对象。鉴于此，当目标用户终端获取到该关注对象B所对应的触发操作时，可以进行新的页面切换，以将当前显示在目标应用上的对象展示界面200b跳转至该目标关注对象(例如，图5所示的关注对象B)所专属的目标显示界面200c。

如图5所示，该目标展示界面200c中可以显示图5所示的第二控件，该第二控件可以用于指示上述目标用户终端执行下述步骤S103，以获取与该关注对象B(即目标关注对象)相关联的表情包，进而可以将获取到的表情包分别输出至图5所示的表情展示列表1。

其中，应当理解，如图5所示的视频数据30b中可以包含该第一用户所关注的关注对象B。另外，视频数据30a中也可以包含该第一用户所关注的关注对象A。所以，当第一用户选取关注对象B为目标关注对象时，目标用户终端可以获取与该关注对象B相关联的表情包；其中，与该关注对象B相关联的表情包(例如，表情包1)可以为从上述图4所对应实施例中的视频数据30b中所提取得到的。应当理解，此时，用于提取表情包的视频数据30b可以为从上述第一数据库中所查找到的包含该关注对象B的初始视频数据。

同理，可选的，当第一用户在当前时刻的下一时刻选取关注对象A为目标关注对象时，目标用户终端可以获取与该关注对象A相关联的表情包。其中，与该关注对象A相关联的表情包(例如，表情包2)可以为从上述图4所对应实施例中的视频数据30a中所提取得到的。应当理解，此时，用于提取表情包的视频数据30a可以为从上述第二数据库中所查找到的包含该关注对象A的另一初始视频数据，这意味着在当前时刻的下一时刻，目标用户终端在第一数据库中未查找到包含该关注对象A的视频数据。

应当理解，对于该第一用户所关注的每个关注对象而言，均可以在该目标应用中存在每个关注对象所专属的显示界面。鉴于此，本申请实施例在将第一用户在多个关注对象中所选取的任意一个关注对象统称为目标关注对象时，可以将该目标关注对象所专属的显示界面统称为上述目标展示界面，这里将不对该第一用户从对象展示界面中所选取的关注对象进行具体限制。

步骤S103，响应针对第二控件的触发操作，在目标展示界面上输出与目标关注对象相关联的表情包；

具体的，可以理解的是，输出至目标展示界面上的表情包的数量可以为一个或者多个，当第一用户针对上述步骤S102中的第二控件执行触发操作时，目标用户终端可以响应针对第二控件的触发操作，进而可以在目标展示界面中的表情展示区域中，预先输出与多个表情包相关联的表情展示列表(这里的表情展示列表可以为上述图5所对应实施例中的表情展示列表1)。其中，可以理解的是，这里的多个表情包可以为目标用户终端从上述初始视频数据(例如，视频数据10a或者视频数据10c)中所提取出的所有表情包。应当理解，该目标用户终端可以实时从初始视频数据中提取出所有的表情包，以实现按需获取。可选的，目标用户终端还可以预先从初始视频数据中提取出相应的表情包，以提高表情包的获取效率。进一步的，目标用户终端可以根据每个表情包的评分值，在表情展示列表中显示并播放每个表情包的动画效果。

其中，应当理解，每个表情包的评分值可以是基于上述生成时间戳、点击热度值，下载热度值、播放时间戳中的一个或者多个所综合计算得到的，这里将不对计算每个表情包的评分值的具体过程进行一一列举，具体的，可以参见上述图2所对应实施例中对表情包的排序方法的描述，这里将不再继续进行赘述。

其中，应当理解，表情包可以是目标用户终端基于与视频展示界面具有关联关系且包含目标关注对象的视频数据所生成的，比如，该目标用户终端可以在执行上述步骤S103之前或者执行上述步骤S103时，在该目标用户终端中生成包含目标关注对象的表情包，这里将不对其进行限定。可选的，本申请实施例还可以在目标用户终端和应用服务器之间采用数据交互的方式，生成待输出至该目标用户终端上的目标展示界面上的表情包，具体的，请参见上述图2所对应的实施例。可选的，本申请实施例还可以在应用服务器中生成并输出与目标关注对象相关联的表情包，且在应用服务器中生成表情包的具体实现方式可以参见上述图2所对应的实施例，这里将不再继续进行赘述。

在本申请实施例中，当用户(例如，第一用户)在视频应用中选择了自己喜欢的对象之后，可以将自己选择的对象统称为能够显示在对象展示界面上的关注对象，这样，当该第一用户在自己所关注的关注对象中确定目标关注对象时，可以进一步将当前显示的对象展示界面跳转至该目标关注对象所专属的目标展示界面，然后，当该第一用户在该目标展示界面中通过触发该用于获取目标关注对象的表情包的第二控件时，可以从与上述视频展示界面相关联的且包含目标关注对象的视频数据中，提取出与该目标关注对象相关联的个性化的表情包，进而可以将该个性化的表情包输出至于该目标展示界面，以针对性地向第一用户提供自己所感兴趣的对象(例如，目标关注对象A)的表情包。应当理解，针对于不同用户而言，可以在对应的目标展示界面上提供不同的表情包，以避免表情包的无差别输出，进而可以丰富表情包的显示效果。

进一步地，请参见图6，是本申请实施例提供的一种视频数据处理方法的示意图。如图6所示，方法可以由用户终端(例如，上述图2所示的目标用户终端)执行，也可以由服务器(例如，上述图2所示的应用服务器)执行，还可以由用户终端和服务器共同执行。为便于理解，本实施例以该方法由上述目标用户终端执行为例进行说明，该方法可以包含以下步骤：

步骤S201，显示包含第一控件的视频展示界面，响应第一用户针对第一控件的触发操作，将视频展示界面切换为对象展示界面；

其中，对象展示界面用于显示第一用户对应的关注对象。应当理解，目标用户终端将视频展示界面切换为对象展示界面的具体实现方式可以参见上述图4所对应实施例中对第一控件的描述，这里将不再继续进行赘述。

步骤S202，响应针对关注对象中的目标关注对象的触发操作，将对象展示界面跳转至目标关注对象所属的目标展示界面；

其中，目标展示界面中包含第二控件，该第二控件可以用于获取目标关注对象的表情包，这里的第二控件可以为上述图5所对应实施例中的控件20f。应当理解，目标用户终端将当前展示界面由对象展示界面跳转至目标展示界面的具体实现方式可以参见上述图5所对应实施例中对第二控件的描述，这里将不再继续进行赘述。

步骤S203，获取包含目标关注对象的初始视频数据；

具体的，目标用户终端可以从与视频展示界面相关联的第一数据库中查找与目标关注对象相关联的、且具有目标更新时间戳的第一视频数据；进一步的，目标用户终端若在第一数据库中查找到第一视频数据，则将查找到的第一视频数据作为初始视频数据；可选的，目标用户终端若在第一数据库中未查找到第一视频数据，则从与视频展示界面相关联的第二数据库中查找与目标关注对象相关联的、且具有历史更新时间戳的第二视频数据，进而可以将查找到的第二视频数据作为初始视频数据；其中，第二视频数据可以为在历史更新时间戳时呈现在视频展示界面上的包含目标关注对象的视频数据；其中，历史更新时间戳可以为早于目标更新时间戳的时间戳。

其中，应当理解，这里的初始视频数据可以为与视频展示界面具有关联关系的视频数据，比如，这里的初始视频数据可以为在当前时刻为T2时刻时最新更新至视频展示界面上的包含目标关注对象(这里的目标关注对象可以为上述图3所对应实施例中的关注对象B)的第一视频数据，并可以将该第一视频数据存储至第一数据库，这样当目标用户终端获取到第一用户发送的表情包获取请求时，可以快速在第一数据库中查找包含该关注对象B的第一视频数据(这里的第一视频数据可以为上述图4所对应实施例中的视频数据30b)，进而可以将查找到的第一视频数据(例如，上述视频数据30b)作为初始视频数据，以进一步执行下述步骤S204-步骤S206。其中，T2时刻可以为本申请实施例中的目标更新时间戳；T1时刻可以为本申请实施例中的历史更新时间戳。

可选的，可以理解的是，若在当前时刻为T2时刻时，该目标用户终端在视频展示界面上对应的第一数据库(这里的第一数据库可以理解为当前更新数据库)中未查找到包含该关注对象B的第一视频数据，则可以进一步在上述第二数据库中查找在T1时刻(例如，该T2时刻的上一时刻)包含该关注对象B的第二视频数据。换言之，当视频展示界面上不存在包含该关注对象的当前最新上线的视频数据时，可以继续在第二数据库(这里的第二数据库可以理解为历史更新数据库)中查找包含该关注对象的历史最新上线的视频数据，进而可以向第一用户针对性地提供丰富的表情包。

应当理解，该视频展示界面上可以用于呈现在该T2时刻所上线的所有视频数据，这些视频数据中可以包含该第一用户所关注的目标关注对象(例如，关注对象B)的视频数据，还可以包含其他用户(例如，上述第二用户)所关注的其他对象(即上述关联对象)的视频数据。例如，上述图4所对应实施例中的视频数据30c可以为在该T2时刻最新更新至该视频展示界面的、且与该第二用户所关注的关联对象相关联的视频数据。

应当理解，当在T3时刻(即T2时刻的下一时刻)存在需要上线更新至该视频展示界面的包含该关注对象B的新的第一视频数据时，本申请实施例可以将该新的第一视频数据作为新的初始视频数据。此时，本申请实施例可以将上述T3时刻作为新的目标更新时间戳，并可以将上述T2时刻作为新的历史更新时间戳，以将与该关注对象B相关联的、且具有该新的历史更新时间戳的视频数据作为新的第二视频数据。可选的，若在T3时刻(即T2时刻的下一时刻)不存在需要上线更新至该视频展示界面的包含该关注对象B的新的第一视频数据，则本申请实施例可以将前述新的第二视频数据作为新的初始视频数据。其中，可以理解的是，这里的第一数据库和第二数据库可以统称为上述目标应用的视频数据库。该目标应用可以为运行在该目标用户终端中的应用客户端，比如，上述视频客户端等。

步骤S204，在初始视频数据的初始帧序列中识别目标关注对象，从初始视频序列中筛选在时间上连续且包含目标关注对象的初始视频帧，根据筛选出的初始视频帧确定与目标关注对象相关联的关键帧序列；

具体的，目标用户终端可以对初始视频数据进行帧处理，以得到初始视频数据中的初始视频序列，进一步的，目标用户终端可以获取用于进行面部识别的第一网络模型，以在初始视频序列中通过第一网络模型中的人脸识别技术，对目标关注对象进行面部识别(也可以称之为脸部识别)，得到面部识别结果；进一步的，目标用户终端可以根据面部识别结果在初始视频序列的初始视频帧中筛选在时间上连续且包含目标关注对象的初始视频帧，将筛选出的在时间上连续且包含目标关注对象的初始视频帧确定为关键视频帧；进一步的，目标用户终端可以将由关键视频帧构成的帧序列确定为与目标关注对象相关联的关键帧序列。

为便于理解，本申请实施例可以以上述第一视频数据作为初始视频数据为例，以阐述在初始视频数据中确定与该目标关注对象相关联的关键帧序列的具体过程。其中，可以理解的是，本申请实施例在确定好目标关注对象之后，可以在视频数据库(例如，上述第一数据库)中获取包含该目标关注对象的第一视频数据，进而可以将获取到的第一视频数据作为初始视频数据。可以理解的是，这里的初始视频数据可以为上述图4所对应实施例中的视频数据30b。应当理解，本申请实施例在获取到该包含目标关注对象的视频数据30b之后，可以进一步对该初始视频数据进行抽帧处理，以得到该初始视频数据中的初始视频序列。

为便于理解，进一步的，请参见图7，是本申请实施例提供的一种从初始视频数据中确定关键帧序列的场景示意图。如图7所示的初始视频序列300a可以为该目标用户终端对上述步骤S203中的初始视频数据进行抽帧处理后所得到的视频序列。如图7所示，该初始视频序列300a具体可以包含图7所示的N个初始视频帧，这里的N为大于1的正整数。如图7所示，这N个初始视频帧具体可以包含图7所示的初始视频帧40a、初始视频帧40b、…、初始视频帧40c、初始视频帧40d、初始视频帧40e、…、初始视频帧40k、…、初始视频帧40n。如图7所示，该初始视频序列300a中可以包含多个对象。比如，该初始视频序列300a中的初始视频帧40a、初始视频帧40b、…、初始视频帧40c、初始视频帧40d、初始视频帧40e、…、初始视频帧40k中所包含的对象可以为上述图5所对应实施例中的关注对象B，该关注对象B可以为本申请实施例中的目标关注对象。另外，如图7所示，初始视频帧40x(未在上述图7中示出)、…、初始视频帧40n中所包含的对象可以包含该第一用户所关注的另一关注对象(例如，上述图5所对应实施例中的关注对象A)。

进一步的，如图7所示，当将该初始视频序列300a输入至图7所示的第一网络模型之后，可以对该初始视频序列300a的每个图像帧(也可以称之为视频帧)中所包含的对象进行识别。由于该第一用户所关注的对象为该初始视频序列300a中的关注对象B，所以本申请实施例可以在该第一网络模型中通过上述人脸识别技术对该关注对象B(即目标关注对象)的脸部进行识别，以得到与该关注对象B相关联的面部识别结果300b。如图7所示，上述目标用户终端可以根据面部识别结果300b在图7所示的初始视频序列300a中筛选在时间上连续且包含该关注对象B(即目标关注对象)的初始视频帧，进而可以将筛选出的在时间上连续且包含该关注对象B(即目标关注对象)的初始视频帧确定为关键视频帧。进一步的，该目标用户终端可以将由该关键视频帧所构成的帧序列确定为与目标关注对象相关联的关键帧序列，即可以得到图7所示的关键帧序列300c。该关键帧序列300c中可以包含在时间上连续且包含该目标关注对象的多个关键视频帧，这些关键视频帧具体可以包含图7所示的关键视频帧50a、关键视频帧50b、…、关键视频帧50c、关键视频帧50d、关键视频帧50e、…、关键视频帧50k。

其中，应当理解，该第一网络模型可以为一种用于进行面部识别的人脸识别模型，比如，该人脸识别模型可以为用于对视频或者图片中的人脸信息进行识别的arcface网络模型。当通过该第一网络模型对图7所示的初始视频序列300a中的所有对象进行人脸识别之后，可以根据面部识别结果在上述初始视频序列300a中区分出那些初始视频帧中包含人脸，以去除不包含人脸的初始视频帧，进而可以提高获取关键视频帧序列的效率。

比如，本申请实施例可以通过该第一网络模型在初始视频序列300a中为包含人脸的初始视频帧设置第一标识，并在该初始视频序列300a中为不包含人脸的视频帧设置第二标识，进而可以通过带有第二标识的视频帧判断相邻视频帧是否连续，比如，本申请实施例可以将在该带有第二标识的视频帧之前以及在该带有第二标识的视频帧之后的带有第一标识的初始视频帧作为候选视频帧，进而可以从这些候选视频帧中筛选出包含同一对象且在时间上连续的候选视频帧作为关键视频帧。比如，本申请实施例通过该第一网络模型可以从该初始视频序列300a中分辨出在时间上连续且包含关注对象B的初始视频帧，进而可以将分辨出的在时间上连续且包含该关注对象B的初始视频帧作为关键视频帧。

其中，可以理解的是，这里的第一网络模型可以为已经预先训练好的人脸识别模型。为确保训练好的第一网络模型能够对获取到的所有对象进行识别，本申请实施例可以在对人脸识别模型进行训练的过程中，为入驻该目标应用中的每个对象提供至少两张图片，当然，为了达到更好的训练效果，可以为每个对象(这里指的是入驻上述视频客户端中公众人物，例如，明星)提供至少20个图片，以将这些包含人脸的图片统称为样本数据。

其中，可以理解的是，在模型训练阶段，参与模型训练的每个样本数据均可以为包含人脸的图像数据(比如，包含人脸的照片等)。进一步的，可以理解的是，本申请实施例在对该人脸识别模型进行训练的过程中，可以从每个样本数据中提取出人脸所在的区域，以通过图像构图技术对齐每个样本数据中的人脸。比如，可以将人脸所在区域的大小放大或者缩小到规定的尺寸中。又比如，考虑到每个样本数据中的人脸会存在一定的倾斜角度，本申请实施例还可以对每个样本数据中的人脸图像进行放射变换，以提高人脸识别的准确性。比如，这里的从样本数据中所提取出的人脸所在的区域可以为从对应样本数据中所截取出的包含对象的样本关键区域。比如，如果某个样本数据中人脸所在的区域的尺寸为100*120，则该样本数据对应的样本关键区域的尺寸可以为150*180。由此可见，为确保后续生成的表情包所表征的情绪特征的丰富性，本申请实施例可以在模型训练过程中可以将样本数据中人脸所在的区域的尺寸扩充1.5倍，以在完成对该人脸识别模型的训练时，可以快速得到更优的样本属性特性，这样，该目标用户终端在通过训练好的人脸识别模型(即上述第一网络模型)进行人脸识别时，可以提高人脸识别的效率以及人脸识别的准确度。

步骤S205，在关键帧序列中截取包含目标关注对象的关键区域，在由关键区域的图像所构成的待识别序列中，分析与目标关注对象的情绪特征和辅助特征相关联的表情信息，将分析得到的表情信息作为与目标关注对象相关联的候选表情；

具体的，目标用户终端可以在关键帧序列的每个关键视频帧中，分别确定目标关注对象的面部所在的第一区域以及第一区域的图像尺寸，基于每个第一区域的图像尺寸以及图像扩充比例，确定与目标关注对象的面部相关联的第二区域以及第二区域的图像尺寸；进一步的，目标用户终端可以基于每个第二区域的图像尺寸在对应关键视频帧中的坐标信息，构建与目标关注对象的面部相关联的最优截图尺寸，基于最优截图尺寸在关键视频序列中截取包含目标关注对象的关键区域；进一步的，目标用户终端可以在由关键区域的图像所构成的待识别序列中提取目标关注对象的情绪特征以及目标关注对象的面部特征和肢体特征，将面部特征以及肢体特征作为目标关注对象的辅助特征；进一步的，目标用户终端可以通过第二网络模型识别与目标关注对象的情绪特征相匹配的情绪类型，并通过第三网络模型识别与辅助特征相匹配的辅助类型，根据表情映射规则确定情绪类型和辅助类型所映射的表情信息，将分析得到的表情信息作为与目标关注对象相关联的候选表情。

其中，为便于理解，本申请实施例以上述图7所对应实施例中的关键帧序列300c为例，可以在上述关键帧序列300c的每个关键视频帧中，分别确定目标关注对象(比如，上述关注对象B)的面部所在的第一区域，如图7所示，该目标用户终端可以还根据上述第一网络模型识别出上述关注对象B(即目标关注对象)的面部所在的第一区域。比如，关注对象B在关键视频帧50a中的第一区域可以为上述图7所示的第一区域60a，关注对象B在关键视频帧50b中的第一区域可以为上述图7所示的第一区域60b，…，关注对象B在关键视频帧50c中的第一区域可以为上述图7所示的第一区域60c，关注对象B在关键视频帧50d中的第一区域可以为上述图7所示的第一区域60d，关注对象B在关键视频帧50e中的第一区域可以为上述图7所示的第一区域60e，…，关注对象B在关键视频帧50k中的第一区域可以为上述图7所示的第一区域60k。

其中，为便于理解，本申请实施例以上述图7所对应实施例中中的第一区域60a为例，以阐述对该第一区域60a进行图像扩充的具体过程。进一步的，请参见图8，是本申请实施例提供的一种进行图像扩充的场景示意图。如图8所示的关键视频帧可以为上述图7所对应实施例中的关键视频帧50a，如图8所示，目标用户终端可以对图8所示的关键视频帧进行人脸识别，以确定该关键视频帧中的人脸所在的区域，进而可以将识别到的该关键视频帧中人脸所在的区域统称为第一区域，以得到图8所示的包含该关注对象B的人脸的第一区域。

进一步的，如图8所示，该目标用户终端还可以在该关键视频帧中确定该第一区域的图像尺寸(例如，该图像尺寸可以为100*120)，此时，该目标用户终端可以根据该第一区域的图像尺寸以及图像扩充比例(例如，1.5倍)对该第一区域的图像进行扩充处理，以得到图8的第二区域，此时，该第二区域的图像尺寸可以为150*180。应当理解，对于上述图7所对应实施例中的关键帧序列300c而言，可以在每个关键视频帧中确定出包含该目标关注对象的第二区域。其中，该目标用户终端在其他关键视频帧(例如，关键视频帧50b、关键视频帧50c等)中确定出包含该目标关注对象的第二区域的具体实现方式可以参见本申请实施例中对在关键视频帧50a确定出第二区域的描述，这里将不再继续进行赘述。

进一步的，可以理解的是，当该目标用户终端在每个关键视频帧中确定出包含目标关注对象的第二区域之后，可以基于每个第二区域的图像尺寸在对应关键视频帧中的坐标信息，通过图像构图技术构建与该目标关注对象的面部相关联的最优截图尺寸，进而可以基于最优截图尺寸在关键视频序列中截取包含目标关注对象的关键区域。

为便于理解，本申请实施例以从在上述关键视频帧序列中确定的6个第二区域为例，以阐述确定最优截图尺寸的具体过程。进一步的，请参见图9，是本申请实施例提供的一种确定最优截图尺寸的场景示意图。其中，图9所示的6个第二区域具体可以包含：图9所示的第二区域70a、第二区域70b、第二区域70c、第二区域70d、第二区域70e和第二区域70f。如图9所示，目标用户终端在得到这6个第二区域之后，可以在对应关键视频帧中确定每个第二区域的中心位置信息。

其中，可以理解的是，这里的第二区域是以包含目标关注对象的四边形所对应的图像区域为例，当然，也还可以是包含目标关注对象的其他形状(例如，圆形等)。可以理解的是，由于关键视频帧序列中的每个关键视频帧在同一坐标系下具有相同的尺寸信息，所以，目标用户终端从对应关键视频帧中确定出第二区域的中心位置信息之后，可以进一步基于每个第二区域的图像尺寸和每个第二区域的中心位置信息，快速的确定出每个第二区域的顶角在对应关键视频帧中的坐标信息。其中，如图9所示，在每个对应关键视频帧的尺寸信息相同的情况下，可以通过每个第二区域的顶角在纵向坐标方向(即第一方向上)上的坐标信息，找出具有最小坐标值的顶角的坐标信息作为第一坐标信息，并将在该第一方向上具有最大坐标值的顶角的坐标信息确定为第二坐标信息。比如，如图9所示，可以将第二区域70f的最右下角的顶角的坐标信息作为第一坐标信息，将第二区域70c的最左上角的顶角的坐标信息作为第二坐标信息。应当理解，如图9所示，通过第一坐标信息和第二坐标信息，可以快速确定出图9所示的最大截图高度W1。

同理，如图9所示，在每个对应关键视频帧的尺寸信息相同的情况下，可以通过每个第二区域的顶角在横向坐标方向(即第二方向上)上的坐标信息，找出具有最小坐标值的顶角的坐标信息作为第三坐标信息，并将在该第二方向上具有最大坐标值的顶角的坐标信息确定为第四坐标信息。比如，如图9所示，可以将第二区域70b的最左下角的顶角的坐标信息作为第三坐标信息，将第二区域70c或者第二区域70b的最左上角的顶角的坐标信息作为第四坐标信息，应当理解，如图9所示，通过第三坐标信息和第四坐标信息，可以快速确定出图9所示的最大截图宽度W1。

进一步的，本申请实施例可以基于第一坐标信息、第二坐标信息、第三坐标信息和第四坐标信息，确定用于完全覆盖目标关注对象(例如，上述关注对象B)的最优截图尺寸，该最优截图尺寸可以包含图9所示的最大截图宽度W1和图9所示的最大截图高度H1，此时，该目标用户终端可以基于最优截图尺寸在关键视频序列中截取包含目标关注对象的区域，进而可以将截取到的包含目标关注对象的区域作为关键区域。可以理解的是，这些关键区域所对应的图像的尺寸均与该最优截图尺寸相同。

由此可见，采用本申请实施例在通过上述第一网络模型对目标关注对象的人脸所在区域进行识别之后，可以快速基于确定出的具有不同图像尺寸的第二区域，进而可以进一步对这些具有不同尺寸的第二区域进行图像处理，以找到用于对目标关注对象的脸部进行截图的最优截图尺寸，该最优截图尺寸可以用于对齐每个关键视频帧中的人脸，以便于后续可以在由关键区域的图像所构成的连续帧(即待进行表情分析的待识别序列)中，快速找到该目标关注对象的人脸，进而可以在视频中的对象存在运动的状态下，可以快速的获知处于运动状态下的对象在时间和空间上的关联性，进而可以提高动态捕捉到该目标关注对象的情绪特征和辅助特征的准确性。

换言之，目标用户终端可以在由关键区域的图像所构成的待识别序列中，提取目标关注对象的情绪特征以及目标关注对象的面部特征和肢体特征，进而可以将面部特征以及肢体特征作为目标关注对象的辅助特征。进一步的，该目标用户终端可以通过第二网络模型中的情绪识别技术识别与目标关注对象的情绪特征相匹配的情绪类型，并通过第三网络模型中的五官识别技术和肢体识别技术识别与辅助特征相匹配的辅助类型，进而可以根据预设的表情映射规则确定情绪类型和辅助类型所映射的表情信息，以将分析得到的表情信息作为与目标关注对象相关联的候选表情。

应当理解，目标用户终端在完成人脸识别之后，可以进一步对截取出的包含人脸的图片(即上述关键区域的图像)中的情绪和五官进行识别。可选的，该目标用户终端还可以对包含人脸的图片中的肢体(例如，手势)进行识别，以根据识别到的目标关注对象的情绪特征、目标关注对象的面部特征和肢体特征等，准确地输出该目标关注对象在对应图像帧中的表情。

其中，本申请实施例中的情绪类型可以大致分为以下六种类型：开心、平静、伤心、生气、惊讶和无表情。可以理解的是，本申请实施例可以对上述待识别序列中的每个图像帧中所包含的情绪进行识别，其中，情绪的识别可以通过第二网络模型(例如，具有情绪识别功能的ResNet50网络模型)对待识别序列中的每个图像帧中的情绪进行分类，以得到对应图像帧对应的情绪类型。

其中，可以理解的是，这里的第二网络模型可以为训练好的神经网络模型，在对该神经网络模型进行训练的过程中，可以挑选90％的数据作为训练集，剩余10％的数据作为测试集。可以理解的是，在测试阶段，本申请实施例可以为参与测试的每个测试样本配置上述多个情绪类型的概率，进而可以选择最大概率的情绪类型作为对应测试样本的样本情绪类型，并可以记录下该样本情绪类型的概率作为后续进行情绪分类时的置信度。可以理解的是，待识别序列中的某个图像帧是某个情绪类型的置信度越大，则可以将该具有最大置信度的情绪类型作为确定出的与目标关注对象的情绪特征相匹配的情绪类型。

其中，可以理解的是，本申请实施例还可以通过第三网络模型识别该待识别序列中的每个图像帧中的五官特征(也可以称之为面部特征)和肢体特征，进而可以将识别出的面部特征以及肢体特征作为目标关注对象的辅助特征。为便于理解，本申请实施例以通过该第三网络模型识别出该识别序列中的每个图像帧的面部特征作为辅助特征为例，以阐述通过第三网络模型识别与辅助特征相匹配的辅助类型的具体过程。其中，可以理解的是，本申请实施例中的面部特征具体可以包含眼部特征、嘴巴特征、眉毛特征等。其中，眼睛特征所对应的类型可以包含以下几类：睁眼类型、闭眼类型、眼遮挡类型、眼半挣类型等辅助类型；其中。嘴巴特征所对应的类型可以包含以下几类：嘴闭上类型、嘴微张类型、嘴大张类型、抿嘴类型和撇嘴类型等辅助类型。其中，眉毛特征所对应的类型可以包含以下几类：正常眉毛类型、皱眉类型和无眉毛类型等辅助类型。

鉴于此，对于上述待识别序列中的任意一张带人脸的图像帧而言，可以用以下表达式表示：情绪类型+辅助类型＝开心(0.9)+睁眼+嘴大张+正常眉毛。此时，该表达式中的目标关注对象的人脸上呈现出开心的情绪类型的概率达到0.9，且该目标关注对象的人脸上呈现出的辅助类型可以包含睁眼、嘴大张、有着正常眉毛等辅助类型。

进一步的，为提高对待识别序列中的每个图像帧中的表情进行准确识别，本申请实施例还可以通过以下表情映射规则确定同一图像帧中的情绪类型和辅助类型所映射的表情信息，进而可以将分析得到的表情信息作为与目标关注对象相关联的候选表情，以进一步执行下述步骤S206。其中，，为便于理解，本申请实施例以以下10个映射规则为例，以阐述如何通过对应表情映射规则准确确定情绪类型和相应辅助类型所映射的表情信息：

1)开心+抿嘴＝>开心；

2)开心+(嘴闭上或者嘴微张)＝>开心；

3)开心+嘴大张＝>激动；

4)伤心+嘴大张＝>崩溃；

5)伤心+嘴非大张＝>哭泣；

6)惊讶+嘴大张＝>惊讶；

7)惊讶+嘴微张+睁眼+眼平视＝>呆滞；

8)平静+抿嘴＝>思考；

9)平静+嘴闭上+睁眼＝>思考；

10)生气＝>生气。

其中，可以理解的是，这10个映射规则中的每个情绪类型对应的置信度均达到预设的情绪阈值(例如，0.8)，此时通过从上述每个图像帧中所识别出的辅助特征可以快速区分出每个情绪之间的差别，进而可以提升对每个图像帧进行表情分析的准确性。可以理解的是，本申请实施例在识别出每个图像帧中的表情信息之后，可以进一步执行下述步骤S206。

步骤S206，将在待识别序列中所筛选的满足片段生成条件的待识别序列确定为候选表情片段，根据在候选表情片段中所筛选的候选表情满足片段生成条件的子片段，确定目标表情片段，将满足片段生成条件的候选表情作为目标表情片段对应的目标表情，根据目标表情片段以及与目标表情相匹配的表情文本，生成与目标关注对象相关联的表情包。

具体的，目标用户终端可以确定待识别序列对应的片段时长，将片段时长未达到片段生成条件中的时长阈值的待识别序列作为第一待识别序列，将多个待识别序列中除第一待识别序列之外的待识别序列作为第二待识别序列；进一步的，目标用户终端可以将第二待识别序列确定为在多个待识别序列中所筛选的满足片段生成条件的候选表情片段，获取与时长阈值相关联的滑动窗口；其中，滑动窗口可以用于指示从候选表情片段中选取与滑动帧长度相同的滑动子片段；其中，滑动帧长度是由单位时长对应的图像帧数(例如，25帧)和时长阈值(例如，3秒)所确定的；进一步的，目标用户终端可以通过滑动窗口从候选表情片段中获取滑动子片段，统计滑动子片段中的候选表情的比例，基于统计到的候选表情的比例和片段生成条件中的比例阈值，在候选表情片段中筛选候选表情满足片段生成条件的滑动子片段，根据筛选的滑动子片段确定目标表情片段，将满足片段生成条件的候选表情作为目标表情片段对应的目标表情；进一步的，目标用户终端可以获取与目标表情相匹配的表情文本，基于表情文本在目标表情片段中的影响度，确定表情文本的文本位置信息，根据目标表情片段、表情文本以及文本位置信息，生成与目标关注对象相关联的表情包。

应当理解，这里的待识别序列的数量可以为一个或者多个，这里将不对其进行限定。另外，可以理解的是，本申请实施例中的待识别序列的数量可以与从初始视频数据中所筛选出的关键帧序列的数量相同，即一个关键帧序列可以对应一个待识别序列。为便于理解，进一步的，请参见图10，是本申请实施例提供的一种通过滑动窗口确定滑动子片段的场景示意图。如图10所示的待识别序列可以包含图10所示的待识别序列400a和待识别序列400b。可以理解的是，考虑到表情包的显示时长为2-3秒，对于帧率为R(例如，25)帧的视频来说，最多需要75帧即可以制作一个合适的表情包，所以，对于包含目标关注对象的每个待识别序列而言，可以确定每个待识别序列中的片段时长，进而可以将片段时长未达到片段生成条件中的时长阈值(例如，3秒)的待识别序列作为第一待识别序列，并将多个待识别序列中除第一待识别序列之外的待识别序列作为第二待识别序列。

比如，如图10所示，若待识别序列400a的片段时长未达到上述时长阈值，则可以将图10所示的待识别序列400a称之为第一待识别序列。可选的，若图10所示的待识别序列400b的片段时长为6秒(时长阈值的倍数)，则可以满足上述时长阈值的该待识别序列400b作为第二待识别序列。进一步的，目标用户终端将第二待识别序列(即待识别序列400b)确定为在多个待识别序列中所筛选的满足片段生成条件的候选表情片段。

如图10所示，该目标用户终端可以获取与时长阈值相关联的滑动窗口(具体的，可以参见图10所示的滑动窗口)。其中，该滑动窗口可以用于指示从该候选表情片段(即待识别序列400b)中选取与滑动帧长度(例如，75帧)相同的滑动子片段作为第一滑动子片段。比如，如图10所示，可以将包含多个图像帧的滑动子片段400c作为第一滑动子片段，以统计该第一滑动子片段中的所有候选表情所占的比例。其中，该第一滑动子片段可以包含图10所示的图像帧80c、图像帧80d、…、图像帧80e。为便于理解，本申请实施例以该滑动子片段400c中存在多个候选表情为例，多个候选表情可以包含第一候选表情和第二候选表情。其中，第一候选表情可以为抿嘴笑、第二候选表情可以为开心。此时，该目标用户终端可以统计这两个候选表情在该滑动子片段400c中所占的比例，为便于理解，本申请实施例可以将第一候选表情所占的比例统称为第一比例，将第二候选表情所占的比例为第二比例。可以理解的是，本申请实施例可以通过滑动窗口对应的滑动规则获取到一个或者多个滑动子片段，进而可以基于在每个滑动子片段中所统计到的候选表情的比例和片段生成条件中的比例阈值，在这些候选表情片段中筛选候选表情满足片段生成条件的滑动子片段，进而可以根据筛选的滑动子片段确定候选用于生成表情包的目标表情片段。

其中，该目标用户终端在上述候选表情片段中确定目标表情片段的具体过程可以包括：若在第一滑动子片段中的第一比例大于第二比例，且统计到该第一滑动子片段(比如，上述滑动子片段400c)中的第一比例达到片段生成条件中的比例阈值(例如，80％)，则可以将第一滑动子片段确定为在候选表情片段中筛选的候选表情满足片段生成条件的滑动子片段，并可以将该满足片段生成条件的滑动子片段作为候选子片段。

可以理解的是，本申请实施例在确定目标表情片段的过程中主要是基于平滑的思想，即对于上述滑动窗口而言，可以覆盖在连续时长内与滑动帧长度相同的帧数，比如，本申请实施例可以统计3秒内该滑动窗口所覆盖的这75帧图像中的各个表情的所占的比例，进而可以统计到某个表情(例如，上述第一候选表情)所占的比例达到预设的比例阈值时，认为这个滑动子片段400c可以用该第一候选表情(比如，抿嘴笑)来表达，进而可以继续向后滑动3秒，以对该滑动窗口所重新覆盖的新的75帧图像中的各个表情所占的比例进行统计。具体的，可以将图10的图像帧80f、…、图像帧80m和图像帧80n所构成的视频序列作为新的滑动子片段，以得到的图10所示的滑动子片段400d，本申请实施例可以将该第一滑动子片段的下一滑动子片段统称为第二滑动子片段。

可以理解的是，对于图10的滑动子片段400d(即第二滑动子片段)而言，若该滑动子片段400d中的候选表情包含第一候选表情(即上述第一滑动子片段中的抿嘴笑)，且第一候选表情也满足上述片段生成条件，则可以进一步将第一滑动子片段确定为目标表情片段，且将第一候选表情(比如，抿嘴笑)作为目标表情片段对应的目标表情。

鉴于此，当上述第二待识别序列(即候选表情片段)中存在多个连续的滑动子片段可以用同一候选表情所表示时，可以在这几个连续的滑动子片段中将这个候选表情(例如，上述第一候选表情)所对应的首个滑动子片段(例如，上述滑动子片段400c)作为目标表情片段。比如，可以在多个候选子片段中将首个候选子片段作为目标表情片段。

可选的，若上述图10所示的滑动子片段400d(即第二滑动子片段)中的候选表情是用上述第二候选表情(比如，开心)所表示，且第二候选表情满足片段生成条件，则本申请实施例可以将第一滑动子片段(即滑动子片段400c)和第二滑动子片段(滑动子片段400d)一并确定为目标表情片段，且将第一滑动子片段对应的第一候选表情和第二滑动子片段对应的第二候选表情作为对应目标表情片段所对应的目标表情。

可选的，如图10所示，若第一滑动子片段中的第一比例大于第二比例，且第一比例未达到片段生成条件中的比例阈值，则表明该第一滑动子片段的候选表情中均不满足上述片段生成条件，此时，目标用户终端可以在图10所示的滑动窗口中移除第一滑动子片段(比如，滑动子片段400c)的首个图像帧(例如，可以移除图10所示的图像帧80c)，以得到与该滑动窗口相关联的待补齐子片段。这里的待补齐子片段可以包含图10所示的图像帧80d、…、图像帧80e。进一步的，目标用户终端可以将候选表情片段(即图10所示的第二待识别序列)中除第一滑动子片段之外，且与第一滑动子片段相邻的图像帧(例如，图10所示的图像帧80f)，作为与待补齐子片段相关联的待补入图像帧；进一步的，目标用户终端可以将待补入图像帧添加至滑动窗口中的待补齐子片段的尾部，比如，可以将图像帧80e放在待补齐子片段中的图像帧80e的后面，以得到补齐子片段，此时，该补齐子片段可以包含图10所示的图像帧80d、…、图像帧80e和图像帧80f，进而可以根据补齐子片段更新上述第一滑动子片段。由此可见，对于上述第一滑动子片段而言，如果该第一滑动子片段中的候选表情的比例均未达到上述比例阈值，则可以将滑动窗口向后滑动一帧进行析，以确保后续生成目标表情片段的准确性。

进一步的，可以理解的是，当目标用户终端确定好目标表情片段之后，可以为该目标表情片段所表达的目标表情自动为其配置表情文本，以得到具有丰富显示效果的表情包。可以理解的是，该目标用户终端可以根据目标表情片段所对应的目标表情，从网页上爬取与目标表情相匹配的表情文本，或者人工编辑一些与该目标表情相匹配的表情文本，进而可以基于表情文本在目标表情片段中的影响度，可以理解的是，这里的影响度是按照能量图的方法进行文案位置的布局的，这里的能量图是指该视频数据出来装置可以根据表情文本的文案大小(例如，文案大小为a*b)，在目标表情片段的对应图像帧的下半区域遍历得到a*b的框，以计算框中图像的每个像素值的平方和，进而可以将表情文本所对应的文案位置在该下半区域中具有最低能量值的框所对应的区域作为添加该表情文本的文本位置信息。由此可见，本申请实施例通过确定表情文本在对应图像帧中的文本位置信息，可以自适应的根据该表情文本在对应图像帧中的最小遮挡损失值(即前述能量值)，提供合理的文档布局方案。比如，本申请实施例可以根据该目标表情片段、以及该所表情文本在目标表情片段中的对应图像帧中的文本位置信息，智能生成与目标关注对象相关联的表情包。应当理解，这里的表情包是将表情文本和目标表情片段进行融合后所得到的。

其中，表情包所采用的帧率可以是每秒10帧，这样，可以有助于第一用户在自己的终端上可以清楚的看到相应表情包的动画效果。其中，表情包中的表情文本的字体可以是宋体，也可以是其他字体(例如，楷体等)。另外，该表情包的字体大小可以为16号，还可以为其他字体大小，这里将不对其进行限制。

步骤S207，响应针对第二控件的触发操作，在目标展示界面上输出与目标关注对象相关联的表情包；

其中，表情包是基于与视频展示界面具有关联关系且包含目标关注对象的视频数据所生成的。其中，在目标展示界面上输出与目标关注对象相关联的表情包的具体实现方式可以参见上述图2所对应实施例中对目标展示界面的描述，这里将不再继续进行赘述。

可选的，可以理解的是，上述初始视频数据中还可以包括除目标关注对象之外的关联对象；所这里的关联对象可以为第二用户所关注的对象；其中，第二用户为不同于第一用户的用户；此时，该目标用户终端还可以在初始视频数据的初始帧序列中识别关联对象，从初始视频序列中筛选在时间上连续且包含关联对象的初始视频帧，根据筛选出的在时间上连续且包含关联对象的初始视频帧，确定与关联对象相关联的关联帧序列；其中，关联帧序列可以用于生成待推送给第二用户的、且与关联对象相关联的表情包。这样，当第二用户在自己的用户终端上触发上述第二控件之后，可以快速获取到与该关联对象相关联的表情包。其中，第二用户获取表情包的具体实现方式还可以参见上述对第一用户获取表情包的具体过程的描述，这里将不再继续进行赘述。

可选的，目标用户终端可以响应针对多个表情包中的目标表情包的选择操作，进而可以将当前所显示的目标展示界面跳转为表情展示界面；其中，表情展示界面中携带用于分享目标表情包的分享控件；进一步的，目标用户终端可以响应针对分享控件的分享操作，将目标表情包分享给与第二用户相关联的第二用户。比如，以目标表情包为上述图2所对应实施例中的表情包100b为例，该第一用户可以在该表情包100b对应的表情展示界面上将该表情包100b分享给其他用户。可选的，该第一用户还可以在该表情展示界面上对该表情包100b进行评论、点赞等互动操作。

其中，可以理解的是，本申请实施例可以基于多模型融合(也可以称之为多模态融合)的表情包制作方法，直接发起用于生成表情包的任务，并对获取到的上述初始视频数据进行解析，以生成上述表情包。应当理解，本申请实施例通过将用于生成表情包的视频数据处理方法应用在上述目标应用(例如，社交客户端或者视频客户端等)中，可以得到更加有趣的应用客户端。另外，由于本申请实施例在从初始视频数据中提取并制作表情包的整个过程可以无需人工参与，进而可以有效地降低人工制作表情包的人力成本。此外，本申请实施例也可以将获取上述目标表情片段的方法应用于剪辑系统中，以实现对视频数据的自动化剪辑，例如，可以截取包含表情包的目标表情片段，作为视频精彩片段，进而可以避免人工剪辑视频精彩片段的繁琐。

在本申请实施例中，当用户(例如，第一用户)在视频应用中选择了自己喜欢的对象之后，可以将自己选择的对象统称为显示在对象展示界面上的关注对象，这样，当该第一用户在自己所关注的关注对象中确定目标关注对象时，可以进一步将当前所显示的对象展示界面跳转至该目标关注对象所专属的目标展示界面，然后，当该第一用户在该目标展示界面中通过触发该用于获取目标关注对象的表情包的第二控件时，可以从与上述视频展示界面相关联的且包含目标关注对象的视频数据中，提取出与该目标关注对象相关联的个性化的表情包，进而可以将该个性化的表情包输出至于该目标展示界面，以向第一用户提供自己所感兴趣的对象(例如，目标关注对象A)的表情包。应当理解，对于其他用户(例如，第二用户)而言，也可以向其提供贴合自己感兴趣的对象(例如，目标关注对象B)的表情包，即针对于不同用户而言，可以在对应的目标展示界面上提供不同的表情包，以避免表情包的无差别输出所造成的单一性的现象，进而可以丰富表情包的显示效果。

进一步地，请参见图11，是本申请实施例提供的一种视频数据处理装置的结构示意图。该视频数据处理装置1可以包括：展示界面确定模块10，展示界面跳转模块20和表情包输出模块30；进一步的，该视频数据处理装置1还可以包含初始视频获取模块40，对象识别模块50，区域截取模块60、表情包生成模块70和关联序列确定模块80；

展示界面确定模块10，用于显示包含第一控件的视频展示界面，响应第一用户针对第一控件的触发操作，将视频展示界面切换为对象展示界面；对象展示界面用于显示第一用户对应的关注对象；

展示界面跳转模块20，用于响应针对关注对象中的目标关注对象的触发操作，将对象展示界面跳转至目标关注对象所属的目标展示界面；目标展示界面中包含用于获取目标关注对象的表情包的第二控件；

表情包输出模块30，用于响应针对第二控件的触发操作，在目标展示界面上输出与目标关注对象相关联的表情包；表情包是基于与视频展示界面具有关联关系且包含目标关注对象的视频数据所生成的。

其中，表情包的数量为多个；表情包输出模块30包括：列表输出单元301，表情包显示单元302，表情界面跳转单元303和表情分享单元304；

列表输出单元301，用于响应针对第二控件的触发操作，在目标展示界面中的表情展示区域中，输出与多个表情包相关联的表情展示列表；

表情包显示单元302，用于根据每个表情包的评分值，在表情展示列表中显示并播放每个表情包。

可选的，表情界面跳转单元303，用于响应针对多个表情包中的目标表情包的选择操作，将目标展示界面跳转为表情展示界面；表情展示界面中携带用于分享目标表情包的分享控件；

表情分享单元304，用于响应针对分享控件的分享操作，将目标表情包分享给与第二用户相关联的第二用户。

可选的，初始视频获取模块40，用于获取包含目标关注对象的初始视频数据；初始视频数据为与视频展示界面具有关联关系的视频数据；

其中，初始视频获取模块40包括：第一查找单元401，第一确定单元402和第二确定单元403；

第一查找单元401，用于从与视频展示界面相关联的第一数据库中查找与目标关注对象相关联的、且具有目标更新时间戳的第一视频数据；

第一确定单元402，用于若在第一数据库中查找到第一视频数据，则将查找到的第一视频数据作为初始视频数据；

第二确定单元403，用于若在第一数据库中未查找到第一视频数据，则从与视频展示界面相关联的第二数据库中查找与目标关注对象相关联的、且具有历史更新时间戳的第二视频数据，将查找到的第二视频数据作为初始视频数据；第二视频数据为在历史更新时间戳时呈现在视频展示界面上的包含目标关注对象的视频数据；历史更新时间戳为早于目标更新时间戳的时间戳。

其中，第一查找单元401，第一确定单元402和第二确定单元403的具体实现方式可以参见上述图6所对应实施例中对初始视频数据的描述，这里将不再继续进行赘述。

对象识别模块50，用于在初始视频数据的初始帧序列中识别目标关注对象，从初始视频序列中筛选在时间上连续且包含目标关注对象的初始视频帧，根据筛选出的初始视频帧确定与目标关注对象相关联的关键帧序列；

其中，对象识别模块50包括：第一模型获取单元501，对象识别单元502，关键帧确定单元503和关键序列确定单元504；

第一模型获取单元501，用于对初始视频数据进行帧处理，得到初始视频数据中的初始视频序列，获取用于进行面部识别的第一网络模型；

对象识别单元502，用于在初始视频序列中通过第一网络模型，对目标关注对象进行面部识别，得到面部识别结果；

关键帧确定单元503，用于根据面部识别结果在初始视频序列的初始视频帧中筛选在时间上连续且包含目标关注对象的初始视频帧，将筛选出的在时间上连续且包含目标关注对象的初始视频帧确定为关键视频帧；

关键序列确定单元504，用于将由关键视频帧构成的帧序列确定为与目标关注对象相关联的关键帧序列。

其中，第一模型获取单元501，对象识别单元502，关键帧确定单元503和关键序列确定单元504的具体实现方式可以参见上述图6所对应实施例中对关键帧序列的描述，这里将不再继续进行赘述。

区域截取模块60，用于在关键帧序列中截取包含目标关注对象的关键区域，在由关键区域的图像所构成的待识别序列中，分析与目标关注对象的情绪特征和辅助特征相关联的表情信息，将分析得到的表情信息作为与目标关注对象相关联的候选表情；

其中，区域截取模块60包括：区域扩充单元601，关键区域确定单元602，特征提取单元603和候选表情确定单元604；

区域扩充单元601，用于在关键帧序列的每个关键视频帧中，分别确定目标关注对象的面部所在的第一区域以及第一区域的图像尺寸，基于每个第一区域的图像尺寸以及图像扩充比例，确定与目标关注对象的面部相关联的第二区域以及第二区域的图像尺寸；

关键区域确定单元602，用于基于每个第二区域的图像尺寸在对应关键视频帧中的坐标信息，构建与目标关注对象的面部相关联的最优截图尺寸，基于最优截图尺寸在关键视频序列中截取包含目标关注对象的关键区域；

关键区域确定单元602包括：顶角坐标确定子单元6021，第一方向确定子单元6022，第二方向确定子单元6023和最大尺寸确定子单元6024；

顶角坐标确定子单元6021，用于根据每个第二区域的图像尺寸和每个第二区域在对应关键视频帧中的中心位置信息，分别确定每个第二区域的顶角的坐标信息；

第一方向确定子单元6022，用于从每个第二区域的顶角的坐标信息中，将在第一方向上具有最小坐标值的顶角的坐标信息确定为第一坐标信息，并将在第一方向上具有最大坐标值的顶角的坐标信息确定为第二坐标信息；

第二方向确定子单元6023，用于从每个第二区域的顶角的坐标信息中，将在第二方向上具有最小坐标值的顶角的坐标信息确定为第三坐标信息，并将在第二方向上具有最大坐标值的顶角的坐标信息确定为第四坐标信息；

最大尺寸确定子单元6024，用于基于第一坐标信息、第二坐标信息、第三坐标信息和第四坐标信息，确定用于完全覆盖目标关注对象的最大图像尺寸，基于最大图像尺寸在关键视频序列中截取包含目标关注对象的区域，将截取到的包含目标关注对象的区域作为关键区域。

其中，顶角坐标确定子单元6021，第一方向确定子单元6022，第二方向确定子单元6023和最大尺寸确定子单元6024的具体实现方式可以参见上述图6所对应实施例中对最大图像尺寸的描述，这里将不再继续进行赘述。

特征提取单元603，用于在由关键区域的图像所构成的待识别序列中提取目标关注对象的情绪特征以及目标关注对象的面部特征和肢体特征，将面部特征以及肢体特征作为目标关注对象的辅助特征；

候选表情确定单元604，用于通过第二网络模型识别与目标关注对象的情绪特征相匹配的情绪类型，并通过第三网络模型识别与辅助特征相匹配的辅助类型，根据表情映射规则确定情绪类型和辅助类型所映射的表情信息，将分析得到的表情信息作为与目标关注对象相关联的候选表情。

其中，区域扩充单元601，关键区域确定单元602，特征提取单元603和候选表情确定单元604的具体实现方式可以参见上述图6所对应实施例中对候选表情的描述，这里将不再继续进行赘述。

表情包生成模块70，用于将在待识别序列中所筛选的满足片段生成条件的待识别序列确定为候选表情片段，根据在候选表情片段中所筛选的候选表情满足片段生成条件的子片段，确定目标表情片段，将满足片段生成条件的候选表情作为目标表情片段对应的目标表情，根据目标表情片段以及与目标表情相匹配的表情文本，生成与目标关注对象相关联的表情包。

其中，表情包生成模块70包括：序列确定单元701，滑动窗口获取单元702，子片段获取单元703，表情文本获取单元704；

序列确定单元701，用于确定待识别序列对应的片段时长，将片段时长未达到片段生成条件中的时长阈值的待识别序列作为第一待识别序列，将多个待识别序列中除第一待识别序列之外的待识别序列作为第二待识别序列；

滑动窗口获取单元702，用于将第二待识别序列确定为在多个待识别序列中所筛选的满足片段生成条件的候选表情片段，获取与时长阈值相关联的滑动窗口；滑动窗口用于指示从候选表情片段中选取与滑动帧长度相同的滑动子片段；滑动帧长度是由单位时长对应的图像帧数和时长阈值所确定的；

子片段获取单元703，用于通过滑动窗口从候选表情片段中获取滑动子片段，统计滑动子片段中的候选表情的比例，基于统计到的候选表情的比例和片段生成条件中的比例阈值，在候选表情片段中筛选候选表情满足片段生成条件的滑动子片段，根据筛选的滑动子片段确定目标表情片段，将满足片段生成条件的候选表情作为目标表情片段对应的目标表情；

其中，子片段获取单元703包括：第一获取子单元7031，第二获取子单元7032，第一子片段确定子单元7033，第二子片段确定子单元7034，帧移除子单元7035，帧补入子单元7036，更新子单元7037；

第一获取子单元7031，用于通过滑动窗口从候选表情片段中获取第一滑动子片段；第一滑动子片段中为滑动子片段中的一个子片段；第一滑动子片段中的候选表情包含第一候选表情和第二候选表情；第一候选表情所占的比例为第一比例；第二候选表情所占的比例为第二比例；

第二获取子单元7032，用于若第一比例大于第二比例，且第一比例达到片段生成条件中的比例阈值，则将第一滑动子片段确定为在候选表情片段中筛选的候选表情满足片段生成条件的滑动子片段，且通过滑动窗口从候选表情片段中获取第二滑动子片段；第二滑动子片段为第一滑动子片段的下一滑动子片段；

第一子片段确定子单元7033，用于若第二滑动子片段中的候选表情包含第一候选表情，且第一候选表情满足片段生成条件，则将第一滑动子片段确定为目标表情片段，且将第一候选表情作为目标表情片段对应的目标表情；

第二子片段确定子单元7034，用于若第二滑动子片段中的候选表情包含第二候选表情，且第二候选表情满足片段生成条件，则将第一滑动子片段和第二滑动子片段确定为目标表情片段，且将第一滑动子片段对应的第一候选表情和第二滑动子片段对应的第二候选表情作为目标表情片段对应的目标表情。

可选的，帧移除子单元7035，用于若第一比例大于第二比例，且第一比例未达到片段生成条件中的比例阈值，则在滑动窗口中移除第一滑动子片段的首个图像帧，得到与滑动窗口相关联的待补齐子片段；

帧补入子单元7036，用于将候选表情片段中除第一滑动子片段之外，且与第一滑动子片段相邻的图像帧，作为与待补齐子片段相关联的待补入图像帧；

更新子单元7037，用于将待补入图像帧添加至滑动窗口中的待补齐子片段的尾部，得到补齐子片段，根据补齐子片段更新第一滑动子片段。

其中，第一获取子单元7031，第二获取子单元7032，第一子片段确定子单元7033，第二子片段确定子单元7034，帧移除子单元7035，帧补入子单元7036，更新子单元7037的具体实现方式可以参见上述图6所对应实施例中对第一滑动子片段和第二滑动子片段的描述，这里将不再继续进行赘述。

表情文本获取单元704，用于获取与目标表情相匹配的表情文本，基于表情文本在目标表情片段中的影响度，确定表情文本的文本位置信息，根据目标表情片段、表情文本以及文本位置信息，生成与目标关注对象相关联的表情包。

其中，序列确定单元701，滑动窗口获取单元702，子片段获取单元703，表情文本获取单元704的具体实现方式可以参见上述图6所对应实施例中对表情包的描述，这里将不再继续进行赘述。

可选的，关联序列确定模块80，用于在初始视频数据的初始帧序列中识别关联对象，从初始视频序列中筛选在时间上连续且包含关联对象的初始视频帧，根据筛选出的在时间上连续且包含关联对象的初始视频帧，确定与关联对象相关联的关联帧序列；关联帧序列用于生成待推送给第二用户的、且与关联对象相关联的表情包。

其中，展示界面确定模块10，展示界面跳转模块20、表情包输出模块30的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S103的描述，这里将不再继续进行赘述。其中，初始视频获取模块40，对象识别模块50，区域截取模块60、表情包生成模块70和关联序列确定模块80的具体实现方式可以参见上述图6所对应实施例中对步骤S201-步骤S207的描述，这里将不再继续进行赘述。

可以理解的是，本申请实施例中的视频数据处理装置1可执行前文图3或图6所对应实施例中对视频数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图12，是本申请实施例提供的一种视频数据处理装置的结构示意图。该视频数据处理装置2可以包括：展示界面确定模块100，展示界面跳转模块200和表情包输出模块300；

展示界面确定模块100，用于显示包含第一控件的视频展示界面，响应第一用户针对第一控件的触发操作，将视频展示界面切换为对象展示界面；对象展示界面用于显示第一用户对应的关注对象；

展示界面跳转模块200，用于响应针对关注对象中的目标关注对象的触发操作，将对象展示界面跳转至目标关注对象所属的目标展示界面；目标展示界面中包含用于获取目标关注对象的表情包的第二控件；

表情包输出模块300，用于响应针对第二控件的触发操作，在目标展示界面上输出与目标关注对象相关联的表情包；表情包是基于与视频展示界面具有关联关系且包含目标关注对象的视频数据所生成的。

其中，展示界面确定模块100，展示界面跳转模块200和表情包输出模块300的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S103的描述，这里将不再继续进行赘述。

可以理解的是，本申请实施例中的视频数据处理装置2可执行前文图3或图6所对应实施例中对视频数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图13，是本申请实施例提供的一种计算机设备的结构示意图。如图13所示，该计算机设备1000可以为用户终端，例如，上述图1所对应实施例中的用户终端3000a，还可以为服务器，例如，上述图1所对应实施例中的服务器2000，这里将不对其进行限制。该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，该计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

其中，该计算机设备1000中的网络接口1004还可以提供网络通讯功能，且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3或图6所对应实施例中对视频数据处理方法的描述，也可执行前文图11所对应实施例中对视频数据处理装置1的描述，还可执行前文图12所对应实施例中对视频数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3或图6所对应实施例中对视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

显示包含第一控件的视频展示界面，响应第一用户针对所述第一控件的触发操作，将所述视频展示界面切换为对象展示界面；所述对象展示界面用于显示所述第一用户对应的关注对象；

响应针对所述关注对象中的目标关注对象的触发操作，将所述对象展示界面跳转至所述目标关注对象所属的目标展示界面；所述目标展示界面中包含用于获取所述目标关注对象的表情包的第二控件；

响应针对所述第二控件的触发操作，在所述目标展示界面上输出与所述目标关注对象相关联的表情包；所述表情包是基于与所述视频展示界面具有关联关系且包含所述目标关注对象的视频数据所生成的。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取包含所述目标关注对象的初始视频数据；所述初始视频数据为与所述视频展示界面具有关联关系的视频数据；

在所述初始视频数据的初始帧序列中识别所述目标关注对象，从所述初始视频序列中筛选在时间上连续且包含所述目标关注对象的初始视频帧，根据筛选出的初始视频帧确定与所述目标关注对象相关联的关键帧序列；

在所述关键帧序列中截取包含所述目标关注对象的关键区域，在由所述关键区域的图像所构成的待识别序列中，分析与所述目标关注对象的情绪特征和辅助特征相关联的表情信息，将分析得到的表情信息作为与所述目标关注对象相关联的候选表情；

将在所述待识别序列中所筛选的满足片段生成条件的待识别序列确定为候选表情片段，根据在所述候选表情片段中所筛选的候选表情满足所述片段生成条件的子片段，确定目标表情片段，将满足所述片段生成条件的候选表情作为所述目标表情片段对应的目标表情，根据所述目标表情片段以及与所述目标表情相匹配的表情文本，生成与所述目标关注对象相关联的表情包。

3.根据权利要求2所述的方法，其特征在于，所述获取包含所述目标关注对象的初始视频数据，包括：

从与所述视频展示界面相关联的第一数据库中查找与所述目标关注对象相关联的、且具有目标更新时间戳的第一视频数据；

若在所述第一数据库中查找到所述第一视频数据，则将查找到的所述第一视频数据作为初始视频数据；

若在所述第一数据库中未查找到所述第一视频数据，则从与所述视频展示界面相关联的第二数据库中查找与所述目标关注对象相关联的、且具有历史更新时间戳的第二视频数据，将查找到的第二视频数据作为所述初始视频数据；所述第二视频数据为在所述历史更新时间戳时呈现在所述视频展示界面上的包含所述目标关注对象的视频数据；所述历史更新时间戳为早于所述目标更新时间戳的时间戳。

4.根据权利要求2所述的方法，其特征在于，所述在所述初始视频数据的初始帧序列中识别所述目标关注对象，从所述初始视频序列中筛选在时间上连续且包含所述目标关注对象的初始视频帧，根据筛选出的初始视频帧确定与所述目标关注对象相关联的关键帧序列，包括：

对所述初始视频数据进行帧处理，得到所述初始视频数据中的初始视频序列，获取用于进行面部识别的第一网络模型；

在所述初始视频序列中通过所述第一网络模型，对所述目标关注对象进行面部识别，得到面部识别结果；

根据所述面部识别结果在所述初始视频序列的初始视频帧中筛选在时间上连续且包含所述目标关注对象的初始视频帧，将筛选出的在时间上连续且包含所述目标关注对象的初始视频帧确定为关键视频帧；

将由所述关键视频帧构成的帧序列确定为与所述目标关注对象相关联的关键帧序列。

5.根据权利要求4所述的方法，其特征在于，所述在所述关键帧序列中截取包含所述目标关注对象的关键区域，在由所述关键区域的图像所构成的待识别序列中，分析与所述目标关注对象的情绪特征和辅助特征相关联的表情信息，将分析得到的表情信息作为与所述目标关注对象相关联的候选表情，包括：

在所述关键帧序列的每个关键视频帧中，分别确定所述目标关注对象的面部所在的第一区域以及第一区域的图像尺寸，基于每个第一区域的图像尺寸以及图像扩充比例，确定与所述目标关注对象的面部相关联的第二区域以及第二区域的图像尺寸；

基于每个第二区域的图像尺寸在对应关键视频帧中的坐标信息，构建与所述目标关注对象的面部相关联的最优截图尺寸，基于所述最优截图尺寸在所述关键视频序列中截取包含所述目标关注对象的关键区域；

在由所述关键区域的图像所构成的待识别序列中提取所述目标关注对象的情绪特征以及所述目标关注对象的面部特征和肢体特征，将所述面部特征以及所述肢体特征作为所述目标关注对象的辅助特征；

通过第二网络模型识别与所述目标关注对象的情绪特征相匹配的情绪类型，并通过第三网络模型识别与所述辅助特征相匹配的辅助类型，根据表情映射规则确定所述情绪类型和所述辅助类型所映射的表情信息，将分析得到的表情信息作为与所述目标关注对象相关联的候选表情。

6.根据权利要求5所述的方法，其特征在于，每个第二区域均为包含所述目标关注对象的四边形所对应的图像区域；所述关键帧序列中的每个关键视频帧的尺寸信息相同；

所述基于每个第二区域的图像尺寸在对应关键视频帧中的坐标信息，构建与所述目标关注对象的面部相关联的最优截图尺寸，基于所述最优截图尺寸在所述关键视频序列中截取包含所述目标关注对象的关键区域，包括：

根据所述每个第二区域的图像尺寸和所述每个第二区域在对应关键视频帧中的中心位置信息，分别确定所述每个第二区域的顶角的坐标信息；

从所述每个第二区域的顶角的坐标信息中，将在第一方向上具有最小坐标值的顶角的坐标信息确定为第一坐标信息，并将在所述第一方向上具有最大坐标值的顶角的坐标信息确定为第二坐标信息；

从所述每个第二区域的顶角的坐标信息中，将在第二方向上具有最小坐标值的顶角的坐标信息确定为第三坐标信息，并将在所述第二方向上具有最大坐标值的顶角的坐标信息确定为第四坐标信息；

基于所述第一坐标信息、所述第二坐标信息、所述第三坐标信息和所述第四坐标信息，确定用于完全覆盖所述目标关注对象的最大图像尺寸，基于所述最大图像尺寸在所述关键视频序列中截取包含所述目标关注对象的区域，将截取到的包含所述目标关注对象的区域作为关键区域。

7.根据权利要求2所述的方法，其特征在于，所述将在所述待识别序列中所筛选的满足片段生成条件的待识别序列确定为候选表情片段，将在所述候选表情片段中所筛选的候选表情满足所述片段生成条件的片段，确定目标表情片段，将满足所述片段生成条件的候选表情作为所述目标表情片段对应的目标表情，根据所述目标表情片段以及与所述目标表情相匹配的表情文本，生成与所述目标关注对象相关联的表情包，包括：

确定所述待识别序列中的多个待识别序列对应的片段时长，将片段时长未达到片段生成条件中的时长阈值的待识别序列作为第一待识别序列，将所述多个待识别序列中除所述第一待识别序列之外的待识别序列作为第二待识别序列；

将所述第二待识别序列确定为在所述多个待识别序列中所筛选的满足所述片段生成条件的候选表情片段，获取与所述时长阈值相关联的滑动窗口；所述滑动窗口用于指示从所述候选表情片段中选取与滑动帧长度相同的滑动子片段；所述滑动帧长度是由单位时长对应的图像帧数和所述时长阈值所确定的；

通过所述滑动窗口从所述候选表情片段中获取所述滑动子片段，统计所述滑动子片段中的候选表情的比例，基于统计到的候选表情的比例和所述片段生成条件中的比例阈值，在所述候选表情片段中筛选候选表情满足所述片段生成条件的滑动子片段，根据筛选的滑动子片段确定目标表情片段，将满足所述片段生成条件的候选表情作为所述目标表情片段对应的目标表情；

获取与所述目标表情相匹配的表情文本，基于所述表情文本在所述目标表情片段中的影响度，确定所述表情文本的文本位置信息，根据所述目标表情片段、所述表情文本以及所述文本位置信息，生成与所述目标关注对象相关联的表情包。

8.根据权利要求7所述的方法，其特征在于，所述通过所述滑动窗口从所述候选表情片段中获取所述滑动子片段，统计所述滑动子片段中的候选表情的比例，基于统计到的候选表情的比例和所述片段生成条件中的比例阈值，在所述候选表情片段中筛选候选表情满足所述片段生成条件的滑动子片段，根据筛选的滑动子片段确定目标表情片段，将满足所述片段生成条件的候选表情作为所述目标表情片段对应的目标表情，包括：

通过所述滑动窗口从所述候选表情片段中获取第一滑动子片段；所述第一滑动子片段中为所述滑动子片段中的一个子片段；所述第一滑动子片段中的候选表情包含第一候选表情和第二候选表情；所述第一候选表情所占的比例为第一比例；所述第二候选表情所占的比例为第二比例；

若所述第一比例大于第二比例，且所述第一比例达到所述片段生成条件中的比例阈值，则将所述第一滑动子片段确定为在所述候选表情片段中筛选的候选表情满足所述片段生成条件的滑动子片段，且通过所述滑动窗口从所述候选表情片段中获取第二滑动子片段；所述第二滑动子片段为所述第一滑动子片段的下一滑动子片段；

若所述第二滑动子片段中的候选表情包含所述第一候选表情，且所述第一候选表情满足所述片段生成条件，则将所述第一滑动子片段确定为目标表情片段，且将所述第一候选表情作为所述目标表情片段对应的目标表情；

若所述第二滑动子片段中的候选表情包含所述第二候选表情，且所述第二候选表情满足所述片段生成条件，则将所述第一滑动子片段和所述第二滑动子片段确定为目标表情片段，且将所述第一滑动子片段对应的所述第一候选表情和所述第二滑动子片段对应的所述第二候选表情作为所述目标表情片段对应的目标表情。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

若所述第一比例大于第二比例，且所述第一比例未达到所述片段生成条件中的比例阈值，则在所述滑动窗口中移除所述第一滑动子片段的首个图像帧，得到与所述滑动窗口相关联的待补齐子片段；

将所述候选表情片段中除所述第一滑动子片段之外，且与所述第一滑动子片段相邻的图像帧，作为与所述待补齐子片段相关联的待补入图像帧；

将所述待补入图像帧添加至所述滑动窗口中的所述待补齐子片段的尾部，得到补齐子片段，根据所述补齐子片段更新所述第一滑动子片段。

10.根据权利要求2所述的方法，其特征在于，所述初始视频数据中还包括除所述目标关注对象之外的关联对象；所述关联对象为第二用户所关注的对象；所述第二用户为不同于所述第一用户的用户；

所述方法还包括：

在所述初始视频数据的初始帧序列中识别所述关联对象，从所述初始视频序列中筛选在时间上连续且包含所述关联对象的初始视频帧，根据筛选出的在时间上连续且包含所述关联对象的初始视频帧，确定与所述关联对象相关联的关联帧序列；所述关联帧序列用于生成待推送给所述第二用户的、且与所述关联对象相关联的表情包。

11.根据权利要求1所述的方法，其特征在于，所述表情包的数量为多个；所述响应针对所述第二控件的触发操作，在所述目标展示界面上输出与所述目标关注对象相关联的表情包，包括：

响应针对所述第二控件的触发操作，在所述目标展示界面中的表情展示区域中，输出与多个所述表情包相关联的表情展示列表；

根据每个所述表情包的评分值，在所述表情展示列表中显示并播放每个所述表情包。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

响应针对多个所述表情包中的目标表情包的选择操作，将所述目标展示界面跳转为表情展示界面；所述表情展示界面中携带用于分享所述目标表情包的分享控件；

响应针对所述分享控件的分享操作，将所述目标表情包分享给与所述第一用户相关联的第二用户。

13.一种视频数据处理装置，其特征在于，包括：

展示界面确定模块，用于显示包含第一控件的视频展示界面，响应第一用户针对所述第一控件的触发操作，将所述视频展示界面切换为对象展示界面；所述对象展示界面用于显示所述第一用户对应的关注对象；

展示界面跳转模块，用于响应针对所述关注对象中的目标关注对象的触发操作，将所述对象展示界面跳转至所述目标关注对象所属的目标展示界面；所述目标展示界面中包含用于获取所述目标关注对象的表情包的第二控件；

表情包输出模块，用于响应针对所述第二控件的触发操作，在所述目标展示界面上输出与所述目标关注对象相关联的表情包；所述表情包是基于与所述视频展示界面具有关联关系且包含所述目标关注对象的视频数据所生成的。

14.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-12任一项所述的方法。