CN114637890A

CN114637890A - 在图像画面中显示标签的方法、终端设备及存储介质

Info

Publication number: CN114637890A
Application number: CN202011489026.9A
Authority: CN
Inventors: 赵斌
Original assignee: Petal Cloud Technology Co Ltd
Current assignee: Petal Cloud Technology Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-06-17
Also published as: WO2022127719A1; US20240040205A1; EP4242874A1; EP4242874A4

Abstract

本申请提供了一种在图像画面中显示标签的方法、终端设备及存储介质，涉及视频处理技术领域。通过上述方案，在用户选中视频画面中的目标对象(例如人物角色)时，可以根据目标对象的特征信息对该目标对象进行识别，确定出该目标对象的标识，由于该目标对象的标识与第一标签具有对应关系，因此可以在该视频画面中针对用户选中的目标对象显示对应的第一标签，这样方便用户实时查看视频画面中的感兴趣对象的标签信息，解决了目前针对视频画面中人物角色的提示字幕的提示效果不佳的问题。

Description

在图像画面中显示标签的方法、终端设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种在图像画面中显示标签的方法、终端设备及计算机可读存储介质。

背景技术

当前，随着各类视频软件的快速发展，用户在日常娱乐和工作中，便可以使用各种视频软件来观看各类视频文件(例如电视剧、电影等)。对于视频画面中出现大量人物角色的情况，为了便于观众认识人物角色，通常会在人物第一次出现时给出提示字幕，用户通过该提示字幕可以获知该人物角色的相关信息。

然而，提示字幕往往只会存在于几秒后消失，后续画面中不再出现，而如果用户由于不记得人物角色等原因，需要查看提示字幕来再次确认人物角色，那么需要从当前观看的视频画面(例如第五集)，通过多次尝试，查找到显示该字幕的那一集(例如第二集)，然后通过多次尝试，拖动到这一集中显示该字幕的视频画面，才能查看到对人物角色标注的提示字幕，然后再返回到当前观看的这一集的视频画面，这一系列过程繁琐复杂、操作不便且费时，影响用户观影感受。因此，目前视频画面中针对人物角色的提示字幕的提示效果不佳。

发明内容

本申请提供一种在图像画面中显示标签的方法、终端设备及计算机可读存储介质，解决了目前视频画面中针对人物角色的提示字幕的提示效果不佳的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种在图像画面中显示标签的方法，该方法包括：当检测到目标视频流的第一帧图像画面中的目标对象被选中时，根据所述目标对象的特征信息确定所述目标对象的标识；并且在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签。

通过上述方案，在用户选中视频画面中的目标对象(例如人物角色)时，首先根据目标对象的特征信息对该目标对象进行识别，确定出该目标对象的标识，由于该目标对象的标识与第一标签具有对应关系，因此可以在该视频画面中针对用户选中的目标对象显示对应的第一标签。这样，用户只需在视频画面上选中想查看的人物角色，终端设备即可快速获取对该人物角色的标签，展示给用户查看，因此用户可以实时查看视频画面中的感兴趣对象的标签信息，提升了用户使用体验，可以解决目前针对视频画面中人物角色的提示字幕的提示效果不佳的问题。

其中，该第一标签可以为系统预设的标签，也可以为用户自定义的标签。

在一些实施例中，在所述当检测到目标视频流的第一帧图像画面中的目标对象被选中时，根据所述目标对象的特征信息确定所述目标对象的标识之前，所述方法还包括：响应于用户对所述目标视频流的第二帧图像画面中的所述目标对象的第一操作，生成所述第一标签，所述第一标签与所述目标对象的标识具有对应关系。

其中，上述对应关系可以存储于终端设备，或者可以存储于服务器。当上述对应关系可以存储于终端设备时，终端设备可以从本地调用该对应关系，确定与目标对象的标识对应的第一标签。当上述对应关系可以存储于服务器时，终端设备可以通过与服务器交互来获取第一标签，即终端设备向服务器发送目标对象的特征信息，由服务器根据目标对象的特征信息确定目标对象的标识，并根据上述对应关系确定与目标对象的标识对应的第一标签，然后服务器将第一标签发送给终端设备。

可选的，可以针对影片帧中的人物角色，随时添加标签等个性化信息；当然，还可以支持针对影片帧中的剧情，随时添加标签等个性化信息。通过上述方案，允许用户在观影过程中自行添加人物(影人)标签，并随时可以查看该标签，方便用户及时回顾角色信息/剧情，因此本申请实施例提供的方案可以提升观影流畅度和用户感知体验。

需要说明的是，终端设备在生成第一标签的情况下，可以在第一帧图像画面中显示第一标签，并在第一帧图像画面切换为其他图像画面后隐藏第一标签，以避免标签在图像画面中频繁出现而给用户观影造成干扰。当然，终端设备在生成第一标签的情况下，也可以不显示第一标签，仅在用户触发时显示。

在一些实施例中，所述在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签之后，所述方法还包括：响应于用户对所述第一标签的第二操作，对所述第一标签执行第一处理；其中，所述第一处理为以下任一项：更新所述第一标签的内容；更新所述第一标签的显示位置；分享所述第一标签；隐藏所述第一标签；删除所述第一标签。

通过上述方案，支持用户针对视频画面中的人物角色/剧情的标签进行各种处理。用户在观影时可以根据个人观影感受，对视频中的人物或演员进行标签编辑，并且用户可以随时查看、修改、分享或删除该标签，提升了标签应用的灵活性。

在一些实施例中，所述在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签，包括：在所述第一帧图像画面中与所述目标对象对应的显示区域显示所述第一标签，其中，所述显示区域位于以所述目标对象为中心的预设范围内。

其中，上述与目标对象对应的显示区域可以为以目标对象为中心的预设范围内的区域。其中，预设范围可以根据具体情况设定，例如预设范围可以是半径为R的圆形范围；此时，与目标对象对应的显示区域可以为以目标对象为中心，半径为R的圆形区域。

可选的，该显示区域可以为以目标对象为中心的预设范围内，除目标对象所在区域之外的区域。示例性的，该显示区域可以为以人物A为中心的预设范围内，除人物A所在区域之外的区域。

进一步可选的，该显示区域可以为以目标对象为中心的预设范围内，除目标对象的面部所在区域之外的区域。示例性的，该显示区域可以为以人物A为中心的预设范围内，除人物A的面部所在区域之外的区域。

在一些实施例中，所述在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签，包括：在所述第一帧图像画面上显示标签框，在所述标签框显示所述第一标签。

需要说明的是，标签框的显示形状和显示尺寸可以根据用户需求设置，并且标签框可以移动，本申请对于标签框的显示形状、显示尺寸和显示位置不作限定。

在一些实施例中，所述目标对象的标识是根据至少一个特征信息和至少一个标识的对应关系确定的，所述至少一个特征信息与所述至少一个标识一一对应，所述至少一个特征信息包括所述目标对象的特征信息，所述至少一个标识包括所述目标对象的标识。需要说明的是，目标对象的标识可以由终端设备根据上述对应关系确定，也可以由服务器确定后发送给终端设备。

在一些实施例中，所述目标对象的特征信息为所述目标对象的面部特征信息。

在一些实施例中，所述检测到目标视频流的第一帧画图像面中的目标对象被选中，包括：响应于用户对所述第一帧图像画面的第三操作，在所述第一帧图像画面中所述目标对象的面部所在区域显示选取框，确定所述目标对象被选中。

在另一些实施例中，所述检测到目标视频流的第一帧画图像面中的目标对象被选中，包括：响应于用户对所述第一帧图像画面的第四操作，在所述第一帧图像画面中的每个对象的面部区域显示面部检测框；当检测到所述目标对象对应的面部检测框被选中时，确定所述目标对象被选中。

在一些实施例中，所述方法还包括：

响应于用户的第五操作，在所述目标视频流的当前播放界面中显示至少一个标签，每个标签对应于所述目标视频流中的一帧图像画面或者一个视频片段；

若检测到所述至少一个标签中的所述第一标签被选中，则根据所述第一标签获取与所述第一标签关联存储的第一视频播放信息；

从当前播放界面跳转到所述第一视频播放信息指示的第一视频内容进行播放，所述第一视频内容为所述第一帧图像画面或者具有预设播放时长且包含所述第一帧图像画面的第一视频片段。

通过上述方案，可以根据标签快速查找或定位到与该标签关联存储的视频播放信息指示的视频内容进行播放。

在一些实施例中，所述方法还包括：

响应于用户的第六操作，在所述目标视频流的当前播放界面上显示标签搜索框；

若检测到所述标签搜索框中输入所述第一标签，则根据所述第一标签获取与所述第一标签关联存储的第一视频播放信息；

在一些实施例中，所述方法还包括：当所述目标视频流再次播放且播放进度达到标签时间信息指示的播放进度时，显示所述第一标签，所述标签时间信息用于指示在所述第一标签生成时所述目标视频流的播放进度。

通过上述方案，可以根据用户需求，针对某一人物角色展示对应标签，并且支持当重播目标视频时在标签添加时间点展示该标签。

在一些实施例中，所述当检测到目标视频流的第一帧图像画面中的所述目标对象被选中时，根据所述目标对象的特征信息获取所述目标对象的标识，包括：响应于用户对所述目标视频流的第一帧图像画面的第七操作，确定第一帧图像画面中的多个对象被选中，所述多个对象包括所述目标对象；根据所述多个对象对应的特征信息，确定所述多个对象的多个标识，所述多个对象与所述多个标识一一对应。

其中，在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签，包括：在所述第一帧图像画面上显示与所述多个对象的多个标识对应的多个标签，所述多个标识与所述多个标签一一对应，所述多个标签包括所述第一标签。

第二方面，本申请提供一种在图像画面中显示标签的装置，该装置包括用于执行上述第一方面中的方法的单元。该装置可对应于执行上述第一方面中描述的方法，该装置中的单元的相关描述请参照上述第一方面的描述，为了简洁，在此不再赘述。

其中，上述第一方面描述的方法可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，处理模块或单元、显示模块或单元等。

第三方面，本申请提供一种终端设备，所述终端设备包括处理器，处理器与存储器耦合，存储器用于存储计算机程序或指令，处理器用于执行存储器存储的计算机程序或指令，使得第一方面中的方法被执行。

例如，处理器用于执行存储器存储的计算机程序或指令，使得该装置执行第一方面中的方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有用于实现第一方面中的方法的计算机程序(也可称为指令或代码)。

例如，该计算机程序被计算机执行时，使得该计算机可以执行第一方面中的方法。

第五方面，本申请提供一种芯片，包括处理器。处理器用于读取并执行存储器中存储的计算机程序，以执行第一方面及其任意可能的实现方式中的方法。

可选地，所述芯片还包括存储器，存储器与处理器通过电路或电线连接。

第六方面，本申请提供一种芯片系统，包括处理器。处理器用于读取并执行存储器中存储的计算机程序，以执行第一方面及其任意可能的实现方式中的方法。

可选地，所述芯片系统还包括存储器，存储器与处理器通过电路或电线连接。

第七方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序(也可称为指令或代码)，所述计算机程序被计算机执行时使得所述计算机实现第一方面中的方法。

可以理解的是，上述第二方面至第七方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1为本申请实施例提供的一种在图像画面中显示标签的方法的流程示意图。

图2为结合图1的方法在终端设备应用时的界面示意图。

图3为本申请实施例提供的另一种在图像画面中显示标签的方法的流程示意图。

图4为结合图3的方法在终端设备应用时的界面示意图。

图5为本申请实施例提供的还一种在图像画面中显示标签的方法的流程示意图。

图6为本申请实施例提供的再一种在图像画面中显示标签的方法的流程示意图。

图7为结合图6的方法在终端设备应用时的界面示意图。

图8为本申请实施例提供的又一种在图像画面中显示标签的方法的流程示意图。

图9为本申请实施例提供的一种在图像画面中显示标签的方法所应用的系统架构的结构示意图。

图10为本申请实施例提供的一种在图像画面中显示标签的方法所应用的系统架构的交互示意图之一。

图11为本申请实施例提供的一种在图像画面中显示标签的方法所应用的系统架构的交互示意图之二。

图12为本申请实施例提供的一种在图像画面中显示标签的方法所应用的系统架构的数据模型示意图。

图13为本申请实施例提供的一种在图像画面中显示标签的装置的结构示意图。

图14为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在本申请的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。另外，为了便于清楚描述本申请实施例的技术方案，本申请实施例中所述的“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

目前，在终端设备播放视频流(例如电影或电视剧等)时，在某个人物第一次出现时可以显示提示字幕，介绍该人物的角色信息。该提示字幕是在影片内容制作时预置的，上片后无法修改或添加。当前技术只支持在人物第一次出现时给出提示字幕，该提示字幕往往只会存在于几秒后消失，后续画面中不再出现，而如果要查看提示字幕来再次确认人物角色，那么需要返回到显示该字幕的视频画面，才能查看到对人物的提示字幕，然而查找角色身份的这一操作过程比较费时，并且会影响用户观影感受。即这种提示字幕方式实时性不够，因此提示效果不佳。

此外，目前视频应用程序(application，APP)通常都支持弹幕，弹幕具备较强的实时性，用户可以通过弹幕方式对视频内容发表评论，也可以查看其他用户发表的评论。然而，在上述相关技术中，由于很多用户同时发布弹幕并且信息繁杂，信息量太大，影响用户观影，无法解决用户获取感兴趣信息的问题。即这种弹幕方式针对性不强，因此提示效果不佳。

鉴于此，本申请实施例提供了一种在图像画面中显示标签的方法，在用户选中视频画面中的目标对象(例如人物角色)时，首先根据目标对象的特征信息对该目标对象进行识别，确定出该目标对象的标识，由于该目标对象的标识与第一标签具有对应关系(第一标签可以为系统预设的或用户自定义的标签)，因此可以在该视频画面中针对用户选中的目标对象显示对应的第一标签。这样，用户只需在视频画面上选中想查看的人物角色，终端设备即可快速获取对该人物角色的标签，展示给用户查看，因此用户可以实时查看视频画面中的感兴趣对象的标签信息，提升了用户使用体验，可以解决目前针对视频画面中人物角色的提示字幕的提示效果不佳的问题。

需要说明的是，本申请实施例提供的一种在图像画面中显示标签的方法的执行主体可以为终端设备，也可以为该终端设备中能够实现该方法的功能模块和/或功能实体，具体的可以根据实际使用需求确定，本申请实施例不作限定。下面以执行主体为终端设备为例，对本申请实施例提供的在图像画面中显示标签的方法进行示例性的说明。

图1是本申请实施例提供的一种在图像画面中显示标签的方法的流程示意图，参照图1所示，该方法100包括下述的S110-S130。

S110，当终端设备检测到目标视频流的第一帧图像画面中的目标对象被选中时，终端设备根据目标对象的特征信息确定目标对象的标识。

在本申请实施例中，在终端设备播放目标视频流的过程中，如果用户需要获知该目标视频流中播放的图像画面中某一对象的相关信息，则用户可以选中该目标对象，以触发终端设备显示该对象的标签，如此用户可以通过标签了解到该对象的相关信息。

具体的，上述目标视频流可以包括多帧图像画面，由于该多帧图像画面在终端设备播放该目标视频流的过程中是连续播放的，为了避免误操作，因此首先终端设备可以响应于用户操作(例如点击视频暂停控件)，暂停播放目标视频流，使得当前播放的画面停留在第一帧图像画面；然后终端设备可以响应于用户操作(即选中第一帧图像画面中的目标对象)，在第一帧图像画面上显示目标对象对应的第一标签，如此用户可以通过第一标签了解到目标对象的相关信息。

可选的，上述目标对象可以为人物，也可以为动物或植物，或者可以为诸如建筑物等静物，还可以为其他任意可能的对象，例如目标对象也可以是该帧图像画面，具体可以根据实际使用需求确定，本申请实施例不作限定。

可选的，在一些实施例中，假设目标对象为人物或动物等对象，那么上述目标对象的特征信息可以为目标对象的面部特征信息。在一些实施例中，假设目标对象为植物或建筑物等对象，那么上述目标对象的特征信息可以为目标对象的纹理和/或结构和/或颜色等特征信息。为了便于说明，下文中以目标对象为人物，目标对象的特征信息为人物的面部特征信息为例进行示例性地说明。

可选的，上述目标对象的标识可以为字符形式的标识，也可以为数字形式的标识，还可以为图案形式的标识，或者为其他任意可能形式的标识，具体可以根据实际使用需求确定，本申请实施例不作限定。

可选的，在一些实施例中，假设目标视频流的多帧图像画面中包含M个对象(M为正整数)，该M个对象中每个对象对应一个标识。终端设备可以预先存储M个对象的特征信息与M个对象的标识之间一一对应的关系(简称为第一对应关系)，其中，该M个对象的特征信息包括目标对象的特征信息，该M个标识包括目标对象的标识。

示例性的，目标视频流的多帧图像画面中包含两个人物角色，其对应标识分别记为人物A和人物B，其对应特征信息分别为特征信息A和特征信息B，终端设备可以预先存储人物A与特征信息A的对应关系，以及人物B与特征信息B的对应关系。

在本申请实施例中，当终端设备检测到目标视频流的第一帧图像画面中的目标对象被选中时，终端设备可以从第一帧图像画面中截取目标对象的图像，该图像中包含目标对象的特征信息，进一步终端设备可以根据上述第一对应关系和该目标对象的特征信息，确定目标对象的标识。

示例性的，以目标对象的特征信息为人物A的面部特征信息(例如可以是人脸图像)为例，终端设备可以将人物A的面部特征信息与预先存储的M个人物的面部特征信息进行面部特征匹配，进而基于上述第一对应关系，即可确定与人物A的面部特征信息对应的标识。

需要说明的是，上述第一对应关系还可以存储在服务器侧。可选的，在一些实施例中，终端设备可以在需要时从服务器侧请求调用该第一对应关系，并根据该第一对应关系确定与对象特征信息对应的对象标识。在另一些实施例中，终端设备在获取目标对象的特征信息之后发送给服务器，进而服务器根据第一对应关系和目标对象的特征信息，确定目标对象的标识，然后服务器将目标对象的标识发送给终端设备。

也就是说，如何确定目标对象的标识可以由终端设备在本地独立完成；也可以由终端设备与服务器交互完成。在实际实现时，终端设备如何确定目标对象的标识的实现方式，具体可以根据实际使用需求确定，本申请实施例不作限定。

可选的，在一些实施例中，上述S110中终端设备检测到目标视频流的第一帧画图像面中的目标对象被选中的步骤具体可以通过下述的方式一或者方式二实现。这里以目标对象为人物，目标对象的特征信息为人物的面部特征信息为例进行示例性地说明。

方式一，响应于用户的第三操作，终端设备在第一帧图像画面中目标对象的面部所在区域显示选取框，确定目标对象被选中。

示例性的，上述第三操作可以为用户在第一帧图像画面中目标对象的面部所在区域长按(例如按压时长超过预设时长的按压操作)后松开手指，相应地，终端设备响应于该第三操作，在第一帧图像画面上以长按位置为中心显示选取框，即目标对象被选中。

又示例性的，上述第三操作可以为用户在第一帧图像画面中目标对象的面部所在区域长按并移动手指一段距离后松开手指，相应地，终端设备响应于该第三操作，在第一帧图像画面上沿手指移动轨迹显示以手指长按位置到松开位置之间的距离为直径的圆形选取框；或者，终端设备可以响应于该第三操作，在第一帧图像画面上沿手指移动轨迹显示以手指长按位置到松开位置之间的距离为对角线的矩形选取框。

再示例性的，上述第三操作可以为用户将视频显示界面上预设的选取框拖动到目标对象的面部所在区域上后松开手指，相应地，终端设备响应于该第三操作，在目标对象的面部所在区域显示该选取框。

需要说明的是，上述第三操作的具体实现方式不限于上述举例说明的方式，在实际实现时，还可以为其他任意可能的操作，具体可以根据实际使用需求确定，本申请实施例不作限定。

可选的，上述选取框可以为圆形框，也可以为矩形框，或者可以为其他任意可能形状的框，在实际实现时，选取框的形状具体可以根据实际使用需求设置，本申请实施例不作限定。

可选的，上述选取框可以根据用户操作而缩小，也可以根据用户操作而放大，在实际实现时，选取框的显示尺寸具体可以根据实际使用需求设置，本申请实施例不作限定。

可选的，上述选取框可以根据用户操作在视频显示界面上移动，在实际实现时，选取框如何移动具体可以根据实际使用需求设置，本申请实施例不作限定。

方式二，响应于用户的第四操作，终端设备在第一帧图像画面中的每个对象的面部区域显示面部检测框。进一步的，当终端设备检测到目标对象对应的面部检测框被选中时，终端设备确定目标对象被选中。

示例性的，上述第四操作可以为用户对视频显示界面上的标签控件的点击操作，相应地，终端设备响应于该第四操作，对当前视频显示界面中的每个人物图像进行面部识别(即人脸识别)，并在每个人物的面部图像区域显示面部检测框；如果用户需要查看人物A对应的标签，那么用户可以选中人物A的面部图像区域上显示的面部检测框，相应地，终端设备响应于用户操作，确定人物A被选中。

需要说明的是，上面以方式一和方式二列举了终端设备检测到目标视频流的第一帧画图像面中的目标对象被选中的可能实现方式，在实际实现时，本申请实施例不限于上述列举的方式，具体可以根据实际使用需求确定，本申请实施例不作限定。

S120，终端设备根据目标对象的标识，获取与目标对象的标识对应的第一标签。

在本申请实施例中，如上所述，目标视频流的多帧图像画面中包含M个对象，该M个对象中每个对象可以对应一个标识，每个标识可以对应一个标签(当然还可以是其中一部分标识对应有标签)。终端设备可以预先存储M个标识与M个标签之间一一对应的关系(简称为第二对应关系)，其中，该M个标识包括目标对象的标识，M个标签包括第一标签。

在本申请实施例中，终端设备在根据目标对象的特征信息确定目标对象的标识之后，可以根据预先存储的第二对应关系，获取与目标对象的标识对应的第一标签。

需要说明的是，上述第一标签可以是针对目标对象预先设置的标签，例如可以是系统预设的，也可以是用户自定义添加或设置的，具体可以根据实际使用需求确定，本申请实施例不作限定。其中，关于用户自定义添加标签的具体实现方式详见下文描述，此处不予赘述。

还需要说明的是，上述第二对应关系还可以存储在服务器侧。可选的，在一些实施例中，终端设备可以在需要时从服务器侧请求调用该第二对应关系，并根据该第二对应关系确定与对象标识对应的对象标签。在另一些实施例中，终端设备在获取目标对象的标识之后发送给服务器，进而服务器根据第二对应关系和目标对象的标识，获取第一标签，然后服务器将第一标签发送给终端设备。

也就是说，如何获取第一标签可以由终端设备在本地独立完成；也可以由终端设备与服务器交互完成。在实际实现时，终端设备如何获取对象标签的实现方式，具体可以根据实际使用需求确定，本申请实施例不作限定。

S130，终端设备在第一帧图像画面上显示第一标签。

在本申请实施例中，当终端设备检测到目标视频流的第一帧图像画面中的目标对象被选中时，终端设备获取目标对象的特征信息；基于第一对应关系，根据目标对象的特征信息确定目标对象的标识；然后基于第二对应关系，根据目标对象的标识，获取与目标对象的标识对应的第一标签。这样，通过人机信息交互来唤醒历史标签。

示例性的，当终端设备检测到目标视频流的第一帧图像画面中的人物A被选中时，终端设备会获取人物A的面部特征信息，并基于人脸识别技术，根据人物A的面部特征信息确定该人物A的标识，进而根据该人物A的标识调取该标识对应的标签，显示给用户查看。

可选的，在一些实施例中，上述S130具体可以通过下述的方式一或者方式二实现。

方式一，终端设备可以在第一帧图像画面上直接显示第一标签。

可选的，第一标签的显示形态(例如显示颜色、显示尺寸、显示透明度和/或显示位置等)具体可以根据实际使用需求确定，本申请实施例不作限定。示例性的，第一标签可以以红色字体显示。再示例性的，第一标签可以闪烁显示。

方式二，终端设备可以在第一帧图像画面上显示标签框，在该标签框显示第一标签。

可选的，上述标签框可以为圆形框，也可以为矩形框，或者可以为其他任意可能形状的框，在实际实现时，标签框的形状具体可以根据实际使用需求设置，本申请实施例不作限定。

可选的，上述标签框可以根据用户操作而缩小，也可以根据用户操作而放大，在实际实现时，标签框的显示尺寸具体可以根据实际使用需求设置，本申请实施例不作限定。

可选的，上述标签框可以根据用户操作在视频显示界面上移动，在实际实现时，标签框如何移动具体可以根据实际使用需求设置，本申请实施例不作限定。

在一些实施例中，终端设备可以在第一帧图像画面中与目标对象对应的显示区域显示第一标签。其中，上述与目标对象对应的显示区域可以为以目标对象为中心的预设范围内的区域。其中，预设范围可以根据具体情况设定，例如预设范围可以是半径为R(例如3厘米)的圆形范围；此时，与目标对象对应的显示区域可以为以目标对象为中心，半径为R的圆形区域。

需要说明的是，本申请实施例提供的方法可以应用于针对单个对象显示标签的场景，也可以应用于针对多个对象显示多个标签的场景，下面通过下述的第一实施例和第二实施例对这两种应用场景进行示例性的说明。

第一实施例：【目标对象为单个对象】

在第一实施例中，对于用户需要查看视频画面中单个对象的标签的场景，上述目标对象为单个对象，第一标签为针对该单个对象的标签。终端设备可以响应于用户的触发操作(例如上述的第三操作或第四操作)，获取单个对象的特征信息；基于第一对应关系确定与该单个对象的特征信息对应的标识；然后基于第二对应关系获取与该标识对应的第一标签。

通过第一实施例提供的方案，可以提取指定人物头像(根据人脸识别结果和屏幕触点位置来匹配)，手机只需识别用户屏幕触点周边范围的人脸抓取即可，快速展示该帧中指定人物的自定义标签，这样减少手机与服务端之间的码流传输数据量、查找速度更快。这样，用户只需在屏幕上采用屏幕交互触点方式选中欲查看的影人，终端设备即可快速获取对该影人的标签，展示给用户查看，提升了用户使用体验。

第二实施例：【目标对象包括多个对象】

在第二实施例中，对于用户需要一次查看视频画面中多个对象的标签的场景，上述目标对象包括多个对象，第一标签包括该多个对象分别对应的标签。终端设备响应于用户对目标视频流的第一帧图像画面的操作(例如点击用于触发显示全部标签的控件)，确定第一帧图像画面中的多个对象被选中，该多个对象包括目标对象；然后基于第一对应关系，根据该多个对象中每个对象的特征信息，获取每个对象的标识；再然后基于第二对应关系，根据该多个对象中每个对象的标识，获取每个对象的标识对应的标签，即得到多个标签；进一步的，在第一帧图像画面上显示多个标签，该多个标签包括第一标签。

在第二实施例中，终端设备可以针对视频画面中多个对象中的每个对象显示对应的标签，并且可以将多个标签分别对应显示在对象所在区域位置，便于用户识别。

需要说明的是，第二实施例与第一实施例中人物面部特征信息(图片)抓取方式不一样，第二实施例中采用全屏人物面部识别，第一实施例中采用指定人物面部识别。

通过第二实施例提供的方案，可以全屏人物面部识别，对完整帧识别并进行人脸抓取，该方案的好处是可以一次将该帧中所有人物的自定义标签一次查询回来，减少用户的交互次数。

下面结合图2示例性的说明上述显示标签方法的具体实现方式。如图2中的(a)所示，假设手机当前暂停播放视频，当前显示一帧图像画面11。如图2中的(b)所示，若用户长按该图像画面11中的某一人物图像，则手机响应于用户操作，可以在该人物图像的周围显示选中框(例如虚线圆形框)。如图2中的(c)所示，在用户手指离开屏幕后，手机可以在该人物图像的旁侧显示对应的标签12“LZ：篮球王子，大前锋，三连冠”，该标签可以为预设标签或者为用户之前设置的标签，用户通过查看该标签，可以获知该人物的相关信息。此外，如图2中的(c)所示，在手机的视频播放界面中还可以显示有“标签管理”控件13，可支持添加标签、展示已存储标签(例如标签列表)、编辑标签、删除标签等功能，关于如何添加标签、展示已存储标签以及编辑标签的功能将在下文中详细描述。

与相关技术中通过弹幕展示人物角色信息的方式由于信息繁杂、针对性不强的效果相比，本申请实施例提供的方法可以在视频画面中针对用户选中的目标对象显示对应的第一标签，针对性较强，提示效果更好。用户只需在视频画面上选中想查看的人物角色，终端设备即可快速获取对该人物角色的标签，展示给用户查看，因此用户可以实时查看视频画面中的感兴趣对象的标签信息，提升了用户使用体验。

本申请实施例提供了一种在图像画面中显示标签的方法，当检测到目标视频流的第一帧图像画面中的目标对象被选中时，根据所述目标对象的特征信息确定所述目标对象的标识；并且在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签。通过该方案，在用户选中视频画面中的目标对象(例如人物角色)时，首先根据目标对象的特征信息对该目标对象进行识别，确定出该目标对象的标识，由于该目标对象的标识与第一标签具有对应关系(第一标签可以为系统预设的或用户自定义的标签)，因此可以在该视频画面中针对用户选中的目标对象显示对应的第一标签。这样，用户只需在视频画面上选中想查看的人物角色，终端设备即可快速获取对该人物角色的标签，展示给用户查看，因此用户可以实时查看视频画面中的感兴趣对象的标签信息，提升了用户使用体验，可以解决目前针对视频画面中人物角色的提示字幕的提示效果不佳的问题。

可选的，用户可以针对某一人物角色/剧情添加标签，进行个性化评价，支持用户实时查看标签。上述第一标签可以是用户针对目标对象预先添加的自定义标签，即在终端设备播放目标视频流时，若用户需要对播放界面中的目标对象添加标签，则可以针对目标对象进行操作，相应地终端设备可以响应于用户操作，针对目标对象生成对应的第一标签，并存储目标对象的标识与第一标签的对应关系。示例性的，结合图1，如图3所示，在上述的S110之前，方法100还包括下述的S140。

S140，响应于用户对目标视频流的第二帧图像画面中的目标对象的第一操作，终端设备生成第一标签，该第一标签与目标对象的标识具有对应关系。

通过该方案，可以针对影片帧中的人物角色，随时添加标签等个性化信息；当然，本申请实施例还可以支持针对影片帧中的剧情，随时添加标签等个性化信息。

其中，上述第二帧图像画面可以与第一帧图像画面相同，也可以是与第一帧图像画面不同。例如，在不同情况下，第二帧图像画面可以是第一帧图像画面之前的一帧，即在添加第一标签后，若当前画面之后的画面中包含目标对象，则可调出第一标签；或者第二帧图像画面可以是第一帧图像画面之后的一帧，即在添加第一标签后，若当前画面之前的画面中包含目标对象，则仍然可调出第一标签。

在一些实施例中，上述第一操作可以为用户选中目标对象并输入(例如以字符输入方式输入，或者以选择方式输入)标签描述信息的操作，其中对于终端设备检测目标对象被选中的描述，可以参见上述S110中对终端设备检测目标视频流的第一帧画图像面中的目标对象被选中的详细描述，此处不再赘述。

在一些实施例中，当终端设备检测到用户对目标视频流的第二帧图像画面中的目标对象的第一操作时，终端设备还会获取目标对象的特征信息(例如面部特征信息)，并根据该特征信息确定目标对象的标识，然后将第一标签与目标对象的标识关联存储。如此，终端设备可以根据用户需求针对图像画面中的某一对象添加标签，并存储其对应关系。这样，当终端设备播放目标视频流时，在用户有查看某一对象的角色信息的需求时，用户只需选中对象，即可触发终端设备显示对应的标签，这样用户随时可以根据需求查看图像画面中的任一对象的标签，从而获知其角色信息。

在另一些实施例中，终端设备可以将第一标签以及目标对象的特征信息发送给服务器，服务器可以根据目标对象的特征信息确定目标对象的标识，并将第一标签与目标对象的标识关联存储。这样，在用户选中某一对象以查看该对象的标签时，终端设备可以获取该对象的特征信息，向服务器发送该对象的特征信息，服务器根据该对象的特征信息确定目标对象的标识，并获取与目标对象的标识对应的第一标签，然后将第一标签发送给终端设备。

在终端设备暂停播放影片的情况下，若用户选取影片中某个角色(也称为影人或演员或人物角色)，则终端设备可以弹出编辑框，用户在弹出的编辑框中输入标签信息并点击“提交”或“确认”控件。然后，终端设备将角色面部特征信息(图片)及用户编辑的标签信息提交到服务端。服务端基于角色特征信息识别角色标识，并将观影用户、角色标识、用户提交的标签信息建立关联关系并存储。在用户继续观影的过程中，用户可以随时暂停播放，选取影片中的角色，查看对应的历史标签信息。

下面结合图4示例性的说明上述添加标签步骤的具体实现方式。如图4中的(a)所示，假设手机当前暂停播放视频，当前显示一帧图像画面14，若用户长按该图像画面14中的某一人物图像，则手机响应于用户操作，可以在该人物图像的周围显示选中框(例如虚线圆形框)。如图4中的(b)所示，在用户手指离开屏幕后，手机在该人物图像的旁侧显示空白的标签窗口15，并提示用户输入标签内容。如图4中的(c)所示，若用户在标签窗口15中输入标签内容，则手机显示用户自定义的标签16“LZ：篮球王子，大前锋，三连冠”。

通过上述方案，允许用户在观影过程中自行添加人物(影人)标签，并随时可以查看该标签，方便用户及时回顾角色信息/剧情，因此本申请实施例提供的方案可以提升观影流畅度和用户感知体验。

可选的，在一些实施例中，终端设备响应于用户触发添加标签的操作，可以记录该标签的添加时间，即在该标签生成时目标视频流的播放进度，这样在目标视频流再次播放时可以根据所记录的标签时间信息显示该标签。其中，该标签时间信息用于指示在第一标签生成时目标视频流的播放进度。

具体的，当终端设备再次播放目标视频流且当前播放进度达到标签时间信息指示的播放进度时，终端设备可以根据标签时间信息确定对应的第一标签，并在第一帧图像画面中显示第一标签，以指示目标对象的角色信息。或者，终端设备可以向服务器发送请求消息，用于请求标签时间信息指示的标签，进而服务器可以根据标签时间信息获取对应的第一标签，然后服务器将第一标签发送给终端设备，从而终端设备获取到第一标签并显示第一标签。

举例来说，目标视频流的总播放时长为1小时，在目标视频流播放到15分钟时，终端设备响应于用户添加标签的操作，针对人物A(即目标对象)生成标签A并记录此时播放进度为15分钟(即标签时间信息)。当目标视频流再次播放且播放进度达到15分钟时，终端设备可以显示标签A，其指示人物A的角色信息，这样在重播时自动显示标签，无需用户手动触发显示，提升了人机交互的便捷性。

与弹幕效果不同的是，本申请方案可以根据用户需求，针对某一人物角色展示对应标签，或者当重播时在标签添加时间点展示标签。

在一些实施例中，对于图像画面中用户添加的标签或者系统预设的标签，终端设备可以根据用户需求对这些标签进行某些处理。示例性的，结合图1，如图5所示，在上述的S130之后，方法100还包括下述的S150。

S150，响应于用户对第一标签的第二操作，终端设备对第一标签执行第一处理。

可选的，上述第一处理可以为以下任一项：更新第一标签的内容；更新第一标签的显示位置；分享第一标签；隐藏第一标签；删除第一标签。

可选的，不同的第二操作，对应不同的第一处理。

示例性的，当第二操作为用于触发编辑或修改第一标签的操作时，例如用户点击编辑标签控件，终端设备可以响应于该第二操作，更新第一标签的内容。

再示例性的，当第二操作为用于触发第一标签移动的操作时，例如用户拖动第一标签，终端设备可以响应于该第二操作，更新第一标签的显示位置。

又示例性的，当第二操作为用于触发将第一标签分享给其他用户设备的操作时，例如用户点击分享标签控件，终端设备可以响应于该第二操作，将第一标签发送给其他用户终端或者平台，实现标签分享。这样，用户可以根据实际需求，选择是否将自定义标签上传并分享给其他用户，如此本申请方案可以支持将自己添加的标签共享给其他用户查看，也可以查看其他用户对该影人添加的标签。

再示例性的，当第二操作为用于触发第一标签隐藏的操作时，例如用户点击隐藏标签控件，终端设备可以响应于该第二操作，隐藏第一标签，此时第一标签对于用户不可见。如果用户需要再次查看第一标签，用户可以如上所述选中目标对象，触发终端设备再次显示第一标签。

又示例性的，当第二操作为用于触发第一标签删除的操作时，例如用户点击删除标签控件，终端设备可以响应于该第二操作，删除第一标签。当第一标签被删除后，用户无法通过上述方式再次调出第一标签。

需要说明的是，用户自定义标签是用户数据，在用户销户时需要及时清理，并最多可保留短期内(例如半年，以隐私要求为准)的标签。

可选的，在用户对标签进行编辑时，终端设备可以通过展示知识图谱或者用户画像提示标签关键词，允许用户采用选择标签关键词的方式进行标签编辑，减少用户手工输入的耗时，并且在隐私允许的前提下，可以基于预设的用户画像给出相应提示。例如，用户经常观看健身类视频，进而用户画像中预设“健身”标签，当用户给“演员XX”添加标签时，手机可以给出提示“演员XX每周去健身房锻炼2-3次”等相关信息，供用户标记标签时使用。

通过上述方案，用户在观影时可以根据个人观影感受，对视频中的人物或演员进行标签编辑，并且用户可以随时查看、修改、分享或删除该标签，提升了标签应用的灵活性。

综上所述，通过本申请提供的方案，在视频播放的过程中，允许添加用户级别的视频标签，并且允许用户在后续视频播放过程中查看或编辑该标签，解决了目前视频画面中人物角色的提示字幕的提示效果不佳的问题。

在一些实施例中，在终端设备生成某一标签的情况下，终端设备可以将该标签与目标视频流中的一帧图像画面或者一个视频片段对应关联存储，这里所提到的标签可以是用户添加的自定义标签，也可以是系统预设的标签。例如，终端设备可以将第一标签与第一视频播放信息关联存储，该第一视频播放信息指示的第一视频内容可以为上述第一帧图像画面，或者可以为具有预设播放时长且包含第一帧图像画面的第一视频片段。其中，预设播放时长具体可以根据实际需求设置，本申请实施例不作限定。这样，可以根据标签快速查找或定位到与该标签关联存储的视频播放信息指示的视频内容进行播放。

可选的，在一些实施例中，终端设备可以在目标视频流的当前播放界面中直接显示目标视频流中的多个对象各自对应的标签，供用户选择。在另一些实施例中，终端设备可以在用户操作触发后，在目标视频流的当前播放界面中显示多个标签，供用户选择。在用户选择其中一个标签的情况下，终端设备可以根据该标签快速定位到对应的画面或视频片段，如此可以提升用户体验。示例性的，结合图3，如图6所示，在上述的S140之后，方法100还包括下述的S160-S180。

S160，响应于用户的第五操作，终端设备在目标视频流的当前播放界面中显示至少一个标签。

示例性的，终端设备可以在标签展示框或标签列表中显示用户前期设置的标签供用户查看，同时也可以根据用户需求对标签进行编辑然后继续保存。

在本申请实施例中，上述至少一个标签中的每个标签对应于目标视频流中的一帧图像画面或者一个视频片段。上述用户的第五操作可以为用户对播放界面中的某一按钮的操作(例如点击操作)，用于触发在播放界面中显示至少一个标签，例如该至少一个标签可以采用标签列表的形式显示。

可选的，该至少一个标签包括第一标签，也可以包括用户针对目标视频流中的对象添加的自定义标签，还可以包括系统预设的标签，具体可以根据实际使用需求确定，本申请实施例不作限定。示例性的，上述至少一个标签包括用户针对目标视频流中的第一对象添加的第一标签，针对目标视频流中的第二对象添加的第二标签以及针对目标视频流中的第三对象添加的第三标签。

S170，若终端设备检测到该至少一个标签中的第一标签被选中，则终端设备根据第一标签获取与第一标签关联存储的第一视频播放信息。

示例性的，响应于用户对至少一个标签中的第一标签的点击操作，终端设备检测到第一标签被选中，进而，终端设备可以从本地调用预先存储的第一标签与第一视频播放信息的关联关系，根据第一标签获取对应的第一视频播放信息。或者，终端设备可以向服务器发送请求消息，用于请求与第一标签对应的视频播放信息，进而服务器可以调用预先存储的第一标签与第一视频播放信息的关联关系，根据第一标签获取对应的第一视频播放信息，然后服务器将第一视频播放信息发送给终端设备，从而终端设备获取到第一视频播放信息。

S180，终端设备控制从当前播放界面跳转到第一视频播放信息指示的第一视频内容进行播放。

在本申请实施例中，在第一标签被选中的情况下，终端设备可以根据第一标签，获取与第一标签关联存储的第一视频播放信息，从而可以快速定位到第一视频播放信息所指示的第一视频内容进行播放。

通过上述方案，用户可以在标签列表选择某一人物标签，触发手机快速定位到该人物标签对应的相关剧情片段。例如，如图7中的(a)所示，在电视剧《青春偶像剧场》的标签列表中显示了四个标签：标签1，标签2，标签3和标签4。若用户想看某一剧情片段，例如该剧情片段与标签4有对应关系，则用户可以从标签列表中选择标签4，如图7中的(b)所示，手机可以响应于用户操作，从当前视频显示界面17跳转到与该标签4相应的剧情片段(视频显示界面18)进行播放，方便快捷。

在上述实施例中，终端设备采用的是显示多个标签供用户选择的方式，并根据用户选择的标签快速查找到与该标签关联存储的视频播放信息指示的视频内容。在另一些实施例中，终端设备还可以根据用户输入的标签搜索信息，确定与标签搜索信息匹配度最高的一个标签，并根据该标签快速查找到与该标签关联存储的视频播放信息指示的视频内容进行播放。

可选的，在一些实施例中，终端设备可以在目标视频流的当前播放界面中直接显示标签搜索框，供用户输入标签搜索信息。在另一些实施例中，终端设备可以在用户操作触发后，在目标视频流的当前播放界面中显示标签搜索框，供用户输入标签搜索信息。在用户输入标签搜索信息的情况下，终端设备可以根据该标签搜索信息快速定位到对应的画面或视频片段，如此可以提升用户体验。示例性的，结合图3，如图8所示，在上述的S140之后，方法100还包括下述的S190-S210。

S190，响应于用户的第六操作，终端设备在目标视频流的当前播放界面上显示标签搜索框。

示例性的，上述用户的第六操作可以为用户对播放界面中的某一按钮的操作(例如点击操作)，用于触发在播放界面中显示标签搜索框，例如该标签搜索框可以为矩形框。

S200，若终端设备检测到标签搜索框中输入第一标签，则终端设备根据第一标签获取与第一标签关联存储的第一视频播放信息。

示例性的，响应于用户在标签搜索框中的输入操作，终端设备确定所输入的内容与第一标签匹配度最高，进而终端设备从本地调用预先存储的第一标签与第一视频播放信息的关联关系，根据第一标签获取对应的第一视频播放信息。或者，终端设备可以向服务器发送请求消息，用于请求与第一标签对应的视频播放信息，进而服务器可以调用预先存储的第一标签与第一视频播放信息的关联关系，根据第一标签获取对应的第一视频播放信息，然后服务器将第一视频播放信息发送给终端设备，从而终端设备获取到第一视频播放信息。

S210，终端设备控制从当前播放界面跳转到第一视频播放信息指示的第一视频内容进行播放。

在本申请实施例中，在用户在标签搜索框输入第一标签的情况下，终端设备可以根据第一标签，获取与第一标签关联存储的第一视频播放信息，从而可以快速定位到第一视频播放信息所指示的第一视频内容进行播放。

通过上述方案，可以根据演员标签，搜索或查找影片片段。示例性的，比如用户需要查看人物A在影片《yyy》中的剧情。在手机显示影片《yyy》的视频播放界面时，用户只需在标签搜索框中输入关键字“A”，就可以触发手机跳转到相应的影片片段进行播放，方便快捷。

图9为本申请实施例提供的在图像画面中显示标签的方法应用的系统架构示意图。如图9所示，系统架构包括客户端300和服务端400两部分，客户端300包括收发模块310、处理模块320和显示模块330，服务端400包括视频服务模块410和基础服务模块420。收发模块310用于与服务端400进行信息交互，例如用于向服务端400发送目标对象的特征信息，以及用于接收服务端400根据目标对象的特征信息发送的第一标签。处理模块320用于处理标签相关数据，显示模块330用于显示第一标签。

示例性的，客户端300可以包括上述实施例提及的终端设备，例如手机或者平板电脑(portable android device，PAD)。

服务端400可以为云服务集群。示例性的，视频服务模块410中可以包括如下几个单元：1)内容服务单元411，提供内容查询服务、内容管理服务、内容播放服务和内容搜索服务，即可以支持影片上下架管理、影片信息管理和影片播放鉴权等能力；2)用户服务单元412，提供用户鉴权服务、用户订单服务、用户播放服务和用户权益服务，即可以支持登录鉴权、会员购买及权益管理、收藏播放管理等能力；3)媒资服务单元413，提供媒资注入服务、媒资数据服务、媒资管理服务和媒资加工服务，即可以支持视频片源加工、视频注入等能力。基础服务模块420提供一些公共能力，如人脸识别、信息搜索、日志记录及分析、微服务限流降级、消息通知等。

图10示出了客户端与服务端通过交互实现本申请实施例提供的在图像画面中显示标签的方法的基本流程图。其中，以图像画面中的对象为人物(或称为影人)为例对本申请实施例提供的方法进行示例性说明。结合图9，如图10所示，上述方法的具体流程如下。

首先说明服务器400加载视频数据并建立人脸库的过程。

1-1、媒资服务单元412将视频转码并入库，内容服务单元411上架视频(例如影片或者电视剧)，并录入影人信息或数据。

1-2、媒资服务元412基于影人信息，将影人头像与影人标识(identity document，ID)进行关联：影人头像-影人ID，即上述实施例中的第一对应关系，如此建立人脸库或头像库。

其次再说明客户端300在播放视频时与服务端400交互的过程。

2-1、当客户端300的终端设备(例如手机)通过具有视频播放功能的APP播放视频时，手机从内容服务单元411获取用于播放该视频的统一资源定位符(uniform resourcelocator，URL)，相应地内容服务单元411对手机(用户ID)进行会员身份鉴权。

2-2、若用户触发手机暂停播放视频，在视频画面的某个影人头像上操作(例如长按)以触发人脸识别，则手机智能截取影人面部特征信息(例如图像或图片)并从媒资服务单元412查找该影人ID。其中，人脸识别触发方式可以通过提供“提取”按钮，当用户点击该按钮后，手指触屏时触发手机对该触点附近的图像(以该触点为中心的预设范围内的图像)人脸识别，获取影人面部特征信息，并弹出标签窗口(例如标签框)。

2-3、用户在弹出的标签窗口中编辑内容后提交到服务器400，用户服务单元413将编辑的内容记录到结构化数据存储(structured data store，SDS)库中。在手机播放视频时，若用户触发手机暂停播放视频并点击标签开关，则手机显示当前屏上影人是否有之前设置的标签，如果有的话弹出标签窗口展示给用户并允许用户修改、分享或删除等。如此，通过本申请实施例提供的方案，在终端设备播放视频流的过程中，可支持自定义标签的新增、查看、修改、分享和删除等功能。

在本申请实施例中，在影片上架前，可以对于影片的主要影人/人物角色建立人脸库，存储于服务端侧。客户端在视频APP中集成人脸检测API，允许从静止画面中提取影人面部特征信息(例如截取图像或图片)，并将其提供给服务端侧。服务端侧集成人脸查找能力，基于客户端侧提供的影人面部特征信息从人脸库中比对出影人标识，将影人标识返回给客户端。客户端可以根据用户操作，在视频APP中针对影人标识添加、修改和/或删除个性化描述(即标签信息)，服务端侧的用户服务模块负责管理相关数据。

图11示出了客户端与服务端通过交互实现本申请实施例提供的在图像画面中显示标签的方法的时序流程图。下面结合图10和图11对本申请实施例提供的在图像画面中显示标签的方法进行示例性描述。

媒资服务模块先将购买的影片编解码并导入库，并对该影片中所有影人建立头像库，而内容服务模块会将该影片上架。如图11中的步骤1-用户查询影片，用户在手机APP上登录并购买会员后，可以获取影片列表，在线查看并观看视频。如图11中的步骤2-用户点播影片，在手机播放影片时需要完成播放鉴权过程：基于影片ID，去内容服务模块查询用户是否有播放权限进而播放影片。如图11中的步骤3-用户选中影人：在手机播放影片过程中，手机可以响应于用户操作，通过人脸检测方式抓取指定、瞬间的角色头像或从帧图像中获取所有角色头像，并将头像图片发给媒资服务模块，相应地媒资服务模块通过从预置好的头像库中完成人脸比对并返回影人ID给手机。如图11中的步骤4-用户自定义标签：若用户在安卓应用程序包(android application package，APK)上添加自定义角色标签，手机可以将用户ID、影片ID、影人ID、标签内容传递给用户服务模块，并通过数据存储库进行存储。

图12示出了本申请实施例提供的在图像画面中显示标签的方法所应用的数据模型图。如图12所示，用户自定义标签的数据模型包含如下三个部分：

1)用户信息，包括用户模型中的用户ID、标签内容、播放进度等。

2)影片信息，包括媒资模型中的影片ID、剧集ID等。

3)影人信息，包括内容模型中的影人ID等。

其中，上述用户信息、影片信息和影人信息可以关联存储于SDS库模型中。

需要说明的是，在本申请实施例中，每部影片的主要影人(人物角色)是固定个数的，可以先对影人剧照和影人ID建立关联档案，该影片的某一帧图像中的影人面部特征信息与该档案中的人脸进行比对，可用于识别出对应影人，如此可提升识别性能。此外，在用户添加标签时，可以先触发手机暂停播放后点击“提取”控件后选中影人头像，手机通过人脸图像提取技术抓取影人面部特征信息，上传到媒资服务模块进行头像识别。进一步的，通过现有人脸检测技术，在手机快速识别出完整图片中的主要影人头像。服务端的媒资服务模块获取到手机发送的一组影人面部特征信息，基于现有的人脸识别技术，从本视频/剧集的人脸库中查找到匹配度最高的人脸，进而获取到对应的影人ID，并将影人ID返回给客户端侧。用户针对识别出的影人，编辑好标签内容后点击“提交”控件以触发手机将标签内容提交给服务端，服务端的用户服务模块可以记录该标签所属的用户ID、影人ID、影片ID或剧集ID，也会记录添加标签的时间点，这样后续可以在视频复播时基于该播放时间点自动展示该标签。进一步的，在手机播放影片的过程中，如果用户想查看当前帧中某影人的标签，可以暂停播放(防止跳到其他帧、无此影人)，然后点击标签控件。手机扫描当前帧的影人头像，并发送到服务端的媒资服务模块，获取到对应的影人ID。手机与用户服务模块交互，根据用户ID、影人ID、影片ID或剧集ID等查询该影人ID的自定义标签，并将该自定义标签展示在手机屏幕中。

本文中描述的各个实施例可以为独立的方案，也可以根据内在逻辑进行组合，以实现不同的技术效果，这些方案都落入本申请的保护范围中。

本申请实施例并未对本申请实施例提供的方法的执行主体的具体结构进行特别限定，只要能够通过运行记录有本申请实施例提供的方法的代码的程序，以根据本申请实施例提供的方法实现即可。可以理解的是，上述各个方法实施例中由服务端实现的方法和操作，也可以由可用于服务端的部件(例如芯片或者电路)实现。上述各个方法实施例中由客户端实现的方法和操作，也可以由可用于客户端的部件(例如芯片或者电路)实现。例如，本申请实施例提供的方法的执行主体可以是终端设备，或者是终端设备中能够调用程序并执行程序的功能模块。为了实现上述本申请实施例提供的方法中的各功能，终端设备可以包括硬件结构和/或软件模块，以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行，取决于技术方案的特定应用和设计约束条件。

上文描述了本申请提供的方法实施例，下文将描述本申请提供的装置实施例。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的内容可以参见上文方法实施例，为了简洁，这里不再赘述。

上文主要从设备与设备之间交互的角度对本申请实施例提供的方案进行了描述。可以理解的是，各个设备，例如客户端设备或服务端设备，为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的保护范围。

本申请实施例可以根据上述方法示例，对客户端设备或服务端设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有其它可行的划分方式。下面以采用对应各个功能划分各个功能模块为例进行说明。

图13为本申请实施例提供的在图像画面中显示标签的装置700的示意性框图。该装置700可以用于执行上文方法实施例中客户端所执行的动作。该装置700包括处理模块710和显示模块720。处理模块710用于执行上文方法实施例中客户端侧的处理相关的操作。显示模块720用于执行上文方法实施例中客户端侧的内容显示相关的操作。

其中，处理模块710用于当检测到目标视频流的第一帧图像画面中的目标对象被选中时，根据所述目标对象的特征信息确定所述目标对象的标识；显示模块720用于在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签。

在一些实施例中，处理模块710，还用于响应于用户对目标视频流的第二帧图像画面中的目标对象的第一操作，生成第一标签，该第一标签与目标对象的标识具有对应关系。

在一些实施例中，处理模块710，还用于响应于用户对第一标签的第二操作，对第一标签执行第一处理；

其中，第一处理为以下任一项：更新第一标签的内容；更新第一标签的显示位置；分享第一标签；隐藏第一标签；删除第一标签。

在一些实施例中，显示模块720，具体用于在第一帧图像画面中与目标对象对应的显示区域显示第一标签，其中，该显示区域位于以目标对象为中心的预设范围内。

在一些实施例中，显示模块720，具体用于在第一帧图像画面上显示标签框，在标签框显示第一标签。

在一些实施例中，上述目标对象的标识是根据至少一个特征信息和至少一个标识的对应关系确定的，该至少一个特征信息与至少一个标识一一对应，该至少一个特征信息包括目标对象的特征信息，该至少一个标识包括目标对象的标识。

在一些实施例中，上述目标对象的特征信息为目标对象的面部特征信息。

在一些实施例中，显示模块720还用于响应于用户对第一帧图像画面的第三操作，在第一帧图像画面中目标对象的面部所在区域显示选取框；处理模块710还用于在目标对象的面部所在区域显示选取框的情况下确定目标对象被选中；

或者，显示模块720还用于响应于用户对第一帧图像画面的第四操作，在第一帧图像画面中的每个对象的面部区域显示面部检测框；处理模块710还用于当检测到目标对象对应的面部检测框被选中时，确定目标对象被选中。

在一些实施例中，显示模块720还用于：响应于用户的第五操作，在目标视频流的当前播放界面中显示至少一个标签，每个标签对应于目标视频流中的一帧图像画面或者一个视频片段；若检测到至少一个标签中的第一标签被选中，则根据第一标签获取与第一标签关联存储的第一视频播放信息；从当前播放界面跳转到第一视频播放信息指示的第一视频内容进行播放，该第一视频内容为第一帧图像画面或者具有预设播放时长且包含第一帧图像画面的第一视频片段。

在一些实施例中，显示模块720还用于：响应于用户的第六操作，在目标视频流的当前播放界面上显示标签搜索框；若检测到标签搜索框中输入第一标签，则根据第一标签获取与第一标签关联存储的第一视频播放信息；从当前播放界面跳转到第一视频播放信息指示的第一视频内容进行播放，该第一视频内容为第一帧图像画面或者具有预设播放时长且包含第一帧图像画面的第一视频片段。

在一些实施例中，显示模块720还用于当目标视频流再次播放且当前播放进度达到标签时间信息指示的播放进度时，显示第一标签，该标签时间信息用于指示在第一标签生成时目标视频流的播放进度。

在一些实施例中，处理模块710具体用于：响应于用户对目标视频流的第一帧图像画面的第七操作，确定第一帧图像画面中的多个对象被选中，该多个对象包括目标对象；并根据该多个对象对应的特征信息确定多个对象的多个标识，该多个对象与该多个标识一一对应。显示模块720具体用于在第一帧图像画面上显示与多个对象的多个标识对应的多个标签，该多个标识与该多个标签一一对应，该多个标签包括第一标签。

根据本申请实施例的装置700可对应于执行本申请实施例中描述的方法，并且装置700中的单元的上述和其它操作和/或功能分别为了实现方法的相应流程，为了简洁，在此不再赘述。

图14示出了一种终端设备800的结构示意图，该终端设备800即上述实施例中的客户端300的设备。终端设备800可以包括处理器810，外部存储器接口820，内部存储器821，通用串行总线(universal serial bus，USB)接口830，充电管理模块840，电源管理单元841，电池842，天线1，天线2，移动通信模块850，无线通信模块860，音频模块870，扬声器870A，受话器870B，麦克风870C，耳机接口870D，传感器模块880，按键890，马达891，指示器892，摄像头893，显示屏894，以及用户标识模块(subscriber identification module，SIM)卡接口895等。其中传感器模块880可以包括压力传感器880A，陀螺仪传感器880B，气压传感器880C，磁传感器880D，加速度传感器880E，距离传感器880F，接近光传感器880G，指纹传感器880H，温度传感器880I，触摸传感器880J，环境光传感器880K以及骨传导传感器880L等。

处理器810可以包括一个或多个处理单元，例如：处理器810可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，控制器可以是终端设备800的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器810中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器810中的存储器为高速缓冲存储器。该存储器可以保存处理器810刚用过或循环使用的指令或数据。如果处理器810需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器810的等待时间，因而提高了系统的效率。

外部存储器接口820可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备800的存储能力。外部存储卡通过外部存储器接口820与处理器810通信，实现数据存储功能。例如将视频等文件保存在外部存储卡中。

内部存储器821可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器810通过运行存储在内部存储器821的指令，从而执行终端设备800的各种功能应用以及数据处理。内部存储器821可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能(比如视频播放功能、视频暂停播放功能、显示标签功能、编辑标签功能、删除标签功能等)所需的应用程序等。存储数据区可存储终端设备800使用过程中所创建的数据(比如标签数据等)等。此外，内部存储器821可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

处理器810可以用于执行上述程序代码，调用相关模块以实现本申请实施例中终端设备的功能。

例如，在终端设备800播放视频的过程中，当用户选中视频播放界面中的暂停控件时，处理器810可以响应于该触控操作，调用与视频暂停播放功能对应的应用程序，控制视频暂停播放。

再例如，在视频暂停播放的情况下，当用户选中视频播放界面中的人物面部区域时，处理器810可以响应于该触控操作，调用与显示标签功能对应的应用程序，通过显示屏显示该人物对应的标签。

再例如，在视频播放界面中显示标签的情况下，当用户选中标签时，处理器810可以响应于该触控操作，调用与编辑标签功能对应的应用程序，将该标签的状态更新为用户可编辑状态。

再例如，在视频播放界面中显示标签且标签处于可编辑状态的情况下，当用户在标签上进行编辑时，处理器810可以响应于该触控操作，调用与编辑标签功能以及显示标签功能对应的应用程序，通过显示屏显示用户编辑后的标签。

再例如，在视频播放界面中显示第一标签的情况下，当用户针对第一标签选中删除控件时，处理器810可以响应于该触控操作，调用与删除标签功能对应的应用程序，将该标签从内部存储器821中移除。

终端设备800通过GPU、视频编解码器、显示屏894以及应用处理器等实现视频播放功能。GPU为图像处理的微处理器，连接显示屏894和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器810可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。视频编解码器用于对数字视频压缩或解压缩。终端设备800可以支持一种或多种视频编解码器。这样，终端设备800可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

显示屏894用于显示图像或视频，例如用于播放视频以及显示标签数据等。显示屏894包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，终端设备800可以包括1个或N个显示屏894，N为大于1的正整数。

摄像头893用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端设备800可以包括1个或N个摄像头893，N为大于1的正整数。

充电管理模块840用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理单元841接收电池842和/或充电管理模块840的输入，为处理器810，内部存储器821，外部存储器，显示屏894，摄像头893和无线通信模块860等供电。电源管理单元841还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。

终端设备800的无线通信功能可以通过天线1、天线2、移动通信模块850、无线通信模块860、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。终端设备800中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块850可以提供应用在终端设备800上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块850可以包括至少一个滤波器、开关、功率放大器、低噪声放大器(low noise amplifier，LNA)等。移动通信模块850可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块850还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块850的至少部分功能模块可以被设置于处理器810中。在一些实施例中，移动通信模块850的至少部分功能模块可以与处理器810的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器870A、受话器870B等)输出声音信号，或通过显示屏894显示图像或视频或标签。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器810，与移动通信模块850或其他功能模块设置在同一个器件中。

无线通信模块860可以提供应用在终端设备800上的包括WLAN(如Wi-Fi)、BT、全球导航卫星系统(global navigation satellite system，GNSS)、FM、NFC、IR或通用2.4G/5G无线通信技术等无线通信的解决方案。无线通信模块860可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块860经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器810。无线通信模块860还可以从处理器810接收待发送的信号，对其进行调频、放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备800的天线1和移动通信模块850耦合，天线2和无线通信模块860耦合，使得终端设备800可以通过无线通信技术与网络以及其他设备通信。示例性的，终端设备800可以通过无线通信技术与服务端交互，例如从服务端获取视频源，也可以将用户添加的标签信息以及人脸特征信息发送给服务端关联存储，并且终端设备800可以根据需求从服务端调用标签并显示给用户查阅。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(generalpacket radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TDSCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(globalpositioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite basedaugmentation systems，SBAS)。

终端设备800可以通过音频模块870中的扬声器870A、受话器870B、麦克风870C、耳机接口870D，以及应用处理器等实现音频功能。例如音乐播放，录音等。音频模块870用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块870还可以用于对音频信号编码和解码。在一些实施例中，音频模块870可以设置于处理器810中，或将音频模块870的部分功能模块设置于处理器810中。扬声器870A，也称“喇叭”，用于将音频电信号转换为声音信号。当终端设备800播放视频时，终端设备800可以通过扬声器870A输出视频声音。受话器870B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备800接听电话或语音信息时，可以通过将受话器870B靠近人耳接听语音。麦克风870C，也称“话筒”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风870C发声，将声音信号输入到麦克风870C。终端设备800可以设置至少一个麦克风870C。在另一些实施例中，终端设备800可以设置两个麦克风870C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备800还可以设置三个，四个或更多麦克风870C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。耳机接口870D用于连接有线耳机。若终端设备800通过耳机接口870D连接有耳机，则当终端设备800播放视频时，可以通过耳机输出视频声音。

压力传感器880A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器880A可以设置于显示屏894。压力传感器880A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器880A，电极之间的电容改变。终端设备800根据电容的变化确定压力的强度。当有触摸操作作用于显示屏894，终端设备800根据压力传感器880A检测触摸操作强度。终端设备800也可以根据压力传感器880A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

例如，在视频暂停播放的情况下，当用户对视频播放界面中的人物面部区域按压且按压力度大于或等于第一压力阈值时，压力传感器感应到该触控操作并传递给应用处理器，应用处理器可以响应于该触控操作，控制显示屏894显示该人物对应的标签。

陀螺仪传感器880B可以用于确定终端设备800的运动姿态。在一些实施例中，可以通过陀螺仪传感器880B确定终端设备800围绕三个轴(例如x，y和z轴)的角速度。陀螺仪传感器880B可以用于拍摄防抖。加速度传感器880E可检测终端设备800在各个方向上(一般为三轴)加速度的大小。当终端设备800静止时可检测出重力的大小及方向。还可以用于识别终端设备姿态，应用于横竖屏切换，计步器等应用。距离传感器880F用于测量距离。终端设备800可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端设备800可以利用距离传感器880F测距以实现快速对焦。

接近光传感器880G用于检测来自附近物体的红外反射光，当检测到充分的反射光时，可以确定终端设备800附近有物体；当检测到不充分的反射光时，终端设备800可以确定终端设备800附近没有物体。终端设备800可以利用接近光传感器880G检测用户手持终端设备800贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。

环境光传感器880K用于感知环境光亮度。终端设备800可以根据感知的环境光亮度自适应调节显示屏894亮度。气压传感器880C用于测量气压。在一些实施例中，终端设备800通过气压传感器880C测得的气压值计算海拔高度，辅助定位和导航。磁传感器880D包括霍尔传感器。终端设备800可以利用磁传感器880D检测终端设备800的位移。指纹传感器880H用于采集指纹。终端设备800可以利用采集的指纹特性实现指纹解锁，访问应用锁、指纹拍照、指纹接听来电等。温度传感器880I用于检测温度。在一些实施例中，终端设备800利用温度传感器880I检测的温度，执行温度处理策略。

触摸传感器880J，也称“触控面板”。触摸传感器880J可以设置于显示屏894，由触摸传感器880J与显示屏894组成触摸屏，也称“触控屏”。触摸传感器880J用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏894提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器880J也可以设置于终端设备800的表面，与显示屏894所处的位置不同。

例如，在终端设备800播放视频的过程中，当用户触摸视频播放界面中的暂停控件时，触摸传感器感应到该触控操作并传递给应用处理器，应用处理器可以响应于该触控操作，控制视频暂停播放。

再例如，在视频暂停播放的情况下，当用户对视频播放界面中的人物面部区域触摸且触摸时长大于预设时长(即长按操作)时，触摸传感器感应到该触控操作并传递给应用处理器，应用处理器可以响应于该触控操作，显示该人物对应的标签。

再例如，在视频播放界面中显示标签的情况下，当用户触摸标签时，触摸传感器感应到该触控操作并传递给应用处理器，应用处理器可以响应于该触控操作，将该标签的状态更新为用户可编辑状态。

再例如，在视频播放界面中显示标签且标签处于可编辑状态的情况下，当用户在标签上进行编辑时，触摸传感器感应到该触控操作并传递给应用处理器，应用处理器可以响应于该触控操作，显示用户编辑后的标签。

骨传导传感器880L可以获取振动信号。在一些实施例中，骨传导传感器880L可以获取人体声部振动骨块的振动信号。骨传导传感器880L也可以接触人体脉搏，接收血压跳动信。按键890包括开机键、音量键等。按键890可以是机械按键。也可以是触摸式按键。终端设备800可以接收按键输入，产生与终端设备800的用户设置以及功能控制有关的键信号输入。

马达891可以产生振动提示。马达891可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如添加标签、显示标签、编辑标签、删除标签等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏894不同区域的触摸操作，马达891也可对应不同的振动反馈效果。不同的应用场景也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器892可以是指示灯，可以用于指示充电状态或电量变化，也可以用于指示消息、未接来电、通知等。例如，指示器892可以提示收到标签相关消息。

SIM卡接口895用于连接SIM卡。SIM卡可以通过插入SIM卡接口895，或从SIM卡接口895拔出，实现和终端设备800的接触和分离。终端设备800通过SIM卡和网络交互，实现通话以及数据通信等功能。

可以理解，图14所示的部件并不构成对终端设备800的具体限定，终端设备800还可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

应理解，图14所示的终端设备800可对应于图13所示的装置700或者图9所示的客户端300。其中，终端设备800中的处理器810可以对应于装置700中的处理模块710或者客户端300中的处理模块320，终端设备800中的显示屏894可以对应于装置700中的显示模块720或者客户端300中的显示模块330。

在实际实现时，在终端设备800运行时，处理器810执行存储器821中的计算机执行指令以通过终端设备800执行上述方法100的操作步骤。

终端设备800可以为移动终端，也可以为非移动终端。示例性的，终端设备800可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digitalassistant，PDA)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、台式计算机等。本申请实施例对终端设备800的设备类型不予具体限定。

本申请实施例中，用于实现终端设备的功能的装置可以是终端设备，也可以是能够支持终端设备实现该功能的装置，例如芯片系统，该装置可以被安装在终端设备中。本申请实施例中，芯片系统可以由芯片构成，也可以包括芯片和其他分立器件。本申请实施例提供的技术方案中，以用于实现终端的功能的装置是终端设备为例，描述本申请实施例提供的技术方案。

在本申请实施例中，终端设备包括硬件层、运行在硬件层之上的操作系统层，以及运行在操作系统层上的应用层。其中，硬件层可以包括中央处理器(central processingunit，CPU)、内存管理单元(memory management unit，MMU)和内存(也称为主存)等硬件。操作系统层的操作系统可以是任意一种或多种通过进程(process)实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。应用层可以包含浏览器、通讯录、文字处理软件、即时通信软件等应用。

可选地，在一些实施例中，本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述方法实施例的操作步骤。

可选地，在一些实施例中，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述方法实施例的操作步骤。

本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本文中使用的术语“制品”可以涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括但不限于：磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatile disc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasable programmableread-only memory，EPROM)、卡、棒或钥匙驱动器等)。

本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于：无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

应理解，本申请实施例中提及的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其他通用处理器、DSP、专用集成电路(applicationspecific integrated circuit，ASIC)、现成可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)。例如，RAM可以用作外部高速缓存。作为示例而非限定，RAM可以包括如下多种形式：静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)可以集成在处理器中。还需要说明的是，本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的保护范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。此外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上，或者说对现有技术做出贡献的部分，或者该技术方案的部分，可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，该计算机软件产品包括若干指令，该指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。前述的存储介质可以包括但不限于：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种在图像画面中显示标签的方法，其特征在于，包括：

当检测到目标视频流的第一帧图像画面中的目标对象被选中时，根据所述目标对象的特征信息确定所述目标对象的标识；

在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签。

2.根据权利要求1所述的方法，其特征在于，在所述当检测到目标视频流的第一帧图像画面中的目标对象被选中时，根据所述目标对象的特征信息确定所述目标对象的标识之前，所述方法还包括：

响应于用户对所述目标视频流的第二帧图像画面中的所述目标对象的第一操作，生成所述第一标签，所述第一标签与所述目标对象的标识具有对应关系。

3.根据权利要求1或2所述的方法，其特征在于，所述在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签之后，所述方法还包括：

响应于用户对所述第一标签的第二操作，对所述第一标签执行第一处理；

其中，所述第一处理为以下任一项：更新所述第一标签的内容；更新所述第一标签的显示位置；分享所述第一标签；隐藏所述第一标签；删除所述第一标签。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签，包括：

在所述第一帧图像画面中与所述目标对象对应的显示区域显示所述第一标签，其中，所述显示区域位于以所述目标对象为中心的预设范围内。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签，包括：

在所述第一帧图像画面上显示标签框，在所述标签框显示所述第一标签。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述目标对象的标识是根据至少一个特征信息和至少一个标识的对应关系确定的，所述至少一个特征信息与所述至少一个标识一一对应，所述至少一个特征信息包括所述目标对象的特征信息，所述至少一个标识包括所述目标对象的标识。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述目标对象的特征信息为所述目标对象的面部特征信息。

8.根据权利要求7所述的方法，其特征在于，所述检测到目标视频流的第一帧画图像面中的目标对象被选中，包括：

响应于用户对所述第一帧图像画面的第三操作，在所述第一帧图像画面中所述目标对象的面部所在区域显示选取框，确定所述目标对象被选中；或者，

响应于用户对所述第一帧图像画面的第四操作，在所述第一帧图像画面中的每个对象的面部区域显示面部检测框；当检测到所述目标对象对应的面部检测框被选中时，确定所述目标对象被选中。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

当所述目标视频流再次播放且当前播放进度达到标签时间信息指示的播放进度时，显示所述第一标签，所述标签时间信息用于指示在所述第一标签生成时所述目标视频流的播放进度。

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述当检测到目标视频流的第一帧图像画面中的所述目标对象被选中时，根据所述目标对象的特征信息获取所述目标对象的标识，包括：

响应于用户对所述目标视频流的第一帧图像画面的第七操作，确定第一帧图像画面中的多个对象被选中，所述多个对象包括所述目标对象；

根据所述多个对象对应的特征信息，确定所述多个对象的多个标识，所述多个对象与所述多个标识一一对应；

其中，在所述第一帧图像画面上显示与所述目标对象的标识对应的第一标签，包括：

在所述第一帧图像画面上显示与所述多个对象的多个标识对应的多个标签，所述多个标识与所述多个标签一一对应，所述多个标签包括所述第一标签。

13.一种终端设备，其特征在于，包括处理器，所述处理器与存储器耦合，所述处理器用于执行所述存储器中存储的计算机程序或指令，以实现如权利要求1至12中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被运行时，实现如权利要求1至12中任一项所述的方法。