CN113822142A

CN113822142A - 角色识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113822142A
Application number: CN202110857929.6A
Authority: CN
Inventors: 程郑鑫; 许海伦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-12-21

Abstract

本申请涉及一种角色识别方法、装置、计算机设备和存储介质。所述方法包括：获取待处理视频，并从所述待处理视频中提取出目标视频帧；对各所述目标视频帧分别进行目标检测，以确定各所述目标视频帧中出现的角色对象分别所处的角色区域；确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息；基于所述关键位置信息，对由各所述角色对象所处的角色区域构成的图像分别进行对齐配准处理，得到与每个角色对象分别对应的预设尺寸的目标图像；基于所述目标图像进行角色识别，得到所述待处理视频中各所述角色对象分别对应的角色信息。采用本方法能够提高对图像中角色对象的识别准确性。

Description

角色识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种角色识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了目标识别技术，通过目标识别能够对图像或视频中的目标对象进行定位和识别，以获得图像或视频中的目标对象的信息。例如，通过识别模型对图像、视频中的人物进行识别，以确定图像、视频中的人物所扮演的角色等信息。

然而，不同的图像可能尺寸不同，传统的目标识别方式往往是直接改变图像的尺寸，使得图像满足识别模型的处理要求，但这种方式容易导致图像内容的长宽比例失真，影响对图像中目标对象的识别准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高对图像中角色对象的识别准确性的角色识别方法、装置、计算机设备和存储介质。

一种角色识别方法，所述方法包括：

获取待处理视频，并从所述待处理视频中提取出目标视频帧；

对各所述目标视频帧分别进行目标检测，以确定各所述目标视频帧中出现的角色对象分别所处的角色区域；

确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息；

基于所述关键位置信息，对由各所述角色对象所处的角色区域构成的图像分别进行对齐配准处理，得到与每个角色对象分别对应的预设尺寸的目标图像；

基于所述目标图像进行角色识别，得到所述待处理视频中各所述角色对象分别对应的角色信息。

一种角色识别装置，所述装置包括：

获取模块，用于获取待处理视频，并从所述待处理视频中提取出目标视频帧；

检测模块，用于对各所述目标视频帧分别进行目标检测，以确定各所述目标视频帧中出现的角色对象分别所处的角色区域；

确定模块，用于确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息；

配准模块，用于基于所述关键位置信息，对由各所述角色对象所处的角色区域构成的图像分别进行对齐配准处理，得到与每个角色对象分别对应的预设尺寸的目标图像；

识别模块，用于基于所述目标图像进行角色识别，得到所述待处理视频中各所述角色对象分别对应的角色信息。

在一个实施例中，所述检测模块，还用于对各所述目标视频帧分别进行卷积处理，得到对应的视频帧特征；通过预设检测框分别在每个所述目标视频帧上滑动，得到每个所述目标视频帧分别对应的各候选框；基于每个所述目标视频帧分别对应的各候选框，确定每个所述目标视频帧中出现的角色对象，并确定所述角色对象在相应目标视频帧中所处的角色区域。

在一个实施例中，所述检测模块，还用于对于每个所述目标视频帧，根据相应目标视频帧分别对应的各候选框，确定相应目标视频帧中出现的角色对象；对于每个角色对象，放大相应角色对象所在的候选框的尺寸，将放大后的候选框所包含的区域作为所述角色对象在相应目标视频帧中所处的角色区域。

在一个实施例中，所述确定模块，还用于当所述角色对象在相应目标视频帧中存在目标部位时，对每个角色对象的目标部位分别进行特征点提取，得到各目标部位分别对应的目标关键点，确定所述目标关键点在相应目标视频帧中的关键位置信息；当所述角色对象在相应目标视频帧中不存在目标部位时，预测所述角色对象在相应视频帧中的目标部位，并预测所述目标部位的目标关键点在相应视频帧所对应的关键位置信息。

在一个实施例中，所述配准模块，还用于获取预设模板中各预设特征点分别对应的预设位置信息；根据每个角色对象的目标关键点对应的关键位置信息和各所述预设特征点的预设位置信息，确定每个所述角色对象和所述预设模板之间的映射关系；基于每个角色对象所对应的映射关系，将相应角色对象所处的角色区域构成的图像调整为预设尺寸的目标图像。

在一个实施例中，所述配准模块，还用于对于每个角色对象，当所述角色对象在相应目标视频帧中存在目标部位时，基于所述角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像直接映射为预设尺寸的目标图像；当所述角色对象在相应目标视频帧中不存在目标部位时，基于所述角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像映射为预设尺寸的目标图像中的一部分，并将所述目标图像中的其余像素通过零像素补齐，得到预设尺寸的目标图像。

在一个实施例中，所述识别模块，还用于针对每个角色对象分别对应的预设尺寸的目标图像，通过特征提取网络对所述目标图像进行卷积处理，得到对应的图像特征；对所述图像特征进行池化处理，得到相应的池化特征；对所述池化特征进行残差处理，并将残差处理所得到的特征和相应的图像特征进行融合，得到各所述角色对象分别对应的目标特征向量；基于各所述角色对象分别对应的目标特征向量，确定各所述角色对象分别对应的角色信息。

在一个实施例中，所述识别模块，还用于对于每个角色对象所对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的特征相似度，得到相应角色对象所对应的至少一个特征相似度；对于每个角色对象，确定相对应的至少一个特征相似度中满足相似度条件的特征相似度所对应的目标预设特征向量，并将所述目标预设特征向量所对应的角色信息，作为相应角色对象所对应的角色信息。

在一个实施例中，所述识别模块，还用于对于每个角色对象对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的欧式距离，得到相应角色对象所对应的至少一个欧式距离；对于每个角色对象，确定相对应的至少一个欧氏距离中的最小欧式距离；当所述最小欧式距离小于距离阈值时，将所述最小欧式距离所对应的预设特征向量，作为目标预设特征向量。

在一个实施例中，所述角色信息包括所述角色对象对应的影视名称和影视链接中的至少一种；所述装置还包括：推送模块；所述推送模块，用于获取浏览过所述待处理视频的各用户账号，并分别计算各用户账号与所述待处理视频之间的相关度；将所述角色对象对应的影视名称和影视链接中的至少一种，推送给满足相关度条件的相关度所对应的用户账号。

在一个实施例中，所述装置还包括：处理模块；所述处理模块，用于获取所述待处理视频的播放渠道；当基于所述角色信息确定所述播放渠道不具备播放权限时，删除所述播放渠道下的所述待处理视频，并对传播所述待处理视频的用户账号进行处理。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述角色识别方法、装置、计算机设备和存储介质，获取待处理视频，并从待处理视频中提取出目标视频帧，对各目标视频帧分别进行目标检测，以准确确定各目标视频帧中出现的角色对象分别所处的角色区域。确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息，基于关键位置信息，能够准确将角色对象所处的角色区域构成的图像准确映射为预设尺寸的目标图像，以避免直接将图像的尺寸直接调整为固定尺寸所导致的长宽比例失真的问题。预设尺寸的目标图像中的角色对象长宽比例协调，基于该目标图像进行角色识别，能够准确获得待处理视频中各角色对象分别对应的角色信息。

附图说明

图1为一个实施例中图像识别方法的应用环境图；

图2为一个实施例中图像识别方法的流程示意图；

图3为一个实施例中对各目标视频帧分别进行目标检测，以确定各目标视频帧中出现的角色对象分别所处的角色区域的流程示意图；

图4为另一个实施例中基于目标图像进行角色识别，得到待处理视频中各角色对象分别对应的角色信息的流程示意图；

图5为一个实施例中计算目标特征向量和每个预设特征向量之间的特征相似度的步骤的流程示意图；

图6为一个实施例中图像识别方法应用于视频推送场景的流程示意图；

图7为另一个实施例中图像识别方法的流程示意图；

图8为一个实施例中图像识别装置的结构框图；

图9为另一个实施例中图像识别装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及人工智能(Artificial Intelligence，AI)技术领域，其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。本申请实施例提供的方案涉及人工智能的角色识别方法，具体通过如下各实施例进行说明。

本申请提供的角色识别方法，可以应用于如图1所示的角色识别系统。如图1所示，该角色识别系统包括终端110和服务器120。在一个实施例中，终端110和服务器120均可单独执行本申请实施例中提供的角色识别方法。终端110和服务器120也可协同用于执行本申请实施例中提供的角色识别方法。当终端110和服务器120协同用于执行本申请实施例中提供的角色识别方法时，终端110获取待处理视频，将待处理视频发送至服务器120。服务器120并从待处理视频中提取出目标视频帧，对各目标视频帧分别进行目标检测，以确定各目标视频帧中出现的角色对象分别所处的角色区域。服务器120确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息。服务器120基于关键位置信息，对由各角色对象所处的角色区域构成的图像分别进行对齐配准处理，得到与每个角色对象分别对应的预设尺寸的目标图像。服务器120基于目标图像进行角色识别，得到待处理视频中各角色对象分别对应的角色信息，将角色信息返回至终端110。

其中，服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器或多个云服务器构成的云服务器集群。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但并不局限于此。终端110上可安装有应用程序，该应用程序可以是通信应用、邮件应用、视频应用或音乐应用等，不做限定。终端110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，多个服务器可组成为一区块链，而服务器为区块链上的节点。

在一个实施例中，与该角色识别方法相关的数据可保存于区块链上，例如待处理视频、目标视频帧、角色对象的目标关键点和关键位置信息、预设尺寸的目标图像、角色对象对应的角色信息等数据均可保存于区块链上。

在一个实施例中，如图2所示，提供了一种角色识别方法，以该方法应用于图1中的计算机设备(该计算机设备具体可以是终端或服务器)为例进行说明，包括以下步骤：

步骤S202，获取待处理视频，并从待处理视频中提取出目标视频帧。

其中，待处理视频是指需要进行角色识别的视频，可以包括电影、电视剧、节目和动画中的至少一种。待处理视频可以是正版视频、盗版视频或混剪视频，还可以是正版视频中的视频片段，或者盗版视频中的视频片段。例如，待处理视频可以是从电影、电视剧、节目和动画中的至少一种进行剪辑、拼接得到的混剪视频。

具体地，计算机设备可获取待处理视频，对该待处理视频进行视频抽帧处理，得到目标视频帧。进一步地，计算机设备对待处理视频进行视频抽帧处理，得到预设数量的目标视频帧。视频抽帧是指对待处理视频中的视频帧进行采样。

在一个实施例中，计算机设备按照预设间隔时长对待处理视频进行视频抽帧处理，得到各个目标视频帧。例如，待处理视频按照每秒抽一帧，则30秒的视频可以得到30个目标视频帧。

在一个实施例中，终端可对该待处理视频进行视频抽帧处理，得到各个候选视频帧，并从候选视频帧中选择具有角色对象的视频帧作为目标视频帧。例如，视频抽帧得到的30个候选视频帧中存在15个候选视频帧具有角色对象，则将该15个角色对象的是候选视频帧作为目标视频帧。

步骤S204，对各目标视频帧分别进行目标检测，以确定各目标视频帧中出现的角色对象分别所处的角色区域。

其中，目标检测是指面对一个场景时，自动地对感兴趣区域进行处理而选择性的忽略不感兴趣区域(region ofinterest，简称ROI)。感兴趣区域称为主体区域，即为主体所在的区域，例如目标视频帧中的角色对象为主体，角色区域为感兴趣区域。

具体地，计算机设备分别对每个目标视频帧进行目标检测，得到每个目标视频帧中的每个角色对象所处的角色区域。

在一个实施例中，计算机设备将每个目标视频帧按照等比例调整为固定尺寸，并对固定尺寸的每个目标视频帧分别进行目标检测，得到每个目标视频帧中的每个角色对象所处的角色区域。

对于无法直接等比例调整为固定尺寸的目标视频帧，计算机设备将目标视频帧的长度等比例调整为固定长度，并将目标视频帧的高度等比例调整为对应高度，得到中间视频帧。将中间目标帧中的高度通过零像素补齐至固定宽度，从而获得固定长度和固定高度的目标视频帧。

例如，通过Mask RCNN确定各目标视频帧中出现的角色对象分别所处的角色区域，该Mask RCNN的固定尺寸为800*800像素。将目标视频帧按照等比例缩放为长度为800个像素，宽度补零至800个像素，得到800*800的目标视频帧。比如目标视频帧为400*200，等比例调整为800*400的中间视频帧，再利用零像素将宽度从400个像素补齐至800像素，得到800*800的目标视频帧。

步骤S206，确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息。

一个视频帧中可存在至少一个角色对象。当目标视频帧中存在一个角色对象时，确定该角色对象在目标视频帧中的关键位置信息。当目标视频帧中存在多个角色对象时，分别确定每个角色对象在目标视频帧中的关键位置信息。

关键位置信息具体可以是目标关键点在目标视频帧中对应的坐标信息。

具体地，对于每个角色对象的每个目标关键点，计算机设备确定目标关键点在相应目标视频帧中对应的关键位置信息。例如，计算机设备确定每个目标关键点在相应目标视频帧中的坐标信息。

步骤S208，基于关键位置信息，对由各角色对象所处的角色区域构成的图像分别进行对齐配准处理，得到与每个角色对象分别对应的预设尺寸的目标图像。

其中，对齐配准处理是指将两张或多张图像在空间位置的对准，以将不同时间、不同成像设备或不同条件下获取的两幅或多幅图像进行匹配、叠加的过程。目标图像可以是上半身图像、全身图像等，但不限于此。

具体地，对于目标视频帧中每个角色对象，确定每个角色对象在相应目标视频帧中所处的角色区域构成的图像。基于角色对象对应的目标关键点的关键位置信息，对该角色对象所处的角色区域所构成的图像进行对齐配准处理，以将该图像映射为预设尺寸的目标图像。按照相同的处理方式，可得到与每个角色对象分别对应的预设尺寸的目标图像。

步骤S210，基于目标图像进行角色识别，得到待处理视频中各角色对象分别对应的角色信息。

其中，角色信息包括角色对象对应的角色标识、影视名称、影视链接，以及角色对象对应的影视视频的预设播放渠道中的至少一种，但不限于此。角色标识具体可以是角色名称。

具体地，计算机设备基于预设尺寸的目标图像进行角色识别，得到每个目标图像中的角色对象分别对应的角色信息。

例如，角色信息为角色名称时，计算机设备基于预设尺寸的目标图像进行角色识别，得到每个目标图像中的角色对象在对应的影视视频中的角色名称。

本实施例中，获取待处理视频，并从待处理视频中提取出目标视频帧，对各目标视频帧分别进行目标检测，以准确确定各目标视频帧中出现的角色对象分别所处的角色区域。确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息，基于关键位置信息，能够准确将角色对象所处的角色区域构成的图像准确映射为预设尺寸的目标图像，以避免直接将图像的尺寸直接调整为固定尺寸所导致的长宽比例失真的问题。预设尺寸的目标图像中的角色对象长宽比例协调，基于该目标图像进行角色识别，能够准确获得待处理视频中各角色对象分别对应的角色信息。

在一个实施例中，如图3所示，对各目标视频帧分别进行目标检测，以确定各目标视频帧中出现的角色对象分别所处的角色区域，包括：

步骤S302，对各目标视频帧分别进行卷积处理，得到对应的视频帧特征。

具体地，计算机设备可对每个目标视频帧分别进行卷积处理，得到每个目标视频帧分别对应的视频帧特征。

在一个实施例中，计算机设备可将目标视频帧输入训练好的神经网络，例如ResNeXt，得到ResNeXt输出的每个目标视频帧分别对应的视频帧特征。

步骤S304，通过预设检测框分别在每个目标视频帧上滑动，得到每个目标视频帧分别对应的各候选框。

其中，候选框为目标视频帧中可能存在角色对象的图像区域。

具体地，计算机设备可使用预设检测框在目标视频帧上滑动，每滑动一次，可得到一个候选框。该候选框的尺寸跟预设检测框的尺寸相同，当使用预设检测框遍历完目标视频帧时，可得到该目标视频帧对应的多个候选框。按照相同的处理方式，可得到每个目标视频帧对应的多个候选框。

步骤S306，基于每个目标视频帧分别对应的各候选框，确定每个目标视频帧中出现的角色对象，并确定角色对象在相应目标视频帧中所处的角色区域。

具体地，计算机设备将候选框中的图像区域中的像素进行归一化，以判断候选框中的图像区域为前景区域或背景区域。前景区域即为角色对象所在的区域。

进一步地，计算机设备可确定每个候选框中的图像区域为前景区域的概率，当候选框中的图像区域为前景区域的概率大于概率阈值时，确定该候选框中存在角色对象，则将该候选框中的图像区域作为角色对象在相应目标视频帧中所处的角色区域。

本实施例中，对各目标视频帧分别进行卷积处理，得到对应的视频帧特征，通过预设检测框分别在每个目标视频帧上滑动，得到可能存在角色对象的各个候选框。基于每个目标视频帧分别对应的各候选框，能够准确识别出目标视频帧中的角色对象，以及角色对象在目标视频帧中所处的角色区域。

在一个实施例中，计算机设备还可以通过Faster RCNN、CenterNet等确定各目标视频帧中出现的角色对象分别所处的角色区域。

在一个实施例中，计算机设备通过Mask RCNN确定各目标视频帧中出现的角色对象分别所处的角色区域。具体地，计算机设备将目标视频帧输入到一个预训练好的神经网络中，例如ResNeXt网络等，获得对应的视频帧特征。对于视频帧特征中的每个关键点，将关键点为中心，设置预设数量的ROI，从而获得多个候选ROI。该预设数量的ROI的尺度不同，例如一个为7*7的ROI，一个为9*9的ROI，但不限于此。将各个候选ROI送入RPN(RegionProposal Network，区域生成网络)网络进行二值分类(前景或背景)和边框回归(Bounding-box regression，简称BB回归)，过滤掉一部分候选ROI。接着，对这些剩下的ROI进行ROIAlign操作，以映射得到固定尺寸的ROI。对各个固定尺寸的ROI进行进行全卷积操作，得到目标视频帧中每个角色对象所在的角色区域。

在一个实施例中，基于每个目标视频帧分别对应的各候选框，确定每个目标视频帧中出现的角色对象，并确定角色对象在相应目标视频帧中所处的角色区域，包括：

对于每个目标视频帧，根据相应目标视频帧分别对应的各候选框，确定相应目标视频帧中出现的角色对象；对于每个角色对象，放大相应角色对象所在的候选框的尺寸，将放大后的候选框所包含的区域作为角色对象在相应目标视频帧中所处的角色区域。

计算机设备将候选框中的图像区域中的像素进行归一化，以判断候选框中的图像区域为前景区域或背景区域。前景区域即为存在角色对象的区域。计算机设备确定每个存在角色对象的候选框后，将存在角色对象的候选框的尺寸在相应目标视频帧中放大，将放大后的候选框所包含的区域作为该角色对象在相应目标视频帧中所处的角色区域。按照相同的处理方式，可得到目标视频帧中的每个角色对象所处的角色区域。

在一个实施例中，对于每个角色对象，放大相应角色对象所在的候选框的尺寸，将放大后的候选框所包含的区域作为角色对象在相应目标视频帧中所处的角色区域，包括：

对于每个角色对象，确定角色对象所在的候选框的长度和宽度，将候选框的长度和宽度分别增加至预设长度和预设宽度，将预设长度和预设宽度的候选框所包含的区域，作为角色对象在相应目标视频帧中所处的角色区域。

本实施例中，基于每个目标视频帧分别对应的各候选框，能够准确识别出目标视频帧中的角色对象。对于每个角色对象，放大相应角色对象所在的候选框的尺寸，将放大后的候选框所包含的区域作为角色对象在相应目标视频帧中所处的角色区域，可准确确定完整的角色对象所在的区域，避免因候选框过小导致检测出的角色对象部分缺失的情况。

在一个实施例中，确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息，包括：

当角色对象在相应目标视频帧中存在目标部位时，对每个角色对象的目标部位分别进行特征点提取，得到各目标部位分别对应的目标关键点，确定目标关键点在相应目标视频帧中的关键位置信息；当角色对象在相应目标视频帧中不存在目标部位时，预测角色对象在相应视频帧中的目标部位，并预测目标部位的目标关键点在相应视频帧所对应的关键位置信息。

其中，目标部位可以是角色对象的头部、颈部、肩部、胸膛、手臂等部位，但不限于此，可根据需要设置。

具体地，计算机设备确定角色对象在相应目标视频帧中存在目标部位时，对于同一个角色对象对应的各目标部位，分别对每个目标部位进行特征点提取，得到各目标部位分别对应的目标关键点。计算机设备确定每个目标关键点在相应目标视频帧中的关键位置信息。

计算机设备确定角色对象在相应目标视频帧中不存在目标部位时，预测角色对象在相应视频帧中的目标部位，并预测目标部位的目标关键点。计算机设备预测各目标关键点在相应视频帧所对应的关键位置信息。

在一个实施例中，关键位置信息为目标关键点在目标视频帧中的坐标，当角色对象在相应目标视频帧中存在目标部位时，对每个角色对象的目标部位分别进行特征点提取，得到各目标部位分别对应的目标关键点，确定目标关键点在相应目标视频帧中的坐标；当角色对象在相应目标视频帧中不存在目标部位时，预测角色对象在相应视频帧中的目标部位，并预测目标部位的目标关键点在相应视频帧所对应的坐标。

在一个实施例中，当角色对象在相应目标视频帧中存在预设数量的目标部位时，对每个角色对象的目标部位分别进行特征点提取，得到各目标部位分别对应的目标关键点，确定目标关键点在相应目标视频帧中的关键位置信息；预设数量的目标部位为不同的部位；当角色对象在相应目标视频帧中不存在预设数量的目标部位时，预测角色对象在相应视频帧中的目标部位，并预测目标部位的目标关键点在相应视频帧所对应的关键位置信息。

例如，预设数量的目标部位包括头部、颈部、肩部和胸膛。关键位置信息为坐标。当角色对象在目标视频帧中存在头部、颈部、肩部和胸膛，分别提取头部、颈部、肩部和胸膛的特征点，得到对应的目标关键点，并确定每个目标关键点在目标视频帧中的坐标。当角色对象在目标视频帧中存在头部和颈部，但不存在肩部和胸膛时，分别提取头部和颈部的特征点，得到对应的目标关键点，并确定每个目标关键点在目标视频帧中的坐标。并且，预测肩部和胸膛在目标视频帧中的关键点位置，并确定各关键点位置在目标视频帧中的坐标。

在一个实施例中，利用SDM算法(Supervised Descent Method，有监督梯度下降法)对角色对象的目标部位分别进行特征点提取，得到各目标部位分别对应的目标关键点，并得到目标关键点的关键位置信息。对不存在目标部位的角色对象，预测各目标部位，及各目标部位的目标关键点，以及各个目标关键点的关键位置信息。

在其他实施例中，还可以通过AlphaPose算法实现目标关键点的关键位置信息的确定。

本实施例中，对于存在目标部位的角色对象，对目标部位分别进行特征点提取，以得到各目标部位分别对应的目标关键点，从而准确确定目标关键点在相应目标视频帧中的关键位置信息。对于不存在目标部位的角色对象，预测角色对象的目标部位、目标部位的目标关键点，以及目标关键点的关键位置信息，从而能够对角色对象的各个目标部位进行补充，以便后续对角色对象进行配准处理。

在一个实施例中，基于关键位置信息，对由各角色对象所处的角色区域构成的图像分别进行对齐配准处理，得到与每个角色对象分别对应的预设尺寸的目标图像，包括：

获取预设模板中各预设特征点分别对应的预设位置信息；根据每个角色对象的目标关键点对应的关键位置信息和各预设特征点的预设位置信息，确定每个角色对象和预设模板之间的映射关系；基于每个角色对象所对应的映射关系，将相应角色对象所处的角色区域构成的图像调整为预设尺寸的目标图像。

具体地，计算机设备可预先设置预设模板，该预设模板为预设尺寸，例如预设尺寸为128*256。该预设模板中可包括预设特征点和各预设特征点分别对应的预设位置信息。计算机设备将角色对象的各目标关键点和各预设特征点进行匹配处理，根据相匹配的目标关键点的关键位置信息，和相匹配的预设特征点的预设位置信息，计算该角色对象和预设模板之间的映射关系。基于该角色对象与预设模板之间的映射关系，计算机设备将该角色对象所处的角色区域构成的图像中各像素映射至与预设模版相同的空间布局，从而得到预设尺寸的目标图像。对于每个角色对象，均按照相同的处理，可得到每个角色对象分别与预设模板之间的映射关系，再根据每个角色对象对应的映射关系，可将相应角色对象所处的角色区域构成的图像映射为预设尺寸的目标图像。

在一个实施例中，该预设模板中的各预设特征点对应各自的关键位置信息，没有对应的像素。在其他实施例中，各预设特征点可对应像素，各像素均为0。

在一个实施例中，对于角色对象所处的角色区域构成的图像，将角色对象的各目标关键点和各预设特征点进行匹配处理，包括：对于角色对象所处的角色区域构成的图像，将角色对象的目标部位对应的各目标关键点和预设模板中的目标部位对应的各预设特征点进行匹配处理。例如，将角色对象的头部关键点和预设模板中的头部特征点进行匹配、将角色对象的颈部关键点和预设模板中的颈部特征点进行匹配。

在一个实施例中，该预设模板可为预设尺寸的预设图像，该预设图像中包含预设对象。预设特征点为在预设对象的目标部位提取的关键特征点。计算机设备可将角色对象的各目标部位对应的目标关键点和预设对象的相应目标部位对应的预设特征点进行匹配，根据相匹配的目标关键点的坐标信息和预设特征点的坐标信息，计算出角色对象和预设对象之间的映射关系。基于映射关系将角色对象所处的角色区域构成的图像中的各像素，映射至与预设图像相同的图像空间，得到预设尺寸的目标图像。

本实施例中，获取预设模板中各预设特征点分别对应的预设位置信息，根据每个角色对象的目标关键点对应的关键位置信息和各预设特征点的预设位置信息，能够准确确定每个角色对象和预设模板之间的映射关系。基于每个角色对象所对应的映射关系，将相应角色对象所处的角色区域构成的图像准确调整为预设尺寸的目标图像，从而能够将各角色对象均准确映射为预设尺寸的目标图像，以避免直接将图像的尺寸直接调整为固定尺寸所导致的长宽比例失真的问题。

在一个实施例中，基于每个角色对象所对应的映射关系，将相应角色对象所处的角色区域构成的图像调整为预设尺寸的目标图像，包括：

对于每个角色对象，当角色对象在相应目标视频帧中存在目标部位时，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像直接映射为预设尺寸的目标图像；当角色对象在相应目标视频帧中不存在目标部位时，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像映射为预设尺寸的目标图像中的一部分，并将目标图像中的其余像素通过零像素补齐，得到预设尺寸的目标图像。

具体地，确定每个角色对象分别与预设模板之间的映射关系后，确定各角色对象在相应目标视频帧中是否存在目标部位。确定角色对象在相应目标视频帧中存在目标部位时，基于角色对象对应的映射关系，将该角色对象所处的角色区域构成的图像直接映射为预设尺寸的目标图像。该角色对象在相应目标视频帧中不存在目标部位时，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像映射为预设尺寸的目标图像中的一部分，并将目标图像中的其余像素通过零像素补齐，得到预设尺寸的目标图像。零像素是指像素值为零的像素。

在一个实施例中，预设尺寸可为128*256，当预设模板中存在预设对象的头部、颈部、肩部和胸膛对应的预设特征点，角色对象在目标视频帧中存在头部、颈部、肩部和胸膛，基于该角色对象和预设对象之间的映射关系，将角色对象的头部、颈部、肩部和胸膛的像素，直接映射为目标图像中的头部、颈部、肩部和胸膛的像素，得到128*256的目标图像。当角色对象在目标视频帧中存在头部和颈部，但不存在肩部和胸膛时，基于该角色对象和预设对象之间的映射关系，将角色对象的头部和颈部的像素，映射为128*256的目标图像中的头部和颈部的像素，并将该128*256的目标图像中的其余像素通过零像素补齐，即将128*256的目标图像中的肩部和胸膛等部位的像素用0补齐，得到128*256的目标图像。

本实施例中，对于存在目标部位的角色对象，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像直接映射为预设尺寸的目标图像，从而能够直接将角色对象映射为固定尺寸的目标图像，并且所得到的预设尺寸的目标图像中的角色对象的长宽比例能够保持协调。对于不存在目标部位的角色对象，当角色对象在相应目标视频帧中不存在目标部位时，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像映射为预设尺寸的目标图像中的一部分，并将目标图像中的其余像素通过零像素补齐，使得预设尺寸的目标图像中的角色对象的长宽比例保持协调，保证预设尺寸的目标图像中的角色对象的清晰度，能够提高对角色对象识别的准确性。

在一个实施例中，如图4，基于目标图像进行角色识别，得到待处理视频中各角色对象分别对应的角色信息，包括：

步骤S402，针对每个角色对象分别对应的预设尺寸的目标图像，通过特征提取网络对目标图像进行卷积处理，得到对应的图像特征。

具体地，计算机设备将每个角色对象分别对应的预设尺寸的目标图像输入特征提取网络。特征提取网络分别对每个预设尺寸的目标图像进行卷积处理，得到每个目标图像分别对应的图像特征。

在一个实施例中，特征提取网络可以是以Resnet50为骨干的分类网络，还可以是Vgg、Resnet101，但不限于此。以Resnet50为骨干的分类网络，是采用softmax交叉熵损失函数和triplet损失函数，作为目标损失函数，以训练得到特征提取网络。

步骤S404，对图像特征进行池化处理，得到相应的池化特征。

具体地，对于每个目标图像分别对应的图像特征，特征提取网络分别对同一目标图像对应的图像特征进行池化处理，得到该目标图像对应的池化特征。进一步地，一个目标图像可卷积得到多个图像特征。特征提取网络对一个目标图像对应的多个图像特征进行池化处理，得到该目标图像对应的至少一个池化特征。

在一个实施例中，特征提取网络对目标图像的图像特征进行平均池化处理，得到该目标图像对应的池化特征。

步骤S406，对池化特征进行残差处理，并将残差处理所得到的特征和相应的图像特征进行融合，得到各角色对象分别对应的目标特征向量。

具体地，特征提取网络对同一目标图像对应的池化特征进行残差处理，得到残差处理后的特征。将残差处理所得到的特征和该同一目标图像对应的图像特征进行融合处理，得到该同一目标图像对应的目标特征向量，该目标特征向量即为该目标图像中的角色对象对应的目标特征向量。按照相同的处理方式，可得到每个角色对象分别对应的目标特征向量。

步骤S408，基于各角色对象分别对应的目标特征向量，确定各角色对象分别对应的角色信息。

具体地，计算机设备基于各角色对象分别对应的目标特征向量和预设特征向量之间的特征相似度，确定各角色对象分别对应的角色信息。

本实施例中，特征提取网络的输入图像为预设尺寸，则在角色对象输入特征提取网络之前，将角色对象在相应视频帧中所处角色区域构成的图像映射为预设尺寸的目标图像，使得包含角色对象的目标图像的尺寸满足特征提取网络的输入图像的尺寸，避免输入不满足尺寸要求的图像后，特征识别网络直接拉长图像的长度和宽度至预设尺寸，导致图像的长宽比例失真，从而导致特征提取网络的识别效果较的问题。

在一个实施例中，基于各角色对象分别对应的目标特征向量，确定各角色对象分别对应的角色信息，包括：

对于每个角色对象所对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的特征相似度，得到相应角色对象所对应的至少一个特征相似度；对于每个角色对象，确定相对应的至少一个特征相似度中满足相似度条件的特征相似度所对应的目标预设特征向量，并将目标预设特征向量所对应的角色信息，作为相应角色对象所对应的角色信息。

其中，相似度条件可以是多个特征相似度中存在最大值，或者存在特征相似度大于相似度阈值。

具体地，计算机设备获取预设特征向量，该预设特征向量是预先从各个角色对象中提取的，各个角色对象的预设特征向量和对应的角色信息关联存储。对于特征提取网络提取的每个角色对象所对应的目标特征向量，计算机设备分别计算角色对象的目标特征向量和每个预设特征向量之间的特征相似度，得到该角色对象所对应的至少一个特征相似度。计算机设备可确定该角色对象所对应的至少一个特征相似度中是否存在满足相似度条件的特征相似度，存在则将满足相似度条件的特征相似度对应的目标预设特征向量所对应的角色信息，作为该角色对象所对应的角色信息。

按照相同的处理方式，可得到每个角色对象分别对应的特征相似度，从而得到每个角色对象对应的角色信息。

在一个实施例中，当该角色对象所对应的至少一个特征相似度中，不存在满足相似度条件的特征相似度时，判定识别失败，即无法识别出该角色对象的角色信息。

本实施例中，对于每个角色对象所对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的特征相似度，得到相应角色对象所对应的至少一个特征相似度，从而能够基于满足相似度条件的特征相似度，准确识别出每个角色对象分别对应的角色信息。

在一个实施例中，如图5所示，对于每个角色对象所对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的特征相似度，得到相应角色对象所对应的至少一个特征相似度，包括步骤S502。

步骤S502，对于每个角色对象对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的欧式距离，得到相应角色对象所对应的至少一个欧式距离。

具体地，特征相似度可通过欧式距离表征。对于特征提取网络提取的每个角色对象所对应的目标特征向量，计算机设备分别计算角色对象的目标特征向量和每个预设特征向量之间的欧式距离，得到该角色对象所对应的至少一个欧式距离。

对于每个角色对象，确定相对应的至少一个特征相似度中满足相似度条件的特征相似度所对应的目标预设特征向量，包括步骤S504和步骤S506。

其中，步骤S504，对于每个角色对象，确定相对应的至少一个欧氏距离中的最小欧式距离。

步骤S506，当最小欧式距离小于距离阈值时，将最小欧式距离所对应的预设特征向量，作为目标预设特征向量。

具体地，计算机设备确定该角色对象所对应的至少一个欧式距离中的最小欧氏距离，并获取距离阈值。当最小欧式距离小于该距离阈值时，将最小欧式距离所对应的预设特征向量，作为目标预设特征向量，从而将该目标预设特征向量所对应的角色信息，作为该角色对象所对应的角色信息。

按照相同的处理方式，可得到每个角色对象分别对应的欧式距离，从而得到每个角色对象对应的目标预设特征向量。

本实施例中，计算角色对象的目标特征向量和每个预设特征向量之间的欧式距离，在最小欧式距离小于距离阈值的情况下，将最小欧式距离作为角色对象对应的目标预设特征向量，从而能够根据欧式距离准确识别出每个角色对象对应的角色信息。

在一个实施例中，特征相似度可通过余弦相似度表征。对于每个角色对象所对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的特征相似度，得到相应角色对象所对应的至少一个特征相似度，包括：对于每个角色对象对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的余弦相似度，得到相应角色对象所对应的至少一个余弦相似度；

对于每个角色对象，确定相对应的至少一个特征相似度中满足相似度条件的特征相似度所对应的目标预设特征向量，包括：对于每个角色对象，确定相对应的至少一个余弦相似度中的最大余弦相似度；当最大余弦相似度大于相似度阈值时，将最大余弦相似度所对应的预设特征向量，作为目标预设特征向量。

在一个实施例中，该角色信息包括角色对象对应的影视名称和影视链接中的至少一种；该方法还包括：

获取浏览过待处理视频的各用户账号，并分别计算各用户账号与待处理视频之间的相关度；将角色对象对应的影视名称和影视链接中的至少一种，推送给满足相关度条件的相关度所对应的用户账号。

具体地，该角色信息包括角色对象对应的影视名称和影视链接中的至少一种。终端上安装应用程序，用户可通过用户账号登录应用程序，从而在应用程序中浏览待处理视频。计算机设备获取浏览过待处理视频的各个用户账号，并分别计算各用户账号与待处理视频之间的相关度，并从各用户账号中筛选出满足相关度条件的用户账号。将该角色对象对应的影视名称和影视链接中的至少一种，推送给满足相关度条件的相关度所对应的用户账号。

在一个实施例中，计算用户账号与待处理视频之间的相关度，包括：获取用户账户对待处理视频的互动评论、浏览时间和浏览次数，根据互动评论、浏览时间和浏览次数，计算用户账号和待处理视频之间的相关度。

本实施例中，用户账号和待处理视频的相关度越高，表示用户对待处理视频、或者待处理视频中的某部分内容越感兴趣，则将角色对象对应的影视名称和影视链接中的至少一种推送给感兴趣的用户，从而能够实现视频的精准推荐。

在一个实施例中，如图6所示，提供了一种角色识别方法，应用于计算机设备，并具体应用于视频推送场景，包括：

步骤S602，视频抽帧。

计算机设备获取用户账号A浏览的混剪视频，该混剪视频由同一个演员在不同的电视剧、电影和综艺中饰演的角色片段拼接得到。计算机设备对该混剪视频按照每2秒抽取视频帧，得到多个目标视频帧。

步骤S604，人身检测并截取。

该Mask RCNN网络是利用人身检测样本数据进行训练得到，其输入为固定尺寸800*800像素的图像。计算机设备将各个目标视频帧，将每个目标视频帧按照等比例缩放成最长边为800个像素，短边补零到800个像素，得到各个800*800的目标视频帧。将各个800*800的目标视频帧输入到Mask RCNN网络中，Mask RCNN网络预测每个目标视频帧中可能存在角色对象的人身矩形坐标的检测框。根据检测框进行图像裁剪，得到最终包含角色对象的人身图像。该人身图像可为人脸图像、包含肩部及肩部以上部位的图像、上半身图像或全身图像。将所有人身图像记为数据集I。

步骤S606，头肩关键点定位。

利用SDM算法(Supervised Descent Method，有监督梯度下降法)对数据集I中的各个人身图像进行头肩关键点定位，定位出头部、颈部、肩部关键点的坐标信息。对于只存在头部的人身图像，确定头部关键点的坐标信息，并预测出颈部、肩部关键点的坐标信息。对于存在头部和颈部的人身图像，确定头部关键点和颈部关键点的坐标信息，并预测出肩部关键点的坐标信息。每张人身图像对应一组头肩关键点坐标信息，将全体头肩关键点信息记为L。

步骤S608，人身图像对齐配准。

利用步骤S606中的头肩关键点信息L，将步骤S604中的人身图像I进行对齐配准处理，得到一幅新的对齐之后的目标人身图像。具体是通过头肩关键点信息L判断人身图像I是否为全身图像，对于半身图像能够通过Padding黑边补齐的方式，得到高度为256，宽度为128的目标人身图像。该目标人身图像可为全身图像。将所以目标人身图像记为M。

步骤S610，人身图像特征提取。

特征提取网络是用以Resnet50为骨干的分类网络，利用人身数据进行训练得到，其输入为固定尺寸128*256。计算机设备将步骤S608中经过对齐配准之后得到的目标人身图像M，输入到特征提取网络，能够得到一个512维的特征向量embedding。每张目标人身图像对应一个特征向量embedding，该向量可以理解为该目标人身图像所对应影视剧角色的特征属性。所有目标人身图像经过特征提取网络所得到的所有embedding记为E。

步骤S612，角色名称搜索。

对于在实际业务线中需要进行识别的影视角色名称，预先在人工参与下，收集对应角色名称的影视视频数据，并预先通过上述步骤S602、步骤S604、步骤S608和步骤S610的相应处理，获取每一个角色对象的特征向量embedding，每一个角色名称可以对应1个或者多个特征向量embedding，所有角色名称的所有特征向量记为E2，并称之为注册库，注册库E2中特向向量embedding的个数称之为注册库大小，记为n。

上述混剪视频经过步骤S610之后可以得到一个特征向量集合E，对于E中的某一个特征向量e，都能够和注册库中的全体特征向量E2中的每一个embedding求算出欧式距离，也即能够得到n个距离，分别为d1，d2，…，dn。分别求出n个距离中的最小距离，记为dk(1≤k≤n)；当dk小于阈值t，则认为该特征向量e对应第k个角色名称，即该特征向量e对应的角色对象即为第k个角色。当dk大于或等于阈值t，则认为该特征向量e为无效识别。

步骤S614，视频推送。

获得每个角色对象的角色名称后，可根据该角色名称确定对应的影视名称，将该影视名称或影视链接推送至用户账号A。还可以将与该角色名称对应的其它视频推送给用户账号A，以实现视频的精准推送。

本实施例中，对视频数据进行抽帧，对于每一帧利用人身检测算法获取包含人身目标的最小矩形框坐标，在此区域内利用头肩关键点算法，预测输出头肩关键点坐标。再利用头肩关键点坐标，将人身图像对齐配准到统一尺度，对于在画面中非全身(比如大头照图像、头肩图像、半身图像)的人身图像以填充(padding)黑色边界的方式补偿之后，可以得到一幅固定尺寸人身图像。将固定尺寸的人身图像作为输入图像，参考行人再识别(ReID)技术，以Resnet50作为模型骨干网络，提取角色Embedding特征，从而能够不参考视频标题、字幕、旁白等信息，单纯从图像的角度快速识别出一段短视频或影视剧中的角色对象。并且，本实施例中经过配准处理得到人身图像，能够避免直接将影视剧中的非全身图像作为输入导致图像长宽比例失真问题，保证了图像中的角色对象的比例协调，从而使得提取的Embedding用于识别具有更好的区分性，实现更具备鲁棒性的影视角色识别效果。

并且，实施例中以半身图像或全身图像作为特征提取网络的输入，同一个人穿着不同服饰，不同人穿着相近的服饰，都可以理解为不同的角色，以预先存储对应的特征向量，能够有效避免同一个演员出演多部影视剧，人脸识别无法确定角色名称的问题。半身图像或全身图像的像素占比相比于人脸有明显提高，在一定程度上也能够解决人脸较模糊而无法保证召回的问题。

在一个实施例中，该方法还包括：获取待处理视频的播放渠道；当基于角色信息确定播放渠道不具备播放权限时，删除播放渠道下的待处理视频，并对传播待处理视频的用户账号进行处理。

具体地，角色信息包括该角色对象对应的影视视频的预设播放渠道，预设播放渠道具有该影视视频的播放权限。计算机设备确定待处理视频中的角色对象对应的影视视频的预设播放渠道后，获取待处理视频的播放渠道，将待处理视频的播放渠道和预设播放渠道比较，确定该待处理视频的播放渠道是否属于预设播放渠道。当待处理视频的播放渠道属于预设播放渠道时，判定该播放渠道具备播放权限。当待处理视频的播放渠道不属于预设播放渠道时，判定该播放渠道具备不播放权限，则表示该播放渠道在没有权限的情况下播放待处理视频，则计算机设备删除该播放渠道下的待处理视频。计算机设备获取传播该待处理视频的用户账号，并举报传播该待处理视频的用户账号，或者对传播该待处理视频的用户账号进行提示。

本实施例中，获取待处理视频的播放渠道，当基于角色信息确定播放渠道不具备播放权限时，表示该待处理视频为盗录视频、或者该播放渠道为不正规播放渠道，删除播放渠道下的待处理视频，并对传播待处理视频的用户账号进行处理，避免盗录视频大规模传播，从而能够有效保护视频的版权和视频的播放权限。

在一个实施例中，如图7所示，提供了一种角色识别方法，应用于计算机设备，包括：

步骤S702，计算机设备获取待处理视频，并从待处理视频中提取出目标视频帧。

步骤S704，计算机设备对各目标视频帧分别进行卷积处理，得到对应的视频帧特征；通过预设检测框分别在每个目标视频帧上滑动，得到每个目标视频帧分别对应的各候选框；对于每个目标视频帧，根据相应目标视频帧分别对应的各候选框，确定相应目标视频帧中出现的角色对象。

步骤S706，对于每个角色对象，计算机设备放大相应角色对象所在的候选框的尺寸，将放大后的候选框所包含的区域作为角色对象在相应目标视频帧中所处的角色区域。

步骤S708，当角色对象在相应目标视频帧中存在目标部位时，对每个角色对象的目标部位分别进行特征点提取，得到各目标部位分别对应的目标关键点，确定目标关键点在相应目标视频帧中的关键位置信息。

步骤S710，当角色对象在相应目标视频帧中不存在目标部位时，预测角色对象在相应视频帧中的目标部位，并预测目标部位的目标关键点在相应视频帧所对应的关键位置信息。

步骤S712，计算机设备获取预设模板中各预设特征点分别对应的预设位置信息；根据每个角色对象的目标关键点对应的关键位置信息和各预设特征点的预设位置信息，确定每个角色对象和预设模板之间的映射关系。

步骤S714，对于每个角色对象，当角色对象在相应目标视频帧中存在目标部位时，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像直接映射为预设尺寸的目标图像。

步骤S716，当角色对象在相应目标视频帧中不存在目标部位时，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像映射为预设尺寸的目标图像中的一部分，并将目标图像中的其余像素通过零像素补齐，得到预设尺寸的目标图像。

步骤S718，针对每个角色对象分别对应的预设尺寸的目标图像，通过特征提取网络对目标图像进行卷积处理，得到对应的图像特征；对图像特征进行池化处理，得到相应的池化特征；对池化特征进行残差处理，并将残差处理所得到的特征和相应的图像特征进行融合，得到各角色对象分别对应的目标特征向量。

步骤S720，对于每个角色对象对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的欧式距离，得到相应角色对象所对应的至少一个欧式距离；对于每个角色对象，确定相对应的至少一个欧氏距离中的最小欧式距离。

步骤S722，当最小欧式距离小于距离阈值时，计算机设备将最小欧式距离所对应的预设特征向量，作为目标预设特征向量，并将目标预设特征向量所对应的角色信息，作为相应角色对象所对应的角色信息。

步骤S724，角色信息包括角色对象对应的影视名称和影视链接中的至少一种；获取浏览过待处理视频的各用户账号，并分别计算各用户账号与待处理视频之间的相关度。计算机设备将角色对象对应的影视名称和影视链接中的至少一种，推送给满足相关度条件的相关度所对应的用户账号。

步骤S726，计算机设备获取待处理视频的播放渠道；当基于角色信息确定播放渠道不具备播放权限时，删除播放渠道下的待处理视频，并对传播待处理视频的用户账号进行处理。

本实施例中，获取待处理视频，并从待处理视频中提取出目标视频帧，对各目标视频帧分别进行卷积处理，得到对应的视频帧特征，通过预设检测框分别在每个目标视频帧上滑动，得到可能存在角色对象的各个候选框。基于每个目标视频帧分别对应的各候选框，能够准确识别出目标视频帧中的角色对象，以及角色对象在目标视频帧中所处的角色区域。

根据每个角色对象的目标关键点对应的关键位置信息和各预设特征点的预设位置信息，能够准确确定每个角色对象和预设模板之间的映射关系。基于每个角色对象所对应的映射关系，将相应角色对象所处的角色区域构成的图像准确调整为预设尺寸的目标图像，从而能够将各角色对象均准确映射为预设尺寸的目标图像，以避免直接将图像的尺寸直接调整为固定尺寸所导致的长宽比例失真的问题。预设尺寸的目标图像中的角色对象长宽比例协调，基于该目标图像进行角色识别，能够准确获得待处理视频中各角色对象分别对应的角色信息。

用户账号和待处理视频的相关度越高，表示用户对待处理视频、或者待处理视频中的某部分内容越感兴趣，则将角色对象对应的影视名称和影视链接中的至少一种推送给感兴趣的用户，从而能够实现视频的精准推荐。

并且，当基于角色信息确定播放渠道不具备播放权限时，表示该待处理视频为盗录视频、或者该播放渠道为不正规播放渠道，删除播放渠道下的待处理视频，并对传播待处理视频的用户账号进行处理，避免盗录视频大规模传播，从而能够有效保护视频的版权和视频的播放权限。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种角色识别装置800，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块802、检测模块804、确定模块806、配准模块808和识别模块810，其中：

获取模块802，用于获取待处理视频，并从待处理视频中提取出目标视频帧。

检测模块804，用于对各目标视频帧分别进行目标检测，以确定各目标视频帧中出现的角色对象分别所处的角色区域。

确定模块806，用于确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息。

配准模块808，用于基于关键位置信息，对由各角色对象所处的角色区域构成的图像分别进行对齐配准处理，得到与每个角色对象分别对应的预设尺寸的目标图像。

识别模块810，用于基于目标图像进行角色识别，得到待处理视频中各角色对象分别对应的角色信息。

在一个实施例中，检测模块804，还用于对各目标视频帧分别进行卷积处理，得到对应的视频帧特征；通过预设检测框分别在每个目标视频帧上滑动，得到每个目标视频帧分别对应的各候选框；基于每个目标视频帧分别对应的各候选框，确定每个目标视频帧中出现的角色对象，并确定角色对象在相应目标视频帧中所处的角色区域。

在一个实施例中，检测模块804，还用于对于每个目标视频帧，根据相应目标视频帧分别对应的各候选框，确定相应目标视频帧中出现的角色对象；对于每个角色对象，放大相应角色对象所在的候选框的尺寸，将放大后的候选框所包含的区域作为角色对象在相应目标视频帧中所处的角色区域。

在一个实施例中，确定模块806，还用于当角色对象在相应目标视频帧中存在目标部位时，对每个角色对象的目标部位分别进行特征点提取，得到各目标部位分别对应的目标关键点，确定目标关键点在相应目标视频帧中的关键位置信息；当角色对象在相应目标视频帧中不存在目标部位时，预测角色对象在相应视频帧中的目标部位，并预测目标部位的目标关键点在相应视频帧所对应的关键位置信息。

在一个实施例中，配准模块808，还用于获取预设模板中各预设特征点分别对应的预设位置信息；根据每个角色对象的目标关键点对应的关键位置信息和各预设特征点的预设位置信息，确定每个角色对象和预设模板之间的映射关系；基于每个角色对象所对应的映射关系，将相应角色对象所处的角色区域构成的图像调整为预设尺寸的目标图像。

在一个实施例中，配准模块808，还用于对于每个角色对象，当角色对象在相应目标视频帧中存在目标部位时，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像直接映射为预设尺寸的目标图像；当角色对象在相应目标视频帧中不存在目标部位时，基于角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像映射为预设尺寸的目标图像中的一部分，并将目标图像中的其余像素通过零像素补齐，得到预设尺寸的目标图像。

在一个实施例中，识别模块810，还用于针对每个角色对象分别对应的预设尺寸的目标图像，通过特征提取网络对目标图像进行卷积处理，得到对应的图像特征；对图像特征进行池化处理，得到相应的池化特征；对池化特征进行残差处理，并将残差处理所得到的特征和相应的图像特征进行融合，得到各角色对象分别对应的目标特征向量；基于各角色对象分别对应的目标特征向量，确定各角色对象分别对应的角色信息。

在一个实施例中，识别模块810，还用于对于每个角色对象所对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的特征相似度，得到相应角色对象所对应的至少一个特征相似度；对于每个角色对象，确定相对应的至少一个特征相似度中满足相似度条件的特征相似度所对应的目标预设特征向量，并将目标预设特征向量所对应的角色信息，作为相应角色对象所对应的角色信息。

在一个实施例中，识别模块810，还用于对于每个角色对象对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的欧式距离，得到相应角色对象所对应的至少一个欧式距离；对于每个角色对象，确定相对应的至少一个欧氏距离中的最小欧式距离；当最小欧式距离小于距离阈值时，将最小欧式距离所对应的预设特征向量，作为目标预设特征向量。

在一个实施例中，如图9所示，提供了一种角色识别装置900，该装置具体包括：获取模块902、检测模块904、确定模块906、配准模块908、识别模块910和推送模块912。其中，获取模块902、检测模块904、确定模块906、配准模块908和识别模块910的描述，参见图8中获取模块802、检测模块804、确定模块806、配准模块808和识别模块810的描述；

该推送模块912，用于获取浏览过待处理视频的各用户账号，并分别计算各用户账号与待处理视频之间的相关度；将角色对象对应的影视名称和影视链接中的至少一种，推送给满足相关度条件的相关度所对应的用户账号。

在一个实施例中，该装置900还包括：处理模块914；处理模块914，用于获取待处理视频的播放渠道；当基于角色信息确定播放渠道不具备播放权限时，删除播放渠道下的待处理视频，并对传播待处理视频的用户账号进行处理。

关于角色识别装置的具体限定可以参见上文中对于角色识别方法的限定，在此不再赘述。上述角色识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器。本实施例以该计算机设备为终端为例进行说明，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种角色识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种角色识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对各所述目标视频帧分别进行目标检测，以确定各所述目标视频帧中出现的角色对象分别所处的角色区域，包括：

对各所述目标视频帧分别进行卷积处理，得到对应的视频帧特征；

通过预设检测框分别在每个所述目标视频帧上滑动，得到每个所述目标视频帧分别对应的各候选框；

基于每个所述目标视频帧分别对应的各候选框，确定每个所述目标视频帧中出现的角色对象，并确定所述角色对象在相应目标视频帧中所处的角色区域。

3.根据权利要求2所述的方法，其特征在于，所述基于每个所述目标视频帧分别对应的各候选框，确定每个所述目标视频帧中出现的角色对象，并确定所述角色对象在相应目标视频帧中所处的角色区域，包括：

对于每个所述目标视频帧，根据相应目标视频帧分别对应的各候选框，确定相应目标视频帧中出现的角色对象；

对于每个角色对象，放大相应角色对象所在的候选框的尺寸，将放大后的候选框所包含的区域作为所述角色对象在相应目标视频帧中所处的角色区域。

4.根据权利要求1所述的方法，其特征在于，所述确定每个角色对象的目标关键点在相应目标视频帧中的关键位置信息，包括：

当所述角色对象在相应目标视频帧中存在目标部位时，对每个角色对象的目标部位分别进行特征点提取，得到各目标部位分别对应的目标关键点，确定所述目标关键点在相应目标视频帧中的关键位置信息；

当所述角色对象在相应目标视频帧中不存在目标部位时，预测所述角色对象在相应视频帧中的目标部位，并预测所述目标部位的目标关键点在相应视频帧所对应的关键位置信息。

5.根据权利要求1所述的方法，其特征在于，所述基于所述关键位置信息，对由各所述角色对象所处的角色区域构成的图像分别进行对齐配准处理，得到与每个角色对象分别对应的预设尺寸的目标图像，包括：

获取预设模板中各预设特征点分别对应的预设位置信息；

根据每个角色对象的目标关键点对应的关键位置信息和各所述预设特征点的预设位置信息，确定每个所述角色对象和所述预设模板之间的映射关系；

基于每个角色对象所对应的映射关系，将相应角色对象所处的角色区域构成的图像调整为预设尺寸的目标图像。

6.根据权利要求5所述的方法，其特征在于，所述基于每个角色对象所对应的映射关系，将相应角色对象所处的角色区域构成的图像调整为预设尺寸的目标图像，包括：

对于每个角色对象，当所述角色对象在相应目标视频帧中存在目标部位时，基于所述角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像直接映射为预设尺寸的目标图像；

当所述角色对象在相应目标视频帧中不存在目标部位时，基于所述角色对象对应的映射关系，将相应角色对象所处的角色区域构成的图像映射为预设尺寸的目标图像中的一部分，并将所述目标图像中的其余像素通过零像素补齐，得到预设尺寸的目标图像。

7.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像进行角色识别，得到所述待处理视频中各所述角色对象分别对应的角色信息，包括：

针对每个角色对象分别对应的预设尺寸的目标图像，通过特征提取网络对所述目标图像进行卷积处理，得到对应的图像特征；

对所述图像特征进行池化处理，得到相应的池化特征；

对所述池化特征进行残差处理，并将残差处理所得到的特征和相应的图像特征进行融合，得到各所述角色对象分别对应的目标特征向量；

基于各所述角色对象分别对应的目标特征向量，确定各所述角色对象分别对应的角色信息。

8.根据权利要求7所述的方法，其特征在于，所述基于各所述角色对象分别对应的目标特征向量，确定各所述角色对象分别对应的角色信息，包括：

对于每个角色对象所对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的特征相似度，得到相应角色对象所对应的至少一个特征相似度；

对于每个角色对象，确定相对应的至少一个特征相似度中满足相似度条件的特征相似度所对应的目标预设特征向量，并将所述目标预设特征向量所对应的角色信息，作为相应角色对象所对应的角色信息。

9.根据权利要求8所述的方法，其特征在于，所述特征相似度通过欧氏距离表征；所述对于每个角色对象所对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的特征相似度，得到相应角色对象所对应的至少一个特征相似度，包括：

对于每个角色对象对应的目标特征向量，分别计算目标特征向量和每个预设特征向量之间的欧式距离，得到相应角色对象所对应的至少一个欧式距离；

所述对于每个角色对象，确定相对应的至少一个特征相似度中满足相似度条件的特征相似度所对应的目标预设特征向量，包括：

对于每个角色对象，确定相对应的至少一个欧氏距离中的最小欧式距离；

当所述最小欧式距离小于距离阈值时，将所述最小欧式距离所对应的预设特征向量，作为目标预设特征向量。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述角色信息包括所述角色对象对应的影视名称和影视链接中的至少一种；所述方法还包括：

获取浏览过所述待处理视频的各用户账号，并分别计算各用户账号与所述待处理视频之间的相关度；

将所述角色对象对应的影视名称和影视链接中的至少一种，推送给满足相关度条件的相关度所对应的用户账号。

11.根据权利要求1至9任意一项所述的方法，其特征在于，所述方法还包括：

获取所述待处理视频的播放渠道；

当基于所述角色信息确定所述播放渠道不具备播放权限时，删除所述播放渠道下的所述待处理视频，并对传播所述待处理视频的用户账号进行处理。

12.一种角色识别装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述检测模块，还用于对各所述目标视频帧分别进行卷积处理，得到对应的视频帧特征；通过预设检测框分别在每个所述目标视频帧上滑动，得到每个所述目标视频帧分别对应的各候选框；基于每个所述目标视频帧分别对应的各候选框，确定每个所述目标视频帧中出现的角色对象，并确定所述角色对象在相应目标视频帧中所处的角色区域。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。