CN114286198B

CN114286198B - 一种视频关联方法、装置、电子设备和存储介质

Info

Publication number: CN114286198B
Application number: CN202111649891.XA
Authority: CN
Inventors: 毕泊
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-11-10
Anticipated expiration: 2041-12-30
Also published as: CN114286198A

Abstract

本申请提供一种视频关联方法、装置、电子设备和存储介质，其中，方法包括：获取第一视频中的第一人物特征和第二视频中的第二人物特征；其中，所述第一视频的视频来源已知，所述第二视频的视频来源未知；对所述第一人物特征和所述第二人物特征进行相似度比较，获得第一比较结果；在所述第一比较结果表征所述第二视频包括所述第一视频的视频片段的情况下，生成所述第一视频和所述第二视频的第一关联信息。通过提取第一视频中的第一人物特征和第二视频中的第二人物特征的方式，规避短视频在重度编辑情况下存在的图像噪声问题，以降低视频平台内存在的未和长视频关联的短视频数量，提高长视频和短视频之间的关联效果。

Description

一种视频关联方法、装置、电子设备和存储介质

技术领域

本申请涉及智能分析技术领域，具体涉及一种视频关联方法、装置、电子设备和存储介质。

背景技术

视频平台内存在大量的经编辑长视频片段后形成的短视频，为规范视频平台内的短视频管理，需将长视频和基于长视频片段形成的短视频进行关联。

目前，相关技术多采用视频画面相似度比对的方法来关联长视频和短视频，即通过对长视频和短视频分别进行视频帧抽取，并计算长视频的视频帧和短视频的视频帧之间的相似度的方式，来判断长视频和短视频之间是否存在关联关系。

应用中发现，在短视频经过重度编辑(如大面积裁剪，横屏转竖屏，滤镜处理等)的情况下，相关技术无法对视频平台内的长视频和短视频进行有效关联，这使得视频平台中的未和长视频关联的短视频数量仍旧较多，即应用相关技术关联长视频和短视频的关联效果较差。

发明内容

本申请的目的在于提供一种视频关联方法、装置、电子设备和存储介质，用于解决在短视频经过重度编辑的情况下，应用相关技术关联长视频和短视频的关联效果较差的问题。

第一方面，本申请实施例提供一种视频关联方法，包括：

获取第一视频中的第一人物特征和第二视频中的第二人物特征；其中，所述第一视频的视频来源已知，所述第二视频的视频来源未知；

对所述第一人物特征和所述第二人物特征进行相似度比较，获得第一比较结果；

在所述第一比较结果表征所述第二视频包括所述第一视频的视频片段的情况下，生成所述第一视频和所述第二视频的第一关联信息。

在一些实施方式中，所述第一关联信息包括所述视频片段在所述第一视频中的起始时间和终止时间。

在一些实施方式中，所述获取第一视频中的第一人物特征，包括：

获取所述第一视频包括的多个角色特征，以及每一角色特征在所述第一视频内的出现频次；

滤除所述多个角色特征中出现频次小于频次阈值的角色特征，获得高频特征集合；

对所述高频特征集合进行聚合处理，获得所述第一人物特征。

基于第一抽帧密度获取所述第一视频包括的至少两个第一视频帧；

基于所述至少两个第一视频帧获取所述第一人物特征；

所述获取第二视频中的第二人物特征，包括：

基于第二抽帧密度获取所述第二视频包括的至少两个第二视频帧；

基于所述至少两个第二视频帧获取所述第二人物特征；

其中，所述第一抽帧密度小于所述第二抽帧密度。

在一些实施方式中，在所述第一比较结果表征所述第二视频不包括所述第一视频的视频片段的情况下，所述方法还包括：

获取视频集合的第三人物特征，所述视频集合包括标签相同的至少两个第三视频；其中，所述第三视频的视频来源已知，且所述第三视频不包括所述第一视频的视频片段，所述第一视频为长视频，所述第二视频和所述第三视频均为短视频；

对所述第三人物特征和所述第二人物特征进行相似度比较，获得第二比较结果；

在所述第二比较结果表征所述第二视频和所述视频集合中的至少两个第三视频包括相同的人物特征的情况下，生成所述视频集合和所述第二视频的第二关联信息。

在一些实施方式中，所述生成所述视频集合和所述第二视频的第二关联信息之后，所述方法还包括：

将所述第二视频增补至所述视频集合内；

基于增补后的视频集合更新所述第三人物特征。

第二方面，本申请实施例还提供一种视频关联装置，包括：

获取模块，用于获取第一视频中的第一人物特征和第二视频中的第二人物特征；其中，所述第一视频的视频来源已知，所述第二视频的视频来源未知；

比较模块，用于对所述第一人物特征和所述第二人物特征进行相似度比较，获得第一比较结果；

第一关联模块，用于在所述第一比较结果表征所述第二视频包括所述第一视频的视频片段的情况下，生成所述第一视频和所述第二视频的第一关联信息。在一些实施方式中，所述视频关联装置还包括第二关联模块，所述第二关联模块包括：

在所述第一比较结果表征所述第二视频不包括所述第一视频的视频片段的情况下，获取视频集合的第三人物特征，所述视频集合包括标签相同的至少两个第三视频；其中，所述第三视频的视频来源已知，且所述第三视频不包括所述第一视频的视频片段，所述第一视频为长视频，所述第二视频和所述第三视频均为短视频；

第三方面，本申请实施例提供一种电子设备，包括：

处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上第一方面所述的视频关联方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如上第一方面所述的视频关联方法中的步骤。

上述申请中的至少一个实施例具有如下优点或有益效果：

本申请实施例提供的视频关联方法，通过提取第一视频中的第一人物特征和第二视频中的第二人物特征的方式，规避短视频在重度编辑情况下存在的图像噪声问题，以在第一人物特征和第二人物特征进行相似度比较，且比较结果表征第二视频包括第一视频的视频片段的情况下，完成第一视频和第二视频之间的关联，降低视频平台内存在的未和长视频关联的短视频数量，提高长视频和短视频之间的关联效果。

附图说明

图1是本申请实施例提供的一种视频关联方法的流程图；

图2是本申请实施例提供的一种视频帧处理流程的示意图；

图3是本申请实施例提供的一种特征比较流程的示意图；

图4是本申请实施例提供的另一种视频关联方法的流程图；

图5是本申请实施例提供的一种视频关联装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请实施例提供的一种视频关联方法的流程图，如图1所示，上述视频关联方法包括：

101、获取第一视频中的第一人物特征和第二视频中的第二人物特征。

其中，所述第一视频的视频来源已知，所述第二视频的视频来源未知。

102、对所述第一人物特征和所述第二人物特征进行相似度比较，获得第一比较结果。

103、在所述第一比较结果表征所述第二视频包括所述第一视频的视频片段的情况下，生成所述第一视频和所述第二视频的第一关联信息。

如上所述，通过提取第一视频中的第一人物特征和第二视频中的第二人物特征的方式，规避短视频在重度编辑情况下存在的图像噪声问题，以在第一人物特征和第二人物特征进行相似度比较，且比较结果表征第二视频包括第一视频的视频片段的情况下，完成第一视频和第二视频之间的关联，降低视频平台内存在的未和长视频关联的短视频数量，提高长视频和短视频之间的关联效果。

其中，所述第一视频可理解为长视频，所述第二视频可理解为未和长视频关联的短视频；示例性的，所述长视频可以为电影或电视剧中的某一剧集。

所述第一视频的视频来源可理解为长视频的出版方，所述第二视频的视频来源可理解为短视频对应的长视频。

如上，短视频(也即第二视频)为了维持整体故事的完整性，大部分情况下会保留所编辑的长视频中的角色信息，这部分角色信息即便在重度编辑的情况下也不会发生变化，因此，通过分别提取长视频中的角色信息(即第一人物特征)和短视频中的角色信息(即第二人物特征)，能规避重度编辑情况带来的干扰问题，以便利后续的特征相似度比较过程，提高长视频和短视频之间的关联效果。

示例性的，前述提高长视频和短视频之间的关联效果可理解为，较相关技术来说，应用本申请实施例提供的视频关联方法，能使视频平台内存在的未和长视频关联的短视频数量显著降低，举例来说，若视频平台内存在100个未和长视频关联的短视频，应用相关技术能使平台内的未和长视频关联的短视频数量降至70，应用本申请提供的视频关联方法则能使平台内的未和长视频关联的短视频数量降至20，即应用本申请提供的视频关联方法能使长视频关联更多的短视频，以达到降低视频平台存在的未和长视频关联的短视频数量的目的。

所述第一关联信息至少包括所述第一视频的视频标签，在生成所述第一关联信息的情况下，还可以基于所述第一视频的视频标签对所述第二视频进行标签设置(指将第一视频的视频标签拷贝至所述第二视频中，所述第一视频的视频标签可理解为所述第一视频的视频名称)。

如上，对于视频平台内存在的来源未知的短视频来说，应用本申请实施例提供的视频关联方法，可便捷且准确地完成视频平台内长视频和短视频之间的相互关联，这一方面能使视频平台基于长视频所包括的标签相应完成与长视频关联的短视频的标签设置，规整视频平台对短视频的标签管理，降低短视频的标签设置混乱(如短视频发布者的标签设置错误、或出于吸引流量的目的而有意设置与短视频内容不相关的标签的情况)带来的不利影响，给用户营造良好的视频浏览环境，使用户获得较好的使用体验；另一方面也能便利视频平台和长视频的版权方对短视频可能存在的侵权问题的监控，即通过应用本申请提供的视频关联方法，能对上传至视频平台内的来源未知的短视频进行识别，以及时获知此类来源未知的短视频的长视频出处，后续再通过前述标签设置的方式，对短视频进行标记，以便视频平台(基于预设的检索程序)和长视频的版权方能(基于预设的与视频平台进行数据交互的接口程序)对视频平台内的短视频可能存在的侵权行为进行分析。

可选的，所述获取第一视频中的第一人物特征，包括：

基于所述至少两个第一视频帧获取所述第一人物特征；

所述获取第二视频中的第二人物特征，包括：

基于所述至少两个第二视频帧获取所述第二人物特征；

其中，所述第一抽帧密度小于所述第二抽帧密度。

在第二视频(即短视频)经过重度编辑的情况下，第二视频的图像抖动幅度大(相较于第一视频来说)，因此需通过增大第二视频对应的第二抽帧密度，以适配上述图像抖动幅度大的情况，降低第二视频帧出现模糊图像的概率，从而便利后续对第二视频帧的图像处理过程，提升所获得的第二人物特征的精度。

举例来说，上述第一抽帧密度可以为一帧每秒，上述第二抽帧密度可以为三帧每秒，用户也可以基于实际需求对上述第一抽帧密度和第二抽帧密度进行适应性调整，本申请实施例对此并不加以限定。

示例性的，基于所述至少两个第一视频帧获得所述第一人物特征的过程可以为：

对所述至少两个第一视频帧进行人体区域位置检测，并将所述至少两个第一视频帧中未识别出检测框的第一视频帧滤除，获得人像帧集合。

基于检测框对人像帧集合中的每个第一视频帧进行剪裁，获得人像区块集合。

基于预训练的特征提取模型，对人像区块集合中的至少两个元素均进行特征提取，以获得至少两个角色特征，所述至少两个角色特征与人像区块集合中的至少两个元素一一对应。

对所述至少两个角色特征依次进行聚类和聚合处理，以获得所述第一人物特征。

如图2所示，利用人体区域位置检测和视频帧剪裁的方式，滤除所述至少两个第一视频帧包括的噪声信息，以提高基于特征提取模型获得的角色特征的数据精度。其中，上述噪声信息可理解为不包括人体图像的第一视频帧和包括人体图像的第一视频帧的背景部分(指非检测框的部分)。

上述人体区域位置检测可以通过人体检测模型完成，示例性的，上述人体检测模型可以为SSD(Single Shot MultiBox Detector)模型、YOLO(You Only Look Once)模型、R-CNN(Region-CNN)模型等；上述抽帧密度为单位时间内从第一视频中抽取的视频帧数量，例如一秒一帧、一秒三帧等，本申请实施例对具体的抽帧密度并不加以限定。

上述特征提取模型的预训练过程可以为：

使用ImageNet数据集对深度残差网络进行初次训练；

使用初次训练后的深度残差网络提取Market-1501训练集包括的人物特征，并将所提取得到的人物特征进行聚类处理，获得若干个训练类簇；

基于上述若干个训练类簇，建立人物ID库；其中，每一训练类簇表示一个人物ID，人物库ID包括若干个训练类簇分别对应的若干个人物ID，以及每一人物ID对应的代表性特征。

基于上述人物ID库和Market-1501训练集实际的聚类情况构建损失函数，以将训练误差反向传播至上述深度残差网络中，完成对深度残差网络中的各个参数的动态调整；

在上述动态调整过程满足预设条件的情况下，如在调整次数达到次数阈值的情况下，或损失函数的输出值小于或等于损失阈值的情况下，终止深度残差网络的训练过程，此时训练完成的深度残差网络即为所述预训练的特征提取模型。

其中，每一人物ID对应的代表性特征可理解为，人物ID对应的训练类簇中各个特征的平均加权值。

举例来说，Market-1501训练集包括1501个人物ID和32668个图像实例，其中用于训练的部分为包含12936张图像实例的751个人物ID，平均每个人有17.2张图像实例；用于测试的部分为包含19732张图像实例的750个人物ID，平均每个人有26.3张图像实例。

使用初次训练后的深度残差网络对用于训练的12936张图像实例进行特征提取，再对所提取的特征数据进行聚类；随后基于聚类结果获得每一训练类簇的人物ID，并以人物ID作为键，人物ID对应训练类簇的所有特征数据的平均值作为代表特征值，通过设置对比损失函数网络进行反向传播，以动量更新的方式更新深度残差网络的参数。

其中，可以通过密度聚类算法、原型聚类算法等完成对所提取的特征数据的聚类过程。

进一步的，在利用Market-1501训练集训练经过ImageNet数据集初次训练后的深度残差网络之前，还可以对Market-1501训练集进行数据增广处理，以丰富Market-1501训练集的数据量，避免深度残差网络在训练过程中出现欠拟合的问题；同时还能提升Market-1501训练集的数据多样性，使经过数据增广后的Market-1501训练集能更好地模拟短视频和/或长视频的视频帧特点，以提高深度残差网络的特征提取功能的泛化性能和鲁棒性能。

示例性的，以1/10的概率对Market-1501训练集包括的图像实例进行滤镜变换，以完成上述数据增广操作，上述滤镜变换包括但不限于颜色变换、增加边框效果及模糊变换等。

如上所述，通过随机抽选Market-1501训练集中1/10的图像实例，并对所抽选的图像实例进行滤镜变换的处理方式(即数据增广后的Market-1501训练集中，既包括经滤镜变换后的图像实例，也包括未经滤镜变换后的图像实例)，能提升深度残差网络的特征提取难度，使深度残差网络获得更优的训练效果。

需要说明的是，用户可以在(0，1)的范围内对上述随机抽选的概率进行适应性调整，如1/20、1/5等，本申请实施例对此并不加以限定。

示例性的，用户可以通过层级聚类的方式完成前述步骤中的聚类处理过程。

举例来说，前述若干个训练类簇的获取过程可以为：

S1、将Market-1501训练集包括的若干个人物特征中的每一人物特征均作为一个新的训练类簇。

S2、对每两个训练类簇之间的类簇距离进行计算。

S3、将类簇距离小于距离阈值的两个训练类簇进行合并。

S4、重复S2-S3的步骤，直至所述所有训练类簇合并完毕(即任意两个训练类簇之间的平均距离大于或等于距离阈值)。

其中，上述类簇距离可以为两个训练类簇之间最远的两个元素之间的距离，也可以为两个训练类簇的两两元素之间距离的平均值或中值，用户可基于需求适应性调整上述类簇距离的计算方式，本申请实施例对此并不加以限定。

示例性的，对所述至少两个角色特征依次进行聚类和聚合的过程可以为：

设定第一视频包括N个角色特征，且每个角色包括d个维度；

通过密度聚类算法或原型聚类算法对N个角色特征进行聚类处理，获得M个类簇，以及每个类簇对应的聚类中心；其中，类簇对应的聚类中心为该类簇包括的至少两个角色特征的平均值，每个类簇对应的聚类中心均可理解为前述第一人物特征。

前述N和M均为大于或等于2的整数，示例性的，d可以为2048。

第二视频中的第二人物特征的获取过程与第一人物特征的获取过程相似，为避免重复，便不再赘述。

可选的，所述第一关联信息包括所述视频片段在所述第一视频中的起始时间和终止时间。

如上所述，利用第一关联信息中包括的起始时间和终止时间，对上述视频片段在第一视频中的出现时间段进行定位，以进一步提升第一视频和第二视频之间的关联精度，即第一关联信息在指示第二视频来源于第一视频的基础上，还能进一步说明第二视频来源于第一视频的具体时间段(指起始时间和终止时间之间的时间段)，这能提升视频平台对短视频的管理效果(如加强对短视频侵权判定的监控力度等)。

示例性的，在所述第一比较结果表征所述第二视频包括所述第一视频的视频片段的情况下，如图3所示，第一人物特征对应编号2301_0至2305_0以及2331_0至2333_0的人像区块；第二人物特征对应编号为450_0至452_0的人像区块，此时，所述起始时间和终止时间的获取过程可以为：

分别计算编号为450_0的人像区块和第一人物特征对应的多个人像区块之间的相似值(指计算两个人像区块之间的欧氏距离，该欧式距离即为相似值)，并将第一人物特征对应的多个人像区块中(与450_0)相似值最小的人像区块(假定为2301_0)填入预设的目标集合中；

分别计算编号为451_0的人像区块和第一人物特征对应的多个人像区块之间的相似值，并将第一人物特征对应的多个人像区块中(与451_0)相似值最小的人像区块(假定为2302_0)填入所述目标集合中；

分别计算编号为452_0的人像区块和第一人物特征对应的多个人像区块之间的相似值，并将第一人物特征对应的多个人像区块中(与452_0)相似值最小的人像区块(假定为2303_0)填入所述目标集合中；

将编号2301_0至2303_0的人像区块在第一视频中的对应时间段的起始节点和终止节点分别确定为上所述起始时间和所述终止时间。

可选的，所述获取第一视频中的第一人物特征，包括：

第一视频中包括主角和路人，在前述特征提取过程中，主角的角色特征和路人的角色特征均会被提取，在此情况下，通过设置频次阈值的方式，对路人的角色特征进行过滤，降低所获得高频特征集合内的噪声，提高所获得的第一人物特征的数据精度；在得到高频特征集合以后，通过前述特征聚类和聚合处理，即可获得所述第一人物特征。

示例性的，上述频次阈值可以为50、100、150等，用户可基于需求适应性调整频次阈值的具体数值，本申请实施例对此并不加以限定。

进一步的，还可以基于每个第一视频的视频时长，对上述频次阈值进行适应性调整，以保障上述过滤操作的可靠性，降低主角的角色特征被滤除或路人的角色特征被保留的情况的出现概率。

示例性的，在第一视频的视频时长小于40分钟时，可以设置频次阈值为50；在第一视频的视频时长介于40分钟至60分钟时，可以设置频次阈值为80；在第一视频的视频时长介于60分钟至90分钟时，可以设置频次阈值为100；在第一视频的时长大于90分钟时，可以设置频次阈值为120。

示例性的，也可以根据第一视频的视频时长动态调整频次阈值，如设置第一视频的视频时长与频次阈值正相关，举例来说，设置上述正相关系数为0.03的情况下，若第一视频的视频时长为1200秒，则上述频次阈值为36；若第一视频的视频时长为1260秒，则上述频次阈值可以为37或38(向上或向下取整)。

优选的，也可以利用上述频次过滤方式对所述第二视频包括的多个角色特征进行过滤处理，以提高第二人物特征的数据精度，其过滤过程参见前述示例，为避免重复，便不再赘述。

可选的，在所述第一比较结果表征所述第二视频不包括所述第一视频的视频片段的情况下，所述方法还包括：

在应用本申请提供的视频关联方法进行长短视频关联以后，视频平台内仍会存在部分未和长视频关联的短视频(如受限于视频平台未收录部分长视频的情况)，此时，可以通过前述的特征提取模型对这部分短视频进行特征提取，并基于所提取的特征进行聚类处理，以获得与所述视频集合对应的特征类簇，该特征类簇中的质心特征(可理解为该特征类簇中多个特征的平均值)即为所述视频集合的第三人物特征，该特征类簇对应的短视频即为所述第三视频。

此时，基于第三视频的视频名称以及视频内容，通过人工识别的方式可以对第三视频所对应的长视频进行确定，并通过该长视频的名称(如电影名或电视剧名)对第三视频进行标记，以完成对第三视频的视频来源的确定。

进一步的，所述生成所述视频集合和所述第二视频的第二关联信息之后，所述方法还包括：

将所述第二视频增补至所述视频集合内；

基于增补后的视频集合更新所述第三人物特征。

如上所述，在将第二视频和视频集合关联成功的情况下，通过将第二视频增补至视频集合，并基于增补后的视频集合更新第三人物特征的方式，来迭代式丰富视频集合内的短视频数量，提升所获得的第三人物特征的数据精度。

需要说明的是，上述角色特征可理解为长视频或短视频中的某一角色以及该角色所穿着的服饰，即在同一长视频或短视频中，不同角色所分别对应的第一角色特征不同，且同一角色在穿着不同服饰情况下所分别对应的角色特征也不同，举例来说，若某一长视频内的某一角色存在两套服饰，则该角色在该长视频内将对应存在两个不同的角色特征。

如图4所示，第一特征库用于表征视频平台内已收录的长视频包括的人物角色信息(第一特征库内存在至少一个第一人物特征)，第二特征库用于表征视频平台未收录的长视频包括的人物角色信息(第二特征库内存在至少一个第三人物特征)，在视频平台内新收录一个来源未知的短视频(即第二视频)的情况下，先利用第二视频的第二人物特征检索第一特征库(指遍历第一特征库内的每个第一人物特征，并计算每个第一人物特征与第二人物特征之间的相似值)，若检索成功，则说明第一特征库中存在一个第一人物特征与第二人物特征的相似值大于预设的相似阈值，此时可基于该第一人物特征对应的长视频确定该短视频的剧名标签以及时间点位信息(即将该长视频的视频名称拷贝至该短视频中，并确定该短视频所编辑的视频片段在该长视频中的起始时间和终止时间)。

若检索第一特征库失败，则基于第二人物特征再行检索第二特征库(指遍历第二特征库内的每个第三人物特征，并计算每个第三人物特征与第二人物特征之间的相似值)，若检索成功，则说明第二特征库中存在一个第三人物特征与第二人物特征的相似值大于前述相似阈值，此时可基于该第三人物特征对应的视频集合确定该短视频的剧名标签，并将该短视频增补至对应的视频集合，同时基于增补后的视频集合更新第二特征库中的第三人物特征，以迭代式丰富视频集合内的视频数量，提升第三人物特征的数据精度。

若检索第二特征库失败，则通过人工识别的方式确定该短视频的视频来源，并手动确定该短视频的剧名标签，确定剧名标签后的所述短视频将作为一个新的视频集合存在。

优选的，还可以将所述第一特征库和第二特征库合并为一个总特征库，并通过ID标识对该总特征库中的第一人物特征和第三人物特征进行区分(如设置第一人物特征的ID标识为1，设置第三人物特征的ID标识为2，在特征检索过程中，先对总特征库中的ID标识为1的第一人物特征进行遍历与相似值计算，若检索失败，再对总特征库中的ID标识为2的第三人物特征进行遍历与相似值计算)，以节省数据存储资源。

需要说明的是，归属于同一个视频集合的所有第三视频将设置有相同剧名标签，在该视频集合对应的第三人物特征与第二人物特征包括相同的人物特征的情况下，将该视频集合内任意一个第三视频的剧名标签拷贝至第二视频中，即可完成对所述第二视频的标签设置。

示例性的，在第三视频未设置剧名标签的情况下，可以基于自然语言处理(Natural Language Processing,NLP)算法对第三视频的视频名称进行识别，以获得备选标签，待人工核验该备选标签的准确性之后(即人工比较第三视频的视频内容和备选标签是否一致，若是，则将该备选标签确定为所述剧名标签；若否，则由核验人员基于视频内容手动确定所述剧名标签)，再行设置第三视频的剧名标签，以提高第三视频的剧名标签的设置效率，此外，前述手动确定剧名标签也可以采用上述NLP算法辅助的方式完成，为避免重复，便不再赘述。

如图5所示，本申请实施例还提供一种视频关联装置200，包括：

获取模块201，用于获取第一视频中的第一人物特征和第二视频中的第二人物特征；其中，所述第一视频的视频来源已知，所述第二视频的视频来源未知；

比较模块202，用于对所述第一人物特征和所述第二人物特征进行相似度比较，获得第一比较结果；

第一关联模块203，用于在所述第一比较结果表征所述第二视频包括所述第一视频的视频片段的情况下，生成所述第一视频和所述第二视频的第一关联信息。

可选的，所述获取模块201包括：

第一获取子模块，用于获取第一视频中的第一人物特征；

第二获取子模块，用于获取第二视频中的第二人物特征；

所述第一获取子模块包括：

第一获取单元，用于获取所述第一视频包括的多个角色特征，以及每一角色特征在所述第一视频内的出现频次。

第一特征提取单元，用于滤除所述多个角色特征中出现频次小于频次阈值的角色特征，获得高频特征集合；对所述高频特征集合进行聚合处理，获得所述第一人物特征。

可选的，第一获取单元用于，基于第一抽帧密度获取所述第一视频包括的至少两个第一视频帧；

所述第一特征提取单元用于，基于所述至少两个第一视频帧获取所述第一人物特征；

第二获取子模块，包括：

第二获取单元，用于基于第二抽帧密度获取所述第二视频包括的至少两个第二视频帧；

第二特征提取单元，用于基于所述至少两个第二视频帧获取所述第二人物特征；

其中，所述第一抽帧密度小于所述第二抽帧密度。

可选的，所述视频关联装置200还包括第二关联模块，所述第二关联模块包括：

可选的，所述视频关联装置200还包括更新模块，所述更新模块包括：

在生成所述视频集合和所述第二视频的第二关联信息之后，将所述第二视频增补至所述视频集合内；

基于增补后的视频集合更新所述第三人物特征。

请参见图6，图6是本申请实施例提供的一种电子设备的结构示意图，如图6所示，电子设备包括：总线301、收发机302、天线303、总线接口304、处理器305和存储器306。处理器305能够实现上述视频关联方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图6中，总线架构(用总线301来代表)，总线301可以包括任意数量的互联的总线和桥，总线301将包括由处理器305代表的一个或多个处理器和存储器306代表的存储器的各种电路链接在一起。总线301还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口304在总线301和收发机302之间提供接口。收发机302可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器305处理的数据通过天线303在无线介质上进行传输，进一步，天线303还接收数据并将数据传送给处理器305。

处理器305负责管理总线301和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器306可以被用于存储处理器305在执行操作时所使用的数据。

可选的，处理器305可以是CPU、ASIC、FPGA或CPLD。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者第二终端设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频关联方法，其特征在于，包括：

在所述第一比较结果表征所述第二视频包括所述第一视频的视频片段的情况下，生成所述第一视频和所述第二视频的第一关联信息；

其中，所述获取第一视频中的第一人物特征，包括：

基于所述至少两个第一视频帧获取所述第一人物特征；

所述获取第二视频中的第二人物特征，包括：

基于所述至少两个第二视频帧获取所述第二人物特征；

其中，所述第一抽帧密度小于所述第二抽帧密度；

所述基于所述至少两个第一视频帧获取所述第一人物特征，包括：

对所述至少两个第一视频帧进行人体区域位置检测，并将所述至少两个第一视频帧中未识别出检测框的第一视频帧滤除，获得人像帧集合；

基于检测框对人像帧集合中的每个第一视频帧进行剪裁，获得人像区块集合；

基于预训练的特征提取模型，对人像区块集合中的至少两个元素均进行特征提取，以获得至少两个角色特征，所述至少两个角色特征与人像区块集合中的至少两个元素一一对应；

2.根据权利要求1所述的方法，其特征在于，所述第一关联信息包括所述视频片段在所述第一视频中的起始时间和终止时间。

3.根据权利要求1所述的方法，其特征在于，所述获取第一视频中的第一人物特征，包括：

4.根据权利要求1所述的方法，其特征在于，在所述第一比较结果表征所述第二视频不包括所述第一视频的视频片段的情况下，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述生成所述视频集合和所述第二视频的第二关联信息之后，所述方法还包括：

将所述第二视频增补至所述视频集合内；

基于增补后的视频集合更新所述第三人物特征。

6.一种视频关联装置，其特征在于，包括：

第一关联模块，用于在所述第一比较结果表征所述第二视频包括所述第一视频的视频片段的情况下，生成所述第一视频和所述第二视频的第一关联信息；

其中，所述获取模块，包括：

第一获取子模块，用于获取第一视频中的第一人物特征；

第二获取子模块，用于获取第二视频中的第二人物特征；

所述第一获取子模块包括：

第一获取单元，用于基于第一抽帧密度获取所述第一视频包括的至少两个第一视频帧；

第一特征提取单元，用于基于所述至少两个第一视频帧获取所述第一人物特征；

所述第二获取子模块，包括：

其中，所述第一抽帧密度小于所述第二抽帧密度；

所述第一特征提取单元，具体用于：

7.根据权利要求6所述的视频关联装置，其特征在于，所述视频关联装置还包括第二关联模块，所述第二关联模块包括：

8.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的方法的步骤。