CN113590876A

CN113590876A - 一种视频标签设置方法、装置、计算机设备及存储介质

Info

Publication number: CN113590876A
Application number: CN202110085675.0A
Authority: CN
Inventors: 王珩; 岑杰鹏; 叶振旭; 曹圣明; 徐孩; 杨伟东; 车翔; 陈宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-11-02
Anticipated expiration: 2041-01-22
Also published as: CN113590876B

Abstract

本申请实施例公开了一种视频标签设置方法、装置、计算机设备及存储介质，本申请实施例可以提取待处理视频的音视频时序特征信息和目标文本特征信息，对音视频时序特征信息和目标文本特征信息融合得到第一融合后特征信息；根据第一融合后特征信息获取待处理视频的多模态聚合特征；提取待处理视频的音视频聚合特征信息，对音视频聚合特征信息和目标文本特征信息融合得到第二融合后特征信息；根据第二融合后特征信息确定待处理视频的类别信息；从预设的视频数据库中筛选出与类别信息匹配的视频，得到目标候选视频集；基于多模态聚合特征获取到的目标候选视频集中视频与待处理视频之间的相似度为待处理视频设置标签，提高了视频标签设置的准确性。

Description

一种视频标签设置方法、装置、计算机设备及存储介质

技术领域

本申请涉及视频处理领域，具体涉及一种视频标签设置方法、装置、计算机设备及存储介质。

背景技术

随着视频资源的越来越多，视频的类型也多种多样，而视频标签的标注是对视频进行分类的方式。现有的视频标签标注可以包括：人工标注以及通过模型对视频进行自动标注。目前，通过模型对视频进行自动标注的方式，一般是提取视频单一的特征，通过模型基于该特征直接预测视频的标签。该自动标注方式，一方面，需要使用大量的样本对模型进行训练，并且每次有新的标签更新时，均需要重新对模型重新进行训练，不仅模型过重，而且训练时间长，难以适应标签频繁增加，且多数标签热度持续时间有限的实际情况。例如，每天都会有新的新闻事件相关的视频更新，几乎每周都会有新的影视综节目相关的视频更新，这些都会引起视频的标签池子的扩充，这样每天都需要人工标注视频标签来对模型进行重新训练，增加了对视频标签标注的成本，以及降低了对视频标签标注的便捷性和效率。另一方面，直接通过模型基于单一的特征直接预测视频的标签，降低了对视频标签标注的准确性和可靠性。

发明内容

本申请实施例提供一种视频标签设置方法、装置、计算机设备及存储介质，可以提高对视频标签设置准确性。

为解决上述技术问题，本申请实施例提供以下技术方案：

本申请实施例提供了一种视频标签设置方法，包括：

获取待处理视频，提取所述待处理视频的音视频时序特征信息和目标文本特征信息，并对所述音视频时序特征信息和所述目标文本特征信息进行融合，得到第一融合后特征信息；

根据所述第一融合后特征信息，获取所述待处理视频的多模态聚合特征；

提取所述待处理视频的音视频聚合特征信息，对所述音视频聚合特征信息和所述目标文本特征信息进行融合，得到第二融合后特征信息；

根据所述第二融合后特征信息确定所述待处理视频的类别信息；

从预设的视频数据库中筛选出与所述类别信息匹配的视频，得到目标候选视频集，所述视频数据库中包括设置有标签的视频；

基于所述多模态聚合特征从所述目标候选视频集中筛选出与所述待处理视频之间的相似度满足预设条件的目标视频，根据所述目标视频的标签为所述待处理视频设置标签。

根据本申请的一个方面，还提供了一种视频标签设置装置，包括：

第一处理单元，用于获取待处理视频，提取所述待处理视频的音视频时序特征信息和目标文本特征信息，并对所述音视频时序特征信息和所述目标文本特征信息进行融合，得到第一融合后特征信息；

特征获取单元，用于根据所述第一融合后特征信息，获取所述待处理视频的多模态聚合特征；

第二处理单元，用于提取所述待处理视频的音视频聚合特征信息，对所述音视频聚合特征信息和所述目标文本特征信息进行融合，得到第二融合后特征信息；

确定单元，用于根据所述第二融合后特征信息确定所述待处理视频的类别信息；

筛选单元，用于从预设的视频数据库中筛选出与所述类别信息匹配的视频，得到目标候选视频集，所述视频数据库中包括设置有标签的视频；

设置单元，用于基于所述多模态聚合特征从所述目标候选视频集中筛选出与所述待处理视频之间的相似度满足预设条件的目标视频，根据所述目标视频的标签为所述待处理视频设置标签。

根据本申请的一个方面，还提供了一种计算机设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种视频标签设置方法。

根据本申请的一个方面，还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行本申请实施例提供的任一种视频标签设置方法。

本申请实施例可以获取待处理视频，提取待处理视频的音视频时序特征信息和目标文本特征信息，并对音视频时序特征信息和目标文本特征信息进行融合，得到第一融合后特征信息；然后可以根据第一融合后特征信息，获取待处理视频的多模态聚合特征，以及提取待处理视频的音视频聚合特征信息，对音视频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息；其次，可以根据第二融合后特征信息确定待处理视频的类别信息，从预设的视频数据库中筛选出与类别信息匹配的视频，得到目标候选视频集，视频数据库中包括设置有标签的视频；此时可以基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度满足预设条件的目标视频，根据目标视频的标签为待处理视频设置标签。该方案可以基于音视频时序特征信息和目标文本特征信息融合得到的第一融合后特征信息准确获取待处理视频的多模态聚合特征，以及基于音视频聚合特征信息和目标文本特征信息融合得到的第二融合后特征信息精准确定待处理视频的类别信息，快速从视频数据库中筛选出与类别信息匹配的目标候选视频集，并基于多模态聚合特征从目标候选视频集中筛选出的目标视频的标签为待处理视频设置标签，相对于现有需要频繁对模型训练以及基于单一特征预测视频标签，降低了对视频标签设置的成本，以及提高了对视频标签设置的准确性和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频标签设置方法应用的场景示意图；

图2是本申请实施例提供的视频标签设置方法的流程示意图；

图3是本申请实施例提供的视频标签设置方法的另一流程示意图；

图4是本申请实施例提供的视频标签设置方法的另一流程示意图；

图5是本申请实施例提供的视频标签设置方法的另一流程示意图；

图6是本申请实施例提供的视频标签设置方法的另一流程示意图；

图7是本申请实施例提供的视频标签设置方法的另一流程示意图；

图8是本申请实施例提供的视频标签设置方法的另一流程示意图；

图9是本申请实施例提供的视频标签设置装置的示意图；

图10是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频标签设置方法、装置、计算机设备及存储介质。

请参阅图1，图1为本申请实施例所提供的视频标签设置方法应用的场景示意图，该视频标签设置方法应用可以包括视频标签设置装置，该视频标签设置装置具体可以集成在服务器或终端中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、或者可穿戴设备等。服务器与终端之间可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

其中，计算机设备可以用于获取待处理视频，提取待处理视频的音视频时序特征信息(包括视频图像帧时序特征信息和音频时序特征信息)和目标文本特征信息，并对音视频时序特征信息和目标文本特征信息进行融合(例如拼接)，得到第一融合后特征信息。然后，可以根据第一融合后特征信息获取待处理视频的多模态聚合特征，以及提取待处理视频的音视频聚合特征信息，对音视频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息。其次，可以根据第二融合后特征信息确定待处理视频的类别信息，从预设的视频数据库中筛选出与类别信息匹配的视频，得到目标候选视频集，该视频数据库中可以包括设置有标签的视频。此时，可以基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度满足预设条件的目标视频，根据目标视频的标签为待处理视频设置标签。该方案可以基于音视频时序特征信息和目标文本特征信息融合得到的第一融合后特征信息准确获取待处理视频的多模态聚合特征，以及基于音视频聚合特征信息和目标文本特征信息融合得到的第二融合后特征信息精准确定待处理视频的类别信息，快速从视频数据库中筛选出与类别信息匹配的目标候选视频集，并基于多模态聚合特征从目标候选视频集中筛选出的目标视频的标签为待处理视频设置标签，提高了对视频标签设置的准确性和效率。

需要说明的是，图1所示的视频标签设置方法应用的场景示意图仅仅是一个示例，本申请实施例描述的视频标签设置方法应用以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着视频标签设置方法应用的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供的视频标签设置方法可以涉及人工智能中的机器学习技术等技术，下面先对人工智能技术和机器学习技术进行说明。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、以及机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、以及算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、以及式教学习等技术。

在本实施例中，将从视频标签设置装置的角度进行描述，该视频标签设置装置具体可以集成在服务器或终端等计算机设备中。

请参阅图2，图2是本申请一实施例提供的视频标签设置方法的流程示意图。该视频标签设置方法可以包括：

S101、获取待处理视频，提取待处理视频的音视频时序特征信息和目标文本特征信息，并对音视频时序特征信息和目标文本特征信息进行融合，得到第一融合后特征信息。

其中，待处理视频可以是待设置标签的视频(即未知标签的视频)，该待处理视频可以是音视频，包括音频和视频等，或者该待处理视频可以仅包括音频或视频等，该待处理视频的类型、格式以及获取方式等可以根据实际需要进行灵活设置。例如，待处理视频可以是短视频、新闻视频、影视视频、娱乐视频或者游戏视频等。可以通过录像机等设备录制待处理视频，或者从服务器上下载待处理视频等。

需要说明的是，本实施例中类别信息可以是大类的类别，标签可以是小类(即类别的子类)，一个待处理视频对应的类别信息可以包括一个类别，一个待处理视频对应的标签可以包括一个或多个标签，例如，待处理视频的类别信息可以包括新闻、游戏、汽车、娱乐等类别，待处理视频的标签可以包括某个游戏中的某个英雄人物、以及汽车的车型、厂商、或用途等。

在得到待处理视频后，可以提取待处理视频的音视频时序特征信息和目标文本特征信息等，该音视频时序特征信息可以包括视频图像帧时序特征信息和音频时序特征信息等，视频图像帧时序特征信息可以是构成待处理视频的多帧图像对应的图像特征，音频时序特征信息可以是待处理视频中音频对应的特征，目标文本特征信息可以是待处理视频对应的描述文本的文本特性，该描述文本可以是待处理视频的标题，或者是待处理视频的简介，或者是待处理视频的音频转换成的字幕等，以下将进行待处理视频的音视频时序特征信息和目标文本特征信息等进行详细说明。

在一实施方式中，音视频时序特征信息包括视频图像帧时序特征信息，提取待处理视频的音视频时序特征信息可以包括：按照预设抽取间距从待处理视频中抽取预设帧数的第一视频图像帧；通过第一特征提取模型对第一视频图像帧进行特征提取，得到第一图像帧特征信息；将第一图像帧特征信息通过帧时序关系推理网络进行时序特征提取，得到视频图像帧时序特征信息。

其中，第一特征提取模型和帧时序关系推理网络的具体类型和结构等可以根据实际需要进行灵活设置，例如，第一特征提取模型可以是高效分类模型(EfficientNet)，帧时序关系推理网络可以是视频图像帧的时序关系推理网络(Temporal RelationalReasoning，TRN)。

为了提高视频图像帧时序特征信息获取的准确性和可靠性，可以通过预训练好的第一特征提取模型和帧时序关系推理网络等获取视频图像帧时序特征信息。例如，如图3所示，首先可以按照预设抽取间距从待处理视频中抽取预设帧数的第一视频图像帧，该预设抽取间距和预设帧数等可以根据实际需要进行灵活设置，例如，可以使用视频的采帧工具ffmpeg对待处理视频中的视频等间距抽取64帧，若视频不足64帧，则补0到64帧，得到第一视频图像帧。

然后，可以通过第一特征提取模型对第一视频图像帧进行特征提取，得到第一图像帧特征信息，例如，可以通过EfficientNet模型对第一视频图像帧中的每一帧图像均进行卷积操作(例如可以通过EfficientNet模型的50层卷积层进行卷积操作)和池化操作等，每帧图像均对应得到一个1536维的特征向量，由于第一视频图像帧有64帧图像，因此EfficientNet模型最终可以输出64*1536维的张量，该64*1536维的张量即为第一图像帧特征信息。

此时，可以将第一图像帧特征信息通过帧时序关系推理网络进行时序特征提取，得到视频图像帧时序特征信息，例如，可以64*1536维的张量通过TRN网络进行时序特征提取，得到1536维的特征向量，该1536维的特征向量即为视频图像帧时序特征信息。

需说明的是，EfficientNet模型和TRN网络等可以是训练好的模型，例如，可以获取预先标注类别的视频训练样本，该视频训练样本包括多帧图像及其对应的类别，通过初始的EfficientNet模型对视频训练样本进行特征提取，得到样本特征信息，基于样本特征信息对视频训练样本的类别进行预测，得到预测类别，将预测类别与预先标注类别进行收敛，以调整EfficientNet模型的参数，直至EfficientNet模型的参数调整至合适数值，得到训练后的EfficientNet模型。TRN网络的训练方式可以与EfficientNet模型的训练方式类似，在此不做赘述。

在一实施方式中，音视频时序特征信息包括音频时序特征信息，提取待处理视频的音视频时序特征信息可以包括：获取待处理视频中的音频的第一频域特征；通过第二特征提取模型基于第一频域特征对待处理视频中的音频进行特征提取，得到第一音频特征信息；将第一音频特征信息通过音频时序关系推理网络进行时序特征提取，得到音频时序特征信息。

其中，第二特征提取模型和音频时序关系推理网络的具体类型和结构等可以根据实际需要进行灵活设置，例如，第二特征提取模型可以是超大超深模型(VGGish)，音频时序关系推理网络可以是音频的时序关系推理网络(Temporal Relational Reasoning，TRN)，该TRN与上述帧时序关系推理网络可以类似。

为了提高音频时序特征信息获取的精准性和便捷性，可以通过第二特征提取模型和音频时序关系推理网络等获取音频时序特征信息。具体地，如图3所示，首先可以获取待处理视频中的音频的第一频域特征，该第一频域特征可以是对音频进行采样及频域运算等得到音频在频域内的特征，通过第二特征提取模型基于第一频域特征对待处理视频中的音频进行特征提取，得到第一音频特征信息。

在一实施方式中，获取待处理视频中的音频的第一频域特征，通过第二特征提取模型基于第一频域特征对待处理视频中的音频进行特征提取，得到第一音频特征信息可以包括：按照预设时间间隔对待处理视频中的音频进行划分，得到预设段数的第一音频段；按照预设采样间距对第一音频段进行等间距采样，得到采样音频；对采样音频进行频域运算，得到采样音频对应的第一频域特征；通过第二特征提取模型基于第一频域特征对第一音频段进行特征提取，得到第一音频特征信息。

为了提高第一音频特征信息获取的灵活性和可靠性，可以按照预设时间间隔对待处理视频中的音频进行划分，得到预设段数的第一音频段，按照预设采样间距对第一音频段进行等间距采样，得到采样音频。其中，预设时间间隔、预设段数和预设采样间距等可以根据实际需要进行灵活设置，例如，可以将待处理视频中的音频每隔0.96秒划分为一段，得到第一音频段，对于第一音频段中的每一段音频等间距采样256段，若不足256段，则补0到256段，即采样音频可以包括256个采样点(即256段音频)。

然后，可以对采样音频进行频域运算，得到采样音频对应的第一频域特征，其中，频域运算可以包括短时傅里叶变换(short-time Fourier transform，STFT)和梅尔倒谱变换(Mel Frequency Cepstrum Coefficient，MFCC)等。例如，可以将采样音频经过短时傅里叶变换得到频域音频，对频域音频进行梅尔倒谱变换得到第一频域特征，即将频域音频转化为96*64维的梅尔频谱图向量，该96*64维的梅尔频谱图向量即为第一频域特征。

此时，可以通过第二特征提取模型基于第一频域特征对第一音频段进行特征提取，得到第一音频特征信息。例如，如图3所示，可以通过VGGish模型基于第一频域特征对第一音频段(即图3中的第一音频)中各音频段进行卷积操作(例如可以通过VGGish模型的50层卷积层进行卷积操作)和池化操作等，输出每一音频段对应的128维特征向量，由于第一音频段可以包括等间距采样得到256段音频段，因此VGGish模型最终可以输出256*128维的张量，该256*128维的张量即为第一音频特征信息。可以将第一音频特征信息通过音频时序关系推理网络进行时序特征提取，得到音频时序特征信息。例如，可以将256*128维的第一音频特征信息通过TRN网络进行时序特征提取，得到1024维的特征向量，该1024维的特征向量即为音频时序特征信息。

需要说明的是，VGGish模型可以是训练好的模型，例如，可以获取预先标注类别的视频训练样本，该视频训练样本包括多帧图像及其对应的类别，通过初始的VGGish模型对视频训练样本进行特征提取，得到样本特征信息，基于样本特征信息对视频训练样本的类别进行预测，得到预测类别，将预测类别与预先标注类别进行收敛，以调整VGGish模型的参数，直至VGGish模型的参数调整至合适数值，得到训练后的VGGish模型，使得VGGish模型可以进行有监督学习。

在一实施方式中，提取待处理视频的目标文本特征信息可以包括：获取待处理视频的描述文本；通过第三特征提取模型的文本分类网络对描述文本进行特征提取，得到第一文本特征信息；通过第三特征提取模型的双向传感器定义网络对描述文本进行特征提取，得到第二文本特征信息；将第一文本特征信息和第二文本特征信息进行拼接，得到目标文本特征信息。

其中，第三特征提取模型的类型和结构等可以根据实际需要进行灵活设置，例如，第三特征提取模型可以包括文本分类网络(Text Convolutional Neural Networks，TextCNN)和双向传感器定义网络(BiLSTM)，文本分类网络可以称为文本分类卷积神经网络。为了提高目标文本特征信息获取的灵活性和准确性，可以通过第三特征提取模型。具体地，如图3所示，可以获取待处理视频的描述文本，该描述文本可以是待处理视频的标题，或者是待处理视频的简介，或者是待处理视频的音频转换成的字幕等。然后可以通过第三特征提取模型的TextCNN网络对描述文本进行特征提取，得到第一文本特征信息，例如，可以通过TextCNN网络对描述文本进行卷积操作和池化操作等，以提取特征，得到第一文本特征信息。

在一实施方式中，通过第三特征提取模型的文本分类网络对描述文本进行特征提取，得到第一文本特征信息，通过第三特征提取模型的双向传感器定义网络对描述文本进行特征提取，得到第二文本特征信息可以包括：将描述文本进行切词处理，得到至少一个词语；将词语映射为特征向量；通过第三特征提取模型的文本分类网络基于特征向量对描述文本进行特征提取，得到第一文本特征信息；通过第三特征提取模型的双向传感器定义网络基于特征向量对描述文本进行特征提取，得到第二文本特征信息。

例如，可以将描述文本(例如标题)进行切词处理，得到至少一个词语，高词语可以是一个字符或多个字符等，该字符可以是英文或中文等，其中，该切词处理方式可以根据实际需要进行灵活设置，例如切词处理可以是结巴中文分词，例如，可以识别描述文本中组成词语的文本，按照该文本所在描述文本中的位置进行切词处理，或者可以每间隔预设字符对描述文本进行切词处理等。在得到描述文本对应的词语后，可以将词语映射为特征向量，例如，可以获取预先设置的不同词语与特征向量之间的映射关系，基于该映射关系查找与切词得到的词语对应的特征向量。又例如，可以将每个词语基于映射模型(BidirectionalEncoder Representations from Transformers，BERT)训练的词语映射为200维特征向量，200维特征向量即为词语对应的特征向量。

然后可以通过第三特征提取模型的TextCNN网络基于特征向量对描述文本进行特征提取，得到第一文本特征信息，该第一文本特征信息可以是600维的特性向量；通过第三特征提取模型的BiLSTM网络基于特征向量对描述文本进行特征提取，得到第二文本特征信息，该第二文本特征信息可以是1024维的特性向量。此时可以将第一文本特征信息和第二文本特征信息进行拼接，得到目标文本特征信息，例如，可以600维的第一文本特征信息和1024维的第二文本特征信息进行首尾拼接，得到1624维的目标文本特征信息。

如图3所示，在得到视频图像帧时序特征信息、音频时序特征信息和目标文本特征信息后，可以将视频图像帧时序特征信息、音频时序特征信息和目标文本特征信息进行融合，得到第一融合后特征信息。例如，可以将1536维的视频图像帧时序特征信息、1024维的音频时序特征信息、以及1624维的目标文本特征信息进行拼接，得到4184维的第一融合后特征信息。

S102、根据第一融合后特征信息，获取待处理视频的多模态聚合特征。

其中，多模态聚合特征可以是基于视频图像帧时序特征信息、音频时序特征信息和目标文本特征信息融合得到的第一融合后特征信息进行计算的得到的特征，即多模态聚合特征包含了待处理视频的视频图像、音频和描述文本等对应的特征。

在一实施方式中，根据第一融合后特征信息，获取待处理视频的多模态聚合特征可以包括：通过视频嵌入模型的全连接层对第一融合后特征信息进行全连接处理，得到待处理视频的多模态聚合特征。

其中，视频嵌入模型的类型和结构等可以根据实际需要进行灵活设置，例如，如图3所示，视频嵌入模型可以包括多层全连接层(例如三层全连接层)，可以通过视频嵌入模型的三层全连接层对第一融合后特征信息进行全连接处理，得到256维的特征向量，该256维的特征向量即为待处理视频的多模态聚合特征(embedding)。

需要说明的是，视频嵌入模型可以是预先训练好的模型，例如，可以获取预先标注标签的多个视频样本，该多个视频样本出现的标签数为T，可以通过初始的视频嵌入模型(即未训练的视频嵌入模型)获取视频样本的多模态聚合特征，将256维的多模态聚合特征映射为T维的特征向量，然后T维的特征向量经过视频嵌入模型的激活函数(Sigmoid)预测视频样本的标签，得到预测标签及其对应的概率分值，第i维的概率分值越大，代表第i个标签与这个视频样本越相关。视频嵌入模型通过梯度下降以及反向传播算法等进行训练，直至模型收敛，得到训练后的视频嵌入模型。使得训练后的视频嵌入模型可以学习到视频样本的视频图像帧、音频、描述文本、以及标签分布等特征，从而提高训练后的视频嵌入模型对视频的多模态聚合特征embedding的聚类效果。

S103、提取待处理视频的音视频聚合特征信息，对音视频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息。

其中，待处理视频的音视频聚合特征信息可以包括视频图像帧聚合特征信息和音频聚合特征信息等，视频图像帧聚合特征信息可以是构成待处理视频的多帧图像对应的图像特征，音频聚合特征信息可以是待处理视频中音频对应的特征。在得到待处理视频后，可以提取待处理视频的视频图像帧聚合特征信息和音频聚合特征信息等，以便对音视频图像帧聚合特征信息、音频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息。

在一实施方式中，音视频聚合特征信息包括视频图像帧聚合特征信息，提取待处理视频的音视频聚合特征信息可以包括：按照第一预设时间间隔从待处理视频中抽取预设帧数的第二视频图像帧；通过第一特征提取模型对第二视频图像帧进行特征提取，得到第二图像帧特征信息；将第二图像帧特征信息通过图像帧聚合网络进行聚合处理，得到视频图像帧聚合特征信息。

其中，第一特征提取模型与上述的第一特征提取模型类似，具体在此处不作赘述，图像帧聚合网络的类型和结构等可以根据实际需要进行灵活设置，例如，图像帧聚合网络可以是图像帧的局部聚合描述符向量网络(Vector of Locally AggregatedDescriptors，NextVLAD)，NextVLAD网络等可以是训练好的模型。为了提高视频图像帧聚合特征信息获取的可靠性，可以通过训练好的第一特征提取模型和图像帧聚合网络等获取视频图像帧聚合特征信息。具体地，如图4所示，首先可以按照第一预设时间间隔从待处理视频中抽取预设帧数的第二视频图像帧，该第一预设时间间隔和预设帧数等可以根据实际需要进行灵活设置，例如，可以每间隔1秒从待处理视频中抽取1帧图像，得到第二视频图像帧，该第二视频图像帧包括一张或多张视频图像，若待处理视频的时长为T秒，则得到的第二视频图像帧的帧数为T。

然后，可以通过第一特征提取模型对第二视频图像帧进行特征提取，得到第二图像帧特征信息，例如，可以通过EfficientNet模型对第二视频图像帧中的每一帧图像均进行卷积操作和池化操作等，每帧图像均对应得到一个1536维的特征向量，由于第二视频图像帧有T帧图像，因此EfficientNet模型最终可以输出T*1536维的张量，该T*1536维的张量即为第二图像帧特征信息。此时，可以将第二图像帧特征信息通过图像帧聚合网络进行聚合处理，得到视频图像帧聚合特征信息。例如，可以T*1536维的张量通过NextVLAD网络进行聚合处理，得到1024维的特征向量，该1024维的特征向量即为视频图像帧聚合特征信息。

在一实施方式中，音视频聚合特征信息包括音频聚合特征信息，提取待处理视频的音视频聚合特征信息可以包括：按照第二预设时间间隔对待处理视频中的音频进行划分，得到预设段数的第二音频段；对第二音频段进行频域运算，得到第二频域特征；通过第二特征提取模型基于第二频域特征对第二音频段进行特征提取，得到第二音频特征信息；将第二音频特征信息通过音频聚合网络进行聚合处理，得到音频聚合特征信息。

其中，音频聚合网络的具体类型和结构等可以根据实际需要进行灵活设置，例如，音频聚合网络可以是音频的局部聚合描述符向量网络(Vector of Locally AggregatedDescriptors，NextVLAD)，该音频的NextVLAD网络与上述视频图像帧的NextVLAD网络可以类似。为了提高音频聚合特征信息获取的精准性和灵活性，可以通过第二特征提取模型和音频聚合网络等获取音频聚合特征信息。具体地，如图4所示，首先可以按照第二预设时间间隔对待处理视频中的音频进行划分，得到预设段数的第二音频段，其中，第二预设时间间隔和预设段数等可以根据实际需要进行灵活设置，例如，可以将待处理视频每隔0.96秒划分为一段，得到第二音频段，若待处理视频的时长为T秒，则划分得到第二音频段的段数为T/0.96。然后可以对第二音频段进行频域运算，得到第二频域特征，其中，频域运算可以包括短时傅里叶变换(short-time Fourier transform，STFT)和梅尔倒谱变换(MelFrequency Cepstrum Coefficient，MFCC)等。例如，可以将第二音频段经过短时傅里叶变换得到频域音频，对该频域音频进行梅尔倒谱变换得到第二频域特征，即将频域音频转化为96*64维的梅尔频谱图向量，该96*64维的梅尔频谱图向量即为第二频域特征。

此时，可以通过第二特征提取模型基于第二频域特征对第二音频段进行特征提取，得到第二音频特征信息。例如，可以通过VGGish模型基于第二频域特征对第二音频段中各音频段进行卷积操作和池化操作等，输出每一音频段对应的128维特征向量，由于第一音频段可以包括T/0.96段音频段，因此VGGish模型最终可以输出(T/0.96)*128维的张量，该(T/0.96)*128维的张量即为第二音频特征信息。可以将第二音频特征信息通过音频聚合网络进行聚合处理，得到音频聚合特征信息，例如，可以将(T/0.96)*128维的第二音频特征信息通过NextVLAD网络进行聚类，以筛选出与聚类中心之间的距离满足条件的特征向量，得到1024维的特征向量，该1024维的特征向量即为音频聚合特征信息。

如图4所示，在得到音视频图像帧聚合特征信息、音频聚合特征信息和目标文本特征信息后，可以对音视频图像帧聚合特征信息、音频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息，例如，可以将1024维的音视频图像帧聚合特征信息、1024维的音频聚合特征信息、以及1624维的目标文本特征信息进行拼接，得到3672维的第二融合后特征信息。

S104、根据第二融合后特征信息确定待处理视频的类别信息。

在一实施方式中，根据第二融合后特征信息确定待处理视频的类别信息可以包括：通过视频嵌入模型的三层全连接层对第二融合后特征信息进行全连接处理，得到待处理视频的候选多模态聚合特征；通过视频嵌入模型的一层全连接层，将候选多模态聚合特征转化为预设维度的特征向量；通过视频嵌入模型的分类函数基于特征向量确定待处理视频的候选类别信息及其对应的类别概率；将类别概率最大的候选类别信息作为待处理视频的类别信息。

其中，视频嵌入模型的类型和结构等可以根据实际需要进行灵活设置，例如，视频嵌入模型可以包括三层全连接层、一层全连接层以及分类函数等。为了提高待处理视频的类别信息确定的精准性，如图4所示，可以通过视频嵌入模型的三层全连接层对第二融合后特征信息进行全连接处理，得到待处理视频的候选多模态聚合特征，该候选多模态聚合特征可以为256维，然后通过视频嵌入模型的一层全连接层，将候选多模态聚合特征转化为预设维度的特征向量，例如，若视频数据库中视频的类别数量为C，则可以将256维的候选多模态聚合特征与C维矩阵相乘，以将候选多模态聚合特征转化为C维度的特征向量。此时可以通过视频嵌入模型的分类函数(例如Softmax函数)基于特征向量确定待处理视频的候选类别信息及其对应的类别概率，可以将类别概率最大的候选类别信息作为待处理视频的类别信息。

S105、从预设的视频数据库中筛选出与类别信息匹配的视频，得到目标候选视频集，视频数据库中包括设置有标签的视频。

其中，预设的视频数据库可以是用于存储已设置标签的视频池，可以从视频数据库中筛选出与类别信息相同或相似度大于预设相似度阈值的视频，得到目标候选视频集，该预设相似度阈值可以根据实际需要进行灵活设置。

在一实施方式中，从预设的视频数据库中筛选出与类别信息匹配的视频，得到目标候选视频集可以包括：从预设的视频数据库中筛选出与待处理视频的相似度高于第一预设值的前第一预设个视频，得到第一候选视频集；从第一候选视频集中筛选出与类别信息匹配的视频，得到第二候选视频集；从第二候选视频集中筛选出与待处理视频的相似度高于第二预设值的前第二预设个视频，得到目标候选视频集。

具体地，可以计算视频数据库中每个视频与待处理视频之间的相似度，例如，可以使用余弦相似度衡量两个视频的相似度，可以按照上述方式获取视频数据库中每个视频对应的多模态聚合特征，将视频数据库中视频的多模态聚合特征记为x，待处理视频对应的多模态聚合特征记为y，多模态聚合特征的维数为d，则视频数据库中视频与待处理视频之间的余弦相似度可以为sim，其具体计算方式可以如公式(1)所示：

然后，可以从视频数据库中筛选出与待处理视频的相似度高于第一预设值的前第一预设个视频，得到第一候选视频集，例如可以从视频数据库中筛选出与待处理视频的相似度最高的前50个视频，得到第一候选视频集。其次，获取第一候选视频集中每个视频对应的类别信息，从第一候选视频集中筛选出与待处理视频的类别信息匹配的视频，得到第二候选视频集，此时可以从第二候选视频集中筛选出与待处理视频的相似度高于第二预设值的前第二预设个视频(例如前20个视频)，得到目标候选视频集，从而提高了目标候选视频集筛选的可靠性和效率。需要说明的是，若第一候选视频集中不存在与待处理视频的类别信息匹配的视频，则可以将第一候选视频集中与待处理视频的相似度高于第二预设值的前20个视频作为第二候选视频集。

S106、基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度满足预设条件的目标视频，根据目标视频的标签为待处理视频设置标签。

其中，预设条件可以根据实际需要进行灵活设置，例如，可以基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度大于预设阈值的目标视频，或者基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度最大的目标视频等。然后可以将目标视频的标签设置为待处理视频的标签，或者将目标视频的标签最为参考标签，从参考标签中进一步筛选出目标标签作为待处理视频的标签。

在一实施方式中，基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度满足预设条件的目标视频，根据目标视频的标签为待处理视频设置标签可以包括：根据多模态聚合特征计算目标候选视频集中的视频与待处理视频之间的相似度，根据相似度确定权重值；根据权重值计算目标候选视频集中的视频的标签的标签概率分值；将标签概率分值满足预设条件的目标视频的标签设置为待处理视频的标签。

为了提高对待处理视频标签设置的准确性，可以通过计算标签的标签概率分值来设置待处理视频的标签。例如，可以按照上述方式计算目标候选视频集中视频的多模态聚合特征，然后可以根据待处理视频的多模态聚合特征和目标候选视频集中视频的多模态聚合特征，按照上述公式(1)计算目标候选视频集中的视频与待处理视频之间的相似度。然后可以根据相似度(即相似度值)确定权重值，例如可以将相似度值设置为权重值，或者可以对相似度值进行运算(例如将相似度值与某个数值进行相加、相减或相乘等运算)，并将运算结果作为权重值。此时可以根据权重值计算目标候选视频集中的视频的标签的标签概率分值，例如，对于待处理视频v，目标候选视频集中包括m个视频分别为v₁、v₂、......、以及v_m等，这m个视频与视频v的余弦相似度分别记为sim₁、sim₂、......、sim_m等，设目标候选视频集中第i个视频的标签集合为T_i，其中有n_i个标签，则该视频对某个标签j的权重值即为sim_j，设这m个视频的标签并集的基数为n，将第j个标签记为t_j，则t_j的标签概率分值score_j为：

其中II是指示函数，当标签t_j在第i个视频的标签集合T_j时，II取值为1，否则取值为0。在对每个标签完成标签概率分值计算后，可以将标签概率分值满足预设条件的目标视频的标签设置为待处理视频的标签。

在一实施方式中，将标签概率分值满足预设条件的目标视频的标签设置为待处理视频的标签可以包括：当存在标签概率分值大于预设阈值的标签时，将标签概率分值大于预设阈值的标签设置为待处理视频的标签；当不存在标签概率分值大于预设阈值的标签时，将标签概率分值最大的标签设置为待处理视频的标签。

例如，在对每个标签完成标签概率分值计算后，可以将每个标签的标签概率分值与预先设定的预设阈值thr作比较，当存在标签概率分值大于预设阈值thr的标签时，将标签概率分值大于预设阈值thr的标签设置为待处理视频的标签；当不存在标签概率分值大于预设阈值thr的标签时，将标签概率分值最大的标签设置为待处理视频的标签。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本实施例以视频标签设置装置集成在服务器为例，对视频标签设置过程进行详细说明，请参阅图5，图5为本申请实施例提供的视频标签设置方法的流程示意图。该方法流程可以包括：

S201、获取待处理视频，提取待处理视频的视频图像帧时序特征信息、音频时序特征信息和目标文本特征信息。

例如，服务器可以按照预设抽取间距从待处理视频中抽取预设帧数(例如64帧)的第一视频图像帧，通过EfficientNet模型对第一视频图像帧进行特征提取，得到64*1536维的第一图像帧特征信息，将第一图像帧特征信息通过TRN网络进行时序特征提取，得到1536维的视频图像帧时序特征信息。

以及，服务器可以按照预设时间间隔(例如每隔0.96秒)对待处理视频中的音频进行划分，得到预设段数的第一音频段，然后可以按照预设采样间距对第一音频段进行等间距采样，得到采样音频(可以包括256个采样点)，以及对采样音频进行短时傅里叶变换和梅尔倒谱变换等频域运算，得到采样音频对应的第一频域特征。此时可以通过VGGish模型基于第一频域特征对待处理视频中的音频进行特征提取，得到256*128维的第一音频特征信息，将第一音频特征信息通过TRN网络进行时序特征提取，得到1024维的音频时序特征信息。

以及，服务器可以获取待处理视频的描述文本(例如标题)，将描述文本进行切词处理，得到至少一个词语，以及将词语映射为特征向量，然后可以通过第三特征提取模型的TextCNN网络基于特征向量对描述文本进行特征提取，得到第一文本特征信息，以及通过第三特征提取模型的BiLSTM网络基于特征向量对描述文本进行特征提取，得到第二文本特征信息。此时可以将600维的第一文本特征信息和1024维的第二文本特征信息进行拼接，得到1624维的目标文本特征信息。

S202、对视频图像帧时序特征信息、音频时序特征信息和目标文本特征信息进行融合，得到第一融合后特征信息。

例如，在得到视频图像帧时序特征信息、音频时序特征信息和目标文本特征信息后，服务器可以将1536维的视频图像帧时序特征信息、1024维的音频时序特征信息、以及1624维的目标文本特征信息进行拼接，得到4184维的第一融合后特征信息。

S203、根据第一融合后特征信息，获取待处理视频的多模态聚合特征。

例如，服务器可以通过视频嵌入模型的三层全连接层对第一融合后特征信息进行全连接处理，得到待处理视频的256维的多模态聚合特征。

S204、提取待处理视频的视频图像帧聚合特征信息和音频聚合特征信息。

例如，服务器可以按照第一预设时间间隔(例如每间隔1秒)从待处理视频中抽取预设帧数的第二视频图像帧，然后通过EfficientNet模型对第二视频图像帧进行特征提取，得到T*1536维的第二图像帧特征信息，此时可以将第二图像帧特征信息通过NextVLAD网络进行聚合处理，得到1024维的视频图像帧聚合特征信息。

以及，服务器可以按照第二预设时间间隔(例如每隔0.96秒)对待处理视频中的音频进行划分，得到预设段数(例如T/0.96)的第二音频段。然后可以对第二音频段进行短时傅里叶变换和梅尔倒谱变换等频域运算，得到第二频域特征。此时可以通过VGGish模型基于第二频域特征对第二音频段进行特征提取，得到(T/0.96)*128维的第二音频特征信息，以及将第二音频特征信息通过NextVLAD网络进行聚合处理，得到1024维的音频聚合特征信息。

S205、对视频图像帧聚合特征信息、音频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息。

在得到音视频图像帧聚合特征信息、音频聚合特征信息和目标文本特征信息后，服务器可以将1024维的音视频图像帧聚合特征信息、1024维的音频聚合特征信息、以及1624维的目标文本特征信息进行拼接，得到3672维的第二融合后特征信息。

S206、根据第二融合后特征信息确定待处理视频的类别信息。

例如，服务器可以通过视频嵌入模型的三层全连接层对第二融合后特征信息进行全连接处理，得到待处理视频的候选多模态聚合特征，然后可以通过视频嵌入模型的一层全连接层，将候选多模态聚合特征转化为预设维度的特征向量，以及通过视频嵌入模型的分类函数基于特征向量确定待处理视频的候选类别信息及其对应的类别概率，将类别概率最大的候选类别信息作为待处理视频的类别信息。

S207、从视频数据库中筛选出与待处理视频的相似度高于第一预设值的前N个视频，得到第一候选视频集。

该视频数据库(即视频池)可以是用于存储预设时间段内(例如近一个月或两个月等)已设置标签的视频，例如，服务器可以计算视频数据库中每个视频与待处理视频之间的相似度，例如，可以使用余弦相似度衡量两个视频的相似度，可以获取视频数据库中每个视频对应的多模态聚合特征，将视频数据库中视频的多模态聚合特征记为x，待处理视频对应的多模态聚合特征记为y，多模态聚合特征的维数为d，则可以按照上述余弦相似度计算公式计算视频数据库中视频与待处理视频之间的余弦相似度sim。然后可以从视频数据库中筛选出与待处理视频的相似度高于第一预设值的前N个(例如N＝50个)视频，得到第一候选视频集。

需要说明的是，视频池可以是一个滑动窗口，每天都会将最近一天的有人审标签的视频加入，并将最远一天的视频退出(即删除)。当一个未知标签的视频(即待处理视频)出现时，首先从视频池中求与待处理视频最相近的视频，再通过筛选策略筛选这部分视频(即与待处理视频最相近的视频)的标签，迁移到待处理视频上，从而实现自动为待处理视频打标签，以免除人工审核打标签，提高待处理视频标签设置的效率。

例如，可以构造最近一个月内已设置标签的视频对应的视频池，可以每天往视频池中加入当天人工审核并设置标签的视频，并将最远一天的视频剔除，保持视频池的新鲜度。此时视频池中的视频，既有长期频繁出现的标签，又有新热标签，因此当需要计算一个未知标签的视频(即待处理视频)的标签时，可以在视频池中求与其余弦相似度最高的若干个视频，将若干个视频的标签，通过一定的策略迁移到待处理视频上，此时该待处理视频既能打上长期频繁出现的标签，又能打上新热标签。

S208、从第一候选视频集中筛选出与类别信息匹配的视频，得到第二候选视频集。

例如，服务器可以获取第一候选视频集中每个视频对应的类别信息，基于分类筛选策略从第一候选视频集中筛选出与待处理视频的类别信息匹配的视频，得到第二候选视频集。

需要说明的是，多模态聚合特征embedding与待处理视频相近的视频，虽然较大概率也是跟待处理视频相同或相似主题的，但由于多模态聚合特征embedding将视频压缩成低维且高密度的向量，可能会存在信息损失，因此相近的视频中也可能存在与待处理视频的主题完全不相关的，如果将这些不相关视频的标签迁移到待处理视频上，则会对标签迁移的准确度产生负面影响。有鉴于此，本申请实施例提出了分类筛选策略，以筛选出与待处理视频的类别信息匹配的视频，尽可能将最近邻中，与待处理视频有着相同类别的视频的标签迁移过来，而不迁移不同类别的视频的标签。

S209、从第二候选视频集中筛选出与待处理视频的相似度高于第二预设值的前K个视频，得到目标候选视频集。

例如，如图6所示，在步骤S1至步骤S6中，服务器可以获取第二候选视频集中每个视频对应的多模态聚合特征，根据第二候选视频集中每个视频的多模态聚合特征，以及待处理视频对应的多模态聚合特征，计算第二候选视频集中每个视频与待处理视频之间的相似度。基于互K近邻策略从第二候选视频集中筛选出与待处理视频的相似度高于第二预设值的前K个(例如K＝20个)视频，得到目标候选视频集，以便后续可以基于目标候选视频集中是否存在与待处理视频互为邻近的视频(即相似度高的视频)进行标签迁移，以为待处理视频设置标签。

需要说明的是，互K近邻策略要求待处理视频v，对其召回的K个相似视频，分别计算这些视频的K个最邻近视频。对第二候选视频集中视频v1，如果v在第二候选视频集v1的最近邻中，才将第二候选视频集中视频v1作为标签迁移的考虑对象。互K近邻策略对候选视频做了更严格的限制，确保候选视频和待处理视频确实是互为近邻的关系，有助于提高标签迁移的准确度。若经过互K近邻策略限制后，没有符合条件的候选视频，则取余弦相似度最高的20个视频，作为标签迁移的考虑对象。

S210、根据多模态聚合特征计算目标候选视频集中的视频与待处理视频之间的相似度。

例如，服务器可以获取目标候选视频集中的视频的多模态聚合特征，根据待处理视频的多模态聚合特征，以及目标候选视频集中的视频的多模态聚合特征，计算目标候选视频集中的视频与待处理视频之间的相似度。

S211、根据相似度确定目标候选视频集中视频的标签对应的标签概率分值。

服务器可以根据相似度标签权重得分策略基于相似度确定权重值，例如，服务器可以将相似度值设置为权重值，或者可以对相似度值进行运算(例如将相似度值与某个数值进行相加、相减或相乘等运算)，并将运算结果作为权重值。然后可以按照上述方式根据权重值计算目标候选视频集中的视频的标签的标签概率分值。

需要说明的是，对待处理视频v，若候选视频v1的embedding越靠近v的embedding，则意味着v1和v在语义上越相似，故做标签迁移时，该候选视频v1理应具有更大的贡献。因此，本实施例中引入相似度标签权重得分策略，旨在区分不同候选视频对结果的贡献度高低。例如，如图7所示，在步骤S11至步骤S18中，服务器可以针对待处理视频V，从视频数据库中召回m个设置有标签的视频，以及计算m个视频与待处理视频V之间的相似度，基于相似度计算视频各个标签的相似度权重的分值(即标签概率分值)，以便后续可以将分值与预设阈值比较，以判断是否有标签的分值大于预设阈值，若有，则迁移分值大于预设阈值的标签，若无，则迁移分值大最大的标签。

S212、将标签概率分值满足预设条件的目标视频的标签设置为待处理视频的标签。

例如，在对每个标签完成标签概率分值计算后，服务器可以将每个标签的标签概率分值与预先设定的预设阈值thr作比较，当存在标签概率分值大于预设阈值thr的标签时，将标签概率分值大于预设阈值thr的标签设置为待处理视频的标签；当不存在标签概率分值大于预设阈值thr的标签时，将标签概率分值最大的标签设置为待处理视频的标签。

本实施例对于待处理视频，可以通过从视频池中筛选与其最相近的若干个视频，将这些视频的标签通过分类筛选、互K近邻、相似度标签权重得分等策略，确定将哪些标签迁移到待处理视频上，提高了标签迁移的准确度。并且，利用元学习的概念，通过在某些任务上预先训练模型，再将模型稍加改造，运用到新任务上，从而达到不用重训模型，模型也能在这些任务上运用的目的。如果将针对已知标签的打标签模型训练视为已知任务，将针对未知标签的打标签视为新任务，则属于任务迁移的范畴，符合元学习的定义，可以用元学习的方法来解决。协同embedding即是一种元学习的方法，该方法利用已经训练好的模型的中间层embedding，在新任务上也运用这些embedding做相似计算，从而达到不用重训模型，并利用已有模型学到的语义相似能力的目的。例如，现有的视频标签设置方案中，若有新标签加入，则需要重新对模型进行训练，而本申请的实施例中，即使有新标签加入，不需要重新训练模型，只需要生成embedding对视频池中的视频进行召回。

例如，如图8所示，在本申请实施例的视频标签设置方法的流程中，如步骤S21至步骤S33中，服务器可以获取待处理视频V，从待处理视频V中抽取图像帧、音频、以及标题信息等，然后按照上述方式提取图像帧、音频、以及标题信息等对应的特征信息来计算待处理视频V的多模态聚合特征和类别信息等，其次，可以基于多模态聚合特征和类别信息等，按照上述方式从视频数据库中召回N个视频，以及进行分类筛选和互K近邻等操作，判断最近邻视频池是否为空，若是，则取相似度最高的K个视频进入最近邻视频池，若否，则维持原有的最近邻视频池。此时可以计算最近邻视频池中视频对应的所有标签的分值(即标签概率分值)，判断是否有标签的分值大于预设阈值，若是，则迁移分值大于预设阈值的标签作为待处理视频的标签，若否，则迁移分值大最大的标签作为待处理视频的标签。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对视频标签设置方法的详细描述，此处不再赘述。

本申请实施例可以基于音视频时序特征信息和目标文本特征信息融合得到的第一融合后特征信息准确获取待处理视频的多模态聚合特征，以及基于音视频聚合特征信息和目标文本特征信息融合得到的第二融合后特征信息精准确定待处理视频的类别信息，快速从视频数据库中筛选出与类别信息匹配的目标候选视频集，并基于多模态聚合特征从目标候选视频集中筛选出的目标视频的标签为待处理视频设置标签，提高了对视频标签设置的准确性和效率。

以下将以短视频和小视频作为例进行实验，在离线实验时，取预设时间段内(例如2020年8月1日至8月31日)有人审标签的短视频和小视频，分别构造短视频和小视频的召回池(即视频池)，取某个时间段(例如2020年9月1日)有人审标签(人审标签即为人工审核并打上的标签)的短视频和小视频来计算结果。

其中，评测指标是微准确率和微召回率，设需要计算标签结果的视频数为n，对第i个视频，其人审标签集合是T_Hi，应用本申请视频标签设置方法打上的标签集合是T_Ai，则微准确率的计算公式可以为：

微召回率的计算公式可以为：

这两个指标都是越高越好。

在短视频上分别做实验，并验证本申请中所采用分类筛选策略、互K近邻策略以及相似度标签权重得分策略等策略的有效性，实验结果分别如表1和表2所示。其中，基线方法即为不加任何策略的协同embedding标签迁移方法。

表1短视频标签迁移的实验结果

表2小视频标签迁移的实验结果

上述实验验证了，本申请提出的视频标签设置方法，以及分类筛选策略、互K近邻策略以及相似度标签权重得分策略等三个创新性的策略改进，都是有效的。线上实际使用过程中，人审每天只需要给20％或少于20％的视频打标签，剩余的标签通过本申请提出的视频标签设置方法进行标签迁移，在下游的排序以及推荐等场景，即可达到相当的效果。相当于每日减少了至少80％的标签人审量，至少节约了80％的标签人审成本。

为便于更好的实施本申请实施例提供的视频标签设置方法，本申请实施例还提供一种基于上述视频标签设置方法的装置。其中名词的含义与上述视频标签设置方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图9，图9为本申请实施例提供的视频标签设置装置的结构示意图，其中该视频标签设置装置可以包括第一处理单元301、特征获取单元302、第二处理单元303、确定单元304、筛选单元305以及设置单元306等。

其中，第一处理单元301，用于获取待处理视频，提取待处理视频的音视频时序特征信息和目标文本特征信息，并对音视频时序特征信息和目标文本特征信息进行融合，得到第一融合后特征信息。

特征获取单元302，用于根据第一融合后特征信息，获取待处理视频的多模态聚合特征。

第二处理单元303，用于提取待处理视频的音视频聚合特征信息，对音视频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息。

确定单元304，用于根据第二融合后特征信息确定待处理视频的类别信息。

筛选单元305，用于从预设的视频数据库中筛选出与类别信息匹配的视频，得到目标候选视频集，视频数据库中包括设置有标签的视频。

设置单元306，用于基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度满足预设条件的目标视频，根据目标视频的标签为待处理视频设置标签。

在一实施方式中，音视频时序特征信息包括视频图像帧时序特征信息，第一处理单元301可以包括：

抽取子单元，用于按照预设抽取间距从待处理视频中抽取预设帧数的第一视频图像帧；

第一提取子单元，用于通过第一特征提取模型对第一视频图像帧进行特征提取，得到第一图像帧特征信息；

第二提取子单元，用于将第一图像帧特征信息通过帧时序关系推理网络进行时序特征提取，得到视频图像帧时序特征信息。

在一实施方式中，音视频时序特征信息包括音频时序特征信息，第一处理单元301可以包括：

第一获取子单元，用于获取待处理视频中的音频的第一频域特征；

第三提取子单元，用于通过第二特征提取模型基于第一频域特征对待处理视频中的音频进行特征提取，得到第一音频特征信息；

第四提取子单元，用于将第一音频特征信息通过音频时序关系推理网络进行时序特征提取，得到音频时序特征信息。

在一实施方式中，第一获取子单元具体可以用于：按照预设时间间隔对待处理视频中的音频进行划分，得到预设段数的第一音频段；按照预设采样间距对第一音频段进行等间距采样，得到采样音频；对采样音频进行频域运算，得到采样音频对应的第一频域特征；

第三提取子单元具体可以用于：通过第二特征提取模型基于第一频域特征对第一音频段进行特征提取，得到第一音频特征信息。

在一实施方式中，第一处理单元301可以包括：

第二获取子单元，用于获取待处理视频的描述文本；

第五提取子单元，用于通过第三特征提取模型的文本分类网络对描述文本进行特征提取，得到第一文本特征信息；

第六提取子单元，用于通过第三特征提取模型的双向传感器定义网络对描述文本进行特征提取，得到第二文本特征信息；

拼接子单元，用于将第一文本特征信息和第二文本特征信息进行拼接，得到目标文本特征信息。

在一实施方式中，第五提取子单元具体可以用于：将描述文本进行切词处理，得到至少一个词语；将词语映射为特征向量；通过第三特征提取模型的文本分类网络基于特征向量对描述文本进行特征提取，得到第一文本特征信息；

第六提取子单元具体可以用于：通过第三特征提取模型的双向传感器定义网络基于特征向量对描述文本进行特征提取，得到第二文本特征信息。

在一实施方式中，特征获取单元302具体可以用于：通过视频嵌入模型的全连接层对第一融合后特征信息进行全连接处理，得到待处理视频的多模态聚合特征。

在一实施方式中，音视频聚合特征信息包括视频图像帧聚合特征信息，第二处理单元303具体可以用于：按照第一预设时间间隔从待处理视频中抽取预设帧数的第二视频图像帧；通过第一特征提取模型对第二视频图像帧进行特征提取，得到第二图像帧特征信息；将第二图像帧特征信息通过图像帧聚合网络进行聚合处理，得到视频图像帧聚合特征信息。

在一实施方式中，音视频聚合特征信息包括音频聚合特征信息，第二处理单元303具体可以用于：按照第二预设时间间隔对待处理视频中的音频进行划分，得到预设段数的第二音频段；对第二音频段进行频域运算，得到第二频域特征；通过第二特征提取模型基于第二频域特征对第二音频段进行特征提取，得到第二音频特征信息；将第二音频特征信息通过音频聚合网络进行聚合处理，得到音频聚合特征信息。

在一实施方式中，确定单元304具体可以用于：通过视频嵌入模型的三层全连接层对第二融合后特征信息进行全连接处理，得到待处理视频的候选多模态聚合特征；通过视频嵌入模型的一层全连接层，将候选多模态聚合特征转化为预设维度的特征向量；通过视频嵌入模型的分类函数基于特征向量确定待处理视频的候选类别信息及其对应的类别概率；将类别概率最大的候选类别信息作为待处理视频的类别信息。

在一实施方式中，筛选单元305具体可以用于：从预设的视频数据库中筛选出与待处理视频的相似度高于第一预设值的前第一预设个视频，得到第一候选视频集；从第一候选视频集中筛选出与类别信息匹配的视频，得到第二候选视频集；从第二候选视频集中筛选出与待处理视频的相似度高于第二预设值的前第二预设个视频，得到目标候选视频集。

在一实施方式中，设置单元306具体可以用于：根据多模态聚合特征计算目标候选视频集中的视频与待处理视频之间的相似度，根据相似度确定权重值；根据权重值计算目标候选视频集中的视频的标签的标签概率分值；将标签概率分值满足预设条件的目标视频的标签设置为待处理视频的标签。

在一实施方式中，设置单元306具体可以用于：当存在标签概率分值大于预设阈值的标签时，将标签概率分值大于预设阈值的标签设置为待处理视频的标签；当不存在标签概率分值大于预设阈值的标签时，将标签概率分值最大的标签设置为待处理视频的标签。

本申请实施例可以由第一处理单元301获取待处理视频，提取待处理视频的音视频时序特征信息和目标文本特征信息，并对音视频时序特征信息和目标文本特征信息进行融合，得到第一融合后特征信息；然后可以由特征获取单元302根据第一融合后特征信息，获取待处理视频的多模态聚合特征，以及由第二处理单元303提取待处理视频的音视频聚合特征信息，对音视频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息；其次，可以由确定单元304根据第二融合后特征信息确定待处理视频的类别信息，由筛选单元305从预设的视频数据库中筛选出与类别信息匹配的视频，得到目标候选视频集，视频数据库中包括设置有标签的视频；此时可以由设置单元306基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度满足预设条件的目标视频，根据目标视频的标签为待处理视频设置标签。该方案可以基于音视频时序特征信息和目标文本特征信息融合得到的第一融合后特征信息准确获取待处理视频的多模态聚合特征，以及基于音视频聚合特征信息和目标文本特征信息融合得到的第二融合后特征信息精准确定待处理视频的类别信息，快速从视频数据库中筛选出与类别信息匹配的目标候选视频集，并基于多模态聚合特征从目标候选视频集中筛选出的目标视频的标签为待处理视频设置标签，相对于现有需要频繁对模型训练以及基于单一特征预测视频标签，降低了对视频标签设置的成本，以及提高了对视频标签设置的准确性和效率。

本申请实施例还提供一种计算机设备，该计算机设备可以是服务器或终端，如图10所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图10中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待处理视频，提取待处理视频的音视频时序特征信息和目标文本特征信息，并对音视频时序特征信息和目标文本特征信息进行融合，得到第一融合后特征信息；根据第一融合后特征信息，获取待处理视频的多模态聚合特征；提取待处理视频的音视频聚合特征信息，对音视频聚合特征信息和目标文本特征信息进行融合，得到第二融合后特征信息；根据第二融合后特征信息确定待处理视频的类别信息；从预设的视频数据库中筛选出与类别信息匹配的视频，得到目标候选视频集，视频数据库中包括设置有标签的视频；基于多模态聚合特征从目标候选视频集中筛选出与待处理视频之间的相似度满足预设条件的目标视频，根据目标视频的标签为待处理视频设置标签。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成，或通过计算机指令控制相关的硬件来完成，该计算机指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本申请实施例提供一种存储介质，其中存储有计算机程序，计算机程序可以包括计算机指令，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种视频标签设置方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频标签设置方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频标签设置方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频标签设置方法、装置、计算机设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频标签设置方法，其特征在于，包括：

2.根据权利要求1所述的视频标签设置方法，其特征在于，所述音视频时序特征信息包括视频图像帧时序特征信息，所述提取所述待处理视频的音视频时序特征信息包括：

按照预设抽取间距从所述待处理视频中抽取预设帧数的第一视频图像帧；

通过第一特征提取模型对所述第一视频图像帧进行特征提取，得到第一图像帧特征信息；

将所述第一图像帧特征信息通过帧时序关系推理网络进行时序特征提取，得到视频图像帧时序特征信息。

3.根据权利要求1所述的视频标签设置方法，其特征在于，所述音视频时序特征信息包括音频时序特征信息，所述提取所述待处理视频的音视频时序特征信息包括：

获取所述待处理视频中的音频的第一频域特征；

通过第二特征提取模型基于所述第一频域特征对所述待处理视频中的音频进行特征提取，得到第一音频特征信息；

将所述第一音频特征信息通过音频时序关系推理网络进行时序特征提取，得到音频时序特征信息。

4.根据权利要求3所述的视频标签设置方法，其特征在于，所述获取所述待处理视频中的音频的第一频域特征，通过第二特征提取模型基于所述第一频域特征对所述待处理视频中的音频进行特征提取，得到第一音频特征信息包括：

按照预设时间间隔对所述待处理视频中的音频进行划分，得到预设段数的第一音频段；

按照预设采样间距对所述第一音频段进行等间距采样，得到采样音频；

对所述采样音频进行频域运算，得到所述采样音频对应的第一频域特征；

通过第二特征提取模型基于所述第一频域特征对所述第一音频段进行特征提取，得到第一音频特征信息。

5.根据权利要求1所述的视频标签设置方法，其特征在于，所述提取所述待处理视频的目标文本特征信息包括：

获取所述待处理视频的描述文本；

通过第三特征提取模型的文本分类网络对所述描述文本进行特征提取，得到第一文本特征信息；

通过第三特征提取模型的双向传感器定义网络对所述描述文本进行特征提取，得到第二文本特征信息；

将所述第一文本特征信息和所述第二文本特征信息进行拼接，得到目标文本特征信息。

6.根据权利要求5所述的视频标签设置方法，其特征在于，所述通过第三特征提取模型的文本分类网络对所述描述文本进行特征提取，得到第一文本特征信息，通过第三特征提取模型的双向传感器定义网络对所述描述文本进行特征提取，得到第二文本特征信息包括：

将所述描述文本进行切词处理，得到至少一个词语；

将所述词语映射为特征向量；

通过所述第三特征提取模型的文本分类网络基于所述特征向量对所述描述文本进行特征提取，得到第一文本特征信息；

通过第三特征提取模型的双向传感器定义网络基于所述特征向量对所述描述文本进行特征提取，得到第二文本特征信息。

7.根据权利要求1所述的视频标签设置方法，其特征在于，所述根据所述第一融合后特征信息，获取所述待处理视频的多模态聚合特征包括：

通过视频嵌入模型的全连接层对所述第一融合后特征信息进行全连接处理，得到所述待处理视频的多模态聚合特征。

8.根据权利要求1所述的视频标签设置方法，其特征在于，所述音视频聚合特征信息包括视频图像帧聚合特征信息，所述提取所述待处理视频的音视频聚合特征信息包括：

按照第一预设时间间隔从所述待处理视频中抽取预设帧数的第二视频图像帧；

通过第一特征提取模型对所述第二视频图像帧进行特征提取，得到第二图像帧特征信息；

将所述第二图像帧特征信息通过图像帧聚合网络进行聚合处理，得到视频图像帧聚合特征信息。

9.根据权利要求1所述的视频标签设置方法，其特征在于，所述所述音视频聚合特征信息包括音频聚合特征信息，所述提取所述待处理视频的音视频聚合特征信息包括：

按照第二预设时间间隔对所述待处理视频中的音频进行划分，得到预设段数的第二音频段；

对所述第二音频段进行频域运算，得到第二频域特征；

通过第二特征提取模型基于所述第二频域特征对所述第二音频段进行特征提取，得到第二音频特征信息；

将所述第二音频特征信息通过音频聚合网络进行聚合处理，得到音频聚合特征信息。

10.根据权利要求1所述的视频标签设置方法，其特征在于，所述根据所述第二融合后特征信息确定所述待处理视频的类别信息包括：

通过视频嵌入模型的三层全连接层对所述第二融合后特征信息进行全连接处理，得到所述待处理视频的候选多模态聚合特征；

通过所述视频嵌入模型的一层全连接层，将所述候选多模态聚合特征转化为预设维度的特征向量；

通过所述视频嵌入模型的分类函数基于所述特征向量确定所述待处理视频的候选类别信息及其对应的类别概率；

将类别概率最大的候选类别信息作为所述待处理视频的类别信息。

11.根据权利要求1至10任一项所述的视频标签设置方法，其特征在于，所述从预设的视频数据库中筛选出与所述类别信息匹配的视频，得到目标候选视频集包括：

从预设的视频数据库中筛选出与所述待处理视频的相似度高于第一预设值的前第一预设个视频，得到第一候选视频集；

从所述第一候选视频集中筛选出与所述类别信息匹配的视频，得到第二候选视频集；

从所述第二候选视频集中筛选出与所述待处理视频的相似度高于第二预设值的前第二预设个视频，得到目标候选视频集。

12.根据权利要求1至10任一项所述的视频标签设置方法，其特征在于，所述基于所述多模态聚合特征从所述目标候选视频集中筛选出与所述待处理视频之间的相似度满足预设条件的目标视频，根据所述目标视频的标签为所述待处理视频设置标签包括：

根据所述多模态聚合特征计算所述目标候选视频集中的视频与所述待处理视频之间的相似度，根据所述相似度确定权重值；

根据所述权重值计算所述目标候选视频集中的视频的标签的标签概率分值；

将标签概率分值满足预设条件的目标视频的标签设置为所述待处理视频的标签。

13.一种视频标签设置装置，其特征在于，包括：

14.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至12任一项所述的视频标签设置方法。

15.一种存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行权利要求1至12任一项所述的视频标签设置方法。