CN116821417B

CN116821417B - 视频标签序列生成方法和装置

Info

Publication number: CN116821417B
Application number: CN202311082820.5A
Authority: CN
Inventors: 张子琦; 马宗扬; 李兵; 原春锋; 胡卫明; 张朝
Original assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-12
Anticipated expiration: 2043-08-28
Also published as: CN116821417A

Abstract

本发明实施例提供了一种视频标签序列生成方法和装置，其中，该方法包括：对样本视频内容和标题进行多模态特征提取得到多种特征编码；将多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；通过顺序提示模型为样本视频生成对应的顺序提示信息；将顺序提示信息与样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列，通过目标序列和多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器。通过本发明，解决了视频标签开集生成的问题，提高了模型预测未见标签的能力和拓展性。

Description

视频标签序列生成方法和装置

技术领域

本发明实施例涉及视频处理领域，具体而言，涉及一种视频标签序列生成方法和装置。

背景技术

在短视频平台中，给短视频自动打标签有助于业务端进行快速的视频搜索、分发和推荐。视频标签是一系列形式自由的描述性文字，通常由视频平台的用户自由定义并上传到视频网站，以表示视频的具体内容，图1是视频标签与视频分类、视频描述之间的比较的示意图，如图1中“生活小妙招、耳饰、自制工具、收纳妙招”等。传统的视频打标签方法大多基于视频多分类方法，首先需要根据业务需求预先定义一个固定数量（千级别）的标签体系，利用分类器选择置信度最高的几个类别标签作为预测结果，例如“烹饪、运动”等。很明显该方法受限于固定的标签体系，对新的知识无法灵活拓展，假设近期明星“张三”发生了热点事件“事件A”，由于“张三”和“事件A”不存在于预定义的标签体系中，那么无论如何都无法预测这些标签，只能重新定义标签体系并加入新的标签，重新训练模型才能实现标签的更新。此外，该方法还受限于标签体系的大小，一般多分类方法最多构造千级别的分类网络，如果类别过多会造成模型的参数过大而导致模型欠拟合。

相关技术中具有一些相关的针对视频类别来确定视频标签的方法，例如多分类方法需要预先定义固定的类别，如物体和动作类别，而后通过各种骨干网络对输入信息进行编码，包括CNN、GCN和Transformer编码器等，最后经过一个多分类头或多个二进制分类头同时推理多个类别。此外，一些工作致力于设计更好的损失函数，以缓解每个样本的正负标签数量的不平衡问题。然而，这些工作主要针对视频类别，实际的短视频平台中的视频标签数量会远远超过视频类别的数量（视频标签可以轻松达到万级别，而视频类别一般停留在百级别），使得多分类方法很难被推广到视频标签的任务中。

还有一些工作将多分类任务建模为序列生成问题，并采用编码器-解码器架构的模型来解决这个问题。CNN-RNN首先探索了结合使用CNN和LSTM来生成包含多个类别的序列，它根据类别之间的共现关系连接多个类别构成序列作为训练目标。后续的工作相继扩展出了按照类别频率的高低来连接多个类别作为训练目标，Order-Free通过视觉区域和类别之间的关联性自动提供了一个类别连接顺序。然而这些方法仍然把每个类别作为基本预测单位，难以灵活地预测各种形式的标签；此外，基于规则的类别连接方法使得模型需要同时学习连接规则和标签建模，加大了任务难度。

如图1所示，视频标签与常见的视频类别和视频描述相比，分别具有数量丰富和视频内部无序的特点。与由专家严格定义且类别数量固定的视频类别相比，用户自定义的视频标签的丰富性主要体现在以下两个方面：（1）视频标签可以从多个角度表征同一视频，如实体、属性、场景或风格；（2）视频标签可以从不同粒度表征同一内容，如独立的词或更有表现力的短语。因此，在大规模场景下，庞大的标签集合很容易达到数万甚至数十万的量级，呈现出极端的长尾分布。与考虑语法正确性和流畅性的视频描述相比，尽管同一视频的多个标签之间存在关联关系，但是之间没有固定的顺序。

视频标签的上述特点使得当前的多分类模型和生成模型难以直接应用于视频标签推断任务。一方面，多分类方法面临着严重的长尾问题，还需要构建与预定义标签集合数量一致的分类头，这不仅引入大量的参数，并且在标签集合变化时无法进行参数复用。另一方面，虽然基于自回归的生成方法可以通过逐字生成来避免臃肿的标签分类头，但视频内部多个标签之间无序的特点会困扰解码器关于标签顺序的生成，从而降低生成质量。

由此可知，相关技术中存在视频标签体系固定而无法拓展，视频打标签方法无法做到生成未见标签的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频标签序列生成方法和装置，以至少解决相关技术中存在视频标签开集生成的问题，提高了模型预测未见标签的能力和拓展性

根据本发明的一个实施例，提供了一种视频标签序列生成方法，包括：对样本视频内容和标题进行多模态特征提取，得到多种特征编码；将所述多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；通过顺序提示模型为所述样本视频生成对应的顺序提示信息，其中，所述顺序提示模型中包含查询向量和多模态混合特征；将所述顺序提示信息与所述样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；基于所述顺序提示信息和所述唯一对应关系对所述样本视频进行标签排序得到目标序列，通过所述目标序列和所述多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器，其中，所述训练好的标签解码器用于生成待测的目标视频的标签序列。

进一步地，在得到训练好的标签解码器之后，所述方法还包括：获取待测的目标视频，并对所述目标视频的内容和标题进行多模态特征提取，得到目标特征编码，将所述目标特征编码输入到预训练的多模态混合编码器中进行特征融合，得到目标视频的多模态混合特征；通过所述顺序提示模型为所述目标视频生成对应的顺序提示信息；将所述目标视频的顺序提示信息和所述目标视频的多模态混合特征输入到所述训练好的标签解码器中，生成包含标签序列和分隔符的语句，并将所述语句中的标签序列对应的标签作为所述目标视频的标签预测结果。

进一步地，对样本视频内容和标题进行多模态特征提取，得到多种特征编码包括：采样所述样本视频的关键帧，利用预训练的图像编码器进行编码得到帧特征；通过预训练的文本编码器对视频标题进行编码，得到标题的文本特征，将所述多种特征编码输入到预先训练好的多模态混合编码器中，得到视频多模态混合特征包括：将所述帧特征和所述文本特征通过多模态混合编码器ME融合成多模态混合特征，得到多模态混合特征，其中，所述多模态混合编码器ME是多层的Transformer编码器，每层由一个多头自注意力头、一个交叉注意力头和一个前馈神经网络组成。

进一步地，通过顺序提示模型为所述视频生成对应的顺序提示信息包括：初始化可学习的查询向量并在所有样本视频之间共享；通过查询向量Q和多模态混合特征F_i的交互确定视频V_i的顺序提示信息，，其中，提示生成器是由多层Transformer组成的交叉注意力模块，Wp是线性投影层。

进一步地，将所述顺序提示信息与所述样本视频对应的标签进行对齐包括：定义是从集合到集合的索引映射函数，，，确定成本最低的以在集合和集合之间找到一个二分匹配，其中，集合是视频的N个顺序提示的集合，N大于每个视频的标签数量L_i，集合E_i是将E_i填充预先定义的无意义标签的嵌入得到一个大小为N的集合，用表示视频的用户上传标签通过输入冻结的预训练语言模型后获取到的文本嵌入，通过计算顺序提示和标注标签文本嵌入之间的余弦相似度作为匹配成本，最优映射函数通过匈牙利算法计算得到；对齐结果为，每个顺序提示信息对应的标签定义为：。

进一步地，按照所述顺序提示信息排列所述样本视频对应的多个标签的顺序，并连接组合成目标序列，作为所述视频的标签序列包括：按照所述顺序提示信息排列多个标签的顺序，并连接组合成目标序列：；基于多层Transformer解码器建立顺序感知的标签解码器TD，其中，所述标签解码器TD以顺序提示信息Pi和多模态混合特征Fi作为输入，并逐字解码生成标签序列Ts，以实现基于顺序提示的标签序列生成，通过预测单词的概率；基于标签序列生成损失函数：生成标签序列作为所述视频的标签序列，其中，，

根据本发明的另一个实施例，提供了一种视频标签序列生成装置，包括：编码单元，用于对样本视频内容和标题进行多模态特征提取，得到多种特征编码；融合单元，用于将所述多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；第一生成单元，用于通过顺序提示模型为所述样本视频生成对应的顺序提示信息，其中，所述顺序提示模型中包含查询向量和多模态混合特征；对齐单元，用于将所述顺序提示信息与所述样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；排序单元，用于基于所述顺序提示信息和所述唯一对应关系对所述样本视频进行标签排序得到目标序列，通过所述目标序列和所述多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器，其中，所述训练好的标签解码器用于生成待测的目标视频的标签序列。

进一步地，所述装置还包括：获取单元，用于在得到训练好的标签解码器之后，获取待测的目标视频，并对所述目标视频的内容和标题进行多模态特征提取，得到目标特征编码，将所述目标特征编码输入到预训练的多模态混合编码器中进行特征融合，得到目标视频的多模态混合特征；第二生成单元，用于通过所述顺序提示模型为所述目标视频生成对应的顺序提示信息；输入单元，用于将所述目标视频的顺序提示信息和所述目标视频的多模态混合特征输入到所述训练好的标签解码器中，生成包含标签序列和分隔符的语句，并将所述语句中的标签序列对应的标签作为所述目标视频的标签预测结果。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，对样本视频内容和标题进行多模态特征提取，得到多种特征编码；将多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；通过顺序提示模型为样本视频生成对应的顺序提示信息，其中，顺序提示模型中包含查询向量和多模态混合特征；将顺序提示信息与样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列，通过目标序列和多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器，其中，训练好的标签解码器用于生成待测的目标视频的标签序列，因此，可以解决视频标签开集生成的问题，提高了模型预测未见标签的能力和拓展性。

附图说明

图1是视频标签与视频分类、视频描述之间的比较的示意图；

图2是本发明实施例的一种视频标签序列生成方法的移动终端的硬件结构框图；

图3是根据本发明实施例的视频标签序列生成方法的流程图；

图4是基于顺序提示的视频标签序列生成的流程图；

图5是基于顺序提示的视频标签序列生成结构的示意图；

图6是根据本发明实施例的视频标签序列生成装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图2是本发明实施例的一种视频标签序列生成方法的移动终端的硬件结构框图。如图2所示，移动终端可以包括一个或多个（图2中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的视频标签序列生成方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种视频标签序列生成方法，图3是根据本发明实施例的视频标签序列生成方法的流程图，如图3所示，该流程包括如下步骤：

步骤S101，对样本视频内容和标题进行多模态特征提取，得到多种特征编码；

步骤S102，将多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；

步骤S103，通过顺序提示模型为样本视频生成对应的顺序提示信息，其中，顺序提示模型中包含查询向量和多模态混合特征；

步骤S104，将顺序提示信息与样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；

步骤S105，基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列，通过目标序列和多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器，其中，所述训练好的标签解码器用于生成待测的目标视频的标签序列。

本实施例通过对样本视频内容和标题进行多模态特征提取，得到多种特征编码；将多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；通过顺序提示模型为样本视频生成对应的顺序提示信息，其中，顺序提示模型中包含查询向量和多模态混合特征；将顺序提示信息与样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列，通过目标序列和多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器，其中，训练好的标签解码器用于生成待测的目标视频的标签序列，因此，可以解决视频标签开集生成的问题，提高了模型预测未见标签的能力和拓展性。

本实施例的技术方案包括两部分，训练模型和使用模型，该部分为训练模型部分，通过样本数据训练模型，并固化模型参数以用于后续标签的预测。在本实施例中，样本视频内容和标题可以是一个视频的具体内容（包括视频帧）以及该视频的标题，对视频内容和标题进行多模态特征提取，得到多种特征编码，然后输入到预先训练好的多模态混合编码器中，得到多模态混合特征，预训练的多模态混合编码器可以是能够识别多种模态的编码器。可以基于多模态混合特征和查询向量等生成顺序提示模型，通过顺序提示模型为视频生成对应的顺序提示信息，该顺序提示信息用于提示视频的标签顺序，将顺序提示信息与视频对应的标签进行对齐训练得到每个顺序提示信息与标签的唯一对应关系，在通过样本训练模型时，视频的标签可以是用户上传时给的标签，也可以是系统自动识别给的标签，将顺序提示信息和视频对应的标签对齐可以是把顺序和标签一一对应起来，后基于顺序提示信息和唯一对应关系对视频进行标签排序，通过目标序列和多模态混合特征对顺序感知解码器进行训练，得到能够识别目标视频的顺序感知解码器，这样，后续解码器可以生成待测的目标视频的标签序列，这样可以实现将视频的标签按照合适的顺序排列，以使得标签对视频的描述效果最佳。

需要说明的是，预先训练好的多模态混合编码器可以是基于样本进行训练得到的，对各个类别进行编码的编码器。在模型训练时，样本数据包含样本视频内容、标题以及该视频对应的标签序列识别结果，由于标签不拘于固定标签集，而是基于视频内容和标题生成的更精准的描述视频的标签，生成的标签可以是未见的新标签，因而可以解决视频标签开集生成的问题，提高了模型预测未见标签的能力和拓展性。

在得到训练好的标签解码器之后，获取待测的目标视频，并对目标视频的内容和标题进行多模态特征提取，得到目标特征编码，将目标特征编码输入到预训练的多模态混合编码器中进行特征融合，得到目标视频的多模态混合特征；通过顺序提示模型为目标视频生成对应的顺序提示信息；将目标视频的顺序提示信息和目标视频的多模态混合特征输入到训练好的标签解码器中，生成包含标签序列和分隔符的语句，并将语句中的标签序列对应的标签作为目标视频的标签预测结果。

该部分为在前文的训练模型基础上的使用模型部分，在模型训练完成之后，在有待测的目标视频时，获取目标视频的内容和标题进行多模态特征提取后，将目标特征编码输入到多模态混合编码器中进行特征融合，在同样生成对应的顺序提示信息之后将顺序提示信息和多模态混合特征输入到训练好的标签解码器中，以生成包含标签序列和分隔符的语句，该语句去掉分隔符并分割后即得到待测的目标视频的标签，该标签更加精准，能够全方位更精准的描述该视频的内容，由于可以生成新的标签序列的内容，相比于相关技术中只能从已有标签类别中选择的方式，本实施例的方案能够更加精准的生成新的标签序列，包括新的标签内容和标签顺序。

在模型使用时，也即对目标视频进行标签序列生成时，将待生成的标签构造成一个描述句，即多个标签拼接在一起以逗号作为间隔，采用生成式模型（训练好的模型）以视频和视频标题作为输入，以标签构成的描述句作为输出，逐字生成描述句，之后再进行后处理将标签从描述句中分割出来，得到待测视频的标签。

进一步可选地，对样本视频内容和标题进行多模态特征提取，得到多种特征编码包括：采样所述样本视频的关键帧，利用预训练的图像编码器进行编码得到帧特征；通过预训练的文本编码器对视频标题进行编码，得到标题的文本特征，将所述多种特征编码输入到预先训练好的多模态混合编码器中，得到视频多模态混合特征包括：将所述帧特征和所述文本特征通过多模态混合编码器ME融合成多模态混合特征，得到多种特征编码，其中，多模态混合编码器ME是多层的Transformer编码器，每层由一个多头自注意力头、一个交叉注意力头和一个前馈神经网络组成。

预训练的图像编码器可以是基于样本训练得到的适应于当前应用场景的编码器，通过预训练的图像编码器对采样的视频关键帧进行编码得到帧特征，通过预训练的文本编码器对视频标题也进行编码得到文本特征，将两种特征编码输入到训练好的多模态混合编码器ME中，融合成多模态混合特征，得到多种特征编码，作为多模态混合特征。通过这样的计算方法能够得到视频的多维度的特征编码。

进一步可选地，通过顺序提示模型为所述样本视频生成对应的顺序提示信息包括：初始化可学习的查询向量并在所有样本视频之间共享；通过查询向量Q和多模态混合特征F_i的交互确定视频Vi的顺序提示信息，，其中，提示生成器P_E是由多层Transformer组成的交叉注意力模块，Wp是线性投影层。

生成视频相对应的顺序提示信息的过程包括：初始化固定数量的可学习的查询向量，并在所有视频之间共享，通过查询向量和视频多模态混合特征在提示生成器中进行交互融合，获得预查询向量数量一致的顺序提示信息P_i，此处的交互融合是指：通过公式以查询向量为“查询”，以视频多模态混合特征为“键值对”，通过 Transformer网络结构进行线性变换操作，“查询”和“键值对”为Transformer网络的通用提法。通过生成顺序提示信息可以用于对标签顺序进行排列。

进一步可选地，将所述顺序提示信息与所述视频对应的标签进行对齐包括：定义是从集合到集合的索引映射函数，，，确定成本最低的以在集合和集合之间找到一个二分匹配，其中，集合是视频的N个顺序提示的集合，N大于每个视频的标签数量L_i，集合E_i是将E_i填充预先定义的无意义标签的嵌入得到一个大小为N的集合，用表示视频的用户上传标签通过输入冻结的预训练语言模型后获取到的文本嵌入，通过计算顺序提示和标注标签文本嵌入之间的余弦相似度作为匹配成本，最优映射函数通过匈牙利算法计算得到；对齐结果是，每个顺序提示信息对应的标签定义为：。

在顺序提示信息和标签之间对齐时，可以采用如下步骤：定义两个集合的索引映射函数（或向量），从冻结的标签嵌入集合中获得视频的标签嵌入向量，计算顺序提示向量和标签嵌入向量的相似度矩阵，以相似度作为匹配成本通过二分匹配算法计算最优映射函数，确定成本最低的索引映射函数，得到对齐结果。其中，本实施例中的[PAD]为算法自定义的标识符，以代表无实际意义的标签，这里也可以换成其他标识符，如[None]等，本实施例所称的匹配成本是指：通过计算顺序提示和标注标签文本嵌入之间的余弦相似度作为匹配成本。在本实施例中，最终对齐结果为使上面的式子最小的匹配方式。

作为一种可选的实施方式，在确定成本最低的σ以在集合P_i和集合E_i之间找到一个二分匹配时，可以通过InfoNCE损失函数来拉近匹配的提示-标签对，推远不匹配的提示-标签对，通过这种方式可以更快速高效的找到二分匹配。

进一步可选地，按照所述顺序提示信息排列所述视频对应的多个标签的顺序，并连接组合成目标序列，作为所述视频的标签序列包括：按照所述顺序提示信息排列多个标签的顺序，并连接组合成目标序列：；基于多层Transformer解码器建立顺序感知的标签解码器TD，其中，所述标签解码器TD以顺序提示信息Pi和多模态混合特征Fi作为输入，并逐字解码生成标签序列Ts，以实现基于顺序提示的标签序列生成，通过预测单词的概率；基于标签序列生成损失函数：生成标签序列作为所述视频的标签序列，其中，，

对一个视频的多个标签进行排序并连接组合成目标序列包括：基于设定的规则排列标签，建立顺序感知的标签解码器TD，并逐字解码生成标签序列Ts，以实现基于顺序提示的标签序列生成并基于标签序列生成损失函数来生成标签序列作为视频的标签序列，这样可以得到最精准描述该视频的标签序列。预测单词的概率是标签序列所构成的句子中，每个字的预测概率。

本发明提出的视频标签序列生成方法，将待生成的标签构造成一个描述句，即多个标签拼接在一起以逗号作为间隔，采用生成式模型以视频和视频标题作为输入，以标签构成的描述句作为输出，逐字生成描述句，之后再进行后处理将标签从描述句中分割出来。该方法的特点在于：1）无需预定义任何标签体系，可以做到开放性的标签生成；2）能够有效抓取到视频和视频标题中的关键多模态信息，生成训练集中从未见过的新标签；3）生成式的方法对标签之间的依赖关系进行建模，能有效提高标签生成的精度；4）可以利用大规模的视频-标签数据进行预训练，提高模型的泛化性。

本发明还提供了一种具体实施方式，如下：

本发明能够根据视频标签的特性来设计新的模型从而解决视频标签推断任务。为此，本发明提出了一个新的生成式模型OP-TSG，将视频标签推断任务建模为一个由顺序提示引导的序列生成问题，并采取了一个基于字/词（对于中文标签以字为生成单位，对于英文标签则以词为生成单位）的生成策略来逐步解码生成每个标签。

图4是基于顺序提示的视频标签序列生成的流程图，图5是基于顺序提示的视频标签序列生成结构的示意图，如图所示，本发明主要包括四个关键步骤：第1步是编码视频及其可获取的相关文本信息（如视频的标题）以获得多模态混合特征；第2步是根据样本共享的查询与多模态混合特征的交互来提供样本依赖的顺序提示；第3步将顺序提示与多个无序标签对齐，并进行二分匹配，为每个顺序提示分配唯一的标签；第4步根据顺序提示将分配的标签连接起来，形成有序的标签序列作为训练目标，第5步根据顺序提示和多模态混合特征生成标签序列并分割出标签。其中步骤1、2、3、4为模型训练过程，在训练的基础上，步骤1、2、5构成标签的推理预测过程。以下进行详细介绍：

步骤1：视频-标题多模态混合编码，详细过程如下：

步骤1.1：首先从视频中采样视频帧，然后将每个采样的帧送入一个预训练的图像编码器中，以获得帧特征；

步骤1.2：由于视频标签通常包含大量具体的实体概念，如名人或地名，仅用视觉信息很难有效地推理出这些概念。因此，本发明也将视频相应的标题作为输入，因为某些实体概念可以直接反映在标题中。本发明使用预先训练好的文本编码器对标题进行编码，并获得每个词的文本特征；

步骤1.3：帧特征和文本特征通过多模态混合编码器融合成多模态混合特征。是一个多层的Transformer编码器，它的每层由一个多头自注意力头、一个交叉注意力头和一个前馈神经网络组成。它将文本特征视为查询，将帧特征视为键和值。多模态混合特征将被同时用于样本相关的顺序提示的编码和标签序列的解码。

步骤2：生成样本相关的顺序提示，详细过程如下：

步骤2.1：顺序提示的标签序列解码开始于为每个视频产生不同的顺序提示，为此，首先初始化可学习的查询并在所有视频之间共享；

步骤2.2：视频的顺序提示随后可以通过查询和多模态混合特征的交互中得到：

；

其中，提示生成器是一个由多层Transformer组成的交叉注意力模块，它将可学习的视为查询，将多模态混合特征视为键和值；是一个线性投影层。顺序提示结合了视频的具体内容因此是依赖于样本的，这与常见的视觉提示在所有样本之间共享不同。

步骤3：顺序提示和标签之间对齐训练，详细过程如下：

步骤3.1：用表示视频的用户上传标签通过送入冻结的预训练语言模型后获取到的文本嵌入；

步骤3.2：是视频的个顺序提示的集合，设置大于每个视频的标签数量，则将填充预先定义的无意义标签的嵌入得到一个大小也为的集合。定义是一个从集合到集合的索引映射函数，即。接下来本发明寻找一个成本最低的从而在这两个集合之间找到一个二分匹配：

；

其中通过计算顺序提示和标注标签文本嵌入之间的余弦相似度作为匹配成本，最优映射函数可以通过匈牙利算法快速计算。

步骤3.3：最终的对齐结果是，而每个顺序提示对应的标签定义为：

；

步骤3.4：为了进一步提高匹配分数的准确性，本发明通过引入InfoNCE损失函数来拉近匹配的提示-标签对，推远不匹配的提示-标签对。

步骤4：有序的标签序列生成，详细过程如下：

步骤4.1：按照顺序提示来排列多个标签的顺序，并将它们连接组合成一个目标序列，并使用逗号“,”作为分隔符来分开多个标签：

；

对齐后的目标序列为。为了提升对标签关系的建模，本发明会随机打乱提示的输入顺序，而目标签序列的连接顺序也会相应改变，从而得到具有不同标签组合模式的序列；

步骤4.2：本发明在多层Transformer解码器的基础上建立了顺序感知的标签解码器，以顺序提示和多模态混合特征作为输入，并逐字解码生成标签序列，从而实现基于顺序提示的标签序列生成。预测单词的概率可以表示为：

；

步骤4.3：交叉熵损失函数被用于模型训练，但是由于标签序列中存在大量的标签，使用常见的交叉熵损失会导致模型在训练过程中寻求捷径，即模型只需关注这些标签就能迅速收敛。为了解决这个问题，本发明重新设计了损失函数，给分配较低的权重，给其他词分配较高的权重：

；

其中，修改后的标签序列生成损失定义如下：

；

需要说明的是，根据顺序提示将分配的标签连接起来，形成有序的标签序列作为训练目标，是指将标签序列所构成的那句话作为真值（训练目标），假如顺序提示是A，B，C，该视频的真值标签（标注）为张三、打篮球、球场，经过对齐之后，得到对齐结果是A-球场，B-张三，C-打篮球，那么算法的实际真值应该为“球场，张三，打篮球”这句话，逐字去生成这句话，并计算生成过程中的损失函数，即为这步的训练过程。

步骤5：标签序列生成及标签预测，详细过程如下：

步骤5.1：当模型训练结束以后，模型参数就被固定下来，此时认为顺序提示已经学习到了与标签之间的语义对齐关系。因此，将步骤2.2获得的顺序提示和步骤1.3获得的视频多模态混合特征输入到顺序感知的标签解码器，逐字生成一句包含标签序列和逗号分隔符的句子。例如，“熊猫，搞笑动物，[PAD]，[PAD]，旅行分享，熊猫打架”；

步骤5.2：通过后处理将步骤5.1获得的句子中的标签分割出来，去除[PAD]符号，作为最终的视频标签，如上句后处理的结果为，“熊猫”、“搞笑动物”、“旅行分享”、“熊猫打架”这4个标签即为最终该视频的预测结果。

本技术方案的有益效果：

（1）OP-TSG与先进的多分类方法和生成方法在CREATE-tagging和Pexel-tagging两个基准上进行了比较，结果分别如表1和表2所示。

表1 在CREATE-tagging上的结果比较

表1给出了在CREATE-tagging上与其它方法的性能比较。在所有标签上，OP-TSG在基于类别和基于样本的指标上都优于其他方法。此外，OP-TSG在识别用户感兴趣的稀有标签方面表现出明显的优势，与最先进方法Asy和OpenBook相比，分别取得了3.3%和3.5%的F1得分增益，这验证了本发明所提出的方法可以通过捕捉更好的标签依赖关系来缓解长尾问题。在引入CREATE-3M数据进行预训练时，也得出了类似的结论，表明本发明的方案在预训练中表现出了良好的扩展性。

表2 在Pexel-tagging上的结果

这是一个具有更多标签和更复杂标签分布的基准。OP-TSG在所有设置中都取得了最高的F1分数，特别是在稀有标签上比Asy和Open-Book的F1分数提高了18.2%和3%，验证了本发明所提出的方法的通用性。

表 3 不同模型的标签增益对比

通过在CREATE-3M上进行预训练，然后用CREATE-210K进行微调的途径，可以在CREATE-210K的测试数据集中评估不同模型的“视频匹配标签”数量和标签增益。如表3所示，分类方法，如Bin和Asy，由于分类头只能输出固定数量的标签，因此无法推断出新标签。所有的生成方法都采用了基于词的生成策略，所以它们都表现出生成新标签的能力。其中，OP-TSG平均每段视频生成0.3个视频匹配标签，获得了7.04%的标签增益，明显优于其他生成模型。这表明，在预训练中注入顺序提示的标签语义可以在微调过程中被有效保留，从而使模型仍然能够生成只在预训练数据中出现的标签。

第三栏中列出的“视频匹配标签”的数量是所有视频的平均。

通过测试其他方案来代替本发明中所设计的组件，得到的结果即表4中的模型B,C,D,E,F,G，与本发明所提的模型A相比，都出现了不同程度的性能下降，表明了本发明的组件设计的有效性。

表 4 组件设计的有效性

本发明设计了一种新的基于顺序提示的标签序列生成机制，以处理单个视频内部多个平行标签的无序性，从而提升标签之间的关系建模，首次引入了逐字（逐词）生成单个完整标签直到整个标签序列的生成策略，摒弃了固定的标签分类头，展现出了新标签生成能力。经测试能够实现有效、精准的视频标签序列的生成，优于相关技术中的其他方案。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

在本实施例中还提供了一种视频标签序列生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的视频标签序列生成装置的结构框图，如图6所示，该装置包括：

编码单元10，用于对样本视频内容和标题进行多模态特征提取，得到多种特征编码；

融合单元20，用于将多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；

第一生成单元30，用于通过顺序提示模型为样本视频生成对应的顺序提示信息，其中，顺序提示模型中包含查询向量和多模态混合特征；

对齐单元40，用于将顺序提示信息与样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；

排序单元50，用于基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列，通过目标序列和多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器，其中，训练好的标签解码器用于生成待测的目标视频的标签序列。

通过本实施例可以解决了视频标签开集生成的问题，实现了提高模型预测未见标签的能力和拓展性的效果。

在一个示例性实施例中，该装置还包括：获取单元，用于在得到训练好的标签解码器之后，获取待测的目标视频，并对目标视频的内容和标题进行多模态特征提取，得到目标特征编码，将目标特征编码输入到预训练的多模态混合编码器中进行特征融合，得到目标视频的多模态混合特征；第二生成单元，用于通过顺序提示模型为目标视频生成对应的顺序提示信息；输入单元，用于将目标视频的顺序提示信息和目标视频的多模态混合特征输入到训练好的标签解码器中，生成包含标签序列和分隔符的语句，并将语句中的标签序列对应的标签作为目标视频的标签预测结果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频标签序列生成方法，其特征在于，包括：

对样本视频内容和标题进行多模态特征提取，得到多种特征编码；

将所述多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；

通过顺序提示模型为所述样本视频生成对应的顺序提示信息，其中，所述顺序提示模型中包含查询向量和多模态混合特征；

将所述顺序提示信息与所述样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；

基于所述顺序提示信息和所述唯一对应关系对所述样本视频进行标签排序得到目标序列，通过所述目标序列和所述多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器，其中，所述训练好的标签解码器用于生成待测的目标视频的标签序列。

2.根据权利要求1所述的方法，其特征在于，在得到训练好的标签解码器之后，所述方法还包括：

获取待测的目标视频，并对所述目标视频的内容和标题进行多模态特征提取，得到目标特征编码，将所述目标特征编码输入到预训练的多模态混合编码器中进行特征融合，得到目标视频的多模态混合特征；

通过所述顺序提示模型为所述目标视频生成对应的顺序提示信息；

将所述目标视频的顺序提示信息和所述目标视频的多模态混合特征输入到所述训练好的标签解码器中，生成包含标签序列和分隔符的语句，并将所述语句中的标签序列对应的标签作为所述目标视频的标签预测结果。

3.根据权利要求1所述的方法，其特征在于，对样本视频内容和标题进行多模态特征提取，得到多种特征编码包括：

采样所述样本视频的关键帧，利用预训练的图像编码器进行编码得到帧特征；

通过预训练的文本编码器对视频标题进行编码，得到标题的文本特征，

将所述多种特征编码输入到预先训练好的多模态混合编码器中，得到视频多模态混合特征包括：将所述帧特征和所述文本特征通过多模态混合编码器融合成多模态混合特征，其中，所述多模态混合编码器是多层的Transformer编码器，每层由一个多头自注意力头、一个交叉注意力头和一个前馈神经网络组成。

4.根据权利要求1所述的方法，其特征在于，通过顺序提示模型为所述样本视频生成对应的顺序提示信息包括：

初始化可学习的查询向量并在所有样本视频之间共享；

通过查询向量和多模态混合特征的交互确定视频的顺序提示信息，，其中，提示生成器是由多层Transformer组成的交叉注意力模块，是线性投影层。

5.根据权利要求1所述的方法，其特征在于，将所述顺序提示信息与所述样本视频对应的标签进行对齐包括：

定义是从集合到集合的索引映射函数，，，确定成本最低的以在集合和集合之间找到一个二分匹配，

其中，集合是视频的个顺序提示的集合，大于每个视频的标签数量，集合是填充预先定义的无意义标签的嵌入后得到的一个大小为的集合，用表示视频的用户上传标签通过输入冻结的预训练语言模型后获取到的文本嵌入，通过计算顺序提示和标注标签文本嵌入之间的余弦相似度作为匹配成本，最优映射函数通过匈牙利算法计算得到；对齐结果为，每个顺序提示信息对应的标签定义为：。

6.根据权利要求2所述的方法，其特征在于，按照所述顺序提示信息排列所述样本视频对应的多个标签的顺序，并连接组合成目标序列，作为所述视频的标签序列包括：

按照所述顺序提示信息排列多个标签的顺序，并连接组合成目标序列：；

基于多层Transformer解码器建立顺序感知的标签解码器，其中，所述标签解码器以顺序提示信息和多模态混合特征作为输入，并逐字解码生成标签序列，以实现基于顺序提示的标签序列生成，通过预测单词的概率；

基于标签序列生成损失函数：生成标签序列作为所述视频的标签序列，其中，/>；

其中，为每个顺序提示信息对应的标签定义。

7.一种视频标签序列生成装置，其特征在于，包括：

编码单元，用于对样本视频内容和标题进行多模态特征提取，得到多种特征编码；

融合单元，用于将所述多种特征编码输入到预训练的多模态混合编码器中进行特征融合，得到多模态混合特征；

第一生成单元，用于通过顺序提示模型为所述样本视频生成对应的顺序提示信息，其中，所述顺序提示模型中包含查询向量和多模态混合特征；

对齐单元，用于将所述顺序提示信息与所述样本视频对应的标签进行对齐训练，得到每个顺序提示信息与标签的唯一对应关系；

排序单元，用于基于所述顺序提示信息和所述唯一对应关系对所述样本视频进行标签排序得到目标序列，通过所述目标序列和所述多模态混合特征对顺序感知标签解码器进行训练，得到训练好的标签解码器，其中，所述训练好的标签解码器用于生成待测的目标视频的标签序列。

8.根据权利要求7所述的装置，所述装置还包括：

获取单元，用于在得到训练好的标签解码器之后，获取待测的目标视频，并对所述目标视频的内容和标题进行多模态特征提取，得到目标特征编码，将所述目标特征编码输入到预训练的多模态混合编码器中进行特征融合，得到目标视频的多模态混合特征；

第二生成单元，用于通过所述顺序提示模型为所述目标视频生成对应的顺序提示信息；

输入单元，用于将所述目标视频的顺序提示信息和所述目标视频的多模态混合特征输入到所述训练好的标签解码器中，生成包含标签序列和分隔符的语句，并将所述语句中的标签序列对应的标签作为所述目标视频的标签预测结果。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。