CN118230224A

CN118230224A - 标签打分方法、标签打分模型训练方法和装置

Info

Publication number: CN118230224A
Application number: CN202410630377.9A
Authority: CN
Inventors: 杨煜霖; 陈世哲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-05-21
Filing date: 2024-05-21
Publication date: 2024-06-21

Abstract

本申请提供了一种标签打分方法、标签打分模型训练方法和装置，涉及人工智能领域。该标签打分方法，包括：获取目标视频的至少两个候选标签；利用第一特征编码器获取至少两个候选标签对应的标签特征；利用M个第二特征编码器分别对目标视频的对应模态信息进行特征编码，获取目标视频的M个模态特征；利用M个模态特征注入模块分别将M个模态特征与至少两个候选标签对应的标签特征进行融合，得到至少两个候选标签中的每个候选标签对应的M个融合标签特征；利用聚合模块对每个候选标签对应的M个融合标签特征进行融合，得到每个候选标签对应的得分。本申请实施例能够对目标视频的多个候选标签进行重新打分排序，有利于获取更加准确的视频标签。

Description

标签打分方法、标签打分模型训练方法和装置

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种标签打分方法、标签打分模型训练方法和装置。

背景技术

随着互联网技术的快速发展，多媒体的应用越来越广泛，视频数量也急剧增长，用户可以通过各种多媒体平台浏览各种各样的视频。为了使用户可以从海量的视频中获取自己感兴趣的视频，通常会为视频内容打上各种丰富标签，从而利用标签去帮助用户对视频做搜索、帮助推荐系统用于推荐视频，还可以辅助内容的商业化。

在视频产品的内容生产的标准化阶段，通常通过人工标注视频的方式，或者使用标签系统给视频进行打标签操作。其中，人工标注的标签质量不稳定，如人工标注标签非常依赖编目人员对于视频内容、关键人物的理解深度，而且人工打标的质量和结果也具有随机性，很难保持一致。同时，标签系统通常使用多路召回的方式召回大量的候选标签，候选标签的特点是召回率高但是准确率低。因此，如何输出准确率更高的标签是亟待解决的问题。

发明内容

本申请提供一种标签打分方法、标签打分模型训练方法和装置，能够对目标视频的多个候选标签进行重新打分排序，有利于获取更加准确的视频标签。

第一方面，本申请实施例提供一种标签打分方法，包括：

获取目标视频的至少两个候选标签；

利用第一特征编码器获取所述至少两个候选标签对应的标签特征；

利用M个第二特征编码器分别对目标视频的对应模态信息进行特征编码，获取所述目标视频的M个模态特征；M为正整数；

利用M个模态特征注入模块分别将所述M个模态特征与所述至少两个候选标签对应的标签特征进行融合，得到所述至少两个候选标签中的每个候选标签对应的M个融合标签特征；

利用聚合模块对所述每个候选标签对应的M个融合标签特征进行融合，得到所述每个候选标签对应的得分。

第二方面，本申请实施例提供一种标签打分模型训练方法，包括：

获取训练样本，所述训练样本包括视频样本的至少两个标签和所述至少两个标签的真实值；

利用第一特征编码器获取所述至少两个标签对应的标签特征；

利用M个第二特征编码器分别对视频样本的对应模态信息进行特征编码，获取所述视频样本的M个模态特征；

利用M个模态特征注入模块分别将所述视频样本的M个模态特征与所述至少两个标签对应的标签特征进行融合，得到所述至少两个标签中的每个标签对应的M个融合标签特征；

利用聚合模块对所述每个标签对应的M个融合标签特征进行融合，得到所述每个标签对应的得分；

根据所述每个标签对应的得分和所述每个标签的真实值，对所述M个模态特征注入模块和所述聚合模块分别进行参数更新，得到已训练的M个模态特征注入模块和聚合模块。

第三方面，本申请实施例提供了一种标签打分装置，包括：

获取单元，用于获取目标视频的至少两个候选标签；

第一特征编码器，用于获取所述至少两个候选标签对应的标签特征；

M个第二特征编码器，用于分别对目标视频的对应模态信息进行特征编码，获取所述目标视频的M个模态特征；M为正整数；

M个模态特征注入模块，用于分别将所述M个模态特征与所述至少两个候选标签对应的标签特征进行融合，得到所述至少两个候选标签中的每个候选标签对应的M个融合标签特征；

聚合模块，用于对所述每个候选标签对应的M个融合标签特征进行融合，得到所述每个候选标签对应的得分。

第四方面，本申请实施例提供了一种标签打分模型训练装置，包括：

获取单元，用于获取训练样本，所述训练样本包括视频样本的至少两个标签和所述至少两个标签的真实值；

第一特征编码器，用于获取所述至少两个标签对应的标签特征；

M个第二特征编码器，用于分别对视频样本的对应模态信息进行特征编码，获取所述视频样本的M个模态特征；

M个模态特征注入模块，用于分别将所述视频样本的M个模态特征与所述至少两个标签对应的标签特征进行融合，得到所述至少两个标签中的每个标签对应的M个融合标签特征；

聚合模块，用于对所述每个标签对应的M个融合标签特征进行融合，得到所述每个标签对应的得分；

参数更新单元，用于根据所述每个标签对应的得分和所述每个标签的真实值，对所述M个模态特征注入模块和所述聚合模块分别进行参数更新，得到已训练的M个模态特征注入模块和聚合模块。

第五方面，本申请实施例提供一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或第二方面中的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，包括指令，当其在计算机上运行时使得计算机执行如第一方面或第二方面中的方法。

第七方面，本申请实施例提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或第二方面中的方法。

第八方面，本申请实施例提供一种计算机程序，计算机程序使得计算机执行如第一方面或第二方面中的方法。

本申请实施例通过利用模态特征注入模块分别将每个模态特征与每个候选标签对应的标签特征进行融合，实现将跨模态信息注入标签特征，得到每个候选标签对应的多个融合标签特征，该融合特征能够捕捉到更细粒度的关系，从而提供更丰富的信息用于后续处理，然后将该多个融合标签特征进行再次融合，即将经过不同模态信息注入后的标签特征融合到一起，动态地调整不同模态之间的相互作用，使得更重要的信息得到强调而不重要的信息被抑制，使得每个候选标签对应的得分更够准确地反映标签的准确性，从而获取更加准确的视频标签。

附图说明

图1为本申请实施例的方案的应用场景的一个示意图；

图2为本申请实施例提供的进行视频打标签的前端页面的一个示意图；

图3为本申请实施例提供的一种标签打分方法的示意性流程图；

图4为本申请实施例提供的一种网络架构的示意图；

图5为本申请实施例提供的另一种标签打分方法的示意性流程图；

图6为本申请实施例提供的一种模态特征注入模块的网络结构的示意图；

图7为本申请实施例提供的一种标签打分模型训练方法的示意性流程图；

图8为本申请实施例提供的一种标签打分装置的示意性框图；

图9为本申请实施例提供的一种标签打分模型训练装置的示意性框图；

图10为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

应理解，在本申请实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

在本申请的描述中，除非另有说明，“至少一个”是指一个或多个，“多个”是指两个或多于两个。另外，“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a, b, c, a-b, a-c, b-c, 或a-b-c，其中a,b,c可以是单个，也可以是多个。

还应理解，本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

还应理解，说明书中与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例应用于人工智能技术领域。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的自然语言处理(Nature Languageprocessing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例可涉及人工智能技术中的计算机视觉（Computer Vision, CV）技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例也可以涉及人工智能技术中的机器学习（Machine Learning, ML），ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例也可以涉及人工智能技术中的多模态学习（Multi-modalLearning）, 是指在机器学习中使用多种不同类型的数据作为输入，以提高模型的准确性和性能。这些数据可以是来自不同源的、不同类型的、不同结构的信息，例如文本、图像、视频、音频等。在多模态学习中，需要将不同类型的数据进行融合和整合，以提取有用的特征信息并减少冗余信息。通过利用多种不同类型的数据，可以获得更加全面和准确的信息，从而提高模型的性能和鲁棒性。

目前，相关技术通过人工标注视频的方式，或者使用标签系统给视频进行打标签操作。如何提高视频标签的准确率是亟待解决的问题。

为了解决上述技术问题，本申请实施例提供了一种标签打分方法、标签打分模型训练方法和装置，能够对目标视频的多个候选标签进行重新打分排序，有利于获取更加准确的视频标签。

具体而言，可获取目标视频的至少两个候选标签；利用第一特征编码器获取该至少两个候选标签对应的标签特征；利用M个第二特征编码器分别对所述目标视频的对应模态信息进行特征编码，获取该目标视频的M个模态特征；利用M个模态特征注入模块分别将该M个模态特征与至少两个候选标签对应的标签特征进行融合，得到该至少两个候选标签中的每个候选标签对应的M个融合标签特征；利用聚合模块对每个候选标签对应的M个融合标签特征进行融合，得到每个候选标签对应的得分。

相对于现有方案中将来自不同模态的信息简单的进行融合，例如通过加权平均或者拼接的方式融合等方案而言，本申请实施例的跨模态信息注入融合的方案能够更好地保留关键信息，避免在融合的过程中的信息损失，并且能够考虑到不同模态之间的相互作用和对于特定任务的不同贡献，从而能够很好地适应不同的任务需求。另外，由于跨模态信息注入机制本身具有很高的灵活性，本申请实施例可以轻松扩展到更多模态或者更复杂的任务中。由于本申请实施例能够提供一种更为精确和有效的多模态信息处理方法，因此能够使用需要高度信息整合的场景，比如多模态学习、信息检索和自然语言处理等领域。

图1示出了本申请实施例的应用场景的一个示意图。

如图1所示，该应用场景涉及服务器1和终端设备2，终端设备2可以通过通信网络与服务器1进行数据通信。服务器1可以为终端设备2的后台服务器。

示例性的，终端设备2可以是指一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备。终端设备可以是智能手机、平板电脑、便携式笔记本电脑、台式电脑、可穿戴设备、车载设备等终端设备，但不限于此。可选的，本申请实施例中，终端设备2中安装有视频播放或生成应用程序，或者安装有具备视频播放或生成功能的应用程序。

服务器1可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器也可以成为区块链的节点。

服务器可以是一台或多台。服务器是多台时，存在至少两台服务器用于提供不同的服务，和/或，存在至少两台服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。

终端设备和服务器可以通过有线或无线通信的方式进行直接或间接的连接，本申请对此不作限定。本申请对服务器或终端设备的数量不作限定。本申请提供的方案可以由终端设备独立完成，也可以由服务器独立完成，还可以由终端设备和服务器配合完成，本申请对此不作限定。

本实施例中，服务器1通过网络与终端设备2连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

应理解，图1仅是示例性说明，并不对本申请实施例的应用场景进行具体限定。例如，图1示例性地示出了一个终端设备、一台服务器，实际上可以包括其他数量的终端设备和服务器，本申请对此不做限制。

本申请实施例可以应用于视频产品的内容生成的应用场景，如对多个候选标签进行打分排序的场景中。具体的，在视频内容生成的标准化阶段，给视频打标签的功能是该类产品必不可少的。具体可以涵盖各类视频号、短视频应用、视频应用等。

图2示出了进行视频打标签的前端页面的一个示意图，该界面主要用于人工进行视频内容打标签。示例性的，对于根据候选标签进行打分得到的排序后的视频序列，可以显示在如图所示的前端页面中供工作人员进行二次检查，对其中不合适的标签进行修改或剔除。例如，如图2所示，可以在前端页面中显示视频封面图和视频分类，如该视频分类为娱乐。进一步的，前端页面中可以包括对应视频内容的综合判断项、标签属性项、兴趣点和其他属性项等不同编目的标签。

可选的，如果是机器来打标签的话，不需要该前端页面，即整个打标签的过程在后台完成。

示例性的，本申请实施例可运用于视频标签系统中，标签系统用于对每个视频打上与其内容对应的标签。其中，标签系统中通常使用标签多路召回的方式召回大量的候选标签，候选标签的特点是召回率高但是准确率低。本申请实施例通过对标签系统加入标签打分算法，能够有效地对候选标签进行重打分和排序，从而过滤掉错误的候选标签，输出准确率更高的标签集合。因此，高准确率高召回率的标签系统为下游任务，比如视频推荐分发、审核和搜索等提供了重要信息。因此，本申请实施例能够通过优化标签系统节省大量的人力标注资源，也极大地提升了打标签的效率。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请实施例提供的一种标签打分方法300的示意性流程图，方法300可以由任何具有数据处理能力的电子设备执行，例如，该电子设备可实施为服务器或终端设备，例如可实施为图1中的服务器1或终端设备2，本申请对此不做限定。如图3所示，方法300包括步骤310至360。

图4为本申请实施例提供的一种网络架构的示意性框图，可以用于对候选标签进行重打分以及排序。如图4所示，该网络架构可以包括标签特征编码器410、音频特征编码器420、视觉特征编码器430、文本特征编码器440、至少一个模态特征注入模块450和动态融合模块460。

其中，标签特征编码器410用于对标签文本提取特征得到标签特征，音频特征编码器420用于对视频内容中的音频部分进行特征提取得到音频模态特征，视觉特征编码器430用于对视频内容中的视频部分进行特征提取得到视觉模态特征，文本特征编码器440用于对视频内容中的文本部分进行特征提取得到文本模态特征。至少一个模态特征注入模块450分别用于将对应模态信息注入到每个标签特征中，得到每个标签特征的至少一个融合标签特征，动态融合模块460用于对每个标签特征的至少一个融合标签特征进行动态融合，得到每个标签的得分。

下面将结合图4中的网络架构对图3中的方法300进行描述。

310，获取目标视频的至少两个候选标签。

示例性的，可以通过人工标注，或标签系统打标签的方式获取上述至少两个候选标签，本申请实施例对此不做限定。作为示例，编目人员可以根据对视频内容、关键任务的理解对目标视频进行人工标注。作为示例，标签系统可以根据目标视频中出现的人名、剧名、曲名、标题、字幕、音频、物品、场景等对目标视频打上各种丰富的标签，如通过多路召回的方式召回大量的标签，本申请对此不做限定。

320，利用第一特征编码器获取至少两个候选标签对应的标签特征。

具体的，可以利用第一特征编码器获取至少两个候选标签中每个候选标签对应的标签特征。示例性的，参见图4，可以将至少两个标签文本，如标签（tag）文本1、标签文本2、…、标签文本n输入标签特征编码器410，利用标签特征编码器410对至少两个标签文本分别进行特征编码，得到至少两个标签文本对应的标签特征，比如标签特征1、标签特征2、…、标签特征n等。其中，n为大于1的正整数。其中，标签文本为候选标签的一个示例，标签特征编码器410为第一特征编码器的一个示例。

具体而言，第一特征编码器可以为文本特征提取器，为从原始文本数据中提取有用信息的算法或模型，例如可以通过各种模型结构的特征提取模型实现，包括但不限于BERT（Bidirectional Encoder Representations from Transformers），长短期记忆模型（long-short term memory，LSTM）、卷积神经网络模型（Convolutional Neural Networks，CNN）、图神经网络（Graph Neural Network，GNN）等模型，本申请对此不做限定。

330，利用M个第二特征编码器分别对目标视频的对应模态信息进行特征编码，获取目标视频的M个模态特征。其中，M为正整数。

具体的，可以利用M个第二特征编码器分别获取目标视频的M个模态特征，即每个模态的第二特征编码器分别以目标视频的对应模态信息为输入，获取目标视频的对应模态信息的模态特征。其中，每个第二特征编码器对应一种模态信息，用于提取对应模态信息的特征进行编码得到对应的模态特征。这里，M个特征编码器与M个模态特征一一对应，也就是说，各模态的特征编码器独立提取各自模态的特征，各模态的特征编码器之间互相不影响。

在一些实施例中，M个模态特征包括音频模态特征、视觉模态特征和文本模态特征中的至少一种。对应的，第二特征编码器可以包括音频特征编码器、视觉特征编码器和文本特征编码器中的至少一种。

示例性的，继续参见图4，可以将目标视频，即视频内容的音频内容输入音频特征编码器420，利用音频特征编码器420对音频内容进行特征编码，得到目标视频的音频特征；将视频内容的视觉内容（如图像帧）输入视觉特征编码器430，利用视觉特征编码器430对视觉内容进行特征编码，得到目标视频的视觉特征；以及将视频内容的文本内容（如标题或字幕）输入文本特征编码器440，利用文本特征编码器440对文本内容进行特征编码，得到目标视频的文本特征。其中，音频特征编码器420、视觉特征编码器430、文本特征编码器440为第二特征编码器的相关示例。

示例性的，音频数据可以是视频中人物的对白或者对旁白，音频数据通常也能够反映视频内容。作为示例，可以通过对视频内容中的音频数据进行自动语音识别(Automatic Speech Recognition，ASR)得到语音识别数据，本申请对此不做限定。

示例性的，文本数据可以包括但不限于视频标题、光学字符识别OCR数据等。具体而言，视频标题通常是对视频表达内容的主观描述，通常可以涵盖视频想要表达的高级语义。OCR数据可以包括从视频帧中进行OCR提取到的文字，比如视频描述、对白字幕、旁白字幕、说明字幕、背景文字等中的至少一种。

具体而言，第二特征编码器可以为各模态特征提取器，为从原始数据（如图像、视频、文本或语音）中提取有用信息的算法或模型，例如可以通过各种模型结构的特征提取模型实现，包括但不限于卷积神经网络模型（Convolutional Neural Networks，CNN）、图神经网络（Graph Neural Network，GNN）、BERT（Bidirectional Encoder Representationsfrom Transformers），长短期记忆模型（long-short term memory，LSTM）等模型，本申请对此不做限定。

应理解，本申请实施例系统具有良好的可扩展性和适应性，可以轻松扩展到新模态，从而实现灵活动态选择不同模态特征以提升标签打分效果和效率。

340，利用M个模态特征注入模块分别将M个模态特征与至少两个候选标签对应的标签特征进行融合，得到至少两个候选标签中的每个候选标签对应的M个融合标签特征。

具体而言，可以将至少两个候选标签对应的标签特征分别输入每个模态特征注入模型，每个模态特征注入模型对每个标签特征注入对应的模态特征，实现每个候选标签的标签特征与对应模态特征的融合，得到每个标签特征与对应模态特征融合后的融合标签特征。例如，M个模态特征注入模块包括第一模态特征对应的第一模态特征注入模块，则可以将第一模态特征和至少两个候选标签对应的标签特征输入第一模态特征注入模块，得到至少两个候选标签中每个候选标签与第一模态特征融合后的融合标签特征。这样，利用M个模态特征注入模块，可以得到每个标签的标签特征分别与M个模态特征融合后的M个融合标签特征。通过对每个候选标签的标签特征与目标视频的M个模态特征进行融合，能够实现将跨模态信息注入标签特征。

示例性的，继续参见图4，可以包括三个模态特征注入模块450，分别用于将视频内容的音频特征、视觉特征和文本特征注入到每个标签特征中。例如，可以将至少两个标签特征，如标签特征1、标签特征2、...、标签特征n，以及音频特征输入音频模态对应的模态特征注入模块450，对每个标签特征注入音频特征，得到每个标签特征与音频特征融合后的融合标签特征。又例如，可以将至少两个标签特征，如标签特征1、标签特征2、...、标签特征n，以及视觉特征输入视觉模态对应的模态特征注入模块450，对每个标签特征注入视觉特征，得到每个标签特征与视觉特征融合后的融合标签特征。又例如，可以将至少两个标签特征，如标签特征1、标签特征2、...、标签特征n，以及文本特征输入文本模态对应的模态特征注入模块450，对每个标签特征注入文本特征，得到每个标签特征与文本特征融合后的融合标签特征。这样，每个候选标签分别对应其标签特征与音频特征融合后的融合标签特征、与视觉特征融合后的融合标签特征，以及与文本特征融合后的融合标签特征。

在一些实施例中，模态特征注入模块包括交互注意力（cross-attention）模块。具体而言，交互注意力模块输入标签特征和模态特征两中不同序列，通过对标签特征和模态特征这两种不同序列的信息进行比较，深入理解每个序列的上行文信息，动态地学习每个输入序列的重要性，并根据每个序列的重要性调整注意力分配，获取标签特征和模态特征之间更细微的关系，提供更丰富的信息。

示例性的，注意力机制涉及查询（Query）矩阵、键（Key）矩阵和值（Value）矩阵，满足如下公式（1）：

（1）

其中，Q、K和V分别代表查询矩阵、键矩阵和值矩阵，其维度分别为d_q，d_k和v_d。作为示例，Q、K和V分别为输入向量表示与需要学习的W_q、W_k和W_v三个矩阵相乘映射得到。注意力机制的核心即通过计算Q和K的相似度（即通过二者之间的点积实现）得到注意力权重，然后再将注意力权重作用于V得到整个加权输出。这样，注意力模型能够关注输入中与当前任务最相关的信息，而忽略不重要的信息。

在一些实施例中，上述M个模态特征注入模块包括第一模态特征对应的第一模态特征注入模块。如图5所示，上述步骤340具体可以包括如下步骤341至343。

341，根据至少两个候选标签对应的标签特征、第一模态特征注入模块的第一查询权重矩阵和第一值权重矩阵，得到第一查询向量和第一值向量。

具体而言，可以将至少两个候选标签对应的标签特征，分别与第一模态特征注入模块（即交互注意力模块）的第一查询权重矩阵（如W_q1）、第一值权重矩阵（W_v1）相乘，得到第一查询向量（即Q向量）和第一值向量（即V向量）。

342，根据第一模态特征和第一模态特征注入模块的第一键权重矩阵，得到第一键向量。

具体而言，可以将第一模态特征与第一模态特征注入模块（即交互注意力模块）的第一键权重矩阵（W_k1）相乘，得到第一键向量（即K向量）。

343，根据第一查询向量、第一值向量和第一键向量，获取至少两个候选标签分别与第一模态特征融合后的融合标签特征。

具体的，可以将第一查询向量（ Q向量）、第一值向量（V向量）和第一键向量（K向量），输入上述注意力机制公式中，得到至少两个候选标签分别与第一模态特征融合后的融合标签特征。

具体的，交互注意力模块根据Q向量中的每个元素，在K向量中寻找最相关的元素并提取其对应的值，这使得模型能够更精确地关注到标签特征和模态特征之间的具体关联。具体的，通过计算Q向量与K向量之间的相似度为V向量分配了动态的权重，从而模型可以根据输入动态地调整对不同V向量的关注程度。这样，通过动态权重分配使得模型能够更灵活地捕捉不同粒度的关系，得到更加丰富的信息。

可选的，本申请实施例通过将跨模态信息注入标签特征的操作，可以批量处理标签特征与不同模态特征的融合，生成每个模态对应的信息注入后的融合标签特征。

在一些实施例中，交互注意力模块之前还设置有自注意力（self-attention）模块。具体而言，自注意力模块可以输入至少两个候选标签的标签特征，自动学习并关注输入标签特征中的重要的部分，例如为关键词或关键短语分配更高的权重，以及进行全局信息交互，从而更好地理解和处理输入标签特征数据，实现对输入标签特征的信息增强。示例性的，自注意力模块满足上述注意力机制公式（1）。

具体的，可以将至少两个候选标签对应的标签特征输入自注意力模块，得到至少两个候选标签对应的信息增强后的标签特征；以及将至少两个候选标签对应的信息增强后标签特征，确定为至少两个候选标签对应的标签特征作为交互注意力模块的输入。

在一些实施例中，可以根据至少两个候选标签对应的标签特征、自注意力模块中的第二查询权重矩阵、第二值权重矩阵和第二键权重矩阵，得到第二查询向量、第二值向量和第二键向量；以及根据第二查询向量、第二值向量和第二键向量，获取至少两个候选标签对应的信息增强后的标签特征。

具体而言，可以将至少两个候选标签对应的标签特征，分别与第一模态特征注入模块中自注意力模块的第二查询权重矩阵（如W_q2）、第二值权重矩阵（W_v1）、第二键权重矩阵（W_k2）相乘，得到第二查询向量（即Q向量）、第二值向量（即V向量）和第二键向量（K向量）。然后，可以将第二查询向量（ Q向量）、第二值向量（V向量）和第二键向量（K向量），输入上述注意力机制公式中，得到至少两个候选标签的增强后的标签特征。

图6为根据本申请实施例的一种模态特征注入模块的网络结构的一个示意图。如图6所示，该网络结构包括自注意力模块610、交互注意力模块620和线性层630。输入数据包括两部分，一部分是“标签特征序列”，维度为N×dim，其中N为标签的数量，dim为标签特征维度。另一部分是“需注入的模态特征序列”，维度为M×dim，其中M为模态特征序列长度，dim为模态特征维度。应注意，由于不同模态数据的特征提取器提取的模态特征长度都不相同，因此M在这里是可变的。

在自注意力模块610中，标签特征序列进行自注意力操作。示例性的，自注意力操作满足上述公式（1）。具体的，在自注意力模块中，对于标签特征序列，可以表达为一个（N×dim）形状的矩阵，分别与三个不同的维度都为（dim×dim）的矩阵W_q、W_k、W_v的矩阵做矩阵相乘操作，得到Q、K、V三个矩阵。将该三个矩阵输入上述公式（1）中，最终得到一个新的形状为（N×dim）的矩阵。经过自注意力模块610，每个标签特征各自进行了交互，标签特征得到了信息增强。示例性的，注意力输出的结果为A矩阵。

在交互注意力模块620中，A矩阵为（N×dim）形状的矩阵，通过与形状都为（dim×dim）的矩阵W'_q、W'_v的矩阵做矩阵相乘操作得到Q和V矩阵。需要注入的模态特征序列可以表达为一个形状为（M×dim）的矩阵，与形状为（dim×dim）的W'_k的矩阵相乘得到K矩阵。将三个矩阵输入上述公式（1）中，最终得到了一个新的形状为（N×dim）的矩阵。此时已经将需注入的模态特征序列中的信息注入到标签特征序列中了，得到的矩阵为B矩阵。

继续参见图6，可以将B矩阵输入线性层630进行一次线性映射，得到最终形状为（N×dim）的矩阵，完成了模态信息的注入。

需要注意的是，在跨模态信息注入操作中，模态特征序列的长度是不影响最终输出的标签特征序列的长度的。因此，最终输出的标签特征序列的长度等于输入的标签特征序列的长度，即N，这使得跨模态信息注入时不要求各模态信息进行向量序列长度的压缩，模型的使用更加方便。

350，利用聚合模块对每个候选标签对应的M个融合标签特征进行融合，得到所述每个候选标签对应的得分。

示例性的，继续参见图4，可以将三个模态特征注入模块450输出的每个候选标签的三个融合标签特征输入动态融合模块460，对每个候选标签对应的三个融合标签特征进行融合，得到每个候选标签对应的得分。其中，动态融合模块460为聚合模块的一个示例。

具体而言，由于不同模态特征能够从视频的不同维度表征视频信息，因此通过对多模态信息注入后的标签进行融合，能够使得多模态特征信息相互补充和协作，能够有利于全面完整地理解视频内容，使得每个候选标签的得分能够更加准确的反映视频内容。本申请实施例还能够实现模态特征的复用，降低推理成本。

进一步的，在不同业务中，得到的多模态信息不尽相同，在不同业务中不同模态信息的重要性也不尽相同。基于此，本申请实施例对每个候选标签的M个融合标签特征进行动态聚合，将上一步中跨模态信息注入得到的特征再次进行聚合，使得更重要的信息得到强调，而不重要的信息被抑制，实现模型关注与任务最相关的信息，进而有利于提高模型对不同模态信息的区分能力以便于更好地捕捉不同模态之间的关系，从而提高最终任务的性能。

在一些实施例中，聚合模块可以包括映射层和聚合层。此时，步骤350可以实现为：利用映射层对M个融合标签特征分别进行映射，得到M个得分；利用聚合层对该M个得分进行加权求和，得到每个候选标签对应的得分。

示例性的，对于其中一个候选标签tag1而言，得到了M个模态信息注入后的向量，即为A1、A2、…、Am，使用一个线性层（linear）将其映射为分数，得到score_1、score_2、…、score_m，然后可以将该m个得分进行加权聚合（例如求平均值），得到tag1的最终分数。类似的，对所有的候选标签进行相同的操作，可以得到每个候选标签最终的得分。

可选的，还可以根据每个候选标签对应的得分对至少两个候选标签进行排序，得到目标视频的标签序列。

具体而言，得分越高，则该标签越能够准确地反映目标视频的内容。基于此，可以按照候选标签的得分对候选标签从高至低依次排列，得到目标视频的标签序列。标签在标签序列中的位置越靠前，则该标签的质量越高。

因此，本申请实施例通过利用模态特征注入模块分别将每个模态特征与每个候选标签对应的标签特征进行融合，实现将跨模态信息注入标签特征，得到每个候选标签对应的多个融合标签特征，该融合特征能够捕捉到更细粒度的关系，从而提供更丰富的信息用于后续处理，然后将该多个融合标签特征进行再次融合，即将经过不同模态信息注入后的标签特征融合到一起，动态地调整不同模态之间的相互作用，使得更重要的信息得到强调而不重要的信息被抑制，使得每个候选标签对应的得分更够准确地反映标签的准确性，从而获取更加准确的视频标签。

图7为本申请实施例提供的一种标签打分模型训练方法700的示意性流程图。其中，标签打分模型可以包括第一特征编码器、M个第二特征编码器、M个模态特征注入模块和聚合模块。具体的，第一特征编码器、M个第二特征编码器、M个模态特征注入模块和聚合模块的功能可以参考上文中的相关描述。如图7所示，方法700包括步骤710至760。

可选的，方法700可以在上述方法300之前执行，或者方法700可以单独执行，用于得到已训练的标签打分模型。方法700可以由任何具有数据处理能力的电子设备执行，例如，该电子设备可实施为服务器或终端设备，例如可实施为图1中的服务器1或终端设备2，本申请对此不做限定。

710，获取训练样本，训练样本包括视频样本的至少两个标签和所述至少两个标签的真实值。

示例性的，视频样本的至少两个标签可以包括标签系统为视频样本打的多个标签。人工对这些标签进行筛选后，正确标签对应的真实值为1，错误标签对应的真实值为0。

720，利用第一特征编码器获取所述至少两个标签对应的标签特征。

具体的，利用第一特征编码器获取至少两个标签特征的过程可以参见图3中的相关描述。

730，利用M个第二特征编码器分别对视频样本的对应模态信息进行特征编码，获取视频样本的M个模态特征。

具体的，利用M个第二特征编码器获取视频样本的M个模态特征的过程可以参见图3中的相关描述。

可选的，本申请实施例中，第一特征编码器、M个第二特征编码器可以是冻结即不需要训练学习，从而能够有利于节省训练成本。

740，利用M个初始模态特征注入模块分别将视频样本的M个模态特征与至少两个标签对应的标签特征进行融合，得到至少两个标签中的每个标签对应的M个融合标签特征。

具体的，初始模态特征注入模块可以为未更新参数之前的模态特征注入模块。具体的，利用M个初始模态特征注入模块分别进行模态信息注入，得到每个标签的M个融合标签特征的过程可以参见图3中的相关描述。

750，利用初始聚合模块对每个标签对应的M个融合标签特征进行融合，得到每个标签对应的得分。

具体的，初始聚合模块可以为未更新参数之前的聚合模块。具体的，利用初始聚合模块对每个标签的M个融合标签特征进行融合得到每个标签的得分的过程可以参见图3中的相关描述。

760，根据每个标签对应的得分和每个标签的真实值，对M个初始模态特征注入模块和初始聚合模块分别进行参数更新，得到已训练的M个模态特征注入模块和聚合模块。

示例性的，可以根据每个标签对应的得分与每个标签的真实值确定损失函数，进一步根据损失函数对M个初始模态特征注入模块和初始聚合模块分别进行参数更新，得到已训练的M个模态特征注入模块和聚合模块，即上述标签打分模型。

因此，本申请实施例通过获取视频样本的至少两个标签的标签特征，以及视频样本的多模态特征，利用模态特征注入模块分别将每个模态特征与每个标签特征进行融合，实现将跨模态信息注入标签特征，得到每个标签对应的多个融合标签特征，然后将该多个融合标签特征进行再次融合，即将经过不同模态信息注入后的标签特征融合到一起，得到每个标签的得分，进而根据每个标签的得分和真实值对模态特征注入模块和聚合模块进行参数更新，得到标签打分模型，该模型能够通过模型特征注入捕捉更细粒度的关系，通过将模态信息注入后的标签特征融合到一起，能够动态调整不同模态之间的相互作用，使得更重要的信息得到强调而不重要的信息被抑制，进而输出的标签得分更够准确地反映标签的准确性，从而有助于获取更加准确的视频标签。

以上结合附图详细描述了本申请的具体实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。应理解这些序号在适当情况下可以互换，以便描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

上文详细描述了本申请的方法实施例，下文结合图8至图10，详细描述本申请的装置实施例。

图8是本申请实施例的标签打分装置10的示意性框图。如图8所示，所述装置10可包括获取单元11、第一特征编码器12、M个第二特征编码器13、M个模态特征注入模块14和聚合模块15。

获取单元11，用于获取目标视频的至少两个候选标签；

第一特征编码器12，用于获取所述至少两个候选标签对应的标签特征；

M个第二特征编码器13，用于分别对所述目标视频的对应模态信息进行特征编码，获取所述目标视频的M个模态特征； M为正整数；

M个模态特征注入模块14，用于分别将所述M个模态特征与所述至少两个候选标签对应的标签特征进行融合，得到所述至少两个候选标签中的每个候选标签对应的M个融合标签特征；

聚合模块15，用于对所述每个候选标签对应的M个融合标签特征进行融合，得到所述每个候选标签对应的得分。

可选的，所述模态特征注入模块14包括交互注意力模块。

可选的，所述M个模态特征注入模块14包括第一模态特征对应的第一模态特征注入模块；所述M个模态特征注入模块中的第一模态特征注入模块具体用于：

根据所述至少两个候选标签对应的标签特征、所述第一模态特征注入模块的第一查询权重矩阵和第一值权重矩阵，得到第一查询向量和第一值向量；

根据所述第一模态特征和所述第一模态特征注入模块的第一键权重矩阵，得到第一键向量；

根据所述第一查询向量、所述第一值向量和所述第一键向量，获取所述至少两个候选标签分别与所述第一模态特征融合后的所述融合标签特征。

可选的，所述交互注意力模块之前还设置有自注意力模块。

可选的，自注意力模块用于：

将所述至少两个候选标签对应的标签特征输入所述自注意力模块，得到所述至少两个候选标签对应的信息增强后的标签特征；

将所述至少两个候选标签对应的信息增强后标签特征，确定为所述至少两个候选标签对应的标签特征作为所述交互注意力模块的输入。

可选的，自注意力模块用于：

根据所述至少两个候选标签对应的标签特征、所述自注意力模块中的第二查询权重矩阵、第二值权重矩阵和第二键权重矩阵，得到第二查询向量、第二值向量和第二键向量；

根据所述第二查询向量、所述第二值向量和所述第二键向量，获取所述至少两个候选标签对应的信息增强后的标签特征。

可选的，所述聚合模块15包括映射层和聚合层；所述聚合模块15：

利用所述映射层对所述M个融合标签特征分别进行映射，得到M个得分；

利用所述聚合层对所述M个得分进行加权求和，得到所述每个候选标签对应的得分。

可选的，获取单元11还用于获取训练样本，所述训练样本包括视频样本的至少两个标签和所述至少两个标签的真实值；

所述第一特征编码器还用于获取所述至少两个标签对应的标签特征；

所述M个第二特征编码器还用于获取所述视频样本的M个模态特征；

装置10还包括M个初始模态特征注入模块，用于分别将所述视频样本的M个模态特征与所述至少两个标签对应的标签特征进行融合，得到所述至少两个标签中的每个标签对应的M个融合标签特征；

装置10还包括初始聚合模块，用于对所述每个标签对应的M个融合标签特征进行融合，得到所述每个标签对应的得分；

装置10还包括参数更新单元，用于根据所述每个标签对应的得分和所述每个标签的真实值，对所述M个初始模态特征注入模块和所述初始聚合模块分别进行参数更新，得到已训练的所述M个模态特征注入模块和聚合模块。

可选的，所述M个模态特征包括音频模态特征、视觉模态特征和文本模态特征中的至少一种。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图8所示的装置10可以执行上述方法实施例，并且装置10中的各个模块的前述和其它操作和/或功能分别为了实现上述方法300中的相应流程，为了简洁，在此不再赘述。

图9是本申请实施例的标签打分模型训练装置20的示意性框图。如图9所示，所述装置20可包括获取单元21、第一特征编码器22、M个第二特征编码器23、M个模态特征注入模块24、聚合模块25和参数更新单元26。

获取单元21，用于获取训练样本，所述训练样本包括视频样本的至少两个标签和所述至少两个标签的真实值；

第一特征编码器22，用于获取所述至少两个标签对应的标签特征；

M个第二特征编码器23，用于分别对所述视频样本的对应模态信息进行特征编码，获取所述视频样本的M个模态特征；

M个模态特征注入模块24，用于分别将所述视频样本的M个模态特征与所述至少两个标签对应的标签特征进行融合，得到所述至少两个标签中的每个标签对应的M个融合标签特征；

聚合模块25，用于对所述每个标签对应的M个融合标签特征进行融合，得到所述每个标签对应的得分；

参数更新单元16，用于根据所述每个标签对应的得分和所述每个标签的真实值，对所述M个模态特征注入模块和所述聚合模块分别进行参数更新，得到已训练的M个模态特征注入模块和聚合模块。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图9所示的装置20可以执行上述方法实施例，并且装置20中的各个模块的前述和其它操作和/或功能分别为了实现上述方法700中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图10是本申请实施例提供的电子设备30的示意性框图。

如图10所示，该电子设备30可包括：

存储器31和处理器32，该存储器31用于存储计算机程序，并将该程序代码传输给该处理器32。换言之，该处理器32可以从存储器31中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器32可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器32可以包括但不限于：

通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器31包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器31中，并由该处理器32执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图10所示，该电子设备30还可包括：

收发器33，该收发器33可连接至该处理器32或存储器31。

其中，处理器32可以控制该收发器33与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器730可以包括发射机和接收机。收发器33还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

可以理解的是，在本申请的具体实施方式中，当本申请以上实施例运用到具体产品或技术中并涉及到用户信息等相关的数据时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关法律法规和标准。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种标签打分方法，其特征在于，包括：

获取目标视频的至少两个候选标签；

利用M个第二特征编码器分别对所述目标视频的对应模态信息进行特征编码，获取所述目标视频的M个模态特征；M为正整数；

2.根据权利要求1所述的方法，其特征在于，所述模态特征注入模块包括交互注意力模块。

3.根据权利要求2所述的方法，其特征在于，所述M个模态特征注入模块包括第一模态特征对应的第一模态特征注入模块；

其中，所述利用M个模态特征注入模块分别将所述M个模态特征与所述至少两个候选标签对应的标签特征进行融合，得到所述至少两个候选标签中的每个候选标签对应的M个融合标签特征，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述交互注意力模块之前还设置有自注意力模块。

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述至少两个候选标签对应的标签特征输入所述自注意力模块，得到所述至少两个候选标签对应的信息增强后的标签特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述聚合模块包括映射层和聚合层；所述利用聚合模块对所述每个候选标签对应的M个融合标签特征进行融合，得到所述每个候选标签对应的得分，包括：

8.根据权利要求1所述的方法，其特征在于，还包括：

利用所述第一特征编码器获取所述至少两个标签对应的标签特征；

利用所述M个第二特征编码器获取所述视频样本的M个模态特征；

利用M个初始模态特征注入模块分别将所述视频样本的M个模态特征与所述至少两个标签对应的标签特征进行融合，得到所述至少两个标签中的每个标签对应的M个融合标签特征；

利用初始聚合模块对所述每个标签对应的M个融合标签特征进行融合，得到所述每个标签对应的得分；

根据所述每个标签对应的得分和所述每个标签的真实值，对所述M个初始模态特征注入模块和所述初始聚合模块分别进行参数更新，得到已训练的所述M个模态特征注入模块和聚合模块。

9.根据权利要求1所述的方法，其特征在于，所述M个模态特征包括音频模态特征、视觉模态特征和文本模态特征中的至少一种。

10.一种标签打分模型训练方法，其特征在于，包括：

利用M个第二特征编码器分别对视频样本的对应模态信息进行特征编码，获取所述视频样本的M个模态特征；M为正整数；

11.一种标签打分装置，其特征在于，包括：

获取单元，用于获取目标视频的至少两个候选标签；

M个第二特征编码，用于器获取所述目标视频的M个模态特征；M为正整数；

12.一种标签打分模型训练装置，其特征在于，包括：

M个第二特征编码器，用于获取所述视频样本的M个模态特征；

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有指令，所述处理器执行所述指令时，使得所述处理器执行权利要求1-10任一项所述的方法。

14.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于执行权利要求1-10中任一项所述的方法。

15.一种计算机程序产品，其特征在于，包括计算机程序代码，当所述计算机程序代码被电子设备运行时，使得所述电子设备执行权利要求1-10中任一项所述的方法。