CN116956117A

CN116956117A - 一种标签识别的方法、装置、设备、存储介质及程序产品

Info

Publication number: CN116956117A
Application number: CN202310722481.6A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-10-27

Abstract

本申请实施例公开了一种标签识别的方法、装置、设备、存储介质及程序产品，至少涉及人工智能等技术，使用统一的标签识别模型刻画不同场景下多模态内容的标签，无需重复开发不同场景下的识别模型，节省开发成本，降低资源占用。该方法包括：获取待识别任务在第一场景下的提示信息和多个模态信息，提示信息用于指示每个模态信息在第一场景下的标签提示描述；提取每个模态信息的特征向量以及提示信息的特征向量；对多个模态信息的特征向量进行融合处理，得到融合特征向量；基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理，得到标签识别结果，标签识别结果用于指示待识别任务在第一场景下的分类标签。

Description

一种标签识别的方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及人工智能技术领域，具体涉及一种标签识别的方法、装置、设备、存储介质及程序产品。

背景技术

随着科学技术的发展，使用对象在不同场景下会发布多种形态的内容，例如图文、视频、音乐等。不同形态的内容会通过搜索引擎、推荐引擎或者社交引擎等渠道分发给海量的使用对象。在分发过程中需要对内容进行理解，深刻精度的内容理解能够帮助信息流业务搭建内容与使用对象之间的桥梁，便于能够刻画使用对象的兴趣点和内容标签特性。在不同的场景中，相同的标签词也会有不同的含义。譬如说，针对小世界场景中对应的滴滴标签，则描述的是公司名；而在频道场景中，滴滴标签则指的是交友滴滴。

在传统的标签识别的方案中，通常是针对每个业务场景构建不同的业务模型和标签分类词表，并借助人工标注的方式对不同业务场景标记大量的内容样本，以此使用不同业务场景中的内容样本来训练不同的识别模型后，再针对各个业务场景独立相应的识别模型。然而，多个业务场景的任务之间无法相互提供有效信息，从而需要针对不同的场景重复地开发对应的识别模型，导致不同业务场景对应训练得到的识别模型并不统一，难以选择合适的识别模型统一地识别多个业务场景下的标签；而且模型在部署中会存在多个不同的识别模型，导致资源占用较多。

发明内容

本申请实施例提供了一种标签识别的方法、装置、设备、存储介质及程序产品，能够对不同场景下多模态的内容进行标签的刻画，且无需重复对不同场景下的识别模型进行开发，节省重复开发的成本，降低资源占用。

第一方面，本申请实施例提供了一种标签识别的方法。该方法包括：获取待识别任务在第一场景下的提示信息和多个模态信息，提示信息用于指示每个模态信息在第一场景下的标签提示描述，每个模态信息用于指示待识别任务在对应模态下的内容情况；提取每个模态信息的特征向量以及提示信息的特征向量；对多个模态信息的特征向量进行融合处理，得到融合特征向量；基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理，得到标签识别结果，标签识别结果用于指示待识别任务在第一场景下的分类标签，标签识别模型是以训练待识别任务在第一场景下的分类标签为训练目标，以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。

第二方面，本申请实施例提供一种标签识别装置。该标签识别装置包括获取单元和处理单元。其中，获取单元，用于获取待识别任务在第一场景下的提示信息和多个模态信息，提示信息用于指示每个模态信息在第一场景下的标签提示描述，每个模态信息用于指示待识别任务在对应模态下的内容情况。处理单元，用于提取每个模态信息的特征向量以及提示信息的特征向量。处理单元，用于对多个模态信息的特征向量进行融合处理，得到融合特征向量。处理单元，用于基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理，得到标签识别结果，标签识别结果用于指示待识别任务在第一场景下的分类标签，标签识别模型是以训练待识别任务在第一场景下的分类标签为训练目标，以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。

在一些可选的实施方式中，处理单元用于：拼接融合特征向量与提示信息的特征向量，得到拼接的特征向量；基于标签识别模型中的编码子模型对拼接的特征向量进行编码处理，得到每个模态信息的内容表示；基于标签识别模型中的分类子模型对每个模态信息的内容表示进行识别处理，得到待识别任务在第一场景下的预测分类概率；基于预测分类概率确定标签识别结果。

在另一些可选的实施方式中，获取单元还用于：在基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理，得到标签识别结果之前，获取训练样本，训练样本包括样本分类任务在多个第二场景下的提示样本、以及多个模态样本信息。其中，提示样本用于指示每个模态样本信息在每个第二场景下的标签提示描述，每个模态样本信息用于指示样本分类任务在对应样本模态下的内容情况。处理单元用于：提取提示样本的特征向量以及每个模态样本信息的特征向量；基于提示样本的特征向量以及每个模态样本信息的特征向量，对标签识别模型进行迭代训练。

在另一些可选的实施方式中，处理单元用于：将多个模态样本信息的特征向量进行拼接，得到拼接的样本特征向量；基于初始分类模型对拼接的样本特征向量进行预测处理，得到样本分类任务在每个第二场景下的预测标签；计算样本分类任务在多个第二场景下的预测标签与提示样本之间的差异，以获取目标损失值；基于目标损失值对初始分类模型的模型参数进行更新处理，得到标签识别模型。

在另一些可选的实施方式中，处理单元用于：计算样本分类任务在多个第二场景下的预测标签与提示样本之间的标签相似度，以得到目标损失值。

在另一些可选的实施方式中，多个模态信息包括视频信息、音频信息和图像信息中的一个或多个、以及文本信息。

在另一些可选的实施方式中，处理单元用于：基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量。

在另一些可选的实施方式中，处理单元用于：在基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量之前，对文本信息的特征向量进行特征删除和/或特征遮盖处理，得到第一文本特征；基于文本信息的特征向量和第一文本特征，确定第二文本特征，第二文本特征为预测得到的被执行特征删除和/或特征遮盖处理的文本特征。处理单元用于基于多层Transformer模型对视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个、以及文本信息的特征向量和第一文本特征进行融合处理，得到融合特征向量。

在另一些可选的实施方式中，处理单元用于：在基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量之前，对视频信息的特征向量进行特征删除和/或特征遮盖处理，得到第一视频特征；基于视频信息的特征向量和第一视频特征，确定第二视频特征，第二视频特征为预测得到的被执行特征删除和/或特征遮盖处理的视频特征。处理单元用于基于多层Transformer模型对文本信息的特征向量、视频信息的特征向量、以及第一视频特征进行融合处理，得到融合特征向量。

在另一些可选的实施方式中，提示信息包括第一提示值、第二提示值以及第三提示值中的一个或多个。其中，第一提示值用于指示多个待识别任务共享的提示情况，第二提示值用于指示每个待识别任务的提示情况，第三提示值用于指示每个待识别任务中的每个提示标签。

在另一些可选的实施方式中，处理单元用于：提取视频信息中的视频内容信息、关键帧信息以及第一模态类型信息，第一模态类型信息用于指示视频内容信息的特征向量所属的模态；基于视频特征提取模型对视频内容信息、关键帧信息以及第一模态类型信息进行特征提取处理，得到视频信息的特征向量。

在另一些可选的实施方式中，处理单元用于：提取图像信息中的图像内容信息和第二模态类型信息，第二模态类型信息用于指示图像内容信息的特征向量所属的模态；基于图像特征提取模型对图像内容信息以及第二模态类型信息进行特征提取处理，得到图像信息的特征向量。

在另一些可选的实施方式中，处理单元用于：提取音频信息中的音频内容信息、第一位置信息以及第三模态类型信息，第三模态类型信息用于指示音频内容信息的特征向量所属的模态，第一位置信息用于指示音频内容信息中每帧音频的位置；基于音频特征提取模型对音频内容信息、第一位置信息以及第三模态类型信息进行特征提取处理，得到音频信息的特征向量。

在另一些可选的实施方式中，处理单元用于：提取所示文本信息中的文本内容信息、第二位置信息以及第四模态类型信息，第四模态类型信息用于指示文本内容信息的特征向量所属的模态，第二位置信息用于指示文本内容信息中每个文本词的位置；基于文本特征提取模型对文本内容信息、第二位置信息以及第四模态类型信息进行特征提取处理，得到文本信息的特征向量。

在另一些可选的实施方式中，文本内容信息包括文本标题和文本名称。

在另一些可选的实施方式中，文本内容信息还包括文字识别结果、自动语音识别结果以及关键词信息中的一个或多个，其中，文字识别结果为视频内容信息中的文本信息，自动语音识别结果为音频内容信息中的文本信息，关键词信息用于指示发布文本内容信息时的文本描述。

本申请实施例第三方面提供了一种标签识别设备，包括：存储器、输入/输出(I/O)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的标签识别的方法。

本申请实施例第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的方法。

本申请实施例第五方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在获取到待识别任务在第一场景下的提示信息和多个模态信息后，提取每个模态信息的特征向量以及提示信息的特征向量。所提及的提示信息能够指示每个模态信息在第一场景下的标签提示描述，每个模态信息也能够指示待识别任务在对应模态下的内容情况。这样，再对多个模态信息的特征向量进行融合处理，得到融合特征向量。另外，由于本申请中的标签识别模型是以训练待识别任务在第一场景下的分类标签为训练目标，以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型，那么在融合处理得到融合特征向量后，将该融合特征向量和提示信息的特征向量作为该标签识别模型的输入，从而借助该标签识别模型处理得到标签识别结果。通过该标签识别结果能够指示待识别任务在第一场景下的分类标签。通过上述方式，通过对第一场景下不同模态信息的特征向量进行跨模态的特征融合处理，能够完成各个模态之间的互补融合，提升特征的表达能力。并且，综合考虑多个第二场景下每个场景下的多个模态样本信息和提示样本，以此训练和构建出能够用来统一地识别针对不同场景的分类标签的标签识别模型，不仅能够更好地对不同场景下多模态的内容进行标签信息的刻画，而且无需重复对不同场景下的识别模型进行开发，节省重复开发的成本。此外，在模型部署阶段无需针对不同场景部署不同的识别模型，而是仅需部署一个标签识别模型便能够实现对不同场景下的分类标签的识别，降低资源占用。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的系统框架示意图；

图2示出了本申请实施例提供的标签识别的方法的一种流程图；

图3示出了本申请实施例提供的标签识别模型的训练示意图；

图4示出了本申请实施例中提供的标签识别的方法的另一流程示意图；

图5示出了本申请实施例提供的一种应用场景的系统流程图；

图6示出了本申请实施例中提供的标签识别装置的一个实施例示意图；

图7示出了本申请实施例中提供的标签识别设备的硬件结构示意图。

具体实施方式

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能(artificialintelligence,AI)技术研究和进步，人工智能技术在多个领域展开研究和应用。例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供了一种标签识别的方法。本申请实施例提供的标签识别的方法是基于人工智能实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述所提及的机器学习等方向。例如，可以涉及机器学习(machinelearning，ML)中的深度学习(deep learning)，包括自动编码器、嵌入等。

本申请提供的标签识别的方法可以应用于具有数据处理能力的标签识别设备，如终端设备、服务器、问答机器人等。其中，终端设备可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、可穿戴智能设备、智能语音交互设备、智能家电、飞行器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contextdeliverynetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器等，本申请不做具体限定。另外，所提及的终端设备以及服务器可以通过有线通信或无线通信等方式进行直接连接或间接连接，本申请不做具体限定。

另外，该标签识别设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括神经网络等技术。

在本申请实施例提供的标签识别的方法中的采用人工智能模型，主要涉及对神经网络的应用，通过神经网络实现对待识别任务在第一场景下的分类标签的识别处理。

在不同场景中，例如即时通讯软件中的小世界、群、频道、空间、以及游戏中心等场景，相同的标签会有不同的含义。举例来说，针对小世界场景中对应的滴滴标签，则描述的是公司名；而在频道场景中，滴滴标签则指的是交友滴滴。又比如，对于小世界场景当中的钻石则理解成珠宝，但在频道场景当中钻石则是指游戏段位。又譬如，对于小世界场景中的精华通常是指护肤精华，频道场景中的精华则理解成帖子精华。而在传统的标签识别过程中，通常是构建不同场景下各自对应的识别模型，并独立部署。然而，该传统方案在无法统一不同业务场景对应训练得到的识别模型，导致需要针对不同的场景重复地开发对应的识别模型，难以选择合适的识别模型统一地识别多个业务场景下的标签；而且模型在部署中会存在多个不同的识别模型，导致资源占用较多。

因此，为了解决上述提及的技术问题，本申请实施例提供了一种标签识别的方法。在该方法中，综合考虑多个第二场景下每个场景下的多个模态样本信息和提示样本，以此训练和构建出能够用来统一地识别针对不同场景的分类标签的标签识别模型，不仅能够更好地对不同场景下多模态的内容进行标签信息的刻画，而且无需重复对不同场景下的识别模型进行开发。另外，无需针对不同场景部署不同的识别模型，而是仅需部署一个标签识别模型便能够实现对不同场景下的分类标签的识别，降低资源占用。

示例性地，上述提及的标签识别的方法可以应用在图1示出的系统框架示意图中。如图1所示，该系统框架至少包括终端设备、服务器等。使用对象可以通过终端设备等向服务器上传多个模态信息，譬如多个模态信息可以包括视频信息、音频信息和图像信息中的一个或多个、以及文本信息。服务器存储有各种不同的模型，例如包括但不限于标签识别模型以及不同模态的特征提取模型，例如视频特征提取模型、音频特征提取模型、图像特征提取模型以及文本特征提取模型等。

以多个模态信息包括视频信息、音频信息、图像信息以及文本信息这四个模态信息为例，为了实现对后续的跨模态的标签识别，当终端设备检测到使用对象发布的不同模态信息后，可以向服务器发送这多个模态信息。由服务器在获取到待识别任务在第一场景下的这四个模态信息以及提示信息后，通过不同模态下的特征提取模型提取相应模态信息的特征向量。譬如说，通过视频特征提取模型提取视频信息的特征向量。同样地，通过音频特征提取模型提取音频信息的特征向量。此外，还可以通过图像特征提取模型提取图像信息的特征向量，以及通过文本特征提取模型提取文本信息的特征向量。此外，由于提示信息通常是借助文本模态来描述，因此在获取到提示信息之后，还可以借助文本特征提取模型提取提示信息的特征向量。这样，在经过特征提取处理后，将视频信息的特征向量、音频信息的特征向量、图像信息的特征向量以及文本信息的特征向量进行特征融合处理，例如作为多层Transformer模型的输入，以此通过多层Transformer模型进行特征融合处理，得到融合特征向量。随后，在构建出标签识别模型后，通过该标签识别模型实现对融合特征向量与提示信息的特征向量进行识别处理，从而确定得到待识别任务在第一场景下的分类标签。

需说明，上述提及的标签识别模型，是以训练所述待识别任务在所述第一场景下的分类标签为训练目标，以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。其具体的模型训练过程，可以参照后续图3中示出的内容进行理解，此处先不做赘述。

所提及的视频特征提取模型可以包括但不限于VideoSwinTransformer模型等，具体本申请实施例中不做限定。另外，所提及的音频特征提取模型可以包括但不限于wavlm-base-plus模型等，具体本申请实施例中不做限定。另外，所提及的图像特征提取模型可以包括但不限SwinTransformer模型或者Vit模型等，具体本申请实施例中不做限定。另外，所提及的文本特征提取模型可以包括但不限于基于transformer的双向语义编码表征模型(BidirectionalEncoderRepresentationsfromTransformers，BERT)等，具体本申请实施例中不做限定。

可以理解的是，上述所提及的标签识别模型以及不同模态的特征提取模型，例如视频特征提取模型、音频特征提取模型、图像特征提取模型以及文本特征提取模型等也可以部署在终端设备中，具体本申请不做限定说明。

下面结合附图对本申请实施例提供的一种标签识别的方法进行介绍。图2示出了本申请实施例提供的标签识别的方法的一种流程图。如图2所示，该标签识别的方法可以包括如下步骤：

201、获取待识别任务在第一场景下的提示信息和多个模态信息，提示信息用于指示每个模态信息在第一场景下的标签提示描述，每个模态信息用于指示待识别任务在对应模态下的内容情况。

该示例中，待识别任务可以理解成某些需要进行标签识别的任务。所提及的第一场景包括但不限于即时通讯软件中的视频场景、小世界场景、群场景、空间场景、游戏中心场景、视频号场景、公众号场景、搜一搜场景或者看一看场景等，具体本申请实施例中不做限定。使用对象通过终端设备发布关于该待识别任务在第一场景下的不同模态的内容，以使终端设备能够获取得到这多个模态信息。终端设备将这多个模态信息发送至服务器，进而由服务器获取得到该待识别任务在第一场景下的多个模态信息。

所描述的多个模态信息中的每个模态信息，能够指示待识别任务在对应模态下的内容情况。举例来说，多个模态信息包括文本信息。文本信息能够理解指示出待识别任务在文本模态下的内容情况。此外，多个模态信息还包括视频信息、音频信息以及图像信息中的一个或多个。其中，视频信息能够理解成待识别任务在视频模态下的内容情况，音频信息能够用来指示待识别任务在音频模态下的内容情况，图像信息能够理解成待识别任务在图像模态下的内容情况。

所提及的图像信息包括但不限于图像内容信息，比如说图片的封面图。示例性地，图像信息还可以包括图像的标题、摘要、发布时间等等。视频信息包括但不限于视频内容信息，比如说视频内容文件等。示例性地，视频信息还可以包括视频的封面图链接、码率、文件格式、视频标题、视频发布时间、视频作者信息等。所提及的音频信息包括但不限于音频内容信息，譬如说语音、视频流中的音频、音乐等，具体本申请实施例中不做限定。

所描述的文本信息包括但不限于文本内容信息。比如说文本内容信息包括文本标题和文本名称。示例性地，文本内容信息还可以包括视频信息中的文本识别(opticalcharacterrecognition，OCR)结果、音频信息的自动语音识别(automaticspeechrecognition，ASR)结果、以及图像信息中的文本内容(例如图片的摘要、标题等)等，具体本申请实施例中不做限定。在另一些示例中，文本信息还可以包括文本发布者信息、文本的封面图、文本发布时间、文本关键词等等，具体本申请实施例中不做限定说明。

另外，服务器还可以获取待识别任务在第一场景下的提示信息。所描述的提示信息指示上述提及的每个模态信息在第一场景下的标签提示描述。示例性地，所描述的提示信息包括第一提示值、第二提示值以及第三提示值中的一个或多个。其中，第一提示值可以理解成全局提示(globalprompt)，能够用于指示多个该待识别任务共享的提示情况。第二提示值可理解成任务提示(taskprompt)，能够用来指示每个待识别任务的提示情况。第三提示值也可理解成标签提示(labelprompt)，能够用来指示每个待识别任务中提示标签集合中的每个提示标签。需说明，在每个prompt中，均可以依据任务需求自适应地分配占位个数，例如P0至P3为某种占4个位置的prompt，并且P0至P2分别在代码中对应一个特征向量(embedding)。所占的位置多少，决定了对应特征向量的编码空间大小。

202、提取每个模态信息的特征向量以及提示信息的特征向量。

该示例中，在获取得到每个模态信息后，还需要对每个模态信息分别进行特征提取处理，从而提取得到对应模态信息的特征向量。示例性地，可以通过对应模态下的特征提取模型来提取对应模态的特征向量。本申请中仅以视频模态、音频模态、图像模态以及文本模态为例进行说明。

在一些可选的示例中，针对视频模态的情况，可先从视频信息中提取视频内容信息、关键帧信息以及第一模态类型信息。所描述的第一模态类型信息能够指示出视频内容信息的特征向量所属的模态，即视频模态。或者说，在后续特征融合所得到的融合特征向量中，通过该第一模态类型信息能够标识出对应特征向量来源于视频模态。此外，所描述的关键帧信息为该视频内容信息中关键帧相关的信息。这样，在提取得到视频内容信息、关键帧信息以及第一模态类型信息后，基于视频特征提取模型对视频内容信息、关键帧信息以及第一模态类型信息进行特征提取处理，从而得到该视频信息的特征向量。

所描述的视频特征提取模型包括但不限于VideoSwinTransformer等，具体本申请实施例中不做限定。此外，所描述的视频可以包括但不限于短视频、长视频等等，本申请实施例中不做限定。

在一些可选的示例中，针对图像模态的情况，可以先从图像信息中提取图像内容信息和第二模态类型信息。所提及的第二模态类型信息用于指示图像内容信息的特征向量所属的模态，即图像模态。换句话说，在后续特征融合所得到的融合特征向量中，通过该第二模态类型信息能够标识出对应特征向量来源于图像模态。这样，在提取得到图像内容信息以及第二模态类型信息后，基于图像特征提取模型对图像内容信息以及第二模态类型信息进行特征提取处理，得到图像信息的特征向量。

所描述的图像特征提取模型可以包括但不限SwinTransformer模型或者Vit模型等，具体本申请实施例中不做限定。另外，所描述的图像可以包括但不限于视频内容的封面图、图文内容的封面图或者频道场景中帖子的图片等，具体本申请实施例中不做限定。

在一些可选的示例中，针对音频模态的情况，可以从音频信息中提取音频内容信息、第一位置信息以及第三模态类型信息。所提及的额第三模态类型信息能够用来指示音频内容信息的特征向量所属的模态，即音频模态。或者说，在后续特征融合所得到的融合特征向量中，通过该第三模态类型信息能够标识出对应特征向量来源于音频模态。此外，所提及的第一位置信息，能够指示音频内容信息中每帧音频的位置。在提取得到音频内容信息、第一位置信息以及第三模态类型信息之后，再基于音频特征提取模型对音频内容信息、第一位置信息以及第三模态类型信息进行特征提取处理，得到音频信息的特征向量。

所描述的音频特征提取模型可以包括但不限于wavlm-base-plus模型等，具体本申请实施例中不做限定。此外，所描述的音频可以包括但不限于音乐、语音、影视视频中的音频、视频教程中的音频等，具体本申请实施例中不做限定。

在另一些可选的示例中，针对文本模态的情况，也可以从文本信息中提取文本内容信息、第二位置信息以及第四模态类型信息。所提及的第四模态类型信息用于指示文本内容信息的特征向量所属的模态。也就是理解成，在后续特征融合所得到的融合特征向量中，通过该第四模态类型信息能够标识出对应特征向量来源于文本模态。另外，所提及的第二位置信息用于指示文本内容信息中每个文本词的位置。这样，再基于文本特征提取模型对文本内容信息、第二位置信息以及第四模态类型信息进行特征提取处理，得到文本信息的特征向量。

需说明，所描述的文本特征提取模型可以包括但不限于BERT模型等，具体本申请实施例中不做限定。另外，所描述的文本内容信息包括文本标题和文本名称。此外，文本内容信息还包括文字识别结果、自动语音识别结果以及关键词信息中的一个或多个。其中，文字识别结果为视频内容信息中的文本信息，自动语音识别结果为音频内容信息中的文本信息，关键词信息用于指示发布文本内容信息时的文本描述。

由于提示信息本身也是通过文本模态来描述，因此在获取得到提示信息之后，还可以基于文本特征提取模型对提示信息进行特征提取处理，从而提取得到该提示信息的特征向量。此处所提及的文本特征提取模型，可以参照前述所描述的文本特征提取模型进行理解，此处不做赘述。

203、对多个模态信息的特征向量进行融合处理，得到融合特征向量。

该示例中，在提取得到多个模态信息中每个模态信息的特征向量之后，还可以对这多个模态信息的特征向量进行融合处理，从而得到融合特征向量。示例性地，以多个模态信息包括视频信息、音频信息以及图像信息中的一个或多个、以及文本信息为例，可以基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理，以此得到融合特征向量。

在一些可选的示例中，在特征融合之前，还可以对文本信息的特征向量进行特征删除和/或特征遮盖处理，得到第一文本特征。进一步地，基于文本信息的特征向量和第一文本特征，预测第二文本特征。所描述的第二文本特征，能够理解成预测得到的被执行特征删除和/或特征遮盖处理的文本特征。这样，在特征融合的处理过程中，具体可以基于多层Transformer模型对视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个、以及文本信息的特征向量和第一文本特征进行融合处理，得到融合特征向量。

在另一些可选的示例中，也可以在特征融合之前，对视频信息的特征向量进行特征删除和/或特征遮盖处理，得到第一视频特征。随后，基于视频信息的特征向量和第一视频特征，预测第二视频特征。所描述的第二视频特征，理解为预测得到的被执行特征删除和/或特征遮盖处理的视频特征。这样，在特征融合的处理过程中，基于多层Transformer模型对文本信息的特征向量、视频信息的特征向量以及第一视频特征进行融合处理，得到融合特征向量。

在另一些可选的示例中，在特征融合之前，也可以先将视频信息和该视频信息中的文本内容作为正样本，将任意的其他视频信息作为负样本。这样，在特征融合阶段中，则可以通过V2T(videototext)模型对该正样本和负样本进行处理，从而预测得到该视频信息中的文本内容的标签。同样地，可以先将音频信息和该音频信息中的文本内容作为正样本，将任意的其他音频信息作为负样本。这样，在特征融合阶段中，则可以通过I2T(imagetotext)模型对该正样本和负样本进行处理，从而预测得到该音频信息中的文本内容的标签。此外，针对图像模态的情况，也可以先将图像信息和该图像信息中的文本内容作为正样本，将任意的其他图像信息作为负样本。这样，在特征融合阶段中，则可以通过A2T(audiototext)模型对该正样本和负样本进行处理，从而预测得到该图像信息中的文本内容的标签。

在另一些示例中，还可以通过FOM(frameordermodeling)模型对视频信息中视频内容信息中的部分视频帧进行顺序重排处理，从而得到重排后的视频帧。随后，经过FC模型对重排后的视频帧进行分类处理，从而得到视频帧之间的关系情况。同样地，针对音频信息，也可以做出如视频信息的同样处理，具体此处不做赘述。

204、基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理，得到标签识别结果，标识识别结果用于指示待识别任务在第一场景下的分类标签。

该示例中，所描述的标签识别模型是以训练待识别任务在第一场景下的分类标签为训练目标，以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。针对融合特征向量的获取方式，可以参照前述步骤203中所描述的内容进行理解，此处不做赘述。此外，针对提示信息的特征向量的获取方式，也可以参照前述步骤202中所描述的内容进行理解，此处不做赘述。

所提及的多个第二场景中的每个第二场景，包括但不限于即时通讯软件中的视频场景、小世界场景、群场景、空间场景、游戏中心场景、视频号场景、公众号场景、搜一搜场景或者看一看场景等，具体本申请实施例中不做限定。前述所提及的第一场景，可以与第二场景相同，或者也可以与第二场景不相同，具体本申请实施例中不做限定。

示例性地，在将标签识别模型应用于识别第一场景下的分类标签之前，还可以先构建并训练得到该标签识别模型。例如，图3示出了本申请实施例提供的标签识别模型的训练示意图。

如图3所示，在标签识别模型的模型训练过程中，可以获取训练样本。在该训练样本中，包括样本分类任务在多个第二场景下的提示样本、以及多个模态样本信息。所提及的提示样本能够指示每个模态样本信息在每个第二场景下的标签提示描述。所提及的每个模态样本信息能够指示样本分类任务在对应样本模态下的内容情况。

随后，提取提示样本的特征向量以及每个模态样本信息的特征向量。举例来说，针对每个场景下的提示样本的特征向量，也可以在获取到提示样本之后，基于已经预训练好的文本特征提取模型对该提示样本进行特征提取，进而提取得到该提示样本相应的特征向量。同样地，针对每个第二场景下的多个模态样本信息的特征向量，也可以在获取到这多个模态样本信息后，基于对应模态的特征提取模型对模态样本信息进行特征提取处理，从而提取得到相应模态信息的特征特征。作为一个示意性的描述，以多个模态样本信息包括图像样本信息、视频样本信息、音频样本信息以及文本样本信息为例，针对特征提取的过程，可以参照下述内容进行理解，即：

基于视频特征提取模型对视频样本信息中的视频内容信息、所述关键帧信息以及所述第一模态类型信息进行特征提取处理，得到所述视频样本信息的特征向量，例如视频样本特征向量1至视频样本特征向量N，N≥1、N为整数。同样地，针对图像样本信息，也可以基于图像特征提取模型对该图像样本信息中的所述图像内容信息以及所述第二模态类型信息进行特征提取处理，得到所述图像信息的特征向量，例如图像样本特征向量1至图像样本特征向量N，N≥1、N为整数。此外，针对音频样本信息，也可以基于音频特征提取模型对音频样本信息中的所述音频内容信息、音频帧的位置信息以及所述第三模态类型信息进行特征提取处理，得到所述音频信息的特征向量，例如音频样本特征向量1至音频样本特征向量N，N≥1、N为整数。同样地，针对文本样本信息，基于文本特征提取模型对文本样本信息中的所述文本内容信息、文本词的位置信息以及所述第四模态类型信息进行特征提取处理，得到所述文本信息的特征向量，例如文本样本特征向量1至文本样本特征向量N，N≥1、N为整数。其具体提取特征向量的过程可以参照前述步骤202中所描述的内容进行理解，此处不做赘述

需说明，上述所提及的视频特征提取模型、第一模态类型信息、图像特征提取模型、第二模态类型信息、音频特征提取模型、第三模态类型信息、图文本特征提取模型、第四模态类型信息等内容，具体可以参照前述步骤202中所描述的内容进行理解，此处不做赘述。另外，所描述的音频帧的位置信息可参照前述步骤202中所提及的第一位置信息进行理解，文本词的位置信息可参照前述步骤202中所提及的第二位置信息进行理解，此处不做赘述。

这样，在获取得到多个第二场景下的提示样本的特征向量、以及多个模态样本信息的特征向量之后，便可以以第一场景下的分类标签为训练目标、以提示样本的特征向量、以及多个模态样本信息的特征向量作为训练数据。通过机器学习对这多个第二场景下的提示样本的特征向量、以及多个模态样本信息的特征向量进行训练，使得训练得到的标签识别模型能够具备从第一场景中识别出相应分类标签的能力。

在一些示例中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

因此，在具体训练的过程中，可以同步加入损失函数来提升标签识别模型的学习能力。示例性地，在进行迭代训练的过程中，可先将多个模态样本信息的特征向量进行拼接，得到拼接的样本特征向量，并基于初始分类模型对拼接的样本特征向量进行预测处理，得到样本分类任务在每个第二场景下的预测标签。随后，再计算样本分类任务在多个第二场景下的预测标签与提示样本之间的差异，以获取目标损失值。作为一个示例性的描述，通过计算样本分类任务在多个第二场景下的预测标签与提示样本之间的标签相似度，进而得到相应的目标损失值。所描述的标签相似度，能够反映出预测标签与提示样本之间的相关程度。针对如何计算标签相似度，具体可以通过余弦相似度等算法来计算，具体本申请实施例中不做限定。这样，在计算得到目标损失值后，再基于目标损失值对初始分类模型的模型参数进行更新处理，从而得到标签识别模型。

在经过上述图3所描述的方式训练得到本申请实施例的标签识别模型之后，便可基于该标签识别模型实现对第一场景下的分类标签的识别处理。示例性地，图4示出了本申请实施例中提供的标签识别的方法的另一流程示意图。在一些可选的示例中，针对上述图2中的步骤204，具体也可以参照图4中示出的步骤S401至S404的内容进行理解，具体如下：

S401、拼接融合特征向量与提示信息的特征向量，得到拼接的特征向量。

该示例中，在获取得到融合特征向量，以及提取得到提示信息的特征向量后，能够将融合特征向量与提示信息的特征向量进行拼接处理。这样，所得到拼接的特征向量能够反映出综合考虑了该待识别任务中的上下文信息，即提示信息。举例来说，可以将融合特征向量拼接在提示信息的特征向量之后，或者也可以将提示信息的特征向量拼接在融合特征向量之后，以得到拼接的特征向量。具体采用哪种方式，本申请实施例中不做限定。

S402、基于标签识别模型中的编码子模型对拼接的特征向量进行编码处理，得到每个模态信息的内容表示。

该示例中，在得到拼接的特征向量后，通过将该拼接的特征向量作为标签识别模型中编码子模型的输入，以通过该编码子模型对该拼接的特征向量进行编码处理，从而得到每个模态信息的内容表示。

S403、基于标签识别模型中的分类子模型对每个模态信息的内容表示进行识别处理，得到待识别任务在第一场景下的预测分类概率。

该示例中，在编码得到每个模态信息的内容表示后，再将每个模态信息的内容表示作为该标签识别模型中分类子模型的输入。这样，通过分类子模型对每个模态信息的内容进行识别处理，从而得到该待识别任务在第一场景下的预测分类概率。

S404、基于预测分类概率确定标签识别结果。

该示例中，在计算得到预测分类概率后，便可以基于该预测分类概率确定标识识别结果。作为一个示意性的描述，具体可以通过对预测分类概率进行排序，进而将预测分类概率最大值所对应的模态下的标签作为标签识别结果。

通过上述方式，通过对第一场景下不同模态信息的特征向量进行跨模态的特征融合处理，能够完成各个模态之间的互补融合，提升特征的表达能力。并且，综合考虑多个第二场景下每个场景下的多个模态样本信息和提示样本，以此训练和构建出能够用来统一地识别针对不同场景的分类标签的标签识别模型，不仅能够更好地对不同场景下多模态的内容进行标签信息的刻画，而且无需重复对不同场景下的识别模型进行开发，节省重复开发的成本。此外，在模型部署阶段无需针对不同场景部署不同的识别模型，而是仅需部署一个标签识别模型便能够实现对不同场景下的分类标签的识别，降低资源占用。

以上述图2和图4所描述的标签识别的方法应用在专业生产内容(professionalgeneratedcontent，PGC)和对象生成内容(usergenerated content，UGC)场景为例，图5示出了本申请实施例提供的一种应用场景的系统流程图。

如图5所示，该系统流程图主要涉及标签识别模型、多模态内容统一标签服务模块、内容消费端、内容存储服务器。示例性地，还可以包括内容生成端、调度中心服务器、上下行内容接口服务器、内容分发出口服务模块等。

在该示例中，内容生成端可以理解成PGC、UGC、多频道网络(multi-channelnetwork，MCN)或者专业用户生成内容(professional user-generatedcontent，PUGC)的内容生产对象，主要通过移动端或者后端接口API系统，提供视频信息、文本信息、音频信息以及图像信息等等，使用对象可以通过终端设备选择主动上传对应的视频信息、文本信息、音频信息以及图像信息。并且，内容生成端与上下行内容接口服务器通信，进而上传本地保存的图像信息、视频信息、文本信息以及音频信息等。所描述的图像信息、视频信息、文本信息等内容，具体可以参照前述图2中的步骤201中所描述的内容进行理解，此处不做赘述。

内容消费端通常通过内容分发出口服务模块，以Feeds的方式浏览消费数据，对于内容生成端上传的低质量的图像信息、视频信息、文本信息、音频信息等提供直接举报和反馈的入口，并与人工审核系统对接，由人工进行确认和复核，进而将最终确认未涉及敏感话题的图像信息、视频信息、文本信息、音频信息等保存在内容数据库中。以及，内容存储服务器也可以通过上下行内容接口服务器将内容生产端上传的图像信息、视频信息、文本信息、音频信息保存，并通过下载文件系统对所保存的视频信息和图像信息进行抽帧等处理后，将处理后的视频和图像等写入到内容数据库中。这样，在从内容数据库中获取图像信息、视频信息、文本信息以及音频信息等内容后，可以将这些内容作为后续标签识别模型的原始输入数据。

所提及的调度中心服务器还可以负责图像信息、视频信息、文本信息以及音频信息流转的整个调度过程，通过上下行内容接口服务器接收图像信息、视频信息、文本信息以及音频信息等，然后从内容元信息数据库中获取内容的元信息。以及，还可以调用内容排重服务模块过滤掉图像信息、视频信息、文本信息以及音频信息中重复的相似的内容。调度中心处理器对内容处理主要包括机器处理和人工审核处理，因此该调度中心处理器还可以调度人工审核系统和机器处理系统，控制调度的顺序和优先级。此外，在人工审核系统被调用的时候，该调度中心服务器可以通过内容出口分发服务模块将展示页面提供给内容消费端，即将标签、图像信息、视频信息、文本信息以及音频信息等提供给内容消费端。

此外，通过视频抽帧与音频分离服务模块对视频信息和音频信息进程处理。具体地，通过视频抽帧与音频分离服务模块对视频信息进行OCR文本识别和OCR过滤处理，从而提取得到该视频信息中的文本内容。同样地，通过视频抽帧与音频分离服务模块对音频信息进行ASR识别处理，从而提取得到该音频信息中的文本内容。此外，在提取得到文本内容后，将该文本内容添加在文本信息中。这样，再通过标签识别模型能够识别出待识别任务在第一场景下的分类标签。具体识别过程可以参照前述图2所描述的内容进行理解，此处不做赘述。

此外，还可以通过多模态内容统一标签服务模块对该标签识别模型进行服务化处理，构建得到在业务链路上被调用的服务来实现对分类标签的预测和标记等处理。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请实施例中的标签识别装置进行详细描述，图6为本申请实施例中提供的标签识别装置的一个实施例示意图。如图6所示，该标签识别装置可以包括获取单元601和处理单元602。

其中，获取单元601，用于获取待识别任务在第一场景下的提示信息和多个模态信息，提示信息用于指示每个模态信息在第一场景下的标签提示描述，每个模态信息用于指示待识别任务在对应模态下的内容情况。具体可以参照前述图2中步骤201所描述的内容进行理解，此处不做赘述。

处理单元602，用于提取每个模态信息的特征向量以及提示信息的特征向量。具体可以参照前述图2中步骤202所描述的内容进行理解，此处不做赘述。

处理单元602，用于对多个模态信息的特征向量进行融合处理，得到融合特征向量。具体可以参照前述图2中步骤203所描述的内容进行理解，此处不做赘述。

处理单元602，用于基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理，得到标签识别结果，标签识别结果用于指示待识别任务在第一场景下的分类标签，标签识别模型是以训练待识别任务在第一场景下的分类标签为训练目标，以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。具体可以参照前述图2中步骤204所描述的内容进行理解，此处不做赘述。

在一些可选的实施方式中，处理单元602用于：拼接融合特征向量与提示信息的特征向量，得到拼接的特征向量；基于标签识别模型中的编码子模型对拼接的特征向量进行编码处理，得到每个模态信息的内容表示；基于标签识别模型中的分类子模型对每个模态信息的内容表示进行识别处理，得到待识别任务在第一场景下的预测分类概率；基于预测分类概率确定标签识别结果。

在另一些可选的实施方式中，获取单元601还用于：在基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理，得到标签识别结果之前，获取训练样本，训练样本包括样本分类任务在多个第二场景下的提示样本、以及多个模态样本信息。其中，提示样本用于指示每个模态样本信息在每个第二场景下的标签提示描述，每个模态样本信息用于指示样本分类任务在对应样本模态下的内容情况。处理单元602用于：提取提示样本的特征向量以及每个模态样本信息的特征向量；基于提示样本的特征向量以及每个模态样本信息的特征向量，对标签识别模型进行迭代训练。

在另一些可选的实施方式中，处理单元602用于：将多个模态样本信息的特征向量进行拼接，得到拼接的样本特征向量；基于初始分类模型对拼接的样本特征向量进行预测处理，得到样本分类任务在每个第二场景下的预测标签；计算样本分类任务在多个第二场景下的预测标签与提示样本之间的差异，以获取目标损失值；基于目标损失值对初始分类模型的模型参数进行更新处理，得到标签识别模型。

在另一些可选的实施方式中，处理单元602用于：计算样本分类任务在多个第二场景下的预测标签与提示样本之间的标签相似度，以得到目标损失值。

在另一些可选的实施方式中，处理单元602用于：基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量。

在另一些可选的实施方式中，处理单元602用于：在基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量之前，对文本信息的特征向量进行特征删除和/或特征遮盖处理，得到第一文本特征；基于文本信息的特征向量和第一文本特征，确定第二文本特征，第二文本特征为预测得到的被执行特征删除和/或特征遮盖处理的文本特征。处理单元602用于基于多层Transformer模型对视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个、以及文本信息的特征向量和第一文本特征进行融合处理，得到融合特征向量。

在另一些可选的实施方式中，处理单元602用于：在基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量之前，对视频信息的特征向量进行特征删除和/或特征遮盖处理，得到第一视频特征；基于视频信息的特征向量和第一视频特征，确定第二视频特征，第二视频特征为预测得到的被执行特征删除和/或特征遮盖处理的视频特征。处理单元602用于基于多层Transformer模型对文本信息的特征向量、视频信息的特征向量、以及第一视频特征进行融合处理，得到融合特征向量。

在另一些可选的实施方式中，处理单元602用于：提取视频信息中的视频内容信息、关键帧信息以及第一模态类型信息，第一模态类型信息用于指示视频内容信息的特征向量所属的模态；基于视频特征提取模型对视频内容信息、关键帧信息以及第一模态类型信息进行特征提取处理，得到视频信息的特征向量。

在另一些可选的实施方式中，处理单元602用于：提取图像信息中的图像内容信息和第二模态类型信息，第二模态类型信息用于指示图像内容信息的特征向量所属的模态；基于图像特征提取模型对图像内容信息以及第二模态类型信息进行特征提取处理，得到图像信息的特征向量。

在另一些可选的实施方式中，处理单元602用于：提取音频信息中的音频内容信息、第一位置信息以及第三模态类型信息，第三模态类型信息用于指示音频内容信息的特征向量所属的模态，第一位置信息用于指示音频内容信息中每帧音频的位置；基于音频特征提取模型对音频内容信息、第一位置信息以及第三模态类型信息进行特征提取处理，得到音频信息的特征向量。

在另一些可选的实施方式中，处理单元602用于：提取所示文本信息中的文本内容信息、第二位置信息以及第四模态类型信息，第四模态类型信息用于指示文本内容信息的特征向量所属的模态，第二位置信息用于指示文本内容信息中每个文本词的位置；基于文本特征提取模型对文本内容信息、第二位置信息以及第四模态类型信息进行特征提取处理，得到文本信息的特征向量。

上面从模块化功能实体的角度对本申请实施例中的标签识别装置进行描述，下面从硬件处理的角度对本申请实施例中的标签识别装置进行描述。图6是本申请实施例提供的标签识别设备的结构示意图。该标签识别设备包括但不限于图5提及的标签识别装置等，可因配置或性能不同而产生比较大的差异。该标签识别设备可以至少一个处理器701，通信线路707，存储器703以及至少一个通信接口704。

处理器701可以是一个通用中央处理器(centralprocessingunit，CPU)，微处理器，特定应用集成电路(application-specificintegratedcircuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路707可包括一通路，在上述组件之间传送信息。

通信接口704，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网(radioaccessnetwork，RAN)，无线局域网(wirelesslocalareanetworks，WLAN)等。

存储器703可以是只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(randomaccess memory，RAM)或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路707与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器703用于存储执行本申请方案的计算机执行指令，并由处理器701来控制执行。处理器701用于执行存储器703中存储的计算机执行指令，从而实现本申请上述实施例提供的标签识别的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，该标签识别设备可以包括多个处理器，例如图7中的处理器701和处理器702。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，该标签识别设备还可以包括输出设备705和输入设备706。输出设备705和处理器701通信，可以以多种方式来显示信息。输入设备706和处理器701通信，可以以多种方式接收目标对象的输入。例如，输入设备706可以是鼠标、触摸屏装置或传感装置等。

上述的该标签识别设备可以是一个通用装置或者是一个专用装置。在具体实现中，该标签识别设备可以是服务器、终端等或有图7中类似结构的装置。本申请实施例不限定该标签识别设备的类型。

需说明，图7中的处理器701可以通过调用存储器703中存储的计算机执行指令，使得标签识别设备执行如图2至图4对应的方法实施例中的方法。

具体的，图6中的处理单元602的功能/实现过程可以通过图7中的处理器701调用存储器703中存储的计算机执行指令来实现。图6中的获取单元601的功能/实现过程可以通过图7中的通信接口704来实现。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储有指令或者计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种标签识别的方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种标签识别的方法的部分或全部步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(randomaccessmemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD))等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种标签识别的方法，其特征在于，包括：

获取待识别任务在第一场景下的提示信息和多个模态信息，所述提示信息用于指示每个所述模态信息在所述第一场景下的标签提示描述，每个所述模态信息用于指示所述待识别任务在对应模态下的内容情况；

提取每个所述模态信息的特征向量以及所述提示信息的特征向量；

对多个所述模态信息的特征向量进行融合处理，得到融合特征向量；

基于标签识别模型对所述融合特征向量和所述提示信息的特征向量进行识别处理，得到标签识别结果，所述标签识别结果用于指示所述待识别任务在所述第一场景下的分类标签，所述标签识别模型是以训练所述待识别任务在所述第一场景下的分类标签为训练目标，以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述基于标签识别模型对所述融合特征向量和所述提示信息的特征向量进行识别处理，得到标签识别结果，包括：

拼接所述融合特征向量与所述提示信息的特征向量，得到拼接的特征向量；

基于所述标签识别模型中的编码子模型对所述拼接的特征向量进行编码处理，得到每个所述模态信息的内容表示；

基于所述标签识别模型中的分类子模型对每个所述模态信息的内容表示进行识别处理，得到所述待识别任务在所述第一场景下的预测分类概率；

基于所述预测分类概率确定所述标签识别结果。

3.根据权利要求1至2中任一项所述的方法，其特征在于，所述在基于标签识别模型对所述融合特征向量和所述提示信息的特征向量进行识别处理，得到标签识别结果之前，所述方法还包括：

获取训练样本，所述训练样本包括样本分类任务在多个所述第二场景下的提示样本、以及多个模态样本信息，所述提示样本用于指示每个所述模态样本信息在每个所述第二场景下的标签提示描述，每个模态样本信息用于指示所述样本分类任务在对应样本模态下的内容情况；

提取所述提示样本的特征向量以及每个所述模态样本信息的特征向量；

基于所述提示样本的特征向量以及所述每个模态样本信息的特征向量，对所述标签识别模型进行迭代训练。

4.根据权利要求3所述的方法，其特征在于，所述基于所述提示样本的特征向量以及所述每个模态样本信息的特征向量，对所述标签识别模型进行迭代训练，包括：

将所述多个模态样本信息的特征向量进行拼接，得到拼接的样本特征向量；

基于初始分类模型对所述拼接的样本特征向量进行预测处理，得到所述样本分类任务在每个所述第二场景下的预测标签；

计算所述样本分类任务在多个所述第二场景下的预测标签与所述提示样本之间的差异，以获取目标损失值；

基于所述目标损失值对所述初始分类模型的模型参数进行更新处理，得到所述标签识别模型。

5.根据权利要求3所述的方法，其特征在于，所述计算所述样本分类任务在多个所述第二场景下的预测标签与所述提示样本之间的差异，以获取目标损失值，包括：

计算所述样本分类任务在多个所述第二场景下的预测标签与所述提示样本之间的标签相似度，以得到目标损失值。

6.根据权利要求1至2中任一项所述的方法，其特征在于，所述多个模态信息包括视频信息、音频信息和图像信息中的一个或多个、以及文本信息。

7.根据权利要求6所述的方法，其特征在于，所述对多个所述模态信息的特征向量进行融合处理，得到融合特征向量，包括：

基于多层Transformer模型对所述文本信息的特征向量、以及所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量。

8.根据权利要求7所述的方法，其特征在于，在基于多层Transformer模型对所述文本信息的特征向量、以及所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量之前，所述方法还包括：

对所述文本信息的特征向量进行特征删除和/或特征遮盖处理，得到第一文本特征；

基于所述文本信息的特征向量和所述第一文本特征，确定第二文本特征，所述第二文本特征为预测得到的被执行所述特征删除和/或特征遮盖处理的文本特征；

基于多层Transformer模型对所述文本信息的特征向量、以及所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量，包括：

基于多层Transformer模型对所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个、以及所述文本信息的特征向量和所述第一文本特征进行融合处理，得到融合特征向量。

9.根据权利要求7所述的方法，其特征在于，在基于多层Transformer模型对所述文本信息的特征向量、以及所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个进行融合处理，得到融合特征向量之前，所述方法还包括：

对所述视频信息的特征向量进行特征删除和/或特征遮盖处理，得到第一视频特征；

基于所述视频信息的特征向量和所述第一视频特征，确定第二视频特征，所述第二视频特征为预测得到的被执行所述特征删除和/或特征遮盖处理的视频特征；

基于多层Transformer模型对所述文本信息的特征向量、所述视频信息的特征向量、以及所述第一视频特征进行融合处理，得到融合特征向量。

10.根据权利要求1或2所述的方法，其特征在于，所述提示信息包括第一提示值、第二提示值以及第三提示值中的一个或多个，其中，所述第一提示值用于指示多个所述待识别任务共享的提示情况，所述第二提示值用于指示每个所述待识别任务的提示情况，所述第三提示值用于指示每个所述待识别任务中的每个提示标签。

11.根据权利要求6所述的方法，其特征在于，所述提取每个所述模态信息的特征向量，包括：

提取所述视频信息中的视频内容信息、关键帧信息以及第一模态类型信息，所述第一模态类型信息用于指示所述视频内容信息的特征向量所属的模态；

基于视频特征提取模型对所述视频内容信息、所述关键帧信息以及所述第一模态类型信息进行特征提取处理，得到所述视频信息的特征向量。

12.根据权利要求6所述的方法，其特征在于，所述提取每个所述模态信息的特征向量，包括：

提取所述图像信息中的图像内容信息和第二模态类型信息，所述第二模态类型信息用于指示所述图像内容信息的特征向量所属的模态；

基于图像特征提取模型对所述图像内容信息以及所述第二模态类型信息进行特征提取处理，得到所述图像信息的特征向量。

13.根据权利要求6所述的方法，其特征在于，所述提取每个所述模态信息的特征向量，包括：

提取所述音频信息中的音频内容信息、第一位置信息以及第三模态类型信息，所述第三模态类型信息用于指示所述音频内容信息的特征向量所属的模态，所述第一位置信息用于指示所述音频内容信息中每帧音频的位置；

基于音频特征提取模型对所述音频内容信息、所述第一位置信息以及所述第三模态类型信息进行特征提取处理，得到所述音频信息的特征向量。

14.根据权利要求6所述的方法，其特征在于，所述提取每个所述模态信息的特征向量，包括：

提取所示文本信息中的文本内容信息、第二位置信息以及第四模态类型信息，所述第四模态类型信息用于指示所述文本内容信息的特征向量所属的模态，所述第二位置信息用于指示所述文本内容信息中每个文本词的位置；

基于文本特征提取模型对所述文本内容信息、所述第二位置信息以及所述第四模态类型信息进行特征提取处理，得到所述文本信息的特征向量。

15.根据权利要求14所述的方法，其特征在于，所述文本内容信息包括文本标题和文本名称。

16.根据权利要求15所述的方法，其特征在于，所述文本内容信息还包括文字识别结果、自动语音识别结果以及关键词信息中的一个或多个，其中，所述文字识别结果为视频内容信息中的文本信息，所述自动语音识别结果为音频内容信息中的文本信息，所述关键词信息用于指示发布所述文本内容信息时的文本描述。

17.一种标签识别装置，其特征在于，包括：

获取单元，用于获取待识别任务在第一场景下的提示信息和多个模态信息，所述提示信息用于指示每个所述模态信息在所述第一场景下的标签提示描述，每个所述模态信息用于指示所述待识别任务在对应模态下的内容情况；

处理单元，用于提取每个所述模态信息的特征向量以及所述提示信息的特征向量；

所述处理单元，用于对多个所述模态信息的特征向量进行融合处理，得到融合特征向量；

所述处理单元，用于基于标签识别模型对所述融合特征向量和所述提示信息的特征向量进行识别处理，得到标签识别结果，所述标签识别结果用于指示所述待识别任务在所述第一场景下的分类标签，所述标签识别模型是以训练所述待识别任务在所述第一场景下的分类标签为训练目标，以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。

18.一种标签识别设备，其特征在于，包括：输入/输出接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至16中任一所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至16中任一项所述的方法。

20.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至16中任一项所述的方法。