CN114398973B

CN114398973B - 一种媒体内容标签识别方法、装置、设备及存储介质

Info

Publication number: CN114398973B
Application number: CN202210019262.7A
Authority: CN
Inventors: 黄剑辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2024-04-16
Anticipated expiration: 2042-01-07
Also published as: CN114398973A

Abstract

本申请公开了一种媒体内容标签识别方法、装置、设备及存储介质。该方法包括：获取待识别媒体内容对应的多模态特征信息；将所述多模态特征信息输入特征融合网络，在所述特征融合网络中，基于所述多模态特征信息对应的融合参数对所述多模态特征信息进行融合处理，得到目标融合特征信息，所述融合参数用于在所述多模态特征信息进行融合处理过程中，筛选融合的特征信息；对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签。本申请在对媒体内容进行标签识别的场景上，提升目标融合特征信息对媒体内容表征的准确性，从而提升媒体内容标签识别的准确性。

Description

一种媒体内容标签识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种媒体内容标签识别方法、装置、设备及存储介质。

背景技术

近年来，视频化媒体内容的信息传播形式风靡全球，相比于以文本进行信息传播的传统方式，视频化媒体内容拥有着比文本信息量更丰富的多模态信息、浏览方式更为便捷且更具冲击力等优势。相比于文本形式的信息，视频化媒体内容范围广泛、形式各样，因此需要通过一系列标签来对视频化媒体内容进行概括，从而便于上层业务方完成视频化媒体内容的分发。

然而，现有的媒体内容标签识别方法通常单独利用视频化媒体内容的图像特征信息或者文本特征信息进行标签识别，忽略了视觉信息和文本信息的互补特性，导致标签识别的准确性较低。因此，需要提供一种更加准确的技术方案。

发明内容

本申请提供了一种媒体内容标签识别方法、装置、设备及存储介质，可以在对媒体内容进行标签识别的场景上，提升目标融合特征信息对媒体内容表征的准确性，从而提升媒体内容标签识别的准确性，本申请技术方案如下：

一方面，提供了一种媒体内容标签识别方法，所述方法包括：

获取待识别媒体内容对应的多模态特征信息；

将所述多模态特征信息输入特征融合网络，在所述特征融合网络中，基于所述多模态特征信息对应的融合参数对所述多模态特征信息进行融合处理，得到目标融合特征信息，所述融合参数用于在所述多模态特征信息进行融合处理过程中，筛选融合的特征信息；

对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签。

另一方面，提供了一种媒体内容标签识别装置，所述方法包括：

多模态特征信息获取模块，用于获取待识别媒体内容对应的多模态特征信息；

融合处理模块，用于将所述多模态特征信息输入特征融合网络，在所述特征融合网络中，基于所述多模态特征信息对应的融合参数对所述多模态特征信息进行融合处理，得到目标融合特征信息，所述融合参数用于在所述多模态特征信息进行融合处理过程中，筛选融合的特征信息；

标签识别模块，用于对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签。

另一方面，提供了一种媒体内容标签识别设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的媒体内容标签识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的媒体内容标签识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如第一方面所述的媒体内容标签识别方法。

本申请提供的一种媒体内容标签识别方法、装置、设备及存储介质，具有如下技术效果：

本申请在对媒体内容进行标签识别的场景上，通过获取待识别媒体内容对应的多模态特征信息；然后，将多模态特征信息输入特征融合网络，在所述特征融合网络中，基于所述多模态特征信息对应的融合参数对所述多模态特征信息进行融合处理，可以有针对地进行融合特征信息的筛选，通过图文互索，提升得到的目标融合特征信息对多模态特征信息的表征精准性；接着，对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签，可以大大提高对媒体内容进行标签识别的准确性和完整性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种媒体内容标签识别方法的流程示意图；

图3是本申请实施例提供的一种将多模态特征信息输入特征融合网络，在特征融合网络中，基于多模态特征信息对应的融合参数对多模态特征信息进行融合处理，得到目标融合特征信息的流程示意图；

图4是本申请实施例提供的一种将多模态特征信息输入融合参数生成层进行参数生成，得到融合参数的流程示意图；

图5是本申请实施例提供的一种将多模态特征信息和融合参数输入特征选择层进行特征选择，得到多模态特征选择信息的流程示意图；

图6是本申请实施例提供的一种基于标签识别网络，对目标融合特征信息进行标签识别，得到待识别媒体内容对应的目标内容标签的流程示意图；

图7是本申请实施例提供的一种对目标融合特征信息进行标签识别，得到待识别媒体内容对应的目标内容标签的流程示意图；

图8是本申请实施例提供的一种网络训练方法的流程示意图；

图9是本申请实施例提供的一种媒体内容标签识别网络的示意图；

图10是本申请实施例提供的一种媒体内容标签识别装置的组成框图；

图11是本申请实施例提供的一种媒体内容标签识别设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，该应用环境中可以包括客户端10和服务器端20，客户端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。用户可以通过客户端10向服务器端20发送媒体内容标签识别请求。服务器端20基于媒体内容标签识别请求确定对应的待识别媒体内容，然后获取待识别媒体内容对应的多模态特征信息，接着将多模态特征信息输入特征融合网络，在特征融合网络中，基于多模态特征信息对应的融合参数对多模态特征信息进行融合处理，得到目标融合特征信息，其中，融合参数用于在多模态特征信息进行融合处理过程中，筛选融合的特征信息，再对目标融合特征信息进行标签识别以得到待识别媒体内容对应的目标内容标签，并将目标内容标签返回客户端10。需要说明的是，图1仅仅是一种示例。

客户端可以是智能手机、车载终端、电脑(如台式电脑、平板电脑、笔记本电脑)、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备等类型的实体设备，也可以是运行于实体设备中的软体，比如计算机程序。客户端所对应的操作系统可以是安卓系统(Android系统)、iOS系统(是由苹果公司开发的移动操作系统)、Linux系统(一种操作系统)、Microsoft Windows系统(微软视窗操作系统)等。

服务器端可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。

上述客户端10和服务器端20可以用于构建一个有关媒体内容标签识别的系统，该系统可以是分布式系统。以分布式系统为区块链系统为例，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

上述区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

以下介绍本申请提供的一种媒体内容标签识别方法的具体实施例，图2是本申请实施例提供的一种媒体内容标签识别方法的流程示意图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201，获取待识别媒体内容对应的多模态特征信息。

在本说明书实施例中，多模态特征信息可以为待识别媒体内容对应的多模态信息的特征信息。具体的，待识别媒体内容对应的多模态信息可以包括下述至少两个模态信息：文本信息、图像信息、音频信息等，相应的，多模态特征信息可以包括：文本特征信息、图像特征信息和音频特征信息。

具体的，多模态特征信息的表现形式可以为多模态特征向量，相应的，文本特征信息、图像特征信息和音频特征信息可以分别为文本特征向量、图像特征向量和音频特征向量。

在一个具体的实施例中，待识别媒体内容可以为待识别视频信息，文本信息信息可以包括但不限于待识别视频信息的标题信息、字幕信息等，图像信息可以包括但不限于待识别媒体内容的封面帧图像、多张关键帧图像，音频信息可以包括但不限于待识别视频信息的截取视频片段的音频信息。

在一个具体的实施例中，获取待识别媒体内容对应的多模态特征信息可以包括：获取待识别媒体内容对应的多模态信息；将多模态信息分别输入特征提取网络进行特征提取，得到多模态信息对应的多模态特征信息。

在一个具体的实施例中，多模态信息可以包括：文本信息和图像信息，相应的，上述对多模态信息分别进行特征提取，得到多模态信息对应的多模态特征信息可以包括：将图像信息输入图像特征提取网络进行图像特征提取，得到图像信息对应的图像特征信息；将文本信息输入文本特征提取网络进行文本特征提取，得到文本信息对应的文本特征信息；将图像特征信息和文本特征信息作为多维度特征信息。

在一个具体的实施例中，在图像信息为多张关键帧图像的情况下，将图像信息输入图像特征提取网络进行图像特征提取，得到图像信息对应的图像特征信息可以包括：将多张关键帧图像中的每一关键帧图像分别输入图像特征提取网络进行图像特征提取，得到每一关键帧图像对应的初始图像特征信息；对所述多张关键帧图像的初始图像特征信息进行平均融合处理，得到图像特征信息。

具体的，上述图像特征提取网络可以为基于样本图像信息对预设图像特征提取网络进行图像特征提取训练后得到的，在实际应用中，预设图像特征提取网络可以包括但不限于ResNet-152模型(152层残差网络)、CNN(卷积神经网络)、DNN(深度神经网络)、R-CNN系列(目标检测网络)等。

具体的，上述文本特征提取网络可以为基于样本文本信息对预设文本特征提取网络进行文本特征提取训练后得到的，在实际应用中，预设文本特征提取网络可以包括但不限于预训练模型的BERT模型(基于变换器的双向编码表示模型)LSTM(树结构长短期记忆网络)、ELMO模型(基于语言模型的嵌入表示模型)、GPT模型(生成式预训练语言模型)等。

S202，将多模态特征信息输入特征融合网络，在特征融合网络中，基于多模态特征信息对应的融合参数对多模态特征信息进行融合处理，得到目标融合特征信息，融合参数用于在多模态特征信息进行融合处理过程中，筛选融合的特征信息。

在本说明书实施例中，上述特征融合网络可以为基于样本多模态特征信息对预设特征融合网络进行融合处理训练后得到的，具体的，特征融合网络可以包括：融合参数生成层、特征选择层和特征融合层。

在一个具体的实施例中，如图3所示，上述将多模态特征信息输入特征融合网络，在特征融合网络中，基于多模态特征信息对应的融合参数对多模态特征信息进行融合处理，得到目标融合特征信息可以包括：

S301，将多模态特征信息输入融合参数生成层进行参数生成，得到融合参数。

具体的，融合参数可以用于对多模态特征信息中的每一模态特征信息进行特征选择，得到后续用于融合的多模态特征选择信息。

在一个具体的实施例中，如图4所示，上述融合参数生成层可以包括：拼接层、第一映射层和参数生成层，相应的，上述将多模态特征信息输入融合参数生成层进行参数生成，得到融合参数可以包括：

S401，将多模态特征信息输入拼接层进行拼接处理，得到第一融合特征信息。

可选的，多模态特征信息可以包括：图像特征信息和文本特征信息。具体的，在图像特征信息为图像特征向量V₁，文本特征信息为文本特征向量V₂的情况下，第一融合特征信息可以为第一融合特征向量F₁，对图像特征向量V₁和文本特征向量V₂进行拼接处理后，得到第一融合特征向量F₁＝[V₁，V₂]。

S402，将第一融合特征信息输入第一映射层进行特征映射处理，得到第二融合特征信息。

具体的，第一映射层可以包括：第一映射信息和第一偏移信息，相应的，在第一融合特征信息为第一融合特征向量F₁的情况下，第一映射信息可以为第一参数映射矩阵W_T，第一偏移信息可以为第一偏移向量b_T，第二融合特征信息可以为第二融合特征向量F₂，具体的，F₂＝W_T·F₁+b_T。

在实际应用中，W_T和b₁可以在对预设特征融合网络的训练完成后得到。

S403，将第二融合特征信息输入参数生成层进行参数生成，得到融合参数。

具体的，融合参数可以包括第二融合特征向量多个维度对应的融合参数，融合参数z_i＝g(d_i)，第二融合特征向量F₂＝[d₁,d₂,……,d_n]，i＝1,2,……,n，其中，g()表示参数生成函数。在实际应用中，第二融合特征向量的维数n可以结合媒体内容的标签识别精度进行设置。

在一个具体的实施例中，参数生成函数可以包括激活函数，可选的，参数生成函数可以为Sigmoid函数，Sigmoid函数可以将第二融合特征向量F₂的n个维度的数值分别映射到0到1之间，从而得到n个维度的融合参数。

由以上实施例可见，将多模态特征信息进行拼接处理和向量映射处理后得到第二融合特征信息，再利用激活函数对多维第二融合特征信息进行映射后得到多个维度的融合参数，对多模态特征信息进行融合互补，提升了多模态特征信息的融合度。

S302，将多模态特征信息和融合参数输入特征选择层进行特征选择，得到多模态特征选择信息。

在一个具体的实施例中，如图5所示，上述特征选择层可以包括：第二映射层和加权处理层，相应的，上述将多模态特征信息和融合参数输入特征选择层进行特征选择，得到多模态特征选择信息可以包括：

S501，将多模态特征信息输入第二映射层进行特征映射处理，得到多模态映射特征信息。

具体的，第二映射层可以包括：第二映射信息和第二偏移信息，相应的，在多模态特征信息包括图像特征向量V₁和文本特征向量V₂的情况下，第二映射信息可以包括图像特征向量对应的参数映射矩阵W₁和文本特征向量对应的参数映射矩阵W₂，第一偏移信息可以包括图像特征向量对应的偏移向量b₁和图像特征向量对应的偏移向量b₂，多模态映射特征信息可以包括图像映射特征向量X₁和文本映射特征向量X₂，具体的，图像映射特征向量X₁＝W₁·V₁+b₁，文本映射特征向量X₂＝W₂·V₂+b₂。

在实际应用中，需要将第一融合特征向量F₁、图像特征向量V₁和文本特征向量V₂映射到相同维度的语义空间，得到n维的第一融合特征向量F₂、图像映射特征向量X₁和文本映射特征向量X₂，因此，W_T、W₁和W₂的矩阵行数均为n，其中，W₁、W₂和b₁、b₂可以在对预设特征融合网络的训练完成后得到。

S502，将多模态映射特征信息和融合参数输入加权处理层，基于融合参数对多模态映射特征信息进行加权处理，得到多模态特征选择信息。

具体的，在多模态映射特征信息包括图像映射特征向量X₁和文本映射特征向量X₂的情况下，多模态特征选择信息可以包括：图像特征选择向量Q₁和文本特征选择向量Q₂。具体的实施例中，将上述n个维度的融合参数分别对图像映射特征向量X₁对应的维度进行加权处理，得到图像特征选择向量Q₁；将上述n个维度的融合参数分别对文本映射特征向量X₂对应的维度进行加权处理，得到文本特征选择向量Q₂。

由以上实施例可见，融合参数能够关注多模态特征信息中的重要特征并抑制多模态特征信息中的不必要的特征，从而得到特征选择后的多模态特征选择信息。

S303，将多模态特征选择信息输入特征融合层进行融合处理，得到目标融合特征信息。

具体的，在多模态特征选择信息包括图像特征选择向量Q₁和文本特征选择向量Q₂的情况下，目标融合特征信息可以为目标融合特征向量M。

在一个可选的实施例中，特征融合层可以为特征拼接层，对图像特征选择向量Q₁和文本特征选择向量Q₂进行拼接处理后，得到目标融合特征向量M＝[Q₁，Q₂]，

由以上实施例可见，对多模态特征信息的语义特征进行融合互补得到融合参数，再利用融合参数进行图文互索，对多模态特征信息进行特征选择得到目标融合特征信息，提升多模态特征信息的交互能力，从而提升目标融合特征信息对多模态特征信息的表征精准性。

S203，对目标融合特征信息进行标签识别，得到待识别媒体内容对应的目标内容标签。

在本说明书实施例中，目标内容标签可以为待识别媒体内容的展示标签。具体的，目标内容标签可以为预设媒体内容标签集中与待识别媒体内容对应的至少一个内容标签，其中，预设媒体内容标签集可以为结合实际应用中媒体内容的多个热门标签进行设置。

在一个可选的实施例中，上述对目标融合特征信息进行标签识别，得到待识别媒体内容对应的目标内容标签可以包括：基于标签识别网络，对目标融合特征信息进行标签识别，得到待识别媒体内容对应的目标内容标签。

在一个具体的实施例中，如图6所示，上述基于标签识别网络，对目标融合特征信息进行标签识别，得到待识别媒体内容对应的目标内容标签可以包括：

S601，将目标融合特征信息输入标签识别网络进行标签识别，得到待识别媒体内容对应的至少一个内容标签和至少一个内容标签的置信信息。

具体的，标签识别网络可以为对预设标签识别网络进行标签识别训练后得到的，预设标签识别网络可以包括一层全连接层和一层输出层。

具体的，置信信息可以用于表征待识别媒体内容能够识别出对应内容标签的置信度。

具体的，全连接层可以作为上下两层的节点之间的连接层，将上下两层所得到的各节点数据建立连接关系。全连接层可以对目标融合特征信息进行特征聚合处理得到待识别媒体内容信息。

在一个具体的实施例中，待识别媒体内容信息的表现形式可以为待识别媒体内容向量，该待识别媒体内容向量的维数与预设媒体内容标签集中内容标签的数量相同，该待识别媒体内容向量的多个维度分别与预设媒体内容标签集中的多个内容标签一一对应，待识别媒体内容向量的每一维度分别表征待识别媒体内容与对应内容标签的关联度。

具体的，输出层可以对待识别媒体内容向量进行标签识别，输出相应的目标知识点标签。在一个具体的实施例中，输出层可以采用激活函数进行目标知识点标签输出，可选的实施例中，激活函数可以为Sigmoid函数，Sigmoid函数中包含的是一个非线性分类器，用于对待识别媒体内容向量进行标签识别。具体的，输出层可以对待识别媒体内容向量的每一维度分别进行概率预测，分别得到每一维度对应内容标签的内容标签的置信信息。

此外，需要说明的是，本申请实施例所述标签识别网络并不仅限于上述的预设标签识别网络，在实际应用中，还可以包括其他机器学习网络，例如决策树机器学习网络等，本申请实施例并不以上述机器学习网络为限。

S602，基于置信信息，确定至少一个内容标签中与待识别媒体内容对应的至少一个初始内容标签。

具体的，可以将至少一个内容标签中置信信息大于预设置信阈值的内容标签作为与待识别媒体内容对应的至少一个初始内容标签。在实际应用中，预设置信阈值可以结合标签识别的精度进行设置。

S603，基于至少一个初始内容标签的置信信息，对至少一个初始内容标签进行排序，生成目标内容标签。

可选的实施例中，根据置信信息由大到小的顺序，对上述至少一个初始内容标签进行排序；根据排序顺序对上述至少一个初始内容标签进行展示，得到目标内容标签。

由以上实施例可见，利用具有高泛化能力的标签识别网络进行标签识别处理，可以提高对新的媒体内容的标签识别适应能力，进而可以大大提高对媒体内容的标签识别的准确率。

在另一个可选的实施例中，如图7所示，上述对目标融合特征信息进行标签识别，得到待识别媒体内容对应的目标内容标签可以包括：

S701，获取预设媒体内容标签集中多个预设内容标签对应的标签特征信息。

在本说明书实施例中，标签特征信息可以为多个预设内容标签对应的特征信息。具体的，标签特征信息的表现形式可以为标签特征向量。

在一个具体的实施例中，对多个预设内容标签分别进行语义提取，得到多个预设内容标签对应的标签特征向量；可选的，可以将多个预设内容标签分别输入到Word2vec模型(词向量模型)中进行语义提取，得到多个预设内容标签对应的标签特征向量。

S702，对标签特征信息与目标融合特征信息进行匹配，得到标签特征信息与目标融合特征信息间的匹配信息。

具体的，匹配信息可以包括按照一定规则将标签特征信息与目标融合特征信息之间的相似程度量化后的数值。

在一个具体的实施例中，在标签特征信息为标签特征向量，目标融合特征信息为目标融合特征向量的情况下，匹配信息可以包括：向量相似度，即标签特征向量与目标融合特征向量之间的相似程度的量化值。具体的，通过计算特征向量之间的距离来判断特征向量之间的匹配度。具体的，这里的距离可以包括但不限于欧氏距离、余弦距离、曼哈顿距离等。相应的，上述对标签特征信息与目标融合特征信息进行匹配，得到标签特征信息与目标融合特征信息间的匹配信息可以包括：

对标签特征向量和目标融合特征向量进行相似度计算，得到标签特征向量和目标融合特征向量间的向量相似度。

S703，基于匹配信息，确定多个预设内容标签中与待识别媒体内容匹配的至少一个匹配内容标签。

具体的，可以将多个预设内容标签中匹配信息大于预设匹配阈值的预设内容标签作为与待识别媒体内容匹配的至少一个匹配内容标签。在实际应用中，预设匹配阈值可以结合标签识别的精度进行设置。

S704，基于至少一个匹配内容标签的匹配信息，对至少一个匹配内容标签进行排序，得到目标内容标签。

可选的实施例中，根据匹配信息由大到小的顺序，对上述至少一个匹配内容标签进行排序；根据排序顺序对上述至少一个匹配内容标签进行展示，得到目标内容标签。

由以上实施例可见，通过基于标签特征信息和目标融合特征信息之间的匹配处理，可以实现快速为目标融合特征信息进行标签识别，可以有效提高标签识别的处理效率。

在本申请实施例中，可以通过样本媒体内容对预设特征融合网络进行训练，得到上述特征融合网络。

在一个具体的实施例中，如图8所示，图8是本申请实施例提供的一种网络训练方法的流程示意图，具体的，可以包括：

S801，获取样本媒体内容对应的样本多模态特征信息和预设内容标签。

在实际应用中，在进行网络训练之前，可以先确定训练数据，具体的，本申请实施例中，可以获取包含有预设内容标签的样本媒体内容作为训练数据。

具体的，预设内容标签可以为对样本媒体内容预先标注的预设内容标签。

S802，将样本多模态特征信息输入预设特征融合网络，在预设特征融合网络中，基于样本多模态特征信息对应的样本融合参数对样本多模态特征信息进行融合处理，得到样本融合特征信息。

S803，对样本融合特征信息进行标签识别，得到样本媒体内容对应的样本内容标签。

S804，基于预设内容标签和样本内容标签，确定目标损失信息。

S805，基于目标损失信息，训练预设特征融合网络，得到特征融合网络。

在一个可选的实施例中，上述目标损失信息可以包括内容标签损失；

相应的，上述基于预设内容标签和样本内容标签，确定目标损失信息可以包括：

根据预设内容标签和样本内容标签，确定内容标签损失。

在一个具体的实施例中，上述根据预设内容标签和样本内容标签，确定内容标签损失可以包括基于预设损失函数，确定预设内容标签和样本内容标签间的内容标签损失。

在一个具体的实施例中，内容标签损失可以表征预设内容标签和样本内容标签间的差异。

在一个具体的实施例中，预设损失函数可以包括但不限于交叉熵损失函数、逻辑损失函数、指数损失函数等。

在一个可选的实施例中，基于目标损失信息，训练预设特征融合网络，得到特征融合网络可以包括：基于目标损失信息，更新预设特征融合网络的网络参数；基于更新后的预设特征融合网络，重复步骤S802基于目标损失信息，更新预设特征融合网络的网络参数的媒体内容标签识别训练迭代操作，至基于目标损失信息，更新预设特征融合网络的网络参数的媒体内容标签识别训练迭代操作，至达到媒体内容标签识别收敛条件；将达到媒体内容标签识别收敛条件的情况下得到的预设特征融合网络，作为特征融合网络。

在一个可选的实施例中，上述达到媒体内容标签识别收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的，达到媒体内容标签识别收敛条件也可以为目标损失信息小于指定阈值。本说明书实施例中，预设训练次数和指定阈值可以结合实际应用中对网络的训练速度和精准度预先设置。

在一个具体的实施例中，上述获取样本媒体内容对应的样本多模态特征信息和预设内容标签可以包括：获取样本媒体内容对应的样本多模态信息和预设内容标签；对样本多模态信息输入预设特征提取网络进行特征提取，得到样本多模态信息对应的样本多模态特征信息；

上述对样本融合特征信息进行标签识别，得到样本媒体内容对应的样本内容标签可以包括：基于预设标签识别网络，对样本融合特征信息进行标签识别，得到样本媒体内容对应的样本内容标签；

相应的，可以通过对预设特征提取网络、预设特征融合网络和预设标签识别网络进行联合训练，得到上述特征提取网络、上述特征融合网络和上述标签识别网络；

相应的，在上述基于预设内容标签和样本内容标签，确定目标损失信息之后，上述方法还可以包括：

基于目标损失信息，训练预设特征提取网络、预设特征融合网络和预设标签识别网络，得到特征提取网络、特征融合网络和标签识别网络。

具体的，这里基于目标损失信息，训练预设特征提取网络、预设特征融合网络和预设标签识别网络，得到特征提取网络、特征融合网络和标签识别网络的联合训练过程与上述步骤S805“基于目标损失信息，训练预设特征融合网络，得到特征融合网络”的训练过程相似，具体细化步骤可以参见上述步骤S805的具体细化内容，在此不再赘述。

由以上实施例可见，一方面，基于样本媒体内容与相应的预设内容标签的机器学习训练，得到具有高泛化能力的标签识别网络；另一方面，通过对预设特征提取网络、预设特征融合网络和预设标签识别网络进行联合训练，提升训练效率的同时，可以更好的提升网络对媒体内容标签识别的准确性。

在一个具体的实施例中，如图9所示，建立包含上述特征提取网络、上述特征融合网络和上述标签识别网络的媒体内容标签识别网络，将待识别媒体内容对应的多模态信息输入媒体内容标签识别网络进行媒体内容标签识别，得到待识别媒体内容对应的目标内容标签。

由以上本申请实施例提供的技术方案可见，本申请在对媒体内容进行标签识别的场景上，一方面，通过获取待识别媒体内容对应的多模态特征信息，在特征融合网络中，对多模态特征信息的语义特征进行融合互补得到融合参数，提升了多模态特征信息的融合度；另一方面，利用融合参数进行图文互索，可以有针对地对多模态特征信息进行融合特征信息的筛选，得到目标融合特征信息，提升多模态特征信息的交互能力，从而提升目标融合特征信息对多模态特征信息的表征精准性；另一方面，利用具有高泛化能力的标签识别网络进行标签识别处理，可以提高对新的媒体内容的标签识别适应能力，进而可以大大提高对媒体内容的标签识别的准确率；另一方面，通过基于标签特征信息和目标融合特征信息之间的匹配处理，可以实现快速为目标融合特征信息进行标签识别，可以有效提高标签识别的处理效率；另一方面，通过对预设特征提取网络、预设特征融合网络和预设标签识别网络进行联合训练，提升训练效率的同时，可以更好的提升网络对媒体内容标签识别的准确性。

本申请实施例还提供了一种媒体内容标签识别装置，如图10所示，该媒体内容标签识别装置可以包括：

多模态特征信息获取模块1010，用于获取待识别媒体内容对应的多模态特征信息；

融合处理模块1020，用于将所述多模态特征信息输入特征融合网络，在所述特征融合网络中，基于所述多模态特征信息对应的融合参数对所述多模态特征信息进行融合处理，得到目标融合特征信息，所述融合参数用于在所述多模态特征信息进行融合处理过程中，筛选融合的特征信息；

标签识别模块1030，用于对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签。

在一个具体的实施例中，特征融合网络可以包括：融合参数生成层、特征选择层和特征融合层，上述融合处理模块1020可以包括：

融合参数生成单元，用于将多模态特征信息输入融合参数生成层进行参数生成，得到融合参数；

特征选择单元，用于将多模态特征信息和融合参数输入特征选择层进行特征选择，得到多模态特征选择信息；

融合处理单元，用于将多模态特征选择信息输入特征融合层进行融合处理，得到目标融合特征信息。

在一个具体的实施例中，融合参数生成层可以包括：拼接层、第一映射层和参数生成层，上述融合参数生成单元可以包括：

拼接处理单元，用于将多模态特征信息输入拼接层进行拼接处理，得到第一融合特征信息；

第一映射单元，用于将第一融合特征信息输入第一映射层进行特征映射处理，得到第二融合特征信息；

参数生成单元，用于将第二融合特征信息输入参数生成层进行参数生成，得到融合参数。

在一个具体的实施例中，特征选择层可以包括：第二映射层和加权处理层，上述特征选择单元可以包括：

特征映射处理单元，用于将多模态特征信息输入第二映射层进行特征映射处理，得到多模态映射特征信息；

加权处理单元，用于将多模态映射特征信息和融合参数输入加权处理层，基于融合参数对多模态映射特征信息进行加权处理，得到多模态特征选择信息。

在一个可选的实施例中，上述标签识别模块1030可以包括：

标签识别网络识别单元，用于基于标签识别网络，对目标融合特征信息进行标签识别，得到待识别媒体内容对应的目标内容标签。

在一个具体的实施例中，上述标签识别网络识别单元可以包括：

标签识别单元，用于将目标融合特征信息输入标签识别网络进行标签识别，得到待识别媒体内容对应的至少一个内容标签和至少一个内容标签的置信信息；

初始内容标签确定单元，用于基于置信信息，确定至少一个内容标签中与待识别媒体内容对应的至少一个初始内容标签；

第一目标内容标签单元，用于基于至少一个初始内容标签的置信信息，对至少一个初始内容标签进行排序，生成目标内容标签。

在另一个可选的实施例中，上述标签识别模块1030可以包括：

标签特征信息获取单元，用于获取预设媒体内容标签集中多个预设内容标签对应的标签特征信息；

匹配单元，用于对标签特征信息与目标融合特征信息进行匹配，得到标签特征信息与目标融合特征信息间的匹配信息；

匹配内容标签确定单元，用于基于匹配信息，确定多个预设内容标签中与待识别媒体内容匹配的至少一个匹配内容标签；

第二目标内容标签单元，用于基于至少一个匹配内容标签的匹配信息，对至少一个匹配内容标签进行排序，得到目标内容标签。

在一个具体的实施例中，上述装置还可以包括：

样本多模态特征信息获取模块，用于获取样本媒体内容对应的样本多模态特征信息和预设内容标签；

样本融合处理模块，用于将样本多模态特征信息输入预设特征融合网络，在预设特征融合网络中，基于样本多模态特征信息对应的样本融合参数对样本多模态特征信息进行融合处理，得到样本融合特征信息；

样本标签识别模块，用于对样本融合特征信息进行标签识别，得到样本媒体内容对应的样本内容标签；

目标损失信息确定模块，用于基于预设内容标签和样本内容标签，确定目标损失信息；

训练模块，用于基于目标损失信息，训练预设特征融合网络，得到特征融合网络。

需要说明的，所述装置实施例中的装置与方法实施例基于同样的发明构思。

本申请实施例提供了一种媒体内容标签识别设备，该媒体内容标签识别设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的媒体内容标签识别方法。

进一步地，图11示出了一种用于实现本申请实施例所提供的媒体内容标签识别方法的媒体内容标签识别设备的硬件结构示意图，所述媒体内容标签识别设备可以参与构成或包含本申请实施例所提供的媒体内容标签识别装置。如图11所示，媒体内容标签识别设备110可以包括一个或多个(图11中采用1102a、1102b，……，1102n来示出)处理器1102(处理器1102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1104、以及用于通信功能的传输装置1106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，媒体内容标签识别设备110还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器1102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到媒体内容标签识别设备110(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1104可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的媒体内容标签识别方法对应的程序指令/数据存储装置，处理器1102通过运行存储在存储器1104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种媒体内容标签识别方法。存储器1104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1104可进一步包括相对于处理器1102远程设置的存储器，这些远程存储器可以通过网络连接至媒体内容标签识别设备110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括媒体内容标签识别设备110的通信供应商提供的无线网络。在一个实例中，传输装置1106包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中，传输装置1106可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与媒体内容标签识别设备110(或移动设备)的用户界面进行交互。

本申请的实施例还提供了一种计算机可读存储介质，所述存储介质可设置于媒体内容标签识别设备之中以保存用于实现方法实施例中媒体内容标签识别方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的媒体内容标签识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如方法实施例提供的媒体内容标签识别方法。可选的，该计算机程序产品可以包括但不限于题库建设的录排系统、试题推荐系统、个性化学习系统。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种媒体内容标签识别方法，其特征在于，所述方法包括：

获取待识别媒体内容对应的多模态特征信息；

2.根据权利要求1所述的方法，其特征在于，所述特征融合网络包括融合参数生成层、特征选择层和特征融合层，所述将所述多模态特征信息输入特征融合网络，在所述特征融合网络中，基于所述多模态特征信息对应的融合参数对所述多模态特征信息进行融合处理，得到目标融合特征信息包括：

将所述多模态特征信息输入所述融合参数生成层进行参数生成，得到所述融合参数；

将所述多模态特征信息和所述融合参数输入所述特征选择层进行特征选择，得到多模态特征选择信息；

将所述多模态特征选择信息输入所述特征融合层进行融合处理，得到所述目标融合特征信息。

3.根据权利要求2所述的方法，其特征在于，所述融合参数生成层包括拼接层、第一映射层和参数生成层，所述将所述多模态特征信息输入所述融合参数生成层进行参数生成，得到所述融合参数包括：

将所述多模态特征信息输入所述拼接层进行拼接处理，得到第一融合特征信息；

将所述第一融合特征信息输入所述第一映射层进行特征映射处理，得到第二融合特征信息；

将所述第二融合特征信息输入所述参数生成层进行参数生成，得到所述融合参数。

4.根据权利要求2所述的方法，其特征在于，所述特征选择层包括：第二映射层和加权处理层，所述将所述多模态特征信息和所述融合参数输入所述特征选择层进行特征选择，得到多模态特征选择信息包括：

将所述多模态特征信息输入所述第二映射层进行特征映射处理，得到多模态映射特征信息；

将所述多模态映射特征信息和所述融合参数输入所述加权处理层，基于所述融合参数对所述多模态映射特征信息进行加权处理，得到所述多模态特征选择信息。

5.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

获取样本媒体内容对应的样本多模态特征信息和预设内容标签；

将所述样本多模态特征信息输入预设特征融合网络，在所述预设特征融合网络中，基于所述样本多模态特征信息对应的样本融合参数对所述样本多模态特征信息进行融合处理，得到样本融合特征信息；

对所述样本融合特征信息进行标签识别，得到所述样本媒体内容对应的样本内容标签；

基于所述预设内容标签和所述样本内容标签，确定目标损失信息；

基于所述目标损失信息，训练所述预设特征融合网络，得到所述特征融合网络。

6.根据权利要求1至4任一所述的方法，其特征在于，所述对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签包括：

基于标签识别网络，对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签。

7.根据权利要求6所述的方法，其特征在于，所述基于标签识别网络，对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签包括：

将所述目标融合特征信息输入所述标签识别网络进行标签识别，得到所述待识别媒体内容对应的至少一个内容标签和所述至少一个内容标签的置信信息；

基于所述置信信息，确定所述至少一个内容标签中与所述待识别媒体内容对应的至少一个初始内容标签；

基于所述至少一个初始内容标签的置信信息，对所述至少一个初始内容标签进行排序，生成所述目标内容标签。

8.根据权利要求1至4任一所述的方法，其特征在于，所述对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签包括：

获取预设媒体内容标签集中多个预设内容标签对应的标签特征信息；

对所述标签特征信息与所述目标融合特征信息进行匹配，得到所述标签特征信息与所述目标融合特征信息间的匹配信息；

基于所述匹配信息，确定所述多个预设内容标签中与所述待识别媒体内容匹配的至少一个匹配内容标签；

基于所述至少一个匹配内容标签的匹配信息，对所述至少一个匹配内容标签进行排序，得到所述目标内容标签。

9.一种媒体内容标签识别装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述特征融合网络包括融合参数生成层、特征选择层和特征融合层，所述融合处理模块包括：

融合参数生成单元，用于将所述多模态特征信息输入所述融合参数生成层进行参数生成，得到所述融合参数；

特征选择单元，用于将所述多模态特征信息和所述融合参数输入所述特征选择层进行特征选择，得到多模态特征选择信息；

融合处理单元，用于将所述多模态特征选择信息输入所述特征融合层进行融合处理，得到所述目标融合特征信息。

11.根据权利要求10所述的装置，其特征在于，所述融合参数生成层包括拼接层、第一映射层和参数生成层，所述融合参数生成单元包括：

拼接处理单元，用于将所述多模态特征信息输入所述拼接层进行拼接处理，得到第一融合特征信息；

第一映射单元，用于将所述第一融合特征信息输入所述第一映射层进行特征映射处理，得到第二融合特征信息；

参数生成单元，用于将所述第二融合特征信息输入所述参数生成层进行参数生成，得到所述融合参数。

12.根据权利要求10所述的装置，其特征在于，所述特征选择层包括：第二映射层和加权处理层，所述特征选择单元包括：

特征映射处理单元，用于将所述多模态特征信息输入所述第二映射层进行特征映射处理，得到多模态映射特征信息；

加权处理单元，用于将所述多模态映射特征信息和所述融合参数输入所述加权处理层，基于所述融合参数对所述多模态映射特征信息进行加权处理，得到所述多模态特征选择信息。

13.根据权利要求9至12任一所述的装置，其特征在于，所述装置还包括：

样本融合处理模块，用于将所述样本多模态特征信息输入预设特征融合网络，在所述预设特征融合网络中，基于所述样本多模态特征信息对应的样本融合参数对所述样本多模态特征信息进行融合处理，得到样本融合特征信息；

样本标签识别模块，用于对所述样本融合特征信息进行标签识别，得到所述样本媒体内容对应的样本内容标签；

目标损失信息确定模块，用于基于所述预设内容标签和所述样本内容标签，确定目标损失信息；

训练模块，用于基于所述目标损失信息，训练所述预设特征融合网络，得到所述特征融合网络。

14.根据权利要求9至12任一所述的装置，其特征在于，所述标签识别模块包括：

标签识别网络识别单元，用于基于标签识别网络，对所述目标融合特征信息进行标签识别，得到所述待识别媒体内容对应的目标内容标签。

15.根据权利要求14所述的装置，其特征在于，所述标签识别网络识别单元包括：

标签识别单元，用于将所述目标融合特征信息输入所述标签识别网络进行标签识别，得到所述待识别媒体内容对应的至少一个内容标签和所述至少一个内容标签的置信信息；

初始内容标签确定单元，用于基于所述置信信息，确定所述至少一个内容标签中与所述待识别媒体内容对应的至少一个初始内容标签；

第一目标内容标签单元，用于基于所述至少一个初始内容标签的置信信息，对所述至少一个初始内容标签进行排序，生成所述目标内容标签。

16.根据权利要求9至12任一所述的装置，其特征在于，所述标签识别模块包括：

匹配单元，用于对所述标签特征信息与所述目标融合特征信息进行匹配，得到所述标签特征信息与所述目标融合特征信息间的匹配信息；

匹配内容标签确定单元，用于基于所述匹配信息，确定所述多个预设内容标签中与所述待识别媒体内容匹配的至少一个匹配内容标签；

第二目标内容标签单元，用于基于所述至少一个匹配内容标签的匹配信息，对所述至少一个匹配内容标签进行排序，得到所述目标内容标签。

17.一种媒体内容标签识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一所述的媒体内容标签识别方法。

18.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的媒体内容标签识别方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的媒体内容标签识别方法。