CN112836088B

CN112836088B - 用于生成与视频对应的标签的方法、设备和介质

Info

Publication number: CN112836088B
Application number: CN202110209800.4A
Authority: CN
Inventors: 杨皓; 朱慕华; 文帆
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2023-07-18
Anticipated expiration: 2041-02-24
Also published as: CN112836088A

Abstract

公开了用于生成与视频对应的标签的方法、设备和介质。所述方法包括：从视频中抽取多个图像帧，并分别获取每个图像帧的图像特征向量；获取视频所对应的标题，并分别生成标题中每个字的字特征向量；将多个图像帧的图像特征向量和标题的字特征向量进行拼接，得到拼接特征向量序列；确定每个图像特征向量所对应的图像在视频中的图像位置，并确定每个字特征向量所对应的字在标题中的字位置；基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对拼接特征向量序列中的各特征向量进行位置嵌入处理，得到嵌入特征向量序列；基于嵌入特征向量序列，生成与视频对应的标签以及与所述标签对应的至少一个上层标签。

Description

用于生成与视频对应的标签的方法、设备和介质

技术领域

本公开涉及深度学习的技术领域，更具体地说，涉及用于生成与视频对应的标签的方法、设备和介质。

背景技术

随着互联网的发展，视频数据(尤其是短视频、小视频)在网络中越来越多。如何在大规模的视频数据集上提炼视频的关键信息，即如何确定与视频对应的标签，进而帮助推荐系统个性化地推荐视频显得越来越重要。

作为一种可能的方式，可以预先设置一个标签库，通过将视频信号与标签库中的各个标签计算语义相似度，来选择语义相似度最高的标签作为当前视频的标签。然而，这种方式存在两个问题：1)标签是否准确依赖于原始标签库的好坏，同时标签库不一定完备；2)训练语义相似度模型比较困难，因为标签库一般比较大，相似度模型很难将最好的标签排在第一名。

另外，作为另一种可能的实施方式，可以基于视频中的图像特征，来生成标签。然而，对于复杂场景的视频，所生成的标签的语义与视频相差较大。另一方面，尽管一些现有技术已经同时考虑多种模态特征(视频、文本)，但是所使用的标签生成模型并没有考虑不同模态特征的深度交互，例如，在对不同模态的特征进行编码时，并没有相互融合编码特征，而只是在最后编码并解码后进行特征的“浅度”融合，这无疑减弱了模型的表征能力。

发明内容

鉴于以上情形，期望提供新的用于生成与视频对应的标签的方法、设备和介质，其能够支持通过视频与标题的深度融合来生成与视频对应的标签。

根据本公开的一个方面，提供了一种用于生成与视频对应的标签的方法，包括：从所述视频中抽取多个图像帧，并分别获取所述多个图像帧中的每一个图像帧的图像特征向量；获取所述视频所对应的标题，并分别生成所述标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；将所述多个图像帧的图像特征向量和所述标题的字特征向量进行拼接，以得到拼接特征向量序列；确定每个图像特征向量所对应的图像在所述视频中的图像位置，并确定每个字特征向量所对应的字在所述标题中的字位置；基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到嵌入特征向量序列；以及基于所述嵌入特征向量序列，生成与所述视频对应的标签以及与所述标签对应的至少一个上层标签。

另外，根据本公开实施例的方法还包括：获取第一标志所对应的第一标志特征向量以及第一标志位置，并获取第二标志所对应的第二标志特征向量以及第二标志位置，其中，通过将所述第一标志特征向量、所述多个图像帧的图像特征向量、所述第二标志特征向量、以及所述标题的字特征向量依序进行拼接，以得到拼接特征向量序列，其中，通过基于所述第一标志位置、所确定的各图像特征向量所对应的图像位置、所述第二标志位置、各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入，以得到嵌入特征向量序列。

另外，根据本公开实施例的方法还包括：基于所确定的各图像特征向量所对应的分段和各字特征向量所对应的字分段，对所述拼接特征向量序列中的各特征向量进行分段嵌入处理，以更新所述拼接特征向量序列；或者基于所确定的各图像特征向量所对应的分段和各字特征向量所对应的字分段，对所述嵌入特征向量序列中的各特征向量进行分段嵌入处理，以更新所述嵌入特征向量序列。

另外，在根据本公开实施例的方法中，基于所述嵌入特征向量序列，生成与所述视频对应的标签，包括：将所述嵌入特征向量序列提供至变换网络，并得到所述标签的第一个字；生成所述标签的第一个字的字特征向量；基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列；将更新后的嵌入特征向量序列提供至变换网络，并重复利用所得到的各个字的字特征向量来更新所述嵌入特征向量序列，直至得到所述标签的结束标志。

另外，在根据本公开实施例的方法中，所述变换网络包括编码网络和解码网络，其中将所述嵌入特征向量序列提供至变换网络，并得到所述标签的第一个字，包括：将所述嵌入特征向量序列提供至编码网络，并得到对应于标签的第一个字的编码向量；通过解码网络，将对应于标签的第一个字的编码向量解码为第一预测向量，其中在所述第一预测向量中包含对应于字典中的每一个字的概率值；基于所述第一预测向量，确定所述标签的第一个字。

另外，在根据本公开实施例的方法中，基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列，包括：将所述多个图像帧的图像特征向量、所述标题的字特征向量和所述标签的第一个字的字特征向量进行拼接，以更新所述拼接特征向量序列；基于所确定的各图像特征向量所对应的图像位置、所述标题的各字特征向量所对应的字位置以及所述标签的第一个字的字位置，对所述更新后的拼接特征向量序列中的各特征向量进行位置嵌入处理，以更新所述嵌入特征向量序列。

另外，根据本公开实施例的方法可以进一步包括：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为视频向量和一个编码向量作为标题向量；确定所述视频向量与所述标题向量之间的相似度；基于所述相似度，确定所述视频与所述标题是否一致。

另外，在根据本公开实施例的方法中，作为视频向量的一个编码向量是与位于所述多个图像帧的图像特征向量之前的第一标志特征向量对应的编码向量，并且作为标题向量的一个编码向量是与位于所述多个图像帧的图像特征向量与所述标题的各个字特征向量之间的第二标志特征向量对应的编码向量。

另外，在根据本公开实施例的方法中，基于所述第一预测向量，确定所述标签的第一个字，包括：在所述第一预测向量中，对概率值按照从大到小的顺序进行排序；选择排在前面的预定数量的概率值，并确定对应的预定数量的字作为所述标签的第一个字的候选，并且其中，将所述更新的嵌入特征向量序列提供至所述编码网络，并重复以上处理，直到得到所述标签的结束标志为止，包括：基于第一个字的候选，依次产生其他字的候选；基于所述标签中的各个字的候选，确定预定数量的标签。

另外，根据本公开实施例的方法可以进一步包括：分别针对所述预定数量的标签中的每一个，执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为标题向量和一个编码向量作为标签向量；以及确定所述标题向量与所述标签向量之间的相似度；当最高的相似度大于预定阈值时，确定与该相似度对应的标签作为与视频对应的标签，否则输出指示没有与所述视频对应的标签的信息。

另外，根据本公开实施例的方法可以进一步包括：分别针对所述预定数量的标签中的每一个，执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为视频向量、一个编码向量作为标题向量和一个编码向量作为标签向量；以及确定所述视频向量与所述标题向量之间的相似度，并确定所述视频向量与所述标签向量之间的相似度；当所述视频向量与所述标题向量之间的相似度小于第一阈值且所述视频向量与所述标签向量大于第二阈值时，将该标签确定为仅通过视频内容生成的标签。

另外，在根据本公开实施例的方法中，获取所述图像特征向量和所述字特征向量以及所述位置嵌入处理通过嵌入网络来完成，并且所述方法进一步包括：通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，其中所述第一训练数据集包括多个第一训练数据，每个第一训练数据包括第一训练视频、与所述第一训练视频对应的第一训练标题以及与所述第一训练视频和所述第一训练标题对应的正确标签，其中通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，包括：在第一训练数据集中的至少一部分第一训练数据中，针对每一个第一训练数据，执行如下处理：从该第一训练数据的第一训练视频中抽取多个第一训练图像帧，并分别获取多个第一训练图像帧中的每一个的图像特征向量；获取所述第一训练视频所对应的第一训练标题，并分别生成所述第一训练标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；将正确标签中的一个或多个字替换为掩蔽字，以得到掩蔽标签，并分别生成所述掩蔽标签中的每个字的字特征向量，其中所述掩蔽标签中的每个字的字特征向量与每个图像特征向量具有相同维度；将所述多个第一训练图像帧的图像特征向量、所述第一训练标题的字特征向量和所述掩蔽标签中的每个字的字特征向量进行拼接，以得到第一训练拼接特征向量序列；确定每个第一训练图像帧的图像特征向量所对应的图像在所述第一训练视频中的图像位置，确定所述第一训练标题中的每个字特征向量所对应的字在所述第一训练标题中的字位置，并确定所述掩蔽标签中的每个字的字特征向量所对应的字在所述掩蔽标签中的字位置；基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述第一训练拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到第一训练嵌入特征向量序列；基于所述第一训练嵌入特征向量序列，生成所述掩蔽标签中的一个或多个掩蔽字；计算所述一个或多个掩蔽字与真实字之间的第一损失函数；至少基于所述第一损失函数，训练所述嵌入网络、所述编码网络和所述解码网络。

另外，在根据本公开实施例的方法中，通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，进一步包括：在由所述编码网络输出的多个编码向量中选择作为视频向量的一个编码向量、作为标题向量的一个编码向量和作为标签向量的一个编码向量；基于视频向量与对应的标题向量之间的相似度和视频向量与不对应的标题向量之间的相似度以及标题向量与对应的视频向量之间的相似度和标题向量与不对应的视频向量之间的相似度，计算第二损失函数；基于视频向量与对应的标签向量之间的相似度和视频向量与不对应的标签向量之间的相似度以及标签向量与对应的视频向量以及标签向量与不对应视频向量之间的相似度，计算第三损失函数；基于标题向量与对应的标签向量之间的相似度和标题向量与不对应的标签向量之间的相似度以及标签向量与对应的标题向量之间的相似度和标签向量与不对应的标题向量之间的相似度，计算第四损失函数；并且，其中至少基于所述第一损失函数，训练所述嵌入网络、所述编码网络和所述解码网络，包括：基于第一损失函数、第二损失函数、第三损失函数和第四损失函数之和，训练所述嵌入网络、所述编码网络和所述解码网络。

另外，在根据本公开实施例的方法中，在通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络之前，所述方法进一步包括：通过第二训练数据集来训练所述嵌入网络和所述编码网络，其中所述第二训练数据集包括多个第二训练数据，每个第二训练数据包括第二训练视频和与所述第二训练视频对应的第二训练标题，其中通过第二训练数据集来训练所述嵌入网络和所述编码网络，包括：在第二训练数据集中的至少一部分第二训练数据中，针对每一个第二训练数据，执行如下处理：从该第二训练数据的训练视频中抽取多个第二训练图像帧，并分别获取所述多个第二训练图像帧中的每一个的图像特征向量；获取所述第二训练视频所对应的第二训练标题，并分别生成所述第二训练标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；将所述多个第二训练图像帧的图像特征向量和所述第二训练标题的字特征向量进行拼接，以得到第二训练拼接特征向量序列；确定每个第二训练图像帧的图像特征向量所对应的图像在所述第二训练视频中的图像位置，并确定每个字特征向量所对应的字在所述第二训练标题中的字位置；基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述第二训练拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到第二训练嵌入特征向量序列；以及将所述第二训练嵌入特征向量序列提供至编码网络，并在由所述编码网络输出的多个编码向量中选择作为视频向量的一个编码向量和作为标题向量的一个编码向量；基于视频向量与对应的标题向量之间的相似度和视频向量与不对应的标题向量之间的相似度以及标题向量与对应的视频向量之间的相似度和标题向量与不对应的视频向量之间的相似度，计算第五损失函数；基于所述第五损失函数，训练所述嵌入网络和所述编码网络。

根据本公开的另一方面，提供了一种用于生成与视频对应的标签的设备，包括：第一语义嵌入装置，用于从所述视频中抽取多个图像帧，并分别获取所述多个图像帧中的每一个图像帧的图像特征向量；第二语义嵌入装置，用于获取所述视频所对应的标题，并分别生成所述标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；拼接装置，用于将所述多个图像帧的图像特征向量和所述标题的字特征向量进行拼接，以得到拼接特征向量序列；位置确定装置，用于确定每个图像特征向量所对应的图像在所述视频中的图像位置，并确定每个字特征向量所对应的字在所述标题中的字位置；位置嵌入装置，用于基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到嵌入特征向量序列；以及标签生成装置，用于基于所述嵌入特征向量序列，生成与所述视频对应的标签以及与所述标签对应的至少一个上层标签。

根据本公开的又一方面，提供了一种用于生成与视频对应的标签的设备，包括：存储器，用于在其上存储计算机程序；处理器，用于当执行所述计算机程序时，执行以下处理：从所述视频中抽取多个图像帧，并分别获取所述多个图像帧中的每一个图像帧的图像特征向量；获取所述视频所对应的标题，并分别生成所述标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；将所述多个图像帧的图像特征向量和所述标题的字特征向量进行拼接，以得到拼接特征向量序列；确定每个图像特征向量所对应的图像在所述视频中的图像位置，并确定每个字特征向量所对应的字在所述标题中的字位置；基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到嵌入特征向量序列；以及基于所述嵌入特征向量序列，生成与所述视频对应的标签以及与所述标签对应的至少一个上层标签。

根据本公开的再一方面，提供了一种计算机可读介质，其上存储有计算机程序，当由处理器执行所述计算机程序时，执行上文中所述的方法。

在所述标签生成方法、设备和介质中，支持对视频图像和标题文本的融合学习，通过变换网络进行深度交互，并最终生成标签文本。另外，对于网络的训练过程，在损失函数设计方面，进一步增加了视频与标题之间的三元组损失、视频与标签之间的三元组损失以及标题与标签之间的三元组损失，从而使得由网络生成的标签在语义层面上，尽量与视频或标题接近。并且，考虑到不同模态的特征分布不一致的问题，还可以进一步使用大规模的无标签数据度对网络进行预训练，使得视频特征与文本特征在语义上是一致的。

附图说明

图1示了根据本公开实施例的标签生成方法的一种示例的应用场景；

图2是图示根据本公开实施例的、用于生成与视频对应的标签的方法的总体过程的示意图；

图3是图示根据本公开实施例的、用于生成与视频对应的标签的方法的具体过程的流程图；

图4是图示图3中所示的步骤S306的具体过程的一种示例的流程图；

图5是图示根据本公开实施例的标签生成方法中涉及的各个网络的训练方法的过程的流程图；

图6示出了根据本公开的一种实施例的训练模式下的网络结构示意图；

图7是图示根据本公开实施例的标签生成设备的配置的功能性框图；以及

图8是根据本公开实施例的一种示例性的计算设备的架构的示意图。

具体实施方式

下面将参照附图对本发明的各个优选的实施方式进行描述。提供以下参照附图的描述，以帮助对由权利要求及其等价物所限定的本发明的示例实施方式的理解。其包括帮助理解的各种具体细节，但它们只能被看作是示例性的。因此，本领域技术人员将认识到，可对这里描述的实施方式进行各种改变和修改，而不脱离本发明的范围和精神。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。

首先，将参照图1描述根据本公开实施例的标签生成方法的一种示例的应用场景。如图1所示，在某个新闻应用的视频标签生成场景下，输入可以包括视频101和视频的标题102。这里，视频101和视频的标题102属于不同模态的信号。并且，输出可以包括视频的标签103。从而，在这种应用场景下，通过对新闻内的视频进行标签的生成，可以帮助视频在推荐侧进行召回或推荐，进而提升新闻的个性化推荐能力。这里，标签生成的好坏将直接影响线上推荐侧的效果。当然，以上的应用场景仅为示例，根据本公开实施例的标签生成方法还可以应用于任何其他适当的场景。

这里，需要指出的是，根据本公开实施例所生成的标签可以存储在区块链中。

接下来，将参照图2描述根据本公开实施例的、用于生成与视频对应的标签的方法的总体过程。如图2所示，首先，需要从视频中抽取出多个图像帧。图2中的1、2、3、4、......、T表示从视频中抽取的T个图像帧。然后，可以通过特征提取网络来提取每一个图像帧的图像特征向量，在图2中以v₁，v₂，......，v_T表示通过特征提取网络提取出的图像特征向量。也就是说，每一个图像帧都将对应于一个图像特征向量。例如，特征提取网络可以采用EfficientNet网络、残差网络(RESNET)或VGG网络来实现。

作为一种可能的实施方式，在通过特征提取网络提取出每一个图像帧的图像特征向量之后，考虑到视频各帧在时间维度上具有一定的连续性，为了去除数据冗余，还可以对提取出的每一个图像帧的图像特征向量执行进一步的合并。具体来说，可以计算在时间维度上连续的两个图像帧的图像特征向量之间的相似度。然后，将高相似度的图像特征向量进行合并。例如，可以通过对两个相似的图像特征向量加和并求平均的方式来执行合并。假设通过特征合并后，如图2所示，得到了T′个图像特征向量v′₁，v′₂，......，v′_T′。

然后，基于图像特征和标题文本，通过编码网络将图像特征和标题文本深度交互并编码为中间特征向量，最后通过解码网络对中间特征向量进行解码来生成对应的标签，在图2中生成的标签为农家乐做法。图2中的编码网络和解码网络也可以统称为变换网络。例如，编码网络和解码网络都可以通过BERT(Bidirectional Encoder Representationfrom Transformers)网络来实现。

接下来，将参照图3描述根据本公开实施例的、用于生成与视频对应的标签的方法的具体过程。如图3所示，所述方法包括以下步骤。

首先，在步骤S301，从所述视频中抽取多个图像帧，并分别获取所述多个图像帧中的每一个图像帧的图像特征向量。

从所述视频中抽取多个图像帧可以通过很多不同的方式来实现。例如，可以对所述视频进行分段(如，前段、中段和后段)，然后在每一个分段中抽取预定数量的图像帧。或者，可替代地，也可以提取视频的前段、中段和后段中的任一个中的预定数量的图像帧。例如，可以仅提取视频的前120秒时段，且每秒抽取1个图像帧。当然，以上所列举的这些不同的图像抽取方式仅为示例，任何其他的抽取方式都可以类似地应用于本公开，且应该包括在本公开的范围内。

如上文中所述，对于从视频中抽取出的多个图像帧，可以首先通过特征提取网络来提取每一个图像帧的图像特征向量。假设从视频中抽取了T个图像帧，那么通过特征提取网络而提取每一个图像帧的图像特征向量为v₁，v₂，......，v_T。也就是说，每一个图像帧都将对应于一个图像特征向量。例如，特征提取网络可以采用EfficientNet网络、残差网络(RESNET)或VGG网络来实现。

作为一种可能的实施方式，在通过特征提取网络提取出每一个图像帧的图像特征向量之后，考虑到视频各帧在时间维度上具有一定的连续性，为了去除数据冗余，还可以对提取出的每一个图像帧的图像特征向量执行进一步的合并。具体来说，可以计算在时间维度上连续的两个图像帧的图像特征向量之间的相似度。然后，将高相似度的图像特征向量进行合并。例如，可以通过对两个相似的图像特征向量加和并求平均的方式来执行合并。假设通过特征合并后，得到了T′个图像特征向量v′₁，v′₂，......，v′_T′。

这里，需要注意的是，假设通过特征提取网络提取出的图像特征向量(v₁，v₂，......，v_T或v′₁，v′₂，......，v′_T′)的维度为第一维度(例如，2048维)，那么通过对第一维度的图像特征向量执行语义嵌入处理，可以得到与第一维度不同的第二维度(例如，768维)的图像特征向量：

或者/>

例如，从第一维度到第二维度的语义嵌入处理可以通过全连接层来实现。

接下来，在步骤S302，获取所述视频所对应的标题，并分别生成所述标题中的每个字的字特征向量。在本公开中，每一个视频都具有一个对应的标题，二者均作为用于生成标签的输入。通过语义嵌入处理，将标题中的每一个字都映射到另一空间中的字特征向量。假设标题包括P个字，那么通过语义嵌入处理将得到字特征向量s₁，s₂，......，s_P。每个字特征向量与每个图像特征向量可以具有相同维度。例如，每个字特征向量也是第二维度(例如，768维)的向量。从而，通过步骤S301和步骤S302的处理，将不同模态的两种输入数据都映射到相同的空间中。

然后，在步骤S303，将所述多个图像帧的图像特征向量和所述标题的字特征向量进行拼接，以得到拼接特征向量序列。

尽管在图3中未示出，但是根据本公开实施例所述的方法还可以包括：获取第一标志所对应的第一标志特征向量以及第一标志位置，并获取第二标志所对应的第二标志特征向量以及第二标志位置的步骤。例如，第一标志可以是用于标识序列的开头的标志CLS，且第二标志可以是用于标识不同模态的向量之间的分隔的标志SEP。那么，可以将与第一标志所对应的第一标志向量表示为E_CLS，且将与第二标志所对应的第二标志向量表示为E_SEP。

具体地，在步骤S303，通过将所述第一标志特征向量、所述多个图像帧的图像特征向量、所述第二标志特征向量、以及所述标题的字特征向量依序进行拼接，以得到拼接特征向量序列。例如，沿用上文中所定义的各种符号表示，拼接特征向量序列可以被表示为：

或者

接下来，在步骤S304，确定每个图像特征向量所对应的图像在所述视频中的图像位置，并确定每个字特征向量所对应的字在所述标题中的字位置。具体地，对于每一个图像特征向量，确定其对应于视频中的第几个图像帧，这里的第几个图像帧可以认为是图像位置。对于每一个字特征向量，确定其对应于标题中的第几个字，这里的第几个字可以认为是字位置。

然后，在步骤S305，基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到嵌入特征向量序列。

具体地，通过基于所述第一标志位置、所确定的各图像特征向量所对应的图像位置、所述第二标志位置、各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入，以得到嵌入特征向量序列。

另外，除了位置嵌入处理之外，根据本公开实施例的方法还可以进一步包括分段嵌入处理。具体来说，所述方法还可以包括：基于所确定的各图像特征向量所对应的分段和各字特征向量所对应的字分段，对所述拼接特征向量序列中的各特征向量进行分段嵌入处理，以更新所述拼接特征向量序列。同一种模态的输入数据将对应于相同的分段。例如，视频的各个图像特征向量对应于相同的分段向量，而标题的各个字特征向量对应于相同的分段向量，且视频的各个图像特征向量对应的分段向量与标题的各个字特征向量对应的分段向量相同。并且，下文中将提到的标签的各个字特征向量也将相同的分段向量，且与视频的各个图像特征向量对应的分段向量以及标题的各个字特征向量对应的分段向量都不同。

上文中所描述的分段嵌入处理是在位置嵌入处理之前执行的。当然，本公开并不仅限于此。或者，可替代地，所述分段嵌入处理也可以在位置嵌入处理之后执行。具体来说，在这种情况下，所述方法还可以包括：基于所确定的各图像特征向量所对应的分段和各字特征向量所对应的字分段，对所述嵌入特征向量序列中的各特征向量进行分段嵌入处理，以更新所述嵌入特征向量序列。

最后，在步骤S306，基于所述嵌入特征向量序列，生成与所述视频对应的标签以及与所述标签对应的至少一个上层标签。

例如，在步骤S306，基于所述嵌入特征向量序列，可以首先生成与视频对应的标签。这时生成的所述标签可以认为是底层标签。然后，根据预定的映射关系，可以基于底层标签，生成对应的上层标签。假设生成的底层标签为“打篮球”，且存在底层标签“打篮球”、“踢足球”、“打羽毛球”、“打网球”均映射至上层标签“球类运动”的映射关系，那么在这种情况下，将进一步基于底层标签“打篮球”生成上层标签“球类运动”。并且，按照类似的方式，还可以进一步生成更上层标签。当时，以上的多层级标签的生成方式仅为示例，任何其他的生成方式都可以类似地应用于本公开，且应该包括在本公开的范围内。另外，下文中所述的生成与视频对应的标签的具体过程中所涉及的标签为底层标签。

例如，作为一种可能的实施方式，可以逐字地生成与所述视频对应的标签。图4示出了图3中所示的步骤S306的具体过程的一种示例。如图4所示，基于所述嵌入特征向量序列，生成与所述视频对应的标签可以包括以下步骤。

首先，在步骤S401，将所述嵌入特征向量序列提供至变换网络，并得到所述标签的当前字。当然，在首次执行步骤S401时，得到的所述标签的当前字为第一个字。

例如，作为一种可能的实施方式，可以通过以下处理来得到所述标签的当前字。所述变换网络可以包括编码网络和解码网络。首先，将所述嵌入特征向量序列提供至编码网络，并得到对应于标签的当前字的编码向量。然后，通过解码网络，将对应于标签的当前字的编码向量解码为第一预测向量，其中在所述第一预测向量中包含对应于字典中的每一个字的概率值。最后，基于所述第一预测向量，确定所述标签的当前字。

例如，可以在所述第一预测向量中选择概率值最大的那一个元素，并且将该元素所对应的那一个字作为所述标签的当前字。在这种情况下，将最终生成与所述视频对应的一个标签。

或者，可替代地，也可以在所述第一预测向量中选择概率值较大的多个元素，并且将这多个元素所对应的多个字均作为所述标签的候选字。在这种情况下，将最终生成与所述视频对应的多个标签。

具体来说，基于所述第一预测向量，确定所述标签的第一个字可以包括：在所述第一预测向量中，对概率值按照从大到小的顺序进行排序；选择排在前面的预定数量的概率值，并确定对应的预定数量的字作为所述标签的第一个字的候选。假设选择N个第一个字的候选。并且其中，将所述更新的嵌入特征向量序列提供至所述编码网络，并重复以上处理，直到得到所述标签的结束标志为止可以包括：基于第一个字的候选，依次产生其他字的候选；基于所述标签中的各个字的候选，确定预定数量的标签。也就是说，分别将第一个字的每一个候选分别提供至变换网络，并得到第二个字的N个候选。因此，共计得到N*N个第一个字和第二个字的候选。例如，可以基于第一个字的概率和第二个字的概率(例如，二者的乘积)，从这N*N个候选中筛选出组合概率较大的N个第一个字和第二个字的组合，并将其作为已得到的字输入至变换网络，以得到接下来的各个字的候选。最终，可以确定与所述视频对应的N个标签。

然后，在步骤S402，判断在步骤S401中得到的所述标签的当前字是否为结束标志。如果在步骤S402判断为否，则处理进行到步骤S403。另一方面，如果在步骤S402判断为是，则处理结束。

在步骤S403，生成所述标签的当前字的字特征向量。这里，与上文中参照图3描述的步骤S302类似地，通过语义嵌入处理，将生成的所述标签的当前字映射到另一空间中的字特征向量。当然，这里的当前字所对应的子特征向量也是具有第二维度(例如，768维)的向量。

接下来，在步骤S404，基于所述标签的当前字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列。下面，以所述标签的当前字为第一个字为例进行说明。当然，所述标签的当前字为其他字的情况下的处理也是类似的。基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列可以包括：将所述多个图像帧的图像特征向量、所述标题的字特征向量和所述标签的第一个字的字特征向量进行拼接，以更新所述拼接特征向量序列。然后，基于所确定的各图像特征向量所对应的图像位置、所述标题的各字特征向量所对应的字位置以及所述标签的第一个字的字位置，对所述更新后的拼接特征向量序列中的各特征向量进行位置嵌入处理，以更新所述嵌入特征向量序列。

或者，作为另一种可能的实施方式，基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列可以包括：将所述多个图像帧的图像特征向量、所述标题的字特征向量和所述标签的第一个字的字特征向量进行拼接，以更新所述拼接特征向量序列。然后，基于所确定的各图像特征向量所对应的分段、标题的各字特征向量所对应的字分段以及标签的第一个字所对应的字分段，对所述拼接特征向量序列中的各特征向量进行分段嵌入处理，以更新所述拼接特征向量序列。或者，基于所确定的各图像特征向量所对应的分段、标题的各字特征向量所对应的字分段以及标签的第一个字所对应的字分段，对所述嵌入特征向量序列中的各特征向量进行分段嵌入处理，以更新所述嵌入特征向量序列。

然后，处理返回到步骤S401，以将更新后的嵌入特征向量序列提供至变换网络，并重复利用所得到的各个字的字特征向量来更新所述嵌入特征向量序列，直至得到所述标签的结束标志。

在上文中，参照图1至图4详细描述了根据本公开实施例的标签生成方法。可以看出，在根据本公开实施例的标签生成方法中，通过将输入的不同模态的特征进行深度融合和交互，来生成与视频对应的标签。

除了最终生成与视频对应的标签之外，根据本公开的方法还可以进一步判断视频与标题的语义相似度。例如，如果视频与标题的语义不一致，则可以认为这是所谓的“标题党”或图文不符。

具体来说，所述方法可以进一步包括：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为视频向量和一个编码向量作为标题向量。例如，作为视频向量的一个编码向量可以是与位于所述多个图像帧的图像特征向量之前的第一标志特征向量对应的编码向量，并且作为标题向量的一个编码向量可以是与位于所述多个图像帧的图像特征向量与所述标题的各个字特征向量之间的第二标志特征向量对应的编码向量。然后，确定所述视频向量与所述标题向量之间的相似度。例如，可以使用余弦相似度来计算所述视频向量与所述标题向量之间的相似度。在这种情况下，相似度是在-1到1之间取值的数值，数值越接近于1，则认为相似度越高。最后，基于所述相似度，确定所述视频与所述标题是否一致。如下表1所示，高相似度的视频与标题语义比较接近，而低相似度的视频与标题有明显的语义差别。

表1

/>

另外，根据本公开的方法还可以进一步判断所生成的标签与标题的语义相似度。在生成与所述视频对应的多个标签的情况下，可以根据生成的标签与标题的语义相似度，对生成的多个标签进行过滤，以去掉相似度低的标签。

具体来说，根据本公开的方法还可以进一步包括：分别针对所述预定数量的标签中的每一个，执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为标题向量和一个编码向量作为标签向量。例如，作为标题向量的一个编码向量可以是与位于所述多个图像帧的图像特征向量与所述标题的各个字特征向量之间的第二标志特征向量对应的编码向量，并且作为标签向量的一个编码向量可以是与位于所述标题的各个字特征向量与所述标签的各个字特征向量之间的第二标志特征向量对应的编码向量。然后，确定所述标题向量与所述标签向量之间的相似度。例如，可以使用余弦相似度来计算所述标题向量与所述标签向量之间的相似度。在这种情况下，相似度是在-1到1之间取值的数值，数值越接近于1，则认为相似度越高。当最高的相似度大于预定阈值时，确定与该相似度对应的标签作为与视频对应的标签，否则输出指示没有与所述视频对应的标签的信息。下表2示出了标题与标签之间的相似度示例。

表2

/>

从表2可以看出，对于有些视频，所生成的标签与标题之间的相似度很低，在这种情况下，可以选择不将这些相似度很低的标签作为与视频对应的标签输出。

如下表3所示，可以发现，相似度越高的标签，准确率也会越来越高。这说明标题与标签的相似度，对正确标签和错误标签具有一定的区分能力。根据标题与标签的相似度来过滤生成的标签，去掉低相似度的标签，能够在牺牲一定的召回率指标的情况下，提升标签的准确率。在实践中，可以将上文中所述的预定阈值设置为0.65，这样得到的标签召回率和准确率二者都可以达到令人满意的程度。

表3

另外，根据本公开的方法还可以进一步利用视频与标签的相似度以及标题与标签的相似度来找到仅通过视频内容生成的标签。

具体来说，根据本公开的方法可以进一步包括：分别针对所述预定数量的标签中的每一个，执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为视频向量、一个编码向量作为标题向量和一个编码向量作为标签向量。例如，作为视频向量的一个编码向量可以是与位于所述多个图像帧的图像特征向量之前的第一标志特征向量对应的编码向量，作为标题向量的一个编码向量可以是与位于所述多个图像帧的图像特征向量与所述标题的各个字特征向量之间的第二标志特征向量对应的编码向量，并且作为标签向量的一个编码向量可以是与位于所述标题的各个字特征向量与所述标签的各个字特征向量之间的第二标志特征向量对应的编码向量。然后，确定所述视频向量与所述标题向量之间的相似度，并确定所述视频向量与所述标签向量之间的相似度。例如，可以使用余弦相似度来计算所述视频与所述标签之间的相似度以及所述标题向量与所述标签向量之间的相似度。在这种情况下，相似度是在-1到1之间取值的数值，数值越接近于1，则认为相似度越高。当所述视频向量与所述标题向量之间的相似度小于第一阈值且所述视频向量与所述标签向量大于第二阈值时，将该标签确定为仅通过视频内容生成的标签。

下表4示出了标题与标签相似度以及视频与标签相似度的示例。

表4

/>

从上表4可以看出，例如，对于标签“婚礼现场”而言，标题与标签相似度较低(0.36)且视频与标签相似度较高(0.76)，因此可以认为该标签主要通过视频内容而获得。

下面，将参照图5描述根据本公开实施例的标签生成方法中涉及的各个网络的训练方法。上文中所述的所述语义嵌入处理和所述位置嵌入处理通过嵌入网络来完成。通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，其中所述第一训练数据集包括多个第一训练数据，每个第一训练数据包括第一训练视频、与所述第一训练视频对应的第一训练标题以及与所述第一训练视频和所述第一训练标题对应的正确标签。

具体地，如图5所示，在第一训练数据集中的至少一部分第一训练数据中，针对每一个第一训练数据，执行如下处理。

首先，在步骤S501，从该第一训练数据的第一训练视频中抽取多个第一训练图像帧，并分别获取多个第一训练图像帧中的每一个的图像特征向量。

然后，在步骤S502，获取所述第一训练视频所对应的第一训练标题，并分别生成所述第一训练标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量可以具有相同维度。

接下来，在步骤S503，将正确标签中的一个或多个字替换为掩蔽字，以得到掩蔽标签，并分别生成所述掩蔽标签中的每个字的字特征向量，其中所述掩蔽标签中的每个字的字特征向量与每个图像特征向量可以具有相同维度。

然后，在步骤S504，将所述多个第一训练图像帧的图像特征向量、所述第一训练标题的字特征向量和所述掩蔽标签中的每个字的字特征向量进行拼接，以得到第一训练拼接特征向量序列。

接下来，在步骤S505，确定每个第一训练图像帧的图像特征向量所对应的图像在所述第一训练视频中的图像位置，确定所述第一训练标题中的每个字特征向量所对应的字在所述第一训练标题中的字位置，并确定所述掩蔽标签中的每个字的字特征向量所对应的字在所述掩蔽标签中的字位置。

然后，在步骤S506，基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述第一训练拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到第一训练嵌入特征向量序列。

接下来，在步骤S507，基于所述第一训练嵌入特征向量序列，生成所述掩蔽标签中的一个或多个掩蔽字。

然后，在步骤S508，计算所述一个或多个掩蔽字与真实字之间的第一损失函数。

接下来，在步骤S509，至少基于所述第一损失函数，训练所述嵌入网络、所述编码网络和所述解码网络。

另外，在损失函数设计上，除了掩蔽字与真实字之间的第一损失函数之外，还可以进一步增加视频与标题之间的三元组损失、视频与生成标签之间的三元组损失以及标题与生成标签之间的三元组损失。由于视频、标题和生成标签都是通过相同的变换网络得到的特征向量，因此增加三元组损失的目的是让变换网络生成的标签在语义层面上，尽量与视频或者标题接近。

具体来说，可以通过以下方式来计算上述三元组损失。首先，在由所述编码网络输出的多个编码向量中选择作为视频向量的一个编码向量、作为标题向量的一个编码向量和作为标签向量的一个编码向量。

然后，基于视频向量与对应的标题向量之间的相似度和视频向量与不对应的标题向量之间的相似度以及标题向量与对应的视频向量之间的相似度和标题向量与不对应的视频向量之间的相似度，计算第二损失函数，作为视频与标题之间的三元组损失。例如，可以通过以下公式(1)来计算第二损失函数。

loss₂＝max(F(V，S′)+m-F(V，S)，0.0)+max(F(V′，S)+m-F(V，S)，0.0) (1)

其中，loss₂表示第二损失函数，V、S和S′分别表示视频、正确标题(与所述视频对应的标题)、错误标题(与所述视频不对应的标题，即与其他视频对应的标题)。S、V和V′分别表示标题、正确视频(与所述标题对应的视频)、错误视频(与所述标题不对应的视频，即与其他标题对应的视频)。m是一个常数余量，例如，m可以是0.1。这里需要指出的是，在训练过程中，通常是对于一批训练数据进行集中的训练，因此对于这一批训练数据，将得到多组视频、标题和标签的编码向量(如上文中所述，也可以称为视频向量、标题向量和标签向量)，同一组中包括的视频、标题和标签的编码向量是对应的，而不同组中包括的视频、标题和标签的编码向量是不对应的。并且，在一批训练数据中，当对于一个视频向量存在多个不对应的标题向量时，可以计算该视频向量与各个不对应的标题向量的相似度的平均值，作为F(V，S′)。类似地，在一批训练数据中，当对于一个标题向量存在多个不对应的视频向量时，可以计算该标题向量与各个不对应的视频向量的相似度的平均值，作为F(V′，S)。

基于视频向量与对应的标签向量之间的相似度和视频向量与不对应的标签向量之间的相似度以及标签向量与对应的视频向量以及标签向量与不对应视频向量之间的相似度，计算第三损失函数，作为视频与标签之间的三元组损失。例如，可以通过以下公式(2)来计算第三损失函数。

loss₃＝max(F(V，T′)+m-F(V，T)，0.0)+max(F(V′，T)+m-F(V，T)，0.0) (2)

其中，loss₃表示第三损失函数，V、T和T′分别表示视频、正确标签(与所述视频对应的标签)、错误标签(与所述视频不对应的标签，即与其他视频对应的标签)。T、V和V′分别表示标签、正确视频(与所述标签对应的视频)、错误视频(与所述标签不对应的视频，即与其他标签对应的视频)。m是一个常数余量，例如，m可以是0.1。与上文中计算第二损失函数类似地，在一批训练数据中，当对于一个视频向量存在多个不对应的标签向量时，可以计算该视频向量与各个不对应的标签向量的相似度的平均值，作为F(V，T′)。类似地，在一批训练数据中，当对于一个标签向量存在多个不对应的视频向量时，可以计算该标签向量与各个不对应的视频向量的相似度的平均值，作为F(V′，T)。

基于标题向量与对应的标签向量之间的相似度和标题向量与不对应的标签向量之间的相似度以及标签向量与对应的标题向量之间的相似度和标签向量与不对应的标题向量之间的相似度，计算第四损失函数，作为标题与标签之间的三元组损失。例如，可以通过以下公式(3)来计算第四损失函数。

loss₄＝max(F(S，T′)+m-F(S，T)，0.0)+max(F(S′，T)+m-F(S，T)，0.0) (3)

其中，loss₄表示第四损失函数，S、T和T′分别表示标题、正确标签(与所述标题对应的标签)、错误标签(与所述标题不对应的标签，即与其他标题对应的标签)。T、S和S′分别表示标签、正确标题(与所述标签对应的标题)、错误标题(与所述标签不对应的标题，即与其他标签对应的标题)。m是一个常数余量，例如，m可以是0.1。与上文中计算第二损失函数类似地，在一批训练数据中，当对于一个标题向量存在多个不对应的标签向量时，可以计算该视频向量与各个不对应的标签向量的相似度的平均值，作为F(S，T′)。类似地，在一批训练数据中，当对于一个标签向量存在多个不对应的标题向量时，可以计算该标签向量与各个不对应的标题向量的相似度的平均值，作为F(S′，T)。

并且，至少基于所述第一损失函数，训练所述嵌入网络、所述编码网络和所述解码网络可以包括：基于第一损失函数、第二损失函数、第三损失函数和第四损失函数之和，训练所述嵌入网络、所述编码网络和所述解码网络。例如，可以设置预定的训练次数，当达到所述预定的训练次数时，训练结束。或者，也可以判断各损失函数之和是否收敛，当各损失函数之和收敛时，训练结束。

可以看出，训练过程与上文中所述的标签生成方法大体是类似的。不同之处在于，在训练过程中，不再是逐个地输出标签中的每一个字，因为在训练时正确标签是已知的，所以将正确标签随机地掩蔽一个或多个字，并作为输入提供至网络。

另外，作为一种可能的实施方式，在通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络之前，进一步包括预训练的步骤。具体来说，所述训练方法还可以进一步包括：通过第二训练数据集来训练所述嵌入网络和所述编码网络，其中所述第二训练数据集包括多个第二训练数据，每个第二训练数据包括第二训练视频和与所述第二训练视频对应的第二训练标题。这里，可以看出，第二训练数据集与第一训练数据集的不同之处在于，第二训练数据集是无标签训练数据集。

通过第二训练数据集来训练所述嵌入网络和所述编码网络可以包括以下步骤。

在第二训练数据集中的至少一部分第二训练数据中，针对每一个第二训练数据，执行如下处理。

首先，从该第二训练数据的训练视频中抽取多个第二训练图像帧，并分别获取所述多个第二训练图像帧中的每一个的图像特征向量。

然后，获取所述第二训练视频所对应的第二训练标题，并分别生成所述第二训练标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量可以具有相同维度。

接下来，将所述多个第二训练图像帧的图像特征向量和所述第二训练标题的字特征向量进行拼接，以得到第二训练拼接特征向量序列。

然后，确定每个第二训练图像帧的图像特征向量所对应的图像在所述第二训练视频中的图像位置，并确定每个字特征向量所对应的字在所述第二训练标题中的字位置。

接下来，基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述第二训练拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到第二训练嵌入特征向量序列。

可以看出，该预训练过程与上文中所述的标签生成方法大体是类似的。不同之处在于，该预训练过程不会生成并输出标签。通过先在大规模(例如，64万多)的无人工标注的标签的第二训练数据集上进行预训练，可以学习视频的图像特征与文本特征的空间分布，使得视频特征与文本特征在语义上接近。

然后，将所述第二训练嵌入特征向量序列提供至编码网络，并在由所述编码网络输出的多个编码向量中选择作为视频向量的一个编码向量和作为标题向量的一个编码向量。

接下来，基于视频向量与对应的标题向量之间的相似度和视频向量与不对应的标题向量之间的相似度以及标题向量与对应的视频向量之间的相似度和标题向量与不对应的视频向量之间的相似度，计算第五损失函数。

然后，基于所述第五损失函数，训练所述嵌入网络和所述编码网络。例如，可以设置预定的预训练次数，当达到所述预定的预训练次数时，预训练结束。或者，也可以判断第五损失函数是否收敛，当第五损失函数收敛时，预训练结束。

图6示出了根据本公开的一种实施例的训练模式下的网络结构示意图。在图6中，示出了从视频抽取的多个图像帧，标题是“农家乐这道很好吃”，且人工标注的标签是“农家乐”，其中将标签中的“家”字掩蔽。将通过特征提取网络提取出的每一个图像帧所对应的图像特征、标题中的各个字以及标签中的各个字经由CLS标志和SEP标志拼接后，提供至嵌入网络601。通过嵌入网络601，对各个图像特征、各个字以及各个标志执行语义嵌入处理、分段嵌入处理和位置嵌入处理。其中，E_CLS为通过语义嵌入处理得到的CLS标志所对应的特征向量，E_v1，E_v2，...，为通过语义嵌入处理得到的各个图像特征向量，E_SEP为通过语义嵌入处理得到的SEP标志所对应的特征向量，E_农，E_家，...为通过语义嵌入处理得到的标题中的各个字特征向量，且E_农，E_MASK，E_乐为通过语义嵌入处理得到的掩蔽标签中的各个字特征向量。并且，E_CLS，E_v1，E_v2，...，E_SEP，E_农，E_家，...，E_SEP，E_农，E_家，...均为相同维度的向量。在图6中，可以看出，各图像特征向量所对应的分段和标题中各字特征向量所对应的字分段是相同的(A)，而标签中各个字特征向量所对应的字分段与各图像特征向量所对应的分段和标题中各字特征向量所对应的字分段不同(B)。并且，各图像特征向量所对应的图像位置都是不同的，标题中各个字特征向量所对应的字位置都是不同的，且标签中各个字特征向量所对应的字位置也都是不同的。通过嵌入网络，得到最终提供至变换网络的输入F_CLS，F_v1，F_v2，...，F_SEP，F_农，F_家，...，F_SEP，F_农，F_MASK，F_乐。然后，H_CLS，H_v1，H_v2，...，H_SEP，H_农，H_家，...，H_SEP，H_农，H_MASK，H_乐为经编码后的各个特征向量。对于编码后的特征向量H_MASK，通过对其解码，获得维度等于字典字数的预测向量，并基于该预测向量确定对应的掩蔽字。

并且，在图6中，选择H_CLS作为体现视频特征的视频向量，选择图像特征向量与标题的字特征向量之间H_SEP作为体现标题特征的标题向量，且选择标题的字特征向量与标签的字特征向量之间的H_SEP作为体现标签特征的标签向量。基于掩蔽字与真实字的交叉熵损失以及视频向量、标题向量和标签向量之间的三个三元组损失，来训练所述嵌入网络601和所述变换网络602。

训练完成后的网络可以用于实际地基于视频和标题来生成标签。对于投入使用的网络，我们进行了用于检测该网络的实际效果的实验。在人工标注的测试数据集上进行实验，并且在不同品类的视频数据集上计算准确率，即：生成的标签是否能够满足要求，具体数据如下表5所示。

表5

准确率

健康

82％

社会

90％

旅游

86％

宠物

81％

教育

72％

科技

58％

时尚

87％

娱乐

86％

军事

56％

财经

72％

占卜

88％

职场

88％

科学

66％

生活

86％

体育

76％

生活

98％

历史

54％

数码

88％

文化

77％

游戏

46％

育儿

86％

综艺

94％

动漫

78％

摄影

85％

从表5可以看出，根据本公开的标签生成方法在大部分的品类上都能够达到满意的效果。

在上文中，参照图1至图6详细描述了根据本公开实施例的、用于生成与视频对应的标签的方法。在根据本公开实施例的、用于生成与视频对应的标签的方法中，支持对视频图像和标题文本的融合学习，通过变换网络进行深度交互，并最终生成标签文本。另外，对于网络的训练过程，在损失函数设计方面，进一步增加了视频与标题之间的三元组损失、视频与标签之间的三元组损失以及标题与标签之间的三元组损失，从而使得由网络生成的标签在语义层面上，尽量与视频或标题接近。并且，考虑到不同模态的特征分布不一致的问题，还可以进一步使用大规模的无标签数据度对网络进行预训练，使得视频特征与文本特征在语义上是一致的。

接下来，将参照图7描述根据本公开实施例的用于生成与视频对应的标签的设备。如图7所示，设备700包括：第一语义嵌入装置701、第二语义嵌入装置702、拼接装置703、位置确定装置704、位置嵌入装置705和标签生成装置706。

第一语义嵌入装置701用于从所述视频中抽取多个图像帧，并分别获取所述多个图像帧中的每一个图像帧的图像特征向量。

第二语义嵌入装置702用于获取所述视频所对应的标题，并分别生成所述标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量可以具有相同维度。

拼接装置703用于将所述多个图像帧的图像特征向量和所述标题的字特征向量进行拼接，以得到拼接特征向量序列。

具体来说，所述拼接装置703可以进一步被配置为：获取第一标志所对应的第一标志特征向量以及第一标志位置，并获取第二标志所对应的第二标志特征向量以及第二标志位置。

其中，所述拼接装置703被配置为通过将所述第一标志特征向量、所述多个图像帧的图像特征向量、所述第二标志特征向量、以及所述标题的字特征向量依序进行拼接，以得到拼接特征向量序列。

其中，所述拼接装置703被配置为通过基于所述第一标志位置、所确定的各图像特征向量所对应的图像位置、所述第二标志位置、各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入，以得到嵌入特征向量序列。

位置确定装置704用于确定每个图像特征向量所对应的图像在所述视频中的图像位置，并确定每个字特征向量所对应的字在所述标题中的字位置。具体地，对于每一个图像特征向量，确定其对应于视频中的第几个图像帧，这里的第几个图像帧可以认为是图像位置。对于每一个字特征向量，确定其对应于标题中的第几个字，这里的第几个字可以认为是字位置。

位置嵌入装置705用于基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到嵌入特征向量序列。

另外，除了位置嵌入处理之外，设备700还可以进一步包括：分段嵌入装置707，用于基于所确定的各图像特征向量所对应的分段和各字特征向量所对应的字分段，对所述拼接特征向量序列中的各特征向量进行分段嵌入处理，以更新所述拼接特征向量序列。

或者，分段嵌入装置707也可以用于基于所确定的各图像特征向量所对应的分段和各字特征向量所对应的字分段，对所述嵌入特征向量序列中的各特征向量进行分段嵌入处理，以更新所述嵌入特征向量序列。

标签生成装置706用于基于所述嵌入特征向量序列，生成与所述视频对应的标签以及与所述标签对应的至少一个上层标签。

例如，作为一种可能的实施方式，可以逐字地生成与所述视频对应的标签。具体地，所述标签生成装置706可以进一步被配置为：将所述嵌入特征向量序列提供至变换网络，并得到所述标签的第一个字；生成所述标签的第一个字的字特征向量；基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列；将更新后的嵌入特征向量序列提供至变换网络，并重复利用所得到的各个字的字特征向量来更新所述嵌入特征向量序列，直至得到所述标签的结束标志。

所述变换网络包括编码网络和解码网络，其中所述标签生成装置706通过执行以下处理来得到所述标签的第一个字：将所述嵌入特征向量序列提供至编码网络，并得到对应于标签的第一个字的编码向量；通过解码网络，将对应于标签的第一个字的编码向量解码为第一预测向量，其中在所述第一预测向量中包含对应于字典中的每一个字的概率值；基于所述第一预测向量，确定所述标签的第一个字。

具体来说，所述标签生成装置706可以进一步被配置为通过执行以下处理来基于所述第一预测向量，确定所述标签的第一个字：在所述第一预测向量中，对概率值按照从大到小的顺序进行排序；选择排在前面的预定数量的概率值，并确定对应的预定数量的字作为所述标签的第一个字的候选，并且其中，将所述更新的嵌入特征向量序列提供至所述编码网络，并重复以上处理，直到得到所述标签的结束标志为止，包括：基于第一个字的候选，依次产生其他字的候选；基于所述标签中的各个字的候选，确定预定数量的标签。也就是说，分别将第一个字的每一个候选分别提供至变换网络，并得到第二个字的N个候选。因此，共计得到N*N个第一个字和第二个字的候选。例如，可以基于第一个字的概率和第二个字的概率(例如，二者的乘积)，从这N*N个候选中筛选出组合概率较大的N个第一个字和第二个字的组合，并将其作为已得到的字输入至变换网络，以得到接下来的各个字的候选。最终，可以确定与所述视频对应的N个标签。

所述标签生成装置706进一步被配置为通过执行以下处理来基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列：将所述多个图像帧的图像特征向量、所述标题的字特征向量和所述标签的第一个字的字特征向量进行拼接，以更新所述拼接特征向量序列；基于所确定的各图像特征向量所对应的图像位置、所述标题的各字特征向量所对应的字位置以及所述标签的第一个字的字位置，对所述更新后的拼接特征向量序列中的各特征向量进行位置嵌入处理，以更新所述嵌入特征向量序列。

或者，作为另一种可能的实施方式，所述标签生成装置706进一步被配置为通过执行以下处理来基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列：将所述多个图像帧的图像特征向量、所述标题的字特征向量和所述标签的第一个字的字特征向量进行拼接，以更新所述拼接特征向量序列。然后，基于所确定的各图像特征向量所对应的分段、标题的各字特征向量所对应的字分段以及标签的第一个字所对应的字分段，对所述拼接特征向量序列中的各特征向量进行分段嵌入处理，以更新所述拼接特征向量序列。或者，基于所确定的各图像特征向量所对应的分段、标题的各字特征向量所对应的字分段以及标签的第一个字所对应的字分段，对所述嵌入特征向量序列中的各特征向量进行分段嵌入处理，以更新所述嵌入特征向量序列。

可以看出，在根据本公开实施例的标签生成设备中，通过将输入的不同模态的特征进行深度融合和交互，来生成与视频对应的标签。

除了最终生成与视频对应的标签之外，根据本公开的设备还可以进一步判断视频与标题的语义相似度。例如，如果视频与标题的语义不一致，则可以认为这是所谓的“标题党”或图文不符。

具体来说，所述设备700可以进一步包括：第一确定装置708，被配置为执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为视频向量和一个编码向量作为标题向量；确定所述视频向量与所述标题向量之间的相似度；基于所述相似度，确定所述视频与所述标题是否一致。

例如，作为视频向量的一个编码向量可以是与位于所述多个图像帧的图像特征向量之前的第一标志特征向量对应的编码向量，并且作为标题向量的一个编码向量可以是与位于所述多个图像帧的图像特征向量与所述标题的各个字特征向量之间的第二标志特征向量对应的编码向量。

另外，根据本公开的设备还可以进一步判断所生成的标签与标题的语义相似度。在生成与所述视频对应的多个标签的情况下，可以根据生成的标签与标题的语义相似度，对生成的多个标签进行过滤，以去掉相似度低的标签。

具体来说，所述设备700可以进一步包括：筛选装置709，被配置为执行以下处理：分别针对所述预定数量的标签中的每一个，执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为标题向量和一个编码向量作为标签向量；以及确定所述标题向量与所述标签向量之间的相似度；当最高的相似度大于预定阈值时，确定与该相似度对应的标签作为与视频对应的标签，否则输出指示没有与所述视频对应的标签的信息。

另外，根据本公开的设备还可以进一步利用视频与标签的相似度以及标题与标签的相似度来找到仅通过视频内容生成的标签。

具体来说，所述设备700可以进一步包括：第二确定装置710，被配置为执行以下处理：分别针对所述预定数量的标签中的每一个，执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为视频向量、一个编码向量作为标题向量和一个编码向量作为标签向量；以及确定所述视频向量与所述标题向量之间的相似度，并确定所述视频向量与所述标签向量之间的相似度；当所述视频向量与所述标题向量之间的相似度小于第一阈值且所述视频向量与所述标签向量大于第二阈值时，将该标签确定为仅通过视频内容生成的标签。

所述语义嵌入处理和所述位置嵌入处理通过嵌入网络来完成，并且所述设备700进一步包括：训练装置711，被配置为执行以下处理：通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，其中所述第一训练数据集包括多个第一训练数据，每个第一训练数据包括第一训练视频、与所述第一训练视频对应的第一训练标题以及与所述第一训练视频和所述第一训练标题对应的正确标签。

其中通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，包括：在第一训练数据集中的至少一部分第一训练数据中，针对每一个第一训练数据，执行如下处理：从该第一训练数据的第一训练视频中抽取多个第一训练图像帧，并分别获取多个第一训练图像帧中的每一个的图像特征向量；获取所述第一训练视频所对应的第一训练标题，并分别生成所述第一训练标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量可以具有相同维度；将正确标签中的一个或多个字替换为掩蔽字，以得到掩蔽标签，并分别生成所述掩蔽标签中的每个字的字特征向量，其中所述掩蔽标签中的每个字的字特征向量与每个图像特征向量可以具有相同维度；将所述多个第一训练图像帧的图像特征向量、所述第一训练标题的字特征向量和所述掩蔽标签中的每个字的字特征向量进行拼接，以得到第一训练拼接特征向量序列；确定每个第一训练图像帧的图像特征向量所对应的图像在所述第一训练视频中的图像位置，确定所述第一训练标题中的每个字特征向量所对应的字在所述第一训练标题中的字位置，并确定所述掩蔽标签中的每个字的字特征向量所对应的字在所述掩蔽标签中的字位置；基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述第一训练拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到第一训练嵌入特征向量序列；基于所述第一训练嵌入特征向量序列，生成所述掩蔽标签中的一个或多个掩蔽字；计算所述一个或多个掩蔽字与真实字之间的第一损失函数；至少基于所述第一损失函数，训练所述嵌入网络、所述编码网络和所述解码网络。

具体来说，可以通过以下方式来计算上述三元组损失。首先，在由所述编码网络输出的多个编码向量中选择作为视频向量的一个编码向量、作为标题向量的一个编码向量和作为标签向量的一个编码向量。然后，基于视频向量与对应的标题向量之间的相似度和视频向量与不对应的标题向量之间的相似度以及标题向量与对应的视频向量之间的相似度和标题向量与不对应的视频向量之间的相似度，计算第二损失函数；基于视频向量与对应的标签向量之间的相似度和视频向量与不对应的标签向量之间的相似度以及标签向量与对应的视频向量以及标签向量与不对应视频向量之间的相似度，计算第三损失函数；基于标题向量与对应的标签向量之间的相似度和标题向量与不对应的标签向量之间的相似度以及标签向量与对应的标题向量之间的相似度和标签向量与不对应的标题向量之间的相似度，计算第四损失函数。

并且，其中至少基于所述第一损失函数，训练所述嵌入网络、所述编码网络和所述解码网络，包括：基于第一损失函数、第二损失函数、第三损失函数和第四损失函数之和，训练所述嵌入网络、所述编码网络和所述解码网络。

另外，作为一种可能的实施方式，在通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络之前，进一步包括预训练处理。具体来说，在通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络之前，所述训练装置711进一步被配置为执行以下处理：通过第二训练数据集来训练所述嵌入网络和所述编码网络，其中所述第二训练数据集包括多个第二训练数据，每个第二训练数据包括第二训练视频和与所述第二训练视频对应的第二训练标题。这里，可以看出，第二训练数据集与第一训练数据集的不同之处在于，第二训练数据集是无标签训练数据集。

其中通过第二训练数据集来训练所述嵌入网络和所述编码网络，包括：在第二训练数据集中的至少一部分第二训练数据中，针对每一个第二训练数据，执行如下处理：从该第二训练数据的训练视频中抽取多个第二训练图像帧，并分别获取所述多个第二训练图像帧中的每一个的图像特征向量；获取所述第二训练视频所对应的第二训练标题，并分别生成所述第二训练标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量可以具有相同维度；将所述多个第二训练图像帧的图像特征向量和所述第二训练标题的字特征向量进行拼接，以得到第二训练拼接特征向量序列；确定每个第二训练图像帧的图像特征向量所对应的图像在所述第二训练视频中的图像位置，并确定每个字特征向量所对应的字在所述第二训练标题中的字位置；基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述第二训练拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到第二训练嵌入特征向量序列；以及将所述第二训练嵌入特征向量序列提供至编码网络，并在由所述编码网络输出的多个编码向量中选择作为视频向量的一个编码向量和作为标题向量的一个编码向量；基于视频向量与对应的标题向量之间的相似度和视频向量与不对应的标题向量之间的相似度以及标题向量与对应的视频向量之间的相似度和标题向量与不对应的视频向量之间的相似度，计算第五损失函数；基于所述第五损失函数，训练所述嵌入网络和所述编码网络。

此外，根据本公开实施例的方法或装置也可以借助于图8所示的计算设备800的架构来实现。如图8所示，计算设备800可以包括总线810、一个或多个CPU820、只读存储器(ROM)830、随机存取存储器(RAM)840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备，例如ROM 830或硬盘870可以存储本公开提供的信息处理方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。当然，图8所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图8示出的计算设备中的一个或多个组件。

本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的标签生成方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

另外，本公开的实施例也可以被实现为一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述标签生成方法。

迄今为止，已经参照图1至图8详细描述了根据本公开实施例的标签生成方法、设备和介质。在所述标签生成方法、设备和介质中，支持对视频图像和标题文本的融合学习，通过变换网络进行深度交互，并最终生成标签文本。另外，对于网络的训练过程，在损失函数设计方面，进一步增加了视频与标题之间的三元组损失、视频与标签之间的三元组损失以及标题与标签之间的三元组损失，从而使得由网络生成的标签在语义层面上，尽量与视频或标题接近。并且，考虑到不同模态的特征分布不一致的问题，还可以进一步使用大规模的无标签数据度对网络进行预训练，使得视频特征与文本特征在语义上是一致的。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过软件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于生成与视频对应的标签的方法，包括：

从所述视频中抽取多个图像帧，并分别获取所述多个图像帧中的每一个图像帧的图像特征向量；

获取所述视频所对应的标题，并分别生成所述标题中的每个字的字特征向量；

将所述多个图像帧的图像特征向量和所述标题的字特征向量进行拼接，以得到拼接特征向量序列；

确定每个图像特征向量所对应的图像在所述视频中的图像位置，并确定每个字特征向量所对应的字在所述标题中的字位置；

基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到嵌入特征向量序列；以及

基于所述嵌入特征向量序列，生成与所述视频对应的标签以及与所述标签对应的至少一个上层标签。

2.根据权利要求1所述的方法，其中基于所述嵌入特征向量序列，生成与所述视频对应的标签，包括：

将所述嵌入特征向量序列提供至变换网络，并得到所述标签的第一个字；

生成所述标签的第一个字的字特征向量；

基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列；

将更新后的嵌入特征向量序列提供至变换网络，并重复利用所得到的各个字的字特征向量来更新所述嵌入特征向量序列，直至得到所述标签的结束标志。

3.根据权利要求2所述的方法，其中所述变换网络包括编码网络和解码网络，其中将所述嵌入特征向量序列提供至变换网络，并得到所述标签的第一个字，包括：

将所述嵌入特征向量序列提供至编码网络，并得到对应于标签的第一个字的编码向量；

通过解码网络，将对应于标签的第一个字的编码向量解码为第一预测向量，其中在所述第一预测向量中包含对应于字典中的每一个字的概率值；

基于所述第一预测向量，确定所述标签的第一个字。

4.根据权利要求2所述的方法，其中，基于所述标签的第一个字的字特征向量及其在所述标签中的位置，通过向量拼接来更新所述嵌入特征向量序列，包括：

将所述多个图像帧的图像特征向量、所述标题的字特征向量和所述标签的第一个字的字特征向量进行拼接，以更新所述拼接特征向量序列；

基于所确定的各图像特征向量所对应的图像位置、所述标题的各字特征向量所对应的字位置以及所述标签的第一个字的字位置，对所述更新后的拼接特征向量序列中的各特征向量进行位置嵌入处理，以更新所述嵌入特征向量序列。

5.根据权利要求3所述的方法，进一步包括：

当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为视频向量和一个编码向量作为标题向量；

确定所述视频向量与所述标题向量之间的相似度；

基于所述相似度，确定所述视频与所述标题是否一致。

6.根据权利要求5所述的方法，其中作为视频向量的一个编码向量是与位于所述多个图像帧的图像特征向量之前的第一标志特征向量对应的编码向量，并且作为标题向量的一个编码向量是与位于所述多个图像帧的图像特征向量与所述标题的各个字特征向量之间的第二标志特征向量对应的编码向量。

7.根据权利要求3所述的方法，其中基于所述第一预测向量，确定所述标签的第一个字，包括：

在所述第一预测向量中，对概率值按照从大到小的顺序进行排序；

选择排在前面的预定数量的概率值，并确定对应的预定数量的字作为所述标签的第一个字的候选，

并且其中，将所述更新的嵌入特征向量序列提供至所述编码网络，并重复以上处理，直到得到所述标签的结束标志为止，包括：

基于第一个字的候选，依次产生其他字的候选；

基于所述标签中的各个字的候选，确定预定数量的标签。

8.根据权利要求7所述的方法，进一步包括：

分别针对所述预定数量的标签中的每一个，执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为标题向量和一个编码向量作为标签向量；以及确定所述标题向量与所述标签向量之间的相似度；

当最高的相似度大于预定阈值时，确定与该相似度对应的标签作为与视频对应的标签，否则输出指示没有与所述视频对应的标签的信息。

9.根据权利要求7所述的方法，进一步包括：

分别针对所述预定数量的标签中的每一个，执行以下处理：当得到所述标签的结束标志时，在由所述编码网络输出的多个编码向量中选择一个编码向量作为视频向量、一个编码向量作为标题向量和一个编码向量作为标签向量；以及确定所述视频向量与所述标题向量之间的相似度，并确定所述视频向量与所述标签向量之间的相似度；

当所述视频向量与所述标题向量之间的相似度小于第一阈值且所述视频向量与所述标签向量大于第二阈值时，将该标签确定为仅通过视频内容生成的标签。

10.根据权利要求3所述的方法，其中获取所述图像特征向量和所述字特征向量以及所述位置嵌入处理通过嵌入网络来完成，并且所述方法进一步包括：

通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，其中所述第一训练数据集包括多个第一训练数据，每个第一训练数据包括第一训练视频、与所述第一训练视频对应的第一训练标题以及与所述第一训练视频和所述第一训练标题对应的正确标签，

其中通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，包括：

在第一训练数据集中的至少一部分第一训练数据中，针对每一个第一训练数据，执行如下处理：

从该第一训练数据的第一训练视频中抽取多个第一训练图像帧，并分别获取多个第一训练图像帧中的每一个的图像特征向量；

获取所述第一训练视频所对应的第一训练标题，并分别生成所述第一训练标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；

将正确标签中的一个或多个字替换为掩蔽字，以得到掩蔽标签，并分别生成所述掩蔽标签中的每个字的字特征向量，其中所述掩蔽标签中的每个字的字特征向量与每个图像特征向量具有相同维度；

将所述多个第一训练图像帧的图像特征向量、所述第一训练标题的字特征向量和所述掩蔽标签中的每个字的字特征向量进行拼接，以得到第一训练拼接特征向量序列；

确定每个第一训练图像帧的图像特征向量所对应的图像在所述第一训练视频中的图像位置，确定所述第一训练标题中的每个字特征向量所对应的字在所述第一训练标题中的字位置，并确定所述掩蔽标签中的每个字的字特征向量所对应的字在所述掩蔽标签中的字位置；

基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述第一训练拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到第一训练嵌入特征向量序列；

基于所述第一训练嵌入特征向量序列，生成所述掩蔽标签中的一个或多个掩蔽字；

计算所述一个或多个掩蔽字与真实字之间的第一损失函数；

至少基于所述第一损失函数，训练所述嵌入网络、所述编码网络和所述解码网络。

11.根据权利要求10所述的方法，其中通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络，进一步包括：

在由所述编码网络输出的多个编码向量中选择作为视频向量的一个编码向量、作为标题向量的一个编码向量和作为标签向量的一个编码向量；

基于视频向量与对应的标题向量之间的相似度和视频向量与不对应的标题向量之间的相似度以及标题向量与对应的视频向量之间的相似度和标题向量与不对应的视频向量之间的相似度，计算第二损失函数；

基于视频向量与对应的标签向量之间的相似度和视频向量与不对应的标签向量之间的相似度以及标签向量与对应的视频向量以及标签向量与不对应视频向量之间的相似度，计算第三损失函数；

基于标题向量与对应的标签向量之间的相似度和标题向量与不对应的标签向量之间的相似度以及标签向量与对应的标题向量之间的相似度和标签向量与不对应的标题向量之间的相似度，计算第四损失函数；

并且，其中至少基于所述第一损失函数，训练所述嵌入网络、所述编码网络和所述解码网络，包括：

基于第一损失函数、第二损失函数、第三损失函数和第四损失函数之和，训练所述嵌入网络、所述编码网络和所述解码网络。

12.根据权利要求10所述的方法，其中在通过第一训练数据集来训练所述嵌入网络、所述编码网络和所述解码网络之前，所述方法进一步包括：

通过第二训练数据集来训练所述嵌入网络和所述编码网络，其中所述第二训练数据集包括多个第二训练数据，每个第二训练数据包括第二训练视频和与所述第二训练视频对应的第二训练标题，

其中通过第二训练数据集来训练所述嵌入网络和所述编码网络，包括：

在第二训练数据集中的至少一部分第二训练数据中，针对每一个第二训练数据，执行如下处理：

从该第二训练数据的训练视频中抽取多个第二训练图像帧，并分别获取所述多个第二训练图像帧中的每一个的图像特征向量；

获取所述第二训练视频所对应的第二训练标题，并分别生成所述第二训练标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；

将所述多个第二训练图像帧的图像特征向量和所述第二训练标题的字特征向量进行拼接，以得到第二训练拼接特征向量序列；

确定每个第二训练图像帧的图像特征向量所对应的图像在所述第二训练视频中的图像位置，并确定每个字特征向量所对应的字在所述第二训练标题中的字位置；

基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述第二训练拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到第二训练嵌入特征向量序列；以及

将所述第二训练嵌入特征向量序列提供至编码网络，并在由所述编码网络输出的多个编码向量中选择作为视频向量的一个编码向量和作为标题向量的一个编码向量；

基于视频向量与对应的标题向量之间的相似度和视频向量与不对应的标题向量之间的相似度以及标题向量与对应的视频向量之间的相似度和标题向量与不对应的视频向量之间的相似度，计算第五损失函数；

基于所述第五损失函数，训练所述嵌入网络和所述编码网络。

13.一种用于生成与视频对应的标签的设备，包括：

第一语义嵌入装置，用于从所述视频中抽取多个图像帧，并分别获取所述多个图像帧中的每一个图像帧的图像特征向量；

第二语义嵌入装置，用于获取所述视频所对应的标题，并分别生成所述标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；

拼接装置，用于将所述多个图像帧的图像特征向量和所述标题的字特征向量进行拼接，以得到拼接特征向量序列；

位置确定装置，用于确定每个图像特征向量所对应的图像在所述视频中的图像位置，并确定每个字特征向量所对应的字在所述标题中的字位置；

位置嵌入装置，用于基于所确定的各图像特征向量所对应的图像位置和各字特征向量所对应的字位置，对所述拼接特征向量序列中的各特征向量进行位置嵌入处理，以得到嵌入特征向量序列；以及

标签生成装置，用于基于所述嵌入特征向量序列，生成与所述视频对应的标签以及与所述标签对应的至少一个上层标签。

14.一种用于生成与视频对应的标签的设备，包括：

存储器，用于在其上存储计算机程序；

处理器，用于当执行所述计算机程序时，执行以下处理：

获取所述视频所对应的标题，并分别生成所述标题中的每个字的字特征向量，其中每个字特征向量与每个图像特征向量具有相同维度；

15.一种计算机可读介质，其上存储有计算机程序，当由处理器执行所述计算机程序时，执行如权利要求1到12中任意一项所述的方法。