CN115544303A

CN115544303A - 用于确定视频的标签的方法、装置、设备及介质

Info

Publication number: CN115544303A
Application number: CN202211216791.2A
Authority: CN
Inventors: 李炜棉; 裴仁静; 许松岑
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-30
Also published as: WO2024067276A1

Abstract

本公开的实施例提供了用于确定视频的标签的方法、装置及设备，涉及人工智能领域。在本公开的用于确定视频的标签的方法中，首先基于多个视频的文本信息构建用于标记视频的关键词词库。然后确定待标记的目标视频的视频信息，视频信息至少包括目标视频的文本信息。之后根据目标视频的文本信息，确定目标视频的视频特征。接着根据视频特征，从关键词词库中确定至少一个关键词作为目标视频的标签。由此，通过从多个视频挖掘的关键词对目标视频进行自动标注，无需人工标注，同时提升了标注效率和准确率。

Description

用于确定视频的标签的方法、装置、设备及介质

技术领域

本公开的实施例主要涉及人工智能领域，更具体地，涉及用于确定视频的标签的方法、装置、设备及介质。

背景技术

视频标签是指用一组关键词对视频进行标注，好的标签可以让视频被更精准地分发，同时增加视频被搜索和展示的几率，从而获得更多曝光。在视频推荐、视频检索、视频投放等领域，视频标签决定着这些应用的准确度。例如在视频推荐领域，可以根据视频标签有效地向用户推荐视频，在视频检索领域，视频标签可直接决定检索结果的准确性。随着各种视频平台和短视频的发展，网络上充斥着海量的视频，如何对这些视频进行高效和准确的标注，成为需要解决的问题。

发明内容

本公开的实施例提供了一种用于确定视频的标签的方案。

在本公开的第一方面，提供了一种用于确定视频的标签的方法。该方法包括：基于多个视频的文本信息构建用于标记视频的关键词词库；确定待标记的目标视频的视频信息，视频信息至少包括目标视频的文本信息；基于目标视频的文本信息，确定目标视频的视频特征；以及基于视频特征，从关键词词库中确定至少一个关键词作为目标视频的标签。根据本公开的实施例，通过从多个视频挖掘的关键词对目标视频进行自动标注，无需人工标注，同时提升了标注效率和准确率。

在第一方面的一种实现方式中，基于多个视频构的文本信息建用于标记视频的关键词词库包括：通过网络获取多个视频；提取多个视频中的第一视频的第一文本信息；以及至少基于第一文本信息，构建关键词词库。。以此方式，可以通过从网络上抓取的视频中的信息构建关键词词库，使得词库中的关键词与视频相关性较高且具有时效性，从而为后续确定标签打下基础。

在第一方面的又一种实现方式中，至少基于第一文本信息和音频信息，构建关键词词库包括：将音频信息转换为第二文本信息；对第一文本信息和第二文本信息进行解析，以确定文本信息中的语段；以及基于语段构建关键词词库。以此方式，可以通过挖掘视频中的各种信息来构建关键词词库，使得词库中的关键词类型丰富，以实现后续更准确的标签匹配。

在第一方面的又一种实现方式中，基于语段构建关键词词库包括：提取语段中的关键词；确定所提取的每个关键词在多个视频的多个关键词中出现的频率；从多个关键词中确定一组初始关键词，一组初始关键词中的每个关键词的频率大于第一阈值频率且小于第二阈值频率；以及将一组初始关键词存储在关键词词库中。以此方式，将频率较高的无实体意义的关键词和频率较低的冷僻的关键词剔除，利用实体意义的、常用的中间频率构建词库，可以减少后续标签匹配的计算量并且实现更准确的标签匹配。

在第一方面的又一种实现方式中，视频信息还包括音频信息和图像信息，确定待标记的目标视频的视频特征包括：使用预先训练的音频模型确定音频信息的音频特征；使用预先训练的文本模型确定文本信息的文本特征；使用预先训练的图像模型确定图像信息的图像特征；以及通过将音频特征、文本特征和图像特征进行融合，来确定视频特征。以此方式，通过挖掘视频的多模态信息，可以准确地确定视频特征，从而为后续匹配视频标签打下基础。

在第一方面的又一种实现方式中，通过将音频特征、文本特征和图像特征进行融合，来确定视频特征包括：使用预先训练的融合模型中的掩码模块对音频特征、文本特征和图像特征进行掩码，以获得经掩码的音频特征、经掩码的文本特征和经掩码的图像特征，其中掩码模块被配置为从音频特征、文本特征和图像特征中标识与目标视频不匹配的非相关特征，；以及使用融合模型对经掩码的音频特征、经掩码的文本特征和经掩码的图像特征进行融合，以确定视频特征。以此方式，通过对不相关的特征进行掩码，从而实现不同模态特征的过滤，提升最终关键词匹配精度。

在第一方面的又一种实现方式中，基于视频特征，从关键词词库中确定至少一个关键词作为目标视频的标签包括：使用预先训练的文本模型确定一组关键词的一组关键词特征，一组关键词是关键词词库中的关键词的集合；以及基于视频特征和一组关键词特征，从一组关键词中确定至少一个关键词作为目标视频的标签。以此方式，通过文本预训练模型确定关键词特，为后续关键词匹配打下基础。

在第一方面的又一种实现方式中，从一组关键词中确定至少一个关键词作为目标视频的标签包括：通过第一特征映射层，将一组关键词特征映射为一组第一关键词特征；通过第二特征映射层，将视频特征映射为第一视频特征，一组第一关键词特征中的每个第一关键词特征所在特征空间与第一视频特征所在特征空间之间的空间差异小于关键词特征所在特征空间与视频特征所在特征空间之间的空间差异；以及基于第一视频特征和一组第一关键词特征，确定与目标视频相匹配的至少一个关键词作为目标视频的标签。以此方式，将融合的多模态特征与文本特征映射到更接近的空间下进行度量，有利于提升后续特征匹配的准确度。

在第一方面的又一种实现方式中，基于第一视频特征和一组第一关键词特征，确定目标视频的标签包括：通过第三特征映射层，分别将一组第一关键词特征和第一视频特征映射为一组第二关键词特征和第二视频特征，一组第二关键词特征中的每个第二关键词特征所在特征空间与第二视频特征所在特征空间之间的空间差异小于第一关键词特征所在特征空间与第一视频特征所在特征空间之间的空间差异；基于第二视频特征和一组第二关键词特征，确定与目标视频匹配的至少一个关键词作为目标视频的标签。以此方式，将融合的多模态特征与文本特征映射到同构空间下进行度量，有利于进一步提升后续特征匹配的准确度。

在第一方面的又一种实现方式中，基于第二视频特征和一组第二关键词特征，确定目标视频的标签包括：确定视频特征与一组关键词中的每个关键词的第二关键词特征之间的匹配度；从一组关键词中确定至少一个关键词，至少一个关键词的第二关键词特征与视频特征之间的匹配度大于阈值匹配度；以及将至少一个关键词确定作为目标视频的标签。以此方式，通过匹配度筛选关键词，可以提升视频标注的准确性。

在第一方面的又一种实现方式中，方法还包括基于作为目标视频的标签的至少一个关键词，对关键词词库进行更新。以此方式，利用确定作为标签的关键词进一步对关键词词库进行更新，可以将更加准确的关键词保留在词库中，通过不断迭代更新，可以显著提升视频标注的准确性。

在第一方面的又一种实现方式中，方法还包括：获取目标视频作为样本视频；获取目标视频的标签作为样本标签；将样本视频、样本标签、关键词词库应用于标签模型，以确定样本视频的预测标签，其中标签模型包括；以及基于样本标签和预测标签之间的误差，来更新标签模型的参数值。以此方式，将目标视频和已经确定的标签作为样本对模型进行迭代训练，可以不断拉近视频特征和作为标签的关键词特征之间的距离，使得模型鲁棒性更强，进而提升模型对视频标注的准确性。

在第一方面的又一种实现方式中，标签模型包括音频模型、文本模型、图像模型、融合模型、第一特征映射层、第二特征映射层和第三特征映射层中的一项或多项。以此方式，可以灵活地选择对模型中的一个或多个子模型的训练。

在本公开的第二方面，提供了一种用于确定视频的标签的装置。该装置包括：词库构建模块，被配置为基于多个视频构建用于标记视频的关键词词库；目标视频特征确定模块，被配置为确定待标记的目标视频的视频特征；以及视频标签模块，被配置为基于视频特征，从关键词词库中确定至少一个关键词作为目标视频的标签。确定视频的标签的装置可以包括用于实现如上述第一方面或第一方面的任意一种可能的实现方式中的方法的功能模块。

在本公开的第三方面，提供了一种电子设备。该电子设备包括：至少一个计算单元；至少一个存储器，至少一个存储器被耦合到至少一个计算单元并且存储用于由至少一个计算单元执行的指令，指令当由至少一个计算单元执行时，使得设备执行第一方面或者第一方面中的任意一种实现方式中的方法。

在本公开的第四方面，提供了一种计算机可读存储介质。计算机可读存储介质存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现第一方面或者第一方面中的任意一种实现方式中的方法。

在本公开的第五方面，提供一种计算机程序产品。计算机程序产品包括计算机可执行指令，计算机可执行指令在被处理器执行时，使计算机执行第一方面或者第一方面中的任意一种实现方式中的方法的部分或全部步骤的指令。

可以理解地，上述提供的第二方面的用于确定视频的标签的装置、第三方面的电子设备、第四方面的计算机存储介质或者第五方面的计算机程序产品均用于实现第一方面所提供的方法。因此，关于第一方面的解释或者说明同样适用于第二方面、第三方面、第四方面和第五方面。此外，第二方面、第三方面、第四方面和第五方面所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

本发明的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的确定视频的标签的过程的流程图；

图3示出了根据本公开的一些实施例的构建关键词词库的过程的流程图；

图4示出了根据本公开的一些实施例的确定视频的视频特征的过程的示意图；

图5示出了根据本公开的一些实施例的匹配关键词和目标视频的过程的示意图；

图6示出了根据本公开的一些实施例的标签模型的示意图；

图7示出了根据本公开的一些实施例的确定视频的标签的流程的示意图；

图8示出了根据本公开的一些实施例的用于确定视频的标签的装置的框图；以及

图9示出了可以用来实施本公开的实施例的示例设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和使用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代，直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。经训练的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在使用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

如上文所提及的，需要一种对视频进行高效和准确的标注的解决方案。目前存在一些对视频打标签的方法：(1)方案一：首先会利用视频数据库中的已标注视频数据，训练相似视频检索模型；然后对于待处理的未标注视频，使用该模型为该待处理视频在视频数据库中匹配最相似的视频；之后将相似视频的标签作为该视频的标签。(2)方案二：对于待处理的未标注视频，首先根据已有标签在视频数据库中查找最相似的视频，然后将相似视频包含的标签中的、该视频所没有的标签作为该视频的补充标签。(3)方案三：对于待处理的未标注视频，首先在视频数据库中找到若干相似视频，然后将这些相似视频的标签作为待处理视频的候选标签，之后通过用户交互的方式从候选标签中确定待处理视频的最终标签。请注意，前述三种方案不应该视为针对本公开的现有技术。

针对上述方案可能存在如下问题中的至少一些问题：(1)方案一依赖视频数据库，并且需要已有的视频标签和相似性标注来训练相似检索模型，而上述标注需要人工标注，标注的人力和时间成本较大。此外，由于视频具有显著的时效性特点，即热门的视频内容类型会随着时间发生快速的变化，而该技术方案在面对新的视频内容时，往往会因为在视频数据库中找不到与之相似的视频而失效，此时需要人工标注重新介入。(2)方案二的缺陷与方案一类似，其依赖于人工标注，且同样无法解决时效性的问题。(3)方案三的缺陷与方案一和方案二类似，其依赖于人工标注，且同样无法解决时效性的问题，此外方案三中确定标签还依赖用户的主观判断。

根据本公开的实施例，提出了一种改进的确定视频的标签的方案。针对传统方案中依赖于人工标注和标签时效性的问题，本方案引入有海量视频构建的关键词词库，该词库通过自动挖掘多个视频而被构建，可以不断利用新视频构建词库，解决了时效性问题。之后通过匹配词库中的关键词和待标记的目标视频来为确定目标视频的标签。该方案不依赖于人工标注，可以准确地确定视频的标签，实现视频标签的自动标注。

下文将参考附图来详细讨论本公开的示例实施例。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。应当理解，图1所示的环境100仅仅是本公开的实施例可实现于其中的一种示例，不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。

如图1所示，系统100可以包括计算设备120。计算设备120可以被配置为接收待标记的目标视频110。计算设备120基于目标视频110生成目标视频110的标签。具体地，计算设备120可以通过模型140和关键词词库150来目标视频110的标签。在一些实施例中，计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产品、小型计算机、大型计算机、云计算资源等。

在本公开中，模型140可以包括各种不同类型的模型或者模块，其被设计用于执行与确定目标视频110的标签相关联的各种类型的任务。在一些实施例中，模型140可以包括音频模型、文本模型、图像模型、融合模型、第一特征映射层、第二特征映射层和第三特征映射层中的一项或多项。将在下文具体描述上述所列举的模型的应用。模型140的示例包括但不限于各类深度神经网络(DNN)、卷积神经网络(CNN)、支持向量机(SVM)、决策树、随机森林模型等等。在本公开的实现中，模型也可以被称为“神经网络”、“学习模型”、“学习网络”、“模型”和“网络”，其在本文中可替换地使用。

模型140可以被构建为学习网络，该学习网络可以包括多个网络，其中每个网络可以是一个多层神经网络，其可以由大量的神经元组成。通过训练过程，每个网络中的神经元的相应参数能够被确定。这些网络中的神经元的参数被统称为模型140的参数。模型240的训练过程可以以迭代方式来被执行，直至模型140的参数中的至少部分参数收敛或者直至达到预定迭代次数，由此获得最终的模型参数。在一些实施例中，模型140中的一个或多个模型可以是预先训练的。备选地，在一些其他实施例中，可以将目标视频和其标签作为样本对模型140中的一个或多个模型进行迭代训练。

计算设备120还可以根据多个视频160，例如从互联网中获取的海量网络视频数据，根据预定的规则来构建关键词词库150。关键词词库150由最“流行”的关键词组成，这些关键词可以被随后匹配作为目标视频110的标签。关键词词库140可以被不断地迭代更新。在一些实施例中，可以根据确定作为目标标签的关键词来更新关键词词库140。备选地，在一些其他实施例中，还可以根据从网络中抓取的最新视频更新关键词词库140。附加地或者备选地，可以利用作为目标标签的关键词和最新视频更新关键词词库140。具体过程将在下文进行描述。

应当理解，环境100中所包括的这些装置和/或装置中的单元仅是示例性的，而不旨在限制本公开的范围。应当理解的是，环境100还可以包括未示出的附加装置和/或单元。为了更清楚地解释上述方案的原理，下文将参考图2至图5图来更详细描述用于确定视频的标签的过程。

图2示出了根据本公开的一些实施例的用于确定视频的标签的过程200的流程图。过程200例如可以由图1中的计算设备120实施。为了方便描述，以下将参考图1来描述过程200。在框210，计算设备120基于多个视频文本信息构建用于标记视频的关键词词库。例如计算设备120可以每隔一段时间从互联网获取最新和最热门的海量视频以用于关键词词库的构建。以一个视频处理为例，计算设备120可以首先提取该视频中的文本信息，然后根据该文本信息构建关键词词库。备选地，计算设备120还可以获取音频信息，然后将音频信息转换为文本信息，从而构建关键词词库。以此方式，可以通过从网络上抓取的视频中的信息构建关键词词库，使得词库中的关键词与视频相关性较高且具有时效性，从而为后续确定标签打下基础。

在一些实施例中，计算设备120可以获取视频的标题、字幕等作为文本信息。计算设备120还可以获取视频的音频信息，然后利用自动语音识别技术(Automatic SpeechRecognition，ASR)将音频信息转换为本文信息。之后计算设备120可以对从视频的不同方面提取的文本信息进行解析，例如利用光学字符识别技术(Optical CharacterRecognition,OCR)对文本信息进行识别，从而确定文本信息中的多个语段。例如，对于汽车介绍视频，计算设备120可以从字幕中解析出如下语段“布加迪汽车是XX公司旗下的汽车品牌”，还可以从视屏作者的语音信息中解析出如下语段“布加迪的跑车非常注重汽车的细节和平衡”，还可以从标题中解析出以下语段“半亿售罄最后的希望”等。请注意，上述仅仅是示例性的，还可以从与视频相关的任何模态的信息中提取用于讲述视频内容的语段，本公开在此不做限制。以此方式，可以通过挖掘视频中的各种信息来构建关键词词库，使得词库中的关键词类型丰富，以实现后续更准确的标签匹配。

计算设备120之后可以根据上述确定的语段进行关键词词库150的构建。将结合图3进行描述。图3示出了根据本公开的一些实施例的用于构建关键词词库的过程的流程图300。在框310，计算设备120提取语段中的关键词。计算设备120可以利用合适的分词模型或者分词算法将上述确定的语段分割为至少一个分词。例如：将“布加迪汽车是XX公司旗下的汽车品牌”分割为“布加迪”、“是”、“XX公司”、“旗下”、“的”、“汽车品牌”。在一些实施例中，可以设置分词的粒度，例如每个词不能超过四个字符。备选地，在一些实施例中，可以直接将一个字符的分词移除，例如，没有实体意义的分词“是”、“的”可以被移除，由此可以减少后续计算量，节约计算资源。也可以采用其他分词方式对上述语段进行分词处理，本公开对分词方式不做限制。

在框320，计算设备120确定所提取的每个关键词在多个视频的多个关键词中出现的频率。可以理解，计算设备120可以从多个视频160的多个语段中分割出多个关键词，其中存在重复的关键词。计算设备120可以统计每个关键词的词频，即每个词在多个词中出现的频率。例如统计得到10000个关键词，这10000个关键词在这些语段中出现的频率不同。其中，“首先”出现的频率为50％，“汽车”出现的频率为30％，“性能”出现的频率为10％，“保养”出现的频率为10％，“火花塞”出现的频率为3％等。

在框330，计算设备120从多个关键词中确定一组初始关键词，一组初始关键词中的每个关键词的频率大于第一阈值频率且小于第二阈值频率。例如，计算设备120可以根据上述统计结果，筛选出一组初始关键词。例如第一阈值频率可以是8％，第二阈值频率可以是50％，计算设备120可以将频率在大于8％并且小于50％的关键词确定为一组关键词。以此方式“首先”这种高频无实体意义的关键词以及“火花塞”这种低频冷僻的词汇被剔除。计算设备120例如根据该频率从10000个关键词中确定8000个关键词以构建关键词词库。以此方式，将频率较高的无实体意义的关键词和频率较低的冷僻的关键词剔除，利用实体意义的、常用的中间频率构建词库，可以减少后续标签匹配的计算量并且实现更准确的标签匹配。

在框340，计算设备120将一组初始关键词存储在关键词词库中。例如，计算设备120将该组关键词词汇作为初始关键词存储在词库中以用于后续目标视频110的标签的确定。在构建关键词词库160之后，计算设备120接着确定目标视频110的视频特征。

回到图2进行描述。在框220，计算设备120确定待标记的目标视频110的视频信息，视频信息至少包括目标视频110的文本信息。例如，计算设备120可以提取目标视频110中的字幕、目标视频110的标题等作为文本信息。可以理解，为了后续更精准地确定视频的特征，计算设备120还可以根据确定诸如图像信息和音频信息等，这将在下文进行详细阐述。

在框230，计算设备120基于目标视频的文本信息确定待标记的目标视频110的视频特征。例如计算设备120可以模型140中的预先训练的文本模型确定文本信息的文本特征，然后将该文本特征作为目标视频的视频特征。在视频信息包括图像信息和音频信息时，计算设备120还可以利用模型140中的使用预先训练的音频模型确定音频信息的音频特征，利用模型140中的预先训练的图像模型确定图像信息的图像特征。然后通过将音频特征、文本特征和图像特征进行融合，来确定视频特征。

在一些实施例中，计算设备120可以获取视频的多个图像帧作为图像信息，然后将多个图像帧应用于图像模型以确定多个图像特征。计算设备120可以获取视频的音频，然后将音频帧应用于音频模型以确定音频特征。计算设备120可以获取与视频相关的文本，例如字幕、标题等，然后将文本用于文本模型以确定文本特征。文本模型可以是双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)、基于卷积神经网络的文本分类TextCNN、TextRCNN等，本公开对此不做限制。然后，计算设备120可以将上述特征进行融合以确定视频特征。以此方式，通过挖掘视频的多模态信息，可以准确地确定视频特征，从而为后续匹配视频标签打下基础。

备选地，在一些实施例中，计算设备120还可以在融合图像、音频和文本特征进行融合之前进行模态相关性分析以移除不相关特征。可以理解，目标视频110的各个模态中往往存在模态不相关的情况。例如视频中常见的与视频内容不相关的背景音乐，或者与视频内容不匹配的文字内容等。这些都会引入噪声，从而影响视频特征的确定。需要对这些特征进行掩码，将结合图4进一步描述，图4示出了根据本公开的一些实施例的确定视频的视频特征的过程400的示意图。

在框410，计算设备120使用预先训练的融合模型中的掩码模块对音频特征、文本特征和图像特征进行掩码，以获得经掩码的音频特征、经掩码的文本特征和经掩码的图像特征，其中掩码模块被配置为从音频特征、文本特征和图像特征中标识与目标视频不匹配的非相关特征。计算设备120可以通过融合模型中的掩码模块从多模态特征中剔除不相关特征，例如，在一段仅有字幕和音频的视频中，为黑色图像的各个图像帧可以被确定为不相关特征；或者在一段喜剧视频中配有一些哀伤的音乐，这些音乐也可以确定为不相关特征。计算设备120可以对这些特征进行掩码，从而使其所表征的特征在后续特征融合中不被适用。以此方式，通过对不相关的特征进行掩码，从而实现不同模态特征的过滤，提升最终关键词匹配精度。

在框420，计算设备120使用融合模型对经掩码的音频特征、经掩码的文本特征和经掩码的图像特征进行融合，以确定视频特征。例如，计算设备120可以将经过模态相关性分析的多模态特征进行拼接，然后将拼接的特征作为输入提供给合适的Transformer模型进行特征融合,从而使得目标视频110在图像、音频、语义等模态上的信息表示相互融合，从而获得更准确的视频特征表示。在确定视频特征之后，计算设备120接着对关键词词库中的关键词和视频进行匹配。

回到图2进行描述。在框240，计算设备120基于视频特征，从关键词词库150中确定至少一个关键词作为目标视频110的标签。计算设备120可以首先使用预先训练的文本模型确定一组关键词的一组关键词特征，然后基于视频特征和一组关键词特征，从一组关键词中确定至少一个关键词作为目标视频的标签。请注意，在本文中，“一组关键词”是指关键词粗库中的关键词的集合，其可以是关键词库中的关键词的一部分或者全部。本公开在此不做限制。

在一些实施例中，计算设备120可以确定关键词词库中所有关键词的特征，例如上述8000个初始关键词的特征，然后将与视频特征相匹配的关键词作为目标视频的标签。备选地，在一些实施例中，计算设备120可以根据视频的分类首先从词库中确定一组关键词，例如确定视频为汽车类视频，则从8000个词中进一步挑选出5000个词进行匹配。

可以理解的是，上述视频特征为多种模态融合的特征，该特征所属的特征空间可能与关键词特征所属的特征空间存在较大差异。在进行匹配前，可以将多模态的视频特征与单模态的关键词特征映射到同构空间下进行度量。将结合图5进行描述，图5示出了根据本公开的一些实施例的匹配关键词和目标视频的过程500的示意图。

在框510，计算设备120通过第一特征映射层，将一组关键词特征映射为一组第一关键词特征。这里特征映射层可以由多层感知器(Multi-Layer Perceptron,MLP)实现。其可以将特征向量映射到不同的空间中。在框520，计算设备120通过第二特征映射层，将视频特征映射为第一视频特征，其中一组第一关键词特征中的每个第一关键词特征所在特征空间与第一视频特征所在特征空间之间的空间差异小于关键词特征所在特征空间与视频特征所在特征空间之间的空间差异。例如，计算设备120分别将视频特征和关键词特征作为两个MLP的输入，所输出的特征之间的空间差异被缩小，从而使得后续特征之间的匹配更加精准。

在框530，计算设备120通过第三特征映射层，分别将一组第一关键词特征和第一视频特征映射为一组第二关键词特征和第二视频特征，一组第二关键词特征中的每个第二关键词特征所在特征空间与第二视频特征所在特征空间之间的空间差异小于第一关键词特征所在特征空间与第一视频特征所在特征空间之间的空间差异。例如，在分别经过不同的MLP之后，在空间上被拉近的视频特征和关键词特征可以经过一个共享的MLP以被映射到同构空间，这有利于后续的标签匹配。

在框540，计算设备120基于第二视频特征和一组第二关键词特征，确定与目标视频匹配的至少一个关键词作为目标视频的标签。例如，计算设备120可以确定视频特征与一组关键词中的每个关键词的第二关键词特征之间的匹配度。然后从一组关键词中确定至少一个关键词，该至少一个关键词的第二关键词特征与视频特征之间的匹配度大于阈值匹配度。之后将所匹配的至少一个关键词确定作为目标视频的标签。

在一个示例中，参见表1，计算设备120可以接收多个目标视频，例如7个，然后将该7个目标视频的视频特征分别与7个关键词的关键词特征进行匹配。表1中的0指示视频和关键词之间的匹配度小于阈值匹配度，1指示视频和关键词之间的匹配度大于阈值匹配度。则计算设备120可以将关键词1作为视频1的标签、关键词2、3作为视频2的标签…等。请注意，上述数字仅仅是示例性的，其不旨在限制本公开的范围。

表1

是否匹配	关键词1	关键词2	关键词3	关键词4	关键词5	关键词6	关键词7
								视频1	1	0	0	0	0	0	0
视频2	0	1	1	0	0	0	0
								视频3	0	1	0	0	0	0	0
视频4	0	1	1	0	1	0	0
								视频5	0	0	0	1	1	0	0
视频6	0	0	0	0	0	1	1
								视频7	0	0	0	0	0	1	0

上面描述了如何为目标视频确定标签。可以理解，上面确定的关键词词库中的初始关键词仅仅是根据与多个视频相关的文本信息确定的关键词语段，其不一定适合作为视频的标签。可以进一步根据确定作为标签的关键词来对关键词词库进行更新。

在一些实施例中，计算设备120基于作为目标视频的标签的至少一个关键词，对关键词词库进行更新。例如，计算设备120首先确定多个视频160中的一个或多个视频的标签。然后对将根据如上方法被确定作为标签的关键词进行词频统计。计算设备120确定所提取的每个关键词在多个视频的多个关键词中出现的频率。例如，继续以上文描述的汽车视频作为示例，计算设备120可以根据词频重新确定“性能解说”、“配置信息”、“汽车展示”、“汽车介绍”等作为新的关键词词库。可以看出，与上文从视频的文本信息确定的关键词相比，更新后的关键词词库中的关键词更适合作为标签。

可以理解，对于从网络中获取的多个视频，经过多次标签确定和关键词更新过程，关键词词库中的关键词将相对稳定，且这些关键词适于作为视频的标签。可以每隔一段时间获取最新、最流行的视频进行关键词词库的构建，这使得关键词词库具有时效性，从而使得视频的标签具有时效性。这有利于随后的视频检索、视频推荐等方面。此外，上述过程无需人工介入，减少了人工成本。

根据本公开的各个实施例，通过高效利用海量网络视频，挖掘视频信息中的文本信息构成关键词词库，然后通过融合多模态视频特征与关键词词库中的关键词特征进行匹配，可以实现视频关键词的自动标注而无需人工介入。此外，通过海量视频中的关键词不断对关键词词库进行更新，使得视频的标签与最新的和最流行的关键词相关联，解决了时效性问题。上文描述了标签的确定和关键词词库的构建和更新，下面描述与确定标签相关联的模型的训练。

图6示出了根据本公开的一些实施例的标签模型600的示意图。如图6所示，标签模型可以包括音频模型620、文本模型630、图像模型610、掩码模块640，融合模型650、第一特征映射层660、第二特征映射层670和第三特征映射层680中的一项或多项。其中掩码模块640可以被包括在融合模型650中，了清楚起见，将其示出为单独的模块。可以利用任何合适的网络结构来实现标签模型600中的一个或多个模型，包括但不限于支持向量机(SVM)模型，贝叶斯模型，随机森林模型，各种深度学习/神经网络模型，诸如卷积神经网络(CNN)、循环神经网络(RNN)、深度神经网络(DNN)、深度强化学习网路(DQN)等。本公开的范围在此方面不受限制。

首先描述模型的应用过程，可以首先待标记的目标视频110应用于图像模型610、音频模型620和文本模型630来确定其图像特征V、音频模型A和文本模型T。如虚线框642所示，分别以不同的图形形状正方形、圆形和三角形表示图像特征V、音频模型A和文本模型T，其中每个图形形状可以是token，其可以与图像帧、音频帧或者分词相对应。然后将图像特征V、音频模型A和文本模型T应用于掩码模块以获得经掩码的图像特征V’、音频模型A’和文本模型T’，如虚线框644所示。其中一些图形形状被填充为黑色实心。这表示与这些图形形状相对应的图像帧、音频帧或者分词与视频不相关。

然后可以将经掩码的图像特征V’、音频模型A’和文本模型T’应用于融合模型以获得经融合的特征。经融合的特征经过第二特征层和共享的第三特征层的处理后与一组关键词本文特征经过第一特征层和共享的第三特征层的处理后通过关键词匹配模型进行匹配(例如参见上文中的表1)以确定与目标视频110匹配的关键词。

下面描述上述模型的训练过程。在一些实施例中，计算设备120可以获取目标视频作为样本视频，并且获取目标视频的标签作为样本标签，然后利用样本视频和样本标签来训练上述模型。计算设备120可以将样本视频、样本标签、关键词词库应用于标签模型600，以确定样本视频的预测标签。之后，计算设备120根据样本标签和预测标签之间的误差，来更新标签模型600中的一个或多个模型的参数值(例如，权重和偏置等)，以实现目标视频与相关关键词之间的距离更接近。可以理解，通过不断重复上述训练过程，可以实现模型预测的准确率增加。此外，可以理解，模型的训练可以是整个标签模型的端到端的训练，还可以是标签模型中的子模型的训练，本公开在此不做限制。跟本公开的上述训练过程，无需人工标注，仅需要根据更新的关键词词库和所确定的标签不断迭代训练，从而实现视频标签的自动确定。

图7示出了根据本公开的一些实施例的确定视频的标签的流程的示意图。如图7所示，针对从网络中获取的视频710，首先按照上文描述的方法对视频进行解析以确定如框720中所示的关键词“布加迪”、“汽车”、“性能解说”和“配置信息”作为关键词词库150中的一组初始关键词。出于简洁目的，图中仅出示了一个视频，但可以理解，存在海量视频以构建关键词词库。

针对该视频710应用上文描述的模态相关性分析732(掩码处理)、多模态特征融融合734和关键词匹配736以确定视频710的标签，例如如框740所示“性能解说”、“配置信息”、“汽车展示”和“汽车介绍”。如上文所描述的，可以利用上述确定为标签的关键词“性能解说”、“配置信息”、“汽车展示”和“汽车介绍”来更新关键词词库150。还可以利用该视频710作为样本视频、利用关键词“性能解说”、“配置信息”、“汽车展示”和“汽车介绍”作为样本标签来训练模型。通过多次迭代和更新，关键词词库中的关键词逐渐趋于稳定且模型收敛。可以看出，上述过程无需人工介入且预测准确率较高。

图8示出了根据本公开的一些实施例的用于确定视频的标签的装置800的示意性框图。装置800可以被实现为或者被包括在图1的确定视频的计算设备120中。

装置800可以包括多个模块，以用于执行如图2中所讨论的过程200中的对应步骤。如图8所示，装置800包括词库构建模块810，被配置为基于多个视频的文本信息构建用于标记视频的关键词词库；视频信息提取模块820，被配置为确定待标记的目标视频的视频信息，所述视频信息至少包括所述目标视频的文本信息；目标视频特征确定模块830，被配置为基于所述目标视频的文本信息，确定目标视频的视频特征；以及视频标签模块840，被配置为基于视频特征，从关键词词库中确定至少一个关键词作为目标视频的标签。

在一些实施例中，词库构建模块810可以包括：视频获取模块，被配置为通过网络获取多个视频；第一文本提取模块，被配置为提取多个视频中的第一视频的第一文本信息；以及第一词库生成模块，被配置为至少基于第一文本信息和音频信息，构建关键词词库。

在一些实施例中，第一词库生成模块可以包括：第一音频提取模块，被配置为提取第一视频的音频信息；音频转换模块，被配置为将音频信息转换为第二文本信息；文本解析模块，被配置为对第一文本信息和第二文本信息进行解析，以确定文本信息中的语段；以及第二词库生成模块，被配置为基于语段构建关键词词库。

在一些实施例中，第二词库生成模块可以包括：关键词提取模块，被配置为提取语段中的关键词；频率确定模块，被配置为确定所提取的每个关键词在多个视频的多个关键词中出现的频率；关键词筛选模块，被配置为从多个关键词中确定一组初始关键词，一组初始关键词中的每个关键词的频率大于第一阈值频率且小于第二阈值频率；以及关键词存储模块，被配置为将一组初始关键词存储在关键词词库中。

在一些实施例中，视频信息还包括音频信息和图像信息，目标视频特征确定模块830可以包括：音频特征确定模块，被配置为使用预先训练的音频模型确定音频信息的音频特征；文本特征确定模块，被配置为使用预先训练的文本模型确定文本信息的文本特征；图像特征确定模块，被配置为使用预先训练的图像模型确定图像信息的图像特征；以及第一特征融合模块，被配置为通过将音频特征、文本特征和图像特征进行融合，来确定视频特征。

在一些实施例中，第一特征融合模块可以包括：模态相关性分析模块，被配置为使用预先训练的融合模型中的掩码模块对音频特征、文本特征和图像特征进行掩码，以获得经掩码的音频特征、经掩码的文本特征和经掩码的图像特征，其中掩码模块被配置为从音频特征、文本特征和图像特征中标识与目标视频不匹配的非相关特征，；以及第二特征融合模块，被配置为使用融合模型对经掩码的音频特征、经掩码的文本特征和经掩码的图像特征进行融合，以确定视频特征。

在一些实施例中，视频标签模块840可以包括：关键词特征确定模块，被配置为使用预先训练的文本模型确定一组关键词的一组关键词特征，一组关键词是关键词词库中的关键词的集合；以及第一标签匹配模块，被配置为基于视频特征和一组关键词特征，从一组关键词中确定至少一个关键词作为目标视频的标签。

在一些实施例中，第一标签匹配模块可以包括：第一特征映射模块，被配置为通过第一特征映射层，将一组关键词特征映射为一组第一关键词特征；第二特征映射模块，被配置为通过第二特征映射层，将视频特征映射为第一视频特征，一组第一关键词特征中的每个第一关键词特征所在特征空间与第一视频特征所在特征空间之间的空间差异小于关键词特征所在特征空间与视频特征所在特征空间之间的空间差异；以及第二标签匹配模块，被配置为基于第一视频特征和一组第一关键词特征，确定与目标视频相匹配的至少一个关键词作为目标视频的标签。

在一些实施例中，第二标签匹配模块可以包括：第三特征映射模块，被配置为通过第三特征映射层，分别将一组第一关键词特征和第一视频特征映射为一组第二关键词特征和第二视频特征，一组第二关键词特征中的每个第二关键词特征所在特征空间与第二视频特征所在特征空间之间的空间差异小于第一关键词特征所在特征空间与第一视频特征所在特征空间之间的空间差异；以及第三标签匹配模块，被配置为基于第二视频特征和一组第二关键词特征，确定与目标视频匹配的至少一个关键词作为目标视频的标签。

在一些实施例中，第三标签匹配模块可以包括：匹配度确定模块，被配置为确定视频特征与一组关键词中的每个关键词的第二关键词特征之间的匹配度；关键词确定模块，被配置为从一组关键词中确定至少一个关键词，至少一个关键词的第二关键词特征与视频特征之间的匹配度大于阈值匹配度；以及标签确定模块，被配置为将至少一个关键词确定作为目标视频的标签。

在一些实施例中，装置800还可以包括：词库更新模块，被配置为基于作为目标视频的标签的至少一个关键词，对关键词词库进行更新。

在一些实施例中，装置800还可以包括：样本视频获取模块，被配置为获取目标视频作为样本视频；样本标签获取模块，被配置为获取目标视频的标签作为样本标签；预测标签确定模块，被配置为将样本视频、样本标签、关键词词库应用于标签模型，以确定样本视频的预测标签；以及标签模型训练模块，被配置为基于样本标签和预测标签之间的误差，来更新标签模型的参数值。

在一些实施例中，标签模型包括音频模型、文本模型、图像模型、融合模型、第一特征映射层、第二特征映射层和第三特征映射层中的一项或多项。

图9示出了可以用来实施本公开的实施例的示例设备900的示意性框图。设备900可以被实现为或者被包括在图1的计算设备120中。

如图所示，设备900包括计算单元901，其可以根据存储在随机存取存储器(RAM)和/或只读存储器(ROM)902的计算机程序指令或者从存储单元907加载到RAM和/或ROM 902中的计算机程序指令，来执行各种适当的动作和处理。在RAM和/或ROM 902中，还可存储设备900操作所需的各种程序和数据。计算单元901和RAM和/或ROM 902通过总线903彼此相连。输入/输出(I/O)接口904也连接至总线903。

设备900中的多个部件连接至I/O接口904，包括：输入单元905，例如键盘、鼠标等；输出单元906，例如各种类型的显示器、扬声器等；存储单元907，例如磁盘、光盘等；以及通信单元908，例如网卡、调制解调器、无线通信收发机等。通信单元908允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如过程200、300、400或者500。例如，在一些实施例中，过程200、300、400或者500可被实现为计算机软件程序，其被有形地包含于计算机可读介质，例如存储单元907。在一些实施例中，计算机程序的部分或者全部可以经由RAM和/或ROM和/或通信单元908而被载入和/或安装到设备900上。当计算机程序加载到RAM和/或ROM并由计算单元901执行时，可以执行上文描述的过程200、300、400或者500的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200、300、400或者500。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质或计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是机器可读信号介质或机器可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于确定视频的标签的方法，其特征在于，包括：

基于多个视频的文本信息构建用于标记视频的关键词词库；

确定待标记的目标视频的视频信息，所述视频信息至少包括所述目标视频的文本信息；

基于所述目标视频的文本信息，确定所述目标视频的视频特征；以及

基于所述视频特征，从所述关键词词库中确定至少一个关键词作为所述目标视频的标签。

2.根据权利要求1所述的方法，其特征在于，基于多个视频的文本信息构建用于标记视频的关键词词库包括：

通过网络获取所述多个视频；

提取所述多个视频中的第一视频的第一文本信息；以及

至少基于所述第一文本信息，构建所述关键词词库。

3.根据权利要求2所述的方法，其特征在于，至少基于所述第一文本信息，构建所述关键词词库包括：

提取所述第一视频的音频信息；

将所述音频信息转换为第二文本信息；

对所述第一文本信息和所述第二文本信息进行解析，以确定文本信息中的语段；以及

基于所述语段构建所述关键词词库。

4.根据权利要求3所述的方法，其特征在于，基于所述语段构建所述关键词词库包括：

提取所述语段中的关键词；

确定所提取的每个关键词在所述多个视频的多个关键词中出现的频率；

从所述多个关键词中确定一组初始关键词，所述一组初始关键词中的每个关键词的所述频率大于第一阈值频率且小于第二阈值频率；以及

将所述一组初始关键词存储在所述关键词词库中。

5.根据权利要求1所述的方法，其特征在于，所述视频信息还包括音频信息和图像信息，确定所述目标视频的视频特征包括：

使用预先训练的音频模型确定所述音频信息的音频特征；

使用预先训练的文本模型确定所述文本信息的文本特征；

使用预先训练的图像模型确定所述图像信息的图像特征；以及

通过将所述音频特征、所述文本特征和所述图像特征进行融合，来确定所述视频特征。

6.根据权利要求5所述的方法，其特征在于，通过将所述音频特征、所述文本特征和所述图像特征进行融合，来确定所述视频特征包括：

使用预先训练的融合模型中的掩码模块对所述音频特征、所述文本特征和所述图像特征进行掩码，以获得经掩码的音频特征、经掩码的文本特征和经掩码的图像特征，其中所述掩码模块被配置为从所述音频特征、所述文本特征和所述图像特征中标识与所述目标视频不匹配的非相关特征，；以及

使用所述融合模型对所述经掩码的音频特征、所述经掩码的文本特征和所述经掩码的图像特征进行融合，以确定所述视频特征。

7.根据权利要求1所述的方法，其特征在于，基于所述视频特征，从所述关键词词库中确定至少一个关键词作为所述目标视频的标签包括：

使用预先训练的文本模型确定一组关键词的一组关键词特征，所述一组关键词是所述关键词词库中的关键词的集合；以及

基于所述视频特征和所述一组关键词特征，从所述一组关键词中确定至少一个关键词作为所述目标视频的标签。

8.根据权利要求7所述的方法，其特征在于，从所述一组关键词中确定至少一个关键词作为所述目标视频的标签包括：

通过第一特征映射层，将所述一组关键词特征映射为一组第一关键词特征；

通过第二特征映射层，将所述视频特征映射为第一视频特征，所述一组第一关键词特征中的每个第一关键词特征所在特征空间与所述第一视频特征所在特征空间之间的空间差异小于所述关键词特征所在特征空间与所述视频特征所在特征空间之间的空间差异；以及

基于所述第一视频特征和所述一组第一关键词特征，确定与所述目标视频相匹配的至少一个关键词作为所述目标视频的标签。

9.根据权利要求8所述的方法，其特征在于，基于所述第一视频特征和所述一组第一关键词特征，确定所述目标视频的标签包括：

通过第三特征映射层，分别将所述一组第一关键词特征和所述第一视频特征映射为一组第二关键词特征和第二视频特征，所述一组第二关键词特征中的每个第二关键词特征所在特征空间与所述第二视频特征所在特征空间之间的空间差异小于所述第一关键词特征所在特征空间与所述第一视频特征所在特征空间之间的空间差异；

基于所述第二视频特征和所述一组第二关键词特征，确定与所述目标视频匹配的至少一个关键词作为所述目标视频的标签。

10.根据权利要求9所述的方法，其特征在于，基于所述第二视频特征和所述一组第二关键词特征，确定所述目标视频的标签包括：

确定所述视频特征与所述一组关键词中的每个关键词的第二关键词特征之间的匹配度；

从所述一组关键词中确定至少一个关键词，所述至少一个关键词的第二关键词特征与所述视频特征之间的匹配度大于阈值匹配度；以及

将至少一个关键词确定作为所述目标视频的标签。

11.根据权利要求1所述的方法，其特征在于，还包括：

基于作为所述目标视频的标签的至少一个关键词，对所述关键词词库进行更新。

12.根据权利要求1所述的方法，其特征在于，还包括：

获取所述目标视频作为样本视频；

获取所述目标视频的标签作为样本标签；

将所述样本视频、所述样本标签、所述关键词词库应用于标签模型，以确定所述样本视频的预测标签；以及

基于所述样本标签和所述预测标签之间的误差，来更新所述标签模型的参数值。

13.根据权利要求12所述的方法，其特征在于，所述标签模型包括音频模型、文本模型、图像模型、融合模型、第一特征映射层、第二特征映射层和第三特征映射层中的一项或多项。

14.一种用于确定视频的标签的装置，其特征在于，包括：

词库构建模块，被配置为基于多个视频的文本信息构建用于标记视频的关键词词库；

视频信息提取模块，被配置为确定待标记的目标视频的视频信息，所述视频信息至少包括所述目标视频的文本信息；

目标视频特征确定模块，被配置为基于所述目标视频的文本信息，确定所述目标视频的视频特征；以及

视频标签模块，被配置为基于所述视频特征，从所述关键词词库中确定至少一个关键词作为所述目标视频的标签。

15.根据权利要求14所述的装置，其特征在于，所述词库构建模块包括：

视频获取模块，被配置为通过网络获取所述多个视频；

第一文本提取模块，被配置为提取所述多个视频中的第一视频的第一文本信息；以及

第一词库生成模块，被配置为至少基于所述第一文本信息和所述音频信息，构建所述关键词词库。

16.根据权利要求15所述的装置，其特征在于，所述第一词库生成模块包括：

第一音频提取模块，被配置为提取所述第一视频的音频信息；

音频转换模块，被配置为将所述音频信息转换为第二文本信息；

文本解析模块，被配置为对所述第一文本信息和所述第二文本信息进行解析，以确定文本信息中的语段；以及

第二词库生成模块，被配置为基于所述语段构建所述关键词词库。

17.根据权利要求16所述的装置，其特征在于，所述第二词库生成模块包括：

关键词提取模块，被配置为提取所述语段中的关键词；

频率确定模块，被配置为确定所提取的每个关键词在所述多个视频的多个关键词中出现的频率；

关键词筛选模块，被配置为从所述多个关键词中确定一组初始关键词，所述一组初始关键词中的每个关键词的所述频率大于第一阈值频率且小于第二阈值频率；以及

关键词存储模块，被配置为将所述一组初始关键词存储在所述关键词词库中。

18.根据权利要求14所述的装置，其特征在于，所述视频信息还包括音频信息和图像信息，所述目标视频特征确定模块包括：

音频特征确定模块，被配置为使用预先训练的音频模型确定所述音频信息的音频特征；

文本特征确定模块，被配置为使用预先训练的文本模型确定所述文本信息的文本特征；

图像特征确定模块，被配置为使用预先训练的图像模型确定所述图像信息的图像特征；以及

第一特征融合模块，被配置为通过将所述音频特征、所述文本特征和所述图像特征进行融合，来确定所述视频特征。

19.根据权利要求18所述的装置，其特征在于，所述第一特征融合模块包括：

模态相关性分析模块，被配置为使用预先训练的融合模型中的掩码模块对所述音频特征、所述文本特征和所述图像特征进行掩码，以获得经掩码的音频特征、经掩码的文本特征和经掩码的图像特征，其中所述掩码模块被配置为从所述音频特征、所述文本特征和所述图像特征中标识与所述目标视频不匹配的非相关特征；以及

第二特征融合模块，被配置为使用所述融合模型对所述经掩码的音频特征、所述经掩码的文本特征和所述经掩码的图像特征进行融合，以确定所述视频特征。

20.根据权利要求14所述的装置，其特征在于，所述视频标签模块包括：

关键词特征确定模块，被配置为使用预先训练的文本模型确定一组关键词的一组关键词特征，所述一组关键词是所述关键词词库中的关键词的集合；以及

第一标签匹配模块，被配置为基于所述视频特征和所述一组关键词特征，从所述一组关键词中确定至少一个关键词作为所述目标视频的标签。

21.根据权利要求20所述的装置，其特征在于，所述第一标签匹配模块包括：

第一特征映射模块，被配置为通过第一特征映射层，将所述一组关键词特征映射为一组第一关键词特征；

第二特征映射模块，被配置为通过第二特征映射层，将所述视频特征映射为第一视频特征，所述一组第一关键词特征中的每个第一关键词特征所在特征空间与所述第一视频特征所在特征空间之间的空间差异小于所述关键词特征所在特征空间与所述视频特征所在特征空间之间的空间差异；以及

第二标签匹配模块，被配置为基于所述第一视频特征和所述一组第一关键词特征，确定与所述目标视频相匹配的至少一个关键词作为所述目标视频的标签。

22.根据权利要求21所述的装置，其特征在于，所述第二标签匹配模块包括：

第三特征映射模块，被配置为通过第三特征映射层，分别将所述一组第一关键词特征和所述第一视频特征映射为一组第二关键词特征和第二视频特征，所述一组第二关键词特征中的每个第二关键词特征所在特征空间与所述第二视频特征所在特征空间之间的空间差异小于所述第一关键词特征所在特征空间与所述第一视频特征所在特征空间之间的空间差异；

第三标签匹配模块，被配置为基于所述第二视频特征和所述一组第二关键词特征，确定与所述目标视频匹配的至少一个关键词作为所述目标视频的标签。

23.根据权利要求22所述的装置，其特征在于，所述第三标签匹配模块包括：

匹配度确定模块，被配置为确定所述视频特征与所述一组关键词中的每个关键词的第二关键词特征之间的匹配度；

关键词确定模块，被配置为从所述一组关键词中确定至少一个关键词，所述至少一个关键词的第二关键词特征与所述视频特征之间的匹配度大于阈值匹配度；以及

标签确定模块，被配置为将至少一个关键词确定作为所述目标视频的标签。

24.根据权利要求14所述的装置，其特征在于，还包括：

词库更新模块，被配置为基于作为所述目标视频的标签的至少一个关键词，对所述关键词词库进行更新。

25.根据权利要求14所述的装置，其特征在于，还包括：

样本视频获取模块，被配置为获取所述目标视频作为样本视频；

样本标签获取模块，被配置为获取所述目标视频的标签作为样本标签；

预测标签确定模块，被配置为将所述样本视频、所述样本标签、所述关键词词库应用于标签模型，以确定所述样本视频的预测标签；以及

标签模型训练模块，被配置为基于所述样本标签和所述预测标签之间的误差，来更新所述标签模型的参数值。

26.根据权利要求25所述的装置，其特征在于，所述标签模型包括音频模型、文本模型、图像模型、融合模型、第一特征映射层、第二特征映射层和第三特征映射层中的一项或多项。

27.一种电子设备，其特征在于，包括：

至少一个计算单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个计算单元并且存储用于由所述至少一个计算单元执行的指令，所述指令当由所述至少一个计算单元执行时，使得所述设备执行根据权利要求1至13中任一项所述的方法。

28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至13中任一项所述的方法。

29.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机可执行指令，所述计算机可执行指令在被处理器执行时，使计算机实现根据权利要求1至13中任一项所述的方法。