CN117036845A

CN117036845A - 模型处理方法、装置、设备、存储介质和计算机程序产品

Info

Publication number: CN117036845A
Application number: CN202211350070.0A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-11-10

Abstract

本申请涉及一种模型处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法涉及人工智能的语义理解，所述方法包括：获取的训练样本包括样本视频的多模态信息、话题标签以及用于表征话题标签与样本视频是否相关的标注信息；若训练样本为正例，则先后至少两次将多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出样本视频的至少两个相异的预测概率；预测概率是话题标签与样本视频相关的概率；根据基于标注信息与预测概率所构建的预测损失，以及基于至少两个相异的预测概率所构建的对比损失，对视频标签处理模型进行模型训练。采用本方法得到的模型能够准确预测视频与话题标签的相关度。

Description

模型处理方法、装置、设备、存储介质和计算机程序产品

技术领域

本申请涉及计算机技术领域，特别是涉及一种模型处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术与互联网技术的迅速发展，社交媒体越来越普及，越来越多的用户通过终端设备在一系列社交平台上发布视频或各类图文信息，发布视频时还可以在视频标题中添加相应的话题标签，例如标题中出现“#又是风和日丽的一天#”、“#人类幼崽成长记#”等等通过“##”包裹的词语，即为话题标签，这些话题标签往往带有发布者对视频内容的主观理解，在召回系统中发挥着重要的作用。

目前话题标签的整体质量不高，存在话题标签作弊或是蹭热点话题的情况，话题标签与视频的相关性较低，如果直接按视频本身的话题标签进行推荐或搜索，就容易造成线上误召回。

相关技术中，对视频的话题标签进行去噪(也称清洗)的方式，往往是模型没有学习重点，强行利用视频各类模态信息的所有特征，无法抓到视频各模态信息的本质，导致训练得到的模型无法准确预测视频与话题标签的相关度。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升预测视频与话题标签的相关度的准确性的模型处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种模型处理方法。所述方法包括：

获取训练样本，所述训练样本包括样本视频的多模态信息、话题标签以及用于表征所述话题标签与所述样本视频是否相关的标注信息；

若所述训练样本为正例，则先后至少两次将所述多模态信息与所述话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过所述视频标签处理模型先后输出所述样本视频的至少两个相异的预测概率；所述预测概率是所述话题标签与所述样本视频相关的概率；

根据基于所述标注信息与所述预测概率所构建的预测损失，以及基于所述至少两个相异的预测概率所构建的对比损失，调整所述视频标签处理模型的模型参数，以对所述视频标签处理模型进行模型训练，训练好的视频标签处理模型用于预测目标视频与目标话题标签是否相关。

第二方面，本申请还提供了一种模型处理装置。所述装置包括：

样本获取模块，用于获取训练样本，所述训练样本包括样本视频的多模态信息、话题标签以及用于表征所述话题标签与所述样本视频是否相关的标注信息；

预测模块，用于若所述训练样本为正例，则先后至少两次将所述多模态信息与所述话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过所述视频标签处理模型先后输出所述样本视频的至少两个相异的预测概率；所述预测概率是所述话题标签与所述样本视频相关的概率；

更新模块，用于根据基于所述标注信息与所述预测概率所构建的预测损失，以及基于所述至少两个相异的预测概率所构建的对比损失，调整所述视频标签处理模型的模型参数，以对所述视频标签处理模型进行模型训练，训练好的视频标签处理模型用于预测目标视频与目标话题标签是否相关。

在一个实施例中，所述预测模块，还用于若所述训练样本为负例，则将所述多模态信息与所述话题标签共同输入不带特征随机丢弃操作的所述视频标签处理模型，通过所述视频标签处理模型输出所述样本视频的预测概率；所述预测概率是所述话题标签与所述样本视频相关的概率；

所述更新模块，还用于根据基于所述标注信息与所述预测概率所构建的预测损失，调整所述视频标签处理模型的模型参数，以对所述视频标签处理模型进行模型训练。

在一个实施例中，所述预测模块，还用于将所述多模态信息与所述话题标签共同输入不带特征随机丢弃操作的所述视频标签处理模型，通过所述视频标签处理模型根据所述多模态信息与所述话题标签，输出所述样本视频的原始预测概率；将所述多模态信息与所述话题标签共同输入带特征随机丢弃操作的所述视频标签处理模型，通过所述视频标签处理模型，按预设比例随机丢弃所述话题标签中的部分词语，得到修改后的话题标签，根据所述多模态信息与所述修改后的话题标签，输出所述样本视频的修改预测概率。

在一个实施例中，所述预测模块，还用于先后至少两次将所述多模态信息与所述话题标签共同输入带特征随机丢弃操作的视频标签处理模型，通过所述视频标签处理模型，按预设比例随机丢弃所述话题标签中的词语得到修改后的话题标签，根据所述多模态信息与所述修改后的话题标签，先后输出所述样本视频的至少两个相异的修改预测概率。

在一个实施例中，所述多模态信息至少包括所述样本视频的文本信息与图像信息；所述预测模块，还用于将所述文本信息、图像信息与所述话题标签输入所述视频标签处理模型；通过所述视频标签处理模型中预训练的文本语义提取子模型，分别将所述文本信息与所述话题标签转化为相应的文本语义向量与标签语义向量；通过所述视频标签处理模型中预训练的图像语义提取子模型，将所述样本视频的视频帧转化为相应的图像语义向量；通过所述视频标签处理模型中的特征编码子模型，对所述标签语义向量、所述文本语义向量与所述图像语义向量进行特征编码，分别得到相应的标签语义表示、所述文本语义表示与所述图像语义表示；将所述文本语义表示与所述图像语义表示拼接，得到所述样本视频的内容语义表示；分别计算所述标签语义表示与所述文本语义表示、所述图像语义表示以及所述内容语义表示之间的相关度，基于所述相关度确定所述样本视频的预测概率。

在一个实施例中，所述预测模块，还用于通过所述视频标签处理模型中基于自注意力机制的特征编码子模型，对所述标签语义向量、所述文本语义向量与所述图像语义向量进行特征编码，得到相应的标签语义特征、所述文本语义特征与所述图像语义特征；以所述标签语义特征为媒介，基于所述文本语义特征与所述图像语义特征，分别确定所述话题标签对所述话题标签、所述文本信息与所述图像信息的自注意力分数，并按所述自注意力分数融合所述标签语义特征、所述文本语义特征与所述图像语义特征，得到所述标签语义向量相应的标签语义表示；以所述文本语义特征为媒介，基于所述标签语义特征与所述图像语义特征，分别确定所述文本信息对所述话题标签、所述文本信息与所述图像信息的自注意力分数，并按所述自注意力分数融合所述标签语义特征、所述文本语义特征与所述图像语义特征，得到所述文本语义向量相应的文本语义表示；以所述图像语义特征为媒介，基于所述标签语义特征与所述文本语义特征，分别确定所述图像信息对所述话题标签、所述文本信息与所述图像信息的自注意力分数，并按所述自注意力分数融合所述标签语义特征、所述文本语义特征与所述图像语义特征，得到所述图像语义向量相应的图像语义表示。

在一个实施例中，所述预测模块，还用于通过所述视频标签处理模型中基于自注意力机制的特征编码子模型，依据三组不同的参数矩阵，分别对所述标签语义向量、所述文本语义向量与所述图像语义向量进行不同的线性变换，得到与所述标签语义向量对应的请求向量、键向量和值向量，与所述文本语义向量对应的请求向量、键向量和值向量，以及与所述图像语义向量对应的请求向量、键向量和值向量；分别确定所述标签语义向量对应的请求向量与所述标签语义向量对应的键向量之间的注意力分数、与所述文本语义向量对应的键向量之间的注意力分数以及与所述图像语义向量对应的键向量之间的注意力分数；对所述注意力分数进行归一化处理后，按各自归一化处理后的注意力分数，融合所述标签语义向量对应的值向量、所述文本语义向量对应的值向量以及所述图像语义向量对应的值向量，得到所述标签语义向量相应的标签语义表示。

在一个实施例中，所述特征编码子模型是带随机丢弃注意力操作的子模型，所述预测模块还用于，随机丢弃所述注意力分数中的至少一个，丢弃的所述注意力分数，是所述标签语义向量对应的请求向量与所述标签语义向量对应的键向量之间的注意力分数、与所述文本语义向量对应的键向量之间的注意力分数以及与所述图像语义向量对应的键向量之间的注意力分数中的至少一个；确定保留的注意力分数的平均值，使用所述平均值替代随机丢弃的所述注意力分数，得到替代后的注意力分数；对所述替代后的注意力分数进行归一化处理后，按各自归一化处理后的注意力分数，融合所述标签语义向量对应的值向量、所述文本语义向量对应的值向量以及所述图像语义向量对应的值向量，得到所述标签语义向量相应的标签语义表示。

在一个实施例中，所述预测模块还用于通过所述视频标签处理模型中的全连接层，分别计算所述标签语义表示与所述文本语义表示、所述图像语义表示以及所述内容语义表示之间的相关度，将各所述相关度融合得到所述样本视频的输出语义表示；通过所述视频标签处理模型中的分类层，基于所述输出语义表示对所述样本视频与所述话题标签是否相关进行预测，得到所述样本视频的预测概率。

在一个实施例中，所述全连接层带随机丢弃节点操作，所述预测模块还用于通过所述视频标签处理模型中的全连接层，分别计算所述标签语义表示与所述文本语义表示、所述图像语义表示以及所述内容语义表示之间的相关度，随机失活全连接层中的全连接节点后，将各所述相关度融合得到所述样本视频的输出语义表示。

在一个实施例中，所述模型处理装置还包括：难负例挖掘模块，用于将所述样本视频的多模态信息与所述话题标签共同输入难负例挖掘模型，通过所述难负例挖掘模型将所述多模态信息与所述话题标签进行交互融合，得到各模态信息对应的语义表示与所述话题标签的语义表示；将各模态信息对应的语义表示进行融合得到所述样本视频的语义表示；计算所述样本视频的语义表示与所述话题标签的语义表示之间的相似度，将所述相似度与正负例阈值进行比较，根据比较结果确定所述训练样本是否为难负例。

在一个实施例中，所述模型处理装置还包括：标签清洗模块，用于获取目标视频的多模态信息与话题标签；通过所述训练好的视频标签处理模型，基于所述目标视频的多模态信息与所述话题标签，得到关于所述话题标签与所述目标视频相关的概率；根据所述预测概率对所述目标视频的话题标签进行过滤，过滤后的话题标签用于召回所述目标视频。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述模型处理方法、装置、计算机设备、存储介质和计算机程序产品，基于对比学习的思想，若训练样本为样本视频与相应的话题标签相关的正样本视例，则先后至少两次将该样本视频的多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出该样本视频的至少两个相异的预测概率，该预测概率是该话题标签与该样本视频相关的概率，这样，根据基于标注信息与预测概率所构建的预测损失，以及基于至少两个相异的预测概率应该尽量靠近思想所构建的对比损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练，模型在训练过程中，可以使语义相近的样本视频对应的表示在表示空间更接近，语义不相近的样本视频对应的表示在表示空间距离更远，从而可以学习到样本视频之间的区分度，抓到视频各模态信息的本质，训练好的视频标签处理模型能够准确预测视频与话题标签之间的相关度。

附图说明

图1为一个实施例中模型处理方法的应用环境图；

图2为一个实施例中话题标签与视频本身不相关的示意图；

图3为一个实施例中对比学习的原理示意图；

图4为一个实施例中视频标签处理模型的训练过程示意图；

图5为一个实施例中模型处理方法的流程示意图；

图6为一个实施例中基于对比学习思想的模型架构示意图；

图7为一个实施例中训练样本的示意图；

图8为一个实施例中难负例挖掘模型的示意图；

图9为一个实施例中预训练的文本语义提取子模型与预训练的图像语义提取子模型的示意图；

图10为一个实施例中视频标签处理方法的流程示意图；

图11为一个实施例中输出预测概率的流程示意图；

图12为一个实施例中模型处理装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的模型处理方法，涉及人工智能(Artificial Intelligence,AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的模型处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，服务器104可以获取训练样本，训练样本包括样本视频的多模态信息、话题标签以及用于表征话题标签与样本视频是否相关的标注信息；若训练样本为正例，则先后至少两次将多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出样本视频的至少两个相异的预测概率；预测概率是话题标签与样本视频相关的概率；根据基于标注信息与预测概率所构建的预测损失，以及基于至少两个相异的预测概率所构建的对比损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练，训练好的视频标签处理模型用于预测目标视频与目标话题标签是否相关。

在一个实施例中，其中上述终端102中可以具有应用客户端，服务器104可以是该应用客户端的后台服务器，服务器104可以向应用客户端推送视频数据，或者，应用客户端可以从服务器104搜索视频数据。服务器104在向应用客户端推送视频数据或响应于搜索请求向应用客户端返回视频数据时，需要先从海量视频中召回一部分视频数据，再从中精选出可以推送或返回至应用客户端的视频数据。

随着社交媒体的不断发展，除了以图文为主的社交平台之外，也提供了供个人用户随时分享短内容的视频平台，为了改善信息环境以及对信息按照话题进行分组，用户可以在发布视频时在视频的标题中添加话题标签。视频的标题中插入的话题标签，通常带有视频发布者本身对视频的理解与强烈的情感，因此，话题标签在目前的召回系统中发挥着重要的作用，例如，服务器104在从海量视频中召回一部分视频数据时，通常会依赖视频的标题中插入的话题标签。但是，不排除有些话题标签与视频本身不太匹配甚至与视频本身完全不相关的情况，例如话题标签作弊或是蹭热点话题。如图2所示，为一个实施例中话题标签与视频本身不相关的示意图，图2的(a)与(b)部分，均是存在话题标签“爱情”与视频无关、“电影”与视频无关的情形，图2的(c)部分，是存在抄袭较为热门的话题标签“疫情”的情形。这些与视频不太匹配的话题标签，将严重影响召回视频的质量。

为此，服务器104可以通过训练好的视频标签处理模型，对视频的标题中插入的每个话题标签进行清洗或过滤，也即，预测视频与话题标签是否相关，从而剔除那些与视频本身不太匹配甚至与视频本身完全不相关的话题标签，从而提升召回视频的质量。当然，清洗后的话题标签，也可应用于其它需要理解视频语义的场景中。该视频标签处理模型的训练过程请参见如下内容描述。

相关技术中，采用的传统的多模态分类模型对话题标签与样本视频的相关度进行预测，在对传统的多模态分类模型进行训练时，结合样本视频的话题标签的特征表示与样本视频的各个模态信息的特征表示，确定一个预测概率，基于该预测概率确定话题标签是否与该样本视频相关，模型没有学习重点，强行学习所有输入的特征表示，抓不到数据本质，损失函数无区分能力，导致模型的预测效果较差。

本申请中的模型处理方法，本发明提出一种基于对比学习思想的模型处理方法，通过对比学习思想，不仅考虑预测损失，还利用对比损失提升模型的学习能力。对比学习是一种基于对比思想的判别式表示学习框架，将样本与跟它语义相似的例子和与它语义不相似的例子进行对比，使语义相似的例子对应的表示在表示空间更接近，语义不相似的例子对应的表示距离更远。如图3所示，为一个实施例中对比学习的原理示意图。参照图3，位于虚线圆中心位置的黑球，即中心球，是当前样本，位于其它位置的黑球是该中心球的正例，白球是该中心球的负例，由图3可见，通过对比学习拉近中心球与正例的距离，而拉远中心球与负例的距离。

本申请中，如图4所示，为一个实施例中视频标签处理模型的训练过程示意图。参照图4，需要进行训练的视频标签处理模型可以包含输入层、预训练的文本语义提取子模型、预训练的图像语义提取子模型、特征编码子模型、全连接层和分类层，此外，训练过程中，视频标签处理模型还可以设置特征随机丢弃操作，该特征随机丢弃操作可随机丢弃部分特征，用于对比学习。该特征随机丢弃操作可设置在输入层，也可以设置在特征编码子模型，也可以设置在全连接层，还可以既设置在输入层又设置在特征编码子模型中，可以根据实际需求采用相应的策略。

以该随机丢弃操作设置在输入层为例进行说明。每个样本视频可以包括多种模态信息，包括文本信息、图像信息，还可以包括语音信息等，该文本信息可以包括样本视频的标题，还可以包括话题标签、视频的OCR文本等，图像信息则可以为样本视频的视频帧或视频封面等。本申请实施例以多种模态信息仅包括文本信息与图像信息为例进行说明。

参照图4，服务器104可以获取任意一个属于正例(即样本视频与样本视频的话题标签是相关的)的训练样本，获取该训练样本中的样本视频以及该样本视频的话题标签，从而，服务器104可以将该样本视频的文本信息，通过视频标签处理模型的输入层，进行分词得到各个词，将各个词转化为相应的词索引，从而根据各个词的词索引，得到文本信息对应的文本初始向量；通过视频标签处理模型的输入层，对话题标签进行分词得到各个词，将各个词转化为相应的词索引，从而根据各个词的词索引，得到话题标签对应的标签初始向量；通过视频标签处理模型的输入层，将视频帧转化为三通道RGB格式的图像数据，得到图像信息对应的图像初始向量。

接着，通过视频标签处理模型中预训练的文本语义提取子模型(如，BERT)，可以对文本初始向量进行文本语义特征提取，得到相应的文本语义向量；通过预训练的文本语义提取子模型，可以对标签初始向量进行文本语义特征提取，得到相应的标签语义向量；以及，通过视频标签处理模型中预训练的图像语义提取子模型(如，利用Inception V4提取图像特征，利用NetVLAD模型挖掘帧时序信息从而挖掘整个视频的图像语义)，可以对图像初始向量进行图像语义特征提取，得到相应的图像语义向量。

接着，通过视频标签处理模型中的特征编码子模型，对标签语义向量、文本语义向量与图像语义向量进行特征编码，分别得到相应的标签语义表示、文本语义表示与图像语义表示。

再接着，通过视频标签处理模型中的全连接层，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，将各相关度融合得到样本视频的输出语义表示。

再接着，服务器104通过视频标签处理模型的输入层，随机去除话题标签中的部分词之后，将剩余的词转化为相应的词索引，从而根据剩余的词的词索引，得到话题标签对应的标签修改向量。接着，通过视频标签处理模型中预训练的文本语义提取子模型，可以对标签修改向量进行文本语义特征提取，得到相应的标签语义向量。服务器104通过视频标签处理模型基于标签修改向量对应的标签语义向量、文本语义向量与图像语义向量的后续处理与上面的处理流程一致，直至得到该样本视频的第二个预测概率。

进而，服务器104基于正例的标注信息与两个预测概率构建预测损失，以及基于该两个预测概率构建对比损失，利用预测损失与对比损失一起对视频标签处理模型中所传递到的网络的网络参数进行更新，得到训练好的视频标签处理模型。训练好的视频标签处理模型(不带特征随机丢弃操作)就可以用于预测视频与话题标签是否相关，从而根据预测概率对目标视频的话题标签进行过滤，过滤后的话题标签用于召回目标视频。

可以理解，由于海量视频处理所需耗费的时间与计算资源较多，在训练好视频标签处理模型之后，可以导出该训练好的视频标签处理模型的模型参数，在分布式的服务器上构建该视频标签处理模型的初始模型架构，导入该模型参数，从而在分布式的每个服务器上搭建该视频标签处理模型，这些服务器可以实现分布式地处理海量视频的话题标签，从而提升清洗效率。可以理解的是，用于训练视频标签处理模型的服务器，与应用训练好的视频标签处理模型对视频的话题标签进行清洗的服务器，可以相同，也可以不同。

这样，通过本申请实施例提供的模型处理方法，根据基于标注信息与预测概率所构建的预测损失，以及基于至少两个相异的预测概率应该尽量靠近思想所构建的对比损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练，模型在训练过程中，可以使语义相近的样本视频对应的表示在表示空间更接近，语义不相近的样本视频对应的表示在表示空间距离更远，从而可以学习到样本视频之间的区分度，抓到视频各模态信息的本质，训练好的视频标签处理模型能够准确预测视频与话题标签之间的相关度。

进一步地，本申请提供的模型处理方法，为了提升模型的学习能力，在训练之前，基于离线模型从大量的样本中挖掘出难负例，以对对比学习训练过程中的难负例进行补充。具体而言，服务器在从训练样本中筛选难负例时，可以将样本视频的多模态信息与话题标签共同输入难负例挖掘模型，通过难负例挖掘模型将多模态信息与话题标签进行交互融合，得到各模态信息对应的语义表示与话题标签的语义表示；将各模态信息对应的语义表示进行融合得到样本视频的语义表示；计算样本视频的语义表示与话题标签的语义表示之间的相似度，将相似度与正负例阈值进行比较，根据比较结果确定训练样本是否为难负例。对于确定出的难负例，作为负例添加至用于训练视频标签处理模型的训练样本集合中。

图5是本申请提供的一种模型处理方法的流程示意图。本申请实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计算机设备可以是服务器，也可以终端。因此，本申请实施例中的执行主体可以是服务器，也可以是终端，还可以是由服务器和终端共同构成。此处以本申请实施例中的执行主体是服务器为例进行说明。如图5所示，该方法可以包括以下步骤：

步骤502，获取训练样本，训练样本包括样本视频的多模态信息、话题标签以及用于表征话题标签与样本视频是否相关的标注信息。

本申请中，服务器可以获取多个训练样本，每个训练样本包括样本视频的多模态信息、该样本视频的话题标签以及标注信息，也即，一个训练样本为：多模态信息、话题标签与标注信息形成的三元组。由于采用各个训练样本对训练视频标签处理模型的原理相同，因此，此处以通过一个训练样本训练视频标签处理模型的过程为例进行说明，请参见下述内容。

样本视频的多模态信息，包括文本信息、图像信息，还可以包括语音信息等，该文本信息可以包括样本视频的标题，还可以包括话题标签，还可以包括视频的OCR文本，图像信息则可以为样本视频的视频帧或视频封面等。在一些情形中，样本视频的标题中嵌入的话题标签可能有多个，每个话题标签都可与样本视频的多模态信息、以及相应的标注信息形成一个训练样本。标注信息即为标注样本视频是否与该样本视频的话题标签相关的信息，也即用于区分训练样本是正例还是负例。本申请中，样本视频是否与该样本视频的话题标签相关，本质是一个二分类问题，相应的标注信息可以用一个值y表示，y可以表征样本视频与该样本视频的话题标签相关的概率，也可以表征样本视频与该样本视频的话题标签不相关的概率。本申请实施例以y表征样本视频与该样本视频的话题标签相关的概率为例进行说明，因此，对于正例而言，标注信息可以用1表示，对于负例而言，标注信息可以用0表示。

本申请实施例中，正例可以通过人工标注的方式确定，负例可以采用随机采样的方式确定，例如从与视频确定完全无关的领域词中随机采用一些词作为该视频的话题标签，从而得到负例。当然，由于负例数量较少，也可能存在不准确的情况，还可以通过离线模型挖掘出一些难负例，以提升模型的学习能力，详细内容将在后文进行介绍。

步骤504，若训练样本为正例，则先后至少两次将多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出样本视频的至少两个相异的预测概率；预测概率是话题标签与样本视频相关的概率。

本申请中，服务器获取训练样本，依次通过每个训练样本对视频标签处理模型进行模型训练。服务器获取的训练样本可能是正例，也可能是负例。考虑到，负例是样本视频与样本视频的话题标签不相关的训练样本，样本视频的向量表示与话题标签的向量表示本身就存在较大的差异，因此，本申请中对比学习思想主要用于正例，也即，将训练样本与跟它语义相似的例子对应的向量表示在表示空间更接近。而对于负例，则不需要通过对比学习的方式更新模型，可以减少训练模型所需的计算量，提升模型训练效率。

具体地，若服务器获取的训练样本为正例，则启用视频标签处理模型的特征随机丢弃操作，先后至少两次将多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型。先后至少两次，可以是先后两次、也可以是先后三次甚至更多次，为简要描述，本申请实施例下文均以先后两次为例进行说明。这样，由于特征随机丢弃操作的存在，使得对于同一个正例，可通过视频标签处理模型进行处理后得到多个相异的向量表示，基于该多个不同的向量表示得到多个相异的预测概率。预测概率是话题标签与样本视频相关的概率，基于前文的介绍，预测概率也为一个二分类结果，例如，先后两次得到的预测概率分别为0.8与0.85，即分别表示话题标签与样本视频相关的概率为0.8、不相关的概率为0.2，话题标签与样本视频相关的概率为0.85，不相关的概率为0.15。

步骤506，根据基于标注信息与预测概率所构建的预测损失，以及基于至少两个相异的预测概率所构建的对比损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练，训练好的视频标签处理模型用于预测目标视频与目标话题标签是否相关。

对于每个正例而言，模型的损失包括两部分，一部分是基于标注信息与预测概率所构建的预测损失，记为另一部分是基于多个相异的预测概率所构建的对比损失，记为/>总的损失可以是这两个损失按照相应的权重进行加权求和得到的，即：

其中，i表示第i个训练样本，α为调整这两个损失各自的权重的超参数，可灵活根据样本训练情况调整。

在一个实施例中，正例的预测损失可以通过将至少两个相异的预测概率各自的交叉熵损失进行相加得到，以先后得到两个相异的预测概率P_i ¹与P_i ²为例，由于是二分类问题，预测损失可通过如下公式计算得到：

其中，y_i表示第i个训练样本的标注信息，对于正例而言，y_i＝1。

在一个实施例中，正例的对比损失可以通过将至少两个相异的预测概率计算散度损失得到，以先后得到两个相异的预测概率P_i ¹与P_i ²为例，对比损失可通过如下公式计算得到：

/>

如图6所示，为一个实施例中基于对比学习思想的模型架构示意图。参照图6，先后两次将同一个属于正例的训练样本输入带特征随机丢弃操作的视频标签处理模型，获得两个不同的向量表示，然后通过这两个不同的向量表示获得两个不同的预测概率，构建损失函数。

在一个实施例中，方法还包括：若训练样本为负例，则将多模态信息与话题标签共同输入不带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型输出样本视频的预测概率；预测概率是话题标签与样本视频相关的概率；根据基于标注信息与预测概率所构建的预测损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练。

具体地，若服务器获取的训练样本为负例，则不启用视频标签处理模型的特征随机丢弃操作，仅一次，将该负例的多模态信息与话题标签，共同输入不带特征随机丢弃操作的视频标签处理模型，通过该视频标签处理模型，根据该负例的多模态信息与话题标签，得到该对样本视频的预测概率，记为P_i ³。

由于视频标签处理模型未启用特征随机丢弃操作，对于每个负例而言，模型的损失仅包括基于标注信息与预测概率所构建的预测损失，记为由于是二分类问题，预测损失可以通过如下公式计算得到：

其中，y_i表示第i个训练样本的标注信息，对于负例而言，y_i＝0。

假如一批次训练包括m个训练样本，则可以通过对m个训练样本的损失求和后，得到本批次训练的总体损失函数，通过梯度下降方式更新视频标签处理模型的模型参数。

如图7所示，为一个实施例中训练样本的示意图。参照图7，所示的训练样本，视频中显示一位女士正在做拉伸运动，视频的话题标签包括“跑步”、“拉伸”、“户外健身”，由于“跑步”、“拉伸”属于易混淆标签，其对应的视频场景、人物动作都类似，传统多模态分类模型由于没有通过难负例进行学习，对这三个标签均预测为相关，而事实上“跑步”是不相关的话题标签。本申请的难负例挖掘工作可以加强此类样本的覆盖，也就是会将这些样本认定为负例，从而进一步通过对比学习，可以最终使最终训练得到的视频标签处理模型准确识别类似的情况。

在一个实施例中，将样本视频的多模态信息与话题标签共同输入难负例挖掘模型，通过难负例挖掘模型将多模态信息与话题标签进行交互融合，得到各模态信息对应的语义表示与话题标签的语义表示；将各模态信息对应的语义表示进行融合得到样本视频的语义表示；计算样本视频的语义表示与话题标签的语义表示之间的相似度，将相似度与正负例阈值进行比较，根据比较结果确定训练样本是否为难负例。

如图8所示，为一个实施例中难负例挖掘模型的示意图。参照图8，该模型使用视频的多模态信息，通过堆叠的Transformer作为编码器进行编码，模型将文本信息和图像信息通过注意力机制层进行融合对齐，得到样本视频的语义表示。文本信息包括标题信息以及对视频进行OCR提取得到的文本内容，图像信息包括视频的视频帧。参照图8，难负例挖掘模型预测训练样本是否为难负例的过程如下：

服务器可以获取任意一个训练样本，获取该训练样本中的样本视频以及该样本视频的话题标签，从而，服务器可以将该样本视频的文本信息(如视频标题)，得到文本信息对应的文本初始向量；类似地，通过OCR技术对视频帧提取文本内容，将文本内容表示为相应的OCR初始向量，以及，将话题标签表示为对应的标签初始向量；此外，还将视频帧转化为三通道RGB格式的图像数据，得到图像信息对应的图像初始向量。

接着，通过预训练的文本语义提取子模型，可以对文本初始向量进行文本语义特征提取，得到相应的文本语义向量；通过预训练的文本语义提取子模型，可以对标签初始向量进行文本语义特征提取，得到相应的标签语义向量；通过预训练的文本语义提取子模型，对OCR初始向量进行文本语义特征提取，得到相应的OCR语义向量；以及，通过预训练的图像语义提取子模型，可以对图像初始向量进行图像语义特征提取，得到相应的图像语义向量。

接着，通过特征编码子模型，对标签语义向量、文本语义向量、OCR语义向量与图像语义向量进行特征编码，分别得到相应的话题标签的语义表示、文本语义表示、OCR语义表示与图像语义表示。

再接着，通过全连接层，融合文本语义表示、OCR语义表示与图像语义表示，得到样本视频的语义表示，最后计算样本视频的语义表示与话题标签的语义表示之间的相似度，将相似度与正负例阈值进行比较，根据比较结果确定训练样本是否为难负例。相似度低于较高阈值，但又大于较低阈值的话题标签，即介于正负例阈值之间时，将该训练样本视为难负例。例如，相似度大于0.8视为正例，相似度小于0.5视为负例，而相似度介于0.5与0.8之间，则视为难负例，难负例也属于负例。通过挖掘出这样的难负例，在视频标签处理模型的训练样本中添加多一些这样的难负例，有助于提升模型的学习能力。

如图9所示，为一个实施例中预训练的文本语义提取子模型与预训练的图像语义提取子模型的示意图。参照图9，预训练的文本语义提取子模型可以采用基于BERT的神经网络模型，预训练的图像语义提取模型，可以采用基于Inception-V4的神经网络模型。具体地，将训练样本的文本信息(如标题、话题标签、OCR文本等)进行分词，得到各个词，并在句子的开头和结尾加入标志符，之后将每个词映射为词向量索引，得到文本初始向量。而后，再加入Token/Image编码来表示其是图片或文字、再加入片段编码(segment)、编码(position)，得到文本语义向量。对于训练样本的图像信息，将图像也转化为与文本信息类似的三层向量表示，具体是首先使用Inception-V4算法提取视频帧兴趣图像区域的特征，再使用基于netVLAD算法得到其视频语义向量。

在一个实施例中，在得到训练好的视频标签处理模型之后，方法还包括：获取目标视频的多模态信息与话题标签；通过训练好的视频标签处理模型，基于目标视频的多模态信息与话题标签，得到关于话题标签与目标视频相关的概率；根据预测概率对目标视频的话题标签进行过滤，过滤后的话题标签用于召回目标视频。

如图10所示，为一个实施例中视频标签处理方法的流程示意图。本申请实施例描述了对训练好的视频标签处理模型的应用过程，本申请实施例中所描述的内容可以与上述图5对应申请实施例中所描述的内容相结合，本申请实施例中的执行主体也可以是服务器。如图10示，该方法可以包括：

步骤1002，调用训练好的视频标签处理模型，获取目标视频的多模态信息与话题标签；

步骤1004，通过训练好的视频标签处理模型的输入层，对该样本视频的文本信息进行分词得到各个词，将各个词转化为相应的词索引，根据各个词的词索引，得到文本信息对应的文本初始向量；通过视频标签处理模型的输入层，对话题标签进行分词得到各个词，将各个词转化为相应的词索引，根据各个词的词索引，得到话题标签对应的标签初始向量；

步骤1006，通过视频标签处理模型的输入层，将目标视频的视频帧转化为三通道图像数据，得到图像信息对应的图像初始向量；

步骤1008，通过视频标签处理模型中预训练的文本语义提取子模型，对文本初始向量进行文本语义特征提取，得到相应的文本语义向量；通过预训练的文本语义提取子模型，可以对标签初始向量进行文本语义特征提取，得到相应的标签语义向量；以及，通过视频标签处理模型中预训练的图像语义提取子模型，对图像初始向量进行图像语义特征提取，得到相应的图像语义向量。

步骤1010，通过视频标签处理模型中的特征编码子模型，对标签语义向量、文本语义向量与图像语义向量进行特征编码，分别得到相应的标签语义表示、文本语义表示与图像语义表示。

步骤1012，通过视频标签处理模型中的全连接层，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，将各相关度融合得到样本视频的输出语义表示。

步骤1014，通过视频标签处理模型中的分类层，基于输出语义表示对目标视频与话题标签是否相关进行预测，得到预测概率；

步骤1016，根据预测概率对目标视频的话题标签进行过滤，过滤后的话题标签用于召回目标视频。

上述模型处理方法中，基于对比学习的思想，若训练样本为样本视频与相应的话题标签相关的正样本视例，则先后至少两次将该样本视频的多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出该样本视频的至少两个相异的预测概率，该预测概率是该话题标签与该样本视频相关的概率，这样，根据基于标注信息与预测概率所构建的预测损失，以及基于至少两个相异的预测概率应该尽量靠近思想所构建的对比损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练，模型在训练过程中，可以使语义相近的样本视频对应的表示在表示空间更接近，语义不相近的样本视频对应的表示在表示空间距离更远，从而可以学习到样本视频之间的区分度，抓到视频各模态信息的本质，训练好的视频标签处理模型能够准确预测视频与话题标签之间的相关度。

在一个实施例中，将先后至少两次将多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出样本视频的至少两个相异的预测概率，包括：将多模态信息与话题标签共同输入不带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型根据多模态信息与话题标签，输出样本视频的原始预测概率；将多模态信息与话题标签共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型，按预设比例随机丢弃话题标签中的部分词语，得到修改后的话题标签，根据多模态信息与修改后的话题标签，输出样本视频的修改预测概率。

具体地，视频标签处理模型中的带特征随机丢弃操作，可以设置在视频标签处理模型的输入层。对于获取的属于正例的训练样本，服务器可以先不启用视频标签处理模型的特征随机丢弃操作，也就是，将样本视频的多模态信息与原始的话题标签，共同输入不带特征随机丢弃操作的视频标签处理模型，进行第一次处理，得到样本视频的原始预测概率。接着，在启用视频标签处理模型的特征随机丢弃操作之后，将样本视频的多模态信息与修改后的的话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，在输入层中，随机丢弃话题标签中的部分词得到修改后的话题标签后，继续基于样本视频与修改后的话题标签进行第二次处理，得到样本视频的修改预测概率。样本视频的原始预测概率与修改预测概率，可看成是相近的两个训练样本对应的概率分布，基于对比学习的思想，该两个相异的预测概率应该靠近。因此，服务器可以基于样本视频的原始预测概率与修改预测概率构建对比损失。

本实施例中，通过对样本视频的话题标签进行修改，修改后再次输入模型，先后得到两个不同的预测概率，不仅可促使模型进行对比学习，抓住视频的本质特征，又相当于对输入数据进行了数据增强，可提升模型的泛化能力。

在一个实施例中，将先后至少两次将多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出样本视频的至少两个相异的预测概率，包括：先后至少两次将多模态信息与话题标签共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型，按预设比例随机丢弃话题标签中的词语得到修改后的话题标签，根据多模态信息与修改后的话题标签，先后输出样本视频的至少两个相异的修改预测概率。

具体地，视频标签处理模型中的带特征随机丢弃操作，可以设置在视频标签处理模型的输入层。对于获取的属于正例的训练样本，服务器可以直接启用视频标签处理模型的特征随机丢弃操作，也就是，先后至少两次(主要以两次为例进行说明)，将样本视频的多模态信息与话题标签输入到视频标签处理模型。在服务器第一次将样本视频的多模态信息与话题标签输入到视频标签处理模型之后，通过输入层对原始的话题标签进行修改，得到第一次修改后的话题标签，继续基于样本视频与修改后的话题标签进行第一次处理，得到样本视频的修改预测概率。类似地，服务器第二次将样本视频的多模态信息与话题标签输入到视频标签处理模型之后，通过输入层对原始的话题标签进行修改，得到第二次修改后的话题标签，继续基于样本视频与修改后的话题标签进行第二次处理，得到样本视频的修改预测概率。

先后两次得到的两个相异的修改预测概率，可看成是相近的两个训练样本对应的概率分布，基于对比学习的思想，该两个相异的预测概率应该靠近。因此，服务器可以基于同一个样本视频的两个修改预测概率构建对比损失。

本实施例中，通过对样本视频的话题标签进行两次修改，两次修改后输入模型，先后得到两个不同的预测概率，不仅可促使模型进行对比学习，抓住视频的本质特征，又相当于对输入数据进行了数据增强，可提升模型的泛化能力。

本申请中，原始的话题标签与修改后的话题标签，区别在于话题标签中的词是否被随机丢弃，也就是视频标签处理模型是否启用了特征随机丢弃操作。可以理解的是，不管是启用了特征随机丢弃操作，还是未启用特征随机丢弃操作，视频标签处理模型对数据的基本处理流程是一致的。为简明介绍，本申请实施例主要详细介绍将样本视频与话题标签输入到不带特征随机丢弃操作的视频标签处理模型中的详细处理流程。

在一个实施例中，多模态信息至少包括样本视频的文本信息与图像信息；如图11所示，通过视频标签处理模型根据多模态信息与话题标签输出样本视频的预测概率的步骤包括：

步骤1102，将文本信息、图像信息与话题标签输入视频标签处理模型。

具体地，服务器可以将该样本视频的文本信息，通过视频标签处理模型的输入层，进行分词得到各个词，将各个词转化为相应的词索引，从而根据各个词的词索引，得到文本信息对应的文本初始向量；通过视频标签处理模型的输入层，对话题标签进行分词得到各个词，将各个词转化为相应的词索引，从而根据各个词的词索引，得到话题标签对应的标签初始向量；通过视频标签处理模型的输入层，将视频帧转化为三通道RGB格式的图像数据，得到图像信息对应的图像初始向量。

步骤1104，通过视频标签处理模型中预训练的文本语义提取子模型，分别将文本信息与话题标签转化为相应的文本语义向量与标签语义向量。

具体地，服务器通过视频标签处理模型中预训练的文本语义提取子模型(如BERT)，可以对文本初始向量进行文本语义特征提取，得到相应的文本语义向量；通过预训练的文本语义提取子模型，可以对标签初始向量进行文本语义特征提取，得到相应的标签语义向量。

步骤1106，通过视频标签处理模型中预训练的图像语义提取子模型，将样本视频的视频帧转化为相应的图像语义向量。

服务器可以通过视频标签处理模型中预训练的图像语义提取子模型(如利用Inception V4提取图像特征，利用NetVLAD模型挖掘帧时序信息从而挖掘整个视频的图像语义)，可以对图像初始向量进行图像语义特征提取，得到相应的图像语义向量。

步骤1108，通过视频标签处理模型中的特征编码子模型，对标签语义向量、文本语义向量与图像语义向量进行特征编码，分别得到相应的标签语义表示、文本语义表示与图像语义表示。

具体地，特征编码子模型可以是基于自注意力机制的神经网络模型，例如基于transformer的编码-解码结构。

服务器可以通过视频标签处理模型中基于自注意力机制的特征编码子模型，对标签语义向量、文本语义向量与图像语义向量进行特征编码，得到相应的标签语义特征、文本语义特征与图像语义特征。

接着，再以标签语义特征为媒介，基于文本语义特征与图像语义特征，分别确定话题标签对话题标签、文本信息与图像信息的自注意力分数，并按自注意力分数融合标签语义特征、文本语义特征与图像语义特征，得到标签语义向量相应的标签语义表示；

服务器还可以以文本语义特征为媒介，基于标签语义特征与图像语义特征，分别确定文本信息对话题标签、文本信息与图像信息的自注意力分数，并按自注意力分数融合标签语义特征、文本语义特征与图像语义特征，得到文本语义向量相应的文本语义表示。

服务器还可以以图像语义特征为媒介，基于标签语义特征与文本语义特征，分别确定图像信息对话题标签、文本信息与图像信息的自注意力分数，并按自注意力分数融合标签语义特征、文本语义特征与图像语义特征，得到图像语义向量相应的图像语义表示。

例如，在得到标签语义向量相应的标签语义表示时，服务器可以通过视频标签处理模型中基于自注意力机制的特征编码子模型，依据三组不同的参数矩阵，分别对标签语义向量、文本语义向量与图像语义向量进行不同的线性变换，得到与标签语义向量对应的请求向量、键向量和值向量，与文本语义向量对应的请求向量、键向量和值向量，以及与图像语义向量对应的请求向量、键向量和值向量。再分别确定标签语义向量对应的请求向量与标签语义向量对应的键向量之间的注意力分数、与文本语义向量对应的键向量之间的注意力分数以及与图像语义向量对应的键向量之间的注意力分数；对注意力分数进行归一化处理后，按各自归一化处理后的注意力分数，融合标签语义向量对应的值向量、文本语义向量对应的值向量以及图像语义向量对应的值向量，得到标签语义向量相应的标签语义表示。

步骤1110，将文本语义表示与图像语义表示拼接，得到样本视频的内容语义表示。

步骤1112，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，基于相关度确定样本视频的预测概率。

本实施例中，通过基于自注意力机制的特征编码子模型，以话题标签为媒介，挖掘话题标签与训练样本的文本信息、图像信息之间的交互融合特征，再将话题标签的语义表示与训练样本的语义表示进行比对，能够准确表达话题标签与训练样本各自的语义的同时，又能表达话题标签与训练样本之间的相关性，提升模型训练效果。

在一个实施例中，特征编码子模型是带随机丢弃注意力操作的子模型，本申请中为达到对比学习的思想，还可以在特征编码子模型的自注意力机制中设置随机丢弃操作。若训练样本为正例，则服务器可以启用特征编码子模型的自注意力机制中设置随机丢弃操作，将该训练样本两次输入至视频标签处理模型中，在特征编码子模型中，通过两次随机丢弃操作，得到两个不同的语义表示，从而得到两个不同的预测概率。具体而言，方法还包括：

随机丢弃注意力分数中的至少一个，丢弃的注意力分数，是标签语义向量对应的请求向量与标签语义向量对应的键向量之间的注意力分数、与文本语义向量对应的键向量之间的注意力分数以及与图像语义向量对应的键向量之间的注意力分数中的至少一个；确定保留的注意力分数的平均值，使用平均值替代随机丢弃的注意力分数，得到替代后的注意力分数；对替代后的注意力分数进行归一化处理后，按各自归一化处理后的注意力分数，融合标签语义向量对应的值向量、文本语义向量对应的值向量以及图像语义向量对应的值向量，得到标签语义向量相应的标签语义表示。

也即，本实施例中，随机丢掉一些特征编码子模型中的注意力分数的计算操作，未计算的注意力分数可以采用其它已计算的注意力分数的平均值替代，当然也可以采用最大值、最小值或默认值替代，从而可以先后得到两个不同的语义表示，最终得到两个不同的预测概率，可促使模型进行相似样本的对比学习，抓住视频的本质特征，提升模型挖掘样本特征的能力。

在一个实施例中，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，基于相关度确定样本视频的预测概率，包括：通过视频标签处理模型中的全连接层，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，将各相关度融合得到样本视频的输出语义表示；通过视频标签处理模型中的分类层，基于输出语义表示对样本视频与话题标签是否相关进行预测，得到样本视频的预测概率。

其中，全连接层可以采用平均池化层，分类层可以采用sotfmax函数实现。

本申请中为达到对比学习的思想，还可以在全连接层中设置随机丢弃操作。若训练样本为正例，则服务器可以启用全连接层中设置随机丢弃操作，将该训练样本两次输入至视频标签处理模型中，在得到特征编码子模型输出的语义表示后，在全连接层中，通过先后两次随机丢弃操作，得到两个不同的预测概率。

具体而言，通过视频标签处理模型中的全连接层，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，将各相关度融合得到样本视频的输出语义表示，包括：

通过视频标签处理模型中的全连接层，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，随机失活全连接层中的全连接节点后，将各相关度融合得到样本视频的输出语义表示。

也即，本实施例中，随机丢掉一些全连接节点，从而可以先后得到两个不同的输出语义表示，最终得到两个不同的预测概率，可促使模型进行相似样本的对比学习，抓住视频的本质特征，提升模型挖掘样本特征的能力。

当然，对于同一个训练样本而言，上述所提及的在输入层设置随机丢弃操作、在自注意力机制中设置随机丢弃操作以及在全连接层设置随机丢弃操作，可以同时全部使用，也可以只采取其中的一种或多种，可以根据实际需求设置。

通过在视频召回系统中引入上述训练好的视频标签处理模型，相比传统多模态分类模型，使得视频的曝光率、点击率得到较大提升。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的模型处理方法的模型处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个模型处理装置实施例中的具体限定可以参见上文中对于模型处理方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种模型处理装置1200，包括：样本获取模块1202、预测模块1204和更新模块1206，其中：

样本获取模块，用于获取训练样本，训练样本包括样本视频的多模态信息、话题标签以及用于表征话题标签与样本视频是否相关的标注信息；

预测模块，用于若训练样本为正例，则先后至少两次将多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出样本视频的至少两个相异的预测概率；预测概率是话题标签与样本视频相关的概率；

更新模块，用于根据基于标注信息与预测概率所构建的预测损失，以及基于至少两个相异的预测概率所构建的对比损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练，训练好的视频标签处理模型用于预测目标视频与目标话题标签是否相关。

在一个实施例中，预测模块，还用于若训练样本为负例，则将多模态信息与话题标签共同输入不带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型输出样本视频的预测概率；预测概率是话题标签与样本视频相关的概率；

更新模块，还用于根据基于标注信息与预测概率所构建的预测损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练。

在一个实施例中，预测模块，还用于将多模态信息与话题标签共同输入不带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型根据多模态信息与话题标签，输出样本视频的原始预测概率；将多模态信息与话题标签共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型，按预设比例随机丢弃话题标签中的部分词语，得到修改后的话题标签，根据多模态信息与修改后的话题标签，输出样本视频的修改预测概率。

在一个实施例中，预测模块，还用于先后至少两次将多模态信息与话题标签共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型，按预设比例随机丢弃话题标签中的词语得到修改后的话题标签，根据多模态信息与修改后的话题标签，先后输出样本视频的至少两个相异的修改预测概率。

在一个实施例中，多模态信息至少包括样本视频的文本信息与图像信息；预测模块还用于将文本信息、图像信息与话题标签输入视频标签处理模型；通过视频标签处理模型中预训练的文本语义提取子模型，分别将文本信息与话题标签转化为相应的文本语义向量与标签语义向量；通过视频标签处理模型中预训练的图像语义提取子模型，将样本视频的视频帧转化为相应的图像语义向量；通过视频标签处理模型中的特征编码子模型，对标签语义向量、文本语义向量与图像语义向量进行特征编码，分别得到相应的标签语义表示、文本语义表示与图像语义表示；将文本语义表示与图像语义表示拼接，得到样本视频的内容语义表示；分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，基于相关度确定样本视频的预测概率。

在一个实施例中，预测模块还用于通过视频标签处理模型中基于自注意力机制的特征编码子模型，对标签语义向量、文本语义向量与图像语义向量进行特征编码，得到相应的标签语义特征、文本语义特征与图像语义特征；以标签语义特征为媒介，基于文本语义特征与图像语义特征，分别确定话题标签对话题标签、文本信息与图像信息的自注意力分数，并按自注意力分数融合标签语义特征、文本语义特征与图像语义特征，得到标签语义向量相应的标签语义表示；以文本语义特征为媒介，基于标签语义特征与图像语义特征，分别确定文本信息对话题标签、文本信息与图像信息的自注意力分数，并按自注意力分数融合标签语义特征、文本语义特征与图像语义特征，得到文本语义向量相应的文本语义表示；以图像语义特征为媒介，基于标签语义特征与文本语义特征，分别确定图像信息对话题标签、文本信息与图像信息的自注意力分数，并按自注意力分数融合标签语义特征、文本语义特征与图像语义特征，得到图像语义向量相应的图像语义表示。

在一个实施例中，预测模块还用于通过视频标签处理模型中基于自注意力机制的特征编码子模型，依据三组不同的参数矩阵，分别对标签语义向量、文本语义向量与图像语义向量进行不同的线性变换，得到与标签语义向量对应的请求向量、键向量和值向量，与文本语义向量对应的请求向量、键向量和值向量，以及与图像语义向量对应的请求向量、键向量和值向量；分别确定标签语义向量对应的请求向量与标签语义向量对应的键向量之间的注意力分数、与文本语义向量对应的键向量之间的注意力分数以及与图像语义向量对应的键向量之间的注意力分数；对注意力分数进行归一化处理后，按各自归一化处理后的注意力分数，融合标签语义向量对应的值向量、文本语义向量对应的值向量以及图像语义向量对应的值向量，得到标签语义向量相应的标签语义表示。

在一个实施例中，特征编码子模型是带随机丢弃注意力操作的子模型，预测模块还用于随机丢弃注意力分数中的至少一个，丢弃的注意力分数，是标签语义向量对应的请求向量与标签语义向量对应的键向量之间的注意力分数、与文本语义向量对应的键向量之间的注意力分数以及与图像语义向量对应的键向量之间的注意力分数中的至少一个；确定保留的注意力分数的平均值，使用平均值替代随机丢弃的注意力分数，得到替代后的注意力分数；对替代后的注意力分数进行归一化处理后，按各自归一化处理后的注意力分数，融合标签语义向量对应的值向量、文本语义向量对应的值向量以及图像语义向量对应的值向量，得到标签语义向量相应的标签语义表示。

在一个实施例中，预测模块还用于通过视频标签处理模型中的全连接层，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，将各相关度融合得到样本视频的输出语义表示；通过视频标签处理模型中的分类层，基于输出语义表示对样本视频与话题标签是否相关进行预测，得到样本视频的预测概率。

在一个实施例中，全连接层带随机丢弃节点操作，预测模块还用于通过视频标签处理模型中的全连接层，分别计算标签语义表示与文本语义表示、图像语义表示以及内容语义表示之间的相关度，随机失活全连接层中的全连接节点后，将各相关度融合得到样本视频的输出语义表示。

在一个实施例中，模型处理装置还包括：难负例挖掘模块，用于将样本视频的多模态信息与话题标签共同输入难负例挖掘模型，通过难负例挖掘模型将多模态信息与话题标签进行交互融合，得到各模态信息对应的语义表示与话题标签的语义表示；将各模态信息对应的语义表示进行融合得到样本视频的语义表示；计算样本视频的语义表示与话题标签的语义表示之间的相似度，将相似度与正负例阈值进行比较，根据比较结果确定训练样本是否为难负例。

在一个实施例中，模型处理装置还包括：标签清洗模块，用于获取目标视频的多模态信息与话题标签；通过训练好的视频标签处理模型，基于目标视频的多模态信息与话题标签，得到关于话题标签与目标视频相关的概率；根据预测概率对目标视频的话题标签进行过滤，过滤后的话题标签用于召回目标视频。

上述模型处理装置，基于对比学习的思想，若训练样本为样本视频与相应的话题标签相关的正样本视例，则先后至少两次将该样本视频的多模态信息与话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过视频标签处理模型先后输出该样本视频的至少两个相异的预测概率，该预测概率是该话题标签与该样本视频相关的概率，这样，根据基于标注信息与预测概率所构建的预测损失，以及基于至少两个相异的预测概率应该尽量靠近思想所构建的对比损失，调整视频标签处理模型的模型参数，以对视频标签处理模型进行模型训练，模型在训练过程中，可以使语义相近的样本视频对应的表示在表示空间更接近，语义不相近的样本视频对应的表示在表示空间距离更远，从而可以学习到样本视频之间的区分度，抓到视频各模态信息的本质，训练好的视频标签处理模型能够准确预测视频与话题标签之间的相关度。

上述模型处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型处理方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请各实施例提供的模型处理方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请各实施例提供的模型处理方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请各实施例提供的模型处理方法的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种模型处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述训练样本为负例，则将所述多模态信息与所述话题标签共同输入不带特征随机丢弃操作的所述视频标签处理模型，通过所述视频标签处理模型输出所述样本视频的预测概率；所述预测概率是所述话题标签与所述样本视频相关的概率；

根据基于所述标注信息与所述预测概率所构建的预测损失，调整所述视频标签处理模型的模型参数，以对所述视频标签处理模型进行模型训练。

3.根据权利要求1所述的方法，其特征在于，所述先后至少两次将所述多模态信息与所述话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过所述视频标签处理模型先后输出所述样本视频的至少两个相异的预测概率，包括：

将所述多模态信息与所述话题标签共同输入不带特征随机丢弃操作的所述视频标签处理模型，通过所述视频标签处理模型根据所述多模态信息与所述话题标签，输出所述样本视频的原始预测概率；

将所述多模态信息与所述话题标签共同输入带特征随机丢弃操作的所述视频标签处理模型，通过所述视频标签处理模型，按预设比例随机丢弃所述话题标签中的部分词语，得到修改后的话题标签，根据所述多模态信息与所述修改后的话题标签，输出所述样本视频的修改预测概率。

4.根据权利要求1所述的方法，其特征在于，所述先后至少两次将所述多模态信息与所述话题标签，共同输入带特征随机丢弃操作的视频标签处理模型，通过所述视频标签处理模型先后输出所述样本视频的至少两个相异的预测概率，包括：

先后至少两次将所述多模态信息与所述话题标签共同输入带特征随机丢弃操作的视频标签处理模型，通过所述视频标签处理模型，按预设比例随机丢弃所述话题标签中的词语得到修改后的话题标签，根据所述多模态信息与所述修改后的话题标签，先后输出所述样本视频的至少两个相异的修改预测概率。

5.根据权利要求1所述的方法，其特征在于，所述多模态信息至少包括所述样本视频的文本信息与图像信息；通过所述视频标签处理模型根据多模态信息与话题标签输出所述样本视频的预测概率的步骤包括：

将所述文本信息、图像信息与所述话题标签输入所述视频标签处理模型；

通过所述视频标签处理模型中预训练的文本语义提取子模型，分别将所述文本信息与所述话题标签转化为相应的文本语义向量与标签语义向量；通过所述视频标签处理模型中预训练的图像语义提取子模型，将所述样本视频的视频帧转化为相应的图像语义向量；

通过所述视频标签处理模型中的特征编码子模型，对所述标签语义向量、所述文本语义向量与所述图像语义向量进行特征编码，分别得到相应的标签语义表示、所述文本语义表示与所述图像语义表示；将所述文本语义表示与所述图像语义表示拼接，得到所述样本视频的内容语义表示；

分别计算所述标签语义表示与所述文本语义表示、所述图像语义表示以及所述内容语义表示之间的相关度，基于所述相关度确定所述样本视频的预测概率。

6.根据权利要求5所述的方法，其特征在于，所述通过所述视频标签处理模型中的特征编码子模型，对所述标签语义向量、所述文本语义向量与所述图像语义向量进行特征编码，分别得到相应的标签语义表示、所述文本语义表示与所述图像语义表示，包括：

通过所述视频标签处理模型中基于自注意力机制的特征编码子模型，对所述标签语义向量、所述文本语义向量与所述图像语义向量进行特征编码，得到相应的标签语义特征、所述文本语义特征与所述图像语义特征；

以所述标签语义特征为媒介，基于所述文本语义特征与所述图像语义特征，分别确定所述话题标签对所述话题标签、所述文本信息与所述图像信息的自注意力分数，并按所述自注意力分数融合所述标签语义特征、所述文本语义特征与所述图像语义特征，得到所述标签语义向量相应的标签语义表示；

以所述文本语义特征为媒介，基于所述标签语义特征与所述图像语义特征，分别确定所述文本信息对所述话题标签、所述文本信息与所述图像信息的自注意力分数，并按所述自注意力分数融合所述标签语义特征、所述文本语义特征与所述图像语义特征，得到所述文本语义向量相应的文本语义表示；

以所述图像语义特征为媒介，基于所述标签语义特征与所述文本语义特征，分别确定所述图像信息对所述话题标签、所述文本信息与所述图像信息的自注意力分数，并按所述自注意力分数融合所述标签语义特征、所述文本语义特征与所述图像语义特征，得到所述图像语义向量相应的图像语义表示。

7.根据权利要求6所述的方法，其特征在于，所述对所述标签语义向量、所述文本语义向量与所述图像语义向量进行特征编码，得到相应的标签语义特征、所述文本语义特征与所述图像语义特征，包括：

通过所述视频标签处理模型中基于自注意力机制的特征编码子模型，依据三组不同的参数矩阵，分别对所述标签语义向量、所述文本语义向量与所述图像语义向量进行不同的线性变换，得到与所述标签语义向量对应的请求向量、键向量和值向量，与所述文本语义向量对应的请求向量、键向量和值向量，以及与所述图像语义向量对应的请求向量、键向量和值向量；

所述以所述标签语义特征为媒介，基于所述文本语义特征与所述图像语义特征，分别确定所述话题标签对所述话题标签、所述文本信息与所述图像信息的自注意力分数，并按所述自注意力分数融合所述标签语义特征、所述文本语义特征与所述图像语义特征，得到所述标签语义向量相应的标签语义表示，包括：

分别确定所述标签语义向量对应的请求向量与所述标签语义向量对应的键向量之间的注意力分数、与所述文本语义向量对应的键向量之间的注意力分数以及与所述图像语义向量对应的键向量之间的注意力分数；

对所述注意力分数进行归一化处理后，按各自归一化处理后的注意力分数，融合所述标签语义向量对应的值向量、所述文本语义向量对应的值向量以及所述图像语义向量对应的值向量，得到所述标签语义向量相应的标签语义表示。

8.根据权利要求7所述的方法，其特征在于，所述特征编码子模型是带随机丢弃注意力操作的子模型，所述方法还包括：

随机丢弃所述注意力分数中的至少一个，丢弃的所述注意力分数，是所述标签语义向量对应的请求向量与所述标签语义向量对应的键向量之间的注意力分数、与所述文本语义向量对应的键向量之间的注意力分数以及与所述图像语义向量对应的键向量之间的注意力分数中的至少一个；

确定保留的注意力分数的平均值，使用所述平均值替代随机丢弃的所述注意力分数，得到替代后的注意力分数；

对所述替代后的注意力分数进行归一化处理后，按各自归一化处理后的注意力分数，融合所述标签语义向量对应的值向量、所述文本语义向量对应的值向量以及所述图像语义向量对应的值向量，得到所述标签语义向量相应的标签语义表示。

9.根据权利要求5所述的方法，其特征在于，所述分别计算所述标签语义表示与所述文本语义表示、所述图像语义表示以及所述内容语义表示之间的相关度，基于所述相关度确定所述样本视频的预测概率，包括：

通过所述视频标签处理模型中的全连接层，分别计算所述标签语义表示与所述文本语义表示、所述图像语义表示以及所述内容语义表示之间的相关度，将各所述相关度融合得到所述样本视频的输出语义表示；

通过所述视频标签处理模型中的分类层，基于所述输出语义表示对所述样本视频与所述话题标签是否相关进行预测，得到所述样本视频的预测概率。

10.根据权利要求9所述的方法，其特征在于，所述全连接层带随机丢弃节点操作，所述通过所述视频标签处理模型中的全连接层，分别计算所述标签语义表示与所述文本语义表示、所述图像语义表示以及所述内容语义表示之间的相关度，将各所述相关度融合得到所述样本视频的输出语义表示，包括：

通过所述视频标签处理模型中的全连接层，分别计算所述标签语义表示与所述文本语义表示、所述图像语义表示以及所述内容语义表示之间的相关度，随机失活全连接层中的全连接节点后，将各所述相关度融合得到所述样本视频的输出语义表示。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述方法还包括：

将所述样本视频的多模态信息与所述话题标签共同输入难负例挖掘模型，通过所述难负例挖掘模型将所述多模态信息与所述话题标签进行交互融合，得到各模态信息对应的语义表示与所述话题标签的语义表示；

将各模态信息对应的语义表示进行融合得到所述样本视频的语义表示；

计算所述样本视频的语义表示与所述话题标签的语义表示之间的相似度，将所述相似度与正负例阈值进行比较，根据比较结果确定所述训练样本是否为难负例。

12.根据权利要求1至10任一项所述的方法，其特征在于，所述方法还包括：

获取目标视频的多模态信息与话题标签；

通过所述训练好的视频标签处理模型，基于所述目标视频的多模态信息与所述话题标签，得到关于所述话题标签与所述目标视频相关的概率；

根据所述预测概率对所述目标视频的话题标签进行过滤，过滤后的话题标签用于召回所述目标视频。

13.一种模型处理装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。