CN114398505B

CN114398505B - 目标词语的确定方法、模型的训练方法、装置及电子设备

Info

Publication number: CN114398505B
Application number: CN202210058255.8A
Authority: CN
Inventors: 黄剑辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2024-08-02
Anticipated expiration: 2042-01-19
Also published as: CN114398505A

Abstract

本发明实施例公开了一种目标词语的确定方法、模型的训练方法、装置及电子设备，该目标词语的确定方法通过全连接特征映射的方式构建注意力机制，来提取各种内容信息对应的注意力特征，利用其余内容信息对应的注意力特征来强化当前内容信息的语义特征提取，将得到的各种内容信息的强化特征进行融合得到融合特征，再根据融合特征来确定目标词语，使得在确定目标词语时结合了不同模态的内容信息，相比于仅通过目标文本来确定目标词语，能够降低与多媒体内容匹配度较低的候选词语所带来的影响，提高确定目标词语的准确性，可以广泛应用于人工智能、云计算、自然语言处理等技术领域。

Description

目标词语的确定方法、模型的训练方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种目标词语的确定方法、模型的训练方法、装置及电子设备。

背景技术

随着互联网技术的快速发展，互联网中多媒体内容的数量呈急剧增长的趋势，利用多媒体内容中包含的文本信息来进行多媒体内容的搜索，成为了当下的研究热点之一。

相关技术中，一般是从多媒体内容包含的文本中确定目标词语来作为搜索标签，通常来说，会采用多媒体内容的标题来确定对应的目标词语。然而，多媒体内容的标题往往会包含与多媒体内容匹配度较低的词语，使得在根据多媒体内容的标题确定目标词语时容易产生混淆，降低了确定目标词语的准确性。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种目标词语的确定方法、模型的训练方法、装置及电子设备，能够提高确定目标词语的准确性。

一方面，本发明实施例提供了一种目标词语的确定方法，包括：

获取目标多媒体内容在多种不同模态下的内容信息，其中，多种所述内容信息包括所述目标多媒体内容的目标文本，所述目标文本包括多个候选词语；

对各种所述内容信息进行特征提取，得到各种所述内容信息对应的语义特征；

对各个所述语义特征进行全连接特征映射，得到各种所述内容信息对应的注意力特征；

遍历各种所述内容信息，将当前遍历的所述内容信息对应的语义特征与目标注意力特征进行融合，得到各种所述内容信息对应的强化特征，将各种所述内容信息对应的所述强化特征进行融合，得到融合特征，其中，所述目标注意力特征为除了当前遍历的内容信息以外其余的内容信息对应的注意力特征；

根据所述融合特征确定各个所述候选词语的分类结果；

根据所述分类结果从多个所述候选词语中确定目标词语。

另一方面，本发明实施例还提供了一种目标词语的确定装置，包括：

内容信息获取模块，用于获取目标多媒体内容在多种不同模态下的内容信息，其中，多种所述内容信息包括所述目标多媒体内容的目标文本，所述目标文本包括多个候选词语；

特征提取模块，用于对各种所述内容信息进行特征提取，得到各种所述内容信息对应的语义特征；

特征映射模块，用于对各个所述语义特征进行全连接特征映射，得到各种所述内容信息对应的注意力特征；

特征融合模块，用于遍历各种所述内容信息，将当前遍历的所述内容信息对应的语义特征与目标注意力特征进行融合，得到各种所述内容信息对应的强化特征，将各种所述内容信息对应的所述强化特征进行融合，得到融合特征，其中，所述目标注意力特征为除了当前遍历的内容信息以外其余的内容信息对应的注意力特征；

分类模块，用于根据所述融合特征确定各个所述候选词语的分类结果；

确定模块，用于根据所述分类结果从多个所述候选词语中确定目标词语。

进一步，上述特征映射模块具体用于：

通过全连接层对各个所述语义特征进行特征映射，得到映射特征；

通过归一化层对所述映射特征进行归一化处理，得到各种所述内容信息对应的注意力特征。

进一步，所述全连接层设置有映射参数矩阵和偏置向量，所述映射参数矩阵和所述偏置向量基于目标语义特征的特征维度得到，上述特征映射模块具体用于：

将所述映射参数矩阵与对应的所述内容信息的所述语义特征进行求积，得到第一特征；

将所述第一特征与所述偏置向量进行求和，得到第二特征；

通过激活函数层对所述第二特征进行激活处理，得到映射特征。

进一步，上述特征融合模块具体用于：

当所述目标注意力特征的数量为一个，将当前遍历的语义特征与所述目标注意力特征进行求积或者拼接，得到语义特征对应的强化特征；

或者，当所述目标注意力特征的数量为至少两个，根据至少两个所述目标注意力特征得到融合注意力特征，将当前遍历的语义特征与所述融合注意力特征进行求积，得到各个所述语义特征对应的强化特征；

或者，当所述目标注意力特征的数量为至少两个，根据各个所述目标注意力特征与当前遍历的语义特征求积后进行拼接，得到各个所述语义特征对应的强化特征。

进一步，多种所述内容信息还包括所述目标多媒体内容的目标图像，上述内容信息获取模块具体用于：

获取所述目标多媒体内容的标题、简介或者字幕中的至少一种，将所述标题或者所述字幕中的至少一种作为所述目标多媒体内容的所述目标文本；

对所述目标多媒体内容进行分帧处理，得到多个候选图像，从多个所述候选图像中确定所述目标多媒体内容的所述目标图像。

进一步，上述内容信息获取模块具体用于：

将多个所述候选图像输入至目标图像确定模型，对多个所述候选图像进行特征提取，得到各个所述候选图像对应的候选图像特征，根据所述候选图像特征计算各个所述候选图像对应的目标得分；

根据所述目标得分从多个所述候选图像中确定所述目标多媒体内容的所述目标图像。

进一步，所述目标图像确定模型通过以下步骤训练得到：

获取样本图像；

将所述样本图像输入至所述目标图像确定模型，对所述样本图像进行特征提取，得到所述样本图像对应的样本图像特征，根据所述样本图像特征计算所述样本图像对应的样本得分；

将所述样本图像特征与所述样本得分进行加权，得到所述样本图像特征对应的加权图像特征；

对所述加权图像特征进行编码，得到编码图像特征；

对所述编码图像特征进行解码，得到解码图像特征；

将所述解码图像特征与所述样本图像特征进行比对，根据比对结果确定第一损失值，根据所述第一损失值修正所述目标图像确定模型的第一模型参数。

进一步，上述特征提取模块具体用于：

对所述目标文本进行编码得到句子特征；

对所述候选词语进行编码得到所述候选词语的词语特征；

将所述句子特征与所述候选词语对应的词语特征进行融合，得到所述目标文本对应的语义特征；

对所述目标图像进行编码，得到所述目标图像对应的语义特征。

进一步，多种所述内容信息还包括所述目标多媒体内容的目标音频，上述特征提取模块还用于：

对所述目标音频进行分帧处理得到多个音频帧，对多个所述音频帧进行编码得到各个所述音频帧的音频特征，对多个所述音频特征进行求平均处理得到所述目标音频对应的语义特征；

或者，对所述目标音频进行转换处理，得到音频文本，对所述音频文本进行编码得到所述目标音频对应的语义特征。

进一步，上述分类模块具体用于：

根据所述融合特征进行二分类处理，得到各个所述候选词语的分类结果；

或者，根据所述融合特征计算各个所述候选词语对应的权重值，根据所述权重值得到各个所述候选词语的分类结果。

另一方面，本发明实施例还提供了一种目标词语确定模型的训练方法，包括：

获取目标多媒体内容在多种不同模态下的训练信息，其中，多种所述训练信息包括所述目标多媒体内容的目标文本，所述目标文本包括多个候选词语；

获取所述目标文本的词语标签，将多种所述训练信息输入至目标词语确定模型，所述目标词语确定模型包括语义识别网络、注意力网络、特征融合网络和分类网络；

通过所述语义识别网络对各种所述训练信息进行特征提取，得到各种所述训练信息对应的语义特征；

通过所述注意力网络对各个所述语义特征进行全连接特征映射，得到各种所述训练信息对应的注意力特征；

遍历各种所述训练信息，通过所述特征融合网络将当前遍历的所述训练信息对应的语义特征与目标注意力特征进行融合，得到各种所述训练信息对应的强化特征，将各种所述训练信息对应的所述强化特征进行融合，得到融合特征，其中，所述目标注意力特征为除了当前遍历的训练信息以外其余的训练信息对应的注意力特征；

通过所述分类网络根据所述融合特征确定各个所述候选词语的分类结果；

根据所述分类结果从多个所述候选词语中确定目标词语，根据所述目标词语与所述词语标签确定第二损失值，根据所述第二损失值修正所述目标词语确定模型的第二模型参数，所述第二模型参数至少包括所述注意力网络的特征映射参数。

另一方面，本发明实施例还提供了一种目标词语确定模型的训练装置，包括：

样本获取模块，用于获取目标多媒体内容在多种不同模态下的训练信息，其中，多种所述训练信息包括所述目标多媒体内容的目标文本，所述目标文本包括多个候选词语；

模型处理模块，用于获取所述目标文本的词语标签，将多种所述训练信息输入至目标词语确定模型，所述目标词语确定模型包括语义识别网络、注意力网络、特征融合网络和分类网络；

上述模型处理模块还用于通过所述语义识别网络对各种所述训练信息进行特征提取，得到各种所述训练信息对应的语义特征；

上述模型处理模块还用于通过所述注意力网络对各个所述语义特征进行全连接特征映射，得到各种所述训练信息对应的注意力特征；

上述模型处理模块还用于遍历各种所述训练信息，通过所述特征融合网络将当前遍历的所述训练信息对应的语义特征与目标注意力特征进行融合，得到各种所述训练信息对应的强化特征，将各种所述训练信息对应的所述强化特征进行融合，得到融合特征，其中，所述目标注意力特征为除了当前遍历的训练信息以外其余的训练信息对应的注意力特征；

上述模型处理模块还用于通过所述分类网络根据所述融合特征确定各个所述候选词语的分类结果；

参数修正模块，用于根据所述分类结果从多个所述候选词语中确定目标词语，根据所述目标词语与所述词语标签确定第二损失值，根据所述第二损失值修正所述目标词语确定模型的第二模型参数，所述第二模型参数至少包括所述注意力网络的特征映射参数。

另一方面，本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的目标词语的确定方法或者目标词语确定模型的训练方法。

另一方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现上述的目标词语的确定方法或者目标词语确定模型的训练方法。

另一方面，本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的目标词语的确定方法或者目标词语确定模型的训练方法。

本发明实施例至少包括以下有益效果：通过获取目标多媒体内容在多种不同模态下的内容信息，可以强化目标词语确定模型输入侧的信号；并且，通过提取各种所述内容信息对应的语义特征，基于全连接特征映射的方式得到各种所述内容信息对应的注意力特征，再将各种内容信息对应的语义特征与其余内容信息对应的注意力特征进行融合，能够利用其余模态的内容信息来强化当前模态的内容信息的特征提取，加强不同模态的内容信息之间的交互，充分发挥各模态信息互补的优势，使得各种内容信息的语义特征提取更加准确；然后，将经过注意力特征强化提取后得到的各种内容信息的强化特征进行融合，进而根据融合特征进行分类来确定目标词语，使得在确定目标词语时结合了不同模态的内容信息，相比于仅通过目标文本来确定目标词语，能够降低与多媒体内容匹配度较低的候选词语所带来的影响，提高确定目标词语的准确性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的视频展示示意图；

图2为本发明实施例提供的一种实施环境的示意图；

图3为本发明实施例提供的目标词语确定模型的总体结构示意图；

图4为本发明实施例提供的目标词语确定方法的流程示意图；

图5为本发明实施例提供的确定候选词语词权重的示意图；

图6为本发明实施例提供的目标图像确定模型的训练架构示意图；

图7为本发明实施例提供的目标词语确定模型的一种具体结构示意图；

图8为本发明实施例提供的第一语义识别子网络的一种结构示意图；

图9为本发明实施例提供的第一语义识别子网络的特征处理流程示意图；

图10为本发明实施例提供的目标词语确定模型的另一种具体结构示意图；

图11为本发明实施例提供的目标词语确定模型的训练方法的流程示意图；

图12为本发明实施例提供的确定目标词语的一种完整处理过程示意图；

图13为本发明实施例提供的确定目标词语的另一种完整处理过程示意图；

图14为本发明实施例提供的目标词语的确定装置的结构示意图；

图15为本发明实施例提供的目标词语确定模型的训练装置的结构示意图；

图16为本发明实施例提供的服务器的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为便于理解本申请实施例提供的技术方案，这里先对本发明实施例使用的一些关键名词进行解释：

词语的权重值：表征词语对表达句子的语义所起到的作用大小，词语的权重值越高，表明该词语与句子语义之间的关系越密切。

模态(moda l ity)：表征多媒体内容的形式，多媒体内容可以是视频、音频等，本发明实施例中主要以多媒体内容为视频作为例子进行说明。对于视频而言，视频信息的媒介包括有音频、图像以及文本，那么每一种媒介形式都可以称为视频的一种模态，即音频模态图像模态以及文本模态。

卷积神经网络(Convo l ut iona l Neura l Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neura l Networks)，是深度学习(deeplearn ing)的代表算法之一。

残差神经网络(Res idua l Network，ResNet)：一种基于深度学习的特征提取神经网络。在传统的深度学习中，在神经网络可以收敛的前提下，随着网络深度增加，网络的表现先是逐渐增加至饱和，然后迅速下降，即为网络退化问题；在传统的深度学习中，存在梯度弥散问题；残差神经网络为深度学习神经网络添加一个恒等映射，解决了上述网络退化问题和梯度弥散问题。

双向编码转换模型(Bid i rect iona l Encoder Representat ionsfromTransformers，BERT)：一种句子转换模型，可实现将真实世界抽象存在的文字转换成能够进行数学公式操作的向量。在一个实施例中，BERT将输入的文本转换为文本向量，该文本向量包含文本的信息，即可用该文本向量替换上述文本。

深度神经网络(Deep Neura l Networks，DNN)：含有全连接的神经元结构的多层神经网络，实现把真实世界存在的客观事物转换为可以进行数学公式操作的向量。在一个实施例中，DNN将输入的词语转换为词向量，该词向量包含词语的信息，即可用该词向量替换上述词语。

长短期记忆(Long short-term memory,LSTM)是一种特殊的循环神经网络，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的循环神经网络，LSTM能够在更长的序列中有更好的表现。

注意力(Attent ion)机制：注意力机制的本质来自于人类视觉注意力机制，人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分，而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。因此，注意力机制实质上是从大量信息中筛选出高价值信息的手段，在大量信息中，不同信息对于结果的重要性是不同的，这种重要性可以通过赋予不同大小的权值来体现，换言之，注意力机制可以理解成对多个来源进行合成时分配权重的一种规则。

人工智能(Art ificia l I nte l l igence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Mach ine Learn ing,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

计算机视觉技术(CV，Computer Vi s ion)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(NLP，Nature Language process ing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

云计算(c loud comput ing)指I T(I nternet Techno logy，互联网技术)基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Gr id Comput ing)、分布式计算(Di str ibuted Comput ing)、并行计算(Para l le l Comput ing)、效用计算(Ut i lity Comput ing)、网络存储(Network Storage Techno logies)、虚拟化(Vi rtua l ization)、负载均衡(Load Ba l ance)等传统计算机和网络技术发展融合的产物。

相关技术中，一般是从多媒体内容包含的文本中确定目标词语来作为搜索标签，通常来说，会采用多媒体内容的标题来确定对应的目标词语。然而，多媒体内容的标题往往会包含与多媒体内容匹配度较低的文本，例如，参照图1，图1为本发明实施例提供的视频展示示意图，该视频的视频标题为“双击这个视频，你会发现红烧肉比酸菜鱼的做法更简单”，显然这个视频讲述的是红烧肉的做法，即该文本中的目标词语应为“红烧肉”，但是在确定目标词语时，往往会错误地确定为“酸菜鱼”。

可见，上述情况会使得在根据多媒体内容的标题确定目标词语时容易产生混淆，降低了确定目标词语的准确性。

基于此，本发明实施例提供了一种目标词语的确定方法、模型的训练方法、装置及电子设备，能够提高确定目标词语的准确性。

参照图2，图2为本发明实施例提供的一种实施环境的示意图，该实施环境包括终端201和服务器202，其中，终端201和服务器202之间通过通信网络203连接。

服务器202可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content De l ivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

另外，服务器202还可以是区块链网络中的一个节点服务器。

终端201可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等，但并不局限于此。终端201以及服务器202可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例在此不做限制。

本发明实施例提供的方法可应用于各种技术领域，包括但不限于云技术、人工智能、自然语言处理等技术领域。

以目标多媒体内容为视频作为例子，本发明实施例提供的目标词语确定方法可以应用于视频搜索场景，服务器202通过本发明实施例提供的目标词语确定方法确定多个候选视频对应的视频索引，根据搜索关键词和视频索引之间的匹配关系从多个候选视频中确定目标视频，得到搜索结果，再将搜索结果发送至搜索终端进行显示。

具体地，服务器202可以先通过本发明实施例提供的目标词语确定方法从候选视频的目标文本中确定出目标词语，再根据上述目标词语确定候选视频对应的视频索引，例如，若目标词语为“角色A”、“手机”、“玩”，则可以确定视频索引为“游戏”，当然，也可以更细致地确定视频索引为“游戏X”。另外，服务器202可以将候选视频对应的视频索引预先存储，以便后续进行目标视频的匹配。

除此以外，本发明实施例提供的目标词语确定方法还可以应用于视频推荐场景，服务器202通过本发明实施例提供的目标词语确定方法确定多个候选视频对应的视频索引，根据待推荐终端对应的标签和视频索引之间的匹配关系从多个候选视频中确定目标视频，得到推荐结果，再将推荐结果发送至待推荐终端进行显示。

除此以外，本发明实施例提供的目标词语确定方法还可以应用于视频分类场景，服务器202通过本发明实施例提供的目标词语确定方法确定多个待分类视频对应的视频索引，再根据视频索引来对待分类视频进行分类，便于对待分类视频进行存储或者整合等操作。

在一种可能的实现方式中，服务器202可以通过目标词语确定模型来确定目标词语。参照图3，图3为本发明实施例提供的目标词语确定模型的总体结构示意图，该目标词语确定模型包括语义识别网络、注意力网络、特征融合网络和分类网络，其中，语义识别网络主要用于对各种所述内容信息进行特征提取；注意力网络用于对语义识别网络提取到的语义特征进行全连接特征映射；特征融合网络用于进行特征融合，具体先将某个内容信息的语义特征与其他内容信息的注意力特征融合，然后将融合注意力特征后各种内容信息的语义特征融合；分类网络用于确定目标词语。

具体地，服务器202将获取到的包括目标文本在内的多种不同模态下的内容信息输入至目标词语确定模型中；

通过语义识别网络对各种所述内容信息进行特征提取，得到各种所述内容信息对应的语义特征；

通过注意力网络对各个所述语义特征进行全连接特征映射，得到各种所述内容信息对应的注意力特征；

通过特征融合网络将各种内容信息的语义特征与其他内容信息的注意力特征融合，得到各种所述内容信息对应的强化特征，然后将融合注意力特征后各种内容信息的语义特征融合，得到融合特征；

通过分类网络根据所述融合特征进行分类，进而确定目标词语。

本发明实施例中，采用全连接特征映射的方式构建注意力机制，可以对目标词语确定模型进行深度联合建模，充分发挥各模态信息互补的优势，提升目标词语确定模型的建模效果。

参照图4，图4为本发明实施例提供的目标词语确定方法的流程示意图，该目标词语确定方法可以由图2所示的服务器202执行，也可以由图2所示的终端201执行，还可以由图2所示的终端201和服务器202配合执行，本发明实施例以该目标词语确定方法由图2所示的服务器202执行作为例子进行说明，该目标词语确定方法包括但不限于以下步骤401至步骤405。

步骤401：获取目标多媒体内容在多种不同模态下的内容信息。

其中，通过获取目标多媒体内容在多种不同模态下的内容信息，可以强化目标词语确定模型输入侧的信号。目标多媒体内容在多种不同模态下的内容信息可以是包括目标多媒体内容的目标文本在内的至少两种内容信息，例如多种不同模态下的内容信息可以包括目标文本和目标图像，或者可以包括目标文本和目标音频，或者可以包括目标文本、目标图像和目标音频等等。目标文本包括多个候选词语，目标多媒体内容可以是视频，目标文本可以是视频的标题、简介或者字幕中的至少一种，对于字幕来说，可以采用光学字符识别(Opt ica lCharacter Recogn it ion，OCR)技术从视频画面中提取获得。

例如，目标文本可以为“这角色A没救了，经济被压制，完全起不来，手机给你来玩”，则候选词语为“角色A”、“经济”、“压制”、“手机”、“没救”、“起不来”、“这”等等。

步骤402：对各种内容信息进行特征提取，得到各种内容信息对应的语义特征；

其中，语义特征可以采用向量的形式进行表示，对各种内容信息进行特征提取，由于输入至目标词语确定模型的内容信息具有多种不同的模态，因此语义识别网络分别对不同模态的内容信息进行特征提取。

例如，当多种不同模态下的内容信息包括目标文本和目标图像时，则分别对目标文本和目标图像进行特征提取，得到目标文本对应的语义特征以及目标图像对应的语义特征；当多种不同模态下的内容信息包括目标文本、目标图像和目标音频时，分别对目标文本、目标图像和目标音频进行特征提取，得到目标文本对应的语义特征、目标图像对应的语义特征以及目标音频对应的语义特征。

步骤403：对各个语义特征进行全连接特征映射，得到各种内容信息对应的注意力特征；

其中，注意力特征可以采用向量的形式进行表示，步骤403中通过全连接特征映射的方式构建注意力机制，全连接特征映射的作用是对语义特征进行特征空间变换，从而使语义特征的特征维度发生变化，注意力特征为语义特征在不同的特征维度的向量表示。在一种可能的实现方式中，某个语义特征进行全连接特征映射后得到的注意力特征的特征维度与其他语义特征的特征维度对齐，从而便于后续的特征融合操作。

例如，当多种不同模态下的内容信息包括目标文本和目标图像时，对目标文本的语义特征进行全连接特征映射后得到的注意力特征的特征维度，与目标图像的语义特征的特征维度对齐；当多种不同模态下的内容信息包括目标文本、目标图像和目标音频时，则对目标文本的语义特征进行全连接特征映射后可以得到两个注意力特征，并且这两个注意力特征的特征维度分别与目标图像、目标音频的语义特征的特征维度对齐。

步骤404：遍历各种内容信息，将当前遍历的内容信息对应的语义特征与目标注意力特征进行融合，得到各种内容信息对应的强化特征，将各种内容信息对应的强化特征进行融合，得到融合特征；

其中，目标注意力特征为除了当前遍历的内容信息以外的其余内容信息对应的注意力特征。例如，当多种不同模态下的内容信息包括目标文本和目标图像时，假设当前遍历的内容信息为目标文本，则目标注意力特征为目标图像对应的注意力特征；假设当前遍历的内容信息为目标图像，则目标注意力特征为目标文本对应的注意力特征。当多种不同模态下的内容信息包括目标文本、目标图像和目标音频时目标注意力特征的含义相类似，在此不再赘述。

强化特征由当前遍历的内容信息对应的语义特征与目标注意力特征融合得到，融合的方式可以是拼接，强化特征可以理解为利用其余模态的内容信息强化提取得到的语义特征。例如，当多种不同模态下的内容信息包括目标文本和目标图像时，若当前遍历的内容信息为目标文本，则目标文本对应的强化特征由目标文本对应的语义特征与目标图像的注意力特征进行融合得到；当多种不同模态下的内容信息包括目标文本、目标图像和目标音频时，若当前遍历的内容信息为目标文本，则目标文本对应的强化特征由目标文本对应的语义特征与目标图像的注意力特征、目标音频的注意力特征进行融合得到。

通过特征融合网络将当前遍历的内容信息对应的语义特征与目标注意力特征进行融合，能够利用其余模态的内容信息来强化当前模态的内容信息的特征提取，加强不同模态的内容信息之间的交互，使得各种内容信息的语义特征提取更加准确。

步骤405：根据融合特征确定各个候选词语的分类结果；

步骤406：根据分类结果从多个候选词语中确定目标词语。

其中，根据融合特征确定各个候选词语的分类结果，可以是根据融合特征进行二分类处理，得到各个候选词语的分类结果。例如，将融合特征输入至分类器中进行二分类，输出为“0”或者“1”，“0”代表某个候选词语不是目标词语，“1”代表某个候选词语为目标词语。

另外，根据融合特征确定各个候选词语的分类结果，也可以是根据融合特征计算各个候选词语对应的权重值，根据权重值得到各个候选词语的分类结果。具体地，可以将融合特征输入至分类器，输出各个候选词语对应的权重值，权重值大于预设的权重阈值的候选词语为目标词语。例如，参照图5，图5为本发明实施例提供的确定候选词语词权重的示意图，可见，候选词语“角色A”的权重值为0.91、候选词语“经济”的权重值为0.81、候选词语“压制”的权重值为0.7、候选词语“手机”的权重值为0.3、候选词语“没救”的权重值为0.2、候选词语“起不来”的权重值为0.2、候选词语“这”的权重值为0.1，基于此，假设权重阈值为0.8，则目标词语为“角色A”和“经济”。可以理解的是，权重阈值可以根据实际需求设定，本发明实施例不做限定。

可以理解的是，输出候选词语的二分类结果或者权重值时，可以一次性输出所有候选词语的二分类结果或者权重值，或者依次分别输出各个候选词语的二分类结果或者权重值，本发明实施例不做限定。

上述步骤401至步骤406通过全连接特征映射的方式构建注意力机制，来提取各种内容信息对应的注意力特征，利用其余内容信息对应的注意力特征来强化当前内容信息的语义特征提取，将得到的各种内容信息的强化特征进行融合得到融合特征，再根据融合特征来确定目标词语，使得在确定目标词语时结合了不同模态的内容信息，相比于仅通过目标文本来确定目标词语，能够降低与多媒体内容匹配度较低的候选词语所带来的影响，提高确定目标词语的准确性，另外，由于确定目标词语的准确性提高了，也可以提高从目标文本中确定目标词语的完整性。

下面以目标多媒体内容为视频作为例子详细说明本发明实施例中目标词语的确定方法的原理，该视频在多种不同模态下的内容信息包括目标文本和目标图像。

相应地，上述步骤401中，获取目标多媒体内容在多种不同模态下的内容信息，具体可以是获取目标多媒体内容的标题、简介或者字幕中的至少一种，将标题或者字幕中的至少一种作为目标多媒体内容的目标文本；对目标多媒体内容进行分帧处理，得到多个候选图像，从多个候选图像中确定目标多媒体内容的目标图像。

其中，从多个候选图像中确定目标多媒体内容的目标图像，可以将视频的封面帧或者首帧的图像作为目标图像；或者，也可以人工观看视频后提取目标图像；或者，也可以通过目标图像确定模型来得到目标图像。

通过目标图像确定模型来得到目标图像时，具体可以将多个候选图像输入至目标图像确定模型，对多个候选图像进行特征提取，得到各个候选图像对应的候选图像特征，根据候选图像特征计算各个候选图像对应的目标得分，根据目标得分从多个候选图像中确定目标多媒体内容的目标图像。其中，经过目标图像确定模型处理后可以得到各个候选图像对应的目标得分，目标得分最高的候选图像即为目标图像。相较于将视频的封面帧或者首帧的图像作为目标图像，通过目标图像确定模型来确定目标图像，更具合理性且准确性更高，使得目标图像更能够表达视频的中心思想；而相较于人工方式确定目标图像，通过目标图像确定模型来确定目标图像，确定效率更高。

其中，上述目标图像确定模型可以预先训练得到，在训练上述目标图像确定模型时，可以获取样本图像，将样本图像输入至目标图像确定模型，对样本图像进行特征提取，得到样本图像对应的样本图像特征；根据样本图像特征计算样本图像对应的样本得分；将样本图像特征与样本得分进行加权，得到样本图像特征对应的加权图像特征；对加权图像特征进行编码，得到编码图像特征；对编码图像特征进行解码，得到解码图像特征；将解码图像特征与样本图像特征进行比对，根据比对结果确定第一损失值，根据第一损失值修正目标图像确定模型的第一模型参数。

在实际应用中，可以将目标图像确定模型配置在服务器中，通过接口调用的方式调用目标图像确定模型来进行目标图像的确定。

具体地，参照图6，图6为本发明实施例提供的目标图像确定模型的训练架构示意图，将样本图像输入至目标图像确定模型，通过目标图像确定模型的第一神经网络处理得到样本图像对应的样本图像特征后，再通过目标图像确定模型的第二神经网络处理样本图像特征得到样本图像特征对应的样本得分；

然后，再将样本图像特征与对应的样本得分进行加权处理，得到样本图像特征对应的加权图像特征；

然后，再通过第三神经网络对加权图像特征进行编码，得到编码图像特征；

然后，再通过第四神经网络对编码图像特征进行解码，得到解码图像特征，此时第四神经网络的作用实际上是恢复出原来的样本图像特征；

最后，通过比对网络将恢复得到的解码图像特征与样本图像特征进行比对，根据比对结果确定第一损失值，根据第一损失值修正目标图像确定模型的第一模型参数，第一损失值的计算可以采用对数损失函数、平方损失函数、指数损失函数、绝对值损失函数等等，本发明实施例不做限定。计算得到第一损失值后，可以修正上述第一神经网络和第二神经网络的参数。

在训练目标图像确定模型时，样本图像的数量为多个，而基于图6所示的训练架构对目标图像确定模型进行训练，通过对样本得分加权后的加权图像特征进行编码解码处理，无须预先为多个样本图像进行目标图像的标注，有利于降低人工处理成本，提高目标图像确定模型的训练效率。

在一种可能的实现方式中，上述第一神经网络可以是CNN，第二神经网络、第三神经网络和第四神经网络可以是LSTM。

在一种可能的实现方式中，上述步骤402可以通过图3所示的目标词语确定模型的语义识别网络来实现。相应地，参照图7，图7为本发明实施例提供的目标词语确定模型的一种具体结构示意图，语义识别网络包括第一语义识别子网络和第二语义识别子网络，第一语义识别子网络用于提取目标文本的语义特征，第二语义识别子网络用于提取目标图像的语义特征。

可以理解的是，语义识别网络也可以不划分为多个语义识别子网络，不同模态的内容信息依次通过语义识别网络进行特征提取。

相应地，上述步骤402中，在对各种内容信息进行特征提取，得到各种内容信息对应的语义特征时，具体可以是对目标文本进行编码得到句子特征，对候选词语进行编码得到候选词语的词语特征，将句子特征与候选词语对应的词语特征进行融合，得到目标文本对应的语义特征，对目标图像进行编码，得到目标图像对应的语义特征。

对于目标文本来说，具体地，参照图8，图8为本发明实施例提供的第一语义识别子网络的一种结构示意图，第一语义识别子网络包括句子语义识别模块、词语语义识别模块和语义特征生成模块，语义特征生成模块输出的语义特征用于与目标图像对应的语义特征来对候选词语进行分类，图8示例性地采用二分类的方式进行分类。

参照图9，图9为本发明实施例提供的第一语义识别子网络的特征处理流程示意图，句子语义识别模块用于对目标文本进行编码得到句子特征，词语语义识别模块用于对候选词语进行编码得到候选词语的词语特征，然后语义特征生成模块将句子特征和词语特征进行融合得到目标文本的语义特征。其中，句子语义识别模块可以采用BERT或者LSTM，词语语义识别模块可以采用DNN。语义特征生成模块可以采用拼接的方式将句子特征和词语特征进行融合，例如句子语义识别模块输出的句子特征的维度为768，词语语义识别模块输出的词语特征的维度为50，则语义特征生成模块输出的语义特征的维度为818。

在此基础上，每次输入至第一语义识别子网络的候选词语数量为一个，每次输入的是当前待确定是否为目标词语的候选词语。相应地，后续根据融合特征进行分类时，输出的是该候选词语对应的权重值。

例如，目标文本为“这角色A没救了，经济被压制，完全起不来，手机给你来玩”，则候选词语可以为“角色A”、“经济”、“压制”、“手机”、“没救”、“起不来”、“这”等等。图7中以当前待确定的候选词语为“角色A”为例进行展示。

通过分别对目标文本进行编码得到句子特征，对各个候选词语进行编码得到各个候选词语的词语特征，再将句子特征和词语特征进行融合得到目标文本的语义特征，可以使得目标文本侧的语义特征携带的信息更加丰富，有利于提高后续确定目标词语的准确性。

在一种可能的实现方式中，第一语义识别子网络也可以只包括句子语义识别模块，此时句子语义识别模块可以采用BERT，BERT可以输出目标文本中每个单字的特征，此时可以根据每个单字的特征拼接得到候选词语的词语特征，再将句子特征和词语特征进行融合得到目标文本的语义特征。

在一种可能的实现方式中，当目标文本包括多种类型的文本时，例如目标文本包括标题和字幕，可以将标题和字幕拼接成一个长句，再将拼接得到的长句作为目标文本输入至第一语义识别子网络，从而可以丰富目标文本所携带的信息，有利于提高后续确定目标词语的准确性。

对于目标图像来说，第二语义识别子网络可以为ResNet。

在一种可能的实现方式中，上述步骤403可以通过图3所示的目标词语确定模型的注意力网络来实现。相应地，参照图7，注意力网络包括第一注意力子网络和第二注意力子网络，第一注意力子网络用于对目标文本的语义特征进行全连接特征映射，第二注意力子网络用于对目标图像的语义特征进行全连接特征映射。

可以理解的是，当目标文本和目标图像的语义特征的特征维度相同时，注意力网络也可以不划分为多个注意力子网络，不同模态的内容信息对应的语义特征依次通过注意力网络进行全连接特征映射。

第一注意力子网络和第二注意力子网络均可以设置有全连接层和归一化层，通过全连接层映射的方式来构建注意力机制。相应地，上述步骤403中，在对各个语义特征进行全连接特征映射，得到各种内容信息对应的注意力特征时，具体可以通过全连接层对各个语义特征进行特征映射，得到映射特征，通过归一化层对映射特征进行归一化处理，得到各种内容信息对应的注意力特征。

具体地，第一注意力子网络和第二注意力子网络还可以设置有激活函数层，全连接层设置有映射参数矩阵和偏置向量，在通过全连接层对各个语义特征进行特征映射，得到映射特征时，具体可以将映射参数矩阵与对应的内容信息的语义特征进行求积，得到第一特征，将第一特征与偏置向量进行求和，得到第二特征，通过激活函数层对第二特征进行激活处理，得到映射特征。

上述全连接特征映射可以采用以下公式表示：

Att＝σ(w^Tx+b)

其中，Att表示注意力特征，σ表示归一化函数，w^T表示映射参数矩阵，b表示偏置向量，x表示语义特征。

其中，上述映射参数矩阵和偏置向量基于目标语义特征的特征维度得到，目标语义特征为除了待映射的语义特征以外其余的语义特征，例如当前待映射的为目标文本对应的语义特征，则目标语义特征为目标图像对应的语义特征，在确定映射参数矩阵和偏置向量时，需要使得目标文本对应的语义特征经过映射后得到的注意力特征的维度，和目标图像对应的语义特征的维度对齐，从而便于后续的特征融合操作。而通过激活函数对第二特征进行激活处理，能够增加注意力网络的非线性，提高映射特征的表达效果。

在本例子中，视频在多种不同模态下的内容信息包括目标文本和目标图像，即目标注意力特征的数量为一个，目标注意力特征为除了当前遍历的训练信息以外其余的训练信息对应的注意力特征。相应地，上述步骤404中，将当前遍历的语义特征与目标注意力特征进行融合，得到各个语义特征对应的强化特征，具体可以是将当前遍历的语义特征与目标注意力特征进行求积或者拼接，得到语义特征对应的强化特征。

例如，若当前遍历的为目标文本对应的语义特征，目标注意力特征相应地为目标图像对应的注意力特征，则目标文本对应的强化特征通过目标文本对应的语义特征与目标图像对应的注意力特征求积或者拼接得到；若当前遍历的为目标图像对应的语义特征，目标注意力特征相应地为目标文本对应的注意力特征，则目标图像对应的强化特征通过目标图像对应的语义特征与目标文本对应的注意力特征求积或者拼接得到。

相关技术中，也可以采用自注意力的方式来构建注意力机制，具体先在服务器预设查询向量权重矩阵、键向量权重矩阵和值向量权重矩阵，将目标文本对应的语义特征分别与预设的查询向量权重矩阵、键向量权重矩阵和值向量权重矩阵相乘，得到目标文本对应的查询向量、键向量和值向量。类似地可以得到目标图像对应的查询向量、键向量和值向量。然后，可以根据目标文本对应的查询向量分别与目标文本对应的键向量、目标图像对应的键向量相乘，得到目标文本对应的注意力权重值和目标图像对应的注意力权重值，进而根据目标文本和目标图像对应的值向量与注意力权重值进行加权求和，得到目标文本对应的强化特征。目标图像对应的强化特征原理相类似，在此不再赘述。可见，上述自注意力的方式计算复杂度较高，而本发明实施例中通过全连接层映射的方式来构建注意力机制，在达到目标词语确定模型的深度建模效果的同时，有利于降低模型结构的复杂度，提高模型性能。

下面以该视频在多种不同模态下的内容信息包括目标文本、目标图像和目标音频作为例子说明本发明实施例中目标词语的确定方法的原理。

基于此，上述步骤401中，获取目标多媒体内容在多种不同模态下的内容信息，除了获取上述目标文本和目标图像以外，还进一步获取目标音频，其中，目标音频可以是跟目标图像关联的音频，例如在播放目标图像时相应播放的音频。相应地，上述步骤402中，在对各种内容信息进行特征提取，得到各种内容信息对应的语义特征时，还可以对目标音频进行分帧处理得到多个音频帧，对多个音频帧进行编码得到各个音频帧的音频特征，对多个音频特征进行求平均处理得到目标音频对应的语义特征。

其中，可以根据预设的时长间隔对音频进行分帧处理，或者通过预先训练好的分帧模型来对音频进行分帧处理，本发明实施例不做限定。而通过对多个音频特征进行求平均处理得到目标音频对应的语义特征，可以使得目标音频对应的语义特征表达更加合理，使得后续在确定目标词语时更加准确。

相应地，参照图10，图10为本发明实施例提供的目标词语确定模型的另一种具体结构示意图，在图7所示的结构的基础上，语义识别网络还包括第三语义识别子网络，第三语义识别子网络用于提取目标音频的语义特征。

另外，除了上述对多个音频特征进行求平均处理的方式得到目标音频对应的语义特征以外，在一种可能实现方式中，还可以对目标音频进行转换处理，得到音频文本，对音频文本进行编码得到目标音频对应的语义特征。

例如，可以采用ASR(Automat ic Speech Recogn it ion，自动语音识别技术)先将目标音频转换为音频文本，将目标音频转换为音频文本后，再提取音频文本的语义特征，此时可以选择不设置第三语义识别子网络，通过复用第一语义识别子网络的功能来提取音频文本的语义特征。

相应地，参照图10，在图7所示的结构的基础上，注意力网络还包括第三注意力子网络，第三注意力子网络用于对目标音频的语义特征进行全连接特征映射。

需要特别说明的是，在本例子中，不同于图7所示的结构，图10所示的结构中，第一注意力子网络、第二注意力子网络和第三注意力子网络均设置有两个注意力模块，对于同一个注意力子网络来说，其中一个注意力模块的映射参数矩阵和偏置向量与另一个注意力模块的映射参数矩阵和偏置向量并不相同，即一个注意力子网络输出两个注意力特征。以第一注意力子网络为例，第一注意力子网络的其中一个注意力模块用于映射得到用于与目标图像融合的注意力特征，而第一注意力子网络的另一个注意力模块用于映射得到用于与目标音频融合的注意力特征，即其中一个注意力模块的映射参数矩阵和偏置向量根据目标图像对应的语义特征的维度确定，另外一个注意力模块的映射参数矩阵和偏置向量根据目标音频对应的语义特征的维度确定。单个注意力模块的特征映射原理前面已经详细说明，在此不再赘述。第二注意力子网络和第三注意力子网络的原理和第一注意力子网络的原理相类似，在此也不再赘述。

在本例子中，视频在多种不同模态下的内容信息包括目标文本、目标图像和目标音频，即目标注意力特征的数量为两个，相应地，上述步骤404中，将当前遍历的语义特征与目标注意力特征进行融合，得到各个语义特征对应的强化特征，也可以根据两个目标注意力特征得到融合注意力特征，将当前遍历的语义特征与融合注意力特征进行求积，得到各个语义特征对应的强化特征。

具体地，根据两个目标注意力特征得到融合注意力特征，可以是将两个目标注意力特征进行求积或者求和得到融合注意力特征。

或者，也可以将各个目标注意力特征与当前遍历的语义特征求积后进行拼接，得到各个语义特征对应的强化特征。

可以理解的是，当视频在多种不同模态下的内容信息在目标文本、目标图像和目标音频的基础上进一步增加时，目标注意力特征的数量也随之增加。

例如，若当前遍历的为目标文本对应的语义特征，目标注意力特征相应地为目标图像对应的注意力特征和目标音频对应的注意力特征，则先将目标图像对应的注意力特征和目标音频对应的注意力特征进行求积得到融合注意力特征，再将目标文本对应的语义特征与融合注意力特征求积得到目标文本对应的强化特征；可以理解的是，得到目标图像和目标音频对应的强化特征的原理与得到目标文本对应的强化特征的原理相类似，在此不再赘述。

在一种可能的实现方式中，还可以采用目标文本包括多种类型的文本时的处理方式，即可以将目标音频转换得到的音频文本和字幕、标题等拼接成一个长句，进一步丰富目标文本的表达，再将拼接得到的长句作为目标文本输入至第一语义识别子网络，此时可以直接采用图7所示的模型结构来进行目标词语的确定。

其中，通过在目标文本和目标图像的基础上进一步引入目标音频来确定目标文本中的目标词语，可以使得语义特征的维度更多，有利于进一步提高确定目标词语的准确性和完整性。

本发明实施例提供的目标词语确定模型可以预先训练得到，参照图11，图11为本发明实施例提供的目标词语确定模型的训练方法的流程示意图，该目标词语确定模型的训练方法具体包括但不限于以下步骤1101至步骤1107。

步骤1101：获取目标多媒体内容在多种不同模态下的训练信息；

步骤1102：获取目标文本的词语标签，将多种训练信息输入至目标词语确定模型；

步骤1103：通过语义识别网络对各种训练信息进行特征提取，得到各种训练信息对应的语义特征；

步骤1104：通过注意力网络对各个语义特征进行全连接特征映射，得到各种训练信息对应的注意力特征；

步骤1105：遍历各种训练信息，通过特征融合网络将当前遍历的训练信息对应的语义特征与目标注意力特征进行融合，得到各种训练信息对应的强化特征，将各种训练信息对应的强化特征进行融合，得到融合特征；

步骤1106：通过分类网络根据融合特征确定各个候选词语的分类结果；

步骤1107：根据分类结果从多个候选词语中确定目标词语，根据目标词语和词语标签确定第二损失值，根据第二损失值修正目标词语确定模型的第二模型参数。

其中，训练信息为目标词语确定模型的训练样本，对应前述的内容信息，类似地，多种训练信息包括目标多媒体内容的目标文本，目标文本包括多个候选词语。示例性地，用于训练目标词语确定模型的样本可以为：

Samp le＝{“Tit le”:“双击这个视频，你会发现红烧肉比酸菜鱼的做法更简单”，“IMG”:“URL”,“Labe l”:[“红烧肉”，“做法”]}，其中Tit le是视频标题，IMG为视频的目标图像的URL(Un iform Resource Locator,统一资源定位器),Labe l是词语标签，包含目标词语列表，目标文本中的其他词语即为非目标词语。

本发明实施例中通过有监督的训练方式对目标词语确定模型进行训练，通过根据目标词语确定模型的分类结果得到的目标词语与预先标注的词语标签来确定第二损失值，进而修正目标词语确定模型的第二模型参数。第二模型参数至少包括注意力网络的特征映射参数，即前述的映射参数矩阵以及偏置向量，通过修正注意力网络的特征映射参数，使得训练后的目标词语确定模型在进行全连接特征映射后得到的注意力特征更加准确，从而提高确定目标词语的准确性和完整性。除此以外，还可以对语义识别网络的参数进行修正。

下面以完整的例子来说明本发明实施例提供的目标词语确定方法。

例子一

参照图12，图12为本发明实施例提供的确定目标词语的一种完整处理过程示意图，对于标题文本t it le来说，采用BERT对标题文本t it le进行处理得到标题文本t itle的句子向量V(text)，采用DNN对标题文本中的各个候选词语word进行处理得到各个候选词语word的词语向量V(word)，具体可以表示为：

V(text)＝BERT(t it le)

V(word)＝DNN(word)

然后，依次确定各个候选词语是否为目标词语，对于当前的候选词语，将标题文本t it le侧的向量进行融合，本例子中采用拼接的方式，得到标题文本对应的语义向量V(tit le)，具体可以表示为：

V(t it le)＝[V(text):V(word)]

对于视频图像来说，先抽取出目标图像img，采用ResNet对目标图像img进行处理得到图像向量V(img)，具体可以表示为：

V(img)＝ResNet152(img)

然后，基于V(img)构建img to t it le(视频图像至标题文本)的注意力机制来获取视频标题侧的注意力向量Att1，该注意力机制的目的是通过视频图像侧的视觉信息来强化标题文本信息的重点，具体可以表示为：

Att1＝softmax(fun1(V(img)))

其中，fun1(V(img))表示通过全连接层进行向量映射，映射后的向量维度大小和V(t it le)对齐。经过softmax后，对映射后的向量做归一化操作。

同理，基于V(t it le)构建t it le to img(标题文本至视频图像)的注意力机制来获取视频图像侧的注意力向量Att2，该注意力机制的目的是通过标题文本侧的文本信息来强化视频图像信息的重点，具体可以表示为：

Att2＝softmax(fun2(V(t it le)))

其中，fun2(V(t it le))表示通过全连接层进行向量映射，映射后的向量维度大小和V(img)对齐。经过softmax后，对映射后的向量做归一化操作。

然后，基于上述构建的注意力机制所得到的注意力向量与对应的语义向量进行融合得到对应的目标向量，具体可以表示为：

Fus ion1＝Att1*V(t it le)

Fus ion2＝Att2*V(img)

其中，Fus ion1为视频标题对应的目标向量，Fus ion2为视频图像对应的目标向量。

然后，将上述两个目标向量进行融合，本例子中采用拼接的方式，得到融合向量Fus ion，具体可以表示为：

Fus ion＝[Fus ion1:Fus ion2]

最后，根据融合向量Fus ion进行分类，判断当前的候选词语是否为视频标题中的目标词语。

例子二

参照图13，图13为本发明实施例提供的确定目标词语的另一种完整处理过程示意图，对于标题文本t it le来说，采用BERT对标题文本t it le进行处理得到标题文本t itle的句子向量V(text)，采用DNN对标题文本中的各个候选词语word进行处理得到各个候选词语word的词语向量V(word)，具体可以表示为：

V(text)＝BERT(t it le)

V(word)＝DNN(word)

V(t it le)＝[V(text):V(word)]

V(img)＝ResNet152(img)

对于视频音频来说，先抽取出目标音频aud io，采用音频编码器对目标音频audio进行处理得到音频向量V(aud io)。

然后，基于V(img)构建img to t it le(视频图像至标题文本)的注意力机制来获取视频标题侧对应视频图像的注意力向量Att11，该注意力机制的目的是通过视频图像侧的视觉信息来强化标题文本信息的重点，具体可以表示为：

Att11＝softmax(fun11(V(img)))

其中，fun11(V(img))表示通过全连接层进行向量映射，映射后的向量维度大小和V(t it le)对齐。经过softmax后，对映射后的向量做归一化操作。

并且，还基于V(img)构建img to aud io(视频图像至视频音频)的注意力机制来获取视频标题侧对应视频音频的注意力向量Att12，该注意力机制的目的是通过视频图像侧的视觉信息来强化视频音频信息的重点，具体可以表示为：

Att12＝softmax(fun12(V(img)))

其中，fun12(V(img))表示通过全连接层进行向量映射，映射后的向量维度大小和V(aud io)对齐。经过softmax后，对映射后的向量做归一化操作。

同理，基于V(t it le)构建t it le to img(标题文本至视频图像)的注意力机制来获取视频图像侧对应标题文本的注意力向量Att21，该注意力机制的目的是通过标题文本侧的文本信息来强化视频图像信息的重点，具体可以表示为：

Att21＝softmax(fun21(V(t it le)))

其中，fun21(V(t it le))表示通过全连接层进行向量映射，映射后的向量维度大小和V(img)对齐。经过softmax后，对映射后的向量做归一化操作。

并且，还基于V(t it le)构建t it le to aud io(标题文本至视频音频)的注意力机制来获取视频图像侧对应视频音频的注意力向量Att22，该注意力机制的目的是通过标题文本侧的文本信息来强化视频音频信息的重点，具体可以表示为：

Att22＝softmax(fun22(V(t it le)))

其中，fun22(V(t it le))表示通过全连接层进行向量映射，映射后的向量维度大小和V(aud io)对齐。经过softmax后，对映射后的向量做归一化操作。

同理，基于V(aud io)构建aud io to img(视频音频至视频图像)的注意力机制来获取视频音频侧对应视频图像的注意力向量Att31，该注意力机制的目的是通过视频音频侧的文本信息来强化视频图像信息的重点，具体可以表示为：

Att31＝softmax(fun31(V(aud io)))

其中，fun31(V(aud io))表示通过全连接层进行向量映射，映射后的向量维度大小和V(img)对齐。经过softmax后，对映射后的向量做归一化操作。

并且，还基于V(aud io)构建aud io to t it le(视频音频至标题文本)的注意力机制来获取视频音频侧对应标题文本的注意力向量Att32，该注意力机制的目的是通过视频音频侧的文本信息来强化标题文本信息的重点，具体可以表示为：

Att32＝softmax(fun32(V(aud io)))

其中，fun32(V(aud io))表示通过全连接层进行向量映射，映射后的向量维度大小和V(t it le)对齐。经过softmax后，对映射后的向量做归一化操作。

Fus ion1＝Att11*Att32*V(t it le)

Fus ion2＝Att21*Att31*V(img)

Fus ion3＝Att12*Att22*V(aud io)

其中，Fus ion1为视频标题对应的目标向量，Fus ion2为视频图像对应的目标向量，Fus ion3为视频音频对应的目标向量。

然后，将上述三个目标向量进行融合，本例子中采用拼接的方式，得到融合向量Fus ion，具体可以表示为：

Fus ion＝[Fus ion1:Fus ion2:Fus ion3]

例子三

本例子中采用与例子二相类似的方式来得到注意力向量，具体区别在于融合方式不同，基于上述构建的注意力机制所得到的注意力向量与对应的语义向量进行融合得到对应的目标向量，具体可以表示为：

Fus ion1＝Att11*V(t it le):Att32*V(t it le)

Fus ion2＝Att21*V(img):Att31*V(img)

Fus ion3＝Att12*V(aud io):Att22*V(aud io)

Fus ion＝[Fus ion1:Fus ion2:Fus ion3]

其中，例子二与例子三采用了注意力向量与对应的语义向量融合的两种不同方式，例子二的融合方式中，更加注重注意力向量的融合，先通过其中两种注意力向量之间进行交互得到融合的注意力向量，进而与对应的语义向量融合；例子三的融合方式中，更注重于不同注意力向量对语义向量的影响，先分别通过两种注意力向量与语义向量进行交互，进而将与两种注意力向量交互后的语义向量融合。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，当本发明以上实施例运用到具体产品或技术中时，涉及到用户信息等相关的数据的处理时需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

参照图14，图14为本发明实施例提供的目标词语的确定装置的结构示意图，该目标词语的确定装置1400包括：

内容信息获取模块1401，用于获取目标多媒体内容在多种不同模态下的内容信息，其中，多种内容信息包括目标多媒体内容的目标文本，目标文本包括多个候选词语；

特征提取模块1402，用于对各种内容信息进行特征提取，得到各种内容信息对应的语义特征；

特征映射模块1403，用于对各个语义特征进行全连接特征映射，得到各种内容信息对应的注意力特征；

特征融合模块1404，用于遍历各种内容信息，将当前遍历的内容信息对应的语义特征与目标注意力特征进行融合，得到各种内容信息对应的强化特征，将各种内容信息对应的强化特征进行融合，得到融合特征，其中，目标注意力特征为除了当前遍历的内容信息以外其余的内容信息对应的注意力特征；

分类模块1405，用于根据融合特征确定各个候选词语的分类结果；

确定模块1406，用于根据分类结果从多个候选词语中确定目标词语。

进一步，上述特征映射模块1403具体用于：

通过全连接层对各个语义特征进行特征映射，得到映射特征；

通过归一化层对映射特征进行归一化处理，得到各种内容信息对应的注意力特征。

进一步，全连接层设置有映射参数矩阵和偏置向量，映射参数矩阵和偏置向量基于目标语义特征的特征维度得到，上述特征映射模块1403具体用于：

将映射参数矩阵与对应的内容信息的语义特征进行求积，得到第一特征；

将第一特征与偏置向量进行求和，得到第二特征；

通过激活函数层对第二特征进行激活处理，得到映射特征。

进一步，上述特征融合模块1404具体用于：

当目标注意力特征的数量为一个，将当前遍历的语义特征与目标注意力特征进行求积或者拼接，得到语义特征对应的强化特征；

或者，当目标注意力特征的数量为至少两个，根据至少两个目标注意力特征得到融合注意力特征，将当前遍历的语义特征与融合注意力特征进行求积，得到各个语义特征对应的强化特征；

或者，当目标注意力特征的数量为至少两个，根据各个目标注意力特征与当前遍历的语义特征求积后进行拼接，得到各个语义特征对应的强化特征。

进一步，多种内容信息还包括目标多媒体内容的目标图像，上述内容信息获取模块1401具体用于：

获取目标多媒体内容的标题、简介或者字幕中的至少一种，将标题或者字幕中的至少一种作为目标多媒体内容的目标文本；

对目标多媒体内容进行分帧处理，得到多个候选图像，从多个候选图像中确定目标多媒体内容的目标图像。

进一步，上述内容信息获取模块1401具体用于：

将多个候选图像输入至目标图像确定模型，对多个候选图像进行特征提取，得到各个候选图像对应的候选图像特征，根据候选图像特征计算各个候选图像对应的目标得分；

根据目标得分从多个候选图像中确定目标多媒体内容的目标图像。

进一步，目标图像确定模型通过以下步骤训练得到：

获取样本图像；

将样本图像输入至目标图像确定模型，对样本图像进行特征提取，得到样本图像对应的样本图像特征，根据样本图像特征计算样本图像对应的样本得分；

将样本图像特征与样本得分进行加权，得到样本图像特征对应的加权图像特征；

对加权图像特征进行编码，得到编码图像特征；

对编码图像特征进行解码，得到解码图像特征；

将解码图像特征与样本图像特征进行比对，根据比对结果确定第一损失值，根据第一损失值修正目标图像确定模型的第一模型参数。

进一步，上述特征提取模块1402具体用于：

对目标文本进行编码得到句子特征；

对候选词语进行编码得到候选词语的词语特征；

将句子特征与候选词语对应的词语特征进行融合，得到目标文本对应的语义特征；

对目标图像进行编码，得到目标图像对应的语义特征。

进一步，多种内容信息还包括目标多媒体内容的目标音频，上述特征提取模块1402还用于：

对目标音频进行分帧处理得到多个音频帧，对多个音频帧进行编码得到各个音频帧的音频特征，对多个音频特征进行求平均处理得到目标音频对应的语义特征；

或者，对目标音频进行转换处理，得到音频文本，对音频文本进行编码得到目标音频对应的语义特征。

进一步，上述分类模块1405具体用于：

根据融合特征进行二分类处理，得到各个候选词语的分类结果；

或者，根据融合特征计算各个候选词语对应的权重值，根据权重值得到各个候选词语的分类结果。

上述目标词语的确定装置1400与上述目标词语的确定方法基于相同的发明构思，因此该目标词语的确定装置1400通过全连接特征映射的方式构建注意力机制，来提取各种内容信息对应的注意力特征，利用其余内容信息对应的注意力特征来强化当前内容信息的语义特征提取，将得到的各种内容信息的强化特征进行融合得到融合特征，再根据融合特征来确定目标词语，使得在确定目标词语时结合了不同模态的内容信息，相比于仅通过目标文本来确定目标词语，能够降低与多媒体内容匹配度较低的候选词语所带来的影响，提高确定目标词语的准确性和完整性。

参照图15，图15为本发明实施例提供的目标词语确定模型的训练装置的结构示意图，该目标词语确定模型的训练装置1500包括：

样本获取模块1501，用于获取目标多媒体内容在多种不同模态下的训练信息，其中，多种训练信息包括目标多媒体内容的目标文本，目标文本包括多个候选词语；

模型处理模块1502，用于获取目标文本的词语标签，将多种训练信息输入至目标词语确定模型，目标词语确定模型包括语义识别网络、注意力网络、特征融合网络和分类网络；

上述模型处理模块1502还用于通过语义识别网络对各种训练信息进行特征提取，得到各种训练信息对应的语义特征；

上述模型处理模块1502还用于通过注意力网络对各个语义特征进行全连接特征映射，得到各种训练信息对应的注意力特征；

上述模型处理模块1502还用于遍历各种训练信息，通过特征融合网络将当前遍历的训练信息对应的语义特征与目标注意力特征进行融合，得到各种训练信息对应的强化特征，将各种训练信息对应的强化特征进行融合，得到融合特征，其中，目标注意力特征为除了当前遍历的训练信息以外其余的训练信息对应的注意力特征；

上述模型处理模块1502还用于通过分类网络根据融合特征确定各个候选词语的分类结果；

参数修正模块1503，用于根据分类结果从多个候选词语中确定目标词语，根据目标词语与词语标签确定第二损失值，根据第二损失值修正目标词语确定模型的第二模型参数，第二模型参数至少包括注意力网络的特征映射参数。

上述目标词语确定模型的训练装置1500与图11所示的目标词语确定模型的训练方法基于相同的发明构思，因此该目标词语确定模型的训练装置1500可以使得训练后的目标词语确定模型在进行全连接特征映射后得到的注意力特征更加准确，从而提高确定目标词语的准确性和完整性。

本发明实施例提供的用于执行上述目标词语确定方法或者目标词语确定模型的训练方法的电子设备可以是服务器，参照图16，图16为本发明实施例提供的服务器的结构示意图，服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Centra l Process ing Un its，简称CPU)1622(例如，一个或一个以上处理器)和存储器1632，一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储装置)。其中，存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器1600中的一系列指令操作。更进一步地，中央处理器1622可以设置为与存储介质1630通信，在服务器1600上执行存储介质1630中的一系列指令操作。

服务器1600还可以包括一个或一个以上电源1626，一个或一个以上有线或无线网络接口1650，一个或一个以上输入输出接口1658，和/或，一个或一个以上操作系统1641，例如Windows ServerTM，Mac OS XTM，Un ixTM，LinuxTM，FreeBSDTM等等。

服务器1600中的处理器可以用于执行目标词语确定方法或者目标词语确定模型的训练方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述各个实施例的目标词语确定方法或者目标词语确定模型的训练方法。

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的目标词语确定方法或者目标词语确定模型的训练方法。

本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解，在本发明中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

应了解，在本发明实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-On ly Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解，本发明实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种目标词语的确定方法，其特征在于，包括：

根据所述融合特征确定各个所述候选词语的分类结果；

根据所述分类结果从多个所述候选词语中确定目标词语。

2.根据权利要求1所述的目标词语的确定方法，其特征在于，所述对各个所述语义特征进行全连接特征映射，得到各种所述内容信息对应的注意力特征，包括：

3.根据权利要求2所述的目标词语的确定方法，其特征在于，所述全连接层设置有映射参数矩阵和偏置向量，所述映射参数矩阵和所述偏置向量基于目标语义特征的特征维度得到，所述目标语义特征为除了待映射的语义特征以外其余的语义特征，所述通过全连接层对各个所述语义特征进行特征映射，得到映射特征，包括：

将所述第一特征与所述偏置向量进行求和，得到第二特征；

4.根据权利要求1至3任意一项所述的目标词语的确定方法，其特征在于，所述将当前遍历的语义特征与目标注意力特征进行融合，得到各个所述语义特征对应的强化特征，包括：

或者，当所述目标注意力特征的数量为至少两个，将各个所述目标注意力特征与当前遍历的语义特征求积后进行拼接，得到各个所述语义特征对应的强化特征。

5.根据权利要求1所述的目标词语的确定方法，其特征在于，多种所述内容信息还包括所述目标多媒体内容的目标图像，所述获取目标多媒体内容在多种不同模态下的内容信息，包括：

获取所述目标多媒体内容的标题、简介或者字幕中的至少一种，将所述标题、所述简介或者所述字幕中的至少一种作为所述目标多媒体内容的所述目标文本；

6.根据权利要求5所述的目标词语的确定方法，其特征在于，所述从多个所述候选图像中确定所述目标多媒体内容的所述目标图像，包括：

7.根据权利要求6所述的目标词语的确定方法，其特征在于，所述目标图像确定模型通过以下步骤训练得到：

获取样本图像；

对所述加权图像特征进行编码，得到编码图像特征；

对所述编码图像特征进行解码，得到解码图像特征；

8.根据权利要求5至7任意一项所述的目标词语的确定方法，其特征在于，所述对各种所述内容信息进行特征提取，得到各种所述内容信息对应的语义特征，包括：

对所述目标文本进行编码得到句子特征；

对所述候选词语进行编码得到所述候选词语的词语特征；

9.根据权利要求8所述的目标词语的确定方法，其特征在于，多种所述内容信息还包括所述目标多媒体内容的目标音频，所述对各种所述内容信息进行特征提取，得到各种所述内容信息对应的语义特征，还包括：

10.根据权利要求1所述的目标词语的确定方法，其特征在于，所述根据所述融合特征确定各个所述候选词语的分类结果，包括：

11.一种目标词语确定模型的训练方法，其特征在于，包括：

12.一种目标词语的确定装置，其特征在于，包括：

13.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10任意一项所述的目标词语的确定方法，或者实现权利要求11所述的目标词语确定模型的训练方法。

14.一种计算机可读存储介质，所述存储介质存储有程序，其特征在于，所述程序被处理器执行时实现权利要求1至10任意一项所述的目标词语的确定方法，或者实现权利要求11所述的目标词语确定模型的训练方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任意一项所述的目标词语的确定方法，或者实现权利要求11所述的目标词语确定模型的训练方法。