CN116955699A

CN116955699A - 一种视频跨模态搜索模型训练方法、搜索方法及装置

Info

Publication number: CN116955699A
Application number: CN202310882289.3A
Authority: CN
Inventors: 李雅文; 刘祥宾; 庄孟谕; 梁美玉; 李昂
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-10-27
Anticipated expiration: 2043-07-18
Also published as: CN116955699B

Abstract

本发明提供一种视频跨模态搜索模型训练方法、搜索方法及装置，对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间；被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容，提取首尾帧图像内容，分别进行特征提取后执行特征融合，并通过初始视频语义映射网络映射至公共语义空间；在下游构建相似度比对任务、语义分类任务和模态判别任务，对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练，提升文本和视频两种类型数据在公共语义空间内表示的精确度，并关注到模态内和模态间的关联及差异。

Description

一种视频跨模态搜索模型训练方法、搜索方法及装置

技术领域

本发明涉及跨模态搜索技术领域，尤其涉及一种视频跨模态搜索模型训练方法、搜索方法及装置。

背景技术

随着新一代互联网的高速发展，视频逐渐成为人们日常所接触的主流信息载体，越来越多的有关科技信息的视频具有愈发重要的作用，对科技视频的搜索需求越来越高。科技视频主要包括学术会议、讲座等专业学术化内容。相较于互联网上流行的短视频形式，科技视频具有时长较长、专业性强、内容丰富等特点。

在科研学者了解某一领域相关信息时，通常使用文本单模态检索科技视频的相关描述文本，对于科技视频的描述、标注信息有着很高的专业化要求，且未标注的视频无法进行检索，不利于科技视频的传播与学术信息的交流。单一模态数据的搜索已经不能满足现有的科技视频信息需求，科技视频跨模态信息搜索的需求与日俱增。

在对科技视频的跨模态搜索过程中，不同模态的数据特征分布不同，现有技术大多仅考虑了跨模态数据对的语义相关性，导致同模态数据之间的语义信息并未进行充分的使用，或者不能准确度量不同模态数据的相似程度，因此亟需一种新的视频跨模态搜索方案。

发明内容

鉴于此，本发明实施例提供了一种视频跨模态搜索模型训练方法、搜索方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷，解决现有技术在对视频跨模态搜索过程中语义空间无法有效关注到模态内关联和模态间关联及差异的问题。

本发明的一个方面提供了一种视频跨模态搜索模型的训练方法，该方法包括以下步骤：

获取多个科技视频以及各科技视频对应的多个视频描述文本；

对每个科技视频执行科技视频自动语音识别，将单个科技视频按照演讲者的陈述断句分为多个视频片段；

获取视频预处理模块，所述视频预处理模块提取每个视频片段的头帧和尾帧，并经图像特征编码模型提取对应视频片段的图像特征，对每个视频片段的所述头帧和所述尾帧进行光学字符识别（OCR）得到第一文本，将所述第一文本拼接对应视频片段经科技视频自动语音识别（ASR）得到的第二文本，所述第一文本和所述第二文本经预训练的文字特征编码模型提取对应视频片段的视频内容文本特征；

构建第一训练样本集，将每个视频片段的所述图像特征、所述视频内容文本特征、所属科技视频的视频描述文本组合为单个样本，并添加所属科技视频的标识信息作为标签；

获取所述文字特征编码模型、初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络；所述文字特征编码模型用于提取所述样本中视频描述文本的视频描述文本特征，所述视频描述文本特征经所述初始文本语义映射网络映射至公共语义空间，得到第一语义特征；所述初始模态融合网络将所述图像特征和所述视频内容文本特征融合得到视频融合特征，并通过所述初始视频语义映射网络映射至所述公共语义空间，得到第二语义特征；

采用所述第一训练样本集对所述初始文本语义映射网络、所述初始模态融合网络和所述初始视频语义映射网络进行训练，在训练过程中，通过计算每个样本对应的所述第一语义特征和所述第二语义特征的相似度构建模态损失；使用交叉损失熵计算每个样本对应的所述第一语义特征和所述第二语义特征的偏差值作为语义损失，所述语义损失基于分类任务进行约束，所述分类任务是基于所述第一语义特征和所述第二语义特征判断其所属科技视频的标识信息；构建模态判别器，判断每个样本的所述第一语义特征和所述第二语义特征对应的原始数据类别，并构建模态判别损失，所述原始数据类别包括文本类别和视频类别；根据所述模态损失和所述语义损失构建语义映射网络总体损失，基于多任务学习，通过最小化所述语义映射网络总体损失，并在所述对抗学习中最小化所述模态判别损失，对所述初始文本语义映射网络、所述初始模态融合网络和所述初始视频语义映射网络进行参数更新得到目标文本特征网络、目标语义融合网络和目标视频特征网络；

将所述文字特征编码模型连接所述目标文本特征网络构成文本特征提取器，将所述视频预处理模块连接所述目标语义融合网络和所述目标视频特征网络构成视频特征提取器，所述文本特征提取器、所述视频特征提取器联合语义召回模块构成目标视频跨模态搜索模型。

在一些实施例中，所述文字特征编码模型为BERT模型；所述BERT模型的预训练过程包括：

获取第二训练样本集，所述第二训练样本集中每个样本数据条包含视频描述文本中的多个语段，并添加所属的科技视频的标识作为标签；

获取初始BERT模型，在训练过程中，采用所述初始BERT模型获取对所述样本数据条中的每个语段获取语段文本特征，各语段文本特征采用双向循环神经网络进行特征融合后，经自注意力机制模型处理得到注意力特征；将所述注意力特征输入多层感知器进行特征变换，并通过softmax层执行识别所属的科技视频的分类任务，基于交叉熵损失函数对所述初始BERT模型、所述双向循环神经网络、所述自注意力机制模型、所述多层感知器和所述softmax层进行参数更新；

将参数更新后的初始BERT模型用于所述目标视频跨模态搜索模型的训练。

在一些实施例中，所述图像特征编码模型为残差神经网络；所述初始模态融合网络采用多层感知机融合网络；所述初始文本语义映射网络和所述初始视频语义映射网络均为全连接神经网络结构。

在一些实施例中，通过计算每个样本对应的所述第一语义特征和所述第二语义特征的相似度构建模态损失，包括：

令两个数据语义分布的相似度计算公式为：

；

其中，l_a表示第一个数据的语义特征的分布，l_b表示第二个数据的语义特征的分布，l_ai表示第一个数据语义特征分布的第i维，l_bi表示第二个数据语义特征分布的第i维，d_l表示语义特征的维度；

基于上式计算所述视频描述文本特征和所述视频融合特征的语义分布相似度，计算式为：

；

其中，l_i表示所述视频描述文本特征的语义分布和l_j表示所述视频融合特征的语义分布。

记所述第一语义特征为、所述第二语义特征为/>，所述第一语义特征和所述第二语义特征的相似度计算式为：

；

选用L2范数来衡量两个相似度矩阵的差异，定义模态损失为：

。

在一些实施例中，使用交叉损失熵计算每个样本对应的所述第一语义特征和所述第二语义特征的偏差值作为语义损失，计算式为：

；

其中，表示第i个样本的第一语义特征的第c维值，/>表示第i个样本的第二语义特征的第c维值；/>表示第i个样本的标签onehot编码的第c维值。在一些实施例中，语义映射网络总体损失计算式为：

；

其中，α和β为超参数。

在一些实施例中，所述模态判别损失的计算式为：

；

其中，为模态判别网络参数，/>表示该网络判定输入的特征x是视频的概率。

另一方面，本发明还提供一种视频跨模态搜索方法，该方法包括以下步骤：

获取用户输入的查询关键词，并输入上述视频跨模态搜索模型的训练方法中的文本特征提取器，得到文本在跨模态语义空间中的第一向量表示；

获取预存储的多个科技视频在所述跨模态语义空间中对应的第二向量表示，每个科技视频对应的所述第二向量表示是基于权利要求1至7任意一项所述视频跨模态搜索模型的训练方法中的视频特征提取器处理得到的；

计算所述第一向量表示与各科技视频对应的第二向量表示的余弦距离，并排序查找最相近的设定数量个科技视频输出。

另一方面，本发明还提供一种视频跨模态搜索装置，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现上述方法的步骤。

另一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明的有益效果至少是：

本发明所述视频跨模态搜索模型训练方法、搜索方法及装置，对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间；被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容，提取首尾帧图像内容，分别进行特征提取后执行特征融合，并通过初始视频语义映射网络映射至公共语义空间；在下游构建相似度比对任务、语义分类任务和模态判别任务，对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练，提升文本和视频两种类型数据在公共语义空间内表示的精确度，并关注到模态内和模态间的关联及差异。

进一步的，对于提取文本特征的BERT模型进行优化，使用Bi-GRU结构共享分段文本之间的语义信息，通过多头自注意力结构得到带有注意力权重的融合特征，使用科技视频样本的视频类别标记信息设计文本多分类任务。解决了文本长度大于模型最大输入的问题，更加有效地利用了视频的类别信息，提升性能。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例所述视频跨模态搜索模型的训练方法的流程示意图。

图2为本发明一实施例所述视频跨模态搜索方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

近年来，深度学习在文本、图像等多种模态领域上具有广泛的应用，对单模态的数据特征进行准确而高效的提取，为视频跨模态搜索问题提供了特征支持。在视频跨模态搜索过程中，不同模态的数据在映射至公共语义空间过程中，会损失原始语义信息、对应关系，不同模态间数据特征存在分布差异。本发明对特征融合网络、语义映射网络进行训练，使用模态判别网络进行对抗学习。语义融合网络基于视频的多种模态信息输出多模态特征。语义映射网络使用语义损失和模态损失进行训练。模态判别网络判断不同数据的模态，长文本分类网络通过聚合同一视频的所有文本段特征，使用多分类任务完成对视频类别信息的学习。

具体的，本申请提供了一种视频跨模态搜索模型的训练方法，参照图1，该方法包括以下步骤S101~S107：

步骤S101：获取多个科技视频以及各科技视频对应的多个视频描述文本。

步骤S102：对每个科技视频执行科技视频自动语音识别，将单个科技视频按照演讲者的陈述断句分为多个视频片段。

步骤S103：获取视频预处理模块，视频预处理模块提取每个视频片段的头帧和尾帧，并经图像特征编码模型提取对应视频片段的图像特征，对每个视频片段的头帧和尾帧进行光学字符识别得到第一文本，将第一文本拼接对应视频片段经科技视频自动语音识别得到的第二文本，第一文本和第二文本经预训练的文字特征编码模型提取对应视频片段的视频内容文本特征。

步骤S104：构建第一训练样本集，将每个视频片段的图像特征、视频内容文本特征、所属科技视频的视频描述文本组合为单个样本，并添加所属科技视频的标识信息作为标签。

步骤S105：获取文字特征编码模型、初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络；文字特征编码模型用于提取样本中视频描述文本的视频描述文本特征，视频描述文本特征经初始文本语义映射网络映射至公共语义空间，得到第一语义特征；初始模态融合网络将图像特征和视频内容文本特征融合得到视频融合特征，并通过初始视频语义映射网络映射至所述公共语义空间，得到第二语义特征。

步骤S106：采用第一训练样本集对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练，在训练过程中，通过计算每个样本对应的第一语义特征和第二语义特征的相似度构建模态损失；使用交叉损失熵计算每个样本对应的第一语义特征和第二语义特征的偏差值作为语义损失，语义损失基于分类任务进行约束，分类任务是基于第一语义特征和第二语义特征判断其所属科技视频的标识信息；构建模态判别器，判断每个样本的第一语义特征和第二语义特征对应的原始数据类别，并构建模态判别损失，原始数据类别包括文本类别和视频类别；根据模态损失和语义损失构建语义映射网络总体损失，基于多任务学习，通过最小化语义映射网络总体损失，并在对抗学习中最小化模态判别损失，对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行参数更新得到目标文本特征网络、目标语义融合网络和目标视频特征网络。

步骤S107：将文字特征编码模型连接目标文本特征网络构成文本特征提取器，将视频预处理模块连接目标语义融合网络和目标视频特征网络构成视频特征提取器，文本特征提取器、视频特征提取器联合语义召回模块构成目标视频跨模态搜索模型。

在步骤S101中，科技视频主要包括学术会议、讲座等专业学术化内容，这类视频的信息主要体现在语音内容和文字信息中，一般呈现时长较长、专业性强和内容丰富的特点。视频描述文本是指用于描述科技视频所属技术领域、主题、主讲人信息等内容的文本信息，在实际操作过程中，可以采用包含关键词、标注信息等内容的文本。

在步骤S102中，为了获取科技视频语音中的信息，本申请采用自动语音识别ASR技术进行识别和内容提取。自然语义视频分段是指使用带有时间戳信息的科技视频自动语音识别（ASR）信息，以演讲者一句话的时间段切分出一个视频片段作为一个训练样本。由于科技视频的信息大多来自于语音，根据语音语义将长视频进行分段操作，能够更好地捕捉视频分段的语义差别。

自动语音识别(Automatic Speech Recognition,ASR)是一种将人类语言转换为计算机可理解的文本形式的技术。它通过分析和处理音频信号中的语音数据，将其转换成文字形式，从而实现人机之间的沟通。ASR系统可以包括：声学模型，声学模型负责将声音信号转换为音素或特征向量表示。常见的声学模型有隐马尔可夫模型(HMM)、深度神经网络(DNN)和循环神经网络(RNN)等。语言模型，语言模型用于预测给定上下文下可能的词汇序列。它可以捕捉到词汇之间的语法和语义关系，从而提高ASR系统的准确性。常用的语言模型有N-gram模型、神经网络语言模型(NNLM)和长短时记忆网络(LSTM)等。解码器，解码器根据声学模型和语言模型的输出生成最终的文本结果。解码器通常使用搜索算法来选择最有可能的单词序列，如维特比搜索、贝叶斯网络搜索等。前端处理，前端处理包括预加重、分帧、窗函数等技术，用于优化音频信号的质量和减少噪声干扰。后端处理。后端处理包括词法分析、句法分析等步骤，用于将音素或特征向量表示转换为结构化的文本形式。

在步骤S103中，对步骤S102中切分得到的视频片段进行处理，一方面对视频首尾帧的图像提取语义信息，一方面提取视频中语音和视频中文字的语义信息，以获得视频片段的完整特征。具体的，首尾帧图像的特征可以采用深度神经网络中的卷积神经网络、循环神经网络等进行提取。对于语音和视频中呈现的文字进行特征提取，语音可以采用自动语音识别ASR技术进行提取转化为文本，视频中呈现的文字可以基于光学字符识别直接识别出文本。这两部分文本可以通过预训练的文字特征编码模型提取对应视频片段的视频内容文本特征。文字特征编码模型可以采用BERT模型。

具体的，对于视频向量v_i，需要由视频图像特征向量i_i与文本特征向量t_i，通过模态特征融合网络得到。记为特征融合过程，其中/>为图像文本特征的融合映射函数，/>表示融合网络的参数。通过训练，得到能够有效融合与表示视频多模态信息的特征融合网络，为跨模态搜索任务提供良好的视频语义表征信息。

在步骤S104中，构建训练样本，每个样本包含用于检索的视频描述文本和作为检索对象的视频片段的图像特征、视频内容文本特征。科技视频的标识信息可以按照预设规则设置。

在步骤S105中，为了解决视频跨模态检索的问题，就需要将视频描述文本和作为检索对象的视频片段的特征映射至同一个语义空间。本申请对于视频描述文本，是采用文字特征编码模型进行初步提取后再作文本特征映射至公共语义空间。对于被搜索的视频片段，其中的视频内容文本特征与图像特征首先进行融合后再进一步映射至公共语义空间。

具体的，设计语义映射网络，构建公共语义空间S，将两者的数据统一映射其中，文本的特征映射表示为，视频的特征映射表示为/>，其中/>为文本特征的映射函数，/>为视频特征的映射函数，/>和/>分别为表示文本特征网络和视频特征网络的参数。

视频描述文本和被搜索的视频片段在公共语义空间中的映射，可以用于作语义召回任务。但是由于视频描述文本和被搜索的视频片段属于不同的模态，为了保证两者在公共语义空间内具有相似的分布，并且关注到模态内和模态间的特征关联，在下游训练过程中构建三类任务进行优化。

步骤S106中，训练过程中，执行多任务学习，通过比较映射在公共语义空间中的第一语义特征和第二语义特征的相似度，构建模态损失，模态损失用于保证同一样本中视频描述文本和视频片段在公共语义空间中具有相似的分布；通过构建语义分类任务，建立语义损失，用于保证同一个样本的视频描述文本和视频片段在公共语义空间的特征关联至其同一个对象的分类。通过构建模态识别任务，利用对抗学习的形式，构建模态判别损失用于保证同一个样本的视频描述文本和视频片段在公共语义空间能够区分不同的模态。通过最小化语义映射网络总体损失，并在对抗学习中最小化模态判别损失，对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行参数更新得到目标文本特征网络、目标语义融合网络和目标视频特征网络。

令和/>分别表示文本和视频数据在S中的映射，不同模态映射特征维度均为m。本申请在公共语义空间S中训练生成的/>和/>，保持映射前语义关系的前提下，拉近语义相近的不同模态数据，疏远相同模态的不同语义数据。通过训练，得到能够有效融合与表示视频多模态信息的语义融合网络，为后续的跨模态搜索任务提供良好的视频语义表征信息。语义映射网络依照视频的不同模态分为两部分，即文本语义映射网络和视频多模态语义映射网络，负责将各自的原始数据映射到语义空间S中。为了保证映射后的数据保持原模态的语义特征，使用语义分类网络来对生成器进行约束，使用常用结构Softmax完成视频片段到原视频类别的分类任务。记语义分类网络参数为/>，文本、视频两种模态中第i个数据特征向量的第c维值分别是/>和/>，在子空间S使用交叉损失熵计算中语义的偏差值，具体的，使用交叉损失熵计算每个样本对应的第一语义特征和第二语义特征的偏差值作为语义损失，计算式为：

；

其中，表示第i个样本的第一语义特征的第c维值，/>表示第i个样本的第二语义特征的第c维值；/>表示第i个样本的标签onehot编码的第c维值。

通过分类任务进行约束，保证原本同一模态的数据经过以及/>的映射，在新空间S中以向量距离的形式保持其间的语义相似关系。

为了保持来自同一视频样本的不同模态数据对对应关系，需要下游对比学习任务进行约束。在一些实施例中，通过计算每个样本对应的第一语义特征和第二语义特征的相似度构建模态损失，包括：

令两个数据语义分布的相似度计算公式为：

；

其中，l_a表示第一个数据的语义特征的分布，l_b表示第二个数据的语义特征的分布，l_ai表示第一个数据语义特征分布的第i维，l_bi表示第二个数据语义特征分布的第i维，d_l表示语义特征的维度。基于上式计算视频描述文本特征和视频融合特征的语义分布相似度，计算式为：

；

其中，l_i表示视频描述文本特征的语义分布和l_j表示视频融合特征的语义分布。

记第一语义特征为、第二语义特征为/>，第一语义特征和第二语义特征的相似度计算式为：

；

。

定义语义映射网络的总体损失函数为L_emb，由语义偏差L_imd以及模态偏差L_imi损失函数组成，语义映射网络总体损失计算式为：

；

其中，α和β为超参数。

模态判别网络是一种用于区分不同数据形式的神经网络，主要功能是将映射到语义空间的数据进行分类。原始模态为文本数据的标记为0，视频数据的标记为1。该网络的目标是在尽可能准确的情况下对数据的原始模态进行分类。损失函数是评估该网络对数据分类准确性的一个指标。损失函数L_adv的计算方法是基于模态预测的偏差值进行的。通过与真实标签进行比较，网络可以通过优化损失值来提高对数据的分类准确性。在一些实施例中，模态判别损失的计算式为：

；

其中，为模态判别网络参数，/>表示该网络判定输入的特征x是视频的概率。对于一个训练收敛的网络，模态判别器给出的模态预测结果0和1应均为0.5的概率。

在步骤S107中，基于训练更新参数得到的目标文本特征网络、目标语义融合网络和目标视频特征网络，构建目标视频跨模态搜索模型，其工作形式，就是将用于检索的文本和被检索的视频片段映射至公共语义空间，再通过语义召回完成检索。

进一步的，在一些实施例中，文字特征编码模型为BERT模型；为了实现更好的检索效果，可以对BERT模型进行预训练，预训练过程包括步骤S201~S203：

步骤S201：获取第二训练样本集，第二训练样本集中每个样本数据条包含视频描述文本中的多个语段，并添加所属的科技视频的标识作为标签。

步骤S202：获取初始BERT模型，在训练过程中，采用初始BERT模型获取对样本数据条中的每个语段获取语段文本特征，各语段文本特征采用双向循环神经网络进行特征融合后，经自注意力机制模型处理得到注意力特征；将注意力特征输入多层感知器进行特征变换，并通过softmax层执行识别所属的科技视频的分类任务，基于交叉熵损失函数对初始BERT模型、双向循环神经网络、自注意力机制模型、多层感知器和softmax层进行参数更新。

步骤S203：将参数更新后的初始BERT模型用于目标视频跨模态搜索模型的训练。

具体的，对于同一视频的描述性文字和若干语段，使用Bi-GRU（双向循环神经网络）完成对经过BERT特征提取后的语义信息融合。将文本段依照在视频中的时间戳进行排序，视作文本序列，经过BERT模型得到文本特征序列。使用Bi-GRU对文本特征序列进行上下文信息特征融合。同属于循环神经网络的种类下，GRU比LSTM的内部结构更简单，模型参数减少；Bi-GRU弥补了原GRU只能单向使用上文信息的不足，使用上下文信息进行更为全面的特征融合。在Bi-GRU网络后，使用自注意力机制实现语义特征的融合，得到长文本的全局特征。自注意力层能够赋予输入序列不同的注意力权重，提升全文特征在分类问题上的表现能力。多头注意力机制使用多组注意力的Q，K，V矩阵进行线性变换，输入缩放点积注意力模块，将不同组的注意力特征横向拼接，完成最后的特征融合。完成了对长文本全文的特征融合后，在网络后面添加MLP网络结构进行特征变换，使用Softmax层对变换后的特征进行类别概率输出，并使用交叉损失函数根据分类结果优化网络结构。

在一些实施例中，图像特征编码模型为残差神经网络；初始模态融合网络采用多层感知机融合网络；初始文本语义映射网络和初始视频语义映射网络均为全连接神经网络结构。

具体的，在一些实施例中，本申请对于文字模态的数据，采用由文字特征编码模型Bert得到的768维向量作为特征；对于图像模态的数据，由图像特征编码模型ResNet50得到的2048维向量作为特征。模态融合网络使用多层感知机（MLP）网络结构，输入维度为2816（2048+768），输出维度768。文字和图像语义映射网络使用全连接神经网络结构，两者结构相同，网络节点数均为512、128、64。相对应的，构建的跨模态语义空间维度为64。模态判别器为3层全连接层，每层的网络结点数分别为32、16、2，作为0-1的二分类任务。

另一方面，本发明还提供一种视频跨模态搜索方法，参照图2，该方法包括以下步骤S301~S303：

步骤S301：获取用户输入的查询关键词，并输入上述步骤S101~S107中的视频跨模态搜索模型的训练方法中的文本特征提取器，得到文本在跨模态语义空间中的第一向量表示。

步骤S302：获取预存储的多个科技视频在跨模态语义空间中对应的第二向量表示，每个科技视频对应的第二向量表示是基于上述步骤S101~S107中的视频跨模态搜索模型的训练方法中的视频特征提取器处理得到的。

步骤S303：计算第一向量表示与各科技视频对应的第二向量表示的余弦距离，并排序查找最相近的设定数量个科技视频输出。

对于用户输入的查询关键词，文本进入不同的搜索流程，经过本申请步骤S101~S107中所述方法训练完成的Bert模型和文本语义映射网络，得到查询文本在跨模态语义空间中的向量表示，作为查询向量。在跨模态语义空间中，存储着由本申请步骤S101~S107中所述方法得到的候选视频向量，计算与查询向量q的Cosine距离，并根据相似度得分倒序排序，得到跨模态语义相似度的视频搜索结果。

本申请利用科技视频的自然分段样本进行对抗训练，使用三种下游任务，对提取得到的视频描述文本与视频多模态特征进行优化，提升科技视频在子空间语义表示的精确度。使用BERT预训练抽取视频中的分段文本特征，使用Bi-GRU结构共享分段文本之间的语义信息，通过多头自注意力结构得到带有注意力权重的融合特征，使用科技视频样本的视频类别标记信息设计文本多分类任务。解决了文本长度大于模型最大输入的问题，更加有效地利用了视频的类别信息，提升方法性能。

综上所述，本发明所述视频跨模态搜索模型训练方法、搜索方法及装置，对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间；被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容，提取首尾帧图像内容，分别进行特征提取后执行特征融合，并通过初始视频语义映射网络映射至公共语义空间；在下游构建相似度比对任务、语义分类任务和模态判别任务，对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练，提升文本和视频两种类型数据在公共语义空间内表示的精确度，并关注到模态内和模态间的关联及差异。

与上述方法相应地，本发明还提供了一种装置/系统，该装置/系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置/系统实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频跨模态搜索模型的训练方法，其特征在于，该方法包括以下步骤：

获取视频预处理模块，所述视频预处理模块提取每个视频片段的头帧和尾帧，并经图像特征编码模型提取对应视频片段的图像特征，对每个视频片段的所述头帧和所述尾帧进行光学字符识别得到第一文本，将所述第一文本拼接对应视频片段经科技视频自动语音识别得到的第二文本，所述第一文本和所述第二文本经预训练的文字特征编码模型提取对应视频片段的视频内容文本特征；

2.根据权利要求1所述的视频跨模态搜索模型的训练方法，其特

征在于，所述文字特征编码模型为BERT模型；

所述BERT模型的预训练过程包括：

3.根据权利要求1所述的视频跨模态搜索模型的训练方法，其特征在于，所述图像特征编码模型为残差神经网络；所述初始模态融合网络采用多层感知机融合网络；所述初始文本语义映射网络和所述初始视频语义映射网络均为全连接神经网络结构。

4.根据权利要求1所述的视频跨模态搜索模型的训练方法，其特征在于，通过计算每个样本对应的所述第一语义特征和所述第二语义特征的相似度构建模态损失，包括：

令两个数据语义分布的相似度计算公式为：

；

其中，l_i表示所述视频描述文本特征的语义分布和l_j表示所述视频融合特征的语义分布；

；

。

5.根据权利要求4所述的视频跨模态搜索模型的训练方法，其特征在于，使用交叉损失熵计算每个样本对应的所述第一语义特征和所述第二语义特征的偏差值作为语义损失，计算式为：

；

6.根据权利要求5所述的视频跨模态搜索模型的训练方法，其特征在于，所述语义映射网络总体损失计算式为：

；

其中，α和β为超参数。

7.根据权利要求6所述的视频跨模态搜索模型的训练方法，其特征在于，所述模态判别损失的计算式为：

；

8.一种视频跨模态搜索方法，其特征在于，该方法包括以下步骤：

获取用户输入的查询关键词，并输入权利要求1至7任意一项所述视频跨模态搜索模型的训练方法中的文本特征提取器，得到文本在跨模态语义空间中的第一向量表示；

9.一种视频跨模态搜索装置，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。