CN116524915A

CN116524915A - 一种基于语义交互的弱监督语音-视频定位方法和系统

Info

Publication number: CN116524915A
Application number: CN202310461926.XA
Authority: CN
Inventors: 赵洲; 王晔; 林旺; 金涛; 李林峻; 成曦泽; 陈哲乾
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd; Zhejiang University ZJU
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd; Zhejiang University ZJU
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-01

Abstract

本发明公开了一种基于语义交互的弱监督语音‑视频定位方法和系统，属于视觉语言跨模态定位领域。本发明首先采用由语音和对应文本组成的预训练数据集，基于四项协同任务预训练语音编码器；再采用由语音和对应视频组成的定位任务数据集，构成正样本对和负样本对，根据定位网络的预测结果，计算二元交叉熵损失函数项；以及，利用定位网络预测的正样本对的最高分数的候选片段，构建帧级别的正样本和负样本，通过声学‑视觉对比学习，获取基于互信息最大化的损失函数项；结合两项损失，对定位网络进行弱监督定位训练，实现高效的跨模态交互，提高了语音‑视频定位的准确性。

Description

一种基于语义交互的弱监督语音-视频定位方法和系统

技术领域

本发明涉及弱监督语音-视频定位领域，尤其涉及一种基于语义交互的弱监督语音-视频定位方法和系统。

背景技术

当下，基于查询的视频定位任务已经引发了广泛关注，成为一项重要的人工智能任务，该任务旨在根据给定的查询，从视频中定位最相关的时间片段，使用户能够更方便、快捷地检索感兴趣的内容片段。

现有的视频定位任务可以分为两种：(1)文本-视频定位；(2)语音-视频定位。现有的大部分主要解决(1)类文本任务，而最近的工作开始研究(2)类语音任务。然而，对(2)类方法的研究仍依赖于大量的语音标注，需要标注人员精确地给每一视频片段进行合适的语音注解。语音标注相比文本而言需要大量的时间和人力，带来昂贵、繁琐的标注负担。因此，为了减少标注负担与数据成本，研究弱监督条件下的语音-视频定位成为了解决方案。在弱监督条件下，缺少精确的时间标注，只有粗粒度级别的语音-视频对应关系，因此如何高效地建模语音-视频交互内容成为了解决问题的关键。

发明内容

为了在弱监督条件下有效地进行语音-视频交互，本发明提出了一个基于语义交互的弱监督语音-视频定位方法和系统。

本发明所采用的具体技术方案是：

第一方面，本发明提出了一种基于语义交互的弱监督语音-视频定位方法，包括如下步骤：

步骤1，获取由语音和对应文本组成的预训练数据集，提取语音的时域特征和频域特征，再利用语音编码器对时域特征和频域特征进行编码，获取语音嵌入特征向量；以及，提取文本嵌入特征向量；所述的语音嵌入特征向量包括声学特征向量和语义特征向量；

步骤2，根据语音嵌入特征向量和文本嵌入特征向量进行声学-语义预训练，基于语音和文本之间的一对一语义关系，获取基于神经网络的时序类分类的损失函数项、基于信息噪声对比估计的损失函数项、基于负对数似然的损失函数项、基于相似性约束的损失函数项，共同预训练语音编码器；

步骤3，获取由语音和对应视频组成的定位任务数据集，构成正样本对和负样本对；对于每一个样本对，分别提取语音的时域特征和频域特征对应的语义特征向量，拼接后得到最终语音语义特征；以及提取视频嵌入特征向量；

步骤4，以样本对的最终语音语义特征和视频嵌入特征向量作为输入，利用定位网络预测每一个样本对中最高分数的候选片段，以最高分数作为对齐分数，根据对齐分数计算二元交叉熵损失函数项；

步骤5，利用定位网络预测的正样本对的最高分数的候选片段，构建帧级别的正样本和负样本，通过声学-视觉对比学习，获取基于互信息最大化的损失函数项；

步骤6，将步骤4和步骤5获得的损失函数项结合，得到最终的完整损失函数，对定位网络进行弱监督定位训练；

步骤7，获取待定位的语音和视频，分别利用语音编码器和视频编码器获取最终语音语义特征、视频视频嵌入特征向量；将两者交互，融合每一候选片段与语音，通过定位网络计算每一候选片段的分数，输出分数最高的候选片段，完成定位。

进一步的，所述的语音编码器包括若干声学编码层和若干语义编码层，所述的声学编码层和语义编码层均由线性层、批量归一化、ReLU激活函数和残差连接构成；以语音的时域特征或频域特征作为输入，首先通过若干声学编码层对时域特征或频域特征编码，生成声学特征向量，再通过若干语义编码层对声学特征向量编码，生成时域特征或频域特征对应的语义特征向量。

进一步的，步骤4中，采用自顶向下的方法，首先根据视频生成候选片段，然后计算每一候选片段与语音的相似度分数来预测每一个样本对中最高分数的候选片段。

进一步的，步骤4中，所述的步骤5)包括：

5.1)利用定位网络预测的正样本对的最高分数的候选片段，通过基于位置的方法和基于分数的方法构建帧级别的正样本和负样本；

5.2)利用基于Jensen-Shannon散度的互信息估计方法，计算基于互信息最大化的损失函数项：

其中，表示基于互信息最大化的损失函数项，sp(·)表示softplus函数，C(·)表示互信息计算，E[·]表示期望，/>表示最终语音语义特征，v⁺表示帧级别的正样本，v^-表示帧级别的负样本。

进一步的，所述的基于位置的方法为：根据最高分数的候选片段的边界，将边界外的帧特征作为负样本，将边界内的帧特征作为正样本；所述的基于分数的方法为：利用定位网络获得最高分数的候选片段的边界内各帧的分数，分数最高与最低的若干帧特征分别被选择为正样本与负样本。

第二方面，本发明提出了一种基于语义交互的弱监督语音-视频定位系统，包括：

预训练数据模块，其用于获取由语音和对应文本组成的预训练数据集；

定位任务数据模块，其用于获取由语音和对应视频组成的定位任务数据集；

语音编码器模块，其用于对语音的时域特征和频域特征进行编码，获取语音嵌入特征向量；所述的语音嵌入特征向量包括声学特征向量和语义特征向量，将时域特征和频域特征的语义特征向量拼接结果作为最终语音语义特征；

视频编码器模块，其用于提取视频嵌入特征向量；

文本编码器模块，其用于提取文本嵌入特征向量；

定位网络模块，其用于对样本对的最终语音语义特征和视频嵌入特征向量进行交互，融合每一候选片段与语音，预测每一个样本对中最高分数的候选片段；

声学-语义预训练模块，其用于根据语音嵌入特征向量和文本嵌入特征向量进行声学-语义预训练，基于语音和文本之间的一对一语义关系，获取基于神经网络的时序类分类的损失函数项、基于信息噪声对比估计的损失函数项、基于负对数似然的损失函数项、基于相似性约束的损失函数项，共同预训练语音编码器；

声学-视觉对比学习模块，其用于根据定位任务数据集构建正样本对和负样本对，将定位网络模块输出的最高分数作为对齐分数，根据对齐分数计算二元交叉熵损失函数项；以及，利用定位网络预测的正样本对的最高分数的候选片段，构建帧级别的正样本和负样本，通过声学-视觉对比学习，获取基于互信息最大化的损失函数项；结合二元交叉熵损失函数项和基于互信息最大化的损失函数项，对定位网络进行弱监督定位训练。

与现有技术相比，本发明具备的有益效果是：

(1)通过基于语音-文本预训练，本发明使语音编码器在缺少细粒度时间标注的情况下学到语音信息中的语义信息，其中多个预训练任务从声学、语音角度协同性地实现了精确、有效的语音编码，从而避免了语音-视频定位中标注费用昂贵的注释，实现弱监督条件下高效的语音-视频定位。

(2)通过弱监督定位时的语音-视频对比学习，本发明在缺少细粒度时间标注的情况下，通过声学-视觉对比学习，直接从表征空间优化语音和相似视频帧的相关性，让模型从编码层面学会跨模态语义空间相似性，以帮助模型更好地在视频上全局地定位与语音相关的帧，实现弱监督条件下高效的语音-视频定位。

综上所述，通过联合使用语音-文本预训练和语音-视频对比学习，本发明可以充分地从语音中提取到有用的语义信息，并且实现高效的跨模态交互，从而取代标注费用昂贵的细粒度注释，实现弱监督条件下高效的语音-视频定位。

附图说明

图1是本发明实施例示出的基于语义交互的弱监督语音-视频定位的主干网络示意图。

图2是本发明实施例示出的语音编码器。

图3是本发明实施例示出的声学-语义预训练示意图。

图4是本发明实施例示出的声学-视觉对比学习示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

本发明提出了一种基于语义交互的弱监督语音-视频定位方法，包括如下步骤：

步骤1，获取由语音和对应文本组成的预训练数据集，提取语音的时域特征和频域特征，再利用语音编码器对时域特征和频域特征进行编码，获取语音嵌入特征向量；以及，提取文本嵌入特征向量。本实施例中，所述的语音嵌入特征向量包括声学特征向量和语义特征向量。

步骤3，获取由语音和对应视频组成的定位任务数据集，构成正样本对和负样本对；对于每一个样本对，分别提取语音的时域特征和频域特征对应的语义特征向量，拼接后得到最终语音语义特征以及提取视频嵌入特征向量。

步骤4，以样本对的最终语音语义特征和视频嵌入特征向量作为输入，利用定位网络预测每一个样本对中最高分数的候选片段，以最高分数作为对齐分数，根据对齐分数计算二元交叉熵损失函数项。

步骤5，利用定位网络预测的正样本对的最高分数的候选片段，构建帧级别的正样本和负样本，通过声学-视觉对比学习，获取基于互信息最大化的损失函数项。

步骤6，将步骤4和步骤5获得的损失函数项结合，得到最终的完整损失函数，对定位网络进行弱监督定位训练。

步骤7，获取待定位的语音和包含候选片段的视频，分别利用语音编码器和视频编码器获取最终语音语义特征、视频视频嵌入特征向量；将两者交互，融合每一候选片段与语音，通过定位网络计算每一候选片段的分数，输出分数最高的候选片段，完成定位。

上述步骤1中利用语音编码器获取语音嵌入特征向量可具体采用如下实现方式：

对于每一个给定的语音输入S，在语音特征上进行双重编码，同时考虑时域特征S^t和频域特征S^f；如图2所示，对于S^t/S^f，将其经过N_a个由线性层、批量归一化、ReLU激活函数和残差连接构成的声学编码层，提取得到声学特征向量S_a，将S_a作为声学编码器的输入，经过N_s个与声学编码层相同的语义编码层，提取语义特征向量S_s，为了表示清楚，将时域特征S^t和频域特征S^f对应的语义特征向量分别表示为和/>拼接后得到最终语音语义特征

上述步骤1中，利用预训练的词嵌入模型中的子词嵌入向量作为文本嵌入特征向量。

如图3所示，上述步骤2的声学-语义预训练包括四个协同任务，具体实现如下：

协同任务1：

2.1)根据预训练数据集中语音和文本之间的一对一关系，在声学编码器产生的声学特征向量S_a上，获取基于神经网络的时序类分类的损失函数项：

2.1.1)以声学特征向量S_a作为输入，使用由双层前馈神经网络组成的解码器产生预测序列，其中每一序列代表一组路径，由目标文本字符和“空白”符号组成；

2.1.2)按照前向-后向动态规划算法，计算预测序列的所有可能路径的概率总和，以原始文本序列作为目标，根据任意时刻的前向概率和后向概率优化全部路径的概率总和，得到基于神经网络的时序类分类的损失函数项：

其中，表示基于神经网络的时序类分类的损失函数项，/>表示由解码器产生的序列对应的一组路径，C表示/>中的一条路径，S_a代表声学特征向量，P代表两条路径相同的概率。

将时域特征S^t和频域特征S^f对应的基于神经网络的时序类分类的损失函数项分别记为和/>

协同任务2：

2.2)在语义编码器产生的语义特征向量S_s上，将对应的文本嵌入特征向量作为正样本T⁺，并随机采样若干其余文本嵌入特征向量作为负样本T^-，获取基于信息噪声对比估计的损失函数项。

2.2.1)以语义特征向量S_s作为输入，使用双向门控循环神经网络以及序列维度的平均池化得到全局语义特征向量S_g。

2.2.2)根据预训练数据集中语音和文本之间的一对一关系，在对应的文本嵌入特征向量上应用序列维度的平均池化，得到全局文本特征向量作为正样本T⁺。类似地，从预训练数据集中随机采样若干个与语音不对应的文本，得到全局文本特征向量作为负样本T^-。

2.2.3)计算基于信息噪声对比估计的损失函数项：

其中，表示基于信息噪声对比估计的损失函数项，B代表采样的负样本数量。

将时域特征S^t和频域特征S^f对应的基于信息噪声对比估计的损失函数项分别记为和/>

协同任务3：

2.3)将语义特征向量S_s和随机掩盖若干个字符后的文本嵌入特征向量Q_m作为解码器的输入，由解码器产生的预测的文本字符；以原本的文本字符作为目标，获取基于负对数似然的损失函数项。

2.3.1)对步骤1获得的文本嵌入特征向量Q进行随机掩码，得到随机掩盖若干个字符后的文本嵌入特征向量Q_m；将语义特征向量S_s和随机掩盖若干个字符后的文本嵌入特征向量Q_m作为解码器的输入，使用基于多头注意力机制的解码器预测被掩盖的文本字符。

2.3.2)根据预测的文本字符和原始的文本字符计算基于负对数似然的损失函数项：

其中，表示基于负对数似然的损失函数项，n_w代表文本字符数量，w_i+1代表第i+1个原始的文本字符，e_i代表预测的第i个文本字符。

将时域特征S^t和频域特征S^f对应的基于负对数似然的损失函数项分别记为和

协同任务4：

2.4)根据时域特征S^t和频域特征S^f对应的语义特征向量和/>计算基于相似性约束的损失项：

其中，表示基于相似性约束的损失项。

步骤3中，获取由语音和对应视频组成的定位任务数据集。给定一个未修剪的视频V以及一段语音查询S，其中一段视频可以对应多个语音查询，但是没有时间上的标注，即不知道语音描述哪一片段。按照多实例学习的方法，从训练集中采样不相关的视频V′和语音查询S′，形成两个不相关的语音-视频对(V′,S)与(V,S′)。对于每一个样本对，分别提取语音的时域特征和频域特征对应的语义特征向量，拼接后得到最终语音语义特征(在图1中简称语音特征)；以及，利用预训练的视频编码器提取视频嵌入特征向量(在图1中简称视频特征)，此处的视频编码器为本领域公知技术。

步骤4中，利用定位网络计算每一个样本对中视频包含的各候选片段分数，将最高的候选片段分数作为对齐分数。此处的定位网络为本领域公知技术，通过输入语音-视频对中的最终语音语义特征和视频嵌入特征向量进行交互，即可计算得到视频包含的各候选片段分数，最高的候选片段分数作为对齐分数。

本实施例中，采用自顶向下的方法，即首先根据视频生成候选片段，然后计算每一候选片段与语音的相似度分数来选择最相关的候选片段。

基于二元交叉熵损失函数，将相关的语音-视频对(V,S)从不相关的语音-视频对(V^′,S)与(V,S^′)中区分出来，进行弱监督语音-视频定位训练，所述的二元交叉熵损失函数如下：

其中，f(k)代表语音-视频对(V,S)的对齐分数，f(k_v′)和f(k_s′)分别代表语音-视频对(V^′,S)和语音-视频对(V,S^′)的对齐分数。采用多示例学习，通过随机采样不相关的视频和语音对，让模型区分相关联的语音-视频对以及不相关的语音-视频对。

步骤5，利用图4中的声学-视觉对比学习，获取基于互信息最大化的损失函数。

利用定位网络预测的正样本对的最高分数的候选片段，采用两种筛选方式获取可靠的帧级别的正样本v⁺和负样本v^-用于表征优化。

第一种基于位置的方法：直接通过预测的候选片段边界来选择边界外的帧特征作为负样本。

第二种基于分数的方法：计算候选片段边界内各帧的分数，分数最高与最低的若干帧特征分别被选择为正样本与负样本。本实施例中，将候选片段边界内的各帧视频和最终语音语义特征作为定位网络的输入，直接得到各帧的分数。

利用基于Jensen-Shannon散度的互信息估计方法，计算最终语音语义特征和帧级别的正样本/负样本特征的互信息，对比性地让语音与正样本的帧之间的互信息大于其与负样本的帧，计算基于互信息最大化的损失函数

其中，sp(·)表示softplus函数，C(·)表示互信息计算，E[·]表示期望，表示最终语音语义特征，v⁺表示帧级别的正样本，v^-表示帧级别的负样本，此处的正/负样本表示帧级特征。

步骤6中，联合二元交叉熵损失函数和基于互信息最大化的损失函数/>对定位网络进行弱监督定位训练。

综上，本发明首先利用步骤2中四个协同任务的损失函数加权结果，采用梯度下降学习方法，对语音编码器的参数进行预训练，并在预训练完成后冻结语音编码器参数，再利用步骤4和步骤5中的损失函数加权结果，采用梯度下降学习方法，对定位网络的参数进行训练，完成弱监督语音-视频定位任务。

在实际定位过程中，获取语音和包含候选片段的视频，分别利用语音编码器和视频编码器获取最终语音语义特征、视频视频嵌入特征向量；两者交互，融合每一候选片段与语音，通过定位网络计算每一候选片段的分数，输出分数最高的候选片段，实现定位。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

本发明在ActivityNet Speech数据集上进行弱监督语音-视频定位的实验，在Libri Speech数据集上进行预训练。为了客观地评价本发明的性能，本发明在所选出的测试集中，使用了R@1,IoU＝m、R@5,IoU＝m和mIoU三套评价标准来对本发明的效果进行评价(m＝0.1/0.3/0.5/0.7)。其中R@n,IoU＝m代表分数最高的的n个候选片段与真实标注片段的IoU大于m的值，mIoU代表分数最高的1个候选片段与真实标注片段IoU的平均值。

将本发明方法与下述现有技术的模型进行对比，具体分为两类框架：

1)级联框架：该框架在第一阶段首先通过自动语音识别模型将语音查询转化为识别的文本查询，在第二阶段使用文本查询作为输入应用传统的文本-视频定位方法进行定位训练。在第一阶段，选择基于wav2vec 2.0的自动语音识别模型。在第二阶段，选择如下的文本-视频定位方法：

1.WSLLN模型直接将候选片段特征与文本特征融合，并开发对齐分支与探测分支，最终结合两个分支的输出分数产生最终的片段对齐分数。

2.RTBPN模型通过一个基于文本的过滤器来产生增强的视频特征与抑制的视频特征，通过样本内和样本间的损失函数进行训练，并采用了正则化技术提升稳定性。

3.SCN模型遮掩文本中的关键词汇并利用一个解码器基于视觉片段特征重构被遮掩的词，最终根据反馈的分数对候选片段进行排序。

2)端到端框架：该框架直接使用语音查询作为输入进行语音-视频定位训练。在一方面，将主干网络Base作为基本定位网络，将其与不同的预训练方法进行组合，包括：

1.Wav2vec方法利用对比预测编码进行预训练，它不依赖语音对应的文本信息；

2.MMP方法利用一个统一的多模态编码器进行“遮掩-重建”以及“预测一致”两个子任务进行预训练；

3.LUT方法利用知识蒸馏的方法，从整体句子和局部词两个层面进行预训练。

在另一方面，将本发明的协同任务2与不同的定位网络进行组合。由于当前没有弱监督语音-视频定位的模型，本实施例通过替换之前弱监督文本-视频定位网络中的文本输入为语音输入来作为定位网络，包括上述的WSLLN模型与RTBPN模型。

按照具体实施方式中描述的步骤，所得的实验结果如表1至表3所示，本发明的模型表示为SIN。

表1：本发明在ActivityNet Speech数据集上的弱监督语音-视频定位任务的结果(R@1和mIoU)

表2：本发明在ActivityNet Speech数据集上的弱监督语音-视频定位任务的结果(R@5)

从表1和表2中可以发现，本发明所提出的SIN方法的定位性能明显优于其它方法，例如级联框架的(ASR)RTBPN和端到端框架的RTBPN+CT。与基线模型Base相比，本发明方法SIN将R@1,IoU＝0.7从11.02提升到15.02，将R@5,IoU＝0.7从28.08提升到35.48，将mIoU从28.44提升到34.02。

受益于本发明提出的声学-语义预训练以及声学-视觉对比学习，SIN方法可以实现高效语音编码以及高效的跨模态交互，最终达到有效的弱监督语音-视频定位。SIN方法与其他方法相比效果更好，说明对于无注释手语翻译任务，有效地提取语音信息并实现跨模态交互是关键所在。

在本实施例中还提供了一种基于语义交互的弱监督语音-视频定位系统，该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

一种基于语义交互的弱监督语音-视频定位系统，包括：

视频编码器模块，其用于提取视频嵌入特征向量；

文本编码器模块，其用于提取文本嵌入特征向量；

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可，其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于语义交互的弱监督语音-视频定位方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于语义交互的弱监督语音-视频定位方法，其特征在于，所述的语音编码器包括若干声学编码层和若干语义编码层，所述的声学编码层和语义编码层均由线性层、批量归一化、ReLU激活函数和残差连接构成；以语音的时域特征或频域特征作为输入，首先通过若干声学编码层对时域特征或频域特征编码，生成声学特征向量，再通过若干语义编码层对声学特征向量编码，生成时域特征或频域特征对应的语义特征向量。

3.根据权利要求1所述的一种基于语义交互的弱监督语音-视频定位方法，其特征在于，所述的基于神经网络的时序类分类的损失函数项，具体为：

2.1.1)以时域特征或频域特征对应的声学特征向量作为输入，使用由双层前馈神经网络组成的解码器产生预测序列，其中每一序列代表一组路径，由目标文本字符和“空白”符号组成；

2.1.2)计算预测序列的所有可能路径的概率总和，以原始文本序列作为目标，计算基于神经网络的时序类分类的损失函数项：

4.根据权利要求1所述的一种基于语义交互的弱监督语音-视频定位方法，其特征在于，所述的基于信息噪声对比估计的损失函数项，具体为：

2.2.1)以时域特征或频域特征对应的语义特征向量为输入，使用双向门控循环神经网络以及序列维度的平均池化得到全局语义特征向量S_g；

2.2.2)根据预训练数据集中语音和文本之间的一对一关系，在对应的文本嵌入特征向量上应用序列维度的平均池化，得到全局文本特征向量作为正样本T⁺；从预训练数据集中随机采样若干个与语音不对应的文本，得到全局文本特征向量作为负样本T^-；

2.2.3)计算基于信息噪声对比估计的损失函数项：

5.根据权利要求1所述的一种基于语义交互的弱监督语音-视频定位方法，其特征在于，所述的基于负对数似然的损失函数项，具体为：

2.3.1)对步骤1获得的文本嵌入特征向量进行随机掩码，得到随机掩盖若干个字符后的文本嵌入特征向量Q_m；将时域特征或频域特征对应的语义特征向量和随机掩盖若干个字符后的文本嵌入特征向量Q_m作为解码器的输入，使用基于多头注意力机制的解码器预测被掩盖的文本字符；

6.根据权利要求1所述的一种基于语义交互的弱监督语音-视频定位方法，其特征在于，所述的基于相似性约束的损失函数项，具体为：

根据时域特征和频域特征对应的语义特征向量和/>计算基于相似性约束的损失项：

其中，表示基于相似性约束的损失项。

7.根据权利要求1所述的一种基于语义交互的弱监督语音-视频定位方法，其特征在于，步骤4中，采用自顶向下的方法，首先根据视频生成候选片段，然后计算每一候选片段与语音的相似度分数来预测每一个样本对中最高分数的候选片段。

8.根据权利要求1所述的一种基于语义交互的弱监督语音-视频定位方法，其特征在于，步骤4中，所述的步骤5)包括：

9.根据权利要求8所述的一种基于语义交互的弱监督语音-视频定位方法，其特征在于，所述的基于位置的方法为：根据最高分数的候选片段的边界，将边界外的帧特征作为负样本，将边界内的帧特征作为正样本；所述的基于分数的方法为：利用定位网络获得最高分数的候选片段的边界内各帧的分数，分数最高与最低的若干帧特征分别被选择为正样本与负样本。

10.一种基于语义交互的弱监督语音-视频定位系统，其特征在于，包括：

视频编码器模块，其用于提取视频嵌入特征向量；

文本编码器模块，其用于提取文本嵌入特征向量；