CN113901846B

CN113901846B - 基于时空注意力的视频引导机器翻译方法

Info

Publication number: CN113901846B
Application number: CN202111081275.9A
Authority: CN
Inventors: 余正涛; 姜舟; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-05-24
Anticipated expiration: 2041-09-15
Also published as: CN113901846A

Abstract

本发明涉及时空注意力的视频引导机器翻译方法，属于自然语言处理领域。本发明包括：构建中越可比语料数据集；使用预训练语言模型分别获得源语言句子特征和视频的全局特征以及局部特征，然后利用soft‑attention模型从源语言句子中选择出关键词,利用时空注意力获取到视频特征，根据提取视频中的特征对齐源语言和目标语言，使得源语言中的细节信息得以准确翻译，提高翻译质量。实验结果表明，本发明所提出方法不但能选择与目标语言最相关的时空片段，而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐，从而使得源语言中的细节信息得到准确翻译。

Description

基于时空注意力的视频引导机器翻译方法

技术领域

本发明涉及时空注意力的视频引导机器翻译方法，属于自然语言处理领域。

背景技术

视频引导机器翻译是一种多模态机器翻译任务，其目标是通过视频和文本的结合产生高质量的文本翻译。但是之前的工作中，只基于视频中的时间结构选择相关片段引导机器翻译，所选片段中仍然存在大量与目标语言无关的信息。因此，在翻译过程中，视频中的时空结构依然没有得到充分利用，从而无法有效缓解机器翻译中细节缺失或翻译错误的问题。

利用时空注意力的模型来充分利用视频中的时空信息引导机器翻译。提出的注意力模型不但能选择与目标语言最相关的时空片段，而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐，从而使得源语言中的细节信息得到准确翻译。

发明内容

本发明从细节缺失的角度对视频引导机器翻译中存在的问题进行了深入的研究。在机器翻译中将视频作为引导是多模态机器翻译中的一种重要的翻译方法，任务根据识别每一帧上具有空间结构和连续帧上的时间结构的特点，本发明提出了一种新的视频引导机器翻译的方法，该方法基于时空注意力机制，将局部目标信息集成到全局信息中。与现有的方法相比，本发明的方法可以关注多个突出的对象，从而产生详细准确的翻译描述。

发明技术方案：基于时空注意力的视频引导机器翻译方法，所述方法的具体步骤如下：

Step1、通过网络爬虫技术收集并构建汉越数据集，数据集包括视频以及与视频对应的平行句对，利用负采样获得非平行数据，通过人工对数据集进行标注得到汉越可比语料数据集，汉越平行数据主要来源包括汉越新闻网，微博，Facebook，Tiktok等。

Step2、通过GoogleNet获取到视频的全局特征，通过Faster R-CNN进行目标检测并获取到视频的局部特征，通过soft-attention模型从源语言句子中选择出关键词,利用提出的时空注意力模型从视频特征中选择出关键时空特征，最后将关键词和关键时空特征二者输入到目标语言解码器中。基于视频引导机器翻译，将关注的实体信息能增强源语言和目标语言的语义对齐，从而使得源语言中的细节信息得到准确翻译。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、通过网络爬虫技术获取视频以及中越平行数据，数据来源包括汉越新闻网，微博，Facebook，Tiktok等。

Step1.2、对爬取的数据进行过滤筛选，过滤筛选的方式如下所示：(1)、去除文本内容中的多余符号、超链接和特殊字符；(2)、去除与视频无关的话语；(3)、去除汉越不平行的句对；

Step1.3、采用人工标注，获得汉越可比语料数据集；对同一个视频的5局不同的中文描述打上5局越南语描述的标签，人工对视频与视频描述不符的数据集进行筛选。

作为本发明的进一步方案，所述步骤Step2的具体步骤如下：

Step2.1、通过Faster R-CNN对视频进行目标检测，然后利用空间注意力机制对前top-n个局部特征f_li＝{f_li1,...,f_lin}得到的每个帧，将每一帧转化为局部特征ψ(VL)＝{ψ₁(VL),ψ₂(VL),...,ψ_k(VL)},ψ_i(VL)通过空间注意机制对n个局部特征进行动态加权求和:

其中，vl_ij表示t时刻第i帧第j个局部特征变量，为t时刻的空间注意力得权重。空间注意力权重它反映了输入视频中第j个局部特征的相关性。因此，本发明设计一个函数，以LSTM解码器的前一个隐状态和第j个局部特征作为输入，并返回相关性分数/>

其中W_e,U_e,z_e是模型要学习的参数，并且在所有时间步长上，所有局部特征所共享的参数。

当通过局部特征计算出所有后(j＝1,...,n)，用softmax函数对它们进行归一化，得到/>

Step2.2、通过对全局特征V[G]＝{v[g]₁,v[g]₂,...,v[g]_k}和局部特征ψ(VL)＝{ψ₁(VL),ψ₂(VL),...,ψ_k(VL)}进行编码，编码后成为一个句子长度的时间表征每个时刻的/>的表示为全局时间表征和局部时间表征的级联：

其中是所有k个全局特征的动态加权和，/>是通过时间注意力机制的所有k个局部特征的动态加权和：

其中在LSTM解码器的每个时间步长t上，分别计算/>和并且将/>和/>作为t时刻的时间注意力权值。

Step2.3、通过设计了两个时间注意函数计算非标准化相关性得分和/>将前一个隐状态、第i个全局特征和第i个局部特征作为输入：

其中W_b,U_b,z_b,/>W_c,U_c,z_c是全局特征和局部特征的共享参数。然后，通过softmax函数对上式进行归一化：

Step2.4、对于全局特征，本发明采用卷积层为1024维pool5/7×7_s1层，表示为VG＝{vg₁,vg₂,...,vg_k}。对于局部特征，本发明将表示VL＝{vl₁,vl₂,..,vl_k}。这些局部特征由Faster R-CNN提取，在实验中，为了减少计算量和内存消耗，每帧视频提取特征个数上限设为5，因为每帧视频中包含对象个数通常小于10个。

模型和训练：本发明的视频引导机器翻译模型如图1所示。本发明使用单层LSTM单元，隐藏层大小为1024。词嵌入大小设置为512，学习率设置为0.0001，在训练过程中，所有视频引导机器翻译模型会通过最小化负对数似然估计进行端到端训练。然后，使用Adadelta算法和反向传播算法计算梯度，它们都广泛用于优化注意模型的参数更新。最后通过最大化对数似然估计参数：

N个源语言句子、视频、目标语言句子训练对为其中，/>代表输入源语言句子，/>代表对应的视频，并且每个描述目标语言句子yⁿ的单词长度是t_n。选取Bleu-4作为大多数机器翻译实验评价指标，本发明实验也将用它作为衡量实验的的参考标准。

本发明的有益效果是：

(1)本发明研究了在视频引导机器翻译任务中，引入局部特征，提高了视频帧中对多个小目标的识别和定位。

(2)本发明提出了一种用于视频引导机器翻译的时空注意力(STA)方法。通过对每一帧上的空间特征和连续帧上的时间特征分配不同的权重，本发明的方法能够捕获并保留视频中的全局信息，从而解决了翻译过程中细节缺失的问题。

附图说明

图1是本发明提出的基于时空注意力的视频引导机器翻译方法对应模型的具体示意图。

具体实施方式

实施例1：如图1所示，基于时空注意力的视频引导机器翻译方法，所述方法的具体步骤如下：

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.3、采用人工标注，获得汉越可比语料数据集；对同一个视频的5局不同的中文描述打上5局越南语描述的标签，人工对视频与视频描述不符的数据集进行筛选。实验语料规模如表1所示：

表1 实验数据统计信息

作为本发明的进一步方案，所述步骤Step2的具体步骤如下：

为了说明本发明的效果，考虑了以下三个基线进行比较：(1)Base NMT模型：本发明只考虑机器翻译的文本信息，采用LSTM解码器模型。(2)带有全局视频特征和时间注意力的模型结构,无局部特征的方法(TA-NL)。(3)与带有时间注意力方法的全局视频特征和使用平均策略的局部特征模型方法(NTA)比较。

表2 STA模型对比实验

说明：G为GoogLeNet,fc7为Faster R-CNN fc7层提取特征，Average为每10帧提取一帧的平均策略。TA-NL:根据时间注意力对全局特征进行处理。NTA:根据时间注意力对全局特征处理，并且根据平均策略处理局部特征。TAT:对全局特征进行时空注意力处理。STA(summation):利用时空注意力对视频特征与句子特征相加的实验。STA(concat):利用时空注意力对视频特征与句子特征拼接的实验。表2为本发明在其他条件一致的前提下，对比模型均使用获得最佳性能的参数对比实验，本发明通过大量实验得出了STA算法获得了实验中最高的BLEU值，在中越语料中，得出了在与Base NMT模型相比，本发明STA方法有了大幅度提高。与TA-NL相比本发明的方法获得了1.06个BLEU值的提升，通过结果表明，本发明将局部特征融入到全局特征中确实提高了视频帧中多个小目标的识别和定位。相比较于NTA方法，STA方法获得了0.99个BLEU值的提升。通过两组实验结果表明，模型增加局部特征，是可以为结果带来改善。与VMT方法相比，本发明的STA方法获得了0.89个BLEU值得提升。与TAT的方法相比本发明的方法获得了0.97个BLEU值得提升，通过结果表明时间注意力难以区分视频帧上的小对象。因此，空间注意力是视频引导机器翻译方法的重要组成部分。本发明也通过全局时间表征和局部时间表征的两个特征进行求和与拼接的方式进行了实验，发现,拼接后的效果明显好于求和后的效果。本发明观察到，利用空间和时间信息带来得改善是互补的，当空间注意力机制和时间注意力机制同时使用时效果最好。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于时空注意力的视频引导机器翻译方法，其特征在于：所述方法的具体步骤如下：

Step1、构建汉越数据集，数据集包括视频以及与视频对应的平行句对，利用负采样获得非平行数据，通过人工对数据集进行标注得到汉越可比语料数据集；

Step2、获取到视频的全局特征，进行目标检测并获取到视频的局部特征，从源语言句子中选择出关键词,利用提出的时空注意力模型从视频特征中选择出关键时空特征，最后将关键词和关键时空特征二者输入到目标语言解码器中；

所述步骤Step1的具体步骤为：

Step1.1、通过网络爬虫技术获取视频以及中越平行数据；

Step1.3、采用人工标注，获得汉越可比语料数据集；对同一个视频的5局不同的中文描述打上5局越南语描述的标签，人工对视频与视频描述不符的数据集进行筛选；

所述步骤Step2的具体步骤如下：

其中，vl_ij表示t时刻第i帧第j个局部特征变量，为t时刻的空间注意力得权重，空间注意力权重它反映了输入视频中第j个局部特征的相关性；因此，设计一个函数，以LSTM解码器的前一个隐状态和第j个局部特征作为输入，并返回相关性分数/>

其中W_e,U_e,z_e是模型要学习的参数，并且在所有时间步长上，所有局部特征所共享的参数；

Step2.2、通过对全局特征V[G]＝{v[g]₁,v[g]₂,...,v[g]_k}和局部特征ψ(VL)＝{ψ₁(VL),ψ₂(VL),...,ψ_k(VL)}进行编码，编码后成为一个句子长度的时间表征每个时刻的/>表示为全局时间表征和局部时间表征的级联：

其中在LSTM解码器的每个时间步长t上，分别计算/>和/>并且将/>和/>作为t时刻的时间注意力权值；

其中W_b,U_b,z_b,/>W_c,U_c,z_c是全局特征和局部特征的共享参数；然后，通过softmax函数对上式进行归一化：

Step2.4、对于全局特征，采用卷积层为1024维pool5/7×7_s1层，表示为VG＝{vg₁,vg₂,...,vg_k}；对于局部特征，将表示VL＝{vl₁,vl₂,..,vl_k}；这些局部特征由Faster R-CNN提取；

模型训练：在训练过程中，所有视频引导机器翻译模型通过最小化负对数似然估计进行端到端训练；然后，使用Adadelta算法和反向传播算法计算梯度，最后通过最大化对数似然估计参数：

N个源语言句子、视频、目标语言句子训练对为其中，/>代表输入源语言句子，/>代表对应的视频，并且每个描述目标语言句子yⁿ的单词长度是t_n。