CN113423004B - 基于解耦译码的视频字幕生成方法和系统 - Google Patents

基于解耦译码的视频字幕生成方法和系统 Download PDF

Info

Publication number
CN113423004B
CN113423004B CN202110967808.7A CN202110967808A CN113423004B CN 113423004 B CN113423004 B CN 113423004B CN 202110967808 A CN202110967808 A CN 202110967808A CN 113423004 B CN113423004 B CN 113423004B
Authority
CN
China
Prior art keywords
attention
modal
self
sequence
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110967808.7A
Other languages
English (en)
Other versions
CN113423004A (zh
Inventor
张天翊
赵洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN202110967808.7A priority Critical patent/CN113423004B/zh
Publication of CN113423004A publication Critical patent/CN113423004A/zh
Application granted granted Critical
Publication of CN113423004B publication Critical patent/CN113423004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Abstract

本发明公开了一种基于解耦译码的视频字幕生成方法和系统,属于视频字幕生成领域。1)获取视频的三种模态特征,在每一种模态特征的开头添加“[CLS]”标记;2)利用一个三通道跨模态编码器分别对三种模态特征进行编码;将所有编码块的输出结合在一起作为最终输出,并在最终输出结果中引入重构约束;3)从编码后的模态特征序列的首位“[CLS]”标记提取到三种模态的全局特征,结合历史预测词序列获得细粒度三阶张量,解耦三阶张量得到每种模态下的注意权重;将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征,引入到解码器的解码过程中,生成新的预测词。

Description

基于解耦译码的视频字幕生成方法和系统
技术领域
本发明视频字幕生成领域,具体涉及一种基于解耦译码的视频字幕生成方法和系统。
背景技术
生成图像和视频的自然语言描述(视觉字幕)是计算机视觉中的一个重要问题。它不仅需要强大的模型来理解图像或视频,也同样需要语言处理技术来生成类似于人类有意义的自然描述。与图像字幕相比,视频字幕更加复杂,因为视频包含时间和多模态信息,需要谨慎利用。它可以应用于各种实际应用,如视频检索,人机交互,帮助视力障碍者理解视频内容。
基于长短期存储单元(LSTM)的编解码器结构在视频字幕中得到了广泛的应用。一些学者采用LSTM对视频特征进行编码并生成相应的描述。Li Yao等人首先提出将LSTM与注意机制相结合,根据解码器的查询赋予编码后的视频特征不同的注意权重。为了更好地整合多模态特征,Chiori等人提出了一个两级注意机制,其中第一级和第二级分别关注不同的时间步骤(timestep)和模式(即图像,运动,音频)。然而,基于LSTM的视频字幕存在一些严重的问题,如忽视了跨模态的相互作用和缺乏捕捉长时程相关的能力。
为了弥补这些缺点,在视频字幕中引入了基于Transformer模型的架构。MingChen等人提出用Transformer代替LSTM进行视频理解,因为Transformer可以关联序列特征的任意两个时间步长。类似地,Luowei Zhou等人使用Transformer来实现密集视频字幕。上述两个方法虽然利用了Transformer的内在优势,可以捕捉到长时程相关,但它们没有利用不同模态之间的跨模态相互作用,此外,基于Transformer的方法仍然存在许多问题。例如,深度堆叠的跨模态编码块使不同的模态失去了它们的识别属性,在计算注意权重时,上述方法只考虑了查询与键模式的相关性,而忽略了它们与其他模式的相互作用。此外,解码器通常使用最后一个编码块的输出,这不是一个全面的表示,由于不同的Transformer编码块携带不同方面的信息(即低级、高级),对浅层特征的处理可能是对信息的浪费。
发明内容
为了解决上述中的技术问题,本发明提供了一种一种基于解耦译码的视频字幕生成方法和系统。
本发明采用如下技术方案:
本发明的其中一个目的在于提供一种基于解耦译码的视频字幕生成方法,包括以下步骤:
1)给定一段视频,获取视频的三种模态特征:图像特征、运动特征和音频特征;在每一种模态特征的开头添加 [CLS]标记;
2)利用一个三通道跨模态编码器分别对三种模态特征进行编码;每一个通道均由多个编码块叠加构成;所述的编码块包含一个自注意层、一个跨模态注意层和一个前馈层;将所有编码块的输出结合在一起作为最终输出,并在最终输出结果中引入重构约束;
3)利用解码器对编码器输出的三种编码后的模态特征进行解码:
从编码后的模态特征序列的首位 [CLS]标记提取到三种模态的全局特征,结合历史预测词序列获得细粒度三阶张量,解耦三阶张量得到每种模态下的注意权重;
将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征,将语境序列特征引入到解码器的解码过程中,生成新的预测词;
4)结合历史预测词与实时生成的新的预测词,合成视频字幕。
本发明的另一个目的在于提供一种基于解耦译码的视频字幕生成系统,用于实现上述的视频字幕生成方法。
与现有技术相比,本发明在编码器中,采用 [CLS]标记与多模态特征相联系,根据这些标记的编码结果执行重构约束,增强了不同模态下的识别特性;此外,为了更好地捕捉不同模态的关联,将点积运算用基于tucker的运算取代,由于核张量不是固定的,它可以动态学习以适应任务。最后基于细粒度的分层解码来生成单词,该解码器利用张量外积运算在多种模态特征之间形成联系,并对得到的张量进行解耦来计算出这些特征的注意权重。实验结果表明,本发明提出的IAT模型在大多数指标上都优于目前最先进的方法。
附图说明
图1是本发明方法的整体框架设计图。
图2是基于全局门控多模态交互的注意机制(GMI_AT)的计算过程,它是“GMI_Self”和“GMI_CM”的关键步骤。
图3是tucker分解示意图。
图4是在MSR-VTT数据集上不同权重下损失函数之间的权衡。
图5是SBAT、IAT生成结果的对比。
图6是分层注意机制中注意权重的可视化结果。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,基于解耦译码的视频字幕生成方法主要包括以下步骤:
步骤一:给定一段视频,获取视频的图像特征、运动特征和音频特征,表示为
Figure 468075DEST_PATH_IMAGE001
Figure 650795DEST_PATH_IMAGE002
Figure 961690DEST_PATH_IMAGE003
;在第一个时间步长上,在每一种模态特征的开头添加 [CLS]标记,即
Figure 888058DEST_PATH_IMAGE004
步骤二:利用一个三通道跨模态编码器分别对三种模态特征进行编码;每一个通道均由多个编码块叠加构成;所述的编码块包含一个自注意层、一个跨模态注意层和一个前馈层;
为了增强不同模态下的识别特性,将所有编码块的输出结合在一起作为最终输出,并在最终输出中引入重构约束;
第三:利用解码器对编码器输出的三种编码后的模态特征进行解码。
三个步骤分别对应预处理、编码和解码过程,下面分别对三部分内容进行介绍。
(一)预处理
由于视频字幕是一个多模态任务,编码器的输入包括多个模态,如图1所示,由堆叠的注意块组成的三个联合的Transformer架构分别处理图像、运动和音频特征。三个模态的特征可以由预训练的CNN特征提取网络获得。
方便起见,我们使用
Figure 984321DEST_PATH_IMAGE005
表示图像特征、运动特征和 音频特征。
Figure 337942DEST_PATH_IMAGE006
表示时间步长的数量。结合Transformer的特点,在第一个时间步长上 将 [CLS]标记联系起来(即
Figure 136134DEST_PATH_IMAGE007
)。
(二)编码器
通常,图像特征(或运动特征、音频特征)是由包含自注意层和跨模态注意层的注意块来处理的。本发明中,当模态数量增加时,自注意层和跨模态注意层仍然聚焦于不超过两个模态上,分别对自注意层和跨模态注意层执行全局门控交互。
由于传统的GMI_AT通过点积运算不能调整低秩核张量来更好地适应视频字幕任 务,因此,我们用基于Tucker的运算代替点积运算。假设我们有两个向量
Figure 866192DEST_PATH_IMAGE008
并且想把 它们仅和一个头联结。将q和k用下列双线性函数变换为
Figure 816962DEST_PATH_IMAGE009
Figure 341484DEST_PATH_IMAGE010
其中,W2可以用低秩(秩
Figure 626972DEST_PATH_IMAGE011
)近似进行分解,Uq,Uk对应可训练的向量,向量1由1组 成,⊙和
Figure 442612DEST_PATH_IMAGE012
结合表示点积运算。
传统Transformer中采用的分解称为CP分解,它是Tucker分解的一种特殊形式。如图3所示,利用tucker分解可以将计算过程重写为:
Figure 497156DEST_PATH_IMAGE013
其中,W2被表示为
Figure 661421DEST_PATH_IMAGE014
Figure 434205DEST_PATH_IMAGE015
是低秩近似的核张量,它保留了W2的大部分 属性。当
Figure 240487DEST_PATH_IMAGE016
为单位矩阵(即不能保留任何属性)时,CP分解等于tucker分解。因此,低秩核张 量
Figure 959657DEST_PATH_IMAGE016
携带更多的信息且有可调节的秩值,基于Tucker的运算能更好地捕捉到查询到键的 关联。
关于上述基于Tucker的运算的理论分析(1):采用CP分解时,核张量
Figure 825982DEST_PATH_IMAGE016
是固定的 (单位矩阵)。因此,原矩阵W2的大部分属性都丢失了,而且秩值需要手动调整。然而,基于 Tucker的运算不固定核心张量,而是可以通过动态学习来适应视频字幕任务。(2):我们对Q 和K采用对应元素的非线性函数,而
Figure 86062DEST_PATH_IMAGE016
可以捕捉它们对应元素之间的相关性。因此,全局门 控交互和基于Tucker的运算是相辅相成的。在接下来的实验部分,我们也设置了消融实验 来验证这一事实。
在本实施例中,所述的自注意层和跨模态注意层采用基于Tucker的运算计算注意力值,表示为:
Figure 446767DEST_PATH_IMAGE017
其中,Q、K、V、g表示输入量参数,根据三通道跨模态编码器的不同通道的具体处理 对象确定;Q'和K'为输入量的全局交互结果,dk是输入维度,Wq、Wk是可训练变量,
Figure 475903DEST_PATH_IMAGE018
表示 sigmoid门控函数,⊙表示对应元素乘积;Q1、K1表示输入序列中的 [CLS]标记。
以图像特征编码的过程为例。
图像通道自注意层的计算表示为:
I'=GMI_Self(I)=GMI_MH(I,I|M1⊙S1)
其中,GMI_Self表示全局门控多模态交互的自注意,同理可得运动通道和音频通道的自注意层的计算结果M'和S',如下:
M'=GMI_Self(M)=GMI_MH(M,M|I1⊙S1)
图像通道与运动通道的跨模态注意层的计算表示为:
GMI_CM(I',M')=GMI_MH(I',M'|S'1)
其中,GMI_CM表示全局门控多模态交互的跨模态注意,同理可得其余两两通道之间的跨模态注意层的计算结果GMI_CM(I',S')和GMI_CM(S',M');如下:
GMI_CM(I',S')=GMI_MH(I,S'|M'1)
GMI_CM(S',M')=GMI_MH(S',M'|I'1)
其中,I、M、S分别表示图像特征、运动特征和音频特征,I'、M'、S'分别表示图像特征自注意表示、运动特征自注意表示和音频特征自注意表示,I1、M1、S1、I'1、M'1、S'1分别表示对应特征序列中的 [CLS]标记;GMI_Self表示全局门控多模态交互的自注意,GMI_CM表示全局门控多模态交互的跨模态注意,GMI_MH表示多头注意,表示为:
Figure 778708DEST_PATH_IMAGE019
其中,a、b、c用于表示不同的输入,根据三通道跨模态编码器的不同通道的具体处 理对象确定;
Figure 260505DEST_PATH_IMAGE020
表示可训练变量。
由于深度堆叠的编码块使不同的模式失去了识别特性,因此,本发明对每个模态采用重构约束,在实施中,仅在最后一个编码块的三通道输出端引入重构约束,利用最后的编码层中的 [CLS]标记的编码结果来预测原始提取特征的概率分布。
依然以图像特征编码的过程为例。当我们使用预训练的CNN提取视频特征时,我们也保留了不同类别(即1000类ImageNet)的概率分布,将其作为图像模态下的真实概率分布。同理,视频的每个时间步长都有其图像、运动和音频的真实概率分布。在实际应用中,我们保留每类在所有视频帧中的最大概率。
所述的重构约束分别计算三种模态下的损失,表示为:
Figure 424901DEST_PATH_IMAGE021
其中,
Figure 308544DEST_PATH_IMAGE022
表示对应模态下的概率分布损失,*=I、M或S,分别表示图像模态概率分 布损失、运动模态概率分布损失和音频模态概率分布损失;F表示对应模态下的类的数量,f 表示第f类,pf和zf表示相应类的真实概率分布和最后一个编码块的三通道输出的实际概率 分布;
Figure 782251DEST_PATH_IMAGE023
表示可训练变量;
Figure 485764DEST_PATH_IMAGE024
=I'1、M'1或S'1,分别表示对应模态下自注意表示序列中的 [CLS]标记;
Figure 453851DEST_PATH_IMAGE025
表示sigmoid门控函数。
为了更加清楚的说明,以图像模态为例,采用多标签二分交叉熵损失函数:
Figure 457580DEST_PATH_IMAGE026
其中,其中Lri表示图像模态的损失函数,
Figure 102188DEST_PATH_IMAGE027
表示 [CLS]标记。
Figure 558577DEST_PATH_IMAGE028
用于将 [CLS]标记的编码结果映射到图像的概率分布,F表示类的数量(也即ImageNet类为1000,即 图像类的数量),f表示第f个类,z表示预测概率矩阵;Lrm和Lrs可用类似的方法得到。
传统方法只使用最后一个编码块的输出,并不是一个全面的表示。我们认为不同 的编码块捕获不同层次的视频信息。因此,我们保留所有编码块的输出。为了方便,我们使 用
Figure 813845DEST_PATH_IMAGE029
表示编码器的输出,其中n为编码块的数 量。
(三)解码器
从编码后的模态特征序列的首位 [CLS]标记提取到三种模态的全局特征,结合历史预测词序列获得细粒度三阶张量,解耦三阶张量获得每个模态下的注意权重;
将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征,将语境序列特征引入到解码器的解码过程中,生成新的预测词。
在本发明的一项具体实施中,解码过程包括以下步骤:
3.1)将编码器输出的三种编码后的模态特征表示为
Figure 406500DEST_PATH_IMAGE030
,*=I、M或S,分别表示图像 模态、运动模态和音频模态,即In、Mn和Sn;从各模态下特征序列首位 [CLS]标记提取三种模 态的全局特征
Figure 222009DEST_PATH_IMAGE031
,即分别表示为
Figure 165695DEST_PATH_IMAGE032
3.2)结合历史预测词序列和全局特征,计算细粒度三阶张量:
Figure 475584DEST_PATH_IMAGE033
其中,C表示三阶张量,
Figure 188325DEST_PATH_IMAGE034
为三阶张量中指数为[r1,r2,r3]的元素,
Figure 909157DEST_PATH_IMAGE035
表示
Figure 340138DEST_PATH_IMAGE036
的第r1行,
Figure 188139DEST_PATH_IMAGE037
表示
Figure 20966DEST_PATH_IMAGE038
的第r2行,
Figure 912699DEST_PATH_IMAGE039
表示
Figure 830976DEST_PATH_IMAGE040
的第r3 行;⊗表示张量积运算;
3.3)解耦三阶张量获得每个模态下的注意权重:
Figure 482669DEST_PATH_IMAGE041
其中,
Figure 904423DEST_PATH_IMAGE042
表示对应模态下的注意权重,*=I、M或S,分别表示图像模态、运动模态 和音频模态;te表示对应第te个预测词的时间步长,W*表示对应模态下的可训练向量,d表 示训练向量的维度;
3.4)计算语境序列特征:
Figure 232636DEST_PATH_IMAGE043
其中,
Figure 372630DEST_PATH_IMAGE044
表示对应模态下的语境序列特征;
3.5)将语境序列特征引入到解码器的解码过程中,生成新的预测词。
具体的,解码器包含一个自注意层、一个编解码层和一个前馈层。
解码时,首先将历史预测词序列作为自注意层的输入,计算历史预测词的自注意力表示:
Figure 621821DEST_PATH_IMAGE045
其中,
Figure 163661DEST_PATH_IMAGE046
表示历史预测词序列,GMI_Self(.)表示自注意操作,LayerNorm(.)表 示归一化操作;
Figure 662776DEST_PATH_IMAGE047
表示历史预测词的自注意力表示;
然后,结合历史预测词的自注意力表示与各模态下的语境序列特征,利用编解码层计算历史信息的全局交互结果:
Figure 40798DEST_PATH_IMAGE048
其中:
Figure 283561DEST_PATH_IMAGE049
分别是各模态下的历史交互注意向量,
Figure 679907DEST_PATH_IMAGE050
的 计算同
Figure 349923DEST_PATH_IMAGE051
Figure 215242DEST_PATH_IMAGE052
表示
Figure 996116DEST_PATH_IMAGE053
序列中的 [CLS]标记,GMI_MH表示多头 注意,
Figure 512548DEST_PATH_IMAGE054
表示历史信息的全局交互结果。
最后,基于上述结果生成生成新的预测词:
Figure 87886DEST_PATH_IMAGE055
其中,
Figure 440501DEST_PATH_IMAGE056
是解码器最终表示,Pte是当前预测词的概率分布,
Figure 25066DEST_PATH_IMAGE057
是可训练的向 量。
(四)训练过程
本发明中,最终文本生成的优化目标是最小化所有时间步长的累积损失,采用交叉熵损失函数计算损失值:
Figure 396005DEST_PATH_IMAGE058
其中,yte表示时间步长te处的正确标注单词,Pte(yte)表示在时间步长te处预测单词为yte的概率,Te为目标文本的长度,Lce为文本损失。
根据预测损失与重构约束损失联合起来,作为最终的损失值:
Figure 407823DEST_PATH_IMAGE059
其中,L为最终损失,
Figure 985085DEST_PATH_IMAGE060
为权重,本实施例中
Figure 373341DEST_PATH_IMAGE061
;Lri、Lrm、Lrs分别为三种模态 下的重构约束损失。
与前述的一种基于解耦译码的视频字幕生成方法的实施例相对应,本申请还提供了一种基于解耦译码的视频字幕生成系统的实施例,其包括:
视频预处理模块,其用于获取给定视频的三种模态特征:图像特征、运动特征和音频特征;在每一种模态特征的开头添加 [CLS]标记;
三通道跨模态编码器模块,其用于对三种模态特征进行编码;每一个通道均由多个编码块叠加构成;所述的编码块包含一个自注意层、一个跨模态注意层和一个前馈层;将所有编码块的输出结合在一起作为最终输出,并在最终输出结果中引入重构约束;
编码器模块,其用于对编码器输出的三种编码后的模态特征进行解码:
从编码后的模态特征序列的首位 [CLS]标记提取到三种模态的全局特征,结合历史预测词序列获得细粒度三阶张量,解耦三阶张量得到每种模态下的注意权重;
将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征,将语境序列特征引入到解码器的解码过程中,生成新的预测词;
字幕合成模块,其用于结合历史预测词与实时生成的新的预测词,合成视频字幕。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为三通道跨模态编码器模块,可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
实施例
本发明在MSVD、MSR-VTT公共数据集上评估了本发明提出的视频字幕生成方法的性能。
其中,MSVD数据集包含从YouTube上收集的1970个视频片段,每个视频大约有40个可用的英文描述。MSVD包括大约80000个视频描述对,总共大约13000个不重复的单词。在本实施例中,使用1200个视频进行训练,100个视频进行校验以及670个视频进行测试。
MSR-VTT是一个最近发布的用于视频字幕的大型参照视频集,包含10000个网络视频片段,时长41.2小时,被分成20个界限清晰的类别。在这个数据集中,词汇量大约是30000。每个视频片段都配有20多个由AMT工作人员标注的自然句子。在MSR-VTT中进行初始区分之后,分别使用6513、2990和467个视频片段进行训练、校验和验证。
(1)数据预处理:对每个视频抽样30帧用于提取图像特征。为了提取运动特征,首先将原始视频数据以30个采样帧为中心划分为视频段,每个视频段包含32帧。为了提取音频特征,使用FFmpeg从原始视频数据中提取音频文件,使用预训练的VGGish来提取音频特征。
对于MSVD和MSR-VTT数据集,利用ImageNet上预训练的Inception-ResNet-v2来从采样帧中提取图像特征,并保留倒数第二层的激活状态和不同类别的概率分布。然后,使用预训练的I3D从视频段中提取运动特征。我们保留了来自上一个卷积层的激活结果,并在时间维度上进行平均池化,同样也保留了输出的概率分布。
(2)模型参数设置:所有多头注意机制的隐藏大小设置为512,头数为8,编码器和解码器的注意块数均为4。α值设置为0.6。在训练过程中,批量大小设置为32,学习率被初始化为0.0001,然后如果校验集上的CIDEr分数超过10个时间段没有提升,学习率就减半。当学习率小于0.0000125时训练阶段结束。
使用Adam优化器来优化损失函数。在测试阶段,使用集束搜索方法来生成单词,集束个数为5。通过预训练的word2vec嵌入对单词向量进行初始化,并随机初始化那些不在word2vec字典中的单词。
(3)评价指标:采用四种在图像/视频字幕任务中常见的指标:BLEU、ROUGE,METEOR和MSVD数据集中的CIDEr。在MSR-VTT数据集中,根据Microsoft Multimedia Challenge中的官方评估指标,我们也采用了BLEU、METEOR、CIDEr和ROUGE来进行评估。所有指标都是使用Microsoft COCO Evaluation Server发布的代码进行测算的。
(4)实验结果:
1.关于消融实验:
如表1所示,我们将完整的模型IAT与一组多种设置下的消融模型在进行了比较:IAT是发明提出的模型,IAT w/o LD表示没有细粒度分层解码的模型,IAT w/o Tucker表示没有基于Tucker的运算的模型,IAT w/o GMI表示没有全局门控多模态交互的模型,IAT w/o DE表示没有重构约束来保持不同模态特性的模型,多模态Transformer表示没有经过任何改进的模型。
Figure 598786DEST_PATH_IMAGE062
根据表1中的结果,可以观察到以下现象:
重构约束的影响:在MSVD和MSR-VTT上,IAT的表现都优于IAT w/o DE。由于重构约 束保留了堆叠注意块加工后的不同模态的特性,使得解码器可以使用携带更多信息的特 征。此外,为了评估可识别编码的影响并找到不同损失函数之间的合适比例,我们调整了方 程中的
Figure 781505DEST_PATH_IMAGE063
值。如图4所示,
Figure 905450DEST_PATH_IMAGE064
时模型的性能最好。另外,
Figure 831818DEST_PATH_IMAGE065
的模型性能最差,再次 说明了重构约束的有效性。
全局门控多模态交互和基于Tucker的运算的影响:与IAT相比,IAT w/o GMI和IATw/o Tucker的表现相对较差。因为IAT w/o GMI只考虑不超过两种模式的关联,然而,视频数据的不同模式可以提供相互补充的线索。IAT w/o Tucker采用传统的点积计算固定低秩核张量(恒等矩阵)的注意权重,而IAT可以动态调整核张量及其秩值以适应任务。
细粒度解码的影响:与IAT相比,IAT w/o LD的性能也相对较差。现有的基于Transformer的方法总是使用最后一个编码层的输出,但是因为不同的层捕捉不同层级的信息,IAT采用自上而下的分层注意和自下而上的序列跨模式注意相结合的方式,明显产生了优异的效果。
2.本发明与最先进的方法对比:
为了公平起见,我们将IAT与不使用预训练的Faster- RCNN提取的目标特征的方法进行比较,因为使用这些特征的方法可以很容易地获得高指标。进行比较的方法有TVT、Dense Cap、MARN、POS-CG、SBAT、RecNet、SAAT。我们简单介绍一下这些方法:
(1) TVT : TVT将Transformer架构引入到视频字幕任务中。考虑到基于LSTM的方法存在一些严重问题例如忽略了跨模态交互和捕获长时程相关的能力不足,TVT用Transformer代替了LSTM。
(2) Dense Cap:Dense Cap将视频字幕的任务看作一个弱监督问题,提出基于多实例多标签学习的词汇完全卷积神经网络来联结视频区域和词汇标签,以及引入了一个新的子模块最大化方法,基于Lexical-FCN的输出生成多个信息化的和不同区域的序列。
(3) MARN:考虑到存在一个单词的视觉语境信息在多个视频中出现的情况,MARN设计了一个记忆结构来探索一个单词与训练数据的视频中它的各种相似视觉语境之间的全局对应关系。
(4) POS-CG:通过一个特别设计的可以有效地编码和融合不同类型的表示的交叉门控块,POS-CG构建了一个门控融合网络。一个POS序列生成器依赖于这种融合表示来预测全局句法结构,然后利用它来指导视频字幕的生成和控制句子的语法。
(5) SBAT:SBAT改进了基于TVT的Transformer架构来解决特征冗余问题。具体来说,SBAT采用边界感知池化策略来提高视觉特征的稀疏性,并采用了全局-局部编码方法。
(6) RecNet::RecNet采用了一种新颖的编码器-解码器-重构器结构,利用正向(视频到句子)和反向(句子到视频)流实现视频字幕。
(7) SAAT:SAAT兼顾视觉感知和语法表示学习来生成准确的视频描述。特别地,SAAT将视觉线索翻译成取决于学习得到的句法结构的词。
表2显示了不同方法在MSVD和MSR- VTT上的运行结果,其中B, R, M, C分别表示BLEU4, ROUGE, METEOR, CIDEr。
Figure 911769DEST_PATH_IMAGE066
如表所示,我们可以发现,在MSR-VTT上的四个评估指标的结果一致表明,我们提出的IAT表现出比所有其他方法更好的性能,包括基于LSTM的方法(Dense Cap、MARN、POS-CG、Distill、SAAT)和基于Transformer的方法(TVT, SBAT)。其中,与基于LSTM的方法中性能最好的POS-CG相比,IAT在METEOR和CIDEr上的相对提升分别为1.4%和2.9%,显示出巨大潜力。此外,与基于Transformer的方法中性能最好的SBAT相比,IAT也表现出了相对较好的性能。在MSVD上也得到了类似的观测结果,IAT优于基于LSTM的方法(Dense Cap、MARN、POS-CG、Distill、SAAT)和基于Transformer的方法(TVT、SBAT)。
我们还比较了不同的基于Transformer的方法的推断时间和参数数量。结果如表3所示,其中MM-TM表示表1中没有任何修改的多模态Transformer,推断时间不包含特征(图像,运动,音频)提取的时间。对比实验在NVIDIA 1080Ti GPU上进行。可以看出,IAT在可接受的参数数量和推断时间下拥有最佳性能,因为SBAT在每个编码块中使用两个前馈层,而IAT只使用一个前馈层。
Figure 281702DEST_PATH_IMAGE067
我们通过定性结果来研究IAT的生成过程。在图5中,我们比较了SBAT、IAT生成的结果和正确标注(GT)的对比。可见,SBAT、IAT都可以生成相关的句子,但本发明更加接近GT的描述。例如,SBAT产生对右上角视频中生成结果为“骑自行车”,是不准确的,而IAT获得了准确描述“骑摩托车”。与SBAT生成的句子中的名词“instrument”相比,我们的IAT方法中的“guitar”更准确地描述了左下角视频中的视觉内容。
此外,我们发现IAT比SBAT更能准确地将不同的词汇与模式联系起来。如图6所示(视频属于MSR-VTT的测试集),我们展示了分层注意机制中注意权重的可视化结果,我们可以很容易地发现,在IAT中,“man”与图像模态相关,“playing”与运动模式相关,而在SBAT中,“man”与运动模态相关,“playing”与音频模式相关,显然IAT更加准确,说明了IAT增强了不同模态下的识别特性,而SBAT已经失去了其识别特性。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (7)

1.一种基于解耦译码的视频字幕生成方法,其特征在于,包括以下步骤:
1)给定一段视频,获取视频的三种模态特征:图像特征、运动特征和音频特征;在每一种模态特征的开头添加“[CLS]”标记;
2)利用一个三通道跨模态编码器分别对三种模态特征进行编码;每一个通道均由多个编码块叠加构成;所述的编码块包含一个自注意层、一个跨模态注意层和一个前馈层;将所有编码块的输出结合在一起作为最终输出,并在最终输出结果中引入重构约束;所述的重构约束分别计算三种模态下的损失,表示为:
Figure FDA0003304564150000011
其中,
Figure FDA00033045641500000113
表示对应模态下的概率分布损失,*=I、M或S,分别表示图像模态概率分布损失、运动模态概率分布损失和音频模态概率分布损失;F表示对应模态下的类的数量,f表示第f类,pf和zf表示相应类的真实概率分布和最后一个编码块的三通道输出的实际概率分布;
3)利用解码器对编码器输出的三种编码后的模态特征进行解码:
从编码后的模态特征序列的首位“[CLS]”标记提取到三种模态的全局特征,结合历史预测词序列获得细粒度三阶张量:
Figure FDA0003304564150000012
Figure FDA0003304564150000013
其中,
Figure FDA0003304564150000014
表示从三种模态特征序列首位“[CLS]”标记提取的全局特征;C表示三阶张量,
Figure FDA0003304564150000015
为三阶张量中指数为[r1,r2,r3]的元素,
Figure FDA0003304564150000016
表示
Figure FDA0003304564150000017
的第r1行,
Figure FDA0003304564150000018
表示
Figure FDA0003304564150000019
的第r2行,
Figure FDA00033045641500000110
表示
Figure FDA00033045641500000111
的第r3行;
Figure FDA00033045641500000112
表示张量积运算,E′<te表示历史预测词的自注意力表示;⊙表示对应元素乘积,向量1由1组成,上角标T表示转置;
解耦三阶张量得到每种模态下的注意权重;
将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征,将语境序列特征引入到解码器的解码过程中,生成新的预测词;
4)结合历史预测词与实时生成的新的预测词,合成视频字幕。
2.根据权利要求1所述的基于解耦译码的视频字幕生成方法,其特征在于,所述编码块中的自注意层和跨模态注意层采用基于Tucker的运算来计算注意力值,所述的基于Tucker的运算表示为:
Figure FDA0003304564150000021
Q′=(1+σ([g,Q1,g⊙Q1]Wq))⊙Q
K′=(1+σ([g,K1,g⊙K1]Wk))⊙K
其中,Q、K、V表示询问序列、键序列、值序列,根据三通道跨模态编码器的不同通道的具体处理对象确定,分别选自图像特征、运动特征和音频特征中的任一种,g表示门控参数;Q'和K'为询问序列和键序列的全局交互结果,dk是输入维度,Wq、Wk是可训练变量,σ(.)表示sigmoid门控函数,⊙表示对应元素乘积;Q1、K1表示询问序列和键序列中的“[CLS]”标记;GMI_AT表示基于Tucker的运算式。
3.根据权利要求2所述的基于解耦译码的视频字幕生成方法,其特征在于,所述的编码器中图像通道自注意层的计算表示为:
I'=GMI_Self(I)=GMI_MH(I,I|M1⊙S1)
其中,I表示图像特征,I'表示图像特征自注意表示,M1、S1表示运动特征和音频特征序列中的“[CLS]”标记;GMI_Self表示全局门控多模态交互的自注意,同理可得运动通道和音频通道的自注意层的计算结果M'和S';
图像通道与运动通道的跨模态注意层的计算表示为:
GMI_CM(I',M')=GMI_MH(I',M'|S'1)
其中,M'表示图运动特征自注意表示,S'1表示音频特征自注意表示S'序列中的“[CLS]”标记,GMI_CM表示全局门控多模态交互的跨模态注意,同理可得其余两两通道之间的跨模态注意层的计算结果;
GMI_MH表示多头注意,表示为:
GMI_MH(a,b|c1)=[hd1,…,hdh]W1
Figure FDA0003304564150000022
其中,a、b、c用于表示不同的输入,根据三通道跨模态编码器的不同通道的具体处理对象确定;
Figure FDA0003304564150000023
表示可训练变量。
4.根据权利要求1所述的基于解耦译码的视频字幕生成方法,其特征在于,所述的注意权重计算公式为:
Figure FDA0003304564150000031
其中,
Figure FDA0003304564150000032
表示对应模态下的注意权重,*=I、M或S,分别表示图像模态、运动模态和音频模态;te表示对应第te个预测词的时间步长,W*表示对应模态下的可训练向量,d表示训练向量的维度。
5.根据权利要求1所述的基于解耦译码的视频字幕生成方法,其特征在于,所述的将语境序列特征引入到解码器的解码过程中,生成新的预测词,具体为:
建立解码器,包含一个自注意层、一个编解码层和一个前馈层;
将历史预测词序列作为自注意层的输入,计算历史预测词的自注意力表示E′<te
结合历史预测词的自注意力表示与各模态下的语境序列特征,利用编解码层计算历史信息的全局交互结果;
计算当前预测词的概率分布,生成新的预测词。
6.根据权利要求5所述的基于解耦译码的视频字幕生成方法,其特征在于,结合历史预测词的自注意力表示和历史信息的全局交互结果,计算当前预测词的概率分布:
Figure FDA0003304564150000033
Figure FDA0003304564150000034
其中,
Figure FDA0003304564150000035
是解码器最终表示,Pte是当前预测词的概率分布,
Figure FDA0003304564150000036
是可训练的向量,E′<te是历史预测词的自注意力表示,E″<te是历史信息的全局交互结果。
7.一种基于解耦译码的视频字幕生成系统,其特征在于,用于实现权利要求1所述的视频字幕生成方法。
CN202110967808.7A 2021-08-23 2021-08-23 基于解耦译码的视频字幕生成方法和系统 Active CN113423004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110967808.7A CN113423004B (zh) 2021-08-23 2021-08-23 基于解耦译码的视频字幕生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110967808.7A CN113423004B (zh) 2021-08-23 2021-08-23 基于解耦译码的视频字幕生成方法和系统

Publications (2)

Publication Number Publication Date
CN113423004A CN113423004A (zh) 2021-09-21
CN113423004B true CN113423004B (zh) 2021-11-30

Family

ID=77719236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110967808.7A Active CN113423004B (zh) 2021-08-23 2021-08-23 基于解耦译码的视频字幕生成方法和系统

Country Status (1)

Country Link
CN (1) CN113423004B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113934887B (zh) * 2021-12-20 2022-03-15 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN115952255B (zh) * 2022-11-21 2023-12-05 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN116310984B (zh) * 2023-03-13 2024-01-30 中国科学院微电子研究所 基于Token采样的多模态视频字幕生成方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008016100A (ja) * 2006-07-04 2008-01-24 Sony Corp 再生装置及び再生方法
CN103533353A (zh) * 2013-09-29 2014-01-22 同济大学 一种近似视频编码系统
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN111582241A (zh) * 2020-06-01 2020-08-25 腾讯科技(深圳)有限公司 视频字幕识别方法、装置、设备及存储介质
CN112042191A (zh) * 2019-01-01 2020-12-04 Lg电子株式会社 以基于历史的运动矢量为基础预测处理视频信号的方法和设备
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112860945A (zh) * 2021-01-07 2021-05-28 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
CN112889290A (zh) * 2019-03-04 2021-06-01 华为技术有限公司 编码器、解码器和使用ibc合并列表的对应方法
CN113159034A (zh) * 2021-04-23 2021-07-23 杭州电子科技大学 一种短视频自动生成字幕的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565318B2 (en) * 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008016100A (ja) * 2006-07-04 2008-01-24 Sony Corp 再生装置及び再生方法
CN103533353A (zh) * 2013-09-29 2014-01-22 同济大学 一种近似视频编码系统
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN112042191A (zh) * 2019-01-01 2020-12-04 Lg电子株式会社 以基于历史的运动矢量为基础预测处理视频信号的方法和设备
CN112889290A (zh) * 2019-03-04 2021-06-01 华为技术有限公司 编码器、解码器和使用ibc合并列表的对应方法
CN111582241A (zh) * 2020-06-01 2020-08-25 腾讯科技(深圳)有限公司 视频字幕识别方法、装置、设备及存储介质
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112860945A (zh) * 2021-01-07 2021-05-28 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
CN113159034A (zh) * 2021-04-23 2021-07-23 杭州电子科技大学 一种短视频自动生成字幕的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Predicting audio-visual salient events based on visual, audio and text modalities for movie summarization;P. Koutras;《2015 IEEE International Conference on Image Processing (ICIP)》;20151210;全文 *
基于多头注意力机制的视频描述生成算法研究;陈明;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190615;全文 *

Also Published As

Publication number Publication date
CN113423004A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
Yu et al. Multimodal transformer with multi-view visual representation for image captioning
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
Huang et al. Image captioning with end-to-end attribute detection and subsequent attributes prediction
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
Pu et al. Boosting continuous sign language recognition via cross modality augmentation
Zhao et al. Cross-domain image captioning via cross-modal retrieval and model adaptation
CN112241468A (zh) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
Xu et al. Deep reinforcement polishing network for video captioning
CN109409221A (zh) 基于帧选择的视频内容描述方法和系统
CN112734881B (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN111523534A (zh) 一种图像描述的方法
Zhang et al. Temporal sentence grounding in videos: A survey and future directions
Zhang et al. The elements of temporal sentence grounding in videos: A survey and future directions
CN114663915A (zh) 基于Transformer模型的图像人-物交互定位方法及系统
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113609922A (zh) 基于模态匹配的连续手语语句识别方法
Zhu et al. Multiscale temporal network for continuous sign language recognition
Xu et al. Bridging video and text: A two-step polishing transformer for video captioning
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN115906857A (zh) 一种基于词汇增强的中医文本命名实体识别方法
Boukdir et al. Character-level arabic text generation from sign language video using encoder–decoder model
CN112651225B (zh) 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
Hafeth et al. Semantic representations with attention networks for boosting image captioning
Ahmad et al. An image captioning algorithm based on the hybrid deep learning technique (CNN+ GRU)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant