CN113722536B

CN113722536B - 基于双线性自适应特征交互与目标感知的视频描述方法

Info

Publication number: CN113722536B
Application number: CN202110849723.9A
Authority: CN
Inventors: 马苗; 田卓钰; 刘士昌; 郭敏
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2024-05-28
Anticipated expiration: 2041-07-27
Also published as: CN113722536A

Abstract

一种基于双线性自适应特征交互与目标感知的视频描述方法，由构建视频描述网络模型、训练视频描述网络模型、检测测试集视频组成。本发明采用了使用编解码结构的视频描述方法。采用了双线性自适应特征交互模块，分别提取视频的动态特征、静态特征和目标特征，进行交互式融合，形成互补的多模态特征，细粒度刻画视频内容；在目标特征提取部分，采用了视频目标感知特征提取分支，在提取关键目标信息的同时，抑制背景信息，让更多信息用于表达视频中的真实目标，将融合特征输入基于门控循环单元构建的自然语言描述模型，生成准确文字。本发明具有视频描述结果准确、详细等优点，适用于任意多种类型特征融合的视频转换成文字。

Description

基于双线性自适应特征交互与目标感知的视频描述方法

技术领域

本发明属于计算机视觉和自然语言处理的交叉研究技术领域，具体地涉及到视频中的语言描述生成。

背景技术

视频描述技术是使用自然语言将给定视频的视觉信息转换为语义文本。该视频描述技术是在人机交互、视频监控和视觉辅助等领域具有广阔的应用前景和应用价值。但由于视频描述任务涉及计算机视觉和自然语言处理的交叉研究，弥合低级视觉特征和高级语义信息之间的差距较为复杂，使该任务具有很大的难度。

视频描述研究始于基于模板或规则的视频描述方法，早期研究者借助手工特征从视频中提取视觉信息，然后运用识别检测技术获取如人物、动作、场景等语义对象，将其按照预定义的模板或规则填入相应位置，组合成描述语句。虽然基于模板或规则的视频描述方法在早期视频描述研究中取得了较好效果，但这些方法主要集中于检测预定义实体或事件并使用固定的模板和规则生成描述，严重限制语义的高效表达，所生成的句子在语法结构和语义表达方面都不够灵活，难以描述视频中的所有可能事件。

近年来，深度学习在计算机视觉的几乎所有子领域中取得的巨大成功也革新了视频描述方法。研究者开始利用深度卷积神经网络进行视频特征编码，并利用循环神经网络或其变体长短期记忆网络对视觉特征进行解码，进而生成描述语句。但是，现有模型欠缺融合视频提取的不同类型特征的方法，所使用的融合多模态特征的操作手段单一，难以高效发挥出各类特征的优势；现有使用目标特征的模型仅利用检测器获取并按置信度排序筛选出固定数量的检测框作为目标区域，提取目标特征，然而视频中目标数量不定且同一视频不同视频帧的目标数量不定，设置固定的检测框数量会导致视频中的目标信息无法被充分挖掘，会引入大量背景噪声，严重地限制了目标特征的作用，难以准确生成高质量的视频描述文字。

在视频描述技术领域，当前需迫切解决的技术问题是提供一种将视频图像能够准确快速地转换成文字的技术方案。

发明内容

本发明所要解决的技术问题在于克服现有技术的缺点，提供一种能够有效、准确、快速地将视频转换成文字的基于双线性自适应特征交互与目标感知的视频描述方法。

解决上述技术问题所采用的技术方案是由下述步骤组成：

(1)构建视频描述网络模型

在Pytorch框架下，构建使用编码器-解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型。

所述的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成，编码器由词嵌入特征提取分支、双线性自适应特征交互模块、门控循环单元、语义特征提取分支、视频目标感知特征提取分支、视频静态特征提取分支、视频动态特征提取分支组成，视频动态特征提取分支、视频静态特征提取分支、视频目标感知特征提取分支、词嵌入特征提取分支的输出与双线性自适应特征交互模块的输入相连，语义特征提取分支和双线性自适应特征交互模块的输出与门控循环单元的输入相连，门控循环单元构成解码器，门控循环单元输出视频描述文字。

(2)训练视频描述网络模型

(a)设置网络的超级参数

从国际公开的基准数据集MSVD中取1200个视频作为训练集，100个视频作为验证集，670个视频作为测试集，训练集输入视频的每一帧像素大小为224×224，数据批量为64，在训练过程中使用Xavier方法初始化视频描述网络模型参数，使用自适应矩估计作为视频描述网络模型的优化器，学习率设置为0.0002～0.0008，视频描述网络模型共训练45～50轮。

(b)训练视频描述网络模型

将训练集中的所有视频输入视频描述网络模型，进行前向传播并计算损失函数L，损失函数L为交叉熵损失：

其中，log(·)是底数为e的对数运算，P(·)为视频描述网络模型输出预测语句的置信度，为视频V对应的视频特征向量，η为待训练的视频描述网络模型参数。

使用自适应矩估计方法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新视频描述网络的权重和偏置，直至达到45～50轮，训练结束，得到训练好的视频描述网络。

(3)检测测试集视频

将测试集中的视频输入训练好的视频描述网络中，输出视频描述文字。

在本发明的(1)构建视频描述网络模型步骤中，所述的视频目标感知特征提取分支的构建方法为：对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法，检测Center-ness热力图中所激活的连通区域，并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除，得到目标感知图，将目标感知图Map_object与FCOS检测模型中特征金字塔网络的P7层特征图Map₇按下式得到单帧目标特征

其中k为视频V的帧数/20所得到的数值下取整，·为特征向量对应位置相乘操作，GAP(·)为全局平均池化操作。

将视频V中各单帧目标特征按下式得到视频目标感知特征

在本发明的(1)构建视频描述网络模型步骤中，所述的双线性自适应特征交互模块2的构建方法为：以全局特征视频目标感知特征/>词嵌入特征/>作为输入特征，其中全局特征/>由视频动态特征和视频静态特征拼接得到；将输入特征进行双线性特征交互按下式得到交互特征/>交互特征/>交互特征/>

其中Sign(·)为符号函数，ε取值为10^-12～10^-8。

将交互特征交互特征/>交互特征/>按下式得到各交互特征的权重

其中Conv_1×1(·)表示1×1卷积操作，Sig(·)表示使用Sigmoid激活函数操作；

将交互特征交互特征/>交互特征/>和其对应权重/>按下式得到最终的融合特征/>

其中Concat(·)表示从通道维进行特征拼接操作。

由于本发明采用了双线性自适应特征交互模块，分别提取视频的动态特征、静态特征和目标特征，进行交互式融合，形成互补的多模态特征，以细粒度刻画视频内容；在目标特征提取部分，采用了目标感知特征提取分支，在提取关键目标信息的同时，抑制背景信息，让更多信息用于表达视频中的真实目标；将融合特征输入基于门控循环单元构建的自然语言描述模型，生成高质量的描述文字。本发明具有视频描述结果更加准确、详细等优点，旨在解决视频描述技术问题，适用于任意多种类型特征融合的视频描述任务。

附图说明

图1是本发明实施例1的流程图。

图2是图1中视频描述网络模型结构图。

图3是MSVD数据集中测试集视频的截取图像。

图4是图3经过模型处理后输出的视频描述文字。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明，但本发明不限于下述的实施方式。

实施例1

以在国际公开的基准数据集基准数据集MSVD中取1970个视频为例，本实施例的基于双线性自适应特征交互与目标感知的视频描述方法由下述步骤组成(参见图1)：

(1)构建视频描述网络模型

在图2中，本实施例的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成，编码器由词嵌入特征提取分支1、双线性自适应特征交互模块2、门控循环单元3、语义特征提取分支4、视频目标感知特征提取分支5、视频静态特征提取分支6、视频动态特征提取分支7\解码器组成，视频动态特征提取分支7、视频静态特征提取分支6、视频目标感知特征提取分支5、词嵌入特征提取分支1的输出与双线性自适应特征交互模块2的输入相连，语义特征提取分支4和双线性自适应特征交互模块2的输出与门控循环单元3的输入相连，门控循环单元3构成本实施例的解码器，门控循环单元3输出视频描述文字。

本实施例的视频目标感知特征提取分支5的构建方法为：对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法，检测Center-ness热力图中所激活的连通区域，并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除，得到目标感知图，将目标感知图Map_object与FCOS检测模型中特征金字塔网络的P7层特征图Map₇按下式得到单帧目标特征

其中k为视频V的帧数/20所得到的数值下取整，·为特征向量对应位置相乘操作，GAP(·)为全局平均池化操作；

将视频V中各单帧目标特征按下式得到视频目标感知特征

本实施例的双线性自适应特征交互模块2的构建方法为：以全局特征视频目标感知特征/>词嵌入特征/>作为输入特征，其中全局特征/>由视频动态特征和视频静态特征拼接得到；将输入特征进行双线性特征交互按下式得到交互特征/>交互特征/>交互特征/>

其中Sign(·)为符号函数，ε取值为10^-12～10^-8，本实施例ε的取值为10^-10，也可在10^-12～10^-8范围内任意选取。.

其中Concat(·)表示从通道维进行特征拼接操作。

(2)训练视频描述网络模型

(a)设置网络的超级参数

从国际公开的基准数据集MSVD中取1200个视频作为训练集，100个视频作为验证集，670个视频作为测试集，训练集输入视频的每一帧像素大小为224×224，数据批量为64，在训练过程中使用Xavier方法初始化视频描述网络模型参数，使用自适应矩估计作为视频描述网络模型的优化器，学习率设置为0.0002～0.0008，本实施例的学习率取值为0.0004，视频描述网络模型共训练45～50轮，本实施例视频描述网络模型共训练48轮。

(b)训练视频描述网络模型

将训练集中的所有视频输入视频描述网络模型，进行前向传播并计算损失函数，损失函数为交叉熵损失，本实施例的损失函数L如下：

其中，log(·)是底数为e的对数运算，P(·)为视频描述网络模型输出预测语句的置信度，为视频V对应的视频特征向量，η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新视频描述网络的权重和偏置，直至达到48轮，训练结束，得到训练好的视频描述网络。

(3)检测测试集视频

完成基于双线性自适应特征交互与目标感知的视频描述方法。

采用本实施例的基于双线性自适应特征交互与目标感知的视频描述方法对国际公开的基准数据集基准数据集MSVD中的视频见图3，经过本实施例处理后的视频转换成文字的图像见图4。由图4可见，实施例1方法将视频转换成a group of people are dancing文字，中文为一群人在跳舞。

实施例2

以在国际公开的基准数据集基准数据集MSVD中取1970个视频为例，本实施例的基于双线性自适应特征交互与目标感知的视频描述方法由下述步骤组成：

(1)构建视频描述网络模型

该步骤与实施例1相同。

(2)训练视频描述网络模型

(a)设置网络的超级参数

从国际公开的基准数据集MSVD中取1200个视频作为训练集，100个视频作为验证集，670个视频作为测试集，训练集输入视频的每一帧像素大小为224×224，数据批量为64，在训练过程中使用Xavier方法初始化视频描述网络模型参数，使用自适应矩估计作为视频描述网络模型的优化器，学习率设置为0.0002～0.0008，本实施例的学习率取值为0.0002，视频描述网络模型共训练45～50，本实施例视频描述网络模型共训练45轮。

(b)训练视频描述网络模型

其中，log(·)是底数为e的对数运算，P(·)为视频描述网络模型输出预测语句的置信度，为视频V对应的视频特征向量，η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新视频描述网络的权重和偏置，直至达到45轮，训练结束，得到训练好的视频描述网络。

其它步骤与实施例1相同，输出视频描述文字。

实施例3

(1)构建视频描述网络模型

该步骤与实施例1相同。

(2)训练视频描述网络模型

(a)设置网络的超级参数

从国际公开的基准数据集MSVD中取1200个视频作为训练集，100个视频作为验证集，670个视频作为测试集，训练集输入视频的每一帧像素大小为224×224，数据批量为64，在训练过程中使用Xavier方法初始化视频描述网络模型参数，使用自适应矩估计作为视频描述网络模型的优化器，学习率设置为0.0002～0.0008，本实施例的学习率取值为0.0008视频描述网络模型共训练45～50，本实施例视频描述网络模型共训练50轮。

(b)训练视频描述网络模型

其中，log(·)是底数为e的对数运算，P(·)为视频描述网络模型输出预测语句的置信度，为视频V对应的视频特征向量，η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新视频描述网络的权重和偏置，直至达到50轮，训练结束，得到训练好的视频描述网络。

其它步骤与实施例1相同，输出视频描述文字。

为了验证本发明的有益效果，发明人采用本发明实施例1的基于双线性自适应特征交互与目标感知的视频描述方法(简称实施例1)与"Spatio-temporal dynamics andsemantic attribute enriched visual encoding for video captioning"(简称对比实验1)、"SibNet:Sibling Convolutional Encoder for Video Captioning"(简称对比实验2)、"Object relational graph with teacher-recommended learning for videocaptioning"(简称对比实验3)进行了对比实验，按下式通过计算四种评价指标BLEU-4、METEOR、ROUGE-L、CIDEr对生成的描述文字进行综合评价：

其中，BLEU值在0～1之间，l_r为目标文字，l_c为生成文字，w_n是n元组的权重，p_n为n元组的覆盖率，n取值为4。

METEOR＝F_mean(1-p)

其中，METEOR值在0～1之间，p为惩罚因子，α为0.9，P为m/c，R为m/r，m表示生成文字和目标文字中共同出现字母组合的数目，c是生成文字的长度，r是目标文字的长度。

其中，ROUGE-L值在0～1之间，LCS(X,Y)是生成文字X和目标文字Y的最长公共子序列长度，β为P_cls/R_cls，b、a分别为X和Y的长度。

其中，CIDEr值在0～5之间，c为生成文字，S为目标文字集合，n表示评估的是n元组，M为生成文字的数量，gⁿ(·)表示基于n元组的TF-IDF向量。

实验和计算结果见表1。

表1实施例1方法与对比实验1-3的实验结果

实验组	BLEU-4(％)	METEOR(％)	ROUGE-L(％)	CIDEr(％)
					对比实验1	47.9	35.0	71.5	78.1
对比实验2	54.2	34.8	71.7	88.2
					对比实验3	54.3	36.4	73.9	95.2
实施例1	59.8	39.4	76.7	109.5

由表1可见，本发明实施例1与对比实验1-3相比，本发明实施例1在各项评价指标上的评分大幅度提升。实施例1的BLEU-4、METEOR、ROUGE-L、CIDEr比实验1分别提高了11.9％、4.4％、5.2％、31.4％，比实验2分别提高了5.6％、4.6％、5.0％、21.3％，比实验3分别提高了5.5％、3.0％、2.8％、14.3％。

以上实验表明，与对比实验相比，本发明的各项指标上均优于对比实验，尤其在CIDEr指标上改进明显，进一步证明了本发明方法能够准确地将视频转换成文字。

Claims

1.一种基于双线性自适应特征交互与目标感知的视频描述方法，其特征在于由下述步骤组成：

(1)构建视频描述网络模型

在Pytorch框架下，构建使用编码器-解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型；

所述的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成，编码器由词嵌入特征提取分支(1)、双线性自适应特征交互模块(2)、门控循环单元(3)、语义特征提取分支(4)、视频目标感知特征提取分支(5)、视频静态特征提取分支(6)、视频动态特征提取分支(7)组成，视频动态特征提取分支(7)、视频静态特征提取分支(6)、视频目标感知特征提取分支(5)、词嵌入特征提取分支(1)的输出与双线性自适应特征交互模块(2)的输入相连，语义特征提取分支(4)和双线性自适应特征交互模块(2)的输出与门控循环单元(3)的输入相连，门控循环单元(3)构成解码器，门控循环单元(3)输出视频描述文字；

所述的双线性自适应特征交互模块(2)的构建方法为：以全局特征视频目标感知特征/>词嵌入特征/>作为输入特征，其中全局特征/>由视频动态特征和视频静态特征拼接得到；将输入特征进行双线性特征交互按下式得到交互特征/>交互特征/>交互特征/>

其中Sign(·)为符号函数，ε取值为10^-12～10^-8；

将交互特征交互特征/>交互特征/>和其对应权重/>按下式得到视频V对应的视频特征向量/>

其中Concat(·)表示从通道维进行特征拼接操作；

所述的视频目标感知特征提取分支(5)的构建方法为：对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法，检测Center-ness热力图中所激活的连通区域，并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除，得到目标感知图，将目标感知图Map_object与FCOS检测模型中特征金字塔网络的P7层特征图Map₇按下式得到单帧目标特征

将视频V中各单帧目标特征按下式得到视频目标感知特征

(2)训练视频描述网络模型

(a)设置网络的超级参数

从基准数据集MSVD中取1200个视频作为训练集，100个视频作为验证集，670个视频作为测试集，训练集输入视频的每一帧像素大小为224×224，数据批量为64，在训练过程中使用Xavier方法初始化视频描述网络模型参数，使用自适应矩估计作为视频描述网络模型的优化器，学习率设置为0.0002～0.0008，视频描述网络模型共训练45～50轮；

(b)训练视频描述网络模型

其中，log(·)是底数为e的对数运算，P(·)为视频描述网络模型输出预测语句的置信度，为视频V对应的视频特征向量，η为待训练的视频描述网络模型参数；

使用自适应矩估计方法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新视频描述网络的权重和偏置，直至达到45～50轮，训练结束，得到训练好的视频描述网络；

(3)检测测试集视频