CN112135200B

CN112135200B - 一种针对压缩视频的视频描述生成方法

Info

Publication number: CN112135200B
Application number: CN202010810293.5A
Authority: CN
Inventors: 于长斌; 朱铭健; 段晨瑞; 莫远秋; 于长军
Original assignee: Hangzhou Yishun Technology Co ltd; Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd
Current assignee: Carbon Silicon Hangzhou Biotechnology Co ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2022-07-08
Anticipated expiration: 2040-08-13
Also published as: CN112135200A

Abstract

本发明公开了一种针对压缩视频的视频描述生成方法，包括如下步骤：步骤1)视频图像预处理阶段；步骤2)图像特征抽取阶段；步骤3)文本标注预处理阶段；步骤4)图像特征编码阶段；步骤5)文本解码阶段。本发明与现有技术相比，具有的有益效果是提升了对于视频所生成的描述句子的质量，使其更好；并有以下三点创新：1)视频描述生成方法直接针对压缩视频中的视频帧而非通常的解码后的视频帧进行描述；2)利用压缩视频帧中的Residuals帧去生成压缩视频帧中的I帧的注意力权重，使得模型能够关注I帧中的显著性区域，从而生成更好的特征；3)设计了一种门机制，这种机制能够使得模型对于信息中的噪声更具有鲁棒性。

Description

一种针对压缩视频的视频描述生成方法

技术领域

本发明涉及计算机视觉与人工智能技术领域，尤其涉及一种针对压缩视频的视频描述生成方法。

背景技术

近年来，随着互联网的发展，视频作为一种重要的信息载体，收到了人们的广泛重视。通信速率的加快以及通信资费的降低促使越来越多的视频被人们上传到了互联网上。相比于图像，文本而言，视频的信息含量更多，所以许多研究者开始着手提升计算机对于视频信息的理解能力并利用互联网及生活中的视频去解决各类任务。

视频描述生成任务是视频理解任务中的一项重要任务，其目标在于使计算机以自然语言(如英文)去自动描述视频中的内容。这项任务近些年在计算机视觉和自然语言处理社区日益受到欢迎。视频描述生成技术将来在现实场景下能应用于很广泛的领域，例如人机交互，视频检索，盲人导航。

之前的视频描述生成方法大多采用经典的编码－解码框架，并且达到了令人鼓舞的性能。在编码阶段，采样帧的特征由卷积神经网络抽取，然后特征送入循环神经网络。在解码阶段，解码器将表达转成描述性的句子。不过这样经典的网络通常有两个缺点。首先，一个预训练的卷积神经网络通常是直接抽取整个RGB图像的特征，这可视作对于所有图像的所有区域都同等对待而忽略了重要的信息在图像中不是均匀分布的。视频描述生成方法应显式地关注图像中的某些重点区域。第二，一个明显的事实是一个视频可以被压缩为相当小的尺寸，这意味着一个解压的视频包含了大量的信息冗余。视频解压后得到的帧中所含有的重复的模式将会“淹没”有趣的信号，并会妨碍进一步挖掘重要信息。

发明内容

本发明的目的是针对现有技术的不足，提供一种针对压缩视频的视频描述生成方法。

本发明的技术方案如下：

一种针对压缩视频的视频描述生成方法，其特征在于，包括如下步骤：

步骤1)视频图像预处理阶段：对于压缩视频，如MPEG-4格式的视频，在不解压的情况下直接抽取图像帧(I-frame,Residuals)并对图像做颜色变换，尺寸变换的预处理；

步骤2)图像特征抽取阶段：在两个不同的数据集上分别训练好两个卷积神经网络以抽取特征，第一个是针对I-frame,在Imagenet上训练好图像分类网络Resnet-152。第二个是针对Residuals，在HMDB-51上使用Residuals训练好动作分类网络Resnet-18；使用上述两个预训练卷积神经网络抽取对应图像帧特征并保存；

步骤3)文本标注预处理阶段：由于采用的公开数据集已有对于视频的文本标注，所以此处可以直接针对所有已标注的文本建立词汇表，此处所建立的词汇表对标注中的所有单词进行顺序编号，编号与单词一一对应。然后根据编号将文本标注句子转换成数字序号序列；

步骤4)图像特征编码阶段：此处提出一种残差辅助的编码器，其能利用Residuals帧去生成针对I帧的注意力权重，然后将注意力权重应用到I帧特征上以生成经过注意力机制赋能的视觉特征，考虑到某些Residuals帧含有噪声，编码器中的门机制根据Residuals,I-frame和解码器中的隐状态去生成特征的置信度得分，该得分能够控制上述视觉特征多大程度上影响解码器生成文本描述，将经过门机制控制的特征输入步骤5)。

步骤5)文本解码阶段：使用长短期记忆网络，将步骤4)得到的特征解码为数字序号序列；然后根据步骤3)的词汇表中单词与数字的对应关系将数字序号序列转为文本句子。

所述一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤1)在压缩视频中等间隔抽取压缩视频的图像帧，由于压缩视频是由GOP(group ofpictures)组成，每个GOP中通常含有一个I帧和11个P帧，而P帧中含有Residuals帧；此处等间隔抽取I帧及其对应的GOP中第一个Residuals帧，两种帧的帧数均为20帧，每一帧尺寸经过尺寸变化后，高为224像素，宽为224像素；对于I帧，一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换，对于Residuals帧，三个通道分别减去0.5然后分别除以0.229,0.224,0.225；每次抽一个视频的图像帧进行上述处理然后执行步骤2)当下一个视频到来时，再次执行步骤1)和步骤2)。

所述一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤2)中所采用的预训练卷积神经网络模型可采用ResNet-152和ResNet-18模型对步骤1)中已抽取的图像帧进行特征抽取，然后以张量的形式存储到硬盘中，其形式为(视频个数，每个视频抽取的帧数，每个视频的特征)。其中训练预训练模型的图像预处理方法与抽取图像特征的图像预处理方法一致。

所述一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤3)中将MSR-VTT数据集的10000个视频数据划分为训练集，验证集和测试集，其个数比例为6513:497:2990。对于Charades则是将9848个视频中的1863个视频划为测试集，其他用于模型开发；将标注的文本进行单词划分，并将每一个单词标好序，加入词汇表中；将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列；并在句子最后加入<END>符号作为结尾。

所述一种针对压缩视频的视频描述生成方法，其特征所述步骤4)中采用下述两个机制，①采用Residuals辅助的注意力权重生成机制生成针对I帧特征的注意力图，这种权重生成机制利用了I帧本身特征，Residuals特征，和解码器的hidden state去针对抽取的每一帧I帧的特征生成注意力图。注意力图再与I帧特征结合得到经过注意力机制赋能的视觉特征；②设计出一种门机制，减低Residuals中的噪声对最终编码器生成的特征的影响，门机制根据Residuals特征，I帧特征和解码器的hidden state生成对①中产生的视觉特征的置信度，若置信度越高，表示模型更加采纳经过注意力机制赋能的视觉特征，反之，模型更加采纳I帧的原特征。

所述一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤5)中采用长短期记忆网络(LSTM)对步骤4)中已编码的视觉特征进行文本解码；在训练阶段，LSTM在解码生成当前词时，利用上一步的标签作为输入信息。在测试阶段，利用上一步生成词而非标签，并结合束搜索(beam search)方法生成当前词。

本发明与现有技术相比，具有的有益效果是提升了对于视频所生成的描述句子的质量，使其更好；并有以下三点创新：1)视频描述生成方法直接针对压缩视频域中的视频帧而非通常的解码后的视频帧进行描述；2)利用压缩视频帧中的Residuals帧去生成压缩视频帧中的I帧的注意力权重，使得模型能够关注I帧中的显著性区域，从而生成更好的特征；3)设计了一种门机制，其能够自动地筛选出有用的特征以及降低被压缩域中的噪声所干扰的特征的影响，这种机制能够使得模型对于信息中的噪声更具有鲁棒性。

附图说明

图1为本发明专利的模型框架示意图；

图2为本发明专利的模型预测结果样例图；

图3为本发明专利在MST-VTT数据集上的模型性能评估表；

图4为本发明专利在Charades数据集上的模型性能评估表。

具体实施方式

以下结合附图进一步说明本发明的具体实施方法。

参见图1，本发明的总体步骤如下：

在MSR-VTT,Charades等视频描述生成数据集上进行训练和测试。训练阶段，将训练集中的视频及人工标注的描述视频的文本标签送入模型进行训练。测试阶段，只将视频输入模型，然后模型将生成描述视频的句子，并可采用BLEU@4,METEOR,CIDEr,ROUGE-L指标对生成句子结果进行评估。训练阶段和测试阶段对于下述步骤1)至步骤4)都是一样的。

1)视频帧抽取：对数据集中每一个压缩视频(如以MPEG-4格式保存的视频)，等间隔抽取20帧I帧，并在I帧对应的20个GOP中抽取Residuals帧。

2)图像特征抽取及保存：分别训练针对I帧和Residuals的Resnet-152和Resnet-18。在对图像进行颜色变换，尺寸变换的预处理后，用上述卷积神经网络模型抽取图像特征并保存到硬盘。如下式，CNN_I是针对I帧图像序列P_I的Resnet-152，CNN_r是针对Residuals帧图像序列P_r的Resnet-18。V_I和A_r分别是两个训练好的神经网络抽取的特征，并保存到硬盘中。

V_I＝CNN_I(P_I)

A_r＝CNN_r(P_r)

3)文本标注预处理：人工标注的数据集一般以JSON文件形式保存，将人工标注的句子以单词为单位进行划分，然后用单词构建词典；构建词典的方法是将单词按照从0到词数减一进行标号，例如，假设有10000词，那么将其单词按照0至9999进行编号。

4)图像特征编码：首先将上述V_I和A_r两个特征按照如下四个式子进行处理。

得到的四个特征将会送入残差辅助的编码器(RAE)。其中，H和W分别是V_I和A_r这两个抽取出来的特征的高和宽。

和

分别是V_I和A_r在空间维度(高和宽)上进行平均得到的结果。然后对V_I进行映射，将其通道数量变为D_r，得到

和

分别是对

和A_r在通道维度上进行平均。D_r是

和A_r的通道数量。

其中h_t-1是下文解码器的第t-1步的隐状态，

是残差辅助的编码器(RAE)生成的视觉表达。然后利用h_t-1，

和

生成注意力权重A_R，

W_t、W_I、W_r都是模型训练学习到的权重。E_α代表了将张量从H×W扩展到N×H×W。将权重应用于

得到受到注意力赋能的特征

其中

代表逐元素相乘。E_A表示将张量从N×H×W扩展到N×H×W×D_r。这里还提出门机制，利用h_t-1和

生成置信度G。

W_Gt、W_Gr、W_GI都是模型训练学习到的权重。

利用置信度，结合经过注意力赋能的空间

和未经过注意力赋能的特征

生成视觉特征

送入解码器。

E_G表示将G和(1-G)从N拓展到N×D_I.W_GR是学习出来的权重。然后对于

首先将20帧特征取均值，然后做线性映射，接着经过ReLU和dropout。

5)长短期记忆网络(LSTM)常常用于编码序列。对于一个LSTM单元(CELL)，输入为上一个隐状态h_t-1，上一个单元格状态c_t-1和视觉特征

输出为当前隐状态h_t，当前单元格状态c_t。如下式，

x_t-1是上一步的词的特征。下式是所要优化的对数似然函数。y_t代表了第t步生成的词，θ表示我们方法中训练出来的参数。

在训练阶段，模型的训练是按批(batch)输入的，批大小为8。x_t-1采用标签的词。在测试阶段，x_t-1是上一步预测的词。测试阶段采用束搜索(beam search)方法，束(beam)大小为5。

本方法具体预测结果样例可见图2；本方法在MSR-VTT数据集上的评估指标结果可见图3；本方法在Charades数据集上的评估指标结果可见图4；从上到下分别是只采用I帧的方法，在Residuals辅助的注意力权重生成机制中去掉门机制和Residuals的方法，在Residuals辅助的注意力权重生成机制中去掉门机制的方法以及最终我们提出的Residuals辅助的注意力权重生成机制方法的评估结果。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的包含范围之内。

Claims

1.一种针对压缩视频的视频描述生成方法，其特征在于，包括如下步骤：

步骤1)视频图像预处理阶段：对于压缩视频，在不解压的情况下直接抽取图像帧I-frame,Residuals并对图像做颜色变换及尺寸变换的预处理；

步骤2)图像特征抽取阶段：在两个不同的公开数据集上分别训练好两个卷积神经网络以抽取特征，第一个是针对I-frame，在Imagenet上训练好图像分类网络Resnet-152；第二个是针对Residuals，在HMDB-51上训练好动作分类网络Resnet-18，使用两个预训练卷积神经网络抽取对应图像帧特征并保存；

步骤3)文本标注预处理阶段：由于采用的步骤2)中的公开数据集已有对于视频的文本标注，所以此处可以直接针对所有已标注的文本建立词汇表，此处所建立的词汇表对标注中的所有单词进行顺序编号，编号与单词一一对应，然后根据编号将文本标注句子转换成数字序号序列；

步骤4)图像特征编码阶段：此处提出一种残差辅助的编码器，其能利用Residuals帧去生成针对I帧的注意力权重，然后将注意力权重应用到I帧特征上以生成经过注意力机制赋能的视觉特征，考虑到某些Residuals帧含有噪声，编码器中的门机制根据Residuals,I-frame和解码器中的隐状态去生成特征的置信度得分，该得分能够控制上述视觉特征影响解码器生成文本描述的程度，将经过门机制控制的特征输入步骤5)；

2.根据权利要求1所述的一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤1)在压缩视频中等间隔抽取图像帧；由于压缩视频是由GOP组成，每个GOP中含有一个I帧和11个P帧，而P帧中含有Residuals帧，此处等间隔抽取I帧及其对应的GOP中第一个Residuals帧，两种帧的帧数均为20帧，该步骤无需解压视频；每一帧尺寸经过尺寸变化后，高为224像素，宽为224像素，对于I帧，一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换；对于Residuals帧，三个通道分别减去0.5然后分别除以0.229,0.224,0.225；每次抽一个视频的图像帧进行上述处理然后执行步骤2)当下一个视频到来时，再次执行步骤1)和步骤2)。

3.根据权利要求1所述的一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤2)中所采用的预训练卷积神经网络模型采用ResNet-152和ResNet-18模型对步骤1)中已抽取的图像帧进行特征抽取，然后以张量的形式存储到硬盘中，其形式为{视频个数，每个视频抽取的帧数，每个视频的特征}；其中训练预训练模型的图像预处理方法与抽取图像特征的图像预处理方法一致。

4.根据权利要求1所述的一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤3)中将MSR-VTT数据集的10000个视频数据划分为训练集，验证集和测试集，其个数比例为6513:497:2990；将标注的文本进行单词划分，并将每一个单词标好序，加入词汇表中，将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列；并在句子最后加入<END>符号作为结尾。

5.根据权利要求1所述的一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤4)中采用下述两个机制；第一个机制是：采用Residuals辅助的注意力权重生成机制生成针对I帧特征的注意力图，这种权重生成机制利用了I帧本身特征，Residuals特征，和解码器的hidden state去针对抽取的每一帧I帧的特征生成注意力图，注意力图再与I帧特征结合得到经过注意力机制赋能的视觉特征；第二个机制是：设计出一种门机制，减低Residuals中的噪声对最终编码器生成的特征的影响，门机制根据Residuals特征，和解码器的hidden state生成对第一个机制中产生的视觉特征的置信度，若置信度越高，表示模型更加采纳经过注意力机制赋能的视觉特征，反之，模型更加采纳I帧的原特征。

6.根据权利要求1所述的一种针对压缩视频的视频描述生成方法，其特征在于，所述步骤5)中采用长短期记忆网络对步骤4)中已编码的视觉特征进行文本解码；在训练阶段，长短期记忆网络在解码生成当前词时，利用上一步的标签作为输入信息；在测试阶段，利用上一步生成词，并结合束搜索方法生成当前词。