CN114511813B

CN114511813B - 视频语义描述方法及装置

Info

Publication number: CN114511813B
Application number: CN202210412956.7A
Authority: CN
Inventors: 王慧云; 曹先; 王辰阳; 高旭; 于鹏
Original assignee: Tianjin Urban Planning And Design Institute Co ltd
Current assignee: Tianjin Urban Planning And Design Institute Co ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-06-28
Anticipated expiration: 2042-04-20
Also published as: CN114511813A

Abstract

本发明公开了一种视频语义描述方法及装置。方法包括：获取图像序列，并利用残差网络提取每帧图像中图像特征，基于卷积门控循环单元根据当前帧图像和前一帧图像的图像特征提取每帧图像的时间和空间关联性；基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度；根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU中，获取语义，直至获取的下一视频帧的语义为结束标志位；将所有获取的语义进行组合，生成视频描述语句。

Description

视频语义描述方法及装置

技术领域

本发明实施例涉及视频图像处理技术领域，尤其涉及一种视频语义描述方法及装置。

背景技术

随着互联网的发展，视频数据呈现爆炸式增长。凭借人力难以充分提取如此庞大的视频数据中蕴含的信息。视频描述生成是视频智能分析领域具有代表性的技术，视频描述生成问题能否解决，标志着人工智能能否理解视频内容。视频描述生成任务的目标是使机器自动描述视频内容，具体来说，就是使机器对一段视频自动生成一段相应的文字，准确描述该视频的内容。视频描述生成领域早先的解决方法将问题分为两个阶段，第一个阶段是从视频中提取出语义内容，如主语、动词、宾语等，然后再根据概率模型和某种固定的模式生成完整的句子。这种方法中语句的生成是按照某种固定的模式，无法满足人类语言的丰富性，只能生成一些结构简单的句子。近年来，深度学习技术的应用提高了视频描述生成模型的效果。

在实现本发明的过程中，发明人发现如下技术问题：目前采用的时态注意力机制和分层递归神经编码器虽然考虑了时间视频信息的影响，却忽略了视频中的空间细节信息。进而降低了视频语义描述的准确性。

发明内容

本发明实施例提供一种视频语义描述方法及装置，以解决现有技术中采用神经网络模型描述视频语义准确性较低的技术问题。

第一方面，本发明实施例提供了一种视频语义描述方法，包括：

从视频中获取帧图像序列，并利用深度残差网络提取所述帧图像序列每帧图像中图像特征

，

其中H 、W 和D分别表示特征的高度、宽度和通道的数量；

基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性；

基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态

和视频内容

计算每帧图像中不同视觉区域对不同词语的贡献度；

根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；

将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中，获取第二时刻的语义，并获取得到下一视频帧对应的词向量和隐藏状态；

重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，直至获取的下一视频帧的语义为结束标志位；

将所有获取的语义进行组合，生成视频描述语句。

进一步的，所述利用深度残差网络提取所述帧图像序列每帧图像中图像特征包括：

将 N个视频帧按照时间序列输入ResNet-200深度残差网络中，把所述ResNet-200深度残差网络res5c层的输出作为视频特征。

进一步的，所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括：

对于卷积门控循环单元进行如下配置：

，

，

，

；

其中，

和

分别表示第 n 帧的视频特征和第 n-1 的计算输出，

和表示2D卷积核，*表示卷积运算，

表示Sigmoid函数，

表示元素级乘法，

分别表示GRU网络中的更新门和重置门，

表示共享参数。

进一步的，所述基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态

和视频内容

计算每帧图像中不同视觉区域对不同词语的贡献度，包括：

对于卷积门控循环单元进行如下配置：

，

，

，

，

，

；

其中，F表示concat操作，

表示2D卷积核，

和

分别表示GRU网络中的更新门和重置门。

为共享参数。

进一步的，所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征，包括：

利用如下方式将第n个视频帧聚合成一个时空特征

：

，

表示第k个中心，

表示在位置

的点属于第k个中心的概率。

表示图像位置的局部描述符，

为第t个视频帧的时空表示，并且作为视频语义生成模块的输入。

更进一步的，所述将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，包括：

对所述语义提取GRU神经模型进行如下配置：

，

，

，

，

；

为可训练参数,S定义为视频描述的向量表示

, E和T分别表示词语向量的长度和描述的长度；

通过线性变换层将映射到词语空间，使用softmax层生成词汇表中每个词作为当前产生单词的概率：

，将概率最大的单词作为语义。

第二方面，本发明实施例还提供了一种视频语义描述方法装置，包括：

图像特征提取模块，用于从视频中获取帧图像序列，并利用深度残差网络提取所述帧图像序列每帧图像中图像特征

，其中H 、W 和D分别表示特征的高度、宽度和通道的数量；

时间和空间关联性提取模块，用于基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性；

贡献度计算模块，用于利用卷积门控循环单元中每帧图像对应的隐藏状态

和视频内容

计算每帧图像中不同视觉区域对不同词语的贡献度；

时空特征形成模块，根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；

语义提取模块，用于将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中，获取第二时刻的语义，并获取得到下一视频帧对应的词向量和隐藏状态；并重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，直至获取的下一视频帧的语义为结束标志位；

组合模块，用于将所有获取的语义进行组合，生成视频描述语句。

本发明实施例提供的视频语义描述方法及装置，通过从视频中获取帧图像序列，并利用深度残差网络提取所述帧图像序列每帧图像中图像特征，基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性；基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度；根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中，获取第二时刻的语义，并获取得到下一视频帧对应的词向量和隐藏状态；重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，直至获取的下一视频帧的语义为结束标志位；将所有获取的语义进行组合，生成视频描述语句。利用深度残差网络提取视频帧图像特征，可以快速提取帧图像中的重要变化信息，并通过卷积门控循环单元，建立相邻帧图像之间的时间和空间关联性，并充分考虑每帧图像中不同视觉区域的重要程度，并利用重要程度和图像特征的高度和宽度进行编码，并利用编码后的信息和时空特征确定语义，对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征，得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献，同时考虑同一帧不同视觉区域对词语的不同贡献度，从而能够生成更精准的词语。提升了视频语义描述的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的视频语义描述方法的流程图；

图2为本发明实施例一提供的视频语义描述方法中编码的示意图；

图3是本发明实施例二提供的视频语义描述方法装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的视频语义描述方法的流程图，本实施例可适用于对视频进行语义描述的情况，该方法可以通过视频语义描述方法装置来执行，具体包括如下步骤：

步骤110、从视频中获取帧图像序列，并利用深度残差网络提取所述帧图像序列每帧图像中图像特征。

根据视频帧率获取每个视频的序列帧，然后等间隔选取N帧图像，形成帧图像序列。由于视频中具有较多的帧图像，因此，如果针对每帧图像都分别提取帧图像特征，则会产生大量的数据，会对后期运算产生影响。同时帧图像具有连续性特征，因此，可以利用深度残差网络来提取帧图像序列中每帧图像中图像特征，以降低提取的数据量。深度残差收缩网络本质上是深度残差网络的一种改进版本，是一种较为新颖的深度神经网络算法。可以视作一种可训练的特征选择的过程。换言之，就是通过前面的卷积层将重要的特征变成绝对值较大的值，将冗余信息所对应的特征变成绝对值较小的值；通过子网络获得二者之间的界限，并且通过软阈值化将冗余特征置为零，同时使重要的特征有着非零的输出。

可选的，可以将帧图像序列输入到ResNet网络中，特别是ResNet-200网络，通过实验，ResNet-200网络可以取得更好的提取效果。由于ResNet-200输出是分类结果，因此，可以将络res5c层的输出作为视频特征输出。帧图像序列每帧图像中图像特征

，其中H 、W 和D分别表示特征的高度、宽度和通道的数量。

步骤120、基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性。

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。其可以使用较少的门控同时可以进行遗忘和选择记忆。并且可以利用隐藏状态可以提供当前帧图像的图像特征和前一帧图像的图像特征通过卷积提取出的特征。并且通过门控实现对有效特征的提取。在本实施例中，可以采用ConvolutionalGRU，以更好的提取图像特征。

示例性的，所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括：

对于卷积门控循环单元进行如下配置：

，

，

，

，

其中，

和

分别表示第 n 帧的视频特征和第 n-1的计算输出，

和U表示2D卷积核，*表示卷积运算，

表示Sigmoid函数，

表示元素级乘法，

分别表示GRU网络中的更新门和重置门，

表示共享参数。

其中，所述共享参数可以根据经验设定。

步骤130、基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度。

对于视频中的每帧图像来说，其中可能包含多个物体，且分布于图像的不同位置，或者处于非中心位置，容易被忽视。为避免上述情况，在本实施例中，仍然可以利用Convolutional GRU计算每帧图像中不同视觉区域对不同词语的贡献度。

示例性的，所述基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态

和视频内容

计算每帧图像中不同视觉区域对不同词语的贡献度，可以包括：

对于卷积门控循环单元进行如下配置：

，

，

，

，

，

；

其中，F表示concat操作，

表示2D卷积核，

和

分别表示GRU网络中的更新门和重置门。

为共享参数。

步骤140、根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征。

图2为本发明实施例一提供的视频语义描述方法中编码的示意图，参考图2和下述描述，可以更为直观的了解编码过程。

在视频语义描述中，通常会采用卷积神经网络（CNN）作为编码器，获得给定图像或视频的固定长度的特征表示。在本实施例中，同样也需要进行编码，该编码能够充分体现视频帧的时空特征。可选的，在本实施例中，可以采用VLAD编码。

VLAD可以看做是一种简化的FV，其主要方法是通过聚类方法训练一个小的码本，对于每幅图像中的特征找到最近的码本聚类中心，随后所有特征与聚类中心的差值做累加，得到一个k*d的vlad矩阵，其中k是聚类中心个数，d是特征维数,随后将该矩阵扩展为一个(k*d)维的向量，并对其L2归一化，所得到的向量即为VLAD。

示例性的，所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征，可以包括：

利用如下方式将第n个视频帧聚合成一个时空特征

：

，

表示第k个中心，

表示在位置

的点属于第k个中心的概率，

表示图像位置的局部描述符，

为第t个视频帧的时空表示。

步骤150、将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中，获取第二时刻的语义，并获取得到下一视频帧对应的词向量和隐藏状态。

在本实施例中，可以基于第二视频帧进行语义提取。所述第二视频帧可以为上述视频帧序列中的第二帧图像。所述预设语义字典可以作为针对该类视频设定的词汇表集合，其中可以包括提前定义好的一定数量词汇、开始符和结束符。由于第一视频帧采用起始符作为语义，因此，可以从第二视频帧开始提取语义。

示例性的，所述将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，包括：

对所述语义提取GRU神经模型进行如下配置：

，

，

，

，

；

为可训练参数,S定义为视频描述的向量表示

,E和T分别表示词语向量的长度和描述的长度；

通过线性变换层将

映射到词语空间，使用softmax层生成词汇表中每个词作为当前产生单词的概率：

，将概率最大的单词作为语义。

利用上述方式，可以提取出第二视频帧对应的语义词汇。

步骤160、重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，直至获取的下一视频帧的语义为结束标志位。

可以重复利用上述方式依次对视频帧序列中的其它帧图像进行处理，分别得到对应的语义词汇。同时，由于视频中最后一部分可能是无意义的字幕或者其它不相关内容。因此，在本实施例中，可以将输出得到的语义词汇与结束标志位进行匹配，在匹配一致时，可以确定为结束状态，不再将后续帧图像输入到语义提取GRU神经模型中。

步骤170、将所有获取的语义进行组合，生成视频描述语句。

示例性的，可以采用预设的语义描述模板或者训练好的神经网络模型，对上述获取的所有语义进行组合，最终形成视频描述语句。

本实施例通过从视频中获取帧图像序列，并利用深度残差网络提取所述帧图像序列每帧图像中图像特征，基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性；基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度；根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中，获取第二时刻的语义，并获取得到下一视频帧对应的词向量和隐藏状态；重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，直至获取的下一视频帧的语义为结束标志位；将所有获取的语义进行组合，生成视频描述语句。利用深度残差网络提取视频帧图像特征，可以快速提取帧图像中的重要变化信息，并通过卷积门控循环单元，建立相邻帧图像之间的时间和空间关联性，并充分考虑每帧图像中不同视觉区域的重要程度，并利用重要程度和图像特征的高度和宽度进行编码，并利用编码后的信息和时空特征确定语义，对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征，得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献，同时考虑同一帧不同视觉区域对词语的不同贡献度，从而能够生成更精准的词语。提升了视频语义描述的准确性。

实施例二

图3是本发明实施例二提供的视频语义描述装置的结构图，如图3所示，所述装置包括：

图像特征提取模块210，用于从视频中获取帧图像序列，并利用深度残差网络提取所述帧图像序列每帧图像中图像特征

，其中H 、W 和D分别表示特征的高度、宽度和通道的数量；

时间和空间关联性提取模块220，用于基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性；

贡献度计算模块230，用于利用卷积门控循环单元中每帧图像对应的隐藏状态

和视频内容

计算每帧图像中不同视觉区域对不同词语的贡献度；

时空特征形成模块240，根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；

语义提取模块250，用于将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中，获取第二时刻的语义，并获取得到下一视频帧对应的词向量和隐藏状态；并重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，直至获取的下一视频帧的语义为结束标志位；

组合模块260，用于将所有获取的语义进行组合，生成视频描述语句。

本实施例提供的视频语义描述方法装置，通过从视频中获取帧图像序列，并利用深度残差网络提取所述帧图像序列每帧图像中图像特征，基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性；基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度；根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中，获取第二时刻的语义，并获取得到下一视频帧对应的词向量和隐藏状态；重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，直至获取的下一视频帧的语义为结束标志位；将所有获取的语义进行组合，生成视频描述语句。利用深度残差网络提取视频帧图像特征，可以快速提取帧图像中的重要变化信息，并通过卷积门控循环单元，建立相邻帧图像之间的时间和空间关联性，并充分考虑每帧图像中不同视觉区域的重要程度，并利用重要程度和图像特征的高度和宽度进行编码，并利用编码后的信息和时空特征确定语义，对语义进行组合形成视频语义描述。充分考虑了视频帧图像的时间、空间特征，得到具有时间信息和空间信息的视频表示。考虑了不同帧对词语的不同贡献，同时考虑同一帧不同视觉区域对词语的不同贡献度，从而能够生成更精准的词语。提升了视频语义描述的准确性。

本发明实施例所提供的视频语义描述方法装置可执行本发明任意实施例所提供的视频语义描述方法，具备执行方法相应的功能模块和有益效果。

相应的，可以以一种或多种程序设计语言或其组合来编写用于执行本发明提供的视频语义描述方法操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。