CN113269218B

CN113269218B - 基于改进的vlad算法的视频分类方法

Info

Publication number: CN113269218B
Application number: CN202011612490.2A
Authority: CN
Inventors: 袁嘉杰
Original assignee: Vtron Group Co Ltd
Current assignee: Vtron Group Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-06-09
Anticipated expiration: 2040-12-30
Also published as: CN113269218A

Abstract

本发明提供一种基于改进的VLAD算法的视频分类方法，包括：根据对特征图进行非局部描述特征处理，获得非局部相关区域，具体包括：对特征图进行三次的卷积操作，输出三个压缩特征图；所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图，其中，第一压缩特征图的特征格式为H×W×(N×C/2)，第二压缩特征图的特征格式为(N×C/2)×(H×W)，第三压缩特征图为H×W×(N×C/2)；以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘，得到关联强度矩阵；将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘，输出特征图的非局部相关区域，引入非局部相关区域使图像特征有完善的表示。

Description

基于改进的VLAD算法的视频分类方法

技术领域

本发明涉及图像视频处理领域，更具体地，涉及一种基于改进的VLAD算法的视频分类方法。

背景技术

一种优秀的特征编码方法能够应用于图像、视频分类或者目标检索各个领域，其中VLAD(Vector of Locally Aggregated Descriptors)无论在传统图像处理，还是深度学习领域中，都有大量的研究学者进行专研与改进。NetVLAD是一个近年提出的应用于深度神经网络的VLAD网络结构，类似于池化层，将图像特征进行编码，压缩成固定大小的局部特征向量以表达图像整体信息，能够插入到任何CNN模型中，与网络模型一同训练。但二者均存在着2点不足之处：1、应用于传统图像处理领域的VLAD算法，虽然能够较好地针对图像数据特征输出局部聚合描述特征，但对图像特征缺乏学习优化的过程，输出特征与目标标签出现误差亦不能沿着误差方向得到改善。2、应用于深度学习领域的改进VLAD算法，虽然解决了VLAD对图像特征学习优化的问题，但是输出的局部聚合特征一定程度上会出现信息丢失，对网络模型识别造成影响。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷(不足)，提供一种改进的VLAD算法，用于完善使用VLAD算法进行视频分类的特征描述以减少误差。

本发明采取的技术方案是：

一种基于改进的VLAD算法的视频分类方法，去除深度残差网络结构的基础网络的全连接层与最后一层池化层，以输入视频中的视频帧至深度残差网络结构得到特征图；对特征图进行上采样反卷积操作；输入视频中的视频帧至深度残差网络结构得到特征图的特征格式为(H×W×C×N)；训练NetVLAD网络结构，以使特征图输入NetVLAD网络结构以一段时间内的视频帧为目标进行局部聚合特征，得到局部特征向量和聚类中心区域；根据局部特征向量通过卷积操作得到软分配权重，将局部特征向量划分至相应对聚类中心区域，以计算局部特征描述子与聚类中心区域对残差分布；构建聚合特征矩阵；其中的构建聚合特征矩阵的过程包括：对根据视频帧生成的特征图进行卷积操作得到软分配权重，输出预设数量的权重信息；根据权重信息构建聚合特征矩阵；其中，根据权重信息构建聚合特征矩阵具体包括：通过损失函数处理所述权重信息，输出与权重信息数量相同个数的软分配权重，对其进行残差加权与残差求和的处理，构建聚合特征矩阵；根据对特征图进行非局部描述特征处理，获得非局部相关区域，具体包括：对特征图进行三次的卷积操作，输出三个压缩特征图；所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图，其中，第一压缩特征图的特征格式为H×W×(N×C/2)，第二压缩特征图的特征格式为(N×C/2)×(H×W)，第三压缩特征图为H×W×(N×C/2)；以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘，得到关联强度矩阵；将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘，输出特征图的非局部相关区域；将软分配权重和非局部相关区域进行点乘，得到聚类区域相关区域；将聚类区域相关区域进行卷积操作降维压缩成聚类区域空间相关性，并将聚类区域空间相关性串行拼接在聚合特征矩阵中得到最终特征向量；预建立最终特征向量与视频种类的映射集；根据最终特征向量确定输入的视频的视频种类。

将视频输入深度残差网络结构前通常需要进行对深度残差网络结构的Pooling层预配置，以使深度残差网络进行三维压缩，并对深度残差网络结构进行裁剪，去除深度残差网络全连接层与最后一层池化层；配置后，对视频的特征数据从三维的角度进行压缩，使提取的特征图具有三维立体信息结构，以使不同时间的特征图存在时间维度的关联。输入视频中的视频帧至深度残差网络结构得到特征图的特征格式为(H×W×C×N)，其中，H为特征图的高，W为特征图的宽，N为视频帧的个数，C为特征图的通道数。在获得非局部相关区域当中，关联强度矩阵每一行的小方块是相关性较高的位置，与第三特征图进行矩阵相乘获取高相关性的位置特征向量，通过加权求和，能够相应找到特征图每一位置向量的关联区域，输出特征图局部特征的非局部相关区域。非局部相关区域的作用在于，取图像特征非局部相关信息，使图像特征有完善的表示，获取类中的共性特征，扩大类间差异。通过对输入的图像特征进行卷积操作输出不同时空区域的图像特征，然后对不同时空区域的图像特征进行矩阵相乘，在图像特征中计算任意两点间的相关性，突破了卷积操作的局部区域的局限性，获取图像特征非局部信息，简称为非局部描述特征，最后将改进的NetVLAD输出的软分配权重与非局部描述特征进行元素点乘，输出图像特征所属的每个聚类区域间的非局部相关性，串行拼接到改进NetVLAD输出的局部聚合特征向量中，优化特征描述，凸显图像类中共性区域。

进一步，所述构建聚合特征矩阵的过程具体包括：对根据视频帧生成的特征图进行卷积操作得到软分配权重，输出(K+G)个权重信息；对每个权重信息各自求和后将其中最小的G个权重信息去除，根据剩余的K个权重信息构建聚合特征矩阵；其中，根据剩余的K个权重信息构建聚合特征矩阵具体包括：通过损失函数处理所述剩余的K个权重信息，输出K个软分配权重，对其进行残差加权与残差求和的处理，构建聚合特征矩阵。

构建聚合特征矩阵的过程中，对根据视频帧生成的特征图进行卷积操作计算软分配权重，得出(K+G)个权重信息，其中K和G都是预设值，通过权重信息各自求和计算，可判别当前特征点是否属于某一聚类中心区域的权重系数，值最小的G个权重信息表示为贡献率最低的聚类区域，将其去除，低质量的权重信息将不再参与到接下来的聚合局部特征向量的构建，减少了非关键区域的干扰，使网路丢弃一部分冗余信息，强化了有用信息，使输出局部聚合特征向量更具辨析性。

进一步，根据剩余的K个权重信息构建聚合特征矩阵具体还包括归一化处理，具体如下：通过损失函数处理所述剩余的K个权重信息，输出K个软分配权重，对其进行残差加权与残差求和的处理后进行归一化处理，构建聚合特征矩阵。

进一步，所述深度残差网络结构为ResNet101深度残差网络。

进一步，所述损失函数为Softmax函数。

本发明采取的技术方案还为：

一种视频分类的方法，包括预建立最终特征向量与视频种类的映射集；根据如上述的改进的VLAD算法输出的最终特征向量确定输入的视频的视频种类。

与现有技术相比，本发明的有益效果为：

(1)通过基于特征相关性的非局部描述特征，补充聚类中心区域的相关区域，一种动作的视频流中多个子类动作有一定的关联性，为整合多个子类动作作为一种动作进行特征表示，补充了关联信息，优化了动作的特征描述；

(2)使低质量的权重信息将不再参与到接下来的聚合局部特征向量的构建，减少了非关键区域的干扰，使网路丢弃一部分冗余信息，强化了有用信息，使输出局部聚合特征向量更具辨析性。通过改进NetVLAD方法处理视频流特征图，能够将动作信息分解为多部分作为聚类中心区域，构成局部聚合特征向量，从而整合多个子类动作为一种动作进行特征表示。

附图说明

图1为本发明的步骤示意图。

图2为本发明的流程示意图。

图3为本发明的ResNet网络结构参数表。

图4为本发明的局部特征关联区域计算示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1～2所示，本实施例提供一种改进的VLAD算法，步骤包括：

S1：修改ResNet101的网络结构；完成后同时进行S2和S3；

对pooling层进行修改，将输入的视频帧的时间信息由pooling层进行利用，修改后的网络结构如图3。使用ResNet101基础网络，由于需要提取H×W×C×N格式大小的中间特征图(H为特征图的高，W为特征图的宽，N为视频帧的个数，C为特征图的通道数)，并且为了让提取的中间特征图具有一定的空间信息结构，因此将原ResNet101的基础网络去除最后的全连接层与最后一层池化层，对输出的7×7×4特征图进行上采样反卷积操作最终输出14×14×4的特征图作为下面基于非局部描述特征VLAD算法改进的中间特征图输入。

S2：同时进行S2a和S2b；

其中S2a具体为：计算局部特征描述子与聚类中心区域对残差分布；

训练NetVLAD网络结构，以使特征图输入NetVLAD网络结构以一段时间内的视频帧为目标进行局部聚合特征，得到局部特征向量和聚类中心区域；根据局部特征向量通过卷积操作得到软分配权重，将局部特征向量划分至相应对聚类中心区域，以计算局部特征描述子与聚类中心区域对残差分布；

对特征图随机初始化设定K个聚类中心，并且通过训练调整K个聚类中心，由以往一张张特征图进行局部聚合特征，改为由一段时间帧进行局部聚合特征，x_i,t∈R^D是一个从一段视频帧中t∈{1...T}的位置i∈{1...N}中提取的D维局部特征向量。通过网络训练，对这一段视频帧特征描述空间R^D划分为K个聚类中心区域，聚类中心由c_k表示。通过卷积操作输出软分配权重，将x_i,t∈R^D划分到相应的聚类中心区域中，在相应的聚类中心区域中计算x_i,t∈R^D局部特征描述子与聚类中心的残差分布。

S2b具体为：构建聚合特征矩阵；

对根据视频帧生成的特征图进行卷积操作得到软分配权重，输出(K+G)个权重信息；对每个权重信息各自求和后将其中最小的G个权重信息去除，根据剩余的K个权重信息构建聚合特征矩阵；其中，根据剩余的K个权重信息构建聚合特征矩阵具体包括：通过损失函数处理所述剩余的K个权重信息，输出K个软分配权重，对其进行残差加权与残差求和的处理，构建聚合特征矩阵。

同时对特征图进行卷积操作计算软分配权重，输出(K+G)个权重信息(K个高质量权重信息，G个低质量权重信息)，(K+G)个权重信息各自求和，保留值最高的K个权重信息，这样G个低质量的权重信息将不再参与到接下来的聚合局部特征向量的构建，减少了非关键区域的干扰，再通过Softmax函数处理，输出K个软分配权重，进行残差加权，残差求和，归一化处理，构建聚合特征矩阵(K×D)。

S3：获得非局部相关区域；

对特征图进行三次的卷积操作，输出三个压缩特征图；所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图，其中，第一压缩特征图的特征格式为H×W×(N×C/2)，第二压缩特征图的特征格式为(N×C/2)×(H×W)，第三压缩特征图为H×W×(N×C/2)；以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘，得到关联强度矩阵；将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘，输出特征图的非局部相关区域；

如图4所示，将S1输出的特征图作为基于非局部描述特征VLAD算法的输入，输入到非局部描述特征处理中：首先将一段视频帧的中间特征图(H×W×C×N)经过三次的1×1×(N×C)×(N×C/2)卷积操作，分别输出3个经压缩后的特征图H×W×(N×C/2)，为第一特征图、第二特征图、第三特征图；改变第一特征图的特征格式为H×W×(N×C/2)，改变第二特征图的特征格式为(N×C/2)×(H×W)，通过矩阵乘积方法，计算特征图之间任意两个位置的特征向量的关联强度矩阵((N×H×W)×(N×H×W))，其中每一行表示为某一刻视频帧的特征图某一位置的特征向量与其他位置的相关性；将关联强度矩阵((N×H×W)×(N×H×W))进行Softmax操作，再与第三特征图(H×W×(N×C/2))进行矩阵相乘，找到某一刻视频帧的特征图中每一个位置特征向量的关联区域，获取局部特征关联区域，图像关联强度矩阵每一行的小方块是相关性较高的位置，与第三特征图进行矩阵相乘获取高相关性的位置特征向量，通过加权求和，能够相应找到特征图每一位置向量的关联区域，输出特征图局部特征的非局部相关区域。

S4：将软分配权重和非局部相关区域进行点乘，得到聚类区域相关区域；

将S2输出软分配权重与S3输出的非局部相关区域，逐个聚类中心的软分配权重进行点乘；

S5：将聚类区域相关区域进行卷积操作降维压缩成聚类区域的非局部相关区域；

S6：将聚类区域的非局部相关区域串行拼接在聚合特征矩阵中得到最终特征向量；

将聚类区域非局部相关区域进行卷积操作降维压缩成聚类区域空间相关性，串行拼接在改进NetVLAD输出的K个局部聚合特征向量中。

S7：建立最终特征向量与视频种类的映射集；

S8：根据最终特征向量确定输入的视频的视频种类。

根据NetVLAD的特性进行优化改进，由原本K个软分配聚类中心权重(作为判别当前特征点是否属于某一聚类中心区域的权重系数)，改成输出(K+G)个软分配聚类中心权重，通过各个权重各自求和计算，舍弃最小的G个不参与到局部聚合特征向量计算，网路去除一部分冗余信息，强化了有用信息，使输出局部聚合特征向量更具辨析性。

提出基于特征相关性的非局部描述特征，通过对输入的图像特征进行卷积操作输出不同时空区域的图像特征，然后对不同时空区域的图像特征进行矩阵相乘，在图像特征中计算任意两点间的相关性，突破了卷积操作的局部区域的局限性，获取图像特征非局部信息，简称为非局部描述特征，最后将改进的NetVLAD输出的软分配权重与非局部描述特征进行元素点乘，输出图像特征所属的每个聚类区域间的非局部相关性，串行拼接到改进NetVLAD输出的局部聚合特征向量中，优化特征描述，凸显图像类中共性区域。

在视频分类问题上，如果单张视频帧放入一般2维卷积的网络模型中，由于缺乏时序的关联性，容易将动作分解识别，诸如打篮球，容易误识别为跑步，跳远等，将基于非局部描述特征的VLAD算法改进应用于视频分类中，可以清晰看到经注意力强化后的特征在计算其特征相关性，同时通过改进的Attention-NetVLAD计算出聚类中心的软分配权重，从而确定视频流在所属的聚类区域在视频流中相关区域。本实施例提供的视频分类的方法有以下优势：

虽然一段视频流代表一种动作分类，但这个动作分类在连贯的视频帧中包含着多个不同子类动作，诸如打篮球中有跳、扔、跑、抱等动作。通过改进NetVLAD方法处理视频流特征图，能够将动作信息分解为多部分作为聚类中心区域，构成局部聚合特征向量，从而整合多个子类动作为一种动作进行特征表示；

通过基于特征相关性的非局部描述特征，补充聚类中心区域的相关区域，一种动作的视频流中多个子类动作有一定的关联性，为整合多个子类动作作为一种动作进行特征表示，补充了关联信息，优化了动作的特征描述。

通过所述视频分类方法能够将一种动作的视频流中多个子类动作提供了关联性，诸如打篮球视频流，聚类中心区域分别与篮球、投、扔等区域有较高的相关性，整合了投篮球的动作表示；掷保龄球视频流中，聚类中心区域分别与保龄球、跑、掷等区域有较高相关性，整合了掷保龄球的动作表示，如此类推。因此融合注意力与非局部描述特征的VLAD算法中聚类区域的局部聚合特征向量，在注意力的强化与非局部描述特征的补充下，输出特征信息更为完善，更突显出类别中的共性。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于改进的VLAD算法的视频分类方法，其特征在于，所述算法包括：

去除深度残差网络结构的基础网络的全连接层与最后一层池化层，以输入视频中的视频帧至深度残差网络结构得到特征图；对特征图进行上采样反卷积操作；输入视频中的视频帧至深度残差网络结构得到特征图的特征格式为H×W×C×N；

训练NetVLAD网络结构，以使特征图输入NetVLAD网络结构以一段时间内的视频帧为目标进行局部聚合特征，得到局部特征向量和聚类中心区域；根据局部特征向量通过卷积操作得到软分配权重，将局部特征向量划分至相应对聚类中心区域，以计算局部特征描述子与聚类中心区域对的残差分布；

构建聚合特征矩阵；其中的构建聚合特征矩阵的过程包括：

对视频帧生成的特征图进行卷积操作得到软分配权重，输出预设数量的权重信息；根据权重信息构建聚合特征矩阵；其中，根据权重信息构建聚合特征矩阵具体包括：通过损失函数处理所述权重信息，输出与权重信息数量相同个数的软分配权重，对其进行残差加权与残差求和的处理，构建聚合特征矩阵；

根据对特征图进行非局部描述特征处理，获得非局部相关区域，具体包括：对特征图进行三次的卷积操作，输出三个压缩特征图；所述压缩特征图包括第一压缩特征图、第二压缩特征图和第三压缩特征图，其中，第一压缩特征图的特征格式为H×W×(N×C/2)，第二压缩特征图的特征格式为(N×C/2)×(H×W)，第三压缩特征图为H×W×(N×C/2)；以任一个压缩特征图的任一特征向量为乘数、另一压缩特征图的任一特征向量为乘数地两两矩阵相乘，得到关联强度矩阵；将关联强度矩阵输入损失函数后与第三压缩特征图进行矩阵相乘，输出特征图的非局部相关区域；

将软分配权重和非局部相关区域进行点乘，得到聚类区域相关区域；

将聚类区域相关区域进行卷积操作降维压缩成聚类区域的非局部相关区域,将聚类区域的非局部相关区域串行拼接在聚合特征矩阵中得到最终特征向量；

预建立最终特征向量与视频种类的映射集；

根据最终特征向量确定输入的视频的视频种类。

2.根据权利要求1所述的基于改进的VLAD算法的视频分类方法，其特征在于，所述构建聚合特征矩阵的过程具体包括：

3.根据权利要求2所述的基于改进的VLAD算法的视频分类方法，其特征在于，根据剩余的K个权重信息构建聚合特征矩阵具体还包括归一化处理，具体如下：

通过损失函数处理所述剩余的K个权重信息，输出K个软分配权重，对其进行残差加权与残差求和的处理后进行归一化处理，构建聚合特征矩阵。

4.根据权利要求1所述的基于改进的VLAD算法的视频分类方法，其特征在于，

所述深度残差网络结构为ResNet101深度残差网络。

5.根据权利要求1所述的基于改进的VLAD算法的视频分类方法，其特征在于，

所述损失函数为Softmax函数。