CN114579805B

CN114579805B - 一种基于注意力机制的卷积神经网络相似视频检索方法

Info

Publication number: CN114579805B
Application number: CN202210195639.4A
Authority: CN
Inventors: 谢铭; 吴林涛; 董建武; 索帅; 郑博文; 王立刚; 蔡荣华; 胡小勇
Original assignee: Beijing Scistor Technologies Co ltd
Current assignee: Beijing Scistor Technologies Co ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2023-03-28
Anticipated expiration: 2042-03-01
Also published as: CN114579805A

Abstract

本发明公开一种基于注意力机制的卷积神经网络相似视频检索方法包括：检索视频的关键帧抽取，使用块结构思想代替连续结构思想。视频关键帧图像处理，引入去纯色算法和增强图像整体与局部特征。关键帧特征提取，使用改进的ResNet‑50对关键帧特征提取。检索视频关键帧特征相似检索，引入Faiss检索。帧间结果后处理，引入矫正机和Softmax机制。本发明主要解决了大规模相似视频检索的时间与精度问题，在不降低精度的同时有效的降低了检索时长，大幅度的提升了视频的检索性能。

Description

一种基于注意力机制的卷积神经网络相似视频检索方法

技术领域

本发明属于相似视频检索技术领域，涉及一种基于注意力机制的卷积神经网络，对相似视频实现检索识别，并采用相应手段对精度以及速度进行提升的技术方案。

背景技术

伴随着大数据的时代，互联网上充满着大量的数据。视频数据作为其中的重要组成部分，正在从各个方面开始影响着人们的日常生活。如何在海量视频数据中实现相似视频检索具有广泛的业务应用，如相似视频去重、相似视频检索等。然而由于各种视频编辑软件诞生，导致了这项工作变得异常的困难。原因在于视频一旦经过了编辑修改，就难以利用传统方法跟原始视频进行匹配了。一般这些修改过的视频大致会呈现如下特点：第一，与原始视频在内容上保证一致；第二，修改原始视频的画质，包括色彩改变、亮度改变、分辨率改变、加入噪声等；第三，在原视频中添加弹幕、logo等其他视频元素。

目前相似视频检测方法主要是以两个方面为主：1、视频整体检索，这种方式的速度很快，将视频作为一个整体，表现为一个特征值，但是往往在精度上表现得不是很好，一旦视频发生了修改、截取、拼接等操作，很难被检索出来。2、将视频抽成为一帧帧的图像进行检索，这种方式的精度表现往往很好，但是速度会很慢，当一个视频的时长很长的时候，会很长时间才返回结果，因此很难在具体应用中使用。

发明内容

为了解决目前相似视频检索所存在的问题，本发明提供了一种基于注意力机制的卷积神经网络相似视频检索方法，在优化检索速度的同时提升检索的精度。

本发明基于注意力机制的卷积神经网络相似视频检索方法，具体步骤如下：

步骤1：检索视频的关键帧抽取。

步骤2：检索视频的关键帧图像处理。

通过去纯色算法和增强图像整体与局部特征；同时将关键帧图像K等分，将分割后的图像缩放到原图大小；加上分割前的关键帧图像，总共是K+1张图像；并对K+1份图像分别做归一化处理，使得每张图像的数值满足标准正态分布。

步骤3：关键帧特征提取。

步骤4：采用Faiss检索，进行检索视频的关键帧特征相似检索。

步骤5：帧间结果后处理。

通过矫正机制将检索视频每一帧的检索结果重新进行修正，使每个关键帧仅对应一个索引号；将所有的结果按着相同的索引号进行统计，经过Softmax机制，最后返回检索到相似视频地置信度。

本发明的优点在于：

(1)本发明通过采用块结构将视频由原来的一帧帧抽取图像变成了一段抽取一张图像，在不降低视频的多样性特征的同时，极大的提升了检索效率。

(2)本发明通过加入位置注意力机制和自适应合并机制，改进了特征提取模型的网络结构，使得模型能够获取到更加丰富的特征同时提高模型的泛化能力；位置注意力机制使得模型更加关注图像的重点区域，从而降低对一些干扰区域的响应，提高模型的泛化能力；自适应合并机制通过融合K个局部特征和1个全局特征，使得模型提取的特征能够同时融合局部与全局特征，极大程度上丰富了提取到的特征值。

(3)本发明通过帧间后处理，采用窗口与矫正机制，进一步的降低了模型带来的误差，提升了检索的准确率，而又通过Softmax机制将每一帧的匹配结果转换成对应的置信度，能够更好的给检索一个直观的判断，然后通过阈值的筛选，可以极大的提升检索的准确率。

附图说明

图1为本发明卷积神经网络相似视频检索方法整体流程图；

图2为本发明卷积神经网络相似视频检索方法中视频特征提取流程图；

图3为本发明卷积神经网络相似视频检索方法中特征检索流程图；

图4为本发明的帧间后处理流程图；

图5为加入与没加入注意力机制与自适应合并机制的模型关注特征的区域对比图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明基于注意力机制的卷积神经网络相似视频检索方法，如图1所示，具体步骤如下：

步骤1：检索视频的关键帧抽取。

由于帧与帧之间存在着大量的重复数据，因此采用块结构的思想代替传统的连续结构思想，把块抽取的一帧画面称为关键帧，因此在减少视频抽帧画面的同时也极大的提高了整个视频检索的速度。

如图2所示，本发明中将视频的对于输入的视频，将首个不是纯色(一帧画面是同一个像素值)的视频画面作为视频的起始关键帧第一关键帧；在确定起始关键帧后，每一个块抽取一帧画面。由于每个视频的FPS不一致，导致有时会丢失关键信息，因此所采用的块为自适应大小。

随后通过差分法计算视频之后每一帧与前一关键帧之间的相似距离，差分法公式：

其中，h表示图像的高，w表示图像的宽，P1(x,y)与P2(x,y)分别表示两个图像的对坐标(x,y)像素值，SD表示相似距离。

若当前帧与前一关键帧的相似距离小于阈值DT(Distance Threshold)时，则丢弃当前帧，继续计算下一帧与当前关键帧的相似距离。若当前帧与前一关键帧的相似距离大于阈值DT (Distance Threshold)时，则将当前帧记录为关键帧；以此类推，即可抽取出视频的所有关键帧，由此可以用N个关键帧的图像来代表整个视频。

步骤2：检索视频的关键帧图像处理。

由于有些视频画面中会有某一行或者某一列是纯色，因此关键帧中存在的这些无关信息，对特征提取模型有着很大的干扰性，严重的影响了模型提取特征时候的纹理和结构特征，因此在确定完关键帧之后，对图像进行预处理。

图像预处理采用去纯色算法将关键帧中每行每列中的纯色去掉，留下关键帧对应的纹理与结构特征。所述去纯色算法表示的是抽取图像对角线像素，然后判断该对角点对应的行列元素平均值是否等于对角像素值，若相等，则去掉纯色行或列，否则保留对应行或列。

同时为了模型能够更好的理解局部特征和全局特征，因此将再将关键帧图像K等分，将分割后的图像缩放到原图大小；加上分割前的关键帧图像，总共是K+1张图像，从而获取更加丰富的局部与全局特征。然后对这K+1份图像分别做归一化处理，使得每张图像的数值(图像的RGB三个通道值)满足标准正态分布，便于模型的快速收敛。上述归一化处理，表示图像减去均值除以方差，得到一个均值为0，方差为1的图像分布，其中均值是指图像的平均值，方差是指像素点与平均值之间的偏离程度。

步骤3：使用改进的ResNet-50对关键帧特征提取。

原始的ResNet-50表示的是模型网络具有50层权重信息的深度残差网络结构；本发明中对原始的ResNet-50网络结构进行改进，得到改进的ResNet-50包括：

1、引入位置注意力机制。

位置注意力机制表示的是CA(Coordinate Attention)，对特征图的垂直和水平两个方向分别编码，捕获特征图的距离之间的依存关系，然后通过乘法再将两个方向上的特征合并到特征图上面，用来强调区域的响应响度。由此加强对感兴趣位置的响应强度，减弱相似视频带来的负面影响，更好的提取关键帧特征。

2、引入自适应合并机制。

自适应合并机制表示的是AdaptiveMaxPooling+Concat+Conv2d模块，先通过最大池化操作获取到每个特征图响应最大的特征，再将这些特征通过连接操作连接在一起，获取到 K+1倍的特征向量，然后再经过卷积操作将K+1个关键帧特征向量合并为一个特征向量，从而将局部特征与全局特征很好的融合在一起，增加模型特征表能力；

3、将ResNet-50原始的全连接层换成卷积层。

由于原始的ResNet-50的分类层采用全连接操作的，但这样会导致模型的参数量非常大，不利于检索的速度，因此换成一个卷积核大小为1*1的卷积操作，输入为连接后的维度，输出的维度为类别总数，这样在不影响泛化能力的同时加速了模型的推理速度。

从而通过前述1、2、3这3个模块加起来完成了一个K+1份特征图到一份特征向量的输出。

随后通过训练数据集对改进的ResNet-50网络进行训练和验证；将训练好的模型对K+1 份图像进行特征提取，在提高了推理速度的同时还增强了模型对特征的表达能力。由于改进后的模型自适应合并机制，因此K+1份图像最终会输出为一个特征向量，将这一个特征向量作为当前关键帧的特征。

步骤4：检索视频关键帧特征相似检索，引入Faiss检索，如图3所示。

A、建立视频特征库

给定一个原始视频数据库，将原始视频进行排序，针对每个视频建立一个对应的视频索引VID(Video Index)。

随后经过由步骤1～3进行视频特征提取，生成所有原始视频对应的所有关键帧向量。随后由Faiss(Facebook AI Similarity Search，Facebook的一个开源库)将这些特征向量建立一个对应的特征库，会对每一个特征向量建立一个索引FID，每一个特征向量有且仅有一个FID，用来记录特征向量的同时，也可以更好地与视频的VID做一个对应关系。传统的检索方式通过遍历所有的样本来检索相似距离，一般只能适用小数据量的检索，当数据量达到百万、千万或者亿级别的时候，会使得整个检索的过程变得非常慢，因此本发明中引入Faiss来代替传统的检索方式对视频进行建库检索，解决大数据量所带来的问题，在不改变检索结果的同时，能够更加高效的检索数据。

B、计算特征与视频特征库的相似距离

将关键帧提取到的检索视频的关键帧特征向量与Faiss特征库内各个视频关键帧的特征向量分别通过欧式距离计算确定相似距离，根据距离排序，距离越小表明两个关键帧越相似，越大越不相似；随后返回检索视频的各个关键帧对应匹配到的前W个相似特征向量Top_W 的FID与相似距离SD构成对应的W个二元组FSDT(FID，SD)，再由特征向量FID找到对应库视频的VID，构成W个新的二元组VSDT(VID，SD)；通过每一个关键帧检索得到视频对应的N个VSDT，将其汇总在一起定为N-VSDT(维度为：N*W*2)。

上述VID(Video Index)表示视频的索引号；FID(Feature Index)表示特征向量的索引号；FSDT(Feature Similar Distance Tuple)表示特征与相似距离的构成的二元组；VSDT(Video Similar Distance Tuple)表示匹配对应的视频与特征相似距离构成的二元组；N-VSDT表示有 N个VSDT组成的N维数据。

步骤5：帧间结果后处理。

由于视频有的关键帧因为抖动、光线等噪音会对特征匹配结果产生一些抖动，因此为了解决这种抖动问题，引入了矫正机制，将每一帧的结果VSDT重新进行修正。对于视频检索的结果，建立左右窗口，对当前的帧的结果由前后帧的结果共同决定，从而解决抖动对最终结果产生的影响；由于视频是采用关键帧特征匹配的方式，所以关系是关键帧-视频，为了使关系调整为视频-视频同时表达两个视频之间相似的置信度，引入了Softmax机制。将矫正后的结果送给Softmax最后输出视频与视频之间的相似的置信度是多少，然后通过置信度来过滤一些检索不确定的结果，增加检索的准确率。具体方法为：

本发明的帧间后处理流程如图4所示，用检索之后的相似视频结果N-VSDT作为帧间后处理的输入，将N-VSDT用SD-T阈值进行判断，这里面的SD-T：表示相似距离阈值(Simulation Distance Threshold)；如果VSDT中的相似距离SD小于阈值SD-T，则保留作为矫正关键帧的输入，如果SD大于阈值SD-T，表明两个视频之间的相似程度比较低，则丢弃当前的VSDT，因此过滤掉一些相似距离不满足阈值的视频，提高矫正的精准度。建立左窗口(为：L1)和右窗口(帧窗口长度为：L2)，当前帧的结果(当前帧W个VSDT经过处理后对应的唯一 VID)由左右两窗口与当前帧的W个VSDT共同决定，L1窗口投票选出前W个相似视频 VID_L(0，1，2…W)，其中VID_L0表示最优相似视频，VID_L1表示次优，以此类推VID_LW 表示最后一个相似VID；L2窗口也投票选出前W个相似视频VID_R(0，1，2…W)，当前帧匹配的结果(VID_C)的结果如下：

(1)如果VID_L0与VID_R0的结果相同，则VID_C等于VID_L0；

(2)如果VID_L0与VID_R0不相同，则有：

a)如果VID_C与VID_L0相同，则VID_C等于VID_L0；

b)如果VID_C与VID_R0相同，则VID_C等于VID_R0；

c)如果VID_C即不等于VID_L0，也不等于VID_R0，则按着相似级别VID_LW与 VID_RW不断迭代(1)与(2)过程，直到确定VID_C的结果。

因为每帧的前后帧数不一样，所以导致了有的前后帧数会小于左右窗口大小，所以为了解决这种情况，这里引入了一个分段函数来自适应解决这个问题，能够根据帧数的长度自动调节左右窗口的大小。分段函数为：

其中，L表示窗口长度，x表示前后帧数长度。

矫正好每一帧的结果之后，输入到Softmax函数，按着置信度由大到小排序输出相似视频的VID，再通过置信度阈值Conf决定匹配到相似视频。

Softmax公式表示为：

其中，x_i表示每类VID统计的数量，N表示匹配了多少类的VID，p(conf|x_i)表示每类VID对应的置信度是多少。

本发明基于注意力机制的卷积神经网络相似视频检索方法，通过采用块结构将视频由原来的一帧帧抽取图像变成了一段抽取一张图像，在不降低视频的多样性特征的同时，极大的提升了检索效率，效率的提升取决于块的大小，而块的大小取决于两个关键帧之间距离，而确定两个关键帧是由相似距离动态确定的；例如：如果一个静止的画面，可能100或者更多帧才取一个关键帧，但是如果帧间变化比较大，也有可能2-3帧就取一个关键帧，如果100 帧取一个关键帧，则提速100倍(剩下99帧会被丢弃，不处理)。

同时本发明通过加入位置注意力机制和自适应合并机制，改进了特征提取模型的网络结构，使得模型能够获取到更加丰富的特征同时提高模型的泛化能力；位置注意力机制使得模型更加关注图像的重点区域，从而降低对一些干扰区域的响应，提高模型的泛化能力；自适应合并机制通过融合K个局部特征和1个全局特征，使得模型提取的特征能够同时融合局部与全局特征，极大程度上丰富了提取到的特征值。如图5所示，左图为没有加入注意力机制与自适应合并机制的模型关注特征的地方；右图为改进模型之后，模型关注特征的地方(虚线圈出区域为模型关注的地方)；

进一步本发明通过帧间后处理，采用窗口与矫正机制，进一步的降低了模型带来的误差，提升了检索的准确率，而又通过Softmax机制将每一帧的匹配结果转换成对应的置信度，能够更好的给检索一个直观的判断，然后通过阈值的筛选，可以极大的提升检索的准确率。(以下是在数据集(20万个视频建库，3000个经过变化的视频)上测试的结果：不加后处理：召回率(Recall)：85.6％，精准度(precision)：91.4％,F1-Score：88.40％；加入后处理之后：召回率(Recall)：90.5％，精准度(precision)：96.7％,F1-Score：93.49％。

Claims

1.一种基于注意力机制的卷积神经网络相似视频检索方法，其特征在于：具体步骤如下：

步骤1：检索视频的关键帧抽取；

步骤2：检索视频的关键帧图像处理，通过去纯色算法和增强图像整体与局部特征；同时将关键帧图像K等分，将分割后的图像缩放到原图大小；加上分割前的关键帧图像，总共是K+1张图像；并对K+1份图像分别做归一化处理，使得每张图像的数值满足标准正态分布；

上述去纯色算法表示的是抽取图像对角线像素，然后判断该对角点对应的行列元素平均值是否等于对角像素值，若相等，则去掉纯色行或列，否则保留对应行或列；

步骤3：关键帧特征提取；

步骤4：采用Faiss检索，进行检索视频的关键帧特征相似检索；

步骤5：帧间结果后处理；

通过矫正机制将检索视频每一帧的检索结果重新进行修正，使每个关键帧仅对应一个索引号；将所有的结果按着相同的索引号进行统计，经过Softmax机制，最后返回检索到相似视频的置信度。

2.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法，其特征在于：步骤1中，关键帧抽取采用块结构，将块抽取的一帧画面称为关键帧，方法为：将首个不是纯色的视频画面作为视频的起始关键帧；在确定起始关键帧后，每一个块抽取一帧画面；

其中，h表示图像的高，w表示图像的宽，P1(x,y)与P2(x,y)分别表示两个图像的对坐标(x,y)像素值，SD表示相似距离；

若当前帧与前一关键帧的相似距离小于阈值DT时，则丢弃当前帧，继续计算下一帧与当前关键帧的相似距离；若当前帧与前一关键帧的相似距离大于阈值DT时，则将当前帧记录为关键帧；以此类推，抽取出视频的所有关键帧。

3.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法，其特征在于：步骤3中使用改进的ResNet-50进行关键帧特征提取；改进的ResNet-50引入位置注意力机制、自适应合并机制，同时将ResNet-50原始的全连接层换成卷积层；由训练好的改进的ResNet-50对K+1份图像进行特征提取，输出一个特征向量作为当前关键帧的特征。

4.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法，其特征在于：步骤4中检索视频的关键帧特征相似检索的具体方法为：

A、建立视频特征库

给定一个原始视频数据库，将原始视频进行排序，针对每个视频建立一个对应的视频索引VID；

随后经过由步骤1～3进行视频特征提取，生成所有原始视频对应的所有关键帧特征向量；随后由Faiss将生成的特征向量建立对应的特征库，对每一个特征向量建立一个索引FID；

B、计算检索视频与视频特征库中视频的关键帧特征向量相似距离；

将检索视频的关键帧特征向量与Faiss特征库内各个视频关键帧的特征向量分别计算欧氏距离，返回检索视频的各个关键帧对应匹配到的前W个相似特征向量的FID与相似距离，构成W个包含FID与相似距离的二元组A；再根据FID找到对应视频的VID，构成W个包含VID与相似距离的二元组B，然后将N个检索视频的关键帧对应的N*W个二元组B汇总。

5.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法，其特征在于：步骤5中帧间结果后处理的具体方法为：

将检索之后的相似视频结果作为帧间后处理的输入，进行判断，如果结果中的相似距离小于阈值，则保留作为矫正关键帧的输入；如果SD大于阈值SD-T，表明两个视频之间的相似程度比较低，则丢弃当前的结果；

随后建立左窗口和右窗口，由左窗口投票选出前W个相似视频的VID_L(0，1，2…W)，其中，VID_L0表示最优相似视频，VID_L1表示次优，以此类推VID_LW表示最后一个相似VID；L2窗口同样投票选出前W个相似视频VID_R(0，1，2…W)，则当前帧匹配的结果VID_C如下：

(1)如果VID_L0与VID_R0的结果相同，则VID_C等于VID_L0；

(2)如果VID_L0与VID_R0不相同，则有：

a)如果VID_C与VID_L0相同，则VID_C等于VID_L0；

b)如果VID_C与VID_R0相同，则VID_C等于VID_R0；

c)如果VID_C即不等于VID_L0，也不等于VID_R0，则按着相似级别VID_LW与VID_RW不断迭代(1)与(2)过程，直到确定VID_C的结果。

6.如权利要求5所述一种基于注意力机制的卷积神经网络相似视频检索方法，其特征在于：引入分段函数来自适应解决视频前后帧数小于左右窗口大小，分段函数为：

其中，L表示窗口长度，x表示前后帧数长度。