CN111241338B

CN111241338B - 一种基于注意力机制的深度特征融合视频拷贝检测方法

Info

Publication number: CN111241338B
Application number: CN202010016290.4A
Authority: CN
Inventors: 贾宇; 沈宜; 董文杰; 张家亮; 曹亮
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-09-15
Anticipated expiration: 2040-01-08
Also published as: CN111241338A

Abstract

本发明公开了一种基于注意力机制的深度特征融合视频拷贝检测方法，包括：(1)对于视频数据抽取帧图像，然后利用不同的尺度构造图像金字塔；(2)以深度卷积神经网络模型为基础网络，并在该深度卷积神经网络模型的中间卷积层中加入注意力机制；(3)将帧图像和图像金字塔输入加入注意力机制的深度卷积神经网络模型，并通过拼接融合得到融合特征；(4)利用度量学习的方式训练深度卷积神经网络模型；(5)利用训练好的深度卷积神经网络模型，并通过相似度计算得到源视频数据。本发明利用注意力机制，以及全局特征和局部特征的融合，不仅可以解决传统图像处理方法效率低、精度低的问题，而且也能解决全局特征不能适应各种复杂变换的问题。

Description

一种基于注意力机制的深度特征融合视频拷贝检测方法

技术领域

本发明涉及多媒体信息处理技术领域，尤其是一种基于注意力机制的深度特征融合视频拷贝检测方法。

背景技术

在如今的移动互联网时代，由于多媒体视频数据的复杂性、各种视频编辑软件的出现、来源广泛等特点加大了阻止篡改视频数据肆意传播的难度。相关网络监管部门想有效的对网上多媒体视频数据进行监管，不能仅仅依靠人为监督和用户举报。

当前的解决方式是通过传统的图像处理或者全局特征提取的方法，传统算法处理效率低，而且准确度不高，而全局特征提取的方法对一般的编辑视频处理效果好，但是对于各种复杂变换的编辑视频处理效果难以达到预期。无论是传统的图像处理还是全局特征提取的方法都对于目前互联网上多媒体视频存在一定的缺陷。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种基于注意力机制的深度特征融合视频拷贝检测方法。

本发明采用的技术方案如下：

一种基于注意力机制的深度特征融合视频拷贝检测方法，包括如下步骤：

(1)数据输入：对于视频数据抽取帧图像，然后利用不同的尺度构造图像金字塔；

(2)模型构造：以深度卷积神经网络模型为基础网络，并在该深度卷积神经网络模型的中间卷积层中加入注意力机制；

(3)特征融合：将帧图像和图像金字塔输入加入注意力机制的深度卷积神经网络模型，并通过拼接融合得到融合特征；

(4)模型训练：利用度量学习的方式训练深度卷积神经网络模型；

(5)图像检索：利用训练好的深度卷积神经网络模型，并通过相似度计算得到源视频数据；

进一步，步骤(3)的方法为：

(3.1)图像金字塔通过加入注意力机制的深度卷积神经网络模型后得到深度的局部特征；

(3.2)帧图像通过加入注意力机制的深度卷积神经网络模型，抽取出中间卷积层的特征并利用池化层得到全局特征；

(3.3)将局部特征与全局特征进行拼接融合得到融合特征。

进一步，步骤(5)的方法为：

(5.1)库视频帧图像融合特征入库；

(5.2)对于需要检索的视频数据经步骤(1)处理后输入训练好的深度卷积神经网络模型，获得该需要检索的视频数据的帧图像融合特征；

(5.3)将该需要检索的视频数据的帧图像融合特征与库视频帧图像融合特征进行相似度计算；

(5.4)通过对相似度计算结果排序得到源视频数据。

进一步，所述相似度采用向量内积的方式计算。

进一步，所述帧图像为关键帧图像。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明通过基于注意力机制的深度卷积神经网络模型能够提取出有效特征，再利用全局特征和局部特征的融合使得视频帧图像得到有效的描述，不仅可以解决传统图像处理方法效率低、精度低的问题，而且也能解决全局特征不能适应各种复杂变换的问题。由此，本发明能够快速、准确的检测出各种复杂变换的编辑视频，为网络监管部门对于监管互联网上大量被篡改且肆意传播的多媒体视频数据提供了一个可行的技术方案。

2、本发明在深度卷积神经网络中加入注意力机制使得卷积特征更加适用于图像检索，同时采用度量学习的方式进行模型训练也较传统的损失函数更能找到关键数据之间的差别，使得在视频拷贝检测的过程中能最大限度的检测出源视频数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的基于注意力机制的深度特征融合视频拷贝检测方法的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

对本发明涉及的技术进行说明：

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一，长期以来是图像识别领域的核心算法之一，并在大量学习数据时有稳定的表现。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，一种基于注意力机制的深度特征融合视频拷贝检测方法，包括如下步骤：

视频数据是图像在时间上的集合，因此对于视频的处理可以通过抽取帧图像进行处理，但是由于按照时间尺度进行抽取帧数会造成很多冗余信息，作为优选方式，对于视频数据抽取关键帧图像。由此利用视频帧图像的相关性进行关键帧抽取，将相似的特征只保留一个特征，减少冗余性，提高视频数据的视觉表达。

深度卷积神经网络模型中卷积层的特征包含很多对于图像检索无用的信息，因此为了使得检索效果得到提升，应该使得对于检索有用的特征权重增加，而对于检索无用的特征权重减少，以此提升检索精度。由此本实施例在深度卷积神经网络模型的中间卷积层中加入注意力机制，使得：

A、模型训练过程中加入注意力机制的中间卷积层会根据前一层卷积层的特征得到注意力得分矩阵；

B、在得到了注意力得分矩阵之后，与之前的卷积层进行加权求和，即可得到有效特征。

具体地：

(3.2)帧图像通过加入注意力机制的深度卷积神经网络模型，抽取出中间卷积层的特征并利用池化层(Rmac、Gem、SPoc、Vlad)得到全局特征；

(3.3)将局部特征与全局特征进行拼接融合得到融合特征，以提升图像表达能力。

需要说明的是，在上述数据输入阶段，对于视频数据抽取的帧图像是关键帧图像时，对应的用于获取全局特征的帧图像也为关键帧图像。

采用度量学习的方式，使得模型训练过程中能最大程度的分辨相似图像和非相似图像的区别，在视频拷贝检测的过程中能更加有效的检测出源视频数据，减少误报率。

具体地：

(5.1)库视频帧图像融合特征入库；即预先配置库视频帧图像融合特征；其中，库视频帧图像融合特征是采用步骤(1)～(3)获得。

(5.4)通过对相似度计算结果排序得到源视频数据；

其中，所述相似度采用向量内积的方式计算，可以很大程度的提升检索速度。

需要说明的是，在上述数据输入阶段，对于视频数据抽取的帧图像是关键帧图像时，对应的所述库视频帧图像融合特征为库视频关键帧图像融合特征，该需要检索的视频数据的帧图像融合特征为该需要检索的视频数据的关键帧图像融合特征。

通过上述内容可知，本发明具有的有益效果如下：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的深度特征融合视频拷贝检测方法，其特征在于，包括如下步骤：

步骤(3)的方法为：

(3.3)将局部特征与全局特征进行拼接融合得到融合特征。

2.根据权利要求1所述的基于注意力机制的深度特征融合视频拷贝检测方法，其特征在于，步骤(5)的方法为：

(5.1)库视频帧图像融合特征入库；

(5.4)通过对相似度计算结果排序得到源视频数据。

3.根据权利要求2所述的基于注意力机制的深度特征融合视频拷贝检测方法，其特征在于，所述相似度采用向量内积的方式计算。

4.根据权利要求1-3任一项所述的基于注意力机制的深度特征融合视频拷贝检测方法，其特征在于，所述帧图像为关键帧图像。