CN110287879B

CN110287879B - 一种基于注意力机制的视频行为识别方法

Info

Publication number: CN110287879B
Application number: CN201910558302.3A
Authority: CN
Inventors: 雷建军; 贾亚龙; 彭勃; 宋宇欣; 杨博兰; 李鑫宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2023-01-17
Anticipated expiration: 2039-06-26
Also published as: CN110287879A

Abstract

本发明公开了一种基于注意力机制的视频行为识别方法，所述方法包括以下步骤：通过卷积神经网络从视频样本中提取所需的帧级特征表达；对视频张量进行空域全局平均处理，融合特征中的空域信息，以获取不同帧的通道级特征表达作为待优化特征，并将其聚合为视频级特征表达，加强注意力得分提取过程中的帧间信息交互；利用本发明提出的通道级时域注意力提取方法，为视频帧级表达中每一个通道都计算出描述其重要程度的分值，同时对视频中不同帧特征和帧级特征中不同通道进行重要程度的区分，突出不同通道上的关键信息；使用加权求和的方式，优化视频级特征表达。本方法通过对帧级特征表达中不同通道的重要程度进行细粒度区分，从而更充分地保留视频特征表达中的关键信息，以实现对视频特征表达的进一步优化。

Description

一种基于注意力机制的视频行为识别方法

技术领域

本发明涉及深度学习、模式识别领域，尤其涉及一种基于注意力机制的视频行为识别方法。

背景技术

近年来，随着信息技术以及多媒体技术的发展，网络中视频数量呈指数爆炸趋势增加，如何使计算机智能、高效、准确地理解视频内容成为研究热点。视频行为识别旨在使计算机准确理解视频内容，并依据视频内容对视频进行类别划分，目前已成为计算机视觉与模式识别领域的热门课题之一。视频行为识别方法通过将原始视频数据映射到特征空间以获取视频的特征表达，依据该特征表达实现对视频中行为模式的准确分类。因此，如何提取到能够准确表示视频内容的特征表达，尤其是能够准确描述视频中行为模式的特征表达，是视频行为识别任务需要解决的关键问题。

注意力机制是人类视觉所特有的大脑信号处理机制，其使得人们可以快速地获取场景中的关键信息。为了使计算机在理解视频内容时更关注行为相关的关键信息，研究人员将注意力机制引入到了视频行为识别任务中。注意力机制通过提取特征表达中各部分的注意力得分，并将其作为融合权重，实现对原始特征的优化。经过注意力机制优化后的特征表达，能够有效地突出原始数据中的重要成分，从而使其更适应对应任务的要求。

现有的应用于视频行为识别方法中的注意力机制主要包括：空域注意力机制和时域注意力机制。其中，空域注意力机制用于区分每一帧中不同位置的重要程度，时域注意力机制用于区分不同帧的重要程度。Du等人在特征提取中同时考虑了空域注意力和时域注意力。Liu等人使用一种迭代地思想，不断对时域注意力得分进行优化。Long等人提出注意力聚类的思想，使用多个注意力模块来关注特征表达中不同角度的重要信息。Du等人使用特征金字塔来提取空时注意力得分，以提高行为识别性能。

现有的基于注意力机制的视频行为识别方法存在以下缺点与不足：

视频特征通常由多帧的特征表达组成，其中帧级特征表达包含多个通道，不同通道特征的计算过程是相互独立的，其包含的信息也是有差异的。现有技术在提取注意力得分的过程中通常将帧级的特征表达看做一个整体，而忽略了不同通道之间的差异性。

发明内容

本发明提供了一种基于注意力机制的视频行为识别方法，通过对帧级特征表达的不同通道进行细粒度区分，从而更充分地保留视频特征表达中的关键信息，以实现对视频特征表达的进一步优化，详见下文描述：

一种基于注意力机制的视频行为识别方法，所述方法包括以下步骤：

采样视频帧，通过卷积神经网络从视频样本中提取所需的帧级特征表达；

对视频张量进行空域全局平均处理，融合特征中的空域信息，以获取不同帧的通道级特征表达，该通道级特征表达作为待优化特征；将该通道级特征表达聚合为视频级特征表达，该视频级特征表达将用于注意力得分的提取，加强帧间信息交互；

利用通道级时域注意力提取方法，计算出与所提取的帧级特征表达相对应的通道级时域注意力得分，该分值能够比较不同帧对于识别视频内目标行为的重要程度，同时能对单一帧内的不同通道进行重要程度的区分，突出不同通道上的关键信息；

将所获得的注意力得分作为权重系数，使用加权求和，将帧级特征表达融合为视频级特征表达，实现特征表达的优化。

其中，所述获取不同帧的通道级特征表达，并将其聚合为视频级特征表达具体为：

其中，[·]表示沿通道的特征级联操作，该过程将不同帧的特征表达聚合成完整的视频特征表达，

为第i个视频中所采样第T帧的通道级特征表达。

进一步地，所述通道级时域注意力提取具体为：

其中，

表示第一个全连接层的权重与偏置，

表示第二个全连接层的权重与偏置，σ(·)表示ReLU激活函数；输出

表示帧级特征表达

的注意力得分，

表示帧级特征表达

中第c通道的注意力得分。

其中，所述方法还包括：

使用softmax函数对注意力得分进行归一化处理，该处理沿时域进行，各通道间相互独立。

本发明提供的技术方案的有益效果是：

1、本发明通过提取视频帧级特征表达的通道级时域注意力得分，对不同帧和不同通道的重要程度进行区分，实现原始视频特征表达的细粒度优化，提升视频行为识别的性能；

2、本发明挖掘视频特征表达中不同通道间信息的差异，获取视频帧级特征表达的通道级时域注意力得分，优化视频特征表达。

附图说明

图1为一种基于注意力机制的视频行为识别方法的流程图；

图2为识别结果的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提出了一种基于注意力机制的视频行为识别方法，参见图1，该方法包括以下步骤：

首先提取视频的帧级特征表达，然后对其进行预处理，预处理包括：使用全局空域平均融合帧级特征表达中的空域信息，然后将各帧的特征表达聚合为视频级的特征表达，使得注意力得分提取的过程中能够参考到完整的视频信息。基于该视频级的特征表达，本发明实施例设计了一种通道级时域注意力得分提取模块，用于同时对不同帧和不同通道的重要程度进行区分。最后，将所提取的注意力得分作为融合权重，使用加权求和的方式，将帧级特征表达融合为视频特征表达，该具体实现步骤如下：

一、从视频样本中提取固定数量的帧：

本发明实施例旨在利用注意力机制，在将帧级特征表达融合为视频特征表达时，有效地突出视频特征表达中与目标行为相关性强的信息，减弱视频特征表达中与目标行为无关的信息。本发明实施例使用卷积神经网络提取帧级特征表达，流程如下：

设视频数据集V＝{v₁,v₂,…,v_n}包含n个视频样本，v_i表示数据集中第i个视频，一个视频样本由若干有序的视频帧组成。出于视频帧间信息冗余性以及计算复杂度的考量，本发明实施例中对视频帧进行稀疏采样操作：首先将视频分为等长的T段序列，然后从每一段序列中随机采样一帧图像。用f_t ⁱ表示第i个视频中采样到的第t帧图像，则视频内容可以表示为：

对视频帧f_t ⁱ使用卷积神经网络对其进行特征表达提取，所对应的特征表达表示为

其中H,W表示特征表达的空间大小，C表示特征表达的通道维度，则视频v_i可以由帧级特征表达表示：

为视频v_i中所采样第T帧的特征表达，即所采样的最后一帧的特征表达。

二、聚合帧级信息，生成视频特征表达

本发明实施例旨在通过区分视频特征中不同部分对于准确识别该视频内行为的重要程度，实现视频特征的优化，提高视频行为识别的性能。特别地，本发明实施例能够区分视频中不同帧特征以及帧级特征的不同通道的重要程度。首先对所提取的3维视频张量进行空域全局平均处理，融合特征中的空域信息，以获取不同帧的通道级特征表达；然后将不同帧的通道级特征表达聚合为视频级的特征表达，使得在注意力得分的提取过程中，能够参考完整的视频信息。

1)空域信息融合

为了将不同空间位置的信息融合，以得到各帧的通道级特征表达，首先对帧级特征表达

的每一个通道单独做全局空间平均，该过程用公式表示为：

其中，

为第i个视频中第t帧图像对应的通道级特征表达，H为帧级特征表达

的高，W为帧级特征表达

的宽，

为帧级特征表达

中(h,w)位置的元素。该操作消除了每一帧中的空间结构信息，获取视频帧的通道级特征表达。该通道级特征表达将作为待优化的特征，经通道级时域注意力优化后转换为视频特征表达。

2)时域信息聚合

为了获取用于提取注意力得分的视频特征表达，以使得每一个注意力得分的计算过程都参考完整的视频信息，本发明实施例设计了时域信息聚合，用于将上述的帧级特征表达聚合为视频特征表达，该过程可表示为：

为第i个视频中所采样第T帧的通道级特征表达。该视频特征表达由所有采样帧的通道级特征表达组合而成，包含了整个视频的信息，其将用于通道级时域注意力的提取，加强注意力提取过程中的帧间信息交互。

三、提取通道级时域注意力得分

为了同时区分视频中不同帧特征以及帧级特征中不同通道的重要程度，本发明实施例设计了一种注意力得分提取方法，称为通道级时域注意力提取方法，该方法能够为帧级特征表达中每一个通道都计算出一个描述其重要程度的分值，同时对视频中不同帧特征以及帧级特征中不同通道进行重要程度的比较，从而突出不同通道上的关键信息。

首先，基于上一步中获得的视频特征表达X^i*，本发明实施例设计了一种注意力得分提取方法以获取通道级时域注意力得分，注意力得分的获取过程可表示为：

该方法由两层全连接层实现，其中

表示第一个全连接层的权重与偏置，

表示第二个全连接层的权重与偏置，σ(·)表示ReLU激活函数。

输出

描述帧级特征表达

的注意力得分，其中

表示帧级特征表达

中第c通道的注意力得分。注意力得分

各通道与帧级特征表达

相对应，其值描述该帧中各通道对于行为识别的绝对重要程度。

为了获取单峰值(one-hot)的相对注意力得分，使用softmax函数对上述注意力得分进行归一化处理，该过程表示为：

其中，

为帧级特征表达

中第_c通道的注意力得分。

经过归一化后，帧级特征表达

的相对注意力得分表示为：

其中

表示帧级特征表达

中第c通道的相对注意力得分，其满足条件

该操作沿时域进行，同时各通道间相互独立，使得不同通道的重要信息能够同时被关注。

四、使用注意力得分优化原始视频特征

基于上述步骤获取的注意力得分，本发明实施例将上面获得的相对注意力得分作为权重，使用加权求和的方式，将帧级的特征表达

融合为视频特征表达

该过程能够提高关键信息在视频特征表达中的占比，降低非相关信息对行为识别的影响，从而实现视频特征表达的优化。该过程表示为：

其中，

表示元素级的乘积运算，

为表示帧级特征表达

的相对注意力得分。

五、基于优化后的视频特征表达，实现行为识别

本发明实施例旨在通过注意力机制实现视频特征表达的优化，最终提高视频行为识别的性能。基于上述优化后的视频特征表达

本发明实施例使用全连接层实现行为识别，该过程可表示为：

其中，W_c和b_c分别表示全连接层的偏置，

表示第i个视频的分类概率向量，

表示第i个视频属于第N类的概率值，N表示数据集中视频行为总类别数。clsⁱ表示识别结果中第i个视频所属的类别索引。

实施例2

下面结合图2对实施例1中的方案进行可行性验证，详见下文描述：

图像为从视频样本中截取的帧，各帧下方的标注为对应视频所属的正确类别。帧右侧的柱状图为本发明实施例的识别结果中概率排名前五位的类别。从图2中可以看出，本发明实施例可以准确地识别视频中目标的行为。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。