CN106709461B

CN106709461B - 基于视频的行为识别方法及装置

Info

Publication number: CN106709461B
Application number: CN201611239337.3A
Authority: CN
Inventors: 乔宇; 杜文斌; 王亚立
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2019-09-17
Anticipated expiration: 2036-12-28
Also published as: CN106709461A

Abstract

本发明适用于计算机科学技术领域，提供了基于视频的行为识别方法及装置，包括：提取所有采样时刻视频帧的深度特征，所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征；基于所述采样时刻视频帧的细节特征，获取用于表达当前时刻视频帧的行为的时空特征；将所述时空特征与所述高层语义特征一同输入LSTM模型，以对所述当前时刻视频帧进行行为识别。本发明使时空特征和高层语义特征互补协作，以增强RNN识别复杂行为的能力。

Description

基于视频的行为识别方法及装置

技术领域

本发明属于计算机科学技术领域，尤其涉及基于视频的行为识别方法及装置。

背景技术

近年来，递归神经网络(Recurrent Neural Network，RNN)因其有效的序列建模能力而被广泛应用于视频中的行为识别。现有技术中，RNN将视频各帧的高层语义特征作为各个时刻的输入，进行序列模型训练，然而，使用高层语义特征，通常会对复杂行为的细节位置信息造成忽略，因此限制了RNN的行为识别能力。

发明内容

有鉴于此，本发明实施例提供了基于视频的行为识别方法及装置，以解决现有技术中基于RNN的行为识别技术对于复杂行为的识别能力低的问题。

第一方面，提供了一种基于视频的行为识别方法，包括：

提取所有采样时刻视频帧的深度特征，所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征；

基于所述采样时刻视频帧的细节特征，获取用于表达当前时刻视频帧的行为的时空特征；

将所述时空特征与所述高层语义特征一同输入LSTM模型，以对所述当前时刻视频帧进行行为识别。

第二方面，提供了一种基于视频的行为识别装置，包括：

提取单元，用于提取所有采样时刻视频帧的深度特征，所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征；

时空特征获取单元，基于所述采样时刻视频帧的细节特征，获取用于表达当前时刻视频帧的行为的时空特征；

行为识别单元，用于将所述时空特征与所述高层语义特征一同输入LSTM模型，以对所述当前时刻视频帧进行行为识别。

本发明实施例通过在RNN结构中导入时空注意机制，使得RNN在每一时刻从全局视频范围内自主学习一个与当前时刻视频帧行为密切相关的时空特征。该时空特征包含有关当前时刻视频帧行为的重要细节信息，并与当前时刻视频帧的高层语义特征有着较强的互补性，使得时空特征和高层语义特征可以在RNN每一时刻的行为建模中互补协作，以增强RNN识别复杂行为的能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于视频的行为识别方法的实现流程图；

图2是本发明实施例提供的基于视频的行为识别装置的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明实施例提供了一种基于递归时空注意网络的行为识别方法，通过在RNN结构中导入时空注意机制，使得RNN在每一时刻从全局视频范围内自主学习一个与当前时刻视频帧行为密切相关的时空特征，这样一来，该时空特征能够包含有关当前时刻视频帧行为的重要细节信息，并与当前时刻视频帧的高层语义特征有着较强的互补性，使得时空特征和高层语义特征可以在RNN每一时刻的行为建模中互补协作，以增强RNN识别复杂行为的能力。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本发明实施例提供的基于视频的行为识别方法的实现流程，详述如下：

在S101中，提取所有采样时刻视频帧的深度特征，所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征。

优选地，作为本发明的一个实施例，可以基于双流卷积神经网络(Two-StreamCNNs)提取所有采样时刻视频帧的深度特征。具体地，可以选用VGG-16结构的双流CNNs作为特征抽取器，将每一个采样的视频帧对应的RGB图像和叠加光流图像分别输入外形流CNN和运动流CNN，并针对每一流的CNN，对第t个视频帧(即当前时刻视频帧)(t＝1,…,T)进行深度特征抽取，包括：

1、提取CNN最后一个卷积层池化后的特征立方体其中，K×K是最后一个卷积层每个特征图的长和宽，d是最后一个卷积层的特征图个数，在此，将该特征立方体表示为其各个空间位置的特征向量集合：当*为a时，是外形流CNN的卷积层特征，当*为m时，是运动流CNN的卷积层特征。此时，提取出的特征作为视频帧中行为的细节特征。

2、CNN第一个全连接层的特征向量其中，当*为a时，是外形流CNN的全连接层特征，当*为m时，是运动流CNN的全连接层特征。此时，提取出的特征作为视频帧中行为的高层语义特征。

在S102中，基于所述采样时刻视频帧的细节特征，获取用于表达当前时刻视频帧的行为的时空特征。

具体地，从双流CNN中得到各个采样视频帧的深度特征后，采用长短时记忆神经网络(Long Short Term Memory，LSTM)作为时空注意机制的载体，为RNN定义一个时空注意机制，以得到当前时刻视频帧的时空特征。

定义时空注意机制的过程如下：

首先，以LSTM上一时刻的隐藏状态为引导，基于所有视频帧的特征立方体，估计各个空间位置的特征向量对于当前时刻视频帧行为识别的重要性：其中，是CV^*(n,k)对于当前时刻视频帧重要性的未归一化空间权重分数，CV^*(n,k)是第n个时刻视频帧(n＝1,…,T)的特征立方体的第k个位置(k＝1,…,K²)的特征向量，是空间注意机制的模型参数。

然后，针对第n个时刻视频帧的特征立方体，对进行归一化处理：其中，γ_α是控制空间注意机制分数分布的形状参数。

通过将外形流和运动流的空间权重分数取最大值，以融合不同流的空间重要性：并计算所述当前时刻视频帧在外形流与运动流的行为的空间特征：

。在得到关于当前时刻视频帧的T个空间特征后，以LSTM上一时刻的隐藏状态为引导，分别估计各个空间特征对于当前时刻视频帧的重要性：并对其进行归一化，得到：其中和分别是第n个空间特征对于当前时刻视频帧重要性的未归一化时间权重分数和归一化时间权重分数，是时间注意机制的模型参数。

通过将外形流和运动流的时间权重分数取最大值，以融合不同流的时间重要性：并将与带入为外形流和运动流分别计算时空特征

在S103中，将所述时空特征与所述高层语义特征一同输入LSTM模型，以对所述当前时刻视频帧进行行为识别。

。在获取到每一时刻的时空特征之后，将时空特征作为除高层语义特征之外的额外输入，与高层语义特征一道输入LSTM模型。具体地，LSTM模型可以为：

其中，若*为a，则LSTM模型代表了外形流LSTM，若*为m，则LSTM模型代表了运动流LSTM。U和b的集合是LSTM的模型参数，σ(·)和tanh(·)是sigmoid和tanh函数，⊙表示对应元素相乘，和分别为输入门、遗忘门和输出门，和分别表示待选记忆单元、记忆单元和隐藏状态，x是LSTM模型的输入，即CNN全连接层的特征

由于时空特征包含关于当前时刻视频帧中行为的重要全局上下文细节信息，因此它与当前时刻视频帧的高层语义特征之间有很强的互补性，所以，这两种特征相互合作，能够增强LSTM模型在每一时刻对行为的判别能力。另外，外形流和运动流的时空注意机制融合，使得外形流与运动流中的时空注意机制相互帮助，促进外形流RNN与运动流RNN形成一个有机整体，从而进一步地增强了模型的行为表达能力。

最后，为了通过一种端对端的统一方式来训练网络，外形流LSTM与运动流LSTM的当前隐藏状态和共同被用于计算行为识别的预测概率向量：其中{W_a,W_m,b_am}是对应的模型参数。训练网络的总损失函数为：L_total＝L_main+λ_AAL_AA，其中主损失函数是带有权重衰减的交叉熵：C是行为的类别个数，T是总的时刻的个数，Θ代表所有的模型参数，λ_Θ是权重衰减的系数，y_t,c代表真实的行为类别标签。另外，作为本发明的一个实施例，由于视频中的行为通常发生在动作人的周围，因此，可以定义一个基于动作人的注意正则项：其中，λ_AA为正则项系数，是空间注意机制的外形流和运动流融合的融合权重分数，M(t,·)是视频中动作人的剪影或者边界框。这样，时空注意机制在每一时刻会更加关注当前时刻动作人的周围区域，以进一步地辅助进行行为识别，提高行为识别的准确率。

对应于上文实施例所述的基于视频的行为识别方法，图2示出了本发明实施例提供的基于视频的行为识别装置的结构框图，为了便于说明，仅示出了与本实施例相关的部分。

参照图2，该装置包括：

提取单元21，用于提取所有采样时刻视频帧的深度特征，所述深度特征包括所述采样时刻视频帧中行为的高层语义特征和细节特征；

时空特征获取单元22，基于所述采样时刻视频帧的细节特征，获取用于表达当前时刻视频帧的行为的时空特征；

行为识别单元23，用于将所述时空特征与所述高层语义特征一同输入LSTM模型，以对所述当前时刻视频帧进行行为识别。

可选地，所述提取单元21包括：

输入子单元，用于将所述采样时刻视频帧的RGB图像和叠加光流图像分别输入双流卷积神经网络的外形流和运动流；

卷积特征提取子单元，用于提取卷积神经网络最后一个卷积层池化后的特征立方体以作为第t时刻视频帧中行为的细节特征，其中，K×K是所述最后一个卷积层每个特征图的长和宽，d是所述最后一个卷积层的特征图个数，当*为a时，是外形流卷积神经网络的卷积层特征，当*为m时，是运动流卷积神经网络的卷积层特征；

全连接特征提取子单元，用于提取卷积神经网络第一个全连接层的特征向量以作为第t时刻视频帧中行为的高层语义特征，其中，当*为a时，是外形流卷积神经网络的全连接层特征，当*为m时，是运动流卷积神经网络的全连接层特征。

可选地，所述时空特征获取单元22包括：

空间子单元，用于以长短时记忆神经网络LSTM上一时刻的隐藏状态为引导，基于所有采样视频帧的所述特征立方体，估计各个空间位置的特征向量对于当前第t时刻视频帧行为识别的重要性：其中，是CV^*(n,k)对于当前第t时刻视频帧重要性的未归一化空间权重分数，CV^*(n,k)是第n个时刻视频帧(n＝1,…,T)的所述特征立方体的第k个位置(k＝1,…,K²)的特征向量，是空间注意机制的模型参数；针对第n个时刻视频帧的所述特征立方体，对进行归一化处理：其中，γ_α是控制空间注意机制分数分布的形状参数；通过将外形流和运动流的空间权重分数取最大值，以融合不同流的空间重要性：并计算所述当前时刻视频帧在外形流与运动流的行为的空间特征：

时间子单元，用于在得到关于所述当前时刻视频帧的T个空间特征后，以为引导，分别估计各个空间特征对于所述当前时刻视频帧重要性的时间权重分数：并对其进行归一化得到：其中是时间注意机制的模型参数。通过将外形流和运动流的时间权重分数取最大值，以融合不同流的时间重要性：并将与带入为外形流和运动流分别计算时空特征

可选地，所述行为识别单元23包括：

预测输出获取子单元，将外形流和运动流的时空特征分别输入LSTM模型，以分别获取外形流LSTM与运动流LSTM的当前隐藏状态和以计算行为识别的预测概率向量：其中{W_a,W_m,b_am}是对应的模型参数。

模型训练子单元，基于总损失函数L_total＝L_main+λ_AAL_AA训练网络，其中主损失函数是带有权重衰减的交叉熵： C是行为的类别个数，T是总的时刻的个数，Θ代表所有的模型参数，λ_Θ是权重衰减的系数，y_t,c代表真实的行为类别标签，额外损失函数为基于动作人的注意正则项：其中是空间注意机制的外形流和运动流融合的融合权重分数，M(t,·)是视频中动作人的剪影或者边界框，λ_AA为正则项系数。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频的行为识别方法，其特征在于，包括：

将所述时空特征与所述高层语义特征一同输入LSTM模型，以对所述当前时刻视频帧进行行为识别；

所述基于所述采样时刻视频帧的细节特征，获取用于表达当前时刻视频帧的行为的时空特征，包括：

以长短时记忆神经网络LSTM上一时刻的隐藏状态为引导，基于所有采样视频帧的所述特征立方体，估计各个空间位置的特征向量对于当前第t时刻视频帧行为识别的重要性：其中，是CV^*(n,k)对于当前第t时刻视频帧重要性的未归一化空间权重分数，CV^*(n,k)是第n个时刻视频帧的所述特征立方体的第k个位置的特征向量，n＝1,…,T，k＝1,…,K²，是空间注意机制的模型参数；

针对第n个时刻视频帧的所述特征立方体，对进行归一化处理：其中，γ_α是控制空间注意机制分数分布的形状参数；

在得到关于所述当前时刻视频帧的T个空间特征后，以为引导，分别估计各个空间特征对于所述当前时刻视频帧重要性的时间权重分数：并对其进行归一化得到：是时间注意机制的模型参数；

2.如权利要求1所述的行为识别方法，其特征在于，所述提取所有采样时刻视频帧的深度特征包括：

将所述采样时刻视频帧的RGB图像和叠加光流图像分别输入双流卷积神经网络的外形流和运动流；

提取卷积神经网络最后一个卷积层池化后的特征立方体作为第t时刻视频帧中行为的细节特征，其中，K×K是所述最后一个卷积层每个特征图的长和宽，d是所述最后一个卷积层的特征图个数，当*为a时，是外形流卷积神经网络的卷积层特征，当*为m时，是运动流卷积神经网络的卷积层特征；

提取卷积神经网络第一个全连接层的特征向量作为第t时刻视频帧中行为的高层语义特征，其中，当*为a时，是外形流卷积神经网络的全连接层特征，当*为m时，是运动流卷积神经网络的全连接层特征。

3.如权利要求1所述的行为识别方法，其特征在于，所述行为识别方法还包括：

将外形流和运动流的时空特征分别输入LSTM模型，以分别获取外形流LSTM与运动流LSTM的当前隐藏状态和以计算行为识别的预测概率向量：其中{W_a,W_m,b_am}是对应的模型参数；

基于总损失函数L_total＝L_main+λ_AAL_AA训练网络，其中主损失函数是带有权重衰减的交叉熵：C是行为的类别个数，T是总的时刻的个数，Θ代表所有的模型参数，λ_Θ是权重衰减的系数，y_t,c代表真实的行为类别标签，额外损失函数为基于动作人的注意正则项：其中是空间注意机制的外形流和运动流融合的融合权重分数，M(t,·)是视频中动作人的剪影或者边界框，λ_AA为正则项系数。

4.一种基于视频的行为识别装置，其特征在于，包括：

时空特征获取单元，用于基于所述采样时刻视频帧的细节特征，获取用于表达当前时刻视频帧的行为的时空特征；

行为识别单元，用于将所述时空特征与所述高层语义特征一同输入LSTM模型，以对所述当前时刻视频帧进行行为识别；

所述时空特征获取单元包括：

空间子单元，用于以长短时记忆神经网络LSTM上一时刻的隐藏状态为引导，基于所有采样视频帧的所述特征立方体，估计各个空间位置的特征向量对于当前第t时刻视频帧行为识别的重要性：其中，是CV^*(n,k)对于当前第t时刻视频帧重要性的未归一化空间权重分数，CV^*(n,k)是第n个时刻视频帧的所述特征立方体的第k个位置的特征向量，n＝1,…,T，k＝1,…,K²，是空间注意机制的模型参数；针对第n个时刻视频帧的所述特征立方体，对进行归一化处理：其中，γ_α是控制空间注意机制分数分布的形状参数；通过将外形流和运动流的空间权重分数取最大值，以融合不同流的空间重要性：并计算所述当前时刻视频帧在外形流与运动流的行为的空间特征：

时间子单元，用于在得到关于所述当前时刻视频帧的T个空间特征后，以为引导，分别估计各个空间特征对于所述当前时刻视频帧重要性的时间权重分数：并对其进行归一化得到：其中，是时间注意机制的模型参数；通过将外形流和运动流的时间权重分数取最大值，以融合不同流的时间重要性：并将与带入为外形流和运动流分别计算时空特征

5.如权利要求4所述的行为识别装置，其特征在于，所述提取单元包括：

6.如权利要求4所述的行为识别装置，其特征在于，所述行为识别装置还包括：

预测输出获取子单元，将外形流和运动流的时空特征分别输入LSTM模型，以分别获取外形流LSTM与运动流LSTM的当前隐藏状态和以计算行为识别的预测概率向量：其中{W_a,W_m,b_am}是对应的模型参数；

模型训练子单元，用于基于总损失函数L_total＝L_main+λ_AAL_AA训练网络，其中主损失函数是带有权重衰减的交叉熵： C是行为的类别个数，T是总的时刻的个数，Θ代表所有的模型参数，λ_Θ是权重衰减的系数，y_t,c代表真实的行为类别标签，额外损失函数为基于动作人的注意正则项：其中是空间注意机制的外形流和运动流融合的融合权重分数，M(t,·)是视频中动作人的剪影或者边界框，λ_AA为正则项系数。