CN113553957A

CN113553957A - 一种多尺度预测的行为识别系统及方法

Info

Publication number: CN113553957A
Application number: CN202110848704.4A
Authority: CN
Inventors: 席道亮; 许野平; 刘辰飞; 陈英鹏; 张朝瑞; 高朋; 刘明顺
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-26

Abstract

本发明公开了一种多尺度预测的行为识别系统，涉及视频理解领域。多尺寸预测的行为识别系统包括视频解码模块、视频流预处理模块、空间特征提取网络器和时空特征提取网络器，视频流预处理模块将视频解码模块处理的帧图像处理成两部分，分别输入空间特征提取网络器和时空特征提取网络器，具体步骤包括：将网络摄像头的视频流数据或者本地视频的视频流数据通过视频解码模块处理成帧图像的形式；视频流预处理模块将视频解码模块处理的帧图像处理成两部分，分别输入到空间特征提取网络器和时空特征提取网络器；将数据样本分别输入到空间特征提取网络器和时空特征提取网络器；对输出的特征图进行解码操作。

Description

一种多尺度预测的行为识别系统及方法

技术领域

本发明涉及视频理解领域，具体涉及一种多尺度预测的行为识别系统。

背景技术

视频理解一直是计算机视觉领域得一个重点热门研究对象。通过视频理解算法获取视频流对具体的人类动作分析识别动作类型和定位动作发生的空间位置。视频理解动作识别涉及模型的计算量巨大，特别是基于深度学习的行为算法对软件和硬件的要求越来越高，在高度智能化和集成化的当今社会，对行为识别算法的实时性和精度提出了一定的要求，不同尺度的特征融合可以提高精度，但是针对不同的动作类别和视频内容该种方法对精度的提升有限，不能适应不同的场景，此外，模型的单尺度输出也限制了模型的精度提升，因此解决特征的融合方式以及多尺度的预测输出方法面临的巨大的挑战，推动带有行为识别算法的人工智能产品的落地将会促进社会的进步。

专利号为2018107077110的中国专利《基于视频的行为识别方法、行为识别装置及终端设备》提出了一种基于视频的行为识别方法、行为识别装置、终端设备及计算机可读存储介质，该方法通过特征提取器对视频的RGB帧提取特征，将提出的特征输入至长短期记忆网络LSTM进行时序建模，将所述最后一个卷积层的特征输入至卷积LSTM进行时序建模；建模后输出的特征输入至联合优化层，通过联合优化层对所述视频的RGB帧进行行为识别，但是该方法识别精度较差，没有很好的泛化能力，对网络中未训练过的场景基本无识别效果，特别是背景复杂误报率较高。

专利号为2020111282295的中国专利《行为识别网络的训练、行为识别方法及相关设备》提出了一种行为识别网络的训练方法、恶意行为识别方法、电子设备及存储介质。通过获取多个第一视频帧序列，利用行为识别网络提取第一视频帧序列的第一特征，利用关键点检测网络提取第一视频帧序列的第二特征，基于第一特征和第二特征，获取行为识别网络的损失最后输出行为类别，该方法缺点在于无法对视频中的行为发生的位置进行有效定位。

论文《Temporal Context Network for Activity Localization in Videos》提出了一种时间上下文网络(TCN)，用于人类活动的预先定位。类似于Faster RCNN架构，proposal以等间隔放置在跨越多个时间尺度的视频中。由于仅在一个段内部pooling功能并不足以预测活动边界，因此构造一个表示，该表示明确捕获用于对其排名的proposal的上下文，对于每一个时间片段，将特征在一对尺度上均匀采样并且输入到时间卷积神经网络用于分类，该网络的不足之处在于当不使用上下文时，多个提议存在于真实间隔的边界内或者仅存在于真实间隔的边界处。因此，尽管位置接近实际间隔但边界不准确。当计算检测指标时，这些附近的检测结果被标记为误报，导致平均精度下降。

论文《Asynchronous Interaction Aggregation for Action Detection》提出了异步交互聚合网络(AIA)，利用不同的交互促进动作检测。其中有两个关键设计：一是交互聚合结构(IA)，采用统一的范式对多种交互类型进行建模和集成；另一种是异步记忆更新算法(AMU)，通过动态建模长时间的交互来获得更好的性能，不需要巨大的计算成本。该网络缺点在于动作检测和交互识别的性能还很不理想，不能实时定位动作发生的位置。

论文《Video Action Transformer Network》提出了一种基于Transformer的行为算法网络，该模型针对视频中的某一帧进行动作的检测和分类(此帧中包含多个人物和不同的动作，类似于目标检测)，主要的思路是借鉴transformer结构将视频中前后的信息加入最终进行分类和定位的向量。优势在于使模型能够考虑到目标之外的相关物体带来的语义信息，这对于动作的识别是十分重要的。行为识别和定位的难点通常在于推断一个人的行为时不仅需要考虑目标本身的动作，其周围的物体对于推断同样重要。缺点在于模型计算量大，无法实现边缘端的部署，只能在高性能的服务端进行应用。

发明内容

本发明的目的是针对上述不足，提出了一种分别对场景中的大中小目标进行，分析正在发生的行为类别的多尺度预测的行为识别系统。

本发明具体采用如下技术方案：

一种多尺寸预测的行为识别系统，包括视频解码模块、视频流预处理模块、空间特征提取网络和时空特征提取网络，视频流预处理模块将视频解码模块处理的帧图像处理成两部分，分别输入空间特征提取网络和时空特征提取网络，具体包括以下步骤：

步骤1，将网络摄像头的视频流数据或者本地视频的视频流数据通过视频解码模块处理成帧图像的形式。

步骤2，视频流预处理模块将视频解码模块处理的帧图像处理成两部分，分别输入到空间特征提取网络器时空特征提取网络。

优选地，步骤2中，时空特征提取网络需要输入的是组数据，组数据由N帧图像构成，N>1；视频流预处理模块输出组数据，设定N＝1时取组数据中的最后一帧输入到空间特征提取网络器，设定N>1时，将组数据输入到时空特征提取网络器获得时间特征信息；设定组数据N＝1用X表示，输入图像X是RGB三通道彩色图像，分别对每个通道的数据进行如下操作，最后对RGB三通道图像重新组合，对于图像X的通道X_R像素采用如下方法计算：

(1)X_R中的每个像素由整数转换为小数：

其中，W和H分别图像的宽和高；

(2)将图像X_R中的每个像素由实数域变换到对数域：

X_R＝log(X_R) (2)

(3)对X_R中的像素进行归一化处理并滤波操作：

X_R＝f_l(X_R) (4)

(4)对经过处理的X_R得到的结果进行反函数操作，求指数，由对数域变换到实数域：

X_R＝exp(X_R*log(255)) (5)

(5)对G通道和B通道的数据分别重复上述操作后组成新的数据：

X＝(X_R，X_G，X_B) (6)

设组数据N>1用C_i表示，i取值0到N，对组数据C_i进行数据特征的标准化操作，

求组数据的均值：

求组数据的方差：

对组数据的特征进行标准化处理：

步骤3，对空间特征提取网络和时空特征提取网络输出的特征图分别进行融合操作输出特征图，将数据样本X和C_i按照网络的要求缩放到指定尺寸大小，分别输入到空间特征提取网络和时空特征提取网络，具体包括以下步骤：

(1)将X输入到空间特征提取网络器得到不同尺寸特征图P1、P2、P3、P4、P5···Pn，特征图P1是将数据样本下采样2¹得到的，同理Pn是将数据样本下采样2ⁿ得到的。令特征图P5、P4、P3分别用空间特征向量α、β和λ表示，其中α是将输入数据X经过5次下采样操作降维得到的，特征图X的维度为C*H*W，C＝3，H和W分别为网络输入的尺寸大小，α输出经过网络的层层计算后输出维度为C′*H′*W′，其中C′的值由识别的行为识别的种类决定，H′＝H/2⁵，W′＝W/2⁵，β是将输入数据X经过4次下采样操作得到的特征图，β的空间维度为C′*H″*W″，其中该特征图的通道数与α保持一致，H″＝H/2⁴，W″＝W/2⁴，λ是将输入数据X经过3次下采样操作得到的特征图，λ的空间维度为C′*H″′*W″′，其中该特征图的通道数与α保持一致，H″′＝H/2³，W″′＝W/2³；

(2)将C_i输入到时空特征提取网络中，提取特征后输出特征图C3、C4和C5，由于时空特征提取网络输入组数据C_i为四维数据，C₁*D₁*H₁*W₁，其中C₁表示组数据中每张图片的通道数，D₁表示组数据的长度，H₁和W₁分别表示组数据中经过数据预处理后的高和宽)，时空特征提取网络为多维度深层网络，因此输出时空特征图的维度与C_i相同，维度表示为C₂*D₂*H₂*W₂，为了能够与空间特征提取网络输出的特征快速准确的融合，需要将特征图C3、C4和C5输入到维度变换模块，以特征图C5为例，令特征图C5用时空特征向量γ表示，该模块对特征图处理步骤为：

1)时空特征图输入到时空卷积核，将特征图的第2维度降为1

γ＝f_conv(γ)，(γ∈C₁*1*H₁*W₁)

2)将特征图γ输入到维度压缩单元，f_squeeze()为维度压缩函数将4维数据降低为3维数据。

3)将特征图γ通过尺度扩张单元增加宽高维度的大小，令γ的宽高与特征图C4的相等，具体操作如下：

(1)设置合适的参数令三次多项式F(x)无限逼近最好的内插函数sin(x)/x；

(2)设定尺度放大后插入的像素值用(x，y)表示，(i，j)为待插入像素点的参考像素坐标，则新像素值计算方法为：

f(x，y)＝f(i+u，j+v)＝ABC(0＜u＜1，0＜v＜1) (12)

其中：

按照上述步骤计算特征图γ中的每个像素生成γ’，输出特征图与C3、C4对应的特征图融合。

针对目标的尺度预测包括针对大目标的小尺度预测和针对中目标的中间尺度预测，针对大目标的小尺度预测过程为：

将时空特征图γ’输入到动态学习模块，该模块包含了动态学习单元和特征解码单元，动态特征融合单元如图2所示，动态学习单元将时空特征图γ’按照以下步骤操作：

1)首先时空特征向量γ’γ′∈C₁*H₁*W₁，宽高维度大小与α保持一致，即H₁＝H′，W₁＝W′。特征图γ′经过权重卷积核m滤波输出新的权重向量I，其计算公式如下：

I＝f_3*3(γ′)，(I∈C₁*H₁*W₁)

2)权重向量I经过特征化操作输出权重矩阵T，将宽高维度合并成一维向量输出权重：

T＝f_reshape(I)，T∈C₁*D，其中D的大小为H₁*W₁

3)将权重矩阵进行转置操作生成转置权重矩阵T′：

T′＝T^T

4)将矩阵T与矩阵T’相乘，生成新的不同维度的权重矩阵，将改矩阵输入到sigmoid函数，输出权重矩阵Q

Q＝Sigmoid(T﹒T’),(Q∈C₁*C₁)

5)将权重矩阵Q与特征图T相乘，生成权重矩阵Q’(Q′∈C₁*D)

6)将特征图γ′通过公式(12)生成特征矩阵E(E∈C₁*D)

7)将特征矩阵E与权重矩阵Q’相加后，按照公式11将执行reshape操作生成动态融合后的时空特征图F∈C₁*H₁*W₁

F＝f_reshape(E+Q′)

将时空特征图F与空间特征图α相加，执行空间特征和时空特征的特征融合操作：

特征图O1为时空特征提取网络与空间特征提取网络小尺寸输出即P5与C5经过特征融合后的特征图，该特征图包含了动作的类别信息和目标的尺寸位置信息；

按照上述步骤将空间特征提取网络的P4与时空特征提取网络的C4进行动态特征融合后输出特征图O2，完成对中等目标动作分类和尺寸位置编码；将空间特征提取网络的P3与时空特征提取网络的C3进行动态特征融合后输出特征图O3，完成对小目标动作分类和尺寸位置编码，本专利使用的空间特征提取网络只采用了空间特征的三种尺度的预测，根据硬件要求和实际使用环境可以适当的减少和增加输出数量，空间特征提取网络和时空特征提取网络也可以根据实际的使用环境替换为精度更好的基础网络模型。

步骤4，对输出的特征图进行解码操作，解码单元存在于动态学习模块中，其具体操作过程为：

考虑到行为的多样性，在实际场景的应用中通常单目标的多种行为，例如在走路的过程中可能发生举手等肢体动作，往往多种行为同时出现，因此在对特征融合特征图O1、O2、O3特征图进行动作分类解码时用到激活单元为sigmoid函数，该函数专门用于行为的多分类算法中，其计算方法如下：

训练中为了适应当前数据集中的类别，对于类别预测模型采用了如下损失函数，其损失值loss_c计算公式为：

loss_object＝-∑b′*lnb (17)

其中b′表示标签中的真实值，b表示模型预测的类别输出值；

位置信息损失函数损失值loss_coord计算公式：

loss_coord＝-y′*log(y)-(1-y′)*log(1-y) (18)

其中y′表示标签中真实的坐标值，y表示模型预测坐标的输出值。

本发明具有如下有益效果：

多尺度预测的行为识别系统通过对同一输入视频片段进行多次不同尺度预测，分别对场景中的大中小目标进行，分析正在发生的行为类别，解决了在实际复杂场景下漏检和误检的问题。多尺度的预测提高了对网络提取到的图片特征的利用率，增加了识别的准确率，同时在动作预测使用新的计算方法实现多标签预测，降低了误报率和漏报率，泛化能力得到提高。

附图说明

图1为一种多尺度预测的行为识别系统框图；

图2为动态特征融合单元示意图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1，一种多尺寸预测的行为识别系统，包括视频解码模块、视频流预处理模块、空间特征提取网络器和时空特征提取网络器，视频流预处理模块将视频解码模块处理的帧图像处理成两部分，分别输入空间特征提取网络器和时空特征提取网络器，具体包括以下步骤：

步骤1，将网络摄像头的视频流数据或者本地视频的视频流数据通过视频解码模块处理成帧图像的形式；

步骤2，视频流预处理模块将视频解码模块处理的帧图像处理成两部分，分别输入到空间特征提取网络器和时空特征提取网络器；

步骤3，将数据样本分别输入到空间特征提取网络器和时空特征提取网络器；对空间特征提取网络和时空特征提取网络输出的特征图分别进行融合操作输出特征图。

步骤4，对输出的特征图进行解码操作。

时空特征提取网络器需要输入的是组数据，组数据由N帧图像构成，N>1；视频流预处理模块输出组数据，设定N＝1时取组数据中的最后一帧输入到空间特征提取网络器，设定N>1时，将组数据输入到时空特征提取网络器获得时间特征信息；设定组数据N＝1用X表示，输入图像X是RGB三通道彩色图像，分别对每个通道的数据进行如下操作，最后对RGB三通道图像重新组合，对于图像X的通道X_R像素采用如下方法计算：

(1)X_R中的每个像素由整数转换为小数：

其中，W和H分别图像的宽和高；

(2)将图像X_R中的每个像素由实数域变换到对数域：

X_R＝log(X_R) (2)

(3)对X_R中的像素进行归一化处理并滤波操作：

X_R＝f_l(X_R) (4)

X_R＝exp(X_R*log(255)) (5)

X＝(X_R，X_G，X_B) (6)

求组数据的均值：

求组数据的方差：

对组数据的特征进行标准化处理：

将数据样本X和C_i按照网络的要求缩放到指定尺寸大小，分别输入到空间特征提取网络和时空特征提取网络，具体包括以下步骤：

(1)将X输入到空间特征提取网络器后获得三层输出空间特征向量α、β和λ，其中α是将输入数据X经过5次下采样操作降维得到的，特征图X的维度为C*H*W，C＝3，H和W分别为网络输入的尺寸大小，α输出经过网络的层层计算后输出维度为C′*H′*W′，其中C′的值由识别的行为识别的种类决定，H′＝H/2⁵，W′＝W/2⁵，β是将输入数据X经过4次下采样操作得到的特征图，β的空间维度为C′*H″*W″，其中该特征图的通道数与α保持一致，H″＝H/2⁴，W″＝W/2⁴，λ是将输入数据X经过3次下采样操作得到的特征图，λ的空间维度为C′*H″′*W″′，其中该特征图的通道数与α保持一致，H″′＝H/2³，W″′＝W/2³；

(2)将C_i输入到时空特征提取网络中，获得时空特征向量γ，由于时空特征提取网络输入组数据C_i为四维数据，C₁*D₁*H₁*W₁，其中C₁表示组数据中每张图片的通道数，D₁表示组数据的长度，H₁和W₁分别表示组数据中经过数据预处理后的高和宽)，时空特征提取网络为多维度深层网络，因此输出γ的维度与C_i相同，γ的维度表示为C₂*D₂*H₂*W₂，为了能够与空间特征提取网络输出的特征快速准确的融合，必须对时空特征提取网络输出的特征图进行维度压缩的操作：

f_squeeze()为维度压缩函数，在时空特征提取网络中设定相关的超参数，令最后的输出γ的第2维度的值为1。

γ同样也是将C_i中的每一张图片下采样5次得到的，因此宽高维度与空间特征向量α相同，将压缩维度后的γ与α相加：

特征图O1为时空特征提取网络与空间特征提取网络小尺寸输出即α与γ经过特征融合后的特征图，该特征图包含了动作的类别信息和目标的尺寸位置信息；

针对中目标的中间尺度预测过程为：

由于时空特征提取网络输出的特征γ的宽高维度与α是相同的，虽然经过了公式(10)的维度压缩的处理，但是该特征图的高宽维度仍然比特征图β小一倍，因此完成中间尺度的预测首先需要对公式(10)中处理过的γ进行宽高维度的尺度放大，操作步骤如下：

f(x，y)f(i+u，j+v)＝ABC(0＜u＜1，0＜v＜1) (12)

其中:

按照上述步骤计算特征图γ中的每个像素，将得到的结果γ′与空间特征提取网络输出的特征图β按照式11相加后输出特征图O2，完成对中等目标动作分类和尺寸位置编码；将γ′输入到下一个尺度扩张单元，按照上述操作进行计算输出结果γ″与空间特征提取网络输出的特征图λ按照公式11相加后输出特征图O3，完成对小目标动作分类和尺寸位置编码。

I＝f_3*3(γ′)，(I∈C₁*H₁*W₁)

T＝f_reshape(I)，T∈C₁*D，其中D的大小为H₁*W₁

3)将权重矩阵进行转置操作生成转置权重矩阵T′：

T′＝T^T

Q＝Sigmoid(T﹒T’),(Q∈C₁*C₁)

5)将权重矩阵Q与特征图T相乘，生成权重矩阵Q’(Q′∈C₁*D)

6)将特征图γ′通过公式(12)生成特征矩阵E(E∈C₁*D)

F＝f_reshape(E+Q′)

特征图O1为时空特征提取网络与空间特征提取网络小尺寸输出即P5与C5经过特征融合后的特征图，该特征图包含了动作的类别信息和目标的尺寸位置信息。

步骤4的具体过程为：

考虑到行为的多样性，在实际场景的应用中通常单目标的多种行为，例如在走路的过程中可能发生举手等肢体动作，往往多种行为同时出现，因此在对特征融合向量O1、O2、O3进行动作分类解码时用到激活单元为sigmoid函数，该函数专门用于行为的多分类算法中，其计算方法如下：

loss_object＝-∑b′*lnb (17)

位置信息损失函数损失值loss_coord计算公式：

loss_coord＝-y′*log(y)-(1-y′)*log(1-y) (18)

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种多尺寸预测的行为识别系统，其特征在于，包括视频解码模块、视频流预处理模块、空间特征提取网络和时空特征提取网络，视频流预处理模块将视频解码模块处理的帧图像处理成两部分，分别输入空间特征提取网络和时空特征提取网络，具体包括以下步骤：

步骤2，视频流预处理模块将视频解码模块处理的帧图像处理成两部分，分别输入到空间特征提取网络和时空特征提取网络；

步骤3，对空间特征提取网络和时空特征提取网络输出的特征图分别进行融合操作输出特征图；

步骤4，对输出的特征图进行解码操作。

2.如权利要求1所述的一种多尺寸预测的行为识别系统，其特征在于，步骤2中，时空特征提取网络器需要输入的是组数据，组数据由N帧图像构成，N>1；视频流预处理模块输出组数据，设定N＝1时取组数据中的最后一帧输入到空间特征提取网络器，设定N>1时，将组数据输入到时空特征提取网络器获得时间特征信息；设定组数据N＝1用X表示，输入图像X是RGB三通道彩色图像，分别对每个通道的数据进行如下操作，最后对RGB三通道图像重新组合，对于图像X的通道X_R像素采用如下方法计算：

(1)X_R中的每个像素由整数转换为小数：

其中，W和H分别图像的宽和高；

(2)将图像X_R中的每个像素由实数域变换到对数域：

X_R＝log(X_R) (2)

(3)对X_R中的像素进行归一化处理并滤波操作：

X_R＝f_l(X_R) (4)

X_R＝exp(X_R*log(255)) (5)

X＝(X_R，X_G，X_B) (6)

设组数据N＞1用C_i表示，i取值0到N，对组数据C_i进行数据特征的标准化操作，

求组数据的均值：

求组数据的方差：

对组数据的特征进行标准化处理：

3.如权利要求1所述的一种多尺寸预测的行为识别系统，其特征在于，步骤3中，将数据样本X和C_i按照网络的要求缩放到指定尺寸大小，分别输入到空间特征提取网络和时空特征提取网络，具体包括以下步骤：

(1)将X输入到空间特征提取网络器后获得三层输出空间特征向量α、β和λ，其中α是将输入数据X经过5次下采样操作降维得到的，特征图X的维度为C*H*W，C＝3，H和W分别为网络输入的尺寸大小，α输出经过网络的层层计算后输出维度为C′*H′*W′，，其中C′的值由识别的行为识别的种类决定，H′＝H/2⁵，W′＝W/2⁵，β是将输入数据X经过4次下采样操作得到的特征图，β的空间维度为C′*H″*W″，其中该特征图的通道数与α保持一致，H″＝H/2⁴，W″＝W/2⁴，α是将输入数据X经过3次下采样操作得到的特征图，λ的空间维度为C′*H″′*W″′，其中该特征图的通道数与α保持一致，H″′＝H/2³，W″′＝W/2³；

4.如权利要求3所述的一种多尺寸预测的行为识别系统，其特征在于，如权利要求1所述的一种多尺寸预测的行为识别系统，其特征在于，针对目标的尺度预测包括针对大目标的小尺度预测和针对中目标的中间尺度预测，针对大目标的小尺度预测过程为：

时空特征向量γ同样也是将C_i中的每一张图片下采样5次得到的，因此宽高维度与α相同，将压缩维度后的γ与α相加：

特征图01为时空特征提取网络与空间特征提取网络小尺寸输出即γ与α经过特征融合后的特征图，该特征图包含了动作的类别信息和目标的尺寸位置信息；

针对中目标的中间尺度预测过程为：

f(x，y)＝f(i+u，j+v)＝ABC(0＜u＜1，0＜v＜1) (12)

其中：

按照上述步骤计算特征图γ中的每个像素，将得到的结果γ′与空间特征提取网络输出的特征图β按照式11相加后输出特征图02，完成对中等目标动作分类和尺寸位置编码；将γ′输入到下一个尺度扩张单元，按照上述操作进行计算输出结果γ″与空间特征提取网络输出的特征图λ按照公式11相加后输出特征图03，完成对小目标动作分类和尺寸位置编码。

5.如权利要求1所述的一种多尺寸预测的行为识别系统，其特征在于，步骤4的具体过程为：

在对特征融合向量O1、O2、O3特征图进行动作分类解码时用到激活单元为sigmoid函数，该函数专门用于行为的多分类算法中，其计算方法如下：

loss_object＝-∑b′*lnb (17)

位置信息损失函数损失值loss_coord计算公式：

loss_coord＝-y′*log(y)-(1-y′)*log(1-y) (18)