CN114842553A

CN114842553A - 基于残差收缩结构和非局部注意力的行为检测方法

Info

Publication number: CN114842553A
Application number: CN202210401553.2A
Authority: CN
Inventors: 刘娟; 黄忠; 陶孟元; 王颖; 张丹妮
Original assignee: Anqing Normal University
Current assignee: Anqing Normal University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-08-02

Abstract

本发明涉及行为检测技术领域，具体涉及基于残差收缩结构和非局部注意力的行为检测方法(CN‑R‑DRSN)，将残差收缩结构融入到3D‑ResNet卷积网络的残差模块中，设计一种3D‑DRSN特征提取网络以自适应消除行为视频存在的噪声、背景等冗余的行为特征信息，在时序候选子网中嵌入逐层空间卷积，以在时序特征图下采样及时序边界片段分割中保留更为丰富的层次化空间信息，在行为分类子网利用Soft‑NMS抑制策略筛选时序候选段并引入非局部注意力机制获取优质时序片段间上下文时空运动信息，本发明所提供的行为检测方法，能够有效提高行为动作边界检测精度以及行为分类的准确度，与R‑C3D相比，本发明提出的CN‑R‑DRSN方法mAP@0.5值提高到32.7％。

Description

基于残差收缩结构和非局部注意力的行为检测方法

技术领域

本发明涉及行为检测技术领域，具体涉及基于残差收缩结构和非局部注意力的行为检测方法。

背景技术

随着机器人广泛应用于迎宾讲解、老人陪护等自然人机交互场景，如何让机器人正确理解人的行为、感知人的意图成为人机交互研究的热点。而行为检测作为提升人机交互质量最重要的手段，受到研究者高度重视和广泛关注。行为检测主要任务是在未经过剪辑处理的长视频中，自动定位动作时间边界(即行为开始时间即行为结束时间)并进行动作识别。因此，与已知动作边界的行为识别方法相比，探索行为检测方法更适合机器人在自然人机交互等领域的应用。在自然场景下，机器人识别人的行为动作易受噪音，光照，遮挡等因素制约，一方面使得提取到的信息包含较多噪声、背景等冗余信息，从而影响行为区域定位的精度和行为分类准确度；另一方面，由于视频动作的持续性和时序性，容易忽略行为的上下文运动信息，进而影响行为候选片段的定位精度。因此，设计能抑制冗余特征信息和融合行为上下文运动信息的时序行为检测网络以提高行为检测精度是时序行为检测的研究重点。当前解决这类任务的方法主要分为单阶段、两阶段以及基于弱监督学习的行为检测方法。单阶段方法是在一维时序特征上产生动作边界定位信息，直接在原始视频中生成时间边界和识别行为类别，如Lin T等在提取视频时空行为特征后使用一维卷积预测动作边界定位信息和行为类别；Long F等通过高斯核去预测行为位置片段，并解决了行为持续时间的多变性；Piergiovanni A J等构建基于时序高斯混合的卷积模块代替了传统卷积层，并利用软注意力机制来学习混合高斯核的参数；Yuan Z等通过二维卷积网络对单帧图片进行分类，并预测其所属每个行为所在时间区间的概率。单阶段方法由于采用单帧计算方式，难以获取时序上的运动特征信息，其在机器人自然人机交互的场景中鲁棒性差。两阶段方法则是先从视频中提取出大量可能包含行为的候选时序片段，再对行为进行时间边界的定位和分类。其代表性为R-C3D网络，其由特征提取子网、时序候选子网和行为分类子网三个部分组成，网络结构如图1所示。

R-C3D使用C3D网络的卷积层来提取视频的时空特征，然后借鉴RPN的思想获取一系列时序候选片段，最后微调行为的时间边界和对行为分类。该方法十分依赖生成的行为时序候选片段的质量，如何生成优质的候选段是主要的改进思路，如Shou等使用滑动窗口在视频的时间域上滑动，产生不同长度的时间窗口，但滑动窗口的大小固定，产生的候选片段很难包含整个行为；Zhao将视频等间距分割为多个视频段，并对视频段进行分类和打分，将分数高且连续的视频段聚合成时序候选片段；Lin T等提出了一种边界匹配机制BMN，有效提高了行为时序候选片段的质量。除此之外，也有人提出改进整体的网络结构，如CDC网络在基础骨干网络后增加反卷积的模块，在帧级别上进行细粒度预测，细化时序片段的边界以进行精确定位；Chao等提出了通过多塔式结构(multi-tower)和空洞卷积(dilatedconvolution)使感受野与时间跨度对齐的策略，解决了由于特征图的感受野的大小固定，造成的在持续时间内变化大的行为上生成的候选片段很难包含长时间的行为问题。近些年，一些研究者也提出基于弱监督学习的行为检测方法，其主要是在已有的模型基础上进行片段级的预测，再通过一定的规则在预测中得到行为的时间边界。如王利民等人提出先计算片段级的动作概率，再加权融合所有片段的分数作为行为的预测值；Nguyen P等提出通过计算T-CAM进行动作边界定位从而得到动作发生的时间片段；林天威团队提出基于两阶段的在线擦除生成互补的时间区域，以时间金字塔的形式整合多尺度的信息，最终得到行为片段的预测。尽管弱监督学习的方法不需要对具体的时间边界进行标注，但同样面临检测精度和算法性能的问题。

综上所述，研发基于深度残差收缩结构和非局部注意力的行为检测方法，仍是行为检测技术领域中急需解决的关键问题。

发明内容

本发明为了解决上述问题，本发明提供了基于深度残差收缩结构和非局部注意力的行为检测方法(CN-R-DRSN)，能够有效提高行为动作边界检测精度以及行为分类的准确度，与R-C3D相比，本发明提出的CN-R-DRSN方法mAP@0.5值提高到32.7％。

为实现上述目的，本发明提供了如下技术方案：

本发明提供了基于深度残差收缩结构和非局部注意力的行为检测方法，包括以下步骤：

(1)基于残差收缩结构的特征提取子网，具体过程如下：

(11)将输入特征X通过两次批标准化、ReLU激活函数及卷积得到的特征x作为残差收缩模块输入向量,并经过绝对值和全局均值池化操作将其简化为一维向量X_h,w,l,c:

x_h,w,l,c＝GAP(|ReLU(BN(Conv(X)))|)，式中，ReLU()表示ReLU激活函数，BN()表示批标准化，GAP()表示全局均值池化，h，w，l，c分别代表特征图的长、宽、帧长度和通道数；

(12)将简化后的向量特征X_h,w,l,c分别送入阈值收缩系数计算分支和通道均值特征计算支路，在阈值收缩系数计算分支中，利用两层全连接层计算X_h,w,l,c的各通道的阈值收缩系数:

α_c＝δ(FC(FC(x_h,w,l,c)))，式中，FC()为全连接层，δ()为Sigmoid激活函数，其中α_c∈(0,1)；

在通道均值特征计算支路中，分别计算各通道特征的平均值：

β_c＝average(|x_h,w,l,c|)，式中，average()表示求平均值；获取阈值收缩系数以及特征均值后，各通道特征的收缩阈值τ_c＝α_cβ_c(c∈[1,3])；通过对每个通道计算收缩阈值，可以获得输入向量x的收缩阈值向量τ＝(τ₁,τ₂,τ₃)；

(13)将计算的收缩阈值向量τ对输入向量x进行软阈值化：

x^s＝soft(x,τ)＝sign(x)max{x|-τ,0}，式中，x^s表示软阈值化后所得特征，|x|＜τ时，x^s置为零，|x|＞τ，x^s朝着零的方向进行收缩；软阈值化获取特征x^s后，与输入特征X做残差连接：X′＝X+x^s；

将n个残差收缩模块进行级联并构建3D-DRSN网络，通过3D-DRSN网络抑制处理后的时空特征图可表示为：E＝DRSN_n(X)，式中，

DRSN_n()表示n个残差收缩模块构成的特征提取子网；

(2)基于逐层空间卷积的时序候选子网，具体过程如下：

(21)利用三个卷积层和一个1×2×2最大池化层将残差收缩网路获取的时空特征图转化为仅含时序信息的特征图E′：

E′＝Maxpooling(Conv3(Conv2(Conv1(E))))，式中，

conv1(·)、conv2(·)、conv3(·)分别代表三个卷积层；

(22)通过逐层空间卷积，获取

到长度的视频时序特征图E'，然后，在

长度的视频时序特征图E′上提取时序候选片段：

proposal＝Conv_1×1×1(E′)，式中，Conv_1×1×1()表示1×1×1的卷积层，proposal为提取到的时序候选片段；

(3)基于非局部注意力机制的行为分类子网，具体过程如下：

(31)使用Soft-NMS抑制策略替代非极大值抑制：

式中，N表示时序候选子网提取到的时序候选片段个数，M表示当前最高得分的时序边界框，b_i为待处理的第i个时序边界框，s_i为b_i的时序边界框置信度得分，γ为边界框抑制阈值，iou(M,b_i)表示时序边界框M与b_i之间交并比：

，式中，M_start、M_end分别表示最高得分时序边界框M的开始时间和结束时间，b_istart、b_iend分别表示待处理时序边界框b_i的开始时间和结束时间，L_M、

分别表示时序边界框M和时序边界框b_i的时间长度；

(32)将调整后的时序候选片段按照置信度得分进行排序，并选择得分较高K(K≤N)个时序候选片段作为优质的时序候选片段；

(33)通过Soft-NMS策略获取K个优质时序候选段后，采用3DROI pooling将不等长的时序候选段映射到特征图E的对应位置上：

P^k＝ROIPooling(softnms(prposal,k),E)，式中，P^k∈R^512×1×4×4(k∈[1,K])为筛选后的时序候选片段特征图；

(34)获取优质的时序候选片段特征图

后，首先将

不同位置的特征作配对计算：

式中，W_θ、W_φ为权重矩阵；P_i ^k(k∈[1,K])表示特征图P^k第i(i∈[1,16])个位置特征；

表示特征图P^l第j(j∈[1,16])个位置特征；

表示特征图P^k的第i个位置特征和特征图P^l的第j个位置的特征的相似度。同时，将特征图P^k∈^512×1×4×4(k∈[1,K])中16个位置的通道特征(512维)进行加权映射形成位置向量：

式中W_g为权重矩阵；

(35)通过特征图P^k与特征图P^l相似度

以及

计算第k个特征图第i个位置的融合向量F_i ^k：

式中，M表示特征图P^k的像素总数；

(36)将特征图P^k第i个位置的融合特征F_i ^k以及原始特征P_i ^k作残差连接：

式中W_z∈R为权重矩阵。将K个特征所有位置的残差连接进行级联

并输入至全连接层得到所有片段的时间边界位置和行为分类：

式中，

分别表示第k个时序候选片段的边界起止位置；

表示第k个时序候选片段被预测为第i类行为的概率；m表示行为类别种类。

(4)CN-R-DRSN网络优化，具体过程如下：

采用分类和回归联合优化策略，利用交叉熵损失函数L_cls(·)预测候选片段中是否包含行为或预测具体的行为类别，并利用平滑的L₁损失函数L_reg(·)优化候选边界框与真实边界框之间的相对位移：

式中，

表示第k个时序候选片段或行为被预测为真实标签的概率，

表示对应的行为的真实标签(GT)，

表示为预测第k个时序候选片段的相对偏移量，

表示对应坐标变换的真实时间边界框，坐标变换计算如下：

式中，

和

分别表示时序候选片段的中心位置和长度，

和

分别表示GT的中心位置和长度，采用分类和回归联合优化策略目标函数为：

式中，N_cls、N_reg表示需要训练的时序候选片段的数量，在行为分类子网中其数量等于批处理大小，λ为损失平衡因子。

本发明进一步的设置为在步骤(11)中，所述的一维向量X_h,w,l,c的计算公式为：

式中，ReLU(·)表示激活函数ReLU，BN(·)表示批标准化,GAP(·)表示全局均值池化，h,w,l,c分别代表特征图的长、宽、帧长度和通道数。

本发明进一步的设置为在步骤(12)中，所述的阈值收缩系数为：

α_c＝δ(FC(FC(X_h,w,l,c)))，式中，FC(·)为全连接层，δ(·)为Sigmoid激活函数，α_c∈(0,1)表示第c通道的收缩系数。

本发明进一步的设置为在步骤(12)中，所述的分别计算各通道特征的平均值的公式为：

β_c＝average(|X_h,w,l,c|)，式中，average(·)表示求平均值。

本发明进一步的设置为在步骤(12)中，所述的各通道特征的收缩阈值的公式为：

τ_c＝α_c·β_c(c∈[1,3])，式中，τ_c为第c特征通道的收缩阈值。

本发明进一步的设置为在步骤(3)中，为捕获K个特征图的全局依赖关系，在行为分类子网络中分类和回归之前引入非局部注意力机制，具体过程如下：

将

不同位置的特征作配对计算，同时，将特征图P^k＝R^512×1×4×4(k∈[1,K])中16个位置的通道特征进行加权映射形成位置向量；

通过特征图P^k与特征图P^l相似度

以及

计算第k个特征图第i个位置的融合向量F_i ^k；

将特征图P^k第i个位置的融合特征F_i ^k以及原始特征P_i ^k作残差连接：

式中，W_z∈R为权重矩阵；

将K个特征所有位置的残差连接进行级联

式中，

分别表示第k个时序候选片段的边界起止位置，

表示第k个时序候选片段被预测为第i类行为的概率，m表示行为类别种类。

本发明进一步的设置为所述的配对计算公式为：

式中，W_θ、W_φ为权重矩阵，P_i ^k(k∈[1,K])表示特征图P^k第i(i∈[1,16])个位置特征；

表示特征图P^l第j(j∈[1,16])个位置特征，

表示特征图P^k的第i个位置特征和特征图P^l的第j个位置的特征的相似度。

本发明进一步的设置为所述的位置向量为：

式中，W_g为权重矩阵。

本发明进一步的设置为：所述的融合向量为：

式中，M表示特征图的像素总数。

有益效果

采用本发明提供的技术方案，与已知的公有技术相比，具有如下有益效果：

(1)本发明结合残差收缩结构和非局部注意力，设计CN-R-DRSN网络结构以抑制行为特征的冗余度并融合行为的时空上下文，提高动作边界定位的精度和行为分类的准确度。

(2)本发明在残差网络的残差模块中嵌入收缩结构和软阈值化操作，构建3D-DRSN特征提取网络，通过自适应消除冗余信息以改善特征提取的有效度。

(3)本发明通过逐层空间卷积方式提取时序候选片段的层次化空间信息，克服一次卷积策略造成空间特征信息丢失的问题，引入Soft-NMS策略度量时序边界框与最大边界框的交并比并根据边界框抑制阈值调整时序候片段的置信度，避免候选时序片段的漏检或误减,引入非局部注意力机制对筛选后的优质时序候选片段特征计算其长距离依赖关系。

附图说明

图1为R-C3D网络结构图；

图2为CN-R-DRSN网络结构图；

图3为3D-DRSN残差收缩模块的示意图；

图4为基于逐层空间卷积的时序候选子网网络结构图；

图5为行为分类子网网络结构图；

图6为Cricket在R-C3D和CN-R-DRSN网络上的检测结果图；

图7为Billiards在R-C3D和CN-R-DRSN网络上的检测结果图；

图8为High Jump在R-C3D和CN-R-DRSN网络上的检测结果图。

具体实施方式

本发明针对行为检测需要同时考虑特征提取冗余度高及行为边界定位的不准确的问题，在R-C3D网络结构基础上，结合残差收缩结构和非局部注意力提出一种改进的行为检测方法CN-R-DRSN，改进后的网络结构如图2所示，在特征提取子网中，为了抑制视频中行为特征的背景、噪声等冗余信息，采用3D-ResNet卷积网络并融合残差收缩结构和软阈值化操作，构建3D-DRSN的特征提取网络，在时序候选子网中，考虑R-C3D网络一次卷积策略将造成空间特征信息的丢失的问题，采用逐层空间卷积策略以保留行为的层次化空间信息，在行为分类子网中，为了给后续边界回归和分类提供更丰富的行为特征信息，采用非极大值抑制(Soft-NMS)策略筛选时序候选段并引入非局部注意力机制计算优质时序片段间全局依赖。

下面结合实施案例对本发明做进一步详细说明。

实施例1：

本发明提供了基于残差收缩结构和非局部注意力的行为检测方法，包括以下步骤：

需要说明的是，特征提取子网的任务是提取视频的时空特征信息，有效提取运动特征信息有利于后续时序候选片段的分割以及动作分类。在R-C3D中，特征提取子网由C3D网络的卷积层构建而成，其特征提取结构较浅，提取到的特征不紧凑；同时，考虑在人机交互自然情景下，提取到的特征受噪声、环境等因素的干扰可能包含较多冗余信息。因此，基于深度3D残差卷积神经网络并借鉴深度残差收缩网络的思想，在残差模块中嵌入收缩结构和软阈值化，设计3D-DRSN结构，其残差收缩模块如图3所示。

每个样本所含的冗余信息存在较大差异，因此其收缩阈值各不相同。为自动学习样本的收缩阈值，本发明在3D-Resnet网络的残差模块中嵌入收缩结构，具体过程如步骤(1)所示。

(1)基于深度残差收缩结构的特征提取子网，具体过程如下：

(11)将输入特征X通过两次批标准化、ReLU激活函数及卷积得到的特征x作为残差收缩模块输入向量,并经过绝对值和全局均值池化操作将其简化为一维向量X_h,w,l,c。

进一步的，一维向量X_h,w,l,c的计算公式为：

(12)将简化后的向量特征X_h,w,l,c分别送入阈值收缩系数计算分支和通道均值特征计算支路，在阈值收缩系数计算分支中，利用两层全连接层计算X_h,w,l,c的阈值收缩系数。

进一步的，阈值收缩系数为：

在通道均值特征计算支路中，分别计算各通道特征的平均值，

进一步的，分别计算各通道特征的平均值的公式为：

β_c＝average(|X_h,w,l,c|)，式中，average(·)表示求平均值；

获取阈值收缩系数以及特征均值后，各通道特征的收缩阈值，

进一步的，各通道特征的收缩阈值的公式为：

τ_c＝α_c·β_c(c∈[1,3])，式中，τ_c为第c特征通道的收缩阈值；

通过对每个通道计算收缩阈值，可以获得输入向量x的收缩阈值向量τ＝(τ₁,τ₂,τ₃)；

(13)为抑制与行为目标无关的冗余信息，将计算的收缩阈值向量对输入向量x进行软阈值化：

x^s＝soft(x,τ)＝sign(x)max{x|-τ,0}，式中，x^s表示软阈值化后所得特征，|x|＜τ时，x^s置为零，|x|＞τ，x^s朝着零的方向进行收缩；

软阈值化获取特征x^s后，与输入特征X做残差连接：

X′＝X+x^s，通过设计的残差收缩模块，可以自动学习得到一组阈值，并对各个特征通道进行软阈值化，从而能够自适应消除冗余信息；

将n个残差收缩模块进行级联并构建3D-DRSN网络，如图2特征提取子网络所示，通过3D-DRSN网络抑制处理后的时空特征图可表示为：

E＝DRSN_n(X)，式中，

DRSN_n表示个残差收缩模块构成的特征提取子网。

需要说明的是，时序候选子网的任务是从残差收缩网路获取的时空特征图中分割出包含行为动作的时序边界片段。在提取候选时序片段时，考虑R-C3D网络通过一次卷积直接将特征图的长和宽变为1将造成空间特征信息的大量丢失的问题，本发明采用逐层空间卷积以保留更多的行为的空间特征，改进后的时序候选子网结构如图4所示，具体过程如步骤(2)所示。

(2)基于逐层空间卷积的时序候选子网，具体过程如下：

E′＝Maxpooling(Conv3(Conv2(Conv1(E))))，式中，

conv1(·)、conv2(·)、conv3(·)分别代表三个卷积层，为了更好的进行说明，三个卷积层的大小如表1所示，

表1：逐层空间卷积所用卷积核大小

	input	size	stride	padding	output
						Conv1	512	(3,3,3)	(1,1,1)	(1,1,1)	512
Conv2	512	(3,3,3)	(1,2,2)	(1,1,1)	512
						Conv3	512	(3,3,3)	(1,2,2)	(1,1,1)	512

(22)通过逐层空间卷积，获取

到长度的视频时序特征图，然后，在

长度的视频时序特征图E′上提取时序候选片段：

proposal＝Conv_1×1×1(E′)，式中，Conv_1×1×1(*)表示1×1×1的卷积层，proposal为提取到的时序候选片段，其包含候选片段的边界和行为的置信度。采用逐层空间卷积替代单层卷积，使得时序候选子网在时序信息的特征图及时序边界片段分割中能够保留行为的层次化空间信息。

需要说明的是，行为分类子网的任务是结合特征提取子网所提取的特征和时序候选子网生成的时序候选片段，对各个候选边界内的视频段进行位置微调和行为分类。由于时序候选子网输出大量候选片段且彼此之间存在高度重叠，R-C3D网络中使用非极大值抑制策略来消除多余重复片段，但其存在两个问题：(1)当目标边界接近时，分数低的边界由于重叠面积过大而被删除(2)手动设置阈值将造成边界的漏检或误减。为了进一步优化时序边界位置和行为分类任务，采用Soft-NMS降低时序边界框的置信度以优选候选片段，并将非局部注意力机制引入行为分类子网中以获取优选候选片段间的长距离远程依赖关系，改进后的行为分类子网如图5所示，具体如步骤(3)所示。

(3)基于非局部注意力机制的行为分类子网，具体过程如下：

(31)为降低重叠边界框的置信度，使用Soft-NMS策略替代非极大值抑制：

，式中，M_start、M_end分别表示最高得分时序边界框M的开始时间和结束时间，b_istart、b_iend分别表示待处理时序边界框b_i的开始时间和结束时间，L_M、L_bi分别表示时序边界框M和时序边界框b_i的时间长度；

(32)将调整后的时序候选片段按照置信度得分进行排序，并选择得分较高K(K≤N)个时序候选片段作为优质的时序候选片段，与非极大值抑制策略直接去除大于边界框抑制阈值的时序候选片段相比，Soft-NMS策略通过调整置信度的方式避免了候选时序片段漏检和误删；

(34)获取优质的时序候选片段特征图

后，进一步的，为捕获K个特征图的全局依赖关系，在行为分类子网络中分类和回归之前引入非局部注意力机制，具体过程如下：

将

通过特征图P^k与特征图P^l相似度

以及

计算第k个特征图第i个位置的融合向量F_i ^k；

式中，W_z∈R为权重矩阵；

将K个特征所有位置的残差连接进行级联

式中，

分别表示第k个时序候选片段的边界起止位置，

其中，配对计算公式为：

表示特征图P^l第j(j∈[1,16])个位置特征，

位置向量为：

式中，W_g为权重矩阵。

融合向量

式中，M表示特征图的像素总数。

通过Soft-NMS策略优选时序候选片段，并引入非局部注意力机制，使得分类子网络能够捕获时序候选片段之间的全局依赖关系，从而达到优化边界位置和提高分类准确度的目的。

需要说明的是，为进一步优化网络训练参数，本发明进行CN-R-DRSN网络优化，具体如步骤(4)所示。

(4)CN-R-DRSN网络优化，具体过程如下：

式中，

表示第k个时序候选片段或行为被预测为真实标签的概率，

表示对应的行为的真实标签(GT)，

表示为预测第k个时序候选片段的相对偏移量，

表示对应坐标变换的真实时间边界框，坐标变换计算如下：

式中，

和

分别表示时序候选片段的中心位置和长度，

和

实施例2：

为了训练CN-R-DRSN模型的参数以及验证模型的有效性性，本文在公开的THUMOS14行为数据集进行实验。THUMOS14数据集包含大量真实环境下人类日常生活和体育运动的行为视频，可用于动作识别和时序动作检测两类任务。由于本文主要解决自然场景中的行为检测问题，因此使用未经过剪辑视频数据作为时序动作检测任务的数据集，分别以验证集中未剪辑的3007个行为片段作为训练集、测试集中未剪辑的3358个行为片段作为测试集。在Ubuntu18.04操作系统上，实验采用一块Tesla K40m显卡并利用Pytorch构建和训练CN-R-DRSN网络。针对本文提出的改进方法，采用二值交叉熵损失函数和平滑损失函数进行联合优化策略，相关参数如表2所示。

表2：模型参数设置

参数名称	参考值
		优化器	随机梯度下降算法(SGD)
训练轮数最大值	8
		学习率	10<sup>4</sup>
视频帧长l	786
		边界框抑制阈值γ	0.7
优质时序候选段数量K	2000
		损失平衡因子λ	1

在THUMOS14数据集下，表3统计了本文提出方法与其他行为检测方法在iou∈[0.1,0.7]间的检测精度。表3表明：当iou≤0.3时，CN-R-DRSN检测精度低于SSAD、R-C3D、SSN、DCC-R-C3D等方法，但高于S-CNN方法；而随着iou的增加，CN-R-DRSN检测精度具有较大提升，并逐渐高于其他方法。

表3：不同方法的mAP比较

从表3中可以看出，当iou＝0.5时CN-R-DRSN的检测精度比其他方法提高了1.3-13.7。为说明iou＝0.5下各行为的分类效果，表4分别统计了各方法关于20类行为的AP及mAP值。与CDC、R-C3D、DCC-R-C3D方法相比，CN-R-DRSN虽然在Frisbee Catch、VolleyballSpiking等行为的检测精度偏低，但整体提高了行为检测的平均精度(32.7％)，且尤其大幅提升了Cliff Diving、Hammer Throw、High Jump、Pole Vault等行为的检测效果，分别达到了58.5％、59.6％、38.1、71.0％。

表4不同方法的各行为AP(％)比较

同时，为了说明CN-R-DRSN时序边界的划分效果，本文进一步将其与R-C3D网络进行比较。图6显示同一时序片段下Cricket Bowling和Cricket Shot两类动作的边界划分效果。从图6可以看出，Cricket Bowling和Cricket Shot的时间定位边界，在R-C3D网络均具有重叠，而在CN-R-DRSN网络中没有交叉；图7显示了Billiards动作在R-C3D和CN-R-DRSN网络上的边界划分效果。图7表明：R-C3D网络对Billiards运动边界划分包含了非运动信息，而CN-R-DRSN网络能够较好的区分了非运动信息和运动信息；图8显示High Jump动作的在R-C3D和CN-R-DRSN网络上的检测结果。与R-C3D网络相比，CN-R-DRSN网络划分的时序片段的边界框更接近于真实边界框GT，并且各时序片段的动作分类具有更高的置信度。

综上可知，为提高行为动作边界定位的精度和动作分类的准确度，本发明基于R-C3D网络结构提出一种基于CN-R-DRSN网络的行为检测方法。在特征提取子网中，设计一种3D-DRSN特征提取网络以自适应消除行为视频存在的噪声、背景等冗余信息；在时序候选子网中，嵌入逐层空间卷积替代一次卷积，以在时序特征图及时序边界片段分割中保留更为丰富的层次化空间信息；在行为分类子网中，采用Soft-NMS策略避免候选时序片段的漏检或误减，并引入非局部注意力机制计算时序片段间的全局依赖关系。实验结果表明：提出的方法能够提高动作边界定位和行为分类的精确度。因此，提出的CN-R-DRSN行为检测方法可应用于迎宾讲解、老人陪护等自然人机交互场景中，有利于提高机器人用户行为感知和意图理解的准确度从而提升人机交互质量。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

参考文献如下：

[1]Chen T,Lu S,Fan J.S-CNN:Subcategory-aware convolutional networksfor object detection[J].IEEE transactions on pattern analysis andmachineintelligence,2017,40(10):2522-2528.

[2]Shou Z,Chan J,Zareian A,et al.Cdc:Convolutional-de-convolutionalnetworks for precise temporal action localization in untrimmed videos[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2017:5734-5743.

[3]Lin T,Zhao X,Shou Z.Single shot temporal action detection[C]//Proceedings of the 25th ACM international conference on Multimedia.2017:988-996.

[4]Xu H,Das A,Saenko K.R-c3d:Region convolutional 3d network fortemporal activity detection[C]//Proceedings ofthe IEEE internationalconference on computervision.2017:5783-5792.

[5]Qi T,Bayramli B,Ali U,et al.Spatial shortcut network for humanpose estimation[J].arXivpreprint arXiv:1904.03141,2019.

[6]田翔,张良.改进的R-C3D时序行为检测网络[J].信号处理,2021,37(3):447-455.

[7]Yuan Z,Stroud J C,Lu T,et al.Temporal action localization bystructured maximal sums[C]//Proceedings ofthe IEEE Conference onComputerVision and Pattern Recognition.2017:3684-3692.

[8]Zhao M,Zhong S,Fu X,et al.Deep residual shrinkage networks forfault diagnosis[J].IEEE Transactions on Industrial Informatics,2019,16(7):4681-4690.

[9]高陈强,陈旭.基于深度学习的行为检测方法综述[J].重庆邮电大学学报(自然科学版),2020,32(6):991-1002.

[10]Li X.Human–robot interaction based on gesture and movementrecognition[J].Signal Processing:Image Communication,2020,81:115686.

Claims

1.基于残差收缩结构和非局部注意力的行为检测方法，其特征在于，包括以下步骤：

(1)基于残差收缩结构的特征提取子网，具体过程如下：

(11)将输入特征X通过两次批标准化、ReLU激活函数及卷积得到的特征x作为残差收缩模块输入向量,并经过绝对值和全局均值池化操作将其简化为一维向量

X_h,w,l,c:x_h,w,l,c＝GAP(|ReLU(BN(Conv(X)))|)，式中，ReLU()表示ReLU激活函数，BN()表示批标准化，GAP()表示全局均值池化，h，w，l，c分别代表特征图的长、宽、帧长度和通道数；

在通道均值特征计算支路中，分别计算各通道特征的平均值:β_c＝average(|x_h,w,l,c|)，式中，average()表示求平均值；获取阈值收缩系数以及特征均值后，各通道特征的收缩阈值τ_c＝α_cβ_c(c∈[1,3])；通过对每个通道计算收缩阈值，可以获得输入向量x的收缩阈值向量τ＝(τ₁,τ₂,τ₃)；

(13)将计算的收缩阈值向量τ对输入向量x进行软阈值化：x^s＝soft(x,τ)＝sign(x)max{|x|-τ,0}，式中，x^s表示软阈值化后所得特征，|x|＜τ时，x^s置为零，|x|＞τ，x^s朝着零的方向进行收缩；软阈值化获取特征x^s后，与输入特征X做残差连接：X′＝X+x^s；