CN110334607B

CN110334607B - 一种视频人体交互行为识别方法及系统

Info

Publication number: CN110334607B
Application number: CN201910505812.4A
Authority: CN
Inventors: 王中元; 江恒烜; 何政; 韩镇; 肖晶
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2022-03-04
Anticipated expiration: 2039-06-12
Also published as: CN110334607A

Abstract

本发明公开了一种视频人体交互行为识别方法及系统，主要包括人体分割、个体特征提取、交互特征提取、特征融合、动作分类等步骤。人体分割通过行人检测算法来检测和追踪交互行为个体的边界框，并依照得到的边界框来实现单个个体的分割；个体特征提取基于预训练的3D‑Inception V3网络提取视频对象的个体动作姿态特征；交互特征提取基于改进的ICAN网络提取交互行人的肢体动作、相对位置等细节互动特征；特征融合将前面模块提取的2种个体特征和1种交互特征级联成统一的特征向量；动作分类采用Softmax分类器将融合后的特征向量转化为每类动作的概率。本发明有效结合了3D‑Inception V3速度快和改进的ICAN精度高的特点，因而兼具效率和精度优势，在社会安全领域具有实际应用价值。

Description

一种视频人体交互行为识别方法及系统

技术领域

本发明属于计算机视觉技术领域，涉及一种人体动作识别方法及系统，具体涉及一种视频人体交互行为识别方法及系统。

技术背景

行为识别与理解一直是计算机视觉领域研究的焦点问题之一，在安全防范、人机交互、视频检索等诸多领域都有广泛的应用前景。虽然近年行为识别的研究取得了较大进展，但以往研究大多围绕单人动作行为识别，而对于现实场景下更为普遍的双人乃至多人群体的交互行为仅有少量涉及，这是由于交互识别比一般的动作识别任务更为复杂，主要表现如下：

(1)复杂的背景。在真实场景下，发生交互行为时所处的背景会不断变化甚至是与之前出现过的背景完全不同。背景环境的变化不仅造成分割交互人物与背景时存在困难，而且会影响到发生交互行为的两人间的特征识别精度。

(2)交互细节信息提取不足。交互行为识别需要对发生交互行为的双方间的相对位置及发生交互行为的细节进行更多考虑。故而，交互行为识别较单人行为识别更为复杂。

双人交互行为识别的研究目前主要分为两个方面。一是通过人工提取交互特征来构建交互行为的特征映射，但这种方法通常识别精度较低，且效率低下；二是采用通用深度学习框架来构建交互特征表达，但这种方式容易忽略交互个体间更为重要的语义信息，且由于深度网络的参数量较大，无法保证算法识别速度。

发明内容

为了解决上述技术问题，本发明提供了一种较为鲁棒的视频人体交互行为识别方法及系统，能有效降低网络参数，提高识别效率。

本发明的方法所采用的技术方案是：一种视频人体交互行为识别方法，其特征在于，包括以下步骤：

步骤1：针对输入视频，对视频中的人体图像进行分割；

步骤2：针对分割后的各个人体图像，进行个体特征提取；

步骤3：针对输入视频，对视频中的人体图像进行交互特征提取；

步骤4：将步骤2中提取的个体特征和步骤3中提取的交互特征进行特征融合，级联成一个特征向量；

步骤5：将融合后的特征向量转化为每类动作的概率。

作为优选，步骤1中，通过行人检测算法来检测和追踪交互行为个体的边界框，并依照得到的边界框来实现单个个体的分割。

作为优选，采用抽帧取样的处理方式，每隔5帧采样一次，将采用视频传入YOLOv3模型中进行行人检测；同时，使用卡尔曼滤波的方法对检测到的行人进行跟踪。

作为优选，步骤2中，采用基于3D-Inception V3进行个体特征提取，通过三维卷积核在整个视频数据上进行时空滑动，生成与输入视频数据对应的3D特征图FM；

其中，V表示输入视频，Kernel表示卷积核；i、j表示图像块的空间位置，k表示视频帧的时域序号；H、W、L分别表示视频帧的高度、宽度和同时处理的帧数。

作为优选，步骤3中，采用基于HICAN进行交互特征提取；HICAN为改进的ICAN，HICAN在保证ICAN主要功能不变的前提下，将原网络中的ResNet5特征提取模块改为基于对象流的3D-Inception V3网络；同时，为了适应Inception V3的边界框大小，修改输入节点的尺寸，将ICAN中ROI Pooling的输入尺寸改为2048。

作为优选，步骤4中，为维持融合后特征幅值的一致性，在级联前首先对各自特征进行归一化处理；归一化公式如下：

其中，μ、σ分别代表特征向量x的均值和方差；归一化后的特征将分布在[-1,1]范围。

作为优选，步骤5中，采用Softmax分类器将融合后的特征向量转化为每类动作的概率；假设共有K个动作类别，对于给定的特征v，其属于类别i的概率p_i计算为：

其中，w_i表示第i个分类器的权重。

本发明的系统所采用的技术方案是：一种视频人体交互行为识别系统，其特征在于：包括人体分割模块、个体特征提取模块、交互特征提取模块、特征融合模块、动作分类模块；

所述人体分割模块，用于针对输入视频，对视频中的人体图像进行分割；

所述个体特征提取模块，用于针对分割后的各个人体图像，进行个体特征提取；

所述交互特征提取模块，用于针对输入视频，对视频中的人体图像进行交互特征提取；

所述特征融合模块，用于将提取的个体特征和提取的交互特征进行特征融合，级联成一个特征向量；

所述动作分类模块，用于将融合后的特征向量转化为每类动作的概率。

与现有的动作识别方案相比，本发明具有以下的优点与积极效果：

(1)本发明方法通过预先对视频帧抽样，并且基于高效的Inception V3网络提取人体动作特征，因而具有快速处理的优点。

(2)本发明方法基于改进的ICAN网络提取交互特征，充分利用了交互行人的肢体动作、相对位置等细节互动特征，因而具有优良的识别精度。

附图说明

图1：本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

为了能保证方法的性能与效率，本发明利用在大型图像数据集中预训练的InceptionV3网络提取个体动作特征，实现人体动作姿态特征的建模。交互行为识别任务需要对发生交互行为的肢体动作、交互行人的相对位置等相关细节特征进行描述，为此，借鉴人-物关系检测研究中的实例为中心的注意力网络(ICAN)[文献1：Gao C,Zou Y,Huang JB,“ICAN:Instance-centric attention network for human-object interactiondetection,”arXiv preprint arXiv:1808.10437,2018.]，通过改进的ICAN网络提取交互行为特征，在个体动作特征的基础上加入肢体交互关注点和空间关系约束，增强对交互细节信息的表达能力。ICAN学习使用人或物体实例的外观来突出信息区域，例如，为了更好地确定一个人是否拿有物体，应该将注意力集中在人手周围。

本实施例中，将UT-Interaction数据集[文献2：ICPR 2010Contest on SemanticDescription of Human Activities,http://cvrc.ece.utexas.edu/SDHA2010/Human_Interaction.html#Data.]作为模型训练和测试的目标数据集。UT-Interaction交互行为数据集包含握手、拥抱、踢打、挑衅、拳打、推人等6类基本交互动作。整个数据集约包含20个视频片段，每个视频片段大约1分钟。该数据集还提供了每个视频片段里发生交互动作的起始和终止时间，以便研究人员进行相关行为动作片段的切分。

请见图1，本发明提供了一种视频人体交互行为识别方法，具体实现包括以下步骤：

步骤1：针对输入视频，对视频中的人体图像进行分割；

本实施例中，通过行人检测算法来检测和追踪交互行为个体的边界框，并依照得到的边界框来实现单个个体的分割。行人检测基于YOLOv3模型实现，在具体操作过程中，考虑到性能及效率的折中，并没有一次性的将输入视频传入YOLOv3模型中，而是采用抽帧取样的处理方式，每隔5帧采样一次。考虑到抽样导致的掉帧现象，进一步使用卡尔曼滤波的方法对检测到的行人进行跟踪。

步骤2：针对分割后的各个人体图像，进行个体特征提取；

本实施例中，采用基于3D-Inception V3进行时空兴趣点、运动历史图等个体特征提取；

3D卷积与传统2D卷积不同，3D卷积在时间和空间域上都应用卷积操作提取特征。通过三维卷积核在整个视频数据上进行时空滑动，生成与输入视频数据对应的3D特征图，可用如下公式表示：

V表示输入视频，Kernel表示卷积核。i、j表示图像块的空间位置，k表示视频帧的时域序号。H、W、L分别表示视频帧的高度、宽度和同时处理的帧数。

步骤3：针对输入视频，对视频中的人体图像进行肢体热力图、空间关系等交互特征提取；

本实施例中，采用基于HICAN进行交互特征提取，其中，HICAN为改进的ICAN；

实例为中心的注意力网络ICAN主要针对人-物交互设计，利用了人或物体外观包含的指示线索，但人体交互行为与人-物交互略有不同，交互双方都是动态的。为此，对ICAN进行改进，得到一种面向人体交互行为的实例注意力网络(HICAN)。HICAN在保证ICAN主要功能不变的前提下，将原网络中的ResNet5特征提取模块改为基于对象流的3D-InceptionV3网络。同时，为了适应Inception V3的边界框大小，修改输入节点的尺寸，将ICAN中ROIPooling的输入尺寸改为2048。

本实施例中，考虑到个体特征和交互特征分别由不同的网络提取得到，因而具有不同的幅值，为维持融合后特征幅值的一致性，在级联前首先对各自特征进行归一化处理。归一化公式如下：

μ、σ分别代表特征向量x的均值和方差。归一化后的特征将分布在[-1,1]范围。

步骤5：将融合后的特征向量转化为每类动作的概率。

本实施例中，采用Softmax分类器将融合后的特征向量转化为每类动作的概率。假设共有K＝6个动作类别，对于给定的特征v，其属于类别i的概率p_i计算为：

w_i表示第i个分类器的权重。

本发明还提供了一种视频人体交互行为识别系统，包括人体分割模块、个体特征提取模块、交互特征提取模块、特征融合模块、动作分类模块；

人体分割模块，用于针对输入视频，对视频中的人体图像进行分割；

个体特征提取模块，用于针对分割后的各个人体图像，进行个体特征提取；

交互特征提取模块，用于针对输入视频，对视频中的人体图像进行交互特征提取；

特征融合模块，用于将提取的个体特征和提取的交互特征进行特征融合，级联成一个特征向量；

动作分类模块，用于将融合后的特征向量转化为每类动作的概率。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种视频人体交互行为识别方法，其特征在于，包括以下步骤：

步骤1：针对输入视频，对视频中的人体图像进行分割；

步骤2：针对分割后的各个人体图像，进行个体特征提取；

其中，采用基于HICAN进行交互特征提取；HICAN为改进的ICAN，HICAN在保证ICAN功能不变的前提下，将原网络中的ResNet5特征提取模块改为基于对象流的3D-Inception V3网络；同时，为了适应Inception V3的边界框大小，修改输入节点的尺寸，将ICAN中ROIPooling的输入尺寸改为2048；其中，交互特征包括肢体热力图、空间关系；

步骤5：将融合后的特征向量转化为每类动作的概率。

2.根据权利要求1所述的视频人体交互行为识别方法，其特征在于：步骤1中，通过行人检测算法来检测和追踪交互行为个体的边界框，并依照得到的边界框来实现单个个体的分割。

3.根据权利要求2所述的频人体交互行为识别方法，其特征在于：采用抽帧取样的处理方式，每隔5帧采样一次，将采用视频传入YOLOv3模型中进行行人检测；同时，使用卡尔曼滤波的方法对检测到的行人进行跟踪。

4.根据权利要求1所述的视频人体交互行为识别方法，其特征在于：步骤2中，采用基于3D-Inception V3进行个体特征提取，通过三维卷积核在整个视频数据上进行时空滑动，生成与输入视频数据对应的3D特征图FM；

其中，个体特征包括时空兴趣点、运动历史图；V表示输入视频，Kernel表示卷积核；i、j表示图像块的空间位置，k表示视频帧的时域序号；H、W、L分别表示视频帧的高度、宽度和同时处理的帧数。

5.根据权利要求1所述的视频人体交互行为识别方法，其特征在于：步骤4中，为维持融合后特征幅值的一致性，在级联前首先对各自特征进行归一化处理；归一化公式如下：

6.根据权利要求1-5任意一项所述的视频人体交互行为识别方法，其特征在于：步骤5中，采用Softmax分类器将融合后的特征向量转化为每类动作的概率；假设共有K个动作类别，对于给定的特征v，其属于类别i的概率p_i计算为：

其中，w_i表示第i个分类器的权重。

7.一种视频人体交互行为识别系统，其特征在于：包括人体分割模块、个体特征提取模块、交互特征提取模块、特征融合模块、动作分类模块；

所述交互特征提取模块，用于针对输入视频，对视频中的人体图像进行交互特征提取；其中，采用基于HICAN进行交互特征提取；HICAN为改进的ICAN，HICAN在保证ICAN功能不变的前提下，将原网络中的ResNet5特征提取模块改为基于对象流的3D-Inception V3网络；同时，为了适应Inception V3的边界框大小，修改输入节点的尺寸，将ICAN中ROI Pooling的输入尺寸改为2048；其中，交互特征包括肢体热力图、空间关系；