CN110717384A

CN110717384A - 一种视频交互式行为识别方法及装置

Info

Publication number: CN110717384A
Application number: CN201910811059.1A
Authority: CN
Inventors: 李岩山; 郭天宇; 周伟奇; 刘星; 刘瑜; 王海鹏
Original assignee: Shenzhen Pingshan Big Data Resource Management Center; Shenzhen University
Current assignee: Shenzhen Pingshan Big Data Resource Management Center; Shenzhen University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2020-01-21
Anticipated expiration: 2039-08-30
Also published as: CN110717384B

Abstract

本发明提供一种视频交互式行为识别方法及装置，所述方法包括：根据运动距离标注主动参与者及被动参与者；利用有效的15个骨架关键关节点数据，计算相对距离特征向量；并对所述相对距离特征向量进行编码，得到表征所述交互式行为的骨架序列的彩色空间RGB图片；对所述彩色空间RGB图片进行视觉增强处理，输入到3‑stream神经网络识别所述交互式行为。根据本发明的方案，能够对交互式行为进行有效识别且交互式行为识别准确率高、效率高。

Description

一种视频交互式行为识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视频交互式行为识别方法及装置。

背景技术

目前，行为识别在智能监控、人机交互、视频内容分析等领域有着广泛的应用前景，受到了越来越多的关注。目前的行为识别大多是基于单人的行为识别。然而，现实世界中，动作往往是由多个人执行的，交互式行为识别在智能监控、安全管制、健康管理等方面都是至关重要的。交互式行为识别由于其原始的骨架信息会随着双人位置的交换、主动被动动作的交换而带来巨大差异，另一方面，人与人之间复杂的时空结构关系加上相互遮挡和冗余姿态的存在也使得交互式行为识别具有较大难度。

对于近年来在单人骨架行为识别中显示出优势的端到端神经网络，例如卷积神经网络(CNN)和基于长时记忆的神经网络(LSTM)，由于交互式行为识别中位置、视角、动作的交换对于原始骨架数据的影响巨大，因此造成从原始的骨架关节点坐标数据出发利用端到端的神经网络进行交互式行为识别的鲁棒性较差。

对于交互式行为识别，现有技术中存在通过挖掘不同骨架序列或同一骨架序列的不同部位的相对几何关系来对相对特征关系进行表述，再将相对特征关系进行SVM或者MILBoost分类，但随着处理的数据规模日渐增大，上述处理方式在处理大数据集时的准确率和效率均不能满足需求。

发明内容

为解决上述技术问题，本发明提出了一种视频交互式行为识别方法及装置，用以解决现有技术中不能对交互式行为进行识别或交互式行为识别准确率低、效率低的技术问题。

根据本发明的第一方面，提供一种视频交互式行为识别方法，包括：

步骤S201：在待识别骨架序列数据集中标注主动参与者及被动参与者，对每个参与者P_i定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量：

其中L代表运动序列的帧数，j代表第j个关节点，d(P_i ^j,t,P_i ^j,t+1)代表参与者P_i的关节点j在t帧和t+1帧之间的欧氏距离；将运动距离MD较大的参与者标注为主动参与者P_a，将另一参与者标注为被动参与者P_p；

步骤S202：对交互行为骨架序列，提取15个骨架关键关节点数据，计算相对距离特征向量；并对所述相对距离特征向量进行编码，得到表征所述交互式行为的骨架序列的彩色空间RGB图片；

步骤S203：对所述彩色空间RGB图片进行视觉增强处理，优化特征表示；

步骤S204：对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。

进一步地，所述步骤S202：对交互行为骨架序列，提取15个骨架关键关节点数据，计算相对距离特征向量；并对所述相对距离特征向量进行编码，得到表征所述交互式行为的骨架序列的彩色空间RGB图片，包括：

定义

表示参与者x在时刻t的关节i的三维坐标；所述参与者x包括主动参与者P_a及被动参与者P_p；

特征F^d(t)为所述主动参与者及被动参与者在关节点的帧内距离，其特征向量按公式(2)计算：

其中，i,j是两个参与者的任何关节，

特征F^m(t)为主动参与者和被动参与者的关节点的跨帧运动信息，其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算：

其中，T是跨帧的间隔，

特征F^g(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息，其在时刻t的关节全局距离特征向量按公式(4)计算：

将由公式(2)-(4)得到的特征F^d(t)、F^m(t)、F^g(t)，对所述骨架运动序列的各个帧，将上述特征在每个帧内进行顺序连接，再将帧与帧之间逐帧进行连接，得到彩色空间RGB的数据值，再将所述彩色空间RGB的数据值归一化到[0,1]。

进一步地，所述15个骨架关键关节点包括：

头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。

进一步地，所述步骤S203：对所述彩色空间RGB图片进行视觉增强处理，识别所述交互式行为，包括：

基于数学形态学，使用形状探针探测所述彩色空间RGB图片，所述形状探针被称为结构化元素，所述结构化元素是一个二进制图像；

腐蚀操作符Θ定义为：

其中I是二值图像，E是结构化元素；对所述RGB图片应用腐蚀算子，采用公式(6)分别对RGB三通道进行腐蚀，得到视觉增强后的图像

其中I_R、I_G、I_B代表腐蚀前所述RGB图片的三通道数据。

根据本发明第二方面，提供一种视频交互式行为识别装置，包括：

划分参与者模块：用于在待识别骨架序列数据集中标注主动参与者及被动参与者，对每个参与者P_i定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量：

距离特征向量计算模块：用于对交互行为骨架序列，提取15个骨架关键关节点数据，计算相对距离特征向量；并对所述相对距离特征向量进行编码，得到表征所述交互式行为的骨架序列的彩色空间RGB图片；

增强处理模块：用于对所述彩色空间RGB图片进行视觉增强处理，优化特征表示；

交互式行为识别模块：用于对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。

进一步地，所述距离特征向量计算模块包括：

定义子模块：用于定义

关节点帧内距离特征向量计算子模块：用于计算特征向量，特征F^d(t)为所述主动参与者及被动参与者在关节点的帧内距离，其特征向量按公式(2)计算：

其中，i,j是两个参与者的任何关节；

关节移动距离特征向量计算子模块：用于计算特征向量，特征F^m(t)为主动参与者和被动参与者的关节点的跨帧运动信息，其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算：

其中，T是跨帧的间隔；

关节全局距离特征向量计算子模块：用于计算特征向量，特征F^g(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息，其在时刻t的关节全局距离特征向量按公式(4)计算：

彩色空间RGB生成子模块：用于将由公式(2)-(4)得到的特征F^d(t)、F^m(t)、F^g(t)，对所述骨架运动序列的各个帧，将上述特征在每个帧内进行顺序连接，再将帧与帧之间逐帧进行连接，得到彩色空间RGB的数据值，再将所述彩色空间RGB的数据值归一化到[0,1]。

进一步地，所述15个骨架关键关节点包括：

进一步地，所述交互式行为识别模块包括：

腐蚀操作符定义子模块：用于基于数学形态学，使用形状探针探测所述彩色空间RGB图片，所述形状探针被称为结构化元素，所述结构化元素是一个二进制图像；

腐蚀操作符Θ定义为：

其中I是二值图像，E是结构化元素；

视觉增强图像生成子模块：用于对所述RGB图片应用腐蚀算子，采用公式(6)分别对RGB三通道进行腐蚀，得到视觉增强后的图像

其中I_R、I_G、I_B代表腐蚀前所述RGB图片的三通道数据。

根据本发明第三方面，提供一种视频交互式行为识别系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的视频交互式行为识别方法。

根据本发明第四方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的视频交互式行为识别方法。

根据本发明的上述方案，能够对交互式行为进行有效识别且交互式行为识别准确率高、效率高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明提供如下附图进行说明。在附图中：

图1A-D为本发明提出的对称及不对称交互式行为示例图；

图2为本发明一个实施方式的视频交互式行为识别方法流程图；

图3为本发明一个实施方式的提取的15个骨架关键关节点示意图；

图4A为本发明一个实施方式的在时刻t的关节点的帧内距离示意图；

图4B为本发明一个实施方式的在时刻t到时刻t+T的关节点的跨帧移动信息示意图；

图4C为本发明一个实施方式的在时刻t的关节点的相对于第一帧的全局信息示意图；

图5示出了本发明一个实施方式的将彩色图片输入3-stream神经网络进行融合得到识别结果的示意图；

图6为本发明一个实施方式的视频交互式行为识别装置的组成框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

定义：

交互式行为：发生在两个主体之间，这两个主体通常有不同的行为和意图。

对称交互行为：当交互式行为的两个参与者在大致同一时刻开始相互作用，且他们的运动几乎相似，这个交互式行为定义为对称交互行为。比如握手、拥抱等，见图1A、1B。

不对称交互行为：当交互式行为的一个参与者发起该交互式行为而另一个参与者相应地作出反应时，这个交互式行为定义为不对称交互行为，比如踢、打等，见图1C、1D。

以下结合图2说明本发明的视频交互式行为识别方法。图2示出了根据本发明的视频交互式行为识别方法流程图。如图2所示，所述方法包括以下步骤：

S201：在待识别骨架序列数据集中标注主动参与者及被动参与者，对每个参与者P_i定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量：

对于不对称交互行为，当一个参与者的运动量较大时，无论是由哪一方先进行动，其都比另一参与者更主动。对于对称交互行为，两个参与者运动量相似，很难通过运动量来区分主动参与者及被动参与者。因此，本实施例中使用运动距离MD作为判断主动参与者、被动参与者的判断标准。

所述骨架序列可以利用Kinect深度相机直接拍摄获得，也可以利用3D姿态估计算法从普通视频中估计骨架序列。

S202：对交互行为骨架序列，提取15个骨架关键关节点数据，计算相对距离特征向量；并对所述相对距离特征向量进行编码，得到表征所述交互式行为的骨架序列的彩色空间RGB图片；

S203：对所述彩色空间RGB图片进行视觉增强处理，优化特征表示；

S204：对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。

所述S202：对交互行为骨架序列，提取15个骨架关键关节点数据，计算相对距离特征向量；并对所述相对距离特征向量进行编码，得到表征所述交互式行为的骨架序列的彩色空间RGB图片，包括：

以下结合图3说明本发明的提取的15个骨架关键关节点。图3示出了根据本发明的提取的15个骨架关键关节点示意图。如图3所示，

获取由深度传感器从视频帧提取的两个参与者的骨架序列，分别提取15个骨架关键关节点数据，所述15个骨架关键节点包括：头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。

以下结合图4A-C说明本发明的计算相对距离特征向量。图4A-C示出了根据本发明的提取的相对距离特征示意图。如图4A-C所示，图4A为本发明一个实施方式的在时刻t的关节点的帧内距离示意图；图4B为本发明一个实施方式的在时刻t到时刻t+T的关节点的跨帧移动信息示意图；图4C为本发明一个实施方式的在时刻t的关节点的相对于第一帧的全局信息示意图。

为了表征主动参与者及被动参与者之间的空间关系，定义

表示参与者x在时刻t的关节i的三维坐标。所述参与者x包括主动参与者及被动参与者；

其中，i,j是两个参与者的任何关节，

通过公式(2)可以计算得到主动参与者P_a与自身关节点的特征关系、被动参与者P_p与自身关节点的特征关系；

其中，T是跨帧的间隔，

通过公式(3)可以计算得到主动参与者P_a与被动参与者P_p关节点的特征关系；

通过公式(4)可以计算得到主动参与者P_a与被动参与者P_p关节点的特征关系；

将由公式(2)-(4)得到的特征F^d(t)、F^m(t)、F^g(t)，对骨架运动序列的各个帧，将上述特征在每个帧内进行顺序连接，再将帧与帧之间逐帧进行特征连接，将主动参与者关节点与自身关节点的特征关系、被动参与者关节点与自身关节点的特征关系、主动参与者关节点与被动参与者关节点的特征关系，对应到R、G、B三个通道，从而得到彩色空间RGB的数据值。具体地，所述特征F^d(t)、F^m(t)、F^g(t)，构成3×1维向量，每一帧的特征向量顺序连接，得到225×3维向量，再把各个帧进行连接，得到225×帧数×3维的向量，对应的就是所述彩色空间RGB的图像表示。再将所述彩色空间RGB的数据值归一化到[0,1]。

对于每一个交互行为骨架序列，都能得到一张RGB图片表征该交互骨架数据序列。

所述S203：对所述彩色空间RGB图片进行视觉增强处理，优化特征表示，包括：

由于骨架序列数据序列的帧数有限，所述RGB图片的视觉图案是稀疏的，为了增强视觉模式，引入数学形态学(MM，mathematical morphology)，数学形态学常用于数字图像，其基本的形态算子是erosion，dilation，opening and closing。使用简单的、预定义的形状探针探测二值图像，这个探针被称为结构化元素，它本身是一个二进制图像；

腐蚀操作符Θ定义为：

其中I是二值图像，E是结构元素。为了扩大彩色像素的区域，对所述RGB图片应用腐蚀算子，腐蚀算子操作针对二值图像，采用公式(6)分别对RGB三通道进行腐蚀，得到视觉增强后的图像

其中I_R、I_G、I_B代表腐蚀前所述RGB图片的三通道数据。

所述步骤S204：对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为，包括：

所述3-stream神经网络包括D-stream，M-stream和G-stream，图5展示出了将所述彩色图片输入3-stream神经网络进行融合得到识别结果的示意图。

将所述彩色空间RGB图片分别输入D-stream，M-stream和G-stream，所述D-stream，M-stream和G-stream分别对应特征F^d(t)、F^m(t)、F^g(t)。将所述特征分别输入D-stream，M-stream和G-stream，将这些stream的softmax层分数融合得到最终分数及预测标签，最后，利用所述3-stream Networks融合来得到最终的识别结果，识别出所述交互式行为。

对于每个stream，可以采用残差网络(ResNet-50)。

请参考图6，其为本发明提出的视频交互式行为识别装置组成框图。如图所示，该装置包括：

进一步地，距离特征向量计算模块包括：

定义子模块：用于定义

表示参与者x在时刻t的关节i的三维坐标；所述参与x包括主动参与者P_a及被动参与者P_p；

其中，i,j是两个参与者的任何关节；

其中，T是跨帧的间隔；

彩色空间RGB生成子模块：用于将由公式(2)-(4)得到的特征F^d(t)、F^m(t)、F^g(t)，对骨架运动序列的各个帧，将上述特征在每个帧内进行顺序连接，再将帧与帧之间逐帧进行连接，得到彩色空间RGB的数据值，再将所述彩色空间RGB的数据值归一化到[0,1]。

进一步地，所述15个骨架关键关节点包括：

进一步地，所述交互式行为识别模块包括：

腐蚀操作符Θ定义为：

其中I是二值图像，E是结构化元素；

其中I_R、I_G、I_B代表腐蚀前所述RGB图片的三通道数据。

本发明实施例进一步给出一种视频交互式行为识别系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如上所述的视频交互式行为识别方法。

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如上所述的视频交互式行为识别方法。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。