CN110717384B - 一种视频交互式行为识别方法及装置 - Google Patents

一种视频交互式行为识别方法及装置 Download PDF

Info

Publication number
CN110717384B
CN110717384B CN201910811059.1A CN201910811059A CN110717384B CN 110717384 B CN110717384 B CN 110717384B CN 201910811059 A CN201910811059 A CN 201910811059A CN 110717384 B CN110717384 B CN 110717384B
Authority
CN
China
Prior art keywords
participant
interactive behavior
joint
frame
color space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910811059.1A
Other languages
English (en)
Other versions
CN110717384A (zh
Inventor
李岩山
郭天宇
周伟奇
刘星
刘瑜
王海鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Pingshan Big Data Resource Management Center
Shenzhen University
Original Assignee
Shenzhen Pingshan Big Data Resource Management Center
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Pingshan Big Data Resource Management Center, Shenzhen University filed Critical Shenzhen Pingshan Big Data Resource Management Center
Priority to CN201910811059.1A priority Critical patent/CN110717384B/zh
Publication of CN110717384A publication Critical patent/CN110717384A/zh
Application granted granted Critical
Publication of CN110717384B publication Critical patent/CN110717384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Abstract

本发明提供一种视频交互式行为识别方法及装置,所述方法包括:根据运动距离标注主动参与者及被动参与者;利用有效的15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;对所述彩色空间RGB图片进行视觉增强处理,输入到3‑stream神经网络识别所述交互式行为。根据本发明的方案,能够对交互式行为进行有效识别且交互式行为识别准确率高、效率高。

Description

一种视频交互式行为识别方法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视频交互式行为识别方法及装置。
背景技术
目前,行为识别在智能监控、人机交互、视频内容分析等领域有着广泛的应用前景,受到了越来越多的关注。目前的行为识别大多是基于单人的行为识别。然而,现实世界中,动作往往是由多个人执行的,交互式行为识别在智能监控、安全管制、健康管理等方面都是至关重要的。交互式行为识别由于其原始的骨架信息会随着双人位置的交换、主动被动动作的交换而带来巨大差异,另一方面,人与人之间复杂的时空结构关系加上相互遮挡和冗余姿态的存在也使得交互式行为识别具有较大难度。
对于近年来在单人骨架行为识别中显示出优势的端到端神经网络,例如卷积神经网络(CNN)和基于长时记忆的神经网络(LSTM),由于交互式行为识别中位置、视角、动作的交换对于原始骨架数据的影响巨大,因此造成从原始的骨架关节点坐标数据出发利用端到端的神经网络进行交互式行为识别的鲁棒性较差。
对于交互式行为识别,现有技术中存在通过挖掘不同骨架序列或同一骨架序列的不同部位的相对几何关系来对相对特征关系进行表述,再将相对特征关系进行SVM或者MILBoost分类,但随着处理的数据规模日渐增大,上述处理方式在处理大数据集时的准确率和效率均不能满足需求。
发明内容
为解决上述技术问题,本发明提出了一种视频交互式行为识别方法及装置,用以解决现有技术中不能对交互式行为进行识别或交互式行为识别准确率低、效率低的技术问题。
根据本发明的第一方面,提供一种视频交互式行为识别方法,包括:
步骤S201:在交互行为骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
Figure GDA0003420192540000021
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp
步骤S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
步骤S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
步骤S204:对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
进一步地,所述步骤S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片,包括:
定义
Figure GDA0003420192540000022
表示参与者x在时刻t的关节i的三维坐标;所述参与者x包括主动参与者Pa及被动参与者Pp
特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
Figure GDA0003420192540000023
其中,i,j是两个参与者的任何关节,
特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
Figure GDA0003420192540000031
其中,T是跨帧的间隔,
特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
Figure GDA0003420192540000032
将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对所述交互行为骨架序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
进一步地,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
进一步地,所述步骤S203:对所述彩色空间RGB图片进行视觉增强处理,识别所述交互式行为,包括:
基于数学形态学,使用形状探针探测所述彩色空间RGB图片,所述形状探针被称为结构化元素,所述结构化元素是一个二进制图像;
腐蚀操作符Θ定义为:
Figure GDA0003420192540000033
其中I是二值图像,E是结构化元素;对所述RGB图片应用腐蚀算子,采用公式(6)分别对RGB三通道进行腐蚀,得到视觉增强后的图像
Figure GDA0003420192540000034
Figure GDA0003420192540000035
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
根据本发明第二方面,提供一种视频交互式行为识别装置,包括:
划分参与者模块:用于在交互行为骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
Figure GDA0003420192540000041
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp
距离特征向量计算模块:用于对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
增强处理模块:用于对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
交互式行为识别模块:用于对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
进一步地,所述距离特征向量计算模块包括:
定义子模块:用于定义
Figure GDA0003420192540000042
表示参与者x在时刻t的关节i的三维坐标;所述参与者x包括主动参与者Pa及被动参与者Pp
关节点帧内距离特征向量计算子模块:用于计算特征向量,特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
Figure GDA0003420192540000043
其中,i,j是两个参与者的任何关节;
关节移动距离特征向量计算子模块:用于计算特征向量,特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
Figure GDA0003420192540000044
其中,T是跨帧的间隔;
关节全局距离特征向量计算子模块:用于计算特征向量,特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
Figure GDA0003420192540000051
彩色空间RGB生成子模块:用于将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对所述交互行为骨架序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
进一步地,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
进一步地,所述交互式行为识别模块包括:
腐蚀操作符定义子模块:用于基于数学形态学,使用形状探针探测所述彩色空间RGB图片,所述形状探针被称为结构化元素,所述结构化元素是一个二进制图像;
腐蚀操作符Θ定义为:
Figure GDA0003420192540000052
其中I是二值图像,E是结构化元素;
视觉增强图像生成子模块:用于对所述RGB图片应用腐蚀算子,采用公式(6)分别对RGB三通道进行腐蚀,得到视觉增强后的图像
Figure GDA0003420192540000053
Figure GDA0003420192540000054
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
根据本发明第三方面,提供一种视频交互式行为识别系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的视频交互式行为识别方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的视频交互式行为识别方法。
根据本发明的上述方案,能够对交互式行为进行有效识别且交互式行为识别准确率高、效率高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
图1A-1D为本发明提出的对称及不对称交互式行为示例图;
图2为本发明一个实施方式的视频交互式行为识别方法流程图;
图3为本发明一个实施方式的提取的15个骨架关键关节点示意图;
图4A为本发明一个实施方式的在时刻t的关节点的帧内距离示意图;
图4B为本发明一个实施方式的在时刻t到时刻t+T的关节点的跨帧移动信息示意图;
图4C为本发明一个实施方式的在时刻t的关节点的相对于第一帧的全局信息示意图;
图5示出了本发明一个实施方式的将彩色图片输入3-stream神经网络进行融合得到识别结果的示意图;
图6为本发明一个实施方式的视频交互式行为识别装置的组成框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
定义:
交互式行为:发生在两个主体之间,这两个主体通常有不同的行为和意图。
对称交互行为:当交互式行为的两个参与者在大致同一时刻开始相互作用,且他们的运动几乎相似,这个交互式行为定义为对称交互行为。比如握手、拥抱等,见图1A、1B。
不对称交互行为:当交互式行为的一个参与者发起该交互式行为而另一个参与者相应地作出反应时,这个交互式行为定义为不对称交互行为,比如踢、打等,见图1C、1D。
以下结合图2说明本发明的视频交互式行为识别方法。图2示出了根据本发明的视频交互式行为识别方法流程图。如图2所示,所述方法包括以下步骤:
S201:在交互行为骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
Figure GDA0003420192540000071
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp
对于不对称交互行为,当一个参与者的运动量较大时,无论是由哪一方先进行动,其都比另一参与者更主动。对于对称交互行为,两个参与者运动量相似,很难通过运动量来区分主动参与者及被动参与者。因此,本实施例中使用运动距离MD作为判断主动参与者、被动参与者的判断标准。
所述骨架序列可以利用Kinect深度相机直接拍摄获得,也可以利用3D姿态估计算法从普通视频中估计骨架序列。
S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
S204:对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
所述S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片,包括:
以下结合图3说明本发明的提取的15个骨架关键关节点。图3示出了根据本发明的提取的15个骨架关键关节点示意图。如图3所示,
获取由深度传感器从视频帧提取的两个参与者的骨架序列,分别提取15个骨架关键关节点数据,所述15个骨架关键节点包括:头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
以下结合图4A-C说明本发明的计算相对距离特征向量。图4A-C示出了根据本发明的提取的相对距离特征示意图。如图4A-C所示,图4A为本发明一个实施方式的在时刻t的关节点的帧内距离示意图;图4B为本发明一个实施方式的在时刻t到时刻t+T的关节点的跨帧移动信息示意图;图4C为本发明一个实施方式的在时刻t的关节点的相对于第一帧的全局信息示意图。
为了表征主动参与者及被动参与者之间的空间关系,定义
Figure GDA0003420192540000081
表示参与者x在时刻t的关节i的三维坐标。所述参与者x包括主动参与者及被动参与者;
特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
Figure GDA0003420192540000082
其中,i,j是两个参与者的任何关节,
通过公式(2)可以计算得到主动参与者Pa与自身关节点的特征关系、被动参与者Pp与自身关节点的特征关系;
特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
Figure GDA0003420192540000091
其中,T是跨帧的间隔,
通过公式(3)可以计算得到主动参与者Pa与被动参与者Pp关节点的特征关系;
特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
Figure GDA0003420192540000092
通过公式(4)可以计算得到主动参与者Pa与被动参与者Pp关节点的特征关系;
将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对交互行为骨架序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行特征连接,将主动参与者关节点与自身关节点的特征关系、被动参与者关节点与自身关节点的特征关系、主动参与者关节点与被动参与者关节点的特征关系,对应到R、G、B三个通道,从而得到彩色空间RGB的数据值。具体地,所述特征Fd(t)、Fm(t)、Fg(t),构成3×1维向量,每一帧的特征向量顺序连接,得到225×3维向量,再把各个帧进行连接,得到225×帧数×3维的向量,对应的就是所述彩色空间RGB的图像表示。再将所述彩色空间RGB的数据值归一化到[0,1]。
对于每一个交互行为骨架序列,都能得到一张RGB图片表征该交互骨架数据序列。
所述S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示,包括:
由于骨架序列数据序列的帧数有限,所述RGB图片的视觉图案是稀疏的,为了增强视觉模式,引入数学形态学(MM,mathematical morphology),数学形态学常用于数字图像,其基本的形态算子是erosion,dilation,opening and closing。使用简单的、预定义的形状探针探测二值图像,这个探针被称为结构化元素,它本身是一个二进制图像;
腐蚀操作符Θ定义为:
Figure GDA0003420192540000101
其中I是二值图像,E是结构元素。为了扩大彩色像素的区域,对所述RGB图片应用腐蚀算子,腐蚀算子操作针对二值图像,采用公式(6)分别对RGB三通道进行腐蚀,得到视觉增强后的图像
Figure GDA0003420192540000102
Figure GDA0003420192540000103
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
所述步骤S204:对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为,包括:
所述3-stream神经网络包括D-stream,M-stream和G-stream,图5展示出了将所述彩色图片输入3-stream神经网络进行融合得到识别结果的示意图。
将所述彩色空间RGB图片分别输入D-stream,M-stream和G-stream,所述D-stream,M-stream和G-stream分别对应特征Fd(t)、Fm(t)、Fg(t)。将所述特征分别输入D-stream,M-stream和G-stream,将这些stream的softmax层分数融合得到最终分数及预测标签,最后,利用所述3-stream Networks融合来得到最终的识别结果,识别出所述交互式行为。
对于每个stream,可以采用残差网络(ResNet-50)。
请参考图6,其为本发明提出的视频交互式行为识别装置组成框图。如图所示,该装置包括:
划分参与者模块:用于在交互行为骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
Figure GDA0003420192540000111
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp
距离特征向量计算模块:用于对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
增强处理模块:用于对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
交互式行为识别模块:用于对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
进一步地,距离特征向量计算模块包括:
定义子模块:用于定义
Figure GDA0003420192540000112
表示参与者x在时刻t的关节i的三维坐标;所述参与x包括主动参与者Pa及被动参与者Pp
关节点帧内距离特征向量计算子模块:用于计算特征向量,特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
Figure GDA0003420192540000113
其中,i,j是两个参与者的任何关节;
关节移动距离特征向量计算子模块:用于计算特征向量,特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
Figure GDA0003420192540000114
其中,T是跨帧的间隔;
关节全局距离特征向量计算子模块:用于计算特征向量,特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
Figure GDA0003420192540000121
彩色空间RGB生成子模块:用于将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对交互行为骨架序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
进一步地,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
进一步地,所述交互式行为识别模块包括:
腐蚀操作符定义子模块:用于基于数学形态学,使用形状探针探测所述彩色空间RGB图片,所述形状探针被称为结构化元素,所述结构化元素是一个二进制图像;
腐蚀操作符Θ定义为:
Figure GDA0003420192540000122
其中I是二值图像,E是结构化元素;
视觉增强图像生成子模块:用于对所述RGB图片应用腐蚀算子,采用公式(6)分别对RGB三通道进行腐蚀,得到视觉增强后的图像
Figure GDA0003420192540000123
Figure GDA0003420192540000124
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
本发明实施例进一步给出一种视频交互式行为识别系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如上所述的视频交互式行为识别方法。
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如上所述的视频交互式行为识别方法。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (7)

1.一种视频交互式行为识别方法,其特征在于,所述方法包括:
步骤S201:在交互行为骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD来衡量其在一个交互式行为中的运动量:
Figure FDA0003420192530000011
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp
步骤S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
步骤S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
步骤S204:对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为;
所述步骤S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片,包括:
定义
Figure FDA0003420192530000012
表示参与者x在时刻t的关节i的三维坐标;所述参与者x包括主动参与者Pa及被动参与者Pp
特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
Figure FDA0003420192530000013
其中,i,j是两个参与者的任何关节,
特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
Figure FDA0003420192530000014
其中,T是跨帧的间隔,
特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
Figure FDA0003420192530000021
将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对交互行为骨架序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
2.如权利要求1所述的视频交互式行为识别方法,其特征在于,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
3.如权利要求1所述的视频交互式行为识别方法,其特征在于,所述步骤S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示,包括:
基于数学形态学,使用形状探针探测所述彩色空间RGB图片,所述形状探针被称为结构化元素,所述结构化元素是一个二进制图像;
腐蚀操作符Θ定义为:
Figure FDA0003420192530000022
其中I是二值图像,E是结构化元素;对所述RGB图片应用腐蚀算子,采用公式(6)分别对RGB三通道进行腐蚀,得到视觉增强后的图像
Figure FDA0003420192530000023
Figure FDA0003420192530000024
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
4.一种视频交互式行为识别装置,其特征在于,所述装置包括:
划分参与者模块:用于在交互行为骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD来衡量其在一个交互式行为中的运动量:
Figure FDA0003420192530000025
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp
距离特征向量计算模块:用于对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
增强处理模块:用于对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
交互式行为识别模块:用于对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为;
所述距离特征向量计算模块包括:
定义子模块:用于定义
Figure FDA0003420192530000031
表示参与者x在时刻t的关节i的三维坐标;所述参与者x包括主动参与者Pa及被动参与者Pp
关节点帧内距离特征向量计算子模块:用于计算特征向量,特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
Figure FDA0003420192530000032
其中,i,j是两个参与者的任何关节;
关节移动距离特征向量计算子模块:用于计算特征向量,特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
Figure FDA0003420192530000033
其中,T是跨帧的间隔;
关节全局距离特征向量计算子模块:用于计算特征向量,特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
Figure FDA0003420192530000041
彩色空间RGB生成子模块:用于将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对交互行为骨架序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
5.如权利要求4所述的视频交互式行为识别装置,其特征在于,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
6.一种视频交互式行为识别系统,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-3任一所述视频交互式行为识别方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-3任一所述视频交互式行为识别方法。
CN201910811059.1A 2019-08-30 2019-08-30 一种视频交互式行为识别方法及装置 Active CN110717384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910811059.1A CN110717384B (zh) 2019-08-30 2019-08-30 一种视频交互式行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910811059.1A CN110717384B (zh) 2019-08-30 2019-08-30 一种视频交互式行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN110717384A CN110717384A (zh) 2020-01-21
CN110717384B true CN110717384B (zh) 2022-04-29

Family

ID=69209588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910811059.1A Active CN110717384B (zh) 2019-08-30 2019-08-30 一种视频交互式行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN110717384B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN112755362B (zh) * 2020-12-25 2022-10-21 滨州医学院 一种基于攀岩运动原理的多感官刺激交互的手部康复训练器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392131A (zh) * 2017-07-14 2017-11-24 天津大学 一种基于人体骨骼节点距离的动作识别方法
CN109446927B (zh) * 2018-10-11 2021-11-23 西安电子科技大学 基于先验知识的双人交互行为识别方法
CN109858406B (zh) * 2019-01-17 2023-04-07 西北大学 一种基于关节点信息的关键帧提取方法
CN109919085B (zh) * 2019-03-06 2020-11-03 西安电子科技大学 基于轻量型卷积神经网络的人人交互行为识别方法

Also Published As

Publication number Publication date
CN110717384A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
Zhou et al. ECFFNet: Effective and consistent feature fusion network for RGB-T salient object detection
CN110516620B (zh) 目标跟踪方法、装置、存储介质及电子设备
CN111126272B (zh) 姿态获取方法、关键点坐标定位模型的训练方法和装置
CN110176027B (zh) 视频目标跟踪方法、装置、设备及存储介质
CN111291885A (zh) 近红外图像的生成方法、生成网络的训练方法和装置
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN110751097B (zh) 一种半监督的三维点云手势关键点检测方法
CN111240476A (zh) 基于增强现实的交互方法、装置、存储介质和计算机设备
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN110717384B (zh) 一种视频交互式行为识别方法及装置
CN110807379A (zh) 一种语义识别方法、装置、以及计算机存储介质
CN111489394B (zh) 物体姿态估计模型训练方法、系统、装置及介质
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
WO2021103474A1 (zh) 图像的处理方法和装置、存储介质及电子装置
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN112785492A (zh) 图像处理方法、装置、电子设备和存储介质
CN112528902A (zh) 一种基于3d人脸模型的视频监控动态人脸识别方法及装置
Ling et al. Human object inpainting using manifold learning-based posture sequence estimation
CN112102342B (zh) 平面轮廓识别方法、装置、计算机设备和存储介质
Dutta et al. Weighted low rank approximation for background estimation problems
CN111652181A (zh) 目标跟踪方法、装置及电子设备
CN114049678B (zh) 一种基于深度学习的面部动作捕捉方法及系统
CN112967317B (zh) 一种动态环境下基于卷积神经网络架构的视觉里程计方法
Saif et al. Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant