CN110717384A - 一种视频交互式行为识别方法及装置 - Google Patents
一种视频交互式行为识别方法及装置 Download PDFInfo
- Publication number
- CN110717384A CN110717384A CN201910811059.1A CN201910811059A CN110717384A CN 110717384 A CN110717384 A CN 110717384A CN 201910811059 A CN201910811059 A CN 201910811059A CN 110717384 A CN110717384 A CN 110717384A
- Authority
- CN
- China
- Prior art keywords
- participant
- interactive behavior
- joint
- color space
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 67
- 230000000007 visual effect Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000006399 behavior Effects 0.000 claims description 93
- 238000004364 calculation method Methods 0.000 claims description 19
- 210000003423 ankle Anatomy 0.000 claims description 12
- 210000003127 knee Anatomy 0.000 claims description 12
- 210000000707 wrist Anatomy 0.000 claims description 12
- 230000003628 erosive effect Effects 0.000 claims description 9
- 239000000523 sample Substances 0.000 claims description 8
- 230000007797 corrosion Effects 0.000 claims description 7
- 238000005260 corrosion Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000005530 etching Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种视频交互式行为识别方法及装置,所述方法包括:根据运动距离标注主动参与者及被动参与者;利用有效的15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;对所述彩色空间RGB图片进行视觉增强处理,输入到3‑stream神经网络识别所述交互式行为。根据本发明的方案,能够对交互式行为进行有效识别且交互式行为识别准确率高、效率高。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视频交互式行为识别方法及装置。
背景技术
目前,行为识别在智能监控、人机交互、视频内容分析等领域有着广泛的应用前景,受到了越来越多的关注。目前的行为识别大多是基于单人的行为识别。然而,现实世界中,动作往往是由多个人执行的,交互式行为识别在智能监控、安全管制、健康管理等方面都是至关重要的。交互式行为识别由于其原始的骨架信息会随着双人位置的交换、主动被动动作的交换而带来巨大差异,另一方面,人与人之间复杂的时空结构关系加上相互遮挡和冗余姿态的存在也使得交互式行为识别具有较大难度。
对于近年来在单人骨架行为识别中显示出优势的端到端神经网络,例如卷积神经网络(CNN)和基于长时记忆的神经网络(LSTM),由于交互式行为识别中位置、视角、动作的交换对于原始骨架数据的影响巨大,因此造成从原始的骨架关节点坐标数据出发利用端到端的神经网络进行交互式行为识别的鲁棒性较差。
对于交互式行为识别,现有技术中存在通过挖掘不同骨架序列或同一骨架序列的不同部位的相对几何关系来对相对特征关系进行表述,再将相对特征关系进行SVM或者MILBoost分类,但随着处理的数据规模日渐增大,上述处理方式在处理大数据集时的准确率和效率均不能满足需求。
发明内容
为解决上述技术问题,本发明提出了一种视频交互式行为识别方法及装置,用以解决现有技术中不能对交互式行为进行识别或交互式行为识别准确率低、效率低的技术问题。
根据本发明的第一方面,提供一种视频交互式行为识别方法,包括:
步骤S201:在待识别骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp;
步骤S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
步骤S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
步骤S204:对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
进一步地,所述步骤S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片,包括:
特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
其中,i,j是两个参与者的任何关节,
特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
其中,T是跨帧的间隔,
特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对所述骨架运动序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
进一步地,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
进一步地,所述步骤S203:对所述彩色空间RGB图片进行视觉增强处理,识别所述交互式行为,包括:
基于数学形态学,使用形状探针探测所述彩色空间RGB图片,所述形状探针被称为结构化元素,所述结构化元素是一个二进制图像;
腐蚀操作符Θ定义为:
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
根据本发明第二方面,提供一种视频交互式行为识别装置,包括:
划分参与者模块:用于在待识别骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp;
距离特征向量计算模块:用于对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
增强处理模块:用于对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
交互式行为识别模块:用于对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
进一步地,所述距离特征向量计算模块包括:
关节点帧内距离特征向量计算子模块:用于计算特征向量,特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
其中,i,j是两个参与者的任何关节;
关节移动距离特征向量计算子模块:用于计算特征向量,特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
其中,T是跨帧的间隔;
关节全局距离特征向量计算子模块:用于计算特征向量,特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
彩色空间RGB生成子模块:用于将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对所述骨架运动序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
进一步地,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
进一步地,所述交互式行为识别模块包括:
腐蚀操作符定义子模块:用于基于数学形态学,使用形状探针探测所述彩色空间RGB图片,所述形状探针被称为结构化元素,所述结构化元素是一个二进制图像;
腐蚀操作符Θ定义为:
其中I是二值图像,E是结构化元素;
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
根据本发明第三方面,提供一种视频交互式行为识别系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的视频交互式行为识别方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的视频交互式行为识别方法。
根据本发明的上述方案,能够对交互式行为进行有效识别且交互式行为识别准确率高、效率高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
图1A-D为本发明提出的对称及不对称交互式行为示例图;
图2为本发明一个实施方式的视频交互式行为识别方法流程图;
图3为本发明一个实施方式的提取的15个骨架关键关节点示意图;
图4A为本发明一个实施方式的在时刻t的关节点的帧内距离示意图;
图4B为本发明一个实施方式的在时刻t到时刻t+T的关节点的跨帧移动信息示意图;
图4C为本发明一个实施方式的在时刻t的关节点的相对于第一帧的全局信息示意图;
图5示出了本发明一个实施方式的将彩色图片输入3-stream神经网络进行融合得到识别结果的示意图;
图6为本发明一个实施方式的视频交互式行为识别装置的组成框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
定义:
交互式行为:发生在两个主体之间,这两个主体通常有不同的行为和意图。
对称交互行为:当交互式行为的两个参与者在大致同一时刻开始相互作用,且他们的运动几乎相似,这个交互式行为定义为对称交互行为。比如握手、拥抱等,见图1A、1B。
不对称交互行为:当交互式行为的一个参与者发起该交互式行为而另一个参与者相应地作出反应时,这个交互式行为定义为不对称交互行为,比如踢、打等,见图1C、1D。
以下结合图2说明本发明的视频交互式行为识别方法。图2示出了根据本发明的视频交互式行为识别方法流程图。如图2所示,所述方法包括以下步骤:
S201:在待识别骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp;
对于不对称交互行为,当一个参与者的运动量较大时,无论是由哪一方先进行动,其都比另一参与者更主动。对于对称交互行为,两个参与者运动量相似,很难通过运动量来区分主动参与者及被动参与者。因此,本实施例中使用运动距离MD作为判断主动参与者、被动参与者的判断标准。
所述骨架序列可以利用Kinect深度相机直接拍摄获得,也可以利用3D姿态估计算法从普通视频中估计骨架序列。
S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
S204:对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
所述S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片,包括:
以下结合图3说明本发明的提取的15个骨架关键关节点。图3示出了根据本发明的提取的15个骨架关键关节点示意图。如图3所示,
获取由深度传感器从视频帧提取的两个参与者的骨架序列,分别提取15个骨架关键关节点数据,所述15个骨架关键节点包括:头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
以下结合图4A-C说明本发明的计算相对距离特征向量。图4A-C示出了根据本发明的提取的相对距离特征示意图。如图4A-C所示,图4A为本发明一个实施方式的在时刻t的关节点的帧内距离示意图;图4B为本发明一个实施方式的在时刻t到时刻t+T的关节点的跨帧移动信息示意图;图4C为本发明一个实施方式的在时刻t的关节点的相对于第一帧的全局信息示意图。
特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
其中,i,j是两个参与者的任何关节,
通过公式(2)可以计算得到主动参与者Pa与自身关节点的特征关系、被动参与者Pp与自身关节点的特征关系;
特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
其中,T是跨帧的间隔,
通过公式(3)可以计算得到主动参与者Pa与被动参与者Pp关节点的特征关系;
特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
通过公式(4)可以计算得到主动参与者Pa与被动参与者Pp关节点的特征关系;
将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对骨架运动序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行特征连接,将主动参与者关节点与自身关节点的特征关系、被动参与者关节点与自身关节点的特征关系、主动参与者关节点与被动参与者关节点的特征关系,对应到R、G、B三个通道,从而得到彩色空间RGB的数据值。具体地,所述特征Fd(t)、Fm(t)、Fg(t),构成3×1维向量,每一帧的特征向量顺序连接,得到225×3维向量,再把各个帧进行连接,得到225×帧数×3维的向量,对应的就是所述彩色空间RGB的图像表示。再将所述彩色空间RGB的数据值归一化到[0,1]。
对于每一个交互行为骨架序列,都能得到一张RGB图片表征该交互骨架数据序列。
所述S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示,包括:
由于骨架序列数据序列的帧数有限,所述RGB图片的视觉图案是稀疏的,为了增强视觉模式,引入数学形态学(MM,mathematical morphology),数学形态学常用于数字图像,其基本的形态算子是erosion,dilation,opening and closing。使用简单的、预定义的形状探针探测二值图像,这个探针被称为结构化元素,它本身是一个二进制图像;
腐蚀操作符Θ定义为:
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
所述步骤S204:对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为,包括:
所述3-stream神经网络包括D-stream,M-stream和G-stream,图5展示出了将所述彩色图片输入3-stream神经网络进行融合得到识别结果的示意图。
将所述彩色空间RGB图片分别输入D-stream,M-stream和G-stream,所述D-stream,M-stream和G-stream分别对应特征Fd(t)、Fm(t)、Fg(t)。将所述特征分别输入D-stream,M-stream和G-stream,将这些stream的softmax层分数融合得到最终分数及预测标签,最后,利用所述3-stream Networks融合来得到最终的识别结果,识别出所述交互式行为。
对于每个stream,可以采用残差网络(ResNet-50)。
请参考图6,其为本发明提出的视频交互式行为识别装置组成框图。如图所示,该装置包括:
划分参与者模块:用于在待识别骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp;
距离特征向量计算模块:用于对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
增强处理模块:用于对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
交互式行为识别模块:用于对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
进一步地,距离特征向量计算模块包括:
关节点帧内距离特征向量计算子模块:用于计算特征向量,特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
其中,i,j是两个参与者的任何关节;
关节移动距离特征向量计算子模块:用于计算特征向量,特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
其中,T是跨帧的间隔;
关节全局距离特征向量计算子模块:用于计算特征向量,特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
彩色空间RGB生成子模块:用于将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对骨架运动序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
进一步地,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
进一步地,所述交互式行为识别模块包括:
腐蚀操作符定义子模块:用于基于数学形态学,使用形状探针探测所述彩色空间RGB图片,所述形状探针被称为结构化元素,所述结构化元素是一个二进制图像;
腐蚀操作符Θ定义为:
其中I是二值图像,E是结构化元素;
其中IR、IG、IB代表腐蚀前所述RGB图片的三通道数据。
本发明实施例进一步给出一种视频交互式行为识别系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如上所述的视频交互式行为识别方法。
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如上所述的视频交互式行为识别方法。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种视频交互式行为识别方法,其特征在于,所述方法包括:
步骤S201:在待识别骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp;
步骤S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
步骤S203:对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
步骤S204:对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
2.如权利要求1所述的视频交互式行为识别方法,其特征在于,所述步骤S202:对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片,包括:
特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
其中,i,j是两个参与者的任何关节,
特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
其中,T是跨帧的间隔,
特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对骨架运动序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
3.如权利要求1所述的视频交互式行为识别方法,其特征在于,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
5.一种视频交互式行为识别装置,其特征在于,所述装置包括:
划分参与者模块:用于在待识别骨架序列数据集中标注主动参与者及被动参与者,对每个参与者Pi定义运动距离MD(Moving distance)来衡量其在一个交互式行为中的运动量:
其中L代表运动序列的帧数,j代表第j个关节点,d(Pi j,t,Pi j,t+1)代表参与者Pi的关节点j在t帧和t+1帧之间的欧氏距离;将运动距离MD较大的参与者标注为主动参与者Pa,将另一参与者标注为被动参与者Pp;
距离特征向量计算模块:用于对交互行为骨架序列,提取15个骨架关键关节点数据,计算相对距离特征向量;并对所述相对距离特征向量进行编码,得到表征所述交互式行为的骨架序列的彩色空间RGB图片;
增强处理模块:用于对所述彩色空间RGB图片进行视觉增强处理,优化特征表示;
交互式行为识别模块:用于对所述彩色空间RGB图片利用3-stream神经网络识别所述交互式行为。
6.如权利要求5所述的视频交互式行为识别装置,其特征在于,所述距离特征向量计算模块包括:
关节点帧内距离特征向量计算子模块:用于计算特征向量,特征Fd(t)为所述主动参与者及被动参与者在关节点的帧内距离,其特征向量按公式(2)计算:
其中,i,j是两个参与者的任何关节;
关节移动距离特征向量计算子模块:用于计算特征向量,特征Fm(t)为主动参与者和被动参与者的关节点的跨帧运动信息,其在时刻t到时刻t+T的关节移动距离特征向量按公式(3)计算:
其中,T是跨帧的间隔;
关节全局距离特征向量计算子模块:用于计算特征向量,特征Fg(t)为主动参与者和被动参与者的关节点的相对于第一帧的全局信息,其在时刻t的关节全局距离特征向量按公式(4)计算:
彩色空间RGB生成子模块:用于将由公式(2)-(4)得到的特征Fd(t)、Fm(t)、Fg(t),对骨架运动序列的各个帧,将上述特征在每个帧内进行顺序连接,再将帧与帧之间逐帧进行连接,得到彩色空间RGB的数据值,再将所述彩色空间RGB的数据值归一化到[0,1]。
7.如权利要求5所述的视频交互式行为识别装置,其特征在于,所述15个骨架关键关节点包括:
头、颈、左肩、右肩、左肘、右肘、左手腕、右手腕、腰、左臀、右臀、左膝、右膝、左脚踝、右脚踝。
9.一种视频交互式行为识别系统,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-4任一所述的视频交互式行为识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-4任一所述的视频交互式行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910811059.1A CN110717384B (zh) | 2019-08-30 | 2019-08-30 | 一种视频交互式行为识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910811059.1A CN110717384B (zh) | 2019-08-30 | 2019-08-30 | 一种视频交互式行为识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110717384A true CN110717384A (zh) | 2020-01-21 |
CN110717384B CN110717384B (zh) | 2022-04-29 |
Family
ID=69209588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910811059.1A Active CN110717384B (zh) | 2019-08-30 | 2019-08-30 | 一种视频交互式行为识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717384B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464875A (zh) * | 2020-12-09 | 2021-03-09 | 南京大学 | 一种视频中的人-物交互关系检测方法及装置 |
CN112755362A (zh) * | 2020-12-25 | 2021-05-07 | 滨州医学院 | 一种基于攀岩运动原理的多感官刺激交互的手部康复训练器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392131A (zh) * | 2017-07-14 | 2017-11-24 | 天津大学 | 一种基于人体骨骼节点距离的动作识别方法 |
CN109446927A (zh) * | 2018-10-11 | 2019-03-08 | 西安电子科技大学 | 基于先验知识的双人交互行为识别方法 |
CN109858406A (zh) * | 2019-01-17 | 2019-06-07 | 西北大学 | 一种基于关节点信息的关键帧提取方法 |
CN109919085A (zh) * | 2019-03-06 | 2019-06-21 | 西安电子科技大学 | 基于轻量型卷积神经网络的人人交互行为识别方法 |
-
2019
- 2019-08-30 CN CN201910811059.1A patent/CN110717384B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392131A (zh) * | 2017-07-14 | 2017-11-24 | 天津大学 | 一种基于人体骨骼节点距离的动作识别方法 |
CN109446927A (zh) * | 2018-10-11 | 2019-03-08 | 西安电子科技大学 | 基于先验知识的双人交互行为识别方法 |
CN109858406A (zh) * | 2019-01-17 | 2019-06-07 | 西北大学 | 一种基于关节点信息的关键帧提取方法 |
CN109919085A (zh) * | 2019-03-06 | 2019-06-21 | 西安电子科技大学 | 基于轻量型卷积神经网络的人人交互行为识别方法 |
Non-Patent Citations (6)
Title |
---|
CHUANKUN LI,YONGHONG HOU,PICHAO WANG,WANQING LI: "Joint Distance Maps Based Action Recognition With Convolutional Neural Networks", 《IEEE SIGNAL PROCESSING LETTERS》 * |
HUIMIN WU,JIE SHAO,XING XU,YANLI JI,FUMIN SHEN,HENG TAO SHE: "Recognition and Detection of Two-Person Interactive Actions Using Automatically Selected Skeleton Features", 《IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS》 * |
LIANGLIANGWANG,LIANZHENGGE,RUIFENGLI,YAJUNFANG: "Three-stream CNNs for action recognition", 《PATTERN RECOGNITION LETTERS》 * |
THIEN HUYNH-THE,CAM-HAO HUA,DONG-SEONG KIM: "Learning Action Images Using Deep Convolutional Neural Networks For 3D Action Recognition", 《2019 IEEE SENSORS APPLICATIONS SYMPOSIUM (SAS)》 * |
YANLI JI,ATSUSHI SHIMADA,HAJIME NAGAHARA,RIN-ICHIRO TANIGUCHI: "Contribution estimation of participants for human interaction recognition", 《INSTITUTE OF ELECTRICAL ENGINEERS OF JAPAN》 * |
YANLI JI,GUO YE,HONG CHENG: "Interactive body part contrast mining for human interaction recognition", 《2014 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO WORKSHOPS (ICMEW)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464875A (zh) * | 2020-12-09 | 2021-03-09 | 南京大学 | 一种视频中的人-物交互关系检测方法及装置 |
CN112755362A (zh) * | 2020-12-25 | 2021-05-07 | 滨州医学院 | 一种基于攀岩运动原理的多感官刺激交互的手部康复训练器 |
Also Published As
Publication number | Publication date |
---|---|
CN110717384B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | ECFFNet: Effective and consistent feature fusion network for RGB-T salient object detection | |
CN111126272B (zh) | 姿态获取方法、关键点坐标定位模型的训练方法和装置 | |
CN111291885A (zh) | 近红外图像的生成方法、生成网络的训练方法和装置 | |
CN112530019B (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
CN113706699B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN112101262B (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN110717384B (zh) | 一种视频交互式行为识别方法及装置 | |
CN110807379A (zh) | 一种语义识别方法、装置、以及计算机存储介质 | |
Xu et al. | Robust hand gesture recognition based on RGB-D Data for natural human–computer interaction | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN112528902A (zh) | 一种基于3d人脸模型的视频监控动态人脸识别方法及装置 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN111652181A (zh) | 目标跟踪方法、装置及电子设备 | |
CN111178201A (zh) | 基于OpenPose姿态检测的人体分段式跟踪方法 | |
Islam et al. | MVS‐SLAM: Enhanced multiview geometry for improved semantic RGBD SLAM in dynamic environment | |
Ling et al. | Human object inpainting using manifold learning-based posture sequence estimation | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
Su et al. | Smart training: Mask R-CNN oriented approach | |
Saif et al. | Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition | |
CN112967317B (zh) | 一种动态环境下基于卷积神经网络架构的视觉里程计方法 | |
CN111160255B (zh) | 一种基于三维卷积网络的捕鱼行为识别方法及系统 | |
Meng et al. | Distortion-aware room layout estimation from a single fisheye image | |
Nguyen et al. | Semantically-aware Neural Radiance Fields for Visual Scene Understanding: A Comprehensive Review | |
CN114419158A (zh) | 六维姿态估计方法、网络训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |