CN113610046A - 一种基于深度视频联动特征的行为识别方法 - Google Patents
一种基于深度视频联动特征的行为识别方法 Download PDFInfo
- Publication number
- CN113610046A CN113610046A CN202110968288.1A CN202110968288A CN113610046A CN 113610046 A CN113610046 A CN 113610046A CN 202110968288 A CN202110968288 A CN 202110968288A CN 113610046 A CN113610046 A CN 113610046A
- Authority
- CN
- China
- Prior art keywords
- projection
- depth
- behavior
- value
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000011176 pooling Methods 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims description 201
- 239000013598 vector Substances 0.000 claims description 78
- 238000004364 calculation method Methods 0.000 claims description 69
- 230000004927 fusion Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 210000002569 neuron Anatomy 0.000 claims description 14
- 238000012886 linear function Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度视频联动特征的行为识别方法,包括以下步骤:将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;将每个行为样本的动态图像输入各自的特征提取模块并提取特征;将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征;按通道连接提取到的所有联动特征,并将连接后的特征输入平均池化层和全连接层;构造基于深度视频联动特征的行为识别网络;将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;将每个待测试行为样本的深度视频输入训练好的行为识别网络,实现行为识别。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于深度视频联动特征的行为识别方法。
背景技术
目前,行为识别是计算机视觉领域的一个研究热点。它在视频监控、行为分析等领域有着广泛的应用。
随着深度相机的发展,人们可以便捷的获取深度视频,其中包含了大量的运动信息。一部分学者获取深度视频中的人体骨骼关节点位置,利用关节点数据进行识别。另有一部分学者直接将深度视频输入网络进行行为识别。然而,基于骨骼关节点的行为识别,容易受到获取骨骼关节点的精度的影响,而且容易受到行为的类内差异、骨骼关节点的遮挡的影响。直接将深度视频输入网络,未能很好的利用深度视频包含的三维信息,以及行为在不同维度之间的特征的关系。
因此,针对上述行为识别算法问题,提出一种基于深度视频联动特征的行为识别方法。
发明内容
本发明是为解决现有技术中的问题而提出的,其目的在于,提供一种基于深度视频联动特征的行为识别方法,解决了现有识别方法提取的深层特征未能充分利用深度行为视频中的三维信息的问题。
一种基于深度视频联动特征的行为识别方法,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;
2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;
3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征;
4)将提取的特征输入多投影联动特征提取模块并提取各个投影组合的联动特征;
5)按通道连接提取到的所有投影组合的联动特征,并将连接后的特征输入平均池化层和全连接层;
6)构造基于深度视频联动特征的行为识别网络;
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
优选的是,所述步骤1)中投影序列的获得方式为:
每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,
V={It|t∈[1,N]},
其中,t表示时间索引,N为行为样本的深度视频V的总帧数;It∈R×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离,di∈[0,D],D表示深度相机可以探测到的最远的距离;
行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V进行顶面投影得到的投影序列;
Vfront投影序列获取方式:
Vfront={Ft|t∈[1,N]},其中,Ft∈R×C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值纵坐标值像素值可用公式表示为:
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;
Vright投影序列获取方式:
Vright={Rt|t∈[1,N]},其中,Rt∈R×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值纵坐标值横坐标值用公式表示为:
其中f2为将横坐标值xi映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中xm=maxxi,xi∈XR,XR为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,maxxi,xi∈XR表示集合XR中的横坐标的最大值;
Vleft投影序列获取方式:
Vleft={Lt|t∈[1,N]},其中,Lt∈R×D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值纵坐标值横坐标值对于投影到左侧面投影图上同一坐标处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=minxi,xi∈XL,XL为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,minxi,xi∈XL表示集合XL中横坐标最小值;
Vtop投影序列获取方式:
Vtop={Tt|t∈[1,N]},其中,Ot∈D×C表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值像素值纵坐标值对于投影到投影图上同一坐标处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=maxyi,yi∈YO,其中YO为深度图像中所有横坐标值为深度值为的点的纵坐标的集合,maxyi,yi∈YO表示集合YO中纵坐标的最大值。
优选的是,所述步骤2)中的动态图像的计算方式为:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it;
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt,
其中,u为维度为A的向量,A=R×C;uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中帧图像的排序由前到后,得分递增,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。
优选的是,所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元;其中首先将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元,最终多特征融合单元输出M6;
卷积单元1包含2个卷积层和1个最大池化层,每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C1;
卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C1,输出为C2;
卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C2,输出为C3;
卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C3,输出为C4;
卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C4,输出为C5;
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5。卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1;
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2;
卷积单元3的输出C3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3;
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4;
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5,将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M6,多特征融合单元的输出为卷积层6的输出为M6;
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块,在网络训练时,上述模块之间不共享参数,上述特征提取模块分别输出特征Qf、Qr、Ql、Qt;
其中,Qf表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征,Qr表示右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征,Ql表示左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征,Qt表示顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
优选的是,所述步骤4)中各个投影组合的联动特征的提取方式为,将步骤3)中各个特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,得到多个投影组合;
计算每个投影组合的联动特征,计算方式如下:
将投影组合中的特征按通道连接,得到组合特征Q∈H×W×γJ,其中H、W表示投影组合中每个特征的高和宽,J表示投影组合中每个特征的通道数,γ表示投影组合中特征的个数;分别计算每个投影组合的显式联动特征Zα和每个投影组合的隐式联动特征Zβ;计算投影组合的联动特征Z,计算公式为:
优选的是,所述步骤5)将所有投影组合的联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为D2,全连接层2的输出S2的计算方式如下:
S2=φrelu(W2·Γ+θ2),
其中,φrelu是relu激活函数,W2是全连接层2的权重,θ2是全连接层2的偏置向量;
将全连接层2的输出S2输入激活函数为softmax的全连接层3,全连接层3的神经元个数为K,输出S3的计算方式如下:
S3=φsoftmax(W3·S2+θ3),
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,θ3是全连接层3的偏置向量。
优选的是,所述步骤6)中基于深度视频联动特征的行为识别网络的输入为行为样本的深度视频,输出为相应行为样本属于各个行为类别的概率,即全连接层3的输出Q3,网络的损失函数L为:
其中,lg是第g个样本的标签值。
优选的是,所述步骤8)中行为识别为:将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
优选的是,所述每个投影组合的显式联动特征的计算步骤如下:
其中,Qa,h,w表示组合特征Q第a个通道第h行第w列的元素值;
2)计算组合特征Q不同通道之间的特征的显式相关程度P∈γJ×γJ,第a个通道与第b个通道的特征的显式相关程度Pa,b计算公式如下:
其中,Qb表示组合特征Q第b个通道的特征;
优选的是,所述每个投影组合的隐式联动特征的计算步骤如下:
本发明具有以下有益效果:1)基于深度视频的行为识别不会获取人的外观等信息,保护人的隐私;同时深度视频不易受到光照的影响,而且能够提供更加丰富的关于行为的三维信息;
2)将深度视频投影到不同的平面,能够获取行为不同维度的信息,将这些信息结合起来,能够使人体行为识别更加容易;学得的深度视频在不同维度的联动特征,对于行为识别更具有区分度。
附图说明
图1为本发明的流程图
图2为特征提取模块的流程图。
图3为各个投影组合的联动特征提取的流程图。
图4为基于深度视频联动特征的行为识别网络的流程图。
图5为实施例中挥手行为的平面投影示意图。
图6为实施例中挥手行为正面投影动态图像。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施方式,参见图1-6,一种基于深度视频联动特征的行为识别方法,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,得到4个投影序列;
2)计算每个行为样本的4个投影序列的动态图像,得到每个行为样本的4张动态图像;
3)将4张动态图像分别输入各自的特征提取模块提取特征;
4)将4个投影序列的动态图像提取到的特征输入多投影联动特征提取模块,提取各个投影组合的联动特征;
5)将提取的所有投影组合的联动特征按通道进行特征连接,输入平均池化层以及两层全连接层;
6)构造基于深度视频联动特征的行为识别网络;
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
步骤2)中动态图像的获取:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,其动态图像的计算方式如下:
首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it;
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt,
其中,u为维度为A的向量,A=R×C。uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中越排在后面的帧图像,得分越高,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,称u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。
行为样本的深度视频V的右侧面、左侧面、顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。
步骤4)中提取各个投影组合的联动特征:
如图3所示,将四个投影序列的动态图像输入各自的特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,共得到11个投影组合。记正面投影序列的动态图像提取的特征与左侧面投影序列的动态图像提取的特征的组合为投影1-2组合,正面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影1-3组合,正面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影1-4组合,左侧面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影2-3组合,左侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影2-4组合,右侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征的组合为投影1-2-3组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-4组合,正面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-3-4组合,左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影2-3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-3-4组合。
计算每个投影组合的联动特征,计算方式如下:
将投影组合中的特征按通道连接,得到组合特征Q∈H×W×γJ,其中H、W表示投影组合中每个特征的高和宽,J表示投影组合中每个特征的通道数,γ表示投影组合中特征的个数。
首先计算每个投影组合的显式联动特征,计算步骤如下:
其中,Qa,h,w表示组合特征Q第a个通道第h行第w列的元素值。
其中,Qb表示组合特征Q第b个通道的特征。
然后计算每个投影组合的隐式联动特征,计算步骤如下:
最终,每个投影组合的联动特征Z的计算公式为:
一共11个投影组合,可得11个联动特征。
步骤6)构造基于深度视频联动特征的行为识别网络,如图4所示,该网络的输入为行为样本的深度视频,输出为对应行为样本属于各个行为类别的概率,即全连接层3的输出Q3。网络的损失函数L为:
其中,lg是第g个样本的标签值。
步骤7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛。
步骤8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
实施例:
如图5-6所示,
1)行为样本集总样本数为2400,共8个行为类别,每个行为类别有300个样本。每个行为类别中随机选取三分之二的样本划入训练集,剩下的三分之一划入测试集,得到共1600个训练样本,800个测试样本。每一个行为样本由该样本深度视频中的所有帧组成。以任一行为样本的深度视频V为例:
V={It|t∈[1,50]},
其中,t表示时间索引,该行为样本共有50帧。It∈240×240为行为样本的深度视频V的第t帧深度图像的矩阵表示,该帧深度图像的行数、列数均为240。表示矩阵为实数矩阵。It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离。
行为样本的深度视频V分别投影到正面、右侧面、左侧面、顶面四个平面。此时,行为样本的深度视频V可以表示成四个投影图序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V投影到顶面得到的投影序列。
Vfront={Ft|t∈[1,50]},其中,Ft∈240×240表示将行为样本的深度视频V的第t帧深度图像进行正面投影得到的投影图。深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值纵坐标值像素值可用公式表示为:
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮。
Vright={Rt|t∈[1,50]},其中,Rt∈240×240表示将第t帧深度图像进行右侧面投影得到的投影图。在对深度图像进行右侧面投影时,可能存在不止一个点被投影到投影图上的同一位置。而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点。因此,应该保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值。为此,从深度图像上横坐标x最小的一列开始往x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值纵坐标值横坐标值用公式表示为:
其中f2为将横坐标值xi映射到[0,255]区间的线性函数。当x不断增大,可能会有新的点与之前已经被投影的点被投影到投影图的同一位置,应当保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中xm=maxxi,xi∈XR,XR为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,maxxi,xi∈XR表示集合XR中的横坐标的最大值。
Vleft={Lt|t∈[1,50]},其中,Lt∈240×240表示第t帧深度图像进行左侧面投影得到的投影图。与获取右侧面投影图相似,当有多个点投影到左侧面投影图的同一位置时,应该保留距离投影平面最远的点。为此,从深度图像上横坐标x最大的一列开始往x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值纵坐标值横坐标值对于投影到左侧面投影图上同一坐标处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=minxi,xi∈XL,XL为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,minxi,xi∈XL表示集合XL中横坐标最小值。
Vtop={Tt|t∈[1,50]},其中,Ot∈240×240表示第t帧深度图像从顶面投影得到的投影图。当有多个点投影到顶面投影图的同一位置时,应该保留距离投影平面最远的点。为此,从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值像素值纵坐标值对于投影到投影图上同一坐标处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=maxyi,yi∈YO,其中YO为深度图像中所有横坐标值为深度值为的点的纵坐标的集合,maxyi,yi∈YO表示集合YO中纵坐标的最大值。
2)计算每个行为样本的深度视频的4个投影序列的动态图像,得到每个行为样本的4张动态图像。以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,50]}为例,其动态图像的计算方式如下:
首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it。
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt,
其中,u为维度为57600的向量。uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中越排在后面的帧图像,得分越高,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈240×240,称u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。图5为挥手行为正面投影动态图像。
行为样本的深度视频V的右侧面、左侧面、顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。
3)将行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块提取特征。特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元。
卷积单元1包含2个卷积层和1个最大池化层。每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元1的输出为C1。
卷积单元2包含2个卷积层和1个最大池化层。每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元2的输入为C1,输出为C2。
卷积单元3包含3个卷积层和1个最大池化层。每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元3的输入为C2,输出为C3。
卷积单元4包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元4的输入为C3,输出为C4。
卷积单元5包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元5的输入为C4,输出为C5。
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5。卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1。
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2。
卷积单元3的输出C3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3。
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4。
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5。将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M6。多特征融合单元的输出为卷积层6的输出为M6。
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块。这四个特征提取模块的结构都相同,即特征提取模块的结构,但是在网络训练时,这四个模块之间不共享参数。这四个特征提取模块分别输出特征Qf、Qr、Ql、Qt,分别表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征、右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征、左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征、顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
4)将各个特征提取模块提取到的特征输入多投影联动特征提取模块,提取各个投影组合的联动特征。将四个投影序列的动态图像输入各自的特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,共得到11个投影组合。记正面投影序列的动态图像提取的特征与左侧面投影序列的动态图像提取的特征的组合为投影1-2组合,正面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影1-3组合,正面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影1-4组合,左侧面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影2-3组合,左侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影2-4组合,右侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征的组合为投影1-2-3组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-4组合,正面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-3-4组合,左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影2-3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-3-4组合。
计算每个投影组合的联动特征,以投影1-2组合为例,计算方式如下:
将投影1-2组合中的特征Qf、Ql按通道连接,得到组合特征Q∈H×W×512,其中H、W表示Qf、Ql的高和宽。
首先计算该投影组合的显式联动特征,计算步骤如下:
其中,Qa,h,w表示组合特征Q第a个通道第h行第w列的元素值。
(2)计算组合特征Q不同通道之间的特征的显式相关程度P∈512×512,第a个通道与第b个通道的特征的显式相关程度Pa,b计算公式如下:
其中,Qb表示组合特征Q第b个通道的特征。
然后计算该投影组合的隐式联动特征,计算步骤如下:
(2)将向量输入全连接层1,全连接层1的神经元的个数为512,全连接层1的输出其中φsigmoid表示sigmoid激活函数,W1∈512×512表示全连接层1的权重,θ1∈512×1表示全连接层1的偏置向量。
最终,投影1-2组合的联动特征Z的计算公式为:
一共11个投影组合,按照上述计算方式可得11个联动特征。
5)将得到的11个联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为1024,全连接层2的输出S2的计算方式如下:
S2=φrelu(W2·Γ+θ2),
其中,φrelu是relu激活函数,W2是全连接层2的权重,θ2是全连接层2的偏置向量。
将全连接层2的输出S2输入激活函数为softmax的全连接层3,全连接层3的神经元的个数为8,全连接层3的输出S3的计算方式如下:
S3=φsoftmax(W3·S2+θ3),
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,θ3是全连接层3的偏置向量。
6)构造基于深度视频联动特征的行为识别网络,该网络的输入为行为样本的深度视频,输出为对应行为样本属于各个行为类别的概率,即全连接层3的输出S3。网络的损失函数L为:
其中,lg是第g个样本的标签值。
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛.
8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
relu激活函数,其公式为f(x)=max(0,x),该函数的输入是x,输出是x和0中较大的那个数。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于深度视频联动特征的行为识别方法,其特征在于,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;
2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;
3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征;
4)将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征;
5)按通道连接提取到的所有投影组合的联动特征,并将连接后的特征输入平均池化层和全连接层;
6)构造基于深度视频联动特征的行为识别网络;
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
2.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤1)中投影序列的获得方式为:
每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,
V={It|t∈[1,N]},
其中,t表示时间索引,N为行为样本的深度视频V的总帧数;It∈R×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离,di∈[0,D],D表示深度相机可以探测到的最远的距离;
行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V进行顶面投影得到的投影序列;
Vfront投影序列获取方式:
Vfront={Ft|t∈[1,N]},其中,Ft∈R×C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值纵坐标值像素值可用公式表示为:
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;
Vright投影序列获取方式:
Vright={Rt|t∈[1,N]},其中,Rt∈R×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值纵坐标值横坐标值用公式表示为:
其中f2为将横坐标值xi映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中xm=max xi,xi∈XR,XR为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,max xi,xi∈XR表示集合XR中的横坐标的最大值;
Vleft投影序列获取方式:
Vleft={Lt|t∈[1,N]},其中,Lt∈R×D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值纵坐标值横坐标值对于投影到左侧面投影图上同一坐标处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=min xi,xi∈XL,XL为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,min xi,xi∈XL表示集合XL中横坐标最小值;
Vtop投影序列获取方式:
Vtop={Tt|t∈[1,N]},其中,Ot∈D×C表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值像素值纵坐标值对于投影到投影图上同一坐标处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
3.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤2)中的动态图像的计算方式为:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it;
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt,
其中,u为维度为A的向量,A=R×C;uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中帧图像的排序由前到后,得分递增,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。
4.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元;其中将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元,最终多特征融合单元输出M6;
卷积单元1包含2个卷积层和1个最大池化层,每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C1;
卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C1,输出为C2;
卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C2,输出为C3;
卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C3,输出为C4;
卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C4,输出为C5;
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5。卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1;
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2;
卷积单元3的输出C3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3;
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4;
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5,将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M6,多特征融合单元的输出为卷积层6的输出为M6;
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块,在网络训练时,上述模块之间不共享参数,上述特征提取模块分别输出特征Qf、Qr、Ql、Qt;
其中,Qf表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征,Qr表示右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征,Ql表示左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征,Qt表示顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
6.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤5)将所有投影组合的联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为D2,全连接层2的输出S2的计算方式如下:
S2=φrelu(W2·Γ+θ2),
其中,φrelu是relu激活函数,W2是全连接层2的权重,θ2是全连接层2的偏置向量;
将全连接层2的输出S2输入激活函数为softmax的全连接层3,全连接层3的神经元个数为K,输出S3的计算方式如下:
S3=φsoftmax(W3·S2+θ3),
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,θ3是全连接层3的偏置向量。
8.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤8)中行为识别为:将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
9.根据权利要求5所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述每个投影组合的显式联动特征的计算步骤如下:
1)计算组合特征Q的每个通道的特征的平均值,第a个通道的特征的平均值Qa,计算公式如下:
其中,Qa,h,w表示组合特征Q第a个通道第h行第w列的元素值;
2)计算组合特征Q不同通道之间的特征的显式相关程度P∈γJ×γJ,第a个通道与第b个通道的特征的显式相关程度Pa,b计算公式如下:
其中,Qb表示组合特征Q第b个通道的特征。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968288.1A CN113610046B (zh) | 2021-08-23 | 2021-08-23 | 一种基于深度视频联动特征的行为识别方法 |
PCT/CN2022/098508 WO2023024658A1 (zh) | 2021-08-23 | 2022-06-14 | 一种基于深度视频联动特征的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968288.1A CN113610046B (zh) | 2021-08-23 | 2021-08-23 | 一种基于深度视频联动特征的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610046A true CN113610046A (zh) | 2021-11-05 |
CN113610046B CN113610046B (zh) | 2023-09-26 |
Family
ID=78309170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110968288.1A Active CN113610046B (zh) | 2021-08-23 | 2021-08-23 | 一种基于深度视频联动特征的行为识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113610046B (zh) |
WO (1) | WO2023024658A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023024658A1 (zh) * | 2021-08-23 | 2023-03-02 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109630B (zh) * | 2023-04-10 | 2023-06-16 | 创域智能(常熟)网联科技有限公司 | 基于传感器采集和人工智能的图像分析方法及系统 |
CN117073586B (zh) * | 2023-10-17 | 2024-01-09 | 青岛迈朗格智能制造有限公司 | 一种同轴双轴转台机械轴平行度检测装置及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280421A (zh) * | 2018-01-22 | 2018-07-13 | 湘潭大学 | 基于多特征深度运动图的人体行为识别方法 |
CN109460734A (zh) * | 2018-11-08 | 2019-03-12 | 山东大学 | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 |
CN113221694A (zh) * | 2021-04-29 | 2021-08-06 | 苏州大学 | 一种动作识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038420B (zh) * | 2017-11-21 | 2020-10-30 | 华中科技大学 | 一种基于深度视频的人体行为识别方法 |
US11238300B2 (en) * | 2019-09-10 | 2022-02-01 | Microsoft Technology Licensing, Llc | Depth-based object re-identification |
CN113591797B (zh) * | 2021-08-23 | 2023-07-28 | 苏州大学 | 一种深度视频行为识别方法 |
CN113610046B (zh) * | 2021-08-23 | 2023-09-26 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
-
2021
- 2021-08-23 CN CN202110968288.1A patent/CN113610046B/zh active Active
-
2022
- 2022-06-14 WO PCT/CN2022/098508 patent/WO2023024658A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280421A (zh) * | 2018-01-22 | 2018-07-13 | 湘潭大学 | 基于多特征深度运动图的人体行为识别方法 |
CN109460734A (zh) * | 2018-11-08 | 2019-03-12 | 山东大学 | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 |
CN113221694A (zh) * | 2021-04-29 | 2021-08-06 | 苏州大学 | 一种动作识别方法 |
Non-Patent Citations (1)
Title |
---|
XIAOFENG ZHAO ET AL.: ""Discriminative Pose Analysis for Human Action Recognition"", 《IEEE》, pages 1 - 6 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023024658A1 (zh) * | 2021-08-23 | 2023-03-02 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113610046B (zh) | 2023-09-26 |
WO2023024658A1 (zh) | 2023-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259850B (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
US11967175B2 (en) | Facial expression recognition method and system combined with attention mechanism | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN111310731B (zh) | 基于人工智能的视频推荐方法、装置、设备及存储介质 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN113610046B (zh) | 一种基于深度视频联动特征的行为识别方法 | |
WO2019227479A1 (zh) | 人脸旋转图像的生成方法及装置 | |
JP6788264B2 (ja) | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム | |
CN110097029B (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN111783748A (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN110827304B (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统 | |
CN112766186B (zh) | 一种基于多任务学习的实时人脸检测及头部姿态估计方法 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN113011253B (zh) | 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质 | |
CN113221694A (zh) | 一种动作识别方法 | |
CN111401113A (zh) | 一种基于人体姿态估计的行人重识别方法 | |
CN111639580A (zh) | 一种结合特征分离模型和视角转换模型的步态识别方法 | |
CN111488951B (zh) | 一种用于rgb-d图像分类的对抗度量学习模型生成方法 | |
CN111539351A (zh) | 一种多任务级联的人脸选帧比对方法 | |
CN115205933A (zh) | 面部表情识别方法、装置、设备及可读存储介质 | |
CN114882537A (zh) | 一种基于神经辐射场的手指新视角图像生成方法 | |
CN112800979B (zh) | 一种基于表征流嵌入网络的动态表情识别方法及系统 | |
US20240177525A1 (en) | Multi-view human action recognition method based on hypergraph learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |