CN113610046A - 一种基于深度视频联动特征的行为识别方法 - Google Patents

一种基于深度视频联动特征的行为识别方法 Download PDF

Info

Publication number
CN113610046A
CN113610046A CN202110968288.1A CN202110968288A CN113610046A CN 113610046 A CN113610046 A CN 113610046A CN 202110968288 A CN202110968288 A CN 202110968288A CN 113610046 A CN113610046 A CN 113610046A
Authority
CN
China
Prior art keywords
projection
depth
behavior
value
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110968288.1A
Other languages
English (en)
Other versions
CN113610046B (zh
Inventor
杨剑宇
黄瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110968288.1A priority Critical patent/CN113610046B/zh
Publication of CN113610046A publication Critical patent/CN113610046A/zh
Priority to PCT/CN2022/098508 priority patent/WO2023024658A1/zh
Application granted granted Critical
Publication of CN113610046B publication Critical patent/CN113610046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度视频联动特征的行为识别方法,包括以下步骤:将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;将每个行为样本的动态图像输入各自的特征提取模块并提取特征;将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征;按通道连接提取到的所有联动特征,并将连接后的特征输入平均池化层和全连接层;构造基于深度视频联动特征的行为识别网络;将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;将每个待测试行为样本的深度视频输入训练好的行为识别网络,实现行为识别。

Description

一种基于深度视频联动特征的行为识别方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于深度视频联动特征的行为识别方法。
背景技术
目前,行为识别是计算机视觉领域的一个研究热点。它在视频监控、行为分析等领域有着广泛的应用。
随着深度相机的发展,人们可以便捷的获取深度视频,其中包含了大量的运动信息。一部分学者获取深度视频中的人体骨骼关节点位置,利用关节点数据进行识别。另有一部分学者直接将深度视频输入网络进行行为识别。然而,基于骨骼关节点的行为识别,容易受到获取骨骼关节点的精度的影响,而且容易受到行为的类内差异、骨骼关节点的遮挡的影响。直接将深度视频输入网络,未能很好的利用深度视频包含的三维信息,以及行为在不同维度之间的特征的关系。
因此,针对上述行为识别算法问题,提出一种基于深度视频联动特征的行为识别方法。
发明内容
本发明是为解决现有技术中的问题而提出的,其目的在于,提供一种基于深度视频联动特征的行为识别方法,解决了现有识别方法提取的深层特征未能充分利用深度行为视频中的三维信息的问题。
一种基于深度视频联动特征的行为识别方法,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;
2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;
3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征;
4)将提取的特征输入多投影联动特征提取模块并提取各个投影组合的联动特征;
5)按通道连接提取到的所有投影组合的联动特征,并将连接后的特征输入平均池化层和全连接层;
6)构造基于深度视频联动特征的行为识别网络;
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
优选的是,所述步骤1)中投影序列的获得方式为:
每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,
V={It|t∈[1,N]},
其中,t表示时间索引,N为行为样本的深度视频V的总帧数;ItR×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离,di∈[0,D],D表示深度相机可以探测到的最远的距离;
行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V进行顶面投影得到的投影序列;
Vfront投影序列获取方式:
Vfront={Ft|t∈[1,N]},其中,FtR×C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值
Figure BDA0003224723670000021
纵坐标值
Figure BDA0003224723670000022
像素值
Figure BDA0003224723670000023
可用公式表示为:
Figure BDA0003224723670000031
Figure BDA0003224723670000032
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;
Vright投影序列获取方式:
Vright={Rt|t∈[1,N]},其中,RtR×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值
Figure BDA0003224723670000033
纵坐标值
Figure BDA0003224723670000034
横坐标值
Figure BDA0003224723670000035
用公式表示为:
Figure BDA0003224723670000036
Figure BDA0003224723670000037
其中f2为将横坐标值xi映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即
Figure BDA0003224723670000038
其中xm=maxxi,xi∈XR,XR为深度图像中所有纵坐标值为
Figure BDA0003224723670000039
深度值为
Figure BDA00032247236700000310
的点的横坐标的集合,maxxi,xi∈XR表示集合XR中的横坐标的最大值;
Vleft投影序列获取方式:
Vleft={Lt|t∈[1,N]},其中,LtR×D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值
Figure BDA00032247236700000311
纵坐标值
Figure BDA00032247236700000312
横坐标值
Figure BDA00032247236700000313
对于投影到左侧面投影图上同一坐标
Figure BDA00032247236700000314
处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
Figure BDA0003224723670000041
Figure BDA0003224723670000042
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=minxi,xi∈XL,XL为深度图像中所有纵坐标值为
Figure BDA0003224723670000043
深度值为
Figure BDA0003224723670000044
的点的横坐标的集合,minxi,xi∈XL表示集合XL中横坐标最小值;
Vtop投影序列获取方式:
Vtop={Tt|t∈[1,N]},其中,OtD×C表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值
Figure BDA0003224723670000045
像素值
Figure BDA0003224723670000046
纵坐标值
Figure BDA0003224723670000047
对于投影到投影图上同一坐标
Figure BDA0003224723670000048
处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
Figure BDA0003224723670000049
Figure BDA00032247236700000410
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=maxyi,yi∈YO,其中YO为深度图像中所有横坐标值为
Figure BDA00032247236700000411
深度值为
Figure BDA00032247236700000412
的点的纵坐标的集合,maxyi,yi∈YO表示集合YO中纵坐标的最大值。
优选的是,所述步骤2)中的动态图像的计算方式为:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
Figure BDA00032247236700000413
其中,
Figure BDA0003224723670000051
表示对行向量it中的每个元素求算术平方根,记wt为行为样本的深度视频V的正面投影序列Vfront的第t帧的帧向量;
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
Figure BDA0003224723670000052
其中,
Figure BDA0003224723670000053
表示对行为样本的深度视频V的正面投影序列Vfront的第1帧图像到第t帧图像的帧向量求和;
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt
其中,u为维度为A的向量,A=R×C;uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中帧图像的排序由前到后,得分递增,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
Figure BDA0003224723670000054
Figure BDA0003224723670000055
其中,
Figure BDA0003224723670000056
表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。
优选的是,所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元;其中首先将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元,最终多特征融合单元输出M6
卷积单元1包含2个卷积层和1个最大池化层,每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C1
卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C1,输出为C2
卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C2,输出为C3
卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C3,输出为C4
卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C4,输出为C5
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5。卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2
卷积单元3的输出C3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5,将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M6,多特征融合单元的输出为卷积层6的输出为M6
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块,在网络训练时,上述模块之间不共享参数,上述特征提取模块分别输出特征Qf、Qr、Ql、Qt
其中,Qf表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征,Qr表示右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征,Ql表示左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征,Qt表示顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
优选的是,所述步骤4)中各个投影组合的联动特征的提取方式为,将步骤3)中各个特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,得到多个投影组合;
计算每个投影组合的联动特征,计算方式如下:
将投影组合中的特征按通道连接,得到组合特征Q∈H×W×γJ,其中H、W表示投影组合中每个特征的高和宽,J表示投影组合中每个特征的通道数,γ表示投影组合中特征的个数;分别计算每个投影组合的显式联动特征Zα和每个投影组合的隐式联动特征Zβ;计算投影组合的联动特征Z,计算公式为:
Figure BDA0003224723670000071
其中
Figure BDA0003224723670000081
表示矩阵Zα、Zβ对应位置元素相加。
优选的是,所述步骤5)将所有投影组合的联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为D2,全连接层2的输出S2的计算方式如下:
S2=φrelu(W2·Γ+θ2),
其中,φrelu是relu激活函数,W2是全连接层2的权重,θ2是全连接层2的偏置向量;
将全连接层2的输出S2输入激活函数为softmax的全连接层3,全连接层3的神经元个数为K,输出S3的计算方式如下:
S3=φsoftmax(W3·S23),
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,θ3是全连接层3的偏置向量。
优选的是,所述步骤6)中基于深度视频联动特征的行为识别网络的输入为行为样本的深度视频,输出为相应行为样本属于各个行为类别的概率,即全连接层3的输出Q3,网络的损失函数L为:
Figure BDA0003224723670000082
其中,G是总训练行为样本的数量,K是行为样本类别数,
Figure BDA0003224723670000083
是第g个行为样本的网络输出,lg是第g个行为样本期望的输出,其中lg的第p维数据定义为:
Figure BDA0003224723670000084
其中,lg是第g个样本的标签值。
优选的是,所述步骤8)中行为识别为:将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
优选的是,所述每个投影组合的显式联动特征的计算步骤如下:
1)计算组合特征Q的每个通道的特征的平均值,第a个通道的特征的平均值
Figure BDA0003224723670000091
计算公式如下:
Figure BDA0003224723670000092
其中,Qa,h,w表示组合特征Q第a个通道第h行第w列的元素值;
2)计算组合特征Q不同通道之间的特征的显式相关程度P∈γJ×γJ,第a个通道与第b个通道的特征的显式相关程度Pa,b计算公式如下:
Figure BDA0003224723670000093
其中,Qb,h,w表示组合特征Q第b个通道第h行第w列的元素值,
Figure BDA0003224723670000094
表示组合特征Q第b个通道的特征的平均值;
3)计算组合特征Q不同通道之间的特征的归一化显式相关程度
Figure BDA0003224723670000095
第a个通道与第b个通道的特征的归一化相关程度
Figure BDA0003224723670000096
计算公式如下:
Figure BDA0003224723670000097
4)计算该投影组合的显式联动特征ZαH×W×γJ,Zα第a个通道的特征
Figure BDA0003224723670000098
的计算公式如下:
Figure BDA0003224723670000099
其中,Qb表示组合特征Q第b个通道的特征;
优选的是,所述每个投影组合的隐式联动特征的计算步骤如下:
1)计算组合特征Q的每个通道的平均值,并将所有通道的平均值连接成向量
Figure BDA00032247236700000910
2)将向量
Figure BDA00032247236700000911
输入全连接层1,全连接层1的神经元的个数为γJ,全连接层1的输出
Figure BDA0003224723670000101
其中φsigmoid表示sigmoid激活函数,
Figure BDA0003224723670000102
表示全连接层1的权重,
Figure BDA0003224723670000107
表示全连接层1的偏置向量;
3)计算该投影组合的隐式联动特征
Figure BDA0003224723670000103
Zβ第a个通道的特征
Figure BDA0003224723670000104
的计算公式如下:
Figure BDA0003224723670000105
其中
Figure BDA0003224723670000106
表示全连接层1的输出S1第a个元素的值。
本发明具有以下有益效果:1)基于深度视频的行为识别不会获取人的外观等信息,保护人的隐私;同时深度视频不易受到光照的影响,而且能够提供更加丰富的关于行为的三维信息;
2)将深度视频投影到不同的平面,能够获取行为不同维度的信息,将这些信息结合起来,能够使人体行为识别更加容易;学得的深度视频在不同维度的联动特征,对于行为识别更具有区分度。
附图说明
图1为本发明的流程图
图2为特征提取模块的流程图。
图3为各个投影组合的联动特征提取的流程图。
图4为基于深度视频联动特征的行为识别网络的流程图。
图5为实施例中挥手行为的平面投影示意图。
图6为实施例中挥手行为正面投影动态图像。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施方式,参见图1-6,一种基于深度视频联动特征的行为识别方法,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,得到4个投影序列;
2)计算每个行为样本的4个投影序列的动态图像,得到每个行为样本的4张动态图像;
3)将4张动态图像分别输入各自的特征提取模块提取特征;
4)将4个投影序列的动态图像提取到的特征输入多投影联动特征提取模块,提取各个投影组合的联动特征;
5)将提取的所有投影组合的联动特征按通道进行特征连接,输入平均池化层以及两层全连接层;
6)构造基于深度视频联动特征的行为识别网络;
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
步骤2)中动态图像的获取:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,其动态图像的计算方式如下:
首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
Figure BDA0003224723670000111
其中,
Figure BDA0003224723670000112
表示对行向量it中的每个元素求算术平方根。记wt为行为样本的深度视频V的正面投影序列Vfront的第t帧的帧向量。
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
Figure BDA0003224723670000121
其中,
Figure BDA0003224723670000122
表示对行为样本的深度视频V的正面投影序列Vfront的第1帧图像到第t帧图像的帧向量求和;
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt
其中,u为维度为A的向量,A=R×C。uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中越排在后面的帧图像,得分越高,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
Figure BDA0003224723670000123
Figure BDA0003224723670000124
其中,
Figure BDA0003224723670000125
表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,称u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。
行为样本的深度视频V的右侧面、左侧面、顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。
步骤4)中提取各个投影组合的联动特征:
如图3所示,将四个投影序列的动态图像输入各自的特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,共得到11个投影组合。记正面投影序列的动态图像提取的特征与左侧面投影序列的动态图像提取的特征的组合为投影1-2组合,正面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影1-3组合,正面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影1-4组合,左侧面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影2-3组合,左侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影2-4组合,右侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征的组合为投影1-2-3组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-4组合,正面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-3-4组合,左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影2-3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-3-4组合。
计算每个投影组合的联动特征,计算方式如下:
将投影组合中的特征按通道连接,得到组合特征Q∈H×W×γJ,其中H、W表示投影组合中每个特征的高和宽,J表示投影组合中每个特征的通道数,γ表示投影组合中特征的个数。
首先计算每个投影组合的显式联动特征,计算步骤如下:
(1)计算组合特征Q的每个通道的特征的平均值,第a个通道的特征的平均值
Figure BDA0003224723670000131
计算公式如下:
Figure BDA0003224723670000132
其中,Qa,h,w表示组合特征Q第a个通道第h行第w列的元素值。
(2)计算组合特征Q不同通道之间的特征的显式相关程度
Figure BDA0003224723670000133
第a个通道与第b个通道的特征的显式相关程度Pa,b计算公式如下:
Figure BDA0003224723670000141
其中,Qb,h,w表示组合特征Q第b个通道第h行第w列的元素值,
Figure BDA0003224723670000142
表示组合特征Q第b个通道的特征的平均值。
(3)计算组合特征Q不同通道之间的特征的归一化显式相关程度
Figure BDA0003224723670000143
第a个通道与第b个通道的特征的归一化相关程度
Figure BDA0003224723670000144
计算公式如下:
Figure BDA0003224723670000145
(4)计算该投影组合的显式联动特征
Figure BDA0003224723670000146
Zα第a个通道的特征
Figure BDA0003224723670000147
的计算公式如下:
Figure BDA0003224723670000148
其中,Qb表示组合特征Q第b个通道的特征。
然后计算每个投影组合的隐式联动特征,计算步骤如下:
(1)计算组合特征Q的每个通道的平均值,并将所有通道的平均值连接成向量
Figure BDA0003224723670000149
(2)将向量
Figure BDA00032247236700001410
输入全连接层1,全连接层1的神经元的个数为γJ,全连接层1的输出
Figure BDA00032247236700001411
其中φsigmoid表示sigmoid激活函数,
Figure BDA00032247236700001412
表示全连接层1的权重,
Figure BDA00032247236700001413
表示全连接层1的偏置向量。
(3)计算该投影组合的隐式联动特征
Figure BDA00032247236700001414
Zβ第a个通道的特征
Figure BDA00032247236700001415
的计算公式如下:
Figure BDA00032247236700001416
其中
Figure BDA00032247236700001417
表示全连接层1的输出S1第a个元素的值。
最终,每个投影组合的联动特征Z的计算公式为:
Figure BDA00032247236700001418
其中
Figure BDA0003224723670000151
表示矩阵Zα、Zβ对应位置元素相加。
一共11个投影组合,可得11个联动特征。
步骤6)构造基于深度视频联动特征的行为识别网络,如图4所示,该网络的输入为行为样本的深度视频,输出为对应行为样本属于各个行为类别的概率,即全连接层3的输出Q3。网络的损失函数L为:
Figure BDA0003224723670000152
其中,G是总训练行为样本的数量,K是行为样本类别数,
Figure BDA0003224723670000153
是第g个行为样本的网络输出,lg是第g个行为样本期望的输出,其中lg的第p维数据定义为:
Figure BDA0003224723670000154
其中,lg是第g个样本的标签值。
步骤7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛。
步骤8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
实施例:
如图5-6所示,
1)行为样本集总样本数为2400,共8个行为类别,每个行为类别有300个样本。每个行为类别中随机选取三分之二的样本划入训练集,剩下的三分之一划入测试集,得到共1600个训练样本,800个测试样本。每一个行为样本由该样本深度视频中的所有帧组成。以任一行为样本的深度视频V为例:
V={It|t∈[1,50]},
其中,t表示时间索引,该行为样本共有50帧。It240×240为行为样本的深度视频V的第t帧深度图像的矩阵表示,该帧深度图像的行数、列数均为240。表示矩阵为实数矩阵。It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离。
行为样本的深度视频V分别投影到正面、右侧面、左侧面、顶面四个平面。此时,行为样本的深度视频V可以表示成四个投影图序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V投影到顶面得到的投影序列。
Vfront={Ft|t∈[1,50]},其中,Ft240×240表示将行为样本的深度视频V的第t帧深度图像进行正面投影得到的投影图。深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值
Figure BDA0003224723670000161
纵坐标值
Figure BDA0003224723670000162
像素值
Figure BDA0003224723670000163
可用公式表示为:
Figure BDA0003224723670000164
Figure BDA0003224723670000165
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮。
Vright={Rt|t∈[1,50]},其中,Rt240×240表示将第t帧深度图像进行右侧面投影得到的投影图。在对深度图像进行右侧面投影时,可能存在不止一个点被投影到投影图上的同一位置。而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点。因此,应该保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值。为此,从深度图像上横坐标x最小的一列开始往x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值
Figure BDA0003224723670000166
纵坐标值
Figure BDA0003224723670000167
横坐标值
Figure BDA0003224723670000168
用公式表示为:
Figure BDA0003224723670000169
Figure BDA0003224723670000171
其中f2为将横坐标值xi映射到[0,255]区间的线性函数。当x不断增大,可能会有新的点与之前已经被投影的点被投影到投影图的同一位置,应当保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即
Figure BDA0003224723670000172
其中xm=maxxi,xi∈XR,XR为深度图像中所有纵坐标值为
Figure BDA0003224723670000173
深度值为
Figure BDA0003224723670000174
的点的横坐标的集合,maxxi,xi∈XR表示集合XR中的横坐标的最大值。
Vleft={Lt|t∈[1,50]},其中,Lt240×240表示第t帧深度图像进行左侧面投影得到的投影图。与获取右侧面投影图相似,当有多个点投影到左侧面投影图的同一位置时,应该保留距离投影平面最远的点。为此,从深度图像上横坐标x最大的一列开始往x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值
Figure BDA0003224723670000175
纵坐标值
Figure BDA0003224723670000176
横坐标值
Figure BDA0003224723670000177
对于投影到左侧面投影图上同一坐标
Figure BDA0003224723670000178
处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
Figure BDA0003224723670000179
Figure BDA00032247236700001710
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=minxi,xi∈XL,XL为深度图像中所有纵坐标值为
Figure BDA00032247236700001711
深度值为
Figure BDA00032247236700001712
的点的横坐标的集合,minxi,xi∈XL表示集合XL中横坐标最小值。
Vtop={Tt|t∈[1,50]},其中,Ot240×240表示第t帧深度图像从顶面投影得到的投影图。当有多个点投影到顶面投影图的同一位置时,应该保留距离投影平面最远的点。为此,从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值
Figure BDA00032247236700001713
像素值
Figure BDA00032247236700001714
纵坐标值
Figure BDA00032247236700001715
对于投影到投影图上同一坐标
Figure BDA00032247236700001716
处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
Figure BDA00032247236700001717
Figure BDA0003224723670000181
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=maxyi,yi∈YO,其中YO为深度图像中所有横坐标值为
Figure BDA0003224723670000182
深度值为
Figure BDA0003224723670000183
的点的纵坐标的集合,maxyi,yi∈YO表示集合YO中纵坐标的最大值。
2)计算每个行为样本的深度视频的4个投影序列的动态图像,得到每个行为样本的4张动态图像。以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,50]}为例,其动态图像的计算方式如下:
首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
Figure BDA0003224723670000184
其中,
Figure BDA0003224723670000185
表示对行向量it中的每个元素求算术平方根。记wt为行为样本的深度视频V的正面投影序列Vfront的第t帧的帧向量。
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
Figure BDA0003224723670000186
其中,
Figure BDA0003224723670000187
表示对行为样本的深度视频V的正面投影序列Vfront的第1帧图像到第t帧图像的帧向量求和;
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt
其中,u为维度为57600的向量。uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中越排在后面的帧图像,得分越高,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
Figure BDA0003224723670000191
Figure BDA0003224723670000192
其中,
Figure BDA0003224723670000193
表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈240×240,称u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。图5为挥手行为正面投影动态图像。
行为样本的深度视频V的右侧面、左侧面、顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。
3)将行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块提取特征。特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元。
卷积单元1包含2个卷积层和1个最大池化层。每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元1的输出为C1
卷积单元2包含2个卷积层和1个最大池化层。每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元2的输入为C1,输出为C2
卷积单元3包含3个卷积层和1个最大池化层。每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元3的输入为C2,输出为C3
卷积单元4包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元4的输入为C3,输出为C4
卷积单元5包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元5的输入为C4,输出为C5
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5。卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2
卷积单元3的输出C3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5。将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M6。多特征融合单元的输出为卷积层6的输出为M6
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块。这四个特征提取模块的结构都相同,即特征提取模块的结构,但是在网络训练时,这四个模块之间不共享参数。这四个特征提取模块分别输出特征Qf、Qr、Ql、Qt,分别表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征、右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征、左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征、顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
4)将各个特征提取模块提取到的特征输入多投影联动特征提取模块,提取各个投影组合的联动特征。将四个投影序列的动态图像输入各自的特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,共得到11个投影组合。记正面投影序列的动态图像提取的特征与左侧面投影序列的动态图像提取的特征的组合为投影1-2组合,正面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影1-3组合,正面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影1-4组合,左侧面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影2-3组合,左侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影2-4组合,右侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征的组合为投影1-2-3组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-4组合,正面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-3-4组合,左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影2-3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-3-4组合。
计算每个投影组合的联动特征,以投影1-2组合为例,计算方式如下:
将投影1-2组合中的特征Qf、Ql按通道连接,得到组合特征Q∈H×W×512,其中H、W表示Qf、Ql的高和宽。
首先计算该投影组合的显式联动特征,计算步骤如下:
(1)计算组合特征Q的每个通道的特征的平均值,第a个通道的特征的平均值
Figure BDA0003224723670000211
计算公式如下:
Figure BDA0003224723670000221
其中,Qa,h,w表示组合特征Q第a个通道第h行第w列的元素值。
(2)计算组合特征Q不同通道之间的特征的显式相关程度P∈512×512,第a个通道与第b个通道的特征的显式相关程度Pa,b计算公式如下:
Figure BDA0003224723670000222
其中,Qb,h,w表示组合特征Q第b个通道第h行第w列的元素值,
Figure BDA0003224723670000223
表示组合特征Q第b个通道的特征的平均值。
(3)计算组合特征Q不同通道之间的特征的归一化显式相关程度
Figure BDA0003224723670000224
第a个通道与第b个通道的特征的归一化相关程度
Figure BDA0003224723670000225
计算公式如下:
Figure BDA0003224723670000226
(4)计算该投影组合的显式联动特征ZαH×W×512,Zα第a个通道的特征
Figure BDA0003224723670000227
的计算公式如下:
Figure BDA0003224723670000228
其中,Qb表示组合特征Q第b个通道的特征。
然后计算该投影组合的隐式联动特征,计算步骤如下:
(1)计算组合特征Q的每个通道的平均值,并将所有通道的平均值连接成向量
Figure BDA0003224723670000229
(2)将向量
Figure BDA00032247236700002210
输入全连接层1,全连接层1的神经元的个数为512,全连接层1的输出
Figure BDA00032247236700002211
其中φsigmoid表示sigmoid激活函数,W1512×512表示全连接层1的权重,θ1512×1表示全连接层1的偏置向量。
(3)计算该投影组合的隐式联动特征ZβH×W×512,Zβ第a个通道的特征
Figure BDA0003224723670000231
的计算公式如下:
Figure BDA0003224723670000232
其中
Figure BDA0003224723670000233
表示全连接层1的输出S1第a个元素的值。
最终,投影1-2组合的联动特征Z的计算公式为:
Figure BDA0003224723670000234
其中
Figure BDA0003224723670000235
表示矩阵Zα、Zβ对应位置元素相加。
一共11个投影组合,按照上述计算方式可得11个联动特征。
5)将得到的11个联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为1024,全连接层2的输出S2的计算方式如下:
S2=φrelu(W2·Γ+θ2),
其中,φrelu是relu激活函数,W2是全连接层2的权重,θ2是全连接层2的偏置向量。
将全连接层2的输出S2输入激活函数为softmax的全连接层3,全连接层3的神经元的个数为8,全连接层3的输出S3的计算方式如下:
S3=φsoftmax(W3·S23),
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,θ3是全连接层3的偏置向量。
6)构造基于深度视频联动特征的行为识别网络,该网络的输入为行为样本的深度视频,输出为对应行为样本属于各个行为类别的概率,即全连接层3的输出S3。网络的损失函数L为:
Figure BDA0003224723670000236
其中,
Figure BDA0003224723670000237
是第g个行为样本的网络输出,lg是第g个行为样本期望的输出,其中lg的第p维数据定义为:
Figure BDA0003224723670000241
其中,lg是第g个样本的标签值。
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛.
8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
relu激活函数,其公式为f(x)=max(0,x),该函数的输入是x,输出是x和0中较大的那个数。
Softmax激活函数,其公式为
Figure BDA0003224723670000242
其中i表示全连接层第i个神经元的输出,j表示全连接层第j个神经元的输出,n为全连接层的神经元的个数,Si表示全连接层第i个神经元经过softmax激活函数的输出。
sigmoid激活函数,其公式为
Figure BDA0003224723670000243
该函数的输入是x,输出是
Figure BDA0003224723670000244
其中,x表示sigmoid激活函数的输入,f(x)表示sigmoid激活函数的输出。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于深度视频联动特征的行为识别方法,其特征在于,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;
2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;
3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征;
4)将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征;
5)按通道连接提取到的所有投影组合的联动特征,并将连接后的特征输入平均池化层和全连接层;
6)构造基于深度视频联动特征的行为识别网络;
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
2.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤1)中投影序列的获得方式为:
每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,
V={It|t∈[1,N]},
其中,t表示时间索引,N为行为样本的深度视频V的总帧数;It∈R×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离,di∈[0,D],D表示深度相机可以探测到的最远的距离;
行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V进行顶面投影得到的投影序列;
Vfront投影序列获取方式:
Vfront={Ft|t∈[1,N]},其中,Ft∈R×C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值
Figure FDA0003224723660000021
纵坐标值
Figure FDA0003224723660000022
像素值
Figure FDA0003224723660000023
可用公式表示为:
Figure FDA0003224723660000024
Figure FDA0003224723660000025
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;
Vright投影序列获取方式:
Vright={Rt|t∈[1,N]},其中,Rt∈R×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值
Figure FDA00032247236600000210
纵坐标值
Figure FDA0003224723660000026
横坐标值
Figure FDA0003224723660000027
用公式表示为:
Figure FDA0003224723660000028
Figure FDA0003224723660000029
其中f2为将横坐标值xi映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即
Figure FDA0003224723660000031
其中xm=max xi,xi∈XR,XR为深度图像中所有纵坐标值为
Figure FDA0003224723660000032
深度值为
Figure FDA0003224723660000033
的点的横坐标的集合,max xi,xi∈XR表示集合XR中的横坐标的最大值;
Vleft投影序列获取方式:
Vleft={Lt|t∈[1,N]},其中,Lt∈R×D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值
Figure FDA0003224723660000034
纵坐标值
Figure FDA0003224723660000035
横坐标值
Figure FDA0003224723660000036
对于投影到左侧面投影图上同一坐标
Figure FDA0003224723660000037
处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
Figure FDA0003224723660000038
Figure FDA0003224723660000039
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=min xi,xi∈XL,XL为深度图像中所有纵坐标值为
Figure FDA00032247236600000315
深度值为
Figure FDA00032247236600000316
的点的横坐标的集合,min xi,xi∈XL表示集合XL中横坐标最小值;
Vtop投影序列获取方式:
Vtop={Tt|t∈[1,N]},其中,OtD×C表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值
Figure FDA00032247236600000310
像素值
Figure FDA00032247236600000311
纵坐标值
Figure FDA00032247236600000312
对于投影到投影图上同一坐标
Figure FDA00032247236600000313
处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
Figure FDA00032247236600000314
Figure FDA0003224723660000041
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=max yi,yi∈YO,其中YO为深度图像中所有横坐标值为
Figure FDA0003224723660000042
深度值为
Figure FDA0003224723660000043
的点的纵坐标的集合,max yi,yi∈YO表示集合YO中纵坐标的最大值。
3.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤2)中的动态图像的计算方式为:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
Figure FDA0003224723660000044
其中,
Figure FDA0003224723660000045
表示对行向量it中的每个元素求算术平方根,记wt为行为样本的深度视频V的正面投影序列Vfront的第t帧的帧向量;
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
Figure FDA0003224723660000046
其中,
Figure FDA0003224723660000047
表示对行为样本的深度视频V的正面投影序列Vfront的第1帧图像到第t帧图像的帧向量求和;
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt
其中,u为维度为A的向量,A=R×C;uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中帧图像的排序由前到后,得分递增,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
Figure FDA0003224723660000051
Figure FDA0003224723660000052
其中,
Figure FDA0003224723660000053
表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。
4.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元;其中将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元,最终多特征融合单元输出M6
卷积单元1包含2个卷积层和1个最大池化层,每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C1
卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C1,输出为C2
卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C2,输出为C3
卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C3,输出为C4
卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C4,输出为C5
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5。卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2
卷积单元3的输出C3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5,将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M6,多特征融合单元的输出为卷积层6的输出为M6
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块,在网络训练时,上述模块之间不共享参数,上述特征提取模块分别输出特征Qf、Qr、Ql、Qt
其中,Qf表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征,Qr表示右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征,Ql表示左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征,Qt表示顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
5.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤4)中联动特征的提取方式为,将步骤3)中各个特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,得到多个投影组合;
计算每个投影组合的联动特征,计算方式如下:
将投影组合中的特征按通道连接,得到组合特征Q∈H×W×γJ,其中H、W表示投影组合中每个特征的高和宽,J表示投影组合中每个特征的通道数,γ表示投影组合中特征的个数;分别计算每个投影组合的显式联动特征Zα和每个投影组合的隐式联动特征Zβ;计算投影组合的联动特征Z,计算公式为:
Figure FDA0003224723660000071
其中
Figure FDA0003224723660000072
表示矩阵Zα、Zβ对应位置元素相加。
6.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤5)将所有投影组合的联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为D2,全连接层2的输出S2的计算方式如下:
S2=φrelu(W2·Γ+θ2),
其中,φrelu是relu激活函数,W2是全连接层2的权重,θ2是全连接层2的偏置向量;
将全连接层2的输出S2输入激活函数为softmax的全连接层3,全连接层3的神经元个数为K,输出S3的计算方式如下:
S3=φsoftmax(W3·S23),
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,θ3是全连接层3的偏置向量。
7.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤6)中基于深度视频联动特征的行为识别网络的输入为行为样本的深度视频,输出为相应行为样本属于各个行为类别的概率,即全连接层3的输出Q3,网络的损失函数L为:
Figure FDA0003224723660000081
其中,G是总训练行为样本的数量,K是行为样本类别数,
Figure FDA0003224723660000082
是第g个行为样本的网络输出,lg是第g个行为样本期望的输出,其中lg的第p维数据定义为:
Figure FDA0003224723660000083
其中,lg是第g个样本的标签值。
8.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤8)中行为识别为:将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
9.根据权利要求5所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述每个投影组合的显式联动特征的计算步骤如下:
1)计算组合特征Q的每个通道的特征的平均值,第a个通道的特征的平均值Qa,计算公式如下:
Figure FDA0003224723660000084
其中,Qa,h,w表示组合特征Q第a个通道第h行第w列的元素值;
2)计算组合特征Q不同通道之间的特征的显式相关程度P∈γJ×γJ,第a个通道与第b个通道的特征的显式相关程度Pa,b计算公式如下:
Figure FDA0003224723660000085
其中,Qb,h,w表示组合特征Q第b个通道第h行第w列的元素值,
Figure FDA0003224723660000086
表示组合特征Q第b个通道的特征的平均值;
3)计算组合特征Q不同通道之间的特征的归一化显式相关程度
Figure FDA0003224723660000091
第a个通道与第b个通道的特征的归一化相关程度
Figure FDA0003224723660000092
计算公式如下:
Figure FDA0003224723660000093
4)计算该投影组合的显式联动特征ZαH×W×γJ,Zα第a个通道的特征
Figure FDA0003224723660000094
的计算公式如下:
Figure FDA0003224723660000095
其中,Qb表示组合特征Q第b个通道的特征。
10.根据权利要求5所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述每个投影组合的隐式联动特征的计算步骤如下:
1)计算组合特征Q的每个通道的平均值,并将所有通道的平均值连接成向量
Figure FDA0003224723660000096
2)将向量
Figure FDA0003224723660000097
输入全连接层1,全连接层1的神经元的个数为γJ,全连接层1的输出
Figure FDA0003224723660000098
其中φsigmoid表示sigmoid激活函数,
Figure FDA0003224723660000099
表示全连接层1的权重,
Figure FDA00032247236600000910
表示全连接层1的偏置向量;
3)计算该投影组合的隐式联动特征
Figure FDA00032247236600000911
Zβ第a个通道的特征
Figure FDA00032247236600000912
的计算公式如下:
Figure FDA00032247236600000913
其中
Figure FDA00032247236600000914
表示全连接层1的输出S1第a个元素的值。
CN202110968288.1A 2021-08-23 2021-08-23 一种基于深度视频联动特征的行为识别方法 Active CN113610046B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110968288.1A CN113610046B (zh) 2021-08-23 2021-08-23 一种基于深度视频联动特征的行为识别方法
PCT/CN2022/098508 WO2023024658A1 (zh) 2021-08-23 2022-06-14 一种基于深度视频联动特征的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968288.1A CN113610046B (zh) 2021-08-23 2021-08-23 一种基于深度视频联动特征的行为识别方法

Publications (2)

Publication Number Publication Date
CN113610046A true CN113610046A (zh) 2021-11-05
CN113610046B CN113610046B (zh) 2023-09-26

Family

ID=78309170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968288.1A Active CN113610046B (zh) 2021-08-23 2021-08-23 一种基于深度视频联动特征的行为识别方法

Country Status (2)

Country Link
CN (1) CN113610046B (zh)
WO (1) WO2023024658A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024658A1 (zh) * 2021-08-23 2023-03-02 苏州大学 一种基于深度视频联动特征的行为识别方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109630B (zh) * 2023-04-10 2023-06-16 创域智能(常熟)网联科技有限公司 基于传感器采集和人工智能的图像分析方法及系统
CN117073586B (zh) * 2023-10-17 2024-01-09 青岛迈朗格智能制造有限公司 一种同轴双轴转台机械轴平行度检测装置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280421A (zh) * 2018-01-22 2018-07-13 湘潭大学 基于多特征深度运动图的人体行为识别方法
CN109460734A (zh) * 2018-11-08 2019-03-12 山东大学 基于层次动态深度投影差值图像表示的视频行为识别方法及系统
CN113221694A (zh) * 2021-04-29 2021-08-06 苏州大学 一种动作识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038420B (zh) * 2017-11-21 2020-10-30 华中科技大学 一种基于深度视频的人体行为识别方法
US11238300B2 (en) * 2019-09-10 2022-02-01 Microsoft Technology Licensing, Llc Depth-based object re-identification
CN113591797B (zh) * 2021-08-23 2023-07-28 苏州大学 一种深度视频行为识别方法
CN113610046B (zh) * 2021-08-23 2023-09-26 苏州大学 一种基于深度视频联动特征的行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280421A (zh) * 2018-01-22 2018-07-13 湘潭大学 基于多特征深度运动图的人体行为识别方法
CN109460734A (zh) * 2018-11-08 2019-03-12 山东大学 基于层次动态深度投影差值图像表示的视频行为识别方法及系统
CN113221694A (zh) * 2021-04-29 2021-08-06 苏州大学 一种动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOFENG ZHAO ET AL.: ""Discriminative Pose Analysis for Human Action Recognition"", 《IEEE》, pages 1 - 6 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024658A1 (zh) * 2021-08-23 2023-03-02 苏州大学 一种基于深度视频联动特征的行为识别方法

Also Published As

Publication number Publication date
CN113610046B (zh) 2023-09-26
WO2023024658A1 (zh) 2023-03-02

Similar Documents

Publication Publication Date Title
CN111259850B (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
US11967175B2 (en) Facial expression recognition method and system combined with attention mechanism
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN111310731B (zh) 基于人工智能的视频推荐方法、装置、设备及存储介质
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
WO2019227479A1 (zh) 人脸旋转图像的生成方法及装置
JP6788264B2 (ja) 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム
CN110097029B (zh) 基于Highway网络多视角步态识别的身份认证方法
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111783748A (zh) 人脸识别方法、装置、电子设备及存储介质
CN110827304B (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
CN112766186B (zh) 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN110222718A (zh) 图像处理的方法及装置
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN113221694A (zh) 一种动作识别方法
CN111401113A (zh) 一种基于人体姿态估计的行人重识别方法
CN111639580A (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN111488951B (zh) 一种用于rgb-d图像分类的对抗度量学习模型生成方法
CN111539351A (zh) 一种多任务级联的人脸选帧比对方法
CN115205933A (zh) 面部表情识别方法、装置、设备及可读存储介质
CN114882537A (zh) 一种基于神经辐射场的手指新视角图像生成方法
CN112800979B (zh) 一种基于表征流嵌入网络的动态表情识别方法及系统
US20240177525A1 (en) Multi-view human action recognition method based on hypergraph learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant