CN111340011A - 一种自适应时序移位神经网络时序行为识别方法及系统 - Google Patents

一种自适应时序移位神经网络时序行为识别方法及系统 Download PDF

Info

Publication number
CN111340011A
CN111340011A CN202010419814.4A CN202010419814A CN111340011A CN 111340011 A CN111340011 A CN 111340011A CN 202010419814 A CN202010419814 A CN 202010419814A CN 111340011 A CN111340011 A CN 111340011A
Authority
CN
China
Prior art keywords
image
representing
time
shift
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010419814.4A
Other languages
English (en)
Other versions
CN111340011B (zh
Inventor
张一帆
程科
卢汉清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Nanjing Artificial Intelligence Innovation Research Institute
Institute of Automation of Chinese Academy of Science
Original Assignee
Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences, Institute of Automation of Chinese Academy of Science filed Critical Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences
Priority to CN202010419814.4A priority Critical patent/CN111340011B/zh
Publication of CN111340011A publication Critical patent/CN111340011A/zh
Application granted granted Critical
Publication of CN111340011B publication Critical patent/CN111340011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种自适应时序移位神经网络时序行为识别方法及系统,首先采集多个时间点的特征并建模;接着引入自适应时序移位神经网络学习每一层网络所需的感受野;最后训练可学习的移位变量,对骨骼点数据进行修正。本发明能够自适应的学习每一层网络所需的感受野,并且能够自适应的学习每种数据集所需的感受野。自适应时序移位神经网络能够针对不同的数据学习出不同的时间移位向量,从而自适应的适应不同的数据分布。通过本发明提出的时序行为识别方法,能够在提高行为检测精度的同时节省计算资源,这种自适应的学习比普通时间卷积的手工调参更加优越。

Description

一种自适应时序移位神经网络时序行为识别方法及系统
技术领域
本发明涉及一种自适应时序移位神经网络时序行为识别方法及系统,涉及一般的图像数据处理或产生G06T领域,尤其涉及G06T 7/20运动分析领域。
背景技术
随着人工智能的发展,对人体行为进行识别受到越来越多的关注。对人体行为进行识别可以应用在安防、人机交互等领域。
行为识别的研究中,一个热点问题就是如何进行时序行为识别。所谓时序行为,指的是无法通过单帧图像来判断,需要通过观察一个时序动作来判断的行为。例如站起来和坐下去,这两个行为就难以通过单帧图像来区分,只有观察一个时序片段才能区分。即使是一些和时序先后顺序不那么强的行为(如拍手,握手等),在引入时序建模之后往往也会有精度的提升。
现有的用于时序移位方法是通过一个时序移位模块来对不同时间点的特征进行建模,对于时序卷积和时序移位方法,其感受野的大小是人为指定的,而这种人为指定的感受野并不适合时序行为识别任务;在时序行为识别中,不同数据库需要不同的感受野,这就导致不同数据库上需要进行大量的调参实验。
发明内容
发明目的:一个目的是提出一种自适应时序移位神经网络时序行为识别方法,以解决现有技术存在的上述问题。进一步目的是提出一种实现上述方法的系统。
技术方案:一种自适应时序移位神经网络时序行为识别方法,包括以下步骤:
步骤1、采集多个时间点的特征并建模;
步骤2、引入自适应时序移位神经网络学习每一层网络所需的感受野。
在进一步的实施例中,所述步骤1进一步包括:建立一个时序移位模型,模型包含时间T和特征通道数C两个维度,特征通道C被分为多份,其中一份向上一时刻移位,另一份向下一时刻移位,其余份不进行移位,经过移位后,新的特征通过线性插值来获得,如下:
Figure DEST_PATH_IMAGE001
式中,
Figure 357678DEST_PATH_IMAGE002
Figure 602714DEST_PATH_IMAGE003
,其中T为时序维度,C是特征通道数,N是与时序无关的其他维度;
Figure 585714DEST_PATH_IMAGE004
表示自适应时序移位神经网络中可学习的移位变量,其中i=1,2,3…C,即i的个数与特征通道数一致;v表示移位速率,
Figure 810284DEST_PATH_IMAGE005
表示当前时刻,
Figure 218131DEST_PATH_IMAGE006
表示特征通道C其中的一份向上一时刻移位,
Figure 509436DEST_PATH_IMAGE007
表示特征通道C其中的另一份向下一时刻移位,
Figure 104365DEST_PATH_IMAGE008
表示通过线性插值获得的新的特征。
在进一步的实施例中,步骤1中:
利用卷积神经网络预先提取视频序列的视觉特征,对于视频数据的每一帧图像,将其转化为RGB分布图,并生成对应的光流图:
首先将每1帧图像上的每一像素点取坐标点
Figure 37686DEST_PATH_IMAGE009
,将坐标点
Figure 300040DEST_PATH_IMAGE009
转化为光流
Figure 762245DEST_PATH_IMAGE010
,计算出光流约束方程:
Figure 345936DEST_PATH_IMAGE011
式中,
Figure 410844DEST_PATH_IMAGE012
表示像素点取坐标点
Figure 403070DEST_PATH_IMAGE009
对应的灰度值,
Figure 160811DEST_PATH_IMAGE005
表示目标图像的运动时间,为目标视频的帧率的倒数;
Figure 730332DEST_PATH_IMAGE013
表示的是灰度对时间的变化率,
Figure 208718DEST_PATH_IMAGE014
表示的是灰度值在x方向上的空间梯度,
Figure 681550DEST_PATH_IMAGE015
表示的是灰度值在y方向上的空间梯度,
Figure 344613DEST_PATH_IMAGE016
和v分别代表x方向和y方向上的光流速度;
利用空间流和时间流网络对时序光流特征建模来挖掘序列中的行为一致性:
Figure 401430DEST_PATH_IMAGE017
Figure 683507DEST_PATH_IMAGE018
式中,
Figure DEST_PATH_IMAGE019
表示在建模过程中对应的RGB参数,
Figure 807583DEST_PATH_IMAGE020
表示在建模过程中对应的光流参数;其中z的取值区间为[0,1],
Figure DEST_PATH_IMAGE021
表示sigmoid激活;
Figure 235022DEST_PATH_IMAGE022
表示RGB特征,
Figure 513557DEST_PATH_IMAGE023
表示光流特征,
Figure 599325DEST_PATH_IMAGE024
表示上一时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 781170DEST_PATH_IMAGE025
表示上一时刻的光流特征对应空间流网络和时间网络的全连接层;
Figure 317193DEST_PATH_IMAGE026
表示当前时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 223969DEST_PATH_IMAGE027
表示当前时刻的光流特征对应空间流网络和时间网络的全连接层;
训练上述移位变量:
Figure 238062DEST_PATH_IMAGE028
式中,
Figure 179473DEST_PATH_IMAGE029
表示神经元的权重向量,
Figure 886398DEST_PATH_IMAGE030
表示对输入向量x进行非线性变换,
Figure 280470DEST_PATH_IMAGE031
表示对神经元的权重向量激活函数转换,将输入向量x赋值为
Figure 322420DEST_PATH_IMAGE032
,n表示神经网络的级数,b表示偏量,
Figure 852759DEST_PATH_IMAGE033
表示经过训练后的移位变量;
其中,
Figure 730585DEST_PATH_IMAGE034
式中,
Figure 611953DEST_PATH_IMAGE035
表示与分离超平面垂直的权向量,b表示超平面的偏置向量,
Figure 702269DEST_PATH_IMAGE036
表示第i个输入单元和隐藏单元相关联的权值向量,
Figure 477327DEST_PATH_IMAGE037
表示训练周期。
在进一步的实施例中,步骤2用于进行时序行为识别,并不指定所输入的数据,所输入的数据包括但不限于RGB视频、光流视频、骨骼点视频。
在进一步的实施例中,骨骼点视频的输入进一步包括如下步骤:
步骤2-1、由图像获取模块获取人体骨骼点图像,获取原图像的数据区指针,建立两个缓冲区,缓冲区大小与原图形相同,缓冲区主要用于存储原图像及原图形副本,将两个缓冲区初始化为原图像副本,分别标记为图像1和图像2;
步骤2-2、在每个缓冲区域中单独设置一个用于卷积操作的Krisch模板,然后在两个区域中分别遍历副本图像中的像素,逐一进行卷积操作,计算结果,对比将计算得出的较值存到图像1中,再将图像1复制到缓存图像2中;
步骤2-3、重复步骤2-2,一次设置剩余的六个模板,并进行计算处理,最后得出图像1与图像2中较大灰度值存放在缓冲图像1中;将处理后的图像1复制到原图像数据中,在进行编程实现图像的边缘处理;
步骤2-4、当人体行为特征图像处理完成后,提取模块用于提取图像处理模块处理后图像的骨骼点提取,当图像处理模块处理图像获取模块获取的图像完成后,此时人体边缘图上将按照最接近获取图像行为人体型进行匹配预先录入的骨骼点位置,进而将匹配后的骨骼点进行显示在人体边缘图上。
在进一步的实施例中,所述步骤2-2进一步包括:
在检测图像边缘的时候使用卷积3*3模板,遍历图像中的像素点,逐一考察各个像素点周围邻近区域的像素灰度值,计算其中三个相邻像素灰度的加权与其余五个像素的灰度加权和差值;卷积模板如下:
Figure 135841DEST_PATH_IMAGE038
使用八个卷积模板,依次处理原图像中的所有像素,计算得到其边缘强度,再通过阀值进行检测,提取最后边缘点,完成边缘检测。
在进一步的实施例中,还包括训练可学习的移位变量,对骨骼点数据进行修正:
步骤3-1、选择身体中心点作为根节点,计算所有与根节点直接相连点到根节点的向量,再用每个向量分别处以向量的模长,得到每个向量的方向向量;
步骤3-2、用步骤3-1中方向向量乘以参考骨架中相应向量的长度得到一个向量,再用根节点的坐标加上该向量,得到修正后的某个与根节点直接相连点的坐标,将相连点坐标记录下来,作为归一化后相应骨骼点的坐标值,在按照广度优先搜索算法的顺序,依次更新根节点的坐标值;
步骤3-3、重复步骤1至步骤2直至所有骨骼点的值都得到修正。
在进一步的实施例中,步骤3-2中归一化骨骼点坐标值的方法如下:
第一步:定义
Figure 865025DEST_PATH_IMAGE039
为根节点坐标;
第二步:将
Figure 24611DEST_PATH_IMAGE039
赋初始值为
Figure 795121DEST_PATH_IMAGE040
第三步;对所有的(
Figure 483591DEST_PATH_IMAGE041
),按照广度优先搜索策略,依次执行;
第四步:计算
Figure 605131DEST_PATH_IMAGE042
-
Figure DEST_PATH_IMAGE043
第五步:计算
Figure 771670DEST_PATH_IMAGE044
第六步:
Figure 491627DEST_PATH_IMAGE039
+
Figure 882157DEST_PATH_IMAGE045
,将
Figure 959834DEST_PATH_IMAGE046
的值保存到集合A中;
第七步:返回第三步,知道骨架中的所有的肢体都遍历完成;
输出:集合A中保存的骨骼点坐标即为修正后的坐标;
其中,
Figure 461223DEST_PATH_IMAGE047
的值代表第
Figure 799800DEST_PATH_IMAGE048
个肢体,
Figure 236598DEST_PATH_IMAGE049
代表参考估价中的第
Figure 427670DEST_PATH_IMAGE048
个肢体的长度,
Figure 342536DEST_PATH_IMAGE041
分别表示参考估价中第
Figure 801199DEST_PATH_IMAGE048
个肢体开始节点和结束节点的坐标值,这样将所有的
Figure 408898DEST_PATH_IMAGE046
的值计算出来,即可得到所有修正后的骨骼点坐标,在保证肢体间夹角不变的情况下,进行对估价的尺寸进行缩放。
一种自适应时序移位神经网络时序行为识别系统,其特征在于,包括用于采集多个时间点的特征并建模的时序移位模块;用于引入自适应时序移位神经网络学习每一层网络所需的感受野的神经网络学习模块;以及用于训练可学习的移位变量并对骨骼点数据进行修正的骨骼点修正模块。
在进一步的实施例中,所述时序移位模块进一步用于建立一个时序移位模型,模型包含时间T和特征通道数C两个维度,特征通道C被分为多份,其中一份向上一时刻移位,另一份向下一时刻移位,其余份不进行移位,经过移位后,新的特征通过线性插值来获得,如下:
Figure 585802DEST_PATH_IMAGE001
式中,
Figure 304359DEST_PATH_IMAGE002
Figure 883108DEST_PATH_IMAGE003
,其中T为时序维度,C是特征通道数,N是与时序无关的其他维度;
Figure 661708DEST_PATH_IMAGE004
表示自适应时序移位神经网络中可学习的移位变量,其中i=1,2,3…C,即i的个数与特征通道数一致;v表示移位速率,
Figure 827372DEST_PATH_IMAGE005
表示当前时刻,
Figure 349621DEST_PATH_IMAGE006
表示特征通道C其中的一份向上一时刻移位,
Figure 782876DEST_PATH_IMAGE007
表示特征通道C其中的另一份向下一时刻移位,
Figure 732377DEST_PATH_IMAGE008
表示通过线性插值获得的新的特征;
利用卷积神经网络预先提取视频序列的视觉特征,对于视频数据的每一帧图像,将其转化为RGB分布图,并生成对应的光流图:
首先将每1帧图像上的每一像素点取坐标点
Figure 352715DEST_PATH_IMAGE009
,将坐标点
Figure 803288DEST_PATH_IMAGE009
转化为光流
Figure 966416DEST_PATH_IMAGE010
,计算出光流约束方程:
Figure 712917DEST_PATH_IMAGE011
式中,
Figure 227075DEST_PATH_IMAGE012
表示像素点取坐标点
Figure 215760DEST_PATH_IMAGE009
对应的灰度值,
Figure 233394DEST_PATH_IMAGE005
表示目标图像的运动时间,为目标视频的帧率的倒数;
Figure 914911DEST_PATH_IMAGE013
表示的是灰度对时间的变化率,
Figure 650786DEST_PATH_IMAGE014
表示的是灰度值在x方向上的空间梯度,
Figure 443161DEST_PATH_IMAGE015
表示的是灰度值在y方向上的空间梯度,
Figure 315303DEST_PATH_IMAGE016
和v分别代表x方向和y方向上的光流速度;
利用空间流和时间流网络对时序光流特征建模来挖掘序列中的行为一致性:
Figure 308666DEST_PATH_IMAGE050
Figure 626777DEST_PATH_IMAGE051
式中,
Figure 957265DEST_PATH_IMAGE019
表示在建模过程中对应的RGB参数,
Figure 949491DEST_PATH_IMAGE020
表示在建模过程中对应的光流参数;其中z的取值区间为[0,1],
Figure 972811DEST_PATH_IMAGE021
表示sigmoid激活;
Figure 417699DEST_PATH_IMAGE022
表示RGB特征,
Figure 551877DEST_PATH_IMAGE023
表示光流特征,
Figure 664190DEST_PATH_IMAGE024
表示上一时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 94296DEST_PATH_IMAGE025
表示上一时刻的光流特征对应空间流网络和时间网络的全连接层;
Figure 292059DEST_PATH_IMAGE026
表示当前时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 964349DEST_PATH_IMAGE027
表示当前时刻的光流特征对应空间流网络和时间网络的全连接层;
训练上述移位变量:
Figure 931168DEST_PATH_IMAGE028
式中,
Figure 30711DEST_PATH_IMAGE029
表示神经元的权重向量,
Figure 715770DEST_PATH_IMAGE030
表示对输入向量x进行非线性变换,
Figure 191751DEST_PATH_IMAGE031
表示对神经元的权重向量激活函数转换,将输入向量x赋值为
Figure 13076DEST_PATH_IMAGE032
,n表示神经网络的级数,b表示偏量,
Figure 62284DEST_PATH_IMAGE033
表示经过训练后的移位变量;
其中,
Figure 969060DEST_PATH_IMAGE034
式中,
Figure 983152DEST_PATH_IMAGE035
表示与分离超平面垂直的权向量,b表示超平面的偏置向量,
Figure 783618DEST_PATH_IMAGE036
表示第i个输入单元和隐藏单元相关联的权值向量,
Figure 100330DEST_PATH_IMAGE037
表示训练周期;
所述神经网络学习模块进一步由图像获取模块获取人体骨骼点图像,获取原图像的数据区指针,建立两个缓冲区,缓冲区大小与原图形相同,缓冲区主要用于存储原图像及原图形副本,将两个缓冲区初始化为原图像副本,分别标记为图像1和图像2;
在每个缓冲区域中单独设置一个用于卷积操作的Krisch模板,然后在两个区域中分别遍历副本图像中的像素,逐一进行卷积操作,计算结果,对比将计算得出的较值存到图像1中,再将图像1复制到缓存图像2中;
检测图像边缘的时候使用卷积3*3模板,遍历图像中的像素点,逐一考察各个像素点周围邻近区域的像素灰度值,计算其中三个相邻像素灰度的加权与其余五个像素的灰度加权和差值;卷积模板如下:
Figure 619036DEST_PATH_IMAGE038
使用八个卷积模板,依次处理原图像中的所有像素,计算得到其边缘强度,再通过阀值进行检测,提取最后边缘点,完成边缘检测;
一次设置剩余的六个模板,并进行计算处理,最后得出图像1与图像2中较大灰度值存放在缓冲图像1中;将处理后的图像1复制到原图像数据中,在进行编程实现图像的边缘处理;当人体行为特征图像处理完成后,提取模块用于提取图像处理模块处理后图像的骨骼点提取,当图像处理模块处理图像获取模块获取的图像完成后,此时人体边缘图上将按照最接近获取图像行为人体型进行匹配预先录入的骨骼点位置,进而将匹配后的骨骼点进行显示在人体边缘图上;
所述骨骼点修正模块进一步选择身体中心点作为根节点,计算所有与根节点直接相连点到根节点的向量,再用每个向量分别处以向量的模长,得到每个向量的方向向量;用方向向量乘以参考骨架中相应向量的长度得到一个向量,再用根节点的坐标加上该向量,得到修正后的某个与根节点直接相连点的坐标,将相连点坐标记录下来,作为归一化后相应骨骼点的坐标值:第一步:定义
Figure 312185DEST_PATH_IMAGE039
为根节点坐标;第二步:将
Figure 734202DEST_PATH_IMAGE039
赋初始值为
Figure 487394DEST_PATH_IMAGE040
;第三步;对所有的(
Figure 493396DEST_PATH_IMAGE041
),按照广度优先搜索策略,依次执行;第四步:计算-
Figure 499715DEST_PATH_IMAGE043
;第五步:计算
Figure 423809DEST_PATH_IMAGE044
;第六步:
Figure 917107DEST_PATH_IMAGE039
+
Figure 952059DEST_PATH_IMAGE045
,将
Figure 83089DEST_PATH_IMAGE046
的值保存到集合A中;第七步:返回第三步,知道骨架中的所有的肢体都遍历完成;集合A中保存的骨骼点坐标即为修正后的坐标;
其中,
Figure 178084DEST_PATH_IMAGE047
的值代表第
Figure 158678DEST_PATH_IMAGE048
个肢体,
Figure 731742DEST_PATH_IMAGE049
代表参考估价中的第
Figure 481392DEST_PATH_IMAGE048
个肢体的长度,
Figure 747288DEST_PATH_IMAGE041
分别表示参考估价中第
Figure 949599DEST_PATH_IMAGE048
个肢体开始节点和结束节点的坐标值,这样将所有的
Figure 591933DEST_PATH_IMAGE046
的值计算出来,即可得到所有修正后的骨骼点坐标,在保证肢体间夹角不变的情况下,进行对估价的尺寸进行缩放;最终按照广度优先搜索算法的顺序,依次更新根节点的坐标值。
有益效果:本发明提出了一种自适应时序移位神经网络时序行为识别方法及系统,能够自适应的学习每一层网络所需的感受野,并且能够自适应的学习每种数据集所需的感受野。自适应时序移位神经网络能够针对不同的数据学习出不同的时间移位向量,从而自适应的适应不同的数据分布。通过本发明提出的时序行为识别方法,能够在提高行为检测精度的同时节省计算资源,这种自适应的学习比普通时间卷积的手工调参更加优越。
附图说明
图1为本发明中时序移位模块的结构示意图。
图2为本发明针对骨骼点的移位卷积示意图。
图3为本发明步骤1中建立时序移位模型并提取视觉模型的流程图。
图4为本发明在两个数据库上分别学到的自适应时间移位图。
具体实施方式
申请人认为,现有的用于时序移位方法是通过一个时序移位模块来对不同时间点的特征进行建模,对于时序卷积和时序移位方法,其感受野的大小是人为指定的,而这种人为指定的感受野并不适合时序行为识别任务;在时序行为识别中,不同数据库需要不同的感受野,这就导致不同数据库上需要进行大量的调参实验。
我们这里重点介绍时序移位方法,这种方法是我们所提出的自适应时序移位的主要背景技术知识。时序移位是通过一个时序移位模块来对不同时间点的特征进行建模,如图1所示。对于一个时序特征,其至少包含两个维度:时间T和特征通道数C。在时序移位模块中,特征通道C被分为多份,其中一份向上一时刻移位,另一份向下一时刻移位,其余份不进行移位。这种操作后会紧跟一个特征维度C上的线性变换层(fully-connect layer)。通过移位操作,不同时间点的特征进行拼接,而后的线性变换层可对不同时间的特征进行信息建模。
值得一提的是,本发明涉及的方法用于进行时序行为识别,并不指定所输入的数据,下面提供一种以骨骼点视频作为输入数据的实施例,来对本发明做进一步解释。
为此,本发明提出一种自适应时序移位神经网络时序行为识别方法,具体的方法如下:
步骤1、采集多个时间点的特征并建模:
步骤1-1、建立一个时序移位模型,如图1所示,模型包含时间T和特征通道数C两个维度,特征通道C被分为多份,其中一份向上一时刻移位,另一份向下一时刻移位,其余份不进行移位,经过移位后,新的特征通过线性插值来获得,如下:
Figure 697555DEST_PATH_IMAGE001
式中,
Figure 134352DEST_PATH_IMAGE002
Figure 823960DEST_PATH_IMAGE003
,其中T为时序维度,C是特征通道数,N是与时序无关的其他维度;
Figure 738826DEST_PATH_IMAGE004
表示自适应时序移位神经网络中可学习的移位变量,其中i=1,2,3…C,即i的个数与特征通道数一致;v表示移位速率,
Figure 463068DEST_PATH_IMAGE005
表示当前时刻,
Figure 70767DEST_PATH_IMAGE006
表示特征通道C其中的一份向上一时刻移位,
Figure 247671DEST_PATH_IMAGE007
表示特征通道C其中的另一份向下一时刻移位,
Figure 966228DEST_PATH_IMAGE008
表示通过线性插值获得的新的特征;
步骤1-2、利用卷积神经网络预先提取视频序列的视觉特征,对于视频数据的每一帧图像,将其转化为RGB分布图,并生成对应的光流图,如图3所示。
首先将每1帧图像上的每一像素点取坐标点
Figure 46442DEST_PATH_IMAGE009
,将坐标点
Figure 825042DEST_PATH_IMAGE009
转化为光流
Figure 489241DEST_PATH_IMAGE010
,计算出光流约束方程:
Figure 11490DEST_PATH_IMAGE011
式中,
Figure 444745DEST_PATH_IMAGE012
表示像素点取坐标点
Figure 394246DEST_PATH_IMAGE009
对应的灰度值,
Figure 280163DEST_PATH_IMAGE005
表示目标图像的运动时间,为目标视频的帧率的倒数;
Figure 606102DEST_PATH_IMAGE013
表示的是灰度对时间的变化率,
Figure 395329DEST_PATH_IMAGE014
表示的是灰度值在x方向上的空间梯度,
Figure 515731DEST_PATH_IMAGE015
表示的是灰度值在y方向上的空间梯度,
Figure 154523DEST_PATH_IMAGE016
和v分别代表x方向和y方向上的光流速度;
步骤1-3、利用空间流和时间流网络对时序光流特征建模来挖掘序列中的行为一致性:
Figure 18574DEST_PATH_IMAGE017
Figure 160842DEST_PATH_IMAGE052
式中,
Figure 452146DEST_PATH_IMAGE019
表示在建模过程中对应的RGB参数,
Figure 312655DEST_PATH_IMAGE020
表示在建模过程中对应的光流参数;其中z的取值区间为[0,1],表示sigmoid激活;
Figure 714818DEST_PATH_IMAGE022
表示RGB特征,
Figure 478636DEST_PATH_IMAGE023
表示光流特征,
Figure 206421DEST_PATH_IMAGE024
表示上一时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 288647DEST_PATH_IMAGE025
表示上一时刻的光流特征对应空间流网络和时间网络的全连接层;
Figure 760079DEST_PATH_IMAGE026
表示当前时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 876940DEST_PATH_IMAGE027
表示当前时刻的光流特征对应空间流网络和时间网络的全连接层;
步骤1-4、训练上述移位变量:
Figure 510046DEST_PATH_IMAGE053
式中,
Figure 345147DEST_PATH_IMAGE029
表示神经元的权重向量,
Figure 715211DEST_PATH_IMAGE030
表示对输入向量x进行非线性变换,
Figure 561944DEST_PATH_IMAGE031
表示对神经元的权重向量激活函数转换,将输入向量x赋值为
Figure 490586DEST_PATH_IMAGE032
,n表示神经网络的级数,b表示偏量,
Figure 281824DEST_PATH_IMAGE033
表示经过训练后的移位变量;
其中,
Figure 829480DEST_PATH_IMAGE034
式中,
Figure 920933DEST_PATH_IMAGE035
表示与分离超平面垂直的权向量,b表示超平面的偏置向量,
Figure 161422DEST_PATH_IMAGE036
表示第i个输入单元和隐藏单元相关联的权值向量,
Figure 195282DEST_PATH_IMAGE037
表示训练周期。
步骤2、引入自适应时序移位神经网络学习每一层网络所需的感受野,如图2所示:
步骤2-1、由图像获取模块获取人体骨骼点图像,获取原图像的数据区指针,建立两个缓冲区,缓冲区大小与原图形相同,缓冲区主要用于存储原图像及原图形副本,将两个缓冲区初始化为原图像副本,分别标记为图像1和图像2;
步骤2-2、在每个缓冲区域中单独设置一个用于卷积操作的Krisch模板,然后在两个区域中分别遍历副本图像中的像素,逐一进行卷积操作,计算结果,对比将计算得出的较值存到图像1中,再将图像1复制到缓存图像2中;在检测图像边缘的时候使用卷积3*3模板,遍历图像中的像素点,逐一考察各个像素点周围邻近区域的像素灰度值,计算其中三个相邻像素灰度的加权与其余五个像素的灰度加权和差值;卷积模板如下:
Figure 546628DEST_PATH_IMAGE038
使用八个卷积模板,依次处理原图像中的所有像素,计算得到其边缘强度,再通过阀值进行检测,提取最后边缘点,完成边缘检测。
步骤2-3、重复步骤2-2,一次设置剩余的六个模板,并进行计算处理,最后得出图像1与图像2中较大灰度值存放在缓冲图像1中;将处理后的图像1复制到原图像数据中,在进行编程实现图像的边缘处理;
步骤2-4、当人体行为特征图像处理完成后,提取模块用于提取图像处理模块处理后图像的骨骼点提取,当图像处理模块处理图像获取模块获取的图像完成后,此时人体边缘图上将按照最接近获取图像行为人体型进行匹配预先录入的骨骼点位置,进而将匹配后的骨骼点进行显示在人体边缘图上。
步骤3、训练可学习的移位变量,对骨骼点数据进行修正。
步骤3-1、选择身体中心点作为根节点,计算所有与根节点直接相连点到根节点的向量,再用每个向量分别处以向量的模长,得到每个向量的方向向量;
步骤3-2、用步骤3-1中方向向量乘以参考骨架中相应向量的长度得到一个向量,再用根节点的坐标加上该向量,得到修正后的某个与根节点直接相连点的坐标,将相连点坐标记录下来,作为归一化后相应骨骼点的坐标值,在按照广度优先搜索算法的顺序,依次更新根节点的坐标值;归一化骨骼点坐标值的方法如下:
第一步:定义
Figure 492588DEST_PATH_IMAGE039
为根节点坐标;
第二步:将
Figure 638398DEST_PATH_IMAGE039
赋初始值为
Figure 669808DEST_PATH_IMAGE040
第三步;对所有的(
Figure 824846DEST_PATH_IMAGE041
),按照广度优先搜索策略,依次执行;
第四步:计算
Figure 625312DEST_PATH_IMAGE042
-
Figure 207603DEST_PATH_IMAGE043
第五步:计算
Figure 227774DEST_PATH_IMAGE044
第六步:
Figure 920923DEST_PATH_IMAGE039
+
Figure 841475DEST_PATH_IMAGE045
,将
Figure 594667DEST_PATH_IMAGE046
的值保存到集合A中;
第七步:返回第三步,知道骨架中的所有的肢体都遍历完成;
输出:集合A中保存的骨骼点坐标即为修正后的坐标;
其中,
Figure 335090DEST_PATH_IMAGE047
的值代表第
Figure 831930DEST_PATH_IMAGE048
个肢体,
Figure 606988DEST_PATH_IMAGE049
代表参考估价中的第
Figure 531082DEST_PATH_IMAGE048
个肢体的长度,
Figure 525845DEST_PATH_IMAGE041
分别表示参考估价中第
Figure 560797DEST_PATH_IMAGE048
个肢体开始节点和结束节点的坐标值,这样将所有的
Figure 190362DEST_PATH_IMAGE046
的值计算出来,即可得到所有修正后的骨骼点坐标,在保证肢体间夹角不变的情况下,进行对估价的尺寸进行缩放。
步骤3-3、重复步骤1至步骤2直至所有骨骼点的值都得到修正。
我们提出的自适应时序移位神经网络的计算过程是可导的,因此可以通过常见的反向传播算法来训练这C个可学习的移位变量 。自适应时序移位神经网络的参数量只有C个,浮点乘法次数只有2NTC次,并且不同的特征点可以并行计算,因此其计算速度远高于普通时间卷积方法。
我们的大量实验表明,自适应时序移位神经网络可以在C++或CUDA语言上高效实现,从而非常高效地在CPU或GPU上部署,计算速度远高于普通时间卷积方法(见表1)。并且,其行为识别精度也在普通时间卷积之上(见表2),这是由于我们的自适应时序移位神经网络可以自适应的学习网络每一层所需的感受野,这种自适应的学习比普通时间卷积的手工调参更加优越。我们在不同的数据库上进行的实验也表明,自适应时序移位神经网络能够针对不同的数据学习出不同的时间移位向量,从而自适应的适应不同的数据分布(例如,帧数较长的视频数据中学到的时间移位向量较大,而帧数较短的视频数据中学到的时间移位向量较小,见图2),这使得我们的方法在不同数据库上可以自动的学习合适的感受野,而无需人工调参。
Figure 144411DEST_PATH_IMAGE054
与传统时间卷积相比,自适应时间移位卷积的加速效果
Figure 469213DEST_PATH_IMAGE056
表2 与传统时间卷积的精度对比
Figure 166911DEST_PATH_IMAGE058
无论传统时间卷积的卷积核取多大,我们的方法的精度始终显著高于传统时间卷积。
见图4,图4展现了在两个数据库上分别学到的自适应时间移位示意图。我们的网络中使用了20个自适应时间移位神经网络,其中每层都有C个时间移位值。我们从输入(bottom)到输出(top)分别可视化每层所学到的移位值。可见,NTU RGB+D数据库学到的移位范围大于NW-UCLA数据库。注意到NTU RGB+D数据的平均帧数比NW-UCLA数据更多,因此我们学到的这种分布是合理的。这体现出我们的方法对不同数据库的自适应性,即可以自适应的学到合适的感受野。

Claims (10)

1.一种自适应时序移位神经网络时序行为识别方法,其特征是包括以下步骤:
步骤1、采集多个时间点的特征并建模;
步骤2、引入自适应时序移位神经网络学习每一层网络所需的感受野。
2.根据权利要求1所述的一种自适应时序移位神经网络时序行为识别方法,其特征在于,所述步骤1进一步包括:建立一个时序移位模型,模型包含时间T和特征通道数C两个维度,特征通道C被分为多份,其中一份向上一时刻移位,另一份向下一时刻移位,其余份不进行移位,经过移位后,新的特征通过线性插值来获得,如下:
Figure 379016DEST_PATH_IMAGE001
式中,
Figure 226886DEST_PATH_IMAGE002
Figure 214434DEST_PATH_IMAGE003
,其中T为时序维度,C是特征通道数,N是与时序无关的其他维度;
Figure 438742DEST_PATH_IMAGE004
表示自适应时序移位神经网络中可学习的移位变量,其中i=1,2,3…C,即i的个数与特征通道数一致;v表示移位速率,
Figure 562555DEST_PATH_IMAGE005
表示当前时刻,
Figure 846906DEST_PATH_IMAGE006
表示特征通道C其中的一份向上一时刻移位,
Figure 88794DEST_PATH_IMAGE007
表示特征通道C其中的另一份向下一时刻移位,
Figure 851214DEST_PATH_IMAGE008
表示通过线性插值获得的新的特征。
3.根据权利要求2所述的一种自适应时序移位神经网络时序行为识别方法,其特征在于,步骤1中:
利用卷积神经网络预先提取视频序列的视觉特征,对于视频数据的每一帧图像,将其转化为RGB分布图,并生成对应的光流图:
首先将每1帧图像上的每一像素点取坐标点
Figure 32796DEST_PATH_IMAGE009
,将坐标点
Figure 284786DEST_PATH_IMAGE009
转化为光流
Figure 184609DEST_PATH_IMAGE010
,计算出光流约束方程:
Figure 813036DEST_PATH_IMAGE011
式中,
Figure 177022DEST_PATH_IMAGE012
表示像素点取坐标点
Figure 803175DEST_PATH_IMAGE009
对应的灰度值,
Figure 485567DEST_PATH_IMAGE005
表示目标图像的运动时间,为目标视频的帧率的倒数;
Figure 589789DEST_PATH_IMAGE013
表示的是灰度对时间的变化率,
Figure 73860DEST_PATH_IMAGE014
表示的是灰度值在x方向上的空间梯度,
Figure 870915DEST_PATH_IMAGE015
表示的是灰度值在y方向上的空间梯度,
Figure 479751DEST_PATH_IMAGE016
和v分别代表x方向和y方向上的光流速度;
利用空间流和时间流网络对时序光流特征建模来挖掘序列中的行为一致性:
Figure 715560DEST_PATH_IMAGE017
Figure 726241DEST_PATH_IMAGE018
式中,
Figure 490935DEST_PATH_IMAGE019
表示在建模过程中对应的RGB参数,
Figure 587067DEST_PATH_IMAGE020
表示在建模过程中对应的光流参数;其中z的取值区间为[0,1],
Figure 862453DEST_PATH_IMAGE021
表示sigmoid激活;
Figure 993220DEST_PATH_IMAGE022
表示RGB特征,
Figure 132077DEST_PATH_IMAGE023
表示光流特征,
Figure 512243DEST_PATH_IMAGE024
表示上一时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 761959DEST_PATH_IMAGE025
表示上一时刻的光流特征对应空间流网络和时间网络的全连接层;
Figure 747232DEST_PATH_IMAGE026
表示当前时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 119308DEST_PATH_IMAGE027
表示当前时刻的光流特征对应空间流网络和时间网络的全连接层;
训练上述移位变量:
Figure 190032DEST_PATH_IMAGE028
式中,
Figure 571335DEST_PATH_IMAGE029
表示神经元的权重向量,
Figure 411115DEST_PATH_IMAGE030
表示对输入向量x进行非线性变换,
Figure 891775DEST_PATH_IMAGE031
表示对神经元的权重向量激活函数转换,将输入向量x赋值为
Figure 485348DEST_PATH_IMAGE032
,n表示神经网络的级数,b表示偏量,
Figure 342445DEST_PATH_IMAGE033
表示经过训练后的移位变量;
其中,
Figure 36732DEST_PATH_IMAGE034
式中,
Figure 16189DEST_PATH_IMAGE035
表示与分离超平面垂直的权向量,b表示超平面的偏置向量,
Figure 61506DEST_PATH_IMAGE036
表示第i个输入单元和隐藏单元相关联的权值向量,
Figure 519032DEST_PATH_IMAGE037
表示训练周期。
4.根据权利要求1所述的一种自适应时序移位神经网络时序行为识别方法,其特征在于,步骤2用于进行时序行为识别,并不指定所输入的数据,所输入的数据包括但不限于RGB视频、光流视频、骨骼点视频。
5.根据权利要求4所述的一种自适应时序移位神经网络时序行为识别方法,其特征在于,骨骼点视频的输入进一步包括如下步骤:
步骤2-1、由图像获取模块获取人体骨骼点图像,获取原图像的数据区指针,建立两个缓冲区,缓冲区大小与原图形相同,缓冲区主要用于存储原图像及原图形副本,将两个缓冲区初始化为原图像副本,分别标记为图像1和图像2;
步骤2-2、在每个缓冲区域中单独设置一个用于卷积操作的Krisch模板,然后在两个区域中分别遍历副本图像中的像素,逐一进行卷积操作,计算结果,对比将计算得出的较值存到图像1中,再将图像1复制到缓存图像2中;
步骤2-3、重复步骤2-2,一次设置剩余的六个模板,并进行计算处理,最后得出图像1与图像2中较大灰度值存放在缓冲图像1中;将处理后的图像1复制到原图像数据中,在进行编程实现图像的边缘处理;
步骤2-4、当人体行为特征图像处理完成后,提取模块用于提取图像处理模块处理后图像的骨骼点提取,当图像处理模块处理图像获取模块获取的图像完成后,此时人体边缘图上将按照最接近获取图像行为人体型进行匹配预先录入的骨骼点位置,进而将匹配后的骨骼点进行显示在人体边缘图上。
6.根据权利要求5所述的一种自适应时序移位神经网络时序行为识别方法,其特征在于,所述步骤2-2进一步包括:
在检测图像边缘的时候使用卷积3*3模板,遍历图像中的像素点,逐一考察各个像素点周围邻近区域的像素灰度值,计算其中三个相邻像素灰度的加权与其余五个像素的灰度加权和差值;卷积模板如下:
Figure 67825DEST_PATH_IMAGE039
使用八个卷积模板,依次处理原图像中的所有像素,计算得到其边缘强度,再通过阀值进行检测,提取最后边缘点,完成边缘检测。
7.根据权利要求1所述的一种自适应时序移位神经网络时序行为识别方法,其特征在于,还包括训练可学习的移位变量,对骨骼点数据进行修正:
步骤3-1、选择身体中心点作为根节点,计算所有与根节点直接相连点到根节点的向量,再用每个向量分别处以向量的模长,得到每个向量的方向向量;
步骤3-2、用步骤3-1中方向向量乘以参考骨架中相应向量的长度得到一个向量,再用根节点的坐标加上该向量,得到修正后的某个与根节点直接相连点的坐标,将相连点坐标记录下来,作为归一化后相应骨骼点的坐标值,在按照广度优先搜索算法的顺序,依次更新根节点的坐标值;
步骤3-3、重复步骤1至步骤2直至所有骨骼点的值都得到修正。
8.根据权利要求7所述的一种自适应时序移位神经网络时序行为识别方法,其特征在于,所述步骤3-2中归一化骨骼点坐标值的方法如下:
第一步:定义
Figure 952604DEST_PATH_IMAGE040
为根节点坐标;
第二步:将
Figure 219637DEST_PATH_IMAGE040
赋初始值为
Figure 152958DEST_PATH_IMAGE041
第三步;对所有的(
Figure 651198DEST_PATH_IMAGE042
),按照广度优先搜索策略,依次执行;
第四步:计算
Figure 910141DEST_PATH_IMAGE043
-
Figure 398891DEST_PATH_IMAGE044
第五步:计算
Figure 198220DEST_PATH_IMAGE045
第六步:+
Figure 948187DEST_PATH_IMAGE046
,将
Figure 189813DEST_PATH_IMAGE047
的值保存到集合A中;
第七步:返回第三步,知道骨架中的所有的肢体都遍历完成;
输出:集合A中保存的骨骼点坐标即为修正后的坐标;
其中,
Figure 58412DEST_PATH_IMAGE048
的值代表第
Figure 436303DEST_PATH_IMAGE049
个肢体,
Figure 37049DEST_PATH_IMAGE050
代表参考估价中的第
Figure 795664DEST_PATH_IMAGE049
个肢体的长度,
Figure 140058DEST_PATH_IMAGE042
分别表示参考估价中第
Figure 965931DEST_PATH_IMAGE049
个肢体开始节点和结束节点的坐标值,这样将所有的
Figure 471999DEST_PATH_IMAGE047
的值计算出来,即可得到所有修正后的骨骼点坐标,在保证肢体间夹角不变的情况下,进行对估价的尺寸进行缩放。
9.一种自适应时序移位神经网络时序行为识别系统,其特征在于,包括如下模块:
用于采集多个时间点的特征并建模的时序移位模块;
用于引入自适应时序移位神经网络学习每一层网络所需的感受野的神经网络学习模块;
用于训练可学习的移位变量并对骨骼点数据进行修正的骨骼点修正模块。
10.根据权利要求9所述的一种自适应时序移位神经网络时序行为识别系统,其特征在于,
所述时序移位模块进一步用于建立一个时序移位模型,模型包含时间T和特征通道数C两个维度,特征通道C被分为多份,其中一份向上一时刻移位,另一份向下一时刻移位,其余份不进行移位,经过移位后,新的特征通过线性插值来获得,如下:
Figure 688217DEST_PATH_IMAGE001
式中,
Figure 633039DEST_PATH_IMAGE002
Figure 985523DEST_PATH_IMAGE003
,其中T为时序维度,C是特征通道数,N是与时序无关的其他维度;
Figure 662492DEST_PATH_IMAGE004
表示自适应时序移位神经网络中可学习的移位变量,其中i=1,2,3…C,即i的个数与特征通道数一致;v表示移位速率,
Figure 897164DEST_PATH_IMAGE005
表示当前时刻,
Figure 583360DEST_PATH_IMAGE006
表示特征通道C其中的一份向上一时刻移位,
Figure 790351DEST_PATH_IMAGE007
表示特征通道C其中的另一份向下一时刻移位,
Figure 733161DEST_PATH_IMAGE008
表示通过线性插值获得的新的特征;
利用卷积神经网络预先提取视频序列的视觉特征,对于视频数据的每一帧图像,将其转化为RGB分布图,并生成对应的光流图:
首先将每1帧图像上的每一像素点取坐标点
Figure 658392DEST_PATH_IMAGE009
,将坐标点
Figure 882700DEST_PATH_IMAGE009
转化为光流
Figure 6514DEST_PATH_IMAGE010
,计算出光流约束方程:
Figure 290865DEST_PATH_IMAGE011
式中,
Figure 437812DEST_PATH_IMAGE012
表示像素点取坐标点
Figure 793707DEST_PATH_IMAGE009
对应的灰度值,
Figure 975290DEST_PATH_IMAGE005
表示目标图像的运动时间,为目标视频的帧率的倒数;
Figure 430542DEST_PATH_IMAGE013
表示的是灰度对时间的变化率,
Figure 392682DEST_PATH_IMAGE014
表示的是灰度值在x方向上的空间梯度,
Figure 958792DEST_PATH_IMAGE015
表示的是灰度值在y方向上的空间梯度,
Figure 994881DEST_PATH_IMAGE016
和v分别代表x方向和y方向上的光流速度;
利用空间流和时间流网络对时序光流特征建模来挖掘序列中的行为一致性:
Figure 910448DEST_PATH_IMAGE051
Figure 31988DEST_PATH_IMAGE052
式中,
Figure 729686DEST_PATH_IMAGE019
表示在建模过程中对应的RGB参数,
Figure 885860DEST_PATH_IMAGE020
表示在建模过程中对应的光流参数;其中z的取值区间为[0,1],
Figure 682915DEST_PATH_IMAGE021
表示sigmoid激活;
Figure 354068DEST_PATH_IMAGE022
表示RGB特征,
Figure 261981DEST_PATH_IMAGE023
表示光流特征,
Figure 272662DEST_PATH_IMAGE024
表示上一时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 37356DEST_PATH_IMAGE025
表示上一时刻的光流特征对应空间流网络和时间网络的全连接层;
Figure 133488DEST_PATH_IMAGE026
表示当前时刻的RGB特征对应空间流网络和时间网络的全连接层,
Figure 845092DEST_PATH_IMAGE027
表示当前时刻的光流特征对应空间流网络和时间网络的全连接层;
训练上述移位变量:
Figure 805220DEST_PATH_IMAGE053
式中,
Figure 944077DEST_PATH_IMAGE029
表示神经元的权重向量,
Figure 261926DEST_PATH_IMAGE030
表示对输入向量x进行非线性变换,
Figure 573959DEST_PATH_IMAGE031
表示对神经元的权重向量激活函数转换,将输入向量x赋值为
Figure 559232DEST_PATH_IMAGE032
,n表示神经网络的级数,b表示偏量,
Figure 868991DEST_PATH_IMAGE033
表示经过训练后的移位变量;
其中,
Figure 2032DEST_PATH_IMAGE034
式中,
Figure 55439DEST_PATH_IMAGE035
表示与分离超平面垂直的权向量,b表示超平面的偏置向量,
Figure 895219DEST_PATH_IMAGE036
表示第i个输入单元和隐藏单元相关联的权值向量,
Figure 438196DEST_PATH_IMAGE037
表示训练周期;
所述神经网络学习模块进一步由图像获取模块获取人体骨骼点图像,获取原图像的数据区指针,建立两个缓冲区,缓冲区大小与原图形相同,缓冲区主要用于存储原图像及原图形副本,将两个缓冲区初始化为原图像副本,分别标记为图像1和图像2;
在每个缓冲区域中单独设置一个用于卷积操作的Krisch模板,然后在两个区域中分别遍历副本图像中的像素,逐一进行卷积操作,计算结果,对比将计算得出的较值存到图像1中,再将图像1复制到缓存图像2中;
检测图像边缘的时候使用卷积3*3模板,遍历图像中的像素点,逐一考察各个像素点周围邻近区域的像素灰度值,计算其中三个相邻像素灰度的加权与其余五个像素的灰度加权和差值;卷积模板如下:
Figure 996216DEST_PATH_IMAGE054
使用八个卷积模板,依次处理原图像中的所有像素,计算得到其边缘强度,再通过阀值进行检测,提取最后边缘点,完成边缘检测;
一次设置剩余的六个模板,并进行计算处理,最后得出图像1与图像2中较大灰度值存放在缓冲图像1中;将处理后的图像1复制到原图像数据中,在进行编程实现图像的边缘处理;当人体行为特征图像处理完成后,提取模块用于提取图像处理模块处理后图像的骨骼点提取,当图像处理模块处理图像获取模块获取的图像完成后,此时人体边缘图上将按照最接近获取图像行为人体型进行匹配预先录入的骨骼点位置,进而将匹配后的骨骼点进行显示在人体边缘图上;
所述骨骼点修正模块进一步选择身体中心点作为根节点,计算所有与根节点直接相连点到根节点的向量,再用每个向量分别处以向量的模长,得到每个向量的方向向量;用方向向量乘以参考骨架中相应向量的长度得到一个向量,再用根节点的坐标加上该向量,得到修正后的某个与根节点直接相连点的坐标,将相连点坐标记录下来,作为归一化后相应骨骼点的坐标值:第一步:定义
Figure 883007DEST_PATH_IMAGE040
为根节点坐标;第二步:将
Figure 842873DEST_PATH_IMAGE040
赋初始值为
Figure 494434DEST_PATH_IMAGE041
;第三步;对所有的(
Figure 602067DEST_PATH_IMAGE042
),按照广度优先搜索策略,依次执行;第四步:计算
Figure 997277DEST_PATH_IMAGE043
-
Figure 873966DEST_PATH_IMAGE044
;第五步:计算
Figure 696428DEST_PATH_IMAGE045
;第六步:
Figure 963461DEST_PATH_IMAGE040
+
Figure 959099DEST_PATH_IMAGE046
,将
Figure 627978DEST_PATH_IMAGE047
的值保存到集合A中;第七步:返回第三步,知道骨架中的所有的肢体都遍历完成;集合A中保存的骨骼点坐标即为修正后的坐标;
其中,
Figure 621342DEST_PATH_IMAGE048
的值代表第
Figure 205032DEST_PATH_IMAGE049
个肢体,
Figure 207623DEST_PATH_IMAGE050
代表参考估价中的第
Figure 731008DEST_PATH_IMAGE049
个肢体的长度,
Figure 692011DEST_PATH_IMAGE042
分别表示参考估价中第
Figure 933637DEST_PATH_IMAGE049
个肢体开始节点和结束节点的坐标值,这样将所有的
Figure 474339DEST_PATH_IMAGE047
的值计算出来,即可得到所有修正后的骨骼点坐标,在保证肢体间夹角不变的情况下,进行对估价的尺寸进行缩放;最终按照广度优先搜索算法的顺序,依次更新根节点的坐标值。
CN202010419814.4A 2020-05-18 2020-05-18 一种自适应时序移位神经网络时序行为识别方法 Active CN111340011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010419814.4A CN111340011B (zh) 2020-05-18 2020-05-18 一种自适应时序移位神经网络时序行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010419814.4A CN111340011B (zh) 2020-05-18 2020-05-18 一种自适应时序移位神经网络时序行为识别方法

Publications (2)

Publication Number Publication Date
CN111340011A true CN111340011A (zh) 2020-06-26
CN111340011B CN111340011B (zh) 2020-09-11

Family

ID=71186483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010419814.4A Active CN111340011B (zh) 2020-05-18 2020-05-18 一种自适应时序移位神经网络时序行为识别方法

Country Status (1)

Country Link
CN (1) CN111340011B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582220A (zh) * 2020-05-18 2020-08-25 中国科学院自动化研究所 一种基于移位图卷积神经网络骨骼点行为识别系统及其识别方法
CN112507920A (zh) * 2020-12-16 2021-03-16 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN116311951A (zh) * 2023-05-25 2023-06-23 湖南工商大学 一种交通出行量数据处理方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751091A (zh) * 2019-10-18 2020-02-04 江西理工大学 静态图像行为识别的卷积神经网络模型

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751091A (zh) * 2019-10-18 2020-02-04 江西理工大学 静态图像行为识别的卷积神经网络模型

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHAO LI 等: "Collaborative spatio-temporal feature learning for video action recognition", 《HTTPS://ARXIV.ORG/ABS/1903.01197》 *
LEI SHI 等: "Skeleton-Based Action Recognition with Directed Graph Neural Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
LEI SHI 等: "Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition", 《HTTPS://ARXIV.ORG/ABS/1805.07694》 *
李耀宇 等: "基于结构化深度学习的单目图像深度估计", 《机器人》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582220A (zh) * 2020-05-18 2020-08-25 中国科学院自动化研究所 一种基于移位图卷积神经网络骨骼点行为识别系统及其识别方法
CN111582220B (zh) * 2020-05-18 2023-05-26 中国科学院自动化研究所 一种基于移位图卷积神经网络骨骼点行为识别系统及其识别方法
CN112507920A (zh) * 2020-12-16 2021-03-16 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN116311951A (zh) * 2023-05-25 2023-06-23 湖南工商大学 一种交通出行量数据处理方法、装置、设备及存储介质
CN116311951B (zh) * 2023-05-25 2023-08-22 湖南工商大学 一种交通出行量数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111340011B (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
CN112052886B (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
Zhang et al. Deep blind hyperspectral image super-resolution
CN110458844B (zh) 一种低光照场景的语义分割方法
CN111340011B (zh) 一种自适应时序移位神经网络时序行为识别方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
WO2021069945A1 (en) Method for recognizing activities using separate spatial and temporal attention weights
CN111105439B (zh) 一种使用残差注意力机制网络的同步定位与建图方法
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
CN116486408A (zh) 遥感图像跨域语义分割方法及装置
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
JP7225731B2 (ja) 多変数データシーケンスの画像化
CN113378706B (zh) 一种辅助儿童观察植物和学习生物多样性的绘画系统
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN110532868B (zh) 一种预测自由空间语义边界的方法
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN115063428B (zh) 一种基于深度强化学习的空间暗弱小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 211100 floor 3, building 3, Qilin artificial intelligence Industrial Park, 266 Chuangyan Road, Nanjing, Jiangsu

Patentee after: Zhongke Nanjing artificial intelligence Innovation Research Institute

Patentee after: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Address before: 211000 3rd floor, building 3, 266 Chuangyan Road, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: NANJING ARTIFICIAL INTELLIGENCE CHIP INNOVATION INSTITUTE, INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES