CN117037287A - 一种基于3d脉冲神经网络的行为识别方法、系统及装置 - Google Patents
一种基于3d脉冲神经网络的行为识别方法、系统及装置 Download PDFInfo
- Publication number
- CN117037287A CN117037287A CN202311286299.7A CN202311286299A CN117037287A CN 117037287 A CN117037287 A CN 117037287A CN 202311286299 A CN202311286299 A CN 202311286299A CN 117037287 A CN117037287 A CN 117037287A
- Authority
- CN
- China
- Prior art keywords
- neural network
- impulse
- video data
- impulse neural
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000003062 neural network model Methods 0.000 claims abstract description 100
- 230000006399 behavior Effects 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013507 mapping Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 210000002569 neuron Anatomy 0.000 claims description 85
- 230000006870 function Effects 0.000 claims description 34
- 230000004913 activation Effects 0.000 claims description 27
- 239000012528 membrane Substances 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000007599 discharging Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 11
- 238000011176 pooling Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000001242 postsynaptic effect Effects 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 4
- 238000010304 firing Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 210000005215 presynaptic neuron Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于3D脉冲神经网络的行为识别方法、系统及装置,包括:S1、采集视频数据集,建立3D人工神经网络;S2、将所述训练集的视频数据输入至3D人工神经网络进行训练,得到训练好的3D人工神经网络识别模型;S3、构建3D脉冲神经网络模型;S4、将所述3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型上,设置缩放因子对所述3D脉冲神经网络模型进行缩放;S5、将所述测试集的视频数据输入至缩放后的3D脉冲神经网络模型进行测试,输出视频中行为的预测排序,根据所述预测排序得到视频数据的行为标签。本申请通过对视频数据进行3D特征进行提取,提高3D脉冲神经网络模型识别的准确性和可靠性。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于3D脉冲神经网络的行为识别方法、系统及装置。
背景技术
计算机视觉领域的研究者将预测一个给定视频中人类行为状态的技术称为行为识别。行为识别的主要目标是利用获取到的特定对象的视频数据,从中提取出关键的行为特征并进行识别。行为识别技术在各个领域具有广泛的应用,包括视频监控、智能交通、人机交互等。通过行为识别,我们可以实现对人类行为的自动分析和理解,从而提供实时的智能决策和服务。现有基于卷积神经网络的行为识别方法已经在一些场景下可以达到令人满意的识别准确率,但是运行功耗高和边缘设备部署困难的问题仍然存在。
中国专利CN114037047A公开了一种脉冲神经网络的训练方法,其将目标卷积神经网络转换为初始脉冲神经网络,同时在时间域和空间域对初始神经网络进行训练进一步微调网络,将训练后的初始脉冲神经网络作为目标脉冲神经网路。
上述技术方案尽管的转换方法取得了很好的性能,然而大多应用在图像分类、目标检测等任务上,缺少对行为识别任务的研究,上述方法在3D网络的转换上会带来性能退化问题。
发明内容
有鉴于此,本发明提出了一种基于3D脉冲神经网络的行为识别方法、系统及装置,对两个3D网络进行转换,针对转换过程中的转换误差进行处理,进而提高识别的效率。
本发明的技术方案是这样实现的:
第一方面,本发明提供了一种基于3D脉冲神经网络的行为识别方法,包括以下步骤:
S1、采集视频数据集,建立3D人工神经网络;所述视频数据集包括训练集和测试集;
S2、将所述训练集的视频数据输入至3D人工神经网络进行训练,得到训练好的3D人工神经网络识别模型;
S3、构建3D脉冲神经网络模型;
S4、将所述3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型上,设置缩放因子对所述3D脉冲神经网络模型进行缩放;
S5、将所述测试集的视频数据输入至缩放后的3D脉冲神经网络模型进行测试,输出视频中行为的预测排序,根据所述预测排序得到视频数据的行为标签。
在以上技术方案的基础上,优选的,步骤S3具体包括:
在构建3D脉冲神经网络模型时,使用双阈值神经元配合猝发机制对3D脉冲神经网络模型中神经元的膜电位进行充放电、重置以及发放脉冲。
在以上技术方案的基础上,优选的,所述双阈值神经元的放电表达式为:
;
其中,Sj h(t)表示第h层第j个神经元t时刻二值输出脉冲,vj h(t)表示在t时刻第h层的第j个神经元的膜电位,λh表示双阈值神经元的正阈值,-λh表示双阈值神经元的负阈值,Mj h(t)表示第h层第j个神经元在t时间内不考虑电势重置积累的电势总和。
在以上技术方案的基础上,优选的,所述猝发机制的放电表达式为:
;
其中clip为裁剪激活函数,floor表示向下取整,ceil表示向上取整,β表示猝发机制允许在一个时间步长内的最大脉冲发放数。
在以上技术方案的基础上,优选的,步骤S4具体包括:
S41、将所述训练好的3D人工神经网络识别模型的权重参数映射到3D脉冲神经网络模型中;
S42、将所述训练好的3D人工神经网络识别模型的阈值参数映射到3D脉冲神经网络模型中各层神经元的正阈值上;
S43、将所述训练好的3D人工神经网络识别模型的阈值参数取反映射到3D脉冲神经网络模型中各层神经元的负阈值上;
S44、将所述3D脉冲神经网络模型每层神经元的初始膜电位设置为神经元阈值的一半;
S45、设置缩放因子对3D脉冲神经网络模型中神经元阈值进行缩放。
在以上技术方案的基础上,优选的,步骤S45具体包括:
在3D脉冲神经网络模型中设置缩放因子;
将所述3D脉冲神经网络模型中的每个神经元都设置初始阈值;
通过将所述每个神经元的初始阈值与缩放因子相乘对3D脉冲神经网络模型中每个神经元的阈值进行缩放。
更进一步优选的,步骤S5具体包括:
将测试集的视频数据进行参数配置,得到配置后的视频数据;
将所述配置后的视频数据中的每个片段重复传入至缩放后的3D脉冲神经网络模型进行前向传播,得到视频数据在不同步长的行为预测概率;
将所述行为预测概率进行排序,并进行求和平均,计算出各时间步长下的准确率;
根据准确率保存3D脉冲神经网络模型,并输出视频数据的行为标签。
第二方面,本发明提供了一种基于3D脉冲神经网络的行为识别系统,采用如上述任一项所述的基于3D脉冲神经网络的行为识别方法,包括:
采集模块,用于采集视频数据集,其中视频数据集包括训练集和测试集;
3D人工神经网络,用于使用训练集的视频数据进行训练,得到训练好的3D人工神经网络识别模型;
参数映射模块,用于将训练好的3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型;
3D脉冲神经网络模型,用于对视频数据进行识别并通过网络传播,得到视频数据的行为标签。
第三方面,本发明提供了一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如上述任一项所述的基于3D脉冲神经网络的行为识别方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现如上述任一项所述的基于3D脉冲神经网络的行为识别方法。
本发明的基于3D脉冲神经网路的行为识别方法相对于现有技术具有以下有益效果:
(1)通过建立3D人工神经网络,使用训练集的视频数据对3D人工神经网络进行训练,得到训练好的3D人工神经网络识别模型,并将3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型,通过3D脉冲神经网络模型对视频数据进行3D特征进行提取,实现基于3D脉冲神经网络的行为识别,提高3D脉冲神经网络模型识别的准确性和可靠性;
(2)通过在构建3D脉冲神经网络模型时,使用双阈值神经元配合猝发机制对3D脉冲神经网络模型中神经元的膜电位进行充放电、重置以及发放脉冲,能够降低3D脉冲神经网络模型的计算开销,同时节省计算资源,提高3D脉冲神经网络模型的计算效率;
(3)通过将3D人工神经网络中的最大池化层替换成平均池化层,且将每层的激活函数替换成可训练阈值的裁剪激活函数,使3D人工神经网络识别模型的输出更具可解释性,通过裁剪激活函数学习和调整阈值,能够有效提高人工神经网络的灵活性和泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于3D脉冲神经网络的行为识别方法的流程图;
图2为本发明的基于3D脉冲神经网络的行为识别方法原理图;
图3为本发明的基于3D脉冲神经网络的行为识别方法的网络转换误差示意图;
图4为本发明的基于3D脉冲神经网络的3D网络识别系统的结构图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
作为本领域技术人员可以理解的,传统的3D脉冲神经网络转换框架主要集中在图像分类和目标检测等任务,然而这些任务的特征提取网络通常是2D的,对于行为识别任务来说,3D特征提取网络更具优势,3D脉冲神经网络转换框架缺乏对3D网络的研究。由于脉冲神经网络(SNN)不易直接进行训练,因此,本申请采用的方法是对人工神经网络(ANN)进行训练,在将训练好的人工神经网络模型转换为脉冲神经网络模型,进而实现基于脉冲神经网络的3D网络识别,提高3D特征提取的准确性和可靠性。
如图1和图2所示,本发明公开了一种基于3D脉冲神经网络的行为识别方法,包括以下步骤:
S1、采集视频数据集,建立3D人工神经网络;所述视频数据集包括训练集和测试集。
可以理解的,将采集的视频数据集划分为训练集和测试集,其中训练集的视频数据用于对3D人工神经网络进行训练,测试集的视频数据用于对训练好的3D人工神经网络识别模型进行测试,保留测试准确率高的3D人工神经网络识别模型参数。
在本申请实施例中,通过采集视频数据集并建立3D人工神经网络,可以利用视频数据中的时序信息,更好地捕捉和理解视频中的动态行为,相比于传统的2D图像处理方法,3D人工神经网络可以更好地处理视频数据,提高行为识别的准确性和鲁棒性。
S2、将所述训练集的视频数据输入至3D人工神经网络进行训练,得到训练好的3D人工神经网络识别模型。
可以理解的,将训练集的视频数据输入至3D人工神经网络中利用网络反向传播,可以学习到视频中的时空特征和动态模式,得到行为特征提取的3D人工神经网络识别模型,并对视频中的行为进行准确的分类和识别。
具体的,利用网络反向传播得到行为特征提取的3D人工神经网络识别模型具体包括:
对训练集的视频数据进行参数配置;其中,所述参数配置包括:将一个视频数据分成若干个片段,每个片段的间隔时间以及每个片段的长度均相同;
将3D人工神经网络中的最大池化层和激活函数层进行替换,即将最大池化层替换为平均池化层,将ReLU激活函数替换成裁剪激活函数,其中,裁剪激活函数clip的表达式如下:
其中,a表示裁剪激活函数的输入,表示裁剪激活函数的输出,λ表示在3D人工神经网络中的阈值参数。
如图3的(a)所示,图3的(a)为网络转换中产生的裁剪误差,其中oh表示第h层的激活值输出,θh表示IF神经元发放脉冲的膜电位上限阈值,λh表示IF神经元的阈值,表示第h层神经元在T时刻的平均突触后电位,在网络转换中第h层IF神经元的初始膜电位vh(0)可以用公式表示为:/>。在本申请实施例中,通过将ReLU激活函数替换成裁剪激活函数使得3D人工神经网络中的激活值上届阈值等于3D脉冲神经网络模型中的阈值,提高3D人工神经网络中特征的稳定性,使3D人工神经网络可以更好地适应不同的视频数据和场景,从而增加3D人工神经网络识别模型的鲁棒性。
进一步的,3D人工神经网络中利用网络反向传播还包括:
对3D人工神经网络的权重和阈值进行更新,得到行为特征提取模型;
具体的,将训练集的视频数据输入到3D人工神经网络中进行训练,得到行为特征提取的模型,训练过程中训练出最优的权重和阈值,其中权重和阈值的更新公式如下:
其中,wh表示3D人工神经网络第h层的权重,表示学习效率,H表示损失函数值,表示损失函数的偏导数,/>表示阈值的偏导数,/>表示权重的偏导数。
在本申请实施例中,3D人工神经网络通过反向传播算法调整权重和阈值,有效减小3D人工神经网络训练中的误差,通过对权重和阈值进行调整,使3D人工神经网络在面对噪声、变形、遮挡等情况时,仍能稳定的提取有用的行为特征,其中最优的权重和阈值能够更好地适应训练数据,使3D人工神经网络具备较好的泛化能力和识别能力。
进一步的,根据权重和阈值的更新过程可以看出,权重参数和阈值参数的训练过程如下:
计算出损失函数值和权重的偏导数;
计算出损失函数值和阈值的偏导数;
通过梯度下降方法对权重参数和阈值参数进行迭代优化,减小损失函数值,得到最优的权重参数和阈值参数。
在本申请实施例中,在3D人工神经网络训练过程中,首先定义一个损失函数,用于衡量3D人工神经网络识别模型的预测输出与实际标签之间的差异,通过反向传播算法计算损失函数对权重参数的偏导数,损失函数值和权重的偏导数表示在当前权重参数下,损失函数对权重的变化率;再通过反向传播算法计算损失函数对阈值参数的偏导数,损失函数值和阈值的偏导数表示在当前阈值参数下,损失函数对阈值的变化率;利用计算得到的权重和阈值的偏导数,使用梯度下降方法对权重参数和阈值参数进行迭代优化,通过多次迭代,逐渐减小损失函数的值,直到达到最优的权重参数和阈值参数。
通过迭代优化过程,权重参数和阈值参数的更新可以减小损失函数的值,进而提升3D人工神经网络识别模型的预测能力;通过梯度下降方法的迭代优化,权重参数和阈值参数会逐渐趋于稳定,使3D人工神经网络识别模型达到较好的拟合效果,进一步提高3D人工神经网络识别模型的训练效果和泛化能力。
S3、构建3D脉冲神经网络模型。通过构建3D脉冲神经网络模型可以利用脉冲编码和时间编码等机制,更好地处理视频数据,同时利用3D脉冲神经网络模型进行视频处理,使处理效果更加高效和灵活,同时降低视频识别的功耗。
其中,步骤S3具体包括:
在构建3D脉冲神经网络模型时,使用双阈值神经元配合猝发机制对3D脉冲神经网络模型的膜电位进行充放电、重置以及发放脉冲。
在本申请实施例中,在3D脉冲神经网络模型中设置双阈值神经元和猝发机制可以减少神经元的脉冲发放次数,从而降低3D脉冲神经网络模型的计算开销,同时增强3D脉冲神经网络模型对输入数据的鲁棒性。
可以理解的,在3D脉冲神经网络模型中引入双阈值神经元,其中双阈值神经元是对脉冲网络的传统IF神经元的改进,传统IF神经元的空间动力学公式如下:
其中,mh(t)表示第h层t时刻发放脉冲前的膜电势,vh(t)表示第h层t时刻发放脉冲后的膜电势,sh(t)表示第h层t时刻神经元二值输出脉冲,θh表示IF神经元发放脉冲的膜电位上限阈值,G(·)表示跃迁函数,当发放脉冲前的膜电势达到发放阈值则输出1,否则输出0。
作为本领域技术人员可以理解的,第h层t时刻的神经元积累来自第h层t-1时刻的电势和第h-1层t时刻的电势,完成充电过程;判断第h层t时刻的神经元的膜电势是否超过阈值,超过阈值则发放脉冲,没超过阈值则不发放脉冲,完成放电过程;如果第h层t时刻的神经元发放了脉冲,则将其膜电势减去阈值,完成电位重置。
3D脉冲神经网络模型的猝发机制可以实现时间编码和信息传输,通过神经元在一段时间内的脉冲发放模式,可以将输入信息编码为时间间隔和脉冲数量的形式,能够提高信息传输的效率和容量,有效提高3D脉冲神经网络模型对视频数据处理的速度。
具体的,所述双阈值神经元的放电表达式为:
其中,Sj h(t)表示第h层第j个神经元t时刻二值输出脉冲,vj h(t)表示在t时刻第h层的第j个神经元的膜电位,λh表示双阈值神经元的正阈值,-λh表示双阈值神经元的负阈值,Mj h(t)表示第h层第j个神经元在t时间内不考虑电势重置积累的电势总和。
可以理解的,当膜电位大于正阈值λh时,发放正脉冲,当膜电位小于负阈值-λh且电势总和大于0时,发放负脉冲,防止负膜电势的过度释放。
所述猝发机制的放电表达式为:
其中clip为裁剪激活函数,floor表示向下取整,ceil表示向上取整,β表示猝发机制允许在一个时间步长内的最大脉冲发放数。
可以理解的,当第h层第j个神经元在t时间步长的膜电势大于正阈值时,脉冲发放个数的计算过程是膜电势向下取整,正脉冲最大不超过β,当第h层第j个神经元在t时间步长的膜电势小于负阈值时,脉冲发放个数的计算过程是膜电势向上取整,负脉冲个数最大不超过β,其它情况神经元不发放脉冲。
S4、将所述3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型上,设置缩放因子对所述3D脉冲神经网络模型进行缩放。
在本申请实施例中,将3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型上,并设置缩放因子对3D脉冲神经网络模型进行缩放,可以保持3D脉冲神经网络模型识别能力和性能的同时,加快3D脉冲神经网络模型的训练速度,并提高识别效果。
步骤S4具体包括:
S41、将所述训练好的3D人工神经网络识别模型的权重参数映射到3D脉冲神经网络模型中。
本申请实施例是将人工神经网络中模拟神经元的激活值映射到3D脉冲神经网络模型脉冲神经元的平均脉冲发射率,即将上述IF神经元的时空动力学公式合并可以得到:
其中,表示时刻t膜电位,/>表示时刻t-1的膜电位,其中/>表示时刻t未加权的突触后膜电位,将它展开T个时间步长并相加,可以得到:
第h层神经元在T时刻的平均突触后电位用公式表示,同时当第h-1层的突触前神经元发出一个脉冲,第h层的突触后神经元接收到未加权的突触后电位θh,公式化表示如下:
基于此,我们可以推导出在T时刻与/>之间的关系:
给定一个包含Y个全连接层的人工神经网络,第Y个卷积层的输出可以表示为:
其中h满足1≤h≤Y,wh表示第h层的权值,g(·)为ReLU激活函数,oh表示第h层的激活值输出,oh-1表示第h-1层的激活值输出。
由于vh(0)一般初始化为0,vh(T)是常数,当模拟步长T足够大时,这项可以忽略不记,从而转换误差接近于0。
在本申请实施例中,通过将3D人工神经网络中的激活值映射到3D脉冲神经网络模型的平均脉冲发射率,可以获得更平滑的特征表示,有助于提高特征的连续性和稳定性,从而增强3D人工神经网络识别模型的表达能力,并且使3D人工神经网络识别模型对于输入数据中的噪声和扰动具有一定的鲁棒性,从而提高3D人工神经网络识别模型的安全性和可靠性。
S42、将所述训练好的3D人工神经网络识别模型的阈值参数映射到3D脉冲神经网络模型中各层神经元的正阈值上。
在本申请实施例中,通过在3D人工神经网络中设置阈值参数,对3D人工神经网络进行训练的同时对阈值参数也进行训练,将训练好的3D人工神经网络识别模型的阈值参数映射到3D脉冲神经网络模型中,减少ANN-SNN中产生的裁剪误差。
S43、将所述训练好的3D人工神经网络识别模型的阈值参数取反映射到3D脉冲神经网络模型中各层神经元的负阈值上。
作为本领域技术人员可以理解的,传统的IF脉冲神经元只有一个正阈值往往会导致不均匀误差,如图3的(b)所示,是一个正常的信号传输示例,如图3的(c)(d)所示,其中,w表示神经元之间的权重,由于输入脉冲到达时间的不均匀分布,会导致相同输入却产生不同输出,这是由于正脉冲的过度释放造成的,我们引入了双阈值,在到达负阈值时也会释放负脉冲,从而抑制了正脉冲的过度释放,减少了不均匀误差。
S44、将所述3D脉冲神经网络模型每层神经元的初始膜电位设置为神经元阈值的一半,使3D脉冲神经网络模型中的神经元更容易被激活,有助于加速3D脉冲神经网络模型的收敛过程,降低计算成本,提高3D脉冲神经网络模型的识别效率;同时提高3D脉冲神经网络模型对输入数据中微弱信号和细微变化的感知能力,增强3D脉冲神经网络模型的灵敏度。
S45、设置缩放因子对3D脉冲神经网络模型中神经元阈值进行缩放。
具体的,步骤S45具体包括:
在3D脉冲神经网络模型中设置缩放因子;
将所述3D脉冲神经网络模型中的每个神经元都设置初始阈值;其中,初始阈值可以随机初始化,也可以根据实际情况设置固定值;
通过将所述每个神经元的初始阈值与缩放因子相乘对3D脉冲神经网络模型中每个神经元的阈值进行缩放;可选的,还可以通过将初始阈值与缩放因子逐元素相乘以实现阈值的缩放。
可以理解的,3D脉冲神经网络模型中的缩放因子可以根据实际的需求和任务进行调整,较大的缩放因子可以增加神经元的敏感性和激活水平,而较小的缩放因子则会降低神经元的敏感性和激活水平。
S5、将所述测试集的视频数据输入至缩放后的3D脉冲神经网络模型进行测试,输出视频中行为的预测排序,根据所述预测排序得到视频数据的行为标签。
在本申请实施例中,根据预测排序可以进行行为识别和分类,并输出相应视频数据的行为标签。
具体的,步骤S5具体包括:
将测试集的视频数据进行参数配置,得到配置后的视频数据;
将所述配置后的视频数据中的每个片段重复传入至缩放后的3D脉冲神经网络模型进行前向传播,得到视频数据在不同步长的行为预测概率;
将所述行为预测概率进行排序,并进行求和平均,计算出各时间步长下的准确率;
根据准确率保存3D脉冲神经网络模型,并输出视频数据的行为标签。
在本申请实施例中,通过建立3D人工神经网络对图像进行处理,提高了对视频数据中行为识别的准确性和鲁棒性,将3D人工神经网络中的最大池化层替换成平均池化层,并使用可训练阈值的裁剪激活函数代替激活函数,提高了3D人工神经网络对视频数据特征的感知能力,同时通过学习和调整阈值,使3D人工神经网络可以更好的适应不同的输入视频数据和场景,并提高3D人工神经网络的灵活性和泛化能力。
通过在脉冲神经网路中使用双阈值神经元并引入猝发机制,相比于传统的全脉冲神经元,可以减少神经元的脉冲发放次数,降低脉冲神经网路的计算开销,节省计算资源,同时提高脉冲神经网路的计算效率;通过对3D脉冲神经网络模型设置正阈值和负阈值,使3D脉冲神经网络模型可以对不同的输入视频数据产生不同的响应,使得3D脉冲神经网络模型对输入数据的变化更加敏感,提高了3D脉冲神经网络模型的鲁棒性和适应性。
在本申请一实施例中,将基于参数映射的方法、仅采用双阈值神经元和猝发机制的映射方法、仅采用缩放阈值的参数映射方法和本申请步骤S1-S5对应的识别方法应用于同一视频的行为识别中,比较试验结果,得到如表1所示的评价指标表,展示了不同模拟时间步长T下的分类准确率。
表1
由表1可知,本申请步骤S1-S5对应的识别方法在不同模拟步长下都有较高的准确率,进一步证明了本申请所提出方法的可靠性以及准确性。
如图4所示,本申请还公开了一种基于3D脉冲神经网络的行为识别系统,采用如上述任一项所述的基于3D脉冲神经网络的行为识别方法,包括:
采集模块,用于采集视频数据集,其中视频数据集包括训练集和测试集;
3D人工神经网络,用于使用训练集的视频数据进行训练,得到训练好的3D人工神经网络识别模型;
参数映射模块,用于将训练好的3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型;
3D脉冲神经网络模型,用于对视频数据进行识别并通过网络传播,得到视频数据的行为标签。
在本申请实施例中,通过采集模块采集视频数据集,并建立3D人工神经网络,可以更好地捕捉和理解视频中的动态行为,利用数据集中的训练集数据对3D人工神经网络进行训练,可以学习到视频数据中的时空特征和动态模式,得到训练好的3D人工神经网络识别模型,利用参数映射模块将训练好的3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型,加快3D脉冲神经网络模型的训练,并提高3D脉冲神经网络模型的识别效果。
具体的,3D人工神经网络采用平均池化层,且每层的激活函数为裁剪激活函数,用于获取带阈值的行为特征提取模型,其中,3D人工神经网络中采用双阈值神经元,双阈值神经元具有正负两个阈值,用于解决输入脉冲时间分布不均匀的现象,同时双阈值神经元还采用猝发机制,减少双阈值神经元残余电势造成的影响。
在本申请一实施例中,3D网络识别系统还包括脉冲编码器和分类器,脉冲编码器包括卷积层、双阈值神经元和平均池化层,训练好的3D人工神经网络识别模型参数映射到3D脉冲神经网络模型,将输入的视频信息编码成0/1信号在3D脉冲神经网络模型中传播,并将得到的行为特征传入分类器;分类器包括线性层和池化层,脉冲神经网路模型的参数通过3D人工神经网络映射获得,将脉冲编码器输出的行为特征进行分类。
在本申请实施例中,3D脉冲神经网络模型通过使用脉冲编码器从视频数据中提取关键行为特征,通过卷积层和平均池化层捕捉视频数据中空间和时间的相关性,从而提取出更具信息量的行为特征,并使用分类器进行行为识别,提高了行为识别的准确性和性能。
本申请还提供一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如上述任一项所述的基于3D脉冲神经网络的行为识别方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现如上述任一项所述的基于3D脉冲神经网络的行为识别方法。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于3D脉冲神经网络的行为识别方法,其特征在于:包括以下步骤:
S1、采集视频数据集,建立3D人工神经网络;所述视频数据集包括训练集和测试集;
S2、将所述训练集的视频数据输入至3D人工神经网络进行训练,得到训练好的3D人工神经网络识别模型;
S3、构建3D脉冲神经网络模型;
S4、将所述3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型上,设置缩放因子对所述3D脉冲神经网络模型进行缩放;
S5、将所述测试集的视频数据输入至缩放后的3D脉冲神经网络模型进行测试,输出视频中行为的预测排序,根据所述预测排序得到视频数据的行为标签。
2.如权利要求1所述的一种基于3D脉冲神经网络的行为识别方法,其特征在于:步骤S3具体包括:
在构建3D脉冲神经网络模型时,使用双阈值神经元配合猝发机制对3D脉冲神经网络模型中神经元的膜电位进行充放电、重置以及发放脉冲。
3.如权利要求2所述的一种基于3D脉冲神经网络的行为识别方法,其特征在于:所述双阈值神经元的放电表达式为:
;
其中,Sj h(t)表示第h层第j个神经元t时刻二值输出脉冲,vj h(t)表示在t时刻第h层的第j个神经元的膜电位,λh表示双阈值神经元的正阈值,-λh表示双阈值神经元的负阈值,Mj h(t)表示第h层第j个神经元在t时间内不考虑电势重置积累的电势总和。
4.如权利要求3所述的一种基于3D脉冲神经网络的行为识别方法,其特征在于:所述猝发机制的放电表达式为:
;
其中clip为裁剪激活函数,floor表示向下取整,ceil表示向上取整,β表示猝发机制允许在一个时间步长内的最大脉冲发放数。
5.如权利要求1所述的一种基于3D脉冲神经网络的行为识别方法,其特征在于:步骤S4具体包括:
S41、将所述训练好的3D人工神经网络识别模型的权重参数映射到3D脉冲神经网络模型中;
S42、将所述训练好的3D人工神经网络识别模型的阈值参数映射到3D脉冲神经网络模型中各层神经元的正阈值上;
S43、将所述训练好的3D人工神经网络识别模型的阈值参数取反映射到3D脉冲神经网络模型中各层神经元的负阈值上;
S44、将所述3D脉冲神经网络模型每层神经元的初始膜电位设置为神经元阈值的一半;
S45、设置缩放因子对3D脉冲神经网络模型中神经元阈值进行缩放。
6.如权利要求5所述的一种基于3D脉冲神经网络的行为识别方法,其特征在于:步骤S45具体包括:
在3D脉冲神经网络模型中设置缩放因子;
将所述3D脉冲神经网络模型中的每个神经元都设置初始阈值;
通过将所述每个神经元的初始阈值与缩放因子相乘对3D脉冲神经网络模型中每个神经元的阈值进行缩放。
7.如权利要求1所述的一种基于3D脉冲神经网络的行为识别方法,其特征在于:步骤S5具体包括:
将测试集的视频数据进行参数配置,得到配置后的视频数据;
将所述配置后的视频数据中的每个片段重复传入至缩放后的3D脉冲神经网络模型进行前向传播,得到视频数据在不同步长的行为预测概率;
将所述行为预测概率进行排序,并进行求和平均,计算出各时间步长下的准确率;
根据准确率保存3D脉冲神经网络模型,并输出视频数据的行为标签。
8.一种基于3D脉冲神经网络的行为识别系统,其特征在于:采用如权利要求1-7任一项所述的基于3D脉冲神经网络的行为识别方法,包括:
采集模块,用于采集视频数据集,其中视频数据集包括训练集和测试集;
3D人工神经网络,用于使用训练集的视频数据进行训练,得到训练好的3D人工神经网络识别模型;
参数映射模块,用于将训练好的3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型;
3D脉冲神经网络模型,用于对视频数据进行识别并通过网络传播,得到视频数据的行为标签。
9.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~7任一项所述的基于3D脉冲神经网络的行为识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现如权利要求1~7任一项所述的基于3D脉冲神经网络的行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311286299.7A CN117037287B (zh) | 2023-10-08 | 2023-10-08 | 一种基于3d脉冲神经网络的行为识别方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311286299.7A CN117037287B (zh) | 2023-10-08 | 2023-10-08 | 一种基于3d脉冲神经网络的行为识别方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117037287A true CN117037287A (zh) | 2023-11-10 |
CN117037287B CN117037287B (zh) | 2023-12-29 |
Family
ID=88630285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311286299.7A Active CN117037287B (zh) | 2023-10-08 | 2023-10-08 | 一种基于3d脉冲神经网络的行为识别方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037287B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829422A (zh) * | 2019-01-28 | 2019-05-31 | 哈尔滨工业大学 | 一种基于脉冲神经网络人体摔倒动作的视频识别方法 |
CN112819139A (zh) * | 2021-01-27 | 2021-05-18 | 电子科技大学 | 一种从人工神经网络到脉冲神经网络的最优转换方法 |
CN113159286A (zh) * | 2021-04-15 | 2021-07-23 | 电子科技大学 | 一种高精度低延迟脉冲神经网络的转换方法 |
CN113269113A (zh) * | 2021-06-04 | 2021-08-17 | 北京灵汐科技有限公司 | 人体行为识别方法、电子设备和计算机可读介质 |
CN113298242A (zh) * | 2021-06-08 | 2021-08-24 | 浙江大学 | 一种基于脉冲神经网络的脑机接口解码方法 |
CN114037047A (zh) * | 2021-10-09 | 2022-02-11 | 鹏城实验室 | 一种脉冲神经网络的训练方法 |
CN114282647A (zh) * | 2021-12-09 | 2022-04-05 | 上海应用技术大学 | 基于脉冲神经网络的神经形态视觉传感器目标检测方法 |
CN114332545A (zh) * | 2022-03-17 | 2022-04-12 | 之江实验室 | 一种基于低比特脉冲神经网络的图像数据分类方法和装置 |
CN114861838A (zh) * | 2022-07-06 | 2022-08-05 | 武汉理工大学 | 一种基于神经元复杂动力学的脉冲神经类脑智能分类方法 |
CN116629327A (zh) * | 2023-05-25 | 2023-08-22 | 浙江大学 | 一种基于量化ann的脉冲神经网络转化训练方法、装置及芯片 |
-
2023
- 2023-10-08 CN CN202311286299.7A patent/CN117037287B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829422A (zh) * | 2019-01-28 | 2019-05-31 | 哈尔滨工业大学 | 一种基于脉冲神经网络人体摔倒动作的视频识别方法 |
CN112819139A (zh) * | 2021-01-27 | 2021-05-18 | 电子科技大学 | 一种从人工神经网络到脉冲神经网络的最优转换方法 |
CN113159286A (zh) * | 2021-04-15 | 2021-07-23 | 电子科技大学 | 一种高精度低延迟脉冲神经网络的转换方法 |
CN113269113A (zh) * | 2021-06-04 | 2021-08-17 | 北京灵汐科技有限公司 | 人体行为识别方法、电子设备和计算机可读介质 |
CN113298242A (zh) * | 2021-06-08 | 2021-08-24 | 浙江大学 | 一种基于脉冲神经网络的脑机接口解码方法 |
US20230289575A1 (en) * | 2021-06-08 | 2023-09-14 | Zhejiang University | Brain machine interface decoding method based on spiking neural network |
CN114037047A (zh) * | 2021-10-09 | 2022-02-11 | 鹏城实验室 | 一种脉冲神经网络的训练方法 |
CN114282647A (zh) * | 2021-12-09 | 2022-04-05 | 上海应用技术大学 | 基于脉冲神经网络的神经形态视觉传感器目标检测方法 |
CN114332545A (zh) * | 2022-03-17 | 2022-04-12 | 之江实验室 | 一种基于低比特脉冲神经网络的图像数据分类方法和装置 |
CN114861838A (zh) * | 2022-07-06 | 2022-08-05 | 武汉理工大学 | 一种基于神经元复杂动力学的脉冲神经类脑智能分类方法 |
CN116629327A (zh) * | 2023-05-25 | 2023-08-22 | 浙江大学 | 一种基于量化ann的脉冲神经网络转化训练方法、装置及芯片 |
Non-Patent Citations (3)
Title |
---|
JIANHAO DING 等: "Optimal ANN-SNN Conversion for Fast and Accurate Inference in Deep Spiking Neural Networks", ARXIV:2105.11654V1 * |
吴立可;: "脉冲神经网络和行为识别", 通讯世界, no. 12 * |
尚瑛杰;董丽亚;何虎;: "基于脉冲神经网络的迁移学习算法与软件框架", 计算机工程, no. 03 * |
Also Published As
Publication number | Publication date |
---|---|
CN117037287B (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN108549841A (zh) | 一种基于深度学习的老人跌倒行为的识别方法 | |
CN114155478B (zh) | 一种情感识别方法、装置、系统及计算机可读存储介质 | |
CN106886216B (zh) | 基于rgbd人脸检测的机器人自动跟踪方法和系统 | |
CN112464807A (zh) | 视频动作识别方法、装置、电子设备和存储介质 | |
CN110853074B (zh) | 一种利用光流增强目标的视频目标检测网络系统 | |
KR102280190B1 (ko) | 딥러닝을 이용한 레이다 기반의 인원 계수 장치 및 그 방법 | |
CN107731235B (zh) | 抹香鲸与长鳍领航鲸叫声脉冲特征提取和分类方法及装置 | |
CN115601403A (zh) | 一种基于自注意力机制的事件相机光流估计方法及装置 | |
CN113011399A (zh) | 基于生成协同判别网络的视频异常事件检测方法及系统 | |
CN112633377A (zh) | 一种基于生成对抗网络的人体行为预测方法及系统 | |
CN111291673A (zh) | 一种预测时序信号分类的方法、装置、服务器及存储介质 | |
CN114282647B (zh) | 基于脉冲神经网络的神经形态视觉传感器目标检测方法 | |
CN117253039A (zh) | 一种基于脉冲神经网络的目标分割方法与系统 | |
CN116822592A (zh) | 一种基于事件数据和脉冲神经网络的目标跟踪方法 | |
CN113344168B (zh) | 短期泊位预测方法及系统 | |
CN113516232B (zh) | 一种基于自注意力机制的穿墙雷达人体姿态重构方法 | |
CN113033582A (zh) | 模型训练方法、特征提取方法及装置 | |
CN109884588A (zh) | 一种脉冲序列的距离度量方法及系统 | |
CN117037287B (zh) | 一种基于3d脉冲神经网络的行为识别方法、系统及装置 | |
CN114154530A (zh) | 一种心电时序信号房颤检测模型训练方法及装置 | |
CN112446387B (zh) | 对象识别方法及装置 | |
CN115051834B (zh) | 一种基于STSA-transformer算法的新型电力系统APT攻击检测方法 | |
CN114397521A (zh) | 一种针对电子设备的故障诊断方法及系统 | |
CN117079416B (zh) | 基于人工智能算法的多人5d雷达跌倒检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |