CN115984942A

CN115984942A - 基于脉冲神经网络的人脸表情识别方法、存储介质及设备

Info

Publication number: CN115984942A
Application number: CN202310081896.XA
Authority: CN
Inventors: 牛犇; 王柳; 巫天骥; 张小凤
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-04-18

Abstract

本发明公开了一种基于脉冲神经网络的人脸表情识别方法、存储介质及设备，该人脸表情识别方法包括：收集人脸表情RGB图像，进行表情类别标注和分类；将分类的人脸表情RGB图像进行灰度化处理，得到分类的灰度图像；构建局部递归的脉冲神经网络模型，将灰度图像依次输入到脉冲神经网络模型中进行训练，直至达到最大迭代次数，完成对脉冲神经网络模型的训练；将待识别的人脸表情RGB图像进行灰度化处理后，输入训练好的脉冲神经网络模型中，预测出人脸表情的识别结果。该人脸表情识别方法以脉冲神经网络模型为基础，利用延迟相位编码策略转换为脉冲发放时间序列作为脉冲神经网络模型的输入，极大地降低了网络计算量和延时率。

Description

基于脉冲神经网络的人脸表情识别方法、存储介质及设备

技术领域

本发明涉及人脸表情识别技术领域，具体地，涉及一种基于脉冲神经网络的人脸表情识别方法、存储介质及设备。

背景技术

表情识别最早属于心理学研究的范畴，在计算机视觉技术出现之前，更多的是通过经验分析对表情进行定性，研究方法粗糙主观性强且准确度不高。上世纪70年代面部行为编码系统(Facial Action Coding System,FACS)的建立标志着表情识别成为了可以量化研究的学科领域。上世纪80年代，对表情的研究逐步由人工识别转换为了自动识别，表情识别逐渐成为了一个跨越图像处理、计算机视觉、机器学习、深度学习、认知科学、心理学、社会学等多学科的研究范畴。

脉冲神经网络作为新一代人工神经网络计算模型，在进行复杂时空信息处理方面较人工神经网络计算模型具有更高的有效性。构成该模型的基本单元为具有真实性的脉冲神经元模型，在信息的表示和处理方面应用了精确定时的脉冲序列。

目前在人脸表情识别领域采用较多的方法为传统的特征点识别以及利用深度学习所建立的卷积神经网络模型。但由于传统的特征点识别人脸表情方法识别的成功率较低，卷积神经网络虽具有较高的识别成功率，但伴随样本特征的复杂程度提高，所需的卷积神经网络结构也随之变得更加复杂庞大，同时计算量和延时率也随之增加。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于脉冲神经网络的人脸表情识别方法、存储介质及设备，该方法以脉冲神经网络模型为基础，将利用延迟相位编码策略转换为脉冲发放时间序列作为脉冲神经网络模型的输入，极大地降低了网络计算量和延时率，有效地弥补传统特征点识别技术和卷积神经网络模型在人脸表情识别方法上所带来的弊端。

为实现上述技术目的，本发明采用如下技术方案：一种基于脉冲神经网络的人脸表情识别方法，具体包括如下步骤：

步骤1、收集人脸表情RGB图像，使用LabelMe在每一张人脸表情图像上标注表情类别，并根据标注的表情类别将人脸表情RGB图像进行分类；

步骤2、将分类的人脸表情RGB图像通过加权平均法进行灰度化处理，得到分类的灰度图像，所述灰度图像的像素大小为64×64；

步骤3、构建局部递归的脉冲神经网络模型，将分类的灰度图像依次输入到脉冲神经网络模型中进行训练，直至达到最大迭代次数，完成对脉冲神经网络模型的训练；

步骤4、将待识别的人脸表情RGB图像通过加权平均法进行灰度化处理后，输入训练好的脉冲神经网络模型中，预测出人脸表情的识别结果。

进一步地，步骤1中表情类别包括：伤心、开心、生气、厌恶、惊讶、害怕、无表情。

进一步地，所述脉冲神经网络模型包括：包含256个神经元的输入层、包含10个神经元的隐含层、通过复制隐含层得到的上下文层和由一个神经元构成的输出层，所述输入层的输出端与隐含层的输入端连接，所述隐含层的输出端分别与上下文层的输入端、输出层的输入端连接，所述上下文层的输出端与隐含层的输入端连接。

进一步地，步骤3包括如下子步骤：

步骤301、随机初始化隐含层中的突触权值；

步骤302、将灰度图像输入到输入层中，利用延迟相位编码策略将灰度图像转换为脉冲发放时间序列，将脉冲发放时间序列输入隐含层中，获取脉冲序列信息；每一个脉冲发放时间序列中包含16个脉冲；

步骤303、将隐含层中的脉冲序列信息复制到上下文层，通过梯度下降法更新隐含层中的突触权值，根据突触权值更新隐含层中的脉冲序列信息；

步骤304、将隐含层中更新的脉冲序列信息与目标脉冲序列信息进行误差计算，将误差最小的表情类别输入输出层中；

步骤305、将上下文层中复制的脉冲序列信息与经步骤302处理得到的脉冲发放时间序列共同输入隐含层中，重复步骤303-304，直至达到最大迭代次数，完成对脉冲神经网络模型的训练。

进一步地，步骤302中脉冲发放时间序列中的脉冲数目N_spike为：

其中，n表示每幅灰度图像中像素的数目，N_RF表示感受野中感光细胞的数目。

进一步地，步骤302中脉冲发放时间序列中第i个脉冲发放时间t_i的计算过程为：

t_i＝t_max-ln(αs_i+1)

其中，t_max为编码时间窗口的最大时间，α为比例因子，s_i为第i个脉冲发放时间内模拟刺激的强度。

进一步地，脉冲发放时间序列中脉冲发放时间对应的脉冲周期性振荡函数满足：

i_osc＝Acos(vt+φ_z)

其中，A表示阈下振荡的振幅，v表示振荡的相位速度，φ_z表示感受野中第z个神经元的相位偏移量，φ_z＝φ₀+(z-1)Δφ，φ₀表示参考的初始相位，Δφ表示相邻感光细胞之间的恒定相位差，且Δφ＜2π/N_RF，N_RF表示每个感受野中感光细胞的个数。

进一步地，步骤303中突触权值的更新过程为：

其中，

表示从突触前神经元p到突触后神经元q的第k个突触权值的梯度，η表示学习率，

表示无权的突触后电位，

表示神经元q的实际脉冲发放时间，δ_q表示突触后神经元q的梯度下降最小计算值。

进一步地，本发明还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序使计算机执行所述的基于脉冲神经网络的人脸表情识别方法。

进一步地，本发明还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现所述的基于脉冲神经网络的人脸表情识别方法。

与现有技术相比，本发明具有如下有益效果：

(1)传统的人工神经网络和生物神经网络仍有较大区别，输入输出均为实数，而人脑中信息传递的形式是离散的动作电位或脉冲；本发明所提出的基于脉冲神经网络的人脸表情方法，完全模仿生物神经网络，通过脉冲形式传递信息，对提高处理效率和降低功耗具有重要作用；

(2)目前人脸表情识别方法主要使用机器学习和深度学习算法，机器学习算法需要手动提取人脸表情特征；而本发明所提出的基于脉冲神经网络的人脸表情识别方法具有处理复杂时空模式数据的能力，采用延迟相位编码，较深度学习中常用的基于发放频率的编码方式能够捕获更多的信息；通过引入上下文层，实现局部反馈，实时更新隐含层的突触权值及脉冲序列信息，且无需人工提取特征，计算效率高、功耗低、占用资源少，方便使用硬件实现。

附图说明

图1为本发明基于脉冲神经网络的人脸表情识别方法的流程图；

图2为本发明中脉冲神经网络模型的结构示意图。

具体实施方式

下面结合附图来进一步描述本发明的技术方案。

如图1为本发明基于脉冲神经网络的人脸表情识别方法的流程图，该人脸表情识别方法具体包括如下步骤：

步骤1、收集人脸表情RGB图像，使用LabelMe在每一张人脸表情图像上标注表情类别，并根据标注的表情类别将人脸表情RGB图像进行分类；本发明中表情类别包括：伤心、开心、生气、厌恶、惊讶、害怕、无表情。

步骤2、将分类的人脸表情RGB图像通过加权平均法进行灰度化处理，得到分类的灰度图像Gray＝R*0.299+G*0.587+B*0.114，其中，R表示红色通道，G表示绿色通道，B表示蓝色通道，灰度化处理后，灰度图像的像素大小为64×64。

步骤3、构建局部递归的脉冲神经网络模型，将分类的灰度图像依次输入到脉冲神经网络模型中进行训练，直至达到最大迭代次数，完成对脉冲神经网络模型的训练，脉冲神经网络能够模拟真实大脑的神经元信息传递、处理机制，具有计算效率高、功耗低、占用资源少等优势。如图2，本发明中脉冲神经网络模型包括：包含256个神经元的输入层、包含10个神经元的隐含层、通过复制隐含层得到的上下文层和由一个神经元构成的输出层，输入层的输出端与隐含层的输入端连接，隐含层的输出端分别与上下文层的输入端、输出层的输入端连接，上下文层的输出端与隐含层的输入端连接。

步骤3具体包括如下子步骤：

步骤301、随机初始化隐含层中的突触权值；

步骤302、将灰度图像输入到输入层中，利用延迟相位编码策略将灰度图像转换为脉冲发放时间序列，将灰度图像的像素灰度值转变成脉冲发放时间，并利用脉冲发放时间序列的时间结构来存储可视化信息；将脉冲发放时间序列输入隐含层中，获取脉冲序列信息；每一个脉冲发放时间序列中包含16个脉冲；

具体地，在每个的脉冲发放时间序列中，脉冲数目取决于各灰度图像的像素及感受野数目，本发明中脉冲发放时间序列中的脉冲数目N_spike为：

其中，n表示每幅灰度图像中像素的数目，N_RF表示感受野中感光细胞的数目。本发明中感受野为4×4像素，数量为256个；将64×64像素的灰度图像编码分为256个脉冲发放时间序列，每一个脉冲发放时间序列中包含16个脉冲。

本发明中脉冲发放时间序列中第i个脉冲发放时间t_i的计算过程为：

t_i＝t_max-ln(αs_i+1)

其中，t_max为编码时间窗口的最大时间，α为比例因子，s_i为第i个脉冲发放时间内模拟刺激的强度。由于视网膜中存在振荡，神经节细胞同步发放的脉冲可利用与各自的振荡相关的相位来标记。每个神经节细胞接收来自感光细胞群体的脉冲，可以采用不同的初始相位来标记脉冲的阈下振荡，脉冲发放时间序列中脉冲发放时间对应的脉冲周期性振荡函数满足：

i_osc＝Acos(vt+φ_z)

其中，A表示阈下振荡的振幅，v表示振荡的相位速度，φ_z表示感受野中第z个神经元的相位偏移量，当感光细胞的相位梯度设置为恒定值时，第z个神经元阈下振荡的相位φ_z＝φ₀+(z-1)Δφ，φ₀表示参考的初始相位，Δφ表示相邻感光细胞之间的恒定相位差，且Δφ＜2π/N_RF，N_RF表示每个感受野中感光细胞的个数。

采用延迟相位编码时，先将灰度图像编码成精确的脉冲时间后压缩成脉冲发放时间序列，刺激的强度信息编码对应脉冲的发放次数，而空间信息通过脉冲的相位来保留。当脉冲发放时间序列通过对应的编码区域传递到脉冲神经网络模型时，延迟相位编码由感光细胞生成的脉冲可以通过相同的相位参考从压缩成的脉冲发放时间序列中重构，然后视觉刺激通过简单的延迟解码过程进行重构。延迟相位编码的主要优势是稀疏性，如果神经元在规定时间内的时间过程中最多只能发生一次，延迟编码可以降低功耗，方便用硬件电路实现。

本发明中突触权值的更新过程为：

其中，

表示无权的突触后电位，

步骤305、将上下文层中复制的脉冲序列信息与经步骤302处理得到的脉冲发放时间序列共同输入隐含层中，通过上下文层实现局部反馈，实时更新隐含层的突触权值及脉冲序列信息，重复步骤303-304，直至达到最大迭代次数，完成对脉冲神经网络模型的训练。

本发明基于脉冲神经网络的人脸表情识别方法通过使用对时空特性敏感的脉冲信号，能够有效提取视频图像等时序数据在时空维度上的特征，极大提高了计算效率，其低功耗的特点也使得硬件实现更为方便。

在本发明的一个技术方案中，还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序使计算机执行所述的基于脉冲神经网络的人脸表情识别方法。

在本发明的另一个技术方案中，还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现所述的基于脉冲神经网络的人脸表情识别方法。

在本申请所公开的实施例中，计算机存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。计算机存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。计算机存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

本领域普通技术人员可以意识到，结合本申请所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于脉冲神经网络的人脸表情识别方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于脉冲神经网络的人脸表情识别方法，其特征在于，步骤1中表情类别包括：伤心、开心、生气、厌恶、惊讶、害怕、无表情。

3.根据权利要求1所述的一种基于脉冲神经网络的人脸表情识别方法，其特征在于，所述脉冲神经网络模型包括：包含256个神经元的输入层、包含10个神经元的隐含层、通过复制隐含层得到的上下文层和由一个神经元构成的输出层，所述输入层的输出端与隐含层的输入端连接，所述隐含层的输出端分别与上下文层的输入端、输出层的输入端连接，所述上下文层的输出端与隐含层的输入端连接。

4.根据权利要求1所述的一种基于脉冲神经网络的人脸表情识别方法，其特征在于，步骤3包括如下子步骤：

步骤301、随机初始化隐含层中的突触权值；

5.根据权利要求4所述的一种基于脉冲神经网络的人脸表情识别方法，其特征在于，步骤302中脉冲发放时间序列中的脉冲数目N_spike为：

6.根据权利要求4所述的一种基于脉冲神经网络的人脸表情识别方法，其特征在于，步骤302中脉冲发放时间序列中第i个脉冲发放时间t_i的计算过程为：

t_i＝t_max-ln(αs_i+1)

7.根据权利要求4所述的一种基于脉冲神经网络的人脸表情识别方法，其特征在于，脉冲发放时间序列中脉冲发放时间对应的脉冲周期性振荡函数满足：

i_osc＝Acos(vt+φ_z)

其中，A表示阈下振荡的振幅，v表示振荡的相位速度，φ_z表示感受野中第z个神经元的相位偏移量，φ_z＝φ₀+(z-1)Δφ，φ0₀表示参考的初始相位，Δφ表示相邻感光细胞之间的恒定相位差，且Δφ＜2π/N_RF，N_RF表示每个感受野中感光细胞的个数。

8.根据权利要求4所述的一种基于脉冲神经网络的人脸表情识别方法，其特征在于，步骤303中突触权值的更新过程为：

其中，

表示无权的突触后电位，

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序使计算机执行如权利要求1-8任一项所述的基于脉冲神经网络的人脸表情识别方法。

10.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如权利要求1-8任一项所述的基于脉冲神经网络的人脸表情识别方法。