CN110751067A

CN110751067A - 一种结合生物形态神经元模型的动态表情识别方法

Info

Publication number: CN110751067A
Application number: CN201910947996.XA
Authority: CN
Inventors: 汪东华
Original assignee: Aitecheng Information Technology Co Ltd
Current assignee: Aitecheng Information Technology Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-02-04
Anticipated expiration: 2039-10-08
Also published as: CN110751067B

Abstract

本发明提供了一种结合生物形态神经元模型的动态表情识别方法,选取一定时间区间内的动态人脸图像，采用频率编码方法将原始像素转换成脉冲序列，之后将先乘积累加后进行非线性激活的神经元模型，替换为更接近真实生物学特性的LIF神经元模型，结合卷积神经网络结构进行动态人脸的表情识别。充分利用人工神经网络CNN擅长处理空间信息的能力，结合以LIF神经元模型为基础的脉冲网络结构擅长处理时序信息的能力，将二者融合起来构成混合网络模型，解决动态人脸表情识别问题，相对单张人脸图像的人工神经网络CNN方法，混合网络模型利用动态时空特性，具有更高识别准确率；由于采用事件驱动的脉冲神经元模型，具有更低的参数计算量，因此功耗较低。

Description

一种结合生物形态神经元模型的动态表情识别方法

技术领域

本发明涉及神经学与计算科学领域，尤其涉及一种结合生物形态神经元模型的动态表情识别方法。

背景技术

人脸识别技术是基于人的脸部特征，对输入的人脸图像或者视频流，首先判断其是否存在人脸，如果存在人脸，则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息，并依据这些信息，进一步提取每个人脸中所蕴涵的身份特征，并将其与已知的人脸进行对比，从而识别每个人脸的身份。广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。

人脸识别技术由于非接触性和高识别率的特点，在当前安防、认证、交易和反恐等领域获得了广泛的应用。在视频分析与图像识别领域，表情识别是人脸识别领域的扩展，作为人脸识别的重要补充部分，表情识别在多个场景具有重要的应用价值，如警察局内观察嫌疑人的表情变化判断是否说谎；心里学家根据人面部表情变化，可以对其进行更好的开导和交流；通过商场内顾客的表情变化，来判断对本次购物的满意程度等等。但行业内，表情的识别一直是个难题，受限于短暂时间内表情的变化多样，如果只采用一帧人脸图像进行表情识别很难描述当前此人的真实表情变化，如果每帧都进行表情识别，则受限于算力的消耗，和不同帧给出的不同结果，也很难直观的进行评价。

面部表情识别技术主要的应用领域包括人机交互、智能控制、安全、医疗、通信等多个领域，对行人的表情进行正确的识别，将会极大的扩展人脸识别的应用范围。因此，基于上述技术，本领域技术人员致力于提供一种可以对长时间内动态序列中的人脸表情进行客观准确的评价的方法，以解决前述问题。

发明内容

本发明所要解决的技术问题是提供一种结合生物形态神经元模型的动态表情识别方法，针对不同场景下的动态人脸表情进行识别，以便于更好地描述了每一种表情所对应的面部变化，包括眉毛、眼睛、眼睑、嘴唇等等是如何变化的，从而为完善人脸识别相关技术产业链和应用提供帮助。

为了解决上述问题，本发明提供了一种结合生物形态神经元模型的动态表情识别方法，该方法利用人工神经网络CNN与基于LIF(leakyintegrate-and-fire)神经元模型的脉冲神经网络SNN进行混合网络模型设计，将CNN网络模型中乘加累积后执行非线性激活模块替换成具有更贴近生物真实性的LIF神经元模型；具体包括：

(A)：通过脉冲频率编码方法，神经元放电序列的编码以放电频率为依据，定义脉冲计数频率；

(B)：基于(A)中的脉冲计数频率建立LIF神经元模型，并对建立的LIF神经元模型进行可迭代版本转换；

(C)：将前述(B)形成的可迭代版本LIF神经元模型与CNN网络结构相结合，确定发放脉冲，并将发放的脉冲传递到下一层参与运算；

(D)：将前述(A)-(C)操作形成的可迭代版本LIF神经元模型，与经过训练的投票权重矩阵进行融合，输出置信度，确定最终预测的生物形态(动态表情)，搭建为所需的网络结构；

(E)：构建前述(D)中搭建的网络结构的损失函数，并进行优化训练，从而获得最终的结合生物形态神经元模型。

进一步的，在搭建结合生物形态神经元模型前，需要进行动态表情分类，将人脸面部表情按照情绪表达分类，并将分好的类别以数字或代码的方式表示；分别选取每时间区间内动态人脸图像依据前述分类构成一组类型的表情样本。

进一步的，形成表情样本的人脸图像中，人脸尺寸统一为64*64像素大小。

进一步的，在前述方法(A)中，离散的脉冲序列采用一系列二元卷积核数量来表示，其值为二元的0,1表示，与人脸图像同尺寸大小，因此可以采用随机梯度下降算法进行网络训练得到混合模型。

进一步的，在前述方法(A)中，定义脉冲计数频率V，其计算方法为：

其中，T表示时间区间，N表示脉冲个数，公式(1)即为通过时间区间T内脉冲个数N作为当前脉冲计数频率。

由于生物学上认为生物发放脉冲最大速率为63.75Hz，每个神经元(像素)亮度范围由[0：255]归一化到[0：63.75]。脉冲采样是概率性的，例如遵循伯努利分布，每个神经元(像素)按照时间区间T编码成脉冲，其放电频率和像素亮度成正比，即亮度值越大，脉冲数越多。

进一步的，在前述方法(B)中，LIF神经元模型是一种仿生的神经元模型，更具贴近真实的生物神经元，表现为：当累积的输入膜电压达到设定阈值V_th时，神经元即发放脉冲信号，随后电压降至静息电位，生物学上的公式表示如下：

当V＜V_th时，按照膜电位更新公式进行电压更新，当V＞＝V_th时，进行脉冲发放并将电压归位静息电压状态，且接收动态的有监督表情样本，利用LIF神经元模型中的膜电位更新机制和脉冲发放机制，获得突触后神经元脉冲的发放结果，此种方式相对于传统的只进行乘积累加，再非线性激活，更具有生物可解释性，属于对神经元的精细化模仿，表达力更强。

进一步的，由于公式(2)表示为生物现象的模拟，很难直接应用现有深度学习框架进行求解，因此根据设定人脸表情识别场景，有必要将其转换成可迭代计算的数学表达式：

spikeⁿ⁺¹(k)＝step(Vⁿ⁺¹(k)-V_th) 公式(4)

其中，n为第n层网络，l(n)表示当前层神经元个数。

公式(3)前半部分表示当前第n层突触权重与脉冲输入的线性乘积累加，可以得出当发放脉冲时，公式(3)后半部为0，膜电位归位静息状态，否则按照λ衰减速率进行衰减；

公式(4)中step为阶跃函数，当V＞＝V_th时，返回1，否则返回0；

利用公式(3)结合公式(4)来实现数学可迭代版本来模拟公式(2)中膜电位变化和阈值发放情况。

进一步的，在前述方法(C)中，原始像素首先按照伯努利分布和频率编码方法，在时间区域T内，将连续的灰度像素，编码成离散的脉冲信号，即将pixel[m,n]转换成spike[m,n,T]，其中T可认为对应于编码层的特征图数量；设定随机初始化权重，按照卷积运算方式，将其与权重矩阵相乘运算后，按照公式(3)进行膜电位更新，并将更新后的膜电位与阈值V_th比较如公式(4)，决定是发放脉冲还是保持静息状态，只有发放的脉冲才会传递到下一层参与运算，因此具有稀疏特性和较少的参数计算量，带来较低的功耗。

进一步的，在前述方法(D)中，可迭代版本LIF神经元模型至少包含编码层、卷积层、池化操作和dropout操作，最后全连接一个投票层构成输出层，即网络接收输入动态表情分类之后的人脸图像，经过前述(A)-(C)编码层编码、卷积层运算、膜电位更新调用，后进入dropout层和相关平均池化的操作，最终与经过训练的投票层投票权重矩阵融合后得到输出置信度，代表动态表情概率，并选取最大的置信度对应标签为最终预测的动态表情。

进一步的，在前述方法(E)中，定义损失函数，测量平均投票结果与标签向量Y之间的均方误差，如公式(5)所示：

其中，W*spike表示单帧时间区间内的投票权重矩阵与脉冲相乘，在时间帧T内取平均后得到输出置信度，并与真实标签向量Y计算均方误差；采用深度学习Pytorch框架中的随机梯度下降算法来最小化误差函数，进行迭代优化，得到最终识别模型。

通过实施上述本发明提供的结合生物形态神经元模型的动态表情识别方法，具有如下技术效果：本技术所述方法充分利用人工神经网络CNN擅长处理空间信息的能力，结合以LIF神经元模型为基础的脉冲网络结构擅长处理时序信息的能力，将二者融合起来构成混合网络模型，解决动态人脸表情识别问题，相对单张人脸图像的人工神经网络CNN方法，混合网络模型利用动态时空特性，具有更高识别准确率；由于采用事件驱动的脉冲神经元模型，具有更低的参数计算量，因此功耗较低。

附图说明

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

图1是本发明具体实施方式中动态表情识别方法整体系统的流程图；

图2是本发明具体实施方式中混合网络模型示意图；

图3是本发明具体实施方式中涉及整体网络结构示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面采用具体实施方式详细描述本发明的技术方案。

本具体实施方式表述一种结合生物形态神经元模型的动态表情识别方法，如图1所示，该方法利用人工神经网络CNN与基于LIF神经元模型的脉冲神经网络SNN进行混合网络模型设计，将CNN网络模型中乘加累积后执行非线性激活模块替换成具有更贴近生物真实性的LIF神经元模型；具体方法包括：

首先，将人脸表情进行动态表情分类：例如将表情分为7个类别，分别表示为0-生气、1-厌恶、2-害怕、3-高兴、4-伤心、5-惊讶、6-平静，分别选取每时间区间T＝5(单位帧)内的动态人脸图像构成一组类型的表情样本，且人脸尺寸归一化到64*64像素大小。

其次，进行混合模型设计，具体包括如下内容：

A：通过脉冲频率编码方法，定义脉冲计数频率；根据生物学观察发现，随着刺激强度变经元脉冲发放频率也会变大。因此神经元放电序列的编码以放电频率为依据，认为放电频率携带信息，将连续的像素信号按照频率编码方法，转换成离散的脉冲序列，定义脉冲计数频率V，其计算方法为：

公式(1)

其中，T表示时间区间，N表示脉冲个数，公式(1)即为通过时间区间T内脉冲个数N作为当前脉冲计数频率。由于生物学上认为生物发放脉冲最大速率为63.75Hz，每个神经元(像素)亮度范围由[0：255]归一化到[0：63.75]。脉冲采样是概率性的，例如遵循伯努利分布，每个神经元(像素)按照时间区间T编码成脉冲，其放电频率和像素亮度成正比，即亮度值越大，脉冲数越多，如时间区间T设为200ms，则最多可积累约13个脉冲。

其中，离散的脉冲序列采用一系列二元卷积核数量来表示，其值为二元的0,1表示，与人脸图像同尺寸大小，因此仍可以采用随机梯度下降算法进行网络训练得到混合模型。

B：基于中的脉冲计数频率建立LIF神经元模型，并对建立的LIF神经元模型进行可迭代版本转换；LIF神经元模型是一种仿生的神经元模型，更具贴近真实的生物神经元，表现为：当累积的输入膜电压达到设定阈值V_th时，神经元即发放脉冲信号，随后电压降至静息电位，生物学上的公式表示如下：

spikeⁿ⁺¹(k)＝step(Vⁿ⁺¹(k)-V_th) 公式(4)

其中，n为第n层网络，l(n)表示当前层神经元个数。

C：将可迭代版本LIF神经元模型与CNN网络结构相结合，确定发放脉冲，并将发放的脉冲传递到下一层参与运算；在传统卷积神经网络中，原始像素经过与权重矩阵相乘运算后，经过非线性激活函数传递给下一次神经网络，此种方式每个神经元都要执行一遍运算，在本实施例中原始像素首先按照伯努利分布和频率编码方法，在时间区域T内，将连续的灰度像素，编码成离散的脉冲信号，即将pixel[m,n]转换成spike[m,n,T]，其中T可认为对应于编码层的特征图数量；设定随机初始化权重，按照卷积运算方式，将其与权重矩阵相乘运算后，按照公式(3)进行膜电位更新，并将更新后的膜电位与阈值V_th比较如公式(4)，决定是发放脉冲还是保持静息状态，只有发放的脉冲才会传递到下一层参与运算，因此具有稀疏特性和较少的参数计算量，带来较低的功耗。

D：可迭代版本LIF神经元模型至少包含1个编码层，5个卷积层、4个池化操作和dropout操作，最后全连接接一个投票层构成输出层；如图3所示，网络接收输入[batch,channel,width,height]＝[5,1,64,64]，编码层编码、卷积层运算、膜电位更新调用，后进入dropout层和相关平均池化的操作，最终与经过训练的投票层投票权重矩阵融合后得到输出为[predict]＝[7]，表示当前输出7个置信度，分别代表7种动态表情的概率，并选取最大的置信度对应标签为最终预测的动态表情，从而搭建为所需的网络结构，如图2所示。

最后，构建网络结构的损失函数，并进行优化训练，从而获得最终的结合生物形态神经元模型；定义损失函数，测量平均投票结果与标签向量Y之间的均方误差，如公式(5)所示：

其中，W*spike表示单帧时间区间内的投票权重矩阵与脉冲相乘，在时间区间T内取平均后得到输出置信度，与真实标签向量Y计算均方误差，如图1所示；采用深度学习Pytorch框架中的随机梯度下降算法来最小化误差函数，进行迭代优化，得到最终识别模型。

特别的,假设全连接最后一层输出spike：[batch,out]＝[5,100],则权重矩阵W的shape则为：[out,label]＝[100,7]；权重矩阵与网络输出加权后的输出结果为:

predict＝spike*W＝[batch,label]＝[5,7] 公式(6)

以此预测的表情结果与真实标签进行比较得到损失，进而采用优化算法，逐步优化投票矩阵，使得预测结果和真实标签之间损失越小，从而实现提升网络模型结果。

需要补充说明的是，除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本领域技术人员在考虑说明书及实践这里的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何用途或者适应性变化，这些用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的结构，并且可以在不脱离其范围的前提下进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种结合生物形态神经元模型的动态表情识别方法，其特征在于，该方法利用人工神经网络CNN与基于LIF神经元模型的脉冲神经网络SNN进行混合网络模型设计，将CNN网络模型中乘加累积后执行非线性激活模块替换成具有更贴近生物真实性的LIF神经元模型；具体包括：

(A)：通过脉冲频率编码方法，神经元放电序列的编码以放电频率为依据，将连续的像素信号按照频率编码方法，转换成离散的脉冲序列，定义脉冲计数频率；

(D)：将前述(A)-(C)操作形成的可迭代版本LIF神经元模型与经过训练的投票权重矩阵进行融合，输出置信度，确定最终预测的动态表情，搭建为所需的网络结构；

2.如权利要求1所述的动态表情识别方法，其特征在于，在搭建结合生物形态神经元模型前，需要进行动态表情分类，将人脸面部表情按照情绪表达分类，并将分好的类别以数字或代码的方式表示；分别选取每时间区间内动态人脸图像依据前述分类构成一组类型的表情样本。

3.如权利要求2所述的动态表情识别方法，其特征在于，形成表情样本的人脸图像中，人脸尺寸统一为64*64像素大小。

4.如权利要求3所述的动态表情识别方法，其特征在于，在前述方法(A)中，离散的脉冲序列采用一系列二元卷积核数量来表示，其值为二元的0,1表示，与人脸图像同尺寸大小。

5.如权利要求1所述的动态表情识别方法，其特征在于，在前述方法(A)中，定义脉冲计数频率V，其计算方法为：

由于生物学上认为生物发放脉冲最大速率为63.75Hz，每个神经元(像素)亮度范围由[0：255]归一化到[0：63.75]。脉冲采样是概率性的，遵循伯努利分布，每个神经元(像素)按照时间区间T编码成脉冲，其放电频率和像素亮度成正比。

6.如权利要求5所述的动态表情识别方法，其特征在于，在前述方法(B)中，LIF神经元模型是一种仿生的神经元模型，更具贴近真实的生物神经元，表现为：当累积的输入膜电压达到设定阈值V_th时，神经元即发放脉冲信号,随后电压降至静息电位，生物学上的公式表示如下：

当V＜V_th时，按照膜电位更新公式进行电压更新，当V＞＝V_th时，进行脉冲发放并将电压归位静息电压状态，且接收动态的有监督表情样本，利用LIF神经元模型中的膜电位更新机制和脉冲发放机制，获得突触后神经元脉冲的发放结果。

7.如权利要求6所述的动态表情识别方法，其特征在于，由于公式(2)表示为生物现象的模拟，很难直接应用现有深度学习框架进行求解，因此根据设定人脸表情识别场景，有必要将其转换成可迭代计算的数学表达式：

spikeⁿ⁺¹(k)＝step(Vⁿ⁺¹(k)-V_th) 公式(4)

其中，n为第n层网络，l(n)表示当前层神经元个数。

8.如权利要求7所述的动态表情识别方法，其特征在于，在前述方法(C)中，原始像素首先按照伯努利分布和频率编码方法，在时间区域T内，将连续的灰度像素，编码成离散的脉冲信号，即将pixel[m,n]转换成spike[m,n,T]，其中T可认为对应于编码层的特征图数量；设定随机初始化权重，按照卷积运算方式，将其与权重矩阵相乘运算后，按照公式(3)进行膜电位更新，并将更新后的膜电位与阈值V_th比较如公式(4)，决定是发放脉冲还是保持静息状态，只有发放的脉冲才会传递到下一层参与运算，因此具有稀疏特性和较少的参数计算量，带来较低的功耗。

9.如权利要求8所述的动态表情识别方法，其特征在于，在前述方法(D)中，可迭代版本LIF神经元模型至少包含编码层、卷积层、池化操作和dropout操作，最后全连接一个投票层构成输出层，即网络接收输入动态表情分类之后的人脸图像，经过前述(A)-(C)编码层编码、卷积层运算、膜电位更新调用，后进入dropout层和相关平均池化的操作，最终与经过训练的投票层投票权重矩阵融合后得到输出置信度，代表动态表情概率，并选取最大的置信度对应标签为最终预测的动态表情。

10.如权利要求9所述的动态表情识别方法，其特征在于，在前述方法(E)中，定义损失函数，测量平均投票结果与标签向量Y之间的均方误差，如公式(5)所示：