CN111091815A

CN111091815A - 基于膜电压驱动的聚合标签学习模型的语音识别方法

Info

Publication number: CN111091815A
Application number: CN201911275334.9A
Authority: CN
Inventors: 李建平; 顾小丰; 胡健; 蒋胜; 李天凯; 贺喜; 蒋涛; 陈强强
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-01

Abstract

本发明公开了一种基于膜电压驱动的聚合标签学习模型的语音识别方法，该方法包括获取口语数字语料数据集，采用神经阈值编码方法将口语数字语料数据编码成时间脉冲序列，建立基于膜电压驱动的聚合标签学习模型并进行训练，利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别。本发明通过采用神经阈值编码方法将口语数字语料数据编码成时间脉冲序列，并建立基于膜电压驱动的聚合标签学习模型进行训练，利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别，大幅提高了语音识别的准确性。

Description

基于膜电压驱动的聚合标签学习模型的语音识别方法

技术领域

本发明属于语音识别技术领域，具体涉及一种基于膜电压驱动的聚合标签学习模型的语音识别方法。

背景技术

生物个体的生存很大程度上依赖于它如何利用有益环境和规避危险环境。在动物的实际生存环境中，在很多危险发生之前都会出现很多警告信息。比如，当一个捕食者接近猎物时，它的脚步声，喘息声，以及气味等感官信息都是危险发生前的预警信息。如果猎物在捕食者的攻击下幸存下来，猎物就会从这次被攻击的经历中学习到这些危险的预警信息，从而更好地在自然中生存。人类和动物擅长这种学习：将感知到的相关信息和一段时间后发生的事情关联起来。但是，神经系统通过何种机制进行这种学习依旧没有明确的定论。为了解决这个问题，研究人员提出了许多基于spiking机制的学习算法，按照其控制神经元个数的多少可以分为单脉冲学习算法和多脉冲学习算法。

在单脉冲学习算法中，Tempotron学习算法是最典型的一种。当正样本输入到spiking神经网络中，调整神经元突触的权重使得该神经元激发一个脉冲。反之，当负样本输入到spiking神经网络中，神经元的突触会做出相应的调整直到神经元不激发脉冲。Rank-Order是另一种单脉冲学习算法，通过输入脉冲到达 spiking神经元的时间顺序来更新权重。训练完成以后，在测试阶段，通过最早的激发脉冲来决定输入样本类别。此外，SpikeProp算法把基于梯度下降的BP学习算法应用到spiking神经网络。通过构造基于目标激发时刻和实际激发时刻的误差函数，经过SpikeProp学习算法训练以后的神经元可以在目标时刻激发一个脉冲。

尽管单脉冲的spiking学习算法已经取得了广泛应用。但只能控制一个脉冲限制了其对信息的处理能力和应用范围。特别地，单脉冲学习算法对脉冲激发以后的输入脉冲不做处理，因此，单脉冲spiking学习算法只能捕捉到局部的时序信息。为了克服这个缺点，研究人员提出了基于spiking机制的多脉冲学习算法。

Remote Supervised Method(ReSuMe)学习算法是一种典型的多脉冲学习算法。在ReSuMe学习算法中，依据输入脉冲和目标激发时刻用spike time-dependentplasticity(STDP)规则增加权重。同时，依据输入脉冲和实际激发脉冲时刻用anti-STDP规则减弱突触权重。Chronotron E-learning[34]和Spike Pattern AssociationNeuron(SPAN)学习算法把目标激发脉冲时刻和实际激发脉冲时刻转化成模拟量，然后基于连续时间代价函数去最小化实际输出与目标输出之间的差距。最近，研究人员也提出了几种基于膜电压驱动的多脉冲学习算法，比如PBSNLR，HTP和EMPD。在这些算法中权重依据spiking神经元的膜电压和激发阈值之间的差异进行调整。实验结果表明其学习性能要优于ReSuMe 和SPAN学习算法。但是PBSNLR，HTP和EMPD等学习算法要求spiking神经元在目标激发时刻，无论膜电压是否达到激发阈值都让神经元的膜电压恢复到静息电位，同时在非目标激发时刻，即使神经元的膜电压达到阈值也不可以激发脉冲。显然，这些算法的特殊要求和生物神经元的运行机制相悖。

为了预测危险，当线索出现时，线索探测神经元应该激发脉冲；同时，当线索没有出现时，线索探测神经元应该保持静默。如果已知线索出现的时间，那么前面提到的学习算法都可以用来学习线索。但是，通常情况下，线索发生的时间是未知的。为了解决这个问题，德国科学家提出了命名为Multi-Spike Tempotron(MST)的聚合标签(Aggregate-Label)学习算法。该算法可以有效地训练spiking神经元激发目标脉冲个数，而不考虑脉冲激发的具体时间。MST 学习算法把目标激发脉冲个数和实际激发脉冲个数的误差转变成激发阈值θ和假定激发阈值θ*之间的误差。这种转化虽然解决了误差函数的构造问题，但是也使得突触权重的训练变得间接和复杂。同时在每个迭代过程中，求解θ*也是一个非常耗时的步骤。为了缓解Multi-Spike Tempotron学习算法效率低下的问题，TDP1和TDP2学习算法试图提高聚合标签学习算法的效率。但是，由于TDP1 和TDP2学习算法仍然是基于阈值驱动的，不可避免地要在每个学习周期中对 θ*尽心求解。因此，现有聚合标签学习算法的效率仍然是一个大问题。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于膜电压驱动的聚合标签学习模型的语音识别方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于膜电压驱动的聚合标签学习模型的语音识别方法，包括以下步骤：

S1、获取口语数字语料数据集；

S2、采用神经阈值编码方法将步骤S1中的口语数字语料数据编码成时间脉冲序列；

S3、建立基于膜电压驱动的聚合标签学习模型，利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练；

S4、利用步骤S3训练后的聚合标签学习模型对待检测口语数字语料数据进行识别。

进一步地，所述步骤S2中，神经阈值编码方法具体为：

将口语数字语料数据通过一个基于Constant-Q变换的耳蜗滤波器组，提取得到频谱信息；

将获取的频谱信息通过神经阈值编码机制编码成时间脉冲序列。

进一步地，所述神经阈值编码机制具体为：

当能量曲线穿越过某一预设的阈值时，该阈值所对应的神经元在该时间发放脉冲。而且，同一阈值但不同的穿越方向也对应着两个不同的编码神经元。

进一步地，所述步骤S3中，基于膜电压驱动的聚合标签学习模型包括两个学习过程：当spiking神经元实际激发脉冲个数少于目标激发脉冲个数时，调整权重，使得在神经元膜电压增加，直到达到阈值，产生一个新脉冲；当spiking神经元实际激发脉冲个数大于目标激发个数时，减弱神经元的突触权重以减少实际激发的脉冲个数。

进一步地，所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际激发脉冲个数小于目标激发脉冲个数时，假定所有阈下膜电压波峰中的最大神经元膜电压对应时刻为t*，构造误差函数：

权重调整公式：

其中，V(t*)为在t*时刻的神经元膜电压，θ为激发阈值，ω_i为输入神经元i到输出神经元的突触权重，λ₁为决定调整幅度的学习率。

进一步地，所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际激发脉冲个数大于目标激发脉冲个数时，假定spiking神经元的最后一个脉冲激发时间是t_s ^last，构造误差函数：

权重调整公式：

其中，λ₂是决定调整幅度的学习率。

进一步地，所述步骤S3中，利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练具体为：

根据步骤S2得到的不同语音类别的时间脉冲序列设置对应组数量的脉冲神经元，其中每一组神经元对应一个语音类别，且每组包括多个神经元；输入时间脉冲序列到聚合标签学习模型中，通过学习使其对应的一组神经元激发N_d个目标脉冲序列，同时训练其他组的神经元保持静默状态。

进一步地，采用基于数据驱动的解码方法对目标脉冲个数Nd进行设置，具体为：

如果膜电压V(t)低于激发阈值θ，且神经元没有激发脉冲，目标脉冲个数设定为N_d＝1；

如果spiking神经元已经激发了N_o个脉冲，同时V(t*)高于预先设置好的解码阈值θ_e，目标脉冲个数设定为N_d＝N_o+1；

如果spiking神经元已经激发了N_o个脉冲，同时V(t*)低于预先设置好的解码阈值θ_e，目标脉冲个数设定为N_d＝N_o。

本发明具有以下有益效果：本发明通过采用神经阈值编码方法将口语数字语料数据编码成时间脉冲序列，并建立基于膜电压驱动的聚合标签学习模型进行训练，利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别，大幅提高了语音识别的准确性。

附图说明

图1是本发明的基于膜电压驱动的聚合标签学习模型的语音识别方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种基于膜电压驱动的聚合标签学习模型的语音识别方法，包括以下步骤S1至S4：

S1、获取口语数字语料数据集；

在本实施例中，本发明采用的数据集为口语数字语料库TIDIGIT，这也是最广泛地用来验证语音识别算法的语音数据集。此数据集包含了离散的口语数字，词库为11个英文单词(即从“zero”到“nine”的英文数字和“oh”)。说话人来自于22个不同的英文方言地区。在实验中，本发明使用的标准的训练集和测试集，分别包含了2464和2486个样本。

在本实施例中，本发明采用的神经阈值编码方法具体为：

将口语数字语料数据通过一个基于Constant-Q变换的耳蜗滤波器组，提取得到频谱信息；本发明使用20个耳蜗滤波器，频率范围从200赫兹到8000赫兹。假设一个语音信号波形x＝[x₁,x₂,...,x_N]，长度为N，采样率16000赫兹。该信号输入进耳蜗滤波器后，输出k＝20路频谱信号：y_k＝[y_k(1),y_k(2),...,y_k(N)], 每一路长度与x一样为N。最后长度为N的每一路频谱信号都经过取帧操作，帧长为35毫秒，步长15毫秒。假设每一长度为l的帧窗中的频谱采样能量为 s_i，则每个帧的频谱能量e为：

取帧之后，可以获取原始语音信号的频谱图。

然后将获取的频谱信息通过神经阈值编码机制编码成时间脉冲序列。

神经阈值编码机制具体为：

本发明中每个频带能量曲线由31个神经元编码，其中上穿和下穿各自占15 个神经元，每一对上穿和下穿神经元都共享同一个编码阈值；此外还有一个顶峰神经元，当频谱能量达到最大值时，顶峰神经元发放脉冲。因此，对于每一段语音信号，使用(15×2+1)×20＝620个神经元进行编码，由此获得一个有效的稀疏时间脉冲模式。

在本实施例中，语音数据编码成具有时空信息的脉冲信号以后，利用基于膜电压驱动的聚合标签学习模型进行学习。在学习层共有11组spiking神经元，每一组对应一个语音类别，且每组包括10个神经元。当对应的语音输入到 spiking网络时，训练相应的那组神经元激发N_d脉冲，同时训练其余组的神经元保持静默。

本发明采用基于电流的漏积分神经元模型，在该spiking神经元中，神经元的膜电压用V(t)来表示。当没有脉冲输入时，神经元的膜电压处于静息电位V_rest＝0。当有输入脉冲传递到神经元时，在其内部就会产生相应的PSP来改变膜电压。随着时间的积累和连续的spike到达，如果膜电压V(t)的值达到激发阈值 θ，那么spiking神经元就会激发一个脉冲，并启动不应期函数。具体而言，神经元的膜电压V(t)变化过程，可以表示成

其中

是第i个输入神经元激发的第j次脉冲，ω_i是输入神经元i到输出神经元的突触权重。

表示的是脉冲

产生的PSP随时间的变化

其中，PSP的形状由膜电压常数τ_m和突触时间常数τ_s共同决定。函数

只会考虑

的输入脉冲。V₀是一个系数，用来使PSP函数的最大值为1。上式最后一部分是不应期函数。其中，

是突触后spiking神经元的第j次激发脉冲。

本发明利用基于膜电压驱动的聚合标签学习模型训练spiking神经元的权重，使其可以激发目标脉冲个数。当spiking神经元实际激发脉冲个数N_o大于或者小于目标激发脉冲个数N_d时，需要调整突触的权重。针对上面两种情况(N_d<N_o或者N_d>N_o)，基于膜电压驱动的聚合标签学习模型包括两个学习过程：

(1)实际激发的脉冲个数少于目标个数N_d>N_o

当实际激发脉冲个数少于目标激发脉冲个数时，神经元的突触应该做增强调整，直到实际脉冲个数和目标脉冲个数相同N_d＝N_o。为了实现这个目标，首先MPD-AL找到一个时刻点t*，t*时刻的神经元膜电压V(t*)是所有阈下膜电压波峰中的最大值。然后利用梯度下降的方法调整权重，使得在t*时刻的神经元膜电压V(t*)增加，直到达到阈值，产生一个新脉冲，构造误差函数：

依据梯度下降原理，可以得到以下的权重调整公式：

其中，λ₁是决定调整幅度的学习率。由于V(t*)依赖于权重，并通过在时刻点t*之前实际激发的脉冲

体现。因此，dV(t*)/dω_i可以表示成：

上式的最后一项对权重的调整没有贡献，因为V(t*)不是一个局部最大值点

就是一个抑制性输入神经元脉冲到达的时刻。结合V(t)变化过程，上式的第一部分可以表示成

对于上式的第二部分，利用链式法则可以得到

其中

和

可以按照如下方式求解

依据脉冲激发时刻膜电压和时间点的线性假设，可以得到

其中，

(2)实际激发的脉冲个数大于目标个数N_d<N_o

当spiking神经元实际激发脉冲个数大于目标激发个数时Nd<No，需要减弱神经元的突触权重以减少实际激发的脉冲个数。为了降低其对学习结果的影响，本发明在最后一个脉冲的激发时刻调整权重。这样可以最大程度地避免干扰前面产生的脉冲。假定spiking神经元的最后一个脉冲激发时间是t_s ^last，构造误差函数：

利用梯度下降算法，可以得到以下权重调整公式：

其中，λ₂是决定调整幅度的学习率。由于权重对V(t_s ^last)影响也通过在最后一个脉冲之前激发的脉冲t_s ^j≤t_s ^last,j∈{1,2,...,n}产生，因此，dV (t_s ^last)dω_i可以表示成：

利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练具体为：

根据步骤S2得到的不同语音类别的时间脉冲序列在学习层设置11组脉冲神经元，其中每一组神经元对应一个语音类别，且每组包括多个神经元；输入时间脉冲序列到聚合标签学习模型中，通过学习使其对应的一组神经元激发N_d个目标脉冲序列，同时训练其他组的神经元保持静默状态。

上述目标脉冲个数N_d采用基于数据驱动的解码方法进行设置，具体为：

表1显示了不同方法在语音数据集TIDIGITS上的分类准确率。其中，本发明所提出的MPD-AL算法和动态解码策略可以达到97.52％的分类准确率。该结果要明显高于其余的神经拟态计算模型。另外，为了验证所提出的动态解码策略的有效性，本发明也用固定目标激发次数N_d∈{1,2,3,4,5,6,7,8,9,10}训练spiking神经元。在该方法下，当N_d＝3时，所得到的准确率最高为95.35％。该结果表明了动态解码策略的有效性。

表1不同算法在语音数据集TIDIGITS上的分类准确率

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于膜电压驱动的聚合标签学习模型的语音识别方法，其特征在于，包括以下步骤：

S1、获取口语数字语料数据集；

2.如权利要求1所述的基于膜电压驱动的聚合标签学习模型的语音识别方法，其特征在于，所述步骤S2中，神经阈值编码方法具体为：

3.如权利要求2所述的基于膜电压驱动的聚合标签学习模型的语音识别方法，其特征在于，所述神经阈值编码机制具体为：

当能量曲线穿越过某一预设的阈值时，该阈值所对应的神经元在该时间发放脉冲；而且，同一阈值但不同的穿越方向也对应着两个不同的编码神经元。

4.如权利要求3所述的基于膜电压驱动的聚合标签学习模型的语音识别方法，其特征在于，所述步骤S3中，基于膜电压驱动的聚合标签学习模型包括两个学习过程：当spiking神经元实际激发脉冲个数少于目标激发脉冲个数时，调整权重，使得在神经元膜电压增加，直到达到阈值，产生一个新脉冲；当spiking神经元实际激发脉冲个数大于目标激发个数时，减弱神经元的突触权重以减少实际激发的脉冲个数。

5.如权利要求4所述的基于膜电压驱动的聚合标签学习模型的语音识别方法，其特征在于，所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际激发脉冲个数小于目标激发脉冲个数时，假定所有阈下膜电压波峰中的最大神经元膜电压对应时刻为t*，构造误差函数：

权重调整公式：

6.如权利要求5所述的基于膜电压驱动的聚合标签学习模型的语音识别方法，其特征在于，所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际激发脉冲个数大于目标激发脉冲个数时，假定spiking神经元的最后一个脉冲激发时间是t_s ^last，构造误差函数：

权重调整公式：

其中，λ₂为决定调整幅度的学习率。

7.如权利要求6所述的基于膜电压驱动的聚合标签学习模型的语音识别方法，其特征在于，所述步骤S3中，利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练具体为：

8.如权利要求7所述的基于膜电压驱动的聚合标签学习模型的语音识别方法，其特征在于，采用基于数据驱动的解码方法对目标脉冲个数Nd进行设置，具体为：