CN111091815A - 基于膜电压驱动的聚合标签学习模型的语音识别方法 - Google Patents

基于膜电压驱动的聚合标签学习模型的语音识别方法 Download PDF

Info

Publication number
CN111091815A
CN111091815A CN201911275334.9A CN201911275334A CN111091815A CN 111091815 A CN111091815 A CN 111091815A CN 201911275334 A CN201911275334 A CN 201911275334A CN 111091815 A CN111091815 A CN 111091815A
Authority
CN
China
Prior art keywords
learning model
membrane voltage
neurons
pulse
pulses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911275334.9A
Other languages
English (en)
Inventor
李建平
顾小丰
胡健
蒋胜
李天凯
贺喜
蒋涛
陈强强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911275334.9A priority Critical patent/CN111091815A/zh
Publication of CN111091815A publication Critical patent/CN111091815A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于膜电压驱动的聚合标签学习模型的语音识别方法,该方法包括获取口语数字语料数据集,采用神经阈值编码方法将口语数字语料数据编码成时间脉冲序列,建立基于膜电压驱动的聚合标签学习模型并进行训练,利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别。本发明通过采用神经阈值编码方法将口语数字语料数据编码成时间脉冲序列,并建立基于膜电压驱动的聚合标签学习模型进行训练,利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别,大幅提高了语音识别的准确性。

Description

基于膜电压驱动的聚合标签学习模型的语音识别方法
技术领域
本发明属于语音识别技术领域,具体涉及一种基于膜电压驱动的聚合标签 学习模型的语音识别方法。
背景技术
生物个体的生存很大程度上依赖于它如何利用有益环境和规避危险环境。 在动物的实际生存环境中,在很多危险发生之前都会出现很多警告信息。比如, 当一个捕食者接近猎物时,它的脚步声,喘息声,以及气味等感官信息都是危 险发生前的预警信息。如果猎物在捕食者的攻击下幸存下来,猎物就会从这次 被攻击的经历中学习到这些危险的预警信息,从而更好地在自然中生存。人类 和动物擅长这种学习:将感知到的相关信息和一段时间后发生的事情关联起来。 但是,神经系统通过何种机制进行这种学习依旧没有明确的定论。为了解决这 个问题,研究人员提出了许多基于spiking机制的学习算法,按照其控制神经元 个数的多少可以分为单脉冲学习算法和多脉冲学习算法。
在单脉冲学习算法中,Tempotron学习算法是最典型的一种。当正样本输入 到spiking神经网络中,调整神经元突触的权重使得该神经元激发一个脉冲。反 之,当负样本输入到spiking神经网络中,神经元的突触会做出相应的调整直到 神经元不激发脉冲。Rank-Order是另一种单脉冲学习算法,通过输入脉冲到达 spiking神经元的时间顺序来更新权重。训练完成以后,在测试阶段,通过最早 的激发脉冲来决定输入样本类别。此外,SpikeProp算法把基于梯度下降的BP学 习算法应用到spiking神经网络。通过构造基于目标激发时刻和实际激发时刻的 误差函数,经过SpikeProp学习算法训练以后的神经元可以在目标时刻激发一个 脉冲。
尽管单脉冲的spiking学习算法已经取得了广泛应用。但只能控制一个脉冲 限制了其对信息的处理能力和应用范围。特别地,单脉冲学习算法对脉冲激发 以后的输入脉冲不做处理,因此,单脉冲spiking学习算法只能捕捉到局部的时 序信息。为了克服这个缺点,研究人员提出了基于spiking机制的多脉冲学习算 法。
Remote Supervised Method(ReSuMe)学习算法是一种典型的多脉冲学习 算法。在ReSuMe学习算法中,依据输入脉冲和目标激发时刻用spike time-dependentplasticity(STDP)规则增加权重。同时,依据输入脉冲和实际激 发脉冲时刻用anti-STDP规则减弱突触权重。Chronotron E-learning[34]和Spike Pattern AssociationNeuron(SPAN)学习算法把目标激发脉冲时刻和实际激发脉 冲时刻转化成模拟量,然后基于连续时间代价函数去最小化实际输出与目标输 出之间的差距。最近,研究人员也提出了几种基于膜电压驱动的多脉冲学习算 法,比如PBSNLR,HTP和EMPD。在这些算法中权重依据spiking神经元的膜电压和激发阈值之间的差异进行调整。实验结果表明其学习性能要优于ReSuMe 和SPAN学习算法。但是PBSNLR,HTP和EMPD等学习算法要求spiking神 经元在目标激发时刻,无论膜电压是否达到激发阈值都让神经元的膜电压恢复 到静息电位,同时在非目标激发时刻,即使神经元的膜电压达到阈值也不可以 激发脉冲。显然,这些算法的特殊要求和生物神经元的运行机制相悖。
为了预测危险,当线索出现时,线索探测神经元应该激发脉冲;同时,当 线索没有出现时,线索探测神经元应该保持静默。如果已知线索出现的时间, 那么前面提到的学习算法都可以用来学习线索。但是,通常情况下,线索发生 的时间是未知的。为了解决这个问题,德国科学家提出了命名为Multi-Spike Tempotron(MST)的聚合标签(Aggregate-Label)学习算法。该算法可以有效 地训练spiking神经元激发目标脉冲个数,而不考虑脉冲激发的具体时间。MST 学习算法把目标激发脉冲个数和实际激发脉冲个数的误差转变成激发阈值θ和 假定激发阈值θ*之间的误差。这种转化虽然解决了误差函数的构造问题,但是 也使得突触权重的训练变得间接和复杂。同时在每个迭代过程中,求解θ*也是 一个非常耗时的步骤。为了缓解Multi-Spike Tempotron学习算法效率低下的问 题,TDP1和TDP2学习算法试图提高聚合标签学习算法的效率。但是,由于TDP1 和TDP2学习算法仍然是基于阈值驱动的,不可避免地要在每个学习周期中对 θ*尽心求解。因此,现有聚合标签学习算法的效率仍然是一个大问题。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于膜电压驱动的聚合标 签学习模型的语音识别方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种基于膜电压驱动的聚合标签学习模型的语音识别方法,包括以下步骤:
S1、获取口语数字语料数据集;
S2、采用神经阈值编码方法将步骤S1中的口语数字语料数据编码成时间脉 冲序列;
S3、建立基于膜电压驱动的聚合标签学习模型,利用步骤S2得到的时间脉 冲序列对聚合标签学习模型进行训练;
S4、利用步骤S3训练后的聚合标签学习模型对待检测口语数字语料数据进 行识别。
进一步地,所述步骤S2中,神经阈值编码方法具体为:
将口语数字语料数据通过一个基于Constant-Q变换的耳蜗滤波器组,提取 得到频谱信息;
将获取的频谱信息通过神经阈值编码机制编码成时间脉冲序列。
进一步地,所述神经阈值编码机制具体为:
当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发 放脉冲。而且,同一阈值但不同的穿越方向也对应着两个不同的编码神经元。
进一步地,所述步骤S3中,基于膜电压驱动的聚合标签学习模型包括两个 学习过程:当spiking神经元实际激发脉冲个数少于目标激发脉冲个数时,调整 权重,使得在神经元膜电压增加,直到达到阈值,产生一个新脉冲;当spiking神 经元实际激发脉冲个数大于目标激发个数时,减弱神经元的突触权重以减少实 际激发的脉冲个数。
进一步地,所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际 激发脉冲个数小于目标激发脉冲个数时,假定所有阈下膜电压波峰中的最大神 经元膜电压对应时刻为t*,构造误差函数:
Figure BDA0002315409740000041
权重调整公式:
Figure BDA0002315409740000042
其中,V(t*)为在t*时刻的神经元膜电压,θ为激发阈值,ωi为输入神经元i到 输出神经元的突触权重,λ1为决定调整幅度的学习率。
进一步地,所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际 激发脉冲个数大于目标激发脉冲个数时,假定spiking神经元的最后一个脉冲激 发时间是ts last,构造误差函数:
Figure BDA0002315409740000051
权重调整公式:
Figure BDA0002315409740000052
其中,λ2是决定调整幅度的学习率。
进一步地,所述步骤S3中,利用步骤S2得到的时间脉冲序列对聚合标签 学习模型进行训练具体为:
根据步骤S2得到的不同语音类别的时间脉冲序列设置对应组数量的脉冲神 经元,其中每一组神经元对应一个语音类别,且每组包括多个神经元;输入时 间脉冲序列到聚合标签学习模型中,通过学习使其对应的一组神经元激发Nd个 目标脉冲序列,同时训练其他组的神经元保持静默状态。
进一步地,采用基于数据驱动的解码方法对目标脉冲个数Nd进行设置,具 体为:
如果膜电压V(t)低于激发阈值θ,且神经元没有激发脉冲,目标脉冲个数 设定为Nd=1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)高于预先设置好的 解码阈值θe,目标脉冲个数设定为Nd=No+1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)低于预先设置好的 解码阈值θe,目标脉冲个数设定为Nd=No
本发明具有以下有益效果:本发明通过采用神经阈值编码方法将口语数字 语料数据编码成时间脉冲序列,并建立基于膜电压驱动的聚合标签学习模型进 行训练,利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别, 大幅提高了语音识别的准确性。
附图说明
图1是本发明的基于膜电压驱动的聚合标签学习模型的语音识别方法流程 示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于膜电压驱动的聚合标签学习模 型的语音识别方法,包括以下步骤S1至S4:
S1、获取口语数字语料数据集;
在本实施例中,本发明采用的数据集为口语数字语料库TIDIGIT,这也是最 广泛地用来验证语音识别算法的语音数据集。此数据集包含了离散的口语数字, 词库为11个英文单词(即从“zero”到“nine”的英文数字和“oh”)。说话人来 自于22个不同的英文方言地区。在实验中,本发明使用的标准的训练集和测试 集,分别包含了2464和2486个样本。
S2、采用神经阈值编码方法将步骤S1中的口语数字语料数据编码成时间脉 冲序列;
在本实施例中,本发明采用的神经阈值编码方法具体为:
将口语数字语料数据通过一个基于Constant-Q变换的耳蜗滤波器组,提取 得到频谱信息;本发明使用20个耳蜗滤波器,频率范围从200赫兹到8000赫 兹。假设一个语音信号波形x=[x1,x2,...,xN],长度为N,采样率16000赫兹。该 信号输入进耳蜗滤波器后,输出k=20路频谱信号:yk=[yk(1),yk(2),...,yk(N)], 每一路长度与x一样为N。最后长度为N的每一路频谱信号都经过取帧操作, 帧长为35毫秒,步长15毫秒。假设每一长度为l的帧窗中的频谱采样能量为 si,则每个帧的频谱能量e为:
Figure BDA0002315409740000071
取帧之后,可以获取原始语音信号的频谱图。
然后将获取的频谱信息通过神经阈值编码机制编码成时间脉冲序列。
神经阈值编码机制具体为:
当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发 放脉冲。而且,同一阈值但不同的穿越方向也对应着两个不同的编码神经元。
本发明中每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值;此外还有一个顶 峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲。因此,对于每一 段语音信号,使用(15×2+1)×20=620个神经元进行编码,由此获得一个有效 的稀疏时间脉冲模式。
S3、建立基于膜电压驱动的聚合标签学习模型,利用步骤S2得到的时间脉 冲序列对聚合标签学习模型进行训练;
在本实施例中,语音数据编码成具有时空信息的脉冲信号以后,利用基于 膜电压驱动的聚合标签学习模型进行学习。在学习层共有11组spiking神经元, 每一组对应一个语音类别,且每组包括10个神经元。当对应的语音输入到 spiking网络时,训练相应的那组神经元激发Nd脉冲,同时训练其余组的神经 元保持静默。
本发明采用基于电流的漏积分神经元模型,在该spiking神经元中,神经元 的膜电压用V(t)来表示。当没有脉冲输入时,神经元的膜电压处于静息电位Vrest=0。当有输入脉冲传递到神经元时,在其内部就会产生相应的PSP来改变膜电 压。随着时间的积累和连续的spike到达,如果膜电压V(t)的值达到激发阈值 θ,那么spiking神经元就会激发一个脉冲,并启动不应期函数。具体而言,神 经元的膜电压V(t)变化过程,可以表示成
Figure BDA0002315409740000081
其中
Figure BDA0002315409740000082
是第i个输入神经元激发的第j次脉冲,ωi是输入神经元i到输出 神经元的突触权重。
Figure BDA0002315409740000083
表示的是脉冲
Figure BDA0002315409740000084
产生的PSP随时间的变化
Figure BDA0002315409740000085
其中,PSP的形状由膜电压常数τm和突触时间常数τs共同决定。函数
Figure BDA0002315409740000086
只会考虑
Figure BDA0002315409740000087
的输入脉冲。V0是一个系数,用来使PSP函数的最 大值为1。上式最后一部分是不应期函数。其中,
Figure BDA0002315409740000088
是突触后spiking神经元的 第j次激发脉冲。
本发明利用基于膜电压驱动的聚合标签学习模型训练spiking神经元的权重, 使其可以激发目标脉冲个数。当spiking神经元实际激发脉冲个数No大于或者 小于目标激发脉冲个数Nd时,需要调整突触的权重。针对上面两种情况(Nd<No或者Nd>No),基于膜电压驱动的聚合标签学习模型包括两个学习过程:
(1)实际激发的脉冲个数少于目标个数Nd>No
当实际激发脉冲个数少于目标激发脉冲个数时,神经元的突触应该做增强 调整,直到实际脉冲个数和目标脉冲个数相同Nd=No。为了实现这个目标,首 先MPD-AL找到一个时刻点t*,t*时刻的神经元膜电压V(t*)是所有阈 下膜电压波峰中的最大值。然后利用梯度下降的方法调整权重,使得在t*时刻 的神经元膜电压V(t*)增加,直到达到阈值,产生一个新脉冲,构造误差函数:
Figure BDA0002315409740000091
依据梯度下降原理,可以得到以下的权重调整公式:
Figure BDA0002315409740000092
其中,λ1是决定调整幅度的学习率。由于V(t*)依赖于权重,并通过在时 刻点t*之前实际激发的脉冲
Figure BDA0002315409740000093
体现。因此,dV(t*)/dωi可 以表示成:
Figure BDA0002315409740000094
上式的最后一项对权重的调整没有贡献,因为V(t*)不是一个局部最大值 点
Figure BDA0002315409740000095
就是一个抑制性输入神经元脉冲到达的时刻。结合V(t)变 化过程,上式的第一部分可以表示成
Figure BDA0002315409740000096
对于上式的第二部分,利用链式法则可以得到
Figure BDA0002315409740000101
其中
Figure BDA0002315409740000102
Figure BDA0002315409740000103
可以按照如下方式求解
Figure BDA0002315409740000104
Figure BDA0002315409740000105
依据脉冲激发时刻膜电压和时间点的线性假设,可以得到
Figure BDA0002315409740000106
其中,
Figure BDA0002315409740000107
(2)实际激发的脉冲个数大于目标个数Nd<No
当spiking神经元实际激发脉冲个数大于目标激发个数时Nd<No,需要减 弱神经元的突触权重以减少实际激发的脉冲个数。为了降低其对学习结果的影 响,本发明在最后一个脉冲的激发时刻调整权重。这样可以最大程度地避免干 扰前面产生的脉冲。假定spiking神经元的最后一个脉冲激发时间是ts last,构造 误差函数:
Figure BDA0002315409740000111
利用梯度下降算法,可以得到以下权重调整公式:
Figure BDA0002315409740000112
其中,λ2是决定调整幅度的学习率。由于权重对V(ts last)影响也通过在最 后一个脉冲之前激发的脉冲ts j≤ts last,j∈{1,2,...,n}产生,因此,dV (ts last)dωi可以表示成:
Figure BDA0002315409740000113
利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练具体为:
根据步骤S2得到的不同语音类别的时间脉冲序列在学习层设置11组脉冲 神经元,其中每一组神经元对应一个语音类别,且每组包括多个神经元;输入 时间脉冲序列到聚合标签学习模型中,通过学习使其对应的一组神经元激发Nd个目标脉冲序列,同时训练其他组的神经元保持静默状态。
上述目标脉冲个数Nd采用基于数据驱动的解码方法进行设置,具体为:
如果膜电压V(t)低于激发阈值θ,且神经元没有激发脉冲,目标脉冲个数 设定为Nd=1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)高于预先设置好的 解码阈值θe,目标脉冲个数设定为Nd=No+1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)低于预先设置好的 解码阈值θe,目标脉冲个数设定为Nd=No
S4、利用步骤S3训练后的聚合标签学习模型对待检测口语数字语料数据进 行识别。
表1显示了不同方法在语音数据集TIDIGITS上的分类准确率。其中,本 发明所提出的MPD-AL算法和动态解码策略可以达到97.52%的分类准确率。 该结果要明显高于其余的神经拟态计算模型。另外,为了验证所提出的动态解 码策略的有效性,本发明也用固定目标激发次数Nd∈{1,2,3,4,5,6,7,8,9,10}训 练spiking神经元。在该方法下,当Nd=3时,所得到的准确率最高为95.35%。 该结果表明了动态解码策略的有效性。
表1不同算法在语音数据集TIDIGITS上的分类准确率
Figure BDA0002315409740000121
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理 解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和 实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种 不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明 的保护范围内。

Claims (8)

1.一种基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,包括以下步骤:
S1、获取口语数字语料数据集;
S2、采用神经阈值编码方法将步骤S1中的口语数字语料数据编码成时间脉冲序列;
S3、建立基于膜电压驱动的聚合标签学习模型,利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练;
S4、利用步骤S3训练后的聚合标签学习模型对待检测口语数字语料数据进行识别。
2.如权利要求1所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述步骤S2中,神经阈值编码方法具体为:
将口语数字语料数据通过一个基于Constant-Q变换的耳蜗滤波器组,提取得到频谱信息;
将获取的频谱信息通过神经阈值编码机制编码成时间脉冲序列。
3.如权利要求2所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述神经阈值编码机制具体为:
当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲;而且,同一阈值但不同的穿越方向也对应着两个不同的编码神经元。
4.如权利要求3所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述步骤S3中,基于膜电压驱动的聚合标签学习模型包括两个学习过程:当spiking神经元实际激发脉冲个数少于目标激发脉冲个数时,调整权重,使得在神经元膜电压增加,直到达到阈值,产生一个新脉冲;当spiking神经元实际激发脉冲个数大于目标激发个数时,减弱神经元的突触权重以减少实际激发的脉冲个数。
5.如权利要求4所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际激发脉冲个数小于目标激发脉冲个数时,假定所有阈下膜电压波峰中的最大神经元膜电压对应时刻为t*,构造误差函数:
Figure FDA0002315409730000021
权重调整公式:
Figure FDA0002315409730000022
其中,V(t*)为在t*时刻的神经元膜电压,θ为激发阈值,ωi为输入神经元i到输出神经元的突触权重,λ1为决定调整幅度的学习率。
6.如权利要求5所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际激发脉冲个数大于目标激发脉冲个数时,假定spiking神经元的最后一个脉冲激发时间是ts last,构造误差函数:
Figure FDA0002315409730000023
权重调整公式:
Figure FDA0002315409730000024
其中,λ2为决定调整幅度的学习率。
7.如权利要求6所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述步骤S3中,利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练具体为:
根据步骤S2得到的不同语音类别的时间脉冲序列设置对应组数量的脉冲神经元,其中每一组神经元对应一个语音类别,且每组包括多个神经元;输入时间脉冲序列到聚合标签学习模型中,通过学习使其对应的一组神经元激发Nd个目标脉冲序列,同时训练其他组的神经元保持静默状态。
8.如权利要求7所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,采用基于数据驱动的解码方法对目标脉冲个数Nd进行设置,具体为:
如果膜电压V(t)低于激发阈值θ,且神经元没有激发脉冲,目标脉冲个数设定为Nd=1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)高于预先设置好的解码阈值θe,目标脉冲个数设定为Nd=No+1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)低于预先设置好的解码阈值θe,目标脉冲个数设定为Nd=No
CN201911275334.9A 2019-12-12 2019-12-12 基于膜电压驱动的聚合标签学习模型的语音识别方法 Pending CN111091815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911275334.9A CN111091815A (zh) 2019-12-12 2019-12-12 基于膜电压驱动的聚合标签学习模型的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911275334.9A CN111091815A (zh) 2019-12-12 2019-12-12 基于膜电压驱动的聚合标签学习模型的语音识别方法

Publications (1)

Publication Number Publication Date
CN111091815A true CN111091815A (zh) 2020-05-01

Family

ID=70396275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911275334.9A Pending CN111091815A (zh) 2019-12-12 2019-12-12 基于膜电压驱动的聚合标签学习模型的语音识别方法

Country Status (1)

Country Link
CN (1) CN111091815A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529089A (zh) * 2020-12-18 2021-03-19 广东科学技术职业学院 基于仿生球周回路的气味识别方法、计算机装置及计算机可读存储介质
CN113408618A (zh) * 2021-06-18 2021-09-17 电子科技大学 一种基于R-Multi-parameter PBSNLR模型的图像分类方法
CN113838459A (zh) * 2021-11-25 2021-12-24 之江实验室 一种基于脉冲神经网络聚合标签学习的语音识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210563A (zh) * 2019-06-04 2019-09-06 北京大学 基于Spike cube SNN的图像脉冲数据时空信息学习及识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210563A (zh) * 2019-06-04 2019-09-06 北京大学 基于Spike cube SNN的图像脉冲数据时空信息学习及识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MALU ZHANG 等: "MPD-AL: An Efficient Membrane Potential Driven Aggregate-Label Learning Algorithm for Spiking Neurons", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
ZIHAN PAN 等: "An event-based cochlear filter temporal encoding scheme for speech signals", 《IN 2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
ZIHAN PAN 等: "Neural Population Coding for Effective Temporal Classification", 《2019INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529089A (zh) * 2020-12-18 2021-03-19 广东科学技术职业学院 基于仿生球周回路的气味识别方法、计算机装置及计算机可读存储介质
CN113408618A (zh) * 2021-06-18 2021-09-17 电子科技大学 一种基于R-Multi-parameter PBSNLR模型的图像分类方法
CN113408618B (zh) * 2021-06-18 2023-04-18 电子科技大学 一种基于R-Multi-parameter PBSNLR模型的图像分类方法
CN113838459A (zh) * 2021-11-25 2021-12-24 之江实验室 一种基于脉冲神经网络聚合标签学习的语音识别方法

Similar Documents

Publication Publication Date Title
US10923136B2 (en) Speech extraction method, system, and device based on supervised learning auditory attention
CN111091815A (zh) 基于膜电压驱动的聚合标签学习模型的语音识别方法
Tavanaei et al. A spiking network that learns to extract spike signatures from speech signals
EP0623914B1 (en) Speaker independent isolated word recognition system using neural networks
Zhang et al. Mpd-al: an efficient membrane potential driven aggregate-label learning algorithm for spiking neurons
CN105205448A (zh) 基于深度学习的文字识别模型训练方法和识别方法
Goodman et al. Spatiotemporal pattern recognition via liquid state machines
CN108304912A (zh) 一种运用抑制信号实现脉冲神经网络监督学习的系统和方法
WO1989002134A1 (en) Apparatus for pattern recognition
CN114266351A (zh) 基于无监督学习时间编码的脉冲神经网络训练方法及系统
CN116796207A (zh) 一种基于脉冲神经网络的自组织映射聚类方法
CN111310816B (zh) 基于无监督匹配追踪编码的仿脑架构图像识别方法
CN111046865A (zh) 基于膜电压驱动的spiking神经元监督学习模型的光学字符识别方法
CN115602156A (zh) 一种基于多突触连接光脉冲神经网络的语音识别方法
CN110874629A (zh) 基于兴奋性与抑制性stdp的储备池网络的结构优化方法
CN115273853A (zh) 一种基于仿生神经网络的语音识别系统与方法
Sadovsky et al. Speech command recognition based on convolutional spiking neural networks
CN113408611B (zh) 一种基于延迟机制的多层图像分类方法
CN113948067B (zh) 一种具有听觉高保真度特点的语音对抗样本修复方法
CN115879518A (zh) 一种基于ai芯片的任务处理方法和装置
CN114118378A (zh) 基于阈值自适应神经元的硬件友好stdp学习方法和系统
CN113838459A (zh) 一种基于脉冲神经网络聚合标签学习的语音识别方法
CN113947579A (zh) 一种针对图像目标探测神经网络的对抗样本检测方法
Amin Automated adaptive threshold-based feature extraction and learning for spiking neural networks
Ichishita et al. Performance evaluation of a temporal sequence learning spiking neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200501