CN111091815A - 基于膜电压驱动的聚合标签学习模型的语音识别方法 - Google Patents
基于膜电压驱动的聚合标签学习模型的语音识别方法 Download PDFInfo
- Publication number
- CN111091815A CN111091815A CN201911275334.9A CN201911275334A CN111091815A CN 111091815 A CN111091815 A CN 111091815A CN 201911275334 A CN201911275334 A CN 201911275334A CN 111091815 A CN111091815 A CN 111091815A
- Authority
- CN
- China
- Prior art keywords
- learning model
- membrane voltage
- neurons
- pulse
- pulses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000012528 membrane Substances 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002776 aggregation Effects 0.000 title claims abstract description 23
- 238000004220 aggregation Methods 0.000 title claims abstract description 23
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000001537 neural effect Effects 0.000 claims abstract description 15
- 210000002569 neuron Anatomy 0.000 claims description 93
- 230000005284 excitation Effects 0.000 claims description 44
- 238000012421 spiking Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 11
- 238000006116 polymerization reaction Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000000946 synaptic effect Effects 0.000 claims description 8
- 238000010304 firing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 210000002364 input neuron Anatomy 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 210000004205 output neuron Anatomy 0.000 claims description 3
- 230000003313 weakening effect Effects 0.000 claims description 2
- 229920000642 polymer Polymers 0.000 claims 3
- 230000000875 corresponding effect Effects 0.000 description 9
- 210000000225 synapse Anatomy 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- NQHVJMJEWQQXBS-UHFFFAOYSA-N 4-ethoxybenzene-1,3-diamine Chemical compound CCOC1=CC=C(N)C=C1N NQHVJMJEWQQXBS-UHFFFAOYSA-N 0.000 description 2
- 101000760764 Homo sapiens Tyrosyl-DNA phosphodiesterase 1 Proteins 0.000 description 2
- 101000760781 Homo sapiens Tyrosyl-DNA phosphodiesterase 2 Proteins 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 102100024579 Tyrosyl-DNA phosphodiesterase 1 Human genes 0.000 description 2
- 102100024578 Tyrosyl-DNA phosphodiesterase 2 Human genes 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 244000062645 predators Species 0.000 description 2
- 230000036279 refractory period Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010047924 Wheezing Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000001242 postsynaptic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于膜电压驱动的聚合标签学习模型的语音识别方法,该方法包括获取口语数字语料数据集,采用神经阈值编码方法将口语数字语料数据编码成时间脉冲序列,建立基于膜电压驱动的聚合标签学习模型并进行训练,利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别。本发明通过采用神经阈值编码方法将口语数字语料数据编码成时间脉冲序列,并建立基于膜电压驱动的聚合标签学习模型进行训练,利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别,大幅提高了语音识别的准确性。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种基于膜电压驱动的聚合标签 学习模型的语音识别方法。
背景技术
生物个体的生存很大程度上依赖于它如何利用有益环境和规避危险环境。 在动物的实际生存环境中,在很多危险发生之前都会出现很多警告信息。比如, 当一个捕食者接近猎物时,它的脚步声,喘息声,以及气味等感官信息都是危 险发生前的预警信息。如果猎物在捕食者的攻击下幸存下来,猎物就会从这次 被攻击的经历中学习到这些危险的预警信息,从而更好地在自然中生存。人类 和动物擅长这种学习:将感知到的相关信息和一段时间后发生的事情关联起来。 但是,神经系统通过何种机制进行这种学习依旧没有明确的定论。为了解决这 个问题,研究人员提出了许多基于spiking机制的学习算法,按照其控制神经元 个数的多少可以分为单脉冲学习算法和多脉冲学习算法。
在单脉冲学习算法中,Tempotron学习算法是最典型的一种。当正样本输入 到spiking神经网络中,调整神经元突触的权重使得该神经元激发一个脉冲。反 之,当负样本输入到spiking神经网络中,神经元的突触会做出相应的调整直到 神经元不激发脉冲。Rank-Order是另一种单脉冲学习算法,通过输入脉冲到达 spiking神经元的时间顺序来更新权重。训练完成以后,在测试阶段,通过最早 的激发脉冲来决定输入样本类别。此外,SpikeProp算法把基于梯度下降的BP学 习算法应用到spiking神经网络。通过构造基于目标激发时刻和实际激发时刻的 误差函数,经过SpikeProp学习算法训练以后的神经元可以在目标时刻激发一个 脉冲。
尽管单脉冲的spiking学习算法已经取得了广泛应用。但只能控制一个脉冲 限制了其对信息的处理能力和应用范围。特别地,单脉冲学习算法对脉冲激发 以后的输入脉冲不做处理,因此,单脉冲spiking学习算法只能捕捉到局部的时 序信息。为了克服这个缺点,研究人员提出了基于spiking机制的多脉冲学习算 法。
Remote Supervised Method(ReSuMe)学习算法是一种典型的多脉冲学习 算法。在ReSuMe学习算法中,依据输入脉冲和目标激发时刻用spike time-dependentplasticity(STDP)规则增加权重。同时,依据输入脉冲和实际激 发脉冲时刻用anti-STDP规则减弱突触权重。Chronotron E-learning[34]和Spike Pattern AssociationNeuron(SPAN)学习算法把目标激发脉冲时刻和实际激发脉 冲时刻转化成模拟量,然后基于连续时间代价函数去最小化实际输出与目标输 出之间的差距。最近,研究人员也提出了几种基于膜电压驱动的多脉冲学习算 法,比如PBSNLR,HTP和EMPD。在这些算法中权重依据spiking神经元的膜电压和激发阈值之间的差异进行调整。实验结果表明其学习性能要优于ReSuMe 和SPAN学习算法。但是PBSNLR,HTP和EMPD等学习算法要求spiking神 经元在目标激发时刻,无论膜电压是否达到激发阈值都让神经元的膜电压恢复 到静息电位,同时在非目标激发时刻,即使神经元的膜电压达到阈值也不可以 激发脉冲。显然,这些算法的特殊要求和生物神经元的运行机制相悖。
为了预测危险,当线索出现时,线索探测神经元应该激发脉冲;同时,当 线索没有出现时,线索探测神经元应该保持静默。如果已知线索出现的时间, 那么前面提到的学习算法都可以用来学习线索。但是,通常情况下,线索发生 的时间是未知的。为了解决这个问题,德国科学家提出了命名为Multi-Spike Tempotron(MST)的聚合标签(Aggregate-Label)学习算法。该算法可以有效 地训练spiking神经元激发目标脉冲个数,而不考虑脉冲激发的具体时间。MST 学习算法把目标激发脉冲个数和实际激发脉冲个数的误差转变成激发阈值θ和 假定激发阈值θ*之间的误差。这种转化虽然解决了误差函数的构造问题,但是 也使得突触权重的训练变得间接和复杂。同时在每个迭代过程中,求解θ*也是 一个非常耗时的步骤。为了缓解Multi-Spike Tempotron学习算法效率低下的问 题,TDP1和TDP2学习算法试图提高聚合标签学习算法的效率。但是,由于TDP1 和TDP2学习算法仍然是基于阈值驱动的,不可避免地要在每个学习周期中对 θ*尽心求解。因此,现有聚合标签学习算法的效率仍然是一个大问题。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于膜电压驱动的聚合标 签学习模型的语音识别方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种基于膜电压驱动的聚合标签学习模型的语音识别方法,包括以下步骤:
S1、获取口语数字语料数据集;
S2、采用神经阈值编码方法将步骤S1中的口语数字语料数据编码成时间脉 冲序列;
S3、建立基于膜电压驱动的聚合标签学习模型,利用步骤S2得到的时间脉 冲序列对聚合标签学习模型进行训练;
S4、利用步骤S3训练后的聚合标签学习模型对待检测口语数字语料数据进 行识别。
进一步地,所述步骤S2中,神经阈值编码方法具体为:
将口语数字语料数据通过一个基于Constant-Q变换的耳蜗滤波器组,提取 得到频谱信息;
将获取的频谱信息通过神经阈值编码机制编码成时间脉冲序列。
进一步地,所述神经阈值编码机制具体为:
当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发 放脉冲。而且,同一阈值但不同的穿越方向也对应着两个不同的编码神经元。
进一步地,所述步骤S3中,基于膜电压驱动的聚合标签学习模型包括两个 学习过程:当spiking神经元实际激发脉冲个数少于目标激发脉冲个数时,调整 权重,使得在神经元膜电压增加,直到达到阈值,产生一个新脉冲;当spiking神 经元实际激发脉冲个数大于目标激发个数时,减弱神经元的突触权重以减少实 际激发的脉冲个数。
进一步地,所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际 激发脉冲个数小于目标激发脉冲个数时,假定所有阈下膜电压波峰中的最大神 经元膜电压对应时刻为t*,构造误差函数:
权重调整公式:
其中,V(t*)为在t*时刻的神经元膜电压,θ为激发阈值,ωi为输入神经元i到 输出神经元的突触权重,λ1为决定调整幅度的学习率。
进一步地,所述基于膜电压驱动的聚合标签学习模型在spiking神经元实际 激发脉冲个数大于目标激发脉冲个数时,假定spiking神经元的最后一个脉冲激 发时间是ts last,构造误差函数:
权重调整公式:
其中,λ2是决定调整幅度的学习率。
进一步地,所述步骤S3中,利用步骤S2得到的时间脉冲序列对聚合标签 学习模型进行训练具体为:
根据步骤S2得到的不同语音类别的时间脉冲序列设置对应组数量的脉冲神 经元,其中每一组神经元对应一个语音类别,且每组包括多个神经元;输入时 间脉冲序列到聚合标签学习模型中,通过学习使其对应的一组神经元激发Nd个 目标脉冲序列,同时训练其他组的神经元保持静默状态。
进一步地,采用基于数据驱动的解码方法对目标脉冲个数Nd进行设置,具 体为:
如果膜电压V(t)低于激发阈值θ,且神经元没有激发脉冲,目标脉冲个数 设定为Nd=1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)高于预先设置好的 解码阈值θe,目标脉冲个数设定为Nd=No+1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)低于预先设置好的 解码阈值θe,目标脉冲个数设定为Nd=No。
本发明具有以下有益效果:本发明通过采用神经阈值编码方法将口语数字 语料数据编码成时间脉冲序列,并建立基于膜电压驱动的聚合标签学习模型进 行训练,利用训练后的聚合标签学习模型对待检测口语数字语料数据进行识别, 大幅提高了语音识别的准确性。
附图说明
图1是本发明的基于膜电压驱动的聚合标签学习模型的语音识别方法流程 示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于膜电压驱动的聚合标签学习模 型的语音识别方法,包括以下步骤S1至S4:
S1、获取口语数字语料数据集;
在本实施例中,本发明采用的数据集为口语数字语料库TIDIGIT,这也是最 广泛地用来验证语音识别算法的语音数据集。此数据集包含了离散的口语数字, 词库为11个英文单词(即从“zero”到“nine”的英文数字和“oh”)。说话人来 自于22个不同的英文方言地区。在实验中,本发明使用的标准的训练集和测试 集,分别包含了2464和2486个样本。
S2、采用神经阈值编码方法将步骤S1中的口语数字语料数据编码成时间脉 冲序列;
在本实施例中,本发明采用的神经阈值编码方法具体为:
将口语数字语料数据通过一个基于Constant-Q变换的耳蜗滤波器组,提取 得到频谱信息;本发明使用20个耳蜗滤波器,频率范围从200赫兹到8000赫 兹。假设一个语音信号波形x=[x1,x2,...,xN],长度为N,采样率16000赫兹。该 信号输入进耳蜗滤波器后,输出k=20路频谱信号:yk=[yk(1),yk(2),...,yk(N)], 每一路长度与x一样为N。最后长度为N的每一路频谱信号都经过取帧操作, 帧长为35毫秒,步长15毫秒。假设每一长度为l的帧窗中的频谱采样能量为 si,则每个帧的频谱能量e为:
取帧之后,可以获取原始语音信号的频谱图。
然后将获取的频谱信息通过神经阈值编码机制编码成时间脉冲序列。
神经阈值编码机制具体为:
当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发 放脉冲。而且,同一阈值但不同的穿越方向也对应着两个不同的编码神经元。
本发明中每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值;此外还有一个顶 峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲。因此,对于每一 段语音信号,使用(15×2+1)×20=620个神经元进行编码,由此获得一个有效 的稀疏时间脉冲模式。
S3、建立基于膜电压驱动的聚合标签学习模型,利用步骤S2得到的时间脉 冲序列对聚合标签学习模型进行训练;
在本实施例中,语音数据编码成具有时空信息的脉冲信号以后,利用基于 膜电压驱动的聚合标签学习模型进行学习。在学习层共有11组spiking神经元, 每一组对应一个语音类别,且每组包括10个神经元。当对应的语音输入到 spiking网络时,训练相应的那组神经元激发Nd脉冲,同时训练其余组的神经 元保持静默。
本发明采用基于电流的漏积分神经元模型,在该spiking神经元中,神经元 的膜电压用V(t)来表示。当没有脉冲输入时,神经元的膜电压处于静息电位Vrest=0。当有输入脉冲传递到神经元时,在其内部就会产生相应的PSP来改变膜电 压。随着时间的积累和连续的spike到达,如果膜电压V(t)的值达到激发阈值 θ,那么spiking神经元就会激发一个脉冲,并启动不应期函数。具体而言,神 经元的膜电压V(t)变化过程,可以表示成
其中,PSP的形状由膜电压常数τm和突触时间常数τs共同决定。函数 只会考虑的输入脉冲。V0是一个系数,用来使PSP函数的最 大值为1。上式最后一部分是不应期函数。其中,是突触后spiking神经元的 第j次激发脉冲。
本发明利用基于膜电压驱动的聚合标签学习模型训练spiking神经元的权重, 使其可以激发目标脉冲个数。当spiking神经元实际激发脉冲个数No大于或者 小于目标激发脉冲个数Nd时,需要调整突触的权重。针对上面两种情况(Nd<No或者Nd>No),基于膜电压驱动的聚合标签学习模型包括两个学习过程:
(1)实际激发的脉冲个数少于目标个数Nd>No
当实际激发脉冲个数少于目标激发脉冲个数时,神经元的突触应该做增强 调整,直到实际脉冲个数和目标脉冲个数相同Nd=No。为了实现这个目标,首 先MPD-AL找到一个时刻点t*,t*时刻的神经元膜电压V(t*)是所有阈 下膜电压波峰中的最大值。然后利用梯度下降的方法调整权重,使得在t*时刻 的神经元膜电压V(t*)增加,直到达到阈值,产生一个新脉冲,构造误差函数:
依据梯度下降原理,可以得到以下的权重调整公式:
对于上式的第二部分,利用链式法则可以得到
依据脉冲激发时刻膜电压和时间点的线性假设,可以得到
其中,
(2)实际激发的脉冲个数大于目标个数Nd<No
当spiking神经元实际激发脉冲个数大于目标激发个数时Nd<No,需要减 弱神经元的突触权重以减少实际激发的脉冲个数。为了降低其对学习结果的影 响,本发明在最后一个脉冲的激发时刻调整权重。这样可以最大程度地避免干 扰前面产生的脉冲。假定spiking神经元的最后一个脉冲激发时间是ts last,构造 误差函数:
利用梯度下降算法,可以得到以下权重调整公式:
其中,λ2是决定调整幅度的学习率。由于权重对V(ts last)影响也通过在最 后一个脉冲之前激发的脉冲ts j≤ts last,j∈{1,2,...,n}产生,因此,dV (ts last)dωi可以表示成:
利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练具体为:
根据步骤S2得到的不同语音类别的时间脉冲序列在学习层设置11组脉冲 神经元,其中每一组神经元对应一个语音类别,且每组包括多个神经元;输入 时间脉冲序列到聚合标签学习模型中,通过学习使其对应的一组神经元激发Nd个目标脉冲序列,同时训练其他组的神经元保持静默状态。
上述目标脉冲个数Nd采用基于数据驱动的解码方法进行设置,具体为:
如果膜电压V(t)低于激发阈值θ,且神经元没有激发脉冲,目标脉冲个数 设定为Nd=1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)高于预先设置好的 解码阈值θe,目标脉冲个数设定为Nd=No+1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)低于预先设置好的 解码阈值θe,目标脉冲个数设定为Nd=No。
S4、利用步骤S3训练后的聚合标签学习模型对待检测口语数字语料数据进 行识别。
表1显示了不同方法在语音数据集TIDIGITS上的分类准确率。其中,本 发明所提出的MPD-AL算法和动态解码策略可以达到97.52%的分类准确率。 该结果要明显高于其余的神经拟态计算模型。另外,为了验证所提出的动态解 码策略的有效性,本发明也用固定目标激发次数Nd∈{1,2,3,4,5,6,7,8,9,10}训 练spiking神经元。在该方法下,当Nd=3时,所得到的准确率最高为95.35%。 该结果表明了动态解码策略的有效性。
表1不同算法在语音数据集TIDIGITS上的分类准确率
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理 解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和 实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种 不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明 的保护范围内。
Claims (8)
1.一种基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,包括以下步骤:
S1、获取口语数字语料数据集;
S2、采用神经阈值编码方法将步骤S1中的口语数字语料数据编码成时间脉冲序列;
S3、建立基于膜电压驱动的聚合标签学习模型,利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练;
S4、利用步骤S3训练后的聚合标签学习模型对待检测口语数字语料数据进行识别。
2.如权利要求1所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述步骤S2中,神经阈值编码方法具体为:
将口语数字语料数据通过一个基于Constant-Q变换的耳蜗滤波器组,提取得到频谱信息;
将获取的频谱信息通过神经阈值编码机制编码成时间脉冲序列。
3.如权利要求2所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述神经阈值编码机制具体为:
当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲;而且,同一阈值但不同的穿越方向也对应着两个不同的编码神经元。
4.如权利要求3所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述步骤S3中,基于膜电压驱动的聚合标签学习模型包括两个学习过程:当spiking神经元实际激发脉冲个数少于目标激发脉冲个数时,调整权重,使得在神经元膜电压增加,直到达到阈值,产生一个新脉冲;当spiking神经元实际激发脉冲个数大于目标激发个数时,减弱神经元的突触权重以减少实际激发的脉冲个数。
7.如权利要求6所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,所述步骤S3中,利用步骤S2得到的时间脉冲序列对聚合标签学习模型进行训练具体为:
根据步骤S2得到的不同语音类别的时间脉冲序列设置对应组数量的脉冲神经元,其中每一组神经元对应一个语音类别,且每组包括多个神经元;输入时间脉冲序列到聚合标签学习模型中,通过学习使其对应的一组神经元激发Nd个目标脉冲序列,同时训练其他组的神经元保持静默状态。
8.如权利要求7所述的基于膜电压驱动的聚合标签学习模型的语音识别方法,其特征在于,采用基于数据驱动的解码方法对目标脉冲个数Nd进行设置,具体为:
如果膜电压V(t)低于激发阈值θ,且神经元没有激发脉冲,目标脉冲个数设定为Nd=1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)高于预先设置好的解码阈值θe,目标脉冲个数设定为Nd=No+1;
如果spiking神经元已经激发了No个脉冲,同时V(t*)低于预先设置好的解码阈值θe,目标脉冲个数设定为Nd=No。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275334.9A CN111091815A (zh) | 2019-12-12 | 2019-12-12 | 基于膜电压驱动的聚合标签学习模型的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275334.9A CN111091815A (zh) | 2019-12-12 | 2019-12-12 | 基于膜电压驱动的聚合标签学习模型的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091815A true CN111091815A (zh) | 2020-05-01 |
Family
ID=70396275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911275334.9A Pending CN111091815A (zh) | 2019-12-12 | 2019-12-12 | 基于膜电压驱动的聚合标签学习模型的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091815A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529089A (zh) * | 2020-12-18 | 2021-03-19 | 广东科学技术职业学院 | 基于仿生球周回路的气味识别方法、计算机装置及计算机可读存储介质 |
CN113408618A (zh) * | 2021-06-18 | 2021-09-17 | 电子科技大学 | 一种基于R-Multi-parameter PBSNLR模型的图像分类方法 |
CN113838459A (zh) * | 2021-11-25 | 2021-12-24 | 之江实验室 | 一种基于脉冲神经网络聚合标签学习的语音识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210563A (zh) * | 2019-06-04 | 2019-09-06 | 北京大学 | 基于Spike cube SNN的图像脉冲数据时空信息学习及识别方法 |
-
2019
- 2019-12-12 CN CN201911275334.9A patent/CN111091815A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210563A (zh) * | 2019-06-04 | 2019-09-06 | 北京大学 | 基于Spike cube SNN的图像脉冲数据时空信息学习及识别方法 |
Non-Patent Citations (3)
Title |
---|
MALU ZHANG 等: "MPD-AL: An Efficient Membrane Potential Driven Aggregate-Label Learning Algorithm for Spiking Neurons", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
ZIHAN PAN 等: "An event-based cochlear filter temporal encoding scheme for speech signals", 《IN 2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 * |
ZIHAN PAN 等: "Neural Population Coding for Effective Temporal Classification", 《2019INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529089A (zh) * | 2020-12-18 | 2021-03-19 | 广东科学技术职业学院 | 基于仿生球周回路的气味识别方法、计算机装置及计算机可读存储介质 |
CN113408618A (zh) * | 2021-06-18 | 2021-09-17 | 电子科技大学 | 一种基于R-Multi-parameter PBSNLR模型的图像分类方法 |
CN113408618B (zh) * | 2021-06-18 | 2023-04-18 | 电子科技大学 | 一种基于R-Multi-parameter PBSNLR模型的图像分类方法 |
CN113838459A (zh) * | 2021-11-25 | 2021-12-24 | 之江实验室 | 一种基于脉冲神经网络聚合标签学习的语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10923136B2 (en) | Speech extraction method, system, and device based on supervised learning auditory attention | |
CN111091815A (zh) | 基于膜电压驱动的聚合标签学习模型的语音识别方法 | |
Tavanaei et al. | A spiking network that learns to extract spike signatures from speech signals | |
EP0623914B1 (en) | Speaker independent isolated word recognition system using neural networks | |
Zhang et al. | Mpd-al: an efficient membrane potential driven aggregate-label learning algorithm for spiking neurons | |
CN105205448A (zh) | 基于深度学习的文字识别模型训练方法和识别方法 | |
Goodman et al. | Spatiotemporal pattern recognition via liquid state machines | |
CN108304912A (zh) | 一种运用抑制信号实现脉冲神经网络监督学习的系统和方法 | |
WO1989002134A1 (en) | Apparatus for pattern recognition | |
CN114266351A (zh) | 基于无监督学习时间编码的脉冲神经网络训练方法及系统 | |
CN116796207A (zh) | 一种基于脉冲神经网络的自组织映射聚类方法 | |
CN111310816B (zh) | 基于无监督匹配追踪编码的仿脑架构图像识别方法 | |
CN111046865A (zh) | 基于膜电压驱动的spiking神经元监督学习模型的光学字符识别方法 | |
CN115602156A (zh) | 一种基于多突触连接光脉冲神经网络的语音识别方法 | |
CN110874629A (zh) | 基于兴奋性与抑制性stdp的储备池网络的结构优化方法 | |
CN115273853A (zh) | 一种基于仿生神经网络的语音识别系统与方法 | |
Sadovsky et al. | Speech command recognition based on convolutional spiking neural networks | |
CN113408611B (zh) | 一种基于延迟机制的多层图像分类方法 | |
CN113948067B (zh) | 一种具有听觉高保真度特点的语音对抗样本修复方法 | |
CN115879518A (zh) | 一种基于ai芯片的任务处理方法和装置 | |
CN114118378A (zh) | 基于阈值自适应神经元的硬件友好stdp学习方法和系统 | |
CN113838459A (zh) | 一种基于脉冲神经网络聚合标签学习的语音识别方法 | |
CN113947579A (zh) | 一种针对图像目标探测神经网络的对抗样本检测方法 | |
Amin | Automated adaptive threshold-based feature extraction and learning for spiking neural networks | |
Ichishita et al. | Performance evaluation of a temporal sequence learning spiking neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200501 |