CN113838459A - 一种基于脉冲神经网络聚合标签学习的语音识别方法 - Google Patents
一种基于脉冲神经网络聚合标签学习的语音识别方法 Download PDFInfo
- Publication number
- CN113838459A CN113838459A CN202111412834.XA CN202111412834A CN113838459A CN 113838459 A CN113838459 A CN 113838459A CN 202111412834 A CN202111412834 A CN 202111412834A CN 113838459 A CN113838459 A CN 113838459A
- Authority
- CN
- China
- Prior art keywords
- pulse
- neural network
- threshold
- neuron
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000002776 aggregation Effects 0.000 title claims abstract description 15
- 238000004220 aggregation Methods 0.000 title claims abstract description 15
- 210000004205 output neuron Anatomy 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims abstract description 4
- 210000002569 neuron Anatomy 0.000 claims description 31
- 239000012528 membrane Substances 0.000 claims description 14
- 230000005284 excitation Effects 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 6
- 210000000225 synapse Anatomy 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012421 spiking Methods 0.000 claims description 4
- 210000004556 brain Anatomy 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及语音信号处理领域,尤其涉及一种基于脉冲神经网络聚合标签学习的语音识别方法,包括以下步骤:步骤1:将快速时变的语音信号编码成为脉冲序列;步骤2:采用基于动态阈值的聚合标签学习算法训练双层脉冲神经网络;步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果。本发明实现方法简单,充分利用脉冲神经网络强大的时序信息处理能力和低功耗的特性,可以实时、准确的识别语音信号。
Description
技术领域
本发明涉及语音信号处理领域,尤其涉及一种基于脉冲神经网络聚合标签学习的语音识别方法。
背景技术
智能语音被誉为人工智能皇冠上的“明珠”,随着深度学习技术的突破,大数据技术以及自然语言理解能力的提升,带动了一波产业热潮,除了在教育、客服、电信等传统行业之外,还开辟出了车载、家居、医疗、智能硬件等语音技术应用新天地。目前,国内外几乎所有的科技巨头都相继进入了智能语音市场,国外有IBM的Watson、Google Now、苹果的Siri、微软的Cortana、Facebook的Message Platform、亚马逊的Aleax等,国内有阿里的天猫精灵、百度的度秘、腾讯的微信语音,以及科大讯飞、华为、小米、云知声、依图等基于深度神经网络技术的智能语音技术和产品。但是,随着用户需求的快速增长,基于深度网络模型的智能语音系统的弊端逐渐暴露出来,并且集中体现在以下三个方面:计算量大且设备功耗高,难以满足用户的实时性要求,基于云计算的语音服务难以保护用户隐私及数据安全。
脉冲神经网络作为类脑计算的核心领域,被誉为“第三代神经网络模型”,它能够有效模拟生物神经元之间信息随时间连续传递的动力系统。它的脉冲信息传递机制恰好可以弥补深度学习在模拟时间特性上的缺陷。此外,与传统的人工神经网络ANN相比,脉冲神经网络以异步的、事件驱动的方式进行工作,更易于在硬件上实现分布式计算与信息存储,具有低功耗和强大的时序信号处理能力。研究人员初步探索了基于脉冲神经网络SNN的智能语音处理模型并希望逐步改善现有语音信息处理系统所面临的问题。比如用自组织映射SOM先对原始音频数据提取特征,然后再进行脉冲编码,进而利用SNN网络对不同的语音信号进行分类。虽然基于SNN的智能语音识别有了初步的成果,但是目前所利用的SNN编码效果不好,学习算法低效,不能处理真实环境中复杂的语音数据。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于脉冲神经网络聚合标签学习的语音识别方法,其具体技术方案如下:
一种基于脉冲神经网络聚合标签学习的语音识别方法,包括以下步骤:
步骤1:将快速时变的语音信号编码成为脉冲序列;
步骤2:采用基于动态阈值的聚合标签学习算法训练双层脉冲神经网络;
步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果。
进一步的,所述步骤1通过以下子步骤来实现:
(1.1)原始的语音波形通过一个基于CQT:Constant-Q变换的耳蜗滤波器组,提取
得到频谱信息,具体的,设每一长度为的帧窗中的频谱采样能量为,则每个帧的频谱能
量为,则得到频谱图;然后,利用大脑听觉系统的采样机制,对于该频谱图进
行频域遮掩和时域遮掩;
(1.2)对于频谱图的M条频带,每一条频带的能量曲线都被单独编码成脉冲模式,当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲,而且,同一阈值但不同的穿越方向:从上往下或者从下往上,对应两个不同的编码神经元;
(1.3)将两种穿越方式整合在一起,获得一个有效的稀疏时间脉冲模式。
进一步的,所述步骤(1.3)具体为:
每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占 15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值,此外还有一个顶峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲,因此,对于每一段语音信号,使用(15×2 + 1)×M个神经元进行编码,由此获得一个有效的稀疏时间脉冲模式。
进一步的,所述步骤2通过以下子步骤来实现:
(2.1)如果当前的输出神经元和输入模式不对应且实际输出的脉冲个数大于目标
的输出个数,那么设计一个相对较小的值作为该神经元激发脉冲的阈值,在该阈值的情况
下,找到最后一个脉冲发放的时间,并且构建误差函数,其中,是在时
刻的膜电压,是激发脉冲的阈值;然后利用梯度下降的算法对权重进行更新,其中为学习率,是突触的权重;
(2.2)如果当前的输出神经元和输入模式对应且实际输出的脉冲个数小于目标的
输出个数,那么设计一个相对较大的值作为该神经元激发脉冲的阈值,在该阈值的情况下,
找到阈下膜电压的最大值,并且构建误差函数,其中在时刻的膜
电压,是激发脉冲的阈值,在然后利用梯度下降的算法对权重进行更新,其中为学习率,是突触的权重。
进一步的,所述步骤3通过以下子步骤来实现:
(3.1)如果有输出神经元发放脉冲,则选择发放脉冲最多的那个神经元所代表的语音类别;
(3.2)如果没有输出神经元发放脉冲,则选择阈下膜电压最大的那个神经元所代表的语音类别。
本发明的优点:
本发明实现方法简单,充分利用脉冲神经网络强大的时序信息处理能力和低功耗的特性,可以实时、准确的识别语音信号。
附图说明
图1是本发明实施例的语音信号编码流程中的原始语音信号经过CQT耳蜗滤波器组之后的频谱图示意图;
图2是本发明实施例的语音信号编码流程中的经过频率掩码和时域掩码后的频谱图示意图;
图3是本发明实施例的语音信号编码流程中的单个频带的编码过程示意图;
图4是本发明实施例的语音信号编码流程中的单个频带的脉冲编码结构示意图;
图5是本发明采用聚合标签学习算法的当实际输出的脉冲个数大于目标的输出个数时的膜电压变化曲线示意图;
图6是本发明采用聚合标签学习算法的当实际输出的脉冲个数小于目标的输出个数时的膜电压变化曲线示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
一种基于脉冲神经网络聚合标签学习的语音识别方法,包括以下步骤:
步骤1:如图1-4所示,将快速时变的语音信号编码成为脉冲序列;
具体的,通过以下子步骤实现:
(1.1)原始的语音波形通过一个基于CQT:Constant-Q变换的耳蜗滤波器组,提取
得到频谱信息。本发明实施例中使用20个耳蜗滤波器,频率范围从200赫兹到8000赫兹,采
样率 16000 赫兹。假设每一长度为的帧窗中的频谱采样能量为,则每个帧的频谱能量
为,这样就得到了频谱图;继而利用大脑听觉系统的采样机制,对于该频谱
图进行频域遮掩和时域遮掩,提高编码效率;
(1.2)对于频谱图的 20 条频带,每一条频带的能量曲线都被单独编码成脉冲模式。当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲。而且,同一阈值但不同的穿越方向:从上往下或者从下往上,对应两个不同的编码神经元;
(1.3)将两种穿越方式整合在一起,每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占 15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值;此外还有一个顶峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲。因此,对于每一段语音信号,使用(15×2 + 1)×20 = 620个神经元进行编码,由此获得一个有效的稀疏时间脉冲模式。
步骤2:采用聚合标签学习算法训练双层脉冲神经网络;
具体的,通过以下子步骤实现:
(2.1)如图5所示,如果当前的输出神经元和输入模式不对应且实际输出的脉冲个
数大于目标的输出个数,那么设计一个相对较小的值作为该神经元激发脉冲的阈值。在该
阈值的情况下,找到最后一个脉冲发放的时间,并且构建误差函数。其中,是在时刻的膜电压,是激发脉冲的阈值。然后利用梯度下降的算法对权重进行更
新,其中为学习率,是突触的权重。
(2.2)如图6所示,如果当前的输出神经元和输入模式对应且实际输出的脉冲个数
小于目标的输出个数,那么设计一个相对较大的值作为该神经元激发脉冲的阈值。在该阈
值的情况下,找到阈下膜电压的最大值,并且构建误差函数。其中
在时刻的膜电压,是激发脉冲的阈值。在然后利用梯度下降的算法对权重进行更新,其中为学习率,是突触的权重。
步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果;
具体的,通过以下子步骤实现:
(3.1)如果有输出神经元发放脉冲,则选择发放脉冲最多的那个神经元所代表的语音类别;
(3.2)如果没有输出神经元发放脉冲,则选择阈下膜电压最大的那个神经元所代表的语音类别。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,包括以下步骤:
步骤1:将快速时变的语音信号编码成为脉冲序列;
步骤2:采用基于动态阈值的聚合标签学习算法训练双层脉冲神经网络;
步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果;所述步骤3通过以下子步骤来实现:
(3.1)如果有输出神经元发放脉冲,则选择发放脉冲最多的那个神经元所代表的语音类别;
(3.2)如果没有输出神经元发放脉冲,则选择阈下膜电压最大的那个神经元所代表的语音类别。
2.如权利要求1所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤1通过以下子步骤来实现:
(1.1)原始的语音波形通过一个基于CQT:Constant-Q变换的耳蜗滤波器组,提取得到
频谱信息,具体的,设每一长度为的帧窗中的频谱采样能量为,则每个帧的频谱能量为,则得到频谱图;然后,利用大脑听觉系统的采样机制,对于该频谱图进行频
域遮掩和时域遮掩;
(1.2)对于频谱图的M条频带,每一条频带的能量曲线都被单独编码成脉冲模式,当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲,而且,同一阈值但不同的穿越方向:从上往下或者从下往上,对应两个不同的编码神经元;
(1.3)将两种穿越方式整合在一起,获得一个有效的稀疏时间脉冲模式。
3.根据权利要求2所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤(1.3)具体为:
每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占 15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值,此外还有一个顶峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲,因此,对于每一段语音信号,使用(15×2 + 1)×M个神经元进行编码,由此获得一个有效的稀疏时间脉冲模式。
4.根据权利要求1所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤2通过以下子步骤来实现:
(2.1)如果当前的输出神经元和输入模式不对应且实际输出的脉冲个数大于目标的输
出个数,那么设计一个相对较小的值作为该神经元激发脉冲的阈值,在该阈值的情况下,找
到最后一个脉冲发放的时间,并且构建误差函数,其中,是在时刻的
膜电压,是激发脉冲的阈值;然后利用梯度下降的算法对权重进行更新,其中为学习率,是突触的权重;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111412834.XA CN113838459A (zh) | 2021-11-25 | 2021-11-25 | 一种基于脉冲神经网络聚合标签学习的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111412834.XA CN113838459A (zh) | 2021-11-25 | 2021-11-25 | 一种基于脉冲神经网络聚合标签学习的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113838459A true CN113838459A (zh) | 2021-12-24 |
Family
ID=78971381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111412834.XA Pending CN113838459A (zh) | 2021-11-25 | 2021-11-25 | 一种基于脉冲神经网络聚合标签学习的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838459A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273853A (zh) * | 2022-07-11 | 2022-11-01 | 北京理工大学 | 一种基于仿生神经网络的语音识别系统与方法 |
CN115825853A (zh) * | 2023-02-14 | 2023-03-21 | 深圳时识科技有限公司 | 声源定向方法及其装置、声源分离及跟踪方法和芯片 |
WO2024152583A1 (zh) * | 2023-01-16 | 2024-07-25 | 之江实验室 | 一种面向硬件的深度脉冲神经网络语音识别方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710770A (zh) * | 2018-05-31 | 2018-10-26 | 杭州电子科技大学 | 一种面向多脉冲神经网络监督学习的精确突触调整方法 |
US20200026981A1 (en) * | 2018-04-17 | 2020-01-23 | Hrl Laboratories, Llc | Spiking neural network for probabilistic computation |
CN111091815A (zh) * | 2019-12-12 | 2020-05-01 | 电子科技大学 | 基于膜电压驱动的聚合标签学习模型的语音识别方法 |
CN113160823A (zh) * | 2021-05-26 | 2021-07-23 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
-
2021
- 2021-11-25 CN CN202111412834.XA patent/CN113838459A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200026981A1 (en) * | 2018-04-17 | 2020-01-23 | Hrl Laboratories, Llc | Spiking neural network for probabilistic computation |
CN108710770A (zh) * | 2018-05-31 | 2018-10-26 | 杭州电子科技大学 | 一种面向多脉冲神经网络监督学习的精确突触调整方法 |
CN111091815A (zh) * | 2019-12-12 | 2020-05-01 | 电子科技大学 | 基于膜电压驱动的聚合标签学习模型的语音识别方法 |
CN113160823A (zh) * | 2021-05-26 | 2021-07-23 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
张马路: "Spiking机器学习算法研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273853A (zh) * | 2022-07-11 | 2022-11-01 | 北京理工大学 | 一种基于仿生神经网络的语音识别系统与方法 |
WO2024152583A1 (zh) * | 2023-01-16 | 2024-07-25 | 之江实验室 | 一种面向硬件的深度脉冲神经网络语音识别方法和系统 |
CN115825853A (zh) * | 2023-02-14 | 2023-03-21 | 深圳时识科技有限公司 | 声源定向方法及其装置、声源分离及跟踪方法和芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113838459A (zh) | 一种基于脉冲神经网络聚合标签学习的语音识别方法 | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
US20220004870A1 (en) | Speech recognition method and apparatus, and neural network training method and apparatus | |
CN109065030A (zh) | 基于卷积神经网络的环境声音识别方法及系统 | |
CN107481717B (zh) | 一种声学模型训练方法及系统 | |
CN110136731A (zh) | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 | |
CN105139864B (zh) | 语音识别方法和装置 | |
Gabor | Communication theory and cybernetics | |
CN106357456B (zh) | 一种网络流量的预测方法及装置 | |
KR20160032536A (ko) | 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 | |
CN109766424A (zh) | 一种阅读理解模型训练数据的过滤方法及装置 | |
CN110533570A (zh) | 一种基于深度学习的通用隐写方法 | |
CN110310666A (zh) | 一种基于se卷积网络的乐器识别方法及系统 | |
CN109767776A (zh) | 一种基于密集神经网络的欺骗语音检测方法 | |
Beckmann et al. | Speech-vgg: A deep feature extractor for speech processing | |
CN113763966B (zh) | 一种端到端的文本无关声纹识别方法及系统 | |
King et al. | Shannon, TESPAR and approximation strategies | |
CN110930995A (zh) | 一种应用于电力行业的语音识别模型 | |
CN116229960B (zh) | 欺骗性语音鲁棒检测方法、系统、介质及设备 | |
Jindal et al. | SpeechMix-Augmenting Deep Sound Recognition Using Hidden Space Interpolations. | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
Thomas et al. | Acoustic and data-driven features for robust speech activity detection | |
Boloursaz et al. | Secure data over GSM based on algebraic codebooks | |
CN117116287A (zh) | 一种基于多粒度计算的音频场景识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211224 |
|
RJ01 | Rejection of invention patent application after publication |