CN116994573A - 一种基于脉冲神经网络的端到端语音识别方法与系统 - Google Patents
一种基于脉冲神经网络的端到端语音识别方法与系统 Download PDFInfo
- Publication number
- CN116994573A CN116994573A CN202310552616.9A CN202310552616A CN116994573A CN 116994573 A CN116994573 A CN 116994573A CN 202310552616 A CN202310552616 A CN 202310552616A CN 116994573 A CN116994573 A CN 116994573A
- Authority
- CN
- China
- Prior art keywords
- module
- layer
- attention
- self
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 43
- 210000002569 neuron Anatomy 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 239000012528 membrane Substances 0.000 claims description 3
- 230000000284 resting effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000012952 Resampling Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000005284 excitation Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000004134 energy conservation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
一种基于脉冲神经网络进行端到端语音识别的方法,包括语音数据预处理、训练具有自注意力的卷积脉冲神经网络和预处理后的语音数据输入训练好的脉冲神经网络进行识别三个步骤,脉冲神经元模型使用多个时间步长的LIF神经元模型,提出针对自注意力的卷积脉冲神经网络结构。本方法更多地结合生物特性,能有效降低神经网络的计算量,在大规模语音数据集能更准确地识别出文本内容。
Description
技术领域
本发明属于人工智能和语音识别技术领域,特别涉及一种基于脉冲神经网络的端到端语音识别方法与系统。
背景技术
目前移动端、便携式的计算平台在日常工作、学习和研究中已经占据了重要的位置,更简洁、有效的交互方式也得以广泛应用在实际生活中。语音识别技术是将人类语音中的词汇转化为计算机可读的文本,也就是语音转文本的过程。传统的语音识别是先通过声学模型先将语音内容转化为音素,再通过语言模型转化为文本。端到端的语音识别框架可以直接将语音转化为文本,并且可以直接训练。绝大多数的电子产品上,都配有语音识别的交互功能,人们可以直接说出自己想要做的内容或想查询的内容来让计算机去执行相应的程序,相比于键盘、鼠标、触摸屏等交互方式更友好、更高效也更便利。特别是智能音箱、智能电视、智能冰箱等智能家电出现在越来越多的家庭中,语音识别将会是未来最有希望的人机交互接口之一。然而,语音识别技术也还存在不足,尤其是在有限的计算资源和大词汇等场景下。
Transformer结构考虑了生物上的注意力机制,最早应用在自然语言处理领域,将当时神经网络模型的效果大幅提高。之后,其他领域的研究者也开始使用Transformer模型进行研究,并提出了一系列相应的优化方法。针对Transformer全局建模的特性,国外研究者将卷积的局部建模特性与Transformer相结合,提出了同时兼顾全局和局部特征的Conformer结构,并将其应用在语音识别领域,达到了很高的识别准确率,尤其是针对大规模数据集有更好的效果。但Conformer模型层数过多,模型参数量大,训练成本和难度也较大。
脉冲神经网络被誉为第三代神经网络,其设计原理上更注重仿生,比传统人工神经网络有更强的生物相似性,常用在类脑模拟仿真的相关研究中。由于脉冲神经网络节能、高效的优点,使得目前越来越多的研究者开始尝试在一些模式识别任务上用脉冲神经网络替代传统的人工神经网络。然而,现有的脉冲神经网络在图像、语音识别等领域效果还不及人工神经网络。特别是在语音识别领域,脉冲神经网络还都只应用在小的数据集上,在大规模语音数据集上的效果还亟待提升。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于脉冲神经网络的端到端语音识别方法与系统,充分利用脉冲神经网络高效、节能的特点,解决脉冲神经网络在大规模语音识别场景下的应用,并大大提高了端到端语音识别的速度和精确度。
为了实现上述目的,本发明采用的技术方案是:
一种基于脉冲神经网络的端到端语音识别方法,包括如下步骤:
步骤1:语音数据预处理,包括:对原始语音数据进行特征提取、特征增强后,进行上采样,最后进行相对位置编码;
步骤2:利用预处理后的语音数据构成的数据集训练具有自注意力的卷积脉冲神经网络;
步骤3:将待识别的语音数据预处理后,输入训练好的脉冲神经网络进行识别,实现语音文本转化。
在一个实施例中,所述步骤1,语音数据预处理的过程如下:
步骤1.1:语音特征提取,先将原始语音数据按照统一的采样率重新采样,再从音频信号创建语谱图,并转化为mel域的频谱,最后按照特征强度的均值和标准差进行归一化处理,生成归一化的语音特征序列;
步骤1.2:语音特征增强,先将步骤1.1处理后的语音特征序列进行频域掩码,之后再进行时域掩码;
步骤1.3:二维卷积上采样,将步骤1.2处理后的语音特征序列挤出语音通道维度,再通过两层多个时间步长的二维卷积脉冲神经元,之后将输出特征序列的通道维度和特征维度相乘,合为新的特征维度;
步骤1.4:相对位置编码,将步骤1.3处理后的特征序列中每个索引的token都通过相对位置编码生成新的唯一的位置,再将其与编码前的特征序列进行求和操作。
在一个实施例中,所述步骤2,具有自注意力的卷积脉冲神经网络包括具有自注意力的卷积脉冲编码器和线性脉冲解码器;
所述具有自注意力的卷积脉冲编码器包括依次连接的线性脉冲神经元层、Dropout层和m个由脉冲神经元组成的自注意力卷积块,所述自注意力卷积块中,以LIF脉冲神经元替代激活函数进行激发,且自注意力卷积块的各模块之间的输入和输出进行残差计算;
所述线性脉冲解码器为一层线性脉冲神经元层,以所述具有自注意力的卷积脉冲编码器的输出数据作为输入。
在一个实施例中,所述自注意力卷积块中的模块包括依次连接的第一半步长前馈模块、多头自注意力模块、卷积模块、第二半步长前馈模块以及归一化模块;
所述第一半步长前馈模块和所述第二半步长前馈模块的结构相同,均包括依次连接的第一归一化模块、第一线性脉冲神经元层A、第一LIF脉冲神经元层、第一Dropout层A、第一线性脉冲神经元层B和第一Dropout层B,其中第一Dropout层B的输出数据除2后与第一归一化模块的输入数据进行残差计算作为所述第一半步长前馈模块的最终输出;
所述多头自注意力模块包括依次连接的第二归一化模块、h个自注意力层和第二Dropout层,所述第二Dropout层将多头自注意力模块的输入数据经过每个自注意力层的结果进行求和,求和结果与第二归一化模块的输入数据进行残差计算作为所述多头自注意力模块的最终输出;
所述卷积模块包括依次连接的第三归一化模块、逐点卷积层A、第二LIF脉冲神经元层A、一维深度卷积层、批归一化层、第二线性脉冲神经元层、第二LIF脉冲神经元层B、逐点卷积层B和第三Dropout层,
所述一维深度卷积层和所述批归一化层将LIF脉冲神经元激发后的数据与激发前的数据做乘法操作,所述第三Dropout层的输出数据与所述第三归一化模块的输入数据进行残差计算作为所述卷积模块的最终输出。
在一个实施例中,所述第一LIF脉冲神经元层、第二LIF脉冲神经元层A和第二LIF脉冲神经元层B均采用多步长LIF脉冲神经元。
在一个实施例中,所述步骤2,训练过程如下:
步骤2.1:设置网络训练参数;
步骤2.2:采用伪BP的方法进行网络的反向传播,使用sigmoid梯度函数替换BP过程中脉冲神经元的非微分部分,当脉冲神经元膜电位超过阈值时,向下游神经元输出1,之后重置为静息电位;否则向下游神经元输出0;
步骤2.3:重复进行向前传播、计算损失函数、向后传播和更新网络权值,直至连续n个训练轮次后验证数据集上的损失函数不再下降,训练结束。
在一个实施例中,所述步骤3,将线性脉冲解码器的输出归一化后再取对数,加快解码速度,提高解码稳定性;采用贪心搜索的策略将输出内容转化为文本,每次解码均选取当前概率最大的预测标签,连续的解码输出即为语音识别出的文本。
本发明的另一方面,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理单元执行时实现所述的方法的步骤。
本发明的另一方面,还提供了一种计算设备,包括存储单元和处理单元,所述存储单元存储有计算机程序,所述处理单元执行所述计算机程序时实现所述的方法的步骤。
本发明的另一方面,还提供了一种基于脉冲神经网络的端到端语音识别系统,包括语言采集设备、显示设备以及所述的计算设备;
所述语言采集设备采集待识别的语音数据;
所述计算设备,其处理单元包括执行预处理的预处理模块、执行网络训练的训练模块和执行转化的运算模块;所述预处理模块以所述待识别的语音数据为输入,所述运算模块以预处理后的所述待识别的语音数据为输入,输出得到的文本;
所述显示设备,显示所述文本的内容。
与现有技术相比,本发明的有益效果是:
1、基于仿生设计的一套网络构建和训练模型,能有效应用在端到端语音识别问题上。
2、在深层网络结构的基础上,保留了自注意力对全局信息的建模和卷积对局部信息的建模,做到全局和局部兼顾的优点,网络在大规模语音数据集上效果有所提高。
3、发挥脉冲神经元高效、节能的特点,使得网络的参数和训练成本相比传统的深层自注意力卷积深度神经模型要小。
4、由于脉冲神经元激发稀疏,计算量少,总体计算速度加快,在端到端语音识别中能更快、更精确地转化出文本结果。
附图说明
图1是本发明提出的基于脉冲神经网络的语音识别方法总体流程图。
图2是本发明提出的具有自注意力的卷积脉冲神经网络结构图。
图3是前馈模块结构图。
图4是多头自注意力模块结构图。
图5是卷积模块结构。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
一种基于脉冲神经网络进行端到端语音识别的方法,包括语音数据预处理、训练具有自注意力的卷积脉冲神经网络和预处理后的语音数据输入训练好的脉冲神经网络进行识别三个步骤,脉冲神经元模型使用多个时间步长的LIF神经元模型,提出针对自注意力的卷积脉冲神经网络结构。本方法更多地结合生物特性,能有效降低神经网络的计算量,在大规模语音数据集能更准确地识别出文本内容。
如图1所示,本发明提供了一种基于脉冲神经网络的端到端语音识别方法,包括如下步骤:
步骤1:语音数据预处理,包括:对原始语音数据进行特征提取、特征增强后,进行上采样,最后进行相对位置编码。
步骤2:利用预处理后的语音数据构成的数据集训练具有自注意力的卷积脉冲神经网络,该卷积脉冲神经网络主要包括具有自注意力的卷积脉冲编码器和线性脉冲解码器。
其中,具有自注意力的卷积脉冲编码器包括依次连接的线性脉冲神经元层、Dropout层和m个由脉冲神经元组成的自注意力卷积块,在自注意力卷积块中,以LIF脉冲神经元替代激活函数进行激发,且自注意力卷积块的各模块之间的输入和输出进行残差计算。
该具有自注意力的卷积脉冲编码器的输出数据即线性脉冲解码器的输入,本发明中,线性脉冲解码器为一层线性脉冲神经元层。
步骤3:将待识别的语音数据预处理后,输入训练好的脉冲神经网络进行识别,实现语音文本转化。
本发明实施例中,采用的语音数据集为libirspeech数据集,语音数据预处理的过程如下:
步骤1.1:语音特征提取,先将原始语音数据即libirspeech数据集按照统一的采样率重新采样,示例地,采样率设置为16000。再从音频信号创建语谱图,示例地,FFT帧的大小设为512,窗口长度为25毫秒,窗口之间的长度为10毫秒。并转化为mel域的频谱,示例地,使用80个mel滤波器组将语谱图转化为mel域的频谱。最后按照特征强度的均值和标准差对特征进行归一化处理,生成归一化的语音特征序列。示例地,均值取5.6501,标准差取4.2280。
本步骤中,特征提取后的语音数据有80个特征维度,去除了原始语音数据中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息。
步骤1.2:语音特征增强,先将步骤1.1处理后的语音特征序列进行频域掩码,示例地,掩码数为2,最大掩码尺寸为27。之后再进行时域掩码,示例地,掩码数在[5-10]之间,最大掩码尺寸为0.05。
本步骤中,经过增强后的语音特征对时间方向上的变形、频率信息的部分丢失和小段语音的部分丢失具有鲁棒性。
步骤1.3:二维卷积上采样,将步骤1.2处理后的语音特征序列挤出语音通道维度,再通过两层多个时间步长的二维卷积脉冲神经元,示例地,时间步长数量为100个,卷积核大小为3。之后将输出特征序列的通道维度和特征维度相乘,合为新的特征维度。
本步骤中,通过上采样操作,能够放大特征序列中的特征,便于后续模型更好地捕捉关键特征。
步骤1.4:相对位置编码,将步骤1.3处理后的特征序列中每个索引的token都通过相对位置编码生成新的唯一的位置,再将其与编码前的特征序列进行求和操作。示例地,相对位置编码的方式是,将token通过三角函数sin和cos变换,生成新的唯一的位置编码。
本步骤中,经过相对位置编码后的语音特征序列会对不同位置的相同特征具有区分性,能帮助模型更好理解语义。
libirspeech数据集中每条语音数据是一段.flac格式的音频,经过步骤1的预处理,语音数据有80个特征维度,去除了原始语音数据中对于语音识别无用的冗余信息(如两词之间的空白语音),使每个时间间隔内的信息更具有区分度吗,保留能够反映语音本质特征的信息。
在本发明的一些实施例中,自注意力卷积块中的模块包括依次连接的第一半步长前馈模块、多头自注意力模块、卷积模块、第二半步长前馈模块以及归一化模块。卷积脉冲神经网络通过如下步骤构建:
步骤2.1:构建具有自注意力卷积块的脉冲编码器。
如图2所示,先构建一个线性脉冲神经元层和一个Dropout层,之后连接m个自注意力卷积块,示例地,取m=16。
步骤2.1具体包括以下步骤:
步骤2.1.1:构建一个线性脉冲神经元层和一个Dropout层。线性脉冲神经元层为输入的数据提供线性变化,映射到注意力的计算空间。Dropout层随机将输入数据中的一些元素设为0,防止过拟合。
步骤2.1.2:构建半步长前馈模块。
本发明中,第一半步长前馈模块和第二半步长前馈模块的结构相同,均包括依次连接的第一归一化模块、第一线性脉冲神经元层A、第一LIF脉冲神经元层、第一Dropout层A、第一线性脉冲神经元层B和第一Dropout层B。其构建方法如图3所示,先构建第一归一化模块,用于将输入数据进行层归一化,再依次连接第一线性脉冲神经元层A、第一LIF脉冲神经元层,示例地,采用100个步长的LIF类型神经元激活。之后连接第一Dropout层A,再构建第一线性脉冲神经元层B和第一Dropout层B,第一Dropout层B的输出数据除2后与第一归一化模块的输入数据进行残差计算作为第一半步长前馈模块的最终输出。
本步骤中,层归一化操作是对该层的所有神经元进行归一化操作,使得输入数据更平滑稳定,便于网络快速收敛。LIF神经元的激活使得网络拥有能拟合非线性函数的能力。残差计算有助于加强深度网络的表达能力。整个前馈模块可以增强模型的能力。
步骤2.1.3:构建多头自注意力模块。
多头自注意力模块包括依次连接的第二归一化模块、h个自注意力层和第二Dropout层。其构建方法如图4所示,先构建第二归一化模块,用于将输入数据进行层归一化,再构建h个自注意力层,示例地,取h=3,最后构建第二Dropout层。第二Dropout层将多头自注意力模块的输入数据经过每个自注意力层的结果进行求和,求和结果与第二归一化模块的输入数据进行残差计算作为多头自注意力模块的最终输出。
本步骤中,注意力层能从大量输入数据中筛选出少量重要信息,并聚焦在这些重要信息中。多头注意力模块在此基础上提高了注意力机制的空间分辨率,提高了并发度和计算效率,主要起到拟合全局特征的作用。
步骤2.1.4:构建卷积模块。
卷积模块包括依次连接的第三归一化模块、逐点卷积层A、第二LIF脉冲神经元层A、一维深度卷积层、批归一化层、第二线性脉冲神经元层、第二LIF脉冲神经元层B、逐点卷积层B和第三Dropout层。其构建方法如图5所示,先构建第三归一化模块,用于将输入数据进行层归一化,再接入一个一维的逐点卷积层A,减少网络参数,示例地,其卷积核大小为1。之后通过线性门控,在特征维度上等分为两部分,一部分通过第二LIF脉冲神经元层A的脉冲神经元激发后与另一部分做乘法。再连接一个卷积核为31的一维深度卷积层和一个批归一化层,经第二线性脉冲神经元层后,一维深度卷积层和批归一化层将通过第二LIF脉冲神经元层B的脉冲神经元激发后的数据与原数据做乘法操作后输入到下一层。最后接入卷积核大小为1的一维的逐点卷积层B和第三Dropout层,第三Dropout层的输出数据与第三归一化模块的输入数据进行残差计算作为卷积模块的最终输出。
本步骤中,卷积层能有效提取出局部特征,多个一维卷积层的叠加,能在语音特征的各个维度上提取出更多有效特征。整个卷积模块主要发挥局部特征拟合的作用。
步骤2.1.5:在卷积模块之后再连接一个步骤2.1.2构建出的半步长前馈模块,即第二半步长前馈模块,之后连接一个归一化模块进行层归一化。
注意力机制可能对复杂过程的拟合程度不够,多头自注意力模块前后的两个前馈模块作为补充,可以进一步增强模型的能力。
步骤2.1.6:将m=16个由步骤2.1.2、步骤2.1.3、步骤2.1.4和步骤2.1.5中的模块构成的自注意力卷积块依次线性连接。
自注意力卷积模块能从全局建模和局部建模兼顾的角度来更好地拟合输入的特征,多个模块的叠加增强了整个编码器对特征的拟合能力。
上述步骤中,第一LIF脉冲神经元层、第二LIF脉冲神经元层A和第二LIF脉冲神经元层B均采用多步长LIF脉冲神经元。
步骤2.2:构建线性脉冲解码器,构建一层线性脉冲神经元层作为解码器,编码器输出后的数据作为线性脉冲解码器的输入。
经过编码器输出后的数据具有固定形状的编码状态,解码器将其映射为长度可变的序列,即最终识别出的文字序列。
步骤2.3:将步骤1处理好的语音数据输入到步骤2.1和步骤2.2构建的编码器——解码器网络中进行训练。
训练步骤具体如下:
步骤2.3.1:设置网络训练参数。
示例地,设置网络训练的批次大小为64,批次数为2048,学习率为0.01。
步骤2.3.2:采用伪BP的方法进行网络的反向传播,使用预定义的梯度函数或sigmoid梯度函数替换BP过程中脉冲神经元的非微分部分:当脉冲神经元膜电位超过阈值时,向下游神经元输出1,之后重置为静息电位。否则向下游神经元输出0。
步骤2.3.3:重复进行向前传播、计算损失函数、向后传播和更新网络权值,当连续n个训练轮次后验证数据集上的损失函数不再下降时,训练结束,示例地,n=4。
在本发明的一些实施例中,步骤3,将线性脉冲解码器的输出归一化后再取对数(具体可通过logsoftmax函数实现),加快解码速度,提高解码稳定性。并采用贪心搜索的策略将输出内容转化为文本,每次解码均选取当前概率最大的预测标签(具体可通过使用argmax函数实现),连续的解码输出即为语音识别出的文本。
解码器中线性脉冲神经元层输出的数据是包含时间长度的预测结果,预测结果是由矩阵形式表示的所有标签的输出概率(例如输出标签是“and”词的概率为0.2)。之后采用贪心搜索的策略解码,对于每一个时间步来说,都先将其预测结果通过logsoftmax函数进行归一化和取对数,以加快解码速度,提高解码稳定性,每次解码都使用argmax函数获取当前时间的预测结果中概率最大的预测标签,连续的解码输出即为语音识别出的文本。
本发明的方法,可以被编译为计算机程序,也即,利用计算机程序实现本发明方法的步骤,进而得到一种计算机程序产品。
本发明的计算机程序,可运行于包括存储单元和处理单元的计算设备,计算机程序被存储于所述存储单元,并通过命令被处理单元执行。
本发明的具体应用,可以是一种基于脉冲神经网络的端到端语音识别系统,包括语言采集设备、显示设备以及所述的计算设备;
其中,所述的语言采集设备采集待识别的语音数据,其可以是独立的麦克风设备,也可以是集成于其它设备中的语音录入部分,例如手机等。
所述的计算设备,其处理单元包括执行预处理的预处理模块、执行网络训练的训练模块和执行转化的运算模块。所述预处理模块主要用于执行本发明步骤1,训练模块主要用于执行本发明步骤2,运算模块主要用于执行本发明步骤3。在通过足够数据完成步骤2的训练后,具体使用过程中,可不必再利用训练模块。此时,预处理模块以所述待识别的语音数据为输入,运算模块以预处理后的所述待识别的语音数据为输入,通过已经训练完成的脉冲神经网络,输出得到的文本。
所述的显示设备,用于显示所述文本的内容。输出的文本可以以视觉方式显示,也可以在显示的同时以音频形式播放。
为对本发明的效果进行测试,以libirspeech数据集中编号为84-121123-0028的原始数据为测试输入,经过本发明方法,得到的识别结果为:“i am going sir and i donot hesitate to say that no prayers will be more fervent than mine”(中文意为:我要走了,先生。我毫不犹豫地说,没有人会比我更热切地祈祷。)
综上,本发明由语音数据预处理、训练具有自注意力的卷积脉冲神经网络和预处理后的语音数据输入训练好的脉冲神经网络进行识别三个步骤组成。可用于端到端的语音识别,尤其是在大规模语音数据集上表现突出,能准确识别出文本内容。与其他语音识别方案相比,本发明更多地结合生物特性,发挥脉冲神经元节能高效的特点,具有准确率高、计算量小和低能耗等方面的优势。
以上所述仅为本发明在图片分类特定问题下的较佳实施例,本发明不应局限于问题形式以及实施特例和附图中所公开内容。凡是不脱离本发明所公开精神下完成的等效或修改,都应落入本发明的保护范围。
Claims (10)
1.一种基于脉冲神经网络的端到端语音识别方法,其特征在于,包括如下步骤:
步骤1:语音数据预处理,包括:对原始语音数据进行特征提取、特征增强后,进行上采样,最后进行相对位置编码;
步骤2:利用预处理后的语音数据构成的数据集训练具有自注意力的卷积脉冲神经网络;
步骤3:将待识别的语音数据预处理后,输入训练好的脉冲神经网络进行识别,实现语音文本转化。
2.根据权利要求1所述基于脉冲神经网络的端到端语音识别方法,其特征在于,所述步骤1,语音数据预处理的过程如下:
步骤1.1:语音特征提取,先将原始语音数据按照统一的采样率重新采样,再从音频信号创建语谱图,并转化为mel域的频谱,最后按照特征强度的均值和标准差进行归一化处理,生成归一化的语音特征序列;
步骤1.2:语音特征增强,先将步骤1.1处理后的语音特征序列进行频域掩码,之后再进行时域掩码;
步骤1.3:二维卷积上采样,将步骤1.2处理后的语音特征序列挤出语音通道维度,再通过两层多个时间步长的二维卷积脉冲神经元,之后将输出特征序列的通道维度和特征维度相乘,合为新的特征维度;
步骤1.4:相对位置编码,将步骤1.3处理后的特征序列中每个索引的token都通过相对位置编码生成新的唯一的位置,再将其与编码前的特征序列进行求和操作。
3.根据权利要求1所述基于脉冲神经网络的端到端语音识别方法,其特征在于,所述步骤2,具有自注意力的卷积脉冲神经网络包括具有自注意力的卷积脉冲编码器和线性脉冲解码器;
所述具有自注意力的卷积脉冲编码器包括依次连接的线性脉冲神经元层、Dropout层和m个由脉冲神经元组成的自注意力卷积块,所述自注意力卷积块中,以LIF脉冲神经元替代激活函数进行激发,且自注意力卷积块的各模块之间的输入和输出进行残差计算;
所述线性脉冲解码器为一层线性脉冲神经元层,以所述具有自注意力的卷积脉冲编码器的输出数据作为输入。
4.根据权利要求3所述基于脉冲神经网络的端到端语音识别方法,其特征在于,所述自注意力卷积块中的模块包括依次连接的第一半步长前馈模块、多头自注意力模块、卷积模块、第二半步长前馈模块以及归一化模块;
所述第一半步长前馈模块和所述第二半步长前馈模块的结构相同,均包括依次连接的第一归一化模块、第一线性脉冲神经元层A、第一LIF脉冲神经元层、第一Dropout层A、第一线性脉冲神经元层B和第一Dropout层B,其中第一Dropout层B的输出数据除2后与第一归一化模块的输入数据进行残差计算作为所述第一半步长前馈模块的最终输出;
所述多头自注意力模块包括依次连接的第二归一化模块、h个自注意力层和第二Dropout层,所述第二Dropout层将多头自注意力模块的输入数据经过每个自注意力层的结果进行求和,求和结果与第二归一化模块的输入数据进行残差计算作为所述多头自注意力模块的最终输出;
所述卷积模块包括依次连接的第三归一化模块、逐点卷积层A、第二LIF脉冲神经元层A、一维深度卷积层、批归一化层、第二线性脉冲神经元层、第二LIF脉冲神经元层B、逐点卷积层B和第三Dropout层,
所述一维深度卷积层和所述批归一化层将LIF脉冲神经元激发后的数据与激发前的数据做乘法操作,所述第三Dropout层的输出数据与所述第三归一化模块的输入数据进行残差计算作为所述卷积模块的最终输出。
5.根据权利要求4所述基于脉冲神经网络的端到端语音识别方法,其特征在于,所述第一LIF脉冲神经元层、第二LIF脉冲神经元层A和第二LIF脉冲神经元层B均采用多步长LIF脉冲神经元。
6.根据权利要求1至5任一权利要求所述基于脉冲神经网络的端到端语音识别方法,其特征在于,所述步骤2,训练过程如下:
步骤2.1:设置网络训练参数;
步骤2.2:采用伪BP的方法进行网络的反向传播,使用sigmoid梯度函数替换BP过程中脉冲神经元的非微分部分,当脉冲神经元膜电位超过阈值时,向下游神经元输出1,之后重置为静息电位;否则向下游神经元输出0;
步骤2.3:重复进行向前传播、计算损失函数、向后传播和更新网络权值,直至连续n个训练轮次后验证数据集上的损失函数不再下降,训练结束。
7.根据权利要求3或4或5所述基于脉冲神经网络的端到端语音识别方法,其特征在于,所述步骤3,将线性脉冲解码器的输出归一化后再取对数,加快解码速度,提高解码稳定性;采用贪心搜索的策略将输出内容转化为文本,每次解码均选取当前概率最大的预测标签,连续的解码输出即为语音识别出的文本。
8.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理单元执行时实现权利要求1至7中任一项所述的方法的步骤。
9.一种计算设备,包括存储单元和处理单元,所述存储单元存储有计算机程序,其特征在于,所述处理单元执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种基于脉冲神经网络的端到端语音识别系统,包括语言采集设备、显示设备以及权利要求8所述的计算设备;
所述语言采集设备采集待识别的语音数据;
所述计算设备,其处理单元包括执行预处理的预处理模块、执行网络训练的训练模块和执行转化的运算模块;所述预处理模块以所述待识别的语音数据为输入,所述运算模块以预处理后的所述待识别的语音数据为输入,输出得到的文本;
所述显示设备,显示所述文本的内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310552616.9A CN116994573A (zh) | 2023-05-16 | 2023-05-16 | 一种基于脉冲神经网络的端到端语音识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310552616.9A CN116994573A (zh) | 2023-05-16 | 2023-05-16 | 一种基于脉冲神经网络的端到端语音识别方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994573A true CN116994573A (zh) | 2023-11-03 |
Family
ID=88532839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310552616.9A Pending CN116994573A (zh) | 2023-05-16 | 2023-05-16 | 一种基于脉冲神经网络的端到端语音识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994573A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117198290A (zh) * | 2023-11-06 | 2023-12-08 | 深圳市金鼎胜照明有限公司 | 一种基于声控的多模式led智能控制的方法及装置 |
-
2023
- 2023-05-16 CN CN202310552616.9A patent/CN116994573A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117198290A (zh) * | 2023-11-06 | 2023-12-08 | 深圳市金鼎胜照明有限公司 | 一种基于声控的多模式led智能控制的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Combining a parallel 2D CNN with a self-attention Dilated Residual Network for CTC-based discrete speech emotion recognition | |
Chen et al. | Learning multi-scale features for speech emotion recognition with connection attention mechanism | |
CN112101045B (zh) | 一种多模态语义完整性识别方法、装置及电子设备 | |
CN115641543A (zh) | 一种多模态抑郁情绪识别方法及装置 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN115206284B (zh) | 一种模型训练方法、装置、服务器和介质 | |
CN116994573A (zh) | 一种基于脉冲神经网络的端到端语音识别方法与系统 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
CN117095702A (zh) | 一种基于门控多级特征编码网络的多模态情感识别方法 | |
Li et al. | Voice Interaction Recognition Design in Real-Life Scenario Mobile Robot Applications | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
CN115272908A (zh) | 一种基于改进Transformer的多模态情感识别方法和系统 | |
CN116010874A (zh) | 基于深度学习多模态深尺度情感特征融合的情感识别方法 | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
Fu et al. | An improved CycleGAN-based emotional voice conversion model by augmenting temporal dependency with a transformer | |
Cheng et al. | Speech emotion recognition based on interactive convolutional neural network | |
Hu et al. | Speech emotion recognition based on attention mcnn combined with gender information | |
CN113012681A (zh) | 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN115795010A (zh) | 一种外部知识辅助的多因素层次建模共情对话生成方法 | |
Ghorpade et al. | ITTS model: speech generation for image captioning using feature extraction for end-to-end synthesis | |
CN111292741A (zh) | 智能语音交互机器人 | |
Syafalni et al. | Efficient Real-Time Smart Keyword Spotting Using Spectrogram-Based Hybrid CNN-LSTM for Edge System | |
CN117935766B (zh) | 一种aigc模型的语音数据处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |