CN113628615A - 语音识别方法、装置、电子设备及存储介质 - Google Patents
语音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113628615A CN113628615A CN202111185130.3A CN202111185130A CN113628615A CN 113628615 A CN113628615 A CN 113628615A CN 202111185130 A CN202111185130 A CN 202111185130A CN 113628615 A CN113628615 A CN 113628615A
- Authority
- CN
- China
- Prior art keywords
- neuron
- pulse
- neurons
- hidden layer
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 210000002569 neuron Anatomy 0.000 claims abstract description 289
- 239000012528 membrane Substances 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 40
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims abstract description 28
- 230000000946 synaptic effect Effects 0.000 claims description 20
- 238000010304 firing Methods 0.000 claims description 17
- 239000000126 substance Substances 0.000 claims description 16
- 210000000225 synapse Anatomy 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000000284 resting effect Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 description 9
- 230000000306 recurrent effect Effects 0.000 description 9
- 238000012421 spiking Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000005265 energy consumption Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 210000004205 output neuron Anatomy 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000036279 refractory period Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种语音识别方法、装置、电子设备及存储介质,其中方法包括:获取待识别语音对应的脉冲序列;将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。本发明提供的方法、装置、电子设备及存储介质,能够适应于识别样本的变化,提高了模型的鲁棒性,提高了识别结果的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
近年来,许多不同类型的深度神经网络被提出,用于解决语音数据在分类、识别、记忆关联和预测上问题,然而,随着深度神经网络的快速发展的同时也存在着一些不足。第一个问题是突触参数的增加,人工神经元和网络之间不平衡的复杂性使得深度神经网络包含大量的网络参数需要调整,增加了网络学习难度。第二个问题是反向传播方过程慢和计算成本高,被认为是非生物合理的方式。在深度神经网络中,反馈与前馈在神经网络依次交织,误差信号必须从输出神经元逐层反向传播到隐藏神经元,尤其对于深度极高的网络还存在梯度消失或梯度爆炸的风险。深度神经网络的监督和同步计算的本质也使得它们难以通过并行计算来加速。第三个问题是反向传播过程中深度神经网络中的所有人工神经元都必须满足数学可微分性的限制,这显然缺乏生物验证的支持,其中不可微分的脉冲信号无处不在。目前深度神经网络发展的一个关键问题是网络的可解释性弱以及生物合理性弱,然而脉冲神经网络的丰富的可解释性可弥补这一问题。
在处理语音数据时,可以采用脉冲神经网络(Spiking Neuron Networks,SNN)。相比于深度神经网络来说,脉冲神经网络具有更加复杂的神经元和突触结构,考虑到现有人工网络所忽略的很多生物规则可能恰恰是实现通用类人脑智能的关键,这些生物规则加入到更加类脑的脉冲神经网络中将有可能使得现有网络获得更为强大的计算能力和适应能力。在脉冲神经网络中,神经元可塑性在神经元的动态信息加工中起着至关重要的作用。
现有的语音识别方法通常采用标准神经元模型,例如H-H模型、LIF(Integrate-And-Fire)模型、SRM模型和Izhikevich模型,模型的鲁棒性差,语音识别结果准确性差,计算成本高。
发明内容
本发明提供一种语音识别方法、装置、电子设备及存储介质,用于解决现有技术中语音识别结果准确性差,计算成本高的技术问题。
本发明提供一种语音识别方法,包括:
获取待识别语音对应的脉冲序列;
将所述脉冲序列输入至语音识别模型,得到所述待识别语音对应的语音识别结果;
其中,所述语音识别模型是基于循环脉冲神经网络构建的,所述语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;
所述前向通道用于连接所述任一神经元与上一隐藏层中的神经元;所述循环通道用于连接所述任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
根据本发明提供的语音识别方法,所述任一神经元的膜电位是基于如下公式初始化的:
其中,为神经元 在 时刻的膜电位, 为神经元 在 时刻的前向膜电
位, 为神经元 在 时刻的循环膜电位, 为神经元 的膜电容, 为神经元的突触
电导率, 为神经元 的静息膜电位, 为上一隐藏层中与神经元 连接的神经元的数
量, 为上一隐藏层中神经元 与神经元 之间在前向通道中的突触权重, 为当前层
中的神经元 与神经元之间在循环通道中的突触权重, 为神经元 接收的来自神经
元 的输入, 为神经元脉冲标志, 为神经元前向通道中的神经元脉冲标志, 为神经
元 循环通道中的神经元脉冲标志。
根据本发明提供的语音识别方法,所述任一神经元的膜电位是基于如下步骤更新的:
基于所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定所述任一神经元的动态发放阈值;
基于所述任一神经元的动态发放阈值,以及所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对所述任一神经元的膜电位进行更新。
根据本发明提供的语音识别方法,所述基于所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定所述任一神经元的动态发放阈值,包括:
根据本发明提供的语音识别方法,所述基于所述任一神经元的动态发放阈值,以及所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对所述任一神经元的膜电位进行更新,包括:
根据本发明提供的语音识别方法,所述语音识别模型中同一隐藏层中的神经元的输出是基于如下步骤进行稀疏连接的:
确定稀疏连接比例;所述稀疏连接比例为任一隐藏层中进行连接的神经元占所述任一隐藏层中所有神经元的数量比例;
从所述任一隐藏层中选择满足所述稀疏连接比例的神经元,将各个神经元的输出进行随机连接。
根据本发明提供的语音识别方法,所述语音识别模型是基于如下步骤进行训练的:
获取样本待识别语音对应的样本标签;
基于随机矩阵,将所述样本标签并行映射到所述语音识别模型中各个隐藏层,确定各个隐藏层中神经元膜电位到突触权重的局部梯度;
基于各个隐藏层中神经元膜电位到突触权重的局部梯度,对所述语音识别模型进行训练。
本发明提供一种语音识别装置,包括:
获取单元,用于获取待识别语音对应的脉冲序列;
识别单元,用于将所述脉冲序列输入至语音识别模型,得到所述待识别语音对应的语音识别结果;
其中,所述语音识别模型是基于循环脉冲神经网络构建的,所述语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;
所述前向通道用于连接所述任一神经元的输入与上一隐藏层中的神经元的输出;所述循环通道用于连接所述任一神经元在上一时刻的输出与当前时刻的输入。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述语音识别方法的步骤。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述语音识别方法的步骤。
本发明提供的语音识别方法、装置、电子设备及存储介质,通过循环脉冲神经网络构建语音识别模型,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接,由于神经元的膜电位能够根据实时输入产生特异性动态变化,能够适应于识别样本的变化,具有较高的动力学计算能力,提高了模型的鲁棒性,提高了识别结果的准确性。此外,通过采用稀疏连接,在提高模型性能的同时在一定程度上降低了模型学习的资源开销,降低了内存占用,减少了能耗,有利于置于芯片上使用。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音识别方法的流程示意图;
图2是本发明提供的循环脉冲神经网络的结构示意图;
图3是本发明提供的语音识别装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在脉冲神经网络中,神经元可塑性在神经元的动态信息加工中起着至关重要的作用。常用的标准神经元模型忽略了神经元的放电阈值可塑性对神经元动力学的重要影响,而神经元的动力学特性直接影响网络的动力学和鲁棒性计算,利用现有的脉冲神经网络在处理语音时,模型的鲁棒性差,识别结果的准确性差。
本发明实施例提供的方法和装置中适用于视频数据、音频数据和图像数据等的处理,下面以音频数据进行说明。
图1是本发明提供的语音识别方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待识别语音对应的脉冲序列。
具体地,待识别语音可以从公开的语音数据集获取,例如TIDigits或者TIMIT。
在识别前,可以将待识别语音转换为脉冲序列,转换方法可以采用脉冲编码器将非脉冲输入信号编码为符合某种分布形式的脉冲序列。脉冲编码器可以为泊松编码器等。泊松编码器将输入数据编码为发放次数分布符合泊松过程的脉冲序列。例如,对于一段语音,可以将其分为多个帧,每一帧都可以被脉冲编码器转换为符合泊松分布的脉冲序列。
步骤120,将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;
其中,语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
具体地,语音识别结果为对待识别语音的脉冲序列进行识别后得到的结果。例如,若待识别语音为数字1至9的读音,则语音识别结果可以为读音对应的具体数字。
语音识别模型可以预先训练得到,具体的训练方式如下:首先,收集大量的样本待识别语音,以及每一待识别语音对应的样本标签(语音识别结果)。其次,对每一样本待识别语音进行转换,得到每一样本待识别语音对应的脉冲序列。随即,根据每一样本待识别语音对应的脉冲序列和样本标签,对初始模型进行训练,使得初始模型对待识别语音对应的脉冲序列中进行特征学习,以样本标签为真值,提高初始模型对于样本待识别语音中内容的预测能力,得到语音识别模型。
语音识别模型的初始模型可以为循环脉冲神经网络。循环脉冲神经网络的网络结构可以包括输入层、输出层和多个隐藏层。输入层的神经元数量可以根据输入脉冲序列的长度进行确定,输出层的神经元数量可以根据语音识别结果的类型进行确定。隐藏层的数量,以及每一隐藏层中的神经元数量可以根据实际需要进行设置。
在对各个隐藏层中的神经元进行连接后,可以对同一隐藏层中的神经元的输出进行稀疏连接,使得当前隐藏层中的神经元提取的信号特征可以进行融合后,输入下一隐藏层中的神经元,使得下一隐藏层中的神经元能够得到更丰富的输入信息,提高对更多细节特征的学习能力,提高了模型的抗噪性能,从而提高了整个语音识别模型的鲁棒性。
稀疏连接的方式可以采用随机连接的方式,例如,当前隐藏层包含4个神经元,分别为神经元1、神经元2、神经元3和神经元4,则可以对神经元1和2的输出进行连接,神经元3和4的输出进行连接。
脉冲神经网络中隐藏层的输出由该隐藏层的神经元的发放状态组合而成,神经元的发放状态是由膜电位确定的,也就是说,任一隐藏层的输出是由该层中各个神经元的膜电位确定的。
由于本发明实施例提供的语音识别模型是以循环脉冲神经网络为初始模型构建的,任一隐藏层中任一神经元的输入通道包含前向通道和循环通道。
前向通道用于连接任一神经元与上一隐藏层中的神经元。前向通道中上一隐藏层神经元的输出与突触权重的乘积作为当前隐藏层中神经元的输入。
循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
对于语音识别模型中任一隐藏层中任一神经元,其膜电位的初始化和更新受到了前向通道和循环通道的影响,具体来看,膜电位是根据前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的。神经元脉冲标志表示膜电位达到发放阈值时发放的脉冲数量。通过双通道的神经元脉冲标志确定神经元的膜电位,使得隐藏层中的神经元具有可塑性,膜电位能够根据实时输入产生特异性动态变化。
本发明实施例提供的语音识别方法,通过循环脉冲神经网络构建语音识别模型,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接,由于神经元的膜电位能够根据实时输入产生特异性动态变化,能够适应于识别样本的变化,具有较高的动力学计算能力,提高了模型的鲁棒性,提高了识别结果的准确性。此外,通过采用稀疏连接,在提高模型性能的同时在一定程度上降低了模型学习的资源开销,降低了内存占用,减少了能耗,有利于置于芯片上使用。
基于上述实施例,任一神经元的膜电位是基于如下公式初始化的:
其中, 为神经元 在 时刻的膜电位, 为神经元 在 时刻的前向膜电
位, 为神经元在 时刻的循环膜电位, 为神经元 的膜电容, 为神经元 的突触
电导率, 为神经元 的静息膜电位, 为上一隐藏层中与神经元 连接的神经元的数
量, 为上一隐藏层中神经元 与神经元 之间在前向通道中的突触权重, 为当前层
中的神经元 与神经元 之间在循环通道中的突触权重, 为神经元 接收的来自神经
元 的输入, 为神经元脉冲标志, 为神经元 前向通道中的神经元脉冲标志, 为神
经元 循环通道中的神经元脉冲标志。
具体地,由于语音识别模型中采用了稀疏连接,前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志都会对神经元的膜电位产生影响。前向通道中的神经元脉冲标志对神经元产生影响,生成前向膜电位;循环通道中的神经元脉冲标志对神经元产生影响,生成循环膜电位。这两个通道产生的膜电位是同时影响神经元的。这两种类型的膜电位可以用如下公式定义:
在此定义上,可以对前向膜电位和循环膜电位进行整合,对任一神经元的膜电位进行初始化,得到上面的公式。
脉冲神经网络中使用的LIF神经元膜电位动态变化如公式所示:
基于上述任一实施例,任一神经元的膜电位是基于如下步骤更新的:
基于任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定任一神经元的动态发放阈值;
基于任一神经元的动态发放阈值,以及任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对任一神经元的膜电位进行更新。
具体地,任一神经元的膜电位初始化后,其发放阈值会受到两个通道的影响,则可以对该神经元的膜电位发放阈值进行双通道自适应更新,从而提高模型动力学特性。
可以根据任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定该神经元的动态发放阈值。然后再根据动态发放阈值,结合前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对该神经元的膜电位进行更新。
基于上述任一实施例,基于任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定任一神经元的动态发放阈值,包括:
具体地,动态发放阈值的确定可以用上述公式来表示,上述公式为常微分方程。在
两个通道中没有输入脉冲时,动态发放阈值的平衡点为0。在在输入来自前向通道的脉冲 和循环通道的脉冲 时,动态发放阈值的平衡点为 。 为第一权重系数, 为第二
权重系数,均为超参数,可以根据实际情况进行设置,例如, , 。
基于上述任一实施例,基于任一神经元的动态发放阈值,以及任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对任一神经元的膜电位进行更新,包括:
具体地,任一神经元的动态发放阈值可以提高神经元的可塑性,进一步地,根据LIF神经元模型得到任一神经元的膜电位的更新公式,如上所示。
基于上述任一实施例,语音识别模型中同一隐藏层中的神经元的输出是基于如下步骤进行稀疏连接的:
确定稀疏连接比例;稀疏连接比例为任一隐藏层中进行连接的神经元占任一隐藏层中所有神经元的数量比例;
从任一隐藏层中选择满足稀疏连接比例的神经元,将各个神经元的输出进行随机连接。
具体地,对同一隐藏层中的神经元进行稀疏连接时,可以采用设置稀疏连接比例,用来表示稀疏连接程度。
稀疏连接比例为任一隐藏层中进行连接的神经元占该隐藏层中所有神经元的数量比例。例如,当稀疏连接比例为60%时,可以从该隐藏层中的所有神经元中选择数量比例为60%的神经元进行稀疏连接。具体的连接方式为随机连接。
本发明实施例提供的语音识别方法,通过随机稀疏连接,使得语音识别模型以更加类似于人脑的方式运行,提高了模型的生物合理性。
基于上述任一实施例,语音识别模型是基于如下步骤进行训练的:
获取样本待识别语音对应的样本标签;
基于随机矩阵,将样本标签并行映射到语音识别模型中各个隐藏层,确定各个隐藏层中神经元膜电位到突触权重的局部梯度;
基于各个隐藏层中神经元膜电位到突触权重的局部梯度,对语音识别模型进行训练。
具体地,现有的神经网络都是将误差信号逐层反向传播(Back propagation)到隐藏层神经元,从而实现对模型进行训练的。
与现有的神经网络不同,本申请中的语音识别模型在训练过程中,对参数进行更新时,使用全局标签而不是误差信号作为梯度传播的奖励,使用全局的标签对每一层参数并行修改,不存在层与层之间梯度传播的现象。
将样本待识别语音对应的样本标签L(Label),通过相应的随机矩阵B分别映射到不同的隐藏层中,将映射结果作为隐藏层输出神经元的梯度,用如下公式表示:
然后,在每一层的突触权重更新时计算脉冲时刻的微分,用如下公式表示:
基于上述任一实施例,本发明实施例提供一种语音识别方法,该方法包括:
步骤1,输入数据编码为脉冲序列;
步骤2,根据历史脉冲信息自适应修改神经元发放阈值,更新动力学特性;
步骤3,图2是本发明提供的循环脉冲神经网络的结构示意图,如图2所示,使用步骤2中所述的动力学神经元构建具有自定义稀疏性连接的循环脉冲神经网络;该网络包括输入层、隐藏层1、隐藏层2和输出层;图中虚线为稀疏连接;
步骤4,神经网络参数更新阶段使用全局标签而不是误差信号作为梯度传播的奖励;
步骤5,用基于神经元可塑性和奖励传播机制的循环脉冲神经网络识别音频序列。循环脉冲神经网络进行语音序列识别在输出层使用群组决策的方式,对于一个输入,有最多响应的作为模型分类的最终语音类别。
本发明实施例提供的语音识别方法采用循环脉冲神经网络作为初始模型,具有以下优点:
(1) 动力学计算:加入自适应阈值特性的动态神经元,丰富了神经元的可塑性,使得网络中多个神经元均具有特异性动态变化,同时提高了网络整体的动力学计算能力。
(2) 低功耗能力:神经元之间的稀疏连接可以减少计算开销,而且在不影响性能的情况下降低了功耗,这是深度神经网络无法具备的能力。
(3) 鲁棒计算:在隐藏层内部设置了包含可调的循环连接,有助于识别性能,特别是对于有噪声的样本,更有利于保持序列信息和鲁棒分类。
(4) 生物合理性:全局标签被用作并行梯度传播的奖励,而不是使用反向传播中的误差,更符合生物中的发现,有利于帮助理解大脑中的奖励传播方式。
基于上述任一实施例,图3是本发明提供的语音识别装置的结构示意图,如图3所示,该装置包括:
获取单元310,用于获取待识别语音对应的脉冲序列;
识别单元320,用于将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;
其中,语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
本发明提供的语音识别装置,通过循环脉冲神经网络构建语音识别模型,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接,由于神经元的膜电位能够根据实时输入产生特异性动态变化,能够适应于识别样本的变化,具有较高的动力学计算能力,提高了模型的鲁棒性,提高了识别结果的准确性。此外,通过采用稀疏连接,在提高模型性能的同时在一定程度上降低了模型学习的资源开销,降低了内存占用,减少了能耗,有利于置于芯片上使用。
基于上述任一实施例,任一神经元的膜电位是基于如下公式初始化的:
其中, 为神经元 在 时刻的膜电位, 为神经元 在 时刻的前向膜电
位, 为神经元在 时刻的循环膜电位, 为神经元的膜电容, 为神经元 的突触电
导率, 为神经元 的静息膜电位, 为上一隐藏层中与神经元 连接的神经元的数
量, 为上一隐藏层中神经元 与神经元 之间在前向通道中的突触权重, 为当前层
中的神经元 与神经元 之间在循环通道中的突触权重, 为神经元 接收的来自神经
元 的输入, 为神经元脉冲标志, 为神经元 前向通道中的神经元脉冲标志, 为神
经元 循环通道中的神经元脉冲标志。
基于上述任一实施例,包括:
更新单元,用于基于任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定任一神经元的动态发放阈值;
基于任一神经元的动态发放阈值,以及任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对任一神经元的膜电位进行更新。
基于上述任一实施例,更新单元用于基于如下公式确定动态发放阈值:
基于上述任一实施例,更新单元用于基于如下公式更新膜电位:
基于上述任一实施例,该装置还包括:
稀疏连接单元,用于确定稀疏连接比例;稀疏连接比例为任一隐藏层中进行连接的神经元占任一隐藏层中所有神经元的数量比例;
从任一隐藏层中选择满足稀疏连接比例的神经元,将各个神经元的输出进行随机连接。
基于上述任一实施例,该装置还包括:
训练单元,用于获取样本待识别语音对应的样本标签;
基于随机矩阵,将样本标签并行映射到语音识别模型中各个隐藏层,确定各个隐藏层中神经元膜电位到突触权重的局部梯度;
基于各个隐藏层中神经元膜电位到突触权重的局部梯度,对语音识别模型进行训练。
基于上述任一实施例,图4为本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(Processor)410、通信接口(Communications Interface)420、存储器(Memory)430和通信总线(Communications Bus)440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑命令,以执行如下方法:
获取待识别语音对应的脉冲序列;将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;其中,语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
此外,上述的存储器430中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取待识别语音对应的脉冲序列;将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;其中,语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
获取待识别语音对应的脉冲序列;
将所述脉冲序列输入至语音识别模型,得到所述待识别语音对应的语音识别结果;
其中,所述语音识别模型是基于循环脉冲神经网络构建的,所述语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;
所述前向通道用于连接所述任一神经元与上一隐藏层中的神经元;所述循环通道用于连接所述任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
3.根据权利要求2所述的语音识别方法,其特征在于,所述任一神经元的膜电位是基于如下步骤更新的:
基于所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定所述任一神经元的动态发放阈值;
基于所述任一神经元的动态发放阈值,以及所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对所述任一神经元的膜电位进行更新。
6.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述语音识别模型中同一隐藏层中的神经元的输出是基于如下步骤进行稀疏连接的:
确定稀疏连接比例;所述稀疏连接比例为任一隐藏层中进行连接的神经元占所述任一隐藏层中所有神经元的数量比例;
从所述任一隐藏层中选择满足所述稀疏连接比例的神经元,将各个神经元的输出进行随机连接。
7.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述语音识别模型是基于如下步骤进行训练的:
获取样本待识别语音对应的样本标签;
基于随机矩阵,将所述样本标签并行映射到所述语音识别模型中各个隐藏层,确定各个隐藏层中神经元膜电位到突触权重的局部梯度;
基于各个隐藏层中神经元膜电位到突触权重的局部梯度,对所述语音识别模型进行训练。
8.一种语音识别装置,其特征在于,包括:
获取单元,用于获取待识别语音对应的脉冲序列;
识别单元,用于将所述脉冲序列输入至语音识别模型,得到所述待识别语音对应的语音识别结果;
其中,所述语音识别模型是基于循环脉冲神经网络构建的,所述语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;
所述前向通道用于连接所述任一神经元的输入与上一隐藏层中的神经元的输出;所述循环通道用于连接所述任一神经元在上一时刻的输出与当前时刻的输入。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111185130.3A CN113628615B (zh) | 2021-10-12 | 2021-10-12 | 语音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111185130.3A CN113628615B (zh) | 2021-10-12 | 2021-10-12 | 语音识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113628615A true CN113628615A (zh) | 2021-11-09 |
CN113628615B CN113628615B (zh) | 2022-01-04 |
Family
ID=78391002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111185130.3A Active CN113628615B (zh) | 2021-10-12 | 2021-10-12 | 语音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628615B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114659553A (zh) * | 2022-02-28 | 2022-06-24 | 联想(北京)有限公司 | 一种检测方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121802A1 (en) * | 2016-11-02 | 2018-05-03 | Samsung Electronics Co., Ltd. | Method of converting neural network and recognition apparatus using the same |
WO2020155741A1 (zh) * | 2019-01-29 | 2020-08-06 | 清华大学 | 卷积神经网络和脉冲神经网络的融合结构及方法 |
CN113257282A (zh) * | 2021-07-15 | 2021-08-13 | 成都时识科技有限公司 | 语音情感识别方法、装置、电子设备以及存储介质 |
CN113449864A (zh) * | 2021-07-21 | 2021-09-28 | 北京大学 | 用于图像数据分类的反馈型脉冲神经网络模型训练方法 |
-
2021
- 2021-10-12 CN CN202111185130.3A patent/CN113628615B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121802A1 (en) * | 2016-11-02 | 2018-05-03 | Samsung Electronics Co., Ltd. | Method of converting neural network and recognition apparatus using the same |
WO2020155741A1 (zh) * | 2019-01-29 | 2020-08-06 | 清华大学 | 卷积神经网络和脉冲神经网络的融合结构及方法 |
CN113257282A (zh) * | 2021-07-15 | 2021-08-13 | 成都时识科技有限公司 | 语音情感识别方法、装置、电子设备以及存储介质 |
CN113449864A (zh) * | 2021-07-21 | 2021-09-28 | 北京大学 | 用于图像数据分类的反馈型脉冲神经网络模型训练方法 |
Non-Patent Citations (3)
Title |
---|
YANLI YAO等: "An integrated system for robust gender classification with convolutional restricted Boltzmann machine and spiking neural network", 《2019 IEEE SYMPOSIUM SERIES ON COMPUTATIONAL INTELLIGENCE (SSCI)》 * |
张铁林,徐波: "脉冲神经网络研究现状及展望", 《计算机学报》 * |
程龙等: "脉冲神经网络:模型、学习算法与应用", 《控制与决策》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114659553A (zh) * | 2022-02-28 | 2022-06-24 | 联想(北京)有限公司 | 一种检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113628615B (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11853875B2 (en) | Neural network apparatus and method | |
JP2020071883A (ja) | モデル訓練方法、データ認識方法及びデータ認識装置 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
Shrestha et al. | Stable spike-timing dependent plasticity rule for multilayer unsupervised and supervised learning | |
KR102154676B1 (ko) | 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법 | |
WO2015148217A1 (en) | Artificial neural network and perceptron learning using spiking neurons | |
KR20200129639A (ko) | 모델 학습 방법 및 장치 | |
KR20170031695A (ko) | 신경망들에서의 콘볼루션 동작의 분해 | |
US20150212861A1 (en) | Value synchronization across neural processors | |
CN108304912B (zh) | 一种运用抑制信号实现脉冲神经网络监督学习的系统和方法 | |
WO2015167765A2 (en) | Temporal spike encoding for temporal learning | |
CN112085198A (zh) | 基于全局反馈以及局部突触可塑的脉冲神经网络优化方法 | |
WO2015047589A2 (en) | Methods and apparatus for implementation of group tags for neural models | |
CN109308316B (zh) | 一种基于主题聚类的自适应对话生成系统 | |
CN113628615B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
Trivedi | Introduction to various algorithms of speech recognition: hidden Markov model, dynamic time warping and artificial neural networks | |
CN113935475A (zh) | 具有脉冲时刻偏移量的脉冲神经网络的仿真与训练方法 | |
CN114266351A (zh) | 基于无监督学习时间编码的脉冲神经网络训练方法及系统 | |
Joshi et al. | MATLAB based back-propagation neural network for automatic speech recognition | |
Bethi et al. | An optimized deep spiking neural network architecture without gradients | |
CN111091815A (zh) | 基于膜电压驱动的聚合标签学习模型的语音识别方法 | |
CN112437929A (zh) | 带泄漏尖峰神经网络中的时间编码 | |
Yu et al. | Improving multispike learning with plastic synaptic delays | |
CN107798384B (zh) | 一种基于可进化脉冲神经网络的鸢尾花卉分类方法和装置 | |
US9342782B2 (en) | Stochastic delay plasticity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |