CN113628615A - 语音识别方法、装置、电子设备及存储介质 - Google Patents

语音识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113628615A
CN113628615A CN202111185130.3A CN202111185130A CN113628615A CN 113628615 A CN113628615 A CN 113628615A CN 202111185130 A CN202111185130 A CN 202111185130A CN 113628615 A CN113628615 A CN 113628615A
Authority
CN
China
Prior art keywords
neuron
pulse
neurons
hidden layer
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111185130.3A
Other languages
English (en)
Other versions
CN113628615B (zh
Inventor
张铁林
刘洪星
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111185130.3A priority Critical patent/CN113628615B/zh
Publication of CN113628615A publication Critical patent/CN113628615A/zh
Application granted granted Critical
Publication of CN113628615B publication Critical patent/CN113628615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种语音识别方法、装置、电子设备及存储介质,其中方法包括:获取待识别语音对应的脉冲序列;将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。本发明提供的方法、装置、电子设备及存储介质,能够适应于识别样本的变化,提高了模型的鲁棒性,提高了识别结果的准确性。

Description

语音识别方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
近年来,许多不同类型的深度神经网络被提出,用于解决语音数据在分类、识别、记忆关联和预测上问题,然而,随着深度神经网络的快速发展的同时也存在着一些不足。第一个问题是突触参数的增加,人工神经元和网络之间不平衡的复杂性使得深度神经网络包含大量的网络参数需要调整,增加了网络学习难度。第二个问题是反向传播方过程慢和计算成本高,被认为是非生物合理的方式。在深度神经网络中,反馈与前馈在神经网络依次交织,误差信号必须从输出神经元逐层反向传播到隐藏神经元,尤其对于深度极高的网络还存在梯度消失或梯度爆炸的风险。深度神经网络的监督和同步计算的本质也使得它们难以通过并行计算来加速。第三个问题是反向传播过程中深度神经网络中的所有人工神经元都必须满足数学可微分性的限制,这显然缺乏生物验证的支持,其中不可微分的脉冲信号无处不在。目前深度神经网络发展的一个关键问题是网络的可解释性弱以及生物合理性弱,然而脉冲神经网络的丰富的可解释性可弥补这一问题。
在处理语音数据时,可以采用脉冲神经网络(Spiking Neuron Networks,SNN)。相比于深度神经网络来说,脉冲神经网络具有更加复杂的神经元和突触结构,考虑到现有人工网络所忽略的很多生物规则可能恰恰是实现通用类人脑智能的关键,这些生物规则加入到更加类脑的脉冲神经网络中将有可能使得现有网络获得更为强大的计算能力和适应能力。在脉冲神经网络中,神经元可塑性在神经元的动态信息加工中起着至关重要的作用。
现有的语音识别方法通常采用标准神经元模型,例如H-H模型、LIF(Integrate-And-Fire)模型、SRM模型和Izhikevich模型,模型的鲁棒性差,语音识别结果准确性差,计算成本高。
发明内容
本发明提供一种语音识别方法、装置、电子设备及存储介质,用于解决现有技术中语音识别结果准确性差,计算成本高的技术问题。
本发明提供一种语音识别方法,包括:
获取待识别语音对应的脉冲序列;
将所述脉冲序列输入至语音识别模型,得到所述待识别语音对应的语音识别结果;
其中,所述语音识别模型是基于循环脉冲神经网络构建的,所述语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;
所述前向通道用于连接所述任一神经元与上一隐藏层中的神经元;所述循环通道用于连接所述任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
根据本发明提供的语音识别方法,所述任一神经元的膜电位是基于如下公式初始化的:
Figure 570477DEST_PATH_IMAGE001
Figure 956459DEST_PATH_IMAGE002
Figure 80404DEST_PATH_IMAGE003
Figure 463497DEST_PATH_IMAGE004
其中,
Figure 887657DEST_PATH_IMAGE005
为神经元
Figure 178961DEST_PATH_IMAGE006
Figure 288737DEST_PATH_IMAGE007
时刻的膜电位,
Figure 956479DEST_PATH_IMAGE008
为神经元
Figure 471030DEST_PATH_IMAGE006
Figure 933235DEST_PATH_IMAGE007
时刻的前向膜电 位,
Figure 31772DEST_PATH_IMAGE009
为神经元
Figure 736161DEST_PATH_IMAGE006
Figure 603754DEST_PATH_IMAGE007
时刻的循环膜电位,
Figure 705702DEST_PATH_IMAGE010
为神经元
Figure 911775DEST_PATH_IMAGE006
的膜电容,
Figure 531106DEST_PATH_IMAGE011
为神经元
Figure 643418DEST_PATH_IMAGE006
的突触 电导率,
Figure 821328DEST_PATH_IMAGE012
为神经元
Figure 284670DEST_PATH_IMAGE006
的静息膜电位,
Figure 209157DEST_PATH_IMAGE013
为上一隐藏层中与神经元
Figure 175976DEST_PATH_IMAGE006
连接的神经元的数 量,
Figure 291831DEST_PATH_IMAGE014
为上一隐藏层中神经元
Figure 209846DEST_PATH_IMAGE015
与神经元
Figure 436559DEST_PATH_IMAGE006
之间在前向通道中的突触权重,
Figure 257885DEST_PATH_IMAGE016
为当前层 中的神经元
Figure 368142DEST_PATH_IMAGE015
与神经元
Figure 150285DEST_PATH_IMAGE006
之间在循环通道中的突触权重,
Figure 39743DEST_PATH_IMAGE017
为神经元
Figure 355056DEST_PATH_IMAGE006
接收的来自神经 元
Figure 202926DEST_PATH_IMAGE015
的输入,
Figure 973829DEST_PATH_IMAGE018
为神经元脉冲标志,
Figure 666979DEST_PATH_IMAGE019
为神经元
Figure 72684DEST_PATH_IMAGE006
前向通道中的神经元脉冲标志,
Figure 527673DEST_PATH_IMAGE020
为神经 元
Figure 409042DEST_PATH_IMAGE006
循环通道中的神经元脉冲标志。
根据本发明提供的语音识别方法,所述任一神经元的膜电位是基于如下步骤更新的:
基于所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定所述任一神经元的动态发放阈值;
基于所述任一神经元的动态发放阈值,以及所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对所述任一神经元的膜电位进行更新。
根据本发明提供的语音识别方法,所述基于所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定所述任一神经元的动态发放阈值,包括:
Figure 46828DEST_PATH_IMAGE021
其中,
Figure 192857DEST_PATH_IMAGE022
为神经元
Figure 726738DEST_PATH_IMAGE006
Figure 95402DEST_PATH_IMAGE007
时刻的动态发放阈值,
Figure 832152DEST_PATH_IMAGE023
为第一权重系数,
Figure 478028DEST_PATH_IMAGE024
为第二权 重系数。
根据本发明提供的语音识别方法,所述基于所述任一神经元的动态发放阈值,以及所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对所述任一神经元的膜电位进行更新,包括:
Figure 307444DEST_PATH_IMAGE025
其中,
Figure 540235DEST_PATH_IMAGE026
为上一隐藏层中神经元
Figure 644458DEST_PATH_IMAGE015
与神经元
Figure 377796DEST_PATH_IMAGE006
之间的突触权重,
Figure 643692DEST_PATH_IMAGE027
为第三权重系 数。
根据本发明提供的语音识别方法,所述语音识别模型中同一隐藏层中的神经元的输出是基于如下步骤进行稀疏连接的:
确定稀疏连接比例;所述稀疏连接比例为任一隐藏层中进行连接的神经元占所述任一隐藏层中所有神经元的数量比例;
从所述任一隐藏层中选择满足所述稀疏连接比例的神经元,将各个神经元的输出进行随机连接。
根据本发明提供的语音识别方法,所述语音识别模型是基于如下步骤进行训练的:
获取样本待识别语音对应的样本标签;
基于随机矩阵,将所述样本标签并行映射到所述语音识别模型中各个隐藏层,确定各个隐藏层中神经元膜电位到突触权重的局部梯度;
基于各个隐藏层中神经元膜电位到突触权重的局部梯度,对所述语音识别模型进行训练。
本发明提供一种语音识别装置,包括:
获取单元,用于获取待识别语音对应的脉冲序列;
识别单元,用于将所述脉冲序列输入至语音识别模型,得到所述待识别语音对应的语音识别结果;
其中,所述语音识别模型是基于循环脉冲神经网络构建的,所述语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;
所述前向通道用于连接所述任一神经元的输入与上一隐藏层中的神经元的输出;所述循环通道用于连接所述任一神经元在上一时刻的输出与当前时刻的输入。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述语音识别方法的步骤。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述语音识别方法的步骤。
本发明提供的语音识别方法、装置、电子设备及存储介质,通过循环脉冲神经网络构建语音识别模型,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接,由于神经元的膜电位能够根据实时输入产生特异性动态变化,能够适应于识别样本的变化,具有较高的动力学计算能力,提高了模型的鲁棒性,提高了识别结果的准确性。此外,通过采用稀疏连接,在提高模型性能的同时在一定程度上降低了模型学习的资源开销,降低了内存占用,减少了能耗,有利于置于芯片上使用。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音识别方法的流程示意图;
图2是本发明提供的循环脉冲神经网络的结构示意图;
图3是本发明提供的语音识别装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在脉冲神经网络中,神经元可塑性在神经元的动态信息加工中起着至关重要的作用。常用的标准神经元模型忽略了神经元的放电阈值可塑性对神经元动力学的重要影响,而神经元的动力学特性直接影响网络的动力学和鲁棒性计算,利用现有的脉冲神经网络在处理语音时,模型的鲁棒性差,识别结果的准确性差。
本发明实施例提供的方法和装置中适用于视频数据、音频数据和图像数据等的处理,下面以音频数据进行说明。
图1是本发明提供的语音识别方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待识别语音对应的脉冲序列。
具体地,待识别语音可以从公开的语音数据集获取,例如TIDigits或者TIMIT。
在识别前,可以将待识别语音转换为脉冲序列,转换方法可以采用脉冲编码器将非脉冲输入信号编码为符合某种分布形式的脉冲序列。脉冲编码器可以为泊松编码器等。泊松编码器将输入数据编码为发放次数分布符合泊松过程的脉冲序列。例如,对于一段语音,可以将其分为多个帧,每一帧都可以被脉冲编码器转换为符合泊松分布的脉冲序列。
步骤120,将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;
其中,语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
具体地,语音识别结果为对待识别语音的脉冲序列进行识别后得到的结果。例如,若待识别语音为数字1至9的读音,则语音识别结果可以为读音对应的具体数字。
语音识别模型可以预先训练得到,具体的训练方式如下:首先,收集大量的样本待识别语音,以及每一待识别语音对应的样本标签(语音识别结果)。其次,对每一样本待识别语音进行转换,得到每一样本待识别语音对应的脉冲序列。随即,根据每一样本待识别语音对应的脉冲序列和样本标签,对初始模型进行训练,使得初始模型对待识别语音对应的脉冲序列中进行特征学习,以样本标签为真值,提高初始模型对于样本待识别语音中内容的预测能力,得到语音识别模型。
语音识别模型的初始模型可以为循环脉冲神经网络。循环脉冲神经网络的网络结构可以包括输入层、输出层和多个隐藏层。输入层的神经元数量可以根据输入脉冲序列的长度进行确定,输出层的神经元数量可以根据语音识别结果的类型进行确定。隐藏层的数量,以及每一隐藏层中的神经元数量可以根据实际需要进行设置。
在对各个隐藏层中的神经元进行连接后,可以对同一隐藏层中的神经元的输出进行稀疏连接,使得当前隐藏层中的神经元提取的信号特征可以进行融合后,输入下一隐藏层中的神经元,使得下一隐藏层中的神经元能够得到更丰富的输入信息,提高对更多细节特征的学习能力,提高了模型的抗噪性能,从而提高了整个语音识别模型的鲁棒性。
稀疏连接的方式可以采用随机连接的方式,例如,当前隐藏层包含4个神经元,分别为神经元1、神经元2、神经元3和神经元4,则可以对神经元1和2的输出进行连接,神经元3和4的输出进行连接。
脉冲神经网络中隐藏层的输出由该隐藏层的神经元的发放状态组合而成,神经元的发放状态是由膜电位确定的,也就是说,任一隐藏层的输出是由该层中各个神经元的膜电位确定的。
由于本发明实施例提供的语音识别模型是以循环脉冲神经网络为初始模型构建的,任一隐藏层中任一神经元的输入通道包含前向通道和循环通道。
前向通道用于连接任一神经元与上一隐藏层中的神经元。前向通道中上一隐藏层神经元的输出与突触权重的乘积作为当前隐藏层中神经元的输入。
循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
对于语音识别模型中任一隐藏层中任一神经元,其膜电位的初始化和更新受到了前向通道和循环通道的影响,具体来看,膜电位是根据前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的。神经元脉冲标志表示膜电位达到发放阈值时发放的脉冲数量。通过双通道的神经元脉冲标志确定神经元的膜电位,使得隐藏层中的神经元具有可塑性,膜电位能够根据实时输入产生特异性动态变化。
本发明实施例提供的语音识别方法,通过循环脉冲神经网络构建语音识别模型,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接,由于神经元的膜电位能够根据实时输入产生特异性动态变化,能够适应于识别样本的变化,具有较高的动力学计算能力,提高了模型的鲁棒性,提高了识别结果的准确性。此外,通过采用稀疏连接,在提高模型性能的同时在一定程度上降低了模型学习的资源开销,降低了内存占用,减少了能耗,有利于置于芯片上使用。
基于上述实施例,任一神经元的膜电位是基于如下公式初始化的:
Figure 596736DEST_PATH_IMAGE001
Figure 961375DEST_PATH_IMAGE028
Figure 440898DEST_PATH_IMAGE029
Figure 753062DEST_PATH_IMAGE004
其中,
Figure 82150DEST_PATH_IMAGE005
为神经元
Figure 137962DEST_PATH_IMAGE006
Figure 471991DEST_PATH_IMAGE007
时刻的膜电位,
Figure 784417DEST_PATH_IMAGE008
为神经元
Figure 712053DEST_PATH_IMAGE006
Figure 696189DEST_PATH_IMAGE007
时刻的前向膜电 位,
Figure 524206DEST_PATH_IMAGE009
为神经元
Figure 506068DEST_PATH_IMAGE006
Figure 45634DEST_PATH_IMAGE007
时刻的循环膜电位,
Figure 938854DEST_PATH_IMAGE010
为神经元
Figure 513055DEST_PATH_IMAGE006
的膜电容,
Figure 836458DEST_PATH_IMAGE011
为神经元
Figure 597740DEST_PATH_IMAGE006
的突触 电导率,
Figure 799046DEST_PATH_IMAGE012
为神经元
Figure 666901DEST_PATH_IMAGE006
的静息膜电位,
Figure 787304DEST_PATH_IMAGE013
为上一隐藏层中与神经元
Figure 176828DEST_PATH_IMAGE006
连接的神经元的数 量,
Figure 539414DEST_PATH_IMAGE014
为上一隐藏层中神经元
Figure 697994DEST_PATH_IMAGE015
与神经元
Figure 254877DEST_PATH_IMAGE006
之间在前向通道中的突触权重,
Figure 689620DEST_PATH_IMAGE016
为当前层 中的神经元
Figure 232728DEST_PATH_IMAGE015
与神经元
Figure 104869DEST_PATH_IMAGE006
之间在循环通道中的突触权重,
Figure 472134DEST_PATH_IMAGE017
为神经元
Figure 695305DEST_PATH_IMAGE006
接收的来自神经 元
Figure 277989DEST_PATH_IMAGE015
的输入,
Figure 473478DEST_PATH_IMAGE018
为神经元脉冲标志,
Figure 372164DEST_PATH_IMAGE019
为神经元
Figure 190953DEST_PATH_IMAGE006
前向通道中的神经元脉冲标志,
Figure 466077DEST_PATH_IMAGE020
为神 经元
Figure 453756DEST_PATH_IMAGE006
循环通道中的神经元脉冲标志。
具体地,由于语音识别模型中采用了稀疏连接,前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志都会对神经元的膜电位产生影响。前向通道中的神经元脉冲标志对神经元产生影响,生成前向膜电位;循环通道中的神经元脉冲标志对神经元产生影响,生成循环膜电位。这两个通道产生的膜电位是同时影响神经元的。这两种类型的膜电位可以用如下公式定义:
Figure 753369DEST_PATH_IMAGE030
Figure 154394DEST_PATH_IMAGE031
Figure 577417DEST_PATH_IMAGE032
Figure 42771DEST_PATH_IMAGE033
其中,
Figure 158625DEST_PATH_IMAGE034
为发放阈值,
Figure 843685DEST_PATH_IMAGE035
为前向通道中发放脉冲的时刻,
Figure 571863DEST_PATH_IMAGE036
为循环通道中发放 脉冲的时刻,
Figure 393188DEST_PATH_IMAGE037
为神经元的不应期,
Figure 178479DEST_PATH_IMAGE038
为前向通道的时间参数,
Figure 288518DEST_PATH_IMAGE039
为循环通道的时间参 数。
在此定义上,可以对前向膜电位和循环膜电位进行整合,对任一神经元的膜电位进行初始化,得到上面的公式。
脉冲神经网络中使用的LIF神经元膜电位动态变化如公式所示:
Figure 177976DEST_PATH_IMAGE040
Figure 513797DEST_PATH_IMAGE041
Figure 96088DEST_PATH_IMAGE042
其中,
Figure 365526DEST_PATH_IMAGE043
表示神经元释放特定脉冲的时刻。
Figure 557211DEST_PATH_IMAGE008
具有历史整合状态。同时
Figure 556391DEST_PATH_IMAGE019
通过静息历史膜电位
Figure 184950DEST_PATH_IMAGE044
而不是直接阻断
Figure 567783DEST_PATH_IMAGE008
的方式控制不应期
Figure 939989DEST_PATH_IMAGE037
基于上述任一实施例,任一神经元的膜电位是基于如下步骤更新的:
基于任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定任一神经元的动态发放阈值;
基于任一神经元的动态发放阈值,以及任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对任一神经元的膜电位进行更新。
具体地,任一神经元的膜电位初始化后,其发放阈值会受到两个通道的影响,则可以对该神经元的膜电位发放阈值进行双通道自适应更新,从而提高模型动力学特性。
可以根据任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定该神经元的动态发放阈值。然后再根据动态发放阈值,结合前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对该神经元的膜电位进行更新。
基于上述任一实施例,基于任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定任一神经元的动态发放阈值,包括:
Figure 590414DEST_PATH_IMAGE021
其中,
Figure 888409DEST_PATH_IMAGE022
为神经元
Figure 460335DEST_PATH_IMAGE006
Figure 495287DEST_PATH_IMAGE007
时刻的动态发放阈值,
Figure 371190DEST_PATH_IMAGE023
为第一权重系数,
Figure 731764DEST_PATH_IMAGE024
为第二权 重系数。
具体地,动态发放阈值的确定可以用上述公式来表示,上述公式为常微分方程。在 两个通道中没有输入脉冲时,动态发放阈值的平衡点为0。在在输入来自前向通道的脉冲
Figure 961626DEST_PATH_IMAGE019
和循环通道的脉冲
Figure 534690DEST_PATH_IMAGE020
时,动态发放阈值的平衡点为
Figure 362968DEST_PATH_IMAGE045
Figure 5696DEST_PATH_IMAGE023
为第一权重系数,
Figure 83373DEST_PATH_IMAGE024
为第二 权重系数,均为超参数,可以根据实际情况进行设置,例如,
Figure 866652DEST_PATH_IMAGE046
Figure 844711DEST_PATH_IMAGE047
对于
Figure 156874DEST_PATH_IMAGE022
,根据上述实施例中的公式,可以得到其稳定解为:
Figure 925110DEST_PATH_IMAGE048
基于上述任一实施例,基于任一神经元的动态发放阈值,以及任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对任一神经元的膜电位进行更新,包括:
Figure 335582DEST_PATH_IMAGE025
其中,
Figure 810557DEST_PATH_IMAGE026
为上一隐藏层中神经元
Figure 683835DEST_PATH_IMAGE015
与神经元
Figure 110006DEST_PATH_IMAGE006
之间的突触权重,
Figure 828563DEST_PATH_IMAGE027
为第三权重系 数。
具体地,任一神经元的动态发放阈值可以提高神经元的可塑性,进一步地,根据LIF神经元模型得到任一神经元的膜电位的更新公式,如上所示。
从静息膜电位
Figure 485941DEST_PATH_IMAGE012
到膜电位触发的这段时间中,动态发放阈值
Figure 641372DEST_PATH_IMAGE022
逐渐积累, 最终达到一个相对稳定的值。由于
Figure 446517DEST_PATH_IMAGE049
的存在,使得发放阈值改变为
Figure 342666DEST_PATH_IMAGE050
,由此实 现了发放阈值的动态变化。
Figure 651288DEST_PATH_IMAGE027
为超参数,可以根据实际情况进行设置,例如,
Figure 804052DEST_PATH_IMAGE051
基于上述任一实施例,语音识别模型中同一隐藏层中的神经元的输出是基于如下步骤进行稀疏连接的:
确定稀疏连接比例;稀疏连接比例为任一隐藏层中进行连接的神经元占任一隐藏层中所有神经元的数量比例;
从任一隐藏层中选择满足稀疏连接比例的神经元,将各个神经元的输出进行随机连接。
具体地,对同一隐藏层中的神经元进行稀疏连接时,可以采用设置稀疏连接比例,用来表示稀疏连接程度。
稀疏连接比例为任一隐藏层中进行连接的神经元占该隐藏层中所有神经元的数量比例。例如,当稀疏连接比例为60%时,可以从该隐藏层中的所有神经元中选择数量比例为60%的神经元进行稀疏连接。具体的连接方式为随机连接。
本发明实施例提供的语音识别方法,通过随机稀疏连接,使得语音识别模型以更加类似于人脑的方式运行,提高了模型的生物合理性。
基于上述任一实施例,语音识别模型是基于如下步骤进行训练的:
获取样本待识别语音对应的样本标签;
基于随机矩阵,将样本标签并行映射到语音识别模型中各个隐藏层,确定各个隐藏层中神经元膜电位到突触权重的局部梯度;
基于各个隐藏层中神经元膜电位到突触权重的局部梯度,对语音识别模型进行训练。
具体地,现有的神经网络都是将误差信号逐层反向传播(Back propagation)到隐藏层神经元,从而实现对模型进行训练的。
与现有的神经网络不同,本申请中的语音识别模型在训练过程中,对参数进行更新时,使用全局标签而不是误差信号作为梯度传播的奖励,使用全局的标签对每一层参数并行修改,不存在层与层之间梯度传播的现象。
将样本待识别语音对应的样本标签L(Label),通过相应的随机矩阵B分别映射到不同的隐藏层中,将映射结果作为隐藏层输出神经元的梯度,用如下公式表示:
Figure 936306DEST_PATH_IMAGE052
其中,
Figure 262245DEST_PATH_IMAGE053
为第
Figure 300739DEST_PATH_IMAGE006
层输出神经元的梯度,
Figure 919677DEST_PATH_IMAGE054
为第
Figure 574781DEST_PATH_IMAGE006
层对应的随机矩阵。随 机矩阵
Figure 438832DEST_PATH_IMAGE054
的维度大小是基于第
Figure 833297DEST_PATH_IMAGE006
层的神经元数量确定的。
然后,在每一层的突触权重更新时计算脉冲时刻的微分,用如下公式表示:
Figure 593443DEST_PATH_IMAGE055
其中,
Figure 329318DEST_PATH_IMAGE056
为隐藏层神经元膜电位到突触权重的局部梯度,
Figure 105381DEST_PATH_IMAGE057
为第
Figure 508681DEST_PATH_IMAGE058
个神 经元的在时间t的发放脉冲(spike)差值,
Figure 630875DEST_PATH_IMAGE059
为设定值。
上述公式在该过程中仅当其在不可微分时,即
Figure 588466DEST_PATH_IMAGE060
时使用。
基于上述任一实施例,本发明实施例提供一种语音识别方法,该方法包括:
步骤1,输入数据编码为脉冲序列;
步骤2,根据历史脉冲信息自适应修改神经元发放阈值,更新动力学特性;
步骤3,图2是本发明提供的循环脉冲神经网络的结构示意图,如图2所示,使用步骤2中所述的动力学神经元构建具有自定义稀疏性连接的循环脉冲神经网络;该网络包括输入层、隐藏层1、隐藏层2和输出层;图中虚线为稀疏连接;
步骤4,神经网络参数更新阶段使用全局标签而不是误差信号作为梯度传播的奖励;
步骤5,用基于神经元可塑性和奖励传播机制的循环脉冲神经网络识别音频序列。循环脉冲神经网络进行语音序列识别在输出层使用群组决策的方式,对于一个输入,有最多响应的作为模型分类的最终语音类别。
本发明实施例提供的语音识别方法采用循环脉冲神经网络作为初始模型,具有以下优点:
(1) 动力学计算:加入自适应阈值特性的动态神经元,丰富了神经元的可塑性,使得网络中多个神经元均具有特异性动态变化,同时提高了网络整体的动力学计算能力。
(2) 低功耗能力:神经元之间的稀疏连接可以减少计算开销,而且在不影响性能的情况下降低了功耗,这是深度神经网络无法具备的能力。
(3) 鲁棒计算:在隐藏层内部设置了包含可调的循环连接,有助于识别性能,特别是对于有噪声的样本,更有利于保持序列信息和鲁棒分类。
(4) 生物合理性:全局标签被用作并行梯度传播的奖励,而不是使用反向传播中的误差,更符合生物中的发现,有利于帮助理解大脑中的奖励传播方式。
基于上述任一实施例,图3是本发明提供的语音识别装置的结构示意图,如图3所示,该装置包括:
获取单元310,用于获取待识别语音对应的脉冲序列;
识别单元320,用于将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;
其中,语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
本发明提供的语音识别装置,通过循环脉冲神经网络构建语音识别模型,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接,由于神经元的膜电位能够根据实时输入产生特异性动态变化,能够适应于识别样本的变化,具有较高的动力学计算能力,提高了模型的鲁棒性,提高了识别结果的准确性。此外,通过采用稀疏连接,在提高模型性能的同时在一定程度上降低了模型学习的资源开销,降低了内存占用,减少了能耗,有利于置于芯片上使用。
基于上述任一实施例,任一神经元的膜电位是基于如下公式初始化的:
Figure 263161DEST_PATH_IMAGE001
Figure 629290DEST_PATH_IMAGE002
Figure 262396DEST_PATH_IMAGE003
Figure 848229DEST_PATH_IMAGE004
其中,
Figure 624818DEST_PATH_IMAGE005
为神经元
Figure 346917DEST_PATH_IMAGE006
Figure 416505DEST_PATH_IMAGE007
时刻的膜电位,
Figure 722590DEST_PATH_IMAGE008
为神经元
Figure 739087DEST_PATH_IMAGE006
Figure 705906DEST_PATH_IMAGE007
时刻的前向膜电 位,
Figure 51787DEST_PATH_IMAGE009
为神经元
Figure 736847DEST_PATH_IMAGE006
Figure 727674DEST_PATH_IMAGE007
时刻的循环膜电位,
Figure 548999DEST_PATH_IMAGE010
为神经元
Figure 898072DEST_PATH_IMAGE006
的膜电容,
Figure 181680DEST_PATH_IMAGE011
为神经元
Figure 602297DEST_PATH_IMAGE006
的突触电 导率,
Figure 887916DEST_PATH_IMAGE012
为神经元
Figure 234321DEST_PATH_IMAGE006
的静息膜电位,
Figure 503759DEST_PATH_IMAGE013
为上一隐藏层中与神经元
Figure 400171DEST_PATH_IMAGE006
连接的神经元的数 量,
Figure 691694DEST_PATH_IMAGE014
为上一隐藏层中神经元
Figure 585832DEST_PATH_IMAGE015
与神经元
Figure 201621DEST_PATH_IMAGE006
之间在前向通道中的突触权重,
Figure 72363DEST_PATH_IMAGE016
为当前层 中的神经元
Figure 926050DEST_PATH_IMAGE015
与神经元
Figure 850143DEST_PATH_IMAGE006
之间在循环通道中的突触权重,
Figure 595639DEST_PATH_IMAGE017
为神经元
Figure 896170DEST_PATH_IMAGE006
接收的来自神经 元
Figure 775002DEST_PATH_IMAGE015
的输入,
Figure 73259DEST_PATH_IMAGE018
为神经元脉冲标志,
Figure 663641DEST_PATH_IMAGE019
为神经元
Figure 138835DEST_PATH_IMAGE006
前向通道中的神经元脉冲标志,
Figure 763851DEST_PATH_IMAGE020
为神 经元
Figure 905114DEST_PATH_IMAGE006
循环通道中的神经元脉冲标志。
基于上述任一实施例,包括:
更新单元,用于基于任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定任一神经元的动态发放阈值;
基于任一神经元的动态发放阈值,以及任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对任一神经元的膜电位进行更新。
基于上述任一实施例,更新单元用于基于如下公式确定动态发放阈值:
Figure 684588DEST_PATH_IMAGE021
其中,
Figure 61343DEST_PATH_IMAGE022
为神经元
Figure 416232DEST_PATH_IMAGE006
Figure 354495DEST_PATH_IMAGE007
时刻的动态发放阈值,
Figure 794834DEST_PATH_IMAGE023
为第一权重系数,
Figure 240859DEST_PATH_IMAGE024
为第二权 重系数。
基于上述任一实施例,更新单元用于基于如下公式更新膜电位:
Figure 214369DEST_PATH_IMAGE025
其中,
Figure 822068DEST_PATH_IMAGE026
为上一隐藏层中神经元
Figure 812021DEST_PATH_IMAGE015
与神经元
Figure 190567DEST_PATH_IMAGE006
之间的突触权重,
Figure 910261DEST_PATH_IMAGE027
为第三权重系 数。
基于上述任一实施例,该装置还包括:
稀疏连接单元,用于确定稀疏连接比例;稀疏连接比例为任一隐藏层中进行连接的神经元占任一隐藏层中所有神经元的数量比例;
从任一隐藏层中选择满足稀疏连接比例的神经元,将各个神经元的输出进行随机连接。
基于上述任一实施例,该装置还包括:
训练单元,用于获取样本待识别语音对应的样本标签;
基于随机矩阵,将样本标签并行映射到语音识别模型中各个隐藏层,确定各个隐藏层中神经元膜电位到突触权重的局部梯度;
基于各个隐藏层中神经元膜电位到突触权重的局部梯度,对语音识别模型进行训练。
基于上述任一实施例,图4为本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(Processor)410、通信接口(Communications Interface)420、存储器(Memory)430和通信总线(Communications Bus)440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑命令,以执行如下方法:
获取待识别语音对应的脉冲序列;将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;其中,语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
此外,上述的存储器430中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取待识别语音对应的脉冲序列;将脉冲序列输入至语音识别模型,得到待识别语音对应的语音识别结果;其中,语音识别模型是基于循环脉冲神经网络构建的,语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;前向通道用于连接任一神经元与上一隐藏层中的神经元;循环通道用于连接任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
获取待识别语音对应的脉冲序列;
将所述脉冲序列输入至语音识别模型,得到所述待识别语音对应的语音识别结果;
其中,所述语音识别模型是基于循环脉冲神经网络构建的,所述语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;
所述前向通道用于连接所述任一神经元与上一隐藏层中的神经元;所述循环通道用于连接所述任一神经元在上一时刻的输出与当前时刻同层的其他神经元的输出。
2.根据权利要求1所述的语音识别方法,其特征在于,所述任一神经元的膜电位是基于如下公式初始化的:
Figure DEST_PATH_IMAGE001
Figure 752087DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 983741DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
为神经元
Figure 75063DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
时刻的膜电位,
Figure 513348DEST_PATH_IMAGE008
为神经元
Figure 796562DEST_PATH_IMAGE006
Figure 697653DEST_PATH_IMAGE007
时刻的前向膜电位,
Figure 932063DEST_PATH_IMAGE009
为神经元
Figure 475171DEST_PATH_IMAGE006
Figure 347312DEST_PATH_IMAGE007
时刻的循环膜电位,
Figure 310982DEST_PATH_IMAGE010
为神经元
Figure 409519DEST_PATH_IMAGE006
的膜电容,
Figure 349793DEST_PATH_IMAGE011
为神经元
Figure 715921DEST_PATH_IMAGE006
的突触电导率,
Figure 614607DEST_PATH_IMAGE012
为神经元
Figure 59495DEST_PATH_IMAGE006
的静息膜电位,
Figure 197869DEST_PATH_IMAGE013
为上一隐藏层中与神经元
Figure 44603DEST_PATH_IMAGE006
连接的神经元的数量,
Figure 222512DEST_PATH_IMAGE014
为上一隐 藏层中神经元
Figure 420275DEST_PATH_IMAGE015
与神经元
Figure 702352DEST_PATH_IMAGE006
之间在前向通道中的突触权重,
Figure 46002DEST_PATH_IMAGE016
为当前层中的神经元
Figure 286490DEST_PATH_IMAGE015
与神经 元
Figure 581337DEST_PATH_IMAGE006
之间在循环通道中的突触权重,
Figure 165639DEST_PATH_IMAGE017
为神经元
Figure 862331DEST_PATH_IMAGE006
接收的来自神经元
Figure 8142DEST_PATH_IMAGE015
的输入,
Figure 410523DEST_PATH_IMAGE018
为神经元 脉冲标志,
Figure 175348DEST_PATH_IMAGE019
为神经元
Figure 851180DEST_PATH_IMAGE006
前向通道中的神经元脉冲标志,
Figure 807372DEST_PATH_IMAGE020
为神经元
Figure 201445DEST_PATH_IMAGE006
循环通道中的神经元 脉冲标志。
3.根据权利要求2所述的语音识别方法,其特征在于,所述任一神经元的膜电位是基于如下步骤更新的:
基于所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定所述任一神经元的动态发放阈值;
基于所述任一神经元的动态发放阈值,以及所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对所述任一神经元的膜电位进行更新。
4.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,确定所述任一神经元的动态发放阈值,包括:
Figure 629015DEST_PATH_IMAGE021
其中,
Figure 536184DEST_PATH_IMAGE022
为神经元
Figure 23798DEST_PATH_IMAGE006
Figure 544647DEST_PATH_IMAGE007
时刻的动态发放阈值,
Figure 775908DEST_PATH_IMAGE023
为第一权重系数,
Figure 160753DEST_PATH_IMAGE024
为第二权重系数。
5.根据权利要求4所述的语音识别方法,其特征在于,所述基于所述任一神经元的动态发放阈值,以及所述任一神经元输入的前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志,对所述任一神经元的膜电位进行更新,包括:
Figure DEST_PATH_IMAGE025
其中,
Figure 659080DEST_PATH_IMAGE026
为上一隐藏层中神经元
Figure 637532DEST_PATH_IMAGE015
与神经元
Figure 171019DEST_PATH_IMAGE006
之间的突触权重,
Figure 816895DEST_PATH_IMAGE027
为第三权重系数。
6.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述语音识别模型中同一隐藏层中的神经元的输出是基于如下步骤进行稀疏连接的:
确定稀疏连接比例;所述稀疏连接比例为任一隐藏层中进行连接的神经元占所述任一隐藏层中所有神经元的数量比例;
从所述任一隐藏层中选择满足所述稀疏连接比例的神经元,将各个神经元的输出进行随机连接。
7.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述语音识别模型是基于如下步骤进行训练的:
获取样本待识别语音对应的样本标签;
基于随机矩阵,将所述样本标签并行映射到所述语音识别模型中各个隐藏层,确定各个隐藏层中神经元膜电位到突触权重的局部梯度;
基于各个隐藏层中神经元膜电位到突触权重的局部梯度,对所述语音识别模型进行训练。
8.一种语音识别装置,其特征在于,包括:
获取单元,用于获取待识别语音对应的脉冲序列;
识别单元,用于将所述脉冲序列输入至语音识别模型,得到所述待识别语音对应的语音识别结果;
其中,所述语音识别模型是基于循环脉冲神经网络构建的,所述语音识别模型隐藏层中任一神经元的膜电位是基于前向通道中的神经元脉冲标志和循环通道中的神经元脉冲标志确定的,同一隐藏层中的神经元的输出采用稀疏连接;
所述前向通道用于连接所述任一神经元的输入与上一隐藏层中的神经元的输出;所述循环通道用于连接所述任一神经元在上一时刻的输出与当前时刻的输入。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法的步骤。
CN202111185130.3A 2021-10-12 2021-10-12 语音识别方法、装置、电子设备及存储介质 Active CN113628615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111185130.3A CN113628615B (zh) 2021-10-12 2021-10-12 语音识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111185130.3A CN113628615B (zh) 2021-10-12 2021-10-12 语音识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113628615A true CN113628615A (zh) 2021-11-09
CN113628615B CN113628615B (zh) 2022-01-04

Family

ID=78391002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111185130.3A Active CN113628615B (zh) 2021-10-12 2021-10-12 语音识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113628615B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114659553A (zh) * 2022-02-28 2022-06-24 联想(北京)有限公司 一种检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121802A1 (en) * 2016-11-02 2018-05-03 Samsung Electronics Co., Ltd. Method of converting neural network and recognition apparatus using the same
WO2020155741A1 (zh) * 2019-01-29 2020-08-06 清华大学 卷积神经网络和脉冲神经网络的融合结构及方法
CN113257282A (zh) * 2021-07-15 2021-08-13 成都时识科技有限公司 语音情感识别方法、装置、电子设备以及存储介质
CN113449864A (zh) * 2021-07-21 2021-09-28 北京大学 用于图像数据分类的反馈型脉冲神经网络模型训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121802A1 (en) * 2016-11-02 2018-05-03 Samsung Electronics Co., Ltd. Method of converting neural network and recognition apparatus using the same
WO2020155741A1 (zh) * 2019-01-29 2020-08-06 清华大学 卷积神经网络和脉冲神经网络的融合结构及方法
CN113257282A (zh) * 2021-07-15 2021-08-13 成都时识科技有限公司 语音情感识别方法、装置、电子设备以及存储介质
CN113449864A (zh) * 2021-07-21 2021-09-28 北京大学 用于图像数据分类的反馈型脉冲神经网络模型训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANLI YAO等: "An integrated system for robust gender classification with convolutional restricted Boltzmann machine and spiking neural network", 《2019 IEEE SYMPOSIUM SERIES ON COMPUTATIONAL INTELLIGENCE (SSCI)》 *
张铁林,徐波: "脉冲神经网络研究现状及展望", 《计算机学报》 *
程龙等: "脉冲神经网络:模型、学习算法与应用", 《控制与决策》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114659553A (zh) * 2022-02-28 2022-06-24 联想(北京)有限公司 一种检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113628615B (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
US11853875B2 (en) Neural network apparatus and method
JP2020071883A (ja) モデル訓練方法、データ認識方法及びデータ認識装置
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
Shrestha et al. Stable spike-timing dependent plasticity rule for multilayer unsupervised and supervised learning
KR102154676B1 (ko) 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법
WO2015148217A1 (en) Artificial neural network and perceptron learning using spiking neurons
KR20200129639A (ko) 모델 학습 방법 및 장치
KR20170031695A (ko) 신경망들에서의 콘볼루션 동작의 분해
US20150212861A1 (en) Value synchronization across neural processors
CN108304912B (zh) 一种运用抑制信号实现脉冲神经网络监督学习的系统和方法
WO2015167765A2 (en) Temporal spike encoding for temporal learning
CN112085198A (zh) 基于全局反馈以及局部突触可塑的脉冲神经网络优化方法
WO2015047589A2 (en) Methods and apparatus for implementation of group tags for neural models
CN109308316B (zh) 一种基于主题聚类的自适应对话生成系统
CN113628615B (zh) 语音识别方法、装置、电子设备及存储介质
Trivedi Introduction to various algorithms of speech recognition: hidden Markov model, dynamic time warping and artificial neural networks
CN113935475A (zh) 具有脉冲时刻偏移量的脉冲神经网络的仿真与训练方法
CN114266351A (zh) 基于无监督学习时间编码的脉冲神经网络训练方法及系统
Joshi et al. MATLAB based back-propagation neural network for automatic speech recognition
Bethi et al. An optimized deep spiking neural network architecture without gradients
CN111091815A (zh) 基于膜电压驱动的聚合标签学习模型的语音识别方法
CN112437929A (zh) 带泄漏尖峰神经网络中的时间编码
Yu et al. Improving multispike learning with plastic synaptic delays
CN107798384B (zh) 一种基于可进化脉冲神经网络的鸢尾花卉分类方法和装置
US9342782B2 (en) Stochastic delay plasticity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant