CN115273853A

CN115273853A - 一种基于仿生神经网络的语音识别系统与方法

Info

Publication number: CN115273853A
Application number: CN202210853706.7A
Authority: CN
Inventors: 杨旭; 张禹; 雷云霖; 朱艺菲; 王淼; 蔡建
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-11-01

Abstract

一种基于仿生神经网络构建语音识别程序的系统，包括：语音感知模块、码序列翻译模块、文本输出模块。语音感知模块由序列分割、傅里叶变换、两层二维卷积神经网络构成，接收语音数据生成其时分频谱的特征向量序列。码序列翻译模块由四层仿生神经元构成的仿生神经网络组成，接收特征向量序列，经过稀疏的突触传递异步性和双极性的信号更新神经元状态来对应信息的处理，输出具有概率意义的编码序列。文本输出模块接收代表字母的编码序列，通过预设编码解码映射生成字母序列，得到语音识别的目标文本结果。本发明将仿生神经网络应用于语音识别问题，能够实现在较低的模型复杂度的前提下得到较好的可解释性和预测结果。

Description

一种基于仿生神经网络的语音识别系统与方法

技术领域

本发明属于人工智能、脉冲神经网络技术领域，特别涉及一种基于仿生神经网络的语音识别系统与方法。

背景技术

在目前的语音识别领域，主要应用的方法多基于循环神经网络和自注意力机制的编码解码器等流行算法进行优化。但目前的深度学习算法模型的可解释性普遍不佳，同时泛化性能不稳定，其次由于全连接网络的结构导致模型的参数量较大、有所冗余，对计算资源的需求则较大，同时循环神经网络在时间维度上的数据采集可能过多，在短时依赖性的任务上则效率不高。目前第二代神经网络在上述问题的约束下无法在节能、硬件算力一般的前提下保证准确性、时效性、鲁棒性和可解释性。

第三代人工神经网络的脉冲神经网络则主要参考了仿生学的原理，对神经科学中的一些研究成果进行数学建模，结合机器学习的技术，将信息编码为神经元的膜电位和脉冲时延，利用脉冲来达到高效率低能耗的信息传递，同时采用稀疏的连接方式以贴近生物神经网络的结构。当前脉冲神经网络已经在数字识别、模式识别、自动驾驶等问题上得到广泛应用。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提供一种基于仿生神经网络的语音识别系统与方法，可以减少模型的复杂度，降低对算力的需求，增强模型的可解释性和鲁棒性。

为了实现上述目的，本发明采用的技术方案是：

一种基于仿生神经网络的语音识别系统，采用两层卷积神经网络和四层仿生神经网络堆砌的结构，包括：

语音感知模块，接收语音输入形成编码，经傅里叶变换生成时分频谱，再由卷积神经网络提取局部波形的数字特征，得到特征向量序列；

码序列翻译模块，为由感知层、中转层、控制层和驱动层四层仿生神经元依次构成的仿生神经网络，所述感知层接收语音感知模块输出的特征向量序列，所述中转层进行特征转义，所述控制层进行自循环时序信息的保存与决策，所述仿生神经网络创建仿生神经元并在仿生神经元之间建立突触，突触通过异步的信号传输和双极性的信号传递改变仿生神经元的状态，仿生神经元的状态的更新对应信息的处理，所述驱动层依据本身状态输出代表字母的数字编码序列；

文本输出模块，接收所述数字编码序列，通过预设编码逆映射生成字母序列，得到语音识别的目标文本结果。

优选地，所述语音感知模块包括模拟数字转换单元、序列分割单元、傅里叶变换单元和卷积神经网络；所述模拟数字转换单元将语音输入转换为数字信号，并经单声道固定采样率采样存储为语音的时域量化文件；所述序列分割单元将所述时域量化文件切分为若干子序列，各子序列有部分重合；所述傅里叶变换单元对各子序列进行傅里叶变换，得到具有时间特性的时分频谱序列，每个时分频谱序列对应一个字母的读音特征；所述卷积神经网络为两层，每层包括多个二维卷积核，均使用非线性激活函数向前传递给下一层，每个时分频谱序列经过两层的卷积神经网络提取局部波形的数字特征，将各数字特征拼接得到特征向量序列。

优选地，所述仿生神经元使用膜电位表示状态，使用常微分方程更新状态，方程参数为具有非线性时变特性的神经元内参数，仿生神经元状态由当前状态和输入突触的影响共同更新，仿生神经元间突触仿照生物神经系统的突触建立进行设计，依照概率分布生成从源仿生神经元到目标仿生神经元的突触和突触极性，突触的权重和极性会直接影响对应连接的仿生神经元的状态更新，正极性的突触会使得目标仿生神经元膜电位上升，即状态的量化值增加，负极性的突触则会使目标仿生神经元膜电位下降，即状态的量化值减少，突触的强度体现突触对仿生神经元膜电位的影响，仿生神经元本身的实时膜电位随时间推移有负反馈性质的变化，神经元有向静息电位恢复的趋势。

优选地，所述仿生神经元对应的状态方程数学式如下：

其中，V_j和V_i分别对应源仿生神经元和目标仿生神经元的状态，即膜电位；τ_i为目标仿生神经元的时间常量，定义如下式：

表示目标仿生神经元的膜电容，

为目标仿生神经元的膜电导，w_ij对应突触的权重，τ_i在不同仿生神经元上值的不同保证了在相同计算迭代中各不相同的更新程度，从而实现了仿生神经元膜电位更新的异步性；

σ_i(V_j)为突触上的信号传递系数，代表了突触连通性，作为信号的因子影响信号的传递效率，与信号强度正相关，σ_i(V_j)定义如下式：

γ_ij为突触的极性系数，其正负代表突触的极性，和突触权重的正负相对应，μ_ij对应传递阈值，σ_i(V_j)显示了源仿生神经元的膜电位对信号强弱的影响，通过作为信号强度的非线性因子间接影响目标仿生神经元的膜电位更新；

为目标神经元的静息电位，和时间常数τ_i的分式体现了目标仿生神经元向静息电位恢复的趋势，E_ij为突触两端相对电势的相反数，w_ijσ_i(V_j)E_ij代表对应突触上传播的信号，传给目标仿生神经元后，在目标仿生神经元的状态变化方程中既是其膜电位负反馈性更新系数的一部分，也是其膜电位直接线性叠加的一部分。

本微分方程满足了上述仿生神经元状态更新的条件要求，模拟了简单生物的神经系统中的脉冲传播过程。

优选地，所述感知层的仿生神经元数目等于所述特征向量序列的长度；中转层包括N_i个仿生神经元；控制层包括N_c个仿生神经元；驱动层包含N_m个仿生神经元，其中N_m-1为识别问题中语言的基本字母表的长度，另外一个仿生神经元代表结束符，驱动层的N_m个仿生神经元的输出值经顺序排列形成向量，该向量各分量大小对应码序列翻译模块接收的特征向量序列中一个特征向量被识别为各仿生神经元对应的字母的概率，该向量最大分量所对应的仿生神经元所对应的编码就是文本输出模块接收的编码序列的基本单位；相邻两层间建立稀疏的突触连接，突触的建立和极性存在随机性，通过向前传递异步地传输信号到下一层仿生神经元，除相邻层间地突触外，还包括从控制层到控制层地突触连接，即自循环突出结构，用于实现历史信息地积累，体现其记忆性。

优选地，采用概率论与数理统计的方法设计仿生神经网络的具体突触分布，建立如以下描述的突触创建规则：

1)N_s、N_i、N_c、N_m分别对应感知层、中转层、命令层和驱动层的仿生神经元数目，对所有的相邻两层，对于所有的源仿生神经元，插入n_s-t数目的突触到n_s-t个目标仿生神经元，n_s-t≤N_t，N_t为下一层的仿生神经元数，目标仿生神经元的随机选取服从n_s-t次二项分布，突触的极性选择满足伯努利分布；

2)在任意相邻两层，对于在1)中没有连接突触输入的所有目标仿生神经元，计算目标仿生神经元所在层平均每个仿生神经元接收的突触数目L，从上层通过m_s-t次二项分布,随机选取m_s-t个源仿生神经元和目标仿生神经元建立突触,m_s-t≤L，突触极性使用伯努利分布进行初始化；

3)对于所有控制层的仿生神经元，插入l_s-t个突触，l_s-t≤N_c，对应的目标仿生神经元通过l_s-t次二项分布从控制层中随机选择，每个突触的极性使用伯努利分布初始化。

依照上述规则将模仿简单生物的神经系统形成一个稀疏的仿生神经网络，仿生神经元和突触同时维持内部参数，通过异步的双极性信号传导来改变驱动层仿生神经元的状态从而得到输出。

本发明c可以取值为32，a可以取值为32，b可以取值为16，n值可以使用英文字母表取值26，或根据不同应用环境自行设置参数值。

本发明还提供了一种基于所述基于仿生神经网络的语音识别系统的方法，包括如下步骤：

步骤1，音频感知模块接收语音输入，得到相应的特征向量序列；

步骤2，码序列翻译模块的感知层接收所述特征向量序列，突触通过异步的信号传输和双极性的信号传递更新仿生神经元的状态，在相同计算迭代间隔内的不同更新动作保证信号传递的异步性，信号经中转层的前向传递和控制层的循环传递及前向传递输出到驱动层，上述每一次信号传递过程中都根据突触信号和自身状态的影响更新接收突触信号的层所有的仿生神经元，驱动层各仿生神经元的状态更新后的膜电位值经非线性激活函数产生各自的输出值，输出值最大的仿生神经元对应的编码将输出给文本输出模块；

步骤3，文本输出模块接收编码根据预设的编码规则通过解码找到该编码对应的字母，语音的输入经特征提取和切分后则对应多个可识别为字母的向量，从而得到字母序列形式的语音识别结果，该字母序列就是输入的语音文件对应的文本识别结果。

进一步地，所述步骤1)包括如下步骤：

步骤1.1)，输入音频编码

语音由录音设备录音实现模拟信号到数字信号的转换，经单声道固定采样率采样存储为设定格式，该文件为声音的时域量化结果，时域上每次采样结果为采样间隔中的振幅；

步骤1.2)，频谱生成

时域量化结果被切分为若干子序列，对各子序列进行傅里叶变换，各子序列有部分重合，得到具有时间特性的频谱序列，每个频谱序列对应一个字母的读音特征；

步骤1.3)，特征提取

对步骤1.2)的每个频谱序列经过两层的卷积神经网络提取局部特征，经过多个二维卷积核的卷积减少数据冗余性并提取关键性信息，以拼接的特征向量构成所述特征向量序列。

进一步地，所述步骤2)包括如下步骤：

步骤2.1)，接收特征向量序列

特征向量每个分量输入到感知层的对应的仿生神经元，作为各仿生神经元的初始状态，感知层经稀疏的两种极性的突触实现向中转层传递抑制信号或激发信号，并根据突触的强度和信号类型更新中转层各仿生神经元的状态，当信号传递到中转层时感知层继续接收特征向量，利用迭代计算完成流水线式的识别机制；

步骤2.2)，中转层转接

中转层仿生神经元接收到两种信号，激发信号增加仿生神经元膜电位，抑制信号降低仿生神经元膜电位，在信号传递过程中，两个仿生神经元之间的突触维护一个传递阈值和突触权重，在正极性的突触上源仿生神经元的膜电位高于传递阈值时将增强信号的强度，在负极性的突触上源仿生神经元膜电位低于传递阈值时将增强信号的强度，即，信号强度由突触权重和极性、源仿生神经元膜电位共同影响，最终传递给控制层仿生神经元通过膜电位对应的微分方程改变其膜电位，中转层仿生神经元更新膜电位的同时感知层继续接收新的特征向量，在之后的每次计算迭代中仿生神经网络的每一层在信号传递给下一层后，接收上一层的信号或特征向量输入，同时进行更新，以此模拟生物神经系统的基本运转机制；

步骤2.3)，控制层循环

控制层通过中转层的激发信号和抑制信号更新各仿生神经元的膜电位，除了接收中转层的信号外，还同时接收控制层上个时间间隔产生的信号输出，两者叠加附加到各目标神经元的膜电位上产生影响，激发信号和抑制信号经过突触继续传递给驱动层，传递信号后继续接收中转层新传递的信号，并更新自身膜电位；

步骤2.4)，驱动层输出

驱动层仿生神经元接收控制层的信号叠加到自身膜电位上，然后更新自身膜电位，驱动层的仿生神经元各个膜电位作为状态的量化值经过非线性激活函数转换为概率值输出，每个特征向量输入码序列翻译模块后都选择概率值最大的仿生神经元的编码作为输出，将各编码连接，得到所述数字编码序列。

步骤2.5)，解码输出

构建驱动层仿生神经元时同时使用编码来对应要识别的语音的基本字母，如英文语音识别中，可以编码1到26代表字母a到z，同时预留空白字符的编码0，而用编码分别对应各个驱动层仿生神经元，步骤2.4)中概率值最大的神经元的编码就是码序列模块对一个输入的特征向量进行识别而决策的一个字母的编码，通过预设的字母编码规则解码即为一个特征向量识别出的字母。

步骤2.6)，循环计算

仿生神经网络每一层在传递信号给下一层后，在下一层更新的同一时刻都会重新接收新的输入(特征向量或突触信号)更新自身，回到步骤2.1)，即传递-更新是所有层同步进行的，直到所有的特征向量全部获得输出，将顺序输出的字母形成序列即为语音识别对应的文本。

与现有语音识别系统与方法相比，本发明的有益效果是：

1.本方法的神经网络结构相对于第二代人工神经网络而言拥有更简单的结构，可实现基本的决策功能，抗干扰能力强。

2.本方法的神经网络对于不同模式的输入所产生的脉冲序列各不相同，可以通过构建仿生神经网络学习具体任务配合中间过程数值检测的手段研究和验证认知科学和神经科学的理论，对于不同任务的决策机制具有一定的可解释性。

3.本方法通过构建四层仿生神经网络架构和仿生神经元，是脉冲神经网络在语音辅助系统中的一种具体体现，和当前时期其他技术相比，本方法的工作原理更接近生物学中神经细胞的功能原理，模拟程度更高，具有前沿的多学科理论支撑，在人工智能领域有更多发展潜力。

4.使用的神经元数目减少很多，极大地节约了能耗。

附图说明

图1为本发明原理框图。

图2为傅里叶变换的示意图。

图3为卷积神经网络示意图。

图4为仿生神经网络结构示意图。

图5为脉冲信号传导和神经元状态更新图。

图6为输出解码示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式，本实施案例详细阐述了基于仿生神经网络的语音识别系统在接收语音识别训练集TIMIT情况下具体实施的例子。

TIMIT为英语的语音识别数据集，包含了语音的音频文件和语音对应的文字记录(正确识别结果)，其中的基本字符为26个英文字母和终结符标识，本发明在本案例中则以字母为单位进行识别。

参考图1，通过本专利所述语音识别系统构建方法创建语音识别模型，采用两层卷积神经网络和四层仿生神经网络堆砌的结构，包括：

语音感知模块，对应模拟数字转换和前两层神经元，接收格式化语音文件(.wav格式)，对该语音文件按时间维度切分为不同的窗口，各窗口的音频经傅里叶变换生成排列对应不同切分窗口的频谱序列，其中采样的声音的各切分窗口分别产生各自的频谱，各切分窗口之间有部分重合，从而各相邻频谱也有部分重合，频谱序列就是一个向量序列，每个向量都是频谱的展开表示；向量序列的每个向量将通过两个卷积层，两个卷积层均为二维卷积层，其激活函数设置为Relu函数，卷积层的功能将提取输入向量的频谱局部波形的数字特征，每个向量都变换为特征向量，并传递给码序列翻译模块；

码序列翻译模块，对应第三到第六层的仿生神经元，依次为感知层、中转层、控制层和驱动层，四个神经层次分别负责接收前置模型特征提取的输出、特征转义、自循环时序信息的保存、决策，经过特定的数学模型创建仿生神经元和神经元间的突触(连接)，突触通过异步的信号传递和双极性的信号传递改变仿生神经元的状态，驱动层神经元依据本身状态经激活函数输出翻译后的具有概率意义的向量，传递给文本输出模块。在本案例中建立的仿生神经网络中，感知神经元的数目和特征向量的维度相同，中转层包括32个中转神经元，命令层包括8个命令神经元，最后有27个驱动神经元(对应26个字母和终结符)。

文本输出模块，依据输入的概率分布向量以特定的编码的逆映射对数字序列进行解码生成语音识别的目标字符串。

参考图2，在语音分析问题中接收的语音数据往往是分布在时域的数据，横轴代表时间，纵轴代表采样获得的振幅大小，这种数据因为波形往往连续且形状不确定使得声纹特征的提取受阻，而傅里叶变换转换时域上的连续波形为频域上的离散数据，因此更方便人工神经网络学习各种发音的数字特征；将一整段语音的时域数据划分为若干个子序列，对每个时间间隔内的数据进行傅里叶变换，从而获得一系列具有时间意义的频谱序列，该序列适合循环神经网络等对时间建模的模型进行学习，也更易于被本发明中的仿生网络提取相应特征，本案例中就是对语音文件的音频进行时间维度上的切分，然后对各时间间隔内的音频进行傅里叶变换，形成了时域上的频谱序列，更有利于语音识别系统进行学习和识别，对于本案例的声音输入文件设置窗口长度为256，每次窗口滑动的步长为160，而傅里叶变换的长度为384，长度单位均为采样数。

参考图3，频谱序列的数据量依旧较大，且日常语音中大部分情况下上下文关联不会在超过三个单词以上的距离产生，为了减少数据量，使用两层卷积神经网络对频谱序列进行特征提取和信息压缩，可以认为是多次提取各种辅音、元音的特征，并记忆其常见组合，从而对应常用语音，对于本案例则是学习英文发音中的音素，即特点最关键的一些音部，并对输入频谱进行压缩和局部匹配，从而有利于之后用各音素的频谱对输入频谱进行匹配和识别，本案例第一层为32个大小为(11,41)、步长为(2,2)的卷积核构成的卷积层，第二层为32个大小为(11,21)、步长为(2,2)的卷积核构成的卷积层。

参考图4，仿生神经网络的感知层接收压缩后的频谱特征，经稀疏的两种极性的突触实现向下一层传递抑制信号或激发信号，并根据突触的强度和信号类型更新目标神经元的状态(膜电位)，在相同计算迭代间隔内的不同时间常量保证信号传递的异步性；信号经中转层的前向传递和控制层的循环传递和前向传递输出到驱动层，驱动层在一次特征向量的输入后经突触信号和自身状态的影响类似前三层更新所有仿生神经元的状态；在信号传递到下一层通过信号输入改变下一层的膜电位的同时本层神经元接收上一层的信号，并在信号传递后利用对应的微分方程更新所有仿生神经元的状态，因此可以整个网络将一直处于传递信号、信号传递后状态更新结算的循环计算过程，直到所有的输入向量得到了识别的输出；各驱动层神经元的状态经量化后分别对应识别为不同编码的文本字母的置信程度(概率)，排列为一个各维度分量为概率值的向量，选取置信程度最高的维度所对应的字母为一次输入的识别结果，语音的输入经特征切分和提取后则对应多个可识别为字母的向量，从而得到字母序列形式的语音识别结果。

参考图4和图5，在两相邻层间的一个突触将同时影响源神经元i的状态和目标神经元j的状态，首先是目标神经元接收所有突触上的激发性信号或抑制性信号，然后依据膜电位方程改变自身的状态，然后突触的源神经元将接收新输入同样依据上述的仿生神经元的微分方程更新自身的状态，所有的突触两端都进行这样的计算迭代，不断得到驱动神经元的输出。

参考图4和图6，所有驱动层神经元的状态量化值都将经过归一化函数处理(比如softmax函数)映射为代表置信程度的数值，取映射后数值最大的神经元的编号，查询预设计的字母编码，找到对应字母(可能有空白符)加入目前的字母序列，驱动层将一直给出输出直到语音处理完毕，最终的字母序列则对应语音识别的文本结果。在本案例中，输出的27维向量的各维度对应了本次输入的特征向量识别为该维度的字母的概率，比如(0.95，0,0.01，···，0.04)，该向量中最大的分量0.95的维度对应的字母为a，即说明这次输入的特征向量对于系统而言最有可能是a，因此把a输出到文本序列中，一个一个字母进行识别就得到了一段语音识别后结果的文本序列。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.基于仿生神经网络的语音识别系统，其特征在于，包括：

2.根据权利要求1所述基于仿生神经网络的语音识别系统，其特征在于，所述语音感知模块包括模拟数字转换单元、序列分割单元、傅里叶变换单元和卷积神经网络；

所述模拟数字转换单元将语音输入转换为数字信号，并经单声道固定采样率采样存储为语音的时域量化文件；

所述序列分割单元将所述时域量化文件切分为若干子序列，各子序列有部分重合；

所述傅里叶变换单元对各子序列进行傅里叶变换，得到具有时间特性的时分频谱序列，每个时分频谱序列对应一个字母的读音特征；

所述卷积神经网络为两层，每层包括多个二维卷积核，均使用非线性激活函数向前传递给下一层，每个时分频谱序列经过两层的卷积神经网络提取局部波形的数字特征，将各数字特征拼接得到特征向量序列。

3.根据权利要求1所述基于仿生神经网络的语音识别系统，其特征在于，所述仿生神经元使用膜电位表示状态，使用常微分方程更新状态，方程参数为具有非线性时变特性的神经元内参数，仿生神经元状态由当前状态和输入突触的影响共同更新，仿生神经元间突触仿照生物神经系统的突触建立进行设计，依照概率分布生成从源仿生神经元到目标仿生神经元的突触和突触极性，突触的权重和极性会直接影响对应连接的仿生神经元的状态更新，正极性的突触会使得目标仿生神经元膜电位上升，即状态的量化值增加，负极性的突触则会使目标仿生神经元膜电位下降，即状态的量化值减少，突触的强度体现突触对仿生神经元膜电位的影响，仿生神经元本身的实时膜电位随时间推移有负反馈性质的变化，神经元有向静息电位恢复的趋势。

4.根据权利要求3所述基于仿生神经网络的语音识别系统，其特征在于，所述仿生神经元对应的状态方程数学式如下：

表示目标仿生神经元的膜电容，

5.根据权利4所述基于仿生神经网络的语音识别系统，其特征在于，所述感知层的仿生神经元数目等于所述特征向量序列的长度；中转层包括N_i个仿生神经元；控制层包括N_c个仿生神经元；驱动层包含N_m个仿生神经元，其中N_m-1为识别问题中语言的基本字母表的长度，另外一个仿生神经元代表结束符，驱动层的N_m个仿生神经元的输出值经顺序排列形成向量，该向量各分量大小对应码序列翻译模块接收的特征向量序列中一个特征向量被识别为各仿生神经元对应的字母的概率，该向量最大分量所对应的仿生神经元所对应的编码就是文本输出模块接收的编码序列的基本单位；相邻两层间建立稀疏的突触连接，突触的建立和极性存在随机性，通过向前传递异步地传输信号到下一层仿生神经元，除相邻层间地突触外，还包括从控制层到控制层地突触连接，即自循环突出结构，用于实现历史信息地积累，体现其记忆性；

所述突触的创建规则如下：

6.基于权利要求1所述基于仿生神经网络的语音识别系统的语音识别方法，其特征在于，包括如下步骤：

7.根据权利要求6所述语音识别方法，其特征在于，所述步骤1)包括如下步骤：