CN115602156A

CN115602156A - 一种基于多突触连接光脉冲神经网络的语音识别方法

Info

Publication number: CN115602156A
Application number: CN202211084465.0A
Authority: CN
Inventors: 项水英; 韩亚楠; 张雅慧; 郭星星; 郝跃
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2023-01-13

Abstract

本发明涉及一种基于多突触连接光脉冲神经网络的语音识别方法，包括：步骤1：获取元音数据集作为训练样本；步骤2：建立多突触的光脉冲神经网络模型；步骤3：将训练样本输入至光脉冲神经网络模型中，利用权重更新算法对光脉冲神经网络模型进行训练，得到训练完成的光脉冲神经网络模型；步骤4：利用训练完成的光脉冲神经网络模型实现语音识别。本发明的基于多突触连接光脉冲神经网络的语音识别方法，提高了语音识别的准确率，增强了复杂语音数据的处理能力。

Description

一种基于多突触连接光脉冲神经网络的语音识别方法

技术领域

本发明属于语音识别技术领域，具体涉及一种基于多突触连接光脉冲神经网络的语音识别方法。

背景技术

智能语音被誉为人工智能皇冠上的“明珠”，随着深度学习技术的突破，大数据技术以及自然语言理解能力的提升，带动了一波产业热潮，除了在教育、客服、电信等传统行业之外，还开辟出了车载、家居、医疗、智能硬件等语音技术应用新天地。随着人工智能的兴起，基于人工神经网络的语音识别技术已经从理论走向市场应用。语音识别本质上是一种基于语音特征参数的模式识别，通过模型训练学习，可以把输入的语音按一定模式进行分类。

脉冲神经网络作为类脑计算的核心领域，被誉为“第三代神经网络模型”，它能够有效模拟生物神经元之间信息随时间连续传递的动力系统。它的脉冲信息传递机制恰好可以弥补深度学习在模拟时间特性上的缺陷。

但是，传统的脉冲神经网络算法为了提高计算效率，采用极为简化的脉冲神经元模型，其只包含一个维度，甚至缺失了产生脉冲的内在机制，不能够有效模拟生物神经网络中脉冲传递以及不应期等特性，降低了网络的复杂度。其次，传统直接训练脉冲神经网络的局部学习算法中，容易遇到参数饱和的问题，权重可能会趋于一个极大或者极小的值，不能稳定收敛。再次，传统脉冲神经网络中包括抑制性和兴奋性神经元及突触，存在负脉冲和负权重信息，然而在光域中，无法有效表达负脉冲信息，因此不能直接应用于光学脉冲神经网络。另外，在实际生物神经网络中，一对神经元之间也可能存在多对连接，而现有的光脉冲神经网络算法中只考虑了单突触连接。上述存在的缺陷均会导致传统脉冲神经网络算法在语音识别过程中识别准确率较低，不能处理复杂的语音数据。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于多突触连接光脉冲神经网络的语音识别方法。采用基于激光器模型的光脉冲神经元，提供了一种适配于光学硬件平台的算法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于多突触连接光脉冲神经网络的语音识别方法，包括：

步骤1：获取元音数据集作为训练样本；

步骤2：建立多突触的光脉冲神经网络模型；

步骤3：将所述训练样本输入至所述光脉冲神经网络模型中，利用权重更新算法对所述光脉冲神经网络模型进行训练，得到训练完成的光脉冲神经网络模型；

步骤4：利用训练完成的光脉冲神经网络模型实现语音识别。

在本发明的一个实施例中，所述步骤2包括：

步骤2.1：根据所述训练样本的特征维度和预设的高斯脉冲个数，确定输入神经元的个数；

步骤2.2：根据所述输入神经元个数以及预设的每个输入神经元到输出神经元的突触个数，确定多突触的光脉冲神经网络模型的突触个数；

步骤2.3：根据所述输入神经元的个数、所述输出神经元的个数和所述突触个数，建立所述多突触的光脉冲神经网络模型。

在本发明的一个实施例中，所述步骤3包括：

步骤3.1：初始化所述多突触的光脉冲神经网络模型的参数；

步骤3.2：将所述训练样本按照预设的高斯脉冲个数进行高斯编码；

步骤3.3：将高斯编码后训练样本输入至所述光脉冲神经网络模型中，得到模型输出结果，所述模型输出结果包括所述输出神经元产生的脉冲个数n_o，首个脉冲时间t_o，以及峰值处时刻t_max；

步骤3.4：根据所述训练样本的真实类别和所述模型输出结果对所述多突触的光脉冲神经网络模型的权重进行调整；

步骤3.5：重复步骤3.3-步骤3.4，直到达到预设的训练次数，得到训练完成的光脉冲神经网络模型。

在本发明的一个实施例中，所述步骤3.4包括：

判断所述模型输出结果是否满足约束条件，若满足，则执行权重更新算法，对所述多突触的光脉冲神经网络模型的权重进行调整，若不满足，则执行步骤3.5；其中，

所述约束条件为：

其中，n_d表示目标神经元的目标脉冲个数，d_i表示每个突触的传入时延，t_i表示训练样本的输入时间，T_w表示学习时间窗口；

所述权重更新算法为：

w(x+1)＝w(x)+Δw_oi；

其中，Δw_oi表示权重调整值，η表示学习率，Δw_STDP表示根据STDP规则调整权重，Δw_aSTDP表示根据反STDP规则调整权重，w(x)表示当前的权重值，w(x+1)表示更新后的权重值。

在本发明的一个实施例中，在所述步骤3.4中，若w(x+1)<0，则令w(x+1)＝rand，rand表示正随机数。

与现有技术相比，本发明的有益效果在于：

本发明的基于多突触连接光脉冲神经网络的语音识别方法，针对光学脉冲神经网络应用于语音识别领域中的问题，提出通过高斯编码和多突触来扩展特征维度的方案，有效提升光脉冲神经网络的性能，通过对负权值的突触选择随机激活，避免输入信息丢失，并能避免过拟合，提高了语音识别的准确率，增强了复杂语音数据的处理能力。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明实施例提供的一种基于多突触连接光脉冲神经网络的语音识别方法的示意图；

图2是本发明实施例提供的一种多突触的光脉冲神经网络模型的结构示意图；

图3是本发明实施例提供的一种基于多突触连接光脉冲神经网络的训练流程示意图；

图4是本发明实施例提供的仿真实验的结果示意图。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于多突触连接光脉冲神经网络的语音识别方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

实施例一

请结合参见图1-图3，图1是本发明实施例提供的一种基于多突触连接光脉冲神经网络的语音识别方法的示意图，图2是本发明实施例提供的一种多突触的光脉冲神经网络模型的结构示意图；图3是本发明实施例提供的一种基于多突触连接光脉冲神经网络的训练流程示意图。如图所示，本实施例的基于多突触连接光脉冲神经网络的语音识别方法，包括：

步骤1：获取元音数据集作为训练样本；

音素是构成语音的基本单位，气流在声道会产生共振，其频率反映了声道的主要特征，共振峰的位置、带宽和幅度决定元音音色。可以利用元音数据集对模型进行训练以实现语音识别。

在本实施例中，可采用Deterding元音数据集作为多突触的光脉冲神经网络模型的训练样本。该数据集基于线性预测提取的10维对数面积比系数作为语音特征参数。

需要说明的是，若训练样本的特征维度较小，不利于分类训练，因此，在本实施例中，通过高斯编码扩展训练样本的特征维度。

步骤2：建立多突触的光脉冲神经网络模型；

具体地，步骤2包括：

步骤2.1：根据训练样本的特征维度和预设的高斯脉冲个数，确定输入神经元的个数；

设每个训练样本有N_f个特征，预设的高斯脉冲个数为N_g，则高斯编码后的特征维度为N_F＝N_g×N_f，将高斯编码后的特征线性映射为脉冲中心时刻，

t^s是第s个训练样本的输入时间集合，

等为对应于每个输入特征的时刻，单位为ns。每个特征编码为一个输入神经元的一个脉冲时刻，则需要的输入神经元个数也为N_F。

步骤2.2：根据输入神经元个数以及预设的每个输入神经元到输出神经元的突触个数，确定光脉冲神经网络模型的突触个数；

具体地，对编码以后的每个输入特征

设置多个突触连接。设每个输入神经元到输出神经元的突触个数为N_s，则该多突触的光脉冲神经网络模型共需的突触个数为N_s×N_F。

步骤2.3：根据输入神经元的个数、输出神经元的个数和突触个数，利用激光器神经元的速率方程建立多突触的光脉冲神经网络模型。

在本实施例中，输出神经元的个数N_o即为样本类别的个数，具体地，可以利用激光器神经元的速率方程建立多突触的光脉冲神经网络模型，该多突触的光脉冲神经网络模型结构如图2所示。

步骤3：将训练样本输入至光脉冲神经网络模型中，利用权重更新算法对光脉冲神经网络模型进行训练，得到训练完成的光脉冲神经网络模型；

具体地，步骤3包括：

步骤3.1：初始化多突触的光脉冲神经网络模型的参数；

在本实施例中，参数初始化包括，初始化激光器神经元参数，将每个突触的传入时延d_i和权重w_i设置为随机值，该过程相当于加噪，可以有效改善测试集的性能；初始化学习时间窗口T_w，学习率η。

步骤3.2：将训练样本按照预设的高斯脉冲个数进行高斯编码；

步骤3.3：将高斯编码后训练样本输入至光脉冲神经网络模型中，得到模型输出结果，模型输出结果包括输出神经元产生的脉冲个数n_o，首个脉冲时间t_o，以及峰值处时刻t_max；

需要说明的是，若没有脉冲产生，则令输出神经元产生的脉冲个数n_o＝0，t_o＝T_max，其中T_max为最大仿真时间。

步骤3.4：根据训练样本的真实类别和模型输出结果对多突触的光脉冲神经网络模型的权重进行调整；

在本实施例中，结合Tempotron算法和STDP规则进行权重更新。需要说明的是，在模型训练之前要定义对应于输入样本类别c(c＝1,2,...,C)的输出神经元

为目标神经元。

具体地，步骤3.4包括：

判断模型输出结果是否满足约束条件，若满足，则执行权重更新算法，对多突触的光脉冲神经网络模型的权重进行调整，若不满足，则执行步骤3.5；

其中，约束条件为：

权重更新算法为：

w(x+1)＝w(x)+Δw_oi (3)；

由于，在光脉冲神经网络中，负权值以及负脉冲信息难以直接在光域中表示，因此在训练过程中需要对权重进行限制，因此，在步骤3.4中，若w(x+1)<0，则令w(x+1)＝rand，rand表示正随机数。

在本实施例中，选择将小于0的权值设置为一个较小的随机数，相当于将停止工作的突触重新激活。在这个过程中，随机突触权值的设置也相当于在训练过程中加入噪声，可以在一定程度上避免过拟合，提升网络的性能。

步骤4：利用训练完成的光脉冲神经网络模型实现语音识别。

在利用训练完成的光脉冲神经网络模型进行语音识别过程中，需要通过相同的编码方法，得到与训练样本相同尺度的输入特征。在实际检测中，为了进一步提高网络的精度，在判断网络是否正确分类的时候，只需要查找输出脉冲时刻最小的输出神经元编号。在有多个输出神经元产生脉冲的情况下，只要最早产生脉冲的神经元为目标神经元，即可以判定为正确分类。

需要说明的是，本实施例的基于多突触连接光脉冲神经网络的语音识别方法，适配于光学硬件平台，可采用基于激光器模型的光脉冲神经元实现，更具有硬件平台优势。本实施例的基于多突触连接光脉冲神经网络的语音识别方法，针对光学脉冲神经网络应用于语音识别领域中的问题，提出通过高斯编码和多突触来扩展特征维度的方案，有效提升光脉冲神经网络的性能，通过对负权值的突触选择随机激活，避免输入信息丢失，并能避免过拟合，提高了脉冲神经网络的语音识别准确率，增强了处理复杂的语音数据的能力。

实施例二

本实施例通过仿真实验对实施例一的基于多突触连接光脉冲神经网络的语音识别方法的效果进行说明。

具体地，用Deterding元音数据集进行测试，该数据集基于线性预测提取的10维对数面积比系数作为语音特征参数。采用含有可饱和基于垂直腔面发射半导体激光器作为脉冲神经元模型进行训练和推理。

仿真实验条件：

Deterding元音数据集样本特征维度为N_f＝10，首先通过高斯编码将其扩展，选择N_g＝4，突触个数N_s＝3。随机选择4类元音用于实验。则神经网络的规模为：输入神经元40，突触个数120，输出神经元4。在仿真中：最大仿真时间为T_max＝25ns,学习窗口T_w设定为14ns，编码范围为6-15ns，最大迭代次数200，学习率η＝0.1。

请参见图4所示的仿真实验的结果示意图，其中，(a)图为N_s＝1，样本不进行高斯编码的仿真实验结果示意图，(b)图为N_s＝1，N_g＝8的仿真实验结果示意图，(c)图为N_s＝3，样本不进行高斯编码的仿真实验结果示意图，(d)图为N_s＝3，N_g＝4的仿真实验结果示意图。从图中可知，通过增加突触个数以及采用高斯编码，光脉冲神经网络的性能可以逐步得到提升。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多突触连接光脉冲神经网络的语音识别方法，其特征在于，包括：

步骤1：获取元音数据集作为训练样本；

步骤2：建立多突触的光脉冲神经网络模型；

步骤4：利用训练完成的光脉冲神经网络模型实现语音识别。

2.根据权利要求1所述的基于多突触连接光脉冲神经网络的语音识别方法，其特征在于，所述步骤2包括：

3.根据权利要求2所述的基于多突触连接光脉冲神经网络的语音识别方法，其特征在于，所述步骤3包括：

步骤3.1：初始化所述多突触的光脉冲神经网络模型的参数；

4.根据权利要求3所述的基于多突触连接光脉冲神经网络的语音识别方法，其特征在于，所述步骤3.4包括：

所述约束条件为：

所述权重更新算法为：

w(x+1)＝w(x)+Δw_oi；

5.根据权利要求4所述的基于多突触连接光脉冲神经网络的语音识别方法，其特征在于，在所述步骤3.4中，若w(x+1)<0，则令w(x+1)＝rand，rand表示正随机数。