CN115171700B

CN115171700B - 一种基于脉冲神经网络的声纹识别语音助手方法

Info

Publication number: CN115171700B
Application number: CN202210678239.9A
Authority: CN
Inventors: 张海剑; 丁超; 余磊; 陈佳佳
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2024-04-26
Anticipated expiration: 2042-06-13
Also published as: CN115171700A

Abstract

在语音识别及声纹识别领域，传统非网络算法识别率低、经典神经网络算法又存在结构复杂、功耗大等问题。针对以上问题，本发明创新性地使用低功耗、运算快速的脉冲神经网络建立识别模型，可以有效降低网络复杂度、模型尺寸及运算功耗。首先语音信号进行活动性检测去除静音段，接着将语音信号切分为等长段并分别计算语谱图矩阵，依次取相邻矩阵做差获得事件脉冲矩阵，将脉冲矩阵输入到脉冲神经网络模型中进行识别测试，同时引入多数人投票机制对识别结果进行优化。在真实数据集上对指标进行测试，达到了不错的识别准确率。同时利用声纹识别模型和语音识别模型搭建了语音助手方法，具有声纹认证和语音控制的功能，实现了安全高效的设计要求。

Description

一种基于脉冲神经网络的声纹识别语音助手方法

技术领域

本发明属于模式识别领域，特别涉及一种基于脉冲神经网络的声纹识别语音助手方法。

背景技术

语音识别是以语音信号为研究对象，通过信号处理和模式识别技术让机器理解人类自然语言，再将语音信号转换为相应文本内容的技术，是人机交互技术中的非常重要的环节。随着人机交互模式不断发展，人们的交互理念发生了变化，从最初机器单方面接受信息逐渐发展为机器主动理解信息的模式，与此同时，机器输入输出的方式也逐渐变得更加自然和多样，语音便是十分直接有效的人机交互信号。而语音识别和声纹识别正是语音信号处理当中最为关键的技术。最初的语音识别工作主要集中在简单的孤立词识别方面，通过人工观察语谱图的方法进行主观判别。最早在计算机上使用的语音识别算法是模板匹配法，即利用计算机来计算将两段语音信号的语谱图之间的相关度，然而在实际应用中这些基于模板匹配的方法很难满足识别准确率的要求，并不实用。之后体现平均声纹特征的统计学算法应运而生，例如高斯混合模型(Gaussian Mixture Model,GMM)，但是这类方法通常会包含与录音设备及背景环境等相关的信道信息，这些信息会对语音识别工作造成不利影响。随着人工智能的不断发展，诸多人工智能算法也被应用到了语音信号处理领域。Hinton将DNN应用于语音的声学建模。2011年，微软研究院学者将深度神经网络技术应用在语音识别上，用DNN模型代替GMM模型，对每一个状态进行建模，同时将相邻语音帧拼接，获得了少量语音时序结构信息，从而大大降低了识别错误率；然而拼接帧所获得的上下文信息十分有限，对识别任务来说起效甚微，因此后续又有循环神经网络(Recurrent NeuralNetwork,RNN)以及长短期记忆网络(Long Short-Term Memory,LSTM)的应用，这类网络可以利用更多的历史信息，便于对语音信号的上下文信息进行建模；卷积神经网络(Convolutional Neural Network,CNN)是图像识别的主流模型，由于语音信号时频图可以视为图像，因此CNN也被学者引入到语音识别中。

目前语音识别的方法与技术仍在不断发展，随着神经网络技术的不断革新，以低功耗、运算快速为特点的第三代脉冲神经网络(Spiking Neural Networks,SNN)已经出现，脉冲神经网络已经在类脑计算、图像处理等应用场景中展现出了良好的应用潜力。针对传统方法的低识别率以及经典神经网络算法功耗大、结构复杂的问题，本发明创新性地将脉冲神经网络应用在语音信号处理领域，将语音信号和声纹信号处理变换为脉冲信号，使用脉冲神经网络完成编解码以及识别工作，达到了不错的识别精度。同时利用声纹识别模型和语音识别模型搭建了语音助手方法，具有声纹认证和语音控制的功能，实现了安全高效的系统设计。

发明内容

本发明的目的在于提供一种基于脉冲神经网络的声纹识别语音助手方法，利用脉冲神经网络低功耗、运算快速的特点来构建识别模型，解决了传统非网络算法识别率低以及经典神经网络算法结构复杂、功耗大等多项问题，同时利用声纹识别模型和语音识别模型搭建了语音助手方法，具有声纹认证和语音控制的功能，实现了安全高效的设计要求。

本发明的技术方案为一种基于脉冲神经网络的声纹识别语音助手方法，其特征在于，包括以下步骤：

步骤1：声纹信号是指含有说话人独有的声纹特征的语音信号，声纹信号与语音内容无关而只与说话人个体差异有关，将属于同一说话人的所有语音归为一类，以此方法来构建包含了多位说话人的声纹数据集，并对不同说话人赋予不同标签。从声纹数据集中任意读取一条待识别声纹信号V，并进行以下预处理。首先对声纹信号进行语音活动性检测，从而去除该条语音中的静音片段，保留有效语音片段V′。

步骤2：对于步骤1得到的有效语音片段V′，首先均匀划分为等长语音小段{v_i，v_i∈V′}，然后对每小段语音信号v_i进行短时傅里叶变换得到语谱图S_i。根据时序信息依次对相邻时间段得到的语谱图矩阵做差，即得到差矩阵D_i＝S_i+1-S_i，设置阈值为±c，将差矩阵中每个坐标的值与阈值相比较，当大于正阈值时则激发正脉冲，小于负阈值则激发负脉冲，若在正负阈值之间则不激发脉冲，从而将差矩阵转换为脉冲矩阵，以此作为脉冲神经网络的输入；

步骤3：构建声纹数据集，搭建脉冲神经网络模型；将声纹数据集里每条声纹信号经过步骤1和步骤2处理后得到若干脉冲矩阵，将每个脉冲矩阵依次输入到网络中预测出声纹标签，利用交叉熵损失函数对预测标签和输入对应的真实标签计算损失，同时使用Adam优化器进行优化，从而训练得到脉冲神经网络声纹识别模型。

步骤4：语义信号是指含有语义信息即文本信息的声音信号，语义信号与说话人身份无关而只与语音对应的文本内容有关，将述说同一条文本内容的所有语音归为一类，以此方法来构建包含了多条语义内容的语义数据集，并对不同语义内容赋予不同标签。从语义数据集中任意读取一条待识别语音信号V，并进行以下预处理。首先对语音信号进行语音活动性检测，从而去除该条语音中的静音片段，保留有效语音片段V′。

步骤5：对于步骤1得到的有效语音片段V′，首先均匀划分为等长语音小段{v_i，v_i∈V′}，然后对每小段语音信号v_i进行短时傅里叶变换得到语谱图S_i。根据时序信息依次对相邻时间段得到的语谱图矩阵做差，即得到差矩阵D_i＝S_i+1-S_i，设置阈值为±c，将差矩阵中每个坐标的值与阈值相比较，当大于正阈值时则激发正脉冲，小于负阈值则激发负脉冲，若在正负阈值之间则不激发脉冲，从而将差矩阵转换为脉冲矩阵，以此作为脉冲神经网络的输入；

步骤6：构建语义数据集，搭建脉冲神经网络模型；将语义数据集里每条语音信号经过步骤4和步骤5处理后得到若干脉冲矩阵，将每个脉冲矩阵依次输入到网络中预测出声纹标签，利用交叉熵损失函数对预测标签和输入对应的真实标签计算损失，同时使用Adam优化器进行优化，从而训练得到脉冲神经网络语义识别模型。

步骤7：在步骤3和步骤6中，由于在预处理阶段会将一条测试语音均匀划分为若干小段的脉冲矩阵，通过脉冲神经网络模型进行预测后，每段脉冲矩阵都会得到一个预测标签，为了提升识别准确率在预测输出端做了优化。首先统计输入语音分段后所有脉冲信号预测出的标签，引入多数人投票机制，统计出现次数最多的预测标签作为最终标签输出，通过多数人投票机制，有效增加了两个识别模型的识别准确率。

步骤8：利用步骤3、6得到的两个识别模型，搭建如图8所示的语音助手方法。用户输入语音信号后，首先通过声纹识别模块进行身份认证，当认证通过时，该用户则拥有了通过语音信号控制系统执行相应命令的权限；当认证失败时可以选择是否录入为新用户，录入后则拥有同样控制权限，若不录入则认证为陌生人，会被系统拒绝访问。

本发明针对语音识别及声纹识别领域中，传统非网络算法识别率低以及早期神经网络算法结构复杂、功耗大的问题，提出了基于脉冲神经网络的语音识别及声纹识别方法。本发明所提供的方法在实际应用中相较于现有的其他语音识别及声纹识别算法，具有更加简单的网络结构、更小的模型及更低的功耗，同时在真实数据集上进行指标测试，达到了不错的识别准确率。

附图说明

图1：是本发明实施例的语音短时能量、短时平均过零率示意图。

图2：是本发明实施例的语音活动性检测效果示意图。

图3：是本发明实施例的语谱图绘制流程图。

图4：是本发明实施例的基于脉冲神经网络的语音识别及声纹识别流程图。

图5：是本发明实施例的卷积神经网络结构框图。

图6：是本发明实施例的原始分帧识别结果示意图。

图7：是本发明实施例的识别结果优化方案示意图。

图8：是本发明实施例的声纹识别语音助手方法方案图。

具体实施方式

本发明首先读取待识别语音信号并对信号进行语音活动性检测，从而去除静音片段得到有效语音片段，随后将有效语音片段划分为等长语音小段，然后对每小段语音信号进行短时傅里叶变换得到语谱图，再根据时序信息，依次对相邻时间段得到的两个语谱图矩阵做差，设置阈值将差矩阵转换为事件帧矩阵，利用事件帧数据输入到脉冲神经网络模型中进行识别，得到每帧信号对应的预测标签。同时，本发明引入多数人投票机制，统计模型输出出现次数最多的标签作为测试语音的最终标签输出。

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施示例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

下面结合图1至图7介绍本发明的实施方式。本发明实施方式包括以下步骤：

语音活动性检测是语音信号处理中十分重要的环节，指从语音信号中分辨出语音信号和非语音信号，确定语音起始点和终止点的操作，语音活动性检测性能的好坏对后续处理效果有重要影响。在本发明中使用双门限法实现语音活动性检测，去除语音信号中的非语音段，并根据所确定的起始点和终止点将剩下的语音信号拼接，达到减少噪声干扰，降低数据量的目的。

双门限法是基于语音信号两大时域特征：短时平均能量和短时平均过零率提出来的。短时能量能体现语音信号的能量信息，由于浊音段能量值通常比清音段大得多，因此可以使用短时能量来加以区分。对于语音波形时域信号x(n)，第n帧信号的短时能量定义如下：

其中，h(n)＝w(n)²，w(n)表示选取的窗函数，L表示帧长，E_n表示第n帧语音信号的短时能量。

短时平均过零率表示每个语音信号图像中波形通过零电平的次数。对于连续语音信号，可以考虑波形通过时间轴在时域内的传递；对于离散信号，短期平均过零率实际上是信号采样点符号变化的次数。第n帧语音信号的短时平均过零率公式如下：

其中帧长为L，sgn为符号函数：

双门限法的原理是,在汉语中韵母包含元音，能量较大，而声母包含辅音，使得其频率较高，相应的短时过零率较大，通过这两个特征可以找出语音信号中的声母和韵母，从而找出完整的语音片段。首先为短时能量和短时平均过零率分别设置高低两个门限，根据门限将语音分为四种状态：静音段、过渡段、语音段、结束段。当能量或过零率超过低门限，则开始标记起点，语音进入过渡段；处于过渡段的语音，如果两个参数中的任何一个超过高门限，则认为进入语音段；当两个参数值都下降到低门限以下时，将当前状态恢复为静音状态；当语音静音段的长度大于预设的最短静音段长度时，认为语音结束，标记为终止点。图1显示了语音信号时域波形及短时能量、短时平均过零率分布图，图2展示了语音活动性检测效果示意图。

步骤2：对于步骤1得到的有效语音片段V’，首先均匀划分为等长语音小段{v_i，v_i∈V’}，然后对每小段语音信号v_i进行短时傅里叶变换得到语谱图S_i。根据时序信息依次对相邻时间段得到的语谱图矩阵做差，即得到差矩阵D_i＝S_i+1-S_i，设置阈值为±c，将差矩阵中每个坐标的值与阈值相比较，当大于正阈值时则激发正脉冲，小于负阈值则激发负脉冲，若在正负阈值之间则不激发脉冲，从而将差矩阵转换为脉冲矩阵，以此作为脉冲神经网络的输入。

在对语音信号做处理时，常常会绘制语音信号的语谱图，将语音信号转换到时频域来显示，语谱图的横轴表示时间，纵轴表示频率，图中颜色深浅表示归一化后语音能量的大小差异，因而语谱图可以同时反映语音信号的时域信息和频谱特性，用二维图谱表示了三维的信息。图3显示了语谱图绘制流程。由于语音信号在整个时间段内是非稳态的信号，即语音特征会随时间发生变化；而由于人体发声结构的固有特性，语音信号具有短时平稳特性：在一个很短的时间范围内，一般取10-30ms之间，可以把语音信号近似看成平稳信号，在这段时间内可以认为语音信号的特征基本保持不变。因此在实际分析语音信号时需要将语音信号划分为等长的语音帧来处理，同时在帧与帧之间保留一定的重叠部分，避免语音信号直接切分时会丢失边缘部分的信息。分帧处理相当于对语音信号当前帧添加了矩形窗，矩形窗的表达式如下：

时域上的乘积相当于频域上的卷积处理，由于窗函数频谱旁瓣的存在，会引起语音信号的频谱失真：集中在主瓣的能量会被分散到两侧的频带中去，造成频谱泄漏；因此为了减少信号失真的情况，需要使用主瓣宽度窄同时旁瓣小的窗函数，使用最为常见的汉明窗进行加窗处理，汉明窗公式如下：

其中α取0.54时为汉明窗。设语音时域信号为x(l)，分帧加窗后得到的第n帧语音信号x_n(m)形式如下：

x_n(m)＝w(m)x(n+m)

对该信号做短时傅里叶变换如下：

将角频率ω转换为弧度制表示：得到离散的傅里叶变换结果如下：

所得到的X_(k)记为语音帧的短时幅度谱，对其取平方得到信号频谱能量密度函数P，将该能量值归一化，再对该能量取对数，就可以得到以dB为单位的信号频谱能量密度表达形式，最后再对变换后的二维矩阵根据能量值大小进行色彩映射后，便可以得到彩色的语谱图。

脉冲神经网络(Spiking Neural networks，SNN)是第三代神经网络的代表。相比于传统人工神经网络传递连续信息的学习模式，脉冲神经网络使用离散脉冲序列来传递信息，这使得脉冲神经网络在计算能耗上具有较大优势。脉冲神经网络同时利用离散脉冲的发放频率和发放时序来计算和传输信息，接近于人类大脑中神经元的实际运作机制，在脉冲神经网络中每个神经元单独工作，部分神经元在没接受到输入时，将不会工作，因而具有更低的功耗与更好的生物学可解释性。

不同于传统神经网络使用节点上的激活函数及节点间的连接权重进行学习的模式，脉冲神经网络中所传递的脉冲，是利用构建的各种神经元模型所对应的动作电位方程计算来产生的。由于脉冲神经元模型处理离散的脉冲信息，不能直接求导，因此无法直接利用传统神经网络的反向传播算法进行网络训练。有学者提出将传统的人工神经网络转化为脉冲神经网络，利用较为成熟的人工神经网络训练算法来训练模型，然后通过网络层特征参数映射的方式将人工神经网络转化为脉冲神经网络，从而避免了直接训练脉冲神经网络的困难。

使用卷积神经网络(Convolutional Neural networks，CNN)进行训练，在替换时将SNN的网络结构裁剪为和CNN相同的结构，再将CNN中的人工神经元替换为脉冲神经元模型，随后将CNN训练得到的权值迁移到对应的SNN网络层中；在CNN网络中使用线性整流函数(Rectified Linear Unit，ReLU)以保证网络的非线性特征，由于脉冲信号输出值只有0，1两种，无法通过ReLU函数满足网络的非线性特征，因此在CNN向SNN映射的过程中，将ReLU激活函数替换为脉冲神经元模型，利用神经元模型动作电位形成函数来确保网络的非线性特性。

本发明的整体系统流程图如图4所示。具体实现方法如下：

步骤3.1：首先对语音信号做语音活动性检测，去除静音段数据；将剩余的有效语音信号V′均匀切分成等长小段{v_i，v_i∈V′}，同时为了避免直接分段会丢失掉信号段边缘的信息，在分段时取了一定的重叠部分；之后对每一小段语音做STFT变换，得到分别以时间帧窗口和频率点为坐标轴的语谱图矩阵S_i，矩阵中的值对应该时间帧下该频点信号的能量大小；之后再取相邻语音段得到的两个语谱图矩阵对应值相减，得到一帧差矩阵D_i＝S_i+1-S_i，并设置阈值为±c，将差矩阵中每个坐标的值与阈值相比较，当大于正阈值时则激发正脉冲，小于负阈值则激发负脉冲，若在正负阈值之间则不激发脉冲，从而将差矩阵转换为脉冲矩阵，以此作为脉冲神经网络的输入。

步骤3.2：对于采样率为f_s的语音信号，在切分操作时取每段长度为T，计算得到每段语音一共含有N_seg＝f_s×T个点，根据语谱图绘制原理，取每帧信号长为l，则每帧信号含有l_n＝f_s×l个点，取与每帧点数l_n最为接近的2的次方数

个频点，设置帧与帧之间的重叠率为overlap，根据下式计算帧的数量n_frame：

n_fft+(1-overlap)×n_fft×(n_frame-1)＝N_seg

通过上述计算得到尺寸为n_freq×n_frame的二维矩阵，再输入到后续的CNN网络中进行训练。

在设计CNN网络结构时，依据输入矩阵的尺寸大小，参考了经典CNN网络的结构来设计本课题所使用的网络，在输入层使用2×2跨步卷积进行降采样，激活函数使用的是常用的ReLU线性整流函数；在卷积层采用了3×3非跨步卷积以及2×2的平均池化层进行数据降采样操作；输出层部分采用了一维通道卷积进行优化，最后使用一个变平层将卷积层的输出过渡到全连接层用于最后识别结果的判断。CNN网络的整体结构如图5所示。

输入尺寸为60×60的矩阵，首先经过2×2跨步卷积得到降采样后的32×32矩阵，再经过多次3×3非跨步卷积以及平均池化操作得到128通道的1×1输出，最后通过变平层得到9通道输出。使用交叉熵损失函数对预测标签和真实标签计算损失，同时使用Adam优化器进行优化。

loss＝CrossEntropyLoss(output，label)

测试时最初在搭建的CNN进行网络训练，随后将CNN训练得到的权值迁移到对应的SNN网络层中；将CNN网络中使用的ReLU激活函数替换为脉冲神经元模型，利用神经元模型动作电位形成函数来确保网络的非线性特性，最后在SNN中测试模型效果。

步骤7：在步骤3和步骤6中，由于在预处理阶段会将一条测试语音均匀划分为若干小段的脉冲矩阵，通过脉冲神经网络模型进行预测后，每段脉冲矩阵都会得到一个预测标签，如图6所示效果。为了提升识别准确率在预测输出端做了优化。首先统计输入语音分段后所有脉冲信号预测出的标签，引入多数人投票机制，统计出现次数最多的预测标签作为最终标签输出，通过多数人投票机制，有效增加了两个识别模型的识别准确率。图7展示了优化后的识别结果示意图。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于脉冲神经网络的声纹识别语音助手方法，其特征在于，包括以下步骤：

步骤1：声纹信号是指含有说话人独有的声纹特征的语音信号，声纹信号与语音内容无关而只与说话人个体差异有关，将属于同一说话人的所有语音归为一类，以此方法来构建包含了多位说话人的声纹数据集，并对不同说话人赋予不同标签；从声纹数据集中任意读取一条待识别声纹信号V，并进行以下预处理；首先对声纹信号进行语音活动性检测，从而去除该条语音中的静音片段，保留有效语音片段V′；

步骤2：对于步骤1得到的有效语音片段V′，首先均匀划分为等长语音小段{u_i，v_i∈V′}，然后对每小段语音信号v_i进行短时傅里叶变换得到语谱图S_i；根据时序信息依次对相邻时间段得到的语谱图矩阵做差，即得到差矩阵D_i＝S_i+1-S_i，设置阈值为±c，将差矩阵中每个坐标的值与阈值相比较，当大于正阈值时则激发正脉冲，小于负阈值则激发负脉冲，若在正负阈值之间则不激发脉冲，从而将差矩阵转换为脉冲矩阵，以此作为脉冲神经网络的输入；

步骤3：构建声纹数据集，搭建脉冲神经网络模型；将声纹数据集里每条声纹信号经过步骤1和步骤2处理后得到若干脉冲矩阵，将每个脉冲矩阵依次输入到网络中预测出声纹标签，利用交叉熵损失函数对预测标签和输入对应的真实标签计算损失，同时使用Adam优化器进行优化，从而训练得到脉冲神经网络声纹识别模型；

步骤4：语义信号是指含有语义信息即文本信息的声音信号，语义信号与说话人身份无关而只与语音对应的文本内容有关，将述说同一条文本内容的所有语音归为一类，以此方法来构建包含了多条语义内容的语义数据集，并对不同语义内容赋予不同标签；从语义数据集中任意读取一条待识别语音信号V，并进行以下预处理；首先对语音信号进行语音活动性检测，从而去除该条语音中的静音片段，保留有效语音片段V′；

步骤5：对于步骤1得到的有效语音片段V′，首先均匀划分为等长语音小段{v_i，v_i∈V′}，然后对每小段语音信号v_i进行短时傅里叶变换得到语谱图S_i；根据时序信息依次对相邻时间段得到的语谱图矩阵做差，即得到差矩阵D_i＝S_i+1-S_i，设置阈值为±c，将差矩阵中每个坐标的值与阈值相比较，当大于正阈值时则激发正脉冲，小于负阈值则激发负脉冲，若在正负阈值之间则不激发脉冲，从而将差矩阵转换为脉冲矩阵，以此作为脉冲神经网络的输入；

步骤6：构建语义数据集，搭建脉冲神经网络模型；将语义数据集里每条语音信号经过步骤4和步骤5处理后得到若干脉冲矩阵，将每个脉冲矩阵依次输入到网络中预测出声纹标签，利用交叉熵损失函数对预测标签和输入对应的真实标签计算损失，同时使用Adam优化器进行优化，从而训练得到脉冲神经网络语义识别模型：

步骤7：在步骤3和步骤6中，由于在预处理阶段会将一条测试语音均匀划分为若干小段的脉冲矩阵，通过脉冲神经网络模型进行预测后，每段脉冲矩阵都会得到一个预测标签，为了提升识别准确率在预测输出端做了优化；首先统计输入语音分段后所有脉冲信号预测出的标签，引入多数人投票机制，统计出现次数最多的预测标签作为最终标签输出，通过多数人投票机制，有效增加了两个识别模型的识别准确率；

步骤8：利用步骤3、6得到的两个识别模型，搭建语音助手方法；用户输入语音信号后，首先通过声纹识别模块进行身份认证，当认证通过时，该用户则拥有了通过语音信号控制系统执行相应命令的权限；当认证失败时可以选择是否录入为新用户，录入后则拥有同样控制权限，若不录入则认证为陌生人，会被系统拒绝访问。