CN107610692A

CN107610692A - 基于神经网络堆叠自编码器多特征融合的声音识别方法

Info

Publication number: CN107610692A
Application number: CN201710864695.1A
Authority: CN
Inventors: 曹九稳; 程飞; 王建中
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2018-01-19
Anticipated expiration: 2037-09-22
Also published as: CN107610692B

Abstract

本发明涉及一种基于神经网络堆叠自编码器多特征融合的声音识别方法。首先对原始声音数据进行分帧加窗，对分帧加窗后的数据分别提取其典型的时域线性预测倒谱系数与频域Mel频率倒谱系数特征；再对所提取的特征进行拼接，构建声信号的初步特征表示向量并创建训练特征库；然后采用多层神经网络堆叠自编码器进行特征融合与学习；该多层自编码器采用超限学习机算法学习训练；最后所提取的特征再采用超限学习机分类算法训练得到分类器模型；所构建的模型最后用于测试样本分类识别。本发明采用基于超限学习机多层神经网络堆叠自编码器的多特征融合，相比于传统单一特征提取方法，本发明具有更高的识别精度。

Description

基于神经网络堆叠自编码器多特征融合的声音识别方法

技术领域

本发明涉及声音识别技术领域，尤其涉及一种基于神经网络堆叠自编码器多特征融合的声音识别方法。

背景技术

声音识别是人工智能的目标之一，对声音信号能够进行准确的识别分类，对于人工智能的发展起到关键作用。现有的技术中，传统的特征提取加分类器的方法已经得到广泛运用。但特征提取要根据不同类型的声音来选择，由于声音信号来源不同，特征提取的方法也不相同，针对不同声音要有相对应的专业知识选择特征提取方法。此外，某些环境下声音的情况比较复杂，传统的特征提取方法无法取得期望的识别性能。针对声音的差异导致的特征提取方法选择的差异性，最直接的方法是采用多种声音特征提取算法分别对声源进行特征提取，将提取到的多种特征直接进行拼接，然后采用分类器进行训练识别。但这种方法无法保证各个特征之间的无关性，即直接拼接得到的特征向量中存在冗余性，从而使得导致训练的得到的模型分类效果差。模型训练效率低等都是制约声音识别技术领域的难点。

发明内容

本发明为了克服上述存在的传统的声音识别技术中的不足，提出了一种基于多层神经网络堆叠自编码器多特征融合的声音识别方法。该方法首先提取典型的声信号时域线性预测倒谱系数(LPCC)与频域 Mel频率倒谱系数(MFCC)特征；再对所提取的特征进行拼接，构建声信号的初步特征表示向量并创建训练特征库；然后采用多层神经网络堆叠自编码器(Stacked autoencoder，SAE)进行特征融合与学习；该多层自编码器采用超限学习机算法学习训练；最后所提取的特征再采用超限学习机分类算法训练得到分类器模型。

本发明解决其技术问题所采用的技术方案，采用声信号的线性预测倒谱系数和梅尔频率倒谱系数为基础特征构建特征融合算法，具体步骤如下：

(一)模型训练

步骤1、对原始声音数据进行分帧加窗，帧长为N，帧移为加汉明窗；

步骤2、采用不同的特征提取算法对处理过的原始数据分别提取不同的特征，将不同的特征拼接获得R维特征向量。

步骤3、将采集到的声源数据按步骤1和2进行处理，得到训练数据集为X＝{x₁,x₂,…,x_P}，其中x_i,i＝1,…,P为一帧声源数据的 R_LPCC+R_MFCC维的特征向量，P为总共的样本个数。同时将需要识别的声源类型进行标号，即第一类声源记为1，第二类声源记为2，以此类推，总共有M类声源。然后将训练数据集中的每一个样本对应的声源类号组成集合T＝{t₁,t₂,…,t_P}。

步骤4、将训练数据集X＝{x₁,x₂,…,x_P}作为输入，输入至超限学习机自编码器(Extreme learning machine based autoencoder, ELM-AE)进行特征融合。记第k个ELM-AE的输入为X_k，特别的，第 1个的ELM-AE的输入X₁＝X。假设总共K个ELM-AE，以第k个ELM-AE为例。首先获得第k个ELM-AE的隐藏层输出为H_k＝g(W_kX_k+b_k)，其中W_k为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵，b_k为第k个ELM-AE的隐藏层偏置向量，且W_k和b_k均为随机生成，与训练集无关。

步骤5、求解最小化问题

其中，C是一个权衡系数，用来权衡两项之间的权重。β_k是第k个 ELM-AE的输出权重，即ELM-AE训练出的模型参数。求解上述问题得：

其中，L_k是第k个ELM-AE的隐藏层神经元的数量。

步骤6、求解第k+1个ELM-AE的输入为

步骤7、得到最终的ELM分类器的输入为X_k+1。

步骤8、以X_k+1作为输入，得到ELM分类器的隐藏层输出为 H_ELM＝g(W_ELMX_k+1+b_ELM)，其中W_ELM和b_ELM分别为随机生成的ELM的输入权重和隐藏层偏置向量。求解最小化问题

得到输出权重

其中L_ELM为ELM分类器的隐藏层神经元数量。

(二)声源预测：

对于一个新的未知类型的声源数据，我们对它进行如下处理得到其类型：

步骤(1)、采用训练中的不同的特征提取算法提取其不同的特征进行拼接，得到特征向量x。

步骤(2)、求得特征融合的结果x_K+1，x_K+1＝β_Kβ_K-1…β₁x。

步骤(3)、得到ELM的隐藏层输出h＝g(W_ELMx_K+1+b_ELM)。

步骤(4)、获得未知声源的类型为hβ_ELM。

本发明有益效果如下：

使用自编码器相较于传统的声音识别方法，训练效果较好，泛化能力强，基于特征融合的自编码器的超限学习机，效率提升效果明显，对远距离声源识别效果优于传统方法。

相比较于传统特征融合算法及单一的特征提取方法，本发明可以有效融合声信号时频域的典型特征，采用随机隐层神经元参数的超限学习机自编码算法能快速实现特征融合与学习，从而有效提高声信号的识别率与计算效率。本发明对复杂的环境噪声的识别性能有明显的改进，而且依据本发明的方法，可以降低特征维数，加快模型训练的速度。

附图说明

图1为基于自编码器的极限学习机构建流程；

图2为单层的基于自编码器的极限学习机结构图；

图3为多隐藏层的基于自编码器的极限学习机结构图。

图4为基于多层神经网络堆叠自编码器多特征融合的声音识别方法基本流程。

具体实施方式：

下面以4种开挖设备(包括手持电动镐、挖掘机、切割机、液压冲击锤)为例，使用线性预测倒谱系数特征(Linear Prediction Cepstrum Coefficients，LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)这两种特征提取方法，对本发明作进一步说明。以下描述仅作为示范和解释，并不对本发明作任何形式上的限制。

模型训练：

步骤1、对采集的4种开挖设备作业时的声音数据进行分帧加窗，帧长为N，帧移为加汉明窗得到声音数据库；

步骤2、使用LPCC特征提取算法对每一帧的声源数据进行特征提取，其中LPCC的阶数(即LPCC特征个数)我们记为R_LPCC。

步骤3、使用MFCC特征提取算法对每一帧的声源数据进行特征提取，其中MFCC的阶数我们记为R_MFCC。

步骤4、将每一帧提取的LPCC特征和MFCC特征进行拼接，组成 R_LPCC+R_MFCC维的特征向量。

步骤5、将采集到的声源数据按上述步骤进行处理，得到训练数据集为X＝{x₁,x₂,…,x_P}，其中x_i,i＝1,…,P为按上述步骤得到的一帧的 R_LPCC+R_MFCC维的特征向量，P为总共的样本个数。我们将手持电动镐作业时的声音记为第1类，切割机记为第2类，液压冲击锤记为第3 类，挖掘机记为第4类，其他声源为噪声，记为第5类。然后我们将训练数据集中的每一个样本对应的声源类号组成集合T＝{t₁,t₂,…,t_P}。

步骤6、将训练数据集将训练数据集X＝{x₁,x₂,…,x_P}作为输入，输入至ELM-AE，训练得到K个ELM-AE的输出权重β₁,β₂,…β_K，同时得到特征融合后的数据集X_K+1＝β_Kβ_K-1…β₁X。

步骤7、以X_K+1作为ELM分类器的输入，先随机产生输入权重和隐藏层偏置W_ELM和b_ELM。然后得到LM分类器的隐藏层输出为 H_ELM＝g(W_ELMX_K+1+b_ELM)。最后求解ELM分类器的输出权重为

其中L_ELM为ELM分类器的隐藏层神经元数量。

声源预测：

步骤1、采用LPCC特征提取算法和MFCC特征提取算法对未知类型的声源数据进行特征提取，将两种提取的特征进行拼接得到特征向量x。

步骤2、求得特征融合的结果x_K+1为x_K+1＝β_Kβ_K-1…β₁x。

步骤3、得到ELM的隐藏层输出h＝g(W_ELMx_K+1+b_ELM)。

步骤4、获得未知声源的类型为hβ_ELM。

Claims

1.基于神经网络堆叠自编码器多特征融合的声音识别方法,其特征在于具体包括如下步骤：

(一)模型训练

步骤2、采用不同的特征提取算法对处理过的原始数据分别提取不同的特征，将不同的特征拼接获得R维特征向量；

步骤3、将采集到的声源数据按步骤1和2进行处理，得到训练数据集为X＝{x₁,x₂,…,x_P}，其中x_i,i＝1,…,P为一帧声源数据的R_LPCC+R_MFCC维的特征向量，P为总共的样本个数；同时将需要识别的声源类型进行标号，即第一类声源记为1，第二类声源记为2，以此类推，总共有M类声源；然后将训练数据集中的每一个样本对应的声源类号组成集合T＝{t₁,t₂,…,t_P}；

步骤4、将训练数据集X＝{x₁,x₂,…,x_P}作为输入，输入至超限学习机自编码器进行特征融合；记第k个ELM-AE的输入为X_k，其中第1个的ELM-AE的输入X₁＝X；假设总共K个ELM-AE，以第k个ELM-AE为例；首先获得第k个ELM-AE的隐藏层输出为H_k＝g(W_kX_k+b_k)，其中W_k为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵，b_k为第k个ELM-AE的隐藏层偏置向量，且W_k和b_k均为随机生成，与训练集无关；

步骤5、求解最小化问题

其中，C是一个权衡系数，用来权衡两项之间的权重；β_k是第k个ELM-AE的输出权重，即ELM-AE训练出的模型参数；求解上述问题得：

<mrow> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mi>I</mi> <mi>C</mi> </mfrac> <mo>+</mo> <msubsup> <mi>H</mi> <mi>k</mi> <mi>T</mi> </msubsup> <msub> <mi>H</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msubsup> <mi>H</mi> <mi>k</mi> <mi>T</mi> </msubsup> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>,</mo> <mi>P</mi> <mo>&GreaterEqual;</mo> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>.</mo> </mrow>

其中，L_k是第k个ELM-AE的隐藏层神经元的数量；

步骤6、求解第k+1个ELM-AE的输入为

步骤7、得到最终的ELM分类器的输入为X_k+1；

步骤8、以X_k+1作为输入，得到ELM分类器的隐藏层输出为H_ELM＝g(W_ELMX_k+1+b_ELM)，其中W_ELM和b_ELM分别为随机生成的ELM的输入权重和隐藏层偏置向量；求解最小化问题

得到输出权重

<mrow> <msub> <mi>&beta;</mi> <mrow> <mi>E</mi> <mi>L</mi> <mi>M</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mi>I</mi> <mi>C</mi> </mfrac> <mo>+</mo> <msubsup> <mi>H</mi> <mrow> <mi>E</mi> <mi>L</mi> <mi>M</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>H</mi> <mrow> <mi>E</mi> <mi>L</mi> <mi>M</mi> </mrow> </msub> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msubsup> <mi>H</mi> <mrow> <mi>E</mi> <mi>L</mi> <mi>M</mi> </mrow> <mi>T</mi> </msubsup> <mi>T</mi> <mo>,</mo> <mi>P</mi> <mo>&GreaterEqual;</mo> <msub> <mi>L</mi> <mrow> <mi>E</mi> <mi>L</mi> <mi>M</mi> </mrow> </msub> <mo>.</mo> </mrow>

其中L_ELM为ELM分类器的隐藏层神经元数量；

(二)声源预测：

对于一个新的未知类型的声源数据，进行如下处理得到其类型：

步骤(1)、采用训练中的不同的特征提取算法提取其不同的特征进行拼接，得到特征向量x；

步骤(2)、求得特征融合的结果x_K+1，x_K+1＝β_Kβ_K-1…β₁x；

步骤(3)、得到ELM的隐藏层输出h＝g(W_ELMx_K+1+b_ELM)；

步骤(4)、获得未知声源的类型为hβ_ELM。