CN108847223A

CN108847223A - 一种基于深度残差神经网络的语音识别方法

Info

Publication number: CN108847223A
Application number: CN201810638786.8A
Authority: CN
Inventors: 齐勇; 张立泽清; 刘浩哲; 雷凯; 行习铭; 赵智健; 张文天; 王妮
Original assignee: Shaanxi University of Science and Technology
Current assignee: Xinrui Yichuang (Xi'an) Information Technology Co.,Ltd.
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-11-20
Anticipated expiration: 2038-06-20
Also published as: CN108847223B

Abstract

本发明公开了一种基于深度残差神经网络的语音识别方法，具体按照构建语音库，得到n+1组声音信号组；随机将n+1组声音信号组分为n组训练组和1组测试组；利用n组训练组训练深度残差神经网络，得到训练好的深度残差神经网络；将测试组的语音数据输入至训练好的深度残差神经网络中进行测试；若语音识别准确度大幅度下降，则调整残差神经网络的权重和阈值，重新进行残差神经网络的训练，训练后再次进行测试，如此循环，直至语音识别准确度不降低，则使用当前残差神经网络进行语音识别的步骤。本发明方法，防止了各种马鞍情况和收敛速度过慢的出现，防止了过拟合现象的发生，从而保证了整个网络的高效快速准确的运行，语音识别准确率更高。

Description

一种基于深度残差神经网络的语音识别方法

技术领域

本发明属于语音识别方法技术领域，涉及一种基于深度残差神经网络的语音识别方法。

背景技术

在卷积神经网络中，网络的深度往往与识别的正确率密切相关，因为传统的卷积神经网络能够提取到low/mid/high-level的多层次特征，网络的层数越多，意味着提取到的特征越丰富。但随着卷积神经网络层数的不断加深，“退化现象”开始出现，以至于错误率的急剧飙升。

残差神经网络是在深度卷积神经网络结构的基础上加入“快捷连接(Shortcuts)”来实现网络的映射，并在该映射的基础上来拟合残差函数，从而克服“退化现象”也能够显著提升准确率。利用残差神经网络的表征能力特点，可将其广泛的应用于计算机时域信号识别。

然而经实践验证，残差神经网络存在一下不足：1.马鞍情况的出现；2. 在对待简单的问题时容易发生过拟合现象；3.收敛的速度与传统的网络相比较为缓慢，时效性较强，在工程应用中效率不高。

发明内容

本发明的目的是提供一种基于深度残差神经网络的语音识别方法，能够显著提高识别的准确率。

本发明所采用的技术方案是，一种基于深度残差神经网络的语音识别方法，具体按照下述步骤进行：

步骤1，构建语音库，得到n+1组声音信号组；

步骤2，随机将n+1组声音信号组分为n组训练组和1组测试组；

步骤3，利用n组训练组训练深度残差神经网络，得到训练好的深度残差神经网络；

步骤4，将测试组的语音数据输入至训练好的深度残差神经网络中进行测试；若语音识别准确度大幅度下降，则调整残差神经网络的权重和阈值，重新进行残差神经网络的训练，训练后再次进行测试，如此循环，直至语音识别准确度不降低，则使用当前残差神经网络进行语音识别。

本发明的特点还在于：

步骤1中构建语音库具体按照下述方法进行：

步骤1.1，随机选取多个不同的汉字组成测试汉字组；

步骤1.2，采集测试汉字组中每一个汉字的声音信号，得到初始声音信号组；

步骤1.3，将初始声音信号组的每个声音信号进行类别标号，将每个类别标号后的声音信号进行预处理变成二维数据形式的声音信号，得到一组声音信号组；

步骤1.4，将步骤1.2和步骤1.3重复n+1次，得到n+1组声音信号组。

步骤1.3中对声音信号按照下述步骤进行预处理：

步骤1.3.1，将初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号，得到频域声音信号组；

步骤1.3.2，将频域声音信号组每个频域声音信号均进行正则化处理变成正则化信号，得到正则化信号组；

步骤1.3.3，将正则化信号组中的每个正则化信号转化为二维矩阵形式的声音信号，得到声音信号组。

步骤3中训练深度残差神经网络具体按照下述方法进行：

步骤3.1，构建深度神经网络框架，其中，深度神经网络主要包括三个部分，第一部分为输入层，第二部分为隐含层，第三部分为输出层，隐含层连接在输入层上，输出层连接在隐含层上；隐含层包括至少一个训练层，每一个训练层的输入端均与输入层连接；

步骤3.2，取一组训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练，时遍历训练组的每一个语音数据，训练结束后，输出层输出语音识别的准确率；

步骤3.3，准确率达到设定值，则当前的深度神经网络为训练好的深度残差神经网络；

若准确率达不到设定值，则调整深度神经网络框架中的权重和阈值，并且增加一层训练层，训练层与调整前的深度神经网络框架的隐含层相连，取另一组训练组输入至调整后的深度神经网络框架进行训练，训练结束后，输出层输出语音识别的准确率；如此循环，直至准确率达到设定值，则当前的深度神经网络为训练好的深度残差神经网络。

输出层为Soft-Max层。

训练层包括两个相连的卷积层，一个卷积层连接输入层，另一个卷积层连接输出层，卷积层之间存在参数传递通道，且参数传递通道不能在卷积层之间相互交叉。

每一个卷积层的激活函数使用Relu激活函数。

每个卷积层后均连接有池化后层。

本发明的有益效果是：

本发明一种基于深度残差神经网络的语音识别方法，防止了各种马鞍情况和收敛速度过慢的出现，防止了过拟合现象的发生，从而保证了整个网络的高效快速准确的运行，语音识别准确率更高。

附图说明

图1是本发明一种基于深度残差神经网络的语音识别方法中实施例得到的深度残差神经网络的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种基于深度残差神经网络的语音识别方法，具体按照下述步骤进行：

步骤1，构建语音库，得到n+1组声音信号组，具体按照下述方法进行：

步骤1.1，随机选取多个不同的汉字组成测试汉字组；

步骤1.3，将初始声音信号组的每个声音信号进行类别标号，将每个类别标号后的声音信号进行预处理变成二维声音信号，得到一组声音信号组，其中预处理按照下述方法进行：

步骤1.3.2，将频域声音信号组每个频域声音信号均进行正则化处理变成 3000维的正则化信号，得到正则化信号组；

步骤2，随机将n+1组声音信号组分为n组训练组和1组测试组；

步骤3，利用n组训练组训练深度残差神经网络，得到训练好的深度残差神经网络，具体按照下述方法进行：

步骤3.1，构建如图1所示的深度神经网络框架，其中，深度神经网络主要包括三个部分，第一部分为输入层，第二部分为隐含层，第三部分为输出层，隐含层连接在输入层上，输出层连接在隐含层上；隐含层包括至少一个训练层，每一个训练层的输入端均与输入层连接；

步骤3.2，取一组训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练，训练时遍历训练组的每一个语音数据，训练结束后，输出层输出语音识别的准确率；

若准确率达不到设定值，则调整深度神经网络框架中的权重和阈值，并且增加一层训练层，训练层的输出端与调整前的深度神经网络框架的隐含层的输出端相连进行数据的残差拟合，取另一组训练组输入至调整后的深度神经网络框架进行训练，训练结束后，输出层输出语音识别的准确率；如此循环，直至准确率达到设定值，则当前的深度神经网络为训练好的深度残差神经网络。

其中，快捷连接层包括两个相互连接的卷积层，一个卷积层的输入端连接输入层，另一个卷积层的输出端进行残差拟合后与输出层相连，卷积层之间存在参数传递通道，且参数传递通道不能在卷积层之间相互交叉；每个卷积层的激活函数均使用Relu激活函数；每个卷积层后均连接有池化后层。

本发明一种基于深度残差神经网络的语音识别方法中，当语音识别的准确率达到设定值的时候，得到初始深度残差神经网络，改变初始深度残差神经网络的结构，增加快捷连接层组成残差网络结构，使用隐含层的参数更新快捷连接层参数后，在使用训练组进行训练，重复该步骤，向初始深度残差神经网络中增加多个快捷连接层，这样反复迭代，能够使得最后的训练好的残差神经网络结构最优。

本发明的一种基于深度残差神经网络的语音识别方法中，在进行训练是，在卷积层中，对每个为二维矩阵形式的声音信号进行处理时，需要先定义一个权重矩阵，权重矩阵的大小通常为3×3、5×5或7×7，通过滑动来使权重矩阵覆盖整个语音数据，在此时滑动步长为1×1，对权重矩阵所覆盖的数据进行加权求和并进行relu激活操作。

在卷积层激活采用的激活relu函数为f(x)＝max(x,0)；softmax分类采用的分类函数为其中j＝1,2,...,K，分类函数将神经网络处理过后的K维的中文语音频域信号向量z压缩到另一个K维实向量σ(z)_j，使得每一个元素的范围都在{0，1}之间，并且所有元素的和为1。在进行softmax 分类后，该神经网络会根据损失函数计算出相应的训练集的误差，通过梯度下降的方法反向传播误差，从而更新权重与阈值，使整个神经网络的准确率更高。

使用池化层能够减小减少语音数据空间大小。根据相邻数据的相关性，在每个n×n区域内，采用2×2矩阵在该区域进行滑动。池化在每一个纵深维度上独自完成，语音数据的纵深保持不变。

实施例

本实施例选择Python2.7和Keras以及Tensorflow作为实现平台，编程实现本发明方案的设计。

本实施例中随机选取1184个汉字组成测试汉字组，然后对测试汉字组的每一个汉字进行声音信号的采集和预处理，得到8组声音信号组。

将前7组声音信号组作为训练组，将第8组声音信号组作为测试组。

构建深度神经网络框架，将7组训练组的声音信号一次输入至深度神经网络框架中，第7组训练组训练完成后，输出层的语音识别的准确率达到 98％，超过设定值95％，得到深度神经网络；

向深度神经网络中增加快捷连接层调整结构，增加2层快捷连接层后，，输出层的语音识别的准确率达到98.8％，得到如图1所示的深度残差神经网络。

将测试组的所有声音信号均输入至深度残差神经网络中进行训练，语音识别争取率为99％，达到了预期的效果。

Claims

1.一种基于深度残差神经网络的语音识别方法，其特征在于，具体按照下述步骤进行：

步骤1，构建语音库，得到n+1组声音信号组；

步骤2，随机将n+1组声音信号组分为n组训练组和1组测试组；

步骤3，利用n组所述训练组训练深度残差神经网络，得到训练好的深度残差神经网络；

步骤4，将所述测试组的语音数据输入至训练好的深度残差神经网络中进行测试；若语音识别准确度大幅度下降，则调整残差神经网络的权重和阈值，重新进行残差神经网络的训练，训练后再次进行测试，如此循环，直至语音识别准确度不降低，则使用当前残差神经网络进行语音识别。

2.根据权利要求1所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述步骤1中构建语音库具体按照下述方法进行：

步骤1.1，随机选取多个不同的汉字组成测试汉字组；

步骤1.2，采集所述测试汉字组中每一个汉字的声音信号，得到初始声音信号组；

步骤1.3，将所述初始声音信号组的每个声音信号进行类别标号，将每个类别标号后的声音信号进行预处理变成二维数据形式的声音信号，得到一组声音信号组；

3.根据权利要求2所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述步骤1.3中对声音信号按照下述步骤进行预处理：

步骤1.3.1，将所述初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号，得到频域声音信号组；

步骤1.3.2，将所述频域声音信号组每个频域声音信号均进行正则化处理变成正则化信号，得到正则化信号组；

步骤1.3.3，将所述正则化信号组中的每个所述正则化信号转化为二维矩阵形式的声音信号，得到声音信号组。

4.根据权利要求1所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述步骤3中训练深度残差神经网络具体按照下述方法进行：

步骤3.1，构建深度神经网络框架，其中，深度神经网络主要包括三个部分，第一部分为输入层，第二部分为隐含层，第三部分为输出层，所述隐含层连接在输入层上，所述输出层连接在所述隐含层上；所述隐含层包括至少一个训练层，每一个训练层的输入端均与输入层连接；

步骤3.2，取一组所述训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练，训练时遍历训练组的每一个语音数据，训练结束后，输出层输出语音识别的准确率；

若准确率达不到设定值，则调整深度神经网络框架中的权重和阈值，并且增加一层训练层，训练层与调整前的深度神经网络框架的隐含层相连，取另一组所述训练组输入至调整后的深度神经网络框架进行训练，训练结束后，输出层输出语音识别的准确率；如此循环，直至准确率达到设定值，则当前的深度神经网络为训练好的深度残差神经网络。

5.根据权利要求4所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述输出层为Soft-Max层。

6.根据权利要求4所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述训练层包括两个相连的卷积层，一个所述卷积层连接输入层，另一个所述卷积层连接输出层，所述卷积层之间存在参数传递通道，且参数传递通道不能在卷积层之间相互交叉。

7.据权利要求5或权利要求6所述的一种基于深度残差神经网络的语音识别方法，其特征在于，每一个所述卷积层的激活函数使用Relu激活函数。

8.据权利要求5或权利要求6所述的一种基于深度残差神经网络的语音识别方法，其特征在于，每个所述卷积层后均连接有池化后层。