CN109979436A

CN109979436A - 一种基于频谱自适应法的bp神经网络语音识别系统及方法

Info

Publication number: CN109979436A
Application number: CN201910294272.XA
Authority: CN
Inventors: 陈巍; 尹伊琳
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2019-07-05
Anticipated expiration: 2039-04-12
Also published as: CN109979436B

Abstract

本发明属于语音识别技术领域，公开了一种基于频谱自适应法的BP神经网络语音识别系统及方法，基于频谱自适应法的BP神经网络语音识别方法包括：语音输入、对输入语音进行预处理/取帧、特征提取、频谱分析、BP神经网络训练、输出识别结果。本发明利用声学特征表征语音内容，不依赖于说话者或词汇内容，将韵律和音质特征整合到系统中；引入频谱变换自适应法补偿三种失真源(扬声器的差异，录音通道的变化和嘈杂环境)、重建训练向量和测试向量之间的正确相关性；通过BP神经网络算法对机器进行静态训练，进而令识别参数不断逼近最佳状态，提高识别率。

Description

一种基于频谱自适应法的BP神经网络语音识别系统及方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种基于频谱自适应法的BP神经网络语音识别系统及方法。

背景技术

目前，最接近的现有技术：

特征参数匹配法、隐马尔可夫法和神经网络法。现有语音识别技术多有环境噪声影响、说话人距离和位置变化的影响以及说话人心理和生理变化的影响等，缺乏稳定性和自适应性。

语音识别的应用往往工作环境复杂，声学特征的精确提取通常较难获得。这就需要语音识别系统具有一定的自适应性并进行BP算法训练。目前，常被用于语音识别技术的方法有HMM模型，BP神经网络算法。

然而，当周围存在较多高频噪声或说话人因情感变化而使说话口吻改变时，系统识别性能减弱，造成语音识别率不够。随科技发展，计算机和机器人需具有更强的表达、识别和理解能力，从而人机界面更为高效。

综上所述，现有技术存在的问题是：现有语音识别技术多有环境噪声影响、说话人距离和位置变化的影响以及说话人心理和生理变化的影响等，缺乏稳定性和自适应性。

解决上述技术问题的难度：任务过程中因环境变化、说话人距离改变、说话人因情感变化而改变说话口吻从而影响所提取特征值的有效性；任务过程中因扬声器的差异、录音通道的变化从而产生训练条件与测试条件间的不匹配；任务过程中因建立数据库差异导致某些语言无法识别等。

解决上述技术问题的意义：基于频谱自适应法的BP神经网络语音识别方法，用以提高训练条件与测试条件间的匹配程度；利用BP神经网络算法对机器训练，进而令识别参数不断逼近最佳状态，提高识别率。

发明内容

针对现有技术存在的问题，本发明提供了一种基于频谱自适应法的BP神经网络语音识别方法。

本发明是这样实现的，一种基于频谱自适应法的BP神经网络语音识别方法，包括：

步骤一，语音输入；

步骤二，对输入语音进行预处理/取帧；

步骤三，特征提取；

步骤四，频谱分析；

步骤五，BP神经网络训练；

步骤六，输出识别结果。

进一步，所述步骤三特征提取具体包括：

语音输入即把语音输入设备采集的语音进行原始输入，通过扩音器将未知声音转化为电信号输入识别系统，进行预处理；预处理包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等，并且每隔一定时间间隔取出部分信号处理，确定帧的尺寸以及计算重叠率；根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征，确定特征集中最佳分类的特征；在BP神经网络训练阶段，主要是对特征进行分析并得到信号归属词汇，为每个词条建立一个模型，保存为模板库。在识别阶段，使用所获得的特征集来执行情感识别，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，基于本专利算法规则生成识别结果。

进一步，步骤四频谱分析采用频谱自适应算法；频谱自适应算法包括：

令训练向量和测试向量分别是向量X(1)和X(2)，假设：

U＝AX⁽¹⁾,V＝BX⁽²⁾ (1)

其中A和B是对应于X(1)和X(2)的变换矩阵，u和v是参考空间中公式(1)x和(2)x的映射；将均方误差最小化：

D＝E{(U-V)²},其中U＝AX⁽¹⁾,V＝BX⁽²⁾ (2)

带约束E{U²}＝E{V²}＝1；做U和V的最大相关，u和v在当时不为零；

假设语音倒谱的长期均值为零，令E{X}＝0，分别从训练向量和测试向量中减去信道特征；得到的E{X⁽¹⁾}＝E{X⁽²⁾}＝0，和得到相关矩阵：

得到关系：

I＝E{U²}＝E{A′X⁽¹⁾X⁽¹⁾′A}＝A′∑₁₁A (4)

I＝E{V²}＝E{B′X⁽²⁾X⁽²⁾′B}＝B′∑₂₂B (5)

E{U}＝E{A′X⁽¹⁾}＝A′E{X⁽¹⁾}＝0 (6)

E{V}＝E{B′X⁽²⁾}＝B′E{X⁽²⁾}＝0 (7)

E{UV}＝E{A′X⁽¹⁾X⁽²⁾B}＝A′∑₁₂B (8)

问题改写为：

令得到

满足

特征向量(a⁽¹⁾,b⁽¹⁾),(a⁽²⁾,b⁽²⁾),……(a^(p),b^(p))对应于λ₁,λ₂,…λ_p是转换矩阵A和B的行向量；通过计算将测试向量映射到训练空间。

进一步，所述步骤五BP神经网络训练包括：采用输入层、隐藏层、输出层三层结构作为情感识别的框架；

输入神经元的数量＝特征数量；

隐藏层数量＝(特征数量+情感数量)/2；

输出神经元数量＝情感数量。

BP神经网络训练包括：反向传播神经网络(BPNN)即BP网络，BPNN原则上以多层感知(MLP)为系统框架，以反向传播算法为训练规则。MLP即多层感知器，是一种前向结构的人工神经网络，通常使用静态反向传播进行训练，对静态模式进行分类。该网络可以手动构建，在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外，两层神经元之间的信号传递模式与单层神经元相同。

本发明的另一目的在于提供一种基于频谱自适应法的BP神经网络语音识别控制系统。

综上所述，本发明的优点及积极效果为：

本发明成功对七种离散的情感状态(愤怒、厌恶、恐惧、快乐、中立、悲伤、惊讶)识别。在10dB信噪比下，以16kHz的采样率，用中文记录了7位发言者的情感语音数据库，每种情感用100个语音进行训练。

而一组每种情感100个话语的分离被用来测试。

对比实验结果如图5所示，“1”代表愤怒，“2”代表厌恶，“3”代表恐惧，“4”代表欢乐，“5”代表中立，“6”代表悲伤，“7”代表惊奇。

频谱自适应法和BP神经网络法不仅提高了识别率，而且在低信噪比情况下也提高了系统的鲁棒性，这说明频谱自适应法很好地补偿了训练集和测试集之间的不匹配，用频谱自适应法作为补偿比不用频谱自适应法更好。如图5所示。其次，本发明使用了男性语言数据库。利用DB8小波对神经网络进行了13级分解后的特征向量训练，对神经网络进行了识别四种不同情感的测试，模糊矩阵中的识别精度如表1所示。本发明可获得72.055％的整体识别精度，解决了语音识别技术的情感识别这一难题。

表1

情感分类	中性	快乐	悲伤	生气
					中性	76.47％	17.64％	5.88％	0％
快乐	17.64％	52.94％	17.6％	11.76％
					悲伤	17.64％	11.76％	70.58％	0％
生气	11.76％	0％	0％	88.23％

。

本发明述及方法利用声学特征，该特征有效表征语音内容，不依赖于说话者或词汇内容，并将韵律和音质特征整合到系统中；采用离散小波变换进行性别分析；利用统一的频谱变换自适应法补偿三种失真源(扬声器的差异，录音通道的变化和嘈杂环境)、重建训练向量和测试向量之间的正确相关性；通过BP神经网络算法对机器进行静态训练，进而令识别参数不断逼近最佳状态，提高识别率。

附图说明

图1是本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法流程图。

图2是本发明实施例提供的语音识别过程图。

图3是本发明实施例提供的频谱自适应算法计算流程图。

图4是本发明实施例提供的三层神经网络框架图。

图5是本发明实施例提供的不同情感的识别错误率图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术的语音识别中，没有用以提高训练条件与测试条件间的匹配程度；利用BP神经网络算法对机器训练，进而令识别参数不断逼近最佳状态，造成识别率低。

解决上述问题，下面结合具体方案对本发明作详细描述。

本发明采用神经网络作为语音识别平台，提出一种提高语音识别率的识别方法，采用频谱自适应算法以提高训练条件与测试条件间的匹配程度；利用BP神经网络算法对机器训练，令识别参数不断逼近最佳状态。

如图1所示，本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法包括：

S101：语音输入。

S102：对输入语音进行预处理/取帧。

S103：特征提取。

S104：频谱分析。

S105：BP神经网络训练。

S106：输出识别结果。

所述步骤S103的特征提取具体包括：

特征提取既是大幅压缩信息量的过程，也是信号解卷的过程。将语音信号转换成一组特征矢量序列，使模式划分器能更好地划分。由于语音信号是非平稳信号，本发明假设在非常短的时间间隔内信号静止，即在此时间间隔内信号稳定，因此可每隔一定间隔取出部分信号处理。确定帧的尺寸以及计算重叠率称为取帧，计算重叠率即强化从一帧到另一帧的转换以防止信息丢失。在该阶段，根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征。特征集中的单位差异和数据的数字大小直接影响分类器的性能，采用标准化技术克服该影响；特征选择法用于确定将从特征集中，实现最佳分类的特征。最后，使用所获得的特征集来执行情感识别。

所述步骤S104的频谱分析采用频谱自适应算法。所述频谱自适应算法包括：

频谱自适应算法是一种指数平滑预测方法，可用于非平稳时间序列的预测。预处理语音信号可以表示为一系列特征向量，每个向量可以被认为是特征向量空间中的一个点，从而运用频谱自适应算法，改善训练向量和测试向量之间的差异并进行补偿，该方法没有直接将测试空间转换为训练空间，它使得训练向量和测试向量在参考空间(第三空间)中的相关性最大。令训练向量和测试向量分别是向量X(1)和X(2)，可以假设：

U＝AX⁽¹⁾,V＝BX⁽²⁾ (1)

其中A和B是对应于X(1)和X(2)的变换矩阵，u和v是参考空间中(1)x和(2)x的映射。将均方误差最小化：

D＝E{(U-V)²} (2)

带约束E{U²}＝E{V²}＝1。做U和V的最大相关，并保证u和v在当时不能为零。通过以下步骤：如图3所示。

假设假设语音倒谱的长期均值为零，可以令E{X}＝0，分别从训练向量和测试向量中减去信道特征。可以得到的E{X⁽¹⁾}＝E{X⁽²⁾}＝0，和因此得到相关矩阵：

得到关系：

I＝E{U²}＝E{A′X⁽¹⁾X⁽¹⁾′A}＝A′∑₁₁A (4)

I＝E{V²}＝E{B′X⁽²⁾X⁽²⁾′B}＝B′∑₂₂B (5)

E{U}＝E{A′X⁽¹⁾}＝A′E{X⁽¹⁾}＝0 (6)

E{V}＝E{B′X⁽²⁾}＝B′E{X⁽²⁾}＝0 (7)

E{UV}＝E{A′X⁽¹⁾X⁽²⁾B}＝A′∑₁₂B (8)

问题可以改写为：

如果令得到

必须满足

证明方程(11)有根λ₁,λ₂,…,λ_P,求解方程(11)，将典型相关问题转化为一般特征值问题。特征向量(a⁽¹⁾,b⁽¹⁾),(a⁽²⁾,b⁽²⁾),……(a^(p),b^(p))对应于λ₁,λ₂,…λ_p是转换矩阵A和B的行向量。最后通过计算将测试向量映射到训练空间。

所述步骤S105的BP神经网络训练包括：反向传播神经网络(BPNN)即BP网络，BPNN原则上以多层感知(MLP)为系统框架，以反向传播算法为训练规则。MLP即多层感知器，是一种前向结构的人工神经网络，通常使用静态反向传播进行训练，对静态模式进行分类。该网络可以手动构建，在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外，两层神经元之间的信号传递模式与单层神经元相同。本发明采用三层结构(输入层、隐藏层、输出层)作为情感识别的框架。框架如图4所示。该模型中：

输入神经元的数量＝特征数量；

隐藏层数量＝(特征数量+情感数量)/2；

输出神经元数量＝情感数量。

本发明将韵律和音质特征整合到系统中，利用频谱自适应算法补偿三种失真源、重建训练向量和测试向量之间的正确相关性；通过BP神经网络算法对机器进行静态训练，令识别参数不断逼近最佳状态。

本发明基于频谱自适应算法的BP神经网络语音识别方法，可以提高训练条件与测试条件间的匹配程度；利用BP神经网络算法对机器训练，进而令识别参数不断逼近最佳状态，提高识别率。

下面结合具体实施例对本发明作进一步描述。

实施例：

本发明实施例提供的基于频谱自适应法的BP神经网络语音识别方法包括以下步骤：

(1)特征提取

特征提取既是大幅压缩信息量的过程，也是信号解卷的过程。将语音信号转换成一组特征矢量序列，使模式划分器能更好地划分。由于语音信号是非平稳信号，本发明假设在非常短的时间间隔内信号静止，即在此时间间隔内信号稳定，因此可每隔一定间隔取出部分信号处理。确定帧的尺寸以及计算重叠率称为取帧，计算重叠率即强化从一帧到另一帧的转换以防止信息丢失。(帧的大小在20ms到40ms之间，重叠率为50％)在该阶段，根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征。特征集中的单位差异和数据的数字大小直接影响分类器的性能，采用标准化技术克服该影响；特征选择法用于确定将从特征集中实现最佳分类的特征。通过选择特征，减小特征数据集的大小以试图提高分类性能和准确性。最后，使用所获得的特征集来执行情感识别。

1)韵律特点

使用一组37个特征，其中26个特征是对数f、能量和持续时间方面的模型。对数F：最大、最小、最大和最小位置、平均值、标准差、回归系数、回归系数的均方误差，以及第一帧和最后一帧的F。

能量：最大、最小、最大和最小位置、平均值、回归系数和回归系数的均方误差。

持续时间方面：发声和未发声区域的数量，发声和未发声帧的数量，最长发声和未发声区域，发声和未发声帧的数量比，发声和未发声区域的数量比，发声和总帧的数量比，发声和总区域的数量比。

2)质量特点

情感识别方法还包括与发音精度或声道特性有关的信息，如共振峰结构。在情感表达方面，有知觉的证据表明，发声质量参数的额外重要性，即声门刺激变化产生的听觉质量。

本发明选择了16个质量特征，描述了前三个共振峰、它们的带宽、谐波噪声比、光谱能量分布、语音与清音能量比和声门流。所有描述的质量特征都是使用语音分析软件praat获得的。

(2)频谱自适应算法

U＝AX⁽¹⁾,V＝BX⁽²⁾ (1)

D＝E{(U-V)²} (2)

得到关系：

I＝E{U²}＝E{A′X⁽¹⁾X⁽¹⁾′A}＝A′∑₁₁A (4)

I＝E{V²}＝E{B′X⁽²⁾X⁽²⁾′B}＝B′∑₂₂B (5)

E{U}＝E{A′X⁽¹⁾}＝A′E{X⁽¹⁾}＝0 (6)

E{V}＝E{B′X⁽²⁾}＝B′E{X⁽²⁾}＝0 (7)

E{UV}＝E{A′X⁽¹⁾X⁽²⁾B}＝A′∑₁₂B (8)

问题可以改写为：

如果令得到

必须满足

本发明可以证明方程(11)有根λ₁,λ₂,…,λ_P,要求解方程(11)，将典型相关问题转化为一般特征值问题。特征向量(a⁽¹⁾,b⁽¹⁾),(a⁽²⁾,b⁽²⁾),……(a^(p),b^(p))对应于λ₁,λ₂,…λ_p是转换矩阵A和B的行向量。最后通过计算将测试向量映射到训练空间。

本发明经测试，发现语言转换再训练具有最佳的补偿效果。但在考虑该技术的在线应用时，没有对模型进行再训练，只将测试倒谱向量转化为训练空间进行识别。

(3)、BP神经网络训练

BPNN原则上以多层感知(MLP)为系统框架，以反向传播算法为训练规则。MLP即多层感知器，是一种前向结构的人工神经网络，通常使用静态反向传播进行训练，对静态模式进行分类。该网络可以手动构建，在训练期间也可以监视和修改网络。MLP模型中的多层结构表明它由多层神经元组成。另外，两层神经元之间的信号传递模式与单层神经元相同。

本发明采用三层结构(输入层、隐藏层、输出层)作为情感识别的框架。框架如图4所示。该模型中：

输入神经元的数量＝特征数量；

隐藏层数量＝(特征数量+情感数量)/2；

输出神经元数量＝情感数量。

在人工神经网络的结构中，有两种输出模式。其中一个使用二进制编码来表示输出，例如，系统有32个对应的输出到5个输出神经元。因此，输出神经元的数量减少了。另一个是一对一的输出。例如，22帧需要22个输出神经元，虽然二进制编码可以使神经元的数目最小化，但它不仅识别率低，而且与一对一模式相比，实验后难以收敛。因此，这里采用了一对一的输出。参数总共包含53个特性，因此输入层中有53个单元，输出层中有7个单元。隐层神经元的数目不能太多，否则不能收敛；如果数目太小，识别误差就大。隐层中的神经元数量用以下方程式表示：

N_no＝(In_number×Out_number)1/2

其中N_no表示隐藏层单元的数量，In_number和Out_number分别表示输入和输出层单元的数量。

本发明实施例提供一种基于频谱自适应法的BP神经网络语音识别控制系统。

下面结合具体实验对本发明作进一步描述。

本发明通过实验对识别系统进行了评价。在实验中，七种离散的情感状态(愤怒、厌恶、恐惧、快乐、中立、悲伤、惊讶)在整个工作中被分类。在10dB信噪比下，以16kHz的采样率，用中文记录了7位发言者的情感语音数据库，每种情感用100个语音进行训练。

而一组每种情感100个话语的分离被用来测试。

其次，本发明使用了男性语言数据库。利用DB8小波对神经网络进行了13级分解后的特征向量训练，对神经网络进行了识别四种不同情感的测试，模糊矩阵中的识别精度如表1所示。在测试网络识别四种不同情感的同时，机器获得了最大的识别准确度，在情感愤怒的情况下，最小的识别准确度是幸福。当机器试图从四个不同的情感类别中识别出中性语言时，机器获得了76.47％的识别准确率，而机器面临17.64％的困惑，情感快乐，5.88％的困惑是悲伤，机器不再面临情感愤怒的困惑。对于快乐的情感识别，机器能达到52.94％的识别准确率，17.64％的识别准确率为中性情感，17.6％的识别准确率为悲伤情感，11.76％的识别准确率为愤怒情感。在识别情感悲伤时，机器获得70.58％的识别准确率，17.64％的识别率与情感中性相混淆，11.76％的识别率与情感悲伤相混淆，不再与情感愤怒相混淆。对于情感愤怒的识别，机器识别准确率达到88.23％，与情感中性的识别混淆率达到11.76％，在情感喜怒哀乐的情况下不再出现混淆。通过本实验，本发明可获得72.055％的整体识别精度。

表1

。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于频谱自适应法的BP神经网络语音识别方法，其特征在于，所述基于频谱自适应法的BP神经网络语音识别方法包括：

步骤一，语音输入；

步骤二，对输入语音进行预处理/取帧；

步骤三，特征提取；

步骤四，频谱分析；

步骤五，BP神经网络训练；

步骤六，输出识别结果。

2.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法，其特征在于，所述步骤三特征提取具体包括：

语音输入即把语音输入设备采集的语音进行原始输入，通过扩音器将未知声音转化为电信号输入识别系统，进行预处理；预处理包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响，并且每隔一定时间间隔取出部分信号处理，确定帧的尺寸以及计算重叠率；根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征，确定特征集中最佳分类的特征；在BP神经网络训练阶段，对特征进行分析并得到信号归属词汇，为每个词条建立一个模型，保存为模板库；在识别阶段，使用所获得的特征集来执行情感识别，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，生成识别结果。

3.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法，其特征在于，步骤四频谱分析采用频谱自适应算法；频谱自适应算法包括：

令训练向量和测试向量分别是向量X(1)和X(2)，假设：

U＝AX⁽¹⁾,V＝BX⁽²⁾ (1)

D＝E{(U-V)²} ，其中U＝AX⁽¹⁾,V＝BX⁽²⁾ (2)

得到关系：

I＝E{U²}＝E{A′X⁽¹⁾X⁽¹⁾′A}＝A′∑₁₁A (4)

I＝E{V²}＝E{B′X⁽²⁾X⁽²⁾′B}＝B′∑₂₂B (5)

E{U}＝E{A′X⁽¹⁾}＝A′E{X⁽¹⁾}＝0 (6)

E{V}＝E{B′X⁽²⁾}＝B′E{X⁽²⁾}＝0 (7)

E{UV}＝E{A′X⁽¹⁾X⁽²⁾B}＝A′∑₁₂B (8)

问题改写为：

令得到

满足

4.如权利要求1所述基于频谱自适应法的BP神经网络语音识别方法，其特征在于，所述步骤五BP神经网络训练包括：采用输入层、隐藏层、输出层三层结构作为情感识别的框架；

输入神经元的数量＝特征数量；

隐藏层数量＝(特征数量+情感数量)/2；

输出神经元数量＝情感数量。

5.一种实施权利要求1所述基于频谱自适应法的BP神经网络语音识别方法的基于频谱自适应法的BP神经网络语音识别控制系统。