CN106328123A

CN106328123A - 小数据库条件下正常语音流中耳语音的识别方法

Info

Publication number: CN106328123A
Application number: CN201610723182.4A
Authority: CN
Inventors: 陈雪勤; 刘正; 赵鹤鸣
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2017-01-11
Anticipated expiration: 2036-08-25
Also published as: CN106328123B

Abstract

本发明公开了一种小数据库条件下正常语音流中耳语音的识别方法，构建语音识别分类系统，包括：数字语音输入模块；特征提取模块；深度神经网络，由深度信念网络和Softmax输出层构成；所述深度信念网络由受限玻尔兹曼机自下而上堆栈构成，频谱特征为深度信念网络的输入特征，Softmax输出层对应输出深度神经网络的目标值；获取训练数据集样本并进行至少一种处理：①采用重复方式对数据集进行人工扩展，扩展次数为8～24次；②对数据集进行置乱处理；对语音识别分类系统进行训练；采用训练后的分类系统对待识别的语音流进行识别。本发明在小数据库中能改善系统的识别性能，在实现耳语音识别的同时，保证了正常语音的识别率。

Description

小数据库条件下正常语音流中耳语音的识别方法

技术领域

本发明涉及一种语音信号处理技术，具体涉及一种在低资源小数据库条件下，对于出现在汉语正常语音流中的耳语音进行识别的方法。

背景技术

耳语音是一种特殊的交流方式，其发音时音量低且声带完全不振动。相比正常语音而言，它的感知和可懂度显著降低。尽管如此，耳语音也是人们日常交际的一种自然语音形式。它常常被用于在安静或保密环境下的交流，如讲话者不想打扰其他人，或者有一些私人信息需要交流。随着通信技术的发展，耳语音的人机交互接口也越来越受到关注，如在公司会议或公共场所使用智能手机等手持设备、金融业的数字密码系统等，如果能具有耳语音的识别功能，将大大提高接口的兼容性。

耳语音的发音与正常语音差异较大，几乎所有的声学特征包括激励、声道、振幅、频率等方面都明显不同。如耳语音的能量分布非常低，共振峰的中心频率上升，共振峰带宽变大，由于用耳语音讲话时完全没有声带振动，因此耳语音不含有基音信息。目前的语音处理系统的一般设计为面向正常语音的，因此，提高当前语音处理设备接口的兼容性是一个非常有意义的工作。

在实际应用中，耳语语音往往混合在中性语音流中出现。例如，在语言交流时对一些重要的信息，如帐户号码或密码，为避免被偷听，往往会用耳语交流。为适应这些场合的应用，需要对正常语音流中的耳语音进行孤立词识别，这就使得可用于学习的样本数据少，识别系统的学习难度大，识别率难以提高。因此如何在小数据库条件下实现正常语音流中的耳语音的识别，是本发明需要解决的问题。

发明内容

本发明的发明目的是提供一种小数据库条件下正常语音流中耳语音的识别方法，解决在对正常语音流中的耳语音孤立词进行识别时，由于样本数据量小导致的识别率难以提高的问题。

为达到上述发明目的，本发明采用的技术方案是：一种小数据库条件下正常语音流中耳语音的识别方法，包括如下步骤：

(1) 构建语音识别分类系统，所述语音识别分类系统包括：数字语音输入模块，用于对含有耳语音的语音流信号进行采样或者读取；特征提取模块，用于提取频谱特征；深度神经网络，由深度信念网络和Softmax输出层构成；

所述深度信念网络由多个受限玻尔兹曼机自下而上堆栈构成，所述频谱特征为深度信念网络的输入特征，所述Softmax输出层对应输出深度神经网络的目标值；

(2) 获取训练数据集样本，对训练数据集样本进行处理，所述处理包括以下方法中的至少一种：

①采用重复方式对数据集进行人工扩展，扩展次数为8～24次；

②对数据集进行置乱处理；

由此获得处理后的训练数据集；

(3) 采用步骤(2)获得的训练数据集对步骤(1)构建的语音识别分类系统进行训练，获得训练后的分类系统；

(4) 采用训练后的分类系统对待识别的语音流进行识别。

上述技术方案中，步骤(1)中，提取的频谱特征包括MFCC特征。

优选地，提取的频谱特征为12阶MFCC、对数能量、0阶倒谱系数、一阶导数、二阶导数，帧长25毫秒，帧移10毫秒。

上述技术方案中，步骤(1)中，所述深度信念网络的隐含层包含100个单元。

所述语音识别分类系统的模型参数为：学习迭代次数300次，学习率0.02，冲量0.2，权延迟0.002，批量单位100。

所述受限玻尔兹曼机使用二值分布单元。

优选地，扩散次数为20次，可获得最佳效果。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1、深度神经网络对训练集的数据量有要求，采用小数据库难以获得数据的深层特征，本发明通过对训练样本集进行处理来扩展训练样本集，与常规的理解不同，本申请通过重复方式或者置乱方式对训练样本集进行处理，能够提高小数据库条件下耳语音的识别率，其原因在于，通过重复方式扩展，可以使深度神经网络识别系统充分学习已有资源的信息，得到其深层特征；通过数据置乱，由于深度神经网络是一种仿生模型，学习对象的先后顺序对学习效果有影响，因而在小数据库中能改善系统的识别性能。因此，本发明的方法突破了常规理解，获得了意想不到的技术效果，具备创造性。

2、虽然耳语音和正常语音存在明显区别，但是，人们在使用耳语音和正常语音说相同内容时，其声道系统的轮廓是相似的，这一点表现在两者语谱图具有相似的轮廓，本发明选择频谱特征MFCC作为深度神网络模型的输入数据，在实现对正常语音流中耳语音的识别的同时，保证了正常语音的识别率。

附图说明

图1是本发明实施例中受限玻尔兹曼机（RBMs）的结构示意图。

图2是实施例中深度信念网络(DBN)分类流程示意图。

图3是实施例中DBN-DNN深度神经网络结构示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见附图2所示，一种小数据库条件下正常语音流中耳语音的识别方法，包括如下步骤：

(1) 构建语音识别分类系统，所述语音识别分类系统包括：

数字语音输入模块，用于对含有耳语音的语音流信号进行采样或者读取；

特征提取模块，用于提取频谱特征；选择的频谱特征包括12阶MFCC、对数能量、0阶倒谱系数、一阶导数、二阶导数，帧长25毫秒，帧移10毫秒。

深度神经网络，参见附图3所示，由深度信念网络和Softmax输出层构成；

参见附图1，为受限玻尔兹曼机（Restricted Boltzmann Machine， RBM）的结构示意图。受限玻尔兹曼机是一个双层的模型，其中包含可见层和隐藏层。同层之间，即可见单元和可见单元或隐藏单元和隐藏单元之间没有连接。受限玻尔兹曼机有两大作用，一种是对数据进行编码，然后输入到有监督学习的方法进行分类。另一种是得到权重矩阵和偏移量，用于神经网络的初始化训练。

本发明中，限制实验中用到的所有RBM均使用二值分布单元。令是输入特征矢量，也就是可视层数据，它表示可观察的数据，表示隐含层数据，它可表达可视层数据的深层联系。对于一组给定的模型参数,;, 方程(1) 给出了RBM模型的能量分布函数，方程(2) 给出了它们的联合概率分布。

(2)

其中，是规整因子，也叫配分函数。模型关于可见层节点的状态的边缘概率为

(3)

其中，连接可视层第m 单元和隐含层第n单元的权值； bm 和an 分别是第m 可视单元的偏置和第n 隐含单元的偏置；M, N 分别是可视层和隐含层的最大节点数。由于可视层节点之间没有连接，当给定隐含层单元后各可是节点便可独立确定，反之亦然。

RBM可以看做一个随机神经网络，它的节点和边缘可分别对应于神经元和神经突触。每个变量的条件概率可看作神经元的发放概率，激活函数是。对给定的隐层矢量:第n个隐含层节点的激活概率为

求得所有隐含层节点后，基于受限玻尔兹曼机的对称结构，第m个可见节点的激活概率为

在无监督学习过程中，RBM 模型参数可通过最大似然准则估计得到，其训练目标函数如下 (6)

对目标函数做偏微分，可得到RBM的权值更新方程

(7)

(8)

(9)

其中是学习率, 是训练数据可视层和隐含层的期望值，是隐含单元激活值与训练数据的内积。是重构数据，直接精确的计算非常困难，对比散度算法是目前比较有效的的估计方法。

深度信念网络（DBN）可由多个受限玻尔兹曼机（RBM）自下而上堆栈而得，如图3所示，每一层都是一个RBM模型。当第一个RBM训练结束，隐含层的输出可以被作为输入去训练第二个RBM。同理，第二个RBM隐含层的输出又可以作为输入去训练第三个RBM。以此类推，一个深度信念网络可由所有RBM逐层训练而得。这个过程是无监督过程，成为DBN模型的预训练，该过程学习提取训练数据的深层特征。若DBN被用于分类任务，如语音识别等，还需要增加一个Softmax 输出层作为DBN的顶层从而形成（深度神经网络）DNN模型。而DBN预训练所得到的参数即为DNN网络的初始网络参数，DNN在此基础上再用训练集数据进行一次微调训练，该过程是有监督的训练过程。Softmax 输出层对应表示DNN输出的目标值，例如，可以是音节、音素、音素状态等语音识别任务的识别类型的编码值。上述DNN微调过程使用经典BP算法，该训练过程需要提供语音信号的标注信息，微调过程的目标函数是使每个分类的后验概率最大化。

①采用重复方式对数据集进行人工扩展，扩展次数为8～24次（实验证明，本发明中最有效的扩展次数为20次）；

②对数据集进行置乱处理；

由此获得处理后的训练数据集；

(4) 采用训练后的分类系统对待识别的语音流进行识别。

本实施例中，建立了一个阿拉伯数字语音汉语普通话语孤立字料库，语料库由三个部分组成，分别是正常语音库A（简记NA），正常语音库B（简记NB），耳语音库（简记WH）. 从0到9每一个数字由74位普通发音标准的人参与录制，其中40人将每个数字重复发音2遍，另外34人将每个数字重复发音5遍。NA和WH是完全并行的两个语音库，均包含2500条录音。语音库NB有2000条录音，它是由20个人（不在上述74人之列）将每个数字重复发音10遍组成。为了保证耳语音的录音质量，NA和WH采用Zoom H4n手持式录音设备在专业录音棚录制， NB采用Logitech H110头戴式耳麦在普通实验室环境下录音。所有录音均采用16kHz采样率，16位量化，单声道录音格式。

为了便于后续的说明，对数据集进行命名：

1) NAD: 正常语音库NA中提取的特征参数集，称为NAD；

2) NBD: 正常语音库NB中提取的特征参数集，称为NBD；

3) WHD: 耳语音库WH中提取的特征参数集，称为WHD；

在DBN语音识别系统中，对模型参数的设置如下：隐含层包含100个单元，学习迭代次数300次，学习率0.02，冲量0.2，权延迟0.002，批量单位100。

提取正常语音库的MFCC及其相关参数作为DBN的输入，然后分析模型对于测试各数据集的基础识别率，并与HMM模型（隐马尔可夫模型）进行对比。其中HMM模型的配置是3状态4混合。测试结果如表1所示：

表1. 基础识别率（%）

模型	NAD	NBD	WHD
				DBN	59.88	53.7	44.75
HMM	99.88	84.9	66

在表1中，DBN-DNN模型的性能低于HMM模型，其主要原因在于低资源条件下，数据集没有提供DBN所需要的信息量。

对数据集进行人工扩展，并观察系统的性能。训练数据集经人工扩展后送入系统训练，由表2可见，DBN识别系统的性能有明显的变化，随着数据集的扩展，识别率提高，尤其是NAD数据集最为明显。但当数据集扩展到一定程度以后，性能则不再有改善。这是因为经过多次扩展，训练数据集中所蕴含的信息已经得到充分的学习。再多次的扩展就不能带来更多的信息量了。

表.2. 人工扩展数据集后DBN模型的性能

由表2也可以发现，NBD与WHD的性能随着数据集的扩展并非稳定上升，而是呈波动式变化。其主要原因是数据集在学习的过程是分批进行，在数据集不同顺序组合下，系统得到的信息量也不相同。

对数据集的不同组合方式进行分析。由于数据集的组合方式有若干种，不能遍历，任选一种方式对训练数据集进行置乱，并将该置乱后的数据集与原数据集的性能进行对比。观察表3可以发现，在低资源条件下，数据的信息量难以得到充分学习，此时数据的顺序也是影响系统性能的一个方面。从表3中的识别率来看（表3中第一行表示对数据集的扩展次数），当数据集被扩展若干次以后，网络对于该数据集的信息得到比较充分的学习之后，数据的顺序将不再成为影响系统性能的重要因素。当扩展次数达到12次以上，无论是否被置乱识别率趋于稳定。

表3. 数据集置乱条件下系统性能（识别率%）

从以上实例可以看出，本发明经过对低资源条件下的数据集进行人工扩展和置乱，可以改善系统性能。但是这种改善是有一定限度的，当数据集被扩展至一定倍数，DBN网络对于该数据集的信息得到充分学习，性能也就不再随着数据集的扩展而上升了。而数据集的顺序也在以一定程度上影响低资源数据集条件下系统的性能，但当采用数据集人工扩展方法对系统进行更为充分的训练以后，数据集的顺序的影响相对变小。本发明对于低资源条件下的DBN分类系统有重要意义。

Claims

1.一种小数据库条件下正常语音流中耳语音的识别方法，包括如下步骤：

②对数据集进行置乱处理；

由此获得处理后的训练数据集；

(4) 采用训练后的分类系统对待识别的语音流进行识别。

2.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法，其特征在于：步骤(1)中，提取的频谱特征包括MFCC特征。

3.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法，其特征在于：提取的频谱特征为12阶MFCC、对数能量、0阶倒谱系数、一阶导数、二阶导数，帧长25毫秒，帧移10毫秒。

4.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法，其特征在于：步骤(1)中，所述深度信念网络的隐含层包含100个单元。

5.根据权利要求4所述的小数据库条件下正常语音流中耳语音的识别方法，其特征在于：所述语音识别分类系统的模型参数为：学习迭代次数300次，学习率0.02，冲量0.2，权延迟0.002，批量单位100。

6.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法，其特征在于：所述受限玻尔兹曼机使用二值分布单元。

7.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法，其特征在于：扩展次数大于等于12次，进行随机置乱。

8.根据权利要求1所述的小数据库条件下正常语音流中耳语音的识别方法，其特征在于：扩展次数为20次。