CN103258533A

CN103258533A - 远距离语音识别中的模型域补偿新方法

Info

Publication number: CN103258533A
Application number: CN2013102011025A
Authority: CN
Inventors: 杨勇; 李劲松
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2013-08-21
Anticipated expiration: 2033-05-27
Also published as: CN103258533B

Abstract

本发明涉及语音识别技术领域，公开了一种远距离语音识别中去混响方法及系统。该方法包括：模拟室内的声学环境，通过输入的室内空间尺寸，生成不同位置的房间冲击响应序列；对生成的房间冲击响应序列做聚类分析，从而将室内声学环境划分为多个区域，求出每一个区域冲击响应序列的相应补偿矩阵；在构建的识别网络中，用各个区域的补偿矩阵对识别网络进行按帧的补偿，从多个识别结果中利用最大后验概率思想，求出最佳补偿。本发明通过对声学空间进行聚类分析，做到对识别网络有区别性的模型补偿，极大的提高了室内环境中远距离语音识别的抗混响性能。

Description

远距离语音识别中的模型域补偿新方法

技术领域

本发明涉及语音识别领域，具体涉及一种语音识别模型域补偿方法。

背景技术

语音识别是指让机器听懂人说的话，即在各种情况下，机器通过识别和理解，把人类的语音信号变成相应的文本或命令。其根本目标是研究出一种具有听觉功能的机器，这种机器能直接接受人的语音，理解人的意图，并做出相应的反应。从技术上看，它属于多维模式识别和智能技术的范畴。语音识别作为一门交叉学科，与声学、语言学、人工智能、数字信号处理、模式识别等学科有着紧密的联系，广泛应用于工业、军事、交通、医学等诸多邻域。随着近年来计算机与电子技术的发展，人们对免提设备的需求及要求越来越高，传统的语音识别不能满足人们远距离操控设备的需求。例如智能玩具、汽车自动驾驶、智能家居等，越来越人性化的商品设计，使得人们在使用这些产品的过程中更迫切地希望能解放双手，促使了远距离语音识别的发展。远距离语音识别即在传统语音识别的基础上，拉长说话人与麦克风之间的距离。由于远距离语音识别能完全避免人机交互过程中距离产生的障碍，而传统近距离的语音识别应用范围越来越窄，因此近几年来远距离语音识别发展迅猛。

远距离语音识别的应用环境可分为开阔环境和封闭环境，但大多都应用在封闭的环境中，所以本发明仅针对封闭环境下的远距离语音识别。由于在相对封闭的环境（如室内、车内）中，由于受语音在空间传播的多径效应影响，说话人的语音会产生混响效果，随之带来的语音测试集和训练集之间的不匹配，使得语音识别正确率会大幅度下降。如何在混响环境中提高语音识别正确率，以及怎样通过有效的方法提高语音识别的混响鲁棒性，成为近几年来语音识别的研究热点。本发明能方便地嵌入到语音识别网络，提高商业化语音识别产品的混响鲁棒性。

为了消除混响的影响，一般来说可以从信号域、特征域和模型域三个方面来进行处理。比如语音增强、麦克风阵列属于信号域方法，特征规整属于特征域方法，模型补偿属于模型域方法。信号域方法可以获得好的语音处理效果，但其原理复杂，传声器体积庞大且昂贵；特征规整方法应用在语音的前端处理，处理效果不如信号域理想，且过于复杂的处理算法影响系统的实时性；训练带有混响的语音数据，以及线性及非线性的模型补偿，是最近几年来的一些模型补偿新方法，但往往这些方法都没有考虑到环境因素，即缺乏环境适应性。

语音识别中的混响模型是A. Sehr等人提出的一种在模型域解混响的新方法，该方法实质是在模型域模拟混响信号的产生特点，根据实际语音分帧长度，求出房间冲击响应的帧数目，建立混响模型，利用混响模型在模型域对每一帧清晰语音模型参数补偿相同帧数目的混响补偿值。A.Sehr完成了在梅尔频率域、对数域补偿以及相应的性能分析。之后A.Sehr在混响模型基础上又提出按帧补偿的隐马尔科夫自适应方法，该方法将混响模型理论应用到隐马尔科夫自适应方法中，使得混响模型有了实际应用价值。但该方法在模型域补偿阶段对隐马尔科夫数进行的混响补偿是一种固定补偿。在实际语音识别的应用中，声源的位置是未知的，此外，若声源位置发生变动，但在模型域的混响补偿没有做相应的变化，那么补偿参数将会变得不精确，从而导致识别率不能得到有效提高。

发明内容

有鉴于此，为了解决上述问题，本发明提供一种远距离语音识别中的模型域补偿新方法，在保证远距离语音识别的同时，实现识别率的提升。

本发明的目的是这样实现的：远距离语音识别中的模型域补偿新方法，包括如下步骤：一种远距离语音识别中的模型域补偿方法, 包括步骤：应用镜像算法计算多组不同位置的房间冲击响应序列,对房间冲击响应序列进行优化，按帧提取能量参数；利用K均值聚类算法对优化后的房间冲击响应序列进行聚类，求出房间冲击响应类的混响模型，对每个混响模型应用广义逆矩阵求出均值辅助补偿矩阵和方差辅助补偿矩阵；利用清晰语音语料库训练清晰语音的隐马尔科夫模型；利用得到的辅助补偿矩阵参数，在维特比解码阶段对语音模型参数执行按帧补偿算法，按最大后验概率原则选择最佳的辅助补偿矩阵参数。

计算多组不同位置的房间冲击响应序列具体包括，输入房间的空间大小参数、吸声系数、麦克风坐标以及声源坐标，将上述参数作为镜像算法的输入参数，计算房间冲击响应序列，一个声源坐标对应生成一组房间冲击响应序列。对房间冲击响应序列进行优化具体为，删除房间冲击响应序列尾部数据，保证各个房间冲击响应序列的长度为5120点；对房间冲击响应序列进行分帧，分帧长度为160点为一帧；对每一帧房间冲击响应执行按帧求和运算，得到新的房间冲击响应特征序列。利用K均值聚类算法对房间冲击响应序列进行聚类，将同一类的房间冲击响应序列按行合并为矩阵，每一类对应一个房间冲击响应矩阵。对房间冲击响应矩阵实施时频域转换，得到梅尔频率域的混响模型；辅助矩阵为真实混响语音参数与估计混响语音参数乘积的广义逆矩阵，用以消除两者之间的误差；利用辅助矩阵与混响模型参数相乘的均值得到均值补偿矩阵，利用辅助矩阵与混响模型参数相乘的结果与均值矩阵的差值的均值得到方差补偿矩阵。训练过程中采用多次分裂隐马尔科夫模型，对每一个隐马尔科夫状态中的输出概率模型，都是一个独立的高斯混合模型。在维特比解码阶段对语音模型参数执行按帧补偿算法具体为：将混响模型的均值与方差按帧地叠加到当前帧清晰语音模型的均值与方差矩阵上；将混响模型的均值从梅尔频率域转到梅尔倒谱域，转换方法为：从梅尔频率域经过离散余弦变换然后取对数得到梅尔倒谱域模型；反之，从梅尔倒谱域经过逆离散余弦变换和指数运算得到梅尔频率域模型；在补偿阶段，选择出最佳的混响模型补偿类的均值与方差对模型参数进行补偿

本发明的目的是解决现有远距离语音识别中混响因素引起的语音模糊、输入语音与训练集不匹配的情况下而提出的一种基于位置的模型域补偿方法。与现有技术相比，本发明具有良好的环境自适应性，能在不添加硬件滤波设备的基础上提高了语音识别技术在混响环境中的性能，对混响环境中实现语音识别的商业化、小型化创造了的可能性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过说明书，权利要求书，以及附图中所特别指出的结构来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述：

图1示出了远距离语音识别模型补偿方法原理示意图；

图2示出了房间冲击响应优化集的聚类示意图。

具体实施方式

图1示出了远距离语音识别模型补偿方法原理示意图。包括步骤：

1）计算多组不同位置的特定房间的冲击响应序列，具体可采用如下方法：

应用镜像算法产生多组随机的不同位置的房间冲击响应序列。输入房间的空间大小参数、吸声系数、麦克风坐标以及随机的声源坐标，这样的多个参数作为一组参数将上述参数作为镜像算法的输入参数，计算房间冲击响应序列，一个不同声源坐标将对应生成一组不同的房间冲击响应序列。

对房间冲击响应序列进行优化，按帧提取能量参数，便于后续的聚类操作。具体可采用如下方法：删除房间冲击响应序列尾部数据。如保证各个房间冲击响应序列的长度都为5120点；对房间冲击响应序列进行分帧，分帧长度为160点为一帧；对每一帧房间冲击响应执行按帧求和运算，得到新的房间冲击响应特征序列。

2）对房间冲击响应优化集聚类并求解对应的辅助补偿矩阵。

利用K均值聚类算法对对优化后的房间冲击响应序列进行聚类，求出每一个房间冲击响应类的混响模型；利用K均值聚类算法对房间冲击响应序列进行聚类；将同一类的房间冲击响应序列按行合并为矩阵，每一类对应一个房间冲击响应矩阵。

对每个混响模型应用广义逆矩阵求解方法求出均值辅助补偿矩阵和方差辅助补偿矩阵。对房间冲击响应矩阵实施时频域转换，得到梅尔频率域的混响模型；引入辅助矩阵，辅助矩阵实际上为真实混响语音参数与估计混响语音参数乘积的广义逆矩阵，用以消除两者之间的误差；利用辅助矩阵与混响模型参数相乘的均值得到均值补偿矩阵，利用辅助矩阵与混响模型参数相乘的结果与均值矩阵的差值的均值得到方差补偿矩阵。

3）利用清晰语音语料库训练清晰语音的隐马尔科夫模型。模型训练采用五状态的隐马尔科夫，使用了三音素模型来建立识别单元；训练过程中采用多次分裂隐马尔科夫模型，对每一个隐马尔科夫状态中的输出概率模型而言，都是一个独立的高斯混合模型。

4）在维特比解码阶段对语音模型参数执行实时的按帧补偿算法。利用得到的辅助补偿矩阵参数，在维特比解码阶段对语音模型参数执行实时的按帧补偿算法；维特比为对应隐马尔科夫模型的解码算法，对模型的均值和方差进行如下的补偿：将混响模型的均值与方差按帧地叠加到当前帧清晰语音模型的均值与方差矩阵上。

将混响模型的均值从梅尔频率域转到梅尔倒谱域，转换方法为：从梅尔频率域经过离散余弦变换然后取对数得到梅尔倒谱域模型；反之，从梅尔倒谱域经过逆离散余弦变换和指数运算得到梅尔频率域模型；按一定的补偿频率，按最大后验概率原则选择最佳的辅助补偿矩阵参数。在补偿阶段利用最大后验概率的思想，选择出最佳的混响模型补偿类，使用该混响模型的均值与方差对模型参数进行补偿。

图2示出了房间冲击响应优化集的聚类示意图。

对于n个房间（RM1,RM2……RMn）,分别获取RIR序列,并进行优化聚类合并,获得Kmeans,从而将室内声学环境划分为多个区域，求出每一个区域冲击响应序列的相应补偿矩阵；在构建的识别网络中，用各个区域的补偿矩阵对识别网络进行按帧的补偿，获得一系列RIR优化类，从多个识别结果中利用最大后验概率思想，求出最佳补偿RM类1……RM类c。

以上所述仅为本发明的优选实施例，并不用于限制本发明。本发明通过改进混响模型，并在改进的混响模型基础上提出了对声学空间的分类。对解决远距离语音识别中的混响问题是有效的。尤其是应用在尺寸较大的房间中，以及声源距麦克风较远的情况下，识别性能的改善更为明显。声学空间聚类数的选择是灵活的，本发明验证了聚类数对识别率的影响，在较小尺寸的房间环境中，低聚类数即可获得较好的补偿效果。还验证了在应用多种聚类算法进行房间冲击响应序列聚类的情况下仍具有识别性能的提升，且K均值聚类算法在我们的实验结果中获得了更好的效果。另外过高的聚类数也会增加维特比解码时的时间复杂度，以多次试探混响语音所属的位置的方法，来换取识别精度的提升。本发明可以方便地在语音开源识别识别引擎ATK的底层库文件中实现，从而应用到语音识别的应用程序中。

Claims

1.远距离语音识别中的模型域补偿方法, 其特征在于：包括步骤：应用镜像算法计算多组不同位置的房间冲击响应序列,对房间冲击响应序列进行优化，按帧提取能量参数；利用K均值聚类算法对优化后的房间冲击响应序列进行聚类，求出房间冲击响应类的混响模型，对每个混响模型应用广义逆矩阵求出均值辅助补偿矩阵和方差辅助补偿矩阵；利用清晰语音语料库训练清晰语音的隐马尔科夫模型；利用得到的辅助补偿矩阵参数，在维特比解码阶段对语音模型参数执行按帧补偿算法，按最大后验概率原则选择最佳的辅助补偿矩阵参数。

2.根据权利要求1所述的模型域补偿方法, 其特征在于：计算多组不同位置的房间冲击响应序列具体包括，输入房间的空间大小参数、吸声系数、麦克风坐标以及声源坐标，将上述参数作为镜像算法的输入参数，计算房间冲击响应序列，一个声源坐标对应生成一组房间冲击响应序列。

3.根据权利要求1所述的模型域补偿方法, 其特征在于：对房间冲击响应序列进行优化具体为，删除房间冲击响应序列尾部数据，保证各个房间冲击响应序列的长度为5120点；对房间冲击响应序列进行分帧，分帧长度为160点为一帧；对每一帧房间冲击响应执行按帧求和运算，得到新的房间冲击响应特征序列。

4.根据权利要求1所述的模型域补偿方法, 其特征在于：利用K均值聚类算法对房间冲击响应序列进行聚类，将同一类的房间冲击响应序列按行合并为矩阵，每一类对应一个房间冲击响应矩阵。

5.根据权利要求1所述的模型域补偿方法, 其特征在于：对房间冲击响应矩阵实施时频域转换，得到梅尔频率域的混响模型；辅助矩阵为真实混响语音参数与估计混响语音参数乘积的广义逆矩阵，用以消除两者之间的误差；利用辅助矩阵与混响模型参数相乘的均值得到均值补偿矩阵，利用辅助矩阵与混响模型参数相乘的结果与均值矩阵的差值的均值得到方差补偿矩阵。

6.根据权利要求1所述的模型域补偿方法, 其特征在于：训练过程中采用多次分裂隐马尔科夫模型，对每一个隐马尔科夫状态中的输出概率模型，都是一个独立的高斯混合模型。

7.根据权利要求1所述的模型域补偿方法, 其特征在于：在维特比解码阶段对语音模型参数执行按帧补偿算法具体为：将混响模型的均值与方差按帧地叠加到当前帧清晰语音模型的均值与方差矩阵上；将混响模型的均值从梅尔频率域转到梅尔倒谱域，转换方法为：从梅尔频率域经过离散余弦变换然后取对数得到梅尔倒谱域模型；反之，从梅尔倒谱域经过逆离散余弦变换和指数运算得到梅尔频率域模型；在补偿阶段，选择出最佳的混响模型补偿类的均值与方差对模型参数进行补偿。