CN106782520B

CN106782520B - 一种复杂环境下语音特征映射方法

Info

Publication number: CN106782520B
Application number: CN201710151497.0A
Authority: CN
Inventors: 王志锋; 郭天学; 左明章; 田元; 姚璜
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2019-11-26
Anticipated expiration: 2037-03-14
Also published as: CN106782520A

Abstract

本发明提供了一种复杂环境下语音特征映射方法，首先提取干净环境下的语音信号的特征；然后提取复杂环境下的语音信号的特征；接着利用特征映射方法对复杂环境下的语音信号进行特征映射，使得到的映射特征可近似视为干净环境下的语音信号特征；最后与已经训练完毕的干净环境下的语音信号模型进行模式匹配和识别。本发明利用特征映射函数对复杂环境下的语音信号进行映射，使得到的特征可以近似视为干净环境下的语音信号特征，通过映射函数的作用可使复杂环境下的语音特征的纯净度得到大幅度提升从而提升语音识别的准确度，提高语音识别系统的鲁棒性。

Description

一种复杂环境下语音特征映射方法

技术领域

本发明属于语音信号处理技术领域，特别涉及一种复杂环境下语音特征映射方法。

技术背景

随着计算机技术的深入发展，模式识别已经成为一种为人类带来巨大便利的实用技术，特别是在人机交互领域。模式识别能够为人机交互提供新的方式，为用户带来更加自然和更有沉浸感的交互体验。而语音识别是模式识别中非常重要的一个模块，在人类自然的交互中，语音交流是最为重要的一种方式，语音识别的运用使得人能够以自然的交互方式与机器进行交互，这种交互方式的便利性可大大缓解人类在人机交互中的压力，丰富了人与机器交互的方式，也使得人机交互更加的丰富和多样。近几十年语音识别已经发展的足够完美，识别率也足够高，然而这些结果都是在实验室内得出的结果，也就是说，在干净环境下，语音识别的结果是足够好的。但是在现实生活中，环境的复杂度是无法估量的，人们几乎不可能保证所身处的环境都是干净的环境，人们的周边充斥着噪音，这些噪音可能是周围自然环境所发出的噪声，也可能是其他人所发出的噪声，也可能是录音设备的噪声。也就是说，语音识别在自然的应用中是处于被噪声包围的复杂环境下的，而语音识别亟需解决的痛点就是在复杂环境下的识别率并不高，甚至是其结果是不被人们所接受的。

语音识别的结果受到周围环境的影响，在实验室环境(即干净环境下)其结果足够好，但是在现实环境(即复杂环境)中其结果是不被人们所接受的。这是亟需解决的问题。语音识别的过程包括模型训练和识别两个过程，而模型训练一般使用的都是干净环境下的语音信号，识别过程使用的是复杂环境下即真实的语音信号。要解决这个问题就需要从如何使复杂环境下的语音信号与干净环境下的语音信号进行匹配入手。在语音信号的处理过程中，有两个非常重要的环节，特征提取和建立模型，当今的解决方案大致便可以分为两种，一种是从特征入手，另一种是从模型入手。

特征映射就是从特征入手的一种解决方案。通过特征映射函数的作用，将复杂环境下的语音信号特征转换成可以近似视为干净环境下的语音信号特征。可大大提高现实应用中语音识别的准确率，提高语音识别系统的鲁棒性。

发明内容

本发明的目的在于提出一种通过特征映射来提高复杂环境下语音识别系统的鲁棒性的方法，该方法通过对复杂环境下的语音特征进行映射，使得复杂环境下的语音特征通过映射函数映射得到的语音特征具有近似干净环境下语音特征的纯净度，从而来提高语音识别系统在复杂环境下的识别率。

本发明所采用的技术方案是：一种复杂环境下语音特征映射方法，其特征在于，包括以下步骤：

步骤1：提取干净环境下的语音信号的特征；

步骤2：对复杂环境下的语音进行特征提取；

步骤3：利用特征映射方法对复杂环境下的语音特征进行映射；

步骤4：模式匹配与识别。

本发明具有以下优点和有益效果：

(1)本发明中提出的特征映射方法是一种线性的映射方法，计算简便且计算值为精确值，能够提高参数的精度；

(2)本发明提出的映射方法通过对复杂环境下的语音特征进行映射，能提高语音识别系统的识别准确率，具有较强的鲁棒性；

(3)本发明提出的映射方法还可以对干净环境下的语音进行映射，依然可以取得同样的效果；

(4)本发明为提高语音识别的准确性提出了一种广泛性的算法。

附图说明

图1本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种复杂环境下语音特征映射方法，包括以下步骤：

步骤1：提取干净环境下的语音信号的特征；

具体实现包括以下子步骤：

步骤1.1：对干净环境下得到的语音信号进行预处理，包括预加重、分帧、加窗；

步骤1.2：将步骤1.1中预处理后的信号提取Mel倒谱系数特征；

步骤1.3：使用混合高斯模型对步骤1.2中得到的特征建立统计模型，得到干净环境下语音信号的模型Λ。

本实施例中对干净环境下语音的训练，高斯混合模型中的高斯数应当视实际情况而定，在训练过程中应当兼顾运行速度和准确度两个方面。

步骤2：对复杂环境下的语音进行特征提取；

具体实现包括以下子步骤：

步骤2.1：对复杂环境下得到的语音信号进行预处理，包括预加重、分帧、加窗；

本实施例中对复杂环境下的语音进行特征提取，步骤2.1中分帧的帧数n应当与步骤1.1中的帧数n保持一致，即干净环境下的语音帧数和复杂环境下的语音帧数保持一致；

步骤2.2：将步骤2.1中预处理后的信号提取Mel倒谱系数特征，记为Y＝[y₁,y₂,...,y_i,...,y_n]，y_i表示复杂环境下第i帧的语音特征。

步骤3：利用特征映射方法对复杂环境下的语音特征进行映射；具体实现包括以下子步骤：

步骤3.1：将特征的每一帧y_i都进行映射，映射形式为：

x_i＝A·y_i+B，简记为：x_i＝F(y_i)

其中y_i为复杂环境下语音特征的第i帧语音特征，x_i为通过特征映射函数后得到的第i帧特征，A为增益矩阵，B为偏移矩阵；

A为d行d列的对角矩阵，B为d行1列的矩阵(d为帧长，在分帧的步骤中设置)；

步骤3.2：根据最大似然函数和已知模型Λ对F进行参数估计：

其中Λ为步骤1.3中训练的干净语音模型；

步骤3.3：根据当前F^t(当前帧的映射函数)的参数来构造辅助函数计算新的F(新的一帧的映射函数)的参数：

其中，θ表示语音信号状态序列，X表示语音信号特征，C表示所处高斯分量，m表示混合高斯模型的高斯数，n表示语音信号的帧数；

p(C_j|Λ)＝ω_j

ωj表示第j个高斯的权重，μj和Σj分别为第j个高斯分量的均值和方差，为方便记为：

步骤3.4：由步骤3.3可得到辅助函数为：

对各项展开可得：

其中μ_j,k，δ_j,k分别表示F的第k个参数的第j个高斯的均值和标准差，y_i,k表示映射前的第i帧语音特征的第k个矢量，a_k，b_k分别为F中增益矩阵a和偏移矩阵b的第k个参数；

步骤3.5：对步骤3.4中的展开式分别求F关于a_k，b_k的偏导数：

将以上两式展开可得：

步骤3.6：为方便计算，分别将以下统计量替代步骤3.5中的统计量：

则步骤3.5中的方程式可写为：

可解上述方程组得：

步骤3.7：将解得的A，B代入步骤3.1中即可求得经过映射后的语音信号特征X(可近似视为干净环境下的语音特征)。

步骤4：模型匹配与识别；当得到复杂环境下通过特征映射之后的特征后，对得到的特征建立统计模型，采用HMM-GMM模型，然后进行模型匹配，进行语音识别/说话人识别；

将步骤3中求得的语音特征X进行建模并用最大后验概率算法与已知模型Λ进行匹配，从而得到语音识别/说话人识别结果。

本实施例中描述的复杂环境是指在现实应用中的环境下，由于现实环境中存在着各种各样的噪音，因此它是一种复杂的环境，这种环境下周围的噪声是不可估的。干净环境是指在理想的实验室中的环境，对周围环境要求较高，而无噪声环境指周围环境无明显的干扰，离干净环境的要求有一定的差距。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种复杂环境下语音特征映射方法，其特征在于，包括以下步骤：

步骤1：提取干净环境下的语音信号的特征；

步骤1的具体实现包括以下子步骤：

步骤1.2：将步骤1.1中预处理后的信号提取Mel倒谱系数特征；

步骤1.3：使用混合高斯模型对步骤1.2中得到的特征建立统计模型，得到干净环境下语音信号的模型Λ；

步骤2：对复杂环境下的语音进行特征提取；

步骤2的具体实现包括以下子步骤：

步骤2.2：将步骤2.1中预处理后的信号提取Mel倒谱系数特征，记为Y＝[y₁,y₂,...,y_i,...,y_n]，y_i表示复杂环境下第i帧的语音特征；

骤3的具体实现包括以下子步骤：

步骤3.1：将特征的每一帧y_i都进行映射，映射形式为：

x_i＝A·y_i+B，简记为：x_i＝F(y_i)；

A为d行d列的对角矩阵，B为d行1列的矩阵；d为帧长，在分帧的步骤中设置；

步骤3.2：根据最大似然函数和已知模型Λ对F进行参数估计：

其中Λ为步骤1.3中训练的干净语音模型；

步骤3.3：根据当前F^t的参数来构造辅助函数计算新的F的参数：

其中，F^t为当前帧的映射函数，F为新的一帧的映射函数；θ表示语音信号状态序列，X表示语音信号特征，C表示所处高斯分量，m表示混合高斯模型的高斯数，n表示语音信号的帧数；

p(C_j|Λ)＝ω_j

其中，ω_j表示第j个高斯的权重，μ_j和Σ_j分别为第j个高斯分量的均值和方差，为方便记为：

步骤3.4：由步骤3.3可得到辅助函数为：

对各项展开可得：

步骤3.5：对步骤3.4中的展开式分别求F关于a_k，b_k的偏导数：

将以上两式展开可得：

则步骤3.5中的方程式可写为：

解上述方程组得：

步骤3.7：将解得的A，B代入步骤3.1中即可求得经过映射后的语音信号特征X，视为干净环境下的语音特征；

步骤4：模式匹配与识别。

2.根据权利要求1所述的复杂环境下语音特征映射方法，其特征在于：干净环境下的语音帧数和复杂环境下的语音帧数保持一致。

3.根据权利要求1或2所述的复杂环境下语音特征映射方法，其特征在于：步骤4中，当得到复杂环境下通过特征映射之后的特征后，对得到的特征建立统计模型，采用HMM-GMM模型，然后进行模型匹配，进行语音识别/说话人识别。