CN111429922A

CN111429922A - 一种基于自适应语音增强的说话人识别方法及装置

Info

Publication number: CN111429922A
Application number: CN202010228147.1A
Authority: CN
Inventors: 杨骏; 周春辉
Original assignee: Foshan Qingling Information Technology Co ltd; Foshan University
Current assignee: Foshan Qingling Information Technology Co ltd; Foshan University
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-17

Abstract

本发明涉及语音识别技术领域，具体涉及一种基于自适应语音增强的说话人识别方法及装置，首先对待识别的语音信号进行前级放大、滤波，得到输入信号；并对输入信号进行A/D变换采样，得到输入信号的数字信号；接着对所述数字信号进行分帧，对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理，得到增强信号；进而对增强信号进行语音活动检测，提取增强信号中的语音段作为待识别语音；最后采用高斯混合优化模型对待识别语音信号进行匹配识别，得出说话人识别结果，本发明提高了说话人识别在对语音信号采样时设备距离较远时的识别性能。

Description

一种基于自适应语音增强的说话人识别方法及装置

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于自适应语音增强的说话人识别方法及装置。

背景技术

语音信号的质量在一定程度上影响到听话人对说话人的识别和语音内容识别的准确率，在嘈杂的环境中，我们不容易听清周围人的说话内容，也很难根据其声音识别说话人是谁。根据我们日常生活的经验就可知道，当我们听到的语音信号有足够好的信噪比时(也就是信号足够大又不失真)，就能较准确地识别说话对象和说话内容；同样的道理，计算机模仿人类的方式进行声纹识别，也存在同样的现象。声纹识别应用在不同条件下，比如有的在同一环境的现场语音拾取，有的是通过电话传输得到的语音，有的是在空旷的露天环境下的语音拾取，有的是在混响严重的室内拾取的，有的是近场拾音(说话者距离麦克风50cm之内)，有的是远场拾音(说话者距离麦克风1米开外)。在现实环境中，硬件设备、传送媒介以及环境噪音、以及自身语音在密闭环境中产生的混响等都会影响到语音信号的质量。

在说话人识别的技术领域，拾取到的声音质量严重地影响了声纹特征，导致对身份辨识(声纹识别的识别率)的结果影响巨大。例如，在普通会议室内(混响较小的房间，通常混响时间指标T60在800ms左右)，由于混响和环境噪声的影响，现有声纹识别技术只能对近场拾音信号进行识别，对距离麦克风超出50cm以外的拾音信号很难得到可信的识别结果。而声纹识别(包括语音识别)是一种非接触式特征提取手段，其优点应该体现在较远距离时仍然能够得到较高的可信度，但现有技术却只能识别近距离拾音，无法体现其应有的优势。

因此，如何提高语音识别性能和抗噪能力，提高远距离拾音的识别能力，成为亟待解决的问题。

发明内容

从上述背景技术可知，在远场拾音条件下，目前的声纹识别技术效果不佳，究其原因根结在于当说话者的语音传递到麦克风的信号随距离增加而衰减，而环境噪声和混响保持不变，造成拾音信号的信噪比下降，影响了声纹识别的识别率。

为解决上述问题，本发明提供一种基于自适应语音增强的说话人识别方法及装置，可以提高语音识别性能和抗噪能力。通过实验，本发明方法在2米距离拾音时，仍然可以与其他方法在50cm距离拾音时类似的识别率。

为了实现上述目的，本发明提供以下技术方案：

根据本发明实施例提供的一种基于自适应语音增强的说话人识别方法，包括：

对待识别的语音信号进行前级放大、滤波，得到输入信号；滤除不需要的低频和高频信号。

对输入信号进行A/D变换采样，得到输入信号的数字信号；

对所述数字信号进行分帧，对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理，得到增强信号；从而实现了语音增强处理。

对增强信号进行语音活动检测(Voice Activity Detection，简称VAD)，去除无语音部分，提取增强信号中的语音段作为待识别语音；

采用高斯混合优化模型对待识别语音信号进行匹配识别，得出说话人识别结果。

进一步，所述对输入信号进行A/D变换采样，得到输入信号的数字信号，具体为：

对输入信号进行均匀时间间隔采样，设采样点一共为N个，编号为n的语音采样值为x(n)，通过高频预加重处理得到数字信号为y(n)＝x(n)-ax(n-1)，其中，a表示为权值，用于对采样得到的数字信号进行高频预加重处理。

进一步，所述加窗处理具体为：

将分得的每一帧都乘上海明窗函数，海明窗函数表达式为：

W(n，α)＝(1-α)-αcos(2*π*n/(N-1))，0≤n≤N-1，α＝0.46。

进一步，所述对增强信号进行语音活动检测，具体为：

采用双门限法检测出增强信号的语音端点。

进一步，所述采用高斯混合优化模型对待识别语音信号进行匹配识别，得出说话人识别结果，包括：

提取待识别语音信号的基音周期；

提取待识别语音中每一帧的梅尔倒谱系数，采用高斯混合优化模型分别计算语音声纹库中各个识别对象的后验概率(相似度)，将最大后验概率的识别对象作为说话人识别结果。

进一步，所述提取待识别语音信号的基音周期，具体为：

采用时域估计法提取待识别语音信号的基音周期，所述时域估计法为：自相关法、并行处理法、平均幅度差法、数据减少法中任一种。

进一步，所述高斯混合优化模型具体通过以下方式训练得到：

获取识别对象的样本语音；

将样本语音的特征矢量作为输入，采用EM算法计算学习高斯混合模型，建立识别对象的语音声纹库；

当高斯混合模型的参数收敛于设定的阈值时，则迭代终止，得到最终的模型参数；

使用最终的模型参数对高斯混合模型进行更新，得到高斯混合优化模型。

根据本发明提供的一种基于自适应语音增强的说话人识别装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现上述的基于自适应语音增强的说话人识别方法的步骤。

本发明的有益效果是：本发明公开一种基于自适应语音增强的说话人识别方法及装置，首先对待识别的语音信号进行前级放大、滤波，得到输入信号；并对输入信号进行A/D变换采样，得到输入信号的数字信号；接着对所述数字信号进行分帧，对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理，得到增强信号；进而对增强信号进行语音活动检测，提取增强信号中的语音段作为待识别语音；最后采用高斯混合优化模型对待识别语音信号进行匹配识别，得出说话人识别结果。本发明可以达到当说话者的语音传递到麦克风的信号随距离增加而衰减时，在环境噪声和混响保持不变的条件下，提升拾音信号的信噪比，从而提高声纹识别的识别率。本发明提高了说话人识别在对语音信号采样时设备距离较远时的识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种基于自适应语音增强的说话人识别方法的流程示意图；

图2是本发明实施例的说话人识别方法的另一流程框图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参考图1和图2，如图1所示为一种基于自适应语音增强说话人识别的身份辨识方法，包括以下步骤：

步骤S100、对待识别的语音信号进行前级放大、滤波，得到输入信号；

步骤S200、对输入信号进行A/D变换采样，得到输入信号的数字信号；

步骤S300、对所述数字信号进行分帧，对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理，得到增强信号；

步骤S400、对增强信号进行语音活动检测，提取增强信号中的语音段作为待识别语音；

步骤S500、采用高斯混合优化模型对待识别语音信号进行匹配识别，得出说话人识别结果。

在一个示例性的实施例中，采用麦克风对50cm以外的说话人进行语音采样，保持使用同样的密闭环境。采用自适应滤波器对采集的语音进行滤波处理，用原信号减去估计的语音信号达到语音增强处理。对语音增强后的语音信号进行预处理，包括采样、量化、高频信号的预加重处理、进行对增强后的语音进行分帧，帧长取10～30ms，在乘上海明窗进行加窗处理。接着采用短时能量谱和短时过零率检测语音端点，以短时能量为主，以短时过零率为辅，去掉语音段中无声部分。本实施例采用时域估计法提取待识别语音信号的基音周期，所述时域估计法为：自相关法、并行处理法、平均幅度差法、数据减少法中任一种。

本实施例通过语音增强技术对说话人的识别语音信号进行一个初始处理，对要识别的语音信号进行增强，使要识别的语音能够有相对更好的质量，在复杂的环境中，也能够通过信号的增强提高对说话人身份的识别度，具有良好识别性能和抗噪能力。

在一个优选的实施例中，所述对输入信号进行A/D变换采样，得到输入信号的数字信号，具体为：

在一个优选的实施例中，所述加窗处理具体为：

将分得的每一帧都乘上海明窗函数，海明窗函数表达式为：

W(n，α)＝(1-α)-αcos(2*π*n/(N-1))，0≤n≤N-1，α＝0.46。

所述对增强信号进行语音活动检测，具体为：

采用双门限法检测出增强信号的语音端点。

在一个优选的实施例中，所述采用高斯混合优化模型对待识别语音信号进行匹配识别，得出说话人识别结果，包括：

提取待识别语音信号的基音周期；

在一个优选的实施例中，所述提取待识别语音信号的基音周期，具体为：

在一个优选的实施例中，所述高斯混合优化模型具体通过以下方式训练得到：

获取识别对象的样本语音；

当高斯混合模型的参数收敛于设定的阈值(本实施例取10^-4)时，则迭代终止，得到最终的模型参数；

在一个实施例中，所述高斯混合优化模型的训练步骤包括：

先获取样本语音集，对每一个说话人进行建模，每一个说话人的概率密度函数形式相同，不同的是函数中的参数，说话人模型则是在特定(高斯分布)概率密度函数形式下的一组参数，然后用高斯分布加权和逼近得到GMM模型。通过高斯混合优化模型的识别结果得出说话人识别结果。

梅尔倒谱系数的具体提取方法如下：

(1)将对语音前级放大、滤波、A/D变换、降噪处理、语音活动检测、分帧及加窗处理，得到用于提取特征参数的语音向量，对已经经过预处理的语音向量分别进行离散傅里叶变换(DFT)，计算功率谱的周期图估计；

(2)将功率谱通过梅尔滤波器组，将每个滤波器的能量求和；

(3)对所有滤波器组能量取对数；

(4)对对数滤波器组能量作离散余弦变换(dis-crete cosine transform，DCT)；

(5)保持DCT系数2-24，其余部分丢弃。

本实施例提供的技术方案可以在采样设备距离较远时对采集的语音有更好的信噪比，最终达到识别语音信号的增强与声纹识别进行结合，提高的识别度，具有良好识别性能和抗噪能力。

本发明实施例还提供一种基于自适应语音增强的说话人识别装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现上述的基于自适应语音增强的说话人识别方法的步骤。

可见，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求，考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种基于自适应语音增强的说话人识别方法，其特征在于，包括：

对待识别的语音信号进行前级放大、滤波，得到输入信号；

对输入信号进行A/D变换采样，得到输入信号的数字信号；

对所述数字信号进行分帧，对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理，得到增强信号；

对增强信号进行语音活动检测，提取增强信号中的语音段作为待识别语音；

2.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法，其特征在于，所述对输入信号进行A/D变换采样，得到输入信号的数字信号，具体为：

对输入信号进行均匀时间间隔采样，设采样点一共为N个，编号为n的语音采样值为x(n)，通过高频预加重处理得到数字信号为y(n)＝x(n)-ax(n-1)，其中，a表示为权值。

3.根据权利要求2所述的一种基于自适应语音增强的说话人识别方法，其特征在于，所述加窗处理具体为：

将分得的每一帧都乘上海明窗函数，海明窗函数表达式为：

W(n，α)＝(1-α)-αcos(2*π*n/(N-1))，0≤n≤N-1，α＝0.46。

4.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法，其特征在于，所述对增强信号进行语音活动检测，具体为：

采用双门限法检测出增强信号的语音端点。

5.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法，其特征在于，所述采用高斯混合优化模型对待识别语音信号进行匹配识别，得出说话人识别结果，包括：

提取待识别语音信号的基音周期；

提取待识别语音中每一帧的梅尔倒谱系数，采用高斯混合优化模型分别计算语音声纹库中各个识别对象的后验概率，将最大后验概率的识别对象作为说话人识别结果。

6.根据权利要求5所述的一种基于自适应语音增强的说话人识别方法，其特征在于，所述提取待识别语音信号的基音周期，具体为：

7.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法，其特征在于，所述高斯混合优化模型具体通过以下方式训练得到：

获取识别对象的样本语音；

8.一种基于自适应语音增强的说话人识别装置，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于自适应语音增强的说话人识别方法的步骤。