CN113793613A

CN113793613A - 一种多特征融合的说话人识别方法

Info

Publication number: CN113793613A
Application number: CN202110853614.4A
Authority: CN
Inventors: 于�玲; 孙佳宁
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-12-14

Abstract

一种多特征融合的说话人识别方法，属于说话人识别技术领域，本方法的特征是在特征提取部分通过将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合来提高说话人识别算法的识别率。首先，取8维线性预测倒谱系数LPCC；然后，取12维梅尔倒谱系数MFCC，并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量；最后，对12维梅尔倒谱系数MFCC进行一阶差分，得到一组新的梅尔倒谱差分系数，作为特征矢量的一组分量。实验证明本发明与采用传统特征提取方法的GMM说话人识别相比能显著提高说话人识别正确率。

Description

一种多特征融合的说话人识别方法

技术领域

本发明涉及智能音箱中说话人识别技术领域，涉及到特征提取部分的多特征融合方法，特别涉及到将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合的方法。

背景技术

随着人们对于居家生活质量要求的逐渐提高，智能音箱走进人们的生活。但在实际生活中智能音箱容易出现被环境噪音干扰而无法准确被唤醒的情况。为了解决该问题，研究工作者提出在进行说话人识别前进行特征提取，但采用任一单独的特征分量提取来进行说话人识别都可能出现对语音的清音识别不准确，或者抗噪性很差的情况。

因此，本发明采取多特征融合算法，将线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合，并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量，为解决设备容易被环境音错误激活的问题提出了切实可行的办法。

发明内容

本发明的主要目的是提供一种多特征融合的说话人识别方法，在特征提取部分进行多特征融合的说话人识别方法。

多特征融合的说话人识别方法，包括以下步骤：

A.计算线性预测倒谱系数LPCC。

A1.计算出预测系数。

A2.将预测系数带入线性预测倒谱公式，计算出8维线性预测倒谱系数LPCC。

B.计算梅尔倒谱系数MFCC的特征系数。

B1.计算12维梅尔倒谱系数MFCC。

B2.将第一维梅尔倒谱系数MFCC的特征分量去掉。

C.计算短时能量特征系数。

C1.对语音信号进行取平方处理。

C2.对其进行归一化处理和取对数处理。

D.计算一阶动态差分特征系数。

D1.将一维短时能量与梅尔倒谱系数MFCC进行有机结合。

D2.将有机结合后的12维特征分量进行一阶差分，得到一组新的差分系数。

E.将多特征进行有机结合。

其优点在于：

本发明首先利用公式计算线性预测倒谱系数LPCC的特征系数，然后利用公式计算梅尔倒谱系数MFCC，并将1维短时能量与梅尔倒谱系数MFCC进行有机结合，之后取有机结合后的12维梅尔倒谱系数MFCC特征分量的一阶动态差分系数。最后将多特征进行有机结合来提高对说话人识别的准确率。本方法不但提出了将线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合的特征提取方法，还解决了设备容易被环境音错误激活的问题，降低了智能音箱的误唤醒率。

附图说明

附图1是本发明中的多特征融合方法的总体流程图。

附图2是本发明中梅尔倒谱系数MFCC系数的计算过程。

具体实施方式

为使本发明实施例的目的、技术方案及其优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述，整体算法流程图如图1所示：

A.计算线性预测倒谱系数LPCC的特征系数。

所述步骤A具体包含以下步骤：

A1.首先计算出预测系数a₁～a_p。

A2.然后，当线性预测倒谱系数n的阶数为1的时候，令语音信号LPC倒谱系数c_lp(1)＝a₁，当线性预测倒谱系数n的阶数不为1的时候，使用

进行计算。

当线性预测倒谱系数n的阶数不超过线性预测阶数p的时候，使用第一个公式进行计算，当线性预测倒谱系数n的阶数大于线性预测阶数p时则用第二个公式进行计算，进而得到语音信号LPC倒谱系数c_lp(n)。本技术方案选取线性预测倒谱系数n为8，线性预测阶数p也为8。

B.计算梅尔倒谱系数MFCC的特征系数。

所述步骤B具体包含以下步骤：

B1.提取12维梅尔倒谱系数MFCC。首先对输入的语音信号进行预加重处理，然后对预处理之后得到的语音数据进行快速傅里叶变换(FFT)。之后对每帧序列取模的平方进而得到离散功率谱。下一步将得到的离散功率谱用序列三角滤波器进行滤波处理，得到一组系数。下一步计算滤波器组输出参数的自然对数。最后对滤波器输出数据进行离散余弦变换(DCT)。如图2所示，是梅尔倒谱系数MFCC的计算过程示意图。

B2.将获得的第一维梅尔倒谱系数MFCC的特征分量舍掉。

C.计算短时能量特征系数。

C1.对于信号{x(n)},其短时能量的定义如下：

其中h(n)为该线性滤波器的单位冲激响应，h(n)＝w(n)²，En表示在信号的第n个点开始加窗函数时的短时能量，窗函数w(n)为汉明窗，公式如下：

其中N为汉明窗的长度。

C2.在语音特征中加入能量参数作为特征向量的一维分量，通常要用公式

对其进行归一化处理和取对数。其中L为帧的数量，最后将得到的

加入到特征向量中。

D.计算一阶动态差分特征系数。

D1.将1维短时能量与梅尔倒谱系数MFCC进行有机结合。

D2.将有机结合后的12维特征分量进行一阶差分处理，差分参数的计算采用以下公式：

其中d_t表示第t个一阶差分，C_t表示第t个倒谱系数，N表示倒谱系数的阶数，K表示一阶导数的时间差，通常取1或2。

E.将多特征进行有机结合。

本方法的特征是在特征提取部分通过将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合来提高说话人识别算法的识别率。首先，取8维线性预测倒谱系数LPCC；然后，取12维梅尔倒谱系数MFCC，并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量；最后，对12维梅尔倒谱系数MFCC进行一阶差分，得到一组新的梅尔倒谱差分系数，作为特征矢量的一组分量。证明本发明与采用传统特征提取方法的高斯混合模型GMM说话人识别相比能显著提高说话人识别正确率。

Claims

1.一种多特征融合的说话人识别方法，其特征在于包括下列步骤：

A.计算线性预测倒谱系数LPCC；

B.计算梅尔倒谱系数MFCC的特征系数；

C.计算短时能量特征系数；

D.计算一阶动态差分特征系数；

E.将多特征进行有机结合。

2.根据权利1所述的一种多特征融合的说话人识别方法，其特征在于包括下列步骤：

所述步骤A具体包含以下步骤：

A1.计算出线性预测系数；

3.根据权利1所述的一种多特征融合的说话人识别方法，其特征在于包括下列步骤：

所述步骤B具体包含以下步骤：

B1.计算12维梅尔倒谱系数MFCC；

B2.将第一维梅尔倒谱系数MFCC的特征分量去掉。

4.根据权利1所述的一种多特征融合的说话人识别方法，其特征在于包括下列步骤：

所述步骤C具体包含以下步骤：

C1.对语音信号进行取平方处理；

C2.对其进行归一化处理和取对数处理。

5.根据权利1所述的一种多特征融合的说话人识别方法，其特征在于包括下列步骤：

所述步骤D具体包含以下步骤：

D1.将1维短时能量与梅尔倒谱系数MFCC进行有机结合；