CN112331178A

CN112331178A - 一种用于低信噪比环境下的语种识别特征融合方法

Info

Publication number: CN112331178A
Application number: CN202011154249.XA
Authority: CN
Inventors: 邵玉斌; 刘晶; 龙华; 杜庆治; 李一民; 杨贵安; 唐维康; 陈亮
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-05

Abstract

本发明针对目前技术工程应用困难和低信噪比下识别率低的问题公开了一种用于低信噪比环境下语种识别的特征融合方法，属于语音识别领域。语种识别提取有效特征减少噪声影响是识别准确的关键。本发明主要采用音节分割、CFCC系数、主成分分析和Teager能量算子倒谱参数。本发明对全语音段进行音节分割，再对每个音节语音段提取CFCC系数；使用PCA技术对提取的CFCC系数进行主成分分析，从每个音节对应的F帧中选取贡献率最高的前S帧；为了提高特征的鲁棒性，融合基于音节提取的Teager能量算子倒谱参数得到融合特征集。将提取的融合特征集输入到语种识别模型中训练出对应语种识别模型，把训练好的语种模型挂载到服务器端，再通过客户端采集要识别的语音输入到服务器，提取融合特征并与训练好的语种模型进行打分判决，最后输出识别结果返回客户端。经过测试，本文方法可以提高语种识别在低信噪比环境下准确率，且运行速度快，计算量少。

Description

一种用于低信噪比环境下的语种识别特征融合方法

技术领域

本发明涉及一种用于低信噪比环境下语种识别的特征融合方法，属于语音识别领域。

背景技术

随着全球化和人类命运共同体稳步前进的形式下，语种识别问题也逐渐得到重视。不同国家人民之间的交流问题是全球化发展的一大阻碍，人们已经不能满足于仅仅通过键盘和显示器与智能设备进行信息交互，而是迫切需要以一种更自然、更能为多数人所接受的方式与智能设备进行沟通交流，让计算机能听懂人话，或是用语音来控制各种智能设备。使用人类交换信息最直接最方便的语言来与计算机通信，一直以来都是一个备受关注同时也极具挑战的研究课题。随着社会的快速发展，越来越多的专家开始研究多语种的理解系统以及语音识别等问题，其中，语种识别问题也得到了高度重视。目前，语种识别技术已大量运用在军事安全及多语种信息服务领域。当前语种识别技术对无噪语种识别的准确率已经足够好，但低信噪比下语种的识别率还需要提升。

发明内容

本发明要解决的技术问题在于提高低信噪比下语种识别的准确性和鲁棒性。本发明在特征提取前端引入音节分割，然后分别提取每个音节的GTCC特征参数，再利用PCA技术对提取特征进行降维优化为了提高特征的鲁棒性，将每个音节提取的Teager能量算子倒谱参数(s-TEOCC)的和s-GTCC+PCA融合，从而获得最优特征集S-EGTCC，最后采用语种识别系统进行模型训练，将训练好的模型挂载到服务器上，通过客户端和服务器结合形成一个完整的语种识别系统。为了解决以上技术问题，本发明采用如下技术方案：一种用于低信噪比环境下的语种识别特征融合方法。该方法包括以下步骤：

S1、基于音节分割后的GFCC特征提取

其步骤包括音节分割、Gammatone滤波、分帧加窗、计算短时对数能量、计算DCT倒谱、s-GFCC特征提取。

S1.1、音节分割

音节分割后能有效的去掉背景噪声部分，也最大程度上减少噪声特征的影响。对全语音段进行音节切割后可以获取多个音节段的起始点

和终点

从而得到每个音节的时间长度形成音节语音段：

其中j表示第j个音节，V是音节个数，对x^(j)(t)采样后得到对应音节j上的离散时间信号x^(j)(n)，n为采样点序列。

S1.2、Gammatone滤波

音节语音段x^(j)(n)通过滤波器滤波，在时域等同于x^(j)(n)与滤波器g⁽ⁱ⁾(t)卷积：

y^(i,j)(n)＝x^(j)(n)*g⁽ⁱ⁾(t),0＜i≤N (2)

其中，y^(i,j)(n)为滤波后的信号，i是指第i个Gammatone滤波器(共有N个)。

S1.3、分帧加窗

对Gammatone滤波后输出y^(i,j)(n)进行分帧并加窗，帧长取A，帧移取inc，分帧后得到的第m帧数据为y^(m,i,j)(n),0<m≤F(共F帧)，由于各个音节长度不同，F取值是随音节变化的。加入汉明窗是为了减少边缘效应和频谱泄露，加窗后的信号：

S^(m,i,j)(n)＝y^(m,i,j)(n)·W(n),0＜n≤A (3)

其中，W(n)为窗函数，S^(m,i,j)(n)为加窗后第j个音节通过第i个滤波器的第m帧的输出信号。

S1.4、计算短时对数能量

每帧信号计算S^(m,i,j)(n)的短时对数能量：

S1.5、计算DCT倒谱

对滤波器组输出的对数能量

进行离散余弦变换，得出GFCC系数：

其中，Z为GFCC维数，g^(m,j)(n)是第j个音节的第m帧的第n个GFCC系数，融合成该帧上的系数矩阵：

G^(m,j)＝[g^(m,j)(1),g^(m,j)(2),...,g^(m,j)(n),...,g^(m,j)(Z)]^T (6)

S1.6、s-GFCC特征提取

对每帧的G^(m,j)通过公式(7)融合成第j个音节的特征参数矩阵：

G^(j)＝[G^(1,j)G^(2,j),...,G^(m,j),...,G^(F,j)],0＜j≤V (7)

其中，称G^j为融合后Z×F的特征参数矩阵(s-GFCC)。

S2、s-TEOCC参数提取

其步骤包括音节分割、分帧加窗、计算Teager能量算子、归一化取对数、计算DCT取平均值等

S2.1、音节分割

和步骤[0012]一样

S2.2、分帧加窗

对x^(j)(n)分帧加窗后的第m帧的数据为x^(m,j)(n)，其中0≤m≤F。

S2.3、计算Teager能量算子

根据Teager能量算子的定义,x^(m,j)(n)的Teager能量为：

ψ[x^(m,j)(n)]＝x^(m,j)(n)²-x^(m,j)(n+1)x^(m,j)(n-1) (8)

其中，ψ[x^(m,j)(n)]是输出第j个音节的第m帧的Teager能量。

S2.4、归一化取对数

进行归一化并取对数，得到每帧的Teager能量算子：

ψ[x^(m,j)(n)]＝lg[ψ[x^(m,j)(n)]/max(ψ[x^(m,j)(n)])] (9)

S2.5、计算DCT取平均值

对ψ[x^(m,j)(n)]进行DCT变换再求平均值得到一维Teager能量算子倒谱(TEOCC)，将单个音节的所有帧的TEOCC求平均值得到一维的音节Teager能量算子倒谱(s-TEOCC):

其中，e^(m,j)(o)是Teager能量算子倒谱，e^(j)是一维的第j个s-TEOCC。

S3、特征融合

其步骤包括均值化处理、计算协方差矩阵、求特征值特征向量、计算特征值贡献率、计算降维特征集矩阵、融合形成s-EGFCC特征、融合形成S-EGFCC特征集。

S3.1、均值化处理

对提取的s-GFCC特征集进行均值化处理：

其中，G^(j)为Z×F维的第j个音节对应的原始特征对应的矩阵，X^(j)为中心化处理后的矩阵，k为列数，q为每列的数据个数。

S3.2、计算协方差矩阵

计算样本的协方差矩阵C^(j)：

C^(j)＝X^(j)X^(j)T

(13)

S3.3、求特征值特征向量

计算C^(j)的特征值并按大小进行降序排列，即λ⁽¹⁾≥λ⁽²⁾≥..≥λ^(F)，以及特征值对应的特征向量u⁽¹⁾,u⁽²⁾,...,u^(F)。

S3.4、计算特征值贡献率

特征值贡献率的计算公式：

其中

为前S个特征值之和。

S3.5、计算降维特征集矩阵

通过步骤[0061]特征值贡献率计算结果，从而选取第j个音节的特征向量矩阵W^(j)＝[u⁽¹⁾u⁽²⁾...u^(S)]，进而求取降维的特征集矩阵：

Y^(j)＝G^(j)W^(j) (15)

其中，Y^(j)是Z×S的对应的降维特征集矩阵，将Y^(j)拆分成S列，即Y^(j)＝[y^(1,j)y⁽² ^,j)...y^(S,j)]，y^(1,j)为第一列数据向量，y^(S,j)为第S列数据向量，W^(j)是F×S的特征向量矩阵。

S3.6、融合形成s-EGFCC特征

利用公式(16)将降维后特征集矩阵和一维的s-TEOCC融合形成新的特征集s-EGFCC：

其中，y^(j)'为融合后的第j个音节的特征矩阵，e^(j)是第j个音节对应的一维的s-TEOCC特征参数向量。

S3.7、融合形成S-EGFCC特征集

将每个s-EGFCC融合形成特征集S-EGFCC，将融合特征集作为语种模型的输入：

Y'＝[y^(1)'y^(2)',...,y^(j)',...,y^(V)'],0<j≤V (17)

其中，Y'为融合后的音节特征矩阵S-EGFCC。

S4、训练特征模型

参见图1，将提取的融合特征集输入到语种识别模型训练，生成对应的语种识别模型；

S5、语种识别

本发明提出的一种用于低信噪比环境下语种识别的特征融合方法，对输入的语音文件进行融合特征提取，然后和训练好的模型进行打分判决，而后就可以输出识别结果。

附图说明

图1是语种理论训练识别图

图2是各波形不同信噪比下的局部语音波形图

图3是融合特征提取流程图

图4是音节端点检测图

图5是完整GMM-UBM的语种识别系统

图6是整体语种识别流程图

图7是客户端识别结果图

具体实施方式

S1、测试语音数据获取:

语料来源于中国广播电台，主要包括汉语、藏语、维吾尔语、英语、哈沙克斯坦语五种语言。五种语言均采单声道、8000Hz采样率、长度10秒的音频文件。

S2、带噪语音生成

原理:

带噪语音定义为x(n)＝s(n)+w(n)，平均信噪比定义如下：

其中，

表示信号能量，

表示白噪声能量，s(n)为原语音，w(n)为零均值高斯白噪声，H为全语音的总采样点数。本发明识别低信噪比下语种识别问题，SNR范围取-5dB～20dB。

参见图2，本发明中语音各波形是不同信噪比下的局部语音波形，SNR＝-5dB和SNR＝0dB基本上只有部分强音凸显出来，其他部分全部被淹没，所以低信噪比下识别较为困难。

S3、基于音节分割后的GFCC特征提取

参见图3,本发明实例部分其步骤包括音节分割、Gammatone滤波、分帧加窗、计算短时对数能量、计算DCT倒谱、s-GFCC特征提取。

S3.1、音节分割

参见图4，音节分割后能有效的去掉背景噪声部分，也最大程度上减少噪声特征的影响。图中虚线为音节起始点，实线为音节终点，粗点线为起始点和终点重合部分。从图可以获取音节的起始点

和终点

从而得到每个音节的时间长度形成音节语音段：

S3.2、Gammatone滤波

y^(i,j)(n)＝x^(j)(n)*g⁽ⁱ⁾(t),0＜i≤N (20)

其中，y^(i,j)(n)为滤波后的信号，i是指第i个Gammatone滤波器(共有N个)，本发明实例部分N＝32。

S3.3、分帧加窗

对Gammatone滤波后输出y^(i,j)(n)进行分帧并加窗，本发明实例部分帧长取A＝160，帧移取inc＝80，分帧后得到的第m帧数据为y^(m,i,j)(n),0<m≤F(共F帧)，由于各个音节长度不同，F取值是随音节变化的。加入汉明窗是为了减少边缘效应和频谱泄露，加窗后的信号：

S^(m,i,j)(n)＝y^(m,i,j)(n)·W(n),0＜n≤A (21)

S3.4、计算短时对数能量

每帧信号计算S^(m,i,j)(n)的短时对数能量：

S3.5、计算DCT倒谱

对滤波器组输出的对数能量

进行离散余弦变换，得出GFCC系数，本发明实例部分取13维GFCC系数：

其中，g^(m,j)(n)是第j个音节的第m帧的第n个GFCC系数，融合成该帧上的系数矩阵：

G^(m,j)＝[g^(m,j)(1),g^(m,j)(2),...,g^(m,j)(n),...,g^(m,j)(13)]^T (24)

S3.6、s-GFCC特征提取

对每帧的G^(m,j)通过公式(25)融合成第j个音节的特征参数矩阵：

G^(j)＝[G^(1,j)G^(2,j),...,G^(m,j),...,G^(F,j)],0＜j≤V (25)

其中，称G^(j)为融合后13×F的特征参数矩阵(s-GFCC)。

S4、s-TEOCC参数提取

参见图2,本发明实例部分其步骤包括音节分割、分帧加窗、计算Teager能量算子、归一化取对数、计算DCT取平均值等

S4.1、音节分割

和步骤[0012]一样

S4.2、分帧加窗

对x^(j)(n)分帧加窗后的第m帧的数据为x^(m,j)(n)，其中0≤m≤F。

S4.3、计算Teager能量算子

根据Teager能量算子的定义,x^(m,j)(n)的Teager能量为：

ψ[x^(m,j)(n)]＝x^(m,j)(n)²-x^(m,j)(n+1)x^(m,j)(n-1) (26)

其中，ψ[x^(m,j)(n)]是输出第j个音节的第m帧的Teager能量。

S4.4、归一化取对数

进行归一化并取对数，得到每帧的Teager能量算子：

ψ[x^(m,j)(n)]＝lg[ψ[x^(m,j)(n)]/max(ψ[x^(m,j)(n)])] (27)

S4.5、计算DCT取平均值

S5、特征融合

S5.1、均值化处理

对提取的s-GFCC特征集进行均值化处理：

其中，G^(j)为13×F维的第j个音节对应的原始特征对应的矩阵，X^(j)为中心化处理后的矩阵，k为列数，q为每列的数据个数。

S5.2、计算协方差矩阵

计算样本的协方差矩阵C^(j)：

C^(j)＝X^(j)X^(j)T

(31)

S5.3、求特征值特征向量

S5.4、计算特征值贡献率

特征值贡献率的计算公式：

其中

为前S个特征值之和。

S5.5、计算降维特征集矩阵

通过步骤[0069]特征值贡献率计算结果，本发明实例部分取前两维特征向量，从而选取第j个音节的特征向量矩阵W^(j)＝[u⁽¹⁾u⁽²⁾]，

进而求取降维的特征集矩阵：

Y^(j)＝G^(j)W^(j) (33)

其中，Y^(j)是13×2的对应的降维特征集矩阵，将Y^(j)拆分成2列，即Y^(j)＝[y^(1,j)y⁽² ^,j)]，y^(1,j)为第一列数据向量，y^(2,j)为第2列数据向量，W^(j)是F×2的特征向量矩阵。

S5.6、融合形成s-EGFCC特征

利用公式(34)将降维特征集矩阵和一维的s-TEOCC融合形成新的特征集s-EGFCC：

S5.7、融合形成S-EGFCC特征集

Y'＝[y^(1)'y^(2)',...,y^(j)',...,y^(V)'],0<j≤V (35)

其中，Y'为融合后的音节特征矩阵S-EGFCC。

S6、生成训练模型

参见图5，本发明采用GMM-UBM模型语种识别系统训练对应语种模型，可以有效克服训练数据较少问题。实验将1675条作为通用模板训练语料，训练样本每种语言300条，其中50条无噪声，其余分别是SNR＝25dB、20dB、15dB、10dB、5dB各50条，这样可以更好的模拟现实嘈杂环境。

S7、本发明方法对单个语音应用实例

参见图6，本发明实例部分，随机采用一段中文语音音频文件，针对本发明提出的一种用于低信噪比环境下语种识别的特征融合方法进行实验，按照本发明实例中的步骤进行融合特征提取，然后与服务器里的语种模型进行打分判决检测该语音属于那种语种，识别结果如图7所示。

S8、本发明方法大量语音测试性能实例

本发明测试性能实例的样本每种语言171条，然后依次加入SNR＝-5dB、0dB、5dB、10dB、15dB、20dB的语料分别进行识别实验。按照本发明实例中的步骤进行融合特征提取，然后与服务器里的语种模型进行打分判决检测该语音属于那种语种，识别结果表1所示。

表1融合特征五种语种不同信噪比识别率

(单位/％)

通过表1的检测结果可以看到，通过本发明提到的方法，在-5dB和0dB时，融合特征集能分别达到50.0％和66.5％的识别率。可见本发明在低信噪比下能依然能保持很好的识别准确性。

以上所述仅为本发明的较佳实例而已，并不用限制本发明，凡在本发明的精神和原则之内，所作的如何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于低信噪比环境下语种识别的特征融合方法，其特征在于：

S1、音节端点检测：根据能零比和峰谷点进行音节端点检测；

S2、音节分割：根据检测的端点对全语音点进行音节分割，得到若干音节语音段；

S3、音节的GFCC系数提取：对每个音节进行GFCC系数提取；

S4、音节的Teager能量算子倒谱参数提取：对每个音节进行Teager能量算子倒谱参数提取；

S5、特征融合：对提取的音节GFCC进行主成分分析后融合提取的音节Teager能量算子倒谱参数；

S6、训练特征模型：提取的融合特征集输入到语种识别模型训练，生成对应的语种识别模型；

S7、语种识别：将最优的训练模型挂载到服务器上，采集要识别的语音输入到服务器，提取融合特征并与训练好的语种模型进行打分判决，最后输出识别结果返回客户端。

2.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法，其特征在于：根据能零比和峰谷点进行音节端点检测，求取音节的起始点和终点。

3.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法，其特征在于：音节分割：根据检测的端点对全语音点进行音节分割，从而得到每个音节的时间长度形成音节语音段。

4.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法，其特征在于：音节的GFCC系数提取：对每个音节进行GFCC系数提取。

5.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法，其特征在于：音节的Teager能量算子倒谱参数提取：对每个音节进行Teager能量算子倒谱参数提取。

6.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法，其特征在于：特征融合：对提取的音节GFCC系数进行主成分分析后融合提取的音节Teager能量算子倒谱参数。

7.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法，其特征在于：训练特征模型：提取的融合特征集输入到语种识别模型训练，生成对应的语种识别模型。

8.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法，其特征在于：语种识别：将最优的训练模型挂载到服务器上，采集要识别的语音输入到服务器，提取融合特征并与训练好的语种模型进行打分判决，最后输出识别结果返回客户端。