CN113380226A

CN113380226A - 一种极短语音语种识别特征提取方法

Info

Publication number: CN113380226A
Application number: CN202110755053.4A
Authority: CN
Inventors: 刘俊南; 郭鹏; 江海; 魏欣; 齐心
Original assignee: Innomicro Technology Tianjin Co Ltd
Current assignee: Innomicro Technology Tianjin Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-10

Abstract

一种极短语音语种识别特征提取方法，所述方法包括步骤：获取输入语音信号；对所述输入语音信号进行预处理；获取基于线性预测系数算法；使用所述基于线性预测系数算法对所述输入语音信号进行特征提取。本申请针对时长1s的极短语音提取语种识别特征进行研究，设计对极短(1s长度)语音语种识别更加鲁棒的特征提取方法，该特征利用频域线性预测系数(FDLP)方法，先使用离散余弦变换(Discrete Cosine Transform，DCT)获得信号的频域等价物，再在频域等价物上利用线性预测(Linear Prediction,LP)分析计算得到语音信号的子带包络信号(Sub‑band Envelop Signal)，然后将子带包络信号经过傅里叶变换转化为子带包络的频域信号，然后计算子带包络幅度特征。

Description

一种极短语音语种识别特征提取方法

技术领域

本发明属于语音识别技术领域，具体涉及一种极短语音语种识别特征提取方法。

背景技术

语种识别是识别一个语音段中包含的语种类别的任务，语种识别一般作为其他很多语音识别系统的前端处理器，例如多语种连续语音识别、语音翻译等。而作为这些系统的前端处理器，在实时性上就有更高的要求，因此提升语种识别在短语音上的性能具有重要实用意义。

经过多年发展，语音语种识别系统可用的特征从使用短时频域特征 MFCC、FilterBank、FFT特征,转向使用基于深度学习的DBF、PLLR等特征，以及最近提出的可解释的SincNet神经网络特征。这些提出的特征对于长语音语种识别性能较好，但是由于短语音语段中提取到的特征有效数据不足、说话人多种噪音干扰、语音信息少等问题，当识别语音长度较短时(如3s) 准确率有所下降。而当识别语音长度极短时(如1s)，识别性能更是下降明显。

发明内容

为解决上述问题，本发明提供了一种极短语音语种识别特征提取方法，所述方法包括步骤：

获取输入语音信号；

对所述输入语音信号进行预处理；

获取基于线性预测系数算法；

使用所述基于线性预测系数算法对所述输入语音信号进行特征提取。

优选地，所述对所述输入语音信号进行预处理包括步骤：

对所述输入语音信号进行降噪处理；

基于信噪比SNR对所述输入语音信号进行静音检测处理；

将所述输入语音信号分割为预设长度的有效语音。

优选地，所述基于信噪比SNR对所述输入语音信号进行静音检测处理包括步骤：

获取降噪处理后的所述输入语音信号；

去除所述输入语音信号中的非语音段；

保留所述输入语音信号中的有效语音段。

优选地，所述将所述输入语音信号分割为预设长度的有效语音包括步骤：

获取静音检测处理后的有效语音段；

将所述有效语音段分割为预设长度的多段有效语音；

对每段所述有效语音进行单独语种识别；

将多段所述有效语音语种识别结果进行得分融合；

判断得分是否达到预设置信度阈值；

若是，获取所有所述有效语音；

若否，返回所述对每段所述有效语音进行单独语种识别步骤。

优选地，所述使用所述基于线性预测系数算法对所述输入语音信号进行特征提取包括步骤：

获取所述输入语音信号中的有效语音；

对所述有效语音应用离散余弦变换并得到频域表示；

在所述频域表示上进行子带分解并得到子带表示分量；

对每个所述子带表示分量进行线性预测分析并得到子带频域线性预测系数；

应用离散余弦变换计算所述子带频域线性预测系数的频域等价物；

计算幅度特征信号；

使用能量插值方法降低所述幅度特征信号的特征数据量；。

得到子带频域线性预测系数的幅度特征。

本申请针对时长1s的极短语音提取语种识别特征进行研究，设计对极短 (1s长度)语音语种识别更加鲁棒的特征提取方法，该特征利用频域线性预测系数(FDLP)方法，先使用离散余弦变换(Discrete Cosine Transform， DCT)获得信号的频域等价物，再在频域等价物上利用线性预测(Linear Prediction,LP)分析计算得到语音信号的子带包络信号(Sub-band Envelop Signal)，然后将子带包络信号经过傅里叶变换转化为子带包络的频域信号，然后计算子带包络幅度特征。通过频域线性预测方法计算得到的子带包络信号，会将一些噪音信号掩盖到包络之下，因此会对一些干扰信息起到抑制作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种极短语音语种识别特征提取方法的流程示意图；

图2为本发明中的线性预测分析LPC模拟模型；

图3为本发明中的多频率子带线性预测系数幅度特征提取的具体处理流程示意图；

图4为本发明中的预处理流程示意图；

图5为本发明中的识别后处理示意图；

图6为本发明中的多频与子带线性预测系数幅度特征结果示例图；

图7为本发明中的多频与子带线性预测系数幅度特征经过TAM能量插值结果示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-7，在本申请实施例中，本发明提供了一种极短语音语种识别特征提取方法，所述方法包括步骤：

S1：获取输入语音信号；

S2：对所述输入语音信号进行预处理；

在本申请实施例中，步骤S2中的对所述输入语音信号进行预处理包括步骤：

对所述输入语音信号进行降噪处理；

基于信噪比SNR对所述输入语音信号进行静音检测处理；

将所述输入语音信号分割为预设长度的有效语音。

在本申请实施例中，当对所述输入语音信号进行预处理时，具体地，首先对所述输入语音信号进行降噪处理，并基于信噪比SNR对所述输入语音信号进行静音检测处理，然后将所述输入语音信号分割为预设长度的有效语音。

在本申请实施例中，所述基于信噪比SNR对所述输入语音信号进行静音检测处理包括步骤：

获取降噪处理后的所述输入语音信号；

去除所述输入语音信号中的非语音段；

保留所述输入语音信号中的有效语音段。

在本申请实施例中，所述将所述输入语音信号分割为预设长度的有效语音包括步骤：

获取静音检测处理后的有效语音段；

将所述有效语音段分割为预设长度的多段有效语音；

对每段所述有效语音进行单独语种识别；

将多段所述有效语音语种识别结果进行得分融合；

判断得分是否达到预设置信度阈值；

若是，获取所有所述有效语音；

S3：获取基于线性预测系数算法；

S4：使用所述基于线性预测系数算法对所述输入语音信号进行特征提取。

在本申请实施例中，步骤S4中的使用所述基于线性预测系数算法对所述输入语音信号进行特征提取包括步骤：

获取所述输入语音信号中的有效语音；

对所述有效语音应用离散余弦变换并得到频域表示；

在所述频域表示上进行子带分解并得到子带表示分量；

计算幅度特征信号；

使用能量插值方法降低所述幅度特征信号的特征数据量；。

得到子带频域线性预测系数的幅度特征。

在本申请实施例中，使用所述基于线性预测系数算法对所述输入语音信号进行特征提取具体包含如下操作：

设置每段有效语音信号为s(n),采样点数为N；

对有效语音信号s(n)应用DCT(离散余弦变换)，得到频域表示C[k]，离散余弦变换公式为：

其中，k＝0，1，...，N-1，δ_k＝1，ifk＝0else0。

在频域表示C[k]上进行子带分解，如公式(2)，将频域表示通过滤波器组Hⁱ[k](可以选择使用梅尔滤波器组或其他常见语音特征滤波器组),得到2 维的频域子带表示Yi[k]:

Yⁱ[k]＝C[k]·Hⁱ[k] (2)

其中，i表示滤波器组的滤波器索引，得到结果Yi即第i个子带分量。

对每个子带表示分量Yⁱ进行线性预测分析，得到第i个子带频域线性预测系数

使用自相关方法计算Yⁱ[k]的线性预测系数；自相关系数计算公式为：

然后通过DFT计算预测系数a的频域等价物δ，如公式(14)所示：

使用公式(5)计算幅度信号，其中conj()表示求共轭复数，real()是求复数的实部，结果得到的子带包络的幅度特征

得到幅度特征后，可以选择使用多种能量插值方法，降低特征数据量，提升语种识别系统识别语音的速度：时间幅度平均(temporal average magnitude,TAM)、时间中心幅度(temporal centroid magnitude，TCM)以及时间中心距离(temporal centroiddistance，TCD)。

其中L表示窗口宽度(小于序列长度)，p表示帧号，M表示窗口重叠宽度，TAM中W_h[z]是窗系数(可以选用汉宁窗、海明窗等)，TCM和TCD中rⁱ[g] 是权重系数，计算如公式(14)所示，其中

分别代表第i子带包络信号的最低频率和最高频率，G是第i个子带包络信号的采样点数。

最终得到多频域子带的线性预测系数的幅度特征F,形状为MF x NF,MF 为特征帧数，NF为特征维度。

在本申请实施例中，线性预测分析的步骤具体为：

线性预测(Linear Prediction)分析可精确地估计信号，其基本思想是一个信号的取样可用过去若干信号取样的线性组合来逼近。通过使得实际信号取样与LP取样间差值的平方和最小，即进行LMS逼近，可决定唯一的一组预测系数。LP分析的基本原理可以认为被分析的信号用一个模型表示，即将信号x(n)看做一个模型在输入为u(n)的输出，这样就可以用模型参数描述信号。

通常模型中只包含极点，而没有零点，此时信号的模拟系统为：

其中，各分量系数α_i、增益G、模型阶数P为模型参数，α_i被称为线性预测系数。这样信号可以使用有限数量参数的模型表示。LP分析就是根据已知信号x(n)对参数α_i和G的估计。

预测信号可以用线性预测系数α_i和P表示，如公式11所示：

预测误差为:

预测均方误差为:

通过求解(14)、(15)、(16)计算得到LPC各阶参数α_i作为信号的模型表示。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种极短语音语种识别特征提取方法，其特征在于，所述方法包括步骤：

获取输入语音信号；

对所述输入语音信号进行预处理；

获取基于线性预测系数算法；

2.根据权利要求1所述的极短语音语种识别特征提取方法，其特征在于，所述对所述输入语音信号进行预处理包括步骤：

对所述输入语音信号进行降噪处理；

基于信噪比SNR对所述输入语音信号进行静音检测处理；

将所述输入语音信号分割为预设长度的有效语音。

3.根据权利要求2所述的极短语音语种识别特征提取方法，其特征在于，所述基于信噪比SNR对所述输入语音信号进行静音检测处理包括步骤：

获取降噪处理后的所述输入语音信号；

去除所述输入语音信号中的非语音段；

保留所述输入语音信号中的有效语音段。

4.根据权利要求2所述的极短语音语种识别特征提取方法，其特征在于，所述将所述输入语音信号分割为预设长度的有效语音包括步骤：

获取静音检测处理后的有效语音段；

将所述有效语音段分割为预设长度的多段有效语音；

对每段所述有效语音进行单独语种识别；

将多段所述有效语音语种识别结果进行得分融合；

判断得分是否达到预设置信度阈值；

若是，获取所有所述有效语音；

5.根据权利要求1所述的极短语音语种识别特征提取方法，其特征在于，所述使用所述基于线性预测系数算法对所述输入语音信号进行特征提取包括步骤：

获取所述输入语音信号中的有效语音；

对所述有效语音应用离散余弦变换并得到频域表示；

在所述频域表示上进行子带分解并得到子带表示分量；

计算幅度特征信号；

使用能量插值方法降低所述幅度特征信号的特征数据量；。

得到子带频域线性预测系数的幅度特征。