CN114913844A

CN114913844A - 一种基音归一化重构的广播语种识别方法

Info

Publication number: CN114913844A
Application number: CN202210376131.4A
Authority: CN
Inventors: 邵玉斌; 段云; 龙华; 杜庆治; 苏树盟; 刘晶; 黄张衡
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-16

Abstract

本发明涉及一种基音归一化重构的广播语种识别方法，属于语种识别技术领域。本发明首先将语音信号进行端点检测提取静音段与有声段，然后提取有声段中的基音频率和声道响应，再将基音频率归一化后经压控振荡器和差分判决转换为有声段的声门脉冲，静音段的声门脉冲由白噪声构成，通过全极点滤波器模型将二者进行重构得到归一化后的音频信号。本发明可以减少播音员发音特征对语种识别的影响，进而提高广播音频语种识别的准确率。

Description

一种基音归一化重构的广播语种识别方法

技术领域

本发明涉及一种基音归一化重构的广播语种识别方法，属于语种识别技术领域。

背景技术

随着社会的不断进步，语种识别技术在人们的日常生活中应用广泛，全世界发现已存的语言就有7099多种，在中国境内还包含80多种不同民族、不同地区的方言，其应用价值越来越受到重视。

在边境地区经常出现广播串台、信号篡改等情况，而人所能掌握的语言比较少，依靠人工区分语种和鉴别信号传输是否正常较为困难。

语种识别技术的核心问题在于如何取出各语种之间具有区分度的特征，传统的底层声学特征包括梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)、伽马通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)、感知线性预测倒谱系数(Perceptual Linear Predictive，PLP)、基于滤波器组的Fbank特征(LogMel-scaleFilter Bank Energies,Fbank)。

这些底层声学特征在语种识别、说话人识别、情绪识别中均取得了广泛的应用.然而语言之间的差异很多都体现在发音方式、句法、语义等韵律特征之中。但是在语种识别训练中，并不能保证所提取的声学特征不被说话人特征、情绪特征所影响，而且这些特征是否是区别各语种之间的深层次特征也需要进一步研究。

语音重构作为语音合成的一个分支，常见的语音合成分为波形拼接法，参数合成法，规则合成法和深度学习法等。波形拼接法利用语音素材库中的素材提取并拼接成所需语音，但针对不同语种而言所需素材太大；参数合成法利用基音频率、共振峰、声道特性等参数合成语音，声码器是参数合成中最基础的部分，传统声码器通过预处理提取出声学特征和语言学特征作为控制条件，合成出所需语音，但合成效果不够自然。规则合成法利用音素组成音节，再融合语言的韵律特征合成语音，合成自然、清晰，但韵律特征不易提取。

发明内容

本发明要解决的技术问题是提供一种基音归一化重构的广播语种识别方法，用以解决在真实环境下语种识别准确率提升困难的问题。

本发明的技术方案是：一种基音归一化重构的广播语种识别方法，首先将语音信号进行端点检测提取静音段与有声段，然后提取有声段中的基音频率和声道响应，再将基音频率归一化后经压控振荡器和差分判决转换为有声段的声门脉冲，静音段的声门脉冲由白噪声构成，通过全极点滤波器模型将二者进行重构得到归一化后的音频信号。

具体步骤为：

Step1：对语音信号进行端点检测，通过对语音信号提取子带熵谱特征和伽马通频率倒谱系数一维特征进行自适应加权融合，对融合后的特征进行聚类得到判决门限，根据判决门限值标记语音信号中的有声段和静音段。

Step2：从标记的有声段中提取出基音频率，并归一化至指定频率范围，构建归一化的声门脉冲激励，静音段的声门脉冲激励由白噪声构成。

Step3：对分帧加窗后的音频信号进行傅里叶变换后求取对数能量谱，然后进行傅里叶逆变换并取实数部分，再从中取出能量最集中的部分，构建声道响应。

Step4：将声门脉冲激励和声道响应通过全极点模型并加重信号的高频部分重构出基音频率归一化后的语音。

Step5：将语料库中的所有语音按照Step1-Step4进行重构得到归一化后的语料库，再从语料库的音频中提取声学特征作为语种之间的区分特征，送入分类模型中进行训练和识别，从而得到所需判别的语音所属的语言种类。

所述Step1具体为：

Step1.1：对素材库中的音频信号进行分帧和加窗处理，其中窗长度为256，帧移为128，对加窗后的短时语音帧信号进行快速傅里叶变换计算得到能量谱，如式(1)所示：

E_i(k)＝|X_i(k)|² (1)

Step1.2：将每帧信号划分为N_b个子带，每个子带内含有4条谱线，计算每个子带能量的概率：

Step1.3：求出每一帧语音信号的子带谱熵：

Step1.4：将式(1)得到的谱线能量E_i(k)通过Gammatone滤波器进行GFCC₀提取：

式中，H_m(k)为Gammatone滤波器响应，m为滤波器序号，α为指数压缩值，本发明取

再通过离散余弦变换得到GFCC特征：

其中，所求13维的GFCC特征，因此n＝13，再提取第一维系数得到GFCC₀特征G_i。

Step1.5：对所提取的2类特征进行中值平滑处理，然后进行幅度平移调整再取绝对值得到H_i′,G_i′，根据平均自适应计算得到权重系数后，进行特征融合：

F_i＝α₁H_i′+α₂G_i′ (6)

其中，α₁是子带熵谱特征的权重系数，α₂是GFCC₀特征的权重系数。

对F_i归一化得到融合特征值：

Step1.6：通过模糊C均值聚类算法将融合特征F′进行自适应聚类，设置聚类中心数为2，迭代计算出语音聚类中心d_voice和噪声聚类中心d_noice。

Step1.7：根据聚类中心设定门限值：

其中，T_h为高门限值，T_l为低门限值，β₁和β₂为经验常数。

Step1.8：依据双门限值来判定，低于门限值用0表示，认为该帧是静音段，高于门限值用1表示，认为该帧是有声段，将每一帧检测结果组成端点检测结果向量v：

v＝[v₁,v₂,v₃,…,v_i],v_i∈{0,1} (9)

其中，v_i为第i帧的端点检测结果。

所述Step2具体为：

Step2.1：音频中静音段和噪声会影响基音频率估计的准确度，端点检测可以将有声段和静音段区分开，再从有声段提取基音频率可降低估计错误的概率。

如果v中第i帧的VAD结果为1，则提取第i帧的有声段语音x_i(n)进行点数为256的傅里叶变换后得到信号X_i(k)，再取对数后得到对数幅度谱：

L_i(k)＝20lg(|X_i(k)|),0＜k≤256 (10)

Step2.2：对L_i进行傅里叶逆变换后得到当前帧语音信号的倒谱序列N_i，在倒谱中显示谐波峰值之间间隔相等的间距，该间距就是基音周期，采样频率于基音周期的商则是所求的基音频率。本发明默认寻找基音频率为50～400Hz之间的最大谐波峰值，所对应的区间范围如式(12)中的S₁，S₂所示：

针对采样频率f_s＝8000Hz的语音而言，只在倒谱序列中20～160区间寻找最大值，即：

第t个有声段中各帧的基音频率f₁,…,f_L构成基音频率向量f_bm：

其中，l为一个有声段内的帧数.

Step2.3：为了在改变基音频率的过程中保持说话人的声调不发生改变，求取

各元素的平均值f_a，给定归一化的基音频率f_c，按照下式进行基音频率归一化：

得到第t个有声段内归一化后的基音频率：

循环提取并计算，得到一段语音归一化后的基音频率：

其中，T为有声段段数.

将归一化后的基音频率矩阵Z经过三次样条插值使帧与帧之间的基音频率过渡更加平滑，然后再经过中值滤波和线性平滑处理去除有声段内估计错误的野点，得到平滑基音频率Z₁，将Z₁输入压控振荡器生成声门脉冲激励信号Z₂。

Step2.4：如果v中第i帧的VAD结果为0，则产生帧长为256，均值为0的高斯白噪声Z₅将Z₂进行一个单位的时延得到矩阵Z₃，二者依次相减得到一帧声门脉冲激励矩阵Z₄

所述Step3具体为：

Step3.1：将式(11)中提取出的对数幅度谱取出前128个数据得到矩阵P₁：

P₁＝L_i(k),0≤k≤128 (17)

Step3.2：为了方便将声门激励与声道激励分离，对P₁进行离散余弦变换得到矩阵P₂.因为二者在倒谱域中处在不同的倒谱区间，因此将倒谱中的λ＝25条谱线为界，1～25区间的数据构建成声道响应的倒谱矩阵G，如下式所示：

Step3.3：对G进行反对数后得到G₁如式(19)所示，再将与G₁翻转变换得到G₂，G₁与G₂将合并为G₄，如式(19)所示。

G₄＝{G₂,G₁} (20)

为了减少计算量，取出声道响应参数中，能量最高峰128点附近能量较为集中的部分作为声道响应参数矩阵.即取出[107,151]之间的响应点数构造新的声道响应参数矩阵。

所述Step4具体为：

重构随着语音帧数一帧一帧进行，当前帧为静音段时，声门冲激为白噪声生的Z₅,利用提取出的声门脉冲激励矩阵G₆,将当前帧的声门脉冲激励与声道响应参数放入全极点滤波器，重构出当前帧语音W_i

当前帧为有声段时，利用提取出的声门脉冲激励矩阵Z₄.将当前帧的声门脉冲激励与声道响应放入全极点滤波器，重构出有声段当前帧语音W_i。

滤波器参数每一帧更新一次，最终将有声段与静音段中每帧的重构语音进行叠加，得到重构语音：

W＝[W₁,W₂,…,W_i] (21)

由于声道模型经过全极点滤波器进行重构，导致重构语音在低频部分被削弱，因此需要经过幅值归一化和预加重来提高语音的低频部分。

本发明的有益效果是：可以减少播音员发音特征对语种识别的影响，进而提高广播音频语种识别的准确率。

附图说明

图1是本发明总体结构框图；

图2是本发明端点检测效果图；

图3是本发明的一帧语音信号的声道响应波形图；

图4是本发明的一帧声门冲激响应和重构语音波形图；

图5是本发明的原语音波形图和语谱图；

图6是本发明的重构原语音波形图和语谱图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1，如图1所示，一种基音归一化重构的广播语种识别方法，具体步骤为：

Step1：测试音频数据获取

从国际广播电台不同时段的节目中获取语料作为数据集，包含汉语、藏语、老挝语、柬埔寨语、缅甸语6种语言。每个语种的广播音频均为采样率8000Hz、位数为16位的单声道、持续时间10秒的音频.人工去除了音频播放时包含背景音乐噪声和电话采访噪声干扰的情况。

Step2：语音端点检测

按照本发明中的端点检测方法进行端点检测，端点检测结果参见图2，从图中可以看出一段10秒长的语音被标记为若干段，其中有声段中只有语音波形，静音段中不含有语音波形。

Step3：基音频率提取及归一化

提取端点检测结果为1的第i帧的有声段语音x_i(n)进行点数为256的傅里叶变换后得到信号X_i(k)，取对数后得到对数幅度谱L_l。

对L_l进行傅里叶逆变换后寻找基音频率为50～400Hz之间的最大谐波峰值，即20～160区间寻找最大值。

循环提取所有有声段中每一帧的基音频率，得到一段语音的基音频率序列F＝[f₁,f₂,f₃,…,f_i]

按照式(14)对提取的基音频率进行归一化，保证在归一化后语音声调不产生太大的改变

对归一化的基音频率矩阵F进行三次样条插值使矩阵更加平滑，再经过中值滤波和线性平滑得到矩阵Z₂。

将Z₂输入压控振荡器并进行差分判决得到声门脉冲激励Z₃，如图4所示。

Step4：声道参数提取

将提取出的对数幅度谱取出前128个数据进行离散余弦变换得到倒谱域。

将倒谱中的λ＝25条谱线为界，1～25区间的数据构建成声道冲激响应的倒谱矩阵G。

对G进行反对数后得到G₁。

再将与G₁翻转变换得到G₂，G₁与G₂将合并为G₄

再对G₄进行傅里叶逆变换并取实数部分，再取出能量较为集中的[107,151]之间的数据，得到声道模型的全极点滤波器矩阵G₅。如图3所示。

Step5：语音重构

重构随着语音帧数一帧一帧进行，当前帧为静音段时，声门冲激为白噪声生的Z₅。

当前帧为有声段时，利用提取出的声门脉冲激励矩阵G₅，将当前帧的声门脉冲激励与声道响应参数放入全极点滤波器，重构出有声段中当前帧语音W_i。当前帧为无声段时，将当前帧白噪声构成的声门脉冲激励于声道响应放入全极点滤波器，重构出无声段中当前帧的语音W_i，一帧语音的合成效果如图4所示。

滤波器参数每一帧更新一次，最终将每帧的重构语音进行叠加，得到重构语音。

经过幅值归一化和预加重来提高语音的高频部分，原语音的波形和语谱图如图5所示，重构语音的波形和语谱图如图6所示。

从图中可以看出，经过重构的语音信号与原语音无太大差别，能够保留语音的完整语义。

Step6：语种识别

本发明采用高斯混合通用背景模型作为语种识别训练模型。从每个语种的数据集中随机选取300条语音作为GMM训练集，6个语种共计1800条训练语料。UBM训练集则是从数据集中随机选取300条语音作为训练语料，6个语种共计1800条语音。从数据集中随机选取每种语种171条语音作为测试集，6种语种共计1026条语音。

提取MFCC、GFCC、PLP特征作为语种识别区分特征，利用重构模型对测试集和训练集进行基音频率归一化，归一化范围分别归一化至100Hz～300Hz进行模型训练和识别。识别结果如表1所示。

表1：基音频率归一化至不同范围内的语种平均识别率(％)

从表1可以看出，所提取的底层声学特征，在进过语音重构后，平均语种识别正确率均得到了提高。其次，无论将基音频率归一化至哪一个频率范围，也不会对语种识别产生特别大的影响，这也说明了提取底层声学特征时，基音频率的变化不会对区分语种的特征向量产生变化。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。