CN115019775A

CN115019775A - 一种基于音素的语种区分性特征的语种识别方法

Info

Publication number: CN115019775A
Application number: CN202210096847.9A
Authority: CN
Inventors: 龙华; 苏树盟; 邵玉斌; 杜庆治; 黄张衡; 段云; 王延凯
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-09-06

Abstract

本发明涉及一种基于音素的语种区分性特征的语种识别方法，属于音频信号处理技术领域。本发明先从TIMIT数据集中抽离出音素集，对音素集构建了音素语音学区分性特征，采用音素语音学区分性特征训练并测试音素识别器，输出音频的帧级音素概率向量；再从LibriVox音频数据库获取多语种语料，针对多语种语料对TIMIT数据集中抽离出音素集进行音素扩充，输出语种短时完整语义语音段的帧音素概率特征；最后根据音素识别器输出的不同语种的帧音素概率特征构建语音段音素概率特征，进而构建语音段语种区分性特征。本发明可在经典的二维卷积神经网络中进行语种识别，获得较高识别率的语种识别结果。

Description

一种基于音素的语种区分性特征的语种识别方法

技术领域

本发明涉及一种基于音素的语种区分性特征的语种识别方法，属于音频信号处理技术领域。

背景技术

传统的语种识别方法通常是将语音在帧级别上进行语音降维，提取一系列音频的声学特征，包括MFCC特征，SDC特征，GFCC特征，BFCC特征，PLP特征，LPCC特征，i-vector特征等。音频的声学特征参数包含了语音丰富的时序信息，在包含语种识别的大多数语音和声学模式识别问题中运用广泛。

作为语音学模式识别问题，语种识别采用一系列音频的声学特征参数、音频的声学特征参数的衍生参数、音频的声学特征参数的融合特征参数等作为主流的识别特征。虽然主流特征在特定的语料下与一些分类系统模型相结合取得了较好的效果，但这些特征在真实的声学环境中难以取得理想的识别结果，因为这些声学特征中包含很多环境特征、说话人特征，极大的降低了声学特征中的语种区分性信息特征的占比。

传统的基于音素的语种识别一般采用的方法分3个模块，音素识别模块，音素语种区分性特征构建模块，语种信息分类模块。其中，音素识别模块，以神经网络的方式直接对音素集进行训练，采用训练好的模型构建音素识别器；这种识别方法常常采用输入语音声学特征的方式，音素识别的结果会受到说话人和信道干扰因素的影响。

音素语种区分性特征构建模块，采用具有连贯声学特性的类音素取代语音学音素构建音素语音学特征；与语音学音素相比，以最小化语言片段失真度测量的类因素的语音辨识度大幅度降低。

语种信息分类模块，基于语音特征的二维语音特征重构的卷积神经网络比高斯混合模型GMM的分类性能更加优越，但是这种基于二维语音特征重构仅应用于语音语谱图或这语音声学特征的二维图谱，在音频语音学特征中为尚未被使用。

发明内容

本发明要解决的技术问题是提供一种基于音素的语种区分性特征的语种识别方法，用以解决上述问题。

本发明的技术方案是：一种基于音素的语种区分性特征的语种识别方法，构建了TIMIT音素集的音素区分性特征，通过GMM得分判定构建出输出帧音素概率特征向量的音素识别器，进一步采用音素识别器识别多语种的帧音素概率向量，依据输出的多语种帧音素概率向量的信息熵做TIMIT集外音素扩充，并且以语音段为单位推导语音段的音素向量及音素概率向量，采用语音段的音素向量及音素概率向量分别求语音段的n-gram元法的音素后验概率向量组合作为音素区分性信息，基于音素的语音学特征构造了多语种的语种区分性的特征，最后将所构造的音素语种区分性信息转为灰度图，采用经典的残差神经网络Resnet进行语种识别，以获得较高识别率的语种识别结果。

具体步骤为：

Stepl：首先获取LibriVox音频数据，再采用短时谱熵、短时能量，短时过零率参数进行完整语义短时语音段切分。

Step2：读入TIMIT数据集，依据TIMIT数据集合中的手动标记信息提取音素集合。

Step3：依据音素集合中的音素基音频率信息、共振峰频率信息构造音素区分性特征。

Step4：利用GMM模型对音素区分性特征进行训练和测试，构建帧级的音素识别器。

Step5：将完整语义短时语音段进行预处理并分帧，再将帧信号输入音素识别器，输出不同语种整语义短时语音段的帧音素概率向量。

Step6：在TIMIT音素集基础上，根据不同语种语音帧音素概率的信息熵判断扩充多语种音素集。

Step7：先根据语音段帧音素概率向量求语音段音素向量及语音段音素概率向量，再根据语音段音素向量及语音段音素概率向量求语音段的n-gram元法的音素概率向量，最后以语音段的n-gram元法的音素后验概率向量组合作为音素区分性信息，完成语音段的音素语种区分性特征的构造。

Step8：先将二维的语音段的音素语种区分性特征转为灰度图，再采用经典的残差神经网络Resnet进行语种识别，最后获得较高识别率的语种识别结果。

所述Step1具体为：

Step1.1：在采用帧长0.025s帧移0.001s的微帧的短时能量阈值、短时过零率阈值、短时谱熵阈值确定出语音段中一段理想的无话段。

Step1.2：根据所找的无话段短时能量与短时过零率确定语音的音节边界。

Step1.3：依据边界对音频进行消除无话段并指定时长做无破坏切分。

所述Step6具体为：将多语种语音帧信号集输入GMM音素识别器，根据得出的音素概率向量求帧音素概率向量的信息熵，根据信息熵判定扩充多语种拟合多语种音素。

所述Step7具体为：

Step7.1：求音素捆绑的多个帧的帧音素概率向量P(O)的最大值pi的平均值，将其作为语音段音素概率向量中对应音素的概率值。

Step7.2：求取语音段n-gram元法的音素概率向量。

Step7.3：求取l(l＝1，2，3)元音素后验概率[P_l]。

Step7.4：将[P_l](l＝1，2，3)拼接成一个q×3·q的二维矩阵[P]来作为语音段的音素语音学语种区分性特征。

本发明的有益效果是：本发明构建出了合理物理解释的基于音素语音学特征的多语种的语种区分性的音素后验概率特征，基于TIMIT音素集的音素扩充是该语种区分性特征具有较强的语种数目扩展性，该特征可在经典的二维卷积神经网络中进行语种识别，获得较高识别率的语种识别结果。

附图说明

图1是本发明流程图；

图2是本发明详细流程图；

图3是本发明端点检测流程图；

图4是音频完整语义短时切分语音波形及语谱图；

图5是本发明语种识别分类模型图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-2所示，一种基于音素的语种区分性特征的语种识别方法，具体步骤为：

Step1：多语种音频数据的获取：

在LibriVox全球免费公共有声读物数据集下载多语种的音频文件，音频文件包含英语、法语、德语、意大利语，西班牙语，每种语种时长为至少20小时，采用python工具pydub包中的AudioSegment将音频采样频率统一转为16000Hz并且将音频文件格式统一转码为单声道wav格式。

Step2：音频预处理：

包括消除趋势项、消除直流分量。

Step2.1：消除趋势项：

趋势项是指音频信号的零线随时间变化而偏离基线，这种现象常常由于音频的输入、输出系统的性能不稳定因素以及传声器周围环境干扰造成的，趋势项的存在导致音频的时间序列存在一个线性或慢变的误差，使信号自相关函数、功率谱产生形变。

语音采样数据为{x_k}(k＝1，2，…，n)，n为语音信号采样数据点数，消除趋势项信息如式(1)：

公式(1)中，

为语音信号x_k的m阶最小二乘拟合的趋势项信号，m等于0时，代表趋势项为直流趋势项，m等于1时为线性趋势项，m大于1时为曲线趋势项。

Step2.2：信号消除直流分量与幅值归一化：

为了方便后继的语音处理中的参考无话段的检索，以及端点检测的阈值设定，需要对所有音频进行统一的归一化处理，使语音信号幅值在-1到1之间，信号消除直流分量如式(2)，信号幅值归一化如式(3)：

Step3：完整语义短时语音段切分：

音切分需要考虑不同语言语音的不同的语境、语法和语义识别语音文件中的音节或单词边界并且按照指定时长将其切分。

Step3.1：寻找参考无话段：

在对语音进行端点检测前，需要找到语音的一段静音段，(取无话段长度为0.1秒)，来用于计算双门限法端点检测的短时能量阈值、短时过零率阈值、短时谱熵阈值。

所采用找静音段的方法是：连续0.3秒的语音的平均帧短时能量小于0.001，然后卡头去尾去0.1秒，当上面方法找不到时降一个级找(平均帧短时能量小于0.002)。在此对语音帧所作的分析不用考虑语音长时连续信息，故取出的语音分析帧长可以尽可能的小，分帧时采用小帧移的形式，在此取帧长：0.025s，帧移：0.001s。

Step3.2：双门限端点检测：

为了消除语言环境噪声的影响，运用超短时能量寻噪，以及短时过零率+短时能量的双重门限的端点检测，以端点检测的结果来标记语音段中的帧级的语音边界。

计算第i帧语音信号y_i(n)的短时能量公式为(L为帧长，f_n为帧数)：

定义短时平均过零率公式为(L为帧长，为帧数)：

其中：

在16000Hz的采样频率下，设置分帧参数：帧长0.025s帧移0.01s；根据上面找的静音段求短时能量阈值、短时过0率阈值；取最大静音长度：15个采样点，以及最小语音长度20个采样点。

状态判断：

状态status，0表示静音，1表示可能进入语音段，2表示确定进入语音段，3表示语音段结束，流程如图3所示。

Step3.3：逐帧法完整语义语音切分：

从检测的语音边界的帧标签中提取出有话段，采用逐帧递推拼接的方式，判断单段语音是否大于语音切割长度，大于则丢弃；判断经过上次拼接后单段不超长，正常将下一段正常拼接；判断经过上次拼接后单段超长，则不拼接这段，输出语音。

3秒去静音段完整语义切分波形及语谱如图4所示，从图中可以看出语音已经被切分成短时语音，短时语音无话段被去除，并且语音未被破坏，语音的语义是完整的，是可用于语音分析后继的短时处理的。

Step4：将切分好的语音段进行分帧：

为了得到帧级的音频语音学特征需要将语音进行分帧处理，认为分帧后的语音是稳态的连续的，对于语音帧的帧长与帧移的选择，一般选取帧长为0.025秒、帧移为0.01秒来保证语音的稳态时序信息。

Step5：构建音素识别器：

音素识别器最主要的是是音素语音学区分性特征构建模块，在TIMIT数据集中抽离出音素，求取音素的语音学特征来训练和测试音素识别器的识别效果，最终将所构建的音素识别器运用于语种识别数据集语音帧的音素识别，求取语种识别数据集语音帧的音素概率向量。

Step5.1：音素集合获取：

TIMIT数据集明确了构成不同语音段各个音素在语音中的具体位置，根据音频音素标记文档抽离出所有的音素，并且分类组成音素集合用于音素识别器的训练和测试。

将构建的音素集合分成训练集与测试集，分别对训练集和测试集做音素语音学特征提取预处理、分帧、线性预测、求取基音频率、求取共振峰。

Step5.2：音素语音学特征提取预处理：

为了提高音素语音学特征提取的准确率，需要对获取的单个音素的音频做出更加严格的端点检测，采用能熵比的方式去除语音头部与尾部不具有声带周期性震荡及声道共振的音频片段。

能熵比端点检测的实现：

计算一帧长度为N的语音信号

的能量(语音信号能量大于噪音能量)如式(8)：

LE_i＝log(1+AMP_i/a)式(8)

式(7)、(8)中，a是一个常数，当a取较大的值时，AMP_i幅值有剧烈变化时，改进能量LE_i变化缓和，适当的选取a，有助于区分静音和清音。

一帧长度为N的语音信号

经过FFT变换后，其中第k条谱线频率分量f_k的能量谱为Y_i(k)；语音第i帧信号

第k条谱线频率分量f_k的谱概率密度如式(9)：

语音第i帧信号

的谱熵如式(10)：

语音第i帧信号

的谱熵如式(11)：

只用一个T₁门限做判断，判断能熵比是不是大于T₁，认为大于T₁的部分是有效段的候选值。再判断长度是不是大于最小长度，在本发明音素识别的预处理在最小长度取L_min＝10。

Step5.3：基音频率求取：

为了减少共振峰的干扰，选择60-500Hz的预处理滤波器。由于语音信号对相位不敏感，可以考虑选择计算量小的椭圆IIR滤波器。

对有话段进行逐帧(帧长为N)加窗：窗函数采用汉明窗，如式(12)：

语音第i帧帧长为N的信号信号x_i(n)加窗处理为式(13)：

求LPC预测误差：

LPC预测采用建立全极点模型的方法：模型输入周期脉冲或者白噪声序列序列u(n)，输出确定信号或者随机信号序列

间的关系，可以用差分方程式(14)表示，G表示p阶全极点模型增益。

求一帧语音信号

的预测值

采用自相关法求帧语音信号的线性预测系数为：

求LPC倒谱：

线性预测误差如式(16)：

LPC倒谱如式(17)，在LPC倒谱中进行寻找，基音周期最大值于最小值区间寻找最大值即为基音周期为：

Pe_i＝IFFT(2·log₁₀(||FFT(e_i(n))||))式(17)

Step5.4：共振峰频率频率求取：

共振峰求取采用与基音周期求取相同的线性预测方法求取线性预测系数，与求取基音频率预处理采用滤波的方式不同的是求共振峰时所做的预处理是预加重，如式(18)，加重系数a越大，加重越显著，声门脉冲的影响的减小更加显著；预加重抑制基频谱线幅值，降低基频对共振峰检测的干扰，有利于共振峰的检测，使只剩下声道部分，便于对声道参数进行分析：

窗信号短时自相关函数为：

语音LPC系统函数模型的频率响应与语音的短时傅里叶变换是通过短时自相关函数相关联的，短时自相关函数的傅里叶变换等于信号短时傅里叶变换幅度谱的平方。

对比减号后的内容与短时自相关函数的形式是一致的，体现了共振峰频率分量。

由帕塞瓦尔定理求误差函数能量，结合线性增益频谱得知，线性预测频谱的平方隐含着频率加权，信号频谱幅值的平方大的地方比信号频谱幅值的平方小的地方对频率的加权更多。

在此对线性预测频谱再做一次加权，提高共振峰提取的精度：

根据语音LPC系统函数模型的频率响应、语音的短时傅里叶变换和语音短时自相关函数的关联关系，可推出在共振频率处满足

增大共振峰频率与非共振峰频率能量的区分度。

令z^-1＝exp(-j2πf/f_s)，则功率谱P(f)为式(22)：

预测误差滤波器的多项式复根可以精确表示共振峰的中心频率与带宽，与级联稳态形式的声道传输函数模型相对应：

为任意复根，其共轭值

也是根，设zi对应的共振峰频率为F_i，3dB带宽为B_i，可由式(23)得出式(24)：

p阶的线性预测系数，对应着p个峰值，满足条件的峰值有p//2个，为了正确定位共振峰，提高共振峰识别的准确率，提出了遍历的方式求取找到p//2个共振峰频率与共振峰带宽，此时，共振峰频率与共振峰带宽是不能够一一对应的，在此采用了冒泡排序索引的方式，为复根标记索引，最终求取与复根标记索引相对应的标有同样索引的共振峰频率与共振峰带宽。

到此求共振峰的准确率对于线性预测阶次较为敏感，提出了变阶LPC。

性预测多项式根等于非共振峰的根(根幅值小于0.9)加共振峰的根(复极点较为接近单位圆：根幅值大于0.9)等价对应共振峰的根加上辐射模型对应的根加上声门脉冲形状对应的根加上传输效应其他因素对应的根；为了找到共振峰是第几共振峰，此发明在此采用寻根法以设定根幅值阈值来提高共振峰识别的精度。

语音信号的自相关函数，和产生语音系统函数对应的冲击响应的自相关函数的前p+1个值都是相等的；如果p足够大，语音系统函数全极点模型的频率响应能以任意小的误差逼近信号的短时傅里叶变换的频率响应(误差主要在频谱幅值较低的区域)；p也体现了预测滤波器频谱的平滑度，p越大拟合度越大，对应的预测滤波器频谱的平滑度越小，LPC阶数p直观地体现一段语音线性预测系数的个数(p)，进一步体现了声道共振和反共振频点的数量(p//2)，p越大共振峰区分性越高。共振峰频率通过频率范围以及带宽范围(共振峰频率大于150Hz和小于采样频率的一半，且带宽小于700Hz)筛选满足条件的LPC谱包络的局部极大值；当满足条件的根不足以表示所需要的共振峰的数量时，需要提升LPC的阶次，并且为了减小计算量，常常采用变阶LPC来确定共振数目，当p取值较大时，全极点模型也可来拟合清音。

选择p的原则：保留共振峰和基本的谱形状的前提下，减小p的取值，去除大部分和激励有关的频谱特征，此发明在此采用根幅值阈值反馈的方式实现可变阶次的LPC线性预测求根。

在此线性预测找到了所有满足条件的根，最后只需要对求出的共振峰进行升序排序，并且找出满足条件的共振峰即可。

对齐的共振峰频率作为共振峰的类内区间，不同的共振峰作为不同的类，采用fisher判决做共振峰的平滑，最后以带宽作为判决门限消除奇异点值输出共振峰。

Step5.5：音素区分性特征构造：

音素共振峰信息反映了音素对应声道的响应，他和基音结合能够表示音素区分性的信息，故我们可以构造音素帧级特征，包含音素对应基音周期、音素对应第一共振峰、音素对应第一共振峰带宽、音素对应第二振峰、音素对应第二振峰带宽、音素对应第三峰和素对应第三振峰带宽等参数。

音素的每一帧对应着一个音素语音学特征向量这个向量是一个1维的包含7个元素的向量，这种区分性特征既能够很好的区分音素特征，又能够以最小的维数优势极大降低计算复杂度。

Step5.6：音素识别器的训练与测试：

将帧级的音素区分性特征输入GMM模型进行训练和测试，生成每个特征帧在当前模型下的得分情况，在训练模型中输出每一帧对应音素集合的得分，通过得分的汇总输出第i帧音素概(音素集合为：O＝{o₁，o₂，…o_k})率向量如式(25)：

p(phoneme)＝[p₁，p₂，…p_k]式(25)

得出帧音素概率向量后，选出得分最高的音素用于判决音素识别的正确率，构建的高正确率的音素识别器是语种识别应用的保障。

Step6：语音段的音素语音学语种区分性特征构建：

音素语音学语种区分性特征构建的依据是不同的语种在语言表达中的音素分布是唯一的，体现在音素的统计概率上，也体现在音素排列分布的后验概率上，故在此以音素的统计概率和音素排列分布的后验概率为主构建音素语种区分性特征。

Step6.1：多语种音素集对于TIMIT音素集合的扩展：

TIMIT音素集合包含由美国主要8个方言地区的6300个句子构成，此数据集充分考虑发音的多样性，以及向下兼容性，所以推出了含有52个音素、6个闭包以及5个标识符的音素表示；其优点在于可以从该数据集合中提取精确精确标注的音素集，并且音素集和的性别信息、说话人及说话区域信息比较充分，其缺点是此数据集局限于英语发音，在拟合其他语种时会产生偏差，为了消除拟合偏差，提高不同语种音素拟合的准确性需要对音素集合做扩展，扩展后的音素集合为q个。

扩展处理：

得到帧音素概率向量后，计算帧音素概率向量的信息熵，对于信源空间式(26)，求得信息熵为式(27)：

在英语外的其他语种求出的音素概率向量中每个音素o_i对应的概率p_i都接近于

时，表示该帧所对应的语种音素不能够被未扩展的音素集合拟合，故设置阈值判定H(O)≥α，

时进行音素的扩充。并对扩充的音素做标记，标记出该帧语种信息。

Step6.2：语音段音素后验概率特征构造：

语音段的音素后验概率特征通过S6.1的帧音素概率向量确定，确定方法包含语音段相同音素帧捆绑、语音段音素后验概率推导、语音段音素后验概率特征组合。

语音段相同音素帧捆绑：

Step6.2.1：找出帧音素概率向量P(O)的最大值p_i；

Step6.2.2：根据p_i中的i标记索引出音素集合O中的o_i；

Step6.2.3：将连续的音素o_i相同的帧进行捆绑，认为这些帧对应为一个音素ph_q；

Step6.2.4：求音素捆绑的多个帧的帧音素概率向量P(O)的最大值p_i的平均值为pm_q；

Step6.2.5：求语音段音素向量ph以及语音段音素概率向量pm。

Step6.2.6：采用n-gram元法，根据step5求语音段单元音素音素向量ph₁以及语音段单元音素概率向量pm₁、语音段2元音素音素向量ph₂以及语音段2元音素概率向量pm₂、语音段单元音素音素向量ph₃以及语音段单元音素概率向量pm₃。

含有k个音素的语音段，l(l＝1，2，3)元音素后验概率[P_l]推导如式(28)：

其中：

对于每个[P_l]衡成立。

Step6.3：语音段的音素语音学语种区分性特征构建：

语音段音素后验概率组合[P]表示为式(29)，是一个q×3·q的二维矩阵：

[P]＝{[P₁]，[P₁]，[P₃]}式(29)

所构建的[P]即为语音段的音素语音学语种区分性特征。

Step7：语种识别模型：

语种识别分类模型采用二维卷积神经网络可获得较高的语种识别率，此发明采用经典的残差神经网络Resnet，输入特征图为语音段音素后验概率组合[P]的灰度图，大小为q*3·q，识别模型如图5所示。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于音素的语种区分性特征的语种识别方法，其特征在于：

Step1：首先获取LibriVox音频数据，再采用短时谱熵、短时能量，短时过零率参数进行完整语义短时语音段切分；

Step2：读入TIMIT数据集，依据TIMIT数据集合中的手动标记信息提取音素集合；

Step3：依据音素集合中的音素基音频率信息、共振峰频率信息构造音素区分性特征；

Step4：利用GMM模型对音素区分性特征进行训练和测试，构建帧级的音素识别器；

Step5：将完整语义短时语音段进行预处理并分帧，再将帧信号输入音素识别器，输出不同语种整语义短时语音段的帧音素概率向量；

Step6：在TIMIT音素集基础上，根据不同语种语音帧音素概率的信息熵判断扩充多语种音素集；

Step7：先根据语音段帧音素概率向量求语音段音素向量及语音段音素概率向量，再根据语音段音素向量及语音段音素概率向量求语音段的n-gram元法的音素概率向量，最后以语音段的n-gram元法的音素后验概率向量组合作为音素区分性信息，完成语音段的音素语种区分性特征的构造；

2.根据权利要求1所述的基于音素的语种区分性特征的语种识别方法，其特征在于，所述Step1具体为：

Step1.1：在采用帧长0.025s帧移0.001s的微帧的短时能量阈值、短时过零率阈值、短时谱熵阈值确定出语音段中一段理想的无话段；

Step1.2：根据所找的无话段短时能量与短时过零率确定语音的音节边界；

3.根据权利要求1所述的基于音素的语种区分性特征的语种识别方法，其特征在于，所述Step6具体为：将多语种语音帧信号集输入GMM音素识别器，根据得出的音素概率向量求帧音素概率向量的信息熵，根据信息熵判定扩充多语种拟合多语种音素。

4.根据权利要求1所述的基于音素的语种区分性特征的语种识别方法，其特征在于，所述Step7具体为：

Step7.1：求音素捆绑的多个帧的帧音素概率向量P(O)的最大值p_i的平均值，将其作为语音段音素概率向量中对应音素的概率值；

Step7.2：求取语音段n-gram元法的音素概率向量；

Step7.3：求取l(l＝1，2，3)元音素后验概率[P_l]；