CN113539238A

CN113539238A - 一种基于空洞卷积神经网络的端到端语种识别分类方法

Info

Publication number: CN113539238A
Application number: CN202010247070.2A
Authority: CN
Inventors: 张鹏远; 苗晓晓; 王文超; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2021-10-22
Anticipated expiration: 2040-03-31
Also published as: CN113539238B

Abstract

本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法，包括：待训练语种识别网络接收，并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后，输出训练语音后验概率；将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数，通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数，得到训练后语种识别网络；提取测试语音的帧级别声学底层特征；训练后语种识别网络接收测试语音的帧级别声学底层特征，输出测试语音后验概率；根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下，不降低单个神经元的感受野，弱化语音中的时间信息丢失问题。

Description

一种基于空洞卷积神经网络的端到端语种识别分类方法

技术领域

本发明涉及语种识别技术领域，特别涉及一种基于空洞卷积神经网络的端到端语种识别分类方法。

背景技术

语种识别(Language Identification,LID)是指自动判定给定的语音片段，从该语音片段的语音信号中提取各语种的差异信息，判断语言种类的过程。语种识别技术在多语种语音处理方面有重要的应用，例如，口语语言翻译系统、多语种语音识别系统、语音文本处理等。

目前，传统的语种识别技术包括两种方法：第一种方法，基于音素层特征的语种识别技术；其中，基于音素层特征的语种识别技术是将音素层特征作为识别依据。常用的方法有音素识别后接N元文法模型(Phoneme Recognizer followed by Language Model,PRLM)和并行音素识别器后接语言模型(Parallel Phone Recognition followed by LanguageModeling,PPRLM)等。第二种方法，基于声学层特征的语种识别技术依赖于声学层特征，主流的语种识别系统有混合高斯模型-全局背景模型(Gaussian Mixture Model-UniversalBack-ground Model,GMM-UBM)、高斯超向量-支持向量机(GMM Super Vector-SupportVector Machines,GSV-SVM)和基于全差异空间的(Total Variability,TV)i-vector系统等。本发明采用传统的TV ivector系统提取原始i-vector。

近几年，深度神经网络(Deep Neural Networks,DNN)模型在语种识别技术上得到快速发展，具体从以下两个方面体现：一方面从前端语种特征提取层面，利用DNN模型强大的语种特征的抽取能力，提取了深度瓶颈特征(Deep Bottleneck Feature,DBF)。另一方面从模型域出发，提出基于DNN的TV建模策略。

近几年，也有学者提出了基于深度学习的端对端语种识别系统，摒弃了传统的语种识别系统框架。2014年GOOGLE的研究人员将特征提取、特征变换和分类器融于一个神经网络模型中，搭建了一个帧级别的语种识别端到端系统。随后有研究人员在此基础上发掘了不同神经网络的优势，包括延时神经网络(time-delay neural network,TDNN)，长短时记忆递归神经网络(long short term memory-recurrent neural network,LSTM-RNN)，但这些端到端语种识别系统的输入为帧级声学特征，输出为帧级判决，需要后处理将帧级特征转成句级特征进行语种判决。2016年Geng等人利用注意力机制模型(attention-basedmodel)，结合LSTM-RNN搭建了端到端语种识别系统，输入帧级声学特征，利用LSTM提取语音的段级表达，在短时语音上取得了不错的语种识别性能。2018年，David等人提出基于深度神经网络的x-vector系统，验证了借助统计池化层得到的输入语音段级表达在各个语音时长测试条件下都优于传统i-vector系统。同年Cai等人采用深度卷积神经网络提取更加具有语种鉴别性的帧级特征并提出基于可学习的字典编码层，也得到了很好的段级表达。从这些研究工作中可以发现，相比较传统的基于i-vector方法的语种识别技术，基于深度学习的端到端方法更具性能优势，已经成为语种识别任务中的主流方法。普通的卷积神经网络及其下采样在局部上下文建模和语种相关性方面具有很强的能力，但在这一过程中压缩了特征，丧失了语音的时间结构。然而时间信息与语种识别高度相关。

发明内容

本发明的目的在于，为解决现有的基于卷积神经网络的语种识别方法存在上述缺陷，提出了一种基于空洞卷积神经网络的端到端语种识别网络，经过多层空洞卷积，保证网络计算量不变的情况下，增加语音信号的感受野，充分挖掘上下文信息，提取具有更具有鉴别性的语种特征，进一步提升语种识别系统的性能。

为了达到上述目的，本发明实施例记载了一种基于空洞卷积神经网络的端到端语种识别分类方法，通过下列步骤实现对目标语音的识别：

提取训练语音的帧级别声学底层特征；待训练语种识别网络接收，并对训练语音的帧级别声学底层特征进行至少一层空洞卷积后，输出训练语音后验概率；将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数，通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数，得到训练后语种识别网络；提取测试语音的帧级别声学底层特征；训练后语种识别网络接收测试语音的帧级别声学底层特征，输出测试语音后验概率；根据测试语音后验概率判定测试语音中的至少一个语种类别。

一个实例中，训练语音的帧级别声学底层特征，和测试语音的帧级别声学底层特征，为23维梅尔倒谱系数。

一个实例中，语种识别网络为残差网络，残差网络中包括至少一空洞卷积层。

其中，残差网络第l组中第i层空洞卷积层

的输出为：

为与

相关联的滤波器，p为

中的特征映射域，a为网络层的输入，b为滤波器域。

在空洞卷积中，

的输出是：

其中，k为空洞率。

步骤S103：将后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数，通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数，得到训练后语种识别网络。

步骤S104：提取测试语音的帧级别声学底层特征。其中，帧级别声学底层特征为23维梅尔倒谱系数。

步骤S105：训练后语种识别网络接收测试语音的帧级别声学底层特征，输出后验概率，即分数向量；根据后验概率得到至少一个语种类别的概率，根据这一概率判定其所对应语种的语种类别。

一个实施例中，采用平均检测代价C_avg(average cost)对测试语音的识别结果进行评价，得到语种类别的概率。

C_avg的定义为：

其中，N_L为目标语种数目，L_T为目标语种，L_N为非目标语种，L_O为集外语种，P_Miss(L_T)表示目标语种为L_T时的漏检率，P_FA(L_T，L_N)是目标语种为L_T时的虚警率，C_Miss和C_FA分别是漏检和虚警的惩罚因子，P_Target为目标语种的先验概率，P_Non-Target＝(1-P_Target-P_Out-of-Set)/(N_L-1)为非目标语种的先验概率，P_Out-of-Set为集外语种的先验概率。

如考虑闭集测试计算C_avg，则P_Out-of-Set＝0，此时定义C_Miss＝C_FA＝1，P_Target＝0.5。

实施例一

采用Resnet34卷积神经网络作为基线，其中，Resnet34中的每个残差结构包含5组卷积层，且均为标准卷积。将其中每个残差结构的第4和第5组标准卷积(

和

)替换为空洞卷积，构建基于空洞卷积神经网络的语种识别网络。使用训练语音的帧级别声学底层特征对该语种识别网络进行训练，得到训练完成的基于空洞卷积的Resnet34。

为便于比较，设置对比例一。

对比例一

采用Resnet34卷积神经网络作为语种识别网络，其中，Resnet34中的每个残差结构包含5组卷积层，且均为标准卷积。使用与实施例一中相同的训练语音的帧级别声学底层特征对该语种识别网络进行训练，得到训练完成的基于标准卷积的Resnet34。

将3段时长不等的测试语音，分别作为实施例一和对比例一中的输入，进行语音识别。其中，第一测试语音时长为3秒，第二测试语音时长为10秒，第三测试语音时长为30秒。采用平均检测代价C_avg分别对实施例一和对比例一中的3段测试语音的识别结果进行评价，如表1所示：

	第一测试语音(3s)	第二测试语音(10s)	第三测试语音(30s)
				实施例一	18.26％	5.98％	2.04％
对比例一	20.44％	6.35％	2.22％

表1不同测试语音的平均检测代价

通过表1可知，本申请实施例一中采用基于空洞卷积的Resnet34对不同时长的测试语音进行识别的结果，采用平均检测代价C_avg进行评价的结果均小于对比例一中传统的采用基于标准卷积的Resnet34的识别结果。对于平均检测代价C_avg的评价，两者的数值越小，表示识别结果的准确率越高。由此可知，实施例一相比于对比例一在多种不同时长的测试语音的识别方面，均体现出更好的识别性能。

本发明实施例使用空洞卷积神经网络，在输出特征图的分辨率不变的情况下，不降低单个神经元的感受野，弱化语音中的时间信息丢失问题。空洞卷积继承了残差网络的特性，保持了输入信号的时间结构，并且随着网络的扩展，网络可以保证大的视野，提供了很强的局部上下文建模能力。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。