发明内容
本发明要解决的技术问题是提供一种语种识别方法及识别系统,以解决现有技术所存在的语种识别系统的后端采用基于N-gram的语言模型来建模不同语种的音位结构信息,导致语种识别系统性能下降的问题。
为解决上述技术问题,本发明实施例提供一种语种识别方法,包括:
将每帧语音信号转换成发音属性特征;
利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;
进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。
进一步地,在将每帧语音信号转换成发音属性特征之前,所述方法还包括:
确定基于帧级别特征的用于识别发音属性的发音属性提取器。
进一步地,所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括:
依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集;
利用所述训练集训练所述特征提取模块;
其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征,其中,Q表示M种发音属性包含的属性类的数目。
进一步地,所述将每帧语音信号转换成发音属性特征包括:
通过M个发音属性提取器,将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。
进一步地,时延神经网络中softmax层的节点个数与待分类的语种个数相同,其中,softmax表示多分类;
softmax层每个节点的最后输出结果是句子层级的,每个节点将一句话中的所有帧的softmax层的输出结果加和取平均作为对应节点的最后输出结果。
本发明实施例还提供一种语种识别系统,包括:
发音属性提取器,用于将每帧语音信号转换成发音属性特征;
时延神经网络,用于利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;还用于进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。
进一步地,所述系统还包括:
确定模块,用于确定基于帧级别特征的用于识别发音属性的发音属性提取器。
进一步地,所述确定模块,用于依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集,利用所述训练集训练所述特征提取模块;
其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征,其中,Q表示M种发音属性包含的属性类的数目。
进一步地,所述发音属性提取器,用于将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。
进一步地,时延神经网络中softmax层的节点个数与待分类的语种个数相同,其中,softmax表示多分类;
softmax层每个节点的最后输出结果是句子层级的,每个节点将一句话中的所有帧的softmax层的输出结果加和取平均作为对应节点的最后输出结果。
本发明的上述技术方案的有益效果如下:
上述方案中,将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。这样,利用发音属性特征的跨语种的特点,以及时延神经网络捕获输入的发音属性特征的上下文信息的能力,从而帮助语种识别系统更好的学习到输入的发音属性特征的区分性信息,提高语种识别系统的性能。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的语种识别系统的后端采用基于N-gram的语言模型来建模不同语种的音位结构信息,导致语种识别系统性能下降的问题,提供一种语种识别方法及识别系统。
实施例一
如图1所示,本发明实施例提供的语种识别方法,包括:
S101,将每帧语音信号转换成发音属性特征;
S102,利用所述发音属性特征训练时延神经网络(Time Delay Neural Network,TDNN),其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;
S103,进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。
本发明实施例所述的语种识别方法,将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。这样,利用发音属性特征的跨语种的特点,以及时延神经网络捕获输入的发音属性特征的上下文信息的能力,从而帮助语种识别系统更好的学习到输入的发音属性特征的区分性信息,提高语种识别系统的性能。
在前述语种识别方法的具体实施方式中,进一步地,在将每帧语音信号转换成发音属性特征之前,所述方法还包括:
确定基于帧级别特征的用于识别发音属性的发音属性提取器。
本实施例中,通过所述发音属性提取器将每帧语音信号转换成发音属性特征。
在前述语种识别方法的具体实施方式中,进一步地,所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括:
依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集;
利用所述训练集训练所述特征提取模块;
其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征,其中,Q表示M种发音属性包含的属性类的数目。
本实施例中,发音属性特征表示的是发声器官在发某个特定的音素时所引发的声道的变化。不同的发音属性的组合可以表示不同的音素,因此发音属性是比音素颗粒度更小的声学特征。发音属性在跨语言的情景下可以被更准确的识别。在基于标识的语种识别方法中,音素识别器的精确度是一个关键因素,具体来说,如果要识别的另一种语言的音素与训练音素识别器的语言中包含的音素相同,则可以基于它们之间的相似性假设在语言模型中对其进行建模。如果某些音素与用于音素识别器的语言的音素非常不同,则它们在语言建模中不能很好地表示,这对于语种识别任务来说是很常见的,常常只能使用几个语种来建立音素识别器,无法覆盖所有语言的音素。因此,在语种识别任务中使用语言通用的AFs来构建语种识别系统的前端,以获得更准确的标识识别结果,提高语种识别系统的性能。
本实施例中,使用了如表1所示的M(M=7)种共Q(Q=27)类发音属性,这些发音属性的分类是根据国际音标协会的分类方案。每一种发音属性都有多个不同的属性类,比如发音方式包含7类不同的属性:塞音、摩擦音、塞擦音、鼻音、边音、近音、闪音等属性类。
表1:发音属性类别列表
由于为语音信号手工标注发音属性相当困难且花费成本很高,因此为发音属性生成训练集的一种合理方法是:依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集。如表2所示,表2为普通话音素与发音属性之间的映射关系。
表2普通话音素与发音属性之间的映射关系
本实施例中,利用所述训练集训练所述特征提取模块,如图2所示,已训练好的特征提取模块包含了7个发音属性提取器,每一个发音属性提取器是分别为每一种发音属性建立的,即:7个发音属性提取器对应7种不同的发音属性。
本实施例中,每帧语音信号通过每个发音属性提取器后会得到一个后验概率以表示这帧语音信号所属的发音属性的类别,然后将这帧语音信号的七种不同的发音属性的共27类不同的属性类的后验概率通过拼接模块进行拼接,得到一个特征向量,该特征向量为发音属性特征。
在前述语种识别方法的具体实施方式中,进一步地,所述将每帧语音信号转换成发音属性特征包括:
通过M个发音属性提取器,将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。
本实施例中,将提取发音属性特征的特征提取模块/M个发音属性提取器作为语种识别系统的前端,前端的目的是将每帧语音信号转换成发音属性特征。
本实施例中,使用时延神经网络来作为语种识别系统的后端,为发音属性特征在语种识别任务中的应用方式提供了的新思路,也为语种识别任务提高系统性能提供了参考价值。时延神经网络的结构如图3所示。时延神经网络是用来处理序列数据的,具体来说,时延神经网络是一个前向神经网络,但它与输入权重相关的层权重有延迟,具体是通过向输入添加一系列的时间延迟,以在不同时间点表示数据。这样的结构允许时延神经网络对时序的输入数据动态响应。
本实施例中,时延神经网络的输入是特征提取模块/M个发音属性提取器转换得到的帧层级的发音属性特征,即27种不同属性类的后验概率所组成的特征向量,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;其中,时延神经网络中softmax层的节点个数与待分类的语种个数相同,例如,节点个数为10,其中,softmax表示多分类。
本实施例中,softmax层每个节点的最后输出结果是句子层级的,具体的:每个节点将一句话中的所有帧的softmax层的输出结果加和取平均作为对应节点的最后输出结果。
本实施例中,进行语种识别时,输出的10维的句子层级的向量中,最大的相似度值所对应的语种就是待识别语音(具体指:语句)的识别结果。
为了验证本发明实施例所述的语种识别方法的有效性,对其进行实验验证:
在本实验中设置了i-vector语种识别系统和x-vector语种识别系统作为基线系统;同时使用了梅尔频率倒谱系数(MFCC)和深度瓶颈层特征(Deep Bottleneck,DBN)与发音属性特征作对比。具体的实验设置如下:
1)数据集
深度瓶颈层特征是在两个普通话语料库上训练的语音识别系统中提取的。第一个语料库用于大型普通话语音识别系统开发,第二个语料库是一个开源普通话语音库,名为AISHELL-1。两个语料库加起来有1800个说话人(300小时),大约250000条语音。
所有实验均在东方语种识别竞赛的AP17-OLR数据库上进行评估。该数据库由10种不同的语言组成:中国的哈萨克语(ka-cn),中国的藏语(ti-cn),中国的维吾尔语(uy-id),中国的粤语(ct-cn),中国的普通话(zh-cn),印度尼西亚的印度尼西亚语(id-id),日本的日语(ja-jp),俄罗斯的俄语(ru-ru),韩国的韩语(ko-kr),越南的越南语(vi-vn)。每种语言的训练数据时长约为10小时,语料是通过电话采集的,采样率为16kHz,分辨率为16位。
2)特征提取
声学特征梅尔频率倒谱系数(MFCC)的维数是40维,没有倒谱截断,帧长为25ms。这些特征相当于滤波器组系数(Filter bank),但更具可压缩性。
深度瓶颈层特征是从一个基于深度神经网络的语音识别系统中抽取出来的。这个深度神经网络是一个时延神经网络,激活函数为非线性的p-norm,该深度神经网络模型是在AISHELL-1和863普通话语料库上进行训练的。深度神经网络有6个隐藏层,每一层有650个节点,最后一个隐藏层被设置为100个节点作为瓶颈层。该网络的输入特征是40维的梅尔频率倒谱系数。网络去掉了的softmax输出层,因为提取深度瓶颈层特征不需要softmax层。
发音属性特征也是从深度神经网络的语音识别系统中抽取出来的,但它们是softmax输出层的后验概率而不是瓶颈层中提取的。这里语音识别系统使用的是链式时延神经网络(chain time-delay neural network),激活函数为非线性的p-norm,模型是在AISHELL-1和863普通话语料库上进行训练。神经网络有6个隐藏层,每个隐藏层的有625个节点。神经网络的输入是40维梅尔频率倒谱系数。此外,输入特征的原始帧速率每秒100帧,输出帧速率降低了3倍。
3)i-vector语种识别系统
i-vector的提取是基于高斯混合模型的通用背景模型(GMM-UBM),其中通用背景模型含有2048个高斯混合模型,最后会提取出400维的i-vector,提取i-vector使用的特征就是上面提到的这三个特征:梅尔频率倒谱系数、深度瓶颈层特征、发音属性特征。
4)i-vector的语种识别系统
x-vector的网络结构是一个5层的时延神经网络。每一层的输出经过拼接后输入到下一层,具体每一层拼接的上下文分别是:[t-2,t+2],[t-2,t+2],[t-3,t+3],[t],[t],其中t为当前帧。网络前四层中,每一层的节点数为512个,第五层的节点数为1500个。段层级部分包括两层全向连接层,这两层的节点数分别为512个,激活函数为ReLU。
5)时延神经网络
时延神经网络的设置如下,网络共有6层,每一层有650个节点,激活函数是p-norm,每一层拼接的帧数如下:[t-2,t+2],[t-1,t+1],[t-1,t+1],[t-3,t+3],[t-6,t+6],[t];其中,t表示当前帧,在第一层(Layer1),然后将帧[t-2,t+2]拼接到一起,传递到第二层,第二层将[t-1,t+1]拼接到一起,依此类推,第三、四、五层分别将[t-1,t+1]、[t-3,t+3]、[t-6,t+6]拼接到一起,这样经过了四层神经网络后,一共可以在左边获得13帧的上文信息,在右边获得13帧的下文信息。输出的softmax层有10个节点(对应10种语言)。
6)实验结果与结论
6.1)基于发音属性特征和时延神经网络的语种识别方法vs基线系统
实验的评价指标是等错误率(Equal Error Rate,EER)和最小检测代价(minCavg)。表3显示了基线系统和本实施例所述的基于发音属性特征和时延神经网络的语种识别方法的性能。使用All-AFs来表示组合在一起的7种发音属性特征,可以看到,基于发音属性特征和时延神经网络的语种识别方法比基于深度瓶颈层特征的系统和基于梅尔频率倒谱系数的系统性能表现更好,等错误率更低。总体而言,在等错误率上,基于发音属性的时延神经网络相比基于深度瓶颈层特征的时延神经网络降低了约46%,基于发音属性的i-vector相比基于深度瓶颈层特征的i-vector降低了约9%,基于发音属性的x-vector相比基于深度瓶颈层特征的x-vector降低了约20%。以上结果表明,发音属性特征有利于提高语种识别任务的性能。
此外,基于发音属性的时延神经网络的实验结果让人印象深刻。基于发音属性的时延神经网络的等错率比基于发音属性的i-vector降低了15%。同时,基于发音属性的时延神经网络和基于发音属性的x-vector的结果接近。这些结果表明,当使用发音属性作为前端时,一个简单的时延神经网络后端便可对语种识别任务提升很大。
表3不同方法的EER和minCavg(括号中的数值)
特征 |
TDNN |
i-vector+cosine |
x-vector+cosine |
MFCC |
11.29(12.09) |
6.22(6.87) |
5.76(5.13) |
DBN |
7.17(6.88) |
5.02(4.76) |
4.43(4.53) |
All-AFs |
3.86(3.56) |
4.56(4.32) |
3.52(3.22) |
6.3)系统融合
系统融合的结果如表4所示。实验中使用Focal工具来融合系统,主要将基于发音属性的时延神经网络系统融合到不同的方法中,以比较不同融合系统的性能差异。正如在表3中所看到的,融合系统为本实验的识别结果带来了了显著的性能提升。特别是发音属性做前端,时延神经网络、i-vector和x-vector分别做后端的融合系统(AFs-ivector+AFs-xvector+AFs-TDNN)在等错误率上相对单系统的基于发音属性的x-vector方法降低了45%。
表4:不同的系统融合方法的EER和minCavg(括号中的数值)
融合系统 |
EER(minCavg) |
MFCC-TDNN+AFs-TDNN |
3.46(3.76) |
DBN-TDNN+AFs-TDNN |
2.95(3.21) |
DBN-ivector+AFs-TDNN |
2.56(2.32) |
DBN-xvector+AFs-TDNN |
2.21(2.36) |
AFs-ivector+AFs-TDNN |
2.27(2.53) |
AFs-xvector+AFs-TDNN |
2.14(2.01) |
AFs-ivector+AFs-xvector+AFs-TDNN |
1.92(1.84) |
MFCC-TDNN+AFs-TDNN |
3.46(3.76) |
6.3)实验结论
本发明探索了基于发音属性特征和时延神经网络的语种识别方法在语种识别任务中的应用。这种方法利用了发音属性的跨语言特性和时延神经网络捕获输入的发音属性特征的上下文信息的能力。实验在AP17-OLR数据集上进行,实验结果表明了该方法的有效性。具体来说,发现基于发音属性的时延神经网络系统明显优于基于深度瓶颈层特征的i-vector和x-vector的系统。该技术的发明为发音属性特征在语种识别任务中的应用方式提供了的新思路,也为语种识别任务提高系统性能提供了参考价值。
实施例二
本发明还提供一种语种识别系统的具体实施方式,由于本发明提供的语种识别系统与前述语种识别方法的具体实施方式相对应,该语种识别系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述语种识别方法具体实施方式中的解释说明,也适用于本发明提供的语种识别系统的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图4所示,本发明实施例还提供一种语种识别系统,包括:
发音属性提取器11,用于将每帧语音信号转换成发音属性特征;
时延神经网络12,用于利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;还用于进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。
本发明实施例所述的语种识别系统,将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。这样,利用发音属性特征的跨语种的特点,以及时延神经网络捕获输入的发音属性特征的上下文信息的能力,从而帮助语种识别系统更好的学习到输入的发音属性特征的区分性信息,提高语种识别系统的性能。
在前述语种识别系统的具体实施方式中,进一步地,所述系统还包括:
确定模块,用于确定基于帧级别特征的用于识别发音属性的发音属性提取器。
在前述语种识别系统的具体实施方式中,进一步地,所述确定模块,用于依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集,利用所述训练集训练所述特征提取模块;
其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征。
在前述语种识别系统的具体实施方式中,进一步地,所述发音属性提取器,用于将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。
在前述语种识别系统的具体实施方式中,进一步地,时延神经网络中softmax层的节点个数与待分类的语种个数相同,其中,softmax表示多分类;
softmax层每个节点的最后输出结果是句子层级的,每个节点将一句话中的所有帧的softmax层的输出结果加和取平均作为对应节点的最后输出结果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。