CN103559879A

CN103559879A - 语种识别系统中声学特征提取方法及装置

Info

Publication number: CN103559879A
Application number: CN201310553080.9A
Authority: CN
Inventors: 刘俊华; 魏思; 胡国平; 方磊; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2013-11-08
Filing date: 2013-11-08
Publication date: 2014-02-05
Anticipated expiration: 2033-11-08
Also published as: CN103559879B

Abstract

本发明公开了一种语种识别系统中声学特征提取方法及装置，该方法包括：接收输入的语音信号；对所述语音信号进行分帧处理，获取语音帧序列；提取所述语音帧序列中各语音帧的底层声学特征；基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。利用本发明，可以有效提高语种识别性能。

Description

语种识别系统中声学特征提取方法及装置

技术领域

本发明涉及语种识别技术领域，具体涉及一种语种识别系统中声学特征提取方法及装置。

背景技术

语种识别是指判断给定语音信号所对应的语种类别。语种识别在机器自动翻译、国际旅游信息服务、电话转接、购物股票交易等服务导航，国防安全等领域具有重要的应用价值。特别是近年来随着通信技术的发展，军事监控数据呈爆发式增长，如何从海量数据中筛选对象国的语音数据是实际中面临的一项难题。

目前主流语种识别系统主要基于语音识别技术。具体的系统接收输入的连续语音信号，并提取相应声学特征序列；随后计算所述声学特征序列相应于各语种模型的相似度并选择具有最大似然度的语种模型为期望语种。显然语音信号的声学特征语种区分性直接影响到语种识别结果。目前语种识别系统主要提取语音信号的底层声学信息，即对连续语音信号分帧处理后提取各语音帧的声学特征，如MFCC（Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数）特征、PLP（Perceptual Linear Predictive,感知线性预测系数）特征等。

底层声学特征如语音帧的MFCC特征、PLP特征等主要用于描述语音信号的发音特点，并不能很好地体现语种的差异。这些特征不仅包含了音素区分性信息，也混叠了说话人、信道、噪声等各种干扰信息，使得能够区分语种的音素信息淹没其中，从而影响语种识别效果。

发明内容

本发明提供一种语种识别系统中声学特征提取方法及装置，以提高语种识别性能。

为此，本发明提供如下技术方案：

一种语种识别系统中声学特征提取方法，包括：

接收输入的语音信号；

对所述语音信号进行分帧处理，获取语音帧序列；

提取所述语音帧序列中各语音帧的底层声学特征；

基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。

优选地，所述底层声学特征为以下任意一种：LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征。

优选地，所述方法还包括：

在基于高层发音单元对所述底层声学特征进行优化之前，对所述底层声学特征提取一阶差分和二阶差分；

将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征，并将所述多维声学特征作为新的底层声学特征。

优选地，所述基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征包括：

获取各语音帧的前、后帧扩展声学特征；

将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征；

根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征。

优选地，所述将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征包括：

将所述扩展声学特征输入预先训练得到的深度置信网络模型，将所述深度置信网络模型中间隐含层或特征输出层的输出作为优化的扩展声学特征。

优选地，所述根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征包括：

对所述优化的扩展声学特征基于前后相邻语音帧进行差分扩展，得到各语音帧上下文相关的扩展声学特征。

一种语种识别系统中声学特征提取装置，包括：

接收模块，用于接收输入的语音信号；

分帧处理模块，用于对所述语音信号进行分帧处理，获取语音帧序列；

特征提取模块，用于提取所述语音帧序列中各语音帧的底层声学特征；

优化模块，用于基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。

优选地，所述装置还包括：

差分提取模块，用于在所述优化模块基于高层发音单元对所述底层声学特征进行优化之前，对所述底层声学特征提取一阶差分和二阶差分；将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征，并将所述多维声学特征作为新的底层声学特征。

优选地，所述优化模块包括：

扩展单元，用于获取各语音帧的前、后帧扩展声学特征；

优化单元，用于将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征；

提取单元，用于根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征。

优选地，所述优化单元，用于将所述扩展声学特征输入预先训练得到的深度置信网络模型，将所述深度置信网络模型中间隐含层或特征输出层的输出作为优化的扩展声学特征。

优选地，所述提取单元，具体用于对所述优化的扩展声学特征基于前后相邻语音帧进行差分扩展，得到各语音帧上下文相关的扩展声学特征。

本发明实施例提供的语种识别系统中声学特征提取方法及装置，针对提取的语音帧序列中各语音帧的底层声学特征，基于高层发音单元对其进行优化，提取更高层面的语音信息，突出声学特征中的音素信息而抑制其它干扰信息，有效提升了语种识别性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例语种识别系统中声学特征提取方法的流程图；

图2是本发明实施例中基于深度置信网络模型对底层声学特征进行优化的流程图；

图3是本发明实施例中深度置信网络拓扑结构示意图；

图4是本发明实施例中深度置信网络模型的训练流程图；

图5是本发明实施例语种识别系统中声学特征提取装置的一种结构示意图；

图6是本发明实施例语种识别系统中声学特征提取装置的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有的语种识别系统主要提取语音信号的底层声学信息，不能很好地体现语种的差异，进而影响语种识别效果的问题，本发明实施例提供一种新的声学特征提取方法，通过提取高层面如音素层的语音信息，提高语音信号的语种信息区分性。

从语言学的角度，语种差异性主要体现各个语种之间发音音素的不同，音素的上下文搭配不同，以及不同音素出现的频度不同等方面。为此，在本发明实施例的方法及装置中，基于更高层面发音单元对语音帧声学特征优化，提取更高层面的语音信息，突出声学特征中的音素信息而抑制其它干扰信息，有效提升了语种识别性能。

如图1所示，是本发明实施例语种识别系统中声学特征提取方法的流程图，包括以下步骤：

步骤101，接收输入的语音信号。

步骤102，对所述语音信号进行分帧处理，获取语音帧序列。

具体地，可以通过加汉明窗的方式对所述语音信号进行分帧处理，得到每帧数据。

在实际应用中，汉明窗的窗长可以选择为25ms，前后两帧窗移为10ms，叠加部分为15ms。

进一步地，还可以预先对所述语音信号进行预加重处理，以减少尖锐噪声影响，提升高频信号。

步骤103，提取所述语音帧序列中各语音帧的底层声学特征。

在实际应用中，所述底层声学特征可以采用LPCC（Linear PredictiveCepstral Coding，线性预测倒谱系数）特征、滤波器FilterBank特征、MFCC特征或PLP特征中的任意一种。

为了描述方便，下面以MFCC特征为例进行说明。

在提取各语音帧的MFCC特征时，可以首先通过傅立叶变换和取模得到频域信号，并经过三角滤波函数得到梅尔域的输出，取对数经过离散余弦变化进行去相关处理，得到N阶MFCC参数。

进一步地，在实际应用中，还可以对所述底层声学特征提取一阶差分和二阶差分，然后将所述一阶差分和二阶差分与所述底层声学特征组成3N维声学特征。

差分运算的公式如下：

d_{t} = \frac{Σ_{θ = 1}^{Θ} θ (c_{t + θ} - c_{t - θ})}{2 Σ_{θ = 1}^{Θ} θ^{2}}

其中Θ表示差分的窗口大小，c_t表示第t帧的原始输入特征向量，d_t为相应输出差分后的特征。

步骤104，基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。

由于底层声学特征对语种识别区分的意义不大，因此，在本发明实施例中，对上述步骤103中提取的底层声学特征基于更高层面发音单元进行优化，进而获取发音单元相关的声学特征，有效地提高语种区分性。

在实际应用中，具体可以通过深度置信网络模型来对所述底层声学特征进行优化。

如图2所示，是本发明实施例中基于深度置信网络模型对底层声学特征进行优化的流程图，包括以下步骤：

步骤201，获取各语音帧的底层声学特征。

上述底层声学特征可以是N维的特征矢量，也可以是前面所述的3N维的特征矢量。

步骤202，获取各语音帧的前、后帧的扩展声学特征。

具体地，可以对第t帧底层声学特征分别前后扩展，综合考虑前后相邻的I帧特征，则确定当前语音帧的扩展声学特征为N(2I+1)维。

由于深度置信网络的输入为声学特征经过前后帧的扩展（多帧声学特征），相比声学特征的一帧能够包含更多的信息，从而对音素的区分更加稳定。

步骤203，将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征。

深度置信网络是一种多层神经网络，接收扩展声学特征并输出优化的扩展声学特征。深度置信网络各层中某一节点的输出f(y)计算为：

其中，α为sigmoid（神经元的非线性作用函数）函数可调参数，

X=(x₁,x₂,…,x_n)为该节点的输入矢量，W=(w₁,w₂,…,w_n)为该节点的对应权重矢量，偏置项为b。

需要注意的是，输入扩展后的声学特征作为第一层网络传递给第二层网络，最后一层输出直接是y而不再做sigmoid变换。

另外，需要说明的是，在实际应用中，可以将深度置信网络中间任一隐含层的输出作为优化的扩展声学特征，也可以根据实际需要指定某一隐含层的输出作为优化的扩展声学特征。当然，也可以将特征输出层的输出作为优化的扩展声学特征。

步骤204，根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征。

为了利用更长的语音声学特征信息反映上下文文本相关的搭配关系，在本发明实施例中，对各语音帧的声学特征，基于前后相邻语音帧进行差分扩展。

具体地，假设第t个语音帧的声学特征记为c(t)，则第t帧的扩展声学特征为：

SDC(t)=[c^t(t),Δc^t(t,0),Δc^t(t,1),Δc^t(t,2),…,Δc^t(t,k-1)]^t

其中，k是指差分扩展块的个数，Δc(t,i)表示第i块差分运算的结果，若记P为差分扩展块的时移长度，d为每块差分时的偏移量，则：

Δc(t,i)=c(t+iP+d)-c(t+iP-d)

一般根据经验，设置k=7,P=3,d=1。

对所述优化的扩展声学特征执行移位差分，扩展后能够包含音素前后的配位信息，从而对区分语种类别更加有利。

本发明实施例语种识别系统中声学特征提取方法，通过对直接提取的语音帧的底层声学特征进行发音单元的相关优化，能够凸显音素信息抑制干扰，有效提高语种区分性。而且，声学特征经过深度置信网络每一层时，音素的信息会逐层被抽象放大，而干扰信息（如说话人信息、信道信息）被减弱，因此网络中间隐含层节点和输出层节点的输出相比输入的声学特征本身所包含的音素信息更加突出。

深度置信网络拓扑结构如图3所示，包括输入层，输出层及多个中间层。其中，输入层用于接收各语音帧的声学特征，其节点数相同于声学特征（或扩展后声学特征）的维数。输出层用于描述预设发音单元的后验概率，如音素单元，三因子音素状态（Tri-phone States）单元等，其节点数通常设为语音单元总数，如对于音素单元而言，中文有83个带调音素，英文则有42个音素，而如果采用三因子音素状态，输出节点一般在数千量级。中间层用于描述从基本的声学特征逐层变换抽象到音素单元的过程。通过不断的抽象变换，说话人信息、信道信息和噪声信息等会逐步减弱，音素单元信息逐步得到增强。一般来说，中间层越多，则可以模拟越复杂的模型结构，抽象能力越强，但对训练数据的需求也会越高。综合考虑实际训练数据需求、运算复杂程度和最终识别效果，可以设置中间为L个隐含层，其中L取值为5。

进一步地，为了保证输出特征中能够包含尽可能准确的音素信息（即最后一层输出音素单元正确率），同时又能比较好地去除说话人、信道等干扰因素，输出层应该尽量选择网络后面的节点层。考虑到最后输出层节点数取决于预设单元个数，不利于优化后输出特征维数的调整，因此可以选择中间某一隐含层作为输出层。特别地考虑网络描述能力和优化特征提取后的语种识别系统的效率，经验性地选择中间隐含层作为输出层，并将其节点取K，其它节点为M，其中K远小于M。

如图4所示，是本发明实施例中深度置信网络模型的训练流程图，包括以下步骤：

步骤401，确定深度置信网络拓扑结构。

步骤402，训练所述深度置信网络模型的参数。

首先，采集训练数据并对其进行发音单元标注。

进一步地，当选择考察发音单元为音素状态单元时，还需要根据预设的语音识别器对标注数据进行强制切分，得到各音素状态对应的标注。

其次，在网络训练过程中，依次提取所述标注数据的声学特征（可以是PLP、MFCC或FilterBank等特征）及其标注信息对深度置信网络进行训练。

整个训练过程可以分为以下两个步骤：

（1）采用所有训练数据进行预训练，得到较好的网络初始值；

（2）采用后向扩展算法（BackPropagation）进行网络参数的进一步优化调整。

在预训练过程中，将深度置信网络相邻两层之间作为波尔兹曼机进行训练，使其能够尽可能好地描述第一层的输入。通过逐层进行训练就可以得到一个初始的网络，该网络能够比较好地描述输入特征，网络对应的权重作为深度置信网络的初始值。在后向扩展算法中，采用最小均方误差准则对网络权重进一步的调优，使得每帧训练数据分类正确率最高。

步骤403，确定深度置信网络模型结构参数。

语种识别的目的是使得给定语音的语种识别率最高，为此在本发明实施例中，在确定深度置信网络模型结构参数时，以所构建语种识别测试集的识别率最高为原则。此外语种识别所期望的优化声学特征应能反映比较精确的音素信息，因此在确定网络模型参数时，同时参考所提取的优化声学特征在语音识别中的音素识别率。根据这两项指标对网络隐含层个数、隐含层以及特征输出层的节点个数进行调整。

本发明实施例提供的语种识别系统中声学特征提取方法，针对提取的语音帧序列中各语音帧的底层声学特征，基于高层发音单元对其进行优化，提取更高层面的语音信息，突出声学特征中的音素信息而抑制其它干扰信息，有效提升了语种识别性能。

相应地，本发明实施例还提供一种语种识别系统中声学特征提取装置，如图5所示，是该装置的一种结构示意图。

在该实施例中，所述装置包括：

接收模块501，用于接收输入的语音信号；

分帧处理模块502，用于对所述语音信号进行分帧处理，获取语音帧序列；

特征提取模块503，用于提取所述语音帧序列中各语音帧的底层声学特征；

优化模块504，用于基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。

上述分帧处理模块502具体可以通过加汉明窗的方式对所述语音信号进行分帧处理，得到每帧数据。

所述底层声学特征可以采用LPCC特征、滤波器FilterBank特征、MFCC特征或PLP特征中的任意一种，每种底层声学特征的提取方式可采用现有的各种提取方式，对此本发明实施例不做限定。

由于底层声学特征在语种识别中易受信道、说话人等因素干扰进而影响识别效果，因此，在本发明实施例中，优化模块504对特征提取模块503提取的底层声学特征基于更高层面发音单元进行优化，进而获取发音单元相关的声学特征，有效地提高语种区分性。

在实际应用中，优化模块504具体可以利用预先训练得到的深度置信网络模型来对所述底层声学特征进行优化。为此，优化模块504的一种具体实现结构包括：扩展单元、优化单元、以及提取单元。其中：

所述扩展单元，用于获取各语音帧的前、后帧扩展声学特征；

所述优化单元，用于将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征；

所述提取单元，用于根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征，具体可以对所述优化的扩展声学特征基于前后相邻语音帧进行差分扩展，得到各语音帧上下文相关的扩展声学特征。

上述深度置信网络模型的训练过程可参照前面本发明实施例的方法中的描述，在此不再赘述。

如图6所示，是本发明实施例语种识别系统中声学特征提取装置的另一种结构示意图。

与图5所示实施例不同的是，在该实施例中，所述装置还进一步包括：

差分提取模块601，用于在所述优化模块504基于高层发音单元对所述底层声学特征进行优化之前，对特征提取模块503提取的底层声学特征提取一阶差分和二阶差分；将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征，并将所述多维声学特征作为新的底层声学特征。

本发明实施例提供的语种识别系统中声学特征提取装置，针对提取的语音帧序列中各语音帧的底层声学特征，基于高层发音单元对其进行优化，提取更高层面的语音信息，突出声学特征中的音素信息而抑制其它干扰信息，有效提升了语种识别性能。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语种识别系统中声学特征提取方法，其特征在于，包括：

接收输入的语音信号；

对所述语音信号进行分帧处理，获取语音帧序列；

提取所述语音帧序列中各语音帧的底层声学特征；

2.根据权利要求1所述的方法，其特征在于，所述底层声学特征为以下任意一种：LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征包括：

获取各语音帧的前、后帧扩展声学特征；

5.根据权利要求4所述的方法，其特征在于，所述将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征包括：

7.一种语种识别系统中声学特征提取装置，其特征在于，包括：

接收模块，用于接收输入的语音信号；

8.根据权利要求7所述的装置，其特征在于，所述底层声学特征为以下任意一种：LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7至9任一项所述的装置，其特征在于，所述优化模块包括：

扩展单元，用于获取各语音帧的前、后帧扩展声学特征；

11.根据权利要求10所述的装置，其特征在于：

所述优化单元，用于将所述扩展声学特征输入预先训练得到的深度置信网络模型，将所述深度置信网络模型中间隐含层或特征输出层的输出作为优化的扩展声学特征。

12.根据权利要求10所述的装置，其特征在于：

所述提取单元，具体用于对所述优化的扩展声学特征基于前后相邻语音帧进行差分扩展，得到各语音帧上下文相关的扩展声学特征。