CN102938252A

CN102938252A - 结合韵律和发音学特征的汉语声调识别系统及方法

Info

Publication number: CN102938252A
Application number: CN2012104826990A
Authority: CN
Inventors: 刘文举; 晁浩
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-11-23
Filing date: 2012-11-23
Publication date: 2013-02-20
Anticipated expiration: 2032-11-23
Also published as: CN102938252B

Abstract

本发明公开了一种结合韵律和发音学特征汉语声调识别方法及系统，该方法包括以下步骤：接收语音信号，并提取语音信号的倒谱特征、基频值和能量值；根据所述倒谱特征生成携带音节边界信息的语音序列；根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值，根据所述每一音节对应的基频值和能量值，计算每一音节的韵律特征；根据所述倒谱特征序列和所述音节边界信息，提取音节的发音方式特征；根据所述韵律特征和所述发音方式特征判断所述语音信号中每一音节的声调类型。本发明还涉及了一种相应地汉语声调识别系统。

Description

结合韵律和发音学特征的汉语声调识别系统及方法

技术领域

本发明涉及语音识别领域，尤其涉及一种结合韵律和发音学特征的汉语声调识别系统和方法。

背景技术

与英语等西方国家语言不同，汉语是一种带声调的语言。声调是汉语普通话的一种重要属性，在一定程度上承担着构字辨义的作用。同一个音节，如果其声调不同，那么其代表的含义完全不同，对应着不同的汉语字，例如妈、麻、马、骂。汉语中存在四种声调，分别是阴平、阳平、上声、去声，或者称为一声、二声、三声、四声。另外，轻声在语音识别技术中常常也被看作是一种声调。

在语音识别中，对于发音相同或相似的音节，声调能够提供重要的区分性信息。汉语语音识别中声调能够提供区分性信息主要体现两方面：一是具有相同音节的不同汉语字，声调信息是区分它们的唯一属性；二是对应的音节虽然不同但发音相近的汉语字，例如对应音节的声母不同但韵母相同，声调信息同样也是区分它们的重要属性。在现有语音识别系统性能的提高已经达到一定瓶颈的情况下，近年来研究人员对如何利用声调信息来提高语音识别系统的性能进行了不同的尝试，并取得了较好的效果。

目前的声调识别方法是根据音节所对应的语音信号的基频，能量以及时长等韵律信息来判断该音节的声调类型，而没有考虑到人发声时的发音方式，如发音动作(如声带是否震动，鼻腔是否开启)，发音器官位置(如舌头在口腔中的前后位置，上下位置)以及发音器官形状(如发元音时唇部的形状)等信息也在很大程度上影响着声调的类型，这就很难再进一步提高声调的识别精度。

发明内容

本发明的目的在于提出一种汉语声调识别系统及方法，克服现有技术中没有将发音方式信息用于声调识别的缺陷，将发音方式信息和韵律信息一起用于声调识别，从而进一步提高了声调的识别精度。

本发明公开了一种汉语声调识别方法，其具体包括以下步骤：

步骤1、接收语音信号，并提取语音信号的倒谱特征、基频值和能量值；

步骤2、根据所述倒谱特征生成携带音节边界信息的语音序列；其中，所述音节边界信息包括音节发音开始时刻和音节发音结束时刻，以及音节中的声母和韵母的发音开始时刻和发音结束时刻；；

步骤3、根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值，根据所述每一音节对应的基频值和能量值，计算每一音节的韵律特征；

步骤4、根据所述倒谱特征序列和所述音节边界信息，提取音节的发音方式特征；

步骤5、根据所述韵律特征和所述发音方式特征判断所述语音信号中每一音节的声调类型。

本发明还公开了一种汉语声调识别系统，其包括：

接收语音信号，并提取语音信号的倒谱特征、基频值和能量值的装置；

根据所述倒谱特征生成携带音节边界信息的语音序列的装置；其中，所述音节边界信息包括音节发音开始时刻和音节发音结束时刻，以及音节中的声母和韵母的发音开始时刻和发音结束时刻；；

根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值，并根据所述每一音节对应的基频值和能量值，进而计算每一音节的韵律特征的装置；

根据所述倒谱特征序列和所述音节边界信息，提取音节的发音方式特征的装置；

根据所述韵律特征和所述发音方式特征判断所述语音信号中每一音节的声调类型的装置。

本发明提取蕴含发音方式信息的发音特征，并将发音特征与韵律特征共同用于汉语声调的识别，从而解决了发音时发音方式对声调类型产生影响的问题。与未能将发音方式信息用于声调识别的现有声调识别方法相比，本发明所提出的声调识别方法由于考虑到了发音方式对声调的影响，所以声调识别的正确率更高。

附图说明

图1为本发明的一种汉语声调识别方法的流程图；

图2为本发明中用于提取发音方式特征的阶层式神经网络的结构示意图；

图3为本发明中的多层感知器MLP的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为根据本发明的一种汉语声调识别方法的流程图。其中，待识别的语音信号为连续语音，对应一个语句，所述连续语音中每一个音节的声调进行识别。

如图1所示，所述汉语声调识别方法包括如下步骤：

步骤101：接收语音信号，并对所述语音信号进行频谱分析，提取语音信号的倒谱特征序列，基频值序列和能量值序列；其中，所述倒谱特征序列中的每一个为一个多维向量；

步骤102：利用训练好的声学模型和N为2的N-gram语言模型，通过viterbi解码算法对所述倒谱特征序列进行语音识别，生成携带音节和声韵母边界信息的语音序列，所述音节以及声韵母的边界信息包括包括音节发音开始时刻和音节发音结束时刻，以及音节中的声母和韵母的发音开始时刻和发音结束时刻；其中，声学模型可以利用Baum-Welch算法训练。例如：对于一句话“上海的工人师傅克服困难”，根据这句话的语音信号提取出的倒谱特征对语音信号进行识别，生成的携带音节和声韵母边界信息的语音序列为：

0 0.87 sil

0.87 1.12 sh

1.12 1.24 ang shang

1.24 1.30 h

1.30 1.39 ai hai

1.39 1.46 d

1.46 1.52 e de

1.52 1.64 g

1.64 1.74 ong gong

1.74 1.85 r

1.85 1.89 en ren

1.89 2.07 sh

2.07 2.15 i1 shil

2.15 2.23 f

2.23 2.39 u fu

2.39 2.81 k

2.81 2.91 e ke

2.91 3.04 f

3.04 3.09 u fu

3.09 3.23 k

3.23 3.38 uen kuen

3.38 3.44 n

3.44 3.6 an nan

3.60 3.98 sil sil

其中第一列示出了音节的发音开始时刻、声母的发音开始时刻和韵母的发音开始时刻，第二列示出了音节的发音结束时刻、声母的发音结束时刻和韵母的发音结束时刻，sil代表静音段，为本领域假设的一种音节。

步骤103：根据所述基频值序列，所述能量值序列和所述音节边界信息抽取每一个音节对应的基频值序列和能量值序列，并计算每一个音节的韵律特征。例如，步骤101中提取的语音信号的基频值序列对应着一句话，而一句话由多个音节连接而成，一个音节的基频值序列实际上就是步骤301中提取的语音信号的基频值序列中相应的一部分，可以根据音节边界信息抽取该相应的一部分基频值序列；一个音节对应的能量值序列也适用同样的方法。

计算每一个音节的韵律特征的过程具体如下：

假设语音序列中第i个音节对应的基频值序列为：

对应的能量值序列为：

第i-1个音节对应的基频值序列为

第i+1个音节对应的基频值序列为：

则将当前音节对应的基频值序列均匀地分为三部分，并得到如下所述的韵律特征：

Cur1：为基频值序列前一部分的均值，如下所示：

Cur 1 = \frac{Σ_{k = 1}^{N / 3} p_{k}^{i}}{N / 3}

Cur2：为基频值序列中间部分的均值，如下所示：

Cur 2 \frac{Σ_{k = 1 + N / 3}^{2 N / 3} p_{k}^{i}}{N / 3}

Cur3：为基频值序列后一部分的均值，如下所示：

Cur 3 = \frac{Σ_{k = 1 + 2 N / 3}^{N} p_{k}^{i}}{N / 3}

Mean：为整个音节对应的基频值序列的均值，如下所示：

Mean = \frac{Σ_{k = 1}^{N} p_{k}^{i}}{N}

En：为当前音节对应的能量序列的均值，如下所示：

En = \frac{Σ_{k = 1}^{N} e_{k}^{i}}{N}

Dur：为当前音节的时长，由于一个音节的基频值序列/能量值序列是通过固定间隔采样语音信号而得到的，因此可以通过该音节对应的基频值序列/能量值序列中的基频值/能量值个数N来表示，如下所示：

Dur＝N

Pre3：将当前音节的前一个音节i-1对应的基频值序列均匀地分为三部分，Pre3为后一部分基频的均值，如下所示：

Pre 3 = \frac{Σ_{k = 1 + 2 M / 3}^{M} p_{k}^{i - 1}}{M / 3}

其中，M为当前音节的前一个音节i-1的基频值序列对应的基频值的个数；

Nex1：将当前音节的后一音节i+1对应的基频值序列均匀地分为三部分，Nex1为前一部分基频的均值：

Nex 1 = \frac{Σ_{k = 1}^{T / 3} p_{k}^{i + 1}}{T / 3}

其中，T为当前音节的后一个音节i+1对应的基频值序列中基频值的个数；

将以上得到的8个数值连接起来形成一个8维的矢量，即为韵律特征R，具体如下：

R＝[Cur1，Cur2，Cur3，Mean，En，Dur，Pre3，Nex1]。

步骤104：根据所述倒谱特征序列和所述音节边界信息，通过阶层式神经网络提取音节的发音方式特征，所述阶层式神经网络的结构具体如图2所示；

在图2中，该阶层式神经网络的第一层共有19个多层感知器(MultilayerPerceptron，MLP)模型，每一个多层感知器模型分别对应声母的4个类别和韵母的15个类别。其中，根据汉语声母和韵母的发音方式对声母和韵母进行分类。对于声母，共有浊音、塞音、擦音和塞擦音4个类别；对于韵母，分为单元音、复元音、复鼻尾音3大类，然后根据韵母中元音发音的特点将韵母具体分为15个类别，具体见表1。

表1：汉语中声韵母的发音方式类别

如图3所示，第一层中每一个多层感知器模型MLP的结构包括：输入层、隐含层和输出层。输入层节点的个数与所述倒谱特征序列中的一帧倒谱特征矢量的维数相同，输入层节点的输出值即为所输入的倒谱特征序列中一帧倒谱特征矢量，输出层有1个节点，隐含层的节点个数为输入层节点个数的2倍再加1。其中，语音信号的倒谱特征序列中的每一个为一个矢量，称为一帧倒谱特征矢量，且语音信号中的一个音节对应所述语音信号的倒谱特征序列中的一部分倒谱特征序列，而由于一个音节由一个声母和一个韵母构成，所以所述音节对应的一部分倒谱特征序列分别由声母和韵母对应的倒谱特征序列组成。对于每一个MLP，在训练过程中所用的样本为一帧倒谱特征矢量，而样本标签——即输出层节点的期望输出值设置如下：若该帧倒谱特征矢量所在的倒谱特征序列所对应的声母或韵母属于该MLP所对应表1中的类别，则样本标签设置为1，否则设置为0。因此，在识别过程中，输出层节点的输出值实际上就是所识别音节的每一帧倒谱特征属于该MLP所对应发音方式类别的后验概率，隐含层中节点的输出值计算公式如下：

y_{i} = f (Σ_{j = 1}^{N} x_{j} w_{ij} + w_{i})

其中，y_i为隐含层第i个节点的输出值，x_j为输入层第j个节点的输出值，w_ij为输入层第j个节点到隐含层第i个节点的权重系数，w_i为隐含层第i个节点的阈值，N为输入层的节点个数，f(·)为sigmoid函数。输出层中节点的输出值计算公式如下：

O = f (Σ_{i = 1}^{N} y_{i} w_{i} + w)

上面公式中O为输出层中节点的输出值，y_i为隐含层第i个节点的输出值，w_i为隐含层第i个节点到输出层节点的权重系数，w为输出层节点的阈值，M为隐含层节点的个数，f(·)为sigmoid函数。

第一层的多层感知器将所提取的语音信号的倒谱特征序列作为输入；对于一帧倒谱特征矢量每一个多层感知器的输出节点都得到一个输出值，这个输出者表示了这一帧倒谱特征矢量属于表1中对应类别的后验概率，即这一帧倒谱特征矢量属于表1中声母和韵母对应类别的概率，这样对于每一帧倒谱特征矢量，第一层的输出是一个19维的后验概率矢量，而对于声母或者韵母对应的倒谱特征序列，第一层的输出是一个19维的后验概率矢量序列。

第一层MLP组和第二层MLP组之间是后验概率特征矢量序列处理模块，用于处理第一层MLP组输出的后验概率矢量序列，具体为：

假设第一层MLP组输出的后验概率矢量序列为[O₁，O₂，…O_t，…O_L]，序列中的任一个后验概率矢量都是一个19维的向量：

O_{t} = [o_{1}^{t}, . . ., o_{i}^{t} . . ., o_{19}^{t}] .

首先将后验概率矢量序列分为三部分，得到三个较短的后验概率矢量序列：

其中L₁为3L/10的值然后取整数，L₂为7L/10的值然后向下取整数；

然后对每一较短的后验概率矢量序列求均值，就得到了三个19维的均匀矢量

U_{1} = [u_{1}^{1}, . . ., u_{i}^{1}, . . ., u_{19}^{1}],

U_{2} = [u_{1}^{2}, . . ., u_{i}^{2}, . . ., u_{19}^{2}],

U_{3} = [u_{1}^{3}, . . ., u_{i}^{3}, . . ., u_{19}^{3}],

其中：

u_{i}^{1} = \frac{1}{L_{1}} Σ_{k = 1}^{L_{1}} o_{i}^{k},

u_{i}^{2} = \frac{1}{L_{2} - L_{1} - 1} Σ_{k = L_{1} + 1}^{L_{2}} o_{i}^{k},

u_{i}^{3} = \frac{1}{L - L_{2} - 1} Σ_{k = L_{2} + 1}^{L} o_{i}^{k}

最后将这三个均匀矢量连接起来，再连接一维该后验概率矢量序列长度L的对数值lnL，组成一个新的特征矢量U，作为第二层中MLP的输入，共58维：

U＝[U₁，U₂，U₃，lnL]

第二层的多层感知器共有两个：MLP-1和MLP-2。MLP-1用于处理声母的倒谱特征序列经过前面步骤处理后生成的58维的特征矢量U；MLP-2用于处理韵母的倒谱特征序列经过前面步骤处理后生成的58维的特征矢量U。

MLP-1的结构包括：输入层，隐含层和输出层，输入层节点的个数为58，每一个节点对应着58维的特征矢量U中的一维特征，输入层节点的输出值即为其对应的特征值，输出层有4个节点，隐含层的节点个数为117。

MLP-1训练时所用的样本为声母的倒谱特征序列经过前面步骤处理后生成的58维的特征矢量，样本标签即输出层节点的期望输出为一个4维的数组[c₁，c₂，c₃，c₄]，数组中的4个数依次分别对应表1中声母的4个类别，若该声母属于表1中声母的第i个类别，则数组中对应的数c_i设置为1，其它数的值设为0。而在识别过程中，输出层节点的输出值实际上就是所识别音节的声母属于该节点对应声母类别的概率，MLP-1输出层4个节点的输出值就分别为样本属于表1中声母的4个发音方式类别的概率。隐含层中节点的输出值计算公式如下：

y_{i} = f (Σ_{j = 1}^{58} x_{j} w_{ij} + w_{i})

其中y_i为隐含层第i个节点的输出值，x_j为输入层第j个节点的输出值，w_ij为输入层第j个节点到隐含层第i个节点的权重系数，w_i为隐含层第i个节点的阈值，f(·)为sigmoid函数。输出层中节点的输出值计算公式如下：

O_{k} = f (Σ_{i = 1}^{117} y_{i} w_{ki} + w_{k})

其中O_k为输出层第k节点的输出值，y_i为隐含层第i个节点的输出值，w_ki为隐含层第i个节点到第k节点的权重系数，w_k为输出层节点的阈值，M为隐含层节点的个数，f(·)为sigmoid函数。

MLP-2的结构包括：输入层，隐含层和输出层，输入层节点的个数为58，每一个节点对应着58维的特征矢量U中的一维特征，输出层有15个节点，对应于表1中韵母的15个类别，隐含层的节点个数为117。MLP-2训练时所用的样本为韵母的倒谱特征序列经过前面步骤处理后生成的58维的特征矢量，样本标签即输出层节点的期望输出为一个15维的数组[c₁，c₂，…，c₁₅]，数组中的15个数依次分别对应表1中韵母的15个类别，若该韵母属于表1中韵母的第i个类别，则数组中对应的数c_i设置为1，其它数的值设为0。在识别过程中，输出层节点的输出值实际上就是所识别音节的韵母属于该节点对应韵母类别的概率，MLP-2输出层15个节点的输出值就分别为样本属于表1中韵母15个类别的概率。隐含层中节点的输出值计算公式如下：

y_{i} = f (Σ_{j = 1}^{58} x_{j} w_{kj} + w_{i})

上面公式中y_i为隐含层第i个节点的输出值，x_j为输入层第j个节点的输出值，w_ij为输入层第j个节点到隐含层第i个节点的权重系数，w_i为隐含层第i个节点的阈值，f(·)为sigmoid函数。输出层中节点的输出值计算公式如下：

O_{k} = f (Σ_{i = 1}^{117} y_{i} w_{ki} + w_{k})

上面公式中O_k为输出层第k节点的输出值，y_i为隐含层第i个节点的输出值，w_ki为隐含层第i个节点到第k节点的权重系数，w_k为输出层节点的阈值，M为隐含层节点的个数，f(·)为sigmoid函数。

提取发音方式特征的具体步骤如下：

步骤1041：根据语音信号的所述倒谱特征序列和所述音节边界信息提取每一个音节对应的倒谱特征序列，进而提取音节中声母对应的倒谱特征序列和音节中韵母对应的倒谱特征序列；

步骤1042：将声母对应的倒谱特征序列发送到上述的阶层式神经网络作为阶层式神经网络的输入，得到MLP-1输出层4个节点的输出值，即反映声母发音方式的4维声母发音方式特征；

步骤1043：将韵母对应的倒谱特征序列发送到上述的阶层式神经网络作为阶层式神经网络的输入，得到MLP-2输出层15个节点的输出值，即反映韵母发音方式的15维韵母发音方式特征；

步骤1044：将所述4维声母发音方式特征和所述15维韵母发音方式特征连接起来，得到反映整个音节发音方式的19维发音方式特征。

假设反映声母发音方式的4维声母发音方式特征为：I＝[I₁，I₂，I₃，I₄]，反映韵母发音方式的15维声母发音方式特征为：F＝[F₁，…，F_i，…F₁₅]，将I和F连接起来，得到19维发音方式特征：A＝[I，F]＝[I₁，I₂，I₃，I₄，F₁，…，F_i，…F₁₅]

步骤105：根据所述韵律特征和所述发音方式特征通过下述的多层感知器模型判断所述语音信号中音节的声调类型。

多层感知器模型包括输入层、隐含层和输出层。输入层节点的个数为27，用于接收韵律特征R和发音方式特征A，其中前8个节点依次用于接收韵律特征R中的8维特征值，后19个节点用于接收发音方式特征中的19维特征值。输出层有5个节点，依次对应轻声和汉语的4种声调：一声，二声，三声和四声，每一个节点的输出值即为当前音节的声调属于该节点对应声调类型的后验概率，隐含层的节点个数为55。多层感知器训练时所用的样本为音节的韵律特征R和发音方式特征A组成的一维数组[R，A]，样本标签即输出层节点的期望输出为一个5维的数组[c₁，c₂，c₃，c₄，c₅]，数组中的5个数依次分别对应轻声和汉语的4种声调：一声，二声，三声和四声，若该音节的声调属于那个类别，则数组中对应的数ci设置为1，其它数的值设为0。隐含层中节点的输出值计算公式如下：隐含层中的节点用于接收输入层中各节点输入的特征值，然后根据对应的权重系数和阈值计算该节点的输出值，输出值计算公式就是下面的公式：

y_{i} = f (Σ_{j = 1}^{27} x_{j} w_{kj} + w_{i})

上面公式中y_i为隐含层第i个节点的输出值，x_j为输入层第j个节点的输出值，w_ij为输入层第j个节点到隐含层第i个节点的权重系数，w_i为隐含层第i个节点的阈值，f(·)为sigmoid函数(同注释26)。输出层中节点的输出值计算公式如下：

O_{k} = f (Σ_{i = 1}^{55} y_{i} w_{ki} + w_{k})

上面公式中O_k为输出层第k节点的输出值，y_i为隐含层第i个节点的输出值，w_ki为隐含层第i个节点到第k节点的权重系数，w_k为输出层节点的阈值，M为隐含层节点的个数。

判断声调类型的具体步骤如下：

步骤1051：将音节的8维韵律特征R和19维发音方式特征A连接起来，形成27维的特征矢量Fea＝[R，A]；

步骤1052：将所述27维的特征矢量作为输入特征发送到上述的多层感知器模型，从而得到多层感知器模型输出层5个节点的输出值：[T₀，T₁，T₂，T₃，T₄]；该5个节点的输出值分别对应当前音节属于上述5种声调类型的后验概率。步骤1053：比较所述5个输出值，找出最大值：

i = {Max}_{i = 0}^{4} (T_{i})

音节的声调为输出值最大的输出节点i对应的声调类型。本方案与以前的方案最大的区别在于识别音节的声调时不仅利用了音节的韵律信息，还利用了音节的发音方式信息。体现在具体的方案中就是识别声调所用的特征不仅包含8维的韵律特征，还包含了19维的发音方式特征。因此与以前方案有两点不同：一是加入发音方式特征提取的步骤；二是判别声调所用的多层感知器的输入层和隐含层的节点数更多，原因是加入了发音方式特征。

本发明首先提取整个句子的倒谱特征，基频特征和能量特征，在生成携带音节边界信息的语音序列后，对该语句中的每一个音节，提取该音节的韵律特征和发音方式特征，然后根据该音节的韵律特征和发音方式特征判断该音节的声调。当只用韵律特征来识别声调时，识别204句话中所有音节的声调，准确率为74.21％；而韵律特征和发音方式特征共同用于声调识别时，由于考虑到了发音方式对声调类型的影响，识别的准确率上升到76.35％。发音方式特征被提取出来作为韵律特征的补充，同韵律特征一起用于汉语声调的识别，能够提高了汉语声调识别的精度。

上述方法中，倒谱特征序列可以为梅尔频率倒谱系数(Mel-FrequencyCeptral Coefficients，MFCC)及其一阶差分和二阶差分组成的序列。其中，梅尔频率倒谱系数为一个12维向量，其一阶差分和二阶差分也为12维向量，则倒谱特征序列中的一帧倒谱特征矢量则为由梅尔频率倒谱系数及其一阶差分和二阶差分组成的36维向量。因此，在提取发音方式特征时，MLP的输入节点为36个。

获取携带音节边界信息的语音序列所用的倒谱特征为基于人耳听觉原理提取出的梅尔频率倒谱系数及其一阶差分和二阶差分，这使得获取的音节边界信息更加准确，而且根据梅尔频率倒谱系数及其一阶差分和二阶差分和所述音节边界信息提取的发音特征也更精确地代表发音方式的信息。通过这种方式提取的发音方式特征用于声调的识别能够更好地提高识别的准确率，识别的准确率从76.35％上升到78.76％。

上述方法中，发音方式特征包括发音动作特征，发音器官位置特征和发音器官形状特征。其中，在表1中，对应声母的4中发音类型主要体现了发音动作，韵母的15中发音类别既体现了发音器官位置又体现发音器官形状。即MLP-1输出的4维特征为发音动作特征，MLP-2输出的15维特征既是发音器官位置特征又是发音器官形状特征。发音动作特征可以是描述发音时声带是否振动，鼻腔是否开启等信息的参量；发音器官位置特征是描述发元音时舌头在口腔中位置信息的参量；发音器官形状特征是描述发音时描述唇部形状信息的参量。所述发音动作特征，所述发音器官位置特征和所述发音器官形状特征能够更为详细和精确地描述人发音时的发音方式信息，将这三种特征同韵律特征一起用于汉语声调的识别，能够进一步提高汉语声调识别的精度。对240句话中的音节进行声调识别时，准确率达到了80.61％。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种汉语声调识别方法，其具体包括以下步骤：

步骤2、根据所述倒谱特征生成携带音节边界信息的语音序列；其中，所述音节边界信息包括音节发音开始时刻和音节发音结束时刻，以及音节中的声母和韵母的发音开始时刻和发音结束时刻；

2.根据权利要求1所述的汉语声调识别方法，其特征在于：步骤3中计算韵律特征的过程具体如下：

语音信号中第i个音节对应的基频值序列为：

对应的能量值序列为：

第i-1个音节对应的基频值序列为

第i+1个音节对应的基频值序列为：

则将当前音节对应的基频值序列均匀地分为三部分，并得到如下所述的8个韵律特征：

Cur1：为基频值序列前一部分的均值，如下所示：

Cur 1 = \frac{Σ_{k = 1}^{N / 3} p_{k}^{i}}{N / 3}

Cur2：为基频值序列中间部分的均值，如下所示：

Cur 2 \frac{Σ_{k = 1 + N / 3}^{2 N / 3} p_{k}^{i}}{N / 3}

Cur3：为基频值序列后一部分的均值，如下所示：

Cur 3 = \frac{Σ_{k = 1 + 2 N / 3}^{N} p_{k}^{i}}{N / 3}

Mean：为整个音节对应的基频值序列的均值，如下所示：

Mean = \frac{Σ_{k = 1}^{N} p_{k}^{i}}{N}

En：为当前音节对应的能量值序列的均值，如下所示：

En = \frac{Σ_{k = 1}^{N} e_{k}^{i}}{N}

Dur：为当前音节的时长；如下所示：

Dur＝N

Pre 3 = \frac{Σ_{k = 1 + 2 M / 3}^{M} p_{k}^{i - 1}}{M / 3}

其中，M为所述前一个音节i-1的时长；

Nex 1 = \frac{Σ_{k = 1}^{T / 3} p_{k}^{i + 1}}{T / 3}

其中，T为所述后一个音节i+1的时长。

3.根据权利要求1所述的汉语声调识别方法，其特征在于：所述步骤4中根据所述倒谱特征和所述音节边界信息提取音节的发音方式特征的具体步骤如下：

步骤41、根据语音信号的所述倒谱特征和所述音节边界信息提取每一个音节对应的倒谱特征，进而提取该音节的声母和韵母分别对应的倒谱特征；

步骤42、将所述声母对应的倒谱特征和韵母对应的倒谱特征通过阶层式神经网络，得到反映声母发音方式的声母发音方式特征和反映韵母发音方式的韵母发音方式特征；

所述声母发音方式特征和所述韵母发音方式特征即为音节的发音方式特征。

4.根据权利要求3所述的汉语声调识别方法，其特征在于：声母对应多个声母类别，韵母对应多个韵母类别；所述阶层式神经网络分为两层，第一层包括多个第一多层感知器模型，每一个第一多层感知器模型分别对应多个声母类别和多个韵母类别中的一个；第二层包括两个第二多层感知器模型，分别为声母多层感知器模型和韵母多层感知器模型；其中所述第一多层感知器模型、声母多层感知器模型和韵母多层感知器模型均是经过相应样本训练的；步骤42进一步包括：

将所提取的声母对应的倒谱特征分别输入到所述多个第一多层感知器模型中，由所述每一个第一多层感知器模型计算得到所述声母对应的倒谱特征的每一帧属于该第一多层感知器对应的声母或韵母类别的第一后验概率；

所述声母多层感知器模型根据所述第一后验概率计算得到所述声母发音方式特征；

将所提取的韵母对应的倒谱特征分别输入到所述多个第一多层感知器模型中，由所述每一个第一多层感知器模型计算得到所述韵母对应的倒谱特征的每一帧属于该第一多层感知器对应的声母韵母类别的第二后验概率；

所述韵母多层感知器模型根据所述第二后验概率计算得到所述韵母发音方式特征。

5.根据权利要求4所述的汉语声调识别方法，其特征在于：所述声母对应4种声母类别，所述韵母对应15种韵母类别；所述对应声母类别的第一多层感知器模型包括4个多层感知器模型，所述对应韵母类别的多层感知器模型包括15个多层感知器模型；所述声母对应的倒谱特征和韵母对应的倒谱特征为倒谱特征序列，所述倒谱特征序列中的每一个为一帧倒谱特征。

6.根据权利要求5所述的汉语声调识别方法，其特征在于：所述阶层式神经网络还包括后验概率特征矢量序列处理模块，其用于接收针对每一帧倒谱特征产生的所述第一后验概率矢量序列和所述第二后验概率矢量序列，并分别计算所述第一后验概率矢量序列的均值和所述第二后验概率矢量序列的均值；所述声母多层感知器模型和所述韵母多层感知器模型分别根据所述均值得到声母发音方式特征和韵母发音方式特征。

7.根据权利要求1所述的汉语声调识别方法，其特征在于：步骤5中根据所述韵律特征和所述发音方式特征判断所述语音信号中每一音节的声调类型具体包括：

步骤51、将所述韵律特征和发音方式特征输入第三多层感知器模型，由所述第三多层感知器模型经过处理得到5个输出值，所述5个输出值分别对应当前音节属于多种声调类型中的一种的后验概率；

步骤52、比较上述5个输出值，找出最大值，则当前音节的声调为所述最大值对应的声调类别；

其中，所述第三多层感知器模型是通过样本训练过的。

8.根据权利要求1所述的汉语声调识别方法，其特征在于：所述倒谱特征为梅尔频率倒谱系数及其一阶差分和二阶差分。

9.根据权利要求1所述的汉语声调识别方法，其特征在于：所述发音方式特征包括发音动作特征、发音器官位置特征和发音器官形状特征。

10.一种汉语声调识别系统，其包括：

根据所述倒谱特征生成携带音节边界信息的语音序列的装置；其中，所述音节边界信息包括音节发音开始时刻和音节发音结束时刻，以及音节中的声母和韵母的发音开始时刻和发音结束时刻；