CN107492373B

CN107492373B - 基于特征融合的声调识别方法

Info

Publication number: CN107492373B
Application number: CN201710939527.4A
Authority: CN
Inventors: 晁浩; 刘永利; 鲁保云; 智慧来; 刘志中
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2020-11-27
Anticipated expiration: 2037-10-11
Also published as: CN107492373A

Abstract

本发明公开了一种基于特征融合的声调识别方法。该方法包括如下步骤：提取待识别语音信号中每一帧的倒谱特征矢量，得到倒谱特征矢量序列；获取待识别语音信号的韵律特征矢量；根据倒谱特征矢量序列计算待识别语音信号中每一帧的段统计量特征矢量，得到段统计量特征矢量序列；将倒谱特征矢量序列、韵律特征矢量和段统计量特征矢量序列输入到预先训练好的反馈神经网络模型，得到每一种声调的总识别得分，并将总识别得分最高的声调判定为所述待识别语音信号的声调类型。

Description

基于特征融合的声调识别方法

技术领域

本发明涉及语音识别领域，特别涉及一种基于特征融合的声调识别方法。

背景技术

声调是汉语音节的重要组成部分，人们不仅要凭借不同的声母、韵母来辨别字和词的意义，还需要以不同的声调来区分它们。在汉语语音识别系统中，如果能获得准确的声调信息将会有效地提高识别系统的性能。语音识别解码时，声调模型是作为声学模型的补充而提供区分性信息，也就是即纠正声学模型在解码时产生的错误，这就要求声调识别的精度必须足够高。

目前声调识别时最常用的特征为体现整个音节基频轮廓信息的韵律特征。除了韵律特征外，还有一些声调识别方法使用了基于帧的谱特征。其中，韵律特征是基于整个音节提取出来的，时间单元较大，不能获取语音信号中较为细节的信息。基于帧的谱特征时间单元较小，以便于分析，但帧与帧之间设定为相互独立的，因此会缺失上下文信息。同时使用韵律特征和谱特征可以一定程度上避免两种特征的缺陷。但是由于韵律特征和谱特征的时间单元不同，实际很难同时用于声调建模。

发明内容

本发明的目的在于针对现有技术中的汉语声调方法只使用一种时间单元特征的缺陷，提出一种基于多特征融合的声调识别方法，能够有效地集成不同时间单元的多粒度声调特征进行声调识别，从而提高识别精度。

本发明公开了一种基于特征融合的声调识别方法，其具体包括以下步骤：

步骤1、提取待识别语音信号中每一帧的倒谱特征矢量，得到倒谱特征矢量序列；

步骤2、获取所述待识别语音信号的韵律特征矢量；

步骤3、根据所述倒谱特征矢量序列计算所述待识别语音信号中每一帧的段统计量特征矢量，得到段统计量特征矢量序列；

步骤4、将所述倒谱特征矢量序列、所述韵律特征矢量和所述段统计量特征矢量序列输入到预先训练好的反馈神经网络模型，得到每一种声调的总识别得分，并将总识别得分最高的声调判定为所述待识别语音信号的声调类型。

上述技术方案中，步骤1-3分别提取了基于帧的短时倒谱特征、基于音节的长时韵律特征，基于语音段的中时统计量特征。上述三种特征分别从不同角度描述了声调类型的显著性信息，在声调识别时具有互补作用，能够提高识别精度。然而，它们的时间单元并不一致，很难同时用于声调建模。步骤4中采用了反馈神经网络模型用于声调识别，有效地解决了上述三种特征同时用于声调建模时其时间单元不一致的难题。

附图说明

图1是根据本发明的一种基于特征融合的声调识别方法的流程图；

图2是根据本发明的一个反馈神经网络模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为根据本发明的一种基于特征融合的声调识别方法的流程图。其中，待识别语音信号对应一个音节，音节的边界信息可以通过语音识别系统的强制对齐得到。

如图1所示，所述基于特征融合的声调识别方法包括如下步骤：

步骤101、提取待识别语音信号中每一帧的倒谱特征矢量，得到倒谱特征矢量序列；其中，每一帧的倒谱特征矢量采用12维的梅尔频率倒谱系数；

步骤102、获取待识别语音信号的韵律特征矢量；其中，所述韵律特征矢量有9个分量，具体包含5维基频轮廓参数特征，3维能量特征和1维时长特征；

步骤103、根据倒谱特征矢量序列计算待识别语音信号中每一帧的段统计量特征矢量，得到段统计量特征矢量序列；

步骤104、将倒谱特征矢量序列、韵律特征矢量和段统计量特征矢量序列输入到预先训练好的反馈神经网络模型，得到每一种声调的总识别得分，并将总识别得分最高的声调判定为所述待识别语音信号的声调类型。

在步骤103中，根据倒谱特征矢量序列计算待识别语音信号中每一帧的段统计量特征矢量，具体步骤包括：

步骤1031、获取第i帧前后特定时间范围[i-m,i+m]的语音段，并提取所述语音段对应的局部倒谱特征矢量序列f(i-m),f(i-m+1),…,f(i),…,f(i+m)；其中f(i)表示第i帧的梅尔频率倒谱系数矢量；

步骤1032、计算局部倒谱特征矢量序列f(i-m),f(i-m+1),…,f(i),…,f(i+m)中每一维的11个统计特征；所述11个统计特征包括：最大值、最小值、最大值所在位置、最小值所在位置、范围、几何平均数、算术平均数、平方平均数、方差、标准差、偏斜度；其中，计算每一维的11个统计特征的具体过程如下：

将局部倒谱特征矢量序列f(i-m),f(i-m+1),…,f(i),…,f(i+m)中每一个矢量的第k个分量提取出来，形成一个有序集合

然后计算该集合的所述11个统计特征,其中f_i ^k表示倒谱特征矢量f(i)的第k个分量；

步骤1033、将所有12维的统计特征连接起来，形成第i帧的段统计量特征矢量s(i)，所述段统计量特征矢量s(i)共有132个分量。

在步骤104中，所述预先训练好的反馈神经网络模型的结构如图2所示：

在图2中，该反馈神经网络模型包含第一输入层、第二输入层、记忆层、第一隐含层、第二隐含层和输出层。第一输入层包含了144个节点，用于接收所述倒谱特征矢量序列中当前帧t的倒谱特征矢量f(t)和当前帧t的段统计量特征矢量s(t)，其中倒谱特征矢量f(t)拥有12个分量，段统计量特征矢量s(t)拥有132个分量，分别对应第一输入层的144个节点；第二输入层包含了9个节点，用于接收韵律特征矢量p；第一隐含层和第二隐含层分别包含了50个节点；记忆层包含了50个节点；输出层包含5个节点，分别对应4种汉语声调和轻声。其中，连接第一输入层到第一隐含层的权值矩阵为W¹；连接记忆层到第一隐含层的权值矩阵为W⁴；连接第一隐含层到第二隐含层的权值矩阵为W²；连接第二输入层到第二隐含层的权值矩阵为W⁵；连接第二隐含层到输出层的权值矩阵为W³。

第一隐含层中节点的输出值通过下面公式得到：

x_i(t)＝f(V_i(t))

其中，x_i(t)表示第一隐含层中第i个节点的输出值，i的取值范围是[1,50]，第一隐含层50个节点的输出值组成了第一隐含层的输出值矢量x(t)；f(·)表示Sigmoid函数，V_i(t)表示所述第一隐含层中第i个节点的输入值，V_i(t)具体为所述第一隐含层的输入值矢量V(t)的第i个分量，所述输入值矢量V(t)通过如下公式得到：

V(t)＝W¹(f(t)^T,s(t)^T)^T+W⁴x_c(t)

其中，W¹是一个50×144的矩阵，(f(t)^T,s(t)^T)^T表示所述倒谱特征矢量f(t)和所述段统计量特征矢量s(t)相连接形成的新矢量，该新矢量维数为144，W⁴是一个50×50的矩阵，x_c(t)表示当前帧t时记忆层的值，x_c(t)具体通过下面公式得到：

x_c(t)＝x(t-1)

其中，x(t-1)表示第t-1帧时第一隐含层的输出值矢量，维数为50；

第二隐含层中节点的输出值通过下面公式得到：

z_j(t)＝f(T_j(t))

其中，z_j(t)表示所述第二隐含层中第j个节点的输出值，j的取值范围是[1,50]，第二隐含层50个节点的输出值组成了第二隐含层的输出值矢量z(t)；T_j(t)表示所述第二隐含层中第j个节点的输入值，T_j(t)具体为所述第二隐含层的输入值矢量T(t)的第j个分量，所述输入值矢量T(t)具体通过如下公式得到：

T(t)＝W²x(t)+W⁵p

其中，W²是一个50×50的矩阵，W⁵是一个50×9矩阵；

所述输出层中节点的输出值通过下面公式得到：

y_k(t)＝f(L_k(t))

其中，y_k(t)表示所述输出层中第k个节点的输出值，k的取值范围是[1,5]，输出层5个节点的输出值组成了输出层的输出值矢量y(t)，输出层5个节点的输出值分别是5种声调在第t帧的帧识别得分；L_k(t)表示所述输出层中第k个节点的输入值，L_k(t)具体为所述输出层的输入值矢量L(t)的第k个分量，所述输入值矢量L(t)具体通过如下公式得到：

L(t)＝W³z(t)

其中，W³是一个5×50的矩阵。

步骤104的具体步骤包含：

步骤1041：将倒谱特征矢量序列和段统计量特征矢量序列按照时序输入到所述第一输入层，将韵律特征矢量输入到所述第二输入层，计算每一帧的输出值矢量；其中，每一帧的输出值矢量计算过程具体如下：

将该帧的倒谱特征矢量和段统计量特征矢量输入到反馈神经网络模型的第一输入层，将韵律特征矢量p输入到反馈神经网络模型的第二输入层，然后计算反馈神经网络模型的输出层的输出值矢量，所述输出层的输出值矢量即是该帧的输出值矢量；

步骤1042：根据每一帧的输出值矢量确定每一种声调在每一帧的帧识别得分；

步骤1043：将每一种声调在每一帧的帧识别得分相加，得到每一种声调的总识别得分；

步骤1044：将总识别得分最高的声调判定为待识别语音信号的声调类型。

上述技术方案中，步骤101-103分别提取了基于帧的短时倒谱特征、基于音节的长时韵律特征，基于语音段的中时统计量特征。上述三种特征分别从不同角度描述了声调类型的显著性信息，在声调识别时具有互补作用，能够提高识别精度。然而，它们的时间单元并不一致，很难同时用于声调建模。步骤4中采用的反馈神经网络模型拥有两个输入层，第一输入层用于接收短时倒谱特征和中时统计量特征，与第一隐含层连接；第二输入层用于接收长时韵律特征，与第二隐含层连接；此外，还通过记忆层来获取上一帧的相关数据。具有上述结构的反馈神经网络能够有效地解决上述三种特征同时用于声调建模时其时间单元不一致的难题，既保留了韵律特性的表达，又加强了上下文对声调识别的作用，实现多层级信息的融合。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征融合的声调识别方法，其特征在于包括如下步骤：

步骤2、获取所述待识别语音信号的韵律特征矢量；

步骤4、将所述倒谱特征矢量序列、所述韵律特征矢量和所述段统计量特征矢量序列输入到预先训练好的反馈神经网络模型，得到每一种声调的总识别得分，并将总识别得分最高的声调判定为所述待识别语音信号的声调类型；

所述步骤3中，根据所述倒谱特征矢量序列计算所述待识别语音信号中每一帧的段统计量特征矢量，得到段统计量特征矢量序列，具体步骤包括：

步骤31、获取该帧前后特定时间范围内的语音段，并提取所述语音段对应的局部倒谱特征矢量序列；

步骤32、计算所述局部倒谱特征矢量序列中每一维的统计特征；

步骤33、将所有维的统计特征连接起来，形成该帧的段统计量特征矢量；

所述步骤1中，待识别语音信号对应一个音节，倒谱特征矢量为梅尔频率倒谱系数；

所述步骤2中，韵律特征矢量包含基频曲线特征、时长特征和能量特征；

所述步骤32中，统计特征包括：最大值、最小值、最大值所在位置、最小值所在位置、范围、几何平均数、算术平均数、平方平均数、方差、标准差、偏斜度；

所述步骤4中，反馈神经网络模型包含第一输入层、第二输入层、记忆层、第一隐含层、第二隐含层和输出层；其中，所述第一输入层用于接收所述倒谱特征矢量序列和所述段统计量特征矢量序列；所述第二输入层用于接收所述韵律特征矢量；

所述步骤4的具体步骤包含：

步骤41：将所述倒谱特征矢量序列和所述段统计量特征矢量序列按照时序输入到所述第一输入层，将所述韵律特征矢量输入到所述第二输入层，计算每一帧的输出值矢量；

步骤42：根据每一帧的输出值矢量确定每一种声调在每一帧的帧识别得分；

步骤43：将每一种声调在每一帧的帧识别得分相加，得到每一种声调的总识别得分；

步骤44：将总识别得分最高的声调判定为所述待识别语音信号的声调类型；

所述步骤41中，所述每一帧的输出值矢量具体通过下面公式得到：

y_k(t)＝f(L_k(t))

其中，t表示第t帧，y_k(t)表示所述输出层中第k个节点的输出值，所述输出层中所有节点的输出值构成了第t帧的输出值矢量y(t)；f(·)表示sigmoid函数，L_k(t)表示所述输出层中第k个节点的输入值，所述输出层中所有节点的输入值构成了所述输出层的输入值矢量L(t)，所述L(t)具体通过如下公式得到：

L(t)＝W³z(t)

其中，W³表示连接第二隐含层到输出层的权值矩阵，z(t)表示所述第二隐含层的输出值矢量,所述z(t)的第j个分量z_j(t)表示所述第二隐含层中第j个节点的输出值，所述z_j(t)通过下面公式得到：

z_j(t)＝f(T_j(t))

其中，T_j(t)表示所述第二隐含层中第j个节点的输入值，所述第二隐含层中所有节点的输入值构成了所述第二隐含层的输入值矢量T(t)，所述T(t)具体通过如下公式得到：

T(t)＝W²x(t)+W⁵p

其中，W²表示连接第一隐含层到第二隐含层的权值矩阵，W⁵表示连接第二输入层到第二隐含层的权值矩阵，p表示所述韵律特征矢量，x(t)表示所述第一隐含层的输出值矢量，所述x(t)的第i个分量x_i(t)表示所述第一隐含层中第i个节点的输出值，所述x_i(t)通过下面公式得到：

x_i(t)＝f(V_i(t))

其中，V_i(t)表示所述第一隐含层中第i个节点的输入值，所述第一隐含层中所有节点的输入值构成了所述第一隐含层的输入值矢量V(t)，所述V(t)通过如下公式得到：

V(t)＝W¹(f(t)^T,s(t)^T)^T+W⁴x_c(t)

其中，W¹表示连接第一输入层到第一隐含层的权值矩阵，(f(t)^T,s(t)^T)^T表示第t帧的倒谱特征矢量f(t)和段统计量特征矢量s(t)相连接形成的新矢量，W⁴表示连接记忆层到第一隐含层的权值矩阵，x_c(t)表示第t帧时所述记忆层的值，x_c(t)具体通过下面公式得到：

xc(t)＝x(t-1)

其中，x(t-1)表示第t-1帧时所述第一隐含层的输出值矢量。

2.根据权利要求1所述的基于特征融合的声调识别方法，其特征在于所述步骤41之前还包括：

步骤40：将第1帧时所述记忆层的值x_c(1)设置为初始值。