CN109410917A

CN109410917A - 基于改进型胶囊网络的语音数据分类方法

Info

Publication number: CN109410917A
Application number: CN201811123791.1A
Authority: CN
Inventors: 徐宁; 倪亚南; 刘小峰; 潘安顺; 刘妍妍
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2019-03-01
Anticipated expiration: 2038-09-26
Also published as: CN109410917B

Abstract

本发明公开了一种基于改进型胶囊网络的语音数据分类方法，首先在训练阶段，构造胶囊网络的编码器，对初始语音音素数据进行编码得到初级胶囊；构造胶囊网络的动态路由结构，将初级胶囊中的信息传递给高级胶囊；以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率；然后构造胶囊网络的解码器，将真实音素符号对应的高级胶囊进行解码重构；基于总损失函数对胶囊网络的参数进行优化；在测试阶段，将初始语音音素数据输入胶囊网络的编码器中，判断待测试数据的所属类别。本发明实现对语音音素的时序信号所对应的音速符号的精准识别，解决按照理论知识直接提取的特征准确度低、语音数据分类效果差以及过拟合的技术问题。

Description

基于改进型胶囊网络的语音数据分类方法

技术领域

本发明属于分类处理及深度学习技术领域，具体涉及一种基于改进型胶囊网络的语音数据分类方法。

背景技术

语音数据是现代信息数据的重要处理内容，每一帧语音数据都可以用特征参数来描绘，比如共振峰有关参数，即一帧语音数据的共振峰频率(第一维)、带宽(第二维)、能量频谱倾斜(第三维)等，以上是基于研究人员经验积累、按照理论知识直接提取出来的多维特征。然而这样的工作计算量非常大，并且需要大量的尝试以及创新。近几年崛起的深度学习方法集特征提取和特征的分类于一体，具有非常强大的特征自组织以及特征抽象能力，能够帮助研究人员减轻在语音数据特征的设计上投入的时间和精力。卷积神经网络目前已经在图像的分类识别方面取得了巨大的成就，但是由于语音数据和图像数据存在一定的差异，卷积神经网络并不适合直接处理语音数据。

发明内容

本发明的目的在于，提出一种基于改进型胶囊网络的语音数据分类方法，实现对语音音素的时序信号所对应的音速符号的精准识别，解决现有技术中按照理论知识直接提取的语音特征准确度低、语音数据分类效果差以及过拟合的技术问题。

本发明采用如下技术方案，一种基于改进型胶囊网络的语音数据分类方法，具体包括：

训练阶段：

1)构造胶囊网络的编码器，具体为，

11)利用神经网络的前向传播算法对初始语音音素数据进行编码，得到初级胶囊；

12)构造胶囊网络的动态路由结构，将初级胶囊中的信息传递给高级胶囊；

13)以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率；

2)构造胶囊网络的解码器，将真实音素符号对应的高级胶囊进行解码重构；

3)基于预设的损失函数得到总损失，对胶囊网络的参数进行优化，最小化总损失；

测试阶段：

4)将待测试的初始语音音素数据输入胶囊网络的编码器中，根据所有高级胶囊长度的softmax激活值判断待测试的初始语音音素数据的所属类别。

优选地，所述初始语音音素数据是通过原始语音数据经过预处理得到，具体包括以下步骤：

A.对原始语音进行带通滤波平滑处理，去除毛刺噪声点；

B.对滤波后的语音信号进行分帧处理；

C.对分帧后的每一帧语音信号进行特征提取，选取w个特征作为每一帧的w维特征向量；

D.对每一帧的w维特征向量进行归一化处理得到初始语音音素数据，即将每一帧的w维特征向量按维度除以一个归一化因子，所述归一化因子是一个w维向量l_norm。

优选地，所述步骤11)中所述编码方法具体为全连接网络的编码、二维卷积网络的编码或者混合型编码。

优选地，所述步骤11)利用混合型编码得到初级胶囊的具体步骤为：

111)初始语音音素数据经过一个全连接层连接到具有m₁个单元的隐藏层h₁，经过激活函数sigmoid作用得到隐藏层h₁的输出数据z₁；

112)将隐藏层h₁的输出数据z₁重塑为一个三维张量input1，即m₂个b₁*b₁大小的特征图谱，通过卷积核大小为k₁*k₁的二维卷积层连接到具有m₃个b₂*b₂大小的特征图谱的隐藏层h₂，经过激活函数sigmoid作用得到隐藏层h₂的输出z₂；

113)将隐藏层h₂的输出数据z₂重塑成n₁*pri_len大小的二维张量，代表n₁个初级胶囊，张量矩阵的每一行代表一个初级胶囊pri_cap，每个初级胶囊的维度是pri_len；

114)将每个初级胶囊按照如下公式进行squash归一化处理。

优选地，所述步骤12)构造胶囊网络的动态路由结构，将初级胶囊的信息传递给高级胶囊，高级胶囊的个数即为预定的分类类别数目，动态路由结构采用路由迭代，迭代次数为预设值，具体步骤为：

121)将n₁个维度为pri_len的初级胶囊复制n₂份得到一个n₁*n₂*pri_len*1的张量tile_pri_cap，n₂为预设的高级胶囊数目，基于张量的矩阵乘法得到中间张量p，具体公式如下：

p＝W·tile_pri_cap

其中W是一个形如n₁*n₂*w_n*pri_len的权值张量，w_n为高级胶囊维度，·代表张量的矩阵乘法，即执行n₁*n₂次w_n*pri_len与pri_len*1的矩阵相乘，p是形如n₁*n₂*w_n*1的动态路由的中间张量，其中W是可迭代更新的参数；

122)进行动态路由的迭代，根据softmax规则归一化张量B的每一行得到激活后的耦合系数张量C，耦合系数张量C中的C_ij代表中间张量p中第i个初级胶囊的信息分配到第j个高级胶囊的比例，初次迭代时，张量B为形如n₁*n₂的全零张量；

将激活后的耦合系数张量C根据张量乘法乘以中间张量p，具体公式如下：

S＝multiply(C,p)

其中multiply代表p中的n₁*n₂个w_n维向量按对应位置乘以C中的n₁*n₂个耦合系数，S是形如n₁*n₂*w_n*1的媒介张量，代表经过耦合系数进行初级胶囊和高级胶囊之间信息传递后的中间信息媒介；

123)将媒介张量S按照第一维度进行求和操作并且保留维度，将第一个维度轴上的n₁个数字相加，得到n₂个维度是w_n的高级胶囊，再使用squash函数对高级胶囊进行归一化处理，得到形如1*n₂*w_n的张量，如果本次迭代为最后一次动态路由的迭代，则输出归一化后的高级胶囊pho_cap，进入步骤13)；如果本次迭代不是最后一次迭代，则进入步骤124)；

124)将归一化后的高级胶囊pho_cap按照第一个维度复制n₁份，n₁为初级胶囊个数，得到形如n₁*n₂*w_n的张量v_j，将张量v_j扩增维度得到形如n₁*n₂*1*w_n的张量，按张量的矩阵乘法计算张量v_j与中间张量p的乘积得到形如n₁*n₂*1的张量胶囊的相似性度量矩阵，将相似性度量矩阵张量按元素对应加到张量B上，至此完成一次动态路由的迭代过程，进入步骤122)；

优选地，所述步骤2)构造胶囊网络的解码器，将真实音素符号对应的高级胶囊进行解码重构具体步骤为：

21)将非真实音素符号对应的高级胶囊中的数据置零，并将n₂个维度w_n为高级胶囊的数据重塑成n₂*w_n维度的向量v_pho_cap；

22)将向量v_pho_cap经过包括隐藏层de_fc1和隐藏层de_fc2的全连接层，以全连接的方式连接到输出维度为w的解码器输出层，w为初始语音音素数据的维度，解码出的重构数据与初始语音音素数据具有相同的数据格式。

优选地，所述步骤3)基于预设的损失函数得到总损失，对胶囊网络的参数进行优化，最小化总损失，具体步骤如下：

31)采用解码器输出的重构数据与初始语音音素数据之间距离的平方差作为重构损失L_r；

32)根据所有高级胶囊的长度得到分类损失L_c，分类损失表示高级胶囊的长度与期望值阈值的差距，计算公式如下：

其中k是预测音素符号，T_k是一个分类标签指示函数，当k指向真实音素符号时，T_k为1，||pho_cap_k||表示预测音素符号k对应的归一化后的高级胶囊的长度，m⁺和m^-分别为归一化后的单个高级胶囊长度的上下限值，max函数表示取两个数值中较大的一个，即当真实音素符号对应的高级胶囊长度超过上限，则该高级胶囊的分类损失忽略，非真实音素符号对应的高级胶囊长度低于下限时，则该高级胶囊的分类损失忽略，λ为非真实音素符号对应的分类损失之和的缩放系数；

33)总损失函数L_t＝L_c+η·L_r，其中η是用于调整分类损失和重构损失在总损失中的比重的比例系数，采用自适应矩估计法对总损失函数进行优化，即根据链式求导以及反向传播法则求出总损失函数对胶囊网络中每一个可更新参数的导数，进而最小化总损失，优化胶囊网络。

优选地，所述步骤33)中最小化总损失具体为：采用小批量的梯度下降法，在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值；使用自适应矩估计法对胶囊网络中所有可更新参数进行求导，并使用梯度下降法对每个小批量训练数据更新胶囊网络中的可更新参数

发明所达到的有益效果：本发明是一种基于改进型胶囊网络的语音数据分类方法，实现对语音音素的时序信号所对应的音速符号的精准识别，解决现有技术中按照理论知识直接提取的特征准确度低、语音数据分类效果差以及过拟合的技术问题。本发明提取出频域系数等多个维度的特征表征的语音音素数据，颗粒度精细到每一帧，可以对每一帧的音素进行识别，具有较高的实时性；语音数据输入胶囊网络后，经过卷积层以及动态路由，可以得到表征所要求的类别的高级胶囊向量，根据各个高级胶囊的长度的softmax激活值可以判断出输入数据属于各个类别的概率；在训练阶段根据高级胶囊解码重构出输入数据，大大增强了所提取的高级胶囊对输入数据表征能力的置信度。

附图说明

图1为本发明一种实施例的基于改进型胶囊网络的语音数据分类方法流程图；

图2为本发明一种实施例中胶囊网络整体架构中的编码器架构示意图；

图3为本发明一种实施例中胶囊网络整体架构中的解码器架构示意图；

图4为本发明一种实施例中的squash函数示意图。

具体实施方式

下面根据附图并结合实施例对本发明的技术方案作进一步阐述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

图1为本发明一种实施例的基于改进型胶囊网络的语音数据分类方法流程图。

基于改进型胶囊网络的语音数据分类方法，具体步骤如下：

训练阶段：

1)构造胶囊网络的编码器，如图2所示，具体为，

11)利用神经网络的前向传播算法对初始语音音素数据进行编码，得到初级胶囊；具体的公式为：

pri_cap＝forward(input0)

其中，pri_cap表示编码后的初级胶囊向量，forward表示编码过程，input0表示初始语音音素数据，即编码器部分的输入数据；

测试阶段：

所述初始语音音素数据是通过原始语音数据经过预处理得到，具体包括以下步骤：

A.对原始语音进行带通滤波平滑处理，去除毛刺噪声点，公式如下：

s_p＝filter_a,b(s_r)

其中，s_p表示滤波后的语音信号，s_r表示未经处理的原始语音数据，filter_a,b为滤波操作，频率的通带为aHz-bHz；

B.对滤波后的语音信号进行分帧处理；本实施例按照20ms级别的颗粒度对滤波后的语音信号进行分帧处理，即每一帧的时间长度是20ms，本实施例中使用的数据的采样频率是16000Hz，所以每一帧包含320个采样点；

C.对分帧后的每一帧语音信号进行特征提取，选取w个特征作为每一帧的w维特征向量；本实施例中通过傅里叶变换计算每一帧的基音频率、共振峰频率、能量频谱倾斜以及带宽等构成w个维度作为每一帧的特征，去除无关频率成分的影响，w为25；

D.对每一帧的w维(25维)特征向量进行归一化处理得到初始语音音素数据，即将每一帧的w维特征向量按维度除以一个归一化因子，所述归一化因子是一个w维(25维)向量l_norm。将语音信号的特征按各个维度将数值归一化到0-1之间，能够加速分类模型的收敛性能。

所述步骤11)中所述编码方法具体为全连接网络的编码、二维卷积网络的编码或者混合型编码。

所述步骤11)利用混合型编码得到初级胶囊的具体步骤为：

111)初始语音音素数据input0(归一化的w维(25维)特征向量)经过一个全连接层连接到具有m₁个单元的隐藏层h₁，本实施例中m₁为1600；全连接层的权重为en_w₁，偏置为en_b₁，则隐藏层h₁的输入为a₁＝input0·en_w₁+en_b₁，其中·为矩阵乘法，经过激活函数sigmoid作用得到隐藏层h₁的输出数据z₁＝sigmoid(a₁)，a₁为一个向量，sigmoid函数映射关系作用于向量的每一个元素上，本实施例中a₁的维度为1600。en_w₁和en_b₁均为可迭代更新的参数。

112)将隐藏层h₁的输出数据z₁重塑为一个三维张量input1，即m₂个b₁*b₁大小的特征图谱，本实施例中b₁*b₁为5*5，m₂为64，可通过第三方软件实现重塑，通过卷积核大小为k₁*k₁的二维卷积层连接到具有m₃个b₂*b₂大小的特征图谱的隐藏层h₂；本实施例中m₃为256，b₂为3；卷积层的权重为en_w₂，偏置为en_b₂，且卷积核大小k₁*k₁为3*3，隐藏层h₂的输入为a₂＝input1*en_w₂+en_b₂，其中*为矩阵二维卷积，经过激活函数sigmoid作用得到隐藏层h₂的输出z₂＝sigmoid(a₂)，本实施例中，a₂的大小为3*3*256。en_w₂和en_b₂均为可迭代更新的参数。

113)将隐藏层h₂的输出数据z₂重塑成n₁*pri_len大小的二维张量，代表n₁个初级胶囊，张量矩阵的每一行代表一个初级胶囊pri_cap，每个初级胶囊的维度是pri_len；本实施例中二维张量的大小为288*8，即n₁个(288)初级胶囊，每个初级胶囊是元素个数为8(维度)的一个向量。

114)将每个初级胶囊按照如下公式进行squash归一化处理。

squash归一化函数的曲线如图4所示，该函数能将长度较短的胶囊迅速压缩到接近于0的长度，将长度较长的胶囊压缩到接近于1的长度。

所述步骤12)构造胶囊网络的动态路由结构，将初级胶囊的信息传递给高级胶囊，高级胶囊的个数即为预定的分类类别数目，所有初级胶囊根据动态路由计算出n₂个高级胶囊的向量表示，本实施例中n₂为10，动态路由结构采用路由迭代，迭代次数为预设值，本实施例中迭代次数为3次，每一次迭代过程产生更能耦合高级胶囊以及初级胶囊的耦合系数，具体步骤为：

121)将n₁个维度为pri_len的初级胶囊复制n₂份(10份)得到一个n₁*n₂*pri_len*1(即288*10*8*1)的张量tile_pri_cap，n₂为预设的高级胶囊数目，基于张量的矩阵乘法得到中间张量p，具体公式如下：

p＝W·tile_pri_cap

其中W是一个形如n₁*n₂*w_n*pri_len(即288*10*16*8)的权值张量，w_n为高级胶囊维度，本实施例中为16维，·代表张量的矩阵乘法，即执行n₁*n₂(即288*10)次w_n*pri_len(即16*8)与pri_len*1(即8*1)的矩阵相乘，p是形如n₁*n₂*w_n*1(即288*10*16*1)的动态路由的中间张量，其中W是可迭代更新的参数；

122)进行动态路由的迭代，根据柔性最大值softmax规则归一化张量B的每一行得到激活后的耦合系数张量C，耦合系数张量C决定了每个初级胶囊的信息传递到每个高级胶囊的比例，耦合系数张量C中的C_ij代表中间张量p中第i个初级胶囊的信息分配到第j个高级胶囊的比例，初次迭代时，张量B为形如n₁*n₂(即288*10)的全零张量；

S＝multiply(C,p)

其中multiply代表p中的n₁*n₂个(即288*10个)w_n维(16维)向量按对应位置乘以C中的n₁*n₂个(即288*10个)耦合系数，S是形如n₁*n₂*w_n*1(即288*10*16*1)的媒介张量，代表经过耦合系数进行初级胶囊和高级胶囊之间信息传递后的中间信息媒介；

123)将媒介张量S按照第一维度进行求和操作并且保留维度，将第一个维度轴上的n₁个(288个)数字相加，得到n₂个(10个)维度是w_n(即16)的高级胶囊，再使用squash函数对高级胶囊进行归一化处理，得到形如1*n₂*w_n(即1*10*16)的张量，如果本次迭代为最后一次动态路由的迭代(本实施例中即第三次迭代)，则输出归一化后的高级胶囊pho_cap，进入步骤13)；如果本次迭代不是最后一次迭代，则进入步骤124)；

124)将归一化后的高级胶囊pho_cap按照第一个维度复制n₁份(288份)，n₁为初级胶囊个数，得到形如n₁*n₂*w_n(即288*10*16)的张量v_j，将张量v_j扩增维度得到形如n₁*n₂*1*w_n(即288*10*1*16)的张量，按张量的矩阵乘法计算张量v_j与中间张量p的乘积得到形如n₁*n₂*1的张量胶囊的相似性度量矩阵(即是进行了288*10次1*16的矩阵与16*1的矩阵的相乘运算)，将相似性度量矩阵张量按元素对应加到张量B上，至此完成一次动态路由的迭代过程，进入步骤122)；

所述步骤2)构造胶囊网络的解码器，解码器使用堆叠的三层全连接网络构成，将真实音素符号对应的高级胶囊进行解码重构具体步骤为：

21)为了屏蔽无效信息的干扰，将非真实音素符号对应的高级胶囊中的数据置零，并将n₂个维度w_n为高级胶囊的数据重塑成n₂*w_n维度的向量v_pho_cap；本实施例中为10*16维度的向量v_pho_cap；

22)将向量v_pho_cap经过包括隐藏层de_fc1和隐藏层de_fc2的全连接层，隐藏层de_fc1的单元数量为m₄，隐藏层de_fc2的单元数量为m₅，本实施例中m₄、m₅分别为128和64，以全连接的方式连接到输出维度为w(即25)的解码器输出层，w为初始语音音素数据的维度，解码出的重构数据与初始语音音素数据具有相同的数据格式。

所述步骤3)基于预设的损失函数得到总损失，对胶囊网络的参数进行优化，最小化总损失，具体步骤如下：

31)采用解码器输出的重构数据与初始语音音素数据之间距离的平方差作为重构损失L_r；重构损失指示了解码器输出与输入的误差，具体公式如下：

s_d＝decode(pho_cap)

L_r＝(s_d-input0)²

其中s_d表示根据高级胶囊pho_cap解码重构出的数据，decode表示解码器的解码过程，input0表示初始语音音素数据。

所述步骤33)中最小化总损失具体为：采用小批量的梯度下降法，在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值；使用自适应矩估计法对胶囊网络中所有可更新参数进行求导，并使用梯度下降法对每个小批量训练数据更新胶囊网络中的可更新参数。本实施例中自适应矩估计法的学习率设定为0.001，本实施例的分类方法能够收敛到较优的解，训练时间长短由具体的训练数据大小决定，一般设定训练数据中每个样本都被计算50次后停止训练。

在训练完后，参数都已固定，在测试阶段不需要再计算胶囊对于真实音素符号的损失，故将计算损失函数的部分以及解码重构部分截断去除，直接根据所有高级胶囊长度的softmax激活值来判断输入语音数据的所属类别。

采用数据集Arctic对本发明的分类方法进行测试，该数据集采集了两名发音标准的受试者共2264个句子的音频文件，其中音频文件的采样频率是16kHz,2264个句子一共包含了40个类别的音素。为测试本发明在不同分类复杂度下的性能构建了四种测试场景：场景一中分类的音素对象是l和n，共两类；场景二中分类的音素对象是er，ey和eh，共三类；场景一中分类的音素对象是ao，ae，ax和ah，共四类；场景四中分类的音素对象是b,d,f,g,k,l,n,p,r和s，共十类。具体测试场景如表1所示，测试结果如表2所示。

表1四种测试场景

	采集对象人数	采样频率	句子数	音素对象
					场景一	男1女1	16kHz	2264	l,n
场景二	男1女1	16kHz	2264	er,ey,eh
					场景三	男1女1	16kHz	2264	ao,ae,ax,ah
场景四	男1女1	16kHz	2264	b,d,f,g,k,l,n,p,r,s

表2四种测试场景中的测试结果

采用对音素符号的分类的正确率作为评价指标，正确率的计算分为训练阶段和测试阶段，训练正确率表体现了本发明对训练数据的所对应真实音素符号的预测准确率，测试正确率体现本发明对新数据的泛化能力。

由上表可知，本发明提出的分类方法对所有训练数据都具有完美的拟合能力，即使是对于从未被该分类方法接触过的测试数据也具有良好的泛化能力。

本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此，如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于改进型胶囊网络的语音数据分类方法，其特征在于，包括以下步骤：

训练阶段：

1)构造胶囊网络的编码器，具体为，

测试阶段：

2.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法，其特征在于，所述初始语音音素数据是通过原始语音数据经过预处理得到，具体包括以下步骤：

A.对原始语音进行带通滤波平滑处理，去除毛刺噪声点；

B.对滤波后的语音信号进行分帧处理；

3.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法，其特征在于，所述步骤11)中所述编码方法具体为全连接网络的编码、二维卷积网络的编码或者混合型编码。

4.根据权利要求3所述的基于改进型胶囊网络的语音数据分类方法，其特征在于，所述步骤11)利用混合型编码得到初级胶囊的具体步骤为：

114)将每个初级胶囊按照如下公式进行squash归一化处理。

5.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法，其特征在于，所述步骤12)构造胶囊网络的动态路由结构，将初级胶囊的信息传递给高级胶囊，高级胶囊的个数即为预定的分类类别数目，动态路由结构采用路由迭代，迭代次数为预设值，具体步骤为：

p＝W·tile_pri_cap

S＝multiply(C,p)

124)将归一化后的高级胶囊pho_cap按照第一个维度复制n₁份，n₁为初级胶囊个数，得到形如n₁*n₂*w_n的张量v_j，将张量v_j扩增维度得到形如n₁*n₂*1*w_n的张量，按张量的矩阵乘法计算张量v_j与中间张量p的乘积得到形如n₁*n₂*1的张量胶囊的相似性度量矩阵，将相似性度量矩阵张量按元素对应加到张量B上，至此完成一次动态路由的迭代过程，进入步骤122)。

6.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法，其特征在于，所述步骤2)构造胶囊网络的解码器，将真实音素符号对应的高级胶囊进行解码重构具体步骤为：

7.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法，其特征在于，所述步骤3)基于预设的损失函数得到总损失，对胶囊网络的参数进行优化，最小化总损失，具体步骤如下：

8.根据权利要求7所述的基于改进型胶囊网络的语音数据分类方法，其特征在于，所述步骤33)中最小化总损失具体为：采用小批量的梯度下降法，在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值；使用自适应矩估计法对胶囊网络中所有可更新参数进行求导，并使用梯度下降法对每个小批量训练数据更新胶囊网络中的可更新参数。