CN109410917A - 基于改进型胶囊网络的语音数据分类方法 - Google Patents

基于改进型胶囊网络的语音数据分类方法 Download PDF

Info

Publication number
CN109410917A
CN109410917A CN201811123791.1A CN201811123791A CN109410917A CN 109410917 A CN109410917 A CN 109410917A CN 201811123791 A CN201811123791 A CN 201811123791A CN 109410917 A CN109410917 A CN 109410917A
Authority
CN
China
Prior art keywords
capsule
tensor
advanced
network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811123791.1A
Other languages
English (en)
Other versions
CN109410917B (zh
Inventor
徐宁
倪亚南
刘小峰
潘安顺
刘妍妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201811123791.1A priority Critical patent/CN109410917B/zh
Publication of CN109410917A publication Critical patent/CN109410917A/zh
Application granted granted Critical
Publication of CN109410917B publication Critical patent/CN109410917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于改进型胶囊网络的语音数据分类方法,首先在训练阶段,构造胶囊网络的编码器,对初始语音音素数据进行编码得到初级胶囊;构造胶囊网络的动态路由结构,将初级胶囊中的信息传递给高级胶囊;以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率;然后构造胶囊网络的解码器,将真实音素符号对应的高级胶囊进行解码重构;基于总损失函数对胶囊网络的参数进行优化;在测试阶段,将初始语音音素数据输入胶囊网络的编码器中,判断待测试数据的所属类别。本发明实现对语音音素的时序信号所对应的音速符号的精准识别,解决按照理论知识直接提取的特征准确度低、语音数据分类效果差以及过拟合的技术问题。

Description

基于改进型胶囊网络的语音数据分类方法
技术领域
本发明属于分类处理及深度学习技术领域,具体涉及一种基于改进型胶囊网络的语音数据分类方法。
背景技术
语音数据是现代信息数据的重要处理内容,每一帧语音数据都可以用特征参数来描绘,比如共振峰有关参数,即一帧语音数据的共振峰频率(第一维)、带宽(第二维)、能量频谱倾斜(第三维)等,以上是基于研究人员经验积累、按照理论知识直接提取出来的多维特征。然而这样的工作计算量非常大,并且需要大量的尝试以及创新。近几年崛起的深度学习方法集特征提取和特征的分类于一体,具有非常强大的特征自组织以及特征抽象能力,能够帮助研究人员减轻在语音数据特征的设计上投入的时间和精力。卷积神经网络目前已经在图像的分类识别方面取得了巨大的成就,但是由于语音数据和图像数据存在一定的差异,卷积神经网络并不适合直接处理语音数据。
发明内容
本发明的目的在于,提出一种基于改进型胶囊网络的语音数据分类方法,实现对语音音素的时序信号所对应的音速符号的精准识别,解决现有技术中按照理论知识直接提取的语音特征准确度低、语音数据分类效果差以及过拟合的技术问题。
本发明采用如下技术方案,一种基于改进型胶囊网络的语音数据分类方法,具体包括:
训练阶段:
1)构造胶囊网络的编码器,具体为,
11)利用神经网络的前向传播算法对初始语音音素数据进行编码,得到初级胶囊;
12)构造胶囊网络的动态路由结构,将初级胶囊中的信息传递给高级胶囊;
13)以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率;
2)构造胶囊网络的解码器,将真实音素符号对应的高级胶囊进行解码重构;
3)基于预设的损失函数得到总损失,对胶囊网络的参数进行优化,最小化总损失;
测试阶段:
4)将待测试的初始语音音素数据输入胶囊网络的编码器中,根据所有高级胶囊长度的softmax激活值判断待测试的初始语音音素数据的所属类别。
优选地,所述初始语音音素数据是通过原始语音数据经过预处理得到,具体包括以下步骤:
A.对原始语音进行带通滤波平滑处理,去除毛刺噪声点;
B.对滤波后的语音信号进行分帧处理;
C.对分帧后的每一帧语音信号进行特征提取,选取w个特征作为每一帧的w维特征向量;
D.对每一帧的w维特征向量进行归一化处理得到初始语音音素数据,即将每一帧的w维特征向量按维度除以一个归一化因子,所述归一化因子是一个w维向量l_norm。
优选地,所述步骤11)中所述编码方法具体为全连接网络的编码、二维卷积网络的编码或者混合型编码。
优选地,所述步骤11)利用混合型编码得到初级胶囊的具体步骤为:
111)初始语音音素数据经过一个全连接层连接到具有m1个单元的隐藏层h1,经过激活函数sigmoid作用得到隐藏层h1的输出数据z1
112)将隐藏层h1的输出数据z1重塑为一个三维张量input1,即m2个b1*b1大小的特征图谱,通过卷积核大小为k1*k1的二维卷积层连接到具有m3个b2*b2大小的特征图谱的隐藏层h2,经过激活函数sigmoid作用得到隐藏层h2的输出z2
113)将隐藏层h2的输出数据z2重塑成n1*pri_len大小的二维张量,代表n1个初级胶囊,张量矩阵的每一行代表一个初级胶囊pri_cap,每个初级胶囊的维度是pri_len;
114)将每个初级胶囊按照如下公式进行squash归一化处理。
优选地,所述步骤12)构造胶囊网络的动态路由结构,将初级胶囊的信息传递给高级胶囊,高级胶囊的个数即为预定的分类类别数目,动态路由结构采用路由迭代,迭代次数为预设值,具体步骤为:
121)将n1个维度为pri_len的初级胶囊复制n2份得到一个n1*n2*pri_len*1的张量tile_pri_cap,n2为预设的高级胶囊数目,基于张量的矩阵乘法得到中间张量p,具体公式如下:
p=W·tile_pri_cap
其中W是一个形如n1*n2*wn*pri_len的权值张量,wn为高级胶囊维度,·代表张量的矩阵乘法,即执行n1*n2次wn*pri_len与pri_len*1的矩阵相乘,p是形如n1*n2*wn*1的动态路由的中间张量,其中W是可迭代更新的参数;
122)进行动态路由的迭代,根据softmax规则归一化张量B的每一行得到激活后的耦合系数张量C,耦合系数张量C中的Cij代表中间张量p中第i个初级胶囊的信息分配到第j个高级胶囊的比例,初次迭代时,张量B为形如n1*n2的全零张量;
将激活后的耦合系数张量C根据张量乘法乘以中间张量p,具体公式如下:
S=multiply(C,p)
其中multiply代表p中的n1*n2个wn维向量按对应位置乘以C中的n1*n2个耦合系数,S是形如n1*n2*wn*1的媒介张量,代表经过耦合系数进行初级胶囊和高级胶囊之间信息传递后的中间信息媒介;
123)将媒介张量S按照第一维度进行求和操作并且保留维度,将第一个维度轴上的n1个数字相加,得到n2个维度是wn的高级胶囊,再使用squash函数对高级胶囊进行归一化处理,得到形如1*n2*wn的张量,如果本次迭代为最后一次动态路由的迭代,则输出归一化后的高级胶囊pho_cap,进入步骤13);如果本次迭代不是最后一次迭代,则进入步骤124);
124)将归一化后的高级胶囊pho_cap按照第一个维度复制n1份,n1为初级胶囊个数,得到形如n1*n2*wn的张量v_j,将张量v_j扩增维度得到形如n1*n2*1*wn的张量,按张量的矩阵乘法计算张量v_j与中间张量p的乘积得到形如n1*n2*1的张量胶囊的相似性度量矩阵,将相似性度量矩阵张量按元素对应加到张量B上,至此完成一次动态路由的迭代过程,进入步骤122);
优选地,所述步骤2)构造胶囊网络的解码器,将真实音素符号对应的高级胶囊进行解码重构具体步骤为:
21)将非真实音素符号对应的高级胶囊中的数据置零,并将n2个维度wn为高级胶囊的数据重塑成n2*wn维度的向量v_pho_cap;
22)将向量v_pho_cap经过包括隐藏层de_fc1和隐藏层de_fc2的全连接层,以全连接的方式连接到输出维度为w的解码器输出层,w为初始语音音素数据的维度,解码出的重构数据与初始语音音素数据具有相同的数据格式。
优选地,所述步骤3)基于预设的损失函数得到总损失,对胶囊网络的参数进行优化,最小化总损失,具体步骤如下:
31)采用解码器输出的重构数据与初始语音音素数据之间距离的平方差作为重构损失L_r;
32)根据所有高级胶囊的长度得到分类损失L_c,分类损失表示高级胶囊的长度与期望值阈值的差距,计算公式如下:
其中k是预测音素符号,Tk是一个分类标签指示函数,当k指向真实音素符号时,Tk为1,||pho_capk||表示预测音素符号k对应的归一化后的高级胶囊的长度,m+和m-分别为归一化后的单个高级胶囊长度的上下限值,max函数表示取两个数值中较大的一个,即当真实音素符号对应的高级胶囊长度超过上限,则该高级胶囊的分类损失忽略,非真实音素符号对应的高级胶囊长度低于下限时,则该高级胶囊的分类损失忽略,λ为非真实音素符号对应的分类损失之和的缩放系数;
33)总损失函数L_t=L_c+η·L_r,其中η是用于调整分类损失和重构损失在总损失中的比重的比例系数,采用自适应矩估计法对总损失函数进行优化,即根据链式求导以及反向传播法则求出总损失函数对胶囊网络中每一个可更新参数的导数,进而最小化总损失,优化胶囊网络。
优选地,所述步骤33)中最小化总损失具体为:采用小批量的梯度下降法,在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值;使用自适应矩估计法对胶囊网络中所有可更新参数进行求导,并使用梯度下降法对每个小批量训练数据更新胶囊网络中的可更新参数
发明所达到的有益效果:本发明是一种基于改进型胶囊网络的语音数据分类方法,实现对语音音素的时序信号所对应的音速符号的精准识别,解决现有技术中按照理论知识直接提取的特征准确度低、语音数据分类效果差以及过拟合的技术问题。本发明提取出频域系数等多个维度的特征表征的语音音素数据,颗粒度精细到每一帧,可以对每一帧的音素进行识别,具有较高的实时性;语音数据输入胶囊网络后,经过卷积层以及动态路由,可以得到表征所要求的类别的高级胶囊向量,根据各个高级胶囊的长度的softmax激活值可以判断出输入数据属于各个类别的概率;在训练阶段根据高级胶囊解码重构出输入数据,大大增强了所提取的高级胶囊对输入数据表征能力的置信度。
附图说明
图1为本发明一种实施例的基于改进型胶囊网络的语音数据分类方法流程图;
图2为本发明一种实施例中胶囊网络整体架构中的编码器架构示意图;
图3为本发明一种实施例中胶囊网络整体架构中的解码器架构示意图;
图4为本发明一种实施例中的squash函数示意图。
具体实施方式
下面根据附图并结合实施例对本发明的技术方案作进一步阐述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
图1为本发明一种实施例的基于改进型胶囊网络的语音数据分类方法流程图。
基于改进型胶囊网络的语音数据分类方法,具体步骤如下:
训练阶段:
1)构造胶囊网络的编码器,如图2所示,具体为,
11)利用神经网络的前向传播算法对初始语音音素数据进行编码,得到初级胶囊;具体的公式为:
pri_cap=forward(input0)
其中,pri_cap表示编码后的初级胶囊向量,forward表示编码过程,input0表示初始语音音素数据,即编码器部分的输入数据;
12)构造胶囊网络的动态路由结构,将初级胶囊中的信息传递给高级胶囊;
13)以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率;
2)构造胶囊网络的解码器,将真实音素符号对应的高级胶囊进行解码重构;
3)基于预设的损失函数得到总损失,对胶囊网络的参数进行优化,最小化总损失;
测试阶段:
4)将待测试的初始语音音素数据输入胶囊网络的编码器中,根据所有高级胶囊长度的softmax激活值判断待测试的初始语音音素数据的所属类别。
所述初始语音音素数据是通过原始语音数据经过预处理得到,具体包括以下步骤:
A.对原始语音进行带通滤波平滑处理,去除毛刺噪声点,公式如下:
sp=filtera,b(sr)
其中,sp表示滤波后的语音信号,sr表示未经处理的原始语音数据,filtera,b为滤波操作,频率的通带为aHz-bHz;
B.对滤波后的语音信号进行分帧处理;本实施例按照20ms级别的颗粒度对滤波后的语音信号进行分帧处理,即每一帧的时间长度是20ms,本实施例中使用的数据的采样频率是16000Hz,所以每一帧包含320个采样点;
C.对分帧后的每一帧语音信号进行特征提取,选取w个特征作为每一帧的w维特征向量;本实施例中通过傅里叶变换计算每一帧的基音频率、共振峰频率、能量频谱倾斜以及带宽等构成w个维度作为每一帧的特征,去除无关频率成分的影响,w为25;
D.对每一帧的w维(25维)特征向量进行归一化处理得到初始语音音素数据,即将每一帧的w维特征向量按维度除以一个归一化因子,所述归一化因子是一个w维(25维)向量l_norm。将语音信号的特征按各个维度将数值归一化到0-1之间,能够加速分类模型的收敛性能。
所述步骤11)中所述编码方法具体为全连接网络的编码、二维卷积网络的编码或者混合型编码。
所述步骤11)利用混合型编码得到初级胶囊的具体步骤为:
111)初始语音音素数据input0(归一化的w维(25维)特征向量)经过一个全连接层连接到具有m1个单元的隐藏层h1,本实施例中m1为1600;全连接层的权重为en_w1,偏置为en_b1,则隐藏层h1的输入为a1=input0·en_w1+en_b1,其中·为矩阵乘法,经过激活函数sigmoid作用得到隐藏层h1的输出数据z1=sigmoid(a1),a1为一个向量,sigmoid函数映射关系作用于向量的每一个元素上,本实施例中a1的维度为1600。en_w1和en_b1均为可迭代更新的参数。
112)将隐藏层h1的输出数据z1重塑为一个三维张量input1,即m2个b1*b1大小的特征图谱,本实施例中b1*b1为5*5,m2为64,可通过第三方软件实现重塑,通过卷积核大小为k1*k1的二维卷积层连接到具有m3个b2*b2大小的特征图谱的隐藏层h2;本实施例中m3为256,b2为3;卷积层的权重为en_w2,偏置为en_b2,且卷积核大小k1*k1为3*3,隐藏层h2的输入为a2=input1*en_w2+en_b2,其中*为矩阵二维卷积,经过激活函数sigmoid作用得到隐藏层h2的输出z2=sigmoid(a2),本实施例中,a2的大小为3*3*256。en_w2和en_b2均为可迭代更新的参数。
113)将隐藏层h2的输出数据z2重塑成n1*pri_len大小的二维张量,代表n1个初级胶囊,张量矩阵的每一行代表一个初级胶囊pri_cap,每个初级胶囊的维度是pri_len;本实施例中二维张量的大小为288*8,即n1个(288)初级胶囊,每个初级胶囊是元素个数为8(维度)的一个向量。
114)将每个初级胶囊按照如下公式进行squash归一化处理。
squash归一化函数的曲线如图4所示,该函数能将长度较短的胶囊迅速压缩到接近于0的长度,将长度较长的胶囊压缩到接近于1的长度。
所述步骤12)构造胶囊网络的动态路由结构,将初级胶囊的信息传递给高级胶囊,高级胶囊的个数即为预定的分类类别数目,所有初级胶囊根据动态路由计算出n2个高级胶囊的向量表示,本实施例中n2为10,动态路由结构采用路由迭代,迭代次数为预设值,本实施例中迭代次数为3次,每一次迭代过程产生更能耦合高级胶囊以及初级胶囊的耦合系数,具体步骤为:
121)将n1个维度为pri_len的初级胶囊复制n2份(10份)得到一个n1*n2*pri_len*1(即288*10*8*1)的张量tile_pri_cap,n2为预设的高级胶囊数目,基于张量的矩阵乘法得到中间张量p,具体公式如下:
p=W·tile_pri_cap
其中W是一个形如n1*n2*wn*pri_len(即288*10*16*8)的权值张量,wn为高级胶囊维度,本实施例中为16维,·代表张量的矩阵乘法,即执行n1*n2(即288*10)次wn*pri_len(即16*8)与pri_len*1(即8*1)的矩阵相乘,p是形如n1*n2*wn*1(即288*10*16*1)的动态路由的中间张量,其中W是可迭代更新的参数;
122)进行动态路由的迭代,根据柔性最大值softmax规则归一化张量B的每一行得到激活后的耦合系数张量C,耦合系数张量C决定了每个初级胶囊的信息传递到每个高级胶囊的比例,耦合系数张量C中的Cij代表中间张量p中第i个初级胶囊的信息分配到第j个高级胶囊的比例,初次迭代时,张量B为形如n1*n2(即288*10)的全零张量;
将激活后的耦合系数张量C根据张量乘法乘以中间张量p,具体公式如下:
S=multiply(C,p)
其中multiply代表p中的n1*n2个(即288*10个)wn维(16维)向量按对应位置乘以C中的n1*n2个(即288*10个)耦合系数,S是形如n1*n2*wn*1(即288*10*16*1)的媒介张量,代表经过耦合系数进行初级胶囊和高级胶囊之间信息传递后的中间信息媒介;
123)将媒介张量S按照第一维度进行求和操作并且保留维度,将第一个维度轴上的n1个(288个)数字相加,得到n2个(10个)维度是wn(即16)的高级胶囊,再使用squash函数对高级胶囊进行归一化处理,得到形如1*n2*wn(即1*10*16)的张量,如果本次迭代为最后一次动态路由的迭代(本实施例中即第三次迭代),则输出归一化后的高级胶囊pho_cap,进入步骤13);如果本次迭代不是最后一次迭代,则进入步骤124);
124)将归一化后的高级胶囊pho_cap按照第一个维度复制n1份(288份),n1为初级胶囊个数,得到形如n1*n2*wn(即288*10*16)的张量v_j,将张量v_j扩增维度得到形如n1*n2*1*wn(即288*10*1*16)的张量,按张量的矩阵乘法计算张量v_j与中间张量p的乘积得到形如n1*n2*1的张量胶囊的相似性度量矩阵(即是进行了288*10次1*16的矩阵与16*1的矩阵的相乘运算),将相似性度量矩阵张量按元素对应加到张量B上,至此完成一次动态路由的迭代过程,进入步骤122);
所述步骤2)构造胶囊网络的解码器,解码器使用堆叠的三层全连接网络构成,将真实音素符号对应的高级胶囊进行解码重构具体步骤为:
21)为了屏蔽无效信息的干扰,将非真实音素符号对应的高级胶囊中的数据置零,并将n2个维度wn为高级胶囊的数据重塑成n2*wn维度的向量v_pho_cap;本实施例中为10*16维度的向量v_pho_cap;
22)将向量v_pho_cap经过包括隐藏层de_fc1和隐藏层de_fc2的全连接层,隐藏层de_fc1的单元数量为m4,隐藏层de_fc2的单元数量为m5,本实施例中m4、m5分别为128和64,以全连接的方式连接到输出维度为w(即25)的解码器输出层,w为初始语音音素数据的维度,解码出的重构数据与初始语音音素数据具有相同的数据格式。
所述步骤3)基于预设的损失函数得到总损失,对胶囊网络的参数进行优化,最小化总损失,具体步骤如下:
31)采用解码器输出的重构数据与初始语音音素数据之间距离的平方差作为重构损失L_r;重构损失指示了解码器输出与输入的误差,具体公式如下:
sd=decode(pho_cap)
L_r=(sd-input0)2
其中sd表示根据高级胶囊pho_cap解码重构出的数据,decode表示解码器的解码过程,input0表示初始语音音素数据。
32)根据所有高级胶囊的长度得到分类损失L_c,分类损失表示高级胶囊的长度与期望值阈值的差距,计算公式如下:
其中k是预测音素符号,Tk是一个分类标签指示函数,当k指向真实音素符号时,Tk为1,||pho_capk||表示预测音素符号k对应的归一化后的高级胶囊的长度,m+和m-分别为归一化后的单个高级胶囊长度的上下限值,max函数表示取两个数值中较大的一个,即当真实音素符号对应的高级胶囊长度超过上限,则该高级胶囊的分类损失忽略,非真实音素符号对应的高级胶囊长度低于下限时,则该高级胶囊的分类损失忽略,λ为非真实音素符号对应的分类损失之和的缩放系数;
33)总损失函数L_t=L_c+η·L_r,其中η是用于调整分类损失和重构损失在总损失中的比重的比例系数,采用自适应矩估计法对总损失函数进行优化,即根据链式求导以及反向传播法则求出总损失函数对胶囊网络中每一个可更新参数的导数,进而最小化总损失,优化胶囊网络。
所述步骤33)中最小化总损失具体为:采用小批量的梯度下降法,在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值;使用自适应矩估计法对胶囊网络中所有可更新参数进行求导,并使用梯度下降法对每个小批量训练数据更新胶囊网络中的可更新参数。本实施例中自适应矩估计法的学习率设定为0.001,本实施例的分类方法能够收敛到较优的解,训练时间长短由具体的训练数据大小决定,一般设定训练数据中每个样本都被计算50次后停止训练。
在训练完后,参数都已固定,在测试阶段不需要再计算胶囊对于真实音素符号的损失,故将计算损失函数的部分以及解码重构部分截断去除,直接根据所有高级胶囊长度的softmax激活值来判断输入语音数据的所属类别。
采用数据集Arctic对本发明的分类方法进行测试,该数据集采集了两名发音标准的受试者共2264个句子的音频文件,其中音频文件的采样频率是16kHz,2264个句子一共包含了40个类别的音素。为测试本发明在不同分类复杂度下的性能构建了四种测试场景:场景一中分类的音素对象是l和n,共两类;场景二中分类的音素对象是er,ey和eh,共三类;场景一中分类的音素对象是ao,ae,ax和ah,共四类;场景四中分类的音素对象是b,d,f,g,k,l,n,p,r和s,共十类。具体测试场景如表1所示,测试结果如表2所示。
表1四种测试场景
采集对象人数 采样频率 句子数 音素对象
场景一 男1女1 16kHz 2264 l,n
场景二 男1女1 16kHz 2264 er,ey,eh
场景三 男1女1 16kHz 2264 ao,ae,ax,ah
场景四 男1女1 16kHz 2264 b,d,f,g,k,l,n,p,r,s
表2四种测试场景中的测试结果
采用对音素符号的分类的正确率作为评价指标,正确率的计算分为训练阶段和测试阶段,训练正确率表体现了本发明对训练数据的所对应真实音素符号的预测准确率,测试正确率体现本发明对新数据的泛化能力。
由上表可知,本发明提出的分类方法对所有训练数据都具有完美的拟合能力,即使是对于从未被该分类方法接触过的测试数据也具有良好的泛化能力。
本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此,如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.基于改进型胶囊网络的语音数据分类方法,其特征在于,包括以下步骤:
训练阶段:
1)构造胶囊网络的编码器,具体为,
11)利用神经网络的前向传播算法对初始语音音素数据进行编码,得到初级胶囊;
12)构造胶囊网络的动态路由结构,将初级胶囊中的信息传递给高级胶囊;
13)以每个高级胶囊的长度的softmax激活值表征初始语音音素数据属于对应类别的概率;
2)构造胶囊网络的解码器,将真实音素符号对应的高级胶囊进行解码重构;
3)基于预设的损失函数得到总损失,对胶囊网络的参数进行优化,最小化总损失;
测试阶段:
4)将待测试的初始语音音素数据输入胶囊网络的编码器中,根据所有高级胶囊长度的softmax激活值判断待测试的初始语音音素数据的所属类别。
2.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述初始语音音素数据是通过原始语音数据经过预处理得到,具体包括以下步骤:
A.对原始语音进行带通滤波平滑处理,去除毛刺噪声点;
B.对滤波后的语音信号进行分帧处理;
C.对分帧后的每一帧语音信号进行特征提取,选取w个特征作为每一帧的w维特征向量;
D.对每一帧的w维特征向量进行归一化处理得到初始语音音素数据,即将每一帧的w维特征向量按维度除以一个归一化因子,所述归一化因子是一个w维向量l_norm。
3.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述步骤11)中所述编码方法具体为全连接网络的编码、二维卷积网络的编码或者混合型编码。
4.根据权利要求3所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述步骤11)利用混合型编码得到初级胶囊的具体步骤为:
111)初始语音音素数据经过一个全连接层连接到具有m1个单元的隐藏层h1,经过激活函数sigmoid作用得到隐藏层h1的输出数据z1
112)将隐藏层h1的输出数据z1重塑为一个三维张量input1,即m2个b1*b1大小的特征图谱,通过卷积核大小为k1*k1的二维卷积层连接到具有m3个b2*b2大小的特征图谱的隐藏层h2,经过激活函数sigmoid作用得到隐藏层h2的输出z2
113)将隐藏层h2的输出数据z2重塑成n1*pri_len大小的二维张量,代表n1个初级胶囊,张量矩阵的每一行代表一个初级胶囊pri_cap,每个初级胶囊的维度是pri_len;
114)将每个初级胶囊按照如下公式进行squash归一化处理。
5.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述步骤12)构造胶囊网络的动态路由结构,将初级胶囊的信息传递给高级胶囊,高级胶囊的个数即为预定的分类类别数目,动态路由结构采用路由迭代,迭代次数为预设值,具体步骤为:
121)将n1个维度为pri_len的初级胶囊复制n2份得到一个n1*n2*pri_len*1的张量tile_pri_cap,n2为预设的高级胶囊数目,基于张量的矩阵乘法得到中间张量p,具体公式如下:
p=W·tile_pri_cap
其中W是一个形如n1*n2*wn*pri_len的权值张量,wn为高级胶囊维度,·代表张量的矩阵乘法,即执行n1*n2次wn*pri_len与pri_len*1的矩阵相乘,p是形如n1*n2*wn*1的动态路由的中间张量,其中W是可迭代更新的参数;
122)进行动态路由的迭代,根据softmax规则归一化张量B的每一行得到激活后的耦合系数张量C,耦合系数张量C中的Cij代表中间张量p中第i个初级胶囊的信息分配到第j个高级胶囊的比例,初次迭代时,张量B为形如n1*n2的全零张量;
将激活后的耦合系数张量C根据张量乘法乘以中间张量p,具体公式如下:
S=multiply(C,p)
其中multiply代表p中的n1*n2个wn维向量按对应位置乘以C中的n1*n2个耦合系数,S是形如n1*n2*wn*1的媒介张量,代表经过耦合系数进行初级胶囊和高级胶囊之间信息传递后的中间信息媒介;
123)将媒介张量S按照第一维度进行求和操作并且保留维度,将第一个维度轴上的n1个数字相加,得到n2个维度是wn的高级胶囊,再使用squash函数对高级胶囊进行归一化处理,得到形如1*n2*wn的张量,如果本次迭代为最后一次动态路由的迭代,则输出归一化后的高级胶囊pho_cap,进入步骤13);如果本次迭代不是最后一次迭代,则进入步骤124);
124)将归一化后的高级胶囊pho_cap按照第一个维度复制n1份,n1为初级胶囊个数,得到形如n1*n2*wn的张量v_j,将张量v_j扩增维度得到形如n1*n2*1*wn的张量,按张量的矩阵乘法计算张量v_j与中间张量p的乘积得到形如n1*n2*1的张量胶囊的相似性度量矩阵,将相似性度量矩阵张量按元素对应加到张量B上,至此完成一次动态路由的迭代过程,进入步骤122)。
6.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述步骤2)构造胶囊网络的解码器,将真实音素符号对应的高级胶囊进行解码重构具体步骤为:
21)将非真实音素符号对应的高级胶囊中的数据置零,并将n2个维度wn为高级胶囊的数据重塑成n2*wn维度的向量v_pho_cap;
22)将向量v_pho_cap经过包括隐藏层de_fc1和隐藏层de_fc2的全连接层,以全连接的方式连接到输出维度为w的解码器输出层,w为初始语音音素数据的维度,解码出的重构数据与初始语音音素数据具有相同的数据格式。
7.根据权利要求1所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述步骤3)基于预设的损失函数得到总损失,对胶囊网络的参数进行优化,最小化总损失,具体步骤如下:
31)采用解码器输出的重构数据与初始语音音素数据之间距离的平方差作为重构损失L_r;
32)根据所有高级胶囊的长度得到分类损失L_c,分类损失表示高级胶囊的长度与期望值阈值的差距,计算公式如下:
其中k是预测音素符号,Tk是一个分类标签指示函数,当k指向真实音素符号时,Tk为1,||pho_capk||表示预测音素符号k对应的归一化后的高级胶囊的长度,m+和m-分别为归一化后的单个高级胶囊长度的上下限值,max函数表示取两个数值中较大的一个,即当真实音素符号对应的高级胶囊长度超过上限,则该高级胶囊的分类损失忽略,非真实音素符号对应的高级胶囊长度低于下限时,则该高级胶囊的分类损失忽略,λ为非真实音素符号对应的分类损失之和的缩放系数;
33)总损失函数L_t=L_c+η·L_r,其中η是用于调整分类损失和重构损失在总损失中的比重的比例系数,采用自适应矩估计法对总损失函数进行优化,即根据链式求导以及反向传播法则求出总损失函数对胶囊网络中每一个可更新参数的导数,进而最小化总损失,优化胶囊网络。
8.根据权利要求7所述的基于改进型胶囊网络的语音数据分类方法,其特征在于,所述步骤33)中最小化总损失具体为:采用小批量的梯度下降法,在训练时每次前向计算的总损失为小批量数据中所有输入数据对应的总损失的平均值;使用自适应矩估计法对胶囊网络中所有可更新参数进行求导,并使用梯度下降法对每个小批量训练数据更新胶囊网络中的可更新参数。
CN201811123791.1A 2018-09-26 2018-09-26 基于改进型胶囊网络的语音数据分类方法 Active CN109410917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811123791.1A CN109410917B (zh) 2018-09-26 2018-09-26 基于改进型胶囊网络的语音数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811123791.1A CN109410917B (zh) 2018-09-26 2018-09-26 基于改进型胶囊网络的语音数据分类方法

Publications (2)

Publication Number Publication Date
CN109410917A true CN109410917A (zh) 2019-03-01
CN109410917B CN109410917B (zh) 2021-11-16

Family

ID=65465264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811123791.1A Active CN109410917B (zh) 2018-09-26 2018-09-26 基于改进型胶囊网络的语音数据分类方法

Country Status (1)

Country Link
CN (1) CN109410917B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046671A (zh) * 2019-04-24 2019-07-23 吉林大学 一种基于胶囊网络的文本分类方法
CN110059730A (zh) * 2019-03-27 2019-07-26 天津大学 一种基于胶囊网络的甲状腺结节超声图像分类方法
CN110120224A (zh) * 2019-05-10 2019-08-13 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110288555A (zh) * 2019-07-02 2019-09-27 桂林电子科技大学 一种基于改进的胶囊网络的低照度增强方法
CN110390942A (zh) * 2019-06-28 2019-10-29 平安科技(深圳)有限公司 基于婴儿哭声的情绪检测方法及其装置
CN110428843A (zh) * 2019-03-11 2019-11-08 杭州雄迈信息技术有限公司 一种语音性别识别深度学习方法
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110781304A (zh) * 2019-10-29 2020-02-11 云境商务智能研究院南京有限公司 一种利用单词信息聚类的句子编码方法
CN110968729A (zh) * 2019-11-21 2020-04-07 浙江树人学院(浙江树人大学) 一种基于加性间距胶囊网络的家庭活动声音事件分类方法
CN111222646A (zh) * 2019-12-11 2020-06-02 深圳逻辑汇科技有限公司 联邦学习机制的设计方法、装置和存储介质
CN111460818A (zh) * 2020-03-31 2020-07-28 中国测绘科学研究院 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN111528832A (zh) * 2020-05-28 2020-08-14 四川大学华西医院 一种心律失常分类方法及其有效性验证方法
CN112562725A (zh) * 2020-12-09 2021-03-26 山西财经大学 基于语谱图和胶囊网络的混合语音情感分类方法
CN112599134A (zh) * 2020-12-02 2021-04-02 国网安徽省电力有限公司 一种基于声纹识别的变压器声音事件检测方法
CN113159831A (zh) * 2021-03-24 2021-07-23 湖南大学 一种基于改进的胶囊网络的评论文本情感分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN107358946A (zh) * 2017-06-08 2017-11-17 南京邮电大学 基于切片卷积的语音情感识别方法
CN108550375A (zh) * 2018-03-14 2018-09-18 鲁东大学 一种基于语音信号的情感识别方法、装置和计算机设备
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN107358946A (zh) * 2017-06-08 2017-11-17 南京邮电大学 基于切片卷积的语音情感识别方法
CN108550375A (zh) * 2018-03-14 2018-09-18 鲁东大学 一种基于语音信号的情感识别方法、装置和计算机设备
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428843A (zh) * 2019-03-11 2019-11-08 杭州雄迈信息技术有限公司 一种语音性别识别深度学习方法
CN110428843B (zh) * 2019-03-11 2021-09-07 杭州巨峰科技有限公司 一种语音性别识别深度学习方法
CN110059730A (zh) * 2019-03-27 2019-07-26 天津大学 一种基于胶囊网络的甲状腺结节超声图像分类方法
CN110046671A (zh) * 2019-04-24 2019-07-23 吉林大学 一种基于胶囊网络的文本分类方法
CN110120224A (zh) * 2019-05-10 2019-08-13 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110120224B (zh) * 2019-05-10 2023-01-20 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110390942A (zh) * 2019-06-28 2019-10-29 平安科技(深圳)有限公司 基于婴儿哭声的情绪检测方法及其装置
CN110288555A (zh) * 2019-07-02 2019-09-27 桂林电子科技大学 一种基于改进的胶囊网络的低照度增强方法
CN110288555B (zh) * 2019-07-02 2022-08-02 桂林电子科技大学 一种基于改进的胶囊网络的低照度增强方法
WO2021000498A1 (zh) * 2019-07-04 2021-01-07 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110444202B (zh) * 2019-07-04 2023-05-26 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110781304A (zh) * 2019-10-29 2020-02-11 云境商务智能研究院南京有限公司 一种利用单词信息聚类的句子编码方法
CN110968729A (zh) * 2019-11-21 2020-04-07 浙江树人学院(浙江树人大学) 一种基于加性间距胶囊网络的家庭活动声音事件分类方法
CN110968729B (zh) * 2019-11-21 2022-05-17 浙江树人学院(浙江树人大学) 一种基于加性间距胶囊网络的家庭活动声音事件分类方法
CN111222646A (zh) * 2019-12-11 2020-06-02 深圳逻辑汇科技有限公司 联邦学习机制的设计方法、装置和存储介质
CN111460818A (zh) * 2020-03-31 2020-07-28 中国测绘科学研究院 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN111528832B (zh) * 2020-05-28 2023-04-18 四川大学华西医院 一种心律失常分类方法及其有效性验证方法
CN111528832A (zh) * 2020-05-28 2020-08-14 四川大学华西医院 一种心律失常分类方法及其有效性验证方法
CN112599134A (zh) * 2020-12-02 2021-04-02 国网安徽省电力有限公司 一种基于声纹识别的变压器声音事件检测方法
CN112562725A (zh) * 2020-12-09 2021-03-26 山西财经大学 基于语谱图和胶囊网络的混合语音情感分类方法
CN113159831A (zh) * 2021-03-24 2021-07-23 湖南大学 一种基于改进的胶囊网络的评论文本情感分析方法

Also Published As

Publication number Publication date
CN109410917B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN109410917A (zh) 基于改进型胶囊网络的语音数据分类方法
CN112364779B (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN107680611B (zh) 基于卷积神经网络的单通道声音分离方法
CN110751044B (zh) 基于深度网络迁移特征与增广自编码的城市噪声识别方法
CN106847309A (zh) 一种语音情感识别方法
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112216271B (zh) 一种基于卷积块注意机制的视听双模态语音识别方法
CN110490230A (zh) 基于深度卷积生成对抗网络的水声目标识别方法
CN111966827B (zh) 基于异构二部图的对话情感分析方法
CN106682606A (zh) 一种人脸确认方法及安全认证装置
CN115100574A (zh) 基于融合图卷积网络与Transformer网络的动作识别方法及系统
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN112990296A (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN115203442B (zh) 基于联合注意力的跨模态深度哈希检索方法、系统及介质
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN111460097B (zh) 一种基于tpn的小样本文本分类方法
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN116110405A (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN113488060A (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
Zhiyan et al. Speech emotion recognition based on deep learning and kernel nonlinear PSVM
CN114387997A (zh) 一种基于深度学习的语音情感识别方法
CN109741733B (zh) 基于一致性路由网络的语音音素识别方法
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
CN117219124A (zh) 一种基于深度神经网络的开关柜声纹故障检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant