CN110992987A

CN110992987A - 语音信号中针对通用特定语音的并联特征提取系统及方法

Info

Publication number: CN110992987A
Application number: CN201911013504.6A
Authority: CN
Inventors: 郑纯军; 贾宁; 陈明华; 周伊佳; 张轶
Original assignee: Dalian Neusoft University of Information
Current assignee: Dalian Neusoft University of Information
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-04-10
Anticipated expiration: 2039-10-23
Also published as: CN110992987B

Abstract

本发明公开了一种语音信号中针对通用特定语音的并联特征提取系统及方法，所述模型主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型；将LLD通道得到的输出特征与语谱图、TEO通道得到的输出特征进行合并，得到1*1024维情感特征；语谱图作为输入馈入卷积神经网络CNN中，语谱图和MFCC馈入Seq2Seq中，2个通道的模型融合加入注意力机制，形成声纹识别模型；采用42维MFCC作为输入，结合BIMLSTM和Seq2Seq通道进行输出；语谱图结合Seq2Seq通道进行输出；2个通道的模型融合加入注意力机制，形成语音识别模型。本发明具有准确率高、集成度高、可自由选择方案等优点。

Description

语音信号中针对通用特定语音的并联特征提取系统及方法

技术领域

本发明涉及信号处理提取领域，尤其是一种语音任务的特征提取系统。

背景技术

语音是人类最有效、最自然也是最重要的一种通信形式，通过语音实现人与机器之间的交流，需要机器有足够的智能去识别人类的声音。伴随着机器学习、神经网络和深度学习理论的发展，语音识别相关任务的完成度在逐步提升，这对于计算机理解出语音的内容提高很大帮助。目前，语音识别任务主要涉及以下3种识别任务：

1、声纹识别

声纹识别又称为说话者识别，它是一种生物特征识别形式，是对说话人的连续语音信号经过分析处理提取离散语音特征，通过与数据库中的模板进行匹配来自动确认该语音的说话者。它关注说话人本身，而不在乎说话内容。由于人与人之间的发音器官、口音、说话节奏等存在差异，通过分析人的语音能够提取出说话人信息，从而达到识别人的身份的目的。

2、语音识别

语音识别是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用。

3、语音情感识别

传统的人机交互主要依靠键盘和鼠标，计算机只是被动地接受信息，不能主动和人进行沟通，人机之间无法进行情感通信。计算机自然无法实现自然与和谐的人机交互。情感识别可以帮助实现模拟的人与人之间蕴含情感的交流和沟通，让计算机也具备情感计算的能力。

然而，上述3中识别任务在实际应用或设计上，存在诸多缺陷或不足。例如：声纹识别、语音识别、情感识别任务模型之间不通用、输入形式不统一、没有普适的解决方案、集成准确度不高、情感识别单个任务的识别准确率不高等等。

发明内容

本发明目的在于提供一种准确率高、集成度高、可自由选择方案的语音信号中针对通用特定语音任务的并联特征提取系统。

为实现上述目的，采用了以下技术方案：本发明所述系统主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型；

所述情感识别模型如下：

语音信号通过特征提取，获得语谱图、TEO(Teager energy operator)和声学特征描述符LLD(low-level acoustic feature descriptors)；

对LLD特征进行HSF表示，获取切分后的音频文件的全局特征，采用的 HSF表示有，窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围；将HSF后的特征馈入GRU(Gated Recurrent Unit)模型中，由GRU模型学习得到了情感识别特征，输出特征为 1*512维；

采用语谱图和TEO作为卷积循环神经网络CRNN(Convolutional RecurrentNeural Network)的输入，LLD采用低级描述符和高级统计函数HSF通道的30 维特征；TEO和语谱图的特征融合后，送入CRNN中，CRNN由卷积神经网络 (Convolutional NeuralNetwork，CNN)和循环神经网络两部分构成；在CRNN 模型的情感识别特征输入注意力机制得到1*512维输出特征；

将LLD通道得到的输出特征与语谱图、TEO通道得到的输出特征进行合并，得到1*1024维情感特征。

所述声纹识别模型如下：

以语音信号为输入，通过特征提取，获得语谱图和MFCC(梅尔频率倒谱系数)；

语谱图作为输入馈入卷积神经网络CNN中，语谱图和MFCC(Mel FrequencyCepstral Coefficents，梅尔频率倒谱系数)馈入Sequence-to-Sequence(Seq2Seq) 中，2个通道的模型融合加入注意力机制，形成声纹识别模型；

所述语音识别模型如下：

以语音信号为输入，通过特征提取，获得MFCC和语谱图；

采用42维MFCC作为输入，结合BIMLSTM和Seq2Seq通道进行输出；语谱图结合Seq2Seq通道进行输出；2个通道的模型融合加入注意力机制，形成语音识别模型。

进一步的，所述语谱图是语音信号的傅里叶分析的显示图像，语谱图是一种三维频谱，表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间；获取方法如下：对于一段语音信号x(t)，首先分帧，变为x(m,n)(n为帧长，m为帧的个数)，进行快速傅立叶变换，得到X(m,n)，得到周期图Y(m,n)(Y(m,n)＝ X(m,n)*X(m,n)’)，取10*log10(Y(m,n)),把m根据时间变换刻度，得到M，n 根据频率变换刻度，得到N，(M,N,10*log10(Y(m,n)组成的二维图像，即为语谱图。

进一步的，所述TEO是一种非线性运动结构的能量算子，可以反映单个语音频率成分的特性，还能反映多个语音频率成分之间的关系。

对于连续信号X(t)，TEO描述为：

ψ[x(t)]＝(x′(t))²-x(t)x(t)ⁿ (1)

式中x'(t)＝dx(t)/dt，x(t)为连续的时域信号，对于离散信号x(n)，TEO表示为：

ψ[x(n)]＝(x²(n))-x(n-1)x(n+1)，式中x(n)是信号在n时刻的值。

求取TEO的具体过程是，对语音信号加窗分帧后求每一帧的TEO能量，计算公式如下。

其中，E_TEO是第t帧的TEO能量，τ是每帧样本数量，L为每帧的长度。

进一步的，在捕获最原始的声学特征时，需要将语音信号转换为语音特征向量，即结合低级描述符(LLD)和高级统计函数(High level Statistics Functions， HSF)，特征均可使用OpenSmile toolbox工具箱直接计算得到。

进一步的，所述的语音信号中针对通用特定语音任务的并联特征提取模型，其特征在于：所述GRU中包含更新门和重置门；GRU模型的设计公式如下：

z_t＝σ(W_z·[h_t-1，x_t]) (3)

r_t＝σ(W_r·[h_t-1，x_t]) (4)

z_t和r_t分别表示更新门和重置门。

为第t层部分隐藏层输出；

h_t为第t层全部隐藏层向量。

进一步的，卷积神经网络部分基于传统CNN网络模型，用于提取语谱图的频域特征，对于预先分段的语音，可获得每个片段的CNN学习特征；对输入图像进行卷积，分为4个步骤，即连续的2组卷积和池化操作，从而生成一组特征集合；然后进入循环神经网络部分，采用2层双向循环长短期记忆网络 (BidirectionalLongShort-TermMemory，BLSTM)网络，其中每个时间步对应于原始音频输入的一段，保留区域之间的长期依赖性，此模型输出为512维特征；

对于输入x的序列中的每个向量x_i，可以按照公式7计算注意力权重α_i，其中f(x_i)是评分函数。

注意力层的输出，即attentive_x，是输入序列的权重之和，如公式8所示。

attentive_x＝∑_iα_ix_i (8)

由此通道的模型学习得到了情感识别特征，输出特征为1*512维。

进一步的，MFCC的提取基于人耳的听觉机理，具体提取流程如下：首先进行预加重、分帧和加窗，然后，为了将时域信号转化到频域进行后续的频率分析，对每一帧语音信号x(n)进行FFT变换，接下来将计算取模的平方，从而得到能量谱，通过一组Mel尺度的三角形滤波器组，计算每个滤波器组输出的对数能量，将上诉系数做离散余弦变换(DCT)，变换最后计算得到M维的MFCC 参数(4)；详细的计算公式如公式9所示。

卷积层前后的映射关系如下。

其中，

表示第m个卷积层第j个特征图的输入，

代表卷积核，

表示偏置，*表示卷积操作，M_j表示特征图的集合，f表示激活函数。

进一步的，在语音识别模型中，将MFCC应用于3层双向LSTM(Long Short-TermMemory，长短期记忆网络)模型；LSTM采用的策略是在每个神经元内部增加：输入门、输出门和忘记门，选用误差函数反馈权重，通过忘记门决定记忆单位是否被清除，默认的LSTM结构如公式11所示。

f_t＝σ(W_f[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t) (11)

其中，W_f、W_i、

W_o是权重参数，b_f、b_i、

b_o是偏置，x_t作为输入序列，结合上一个隐藏层h_t-1的状态，通过激活函数构成忘记门f_t；输入门层i_t和输出门o_t也由x_t和h_t-1计算；忘记门f_t与前单元状态C_t-1联合以确定是否丢弃信息。

另外，本发明还提供了一种语音信号中针对通用特定语音任务的并联特征提取方法：

所述方法的输入为语音信号，输出为情感识别特征、声纹识别特征、语音识别特征；

所述情感识别特征的提取方法为：

S1-1，通过语音信号获得语谱图、非线性运动结构的能量算子TEO和声学特征描述符LLD；

S1-2，对声学特征描述符特征进行HSF表示，获取切分后的音频文件的全局特征；

S1-3，将HSF后的特征馈入GRU模型中，由GRU模型学习得到情感识别特征，输出特征为1*512维；

S1-4，采用语谱图和非线性运动结构的能量算子作为卷积循环神经网络的输入，声学特征描述符采用低级描述符和高级统计函数HSF通道的30维特征；非线性运动结构的能量算子和语谱图的特征融合后，送入卷积循环神经网络中，卷积循环神经网络由卷积神经网络和循环神经网络两部分构成；在卷积循环神经网络模型的情感识别特征输入注意力机制得到1*512维输出特征；

S1-5，将声学特征描述符通道得到的输出特征与语谱图、非线性运动结构的能量算子通道得到的输出特征进行合并，得到1*1024维情感特征；

所述声纹识别特征的提取方法为：

S2-1，提取语音信号特征作为输入，获得语谱图和梅尔频率倒谱系数MFCC；

S2-2，语谱图作为输入馈入卷积神经网络中作为一条通道；

语谱图和梅尔频率倒谱系数馈入Sequence-to-Sequence中作为另一条通道，将两条通道的模型融合加入注意力机制，形成声纹识别特征；

所述语音识别特征的提取方法为：

S3-1，提取语音信号特征作为输入，获得梅尔频率倒谱系数和语谱图；

S3-2，采用42维梅尔频率倒谱系数作为输入，结合BIMLSTM和Seq2Seq 作为一条通道进行输出；

S3-3，语谱图结合Seq2Seq作为另一条通道进行输出；

S3-4，两条通道的模型融合加入注意力机制，形成语音识别模型。

与现有技术相比，本发明具有如下优点：

1、利用原始语音信号处理模块提取的公共特征和任务的公共模型，设计多通道的网络模型，每种任务可以自主选择若干条通道，协作完成特征提取，从而实现一个输入，经历多条通路，解决多个任务。

2、利用一次性的输入，同时、分层次、客观的展示声纹识别、语音识别和情感识别的结果。

3、提升声纹识别、语音识别和情感识别的准确率。

4、每个子模型中可以自由选择不同的方案，或者采用默认的组合方法。

5、新建的语音情感语料库可以为声纹识别、语音识别和情感识别任务提供稳定、可靠的数据来源。

6、提升声纹识别、语音识别和情感识别任务的集成度。

7、在语音任务识别过程中，可交叉使用卷积循环神经网络CRNN、Seq2Seq 通道等，提高识别精确度。

附图说明

图1是本发明中的情感识别流程图。

图2是本发明中的GRU模型结构图。

图3是本发明中的CRNN网络模型图。

图4是本发明中的声纹识别流程图。

图5是本发明中的Seq2Seq模型结构图。

图6是本发明中的encoder和decoder过程图。

图7是本发明中的语音识别流程图。

具体实施方式

下面结合附图对本发明做进一步说明：

本发明所述模型主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型；

所述语谱图是语音信号的傅里叶分析的显示图像，语谱图是一种三维频谱，表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间；任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。获取方法如下：对于一段语音信号x(t)，首先分帧，变为x(m,n)(n为帧长，m为帧的个数)，进行快速傅立叶变换，得到X(m,n)，得到周期图Y(m,n)(Y(m,n)＝X(m,n)* X(m,n)’)，取10*log10(Y(m,n)),把m根据时间变换刻度，得到M，n根据频率变换刻度，得到N，(M,N,10*log10(Y(m,n)组成的二维图像，即为语谱图。语谱图是语音时频可视化的表示，包含大量语音信息。采用二维平面表达三维信息，能量值通过颜色来表示的，颜色深，表示该点的语音能量强。当人们利用语速快慢、语调高低等方式来表达不同情感时，语谱图会表现出明显的差异性。将独立的音频文件转换为语谱图,以20*512长度为一帧，对语谱图进行切分，分别产生若干个针对每个音频文件的子频谱图。针对新生成的语谱图进行白化操作，将每帧的频谱图的基础数据进行纵向融合，以512维为单位进行横向分割，每个语谱图的纵向长度是固定的，针对每列求取其均方差，将20*512的长度浓缩为1*512维的谱图特征。在此基础上，对其进行归一化操作，将512维的特征限制在[0，1]的区间范围内。

所述情感识别模型如下，如图1所示：

语音信号通过特征提取，获得语谱图、TEO(Teagerenergyoperator)和声学特征描述符LLD(low-levelacousticfeaturedescriptors)；数据源则为同一音频文件；

所述TEO是一种非线性运动结构的能量算子，可以反映单个语音频率成分的特性，还能反映多个语音频率成分之间的关系。因此，在某些压力情况下，基于TEO的语音特征可以用来识别不同的语音情感。

对于连续信号X(t)，TEO描述为：

ψ[x(t)]＝(x'(t))²-x(t)x(t)ⁿ (1)

ψ[x(n)]＝(x²(n))-x(n-1)x(n+1)，式中x(n)是信号在n时刻的值。

在捕获最原始的声学特征时，需要将语音信号转换为语音特征向量，即结合低级描述符(LLD)和高级统计函数(High level Statistics Functions，HSF)，特征均可使用OpenSmile toolbox工具箱直接计算得到。

本发明基于以下方面选择低级描述符：a)它们有潜力指导声音产生情感生理变化，b)在先前研究中，它们已证明价值以及它们的自动可提取性，以及c) 它们的理论意义。该集合旨在为研究语音特征的基线，并消除由变化的模型，甚至相同参数的不同实现引起的差异。

音强(Loudness)，谱通量(声音信号频谱的包络面积，Spectral Flux)，梅尔频率倒谱系数(频带1-2，MFCC1-2),谱特征(alpha RatioUV),等效声级 (equivalent SoundLevel),基频(F0semitone),第一共振峰的中心频率 (F1frequency),频谱斜率(slopeV0-500),本地(帧到帧)闪烁(shimmer LocaldB), 梅尔频带的对数功率(logMelFreqBand1-6)

针对LLD特征，对其进行HSF表示，获取切分后的音频文件的全局特征，此处采用的HSF表示有，窗口长度为n的移动平均滤波器平滑、均值、标准差、 20百分位、离群值鲁棒最大值、离群值鲁棒信号范围。

涉及的具体LLD和HSF如表1所示，其中一共涉及30维特征。这些特征均可以使用OpenSmiletoolbox工具箱直接计算得到。

表1具体筛选的LLD和HSF

将LLD通道得到的输出特征与语谱图、TEO通道得到的输出特征进行合并，得到1*1024维情感特征。此特征融合了局部特征和全局特征，可以全面的表示当前帧音频的情感信息。

所述GRU中包含更新门和重置门；GRU模型的设计公式如下：

z_t＝σ(W_z·[h_t-1,x_t]) (3)

r_t＝σ(W_r·[h_t-1,x_t]) (4)

z_t和r_t分别表示更新门和重置门。

为第t层部分隐藏层输出；

h_t为第t层全部隐藏层向量。

如图2所示，GRU将遗忘门和输入门合并成单一的更新门，将元胞状态与隐状态合并，即图中的z_t和r_t，更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息越多，重置门用于控制前一时刻的状态信息的程度，重置门越小说明忽略的越多。

所述的CRNN模型如下，如图3所示：

CRNN模型由卷积神经网络和循环神经网络两部分构成，其中卷积神经网络部分基于传统CNN网络模型，用于提取语谱图的频域特征，对于预先分段的语音，首先获取其语谱图和TEO特征作为输入，然后对输入信息进行卷积，分为4个步骤，即连续的2组卷积和池化操作，从而生成一组特征集合。然后进入循环神经网络部分，采用2层双向BILSTM网络，其中每个时间步对应于原始音频输入的一段，保留区域之间的长期依赖性。最终通过1层全连接层，然后使用Softmax完成音频的分类。

所述声纹识别模型如下，如图4所示：

卷积神经网络部分基于传统CNN网络模型，用于提取语谱图的频域特征，对于预先分段的语音，可获得每个片段的CNN学习特征；对输入图像进行卷积，分为4个步骤，即连续的2组卷积和池化操作，从而生成一组特征集合；然后进入循环神经网络部分，采用2层双向循环长短期记忆网络(Bidirectional Long Short-Term Memory，BLSTM)网络，其中每个时间步对应于原始音频输入的一段，保留区域之间的长期依赖性，此模型输出为512维特征；

考虑到音频的能量在短时间处于一种集中爆发的过程，可以通过聚焦在爆发的重点区域进行特征选择和训练，加重此类区域的贡献度，因此，在CRNN 模型(7)的基础上，增加了注意力机制，它是用于分配有限信息处理能力的“选择机制”，有助于快速分析目标数据，配合信息筛选和权重设置机制，提升模型的计算能力。

attentive_x＝∑_iα_ix_i (8)

MFCC的提取基于人耳的听觉机理，具体提取流程如下：首先进行预加重、分帧和加窗，然后，为了将时域信号转化到频域进行后续的频率分析，对每一帧语音信号x(n)进行FFT变换，接下来将计算取模的平方，从而得到能量谱，通过一组Mel尺度的三角形滤波器组，计算每个滤波器组输出的对数能量，将上诉系数做离散余弦变换(DCT)，变换最后计算得到M维的MFCC参数(4)；详细的计算公式如公式9所示。

在声纹识别模型中，语谱图馈入卷积神经网络(CNN)中，语谱图和MFCC 馈入Seq2Seq中，2个通道的模型融合加入注意力机制，形成声纹模型。

卷积神经网络是一种由卷积层与池化层交替堆叠而成的深度神经网络。当前层的神经单元通过一组权重即卷积核连接到前一层的若干个特征图进行卷积运算，再加上偏置就得到当前层的特征图。每一个神经单元只与上一特征图的局部区域连接，每个神经单元提取的是该局部区域的特征，所有神经单元综合起来得到全局特征。为了从特征参数中获得更全面的信息，同一层网络中使用多个不同的卷积核进行操作，得到多个特征图。卷积层前后的映射关系如下。

其中，

表示第m个卷积层第j个特征图的输入，

代表卷积核，

经过卷积操作后的特征图在池化层进行降采样操作。池化单元计算特征图中局部区域的主要信息，因此去除了冗余信息，缩小了运算规模。CNN由3层卷积层、3层池化层和2层全连接层，共8层构成，第一层卷积层的输入图片为310*310*3，其中310为图片的长和宽，3表示RGB三个通道。图片经过64 个3*3的卷积核，以步长为1的卷积操作后产生64个特征图，然后使用Relu 激活函数，经过最大池化操作后得到64个特征图，第2层卷积层的输入源即第 1层的输出特征图，计算过程与第1层一样，第3层同理，接下来是1层全连接层，此层一共有1024个神经元，在此层上做Dropout操作，防止模型过拟合。此层输出为1*1024维特征(3)。

Seq2Seq模型是把一个序列翻译成另一个序列的模型，实质是两个循环神经网络(RecurrentNeuralNetwork，RNN)，一个做encoder，另一个做decoder。如图5所示。

encoder和decoder的过程如图6所示，encoder负责将source序列编码成固定长度的表达，例如图5中的A\B\C处，使用普通的RNN即可，decoder负责将该固定长度的表达解码成target序列，decoder训练的时候输入由两部分组成，一部分是encoder的laststate，另一部分是target序列，如图6的<GO>WXYZ，其中<GO>和<EOS>表示的是序列开始符和结束符。decoder测试的时候输入也是由两部分组成，一部分是encoder的last state，另一部分是来自于上一个时刻的输出(上一个时刻的输出作为下一个时刻的输入)，直到某个时刻的输出遇到结束符<EOS>为止。

此模型的输出为1*512维特征(5)，将其与CNN的特征一起送入注意力机制中，最终得到1*1536维声纹识别特征(6)，可以用于搭建话者的声纹模型(7)。

所述语音识别模型如下，如图7所示：

以语音信号为输入，通过特征提取，获得MFCC和语谱图；

采用42维MFCC作为输入，结合BIMLSTM和Seq2Seq通道进行输出；语谱图结合Seq2Seq通道进行输出；2个通道的模型融合加入注意力机制，形成语音识别模型。将MFCC应用于3层双向LSTM(LongShort-TermMemory，长短期记忆网络)模型；LSTM采用的策略是在每个神经元内部增加：输入门、输出门和忘记门，选用误差函数反馈权重，通过忘记门决定记忆单位是否被清除，默认的LSTM结构如公式11所示。

f_t＝σ(W_f[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t) (11)

其中，W_f、W_i、

W_o是权重参数，b_f、b_i、

BIMLSTM通道的输出(3)和Seq2Seq通道的输出(5)分别为1*512维特征，将两个通道输出的特征融合后，一起送入注意力机制中，最终得到1*1024 维语音识别特征(6)，此时的模型(7)可以用于话者的语音识别。

使用Tensorflow框架进行网络模型结构的搭建，对本文提出的方法和传统的特征提取方法分别进行情感识别实验。为了避免不同情感数量不均衡产生的影响，本文采用加权精度(Weighted accuracy,WA)和未加权精度(Unweighted accuracy,UA)作为指标。

表2为经过实验验证后，不同语音情感识别模型的准确度。

表2语音情感识别模型测试结果

由上可知，由于融合了LLD和HSF特征集合，同时辅助CRNN获得时序的相关特征，它的表现最佳，拥有最优的WA和UA，可以发挥全局特征和时序信号在情绪识别过程中的作用。

另外，本发明提供了一种语音信号中针对通用特定语音任务的并联特征提取方法：

所述情感识别特征的提取方法为：

所述声纹识别特征的提取方法为：

S2-2，语谱图作为输入馈入卷积神经网络中作为一条通道；

所述语音识别特征的提取方法为：

S3-3，语谱图结合Seq2Seq作为另一条通道进行输出；

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种语音信号中针对通用特定语音的并联特征提取系统，其特征在于：所述系统主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型；

所述情感识别模型如下：

语音信号通过特征提取，获得语谱图、非线性运动结构的能量算子TEO和声学特征描述符LLD；

对声学特征描述符特征进行HSF表示，获取切分后的音频文件的全局特征，采用的HSF表示有，窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围；将HSF后的特征馈入GRU模型中，由GRU模型学习得到了情感识别特征，输出特征为1*512维；

采用语谱图和非线性运动结构的能量算子作为卷积循环神经网络的输入，声学特征描述符采用低级描述符和高级统计函数HSF通道的30维特征；非线性运动结构的能量算子和语谱图的特征融合后，送入卷积循环神经网络中，卷积循环神经网络由卷积神经网络和循环神经网络两部分构成；在卷积循环神经网络模型的情感识别特征输入注意力机制得到1*512维输出特征；

将声学特征描述符通道得到的输出特征与语谱图、非线性运动结构的能量算子通道得到的输出特征进行合并，得到1*1024维情感特征；

所述声纹识别模型如下：

以语音信号为输入，通过特征提取，获得语谱图和梅尔频率倒谱系数MFCC；

语谱图作为输入馈入卷积神经网络中，语谱图和梅尔频率倒谱系数馈入Sequence-to-Sequence中，2个通道的模型融合加入注意力机制，形成声纹识别模型；

所述语音识别模型如下：

以语音信号为输入，通过特征提取，获得梅尔频率倒谱系数和语谱图；

采用42维梅尔频率倒谱系数作为输入，结合BIMLSTM和Seq2Seq通道进行输出；语谱图结合Seq2Seq通道进行输出；2个通道的模型融合加入注意力机制，形成语音识别模型。

2.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统，其特征在于：所述语谱图是语音信号的傅里叶分析的显示图像，语谱图是一种三维频谱，表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间；获取方法如下：对于一段语音信号x(t)，首先分帧，变为x(m,n)，n为帧长，m为帧的个数；进行快速傅立叶变换，得到X(m,n)，得到周期图Y(m,n)，Y(m,n)＝X(m,n)*X(m,n)’，取10*log10(Y(m,n))，把m根据时间变换刻度，得到M，n根据频率变换刻度，得到N；M,N,10*log10(Y(m,n))组成的二维图像，即为语谱图。

3.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统，其特征在于：所述非线性运动结构的能量算子TEO，可以反映单个语音频率成分的特性，还能反映多个语音频率成分之间的关系；

对于连续信号X(t)，TEO描述为：

ψ[x(t)]＝(x'(t))²-x(t)x(t)ⁿ (1)

ψ[x(n)]＝(x²(n))-x(n-1)x(n+1)，式中x(n)是信号在n时刻的值；

求取TEO的具体过程是，对语音信号加窗分帧后求每一帧的TEO能量，计算公式如下；

4.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统，其特征在于：在捕获最原始的声学特征时，需要将语音信号转换为语音特征向量，即结合低级描述符LLD和高级统计函数HSF，特征均可使用OpenSmile toolbox工具箱直接计算得到。

5.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统，其特征在于：所述GRU中包含更新门和重置门；GRU模型的设计公式如下：

z_t＝σ(W_z·[h_t-1,x_t]) (3)

r_t＝σ(W_r·[h_t-1,x_t]) (4)

z_t和r_t分别表示更新门和重置门；

为第t层部分隐藏层输出；

h_t为第t层全部隐藏层向量。

6.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统，其特征在于：卷积神经网络部分基于传统CNN网络模型，用于提取语谱图的频域特征，对于预先分段的语音，可获得每个片段的CNN学习特征；对输入图像进行卷积，分为4个步骤，即连续的2组卷积和池化操作，从而生成一组特征集合；然后进入循环神经网络部分，采用2层双向循环长短期记忆网络BLSTM，其中每个时间步对应于原始音频输入的一段，保留区域之间的长期依赖性，此模型输出为512维特征；

对于输入x的序列中的每个向量x_i，可以按照公式7计算注意力权重α_i，其中f(x_i)是评分函数；

注意力层的输出，即attentive_x，是输入序列的权重之和，如公式8所示；

attentive_x＝∑_iα_ix_i (8)

7.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统，其特征在于：MFCC的提取基于人耳的听觉机理，具体提取流程如下：首先进行预加重、分帧和加窗，然后，为了将时域信号转化到频域进行后续的频率分析，对每一帧语音信号x(n)进行FFT变换，接下来将计算取模的平方，从而得到能量谱，通过一组Mel尺度的三角形滤波器组，计算每个滤波器组输出的对数能量，将上诉系数做离散余弦变换DCT，变换最后计算得到M维的MFCC参数；详细的计算公式如公式9所示；

卷积层前后的映射关系如下；

其中，

表示第m个卷积层第j个特征图的输入，

代表卷积核，

8.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统，其特征在于：在语音识别模型中，将MFCC应用于3层双向长短期记忆网络LSTM模型；LSTM采用的策略是在每个神经元内部增加：输入门、输出门和忘记门，选用误差函数反馈权重，通过忘记门决定记忆单位是否被清除，默认的LSTM结构如公式11所示：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t) (11)

其中，W_f、W_i、

W_o是权重参数，b_f、b_i、

9.一种基于权利要求1所述语音信号中针对通用特定语音的并联特征提取系统的特征提取方法：

所述情感识别特征的提取方法为：

所述声纹识别特征的提取方法为：

S2-2，语谱图作为输入馈入卷积神经网络中作为一条通道；

所述语音识别特征的提取方法为：

S3-2，采用42维梅尔频率倒谱系数作为输入，结合BIMLSTM和Seq2Seq作为一条通道进行输出；

S3-3，语谱图结合Seq2Seq作为另一条通道进行输出；