CN108346436A

CN108346436A - 语音情感检测方法、装置、计算机设备及存储介质

Info

Publication number: CN108346436A
Application number: CN201710725390.2A
Authority: CN
Inventors: 刘海波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2018-07-31
Anticipated expiration: 2037-08-22
Also published as: EP3605537A4; US11189302B2; US20220028415A1; KR20190125463A; EP3605537A1; JP2020531898A; CN108346436B; JP6884460B2; US11922969B2; KR102323046B1; WO2019037700A1; US20200043514A1

Abstract

本发明提出了一种语音情感检测方法，所述方法包括：获取待检测语音数据；对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵，将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵，将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数，根据所述情感状态序列确定所述待检测语音数据对应的情感状态，该方法大大提高了语音情感检测的准确度。此外，还提出了一种语音情感检测装置、计算机设备及存储介质。

Description

语音情感检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机处理领域，特别是涉及一种语音情感检测方法、装置、计算机设备及存储介质。

背景技术

随着语音识别技术的发展，语音转换成文字的技术已经比较成熟，但是传统的语音转换成文字的技术在语音输入方面只能识别用户的基本语音，不能很好的识别用户说话时的情感。

传统的语音情感识别的方法是通过分析语音信息的相关参数，比如，音频、音高等来确定语音信息中包含的情感信息，由于上述方法中采集到的参数较为片面，而且也不能准确地反应包含的情感信息，所以传统方法中识别语音情感的准确度比较低。

发明内容

基于此，有必要针对上述语音情感识别准确度低的问题，提供了一种可以提高语音情感识别准确度的语音情感检测方法、装置、计算机设备及存储介质。

一种语音情感检测方法，所述方法包括：

获取待检测语音数据；

对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵；

将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵；

将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数；

根据所述情感状态序列确定所述待检测语音数据对应的情感状态。

一种语音情感检测装置，所述装置包括：

获取模块，用于获取待检测语音数据；

提取模块，用于对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵；

输出模块，用于将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵；

情感状态序列确定模块，用于将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数；

情感状态确定模块，用于根据所述情感状态序列确定所述待检测语音数据对应的情感状态。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待检测语音数据；

在其中一个实施例中，所述将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数的步骤包括：将所述语音特征矩阵作为所述情感状态转移模型的观测序列；获取初始概率矩阵，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数确定与所述观测序列对应的情感状态序列。

在其中一个实施例中，所述获取初始概率矩阵，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数确定与所述观测序列对应的情感状态序列的步骤包括：获取所述观测序列对应的候选情感状态路径构成情感状态路径集合；根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数计算所述情感状态路径集合中各个候选情感状态路径对应的情感状态路径概率；将计算得到的最大概率所对应的情感状态路径作为观测序列对应的情感状态序列。

在其中一个实施例中，所述情感状态概率包括静音概率；所述根据所述情感状态序列确定与所述待检测的语音数据对应的情感状态的步骤包括：根据所述情感状态序列中包含的静音状态检测静音帧，根据所述静音帧将所述待检测语音数据进行分段得到非静音子语音段；根据各个非静音子语音段对应的情感状态序列确定各个非静音子语音段对应的情感状态。

在其中一个实施例中，所述处理器在执行将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵的步骤之前，还用于执行以下步骤：获取训练语音数据，对所述训练语音数据进行分帧处理得到训练语音帧，提取各个训练语音帧对应的语音特征形成训练语音特征矩阵；获取所述训练语音帧对应的标准情感状态标注，所述标准情感状态标注包括静音标注；将所述训练语音特征矩阵作为所述情感检测模型的输入，将对应的标准情感状态标注作为期望的输出进行训练，得到目标情感检测模型。

在其中一个实施例中，所述对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵的步骤包括：对所述待检测语音数据进行分帧处理到的语音帧；获取当前语音帧，获取与当前语音帧对应的扩展语音帧；提取当前语音帧对应的当前语音特征，提取所述扩展语音帧对应的扩展语音特征；根据所述当前语音特征和所述扩展语音特征生成与当前语音帧对应的扩展语音特征向量；根据各个语音帧对应的扩展语音特征向量形成与所述待检测语音数据对应的语音特征矩阵。

在其中一个实施例中，所述情感状态检测模型为采用深度神经网络模型训练得到的；所述将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵的步骤包括：根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列，将下一层隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点对应的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

在其中一个实施例中，所述情感状态检测模型为采用循环神经网络模型训练得到的；所述将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵的步骤包括：根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待检测语音数据；

上述语音情感检测方法、装置、计算机设备及存储介质，首先将语音特征矩阵输入已训练的情感状态概率检测模型，得到待检测语音数据对应的情感状态概率矩阵，由于情感状态之间的转变是有限制的，所以为了能够更准确地识别得到待检测语音数据对应的情感状态，将情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型，该模型中包括已训练得到的情感状态转移概率参数，该情感状态转移概率参数能够准确反映情感状态之间的转变，通过将情感状态概率矩阵和情感状态转移概率参数结合能够更加准确地得到与待检测语音数据对应的情感状态序列，进而准确地确定相应的情感状态，大大提高了语音情感检测的准确度。

附图说明

图1为一个实施例中语音情感检测方法的流程图；

图2为一个实施例中确定情感状态序列的方法流程图；

图3为一个实施例中确定与观测序列对应的情感状态序列的方法流程图；

图4为一个实施例中确定与待检测的语音数据对应的情感状态的方法流程图；

图5为一个实施例中建立情感状态检测模型的方法流程图；

图6为一个实施例中提取各个语音帧对应的语音特征形成语音特征矩阵的方法流程图；

图7为一个实施例中将语音特征矩阵输入已训练的情感状态概率检测模型，输出待检测语音数据对应的情感状态概率矩阵的方法流程图；

图8为一个实施例中对待检测语音数据进行情感预测的流程示意图；

图9为一个实施例中采用DNN模型训练得到情感状态检测模型的流程示意图；

图10为另一个实施例中将语音特征矩阵输入已训练的情感状态概率检测模型，输出待检测语音数据对应的情感状态概率矩阵的方法流程图；

图11为另一个实施例中对待检测语音数据进行情感预测的流程示意图；

图12为一个实施例中采用RNN模型训练情感状态检测模型的流程示意图；

图13为另一个实施例中语音情感检测方法流程图；

图14为一个实施例中语音情感检测装置的结构框图；

图15为另一个实施例中语音情感检测装置的结构框图；

图16为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提出了一种语音情感检测方法，该方法具体包括以下步骤：

步骤102，获取待检测语音数据。

其中，语音数据是指通过语音记录的数据以及通过语音来传输的数据，比如，语音数据可以是人或动物发出的声音、歌曲文件等。待检测语音数据可以是实时获取的，也可以是预先存储的，比如，可以通过交互应用实时获取用户输入的语音数据，也可以预先将待检测的语音数据存储到数据库中，然后从数据库中获取待检测语音数据。

步骤104，对待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵。

其中，分帧处理是指将连续的语音数据进行分段处理，可以预先设置帧长度，通常设置每帧长度约20ms-30ms，在这一区间内语音信号可以看作是稳态信号，由于只有稳态的信息才能进行处理，所以在对语音数据进行处理前需要根据预先设置的帧长度将语音数据进行分段得到一个个的语音帧。语音特征能够反映说话人的情感特征，通过提取语音特征便于后续根据语音特征进行相应的情感检测。具体地，对语音数据进行分帧处理得到语音帧后，提取每一个语音帧对应的语音特征，提取的语音特征可以有很多种，比如，可以是MFCC(Mel frequency cepstrum coefficient，梅尔倒谱系数)特征、Filter Bank(滤波器组)特征、PITCH(音高)特征、PLP(Perceptual Linear Predictive，感知线性预测)特征、ENERGY(能量)特征、I-VECTOR(Identifying Vector，辨识矢量)特征等，具体使用的特征可以根据实际情况自由选择，可以是以上多种语音特征中的一种，也可以是多种语音特征的融合。

语音特征矩阵是由各个语音帧对应的语音特征组合形成的。其中，每个语音帧对应的语音特征是一个多维的特征向量，比如，假如提取到的每个语音帧所对应的语音特征包括M个特征参数，那么每个语音帧对应的语音特征就是一个M维的特征向量。具体地，提取到每个语音帧对应的语音特征后，根据语音帧的前后顺序将各个语音帧对应的语音特征组合形成语音特征矩阵。假设待检测语音数据中一共包括N个语音帧，而每个语音特征为一个M维的特征向量，那么得到的语音特征矩阵可以表示为N*M矩阵。

步骤106，将语音特征矩阵输入已训练的情感状态概率检测模型，输出待检测语音数据对应的情感状态概率矩阵。

其中，情感状态概率检测模型用于预测与语音特征对应的情感状态概率。情感状态概率是指语音特征对应的各个情感状态的概率分布。假设一共有3种情感状态，分别是高兴、不高兴、正常，那么语音特征对应的情感状态概率包括情感状态为高兴的概率、情感状态为不高兴的概率以及情感状态为正常的概率。而且高兴的概率、不高兴的概率以及正常的概率之和为1。即假设某个语音特征对应的高兴的概率为a1，不高兴的概率为a2，正常的概率为a3，满足a1+a2+a3＝1，且a1，a2，a3的取值在0-1之间。需要说明的是，根据实际情况，情感状态的种类可以自由设定，比如，在一个实施例中，情感状态包括悲伤、愤怒、惊奇、恐惧、喜悦、厌恶等6种情感状态。具体地，语音特征矩阵是由各个语音帧对应的语音特征组成的，相应的情感状态概率矩阵是由各个语音特征对应的情感状态概率组合形成的，假设一共有N个语音帧，情感状态有K个，那么情感状态概率矩阵可以表示为N*K的矩阵。

步骤108，将情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，已训练的情感状态转移模型包括已训练的情感状态转移概率参数。

其中，已训练的情感状态转移模型用于预测与语音特征矩阵(语音特征序列)相对应的情感状态序列。情感状态转移概率参数记载了各个情感状态之间转移的概率。由于语音特征矩阵是由一个个语音特征形成的语音特征序列，而每个语音特征都对应有相应的情感状态概率，且情感状态转移概率参数又记载了各个情感状态之间转移的概率，在语音特征矩阵确定的情况下，情感状态转移模型的作用是找到与该语音特征矩阵匹配的情感状态序列。情感状态序列中记载了与每个语音特征对应的情感状态。情感状态序列与语音特征序列是相互关联的。语音特征序列是可以直接观察到的序列，而情感状态序列是根据语音特征序列推测出来的序列。该情感状态序列反映了待识别语音数据的情感状态。由于在实际应用中，情感状态之间的转变是有限制的，比如，对高兴、不高兴和正常三种情感进行识别，高兴的情感一般不能直接跳变到不高兴的情感，之间需要有正常的情感作为过渡，如果需要识别的类别逐步增加的时候，这种情况就会更多，所以通过使用情感状态转移模型中训练得到的情感状态转移概率参数能够更准确地得到与语音特征矩阵对应的情感状态序列，进而能够更加准确地检测待检测的语音数据的情感状态。

步骤110，根据情感状态序列确定待检测语音数据对应的情感状态。

其中，情感状态序列反映了待识别语音数据的情感状态，所以通过对情感状态序列进行分析可以得到待检测语音数据对应的情感状态。假设在一个实施例中，情感状态序列为：1,1,1,1,3,3,3,2,1,1,1，其中，1代表高兴，2代表不高兴，3代表正常。通过对情感状态序列中的数据进行平滑运算(剔除异常数据2)可以确定上述情感状态序列对应的整体情感状态为高兴。

上述语音情感检测方法，首先将语音特征矩阵输入已训练的情感状态概率检测模型，得到待检测语音数据对应的情感状态概率矩阵，由于情感状态之间的转变是有限制的，所以为了能够更准确地识别得到待检测语音数据对应的情感状态，将情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型，该模型中包括已训练得到的情感状态转移概率参数，该情感状态转移概率参数能够准确反映情感状态之间的转变，通过将情感状态概率矩阵和情感状态转移概率参数能够更加准确地得到与待检测语音数据对应的情感状态序列，进而准确地确定相应的情感状态。通过将情感状态概率检测模型与情感状态转移模型结合，不仅能够全面的反应情感状态概率而且考虑到了情感状态之间的转移概率，大大提高了语音情感检测的准确度。

如图2所示，在一个实施例中，将情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，已训练的情感状态转移模型包括已训练的情感状态转移概率参数的步骤108包括：

步骤108A，将语音特征矩阵作为情感状态转移模型的观测序列。

其中，观测序列是指已知的可直接观察到的序列，由于语音特征可以直接进行提取，故，将语音特征矩阵作为可直接观察到的序列。情感状态转移模型的作用是根据可观测的语音特征矩阵(语音特征序列)来预测未知的情感状态序列。

步骤108B，获取初始概率矩阵，根据初始概率矩阵、情感状态概率矩阵和情感状态转移概率参数确定与观测序列对应的情感状态序列。

其中，初始概率矩阵是指情感状态初始的概率分布。初始概率矩阵可以预先设置，也可以是随机选择的。情感状态概率矩阵是指记载了语音特征对应的情感状态概率分布。情感状态转移概率参数是指记载了各个情感状态之间转移的概率。在一个实施例中，情感状态转移模型可以采用HMM(隐马尔科夫)模型训练得到。其中，HMM模型可以用一个五元组描述，λ＝(Ω，Σ，π，A，B)，其中Ω为状态集合，Σ为观测值集合，π为初始状态空间的概率分布，A与时间无关的状态转移矩阵，B给定状态下观测值概率分布。HMM模型能够在给定观测序列O＝(O₁,O₂,...,O_T)以及模型参数π,A,B的情况下，计算得到与观测序列对应的最优状态序列S＝(q₁,q₂,...,q_T)。在本实施例中，π可以通过直接获取初始概率矩阵来确定，参数A即为训练得到的情感状态转移概率参数，B可以通过情感状态概率矩阵来确定。在确定了模型参数π,A,B后，就可以计算得到与观测序列对应的情感状态序列，具体计算的方法可以采用Viterbi(维特比)算法计算得到最佳情感状态序列。

如图3所示，在一个实施例中，获取初始概率矩阵，根据初始概率矩阵、情感状态概率矩阵和情感状态转移概率参数确定与观测序列对应的情感状态序列的步骤108B包括：

步骤302，获取观测序列对应的候选情感状态路径构成情感状态路径集合。

其中，观测序列是指语音特征组成的序列，每个语音特征都对应有情感状态概率，情感状态概率中记载了语音特征对应的各个情感状态的概率。情感状态路径是由一个个的情感状态组成的，其中，情感状态路径中的情感状态与语音特征序列中的语音特征是一一对应的关系，假设语音特征序列中一共有N个语音特征，那么情感状态路径中相应的会有N个情感状态组成。由于每个语音特征有对应多种情感状态的可能，所以就会有多种情感状态路径。假设一共有m个情感状态，每个语音特征针对每个情感状态都有一个概率，即每个语音特征对应有m种可能的情感状态。那么如果有N个语音特征，理论上将会有m^N个候选情感状态路径，获取与观测序列对应的所有候选情感状态路径，构成情感状态路径集合。

步骤304，根据初始概率矩阵、情感状态概率矩阵和情感状态转移概率参数计算情感状态路径集合中各个候选情感状态路径对应的情感状态路径概率。

其中，在已知初始概率矩阵、情感状态概率矩阵和情感状态转移概率参数的情况下，计算候选情感状态路径集合中各个候选情感状态路径对应的情感状态路径概率，便于后续根据各个候选情感状态路径对应的情感状态概率确定相应的情感状态序列。举个简单的例子，假设一共有3个语音特征，每个语音特征对应的情感状态有3种(高兴，不高兴，正常)，每个语音特征对应的情感状态已知，如表1中所示，第1个语音特征对应的情感状态概率为：高兴0.8，不高兴0.1，正常0.1；第2个语音特征对应的情感状态概率为：高兴0.5，不高兴0.3，正常0.2；第3个语音特征对应的情感状态概率为：高兴0.2，不高兴0.3，正常0.5。

表1

假设情感状态之间转移概率为：高兴到高兴为0.6，高兴到正常为0.3，高兴到不高兴为0.1；正常到正常为0.4，正常到高兴为0.3，正常到不高兴为0.3；不高兴到不高兴为0.4，不高兴到正常为0.4，不高兴到高兴为0.2，如表2所示。

表2

	高兴	不高兴	正常
				高兴	0.6	0.1	0.3
正常	0.3	0.3	0.4
				不高兴	0.2	0.4	0.4

现在已知语音特征序列为1,2,3，相应的候选情感状态路径有27条。其中的一条候选情感状态路径为：高兴-正常-不高兴，计算该候选情感状态路径对应的情感状态路径概率，假设初始状态概率为：高兴为0.3，正常为0.5，不高兴为0.2。具体的计算方法为：P＝P0(初始-高兴)*P1(高兴)*P(高兴-正常)*P2(正常)*P(正常-不高兴)*P3(不高兴)，其中，P0(初始-高兴)表示初始为高兴的概率；P1(高兴)表示第1帧是高兴的概率，P(高兴-正常)表示情感状态由高兴到正常的概率，P2(正常)表示第2帧是正常的概率，P(正常-不高兴)表示正常到不高兴的概率，P3(不高兴)表示第3帧是不高兴的概率。那么根据以上已知的数据可以计算得到高兴-正常-不高兴这条情感状态路径对应的情感状态概率为P＝0.3*0.8*0.3*0.2*0.3*0.3＝0.001296。当情感状态路径数目比较小时可以采用穷举的方式计算得到每个候选状态路径对应的概率，但是当数目比较多时，为了能够更快速地获取到最优的情感状态路径，在一个实施例中，可以采用Viterbi(维特比)算法进行动态路径规划计算得到最优候选情感状态路径。具体地，假设作为观测序列的语音特征序列为O₁,O₂,...,O_T，t＝1,2,3，……T，定义δ_t(i)为t时刻沿着一条路径q₁,q₂,...,q_t的情感状态路径，并且q_t＝i，产生的O₁,O₂,...,O_t的最大概率，即其中i表示某个情感状态。主要过程是为：(1)初始化δ₁(i)＝π_ib_i(O₁)，

(2)递归

(3)其中，i表示情感状态，P为计算得到的最大概率，q_T为相应的最优的候选情感状态路径。

步骤306，将计算得到的最大概率所对应的情感状态路径作为观测序列对应的情感状态序列。

具体地，将计算得到的最大概率对应的候选情感状态路径作为与观测序列对应的情感状态序列。

如图4所示，在一个实施例中，情感状态概率包括静音概率。

根据情感状态序列确定与待检测的语音数据对应的情感状态的步骤110包括：

步骤110A，根据情感状态序列中包含的静音状态检测静音帧，根据静音帧将待检测语音数据进行分段得到非静音子语音段。

其中，通常情况下，一段语音中只包含有一个情感，比如高兴。但是在某些情况下，一段语音中也可能包括多个情感，为了更准确地对待检测语音数据的情感进行检测，可以采用分段检测的方法进行检测。而分段是基于静音检测的。静音检测又称“语音活动检测”是检测一段语音数据中的非语音部分，非语音部分就是检测到的静音部分，其中，静音包括停顿、噪声等，但不限于此。对待检测语音数据进行分段是根据检测到的非语音部分进行分段的。

传统的静音检测是通过另外增加一个静音检测模块来对静音进行检测，而且传统的静音检测算法是基于能量，能量高的认为是语音，能量低的是噪声即非语音，这种情况对于噪声比较大的情况是没有办法判断的，所以传统的静音检测不够准确。为了能够准确对静音进行检测，通过直接在情感状态检测模型训练的过程中增加静音类，即将静音类也看作是一种情感状态，这样，训练得到的情感状态检测模型既可以检测情感状态，也可以对静音进行检测，不需要额外增加静音检测模块，不但操作方便，而且通过增加静音类有利于提高静音检测的准确度。也就是说，直接将静音看作是一种情感状态，相应的得到的情感状态概率除了包括各个真实情感状态的概率还包括静音概率。举个例子，假设原本只有三种情感状态，高兴、不高兴和正常，现在将静音也作为一种情感状态，采用这四种情感状态对情感状态检测模型进行训练得到能够同时对静音状态进行检测的模型。

具体地，每个语音帧对应一个语音特征，而每个语音特征对应一个情感状态，静音状态与静音帧是对应的。情感状态序列中包含有静音状态，根据包含的静音状态确定待检测语音数据中的静音帧，进而根据静音帧将待检测语音数据进行分段。在实际应用中，并不是出现一个静音帧就将语音数据进行分段，而且检测到连续的多个静音帧时，才会将待检测语音数据进行分段，因为连续的非静音部分往往只有一种情感，而只有出现比较长的静音部分，才可能出现前后的语音情感不一致的情况。在一个实施例中，判断情感状态序列中的出现的连续静音状态的数目是否超过了预设阈值(比如，10个)，若是，则将该静音状态前面的非静音部分作为一个非静音子语音段，将该静音状态后面的非静音部分作为一个非静音子语音段。

步骤110B，根据各个非静音子语音段对应的情感状态序列确定各个非静音子语音段对应的情感状态。

其中，非静音子语音段是指对待处理语音数据中的静音状态进行分段后得到的子段。由于情感状态序列中的情感状态和语音特征序列中的语音特征是一一对应的关系，所以在确定了非静音子语音段后，就可以直接根据非静音子语音段对应的语音特征序列确定相应的情感状态序列(子情感状态序列)。继而通过对情感状态序列进行分析可以得到各个非静音子语音段对应的情感状态。具体地，对待检测的语音数据进行情感检测可以是实时检测的，也可以是非实时的。在一个实施例中，对待检测的语音数据是实时检测的，当检测符合分段条件的静音状态时，根据该静音状态将待检测的语音数据进行分段，分为前一段和后一段，先确定并输出与前一段对应的情感状态。然后继续对后一段中的静音状态进行检测，如果出现符合条件的静音状态，继续对后一段进行分段，依次类推。

如图5所示，在一个实施例中，在将语音特征矩阵输入已训练的情感状态概率检测模型，输出待检测语音数据对应的情感状态概率矩阵的步骤之前还包括：步骤101，建立情感状态检测模型；建立情感检测模型具体包括以下步骤：

步骤101A，获取训练语音数据，对训练语音数据进行分帧处理得到训练语音帧，提取各个训练语音帧对应的语音特征形成训练语音特征矩阵。

其中，训练语音数据是指对情感状态模型训练所使用的语音数据。首先，与检测过程一样，需要对训练语音数据进行分帧处理得到训练语音帧，然后提取每个训练语音帧对应的语音特征，将得到的语音特征按照语音帧的前后顺序进行组合形成训练语音特征矩阵。

步骤101B，获取训练语音帧对应的标准情感状态标注，标准情感状态标注包括静音标注。

其中，标准情感状态标注是指对已知情感状态的训练语音帧进行标准情感标注。为了在检测情感状态的同时能够检测到相应的静音状态，标准情感状态标注包括对静音状态的标注。这样训练得到的情感状态概率矩阵可以实现对静音状态进行检测。具体地，分别对每一个语音帧进行标准情感状态标注，而每一个语音帧都对应有相应的语音特征，即相当于是对语音特征进行了标准情感状态标注。

步骤101C，将训练语音特征矩阵作为情感检测模型的输入，将对应的标准情感状态标注作为期望的输出进行训练，得到目标情感检测模型。

具体地，将训练语音特征矩阵作为待训练的情感检测模型的输入，将训练语音特征矩阵中每个语音特征对应的标准情感状态标注作为与相应语音特征的标准输出(即期望的输出)进行训练，在训练的过程中通过不断调整情感检测模型的模型参数来使得实际输出的情感状态与标准情感状态不断接近，直到两者的误差符合条件完成对模型的训练。

如图6所示，在一个实施例中，对待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵的步骤104包括：

步骤104A，对待检测语音数据进行分帧处理得到语音帧。

具体地，分帧处理是指将连续的语音数据进行分段处理，按照预设的帧长度对待检测语音数据进行分段处理得到一个个的语音帧。

步骤104B，获取当前语音帧，获取与当前语音帧对应的扩展语音帧。

具体地，情感是一个持续的过程，因而在检测的时候如果能够参考历史和未来的信息，那么得到的语音情感检测效果会更好。所以除了获取当前语音帧外，还可以获取与当前语音帧对应的历史和未来的语音帧，即获取与当前语音帧对应的前向和/或后向语音帧。将获取到的与当前语音帧对应的前向和/或后向语音帧称为“扩展语音帧”。在一个实施例中，从当前语音帧的前向获取第一预设数量的前向语音帧，从当前语音帧的后向获取第二预设数量的后向语音帧，其中，前向语音帧和后向语音帧都属于当前语音帧对应的扩展语音帧。举个例子，提取与当前语音帧相邻的前向和后向各M帧，那么后续作为输入的为2M+1帧，如果每一帧的纬度为N，那么实际输入的为N*(2M+1)的矩阵。

步骤104C，提取当前语音帧对应的当前语音特征，提取扩展语音帧对应的扩展语音特征。

其中，分别提取当前语音帧对应的语音特征，称为“当前语音特征”，提取扩展语音帧对应的语音特征，称为“扩展语音特征”。

步骤104D，根据当前语音特征和扩展语音特征生成与当前语音帧对应的扩展语音特征向量。

其中，获取当前语音帧对应的语音特征，获取扩展语音帧对应的扩展语音特征，将当前语音特征和扩展语音特征按照前后顺序组成语音特征向量，称为“扩展语音特征向量”。

步骤104E，根据各个语音帧对应的扩展语音特征向量形成与待检测语音数据对应的语音特征矩阵。

其中，每个语音特征对应一个扩展语音特征向量，将各个语音帧对应的扩展语音特征向量按照前后顺序组成语音特征矩阵。将语音特征矩阵作为情感状态检测模型的输入，语音特征矩阵是有一个个扩展语音特征向量组成的，输入的时候实际上是将一个个扩展语音特征向量作为输入的，由于考虑了历史和未来的信息，所以有利于提高情感状态概率预测的准确性。

如图7所示，在一个实施例中，情感状态检测模型为采用深度神经网络模型训练得到的步骤106包括：

步骤106A，根据语音特征矩阵得到输入层节点序列，将输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；

其中，情感状态检测模型为采用深度神经网络(DNN，Deep Neural Networks)模型训练得到的。深度神经网络模型包括输入层、隐层和输出层，其中，隐层可以为多层。输入层节点序列是指输入到输入层的各个输入参数的排列顺序，其是根据语音特征矩阵本身形成的序列。比如，假设输入的是一个N维的语音特征，那么相应的输入层节点序列是指这N维的语音特征中N个输入参数按照顺序形成的序列。输入层的作用是将输入的参数进行投影变换处理，得到第一隐层对应的隐层节点序列，即将输入层的输出相应的作为第一隐层的输入，隐层节点序列是指该隐层所对应的输入参数的序列。将第一隐层作为当前处理隐层，然后获取当前处理隐层的输出作为下一层隐层的输入。

步骤106B，根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列。

其中，输入层、隐层和输出层都是由神经元构成的，每个神经元作为相应层的一个神经元节点。相邻的层与层之间的神经元都是全连接的，也就是说，第i层的中的任意一个神经元一定与第i+1层的任意一个神经元相邻。每个隐层和输出层中的各个神经元节点都对应有相应的权重和偏差，输入层没有权重和偏差。在获取到当前处理隐层对应的隐层节点序列后，根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差计算一个中间值，然后对得到的中间值采用非线性映射得到下一层隐层的隐层节点序列。在一个实施例中，假设上一层的输出为z，其中，z＝f(y_l-1)，W为当前处理隐层对应的权重矩阵，b为当前处理隐层对应的偏差，那么首先计算得到y_l＝W*z+b，然后通过一个非线性映射得到该隐层的输出，表示为f(y_l)，其中，l表示层数，根据当前处理隐层的输出确定下一层隐层的隐层节点序列。

步骤106C，将下一层隐层作为当前处理隐层，判断当前处理隐层是否为最后一层隐层，若是，则进入步骤106D，若否，则进入步骤106B。

具体地，将获取到的下一层隐层作为当前处理隐层，判断当前处理隐层是否为最后一层隐层，若是，则根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射计算得到输出层对应的输出层节点序列，如果不是，则根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列，依次类推，直到输出层。

步骤106D，根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射得到输出层对应的输出层节点序列，根据输出层节点序列获取输出层输出的与待检测语音数据对应的情感状态概率矩阵。

具体地，根据最后一层隐层对应的隐层节点序列和各个神经元节点的权重和偏差采用非线性映射得到输出层对应的输出层节点序列，即将最后一层隐层的输出作为输出层的输入，然后输出层根据对应的输出层节点序列和输出层对应的各神经元节点的权重和偏差并采用非线性映射计算得到与待检测语音数据对应的情感状态概率矩阵。

如图8所示，为一个实施例中对待检测语音数据进行情感状态预测的流程示意图。首先，获取待检测的语音数据，然后对获取到的语音数据进行分帧处理得到一个个语音帧，继而提取语音帧对应的语音特征，之后对语音帧进行帧扩展，将扩展后的语音帧对应的语音特征作为DNN模型(情感状态概率检测模型)的输入，输出各个语音帧对应的情感状态概率，然后将情感状态概率和语音特征作为HMM模型(情感状态转移模型)的输入得到输出的情感状态序列，根据情感状态序列确定待检测语音数据对应的情感状态。

在一个实施例中，在将语音特征矩阵输入已训练的情感状态概率检测模型，输出待检测语音数据对应的情感状态概率矩阵的步骤之前，还包括：采用DNN模型训练得到情感状态检测模型。如图9所示，为采用DNN模型训练得到情感状态概率检测模型的流程示意图。

具体训练的过程如下：(1)对训练的语音数据进行分帧。获取训练语音数据，对训练语音数据进行分帧处理得到一个个语音帧；(2)提取语音帧对应的语音特征。提取的特征可以是多种特征的融合，比如，可以是PLP、MFCC、PITCH、ENERGY等多种特征的融合。(3)进行帧扩展。情感是一个持续的过程，使用历史和未来的信息能够使得预测的效果更好，所以通过对语音帧进行帧扩展有利于提高预测的准确性。比如，可以使用当前帧对应的前向和后向各M帧对当前帧进行扩展，那么模型相应的输入实际上是2M+1帧对应的特征向量。(4)进行扩展后的语音帧送入到初始DNN模型进行训练。通过前向传递方式从输入层，经过各个隐层到达输出层。DNN中层与层之间的信息传递的规则可以表示为如下形式：y_l＝W*z+b，其中，l表示当前层，z＝f(y_l-1)表示上一层的输出，W为当前层对应的权重矩阵，b为当前层对应的偏差，然后通过一个非线性映射得到该隐层的输出，表示为f(y_l)(5)获取输出的与语音特征对应的情感状态预测概率，将该情感状态预测概率与标准的情感状态概率进行比较，计算两者的误差是否在预设范围内，如果在预设范围内，则说明当前的DNN模型可以用于后续的预测，如果不在预设范围内，则进入第(6)步通过不断更新权重和偏差来调整模型。(6)更新权重和偏差。具体地，根据实际的输出与标准的输出选取合适的损失函数，通常是将最大熵或最小均方误差函数作为损失函数，然后使用随机梯度下降法对DNN模型的权重和偏差进行更新，经过多轮迭代使得模型达到最优。其中，最大熵损失函数可以表示为：J_CE表示最大熵损失函数，o表示当前帧的特征，i是当前帧的情感类别，y_i表示输出的情感状态i的概率，C表示情感种类。通过对损失函数中的W和b求偏导，使用随机梯度下降法逐轮对W和b进行更新。其中，随机梯度下降的公式表示如下：P_t+1＝P_t-ηΔP_t，其中，η表示学习率，P_t代表更新前的参数，P_t+1代表更新后的参数，ΔP_t表示求偏导得到的值。可以使用BP(Back-Propagation后向传递)算法从最后一层逐层对前面不同层的W和b进行更新。

如图10所示，在一个实施例中，情感状态检测模型为采用循环神经网络模型训练得到的；将语音特征矩阵输入已训练的情感状态概率检测模型，输出待检测语音数据对应的情感状态概率矩阵的步骤106包括：

步骤106a，根据语音特征矩阵得到输入层节点序列，将输入层节点序列投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层。

其中，情感状态检测模型为采用循环神经网络(RNN，Recurrent NeuralNetworks)模型训练得到的。循环神经网络模型包括输入层、隐层和输出层，其中，隐层可以为多层。输入层节点序列是指输入到输入层的各个输入参数的排列顺序，其是根据语音特征矩阵本身形成的序列。比如，假设输入的是一个N维的语音特征，那么相应的输入层节点序列是指这N维的语音特征中N个输入参数按照顺序形成的序列。输入层的作用是将输入的参数进行投影变换处理，得到第一隐层对应的隐层节点序列，即将输入层的输出作为第一隐层的输入，隐层节点序列是指该隐层所对应的输入参数的序列。将第一隐层作为当前处理隐层，然后获取当前处理隐层的输出作为下一层隐层的输入。

步骤106b，根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点对应的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列。

其中，循环神经网络RNN与深度神经网络DNN的不同在于，在前向传播的过程中，不仅使用前一层的信息，也使用本层前一个时刻的信息，即使用历史信息。故相比DNN，RNN具有更好的预测效果。输入层、隐层和输出层都是由神经元构成的，每个神经元作为相应层的一个神经元节点。相邻的层与层之间的神经元都是全连接的，也就是说，第i层的中的任意一个神经元一定与第i+1层的任意一个神经元相邻。每个隐层和输出层中的各个神经元节点都对应有相应的权重，输入层没有权重。在获取到当前处理隐层对应的隐层节点序列后，根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重以及上一时刻当前处理隐层的输出计算一个中间值，然后对得到的中间值采用非线性映射得到下一层隐层的隐层节点序列。在一个具体的实施例中，RNN中的层与层之间的信息传递的规则可以表示为如下形式：其中，为t时刻处于当前层h单元的值，I为前一层神经元节点的总个数，即当前层输入参数的总个数，H为当前层中的神经元节点的总个数，w_ih是单元i到单元h的权重，w_h'h是单元h'到单元h的权重，表示当前层前一时刻的输出。为经过激励函数(非线性映射)之后的值。

具体地，将获取到的下一层隐层作为当前处理隐层，判断当前处理隐层是否为最后一层隐层，若是，则根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射计算得到输出层对应的输出层节点序列，如果不是，则根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，依次类推，直到输出层。

步骤106d，根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到输出层对应的输出层节点序列，根据输出层节点序列获取输出层输出的与待检测语音数据对应的情感状态概率矩阵。

具体地，根据最后一层隐层对应的隐层节点序列和各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到输出层对应的输出层节点序列，即将最后一层隐层的输出作为输出层的输入，然后输出层根据对应的输出层节点序列和输出层对应的各神经元节点的权重和上一时刻输出层的输出并采用非线性映射计算得到与待检测语音数据对应的情感状态概率矩阵。

如图11所示，在一个实施例中，为一个实施例中对待检测语音数据进行情感状态预测的流程示意图。首先，获取待检测的语音数据，然后对获取到的语音数据进行分帧处理得到一个个语音帧，然后提取语音帧对应的语音特征，将语音帧对应的语音特征作为RNN模型(情感状态概率检测模型)的输入，输出各个语音帧对应的情感状态概率。然后将情感状态概率和语音特征作为HMM模型(情感状态转移模型)的输入得到输出的情感状态序列，根据情感状态序列确定待检测语音数据对应的情感。

在一个实施例中，在将语音特征矩阵输入已训练的情感状态概率检测模型，输出待检测语音数据对应的情感状态概率矩阵的步骤之前，还包括：采用RNN模型训练得到情感状态检测模型。如图12所示，为采用RNN模型训练得到情感状态概率检测模型的流程示意图。

具体训练的过程如下：(1)对训练的语音数据进行分帧。获取训练语音数据，对训练语音数据进行分帧处理得到一个个语音帧；(2)提取语音帧对应的语音特征。提取的特征可以是多种特征的融合，比如，可以是PLP、MFCC、PITCH、ENERGY等多种特征的融合。(3)将语音特征送入到RNN模型进行训练。通过前向传递方式从输入层，经过各个隐层到达输出层。RNN中的层与层之间的信息传递的规则可以表示为如下形式：其中，为t时刻处于当前层h单元的值，I为前一层神经元节点的总个数，即当前层输入参数的总个数，H为当前层中的神经元节点的总个数，w_ih是单元i到单元h的权重，w_h'h是单元h'到单元h的权重，表示当前层前一时刻的输出。为经过激励函数(非线性映射)之后的值。(5)获取输出的与语音特征对应的情感状态预测概率，将该情感状态预测概率与标准的情感状态概率进行比较，计算两者的误差是否在预设范围内，如果在预设范围内，则说明当前的DNN模型可以用于后续的预测，如果不在预设范围内，则进入第(6)步通过不断更新权重调整模型。(6)更新权重。具体地，将实际的输出与标准的输出选取合适的损失函数，通常是最大熵和最小均方误差函数作为损失函数，然后使用随机梯度下降法对DNN模型的权重和偏差进行更新，经过多轮迭代使得模型达到最优。具体的计算如下：首先定义其中，为t时刻处于当前层j单元的值，O表示目标函数。假设定义交互熵为目标函数：其中z_k为标准输出值，就是训练集实际的标注，K为数据的类别数目，假设情感状态有4种，那么相应的K＝4；y_k为前向传递最后的输出，一般输出层常用的激励函数为softmax，因而y_k的可以定义为：经过一些列的数据推到，最终可以得到输出层：δ_k＝y_k-z_k；对中间层：其中，w_ij是单元i到单元j的权重，完整的δ的序列从最后的t＝T开始，逐步降低t的值，对每个时刻的δ进行更新，则每一层的权重的梯度为：权重更新为：其中，η表示学习率，至此RNN的训练过程完毕，经过前向和后向多轮迭代，逐步优化RNN模型，使其逐步达到最优。

如图13所示，提出了一种语音情感检测方法，该方法包括以下步骤：

步骤1301，获取训练语音数据，对训练语音数据进行分帧处理得到训练语音帧，提取各个训练语音帧对应的语音特征形成训练语音特征矩阵；

步骤1302，获取训练语音帧对应的标准情感状态标注，标准情感状态标注包括静音标注；

步骤1303，将训练语音特征矩阵作为情感检测模型的输入，将对应的标准情感状态标注作为期望的输出进行训练，得到目标情感检测模型。

步骤1304，获取待检测语音数据；

步骤1305，对待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵；

步骤1306，将语音特征矩阵输入已训练的情感状态概率检测模型，输出待检测语音数据对应的情感状态概率矩阵；

步骤1307，将语音特征矩阵作为情感状态转移模型的观测序列；

步骤1308，获取观测序列对应的候选情感状态路径构成情感状态路径集合；

步骤1309，根据初始概率矩阵、情感状态概率矩阵和情感状态转移概率参数计算情感状态路径集合中各个候选情感状态路径对应的情感状态路径概率；

步骤1310，将计算得到的最大概率所对应的情感状态路径作为观测序列对应的情感状态序列。

步骤1311，根据情感状态序列中包含的静音状态检测静音帧，根据静音帧将待检测语音数据进行分段得到非静音子语音段。

步骤1312，根据各个非静音子语音段对应的情感状态序列确定各个非静音子语音段对应的情感状态。

如图14，在一个实施例中，提出了一种语音情感检测装置，该装置包括：

获取模块1402，用于获取待检测语音数据；

提取模块1404，用于对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵；

输出模块1406，用于将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵；

情感状态序列确定模块1408，用于将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数；

情感状态确定模块1410，用于根据所述情感状态序列确定所述待检测语音数据对应的情感状态。

在一个实施例中，所述情感状态序列确定模块1408还用于将所述语音特征矩阵作为所述情感状态转移模型的观测序列，获取初始概率矩阵，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数确定与所述观测序列对应的情感状态序列。

在一个实施例中，所述情感状态序列确定模块1408还用于获取所述观测序列对应的候选情感状态路径构成情感状态路径集合，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数计算所述情感状态路径集合中各个候选情感状态路径对应的情感状态路径概率，将计算得到的最大概率所对应的情感状态路径作为观测序列对应的情感状态序列。

在一个实施例中，所述情感状态概率包括静音概率；所述情感状态确定模块1410还用于根据所述情感状态序列中包含的静音状态检测静音帧，根据所述静音帧将所述待检测语音数据进行分段得到非静音子语音段，根据各个非静音子语音段对应的情感状态序列确定各个非静音子语音段对应的情感状态。

如图15所示，在一个实施例中，上述语音情感状态检测装置还包括：

训练语音特征提取模块1412，用于获取训练语音数据，对所述训练语音数据进行分帧处理得到训练语音帧，提取各个训练语音帧对应的语音特征形成训练语音特征矩阵；

标准情感状态获取模块1414，用于获取所述训练语音帧对应的标准情感状态标注，所述标准情感状态标注包括静音标注；

训练模块1416，用于将所述训练语音特征矩阵作为所述情感检测模型的输入，将对应的标准情感状态标注作为期望的输出进行训练，得到目标情感检测模型。

在一个实施例中，所述提取模块还用于对所述待检测语音数据进行分帧处理到的语音帧，获取当前语音帧，获取与当前语音帧对应的扩展语音帧，提取当前语音帧对应的当前语音特征，提取所述扩展语音帧对应的扩展语音特征，根据所述当前语音特征和所述扩展语音特征生成与当前语音帧对应的扩展语音特征向量，根据各个语音帧对应的扩展语音特征向量形成与所述待检测语音数据对应的语音特征矩阵。

在一个实施例中，所述情感状态检测模型为采用深度神经网络模型训练得到的；所述输出模块还用于根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列，将下一层隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点对应的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

在一个实施例中，所述情感状态检测模型为采用循环神经网络模型训练得到的；所述输出模块还用于根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

如图16所示，为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备和车载设备等具有通信功能的电子设备，服务器可以是独立的服务器，也可以是服务器集群。参照图16，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该计算机设备的非易失性存储介质可存储操作系统和计算机程序，该计算机程序被执行时，可使得处理器执行一种语音情感检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种语音情感检测方法。计算机设备的网络接口用于进行网络通信。本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音情感检测装置可以实现为一种计算机程序的形式，计算机程序可在如图16所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成语音情感检测装置的各个程序模块，比如，图14中的获取模块1402，提取模块1404，输出模块1406，情感状态序列确定模块1408，情感状态确定模块1410。各个程序模块中包括计算机程序，计算机程序用于使计算机设备执行本说明书中描述的本申请各个实施例的语音情感检测方法中的步骤，计算机设备中的处理器能够调用计算机设备的非易失性存储介质中存储的语音情感检测装置的各个程序模块，运行对应的可读指令，实现本说明书中语音情感检测装置的各个模块对应的功能。各个程序模块中包括计算机程序，计算机程序用于使计算机设备执行本说明书中描述的本申请各个实施例的语音情感检测方法中的步骤，计算机设备中的处理器能够调用计算机设备的非易失性存储介质中存储的语音情感检测装置的各个程序模块，运行对应的可读指令，实现本说明书中语音情感检测装置的各个模块对应的功能。例如，计算机设备可以通过如图14所示的语音情感检测装置中的获取模块1402获取待检测语音数据；通过提取模块1404对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵；通过输出模块1406将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵；通过情感状态序列确定模块1408将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数；通过情感状态确定模块1410根据所述情感状态序列确定所述待检测语音数据对应的情感状态。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取待检测语音数据；对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵；将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵；将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数；根据所述情感状态序列确定所述待检测语音数据对应的情感状态。

在一个实施例中，所述将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数的步骤包括：将所述语音特征矩阵作为所述情感状态转移模型的观测序列；获取初始概率矩阵，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数确定与所述观测序列对应的情感状态序列。

在一个实施例中，所述获取初始概率矩阵，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数确定与所述观测序列对应的情感状态序列的步骤包括：获取所述观测序列对应的候选情感状态路径构成情感状态路径集合；根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数计算所述情感状态路径集合中各个候选情感状态路径对应的情感状态路径概率；将计算得到的最大概率所对应的情感状态路径作为观测序列对应的情感状态序列。

在一个实施例中，所述情感状态概率包括静音概率；所述根据所述情感状态序列确定与所述待检测的语音数据对应的情感状态的步骤包括：根据所述情感状态序列中包含的静音状态检测静音帧，根据所述静音帧将所述待检测语音数据进行分段得到非静音子语音段；根据各个非静音子语音段对应的情感状态序列确定各个非静音子语音段对应的情感状态。

在一个实施例中，所述处理器在执行将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵的步骤之前，还用于执行以下步骤：获取训练语音数据，对所述训练语音数据进行分帧处理得到训练语音帧，提取各个训练语音帧对应的语音特征形成训练语音特征矩阵；获取所述训练语音帧对应的标准情感状态标注，所述标准情感状态标注包括静音标注；将所述训练语音特征矩阵作为所述情感检测模型的输入，将对应的标准情感状态标注作为期望的输出进行训练，得到目标情感检测模型。

在一个实施例中，所述对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵的步骤包括：对所述待检测语音数据进行分帧处理到的语音帧；获取当前语音帧，获取与当前语音帧对应的扩展语音帧；提取当前语音帧对应的当前语音特征，提取所述扩展语音帧对应的扩展语音特征；根据所述当前语音特征和所述扩展语音特征生成与当前语音帧对应的扩展语音特征向量；根据各个语音帧对应的扩展语音特征向量形成与所述待检测语音数据对应的语音特征矩阵。

在一个实施例中，所述情感状态检测模型为采用深度神经网络模型训练得到的；所述将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵的步骤包括：根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列，将下一层隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点对应的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

在一个实施例中，所述情感状态检测模型为采用循环神经网络模型训练得到的；所述将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵的步骤包括：根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

在一个实施例中，提出一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：获取待检测语音数据；对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵；将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵；将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数；根据所述情感状态序列确定所述待检测语音数据对应的情感状态。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音情感检测方法，所述方法包括：

获取待检测语音数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述情感状态概率矩阵和语音特征矩阵输入已训练的情感状态转移模型得到对应的情感状态序列，所述已训练的情感状态转移模型包括已训练的情感状态转移概率参数的步骤包括：

将所述语音特征矩阵作为所述情感状态转移模型的观测序列；

获取初始概率矩阵，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数确定与所述观测序列对应的情感状态序列。

3.根据权利要求2所述的方法，其特征在于，所述获取初始概率矩阵，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数确定与所述观测序列对应的情感状态序列的步骤包括：

获取所述观测序列对应的候选情感状态路径构成情感状态路径集合；

根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数计算所述情感状态路径集合中各个候选情感状态路径对应的情感状态路径概率；

将计算得到的最大概率所对应的情感状态路径作为观测序列对应的情感状态序列。

4.根据权利要求1所述的方法，其特征在于，所述情感状态概率包括静音概率；

所述根据所述情感状态序列确定与所述待检测的语音数据对应的情感状态的步骤包括：

根据所述情感状态序列中包含的静音状态检测静音帧，根据所述静音帧将所述待检测语音数据进行分段得到非静音子语音段；

根据各个非静音子语音段对应的情感状态序列确定各个非静音子语音段对应的情感状态。

5.根据权利要求1所述的方法，其特征在于，在将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵的步骤之前还包括：

获取训练语音数据，对所述训练语音数据进行分帧处理得到训练语音帧，提取各个训练语音帧对应的语音特征形成训练语音特征矩阵；

获取所述训练语音帧对应的标准情感状态标注，所述标准情感状态标注包括静音标注；

将所述训练语音特征矩阵作为所述情感检测模型的输入，将对应的标准情感状态标注作为期望的输出进行训练，得到目标情感检测模型。

6.根据权利要求1所述的方法，其特征在于，所述对所述待检测语音数据进行分帧处理得到语音帧，提取各个语音帧对应的语音特征形成语音特征矩阵的步骤包括：

对所述待检测语音数据进行分帧处理到的语音帧；

获取当前语音帧，获取与当前语音帧对应的扩展语音帧；

提取当前语音帧对应的当前语音特征，提取所述扩展语音帧对应的扩展语音特征；

根据所述当前语音特征和所述扩展语音特征生成与当前语音帧对应的扩展语音特征向量；

根据各个语音帧对应的扩展语音特征向量形成与所述待检测语音数据对应的语音特征矩阵。

7.根据权利要求1所述的方法，其特征在于，所述情感状态检测模型为采用深度神经网络模型训练得到的；

所述将语音特征矩阵输入已训练的情感状态概率检测模型，输出所述待检测语音数据对应的情感状态概率矩阵的步骤包括：

根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；

根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列，将下一层隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点对应的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

8.根据权利要求1所述的方法，其特征在于，所述情感状态检测模型为采用循环神经网络模型训练得到的；

根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

9.一种语音情感检测装置，所述装置包括：

获取模块，用于获取待检测语音数据；

10.根据权利要求9所述的装置，其特征在于，所述情感状态序列确定模块还用于将所述语音特征矩阵作为所述情感状态转移模型的观测序列，获取初始概率矩阵，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数确定与所述观测序列对应的情感状态序列。

11.根据权利要求10所述的装置，其特征在于，所述情感状态序列确定模块还用于获取所述观测序列对应的候选情感状态路径构成情感状态路径集合，根据所述初始概率矩阵、情感状态概率矩阵和所述情感状态转移概率参数计算所述情感状态路径集合中各个候选情感状态路径对应的情感状态路径概率，将计算得到的最大概率所对应的情感状态路径作为观测序列对应的情感状态序列。

12.根据权利要求9所述的装置，其特征在于，所述情感状态概率包括静音概率；所述情感状态确定模块还用于根据所述情感状态序列中包含的静音状态检测静音帧，根据所述静音帧将所述待检测语音数据进行分段得到非静音子语音段，根据各个非静音子语音段对应的情感状态序列确定各个非静音子语音段对应的情感状态。

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

训练语音特征提取模块，用于获取训练语音数据，对所述训练语音数据进行分帧处理得到训练语音帧，提取各个训练语音帧对应的语音特征形成训练语音特征矩阵；

标准情感状态获取模块，用于获取所述训练语音帧对应的标准情感状态标注，所述标准情感状态标注包括静音标注；

训练模块，用于将所述训练语音特征矩阵作为所述情感检测模型的输入，将对应的标准情感状态标注作为期望的输出进行训练，得到目标情感检测模型。

14.根据权利要求9所述的装置，其特征在于，所述提取模块还用于对所述待检测语音数据进行分帧处理到的语音帧，获取当前语音帧，获取与当前语音帧对应的扩展语音帧，提取当前语音帧对应的当前语音特征，提取所述扩展语音帧对应的扩展语音特征，根据所述当前语音特征和所述扩展语音特征生成与当前语音帧对应的扩展语音特征向量，根据各个语音帧对应的扩展语音特征向量形成与所述待检测语音数据对应的语音特征矩阵。

15.根据权利要求9所述的装置，其特征在于，所述情感状态检测模型为采用深度神经网络模型训练得到的；所述输出模块还用于根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列，将下一层隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点对应的权重和偏差采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

16.根据权利要求9所述的装置，其特征在于，所述情感状态检测模型为采用循环神经网络模型训练得到的；所述输出模块还用于根据所述语音特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的与所述待检测语音数据对应的情感状态概率矩阵。

17.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待检测语音数据；

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

获取待检测语音数据；