CN108122552B

CN108122552B - 语音情绪识别方法和装置

Info

Publication number: CN108122552B
Application number: CN201711360276.0A
Authority: CN
Inventors: 余世经; 朱频频
Original assignee: Nanjing Xiaoaizhizhen Network Technology Co ltd; Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Nanjing xiaoaizhizhen Network Technology Co.,Ltd.; Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-10-15
Anticipated expiration: 2037-12-15
Also published as: CN108122552A

Abstract

本发明实施例提供了一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质，解决了现有技术无法实时监测呼叫中心系统中客服和客户的情绪状态的问题。该语音情绪识别方法包括：提取待识别音频流中的语音片段的音频特征向量，其中语音片段对应待识别音频流中的一段话；将语音片段的音频特征向量与多个情绪特征模型进行匹配，其中多个情绪特征模型分别对应多个情绪分类之一；以及将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为语音片段的情绪分类。

Description

语音情绪识别方法和装置

技术领域

本发明涉及智能交互技术领域，具体涉及一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质。

背景技术

呼叫中心系统是指一种利用现代通讯与计算机技术，自动灵活地处理大量各种不同的电话呼入/呼出业务来实现服务运营的操作系统。随着经济发展，呼叫中心系统中客服交互的业务量也越来越大，及时和有效的跟踪和监测客服通话中客服和客户的情绪状态，对于企业提升其服务质量具有重要的意义。目前，大多数企业主要依靠聘请专门的质检人员对通话录音进行抽样监听来实现这一目的，这一方面会给企业带来额外的成本，另一方面由于抽样覆盖范围的不确定性、以及人为判定含有的主观感情色彩，使得人工质检的效果存在一定的局限性。此外，质检人员只能在通话结束，获得录音以后对客服和客户的情绪表现进行事后的评价，而难以做到在通话进行当中去实时的监测客服和客户的情绪状态，当通话中客服或客户出现非常负面的情绪时，也无法及时有效的对客服人员进行提醒。

发明内容

有鉴于此，本发明实施例提供了一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质，解决了现有技术无法实时监测呼叫中心系统中客服和客户的情绪状态的问题。

本发明一实施例提供的一种语音情绪识别方法包括：

提取待识别音频流中的语音片段的音频特征向量，其中语音片段对应待识别音频流中的一段话；

将语音片段的音频特征向量与多个情绪特征模型进行匹配，其中多个情绪特征模型分别对应多个情绪分类之一；以及

将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为语音片段的情绪分类；

其中，所述音频特征向量包括以下几种音频特征中的一种或多种：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征。

本发明一实施例提供的一种语音情绪识别装置包括：

音频特征提取模块，配置为提取待识别音频流中的语音片段的音频特征向量，其中语音片段对应待识别音频流中的一段话；

匹配模块，配置为将语音片段的音频特征向量与多个情绪特征模型进行匹配，其中多个情绪特征模型分别对应多个情绪分类之一；以及

情绪判定模块，配置为将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为语音片段的情绪分类；

本发明一实施例提供的一种计算机设备，包括存储器、处理器以及存储在存储器上被处理器执行的计算机程序，处理器执行计算机程序时实现如前所述方法的步骤。

本发明一实施例提供的一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前所述方法的步骤。

本发明实施例提供的一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质，通过提取待识别音频流中的语音片段的音频特征向量，并利用预先建立的情绪特征模型对所提取的音频特征向量进行匹配，从而实现了对语音片段的实时情绪识别。这样在例如呼叫中心系统的应用场景下，可以实现在客服交互通话中实时监测客服和客户的情绪状态，可显著提高采用该呼叫中心系统的企业的服务质量和客户的客服体验。

附图说明

图1所示为本发明一实施例所提供的语音情绪识别方法的流程示意图。

图2所示为本发明一实施例所提供的语音情绪识别方法中建立情绪特征模型的预学习过程的流程示意图。

图3所示为本发明一实施例所提供的语音情绪识别方法中提取语音片段的流程示意图。

图4所示为本发明一实施例所提供的语音情绪识别方法中确定待识别音频流中的语音开始帧以及语音结束帧的流程示意图。

图5所示为本发明一实施例所提供的语音情绪识别方法中检测发音帧或非发音帧的流程示意图。

图6所示为本发明一实施例提供的一种语音情绪识别装置的结构示意图。

图7所示为本发明另一实施例提供的一种语音情绪识别装置的结构示意图。

图8所述为本发明另一实施例提供的一种语音情绪识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1所示为本发明一实施例所提供的语音情绪识别方法的流程示意图。如图1所示，该语音情绪识别方法包括：

步骤101：提取待识别音频流中的语音片段的音频特征向量，其中语音片段对应待识别音频流中的一段话。

音频特征向量包括至少一个音频特征。这样其实是利用一个至少一维的向量空间中的向量来表征所有的音频特征，在该向量空间中，每个维度对应一个音频特征的一种计算表征方式，音频特征向量的方向和取值可看做是由很多个音频特征各自的不同计算表征方式在向量空间内求和而成，其中每个音频特征的每种计算表征方式可看做音频特征向量的一个分量。包括了不同情绪的语音片段必然有着不同的音频特征，本发明正是利用不同情绪与不同音频特征之间的对应关系来识别语音片段的情绪的。具体而言，音频特征向量可包括以下几种音频特征中的一种或多种：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征。在本发明一实施例中，这些音频特征可通过以下计算表征方式中的一种或多种来表征：比例值、均值、最大值、中值以及标准差。

能量特征指的是语音片段的功率谱特征，可通过功率谱求和得到。计算公式可为：

其中E表示能量特征的取值，k代表帧的编号，j代表频率点的编号，N为帧长，P表示功率谱的取值。在本发明一实施例中，能量特征可包括短时能量一阶差分、和/或预设频率以下的能量大小。短时能量一阶差分的计算公式可为：

ΔE(k)＝(-2*E(k-2)-E(k-1)+E(k+1)+2*E(k+2))/3；

预设频率以下的能量大小可通过比例值来衡量，例如500Hz以下频段能量占总能量的比例值的计算公式可为：

其中j₅₀₀为500Hz对应的频点编号，k1为待识别的语音片段的语音开始帧的编号，k2为待识别的语音片段的语音结束帧的编号。

发音帧数特征指的是语音片段内发音帧的数量大小，该发音帧的数量大小也可通过比例值来衡量。例如记该语音片段内发音帧和不发音帧的数量分别为n1和n2，则发音帧数和不发音帧数的比例为p2＝n1/n2，发音帧数和总帧数的比例为：p3＝n1/(n1+n2)。

基音频率特征可采用基于线性预测(LPC)误差信号的自相关函数的算法来提取。基音频率特征可包括基音频率和/或基音频率一阶差分。基音频率的算法流程可如下：首先，计算发音帧x(k)的线性预测系数并计算线性预测估计信号

其次，计算误差信号的自相关函数c1：

然后，在对应基音频率为80－500Hz的偏移量范围内，寻找自相关函数的最大值，记录其对应的偏移量Δh。基音频率F0的计算公式为：F0＝Fs/Δh，其中Fs为采样频率。

共振峰特征可采用基于线性预测的多项式求根的算法来提取，可包括第一共振峰、第二共振峰和第三共振峰，以及该三个共振峰的一阶差分。谐波噪声比(HNR)特征可采用基于独立分量分析(ICA)的算法来提取。梅尔倒谱(MFCC)系数特征可包括1－12阶梅尔倒谱系数以及1－12阶梅尔倒谱系数一阶差分，可采用通用的梅尔倒谱系数计算流程获取，在此不再赘述。

应当理解，具体提取哪些音频特征向量可根据实际场景的需求而定，本发明对所提取音频特征向量所对应音频特征的种类、数量以及向量方向均不做限定。然而在本发明一实施例中，为了获得最优的情绪识别效果，可同时提取上述的六个音频特征：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征。例如，当同时提取上述的六个音频特征时，所提取的音频特征向量就可包括如下表1所示的173个分量，采用下表1的音频特征向量以及高斯模型(GMM)作为情绪特征模型来对casia汉语情感语料库进行语音情绪识别的准确度可以达到74％至80％。

表1

在本发明一实施例中，待识别音频流可为客服交互音频流，语音片段对应待识别音频流中的一次用户输入语音段或一次客服输入语音段。由于客户交互过程往往是一问一答的形式，因此一次用户输入语音段就可对应一次交互过程中用户的一次提问或回答，而一次客服输入语音段就可对应一次交互过程中客服人员的一次提问或回答。由于一般认为用户或客服在一次提问或回答中能完整的表达情绪，因此通过将一次用户输入语音段或一次客服输入语音段作为情绪识别的单元，既能保证情绪识别的完整性，又能保证客服交互过程中情绪识别的实时性。

步骤102：将语音片段的音频特征向量与多个情绪特征模型进行匹配，其中多个情绪特征模型分别对应多个情绪分类之一。

这些情绪特征模型可通过对包括多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习而建立，这样就相当于建立起了情绪特征模型与情绪分类之间的对应关系，每个情绪特征模型可对应一个情绪分类。如图2所示，该建立情绪特征模型的预学习过程可包括：首先将包括多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行聚类处理，得到预设情绪分类的聚类结果(S21)；然后，根据聚类结果，将每个聚类中的预设语音片段的音频特征向量训练为一个情绪特征模型(S22)。基于这些情绪特征模型，通过基于音频特征向量的匹配过程即可获得与当前语音片段对应的情绪特征模型，并进而获得对应的情绪分类。

在本发明一实施例中，这些情绪特征模型可为混合高斯模型(GMM)(混合度可为5)。这样可先采用K－means算法对同一情绪分类的语音样本的情绪特征向量进行聚类，根据聚类结果计算出混合高斯模型的参数的初始值(迭代次数可为50)。然后再采用E－M算法训练出各类情绪分类对应的混合高斯模型(迭代次数为200)。当要利用这些混合高斯模型进行情绪分类的匹配过程时，可通过计算当前语音片段的音频特征向量分别与多个情绪特征模型之间的似然概率，然后通过衡量该似然概率来确定匹配的情绪特征模型，例如将似然概率大于预设阈值且最大的情绪特征模型作为匹配的情绪特征模型。

应当理解，虽然在上面的描述中阐述了情绪特征模型可为混合高斯模型，但其实该情绪特征模型还可通过其他形式实现，例如支持向量机(SVM)模型、K最近邻分类算法(KNN)模型、马尔科夫模型(HMM)以及神经网络(ANN)模型等。本发明对该情绪特征模型的具体实现形式并不做严格限定。同时应当理解，根据情绪特征模型实现方式的变化，匹配过程的实现形式也可有所调整，本发明对该匹配过程的具体实现形式同样不做限定。

在本发明一实施例中，该多个情绪分类可包括：满意分类、平静分类以及烦躁分类，以对应客服交互场景中用户可能出现的情绪状态。在另一实施例中，该多个情绪分类可包括：满意分类、平静分类、烦躁分类以及生气分类，以对应客服交互场景中客服人员可能出现的情绪状态。即，待识别音频流为客服交互场景中的用户客服交互音频流时，若当前语音片段对应一次客服输入语音段时，该多个情绪分类可包括：满意分类、平静分类以及烦躁分类；若当前语音片段对应一次用户输入语音段时，该多个情绪分类可包括：满意分类、平静分类、烦躁分类以及生气分类。通过上述的对用户以及客服的情绪分类，可以更简洁的适用于呼叫中心系统，减少计算量并满足呼叫中心系统的情感识别需求。然而应当理解，这些情绪分类的种类和数量可根据实际的应用场景需求而调整，本发明对情绪分类的种类和数量同样不做严格限定。

步骤103：将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为语音片段的情绪分类。

如前所述，由于情绪特征模型与情绪分类之间存在对应关系，因此当根据步骤102的匹配过程确定了相匹配的情绪特征模型后，该匹配的情绪特征模型所对应的情绪分类便为所识别出的情绪分类。例如，当这些情绪特征模型为混合高斯模型时，该匹配过程就可通过衡量当前语音片段的音频特征向量分别与多个情绪特征模型之间的似然概率的方式实现，然后将似然概率大于预设阈值且最大的情绪特征模型所对应的情绪分类作为语音片段的情绪分类即可。

由此可见，本发明实施例提供的一种语音情绪识别方法，通过提取待识别音频流中的语音片段的音频特征向量，并利用预先建立的情绪特征模型对所提取的音频特征向量进行匹配，从而实现了对语音片段的实时情绪识别。这样在例如呼叫中心系统的应用场景下，可以实现在客服交互通话中实时监测客服和客户的情绪状态，可显著提高采用该呼叫中心系统的企业的服务质量和客户的客服体验。

还应当理解，基于本发明实施例提供的语音情绪识别方法所识别出的情绪分类，还可进一步配合具体的场景需求实现更多灵活的二次应用。在本发明一实施例中，可实时显示当前识别出的语音片段的情绪分类，具体的实时显示方式可根据实际的场景需求而调整。例如，可以信号灯的不同颜色来表征不同的情绪分类，蓝灯代表“满意”，绿灯代表“平静”，黄灯代表“烦躁”，红灯代表“生气”。这样根据信号灯颜色的变化，可以实时的提醒客服人员和质检人员目前通话所处的情绪状态。在另一实施例中，还可统计预设时间段内的所识别出的语音片段的情绪分类，例如将通话录音的音频编号、语音片段的开始点和结束点的时间戳，以及情绪识别结果记录下来，最终形成一个情绪识别资料库，并统计出一段时间内各种情绪出现的次数和概率，做出曲线图或表格，用于企业评判一段时间内客服人员服务质量的参考依据。在另一实施例中，还可实时发送与所识别出的语音片段的情绪分类对应的情绪应答信息，这可适用于无人工值守的机器客服场景。例如，当实时识别出目前通话中用户已经处于“生气”状态时，则自动回复用户与“生气”状态对应的安抚话语，以平复用户心情，达到继续沟通的目的。至于情绪分类与情绪应答信息之间的对应关系可通过预学习过程预先建立。

在本发明一实施例中，在提取待识别音频流中的语音片段的音频特征向量之前，需要先将语音片段从待识别音频流中提取出来，以便于后续以语音片段为单位进行情绪识别，该提取过程可以是实时进行的。

图3所示为本发明一实施例所提供的语音情绪识别方法中提取语音片段的流程示意图。如图3所示，该语音片段的提取方法包括：

步骤301：确定待识别音频流中的语音开始帧以及语音结束帧。

语音开始帧为一个语音片段的开始帧，语音结束帧为一个语音片段的结束帧。当确定了语音开始帧和语音结束帧后，语音开始帧和语音结束帧之间的部分即为所要提取的语音片段。

步骤302：提取语音开始帧与语音结束帧之间的音频流部分作为语音片段。

在本发明一实施例中，如图4所示，可具体通过如下步骤确定待识别音频流中的语音开始帧以及语音结束帧：

步骤401：判断待识别音频流中的语音帧是发音帧还是非发音帧。

在本发明一实施例中，该发音帧或非发音帧的判断过程可基于对语音端点检测(VAD)判决参数以及功率谱均值的判断实现，如图5所示，具体如下：

步骤4011：对待识别音频流进行分帧、加窗、预加重等预处理。窗函数可采用汉明窗，预加重系数可取0.97。记预处理后的第k帧信号为x(k)＝[x(k*N),x(k*N+1),...,x(k*N+N-1)]，N为帧长，例如可取256。然而应当理解，是否需要进行预处理过程，以及需要经过哪些预处理过程可根据实际的场景需求而定，本发明对此不做限定。

步骤4012：对预处理后的第k帧信号x(k)做离散傅里叶变换(DFT)并计算其功率谱，DFT长度取为和帧长一致：

P(k,j)＝|FFT(x(k))|²,j＝0,1,...,N-1；

这里j代表频率点的编号。

步骤4013：计算后验信噪比γ和先验信噪比ξ：

ξ(k,j)＝αξ(k-1,j)+(1-α)max(γ(k,j)-1,0)；

这里的系数α＝0.98；λ为背景噪声功率谱，可以检测开始的最初5至10帧的功率谱算数平均值作为初始值；min()和max()分别为取最小函数和取最大函数；先验信噪比ξ(k,j)可初始化为0.98。

步骤4014：计算似然比参数η：

步骤4015：计算VAD判决参数Γ和功率谱均值ρ，

VAD判决参数可初始化为1。

步骤4016：判断第k帧信号的VAD判决参数Γ(k)是否大于等于第一预设VAD阈值，并且ρ(k)是否大于等于预设功率均值阈值。在本发明一实施例中，该第一预设VAD阈值可为5，该预设功率均值阈值可为0.01。

步骤4017：如果步骤4016中的两个判断的结果均为是，则将第k帧音频信号判定为发音帧。

步骤4018：如果步骤4016中的两个判断中至少一个的结果为否，将第k帧音频信号判定为不发音帧，执行步骤4019。

步骤4019：按下面公式更新噪声功率谱λ：

λ(k+1,j)＝β*λ(k,j)+(1-β)*P(k,j)；

这里的系数β为平滑系数，可取值为0.98。

由此可见，通过不断循环如图5所示的方法步骤便可实时监测出待识别音频流中的发音帧和非发音帧。这些发音帧和非发音帧的识别结果是后续识别语音开始帧和语音结束帧的基础。

步骤402：在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时，当有第一预设数量个语音帧被连续判断为发音帧时，将该第一预设数量个语音帧中的第一个语音帧作为当前语音片段的语音开始帧。

在本发明一实施例中，可首先设置两个端点标志flag＿start和flag＿end，分别代表语音开始帧和语音结束帧的检测状态变量，ture和false分别代表出现和未出现。当flag＿end＝ture时，则说明上一个语音片段的结束帧已经被确定，此时开始检测下一个语音片段的开始帧。而当连续30帧信号的VAD判决参数满足大于等于第二预设阈值时，说明该30帧已经进入了一个语音片段，此时将该30帧中的第一个语音帧作为语音开始帧，flag＿start＝ture；否则lag＿start＝false。

步骤403：在当前语音片段的所述语音开始帧之后，当有第二预设数量个语音帧被连续判断为非发音帧时，说明该第二预设数量个语音帧已经不属于该语音片段，此时将第二预设数量个语音帧中的第一个语音帧作为当前语音片段的语音结束帧。

具体而言，仍沿用上面的例子，当flag＿start＝ture时，则说明已经进入了一个语音片段且该语音片段的语音起始帧已经被确定，此时开始检查当前语音片段的结束帧。而当连续30帧信号的VAD判决参数满足小于第三预设阈值时，判定为当前语音片段结束，flag＿end＝ture，对应30帧的第一帧为语音结束帧；否则flag＿end＝false。

在本发明一实施例中，为了进一步提高语音开始帧和语音结束帧的判断准确度，避免误判，可使得该第二预设阈值和第三预设阈值均大于前述发音帧和非发音帧识别过程中的第一预设阈值，例如该第二预设阈值可为40，该第三预设阈值可为20。

由此可见，通过如图4所示的方法步骤，便可确定待识别音频流中的语音开始帧以及语音结束帧，并可提取语音开始帧和语音结束帧之间的语音片段进行情绪识别。

应当理解，上述确定语音开始帧和语音结束帧的过程可以是实时进行的，也可以是非实时进行的，本发明对图4所示的方法步骤的执行时机并不做限定。

应当理解，虽然在上述图4和图5的实施例描述中引入了一些计算系数、参数的初始值以及一些判断阈值，但这些计算系数、参数的初始值以及判断阈值可根据实际的应用场景而调整，本发明对这些计算系数、参数的初始值以及判断阈值的大小不做限定。

图6所示为本发明一实施例提供的一种语音情绪识别装置的结构示意图。如图6所示，该语音情绪识别装置60包括：音频特征提取模块61、匹配模块62和情绪判定模块63。

音频特征提取模块61配置为提取待识别音频流中的语音片段的音频特征向量，其中语音片段对应待识别音频流中的一段话。匹配模块62配置为将语音片段的音频特征向量与多个情绪特征模型进行匹配，其中多个情绪特征模型分别对应多个情绪分类之一。情绪判定模块63配置为将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为语音片段的情绪分类。

其中，音频特征向量包括以下几种音频特征中的一种或多种：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征。

由此可见，本发明实施例提供的一种语音情绪识别装置60，通过基于提取待识别音频流中的语音片段的音频特征向量，并利用预先建立的情绪特征模型对所提取的音频特征向量进行匹配，从而实现了对语音片段的实时情绪识别。这样在例如呼叫中心系统的应用场景下，可以实现在客服交互通话中实时监测客服和客户的情绪状态，可显著提高采用该呼叫中心系统的企业的服务质量和客户的客服体验。

在本发明一实施例中，待识别音频流可为客服交互音频流，语音片段对应待识别音频流中的一次用户输入语音段或一次客服输入语音段。由于一般认为用户或客服在一次提问或回答中能完整的表达情绪，因此通过将一次用户输入语音段或一次客服输入语音段作为情绪识别的单元，既能保证后续情绪识别的完整性，又能保证客服交互过程中情绪识别的实时性。

在本发明一实施例中，该多个情绪分类可包括：满意分类、平静分类以及烦躁分类，以对应客服交互场景中用户可能出现的情绪状态；或可包括，满意分类、平静分类、烦躁分类以及生气分类，以对应客服交互场景中客服人员可能出现的情绪状态。例如，待识别音频流为客服交互场景中的用户客服交互音频流时，若当前语音片段对应一次客服输入语音段时，该多个情绪分类可包括：满意分类、平静分类以及烦躁分类；若当前语音片段对应一次用户输入语音段时，该多个情绪分类可包括：满意分类、平静分类、烦躁分类以及生气分类。通过上述的对用户以及客服的情绪分类，可以更简洁的适用于呼叫中心系统，减少计算量并满足呼叫中心系统的情感识别需求。然而应当理解，这些情绪分类的种类和数量可根据实际的应用场景需求而调整，本发明对情绪分类的种类和数量同样不做严格限定。

在本发明一实施例中，该语音情绪识别装置60可进一步包括：情绪模型建立模块64，配置为通过对包括多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立多个情绪特征模型。基于这些情绪特征模型，通过基于音频特征向量的匹配过程即可获得与当前语音片段对应的情绪特征模型，并进而获得对应的情绪分类。然而应当理解，这些情绪特征模型也可以并非是由该语音情绪识别装置60所预先建立，此时该语音情绪识别装置60也可并不包括该情绪模型建立模块64。

在本发明一实施例中，该情绪模型建立模块64可包括：聚类单元641和训练单元642。聚类单元641配置为将包括多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行聚类处理，得到预设情绪分类的聚类结果。训练单元642配置为根据聚类结果，将每个聚类中的预设语音片段的音频特征向量训练为一个情绪特征模型。

在本发明一实施例中，当情绪特征模型为混合高斯模型时，则匹配模块62进一步配置为，计算语音片段的音频特征向量分别与多个情绪特征模型之间的似然概率；其中，情绪判定模块63进一步配置为：将似然概率大于预设阈值且最大的情绪特征模型所对应的情绪分类作为语音片段的情绪分类。应当理解，虽然在上面的描述中阐述了情绪特征模型可为混合高斯模型，但其实该情绪特征模型还可通过其他形式实现，例如支持向量机(SVM)模型、K最近邻分类算法(KNN)模型、马尔科夫模型(HMM)以及神经网络(ANN)模型等。本发明对该情绪特征模型的具体实现形式并不做严格限定。

图7所示为本发明另一实施例提供的一种语音情绪识别装置的结构示意图。相比于图6所示的语音情绪识别装置60，图7所示的语音情绪识别装置60可进一步包括：语音片段提取模块65，配置为提取待识别音频流中的语音片段，以便于后续以语音片段为单位进行情绪识别。该提取过程可以是实时进行的。

在本发明一实施例中，该语音片段提取模块65可包括：语句端点检测单元651和提取单元652。语句端点检测单元651配置为确定待识别音频流中的语音开始帧以及语音结束帧。提取单元652配置为提取语音开始帧与语音结束帧之间的音频流部分作为语音片段。

在本发明一实施例中，语句端点检测单元651可包括：第一判断子单元6511、语音开始帧判定子单元6512以及语音结束帧判定子单元6513。第一判断子单元6511配置为判断待识别音频流中的语音帧是发音帧还是非发音帧。语音开始帧判定子单元6512配置为在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时，当有第一预设数量个语音帧被连续判断为发音帧时，将第一预设数量个语音帧中的第一个语音帧作为当前语音片段的语音开始帧。语音结束帧判定子单元6513配置为在当前语音片段的所述语音开始帧之后，当有第二预设数量个语音帧被连续判断为非发音帧时，将第二预设数量个语音帧中的第一个语音帧作为当前语音片段的语音结束帧。

通过语句端点检测单元651便可确定待识别音频流中的语音开始帧以及语音结束帧，并可提取语音开始帧和语音结束帧之间的语音片段进行情绪识别。

在本发明一实施例中，能量特征可包括：短时能量一阶差分，和/或预设频率以下的能量大小；和/或，基音频率特征包括：基音频率和/或基音频率一阶差分；和/或，共振峰特征包括以下几项中的一种或多种：第一共振峰、第二共振峰、第三共振峰、第一共振峰一阶差分、第二共振峰一阶差分以及第三共振峰一阶差分；和/或，梅尔倒谱系数特征包括1－12阶梅尔倒谱系数和/或1－12阶梅尔倒谱系数一阶差分。

在本发明一实施例中，向量方向可包括以下几项中的一种或多种：比例值、均值、最大值、中值以及标准差。

在本发明一实施例中，向量方向可包括比例值；其中，能量特征包括预设频率以下的能量大小，预设频率以下的能量大小的比例值为预设频率以下的能量与总体能量的比例值；和/或，发音帧数特征的比例值为发音帧数与不发音帧数的比例值。

图8所述为本发明另一实施例提供的一种语音情绪识别装置的结构示意图。如图8所示，该语音情绪识别装置60还可进一步包括：情绪呈现模块66、和/或统计模块67、和/或应答模块68、和/或语音拾取模块69。

情绪呈现模块66配置为显示当前识别出的语音片段的情绪分类。具体的实时显示方式可根据实际的场景需求而调整。例如，情绪呈现模块66可以信号灯的不同颜色来表征不同的情绪分类，蓝灯代表“满意”，绿灯代表“平静”，黄灯代表“烦躁”，红灯代表“生气”。这样根据信号灯颜色的变化，可以实时的提醒客服人员和质检人员目前通话所处的情绪状态。

统计模块67配置为统计预设时间段内的所识别出的语音片段的情绪分类。例如将通话录音的音频编号、语音片段的开始点和结束点的时间戳，以及情绪识别结果记录下来，最终形成一个情绪识别资料库，并统计出一段时间内各种情绪出现的次数和概率，做出曲线图或表格，用于企业评判一段时间内客服人员服务质量的参考依据。

应答模块68配置为发送与所识别出的语音片段的情绪分类对应的情绪应答信息。例如，当实时识别出目前通话中用户已经处于“生气”状态时，则自动回复用户与“生气”状态对应的安抚话语，以平复用户心情，达到继续沟通的目的。至于情绪分类与情绪应答信息之间的对应关系可通过预学习过程预先建立。

语音拾取模块69配置为获取该待识别音频流。例如，语音拾取模块69可用传声器拾取客服或客户的语音信号，经采样和量化后变成数字信号。在本发明一实施例中，语音拾取模块69可由麦克风和声卡组成，采样率可为16KHz或8KHz，采用16bit量化。

应当理解，上述实施例所提供的语音情绪识别装置60中记载的每个模块或单元都与前述的一个方法步骤相对应。由此，前述的方法步骤描述的操作和特征同样适用于语音情绪识别装置60及其中所包含的对应的模块和单元，重复的内容在此不再赘述。

本发明一实施例还提供一种计算机设备，包括存储器、处理器以及存储在存储器上被处理器执行的计算机程序，其特征在于，处理器执行计算机程序时实现如前任一实施例所述的语音情绪识别方法。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如前任一实施例所述的语音情绪识别方法。该计算机存储介质可以为任何有形媒介，例如软盘、CD－ROM、DVD、硬盘驱动器、甚至网络介质等。

应当理解，虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品，但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD－ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当理解，尽管在上文的详细描述中提及了装置的若干模块或单元，但是这种划分仅仅是示例性而非强制性的。实际上，根据本发明的示例性实施方式，上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现，反之，上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外，上文描述的某些模块/单元在某些应用场景下可被省略。

应当理解，本发明实施例描述中所用到的限定词“第一”、“第二”和“第三”仅用于更清楚的阐述技术方案，并不能用于限制本发明的保护范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种语音情绪识别方法，其特征在于，包括：

提取待识别音频流中的语音片段的音频特征向量，其中所述语音片段对应所述待识别音频流中的一段话，所述待识别音频流为用户客服交互音频流；

将所述语音片段的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类之一；

将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类；以及

将所述情绪分类实时显示；

其中，所述音频特征向量包括以下几种音频特征中的一种或多种：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征；

其中，在提取待识别音频流中的语音片段的音频特征向量之前，进一步包括：

确定所述待识别音频流中的语音开始帧以及语音结束帧，其中，所述语音开始帧以及所述语音结束帧基于所述待识别音频流中预设数量个语音帧的判决参数和功率谱均值确定，第k帧的判决参数Γ(k)以及功率谱均值ρ(k)计算公式分别为

其中，N为帧长，η为似然比参数，η的计算公式为

P(k,j)＝|FFT(x(k))|²,j＝0,1,...,N-1，其中，γ为后验信噪比，ξ为先验信噪比，计算公式分别为

ξ(k,j)＝αξ(k-1,j)+(1-α)max(γ(k,j)-1,0)，其中，λ为背景噪声功率谱，j为频率点的编号，x(k)为第k帧信号，min()和max()分别为取最小函数和取最大函数；以及

提取所述语音开始帧与所述语音结束帧之间的音频流部分作为所述语音片段。

2.根据权利要求1所述的语音情绪识别方法，其特征在于，所述语音片段对应所述待识别音频流中的一次用户输入语音段或一次客服输入语音段。

3.根据权利要求2所述的语音情绪识别方法，其特征在于，所述语音片段对应所述待识别音频流中的一次客服输入语音段，所述多个情绪分类包括：满意分类、平静分类以及烦躁分类；或，

所述语音片段对应所述待识别音频流中的一次用户输入语音段，所述多个情绪分类包括：满意分类、平静分类、烦躁分类以及生气分类。

4.根据权利要求1所述的语音情绪识别方法，其特征在于，所述待识别音频流为用户客服交互音频流，所述多个情绪分类包括：

满意分类、平静分类、以及烦躁分类；或

满意分类、平静分类、烦躁分类以及生气分类。

5.根据权利要求1所述的语音情绪识别方法，其特征在于，所述多个情绪特征模型通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习而建立。

6.根据权利要求5所述的语音情绪识别方法，其特征在于，所述预学习过程包括：

将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行聚类处理，得到预设情绪分类的聚类结果；以及

根据所述聚类结果，将每个聚类中的所述预设语音片段的音频特征向量训练为一个所述情绪特征模型。

7.根据权利要求1所述的语音情绪识别方法，其特征在于，当所述情绪特征模型为混合高斯模型时，则所述将所述语音片段的音频特征向量与多个情绪特征模型进行匹配包括：

计算所述语音片段的音频特征向量分别与所述多个情绪特征模型之间的似然概率；

其中，所述将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类包括：

将似然概率大于预设阈值且最大的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类。

8.根据权利要求1所述的语音情绪识别方法，其特征在于，所述确定所述待识别音频流中的语音开始帧以及语音结束帧包括：

判断所述待识别音频流中的语音帧是发音帧还是非发音帧；

在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时，当有第一预设数量个语音帧被连续判断为发音帧时，将所述第一预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音开始帧；以及

在当前语音片段的所述语音开始帧之后，当有第二预设数量个语音帧被连续判断为非发音帧时，将所述第二预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音结束帧。

9.根据权利要求1所述的语音情绪识别方法，其特征在于，所述能量特征包括：短时能量一阶差分，和/或预设频率以下的能量大小；和/或，

所述基音频率特征包括：基音频率和/或基音频率一阶差分；和/或，

所述共振峰特征包括以下几项中的一种或多种：第一共振峰、第二共振峰、第三共振峰、第一共振峰一阶差分、第二共振峰一阶差分以及第三共振峰一阶差分；和/或，

所述梅尔倒谱系数特征包括1－12阶梅尔倒谱系数和/或1－12阶梅尔倒谱系数一阶差分。

10.根据权利要求1所述的语音情绪识别方法，其特征在于，所述音频特征通过以下计算表征方式中的一种或多种来表征：比例值、均值、最大值、中值以及标准差。

11.根据权利要求1所述的语音情绪识别方法，其特征在于，所述能量特征包括：短时能量一阶差分的均值、最大值、中值以及标准差，和/或预设频率以下的能量与总体能量的比例值；和/或，

所述发音帧数特征包括：发音帧数和不发音帧数的比例值，和/或发音帧数和总帧数的比例值；

所述基音频率特征包括：基音频率的均值、最大值、中值以及标准差，和/或基音频率一阶差分的均值、最大值、中值以及标准差；和/或，

所述共振峰特征包括以下几项中的一种或多种：第一共振峰的均值、最大值、中值以及标准差，第二共振峰的均值、最大值、中值以及标准差，第三共振峰的均值、最大值、中值以及标准差，第一共振峰一阶差分的均值、最大值、中值以及标准差，第二共振峰一阶差分的均值、最大值、中值以及标准差，以及第三共振峰一阶差分的均值、最大值、中值以及标准差；和/或，

所述梅尔倒谱系数特征包括1－12阶梅尔倒谱系数的均值、最大值、中值以及标准差，和/或1－12阶梅尔倒谱系数一阶差分的均值、最大值、中值以及标准差。

12.根据权利要求1所述的语音情绪识别方法，其特征在于，进一步包括：

显示当前识别出的所述语音片段的情绪分类；和/或，

统计预设时间段内的所识别出的所述语音片段的情绪分类；和/或，

发送与所识别出的所述语音片段的情绪分类对应的情绪应答信息。

13.一种语音情绪识别装置，其特征在于，包括：

音频特征提取模块，配置为提取待识别音频流中的语音片段的音频特征向量，所述待识别音频流为客服交互音频流，其中所述语音片段对应所述待识别音频流中的一段话；

匹配模块，配置为将所述语音片段的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类之一；

情绪判定模块，配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类；以及

显示模块，配置为将所述匹配结果实时显示；

其中所述语音情绪识别装置进一步包括：

语音片段提取模块，配置为提取待识别音频流中的所述语音片段；其中，所述语音片段提取模块包括：

语句端点检测单元，配置为确定所述待识别音频流中的语音开始帧以及语音结束帧，其中，所述语音开始帧以及所述语音结束帧基于所述待识别音频流中预设数量个语音帧的判决参数和功率谱均值确定，第k帧的判决参数Γ(k)以及功率谱均值ρ(k)计算公式分别为

其中，N为帧长，η为似然比参数，η的计算公式为

提取单元，配置为提取所述语音开始帧与所述语音结束帧之间的音频流部分作为所述语音片段。

14.根据权利要求13所述的语音情绪识别装置，其特征在于，所述语音片段对应所述待识别音频流中的一次用户输入语音段或一次客服输入语音段。

15.根据权利要求14所述的语音情绪识别装置，其特征在于，所述语音片段对应所述待识别音频流中的一次客服输入语音段，所述多个情绪分类包括：满意分类、平静分类以及烦躁分类；或，

所述语音片段对应所述待识别音频流中的一次用户输入语音段，所述多个情绪分类：满意分类、平静分类、烦躁分类以及生气分类。

16.根据权利要求13所述的语音情绪识别装置，其特征在于，所述待识别音频流为用户客服交互音频流呼叫中心系统，所述多个情绪分类包括：

满意分类、平静分类、以及烦躁分类；或

满意分类、平静分类、烦躁分类以及生气分类。

17.根据权利要求13所述的语音情绪识别装置，其特征在于，进一步包括：

情绪模型建立模块，配置为通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立所述多个情绪特征模型。

18.根据权利要求17所述的语音情绪识别装置，其特征在于，所述情绪模型建立模块包括：

聚类单元，配置为将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行聚类处理，得到预设情绪分类的聚类结果；以及

训练单元，配置为根据所述聚类结果，将每个聚类中的所述预设语音片段的音频特征向量训练为一个所述情绪特征模型。

19.根据权利要求13所述的语音情绪识别装置，其特征在于，当所述情绪特征模型为混合高斯模型时，则所述匹配模块进一步配置为，计算所述语音片段的音频特征向量分别与所述多个情绪特征模型之间的似然概率；

其中，所述情绪判定模块进一步配置为：将似然概率大于预设阈值且最大的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类。

20.根据权利要求13所述的语音情绪识别装置，其特征在于，所述语句端点检测单元包括：

第一判断子单元，配置为判断所述待识别音频流中的语音帧是发音帧还是非发音帧；

语音开始帧判定子单元，配置为在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时，当有第一预设数量个语音帧被连续判断为发音帧时，将所述第一预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音开始帧；以及

语音结束帧判定子单元，配置为在当前语音片段的所述语音开始帧之后，当有第二预设数量个语音帧被连续判断为非发音帧时，将所述第二预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音结束帧。

21.根据权利要求13所述的语音情绪识别装置，其特征在于，所述能量特征包括：短时能量一阶差分，和/或预设频率以下的能量大小；和/或，

22.根据权利要求13或21所述的语音情绪识别装置，其特征在于，所述音频特征通过以下计算表征方式中的一种或多种来表征：比例值、均值、最大值、中值以及标准差。

23.根据权利要求13所述的语音情绪识别装置，其特征在于，所述能量特征包括：短时能量一阶差分的均值、最大值、中值以及标准差，和/或预设频率以下的能量与总体能量的比例值；和/或，

24.根据权利要求13所述的语音情绪识别装置，其特征在于，进一步包括：

情绪呈现模块，配置为显示当前识别出的所述语音片段的情绪分类；和/或，

统计模块，配置为统计预设时间段内的所识别出的所述语音片段的情绪分类；和/或，

应答模块，配置为发送与所识别出的所述语音片段的情绪分类对应的情绪应答信息。

25.一种计算机设备，包括存储器、处理器以及存储在所述存储器上被所述处理器执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至12中任一项所述方法的步骤。

26.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述方法的步骤。