CN107705807A

CN107705807A - 基于情绪识别的语音质检方法、装置、设备及存储介质

Info

Publication number: CN107705807A
Application number: CN201710734303.XA
Authority: CN
Inventors: 梁浩; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2018-02-16
Anticipated expiration: 2037-08-24
Also published as: CN107705807B; WO2019037382A1

Abstract

本发明公开一种基于情绪识别的语音质检方法、装置、设备及存储介质。该基于情绪识别的语音质检方法包括：获取待测语音数据；将待测语音数据送入语音情绪识别平台进行情绪识别；将情绪识别结果发送给关联终端，以使关联终端显示情绪识别结果。该基于情绪识别的语音质检方法进行情绪识别时，具有效率高且人工成本低的优点。

Description

基于情绪识别的语音质检方法、装置、设备及存储介质

技术领域

本发明涉及语音质检技术领域，尤其涉及一种基于情绪识别的语音质检方法、装置、设备及存储介质。

背景技术

在银行、证券、保险和P2P(peer-to-peer lending，点对点借贷，以下简称P2T)等服务机构均设有客服语音问答系统，服务机构的坐席人员通过该客服语音问答系统为客户提供服务。语音质检是通过对坐席人员与客服之间的通话进行监控，以评估通话质量、服务质量、业务解决质量和满意度等质检结果，以便基于质检结果提高服务质量。当前语音质检主要采用人工抽检方式进行质检，存在抽检效率低、应变不及时和需耗费大量人力物力的问题。

发明内容

本发明实施例提供一种基于情绪识别的语音质检方法、装置、设备及存储介质，以解决当前语音质检采用人工抽检方式存在的问题。

第一方面，本发明实施例提供一种基于情绪识别的语音质检方法，包括：

获取待测语音数据；

对所述待测语音数据进行特征提取，获取语音特征；

采用情绪识别模型对所述语音特征进行识别，获取情绪识别结果；

将所述情绪识别结果发送给关联终端，以使所述关联终端显示所述情绪识别结果。

第二方面，本发明实施例提供一种基于情绪识别的语音质检装置，包括：

待测语音数据获取模块，用于获取待测语音数据；

语音数据特征获取模块，用于对所述待测语音数据进行特征提取，获取语音特征；

情绪识别结果获取模块，用于采用情绪识别模型对所述语音特征进行识别，获取情绪识别结果；

情绪识别结果反馈模块，用于将所述情绪识别结果发送给关联终端，以使所述关联终端显示所述情绪识别结果。

第三方面，本发明实施例提供一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现基于情绪识别的语音质检方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现基于情绪识别的语音质检方法的步骤。

本发明实施例提供的基于情绪识别的语音质检方法、装置、设备及存储介质中，通过对待测语音数据进行特征提取，以获取语音特征，再采用情绪识别模型对语音特征进行识别，以获取情绪识别结果，并通过关联终端显示该情绪识别结果，以使用户通过查看该情绪识别结果，了解该待测语音数据对应的说话人情绪。该基于情绪识别的语音质检方法、装置、设备及存储介质中，可实现对待测语音数据进行智能识别，以获取情绪识别结果，其识别过程处理效率高，可实现对说话人对应的待测语音数据进行及时且全面抽检，无需人工干预，有利于节省人工成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1中基于情绪识别的语音质检方法的一流程图。

图2是图1中步骤S30的一具体流程图。

图3是图1中步骤S30的另一具体流程图。

图4是本发明实施例1中基于情绪识别的语音质检方法的另一具体流程图。

图5是本发明实施例2中基于情绪识别的语音质检装置的一原理框图。

图6是本发明实施例4中终端设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1示出本实施例中基于情绪识别的语音质检方法。该基于情绪识别的语音质检方法应用在银行、证券、保险和P2P(peer-to-peerlending，点对点借贷，简称P2P)等金融机构或需要进行情绪识别的其他机构的终端设备中，用于实现对说话人的待测语音数据进行识别，确定说话人的情绪。其中，终端设备包括但不限于PC端、智能手机、平板电脑和客服语音问答系统等设备。本实施例中，终端设备是客服语音问答系统。如图1所示，该基于情绪识别的语音质检方法包括如下步骤：

S10：获取待测语音数据。

其中,待测语音数据是指终端设备采集到的说话人的语音数据。该待测语音数据可以是wav、mp3或其他格式的语音数据。可以理解地，每一待测语音数据携带一数据来源ID，该数据来源ID是用于唯一识别待测语音数据说法人的标识。当坐席人员与客户进行电话沟通时，终端设备上集成的录音模块或与终端设备相连的录音设备会采集待测语音数据。

本实施例中，待测语音数据的获取方式包括在线实时获取和离线获取两种方式。其中，在线实时获取是指在客户和坐席人员通话过程中对客户和坐席人员双方的通话内容进行录音，以获取待测语音数据。离线获取是指从与终端设备相连的系统后台获取已保存在数据库中的待测语音数据。可以理解地，每一待测语音数据携带有数据来源ID，该数据来源ID所对应的说话人可以是客户也可以是坐席人员。因此，该数据来源ID可以是用于唯一识别客户的客户ID，也可以是用于唯一识别坐席人员的坐席ID。其中，客户ID可以是客户的身份证号、手机号或者在机构办理业务时的开户号。坐席ID可以是坐席人员在机构内部的工号。

S20：对待测语音数据进行特征提取，获取语音特征。

可以理解地，语音特征包括但不限于韵律特征、音质特征、频谱特征、词汇特征和声纹特征。其中，韵律特征，又叫超音质特征或者超音段特征，是指语音中除音质特征之外的音高、音长和音强方面的变化。该韵律特征包括但不限于本实施例中的基音频率、发音持续时间、发音振幅和发音语速。音质特征包括但不限于本实施例中的共振峰F1-F3、频带能量分布、谐波信噪比和短时能量抖动。频谱特征，又称振动谱特征，是指将复杂振荡分解为振幅不同和频率不同的谐振荡，这些谐振荡的幅值按频率排列形成的图形。频谱特征与韵律特征和音质特征相融合，以提高特征参数的抗噪声效果。本实施例中，频谱特征采用能够反映人耳听觉特性的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，以下简称MFCC)。词汇特征是用于体现待测语音数据中用词的词性特征，包括但不限于本实施例中的积极词和消极词。词性特征与其他语音特征结合，有利于识别待测语音数据对应的说话人的情绪。声纹特征(即i-vector特征)是与说话人相关的特征，其与其他语音特征结合，在语音识别过程中可更有效提高识别的准确率。

具体地，对待测语音数据进行特征提取的过程具体包括对待测语音数据进行预加重处理，对处理后的语音数据进行分帧、加窗运算,然后通过快速傅里叶变换和对数运算处理，最后经离散余弦变换以获取上述的语音特征。再将上述语音特征拼接成特征向量，将特征向量作为输入情绪识别模型进行情绪识别。

S30：采用情绪识别模型对语音特征进行识别，获取情绪识别结果。

其中，情绪识别模型是机构内预先训练好的用于进行身份验证的模型。情绪识别结果包括但不限于识别出语音特征对应的说话人说话时带有的高兴、愤怒、悲伤、烦噪和平静等情绪。具体地，终端设备采用预先训练好的情绪识别模型对语音特征进行识别，以获取说话人说话时携带的高兴、愤怒、悲伤、烦噪和平静等情绪识别结果。本实施例中，采用情绪识别模型对语音特征进行智能识别，以获取情绪识别结果，其识别过程处理效率高，可实现对说话人对应的待测语音数据进行及时且全面抽检，无需人工干预，有利于节省人工成本。

在一具体实施方式中，S30中，采用情绪识别模型对语音特征进行识别，获取情绪识别结果，具体包括如下步骤，如图2所示：

S311：采用基于神经网络的情绪识别模型对语音特征进行识别，判断能否输出准确识别结果。

其中，基于神经网络的情绪识别模型是采用神经网络模型对训练语音数据进行训练获取的用于识别语音数据中的情绪的模型。基于神经网络的情绪识别模型包括输入层、隐藏层和输出层，将步骤S20获取的语音特征输入基于神经网络的情绪识别模型的输入层，通过隐藏层对语音特征进行识别处理，再通过输出层输出识别结果，该识别结果包括准确识别结果和模糊识别结果。准确识别结果是用于指示语音特征对应一具体情绪的识别结果；而模糊识别结果是用于指示语音特征无法对应一具体情绪的识别结果。

具体地，基于神经网络的情绪识别模型的训练过程如下：首先，获取训练语音数据，并对训练语音数据进行情绪标注，以使训练语音数据携带情绪标签。其中，训练语音数据是用于训练情绪识别模型的语音数据。每种情绪标签对应的训练语音数据各选取500条，以使高兴、愤怒、悲伤、烦噪和平静这五种情绪对应的训练语音数据等比例，避免情绪识别模型训练过程中出现过拟合现象。然后，对携带情绪标签的训练语音数据进行特征提取，获取携带情绪标签的训练语音特征，具体用训练语音特征x和对应的情绪标签y表示，如(训练语音特征1，高兴)、(训练语音特征2，愤怒)……(训练语音特征x，情绪y)。再在采用神经网络模型中的逻辑回归算法对所有训练语音特征进行迭代计算，以将高兴、愤怒、悲伤、烦噪和平静等情绪对应的特征从训练语音特征中提取出来。在两万次迭代后，训练的模型的损失发生收敛，则停止训练，得到最终训练好的基于神经网络的情绪识别模型，使得该基于神经网络的情绪识别模型具有较强的非线性拟合能力，可映射复杂的非线性关系，并具有较强的鲁棒性和记忆能力。进一步地，本实施例的神经网络具体为深度神经网络(DeepNeural Networks，即DNN)。

在基于神经网络的情绪识别模型对待测语音数据对应的语音特征进行识别时，将待测语音数据对应的语音特征输入到基于神经网络的情绪识别模型的输入层中，基于神经网络的情绪识别模型的隐藏层根据预先训练过程学习到的特性进行情绪识别，获取对应的情绪识别结果，并将情绪识别结果从输出层输出。在基于神经网络的情绪识别模型对待测语音数据进行识别过程中，隐藏层分别计算获取待测语音数据为高兴、愤怒、悲伤、烦噪或平静等情绪的概率，并比较最高概率和第二高概率的差值是否大于预设概率差值。若最高概率和第二高概率的差值大于预设概率差值，则将最高概率对应的情绪作为准确识别结果输出。若最高概率和第二高概率的差值不大于预设概率差值，则基于神经网络的情绪识别模型不能输出准确识别结果，而是输出模糊识别结果。该预设概率差值是预先设置的用于评估能否确定情绪类别的值。

如若预设概率差值为20％时，若识别出语音特征为高兴、愤怒、悲伤、烦噪或平静分别为2％、60％、15％、20％和3％，则最高概率为60％，第二高概率为20％，则最高概率和第二高概率的差值为40％，大于预设概率差值，则将最高概率对应的情绪作为识别结果输出。反之，若识别出语音特征为高兴、愤怒、悲伤、烦噪或平静分别为2％、40％、20％、35％和3％，则最高概率为40％，第二高概率为35％，最高概率和第二高概率的减值小于预设概率差值，不能输出准确识别结果，而是输出模糊识别结果。

S312：若能输出准确识别结果，则将准确识别结果作为情绪识别结果。

本实施例中，若基于神经网络的情绪识别模型能够输出准确识别结果，说明该待测语音数据对应的说话人情绪属于高兴、愤怒、悲伤、烦噪和平静的最高概率远大于第二高概率，两者的差值大于预设概率差值，则基于神经网络的情绪识别模型输出的识别结果较准确，可直接将准确识别结果作为情绪识别结果输出。

S313：若不能输出准确识别结果，则采用基于支持向量机的情绪识别模型对语音特征进行识别，获取情绪识别结果。

本实施例中，若基于神经网络的情绪识别模型不能输出准确识别结果，即基于神经网络的情绪识别模型输出模糊识别结果，说明该待测语音数据对应的说话人情绪属于高兴、愤怒、悲伤、烦噪和平静中的最高概率远和第二高概率的差值不大于预设概率差值，即不能准确识别出说话人对应一具体情绪。因此，需再采用基于支持向量机的情绪识别模型对语音特征进行进一步识别，以获取情绪识别结果，从而进一步提高情绪识别的准确度。

其中，基于支持向量机的情绪识别模型是采用支持向量机模型对训练语音数据进行训练获取的用于识别语音数据中的情绪的模型。其中，支持向量机(support vectormachine，即SVM)是通过支持向量运算的分类器，支持向量机可实现线性分类和非线性分类。支持向量机的情绪识别模型计算复杂度较小，可根据少数支持向量决定最终结果，在训练过程中有助于抓住关键样本，剔除冗余样本，具有较好的鲁棒性。

其中，支持向量机的情绪识别模型的训练过程如下：SVM训练是为了在某个超平面上将不同类别的情绪属性分开，该情绪属性包括高兴、愤怒、悲伤、烦躁和平静这五种情绪。本实施例中，根据这五种情绪属性将超平面分割为五维超平面，在五维超平面中寻找将五种情绪分割开的分割线，获取分割线的表达式即可完成SVM的训练。具体地，通过输入训练语音数据的语音特征(即韵律特征、音质特征、频谱特征、词汇特征和声纹特征)，对待测数据进行音频特征提取，得到特征对应的最优求解空间，该空间即为对应的情绪表达空间，完成对输入训练语音数据的情绪分类与判断。

SVM是一个二分类模型，其实现方式可以为二叉树形式，即对每一属性分别判断，以确定属于该情绪属性或者不属于该情绪属性。由于SVM为二分类模型，因此，本实现例中基于支持向量机的情绪识别模型中需分别创建基于SVM的高兴识别模型、愤怒识别模型、悲伤识别模型、烦躁识别模型和平静识别模型。在基于支持向量机的情绪识别模型对待测语音数据对应的语音特征进行识别时，需使语音特征分别通过高兴识别模型、愤怒识别模型、悲伤识别模型、烦躁识别模型和平静识别模型进行识别，分别获取相应的情绪得分；再将五个情绪得分进行比较，选取得分最高的情绪作为情绪识别结果。

本实施例中，采用基于神经网络的情绪识别模型先对待测语音数据对应的语音特征进行识别，对于情绪属性较明确的语音特征的识别较准确，而且识别过程较快；然后再采用支持向量机的情绪识别模型对基于神经网络的情绪识别模型不能输出准确识别结果的待测语音数据对应的语音特征进行进一识别，有利于提高语音的准确性。

在一具体实施方式中，由于终端设备获取待测语音数据携带数据来源ID，该数据来源ID用于指示该待测语音数据的说话人。如图3所示，该基于情绪识别的语音质检方法中，步骤S30，采用情绪识别模型对语音特征进行识别，获取情绪识别结果，具体包括如下步骤：

S321：基于待测语音数据的数据来源ID，获取与数据来源ID相关联的目标情绪识别模型。

其中，该目标情绪识别模型是针对携带相同的数据来源ID的训练语音数据进行训练的情绪识别模型。该目标情绪识别模型可以是根据本实施例中提到的情绪识别模型训练方法训练出的情绪识别模型，该情绪识别模型带有自己的数据来源ID，即该目标情绪识别模型可以是基于神经网络的情绪识别模型，也可以是基于支持向量机的情绪识别模型，其与步骤S311-S313中的情绪识别模型的区别点在于其训练语音数据携带相同的数据来源ID。可以理解地，该目标情绪识别模型可以是预先采用携带相同数据来源ID的训练语音数据进行训练好后存储在数据库的情绪识别模型。在情绪识别过程中，终端设备根据接收到的待测语音数据中的数据来源ID查询数据库，判断数据库中是否存在与数据来源ID相关联的目标情绪识别模型；若存在该目标情绪识别模型，则执行步骤S322；若不存在该目标情绪识别模型，则执行步骤S311-S313，采用不是与数据来源ID关联的情绪识别模型进行语音情绪识别，即步骤S311-S313中的情绪识别模型可应用于所有说话人对应的待测语音数据进行识别。

S322：采用目标情绪识别模型对语音特征进行识别，获取情绪识别结果。

由于目标情绪识别模型是由于采用相同数据来源ID训练出来的情绪识别模型，是针对特定说话人的情绪识别模型，而待测语音数据中携带相同的情绪识别模型，因此，采用目标情绪识别模型对待测语音数据对应的语音特征进行识别时，可使情绪识别结果更准确。可以理解地，该目标情绪识别模型只是针对携带相同数据来源ID的待测语音数据进行识别，针对性强且识别结果更准确。

在一具体实施方式中，由于步骤S321和步骤S322中应用到与数据来源ID相关联的目标情绪识别模型，因此，该基于情绪识别的语音质检方法中，步骤S321之前，还包括预先训练与数据来源ID相关联的目标情绪识别模型这一步骤。如图4所示，预先训练与数据来源ID相关联的目标情绪识别模型具体包括如下步骤：

S331：基于数据来源ID，获取数据库中与数据来源ID关联的训练语音数据。

该训练语音数据可以是坐席人员与客户进行电话沟通时，终端设备上集成的录音模块或与终端设备相连的录音设备采集的语音数据，该训练语音数据存储在与终端设备相连的数据库中，并与数据来源ID关联存储。在需训练与数据来源ID相关联的目标情绪识别模型时，需查询数据库，以获取所有与数据来源ID关联的训练语音数据。

S332：判断训练语音数据的数量是否达到情绪模型训练阈值。

情绪模型训练阈值是预先设置好能够训练情绪识别模型所需训练语音数据的数量。若训练语音数据的数量达到该情绪模型训练阈值，则说明数据库存储有能够训练出一与数据来源ID相关联目标情绪识别模型所需的训练语音数据。若训练语音数据的数量没有达到该情绪模型训练阈值，则无法训练目标情绪识别模型。

S333：若训练语音数据达到情绪模型训练阈值，则基于与数据来源ID关联的训练语音数据进行情绪识别模型训练，获取目标情绪识别模型。

本实施例中，基于与数据来源ID关联的训练语音数据进行情绪识别模型训练的训练过程与步骤S311-S313中提及的基于神经网络的情绪识别模型和/或基于支持向量机的情绪识别模型的训练过程相同，为避免重复，在此不一一赘述。由于采用与数据来源ID相对应的训练语音数据进行情绪模型训练获取的目标情绪识别模型更加贴合数据来源ID对应的说话人的情绪，使得所训练得到的目标情绪识别模型对携带相同数据来源ID对应的待测语音数据的情绪识别更准确，可有效避免基于不同说话人的训练语音数据所导致的误差。

由于客户与坐席人员在通话过程中，终端设备上集成的录音模块或与终端设备相连的录音设备会对通话过程进行录音，并将获取的语音数据存储在数据库中，每一语音数据与数据来源ID关联存储，且该数据来源ID可以是客户ID也可以是坐席ID。数据库定时统计每一数据来源ID对应的语音数量的数量，在任一数据来源ID对应的语音数据的数量达到情绪模型训练阈值时，执行步骤S333，以获取与数据来源ID相对应的目标情绪识别模型。在对待测语音数据进行识别时，先查找数据库中是否存储有与待测语音数据所携带的数据来源ID相关联的目标情绪识别模型；若存在目标情绪识别模型，则执行步骤S321-S322，以保证情绪识别的准确性；若不存在目标情绪识别模型，则执行步骤S311-S313。

S40：将情绪识别结果发送给关联终端，以使关联终端显示情绪识别结果。

其中，关联终端可以为与坐席人员或质检人员进行人机交互的终端，其中，质检人员是用于对机构内部坐席人员服务进行质检的人员。该终端包括但不限于可显示情绪识别结果的智能手机、PC、平板电脑等终端。本实施例中，金融机构或需进行情绪识别的其他机构的终端设备在进行情绪识别后，将获取的情绪识别结果发送给关联终端，以使关联终端显示情绪识别结果，使得使用该关联终端的坐席人员或质检人员可根据情绪识别结果，了解待测语音数据对应的说话人的情绪。

本实施例中，若待测语音数据的说话人为客户，则终端设备将情绪识别结果发送给与该客户进行通话的坐席人员，以使坐席人员根据客户的情绪调节沟通方式(如客户愤怒时，提醒坐席人员进行适当安抚)，从而提高服务质量，提升客户对机构的服务满意度。若待测语音数据的说话人为坐席人员，则终端设备将情绪识别结果发送给质检人员，以使质检人员对坐席人员与客户沟通过程进行监控，对坐席人员的工作状态做出评价，实行奖惩，促使坐席人员更好的给客户提供服务。

本发明实施例提供的基于情绪识别的语音质检方法，通过对待测语音数据进行特征提取，以获取语音特征，再采用情绪识别模型对语音特征进行识别，以获取情绪识别结果，并通过关联终端显示该情绪识别结果，以使用户通过查看该情绪识别结果，了解该待测语音数据对应的说话人情绪。本实施例中，通过使关联终端显示待测语音数据对应的情绪识别结果，有助于辅助坐席人员提高对客户服务的服务质量，从而提高客户对机构的服务满意度。该基于情绪识别的语音质检方法中，可实现对待测语音数据进行智能识别，以获取情绪识别结果，其识别过程处理效率高，可实现对说话人对应的待测语音数据进行及时且全面抽检，无需人工干预，有利于节省人工成本。

在一具体实施方式中，该基于情绪识别的语音质检方法中，步骤S10具体包括：获取呼叫终端实时采集的待测语音数据。

本实施例中，该呼叫终端可以是与客户进行语音通信的终端或者与坐席人员进行语音通信的终端。呼叫终端可以是固定电话、移动电话或者对讲机等语音通话设备。其中，呼叫终端与设置在金融机构或需进行情绪识别的其他机构的终端设备通信相连，以使终端设备可获取呼叫终端实时采集的待测语音数据，便于对该待测语音数据进行实时监控。具体地，终端设备获取呼叫终端实时采集的待测语音数据，是指终端设备获取客户与坐席人员通话过程中实时采集到的待测语音数据，以便于实现对正在通话的客户或坐席人员的情绪进行监控。

步骤S40具体包括：将情绪识别结果实时发送给关联终端，以使关联终端显示情绪识别结果。

本实施例中，终端设备将获取的情绪识别结果实时发送给关联终端，以使关联终端可实时显示待测语音数据对应的说话人的情绪，促使坐席人员调整沟通方式，从而提高客户对坐席人员甚至机构的服务满意度。该基于情绪识别的语音质检方法采用人工智能识别方式，处理效率高，且其过程无需配备专业的质检人员进行抽检，可节省人工成本，降低欺诈风险。

本发明实施例提供的基于情绪识别的语音质检方法，通过获取呼叫终端实时采集的待测语音数据，再对待测语音数据进行特征提取，以获取语音特征，然后采用情绪识别模型对语音特征进行识别，以获取情绪识别结果，将情绪识别结果实时发送给关联终端，通过关联终端显示该情绪识别结果，以使关联终端对应的坐席人员或质检人员可通过查看该情绪识别结果，了解该待测语音数据对应的说话人情绪，并进行沟通方式调整，可有助于提高机构的服务质量，进而提高客户对机构的服务满意度。该基于情绪识别的语音质检方法中，可实现对待测语音数据进行智能识别，以获取情绪识别结果，其识别过程处理效率高，可实现对说话人对应的待测语音数据进行及时且全面抽检，无需人工干预，有利于节省人工成本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

对应于实施例1中基于情绪识别的语音质检方法，图5示出与实施例1中基于情绪识别的语音质检方法一一对应的基于情绪识别的语音质检装置的原理框图。如图5所示，该基于情绪识别的语音质检装置包括待测语音数据获取模块10、语音数据特征获取模块20、情绪识别结果获取模块30和情绪识别结果反馈模块40。其中，待测语音数据获取模块10、语音数据特征获取模块20、情绪识别结果获取模块30和情绪识别结果反馈模块40的实现功能与实施例中基于情绪识别的语音质检方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

待测语音数据获取模块10，用于获取待测语音数据。

语音数据特征获取模块20，用于对待测语音数据进行特征提取，获取语音特征。

情绪识别结果获取模块30，用于采用情绪识别模型对语音特征进行识别，获取情绪识别结果。

情绪识别结果反馈模块40，用于将情绪识别结果发送给关联终端，以使关联终端显示情绪识别结果。

优选地，情绪识别结果获取模块包30包括识别结果输出判断单元311、第一识别结果处理单元312和第二识别结果处理单元313。

识别结果输出判断单元311，用于采用基于神经网络的情绪识别模型对语音特征进行识别，判断能否输出准确识别结果。

第一识别结果处理单元312，用于在能输出准确识别结果时，将准确识别结果作为情绪识别结果。

第二识别结果处理单元313，用于在不能输出准确识别结果时，采用基于支持向量机的情绪识别模型对语音特征进行识别，获取情绪识别结果。

优选地，情绪识别结果获取模块30包括目标模型获取单元321和识别结果获取单元322。

目标模型获取单元321，用于基于待测语音数据的数据来源ID，获取与数据来源ID相关联的目标情绪识别模型。

识别结果获取单元322，用于采用目标情绪识别模型对语音特征进行识别，获取情绪识别结果。

优选地，该基于情绪识别的语音质检装置还包括目标模型训练模块50。

目标模型训练模块50，用于预先训练与数据来源ID相关联的目标情绪识别模型。

优选地，目标模型训练模块50包括训练语音数据获取单元51、数量判断单元52和目标模型训练单元53。

训练语音数据获取单元51，用于基于数据来源ID，获取数据库中与数据来源ID关联的训练语音数据。

数量判断单元52，用于判断训练语音数据的数量是否达到情绪模型训练阈值。

目标模型训练单元53，用于在训练语音数据达到情绪模型训练阈值时，基于与数据来源ID关联的训练语音数据进行情绪识别模型训练，获取目标情绪识别模型。

优选地，待测语音数据获取模块10，用于获取关联终端实时采集的待测语音数据。

情绪识别结果反馈模块40，用于将情绪识别结果实时发送给关联终端，以使所述关联终端显示所述情绪识别结果。

本实施例所提供的基于情绪识别的语音质检装置中，待测语音数据获取模块10可以在线实时获取待测语音数据也可以离线获取数据库中存储的语音数据，满足不同的语音数据获取要求。语音数据特征获取模块20用于对待测语音数据进行特征提取，获取语音特征，语音特征提取方法为采用神经网络方法和支持向量机识别方法处理两种方式结合。情绪识别结果获取模块30采用情绪识别模型对语音特征进行识别，获取情绪识别结果，其中情绪识别模型的建立采用基于神经网络的情绪识别模型训练和支持向量机的情绪识别模型训练两种方法进行识别，使得输出结果更加准确，贴合实际。另外，情绪识别结果获取模块30还可以通过待测语音数据的数据来源ID获取与数据来源ID相关联的目标情绪识别模型进行情绪识别。情绪识别结果反馈模块40，用于将情绪识别结果发送给关联终端，以使关联终端显示情绪识别结果，关联终端可以实时显示测试结果，提醒坐席人员根据客户情绪及时调整与客户的对话策略，保证通话愉快顺利的进行，质检人员也可以高效率的完成对坐席人员的抽检。

实施例3

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中基于情绪识别的语音质检方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中基于情绪识别的语音质检装置中各模块/单元的功能，为避免重复，这里不再赘述。

实施例4

图6是本发明一实施例提供的终端设备的示意图。如图6所示，该实施例的终端设备60包括处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63。处理器61执行计算机程序63时实现实施例1中基于情绪识别的语音质检方法的各个步骤，例如图1所示的步骤S10至S13。或者，处理器61执行计算机程序63时实现上述各装置实施例中各模块/单元的功能，例如图5所示的待测语音数据获取模块10、语音数据特征获取模块20、情绪识别结果获取模块30和情绪识别结果反馈模块40。

示例性的，计算机程序63可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器62中，并由处理器61执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序63在终端设备60中的执行过程。例如，计算机程序63可以被分割成实施例2中的待测语音数据获取模块10、语音数据特征获取模块20、情绪识别结果获取模块30、情绪识别结果反馈模块40和目标模型训练模块50，其功能作用在实施例2中有详细描述，在此不一一赘述。

终端设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器61、存储器62。本领域技术人员可以理解，图6仅仅是终端设备60的示例，并不构成对终端设备60的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器61可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器62可以是终端设备60的内部存储单元，例如终端设备60的硬盘或内存。存储器62也可以是终端设备60的外部存储设备，例如终端设备60上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器62还可以既包括终端设备60的内部存储单元也包括外部存储设备。存储器62用于存储计算机程序以及终端设备所需的其他程序和数据。存储器62还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于情绪识别的语音质检方法，其特征在于，包括：

获取待测语音数据；

对所述待测语音数据进行特征提取，获取语音特征；

2.如权利要求1所述的基于情绪识别的语音质检方法，其特征在于，所述采用情绪识别模型对所述语音特征进行识别，获取情绪识别结果，包括：

采用基于神经网络的情绪识别模型对所述语音特征进行识别，判断能否输出准确识别结果；

若能输出所述准确识别结果，则将所述准确识别结果作为所述情绪识别结果；

若不能输出所述准确识别结果，则采用基于支持向量机的情绪识别模型对所述语音特征进行识别，获取所述情绪识别结果。

3.如权利要求1所述的基于情绪识别的语音质检方法，其特征在于，所述待测语音数据携带数据来源ID；

所述采用情绪识别模型对所述语音特征进行识别，获取情绪识别结果，包括：

基于所述待测语音数据的数据来源ID，获取与所述数据来源ID相关联的目标情绪识别模型；

采用所述目标情绪识别模型对所述语音特征进行识别，获取所述情绪识别结果。

4.如权利要求3所述的基于情绪识别的语音质检方法，其特征在于，所述基于情绪识别的语音质检方法还包括：预先训练与所述数据来源ID相关联的目标情绪识别模型；

所述预先训练与所述数据来源ID相关联的目标情绪识别模型，包括：

基于所述数据来源ID，获取数据库中与所述数据来源ID关联的训练语音数据；

判断所述训练语音数据的数量是否达到所述情绪模型训练阈值；

若所述训练语音数据达到所述情绪模型训练阈值，则基于与所述数据来源ID关联的所述训练语音数据进行情绪识别模型训练，获取所述目标情绪识别模型。

5.如权利要求1所述的基于情绪识别的语音质检方法，其特征在于，所述获取待测语音数据，包括：获取呼叫终端实时采集的所述待测语音数据；

所述将所述情绪识别结果发送给关联终端，以使所述关联终端显示所述情绪识别结果，包括：将所述情绪识别结果实时发送给所述关联终端，以使所述关联终端显示所述情绪识别结果。

6.一种基于情绪识别的语音质检装置，其特征在于，包括：

待测语音数据获取模块，用于获取待测语音数据；

7.如权利要求6所述的基于情绪识别的语音质检装置，其特征在于，所述情绪识别结果获取模块包括：

识别结果输出判断单元，用于采用基于神经网络的情绪识别模型对所述语音特征进行识别，判断能否输出准确识别结果；

第一识别结果处理单元，用于在能输出所述准确识别结果时，将所述准确识别结果作为所述情绪识别结果；

第二识别结果处理单元，用于在不能输出所述准确识别结果时，采用基于支持向量机的情绪识别模型对所述语音特征进行识别，获取所述情绪识别结果；

或者，所述待测语音数据携带数据来源ID；

所述情绪识别结果获取模块包括：

目标模型获取单元，用于基于所述待测语音数据的数据来源ID，获取与所述数据来源ID相关联的目标情绪识别模型；

识别结果获取单元，用于采用所述目标情绪识别模型对所述语音特征进行识别，获取所述情绪识别结果。

8.如权利要求6所述的基于情绪识别的语音质检装置，其特征在于，所述基于情绪识别的语音质检装置还包括：目标模型训练模块，用于预先训练与所述数据来源ID相关联的目标情绪识别模型；

所述目标模型训练模块包括：

训练语音数据获取单元，用于基于所述数据来源ID，获取数据库中与所述数据来源ID关联的训练语音数据；

数量判断单元，用于判断所述训练语音数据的数量是否达到所述情绪模型训练阈值；

目标模型训练单元，用于在所述训练语音数据达到所述情绪模型训练阈值时，基于与所述数据来源ID关联的所述训练语音数据进行情绪识别模型训练，获取所述目标情绪识别模型；

所述待测语音数据获取模块，还用于获取关联终端实时采集的所述待测语音数据；

所述情绪识别结果反馈模块，还用于将所述情绪识别结果实时发送给所述关联终端，以使所述关联终端显示所述情绪识别结果。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于情绪识别的语音质检方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于情绪识别的语音质检方法的步骤。