CN111508530B

CN111508530B - 语音情感识别方法、装置及存储介质

Info

Publication number: CN111508530B
Application number: CN202010284382.0A
Authority: CN
Inventors: 张婧琦; 段建波; 邹耿鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2024-02-13
Anticipated expiration: 2040-04-13
Also published as: CN111508530A

Abstract

本发明提供一种语音情感识别方法、装置及存储介质。通过对第一对象与第二对象之间对话产生的语音数据进行预处理，得到三个语音片段集合，根据第一对象和第二对象在此语音数据中的会话顺序，确定出三个语音片段集合与第一对象、第二对象及其他类的映射关系，在此映射关系的基础上，基于预先确定的目标对象获取与目标对象对应的目标语音片段集合，然后根据目标语音片段集合和语音情感识别模型识别得到目标对象在语音对话中的情感类别，通过该方法，可以识别出语音数据中任一会话方在此对话中的情感类别，同时提升语音情感识别结果的准确性。

Description

语音情感识别方法、装置及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音情感识别方法、装置及存储介质。

背景技术

在传统客服场景下，为了保证服务质量，需要有专门的客服质检员对服务记录进行抽查监听及评分，并形成质量报告反馈于业务人员和客服人员。其中，识别客服通话过程中客服和用户的情绪状态，能够有效监测服务质量情况。但客服质检员在抽样和统计过程存在耗时、效率较低、抽样中存在的问题难以覆盖全盘数据等问题。

现有的一种端到端的语音情感识别方案包括如下步骤：1、对接入系统的语音数据进行重采样，统一输入语音的采样频率，多声道数据提取左声道语音数据；2、对重采样后的语音数据进行切分，提取有效语音段，过滤掉静音或噪声部分；3、提取句子语音数据的音素特征，将每条句子语音数据转成音素序列，经词嵌入模型训练得到音素嵌入模型，通过音素嵌入模型将音素序列转换成音素向量序列。统一所有的音素向量序列长度；4、对句子语音数据做加窗分帧的处理，经快速傅里叶变换和梅尔滤波处理获得句子语音数据在时频域上的梅尔倒谱图，对倒谱图求一阶差分值和二阶差分值，进而获得包含语音静态特征和动态特征的倒谱特征图；5、基于深度神经网络确定语音情感识别模型，得到音频情绪识别结果。

然而，上述语音情感识别方法存在如下缺陷：(1)语音特征少，只用了梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients)，语音数据利用率低；(2)依赖语音转文本的准确率，并损失了语音本身的情感信息，难以准确反映人的情绪；(3)只能处理多声道的会话，即通过左右声道区分说话人的角色。

发明内容

本发明提供了一种语音情感识别方法、装置及存储介质，能够提高语音情感识别的准确度。

第一方面，本发明提供了一种语音情感识别方法，包括：

确定待识别的语音数据和目标对象，所述语音数据是基于第一对象与第二对象之间的语音对话产生的，所述目标对象选自所述第一对象或所述第二对象；

获取所述第一对象和所述第二对象之间的会话顺序；

对所述语音数据进行预处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合；

根据所述会话顺序建立所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系；

根据所述映射关系和所述目标对象，获取与所述目标对象对应的目标语音片段集合；

根据所述目标语音片段集合和预设的语音情感识别模型，识别所述目标对象在所述语音对话中的情感类别。

第二方面，本发明提供了一种语音情感识别装置，包括：

确定模块，用于确定待识别的语音数据和目标对象，所述语音数据是基于第一对象与第二对象之间的语音对话产生的，所述目标对象选自所述第一对象或所述第二对象；

会话顺序获取模块，用于获取所述第一对象和所述第二对象之间的会话顺序；

预处理模块，用于对所述语音数据进行预处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合；

映射关系建立模块，用于根据所述会话顺序建立所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系；

目标语音片段集合获取模块，用于根据所述映射关系和所述目标对象，获取与所述目标对象对应的目标语音片段集合；

情感类别识别模块，用于根据所述目标语音片段集合和预设的语音情感识别模型，识别所述目标对象在所述语音对话中的情感类别。

本发明第三方面提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如第一方面所述的语音情感识别方法。

本发明第四方面提供了一种计算机存储介质，所述存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如第一方面所述的语音情感识别方法。

本发明提供的一种语音情感识别方法、装置及存储介质，具有如下技术效果：

本发明方案对第一对象与第二对象之间对话产生的语音数据进行预处理，得到三个语音片段集合，根据第一对象和第二对象在此语音数据中的会话顺序，确定出三个语音片段集合与第一对象、第二对象及其他类的映射关系，在此映射关系的基础上，基于预先确定的目标对象获取与目标对象对应的目标语音片段集合，然后根据目标语音片段集合和语音情感识别模型识别得到目标对象在语音对话中的情感类别，其中，目标语音对象选自第一对象或第二对象，通过该方法，可以识别出语音数据中任一会话方在此对话中的情感类别，同时，通过预处理步骤对语音数据中各会话角色的音频进行拆分和汇总，筛除了不属于会话角色的音频内容，得到与会话对象准确对应的会话数据，基于该数据进行语音情感识别，能够规避会话中其他角色对象及杂音对语音情感识别结果的不利影响，提升语音情感识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明构思的一实施例的语音情感识别系统的结构图；

图1A是本发明实施例示出的数据共享系统；

图2是本发明提供的语音情感识别方法的一种实施例的流程示意图；

图3是本发明提供的将语音数据切割为三个以上语音片段的一种实施例的流程示意图；

图4是本发明提供的建立语音片段集合与第一对象、第二对象和其他类的映射关系的一种实施例的流程示意图；

图5是本发明提供的基于目标语音片段集合和语音情感识别模型进行语音情感识别的一种实施例的流程示意图；

图6是本发明提供的语音情感识别方法的一种应用场景的示意图；

图7是本发明提供的语音情感识别装置的实施例的结构示意图；

图8是本发明提供的服务器的一种实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的语音情感识别方案可以利用人工智能和云计算实现语音情感的快速识别。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

本申请实施例提供的方案涉及人工智能的语音情感识别技术，具体通过如下实施例进行说明。

图1是本发明构思的一实施例的语音情感识别系统的结构图。参照图1，语音情感识别系统可以包括数据收集装置10和数据处理装置30，数据收集装置10用于存储语音终端提供的语音数据，数据处理装置30从数据收集装置获取语音数据进行处理。但是，这只是用于实现本发明构思的目的的优选实施例，当然可根据需要附加或删除一部分结构要素，例如，可以省略数据收集装置10，由数据处理装置30直接从语音终端获取语音数据。此外，图1所示的语音情感识别系统的各个结构要素表示按功能区分的功能要素，应注意在实际物理环境中也可以以彼此合并的形式实现至少一个结构要素。例如，数据收集装置10和数据处理装置30可以以内置在同一服务器或者服务器集群中的方式实现数据收集装置及数据处理装置的各功能，也可以分属于不同的服务器或者服务器集群，并且，数据处理装置30所属服务器可以以云服务器方式存在。

在所述语音情感识别系统中，数据处理装置30为被输入语音数据并提供基于识别结果的计算装置。在此，语音数据是将以波(wave)形式表示语音信号的波文件、以频率形式表示所述波文件的声谱图(spectrogram)和梅尔频率倒谱系数(Mel-Frequency CepstralCoefficient，MFCC)等都包括在内的总括性含义。此外，所述计算装置可以是笔记本、台式机(desktop)、便携式电脑(laptop)或智能手机(smartphone)等，但并不局限于此，可包括具备运算单元的所有种类的装置。

根据本发明构思的实施例，为提供语音情感识别，数据处理装置30可构建由深度神经网络构成的语音情感识别模型，并且利用构建出的所述语音情感识别模型来提供语音数据的情感识别结果。在此，所述深度神经网络例如可以是递归神经网络(RecurrentNeural Network，RNN)、双向递归神经网络(Bi-directional RNN，BRNN)、长短期记忆(LongShort TermMemory，LSTM)、双向长短期记忆(Bi-directional LSTM，BLSTM)、门控循环单元(GatedRecurrent Unit，GRU)或双向门控循环单元(Bi-directional GRU，BGRU)等，但并不限定于此。

根据本发明构思的实施例，数据收集装置10从语音终端获取语音数据并存储，所述语音数据是基于两个会话对象之间的语音对话产生的，数据处理装置30从数据收集装置10获取语音数据进行语音情感识别，对于任意一段语音数据，确定该语音数据中两个会话对象的会话顺序，并从两个会话对象中确定出目标对象，通过对该语音数据进行预处理得到三个语音片段集合，根据会话顺序建立语音片段集合与两个会话对象和其他类的映射关系，进而根据映射关系和目标对象，获取与目标对象对应的目标语音片段集合，根据目标语音片段集合和预设的语音情感识别模型，识别得到目标对象在语音对话中的情感类别。由此，通过对目标对象在语音对话中的音频数据进行筛选，来获得准确度更高的语音情感识别结果。关于此的详细说明将在后面参照图2至图8来进行描述。

本发明实施例涉及的语音情感识别系统中的数据处理装置可以是由多个节点(接入网络中的任意形式的计算设备，如服务器、客户端)通过网络通信的形式连接形成的数据共享系统。

参见图1A所示的数据共享系统，数据共享系统100是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点101，多个节点101可以是指数据共享系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息，并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到输入信息时，数据共享系统中的其他节点便根据共识算法获取该输入信息，将该输入信息作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的数据均一致。

对于数据共享系统中的每个节点，均具有与其对应的节点标识，而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息。

以下介绍本发明语音情感识别方法的一种实施例，图2是本发明提供的语音情感识别方法的一种实施例的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述语音情感识别方法可以由服务器端执行，包括：

S201：确定待识别的语音数据和目标对象，所述语音数据是基于第一对象与第二对象之间的语音对话产生的，所述目标对象选自所述第一对象或所述第二对象。

本发明实施例通过对两个语音对象之间的会话音频进行处理，以确定两个语音对象中任一语音对象在该会话中的情感类别。其中，语音数据可以从语音客户端提取，或者由汇总了多个语音数据的数据库中获得。例如，在客服服务系统中，通过获取客服与用户之间的通话内容得到语音数据。

S203：获取所述第一对象和所述第二对象之间的会话顺序。

在一个可行的实施例中，本步骤可以包括：获取对所述语音数据中首个发言对象的标记信息；根据所述标记信息确定所述第一对象和第二对象的会话顺序。

语音数据由第一对象与第二对象之间的语音对话产生，在确定会话顺序时，仅需要确定出语音数据中开始说话的语音对象即可对第一对象和第二对象的会话顺序进行排序。例如，客服服务过程中，客服为先说话的一方，用户为后说话的一方，则会话顺序为：1.客服，2.用户。

当本实施例方案用于识别任一说话对象在会话中的情感类别时，也可以预先指定第一个说话对象，也即是预先标记两个说话对象的会话顺序。

S205：对所述语音数据进行预处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合。

对所述语音数据进行的预处理可以包括：

步骤一、将所述语音数据切割为三个以上的语音片段；

步骤二、对切割获得的所述语音片段进行聚类处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合。

图3是本发明提供的将语音数据切割为三个以上语音片段的一种实施例的流程示意图。请参见图3，在一个可行的实施例中，所述将语音数据切割为三个以上语音片段可以包括如下步骤：

S301、对所述语音数据进行分帧，得到包含至少三个语音帧的帧序列。

分帧一般采用交叠分段的方法，使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0-1/2。具体的，可以用可移动的有限长度窗口进行加权的方法来实现，即，用一定的窗函数ω(n)来乘s(n)，从而形成加窗语音信号Sω(n)＝s(n)×ω(n)。加窗语音信号Sω(n)为由n个语音帧组成的帧序列，其中，n为不小于3的整数。

S303、对每个所述语音帧进行语音端点检测，获取各所述语音帧的语音端点信息。

具体的，可以对帧序列中的每个语音帧进行VAD((Voice Activity Detection,语音端点检测)检测，获得各个语音帧的语音端点信息。其中，如果VAD检测无语音端点，则语音端点信息为空，如果VAD检测有语音端点，则语音端点信息不为空。

S305、将语音端点信息为空的所述语音帧从所述帧序列中剔除，并以剔除的所述语音帧在所述帧序列中的位置作为分割点对所述帧序列进行切分，获得至少三个语音片段。

示例性的，帧序列包括k+7(k≥1)帧语音帧，第k+1帧、第k+3和第k+6帧的语音端点信息为空，其他帧的语音端点信息均不为空，则将第k+1帧、第k+3和第k+6从帧序列中剔除，并以第k+1帧、第k+3和第k+6帧在帧序列中的位置作为分割点对帧序列进行切分，得到由第1帧至第k帧构成的第一个语音片段、由第k+2帧构成的第二个语音片段，由k+4帧至第k+5帧构成的第三个语音片段以及由第k+7帧构成的第四个语音片段。

在一个可行的实施例中，对切割获得的语音片段进行的聚类处理可以包括：将切割得到的每个所述语音片段作为一个独立的类簇进行迭代合并，每次迭代把两个最符合合并条件的类簇合并为一个新的类簇，直至合并得到的类簇数量为3时，得到三个语音片段集合，三个所述语音片段集合分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息。其中，合并条件可以设置为两个类簇的距离为本次迭代中的最小值。每次迭代中，计算两两类簇之间的距离，将距离最小的两个类簇合并一个新的类簇。

S207：根据所述会话顺序建立所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系。

对语音片段经过聚类处理得到三个语音片段集合，这三个语音片段集合中一个为第一对象的会话内容，一个为第二对象的会话内容，剩下一个为杂音，本实施例将其归为其他类。虽然距离处理后获得三个语音片段集合，但并不知晓各集合与各会话对象之间的对应关系，本步骤旨在基于前述的会话顺序建立各会话对象与语音片段集合之间的对应关系。

图4是本发明提供的建立语音片段集合与第一对象、第二对象和其他类的映射关系的一种实施例的流程示意图。请参见图4，本步骤包括：

S401、按照所述帧序列从切割得到的语音片段中提取排序在前的三个语音片段。

S403、构建三个语音片段中第一个语音片段与所述其他类之间的第一对应关系。

具体的，语音数据的开始部分一般包含设备杂音，故，可以将三个语音片段中的第一个语音片段(即语音对象正式说话前的部分语音数据)归为其他类，建立第一个语音片段与其他类之间的第一对应关系。

S405、根据所述会话顺序确定三个语音片段中第二个语音片段与所述第一对象及所述第二对象之间的第二对应关系。

S407、根据所述会话顺序确定三个语音片段中第三个语音片段与所述第一对象及所述第二对象之间的第三对应关系。

步骤S405和S407用于根据第一对象和第二对象的会话顺序确定剩余两个语音片段与第一对象和第二对象的对应关系。当会话顺序为第一对象先于第二对象说话时，将第二个语音片段归于第一对象，建立第二个语音片段与第一对象之间的第二对应关系，将第三个语音片段归于第二个对象，建立第三个语音片段与第二对象之间的第三对应关系；当会话顺序为第二对象先于第一对象说话时，建立第二个语音片段与第二对象之间的第二对应关系以及第三个语音片段与第一对象之间的第三对应关系。

S409、获取三个语音片段与三个所述语音片段集合之间的从属关系。

具体的，确定三个语音片段中各语音片段在三个语音片段集合中的出现情况，根据三个语音片段中各语音片段在三个语音片段集合中的出现情况来确定三个语音片段与三个语音片段集合之间的从属关系。例如，当语音片段集合包含了三个语音片段中的某个语音片段时，可以认为该语音片段与语音片段集合存在从属关系。

S411、基于所述第一对应关系、所述第二对应关系、所述第三对应关系以及所述从属关系，确定三个所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系。

S209：根据所述映射关系和所述目标对象，获取与所述目标对象对应的目标语音片段集合。

S211：根据所述目标语音片段集合和预设的语音情感识别模型，识别所述目标对象在所述语音对话中的情感类别。

图5是本发明提供的基于目标语音片段集合和语音情感识别模型进行语音情感识别的一种实施例的流程示意图。请参见图5，基于目标语音片段集合和语音情感识别模型进行语音情感识别可以包括：

S501、获取目标语音片段集合中各语音片段的音频特征。

在一个可行的实施例中，可以采用python第三方库librosa提取语音片段的音频特征。通过设置提取参数，使音频特征包括色度频率、频谱质心、谱带宽、滚降频率、过零率、梅尔倒谱系数等特征，以更加全面的表征语音片段的音频特点。相比于现有技术，本发明实施例在语音特征提取阶段，使用了更过的语音特征，语音数据利用率高。

S503、将所述目标语音片段集合中各语音片段的音频特征输入语音情感识别模型，输出得到所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率。

S505、基于所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率，计算所述目标语音片段集合属于各预设情感类别的第二概率。

S507、根据所述第二概率确定所述目标对象在所述语音对话中的情感类别。

其中，语音情感识别模型可以通过如下方法训练得到：获取历史语音会话数据，对语音会话数据进行拆分得到多个语音片段，对每个语音片段进行情感标记，选取情感标记与需要识别的情感类型匹配的语音片段作为样本训练集；提取样本训练集中各语音片段的语音特征，形成特征向量集；将特征向量集中各语音特征输入情感分类器进行训练，获得深度神经网络语音情感识别二分类模型，分为需识别的情感类型和正常两类。其中需识别的情感类型可以根据情感识别需求而设定，例如，在客服服务评价系统中，需要判断客服在服务过程中是否出现愤怒情绪，则可以将该需识别的情感类型设为愤怒。

在准备好上述语音情感识别模型后，将目标语音片段集合中各语音片段的音频特征输入语音情感识别模型，输出得到目标语音片段集合中各语音片段属于各预设情感类别的第一概率。进一步，对各语音片段属于各预设情感类别的第一概率进行加权求和，可以得到目标语音片段集合属于各预设情感类别的第二概率，进而根据第二概率确定出目标对象在语音对话中的情感类别。

图6是本发明提供的语音情感识别方法的一种应用场景的示意图。请参见图6，将本发明实施例的语音情感识别方法应用于客服服务评价中，其实施环境中包括通话设备110、服务器120以及质检终端130；

通话设备110用于接听来电，并对来电通话内容进行录制，即，用户拨打客服号码至该通话设备110后，客服人员通过该通话设备110接听用户来电，并对用户与客服人员之间的通话内容进行录制。可选地，该通话设备110还用于将录制得到的通话内容发送至服务器120。该通话设备110可以是手机、平板电脑、智能手表等移动终端，也可以是座机、台式电脑等设备，本申请实施例对此不加以限定。

服务器120中包括客服评价系统121，该客服服务评价系统121中包括语音情感识别模型，语音情感识别模型用于对待识别语音对应的情感类别进行识别以得到情感识别结果。

服务器120与质检终端130之间通过通信网络140连接，服务器120在对待识别语音进行情感识别得到情感识别结果后，将情感识别结果发送至质检终端130，该质检终端130用于对情感识别结果进行展示。可选地，该情感识别结果可以是以情感分类方式进行展示，如：服务器120对待识别语音A进行识别后，得到情感识别结果为愤怒，则终端在对待识别语音A的识别结果进行展示时，展示结果为“愤怒”；可选地，该情感识别结果还可以是以在设定情感类别下的得分的形式进行展示，分数越高则表示待识别语音的情感为该设定情感类别的可能性越大。

示例性的，待识别语音包含3个语音片段，服务器120对待识别语音进行情感识别后得到每个语音片段对应设定情感的概率值，如下表所示：

片段序号	愤怒概率值	正常概率值
			1	0.82	0.18
2	0.32	0.68
			3	0.99	0.01
合计	2.13	0.87

表中，待识别语音的情感为愤怒的概率值为2.13，为正常的概率值为0.87，其愤怒情感的得分大于正常情感的得分，可以在质检终端130上展示该待识别语音的情感类别为愤怒，和/或，展示该待识别语音的情感类别为愤怒和正常的概率值。

本发明实施例对第一对象与第二对象之间对话产生的语音数据进行预处理，得到三个语音片段集合，根据第一对象和第二对象在此语音数据中的会话顺序，确定出三个语音片段集合与第一对象、第二对象及其他类的映射关系，在此映射关系的基础上，基于预先确定的目标对象获取与目标对象对应的目标语音片段集合，然后根据目标语音片段集合和语音情感识别模型识别得到目标对象在语音对话中的情感类别，其中，目标语音对象选自第一对象或第二对象，通过该方法，可以识别出语音数据中任一会话方在此对话中的情感类别，同时，通过预处理步骤对语音数据中各会话角色的音频进行拆分和汇总，筛除了不属于会话角色的音频内容，得到与会话对象准确对应的会话数据，基于该数据进行语音情感识别，能够规避会话中其他角色对象及杂音对语音情感识别结果的不利影响，提升语音情感识别结果的准确性。

本发明实施例还提供了一种语音情感识别装置，所述语音情感识别装置可以设置在服务器端中，图7是本发明提供的语音情感识别装置的实施例的结构示意图，请参见图7，所述装置可以包括确定模块710、会话顺序获取模块720、预处理模块730、映射关系建立模块740、目标语音片段集合获取模块750和情感类别识别模块760。

其中，确定模块710，用于确定待识别的语音数据和目标对象，所述语音数据是基于第一对象与第二对象之间的语音对话产生的，所述目标对象选自所述第一对象或所述第二对象；

会话顺序获取模块720，用于获取所述第一对象和所述第二对象之间的会话顺序；

预处理模块730，用于对所述语音数据进行预处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合；

映射关系建立模块740，用于根据所述会话顺序建立所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系；

目标语音片段集合获取模块750，用于根据所述映射关系和所述目标对象，获取与所述目标对象对应的目标语音片段集合；

情感类别识别模块760，用于根据所述目标语音片段集合和预设的语音情感识别模型，识别所述目标对象在所述语音对话中的情感类别。

进一步的，所述预处理模块730还用于：将所述语音数据切割为三个以上的语音片段；对切割获得的所述语音片段进行聚类处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合。

其中，将所述语音数据切割为三个以上的语音片段，包括:对所述语音数据进行分帧，得到包含至少三个语音帧的帧序列；对每个所述语音帧进行语音端点检测，获取各所述语音帧的语音端点信息；将语音端点信息为空的所述语音帧从所述帧序列中剔除，并以剔除的所述语音帧在所述帧序列中的位置作为分割点对所述帧序列进行切分，获得至少三个语音片段。对切割获得的所述语音片段进行聚类处理包括：将切割得到的每个所述语音片段作为一个独立的类簇进行迭代合并，每次迭代把两个最符合合并条件的类簇合并为一个新的类簇，直至合并得到的类簇数量为3时，得到三个语音片段集合，三个所述语音片段集合分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息。

所述会话顺序获取模块720还用于：获取对所述语音数据中首个发言对象的标记信息；根据所述标记信息确定所述第一对象和第二对象的会话顺序。

所述映射关系建立模块740还用于：按照所述帧序列从切割得到的语音片段中提取排序在前的三个语音片段；构建三个语音片段中第一个语音片段与所述其他类之间的第一对应关系；根据所述会话顺序确定三个语音片段中第二个语音片段与所述第一对象及所述第二对象之间的第二对应关系；根据所述会话顺序确定三个语音片段中第三个语音片段与所述第一对象及所述第二对象之间的第三对应关系；获取三个语音片段与三个所述语音片段集合之间的从属关系；基于所述第一对应关系、所述第二对应关系、所述第三对应关系以及所述从属关系，确定三个所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系。

所述情感类别识别模块760还用于：获取目标语音片段集合中各语音片段的音频特征；将所述目标语音片段集合中各语音片段的音频特征输入语音情感识别模型，输出得到所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率；基于所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率，计算所述目标语音片段集合属于各预设情感类别的第二概率；根据所述第二概率确定所述目标对象在所述语音对话中的情感类别。

本实施例中的语音情感识别装置与图2-6对应的方法实施例基于同样地发明构思。

本发明实施例通过预处理步骤对语音数据中各会话角色的音频进行拆分和汇总，筛除了不属于会话角色的音频内容，得到与会话对象准确对应的会话数据，基于该数据进行语音情感识别，能够规避会话中其他角色对象及杂音对语音情感识别结果的不利影响。相比于现有技术，本发明实施例在语音特征提取阶段，使用了更过的语音特征，语音数据利用率高；并且，不需要语音转文本即可获得语音情感识别结果，确保了语音情感识别结果的准确性。

本发明实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如图2-6对应的语音情感识别方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例还提供了一种服务器的结构示意图，请参阅图8，该服务器800用于实施上述实施例中提供的语音情感识别方法，具体来讲，所述服务器结构可以包括上述语音情感识别装置。该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)810(例如，一个或一个以上处理器)和存储器830，一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中，存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器810可以设置为与存储介质820通信，在服务器800上执行存储介质820中的一系列指令操作。服务器800还可以包括一个或一个以上电源860，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口840，和/或，一个或一个以上操作系统821，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种语音情感识别方法相关的至少一条指令和至少一段程序，该至少一条指令和该至少一段程序由该处理器加载并执行以实现上述图2-6对应的语音情感识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音情感识别方法，其特征在于，包括：

获取所述第一对象和所述第二对象之间的会话顺序；

对所述语音数据进行分帧，得到包含至少三个语音帧的帧序列；对每个所述语音帧进行语音端点检测，获取各所述语音帧的语音端点信息；将语音端点信息为空的所述语音帧从所述帧序列中剔除，并以剔除的所述语音帧在所述帧序列中的位置作为分割点对所述帧序列进行切分，获得至少三个语音片段；

将切割得到的每个所述语音片段作为一个独立的类簇进行迭代合并，每次迭代把两个最符合合并条件的类簇合并为一个新的类簇，直至合并得到的类簇数量为3时，得到三个语音片段集合，三个所述语音片段集合分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息；所述合并条件设置为两个类簇的距离为本次迭代中的最小值；

按照所述帧序列从切割得到的语音片段中提取排序在前的三个语音片段；构建三个语音片段中第一个语音片段与所述其他类之间的第一对应关系；根据所述会话顺序确定三个语音片段中第二个语音片段与所述第一对象及所述第二对象之间的第二对应关系；根据所述会话顺序确定三个语音片段中第三个语音片段与所述第一对象及所述第二对象之间的第三对应关系；获取三个语音片段与三个所述语音片段集合之间的从属关系；基于所述第一对应关系、所述第二对应关系、所述第三对应关系以及所述从属关系，确定三个所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系；

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一对象和所述第二对象之间的会话顺序，包括：

获取对所述语音数据中首个发言对象的标记信息；

根据所述标记信息确定所述第一对象和第二对象的会话顺序。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音片段集合和预设的语音情感识别模型，识别所述目标对象在所述语音对话中的情感类别，包括：

获取目标语音片段集合中各语音片段的音频特征；

将所述目标语音片段集合中各语音片段的音频特征输入语音情感识别模型，输出得到所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率；

基于所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率，计算所述目标语音片段集合属于各预设情感类别的第二概率；

根据所述第二概率确定所述目标对象在所述语音对话中的情感类别。

4.一种语音情感识别装置，其特征在于，包括：

预处理模块，用于对所述语音数据进行分帧，得到包含至少三个语音帧的帧序列；对每个所述语音帧进行语音端点检测，获取各所述语音帧的语音端点信息；将语音端点信息为空的所述语音帧从所述帧序列中剔除，并以剔除的所述语音帧在所述帧序列中的位置作为分割点对所述帧序列进行切分，获得至少三个语音片段；

映射关系建立模块，用于按照所述帧序列从切割得到的语音片段中提取排序在前的三个语音片段；构建三个语音片段中第一个语音片段与所述其他类之间的第一对应关系；根据所述会话顺序确定三个语音片段中第二个语音片段与所述第一对象及所述第二对象之间的第二对应关系；根据所述会话顺序确定三个语音片段中第三个语音片段与所述第一对象及所述第二对象之间的第三对应关系；获取三个语音片段与三个所述语音片段集合之间的从属关系；基于所述第一对应关系、所述第二对应关系、所述第三对应关系以及所述从属关系，确定三个所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系；

5.根据权利要求4所述的装置，其特征在于，所述会话顺序获取模块还用于：

获取对所述语音数据中首个发言对象的标记信息；根据所述标记信息确定所述第一对象和第二对象的会话顺序。

6.根据权利要求4所述的装置，其特征在于，所述情感类别识别模块还用于：

获取目标语音片段集合中各语音片段的音频特征；将所述目标语音片段集合中各语音片段的音频特征输入语音情感识别模型，输出得到所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率；基于所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率，计算所述目标语音片段集合属于各预设情感类别的第二概率；根据所述第二概率确定所述目标对象在所述语音对话中的情感类别。

7.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-3任一所述的语音情感识别方法。

8.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-3任一所述的语音情感识别方法。