CN115497456A

CN115497456A - 一种金融对话场景的语音情绪识别方法、装置及存储介质

Info

Publication number: CN115497456A
Application number: CN202110674158.7A
Authority: CN
Inventors: 孟庆林; 蒋宁; 吴海英; 王洪斌; 刘敏; 陈燕丽
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2022-12-20

Abstract

本申请公开了一种金融对话场景的语音情绪识别方法、装置及存储介质。其中，金融对话场景的语音情绪识别方法，包括：获取待进行语音情绪识别的语音数据，其中语音数据为金融对话场景中产生的语音数据；确定语音数据的三维特征，其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。

Description

一种金融对话场景的语音情绪识别方法、装置及存储介质

技术领域

本申请涉及情绪识别技术领域，特别是涉及一种金融对话场景的语音情绪识别方法、装置及存储介质。

背景技术

在消费金融场景中，每天都会有非常多的热线、回访、催收等业务在客服呼叫中心中处理。客服代表着公司的形象，提升客服服务质量，对客服服务态度进行有效监管十分重要。此外，对客户在对话中的情绪状态进行实时反馈也是提升服务质量的关键。传统上对客服、客户对话情绪进行反馈的方法通常为人工抽检，费时费力且成本高昂。因此，目前消费金融领域中亟需一种可在语音对话中实时准确地获取客服、客户情绪状态的系统。

在目前的金融领域客服对话场景中，语音情绪识别由于受到电话信道噪声、方言等因素影响，准确率较低，且识别速度很多也难以满足实时性需求，极大的增加了金融客服场景的情绪识别难度。目前金融领域客服对话场景中的语音情绪识别准确性能和识别实时性能都有待提升。在进行情绪分类时，可将客户及坐席的情绪分为3种情绪(正向、中性、负向)，其中正向和中性由于语音情绪的相似性，识别精度一般较低，负向信息虽较为明显，但当客服或客户的负向信息识别有误时，则会带来较大的业务影响。此外，识别速度若较低，也无法满足场景业务需求。

针对上述的现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种金融对话场景的语音情绪识别方法、装置及存储介质，以至少解决现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题。

根据本公开实施例的一个方面，提供了一种金融对话场景的语音情绪识别方法，包括：获取待进行语音情绪识别的语音数据，其中语音数据为金融对话场景中产生的语音数据；确定语音数据的三维特征，其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种金融对话场景的语音情绪识别装置，包括：语音数据获取模块，用于获取待进行语音情绪识别的语音数据，其中语音数据为金融对话场景中产生的语音数据；三维特征确定模块，用于确定语音数据的三维特征，其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及语音情绪识别模块，用于利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。

根据本公开实施例的另一个方面，还提供了一种金融对话场景的语音情绪识别装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待进行语音情绪识别的语音数据，其中语音数据为金融对话场景中产生的语音数据；确定语音数据的三维特征，其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。

在本公开实施例中，结合金融客服对话场景中金融语音特征词较多的特点，将Mel-spectrogram特征和一阶差分特征与二阶差分特征相结合，形成三维特征，特征覆盖能力增强，有利于预先训练好的语音情绪识别模型(深度学习分类网络)进行准确分类。并且，本申请针对金融客服场景下短时对话特点，引入计算机视觉领域处理小目标检测时使用的金字塔特征思想，对语音情绪识别模型中的特征映射网络进行金字塔特征模块设计，从而得到ResNet-FPN网络，可有效提升金融客服对话场景下短时音频的特征表示能力，从而提升金融对话场景下的语音情绪识别准确性能与模型识别效率。该ResNet-FPN网络由于以ResNet网络为基础模型，使得其参数量小，特征映射能力相对较强。参数量小使得特征处理速度变快，对网络结构的改进使得网络所具有的特征映射能力提升，对后续语音情绪特征表示能力以及语音情绪准确率提升起到关键作用。此外，在ResNet-FPN网络后接入双向BiGRU网络，对时序信息进行编码处理，有效结合语音情绪时序信息的同时，还有效降低了网络参数量，提升整体网络识别效率。从而，大大提高了金融对话场景下的语音情绪识别准确性和有效提升了语音情绪识别效率。进而解决了现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的金融对话场景的语音情绪识别方法的流程示意图；

图3是根据本公开实施例1所述的语音情绪识别模块的网络结构示意图；

图4是根据本公开实施例2所述的金融对话场景的语音情绪识别装置的示意图；以及

图5是根据本公开实施例3所述的金融对话场景的语音情绪识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

术语1：Mel-spectrogram(梅尔频谱图)，一种在语音情绪识别，语音识别，声纹识别，语音合成中广泛使用的特征。首先对对音频信号预加重、分帧和加窗，随后对每帧信号进行短时傅立叶变换STFT，得到短时幅度谱，最后短时幅度谱通过Mel滤波器组得到梅尔频谱图。

术语2：ResNet网络，深度学习卷积神经网络的一种，为2015年图像识别大赛ImageNet比赛的冠军模型。模型最突出的特点就是动态路由层的引入，不仅使得网路层数变深且可训练，还使得网络参数大幅减少，提升了网络性能的同时有效提升了网络效率。针对业务场景，可进行相关网络设计。

术语3：特征金字塔(FPN)，在计算机视觉目标检测领域性能非常好的网络，由于底层特征中有较强的外形信息，高层特征有较强的语义信息，将多种信息叠加形成特征金字塔，可有效提升对各种信息的表征能力。将其移植到语音情绪领域，可有效提升模型对音频情绪信息的多尺度映射能力。

术语4：门控循环单元(BiGRU)，是对双向LSTM网络的改进，其改进了LSTM的三个门的机制，变为两个门update和reset，有效减小了参数量。其参数更少因此更容易收敛，且在应用时有效提升了网络运行速度。

术语5：注意力机制(Attention)，一种模拟人类视觉，听觉关注重点信息、适当忽略非重要信息的方法机制。可将经过循环神经网络后的序列信息进行序列对齐操作，在对齐的过程中还可以对不同序列信息分配不同的权重，表征不同的关注能力。

实施例1

根据本实施例，提供了一种金融对话场景的语音情绪识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现金融对话场景的语音情绪识别方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的金融对话场景的语音情绪识别方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的金融对话场景的语音情绪识别方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种金融对话场景的语音情绪识别方法。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S201：获取待进行语音情绪识别的语音数据，其中语音数据为金融对话场景中产生的语音数据；

S202：确定语音数据的三维特征，其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及

S203：利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。

在本实施例中，计算设备首先获取待进行语音情绪识别的语音数据。该语音数据为金融对话场景中产生的语音数据，例如但不限于为获取金融客服对话场景下客服与用户的对话录音作为语音数据。然后，计算设备需要确定语音数据的三维特征(包括梅尔频谱图特征(Log Mel-spectrogram特征)、一阶差分特征和二阶差分特征)。具体为，为对语音数据提取高可覆盖性特征，本发明除使用Log Mel-spectrogram特征外，还结合了金融场景的客户与客服对话短时且金融语音特征词较多的特点，加入了一阶差分和二阶差分作为深度学习分类网络(对应于语音情绪识别模型)的输入。从而有效利用了声谱图信息与差分信息，有效提升对语音情绪的特征覆盖能力。

在一个优选实施例中，计算设备确定语音数据的三维特征的操作之前，还需要对语音数据进行声道分离，分离出客服声道和用户声道，从而确定语音数据中的客服语音数据和用户语音数据。然后，计算设备分别对客服语音数据和用户语音数据提取特征，从而确定客服语音数据的三维特征和用户语音数据的三维特征。

最后，计算设备利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。在一个优选实施例中，预设的语音情绪识别模型包括特征映射网络、编码网络、注意力网络和分类器。参照图3所示，本申请以特征提取能力强和参数量小的ResNet网络为基础，根据计算机视觉领域浅层特征可加强小目标检测能力的思想，并将视觉领域中所应用的金字塔特征法引入到网络中，从而设计得到ResNet-FPN网络作为语音情绪识别模型中的特征映射网络。其中，还对ResNet网络进行设计，设计了多个ResBlock块(残差块)，在金融客服对话场景下形成了对应深度学习特征映射网络。并且，编码网络为双向BiGRU网络，注意力网络为Attention网络，分类器为Softmax层。具体为，在将三维特征输入语音情绪识别模型后，先经过ResNet-FPN网络对三维特征进行映射，从而提取出语音情绪特征向量。随后将ResNet-FPN网络输出的语音情绪特征向量送入双向BiGRU网络，对时序信息进行编码处理，有效结合语音情绪的时序信息，从而得到语音情绪特征向量序列。紧接着将BiGRU网络输出的语音情绪特征向量序列送入注意力网络进行序列对齐，最后将序列对齐后的语音情绪特征向量序列馈入Softmax层进行语音情绪分类，从而输出与语音数据对应的语音情绪识别结果。

正如上述背景技术所述的，在目前的金融领域客服对话场景中，语音情绪识别由于受到电话信道噪声、方言等因素影响，准确率较低，且识别速度很多也难以满足实时性需求，极大的增加了金融客服场景的情绪识别难度。目前金融领域客服对话场景中的语音情绪识别准确性能和识别实时性能都有待提升。在进行情绪分类时，可将客户及坐席的情绪分为3种情绪(正向、中性、负向)，其中正向和中性由于语音情绪的相似性，识别精度一般较低，负向信息虽较为明显，但当客服或客户的负向信息识别有误时，则会带来较大的业务影响。此外，识别速度若较低，也无法满足场景业务需求。

有鉴于此，本实施例中的计算设备结合金融客服对话场景中金融语音特征词较多的特点，将Mel-spectrogram特征和一阶差分特征与二阶差分特征相结合，形成三维特征，特征覆盖能力增强，有利于预先训练好的语音情绪识别模型(深度学习分类网络)进行准确分类。并且，本申请针对金融客服场景下短时对话特点，引入计算机视觉领域处理小目标检测时使用的金字塔特征思想，对语音情绪识别模型中的特征映射网络进行金字塔特征模块设计，从而得到ResNet-FPN网络，可有效提升金融客服对话场景下短时音频的特征表示能力，从而提升金融对话场景下的语音情绪识别准确性能与模型识别效率。该ResNet-FPN网络由于以ResNet网络为基础模型，使得其参数量小，特征映射能力相对较强。参数量小使得特征处理速度变快，对网络结构的改进使得网络所具有的特征映射能力提升，对后续语音情绪特征表示能力以及语音情绪准确率提升起到关键作用。此外，在ResNet-FPN网络后接入双向BiGRU网络，对时序信息进行编码处理，有效结合语音情绪时序信息的同时，还有效降低了网络参数量，提升整体网络识别效率。从而，大大提高了金融对话场景下的语音情绪识别准确性和有效提升了语音情绪识别效率。进而解决了现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题。

可选地，特征映射网络为由多层级残差块组成的特征金字塔网络，并且利用特征映射网络，确定与三维特征对应的语音情绪特征向量的操作，包括：将三维特征输入特征金字塔网络，提取多层级特征；以及根据多层级特征，生成语音情绪特征向量。

具体地，参照图3所示，特征映射网络(ResNet-FPN网络)为由多层级残差块(ResNetBlock块)组成的特征金字塔网络。下表1示例性的示出了本申请所设计的ResNet-FPN网络的网络结构。结合图3和下表1所示，在将由Mel-spectrogram特征和一阶差分特征与二阶差分特征相结合形成的三维特征输入ResNet-FPN网络后，经过ResNet网络和FPN网络的配合，使得网络在进行特征映射的过程中，可以有效利用到浅层特征，加强了特征复用，有效提升了金融客服对话场景中短时对话语音的特征覆盖能力，从而提取出多层级特征，最后根据所提取出的多层级特征，生成一个准确的语音情绪特征向量。从而为后续的语音情绪特征表示能力以及语音情绪识别准确率提升起到关键作用。

表1

可选地，该方法还包括通过以下步骤训练语音情绪识别模型：获取已标注情绪的金融对话场景下产生的录音数据，并将录音数据按照7:3的比例划分为训练集和测试集；将训练集和测试集中的各个说话角色的语音分开；提取训练集中的每通语音数据的梅尔频谱图特征、一阶差分特征二阶差分特征，以得到每通语音数据的三通道特征图；将每通语音数据的三通道特征图存入预设的特征文件，以生成测试特征文件；分批次读取测试特征文件，构建特征数据组合；分批次将特征数据组合输入预设的特征映射网络和编码网络，得到语音帧级特征；将语音帧级特征送入预设的注意力网络对齐语音帧级特征；将对齐后的语音帧级特征送入预设的分类器，以完成分类网络前向传播过程；以及根据交叉熵Loss进行反向传播训练，至损失收敛，从而得到语音情绪识别模型。

具体地，在对语音情绪识别模型进行训练的过程中，首先获取已标注情绪的金融对话场景下产生的录音数据(例如但不限于为一千小时的金融客服录音数据)，然后将情绪标注完成的一千小时的金融客服录音数据按照训练集和测试集为7:3的比例进行数据划分。其中充分考虑说话人信息，做到训练集与测试集的说话人语音分开。随后分别对训练集中每通语音数据提取Mel-spectrogram特征(梅尔频谱图特征)和一阶差分特征与二阶差分特征，每个语音数据形成三通道特征图，存入预设的特征文件，以生成测试特征文件。然后，分批次读取测试特征文件，形成data-label的特征数据组合。其次，分批次将上述特征数据组合馈入所设计ResNet-FPN网络与BiGRU网络序列分类网络，通过Attention机制对齐语音帧级特征。将经过Attention网络的语音帧级特征送入Softmax分类器，以此完成分类网络前向传播过程。随后根据交叉熵Loss进行反向传播训练，至损失收敛，从而得到语音情绪识别模型。通过上述方式，得到了一个语音情绪准确率高和识别效率高的语音情绪识别模型。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

从而，通过本申请，在金融对话场景下的语音情绪识别任务中，可以产生以下效果：

1、所设计的由Mel-spectrogram特征和一阶差分特征与二阶差分特征相结合的融合特征，有效结合了金融场景对话中客户与客服对话短时且金融语音特征词较多的特点，有效提升场景特征覆盖能力。

2、所设计的ResNet-FPN特征映射网络可对语音数据进行情绪特征映射，提升金融对话场景语音情绪识别准确性能与模型识别效率。此外，该模型还可以在语音性别识别，声纹识别等声音分类相关需求场景产生效用。

3、在所设计ResNet-FPN网络后接入双向BiGRU序列网络，提升语音序列特征处理能力，有效提升了特征映射能力与序列处理能力，从而做到在金融客服对话场景中提升语音情绪识别的准确性能与识别效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图4示出了根据本实施例所述的金融对话场景的语音情绪识别装置400，该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示，该装置400包括：语音数据获取模块410，用于获取待进行语音情绪识别的语音数据，其中语音数据为金融对话场景中产生的语音数据；三维特征确定模块420，用于确定语音数据的三维特征，其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及语音情绪识别模块430，用于利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。

可选地，语音情绪识别模型包括特征映射网络、编码网络、注意力网络和分类器，并且语音情绪识别模块430，包括：特征映射子模块，用于利用特征映射网络，确定与三维特征对应的语音情绪特征向量；编码子模块，用于将语音情绪特征向量送入编码网络，得到语音情绪特征向量序列；序列对齐子模块，用于利用注意力网络，对语音情绪特征向量序列进行序列对齐；以及分类子模块，用于将序列对齐后的语音情绪特征向量序列送入分类器，输出与语音数据对应的语音情绪识别结果。

可选地，特征映射网络为由多层级残差块组成的特征金字塔网络，并且特征映射子模块，包括：多层级特征提取单元，用于将三维特征输入特征金字塔网络，提取多层级特征；以及语音情绪特征向量生成单元，用于根据多层级特征，生成语音情绪特征向量。

可选地，装置400还包括设计模块，用于通过以下步骤设计特征映射网络：在ResNet网络的基础上，设计多个残差块；以及基于金字塔特征思想，对设计有多个残差块的ResNet网络中的特征网络进行金字塔特征模块设计，从而得到特征映射网络。

可选地，装置400还包括声道分离模块，用于确定语音数据的三维特征的操作之前，对语音数据进行声道分离，确定语音数据中的客服语音数据和用户语音数据；并且三维特征确定模块420包括：确定子模块，用于确定客服语音数据的三维特征和用户语音数据的三维特征。

可选地，装置400还包括训练模块，用于通过以下步骤训练语音情绪识别模型：获取已标注情绪的金融对话场景下产生的录音数据，并基于录音数据生成测试特征文件，其中测试特征文件记录有录音数据中的每通语音数据的三通道特征图；分批次读取测试特征文件，构建特征数据组合；分批次将特征数据组合输入预设的特征映射网络和编码网络，得到语音帧级特征；将语音帧级特征送入预设的注意力网络对齐语音帧级特征；将对齐后的语音帧级特征送入预设的分类器，以完成分类网络前向传播过程；以及根据交叉熵Loss进行反向传播训练，至损失收敛，从而得到语音情绪识别模型。

可选地，基于录音数据构建测试特征文件的操作，包括：将录音数据按照7:3的比例划分为训练集和测试集；将训练集和测试集中的各个说话角色的语音分开；提取训练集中的每通语音数据的梅尔频谱图特征、一阶差分特征二阶差分特征，以得到每通语音数据的三通道特征图；以及将每通语音数据的三通道特征图存入预设的特征文件，以生成测试特征文件。

从而根据本实施例，结合金融客服对话场景中金融语音特征词较多的特点，将Mel-spectrogram特征和一阶差分特征与二阶差分特征相结合，形成三维特征，特征覆盖能力增强，有利于预先训练好的语音情绪识别模型(深度学习分类网络)进行准确分类。并且，本申请针对金融客服场景下短时对话特点，引入计算机视觉领域处理小目标检测时使用的金字塔特征思想，对语音情绪识别模型中的特征映射网络进行金字塔特征模块设计，从而得到ResNet-FPN网络，可有效提升金融客服对话场景下短时音频的特征表示能力，从而提升金融对话场景下的语音情绪识别准确性能与模型识别效率。该ResNet-FPN网络由于以ResNet网络为基础模型，使得其参数量小，特征映射能力相对较强。参数量小使得特征处理速度变快，对网络结构的改进使得网络所具有的特征映射能力提升，对后续语音情绪特征表示能力以及语音情绪准确率提升起到关键作用。此外，在ResNet-FPN网络后接入双向BiGRU网络，对时序信息进行编码处理，有效结合语音情绪时序信息的同时，还有效降低了网络参数量，提升整体网络识别效率。从而，大大提高了金融对话场景下的语音情绪识别准确性和有效提升了语音情绪识别效率。进而解决了现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题。

实施例3

图5示出了根据本实施例所述的金融对话场景的语音情绪识别装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：处理器510；以及存储器520，与处理器510连接，用于为处理器510提供处理以下处理步骤的指令：获取待进行语音情绪识别的语音数据，其中语音数据为金融对话场景中产生的语音数据；确定语音数据的三维特征，其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。

可选地，语音情绪识别模型包括特征映射网络、编码网络、注意力网络和分类器，并且利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果的操作，包括：利用特征映射网络，确定与三维特征对应的语音情绪特征向量；将语音情绪特征向量送入编码网络，得到语音情绪特征向量序列；利用注意力网络，对语音情绪特征向量序列进行序列对齐；以及将序列对齐后的语音情绪特征向量序列送入分类器，输出与语音数据对应的语音情绪识别结果。

可选地，存储器520还用于为处理器510提供处理以下处理步骤的指令：通过以下步骤设计特征映射网络：在ResNet网络的基础上，设计多个残差块；以及基于金字塔特征思想，对设计有多个残差块的ResNet网络中的特征网络进行金字塔特征模块设计，从而得到特征映射网络。

可选地，存储器520还用于为处理器510提供处理以下处理步骤的指令：确定语音数据的三维特征的操作之前，对语音数据进行声道分离，确定语音数据中的客服语音数据和用户语音数据；并且确定语音数据的三维特征的操作，包括：确定客服语音数据的三维特征和用户语音数据的三维特征。

可选地，存储器520还用于为处理器510提供处理以下处理步骤的指令：通过以下步骤训练语音情绪识别模型：获取已标注情绪的金融对话场景下产生的录音数据，并基于录音数据生成测试特征文件，其中测试特征文件记录有录音数据中的每通语音数据的三通道特征图；分批次读取测试特征文件，构建特征数据组合；分批次将特征数据组合输入预设的特征映射网络和编码网络，得到语音帧级特征；将语音帧级特征送入预设的注意力网络对齐语音帧级特征；将对齐后的语音帧级特征送入预设的分类器，以完成分类网络前向传播过程；以及根据交叉熵Loss进行反向传播训练，至损失收敛，从而得到语音情绪识别模型。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种金融对话场景的语音情绪识别方法，其特征在于，包括：

获取待进行语音情绪识别的语音数据，其中所述语音数据为金融对话场景中产生的语音数据；

确定所述语音数据的三维特征，其中所述三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及

利用预设的语音情绪识别模型，对所述三维特征进行识别处理，得到与所述语音数据对应的语音情绪识别结果。

2.根据权利要求1所述的方法，其特征在于，所述语音情绪识别模型包括特征映射网络、编码网络、注意力网络和分类器，并且利用预设的语音情绪识别模型，对所述三维特征进行识别处理，得到与所述语音数据对应的语音情绪识别结果的操作，包括：

利用所述特征映射网络，确定与所述三维特征对应的语音情绪特征向量；

将所述语音情绪特征向量送入所述编码网络，得到语音情绪特征向量序列；

利用所述注意力网络，对所述语音情绪特征向量序列进行序列对齐；以及

将序列对齐后的所述语音情绪特征向量序列送入所述分类器，输出与所述语音数据对应的语音情绪识别结果。

3.根据权利要求2所述的方法，其特征在于，所述特征映射网络为由多层级残差块组成的特征金字塔网络，并且利用所述特征映射网络，确定与所述三维特征对应的语音情绪特征向量的操作，包括：

将所述三维特征输入所述特征金字塔网络，提取多层级特征；以及

根据所述多层级特征，生成所述语音情绪特征向量。

4.根据权利要求3所述的方法，其特征在于，还包括通过以下步骤设计所述特征映射网络：

在ResNet网络的基础上，设计多个残差块；以及

基于金字塔特征思想，对设计有所述多个残差块的所述ResNet网络中的特征网络进行金字塔特征模块设计，从而得到所述特征映射网络。

5.根据权利要求1所述的方法，其特征在于，

确定所述语音数据的三维特征的操作之前，包括：对所述语音数据进行声道分离，确定所述语音数据中的客服语音数据和用户语音数据；并且

确定所述语音数据的三维特征的操作，包括：确定所述客服语音数据的三维特征和所述用户语音数据的三维特征。

6.根据权利要求1所述的方法，其特征在于，还包括通过以下步骤训练所述语音情绪识别模型：

获取已标注情绪的金融对话场景下产生的录音数据，并基于所述录音数据生成测试特征文件，其中所述测试特征文件记录有所述录音数据中的每通语音数据的三通道特征图；

分批次读取所述测试特征文件，构建特征数据组合；

分批次将所述特征数据组合输入预设的特征映射网络和编码网络，得到语音帧级特征；

将语音帧级特征送入预设的注意力网络对齐所述语音帧级特征；

将对齐后的所述语音帧级特征送入预设的分类器，以完成分类网络前向传播过程；以及

根据交叉熵Loss进行反向传播训练，至损失收敛，从而得到所述语音情绪识别模型。

7.根据权利要求6所述的方法，其特征在于，基于所述录音数据构建测试特征文件的操作，包括：

将所述录音数据按照7:3的比例划分为训练集和测试集；

将所述训练集和所述测试集中的各个说话角色的语音分开；

提取所述训练集中的每通语音数据的梅尔频谱图特征、一阶差分特征二阶差分特征，以得到每通所述语音数据的三通道特征图；以及

将每通所述语音数据的三通道特征图存入预设的特征文件，以生成所述测试特征文件。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。

9.一种金融对话场景的语音情绪识别装置，其特征在于，包括：

语音数据获取模块，用于获取待进行语音情绪识别的语音数据，其中所述语音数据为金融对话场景中产生的语音数据；

三维特征确定模块，用于确定所述语音数据的三维特征，其中所述三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及

语音情绪识别模块，用于利用预设的语音情绪识别模型，对所述三维特征进行识别处理，得到与所述语音数据对应的语音情绪识别结果。

10.一种金融对话场景的语音情绪识别装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：