CN116312644A

CN116312644A - 语音情感分类方法、装置、设备和存储介质

Info

Publication number: CN116312644A
Application number: CN202310288262.1A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-23

Abstract

本发明实施例提供语音情感分类方法、装置、设备和存储介质，涉及人工智能技术领域。该方法包括：获取待分类语音数据，对待分类语音数据进行特征提取，得到语音特征向量，同时获取分词，对分词进行局部特征提取得到上下文文本特征向量，对分词进行全局特征提取得到全局文本特征向量，再根据全局文本特征向量和上下文文本特征向量得到文本特征向量，最后根据语音特征向量和文本特征向量进行语音情感分类，得到语音情感分类结果。本实施例基于语音数据和对应文本数据的多模态信息进行情感分类，同时保留和提取文本数据中包含的全局语义信息和局部上下文语义信息，将更多特征联合之后进行情感预测分类，提高语音数据的语音情感分类结果的准确性。

Description

语音情感分类方法、装置、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及语音情感分类方法、装置、设备和存储介质。

背景技术

语音是实现人机交互的重要媒介，近些年来，需要对语音进行情感识别来提高人机交互质量，例如对于客户语音的情感进行自动识别能够有效的帮助企业理解客户实际需求和对产品的满意程度，进而针对性的做出相应改善和优化服务。

相关技术中对于语音情感识别的技术大都针对语音数据进行分析建模，或者将语音转录得到的文本进行分析。这种单一模态的处理方式不能充分的捕捉到真实语音数据中的关键信息，导致情感识别精度有限，影响识别的准确性。因此如何提高语音情感识别准确性，成为了亟待解决的技术问题。

发明内容

本发明实施例的主要目的在于提出语音情感分类方法、装置、设备和存储介质，提高语音数据的语音情感分类结果的准确性。

为实现上述目的，本发明实施例的第一方面提出了一种语音情感分类方法，包括：

获取待分类语音数据；

对所述待分类语音数据进行特征提取，得到语音特征向量；

获取所述待分类语音数据对应的文本信息的分词向量；

对所述分词向量进行局部特征提取，得到上下文文本特征向量；

对所述分词向量进行全局特征提取，得到全局文本特征向量；

根据所述全局文本特征向量和所述上下文文本特征向量得到文本特征向量；

根据所述语音特征向量和所述文本特征向量进行语音情感分类，得到所述待分类语音数据的语音情感分类结果。

在一实施例中，所述对所述分词向量进行局部特征提取，得到上下文文本特征向量，包括：

获取至少一个滤波器矩阵的参数值；

利用每个所述参数值对应的滤波器矩阵对所述分词向量进行滤波，得到所述参数值对应的滤波特征向量；

根据每个所述参数值对应的滤波特征向量生成所述上下文文本特征向量。

在一实施例中，所述利用每个所述参数值对应的滤波器矩阵对所述分词向量进行滤波，得到所述参数值对应的滤波特征向量，包括：

生成所述参数值对应的填充信息；

将所述填充信息与所述分词向量拼接得到拼接信息；

利用每个所述参数值对应的滤波器矩阵对所述拼接信息进行滤波，得到所述参数值对应的滤波特征向量。

在一实施例中，所述对所述分词向量进行全局特征提取，得到全局文本特征向量，包括：

利用至少一个注意力计算单元计算分词向量对应的注意力特征向量；

拼接所述注意力特征向量，得到所述全局文本特征向量。

在一实施例中，所述利用至少一个注意力计算单元计算分词向量对应的注意力特征向量，包括：

获取每个注意力计算单元对应的注意力权重序列；

根据所述注意力计算单元的所述注意力权重序列计算所述分词向量对应的注意力特征向量。

在一实施例中，所述根据所述语音特征向量和所述文本特征向量进行语音情感分类，得到所述待分类语音数据的语音情感分类结果，包括：

对所述语音特征向量和所述文本特征向量进行拼接得到分类特征向量；

对所述分类特征向量进行语音情感分类，得到所述语音情感分类结果。

在一实施例中，所述对所述分类特征向量进行语音情感分类，得到所述语音情感分类结果，包括：

基于所述分类特征向量，得到候选语音情感类别的概率分布值；

根据预设分类阈值，从所述候选语音情感类别中确定所述概率分布值对应的语音情感分类结果。

为实现上述目的，本发明的第二方面提出了一种语音情感分类装置，包括：

语音数据获取模块，用于获取待分类语音数据；

语音特征向量提取模块，用于对所述待分类语音数据进行特征提取，得到语音特征向量；

分词向量获取模块，用于获取所述待分类语音数据对应的所述文本信息的分词向量；

局部特征提取模块，用于对所述分词向量进行局部特征提取，得到上下文文本特征向量；

全局特征提取模块，用于对所述分词向量进行全局特征提取，得到全局文本特征向量；

文本特征向量合成模块，用于根据所述全局文本特征向量和所述上下文文本特征向量得到文本特征向量；

语音情感分类模块，用于根据所述语音特征向量和所述文本特征向量进行语音情感分类，得到所述待分类语音数据的语音情感分类结果。

为实现上述目的，本发明的第三方面提出了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明如上述第一方面所述的方法。

为实现上述目的，本发明的第四方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述第一方面所述的方法。

本发明实施例提出的语音情感分类方法、装置、设备和存储介质，通过获取待分类语音数据，对待分类语音数据进行特征提取，得到语音特征向量，同时获取待分类语音数据对应的文本信息的分词，对分词进行局部特征提取，得到上下文文本特征向量，对分词进行全局特征提取，得到全局文本特征向量，再根据全局文本特征向量和上下文文本特征向量得到文本特征向量，最后根据语音特征向量和文本特征向量进行语音情感分类，得到语音情感分类结果。本实施例考虑到语音数据和文本信息之间存在的互补性和关联性，基于语音数据和对应文本数据的多模态信息进行情感分类，同时保留和提取文本数据中包含的全局语义信息和局部上下文语义信息，将更多特征联合之后进行情感预测分类，提高语音数据的语音情感分类结果的准确性。

附图说明

图1是本发明实施例提供的语音情感分类方法的流程图。

图2是图1中的步骤S140的流程图。

图3是图2中的步骤S142的流程图。

图4是本发明又一实施例提供的语音情感分类方法的填充示意图。

图5是图1中的步骤S150的流程图。

图6是图5中的步骤S151的流程图。

图7是图1中的步骤S170的流程图。

图8是图7中的步骤S172的流程图。

图9是本发明又一实施例提供的语音情感分类方法的原理示意图。

图10是本发明又一实施例提供的语音情感分类装置结构框图。

图11是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本发明中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

注意力单元：注意力单元的研究最早出现在心理学中，当人在看到一个画面时，虽然面对的是所有大的画面，但是注意力只集中在某个点上。2014年Bahdanau等人首次将注意力单元引入机器翻译，结合注意力单元和神经网络，提升了机器翻译的正确率。随后很多研究都尝试将注意力单元与神经网络结合应用在不同任务中，并且都不同程度的取得相比传统方法更为显著的优势。

卷积神经网络(Convolutional Neural Networks,CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征。一种常见的卷积神经网络结构是输入层-卷积层-池化层-全连接层-输出层。

自然语言处理(Natural Language Processing,NLP)：自然语言处理，简单来说即是计算机接受用户自然语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。

深度学习：是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

相关技术中对于语音情感识别的技术大都针对语音数据进行分析建模，或者将语音转录得到的文本进行分析，这种单一模态的处理方式不能充分的捕捉到真实语音数据中的关键信息，导致情感识别精度有限，影响识别的准确性，因此如何提高语音情感识别准确性，成为了亟待解决的技术问题。

基于此，本发明实施例提供一种语音情感分类方法、装置、设备和存储介质，考虑到语音数据和文本信息之间存在的互补性和关联性，基于语音数据和对应文本数据的多模态信息进行情感分类，同时保留和提取文本数据中包含的全局语义信息和局部上下文语义信息，将更多特征联合之后进行情感预测分类，提高语音数据的语音情感分类结果的准确性。

本发明实施例提供语音情感分类方法、装置、设备和存储介质，具体通过如下实施例进行说明，首先描述本发明实施例中的语音情感分类方法。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的语音情感分类方法，涉及人工智能技术领域。本发明实施例提供的语音情感分类方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的计算机程序。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如支持模型训练的客户端，也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。其中，终端通过网络与服务器进行通信。该语音情感分类方法通过获取待分类语音数据，对待分类语音数据进行特征提取，得到语音特征向量，同时获取待分类语音数据对应的文本信息的分词，对分词进行局部特征提取，得到上下文文本特征向量，对分词进行全局特征提取，得到全局文本特征向量，再根据全局文本特征向量和上下文文本特征向量得到文本特征向量，最后根据语音特征向量和文本特征向量进行语音情感分类，得到语音情感分类结果，其可以由终端或服务器执行，或由终端和服务器协同执行。

在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。此外，终端还可以是智能车载设备，该智能车载设备应用本实施例的语音情感识别分类方法提供相关的服务，提升驾驶体验。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。服务器上可以安装语音情感分类系统的服务端，通过该服务端可以与终端进行交互，例如服务端上安装对应的软件，软件可以是实现语音情感分类方法的应用等，但并不局限于以上形式。终端与服务器之间可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者网络等通讯连接方式进行连接，本实施例在此不做限制。

本发明可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

为了便于理解本申请实施例，下面首先对语音情感分类的概念进行简单介绍。

情感是一种综合了人类行为、思想和感觉的现象，语音情感是指从语音信号中获取获得说话人相应的情感信息。要获取语音情感，需要在语音数据中提取并分类得到情感信息。语音情感分类在较多业务场景中均有相关应用，例如客服业务场景中，从客户与客服的对话语音中检测出客户当前的情感，以实现根据客户情感对客户提供相应的对话语句或者推荐相关的业务项目。

图1是本发明实施例提供的语音情感分类方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S110至步骤S170。

步骤S110：获取待分类语音数据。

步骤S120：对待分类语音数据进行特征提取，得到语音特征向量。

步骤S130：获取待分类语音数据对应的文本信息的分词。

步骤S140：对分词进行局部特征提取，得到上下文文本特征向量。

步骤S150：对分词进行全局特征提取，得到全局文本特征向量。

步骤S160：根据全局文本特征向量和上下文文本特征向量得到文本特征向量。

步骤S170：根据语音特征向量和文本特征向量进行语音情感分类，得到语音情感分类结果，语音情感分类结果表征待分类语音数据的情感分类结果。

该实施例考虑到语音数据和文本信息之间存在的互补性和关联性，基于语音数据和对应文本数据的多模态信息进行情感分类，同时保留和提取文本数据中包含的全局语义信息和局部上下文语义信息，将更多特征联合之后进行情感预测分类，提高语音数据的语音情感分类结果的准确性。

在一实施例中，步骤S110中待分类语音数据是一种以波(wave)形式表示语音信号的波文件、以频率形式表示波文件的声谱图(spectrogram)或以梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)表示的文件，本实施例在此不对待分类语音数据的表现形式做限制。该实施例中，待分类语音数据可以从语音客户端提取，如在终端上获取用户通过音频输入设备(如麦克风)输入的一段音频，或者由汇总了多个语音数据的数据库中获得。例如，在客服服务系统中，通过获取客服与用户之间的通话内容，得到语音数据；或者在保险服务场景中，通过获取保险代理人与用户之间的通话内容，得到语音数据，本实施例对待分类语音数据的获取方式以及语言不做具体限定。

语音数据中包含说话者的情感信息，如在聊到某件事时，表达出与高兴相关的情感(高兴、平淡、悲伤)，如接收到别人道歉时，表达出与原谅相关的情感(原谅、不置可否、不原谅)等，这些都属于情感信息。在一实施例中，本公开实施例的语音情感分类方法针对输入的待分类语音数据进行语音情感分类，得到语音情感分类结果，就是将待分类语音数据中的情感信息按照预设的分类标准划分成不同的语音情感分类结果。预设的分类标准可以是高兴、悲伤、难过或愤怒等。本实施例对语音情感分类标准不做具体限定，可根据实际的使用场景设定不同的分类标准。

在一实施例中，步骤S120利用自动语音识别技术对待分类语音数据进行特征提取，得到语音特征向量。例如对待分类语音数据进行声纹特征提取，进而得到该待分类语音数据所对应的声纹特征向量。在一个实施例中，首先计算该待分类语音数据的Fbank特征，然后对该Fbank特征进行处理，进而得到相应的声纹特征，构成语音特征向量。本公开对得到语音特征向量的过程不做具体限定。

在一实施例中，对待分类语音数据进行特征提取，得到m个语音特征，构成语音特征向量V，其中V＝{v1,v2,v3,…，Vm}。

在一实施例中，步骤S120利用自动语音识别技术对待分类语音数据进行特征提取时，还对待分类语音数据进行识别，得到该待分类语音数据对应的文本信息，本实施例对语音识别成文本的过程不做具体限定。

在一实施例中，得到文本信息后，步骤S130获取文本信息的分词，即对文本信息进行分词操作，得到对应的多个分词，然后将分词的语义映射到向量空间中，得到分词向量W，下述以分词表示分词向量W中的词向量，不代表本实施例分词向量W中的元素是语义性质的词语。

在一实施例中，可以采用基于词典的分词方法进行分词，该方法按照预设策略将文本信息中待匹配的字符串与预先建立的词典中的词进行匹配。其中，预设策略包括：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。本实施例也可以采用基于统计的机器学习算法进行分词，该方法利用深度学习相关算法对文本信息中不同词语进行标注训练，不仅考虑词语出现的频率，还考虑上下文信息，具有良好的效果。或者，本实施例中将机器学习和词典结合进行分词，一方面提高分词准确率，另一方面改善领域适应性。在分词操作过程中还包括去除停用词的过程，本实施例不对分词方法做具体限定。

在一实施例中，文本信息对应的分词向量W中分词的数量与步骤S120得到的语音特征数量相同，也为m个，表示为：W＝{w1,w2,w3,…,wm}。

在一实施例中，为了保留和提取文本数据中包含的全局语义信息和局部上下文语义信息，对上述分词向量W的分词分别进行局部特征提取和全局特征提取。

在一实施例中，步骤S140对分词向量W＝{w1,w2,w3,…,wm}进行局部特征提取，得到上下文文本特征向量Wcnn。

在一实施例中，对分词向量W中每个分词的词频进行统计，将词频作为该分词的局部特征，构成上下文文本特征向量Wcnn。这种方式得到的上下文文本特征向量Wcnn中仅包含词频，不能得到更多的关联信息。

在一实施例中，利用CNN编码器对分词向量W中每一个分词进行局部特征提取，进行局部特征提取的分词称为目标分词。该实施例基于分词向量W将目标分词置于局部的上下文中，来获取该目标分词的短程关系，并生成上下文文本特征向量Wcnn。

参照图2，是一实施例示出的步骤S140的一种具体实现流程图，在本实施例中，对分词进行局部特征提取，得到上下文文本特征向量的步骤S140，包括步骤S141至步骤S143。

步骤S141，获取至少一个滤波器矩阵的参数值。

步骤S142，利用每个参数值对应的滤波器矩阵对分词向量进行滤波，得到参数值对应的滤波特征向量。

步骤S143，根据每个参数值对应的滤波特征向量生成分词向量对应的上下文文本特征向量。

在一实施例中，利用滤波器(也可描述为滤波器矩阵W_f)对分词向量进行卷积运算的方式，获取上下文文本特征向量Wcnn。该实施例中，设定多个不同滤波器窗口大小的滤波器矩阵，分别对分词向量W进行滤波运算。

在一实施例中，步骤S141中滤波器的参数值即滤波器的窗口大小，窗口大小即一次滤波滑动的词语数，例如可以一次滑动3个或者5个词语，本实施例根据实际使用需求，设定滤波器矩阵的数量，为每个滤波器设定不同的滑动窗口大小。避免只使用一个滤波器矩阵带来的计算精度不够的问题，使用多个滤波器矩阵进行计算，能够提高得到的上下文文本特征向量的精确度。

在一实施例中，步骤S142在选定参数值后，得到滤波器矩阵的窗口大小，对目标分词进行滑窗处理，目标分词位于窗口的中央，利用每一个滤波器矩阵分别对分词向量W进行卷积计算，将处于窗口内的分词对应的向量与滤波器对应位置的数字相乘，然后与滤波器本身的偏置项相加，即可得到目标词语在该滑动窗口下对应的卷积结果。在一个进一步的实施例中，参照图3，步骤S142包括但不限于步骤S1421至步骤S1423。

步骤S1421，生成参数值对应的填充信息。

步骤S1422，将填充信息与分词向量拼接得到拼接信息。

步骤S1423，利用每个参数值对应的滤波器矩阵对拼接信息进行滤波，得到参数值对应的滤波特征向量。

在一实施例中，由于滤波器窗口大小的限制，位于分词向量W首尾的分词在计算卷积时可能无法作为目标分词进行卷积，导致出现信息丢失，因此步骤S1421对分词向量W进行文本填充。

在一实施例中，当滤波器的窗口大小为x，则在分词向量W的首位各填充(x-1)/2个填充值，填充值可以是零，因为零乘以任何一个数都为零，填充之后不会影响卷积的计算结果。参照图4的填充示意图，图中以x＝3为例进行说明，当没有填充时，分词向量W(图中词语以方块进行示意)的第一个词语、第二个词语、倒数第二个词语和最后一个词语均无法作为目标分词(图中以实心方框示意)进行滤波器卷积，在分词向量W的首尾各填充(3-1)/2＝1个填充值(图中以圆进行示意)，填充之后，第一个词语、第二个词语、倒数第二个词语和最后一个词语均可以作为目标分词进行滤波器卷积。本实施例利用填充避免信息丢失，提高上下文文本特征向量Wcnn的准确性。

在一实施例中，对分词向量W进行局部特征提取，得到上下文文本特征向量Wcnn的过程描述为：

获取每个滤波器矩阵W_f的参数值x，然后根据参数值x生成对应的填充信息对分词向量W进行填充，然后将将填充信息与分词向量拼接得到拼接信息W’。利用滤波器矩阵W_f对拼接信息W’中对应位置的分词计算卷积值，得到分词向量W中每个位置分词在参数值x下对应的滤波特征向量c_i,x，将每个位置的分词对应的滤波特征向量c_i,x拼接，得到该参数值X下的滤波特征向量cx。对每个参数值x均计算其滤波特征向量cx，再将不同参数值x对应的滤波特征向量cx拼接，生成分词向量W对应的上下文文本特征向量Wcnn。

表示为：

c_i,x＝f([w_(i-(x-1)/2)；...；w_i；...；w_(i+(x-1)/2)]^TW_f+b_f)

其中，W_f表示滤波器矩阵，b_f表示滤波器矩阵的偏置项，f()表示滤波器操作，是一个非线性函数，w_i表示分词向量W中第i个分词，i表示分词在分词向量W中的位置，满足0≤i≤m，c_i,x表示分词w_i在参数值x对应的滤波特征向量的值，即在参数值为x的情况下，滤波器对分词向量w做卷积得到的滤波特征向量。

在一实施例中，将不同参数值x对应的滤波特征向量拼接，即可得到上下文文本特征向量Wcnn，表示为：

W_cnni＝[c_i,x1；c_i,x2；...]

Wcnn＝{W_cnn1，W_cnn2，…,W_cnni,…,W_cnnm}

其中，W_cnni表示分词向量W中第i个分词对应的上下文文本特征向量值，x1,x2,…表示不同滤波器的参数值，其数量根据实际需求设定。

以上可以看出，上述步骤中通过多个滤波器矩阵提取得到局部特征向量，能够提高得到的上下文文本特征向量的精确度。

在一实施例中，由于文本较长时，不能通过局部特征提取获得更多的信息，其不能利用全局信息，因此本实施例还需对分词向量W的全局特征进行提取。

在一实施例中，利用LSTM模型对对分词向量W进行全局特征提取，得到全局文本特征向量。但是这种方式计算费时，因为每一个LSTM的单元里面都有4个全连接层，当LSTM的时间跨度很大，并且网络又很深时，计算量很大，比较耗时。

在一实施例中，利用多头注意力模型对分词向量W进行全局特征提取，例如利用Transformer编码器实现对全局特征的提取，Transformer编码器是一种注意力模型。

在一实施例中，利用Transformer编码器实现对全局特征的提取，具体是步骤S150，参照图5，是一实施例示出的步骤S150的一种具体实现流程图，在本实施例中，对分词向量进行全局特征提取，得到全局文本特征向量的步骤S150，包括步骤S151至步骤S152。

步骤S151，利用至少一个注意力计算单元计算分词向量对应的注意力特征向量。

在一实施例中，多头注意力模型包含多个注意力计算单元，不同注意力计算单元包括不同的注意力权重序列，并行计算得到不同注意力计算单元的注意力特征向量。

在一实施例中，参照图6，是一实施例示出的步骤S151的一种具体实现流程图，在本实施例中，利用至少一个注意力计算单元计算分词向量对应的注意力特征向的步骤S151，包括：步骤S1521至步骤S1522。

步骤S1521，获取每个注意力计算单元对应的注意力权重序列。

步骤S1522，根据注意力计算单元的注意力权重序列计算的分词向量对应的注意力特征向量。

在一实施例中，多头注意力模型包含多个注意力计算单元，不同注意力计算单元包括不同的注意力权重序列，并行计算得到不同注意力计算单元的注意力特征向量，然后将其拼接形成全局文本特征向量。

在一实施例中，注意力计算单元的注意力权重序列包括：查询信息Q、键K和值V，其中查询信息Q、键K和值V都是向量，例如查询信息Q可以是输入的分词向量W，注意力计算单元就是将查询信息Q和键K-值V的集合映射成一个注意力特征向量，而多个注意力计算单元包括不同的注意力权重序列，能够得到不同的注意力特征向量。

在一实施例中，注意力权重序列可以通过学习过程得到，分词向量W对应多组不同的注意力权重序列，注意力计算单元的计算过程表示为：

其中，d_k表示查询信息Q的维度，可以是分词向量W的分词数m，Softmax()表示Softmax函数。

以上可以看出，利用多头注意力模型学习分词向量W中不同的特征信息，然后将不同的特征信息组合起来使用，该方式能够获取分词向量W中各种距离词语之间的依赖信息。

步骤S152，拼接一个以上注意力特征向量，得到全局文本特征向量。

在一实施例中，按照上述步骤得到注意力特征向量，分词向量W中第i个词语在第j个注意力计算单元的计算结果

表示为：

在一实施例中，分词向量W对应的注意力特征向量表示为：

W_T＝{W_T1，W_T2，…,W_Ti,…,W_Tm}

其中，

表示分词向量W中第i个位置的词语对应的注意力特征向量的值，W_T表示分词向量W对应的注意力特征向量。

经过上述步骤得到全局文本特征向量和上下文文本特征向量后，步骤S160根据全局文本特征向量和上下文文本特征向量得到文本特征向量。

在一实施例中，按照分词向量W中词语对应的序列顺序进行串联，得到文本特征向量，该文本特征向量结合了文本数据中包含的全局语义信息和局部上下文语义信息。该实施例中，文本特征向量S中元素数量与分词向量W的元素数量相同，文本特征向量S表示为：

S＝{S₁，S₂，…，S_m}

其中，S_i表示文本特征向量S中的第i个元素。

在一实施例中，利用两种不同的编码器以并行的方式进行特征提取，一方面将分词向量W输入CNN编码器进行局部特征提取，另一方面将分词向量W输入Transformer编码器对全局特征的提取，不仅可以提升运算效率同时可以提升特征抽取的能力。

在一实施例中，利用Transformer编码器实现对全局特征的提取能够实现并行计算，并且相比CNN，计算两个分词之间的关联信息所需的操作次数并不会随距离增长而增长，在面对长文本时，能够降低运算量。

上述步骤得到语音特征向量V和包含全局语义信息和局部上下文语义信息的文本特征向量S，由于语音数据和文本信息之间存在的互补性和关联性，因此可以基于语音数据和对应文本数据的多模态信息进行情感分类，充分利用语音文本多模态信息。

在一实施例中，参照图7，是一实施例示出的步骤S170的一种具体实现流程图，在本实施例中，根据语音特征向量V和文本特征向量S进行语音情感分类，得到语音情感分类结果的步骤S170，包括步骤S171至步骤S172。

步骤S171，对语音特征向量和文本特征向量进行拼接，得到分类特征向量。

步骤S172，对分类特征向量进行语音情感分类，得到语音情感分类结果。

在一实施例中，按照词语对应的序列顺序对语音特征向量V和文本特征向量S进行串联，得到分类特征向量U，表示为：

U_i＝[V_i，S_i]

U＝{U₁，U₂，…，U_m}

其中，U_i表示分类特征向量U中的第i个元素。

得到分类特征向量U之后，步骤S172对分类特征向量进行语音情感分类，得到语音情感分类结果，在一实施例中，参照图8，是一实施例示出的步骤S172的一种具体实现流程图，在本实施例中，对分类特征向量进行语音情感分类，得到语音情感分类结果的步骤S172，包括步骤S1721至步骤S1722。

步骤S1721，对分类特征向量计算得到概率分布值。

步骤S1722，根据预设分类阈值判断概率分布值对应的语音情感分类结果。

在一实施例中，利用Transformer模型进行情感分类，将分类特征向量U作为Transformer模型的输入信息，Transformer模型首先利用softmax函数计算得到分类特征向量U的概率分布值，然后将概率分布值与预设分类阈值进行匹配，输出该概率分布值对应的语音情感分类结果。其中，预设分类阈值为预先学习得到的不同情感对应的概率分布值的取值范围，在进行情感分类时，根据概率分布值落在哪一种情感对应的取值范围，即将该情感作为该概率分布值的语音情感分类结果。

参照图9，为本申请一实施例中语音情感分类方法的原理示意图。

首先获取待分类语音数据，例如在终端上获取用户通过音频输入设备(如麦克风)输入的一段音频作为待分类语音数据。然后利用自动语音识别技术对待分类语音数据进行特征提取，得到语音特征向量V，同时对待分类语音数据进行转录，得到该待分类语音数据对应的文本信息。

然后分为两条路径进行执行，首先针对文本信息执行下面的过程：

得到文本信息后，首先对文本信息进行分次操作，获取文本信息的分词向量W，表示为W＝{w1,w2,w3,…,wm}。

一方面将分词向量W输入CNN编码器进行局部特征提取。图9中CNN编码器利用滤波器对分词向量进行卷积运算的方式，获取上下文文本特征向量Wcnn，其中示意了两个不同窗口大小的滤波器，窗口大小分别是3和5，在不同的滤波器下计算得到分词向量W中每个词语w_i对应的滤波特征向量的值c_i,x，进而计算得到上下文文本特征向量Wcnn。

另一方面将分词向量W输入Transformer编码器对全局特征的提取。利用多头注意力模型学习分词向量W中不同的特征信息，然后将不同的特征信息组合起来使用。Transformer编码器包含多个注意力计算单元，不同注意力计算单元包括不同的注意力权重序列，并行计算得到不同注意力计算单元的注意力特征向量，即得到分词向量W中每个词语w_i对应的注意力特征向量的值A_i ^j，进而得到全局文本特征向量W_T。

然后按照分词向量W中词语对应的序列顺序进行串联，得到文本特征向量S，该文本特征向量S结合了文本数据中包含的全局语义信息和局部上下文语义信息，文本特征向量S中元素数量与分词向量W的元素数量相同。

最后将得到的语音特征向量V和文本特征向量S输入Transformer模型进行情感分类进行语音情感分类，得到语音情感分类结果。具体是，softmax函数对分类特征向量U计算得到概率分布值，再根据预设分类阈值判断概率分布值对应的语音情感分类结果，其中，预设分类阈值为预先学习得到的不同情感对应的概率分布值的取值范围，在进行情感分类时，根据概率分布值落在哪一种情感对应的取值范围，即将该情感作为该概率分布值的语音情感分类结果。

在一实施例中，将语音情感分类方法封装成语音情感分类模型，利用大量的样本对该语音情感分类模型进行训练，得到适应场景的较优模型权重参数，由于其联合多模态信息进行模型训练学习，能够提高语音情感分类结果的准确度。同样可以将其设计成程序，移植在相关设备上进行语音情感分类识别。在实际使用时，仅需输入语音数据，即可利用该训练好的语音情感分类模型进行情感识别，得到语音数据对应的情感信息后，还可以利用该情感信息进行进一步的引导操作等，本实施例对此不做具体限定。

本发明实施例提供的技术方案，通过获取待分类语音数据，对待分类语音数据进行特征提取，得到语音特征向量，同时获取待分类语音数据对应的文本信息的分词，对分词进行局部特征提取，得到上下文文本特征向量，对分词进行全局特征提取，得到全局文本特征向量，再根据全局文本特征向量和上下文文本特征向量得到文本特征向量，最后根据语音特征向量和文本特征向量进行语音情感分类，得到语音情感分类结果。

本实施例考虑到语音数据和文本信息之间存在的互补性和关联性，基于语音数据和对应文本数据的多模态信息进行情感分类，充分利用语音文本多模态信息，其中针对文本端的数据特征提取，采用两种不同编码器分别来处理文本数据，进行互相补充和融合，得到包含句子全局语义信息的全局文本特征向量和局部上下文语义信息的上下文文本特征向量，将其拼接后得到文本特征向量和语音特征向量进行融合交互进行情感预测分类，提高语音数据的语音情感分类结果的准确性。

本发明实施例还提供一种语音情感分类装置，可以实现上述语音情感分类方法，参照图10，该装置包括：

语音数据获取模块1010，用于获取待分类语音数据。

语音特征向量提取模块1020，用于对待分类语音数据进行特征提取，得到语音特征向量。

分词向量获取模块1030，用于获取待分类语音数据对应的文本信息的分词向量。

局部特征提取模块1040，用于对分词向量进行局部特征提取，得到上下文文本特征向量。

全局特征提取模块1050，用于对分词向量进行全局特征提取，得到全局文本特征向量。

文本特征向量合成模块1060，用于根据全局文本特征向量和上下文文本特征向量得到文本特征向量。

语音情感分类模块1070，用于根据语音特征向量和文本特征向量进行语音情感分类，得到语音情感分类结果，语音情感分类结果表征待分类语音数据的情感分类结果。

在一实施例中，语音情感分类装置基于语音数据和对应文本数据的多模态信息进行情感分类，最大程度的保留和提取文本数据中包含的全局语义信息和局部上下文语义信息，将更多特征联合之后进行情感预测分类，提高语音数据的语音情感分类结果的准确性。

本实施例的语音情感分类装置的具体实施方式与上述语音情感分类方法的具体实施方式基本一致，在此不再赘述。

本发明实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施上述的语音情感分类方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图11，图11示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1101，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器1102，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器1102可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1102中，并由处理器1101来调用执行本发明实施例的语音情感分类方法；

输入/输出接口1103，用于实现信息输入及输出；

通信接口1104，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线1105，在设备的各个组件(例如处理器1101、存储器1102、输入/输出接口1103和通信接口1104)之间传输信息；

其中处理器1101、存储器1102、输入/输出接口1103和通信接口1104通过总线1105实现彼此之间在设备内部的通信连接。

本发明实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述语音情感分类方法。

本发明实施例提出的语音情感分类方法、语音情感分类装置、电子设备、存储介质，通过获取待分类语音数据，对待分类语音数据进行特征提取，得到语音特征向量，同时获取待分类语音数据对应的文本信息的分词，对分词进行局部特征提取，得到上下文文本特征向量，对分词进行全局特征提取，得到全局文本特征向量，再根据全局文本特征向量和上下文文本特征向量得到文本特征向量，最后根据语音特征向量和文本特征向量进行语音情感分类，得到语音情感分类结果。

本实施例考虑到语音数据和文本信息之间存在的互补性和关联性，基于语音数据和对应文本数据的多模态信息进行情感分类，同时保留和提取文本数据中包含的全局语义信息和局部上下文语义信息，将更多特征联合之后进行情感预测分类，提高语音数据的语音情感分类结果的准确性。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例描述的实施例是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本发明实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本发明实施例的优选实施例，并非因此局限本发明实施例的权利范围。本领域技术人员不脱离本发明实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本发明实施例的权利范围之内。

Claims

1.一种语音情感分类方法，其特征在于，包括：

获取待分类语音数据；

对所述待分类语音数据进行特征提取，得到语音特征向量；

获取所述待分类语音数据对应的文本信息的分词向量；

2.根据权利要求1所述的语音情感分类方法，其特征在于，所述对所述分词向量进行局部特征提取，得到上下文文本特征向量，包括：

获取至少一个滤波器矩阵的参数值；

3.根据权利要求2所述的语音情感分类方法，其特征在于，所述利用每个所述参数值对应的滤波器矩阵对所述分词向量进行滤波，得到所述参数值对应的滤波特征向量，包括：

生成所述参数值对应的填充信息；

将所述填充信息与所述分词向量拼接得到拼接信息；

4.根据权利要求1所述的语音情感分类方法，其特征在于，所述对所述分词向量进行全局特征提取，得到全局文本特征向量，包括：

拼接所述注意力特征向量，得到所述全局文本特征向量。

5.根据权利要求4所述的语音情感分类方法，其特征在于，所述利用至少一个注意力计算单元计算分词向量对应的注意力特征向量，包括：

获取每个注意力计算单元对应的注意力权重序列；

6.根据权利要求1至5任一项所述的语音情感分类方法，其特征在于，所述根据所述语音特征向量和所述文本特征向量进行语音情感分类，得到所述待分类语音数据的语音情感分类结果，包括：

7.根据权利要求6所述的语音情感分类方法，其特征在于，所述对所述分类特征向量进行语音情感分类，得到所述语音情感分类结果，包括：

8.一种语音情感分类装置，其特征在于，包括：

语音数据获取模块，用于获取待分类语音数据；

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器用于根据所述程序执行如权利要求1至7中任一项所述的语音情感分类方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7中任一项所述的语音情感分类方法。