CN116663543A

CN116663543A - 基于语音和文本的情感识别方法和装置、设备、存储介质

Info

Publication number: CN116663543A
Application number: CN202310674287.5A
Authority: CN
Inventors: 张旭龙; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-08-29

Abstract

本申请实施例提供了一种基于语音和文本的情感识别方法和装置、设备、存储介质，属于人工智能和金融科技技术领域。该方法包括：获取目标对象的原始音频数据和原始文本数据，对原始音频数据进行音频特征提取得到初步音频特征，对原始文本数据进行文本特征提取得到初步词汇特征，对初步音频特征进行线性变换得到音频特征组，对初步词汇特征进行线性变换得到词汇特征组，根据音频特征组和词汇特征组进行第一、二注意力机制处理得到目标音频特征和目标词汇特征，将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征，根据音频词汇融合特征进行情感识别得到目标对象的目标情感类别。本申请实施例能够提高情感识别的准确率和效率。

Description

基于语音和文本的情感识别方法和装置、设备、存储介质

技术领域

本申请涉及人工智能和金融科技技术领域，尤其涉及一种基于语音和文本的情感识别方法和装置、设备、存储介质。

背景技术

语音情感识别(Speech Emotion Recognition，SER)：语音情感识别可以用于根据给定的语音片段识别出情感信息，主要原理是将音频数据输入到情感识别模型，情感识别模型根据所输入的音频数据进行情感识别，以输出情感信息，例如输出情感类别，该情感类别可以用于对话系统和人机交互界面，例如银行系统、保险系统、智能问诊系统等，语音情感识别是人机交互界面和对话系统中的重要步骤。传统的语音情感识别方法主要基于人工定义的特征进行判断，例如梅尔频率倒谱系数特征、音高特征、过零率特征、频谱质心特征等；该传统的情感识别方法的识别精确度较低，特别在一些较为复杂的场景下，例如音频中说话语气与音频中的说话内容不一致，情感识别的表现较差。因此，如何提高情感识别的准确率，成为了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出一种基于语音和文本的情感识别方法和装置、设备、存储介质，旨在提高情感识别的准确率。

为实现上述目的，本申请实施例的第一方面提出了一种基于语音和文本的情感识别方法，所述方法包括：

获取目标对象的原始音频数据和原始文本数据；

对所述原始音频数据进行音频特征提取，得到初步音频特征；

对所述原始文本数据进行文本特征提取，得到初步词汇特征；

对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组；

根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征；

将所述目标音频特征和所述目标词汇特征进行拼接，得到音频词汇融合特征；

根据所述音频词汇融合特征进行情感识别，得到所述目标对象的目标情感类别。

在一些实施例，所述对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组，包括：

将所述初步音频特征输入到预设的特征提取神经网络；其中，所述特征提取神经网络包括第一网络层、第二网络层、第三网络层；

通过所述第一网络层对所述初步音频特征进行第一变换得到音频查询特征；

通过所述第二网络层对所述初步音频特征进行第二变换得到音频键特征；

通过所述第三网络层对所述初步音频特征进行第三变换得到音频值特征；

根据所述音频查询特征、所述音频键特征、所述音频值特征构建所述音频特征组。

在一些实施例，所述对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组，还包括：

将所述初步词汇特征输入到所述特征提取神经网络；

通过所述第一网络层对所述初步词汇特征进行第一变换得到词汇查询特征；

通过所述第二网络层对所述初步词汇特征进行第二变换得到词汇键特征；

通过所述第三网络层对所述初步词汇特征进行第三变换得到词汇值特征；

根据所述词汇查询特征、所述词汇键特征、所述词汇值特征构建所述词汇特征组。

在一些实施例，所述根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征，包括：

对所述音频键特征进行矩阵转置处理得到音频转置键特征，对所述词汇键特征进行矩阵转置处理得到词汇转置键特征；

根据所述音频查询特征、所述词汇转置键特征、所述音频值特征进行第一注意力计算处理得到所述目标音频特征，根据所述词汇查询特征、所述音频转置键特征、所述词汇值特征进行第二注意力计算处理得到所述目标词汇特征。

在一些实施例，所述根据所述音频词汇融合特征进行情感识别，得到所述目标对象的目标情感类别，包括：

将所述音频词汇融合特征输入至预设的特征分类器中；

基于所述特征分类器对所述音频词汇融合特征进行情感分类处理，得到所述目标情感类别。

在一些实施例，所述对所述原始文本数据进行文本特征提取，得到初步词汇特征，包括：

对所述原始文本数据进行词嵌入提取，得到词嵌入序列；

通过预设的双向长短时记忆网络对所述词嵌入序列进行词特征提取，得到所述初步词汇特征。

在一些实施例，所述对所述原始音频数据进行音频特征提取，得到初步音频特征，包括：

对所述原始音频数据进行短时傅里叶变换频谱计算，得到初步频谱数据；

通过预设的卷积神经网络对所述初步频谱数据进行音频特征提取，得到所述初步音频特征。

为实现上述目的，本申请实施例的第二方面提出了一种基于语音和文本的情感识别装置，所述装置包括：

音频文本获取模块，用于获取目标对象的原始音频数据和原始文本数据；

音频特征提取模块，用于对所述原始音频数据进行音频特征提取，得到初步音频特征；

文本特征提取模块，用于对所述原始文本数据进行文本特征提取，得到初步词汇特征；

线性变换模块，用于对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组；

注意力机制计算模块，用于根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征；

特征拼接模块，用于将所述目标音频特征和所述目标词汇特征进行拼接，得到音频词汇融合特征；

情感识别模块，用于根据所述音频词汇融合特征进行情感识别，得到所述目标对象的目标情感类别。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的基于语音和文本的情感识别方法和装置、设备、存储介质,,可以应用于金融科技领域，其通过获取目标对象的原始音频数据和原始文本数据，对所述原始音频数据进行音频特征提取得到初步音频特征，对所述原始文本数据进行文本特征提取得到初步词汇特征，对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组，并根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征，再将所述目标音频特征和所述目标词汇特征进行拼接得到音频词汇融合特征，从而根据所述音频词汇融合特征进行情感识别得到所述目标对象的目标情感类别，从而可以提高情感识别的准确率。

附图说明

图1是本申请实施例提供的基于语音和文本的情感识别方法的流程图；

图2是图1中的步骤102的流程图；

图3是图1中的步骤103的流程图；

图4是图1中的步骤104的其中一流程图；

图5是图1中的步骤104的另一流程图；

图6是图1中的步骤105的流程图；

图7是图1中的步骤107的流程图；

图8是本申请实施例提供的基于语音和文本的情感识别装置的结构示意图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

梅尔频率倒谱系数(Mel-scale FrequencyCepstral Coefficients，MFCC)：梅尔频率倒谱系数是在Mel标度频率域提取出来的倒谱参数，梅尔频率倒谱系数可以用于依据人的听觉实验结果来分析语音的频谱。

短时傅里叶变换(STFT)：短时傅里叶变换的原理为：选择一个时频局部化的窗函数，该时频局部化的窗函数一旦确定了以后，其形状就不再发生改变，短时傅里叶变换的分辨率也就确定了，如果要改变分辨率，则需要重新选择窗函数；选择好窗函数后，假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的，移动窗函数，使f(t)g(t)在不同的有限时间宽度内是平稳信号，从而计算出各个不同时刻的功率谱。短时傅里叶变换可以用于分析分段平稳信号或者近似平稳信号；对于非平稳信号，当信号变化剧烈时，要求窗函数有较高的时间分辨率。

语音情感识别：语音情感识别可以用于根据给定的语音片段识别出情感信息，主要原理是将音频数据输入到情感识别模型，情感识别模型根据所输入的音频数据进行情感识别，以输出情感信息，例如输出情感类别，该情感类别可以用于对话系统和人机交互界面，例如银行系统、保险系统、智能问诊系统等，语音情感识别是人机交互界面和对话系统中的重要步骤。传统的语音情感识别方法主要基于人工定义的特征进行判断，例如梅尔频率倒谱系数特征、音高特征、过零率特征(过零率是从原始的音频信号直接提取的特征)、频谱质心特征等；该传统的情感识别方法的识别精确度较低，特别在一些较为复杂的场景下，例如音频中说话语气与音频中的说话内容不一致，情感识别的表现较差。

基于此，本申请实施例提供了一种基于语音和文本的情感识别方法和装置、设备、存储介质，旨在提高情感识别的准确率和效率。

本申请实施例提供的基于语音和文本的情感识别方法和装置、设备、存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的基于语音和文本的情感识别方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的基于语音和文本的情感识别方法，涉及人工智能技术领域。本申请实施例提供的基于语音和文本的情感识别方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现基于语音和文本的情感识别方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据、用户语音数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

图1是本申请实施例提供的基于语音和文本的情感识别方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤101至步骤107。

步骤101，获取目标对象的原始音频数据和原始文本数据；

步骤102，对原始音频数据进行音频特征提取，得到初步音频特征；

步骤103，对原始文本数据进行文本特征提取，得到初步词汇特征；

步骤104，对初步音频特征进行线性变换得到音频特征组，对初步词汇特征进行线性变换得到词汇特征组；

步骤105，根据音频特征组和词汇特征组进行第一注意力机制处理得到目标音频特征，根据音频特征组和词汇特征组进行第二注意力机制处理得到目标词汇特征；

步骤106，将目标音频特征和目标词汇特征进行拼接，得到音频词汇融合特征；

步骤107，根据音频词汇融合特征进行情感识别，得到目标对象的目标情感类别。

本申请实施例所示意的步骤101至步骤107，通过获取目标对象的原始音频数据和原始文本数据，对原始音频数据进行音频特征提取得到初步音频特征，对原始文本数据进行文本特征提取得到初步词汇特征，对初步音频特征进行线性变换得到音频特征组，对初步词汇特征进行线性变换得到词汇特征组，根据音频特征组和词汇特征组进行第一注意力机制处理得到目标音频特征，根据音频特征组和词汇特征组进行第二注意力机制处理得到目标词汇特征，将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征，根据音频词汇融合特征进行情感识别得到目标对象的目标情感类别，可以结合音频特征和词汇特征进行情感识别，可以提高情感识别的准确率，提高情感的检测精度。

在一些实施例的步骤101中，获取到的原始音频数据可以是预先对目标对象说话进行录制得到，例如可以由语音采集终端在目标对象进行说话时进行录制得到。目标对象可以是说话用户。原始文本数据可以是通过对原始音频数据进行语音识别得到的文本内容，例如可以通过开源的自动语音识别模型(ASR)对原始音频数据进行语音识别得到，从而可以在不提升训练难度的情况下提升模型表现；原始文本数据也可以是与原始音频数据匹配的数据，例如在电影场景下，原始音频数据是电影中的音频，原始文本数据是电源中的台词，原始音频数据是由电影中的扮演者或者电影配音人(目标对象)根据台词(原始文本数据)进行配音得到。在一应用场景，例如若原始音频数据的音频内容是目标对象所说的一段话：“今天天气真好”，则原始文本数据的文本内容为“今天天气真好”。原始音频数据的音频内容还可以是英文，例如：“Hownice！Well,and I said yes,of course”,则原始文本数据的文本内容为英文：“How nice！Well,and I said yes,of course”。在其他的应用场景，原始音频数据和原始文本数据还可以是预先存储于数据库的数据，也可以是通过网络爬虫进行爬取得到。

以金融科技场景为例，原始音频数据可以是：当用户向保险公司咨询投保业务时说话进行录制得到，或者用户向理财公司咨询理财业务时说话进行录制得到；原始文本数据是通过对投保咨询的音频进行语音识别得到的文本内容，或者是通过对理财咨询的音频进行语音识别得到的文本内容。原始音频数据也可以是用户向银行申请开卡时说话产生的音频信号或者向银行申请贷款时说话产生的音频信号，原始文本数据是通过对开卡申请的音频进行语音识别得到的文本内容或者对贷款申请的音频进行语音识别得到的文本内容。

以医疗场景为例，原始音频数据可以是患者进行问诊时的音频，原始文本数据是通过对问诊的音频进行语音识别得到的文本内容。

请参阅图2，在一些实施例的步骤102，可以包括但不限于包括步骤201至步骤202：

步骤201，对原始音频数据进行短时傅里叶变换频谱计算，得到初步频谱数据；

步骤202，通过预设的卷积神经网络对初步频谱数据进行音频特征提取，得到初步音频特征。

在一些实施例的步骤201，具体地，可以使用librosa库对原始音频数据进行短时傅里叶变换频谱计算，得到初步频谱数据，该初步频谱数据是短时傅里叶变换频谱(STFT)数据，该初步频谱数据是一种音频的时频表示，该初步频谱数据在频谱图上可以表示为：X轴为时间，Y轴为频率。

在一些实施例的步骤202，预设的卷积神经网络可以使用常规的卷积神经网络(CNN)对初步频谱数据进行音频特征提取，以得到初步音频特征。在其他的应用场景，还可以使用循环神经网络(Rerrent Neural Network，RNN)或者膨胀卷积神经网络(dilatedCNN)等，或者以上神经网络的组合，本申请实施不做限定，本申请实施例以卷积神经网络为例进行说明，本申请实施例通过采用卷积神经网络，可以更好地处理二维的频谱数据。卷积神经网络对初步频谱数据进行音频特征提取的过程中，可以将音频段所蕴含的特征进行抽象和归纳，得到的初步音频特征是音频段在高维空间的一种表示；本申请实施例得到的初步音频特征不同于较为底层且为人所知的声学特征，初步音频特征是一种更为抽象的中层特征，是不为人所知的特征。

传统的音频处理方式，一般是先将音频数据从时域上转移到频域上，形成频谱图。相比于传统的音频处理方式，本申请实施例，先对原始音频数据进行短时傅里叶变换频谱计算得到初步频谱数据，再采用卷积神经网络对初步频谱数据进行音频特征提取得到初步音频特征，可以将音频段所蕴含的特征进行抽象和归纳，得到音频段在高维空间的一种表示，即得到的初步音频特征是更为抽象的中层特征，不同于较为底层且为人所知的声学特征。

请参阅图3，在一些实施例的步骤103，可以包括但不限于包括步骤301至步骤302：

步骤301，对原始文本数据进行词嵌入提取，得到词嵌入序列；

步骤302，通过预设的双向长短时记忆网络对词嵌入序列进行词特征提取，得到初步词汇特征。

在一些实施例的步骤301，可以通过Global Vectors for Word Representation(Glove)对原始文本数据进行词嵌入提取。Glove是基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具，Glove可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性(similarity)、类比性(analogy)等。通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两个单词之间的语义相似性。步骤301中通过Glove对原始文本数据进行词嵌入提取，得到词嵌入序列。

在一些实施例的步骤302，预设的双向长短时记忆网络可以采用现有的双向长短时记忆网络(BiLSTM)，本申请实施例不做限定。在其他的实施例，可以用循环神经网络(RNN)替换双向长短时记忆网络，也可以用门控循环单元(Gate Recurrent Unit，GRU)替换双向长短时记忆网络,GRU是LSTM的一种变种,LSTM有三个门：遗忘门forget、输入门input、输出门output，而GRU只有两个门：更新门update、重置门reset。

请参阅图4，在一些实施例的步骤104，可以包括但不限于包括步骤401至步骤405：

步骤401，将初步音频特征输入到预设的特征提取神经网络；其中，特征提取神经网络包括第一网络层、第二网络层、第三网络层；

步骤402，通过第一网络层对初步音频特征进行第一变换得到音频查询特征；

步骤403，通过第二网络层对初步音频特征进行第二变换得到音频键特征；

步骤404，通过第三网络层对初步音频特征进行第三变换得到音频值特征；

步骤405，根据音频查询特征、音频键特征、音频值特征构建音频特征组。

在一些实施例，预设的特征提取神经网络可以是卷积神经网络。特征提取神经网络的第一网络层、第二网络层、第三网络层是三个网络结构相同但参数不相同的网络层,并且第一网络层、第二网络层、第三网络层均为卷积层。

在一些实施例的步骤步骤402，通过第一网络层对初步音频特征进行第一变换得到的音频查询特征(query)表示为Q_A，该音频查询特征Q_A也为中层特征，是一种更为抽象的中层特征，是不为人所知的特征。在一些实施例的步骤步骤403，通过第二网络层对初步音频特征进行第二变换得到的音频键特征(key)表示为K_A，该音频键特征K_A也为中层特征，是一种更为抽象的中层特征，是不为人所知的特征。在一些实施例的步骤步骤404，通过第一网络层对初步音频特征进行第三变换得到的音频值特征(value)表示为V_A，该音频值特征V_A也为中层特征，是一种更为抽象的中层特征，是不为人所知的特征。在一些实施例的步骤步骤405，根据音频查询特征Q_A、音频键特征K_A、音频值特征V_A构建得到音频特征组可以表示为(Q_A，K_A，V_A)。

请参阅图5，在一些实施例的步骤104，还可以包括但不限于包括步骤501至步骤505：

步骤501，将初步词汇特征输入到特征提取神经网络；

步骤502，通过第一网络层对初步词汇特征进行第四变换得到词汇查询特征；

步骤503，通过第二网络层对初步词汇特征进行第五变换得到词汇键特征；

步骤504，通过第三网络层对初步词汇特征进行第六变换得到词汇值特征；

步骤505，根据词汇查询特征、词汇键特征、词汇值特征构建词汇特征组。

在一些实施例的步骤104，可以使用两个特征提取神经网络，两个特征提取神经网络分别单独对初步音频特征和初步词汇特征进行处理，也可以只使用一个特征提取神经网络分别对初步音频特征和初步词汇特征进行处理。因此，步骤501中输入的特征提取神经网络可以与步骤401的特征提取神经网络相同，步骤501中输入的特征提取神经网络也可以是另外一个特征提取神经网络，本申请实施例不做限定。

在一些实施例的步骤步骤502，通过第一网络层对初步词汇特征进行第四变换得到的词汇查询特征(query)表示为Q_T，该词汇查询特征Q_T也为中层特征，是一种更为抽象的中层特征，是不为人所知的特征。在一些实施例的步骤步骤503，通过第二网络层对初步词汇特征进行第五变换得到的词汇键特征(key)表示为K_T，该词汇键特征K_T也为中层特征，是一种更为抽象的中层特征，是不为人所知的特征。在一些实施例的步骤步骤504，通过第一网络层对初步词汇特征进行第六变换得到的词汇值特征(value)表示为V_T，该词汇值询特征V_T也为中层特征，是一种更为抽象的中层特征，是不为人所知的特征。在一些实施例的步骤步骤505，根据词汇查询特征Q_T、词汇键特征K_T、词汇值特征V_T构建得到词汇特征组可以表示为(Q_T，K_T，V_T)。

在另一些应用场景的步骤104中,可以不需要神经网络的参与,只需要单独的第一网络层、第二网络层、第三网络层,且第一网络层、第二网络层、第三网络层均为卷积层,就可实现对初步音频特征的线性变换处理和对初步词汇特征的线性变换处理。

在一些实施例，音频查询特征、词汇转置键特征、音频值特征、词汇查询特征、音频转置键特征、词汇值特征的特征维度相同，表示为d_K。

请参阅图6，在一些实施例的步骤105，还可以包括但不限于包括步骤601至步骤603：

步骤601，对音频键特征进行矩阵转置处理得到音频转置键特征，对词汇键特征进行矩阵转置处理得到词汇转置键特征；

步骤602，根据音频查询特征、词汇转置键特征、音频值特征进行第一注意力计算处理得到目标音频特征；

步骤603，根据词汇查询特征、音频转置键特征、词汇值特征进行第二注意力计算处理得到目标词汇特征。

在一些实施例的步骤601中，对音频键特征K_A进行矩阵转置处理得到音频转置键特征对词汇键特征K_T进行矩阵转置处理得到词汇转置键特征/>音频转置键特征/>和词汇转置键特征/>也是中层特征，是一种更为抽象的中层特征，是不为人所知的特征。

在一些实施例的步骤602中根据音频查询特征、词汇转置键特征、音频值特征进行第一注意力计算处理得到目标音频特征，可以表示为如下公式(1)所示：

其中，对音频键特征K_A进行矩阵转置处理得到的音频转置键特征表示为词汇查询特征Q_T和音频转置键特征/>进行乘积计算可以用于计算相关度或(也叫依赖度)，然后经过softmax转为权重，然后再跟音频值特征V_A计算，从而实现注意力(attention)结果。本申请实施例，通过用词汇特征辅助音频特征的学习，得到的目标音频特征是音频高层特征，是一种高层特征，相对传统的方式，本申请实施例能够更好地平衡文本和音频两个模态之间的信息冗余性和互补性，大大提高了情感识别能力。

本申请实施例通过引入文本信息(词汇特征)来辅助增强语义信息，进而提升语义情感识别的准确度。在语音情感识别领域，文本信息也十分重要，有些情感可以通过感知语调或者感知语速等等进行识别，但实际的应用场景中较为复杂，例如说话人故意正话反说，说话人真实情感与说明内容不一致等等，仅凭文本信息无法准确识别出说话人的情感，本申请实施例结合使用音频信息和文本信息，二者互相弥补，互相提升，进而提升情感识别的准确度。

传统的语音情感识别方法，一般是基于深度学习的语音情感识别方法，该类方法首先提取短时傅里叶变换(STFT)频谱或梅尔频谱，之后再使用深度学习模型提取该频谱特征进行判别。该的语音情感识别方法，在说话内容和语气语调不够一致时(如用沮丧的语气说一句含义较为积极开朗的话)，识别表现极差，其原因在于其在判断情感时很难学习到话语本身的含义，主要依靠语音的音频特征去判断，因此识别精度低。

在一些实施例的步骤603中根据词汇查询特征、音频转置键特征、词汇值特征进行第二注意力计算处理得到目标词汇特征，可以表示为如下公式(2)所示：

其中，对词汇键特征K_T进行矩阵转置处理得到的词汇转置键特征表示为音频查询特征Q_A和词汇转置键特征/>进行乘积计算可以用于计算相关度或(也叫依赖度)，然后经过softmax转为权重，然后再跟词汇值特征V_T计算，从而实现注意力(attention)结果。本申请实施例，通过用音频特征辅助词汇特征的学习，得到的目标词汇特征是词汇高层特征，是一种高层特征，相对传统的方式，本申请实施例能够更好地平衡文本和音频两个模态之间的信息冗余性和互补性，大大提高了情感识别能力。

在一些实施例的步骤106，将目标音频特征和目标词汇特征进行拼接得到的音频词汇融合特征是一种高层特征，高层的音频词汇融合特征同时包括了高层音频特征和高层词汇特征，可以更好地进行情感识别，提高情感识别的精度。在一应用场景，可以通过融合网络对目标音频特征和目标词汇特征进行拼接处理，得到音频词汇融合特征；该融合网络是跨模态注意力的融合网络，可以实现音频特征和词汇特征的拼接。

请参阅图7，在一些实施例的步骤107，还可以包括但不限于包括步骤701至步骤702：

步骤701，将音频词汇融合特征输入至预设的特征分类器中；

步骤702，基于特征分类器对音频词汇融合特征进行情感分类处理，得到目标情感类别。

在一些应用场景的步骤107中，可以采用情感识别模型对音频词汇融合特征进行情感识别，该情感识别模型包括上述的特征分类器。由于在步骤106采用跨模态注意力的融合网络对目标音频特征和目标词汇特征进行拼接，因此得到音频词汇融合特征可以提升情感识别模型在说话内容和语气语调一致性较差情况下的情感识别表现。

在一些实施例的步骤701，预设的特征分类器可以是常规的分类器，本申请实施例不做限定。

在一些实施例的步骤702，由于音频词汇融合特征是在步骤106采用跨模态注意力的融合网络对目标音频特征和目标词汇特征进行拼接得到，因此得到音频词汇融合特征包含了高层的音频特征和高层的词汇特征，可以提升情感识别模型。在一应用场景，得到的目标情感类别可以包括快乐和悲伤两类；在另一应用场景，得到的目标情感类别可以包括快乐、愤怒和悲伤三类；在其他的应用场景，得到的目标情感类别还可以分得更细，例如快乐、幸福、难过、悲愤、紧张、放松等。

本申请实施例中，对于音频模态(即原始音频数据对应的音频特征)，可以先对原始音频数据进行短时傅里叶变换频谱计算得到初步频谱数据，再通过预设的卷积神经网络对初步频谱数据进行音频特征提取得到初步音频特征，该初步音频特征为中层特征；对于文本模态(即原始文本数据对应的词汇特征)，可以根据对原始音频数据进行自动语音识别模型进行语音识别得到，然后计算原始文本数据的文本内容对应的Glove词嵌入(embedding)，得到词嵌入序列，再将得到的词嵌入序列输入到双向长短时记忆网络(BiLSTM)中进行词特征提取得到初步词汇特征，该初步词汇特征为中层特征。再根据上述步骤401至步骤405得到音频特征组、根据上述步骤501至步骤505得到词汇特征组。从而再根据步骤601至步骤603，进行第一注意力计算处理得到目标音频特征，进行第二注意力计算处理得到目标词汇特征。并根据步骤106将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征，该音频词汇融合特征是一种高层特征，且该音频词汇融合特征同时包括了高层音频特征和高层词汇特征，以便于步骤107可以更好地进行情感识别，提高情感识别的精度。本申请实施例实现文本模态和音频模态的互相辅助、融合过程，在面对仅靠一种模态信息难以做出判断的情况时，可以通过本申请实施例的多模态方式进行情感识别，提高情感识别的精度。

本本申请实施例采用跨模态注意力融合网络能够高效地将音频特征和词汇特征统一融合在一起，以此通过两者共同进行决策。在面对不能仅靠音频特征进行判断的情况时，提高情感识别的精度。

本申请实施例，通过用词汇特征辅助音频特征的学习，得到的目标音频特征是一种高层的音频特征，相对传统的方式，本申请实施例能够更好地平衡文本和音频两个模态之间的信息冗余性和互补性，大大提高了情感识别能力。此外，本申请实施例通过引入文本信息(词汇特征)来辅助增强语义信息，进而提升语义情感识别的准确度。在复杂的实际应用场景，例如说话人故意正话反说的应用场景中，说话人真实情感与说明内容不一致时，可以结合音频信特征和词汇特征，从而准确识别出说话人的情感；本申请实施例结合使用音频信息和文本信息，二者互相弥补，互相提升，进而提升情感识别的准确度。

请参阅图8，本申请实施例还提供一种基于语音和文本的情感识别装置，可以实现上述基于语音和文本的情感识别方法，该装置包括：

音频特征提取模块，用于对原始音频数据进行音频特征提取，得到初步音频特征；

文本特征提取模块，用于对原始文本数据进行文本特征提取，得到初步词汇特征；

线性变换模块，用于对初步音频特征进行线性变换得到音频特征组，对初步词汇特征进行线性变换得到词汇特征组；

注意力机制计算模块，用于根据音频特征组和词汇特征组进行第一注意力机制处理得到目标音频特征，根据音频特征组和词汇特征组进行第二注意力机制处理得到目标词汇特征；

特征拼接模块，用于将目标音频特征和目标词汇特征进行拼接，得到音频词汇融合特征；

情感识别模块，用于根据音频词汇融合特征进行情感识别，得到目标对象的目标情感类别。

该情感识别装置的具体实施方式与上述基于语音和文本的情感识别方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述基于语音和文本的情感识别方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器801，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器802，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器802可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行本申请实施例的基于语音和文本的情感识别方法；

输入/输出接口803，用于实现信息输入及输出；

通信接口804，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线805，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息；

其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述基于语音和文本的情感识别方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的基于语音和文本的情感识别方法和装置、设备、存储介质，其获取目标对象的原始音频数据和原始文本数据，对原始音频数据进行音频特征提取得到初步音频特征，对原始文本数据进行文本特征提取得到初步词汇特征，对初步音频特征进行线性变换得到音频特征组，对初步词汇特征进行线性变换得到词汇特征组，根据音频特征组和词汇特征组进行第一注意力机制处理得到目标音频特征，根据音频特征组和词汇特征组进行第二注意力机制处理得到目标词汇特征，将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征，根据音频词汇融合特征进行情感识别得到目标对象的目标情感类别，可以结合音频特征和词汇特征进行情感识别，可以提高情感识别的准确率，提高情感的检测精度，提高了在实际应用的复杂场景下情感识别的准确率。本申请实施例，通过用词汇特征辅助音频特征的学习，得到的目标音频特征是一种高层的音频特征，相对传统的方式，本申请实施例能够更好地平衡文本和音频两个模态之间的信息冗余性和互补性，大大提高了情感识别能力。此外，本申请实施例通过引入文本信息(词汇特征)来辅助增强语义信息，进而提升语义情感识别的准确度。在复杂的实际应用场景，例如说话人故意正话反说的应用场景中，说话人真实情感与说明内容不一致时，可以结合音频信特征和词汇特征，从而准确识别出说话人的情感；本申请实施例结合使用音频信息和文本信息，二者互相弥补，互相提升，进而提升情感识别的准确度。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种基于语音和文本的情感识别方法，其特征在于，所述方法包括：

获取目标对象的原始音频数据和原始文本数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组，还包括：

将所述初步词汇特征输入到所述特征提取神经网络；

通过所述第一网络层对所述初步词汇特征进行第四变换得到词汇查询特征；

通过所述第二网络层对所述初步词汇特征进行第五变换得到词汇键特征；

通过所述第三网络层对所述初步词汇特征进行第六变换得到词汇值特征；

4.根据权利要求3所述的方法，其特征在于，所述根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征，包括：

根据所述音频查询特征、所述词汇转置键特征、所述音频值特征进行第一注意力计算处理得到所述目标音频特征；

根据所述词汇查询特征、所述音频转置键特征、所述词汇值特征进行第二注意力计算处理得到所述目标词汇特征。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述音频词汇融合特征进行情感识别，得到所述目标对象的目标情感类别，包括：

将所述音频词汇融合特征输入至预设的特征分类器中；

6.根据权利要求1至4任一项所述的方法，其特征在于，所述对所述原始文本数据进行文本特征提取，得到初步词汇特征，包括：

对所述原始文本数据进行词嵌入提取，得到词嵌入序列；

7.根据权利要求1至4任一项所述的方法，其特征在于，所述对所述原始音频数据进行音频特征提取，得到初步音频特征，包括：

8.一种基于语音和文本的情感识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。