CN115394321A

CN115394321A - 音频情感识别方法、装置、设备、存储介质及产品

Info

Publication number: CN115394321A
Application number: CN202211017941.7A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-25

Abstract

本申请公开了一种音频情感识别方法、装置、设备、存储介质及产品，属于计算机技术领域。所述方法包括：获取待处理音频数据以及待处理音频数据对应的音频文本；基于待处理音频数据和音频文本进行特征提取处理，得到待处理音频数据对应的第一音频特征和待处理音频数据对应的第二音频特征；对第一音频特征和第二音频特征进行融合处理，得到待处理音频数据对应的融合音频特征；基于融合音频特征进行情感识别处理，得到待处理音频数据对应的情感类型信息。本申请实施例提供的技术方案，能够有效降低音频情感识别对自动语音识别精度的依赖程度，提升音频情感识别的稳定性和准确性。

Description

音频情感识别方法、装置、设备、存储介质及产品

技术领域

本申请涉及计算机技术领域，特别涉及一种音频情感识别方法、装置、设备、存储介质及产品。

背景技术

随着人工智能技术的不断发展，情感识别在各领域中得到广泛应用。

相关技术中，通过对音频进行自动语音识别，可以得到音频的转录文本，再根据转录文本的文本特征，即可识别出音频中的情感信息。

相关技术中，音频情感识别对自动语音识别精度的依赖程度较高，音频情感识别的稳定性和准确性较低。

发明内容

本申请实施例提供了一种音频情感识别方法、装置、设备、存储介质及产品，能够降低音频情感识别对自动语音识别精度的依赖程度，并提升音频情感识别的稳定性和准确性。

根据本申请实施例的一个方面，提供了一种音频情感识别方法，所述方法包括：

获取待处理音频数据以及所述待处理音频数据对应的音频文本；

基于所述待处理音频数据和所述音频文本进行特征提取处理，得到所述待处理音频数据对应的第一音频特征和所述待处理音频数据对应的第二音频特征，所述第一音频特征是基于所述待处理音频数据中每一音频帧对应的音频表征数据融合生成的，所述第二音频特征是基于所述音频文本中每一语料单元对应的音频表征数据融合生成的；

对所述第一音频特征和所述第二音频特征进行融合处理，得到所述待处理音频数据对应的融合音频特征；

基于所述融合音频特征进行情感识别处理，得到所述待处理音频数据对应的情感类型信息。

在一些可能的设计中，所述基于所述待处理音频数据和所述音频文本进行特征提取处理，得到所述待处理音频数据对应的第一音频特征和所述待处理音频数据对应的第二音频特征，包括：

基于所述待处理音频数据和所述音频文本进行特征提取处理，得到每一所述音频帧对应的音频表征数据，以及每一所述语料单元对应的音频表征数据；

对每一所述音频帧对应的音频表征数据进行融合处理，得到所述第一音频特征；

对每一所述语料单元对应的音频表征数据进行融合处理，得到所述第二音频特征。

在一些可能的设计中，所述基于所述待处理音频数据和所述音频文本进行特征提取处理，得到每一所述音频帧对应的音频表征数据，以及每一所述语料单元对应的音频表征数据，包括：

对所述待处理音频数据进行音频特征提取处理，得到每一所述音频帧对应的音频表征数据；

对所述音频文本进行文本特征提取处理，得到每一所述语料单元对应的文本表征数据；

基于每一所述音频帧对应的音频表征数据和每一所述语料单元对应的文本表征数据，进行跨模态特征对齐处理，得到每一所述语料单元对应的音频表征数据。

在一些可能的设计中，所述基于每一所述音频帧对应的音频表征数据和每一所述语料单元对应的文本表征数据，进行跨模态特征对齐处理，得到每一所述语料单元对应的音频表征数据，包括：

遍历每一所述语料单元；

将遍历到的语料单元对应的文本表征数据与每一所述音频帧对应的音频表征数据进行基于注意力机制的交叉融合处理，得到所述遍历到的语料单元对应的音频表征数据；

响应于遍历结束，得到每一所述语料单元对应的音频表征数据。

在一些可能的设计中，所述将遍历到的语料单元对应的文本表征数据与每一所述音频帧对应的音频表征数据进行基于注意力机制的交叉融合处理，得到所述遍历到的语料单元对应的音频表征数据，包括：

将所述遍历到的语料单元对应的文本表征数据作为检索信息；

将每一所述音频帧对应的音频表征数据作为键信息和值信息；

基于所述检索信息、所述键信息和所述值信息，进行所述基于注意力机制的交叉融合处理，得到所述遍历到的语料单元对应的音频表征数据。

在一些可能的设计中，所述情感类型信息是目标情感识别模型根据所述待处理音频数据和所述音频文本输出的模型识别结果，所述目标情感识别模型对应的训练过程包括：

获取样本音频数据、所述样本音频数据对应的样本音频文本以及所述样本音频数据对应的标签信息；

将所述样本音频数据和所述样本音频文本输入预设情感识别模型进行情感识别处理，得到所述样本音频数据对应的情感类型信息；

基于所述标签信息和所述样本音频数据对应的情感类型信息，确定情感识别损失信息；

基于所述情感识别损失信息，对所述预设情感识别模型进行参数调整处理，得到所述目标情感识别模型。

在一些可能的设计中，所述预设情感识别模型包括音频编码器、文本编码器、跨模态语义提取模型以及情感分类模型，所述将所述样本音频数据和所述样本音频文本输入预设情感识别模型进行情感识别处理，得到所述样本音频数据对应的情感类型信息，包括：

将所述样本音频数据输入所述音频编码器进行音频特征提取处理，得到所述样本音频数据中每一样本音频帧对应的音频表征数据；

将所述样本音频文本输入所述文本编码器进行文本特征提取处理，得到所述样本音频文本中每一样本语料单元对应的文本表征数据；

将每一所述样本音频帧对应的音频表征数据和每一样本语料单元对应的文本表征数据输入所述跨模态语义提取模型进行跨模态特征对齐处理，得到每一所述样本语料单元对应的音频表征数据；

对每一所述样本音频帧对应的音频表征数据进行融合处理，得到所述样本音频数据对应的第三音频特征；

对每一所述样本语料单元对应的音频表征数据进行融合处理，得到所述样本音频数据对应的第四音频特征；

对所述第三音频特征和所述第四音频特征进行融合处理，得到所述样本音频数据对应的融合音频特征；

将所述样本音频数据对应的融合音频特征输入所述情感分类模型进行情感分类处理，得到所述样本音频数据对应的情感类型信息。

在一些可能的设计中，所述基于所述情感识别损失信息，对所述预设情感识别模型进行参数调整处理，得到所述目标情感识别模型之前，还包括：

对每一所述样本语料单元对应的文本表征数据进行融合处理，得到所述样本音频文本对应的文本特征；

基于所述文本特征和所述第四音频特征，确定特征距离损失信息；

所述基于所述情感识别损失信息，对所述预设情感识别模型进行参数调整处理，得到所述目标情感识别模型，包括：

基于所述情感识别损失信息和所述特征距离损失信息，对所述预设情感识别模型进行参数调整处理，得到所述目标情感识别模型。

根据本申请实施例的一个方面，提供了一种音频情感识别装置，所述装置包括：

音频信息获取模块，用于获取待处理音频数据以及所述待处理音频数据对应的音频文本；

音频特征提取模块，用于基于所述待处理音频数据和所述音频文本进行特征提取处理，得到所述待处理音频数据对应的第一音频特征和所述待处理音频数据对应的第二音频特征，所述第一音频特征是基于所述待处理音频数据中每一音频帧对应的音频表征数据融合生成的，所述第二音频特征是基于所述音频文本中每一语料单元对应的音频表征数据融合生成的；

音频特征融合模块，用于对所述第一音频特征和所述第二音频特征进行融合处理，得到所述待处理音频数据对应的融合音频特征；

音频情感识别模块，用于基于所述融合音频特征进行情感识别处理，得到所述待处理音频数据对应的情感类型信息。

在一些可能的设计中，所述音频特征提取模块，包括：

音频表征子模块，用于基于所述待处理音频数据和所述音频文本进行特征提取处理，得到每一所述音频帧对应的音频表征数据，以及每一所述语料单元对应的音频表征数据；

表征数据融合子模块，用于对每一所述音频帧对应的音频表征数据进行融合处理，得到所述第一音频特征；

所述表征数据融合子模块，还用于对每一所述语料单元对应的音频表征数据进行融合处理，得到所述第二音频特征。

在一些可能的设计中，所述音频表征子模块，包括：

音频帧表征单元，用于对所述待处理音频数据进行音频特征提取处理，得到每一所述音频帧对应的音频表征数据；

文本表征单元，用于对所述音频文本进行文本特征提取处理，得到每一所述语料单元对应的文本表征数据；

跨模态特征对齐单元，用于基于每一所述音频帧对应的音频表征数据和每一所述语料单元对应的文本表征数据，进行跨模态特征对齐处理，得到每一所述语料单元对应的音频表征数据。

在一些可能的设计中，所述跨模态特征对齐单元，包括：

语料单元遍历子单元，用于遍历每一所述语料单元；

特征交叉融合子单元，用于将遍历到的语料单元对应的文本表征数据与每一所述音频帧对应的音频表征数据进行基于注意力机制的交叉融合处理，得到所述遍历到的语料单元对应的音频表征数据；

音频表征数据确定子单元，用于响应于遍历结束，得到每一所述语料单元对应的音频表征数据。

在一些可能的设计中，所述特征交叉融合子单元，具体用于：

在一些可能的设计中，所述情感类型信息是目标情感识别模型根据所述待处理音频数据和所述音频文本输出的模型识别结果，所述目标情感识别模型对应的训练装置包括：

训练数据获取模块，用于获取样本音频数据、所述样本音频数据对应的样本音频文本以及所述样本音频数据对应的标签信息；

情感类型识别模块，用于将所述样本音频数据和所述样本音频文本输入预设情感识别模型进行情感识别处理，得到所述样本音频数据对应的情感类型信息；

识别损失确定模块，用于基于所述标签信息和所述样本音频数据对应的情感类型信息，确定情感识别损失信息；

模型参数调整模块，用于基于所述情感识别损失信息，对所述预设情感识别模型进行参数调整处理，得到所述目标情感识别模型。

在一些可能的设计中，所述预设情感识别模型包括音频编码器、文本编码器、跨模态语义提取模型以及情感分类模型，所述情感类型识别模块，包括：

音频帧表征单元，用于将所述样本音频数据输入所述音频编码器进行音频特征提取处理，得到所述样本音频数据中每一样本音频帧对应的音频表征数据；

文本表征单元，用于将所述样本音频文本输入所述文本编码器进行文本特征提取处理，得到所述样本音频文本中每一样本语料单元对应的文本表征数据；

跨模态特征对齐单元，用于将每一所述样本音频帧对应的音频表征数据和每一样本语料单元对应的文本表征数据输入所述跨模态语义提取模型进行跨模态特征对齐处理，得到每一所述样本语料单元对应的音频表征数据；

表征数据融合单元，用于对每一所述样本音频帧对应的音频表征数据进行融合处理，得到所述样本音频数据对应的第三音频特征；

所述表征数据融合单元，还用于对每一所述样本语料单元对应的音频表征数据进行融合处理，得到所述样本音频数据对应的第四音频特征；

音频特征融合单元，用于对所述第三音频特征和所述第四音频特征进行融合处理，得到所述样本音频数据对应的融合音频特征；

情感分类单元，用于将所述样本音频数据对应的融合音频特征输入所述情感分类模型进行情感分类处理，得到所述样本音频数据对应的情感类型信息。

在一些可能的设计中，所述训练装置还包括：

文本特征确定模块，用于对每一所述样本语料单元对应的文本表征数据进行融合处理，得到所述样本音频文本对应的文本特征；

距离损失确定模块，用于基于所述文本特征和所述第四音频特征，确定特征距离损失信息；

所述模型参数调整模块，具体用于基于所述情感识别损失信息和所述特征距离损失信息，对所述预设情感识别模型进行参数调整处理，得到所述目标情感识别模型。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述音频情感识别方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述音频情感识别方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现上述音频情感识别方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过对待处理音频数据及其对应的音频文本进行特征提取处理，可以得到基于待处理音频数据中每一音频帧对应的音频表征数据融合生成的第一音频特征，以及基于音频文本中每一语料单元对应的音频表征数据融合生成的第二音频特征，通过融合上述第一音频特征和第二音频特征，即可得到融合有每一音频帧对应的特征信息以及每一语料单元对应的特征信息的融合音频特征，此种融合方式下，既能将每一语料单元对应的特征信息融入到特征中，又避免了直接融合每一语料单元的文本特征进入特征中，有效降低了音频情感识别对自动语音识别精度的依赖程度，基于该融合音频特征进行情感识别处理可以使得情感识别处理的稳定性更强，识别出的情感类型信息也更加准确，提升了音频情感识别的稳定性和准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的应用程序运行环境的示意图；

图2示例性示出了一种情感分析界面的示意图；

图3示例性示出了一种从语音中挖掘有效语义信息的情感识别流程示意图；

图4是本申请一个实施例提供的音频情感识别方法的流程图一；

图5是本申请一个实施例提供的音频情感识别方法的流程图二；

图6是本申请一个实施例提供的音频情感识别方法的流程图三；

图7是本申请一个实施例提供的音频情感识别方法的流程图四；

图8示例性示出了一种基于情感识别模型进行语音情感识别的流程示意图；

图9是本申请一个实施例提供的情感识别模型训练方法的流程图一；

图10是本申请一个实施例提供的情感识别模型训练方法的流程图二；

图11示例性示出了一种预设情感识别模型的模型结构图；

图12示例性示出了一种基于预设情感识别模型进行情感识别的数据流向图；

图13是本申请一个实施例提供的音频情感识别装置的框图；

图14是本申请一个实施例提供的计算机设备的结构框图一；

图15是本申请另一个实施例提供的计算机设备的结构框图二。

具体实施方式

本申请实施例提供的音频情感识别方法涉及云技术和人工智能技术，下面对此进行简要说明，以便于本领域技术人员理解。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

在本申请实施例中，情感识别处理的主要逻辑可以在云端部署，终端可将音频发送至云端，云端服务器可将识别结果返回给终端，降低终端运行压力。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能教育、智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。比如，在情感识别场景下，即可利用人工智能技术基于音频进行情感识别，实现音频中情感信息的识别。相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。

终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够提供音频情感识别服务的应用程序。可选地，该应用程序包括但不限于地图导航类应用程序、智能助手类应用程序、视频类应用程序、新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality，VR)类应用程序、增强现实(Augmented Reality，AR)类应用程序等，本申请实施例对此不作限定。另外，对于不同的应用程序来说，其对应的音频内容也会有所不同，且相应的功能也会有所不同，这都可以根据实际需求预先进行配置，本申请实施例对此不作限定。可选地，终端10中运行有上述应用程序的客户端。

在一个示例中，如图2所示，其示例性示出了一种情感分析界面的示意图。图2中示出的情感分析界面20中可以显示录音按钮(图中未示出)，用户点击该录音按钮，设备就可以启动录音设备进行语音的录制，情感分析界面20中会显示当前录音状态，比如在情感分析界面中显示提示信息21，表示设备当前正在录音。设备可以对录制的音频数据进行情感识别，并将情感识别结果22显示在上述情感分析界面20中。

可选地，上述设备可以基于情感识别模型进行情感识别。在一个示例中，如图3所示，其示例性示出了一种从语音中挖掘有效语义信息的情感识别流程示意图，该流程包括：用户打开设备进行录音，设备中的录音设备实时录制的语音分别发送给自动语音识别模型和鲁棒的多模态语音情感识别模型；自动语音识别模型将识别出的识别文本发送给鲁棒的多模态语音情感识别模型中；多模态语音情感识别模型基于识别文本和语音，进行情感分类处理并生成情感分类结果，通过上述设备将多模态语音情感识别模型输出的情感分类结果反馈给用户，比如在屏幕中展示。

服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。

可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在介绍本申请提供的方法实施例之前，先对本申请方法实施例中可能涉及的应用场景、相关术语或者名词进行简要介绍，以便于本申请领域技术人员理解。

WER(Word Error Rate，单词错误率)，衡量ASR错误程度的指标，包括ASR识别后产生的插入、删除和替换错误。

UA(Unweighted Accuracy，未加权准确度)：所有类中预测的正确个数除以所有类中所有样本数。

WA(weighted accuracy，加权准确度)：每个类的准确度求平均。

MFCCs(Mel-Frequency CepstrumCoefficients，梅尔倒谱频谱系数)：基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

LFPC(log frequency power coefficients，对数频率能量系数)。

HMM(Hidden Markov Model，隐性马尔可夫模型)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

LSTM(Long Short-Term Memory长短期记忆神经网络)：一种时间循环神经网络(Recurrent Neural Network，RNN)。

CNN(convolutional neural network，卷积神经网络)。

注意力机制：在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小

编码器：接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。

请参考图4，其示出了本申请一个实施例提供的音频情感识别方法的流程图一。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或服务器20。该方法可以包括以下几个步骤(410～440)。

步骤410，获取待处理音频数据以及待处理音频数据对应的音频文本。

可选地，上述待处理音频数据可以是音频流中的一段音频数据，也可以是完整的一段音频流数据。本申请实施例对此不作限定。

可选地，上述音频文本包括但不限于：对待处理音频数据进行自动语音识别得到的识别文本(或者称转录文本)、待处理音频数据对应的字幕文本。

在一种可能的实施方式中，设备显示音频录制选项，用户可以选择该音频录制选项，设备响应于针对上述音频录制选项的选择指令，进行音频录制处理，得到上述待处理音频数据。

在另一种可能的实施方式中，用户可以通过语音指令控制设备执行相应的操作，例如控制车载设备、虚拟助手等，设备在检测到语音指令的情况下，进行音频录制处理，得到上述待处理音频数据。上述待处理音频数据也可以是语音指令对应的音频数据。

步骤420，基于待处理音频数据和音频文本进行特征提取处理，得到待处理音频数据对应的第一音频特征和待处理音频数据对应的第二音频特征。

可选地，第一音频特征是基于待处理音频数据中每一音频帧对应的音频表征数据融合生成的。通过对待处理音频数据进行音频特征提取处理，即可得到待处理音频数据中每一音频帧对应的音频表征数据，对每一音频帧对应的音频表征数据进行融合处理，如池化处理、平均池化、平均处理、加权平均、拼接处理等融合处理，即可得到上述第一音频特征。

可选地，上述音频帧对应的音频表征数据包括但不限于音频帧对应的频谱特征数据、音素特征数据等音频模态的特征数据。

可选地，第二音频特征是基于音频文本中每一语料单元对应的音频表征数据融合生成的。通过对音频文本进行文本特征提取处理，即可得到音频文本中每一语料单元对应的文本表征数据，基于每一语料单元对应的文本表征数据和每一音频帧对应的音频表征数据，即可确定上述每一语料单元对应的音频表征数据，通过确定每一语料单元对应的音频表征数据，即可实现对每一语料单元对应的文本表征数据中的有效语义信息的提取，若自动语音识别出现错误，比如错误的识别单词，那么该错误降低文本表征数据的正确性，但是通过对上述每一语料单元对应的音频表征数据的确定，即可保留文本表征数据中的有效语义信息，避免自动语音识别错误对特征精度产生较大的影响。

通过对每一语料单元对应的音频表征数据进行融合处理，如池化处理、平均池化、平均处理、加权平均、拼接处理等融合处理，即可得到上述第二音频特征。第二音频特征同时含有每个语料单元在文本模态对应的有效特征信息和每个语料单元在音频模态对应的有效特征信息。

在示例性实施例中，如图5所示，上述步骤420可以包括如下子步骤(421～423)，图5示出了本申请一个实施例提供的音频情感识别方法的流程图二。

步骤421，基于待处理音频数据和音频文本进行特征提取处理，得到每一音频帧对应的音频表征数据，以及每一语料单元对应的音频表征数据。

上述每一音频帧对应的音频表征数据对应的生成过程，以及每一语料单元对应的音频表征数据对应的生成过程可以参见下面的实施例中的说明。

可选地，将待处理音频数据和音频文本输入目标情感识别模型，目标情感识别模型中用于进行特征提取的相关网络层即可对待处理音频数据和音频文本进行上述特征提取处理。

在示例性实施例中，如图6所示，上述步骤421可以包括如下子步骤(4211～4213)，图6示出了本申请一个实施例提供的音频情感识别方法的流程图三。

步骤4211，对待处理音频数据进行音频特征提取处理，得到每一音频帧对应的音频表征数据。

可选地，将待处理音频数据输入训练好的音频编码器，通过该音频编码器对待处理音频数据进行音频特征提取处理，得到每一音频帧对应的音频表征数据。可选地，上述目标情感识别模型包括上述音频编码器。

可选地，上述音频表征数据可以是音频表征向量，也可以音频表征数据序列。

在一种可能的实施方式中，上述音频编码器为Wav2vec 2.0预训练声学模型。Wav2vec 2.0是一种基于大量无标签数据进行自监督预训练的模型，它由多层卷积的特征编码层和多层transformer(转换器)构成。通过输入原始音频信号(即待处理音频数据)到音频编码器中，可以得到每一帧的音频表示，即每一帧的音频表征数据。

步骤4212，对音频文本进行文本特征提取处理，得到每一语料单元对应的文本表征数据。

可选地，将待处理音频数据输入训练好的文本编码器，通过该文本编码器对音频文本进行文本特征提取处理，可以得到每一语料单元对应的文本表征数据。可选地，上述目标情感识别模型包括上述文本编码器。

可选地，对音频文本进行分词处理，得到音频文本中的各个语料单元，例如各个词或字，将上述各个语料单元构成的语料单元序列输入上述文本编码器进行文本特征提取处理，即可得到每一语料单元对应的文本表征数据。

在一种的可能的实施方式中，上述文本编码器为BERT(Bidirectional EncoderRepresentation from Transformers，基于转换器的双向编码器表征)模型。文本编码器BERT也是基于大量无标签数据进行自监督训练得到的模型，通过输入一句话每个单词(即每个语料单元)到文本编码器中，可以得到每个单词的单词表示(即每个语料单元对应的文本表征数据)。

步骤4213，基于每一音频帧对应的音频表征数据和每一语料单元对应的文本表征数据，进行跨模态特征对齐处理，得到每一语料单元对应的音频表征数据。

为了减少ASR错误导致文本模态表征数据的误差，最终影响整体的情感识别的效果，本申请实施例提供的技术方案，通过跨模态特征对齐的方式，将上述每一音频帧对应的音频表征数据和每一语料单元对应的文本表征数据进行对齐，从而实现从语音中挖掘有效语义信息。具体地，上述跨模态特征对齐处理主要基于注意力机制实现，注意力机制可以看成一种软对齐，能够将文本与音频对应的部分进行对齐，可选地，该对应的部分为有效对应部分，比如正确识别的语料单元与音频之间的对应的部分。

在一种可能的实施方式中，如图7所示，上述步骤4213可以包括如下子步骤(42131～42133)，图7示出了本申请一个实施例提供的音频情感识别方法的流程图四。

步骤42131，遍历每一语料单元。

可选地，上述遍历的方式可以是串行遍历，也可以是并行遍历，本申请实施例对此不作限定。

步骤42132，将遍历到的语料单元对应的文本表征数据与每一音频帧对应的音频表征数据进行基于注意力机制的交叉融合处理，得到遍历到的语料单元对应的音频表征数据。

可选地，将遍历到的语料单元对应的文本表征数据作为检索信息(query)；将每一音频帧对应的音频表征数据作为键信息(key)和值信息(value)；基于检索信息、键信息和值信息，进行基于注意力机制的交叉融合处理，得到遍历到的语料单元对应的音频表征数据。

注意力机制用于建模query、key、value之间的关系。可选地，注意力机制的定义公式为下述公式(1)。

其中，Q为query向量，K为key向量，V为value向量。K和Q的向量维度为d_k。在本申请实施例中，query为每个语料单元对应的文本表征数据，即语料单元在文本编码器的输出，key和value为该待处理音频对应的原始音频表征向量，即待处理音频对应的原始音频信号输入到文本编码器后，得到的每一帧音频帧对应的音频表征数据。

可选地，上述基于注意力机制的交叉融合处理的过程为：将每个语料单元对应的文本表征数据与该待处理音频数据中所有音频帧对应的音频表征数据进行基于注意力的交互，由此得到每个语料单元对应的音频表征数据。

在遍历到的语料单元是音频文本中的第j个语料单元的情况下，第j个语料单元对应的音频表征数据可以由下述公式(2)确定。

其中，

表示音频文本(text)中第j个语料单元对应的文本表征向量，

表示第j个语料单元对应的音频表征向量，j为大于或等于0的整数，H_speech表示待处理音频数据对应的原始音频表征向量，即基于待处理音频数据中所有音频帧对应的音频表征数据确定的原始音频表征向量。

步骤42133，响应于遍历结束，得到每一语料单元对应的音频表征数据。

每一语料单元均被遍历之后，即可得到每一语料单元对应的音频表征数据。

步骤422，对每一音频帧对应的音频表征数据进行融合处理，得到第一音频特征。

可选地，对每一音频帧对应的音频表征数据(音频表征向量)进行池化处理，得到上述第一音频特征(第一音频特征向量)。

可选地，对每一音频帧对应的音频表征数据(音频表征向量)进行平均处理，得到上述第一音频特征(第一音频特征向量)。

步骤423，对每一语料单元对应的音频表征数据进行融合处理，得到第二音频特征。

可选地，对每一语料单元对应的音频表征数据(音频表征向量)进行池化处理，得到第二音频特征(第二音频特征向量)。

可选地，对每一语料单元对应的音频表征数据(音频表征向量)进行平均处理，得到第二音频特征(第二音频特征向量)。

步骤430，对第一音频特征和第二音频特征进行融合处理，得到待处理音频数据对应的融合音频特征。

可选地，对第一音频特征(第一音频特征向量)和第二音频特征(第二音频特征向量)进行拼接处理，得到待处理音频数据对应的融合音频特征(融合音频特征向量)。

步骤440，基于融合音频特征进行情感识别处理，得到待处理音频数据对应的情感类型信息。

可选地，基于融合音频特征进行情感识别处理，得到待处理音频数据对应于各个预设情感类型的概率数据；将所述概率数据中最大概率值对应的情感类型确定为目标情感类型，将上述目标情感类型作为上述情感类型信息。

可选地，上述目标情感识别模型包括情感分类模型，该情感分类模型可以是目标情感识别模型中用于进行情感分类的网络层构成的模型。

可选地，将上述融合音频特征输入上述情感分类模型进行情感识别处理，得到待处理音频数据对应于各个预设情感类型的概率数据。

基于上述识别出的情感类型信息可以做许多下游任务，例如实现更加智能的对话、更智能的推荐信息等。

在示例性实施例中，上述情感类型信息是目标情感识别模型根据待处理音频数据和音频文本输出的模型识别结果。

在一个示例中，如图8所示，其示例性示出了一种基于情感识别模型进行语音情感识别的流程示意图。将语音81和语音81对应的识别文本82分别输入到声学编码器83和文本编码器84中，得到原始音频表征数据85和文本表征数据86，将原始音频表征数据85和文本表征数据86进行基于注意力机制的对齐后，可以得到识别文本对应的音频表征数据，对原始音频表征数据85进行平均池化处理后，可以得到原始音频特征(即上述第一音频特征)，对识别文本对应的音频表征数据进行平均池化处理后，可以得到挖掘到的音频模态的文本语义特征(即上述第二音频特征)，将原始音频特征与音频模态的文本语义特征进行融合后，如拼接，即可根据融合后的特征进行情感分类，输出识别的情感类型。由此可见，在该示例中，情感识别模型可以从语音模态中挖掘有效的情感语义信息，替代基于ASR识别文本生成的情感语义信息，从而达到对ASR识别错误鲁棒的效果。

相应地，如图9所示，上述目标情感识别模型对应的训练过程可以包括以下几个步骤(910～940)，图9示出了本申请一个实施例提供的情感识别模型训练方法的流程图一。

步骤910，获取样本音频数据、样本音频数据对应的样本音频文本以及样本音频数据对应的标签信息。

可选地，样本音频数据是指样本音频对应的音频数据，样本音频数据对应的标签信息包括标注的情感类型标签。

上述样本音频文本与待处理音频数据对应的音频文本类似，可以是通过对样本音频数据进行自动语音识别处理得到的识别文本，也可以是样本音频数据对应的字幕文本。

步骤920，将样本音频数据和样本音频文本输入预设情感识别模型进行情感识别处理，得到样本音频数据对应的情感类型信息。

可选地，上述预设情感识别模型与目标情感识别模型之间的模型结构相同，参数不同，预设情感识别模型是训练完成前的情感识别模型，目标情感识别模型是训练好的情感识别模型。

预设情感识别模型进行情感识别处理的过程与目标情感识别模型进行情感识别处理的过程类似，具体可以参考上文中对目标情感识别模型进行情感识别处理的过程。

可选地，预设情感识别模型包括音频编码器、文本编码器、跨模态语义提取模型以及情感分类模型。可选地，上述跨模态语义提取模型是指基于注意力机制确定语料单元对应的音频表征数据的网络层构成的模型。

相应地，如图10所示，上述步骤920可以包括如下子步骤(921～927)，图10示出了本申请一个实施例提供的情感识别模型训练方法的流程图二。

步骤921，将样本音频数据输入音频编码器进行音频特征提取处理，得到样本音频数据中每一样本音频帧对应的音频表征数据。

步骤922，将样本音频文本输入文本编码器进行文本特征提取处理，得到样本音频文本中每一样本语料单元对应的文本表征数据。

步骤923，将每一样本音频帧对应的音频表征数据和每一样本语料单元对应的文本表征数据输入跨模态语义提取模型进行跨模态特征对齐处理，得到每一样本语料单元对应的音频表征数据。

步骤924，对每一样本音频帧对应的音频表征数据进行融合处理，得到样本音频数据对应的第三音频特征。

可选地，上述第三音频特征是指基于每一样本音频帧对应的音频表征数据融合生成的音频特征，与上述第一音频特征类似，但是两者对应的对象不同，第三音频特征是对应于模型训练侧的样本音频数据的，第一音频特征是对应于模型应用侧的待处理音频数据的。

步骤925，对每一样本语料单元对应的音频表征数据进行融合处理，得到样本音频数据对应的第四音频特征。

可选地，上述第四音频特征是指基于每一样本语料单元对应的音频表征数据融合生成的音频特征，与上述第二音频特征类似，但是两者对应的对象不同，第四音频特征是对应于模型训练侧的样本音频数据的，第二音频特征是对应于模型应用侧的待处理音频数据的。

步骤926，对第三音频特征和第四音频特征进行融合处理，得到样本音频数据对应的融合音频特征。

可选地，对第三音频特征和第四音频特征进行拼接处理，得到样本音频数据对应的融合音频特征。

步骤927，将样本音频数据对应的融合音频特征输入情感分类模型进行情感分类处理，得到样本音频数据对应的情感类型信息。

预设情感识别模型对样本音频数据的处理与目标情感识别模型对待处理音频数据的处理类似，对于上述步骤921至927，可以参见模型应用侧对待处理音频数据进行处理的说明，这里不再赘述。

步骤930，基于标签信息和样本音频数据对应的情感类型信息，确定情感识别损失信息。

可选地，将预设情感识别模型识别出的情感类型与标签信息中标注的情感类型标签进行对比，从而确定情感识别损失信息。上述情感识别损失信息可表征情感识别模型的模型精度，情感识别损失越小，说明情感识别处理对应的识别结果与真实结果更加接近。

步骤940，基于情感识别损失信息，对预设情感识别模型进行参数调整处理，得到目标情感识别模型。

可选地，在上述情感识别损失不符合预设损失条件的情况下，对预设情感识别模型进行参数调整处理，得到调参后的预设情感识别模型，基于调参后的预设情感识别模型即可在此确定样本音频数据对应的情感类型信息，进而重新确定上述情感损失信息，直至重新确定的情感损失信息符合预设损失条件，则完成上述预设情感识别模型的训练，得到上述目标情感识别模型。

可选地，情感识别损失信息包括情感识别损失数据，上述预设损失条件可以是情感识别损失数据小于等于预设识别损失阈值。

在示例性实施例中，如图10所示，上述步骤940之前还可以包括如下步骤(950～960)。

步骤950，对每一样本语料单元对应的文本表征数据进行融合处理，得到样本音频文本对应的文本特征。

可选地，对每一样本语料单元对应的文本表征数据进行池化处理，得到上述样本音频文本对应的文本特征。

步骤960，基于文本特征和第四音频特征，确定特征距离损失信息。

可选地，上述每一样本语料单元对应的文本表征数据可组成一个拼接文本表征向量，该拼接文本表征向量可以表示为

其中，H_text表示样本音频文本对应的拼接文本表征向量，

表示样本音频文本中第1个样本语料单元对应的文本表征向量，

表示样本音频文本中第2个样本语料单元对应的文本表征向量，

表示样本音频文本中第n个样本语料单元对应的文本表征向量，n为样本音频文本中样本语料单元的数量，n为大于0的整数。

可选地，通过对该拼接文本表征向量进行平均处理，得到上述文本特征。

可选地，该文本特征可以通过如下公式(3)确定。

其中，A_text表示样本音频文本对应的文本特征，n为样本音频文本中样本语料单元的数量，n为大于0的整数，j表示序号，

表示样本音频文本中第j个样本语料单元对应的文本表征向量。

可选地，上述每一样本语料单元对应的音频表征数据可组成一个拼接音频表征向量。可选地，该拼接音频表征向量可以表示为

其中，H′_text表示样本音频文本对应的拼接音频表征向量，

表示样本音频文本中第1个样本语料单元对应的音频表征向量，

表示样本音频文本中第2个样本语料单元对应的音频表征向量，

表示样本音频文本中第n个样本语料单元对应的音频表征向量，n为样本音频文本中样本语料单元的数量，n为大于0的整数。

与

之间具有转换关系，

与

之间具有转换关系，

与

之间具有转换关系。上述转换关系是通过上述注意力机制进行特征交叉融合形成的。

可选地，通过对该拼接音频表征向量进行平均处理，得到上述第四音频特征。可选地，该第四音频特征可以通过如下公式(4)确定。

其中，A′_text表示第四音频特征，n为样本音频文本中样本语料单元的数量，n为大于0的整数，j表示序号，

表示样本音频文本中第j个样本语料单元对应的音频表征向量。

为了能够让提取到的第四音频特征或第二音频特征能够包含丰富的文本语义表示，在模型训练侧，将第四音频特征与上述文本特征进行距离计算，确定两者之间的特征距离，进而特征距离损失信息，通过上述特征距离损失信息可以拉近第四音频特征与文本特征之前的距离，使得模型提取到更丰富的文本语义表示。

可选地，特征距离可以采用欧式距离。可选地，特征距离通过如下公式(5)确定。

Dist(A′_text,A_text)＝||A′_text-A_text||₂ 公式(5)

其中，Dist(A′_text,A_text)表示特征距离第四音频特征A′_text与上述文本特征A_text之间的特征距离。

相应地，如图10所示，上述步骤940可以由下述步骤941替换实施。

步骤941，基于情感识别损失信息和特征距离损失信息，对预设情感识别模型进行参数调整处理，得到目标情感识别模型。

可选地，上述预设情感识别模型由多任务损失函数进行优化。具体地，结合情感识别损失信息和特征距离损失信息对上述预设情感识别模型进行训练优化。

可选地，基于上述情感识别损失信息和特征距离损失信息，确定模型整体损失信息，根据上述模型整体损失信息对上述预设情感识别模型进行参数调整处理，得到目标情感识别模型。

可选地，模型整体损失信息可有如下公式(6)确定。

L_total＝L_class+α×Dist(A′_text,A_text) 公式(6)

其中，其中L_class为情感识别损失，Dist(A′_text,A_text)为距离损失，两者通过α参数进行平衡，α可以是人工提前设置好的参数，L_total为模型总损失。

在一个示例中，如图11所示，其示例性示出了一种预设情感识别模型的模型结构图。图11所示的预设情感识别模型110包括文本编码器111(Wav2vec 2.0Encoder)和音频编码器112(BERT Encoder)，待识别语音113会输入至音频编码器112，待识别语音113对应的转录文本114(ASR hypothesis)，比如“今天是个好日子(it’sasunnyday)”会输入至文本编码器111，音频编码器112输出原始声学表征数据115(包括每一音频帧对应的音频表征数据)，文本编码器111输出文本表征数据116(包括每一单词对应的文本表征数据)。利用注意力机制(attention)对上述原始声学表征数据115和文本表征数据116进行交叉融合处理，即可得到每一单词对应的音频表征数据，将一句话中的每一单词对应的音频表征数据进行池化(pooling)处理，如平均处理，即可得到权重调整后的声学特征(Weightedacousticrepresentations)，权重调整后的声学特征即为该句话对应的音频特征表示。将原始的文本表征数据116进行池化处理，可以得到该句话对应的文本特征表示，在模型训练侧，通过计算并优化同一句话对应的音频特征表示和文本特征表示之间的特征距离，可以使得上述提取到的文本对应的音频特征表示(权重调整后的声学特征，即第二音频特征)尽可能接近该句话对应的原始文本特征表示。进行情感分类时，可将原始声学表征数据115经过池化处理后得到的原始音频特征(即第一音频特征)与权重调整后的声学特征(即第二音频特征)进行融合，并根据融合后的特征进行情感识别。在模型训练侧，还需计算情感识别损失。基于上述情感识别损失和特征距离对应的距离损失，可以对上述预设情感识别模型110进行参数调整处理，从而在满足损失条件或迭代次数到达上限的情况下，得到目标情感识别模型。

在一个示例中，如图12所示，其示例性示出了一种基于预设情感识别模型进行情感识别的数据流向图。图12中示出了图11所示的模型结构中具体的流转数据。上述原始声学表征数据115可以包括每一音频帧对应的音频表征数据，每一音频帧对应的音频表征数据可以是音频表征向量，如图12中所示,原始声学表征数据115包括多个音频帧对应的音频表征向量，分别是[0.5,0.1,…,0.8]、[0.4,0.2,…,0.9]、…、[0.3,0.1,…,0.5]。上述文本表征数据116包括每一单词对应的文本表征数据，每一单词对应的文本表征数据可以是文本表征向量，如图12中所示,文本表征数据116包括单词对应的文本表征向量，分别是[0.6,0.2,…,0.9]、[0.3,0.1,…,0.8]、…、[0.5,0.2,…,0.7]。利用注意力机制(attention)对上述原始声学表征数据115和文本表征数据116进行交叉融合处理后得到的每一单词对应的音频表征向量[0.1,0.2,…,0.8]，将一句话中的每一单词对应的音频表征向量进行池化(pooling)处理，如平均处理，即可得到权重调整后的声学特征向量[0.8,0.3,…,0.2]。将原始的文本表征数据116进行池化处理，可以得到该句话对应的文本特征向量[0.9,0.1,…,0.2]。在模型训练侧，通过计算并优化同一句话对应的音频特征表示和文本特征表示之间的特征距离，图12所示的特征距离为

进行情感分类时，可将原始声学表征数据115经过池化处理后得到的原始音频特征向量[0.2,0.7,…,0.9]与权重调整后的声学特征向量[0.8,0.3,…,0.2]进行融合，并根据融合后的特征进行情感识别，输出该待识别音频对应的概率分布数据[0.1,0.3,0.5,0.1]，其中各个数值分别表示待识别音频对应于各个预设情感类型的概率。

综上所述，本申请实施例提供的技术方案，通过对待处理音频数据及其对应的音频文本进行特征提取处理，可以得到基于待处理音频数据中每一音频帧对应的音频表征数据融合生成的第一音频特征，以及基于音频文本中每一语料单元对应的音频表征数据融合生成的第二音频特征，通过融合上述第一音频特征和第二音频特征，即可得到融合有每一音频帧对应的特征信息以及每一语料单元对应的特征信息的融合音频特征，此种融合方式下，既能将每一语料单元对应的特征信息融入到特征中，又避免了直接融合每一语料单元的文本特征进入特征中，有效降低了音频情感识别对自动语音识别精度的依赖程度，基于该融合音频特征进行情感识别处理可以使得情感识别处理的稳定性更强，识别出的情感类型信息也更加准确，提升了音频情感识别的稳定性和准确性。

表1

下面结合上表1中具体的实验数据对上述有益效果进行说明。在实验中，首先将情感识别模型的结果与本申请发明人设置的多个情感分类基线(baseline)进行基于UA和WA的对比。多个情感分类基线(baseline)包括只利用ASR识别文本(ASR)进行情感识别的分类基线、利用人工转写文本(Transcripts)进行情感识别的分类基线、利用音频(speech)的单模态特征进行情感识别的分类基线，以及利用上述单模态信息构成多模态信息进行情感识别的情感分类的结果。由结果可知，通过结合多模态信息，可以将WER降到10.8，较单模态有较大的提升。由结果可知，本申请实施例提供的技术方案在WER等于21.2％的情况下，使用ASR识别文本，可以达到和使用真实人工转写文本的效果。而在采用原始文本特征和原始音频特征构成多模态信息进行情感识别的基线上(即表中文本特征与音频特征融合模态模型)，使用ASR识别文本较使用真实文本效果有所降低。

由此可见，本申请实施例提供的技术方案，利用注意力机制将原始音频特征和识别文本特征进行对齐，得到识别文本中每个单词的音频特征表示，将每个单词的文本特征表示与每个单词的音频特征表示，进行距离优化，让音频表示与文本的语义表示尽可能接近，实现了从音频中挖掘与文本中存在的情感语义相似的语义表示。最终将音频中挖掘的语义表示(即每个单词的音频表示，用于代替原始文本语义表示)，与音频帧对应的音频表示进行融合，进行多模态情感分类，基于上述表1中的实验数据，可以证明在一定WER的错误率下，本申请实施例利用识别文本和音频的情况下，可以达到与利用人工转写文本和音频进行情感分类的同样效果，进一步说明了本申请实施例提供的技术方案对识别文本错误的鲁棒性，有效降低了音频情感识别对自动语音识别精度的依赖程度，并且提升了音频情感识别的稳定性和准确性。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图13，其示出了本申请一个实施例提供的音频情感识别装置的框图。该装置具有实现上述音频情感识别方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1300可以包括：音频信息获取模块1310、音频特征提取模块1320、音频特征融合模块1330和音频情感识别模块1340。

音频信息获取模块1310，用于获取待处理音频数据以及所述待处理音频数据对应的音频文本；

音频特征提取模块1320，用于基于所述待处理音频数据和所述音频文本进行特征提取处理，得到所述待处理音频数据对应的第一音频特征和所述待处理音频数据对应的第二音频特征，所述第一音频特征是基于所述待处理音频数据中每一音频帧对应的音频表征数据融合生成的，所述第二音频特征是基于所述音频文本中每一语料单元对应的音频表征数据融合生成的；

音频特征融合模块1330，用于对所述第一音频特征和所述第二音频特征进行融合处理，得到所述待处理音频数据对应的融合音频特征；

音频情感识别模块1340，用于基于所述融合音频特征进行情感识别处理，得到所述待处理音频数据对应的情感类型信息。

在一些可能的设计中，所述音频特征提取模块1320，包括：

在一些可能的设计中，所述音频表征子模块，包括：

在一些可能的设计中，所述跨模态特征对齐单元，包括：

语料单元遍历子单元，用于遍历每一所述语料单元；

在一些可能的设计中，所述训练装置还包括：

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本申请一个实施例提供的计算机设备的结构框图一。该计算机设备可以是终端。该计算机设备用于实施上述实施例中提供的音频情感识别方法。具体来讲：

通常，计算机设备1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集，且经配置以由一个或者一个以上处理器执行，以实现上述音频情感识别方法。

在一些实施例中，计算机设备1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、触摸显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。

本领域技术人员可以理解，图14中示出的结构并不构成对计算机设备1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图15，其示出了本申请另一个实施例提供的计算机设备的结构框图二。该计算机设备可以是服务器，以用于执行上述音频情感识别方法。具体来讲：

计算机设备1500包括中央处理单元(Central Processing Unit，CPU)1501、包括随机存取存储器(Random Access Memory，RAM)1502和只读存储器(Read Only Memory，ROM)1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。计算机设备1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1506，和用于存储操作系统1513、应用程序1514和其他程序模块1515的大容量存储设备1507。

基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。大容量存储设备1507及其相关联的计算机可读介质为计算机设备1500提供非易失性存储。也就是说，大容量存储设备1507可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

根据本申请的各种实施例，计算机设备1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1500可以通过连接在系统总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述音频情感识别方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述音频情感识别方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音频情感识别方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

另外，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频情感识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述待处理音频数据和所述音频文本进行特征提取处理，得到所述待处理音频数据对应的第一音频特征和所述待处理音频数据对应的第二音频特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述待处理音频数据和所述音频文本进行特征提取处理，得到每一所述音频帧对应的音频表征数据，以及每一所述语料单元对应的音频表征数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于每一所述音频帧对应的音频表征数据和每一所述语料单元对应的文本表征数据，进行跨模态特征对齐处理，得到每一所述语料单元对应的音频表征数据，包括：

遍历每一所述语料单元；

5.根据权利要求4所述的方法，其特征在于，所述将遍历到的语料单元对应的文本表征数据与每一所述音频帧对应的音频表征数据进行基于注意力机制的交叉融合处理，得到所述遍历到的语料单元对应的音频表征数据，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述情感类型信息是目标情感识别模型根据所述待处理音频数据和所述音频文本输出的模型识别结果，所述目标情感识别模型对应的训练过程包括：

7.根据权利要求6所述的方法，其特征在于，所述预设情感识别模型包括音频编码器、文本编码器、跨模态语义提取模型以及情感分类模型，所述将所述样本音频数据和所述样本音频文本输入预设情感识别模型进行情感识别处理，得到所述样本音频数据对应的情感类型信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述情感识别损失信息，对所述预设情感识别模型进行参数调整处理，得到所述目标情感识别模型之前，还包括：

9.一种音频情感识别装置，其特征在于，所述装置包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的音频情感识别方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的音频情感识别方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现如权利要求1至8任一项所述的音频情感识别方法。