CN115544227A

CN115544227A - 多模态数据的情感分析方法、装置、设备及存储介质

Info

Publication number: CN115544227A
Application number: CN202211068763.0A
Authority: CN
Inventors: 胡俊佳
Original assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Zeekr Intelligent Technology Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Zeekr Intelligent Technology Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-30
Also published as: WO2024046012A1

Abstract

本申请公开一种多模态数据的情感分析方法、装置、设备及存储介质，涉及情感分析技术领域，能够提高情感分析的准确性。具体方案包括：获取待分析数据，待分析数据中包括音频、文本和图像，文本为音频转换得到，图像为采集的用户输出音频时的图像；分别对音频、文本和图像进行特征提取，得到音频对应的音频特征向量、文本对应的文本特征向量以及图像对应的图像特征向量；对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量；基于目标特征向量确定待分析数据的情感类型。

Description

多模态数据的情感分析方法、装置、设备及存储介质

技术领域

本申请涉及情感分析技术领域，尤其涉及一种多模态数据的情感分析方法、装置、设备及存储介质。

背景技术

情感分析是运用自然语言技术挖掘人们对于客观事物的态度，识别人所表达的情绪，多聚焦于分析文本挖掘人们表达的情感。最常用的情感分析方法是利用文本来进行情感分析，但这种方法对于某些情感往往分析不够准确。最典型的例子就是反讽，反讽往往用中性或者积极情感的词汇表达消极情感，单从文本层面我们无法感知人们在表达情感时是否使用了反讽的修辞方法。因此，现有的基于文本的情感分析方法对情感分析的准确性不高。

发明内容

本申请提供一种多模态数据的情感分析方法、装置、设备及存储介质，能够提高情感分析的准确性。

为了达到上述目的，本申请采用如下技术方案：

本申请实施例第一方面，提供了一种多模态数据的情感分析方法，该方法包括：获取待分析数据，待分析数据中包括音频、文本和图像，文本为音频转换得到，图像为采集的用户输出音频时的图像；

分别对音频、文本和图像进行特征提取，得到音频对应的音频特征向量、文本对应的文本特征向量以及图像对应的图像特征向量；

对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量；

基于目标特征向量确定待分析数据的情感类型。

在一个实施例中，对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量，包括：

将图像特征向量、音频特征向量和文本特征向量输入至预设的基于注意力机制的特征融合层，得到目标特征向量。

在一个实施例中，将图像特征向量、音频特征向量和文本特征向量输入至预设的基于注意力机制的融合层中，得到目标特征向量，包括：

将图像特征向量确定为融合层的查询向量，将音频特征向量确定为融合层的键向量，将文本特征向量确定为融合层的值向量；

针对查询向量、键向量和值向量，分别利用对应的参数矩阵，将查询向量、键向量和值向量映射至低维子空间，并将映射后的查询向量、映射后的键向量和映射后的值向量，输入至预设的缩放点积注意力算法，得到多个头矩阵；

将多个头矩阵进行拼接处理后再映射至原参数空间，得到目标特征向量。

在一个实施例中，对图像进行特征提取，得到图像对应的图像特征向量，包括：

获取图像的RGB三通道的特征图；

将三个特征图分别输入至多层卷积网络结构中进行局部特征提取，得到多个局部特征图；

将多个局部特征图输入至预设的基于注意力机制的特征提取层中，得到图像的全局特征图；

将全局特征图进行展平处理得到图像特征向量。

在一个实施例中，对音频进行特征提取，得到音频对应的音频特征向量，包括：

对音频进行预处理，得到目标音频信号；

对目标音频信号进行快速傅里叶变换处理得到目标音频信号对应的声谱图；

对声谱图进行时域方向的卷积处理，得到多个第一特征声谱图；

对声谱图进行频域方向的卷积处理，得到多个第二特征声谱图；

对多个第一特征声谱图进行最大池化处理，得到第一特征图；

对多个第二特征声谱图进行最大池化处理，得到第二特征图；

对第一特征图和第二特征图进行拼接处理，得到中间特征图，对目标特征图进行卷积和池化处理，得到目标特征图；

对中间特征图进行展平处理，得到音频特征向量。

在一个实施例中，对文本进行特征提取，得到文本对应的文本特征向量，包括：

获取文本中各词对应的词向量，并根据各词对应的词向量得到文本对应的文本矩阵；

利用三个处理通道分别对文本矩阵进行卷积处理，并对每个处理通道卷积处理后的文本矩阵进行最大池化处理，得到每个处理通道对应的至少一个特征值；

将多个特征值进行展平处理，得到文本特征向量。

在一个实施例中，基于目标特征向量确定待分析数据的情感类型，包括：

将目标特征向量输入至预设的全连接分类层，得到待分析数据的情感类型。

本申请实施例第二方面，提供了一种多模态数据的情感分析装置，该装置包括：

获取模块，用于获取待分析数据，待分析数据中包括音频信息，以及音频信息对应的文本信息和图像信息；

第一处理模块，用于分别对音频信息、文本信息和图像信息进行特征提取，得到音频信息对应的音频特征向量、文本信息对应的文本特征向量以及图像信息对应的图像特征向量；

第二处理模块，用于对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量；

确定模块，用于基于目标特征向量确定待分析数据的情感类型。

本申请实施例第三方面，提供一种计算机设备，该设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时实现本申请实施例第一方面中的多模态数据的情感分析方法。

本申请实施例第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请实施例第一方面中的多模态数据的情感分析方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的多模态数据的情感分析方法，通过获取待分析数据，待分析数据中包括音频、文本和图像，文本为音频转换得到，图像为采集的用户输出音频时的图像，然后分别对音频、文本和图像进行特征提取，得到音频对应的音频特征向量、文本对应的文本特征向量以及图像对应的图像特征向量。之后对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量，最后基于目标特征向量确定待分析数据的情感类型。由于目标特征向量考虑到了音频、文本和图像这三种模态的信息，因此情感分析的准确性更高。

附图说明

图1为本申请实施例提供的一种计算机设备的内部结构示意图；

图2为本申请实施例提供的一种多模态数据的情感分析方法的流程图；

图3为本申请实施例提供的一种多模态数据的情感分析装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出的值。

为了解决上述问题，本申请实施例提供了一种多模态数据的情感分析方法，通过获取待分析数据，待分析数据中包括音频、文本和图像，文本为音频转换得到，图像为采集的用户输出音频时的图像，然后分别对音频、文本和图像进行特征提取，得到音频对应的音频特征向量、文本对应的文本特征向量以及图像对应的图像特征向量。之后对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量，最后基于目标特征向量确定待分析数据的情感类型。由于目标特征向量考虑到了音频、文本和图像这三种模态的信息，因此情感分析的准确性更高。

本申请实施例提供的多模态数据的情感分析方法的执行主体可以为计算机设备、终端设备，或者服务器，其中，终端设备可以为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等，本申请对比不作具体限定。

图1为本申请实施例提供的一种计算机设备的内部结构示意图。如图1所示，该计算机设备包括通过系统总线连接的处理器和存储器。其中，该处理器用于提供计算和控制能力。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以上各个实施例提供的一种多模态数据的情感分析方法的步骤。内存储器为非易失性存储介质中的操作系统和计算机程序提供高速缓存的运行环境。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于上述执行主体，本申请实施例提供一种多模态数据的情感分析方法。如图2所示，该方法包括以下步骤：

步骤201、获取待分析数据，待分析数据中包括音频、文本和图像。

其中，文本是为音频转换得到的。图像为采集的用户输出音频时的图像。示例的，在对用户说出的一句话进行情感识别时，待分析数据中的音频就是用户说出的话，文本就是将这句话转换为文字，图像就是用户说这句话时的面部表情。

步骤202、分别对音频、文本和图像进行特征提取，得到音频对应的音频特征向量、文本对应的文本特征向量以及图像对应的图像特征向量。

步骤203、对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量。

步骤204、基于目标特征向量确定待分析数据的情感类型。

示例的，文本的情感类型可以为消极的或积极的，同时，对于文本的情感类型还可以根据需求将细分为多个不同的情感类型，对此本申请不作具体限定。

可选的，可以通过将目标特征向量输入至预设的全连接分类层，得到待分析数据的情感类型。

可选的，上述步骤203、对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量的过程可以为：

具体的，将图像特征向量、音频特征向量和文本特征向量输入至预设的基于注意力机制的特征融合层，得到目标特征向量的过程可以为：

在实际执行过程中，在三种模态之中，文本模态作为主要模态，音频模态、图像或视频模态作为辅助模态，所以我们将音频、图像或视频的模态信息融合到文本模态中。具体的，将图像特征向量输入到查询(query)向量Q，音频特征向量输入到键(key)向量K，文本特征向量输入到值(value)向量V；

通过参数矩阵将Q、K、V映射到一个低维头空间，如式(1)所示：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) i＝1，2......，8 (1)

其中Attention的计算采用缩放点积注意力算法(Scaled Dot-productattention)，如以下公式(2)所示；

softmax中的分母是缩放因子，其中d_k是向量维度大小。

最后将降维映射后的子头通过拼接(concat)后映射回原始空间得到三个模态融合后的特征向量，如以下公式(3)所示：

MultiHead(Q，K，V)＝Concat(head₁，......，head₈)W^O (3)

可选的，上述步骤202中，对图像进行特征提取，得到图像对应的图像特征向量的过程可以为：获取图像的RGB三通道的特征图，将三个特征图分别输入至多层卷积网络结构中进行局部特征提取，得到多个局部特征图，将多个局部特征图输入至预设的基于注意力机制的特征提取层中，得到图像的全局特征图，将全局特征图进行展平处理得到图像特征向量。

在实际执行过程中，将图像分为RGB三通道得到三个通道的特征图，分别对三个通道输入多个卷积层得到若干个图像的局部特征，将卷积得到的局部特征输入一个注意力层得到图像的全局特征，将图像的全局特征展平(flatten)得到图像的特征向量。

可选的，上述步骤202中，对音频进行特征提取，得到音频对应的音频特征向量的过程可以为：

对音频进行预处理，得到目标音频信号，对目标音频信号进行快速傅里叶变换处理得到目标音频信号对应的声谱图。然后，对声谱图进行时域方向的卷积处理，得到多个第一特征声谱图，对声谱图进行频域方向的卷积处理，得到多个第二特征声谱图，对多个第一特征声谱图进行最大池化处理，得到第一特征图，对多个第二特征声谱图进行最大池化处理，得到第二特征图。以及对第一特征图和第二特征图进行拼接处理，得到中间特征图，对中间特征图进行卷积和池化处理，得到目标特征图。最后，对目标特征图进行展平处理，得到音频特征向量。

在实际执行过程中，对原始音频信号进预加重、分帧、加窗等预处理，得到目标音频信号。对目标音频信号每一帧进行快速傅里叶变换(FFT)将时域信号转换成频域信号，将频域信号在时间上堆叠起来得到声谱图；分别对声谱图的时域和频域方向进行卷积和最大池化操作，得到两张特征图；将两张特征图拼接(concat)后再进行一次卷积和最大池化操作，然后将计算得到的所有特征展平(flatten)得到音频对应的特征向量。

可选的，上述步骤202中，对文本进行特征提取，得到文本对应的文本特征向量，包括：

获取文本中各词对应的词向量，并根据各词对应的词向量得到文本对应的文本矩阵，以及利用三个处理通道分别对文本矩阵进行卷积处理，并对每个处理通道卷积处理后的文本矩阵进行最大池化处理，得到每个处理通道对应的至少一个特征值，最后将多个特征值进行展平处理，得到文本特征向量。

在实际执行过程中，通过对原始音频进行语音识别(ASR)获取目标文本；

对获取的文本进行分词并在预训练词向量表中查询得到相应的词向量并按照词的先后顺序排列得到文本的特征图；对文本的特征图分成三个通道，每个通道中分别按照时域顺序进行一次一维卷积和最大池化操作得到文本的特征；将三个通道中得到的所有特征展平(flatten)得到一个文本的特征向量。

具体的，先对每个通道的每个卷积核进行卷积操作(如公式(4)所示)：

再对每个卷积核输出的向量做最大池化(如公式(5)所示)：

最后压平所有卷积核得到的特征输出文本表征(如公式(6)所示)：

f(x)＝flatten(x_k)，k＝0，1，......，n (6)

需要说明的是，上述步骤202和步骤203中所涉及的特征融合和特征提取的处理过程均是采用基础的卷积神经网络(CNN)来处理的。这种模型结构简单，可以减少模型规模，提高运行效率。

如图3所示，本申请实施例提供了一种多模态数据的情感分析装置，该装置包括：

获取模块11，用于获取待分析数据，待分析数据中包括音频信息，以及音频信息对应的文本信息和图像信息；

第一处理模块12，用于分别对音频信息、文本信息和图像信息进行特征提取，得到音频信息对应的音频特征向量、文本信息对应的文本特征向量以及图像信息对应的图像特征向量；

第二处理模块13，用于对音频特征向量、文本特征向量和图像特征向量进行特征融合处理，得到融合后的目标特征向量；

确定模块14，用于基于目标特征向量确定待分析数据的情感类型。

在一个实施例中，第二处理模块13具体用于：

在一个实施例中，第一处理模块12具体用于：

获取图像的RGB三通道的特征图；

将全局特征图进行展平处理得到图像特征向量。

在一个实施例中，第一处理模块12具体用于：

对音频进行预处理，得到目标音频信号；

对目标特征图进行展平处理，得到音频特征向量。

在一个实施例中，第一处理模块12具体用于：

将多个特征值进行展平处理，得到文本特征向量。

在一个实施例中，确定模块14具体用于：

本实施例提供的多模态数据的情感分析装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再多加赘述。

关于多模态数据的情感分析装置的具体限定可以参见上文中对于多模态数据的情感分析方法的限定，在此不再赘述。上述多模态数据的情感分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于服务器中的处理器中，也可以以软件形式存储于服务器中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请的另一实施例中，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时实现如本申请实施例的多模态数据的情感分析方法的步骤。

本申请另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如本申请实施例的多模态数据的情感分析方法的步骤。

本申请另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在多模态数据的情感分析装置上运行时，使得多模态数据的情感分析装置执行上述方法实施例所示的方法流程中多模态数据的情感分析方法执行的各个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多模态数据的情感分析方法，其特征在于，所述方法包括：

获取待分析数据，所述待分析数据中包括音频、文本和图像，所述文本为所述音频转换得到，所述图像为采集的用户输出所述音频时的图像；

分别对所述音频、所述文本和所述图像进行特征提取，得到所述音频对应的音频特征向量、所述文本对应的文本特征向量以及所述图像对应的图像特征向量；

对所述音频特征向量、所述文本特征向量和所述图像特征向量进行特征融合处理，得到融合后的目标特征向量；

基于所述目标特征向量确定所述待分析数据的情感类型。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频特征向量、所述文本特征向量和所述图像特征向量进行特征融合处理，得到融合后的目标特征向量，包括：

将所述图像特征向量、所述音频特征向量和所述文本特征向量输入至预设的基于注意力机制的特征融合层，得到所述目标特征向量。

3.根据权利要求2所述的方法，其特征在于，所述将所述图像特征向量、所述音频特征向量和所述文本特征向量输入至预设的基于注意力机制的特征融合层，得到所述目标特征向量，包括：

将所述图像特征向量确定为所述融合层的查询向量，将所述音频特征向量确定为所述融合层的键向量，将所述文本特征向量确定为所述融合层的值向量；

针对所述查询向量、所述键向量和所述值向量，分别利用对应的参数矩阵，将所述查询向量、所述键向量和所述值向量映射至低维子空间，并将映射后的查询向量、映射后的键向量和映射后的值向量，输入至预设的缩放点积注意力算法，得到多个头矩阵；

将多个头矩阵进行拼接处理后再映射至原参数空间，得到所述目标特征向量。

4.根据权利要求1-3任一项所述的方法，其特征在于，对所述图像进行特征提取，得到所述图像对应的图像特征向量，包括：

获取所述图像的RGB三通道的特征图；

将三个所述特征图分别输入至多层卷积网络结构中进行局部特征提取，得到多个局部特征图；

将多个所述局部特征图输入至预设的基于注意力机制的特征提取层中，得到所述图像的全局特征图；

将所述全局特征图进行展平处理得到所述图像特征向量。

5.根据权利要求1-3任一项所述的方法，其特征在于，对所述音频进行特征提取，得到所述音频对应的音频特征向量，包括：

对所述音频进行预处理，得到目标音频信号；

对所述目标音频信号进行快速傅里叶变换处理得到所述目标音频信号对应的声谱图；

对所述声谱图进行时域方向的卷积处理，得到多个第一特征声谱图；

对所述声谱图进行频域方向的卷积处理，得到多个第二特征声谱图；

对多个所述第一特征声谱图进行最大池化处理，得到第一特征图；

对多个所述第二特征声谱图进行最大池化处理，得到第二特征图；

对所述第一特征图和所述第二特征图进行拼接处理，得到中间特征图，对所述目标特征图进行卷积和池化处理，得到目标特征图；

对所述中间特征图进行展平处理，得到所述音频特征向量。

6.根据权利要求1-3任一项所述的方法，其特征在于，对所述文本进行特征提取，得到所述文本对应的文本特征向量，包括：

获取所述文本中各词对应的词向量，并根据各词对应的词向量得到所述文本对应的文本矩阵；

利用三个处理通道分别对所述文本矩阵进行卷积处理，并对每个处理通道卷积处理后的文本矩阵进行最大池化处理，得到每个处理通道对应的至少一个特征值；

将多个所述特征值进行展平处理，得到所述文本特征向量。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述目标特征向量确定所述待分析数据的情感类型，包括：

将所述目标特征向量输入至预设的全连接分类层，得到所述待分析数据的情感类型。

8.一种多模态数据的情感分析装置，其特征在于，所述装置包括：

获取模块，用于获取待分析数据，所述待分析数据中包括音频信息，以及所述音频信息对应的文本信息和图像信息；

第一处理模块，用于分别对所述音频信息、所述文本信息和所述图像信息进行特征提取，得到所述音频信息对应的音频特征向量、所述文本信息对应的文本特征向量以及所述图像信息对应的图像特征向量；

第二处理模块，用于对所述音频特征向量、所述文本特征向量和所述图像特征向量进行特征融合处理，得到融合后的目标特征向量；

确定模块，用于基于所述目标特征向量确定所述待分析数据的情感类型。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现权利要求1至7任一项所述的多模态数据的情感分析方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的多模态数据的情感分析方法。