CN117423168B

CN117423168B - 基于多模态特征融合的用户情绪识别方法及系统

Info

Publication number: CN117423168B
Application number: CN202311746130.5A
Authority: CN
Inventors: 杨志; 谭林; 邓日晓; 杨良; 王武杰; 熊彪
Original assignee: Hunan Sanxiang Bank Co Ltd
Current assignee: Hunan Sanxiang Bank Co Ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-04-02
Anticipated expiration: 2043-12-19
Also published as: CN117423168A

Abstract

本发明涉及情绪识别技术领域，特别是涉及一种基于多模态特征融合的用户情绪识别方法及系统，所述方法包括以下步骤：获取图像阵列、声音信号、资产信息；对三个模态提取原始特征；计算原始特征得到查询向量、键向量、值向量；通过自注意力机制获取强化映射特征；获取图像模态的隐层特征的保留特征；通过拼接得到融合特征；得到第二个融合特征；通过信息筛选与融合得到双模态融合特征；拼接得到全面特征；根据全面特征预测用户的情绪类型。本发明能够有效提高用户情绪识别精度。

Description

基于多模态特征融合的用户情绪识别方法及系统

技术领域

本发明涉及情绪识别技术领域，特别是涉及一种基于多模态特征融合的用户情绪识别方法及系统。

背景技术

随着数字化的发展，金融机构正在积极探索和推广基于音视频或智能机器人的远程“非接触式”服务。然而在服务过程中，客服人员和智能客服无法精准感知用户的情绪，难以了解用户的满意度，进而无法精确准确判断所提供的服务是否真正解决了用户的问题，阻碍了了解用户的真实需求。

情绪识别的技术作为近几年的研究热点，为解决这个问题提供了可能的方案。通过摄像头等设备获取用户的面部信息，然后通过构建神经网络进行情绪识别。

然而，单纯依赖面部图像这一种模态数据进行识别的精度往往有限。此外，用户在进行视频面签等业务时还产生了许多其他模态的信息，比如用户语音信息以及描述用户资产信息的离散型结构性数据等。如果能够将这些不同模态的信息进行有效的融合，将能提高模型的情绪识别精度。当前的多模态融合方法主要可以分为三类：特征层融合、模型层融合和决策层融合。这些方法主要是利用各模态单独决策结果“好而不同”的特性，设计合适的互补促进策略。然而，这些方法往往不能进一步挖掘各模态之间的隐含信息，也忽视了各个模态之间的信息交互。此外，尽管自注意力模型因为其高效的并行计算能力和长距离的特征依赖捕捉能力等优势非常适合应用在多模态融合过程中，但如何将自注意力模型有效地应用于多模态的特征融合，仍是一个需要研究的问题。如果我们能够利用自注意力模型，对多模态的特征信息进行互补融合，并将这种融合方法应用到用户情绪识别上，将有可能大大提高情绪识别的精度，为实际业务的发展提供强大的支持。

发明内容

为此，本发明提供了一种基于多模态特征融合的用户情绪识别方法及系统，解决了现有技术中对于用户情绪识别精度不高的问题。

为实现上述目的，本发明一方面提供一种基于多模态特征融合的用户情绪识别方法，该方法包括：

响应待识别用户的音视频服务请求，所述音视频服务请求包括所述待识别用户的身份信息、视频信息和语音信息；

基于所述身份信息确定所述待识别用户的资产数值，通过所述视频信息提取图像模态的第一原始特征，通过所述语音信息提取语音模态的第二原始特征，通过所述资产数值提取数值模态的第三原始特征；

处理图像模态与语音模态的所述第一原始特征与所述第二原始特征获得特征向量，然后通过自注意力机制获得图像模态特征对于语音模态特征的强化映射特征，通过自适应特征保留单元获得图像模态的隐层特征的保留特征，将所述强化映射特征与所述保留特征拼接获得融合特征，在对所述融合特征筛选融合后获得双模态融合特征；

基于所述双模态融合特征和数值模态的第三原始特征获得图像、语音、数值三模态融合后的全面特征；

根据所述全面特征识别所述待识别用户在所述音视频服务中的情绪类型；

通过所述视频信息提取图像模态的第一原始特征包括：

设置标准人脸轮廓区段，确定所述标准人脸轮廓区段的标准长度；

从所述视频信息中提取待识别用户的人脸轮廓，并按照所述标准长度将所述人脸轮廓进行多次切分，形成待对比区段，并将所述待对比区段分别与所述标准人脸轮廓区段进行比较；

确定在所述待对比区段中，与标准人脸轮廓区段的相似度大于90%的目标区段，确定所述目标区段在所述待对比区段中的占比，

预设标准占比；

将所述目标区段在所述待对比区段中的占比和所述标准占比的关系，确定对所述目标区段的筛选标准。

进一步地，所述身份信息通过移动终端发出的音视频服务请求获取，所述视频信息在响应所述音视频服务请求的过程中通过网络摄像头获得，所述语音信息在响应所述音视频服务请求的过程中通过麦克风获得。

进一步地，确定对所述目标区段的筛选标准的过程包括：

当所述目标区段在所述待对比区段中的占比小于所述标准占比时，则采用修正系数修正所述待对比区段与标准人脸轮廓区段的相似度。

进一步地，确定待对比区段与标准人脸轮廓区段的相似度S采用公式（1）来计算；

相似度S=n/n0+F/F0 （1），

其中n表示所述待对比区段中曲率变化次数，n0表示所述标准人脸轮廓区段中曲率变化次数，F表示待对比区段中曲率变化的平均幅度，F0表示所述标准人脸轮廓区段中曲率变化的标准幅度。

进一步地，原始特征的提取是通过优化的神经网络模型进行的，使用vgg16提取第一原始特征、使用MFCC提取第二原始特征、使用主成分分析提取第三原始特征。

进一步地，处理所述第一原始特征与所述第二原始特征获得特征向量，其方式为通过权重矩阵与所述第一原始特征交叉相乘得到图像模态的查询向量，通过权重矩阵与所述第二原始特征交叉相乘得到语音模态的键向量与值向量，权重矩阵是基于transformer模型的计算流程随机初始化的。

进一步地，所述强化映射特征是通过基于Transformer模型的自注意力机制进行所述特征向量得分计算得到。

进一步地，所述图像模态的隐层特征通过卷积神经网络操作进行提取，经由自适应特征保留单元决定保留和转发的特征比例。自适应特征保留单元是基于门控卷积单元设计的学习性网络结构，整个模型全程一起训练。

进一步地，通过将强化映射特征与保留特征按维度拼接，形成第一融合特征。重复强化映射特征与保留特征的获取过程得到另一组强化映射特征与保留特征，再次拼接后形成第二融合特征。两个融合特征经过信息筛选与融合过程，得到双模态融合特征。

进一步地，所述两个融合特征的信息筛选与融合过程由门控卷积结构执行。

进一步地，所述全面特征的获得是所述双模态融合特征与第三原始特征通过全连接FC层拼接获得，其中层数为3，每层的节点数分别为特征数量、4096、512，最后一层输出的节点数为类别数。

进一步地，对所述待识别用户情绪类型的识别是通过预先训练的深度学习模型进行的，该模型是基于本发明得到的全面特征训练得到的，用于预测待识别用户的情绪类型。

另一方面提供一种基于多模态特征融合的用户情绪识别系统，该系统包括：

数据采集模块，用于响应待识别用户的音视频服务请求，所述服务请求中包含所述待识别用户的身份信息，获取用户的图像阵列和语音信号，并根据所述身份信息确定所述用户的资产信息。

特征提取模块，用于从图像阵列、语音信号和资产信息中提取原始特征，使用vgg16提取图像特征、使用MFCC提取语音特征、使用主成分分析提取数值特征。

跨模态特征融合模块，用于处理图像模态与语音模态的所述原始特征，通过自注意力机制获得图像模态特征对于语音模态特征的强化映射特征，通过自适应特征保留单元获得图像模态的隐层特征的保留特征，将所述强化映射特征与所述保留特征拼接，获得第一融合特征。重复强化映射特征与保留特征的获取过程得到另一组强化映射特征与保留特征，再次拼接融合得到第二融合特征。

特征选择模块，用于获得双模态融合特征，通过门控卷积结构对两个所述融合特征进行信息筛选与融合得到。

全连接模块，用于将筛选后的双模态融合特征与数值模态的第三原始特征进行拼接，得到图像、语音、数值三模态融合后的全面特征。

情绪识别模块，用于根据全面特征通过预先训练的深度学习模型识别用户在音视频服务中的情绪类型，该模型是基于本发明得到的全面特征训练得到。

与现有技术相比，本发明的有益效果在于，本发明提出的基于多模态特征融合的用户情绪识别方法及系统能够有效提升用户情绪识别的准确度。

传统的单模态情绪识别方法，如基于面部图像或语音的情绪识别，由于只能从单一的信息源中提取特征，其识别效果往往受限。而本发明通过利用自注意力模型将多个模态的特征信息进行互补融合，使得每个模态的信息都能够得到充分的利用，有效克服依赖单一模态数据导致情绪识别精度有限的问题，从而提高了情绪识别的精度。

尤其，本发明的方法能够充分挖掘和融合各模态之间的隐含信息，克服了传统的多模态融合方法在信息交互和融合上的不足。在现有的特征层融合、模型层融合和决策层融合等多模态融合方法中，虽然能够从不同的层面进行信息的融合，但是往往忽视了各模态之间的信息交互，不能充分挖掘各模态之间的隐含信息。而本发明利用自注意力模型的特性，可以有效捕捉和利用各模态之间的隐含关系，提升信息的融合效果。

尤其，本发明的方法通过利用自适应特征保留单元，能够更加灵活地处理不同模态的特征。在传统的多模态融合方法中，往往采用固定的策略进行特征的处理和融合，这在处理复杂和多变的实际情况时，往往显得力不从心。而本发明通过引入自适应特征保留单元，能够自动调整特征的保留程度，使得模型对于不同情况具有更好的适应性。

尤其，本发明的方法具有较好的泛化能力和扩展性。由于采用了基于自注意力模型的多模态融合框架，使得本发明的方法不仅可以应用于基于面部图像、语音以及离散型结构性数据等多种模态的用户情绪识别，也可以方便地扩展到其他需要多模态信息融合的场景，如多模态人机交互、多模态语义理解等。

总的来说，本发明能够有效提升用户情绪识别的准确度，克服了传统多模态融合方法在信息交互和融合上的不足，同时具有较好的泛化能力和扩展性，为实际业务的发展提供了强大的支持。

附图说明

图1为本发明实施例提供的基于多模态特征融合的用户情绪识别方法的流程图；

图2为本发明实施例提供的基于多模态特征融合的用户情绪识别系统的结构图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，本发明实施例提供的基于多模态特征融合的用户情绪识别方法包括：

步骤S100：响应用户的音视频服务请求，获得包含人脸信息的图像阵列和包含语音信息的声音信号和包含资产信息的数值信息；

步骤S200：根据接收到的图像阵列、声音信号、数值信息对三个不同模态的数据提取原始特征；

步骤S300：计算原始特征，获取图像模态的查询向量和语音模态的键向量、值向量；

步骤S400：通过自注意力机制计算查询向量、键向量、值向量，获取图像模态特征对于语音模态特征的强化映射特征；

步骤S500：使用卷积编码操作通过图像模态的原始特征提取图像模态的隐层特征，计算保留转发比例，进而获取隐层特征的保留特征；

步骤S600：拼接强化映射特征与保留特征得到融合特征；

步骤S700：使用图像模态、语音模态的原始特征重复计算，再次获取强化映射特与隐层特征，拼接后得到第二个融合特征；

步骤S800：将获取到的两个融合特征进行信息筛选与融合，得到双模态融合特征；

步骤S900：通过全连接模块拼接双模态融合特征和数值特征得到包含用户的图像、语音和结构性数值信息的更全面的特征；

步骤S1000：通过预先训练的深度学习模型预测用户的情绪类型。

具体而言，在步骤S100中，当响应用户的音视频服务请求时，涉及到接收和处理音视频服务请求，获取并处理包含人脸信息的图像阵列、包含语音信息的声音信号，以及基于身份信息获取的资产数值信息。涉及到一套音视频数据获取和处理系统，包括但不限于视频采集设备（例如摄像头），音频采集设备（例如麦克风）以及用于处理这些数据和用户身份信息以获取资产数值信息的数据处理软件。其主要功能是收集和处理用户的多模态数据，包括图像、语音和数值信息。这些数据是基础，是进一步进行情绪识别所需的关键输入。在工作过程中，系统首先响应用户的音视频服务请求，实时获取用户的图像和声音数据。接着，系统会解析音视频服务请求中的用户身份信息，以获取和处理对应的资产数值信息。收集到用户的多模态数据，为后续的特征提取和情绪识别提供了必要的输入。此步骤的实现可以有多种方式。例如，音视频数据的采集设备可以是高清摄像头、专业麦克风，也可以根据实际需要选择其他类型或者模型。获取资产数值信息的方式可以是直接在服务请求中包含资产数值信息，可以是根据其他信息推算出资产数值信息，也可以根据实际需求进行调整。

具体而言，在步骤S200中，我们对接收到的图像阵列、声音信号以及资产数值信息进行原始特征提取。这一步骤涉及到图像模态、语音模态以及数值模态的数据处理，依赖于一套高效的特征提取程序。特征提取程序通过VGG16算法对图像阵列进行处理，提取出图像模态的特征；通过MFCC算法对声音信号进行处理，提取出语音模态的特征；以及通过主成分分析对数值信息进行处理，提取出数值模态的特征。这一步骤的目标是从原始的多模态数据中提取出有代表性的特征信息，为后续的特征融合和情绪识别奠定基础。执行该步骤后，原始的多模态数据将被转化为一系列可用于后续处理的原始特征。同时，本步骤的实现可以具有一定的灵活性，例如，根据实际需求，可以选择其他适当的特征提取算法，比如对于图像特征，可以选择ResNet，可以选择Inception还可以选择其他卷积神经网络模型；对于语音特征，可以选择使用LPC，可以选择使用PLP还可以选择其他声学模型；对于数值特征，可以选择使用t-SNE，可以选择使用LDA还可以选择使用其他降维方法。

具体而言，在步骤300中，原始特征首先被送入特征处理阶段。此阶段的核心技术结构是一个权重矩阵，它与原始特征交叉相乘，从而产生图像模态的查询向量以及语音模态的键向量和值向量。这个操作的主要功能是进一步加工原始特征，将其转化为更适合于后续处理的格式。执行此操作后，会产生一组包含查询向量、键向量和值向量的特征集合，这将为后续的情绪识别提供必要的输入数据。在实际的工作流程中，首先进行权重矩阵与原始特征的交叉相乘操作，然后分别提取出查询向量、键向量和值向量。此步骤在功能实现上具有一定的灵活性，例如，权重矩阵的初始化方式是Xavier初始化，也可以是He初始化，可以是预训练模型的参数初始化，根据实际需求和环境条件选择最适合的方式。

具体而言，在步骤400中，图像模态的查询向量以及语音模态的键向量和值向量已经计算完成，进入强化映射特征获取阶段。在这个阶段，通过自注意力机制对这些向量进行计算，以实现图像模态特征对于语音模态特征的强化映射特征的获取。具体来说，这个自注意力机制的技术结构主要包括向量的缩放点积以及softmax归一化操作，这是基于Transformer模型的核心机制。该机制的主要功能是计算查询向量与键向量之间的权重，然后根据这些权重调整值向量，从而实现强化映射特征的获取。这种强化映射特征的生成，可以更好地反映出图像和语音模态之间的内在联系，从而提升情绪识别的准确度，这就是其主要效果。在这个过程中，首先是进行向量的缩放点积计算，然后对计算结果进行softmax归一化，最后根据归一化的结果调整值向量，以生成强化映射特征。自注意力机制的实现，是基于原始的Transformer模型，也可以是基于更先进的Transformer-XL或是并行计算优化的Lightweight Transformer，这些都是其可替换方式。

具体而言，在步骤500中，图像模态的原始特征首先被送入特征编码阶段，利用卷积编码操作，通过对原始特征进行一系列卷积、激活和池化操作，可以提取出图像模态的隐层特征。这个过程中的卷积编码操作，其主要功能是提取出图像中的局部模式和空间层次结构，这些隐层特征往往包含了对情绪识别更为重要的信息。接下来，会通过自适应特征保留单元R(X)计算一定比例的隐层特征进行保留，这个比例被称为保留转发比例。通过这种方式，可以进一步获取到保留特征，这些特征将被用于后续的情绪识别任务。这个过程的主要效果是提高情绪识别的准确度和效率，因为保留特征中的信息更加精炼和关键。在这个流程中，首先对图像模态的原始特征进行卷积编码操作，然后通过门控卷积单元计算保留转发比例，最后根据这个比例获取保留特征。卷积编码操作，是使用传统的卷积神经网络（CNN），也可以是更先进的变体，如深度可分离卷积（Depthwise Separable Convolution）或者卷积长短期记忆网络（ConvLSTM），还可以是卷积变分自编码器（ConvolutionalVariational Autoencoder）以及其他可替换方式。

具体而言，在步骤600中，图像模态特征和语音模态特征经过各自的处理流程，产生了强化映射特征和保留特征。这两类特征之间包含的信息是互补的，强化映射特征主要包含了对情绪识别有重要贡献的特征，而保留特征则包含了原始特征中的一部分关键信息。在这个阶段，将强化映射特征与保留特征进行拼接，得到融合特征，该融合特征集合了两类特征的优点，进一步提高了情绪识别的精确度和效率。具体的工作过程包括对强化映射特征和保留特征进行顺序或并行的拼接操作，形成一个更大的特征向量。拼接操作为通过concat操作把两个特征按维度拼接起来，直接将两类特征在一个特定的维度（如时间维度或特征维度）上进行合并，也可以是通过某种特定的算法（如加权平均或最大值合并）来进行。最终，融合特征将被送入后续的筛选融合流程，用以获取双模态融合特征。拼接操作的可替换方式，可以是简单的直接拼接，也可以是加权合并，还可以是特征映射或特征选择以及其他合适的特征合并方法。

具体而言，在步骤700中，图像模态和语音模态的原始特征并未被废弃，再次被送入计算流程中。这个流程包括使用自注意力机制以及卷积编码操作对原始特征进行处理，获取第二次的强化映射特征和隐层特征。这样做的目的在于进一步提取和利用原始特征中可能遗漏的有价值信息，以强化情绪识别的准确性。这个流程中的计算主要包括自注意力机制的查询、键和值向量计算，以及卷积编码操作的卷积和池化等计算。之后，第二次获取的强化映射特征和隐层特征再次被拼接，得到第二个融合特征。第二个融合特征将被送入筛选融合阶段，与第一个融合特征合并为双模态融合特征。这个重复计算和拼接的过程按照设定的次数进行多次，也可以根据实际情况进行动态调整。

具体而言，在步骤800中，两个融合特征进入筛选融合阶段，用以获取双模态融合特征。双模态融合特征包含了从图像模态和语音模态中提取的信息，这两种模态的信息被有机地结合在一起，能够更准确、更全面地表示出原始数据中的情绪信息，这对于情绪识别的准确性具有重要作用。双模态融合特征有助于提高情绪识别的准确率和稳定性。工作过程中，信息筛选与融合可能涉及到的计算包括但不限于特征选择、特征权重计算、特征合并。信息筛选的方式是通过gate门控卷积来实现，也可以是基于特征重要性的选择，可以是基于特征稀疏性的选择，还可以是其他合适的特征选择方法。信息融合的方式可以是基于权重的线性融合，可以是基于模型的非线性融合，还可以是其他合适的信息融合方法。

具体而言，在步骤900中，双模态融合特征进入全连接模块的程序中，目的是将双模态融合特征和结构性数值特征进行拼接。这个操作的结构主要包含了全连接模块，该模块能够接受不同来源的特征输入，并将它们紧密地结合在一起。全连接模块在此处的作用是将图像、语音和结构性数值信息相互整合，形成一个更全面的特征向量，这个特征向量包含了更丰富的信息，有助于提高模型的预测精度。拼接操作将生成一个包含用户的图像、语音和结构性数值信息的特征向量，这个特征向量对于模型的训练和预测非常重要。具体来说，这可能是一个向量级别的连接操作，或者是基于某种策略的特征组合操作。在可替换方式上，全连接模块可以是传统的全连接神经网络，可以是深度学习中的全连接层，还可以是其他合适的全连接结构。在特征拼接的方式上，可以是直接的特征级别的拼接，可以是基于权重的特征融合，还可以是其他合适的特征融合方式。

具体而言，在步骤1000中，在得到包含用户的图像、语音和结构性数值信息的更全面的特征后，这些特征被送入预先训练好的深度学习模型中预测用户的情绪类型，所述模型具备处理大量输入特征并进行有效预测识别的能力。模型的主要任务是通过对输入特征的学习和理解，预测出用户的情绪类型。这样的预测将有助于进一步理解用户的行为模式，并提供更精确的个性化服务。

具体而言，在这个阶段，用户的图像、语音和数值信息的综合特征数据已经完成了精细的预处理和转换，形成适合模型处理的输入格式。将这些输入特征经过一系列计算层，例如卷积层、池化层、全连接层等，逐层提取和学习其中的抽象特征。在模型的训练过程中，算法将优化模型的参数以最小化预测误差，涉及到反向传播和梯度下降计算。在训练完成后，模型将具有对输入的全面特征进行分析并预测用户情绪类型的能力。在预测过程中，模型会接收到新的用户数据，这些数据首先会通过与训练阶段相同的预处理步骤，然后被送入已训练的模型。模型会对这些特征进行分析，通过前向传播过程，逐层计算并最终输出预测的情绪类型。

具体而言，通过所述视频信息提取图像模态的第一原始特征包括：

预设标准占比；

具体而言，根据标准人脸轮廓区段，确定标准人脸轮廓区段的标准长度，确定一个准确的基准，用于后续的比较和筛选，将待对比的人脸轮廓分成多个小部分，方便后续的比较和筛选，找出与标准人脸轮廓相似的部分，从而筛选出可能是目标用户的区段，帮助量化目标区段与待对比区段的关系，进而筛选出可能是目标用户的区段，确定一个相对准确的筛选方法，从而更精确地识别出目标用户，通过提取图像模态的第一原始特征，可以实现对待识别用户人脸轮廓的筛选和识别，提高识别准确度和效率。

具体而言，确定对所述目标区段的筛选标准的过程包括：

具体而言，本发明实施例通过采用修正系数修正待对比区段与标准人脸轮廓区段的相似度，根据目标区段在待对比区段中的占比来调整相似度的计算结果，当目标区段在待对比区段中的占比较小时，由于一些因素（例如姿态变化、光照变化等）导致相似度较低，但实际上该区段仍然属于目标用户。通过采用修正系数，对相似度进行修正，提高对目标区段的识别准确性，修正系数可以根据具体需求来设计，还可以根据实验数据和经验确定合适的修正系数。通过修正系数的引入，更加灵活地筛选出目标区段，提高人脸识别的准确性和鲁棒性。

具体而言，确定待对比区段与标准人脸轮廓区段的相似度S采用公式（1）来计算；

相似度S=n/n0+F/F0 （1），

具体而言，本发明实施例通过计算曲率变化的次数n和标准人脸轮廓区段中的曲率变化次数n0，量化待对比区段和标准人脸轮廓之间的形状相似度，曲率变化次数表示在该区段内曲率的变化程度，通过比较待对比区段和标准人脸轮廓的曲率变化次数，确定形状的相似度。通过计算曲率变化的平均幅度F和标准人脸轮廓区段中的曲率变化的标准幅度F0，量化待对比区段和标准人脸轮廓之间的曲率变化的程度，曲率变化的平均幅度表示在该区段内曲率变化的平均大小，通过比较待对比区段和标准人脸轮廓的曲率变化的幅度，确定曲率变化的一致性，通过将曲率变化次数和曲率变化的平均幅度结合起来，计算相似度S，相似度S综合考虑形状的相似度和曲率变化的一致性，从而更加全面地评估待对比区段与标准人脸轮廓区段的相似程度。本发明实施例通过量化待对比区段与标准人脸轮廓区段之间的相似度，从而实现对目标区段的筛选和识别，提高人脸识别的准确性和鲁棒性，特别是在面部姿态变化和光照变化等情况下。

请参阅图2所示，本发明实施例提供的基于多模态特征融合的用户情绪识别系统包括：数据采集模块、特征提取模块、跨模态特征融合模块、特征选择模块、全连接模块、情绪识别模块。

述数据采集模块10用于响应待识别用户的音视频服务请求，所述服务请求中包含所述待识别用户的身份信息，获取用户的图像阵列和语音信号，并根据所述身份信息确定所述用户的资产信息。

所述特征提取模块20用于从图像阵列、语音信号和资产信息中提取原始特征，使用vgg16提取图像特征、使用MFCC提取语音特征、使用主成分分析提取数值特征。

所述跨模态特征融合模块30用于处理图像模态与语音模态的所述原始特征，通过自注意力机制获得图像模态特征对于语音模态特征的强化映射特征，通过自适应特征保留单元获得图像模态的隐层特征的保留特征，将所述强化映射特征与所述保留特征拼接，获得第一融合特征。重复强化映射特征与保留特征的获取过程得到另一组强化映射特征与保留特征，再次拼接融合得到第二融合特征。

所述特征选择模块40用于获得双模态融合特征，通过门控卷积结构对两个所述融合特征进行信息筛选与融合得到。

所述全连接模块50用于将筛选后的双模态融合特征与数值模态的第三原始特征进行拼接，得到图像、语音、数值三模态融合后的全面特征。

所述情绪识别模块60用于根据全面特征通过预先训练的深度学习模型识别用户在音视频服务中的情绪类型，该模型是基于本发明得到的全面特征训练得到。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态特征融合的用户情绪识别方法，其特征在于，包括：

处理图像模态与语音模态的所述第一原始特征与所述第二原始特征获得特征向量，然后通过自注意力机制获得第一原始特征对于第二原始特征的强化映射特征，通过自适应特征保留单元获得图像模态的隐层特征的保留特征，将所述强化映射特征与所述保留特征拼接获得融合特征，在对所述融合特征筛选融合后获得双模态融合特征；

所述图像模态的隐层特征通过卷积神经网络操作进行提取，经由自适应特征保留单元决定保留和转发的特征比例，自适应特征保留单元是基于门控卷积单元设计的学习性网络结构，整个模型全程一起训练；通过将强化映射特征与保留特征按维度拼接，形成第一融合特征，重复强化映射特征与保留特征的获取过程得到另一组强化映射特征与保留特征，再次拼接后形成第二融合特征，两个融合特征经过信息筛选与融合过程，得到双模态融合特征；所述两个融合特征的信息筛选与融合过程由门控卷积结构执行；

基于所述双模态融合特征和第三原始特征获得图像、语音、数值三模态融合后的全面特征；

通过所述视频信息提取图像模态的第一原始特征包括：

预设标准占比；

根据所述目标区段在所述待对比区段中的占比和所述标准占比的关系，确定对所述目标区段的筛选标准；

确定对所述目标区段的筛选标准的过程包括：

当所述目标区段在所述待对比区段中的占比小于所述标准占比时，则采用修正系数修正所述待对比区段与标准人脸轮廓区段的相似度；

确定待对比区段与标准人脸轮廓区段的相似度S采用公式（1）来计算；

相似度S=n/n0+F/F0 （1），

2.根据权利要求1所述的基于多模态特征融合的用户情绪识别方法，其特征在于，所述身份信息通过移动终端发出的音视频服务请求获取，所述视频信息在响应所述音视频服务请求的过程中通过网络摄像头获得，所述语音信息在响应所述音视频服务请求的过程中通过麦克风获得。

3.根据权利要求2所述的基于多模态特征融合的用户情绪识别方法，其特征在于，处理所述第一原始特征与所述第二原始特征获得特征向量，其方式为通过权重矩阵与所述第一原始特征交叉相乘得到图像模态的查询向量，通过权重矩阵与所述第二原始特征交叉相乘得到语音模态的键向量与值向量，权重矩阵是基于transformer模型的计算流程随机初始化的；

所述强化映射特征是通过基于Transformer模型的自注意力机制进行特征向量得分计算得到。

4.根据权利要求3所述的基于多模态特征融合的用户情绪识别方法，其特征在于，所述全面特征的获得是所述双模态融合特征与第三原始特征通过全连接FC层拼接获得，其中层数为3，每层的节点数分别为特征数量、4096、512，最后一层输出的节点数为类别数。

5.根据权利要求4所述的基于多模态特征融合的用户情绪识别方法，其特征在于，对所述待识别用户情绪类型的识别是通过预先训练的深度学习模型进行的，该模型是基于所述全面特征训练得到的，用于预测待识别用户的情绪类型。

6.一种用于权利要求1至5任意一项所述的基于多模态特征融合的用户情绪识别方法的基于多模态特征融合的用户情绪识别系统，其特征在于，包括：

数据采集模块，用于响应待识别用户的音视频服务请求，所述服务请求中包含所述待识别用户的身份信息，获取用户的图像阵列和语音信号，并根据所述身份信息确定所述用户的资产信息；

特征提取模块，用于从图像阵列、语音信号和资产信息中提取原始特征，使用vgg16提取图像特征、使用MFCC提取语音特征、使用主成分分析提取数值特征；

跨模态特征融合模块，用于处理图像模态与语音模态的所述原始特征，通过自注意力机制获得图像特征对于语音特征的强化映射特征，通过自适应特征保留单元获得图像模态的隐层特征的保留特征，将所述强化映射特征与所述保留特征拼接，获得第一融合特征；重复强化映射特征与保留特征的获取过程得到另一组强化映射特征与保留特征，再次拼接融合得到第二融合特征；

特征选择模块，用于获得双模态融合特征，通过门控卷积结构对两个所述融合特征进行信息筛选与融合得到；

全连接模块，用于将筛选后的双模态融合特征与数值特征进行拼接，得到图像、语音、数值三模态融合后的全面特征；

情绪识别模块，用于根据全面特征通过预先训练的深度学习模型识别用户在音视频服务中的情绪类型。