CN117481652A

CN117481652A - 一种基于多模态体表信息融合的抑郁情绪识别方法及设备

Info

Publication number: CN117481652A
Application number: CN202311511936.6A
Authority: CN
Inventors: 郭超勋; 叶子晴; 宁之涵; 吴保元; 张大鹏
Original assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Institute of Artificial Intelligence and Robotics
Current assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Institute of Artificial Intelligence and Robotics
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-02

Abstract

本申请公开了一种基于多模态体表信息融合的抑郁情绪识别方法及设备，所述方法包括：获取与抑郁情绪相关的多模态体表信息的感知数据；将所述感知数据输入到多模态融合模型，对所述感知数据进行多模态信息融合计算，得到融合后的多模态数据；将所述多模态数据输入到识别网络模型，对所述多模态数据进行分类，得到抑郁情绪的识别结果。本申请通过获取多模态体表感知数据，分别通过多模态融合模型和识别网络模型，得到抑郁情绪的识别结果，提高了抑郁情绪识别结果的准确性。

Description

一种基于多模态体表信息融合的抑郁情绪识别方法及设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于多模态体表信息融合的抑郁情绪识别方法、系统、终端及计算机可读存储介质。

背景技术

抑郁症是一种以心情抑郁为主要特点的情感障碍，是现代社会中最为常见的精神障碍之一。因此，研究出高效客观的抑郁症早期筛查技术，能够很好的预防抑郁症病情的加剧，也能够很好的防止因抑郁症造成的自残行为。

在现有技术中，抑郁症的筛查技术多是基于问卷与访谈，此类检测方式过于复杂且不够客观。同时，抑郁患者存在消极治疗的情况(尤其不愿配合治疗的患者或者儿童)，例如，问卷填写时候隐瞒自己的真实状况。为解决此问题，部分研究尝试进行表情检测、说话检测来实现抑郁检测，即通过视频、语音、文本来识别抑郁情绪。但是，现有基于人脸表情、文本、或者语音的抑郁识别，多采用单一模态，有信息不完全的缺点。部分专利采用基于多种信息的抑郁识别，其只采用了2-3个模态，依旧会丢失部分与抑郁情绪相关的关键信息。同时，已有多模态数据融合模型存在一些不足，简单的进行了信息拼接，或者在决策环节使用简单的投票机制，这使得识别结果不够准确，降低抑郁症识别正确率。

发明内容

有鉴于此，本申请提供了一种基于多模态体表信息融合的抑郁情绪识别方法、系统、终端及计算机可读存储介质，以解决现有技术中通过人脸表情、文本、或者语音进行抑郁识别带来的模态单一，识别结果不够准确，降低抑郁症识别正确率的问题。

本申请提出一种基于多模态体表信息融合的抑郁情绪识别方法，所述基于多模态体表信息融合的抑郁情绪识别方法包括：

获取与抑郁情绪相关的多模态体表信息的感知数据；

将所述感知数据输入到多模态融合模型，对所述感知数据进行多模态信息融合计算，得到融合后的多模态数据；

将所述多模态数据输入到识别网络模型，对所述多模态数据进行分类，得到抑郁情绪的识别结果。

可选地，所述多模态体表感知数据包括：舌部的静态图片与动态视频数据、步态与眼部的视频数据、脉搏波的时间序列信号数据、语音信息的时间序列信号数据和气味浓度的波形数据中的一个或者多个；

所述舌部的静态图片与动态视频数据由舌象仪感知舌部得到；

所述步态与眼部的视频数据由摄像头记录步态与眼部的动态变化得到；

所述脉搏波的时间序列信号数据由多通道脉诊仪记录腕部的脉搏波得到；

所述语音信息的时间序列信号数据由麦克风记录语音信息得到；

所述气味浓度的波形数据由电子鼻记录呼出气体的成分得到。

可选地，所述多模态融合模型包括多模态数据编码单元、跨模态学习单元、多尺度融合单元和模态转换单元；

所述将所述感知数据输入到多模态融合模型，对所述感知数据进行多模态信息融合计算，得到融合后的多模态数据，具体包括：

将所述感知数据中每一单模态的体表感知数据输入至所述多模态数据编码单元，得到编码后所述感知数据的体表感知数据集合；

将每个模态的所述体表感知数据集合输入至所述跨模态学习单元，得到所有模态的所述多模态体表感知数据的跨模态学习特征集；

将所述体表感知数据集合的每个因子输入至所述多尺度融合单元，得到第一融合特征；

将所述第一融合特征和所述跨模态学习特征集输入至所述模态转换单元，得到融合后的所述多模态数据。

可选地，所述将每个模态的所述体表感知数据集合输入至所述跨模态学习单元，得到所有模态的所述多模态体表感知数据的跨模态学习特征集，具体包括：

分别对第一模态和第二模态的所述体表感知数据集合进行卷积算法处理，得到第一特征图集和第二特征图集；

对所述第一特征图集和所述第二特征图集进行数值向量归一化处理，分别得到所述第一模态和所述第二模态的权重；

根据所述权重、所述第一特征图集和所述第二特征图集，得到所述第一模态的所述多模态体表感知数据的跨模态学习特征集；

依次对每个模态的所述体表感知数据集合进行处理，得到所有模态的所述多模态体表感知数据的跨模态学习特征集。

可选地，所述将所述体表感知数据集合的每个因子输入至所述多尺度融合单元，得到第一融合特征，具体包括：

将所述体表感知数据集合的每个因子进行拼接，得到各模态的拼接特征；

将所述拼接特征分别进行一维卷积和三维卷积算法处理，得到第一特征图和第二特征图；

将所述第一特征图和所述第二特征图进行非线性和融合处理，得到第一融合特征。

可选地，所述将所述第一融合特征和所述跨模态学习特征集输入至所述模态转换单元，得到融合后的所述多模态数据，具体包括：

将所述第一融合特征拆分为每个模态的多尺度变换后的特征向量，得到特征向量组；

根据所述特征向量组和所述跨模态学习特征集，使用损失函数进行约束，得到融合后的所述多模态数据。

可选地，所述将所述多模态数据输入到识别网络模型，对所述多模态数据进行分类，得到抑郁情绪的识别结果，具体包括：

将所述多模态数据切分为体表信息多模态向量，将所述体表信息多模态向量输入至一维卷积算法进行嵌入，得到体表信息嵌入多模态向量；

将所述体表信息嵌入多模态向量进行模态内多头注意力和全连接模块处理，得到全连接多模态向量；

将所述全连接多模态向量输出至抑郁症回归子网络算法进行分类，得到抑郁情绪的识别结果。

本申请还提出一种基于多模态体表信息融合的抑郁情绪识别系统，所述基于多模态体表信息融合的抑郁情绪识别系统包括：

数据感知模块，用于获取与抑郁情绪相关的多模态体表信息的感知数据；

多模态融合模块，用于将所述感知数据输入到多模态融合模型，对所述感知数据进行多模态信息融合计算，得到融合后的多模态数据；

情绪识别模块，用于将所述多模态数据输入到识别网络模型，对所述多模态数据进行分类，得到抑郁情绪的识别结果。

本申请还提出一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多模态体表信息融合的抑郁情绪识别程序，所述基于多模态体表信息融合的抑郁情绪识别程序被所述处理器执行时实现如所述的基于多模态体表信息融合的抑郁情绪识别方法的步骤。

本申请还提出一种计算机可读存储介质，所述计算机可读存储介质存储有基于多模态体表信息融合的抑郁情绪识别程序，所述基于多模态体表信息融合的抑郁情绪识别程序被处理器执行时实现如所述的基于多模态体表信息融合的抑郁情绪识别方法的步骤。

本申请的有益效果是：区别于现有技术，本申请是一种基于多模态体表信息融合的客观化、高效抑郁情绪识别技术，通过获取抑郁情绪的多种模态体表信息的感知数据，如：面部、眼部、步态、语音、舌象、脉搏波、呼出气体等方面的体表感知数据，使得抑郁情绪的多种模态体表信息更全面，可充分提取有利于识别抑郁情绪的关键信息，进而提高抑郁情绪的识别性能的准确性；其次，本申请将感知数据输入到多模态融合模型，对感知数据进行多模态信息融合计算，得到融合后的多模态数据，可实现不同模态体表数据之间的融合，该融合模型亦可实现缺失模态的补全；再次，本申请将多模态数据输入到识别网络模型，对多模态数据进行分类，得到抑郁情绪的识别结果，提高了抑郁情绪识别结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请基于多模态体表信息融合的抑郁情绪识别方法的较佳实施例的流程图；

图2是本申请基于多模态体表信息融合的抑郁情绪识别方法的数据感知过程流程图；

图3是本申请基于多模态体表信息融合的抑郁情绪识别方法的多模态融合过程流程图；

图4是本申请基于多模态体表信息融合的抑郁情绪识别方法的情绪识别过程流程图；

图5是本申请基于多模态体表信息融合的抑郁情绪识别方法的多尺度融合单元的流程图；

图6是本申请基于多模态体表信息融合的抑郁情绪识别系统的较佳实施例的原理示意图；

图7为本申请终端的较佳实施例的运行环境示意图。

具体实施方式

为使本领域的技术人员更好地理解本申请的技术方案，下面结合附图和具体实施方式对本申请所提供的基于多模态体表信息融合的抑郁情绪识别方法、系统、终端及计算机可读存储介质做进一步详细描述。可以理解的是，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本申请提供一种基于多模态体表信息融合的抑郁情绪识别方法、系统、终端及计算机可读存储介质，以解决现有技术中通过人脸表情、文本、或者语音进行抑郁识别带来的模态单一，识别结果不够准确，降低抑郁症识别正确率的问题。

请参阅图1至图5，图1是本申请基于多模态体表信息融合的抑郁情绪识别方法的较佳实施例的流程图；图2是本申请基于多模态体表信息融合的抑郁情绪识别方法的数据感知过程流程图；图3是本申请基于多模态体表信息融合的抑郁情绪识别方法的多模态融合过程流程图；图4是本申请基于多模态体表信息融合的抑郁情绪识别方法的情绪识别过程流程图；图5是本申请基于多模态体表信息融合的抑郁情绪识别方法的多尺度融合单元的流程图。

本申请提出一种基于多模态体表信息融合的抑郁情绪识别方法，其中，如图1所示，基于多模态体表信息融合的抑郁情绪识别方法包括步骤：

步骤S100：获取与抑郁情绪相关的多模态体表信息的感知数据。

具体的，西医与中医对抑郁症的研究表明，抑郁症会表现在患者的神态、行为或其他体表信息中，如：面部、眼部、步态、语音、舌象、脉搏波、呼出气体有异于正常人群，因此，基于体表信息识别抑郁情绪具有可行性，且体表信息具有易于获取的特性。据此，获取抑郁情绪的多种模态体表信息的多模态体表感知数据，多模态体表感知数据包括面部、眼部、步态、语音、舌象、脉搏波、呼出气体等方面的数据，使得抑郁情绪的多种模态体表信息更全面，可充分提取有利于识别抑郁情绪的关键信息，进而提高抑郁情绪的识别性能的准确性。

所述步骤S100：获取与抑郁情绪相关的多模态体表信息的感知数据，具体包括：获取感知设备采集的与抑郁情绪相关的多种模态体表信息的感知数据。

具体的，使用感知设备，获取抑郁情绪的多种模态体表信息的多模态体表感知数据，即全方位感知与抑郁症相关的多模态体表信息，可分别通过摄像头、舌诊仪等器件感知面部、舌部、眼部的图像与视频信息，以及分别通过脉诊仪、电子鼻、麦克风获取脉搏波、呼出气体、语音信息，通过独立的感知子模块实现多模态数据的感知，并输出不同的数据格式。

其中，如图2和图6所示，所述多模态体表感知数据包括：舌部的静态图片与动态视频数据、步态与眼部的视频数据、脉搏波的时间序列信号数据、语音信息的时间序列信号数据和气味浓度的波形数据中的一个或者多个；

具体的，使用舌象仪感知舌部，其输出的数据为舌部的静态图片与动态视频数据，使用摄像头记录步态与眼部的动态变化，其输出的数据为步态与眼部的视频数据，使用多通道脉诊仪记录腕部的脉搏波，其输出的数据为脉搏波的时间序列信号数据，使用麦克风记录语音信息，其输出的数据为语音信息的时间序列信号数据，使用电子鼻记录呼出气体的成分，其输出的数据为气味浓度的波形数据，在感知过程中，获取上述综合数据，得到抑郁情绪的多种模态体表信息的多模态体表感知数据{X₁,X₂,…,X_n}，其中，n为模态的数量，从源头保障多模态体表数据的质量。

步骤S200：将所述感知数据输入到多模态融合模型，对所述感知数据进行多模态信息融合计算，得到融合后的多模态数据。

具体的，如图3所示，根据多模态融合模型，对感知数据进行多模态信息融合计算，得到融合后的多模态数据，即通过对多模态体表信息的全方位感知与融合计算实现抑郁情绪的有效识别，也可实现缺失模态的补全。

其中，所述多模态融合模型包括多模态数据编码单元、跨模态学习单元、多尺度融合单元和模态转换单元。

所述步骤S200：将所述感知数据输入到多模态融合模型，对所述感知数据进行多模态信息融合计算，得到融合后的多模态数据，具体包括：

具体的，将多模态体表感知数据{X₁,X₂,…,X_n}中每一单模态的体表感知数据输入至多模态数据编码单元，得到编码后多模态体表感知数据的体表感知数据集合，对每个模态的体表感知数据集合输入至跨模态学习单元，得到所有模态的多模态体表感知数据的跨模态学习特征集，将体表感知数据集合的每个因子输入至多尺度融合单元，得到第一融合特征，将第一融合特征和跨模态学习特征集输入至模态转换单元，得到第二融合特征，进而得到融合后的多模态数据。

其中，所述将所述多模态体表感知数据中每一单模态的体表感知数据输入至所述多模态数据编码单元，得到编码后所述多模态体表感知数据的体表感知数据集合，具体包括：

将所述多模态体表感知数据中每一单模态的体表感知数据输入至对应的编码器分别进行编码，得到编码后所述多模态体表感知数据的体表感知数据集合。

具体的，将多模态体表感知数据中对每一单模态的体表感知数据使用对应的编码器分别进行编码，即多模态数据编码E＝{E₁,E₂,…,E_n}，E₁为针对体表数据X₁的编码器，为k层的神经网络，k∈R，经过编码器E₁编码，诊察数据X₁转变为向量f₁；依次，多模态体表数据{X₁,X₂,…,X_n}经E处理后变为{f₁,f₂,…,f_n}，得到编码后多模态体表信息的体表感知数据集合，编码后数据F＝{f₁,f₂,…,f_n}可分别输出跨模态学习单元和多尺度融合单元。

其中，所述将每个模态的所述体表感知数据集合输入至所述跨模态学习单元，得到所有模态的所述多模态体表感知数据的跨模态学习特征集，具体包括：

以第一模态和第二模态为例，分别对第一模态和第二模态的所述体表感知数据集合进行卷积算法处理，得到第一特征图集和第二特征图集；

具体的，分别对编码后的第一模态和第二模态的所述体表感知数据集合进行3个卷积块算法处理，得到第一特征图集和第二特征图集，即第一模态i编码后的信息f_i经过3个卷积块以获得第一特征图集{q_i,k_i,v_i}，第二模态j编码后的信息f_j也经过另外3个卷积块，得到第二特征图集{q_j,k_j,v_j}，对第一特征图集和第二特征图集进行数值向量归一化处理，分别得到第一模态和第二模态之间的权重，即可采用att_ij＝softmax(q_i e k_j)计算第一模态i与第二模态j之间的权重，获取到跨模态注意力权重att_ij后，跨模态特征f′_i可由权重与第一特征图集的v_j相乘后相加获得，即：

依次对每一模态的特征都做同样的处理，最终得到所有模态的多模态体表感知数据的跨模态学习特征集{f₁',f₂',f₃',…,f₇',f₈',f_n'}。

其中，所述将所述体表感知数据集合的每个因子输入至所述多尺度融合单元，得到第一融合特征，具体包括：

具体的，如图5所示，依次将编码后的体表感知数据集合的每个因子进行拼接，并拼接为f，得到各模态的拼接特征，f＝{f₁,f₂,…,f_n}，将拼接特征f分别进行1×1×1一维卷积和3×3×3三维卷积算法处理，得到第一特征图s_a＝W_sa*f和第二特征图s_b＝W_sb*f，将第一特征图和第二特征图进行非线性和融合处理，得到f_sa＝σ(s_a)f，f_sb＝σ(s_b)f进而得进而到第一融合特征，即融合后特征为F_s＝f_sa+f_sb。

其中，所述将所述第一融合特征和所述跨模态学习特征集输入至所述模态转换单元，得到融合后的所述多模态数据，具体包括：

具体的，在模态转换单元中，学习模态之间的关系，将第一融合特征拆分为每个模态的多尺度变换后的特征向量，得到特征向量组，即fs₁,fs₂,…,fs_n，设第i个模态的关系参数为P_i＝{a_i,b_i,...,h_i,...,p_i}，则第i个模态可表示为F_si＝P_i e Q_i ^T，并将每个模态的特征向量值F_si与多尺度变换后的特征向量真实值f_sn进行比较，并使用损失函数进行约束，得到融合后的所述多模态数据。

其中，损失函数为使用这些特征值的概率分布进行计算，如下：

其中，Lcor是一个限制条件，得到最优的得到融合后的所述多模态数据f_s1,f_s2,...,f_sn，P()和Q()均为概率函数。

根据跨模态学习特征集f_s＝{f'₁,f'₂,f'₃,...,f'₇,f'₈,f'_n}和特征向量组{f_s1,f_s2,...,f_sn}，得到融合后的多模态数据，将融合后的多模态数据f_s作为输出传送至情绪识别模块，以学习非线性表示模型，在某个模态缺失的情况下，通过其他模态的非线性表示，实现确实模态的补全。

步骤S300：将所述多模态数据输入到识别网络模型，对所述多模态数据进行分类，得到抑郁情绪的识别结果。

具体的，如图4所示，将多模态数据输入到识别网络模型，对多模态数据进行分类，得到抑郁情绪的识别结果，可充分提取有利于识别抑郁情绪的关键信息，进而提高抑郁情绪的识别性能。

其中，所述步骤S300：将所述多模态数据输入到识别网络模型，对所述多模态数据进行分类，得到抑郁情绪的识别结果，具体包括：

具体的，根据多模态数据，将多模态数据f_s切分为体表信息多模态向量并将体表信息多模态向量/>作为输入，输入至一维卷积算法进行嵌入，得到体表信息嵌入多模态向量，将体表信息嵌入多模态向量进行模态内多头注意力和全连接模块处理，得到全连接多模态向量，将全连接多模态向量输出至抑郁症回归子网络算法进行分类，其中，抑郁症回归子网络算法为将多模态编码器子网络的输出进行拼接，进而使用全连接模块进行抑郁症严重程度的回归，并使用二元交叉熵作为该抑郁症回归的损失函数，得到抑郁情绪的识别结果。

请参阅图6至图7，图6是本申请基于多模态体表信息融合的抑郁情绪识别系统的较佳实施例的原理示意图；图7为本申请终端的较佳实施例的运行环境示意图。

在一些实施例中，如图6所示，基于上述基于多模态体表信息融合的抑郁情绪识别方法，本申请还提出一种基于多模态体表信息融合的抑郁情绪识别系统，所述基于多模态体表信息融合的抑郁情绪识别系统包括：

数据感知模块51，用于获取与抑郁情绪相关的多模态体表信息的感知数据；

多模态融合模块52，用于将所述感知数据输入到多模态融合模型，对所述感知数据进行多模态信息融合计算，得到融合后的多模态数据；

情绪识别模块53，用于将所述多模态数据输入到识别网络模型，对所述多模态数据进行分类，得到抑郁情绪的识别结果。

在一些实施例中，如图7所示，基于上述基于多模态体表信息融合的抑郁情绪识别方法和系统，本申请还相应提出一种终端，所述终端包括：存储器10、处理器20、显示器30，图7仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。

在一实施例中，存储器20上存储有基于多模态体表信息融合的抑郁情绪识别程序40，该基于多模态体表信息融合的抑郁情绪识别程序40可被处理器10所执行，从而实现本申请中基于多模态体表信息融合的抑郁情绪识别方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于多模态体表信息融合的抑郁情绪识别方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。

本申请还提出一种计算机可读存储介质，所述计算机可读存储介质存储有基于多模态体表信息融合的抑郁情绪识别程序，所述基于多模态体表信息融合的抑郁情绪识别程序被处理器执行时实现如上所述的基于多模态体表信息融合的抑郁情绪识别方法的步骤。

综上所述，本申请通过获取抑郁情绪的多种模态体表信息的多模态体表感知数据，如：面部、眼部、步态、语音、舌象、脉搏波、呼出气体等方面的体表感知数据，使得抑郁情绪的多种模态体表信息更全面，可充分提取有利于识别抑郁情绪的关键信息，进而提高抑郁情绪的识别性能的准确性；其次，本申请根据多模态融合模型，对感知数据进行多模态信息融合计算，得到融合后的多模态数据，可实现不同模态体表数据之间的融合，该融合模型亦可实现缺失模态的补全；再次，本申请根据识别网络模型，对多模态数据进行分类，得到抑郁情绪的识别结果，提高了抑郁情绪识别结果的准确性。感知与情绪相关的多模态体表信息，然后量化体表数据并开展融合计算以实现抑郁症诊断，属于客观的抑郁症诊断方法，避免了主观因素对抑郁症的判别，且与表情、语音识别抑郁症不同，本申请全方位获取与抑郁症相关的多模态体表信息，可充分提取与抑郁症相关的信息，从而提高抑郁情绪的识别率，还是一种便捷、非侵入式、友好的抑郁症早期预警技术，可用于学生、青少年等抑郁症高发人群的大筛查，另外，多模态体表信息融合模型，还可实现多源异构结构多模态体表数据的融合，提高多模态数据的融合性能，从而提高抑郁症识别正确率。

需要说明的是，本申请实施例中介绍的多种可选的实施方式，彼此可以相互结合实现，也可以单独实现，对此本申请实施例不作限定。

在本申请的描述中，需要理解的是，术语“上”、“下”、“左”、“右”等指示方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以及特定的方位构造和操作。因此，不能理解为对本申请的限制。此外，“第一”、“第二”仅由于描述目的，且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

上述实施例是参考附图来描述的，其他不同的形式和实施例也是可行而不偏离本申请的原理，因此本申请不应被建构成为在此所提出实施例的限制。更确切地说，这些实施例被提供以使得本申请会是完善又完整，且会将本申请范围传达给本领域技术人员。在附图中，组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定实施例目的，并无意成为限制。术语“包含”及/或“包括”在使用于本说明书时，表示所述特征、整数、构件及/或组件的存在，但不排除一或更多其他特征整数、构件、组件及/或其族群的存在或增加。除非另有所示，陈述时，数值范围包含该范围的上下限及其间的任何子范围。

以上所述仅为本申请的部分实施例，并非因此限制本申请的保护范围，凡是利用本申请说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于多模态体表信息融合的抑郁情绪识别方法，其特征在于，包括：

获取与抑郁情绪相关的多模态体表信息的感知数据；

2.根据权利要求1所述的基于多模态体表信息融合的抑郁情绪识别方法，其特征在于，所述多模态体表感知数据包括：舌部的静态图片与动态视频数据、步态与眼部的视频数据、脉搏波的时间序列信号数据、语音信息的时间序列信号数据和气味浓度的波形数据中的一个或者多个；

3.根据权利要求1所述的基于多模态体表信息融合的抑郁情绪识别方法，其特征在于，所述多模态融合模型包括多模态数据编码单元、跨模态学习单元、多尺度融合单元和模态转换单元；

4.根据权利要求3所述的基于多模态体表信息融合的抑郁情绪识别方法，其特征在于，所述将每个模态的所述体表感知数据集合输入至所述跨模态学习单元，得到所有模态的所述多模态体表感知数据的跨模态学习特征集，具体包括：

5.根据权利要求3所述的基于多模态体表信息融合的抑郁情绪识别方法，其特征在于，所述将所述体表感知数据集合的每个因子输入至所述多尺度融合单元，得到第一融合特征，具体包括：

6.根据权利要求5所述的基于多模态体表信息融合的抑郁情绪识别方法，其特征在于，所述将所述第一融合特征和所述跨模态学习特征集输入至所述模态转换单元，得到融合后的所述多模态数据，具体包括：

7.根据权利要求3所述的基于多模态体表信息融合的抑郁情绪识别方法，其特征在于，所述将所述多模态数据输入到识别网络模型，对所述多模态数据进行分类，得到抑郁情绪的识别结果，具体包括：

8.一种基于多模态体表信息融合的抑郁情绪识别系统，其特征在于，所述基于多模态体表信息融合的抑郁情绪识别系统包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多模态体表信息融合的抑郁情绪识别程序，所述基于多模态体表信息融合的抑郁情绪识别程序被所述处理器执行时实现如权利要求1-7任一项所述的基于多模态体表信息融合的抑郁情绪识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于多模态体表信息融合的抑郁情绪识别程序，所述基于多模态体表信息融合的抑郁情绪识别程序被处理器执行时实现如权利要求1-7任一项所述的基于多模态体表信息融合的抑郁情绪识别方法的步骤。