CN116415137A

CN116415137A - 基于多模态特征的情绪定量方法、装置、设备及存储介质

Info

Publication number: CN116415137A
Application number: CN202310674488.5A
Authority: CN
Inventors: 王刚; 刘蓬博; 李楠茜; 王静; 丰雷; 贺志阳; 胡加学; 赵景鹤; 鹿晓亮; 赵志伟
Original assignee: Iflytek Medical Technology Co ltd; Beijing Anding Hospital
Current assignee: Iflytek Medical Technology Co ltd; Beijing Anding Hospital
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-07-11
Anticipated expiration: 2043-06-08
Also published as: CN116415137B

Abstract

本申请公开了一种基于多模态特征的情绪定量方法、装置、设备及存储介质，本申请获取到待测对象在设定谈话场景下的音频、视频数据、识别文本，该三种模态的数据全面覆盖待测对象的整体状态，所提供的信息更加丰富，为准确分析得到情绪参考数据提供了很好的数据基础。分别提取三种模态的数据的特征，得到文本特征、音频局部特征和视频局部特征，采用可学习的聚类模块分别对音频局部特征和视频局部特征进行维度压缩和聚类，获取更有价值的高维的音频全局特征和视频全局特征，将文本特征、音频全局特征和视频全局特征进行融合，并基于融合特征确定待测对象的情绪参考数据，实现了对待测对象的自动化检测，大大提升了检测效率。

Description

基于多模态特征的情绪定量方法、装置、设备及存储介质

技术领域

本申请涉及情绪判定技术领域，更具体的说，是涉及一种基于多模态特征的情绪定量方法、装置、设备及存储介质。

背景技术

情绪对人类的身心健康具有直接的影响，积极的情绪会使整个人身心处于良好状态，而消极的情绪则容易引起身心疾患，常见的情绪问题如抑郁症、焦虑症、狂躁症等。情绪问题不同于通常的情绪波动和对日常生活中挑战产生的短暂情绪反应，用户可能会受极大影响，在工作中以及在学校和家中表现不佳。

目前对用户情绪问题的检测一般会依据一些检测量表（HAMD-17,PHQ-9,BDI-II,SDS等），工作人员（如医生）依据一些场景询问用户一些问题，通过用户的回答以及反馈来确定用户是否存在指定类型的情绪问题（如抑郁症等），以及问题的严重程度，每个用户每次问诊需要耗时20-30分钟，效率非常低，而社会上存在情绪问题的用户数量庞大，有些甚至还未意识到自己已经存在情绪问题，在专业人员（如医生）资源紧缺的情况下，这种低效的检测方式进一步导致了难以普及情绪问题的筛查、检测工作。

发明内容

鉴于上述问题，提出了本申请以便提供一种基于多模态特征的情绪定量方法、装置、设备及存储介质，以实现高效、准确地获取对象的情绪参考数据，以辅助确定对象是否存在情绪问题，以及问题的严重程度。具体方案如下：

第一方面，提供了一种基于多模态特征的情绪定量方法，包括：

获取对待测对象采集的音频、视频数据，及所述音频数据对应的识别文本，其中，所述音频、视频数据为对所述待测对象在设定谈话场景下所采集的数据；

提取所述识别文本的文本特征、提取所述音频数据的音频局部特征，以及提取所述视频数据的视频局部特征；

采用可学习的聚类模块分别对所述音频局部特征和所述视频局部特征进行维度压缩和聚类，得到聚类后的高维的音频全局特征和视频全局特征；

将所述文本特征、所述音频全局特征和所述视频全局特征进行融合，并基于融合特征确定所述待测对象的情绪参考数据。

第二方面，提供了一种基于多模态特征的情绪定量装置，包括：

多模态数据获取模块，用于获取对待测对象采集的音频、视频数据，及所述音频数据对应的识别文本，其中，所述音频、视频数据为对所述待测对象在设定谈话场景下所采集的数据；

文本特征提取模块，用于提取所述识别文本的文本特征；

局部特征提取模块，用于提取所述音频数据的音频局部特征，以及提取所述视频数据的视频局部特征；

聚类单元，用于采用可学习的聚类模块分别对所述音频局部特征和所述视频局部特征进行维度压缩和聚类，得到聚类后的高维的音频全局特征和视频全局特征；

特征融合单元，用于将所述文本特征、所述音频全局特征和所述视频全局特征进行融合；

结果预测模块，用于基于融合特征确定所述待测对象的情绪参考数据。

第三方面，提供了一种基于多模态特征的情绪定量设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如前所述的基于多模态特征的情绪定量方法的各个步骤。

第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的基于多模态特征的情绪定量方法的各个步骤。

借由上述技术方案，本申请获取到待测对象在设定谈话场景下的音频、视频数据，以及对音频数据转写后的识别文本，作为后续情绪参考数据分析的数据基础，该三种模态的数据全面覆盖待测对象的整体状态，所提供的信息更加丰富，为准确分析得到情绪参考数据提供了很好的数据基础。在此基础上，分别提取三种模态的数据的特征，得到文本特征、音频局部特征和视频局部特征，考虑到前述获取的音视频数据量可能非常大，此处提取的音频局部特征和视频局部特征的维度也较大，为了方便机器对数据进行处理，本申请采用可学习的聚类模块分别对音频局部特征和视频局部特征进行维度压缩和聚类，滤除掉大量重复、无关的信息，获取更有价值的高维的音频全局特征和视频全局特征，在此基础上，将文本特征、音频全局特征和视频全局特征进行融合，并基于融合特征确定待测对象的情绪参考数据，实现了对待测对象的自动化检测，大大提升了检测效率。

同时，由于本申请可以对待测对象的文本模态、音频模态和视频模态三种模态数据进行分析，信息更加丰富，可以提升最终得到的情绪参考数据的准确性。

进一步，本申请方案支持对待测对象谈话场景下的全量的音频、视频数据进行分析处理，避免对片段内容分析导致的检测结果误差。在此基础上，为了提升计算性能，以及获得更高质量的特征，本申请采用可学习聚类模块对维度较大的音频局部特征和视频局部特征分别进行维度压缩和聚类，得到高维的音频全局特征和视频全局特征，既减少了特征维度数、降低计算量，又能够得到更有价值的音视频全局特征，便于后续经过特征融合后准确预测待测对象的情绪参考数据。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的基于多模态特征的情绪定量方法的一流程示意图；

图2示例了一种多模态数据处理模型的数据处理过程示意图；

图3示例了一种batch内包含5个训练样本时所生成的相关度矩阵掩码图；

图4示例了一种沿横向对图3所示相关度矩阵掩码图进行变换后的结果示意图；

图5示例了一种沿纵向对图3所示相关度矩阵掩码图进行变换后的结果示意图；

图6为本申请实施例提供的一种基于多模态特征的情绪定量装置结构示意图；

图7为本申请实施例提供的基于多模态特征的情绪定量设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种基于多模态特征的情绪定量方法，可以适用于对待测对象是否存在指定类型的情绪问题以及问题严重程度的筛查、检测任务。其中，情绪问题可以包括常见的各类型情绪问题，如抑郁症、焦虑症、狂躁症等。本申请可以得到待测对象的情绪参考数据，情绪参考数据可以包括：待测对象是否存在指定类型情绪问题、所存在的指定类型情绪问题的严重程度中的任意一项或两项数据。问题严重程度可以采用情绪问题得分或者严重程度（无-轻-中-重）来表示，以郁抑症为例，抑郁症参考数据可以包括：是否存在抑郁症、抑郁程度。

本申请方法的直接处理对象为音频、视频数据及识别文本，该音频、视频数据及识别文本可以是对待测对象在设定谈话场景下采集的音频、视频数据，以及音频对应的识别文本，上述音频、视频数据及识别文本可以是第三方机构提供，也可以是本申请采集得到，本申请方案重点介绍如何对获取的三种模态数据进行分析处理，以得到待测对象的情绪参考数据的过程。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。

接下来，结合图1所述，本申请的基于多模态特征的情绪定量方法可以包括如下步骤：

步骤S100、获取对待测对象采集的音频、视频数据，及所述音频数据对应的识别文本。

其中，所述音频、视频数据为对待测对象在设定谈话场景下所采集的数据。通过对音频数据进行识别转写，得到识别文本，至此可以得到音频数据、视频数据和识别文本三种模态的数据。

本实施例中，为了更加准确的对待测对象进行检测，可以获取到谈话场景下所采集的全量的音频、视频数据，作为分析的数据基础，由此可以避免仅对片段音视频数据进行处理，所可能带来的结果误差。

当然，若受限于实际场景导致无法获取全量数据，则可以仅获取片段的音频、视频数据。或者是，若受限于实际场景导致某一模态数据完全缺失，本申请可以将该缺失的模态数据用空值替代，后续在提取对应模态数据的特征时，可以利用全0矩阵作为对应模态数据的特征，这种处理方式更加符合实际临床场景，保证在模态缺失的情况下，方案仍可以执行。

步骤S110、提取所述识别文本的文本特征、提取所述音频数据的音频局部特征，以及提取所述视频数据的视频局部特征。

具体地，文本特征体现了识别文本的语义层面特征，本步骤中可以采用文本特征提取模块，进行文本特征的提取，示例如采用预训练语言模型如BERT等，提取文本特征。

进一步，可以采用CNN网络结构或其它模块来分别提取音频数据的局部特征，以及视频数据的局部特征，得到音频局部特征和视频局部特征。由于本步骤中提取的仅是音频和视频的局部特征，为了更全面的表示音频数据和视频数据，需要经过下一步骤的处理，得到音频全局特征和视频全局特征。

步骤S120、采用可学习的聚类模块分别对所述音频局部特征和所述视频局部特征进行维度压缩和聚类，得到聚类后的高维的音频全局特征和视频全局特征。

具体地，鉴于前述步骤中获取的音视频数据的维度较大，提取的音频局部特征和视频局部特征的维度也同样较大，对大维度特征进行计算处理时会影响计算性能。同时，音频局部特征和视频局部特征也仅仅是局部性的特征，无法反映音视频数据的整体情况，为此，本步骤中采用一个可学习的聚类模块，分别对音频局部特征和视频局部特征进行维度压缩和聚类处理，该过程可以看作是一个对局部特征进行聚类，采用聚类中心的特征构造全局特征的过程，也可以理解为聚类得到指定数目的高维特征的过程。通过对局部特征进行维度压缩和聚类，可以得到聚类后高维的音频全局特征和视频全局特征，既实现了特征维度数的降低，又能够得到高质量的音视频全局特征。

本步骤中所采用的可学习的聚类模块可以采用可学习的神经网络结构来实现，该聚类模块可以预先经过模型训练、学习，示例如聚类模块可以采用NetVLAD（Vector ofLocally Aggregated Descriptors，局部聚集描述子向量）或其它具备特征聚类功能的网络结构，详细参照后续实施例介绍。

步骤S130、将所述文本特征、所述音频全局特征和所述视频全局特征进行融合，并基于融合特征确定所述待测对象的情绪参考数据。

具体地，为了综合考虑文本特征、音频全局特征和视频全局特征，将三种模态特征进行融合，该融合过程可以通过特征拼接的方式实现，示例如可以基于注意力机制对三种模态特征进行拼接，最终可以利用融合特征来预测待测对象的情绪参考数据，如待测对象是否患有抑郁症、待测对象的抑郁程度。

需要说明的是，前述步骤S100中获取的设定谈话场景下的数据可以是一种或多种不同谈话场景下的数据，则本实施例可以针对每一谈话场景下的数据，确定在该谈话场景下待测对象的情绪参考数据，当存在多个谈话场景下的数据时，可以将各个谈话场景下待测对象的情绪参考数据相加，作为待测对象的最终情绪参考数据。

本申请实施例提供的方法，获取到待测对象在设定谈话场景下的音频、视频数据，以及对音频数据转写后的识别文本，作为后续情绪参考数据分析的数据基础，该三种模态的数据全面覆盖待测对象的整体状态，所提供的信息更加丰富，为准确分析得到情绪参考数据提供了很好的数据基础。在此基础上，分别提取三种模态的数据的特征，得到文本特征、音频局部特征和视频局部特征，考虑到前述获取的音视频数据量可能非常大，此处提取的音频局部特征和视频局部特征的维度也较大，为了方便机器对数据进行处理，本申请采用可学习的聚类模块分别对音频局部特征和视频局部特征进行维度压缩和聚类，滤除掉大量重复、无关的信息，获取更有价值的高维的音频全局特征和视频全局特征，在此基础上，将文本特征、音频全局特征和视频全局特征进行融合，并基于融合特征确定待测对象的情绪参考数据，实现了对待测对象的自动化检测，大大提升了检测效率。

本申请实施例介绍的基于多模态特征的情绪定量方法，可以通过预训练的多模态数据处理模型实现，该模型的输入可以包括识别文本、音频数据、视频数据三种模态的数据，通过分析三种模态数据，来预测输出待测对象的情绪参考数据。当然，若受限于实际场景，导致某种模态数据的缺失，则可以对缺失模态以空值处理，模型内部提取缺失模态数据的特征时，可以直接以全0矩阵替代。

多模态数据处理模型采用标注有情绪参考数据分类标签的训练样本作为训练数据训练得到，其中，训练样本包括对训练对象所采集的训练音频、训练视频及训练音频对应的识别文本。

为了训练该多模态数据处理模型，本申请实施例中可以收集训练数据，其中训练对象可以包括健康志愿者和存在情绪问题的志愿者，其中健康志愿者是指无情绪问题或其他精神类疾病的健康人群志愿者。根据所要识别的情绪问题的类型不同，可以选择存在对应类型的情绪问题的志愿者，如在进行抑郁症识别的场景下，可以选取被确诊为不同程度的抑郁症的患病人群作为存在情绪问题的志愿者。可以分别收集各个训练对象在设定场景下的谈话音频、视频数据，并由医生对不同训练对象进行情绪问题参考数据的标注，如标注训练对象是否存在情绪问题、存在情绪问题的验证严重程度。同时，对收集到的谈话音频进行文本转写，得到识别文本，由同一训练对象的识别文本、音频数据和视频数据组成训练样本，医生对训练对象的情绪问题参考数据的标注作为分类标签，多个训练对象的训练数据组成多模态的训练数据集。

进一步地，结合图2，对多模态数据处理模型的网络结构进行说明。

多模态数据处理模型可以包括：

多模态数据获取模块11，用于分别输入对待测对象采集的音频、视频数据及所述识别文本。

文本特征提取模块12，用于提取所述识别文本的文本特征。

具体地，文本特征提取模块可以采用预训练语言模型，如BERT模型结构等。可以采用前述收集的训练数据中的识别文本训练数据，训练文本模态的语言模型，具体训练过程可以采用掩码字符训练方式，也可以采用上下句预测训练方式。

在文本特征提取模型采用预训练语言模型的基础上，在对多模态数据处理模型进行训练时，可以将语言模型的参数固定住，或者将语言模型的部分浅层参数固定住，从而加快模型训练收敛速度，大幅节约显存的占用。

进一步地，文本特征提取模块在提取识别文本的文本特征之前，还可以进一步经过识别文本的预处理操作，如长文本切分、拼接等处理，之后再进行文本特征的提取。

局部特征提取模块13，用于分别提取所述音频数据的音频局部特征，以及提取所述视频数据的视频局部特征。

具体地，可以采用CNN或其它可选的网络结构，提取音视频不同时间节点的局部特征。在提取局部特征之前，可以首先对音频数据、视频数据进行预处理，包括但不限于：下采样、特征抽取（如抽取音频数据的Fbank特征、梅尔普特征等）。

聚类模块14，用于分别对所述音频局部特征和所述视频局部特征进行维度压缩和聚类，得到聚类后的高维的音频全局特征和视频全局特征。

具体地，由于上述经过局部特征提取模块所提取的音频局部特征和视频局部特征均属于局部特征，无法反映音频数据和视频数据的整体情况。并且，上述局部特征的维度数过大，导致计算量较大。为此，本实施例中通过聚类模块14，对音频局部特征和视频局部特征分别进行维度压缩和聚类，以提取高维的音频全局特征和视频全局特征。

聚类模块14可以采用NetVLAD的神经网络结构，实现对音视频数据的信息维度压缩，滤除大量重复的无关信息，可以得到目标数量的有价值的高维全局特征。

以NetVLAD的神经网络结构为例，介绍具体的工作过程：

NetVLAD可以根据预先设定好的聚类中心数量，基于提取的局部特征进行高维聚类学习。示例如，局部特征（可以是音频局部特征或视频局部特征）的特征维度为（N，D），预设聚类中心的数量为K，则经过NetVLAD输出的全局特征的维度为（K，D），N>>K，且N可变。具体地，NetVLAD的计算公式如下：

其中，x_i(j)表示第i个局部特征第j维的值，c_k(j)表示第k个聚类中心第j维的值，c_k(j)为可学习的参数，a_k(x_i)为指示函数，表示第i个局部特征是否属于第k类，由于该指示函数不可导，因此可以将指示函数变形为如下公式：

其中，a_k(x_i)表示把x_i 分配到聚类中心c_k 的权重，取值（0,1）之间，该公式中

、b_k 均为模型参数。

在训练得到NetVLAD网络结构之后，可以将NetVLAD网络结构输出的各聚类中心的特征组成全局特征。

当然，本实施例中仅以NetVLAD的神经网络结构作为聚类模块进行示例说明，除此之外，还可以采用其它能够实现局部特征的维度压缩、聚类，得到高维的全局特征的功能模块。

特征融合模块15，用于将所述文本特征、所述音频全局特征和所述视频全局特征进行融合，得到融合特征。

具体地，在进行多模态特征融合时，可以直接将不同模态的特征进行拼接，或者可以采用基于注意力机制的特征拼接，得到融合特征。

需要说明的是，若受限于实际使用场景，存在某种模态数据的缺失，则可以采用全0矩阵来替代缺失模态的特征，进一步与其它模态特征进行融合处理。

结果预测模块16，用于基于所述融合特征预测所述待测对象的抑郁症参考数据。

具体地，根据情绪参考数据的不同类型，可以选取不同结构的结果预测模块结构，如当情绪参考数据为是否存在指定类型情绪问题时，则结果预测模块可以采用分类器，用于进行指定类型情绪问题的判别；当情绪参考数据为问题严重程度时，则结果预测模块可以采用回归模型，如情绪问题严重程度分数预测器，用于进行情绪问题严重程度的回归计算。

进一步地，对上述多模态数据处理模型的训练过程进行说明。

考虑到端到端的模型训练方式无法捕捉相同类别标签中不同模态特征间的关系，特征空间约束较少，若要保证模型收敛至合理区间可能需要较大的训练数据量来支持。但是真实场景中该类型训练数据量受限，因而可能导致模型训练不足，收敛到局部最优的问题。

本实施例中为了增加多模态数据之间的交互，促进模型整体的学习性能，提升模型的联合建模能力，提出了一种新型的对比学习训练策略。

具体地，本实施例中对比学习训练策略的思想即，对齐相同分类标签的不同模态的特征空间，拉远不同分类标签的不同模态的特征之间的距离。基于此，将模型的训练目标设置为如下几个目标：

1）、以模型预测的训练对象的抑郁症参考数据趋近于所述训练对象的抑郁症参考数据分类标签为第一训练目标。

具体地，可以基于模型预测的情绪参考数据，以及训练对象的情绪参考数据分类标签，采用交叉熵损失或均方误差损失作为第一损失函数，以最小化第一损失函数作为第一训练目标。

2）以最大化相同分类标签的不同模态特征之间的相关度，最小化不同分类标签的不同模态特征之间的相关度为第二训练目标。

其中不同模态特征包括：音频全局特征、视频全局特征和文本特征三种模态特征。不同模态特征之间的相关度可以采用不同模态特征之间的相似度表示。

采用本实施例提供的对比学习训练策略，减轻了模型在训练数据量受限的情况下收敛到局部最优的风险，同时，提升了不同模态特征之间的相关性，当存在某一模态数据缺失时，可以通过同类别标签中其它模态特征来进行表征，可以有效弥补模态缺失时信息丢失的问题。

在本申请的一些实施例中，对上述以最大化相同分类标签的不同模态特征之间的相关度，最小化不同分类标签的不同模态特征之间的相关度为第二训练目标进行训练的过程进行介绍。

一种可选的实现方式可以包括如下步骤：

S1、生成第一模态特征和第二模态特征间的相关度矩阵，所述第一模态特征和第二模态特征为三种不同模态特征间的任意两种。

其中，三种不同模态特征如前介绍，分别是：文本特征、音频全局特征、视频全局特征。本步骤中，可以对于三种模态特征中两两模态特征，生成两两模态特征间的相关度矩阵。当然，若考虑到文本特征包含的信息足够丰富，可以以文本特征作为基本模态，分别计算音频全局特征和文本特征间的相关度矩阵，以及计算视频全局特征和文本特征间的相关度矩阵。

本步骤中生成的相关度矩阵为n×n维，n表示一个训练组batch内的训练样本的数量，相关度矩阵中第i行第j列对应的元素值为训练组内第i个训练样本的第一模态特征和第j个训练样本的第二模态特征间的相关度，所述相关度矩阵中第p行第q列的元素被掩码标记，其中，第p个训练样本和第q个训练样本所属分类标签相同。i和j分别遍历取值1-n，p和q∈(1,n)。

需要说明的是，在计算相关度之前，可以对不同模态特征进行变维和标准化normalization处理，以使得不同模态特征的维度相同。

如图3，其示例了一个训练组batch内包含5个训练样本的情况下，生成的第一模态特征和第二模态特征间的相关度矩阵掩码图。

5个训练样本依次表示为x₀-x₄，所属的分类标签分别为0、1、0、2、1。图3中灰色的矩阵元素表示被掩码标记，其余矩阵元素在计算过程不会对其进行操作，因此本实施例中暂不关注，该掩码标记的矩阵元素表示所属分类标签相同的第p个训练样本的第一模态特征，与第q个训练样本的第二模态特征间的相关度，通过掩码标记的矩阵元素，表示需要在后续进行相关度logit操作的对象。

相关度logit可以采用l表示， l(p,q)表示第p个训练样本的第一模态特征和第q个训练样本的第二模态特征间的相关度：

其中，

表示第p个训练样本的第一模态特征，/>

表示第q个训练样本的第二模态特征，dot()表示计算特征相关度。

S2、将所述相关度矩阵的每一行中被掩码标记的各元素的值均累加到相关度矩阵的对角线所在元素上，并将每一行中除对角线上的元素外其余被掩码标记的元素值减去设定极大值，得到横向处理后相关度矩阵，以及，将所述相关度矩阵的每一列中被掩码标记的各元素的值均累加到相关度矩阵的对角线所在元素上，并将每一列中除对角线上的元素外其余被掩码标记元素值减去设定极大值，得到纵向处理后相关度矩阵。

具体地，在沿相关度矩阵的不同方向计算损失之前，需要对相关度矩阵进行一些变换，沿每个模态方向（即横向和纵向），将一行或一列中各被掩码标记的元素值都累加到对角线所在元素上，其余各被掩码标记的元素值减去一个设定极大值，以使得后续在计算softmax时除对角线上的元素外其余被掩码标记的元素对梯度的贡献极小，可以忽略不计。

参照图4和图5，其中图4示例了沿横向对相关度矩阵进行变换后的结果，图5示例了沿纵向对相关度矩阵进行变换后的结果。

图4和图5中，沿每个模态方向（即横向和纵向），将一行或一列中各被掩码标记的元素值都累加到对角线所在元素上，其余各被掩码标记的元素值减去一个设定极大值，该极大值取值为100。

S3、对于所述横向处理后相关度矩阵，在横向上（用axis=0表示）对被掩码标记的元素计算交叉熵损失函数Loss_0，以及，对于所述纵向处理后相关度矩阵，在纵向上（用axis=1表示）对被掩码标记的元素计算交叉熵损失函数Loss_1。

S4、基于Loss_0和Loss_1确定第二训练损失函数，并以最小化第二训练损失函数为第二训练目标。

具体地，可以计算交叉熵损失函数Loss_0和交叉熵损失函数Loss_1的平均损失：Loss=( Loss_0+ Loss_1)/2，进而以该平均损失作为第二训练损失函数，以最小化第二训练损失函数作为第二训练目标。

通过采用上述方法所得到的第二训练目标，能够实现最大化相同分类标签的不同模态特征之间的相关度，最小化不同分类标签的不同模态特征之间的相关度。

进一步需要说明的是，前述生成的相关度矩阵为第一模态特征和第二模态特征间的相关度矩阵，而第一模态特征和第二模态特征的组合可以有多种，如文本特征和音频全局特征，文本特征和视频全局特征，音频全局特征和视频全局特征。因此可以针对不同的组合得到多个相关度矩阵，进而按照上述步骤可以得到与每一相关度矩阵对应的第二训练目标，因此，本实施例中的第二训练目标可以是一个或多个，最多有3个。

采用本实施例提供的基于掩码的对比学习策略，可以增强多模态特征之间的交互融合，促进模型整体的学习性能，提升模型的联合建模能力。

下面对本申请实施例提供的基于多模态特征的情绪定量装置进行描述，下文描述的基于多模态特征的情绪定量装置与上文描述的基于多模态特征的情绪定量方法可相互对应参照。

参见图6，图6为本申请实施例公开的一种基于多模态特征的情绪定量装置结构示意图。

如图6所示，该装置可以包括：

多模态数据获取模块11，用于获取对待测对象采集的音频、视频数据，及所述音频数据对应的识别文本，其中，所述音频、视频数据为对所述待测对象在设定谈话场景下所采集的数据；

文本特征提取模块12，用于提取所述识别文本的文本特征；

局部特征提取模块13，用于提取所述音频数据的音频局部特征，以及提取所述视频数据的视频局部特征；

聚类模块14，用于分别对所述音频局部特征和所述视频局部特征进行维度压缩和聚类，得到聚类后的高维的音频全局特征和视频全局特征；

特征融合模块15，用于将所述文本特征、所述音频全局特征和所述视频全局特征进行融合；

结果预测模块16，用于基于融合特征确定所述待测对象的情绪参考数据。

可选的，上述文本特征提取模块提取所述识别文本的文本特征的过程，可以采用预训练语言模型提取所述识别文本的文本特征。

可选的，上述聚类模块可以采用NetVLAD网络结构。

可选的，上述文本处理装置所包含的各个模块，可以是预训练的多模态数据处理模型的内部各个网络模块，所述模型以标注有情绪参考数据标签的训练样本作为训练数据训练得到，其中，所述训练样本包括对训练对象所采集的训练音频、训练视频及训练音频对应的识别文本。

可选的，上述模型训练时的训练目标，可以包括：

以模型预测的训练对象的抑郁症参考数据趋近于所述训练对象的情绪参考数据分类标签为第一训练目标；

以最大化相同分类标签的不同模态特征之间的相关度，最小化不同分类标签的不同模态特征之间的相关度为第二训练目标，其中不同模态特征包括：音频全局特征、视频全局特征和文本特征三种模态特征。

可选的，上述模型以最大化相同分类标签的不同模态特征之间的相关度，最小化不同分类标签的不同模态特征之间的相关度为第二训练目标的过程，可以包括：

生成第一模态特征和第二模态特征间的相关度矩阵，所述第一模态特征和第二模态特征为三种不同模态特征间的任意两种；

所述相关度矩阵为n×n维，n表示一个训练组batch内的训练样本的数量，其中，第i行第j列对应的元素值为训练组内第i个训练样本的第一模态特征和第j个训练样本的第二模态特征间的相关度，所述相关度矩阵中第p行第q列的元素被掩码标记，其中，第p个训练样本和第q个训练样本所属分类标签相同；

将所述相关度矩阵的每一行中被掩码标记的各元素的值均累加到相关度矩阵的对角线所在元素上，并将每一行中除对角线上的元素外其余被掩码标记的元素值减去设定极大值，得到横向处理后相关度矩阵，以及，将所述相关度矩阵的每一列中被掩码标记的各元素的值均累加到相关度矩阵的对角线所在元素上，并将每一列中除对角线上的元素外其余被掩码标记的元素值减去设定极大值，得到纵向处理后相关度矩阵；

对于所述横向处理后相关度矩阵，在横向上对被掩码标记的元素计算交叉熵损失函数Loss_0，以及，对于所述纵向处理后相关度矩阵，在纵向上对被掩码标记的元素计算交叉熵损失函数Loss_1；

基于Loss_0和Loss_1确定第二训练损失函数，并以最小化第二训练损失函数为第二训练目标。

本申请实施例提供的基于多模态特征的情绪定量装置可应用于基于多模态特征的情绪定量设备，如终端：手机、电脑等。可选的，图7示出了基于多模态特征的情绪定量设备的硬件结构框图，参照图7，设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：实现上述基于多模态特征的情绪定量方法的各个步骤。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：实现上述基于多模态特征的情绪定量方法的各个步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多模态特征的情绪定量方法，其特征在于，包括：

获取对待测对象采集的音频、视频数据，及音频数据对应的识别文本，其中，所述音频、视频数据为对所述待测对象在设定谈话场景下所采集的数据；

2.根据权利要求1所述的方法，其特征在于，所述情绪参考数据包括：是否存在指定类型情绪问题，和/或，所存在的指定类型情绪问题的严重程度。

3.根据权利要求1所述的方法，其特征在于，提取所述识别文本的文本特征的过程，包括：

采用预训练语言模型提取所述识别文本的文本特征。

4.根据权利要求1所述的方法，其特征在于，所述可学习的聚类模块采用NetVLAD网络结构。

5.根据权利要求1所述的方法，其特征在于，所述情绪定量方法通过预训练的多模态数据处理模型实现，所述模型以标注有情绪参考数据标签的训练样本作为训练数据训练得到，其中，所述训练样本包括对训练对象所采集的训练音频、训练视频及训练音频对应的识别文本。

6.根据权利要求5所述的方法，其特征在于，所述多模态数据处理模型包括：

多模态数据获取模块，用于分别输入对待测对象采集的音频、视频数据及所述识别文本；

文本特征提取模块，用于提取所述识别文本的文本特征；

局部特征提取模块，用于分别提取所述音频数据的音频局部特征，以及提取所述视频数据的视频局部特征；

聚类模块，用于分别对所述音频局部特征和所述视频局部特征进行维度压缩和聚类，得到聚类后的高维的音频全局特征和视频全局特征；

特征融合模块，用于将所述文本特征、所述音频全局特征和所述视频全局特征进行融合，得到融合特征；

结果预测模块，用于基于所述融合特征预测所述待测对象的情绪参考数据。

7.根据权利要求5所述的方法，其特征在于，所述模型训练时的训练目标，包括：

以模型预测的训练对象的情绪参考数据趋近于所述训练对象的情绪参考数据分类标签为第一训练目标；

8.根据权利要求7所述的方法，其特征在于，所述以最大化相同分类标签的不同模态特征之间的相关度，最小化不同分类标签的不同模态特征之间的相关度为第二训练目标，包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，若获取的所述音频数据、所述视频数据、所述识别文本中存在任一模态数据为空值时，则在提取对应模态数据的特征时，利用全0矩阵作为对应模态数据的特征。

10.一种基于多模态特征的情绪定量装置，其特征在于，包括：

多模态数据获取模块，用于获取对待测对象采集的音频、视频数据，及音频数据对应的识别文本，其中，所述音频、视频数据为对所述待测对象在设定谈话场景下所采集的数据；

文本特征提取模块，用于提取所述识别文本的文本特征；

11.一种基于多模态特征的情绪定量设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1~9中任一项所述的基于多模态特征的情绪定量方法的各个步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~9中任一项所述的基于多模态特征的情绪定量方法的各个步骤。