CN117933269A

CN117933269A - 一种基于情感分布的多模态深度模型构建方法及系统

Info

Publication number: CN117933269A
Application number: CN202410331477.1A
Authority: CN
Inventors: 郭艳蓉; 周致远; 郝世杰; 洪日昌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-04-26
Anticipated expiration: 2044-03-22
Also published as: CN117933269B

Abstract

本发明公开了一种基于情感分布的多模态深度模型构建方法及系统，涉及计算机技术领域，具体步骤为：对采访数据按照情感效价属性进行重组，获得重组文本序列和重组语音序列；利用预训练模型从重组文本序列和重组语音序列提取文本初始语义特征和语音初始语义特征；利用元素感知的注意力机制对级联特征向量中不同的重要性进行学习，获得融合特征向量；利用情感编码将重组文本序列的情感分布信息投射成情感代码，获得情感分布的特征向量；基于融合特征向量和情感分布的特征向量构建多模态深度模型。本发明利用大规模预训练语言模型为句子生成情感标签，并基于不同模态的预训练模型构建多模态融合模型，减少在有限数据样本下出现的过拟合现象。

Description

一种基于情感分布的多模态深度模型构建方法及系统

技术领域

本发明涉及计算机技术领域，更具体的说是涉及一种基于情感分布的多模态深度模型构建方法及系统。

背景技术

近年来，抑郁症已经成为一种常见的精神障碍疾病，该疾病在国内外患病率呈逐年上升趋势，对个人身心健康和社会造成了严重的负担，已经成为一项值得关注的社会问题。然而目前临床医疗对于抑郁症的检测还主要依靠问卷调查以及医生的主观诊断，时常会出现误诊的情况，再加上现在抑郁症检测手段的局限性，许多抑郁症患者不能及时得到准确的检测，从而延误了后续治疗。

随着人工智能技术和大数据技术的蓬勃发展，相关研究发现在有比较充足的注释数据下结合深度神经网络，在有监督学习的模式下可以在不同任务中取得不错的效果。然而在抑郁症诊断的场景下，往往存在着数据量稀少的情况，因此遵循上述有监督学习的模式对任务进行建模往往会出现过拟合或欠拟合的问题，模型也难以具有良好的泛化性。现有研究也开始尝试利用多模态数据的互补性和冗余性来联合学习多模态特征表示，弥补单模态信息的局限性。然而一方面如何对多模态数据进行有效建模，从而挖掘不同模态之间的互补性信息，提升多模态深度模型的性能是一个尚待解决的问题。另一方面情感作为一种重要的生理心理的反应，与抑郁症本身有着密切的联系，如何利用情感，提升多模态深度模型在应用中的性能也是重要的目标，因此，如何克服上述缺陷是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于情感分布的多模态深度模型构建方法及系统，克服了上述缺陷。

为了实现上述目的，本发明提供如下技术方案：

一种基于情感分布的多模态深度模型构建方法，具体步骤为：

数据重组：对采访数据按照情感效价属性分别进行文本重组和语音重组，获得重组文本序列和重组语音序列；

语义特征提取：分别利用预训练模型对重组文本序列和重组语音序列进行初始语义特征提取，获得文本初始语义特征和语音初始语义特征；

重要性学习：利用元素感知的注意力机制对文本初始语义特征和语音初始语义特征的级联特征向量中不同的重要性进行学习，获得融合特征向量；

情感分布提取：利用情感编码将重组文本序列的情感分布信息投射成情感代码，获得情感分布的特征向量；

模型构建：基于融合特征向量和情感分布的特征向量构建多模态深度模型。

可选的，数据重组的具体步骤为：

对采访数据中的任一语句利用大规模预训练语言模型进行问答，获得任一语句的情感标签；

基于任一语句和其对应的情感标签构建数据序列；

按照情感标签对数据序列中的语句按照预设规则进行顺序排列，获得重组序列。

可选的，初始语义特征提取的具体步骤为：

利用RoBERTa模型对重组文本序列提取文本初始语义特征；

利用wav2vec2对重组语音序列提取语音初始语义特征。

其优点在于，预训练模型从一开始提取数据的一般语义特征，通过微调预训练模型可以快速拟合下游任务数据，减少了从头开始训练数据时，尤其是在数据量不充足的情况下容易出现的模型过拟合现象。

可选的，重要性学习的获取步骤为：

利用两层全连接层、ReLU激活函数以及Sigmoid激活函数获取级联特征向量的元素学习注意力权值；

基于元素学习注意力权值与级联特征向量获得融合特征向量。

可选的，重要性学习的表达式为：

式中，为级联特征向量；/>为元素学习注意力权值。

可选的，情感分布获取的具体步骤为：

将重组文本序列根据情感映射规则转换为数值序列；

根据数值序列计算各个情感标签的出现比例；

基于数值序列和各个情感标签的出现比例获得情感代码。

可选的，情感代码的表达式为：

式中，为各个情感标签的设置值；/>为各个标签的可用数量。

一种基于情感分布的多模态深度模型构建系统，包括：

数据重组模块：用于对采访数据按照情感效价属性分别进行文本重组和语音重组，获得重组文本序列和重组语音序列；

语义特征提取模块：用于分别利用预训练模型对重组文本序列和重组语音序列进行初始语义特征提取，获得文本初始语义特征和语音初始语义特征；

重要性学习模块：用于利用元素感知的注意力机制对文本初始语义特征和语音初始语义特征的级联特征向量中不同的重要性进行学习，获得融合特征向量；

情感分布提取模块：用于利用情感编码将重组文本序列的情感分布信息投射成情感代码，获得情感分布的特征向量；

模型构建模块：用于基于融合特征向量和情感分布的特征向量构建多模态深度模型。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种基于情感分布的多模态深度模型构建方法及系统，利用不同模态的预训练模型分别挖掘不同模态的特征，然后基于注意力机制细粒度挖掘不同模态特征元素间的重要性，从而实现深度融合，同时利用大规模预训练语言模型提取原始数据中的情感分布信息，设计了情感引导的数据重组以及情感编码，从而分别在模型输入层和决策层融合情感分布信息，提升样本数据的可判别性。且本发明根据情感标签的效价属性重新组织回答内容，将情感分布引入原始数据，其中利用大规模预训练语言模型为句子生成情感标签，避免了人工标注的问题，基于不同模态的预训练模型构建多模态融合模型可以对数据提取一般语义特征，减少在有限数据样本下出现的过拟合现象，同时根据患者访谈中情感类别的比例设计了情感编码，从而为决策层提供了额外的情感分布信息，进一步提升了模型的检测能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明方法流程示意图；

图2为本发明中数据重组的方法流程示意图；

图3为本发明的重要性学习方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例公开了一种基于情感分布的多模态深度模型构建方法，具体如图1所示，步骤为：

步骤1、对采访数据按照情感效价属性分别进行文本重组和语音重组，获得重组文本序列和重组语音序列，具体如图2所示，为：

基于任一语句和其对应的情感标签构建数据序列；

进一步的，将任意一个受访者的采访内容，记录的数据表达为，其中文本和语音模态包含了一系列样本回答的句子，分别表示为/>和，i和N分别表示样本的索引和回答语句的数量。在进行情感引导的回答重组时，假定样本回答的语句之间语义内容是相互独立的，在样本中的语句顺序不会影响模型对于数据语音内容的提取。此外，由于观察到原始抑郁症访谈数据中，语句的情感分布是混乱的，因此模型难以从中学习到情感分布的不同。因此，对语句进行重组从而使数据按情感类别在效价尺度上有序后，可以引入情感分布信息帮助模型更好地从原始数据中学习不同样本的情感差异。

情感引导的回答重组旨在对文本和语音/>重排序从而使其按照负性到正性情感类别顺序有序。根据情感效价属性，可以实现对情感类别进行负性到正性的排序。具体来说，对/>中的每个语句/>利用大规模预训练语言模型Chatgpt进行问答，并设计了一个固定提示语句/>(给定句子：“/>”，请判断这个句子的情感类别属于厌恶、害怕、伤心、愤怒、开心、惊喜中的哪一个类别)，从而为每个语句/>生成情感标签/>。其中，情感标签/>的取值范围是七种情感类别（厌恶、害怕、伤心、愤怒、自然、高兴、惊喜）。每个语句和它们被生成的情感标签共同表示为序列，具体为：

（1）；

然后，将具有同样情感标签的语句在局部上放置一起，然后对整个序列根据效价的负性情感到正性情感顺序（厌恶、害怕、伤心、愤怒、自然、高兴、惊喜）排序，从而使整个序列全局上有序，文本序列/>因此被引入情感分布信息，表示为/>：

（2）；

同样，对语音序列进行上述操作，/>被重组之后表示为：

（3）；

步骤2、分别利用预训练模型对重组文本序列和重组语音序列进行初始语义特征提取，获得文本初始语义特征和语音初始语义特征，具体为：

对于给定的重组文本和语音序列和/>，利用一个文本预训练模型/>和一个语音预训练模型/>分别提取它们的初始一般语义特征，其分别表示/>（其中/>表示的维度）和/>（其中/>表示/>的维度）。其中/>和/>分别为RoBERTa和wav2vec2预训练模型。文本转录原始数据/>会先由RoBERTa源自GPT-2的分词器，使用进行字节级字节对编码进行分词，原始语音波形数据/>先被wav2vec2离散化；再使用RoBERTa和wav2vec2输出的CLS标记作为/>和/>的特征表示/>和/>。

步骤3、利用元素感知的注意力机制对文本初始语义特征和语音初始语义特征的级联特征向量中不同的重要性进行学习，获得融合特征向量，具体为：

将和/>进行级联得到/>，对/>使用元素感知的注意力机制（EWA）学习/>中不同的重要性。其中，元素感知的注意力机制旨在进一步对文本和语音的特征表示进行深度融合。如图3所示，本实施例中利用注意力机制对特征向量/>的元素学习不同重要性并重新分配权值。具体来说，利用了两层全连接层和ReLU激活函数以及Sigmoid激活函数对特征向量/>的元素学习注意力权值：

（4）；

其中，表示权值，/>和/>分别为可学习的参数。

在得到学习的参数后，通过与特征向量/>点乘进行加权：

（5）；

其中表示融合特征向量。

步骤4、利用情感编码将重组文本序列的情感分布信息投射成情感代码，获得情感分布的特征向量，具体为：

本实施例中设计了情感编码（EE）将中的情感分布状态投射情感代码（其中/>表示/>的维度），表达式为：

（6）；

其中，情感编码为决策层提供额外的情感分布信息。具体来说，本发明对上述七种情感标签分别设置了不同的值，如表1所示。每个情感标签根据表1中对应的值映射，因此文本序列/>被转换为一系列数值序列/>：

（7）；

本实施例分别计算了具有同样映射值的/>的数量，然后计算每种情感标签出现的比例/>：

（8）；

表1情感映射

随后，本实施例将文本序列映射为一个情感代码/>，/>中的元素按照数值从小到大的顺序排列，对应于情感效价属性由负性情感到正性情感的顺序。在/>中被使用的数量通过以下公式计算：

（9）；

其中，代表向下取整操作。在有了映射值/>以及可用数量后，可以直接得到/>维度的情感代码/>：

（10）；

其中，维度的设置与融合的多模态特征表示/>的维度应该在相同的数量级上，/>可以被看作是情感分布的特征向量，与/>级联共同提供给决策层预测结果。

步骤5、基于融合特征向量和情感分布的特征向量构建多模态深度模型。

通过对和/>进行级联得到特征向量/>。

本申请还公开了一种基于情感分布的多模态深度模型构建系统，包括：

实施例2

相关心理学研究已经表明抑郁症是一种情感障碍，其主要特征是持续存在消极情绪以及难以体验积极的情绪，因此抑郁症患者在访谈中的情感分布与正常人可能有所不同。此外，情感作为一种重要的生理心理的反应，也会表现于抑郁症患者日常生活中，比如持续性心情低落、存在心境一致性认知偏向、情绪性信息错误记忆等。因此，情感可作为与抑郁症相关的一种重要特征引入到抑郁障碍辅助诊断技术中。因此，应用实施例1的方法构建了一种基于情感分布引导的多模态抑郁辅助模型。

在获得对和/>进行级联得到特征向量/>后，通过由两层全连接层组成的分类器或者是回归器预测结果：

（11）；

其中，表示被预测的精神状态，/>和/>均为可学习的参数。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于情感分布的多模态深度模型构建方法，其特征在于，具体步骤为：

2.根据权利要求1所述的一种基于情感分布的多模态深度模型构建方法，其特征在于，数据重组的具体步骤为：

基于任一语句和其对应的情感标签构建数据序列；

3.根据权利要求1所述的一种基于情感分布的多模态深度模型构建方法，其特征在于，初始语义特征提取的具体步骤为：

利用RoBERTa模型对重组文本序列提取文本初始语义特征；

利用wav2vec2对重组语音序列提取语音初始语义特征。

4.根据权利要求1所述的一种基于情感分布的多模态深度模型构建方法，其特征在于，重要性学习的获取步骤为：

5.根据权利要求4所述的一种基于情感分布的多模态深度模型构建方法，其特征在于，重要性学习的表达式为：

；

式中，为级联特征向量；/>为元素学习注意力权值。

6.根据权利要求1所述的一种基于情感分布的多模态深度模型构建方法，其特征在于，情感分布获取的具体步骤为：

将重组文本序列根据情感映射规则转换为数值序列；

根据数值序列计算各个情感标签的出现比例；

基于数值序列和各个情感标签的出现比例获得情感代码。

7.根据权利要求6所述的一种基于情感分布的多模态深度模型构建方法，其特征在于，情感代码的表达式为：

；

8.一种基于情感分布的多模态深度模型构建系统，其特征在于，包括：