CN115414042B

CN115414042B - 基于情感信息辅助的多模态焦虑检测方法及装置

Info

Publication number: CN115414042B
Application number: CN202211096131.5A
Authority: CN
Inventors: 李雅; 李启飞; 王栋; 高迎明; 刘勇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-03-17
Anticipated expiration: 2042-09-08
Also published as: CN115414042A

Abstract

本发明提供一种基于情感信息辅助的多模态焦虑检测方法及装置，该方法包括：获取文本数据集和语音信号集；将各文本数据分别输入至文本情感数据清洗模型，得到各情感类别，并清洗掉情感类别与第一情感不一致的文本数据，得到第二文本数据集；将各语音信号分别输入至语音情感数据清洗模型，得到各语音信号对应的情感类别，清洗掉情感类别与第一情感不一致的语音信号，得到第二语音信号集；将第二文本数据集输入至文本焦虑检测模型，得到文本模态特征，将第二语音信号集输入至语音焦虑检测模型，得到语音模态特征，将文本模态特征和语音模态特征进行特征融合，并基于融合后的特征得到被测者的焦虑分类结果。该方法可准确的检测被测者的焦虑状态。

Description

基于情感信息辅助的多模态焦虑检测方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于情感信息辅助的多模态焦虑检测方法及装置。

背景技术

焦虑是精神表现的一种形式，其主要表现为强烈、过度和持续的担忧、恐惧、紧张不安、心律加快、睡眠困难等，持续的焦虑现象会严重影响工作和生活。目前焦虑状态的检测方法一般是多以量表为主，首先被测者填写量表，进一步基于量表得分结果得出被测者的焦虑状态；该检测方法费时费力，并且受主观的影响较大。

为了解决上述问题，目前也有的采用多模态技术方案完成焦虑状态的检测，该多模态技术方案基本上是基于音频和视频两个模态，首先提取被测者在焦虑检测对话时的录音中的语音特征，例如基频（pitch）、能量（energy）、共振峰（format）、梅尔倒谱系数（MFCC）等，将上述的音频特征和量表得分作为第一训练集，训练一个音频模态的焦虑分类器；其次提取被测者在对话中的面部特征，例如人脸关键点、眼睛注视角等，将上述的视频特征和量表得分作为第二训练集，训练一个视频模态的焦虑分类器。最后将两个分类器的特征或者预测类别进行融合得到最终的焦虑状态预测结果。现有的该多模态技术方案存在着检测性能低以及检测结果准确度不高的问题。因此，如何提供一种焦虑检测方法以准确的检测被测者的焦虑状态是亟待解决的技术问题。

发明内容

有鉴于此，本发明提供了一种基于情感信息辅助的多模态焦虑检测方法及装置，以解决现有技术中存在的一个或多个问题。

根据本发明的一个方面，本发明公开了一种基于情感信息辅助的多模态焦虑检测方法,所述方法包括：

获取被测者在焦虑检测对话中的第一文本数据集和第一语音信号集；

将所述第一文本数据集中的各文本数据分别输入至训练好的文本情感数据清洗模型，得到各所述文本数据对应的情感类别，并从所述第一文本数据集中清洗掉情感类别与第一情感不一致的文本数据，得到第二文本数据集；

将所述第一语音信号集中的各语音信号分别输入至训练好的语音情感数据清洗模型，得到各所述语音信号对应的情感类别，并从所述第一语音信号集中清洗掉情感类别与第一情感不一致的语音信号，得到第二语音信号集；

将所述第二文本数据集输入至训练好的文本焦虑检测模型，得到文本模态特征，将所述第二语音信号集输入至训练好的语音焦虑检测模型，得到语音模态特征，将所述文本模态特征和语音模态特征进行特征融合，并基于融合后的多模态特征进行焦虑类别分类，得到所述被测者的焦虑状态分类结果。

在本发明的一些实施例中，获取被测者在焦虑检测对话中的第一文本数据集和第一语音信号集，包括：

获取被测者在焦虑检测对话中的语音数据；

计算所述语音数据的短时能量和短时过零率；

根据所述短时能量和短时过零率确定门限值，基于所述门限值确定所述语音数据中有声段的起点和终点，基于所述语音数据中的有声段语音生成第一语音信号集。

在本发明的一些实施例中，所述文本情感数据清洗模型包括BERT网络模型、全连接层以及第一softmax层；

所述语音情感数据清洗模型包括HuBERT网络模型、全连接层以及第一softmax层。

在本发明的一些实施例中，所述方法还包括：对初始的文本情感数据清洗模型和初始的语音情感数据清洗模型进行预训练；

对所述初始的文本情感数据清洗模型进行预训练包括：

获取第一训练样本集，所述第一训练样本集中的第一样本数据包括情感文本样本数据以及所述情感文本样本数据对应的情感标签；

构建第一交叉熵损失函数；

基于所述第一训练样本集及所述第一交叉熵损失函数对所述初始的文本情感数据清洗模型进行预训练得到所述训练好的文本情感数据清洗模型；

对所述初始的语音情感数据清洗模型进行预训练包括：

获取第二训练样本集，所述第二训练样本集中的第二样本数据包括情感语音样本数据以及所述情感语音样本数据对应的情感标签；

构建第二交叉熵损失函数；

基于所述第二训练样本集及所述第二交叉熵损失函数对所述初始的语音情感数据清洗模型进行预训练得到所述训练好的语音情感数据清洗模型。

在本发明的一些实施例中，所述文本焦虑检测模型包括BERT网络模型、全连接层以及第二softmax层；

所述语音焦虑检测模型包括HuBERT网络模型、全连接层以及第二softmax层。

在本发明的一些实施例中，所述方法还包括：对初始的文本焦虑检测模型和初始的语音焦虑检测模型进行预训练；

对所述初始的文本焦虑检测模型进行预训练包括：

获取第三训练样本集，所述第三训练样本集中的第三样本数据包括焦虑文本样本数据以及所述焦虑文本样本数据对应的焦虑标签；

构建第三交叉熵损失函数；

基于所述第三训练样本集及所述第三交叉熵损失函数对所述初始的文本焦虑检测模型进行预训练得到训练好的文本焦虑检测模型；

对所述初始的语音焦虑检测模型进行预训练包括：

获取第四训练样本集，所述第四训练样本集中的第四样本数据包括焦虑语音样本数据以及所述焦虑语音样本数据对应的焦虑标签；

构建第四交叉熵损失函数；

基于所述第四训练样本集及所述第四交叉熵损失函数对所述初始的语音焦虑检测模型进行预训练得到训练好的语音焦虑检测模型。

在本发明的一些实施例中，将所述文本模态特征和语音模态特征进行特征融合，包括：

将所述文本模态特征和所述语音模态特征进行拼接得到拼接特征；

基于注意力机制确定所述拼接特征的注意力权重；

基于所述拼接特征及所述注意力权重得到特征融合后的多模态特征。

在本发明的一些实施例中，所述情感类别分类结果为积极情感、消极情感或中性，所述第一情感为积极情感或消极情感；

所述焦虑类别分类结果为无焦虑、可能焦虑、肯定焦虑、明显焦虑或严重焦虑。

根据本发明的另一方面，还公开了一种基于情感信息辅助的焦虑检测系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

根据本发明的再一方面，还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本发明实施例所公开的基于情感信息辅助的多模态焦虑检测方法及装置，从文本数据集中清洗掉情感类别与第一情感不一致的文本数据，从语音信号集中清洗掉情感类别与第一情感不一致的语音信号，该方法去掉文本数据集和语音信号集中的脏数据，从而提高了焦虑检测方法及系统的检测性能。并且该检测方法的第二文本数据集及第二语音信号集是基于训练好的情感清洗模型清洗后的数据，该检测方法在检测被测者的焦虑状态时，以情感信息为辅助，使得焦虑检测模型具备情感感知功能，提升了焦虑状态检测的正确率。除上述之外，本发明的焦虑检测方法及系统还基于注意力机制进行模态特征融合，从而在检测过程中自动注意何种模态、特征对焦虑检测型性能更有益，进而也提升了该焦虑检测方法的性能。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。附图中的部件不是成比例绘制的，而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分，附图中对应部分可能被放大，即，相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本发明一实施例的基于情感信息辅助的多模态焦虑检测方法的流程示意图。

图2为本发明另一实施例的基于情感信息辅助的多模态焦虑检测方法的流程示意图。

图3为本发明一实施例的通过文本情感数据清洗模型识别文本数据的情感类别时的流程示意图。

图4为本发明一实施例的通过语音情感数据清洗模型识别语音信号的情感类别时的流程示意图。

图5为本发明一实施例的文本焦虑检测模型的架构示意图。

图6为本发明一实施例的语音焦虑检测模型的架构示意图。

图7为本发明再一实施例的基于情感信息辅助的多模态焦虑检测方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

现有的多模态焦虑检测方法存在着检测性能低下、检测结果不准确的缺陷。例如，现有的多模态焦虑检测方法首先对数据清洗不干净，因为在被测者的焦虑检测对话中，并不是被测者的每一句话的语义都包含焦虑信息，每一句语音都包含焦虑的声学特征；而不干净的语音、语义对应着错误的标签，会对模型带来干扰。再者，现有的多模态焦虑检测方法的文本模态未考虑语义信息，通过统计词性频率的方式，不能够区分语义，从而也会给模型带来干扰；如焦虑检测者会说：“我焦虑”，而非焦虑检测者会说：“我没有/不焦虑”，而现有的多模态焦虑检测方法在统计时，只会统计“焦虑”是否出现，忽略了修饰词“没有”，该不考虑修饰词的统计方法不仅会影响焦虑识别结果的正确率，还会影响模型的性能；另外，现有的多模态焦虑检测方法是基于语音或视频的多模态焦虑检测方法，其基本是采用有限的焦虑数据集训练得到的，无法确保焦虑检测结果的正确率。并且本申请的发明人发现现有的多模态焦虑检测方法缺乏情感信息的辅助，焦虑被测者在发言中语义消极偏多、中性其次，极少出现积极的发言，而不焦虑的被测者在发言时语义正好与之相反；所以这种消极、积极、中性的情感信息对焦虑症检测也有很大帮助。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

图1为本发明一实施例的基于情感信息辅助的多模态焦虑检测方法的流程示意图，如图1所示，该焦虑检测方法至少包括步骤S10至S40。

步骤S10：获取被测者在焦虑检测对话中的第一文本数据集和第一语音信号集。

在该步骤中，第一文本数据集和第一语音信号集是指还未对其数据进行清洗的数据集。第一文本数据集中的文本数据代表被测者在对话过程中所说的文本内容，而第一语音信号集中的语音信号代表被测者在对话过程中的语音。其中，第一文本数据集中保存的可为被测者在第一时间段内的文本数据，而相应的，第一语音信号集中保存的可为被测者在第一时间段内的语音信号。其中，被测者代表要检测其焦虑状态的人员。

具体的，在获取到被测者的对话语音之后，可首先对对话语音进行预处理，进而基于预处理后的对话语音生成第一语音信号集；对对话语音进行预处理至少包括去除对话语音中的静音片段。示例性的，获取被测者在焦虑检测对话中的第一文本数据集和第一语音信号集，包括：获取被测者在焦虑检测对话中的语音数据；计算所述语音数据的短时能量和短时过零率；根据所述短时能量和短时过零率确定门限值，基于所述门限值确定所述语音数据中有声段的起点和终点，基于所述语音数据中的有声段语音生成第一语音信号集。其中，计算所述语音数据的短时能量和短时过零率为计算每一帧语音信号的短时能量与短时过零率；而基于所述语音数据中的有声段语音生成第一语音信号集是取出语音有声段并保存以形成第一语音信号集。

步骤S20：将所述第一文本数据集中的各文本数据分别输入至训练好的文本情感数据清洗模型，得到各所述文本数据对应的情感类别，并从所述第一文本数据集中清洗掉情感类别与第一情感不一致的文本数据，得到第二文本数据集。

该步骤是基于在步骤S10中获取到的第一文本数据集通过文本情感数据清洗模型清洗掉第一文本数据集中文本模态的脏样本。首先，文本情感数据清洗模型将第一文本数据集中的各文本数据进行情感分类，并将分类结果与预设的第一情感不一致的文本数据从第一文本数据集中清洗掉，则第一文本数据集中的情感分类结果与第一情感不一致的文本数据被认为成脏样本。示例性的，情感类别具有多类，如积极情感、消极情感、中性（无情感）等；在一实施例中，第一情感为积极情感，则第二文本数据集中保留的文本数据均为情感类别分类结果属于积极情感的文本数据。

在该步骤中，是基于训练好的文本情感数据清洗模型对被测者的第一文本数据集进行数据清洗，因而此时第一情感为多个情感类别中的积极情感。应当理解的是，在其他实施例中，若需要对初始的文本情感数据清洗模型进行预训练，则首先应获取多个训练人员的文本数据集，训练人员包括焦虑人员和非焦虑人员；对于焦虑人员，其文本数据集中的焦虑数据作为样本数据，则此时其样本数据为清洗掉其文本数据集中与积极情感不一致的文本数据；对于非焦虑人员，其文本数据集中的非焦虑数据作为样本数据，则此时其样本数据为清洗掉其文本数据集中与消极情感不一致的文本数据。由此可知，在基于训练好的文本情感数据清洗模型进行数据清洗时，第一情感为积极情感；而对初始的文本情感数据清洗模型进行预训练时，则第一情感除了为积极情感之外，也可为消极情感。

在一实施例中，文本情感数据清洗模型包括BERT网络模型、全连接层以及第一softmax层。进一步的，该焦虑检测方法还包括对初始的文本情感数据清洗模型进行预训练。具体的，对初始的文本情感数据清洗模型进行预训练时首先获取第一训练样本集，第一训练样本集中的第一样本数据包括情感文本样本数据以及所述情感文本样本数据对应的情感标签；构建第一交叉熵损失函数；最终基于所述第一训练样本集及所述第一交叉熵损失函数对所述初始的文本情感数据清洗模型进行预训练得到训练好的文本情感数据清洗模型。其中，当情感类别包括积极情感、消极情感、中性（无情感）时，第一样本训练集中的第一样本数据所对应的情感标签为积极情感、消极情感和中性（无情感）中的其中一个。应当理解的是，此处限定的情感类别的类别数量仅是一种示例，在其他实施例中，也可以为除上述三种情感类别之外的其他情感；而BERT网络模型也可以采用用GPT-1，GPT-2，GPT-3，BigBird等文本预训练模型代替；另外，全连接层可以通过循环神经网络、双向循环神经网络、长短时记忆网络、或门控循环单元等代替。

图3为本发明一实施例的通过文本情感数据清洗模型识别文本数据的情感类别时的流程示意图，如图3所示，该可语义理解的文本情感数据清洗模型由预训练的BERT模型、全连接层和位于最后一层的softmax层组成。其具体的利用已有的情感文本样本数据集（第一训练样本集），使用自监督训练方法训练BERT模型的参数，然后采用迁移学习，在情感文本语料上进行下游任务自适应训练，其中损失函数为交叉熵损失函数，进而预测得到三个情感类别。三个情感类别示例性的为积极情感、消极情感、中性（无情感）。最终将采集到的被测者在焦虑检测对话中的第一文本数据集中的文本数据送入预训练好的上述模型中进行预测，去掉第一文本数据集中模型预测结果与第一情感不一致的文本数据。

步骤S30：将所述第一语音信号集中的各语音信号分别输入至训练好的语音情感数据清洗模型，得到各所述语音信号对应的情感类别，并从所述第一语音信号集中清洗掉情感类别与第一情感不一致的语音信号，得到第二语音信号集。

与步骤S20类似的，该步骤是基于在步骤S10中获取到的第一语音信号集通过训练好语音情感数据清洗模型清洗掉第一语音信号集中语音模态的脏样本。首先，语音情感数据清洗模型将第一语音信号集中的各语音信号进行情感分类，并将分类结果与预设的第一情感不一致的语音信号从第一语音信号集中清洗掉，则第一语音信号集中的情感分类结果与第一情感不一致的语音信号被认为成脏样本。示例性的，情感类别具有多类，如积极情感、消极情感、中性（无情感）等；在一实施例中，第一情感为积极情感，则第二语音信号集中保留的语音信号均为情感类别分类结果属于积极情感的语音信号。

并且，若需要对初始的语音情感数据清洗模型进行预训练，则首先应获取多个训练人员的语音信号集，训练人员包括焦虑人员和非焦虑人员；对于焦虑人员，其语音信号集中的焦虑数据作为样本数据，则此时其样本数据为清洗掉其语音信号集中与积极情感不一致的语音信号；对于非焦虑人员，其语音信号集中的非焦虑数据作为样本数据，则此时其样本数据为清洗掉其语音信号集中与消极情感不一致的语音信号。由此可知，在基于训练好的语音情感数据清洗模型进行数据清洗时，第一情感为积极情感；而对初始的语音情感数据清洗模型进行预训练时，则第一情感除了为积极情感之外，也可为消极情感

在一实施例中，语音情感数据清洗模型包括HuBERT网络模型、全连接层以及第一softmax层。进一步的，该焦虑检测方法还包括对初始的语音情感数据清洗模型进行预训练。具体的，对初始的语音情感数据清洗模型进行预训练时首先获取第二训练样本集，第二训练样本集中的第二样本数据包括情感语音样本数据以及所述情感语音样本数据对应的情感标签；构建第二交叉熵损失函数；最终基于所述第二训练样本集及所述第二交叉熵损失函数对所述初始语音情感数据清洗模型进行预训练得到所述训练好的语音情感数据清洗模型。其中，当情感类别包括积极情感、消极情感、中性（无情感）时，第二样本训练集中的第二样本数据所对应的情感标签为积极情感、消极情感和中性（无情感）中的其中一个。类似的，此处限定的情感类别的类别数量仅是一种示例，在其他实施例中，也可以为除上述三种情感类别之外的其他情感；并且HuBERT网络模型也可以采用Wav2Vec, Vq-Wav2vec,Wav2Vec2.0, WavLm等语音预训练模型代替。

图4为本发明一实施例的通过语音情感数据清洗模型识别语音信号的情感类别时的流程示意图，如图4所示，该语音情感数据清洗模型由预训练的HuBERT模型、全连接层和位于最后一层的softmax层组成。其具体的利用已有的情感语音语料（第二训练样本集），使用自监督训练方法训练HuBERT模型的参数，然后采用迁移学习，在情感语音语料上进行下游任务自适应训练，其中损失函数为交叉熵损失函数，进而预测得到三个情感类别。三个情感类别示例性的为积极情感、消极情感、中性（无情感）。最终将采集到的被测者在焦虑检测对话中的语音信号送入预训练好的上述模型中进行预测，去掉第一语音信号集中模型预测结果为消极和中性情感的语音信号。

步骤S40：将所述第二文本数据集输入至训练好的文本焦虑检测模型，得到文本模态特征，将所述第二语音信号集输入至训练好的语音焦虑检测模型，得到语音模态特征，将所述文本模态特征和语音模态特征进行特征融合，并基于融合后的多模态特征进行焦虑类别分类，得到所述被测者的焦虑状态分类结果。

在该步骤中，是将清洗掉脏数据的第二文本数据集和第二语音信号集分别输送至训练好的文本焦虑检测模型和训练好的语音焦虑检测模型以分别得到文本模态特征和语音模态特征。在该步骤中，首先构建可语义理解的文本情感信息辅助的文本焦虑检测模型和语音情感信息辅助的语音焦虑检测模型。示例性的，文本焦虑检测模型至少包括BERT网络模型和全连接层，而语音焦虑检测模型至少包括HuBERT网络模型和全连接层。此时基于训练好的文本焦虑检测模型和训练好的语音焦虑检测模型可分别提取第二文本数据集和第二语音信号集的模态特征，进一步的将该两种模态特征进行特征融合，并基于融合后的特征进行焦虑类别分类，则可准确的得到被测者的焦虑状态分类结果。示例性的，焦虑类别分类结果为无焦虑，可能焦虑，肯定焦虑，明显焦虑或严重焦虑。应当理解的是，将焦虑类别分类结果限定为上述五类仅是一种较优实施方式，在其他应用场景下，焦虑类别可以更多或更少。

在一实施例中，该焦虑检测方法还包括对初始的文本焦虑检测模型和初始的语音焦虑检测模型进行预训练。此时，文本焦虑检测模型包括BERT网络模型、全连接层以及第二softmax层，而语音焦虑检测模型包括HuBERT网络模型、全连接层以及第二softmax层。具体的，对初始的文本焦虑检测模型进行预训练包括：获取第三训练样本集，所述第三训练样本集中的第三样本数据包括焦虑文本数据以及所述焦虑文本数据对应的焦虑标签；构建第三交叉熵损失函数；基于所述第三训练样本集及所述第三交叉熵损失函数对所述初始的文本焦虑检测模型进行预训练得到训练好的文本焦虑检测模型。而对初始的语音焦虑检测模型进行预训练包括：获取第四训练样本集，所述第四训练样本集中的第四样本数据包括焦虑语音数据以及所述焦虑语音数据对应的焦虑标签；构建第四交叉熵损失函数；基于第四训练样本集及第四交叉熵损失函数对所述初始的语音焦虑检测模型进行预训练得到训练好的语音焦虑检测模型。

示例性的，构建可语义理解的文本情感信息辅助的文本焦虑检测模型时，可通过修改预训练的可语义理解的文本情感数据清洗模型的最后一层softmax层得到（参考图5），即将情感三分类改为焦虑的五分类。五分类分别为：无焦虑、可能焦虑、肯定焦虑、、明显焦虑、严重焦虑；以上焦虑等级均按照汉密尔顿焦虑量表标准划分。当构建好初步的文本焦虑检测模型后，利用样本数据，在初步的可语义理解的文本焦虑检测模型上迁移学习，损失函数为交叉熵损失函数，得到最终的可语义理解的文本情感信息辅助的文本焦虑检测模型，此模型在文本模态上预测五种焦虑类别。类似的，构建语音情感信息辅助的语音焦虑检测模型时，可通过修改预训练的语音情感数据清洗模型的最后一层softmax层得到（参考图6），即将情感三分类改为焦虑的五分类。五分类也分别为：无焦虑、可能焦虑、肯定焦虑、明显焦虑、严重焦虑，进一步的，当构建好初步的语音焦虑检测模型后，利用样本数据，在初步的语音情感信息辅助的语音焦虑检测模型上迁移学习，损失函数为交叉熵损失函数，得到最终的语音情感信息辅助的语音焦虑检测模型，该语音焦虑检测模型在语音模态上也预测五种焦虑类别。

具体的，该焦虑检测方法为使用注意力机制对上述语音和文本情感信息辅助的焦虑检测模型的隐藏层进行特征融合，得到基于情感信息辅助的多模态焦虑症检测模型。其中，将文本模态特征和语音模态特征进行特征融合，包括如下步骤：将所述文本模态特征和所述语音模态特征进行拼接得到拼接特征；基于注意力机制确定所述拼接特征的注意力权重；基于所述拼接特征及所述注意力权重得到特征融合后的多模态特征。其中，所采用的注意力机制可为自注意力机制、加性注意力机制、软注意力机制、硬注意力机制等。

示例性的，参考图7，在预测被测者的焦虑状态时，抽取文件情感信息辅助的文本焦虑检测模型和语音情感信息辅助的语音焦虑检测模型中的全连接层的输出分别作为文本和语音模态特征，进而将两种模态特征拼接得到拼接特征，拼接特征表示如下：X=（t ₁ , t ₂ ,···t _n , a ₁ , a ₂ ,···a _n），其中X表示拼接后的多模态特征，t _n表示第n个文本特征，a _n表示第n个语音特征；进一步的基于注意力机制进行两种模态的特征融合，表示如下：C= tanh（X）×W，Y=X×C；其中，X表示多模态特征，tanh表示激活函数，W表示学习参数，C表示注意力权重，Y表示通过注意力机制融合后的多模态特征。

对应的，本申请还公开了一种基于情感信息辅助的焦虑检测系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

图2为本发明另一实施例的基于情感信息辅助的多模态焦虑检测方法的流程示意图，如图2所示，首先获取文本情感数据集和语音情感数据集分别作为第一训练样本集和第二训练样本集；进一步的分别在预训练BERT模型上迁移训练和HuBERT模型上迁移训练，从而得到可语义理解的训练好的文本情感数据清洗模型和训练好的语音情感数据清洗模型，并基于训练好的文本情感数据清洗模型和训练好的语音情感数据清洗模型分别清洗被测者的焦虑文本数据和焦虑语音数据，以得到清洗后的焦虑文本数据集（第二文本数据集）和焦虑语音数据集（第二语音信号集）。进一步的基于清洗后的焦虑文本数据集作为样本数据对初步的可语义理解的文本情感数据清洗模型进行迁移训练，得到训练好的文本情感信息辅助的文本焦虑检测模型；而基于清洗后的焦虑语音数据集作为样本数据对初步的语音情感数据清洗模型进行迁移训练，得到训练好的语音情感信息辅助的语音焦虑检测模型；进而进行联合训练，并进行注意力多模态特征融合，最终基于融合后的特征预测焦虑评估结果。

另外，该发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

综上所述，本申请的基于情感信息辅助的多模态焦虑检测方法通过语音端点检测技术去除语音中的静音片段；基于预训练模型BERT使用迁移学习技术建立可语义理解的文本情感数据清洗模型，清洗掉焦虑训练集文本模态（第一文本数据集）中的脏样本；基于预训练模型HuBERT（Hidden-Unit BERT）使用迁移学习技术建立语音情感数据清洗模型，清洗掉焦虑训练集语音模态（第一语音信号集）中的脏样本；基于文本情感数据清洗模型迁移学习得到文本情感信息辅助的文本焦虑检测模型；基于语音情感数据清洗模型迁移学习得到语音情感信息辅助的语音焦虑检测模型；联合训练语音和文本情感信息辅助的焦虑检测模型，使用注意力机制对上述语音和文本情感信息辅助的焦虑检测模型的隐藏层进行特征融合，得到基于情感信息辅助的多模态焦虑检测模型，获得被测者的焦虑状态信息。此方法很大程度提高了焦虑检测多分类的准确性。

通过上述实施例可以发现，本申请的基于情感信息辅助的多模态焦虑检测方法及装置，首先通过可语义理解的文本情感数据清洗模型和语音情感数据清洗模型清洗掉被测者在焦虑检测对话过程中的脏样本，减少脏数据对检测模型带来的性能影响；并且预训练模型BERT具有很强的语义理解能力，在此基础上迁移学习做下游任务，可以避免统计词性词频带来的性能误差；通过已有的情感数据集（文本、语音）在BERT或HuBERT上做迁移学习，使得模型具备情感感知的能力，能更好的辅助模型进行焦虑状态检测。另外，预训练BERT和HuBERT使用的是各个领域海量的数据，与焦虑领域存在联系和差异，通过迁移学习进行调整，为焦虑任务进行知识迁移，缓解有限焦虑数据集带来的性能影响；该方法使用注意力机制对文本和语音模态进行融合，让模型自动注意到何种模态、第几维特征对焦虑检测任务更有益，该方式比简单的两种模态拼接更有效。另外该方法是一个端到端的方法，不需要任何前期的特征提取工作，避免特征选取带来的影响。综上所述，本申请所公开的基于情感信息辅助的多模态焦虑检测方法及装置不仅提升了系统检测性能，还可准确的检测被测者的焦虑状态。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM（EROM）、软盘、CD-ROM、光盘、硬盘、光纤介质、射频（RF）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于情感信息辅助的多模态焦虑检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于情感信息辅助的多模态焦虑检测方法，其特征在于，获取被测者在焦虑检测对话中的第一文本数据集和第一语音信号集，包括：

获取被测者在焦虑检测对话中的语音数据；

计算所述语音数据的短时能量和短时过零率；

3.根据权利要求1所述的基于情感信息辅助的多模态焦虑检测方法，其特征在于，所述文本情感数据清洗模型包括BERT网络模型、全连接层以及第一softmax层；

4.根据权利要求3所述的基于情感信息辅助的多模态焦虑检测方法，其特征在于，所述方法还包括：对初始的文本情感数据清洗模型和初始的语音情感数据清洗模型进行预训练；

对所述初始的文本情感数据清洗模型进行预训练包括：

构建第一交叉熵损失函数；

对所述初始的语音情感数据清洗模型进行预训练包括：

构建第二交叉熵损失函数；

5.根据权利要求1所述的基于情感信息辅助的多模态焦虑检测方法，其特征在于，所述文本焦虑检测模型包括BERT网络模型、全连接层以及第二softmax层；

6.根据权利要求5所述的基于情感信息辅助的多模态焦虑检测方法，其特征在于，所述方法还包括：对初始的文本焦虑检测模型和初始的语音焦虑检测模型进行预训练；

对所述初始的文本焦虑检测模型进行预训练包括：

构建第三交叉熵损失函数；

对所述初始的语音焦虑检测模型进行预训练包括：

构建第四交叉熵损失函数；

7.根据权利要求1所述的基于情感信息辅助的多模态焦虑检测方法，其特征在于，将所述文本模态特征和语音模态特征进行特征融合，包括：

基于注意力机制确定所述拼接特征的注意力权重；

8.根据权利要求1至7中任意一项所述的基于情感信息辅助的多模态焦虑检测方法，其特征在于，所述情感类别分类结果为积极情感、消极情感或中性，所述第一情感为积极情感或消极情感；

9.一种基于情感信息辅助的多模态焦虑检测系统，该系统包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任意一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。