CN117617975A

CN117617975A - 一种精神状态分析系统、电子设备及存储介质

Info

Publication number: CN117617975A
Application number: CN202311851006.5A
Authority: CN
Inventors: 陶建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-01

Abstract

本发明提供一种精神状态分析系统、电子设备及存储介质，其中，系统包括：多模态特征提取模块、跨模态注意力模块和精神状态检测模块；所述多模态特征提取模块将长音视频转换为图像序列和语音片段，并且提取面部特征和音频特征；将所述面部特征和音频特征输入所述跨模态注意力模块，探索图像和音频模态之间的关系，提取受试者的情绪特征值；将所述情绪特征值输入精神状态检测模块，以获取受试者当前的精神状态。本发明提出的方案能够使用单个跨模态注意力模块对音视频的特征进行精神状态特征值的提取，以该特征进行抑郁、焦虑和疲劳状态的检测分析，有更高的识别精确度，并且可以提供更多的分析信息。

Description

一种精神状态分析系统、电子设备及存储介质

技术领域

本发明属于模式识别领域，尤其涉及一种精神状态分析系统、电子设备及存储介质。

背景技术

日常生活中，人类的精神状态的表现并不是单一模态的，且不同精神状态间也有着联系，要更加准确反应人类真实的精神状态就需要考虑到这两点，而通常的检测方法往往只考虑其中之一。

现有技术多数为多模态检测单一精神状态的方法：例如采集用户的视频，从视频中获取视觉特征，并从音频数据中提取语音特征。并将音频数据进行转录标注获取文本数据，取文本特征。最后采用预先构建的模型预测该用户的单一抑郁程度结果。

现有技术缺点

发明内容

为解决上述技术问题，本发明提出一种精神状态分析、电子设备及存储介质的技术方案，以解决上述技术问题。

本发明第一方面公开了一种精神状态分析系统，所述系统包括：多模态特征提取模块、跨模态注意力模块和精神状态检测模块；

所述多模态特征提取模块将长音视频转换为图像序列和语音片段，并且提取面部特征和音频特征；

将所述面部特征和音频特征输入所述跨模态注意力模块，探索图像和音频模态之间的关系，提取受试者的情绪特征值；

将所述情绪特征值输入精神状态检测模块，以获取受试者当前的精神状态。

根据本发明第一方面的系统，所述将长音视频转换为图像序列和语音片段的方法包括：

按2Hz将长音视频分割为图像序列，音频则通过分帧和加窗提取所述长音视频中的测试对象的语音片段。

根据本发明第一方面的系统，所述提取面部特征的方法包括：

将所述图像序列进行人脸检测并截取其中关键的感兴趣区域，标注关键点后作为面部特征。

根据本发明第一方面的系统，所述将所述图像序列进行人脸检测并截取其中关键的感兴趣区域，标注关键点后作为面部特征的方法包括：

挑选出包含面部信息的图片，对每张图片使用Haar特征分类器分辨是否包含人脸信息；

将含有人脸信息的图片以面部为中心，通过Eigenfaces算法截取其中关键的感兴趣区域截取其中关键的感兴趣区域；

对所述感兴趣区域标注关键点，作为面部特征，并通过所述关键点对齐图片。

根据本发明第一方面的系统，所述提取音频特征的方法包括：

使用OpenSMILE工具包对所述语音片段进行处理，得到eGeMAPS特征作为音频特征。

根据本发明第一方面的系统，所述将所述面部特征和音频特征输入所述跨模态注意力模块，探索图像和音频模态之间的关系，提取受试者的情绪特征值的方法包括：

将将所述面部特征和音频特征输入Transformer网络，来提取精神状态特征；再将所述精神状态特征输入Dropout层，得到情绪特征值。

根据本发明第一方面的系统，所述精神状态检测模块包括：抑郁状态检测模块、焦虑状态检测模块和疲劳状态检测模块。

根据本发明第一方面的系统，所述抑郁状态检测模块、焦虑状态检测模块和疲劳状态检测模块的结构相同，均为全连接层。

本发明第二方面提供了一种电子设备，所述设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行如本发明第一方面所述的一种精神状态分析系统中的方法。

本发明第三方面提供了一种存储介质，该存储介质存储的计算机程序，能够被一个或多个处理器执行，能够用来实现如本发明第一方面所述的一种精神状态分析系统中的方法。

综上，本发明提出的方案能够使用单个跨模态transformer对音视频的特征进行精神状态特征值的提取，以该特征进行抑郁、焦虑和疲劳状态的检测分析，有更高的识别精确度，并且可以提供更多的分析信息。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种精神状态分析系统的结构图；

图2为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面公开了一种精神状态分析系统，图1为根据本发明实施例的一种精神状态分析系统的结构图，具体如图1所示，所述系统包括：多模态特征提取模块、跨模态注意力模块和精神状态检测模块；

在一些实施例中，所述将长音视频转换为图像序列和语音片段的方法包括：

在一些实施例中，所述提取面部特征的方法包括：

所述将所述图像序列进行人脸检测并截取其中关键的感兴趣区域，标注关键点后作为面部特征的方法包括：

将含有人脸信息的图片以面部为中心，通过Eigenfaces算法截取其中关键的感兴趣区域；

在一些实施例中，所述提取音频特征的方法包括：

使用OpenSMILE工具包对所述语音片段进行处理，得到eGeMAPS特征作为音频特征。eGeMAPS (emotional and global acoustic features for multiple speakerrecognition) 是一种针对语音情感识别的特征集，包括了 88 维特征，其中包含了情感、语音质量、基频和语音音调等方面的信息。

在一些实施例中，由于部分神经状态的表现不明显，且前后时间跨度较大，所以需要能够分析全局的多模态特征，采用深度学习的方法提取精神状态特征，建立神经网络；将音频、视频特征作为输入，对神经网络进行训练，让神经网络学习与精神状态相关的特征。

所述将所述面部特征和音频特征输入所述跨模态注意力模块，探索图像和音频模态之间的关系，提取受试者的情绪特征值的方法包括：

Transformer网络具有多头注意力机制，能够实现模态特征信息之间的并行处理，使模型训练具备高时效性，因此采用 transformer机构来提取精神状态特征，同时加入Dropout算法，避免因参数量过多导致的过拟合。

跨模态注意力模块训练过程使用Adam优化器，相比于通常使用的随机梯度下降法，Adam更加稳定，能够自适应地调整学习率，而且内存的需求更低。

训练神经网络的过程中使用了如下的超参数：多头注意力层头数为8，初始学习率为0.0001，5个epoch后快速上升到0.001，batch_size为16，共训练50个epoch。

在一些实施例中，所述精神状态检测模块包括：抑郁状态检测模块、焦虑状态检测模块和疲劳状态检测模块。

为了增加模型的非线性表达能力，有更好的泛化能力，所述抑郁状态检测模块、焦虑状态检测模块和疲劳状态检测模块的结构相同，均为全连接层。

具体地，因为需要将精神状态的特征转换为各类状态的检测结果，相比于直接使用 Transformer 输出的向量表示，使用全连接层处理后的向量表示更能够适应具体精神状态检测要求，采用全连接层作为抑郁状态检测、焦虑状态检测和疲劳状态检测三个模块的结构。

具体状态检测模块的参数及优化器与跨模态注意力模块一致。

综上，本发明各个方面的技术方案与现有技术相比具有如下优点：能够使用单个跨模态transformer对音视频的特征进行精神状态特征值的提取，以该特征进行抑郁、焦虑和疲劳状态的检测分析，有更高的识别精确度，并且可以提供更多的分析信息。

本发明第二方面公开了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明公开第一方面中任一项的一种精神状态分析系统中方法的步骤。

图2为根据本发明实施例的一种电子设备的结构图，如图2所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明第三方面公开了一种存储介质，具体涉及计算机的可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本发明公开第一方面中任一项的一种精神状态分析系统中方法的步骤。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种精神状态分析系统，其特征在于，所述系统包括：多模态特征提取模块、跨模态注意力模块和精神状态检测模块；

2.根据权利要求1所述的一种精神状态分析系统，其特征在于，所述将长音视频转换为图像序列和语音片段的方法包括：

3.根据权利要求1所述的一种精神状态分析系统，其特征在于，所述提取面部特征的方法包括：

4.根据权利要求3所述的一种精神状态分析系统，其特征在于，所述将所述图像序列进行人脸检测并截取其中关键的感兴趣区域，标注关键点后作为面部特征的方法包括：

5.根据权利要求1所述的一种精神状态分析系统，其特征在于，提取音频特征的方法包括：

6.根据权利要求1所述的一种精神状态分析系统，其特征在于，所述将所述面部特征和音频特征输入所述跨模态注意力模块，探索图像和音频模态之间的关系，提取受试者的情绪特征值的方法包括：

7.根据权利要求1所述的一种精神状态分析系统，其特征在于，所述精神状态检测模块包括：抑郁状态检测模块、焦虑状态检测模块和疲劳状态检测模块。

8.根据权利要求7所述的一种精神状态分析系统，其特征在于，所述抑郁状态检测模块、焦虑状态检测模块和疲劳状态检测模块的结构相同，均为全连接层。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行如权利要求1至8任意一项所述的一种精神状态分析系统中的方法。

10.一种存储介质，其特征在于，该存储介质存储的计算机程序，能够被一个或多个处理器执行，能够用来实现如权利要求1至8中任一项所述的一种精神状态分析系统中的方法。