CN115517681A

CN115517681A - Md患者情绪波动监测和情感障碍状态评估的方法和系统

Info

Publication number: CN115517681A
Application number: CN202211300619.5A
Authority: CN
Inventors: 张国富; 任彩丽; 杨杰
Original assignee: WUXI MENTAL HEALTH CENTER
Current assignee: WUXI MENTAL HEALTH CENTER
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-12-27

Abstract

本发明公开了MD患者情绪波动监测和情感障碍状态评估的方法和系统，包括以下步骤：采集用户的音视频数据；将音视频数据进行预处理；将来自音视频预处理系统的数据通过光电容积描积技术获取心率指标；将来自音视频预处理系统的数据通过算法获取特征；将来自上一步的语音特征和视频特征进行融合，得到情绪特征值；将融合后的情感特征数据与风险模型进行比对，预测个体在未来一段时间情绪状态发展的趋势，超出阈值进行风险预警。本发明通过非接触式的音频视频采集方式，并通过算法模型得到生理相关特征值和情绪相关特征值，为精神障得患者情绪的评估引入客观的量化指标，避免传统评估方法中量表的主观影响因素，保证了情绪评估的一致性和连续性。

Description

MD患者情绪波动监测和情感障碍状态评估的方法和系统

技术领域

本发明涉及计算机在情感障碍方面应用的技术领域，具体涉及一种MD患者情绪波动监测和情感障碍状态评估的系统和方法。

背景技术

世界上每年因为情感障碍而自杀的个体有近80万人，据有关调查，中国现有各类情感障碍个体人数达9000万，人数还在快速增长中，世界卫生组织发布的《2020年精神卫生地图集》显示，全世界每10个人中就有一人存在情感障碍。情感障碍(Mood Disorder，简称MD)是精神疾病诊断与统计手册(DSMIVTR)中，对于诊断患疾的归类。此类患疾的特点在于人心情上的混乱不安。在国际疾病与相关健康问题统计分类第十版ICD-10中，以情绪性(情感性)疾患分类。人体对外界事物进行认识时，会因为客观事实是否符合内心需要而产生一定的态度和体验，这种态度体验就是情感。同时人产生的情感体验也可以反过来影响人的认知过程。如果人的情感表现出抑制人的认识行为和心理活动时，我们就认为这是出现了情感障碍。情感障碍可分为双相情感障碍和单相情感障碍。

双相情感障碍(Bipolar Disorder，BD)也称双相障碍，是指既有躁狂发作又有抑郁发作的一类疾病。例如躁郁症。双相障碍的关键特征是极端的心境波动，从躁狂的高峰跌到重度抑郁的低谷。它之所以被称为心境障碍，是因为它深深地影响一个人的情绪体验和“情感”。它之所以被称为“双相”障碍，是因为个体的心境在高峰与低谷这两极之间来回波动，相比之下，重度抑郁个体的心境只沿着单极(低谷)发生波动。单相情感障碍，非双相情感障碍，也是情感障碍的一种，与"双相情感障碍"相对。仅有抑郁或仅有躁狂发作的情感障碍。可分为躁狂和抑郁。单向抑郁症，表现的主症状一为情绪低落、自责、无望。可见抑郁、激惹、或焦虑，或者是它们的混合表现。然而在隐匿型抑郁症中，却可以相反地在意识中体验不到抑郁心境。取代这种抑郁心境而出现的是躯体不适，甚至会用笑嘻嘻的面貌作为防御性面具(微笑型抑郁症)。

目前情感障碍的判别与诊断主要从三个方面入手：1、依靠主观因素，比如汉密尔顿抑郁量表(HAMD)、贝克抑郁量表(BDT)、病人健康间卷抑郁自评量表(PHQ-9)等，以及临床医生的主观判断进行诊断这类必就会存在一定程度的主观偏误；2、依靠生物学信息，基于脑电(EEG)、核磁成像(fMRI)等生物技术已被用于抑郁症检测中，如，抑郁症人群EEG的伽马波段呈现持续增强的现象，抑郁症人群有大脑前额叶激活水平不对称性的增加等；3、依靠心理学相关的行为信息，基干语音、面部表情和身体姿态等行为异常特征来识别抑郁症。例如，语音属性方面的差异是可以有效反映人的抑郁状态个体的语音声道特性变化与其抑郁生理症状有关系，面部表情的信息加工作为情绪障碍检测的客观指标之一，抑郁症个体对积极的情绪处理存在困难，但对于悲伤情绪却具有较强的注意力和敏感度，身体表情也是抑郁症检测的一个重要视觉线索。

情感障碍的产生并非一日两日短时形成，一般人情绪变化有一定时限性，是短期的，人们通常通过自我调适，可重新保持心理平衡。而病理性情感障碍常持续存在。临床上的诊断标准之一即通过症状持续时间来进行判断，同时医生也需要对病患进行密切监测，以衡量当前治疗方案的效果，以及时调整或更换。

根据检索，申请公布号CN111513734A提供了一种双相情感障碍非典型症状评估系统与方法，该方法具体包括提供了一种量表指标工具用于情感障碍评估。申请公布号CN112970027A，提供了一种用于使用面部识别和模仿工作流程来训练认知和情绪共情的系统和方法，具体包含结合面部识别使用生理测量(例如EEC等)来检测用户情感并且矫正一个或多个认知筛查工具以进一步促进用户情感。与一种或多种特定负面认知偏差相关联的一种或多种特定情绪旨在影响情感。申请公布号CN104244842A，提供了一种用于诊断和治疗情绪障碍的方法、设备以及系统，具体包括提供了一种用于测定受试者的右侧前庭功能的方法和设备。

然而，现有情绪障碍检测和监测技术中存在的问题是：1、对于用户状态的测量，以评分量表为主，而量表法受用户的主观倾向、当时的情绪状态影响较大，难以客观准确地反映其真实状态；2、对用户状态的监测手段，以单次定性分析为主，缺少过程数据的量化，因而很难比较前后状态的变化；3、需要外接各类接触式设备，如EGG、眼动仪、血压装置等，采集数据复杂，流程繁琐，同时不便携带；4、用户每日的情绪，会处于起伏波动中，现有的技术无法便携的记录用户的情感变化数据，因此需要通过有效的手段客观、量化、持续地检测用户的情绪状态。

因此，本领域迫切需要一种能够方便记录情绪障碍个体情感波动数据和评估个体情绪障碍的系统及方法。特别地，需要能对情绪障碍个体情感波动数据进行多日监测的系统和情绪障碍评估的方法。

发明内容

本发明的目的在于针对现有技术中存在的不足，提供了一种非接触式监测情感障碍个体情绪波动和评估情感障碍状态的系统和方法，解决了现有技术中数据不够客观，流程繁琐，不便携带以及难以做到多日实时检测和监测的问题。

本发明提供的MD患者情绪波动监测和情感障碍状态评估的方法，包括以下步骤：

S1、采集用户的音视频数据，所述音视频数据包括来自所述用户的实时音视频数据和上传的历史音视频数据；

S2、将音视频数据进行预处理；

S3、将来自音视频预处理系统的数据通过光电容积描积技术获取心率指标；

S4、将来自音视频预处理系统的数据通过算法获取特征；

S5、将来自步骤S4的语音特征和视频特征进行融合，得到情绪特征值；

S6、将融合后的情感特征数据与风险模型进行比对，预测个体在未来一段时间情绪状态发展的趋势，超出阈值进行风险预警。

进一步的，所述步骤S2中，音视频预处理包括语音数据预处理的步骤和视频数据预处理的步骤，其中，

语音数据预处理包括以下步骤：

(a)、预加重

H(z)＝1-a×Z^-1,0.9＜a＜1 (1)

(b)、加窗

使用Hamming窗口加窗；

(c)、分帧

使用可移动有限长窗口的加权；

视频数据预处理包括以下步骤：

(I)、填写缺失值

将两个相邻帧的平均值作为缺失值；

(II)、消除异常值

使用箱型图法消除；

(III)、平滑和滤波

平滑使用smoothdata函数，滤波使用卡尔曼滤波。

进一步的，所述步骤S3中，通过光电容积描积技术获取心率指标包括以下步骤：

S31、获取预处理后数据；

S32、使用自动跟踪器检测视频帧内的人脸并定位到感兴趣的测量区域；

S33、对感兴趣的测量区域中R、G、B三个通道的像素值分别进行空间平均；

S34、计算感兴趣的测量区域区域中R、G、B三个通道的像素均值，将每个图像帧的画面信息转变成点信息，得到三个通道的脉动信号；

S35、假设在时刻t，脉动信号中R、G、B三个通道的信号幅度分别为s₁(t)、s₂(t)、s₃(t)(感兴趣测量区域像素值的平均值)，则脉动信号为下式：

S36、进行快速傅里叶变换以获得脉动信号的功率谱密度，功率谱中最高功率对应的频率则代表了脉冲频率f；

S37、由式(2)可得到每一帧视频信号的心率值：

HeartRate＝60*f (3)。

进一步的，所述步骤S4中，音视频预处理系统的数据通过算法获取特征包括语音特征构建和视频特征构建，语音特征构建包括以下步骤：

(1)、取预处理后的数据，得到一维非线性时间序列{x(i)}；

(2)、构造不同延迟时间t的d维相空间向量

y(i)＝x(i),…x(i+(d-1)t)，1≤i≤n-(d-1)t (4)；

(3)、每三十分之一秒计算一个轨迹矩阵；

(4)、获取语音相图；

视频特征构建包括以下步骤：

(1)、根据上一步预处理，得到图像序列；

(2)、对图像进行二维傅里叶变换，从时域映射到频域；

(3)、使用傅里叶逆变换对频谱图的每一列进行变换；

(4)、将变换到的数据保存为语音文件；

(5)、计算傅里叶特征图像。

进一步的，所述步骤S5中，语音特征和视频特征进行融合包括将步骤S4中得到的语音特征数据和视频特征数据按照时间顺序进行拼接，具体包括以下步骤：

(1)、将得到的语音特征数据和视频特征数据进行时间编码，其中y[m，n，j]是视频中的第j张图片，它的大小是m×n；

(2)、进一步将数据进行差分，差分公式为：

(3)、进一步将数据映射变化方向

(4)、进一步进行二进制编码转换，得到带有时空信息的双模态特征数据：

(5)、将上述所得数据进行作为输入送入预设的卷积神经网络训练，获得情绪特征值。

进一步的，所述步骤S6中，风险模型的建立包括以下步骤：

1、选择一定数量的被试，考虑年龄、性别、情绪状态、情感刺激方式、言语方式及情绪效价等重要因素设计，由合作医院精神科临床医生通过《简明国际神经精神访谈》和《PHQ-9》量表诊断被试；

2、根据《简明国际神经精神访谈》和《PHQ-9》得分情况，确定被试精神状态得分情况，被试状态分为：0正常、1轻度、2中度、3严重；

3、接下来给被试依次观看视频、访谈、阅读、图片描述，同时采集被试视频和声音，以此测量结果作为训练数据标签，在模型的验证阶段，将训练数据之外的目标用户的数据输入模型，得到的分类结果与医生的评测结果相比对，以判断模型识别的准确率。

同时，本发明还公开了MD患者情绪波动监测和情感障碍状态评估的系统，包括：

音视频采集单元：其用于采集用户的音视频数据，所述音视频数据包括来自所述用户的实时音视频数据和上传的历史音视频数据；

音视频预处理单元：其用于将来自音视频采集系统的数据进行预处理；

生理特征单元：其用于将来自音视频预处理系统的数据通过光电容积描积技术获取心率指标；

特征构建单元：其用于将来自音视频预处理系统的数据通过算法获取特征；

特征融合单元：其用于将来自上一步的语音特征和视频特征进行融合，得到情绪特征值；

数据存储单元：其用于存储个体的实时情感特征数据、历史情感特征数据、个人信息数据等；

风险预警单元，其用于将融合后的情感特征数据与风险模型进行比对，预测个体在未来一段时间情绪状态发展的趋势，超出阈值进行风险预警；

音视频采集单元与音视频预处理单元连接，音视频预处理单元与生理特征单元连接，生理特征单元与特征构建单元连接，特征构建单元与特征融合单元连接，特征融合单元与风险预警单元连接，音视频采集单元、特征融合单元和风险预警单元均与数据存储单元连接。

进一步的，所述音视频采集单元包括：支持麦克风和摄像头的各类硬件的管理端；所述支持麦克风和摄像头的各类硬件包括但不限于计算机/手机/PAD/平板/智能硬件等，所述麦克风用于采集音频数据，所述摄像头用于采集视频数据。

进一步的，所述管理端用于实时获取和存储音视频数据。

进一步的，所述音视频数据的视频数据为各种格式的视频文件数据，包括但不限于avi/mp4/mpeg/wmv/asf/asx/RMVB等各类格式视频文件。

本发明的有益效果如下：

1、通过非接触式的音频视频采集方式，并通过算法模型得到生理相关特征值和情绪相关特征值，为精神障得患者情绪的评估引入客观的量化指标，避免传统评估方法中量表的主观影响因素，保证了情绪评估的一致性和连续性。

2、在完成了指标量化后，可以为每一个个体建立自身的特征管理数据库，便于个体自身和医护人员了解个体的全流程信息，为后续康复方案的调整提供全面日精准的数据信息。同时步骤简单便捷，方便实际使用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的工作流程图；

图2是本发明的系统结构框图；

图3是本实施例中所述的Dropout层。

附图中，各标号所代表的部件列表如下：

1-音视频采集单元，2-音视频预处理单元，3-生理特征单元，4-特征构建单元，5-特征融合单元，6-数据存储单元，7-风险预警单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，MD患者情绪波动监测和情感障碍状态评估的方法，包括以下步骤：

S2、将音视频数据进行预处理；

S4、将来自音视频预处理系统的数据通过算法获取特征；

在所述步骤S2中，音视频预处理包括语音数据预处理的步骤和视频数据预处理的步骤，其中，

语音数据预处理包括以下步骤：

(a)、预加重

H(z)＝1-a×Z^-1,0.9＜a＜1 (1)

(b)、加窗

使用Hamming窗口加窗；

(c)、分帧

使用可移动有限长窗口的加权；

视频数据预处理包括以下步骤：

(I)、填写缺失值

将两个相邻帧的平均值作为缺失值；

(II)、消除异常值

使用箱型图法消除；

(III)、平滑和滤波

平滑使用smoothdata函数，滤波使用卡尔曼滤波。

在所述步骤S3中，光电容积技术原理为光电容积描积技术其原理是血液比周围组织吸收更多的光，血液体积的变化影响着入射光和反射光，面部血管扩张，入射光路径长度增加，反射光强度也随着变化，即血容量的变化通过反射光亮度值的变化体现出来，反射光强度的变化反映在图像像素值的变化上；通过光电容积描积技术获取心率指标包括以下步骤：

S31、获取预处理后数据；

S32、使用自动跟踪器检测视频帧内的人脸并定位到感兴趣的测量区域(RegionsofInterest，ROI)；

S33、对ROI中R、G、B三个通道的像素值分别进行空间平均；

S34、计算ROI中R、G、B三个通道的像素均值，将每个图像帧的画面信息转变成点信息，得到三个通道的脉动信号；

S35、假设在时刻t，脉动信号中R、G、B三个通道的信号幅度分别为s₁(t)、s₂(t)、s₃(t)(ROI像素值的平均值)，则脉动信号为下式：

S37、由式(2)可得到每一帧视频信号的心率值：

HeartRate＝60*f (3)。

在所述步骤S4中，音视频预处理系统的数据通过算法获取特征包括语音特征构建和视频特征构建，语音特征构建包括以下步骤：

(1)、取预处理后的数据，得到一维非线性时间序列{x(i)}；

(2)、构造不同延迟时间t的d维相空间向量

y(i)＝x(i),…x(i+(d-1)t)，1≤i≤n-(d-1)t (4)；

(3)、每三十分之一秒计算一个轨迹矩阵；

(4)、获取语音相图；

视频特征构建包括以下步骤：

(1)、根据上一步预处理，得到图像序列；

(2)、对图像进行二维傅里叶变换，从时域映射到频域；

(3)、使用傅里叶逆变换对频谱图的每一列进行变换；

(4)、将变换到的数据保存为语音文件；

(5)、计算傅里叶特征图像。

在所述步骤S5中，语音特征和视频特征进行融合包括将步骤S4中得到的语音特征数据和视频特征数据按照时间顺序进行拼接，具体包括以下步骤：

(2)、进一步将数据进行差分，差分公式为：

(3)、进一步将数据映射变化方向

所述卷积神经网络具体包括一个十二层卷积神经网络，它们是一个输入层，两个有3×3卷积核的卷积层、一个2×2的最大池化层、一个Dropout层、两个有3×3卷积核的卷积层、一个2×2的最大池化层和一个Dropout层(如图3所示)，dropout概率参数设置为0.2。最后，它们进入全连接层，得到一个序列所对应的情感效价与唤醒度。

在所述步骤S6中，风险模型的建立包括以下步骤：

本实施例中，所述个人信息数据包括但不限于姓名、年龄、身高、体重、心率、收缩压、舒张压、心率变异性、呼吸频率等。

本实施例所述音视频采集单元包括：支持麦克风和摄像头的各类硬件的管理端；所述支持麦克风和摄像头的各类硬件包括但不限于计算机/手机/PAD/平板/智能硬件等，所述麦克风用于采集音频数据，所述摄像头用于采集视频数据。

本实施例中所述管理端用于实时获取和存储音视频数据。

本实施例中所述音视频数据的视频数据为各种格式的视频文件数据，包括但不限于avi/mp4/mpeg/wmv/asf/asx/RMVB等各类格式视频文件。

该系统的一个具体的应用为：首先，音视频采集单元通过管理端采用MD患者的音频数据和视频数据同时进行存储，音视频采集单元将获得的音视频数据发送至音视频预处理单元，音视频预处理单元对语音数据进行预加重、加窗和分帧，同时并对视频数据进行缺失值填写、异常值消除、平滑和滤波；经过预处理的音频数据和视频数据被传输至生理特征单元，生理特征单元对采用光电容积技术对视频数据进行处理以获取MD患者的心率指标；经过预处理的音频数据和视频数据被传输至特征构建单元，特征构建单元将对音频数据和视频数据进行计算分别得到音频特征数据和视频特征数据，计算得出的音频特征数据和视频特征数据被传输至特征融合单元，特征融合单元对语音特征和视频特征进行融合，得到情绪特征值；风险预警单元则根据得到的心率指标和情绪特征值与风险模型进行比对，从而预测该MD患者个体在未来一段时间情绪状态发展的趋势，同事风险预警单元在超出阈值进行风险预警。

为了描述的方便，描述以上装置时以功能分为各种单元、模块分别描述。当然，在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

以上所描述的装置实施方式仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

1.MD患者情绪波动监测和情感障碍状态评估的方法，其特征在于，包括以下步骤：

S2、将音视频数据进行预处理；

S4、将来自音视频预处理系统的数据通过算法获取特征；

2.根据权利要求1所述的MD患者情绪波动监测和情感障碍状态评估的方法，其特征在于，所述步骤S2中，音视频预处理包括语音数据预处理的步骤和视频数据预处理的步骤，其中，

语音数据预处理包括以下步骤：

(a)、预加重

H(z)＝1-a×Z^-1,0.9＜a＜1 (1)

(b)、加窗

使用Hamming窗口加窗；

(c)、分帧

使用可移动有限长窗口的加权；

视频数据预处理包括以下步骤：

(I)、填写缺失值

将两个相邻帧的平均值作为缺失值；

(II)、消除异常值

使用箱型图法消除；

(III)、平滑和滤波

平滑使用smoothdata函数，滤波使用卡尔曼滤波。

3.根据权利要求1所述的MD患者情绪波动监测和情感障碍状态评估的方法，其特征在于，所述步骤S3中，通过光电容积描积技术获取心率指标包括以下步骤：

S31、获取预处理后数据；

S37、由式(2)可得到每一帧视频信号的心率值：

HeartRate＝60*f (3)。

4.根据权利要求1所述的MD患者情绪波动监测和情感障碍状态评估的方法，其特征在于，所述步骤S4中，音视频预处理系统的数据通过算法获取特征包括语音特征构建和视频特征构建，语音特征构建包括以下步骤：

(1)、取预处理后的数据，得到一维非线性时间序列{x(i)}；

(2)、构造不同延迟时间t的d维相空间向量

y(i)＝x(i),…x(i+(d-1)t)，1≤i≤n-(d-1)t (4)；

(3)、每三十分之一秒计算一个轨迹矩阵；

(4)、获取语音相图；

视频特征构建包括以下步骤：

(1)、根据上一步预处理，得到图像序列；

(2)、对图像进行二维傅里叶变换，从时域映射到频域；

(3)、使用傅里叶逆变换对频谱图的每一列进行变换；

(4)、将变换到的数据保存为语音文件；

(5)、计算傅里叶特征图像。

5.根据权利要求1所述的MD患者情绪波动监测和情感障碍状态评估的方法，其特征在于，所述步骤S5中，语音特征和视频特征进行融合包括将步骤S4中得到的语音特征数据和视频特征数据按照时间顺序进行拼接，具体包括以下步骤：

(2)、进一步将数据进行差分，差分公式为：

(3)、进一步将数据映射变化方向

6.根据权利要求1所述的MD患者情绪波动监测和情感障碍状态评估的方法，其特征在于，所述步骤S6中，风险模型的建立包括以下步骤：

(1)、选择一定数量的被试，考虑年龄、性别、情绪状态、情感刺激方式、言语方式及情绪效价等重要因素设计，由合作医院精神科临床医生通过《简明国际神经精神访谈》和《PHQ-9》量表诊断被试；

(2)、根据《简明国际神经精神访谈》和《PHQ-9》得分情况，确定被试精神状态得分情况，被试状态分为：0正常、1轻度、2中度、3严重；

(3)、接下来给被试依次观看视频、访谈、阅读、图片描述，同时采集被试视频和声音，以此测量结果作为训练数据标签，在模型的验证阶段，将训练数据之外的目标用户的数据输入模型，得到的分类结果与医生的评测结果相比对，以判断模型识别的准确率。

7.MD患者情绪波动监测和情感障碍状态评估的系统，其特征在于，包括：