CN118866335A

Patents

Full documents

Title

Abstract

Claims

All

Any

Exact

Not

Add AND condition

These CPCs and their children

These exact CPCs

Add AND condition

Exact

Exact Batch

Similar

Substructure

Substructure (SMARTS)

Full documents

Claims only

Add AND condition

Application Numbers

Publication Numbers

Either

Add AND condition

一种基于人脸视频的抑郁症识别方法及系统

Abstract

本发明涉及视频识别技术领域，公开了一种基于人脸视频的抑郁症识别方法及系统，其方法包括以下步骤：综合收集视频、音频、文本及生理信号在内的多源数据，对多源数据进行预处理后得到多模态数据集，用于特征提取和模型训练；利用多模态数据集，通过深度学习架构训练的模型识别出抑郁症相关的情感、行为和生理特征，生成特征向量。本发明通过模拟目标对象的认知来识别真实人格的技术方案，克服传统情感识别方法的局限性，提供一个更加全面、个性化和情境敏感的评估方法，对于抑郁症等心理健康状况的识别尤为重要，能够帮助识别那些非言语行为可能无法完全揭示的深层心理状态，从而为更准确的诊断和干预提供支持。

Classifications

G16H50/20

ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

View 12 more classifications

Landscapes

Engineering & Computer Science

Health & Medical Sciences

CN118866335A

China

Download PDF

Find Prior Art

Similar

Other languages: English
Inventor: 宋思阳; 薛理; 廖荣凡; 陈天乐
Current Assignee The listed assignees may be inaccurate. : Anhui Emotion Recognition Technology Co ltd

2024

2024-08-09

Application filed by Anhui Emotion Recognition Technology Co ltd

2024-08-09

Priority to CN202411091891.6A

2024-10-29

Publication of CN118866335A

Status

Pending

Info: Legal events; Similar documents; Priority and Related Applications
External links: Espacenet; Global Dossier; Discuss

Description

一种基于人脸视频的抑郁症识别方法及系统

技术领域

本发明涉及视频识别领域，更具体地说，它涉及一种基于人脸视频的抑郁症识别方法及系统。

背景技术

抑郁症是一种复杂的精神疾病，其症状可能在不同个体中呈现多样性和动态变化。传统的人脸视频识别方法往往侧重于识别单一或有限数量的非言语行为，如人脸视频中反映出的持续的悲伤表情或低落的语调，这可能不足以全面反映抑郁症的多面性。

抑郁症患者可能经历情感波动、认知功能下降、动机丧失和决策障碍等多种症状，症状相互交织形成复杂的心理状态。

同时抑郁症患者之间的差异极大，即使相似的症状在不同个体身上也可能有截然不同的表现。传统的识别方法可能因未能充分考虑个体差异而导致识别率降低，甚至出现误诊。

发明内容

本发明提供一种基于人脸视频的抑郁症识别方法及系统，解决相关技术中的技术问题。

本发明提供了一种基于人脸视频的抑郁症识别方法，包括以下步骤：

S100：综合收集视频、音频、文本及生理信号在内的多源数据，对多源数据进行预处理后得到多模态数据集，用于特征提取和模型训练；

S200：利用多模态数据集，通过深度学习架构训练的模型识别出抑郁症相关的情感、行为和生理特征，生成特征向量；

S300：通过特征向量，基于收集的多模态数据集和训练好的深度学习模型，对个体连续情感状态的识别，输出连续情感标签以及基于连续情感标签的心理状态评估结果，其中连续情感标签表示个体的情感状态；

S400：利用特征向量和心理状态评估结果，结合视频背景信息，输出情境感知结果、动机识别结果以及建立情境感知结果和动机识别结果之间的关联；

S500：根据多源数据、特征向量和识别出的动机识别结果，获取个体在社交网络中的位置、影响力分析，以及基于时间序列分析的日常活动模式识别，用于评估生活质量和社交互动的影响；

S600：根据步骤S100至步骤S500的输出，基于个体特性的定制化诊断报告，包括抑郁症的诊断结果和治疗建议，以及动态调整的治疗规划，以实现个性化治疗。

进一步地，对多源数据的预处理包括：运用信号处理技术，确保视频、音频和生理信号的时间一致性，同时清洗数据，去除无关或异常值；

其中，视频帧序列为，音频信号为，生理信号为，则通过计算两两信号之间的时滞来实现同步：

其中，是信号的总时间长度，是时滞参数，它表示两个模态信号之间的时间差；

是使得内积或最大的值，使用了内积作为相似度度量，反映两个信号在相应时间点上的线性相关性；

进一步地，特征向量生成的步骤如下：其中视频帧为，通过CNN提取的特征向量为，语音信号为，通过LSTM提取的特征为，生理信号为，提取的特征为；

将三种模态的特征向量,和结合成一个多模态融合特征向量，注意力权重向量为，通过注意力权重向量会为每个模态的特征向量分配一个注意力权重；

多模态融合特征向量表示为：

注意力权重是通过softmax函数计算得出，以确保它们加起来等于1，表示每个模态对最终多模态融合特征向量的贡献程度；

注意力权重表示为：

其中，是与模态相关的权重向量，模态为、或，用于学习该模态特征的重要性。

进一步地，在步骤S200中还构建监督学习模型，以识别抑郁症相关的面部特征、语言模式和生理反应的模式，其中多模态融合特征向量为，抑郁症标签为，则模型训练的目标是最小化损失函数，最小化损失函数表示为：；其中，表示模型参数。

进一步地，在个体连续情感状态的识别中集成情感识别模块，利用连续情感标签，捕捉视频中个体的情感状态，其中情感识别模块的生成步骤如下：

将个体的情感状态映射到一个二维空间中，其中一个轴代表愉悦度，另一个轴代表唤醒度；

设视频帧中某时刻的面部表情特征为，语音特征为，生理信号特征为，则情感识别模型输出的情感状态表示为：

其中，是情感识别模型，是模型参数；

情感识别模型是基于深度神经网络的回归模型，其目标是最小化预测情感状态与真实情感状态之间的差异；

设训练数据集为，则模型训练的目标为：

其中，是训练数据集中样本的数量，是第个训练样本在视频模态上的特征向量，是第个训练样本在音频模态上的特征向量，是第个训练样本在生理信号模态上的特征向量，是第个训练样本的真实情感状态，由愉悦度和唤醒度组成，表示欧几里得范数，用来衡量两个情感状态向量之间的距离。

进一步地，在步骤S300中还包括自我反思模块，自我反思模块通过情感识别模型的情感识别结果，获取个体的心理状态评估结果，自我反思模块的评估步骤如下：

定义一组规则集合，用于从连续情感状态推断出心理状态；

规则的形式是：如果，，则；

其中，和是阈值参数，用于区分正常情感状态和抑郁倾向；

通过遍历规则集合，找到与当前情感状态最匹配的规则，从而得出个体的心理状态，这一过程的形式化为：

其中，是指示函数，如果条件成立，则返回1，否则返回0；是指在规则集合中查找那个使的值最大的规则。

进一步地，在步骤S400中，情境感知结果的输出步骤如下：

利用计算机视觉技术从视频帧中提取环境特征，视频帧为，使用预训练的场景分类模型提取场景特征；

建立情境影响模型，以量化环境特征对情感状态的影响，连续情感状态为，则场景特征为，情境影响模型表示为：

其中，是情境影响模型，是模型参数，表示元素乘积，为情景影响后的连续情感状态。

进一步地，在步骤S400中，动机识别结果的输出步骤如下：

识别视频中个体的活动类型，活动类型为，使用聚类算法对活动类型进行分组得到活动类别；

基于活动类别和连续情感状态推断个体的内在动机，设个体的内在动机类型集合为，则动机推断过程表示为：

其中，是概率估计函数，通过贝叶斯网络实现，参数通过贝叶斯推断进行优化；

情境感知和动机识别的模型训练目标是最大化观察到的环境特征、情感状态和活动模式与预测动机之间的匹配度；

设训练数据集为，则模型训练的目标为：

从视频中识别出个体所处的情境，理解情境对情感状态的影响，并推断出个体的内在动机；

其中，表示训练数据集，包含了个样本，每个样本由环境特征、情感状态、活动类别和内在动机组成；为动机识别模型的参数，为情境感知模型的参数，表示个体的内在动机，是情境感知模型，基于环境特征预测情感状态，是动机识别模型，用于计算给定活动类别和情感状态下的动机概率。

一种基于人脸视频的抑郁症识别系统，用于执行前述的基于人脸视频的抑郁症识别方法，包括：

数据采集与预处理模块：负责收集视频数据、音频数据、文本数据和生理信号数据，并进行预处理，输出预处理后的多模态数据集；

特征提取与模型训练模块：利用深度学习架构提取特征，并训练模型以识别抑郁症相关特征，输出抑郁症相关的特征向量，包括情感、行为和生理特征；

情感标签与心理状态评估模块：基于特征向量，并进行心理状态评估，输出连续情感标签和心理状态评估结果；

情境感知与动机识别模块：分析视频背景信息，识别情境和个体的动机，并建立情境感知结果和动机识别结果之间的关联，输出情境感知结果、动机识别结果及其关联；

社交网络分析与日常活动模式识别模块：分析个体在社交网络中的位置、影响力，识别日常活动模式，评估生活质量和社会互动影响，输出社交网络位置、影响力分析，以及日常活动模式识别结果；

报告生成与个性化治疗规划模块：整合所有前序模块的输出，生成定制化的诊断报告，再根据定制化的诊断报告输出个性化治疗报告，包含诊断、建议和规划。

一种存储介质，存储有非暂时性计算机可读指令，用于执行前述的基于人脸视频的抑郁症识别方法中的一个或多个步骤。

本发明的有益效果在于：本发明通过模拟目标对象的认知来识别真实人格的技术方案，旨在克服传统情感识别方法的局限性，提供一个更加全面、个性化和情境敏感的评估方法，对于抑郁症等心理健康状况的识别尤为重要，能够帮助识别那些非言语行为可能无法完全揭示的深层心理状态，从而为更准确的诊断和干预提供支持。

附图说明

图1是本发明提出的一种基于人脸视频的抑郁症识别方法的流程图；

图2是本发明提出的一种基于人脸视频的抑郁症识别系统的结构框图。

图中：101、数据采集与预处理模块；102、特征提取与模型训练模块；103、情感标签与心理状态评估模块；104、情境感知与动机识别模块；105、社交网络分析与日常活动模式识别模块；106、报告生成与个性化治疗规划模块。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其他例子中也可以进行组合。

参阅图1-图2所示，一种基于人脸视频的抑郁症识别方法，包括以下步骤：

在本发明的一个实施例中，数据来源是收集包含抑郁症患者和非抑郁症患者的视频数据，涵盖多种情境，如自然对话、日常活动、应激测试等，其中数据类型是除了视频，还应获取音频记录（语音语调分析），社交媒体文本（情感表达和语言模式），以及生理信号（心率、皮肤电导等）。

具体的，视频数据：采集抑郁症患者和非抑郁症对照组在不同情境下的视频资料，包括但不限于自然对话场景、日常生活活动片段，以及应激反应测试视频。视频数据旨在捕捉个体的面部表情、肢体语言和整体行为模式。

音频记录：伴随视频采集，收集语音音频，用于分析语音语调、节奏和音量变化，揭示潜在的情感状态和精神健康状况。

社交媒体文本：从社交媒体平台抓取参与者发布的文字内容，通过文本挖掘技术识别情感表达模式和语言使用习惯，作为抑郁症诊断的重要参考。

生理信号：利用可穿戴设备或实验室设置收集心率、皮肤电导（EDA）、脑电图（EEG）等生理指标，反映自主神经系统活动的变化。

预处理：运用信号处理技术，如降噪、同步和对齐，确保视频、音频和生理信号的时间一致性，同时清洗数据，去除无关或异常值。

信号降噪：采用数字滤波技术（例如，巴特沃斯滤波器、中值滤波器）去除噪声，保持信号纯净度。对于视频信号，可以应用帧间差分或背景减除方法消除环境干扰。

时间对齐与同步：确保视频、音频与生理信号之间的时间一致性，通常采用互相关函数（Cross-correlation）或延迟估计算法（如Generalized Cross-correlation）来精确校准不同模态数据的相对时间轴。

设视频帧序列为，音频信号为，生理信号如心率变化为，则通过计算两两信号之间的时滞来实现同步：

其中，表示视频帧序列随时间的变化，可以被看作是某一时刻视频帧的特征向量，这些特征可能由图像处理算法提取，例如颜色直方图、边缘检测结果或者深度信息等；

表示音频信号随时间的变化，音频信号是原始的波形数据，也可以是经过预处理后的特征，例如梅尔频率倒谱系数（MFCCs）、频谱或过零率等；

表示生理信号（如心率变化）随时间的变化，生理信号可以是心电图（ECG）、脑电图（EEG）或其他生物信号，这些信号同样可以被转换成特征向量用于分析。

是时滞参数，它表示两个模态信号之间的时间差。在实际应用中，这个时滞可能是由于记录设备的延迟、信号传输的时间或是生物过程本身的时间差异导致的。

是信号的总时间长度或者说是时间窗口的大小，即在同步过程中考虑的信号段的长度。

操作意味着寻找使得内积或最大的值，使用了内积（点乘）作为相似度度量，它反映了两个信号在相应时间点上的线性相关性。

同步过程通常涉及计算交叉相关函数（Cross-correlation），其数学形式为上面的公式所示。通过找到交叉相关函数的最大值对应的τ，可以确定两个信号之间的最佳时间对齐。

上述式中的和实际上是在执行逐元素的乘法（即哈达玛积），然后对所有时间点的结果求和，得到一个标量值，表示两个信号在考虑的时间窗口内的相关程度。

数据清洗：识别并剔除异常值，处理缺失数据，涉及统计学方法如3σ原则（任何正态分布的数据，约99.7%的数值位于平均数加减三个标准差内）或机器学习算法（如Isolation Forests）检测离群点。

特征提取：从预处理后的数据中提取有意义的特征，如面部表情的关键点坐标、语音的基频和过零率、文本的情感得分、生理信号的周期性指标等，并整合得到多模态数据集，为后续的模型训练准备。

S200：利用多模态数据集，经过深度学习架构训练的模型，识别出抑郁症相关的情感、行为和生理特征，生成特征向量；

多模态融合：采用多模态注意力网络，结合视觉（面部表情）、听觉（语音语调）和生理信号，提取情感相关特征。

在多模态抑郁症识别系统中，采用深度学习架构进行特征提取与模型训练，旨在从视觉、听觉和生理信号中识别抑郁症的生物标志物。具体而言，利用多模态注意力网络（Multi-modal Attention Network, MAN）来整合并学习不同模态间的信息互补性。

视觉特征：利用深度卷积神经网络（Convolutional Neural Networks,CNNs）从视频帧中提取面部表情特征，如微笑、皱眉、眨眼频率等。假设视频帧为，CNN提取的特征向量为。

听觉特征：通过长短期记忆网络（Long Short-Term Memory,LSTM）分析语音信号，捕捉语调、节奏和强度等语音特征。

设语音信号为，LSTM提取的特征为。

生理特征：从心率、皮肤电导等生理信号中提取与情感状态相关的特征，例如心率变异性（HRV）。

假设生理信号为，提取的特征为。

深度学习模型：训练深度卷积神经网络（CNNs）和长短期记忆网络（LSTMs）组合的模型，识别视频中个体的微表情、眼睛运动、瞳孔大小等生物标志物。

多模态注意力网络通过权重分配机制，学习不同模态信息对最终决策的贡献度。

将上述三种模态的特征向量,和结合成一个多模态融合特征向量。使用多模态注意力网络（MAN）可以实现这一点，注意力权重向量为，会为每个模态的特征向量分配一个注意力权重。

注意力权重是通过softmax函数计算得出，以确保它们加起来等于1，表示每个模态对最终多模态融合特征向量的贡献程度。

最终的多模态融合特征向量可以表示为：

注意力权重表示为：

其中，是与模态相关的权重向量，模态为、或，用于学习该模态特征的重要性，T表示转置，表示自然指数函数。

情感-行为-生理关联：构建监督学习模型，如支持向量机（SVM）或深度神经网络，以识别抑郁症相关的面部特征、语言模式和生理反应的模式。

最后，构建一个监督学习模型，如支持向量机（Support Vector Machine,SVM）或深度神经网络（Deep Neural Network,DNN），用于识别抑郁症相关的模式。

设最终多模态融合特征向量为，抑郁症标签为，则模型训练的目标是最小化损失函数，最小化损失函数表示为：

其中，表示模型参数。

对于SVM，损失函数可是铰链损失；

在本发明的一个实施例中，对于SVM，损失函数可是铰链损失，即：

对于DNN，可以是交叉熵损失。

在本发明的一个实施例中，对于DNN，损失函数可是交叉熵损失，即：

其中，是DNN输出的抑郁症预测概率，而是sigmoid函数。

通过上述步骤，能够从多模态数据中提取抑郁症相关特征，并训练模型识别这些特征，从而实现抑郁症的有效识别与诊断。

情感-行为-生理关联特征向量：最后，将多模态融合特征向量输入到监督学习模型中，如支持向量机（SVM）或深度神经网络（DNN），在训练阶段，模型会学习如何将映射到抑郁症的分类标签，经过训练，模型的权重和偏置等参数将被优化，以便从中提取出与抑郁症最相关的特征。

S300：通过特征向量，基于前两个步骤收集的多模态数据和训练好的深度学习模型，实现对个体连续情感状态的识别，输出连续情感标签以及基于连续情感标签的心理状态评估结果，其中连续情感标签表示个体的情感状态；

在本发明的一个实施例中，情感识别中集成情感识别模块，利用连续情感标签，精确捕捉视频中个体的情感状态。

在步骤S300中，继续基于前两个步骤收集的多模态数据和训练好的深度学习模型，实现对个体连续情感状态的识别。

这一过程涉及到对视频中面部表情、语音语调以及生理信号的连续情感分析，以获得更加细腻和准确的情感识别结果。

连续情感空间：将情感状态映射到一个二维空间中，其中一个轴代表愉悦度（Valence），另一个轴代表唤醒度（Arousal）。

设视频帧中某时刻的面部表情特征为，语音特征为，生理信号特征为，则情感识别模型输出的情感状态可以表示为：

其中，是情感识别模型，是模型参数。

模型训练：情感识别模型可以是基于深度神经网络的回归模型，其目标是最小化预测情感状态与真实情感状态之间的差异。

设训练数据集为，则模型训练的目标为：

其中，是训练数据集中样本的数量，在情感识别的上下文中，意味着模型是在N个不同的实例上进行训练的，每个实例包含多模态数据和对应的情感标签；

是第个训练样本在视频模态上的特征向量。它可能包含了从视频帧中提取的面部表情特征，例如眼睛的开合程度、嘴角的上扬角度、眉毛的位置等。这些特征通常经过预处理和特征提取步骤，以便于机器学习模型理解和处理；

是第个训练样本在音频模态上的特征向量。这可能包括了语音的音高、语速、音量和其他声学特征。音频特征可以提供关于说话人情感状态的重要线索，如紧张、兴奋或平静。

是第个训练样本在生理信号模态上的特征向量。生理信号可以包括心率、皮肤电导反应（GSR）、呼吸频率等，这些都是反映个体心理和生理状态的指标，可以辅助判断其情感状态。

是第个训练样本的真实情感状态，由愉悦度（Valence）和唤醒度（Arousal）组成。在情感识别领域，情感状态经常使用这样的二维坐标来表示，其中：

Valence（愉悦度）：描述了情感的正负倾向，正值表示更积极的情感，如快乐或满足；负值表示更消极的情感，如悲伤或愤怒。

Arousal（唤醒度）：描述了情感的强度或激活水平，高值表示强烈或活跃的情感状态，低值表示平和或放松的状态。

表示欧几里得范数，即向量的长度，用来衡量两个情感状态向量之间的距离。

这些参数一起构成情感识别模型的训练基础，模型试图学习如何从输入的多模态特征预测出正确的情感状态。通过优化模型参数来最小化预测值和实际值之间的差距，从而提高模型的预测能力。

在本发明的一个实施例中，自我反思模块是基于规则的推理系统，结合情感识别结果，评估个体的心理状态，如抑郁倾向。

自我反思模块旨在基于情感识别的结果，进一步推断个体的内心心理状态，尤其是针对抑郁症的倾向性评估。这一模块可以被视为一个基于规则的推理系统，结合已有的心理学理论和临床经验，对个体的情感状态进行深度分析。

规则推理：定义一组规则集合，用于从连续情感状态推断出心理状态。

规则的形式可以是：如果，，则；

其中，和是阈值参数，用于区分正常情感状态和抑郁倾向，这些参数可以根据临床经验或通过机器学习的方式进行优化。

心理状态评估：通过遍历规则集合，找到与当前情感状态最匹配的规则，从而得出个体的心理状态。这一过程可以形式化为：

其中，是指示函数，如果条件成立则返回1，否则返回0。

其中，为规则集合，包含了一系列的规则，每个规则描述了一个特定的心理状态所对应的情感区域。例如，一个规则可能定义了当愉悦度在某个范围内，且唤醒度在另一个范围内时，个体处于某种心理状态。

为当前情感状态，由愉悦度和唤醒度组成，表示个体在连续情感空间中的位置，情感状态是由前面讨论的情绪识别模型输出的。

是指指示函数用于判断一个逻辑条件是否成立。在本例中，的值取决于规则是否适用于情感状态，如果情感状态符合规则定义的条件，那么的值为1；否则，它的值为0。

是指在规则集合中查找那个使的值最大的规则，由于是一个二值函数，这个最大值实际上是查找那个符合条件的规则，即找到与当前情感状态最匹配的心理状态规则。

在本发明的一个实施例中，情境感知是基于分析视频背景，识别个体所处的环境，理解情境对情感的影响。

在情境感知阶段，目标是理解视频中的背景环境，并分析其对个体情感状态的影响。这一步骤建立在前面的数据收集、特征提取和情感识别的基础上，旨在更深层次地理解情感产生的原因。

环境特征提取：首先，利用计算机视觉技术从视频帧中提取环境特征。假设视频帧为，使用预训练的场景分类模型（如ResNet）提取场景特征。场景特征可以包括室内或室外、白天或夜晚、繁忙或安静等信息。

情境影响评估：接下来，建立情境影响模型，以量化环境特征对情感状态的影响。设连续情感状态为，场景特征为，则情境影响模型可以表示为：

其中，是情境影响模型，是模型参数，表示元素乘积。通过调整参数，模型可以学习到不同场景特征对情感状态的影响程度。

在本发明的一个实施例中，动机识别是通过算法理解个体参与活动的内在动机，如安全感、归属感或成就感，辅助评估抑郁症的严重程度。

动机识别模块旨在理解个体参与活动的内在动机，这对于评估抑郁症的严重程度至关重要。通过分析个体的行为模式和情感状态，推断出其潜在的动机。

行为模式分析：首先识别视频中个体的活动类型，如社交、工作、休息等。设活动类型为，可以使用聚类算法（如K-means）对活动类型进行分组，得到活动类别。

动机推断：接下来，基于活动类别和情感状态推断个体的内在动机。设动机类型集合为，则动机推断过程可以表示为：

其中，是概率估计函数，可以通过贝叶斯网络或深度学习模型实现。参数可以通过最大似然估计或贝叶斯推断进行优化。

参数优化与模型训练

情境感知和动机识别的模型训练目标是最大化观察到的环境特征、情感状态和活动模式与预测动机之间的匹配度。

设训练数据集为，则模型训练的目标为：

其中，是视频中个体在某时间点执行的活动类型。这可以是如社交、工作、休息等各种活动；表示活动类别集合，通过对活动类型使用聚类算法（如K-means）得到，聚类可以帮助归纳相似的活动类型，减少数据维度并简化后续的分析；表示动机类型集合，包含了可能的内在动机种类，如探索、社交、逃避、成就追求等；表示个体的内在动机，它是通过动机推断过程确定的，这里的是从动机类型集合中找到的最有可能的动机，给定当前的活动类别和情感状态；为概率估计函数，用于计算给定活动类别和情感状态下动机的概率，这可以通过贝叶斯网络或深度学习模型实现；为动机识别模型的参数，可以通过最大似然估计或贝叶斯推断等方法进行优化，以提高模型的预测准确性；为情境感知模型的参数，用于处理环境特征并预测情感状态；

表示视频帧中捕捉到的环境特征，可能包括场景、人物、物体等，这些特征有助于理解情境背景；表示训练数据集，包含了个样本，每个样本由环境特征、情感状态、活动类别和内在动机组成；是情境感知模型，用于基于环境特征预测情感状态；是动机识别模型，用于计算给定活动类别和情感状态下的动机概率。

通过上述步骤，能够从视频中识别出个体所处的情境，理解情境对情感状态的影响，并推断出个体的内在动机。这一过程紧密结合了数据收集与预处理（S100）、特征提取与模型训练（S200）以及情感识别（S300）的成果，为后续的心理健康评估和干预提供了更加全面和深入的视角。

在本发明的一个实施例中，社会交互分析：利用图神经网络（GNN）评估个体在社交网络中的角色和影响力，洞察其社会关系的质量。

在这个步骤中，专注于分析个体在社交网络中的位置和影响力，以及这些因素对其心理状态的影响。这一步骤建立在之前收集的数据、特征提取、情感识别和情境感知的基础上，进一步探究社交环境对个体心理健康的作用。

社交网络建模：首先构建社交网络图，其中节点表示个体，边表示个体之间的社交联系。设个体的社交网络特征向量为，则社交网络图可以表示为：

其中，是所有个体的特征矩阵。

图神经网络分析：接下来，利用图神经网络（GNN）对社交网络图进行分析，以评估个体在社交网络中的角色和影响力。

设GNN的参数为，则个体的社交影响力可以表示为：

其中，是图神经网络模型，是个体的社交影响力分数。

在本发明的一个实施例中，行为模式识别：应用时间序列分析，检测视频中个体的行为模式，如日常活动参与度的变化，评估生活质量。

在行为模式识别部分，目标是检测视频中个体的行为模式，尤其是在日常生活中的活动参与度变化，以此评估其生活质量。这一步骤同样依赖于先前的数据处理和特征提取步骤。

时间序列建模：使用时间序列分析方法，如自回归滑动平均模型（ARIMA）或长短时记忆网络（LSTM），对个体的行为模式进行建模。

设个体的时间序列行为数据为，则时间序列模型可以表示为：

其中，是时间序列模型，是模型参数。

行为模式识别：通过拟合时间序列模型，可以识别出个体的行为模式，如日常活动的参与度。

设行为模式为，则行为模式识别过程可以表示为：

其中，是概率估计函数，可以通过最大似然估计或贝叶斯推断求解。

参数优化与模型训练

社交网络分析和行为模式识别的模型训练目标是最大化社交影响力和行为模式与观察到的社交网络图和时间序列行为数据之间的匹配度。

设训练数据集为，则模型训练的目标为：

通过上述步骤，能够深入了解个体在社交网络中的位置和影响力，以及其日常活动模式和生活质量。

这一过程紧密结合了数据收集与预处理、特征提取与模型训练、情感识别和情境感知与动机识别的成果，为心理健康评估提供了更加丰富和全面的数据支持。

S600：根据步骤S100至步骤S500的输出，基于个体特性的定制化诊断报告，包括抑郁症的诊断结果和治疗建议，以及动态调整的治疗规划，以实现个性化治疗；

在本发明的一个实施例中，基于前五个步骤（S100-S500）中收集到的多模态数据和分析结果，生成一个针对个体特性的诊断报告。

此报告将整合以下几个关键元素：

病史：收集的个人医疗历史和家族病史；

遗传背景：收集遗传学数据，识别任何已知的遗传风险因素；

生活环境：收集的环境和社会因素，如工作压力和家庭关系；

情感、行为和生理特征：从步骤S200中识别的抑郁症相关特征，如面部表情、语音语调变化和生理信号的异常模式；

情感状态：步骤S300中通过连续情感标签和自我反思模块评估的心理状态；

情境感知和动机：步骤S400中识别的个体情感产生背景和行为驱动；

社会交互和行为模式：步骤S500中分析的社交网络位置、日常活动模式和生活质量评估；

报告将综合以上信息，使用数学表达式来量化和描述个体的抑郁症状态。例如，抑郁程度可以通过一个加权平均函数来表示，该函数结合了所有模态的信息：

其中，是抑郁程度的量化值，,,分别是视觉、听觉和生理特征的权重，,,是从步骤S200中得到的特征，是自我反思模块评估结果，是情境感知和动机识别结果，是社会交互分析结果，是行为模式识别的结果，,,,是相应的权重系数。

在本发明的一个实施例中，治疗策略制定是基于识别结果，设计定制化的治疗方案，包括心理干预、药物治疗和生活方式建议。

在本发明的一个实施例中，治疗策略制定步骤如下：

基于上述诊断报告，步骤S600阶段将设计一个定制化的治疗方案，包括：

心理干预：根据个体的情感状态和认知功能，设计个性化的心理疗法，如认知行为疗法（CBT）。

心理干预的频率和强度可以由下述函数决定：

其中，是干预强度，和分别代表抑郁程度和自我反思模块的评估结果。

药物治疗：基于遗传背景和抑郁程度，选择最适合的抗抑郁药物，药物剂量可以由下述函数确定：

其中，是遗传背景，是抑郁程度。

生活方式建议：根据个体的生活环境和行为模式，提出个性化的建议，如增加体育活动、改善饮食和睡眠习惯。

治疗规划还将包括一个动态调整机制，定期根据患者的反馈和进展调整治疗方案。例如，如果观察到抑郁程度明显降低，可以适当减少心理干预的频率或调整药物剂量。

这种动态调整确保了治疗方案的持续优化，以实现最佳的治疗效果。

在本发明的一个实施例中，在获取到定制化的治疗方案后，还需要实施长期跟踪监测，依据个体心理健康状态变化主动调整治疗方案，确保及时有效的干预；

具体的，定期收集个体的多模态数据，持续监测其心理健康状态，及时调整治疗计划；当监测到抑郁症状恶化时，系统自动触发干预措施，如发送心理支持信息或联系医疗专业人员。

一种基于人脸视频的抑郁症识别系统，包括：

数据采集与预处理模块101：负责收集视频数据、音频数据、文本数据和生理信号数据，并进行预处理，例如视频的裁剪、缩放、去噪，音频的降噪和标准化，以及生理信号的滤波和同步，输出预处理后的多模态数据集；

特征提取与模型训练模块102：利用深度学习架构从视频帧、音频流和生理信号中提取特征，并训练模型以识别抑郁症相关特征，输出抑郁症相关的特征向量，包括情感、行为和生理特征；

情感标签与心理状态评估模块103：基于特征向量，输出连续的情感标签，反映个体情感状态，并进行心理状态评估，输出连续情感标签和心理状态评估结果；

情境感知与动机识别模块104：分析视频背景信息，识别情境和个体的动机，并建立情境感知结果和动机识别结果之间的关联，输出情境感知结果、动机识别结果及其关联；

社交网络分析与日常活动模式识别模块105：分析个体在社交网络中的位置、影响力，识别日常活动模式，评估生活质量和社会互动影响，输出社交网络位置、影响力分析，以及日常活动模式识别结果；

报告生成与个性化治疗规划模块106：整合所有前序模块的输出，生成定制化的诊断报告，包括抑郁症诊断、治疗建议和动态调整的治疗规划，最终输出个性化治疗报告，包含诊断、建议和规划。

本发明公开的至少一实施例提供一种存储介质，存储有非暂时性计算机可读指令，用于执行前述的基于人脸视频的抑郁症识别方法中的一个或多个步骤。

计算机程序可以被存储/分布在合适的介质上，例如与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质，但是也可以被以其他形式分布，例如经由互联网或其他有线或无线的电信系统来分布。

上面对本实施例的实施例进行了描述，但是本实施例并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本实施例的启示下，还可做出很多形式，均属于本实施例的保护之内。

Claims (10)

Hide Dependent

1.一种基于人脸视频的抑郁症识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于人脸视频的抑郁症识别方法，其特征在于，对多源数据的预处理包括：运用信号处理技术，确保视频、音频和生理信号的时间一致性，同时清洗数据，去除无关或异常值；

；

其中，是信号的总时间长度，是时滞参数，它表示两个模态信号之间的时间差，是使得内积或最大的值，使用了内积作为相似度度量，反映两个信号在相应时间点上的线性相关性。

3.根据权利要求2所述的一种基于人脸视频的抑郁症识别方法，其特征在于，特征向量生成的步骤如下：其中视频帧为，通过CNN提取的特征向量为，语音信号为，通过LSTM提取的特征为，生理信号为，提取的特征为；

多模态融合特征向量表示为：

；

注意力权重表示为：

；

4.根据权利要求3所述的一种基于人脸视频的抑郁症识别方法，其特征在于，在步骤S200中还构建监督学习模型，以识别抑郁症相关的面部特征、语言模式和生理反应的模式，其中多模态融合特征向量为，抑郁症标签为，则模型训练的目标是最小化损失函数，最小化损失函数表示为：；其中，表示模型参数。

5.根据权利要求1所述的一种基于人脸视频的抑郁症识别方法，其特征在于，在个体连续情感状态的识别中集成情感识别模块，利用连续情感标签，捕捉视频中个体的情感状态，其中情感识别模块的生成步骤如下：

；

其中，是情感识别模型，是模型参数；

设训练数据集为，则模型训练的目标为：

；

6.根据权利要求1所述的一种基于人脸视频的抑郁症识别方法，其特征在于，在步骤S300中还包括自我反思模块，自我反思模块通过情感识别模型的情感识别结果，获取个体的心理状态评估结果，自我反思模块的评估步骤如下：

定义一组规则集合，用于从连续情感状态推断出心理状态；

规则的形式是：如果，，则；

其中，和是阈值参数，用于区分正常情感状态和抑郁倾向；

；

7.根据权利要求1所述的一种基于人脸视频的抑郁症识别方法，其特征在于，在步骤S400中，情境感知结果的输出步骤如下：

；

8.根据权利要求1所述的一种基于人脸视频的抑郁症识别方法，其特征在于，在步骤S400中，动机识别结果的输出步骤如下：

；

设训练数据集为，则模型训练的目标为：

；

9.一种基于人脸视频的抑郁症识别系统，用于执行如权利要求1-8中任一所述的基于人脸视频的抑郁症识别方法，其特征在于，包括：

数据采集与预处理模块（101）：负责收集视频数据、音频数据、文本数据和生理信号数据，并进行预处理，输出预处理后的多模态数据集；

特征提取与模型训练模块（102）：利用深度学习架构提取特征，并训练模型以识别抑郁症相关特征，输出抑郁症相关的特征向量，包括情感、行为和生理特征；

情感标签与心理状态评估模块（103）：基于特征向量，并进行心理状态评估，输出连续情感标签和心理状态评估结果；

情境感知与动机识别模块（104）：分析视频背景信息，识别情境和个体的动机，并建立情境感知结果和动机识别结果之间的关联，输出情境感知结果、动机识别结果及其关联；

社交网络分析与日常活动模式识别模块（105）：分析个体在社交网络中的位置、影响力，识别日常活动模式，评估生活质量和社会互动影响，输出社交网络位置、影响力分析，以及日常活动模式识别结果；

报告生成与个性化治疗规划模块（106）：整合所有前序模块的输出，生成定制化的诊断报告，再根据定制化的诊断报告输出个性化治疗报告，包含诊断、建议和规划。

10.一种存储介质，其特征在于，存储有非暂时性计算机可读指令，用于执行权利要求1-8中任一所述的基于人脸视频的抑郁症识别方法中的一个或多个步骤。

Priority And Related Applications

Priority Applications (1)

Application Priority date Filing date Title

CN202411091891.6A

2024-08-09 2024-08-09 一种基于人脸视频的抑郁症识别方法及系统

Applications Claiming Priority (1)

Application Filing date Title

CN202411091891.6A

2024-08-09 一种基于人脸视频的抑郁症识别方法及系统

Legal Events

Date Code Title Description

2024-10-29 PB01 Publication

Concepts

Download

Name Image Sections Count Query match

method

title,claims,abstract,description 50 0.000

vector

claims,abstract,description 65 0.000

training

claims,abstract,description 57 0.000

emotion recognition

claims,abstract,description 32 0.000

emotion

claims,abstract,description 29 0.000

diagnosis

claims,abstract,description 17 0.000

extraction

claims,abstract,description 16 0.000

pre-processing

claims,abstract,description 13 0.000

evaluation

claims,abstract,description 11 0.000

deep learning

claims,abstract,description 8 0.000

engineering process

claims,abstract,description 8 0.000

emotional effect

claims,description 86 0.000

motivation

claims,description 72 0.000

effects

claims,description 53 0.000

function

claims,description 29 0.000

treatment

claims,description 27 0.000

behavioural effect

claims,description 18 0.000

process

claims,description 18 0.000

environmental effect

claims,description 16 0.000

pattern recognition

claims,description 16 0.000

perception

claims,description 16 0.000

analytical method

claims,description 14 0.000

fusion

claims,description 14 0.000

arousal

claims,description 10 0.000

facial expression

claims,description 10 0.000

social interaction

claims,description 10 0.000

artificial neural network

claims,description 9 0.000

calculation algorithm

claims,description 8 0.000

convolutional neural network

claims,description 7 0.000

deep learning model

claims,description 7 0.000

facial effect

claims,description 7 0.000

language

claims,description 6 0.000

optimization

claims,description 6 0.000

processing

claims,description 6 0.000

mental state

claims,description 5 0.000

mixture

claims,description 5 0.000

network analysis

claims,description 5 0.000

sound signal

claims,description 5 0.000

temporal analysis

claims,description 5 0.000

time series analysis

claims,description 5 0.000

cleaning

claims,description 4 0.000

depressive effect

claims,description 4 0.000

storage

claims,description 4 0.000

classification model

claims,description 3 0.000

physiological response

claims,description 3 0.000

similarity measure

claims,description 3 0.000

abnormal effect

claims,description 2 0.000

mapping

claims,description 2 0.000

transposition

claims,description 2 0.000

behavior

abstract,description 12 0.000

mental health

abstract,description 8 0.000

vocal effect

abstract,description 3 0.000

cognition

abstract,description 2 0.000

Show all concepts from the description section