CN116665845A

CN116665845A - 一种基于多模态数据用户情绪自测系统

Info

Publication number: CN116665845A
Application number: CN202310558652.6A
Authority: CN
Inventors: 李雅; 任一鸣; 高迎明; 李启飞; 王栋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-08-29

Abstract

本发明提供一种基于多模态数据用户情绪自测系统，包括：信息获取模块、多模态数据处理模块、数据存储模块和评估模块；信息获取模块接收用户个人信息；多模态数据处理模块中，量表自测模块向用户提供情绪测试量表并计算分数；语音检测模块向用户发送带有多种情感激发的问题，并收集答复语音；对答复语音进行VAD处理后，由预设模型提取音频特征；离线状态下，将答复语音转换为文本数据，提取文本情感特征；视频检测模块向用户发送带有多种情感激发的视频，并收集用户观看时的行为视频，由预设模型提取其中的视频特征；评估模块根据上述得到的特征，得到情绪分析数据及评估值。本发明的系统支持远程自测，医疗成本低，检测流程标准且客观。

Description

一种基于多模态数据用户情绪自测系统

技术领域

本发明涉及数据收集与处理技术领域，尤其涉及一种基于多模态数据用户情绪自测系统。

背景技术

抑郁症是一种世界范围内常见的精神疾病，主要表现为情绪低落、思维缓慢、意志活动减弱等。抑郁症已经成为主要的健康问题之一，全球约有3亿人受到抑郁症的影响。根据世界卫生组织(世卫组织)2021年青少年心理健康报告，全世界10～19岁的人群中，每7人中就有1人患有精神障碍，抑郁症是这一年龄组的主要病因之一。

抑郁症是一种典型的心理障碍，随着病情恶化，可能会导致患者发生自杀、自残等行为。青少年正处于成长的关键时期，因此抑郁症对其而言更加危险。幸运的是，早期发现和诊断有助于防止病情恶化，减少抑郁症造成的损害。因此，早期发现和诊断对于预防和治疗抑郁症至关重要。

现有技术方案包括有问卷调查、神经影像技术、生物标志物、行为和认知测试等等。其中，问卷调查是一种广泛使用的抑郁症研究数据收集方法，使用标准化的抑郁症问卷来评估受试者的心理状况，但存在回忆偏差和主观性等局限性。神经影像技术通过收集大量关于抑郁症患者神经系统结构和功能的信息，以诊断抑郁症。生物标志物是一种物理或化学指标，可以提供与抑郁症患者的生理状况相关的信息，以及可能与抑郁症发病机制有关的生化通路的信息。行为和认知测试可以评估抑郁症患者的认知和行为功能，如反应时间测试、工作记忆测试和认知柔性测试等测试。以上方案需要患者亲自前往医院或诊所，且需要医生陪同完成，诊断效率低，诊断结果受医生主观因素影响，医疗成本高，无法实现远程诊断。

发明内容

鉴于此，本发明实施例提供了一种基于多模态数据用户情绪自测系统，以消除或改善现有技术中存在的一个或更多个缺陷，解决现有的情绪/心理检测治疗技术方案中存在的诊断效率低、诊断结果受医生主观因素影响、医疗成本高、无法实现远程诊断的问题。

本发明提供一种基于多模态数据用户情绪自测系统，其特征在于，所述系统关联至预设平台，以应用程序的形式展现，所述系统包括：

多模态数据处理模块；所述多模态数据处理模块包括量表自测模块、语音检测模块和视频检测模块；

所述量表自测模块响应于用户请求提供多种情绪测试表，接收所述用户反馈的情绪测试表填报结果，并根据所述情绪测试表填报结果生成对应的自测分数；

所述语音检测模块响应于所述用户请求以文字形式提供多种带有情感激发的问题，并接收所述用户针对所述问题反馈的答复语音；对所述答复语音进行语音端点检测处理，将所述答复语音合并为短音频；将所述短音频输入预训练得到的音频特征提取模型中，得到用于判断用户情感的音频特征；在离线状态下，将所述答复语音转换为文本数据，并基于预设算法得到所述文本数据的文本情感特征；

所述视频检测模块响应于所述用户请求以视频形式提供多种带有情感激发的视频片段，并同步采集所述用户在观看所述视频片段过程中的行为视频，所述行为视频包括用户的表情和动作；对所述行为视频进行预处理后输入预训练得到的视频特征提取模型中，得到用于判断用户情感的视频特征；

数据存储模块，用于存储所述自测分数、所述答复语音、所述文本数据、所述文本情感特征、所述音频特征、所述行为视频和所述视频特征；

评估模块，根据所述自测分数、所述文本情感特征、所述音频特征和所述视频特征，得到用户的情绪分析数据及评估值。

在本发明的一些实施例中，所述系统还包括：

所述量表自测模块响应于用户请求提供多种抑郁量表，所述抑郁量表包括汉密尔顿量表、贝克抑郁量表、患者健康问卷和自评抑郁量表；接收所述用户反馈的抑郁量表填报结果，并根据所述抑郁量表填报结果生成对应的自测分数；

所述语音检测模块响应于所述用户请求以文字形式提供用于诊断抑郁症的多种带有积极情感、消极情感、中性情感激发的问题，并接收所述用户针对所述问题反馈的答复语音；对所述答复语音进行语音端点检测处理，将所述答复语音合并为短音频；将所述短音频输入预训练得到的音频特征提取模型中，得到用于判断用户情感的音频特征；在离线状态下，将所述答复语音转换为文本数据，并基于预设算法得到所述文本数据的文本情感特征；

所述视频检测模块响应于所述用户请求以视频形式提供用于诊断抑郁症的多种带有积极情感、消极情感、中性情感激发的视频片段，并同步采集所述用户在观看所述视频片段过程中的行为视频，所述行为视频包括用户的表情和动作；对所述行为视频进行预处理后输入预训练得到的视频特征提取模型中，得到用于判断用户情感的视频特征；

评估模块，用于根据所述自测分数、所述文本情感特征、所述音频特征和所述视频特征，得到用户的情绪分析数据以及患有抑郁症的概率值。

在本发明的一些实施例中，所述系统还包括信息获取模块，所述信息获取模块用于接收用户输入的个人信息，所述个人信息包括年龄、性别、心理咨询记录。

在本发明的一些实施例中，所述信息获取模块和所述多模态数据处理模块均设有用户知情和用户授权模块。

在本发明的一些实施例中，所述语音检测模块包括音频质检模块，所述音频质检模块用于预先录制环境音和用户语音样例，并对其计算音频能量及信噪比，以保证后续录制的答复语音的音频质量。

在本发明的一些实施例中，所述语音检测模块与预设录音设备连接，所述预设录音设备用于记录用户在回答问题时的答复语音，将所述答复语音上传至所述语音检测模块，并存储于所述数据存储模块。

在本发明的一些实施例中，所述语音检测模块包括语音识别模块，所述语音识别模块中设有语音识别模型，将所述答复语音输入所述语音识别模型进行识别，并对识别结果进行数据处理和解码操作，得到所述文本数据；对所述文本数据进行数据预处理，提取所述文本情感特征。

在本发明的一些实施例中，所述系统还包括：

所述音频特征提取模型是通过采用基于多个用户的答复语音构建的音频训练样本集对初始神经网络模型训练得到的，其中，将各用户对应的自测分数作为所述音频训练样本集的标签；

所述视频特征提取模型是通过采用基于多个用户的行为视频构建的视频训练样本集对初始神经网络模型训练得到的，其中，将各用户对应的自测分数作为所述视频训练样本集的标签。

在本发明的一些实施例中，所述视频检测模块与预设摄像设备连接，所述预设摄像设备用于记录用户在观看过程中的行为视频，将所述行为视频上传至所述视频检测模块，并存储于所述数据存储模块。

在本发明的一些实施例中，所述视频检测模块设有关键点特征提取模块，用于提取所述行为视频中的关键点，所述关键点包括表情关键点和动作关键点，并计算所述行为视频中相邻帧之间所述关键点的运动信息，所述运动信息包括运动方向、运动速度和运动加速度。

本发明的有益效果至少是：

本发明提供一种基于多模态数据用户情绪自测系统，包括：以组件形式设置于预设平台应用程序中的信息获取模块、多模态数据处理模块、数据存储模块和评估模块；信息获取模块用于接收用户个人信息；多模态数据处理模块中，量表自测模块用于向用户提供情绪测试量表并计算分数；语音检测模块用于向用户发送带有多种情感激发的问题，并收集答复语音；对答复语音进行VAD处理后，由预设模型提取音频特征；在离线状态下，将答复语音转换为文本数据，提取文本情感特征；视频检测模块用于向用户发送带有多种情感激发的视频，并收集用户观看时的行为视频，由预设模型提取其中的视频特征；评估模块用于根据上述得到的量表分数、文本情感特征、音频特征和视频特征，得到情绪分析数据及评估值，本发明的系统可被应用于抑郁症等心理疾病的诊断中，其采用平台应用程序为载体，实现在线的数据收集和实时处理，大大提高了数据采集和分析的效率和准确性，同时，应用程序作为一种基于互联网的在线服务平台，可以实现医疗资源共享，实现医疗服务线上化，极大降低医疗成本；收集以不同情感激发为前提的音频、文本和视频的多模态数据，数据全面且质量高，为情绪/心理的诊断和评估提供重要数据支持；支持远程诊断，患者不需要亲自前往医院，即可及时获得专业的医疗服务，降低交通成本。

进一步的，在语音检测模块中，采用语音识别模块将答复语音转换为文本数据，并基于自然语言处理提取文本情感特征，采用深度学习模型提取音频特征，在视频检测模块中，采用深度学习模型提取视频特征，实现了自动化及智能化的诊断，极大提高诊断效率，同时，诊断流程标准且客观，诊断结果不再受医生主观因素的影响，诊断准确率得到提升。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例中基于多模态数据用户情绪自测系统的结构框图。

图2为本发明一实施例中信息获取模块的流程框图。

图3为本发明一实施例中语音检测模块的流程框图。

图4为本发明一实施例中视频检测模块的流程框图。

标记说明：

100：信息获取模块； 200：多模态数据处理模块； 300：数据存储模块；

400：评估模块； 500：用户知情和用户授权模块；210：量表自测模块；

220：语音检测模块； 221：预设录音设备； 222：音频质检模块；

223：语音识别模型； 230：视频检测模块； 231：预设摄像设备。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

为了解决现有的情绪/心理检测治疗技术方案中存在的诊断效率低、诊断结果受医生主观因素影响、医疗成本高、无法实现远程诊断的问题，本发明提供一种基于多模态数据用户情绪自测系统，该系统关联至预设平台，以应用程序的形式展现，如图1所示，该系统包括多模态数据处理模块200、数据存储模块300和评估模块400，具体的：

多模态数据处理模块200中又包括量表自测模块210、语音检测模块220和视频检测模块230。

其中，量表自测模块210响应于用户请求提供多种情绪测试量表，接收用户反馈的情绪测试量表填报结果，并根据情绪测试量表填报结果生成对应的自测分数。

语音检测模块220响应于用户请求以文字形式提供多种带有情感激发的问题，并接收用户针对问题反馈的答复语音；对答复语音进行语音端点检测处理，将答复语音合并为短音频；将短音频输入预训练得到的音频特征提取模型中，得到用于判断用户情感的音频特征，在离线状态下，将所述答复语音转换为文本数据，并基于预设算法得到所述文本数据的文本情感特征。

视频检测模块230响应于用户请求以视频形式提供多种带有情感激发的视频片段，并同步采集用户在观看视频片段过程中的行为视频，其中，行为视频包括用户的表情和动作；对行为视频进行预处理后输入预训练得到的视频特征提取模型中，得到用于判断用户情感的视频特征。

数据存储模块300用于存储用户的个人信息、自测分数、答复语音、文本数据、文本情感特征、音频特征、行为视频和视频特征。

评估模块400用于根据自测分数、文本情感特征、音频特征和视频特征，得到用户的情绪分析数据及评估值。

在一些实施例中，预设平台的应用程序包括微信小程序、QQ小程序、支付宝小程序、百度智能小程序、快手小程序等，示例性的，本发明选用微信小程序。

在一些实施例中，系统还包括信息获取模块100，信息获取模块100用于接收用户输入的个人信息，其中，个人信息包括年龄、性别、心理咨询记录。

在一些实施例中，基于多模态数据用户情绪自测系统可被应用于抑郁症诊断中，形成基于多模态数据的抑郁症诊断系统，同样包括信息获取模块100、多模态数据处理模块200、数据存储模块300和评估模块400，其中：

量表自测模块210响应于用户请求提供多种抑郁量表，示例性的，抑郁量表包括汉密尔顿量表、贝克抑郁量表、患者健康问卷和自评抑郁量表；接收用户反馈的抑郁量表填报结果，并根据抑郁量表填报结果生成对应的自测分数。

语音检测模块220响应于用户请求以文字形式提供用于诊断抑郁症的多种带有积极情感、消极情感、中性情感激发的问题，并接收用户针对问题反馈的答复语音；对答复语音进行语音端点检测处理，将答复语音合并为短音频；将短音频输入预训练得到的音频特征提取模型中，得到用于判断用户情感的音频特征；在离线状态下，将答复语音转换为文本数据，并基于预设算法得到文本数据的文本情感特征。

视频检测模块230响应于用户请求以视频形式提供用于诊断抑郁症的多种带有积极情感、消极情感、中性情感激发的视频片段，并同步采集用户在观看视频片段过程中的行为视频，示例性的，行为视频包括用户的表情和动作；对行为视频进行预处理后输入预训练得到的视频特征提取模型中，得到用于判断用户情感的视频特征。

评估模块400，用于根据自测分数、文本情感特征、音频特征和视频特征，得到用户的情绪分析数据以及患有抑郁症的概率值。

具体的，在信息获取模块100中，预先设计了信息收集表格，将信息收集表格存储于信息获取模块100中。当用户进入系统后，会提示进入信息获取模块100中进行个人信息的填写，其中，个人信息包括年龄、性别、近期是否参加过心理咨询等能够反应用户生理状态或心理状态的信息。

在一些实施例中，用户可采用选择已有选项的形式填写信息收集表格，示例性的，信息收集表格中，年龄栏目设有年龄选项，性别设有男和女的选项，近期是否参加过心理咨询设有是和否的选项，用户根据自身情况进行选择。

在一些实施例中，用户可采用填空的形式填写信息收集表格，根据自身情况，利用智能终端的输入设备在表格相应位置处手动输入相应的信息。

在一些实施例中，信息获取模块100还设有用户知情和用户授权模块500，当用户进入信息获取模块100后，用户知情和用户授权模块500会自动弹窗至智能设备屏幕的最上层，提示用户信息获取模块100需要获取用户的个人信息，只有用户选择同意或拒绝后，用户知情和用户授权模块500才会关闭。当用户选择同意时，系统跳转回信息获取模块100，等待用户输入个人信息；当用户选择拒绝时，系统跳转至系统首页，并提示用户个人信息填写失败。

在获取用户个人信息后，系统跳转至多模态数据处理模块200，对用户进行多模态的数据收集与处理，为后续诊断抑郁症提供数据支持。其中，对于多模态可以理解为：语音是一种模态，视频是一种模态，一个任务中用到两种或多种模态的输入就认为是多模态的。

首先跳转至多模态数据处理模块200的量表自测模块210。如图2所示，量表自测模块210中至少存储有汉密尔顿量表(HAMD)、贝克抑郁量表(BDI)、患者健康问卷(PHQ)和自评抑郁量表(SDS)等量表。

在一些实施例中，用户进入量表自测模块210后，可以主动选择其中的一份或者多份进行作答。

在一些实施例中，量表自测模块210会根据用户需要的份数，随机调取相应份数的不同量表，以供用户进行作答。

在一些实施例中，量表采用“问题-选项”的形式展现，即量表包含多个问题，每个问题下面有2～4个选项，用户根据自身情况，选择最符合的答案。

当用户完成所有问题确认提交时，量表自测模块210根据用户的作答情况，根据标准算法计算用户的抑郁量表分数，生成自测分数，并将自测分数存储于数据存储模块300中，便于后续数据调用。

完成量表自测后，系统提示用户进入语音检测模块220或视频检测模块230。需要说明的是对于先进入语音检测模块220还是先进入视频检测模块230在本发明中不作限定，可根据用户当时的实际情况和喜好进行选择。

示例性的，如图3所示，用户先进入语音检测模块220。

在一些实施例中，语音检测模块包括音频质检模块222，音频质检模块222用于预先录制环境音和用户语音样例，并对其计算音频能量及信噪比，以保证后续录制的答复语音的音频质量。同时，通过对音频能量和信噪比进行分析，还可以确定最佳的预设录音设备位置和环境设置，调整相关参数，以实现更好的语音识别效果。

语音检测模块220中存储有多个带有多种情感激发的问题，其中，多种情感至少包括有积极、消极和中性情感。用户先进入语音检测模块220后，语音检测模块220从存储库中随机调取一系列带有积极、消极和中性情感激发的问题，并逐一发送给用户。示例性的，问题包括：“你最近有什么令人开心的事情发生吗？”这类带有积极情绪的问题，“你曾经经历过让你感到失落的事情吗？”这类带有消极情绪的问题，和“今天的天气怎么样？”这类带有中性情绪的日常话题。

在一些实施例中，语音检测模块220与预设录音设备221连接，示例性的，预设录音设备221可以是智能设备的麦克风或其他录音设备。当用户接收到语音检测模块220发送来的问题后，对相应的问题进行回答，并利用预设录音设备221进行录音，生成答复语音。通过预设录音设备221将答复语音上传至语音检测模块220，并存储于数据存储模块300。

语音检测模块220对接收到的答复语音做进一步的处理与分析。

对质量合格的答复语音进行语音端点检测处理(Voice Activity Detection，VAD)，将静音部分删除，将答复语音中说话部分的音频合并为一段短音频。其中，语音端点检测是一种处理语音信号的技术，用于识别输入语音信号中的活动部分和非活动部分。

研究表明，抑郁症患者的语音特征与健康人的语音特征有所不同。例如，抑郁症患者的语速更慢、音调更低、语调变化更小等。因此将语音端点检测处理后的短音频输入预训练得到的音频特征提取模型中，得到用户的音频特征，通过对用户音频特征进行分析，可以判断用户患有抑郁症的可能性，示例性的，音频特征包括用户声音强度、频率、谱特性等。

在一些实施例中，将语音端点检测处理后的短音频分割成多个连续的音频片段后再进行特征提取。

在一些实施例中，音频特征提取模型是通过采用基于多个用户的答复语音构建的音频训练样本集对初始神经网络模型训练得到的，具体包括以下步骤：

获取多个用户的音频质量合格、且经语音端点检测处理后的短音频，将短音频分割成多个连续的音频片段，以构建音频训练样本集，即每个样本包含一段音频片段，根据各用户在量表自测模块210中获取的自测分数为每个样本添加标签；其中，标签可以直接采用自测分数，也可以根据自测分数划分具体的标签，以抑郁诊断量表为例，贝克抑郁量表(BDI)的划分规则为：0～13分为无抑郁症状、14～19分为轻度抑郁、20～28分为中度抑郁、29～63分为重度抑郁；患者健康问卷(PHQ)的划分规则为：0～4分为无抑郁症状、5～9分为轻度抑郁、10～14分为中度抑郁、15～19分为中重度抑郁、20～27分为重度抑郁。

获取初始神经网络模型，所述初始神经网络模型可以选用卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)等；将样本按批或逐一输入初始神经网络模型中，得到每个样本对应的音频特征；

采用音频训练样本集对初始神经网络模型进行训练，直至满足预设模型性能要求，最终得到音频特征提取模型。

在一些实施例中，对语音端点检测处理后的短音频直接采用特征提取算法，提取音频特征，示例性的，特征提取算法可以采用短时傅里叶变换(Short-time FourierTransform，STFT)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)等。

在一些实施例中，语音检测模块220还包括语音识别模型223，语音识别模型223中设有语音识别模型，其中，语音识别模型可以使用已经训练好的预训练模型，也可以进行自定义训练，根据需要进行模型部署和加载。将答复语音输入语音识别模型进行识别，对识别结果进行数据处理和解码操作，得到相应的文本数据，并将文本数据存储于数据存储模块300中。需要说明的是，语音识别模型223在离线状态下进行处理，预先将答复语音下载至智能设备，以实现离线转录。离线转录可以在没有网络连接的情况下进行转换，并且可以更好地保证数据的隐私和安全。

在一些实施例中，语音检测模块220还包括用户知情和用户授权模块500。当用户进入语音检测模块220后，用户知情和用户授权模块500会自动弹窗至智能设备屏幕的最上层，提示用户语音检测模块220需要获取用户的录音权限以及音频信息，只有用户选择同意或拒绝后，用户知情和用户授权模块500才会关闭。当用户选择同意时，系统跳转回语音检测模块220，等待用户进行语音回答问题；当用户选择拒绝时，系统跳转至系统首页，并提示用户音频信息获取失败。

完成语音数据的收集和处理后，系统提示用户进入视频检测模块230。若用户先进入视频检测模块230，则相应的，完成视频数据的收集和处理后，系统提示用户进入语音检测模块220。

如图4所示，视频检测模块230中存储有多个带有多种情感激发的视频片段，其中，多种情感至少包括有积极、消极和中性情感。用户进入视频检测模块230后，视频检测模块230从存储库中随机调取一系列带有积极、消极和中性情感激发的视频片段，并发送给用户。示例性的，视频片段包括：美景风光、音乐和阳光海滩等能够带给人愉悦和放松感的视频片段；落寞、忧伤和紧张等能够带给人消极情绪的视频片段；上班、做家务、吃饭等普通的日常场景下带有中性情绪的视频片段。

在一些实施例中，视频检测模块230与预设摄像设备231连接，示例性的预设摄像设备231可以是智能设备的摄像头或其他录像设备。当用户接收到视频检测模块230发送来的视频片段后，逐一观看各视频片段，并利用预设摄像设备231进行录像，生成行为视频。其中，行为视频包括用户的表情和动作，具体的，如用户的面部表情、眼神、头部姿势等。通过预设摄像设备231将行为视频上传至视频检测模块230，并存储于数据存储模块300。

视频检测模块230对接收到的行为视频做进一步的处理与分析。

在一些实施例中，将行为视频分割成多个连续的视频片段，以便于后续的特征提取。

在一些实施例中，视频检测模块230设有关键点特征提取模块，用于提取行为视频中的关键点，其中，关键点至少包括表情关键点和动作关键点，并计算行为视频中相邻帧之间用户的运动信息，以提取更多用户行为特征。其中，运动信息包括运动方向、运动速度和运动加速度等。

研究表明，抑郁症患者的非语言行为也与健康人的行为有所不同。例如，抑郁症患者可能会表现出面部表情不自然、动作缓慢、眼神呆滞等非语言行为特征。因此，将行为视频输入预训练得到的视频特征提取模型中，得到用户的视频特征，通过对用户视频特征的分析，可以判断用户患有抑郁症的可能性。

在一些实施例中，视频特征提取模型是通过采用基于多个用户的行为视频构建的视频训练样本集对初始神经网络模型训练得到的，具体包括以下步骤：

获取多个用户的行为视频，将行为视频分割成多个连续的视频片段，以构建视频训练样本集，即每个样本包含一段视频片段，根据各用户在量表自测模块210中获取的自测分数为每个样本添加标签；其中，标签可以直接采用自测分数，也可以根据自测分数划分具体的标签，以抑郁诊断量表为例，贝克抑郁量表(BDI)的划分规则为：0～13分为无抑郁症状、14～19分为轻度抑郁、20～28分为中度抑郁、29～63分为重度抑郁；患者健康问卷(PHQ)的划分规则为：0～4分为无抑郁症状、5～9分为轻度抑郁、10～14分为中度抑郁、15～19分为中重度抑郁、20～27分为重度抑郁。

获取初始神经网络模型，所述初始神经网络模型可以选用卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)等；将样本按批或逐一输入初始神经网络模型中，得到每个样本对应的视频特征；

采用视频训练样本集对初始神经网络模型进行训练，直至满足预设模型性能要求，最终得到视频特征提取模型。

在一些实施例中，视频检测模块230还包括用户知情和用户授权模块500。当用户进入视频检测模块230后，用户知情和用户授权模块500会自动弹窗至智能设备屏幕的最上层，提示用户视频检测模块230需要获取用户的录像权限以及视频信息，只有用户选择同意或拒绝后，用户知情和用户授权模块500才会关闭。当用户选择同意时，系统跳转回视频检测模块230，等待用户进行录像；当用户选择拒绝时，系统跳转至系统首页，并提示用户视频信息获取失败。

数据存储模块300用于存储用户的个人信息、自测分数、答复语音、文本数据、文本情感特征、音频特征、行为视频和视频特征，以便调用。

在一些实施例中，数据存储模块300仅存储用户最近一年内或最近20次的抑郁症诊断的数据，自动清除过期数据与无用数据。需要说明的是，“一年”和“20次”在本发明中仅是举例说明，可根据实际情况进行修改。

评估模块400从数据存储模块300中调取数据，即自测分数、文本情感特征、音频特征和视频特征，按照预设算法，根据自测分数、文本情感特征、音频特征和视频特征，得到用户的情绪分析数据以及患有抑郁症的概率值。

在一些实施例中，按照预设算法，自测分数、文本情感特征、音频特征和视频特征每个数据都会得到一个对应的抑郁症的概率值，为每个数据设置比重；每个数据的概率值按照比重综合计算，最终得到的用户患有抑郁症的概率值。

在一些实施例中，评估模块400还包括业务推荐模块410，业务推荐模块410中设有在线咨询窗口，用于在诊断之后，根据用户的病情为其推荐合适的医院或诊所，使得用户能够及时寻求心理治疗；科普抑郁症调节方法，如规律生活方式、减轻压力、深呼吸和冥想、寻求家人朋友的帮助等。

下面结合一具体实施例，对该系统做进一步说明，在该具体实施例下，基于多模态数据用户情绪自测系统设置于微信小程序中，用户A想要自我检测情绪状态，是否患有抑郁症：

用户A在智能设备的微信小程序中打开并进入基于多模态数据用户情绪自测系统。

根据系统提示，进入信息获取模块中，随即自动弹窗提示用户A授权系统获取个人信息，用户A选择同意后，在信息获取模块预设的信息收集表格中填写个人信息，完成后选择提交。

根据系统提示，进入量表自测模块，用户A选择其中的汉密尔顿量表进行作答，完成作答后选择提交，随即量表自测模块生成用户A的量表分数。

根据系统提示，进入语音检测模块，随即自动弹窗提示用户A授权系统获取录音权限以及音频信息，用户A选择同意后，接收语音检测模块发送的两组分别带有积极、消极和中性情感激发的问题，对相应的问题进行语音回答，并将答复语音用智能设备的麦克风录制下来，上传至语音检测模块。语音检测模块对答复语音进行质量检测，在合格的情况下，对答复语音进行处理，生成音频特征，提示用户音频数据已收集完成。将答复语音下载至智能设备本地，在离线状态下提取文本情感特征。

根据系统提示，进入视频检测模块，随即自动弹窗提示用户A授权系统获取录像权限以及视频信息，用户A选择同意后，接收视频检测模块发送的两组分别带有积极、消极和中性情感激发的视频片段，用户A逐一观看视频片段，并用智能设备的摄像头记录观看过程中的行为视频，上传至视频检测模块。视频检测模块对行为视频进行处理，生成视频特征，提示用户视频数据已收集完成。

系统自动跳转至评估模块，显示用户A患有抑郁症的概率值，并对用户A的情绪状态进行分析。

综上所述，本发明提供一种基于多模态数据用户情绪自测系统，包括：以组件形式设置于预设平台应用程序中的信息获取模块、多模态数据处理模块、数据存储模块和评估模块；信息获取模块用于接收用户个人信息；多模态数据处理模块中，量表自测模块用于向用户提供情绪测试量表并计算分数；语音检测模块用于向用户发送带有多种情感激发的问题，并收集答复语音；对答复语音进行VAD处理后，由预设模型提取音频特征；在离线状态下，将答复语音转换为文本数据，提取文本情感特征；视频检测模块用于向用户发送带有多种情感激发的视频，并收集用户观看时的行为视频，由预设模型提取其中的视频特征；评估模块用于根据上述得到的量表分数、文本情感特征、音频特征和视频特征，得到情绪分析数据及评估值，本发明的系统可被应用于抑郁症等心理疾病的诊断中，其采用平台应用程序为载体，实现在线的数据收集和实时处理，大大提高了数据采集和分析的效率和准确性，同时，应用程序作为一种基于互联网的在线服务平台，可以实现医疗资源共享，实现医疗服务线上化，极大降低医疗成本；收集以不同情感激发为前提的音频、文本和视频的多模态数据，数据全面且质量高，为情绪/心理的诊断和评估提供重要数据支持；支持远程诊断，患者不需要亲自前往医院，即可及时获得专业的医疗服务，降低交通成本。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态数据用户情绪自测系统，其特征在于，所述系统关联至预设平台，以应用程序的形式展现，所述系统包括：

评估模块，用于根据所述自测分数、所述文本情感特征、所述音频特征和所述视频特征，得到用户的情绪分析数据及评估值。

2.根据权利要求1所述的基于多模态数据用户情绪自测系统，其特征在于，还包括：

3.根据权利要求1所述的基于多模态数据用户情绪自测系统，其特征在于，所述系统还包括信息获取模块，所述信息获取模块用于接收用户输入的个人信息，所述个人信息包括年龄、性别、心理咨询记录。

4.根据权利要求3所述的基于多模态数据用户情绪自测系统，其特征在于，所述信息获取模块和所述多模态数据处理模块均设有用户知情和用户授权模块。

5.根据权利要求1所述的基于多模态数据用户情绪自测系统，其特征在于，所述语音检测模块包括音频质检模块，所述音频质检模块用于预先录制环境音和用户语音样例，并对其计算音频能量及信噪比，以保证后续录制的答复语音的音频质量。

6.根据权利要求5所述的基于多模态数据用户情绪自测系统，其特征在于，所述语音检测模块与预设录音设备连接，所述预设录音设备用于记录用户在回答问题时的答复语音，将所述答复语音上传至所述语音检测模块，并存储于所述数据存储模块。

7.根据权利要求5所述的基于多模态数据用户情绪自测系统，其特征在于，所述语音检测模块包括语音识别模块，所述语音识别模块中设有语音识别模型，将所述答复语音输入所述语音识别模型进行识别，并对识别结果进行数据处理和解码操作，得到所述文本数据；对所述文本数据进行数据预处理，提取所述文本情感特征。

8.根据权利要求1所述的基于多模态数据用户情绪自测系统，其特征在于，还包括：

9.根据权利要求1所述的基于多模态数据用户情绪自测系统，其特征在于，所述视频检测模块与预设摄像设备连接，所述预设摄像设备用于记录用户在观看过程中的行为视频，将所述行为视频上传至所述视频检测模块，并存储于所述数据存储模块。

10.根据权利要求1所述的基于多模态数据用户情绪自测系统，其特征在于，所述视频检测模块设有关键点特征提取模块，用于提取所述行为视频中的关键点，所述关键点包括表情关键点和动作关键点，并计算所述行为视频中相邻帧之间所述关键点的运动信息，所述运动信息包括运动方向、运动速度和运动加速度。